中圖分類(lèi)號(hào):TB9;TP183 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-5124(2025)07-0001-08
Abstract: Aiming at the problem that Transformer has insuficient ability to extract temporal features and local information in speech emotion recognition, this article proposes anew deep learning architecture that integrates BiLSTM, Transformer and 2D-CNN. This model processes diffrent types of acoustic features respectively through two independent channels:the BiLSTM-Transformer channel is mainly used to capture temporal dependence and global context information, while the 2D-CNN channel focuses on extracting spatial features in Spectrograms and Mel-spectrogram. Meanwhile,this paper designs a multi-feature fusion strategy to effectively fuse the Spectrogram, Mel-spectrogram and eGeMAPS feature set, thereby enhancing the emotion recognition ability of the model. Experiments were conducted on the two datasets of CASIA and EMO-DB, achieving accuracy rates of 93.41% and 92.46% respectively. These results are significantly superior to the existing methods based on a single acoustic feature, indicating that the proposed multi-feature fusion strategy can effectively improve the emotion recognition performance of the model. Keywords: speech emotion recognition; BiLSTM; multi-feature fusion; Transformer
0 引言
語(yǔ)音不僅是人類(lèi)交流的基本載體,也是情緒表達(dá)的重要方式[1]。隨著人工智能的發(fā)展,語(yǔ)音情感識(shí)別(speech emotion recognition,SER)在智能助手、情感計(jì)算和虛擬現(xiàn)實(shí)等人機(jī)交互場(chǎng)景中得到廣泛關(guān)注[2]。然而,如何高效提取情感特征并構(gòu)建準(zhǔn)確分類(lèi)模型仍是關(guān)鍵挑戰(zhàn)。
早期研究主要基于音高、共振峰和能量等傳統(tǒng)聲學(xué)特征[3],這些特征可分為韻律、音質(zhì)和頻譜三類(lèi)[4。其中,頻譜特征因能有效刻畫(huà)語(yǔ)音的時(shí)頻動(dòng)態(tài),在情感識(shí)別中應(yīng)用最廣。但傳統(tǒng)特征在捕捉復(fù)雜、細(xì)微情緒方面能力有限,限制了識(shí)別性能的提升[5]。
近年來(lái),深度學(xué)習(xí)憑借自動(dòng)特征學(xué)習(xí)能力在SER任務(wù)中取得顯著進(jìn)展,尤其是卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetworks,CNN)結(jié)合聲譜圖的應(yīng)用表現(xiàn)突出。聲譜圖能直觀(guān)呈現(xiàn)語(yǔ)音信號(hào)的時(shí)頻變化,有助于捕捉與情緒相關(guān)的動(dòng)態(tài)特征,而CNN通過(guò)局部感知和參數(shù)共享機(jī)制提升了建模效率。文獻(xiàn)[顯示,將聲譜圖與MFCC聯(lián)合輸人一維CNN,在RAVDESS和EMO-DB數(shù)據(jù)集上分別達(dá)到71.61% 與 86.1% 的準(zhǔn)確率。
為彌補(bǔ)CNN在建模長(zhǎng)時(shí)序信息方面的不足,研究者引人長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(longshort-termmemory,LSTM)。文獻(xiàn)驗(yàn)證了LSTM在捕捉長(zhǎng)期依賴(lài)方面的有效性,但其對(duì)靜態(tài)特征敏感,可能引發(fā)響應(yīng)延遲與不穩(wěn)定性。雙向長(zhǎng)短記憶力網(wǎng)絡(luò)(bidirectional long short-term memory, BiLSTM)通過(guò)雙向結(jié)構(gòu)增強(qiáng)時(shí)間上下文建模能力,能更好識(shí)別跨時(shí)間間隔的情感模式[8,但在處理長(zhǎng)期依賴(lài)時(shí)存在一定局限,難以保持長(zhǎng)時(shí)間的上下文信息[9]
Transformer的提出為SER帶來(lái)了新的研究方向。該模型基于自注意力機(jī)制,最初用于自然語(yǔ)言處理,因其優(yōu)異的全局建模能力與并行計(jì)算性能,逐漸應(yīng)用于SER任務(wù)[1o]。相較于LSTM,Transformer在捕捉長(zhǎng)時(shí)依賴(lài)和全局上下文信息方面表現(xiàn)更強(qiáng),訓(xùn)練效率也更高。文獻(xiàn)[11]提出的CTNet框架采用
Transformer建模多模態(tài)特征,在IEMOCAP與MELD數(shù)據(jù)集上取得顯著效果,驗(yàn)證了其在情感識(shí)別中的有效性。
盡管Transformer具備并行優(yōu)勢(shì),但其每步需全局計(jì)算,計(jì)算成本較高;而LSTM雖效率更高,卻難以建模全局依賴(lài)。為結(jié)合兩者優(yōu)勢(shì),研究者提出BiLSTM-Transformer混合架構(gòu)[12],利用BiLSTM處理局部時(shí)序信息,Transformer捕捉全局依賴(lài),提升建模能力同時(shí)降低資源消耗[13]。多頭注意力機(jī)制的引入進(jìn)一步增強(qiáng)了特征序列的并行處理能力,使該混合模型在SER任務(wù)中表現(xiàn)出良好性能,為情感識(shí)別中的長(zhǎng)期依賴(lài)建模提供了高效解決方案。
當(dāng)前深度學(xué)習(xí)模型在SER中主要關(guān)注頻譜圖或梅爾譜圖等靜態(tài)聲學(xué)特征的空間建模,較少涉及語(yǔ)音信號(hào)的動(dòng)態(tài)時(shí)序依賴(lài)。為提升識(shí)別性能,研究者開(kāi)始探索多通道特征融合方法,通過(guò)聯(lián)合建??臻g與時(shí)序特征實(shí)現(xiàn)更全面的情感表達(dá)。文獻(xiàn)[14]提出多通道設(shè)計(jì)策略,有效實(shí)現(xiàn)兩類(lèi)特征的協(xié)同建模;文獻(xiàn)[15]則通過(guò)融合全局聲學(xué)特征與局部頻譜信息,分別在無(wú)加權(quán)和加權(quán)準(zhǔn)確率上達(dá)到 74.2% 和75.4% 。此外,文獻(xiàn)[16基于多通道特征提取與一維CNN結(jié)構(gòu),進(jìn)一步驗(yàn)證了多特征融合策略在SER中的有效性。
盡管現(xiàn)有方法顯著提升了SER的分類(lèi)性能,但在模型結(jié)構(gòu)設(shè)計(jì)與特征融合策略上仍存在不足。單一模型難以全面挖掘語(yǔ)音中的多層次情感信息,多特征融合方式亦有待進(jìn)一步優(yōu)化。為此,本文提出一種融合BiLSTM-Transformer與CNN的多特征語(yǔ)音情感識(shí)別模型。該模型首先利用CNN分別從語(yǔ)譜圖和梅爾頻譜圖中提取空間特征,隨后通過(guò)BiLSTM-Transformer結(jié)構(gòu)建模其時(shí)序依賴(lài)關(guān)系。為增強(qiáng)特征表達(dá)能力,引入并行雙分支結(jié)構(gòu)融合多源特征,并結(jié)合多頭注意力機(jī)制提取高階特征。最終,融合特征經(jīng)全連接層降維后輸入Softmax分類(lèi)器,實(shí)現(xiàn)情感類(lèi)別預(yù)測(cè)。
1系統(tǒng)模型
本文提出的SER模型架構(gòu)如圖1所示,包括特征提取模塊、頻域特征提取模塊、時(shí)域特征提取模塊和特征融合模塊。頻域特征模塊利用2D-CNN分別從語(yǔ)譜圖和梅爾頻譜圖中提取局部空間特征;時(shí)域特征提取模塊采用BiLSTM-Transformer網(wǎng)絡(luò)建模語(yǔ)音信號(hào)中的長(zhǎng)時(shí)序依賴(lài)關(guān)系。此外,為了更有效地整合兩種異構(gòu)特征的優(yōu)勢(shì),本文設(shè)計(jì)了并行處理的雙通道特征提取策略,并引入多頭注意力機(jī)制進(jìn)一步捕捉特征間的內(nèi)在關(guān)聯(lián)。該融合策略不僅增強(qiáng)了不同模態(tài)特征的互補(bǔ)性,還有效提升了模型的泛化能力與情感識(shí)別準(zhǔn)確性。
1.1 頻域特征提取模塊
頻域特征提取模塊旨在從語(yǔ)譜圖和梅爾頻譜圖中提取多尺度空間特征,捕捉與情感相關(guān)的局部時(shí)頻變化。該模塊采用2D-CNN對(duì)兩種輸入分別進(jìn)行處理,先以 5×5 的卷積核提取粗粒度特征,再通過(guò) 3×3 的卷積核獲取更細(xì)致信息。每次卷積后均引入批量歸一化與ReLU激活函數(shù)以增強(qiáng)非線(xiàn)性表達(dá)能力并加快收斂。最大池化用于壓縮特征圖尺寸,降低過(guò)擬合風(fēng)險(xiǎn)。兩路特征圖經(jīng)獨(dú)立處理后沿通道維拼接,實(shí)現(xiàn)梅爾譜與語(yǔ)譜特征融合。融合結(jié)果進(jìn)一步通過(guò)多層卷積與池化層。在特征展平與全連接過(guò)程中引入Dropout機(jī)制,以提高魯棒性并緩解過(guò)擬合。最終,特征圖經(jīng)Flatten展平后通過(guò)兩層全連接降維至128維,用于后續(xù)融合處理。
1.2 時(shí)域特征提取模塊
盡管BiLSTM和Transformer均具備全局建模能力,但兩者在建模機(jī)制上具有互補(bǔ)性。BiLSTM擅長(zhǎng)捕捉局部時(shí)序依賴(lài),適用于建模語(yǔ)音的短時(shí)動(dòng)態(tài)特征,而Transformer更適合處理長(zhǎng)距離上下文關(guān)系。在本模型中,BiLSTM用于提取基礎(chǔ)時(shí)序特征,Transformer進(jìn)一步強(qiáng)化全局語(yǔ)義建模。
本模塊以eGeMAPS(extendedGenevaMinima-listicAcousticParameterSet)特征集合作為輸人特征,每 200ms 提取一幀特征,針對(duì)每段語(yǔ)音生成一個(gè)形狀為 88×t 的時(shí)序特征矩陣,其中t為時(shí)間步數(shù)量。88為每幀特征維度,該特征序列隨后被輸入至BiLSTM以實(shí)現(xiàn)局部時(shí)序信息建模。BiLSTM由前向和后向兩個(gè)LSTM層組成,前向LSTM按照時(shí)間順序處理輸入序列,捕捉前向上下文信息;后向LSTM則逆序處理輸入序列,提取后向上下文特征。本模塊如圖2所示。單向LSTM的更新公式如下:
ot=σ(Wo?[ht-1,xt]+bo)
ht=σt?tanh(Ct)
式中: σ —激活函數(shù);逐元素乘法;
xt t時(shí)刻的輸入序列;
Ct 細(xì)胞狀態(tài);
臨時(shí)細(xì)胞狀態(tài);
ht -當(dāng)前時(shí)間步的隱層狀態(tài);
(204號(hào) ht-1 前一時(shí)間步的隱層狀態(tài);
ft 遺忘門(mén);
1 記憶門(mén);
σσt 1 輸出門(mén);
bf?bi?bc? bo ——遺忘門(mén)、記憶門(mén)、細(xì)胞狀態(tài)輸出門(mén)的偏置。
通過(guò)三個(gè)門(mén)控制信息進(jìn)出單元的傳輸,最終得到與輸入序列長(zhǎng)度相同的隱層狀態(tài)序列。
在BiLSTM中,前向與后向隱藏狀態(tài)在每個(gè)時(shí)間步進(jìn)行拼接, ht 表示為
ht=[ht-f⊕ht-b]
式中: ht-f —正向傳播;
(204號(hào) ht-b —反向傳播。
在捕獲局部時(shí)序特征后,BiLSTM的輸出序列進(jìn)一步輸入至Transformer編碼器,以增強(qiáng)全局上下文建模能力。Transformer首先對(duì)每個(gè)時(shí)間步的BiLSTM輸出添加位置編碼,以保留時(shí)序位置信息:
Zt=ht+Pt
其中, ?Pt 表示第 t 個(gè)時(shí)間步的位置編碼向量。
隨后,采用多頭自注意力機(jī)制動(dòng)態(tài)建模各時(shí)間步之間的關(guān)聯(lián)性,其計(jì)算過(guò)程為:
其中, 為當(dāng)前輸入序列中每個(gè)位置的查詢(xún)向量, K 表示與
配對(duì)使用的向量, V 是根據(jù)
和 K 計(jì)算出的注意力權(quán)重向量, dk 為向量維度。 Q,κ 和 V 通過(guò)輸入特征的線(xiàn)性映射生成, W 為其對(duì)應(yīng)的權(quán)重矩陣。
Q=ZWQ,K=ZWK,V=ZWV
最終通過(guò)多頭機(jī)制并拼接各個(gè)注意力頭的結(jié)果。在自注意力建模后,Transformer編碼器通過(guò)前饋神經(jīng)網(wǎng)絡(luò)進(jìn)一步提升特征表達(dá)能力:
FFN(x)=ReLU(xW1+b1)W2+b2
1.3 特征融合模塊
為了進(jìn)一步整合來(lái)自頻域和時(shí)域的多源特征信息,本文在特征融合階段采用多頭注意力機(jī)制(multi-headattention,MHA)對(duì)融合特征進(jìn)行深層建模,并通過(guò)堆疊全連接網(wǎng)絡(luò)模塊逐步提升特征的判別能力,最終實(shí)現(xiàn)情感類(lèi)別的準(zhǔn)確預(yù)測(cè)。MHA結(jié)構(gòu)如圖3所示。
具體而言,設(shè)來(lái)自頻域分支和時(shí)域分支的特征分別記為 !
。為了統(tǒng)一特征維度,首先對(duì)兩路特征進(jìn)行拼接操作,得到融合特征向量:
Fcon=[F1;F2]∈Rd
其中 d=d1+d2 ,本研究中 d=256 。
隨后,融合后的特征向量被送入多頭注意力模塊,以充分挖掘不同特征分量之間的相互依賴(lài)關(guān)系
和重要性。多頭注意力機(jī)制首先通過(guò)線(xiàn)性映射生成 矩陣:
Q=FconWQ,K=FconWK,V=FconWV
其中, WQ,WK,WV∈Rd×d 為可學(xué)習(xí)的權(quán)重矩陣。
每個(gè)注意力頭的輸出計(jì)算如式(9)所示,將所有注意力頭的輸出拼接后,再通過(guò)線(xiàn)性變換得到多頭注意力輸出:
MHA(Fcon)=Concat(head1,…,headh)WO
式中: h —頭數(shù);
WO 一 輸出線(xiàn)性層的權(quán)重矩陣。
多頭注意力輸出后,特征被送入堆疊的全連接模塊,每個(gè)模塊包括:線(xiàn)性映射,批量歸一化層,激活函數(shù),Dropout以緩解過(guò)擬合。經(jīng)過(guò)一次全連接模塊結(jié)構(gòu)后,再接人第二個(gè)相同結(jié)構(gòu)的全連接模塊,最后,將輸出的特征送入Softmax分類(lèi)器,生成最終預(yù)測(cè)類(lèi)別。多頭注意力機(jī)制如圖3所示。
2語(yǔ)料庫(kù)描述與特征提取
2.1 情感語(yǔ)料庫(kù)
為了驗(yàn)證本文所提出語(yǔ)音情感識(shí)別模型的有效性,選用CASIA中文語(yǔ)音情感語(yǔ)料庫(kù)[17]與EMO-DB德語(yǔ)語(yǔ)音情感語(yǔ)料庫(kù)[18]。
CASIA語(yǔ)料庫(kù)由中國(guó)科學(xué)院自動(dòng)化研究所構(gòu)建,在無(wú)噪音錄音環(huán)境下由4位專(zhuān)業(yè)播音員(2男2女)錄制完成。該語(yǔ)料庫(kù)包含6種基本情感類(lèi)別,共計(jì)9600條情感語(yǔ)音。其中,公開(kāi)可獲取部分包括每類(lèi)情感各200條語(yǔ)音,總計(jì)1200條樣本。
EMO-DB語(yǔ)料庫(kù)由德國(guó)柏林工業(yè)大學(xué)采集完成,錄制過(guò)程在專(zhuān)業(yè)的聲學(xué)環(huán)境中進(jìn)行,參與者包括5位男性與5位女性播音員,共表達(dá)7種基本情感,語(yǔ)音樣本總數(shù)為535條。
2.2 特征提取
特征提取是從語(yǔ)音信號(hào)中獲取有效情感信息的關(guān)鍵步驟,對(duì)語(yǔ)音情感識(shí)別至關(guān)重要。本文利用Python的Librosa庫(kù)提取幀級(jí)頻譜特征。
語(yǔ)譜圖通過(guò)短時(shí)傅里葉變換生成,是二維時(shí)頻表示,橫軸為時(shí)間,縱軸為頻率,顏色強(qiáng)度反映能量幅值,能較好保留語(yǔ)音細(xì)節(jié),適合捕捉頻率隨時(shí)間的動(dòng)態(tài)變化。圖4展示了語(yǔ)音樣本的語(yǔ)譜圖。
梅爾頻譜圖通過(guò)將語(yǔ)譜圖的頻率軸映射到符合人類(lèi)聽(tīng)覺(jué)的梅爾刻度上,獲得更加貼合感知的時(shí)頻表示。圖5展示了語(yǔ)音樣本的梅爾頻譜圖。
eGeMAPS是一組標(biāo)準(zhǔn)化聲學(xué)參數(shù),包含88個(gè)高層語(yǔ)音特征(HSFs),由25個(gè)低級(jí)描述符計(jì)算而成,涵蓋頻域、能量及頻譜平衡等信息。作為有效的音頻特征,eGeMAPS在語(yǔ)音情感識(shí)別中廣泛應(yīng)用。本文采用OpenSmile工具從語(yǔ)音信號(hào)中提取該特征集,用于后續(xù)情感識(shí)別。
3 實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)設(shè)置
本實(shí)驗(yàn)采用了Pytorch深度學(xué)習(xí)框架實(shí)現(xiàn),具體硬件配置為:GPU使用NVIDIAGeForceRTX3080,內(nèi)存為32GB,CPU為IntelCorei7-14700K。算法仿真實(shí)驗(yàn)基于Python編程語(yǔ)言進(jìn)行實(shí)現(xiàn)。為了優(yōu)化模型的性能,實(shí)驗(yàn)選擇了Adam優(yōu)化器,并采用了分類(lèi)交叉熵?fù)p失函數(shù),將其參數(shù)設(shè)置為:批量大小為32,初始學(xué)習(xí)率為0.001,優(yōu)化迭代次數(shù)設(shè)定為100。優(yōu)化器的學(xué)習(xí)率在訓(xùn)練過(guò)程中進(jìn)行了動(dòng)態(tài)調(diào)整,以實(shí)現(xiàn)更好的收斂效果。實(shí)驗(yàn)所用的評(píng)價(jià)指標(biāo)為準(zhǔn)確率(Accuracy)、召回率(Recall)和F1值。
3.2 實(shí)驗(yàn)結(jié)果對(duì)比
3.2.1 N 值確定
在本次實(shí)驗(yàn)中,為了進(jìn)一步優(yōu)化模型,確定 N 的值,測(cè)試了不同數(shù)量的Transformer編碼器,并分別在EMO-DB和CASIA數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),旨在分析Transformer編碼器數(shù)量對(duì)模型性能的影響。實(shí)驗(yàn)結(jié)果如圖6所示。
實(shí)驗(yàn)結(jié)果顯示,當(dāng) N=3 時(shí),兩數(shù)據(jù)集均達(dá)到較高準(zhǔn)確率;但繼續(xù)增加數(shù)量后,EMO-DB準(zhǔn)確率出現(xiàn)下降,可能因過(guò)擬合或訓(xùn)練效率降低。由此,本文選取3為T(mén)ransformer編碼器數(shù)量。
3.2.2 消融實(shí)驗(yàn)結(jié)果
為驗(yàn)證不同類(lèi)型特征對(duì)模型性能的影響,本文在CASIA和EMO-DB兩個(gè)數(shù)據(jù)集上分別進(jìn)行單一特征輸入的消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。
表1單一特征消融實(shí)驗(yàn)準(zhǔn)確率
%
表1顯示了梅爾譜圖在兩數(shù)據(jù)集均表現(xiàn)最佳,優(yōu)于eGeMAPS和語(yǔ)譜圖。eGeMAPS準(zhǔn)確率最低??傮w來(lái)看,梅爾譜圖在情感識(shí)別中表現(xiàn)最優(yōu)。
為驗(yàn)證不同特征組合對(duì)模型性能的影響,本文設(shè)計(jì)了多組特征融合的消融實(shí)驗(yàn)。通過(guò)對(duì)比各組合在不同數(shù)據(jù)集上的表現(xiàn),分析特征融合的優(yōu)勢(shì)和適配性。實(shí)驗(yàn)結(jié)果見(jiàn)表2和表3。
表2顯示,多特征融合顯著提升了情感識(shí)別性能。三種特征聯(lián)合達(dá)到最高準(zhǔn)確率 93.41% 、召回率 92.86% 和F1值 93.12% 。任意兩種特征組合也優(yōu)于單一特征,其中語(yǔ)譜圖與梅爾譜圖融合準(zhǔn)確率達(dá) 92.62% ,表明兩類(lèi)頻譜特征互補(bǔ)性良好。
表3顯示,多特征融合顯著提升了EMO-DB數(shù)據(jù)集上的模型性能。三種特征融合在準(zhǔn)確率、召回率和F1值均表現(xiàn)最佳。隨著融合特征數(shù)量增加,識(shí)別準(zhǔn)確率穩(wěn)步提升,驗(yàn)證了異構(gòu)特征的互補(bǔ)性和融合優(yōu)勢(shì)。
表2CASIA多特征組合消融實(shí)驗(yàn)
%
表3EMO-DB多特征組合消融實(shí)驗(yàn)
%
3.2.3 混淆矩陣分析結(jié)果
為分析模型在各情感類(lèi)別上的表現(xiàn),繪制了CASIA和EMO-DB數(shù)據(jù)集的混淆矩陣。圖7和圖8分別展示了CASIA和EMO-DB數(shù)據(jù)集的混淆矩陣。
圖7的混淆矩陣顯示,模型在憤怒、高興和悲傷的識(shí)別準(zhǔn)確率較高,分別達(dá)到 98%.96% 和 98% 。害怕與中性情感間存在一定誤判,可能因聲學(xué)特征相似所致??傮w來(lái)看,模型在CASIA數(shù)據(jù)集表現(xiàn)穩(wěn)定,驗(yàn)證了多特征融合策略的有效性。
準(zhǔn)確率
圖8EMO-DB混淆矩陣圖
圖8的混淆矩陣顯示,模型在高興和悲傷情感上的識(shí)別準(zhǔn)確率較高,分別為 98% 和 97% ,分類(lèi)效果理想。厭惡與恐懼情感存在一定混淆,可能因發(fā)音節(jié)奏和聲調(diào)相似所致。整體來(lái)看,模型在EMO-DB數(shù)據(jù)集上表現(xiàn)穩(wěn)定,驗(yàn)證了方法的跨語(yǔ)言情感識(shí)別能力。
進(jìn)一步分析模型的識(shí)別結(jié)果發(fā)現(xiàn),“害怕\"在CASIA中易被誤判為\"中性\",\"驚訝\"在EMO-DB中也與\"厭惡\"存在混淆。原因可能在于這些情感在聲學(xué)特征上存在相似性,同時(shí)樣本數(shù)量偏少,加之個(gè)體表達(dá)差異,導(dǎo)致模型判別困難。后續(xù)研究可結(jié)合注意力可視化或聽(tīng)覺(jué)感知分析,進(jìn)一步探討易混情感的識(shí)別機(jī)制。
3.2.4模型計(jì)算與資源開(kāi)銷(xiāo)分析
為評(píng)估所提出模型的計(jì)算復(fù)雜度與資源開(kāi)銷(xiāo),本文統(tǒng)計(jì)了主要模塊的參數(shù)量,如表4所示,
從表4可以看出,整體模型參數(shù)量約為 6.2×106 其中2D-CNN分支約 2.1×106 ;時(shí)域特征提取模塊約為 3.7×106 ;融合模塊與全連接分類(lèi)器部分參數(shù)量約為 0.4×106 。在本實(shí)驗(yàn)設(shè)置的硬件平臺(tái)下,模型對(duì)單條語(yǔ)音的平均推理時(shí)間為 68ms ,可滿(mǎn)足部分實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的語(yǔ)音情感識(shí)別需求。同時(shí),在推理過(guò)程中,GPU使用率約為 64% ,CPU使用率約為 71% 具備較好的硬件適配性。
3.2.5 模型對(duì)比分析
為全面驗(yàn)證本文模型的優(yōu)越性,本文在CASIA與EMO-DB兩個(gè)數(shù)據(jù)上選取多種具有代表性的現(xiàn)有模型作為對(duì)比對(duì)象,通過(guò)比較不同模型在識(shí)別準(zhǔn)確率上的表現(xiàn),驗(yàn)證所提多特征融合結(jié)構(gòu)在情感識(shí)別任務(wù)中的有效性與魯棒性。
如表5所示,本文模型在CASIA數(shù)據(jù)集上獲得了 93.41% 的識(shí)別準(zhǔn)確率,顯著優(yōu)于其他對(duì)比方法。其中,相比DRSN-BiGRU提升了7.38個(gè)百分點(diǎn),相比2DCNN-LSTM提升了5.92個(gè)百分點(diǎn),較CNN-Transformer也提升了2.56個(gè)百分點(diǎn)。結(jié)果表明,本文在多特征融合、時(shí)空聯(lián)合建模的設(shè)計(jì),有效提升了模型的情感識(shí)別能力。
如表6所示,本文所提出的模型在EMO-DB數(shù)據(jù)集上實(shí)現(xiàn)了 92.46% 的識(shí)別準(zhǔn)確率。相比改進(jìn)語(yǔ)音處理加2-DCNN模型提升了9.06個(gè)百分點(diǎn),相比ASGRU-CNN提升了3.52個(gè)百分點(diǎn),較Dense-DCNN提升了1.4個(gè)百分點(diǎn),略高于CNN-Transformer模型的 92.04% 。在所有對(duì)比模型中表現(xiàn)最優(yōu)。結(jié)果表明本文提出的多特征融合策略與雙通道建模結(jié)構(gòu)具備良好的魯棒性與泛化能力。
3.2.6 t-SNE可視化分析
為了深入分析模型在EMO-DB數(shù)據(jù)集上的性能表現(xiàn),采用t-SNE技術(shù)對(duì)高維特征空間進(jìn)行降維可視化。效果如圖9和圖10所示。
圖9展示了EMO-DB數(shù)據(jù)集的t-SNE可視化圖,情感類(lèi)別在特征空間中分布清晰,聚類(lèi)明顯。憤怒、快樂(lè)、厭惡等情緒集中且界限分明。體現(xiàn)了模型對(duì)細(xì)粒度情感的辨識(shí)能力。
圖10展示了CASIA數(shù)據(jù)集的可視化圖,各情感類(lèi)別在嵌入空間中呈現(xiàn)出良好的聚類(lèi)效果,其中,憤怒、悲傷、驚訝等類(lèi)別邊界清晰,表明本文模型顯著提升了情感特征的判別性。
4結(jié)束語(yǔ)
本文提出基于雙通道時(shí)空融合注意力網(wǎng)絡(luò)的多特征語(yǔ)音情緒識(shí)別模型,通過(guò)將BiLSTM替代Transformer位置編碼,提升了時(shí)間上下文建模能力并降低計(jì)算復(fù)雜度;2D-CNN通道則強(qiáng)化了頻譜圖的局部特征提取。實(shí)驗(yàn)表明,該融合模型在多個(gè)數(shù)據(jù)集上表現(xiàn)優(yōu)異,顯著提升了識(shí)別準(zhǔn)確率和魯棒性,為情感計(jì)算提供了有效的結(jié)構(gòu)設(shè)計(jì)思路,具備良好的應(yīng)用前景。盡管所提模型在多個(gè)數(shù)據(jù)集上取得了較高的準(zhǔn)確率,某些相近情感類(lèi)別之間仍存在一定的識(shí)別混淆。后續(xù)研究中可嘗試結(jié)合更細(xì)粒度的聲學(xué)標(biāo)注、樣本重加權(quán)機(jī)制進(jìn)一步提升模型區(qū)分能力。
參考文獻(xiàn)
[1]SINGH Y B,GOEL S.A systematic literature review of speech emotion recognition approaches[J].Neurocomputing, 2022,492:245-263.
[2]唐咸榮,高瑞貞.聯(lián)合CTC 和 Transformer的輪式移動(dòng)機(jī)器 人語(yǔ)音控制研究[J].中國(guó)測(cè)試,2024,50(6):117-123. TANGXR,GAOR Z.Research on voice control ofwheeled mobile robots combining with CTC and Transformer[J]. China Measurement amp; Test,2024,50(6):117-123.
[3]TANKO D,DEMIR FB,DOGAN S,etal.Automated speech emotion polarization for a distance education system based on orbital local binary pattern and an appropriate sub-band selection technique[J].Multimedia Tools and Applications, 2023,82(26):40839-40856.
[4]VASUKI P.Design of hierarchical classifier to improve speech emotion recognition[J].Computer Systems Science amp; Engineering,2023,44(1).
[5]KSHIRSAGAR S R,F(xiàn)ALK T H.Quality-aware bag of modulation spectrum features for robust speech emotion recognition[J]. IEEE Transactions on Affective Computing, 2022,13(4): 1892-1905.
[6]ISSA D,DEMIRCI M F,YAZICI A.Speech emotion recognition with deep convolutional neural networks[J]. Biomedical Signal Processing and Control,2020,59:101894.
[7]張學(xué)友,石永建,李冀,等.應(yīng)用LSTM-RNN的特高壓直流 輸電系統(tǒng)繼電保護(hù)故障檢測(cè)方法[J].中國(guó)測(cè)試,2025, 51(3): 177-184. ZHANGXY,SHIYJ,LiJ,etal.Research onfault detection method of UHV DC transmission system relay protection based on LSTM-RNN[J].China Measurement amp; Test,2025, 51(3): 177-184.
[8]MISHRA S,BHATNAGARN,PRAKASAMP,et al. Speech emotion recognition and classification using hybrid deep CNN and BiLSTM model[J].Multimedia Tools and Applications, 2024,83(13):37603-37620.
[9]常澤煜,田亮.基于Bi-LSTM和Kalman的光伏發(fā)電功率超 短期預(yù)測(cè)[J].中國(guó)測(cè)試,2025,51(5):141-147. CHANG Z Y, TIAN L. Photovoltaic power generation ultrashort-term power prediction based on Bi-LSTMand Kalman[J].China measurementamp; Test,2025,51(5):141- 147.
[10] TANGXY,HUANGJZ,LINYX,et al.Speech emotion recognition via CNN-Transformer and multidimensional attention mechanism[J].Speech Communication,2025: 103242.
[11] LIAN Z,LIUB,Tao JH. CTNet: Conversational transformer network for emotion recognition[J]. IEEE/ACM Transactions onAudio,Speech,and Language Processing,2021,29:985- 1000.
[12] DONG J,ZHANG Y L,HU J. Short-term air quality prediction based on EMD-transformer-BiLSTM[J].Scientific Reports,2024,14(1):20513.
[13]LUC,ZONGY,ZHENGWM,etal.Domain invariant feature learning for speaker-independent speech emotion recognition[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2022,30: 2217-2230.
[14]KHAN M,GUEAIEB W,SADDIK A E,etal.MSER: Multimodal speech emotion recognition using cross-attention with deep fusion[J].Expert Systemswith Applications,2024, 245:122946.
[15]FENGL,LIULY,LIUSL,etal.Multimodal speech emotion recognition based on multi-scale MFCCs and multi-view attention mechanism[J]. Multimedia Tools and Applications, 2023,82(19): 28917-28935.
[16] LIU M Y, RAJ A NJ, RAJANGAM V, et al.Multiscalemultichannel featureextractionandclassification throughonedimensional convolutional neural network for Speech emotion recognition[J].Speech Communication,2024,156:103010.
[17] LIU SH,ZHANG MY,F(xiàn)ANG M,et al.Speech emotion recognition based on transfer learning from the FaceNet framework[J]. the Journal of the Acoustical Society of America,2021,149(2):1338-1345.
[18]BURKHARDT F,PAESCHKE A,ROLFES M,etal.A database of German emotional speech[C]//Conference of the International Speech Communication Association,2005.
[19] HAN T, ZHANG Z, RRN M Y,et al. Speech emotion recognition based on deep residual shrinkage network[J]. Electronics,2023,12(11): 2512.
[20] ZHAOJF,MAOX,CHENLJ.Speech emotion recognition usingdeep 1Damp; 2D CNNLSTMnetworks[J].Biomedical signal processing and control, 2019, 47: 312-323.
[21]BAUTISTAJL,LEE YK,SHINH S.Speech emotion recognition based on parallel CNN-attention networks with multi-fold data augmentation[J]. Electronics, 2022, 11(23): 3935.
[22]喬棟,陳章進(jìn),鄧良,等.基于改進(jìn)語(yǔ)音處理的卷積神經(jīng)網(wǎng)絡(luò) 中文語(yǔ)音情感識(shí)別方法[J].計(jì)算機(jī)工程,2022,48(2):281- 290. QIAOD,CHENZJ,DENGL,et al.Methodforchinese speech emotion recognition based on improved speechprocessingconvolutional neural network[J]. Computer Engineering,2022,48(2): 281-290.
[23]高鵬淇,黃鶴鳴.基于A(yíng)SGRU-CNN時(shí)空雙通道的語(yǔ)音情 感識(shí)別[J].計(jì)算機(jī)仿真,2024,41(4):180-186. GAO P Q, HUANG H M. Speech emotion recognition based on ASGRU-CNN spatiotemporal dual channel[J].Computer simulation,2024,41(4):180-186.
[24] LIL Q,XIE K,GUO XL,et al.Emotion recognition from speech with StarGAN and Dense - DCNN[J]. IET Signal Processing,2022, 16(1): 62-79.
(編輯:譚玉龍)