錢佳琪,黃鶴鳴,張會(huì)云
(1.青海師范大學(xué)計(jì)算機(jī)學(xué)院,青海 西寧 810008; 2.藏語(yǔ)智能信息處理及應(yīng)用國(guó)家重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008)
隨著人工智能(Artificial intelligence, AI)相關(guān)技術(shù)的飛速發(fā)展,人機(jī)交互不再滿足于鍵盤(pán)、鼠標(biāo)等傳統(tǒng)機(jī)械的交互方式,賦予計(jì)算機(jī)感知各種情感特征的能力正在成為AI領(lǐng)域的一個(gè)全新課題[1]。語(yǔ)音是人與人交流最簡(jiǎn)潔的方式,也是情感傳遞最直接的方式。因此,識(shí)別語(yǔ)音中包含的情感是人類情感識(shí)別的重要組成部分[2]。語(yǔ)音情感識(shí)別(Speech Emotion Recognition, SER)就是利用計(jì)算機(jī)模擬人類大腦對(duì)語(yǔ)音信號(hào)的處理機(jī)制,對(duì)輸入的語(yǔ)音信息進(jìn)行特征提取,尋找特征與情感之間的映射關(guān)系,實(shí)現(xiàn)對(duì)情感的準(zhǔn)確判斷[3]。
語(yǔ)音情感識(shí)別屬于模式識(shí)別范疇,建立更好的識(shí)別模型是它的重要研究?jī)?nèi)容[4]。
早期的研究中,多使用模式識(shí)別中常見(jiàn)的方法進(jìn)行情感識(shí)別:Banse等人[5]提取了基頻、能量等傳統(tǒng)聲學(xué)特征,選取線性判別分類器對(duì)14種情感進(jìn)行分類,取得了50.00%的識(shí)別率;Dellaert等人[6]分別采用最大似然貝葉斯分類、核回歸和K近鄰3種方法,對(duì)4類情感進(jìn)行識(shí)別實(shí)驗(yàn),發(fā)現(xiàn)KNN具有最好的識(shí)別性能;Luengo等人[7]使用支持向量機(jī),在EMO-DB數(shù)據(jù)庫(kù)上進(jìn)行情感識(shí)別,取得了78.00%的識(shí)別率。
隨著人工智能的飛速發(fā)展,神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于語(yǔ)音情感識(shí)別。Mirsamadi等人[8]構(gòu)建了基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)與注意力機(jī)制的語(yǔ)音情感識(shí)別系統(tǒng),在IEMOCAP數(shù)據(jù)庫(kù)上取得了63.50%的加權(quán)準(zhǔn)確率;余莉萍等人[9]將長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory, LSTM)中傳統(tǒng)的遺忘門和輸入門轉(zhuǎn)換為注意力門,相較于傳統(tǒng)的LSTM,召回率最高實(shí)現(xiàn)了5.50%的提升,性能得到明顯改進(jìn);Sun[10]在殘差卷積神經(jīng)網(wǎng)絡(luò)中引入性別信息,并將全連接層替換為全局平均池化(Global Average Pooling, GAP),在多個(gè)數(shù)據(jù)庫(kù)中都取得了良好的識(shí)別效果;柳長(zhǎng)源等人[11]將循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(Recurrent Convolutional Neural Network, RCNN)引入腦電情感識(shí)別,并與LSTM相結(jié)合,取得了理想的實(shí)驗(yàn)效果。
雖然,語(yǔ)音情感識(shí)別相關(guān)研究取得了一些進(jìn)展,但識(shí)別模型的性能需要進(jìn)一步提升。因此,本文提出一種基于RCNN的新模型ARCNN-GAP,其中,循環(huán)卷積層具有彈性路徑,在確保網(wǎng)絡(luò)深度的同時(shí)能夠保證優(yōu)化時(shí)的梯度回傳,有利于提取更加有效的情感特征;GAP運(yùn)算在減少計(jì)算復(fù)雜度的同時(shí)降低了過(guò)擬合風(fēng)險(xiǎn);注意力機(jī)制能使模型關(guān)注更多情感相關(guān)信息。實(shí)驗(yàn)驗(yàn)證了該模型具有更好的識(shí)別性能與泛化性。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)是一種前饋神經(jīng)網(wǎng)絡(luò),通過(guò)卷積運(yùn)算提取輸入信息中的特征[12]。RNN擅長(zhǎng)處理序列數(shù)據(jù),通過(guò)在同一層節(jié)點(diǎn)之間建立連接,使一個(gè)序列中當(dāng)前時(shí)刻的輸入與之前時(shí)刻的輸出產(chǎn)生關(guān)聯(lián),有效解決了CNN不擅長(zhǎng)對(duì)序列進(jìn)行建模的問(wèn)題[13]。
RCNN是一種結(jié)合了CNN和RNN各自優(yōu)良特性的新型網(wǎng)絡(luò)模型:它改進(jìn)了傳統(tǒng)CNN的連接方式,將多層CNN以遞歸的方式進(jìn)行層內(nèi)連接組成循環(huán)卷積層(Recurrent Convolutional Layer, RCL),再將多層RCL相連[14],如圖1所示。
圖1 RCNN結(jié)構(gòu)圖
RCNN主要是由一層標(biāo)準(zhǔn)的前饋卷積層和多層RCL共同組成。其中,RCL由多個(gè)卷積層構(gòu)成,如果將其展開(kāi)能夠得到一個(gè)深度為T+1的網(wǎng)絡(luò)。從第2層開(kāi)始,RCL中每層接受的都是來(lái)自前一層和前饋卷積層的共同信息[15]。圖2為RCL的展開(kāi)圖。
圖2 RCL展開(kāi)圖
沿時(shí)間T展開(kāi)后的RCL包含多條路徑:最短的路徑只經(jīng)過(guò)前饋卷積層,深度為1;最長(zhǎng)的一條路徑會(huì)經(jīng)過(guò)所有卷積層,深度為T+1。因此,RCL類似于一個(gè)深度為T+1的CNN,但它們之間存在一些本質(zhì)上的區(qū)別:T+1層的CNN在信息進(jìn)行輸入時(shí),輸入的時(shí)間點(diǎn)是一致的;RCL的前饋輸入在全過(guò)程中保持不變,但內(nèi)部的卷積層輸入會(huì)隨時(shí)間持續(xù)更新[11]。RCL內(nèi)部信息的傳遞可以表示為:
(1)
RCNN網(wǎng)絡(luò)中,一層RCL相當(dāng)于一個(gè)深度為T+1的網(wǎng)絡(luò),n層RCL就相當(dāng)于一個(gè)深度為n(T+1)的網(wǎng)絡(luò)。當(dāng)T增大時(shí),意味著網(wǎng)絡(luò)深度的增加,能夠提取到更加復(fù)雜的特征信息[16]。然而,單純?cè)黾泳W(wǎng)絡(luò)的深度又會(huì)增加網(wǎng)絡(luò)復(fù)雜度,因此,RCL通過(guò)一系列彈性路徑,在確保網(wǎng)絡(luò)深度的同時(shí)保證優(yōu)化時(shí)的梯度回傳。
基于RCNN的諸多優(yōu)點(diǎn),結(jié)合GAP和注意力機(jī)制,本文設(shè)計(jì)了ARCNN-GAP模型。
在卷積操作之后,通常會(huì)在Softmax之前添加全連接層用來(lái)整合卷積結(jié)果和降維,將得到的結(jié)果輸入到Softmax層進(jìn)行分類。但過(guò)多的全連接層參數(shù),會(huì)顯著增加計(jì)算負(fù)荷,容易造成過(guò)擬合。如果用GAP代替全連接層,則可以通過(guò)降低參數(shù)數(shù)量最小化過(guò)擬合效應(yīng)。
圖3對(duì)比了全連接層和GAP的結(jié)構(gòu),可以看出:全連接層把每個(gè)通道在卷積層的輸出重塑為一個(gè)一維向量;而GAP則將每個(gè)通道的輸出特征圖進(jìn)行平均,得到一個(gè)單一的值。由于GAP中沒(méi)有需要優(yōu)化的參數(shù),所以有效避免了過(guò)擬合現(xiàn)象。此外,GAP匯總了空間信息,使得輸入空間的轉(zhuǎn)換更具魯棒性[10]。
圖3 全連接層和全局平均池化
對(duì)于人類而言,眼睛掃描圖片信息時(shí),通過(guò)集中注意力大腦能夠迅速注意到目標(biāo)區(qū)域而忽略其他區(qū)域,以獲得更多的目標(biāo)信息。利用這種方法,人類僅使用有限的注意力就可以迅速?gòu)拇罅啃畔⒅凶ト£P(guān)鍵信息,極大地提高了信息的處理效率和準(zhǔn)確率。注意力機(jī)制就是讓計(jì)算機(jī)模擬人類大腦所提出的一種信息處理機(jī)制[17]。
為了降低過(guò)擬合風(fēng)險(xiǎn),提高信息處理效率和情感識(shí)別率,在RCNN中引入了注意力機(jī)制和GAP,得到新的模型ARCNN-GAP,如圖4所示。該網(wǎng)絡(luò)主要由5個(gè)部分組成,從下往上分別是輸入層、RCNN層、注意力層、GAP層、輸出層。在進(jìn)行情感識(shí)別時(shí),首先,輸入信息會(huì)進(jìn)入RCNN,用于提取更加復(fù)雜的特征信息,在RCNN中,第1層為CNN,后面由RCL和池化層交替排列;其次,特征信息在經(jīng)過(guò)RCNN后會(huì)輸入到注意力層,用以關(guān)注更多情感相關(guān)特征,RCNN的輸出信息可以表示為x=[x1,x2,…,xN],x在進(jìn)入注意力層后會(huì)先和WQ、WK、WV這3個(gè)不同維度的矩陣進(jìn)行相乘,從而得到q、k、v,用公式表示為:q=WQx,k=WKx,v=WVx,之后需要計(jì)算輸入信息的注意力權(quán)重αi,計(jì)算公式為:
圖4 ARCNN-GAP的模型結(jié)構(gòu)
(2)
其中,s(qi,k)表示點(diǎn)積操作,計(jì)算公式為:
(3)
得到注意力權(quán)重αi后,再使用加權(quán)求和對(duì)輸入信息進(jìn)行匯總,計(jì)算公式為:
(4)
通過(guò)上述計(jì)算過(guò)程可以得到注意力層最終的輸出結(jié)果;隨后,將注意力機(jī)制的輸出結(jié)果輸入到GAP層進(jìn)行全局平均池化,GAP能夠關(guān)注整體信息,在此過(guò)程中,GAP會(huì)對(duì)每一個(gè)特征圖層中的所有像素點(diǎn)求均值,每個(gè)特征圖層都會(huì)得到一個(gè)單一的值;最后,通過(guò)Softmax函數(shù)計(jì)算出輸入樣本屬于各類情感的概率,得到識(shí)別結(jié)果。
本章首先驗(yàn)證模型ARCNN-GAP的可行性,再通過(guò)與其他相關(guān)研究結(jié)果的對(duì)比驗(yàn)證該模型的優(yōu)越性。
本文共使用了2個(gè)數(shù)據(jù)庫(kù):CASIA中文語(yǔ)音情感數(shù)據(jù)庫(kù)和EM-ODB德語(yǔ)情感數(shù)據(jù)庫(kù)。CASIA是由中科院自動(dòng)化研究所錄制的中文語(yǔ)音情感數(shù)據(jù)庫(kù),由兩男兩女共4位專業(yè)發(fā)音人進(jìn)行錄制[18];EMO-DB是由柏林工業(yè)大學(xué)專業(yè)錄音室錄制的德語(yǔ)情感數(shù)據(jù)庫(kù),由10名專業(yè)演員通過(guò)回憶自身的真實(shí)經(jīng)歷來(lái)對(duì)情感進(jìn)行演繹[19]。表1列出了2個(gè)數(shù)據(jù)庫(kù)的情感種類和規(guī)模。
表1 數(shù)據(jù)庫(kù)
韻律特征是語(yǔ)音情感識(shí)別的首選特征,而基于譜的相關(guān)特征又是語(yǔ)音情感識(shí)別性能最優(yōu)的3類主流聲學(xué)特征之一[20],所以,本文融合韻律特征和譜特征進(jìn)行實(shí)驗(yàn)。表2列出了實(shí)驗(yàn)所使用的特征。
表2 特征類別
首先,在CASIA數(shù)據(jù)庫(kù)上對(duì)RCNN進(jìn)行實(shí)驗(yàn),測(cè)試得到RCL的最優(yōu)深度和最佳層數(shù)。
圖5以折線圖的形式呈現(xiàn)了CASIA數(shù)據(jù)庫(kù)上RCL不同深度和不同層數(shù)對(duì)應(yīng)的準(zhǔn)確率、精確率、召回率和F1分?jǐn)?shù)。其中,層數(shù)L從3到6,深度T從3到8共24種組合,分別用數(shù)字0至23代替。
圖5 不同深度評(píng)價(jià)指標(biāo)變化趨勢(shì)
從圖5可以看出:折線圖的整體變化趨勢(shì)是先升高再降低,除精確率外,其他各項(xiàng)指標(biāo)均在橫坐標(biāo)為15時(shí)達(dá)到最高點(diǎn),而橫坐標(biāo)為15正對(duì)應(yīng)深度L=5且T=6。由此可以得出:當(dāng)深度小于L=5且T=6時(shí),性能會(huì)隨著深度增加整體呈上升趨勢(shì);當(dāng)深度大于L=5且T=6時(shí),性能會(huì)隨著深度增加逐步下降,且訓(xùn)練時(shí)間也會(huì)逐漸增加。因此,當(dāng)深度為L(zhǎng)=5且T=6時(shí)模型的整體性能達(dá)到最優(yōu),接下來(lái)的實(shí)驗(yàn)都將在此深度上進(jìn)行。
其次,驗(yàn)證模型ARCNN-GAP在CASIA數(shù)據(jù)庫(kù)上的識(shí)別性能。
圖6展示了模型ARCNN-GAP在CASIA數(shù)據(jù)庫(kù)上的混淆矩陣。可以看出:模型的總體識(shí)別率為83.29%;中性情感的識(shí)別率達(dá)到了95.00%,其他所有情感的識(shí)別率都達(dá)到了75.00%以上;害怕和悲傷2種情感容易產(chǎn)生混淆。這是由于害怕和悲傷在效價(jià)-激活模型中都處于負(fù)激活維,而且2種情感的維度取值較為接近,所以容易產(chǎn)生混淆[21]。
圖6 ARCNN-GAP模型的混淆矩陣
模型ARCNN-GAP在CASIA數(shù)據(jù)庫(kù)中訓(xùn)練集和測(cè)試集上準(zhǔn)確率的變化趨勢(shì)見(jiàn)圖7??梢钥闯觯河?xùn)練到一定程度之后,訓(xùn)練集上的準(zhǔn)確率能達(dá)到100.00%,測(cè)試集的準(zhǔn)確率也能達(dá)到83.00%左右。說(shuō)明引入注意力機(jī)制和GAP能使系統(tǒng)達(dá)到較好的性能。
圖7 ARCNN-GAP模型的準(zhǔn)確率變化趨勢(shì)
以CNN作為基線模型,采用消融實(shí)驗(yàn)法分別測(cè)試RCNN、ARCNN、RCNN-GAP的實(shí)驗(yàn)結(jié)果,并與本文提出的模型ARCNN-GAP進(jìn)行對(duì)比,如表3所示??梢钥闯觯涸跍?zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)4項(xiàng)評(píng)價(jià)指標(biāo)中,ARCNN-GAP模型的性能均優(yōu)于基線模型和其他3種方法,特別是ARCNN-GAP模型的情感識(shí)別率為83.29%,較其他4種方法均得到了顯著提升。
表3 不同模型結(jié)果對(duì)比
將ARCNN-GAP模型的識(shí)別性能與同樣使用CASIA數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn)的文獻(xiàn)[22-24]使用的3種方法進(jìn)行對(duì)比,如表4所示。其中,文獻(xiàn)[22]提取了12類聲學(xué)特征,分別計(jì)算它們的統(tǒng)計(jì)特征,再使用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行特征選擇,最后使用支持向量機(jī)(Support Vector Machine, SVM)作為分類器進(jìn)行情感分類。文獻(xiàn)[23]提出了一種基于參數(shù)遷移和卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(Parameter Transfer and Convolutional Recurrent Neural Network, TCRNN)的語(yǔ)音情感識(shí)別模型,該方法將語(yǔ)譜圖作為網(wǎng)絡(luò)的輸入,遷移AlexNet網(wǎng)絡(luò)模型預(yù)訓(xùn)練得到卷積層參數(shù),再將CNN輸出的特征圖重構(gòu)后輸入LSTM進(jìn)行訓(xùn)練。文獻(xiàn)[24]提出了DNN-SVM模型,該模型采用多個(gè)不同的DNN來(lái)提取不同位置的瓶頸特征,并計(jì)算了不同瓶頸特征的統(tǒng)計(jì)特征,最后將所有特征融合后輸入SVM進(jìn)行情感識(shí)別。上述3種方法在CASIA數(shù)據(jù)庫(kù)中的識(shí)別率均在75.00%以下,明顯低于本文所提方法的83.29%,進(jìn)一步驗(yàn)證了本文算法的優(yōu)良性能。
表4 不同研究結(jié)果對(duì)比
最后,測(cè)試了模型ARCNN-GAP的泛化性。
為了驗(yàn)證泛化性,測(cè)試了模型ARCNN-GAP在EMO-DB語(yǔ)料庫(kù)上的準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù),結(jié)果如表5所示??梢钥闯觯涸贓MO-DB語(yǔ)料庫(kù)上,模型的識(shí)別率為75.28%,具有較好的識(shí)別效果;精確率與CASIA數(shù)據(jù)庫(kù)中的結(jié)果相差不大;其他各項(xiàng)指數(shù)也均在75.00%以上。綜合來(lái)看,模型ARCNN-GAP在EMO-DB語(yǔ)料庫(kù)上仍能取得較好的性能,說(shuō)明模型具有良好的泛化性。
表5 ARCNN-GAP模型在CASIA和EMO-DB結(jié)果對(duì)比
為了得到性能優(yōu)良的語(yǔ)音情感識(shí)別模型,本文提出了一種基于RCNN的語(yǔ)音情感識(shí)別模型ARCNN-GAP。其中,循環(huán)卷積層在確保網(wǎng)絡(luò)深度的同時(shí)能夠保證優(yōu)化時(shí)的梯度回傳,提取更多有效特征;GAP運(yùn)算在減少計(jì)算復(fù)雜度的同時(shí)降低了過(guò)擬合的風(fēng)險(xiǎn);注意力機(jī)制能使模型關(guān)注更多情感相關(guān)特性。在CASIA和EMO-DB語(yǔ)音情感數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)表明,這種新模型在語(yǔ)音情感識(shí)別中具有良好的識(shí)別率和泛化性。
未來(lái)可以繼續(xù)進(jìn)行研究探討的方向如下:1)提取語(yǔ)譜圖特征嘗試以端到端的方式進(jìn)行語(yǔ)音情感識(shí)別;2)開(kāi)展藏語(yǔ)語(yǔ)音情感識(shí)別;3)開(kāi)展多模態(tài)情感識(shí)別研究。