張會云,黃鶴鳴
(1.青海師范大學(xué) 計算機學(xué)院,西寧 810008;2.藏語智能信息處理及應(yīng)用國家重點實驗室,西寧 810008)
語音情感識別(Speech Emotion Recognition,SER)是自動語音識別(Automatic Speech Recognition,ASR)領(lǐng)域的重要研究方向,在人機交互中具有重要作用。隨著ASR 技術(shù)的快速發(fā)展,以計算機、手機、平板等為載體的人工智能(Artificial Intelligence,AI)研究層出不窮。人機交互不再局限于識別特定說話人語音中的單一音素或語句,語音中的情感識別已成為ASR 領(lǐng)域的新興研究方向。例如:在遠(yuǎn)程教學(xué)中,實時檢測學(xué)生情緒,能夠提高教學(xué)質(zhì)量[1];在移動通信中,增加情感分析功能,能夠及時檢測客戶的情緒變化,并根據(jù)這種變化為客戶提供更好的服務(wù)[2];在醫(yī)學(xué)實踐中,實時檢測病人情緒能夠提供更好的臨床治療[3];在偵察破案中,通過檢測情感狀態(tài)能識破嫌疑人是否撒謊,保證案件順利進行[4];在電商領(lǐng)域中,通過識別用戶情感可以調(diào)控流量[5]??偠灾?,準(zhǔn)確高效地識別語音情感有助于提高人們工作、學(xué)習(xí)和生活的效率與質(zhì)量。
本文建立基于注意力機制的異構(gòu)并行卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)模型AHPCL。該模型由2 個異構(gòu)并行分支和1 個注意力機制構(gòu)成:左分支由2個全連接層和1個長短時記憶(Long Short-Term Memory,LSTM)層構(gòu)成,右分支由1 個全連接層、1 個卷積層和1 個LSTM 層構(gòu)成,注意力機制由1 個全連接層和1 個注意力層構(gòu)成。通過在EMODB、CASIA、SAVEE 等3 個語音情感數(shù)據(jù)庫上提取音高(Pitch)、過零率(Zero Crossing Rate,ZCR)、梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)等低級描述符特征,同時計算這些特征的高級統(tǒng)計函數(shù),得到共219維的特征作為輸入來評估模型性能。
SER 是指利用計算機對語音信息進行預(yù)處理,提取情感特征,建立特征值與情感的映射關(guān)系,從而對情感進行分類[6]。SER 主要包括語料庫構(gòu)建、情感信號預(yù)處理、情感聲學(xué)特征提取以及聲學(xué)建模4 個環(huán)節(jié)。在預(yù)處理方面,語音情感信號的預(yù)處理與語音識別的預(yù)處理一樣,均需要進行預(yù)加重、分幀、加窗、端點檢測等操作[7]。情感聲學(xué)特征提取是SER 中一項極具挑戰(zhàn)性的任務(wù),對語音情感的識別嚴(yán)重依賴于語音情感特征的有效性。提取關(guān)聯(lián)度更高的聲學(xué)特征更有助于確定說話人的情感狀態(tài)。通常以幀為單位提取語音信息的聲學(xué)特征,并將全局統(tǒng)計結(jié)果作為模型的輸入進行情感識別。一般而言,單一特征不能完全包含語音情感的所有有用信息,為了使SER 系統(tǒng)性能達到最優(yōu),研究人員通常融合不同特征來提高系統(tǒng)性能。高帆等[8]利用深度受限玻爾茲曼機將韻律特征、譜特征進行融合,并在EMODB 數(shù)據(jù)庫上驗證DBM-LSTM 模型的性能。實驗結(jié)果表明,與傳統(tǒng)識別模型相比,DBM-LSTM模型更適用于多特征語音情感識別任務(wù),最優(yōu)識別準(zhǔn)確率提升了11.00%。宋春曉[9]研究了語速、過零率、基頻、能量、共振峰、MFCC 等特征在EMODB 數(shù)據(jù)庫上的性能,采用SVM 識別4 類情感時獲得了82.47%的準(zhǔn)確率。GUO 等[10]提取對數(shù)梅爾頻譜特征,計算一階差分和二階差分,并融合這些統(tǒng)計值作為并行卷積循環(huán)神經(jīng)網(wǎng)絡(luò)模型的輸入,在SAVEE 數(shù)據(jù)庫上取得了59.40%的未加權(quán)召回率。
聲學(xué)模型是SER 系統(tǒng)的核心。在識別過程中,情感特征輸入到聲學(xué)模型,計算機通過相應(yīng)算法獲取識別結(jié)果。MIRSAMADI 等[11]利用LSTM 網(wǎng)絡(luò)提取深度學(xué)習(xí)特征,在IEMOCAP 數(shù)據(jù)庫上采用SVM識別情感,獲得了63.50%的識別準(zhǔn)確率。ZHANG等[12]提取了深度學(xué)習(xí)特征,在SEED 和CK+數(shù)據(jù)庫上采用循環(huán)神經(jīng)網(wǎng)絡(luò)識別情感,分別獲得了89.50%和95.40%的識別準(zhǔn)確率。傳統(tǒng)LSTM 網(wǎng)絡(luò)假設(shè)當(dāng)前時間步長的模型狀態(tài)取決于前一個時間步長的模型狀態(tài),該假設(shè)限制了網(wǎng)絡(luò)的時間依賴性建模能力,而TAO 等[13]提出的Advanced-LSTM 網(wǎng)絡(luò)較好地克服了該限制,能更好地進行時間上下文建模,獲得了55.30%的召回率,優(yōu)于傳統(tǒng)LSTM 網(wǎng)絡(luò)。
隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)越來越復(fù)雜。與已有簡單的前饋神經(jīng)網(wǎng)絡(luò)相比,RNN 的隱含層之間既有前饋連接又有內(nèi)部反饋連接[14]。RNN 能較好地處理序列數(shù)據(jù),但存在梯度問題,而LSTM 中的門控循環(huán)單元能夠較好地解決梯度問題,同時門控循環(huán)單元也能夠?qū)ο惹暗男畔⑦M行選擇性記憶[15],從而使得網(wǎng)絡(luò)的預(yù)測結(jié)果更加準(zhǔn)確。因此,本文選擇LSTM 提取語音情感的時間序列特征。但由于僅提取時間序列信息并不能很好地表征語音情感,因此同時采用卷積操作提取語音空間信息[16]。通過時間信息和空間信息共同表征語音情感,能使預(yù)測結(jié)果更理想。此外,注意力機制可以對來自不同時刻的幀特征給予不同關(guān)注[17]。
基于此,本文構(gòu)建基于注意力機制的異構(gòu)并行卷積循環(huán)神經(jīng)網(wǎng)絡(luò)模型AHPCL,如圖1 所示。該網(wǎng)絡(luò)模型由2 個異構(gòu)并行分支和1 個注意力機制構(gòu)成,其中,左分支包含2 個全連接層和1 個LSTM 層,右分支包含1 個全連接層、1 個卷積層和1 個LSTM 層,注意力機制包含1 個全連接層和1 個注意力層。拼接來自左右2 個分支結(jié)構(gòu)的數(shù)據(jù),并在注意力層將拼接后的數(shù)據(jù)與原始輸入數(shù)據(jù)中的對應(yīng)元素相乘,將相乘后的結(jié)果輸入到4 個完全相同的全連接層,最終輸入到Softmax 層進行分類。
圖1 基于注意力機制的異構(gòu)并行卷積循環(huán)神經(jīng)網(wǎng)絡(luò)Fig.1 Heterogeneous parallel convolutional recurrent neural network based on attention mechanism
AHPCL 模型在卷積層的計算如下:
其中,*表示卷積運算;h1表示第一個全連接層的輸出;F=[k1,k2,…,k512]表示卷積核;N表示濾波器個數(shù);S表示步長。
AHPCL 模型在注意層的計算如下:
其中:u表示經(jīng)過注意力機制后第一個全連接層的輸出;Fc表示數(shù)據(jù)拼接層的輸出;Multiply(·)表示對應(yīng)元素的乘積。
為評估AHPCL 模型的性能,在EMODB、CASIA 及SAVEE 情感數(shù)據(jù)庫上提取低級描述符特征,并計算相關(guān)的高級統(tǒng)計函數(shù)作為模型的輸入。
CASIA[18]是由中科院自動化研究所在干凈環(huán)境下錄制的漢語語音情感數(shù)據(jù)庫,包含4 位專業(yè)發(fā)音人在高興(Happiness,H)、恐懼(Fear,F(xiàn))、悲 傷(Sadness,Sa)、憤怒(Anger,A)、驚訝(Surprise,Su)、中性(Neural,N)等6 類情感下演繹的9 600 條情感語音,采樣率為16 kHz。目前公開的CASIA 庫中包含1 200 條情感語音,每類情感各200 條情感語音。
EMODB[19]是由柏林工業(yè)大學(xué)在專業(yè)錄音室錄制的德語語音情感數(shù)據(jù)庫,采樣率為48 kHz。從40 位說話人中選取10 位(5 男5 女)對10 句德語語句進行情感演繹并錄音,包含中性、憤怒、恐懼、高興、悲傷、厭惡(Disgust,D)、無聊(Boredom,B)等7 類情感,共800 條情感語音,考慮到每條語句的語音自然度,最終選取535 個樣本,對上述7 類情感而言,每類情感包含的樣 本數(shù)量分別為79、127、69、71、62、46、81。
SAVEE[20]是 由4 名演員演繹憤怒、厭惡、恐 懼、高興、中性、悲傷、驚訝等7 類情感得到的表演型數(shù)據(jù)庫,共480 條情感語音,語音情感數(shù)量分布相對平衡,除中性情感以外,其余6 類均有60 條情感語音。
由于上述3 個數(shù)據(jù)庫均未提供單獨的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),因此本文采用說話人相關(guān)(Speaker-Dependent,SD)策略:每類情感的所有樣本隨機等分為5 份,其中,4 份作為訓(xùn)練數(shù)據(jù),1 份作為測試數(shù)據(jù)。實驗重復(fù)10 次取均值作為模型的整體性能評估數(shù)據(jù)。
在提取音高、過零率、梅爾頻率倒譜系數(shù)、幅度(Amplitude)、譜重心(Centroid)、頻譜平坦度(Flatness)、色譜圖(Chroma)、梅爾譜圖(Mel)、譜對比度(Contrast)等低級描述符特征的基礎(chǔ)上,計算這些特征的高級統(tǒng)計函數(shù),得到共219 維特征作為AHPCL 模型的輸入,所提取與計算的全部特征見表1。
表1 低級描述符與高級統(tǒng)計函數(shù)特征Table 1 Low-level descriptors and high-level statistical function features
在CASIA、EMODB 以及SAVEE 數(shù)據(jù)庫上驗證AHPCL 模型性能。首先計算AHPCL 模型在10 次驗證中的均值,用于評價模型的整體性能。其次選取AHPCL 模型在10 次驗證中所獲得的最佳混淆矩陣。最后將AHPCL 模型與已有研究成果進行對比。
實驗運行在一臺高性能服務(wù)器上,CPU 為40 核80 線程,內(nèi)存為64 GB。使用2 塊RTX 2080 Ti GPU進行加速訓(xùn)練。利用深度學(xué)習(xí)框架Keras和TensorFlow進行模型搭建。采用的優(yōu)化器(Optimizer)為Adam,激活函數(shù)為Leaky ReLU,批處理(Batch_size)大小為32,丟棄率(Dropout)為0.5,迭代周期(Epoch)為100?;诨煜仃?、準(zhǔn)確率、精確率、未加權(quán)平均召回率(Unweighted Average Recall,UAR)、F1 得分等指標(biāo)對模型性能進行評價。
在CASIA、EMODB、SAVEE 數(shù)據(jù)庫上對AHPCL模型進行10 次驗證,模型在每個數(shù)據(jù)庫上的均值和波動程度如圖2 所示,其中:箱體中間的一條虛線表示數(shù)據(jù)的中位數(shù);箱體的上下限分別是數(shù)據(jù)的上四分位數(shù)和下四分位數(shù),這意味著箱體包含了50%的數(shù)據(jù);箱體的高度在一定程度上反映了數(shù)據(jù)的波動程度;在箱體的上方和下方各有一條線,分別表示最高準(zhǔn)確率和最低準(zhǔn)確率。
圖2 AHPCL 模型在CASIA、EMODB、SAVEE 數(shù)據(jù)庫上的箱線圖Fig.2 Box-plot of AHPCL model on CASIA,EMODB,and SAVEE databases
由圖2 可以看出:在10 次驗證中,AHPCL 模型在CASIA、EMODB、SAVEE 這3 個數(shù)據(jù)庫上的最高準(zhǔn)確率依次為86.25%、85.05%、66.67%,最低準(zhǔn)確率依次為82.50%、79.44%、56.25%,平均準(zhǔn)確率依次為84.50%、82.06%、60.84%。由此可見:1)AHPCL 模型在CASIA 數(shù)據(jù)庫上最高準(zhǔn)確率和最低準(zhǔn)確率相差最小,EMODB 數(shù)據(jù)庫次之,SAVEE 數(shù)據(jù)庫相差最大,即AHPCL 模型在CASIA 數(shù)據(jù)庫上的波動程度最小,穩(wěn)定性最好;2)AHPCL 模型在CASIA 數(shù)據(jù)庫上的均值最高,表明取得了最佳性能。AHPCL 模型在CASIA 數(shù)據(jù)庫上性能最佳的主要原因為:CASIA數(shù)據(jù)庫僅包含6 類情感,少于其他2 個數(shù)據(jù)庫中的7 類情感,類別數(shù)少有利于識別;CASIA 數(shù)據(jù)庫中樣本數(shù)據(jù)量是EMODB、SAVEE 數(shù)據(jù)庫的2 倍多,模型得到了更好訓(xùn)練。
圖3~圖5選取了AHPCL 模型在CASIA、EMODB、SAVEE 數(shù)據(jù)庫上的最佳混淆矩陣。如圖3 所示,AHPCL 模型在CASIA 數(shù)據(jù)庫上6 類情感的準(zhǔn)確率、精確率、未加權(quán)平均召回率以及F1 得分依次為86.25%、85.77%、86.02%、85.90%。從圖3 可以看出:憤怒、驚訝、中性這3 類情感的召回率均達到了90.00%以上;恐懼和悲傷這2 類情感的識別率較低且這2 類情感容易混淆,即在恐懼類情感中,有15.79%的樣本被預(yù)測為悲傷,同樣地,在悲傷類情感的識別過程中,有23.08%的樣本被預(yù)測為恐懼。如圖4 所示,AHPCL 模型在EMODB 數(shù)據(jù)庫上7 類情感的準(zhǔn)確率、精確率、未加權(quán)平均召回率以及F1 得分依次為85.05%、86.33%、84.03%、85.16%。從圖4可以看出:高興類情感的識別準(zhǔn)確率較低,33.33%的樣本被誤判為憤怒類情感,13.33%的樣本被誤判為恐懼類情感,僅有46.67%的樣本識別正確;其余情感均取得了較好的識別性能,憤怒情感的召回率達到了100.00%。如圖5 所示,AHPCL 模型在SAVEE數(shù)據(jù)庫上7 類情感的準(zhǔn)確率、精確率、未加權(quán)平均召回率以及F1 得分依次為66.67%、64.35%、64.06%、64.20%。從圖5 可以看出,7 類情感的平均召回率為64.06%,憤怒、厭惡、恐懼這3 類情感的召回率均較低,高興情感的召回率最高,達到81.82%。
圖3 AHPCL 模型在CASIA 數(shù)據(jù)庫上的混淆矩陣Fig.3 Confusion matrix of AHPCL model on CASIA database
圖4 AHPCL 模型在EMODB 數(shù)據(jù)庫上的混淆矩陣Fig.4 Confusion matrix of AHPCL model on EMODB database
圖5 AHPCL 模型在SAVEE 數(shù)據(jù)庫上的混淆矩陣Fig.5 Confusion matrix of AHPCL model on SAVEE database
AHPCL 模型與DNN-ELM[16]、LeNet[18]、WADANCNN[19]、TSFFCNN[20]、GA-BEL[21]、HuWSF[22]、LNCMSF[23]、DCNN+LSTM[24]、FDNNSA[25]、RDBN[26]、ACRNN[27]、2D CNN[28]、RF[29]等同類模型的性能對比見表2,其中,WAR 是指加權(quán)平均召回率(Weighted Average Recall,WAR),CASIA 中的WAR 與UAR 相同的原因為CASIA 中各類情感樣本數(shù)量完全相等,均為200,即各類樣本在總樣本中所占的比重(權(quán)重)是一樣的,因此這2 個指標(biāo)相等。
表2 在CASIA、EMODB、SAVEE 數(shù)據(jù)庫上AHPCL模型與現(xiàn)有模型的性能對比Table 2 Performance comparison of AHPCL model with other models on CASIA,EMODB,and SAVEE databases %
由表2 可以看出:在CASIA 數(shù)據(jù)庫上,AHPCL 模型的性能均優(yōu)于6 類基線模型,WAR 和UAR 比最好的基線模型LeNet[18]高出0.22 個百分點;在EMODB 數(shù)據(jù)庫上,AHPCL 模型的UAR 僅比DNN-ELM 模型[16]低0.53 個百分點,除此之外,AHPCL 模型的性能均優(yōu)于其余6 類基線模型;在SAVEE 數(shù)據(jù)庫上,AHPCL 模型的性能均優(yōu)于5 類基線模型的性能,而且UAR 比最優(yōu)的TSFFCNN 基線模型[20]高出1.52 個百分點。
綜上:AHPCL 模型在CASIA、SAVEE 這2 個數(shù)據(jù)庫上的性能均優(yōu)于現(xiàn)有研究成果,在EMODB 數(shù)據(jù)庫上也與現(xiàn)有研究成果相當(dāng),證明了AHPCL 模型的魯棒性和泛化性均較好。
為提高語音情感識別性能,本文提出一種基于注意力機制的異構(gòu)并行卷積循環(huán)神經(jīng)網(wǎng)絡(luò)模型AHPCL。在卷積層提取語音情感的空間譜特征,在LSTM 層提取語音情感的時間序列特征,同時基于注意力機制,根據(jù)不同的時間序列特征對語音情感的貢獻程度分配權(quán)重。實驗結(jié)果表明,該模型能同時提取語音情感的空間譜特征和時間序列特征,具有較強的魯棒性和泛化性。后續(xù)將使用向量膠囊網(wǎng)絡(luò)替代AHPCL 模型卷積層中的一維卷積,并將模型應(yīng)用于混合語言的語音情感識別中,進一步提升魯棒性和泛化性。