梁曉鴿,趙風(fēng)海
(南開大學(xué) 電子信息與光學(xué)工程學(xué)院,天津 300350)
近年來,人工智能技術(shù)不斷發(fā)展,為人類的工作和生活做了很大貢獻(xiàn)。為了讓機(jī)器更好的理解人類,讓人機(jī)交互更加和諧,情感分析成為我們實驗室研究的重要方向之一。而語音作為人們?nèi)粘=涣鞯闹饕绞街?,蘊(yùn)含了豐富的情感信息,因此,語音情感分析至關(guān)重要[1]。但其需要大量的訓(xùn)練樣本以及訓(xùn)練網(wǎng)絡(luò)參數(shù)難度較大,在語音情感識別(SER)領(lǐng)域還需進(jìn)行深入研究。
我院設(shè)計采用的語譜圖作為輸入,克服了傳統(tǒng)算法在提取情感特征向量時造成的誤差,并提出了基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)改進(jìn)的深度學(xué)習(xí)框架,采用中科院漢語情感數(shù)據(jù)集CASIA語料庫和柏林情感語音庫,將語譜圖輸入到三通道CNN中,每通道設(shè)置不同的卷積核,進(jìn)行多維特征提取,初步訓(xùn)練后,將得到的三組特征組合成新的情感特征向量,通過LSTM再次進(jìn)行訓(xùn)練,最終得到情感分類。實驗結(jié)果表明,本文結(jié)構(gòu)在識別多分類情感時,表現(xiàn)良好,在六分類問題上可達(dá)到平均92%的識別率。
語音情感特征工程的構(gòu)建是語音情感識別系統(tǒng)最為關(guān)鍵的一步。傳統(tǒng)方法在提取情感特征向量時,主要通過人們手動獲取,比如常見的梅爾倒譜系數(shù)(MFCC),基因頻率,短時能量等等。但在這個過程中,難免丟失部分有效的情感信息,造成識別率的下降;或者提取了多余的無用信息,造成數(shù)據(jù)的冗余,進(jìn)而影響模型的性能。
在本文中,為了避免人工提取情感過程中造成的誤差,采用語譜圖作為輸入。語譜圖通過語音信號(.wav)經(jīng)傅里葉變換得到,它幾乎完整地保留了語音信號中蘊(yùn)含的情感信息。
卷積神經(jīng)網(wǎng)絡(luò)(簡稱CNN),可以直接輸入原始圖像,它不需要任何輸入和輸出之間的數(shù)學(xué)關(guān)系,就能夠?qū)W習(xí)到輸入與輸出之間的映射關(guān)系,減少了前期預(yù)處理輸入圖像的工作量。因此,它已成為模式分類領(lǐng)域的研究熱點(diǎn)之一。典型CNN結(jié)構(gòu)通常由卷子層、池化層和全連接層組成。
長短時記憶網(wǎng)絡(luò)(簡稱LSTM)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),可以有效處理和預(yù)測在時間上前后相關(guān)的序列數(shù)據(jù)。在許多方面,如語音識別領(lǐng)域,LSTM識別率都優(yōu)于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)。
LSTM標(biāo)準(zhǔn)結(jié)構(gòu)是將多個單元像細(xì)胞一樣進(jìn)行連接,每個單元內(nèi)包括遺忘門、輸入門和輸出門。
為了更充分地訓(xùn)練從語譜圖中提取到的情感信息,本文提出了基于CNN_LSTM的多卷積核神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)—TCNN_LSTM。首先將語譜圖輸入到三通道CNN中,每個CNN通道設(shè)置不同的卷積核,每通道設(shè)置不同的卷積核,進(jìn)行多維特征提取,初步訓(xùn)練后,將得到的三組特征組合成新的情感特征向量。然后通過LSTM再次進(jìn)行訓(xùn)練。最后,輸入到全連接層得到全部特征,通過softmax函數(shù)進(jìn)行情感識別,得到最后的情感分類?;赥CNN_LSTM的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計如圖1所示,CNN層網(wǎng)絡(luò)參數(shù)如表1所示。
在LSTM層,網(wǎng)絡(luò)采用雙向LSTM結(jié)構(gòu),可以提高系統(tǒng)魯棒性,并設(shè)置抓包率為0.2%,可以加快系統(tǒng)收斂速度。
表1 CNN層網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)
本文選用中科院CASIA漢語情感數(shù)據(jù)庫和柏林Emo-DB情感數(shù)據(jù)庫進(jìn)行實驗。
語音信號預(yù)處理:語音信號→分幀加窗→傅里葉變換→語譜圖。
其中,語音信號(.wav)幀長為30毫秒,幀移15毫秒,窗函數(shù)為漢明窗。
SER實際上是一個多分類問題,基于此,本文采用混淆矩陣來衡量網(wǎng)絡(luò)的性能?;煜仃嚨男写順颖镜恼鎸嵔Y(jié)果,列代表預(yù)測結(jié)果,正對角線上的值代表正確預(yù)測的樣本數(shù)目[2]。
使用相同數(shù)量的情感語句進(jìn)行訓(xùn)練時,TCNN_LSTM在Emo-DB和CASIA兩種數(shù)據(jù)庫下四分類的情感混淆矩陣如表2和表3所示。結(jié)果表明,在不同數(shù)據(jù)庫下,四分類的平均情感識別率分別為92.5%和93.1%,結(jié)果相差為0.6%,說明本文結(jié)構(gòu)對不同語言發(fā)出的聲音信號進(jìn)行情感特征提取時,有較好的適應(yīng)性。除此之外,本文訓(xùn)練網(wǎng)絡(luò)時,數(shù)據(jù)庫較小,但該模型對“生氣”的識別率均達(dá)到95%以上,說明該網(wǎng)絡(luò)在提取和訓(xùn)練“生氣”的情感特征時效果較好;而“害怕”的識別率有所下降,說明網(wǎng)絡(luò)沒有充分學(xué)習(xí)到該情感的特征,需要更多的訓(xùn)練數(shù)據(jù),但在本文實驗條件下,該結(jié)果符合預(yù)期。
表2 TCNN_LSTM在Emo-DB下四分類情感的混淆矩陣
生氣高興害怕中性精準(zhǔn)率生氣23916495.60%高興223611194.40%害怕1152211388.40%悲傷414322991.60%平均識別率92.5%
表3 TCNN_LSTM在CASIA下四分類情感的混淆矩陣
生氣高興害怕中性精準(zhǔn)率生氣24205396.80%高興42335893.20%害怕810223989.20%悲傷131123594.00%平均識別率93.1%
其次,本文還驗證了在使用單核(3×3),雙核(3×3,5×5)以及本文提出的三核TCNN_LSTM網(wǎng)絡(luò)結(jié)構(gòu)下,在CASIA數(shù)據(jù)庫下的情感識別率,如表4所示。實驗結(jié)果表明,TCNN-LSTM情感平均識別率高于其他兩種模型,尤其是在識別相似情感時,有良好的表現(xiàn)。例如在識別“悲傷”時,較單核和雙核結(jié)構(gòu)提高了約7%。
表4 不同網(wǎng)絡(luò)結(jié)構(gòu)在CASIA數(shù)據(jù)庫下的情感識別率
結(jié)構(gòu)生氣高興害怕悲傷中性驚訝單卷積核87.25%93.01%87.18%85.94%86.21%83.77%雙卷積核88.10%94.18%87.98%85.01%87.71%85.64%TCNN_LSTM91.71%94.29%90.28%92.28%91.14%92.14%
本文將CNN和LSTM進(jìn)行網(wǎng)絡(luò)融合,并利用多個卷積核進(jìn)行多個通道的圖像信息提取,可以有效地提取到語譜圖中蘊(yùn)含的情感信息,使網(wǎng)絡(luò)結(jié)構(gòu)在識別多分類情感識有較好的表現(xiàn)。但后續(xù)還需要改進(jìn)的問題是如何在數(shù)據(jù)庫有限的情況下充分訓(xùn)練網(wǎng)絡(luò),得到更優(yōu)的模型參數(shù),以及識別更加復(fù)雜和相似的情感時,如何優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)。