田熙燕,徐君鵬,杜留鋒
基于語譜圖和卷積神經(jīng)網(wǎng)絡的語音情感識別
田熙燕1,徐君鵬1,杜留鋒2
(1.河南科技學院信息工程學院,河南新鄉(xiāng)453002;2.南京郵電大學通信與信息工程學院,江蘇南京210003)
針對語音情感識別的特征提取和分類模型構建問題,首先提出了一種基于語譜圖的特征提取方法,將語譜圖進行歸一灰度化后,利用Gabor濾波器進行紋理特征提取,并采用主成分分析(principal componentanalysis, PCA)對特征矩陣進行降維;然后分析了卷積神經(jīng)網(wǎng)絡(convolutionalneuralnetworks,CNNs)并把其作為情感識別分類器;最后在EmoDB和CASIA庫進行了不同的比對實驗.實驗結果取得了較高情感識別率,表明了所提特征提取方法的有效性以及CNNs用作情感分類的可行性.
語音情感識別;語譜圖;Gabor濾波器;PCA;CNNs
情感作為人類的一種復雜心理行為,一直是心理學、神經(jīng)學、人工智能等多個學科研究的重要內(nèi)容[1].語音作為人類社會互相交流的重要工具,不但包含需傳遞的信息內(nèi)容,還包含了豐富的情感元素,一直是情感研究的重要對象.用于識別的聲學特征大致有韻律學特征、頻譜相關特征、音質特征等,以及上述特征篩選組成的融合特征[2].這類特征往往僅集中在時域或頻域中,而對于時、頻特性關聯(lián)變化的語音信號,常丟失一些有利信息[3].語譜圖作為語音信號的可視化表示,不但能呈現(xiàn)語音時、頻特征,而且能反映出說話人的語言特征.已有研究者利用語譜圖,將圖像處理結合到語音處理中并取得了不錯的成果[4-5].
近年來深層神經(jīng)網(wǎng)絡(deep neuralnetwork,DNN)的研究取得重大突破[6].DNN多隱層的復雜結構使其具備了超強的非線性模擬能力,可以對數(shù)據(jù)實現(xiàn)近于人腦的高度抽象,2016年3月15日,世界頂級棋手李世石1∶4落敗于谷歌AlphaGo,就是其強大能力的體現(xiàn).語音識別領域,用DNN代替GMM計算HMM框架的輸出分布,誤識別率降低了近25%[7].CNNs是DNN成功模型之一,已在識別手寫體等方面獲得了成功應用.CNNs的局部感知可充分利用數(shù)據(jù)的局部特征,其采用的權值共享和降采樣計算,既避免了傳統(tǒng)識別算法中復雜的特征提取和數(shù)據(jù)重建,且相對于同隱層數(shù)的DNN,又有較低的網(wǎng)絡復雜度[8].
本文提出一種從語譜圖提取特征并利用CNNs進行分類的語音情感識別方法.該方法首先將語譜圖灰度化處理,然后利用Gabor小波和分塊PCA進行特征再提取和降維,最后送入CNNs進行識別分類.通過設計的多個比對實驗,驗證了方法的有效性.
語音情感識別系統(tǒng)如圖1所示.基于語譜圖的情感特征提取和分類器的建立是關鍵部分,另外為提高運算效率,降維約減也是必不可少的一環(huán).
圖1 語音情感識別系統(tǒng)Fig.1 Speech emotion recognition system
1.1 語譜圖Gabor濾波
語譜圖特征再提取利用Gabor濾波器.Gabor濾波器具有良好的局部空域、頻域分辨力,對相鄰灰度紋理的分析很有效.提取前首先將語音進行預處理,獲得語譜圖后進行歸一化灰度處理,灰度圖例見圖2.
圖2 歸一化語譜灰度圖Fig.2 Normalized spectrum gray image
Gabor濾波器核函數(shù)定義為
式(1)、式(2)中:u和v表示Gabor的方向和尺度;z=( x, y)表示像素點坐標;σ為高斯半徑, ku,v控制高斯窗寬度、震蕩波長及方向,kv為濾波采樣率.選取5個尺度8個方向的Gabor濾波器,
v∈(0,1,...,4),u∈(0,1,...,7).其他參數(shù):σ=2、kmax=/2、fv=.
通過分塊降采樣和PCA,在保留貢獻較大的情感因素成分的同時,使濾波后的特征矩陣,冗余信息大大約減,節(jié)省了下級分類模型訓練和識別的計算開銷.
CNNs采用前饋結構,一般由輸入層、一組或多組“卷積+降采樣”構成的特征提取層、多層感知器結構的全連接層和輸出層幾部分組成.每層有若干二維平面,每個平面包含若干神經(jīng)元(節(jié)點),圖3為經(jīng)典LeNet-5[9]層結構.
圖3 CNNs典型層結構Fig.3 Typicallayers structure ofthe CNNs
為提高輸入中相對較小數(shù)據(jù)對訓練效果的靈敏度,輸入的提取特征首先進行數(shù)據(jù)規(guī)整,矩陣統(tǒng)一尺寸并歸一化到[0,1].利用可訓練的卷積核對輸入層/降采樣層進行卷積運算,通過激活函數(shù)映射得到卷積層Cm.為了從特征參數(shù)中獲得更全面的信息,通常會使用多個不同的卷積核進行操作.一次完整的卷積過程核值不變(權值共享),相較于全連接型網(wǎng)絡,大大減少了運算規(guī)模和存儲量.另外,通過卷積運算,可以使輸入的特征增強,噪聲干擾降低.卷積的前后層映射關系用式(7)表示
式(7)中:xlj表示在第l個卷積層的第j個映射集合,xil-1表示第l-1個卷積層第i個特征集合;kli表示l層第i個特征集合與第j個映射集合之間的卷積核;θlj為加偏置項;fc(·)為激活函數(shù)(Sigmoid、Tanh函數(shù)等),“”表示不拓界二維卷積.
利用相鄰分布點的相關性,對卷積層進行聚合操作得到Sn層,這種降采樣聚合也稱為池化(Pooling).池化通過對前層信息的特征篩選,提取了主要信息,減少了輸出數(shù)目,縮小了運算規(guī)模,使訓練不易出現(xiàn)過擬合.情感特征的池化能夠減弱說話人和說話內(nèi)容的不同帶來的影響,使系統(tǒng)魯棒性和泛化性得到提升.如共振峰的不同在語譜圖中主要體現(xiàn)為能量的反轉和移位,而這種反轉移位通過池化計算而削弱,從而減小了發(fā)聲系統(tǒng)和發(fā)聲內(nèi)容的差異對識別的影響[10].池化過程用式(8)表示
式(8)中:down(·)表示l-1層到l層的降采樣運算方法,常用的方法有最大值池化和均值池化兩種;βlj和θlj分別表示乘偏置和加偏置;fp(·)為池化層激活函數(shù).
將最后一級降采樣層各矩陣特征值依次取出排成一個向量,構成柵化層R.F層與R層全連接,其任一節(jié)點j輸出可表示為
式(9)中:wi,j表示輸入向量xi與節(jié)點j的連接權值,θj為節(jié)點閥值,fh(·)表示激活函數(shù).
輸出層處理多分類問題時,全連接常采用Softmax模型[8],通過迭代法最小化其代價函數(shù)J(w),來解決分類問題.Softmax代價函數(shù)如式(10)表示
?
式(10)中:f(·)表示輸入xi為類tnj的概率;1{·}表示示性函數(shù),即當大括號內(nèi)判別式為真時,函數(shù)結果就為1,否則結果為0;為權值衰減項,用來懲罰訓練中出現(xiàn)的過大參數(shù),防止J(w)陷入局部最優(yōu).
整個網(wǎng)絡的訓練,可采用經(jīng)典的誤差反向傳播BP算法[9],連接權值和閾值初始化時,應設定在均值為0的較小均勻區(qū)間內(nèi).
實驗環(huán)境為Corei7 3.3 GHz,16 G內(nèi)存,Ubuntu系統(tǒng),軟件為MATLAB 2012b和Caffe[11]框架.語音樣本選取柏林德語情感庫(Berlin emotionalspeech database,EmoDB)和中科院自動化所(CASIA)漢語情感數(shù)據(jù)庫的數(shù)據(jù).
EmoDB由10人(5男5女)錄制,有高興(Happy,71)、困倦(Boredom,81)、憤怒(Anger,127)、悲傷(Sad,62)、恐懼(Fear,69)、討厭(Disgust,46)和中性(Neutral,79)7種情感,共535句.訓練方案采用10折交叉驗證,輪流將其中1人作驗證集,剩余9人為訓練集.CASIA庫由4人(2男2女)錄制,有高興(Happy)、驚奇(Surprise)、憤怒(Anger)、悲傷(Sad)、恐懼(Fear)和中性(Neutral)6種,包含300句相同發(fā)音和100句不同發(fā)音,共9 600條.實驗隨機選取相同發(fā)音50句共1 200條用做訓練網(wǎng)絡,其中訓練集1 000條.
目前語音情感識別中常用的分類器還有隱馬爾可夫模型、K近鄰分類和支持向量機(supportvectormachine,SVM)等,實驗選取SVM和多隱層神經(jīng)網(wǎng)絡與CNNs進行比對.SVM分類器借助Libsvm工具[12]實現(xiàn),核函數(shù)使用識別效果率高且參數(shù)易設的多項式核.CNNs在Caffe框架下搭建,采用兩類結構,參數(shù)設置如下:
(1)采用單組“卷積+降采樣層”,其他層與圖1層結構相同.卷積核設置為6個,大小為10×8;降采樣層大小1×4,采用最大值池化輸出,全連接層節(jié)點數(shù)為500,表示為CNN-1.
(2)與圖1層結構相同.第一組卷積核設置為6個,大小10×8,降采樣層大小1×4;第二組卷積核設置為12個,大小8×6,降采樣層大小1×3.兩層均采用最大值池化輸出,全連接層節(jié)點數(shù)為500,表示為CNN-2.
3.1 CNNs分類效果評價
融合特征用于語音情感識別是目前較常用的方法,文獻[13]將基頻、能量、前四共振峰等25類特征組合,采用SVM分類器,在WCGS庫中進行了負面情緒識別,取得了較好效果.大量研究表明[2,7,10,13],梅爾倒譜系數(shù)(MelFrequency Cepstrum Coefficients,MFCC)在語音的情感識別上也有較好效果.實驗選取文獻[13]所提25類特征和1~15階MFCC系數(shù)構成40維融合特征,分別在EmoDB、CASIA兩個庫中,對CNNs進行訓練和分類效果測試,結果見表1和表2.
表1 Emo DB 7類情感CNN-1識別結果Tab.1 Seven types ofemotionalrecognition results by CNN-1 in EmoDB
表2 CASIA庫6類情感CNN-1識別結果Tab.2 Six types ofemotionalrecognition results by CNN-1 in CASIA
表1為EmoDB全樣本測試.與文獻[13]81.3%的識別率比較,7種感情識別率約低6個百分點,但考慮到文獻[13]只進行了負面情緒的評價,如果表1數(shù)據(jù)只選取憤怒、悲傷、恐懼和討厭4類負面情緒,平均識別率約為82.6%.排除測試數(shù)據(jù)庫因素,加入15維MFCC后,CNN-1在7類表情以及負面表情識別上,具有較好的分類效果.表2隨機選取CASIA庫相同發(fā)音25句,6類感情各100條用于測試.其中“高興”的識別率較低,與“悲傷”和“中性”的區(qū)分度不好,而“中性”的識別效果最好.CNN-1由于隱層較少,非線性擬合效果并不突出,如果適當增加隱層,識別效果將得到提升.
3.2 提取特征及分類器效果評價
測試選取了上文所提的4類分類器,對基于語譜圖提取的特征進行識別效果評測,結果見表3和表4.表中NN-1為兩隱層BP神經(jīng)網(wǎng)絡,每個隱層500節(jié)點,對應CNN-1.測試樣本選取方案與3.1相同.
表3 Emo DB 7種情感識別結果Tab.3 Seven types ofemotionalrecognition results in EmoDB%
表4 CASIA庫6種情感識別結果Tab.4 Six types ofemotionalrecognition results in CASIA%
由表3和表4可知,在基于語譜圖提取特征的感情識別上,CNN-2在兩個語音庫的測試結果都為最高,NN-1最低,SVM作為傳統(tǒng)的分類器,在完成小樣本數(shù)據(jù)集識別任務時,仍有較好的表現(xiàn).同結構(隱層)的前提下,NN-1分別比CNN-1低1.4和1.7個百分點,而兩組“卷積+降采樣”結構,比單組有更好的識別性能.
綜合各表實驗結果可得,采用本文所提特征+CNN-2分類的識別率為最高,分析原因為:不同語音情感的頻譜分布有較大差異,Gabor濾波器將這些差異作為局部紋理特征,有效地從語譜灰度圖中提取出來;另外,在不同情感、不同人的情況下,語音的強度、速度和基頻等都有著明顯的差異,這些差異影響了頻率能量分布,相較于其他網(wǎng)絡,CNNs采用的局部卷積運算,不但可使語音特征增強、噪聲降低,而且能更好地評價能量的分布;降采樣操作具有尺度和移不變性,可以減小發(fā)聲系統(tǒng)和語音內(nèi)容的不同對情感識別的影響.
語音情感識別效果的優(yōu)劣,關鍵在于特征提取和分類器選擇.基于此,本文在特征提取、維數(shù)約減、分類器構建等方面展開研究,提出了一種源自語譜圖的特征提取方法,并將CNNs作為分類器應用到識別系統(tǒng)中.通過在EmoDB和CASIA庫上進行的不同比對實驗,首先驗證了本文特征提取方法的有效性,其次比較了4種分類器在該特征下的識別效果,最后得出了較優(yōu)的識別模型.但文中并未對更深層的CNNs進行研究和實驗,未找出具有最佳正確率與效率比的識別模型,有待后續(xù)研究.
[1]PICARDR W.Affective Computing[M].Cambridge:The MIT Press,1997.
[2]韓文靜,李海峰,阮華斌,等.語音情感識別研究進展綜述[J].軟件學報,2014,25(1):137-50.
[3]VIDHYASAHARAN S,ELIATHAMBY A,JULIEN E.On the use of speech Parameter contours for emotion recognition[J]. EURASIP Journalon Audio,Speech,and Music Processing,2013,13:732-740.
[4]陶華偉,査誠,趙力,等.面向語音情感識別的語譜圖特征提取算法[J].東南大學學報(自然科學版),2015,45(5):817-821.
[5]ZHENG W Q,YU J S,ZOU Y X.An experimental study of speech emotion recognition based on deep convolutional neural networks[C]//6th International Conference on Affective Computing and IntelligentInteraction,2015:827-831.
[6]LID,LIX.Machine learning paradigms forspeech recognition:Anoverview[J].IEEE Transactions on Audio,Speech,Lang.Process, 2013,21(5):1060-1089.
[7]周盼.基于深層神經(jīng)網(wǎng)絡的語音識別聲學建模研究[D].合肥:中國科學技術大學,2013.
[8]ABDEL-Hamid O,MOHAMED A,JIANG H,et al.Convolutional neural networks for speech recognition[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing.2014,22(10):1533-1545.
[9]LE C Y,BOTTOU L,BENGIO Y,et al.Gradient-based learning applied to document recognition[C]//Proc.IEEE,1998,USA:IEEE,1998:2278-2324.
[10]孫亞新.語音情感識別中的特征提取與識別算法研究[D].廣州:華南理工大學,2013.
[11]JIAY.Caffe:An open source convolutionalarchitecture for fastfeature embedding[CP/OL].[2016-06-22].http://caffe.berkeley vision.org,2013.
[12]CHANG C C,LIN C J.LIBSVM:a library forsupportvector machines[EB/OL].[2016-05-20].http://www.csie.ntu.edu.tw/~cjlin.
[13]SANCHEZMH,VERGYRID,FERRER L,et al.Using prosodic and spectralfeatures in detecting depression in elderly males[C]// 2011 INTERSPEECH,2011:3001-3004.
(責任編輯:盧奇)
Speech emotion recognition based on spectrogram and CNNs
TIAN Xiyan1,XU Junpeng1,DU Liufeng2
(1.SchoolofInformation Engineering,Henan Institute ofScience and Technology,Xinxiang 453003, China;2.SchoolofTelecommunications and Information Engineering,Nanjing University ofPosts and Telecommunication,Nanjing 210003,China)
To solve the problem of feature extraction and classification in speech emotion recognition,first a feature extraction method based on spectrogram was proposed,the method uses Gabor filter to extract the texture feature from the normalized spectrum gray image,and reduce these feature matrix dimension using the PCA.Then the convolutional neural networks was used as an emotion recognition classifier.Finally the performance of this system was assessed by computer simulations and a higher recognition rates were achieved respectively on the EmoDB and CASIA database through comparative experiment in different conditions,the results showed that the method proposed in this paper is effective and the CNNs can be used successfully for emotion recognition as a classifier.
speech emotion recognition;spectrogram;Gabor filter;PCA;CNNs
TN912.34
A
1008-7516(2017)02-0062-07
2016-10-26
國家青年科學基金資助項目(61501260);河南省教育廳重點項目(5201029140111)
田熙燕(1980―),女,河南舞陽人,碩士,講師.主要從事模式識別與信號處理技術研究.