張雪英,張 婷,孫 穎,張 衛(wèi)
(太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,山西 晉中 030600)
語音作為人類日常交流的主要方式,其中所攜帶的情感信息越來越受到研究者的重視。情感語音識別在人機(jī)交互、模式識別和人工智能等領(lǐng)域具有廣泛應(yīng)用前景,開展情感語音識別研究對于人類社會的進(jìn)步與發(fā)展具有重要意義[1]。在語音情感識別研究中,提高識別率主要有兩個(gè)研究方向[2]。一是改進(jìn)情感語音特征的提取方式或者選取方式;在情感語音識別中,常用的聲學(xué)特征一般包括有聲學(xué)參數(shù)的統(tǒng)計(jì)特征、時(shí)序特征等[3]。二是改進(jìn)分類方法或者選取更適合的分類方法;在情感識別方法的研究上,多種模式識別的分類方法均可用于情感識別[4]:如人工神經(jīng)網(wǎng)絡(luò)ANN(artificial neural network)[5]、隱馬爾科夫模型HMM(hidden markov models)、高斯混合模型GMM(gaussian mixture models)、支持向量機(jī)SVM(support vector machines)等。相較于其他模式識別算法,SVM是在結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上建立起來的,而且可以克服小樣本數(shù)據(jù)和非線性問題,具有良好的情感分類能力。近年來,SVM 被廣泛應(yīng)用于語音情感識別中,是一種有效的語音情感識別分類器[6]。
本文在TYUT2.0情感語音數(shù)據(jù)庫的基礎(chǔ)上,提出了聲學(xué)特征與情感語音PAD數(shù)據(jù)相結(jié)合的級聯(lián)分類方法。首先根據(jù)前期PAD標(biāo)注實(shí)驗(yàn)的數(shù)據(jù)結(jié)果[7],將4類情感中混淆度高的情感按照愉悅度值高低劃分為2類,其次在此基礎(chǔ)上使用SVM識別網(wǎng)絡(luò)分別識別高低愉悅度的情感,然后在已區(qū)分高低愉悅度的基礎(chǔ)上再次使用SVM識別網(wǎng)絡(luò),最終實(shí)現(xiàn)對4種情感的分類,情感分類識別率較傳統(tǒng)僅使用聲學(xué)特征的分類識別率提高了15.4%.
本文采用的太原理工大學(xué)數(shù)字音視頻技術(shù)研究中心前期建立的TYUT2.0情感語音數(shù)據(jù)庫。該數(shù)據(jù)庫首先采用截取廣播劇的方式,包含“高興、憤怒、悲傷、驚奇”4種情感類別共237句的摘引型離散情感語音數(shù)據(jù)庫。后期在原有的離散情感語音數(shù)據(jù)庫的基礎(chǔ)上,根據(jù)PAD三維情感模型,通過心理學(xué)實(shí)驗(yàn)的方法對情感語音進(jìn)行標(biāo)注,建立了維度情感語音數(shù)據(jù)庫。該數(shù)據(jù)庫中每句語音都有對應(yīng)的PAD值,為后續(xù)的識別實(shí)驗(yàn)奠定了數(shù)據(jù)基礎(chǔ)[7]。
情感可以用連續(xù)變化的維度表示,情感維度理論通常將不同的情感映射到一個(gè)多維空間中的一個(gè)點(diǎn),該點(diǎn)的空間坐標(biāo)對應(yīng)標(biāo)識某一種情感。其中PAD三維情感模型被廣泛認(rèn)可[8]。該模型由UCLA大學(xué)的MEHRABIAN開發(fā),采用語義差異評價(jià)方法將情感分為三個(gè)維度,它們分別是:反應(yīng)說話者情感狀態(tài)的正負(fù)特征的愉悅度P(Pleasure-displeasure);反應(yīng)說話者神經(jīng)生理的激活程度是主動(dòng)的還是被動(dòng)的激活度A(Arousal-nonarousal);反應(yīng)說話者對情境和他人的控制欲望強(qiáng)弱的優(yōu)勢度D(Dominance-submissiveness)。三維情感模型是對情感空間的理論描述,建立了情感空間中不同情緒范疇的定位和關(guān)系,使不同的情感可以映射到三維空間中。根據(jù)文獻(xiàn)[7]標(biāo)注實(shí)驗(yàn)得出的PAD數(shù)據(jù),將悲傷、憤怒、高興、驚奇4種情感分布在三維情感空間,如圖1所示。
圖1 4種情感狀態(tài)在PAD三維情感空間上的分布Fig.1 Distribution of four emotional states in PAD three-dimensional emotional space
采用何種有效的語音特征參數(shù)用于情感識別對于語音情感識別研究至關(guān)重要,情感語音特征參數(shù)的優(yōu)劣直接決定情感最終識別結(jié)果的好壞。目前用于情感語音識別的聲學(xué)特征大致可歸納為韻律學(xué)特征、基于譜的相關(guān)特征和音質(zhì)特征這3種類型[9]。韻律學(xué)特征在情感語音識別領(lǐng)域已經(jīng)得到研究者的廣泛認(rèn)可[10]。文獻(xiàn)[11]研究了Mel頻率倒譜系數(shù)(mel-frequency cepstrum coefficient,MFCC)和基頻、能量、發(fā)音持續(xù)時(shí)間與三維情感空間之間的關(guān)系,結(jié)果表明MFCC參數(shù)與三維情感空間的相關(guān)性最高。所以本文主要提取情感語音的韻律特征和MFCC特征用于情感語音識別。
韻律特征可以分為3個(gè)主要方面:音高、強(qiáng)度以及時(shí)間特性。通過測量相應(yīng)提取輪廓的統(tǒng)計(jì)值來獲得特征。 其中平均值、中值、最小值、最大值和方差是最常用的統(tǒng)計(jì)值。本文從語音信號中提取了38維韻律特征。對應(yīng)的韻律特征及統(tǒng)計(jì)參數(shù)如表1所示。
表1 韻律特征及統(tǒng)計(jì)參數(shù)Table 1 Prosodic features and statistical parameters
MFCC特征是基于人耳聽覺特性提出來的,符合人類的聽覺特性,不僅能很好地度量語音頻譜的能量包絡(luò),同時(shí)倒譜運(yùn)算具有良好的解卷性能,因此MFCC特征廣泛地應(yīng)用于情感語音識別、說話人識別、音頻和音樂分類方面?;谝陨咸匦?,本文提取了MFCC前12階的偏度、峰度、均值、方差、中值共60維特征用于識別實(shí)驗(yàn)。
在本節(jié)的識別實(shí)驗(yàn)中,首先通過3組對比實(shí)驗(yàn),分別比較了僅使用韻律特征的分類識別率、僅使用MFCC特征的分類識別率及將2種特征組合的分類識別率。數(shù)據(jù)庫使用TYUT2.0情感語音數(shù)據(jù)庫,對“悲傷”、“憤怒”、“高興”、“驚奇”4種情感語音進(jìn)行分類識別。利用支持向量機(jī)SVM[12]識別情感語音采用十折交叉驗(yàn)證(10-fold cross validation)的測試方法。所有語句被平均分為10份,識別實(shí)驗(yàn)也相應(yīng)地進(jìn)行10次,輪流將其中9份作為訓(xùn)練集,1份作為測試集。取10次實(shí)驗(yàn)結(jié)果的正確率的平均值作為識別結(jié)果。采用交叉驗(yàn)證測試方法能夠有效地降低隨機(jī)因素的影響 ,提高識別結(jié)果的可信度。
單獨(dú)運(yùn)用韻律特征對情感語音進(jìn)行分類識別,混淆矩陣如表2所示。
表2 單獨(dú)使用韻律特征的情感識別混淆矩陣Table 2 Emotion recognition confusion matrix using prosodic features alone %
整體平均識別率是58.6%,其中“憤怒”的識別率最低,僅達(dá)到51.8%.此外,單獨(dú)運(yùn)用韻律特征時(shí),“憤怒—高興”的混淆率、“憤怒—驚奇”的混淆率較高。實(shí)驗(yàn)數(shù)據(jù)顯示,“悲傷”的識別率最佳達(dá)到64.5%;這是由于在TYUT2.0數(shù)據(jù)庫中,“悲傷”情感語音的發(fā)音較為緩慢,并且停頓時(shí)間較長,因此語速特征能夠較好的識別“悲傷”情感。
單獨(dú)運(yùn)用MFCC特征對情感語音進(jìn)行分類識別,混淆矩陣如表3所示。
整體平均識別率是62.3%.通過實(shí)驗(yàn)可以看到單獨(dú)運(yùn)用MFCC特征,“憤怒”和“驚奇”的識別率得到了明顯提高,“憤怒”識別率提高了10.3%,“驚奇”識別率提高了10%.由此提出假設(shè),MFCC特征中是否包含著一些韻律特征所不包含的特征信息,如果將這2種特征組合是否能提高分類識別率。
表3 單獨(dú)使用MFCC特征的情感識別混淆矩陣Table 3 Emotion recognition confusion matrix using MFCC features alone %
將MFCC和韻律特征組合進(jìn)行分類識別,混淆矩陣如表4所示。整體平均識別率達(dá)到67.5%.相較于單獨(dú)運(yùn)用韻律特征和MFCC特征,識別率有一定程度的提高。
表4 運(yùn)用韻律特征和MFCC特征組合的情感識別混淆矩陣Table 4 Using prosodic feature and MFCC feature combinationof emotion recognition confusion matrix %
由以上3組實(shí)驗(yàn)可以看出由韻律特征和MFCC特征組合的分類識別率相比之下最好,分析原因是兩種特征的組合減弱了由于單一特征無法全面描述情感信息而導(dǎo)致的識別率低的缺點(diǎn),在情感識別應(yīng)用中具有互補(bǔ)性,因此可以在一定程度上提升分類識別結(jié)果。韻律特征和MFCC特征的組合特征是后續(xù)級聯(lián)分類實(shí)驗(yàn)的特征基礎(chǔ)。
之前的分類識別方法僅僅是將聲學(xué)特征簡單地組合在一起,并沒有考慮到哪種類型特征能更好的對情感進(jìn)行分類識別,文獻(xiàn)[7]中標(biāo)注實(shí)驗(yàn)得出的4類情感語音的PAD數(shù)據(jù)如表5所示,可以看出在P(愉悅度)上分?jǐn)?shù)呈現(xiàn)明顯的高低差異,且在此維度上能夠很好的區(qū)分“憤怒—高興”和“憤怒—驚奇”這兩組混淆率較高的情感。據(jù)此將“悲傷”和“憤怒”2
表5 4種情感的PAD值Table 5 PAD value of four types emotion
種情感標(biāo)記成“低”,“高興”和“驚奇”2種情感標(biāo)記成“高”。
圖2是級聯(lián)分類流程圖,將分類過程分為2個(gè)步驟。在第一階段中將“悲傷”、“憤怒”、“高興”、“驚奇”4種情感按照表5的高低分?jǐn)?shù)標(biāo)注分為兩類:一類為“悲傷”、“憤怒”,這2種情感具有較低的愉悅度;另一類為“高興”、“驚奇”,這兩種情感具有較高的愉悅度。將聲學(xué)特征組合與愉悅度情感維度的高低分類相結(jié)合,利用SVM分類器Ⅰ來區(qū)分高愉悅度情感和低愉悅度情感,如表6混淆矩陣所示,分類識別率達(dá)到了97.5%.
圖2 級聯(lián)分類流程圖Fig.2 Cascading classification flowchart
第二階段是在第一階段的基礎(chǔ)上,對于已經(jīng)分類的高低不同的愉悅度的情感語音進(jìn)一步分類識別。同樣運(yùn)用SVM分類器Ⅱ來區(qū)分高愉悅度情感中的“高興”、“驚奇”,而SVM分類器Ⅲ來區(qū)分低愉悅度情感中的“悲傷”、“憤怒”。每一步的分類器都使用一個(gè)二進(jìn)制SVM分類。表7和表8分別顯示了第二步的分類識別結(jié)果。
表6 高低愉悅度情感分類識別結(jié)果混淆矩陣Table 6 High and low pleasure emotion classification recognition result confusion matrix %
表7 低愉悅度情感分類識別結(jié)果混淆矩陣Table 7 Low pleasure emotion classification recognition result confusion matrix %
表8 高愉悅度情感分類識別結(jié)果混淆矩陣Table 8 High pleasure emotion classification recognition result confusion matrix %
通過將圖2兩個(gè)步驟組合起來,得到總體分類識別率的混淆矩陣如表9所示,平均分類識別率達(dá)到82.9%.可以看出本文提出的級聯(lián)分類方法無論在4種情感的識別率還是平均識別率都有很大程度的提高,尤其是在情感“高興”、“憤怒”中的表現(xiàn)尤為突出,級聯(lián)分類識別率相較于運(yùn)用韻律特征和MFCC特征組合的分類識別率得到了明顯提高,識別率提高了15.4%.
表9 級聯(lián)分類識別結(jié)果混淆矩陣Table 9 Cascading classification recognition results confusion matrix %
圖3 識別結(jié)果對比圖Fig.3 Recognition result contrast diagram
圖3直觀地展示了僅用傳統(tǒng)的聲學(xué)特征和本文提出的將聲學(xué)特征與情感語音PAD數(shù)據(jù)相結(jié)合的級聯(lián)分類方法識別率對比結(jié)果。由圖3可以明顯看出,通過將聲學(xué)特征與情感語音PAD數(shù)據(jù)相結(jié)合的級聯(lián)分類方法,各類情感的識別率均有提高,尤其對于“高興”情感來說,識別率提高了26.3%.
針對運(yùn)用聲學(xué)特征(韻律特征和MFCC特征)對情感語音的分類識別性能不理想的問題,提出了將聲學(xué)特征與情感語音PAD數(shù)據(jù)相結(jié)合的級聯(lián)分類方法。從三維空間情感模型出發(fā),將聲學(xué)特征和PAD三維情感模型中對情感區(qū)分度最強(qiáng)的愉悅度相結(jié)合,通過SVM分類識別網(wǎng)絡(luò),在每一步的識別中逐漸減少樣本數(shù)目,使得后一個(gè)分類器總比前一個(gè)分類器有更精確的分類。整體識別率提高了15.4%;尤其對于“高興”情感來說,識別率提高了26.3%,可達(dá)94.7%;其他情感的識別率也大幅提高。以上分析結(jié)果表明,本文提出的級聯(lián)分類的方法與傳統(tǒng)的情感語音識別方法相比有明顯的優(yōu)勢,為語音情感識別提供了一種可靠可行的方法。但通過實(shí)驗(yàn)結(jié)果可以看出,最終結(jié)果中的一些情感的混淆率仍然很大。因此在今后的研究工作中,需要進(jìn)一步探究語音的情感特征與PAD三個(gè)維度的相關(guān)性,提取相關(guān)性高的情感特征,更有針對性地減少混淆率,從而有效提高情感識別率。