張會云,黃鶴鳴*,李 偉,康 杰
(1.青海師范大學計算機學院,青海 西寧 810008;2.藏文信息處理教育部重點實驗室,青海 西寧 810008;3.青海省藏文信息處理與機器翻譯重點實驗室,青海 西寧 810008)
隨著語音識別技術(shù)的迅速發(fā)展,以計算機、手機、平板等為載體的人工智能研究日新月異。各種人機交互不再局限于識別特定說話人語音中的單一音素或語句,如何識別語音中的情感已成為語音識別領(lǐng)域的新興研究方向。語音不僅包含說話人所要表達的語義信息,也蘊含說話人的情感狀態(tài)。對語音情感的有效識別能夠提升語音可懂度,使各種智能設(shè)備最大限度理解用戶意圖,從而更好地為人類服務(wù)。
情感是一種綜合了人類行為、思想和感覺的現(xiàn)象[1]。語音情感是指從語音信號中獲取相應(yīng)情感信息,情感信息主要表現(xiàn)在內(nèi)外兩個層面:內(nèi)在情感信息指心率、脈搏、血壓等無法通過外表觀察到的信息;外在情感信息指面部表情、聲音、語氣、眉頭、姿勢等通過外表能觀察到的信息。語音情感識別(Speech Emotion Recognition,SER)指利用計算機分析情感,提取出情感特征值,并利用這些參數(shù)進行相應(yīng)的建模和識別,建立特征值與情感的映射關(guān)系,最終對情感分類。
人的情感是通過面部表情、身姿、聲音及生理信號等多種模態(tài)表現(xiàn)出來的[2,3]。情感判斷可基于這些模態(tài)中的一個或多個進行,但單模態(tài)信息不全、易受干擾,而多模態(tài)信息能夠互相印證、互相補充,從而為情感判斷提供更全面、準確的信息,以提高情感識別性能。語音情感語料庫是進行SER的基礎(chǔ),大規(guī)模、多樣化、高質(zhì)量的優(yōu)質(zhì)語料庫對SER性能的提升至關(guān)重要。隨著SER的發(fā)展,各種單模態(tài)、多模態(tài)語音情感數(shù)據(jù)庫應(yīng)運而生,根據(jù)語音屬性將數(shù)據(jù)庫歸類,見表1。
表1 語音情感語料庫的歸類
表1根據(jù)語種差異、語音自然度、情感獲取方式及情感描述模型將語音情感數(shù)據(jù)庫歸類,通常研究者立足于情感描述模型,即將情感劃分為離散型情感和維度型情感進行研究。為了更直觀地區(qū)分兩類情感,表2進行了詳細總結(jié)。
由表2可知,離散型情感[2]指使用形容詞標簽將不同情感表示為相對獨立的情感類別,多屬于表演型或引導型,每類情感演繹逼真,能達到單一、易辨識的程度。維度型情感[2]通過喚醒維(Arousal)、效價維(Valence)、支配維(Dominance)等取值連續(xù)的維度將情感描述為一個多維信號,要求標注者將主觀情感直接量化為客觀實數(shù)值,如圖1所示。其中,喚醒維是對人生理活動/心理警覺水平的度量;效價維度量人的愉悅程度,情感從極度苦惱到極度開心互相轉(zhuǎn)化;支配維指影響周圍環(huán)境或反過來受其影響的一種感受。為了更完整地描述情感,研究者也將期望維(Expectation)、強度維(Intensity)加入維度描述模型。期望維是對說話人情感出現(xiàn)的突然性度量,即說話人缺乏預料和準備程度的度量;強度維指說話人偏離冷靜的程度[3]。
表2 兩種情感描述模型的區(qū)別
圖1 愉悅-喚醒模
近年來,隨著SER研究的順利開展,研究者根據(jù)情感描述模型錄制了相應(yīng)的離散型語音情感數(shù)據(jù)庫(見表3)和維度型語音情感數(shù)據(jù)庫(見表4),所列的各類情感數(shù)據(jù)庫大都公開或可以通過許可證授權(quán)得到。
表3 常用的離散型語音情感數(shù)據(jù)庫
表4 常用的維度型語音情感數(shù)據(jù)庫
由表3可見,大部分數(shù)據(jù)庫都是通過表演方式采集。事實上采用自發(fā)語音情感更合理,但使用表演型情感數(shù)據(jù)庫也有一定好處,可避免數(shù)據(jù)庫包含過多無效標簽數(shù)據(jù)。由表4可知,常用的維度型情感語料庫主要有:VAM、DEAP、RECOLA、SEMAINE、IEMOCAP等,對于維度型情感庫通常采用PAD(Pleasure-Arousal-Dominance)量表進行情感信息標注。
隨著SER的發(fā)展,越來越多的研究者嘗試將多模態(tài)信息融合來進一步提升SER性能。下面以常用的eNTERFACE05、SAVEE和RML模態(tài)數(shù)據(jù)庫為例,分析在不同數(shù)據(jù)庫上使用不同分類方法所取得的最佳性能。
表5展示了2015~2019年在SAVEE數(shù)據(jù)庫上使用不同分類方法所取得的性能。由表5可知,在SAVEE數(shù)據(jù)庫上,目前結(jié)合多模態(tài)信息的SER系統(tǒng)最優(yōu)性能可達到98.33%,這是一個非??捎^的結(jié)果。
表5 SAVEE多模態(tài)庫上不同方法性能比較
表6展示了2012~2019年部分研究者在RML模態(tài)數(shù)據(jù)庫上的研究結(jié)果。由表6可知,目前RML數(shù)據(jù)庫上各分類方法整體性能不是很好,2015年取得的最優(yōu)性能為83%。
表6 RML多模態(tài)庫上不同方法的性能比較
表7展示了2009~2019年部分研究者在eNTERFACE05模態(tài)數(shù)據(jù)庫上的實驗結(jié)果。由表7可知,文獻[10]取得了最優(yōu)的性能,其它各類方法的性能均較低。縱觀表5、表6、表7,可以得出:在SAVEE數(shù)據(jù)庫上目前各分類方法取得了最優(yōu)性能,RML次之,eNTERFACE05數(shù)據(jù)庫上性能最差。歸因于eNTERFACE05庫帶有一定噪音,而RML模態(tài)數(shù)據(jù)庫中的語料較為干凈,SAVEE數(shù)據(jù)庫是由專業(yè)演員錄制的,對于每種情感的表達到位,數(shù)據(jù)庫質(zhì)量較好。
表7 eNTERFACE05多模態(tài)庫上不同方法的性能比較
語音中情感的自動識別將是一項具有挑戰(zhàn)性的任務(wù),對情感的識別嚴重依賴于語音情感特征分類的有效性。語音情感特征可分為語言特征和聲學特征。語言特征即語音所要表達的言語信息,聲學特征則包含了說話人的語氣、語調(diào),蘊含感情色彩。提取關(guān)聯(lián)度高的情感聲學特征有助于確定說話人情感狀態(tài)。通常以幀為單位提取聲學特征,但這些特征一般以全局統(tǒng)計的方式作為模型的輸入?yún)⑴c情感識別。全局統(tǒng)計指聽覺上獨立的語句或單詞,常用的統(tǒng)計指標有極值、方差、中值、均值、偏度、最小值、最大值、峰度等。目前,常用的聲學特征包括韻律特征、譜特征和音質(zhì)特征。為了進一步提升識別性能,研究者也將個性化特征[19]與非個性化特征[20]、非線性動力學特征[21]、基于人耳聽覺特性的特征[22]以及i-vector特征[23]引入SER中,見表8。
表8 基于語音情感的聲學特征分類
表8給出了語音情感特征的分類及其所包含的成分。通常來說,單一特征不能完全包含語音情感的所有有用信息,為了使SER系統(tǒng)性能達到最優(yōu),研究者通常將不同特征融合來提高系統(tǒng)性能。下面將詳細介紹每種情感特征的內(nèi)容及其研究狀態(tài)。
2.2.1 韻律特征
韻律特征[24]在SER領(lǐng)域已被普遍使用,這些韻律特征并不影響對語音語義信息的識別,但決定著語音流暢度、自然度和清晰度。最常用的韻律特征有:時長相關(guān)特征(如語速、短時平均過零率等)、基頻相關(guān)特征(如基因頻率及其均值、變化范圍、變化率、均方差等)以及能量相關(guān)特征(如短時平均能量、短時能量變化率、短時平均振幅)等。關(guān)于韻律特征對SER性能的影響,研究者作了深入分析與研究,見表9。
表9 常用的韻律特征對SER性能的影響
表9中,Luengo等人[25]使用了由基頻和能量的最大值、最小值、均值及方差等組成的31維韻律特征集,在包含英語、法語等多語種情感語料庫上的識別性能均接近于60%;IIiou等人[26]提取了EMO-DB語料庫的35維韻律特征,系統(tǒng)性能達到51%;Rao等人[27]提取了韻律特征時長、基頻和能量對應(yīng)的全局特征和局部特征,并采用SVM在EMO-DB語料庫上對7種情感進行分類,取得了64.38%的平均識別性能;Kao等人[28]分別從幀、音節(jié)、詞語級別提取了韻律特征并對4種情感進行分類,獲得了90%的識別性能。綜合來看,韻律特征對情感識別系統(tǒng)性能的影響較大。
2.2.2 基于譜的相關(guān)特征
基于譜的相關(guān)特征體現(xiàn)了聲道形狀變化與發(fā)聲運動間的相關(guān)性[29]。譜特征參數(shù)反映信號在頻域的特性,不同情感在各個頻譜間的能量是有差異的(如表達歡快的語音在高頻區(qū)間能量較高,表達哀愁的語音在同樣的頻段能量較低)?;谧V的相關(guān)特征主要分為線性頻譜特征和倒譜特征。常用的線性譜特征有:線性預測系數(shù)(Linear Prediction Cofficients,LPC)、對數(shù)頻率功率系數(shù)(Log Frequency Power Coefficients,LFPC)及單邊自相關(guān)線性預測系數(shù)(One-sided Autocorrelation Linear Predictor Coefficient,OSALPC)等;常用的倒譜特征有:線性預測倒譜系數(shù)(Linear Prediction Cepstrum Cofficients,LPCC)、單邊自相關(guān)線性預測倒譜系數(shù)(One-sided Autocorrelation Linear Predictor Cepstral-based Coefficient,OSALPCC)以及梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstrum Cofficients,MFCC)等。關(guān)于譜特征對SER性能的影響,部分研究者作了深入分析與研究,見表10。
表10 常用的譜特征對SER性能的影響
表10中,Bou-Ghazale等人[30]研究了倒譜特征和線性譜特征在壓力語音檢測任務(wù)中的性能表現(xiàn),實驗表明,單獨使用LPC、OSALPC、LPCC、OSALPCC、MFCC特征時,識別率為:48.19%、53.51%、68.71%、65.87%、69.45%,平均識別率為61.15%。從實驗結(jié)果可以看出,倒譜特征的區(qū)分能力明顯優(yōu)于線性譜特征;Nwe等人[31]使用LPCC、MFCC和LFPC特征時識別率分別為56.1%、59%和78.1%,平均識別率為64.4%,通過實驗證明線性譜特征的識別性能優(yōu)于倒譜特征。目前,MFCC表現(xiàn)出的性能最優(yōu),是因為其具有計算簡單、區(qū)分能力好等優(yōu)點。臺灣學者選用MFCC、LPCC等作為特征向量,使用SVM對普通話5種情感進行分類,獲得了84.2%的識別結(jié)果[32]。文獻[33]單獨使用MFCC特征對情感語音進行分類,平均識別率為62.3%。綜合來看,譜特征對SER的性能影響較大。
2.2.3 音質(zhì)特征
音質(zhì)特征是語音的一種主觀評價指標,描述了聲門激勵信號的性質(zhì),包括發(fā)聲者語態(tài)、喘息、顫音及哽咽,用來衡量語音純凈度、清晰度和辨識度[34]。通過對聲音質(zhì)量的評價,可獲得說話人的生理、心理信息并對其情感狀態(tài)進行區(qū)分。用于衡量聲音質(zhì)量的聲學特征一般有:共振峰頻率、帶寬、頻率擾動、振幅擾動、諧波噪聲比、閃光及聲門參數(shù)等。關(guān)于聲音質(zhì)量對SER的影響,其代表性成果見表11。
表11 常用的音質(zhì)特征對SER性能的影響
表11中,Lahaie等人[35]研究了5種音頻帶寬對SER的影響,平均識別率為71.65%。Li等人[36]提取了頻率微擾和振幅微擾等音質(zhì)參數(shù),僅有MFCC特征時,基線性能是65.5%,將MFCC與頻率微擾或振幅微擾結(jié)合時,系統(tǒng)性能都會有所改善,將三者結(jié)合,系統(tǒng)最佳性能可達到69.1%。Wang等人[37]等人提出了一種傅里葉參數(shù)特征,使用該特征時SER性能可達到76.00%。綜合來看,音質(zhì)特征對SER性能也有一定的影響。
2.2.4 其它特征
為進一步提升SER性能,一些研究者致力于提取更為有效的特征,經(jīng)過大量實驗驗證,除韻律特征、譜特征和音質(zhì)特征外,目前對系統(tǒng)性能影響較大的一些特征有:個性化特征與非個性化特征、基于人耳聽覺特性的特征、i-vector特征以及非線性特征,下面詳述各類特征及其典型的研究成果。
個性化與非個性化特征:根據(jù)語音情感聲學特征是否受說話人自身說話特征影響,將其分為個性化和非個性化特征。個性化特征反映數(shù)值大小,包含大量反映說話人語音特點的情感信息;非個性化特征反映說話過程中情感的變化情況,包含一定情感信息且不易受說話人影響,具有很好的相通性和穩(wěn)定性。文獻[38]提取了基頻、短時能量、共振峰的變化率及它們的變化范圍、方差等統(tǒng)計值作為非個性化特征,同時提取了傳統(tǒng)基頻、共振峰等個性化特征,并用這兩類特征進行實驗,結(jié)果表明非個性化特征對SER有著很大的作用,且這類特征受不同說話者的影響更小。
基于人耳聽覺特性的特征:過零峰值幅度特征(Zero Crossings with Peak Amplitudes,ZCPA)使用過零率和峰值的非線性壓縮表示語音信號的頻率及幅度信息,是一種基于人耳聽覺特性的特征。文獻[39]將其引入SER領(lǐng)域分析了分幀時長對ZCPA特征的影響,提出了一種將Teager能量算子與ZCPA特征相結(jié)合的過零最大Teager能量算子特征。該特征保留了人耳聽覺特性,同時也將最能表征情感狀態(tài)的特征融入系統(tǒng),實驗結(jié)果表明,該特征取得了較好的識別性能。
i-vector特征:i-vector是一種將GMM超向量空間映射到低維總變異空間的技術(shù)。文獻[40]首先提取1584維的聲學特征訓練語音情感狀態(tài)識別的通用模型,然后在該模型基礎(chǔ)上為每類情感狀態(tài)生成用于i-vector的GMM超向量并將其串聯(lián),最后使用SVM來識別4類語音情感,結(jié)果表明,該特征取得了較好的識別性能。
非線性特征:基于語音混沌特性,應(yīng)用非線性動力學模型分析情感語音信號,可以提取該模型下情感語音信號的非線性特征及常用的聲學特征(韻律特征和MFCC)。文獻[41]將非線性動力學模型與情感語音信號處理相結(jié)合,提取了最小延遲時間、關(guān)聯(lián)維數(shù)、Kolmogorov熵、最大Lyapunov指數(shù)和Hurst指數(shù)等情感非線性特征,并將非線性特征與不同特征融合驗證了該組合下的情感識別性能,研究了EMO-DB語料庫下語音信號混沌特性對SER性能的影響,結(jié)果表明,在單獨使用韻律特征、MFCC和非線性特征時,識別率分別為:69.00%、80.88%和72.00%。將三者融合最佳識別率可達到87.62%。從識別結(jié)果來看,非線性特征有效表征了情感信號的混沌特性,與傳統(tǒng)聲學特征結(jié)合后,SER性能得到了顯著提升。
2.2.5 特征融合
單一特征僅從某個側(cè)面對語音情感信息進行表達,不能很好地表示語音情感,為此,研究者通常將多個單特征融合以進一步提升SER性能,見表12。
表12 融合特征對系統(tǒng)性能的影響(%)
表12中,趙力等人[42]將韻律特征與音質(zhì)特征相結(jié)合,平均識別性能達到了75%;Amol等人[43]將MFCC、過零率、能量等特征相結(jié)合,獲得了98.31%的性能。文獻[44]提取了短時平均能量、短時平均幅度,短時過零率、線性預測系數(shù)、MFCC和短時自相關(guān)系數(shù)特征并將其融合,最佳識別率可達到79.75%。綜合來看,融合的特征集對情感識別性能均優(yōu)于單一特征集。
2.2.6 深度學習特征
深度學習方法在處理復雜的海量數(shù)據(jù)建模上有很大優(yōu)勢,可以直接從原始數(shù)據(jù)中自動學習最佳特征表示,通過組合低層特征形成更加抽象的高層特征以表示屬性的類別或特征,從而有效捕獲隱藏于數(shù)據(jù)內(nèi)部的特征,近年來部分研究者將其應(yīng)用于語音情感特征提取,并取得了一定成果,見表13。
表13 深度學習特征對系統(tǒng)性能的影響
表13給出了深度學習特征對SER性能的影響。文獻[45]將瓶頸結(jié)構(gòu)(Bottle-Neck,BN)和深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)相結(jié)合來提取新的特征,其識別率可達到93.66%。文獻[46]采用CNN進行特征提取,其最佳識別率可達到93.7%;文獻[47]使用RNN提取語音情感特征,識別率可達到86.50%;文獻[48]使用LSTM提取語音情感特征,在CHiME中可進一步將錯誤率降到22%。綜合來看,使用深度學習自動提取的特征對SER性能的影響較大,更有利于SER的順利進行。
要對情感狀態(tài)進行判斷,首先要建立SER模型。識別模型是SER系統(tǒng)的核心。在識別過程中,情感特征輸入到識別網(wǎng)絡(luò),計算機通過相應(yīng)算法獲取識別結(jié)果。顯然,識別網(wǎng)絡(luò)的選擇與識別結(jié)果有著直接關(guān)系。早期的統(tǒng)計模型與識別算法大致有以下幾種:決策樹、基于模型匹配法、貝葉斯網(wǎng)絡(luò)、動態(tài)時間規(guī)整(Dynamic Time Warping,DTW)、多層感知機(Multilayer Perceptron,MLP)、高斯混合模型(Gaussian Mixture Model,GMM)、支持向量機(Support Vector Machine,SVM)、隱馬爾科夫模型(Hidden Markov Model,HMM)等。隨著深度學習的興起,SER模型訓練階段逐漸采用人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)。目前SER領(lǐng)域使用最廣泛的模式分類器有:HMM、GMM、SVM及ANN等,下面著重介紹這幾種算法。
2.3.1 隱馬爾科夫模型
HMM是一種模擬了人類語言過程的時變特征有參表示法。在SER領(lǐng)域有著廣泛的應(yīng)用,部分研究者在常用的一些情感語料庫(如EMO-DB、IEMOCAP等)上提取了韻律特征、譜特征、音質(zhì)特征等各類特征,并采用HMM作為分類器識別不同語音情感,相關(guān)研究成果見表14。
表14 HMM分類算法對系統(tǒng)性能的影響
從表14可以看出,使用HMM作為分類器時,Yun等人的研究成果達到了89.00%的識別率,文獻[50,55]的研究成果也取得了不錯的成績,但最低性能僅有62.5%。
2.3.2 高斯混合模型
GMM是一種可擬合所有概率分布函數(shù)的概率密度估計模型。相關(guān)研究者提取了基頻、能量、MFCC、共振峰及其它特征并將各類特征以不同方式融合,在各類情感語料庫上做了大量實驗,見表15。
從表15可以看出,使用GMM進行SER識別時,Neiberg等人的研究成果達到了90.00%的識別率,這是一個非常不錯的識別結(jié)果。除此之外,文獻[57-58]也取得了可觀的識別結(jié)果。
表15 GMM分類算法對系統(tǒng)性能的影響
2.3.3 支持向量機
SVM是一種通過核函數(shù)將特征向量由低維空間映射到高維空間實現(xiàn)最優(yōu)分類的算法。在SER領(lǐng)域有著廣泛的應(yīng)用,相關(guān)研究成果見表16。
表16 SVM分類算法對系統(tǒng)性能的影響
從表16可以看出,目前很多研究者使用SVM作為分類器進行SER并取得了非常可觀的識別結(jié)果。其中,文獻[70]達到了90.00%的最優(yōu)識別性能,其他研究者的研究成果也僅次于文獻[70]。綜合來看,該方法有利于提高SER的性能。
2.3.4 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是基于生物學中神經(jīng)網(wǎng)絡(luò)的基本原理,在理解和抽象了人腦結(jié)構(gòu)和外界刺激響應(yīng)機制后,以網(wǎng)絡(luò)拓撲知識為理論基礎(chǔ),模擬人腦對復雜信息處理機制的一種數(shù)學模型、數(shù)學方法、計算結(jié)構(gòu)或系統(tǒng)。該網(wǎng)絡(luò)具有一定的智能性,表現(xiàn)為良好的容錯性、層次性、可塑性、自適應(yīng)性,并具有聯(lián)想記憶、非線性和并行分布式處理能力。
近年來,ANN依靠其強大的特征提取及對海量數(shù)據(jù)進行深層次建模能力,在SER領(lǐng)域取得了顯著進步。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)以及各種自編碼器等新的網(wǎng)絡(luò)模型、分支及算法不斷被提出,這些模型對SER系統(tǒng)性能的提升產(chǎn)生了深遠影響。下面以RNN、CNN以及各種自編碼器為例,詳細介紹SER的研究進展。
循環(huán)神經(jīng)網(wǎng)絡(luò):RNN中存在環(huán)形結(jié)構(gòu),其隱含層內(nèi)部神經(jīng)元互連,可存儲網(wǎng)絡(luò)序列輸入的歷史信息,是一種專門用于處理時序數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),其時序并非僅僅指代時間概念上的順序,也可理解為序列化數(shù)據(jù)間的相對位置,如語音中的發(fā)音順序、某個英語單詞的拼寫順序等。若相關(guān)信息與預測位置間隔較小,RNN可順利預測;反之,RNN無法學習這些信息。為此,研究者對RNN進行了改進,提出了長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM),該網(wǎng)絡(luò)能夠?qū)W習長期依賴關(guān)系,已被廣泛使用,相關(guān)研究成果見表17。
表17 循環(huán)神經(jīng)網(wǎng)絡(luò)對SER性能的影響
在表17中,文獻[75]使用LSTM網(wǎng)絡(luò)從語音中自動發(fā)現(xiàn)與情感相關(guān)特征,并使用局部注意機制以集中于語音信號中更突出情感的特定區(qū)域,在IEMOCAP語料庫上進行了評估,結(jié)果表明,與使用固定特征的傳統(tǒng)SVM情感識別算法相比,該方法可提供更好的性能。然而,傳統(tǒng)LSTM假設(shè)當前時間步長狀態(tài)取決于前一個時間步長,該假設(shè)限制了時間依賴性建模能力,文獻[76]提出了Advanced-LSTM網(wǎng)絡(luò),可更好地進行時間上下文建模,實驗表明,該網(wǎng)絡(luò)性能優(yōu)于傳統(tǒng)LSTM。文獻[77]提出了一種時空循環(huán)神經(jīng)網(wǎng)絡(luò)(Spatial-Temporal Recurrent Neural Network,STRNN),將信號源時空信息的特征集成到統(tǒng)一時空依賴模型。通過沿不同方向遍歷每個時間切片空間區(qū)域,利用多方向RNN層捕捉長距離上下文信息。實驗表明,所提出的方法更具競爭力。
卷積神經(jīng)網(wǎng)絡(luò):CNN是一種專門用來處理具有類似網(wǎng)格結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),如時間序列數(shù)據(jù)和圖像數(shù)據(jù)。CNN引入了權(quán)值共享及降采樣的概念,大幅減少了訓練參數(shù)數(shù)量,在提高訓練速度的同時有效防止過擬合,相關(guān)研究成果見表18。
在表18中,文獻[78]使用CNN對4種情感進行識別,平均識別率可達到73.32%。文獻[79]提出了基于時間調(diào)制信號的3維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(Three-dimensional Convolutional Recurrent Neural Network,3D-CRNN)端到端SER系統(tǒng)。卷積層用于提取高級多尺度頻譜時間表示,循環(huán)層用于提取情感識別的長期依賴性。在IEMOCAP數(shù)據(jù)庫上進行驗證,結(jié)果表明,所提出方法具有更高識別精度。文獻[80]針對CNN訓練中卷積核權(quán)值的更新算法進行改進,使卷積核權(quán)值的更新算法與迭代次數(shù)有關(guān)聯(lián),提高CNN的表達能力。在語音情感特征提取方面,選擇提取語音特征應(yīng)用最廣泛的MFCC方法進行實驗,同時為了增加情感語音之間的特征差異性,將語音信號經(jīng)過預處理后得到的MFCC特征數(shù)據(jù)矩陣做變換,提高SER性能。對改進CNN的SER模型進行實驗分析,結(jié)果表明,改進后的SER算法的錯誤率比傳統(tǒng)算法減少約7%。
表18 卷積神經(jīng)網(wǎng)絡(luò)對SER性能的影響
自編碼器:自編碼器是一種能夠通過無監(jiān)督學習學到輸入數(shù)據(jù)高效表示的ANN。輸入數(shù)據(jù)的這一高效表示稱為編碼,其維度一般遠小于輸入數(shù)據(jù),使得自編碼器可用于降維。此外,自編碼器可作為強大的特征檢測器,應(yīng)用于神經(jīng)網(wǎng)絡(luò)預訓練,相關(guān)研究成果見表19。
表19 自編碼器對SER性能的影響
在表19中,文獻[81]提出了新的無監(jiān)督域適應(yīng)模型—Universum自編碼器,以改善在不匹配的訓練和測試條件下系統(tǒng)性能。在標記的GEWEC數(shù)據(jù)庫和其它3個未標記的數(shù)據(jù)庫上的實驗結(jié)果表明,與其它域適應(yīng)方法相比,該方法具有較好的效果。文獻[82]使用半監(jiān)督階梯網(wǎng)絡(luò)進行情感識別,最佳識別率可達到59.7%。
SER是一個新興的研究領(lǐng)域且在教育、醫(yī)學、心理學、話務(wù)中心、汽車駕駛、電子商務(wù)等人機交互領(lǐng)域有著廣泛的應(yīng)用。
教育領(lǐng)域:對接受在線教育的學生進行語音情感分析,可隨時反饋學生狀態(tài);若發(fā)現(xiàn)學生對課程內(nèi)容困惑時,可適當調(diào)整教學難度和教學進度,實現(xiàn)更人性化的網(wǎng)絡(luò)教學,從而提升教學效果。
醫(yī)學領(lǐng)域:言語障礙者的言語特征往往比正常人言語特征更難理解,VAESS工程開發(fā)了一種便攜式語音合成器來輔助殘疾人講話和表達情感,對語音中情感的有效識別能提升語音可懂度,幫助聽眾更好地理解說話人所要表達的含義。
心理學領(lǐng)域:情感不僅與說話人語音有關(guān),也與說話人所處的情景密切相關(guān),基于SER系統(tǒng)的情景分析能夠及時獲取說話人情感狀態(tài),幫助說話人排解不良情緒,避免產(chǎn)生抑郁傾向。另外,將基于說話人情景的檢測與心理學醫(yī)師的醫(yī)療方案結(jié)合,能夠為說話人提供良好的心理疏導。
智能話務(wù)系統(tǒng):根據(jù)用戶情感狀態(tài)安排服務(wù)優(yōu)先級或直接轉(zhuǎn)給人工客服,若用戶情緒起伏不定,智能系統(tǒng)可為用戶及時轉(zhuǎn)接人工客服;若人工客服情緒受到客戶影響,智能系統(tǒng)將及時提醒客服保持良好的服務(wù)態(tài)度,提高服務(wù)效率和質(zhì)量。
汽車駕駛:通過提取駕駛員的語速、音量等聲學特征信息實時監(jiān)控并分析駕駛員情感狀態(tài),當發(fā)現(xiàn)疲勞駕駛時及時督促駕駛員安全駕駛,可有效避免交通事故發(fā)生[47]。
電子商務(wù)領(lǐng)域:在購物網(wǎng)站和股票交易網(wǎng)站識別用戶語音情感,可靈活調(diào)控流量。
綜上所述,研究SER系統(tǒng)具有一定學術(shù)價值和實用價值。要實現(xiàn)更好地人機交互,需要計算機在聽懂說話人言語信息的基礎(chǔ)上也能夠理解其中所蘊含的情感信息。
隨著模式識別的迅速發(fā)展和ANN的再度興起以及人機交互的迫切需求,越來越多研究者逐漸投入SER并取得了顯著性成果。本研究論述了SER領(lǐng)域的幾個關(guān)鍵問題,包括語音情感模型、語音情感語料庫、語音情感聲學特征提取、聲學建模及SER技術(shù)應(yīng)用。出于對SER研究現(xiàn)狀的分析和語音情感復雜性的考慮,總結(jié)了該領(lǐng)域面臨的挑戰(zhàn)和值得深入探究的問題及未來發(fā)展趨勢。
縱觀近幾年文獻來看,盡管有很多算法成功運用于SER中,但大多數(shù)研究者僅使用這些算法在某些特定數(shù)據(jù)庫上測試,對實驗數(shù)據(jù)依賴性強。在不同情感數(shù)據(jù)庫和測試環(huán)境中,各種識別算法均有其優(yōu)劣勢,沒有普遍性。常見的SER方法都是基于語音情感特征進行研究,但不論這些情感識別方法有多么精確,都無法與人腦相媲美。
泛化性與多模態(tài)信息融合:SER不再局限于對普通語音進行情感識別,如何將遠程通話語音、言語障礙者語音以及低資源語音(如各地區(qū)方言、藏語等民族語言)中的情感語音與各類人群的面部表情、肢體語言和語義特征等多模態(tài)信息相融合進行情感識別需要深入探討,多模態(tài)情感信息互相補充、相互驗證,但在情感表達過程中,個體易受環(huán)境影響,不能充分表達多模態(tài)情感,在獲取情感數(shù)據(jù)過程中也會受當前技術(shù)限制,使得多模態(tài)信息有所缺失;另外,多模態(tài)情感信息一般情況下借助多種傳感器來獲取,會存在記錄的異步性和不同模態(tài)與情感狀態(tài)表現(xiàn)的異步性。因此,將多模態(tài)信息進行有效融合來提高SER性能將是一個值得深究的問題。
語料問題:優(yōu)質(zhì)的情感語料庫能夠提供可靠的訓練數(shù)據(jù)和測試數(shù)據(jù)。與大規(guī)模語音語料庫和歌曲語料庫相比,現(xiàn)有情感語料庫一般是根據(jù)研究者研究目的建立的表演型、引導型語料庫,語料資源較為稀少。另外,由于低資源語音使用人群較少且從事低資源語音情感研究的人群也明顯少于英語、漢語等大語種的研究人群,使得低資源相關(guān)研究仍處于萌芽階段。最后,不同研究者所采用的語音情感語料庫也有所差異,諸如語種、情感種類及說話人差異等均影響SER。因此,針對現(xiàn)有語料庫問題,合理豐富各類情感語料庫及采用先進技術(shù)對情感語料庫進行有效標注很有必要。
語音情感與聲學特征的關(guān)聯(lián)度:SER的目標是讓機器勝任人腦識別水平。要求機器以盡可能接近人腦信息加工的方式對情感語音進行聲學特征提取并加以正確關(guān)聯(lián)和映射。語音識別中提取的MFCC特征大幅改善了系統(tǒng)性能,而SER領(lǐng)域目前并未找到具有MFCC同樣地位的情感聲學特征。通常情況下將韻律特征、聲音質(zhì)量、譜特征相融合選出最優(yōu)特征集進行SER。截至目前,該領(lǐng)域研究者普遍認為基于語句時長的全局特征與情感狀態(tài)間的關(guān)聯(lián)最密切,但界定情感特征的最優(yōu)時長及將不同時長聲學特征進行融合探究與情感表達關(guān)聯(lián)更密切的聲學特征仍具有一定挑戰(zhàn)。
SER建模:利用充足的語料訓練情感識別系統(tǒng)找出各種聲學特征對應(yīng)情感的映射,實現(xiàn)對測試語料的正確識別。SER是對人腦語音情感信息加工方式的模擬,受人腦情感信息加工方式的復雜性及科技水平的限制,目前該領(lǐng)域構(gòu)建的識別系統(tǒng)僅是對人腦的一些簡單功能的模擬,還無法達到機制模擬水平。在現(xiàn)有認知水平上,構(gòu)建接近人腦信息加工機制的SER系統(tǒng)具有很大挑戰(zhàn)。
SER技術(shù)的普及:隨著人機交互技術(shù)不斷發(fā)展,語音交互技術(shù)逐漸從實驗室進入市場(如蘋果公司Siri語音搜索軟件)。但SER領(lǐng)域目前并沒有成熟的相關(guān)應(yīng)用問世,人機互動的實時性要求在SER性能提升的同時也能降低計算量,具有很大實用價值。