賈 寧,鄭純軍
(大連東軟信息學(xué)院軟件學(xué)院,大連116023)
隨著語音學(xué)領(lǐng)域及相關(guān)技術(shù)的日趨成熟,人們逐漸意識到語音中傳達的信息遠超出了文本中擬表達的內(nèi)容[1]。作為區(qū)分智慧和智能的基本特征,情感是語音交互不可或缺的一部分,正確的檢測語音中的情感表達具有深遠的應(yīng)用價值和實際意義。作為語音學(xué)的新興研究方向之一,語音情感識別(Speech emotion recognition,SER)旨在實現(xiàn)語音信號至說話者情感表達的映射關(guān)系,幫助機器模擬情感理解、情感監(jiān)測和反饋等過程,從而帶來人機交互方式的變革。
現(xiàn)有的情感識別研究可分為單模態(tài)和多模態(tài)[2]等方向。前者專注于原始音頻信號,后者需融合音頻信號、詞匯信息和視覺信息。由此可見,上述兩種研究方法均涉及了原始音頻信號的研究,它是情感識別方向的關(guān)鍵所在,也是大量研究人員的工作重心。
在SER的研究中,許多成熟的語音分析和分類技術(shù)用于提取有效的情感信息。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,利用神經(jīng)網(wǎng)絡(luò)模型解決SER問題已成為流行的情感識別解決方案。常見的深度學(xué)習(xí)模型[3]有卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)[4-5]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)[6]等,此外,多通道技術(shù)和注意力機制也常用來實現(xiàn)SER。Yao等[7]對比3種不同的深度學(xué)習(xí)模型的性能,指出深度融合顯著性區(qū)域的重要性,但僅針對于傳統(tǒng)的空氣介質(zhì)環(huán)境下的語料庫。
RNN作為常見的深層神經(jīng)網(wǎng)絡(luò)之一,被廣泛應(yīng)用于自然語言處理和時間序列有關(guān)的任務(wù)中[8-9]。例如,Tzinis和Potamianos[10]利用RNN研究局部特征和全局特征,并對比在不同音素級別下的SER性能。
由于RNN存在梯度消失和梯度爆炸問題,研究人員常使用長短期記憶網(wǎng)絡(luò)(Long-short term memory,LSTM)[11]、門控循環(huán)單元(Gated recurrent unit,GRU)[12]等RNN變種模型設(shè)計SER模型。Xie等[13]融合LSTM和注意力機制,以找到與情緒識別相關(guān)的重要時間段。Tang等[14]設(shè)計了基于GRU的情感監(jiān)測模型,以監(jiān)測顯著性區(qū)域內(nèi)的連續(xù)語音情感。就現(xiàn)有的端到端SER模型,為提升識別精度,融合注意力機制,尋找顯著性區(qū)域是一種常見的方法。
此外,現(xiàn)有的RNN類模型往往通過搭建人工神經(jīng)網(wǎng)絡(luò),實現(xiàn)大腦生物神經(jīng)網(wǎng)絡(luò)的模擬,這是一種被動的處理信號和信息的方式。當傳輸介質(zhì)發(fā)生突變或環(huán)境發(fā)生改變時,RNN需要重新訓(xùn)練網(wǎng)絡(luò)模型參數(shù),以適應(yīng)最佳的識別效果,此時工作效率較低。因此,部分研究人員將含有介質(zhì)信息的聲波物理模型應(yīng)用于相關(guān)領(lǐng)域中[15]。Hughes等[16]利用物理波動系統(tǒng)的概念,實現(xiàn)元音的高精度識別。目前這種物理系統(tǒng)被證明針對語音識別任務(wù)是有效的,但是尚未應(yīng)用于情感識別任務(wù)中。Li等[15]設(shè)計了多維變速度聲波方程用于多均勻介質(zhì)中的波形模擬。Zhang等[17]采用純聲波方程(Pure acoustic wave equations,PAWEs)實現(xiàn)在各向異性介質(zhì)中的模擬傳播?;谏鲜鲅芯靠梢园l(fā)現(xiàn),聲學(xué)波動方程可用于跨介質(zhì)的波形模擬,然而鮮有研究人員將其應(yīng)用于跨介質(zhì)的SER任務(wù)中。
從2020年起新型冠狀病毒肆虐全球,人們出行經(jīng)常佩戴口罩或其他防護設(shè)置,此時語音情感的表達將由傳統(tǒng)的空氣介質(zhì)切換為口罩佩戴的環(huán)境,使用原有的傳統(tǒng)介質(zhì)設(shè)計的模型的識別精度受到較大影響。
本文的目標是解決SER任務(wù)在不同介質(zhì)下的識別精度問題?;诖?,本文設(shè)計了一種融合圖像顯著性和門控循環(huán)的聲波動方程情感識別模型(Image saliency gated recurrent acoustic wave equation emotion recognition,ISGR-AWEER),它由圖像顯著性提取和基于門控循環(huán)的聲波動模型構(gòu)成。前者用于模擬注意力機制,提取語音中的有效區(qū)域,后者設(shè)計了一個聲波動情感識別模型模擬RNN的流程,該模型可以有效的提升跨介質(zhì)下SER的精度,同時可快速的實現(xiàn)跨介質(zhì)下的模型遷移。
聲波動物理模型的數(shù)據(jù)來源是原始聲學(xué)信號,聲學(xué)信號中蘊含海量的特征,并非全部信號均為有效數(shù)據(jù),這為識別的精度提升帶來了很大的困難。在聲波傳輸介質(zhì)發(fā)生變化時,現(xiàn)有的模型無法實現(xiàn)有效的遷移。針對上述問題,本文設(shè)計了融合圖像顯著性和門控循環(huán)的聲波動方程情感識別模型,將其分為2個階段:音頻信號的圖像顯著性提取和基于門控循環(huán)的聲波動模型。ISGR-AWEER模型整體結(jié)構(gòu)如圖1所示。
圖1 ISGR-AWEER模型整體結(jié)構(gòu)Fig.1 Model structure of ISGR-AWEER
顯著性音頻信號提取時,注重有效信息的計算和統(tǒng)計,僅提取感情表達最強烈的部分音頻?;陂T控循環(huán)的聲波動模型設(shè)計了一種類似GRU的模型,可以用連續(xù)聲波動力學(xué)的自動演化過程來執(zhí)行計算,通過物理本身的時間動力學(xué),自然的體現(xiàn)前后幀之間的關(guān)聯(lián)。通過推導(dǎo)證明,此模型與GRU網(wǎng)絡(luò)存在異曲同工之處,同時在跨媒介的語料庫中具有最優(yōu)的識別效果。下文將分別介紹這兩個階段的具體設(shè)計思路。
聲波動情感識別模型以原始音頻信號作為輸入,基于現(xiàn)有的采樣率,輸入數(shù)據(jù)的維度較高,散度較大,而且存在大量的干擾信號,例如背景噪聲等,這些導(dǎo)致了語音表達的情感在時間和空間上難以衡量,直接影響情感識別精度和效率。雖然流行的語譜圖可通過變換得到的時頻域信息提取語音中的顯著性信息,但是語譜圖對原始音頻信號進行短時傅里葉變換的預(yù)處理破壞了語音信號中的波動特性,進而影響波動模型對于SER的精度。
因此,提出一種基于自定義音頻圖象的顯著性音頻信號的提取方法,用于快速鎖定一段音頻中的顯著性區(qū)域。由于一個完整的情感表達的最短時間僅需2~5個連續(xù)語音幀,如果能夠找到這段區(qū)間,就可以用其替代整段音頻,這段區(qū)間通常被稱為顯著性區(qū)域,而剩余的音頻區(qū)間均可以作為背景區(qū)域處理。提取過程分為2個階段:音頻圖像重構(gòu)和顯著性區(qū)域提取。下文將詳細介紹具體提取流程。
1.2.1 音頻圖像重構(gòu)
作為顯著性音頻信號提取的第一個階段,音頻圖像重構(gòu)用于將音頻轉(zhuǎn)換為的圖像表達。生成規(guī)則為
式中:N為單個語音作為原始音頻的維度為原始語音信號中的第維數(shù)據(jù);ti,j為原始語音信號的矩陣表達,對其進行歸一化后,可生成一個像素矩陣t′i,j,即當前語音時域的圖像表達。圖2分別是angry和happy類別情感生成的圖像,可以觀察到這2種情感的表達方式存在明顯差異。
圖2 Angry和happy類別的圖像表達Fig.2 Image expression of angry and happy class
1.2.2 顯著性信號提取
圖像表達中的數(shù)據(jù)是語音的原始聲學(xué)信號,該信號的特點是具有時序性。信號發(fā)生突變的時間區(qū)間,在語音中會出現(xiàn)同步的波動。因此圖像形式的音頻表達很直觀的顯示出當前區(qū)域是否存在信號突變或者維持光滑平緩。當圖像局部出現(xiàn)突變時,往往是音頻出現(xiàn)波動的起始或終止階段。當圖像局部顯示為平坦區(qū)域時,可以認為此次未有大范圍的波動,即維持原有的信號強度不變?;诖耍梢岳猛蛔兂霈F(xiàn)的2個時機判斷音頻出現(xiàn)大規(guī)模能量變化的區(qū)間。不同的情緒的顯著性區(qū)域表達存在差異化特征,因此對于顯著性區(qū)域的鎖定有助于快速的識別某種特殊的情緒。
尋找情感表達顯著性區(qū)域方法如下:
(2)此窗口從圖像的起始位置開始,依次掃描每個塊的全部區(qū)域,進行區(qū)塊間的差分,具體方法為
式中:ti,j為式(1)得到的像素矩陣;Δti,j為差分后的矩陣,顯著性區(qū)域即此矩陣中的有效數(shù)據(jù),二次差分ΔΔti,j則用于尋找顯著性區(qū)域的起始和結(jié)束位置。
(3)添加約束條件用于區(qū)分平坦和波動區(qū)域,獲得的tstart和tend即為最終顯著性區(qū)域的具體位置,如式(4~5)所示。
(4)將[tstart,tend]區(qū)間內(nèi)的圖像信息提取出,作為新的音頻圖像表達。圖3分別為angry、happy類別的顯著性區(qū)域圖像,可以觀察出4種情感的顯著性區(qū)域表達有各自的特征。
圖3 Angry和happy類別的顯著性信號區(qū)域表達Fig.3 Expression of significant regions in angry and happy class
將顯著性區(qū)域的圖像表達轉(zhuǎn)化為原始聲學(xué)信號,然后輸入基于門控循環(huán)的聲波動模型中,具體模型結(jié)構(gòu)見1.3節(jié)。
1.3.1 基于波動方程的物理模型
當聲波在空氣等介質(zhì)中傳播時,原始音頻信號的處理方式由聲波物理系統(tǒng)自適應(yīng)學(xué)習(xí)得到。與RNN相比,這種聲波傳輸機制并非刻意地實現(xiàn)信號的處理和反饋,而是使用物理本身的動力學(xué)原理自然的呈現(xiàn)聲音序列的遞歸關(guān)系?;诓ǖ奈锢硐到y(tǒng)的動力學(xué),標量波場分布u(x,y,z)的動力學(xué)由二階偏微分方程控制,即
式中:t為給定時間步的標量場的值。矩陣表達形式為
1.3.2 基于門控循環(huán)的聲波動模型
在對1.3.1節(jié)提到的波動方程進行改進后,本文提出了一種適用于跨介質(zhì)的基于門控循環(huán)的聲波動模型,傳統(tǒng)的GRU常用于SER任務(wù),可提升空氣介質(zhì)下的識別精度,但是無法應(yīng)用于跨介質(zhì)或跨語料庫等環(huán)境遷移場景中,本節(jié)設(shè)計的聲波動模型不僅保留了傳統(tǒng)GRU的優(yōu)勢,可以解決傳統(tǒng)RNN中的模型遷移問題。
由于聲波動模型的輸入是原始聲學(xué)信號,所以需要將顯著性區(qū)域轉(zhuǎn)化為原始聲學(xué)信號后再執(zhí)行輸入。圖4描述了聲波動模型的實現(xiàn)過程,此模型分為3個階段:正向擴展階段、探測點觀察階段和材料物理設(shè)置階段。在正向擴展階段設(shè)計了聲波場動力學(xué)模型,使用波動的動力學(xué)模擬聲音的傳播與演化過程。在探測點觀察階段中,從多個探測點中觀察聲波傳遞到當前位置的特點。在材料物理設(shè)置階段,動態(tài)調(diào)整步長,設(shè)置材料參數(shù),實現(xiàn)跨媒介場景的自動模擬。
(1)正向擴展階段
正向擴展的區(qū)域是在X-Y平面上的二維區(qū)域,它沿著Z軸的方向無限延伸。xt表示每個聲波場由域左側(cè)的一個單元輸入,發(fā)射出的聲波,由于傳輸媒介可以更換,正向擴展區(qū)域傳播信號時,波速的分布和介質(zhì)參數(shù)均可訓(xùn)練。在式(8)的基礎(chǔ)上進行變換,可以得到式(9~10)。
式中:b為自適應(yīng)的阻尼系數(shù);ε為不同媒介中的波速變化值。
可以發(fā)現(xiàn),式(11)將輸入序列轉(zhuǎn)化為具有時序關(guān)系的輸出序列,之前的每一步操作都被編碼成隱藏狀態(tài),在每一步中都得到了更新。GRU的結(jié)構(gòu)如式(12~13)所示。可以看出,當前模型與GRU的形式一致
基于式(12,13),可得到式(14),并獲得其中的w的表達,如式(15)所示。
此時,已經(jīng)完成了正向擴展階段??梢园l(fā)現(xiàn),最終的模型訓(xùn)練過程與GRU模型相似,它的優(yōu)勢是通過動態(tài)調(diào)整波速和阻尼系數(shù)等因子,來確保在不同媒介下的聲音傳播有效性。
(2)探測點觀察階段
本階段利用探測點輸出信息。在此區(qū)域定位了若干個探測點,默認探測點的數(shù)量與分類數(shù)量相同。每個探測點吸收的數(shù)據(jù)是聲源傳輸至當前點位置的信號ut,輸出的是當前點位置對應(yīng)的每個分類的概率值。因此,每個探測點的坐標不完全相同,這樣才可以盡量保留分類的完整性。將所有觀測點的輸出值拼接為一個非負向量,該向量即為當前音頻在物理系統(tǒng)中的特征表達。
探測點位置的設(shè)計思路如下,第i個探測點的邊界坐標為(Pix,Piy),探測點的數(shù)量是N,則每個探測點的坐標為
(3)材料物理設(shè)置階段
考慮傳輸聲波的材質(zhì)和波速對此模型產(chǎn)生較大的作用,此區(qū)域存在的目標是通過當前模型進行反向傳播,依次估計每次輸出信息的梯度、一階矩陣、二階矩陣,通過不斷微調(diào),對一階矩陣和二階矩陣進行校正,減少偏置的影響,然后開始執(zhí)行隨機梯度下降,最終達到模型的結(jié)果收斂。此過程與Adam相似,在本階段通過以下的依賴關(guān)系得出波速的更新分布c′,c′=c+Δ2ε。其中,c為原有的波速,ε為材料區(qū)域中的非線性關(guān)系。由式(16)可知,波速c的反向傳播是可行的,通過微調(diào)獲得當前介質(zhì)下的波速相當值。
上述3個階段組成了跨媒介的聲波動模型,它是基于波場動力學(xué)進行設(shè)計的,此模型模擬聲波在實際物場中的傳播過程,其本質(zhì)與GRU相似,卻同時具備較強的跨媒介遷移能力。
為了測試SER模型的有效性和多種介質(zhì)下模型的遷移能力,本文使用自建的多介質(zhì)情感語音語料庫和交互情感二元動作捕捉(Interactive emotional dyadic motion capture,IEMOCAP)情感語料庫[18]進行實驗驗證。
2.1.1 多介質(zhì)情感語音語料庫
基于流行的SER方向,研究人員設(shè)計了大量的多模態(tài)語料庫,但是極少數(shù)語料庫設(shè)計多介質(zhì)下的音頻數(shù)據(jù),例如空氣、液體、遮擋物等。因此,設(shè)計了一個多介質(zhì)的短語音漢語語料庫。
為了確保情感語料的覆蓋面和規(guī)模,主要在不同媒介中采集誘導(dǎo)情感語音,目標是設(shè)計一個規(guī)模大、年齡層覆蓋面廣、情感類別平衡、語音質(zhì)量高、情感表達基本正確的情感語音數(shù)據(jù)庫。目前,此數(shù)據(jù)庫中收錄的情感包括高興、憤怒、平靜和悲傷4種情感。每條語音使用空氣傳播和遮擋物(佩戴口罩)的方式使用4種不同的情感朗讀相同的文字內(nèi)容。
在選取語料時,表達內(nèi)容不可過長,力求使單個語音成為可獨立表達情感、含有效發(fā)音的最小單元。為設(shè)計有效的語料,在主題設(shè)定的前提下,準備了40條相關(guān)的精短漢語語料信息。它們多為單人語料,每條語料的文字不超過5個字。語料的文本內(nèi)容多數(shù)存在情感分歧,即情感的表達與語義無關(guān),而且具備濃重的語音信息,要求受試者在融入特定環(huán)境后,以多種方式恰當?shù)谋磉_特定的感情。
成人自然情感語料庫現(xiàn)有21 000余條有效語音,包含空氣介質(zhì)和佩戴口罩介質(zhì),音頻數(shù)量占比為7∶3。
語音標注時采用多級別刻度的標注方式,每種情感分為5個等級,取值范圍為[1,5]。等級1的情感表達最弱,等級5的表達最強,每個語音均需標識4類情感的等級。僅保留超過2/3專家的標注結(jié)果一致的數(shù)據(jù)。
2.1.2 IEMOCAP數(shù)據(jù)集
IEMOCAP數(shù)據(jù)集是使用動作、音頻、視頻錄制的具有10個主題的5個二元會話中收集的,共有10 039個標準語音。每個會話由一位男性和一位女性演員執(zhí)行腳本,并參與通過情感場景提示引發(fā)的自發(fā)的即興對話。
本文僅使用IEMOCAP中的4類情感數(shù)據(jù):happy類(與excited類合并)、sad類、angry類和neutral類。其余類別的樣本數(shù)據(jù)均被丟棄。此種分類方法一共保留5 531個樣本,每類樣本的數(shù)據(jù)量為angry類1 103個,happy類1 636個,neutral類1 708個,sad類1 084個。除 了angry和sad類別的樣本 量 偏 少 之外,其他類別的情緒樣本數(shù)據(jù)量較均衡。
上述兩個數(shù)據(jù)集分別使用五折交叉驗證方法進行實驗。80%數(shù)據(jù)用于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),剩余的數(shù)據(jù)被用于驗證和準確性測試。
使用Pytorch框架進行聲波動情感識別模型的搭建,設(shè)置學(xué)習(xí)速率為0.000 1。傳輸介質(zhì)的波速c=1.0,完全匹配層(Perfectly matched layer,PML)多項式的階是4.0,PML厚度是3,波速強度設(shè)置為1,邊界點中含有的網(wǎng)格單元為2,空間網(wǎng)格步長是1.43。
采用加權(quán)精度(Weighted accuracy,WA)和未加權(quán)精度(Unweighted accuracy,UA)作為識別精度的評價指標。WA用于監(jiān)測模型的整體性能,它是預(yù)測正確與樣本總數(shù)之商,WA的計算完全依賴于正例的計算,尚未考慮數(shù)據(jù)傾斜時帶來的負面影響。為了解決樣本分布不均衡的問題,引入UA綜合判定各個類別的SER精度,UA是全部類別識別精度的均值,對于不平衡的數(shù)據(jù)集,UA是一個相關(guān)性更強的特征。
2.3.1 聲波動情感識別模型有效性實驗
針對SER問題,設(shè)計如下實驗驗證當前模型的有效性,此時利用自建成人自然情感語料庫和IEMOCAP數(shù)據(jù)集分別進行驗證,在本實驗中,以傳統(tǒng)RNN模型[6]識別結(jié)果作為基線,同時對比以下幾個模型:模型1為注意力機制+CNN模型[5];模型2為使用eGeMAPS[19]+3層雙向LSTM情感識別模型;模型3為僅使用傳統(tǒng)波動方程的情感識別模型;模型4為僅使用門控循環(huán)的聲波動情感識別模型;模型5為當前模型(ISGR-AWEER)。
表1 為上述模型在兩個語料庫中的識別精度,其中“*”表示文獻中未含有對應(yīng)的實驗結(jié)果。
表1 兩個語料庫中的情感識別實驗結(jié)果Table 1 Experimental results of speech emotion recognition in two emotional speech corpus
由表1可知,對比兩組文獻在IEMOCAP中的識別效果,當前模型的表現(xiàn)最佳,擁有最優(yōu)的WA和UA。針對多介質(zhì)情感語音語料庫,也可獲得相似的結(jié)構(gòu)。由此可以確定,當前的模型可以最大限度地提升情感識別的平均準確率。
圖5 和圖6分別是自建成人自然情感語料庫和IEMOCAP數(shù)據(jù)集的情感識別混淆矩陣。盡管angry類別數(shù)據(jù)量較少,其識別準確度較高,反之,neutral類別數(shù)據(jù)量較多,其識別準確率較低。不難發(fā)現(xiàn),當前模型的識別效果與數(shù)據(jù)是否傾斜無關(guān)。
圖5 自建語料庫的情感識別混淆矩陣Fig.5 Emotion recognition confusion matrix based on self-built corpus
圖6 IEMOCAP情感識別混淆矩陣Fig.6 Emotion recognition confusion matrix based on IEMOCAP
為了驗證當前模型的有效性,與流行的SER精度相對比,結(jié)果如表2所示。模型6[20]為使用自定義的特征和RNN模型;模型7[21]為提取常用的聲學(xué)特征和語言學(xué)特征,融合RNN與聯(lián)結(jié)主義時間分類(Connectionist temporal classification,CTC)進行情感識別;模型8[22]為提供eGeMAPS特征集與Attentive CNN模型融合的解決方案;模型9[23]為使用頻譜圖像,結(jié)合GRU模型進行處理;模型10為當前模型。通過實驗,上述模型的對比結(jié)果如表2所示。
對比表2中的實驗結(jié)果可以發(fā)現(xiàn),與其他SER模型相比,當前模型的識別精度較高,優(yōu)于一些先進的SER模型,這說明了本文設(shè)計的模型的有效性。
表2 流行SER模型的UA對比Table 2 UA of popular SER
2.3.2 跨介質(zhì)有效性實驗
針對跨媒介的SER模型的遷移問題,設(shè)計相關(guān)的實驗驗證當前模型在不同介質(zhì)下遷移的有效性,此時利用多介質(zhì)情感語音語料庫進行驗證,在本實驗中,以模型2(詳見表1)作為基線,將整個語料庫視為一個整體數(shù)據(jù)集。分別對比在MASK(佩戴口罩)和UMASK(未佩戴口罩,空氣)介質(zhì)中,以下模型的有效性:模型11為使用eGeMAPS[19]+3層雙向LSTM,每個介質(zhì)單獨訓(xùn)練模型;模型12為使 用eGeMAPS[19]+3層 雙 向LSTM,遷 移MASK介 質(zhì) 模 型 至UMASK中;模 型13為 使 用ISGR-AWEER,每個介質(zhì)單獨訓(xùn)練模型;模型14為使用ISGR-AWEER,遷移MASK介質(zhì)模型至UMASK中。
表3 為經(jīng)過實驗驗證后,僅在多介質(zhì)情感語音語料庫下的識別效果。由表3可知,針對多介質(zhì)情感語音語料庫,采用流行的LSTM模型時,每個介質(zhì)單獨設(shè)計模型比遷移模型的精度提升9.6%,但整體識別效果不佳。利用本文提出的模型可規(guī)避跨介質(zhì)的識別問題,單獨設(shè)計模型與遷移模型結(jié)果相近,而且精度改善達到25%。通過實驗證明,當前模型在跨介質(zhì)SER中的有效性。
表3 多介質(zhì)語料庫中的情感識別實驗結(jié)果Table 3 Experimental results of speech emotion recognition in multi?media emotional speech corpus
本文設(shè)計了一種融合圖像顯著性和門控循環(huán)的聲波動方程情感識別模型,用于解決跨介質(zhì)下的SER問題,該模型包含顯著性區(qū)域提取和基于門控循環(huán)的聲波動方程情感識別模型,可分別模擬注意力機制和RNN循環(huán)。通過在兩種不同的語料庫上驗證,此模型可有效的實現(xiàn)跨介質(zhì)下的情感識別,與傳統(tǒng)的RNN模型相比,識別精度具有25%的改善。此外,該模型的遷移能力較強,適用于不同介質(zhì)下的混合情感識別。
在未來的研究將進一步擴充多介質(zhì)情感語音語料庫的數(shù)據(jù),同時添加文字、視頻等模型數(shù)據(jù),通過設(shè)計一種多模態(tài)的網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合顯著性特征,實現(xiàn)對于情感識別精度的進一步提升。