賈 寧 鄭純軍,2 孫 偉
1(大連東軟信息學(xué)院 遼寧 大連 116023) 2(大連海事大學(xué) 遼寧 大連 116023)
語音作為人類交流最方便、最自然的媒介,是相互傳遞信息時采取的最基本、最直接的途徑。語音包含多種不同類型的信息,可以表達(dá)豐富的情感信息[1]。
語音情感識別旨在通過語音信號識別說話者的正確情緒狀態(tài),目前對于情感的研究仍然處于學(xué)科交叉的領(lǐng)域,至今也未有統(tǒng)一的定義與規(guī)范。由于語音并非情感生理信號的完整表達(dá)形式,在忽略其余感官結(jié)果的前提下,如何高效而精確地識別用戶表達(dá)的情感,是近年來語音學(xué)研究的熱點(diǎn)領(lǐng)域[2]??傮w上,目前的語音情感的整體識別率較低,泛化能力不強(qiáng),主要來源于以下情感特征提取方法和模型設(shè)計(jì)等方面的制約。
從富有情感的語音數(shù)據(jù)中學(xué)習(xí)有用的聲學(xué)特征。主要方法有三種,分別為:
(1) 采用手工制作的特征[3]。從原始音頻文件中提取手工特征,捕獲最原始的不同類型的聲學(xué)特征,從而判定該特征所屬的語音學(xué)任務(wù)類型。
(2) 將傳統(tǒng)特征與深度學(xué)習(xí)模型融合[4],在交叉領(lǐng)域中突出特征的重點(diǎn),由于不同任務(wù)的側(cè)重點(diǎn)不同,其融合的方式體現(xiàn)多樣化、個性化的特點(diǎn)。
(3) 通過對原始音頻信號進(jìn)行分析,獲取其中的情感影響因子與規(guī)律。
由于第3種方式導(dǎo)致情感特征維數(shù)過多,過度增加了語音情感識別過程的計(jì)算量,也就無形中增加了語音情感識別系統(tǒng)的空間復(fù)雜度和時間復(fù)雜度[5],因此常用前兩種方法進(jìn)行特征提取。
深度學(xué)習(xí)方法可以從不同層次的輸入中學(xué)習(xí)有效的語音信號的非線性表現(xiàn)形式,目前已經(jīng)廣泛應(yīng)用于語音情感模型設(shè)計(jì)中,目前常見的深度學(xué)習(xí)模型可以分為有監(jiān)督和無監(jiān)督兩種,針對語音情感識別任務(wù),主要采用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)[6]、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[7]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[8]、卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(Convolutional Recurrent Neural Network,CRNN)[9]等有監(jiān)督模型,為了突出不同任務(wù)的信號特征,還會融合多通道識別技術(shù)和注意力機(jī)制來進(jìn)行情感識別。
然而,大多數(shù)研究集中于通用語料庫上的具有泛化性能的模型和識別方案設(shè)計(jì),現(xiàn)有的開源語料庫往往存在數(shù)據(jù)量不足、傾斜現(xiàn)象、包含背景噪聲、多為外文語料、標(biāo)注結(jié)果精度不夠等缺陷,而且鮮有專家對不同語料庫的特征之間、不同說話者之間、個性化特征與模型的相關(guān)性之間進(jìn)行充分的挖掘,直接導(dǎo)致現(xiàn)有的模型進(jìn)行語音情感識別任務(wù)的準(zhǔn)確率不高。
圍繞上述問題,本文針對語音情感特征提取、個性化的深度學(xué)習(xí)模型設(shè)計(jì)和學(xué)習(xí)方案等方面開展了相關(guān)的研究,提出一種基于自建成人情感語料庫、具備說話者個性化特征的、準(zhǔn)確率較高的語音情感識別模型。
目前,常見的情感采集方案主要針對自然語音、誘導(dǎo)語音和表演語音進(jìn)行設(shè)計(jì)[10]。自然語音是在自然條件下的真實(shí)情感表達(dá),它包含最佳的情感數(shù)據(jù),但采集困難,而且涉及復(fù)雜的后期數(shù)據(jù)處理和背景噪聲分離操作。誘導(dǎo)語音則是在固定的場景模型下激發(fā)個人的情感,一般在專業(yè)環(huán)境下采集,因此背景噪聲較少,因其誘發(fā)的情感將說話人帶入特定的場景,其具備一定的真實(shí)性,但是無法衡量說話人表達(dá)情緒的刻意程度。表演語音是基于指定臺詞的目標(biāo)情緒表演,它的刻意性較強(qiáng),而且情緒表達(dá)過于飽滿,與自然語音的表達(dá)存在一定的差異。然而針對此類語音,它的采集方式是最便捷的。
為了確保情感語料庫數(shù)據(jù)的覆蓋面和規(guī)模,本文主要采集自然語音和誘導(dǎo)語音,并將其有效地融合在一起,其目標(biāo)是設(shè)計(jì)一個規(guī)模大、年齡層覆蓋面廣、情感類別平衡、語音質(zhì)量高、情感表達(dá)基本正確的情感語音數(shù)據(jù)庫。目前,此數(shù)據(jù)庫中收錄的情感包括高興、憤怒、平靜和悲傷四種情緒。
為有效地實(shí)現(xiàn)誘導(dǎo)語音設(shè)計(jì),準(zhǔn)備了30條相關(guān)的中文語料信息,這些語料信息多為對話的形式,它的內(nèi)容多數(shù)存在情感分歧,即情感的表達(dá)與語義無關(guān),而且具備濃重的語音信息,要求受試者在融入特定環(huán)境后,以多種方式恰當(dāng)?shù)乇磉_(dá)特定的幾種感情?,F(xiàn)有受試者為16人,年齡分布在19至40歲之間,男女比例平衡。
自然語音的采集使用特定的語音采集裝置。采集裝置存放于小范圍內(nèi)的室內(nèi)場所,例如家庭、寢室、社區(qū)、小型診所等,可使用語音喚醒的方式,與特定人群進(jìn)行語音溝通,記錄說話者的音頻數(shù)據(jù)。由于采集裝置的提示信息為日常的生活用語,說話者在回答時一般較為自然,可以判定為自然語音。此設(shè)備存在的問題是,錄制的語音可能存在背景噪聲,需要后期統(tǒng)一處理。
為保證數(shù)據(jù)集中處理的正確性,本數(shù)據(jù)庫的錄音文件以WAV格式保存,音頻文件采樣率為16 000 Hz,精度為16 bit,采用單聲道進(jìn)行錄制。
在此基礎(chǔ)上,對原始情感語料庫數(shù)據(jù)進(jìn)行標(biāo)注,采用多級別刻度方式,每種情感分為4個等級刻度表,等級1的情感表達(dá)最弱,等級4的表達(dá)最強(qiáng),每個音頻均需標(biāo)識四類情感的等級。數(shù)據(jù)標(biāo)注過程分為預(yù)判階段和正式階段,預(yù)判階段時需要在獨(dú)立標(biāo)注10至20個音頻的基礎(chǔ)上,進(jìn)行專家組商討并確定標(biāo)注規(guī)范,當(dāng)多數(shù)專家觀點(diǎn)一致時,可進(jìn)行正式標(biāo)注。
標(biāo)注完畢后,使用迭代的優(yōu)化貪婪算法進(jìn)行專家置信度的更新和標(biāo)注結(jié)果的判斷。針對所有標(biāo)注專家,每個音頻的標(biāo)注準(zhǔn)確率與上一次可信度的均值作為基準(zhǔn)值,然后分別計(jì)算每個專家的標(biāo)注結(jié)果與基準(zhǔn)值的相關(guān)系數(shù)作為衡量其新的可信度的指標(biāo)。隨著標(biāo)記數(shù)量的增多,可信度的指標(biāo)即時進(jìn)行調(diào)整,在得到新的可信度指標(biāo)后,重新計(jì)算當(dāng)前的標(biāo)注結(jié)果,即將所有人的標(biāo)注結(jié)果和權(quán)重加權(quán)求和,得到最終確定的標(biāo)注刻度結(jié)果。具體公式如下。
(1)
(2)
(3)
(4)
由于每個音頻表達(dá)的情緒不止一種,基于此種方案,可獲得音頻每種情緒的表達(dá)級別。同時動態(tài)調(diào)整專家對整體標(biāo)注結(jié)果的貢獻(xiàn)率,提升語料庫的整體評價水平。
隨著情感語音數(shù)據(jù)量的增加,采用傳統(tǒng)的機(jī)器學(xué)習(xí)方法無法有效地處理高維數(shù)據(jù),分析高階的內(nèi)部關(guān)聯(lián)。基于此,可將目前流行的深度學(xué)習(xí)技術(shù)引入其中,深入挖掘情感特征與模型之間的隱藏關(guān)系。
然而,由于說話者之間的差異,導(dǎo)致語音信息并非是情感表達(dá)的唯一關(guān)鍵要素,因此,基于語音建立一個通用的情感的判別模型是非常困難的。在沒有其他模態(tài)數(shù)據(jù)輔助的前提下,可以通過將說話者的特征與情感識別模型相結(jié)合來提高識別的準(zhǔn)確率,此時建立的模型具有很強(qiáng)的個性化信息,在指定的應(yīng)用場景內(nèi),針對每類說話者定向建立情感識別模型,通過類內(nèi)模型的微調(diào),識別針對類內(nèi)某人的情感表達(dá)。
模型整體分為兩個階段:說話者分類階段和語音情感識別階段。前一個階段使用多組大尺寸的1維CNN,在定位說話人員所屬類別的同時,提取倒數(shù)第二個隱藏層的特征。第二個階段將針對個體說話者進(jìn)行情感語音識別,除第一個階段提取的特征之外,還添加語譜圖特征和CRNN模型,融合兩者進(jìn)行微調(diào)訓(xùn)練,以達(dá)到最佳的情感識別效果。圖1是模型整體設(shè)計(jì)思路。
圖1 模型總體設(shè)計(jì)方案
目前,用于說話者識別的經(jīng)典模型有高斯混合-通用背景模型(GMM-UBM)、聯(lián)合因子分析(JFA)、i-vector[11]、x-vector[12]等,此類模型均是基于模板匹配的方法,從通用的模型中尋找最接近的說話者判別結(jié)果,這種形式適用于單任務(wù)的模型訓(xùn)練,且效果良好。
考慮到當(dāng)前模型還需同時解決情感識別任務(wù),如果僅針對個體識別創(chuàng)建模型,那么模型生成的中間結(jié)果將無法復(fù)用,此時將導(dǎo)致計(jì)算效率較低,浪費(fèi)系統(tǒng)資源?;诖?,本文的目標(biāo)之一是尋找一種同時適用于說話者分類和情感識別的模型,將說話者的身份細(xì)化到某一類別,而并非某個人,同時配合各個階段有效的特征表達(dá),在保證識別準(zhǔn)確率的同時,提升識別效率。
考慮到情感語音信號復(fù)雜度較高,而且含有未知的噪聲,本文使用RASTA(Relative Spectral)[13]濾波后的梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficents,MFCC)[14]作為輸入特征。MFCC是目前語音情感識別中使用頻率最高、最有效的譜特征,它是基于人耳的聽覺機(jī)理而設(shè)計(jì)的。MFCC一共有13個參數(shù),可結(jié)合一階和二階差分共同使用,常用的MFCC為1-4,其有效性較高。RASTA濾波器通過對于聲道的補(bǔ)償,消除背景噪聲對于短時頻譜的負(fù)面影響,從而降低噪聲的負(fù)面影響。
具體流程如下,在分幀和加窗的基礎(chǔ)上,以幀為單位進(jìn)行離散傅里葉變換,同時計(jì)算對數(shù)幅度頻譜,在等帶寬的梅爾濾波器組濾波和離散余弦變換的基礎(chǔ)上,進(jìn)行RASTA濾波,最終變換獲得RASTA-MFCC特征。計(jì)算流程如圖2所示。
圖2 RASTA-MFCC計(jì)算流程
在獲得特征的同時,設(shè)計(jì)說話者分類模型,模型結(jié)構(gòu)如圖3所示。考慮到全部頻帶對于模型的影響,此處設(shè)計(jì)4個卷積層,均為大尺寸的一維卷積濾波器組,尺寸分別是320×5,1 000×5,1 000×1,1 000×1,每類濾波器的步長均為1,每個卷積層之間使用最大池化進(jìn)行分隔,其后添加2個全連接層和1個Softmax層,從而獲得說話者的分類信息。
圖3 說話者分類模型
此模型在說話人分類時主要考慮2個要素:性別和基頻。因此,模型的Softmax的初始類別數(shù)目是5(2個要素和1個其他類別),模型的輸出為說話者所屬類別,隨著受試者人數(shù)的增多,模型的第5個類別(其他)將不斷微調(diào),當(dāng)?shù)?個類別數(shù)量與最多類別的數(shù)量相當(dāng)時,將合并相似的聲紋信息,分裂出新的類別。類別總數(shù)不超過10個。
由于不同的說話者類別在情感表達(dá)時的差異較大,為了進(jìn)一步提升情感表達(dá)的精度,可以將說話者類別的特征作為附加語音情感特征,以縮小說話者類別對于情感表達(dá)識別產(chǎn)生的負(fù)面影響。
由于第2個全連接層的維度過少,本文考慮將說話者模型的第1個全連接層的輸出用于情感特征的高級表達(dá),與情感識別的特征組合進(jìn)行第二階段訓(xùn)練。
由于不同說話者的發(fā)音習(xí)慣、發(fā)音方式、情感表達(dá)均不相同,其個性化的音頻數(shù)據(jù)無法設(shè)計(jì)統(tǒng)一的識別模型參數(shù),而且識別準(zhǔn)確率會受到個體因素的影響?;诖耍舍槍ι蟼€階段分類出的每位說話者,分別建立情感識別模型,該模型的特點(diǎn)是,采用通用的識別特征選擇和識別模型的結(jié)構(gòu),但是通過深度學(xué)習(xí)獲取各個模型的不同參數(shù),從而突出個性化的特點(diǎn)。
在模型設(shè)計(jì)之前,首先需要完成語音信號與背景的信息分離,只保留與說話者聲音有關(guān)的信息,可以將這個過程理解為簡化版的去噪方案,此處選擇軟硬閾值折中的小波去噪方法。小波變換[15]在時頻域都具有表征信號局部特征的能力,適合于環(huán)境噪聲等背景信息的抽取。具體公式如下:
(5)
(6)
通過小波去噪獲得了表征能力較強(qiáng)的音頻數(shù)據(jù),然后針對此類數(shù)據(jù)進(jìn)行特征提取,此時采用第一種手工制作的形式,將獲得的音頻信號進(jìn)行時域和頻域的切換,將其轉(zhuǎn)化為頻譜圖的特征形式,此時原有的二維形式被轉(zhuǎn)換成了三維的坐標(biāo)形式,即語譜圖。圖4描述了語譜圖的生成過程。此時將針對音頻的處理轉(zhuǎn)換為針對圖像的處理過程,可采用深度學(xué)習(xí)中的圖像處理技術(shù)輔助完成模型設(shè)計(jì)。
圖4 語譜圖生成流程
針對語譜圖,本文設(shè)計(jì)有效的CRNN模型。其中,CNN模型與第一階段相似,由3層卷積層、3層池化層和2層全連接層,共8層構(gòu)成,第一層卷積層的輸入信息規(guī)模為310×310×3,其中:310為語譜圖的長度和寬度;3表示RGB三個通道。語譜圖經(jīng)過64個大小為3×3的卷積核,以步長為1的卷積操作后產(chǎn)生64個特征圖,然后使用ReLU激活函數(shù),經(jīng)過最大池化操作后得到64個特征圖,第2層卷積層的輸入源即第1層的輸出特征圖,計(jì)算過程與第1層一樣,第3層同理,接下來是2層全連接層,每層為1 024個神經(jīng)元,在此層上做Dropout操作,防止模型過擬合。
由于語音信號是基于時間序列的信息,其上下文之間存在著一定的關(guān)聯(lián),因此,除了設(shè)計(jì)適用于圖像識別的CNN之外,同時考慮增加具有短期記憶能力的神經(jīng)網(wǎng)絡(luò)模型,引入LSTM來控制信息的累積速度,有選擇地加入新的信息,并有選擇地遺忘之前積累的信息。
此處采用了雙向3層的LSTM模型,雙向是指存在兩個信息傳遞相反的循環(huán)層,第1層按時間順序傳遞信息,第2層按時間逆序傳遞信息。它意味著過去和未來的信息均可以成功捕獲,這是由于情感的時序因素,它可以由前后若干幀的信息共同決定,因此按照上述思路設(shè)計(jì)了3組雙向LSTM模型,以利用上下文的個性化信息進(jìn)行更準(zhǔn)確的情感判斷和參數(shù)學(xué)習(xí)。
語音情感識別模型如圖5所示。除CRNN模型之外,在第1階段獲取的高級特征表示被添加至其中,與此時獲取的特征共同完成訓(xùn)練過程,兩組特征集合均為1 024維。其中,個性化特征體現(xiàn)在以下3處:
(1) 高級特征表示由每個語音獨(dú)立生成,是上一個階段模型的產(chǎn)物。
(2) 此處的CRNN模型為每一個說話人類別的定向模型,即針對每類說話人分別進(jìn)行訓(xùn)練所得。
(3) 原始說話人分類依據(jù):性別和基頻,為每個類別提供了原始的通用信息,一定程度上抑制其他類別的混入噪聲。
圖5 語音情感識別模型
本文分別使用自建成人自然情感語料庫和Interactive Emotional Dyadic Motion Capture(IEMOCAP)情感語料庫進(jìn)行實(shí)驗(yàn)。
自建成人自然情感語料庫現(xiàn)有13 500余條有效語音,采用雙重標(biāo)注信息,第一層為情感標(biāo)注,主要包括高興、憤怒、平靜和悲傷等4類情感。其中每類情感數(shù)據(jù)量較均衡。第二層為說話人分類標(biāo)注,包括高基頻(男和女)、低基頻(男和女)、其他等5類。隨著訓(xùn)練數(shù)據(jù)的增加,其他類別可再次分裂。受試者均為成年男女,一共為16人,其中男女各占50%,以18至30歲為主,少數(shù)30至40歲。
IEMOCAP數(shù)據(jù)集是使用動作、音頻、視頻錄制的具有10個主題的5個二元會話中收集的,側(cè)重于表達(dá)二元相互作用。每個會話由一個男性和一個女性演員執(zhí)行腳本,并參與通過情感場景提示引發(fā)的自發(fā)的即興對話。此數(shù)據(jù)集一共有10 039個標(biāo)準(zhǔn)語音,僅包含情感標(biāo)注信息。需要將相關(guān)的同類情感進(jìn)行合并操作,去除關(guān)聯(lián)度較小的樣本,最終使用4類情感數(shù)據(jù):將excited類與happiness類別合并,除此之外,還有sad類別、angry類別和neutral類別。其余類別的樣本數(shù)據(jù)均被丟棄?;诖朔N分類方法,共保留5 531個樣本,每類樣本的數(shù)據(jù)量為angry:1 103,happy:1 636,neutral:1 708,sad:1 084。
除了angry和sad類別的樣本量偏少之外,其他類別的情緒樣本數(shù)據(jù)量較均衡。
針對兩個數(shù)據(jù)集,分別使用五折交叉驗(yàn)證方法進(jìn)行實(shí)驗(yàn)。80%數(shù)據(jù)用于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),剩余的數(shù)據(jù)被用于驗(yàn)證和準(zhǔn)確性測試。
在對語音數(shù)據(jù)進(jìn)行預(yù)處理時,標(biāo)準(zhǔn)窗口大小為25 ms,偏移量為10 ms。特征被標(biāo)準(zhǔn)化為零均值。
在CNN和CRNN模型中,Batch的大小為100,最大輪次數(shù)為100 000。同時設(shè)置學(xué)習(xí)速率為0.001。Dropout為0.5。采用ReLU作為激活函數(shù),Adam作為優(yōu)化器,使用均方誤差作為損失函數(shù)。
針對說話者特征的分類,設(shè)計(jì)相關(guān)的實(shí)驗(yàn),利用自建成人自然情感語料庫進(jìn)行訓(xùn)練,通過自建成人語料庫和IEMOCAP數(shù)據(jù)集進(jìn)行測試。使用TensorFlow框架進(jìn)行網(wǎng)絡(luò)模型結(jié)構(gòu)的搭建,本文將當(dāng)前說話者識別模型與i-vector、x-vector和基于VGG網(wǎng)絡(luò)的方法進(jìn)行比較[16]。其中,基線:i-vector;模型1:VGG;模型2:x-vector(PLDA);模型3:CNN(MFCC);模型4:當(dāng)前模型CNN(RASTA-MFCC)。
表1和表2僅列出自建成人語料庫的說話者分類模型的測試結(jié)果和不同說話者類別比例。
表1 說話者分類模型的測試結(jié)果
表2 不同說話者類別比例
由表1中的測試結(jié)果可知,在相同數(shù)據(jù)源的條件下,本文提出的模型與i-vector效果持平,但明顯優(yōu)于VGG方法和x-vector。與i-vector相比,除了可以獲得相似聲紋的數(shù)據(jù)之外,當(dāng)前模型還可以獲得語音情感的高維表達(dá),進(jìn)一步提升情感識別的準(zhǔn)確率。表2中提供了自建成人語料庫的說話者分類信息,可以看出,84%的說話者可以隸屬于前4個分類,其他類別的說話者比例較低,因此無須分裂出第5個類別。
針對語音中情感表達(dá)的識別,利用自建成人自然情感語料庫和IEMOCAP數(shù)據(jù)集進(jìn)行訓(xùn)練和測試,使用TensorFlow框架進(jìn)行網(wǎng)絡(luò)模型結(jié)構(gòu)的搭建,為了避免不同情感數(shù)量不均衡產(chǎn)生的影響,本文采用加權(quán)精度(Weighted accuracy,WA)和未加權(quán)精度(Unweighted accuracy,UA)作為指標(biāo),針對不同的情感分類模型進(jìn)行測試。
實(shí)驗(yàn)以未使用說話者分類特征的CRNN模型作為基線,其輸入語音為原始音頻,未經(jīng)任何處理。同時對比以下幾個模型,模型1:處理后音頻+單向3層LSTM;模型2:處理后音頻+雙向3層LSTM;模型3:處理后音頻+CRNN;模型4:當(dāng)前模型(處理后音頻+CRNN+第一階段高級表達(dá))。這里的UA和WA分別代表所有類別模型準(zhǔn)確率的平均值,分別計(jì)算每個模型的情感識別的準(zhǔn)確性。表3為經(jīng)過實(shí)驗(yàn)驗(yàn)證后,不同語音情感識別模型的準(zhǔn)確度。
表3 語音情感識別模型的測試結(jié)果(%)
由表3可知,針對兩個數(shù)據(jù)集合,當(dāng)前模型的表現(xiàn)最佳,擁有最優(yōu)的平均WA和UA,超過未使用說話者分類特征的模型和未處理音頻數(shù)據(jù)的模型。由此可以確定,融合了說話者分類特征的模型可以提升情感識別的精度,確定了語譜圖對于情感識別任務(wù)的積極作用。
圖6描述了針對自建語料庫,當(dāng)前情感識別模型的誤差變化趨勢,以Batch的大小作為衡量周期,可以看出,平均在Batch為1 900時,模型趨于穩(wěn)定狀態(tài)。
圖6 語音情感識別模型誤差
表4是針對自建語料庫中的音頻,使用當(dāng)前模型進(jìn)行情感識別的混淆矩陣??梢钥闯?,對于喚醒度較高的情緒,識別準(zhǔn)確度較高,例如高興、憤怒等類別。反之,針對平靜、悲傷等喚醒度較低的類別,識別準(zhǔn)確率較低。
表4 語音情感類別混淆矩陣(%)
從語音中識別特定的情感是一項(xiàng)具有挑戰(zhàn)性的任務(wù),其結(jié)果常常依賴于語音信號特征的準(zhǔn)確性和模型的有效性。本文設(shè)計(jì)一種針對個性化特征的、結(jié)合說話者分類任務(wù)、多級別特征、識別準(zhǔn)確率較高的深度學(xué)習(xí)模型。在多任務(wù)語音情感特征提取、個性化神經(jīng)網(wǎng)絡(luò)模型設(shè)計(jì)和成人自然情感語料庫設(shè)計(jì)等方面開展了相關(guān)的研究,通過實(shí)驗(yàn)驗(yàn)證,本文模型的識別準(zhǔn)確度較高。
在未來的研究過程中,將從語音識別入手,尋求一種通用的網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合顯著性區(qū)域特征,實(shí)現(xiàn)對于語音情感識別任務(wù)的泛化能力和效率的提升;考慮到長語音中可能夾雜多種不同的情感,將考慮通過模型的調(diào)整實(shí)現(xiàn)多標(biāo)簽的語音情感識別。