劉 穎,艾 豪,張偉東
(西安郵電大學(xué) 通信與信息工程學(xué)院,陜西 西安 710121)
情感識(shí)別作為人工智能領(lǐng)域的熱門(mén)研究方向,是構(gòu)建智能人機(jī)交互系統(tǒng)的重要環(huán)節(jié),其在意外風(fēng)險(xiǎn)事故防范[1]、金融市場(chǎng)的預(yù)測(cè)[2]、商業(yè)評(píng)論的分析[3]和犯罪預(yù)測(cè)[4]等領(lǐng)域有著廣泛的應(yīng)用。在情感識(shí)別研究發(fā)展的過(guò)程中,研究者通常使用文本、語(yǔ)音或者視覺(jué)(人臉)等3種單模態(tài)信息進(jìn)行情感預(yù)測(cè)。在利用單模態(tài)信息進(jìn)行情感識(shí)別時(shí),信息來(lái)源都來(lái)自于某單一模態(tài),所以在一些情況下存在不足。例如,當(dāng)單模態(tài)數(shù)據(jù)量較少時(shí),網(wǎng)絡(luò)的訓(xùn)練可能會(huì)出現(xiàn)過(guò)擬合現(xiàn)象,不僅如此,有時(shí)單模態(tài)數(shù)據(jù)甚至?xí)峁╁e(cuò)誤信息,從而影響到最終預(yù)測(cè)結(jié)果[5]。因此,開(kāi)展多模態(tài)情感識(shí)別的研究尤為必要。
基于傳統(tǒng)機(jī)器學(xué)習(xí)的多模態(tài)情感識(shí)別,常用的方法有基于樸素貝葉斯(Naive Bayes,NB)、隨機(jī)森林、支持向量機(jī)(Support Vector Machines,SVM)、決策樹(shù)學(xué)習(xí)和最大熵(Maximum Entropy,ME)等。文獻(xiàn)[6]提出了一個(gè)基于表情面部、手勢(shì)和語(yǔ)言的多模態(tài)情感識(shí)別框架,數(shù)據(jù)庫(kù)是一個(gè)包含8個(gè)情感和10個(gè)主題的多模態(tài)語(yǔ)料庫(kù)GEMEP[7](Geneva Multimodal Emotion Portrayals)。為了降低學(xué)習(xí)復(fù)雜度,采用Kononenko最小描述長(zhǎng)度準(zhǔn)則[8]對(duì)特征進(jìn)行離散化且使用交叉驗(yàn)證方法對(duì)語(yǔ)料庫(kù)進(jìn)行訓(xùn)練和測(cè)試。文獻(xiàn)[9]提出了一種用于微博情感識(shí)別的跨媒體詞袋模型(Cross media word Bag Model,CBM),該模型將文本和圖像視為一個(gè)整體,由文本和圖像的特征組成信息的特征,利用Logistic回歸進(jìn)行分類(lèi)。在情感識(shí)別任務(wù)中,傳統(tǒng)機(jī)器學(xué)習(xí)方法首先從信號(hào)中提取手工設(shè)計(jì)的特征,然后用這些特征訓(xùn)練分類(lèi)器。但是,這種手工設(shè)計(jì)的特征并不能充分表征情感信息,限制了傳統(tǒng)方法的系統(tǒng)性能。傳統(tǒng)機(jī)器學(xué)習(xí)想要構(gòu)建高性能的機(jī)器學(xué)習(xí)模型,需要特定的領(lǐng)域、技術(shù)和特征工程,不同領(lǐng)域的知識(shí)庫(kù)是完全不同的,所以結(jié)構(gòu)不夠靈活且適應(yīng)性很差。自從2012年Geoffrey Hinton領(lǐng)導(dǎo)的小組在著名的ImageNet圖像識(shí)別大賽中,采用深度學(xué)習(xí)模型AlexNet[10]奪冠以來(lái),深度學(xué)習(xí)被應(yīng)用于各個(gè)領(lǐng)域。深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)靈活,適應(yīng)性更強(qiáng),更易于轉(zhuǎn)換。使用神經(jīng)網(wǎng)絡(luò)提取特征,可以避免大量人工提取特征的工作,節(jié)約成本。不僅如此,深度學(xué)習(xí)還可以模擬詞與詞之間的聯(lián)系,有局部特征抽象化和記憶功能。正是這些優(yōu)勢(shì),使得深度學(xué)習(xí)在情感識(shí)別中發(fā)揮著舉足輕重的作用。
在多模態(tài)情感識(shí)別發(fā)展過(guò)程中,學(xué)者從不同的角度對(duì)現(xiàn)有的技術(shù)進(jìn)行了總結(jié)。文獻(xiàn)[11]對(duì)情感進(jìn)行了定義,討論了情感識(shí)別的應(yīng)用并對(duì)文本、語(yǔ)音、視覺(jué)以及多模態(tài)情感識(shí)別的現(xiàn)有技術(shù)進(jìn)行了歸納總結(jié)。文獻(xiàn)[12]對(duì)情感計(jì)算任務(wù)進(jìn)行了分類(lèi),同時(shí)通過(guò)時(shí)間線對(duì)情感識(shí)別的發(fā)展進(jìn)行了梳理,最后對(duì)單模態(tài)到多模態(tài)的情感識(shí)別技術(shù)進(jìn)行了綜述。文獻(xiàn)[13]將情感識(shí)別任務(wù)分為核心任務(wù)和子任務(wù)兩部分。核心任務(wù)包括文檔級(jí)情感分類(lèi)、句子級(jí)情感分類(lèi)和方面級(jí)情感分類(lèi),子任務(wù)包括多領(lǐng)域情感分類(lèi)和多模態(tài)情感分類(lèi)。
該研究對(duì)基于深度學(xué)習(xí)的多模態(tài)情感識(shí)別進(jìn)行討論總結(jié)。第1部分介紹了基于深度學(xué)習(xí)的文本、語(yǔ)音和人臉等3種單模態(tài)情感識(shí)別。第2部分總結(jié)了現(xiàn)有的多模態(tài)的情感識(shí)別數(shù)據(jù)集。第3部分將基于深度學(xué)習(xí)的多模態(tài)情感識(shí)別按照融合方式的不同分為基于早期融合、晚期融合、混合融合以及多核融合等4種情感識(shí)別方法,并在第4部分對(duì)不同方法進(jìn)行對(duì)比分析。最后,在第5部分對(duì)全文進(jìn)行了總結(jié),并對(duì)情感識(shí)別技術(shù)未來(lái)的發(fā)展趨勢(shì)進(jìn)行展望。
在情感識(shí)別領(lǐng)域,與傳統(tǒng)的機(jī)器學(xué)習(xí)相比,深度學(xué)習(xí)更高效、更能提取出深層次的語(yǔ)義特征。隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、記憶神經(jīng)網(wǎng)絡(luò)(Memory Neural Networks,MNN )、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks,GNN)、深度置信網(wǎng)絡(luò)(Deep Belief Networks,DBN)、膠囊網(wǎng)絡(luò)[14](Capluse Networks)以及Transformer[15]網(wǎng)絡(luò)均在情感識(shí)別領(lǐng)域取得了優(yōu)異的效果。下面將對(duì)基于深度學(xué)習(xí)的文本、語(yǔ)音和人臉情感識(shí)別分別進(jìn)行簡(jiǎn)要概括。
傳統(tǒng)的文本情感識(shí)別方法主要包括人工構(gòu)建情感詞典的方法和基于有監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)模型,這兩種方法不僅耗費(fèi)大量的人力,而且在大數(shù)據(jù)時(shí)代任務(wù)完成效率和任務(wù)完成質(zhì)量均較低。深度學(xué)習(xí)可以通過(guò)構(gòu)建網(wǎng)絡(luò)模型模擬人腦神經(jīng)系統(tǒng)對(duì)文本進(jìn)行逐步分析,特征抽取且自動(dòng)學(xué)習(xí)優(yōu)化模型輸出,以提高文本分類(lèi)的正確性。
基于深度學(xué)習(xí)的文本進(jìn)行情感識(shí)別時(shí),首先需要對(duì)文本序列送入詞嵌入(Word Embedding)模型,由詞嵌入模型將其編碼為詞向量(Word Vector)作為后面神經(jīng)網(wǎng)絡(luò)的輸入。早期用于表示文檔詞匯表的方法是獨(dú)熱編碼(One-Hot Encoding),這種方法的問(wèn)題是詞向量大小隨著語(yǔ)料庫(kù)大小的增加而增加,更重要的是這種編碼方式不能捕捉單詞之間的聯(lián)系?,F(xiàn)在比較常用的詞嵌入模型有Word2vec[16]、Glove[17]以及BERT[18](Bidirectional Encoder Representations from Transformers)。
Word2vec其本質(zhì)是一種單詞聚類(lèi)的方法,是實(shí)現(xiàn)單詞語(yǔ)義推測(cè)和句子情感識(shí)別等目的的一種手段,兩種比較主流的實(shí)現(xiàn)算法是連續(xù)詞袋模型(Continuous Bag-of-Words,CBOW)和Skip-Gram。前者是利用周?chē)~估計(jì)中心詞,缺點(diǎn)是周?chē)~的學(xué)習(xí)效果要差一些,后者是根據(jù)中心詞估計(jì)周?chē)~,優(yōu)點(diǎn)是學(xué)習(xí)效果要好一些,但是學(xué)習(xí)速度慢。Glove通過(guò)語(yǔ)料庫(kù)構(gòu)建詞的共現(xiàn)矩陣,然后通過(guò)共現(xiàn)矩陣和Glove模型對(duì)詞匯進(jìn)行向量化表示。相比于Word2vec,Glove更容易并行化,速度更快,但是Glove算法本身使用了全局信息,所以更費(fèi)內(nèi)存。BERT作為Word2vec的替代者,本質(zhì)上是通過(guò)在海量語(yǔ)料的基礎(chǔ)上運(yùn)行自監(jiān)督學(xué)習(xí)方法為單詞學(xué)習(xí)一個(gè)好的特征表示,BERT使用Transformer作為算法的主要框架,能更徹底的捕捉語(yǔ)句中的雙向關(guān)系。除此之外,常用的詞向量模型還有ELMo[19](Embedding Language Model)和GPT[20](Generative Pre-Training)。
在得到詞向量之后,通常需要對(duì)特征進(jìn)行聚類(lèi)和篩選,以得到更高級(jí)的情感特征表征。文獻(xiàn)[21]借鑒了膠囊網(wǎng)絡(luò)的思想,通過(guò)為每個(gè)情感類(lèi)別構(gòu)建膠囊,提出了基于RNN的膠囊用于情緒識(shí)別。方面級(jí)情感分類(lèi)任務(wù)是對(duì)給定一個(gè)方面(Aspect),研究多模態(tài)文檔在該方面的情感極性。文獻(xiàn)[22]提出了利用膠囊網(wǎng)絡(luò)通過(guò)路由算法構(gòu)建基于向量的特征表示和聚類(lèi)特征(Cluster Features),交互式注意力機(jī)制在膠囊路由過(guò)程中引入以建模方面術(shù)語(yǔ)與上下文的語(yǔ)義關(guān)系。文獻(xiàn)[23]也將膠囊網(wǎng)絡(luò)用于方面級(jí)情緒識(shí)別,取得了優(yōu)異的效果。
基于RNN、長(zhǎng)短期記憶網(wǎng)絡(luò)( Long Short-Term Memory,LSTM)和門(mén)控循環(huán)單元( Gated Recurrent Unit,GRU)這種循環(huán)結(jié)構(gòu)的網(wǎng)絡(luò)模型在文本情感識(shí)別任務(wù)上已經(jīng)取得了優(yōu)異的效果,但是RNN 固有的順序?qū)傩宰璧K了訓(xùn)練樣本間的并行化,對(duì)于長(zhǎng)序列,內(nèi)存限制將阻礙對(duì)訓(xùn)練樣本的批量處理。為此,文獻(xiàn)[24]提出了Transformer網(wǎng)絡(luò)。Transformer使用了自注意力機(jī)制(Self-Attention),該機(jī)制可以產(chǎn)生更具可解釋性的模型,可以從模型中檢查注意力分布,各個(gè)Attention Head可以注意到不同子空間的信息。Transformer突破了RNN不能并行計(jì)算的限制,相比于CNN,Transformer計(jì)算兩個(gè)位置之間的關(guān)聯(lián)所需的操作次數(shù)不隨距離的增長(zhǎng)而增長(zhǎng)。在此基礎(chǔ)上,文獻(xiàn)[25]提出一個(gè)分層Transformer框架,其中低層Transformer用來(lái)對(duì)單詞級(jí)的輸入進(jìn)行建模,上層Transformer用來(lái)捕獲話語(yǔ)級(jí)輸入的上下文關(guān)系。
語(yǔ)音情感識(shí)別近年來(lái)受到廣泛關(guān)注,在人機(jī)交互和行車(chē)駕駛安全上[26]發(fā)揮著重要的作用。為了得到更好的實(shí)驗(yàn)效果,通常首先將語(yǔ)音數(shù)據(jù)先進(jìn)行預(yù)處理,然后進(jìn)行特征提取,提取到的特征維度可能過(guò)高,需進(jìn)一步降維操作。最后,通過(guò)分類(lèi)器進(jìn)行情感分類(lèi)。
1.2.1 常用特征工具與降維
隨著深度學(xué)習(xí)技術(shù)逐步完善,在海量復(fù)雜數(shù)據(jù)建模上有很大優(yōu)勢(shì)。傳統(tǒng)的基于機(jī)器學(xué)習(xí)的語(yǔ)音情感識(shí)別所提取的語(yǔ)音特征通常包括波形、信號(hào)能量、F0、快速傅里葉變換( Fast Fourier Transform,FFT)頻譜、語(yǔ)音質(zhì)量、倒頻譜(Cepstrum)、線性預(yù)測(cè)倒譜系數(shù)(Linear Prediction Cepstral Coefficients,LPCC)、梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)、共振峰、語(yǔ)速和小波等。相較于傳統(tǒng)機(jī)器學(xué)習(xí),深度學(xué)習(xí)能提取到高層次的深度特征,常用于語(yǔ)音特征提取的神經(jīng)網(wǎng)絡(luò)有深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)、CNN、DBN、RNN、LSTM和膠囊網(wǎng)絡(luò)等,常用語(yǔ)音特征提取工具[27]如表1所示。
表1 常用語(yǔ)音特征提取工具統(tǒng)計(jì)表
目前,除神經(jīng)網(wǎng)絡(luò)以外,比較主流的語(yǔ)音特征提取工具包括Praat[28]和OpenSMILE[29]兩種。由于這兩款工具圖形用戶(hù)界面(Graphical User Interface ,GUI)操作簡(jiǎn)潔、功能完善和其跨平臺(tái)的特性,所以很多學(xué)者在進(jìn)行多模態(tài)語(yǔ)音情感識(shí)別時(shí)會(huì)采用這兩款語(yǔ)音特征提取工具提取特征。但是通過(guò)這兩款工具提取到的語(yǔ)音特征維度很高,通常需要進(jìn)行降維操作,例如主成分分析[30](Principle Component Analysis,PCA)和線性判別分析[31](Linear Discriminate Analysis,LDA)等。
1.2.2 深層特征提取
考慮到神經(jīng)網(wǎng)絡(luò)能提取到更豐富的聲學(xué)情感特征,文獻(xiàn)[32]采用CNN從語(yǔ)譜圖中提取圖像特征,從而改善MFCC丟失信息而造成識(shí)別結(jié)果準(zhǔn)確率低的問(wèn)題,最后通過(guò)多核分類(lèi)器得到了很高的識(shí)別精度。DBN情感表征能力強(qiáng),無(wú)監(jiān)督特征學(xué)習(xí)能力強(qiáng),文獻(xiàn)[33]采用貪婪算法進(jìn)行無(wú)監(jiān)督學(xué)習(xí),通過(guò)BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)反向微調(diào),找到全局最優(yōu)點(diǎn),再將DBN算法的輸出參數(shù)作為深度特征,并在此過(guò)程中,采用隨機(jī)隱退思想防止過(guò)擬合。
CNN的Max-pooling操作只保留最活躍的神經(jīng)元,這樣可能會(huì)丟失比較重要的空間信息,所以文獻(xiàn)[34]在膠囊網(wǎng)絡(luò)的基礎(chǔ)上提出了采用兩個(gè)循環(huán)連接的膠囊網(wǎng)絡(luò)提取特征,增強(qiáng)空間敏感度,取得了比CNN-LSTM體系結(jié)構(gòu)更好的分類(lèi)精度。除此之外,文獻(xiàn)[35]以類(lèi)似于RGB圖像表示的3個(gè)對(duì)數(shù)梅爾光譜圖作為深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Network,DCNN)的輸入,通過(guò)ImageNet預(yù)訓(xùn)練的CNN模型學(xué)習(xí)光譜圖通道中的高級(jí)特征表示,將學(xué)習(xí)的特征由時(shí)間金字塔匹配策略聚合得到全局深度特征,進(jìn)一步提升對(duì)有限樣本特征提取的有效性。
人臉情感識(shí)別對(duì)人機(jī)交互有重大意義,要讓計(jì)算機(jī)更好地理解人類(lèi)表達(dá),人臉情感識(shí)別不可或缺。通常將人臉表情分為高興、悲傷、憤怒、驚訝、恐懼和厭惡等6種基本表情。在進(jìn)行特征提取前,為了讓識(shí)別結(jié)果更好,通常先進(jìn)行圖像預(yù)處理,然后檢測(cè)出人臉部分,再對(duì)人臉部分進(jìn)行特征提取。人臉表情識(shí)別的主要步驟是表情特征提取和情感分類(lèi),傳統(tǒng)的機(jī)器學(xué)習(xí)特征提取方法包括局部二值模式[36](Local Binary Pattern,LBP)、主動(dòng)外觀模型(Active Appearance Model,AAM)、主動(dòng)形狀模型(Active Shape Model,ASM)、尺度不變特征轉(zhuǎn)換(Scale Invariant Feature Transform,SIFT)和Gabor小波變換[37]。傳統(tǒng)機(jī)器學(xué)習(xí)是手工提取特征,費(fèi)時(shí)費(fèi)力,且由于人臉語(yǔ)義信息比其他圖像更為豐富,手工提取特征可能會(huì)漏掉重要的語(yǔ)義信息。深度學(xué)習(xí)能提取深度特征,深度特征更豐富,包含的語(yǔ)義信息更完整,因此,利用深度學(xué)習(xí)進(jìn)行人臉情感識(shí)別成為研究的熱點(diǎn)。
常用于人臉表情識(shí)別的神經(jīng)網(wǎng)絡(luò)有CNN、DBN、生成對(duì)抗網(wǎng)絡(luò)[38](Generative Adversarial Networks,GAN)、深度自編碼器[39](Deep Autoencoder,DAE)和LSTM等。GAN因其強(qiáng)大的生成能力,在文獻(xiàn)[40]中被用來(lái)將非正面化的人臉正面化,達(dá)到多角度進(jìn)行人臉表情識(shí)別。GAN雖然具有很強(qiáng)的生成能力,但是也存在訓(xùn)練困難,超參數(shù)不容易調(diào)整的問(wèn)題。深度自編碼器是一種無(wú)監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),輸入輸出相同維度,但是也存在易陷入局部最優(yōu)的問(wèn)題,雖然無(wú)監(jiān)督逐層貪心預(yù)訓(xùn)練能在一定程度解決這個(gè)問(wèn)題,但是隨著隱藏層個(gè)數(shù)、神經(jīng)元數(shù)量和數(shù)據(jù)復(fù)雜的增加,梯度稀釋越來(lái)越嚴(yán)重,且訓(xùn)練極其繁瑣。對(duì)于各種網(wǎng)絡(luò)的局限性,學(xué)者們通常結(jié)合幾種神經(jīng)網(wǎng)絡(luò)提取特征,在最后分類(lèi)器的選擇上也不盡相同,有些利用神經(jīng)網(wǎng)絡(luò)的Softmax層進(jìn)行分類(lèi),而很多也選擇SVM[41]或者AdaBoost[42]分類(lèi)器進(jìn)行分類(lèi)。
介紹了基于深度學(xué)習(xí)的文本、語(yǔ)音和人臉(視覺(jué))等3種單模態(tài)情感識(shí)別的方法。對(duì)于文本情感識(shí)別,主要介紹了常用的詞向量模型以及用來(lái)捕獲上下文關(guān)系的相關(guān)網(wǎng)絡(luò)模型。對(duì)于語(yǔ)音和人臉情感識(shí)別,介紹了相關(guān)特征提取工具包和特征提取神經(jīng)網(wǎng)絡(luò),同時(shí)還對(duì)相關(guān)網(wǎng)絡(luò)架構(gòu)的性能進(jìn)行了分析。
對(duì)目前多模態(tài)情感識(shí)別領(lǐng)域相關(guān)任務(wù)常用的數(shù)據(jù)集進(jìn)行梳理,主要分為雙模態(tài)數(shù)據(jù)集(文本和圖片)和三模態(tài)數(shù)據(jù)集(文本、圖片和語(yǔ)音)。雙模態(tài)情感數(shù)據(jù)集包括Yelp[43]、Twitters[44]和Multi-ZOL[45]等3種,三模態(tài)數(shù)據(jù)集包括CMU-MOSEI[46](CMU Multimodal Opinion Sentiment and Emotion Intensity)、CMU-MOSI[47](CMU Multimodal Corpus of Sentiment Intensity)、YouTube[48]、ICT-MMMO[49](Institute for Creative Technologies’ Multi-Modal Movie Opinion)、IEMOCAP[50](Interactive Emotional dyadic Motion Capture database)和MELD[51](Multimodal EmotionLines Dataset)等6種,分別如表2和表3所示。表中分別用T、I和S表示文本、圖片和語(yǔ)音。
表2 雙模態(tài)情感數(shù)據(jù)集
表3 三模態(tài)情感數(shù)據(jù)集
Yelp數(shù)據(jù)集一共有44 305條評(píng)論,244 569張圖片,情感標(biāo)簽標(biāo)注是對(duì)每條評(píng)論的情感傾向打1~5分等5個(gè)分值。Twitters數(shù)據(jù)集分為訓(xùn)練集、開(kāi)發(fā)集和測(cè)試集,分別是19 816、2 410和2 409條帶圖片推文。該數(shù)據(jù)集的情感標(biāo)簽標(biāo)注為諷刺或不諷刺。Multi-ZOL數(shù)據(jù)集一共有5 288條多模態(tài)評(píng)論,每條多模態(tài)數(shù)據(jù)包含1個(gè)文本內(nèi)容、1個(gè)圖像集,以及至少1個(gè)但不超過(guò)6個(gè)評(píng)價(jià)。對(duì)于每個(gè)評(píng)價(jià),都有1~10分的情感得分。
CMU-MOSEI數(shù)據(jù)集包含3 228個(gè)視頻、23 453個(gè)句子、1 000個(gè)講述者和250個(gè)話題,總時(shí)長(zhǎng)達(dá)到65 h。CMU-MOSI數(shù)據(jù)集總共隨機(jī)收集了2 199個(gè)視頻,這些視頻的情緒極性強(qiáng)度標(biāo)注為-3~+3,標(biāo)簽標(biāo)注為憤怒、厭惡、悲傷、喜悅、中立、驚訝和恐懼等情感七分類(lèi),數(shù)字越大代表情緒越積極。YouTube數(shù)據(jù)集收集了300個(gè)視頻,標(biāo)簽標(biāo)注為積極、消極和中性等情緒三分類(lèi)。ICT-MMMO數(shù)據(jù)集包含340個(gè)多模態(tài)評(píng)論視頻,其中包括228個(gè)正面評(píng)論、23個(gè)中立評(píng)論和119個(gè)負(fù)面評(píng)論。IEMOCAP數(shù)據(jù)集總共包括4 784條即興會(huì)話和5 255條腳本化會(huì)話,最終的數(shù)據(jù)標(biāo)簽標(biāo)注為中立狀態(tài)、幸福、憤怒、驚訝、厭惡、挫敗感、興奮、其他、恐懼和悲傷等情感十分類(lèi)。MELD數(shù)據(jù)集包含9 989個(gè)片段,每個(gè)片段的標(biāo)簽標(biāo)注不僅包含憤怒、厭惡、悲傷、喜悅、中立、驚訝和恐懼等情感七分類(lèi),也包含積極、消極和中性等情緒三分類(lèi)。
將基于深度學(xué)習(xí)的多模態(tài)情感識(shí)別任務(wù)按照融合方式不同分為基于早期融合、晚期融合、混合融合以及多核融合等4種情感識(shí)別方法。早期融合大都將特征進(jìn)行簡(jiǎn)單的級(jí)聯(lián)操作。晚期融合是讓不同的模態(tài)先進(jìn)行單獨(dú)訓(xùn)練,再融合多個(gè)模型輸出的結(jié)果?;旌先诤蟿t是結(jié)合了早期融合和晚期融合的融合方法。多核學(xué)習(xí)則是通過(guò)多核映射,將多個(gè)特征空間組合成一個(gè)高維組合特征空間。
早期融合又叫特征級(jí)融合,通常將特征進(jìn)行簡(jiǎn)單的級(jí)聯(lián)操作。文獻(xiàn)[52]通過(guò)CNN提取圖像和文本特征,應(yīng)用于反諷數(shù)據(jù)集Twitter進(jìn)行圖像推文情緒分類(lèi)任務(wù),獲得了86%的精確度。在此基礎(chǔ)上,進(jìn)一步利用CNN提取文本與圖像特征,通過(guò)結(jié)合注意力機(jī)制和LSTM捕獲文本和圖像之間的聯(lián)系,最終送入Softmax進(jìn)行分類(lèi)且獲得了3%的性能提升。文獻(xiàn)[53]提出GME-LSTM ( Gated Multimodal Embedding LSTM) 模型,在每個(gè)時(shí)間點(diǎn)引入了門(mén)控機(jī)制,在單詞層就能完成多種模態(tài)信息的融合。
與簡(jiǎn)單的將不同模態(tài)特征進(jìn)行級(jí)聯(lián)操作不同,文獻(xiàn)[54]針對(duì)在線視頻中不穩(wěn)定的口語(yǔ)以及伴隨的手勢(shì)和聲音,將多模態(tài)情感識(shí)別問(wèn)題作為模態(tài)內(nèi)和模態(tài)間的動(dòng)態(tài)建模,提出了一個(gè)新的張量融合網(wǎng)絡(luò)(Tensor Fusion Network,TFN),采用端到端的學(xué)習(xí)方式,從模態(tài)內(nèi)和模態(tài)間解決多模態(tài)情感識(shí)別問(wèn)題。
在編碼階段,TFN使用1個(gè)LSTM和兩層全連接層對(duì)文本模態(tài)的輸入進(jìn)行編碼,分別使用1個(gè)3層的深度神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)音和視頻模態(tài)的輸入進(jìn)行編碼。在模態(tài)嵌入子網(wǎng)絡(luò)(Modality Embedding Subnetworks,MES)中有3個(gè)子網(wǎng)絡(luò),分別提取聲音特征向量zα、文本特征向量zl和圖片特征向量zv,表示為
(1)
得到3種特征向量之后,在張量融合層中通過(guò)三維的笛卡爾積將3種模態(tài)聯(lián)系起來(lái),得到融合后的向量
(2)
送入情感決策層。張量融合如圖1所示。該網(wǎng)絡(luò)采用交叉熵?fù)p失函數(shù),取得了不錯(cuò)的效果。
圖1 張量融合
文獻(xiàn)[55]提出了MARN(Multi-attention Recurrent Network)模型??紤]到不同模態(tài)之間具有模態(tài)交互信息,該模型通過(guò)分層注意力機(jī)制關(guān)注這種模態(tài)間的交互信息。在編碼階段,對(duì)LSTM進(jìn)行改進(jìn)以增強(qiáng)多模態(tài)表示,且將模態(tài)融合和模態(tài)編碼進(jìn)行了結(jié)合。值得注意的是,該模型在每個(gè)階段都會(huì)進(jìn)行模態(tài)融合,所以需要在編碼前進(jìn)行模態(tài)對(duì)齊。MARN模型考慮到了模態(tài)間的交互信息,文獻(xiàn)[56]則考慮了關(guān)注交互信息的范圍,提出了MFN(Memory Fusion Network)模型,MFN使用增量記憶機(jī)制(Delta-Memory Attention,DMA)和多視野門(mén)控記憶(Multi-View Gated Memory,MVGM),同時(shí)捕捉上下文之間的聯(lián)系和不同模態(tài)之間的交互,保存上一時(shí)刻的多模態(tài)交互信息。
文獻(xiàn)[57]認(rèn)為在以往利用文本、語(yǔ)音和視覺(jué)等3種模態(tài)信息進(jìn)行情感識(shí)別的研究中,忽視了文本信息比語(yǔ)音和視覺(jué)信息更重要的事實(shí)。為此提出了一種文本信息起主導(dǎo)作用的框架。為了探索時(shí)間和通道的相關(guān)性,該框架利用時(shí)間卷積網(wǎng)絡(luò)提取每種模態(tài)的高級(jí)表征,利用兩個(gè)變體LSTM關(guān)注語(yǔ)音和視覺(jué)信息且增強(qiáng)文本信息的表示。對(duì)于Multi-ZOL數(shù)據(jù)集,文獻(xiàn)[58]提出了多交互記憶網(wǎng)絡(luò)(Multi-Interactive Memory Network,MIMN),該模型使用方面引導(dǎo)注意力機(jī)制指導(dǎo)模型生成文本和圖像的注意力向量,并使用多模態(tài)交互注意力機(jī)制捕獲多模態(tài)間和單模態(tài)內(nèi)的交互信息。文獻(xiàn)[59]提出了一種基于深度置信網(wǎng)絡(luò)的語(yǔ)言表情多模態(tài)情感識(shí)別方法,通過(guò)CNN獲得人臉表情特征,對(duì)于音頻,通過(guò)頻譜衰減和短時(shí)平均能量獲取高級(jí)聲學(xué)特征。為了提高兩種模態(tài)特征融合的有效性,采用雙模態(tài)深度置信網(wǎng)絡(luò)(Bi-DBN)融合表情和語(yǔ)音特征且去除模態(tài)間的冗余信息,將得到的融合特征送入SVM進(jìn)行最終的分類(lèi)。
LSTM和GRU固有的順序?qū)傩宰璧K了訓(xùn)練樣本間的并行化,對(duì)于長(zhǎng)序列,內(nèi)存限制將阻礙對(duì)訓(xùn)練樣本的批量處理。為了克服這種缺陷且降低多模態(tài)情感識(shí)別任務(wù)中對(duì)標(biāo)注數(shù)據(jù)的依耐性,文獻(xiàn)[60]提出了基于Transformer自監(jiān)督特征融合的多模態(tài)情感識(shí)別網(wǎng)絡(luò)框架,該網(wǎng)絡(luò)使用預(yù)訓(xùn)練的自監(jiān)督網(wǎng)絡(luò)提取文本、音頻和視覺(jué)等3種模態(tài)信息的特征。同時(shí),考慮到提取到的自監(jiān)督特征具有高維性,因此采用一種新的基于Transformer和注意力機(jī)制方法捕捉模態(tài)間和模態(tài)內(nèi)的上下文語(yǔ)義聯(lián)系。
晚期融合也叫決策級(jí)融合,不同的模態(tài)先進(jìn)行單獨(dú)訓(xùn)練,再融合多個(gè)模型輸出的結(jié)果。因?yàn)樵摲椒ǖ娜诤线^(guò)程與特征無(wú)關(guān),且來(lái)自多個(gè)模型的錯(cuò)誤通常是不相關(guān)的,所以這種融合方法在多模態(tài)情感識(shí)別中應(yīng)用很多。
文獻(xiàn)[49]創(chuàng)建了ICT-MMMO數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)是一個(gè)關(guān)于電影評(píng)論視頻的數(shù)據(jù)庫(kù)。對(duì)于語(yǔ)音征提取,是通過(guò)大量的低階描述符(Low-level Descriptors,LLD)及其導(dǎo)數(shù),并結(jié)合相應(yīng)的統(tǒng)計(jì)函數(shù)捕獲一個(gè)片段內(nèi)的語(yǔ)音動(dòng)態(tài),利用OpenSMILE在線音頻分析工具包進(jìn)行語(yǔ)音特征提取。因?yàn)槊總€(gè)視頻片段中只有一個(gè)人,而且被試者大部分時(shí)間都面對(duì)著攝像頭,所以采用了從視頻序列中自動(dòng)提取視覺(jué)特征。通過(guò)Bag-of-Words(BoW)和Bag-of-N-Gram(BoNG)以及自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR)系統(tǒng)進(jìn)行文本特征的提取。為了對(duì)連續(xù)話語(yǔ)之間的上下文信息進(jìn)行建模,利用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM)對(duì)音頻和視頻特征進(jìn)行情感識(shí)別,對(duì)于語(yǔ)言特征分類(lèi),使用線性支持向量機(jī)。音頻和視頻特征作為Bi-LSTM網(wǎng)絡(luò)的輸入,進(jìn)而產(chǎn)生情感預(yù)測(cè)。MFCC特征利用ASR系統(tǒng)生成語(yǔ)言特征,通過(guò)SVM對(duì)得到的BoW/BoNG特征進(jìn)行分類(lèi),而SVM為每個(gè)電影評(píng)論視頻生成一個(gè)預(yù)測(cè),由于這種異步性,所以采用晚期融合推斷最終的情感估計(jì)。Bi-LSTM網(wǎng)絡(luò)生成的總分是通過(guò)簡(jiǎn)單地平均每個(gè)話語(yǔ)對(duì)應(yīng)的分?jǐn)?shù)計(jì)算,最后的情感評(píng)估是語(yǔ)言(權(quán)重1.2)和視聽(tīng)(權(quán)重0.8)得分的加權(quán)和。為了將在語(yǔ)言知識(shí)數(shù)據(jù)庫(kù)上的得分整合到上述方法中,通過(guò)Logistic回歸將得分映射到[0,1]范圍內(nèi)。與文獻(xiàn)[49]不同,文獻(xiàn)[61]提出了一個(gè)深度多模態(tài)融合架構(gòu),如圖2所示,其能夠利用來(lái)自個(gè)體模態(tài)的互補(bǔ)信息預(yù)測(cè)說(shuō)服力。
圖2 基于晚期融合的深度多模態(tài)網(wǎng)絡(luò)架構(gòu)
該網(wǎng)絡(luò)在最后利用DNN進(jìn)行最終的情感預(yù)測(cè),DNN的輸入是采用單個(gè)模態(tài)分類(lèi)器的置信度得分和其互補(bǔ)得分,最終預(yù)測(cè)取得了90%的精確度。類(lèi)似地,文獻(xiàn)[62]使用Word2vec對(duì)單詞進(jìn)行編碼,利用DNN提取圖像特征,通過(guò)邏輯回歸對(duì)文本和圖像進(jìn)行情感預(yù)測(cè),最后使用從標(biāo)記數(shù)據(jù)中學(xué)習(xí)到的平均策略和權(quán)重融合概率結(jié)果。
文獻(xiàn)[63]認(rèn)為在以前的研究中,只是把話語(yǔ)當(dāng)成一個(gè)獨(dú)立的部分,而沒(méi)有考慮話語(yǔ)前后的視頻畫(huà)面的關(guān)系。針對(duì)這種情況,基于LSTM的模型被提出,該模型能夠捕捉話語(yǔ)環(huán)境中的上下文信息。利用Text-CNN 提取文本特征,首先將每一個(gè)句子都變成每一個(gè)單詞向量的集合,使用Word2vec將這些詞編碼為維度為300維的詞向量。對(duì)于語(yǔ)音信息,利用OpenSMILE在線音頻分析工具包進(jìn)行語(yǔ)音特征提取。對(duì)于圖像,使用3D-CNN進(jìn)行圖像特征提取,然后使用Max-pooling 進(jìn)行降維,得到一個(gè)300維度的特征向量。在得到文字、語(yǔ)言和視覺(jué)等3種模型的特征向量表示之后,再將這3種特征向量分別送入上下文LSTM捕獲相鄰語(yǔ)境之間的聯(lián)系,最終得到每種模態(tài)的情感預(yù)測(cè)結(jié)果,并將這些預(yù)測(cè)結(jié)果繼續(xù)送入到一個(gè)上下文LSTM中得到最終的預(yù)測(cè)結(jié)果。與利用文本、語(yǔ)音和人臉等3種模態(tài)進(jìn)行情感識(shí)別不同,文獻(xiàn)[64]利用人臉與腦電進(jìn)行多模態(tài)情感識(shí)別,采用CNN提取人臉特征且利用Softmax進(jìn)行最終分類(lèi),而因?yàn)槟X電的非線性特性,利用SVM進(jìn)行最終的分類(lèi),在晚期融合層采用多重投票的方式且結(jié)合閾值法計(jì)算出兩種模態(tài)的最終分類(lèi)結(jié)果,將得到的結(jié)果利用統(tǒng)計(jì)模擬法得到最后的多模態(tài)情感分類(lèi)結(jié)果。文獻(xiàn)[65]提出一個(gè)應(yīng)用于音樂(lè)視頻情感識(shí)別的網(wǎng)絡(luò)架構(gòu),在數(shù)據(jù)預(yù)處理階段,將視頻中的原始音頻聲波轉(zhuǎn)換為單聲道,然后以窗口大小為2 048,頻率為22 050 Hz進(jìn)行二次采樣,利用OpenSMILE進(jìn)行音頻特征提取。對(duì)于視頻中的視覺(jué)信息,由于三維卷積能更好的捕獲空間和運(yùn)動(dòng)信息,所以利用3D-CNN進(jìn)行人臉特征提取,最后以晚期融合的策略送入分類(lèi)器進(jìn)行分類(lèi)。
多模態(tài)數(shù)據(jù)的早期融合并不能有效地捕捉所涉及模態(tài)的互補(bǔ)相關(guān)性,并可能導(dǎo)致包含冗余的輸入向量一起輸入到情感決策層中,對(duì)情感預(yù)測(cè)造成干擾。晚期融合不能有效地捕捉不同模態(tài)之間的相關(guān)性,混合融合則集成了早期融合和晚期融合的優(yōu)點(diǎn),在情感預(yù)測(cè)任務(wù)中取得了不錯(cuò)的效果。文獻(xiàn)[66]提出了一種新的圖像-文本情感識(shí)別模型,即深度多模態(tài)關(guān)注融合(Deep Multimodal Attention Fusion,DMAF),利用視覺(jué)和語(yǔ)義內(nèi)容之間的區(qū)別特征和內(nèi)在相關(guān)性,通過(guò)混合融合框架進(jìn)行情感識(shí)別。該網(wǎng)絡(luò)包含兩種獨(dú)立的單模態(tài)注意力模型和一種多模態(tài)注意力模型,兩種單模態(tài)注意力模型分別學(xué)習(xí)視覺(jué)模態(tài)和文本模態(tài),自動(dòng)聚焦與情感最相關(guān)的判別區(qū)域和重要詞語(yǔ)。對(duì)于文本內(nèi)容,使用Glove上的預(yù)先訓(xùn)練好的單詞特征初始化嵌入層(Embedding Layer)參數(shù),每個(gè)單詞都由一個(gè)300維的向量表示,文本內(nèi)容長(zhǎng)度不超過(guò)30,大于30的序列將被截?cái)?,小?0的用零填充。將得到的詞向量通過(guò)LSTM捕獲上下文關(guān)系,經(jīng)過(guò)語(yǔ)義注意力機(jī)制之后進(jìn)行情感預(yù)測(cè)。首先,視覺(jué)特征通過(guò)視覺(jué)幾何組19[67](Visual Geometry Group,VGG19)模型進(jìn)行提取,使用卷積層“Conv5_4”的輸出作為區(qū)域特征,其維度為196×512,經(jīng)過(guò)視覺(jué)注意力機(jī)制進(jìn)行情感預(yù)測(cè)。然后,提出了一種基于早期融合的多模態(tài)注意力模型,利用視覺(jué)特征和文本特征之間的內(nèi)在關(guān)聯(lián)進(jìn)行聯(lián)合情感預(yù)測(cè)。最后,將得到的3種情感預(yù)測(cè)結(jié)果采用一種晚期融合方案進(jìn)行最終的情感預(yù)測(cè)。文獻(xiàn)[68]提出一種用于藝術(shù)繪畫(huà)多模態(tài)請(qǐng)感識(shí)別框架,藝術(shù)繪畫(huà)中包含圖像與文本信息。圖像信息利用CNN進(jìn)行特征提取,而文本信息利用BERT構(gòu)造一個(gè)句子的詞向量,通過(guò)Bi-GRU捕獲上下文關(guān)系。
基于RNN、LSTM和GRU這種循環(huán)結(jié)構(gòu)網(wǎng)絡(luò)模型在多模態(tài)情感識(shí)別任務(wù)上已經(jīng)取得了優(yōu)異的效果,但是RNN 固有的順序?qū)傩宰璧K了訓(xùn)練樣本間的并行化,對(duì)于長(zhǎng)序列,內(nèi)存限制將阻礙對(duì)訓(xùn)練樣本的批量處理。由此,文獻(xiàn)[69]提出了一個(gè)基于Transformer的會(huì)話級(jí)多模態(tài)情感識(shí)別框架,該架構(gòu)包含對(duì)于上下文無(wú)關(guān)的話語(yǔ)級(jí)特征提取和上下文相關(guān)的多模態(tài)特征提取兩個(gè)關(guān)鍵步驟。架構(gòu)中包含兩個(gè)Transformer,一個(gè)Transformer用來(lái)捕獲單模態(tài)特征之間的時(shí)間依耐性,另一個(gè)跨模態(tài)Transformer用來(lái)學(xué)習(xí)非對(duì)齊多模態(tài)特征上的跨模態(tài)交互作用。為了得到更有用的信息,通過(guò)注意力機(jī)制進(jìn)行多模態(tài)特征融合,最后使用一個(gè)雙向GRU捕獲文本和語(yǔ)音兩個(gè)方向上的語(yǔ)境信息,并結(jié)合Multi-Head Attention突出重要的語(yǔ)境話語(yǔ)。
多核融合的方法來(lái)自于多核學(xué)習(xí)(Multi Kernel Learning,MKL),多核學(xué)習(xí)是一種特征選擇方法,將特征分組,每組都有自己的核函數(shù)[70]。SVM分類(lèi)器都是單核的,即是基于單個(gè)特征空間。在實(shí)際應(yīng)用中往往需要根據(jù)經(jīng)驗(yàn)選擇不同的核函數(shù),如高斯核函數(shù)、多項(xiàng)式核函數(shù)等。指定不同的參數(shù),這樣不僅不方便而且當(dāng)數(shù)據(jù)集的特征是異構(gòu)時(shí),效果也不是很理想。正是基于SVM單核學(xué)習(xí)存在的上述問(wèn)題,同時(shí)利用多個(gè)核函數(shù)進(jìn)行映射的MKL應(yīng)用而生。多核模型比單個(gè)核函數(shù)具有更高的靈活性。在多核映射的背景下,高維空間成為由多個(gè)特征空間組合而成的組合空間。組合空間充分發(fā)揮了各個(gè)基本核的不同特征映射能力,能夠?qū)悩?gòu)數(shù)據(jù)的不同特征分量分別通過(guò)相應(yīng)的核函數(shù)得到解決。多核學(xué)習(xí)過(guò)程如圖3所示。
圖3 多核學(xué)習(xí)過(guò)程
多核學(xué)習(xí)很擅長(zhǎng)處理異構(gòu)數(shù)據(jù),因此也被用于多模態(tài)情感識(shí)別。文獻(xiàn)[71]提出了基于深度卷積神經(jīng)網(wǎng)絡(luò)的文本特征和多核學(xué)習(xí)的話語(yǔ)級(jí)多模態(tài)情感識(shí)別。在一個(gè)帶有手工標(biāo)注情緒標(biāo)簽的訓(xùn)練語(yǔ)料庫(kù)中訓(xùn)練一個(gè)CNN,將訓(xùn)練的CNN不作為分類(lèi)器使用,而是將其隱藏層的輸出值作為多核SVM的輸入特征,從而提供更高的分類(lèi)準(zhǔn)確性。對(duì)于文本的預(yù)處理,使用Word2vec對(duì)單詞進(jìn)行預(yù)處理,每個(gè)單詞處理成一個(gè)300維的向量,對(duì)于詞典里面沒(méi)有的單詞,處理成新的隨機(jī)向量。對(duì)于臉部特征點(diǎn)的提取,使用CLM-Z[72]人臉識(shí)別庫(kù),對(duì)每一幀圖像提取68個(gè)面部特征點(diǎn),使用OpenSMILE提取與音高和聲音強(qiáng)度相關(guān)的音頻特征。在模型中,將提取的特征用基于循環(huán)相關(guān)的特征子集和主成分分析進(jìn)行特征選擇降低特征維度,通過(guò)交叉驗(yàn)證確定MKL分類(lèi)器的參數(shù)。選擇8個(gè)核的配置,其中5個(gè)核函數(shù)采用徑向基函數(shù)(Radial Basis Function,RBF),超參數(shù)Gamma設(shè)置成從0.01~0.05,RBF的Gamma參數(shù)控制單個(gè)訓(xùn)練點(diǎn)的影響距離,剩余3個(gè)核的核函數(shù)分別采用多項(xiàng)式的2、3、4次冪。最后使用MKL對(duì)多模態(tài)異構(gòu)融合特征向量進(jìn)行分類(lèi)。
為了進(jìn)一步提升情緒識(shí)別的準(zhǔn)確性,文獻(xiàn)[73]提出了一種卷積遞歸多核學(xué)習(xí)模型。為了捕捉視頻上下內(nèi)容的時(shí)間相關(guān)性,將時(shí)間t和t+1的每對(duì)連續(xù)圖像轉(zhuǎn)換成單個(gè)圖像,利用CNN提取時(shí)間相關(guān)的特征,通過(guò)使用CNN學(xué)習(xí)到的輸出特征向量的協(xié)方差矩陣初始化RNN的權(quán)值,最終情感類(lèi)別輸出為“積極”或“消極”。
介紹了基于深度學(xué)習(xí)的多模態(tài)情感識(shí)別相關(guān)方法,按照融合方式的不同將這些方法分為基于早期融合、晚期融合、混合融合和多核融合。早期融合大都將特征進(jìn)行簡(jiǎn)單的級(jí)聯(lián)操作或者進(jìn)行張量融合,不能有效地捕捉所涉及模態(tài)的互補(bǔ)相關(guān)性,并可能導(dǎo)致包含冗余的輸入向量一起輸入到情感決策層中,對(duì)情感預(yù)測(cè)造成干擾。晚期融合則不能有效地捕捉不同模態(tài)之間的相關(guān)性,混合融合則集成了早期融合和晚期融合的優(yōu)點(diǎn),但算法相對(duì)比較復(fù)雜。
為了比較多模態(tài)融合方式對(duì)精度的影響及單模態(tài)的識(shí)別效果,分別對(duì)比不同方法在雙模態(tài)數(shù)據(jù)集Twitter上的F1分?jǐn)?shù)和精確度,如表4所示,F(xiàn)1分?jǐn)?shù)是模型精確率和召回率的一種調(diào)和平均。為了比較不同方法網(wǎng)絡(luò)結(jié)構(gòu)在多模態(tài)情感識(shí)別中的表現(xiàn)情況,表5總結(jié)出了不同方法在三模態(tài)數(shù)據(jù)集IEMOCAP上的實(shí)驗(yàn)結(jié)果,最終F1分?jǐn)?shù)和精確度都取平均值。
表4 不同方法在雙模態(tài)數(shù)據(jù)集Twitter上實(shí)驗(yàn)結(jié)果對(duì)比
表5 不同方法在三模態(tài)數(shù)據(jù)集IEMOCAP上實(shí)驗(yàn)結(jié)果
由表4和表5可知:1)在單模態(tài)情感識(shí)別上,文本的表現(xiàn)要優(yōu)于圖像的表現(xiàn)。而在融合方式上,晚期融合的效果優(yōu)于早期融合,混合融合的效果明顯優(yōu)于其他兩種融合方式,但是算法相對(duì)更復(fù)雜。2)當(dāng)融合方式相同時(shí),CNN架構(gòu)由于池化操作可能會(huì)失去重要的空間信息,所以效果相對(duì)較差。引入LSTM、GRU捕捉文本上下文的聯(lián)系或者視頻上下幀的關(guān)聯(lián)能有效提高識(shí)別準(zhǔn)確率,另外引入注意力機(jī)制,對(duì)不同模態(tài)的貢獻(xiàn)分配不同的權(quán)重也能提高準(zhǔn)確率。3)Transformer可以克服RNN并行計(jì)算效率太低的缺點(diǎn),但是整體復(fù)雜度相對(duì)要高一些。
深度學(xué)習(xí)中常用于情感識(shí)別特征提取的神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點(diǎn)總結(jié)如表6所示。
表6 情感特征提取方法優(yōu)缺點(diǎn)總結(jié)
多模態(tài)情感識(shí)別旨在分析出人們對(duì)產(chǎn)品、服務(wù)、組織、個(gè)人、問(wèn)題、事件和話題等實(shí)體的意見(jiàn)、情緒、情感、評(píng)價(jià)和態(tài)度,其在人機(jī)交互、輿情分析、災(zāi)害評(píng)估和金融市場(chǎng)預(yù)測(cè)等方面發(fā)揮著重大作用。目前,多模態(tài)情感識(shí)別任務(wù)大都采用深度學(xué)習(xí)進(jìn)行建模,通過(guò)分析基于深度學(xué)習(xí)的多模態(tài)情感識(shí)別的研究現(xiàn)狀,將基于深度學(xué)習(xí)的多模態(tài)情感識(shí)別按照融合方式不同分為早期融合、晚期融合、混合融合和多核融合等4種情感識(shí)別方法,并分別進(jìn)行歸納總結(jié)。同時(shí),對(duì)情感識(shí)別技術(shù)未來(lái)發(fā)展趨勢(shì)進(jìn)行展望,具體如下。
1)多模態(tài)情感識(shí)別太依賴(lài)于特定領(lǐng)域,泛化性不足。設(shè)計(jì)一個(gè)跟領(lǐng)域無(wú)關(guān)的多模態(tài)情感識(shí)別系統(tǒng)是需要解決的問(wèn)題,例如用車(chē)評(píng)數(shù)據(jù)集訓(xùn)練出的模型分析斗魚(yú)評(píng)論。
2)生理特征需要引入多模態(tài)情感識(shí)別,文本、語(yǔ)音和圖像如果有一樣數(shù)據(jù)沒(méi)有表達(dá)人物的真實(shí)情感,對(duì)識(shí)別結(jié)果的影響是極其巨大的,即使引入注意力機(jī)制也不能有效解決,所以引入腦電、心率等生理特征非常關(guān)鍵。目前有一些學(xué)者引入了腦電等生理特征,如文獻(xiàn)[79]基于面部表情、皮膚靜電反應(yīng)和腦電圖提出了一種基于混合融合的多模態(tài)情感識(shí)別系統(tǒng),但是對(duì)于引入生理特征方面的算法還非常欠缺和不成熟。
3)多模態(tài)情感識(shí)別對(duì)數(shù)據(jù)量要求較高,缺少任何單一模態(tài)的數(shù)據(jù)都會(huì)影響到最終的識(shí)別結(jié)果,引入小樣本學(xué)習(xí)且精度不降低也是迫切需要解決的問(wèn)題。
4)模型過(guò)于復(fù)雜。目前基于深度學(xué)習(xí)的多模態(tài)情感識(shí)別方法模型參數(shù)過(guò)多,模型的訓(xùn)練時(shí)間過(guò)長(zhǎng),如何精簡(jiǎn)網(wǎng)絡(luò)結(jié)構(gòu)也是需要關(guān)注的問(wèn)題。
5)多模態(tài)數(shù)據(jù)的特征提取與優(yōu)化。特征提取對(duì)于情感識(shí)別是最重要的一環(huán),直接影響最終的識(shí)別結(jié)果,如何將提取到的特征進(jìn)一步優(yōu)化來(lái)提升模型的魯棒性也是值得研究的,例如怎樣高效的剔除冗余重復(fù)的情感特征。