程大雷,張代瑋,陳雅茜
(西南民族大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院計(jì)算機(jī)系統(tǒng)國(guó)家民委重點(diǎn)實(shí)驗(yàn)室,四川 成都 610041)
近年來,情感識(shí)別作為人工智能的關(guān)鍵技術(shù)之一,在遠(yuǎn)程醫(yī)療、智能家居等多種場(chǎng)景中得到了廣泛的應(yīng)用.人們每天都會(huì)產(chǎn)生大量具有豐富情感的多模態(tài)數(shù)據(jù),如面部表情、語(yǔ)音等.基于多模態(tài)數(shù)據(jù)對(duì)情感進(jìn)行識(shí)別具有重要的研究?jī)r(jià)值和應(yīng)用意義.如圖1所示,多模態(tài)情感識(shí)別一般分為數(shù)據(jù)預(yù)處理、多模態(tài)特征提取和多模態(tài)情感融合等幾個(gè)步驟.為了提取高質(zhì)量的特征,會(huì)對(duì)原始數(shù)據(jù)降噪、去重等預(yù)處理操作.多模態(tài)表示學(xué)習(xí)是利用多模態(tài)的互補(bǔ)性和冗余性的方式來表示多模態(tài)數(shù)據(jù)[1].多模態(tài)情感融合就是通過模態(tài)間的相互作用將來自不同模態(tài)的信息聯(lián)合在一起.由于融合信息可以提供更多的情感線索,因此能夠提高整體結(jié)果或決策的準(zhǔn)確性[2].
本文分別從數(shù)據(jù)集、多模態(tài)特征提取以及多模態(tài)情感融合等方面對(duì)多模態(tài)情感識(shí)別進(jìn)行系統(tǒng)探索.特別針對(duì)多模態(tài)情感融合這一重點(diǎn)問題,對(duì)特征級(jí)融合、決策級(jí)融合、模型級(jí)融合這三個(gè)主流融合策略分別進(jìn)行了探討.最后從引入新模態(tài)和多模態(tài)融合等方面對(duì)改善和提升情感識(shí)別性能進(jìn)行了展望.
在機(jī)器學(xué)習(xí)與人工智能這個(gè)大的領(lǐng)域,情感識(shí)別作為一門成熟的學(xué)科,有一系列不同的數(shù)據(jù)集來滿足日益增長(zhǎng)的數(shù)據(jù)需求.用于多模態(tài)情感識(shí)別的模型必須具備很強(qiáng)的泛化能力,既能推斷出有用的社會(huì)信息,又能有效地落地于工業(yè)應(yīng)用.該任務(wù)的數(shù)據(jù)集必須具備一些期望的屬性,如不同的說話人、性別、討論主題、口語(yǔ)、使用的詞匯、情感強(qiáng)度以及數(shù)據(jù)量的多樣性等.表1列出了常用的多模態(tài)情感數(shù)據(jù)集.
(1)IEMOCAP數(shù)據(jù)集
IEMOCAP(Interactive Emotional Dyadic Motion Capture)[3]是應(yīng)用最廣泛的數(shù)據(jù)集,在實(shí)驗(yàn)室環(huán)境中以敘述的方式收集的.包含12個(gè)小時(shí)的英語(yǔ)對(duì)話,男女均有,擁有即興表演和腳本語(yǔ)言兩種方式,并按照憤怒、悲傷等九種情緒分類.此外,它還包含高質(zhì)量的視覺特征,因?yàn)槊娌?、頭部和手勢(shì)的標(biāo)記被用于捕捉面部表情和手勢(shì)動(dòng)作.IEMOCAP也是使用最早的、有良好注釋和維護(hù)的數(shù)據(jù)集之一,因此絕大多數(shù)多模態(tài)情感識(shí)別模型都使用該數(shù)據(jù)集進(jìn)行評(píng)估.
(2)MELD數(shù)據(jù)集
MELD(Multimodal EmotionLines Dataset)數(shù)據(jù)集[4]是一個(gè)大型的多模態(tài)多方情感對(duì)話數(shù)據(jù)集,包含13 000個(gè)來自《老友記》電視劇的話語(yǔ),由1 433個(gè)對(duì)話組成,每個(gè)對(duì)話包含兩個(gè)以上的說話人.每個(gè)話語(yǔ)都帶有情感和情緒標(biāo)簽,該數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,分別對(duì)應(yīng)有9 593、1 061和2 504個(gè)話語(yǔ).有憤怒、厭惡等七種情緒類別.
(3)CMU-MOSEI數(shù)據(jù)集
CMU-MOSEI(CMU Multimodal Opinion Sentiment and Emotion Intensity)數(shù)據(jù)集[5]是最大的話語(yǔ)級(jí)情感分析和情感識(shí)別數(shù)據(jù)集,包含超過65小時(shí)的注釋視頻1 000名發(fā)言者和250個(gè)主題,這些視頻來自于YouTube.由于許多工業(yè)產(chǎn)品使用類似的數(shù)據(jù),這使得它成為最有用的數(shù)據(jù)集之一.每個(gè)視頻話語(yǔ)有來自3個(gè)不同人的注釋,以減少偏差.該數(shù)據(jù)集通過給每個(gè)例子分配一個(gè)情緒評(píng)分(-3到3之間)來進(jìn)行注釋,其中-3代表極端消極的情緒,+3代表極端積極情緒.
(4)CMU-MOSI數(shù)據(jù)集
CMU-MOSI(Multimodal Opinion-level Sentiment Intensity)數(shù)據(jù)集[7]由93個(gè)來自YouTube的電影評(píng)論視頻組成.這些視頻涵蓋了2 199個(gè)話語(yǔ).每個(gè)話語(yǔ)的標(biāo)簽由5個(gè)不同的工作者標(biāo)注,在-3到+3的連續(xù)范圍內(nèi),表示消極情緒(低于0分)或積極情緒(高于0分)的相對(duì)強(qiáng)度.
(5)CH-SIMS數(shù)據(jù)集
CH-SIMS(Chinese Single-and Multimodal Sentiment)是中文多模態(tài)情感分析數(shù)據(jù)集,它包含2 281個(gè)精細(xì)化的視頻片段,多模態(tài)和獨(dú)立的單模態(tài)注釋[7].它允許研究者研究模態(tài)之間的相互作用或使用獨(dú)立的單模態(tài)注釋進(jìn)行單模態(tài)情感識(shí)別.
特征提取是指從原始數(shù)據(jù)中提取一組特征并降低特征空間的維數(shù)這一過程.在特征提取過程中,會(huì)刪除不相關(guān)和冗余的特征,從而提高算法的準(zhǔn)確性,縮短訓(xùn)練時(shí)間.因此,特征提取是多模態(tài)情感識(shí)別的首要步驟,本節(jié)主要介紹文本、語(yǔ)音和面部表情特征的提取技術(shù).
文本特征提取即對(duì)文本信息進(jìn)行提取,是表示文本信息的一種方法,它是對(duì)大量文本進(jìn)行處理的基礎(chǔ).過濾法、融合法、映射法和聚類法是常用的文本特征提取方法[8].與傳統(tǒng)的特征提取方法相比,深度學(xué)習(xí)可以從訓(xùn)練數(shù)據(jù)中快速獲得新的有效的特征.一些研究[9-10]利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取多模態(tài)情感識(shí)別的文本特征.循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[11-12]用于處理順序數(shù)據(jù).對(duì)于涉及順序輸入的任務(wù),例如語(yǔ)音和自然語(yǔ)言,通常使用RNNs更好.另外有各種各樣的無監(jiān)督架構(gòu)被設(shè)計(jì)用來學(xué)習(xí)單詞的向量空間表示,GloVe[31]是第一個(gè)產(chǎn)生健壯的詞嵌入的模型之一,其次是BERT[13]模型.BERT是一種開源的預(yù)訓(xùn)練模型,它是在一個(gè)大型的未標(biāo)記文本語(yǔ)料庫(kù)上預(yù)先訓(xùn)練的,該語(yǔ)料庫(kù)包括整個(gè)維基百科(約25億單詞)和一個(gè)圖書語(yǔ)料庫(kù)(8億單詞).之前的研究[14]使用BERT提取文本特征作為多模態(tài)情感識(shí)別中的文本模態(tài).這些模型設(shè)計(jì)高效,經(jīng)過大量數(shù)據(jù)的預(yù)訓(xùn)練,具有很強(qiáng)的特征表示學(xué)習(xí)能力,能夠捕捉詞義和上下文.在這一點(diǎn)上,為了方便與基線模型進(jìn)行比較,大多數(shù)多模態(tài)情感識(shí)別模型都采用了GloVe嵌入.
將語(yǔ)音信號(hào)分割為20~30 ms的幀,然后從這些幀中提取特征,這些幀統(tǒng)稱為低級(jí)描述特征(LLDs).文獻(xiàn)[15]提取17維的LLDs聲學(xué)特征進(jìn)行情感識(shí)別.話語(yǔ)的長(zhǎng)度因數(shù)據(jù)庫(kù)而異,由于話語(yǔ)長(zhǎng)度的不同,數(shù)據(jù)庫(kù)中每個(gè)話語(yǔ)的幀數(shù)也不同.話語(yǔ)長(zhǎng)度的確定是通過在話語(yǔ)的所有幀中提取每個(gè)LLDs特征的統(tǒng)計(jì)描述符來實(shí)現(xiàn)的.高級(jí)統(tǒng)計(jì)描述特征(HSDs)是在LLDs的基礎(chǔ)上做一些統(tǒng)計(jì)(如均值、最大值)而得到的.文獻(xiàn)[16]分別提取這兩個(gè)層次的聲學(xué)特征,進(jìn)行有效的互補(bǔ)融合達(dá)到了較好的結(jié)果.使用Librosa[17]音頻處理庫(kù)和openSMILE[18]開源軟件可以進(jìn)行簡(jiǎn)單的語(yǔ)音特征提取.深度學(xué)習(xí)算法在語(yǔ)音情感識(shí)別中也得到了廣泛關(guān)注和應(yīng)用,例如卷積神經(jīng)網(wǎng)絡(luò)(CNN)[19]被廣泛應(yīng)用于圖像相關(guān)特征學(xué)習(xí).因此當(dāng)給定一種將音頻信號(hào)映射到二維表示(圖像)的方法,CNN就可以學(xué)習(xí)深度音頻特征.循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[20]以及它的改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[21]同樣也取得了顯著的改善.最近,為了從初始波形中學(xué)習(xí)音頻表示,人們提出了各種表示學(xué)習(xí)技術(shù)和結(jié)構(gòu).SincNet[32]網(wǎng)絡(luò)使用有監(jiān)督的方式以CNN處理原始語(yǔ)音波形.另一方面,從音頻中學(xué)習(xí)語(yǔ)音表示的無監(jiān)督方法正在迅速發(fā)展,并產(chǎn)生了高效的架構(gòu),如wav2vec[33],wav2vec 2.0[34]是目前先進(jìn)的表示學(xué)習(xí)模型.
雖然從理論上講,肢體語(yǔ)言在表達(dá)人的情緒方面起著重要的作用,但多模態(tài)情感識(shí)別的相關(guān)數(shù)據(jù)集大多是捕捉人臉面部表情.面部表情特征提取會(huì)產(chǎn)生更小、更豐富的屬性集,這些屬性集包含臉部邊緣、對(duì)角線等特征,以及嘴唇和眼睛之間的距離、兩只眼睛之間的距離等信息.特征提取的方法包括基于幾何的特征提取和基于外觀的特征提取.前者基于幾何的特征提取方法諸如邊緣特征和角點(diǎn)特征等,Neha等人[22]分析了特征提取技術(shù)Gabor濾波器的性能,他們還測(cè)試了平均Gabor濾波器,并比較了兩種濾波技術(shù)以提高識(shí)別率;后者利用突出的點(diǎn)特征來處理臉部不同點(diǎn)的狀態(tài),比如眼睛的位置,嘴巴和眉毛等重要點(diǎn)的形狀.傳統(tǒng)的特征提取方法大多采用局部二值模式(LBP)作為特征提取技術(shù),LBP是一種基于通用的框架,用于從靜態(tài)圖像中提取特征.此外,隨著深度學(xué)習(xí)的發(fā)展,其特征提取方法要比傳統(tǒng)方法要好.近年來研究人員提出了一系列深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)方法用于視頻序列中面部表情識(shí)別任務(wù)的高級(jí)特征學(xué)習(xí).其中,具有代表性的深度模型有AlexNet[23]、VGG[24]、GoogleNet[25]、ResNet[26]等等.特別是Li等人[27]利用預(yù)先訓(xùn)練的VGG網(wǎng)絡(luò)學(xué)習(xí)了專門的面部表情識(shí)別模型.Zhang等人[28]采用3D-CNN網(wǎng)絡(luò)來學(xué)習(xí)視頻序列中與面部情緒表達(dá)相關(guān)的情感視頻特征.
在多模態(tài)情感識(shí)別中,特征表示和多模態(tài)情感融合是兩個(gè)重要的研究方向[29-30].一個(gè)好的特征表示應(yīng)該捕捉豐富的情感線索,這些線索可以概括不同的說話者、背景和語(yǔ)義內(nèi)容等.一個(gè)良好的融合機(jī)制應(yīng)該能夠有效地整合各個(gè)模態(tài)數(shù)據(jù).
為了幫助理解多模態(tài)情感特征表示的任務(wù),本文列出了兩種常用的多模態(tài)表示學(xué)習(xí)策略:聯(lián)合表示和協(xié)同表示.聯(lián)合表示將單模態(tài)信號(hào)整合到同一個(gè)表示空間中稱為聯(lián)合嵌入空間,而協(xié)同表示分別處理單模態(tài)信號(hào),但會(huì)對(duì)它們施加某些相似性約束.
聯(lián)合表示法將單模態(tài)表示投影到多模態(tài)聯(lián)合表示中.聯(lián)合表示的最簡(jiǎn)單的例子是單個(gè)模態(tài)特征的拼接(也稱為早期融合[35]).在本文中我們主要討論使用神經(jīng)網(wǎng)絡(luò)創(chuàng)建聯(lián)合表示的方法如表2,神經(jīng)網(wǎng)絡(luò)已經(jīng)成為一種非常流行的單模態(tài)特征表示方法,它們被用來表示文本、視覺和聽覺數(shù)據(jù),并越來越多地用于多模態(tài)情感識(shí)別領(lǐng)域.為了使用神經(jīng)網(wǎng)絡(luò)構(gòu)建多模態(tài)表示,每個(gè)模態(tài)都從幾個(gè)單獨(dú)的神經(jīng)層開始,然后使用一個(gè)隱藏層將多種模態(tài)投影到聯(lián)合空間中.Mai等人[36]提出了一種新的對(duì)抗性編碼器-解碼器-分類器框架來學(xué)習(xí)模態(tài)不變性的聯(lián)合嵌入空間.由于各種模態(tài)的分布性質(zhì)不同,為了減少模態(tài)差距,利用對(duì)抗性訓(xùn)練,通過各自的編碼器將源模態(tài)的分布轉(zhuǎn)化為目標(biāo)模態(tài)的分布.此外,通過引入重構(gòu)損失和分類損失對(duì)嵌入空間施加額外的約束.在多模態(tài)情感識(shí)別中我們經(jīng)常需要表示長(zhǎng)度不等的序列,如句子和音頻.循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其變體,如長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò),因其成功地對(duì)各種任務(wù)進(jìn)行序列建模受到了廣泛關(guān)注.RNN表示的使用并不局限于單模態(tài),使用RNN構(gòu)造多模態(tài)情感識(shí)別表示的早期用法來自于Chen等人[43].基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合表示的主要優(yōu)勢(shì)在于,當(dāng)標(biāo)記數(shù)據(jù)不足以用于監(jiān)督學(xué)習(xí)時(shí),它們能夠?qū)o標(biāo)記數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練.Zhao等人[44]提出了一個(gè)用于多模態(tài)情緒識(shí)別的預(yù)訓(xùn)練模型MEmoBERT,該模型通過自監(jiān)督學(xué)習(xí)從大量的未標(biāo)記視頻數(shù)據(jù)中學(xué)習(xí)多模態(tài)聯(lián)合表示.
表2 多模態(tài)情感識(shí)別表示技術(shù)綜述Table 2 Asummary of multimodal emotion recognition representation techniques
協(xié)同表示不是把模態(tài)一起投影到聯(lián)合空間,而是學(xué)習(xí)每個(gè)模態(tài)的單獨(dú)表示,但通過一個(gè)約束來協(xié)調(diào).協(xié)同表示主要分為相似性和結(jié)構(gòu)化協(xié)調(diào)空間模型.相似性模型最小化了協(xié)同空間中模態(tài)之間的距離.Weston等人[46]的研究是此類表示學(xué)習(xí)的最早例子之一.最近,由于神經(jīng)網(wǎng)絡(luò)具有學(xué)習(xí)特征表示的能力,它已經(jīng)成為一種構(gòu)造協(xié)同表示的流行方式.它們的優(yōu)勢(shì)在于可以通過端到端方式共同學(xué)習(xí)協(xié)同表示.Fu等人[47]使用增強(qiáng)稀疏局部判別典型相關(guān)分析方法來學(xué)習(xí)多模態(tài)共享特征表示,利用En-SLDCCA方法得到視頻和音頻的相關(guān)系數(shù),然后利用相關(guān)系數(shù)形成融合視頻和音頻特征的共享特征表示.結(jié)構(gòu)化的協(xié)同表示模型在模態(tài)表示之間加強(qiáng)了額外的約束.例如,典型相關(guān)分析(CCA)[48]方法計(jì)算線性投影,最大化兩個(gè)隨機(jī)變量之間的相關(guān)性,并加強(qiáng)新空間的正交關(guān)系.Zhang等人[49]將深度典型相關(guān)分析(DCCA)引入到多模態(tài)情緒識(shí)別中.DCCA的基本思想是將每個(gè)模態(tài)分別變換,并通過指定的典型相關(guān)分析約束將不同模態(tài)協(xié)調(diào)到一個(gè)多維空間.
對(duì)來自多種模態(tài)的信息進(jìn)行融合是多模態(tài)任務(wù)的一個(gè)重要步驟.然而,多模態(tài)數(shù)據(jù)在本質(zhì)上是高度異構(gòu)的,所以融合是一項(xiàng)具有挑戰(zhàn)性的任務(wù).多模態(tài)情感融合主要有特征級(jí)融合、決策級(jí)融合、模型級(jí)融合[37]三種策略.如圖2所示,特征級(jí)融合最為直觀,通過串接等方式對(duì)不同模態(tài)的特征進(jìn)行融合.由于融合特征包含更多的情感信息,可以明顯提高情感識(shí)別性能.Zadeh等人[38]提出了一種張量融合網(wǎng)絡(luò)(TFN)利用多模態(tài)特征的乘積來融合多模態(tài)信息.但這樣會(huì)極大增加特征的維度,使模型過大難以訓(xùn)練.與張量網(wǎng)絡(luò)不同的是Liu等人[39]采用了低秩多模態(tài)融合方法,利用低秩張量提高了融合效率,該方法不僅減少了參數(shù),而且提高了情感識(shí)別性能.Zeng等人[40]提出了一種新穎的、數(shù)據(jù)驅(qū)動(dòng)的乘法融合技術(shù)來融合多模態(tài),在訓(xùn)練過程中它會(huì)對(duì)模態(tài)進(jìn)行檢測(cè),過濾掉無效的情感特征,這樣就學(xué)習(xí)了更可靠的情感線索.
圖2 特征級(jí)融合Fig.2 Feature level fusion
決策級(jí)融合將各模態(tài)的特征進(jìn)行獨(dú)立的提取和分類,得到局部決策結(jié)果之后,再融合各個(gè)決策結(jié)果為決策向量以獲得最終決策,如圖3所示.相比特征級(jí)融合,決策級(jí)融合更簡(jiǎn)單自由,因?yàn)槊糠N模態(tài)的決策結(jié)果通常是具有相同意義的數(shù)據(jù).此外,每種模態(tài)可以自由選擇合適的特征提取器和分類器,產(chǎn)生更優(yōu)的局部決策結(jié)果.Zadeh[5]等人提出了一種動(dòng)態(tài)融合圖(DFG)技術(shù)來融合多模態(tài).DFG可以學(xué)習(xí)n-模態(tài)之間的相互作用和有效參數(shù)數(shù)目(不同于TFN具有大量參數(shù)).它還可以根據(jù)n-模態(tài)動(dòng)力學(xué)的重要性動(dòng)態(tài)改變其結(jié)構(gòu)和選擇融合圖.DFG具有高度可解釋性,與目前的技術(shù)水平相比,具有較強(qiáng)競(jìng)爭(zhēng)力.
圖3 決策級(jí)融合Fig.3 Decision level fusion
與特征級(jí)融合和決策級(jí)融合相比,如圖4所示,模型級(jí)融合可以更好學(xué)習(xí)模型內(nèi)部的多模態(tài)交互,更好地發(fā)揮了深度神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì).隨著注意力機(jī)制(Attention)的普及,它在多模態(tài)融合中發(fā)揮著重要的作用.Chen等人[41]提出了條件注意力融合模型,采用長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM-RNN)作為基本的單模態(tài)模型來捕獲長(zhǎng)時(shí)間依賴.分配給不同模態(tài)的權(quán)重是由當(dāng)前輸入特征和最近的歷史信息自動(dòng)決定的,通過在每個(gè)時(shí)間步上動(dòng)態(tài)地關(guān)注不同的模態(tài),對(duì)傳統(tǒng)的融合策略進(jìn)行了改進(jìn).最近提出了一種更有效的Transformer模型.它以較長(zhǎng)的時(shí)間跨度來模擬長(zhǎng)期的時(shí)間依賴,更適合于模擬情感的時(shí)間過程.Huang等人[42]利用Transformer模型學(xué)習(xí)語(yǔ)音和視頻兩個(gè)模態(tài)之間的語(yǔ)義關(guān)聯(lián),實(shí)現(xiàn)模型級(jí)融合,進(jìn)行連續(xù)的情感識(shí)別.
圖4 模型級(jí)融合Fig.4 Model level fusion
多模態(tài)情感識(shí)別目前還有很多問題有待研究,如怎么融合新模態(tài)的信息來提高情感識(shí)別的準(zhǔn)確率、多模態(tài)特征對(duì)齊,如何結(jié)合多個(gè)模型的優(yōu)點(diǎn)來提高情感識(shí)別率等.其中,我們認(rèn)為新模態(tài)的引入和多模態(tài)融合是未來的重點(diǎn)發(fā)展方向.
除了文本、語(yǔ)音和視頻等常用模態(tài)外,可以考慮引入姿態(tài)和生理信號(hào)等新模態(tài).在很多大的場(chǎng)景中(如商場(chǎng)、火車站等公共場(chǎng)所),用戶的面部表情、語(yǔ)音等屬于微觀情感,這些信息通過近距離才能采集到.而動(dòng)作姿態(tài)也是用戶表達(dá)情感的重要方式,目前尚未得到充分的利用.而且,對(duì)于聽障人士、面部表情障礙人群等,相較于語(yǔ)音和面部表情,他們表達(dá)感情的方式更依賴于動(dòng)作姿態(tài).用戶的動(dòng)作姿態(tài)空間尺度大、數(shù)據(jù)容易采集、不同情感之間數(shù)據(jù)變化明顯.因此,通過姿態(tài)所表達(dá)的情感也是抑郁癥和自殺行為檢測(cè)以及暴力傾檢測(cè)的重要指標(biāo).
另外當(dāng)人處于某一情感狀態(tài)時(shí),身體會(huì)發(fā)生一系列的生理反應(yīng),腦電、心電、肌電等信號(hào)是我們常用的生理信號(hào).在某些情況下人們刻意掩蓋自己的情緒,或者患有面神經(jīng)炎的人無法表達(dá)表情,就無法準(zhǔn)確預(yù)測(cè)他們的情感.隨著腦機(jī)接口等領(lǐng)域的研究發(fā)展,許多研究者提出了基于生理信號(hào)的情感識(shí)別方法.在未來生理信號(hào)和面部表情、語(yǔ)音、姿態(tài)等特征相結(jié)合的多模態(tài)情感識(shí)別技術(shù)會(huì)成為新的發(fā)展趨勢(shì).
多模態(tài)情感融合一直是一個(gè)被廣泛研究的課題,研究者們提出了大量的方法來解決它,每種方法都有自己的優(yōu)缺點(diǎn).近年來,神經(jīng)網(wǎng)絡(luò)已成為處理多模態(tài)融合的一種非常流行的方法.然而多模態(tài)融合仍然面臨以下挑戰(zhàn):(i)各個(gè)模態(tài)數(shù)據(jù)可能不是時(shí)間對(duì)齊的;(ii)難以建立利用互補(bǔ)信息提高情感識(shí)別性能;(iii)每個(gè)模態(tài)在不同的時(shí)間點(diǎn)可能表現(xiàn)出不同類型和不同程度的噪聲.在未來多模態(tài)情感融合方法還需要大量創(chuàng)新來提高情感識(shí)別準(zhǔn)確率.
雖然在多模態(tài)情感識(shí)別領(lǐng)域提出了很多優(yōu)越的模型,但它們通常是在特定的數(shù)據(jù)集上訓(xùn)練的,模型訓(xùn)練依賴于不現(xiàn)實(shí)的數(shù)據(jù),如強(qiáng)制對(duì)齊的多模態(tài)序列,無錯(cuò)誤的文本轉(zhuǎn)錄,人工的對(duì)話語(yǔ)境等,缺乏泛化能力,很難適應(yīng)工業(yè)應(yīng)用.因此,在實(shí)踐中,需要設(shè)計(jì)更穩(wěn)健的模型.未來的工作應(yīng)該包含以下幾個(gè)方面:(i)采用跨數(shù)據(jù)集的評(píng)估方式進(jìn)行訓(xùn)練,同時(shí)利用無監(jiān)督或有監(jiān)督領(lǐng)域適應(yīng)方法的能力,以便更好地評(píng)估其泛化能力;(ii)能夠?qū)Ψ菍?duì)齊的多模態(tài)數(shù)據(jù)進(jìn)行推斷;(iii)在有噪聲或缺失模態(tài)的情況下能夠進(jìn)行推斷.
在多模態(tài)情感識(shí)別的文獻(xiàn)中還缺少一個(gè)概念,即無監(jiān)督地表示學(xué)習(xí).在其他機(jī)器學(xué)習(xí)應(yīng)用領(lǐng)域中,也有很多功能強(qiáng)大的無監(jiān)督表示學(xué)習(xí)方法,如針對(duì)文本的BERT[13],針對(duì)音頻的wav2vec[33],以及針對(duì)視覺的MoCo[50],這些方法都是獨(dú)立于應(yīng)用的.已經(jīng)為多模態(tài)情感識(shí)別任務(wù)創(chuàng)建了幾個(gè)定義良好的數(shù)據(jù)集,結(jié)合它們以生成通用的多模態(tài)情感特征表示的研究可能有助于提高情感識(shí)別的準(zhǔn)確率.