孫亞男,溫玉輝,舒葉芷,劉永進(jìn)
融合動(dòng)作特征的多模態(tài)情緒識(shí)別
孫亞男,溫玉輝,舒葉芷,劉永進(jìn)
(清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,北京 100084)
近年來(lái),利用計(jì)算機(jī)技術(shù)實(shí)現(xiàn)基于多模態(tài)數(shù)據(jù)的情緒識(shí)別成為自然人機(jī)交互和人工智能領(lǐng)域重要的研究方向之一。利用視覺(jué)模態(tài)信息的情緒識(shí)別工作通常都將重點(diǎn)放在臉部特征上,很少考慮動(dòng)作特征以及融合動(dòng)作特征的多模態(tài)特征。雖然動(dòng)作與情緒之間有著緊密的聯(lián)系,但是從視覺(jué)模態(tài)中提取有效的動(dòng)作信息用于情緒識(shí)別的難度較大。以動(dòng)作與情緒的關(guān)系作為出發(fā)點(diǎn),在經(jīng)典的MELD多模態(tài)情緒識(shí)別數(shù)據(jù)集中引入視覺(jué)模態(tài)的動(dòng)作數(shù)據(jù),采用ST-GCN網(wǎng)絡(luò)模型提取肢體動(dòng)作特征,并利用該特征實(shí)現(xiàn)基于LSTM網(wǎng)絡(luò)模型的單模態(tài)情緒識(shí)別。進(jìn)一步在MELD數(shù)據(jù)集文本特征和音頻特征的基礎(chǔ)上引入肢體動(dòng)作特征,提升了基于LSTM網(wǎng)絡(luò)融合模型的多模態(tài)情緒識(shí)別準(zhǔn)確率,并且結(jié)合文本特征和肢體動(dòng)作特征提升了上下文記憶模型的文本單模態(tài)情緒識(shí)別準(zhǔn)確率,實(shí)驗(yàn)顯示雖然肢體動(dòng)作特征用于單模態(tài)情緒識(shí)別的準(zhǔn)確度無(wú)法超越傳統(tǒng)的文本特征和音頻特征,但是該特征對(duì)于多模態(tài)情緒識(shí)別具有重要作用?;趩文B(tài)和多模態(tài)特征的情緒識(shí)別實(shí)驗(yàn)驗(yàn)證了人體動(dòng)作中含有情緒信息,利用肢體動(dòng)作特征實(shí)現(xiàn)多模態(tài)情緒識(shí)別具有重要的發(fā)展?jié)摿Α?/p>
動(dòng)作特征;情緒識(shí)別;多模態(tài);動(dòng)作與情緒;視覺(jué)模態(tài)
人類情緒往往能夠影響其日常生活中的行為和表達(dá)方式。因此,利用計(jì)算機(jī)技術(shù)自動(dòng)識(shí)別、理解和分析人類情緒并做出響應(yīng),建立和諧的人機(jī)交互環(huán)境,在提高交互效率和改善用戶體驗(yàn)方面具有重要的應(yīng)用價(jià)值[1-3]。然而,捕獲和理解人類的情緒甚至是情緒模式十分困難[4]。
通過(guò)計(jì)算機(jī)進(jìn)行情緒分析依賴于心理學(xué)相關(guān)研究提出的情緒模型理論,情緒表示主要有2種方法:連續(xù)維度表示和離散型表示[5]。其中,連續(xù)維度表示將情緒狀態(tài)映射到一個(gè)連續(xù)的低維度(二維或三維)空間上。已有研究的經(jīng)典代表是RUSSEL[6]提出的愉悅度-喚醒度(valence-arousal,VA)二維空間。任何情緒數(shù)據(jù)都可以表示為VA坐標(biāo)系下的一個(gè)坐標(biāo)點(diǎn),代表其情緒的愉悅度和喚醒度。雖然此種表示方法能夠細(xì)致地描述情緒分析結(jié)果,但是情緒標(biāo)注過(guò)程較為復(fù)雜。在情緒分析上,應(yīng)用連續(xù)維度表示的研究較少[7-9]。離散型表示更為常用,即將情緒狀態(tài)定義為若干個(gè)類別。如,EKMAN[10]定義了人類的6種基本情緒,包括快樂(lè)、恐懼、憤怒、悲傷、厭惡和驚訝。
至今為止,國(guó)內(nèi)外研究者在人類情緒分析方面做出了很多嘗試,大致可以分為2類:①使用物理傳感器設(shè)備采集心率和腦電圖等生理信號(hào)[11-14]相關(guān)的數(shù)據(jù),分析采集的數(shù)據(jù)并從中提取特定的情緒模式來(lái)檢測(cè)情緒狀態(tài)[15]。然而,此種方法往往需要用戶佩戴額外的硬件設(shè)備;②隨著人工智能技術(shù)的發(fā)展和廣泛應(yīng)用,對(duì)多媒體數(shù)據(jù)進(jìn)行情緒分析引起了廣泛的研究興趣。除使用常見(jiàn)文本特征和音頻特征外,越來(lái)越多的研究開(kāi)始引入多媒體數(shù)據(jù)中視覺(jué)模態(tài)的信息,包括圖像特征[16-17]和臉部特征[18-19]。
人類在日常生活中進(jìn)行情緒識(shí)別往往基于不同模態(tài)的信息,包括臉部表情,語(yǔ)音語(yǔ)調(diào)和肢體動(dòng)作等[20]。有研究表明肢體動(dòng)作對(duì)情緒識(shí)別具有重要意義[21]。然而,基于多模態(tài)數(shù)據(jù)進(jìn)行情緒分析的研究工作通常從文本或語(yǔ)音[22-24]以及從視頻圖像序列中提取的人臉表情[25-26]等特征中識(shí)別情緒。對(duì)于肢體動(dòng)作和情緒識(shí)別的相關(guān)研究較少的主要原因是缺少帶有肢體動(dòng)作標(biāo)注的情緒識(shí)別數(shù)據(jù)集。多模態(tài)情緒識(shí)別數(shù)據(jù)集(multimodal emotion lines dataset,MELD)[27]包含來(lái)自1 433段多方對(duì)話場(chǎng)景下的13 000多個(gè)文本單句。文本單句具有7種情緒標(biāo)注(中性、快樂(lè)、恐懼、憤怒、悲傷、厭惡和驚訝),并且包括與文本相匹配的語(yǔ)音和視覺(jué)模態(tài)數(shù)據(jù)。
本文為MELD數(shù)據(jù)集添加了肢體動(dòng)作數(shù)據(jù)作為新的模態(tài)特征研究基礎(chǔ),進(jìn)而研究了視覺(jué)模態(tài)中的肢體動(dòng)作特征在情緒識(shí)別任務(wù)中的作用。通過(guò)肢體動(dòng)作特征在雙向上下文長(zhǎng)短期記憶網(wǎng)絡(luò)(bi-directional contextual long short-term memory,bcLSTM)上的單模態(tài)實(shí)驗(yàn)結(jié)果,肢體動(dòng)作特征、文本特征和音頻特征融合的多模態(tài)特征在雙向上下文長(zhǎng)短期記憶網(wǎng)絡(luò)上的多模態(tài)結(jié)果,以及肢體動(dòng)作特征和文本特征融合的多模態(tài)特征在上下文記憶模型(context model with pre-trained memory,CoMPM)上的多模態(tài)實(shí)驗(yàn)結(jié)果,驗(yàn)證了視覺(jué)模態(tài)的肢體動(dòng)作特征在情緒識(shí)別任務(wù)中的有效性。
作為最傳統(tǒng)的多媒體形式,文本信息內(nèi)含有大量與情緒相關(guān)的信息,文本特征單模態(tài)的識(shí)別效果遠(yuǎn)超音頻特征單模態(tài)[27]和臉部特征單模態(tài)[28]。因?yàn)榭梢岳梦谋局胸S富的情緒信息,基于文本的情緒識(shí)別相關(guān)工作出現(xiàn)最早且經(jīng)久不衰,不斷刷新情緒識(shí)別任務(wù)的準(zhǔn)確率[29]。
LI等[30]提出將詞匯表與基于機(jī)器學(xué)習(xí)的方法,如樸素貝葉斯和支持向量機(jī)(support vector machine,SVM)結(jié)合,可以用來(lái)檢測(cè)難以被簡(jiǎn)單二分類的復(fù)雜情緒。還有一些利用深度卷積網(wǎng)絡(luò)實(shí)現(xiàn)文檔層面的情緒識(shí)別的工作[31],LI等[32]則在此基礎(chǔ)上將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)與雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM)網(wǎng)絡(luò)結(jié)合,分別提取局部特征和長(zhǎng)距離特征,以此提升模型基于文本的情緒識(shí)別能力。文獻(xiàn)[29]則利用預(yù)訓(xùn)練語(yǔ)言模型結(jié)合上下文嵌入與前述記憶模塊,實(shí)現(xiàn)對(duì)對(duì)話文本的情緒識(shí)別。以上研究工作只關(guān)注文本數(shù)據(jù)在單模態(tài)情緒識(shí)別的作用,本文進(jìn)一步研究動(dòng)作數(shù)據(jù)結(jié)合文本數(shù)據(jù)進(jìn)行多模態(tài)情緒識(shí)別的有效性。
許多研究表明,人們可以從非語(yǔ)言表達(dá)中分析情緒信息,并利用這些信息準(zhǔn)確地推斷他人的情緒狀態(tài)[33-35]。目前,基于非語(yǔ)言表達(dá)的視覺(jué)模態(tài)信息的情緒識(shí)別工作大多只關(guān)注面部表情特征,然而面部表情特征的提取受限于圖像數(shù)據(jù)質(zhì)量,在面部圖像分辨率較低的條件下無(wú)法成功捕獲相應(yīng)特征。
作為非語(yǔ)言表達(dá)的重要組成部分,動(dòng)作與情緒之間的聯(lián)系也十分緊密,一般來(lái)說(shuō),身體動(dòng)作提供的線索比臉部細(xì)微的變化更容易被感知。文獻(xiàn)[33-34]的研究證實(shí)了身體姿態(tài)有利于提高人們對(duì)情緒的感知力,而文獻(xiàn)[35]的研究證明了人們可以根據(jù)他人的動(dòng)態(tài)身體動(dòng)作姿態(tài)對(duì)情緒進(jìn)行適當(dāng)?shù)姆诸悺_@都說(shuō)明基于身體動(dòng)作的情緒識(shí)別研究具有較大的發(fā)展空間和潛力。基于動(dòng)作的情緒識(shí)別工作通過(guò)研究全身或上半身的圖像特征,以及從圖像中提取的肢體動(dòng)作特征與情緒狀態(tài)之間的關(guān)系,提高情緒識(shí)別的準(zhǔn)確率。根據(jù)特征提取的方式,基于動(dòng)作的情緒識(shí)別可以分為2類:基于傳統(tǒng)模式識(shí)別的方法和基于深度學(xué)習(xí)的方法。
基于傳統(tǒng)模式識(shí)別的方法利用手工設(shè)計(jì)的特征進(jìn)行情緒識(shí)別,如GLOWINSKI等[36]構(gòu)建了使用與人體上半身運(yùn)動(dòng)有關(guān)的視覺(jué)信息進(jìn)行情感行為分析的架構(gòu),提出基于動(dòng)作特征得到一種與情緒有關(guān)的最簡(jiǎn)表達(dá)并用于情緒識(shí)別;而WANG等[37]實(shí)現(xiàn)了從身體運(yùn)動(dòng)中識(shí)別情緒的實(shí)時(shí)系統(tǒng),主要包括在隨機(jī)森林(random forest,RF)分類器的頂層加入了半監(jiān)督的自適應(yīng)算法,用于處理低維的3D姿態(tài)特征和高維的運(yùn)動(dòng)特征和幾何特征組成的融合特征;SANTHOSHKUMAR等[38-39]提出使用SVM或隨機(jī)森林分類器對(duì)方向梯度直方圖(histogram of orientation gradient,HOG)和Kanade-Lucas-Tomasi方向梯度直方圖(HOG-KLT)特征進(jìn)行分類的情緒識(shí)別方法,隨后又提出利用包含距離、角度和速度在內(nèi)的身體運(yùn)動(dòng)特征進(jìn)行識(shí)別的方法。此外,利用傳感器采集的骨架關(guān)節(jié)點(diǎn)信息,RAZZAQ等[40]提取出身體關(guān)節(jié)的運(yùn)動(dòng)模式,得到了網(wǎng)格距離特征和網(wǎng)格角度特征并用于情緒識(shí)別。
基于深度學(xué)習(xí)的方法利用深度學(xué)習(xí)網(wǎng)絡(luò)自動(dòng)提取特征進(jìn)行情緒識(shí)別。此類方法通常使用常見(jiàn)的姿態(tài)檢測(cè)模型或底層特征提取方法預(yù)處理輸入的數(shù)據(jù),進(jìn)而使用深度學(xué)習(xí)的方法進(jìn)行預(yù)測(cè)。LY等[41]利用哈希方法從視頻中提取關(guān)鍵幀,再使用卷積神經(jīng)網(wǎng)絡(luò)-長(zhǎng)短期記憶網(wǎng)絡(luò)(convolutional neural network-long short-term memory,CNN-LSTM)得到視頻中序列信息隱含的情緒類別。SHEN等[42]則綜合了通過(guò)光流法提取的RGB特征和通過(guò)時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(spatial temporal graph convolutional networks,ST-GCN)提取的骨架特征,使用殘差全連接網(wǎng)絡(luò)實(shí)現(xiàn)了基于動(dòng)作的情緒識(shí)別。AVOLA等[43]提出了基于3D骨架和深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)的解決方法,結(jié)合動(dòng)作的局部和全局的時(shí)間特征,可以識(shí)別非表演動(dòng)作中的情緒。以上研究只關(guān)注動(dòng)作數(shù)據(jù)在單模態(tài)情緒識(shí)別的作用,而本文進(jìn)一步研究了動(dòng)作數(shù)據(jù)對(duì)多模態(tài)情緒識(shí)別的提升。
1.3.1 多模態(tài)情緒視頻數(shù)據(jù)集
在日常生活中,人們通過(guò)多模態(tài)信息來(lái)傳遞以及理解情緒。表1展示了多模態(tài)情緒識(shí)別研究常用的視頻數(shù)據(jù)集。交互式情緒運(yùn)動(dòng)捕捉數(shù)據(jù)庫(kù)(interactive emotional dyadic motion capture database,IEMOCAP)[44]招募了10位專業(yè)演員錄制使用劇本的腳本會(huì)話和基于假設(shè)場(chǎng)景的自發(fā)會(huì)話,并對(duì)手部和頭部運(yùn)動(dòng)進(jìn)行捕捉。而CreativeIT[45-46]則要求招募的16位專業(yè)演員佩戴專業(yè)設(shè)備對(duì)全身動(dòng)作進(jìn)行捕捉,錄制內(nèi)容包括既定文本和動(dòng)詞的兩句話練習(xí)以及給定腳本的即興演繹。隨著社交媒體的發(fā)展,更多數(shù)據(jù)集嘗試從社交網(wǎng)站大量的用戶自錄制視頻中提取數(shù)據(jù)。多模態(tài)觀點(diǎn)層面情緒強(qiáng)度數(shù)據(jù)集(multimodal opinion-level sentiment intensity dataset,MOSI)[47]收集了大量影評(píng)等用戶自錄制視頻并賦予帶有強(qiáng)度的情感類別標(biāo)簽。多模態(tài)觀點(diǎn)情緒與情緒強(qiáng)度(multimodal opinion sentiment and emotion intensity,MOSEI)[43]包含情感類別標(biāo)簽和情緒類別標(biāo)簽,數(shù)據(jù)量大,人物多且表現(xiàn)自然。MELD[27]則從電視劇集中構(gòu)建了一個(gè)帶有情緒類別標(biāo)簽的多人對(duì)話數(shù)據(jù)集。
表1 多模態(tài)數(shù)據(jù)集綜合對(duì)比
上述多模態(tài)數(shù)據(jù)集中,MOSI僅包含情感類別標(biāo)簽;MOSEI為單一人物獨(dú)白類數(shù)據(jù),畫(huà)面中僅包含目標(biāo)人物的頭、脖子及肩膀;而IEMOCAP和CreativeIT均為實(shí)驗(yàn)室錄制的數(shù)據(jù)集,人物數(shù)量較少,應(yīng)用場(chǎng)景受限,且IEMOCAP僅在頭部和手部有少量動(dòng)作捕捉標(biāo)記點(diǎn),提取到的動(dòng)作信息不完整,CreativeIT雖然使用了動(dòng)作捕捉設(shè)備,但佩戴設(shè)備影響了演員動(dòng)作的自然性。而從表現(xiàn)日常生活的情景喜劇中提取的MELD數(shù)據(jù)集不僅出場(chǎng)人物數(shù)量多,而且人物表現(xiàn)自然,動(dòng)作更加生活化。此外,MELD數(shù)據(jù)集提供了原始視頻,可用于提取視覺(jué)模態(tài)的特征?;谏鲜隹紤],本文為MELD數(shù)據(jù)集添加肢體動(dòng)作數(shù)據(jù)作為新的模態(tài)特征,并研究肢體動(dòng)作特征、文本特征和音頻特征的多模態(tài)特征在情緒識(shí)別任務(wù)中的作用。
基本離散情緒類別包含快樂(lè)、恐懼、憤怒、悲傷、厭惡和驚訝;連續(xù)情緒類別包含效價(jià)、激勵(lì)和控制;情感類別包含積極、中性和消極3個(gè)分類。
1.3.2 多模態(tài)情緒識(shí)別方法
多模態(tài)情緒識(shí)別的關(guān)鍵在于模態(tài)信息的融合,根據(jù)融合的策略,大致可以分為3類:特征層面的融合、決策層面的融合和模型層面的融合。特征層面的融合直接對(duì)來(lái)自不同模態(tài)的特征進(jìn)行融合,將其串成一個(gè)聯(lián)合特征向量,再利用一個(gè)分類器進(jìn)行識(shí)別,但是如果不同模態(tài)的特征在時(shí)間域存在較大差異,特征層面的融合表現(xiàn)較差;決策層面的融合先使用各個(gè)模態(tài)的信息分別進(jìn)行預(yù)測(cè),再將結(jié)果綜合,無(wú)法更有效地利用不同模態(tài)融合對(duì)于情緒預(yù)測(cè)的優(yōu)勢(shì);而模型層面的融合先分別使用模型處理各模態(tài)特征,再將不同模型得到的隱含層特征表示串聯(lián),之后進(jìn)一步使用模型處理串聯(lián)后的特征生成最終結(jié)果。
文獻(xiàn)[16]結(jié)合了低維RNN的CNN網(wǎng)絡(luò)、開(kāi)源軟件openSMILE和深度CNN網(wǎng)絡(luò)分別提取視頻特征、音頻特征和文本特征,并使用特征子集選擇(correlation-based eature selection,CFS)和主成分分析(principal components analysis,PCA)2種方法對(duì)特征進(jìn)行提取并拼接融合,最終通過(guò)訓(xùn)練多核學(xué)習(xí)網(wǎng)絡(luò)(multiple kernel learning,MKL)實(shí)現(xiàn)多模態(tài)情緒識(shí)別。而文獻(xiàn)[18]將詞嵌入得到的文本特征、MTCNN臉部檢測(cè)得到的視頻特征和COVAREP軟件得到的音頻特征輸入動(dòng)態(tài)融合圖(dynamic fusion graph,DFG)模型,得到融合后的特征,利用圖記憶融合網(wǎng)絡(luò)(graph memory fusion network,graph-MFN)進(jìn)行訓(xùn)練,在MOSI和MOSEI數(shù)據(jù)集上得到了較好的情感分析和情緒識(shí)別結(jié)果。隨后,文獻(xiàn)[19]提出了倍增的多模態(tài)情緒識(shí)別方法(multiplicative multimodal emotion recognition,M3ER),通過(guò)預(yù)訓(xùn)練的詞嵌入得到文本特征,COVAREP軟件得到音頻特征,臉部識(shí)別模型得到視頻特征,通過(guò)特征選擇得到融合特征,再利用改進(jìn)后的記憶融合網(wǎng)絡(luò)(memory fusion network,MFN)進(jìn)行情緒識(shí)別結(jié)果的預(yù)測(cè)。文獻(xiàn)[17]使用text-CNN,openSMILE和3D-CNN分別提取文本、音頻和視頻特征,引入了上下文LSTM的變體分別提取與內(nèi)容相關(guān)的各模態(tài)高層特征,將各模態(tài)特征拼接融合,并據(jù)此完成情感分析和情緒識(shí)別的任務(wù)。
相比于決策層面的融合,模型層面的融合對(duì)于各模態(tài)特征的融合更為充分,而相比于特征層面的融合,模型層面的融合不易受初始特征差異的影響?;谏鲜隹紤],本文選擇模型層面的融合方式實(shí)現(xiàn)多模態(tài)情緒識(shí)別。
本文在經(jīng)典的MELD多模態(tài)數(shù)據(jù)集中添加動(dòng)作特征,用于研究動(dòng)作對(duì)情緒識(shí)別的作用。具體來(lái)說(shuō),首先通過(guò)OpenPose實(shí)現(xiàn)了基于視覺(jué)模態(tài)數(shù)據(jù)的肢體動(dòng)作提取,利用時(shí)空?qǐng)D卷積網(wǎng)絡(luò)得到骨架動(dòng)作中的肢體運(yùn)動(dòng)特征作為視覺(jué)模態(tài)初始特征。之后通過(guò)基于LSTM的單模態(tài)情緒識(shí)別網(wǎng)絡(luò)驗(yàn)證單模態(tài)初始特征下的結(jié)果。融合動(dòng)作特征的多模態(tài)情緒識(shí)別任務(wù)采用模型層面的融合方法。首先,從單模態(tài)情緒識(shí)別網(wǎng)絡(luò)中獲得用于多模態(tài)情緒識(shí)別任務(wù)的不同模態(tài)的隱含層特征;再使用特征選擇得到隱含層特征的最優(yōu)子集;最后將特征選擇得到的各模態(tài)隱含層特征拼接融合并在多模態(tài)情緒識(shí)別網(wǎng)絡(luò)上進(jìn)行訓(xùn)練和測(cè)試。
OpenPose是一種實(shí)時(shí)的多人2D姿態(tài)檢測(cè)方法,由CAO等[48]于2019年提出。該方法使用自底向上的檢測(cè)策略,首先識(shí)別出圖中所有的關(guān)節(jié)點(diǎn),再對(duì)關(guān)節(jié)點(diǎn)進(jìn)行劃分,以此實(shí)現(xiàn)多人人體骨架關(guān)節(jié)點(diǎn)的估計(jì)。該工作的核心是利用區(qū)域親和力場(chǎng)(part affinity fields,PAF)實(shí)現(xiàn)關(guān)節(jié)點(diǎn)的匹配,PAF利用編碼肢體位置和方向信息的2D向量場(chǎng),將多人檢測(cè)問(wèn)題轉(zhuǎn)化為二分圖匹配問(wèn)題,并用匈牙利算法求得相連關(guān)節(jié)點(diǎn)的最優(yōu)匹配。
該方法在擁擠、尺度變換、物體遮擋和多人關(guān)聯(lián)等真實(shí)世界的復(fù)雜場(chǎng)景下,都能較為準(zhǔn)確的估計(jì)人體關(guān)節(jié)點(diǎn)的2D坐標(biāo)。因此,許多下游任務(wù)均選擇OpenPose實(shí)現(xiàn)圖像數(shù)據(jù)中的骨架提取,本文也使用該方法提取視頻中的肢體動(dòng)作信息。
時(shí)空?qǐng)D卷積網(wǎng)絡(luò)由YAN等[49]在2018年提出,該網(wǎng)絡(luò)打破了傳統(tǒng)的卷積方法需要依賴人工或遍歷規(guī)則的局限性,可以自動(dòng)從數(shù)據(jù)中學(xué)習(xí)空間和時(shí)間特性。模型對(duì)于每個(gè)關(guān)節(jié),不僅考慮其在空間上的相鄰關(guān)節(jié),還考慮時(shí)間上的相鄰關(guān)節(jié),通過(guò)擴(kuò)展時(shí)間鄰域的概念,在動(dòng)作分類任務(wù)中達(dá)到了較好的實(shí)驗(yàn)效果。
考慮到ST-GCN對(duì)于骨架動(dòng)作的時(shí)間和空間特征都能較好地捕獲,本文使用ST-GCN在Kinetics數(shù)據(jù)集上預(yù)訓(xùn)練好的模型處理視覺(jué)模態(tài)信息,提取肢體動(dòng)作特征。Kinetics數(shù)據(jù)集包含大量不同種類的人體運(yùn)動(dòng)序列,大約有30萬(wàn)個(gè)序列,平均每個(gè)序列10 s左右。在該數(shù)據(jù)集上預(yù)訓(xùn)練的模型能夠滿足日常生活中大多數(shù)應(yīng)用場(chǎng)景下的動(dòng)作特征提取需求。
ST-GCN網(wǎng)絡(luò)使用一個(gè)鄰接矩陣表示單幀中的骨架內(nèi)部關(guān)節(jié)點(diǎn)連接關(guān)系,使用一個(gè)單位矩陣表示單幀中關(guān)節(jié)點(diǎn)的自連接關(guān)系,則網(wǎng)絡(luò)輸出為
動(dòng)作特征的提取流程如圖1所示,對(duì)于一段原始視頻,本文使用OpenPose從中提取人體骨架關(guān)節(jié)點(diǎn)信息,再利用串聯(lián)在一起的9個(gè)時(shí)空?qǐng)D卷積單元進(jìn)行計(jì)算,最后保留輸入SoftMax層之前的向量作為后續(xù)實(shí)驗(yàn)的肢體動(dòng)作特征。
特征選擇是多模態(tài)情緒識(shí)別任務(wù)中常用的方法,通過(guò)保留對(duì)識(shí)別結(jié)果更有幫助的特征,刪去無(wú)關(guān)或冗余的特征,將初始特征集合簡(jiǎn)化為更易于處理的特征子集,實(shí)現(xiàn)對(duì)模態(tài)特征的降維。特征選擇方法可根據(jù)優(yōu)化策略分為3類:①過(guò)濾法(filter)按照特征發(fā)散性或相關(guān)性對(duì)特征進(jìn)行整體評(píng)分,通過(guò)預(yù)設(shè)的閾值或待選擇的特征個(gè)數(shù)對(duì)特征進(jìn)行篩選;②嵌入法(embedded)需要結(jié)合機(jī)器學(xué)習(xí)的算法和模型識(shí)別結(jié)果,計(jì)算各個(gè)特征的權(quán)重,按權(quán)重大小選擇特征;③包裝法(wrapper)則是在初始特征集合上遞歸地修剪冗余或不重要的特征,直到獲得最佳特征子集。
為了對(duì)多模態(tài)情緒識(shí)別任務(wù)中的肢體動(dòng)作特征進(jìn)行降維,本文選擇包裝法中較為典型的遞歸特征消除法(recursive feature elimination,RFE),一種尋找最優(yōu)特征子集的貪心算法。RFE通過(guò)對(duì)肢體動(dòng)作特征進(jìn)行降維,實(shí)現(xiàn)了數(shù)據(jù)維度的縮減,高效利用了計(jì)算資源,使模型達(dá)到了更好的識(shí)別效果。
具體地,將原始肢體動(dòng)作特征集合記為motion={|=1,2,···,}為特征數(shù)目,即每一樣本具有600維初始特征,每一樣本對(duì)應(yīng)的情緒標(biāo)簽為。為盡可能保留原始特征,本文采用回歸模型(linear regression model)作為特征消除法的基模型,記為M。具體步驟如下:
步驟1.隨機(jī)初始化訓(xùn)練集的特征子集motion_subìmotion。
圖1 動(dòng)作特征的提取流程
步驟4.重復(fù)步驟2和3,直至所有特征都經(jīng)過(guò)基模型M驗(yàn)證,motion_sub即為最佳特征子集。
考慮到受數(shù)據(jù)集中數(shù)據(jù)質(zhì)量的影響,臉部特征不易提取,故本文選擇文本特征、音頻特征和肢體動(dòng)作特征進(jìn)行情緒識(shí)別研究。
在提取初始特征時(shí),使用1D-CNN網(wǎng)絡(luò)提取文本特征;開(kāi)源工具openSMILE提取音頻特征;ST-GCN網(wǎng)絡(luò)提取肢體動(dòng)作特征。
在模型選擇方面,本文首先使用了文獻(xiàn)[17]提出的bcLSTM模型,該模型可以很好地保持非因果的時(shí)間動(dòng)態(tài)特性[50],在處理多模態(tài)情緒識(shí)別任務(wù)中表現(xiàn)較好,且可擴(kuò)展性強(qiáng),可以較為便捷地?cái)U(kuò)展到其他模態(tài)。bcLSTM模型示意圖如圖2所示。
在單模態(tài)情緒識(shí)別任務(wù)中,bcLSTM模型對(duì)于文本模態(tài)使用CNN-LSTM網(wǎng)絡(luò)對(duì)每句話對(duì)應(yīng)的特征提取上下文相關(guān)的表示后加以訓(xùn)練,對(duì)于語(yǔ)音模態(tài)和視覺(jué)模態(tài)分別使用每句話對(duì)應(yīng)的音頻特征向量和肢體動(dòng)作特征向量輸入LSTM模型進(jìn)行情緒識(shí)別。
在多模態(tài)情緒識(shí)別任務(wù)中,bcLSTM模型使用雙向RNN網(wǎng)絡(luò)對(duì)內(nèi)容進(jìn)行處理,采用兩步遞階過(guò)程進(jìn)行訓(xùn)練。首先取得前述單模態(tài)任務(wù)中各模態(tài)用于分類的隱含層特征向量,再依照2.3節(jié)描述的特征選擇方法將從視覺(jué)模態(tài)中提取的隱含層特征樣本集從高維特征空間映射到低維特征空間,最后將各模態(tài)特征拼接融合,應(yīng)用于多模態(tài)情緒識(shí)別任務(wù)。
圖2 bcLSTM模型結(jié)構(gòu)圖
此外,為了進(jìn)一步驗(yàn)證視覺(jué)模態(tài)的肢體動(dòng)作特征可以提升情緒識(shí)別任務(wù)的準(zhǔn)確率的結(jié)論,本文選擇了基于MELD數(shù)據(jù)集的情緒分類任務(wù)中效果最好的開(kāi)源模型CoMPM,對(duì)其添加肢體動(dòng)作特征進(jìn)行多模態(tài)情緒識(shí)別。
CoMPM是由文獻(xiàn)[29]在2021年提出的基于自然語(yǔ)言處理方法進(jìn)行情緒識(shí)別的模型,主要包含2個(gè)模塊:上下文嵌入模塊(context modeling,CoM)和預(yù)訓(xùn)練記憶模塊(pre-trained memory,PM)。上下文嵌入模塊用于捕捉所有先前話語(yǔ)對(duì)當(dāng)前說(shuō)話者情緒的潛在影響,而預(yù)訓(xùn)練記憶模塊僅利用當(dāng)前說(shuō)話者的前述話語(yǔ)作為先驗(yàn)知識(shí)進(jìn)行預(yù)測(cè)。在此基礎(chǔ)上,本文為模型添加了動(dòng)作特征提取模塊,使用LSTM網(wǎng)絡(luò)對(duì)輸入的肢體動(dòng)作特征向量進(jìn)行特征提取。最終將3個(gè)模塊的輸出特征綜合后進(jìn)行多模態(tài)情緒識(shí)別。改進(jìn)后的CoMPM模型示意圖如圖3所示。
對(duì)于CoM模塊,使用特殊符號(hào)
在PM模塊中,使用
圖3 改進(jìn)的CoMPM模型結(jié)構(gòu)圖
Fig. 3 Structure of improved CoMPM model
在動(dòng)作特征提取模塊中,輸入為當(dāng)前話語(yǔ)對(duì)應(yīng)的視頻段落v,首先通過(guò)LSTM模型得到高維特征,再通過(guò)特征選擇和全連接層,得到對(duì)應(yīng)輸出m。融合后的輸出向量為各模塊的輸出之和,即
其中,kt為PM模塊各句輸出通過(guò)追蹤模塊后的輸出。
最終的情緒識(shí)別結(jié)果通過(guò)在輸出向量與線性矩陣的點(diǎn)積上使用SoftMax函數(shù)得到,即
本文使用了多人情緒數(shù)據(jù)集MELD,該數(shù)據(jù)集包含1 433段對(duì)話和超過(guò)13 000個(gè)句子,提供包括話語(yǔ)、說(shuō)話人物、時(shí)長(zhǎng)、對(duì)應(yīng)視頻、情感標(biāo)簽和情緒標(biāo)簽在內(nèi)的信息。數(shù)據(jù)集內(nèi)的情感標(biāo)簽分為積極、中性和消極3類,而情緒標(biāo)簽則分為快樂(lè)、恐懼、憤怒、悲傷、厭惡、驚訝和中性共7類。
MELD數(shù)據(jù)集是從美劇《老友記》中截取的部分情節(jié)片段。構(gòu)建數(shù)據(jù)集時(shí)首先將劇中對(duì)話以句子為單位進(jìn)行切割,根據(jù)場(chǎng)景變化對(duì)屬于不同場(chǎng)景的句子劃分到不同對(duì)話段中,隨后召集3位標(biāo)注人員對(duì)每句話進(jìn)行情緒標(biāo)注,丟棄3位標(biāo)注者的情緒標(biāo)簽不一樣的數(shù)據(jù),以此構(gòu)建了多模態(tài)情緒數(shù)據(jù)集MELD。由于數(shù)據(jù)集中存在完全不包含人物的片段以及長(zhǎng)度不超過(guò)5幀的片段,考慮到本文的工作重點(diǎn)集中在與肢體動(dòng)作特征有關(guān)的情緒識(shí)別上,所以對(duì)數(shù)據(jù)集進(jìn)行篩選,去除上述不符合要求的片段。
篩選后的數(shù)據(jù)集共包含1 381段對(duì)話,其中訓(xùn)練集1 004段,驗(yàn)證集109段,測(cè)試集272段。篩選后的數(shù)據(jù)集內(nèi)各情緒類別樣本分布如圖4所示,可以發(fā)現(xiàn)恐懼和厭惡情緒對(duì)應(yīng)的樣本比較少,這是因?yàn)椤独嫌延洝肥且徊拷?jīng)典的系列情景喜劇,主要展現(xiàn)幾位主演在友誼、愛(ài)情、事業(yè)乃至家庭等問(wèn)題上的喜怒哀樂(lè),能體現(xiàn)恐懼和厭惡情緒的場(chǎng)景較少,故對(duì)應(yīng)的樣本也相對(duì)不足。
3.2.1 計(jì)算環(huán)境
本節(jié)使用基于tensorflow2.9和CUDA 10.2搭建的實(shí)驗(yàn)環(huán)境訓(xùn)練并評(píng)估模型在MELD數(shù)據(jù)集上的表現(xiàn)。模型在一張24 G內(nèi)存的Nvidia TITAN RTX顯卡上進(jìn)行訓(xùn)練。
圖4 各情緒類別樣本分布
3.2.2 特征提取
在提取初始特征時(shí),對(duì)于文本模態(tài),使用一個(gè)預(yù)訓(xùn)練的300維GloVe向量初始化每個(gè)詞并使用1D-CNN網(wǎng)絡(luò)提取100維的文本特征。對(duì)于語(yǔ)音模態(tài),本節(jié)使用開(kāi)源工具openSMILE提取到由底層描述符和多種聲音和韻律特征組成的6 373維特征,并采用基于L2的特征選擇方法對(duì)音頻特征進(jìn)行降維處理。
對(duì)于視覺(jué)模態(tài),首先使用OpenPose提取畫(huà)面內(nèi)人體18個(gè)骨架關(guān)節(jié)點(diǎn)的信息,OpenPose得到的信息可以視作一個(gè)包含二維坐標(biāo)及其置信概率的三元組。對(duì)于多人場(chǎng)景下目標(biāo)人物的處理,ST-GCN采用選取關(guān)節(jié)平均置信概率最高的兩個(gè)人的策略,但由于本文使用的數(shù)據(jù)中目標(biāo)人物通常處于前景,與背景人物相比存在下半身關(guān)節(jié)點(diǎn)的缺失,若僅根據(jù)關(guān)節(jié)平均置信概率存在誤判的情況,且絕大多數(shù)多人場(chǎng)景中的對(duì)話發(fā)生在2個(gè)主要人物之間。因此,本文選擇一定平均置信概率以上的人物中2個(gè)肩關(guān)節(jié)點(diǎn)距離最大的人物。而為了排除單目標(biāo)人物場(chǎng)景下背景人物的干擾,根據(jù)經(jīng)驗(yàn),對(duì)于選取的2個(gè)人物中肩寬差距在3倍以上的,只保留肩寬較大的人物,以排除無(wú)關(guān)人物對(duì)結(jié)果的干擾。
一段多人物的視頻片段在根據(jù)上述策略處理后可表示為一個(gè)(幀數(shù),人物數(shù),關(guān)節(jié)點(diǎn)數(shù),關(guān)節(jié)點(diǎn)坐標(biāo)及置信概率)的張量,其中人物數(shù)為1或2。使用ST-GCN網(wǎng)絡(luò)對(duì)該張量進(jìn)行計(jì)算,并提取輸入SoftMax層前的向量,得到每個(gè)人物關(guān)節(jié)點(diǎn)在每4幀內(nèi)對(duì)應(yīng)的肢體動(dòng)作特征,則每個(gè)視頻片段可以表示為一個(gè)(幀數(shù)/4,人物數(shù),關(guān)節(jié)點(diǎn)數(shù),256)的肢體動(dòng)作特征,再對(duì)肢體動(dòng)作特征在幀和關(guān)節(jié)點(diǎn)維度上取平均值,則每個(gè)視頻片段提取到一個(gè)維度為(人物數(shù),256)的肢體動(dòng)作特征。對(duì)于人物數(shù)為1的視頻片段,采用將單一人物特征重復(fù)2遍的方式使維度對(duì)齊。最后將動(dòng)作特征張量扁平化,得到每個(gè)視頻片段對(duì)應(yīng)的512維的肢體動(dòng)作特征。
3.2.3 評(píng)估指標(biāo)
本節(jié)使用準(zhǔn)確度(accuracy)和各情緒分類的1得分的加權(quán)平均(weighted-avg)評(píng)估整體識(shí)別結(jié)果,使用各分類的1分?jǐn)?shù)評(píng)估各類別的識(shí)別結(jié)果。準(zhǔn)確度定義為
1分?jǐn)?shù)定義為
其中,
其中,為測(cè)試中的真正例數(shù);為假正例數(shù);為真反例數(shù);為假反例數(shù)。
在更新后的MELD數(shù)據(jù)集上按照3.2節(jié)描述的實(shí)驗(yàn)設(shè)置進(jìn)行訓(xùn)練和測(cè)試,得到單模態(tài)情緒識(shí)別結(jié)果。表2展示了分別使用肢體動(dòng)作特征、音頻特征和文本特征,對(duì)快樂(lè)、恐懼、憤怒、悲傷、厭惡、驚訝和中性7類情緒類別進(jìn)行單模態(tài)情緒識(shí)別的實(shí)驗(yàn)結(jié)果。
表2 單模態(tài)情緒識(shí)別實(shí)驗(yàn)結(jié)果(%)
從表2可知,文本模態(tài)特征用于情緒分類任務(wù)的效果最好,加權(quán)平均得分超過(guò)了55%,這是因?yàn)槠浒膬?nèi)容最為豐富,且較為統(tǒng)一,易被模型學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明語(yǔ)言文字在情緒識(shí)別中有重要作用。語(yǔ)音模態(tài)特征具有獨(dú)特性,即不同的人在以相同情緒講相同內(nèi)容的話時(shí),語(yǔ)音語(yǔ)調(diào)也存在差異。該特性加大了模型學(xué)習(xí)的難度,導(dǎo)致語(yǔ)音模態(tài)特征的分類結(jié)果準(zhǔn)確度低于文本模態(tài)特征。雖然人講話時(shí)的肢體動(dòng)作中包含了對(duì)應(yīng)的情緒信息,但相較于前2種模態(tài)特征,從視頻中提取對(duì)應(yīng)的信息具有其固有的難點(diǎn):首先需要排除畫(huà)面中無(wú)關(guān)人物的干擾,對(duì)說(shuō)話人進(jìn)行精準(zhǔn)的定位;其次,根據(jù)WALTERS和WALK[51]對(duì)動(dòng)作和情緒之間關(guān)系的研究,部分情緒,如快樂(lè)、悲傷和憤怒,在肢體動(dòng)作上的表現(xiàn)更為明顯,而厭惡等情緒在動(dòng)作上的表現(xiàn)幅度較小。這些因素都加大了從動(dòng)作中捕捉關(guān)鍵情緒信息的難度。盡管如此,單模態(tài)情緒識(shí)別實(shí)驗(yàn)結(jié)果顯示,僅使用肢體動(dòng)作特征也可以在一定程度上完成情緒識(shí)別任務(wù),表明肢體動(dòng)作特征內(nèi)隱含人物情緒信息,使用肢體動(dòng)作特征識(shí)別情緒的方法具有一定潛力。
加權(quán)平均是由各分類的1分?jǐn)?shù)結(jié)合類別權(quán)重計(jì)算得到。
按照3.2節(jié)描述的實(shí)驗(yàn)設(shè)置,在更新后的MELD數(shù)據(jù)集上分別使用2個(gè)模型進(jìn)行訓(xùn)練和測(cè)試,得到多模態(tài)情緒識(shí)別結(jié)果。表3展示了在bcLSTM模型中使用文本、語(yǔ)音雙模態(tài)信息和文本、語(yǔ)音、視覺(jué)三模態(tài)信息,以及在CoMPM模型中使用文本信息和文本、視覺(jué)雙模態(tài)信息對(duì)快樂(lè)、恐懼、憤怒、悲傷、厭惡、驚訝和中性7類情緒類別進(jìn)行識(shí)別的結(jié)果。
分析表3數(shù)據(jù)可發(fā)現(xiàn),恐懼與厭惡2種情緒的識(shí)別結(jié)果較差,其原因是數(shù)據(jù)集內(nèi)各類別數(shù)據(jù)分布的不平衡。從圖4中可以看出:超過(guò)45%的例子均為中性標(biāo)簽。盡管在bcLSTM模型中通過(guò)引入類別權(quán)重作為超參數(shù)適當(dāng)解決了這一問(wèn)題,但圖5的2種模型中多模態(tài)情緒識(shí)別的混淆矩陣可以看出,模型在學(xué)習(xí)過(guò)程中傾向于賦予中性情緒類別更高的權(quán)重,其他類別中分類錯(cuò)誤的例子大多被誤判為中性類別。
表3 多模態(tài)情緒識(shí)別實(shí)驗(yàn)結(jié)果對(duì)比(%)
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
圖5 多模態(tài)情緒識(shí)別結(jié)果的混淆矩陣((a) bcLSTM模型;(b) CoMPM模型)
此外,從表3可以看出,引入肢體動(dòng)作特征后多模態(tài)情緒識(shí)別結(jié)果中各情緒準(zhǔn)確率的變化方向不同,是因?yàn)椴煌那榫w在肢體動(dòng)作上體現(xiàn)的程度不同。驚訝和開(kāi)心情緒的識(shí)別準(zhǔn)確率在2種模型上均有所下降,是因?yàn)檫@2類情緒更多體現(xiàn)在文本或聲音的變化中,在肢體動(dòng)作中的表現(xiàn)幅度較小,融合肢體動(dòng)作特征后引入了無(wú)關(guān)冗余特征,造成了準(zhǔn)確率的下降。但在生氣和厭惡這2類情緒中,肢體動(dòng)作表現(xiàn)幅度較大,引入肢體動(dòng)作特征可以為模型提供更多信息,故而在2種模型上的對(duì)應(yīng)情緒識(shí)別準(zhǔn)確率均有所上升。
綜合表3中各分類和總體結(jié)果來(lái)看,在bcLSTM模型中,三模態(tài)信息融合后的情緒識(shí)別結(jié)果與雙模態(tài)信息融合后的結(jié)果,在準(zhǔn)確度上高出2.2%,在加權(quán)平均上高出1%。而在CoMPM模型中,雙模態(tài)信息融合后的情緒識(shí)別結(jié)果與文本模態(tài)的結(jié)果相比,在準(zhǔn)確度上高出1.9%,在加權(quán)平均上高出1.3%。在2個(gè)模型上的對(duì)比實(shí)驗(yàn)結(jié)果表明引入肢體動(dòng)作特征的多模態(tài)情緒識(shí)別模型比原有模型表現(xiàn)更好,說(shuō)明從視覺(jué)模態(tài)提取的肢體動(dòng)作特征包含原有各模態(tài)特征未捕捉到的信息。融合后的多模態(tài)模型涵蓋了更豐富的相關(guān)特征,因此加強(qiáng)了模型識(shí)別對(duì)話中情緒的能力。
本文利用多人對(duì)話數(shù)據(jù)集MELD的視覺(jué)模態(tài)數(shù)據(jù)提取肢體動(dòng)作特征,并提出了融合動(dòng)作特征的多模態(tài)情緒識(shí)別方法。進(jìn)一步通過(guò)實(shí)驗(yàn)驗(yàn)證肢體動(dòng)作特征及包含該特征在內(nèi)的多模態(tài)特征在情緒識(shí)別任務(wù)中的識(shí)別效果。從實(shí)驗(yàn)結(jié)果可知,利用肢體動(dòng)作特征能實(shí)現(xiàn)一定程度上的情緒識(shí)別,而引入肢體動(dòng)作特征輔助的多模態(tài)情緒識(shí)別的效果也得到了提升,表明肢體動(dòng)作特征在情緒識(shí)別任務(wù)上具有良好的發(fā)展?jié)摿?。通過(guò)具體分析各情緒分類識(shí)別結(jié)果,進(jìn)一步發(fā)現(xiàn)不同情緒在動(dòng)作特征中的體現(xiàn)程度不同,生氣和厭惡2類情緒在動(dòng)作中體現(xiàn)的更為明顯,表明對(duì)特定情緒(如憤怒)的識(shí)別準(zhǔn)確度要求更高的場(chǎng)合,引入動(dòng)作特征能更有效準(zhǔn)確地識(shí)別對(duì)應(yīng)情緒。下一步工作將嘗試優(yōu)化肢體動(dòng)作特征提取方法,使其能夠更精準(zhǔn)地捕捉到說(shuō)話人的肢體動(dòng)作信息,并挖掘更有效的利用肢體動(dòng)作特征實(shí)現(xiàn)情緒識(shí)別的方法。
[1] DAVIDSON R J, BEGLEY S. The emotional life of your brain: how its unique patterns affect the way you think, feel, and live-and how you can change them[M]. New York: Plume, 2013: 1-279.
[2] LOEWENSTEIN G, LERNER J. The role of affect in decision making[M]//The Handbook of Affective Science. Oxford: Oxford University Press, 2003: 619-642.
[3] NOROOZI F, CORNEANU C A, KAMI?SKA D, et al. Survey on emotional body gesture recognition[J]. IEEE Transactions on Affective Computing, 2021, 12(2): 505-523.
[4] ZHAO J, GOU L, WANG F, et al. PEARL: an interactive visual analytic tool for understanding personal emotion style derived from social media[C]//2014 IEEE Conference on Visual Analytics Science and Technology. New York: IEEE Press, 2014: 203-212.
[5] CALVO R A, MAC KIM S. Emotions in text: dimensional and categorical models[J]. Computational Intelligence, 2013, 29(3): 527-543.
[6] RUSSELL J A. A circumplex model of affect[J]. Journal of Personality and Social Psychology, 1980, 39(6): 1161-1178.
[7] BRADLEY M M, LANG P J. Measuring emotion: the self-assessment manikin and the semantic differential[J]. Journal of Behavior Therapy and Experimental Psychiatry, 1994, 25(1): 49-59.
[8] PALTOGLOU G, THELWALL M. Seeing stars of valence and arousal in blog posts[J]. IEEE Transactions on Affective Computing, 2013, 4(1): 116-123.
[9] PALTOGLOU G, THEUNIS M, KAPPAS A, et al. Predicting emotional responses to long informal text[J]. IEEE Transactions on Affective Computing, 2013, 4(1): 106-115.
[10] EKMAN P. An argument for basic emotions[J]. Cognition and Emotion, 1992, 6(3-4): 169-200.
[11] SARKAR P, ETEMAD A. Self-supervised ECG representation learning for emotion recognition[J]. IEEE Transactions on Affective Computing, 2022, 13(3): 1541-1554.
[12] ALARC?O S M, FONSECA M J. Emotions recognition using EEG signals: a survey[J]. IEEE Transactions on Affective Computing, 2019, 10(3): 374-393.
[13] COUTINHO E. Predicting musical emotions from low-level acoustics and physiological measurements: music and speech[EB/OL]. [2022-05-07]. https://livrepository.liverpool.ac. uk/3000588/1/Paper_MER.pdf.
[14] PETRANTONAKIS P C, HADJILEONTIADIS L J. Emotion recognition from brain signals using hybrid adaptive filtering and higher order crossings analysis[J]. IEEE Transactions on Affective Computing, 2010, 1(2): 81-97.
[15] CHANEL G, ANSARI-ASL K, PUN T. Valence-arousal evaluation using physiological signals in an emotion recall paradigm[C]//2007 IEEE International Conference on Systems, Man and Cybernetics. New York: IEEE Press, 2007: 2662-2667.
[16] PORIA S, CHATURVEDI I, CAMBRIA E, et al. Convolutional MKL based multimodal emotion recognition and sentiment analysis[C]//2016 IEEE 16th International Conference on Data Mining. New York: IEEE Press, 2016: 439-448.
[17] PORIA S, CAMBRIA E, HAZARIKA D, et al. Context- dependent sentiment analysis in user-generated videos[C]//The 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg: Association for Computational Linguistics, 2017: 873-883.
[18] BAGHER ZADEH A, LIANG P P, PORIA S, et al. Multimodal language analysis in the wild: CMU-MOSEI dataset and interpretable dynamic fusion graph[C]//The 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg: Association for Computational Linguistics, 2018: 2236-2246.
[19] MITTAL T, BHATTACHARYA U, CHANDRA R, et al. M3ER: multiplicative multimodal emotion recognition using facial, textual, and speech cues[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(2): 1359-1367.
[20] NOROOZI F, CORNEANU C A, KAMI?SKA D, et al. Survey on emotional body gesture recognition[J]. IEEE Transactions on Affective Computing, 2021, 12(2): 505-523.
[21] JAIMES A, SEBE N. Multimodal human-computer interaction: a survey[J]. Computer Vision and Image Understanding, 2007, 108(1-2): 116-134.
[22] EL AYADI M, KAMEL M S, KARRAY F. Survey on speech emotion recognition: features, classification schemes, and databases[J]. Pattern Recognition, 2011, 44(3): 572-587.
[23] YANG Y H, CHEN H H. Ranking-based emotion recognition for music organization and retrieval[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(4): 762-774.
[24] KARADO?AN S G, LARSEN J. Combining semantic and acoustic features for valence and arousal recognition in speech[C]//2012 3rd International Workshop on Cognitive Information Processing . New York: IEEE Press, 2012: 1-6.
[25] LIN J C, WU C H, WEI W L. Error weighted semi-coupled hidden Markov model for audio-visual emotion recognition[J]. IEEE Transactions on Multimedia, 2012, 14(1): 142-156.
[26] HEISELE B, HO P, POGGIO T. Face recognition with support vector machines: global versus component-based approach[C]// The 8th IEEE International Conference on Computer Vision. New York: IEEE Press, 2001: 688-694.
[27] PORIA S, HAZARIKA D, MAJUMDER N, et al. MELD: a multimodal multi-party dataset for emotion recognition in conversations[EB/OL].[2022-05-20]. https://arxiv.org/abs/1810. 02508.
[28] XIE B J, SIDULOVA M, PARK C H. Robust multimodal emotion recognition from conversation with transformer-based crossmodality fusion[J]. Sensors, 2021, 21(14): 4913.
[29] LEE J, LEE W. CoMPM: context modeling with speaker's pre-trained memory tracking for emotion recognition in conversation[EB/OL]. [2022-06-15]. https://arxiv.org/abs/2108. 11626.
[30] LI D, RZEPKA R, PTASZYNSKI M, et al. A novel machine learning-based sentiment analysis method for Chinese social media considering Chinese slang lexicon and emoticons[C]//The 2nd Workshop on Affective Content Analysis (AffCon 2019) Co-located with 33rd AAAI Conference on Artificial Intelligence (AAAI 2019). Palo Alto: AAAI Press, 2019: 88-103.
[31] LIU F G, ZHENG L L, ZHENG J Z. HieNN-DWE: a hierarchical neural network with dynamic word embeddings for document level sentiment classification[J]. Neurocomputing, 2020, 403: 21-32.
[32] LI W, ZHU L Y, SHI Y, et al. User reviews: sentiment analysis using lexicon integrated two-channel CNN-LSTM family models[J]. Applied Soft Computing, 2020, 94: 106435.
[33] COULSON M. Attributing emotion to static body postures: recognition accuracy, confusions, and viewpoint dependence[J]. Journal of Nonverbal Behavior, 2004, 28(2): 117-139.
[34] TRACY J L, ROBINS R W. Show your pride: evidence for a discrete emotion expression[J]. Psychological Science, 2004, 15(3): 194-197.
[35] DAEL N, GOUDBEEK M, SCHERER K R. Perceived gesture dynamics in nonverbal expression of emotion[J]. Perception, 2013, 42(6): 642-657.
[36] GLOWINSKI D, DAEL N, CAMURRI A, et al. Toward a minimal representation of affective gestures[J]. IEEE Transactions on Affective Computing, 2011, 2(2): 106-118.
[37] WANG W Y, ENESCU V, SAHLI H. Adaptive real-time emotion recognition from body movements[J]. ACM Transactions on Interactive Intelligent Systems, 2016, 5(4): 18.
[38] SANTHOSHKUMAR R, KALAISELVI GEETHA M. Vision-based human emotion recognition using HOG-KLT feature[M]//Lecture Notes in Networks and Systems. Singapore: Springer Singapore, 2020: 261-272.
[39] SANTHOSHKUMAR R, KALAISELVI GEETHA M. Human emotion recognition using body expressive feature[M]// Microservices in Big Data Analytics. Singapore: Springer Singapore, 2019: 141-149.
[40] RAZZAQ M A, BANG J, KANG S S, et al. UnSkEm: unobtrusive skeletal-based emotion recognition for user experience[C]//2020 International Conference on Information Networking. New York: IEEE Press, 2020: 92-96.
[41] LY S T, LEE G S, KIM S H, et al. Emotion recognition via body gesture: deep learning model coupled with keyframe selection[C]//The 2018 International Conference on Machine Learning and Machine Intelligence. New York: ACM Press, 2018: 27-31.
[42] SHEN Z J, CHENG J, HU X P, et al. Emotion recognition based on multi-view body gestures[C]//2019 IEEE International Conference on Image Processing. New York: IEEE Press, 2019: 3317-3321.
[43] AVOLA D, CINQUE L, FAGIOLI A, et al. Deep temporal analysis for non-acted body affect recognition[J]. IEEE Transactions on Affective Computing, 2022, 13(3): 1366-1377.
[44] BUSSO C, BULUT M, LEE C C, et al. IEMOCAP: interactive emotional dyadic motion capture database[J]. Language Resources and Evaluation, 2008, 42(4): 335-359.
[45] METALLINOU A, LEE C C, BUSSO C, et al. The USC CreativeIT database: a multimodal database of theatrical improvisation[J]. Multimodal Corpora: Advances in Capturing, Coding and Analyzing Multimodality, 2010: 497-521.
[46] METALLINOU A, YANG Z J, LEE C C, et al. The USC CreativeIT database of multimodal dyadic interactions: from speech and full body motion capture to continuous emotional annotations[J]. Language Resources and Evaluation, 2016, 50(3): 497-521.
[47] ZADEH A, ZELLERS R, PINCUS E, et al. MOSI: multimodal corpus of sentiment intensity and subjectivity analysis in online opinion videos[EB/OL]. [2022-06-10]. https://arxiv.org/ abs/1606.06259.
[48] CAO Z, SIMON T, WEI S H, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 1302-1310.
[49] YAN S J, XIONG Y J, LIN D H. Spatial temporal graph convolutional networks for skeleton-based action recognition[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2018, 32(1): 1.
[50] LEE J, TASHEV I. High-level feature representation using recurrent neural network for speech emotion recognition[C]// Interspeech 2015. Baixas: International Speech Communication Association, 2015: 1.
[51] WALTERS K, WALK R D. Perception of emotion from body posture[J]. Bulletin of the Psychonomic Society, 1986, 24(5):1.
Multimodal emotion recognition with action features
SUN Ya-nan, WEN Yu-hui, SHU Ye-zhi, LIU Yong-jin
(Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China)
In recent years, using knowledge of computer science to realize emotion recognition based on multimodal data has become an important research direction in the fields of natural human-computer interaction and artificial intelligence. The emotion recognition research using visual modality information usually focuses on facial features, rarely considering action features or multimodal features fused with action features. Although action has a close relationship with emotion, it is difficult to extract valid action information from the visual modality. In this paper, we started with the relationship between action and emotion, and introduced action data extracted from visual modality to classic multimodal emotion recognition dataset, MELD. The body action features were extracted based on ST-GCN model, and the action features were applied to the LSTM model-based single-modal emotion recognition task. In addition, body action features were introduced to bi-modal emotion recognition in MELD dataset, improving the performance of the fusion model based on the LSTM network. The combination of body action features and text features enhanced the recognition accuracy of the context model with pre-trained memory compared with that only using the text features. The results of the experiment show that although the accuracy of body action features for emotion recognition is not higher than those of traditional text features and audio features, body action features play an important role in the process of multimodal emotion recognition. The experiments on emotion recognition based on single-modal and multimodal features validate that people use actions to convey their emotions, and that using body action features for emotion recognition has great potential.
action features; emotion recognition; multimodality; action and emotion; visual modality
TP 391
10.11996/JG.j.2095-302X.2022061159
A
2095-302X(2022)06-1159-11
2022-07-28;
:2022-10-15
清華大學(xué)自主科研計(jì)劃(20211080093);博士后面上資助(2021M701891);國(guó)家自然科學(xué)基金(62202257,61725204)
孫亞男(1997-),女,碩士研究生。主要研究方向?yàn)橛?jì)算機(jī)視覺(jué)。E-mail:sunyn20@mails.tsinghua.edu.cn
劉永進(jìn)(1977-),男,教授,博士。主要研究方向?yàn)橛?jì)算機(jī)圖形學(xué)、計(jì)算機(jī)輔助設(shè)計(jì)和情感計(jì)算。E-mail:liuyongjin@tsinghua.edu.cn
28 July,2022;
15 October,2022
Tsinghua University Initiative Scientific Research Program (20211080093); China Postdoctoral Science Foundation (2021M701891); National Natural Science Foundation of China (62202257, 61725204)
SUN Ya-nan (1997-), master student. Her main research interest covers computer vision. E-mail:sunyn20@mails.tsinghua.edu.cn
LIU Yong-jin (1977-), professor, Ph.D. His main research interests cover computer graphics, computer aided design and affective computing. E-mail:liuyongjin@tsinghua.edu.cn