張 超,張信明
(中國(guó)科學(xué)技術(shù)大學(xué) 大數(shù)據(jù)學(xué)院,安徽 合肥 230026)
隨著互聯(lián)網(wǎng)與社交媒體的不斷發(fā)展,越來(lái)越多的人使用包含文本、語(yǔ)音、圖像在內(nèi)的多模態(tài)數(shù)據(jù)在社交媒體上表達(dá)自己的看法或觀點(diǎn)。海量的多模態(tài)數(shù)據(jù)中蘊(yùn)含著豐富的情感信息,對(duì)多模態(tài)數(shù)據(jù)進(jìn)行情感分析有利于了解人們對(duì)某些事件的態(tài)度和看法,在輿論監(jiān)控、商品推薦、股市預(yù)測(cè)等方面具有很大的應(yīng)用價(jià)值。此外,近年來(lái)的研究表明,與單模態(tài)情感識(shí)別模型相比,多模態(tài)模型在處理社交媒體數(shù)據(jù)時(shí)具有更強(qiáng)的魯棒性,并在識(shí)別準(zhǔn)確率方面取得了顯著的改進(jìn)[1]。不同的模態(tài)信息可能暗含著不同的情緒,如圖1所示,可能從文本信息中只能推斷出厭惡的情緒,而從視覺(jué)和語(yǔ)音的組合信息中推斷出悲傷和生氣的情緒,因此必須充分融合來(lái)自不同模態(tài)的信息才能準(zhǔn)確識(shí)別出多模態(tài)數(shù)據(jù)中的情感信息。
圖1 多模態(tài)多標(biāo)簽情感識(shí)別樣本實(shí)例
盡管目前多模態(tài)情感分析在模型性能方面已經(jīng)取得了較好的效果,但是仍然存在兩個(gè)問(wèn)題需要解決。第一個(gè)問(wèn)題是情感識(shí)別在現(xiàn)實(shí)場(chǎng)景中通常是一個(gè)多標(biāo)簽分類(lèi)問(wèn)題,如何對(duì)標(biāo)簽依賴(lài)關(guān)系建模并使用標(biāo)簽信息是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。目前大多數(shù)工作將多標(biāo)簽分類(lèi)問(wèn)題轉(zhuǎn)換為多個(gè)二分類(lèi)問(wèn)題,而忽視了標(biāo)簽之間的依賴(lài)性。另一個(gè)問(wèn)題是異構(gòu)模態(tài)信號(hào)之間的巨大語(yǔ)義差異,使得模態(tài)特征難以直接融合。
目前關(guān)于多模態(tài)情感分析的研究主要集中在設(shè)計(jì)高效的模態(tài)融合機(jī)制。Zadeh等[2]利用張量的外積來(lái)對(duì)不同模態(tài)之間的相互作用進(jìn)行建模,Tsai等[3]提出了基于注意力的模型,使用跨模態(tài)注意力融合來(lái)自不同模態(tài)的信息。盡管這些模型在多模態(tài)情感識(shí)別任務(wù)中取得了良好的效果,但是忽略了模態(tài)特征之間的語(yǔ)義差異,影響了多模態(tài)特征融合的效果。Ju等[4]提出了基于序列生成的模型來(lái)解決多模態(tài)多標(biāo)簽情感識(shí)別問(wèn)題,利用序列生成的方式對(duì)標(biāo)簽之間依賴(lài)關(guān)系建模,但是這種方法依賴(lài)于預(yù)先定義的標(biāo)簽順序并且計(jì)算效率低。
本文提出了一種基于標(biāo)簽嵌入的多模態(tài)多標(biāo)簽情感識(shí)別算法,即使用標(biāo)簽嵌入向量對(duì)標(biāo)簽依賴(lài)性建模,使用模態(tài)不變表示來(lái)減少模態(tài)語(yǔ)義差異。首先,鑒于情感標(biāo)簽包含著豐富的信息,本文使用標(biāo)簽之間的共現(xiàn)信息來(lái)學(xué)習(xí)多模態(tài)情感標(biāo)簽嵌入。然后,使用CMD分布度量[5]限制不同模態(tài)特征的分布差距,獲得模態(tài)不變表示,這種限制有助于縮小不同模態(tài)之間的語(yǔ)義差距,從而使用更簡(jiǎn)單的融合方法融合不同模態(tài)特征。最后,將所有的模態(tài)特征連接起來(lái),利用學(xué)習(xí)到的標(biāo)簽嵌入和融合特征完成情感識(shí)別任務(wù)。
本文在一個(gè)公開(kāi)的多模態(tài)多標(biāo)簽情感數(shù)據(jù)集CMU-MOSEI上進(jìn)行了廣泛的實(shí)驗(yàn),以評(píng)估方法性能。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效地融合模態(tài)特征并且對(duì)標(biāo)簽依賴(lài)進(jìn)行建模。本文主要貢獻(xiàn)有:
(1)使用標(biāo)簽的共現(xiàn)信息來(lái)學(xué)習(xí)標(biāo)簽嵌入,用標(biāo)簽嵌入來(lái)表示標(biāo)簽依賴(lài)關(guān)系。
(2)考慮了模態(tài)特征之間的語(yǔ)義差距,通過(guò)在損失函數(shù)中添加對(duì)模態(tài)特征的約束來(lái)減小模態(tài)特征語(yǔ)義差距。
(3)MOSEI數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,該方法在多模態(tài)多標(biāo)簽情感識(shí)別任務(wù)上相較于現(xiàn)有方法,性能有明顯提升。
不同模態(tài)的情感信息之間往往具有互補(bǔ)性,有助于更全面、更準(zhǔn)確識(shí)別出情感信息。多模態(tài)情感識(shí)別作為一個(gè)跨學(xué)科的研究領(lǐng)域,在自然語(yǔ)言處理和多模態(tài)領(lǐng)域都受到越來(lái)越多的關(guān)注。目前NLP領(lǐng)域里幾乎所有關(guān)于多標(biāo)簽情感識(shí)別的研究都依賴(lài)于情感的特殊知識(shí),例如跨域轉(zhuǎn)移[6]和外部資源[7]。多模態(tài)領(lǐng)域里的相關(guān)研究通常集中在單標(biāo)簽多模態(tài)情感識(shí)別任務(wù),而對(duì)多標(biāo)簽情感識(shí)別任務(wù)研究較少。下面分別介紹多模態(tài)情感識(shí)別與多標(biāo)簽情感識(shí)別相關(guān)工作。
近年來(lái),多模態(tài)情感識(shí)別研究主要依賴(lài)于通過(guò)多模態(tài)融合框架對(duì)情感類(lèi)別進(jìn)行分類(lèi)的方式。Zadeh等[2]提出了一種張量融合網(wǎng)絡(luò),通過(guò)張量的笛卡爾積將每個(gè)模態(tài)的特征表示結(jié)合起來(lái),表現(xiàn)出顯著的性能改進(jìn)。然而,它受到張量笛卡爾積帶來(lái)的計(jì)算復(fù)雜性指數(shù)增長(zhǎng)的限制。為了提高多模態(tài)融合效率,Liu等[8]提出了低秩多模態(tài)融合方案,利用低階張量進(jìn)行多模態(tài)融合,減小了模態(tài)融合的計(jì)算量。隨著注意力機(jī)制在NLP社區(qū)中取得顯著的成功,許多研究試圖將其用于多模態(tài)機(jī)器學(xué)習(xí)任務(wù)中。Tsai等[3]提出了多模態(tài)Transformer(MulT)結(jié)構(gòu),使用交叉模態(tài)注意力融合不同模態(tài)特征,關(guān)注不同時(shí)間步的多模態(tài)序列之間的相互作用,并潛在地將特征實(shí)現(xiàn)模態(tài)自適應(yīng)遷移,在模態(tài)數(shù)據(jù)不對(duì)齊的條件下仍然可以高效融合模態(tài)特征。Hazarika等[9]提出了一種靈活的多模態(tài)學(xué)習(xí)框架,強(qiáng)調(diào)多模態(tài)表示學(xué)習(xí)是多模態(tài)融合的前導(dǎo),為每種模態(tài)信號(hào)學(xué)習(xí)不同的表示,并使用注意力機(jī)制將不同表示融合到一個(gè)聯(lián)合向量中。Mai等[10]提出了一種新的對(duì)抗式編解碼分類(lèi)器框架來(lái)學(xué)習(xí)模態(tài)不變的嵌入空間,通過(guò)使用對(duì)抗性訓(xùn)練將源模態(tài)的分布轉(zhuǎn)換為目標(biāo)模態(tài)的分布,以此來(lái)減小模態(tài)分布之間的差異,此外,通過(guò)引入重建損失和分類(lèi)損失對(duì)嵌入空間施加了額外的約束。這種方法在多個(gè)數(shù)據(jù)集上實(shí)現(xiàn)了優(yōu)異的性能。最近,基于Transformer的上下文詞表示(包括BERT和XLNet)已經(jīng)在NLP的多個(gè)領(lǐng)域中嶄露頭角,有學(xué)者嘗試將預(yù)訓(xùn)練模型用于多模態(tài)情感分析任務(wù)中。Rahman等[11]提出了一個(gè)附加到BERT等預(yù)訓(xùn)練模型的多模態(tài)自適應(yīng)門(mén)(MAG),允許BERT在微調(diào)期間接受多模態(tài)非語(yǔ)言數(shù)據(jù),這種自適應(yīng)門(mén)通過(guò)注意力機(jī)制將非文本模態(tài)信息注入到文本向量表示中,在多個(gè)數(shù)據(jù)集上表現(xiàn)出與人類(lèi)水平相當(dāng)?shù)男阅堋?/p>
最近的研究通常將多標(biāo)簽情感識(shí)別任務(wù)視為一個(gè)分類(lèi)問(wèn)題,并利用特定知識(shí)作為輔助信息。Ando等[12]提出了一種主導(dǎo)情緒識(shí)別方法,該方法引入了判斷情緒存在與否的新任務(wù),稱(chēng)為多標(biāo)簽情緒存在(MLEE)任務(wù),提出的方法采用兩步訓(xùn)練策略。首先,訓(xùn)練MLEE任務(wù)來(lái)估計(jì)每個(gè)情緒是否存在。然后,利用MLEE任務(wù)的中間輸出訓(xùn)練具有硬/軟目標(biāo)標(biāo)簽的主導(dǎo)情緒識(shí)別模型。Yang等[13]利用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,其中獎(jiǎng)勵(lì)反饋的設(shè)計(jì)獨(dú)立于標(biāo)簽順序,可以減少模型對(duì)標(biāo)簽順序的依賴(lài),并捕獲標(biāo)簽之間的高階相關(guān)性,但其仍然依賴(lài)于預(yù)先訓(xùn)練的seq2seq模型,而這種模型的訓(xùn)練依賴(lài)標(biāo)簽順序。Zhang等[14]提出一種多模態(tài)seq2set(MMS2S)方法來(lái)同時(shí)建模模態(tài)和標(biāo)簽依賴(lài)性,首先使用單模態(tài)編碼器提取特征,然后用給定的情感表示控制不同模態(tài)特征對(duì)每個(gè)潛在情感標(biāo)簽預(yù)測(cè)的貢獻(xiàn),最后通過(guò)最大化top K序列預(yù)測(cè)所有潛在的情感標(biāo)簽。Ju等[4]提出了多模態(tài)情感集合生成網(wǎng)絡(luò),設(shè)計(jì)了一個(gè)基于變換器的區(qū)分解碼模塊,通過(guò)配備注意力來(lái)處理模態(tài)與標(biāo)簽的依賴(lài),同時(shí)采用了一種帶自評(píng)學(xué)習(xí)的增強(qiáng)解碼算法來(lái)處理標(biāo)簽之間的依賴(lài)關(guān)系。文獻(xiàn)[15]提出了一種異構(gòu)層次消息傳遞網(wǎng)絡(luò),實(shí)現(xiàn)了對(duì)標(biāo)簽之間以及標(biāo)簽與模態(tài)之間依賴(lài)關(guān)系的有效建模。
多模態(tài)多標(biāo)簽情感識(shí)別任務(wù)的模型——基于標(biāo)簽嵌入與模態(tài)不變表示的網(wǎng)絡(luò)(Label Embedding and Modality-invariant Representations based Network,LEMRN)由兩個(gè)階段組成:標(biāo)簽嵌入訓(xùn)練階段和模態(tài)特征融合訓(xùn)練階段。前一階段使用標(biāo)簽編碼器網(wǎng)絡(luò)訓(xùn)練所有標(biāo)簽的嵌入向量,后一階段使用標(biāo)簽嵌入輔助進(jìn)行模態(tài)融合。圖2展示了提出的模型LEMRN的網(wǎng)絡(luò)結(jié)構(gòu),下面從任務(wù)定義、標(biāo)簽嵌入表示和多模態(tài)特征融合三個(gè)部分來(lái)描述提出的方法。
圖2 LEMRN網(wǎng)絡(luò)模型結(jié)構(gòu)
首先,使用符號(hào)來(lái)定義多模態(tài)多標(biāo)簽情感識(shí)別任務(wù)。一條包含文本、語(yǔ)音、視頻三種模態(tài)的數(shù)據(jù)可能同時(shí)和多個(gè)情感標(biāo)簽關(guān)聯(lián)。記為多模態(tài)數(shù)據(jù)樣本為情感標(biāo)簽,N表示樣本數(shù)量。每個(gè)數(shù)據(jù)樣本包括來(lái)自語(yǔ)言、視覺(jué)和語(yǔ)音3個(gè)模態(tài)的低級(jí)特征序列,然后定義具有L個(gè)情感標(biāo)簽的標(biāo)簽集合空間為L(zhǎng)={emo1,emo1,…,emoL},每一個(gè)標(biāo)簽yi∈[0,1]L是L的一個(gè)子集,旨在為每一個(gè)數(shù)據(jù)樣本分配一個(gè)合適的標(biāo)簽空間L的子集。多模態(tài)多標(biāo)簽情感識(shí)別任務(wù)可以形式化定義為最大化下述似然函數(shù):
不同標(biāo)簽之間的相關(guān)性在多標(biāo)簽任務(wù)中起著至關(guān)重要的作用。目前關(guān)于標(biāo)簽相關(guān)性的計(jì)算并沒(méi)有統(tǒng)一的衡量標(biāo)準(zhǔn),標(biāo)簽之間的共現(xiàn)信息可以用來(lái)模擬不同標(biāo)簽之間的相關(guān)性。標(biāo)簽之間的共現(xiàn)特性可以被抽象描述為聯(lián)合概率,這適用于建模標(biāo)簽之間的關(guān)聯(lián)關(guān)系。然而,聯(lián)合概率容易受到類(lèi)別不平衡的影響,可以利用標(biāo)簽之間的條件概率來(lái)解決這個(gè)問(wèn)題,條件概率是通過(guò)將聯(lián)合概率除以邊際概率來(lái)規(guī)范化得到的。本文使用標(biāo)簽圖來(lái)學(xué)習(xí)標(biāo)簽嵌入,并將學(xué)習(xí)到的標(biāo)簽嵌入作為附加信息輸入到模態(tài)融合網(wǎng)絡(luò)中。其中標(biāo)簽表示節(jié)點(diǎn),標(biāo)簽之間的條件概率表示邊權(quán)重,標(biāo)簽之間的條件概率越大,說(shuō)明標(biāo)簽之間的關(guān)聯(lián)性越強(qiáng)。
定義標(biāo)簽圖為g=(V,C),其中頂點(diǎn)集合V={v1,v2,…,vn}代表標(biāo)簽集合,標(biāo)簽圖中的邊集合C定義標(biāo)簽之間的關(guān)聯(lián),標(biāo)簽圖的鄰接矩陣Ai,j設(shè)置為條件概率矩陣,其中Ai,j=P(vi|vj),標(biāo)簽之間的關(guān)聯(lián)應(yīng)該具有對(duì)稱(chēng)性,由于P(vi|vj)≠P(vj|vi),對(duì)鄰接矩陣進(jìn)一步處理使其成為對(duì)稱(chēng)矩陣:
為了學(xué)習(xí)標(biāo)簽嵌入,使用神經(jīng)網(wǎng)絡(luò)構(gòu)建了學(xué)習(xí)器,利用標(biāo)簽的文本語(yǔ)義ei,使用Glove文本詞向量初始化在多模態(tài)語(yǔ)義下的標(biāo)簽嵌入表示,然后將其通過(guò)學(xué)習(xí)器映射到一個(gè)多模態(tài)語(yǔ)義嵌入空間并產(chǎn)生目標(biāo)嵌入詞向量oi:
式中函數(shù)Φ()表示一個(gè)由兩層全連接網(wǎng)絡(luò)組成的神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)的目標(biāo)是優(yōu)化輸出的標(biāo)簽嵌入向量oi,使得|cos(oi,oj)|接近損失函數(shù)定義為:
其中wi,j是松弛因子。在不添加松弛因子的情況下,損失函數(shù)要求所有的|cos(oi,oj)|必須充分接近
首先,對(duì)于每個(gè)模態(tài)信號(hào)的原始序列輸入數(shù)據(jù),使用Transformer網(wǎng)絡(luò)的編碼器來(lái)處理并獲得向量表示。與傳統(tǒng)的RNN網(wǎng)絡(luò)、LSTM網(wǎng)絡(luò)相比,Transformer網(wǎng)絡(luò)更容易學(xué)習(xí)到句子之間的長(zhǎng)距離依賴(lài),因?yàn)槠洳捎昧硕囝^自注意力機(jī)制,用序列中所有位置向量的加權(quán)和來(lái)代表每一個(gè)位置的向量。具體來(lái)說(shuō),對(duì)于每一種模態(tài)序列um∈RTm×dm,其中m∈{t,a,v},將其映射到潛在空間的模態(tài)向量:
然后,使用模態(tài)編碼器將不同模態(tài)向量ht,ha和hv投影到公共子空間中。使用Trandformer網(wǎng)絡(luò)編碼器提取到的不同模態(tài)特征之間語(yǔ)義差距很大,難以直接融合,投影到公共子空間中有利于在相同的語(yǔ)義空間中進(jìn)一步處理。模態(tài)編碼器由多層感知器(MLP)和模態(tài)自適應(yīng)門(mén)組成,首先使用MLP將模態(tài)向量映射到公共子空間:
將不同的模態(tài)向量投影到一個(gè)特殊的公共子空間之后,使用CMD函數(shù)[5]限制不同模態(tài)特征的分布差距,獲得模態(tài)不變的特征表示。CMD函數(shù)度量?jī)蓚€(gè)分布之間的距離,相比于KL散度包含了高階矩信息。CMD函數(shù)具體形式如下:
其中X,Y代表兩個(gè)不同分布,[a,b]表示的是X,Y的 取 值 范 圍,E(·)表 示 數(shù) 學(xué) 期 望,Ck(X)=E((X-E(X)k)表示分布X的k階中心矩。計(jì)算每對(duì)模態(tài)向量的CMD度量,并將其添加到損失函數(shù)中,通過(guò)梯度訓(xùn)練減少模態(tài)間CMD度量,達(dá)到減小不同模態(tài)特征之間語(yǔ)義差距的效果,其計(jì)算公式為:
3.1.1 實(shí)驗(yàn)數(shù)據(jù)集
在本文實(shí)驗(yàn)中使用了現(xiàn)有最大的多模態(tài)多標(biāo)簽情感識(shí)別基準(zhǔn)數(shù)據(jù)集CMU-MOSEI來(lái)評(píng)估提出的方法。該數(shù)據(jù)集由從YouTube視頻中提取的22 856條帶注釋的話(huà)語(yǔ)組成,來(lái)自5 000個(gè)視頻,1 000位不同的發(fā)言人和250個(gè)不同的主題。每個(gè)數(shù)據(jù)點(diǎn)包含有文本、視頻和語(yǔ)音3種模態(tài)數(shù)據(jù)。對(duì)于原始的音頻信號(hào),使用聲學(xué)分析框架COVAREP提取聲學(xué)特征,包括梅爾倒譜系數(shù)特征(MFCC)、基頻軌跡、濁音/清音分段特征、聲門(mén)源參數(shù)、峰值斜率參數(shù)和最大色散商,提取到的聲學(xué)特征維度是74。對(duì)于原始的視覺(jué)信號(hào),使用Facet庫(kù)提取特征,包括面部表情動(dòng)作單元(FAU)、面部特征點(diǎn)、頭部姿勢(shì)、視線軌跡以及HOG特征,視覺(jué)特征的維度是35。情感標(biāo)簽共有6種,分別是快樂(lè)、悲傷、憤怒、恐懼、厭惡和驚訝。訓(xùn)練集包含16 326個(gè)樣本,驗(yàn)證集包含1 871個(gè)樣本,測(cè)試集包含4 659個(gè)樣本。
3.1.2 評(píng)價(jià)指標(biāo)
本文采用了3個(gè)評(píng)估指標(biāo)來(lái)評(píng)價(jià)不同方法在多模態(tài)多標(biāo)簽情感識(shí)別任務(wù)上的性能,分別是多標(biāo)簽準(zhǔn)確率、漢明損失(HL)、Micro-F1分?jǐn)?shù),三個(gè)評(píng)價(jià)指標(biāo)的計(jì)算公式如下:
3.1.3 參數(shù)設(shè)置
本文在操作系統(tǒng)為Ubuntu18.04.5環(huán)境中進(jìn)行實(shí)驗(yàn),使用開(kāi)源深度學(xué)習(xí)框架PyTorch。對(duì)于原始模態(tài)數(shù)據(jù)輸入,文本數(shù)據(jù)維度dT是300,視覺(jué)數(shù)據(jù)維度dV與語(yǔ)音數(shù)據(jù)維度dA維度分別是35和74,模態(tài)特征隱藏層單元維度是50。本文使用3層Transformer網(wǎng)絡(luò)的encoder來(lái)提取序列特征,在標(biāo)簽嵌入向量的訓(xùn)練過(guò)程中,使用預(yù)訓(xùn)練的Glove詞向量初始化輸入向量,使用Adam作為優(yōu)化器,并使用5e-4作為初始學(xué)習(xí)率。此外,本文還使用了dropout正則化來(lái)避免過(guò)擬合,并使用LayerNorm和梯度裁剪來(lái)克服梯度消失和梯度爆炸。
3.1.4 對(duì)比模型
為了綜合評(píng)估本文提出的方法的性能,本文在CMU-MOSEI數(shù)據(jù)集將本文模型與各種基線模型做比較。分別是:
(1)BR[16]:采用交叉訓(xùn)練的方法,將多標(biāo)簽任務(wù)轉(zhuǎn)化為多個(gè)單標(biāo)簽二值分類(lèi)問(wèn)題。
(2)CC[17]:該算法將多標(biāo)簽任務(wù)轉(zhuǎn)化為鏈?zhǔn)蕉诸?lèi)問(wèn)題,沿著分類(lèi)器鏈傳遞標(biāo)簽相關(guān)信息,該方法可以保持在可接受的計(jì)算復(fù)雜度內(nèi)對(duì)標(biāo)簽相關(guān)性進(jìn)行建模。
(3)LSAN[18]:利用標(biāo)簽語(yǔ)義信息來(lái)確定標(biāo)簽和文檔之間的語(yǔ)義聯(lián)系,從而構(gòu)建特定于標(biāo)簽的文檔表示。
(4)RAVEN[19]:對(duì)非語(yǔ)言子詞序列的細(xì)粒度結(jié)構(gòu)進(jìn)行建模,并根據(jù)非語(yǔ)言線索動(dòng)態(tài)轉(zhuǎn)換單詞表示。
(5)MulT[3]:使用基于Transformer的結(jié)構(gòu)提取序列特征,使用交叉模態(tài)注意力融合不同模態(tài)特征。
(6)HHMPN[15]:使用異構(gòu)的分層消息傳遞網(wǎng)絡(luò)來(lái)有效地建模標(biāo)簽-標(biāo)簽依賴(lài)、特征-標(biāo)簽依賴(lài)和模態(tài)-標(biāo)簽依賴(lài)。
以上基線模型可以分為3組,前3種方法只考慮了標(biāo)簽依賴(lài)性,沒(méi)有考慮模態(tài)依賴(lài)性,使用早期融合的方法融合不同模態(tài)特征;第4種與第5種方法只考慮了模態(tài)依賴(lài)性,融合了不同模態(tài)特征,但沒(méi)有考慮標(biāo)簽依賴(lài)性;最后一種方法考慮了標(biāo)簽依賴(lài)性與模態(tài)依賴(lài)性。
根據(jù)CMU-MOSEI數(shù)據(jù)集上不同多模態(tài)多標(biāo)簽情感識(shí)別方法的結(jié)果顯示(如表1所示),僅考慮標(biāo)簽依賴(lài)性的方法LSAN的準(zhǔn)確率為0.393,僅考慮模態(tài)依賴(lài)性的方法MulT的準(zhǔn)確率為0.445。與使用早期融合模態(tài)特征的多標(biāo)簽方法相比,本文提出的方法準(zhǔn)確率可以達(dá)到0.465,多模態(tài)方法獲得了更好的結(jié)果,分別比LSAN與MulT高7.2%與2%。與同時(shí)考慮模態(tài)依賴(lài)與標(biāo)簽依賴(lài)的方法HHMPN相比,本文提出的方法在準(zhǔn)確率與漢明損失指標(biāo)上取得了更好的效果。
在驗(yàn)證模型中標(biāo)簽嵌入和模態(tài)約束必要性的消融實(shí)驗(yàn)中,變體一LEMRN w/o M不添加模態(tài)約束,直接連接所有模態(tài)特征,變體二LEMRN w/o LE刪除了標(biāo)簽嵌入,忽略標(biāo)簽的依賴(lài)關(guān)系。如表1所示,如果去除標(biāo)簽嵌入或模態(tài)約束,模型性能會(huì)明顯降低,表明標(biāo)簽嵌入與模態(tài)約束是必要的。此外,移除標(biāo)簽嵌入導(dǎo)致模型性能下降得更加劇烈,說(shuō)明了標(biāo)簽嵌入在模型中起到更關(guān)鍵的作用。
表1 模型在多模態(tài)多標(biāo)簽情感識(shí)別任務(wù)結(jié)果
為驗(yàn)證通過(guò)CMD函數(shù)添加的模態(tài)約束對(duì)模態(tài)特征的影響,分析了經(jīng)過(guò)模態(tài)編碼器編碼的模態(tài)特征的分布,模態(tài)特征分布如圖3所示。可以看到,在不添加模態(tài)約束的條件下,3種模態(tài)特征分布差異較大,添加模態(tài)約束之后模態(tài)特征分布趨于一致,證明提出的方法能夠減小模態(tài)特征分布之間的差異,從而有利于更好地融合模態(tài)特征。
圖3 模態(tài)特征分布箱線圖
為進(jìn)一步比較不同方法在多標(biāo)簽多模態(tài)情感識(shí)別任務(wù)上性能的差別,選取了兩個(gè)樣本來(lái)觀察不同基準(zhǔn)模型與LEMRN的預(yù)測(cè)結(jié)果,圖4展示了3種模型在樣本上的預(yù)測(cè)結(jié)果。從預(yù)測(cè)結(jié)果可以觀察到,在兩個(gè)樣本中LSAN模型都無(wú)法預(yù)測(cè)出所有的標(biāo)簽,主要是因?yàn)槟P蜎](méi)有充分融合模態(tài)特征,只采用了簡(jiǎn)單的早期融合策略;MulT模型能夠準(zhǔn)確預(yù)測(cè)出左邊樣本的所有標(biāo)簽,無(wú)法完整預(yù)測(cè)出右邊樣本標(biāo)簽,主要是因?yàn)槟P蜎](méi)有考慮標(biāo)簽之間的依賴(lài)關(guān)系,只將多標(biāo)簽分類(lèi)任務(wù)簡(jiǎn)單轉(zhuǎn)化為多個(gè)二分類(lèi)任務(wù);本文提出的LEMRN模型能夠準(zhǔn)確預(yù)測(cè)出兩個(gè)樣本的所有標(biāo)簽,能夠高效完成模態(tài)特征融合以及標(biāo)簽依賴(lài)性關(guān)系的建模。
圖4 LSAN、MulT、LEMRN預(yù)測(cè)標(biāo)簽結(jié)果對(duì)比
在多模態(tài)情感識(shí)別中,存在多標(biāo)簽場(chǎng)景下標(biāo)簽間依賴(lài)性表示不充分、模態(tài)特征之間語(yǔ)義差距過(guò)大等問(wèn)題。本文提出了一種基于標(biāo)簽嵌入的多模態(tài)多標(biāo)簽情感識(shí)別算法,為了充分對(duì)標(biāo)簽之間依賴(lài)關(guān)系建模,利用標(biāo)簽條件概率訓(xùn)練標(biāo)簽嵌入向量,利用標(biāo)簽嵌入向量輔助多標(biāo)簽情感識(shí)別任務(wù);為了減小模態(tài)特征之間的語(yǔ)義差距,引入CMD分布損失函數(shù)來(lái)約束模態(tài)特征分布。在CMU-MOSEI數(shù)據(jù)集上的詳細(xì)實(shí)驗(yàn)結(jié)果表明,該方法能夠?qū)?biāo)簽之間依賴(lài)關(guān)系有效建模,能夠緩解模態(tài)特征之間語(yǔ)義差異大的問(wèn)題,也因此能夠在多標(biāo)簽多模態(tài)情感識(shí)別任務(wù)中取得更好的結(jié)果。