黃宏展,蒙祖強
廣西大學 計算機與電子信息學院,南寧530004
在日常生活里,人們所接觸的信息通常有以下幾種形式:視頻、聲音、圖片、文字等。在許多場合,從信息的感知到認知的理解過程可能需要綜合多種形式的信息才能完成。多種形式信息所構成的數(shù)據,也叫做多模態(tài)數(shù)據。使用多模態(tài)數(shù)據可以從給定學習任務所考慮的每種模態(tài)中提取互補信息,與僅使用單個模態(tài)相比,可以產生更豐富的表示[1]。
情感分析領域里,目前較為常見的是針對文本數(shù)據進行自然語言處理[2-3],挖掘文字背后蘊藏的感情色彩。也有部分學者將圖像處理技術運用于情感分析[4-5]。但是,目前綜合文本和圖像進行多模態(tài)情感分析的研究相對比較少。在有的場合下,僅通過單一模態(tài)挖掘數(shù)據背后的情感特征往往容易產生歧義,需要借助其他模態(tài)信息的輔助才能夠更好地表達情緒傾向。例如,從圖1中(a)和(b)容易觀察出積極和消極的情感傾向,然而在(c)中只觀察圖片會誤以為描繪美麗的森林,結合文本中的“abandoned”“fallen”“shattered”等情感詞匯才可以得到原創(chuàng)者表達的消極傾向。圖片與文本數(shù)據的融合解釋,不但可以加強情感的傳達,也能避免單模態(tài)下情感分析的片面性。
圖1 社交媒體上的圖文數(shù)據
在實際生活中,部分人工智能應用場景需要涉及到多種模態(tài)輸入。學習更好的特征是多模態(tài)學習中的核心內容之一,已有工作[6]表明通過深度學習提取到的特征往往能夠取得較好的效果。J?natas等[7]使用基于幀的時序卷積(convolution-through-time)深度模型學習預告片中圖像和音頻信息并融合網絡結果,以執(zhí)行多標簽類型分類,準確識別出多種電影類型。該方法基于視頻幀的圖像和音頻數(shù)據均具有時序結構,然而有些情況下需要考慮異構的多模態(tài)數(shù)據。例如Oramas等[8]通過深度學習架構提取音軌、文本評論以及封面圖片特征,進行音樂流派分類,實驗結果表明,組合不同模態(tài)特征分類性能優(yōu)于單模態(tài)特征。Bae等[9]在面對花卉數(shù)據分類任務時,提出改進的多模態(tài)卷積(m-CNN),利用多種CNN分別學習圖像信息和文本信息并集成表示有效識別花卉的類別,證明了語言描述信息可以作為圖像特征的有效補充。對學習到不同模態(tài)特征,如何進一步利用它們之間的關聯(lián)信息,發(fā)揮其互補特性則需要合適的模態(tài)融合方式。
進行不同模態(tài)特征的融合同時也是多模態(tài)任務的關鍵內容。模態(tài)表征融合階段可以分為早期特征級別和后期決策級別融合兩個階段。深度學習中較為常見的是提取模型中層輸出作為特征進行特征級融合,基本融合方法主要有拼接[10-11]、矩陣加法[12-13]、哈達瑪積[14]等方法。
迄今為止在多模態(tài)情感分析領域仍然存在諸多難點。首先不同模態(tài)數(shù)據對同一信息的表達形式不同,數(shù)據的結構和屬性各異使得機器可能無法識別具有相關含義的表征。其次,不同模態(tài)數(shù)據之間的互補特質難以充分利用。數(shù)據的底層特征往往具有不同的維度和分布,模態(tài)間的特征融合無法有效結合數(shù)據的關聯(lián)信息。此外,即使網絡上存在大量的多模態(tài)數(shù)據,關于多模態(tài)情感分類的公開數(shù)據集依然較少。針對目前多模態(tài)情感分類任務的難點,本文進行圖像和文本模態(tài)的自注意力深層語義特征提取,并構建了雙向注意力機制的多模態(tài)情感分類模型,引入不同模態(tài)特征相互交互,加強關鍵性特征判別,充分發(fā)揮模態(tài)間的互補信息。此外結合了特征融合和決策融合策略,進一步提升情感分類任務的表現(xiàn)。實驗結果基于兩個不同性質的真實社交媒體數(shù)據集,在不同實驗指標下驗證了所提方法的有效性和魯棒性。
隨著社交媒體呈現(xiàn)信息的多模態(tài)化,多模態(tài)情感分類吸引了研究人員的注意,許多研究工作開始嘗試在一種模態(tài)數(shù)據的基礎上引入其他模態(tài)數(shù)據進行情感識別。情感分類任務通常包括數(shù)據預處理、特征提取、特征學習和分類四個模塊。多模態(tài)的分類任務是在特征學習模塊中進行共享表征的學習,主要有聯(lián)合表示和協(xié)同表示兩種方式[15]。其通用框架如圖2所示。聯(lián)合表示方式是將不同模態(tài)特征映射到同一向量空間。例如Zadeh等[16]提出一種端到端融合模型,通過張量積的形式將不同模態(tài)特征映射于同一向量空間表示,在單模態(tài)、雙模態(tài)以及三模態(tài)上的情感分類均得到了較好的效果,證明了該方法可以有效地捕獲模態(tài)內和模態(tài)間相關關系。但是張量積的方式在面對較大維度特征時融合得到的特征維度將呈平方級甚至立方級增長。協(xié)同表示是將不同模態(tài)特征映射到各自向量子空間,映射后的表征之間存在相互聯(lián)系。He等[17]提出視覺文本雙流模型學習各自的潛在語義表示,合并預測結果得到較好的分類精度。然而這種合并未能充分挖掘圖像文本中的重要元素的相關性。本文通過雙向注意力機制學習在本模態(tài)空間下關于另一模態(tài)的表征,在不增加特征維度的情況下發(fā)揮模態(tài)之間的互補特征以加強情感分類性能。
圖2 多模態(tài)分類任務的通用框架
決策級別融合方法通過組合多個分類器的結果,生成最終決策。Cao等[18]利用后期融合策略將單模態(tài)情感預測結果通過線性插值的方法組合,增強了情感分析結果。然而僅僅通過決策的融合會導致特征層面上關聯(lián)性的忽視[19]。本文結合特征融合和決策融合方法,進一步提升了情感識別的準確率。
注意力機制(Attention)參考了人類視覺注意力的特點,對有效區(qū)域分配更多關注,獲取更多任務相關細節(jié),并抑制其他無關區(qū)域。在圖像視覺、文本處理等領域中,注意力對關鍵特征的作用主要體現(xiàn)在權重的分配上。
假設注意力層接受一個輸入Source,Source可以看成由鍵Key與值Value組成,給定一個任務相關的元素Query,通過計算Query與Key之間的相似性,歸一化得到Value關于Key的權重系數(shù),通過對Value加權求和得到最終注意力的數(shù)值。其計算公式如下:
自注意力機制是注意力機制的特殊情況,其中Key=Value=Query,即使得輸入的某一部分均與輸入自身每一部分進行注意力計算,學習內部關聯(lián),增強有效區(qū)域。
針對多模態(tài)情感分類提出的注意力混合模型,本章首先分別介紹文本和圖像模態(tài)的自注意力網絡模型,然后提出聚焦于通道級別圖像特征和單詞級別文本特征的雙向注意力模型。最后介紹分類器與計算最終情感結果的后期融合方法。多模態(tài)注意力混合模型總體結構如圖3所示。
在自然語言處理任務中,對一段文字的處理也可以看成對一段文字序列的處理。一串文字的輸入在時間上具有前后關聯(lián)的特質,模型接受新詞的輸入后產生新的狀態(tài),循環(huán)神經網絡(Recurrent Neural Network,RNN)通過前后狀態(tài)的傳輸,能夠很好地處理序列數(shù)據的問題。本文選擇RNN的變種LSTM網絡作為學習文本特征的模型。相較于普通RNN,LSTM具有長時記憶功能,適合更長的序列相關問題。由于情感分類任務常常與特定情感詞匯具有更強的相關度,增強相關詞匯在分類任務的作用,有助于提升最終結果[20]。因此,文本將LSTM的每一步輸出聯(lián)結為文本的表示特征,通過自注意力機制,使模型更關注于關鍵步,也就是關注關鍵詞匯的輸出,以此學習到情感色彩更富的文本表征。
令DEC=[B1,B2,…,Bn],表示由n條文本記錄構成的數(shù)據集。為了學習文本記錄的詞向量特征,本文使用Google發(fā)布的預訓練BERT模型[21]對文本數(shù)據進行詞嵌入,得到文本Bi的詞向量,表示為:,其中l(wèi)是固定的一段文本詞嵌入的向量數(shù)量。
為了進一步學習文本的上下文特征,詞向量作為LSTM的輸入,并輸出每一步的結果。假定t時刻LSMT的輸入為,上一時刻輸出為ht-1,狀態(tài)為Ct-1。計算過程如下:
此時的輸出為:
其中,Wf、Wi、Wc、Wo是待訓練的參數(shù)。最終得到的文本Bi上下文表示為。顯然,Si∈Rl×d,也是LSTM在t時刻的輸出。σ是sigmoid激活函數(shù),tanh是雙曲正切激活函數(shù)。在t時刻下LSTM模型內部計算過程如圖4所示。
圖3 多模態(tài)雙向注意力融合模型總體結構
LSTM模型可以輸出關于上下文表示的文本特征Si,但是并未體現(xiàn)每個輸入的詞對結果的不同的影響。為了使模型更聚焦于判別性特征,本文使用自注意力機制(Self-Attention),將文本表示Si設為注意力機制的Key,Value,Query,即特征中的每個狀態(tài)輸出通過線性變換與該特征的所有輸出在式(1)的基礎上進行注意力計算,學習句子內部依賴關系。其中相似性計算過程如下:
圖4 t時刻下LSTM模型計算流程
其中bs1是偏置。此處借鑒了Luong等[22]設計的注意力對齊函數(shù)向量點積?的思想,使得Si中每個向量也就是每個狀態(tài)的輸出均與Si中所有向量即所有狀態(tài)輸出進行特征匹配。通過Dense層線性變換以及softmax函數(shù)的歸一化,得到Si本身在不同狀態(tài)下也就是的注意力權重αi,最終的加權求和即是自注意力下LSTM模型的輸出結果。計算公式如下:
其中,d是每個狀態(tài)輸出的長度,輸出的結果∈Rl。
與文本模態(tài)數(shù)據具有時序性不同,圖像特征在空間上的分布更加離散。在類激活映射中,有效特征的分布相對位置并不一定具有規(guī)律性,甚至不一定在相同子空間中。在顏色、紋理、形狀等不同的特征子空間中皆可能存在有效的局部特征。關鍵性特征的選擇對情感分類的結果具有較大影響。利用卷積核和窗口滑動,卷積神經網絡可以實現(xiàn)權值參數(shù)共享,能夠有效捕捉圖像的局部特性,經常被用于圖像處理任務[23]。VGG16是深度卷積神經網絡的經典模型,它的預訓練模型已經被廣泛應用在圖像處理的表征學習過程中[10,24],并取得良好的效果。在本文中,利用VGG16模型的泛化能力結合遷移學習的微調方法,凍結模型的原有卷積層參數(shù)并外接一層卷積層,用于實現(xiàn)圖像特征提取。原有卷積層在Imagenet數(shù)據集上經過充足的訓練可以有效識別圖像主體,而外接卷積層的微調使其提取的特征更符合文本任務目標。再利用自注意力機制,使模型更多聚焦于關鍵通道上的情感特征,提升模型對圖像情感類別的判斷能力。
數(shù)據集中的圖像數(shù)據可以記為IMG=[I1,I2,…,In],其中n表示圖像的數(shù)量。VGG16模型的結構由5個卷積塊和3個全連接層組成共有16層[10]。本文提取圖像數(shù)據Ii在VGG16的第5個卷積模塊的結果,輸入外接卷積層,如圖5所示。在不同通道中學習情感的語義特征。通過增加卷積層在預訓練VGG16模型的基礎上學習情感相關特征,Vi∈Rc×r,其中c是圖像特征的通道數(shù),r是子特征長度。
圖5 調整后的VGG16模型
每個通道使用各自的卷積核學習特定視角下的子特征,本文使用自注意力機制,將Key=Value=Query均設置為圖像表示Vi,將每個通道的子特征與所有通道子特征在式(1)的基礎上進行注意力計算,增大情感相關通道特征的辨別性,得到關于Vi通道間的注意力權重βi。與式(8)相同,利用點積方法計算當前通道與其他通道的相似性。
最終對通道特征加權增加判別性子特征對結果的作用。計算公式如下:
其中,r是每個通道子特征長度,輸出特征。
自注意力機制通過特征自身的注意力權重分配,可以使得模型聚焦于判別性特征,然而這種聚焦會使得模型更關注于特定事物而忽視了總體的情感表達。此外針對同一事物,其不同模態(tài)特征表示之間一般存在某種內在關聯(lián)。顯然,有效利用這種關聯(lián)可以提高多模態(tài)數(shù)據分類的效果。在多模態(tài)情感分類方面,目前已有了一些工作[25-26],但這些工作幾乎未涉及到挖掘模態(tài)之間的互補性、相似性等關聯(lián)特征。通常來說,圖像能夠提供更豐富的視覺元素而缺乏對元素主觀聯(lián)系上的體現(xiàn),而文本能夠描述事物之間邏輯聯(lián)系,但是無法考慮事物的細節(jié)。
基于此,本文提出針對跨模態(tài)情感分類的雙向注意力網絡,利用一種模態(tài)的高層語義特征,參與另一種模態(tài)下注意力特征的生成,此外由于高層語義特征被賦予了較多的情感特性,因此另一種模態(tài)的注意力權重將增強情感特征在分類中的作用。與上述相同,本文將LSTM模型學習到的特征作為文本特征,調整后的VGG16學習到的特征作為圖像特征。
在文本的圖像注意力特征計算過程中,由于圖像高層語義特征在實驗中與文本特征首先進行注意力計算,將其初始化為,Qi∈Rk,Qi是一組一維張量,k是Qi的長度。此處,注意力機制中Query、Value均為Si,Key為Qi。由于圖像高層語義特征與文本特征Si維數(shù)不同,首先需要復制d次Qi,組成新的矩陣,然后跟文本表示Si在每個狀態(tài)輸出的級別上拼接,為文本信息擴增圖像內容。借助線性變換計算每個狀態(tài)LSTM輸出關于圖像高層語義的注意力權重,通過softmax函數(shù)進行歸一化。計算過程如下:
其中:
其中,Dense層激活函數(shù)為tanh函數(shù),是偏置。{Si,dQi}表示Si與復制d次Qi拼接后的張量。
據產品負責人介紹,該平臺包含設備管理、項目管理、分析統(tǒng)計、健康管理、配件銷售、服務管理、還款管理等多個功能模塊,適用于各類工程機械設備。該平臺突破性地解決了多個工程機械行業(yè)管理痛點的同時幫助中聯(lián)重科解決了“最后一公里”管理難題,并憑借其技術創(chuàng)新和模式創(chuàng)新跑在了行業(yè)前列,成為我國裝備制造業(yè)有效集合大數(shù)據、物聯(lián)網等前沿技術進行智能管理的第一梯隊成員。
此時文本關于圖像注意力特征的加權結果為:
其中:
其中,Dense層激活函數(shù)為tanh函數(shù),是偏置,{Vi,cUi}表示Vi與復制c次Ui拼接后的張量。此時圖像關于文本注意力特征的加權結果為:
其中,WQ、bQ分別是文本高層語義線性變換的參數(shù)與偏置,語義特征Qi∈Rk,這里σ是sigmoid函數(shù)作為線性變換激活函數(shù)。最終得到了文本增強的圖像特征Qi,和圖像增強的文本特征Ui。雙向注意力網絡與單向(單模態(tài))自注意力網絡對比如圖6所示。
圖6 雙向注意力模型與單向自注意力模型的結構
本文為圖文雙向注意力特征{Qi,Ui},這里的{Qi,Ui}表示圖像與文本高層特征拼接后的共享表征,以及單模態(tài)圖像自注意力特征和文本自注意力特征搭建了相同的分類器結構,由兩個隱藏層與z個節(jié)點的輸出層構成的多層感知器(MLP),z是類別數(shù)。輸入是對應模態(tài)下得到的注意力特征Fi。分類過程如下:
兩個隱藏層均使用線性整流relu激活函數(shù),W1和W2分別是兩個隱藏層的參數(shù),輸出結果由softmax作為激活函數(shù)的輸出層得到模型的預測結果Yi。
不同模態(tài)以及跨模態(tài)決策過程是相對獨立的,因此本文通過后期融合,為三個決策結果賦予不同的決策分值,形成最終情感決策D。
其中,ω、μ是衡量決策重要程度的決策分值,分別是文本自注意力模型、圖像自注意力模型、圖文雙向注意力模型(BAM)的預測結果。假定算法達到指定迭代次數(shù)停止訓練,多模態(tài)注意力混合模型計算過程如算法1所示。
算法1多模態(tài)注意力混合模型情感分類方法
輸入:訓練集(B,I,Y),其中Y是情感傾向標簽、文本自注意力模型預測結果YT、圖像自注意力模型預測結果YV。
輸出:圖文雙向注意力神經網絡權重WM和偏置bM。以及圖文神經網絡各自的決策分值ω、μ。
①隨機初始化所有網絡權重和偏置。
②定義圖像高層語義特征向量Q并進行0初始化。
③以詞嵌入特征B作為文本部分輸入,經過LSTM模塊學習文本特征S。
④以VGG16模型提取圖像數(shù)據I作為圖像部分輸入,經過卷積層模塊學習圖像表示V。
⑤將文本特征S與圖像高層語義特征Q進行注意力計算(如式(11)),得到加權后的特征。
⑥經由全連接層進一步更新文本高層語義特征U(如式(14))。
⑦將圖像特征V與文本高層語義特征U進行注意力計算(如式(15)),得到加權后的特征。
⑧經由全連接層,更新圖像高層語義特征向量Q(如式(18))。
⑨拼接融合Q、U,共享表征輸入分類器,得到分類輸出Y?M。
⑩根據輸出Y?M與標簽Y計算分類結果交叉熵損失值。
?如果未達停止條件,則使用梯度更新算法學習神經網絡權重WM和偏置bM,并轉③,否則轉?。
?根據文本與圖像分類模型預測結果YT、YV以及多模態(tài)模型預測結果Y?M,使用網格搜索尋找最優(yōu)的決策分值ω、μ(見如式(20))。
為了證明所提出方法的有效性,本文在單模態(tài)分析、多模態(tài)融合方法以及不平衡類別的數(shù)據集等方面,做了一系列實驗。本章詳細說明了實驗的相關設置,介紹了針對多模態(tài)情感分類使用的數(shù)據集,并展示了所提出方法在數(shù)據集上的實驗結果。此外通過可視化的方式進一步分析模態(tài)之間的關聯(lián)性。
本文中的文本最大長度設為200,經過隱含層節(jié)點數(shù)為768的預訓練BERT模型進行詞嵌入后得到的文本特征為200×768。LSTM的隱含層節(jié)點數(shù)設置為512,并且保留每個狀態(tài)的輸出作為文本特征。圖像在輸入前全部縮放為224×224的尺寸,并保留三通道。黑白單通道圖片則將該通道復制三次再組合成三通道特征。外接卷積層使用2×2卷積核,個數(shù)為512,卷積步長為1,并使用零填充補足長度使與輸入相同。輸出的圖像特征為14×14×512雙向注意力計算中,由于具體實現(xiàn)中圖像語義特征晚于文本注意力計算,因此本文初始化了值為0的一個初始向量作為圖像高層信息輸入文本關于圖像的注意力計算。
分類器中前后兩個隱藏層的節(jié)點數(shù)分別是1 024和512。Flickr-M數(shù)據集下模型輸出層有兩個節(jié)點,Memotion數(shù)據集下的實驗設置輸出層有三個節(jié)點。本文針對二類分類問題選擇二元交叉熵(binary crossentropy),三類分類問題選擇分類交叉熵(categorical cross-entropy)作為損失函數(shù),并使用Adam優(yōu)化器進行訓練解目標函數(shù),初始學習率為0.000 1。后期融合策略的三個決策分值參數(shù)ω、μ,是在0到1區(qū)間以0.1為步長使用網格搜索技術進行確定。本文中的模型均在NVIDIA RTX 2080TI顯卡上訓練。
(1)Flickr-M數(shù)據集。Flickr是雅虎旗下的一個圖片托管與分享網站,在Flickr上可以通過檢索文本尋找相關的圖片。Borth等[27]介紹了一個包含了1 200個名詞對(ANPs)以及其對應的情感值的視覺概念檢測庫。,本文通過Flickr提供的API接口在檢索所用的1 200個名詞對,每個名詞對檢索60張圖片。同時獲取每張圖片對應的介紹,并去除單詞數(shù)小于5或者大于100的文本和類似鏈接的無關文本,保留下與圖片相關的文本介紹信息。本文將情感值為正數(shù)的檢索詞檢索到的數(shù)據歸屬于積極類別,具有負數(shù)情感值的檢索詞檢索到的數(shù)據歸屬于消極類別,最終保留了10 000張積極情感和10 000張消極情感的圖片及其介紹。
(2)Memotion數(shù)據集。Memotion數(shù)據集[28]是SemEval-2020競賽中的一個公開數(shù)據集。Memes樣本數(shù)據是近幾年流行的表情包文化,包含圖像與對應文本。本數(shù)據集是主辦方從社交平臺中收集,包含6 992條圖像-文本數(shù)據,并具有多方面的標注標簽:幽默檢測、嘲諷檢測等。本文使用“總體情感”標簽進行情感分類實驗。由于部分標記數(shù)量過少,所以本文將“積極”與“非常積極”標簽統(tǒng)稱為積極,“消極”與“非常消極”統(tǒng)稱為消極,“中立”標簽保持不變。最終得到了4 160條積極情感樣本,631條消極情感樣本以及2 201條中性情感樣本。
數(shù)據集Flickr-M有兩類情感類別,分別為消極類和積極類,這兩類的樣本數(shù)量相同,屬于平衡分類問題;數(shù)據集Memotion有三類情感類別,這三類的樣本數(shù)分別為4 160、631和2 201,屬于不平衡分類問題。也就是說,在實驗中本文既使用了類別平衡的數(shù)據集,也使用了類別不平衡的數(shù)據集,以更好地驗證所提出方法對不平衡分類問題的魯棒性。表1展示了兩個數(shù)據集的分布情況。
表1 實驗所用數(shù)據集的分布情況
本文中針對積極(P)與消極(N)情感二類分類實驗結果的評價標準為準確率(Accuracy)、精確率(Precision)、召回率Recall、F1值(F1-score)[13]。其計算公式如下:
其中,T和F分別表示預測值等于標簽值和預測值不等于標簽值的情況。例如TP表示預測值和標簽值均為積極的情況數(shù)量,F(xiàn)P表示預測值為積極而標簽值為消極的情況數(shù)量。
針對積極(P)、消極(N)還有中性(M)情感三類分類,由于Memotion樣本類別不平衡,本文使用權重平均(weight-averaging)的思想計算精確率(Precision)、召回率Recall和F1值(F1-score)三個指標。準確率(Accuracy)指標計算方式與上述相似。具體計算公式如下:
其中,精確率(Precision)、召回率Recall和F1值(F1-score)的計算結合了One-vs-all策略,假設將積極類別(P)視為正類,即i=P,則消極(N)和中性(M)類別的結果均被視為負類。ωP為積極類別樣本占比。此時TPP表示為預測值和標簽值均為積極情感的情況數(shù)量,F(xiàn)PP表示預測值為積極情況數(shù)量,而標簽值為非積極情況的數(shù)量。F1P表示積極類別(P)視為正類時的F1值。
本文結合單模態(tài)與多模態(tài),注意力機制,不同特點的數(shù)據集和融合方法等多方面對所提出方法進行比較,還實現(xiàn)了最新的算法進行對比,以驗證方法的有效性。這里將LSTM模型輸出特征視為文本特征,VGG16模型外接卷積層的輸出特征視為圖像特征,設置了以下對比實驗組:
(1)T:將文本特征進行情感分類。
(2)V:將圖像特征進行情感分類。
(3)TV-Concat:將圖像特征與文本特征拼接進行情感分類。
(4)T-SA:文本特征結合自注意力機制產生的判別性特征進行情感分類。
(5)V-SA:圖像特征結合自注意力機制產生的判別性特征進行情感分類。
(6)DMAF:對兩種單模態(tài)注意力加權特征拼接,結合后期融合進行情感分類[23]。
(7)MBAH:該模型是本文提出的總模型。
表2和表3列出所提出模型與對比方法的實驗結果。
表2 在數(shù)據集Flickr-M上的結果%
表3 在數(shù)據集Memotion上的結果%
從表2的結果,可以看出二類情感分類任務中,文本數(shù)據的分類效果相比圖像數(shù)據更好,這是由于在結構上文本數(shù)據比圖像數(shù)據更容易挖掘情感特征。并且,多模態(tài)融合方法結合兩種模態(tài)關聯(lián)信息使得情感分類結果表現(xiàn)優(yōu)于單模態(tài)下的分類結果。注意力機制的引入也在一定程度上改善情感分類結果。通過表中標記的最優(yōu)數(shù)據可以看出,本文所提出的MBAH模型總體上優(yōu)于其他方法,相較單模態(tài)文本T和圖像V模型的情感分類準確率分別提升了4.4個百分點和18.5個百分點。與最近的方法DMAF相比,準確率提升了1.2個百分點。這說明了本文的MBAH模型可以更好地進行情感分類任務。
從表3可以看出,多模態(tài)拼接融合方法對單模態(tài)下情感分類結果并沒有顯著提升,這是由于在更多類別下不同模態(tài)帶有的情感信息隨之更為復雜,對互補特征,關聯(lián)特征的學習難度更大。注意力機制的引入在該數(shù)據中未能改善單模態(tài)分類結果。這是由于類別不平衡,使得情感特征的學習不充分,而本文所提出的MBAH模型總體在多數(shù)指標中均具有優(yōu)勢,證明了MBAH方法的魯棒性。綜上,結合二類與三類分類的性能對比,MBAH對單模態(tài)情感分類模型提升較為明顯,并且超過了最近的DMAF方法,說明了MBAH模型在情感分類任務中的有效性。
為了進一步分析雙向注意力機制對圖文數(shù)據融合分類的影響,研究圖像和文本模態(tài)在分類過程的相關屬性,本文選取Flickr-M數(shù)據集中積極和消極情感圖文數(shù)據各兩條,分別對其在圖像模態(tài)模型、文本模態(tài)模型,以及圖文雙向注意力模型上的類激活權重分布進行可視化對比。
其中對視覺圖像的可視化,根據grad-CAM方法[29],利用模型的最后一層卷積結果反向傳播求權重特征圖,并與原圖加權,得到視覺類激活熱力圖。具體表示為該區(qū)域顏色越接近紅色,則該區(qū)域類激活權重越高。而對文本的可視化,本文通過單詞的掩膜(mask),得到缺失該單詞的一段文本,利用模型對該文本在當前類的輸出值大小,判斷該詞的對分類結果的重要程度。具體表示為,重要程度越大,單詞背景紅色越深??梢暬Y果如圖7所示。
圖7 圖文雙向注意力模型與單模態(tài)模型類激活圖對比
可以觀察出,圖像注意力中對文本信息的引入使得圖像模型的關注能力相對較強,也能更好地識別出文本所描述的事物。在文本注意力模塊對圖像信息的引入,使得模型摒棄了部分冗余無關信息,對圖像主體的語義識別更為精確。據此可以證明圖像與文本特征之間存在互補關系,可以有效地提升情感分類任務的表現(xiàn)。
本文提出了多模態(tài)雙向注意力融合模型(MBAH),利用雙向注意力機制學習圖像與文本表征的關聯(lián)信息,發(fā)揮多模態(tài)數(shù)據的互補特性,并混合早期融合和后期融合策略進一步提升了情感分類任務的結果。實驗結果表明,本文所提出模型在類別平衡與類別不平衡數(shù)據集下均得到了更好的結果,證明了該模型的有效性與魯棒性。在未來的工作中,本團隊將計劃更多地發(fā)掘社交網絡上的其他可用信息,例如結合地理位置、社交關系等信息開展社交媒體數(shù)據的情感分析研究。