蔡國永 呂光瑞 徐 智
(廣西可信軟件重點實驗室(桂林電子科技大學) 廣西桂林 541004)
隨著移動互聯(lián)網(wǎng)和智能終端的快速發(fā)展,社交媒體上的用戶生成內容變得越來越多樣化,社交媒體數(shù)據(jù)已不再僅限于單一的文本形式,例如越來越多的社交用戶傾向于使用圖像和短文本這種多模態(tài)內容的形式來表達他們的觀點和在社交媒體上相互交流.這些大量社交用戶分享的多模態(tài)數(shù)據(jù)為人們提供了探索眾多話題的情感和觀點的寶庫,因此多模態(tài)情感分析已經成為一個重要的研究熱點[1-9],但是大規(guī)模多模態(tài)社交媒體數(shù)據(jù)的情感分析還是一個充滿挑戰(zhàn)的任務.
早期的情感研究較多關注單一的文本或圖像,且采用傳統(tǒng)的機器學習分類算法.近年來,鑒于深度學習技術的優(yōu)異表現(xiàn),越來越多的研究人員傾向于使用深度神經網(wǎng)絡來學習文本的分布式和穩(wěn)健的特征表示用于情感分類[10-13].與此同時,卷積神經網(wǎng)絡(convolutional neural network, CNN)能夠自動地從大規(guī)模圖像數(shù)據(jù)中學習穩(wěn)健的特征且展示了優(yōu)異的性能,一些研究者開始探索基于CNN的圖像情感分析[14-16].最近,在多模態(tài)情感分析的研究中[1-9],利用深度神經網(wǎng)絡的方法在性能上也更優(yōu)異.多模態(tài)情感分析是融合多種模態(tài)的信息進行統(tǒng)一的分類預測任務,其關鍵的問題是多模態(tài)樣本特征的融合.由于不同模態(tài)的異質性,模態(tài)之間特征的融合是較困難的.盡管基于深度網(wǎng)絡相關的模型已經取得了不錯的進展,但是基于深度網(wǎng)絡的融合模型仍需要進一步深入研究.
為了克服已有的圖像-文本的多媒體情感分析研究中存在的異構模態(tài)的特征融合方式相對簡單以及單一圖像處理上僅從圖像自身提取特征等不足,本文的主要貢獻有4個方面:
1) 在圖像的處理上利用遷移學習策略和圖像中層語義特征相結合的方法來構建具有一定語義的視覺情感特征表示.
2) 結合深度典型相關分析(deep canonical cor-relation analysis, DCCA)[17]和深度線性判別分析(deep linear discriminant analysis, DeepLDA)[18]的思想提出多模態(tài)深度多重判別性相關分析的聯(lián)合優(yōu)化目標,通過優(yōu)化生成最大相關的判別性視覺特征和判別性語義特征以構建圖像和文本在特征層次上的語義相關,且使特征具有判別性的能力,從而提升語義配準.
3) 提出基于多模態(tài)協(xié)同注意力網(wǎng)絡的融合方法,能進一步序列化地交互圖像的視覺特征和文本的語義特征,從而更好地匹配融合多模態(tài)特征.
4) 在多個數(shù)據(jù)集上的對比實驗表明,本文提出的層次化深度關聯(lián)融合的網(wǎng)絡模型在情感分類任務中能取得更好的分類效果.
多模態(tài)情感分析的研究尚且處于初期階段,大致可以分為2類.較早的研究以特征選擇模型為主,最近開始基于深度神經網(wǎng)絡模型展開研究.
Wang等人[1]利用統(tǒng)一的跨媒體詞袋模型來表示文本特征和圖像特征,且利用機器學習的方法來預測融合后的情感,結果表明跨模態(tài)情感分類結果要略優(yōu)于單模態(tài)的情感分類結果.Cao等人[2]融合來自于形容詞名詞對(adjective noun pairs, ANPs)[19]的圖像中層視覺特征的預測結果和由情感詞、情感標簽和句子結構規(guī)則組成的文本特征的預測結果,其中圖像和文本的融合權重是通過參數(shù)來控制,最后用于微博的公共情感分析.Poria等人[3]通過使用特征級的和決策級的融合方法合并來自于多模態(tài)的情感信息.Katsurai等人[4]首先構筑視覺特征、文本特征和情感特征,然后利用映射矩陣映射視覺、文本、情感這3個模態(tài)的數(shù)據(jù)到一個共同的潛在嵌入空間中,認為潛在空間中的映射特征是來自于不同模態(tài)的互補信息從而被用于訓練情感分類器.
最近深度學習方法應用于多模態(tài)情感預測也備受關注.如Cai等人[5]利用2個單獨的CNN結構分別學習文本特征表示和圖像特征表示,將其合并后輸入另外的CNN結構以進行多媒體的情感分析.Yu等人[6]也利用2個CNN結構分別提取文本和圖像的特征表示,使用邏輯回歸對文本的和圖像的特征表示進行情感預測,最后使用平均策略和加權的方法融合概率結果.Baecchi等人[7]提出基于連續(xù)詞袋模型和降噪自動編碼的多模態(tài)特征的學習模型以進行Twitter數(shù)據(jù)情感分析,當然該模型也可應用到其他的社交媒體數(shù)據(jù)上.You等人[8]提出跨模態(tài)一致回歸的方法用于結合視覺和文本的情感分析,該方法利用深度視覺的和文本的特征構建回歸模型.而Xu等人[9]利用卷積網(wǎng)絡的結構來提取圖像和文本的特征表示,然后利用殘差的模型來合并圖像和文本的多模態(tài)特征用于情感分析.
盡管這些模型都是有效的,但是大多都獨立地使用視覺和文本的信息,且在融合過程中往往忽略了圖像和文本之間的內在關聯(lián).通常,組合不同模態(tài)數(shù)據(jù)的多模態(tài)融合方法可以分為早融合、后融合、混合融合[20].其中,后融合涉及為每種模態(tài)數(shù)據(jù)構建相應的分類器,然后結合這些決策進行預測;而早融合需要將不同模態(tài)的特征融合到單個分類器中.本文的研究仍屬于特征層的融合,但是不同于已有的研究方法,本文工作的關注點有2個方面:1)同時處理圖像和與之共現(xiàn)的文本信息;2)在多模態(tài)深度網(wǎng)絡的結構中,利用層次化深度關聯(lián)融合的方法來探究圖像和文本之間的語義關聯(lián).首先,本文整合DCCA[17]和DeepLDA[18]到一個統(tǒng)一的聯(lián)合多模態(tài)優(yōu)化目標中,以此構建圖像和與之共現(xiàn)的文本在特征層次上的語義關聯(lián),且使各自生成的特征具有較好的判別性.此外,最近注意力模塊已經成為應用于各種任務的現(xiàn)代神經系統(tǒng)的組成部分,比如機器翻譯[21]、圖像問答任務[22]和圖像標題生成[23]等,然而很少的研究工作已經利用注意力機制進行融合,本文提出基于協(xié)同注意力(co-attention)機制的多模態(tài)融合策略,用于訓練情感分類器.
本節(jié)介紹提出的用于多模態(tài)情感分析任務的層次化深度關聯(lián)融合的網(wǎng)絡模型,整體結構如圖1所示,總共由5個部分構成:①視覺模態(tài)特征提取網(wǎng)絡;②文本模態(tài)特征提取網(wǎng)絡;③多模態(tài)深度多重判別性相關分析;④co-attention網(wǎng)絡的多模態(tài)注意力融合模型;⑤分類網(wǎng)絡.
Fig. 1 Framework of hierarchical deep correlative fusion network for multi-modal sentiment classification圖1 基于層次化深度關聯(lián)融合網(wǎng)絡的社交媒體多模態(tài)情感分類框架圖
基于層次化深度關聯(lián)融合網(wǎng)絡的多模態(tài)情感分類模型首先利用圖1中①②的多模態(tài)特征提取網(wǎng)絡逐層提取視覺模態(tài)和文本模態(tài)的特征,得到相對應的頂層特征表示,然后通過圖1中③進一步生成最大相關的判別性特征表示,最后使用圖1中④的co-attention網(wǎng)絡來交互合并這2種特征表示并傳遞到圖1中⑤的全連接神經網(wǎng)絡(fully connected neural network, FCNN)中進一步深層融合后再用于訓練情感分類器.下面闡述模型的細節(jié).
盡管已有學者在情感分析相關研究上探測過圖像視覺特征[14-16,24]或者圖像中層語義特征[19,25-26],但是僅從單一視覺特征或中層語義特征的角度來構筑視覺情感特征,并不能構筑完整的且易于理解的圖像視覺特征.本文同時從圖像特征提取和圖像中層語義特征提取的角度來學習高層次的視覺情感表示,如圖2中①所示.
圖像的特征提取是基于VGG[27]展開的,其由5個卷積塊和3個全連接層組成,且已經在1 000個目標分類的ImageNet數(shù)據(jù)集上表現(xiàn)出了極好的性能.本文利用遷移學習的策略來克服ImageNet數(shù)據(jù)集和圖像情感數(shù)據(jù)集的不同差異.首先,VGG16模型在ImageNet的數(shù)據(jù)集上訓練好,然后遷移已經學習好的參數(shù)到情感分析的目標中.在提出的模型中,修改最后用于目標分類的全連接層為特征映射層,然后提取該全連接層的特征輸出,如圖2中①(a-1)所示.
為了提取更全面的圖像中層語義特征,首先劃分每一個圖像對應的中層語義特征(ANP)為形容詞和名詞,然后通過CNN來分別提取圖像的形容詞描述性特征和名詞客觀性特征.針對形容詞和名詞的特征提取網(wǎng)絡,CNN采用的是二維卷積,每一個形容詞或名詞的樣本像單通道圖像一樣被調整為50×50的大小,利用2個平行的子網(wǎng)絡,即圖2中①(a-2)中A-net和N-net,其分別由同樣的卷積層和全連接層組成.
Fig. 2 Schematic sketch of deep multi-modal multi-discriminative correlation analysis to learn the visual and textual content圖2 視覺和文本的多模態(tài)深度多重判別性相關分析圖解
總之,在視覺模態(tài)特征提取上,本文提出聯(lián)合學習圖像ANP的形容詞和名詞以及圖像特征以構筑具有一定語義的視覺情感特征表示,以此緩解圖像視覺特征和文本語義特征之間的語義鴻溝.后文中將稱視覺模態(tài)特征提取網(wǎng)絡為f.
文本模態(tài)特征提取網(wǎng)絡是由詞向量輸入層、卷積層、雙向長短時記憶網(wǎng)絡(Bi-LSTM)層和全連接層組成,如圖2中②所示.
假設xi∈Rk是句子中第i個詞對應的k維詞向量,則一個長度為n的句子表示為
x1:n=x1⊕x2⊕…⊕xn,
(1)
其中,⊕表示連接操作,在句子矩陣x1:n上利用一個單層的CNN[28],它的卷積層包含高度分別為h1,h2,h3的3個濾波器F1∈Rh1×k,F(xiàn)2∈Rh2×k,F(xiàn)3∈Rh3×k.每個濾波器Fi在輸入的句子序列上進行滑動,當Fi應用到整個句子矩陣中每一個可能的hi窗口的詞上時,就會產生一個特征映射ci∈Rn-hi+1,其中某一項窗口的詞的特征映射ci,j為
ci,j=δ(Fi*x[j:j+hi-1]+bi),
(2)
這里*是卷積操作,j=1,2,…,n-hi+1,bi∈R是一個偏置項,δ(·)是一個非線性激活函數(shù).每一個濾波器Fi能夠生成M個這樣的特征映射,因此總共獲得了3M個特征映射.然后,在濾波器Fi的M個特征映射向量的每一個長度上應用最大池化操作,則結果輸出向量為oi∈RM,具體表示為
(3)
通過⊕連接每一個oi得到o=(o1⊕o2⊕o3)∈R3M.然后將o輸入Bi-LSTM網(wǎng)絡,從正向和反向的角度來使用已提取的特征從而更好地學習輸入的文本序列.最后,經過對文本的序列建模后,將Bi-LSTM的輸出傳遞給全連接的神經網(wǎng)絡以更好地融合時序特征以形成更容易被區(qū)分的高層特征表示.后文中稱文本模態(tài)特征提取網(wǎng)絡為g.
本文提出的多模態(tài)深度多重判別性相關分析是基于典型相關分析(canonical correlation analysis, CCA)和線性判別分析(linear discriminant analysis, LDA)展開的.兩者都來自經典的多元統(tǒng)計,都依賴于各自輸入特征分布的協(xié)方差結構.不同之處在于,CCA是一種適用于多模態(tài)數(shù)據(jù)的分析方法,但是它既沒有考慮標簽信息也不能對各自模態(tài)的內部信息進行分析;而LDA是一種利用標簽信息的且適用于單模態(tài)數(shù)據(jù)的分析方法,但是它不能直接地應用到多模態(tài)數(shù)據(jù)分析上,因此可將兩者結合起來,以充分發(fā)掘各自模型的優(yōu)勢,從而形成一個在多模態(tài)學習過程中既探究不同模態(tài)之間的最大相關性又兼顧各自模態(tài)最大判別性的多模態(tài)數(shù)據(jù)處理方法.
多模態(tài)的樣本數(shù)據(jù)往往來自于異構特征空間,不同模態(tài)數(shù)據(jù)的特征分布差異較大,此時如果將異構特征融合后再進行LDA,較難取得好的效果.例如,那些來自于社交網(wǎng)站的圖像和文本,如果直接將圖像和文本的特征融合后再用于LDA,這既沒有考慮圖像和文本的對應關聯(lián)也沒有考慮圖像和文本各自特征分布的差異.因此本文將在考慮不同模態(tài)之間相關性的同時,也盡量考慮不同模態(tài)之間的特征分布的差異,即在尋求視覺模態(tài)和文本模態(tài)最大相關性的同時,兼顧視覺模態(tài)和文本模態(tài)各自的線性判別性.多模態(tài)深度多重判別性相關分析方法包含2部分:相關性分析部分和判別性分析部分.
J(f(Xp),g(Xq))=C(f(Xp),g(Xq))+
[D(f(Xp))+D(g(Xq))],
(4)
其中,J(f(Xp),g(Xq))表示p,q模態(tài)間的多重判別性相關分析的目標函數(shù),C(f(Xp),g(Xq))表示兩者模態(tài)間的相關性分析項,D(f(Xp))和D(g(Xq))分別表示各自模態(tài)內部的判別性分析項.
本文以式(4)為基準來設計模型,即從不同模態(tài)之間來考慮多重判別性的相關分析,下面分別對模型中的各項進行闡述.
2.3.1 多模態(tài)深度相關性分析
Andrew等人[17]提出基于CCA的端到端的深度神經網(wǎng)絡的解釋方法DCCA,其優(yōu)化目標是推動多模態(tài)網(wǎng)絡學習高度關聯(lián)的特征表示.受到DCCA方法的啟發(fā),本文在自定義的多模態(tài)深度網(wǎng)絡結構f和g下來學習視覺模態(tài)和文本模態(tài)間的相關性,稱為Multi-DCCA.
在CCA中,首先通過預處理的操作,分別使f(Xp)和g(Xq)變成中心數(shù)據(jù)矩陣,表示為
(5)
(6)
其中,N表示數(shù)據(jù)的總數(shù),1∈RN×N表示元素全為1的矩陣.
視覺模態(tài)和文本模態(tài)的頂層特征表示的正則化自協(xié)方差矩陣,分別表示為
(7)
(8)
其中,rp,rq是正則化參數(shù),是為了確保協(xié)方差有積極的定義;I是單位矩陣.
除了領域自身的方差外,不同領域學習到的特征表示的交叉協(xié)方差矩陣為
(9)
(10)
2.3.2 多模態(tài)深度判別性分析
Dorfer等人[18]提出基于LDA的端到端的深度神經網(wǎng)絡的解釋方法DeepLDA,其優(yōu)化目標是推動網(wǎng)絡在頂層表示上學習線性可分的潛在空間.受到 DeepLDA的啟發(fā),本文在視覺模態(tài)特征提取網(wǎng)絡f的頂層和文本模態(tài)特征提取網(wǎng)絡g的頂層同時學習可以最大化C個不同的多模態(tài)數(shù)據(jù)類別之間區(qū)分的潛在表示,稱為Multi-DeepLDA.
對于LDA而言,Σpp可作為視覺模態(tài)的總體離散度矩陣,同理Σqq可作為文本模態(tài)的總體離散度矩陣.此外,由于圖像-文本對的標簽屬于C個不同的類c∈{k1,k2,…,kC},則LDA還需要C個不同類別中每個類別的視覺模態(tài)和文本模態(tài)的協(xié)方差矩陣Σpc,Σqc,以及視覺模態(tài)和文本模態(tài)中所有不同類協(xié)方差矩陣的均值Σpw,Σqw,即類內離散度矩陣,分別表示為
(11)
(12)
(13)
(14)
其中,r是正則化參數(shù),是為了確保協(xié)方差有積極的定義.
最后,通過總體離散度矩陣Σpp,Σqq和類內離散度矩陣Σpw,Σqw來定義視覺模態(tài)和文本模態(tài)的各自類間離散度矩陣Σpb,Σqb:
Σpb=Σpp-Σpw;Σqb=Σqq-Σqw,
(15)
則Multi-DeepLDA是通過找到視覺模態(tài)和文本模態(tài)內部的映射矩陣A1和A2,使得在相同標簽下各自模態(tài)內的類間離散度矩陣和類內離散度矩陣的比值最大化,具體表述為
(16)
(17)
其中,映射矩陣A1和A2分別轉化各自模態(tài)的數(shù)據(jù)到一個C-1維的空間中,在各自空間中的映射特征變得線性可區(qū)分.
總而言之,經濟全球化的發(fā)展既加深了世界各國之間的依賴程度與依存程度,又縮小了各國之間的比較優(yōu)勢,加劇了國家之間的競爭與貿易摩擦。中國對外開放的深入與現(xiàn)代化進程的發(fā)展使中國逐步進入到了貿易摩擦的高發(fā)期,而中美貿易摩擦是其中最嚴重的貿易問題。因此,我國應該積極地采取相應的措施,不斷加強自身的經濟建設,提高生產技術水平,調整企業(yè)的生產方式與出口策略,以減少中美貿易摩擦所帶來的負面影響,促進中美經濟互利共贏的發(fā)展。
(18)
2.3.3 相關分析與判別分析的融合
綜合2.3.1節(jié)和2.3.2節(jié)可看出,Multi-DCCA和Multi-DeepLDA都是基于相對應的特征值問題的特征結構優(yōu)化的.其中,Multi-DCCA的優(yōu)化是把最大化視覺模態(tài)特征提取網(wǎng)絡f和文本模態(tài)特征提取網(wǎng)絡g的隱層輸出的相關性作為目標來求解矩陣T的奇異值;而Multi-DeepLDA的優(yōu)化是在相同的多模態(tài)類別下最大化視覺的和文本的各自模態(tài)內類別的區(qū)分,其由相對應的廣義特征值問題的特征值大小進行量化.盡管兩者的優(yōu)化有差異,但是這2種方法有相同之處,即它們都反向傳播一個由特征值問題引起的誤差來調整深度神經網(wǎng)絡的參數(shù).
故多模態(tài)深度多重判別性相關分析是同時使用Multi-DCCA和Multi-DeepLDA的模型和優(yōu)化理論,即同時優(yōu)化2個不同模態(tài)之間隱層表示的相關性以及使各自模態(tài)學到表示具有判別性能力的聯(lián)合優(yōu)化目標的形式化表示為
(19)
其中,第1項是為了優(yōu)化視覺模態(tài)和文本模態(tài)之間的相關性,其中用L來泛化典型相關;而第2項和第3項分別是為了優(yōu)化視覺模態(tài)和文本模態(tài)的判別性.
多模態(tài)深度多重判別性的優(yōu)化目標式(19)是個端到端的優(yōu)化過程,首先需要計算相關性的優(yōu)化目標分別對f(Xp)和g(Xq)的梯度,以及各自判別性的優(yōu)化目標對f(Xp)和g(Xq)的梯度,然后沿著多模態(tài)網(wǎng)絡的2個分支并通過標準的反向傳播的方法計算針對θp和θq的梯度.
(20)
其中,式(20)中的第1項是在無監(jiān)督的情況下,致力于使2個不同模態(tài)之間具有最大相關性,即兩者的距離最?。欢?項是在相同標簽的有監(jiān)督情況下,致力于使2個模態(tài)能夠各自產生具有可區(qū)分性的特征表示.
那些來自于社交網(wǎng)站上的圖像-文本的共現(xiàn)數(shù)據(jù),在人類概念理解層面上兩者之間是存在語義相關性的,但是在特征層面上兩者之間并沒有關系,且屬于異構模態(tài)特征,存在較大的語義鴻溝.經過上述系列操作,將存在語義相關的成對的圖像-文本數(shù)據(jù)轉化成在具體特征形式上的最大相關,即在特征層次上將圖像數(shù)據(jù)和對應的文本數(shù)據(jù)建立起關聯(lián),從而使兩者之間差異更小,如式(20)所示,這一定程度上緩解了異構模態(tài)特征之間的鴻溝,且使各個模態(tài)具有優(yōu)異的判別能力.
受人類視覺注意力啟發(fā)的注意力模塊提供了一種機制來推斷局部特征對于整體特征的相對重要性.鑒于它能夠提供完整的可微性和可解釋性來發(fā)掘網(wǎng)絡關注的重點,目前已經在許多神經網(wǎng)絡的應用中作為默認的組成部分.注意力模塊可以是只關注整體特征中某一特定部分的硬性注意力機制,也可以是通過重要性的概率分布來分配給所有特征的軟性注意力機制.本文主要選擇軟性注意力機制來展開后續(xù)的研究.
hI=tanh(WvIfI(vI)⊙WvSfS(vS)),
(21)
α=softmax(WhIhI+bhI),
(22)
其中,WvI,WvS,WhI,bhI是參數(shù),使用⊙表示視覺特征表示和語義特征表示的結合,其中視覺特征fI(vI)∈Rd和語義特征fS(vS)∈Rd具有相同的特征維度d,通過對應交互視覺特征fI(vI)和語義特征fS(vS)從而形成視覺語義特征fIS(v),為了更加頻繁地深入交互特征元素,繼續(xù)學習fIS(v)使其特征元素全部關聯(lián)到d維特征空間中,從而形成具有特征之間內部關聯(lián)的新的視覺語義特征hI,因此可得對應于hI中特征的注意力概率α∈Rd,是一個d維向量.
基于每一個特征i的視覺注意力概率αi,新的判別性視覺特征表示通過視覺特征的權重和來構造,即:
(23)
Fig. 3 Schematic sketch of multi-modal attention fusion network for sentiment classification圖3 多模態(tài)注意力融合網(wǎng)絡的情感分類圖解
(24)
β=softmax(WhShS+bhS),
(25)
(26)
同理,式(24)~(26)中的參數(shù)設置與基于語義的視覺注意力的等式設置相同.
總之,基于語義的視覺注意力和基于視覺的語義注意力是一個交互影響的過程,通過交互來形成更好的有利于圖像和文本進行深層融合的特征表示.為了探索圖像和文本之間更深層次的內部關聯(lián),可以嘗試多次序列化地迭代交互視覺特征和語義特征,即形成嵌套的co-attention網(wǎng)絡.
(27)
其中,⊕是連接操作.在網(wǎng)絡學習的過程中,隱藏層可以自動地結合視覺的和文本的情感表示.
在獲得了融合特征vm之后,通過2層全連接神經網(wǎng)絡fm進一步捕獲更深層次的內部關聯(lián),將最后一個全連接層的輸出通過softmax層產生分類標簽的分布,如圖3中②所示,該過程簡要描述為
(28)
其中,Wfm∈RC×d和bfm∈RC是參數(shù),C是標簽的數(shù)量,在多模態(tài)注意力融合網(wǎng)絡模型的設置中,vI和vS的輸入到最后的分類是一個端到端的過程,該模型使用分類交叉熵計算基于反向傳播的訓練的批量損失.
(29)
本節(jié)首先介紹實驗中要用到的5個數(shù)據(jù)集,其中3個是根據(jù)ANP[19,25 ]從不同的社交網(wǎng)絡上爬取的,另外2個是來自于公開的數(shù)據(jù)集[4];然后介紹了本文實驗中的一些設置;最后通過實驗來評估本文提出方法的性能,大致包括2部分內容:1)從整體情感分類性能的角度來比較本文提出方法和其他對比方法的實驗結果的差異;2)從局部模型設置合理性的角度來確定整體模型中的2個關鍵部分對情感分類結果的影響.
在目前的多模態(tài)情感分析中,由于存在一些可以構建的具有英文描述的圖像-文本對的多模態(tài)情感數(shù)據(jù)集,而缺乏公開的具有中文描述的多模態(tài)情感數(shù)據(jù)集,故在本文后續(xù)的實驗中主要討論英文描述的圖文多媒體情感數(shù)據(jù)集.但是本文提出的模型同樣也適用于具有中文描述的多模態(tài)情感數(shù)據(jù)集,這是因為本文提出的模型主要關注的是構建視覺語義和文本語義之間的深層關聯(lián)交互,與文本語言的表現(xiàn)形式關系不大.語言形式對模型的影響將在今后進一步的工作中驗證.
由此,首先利用不同的情感關鍵詞查詢視覺中國官網(wǎng)的搜索引擎來構筑數(shù)據(jù)集.具體而言,利用視覺情感本體庫(VSO)中3 244個ANP[19]作為情感關鍵詞從視覺中國網(wǎng)站上的Getty專區(qū)爬取38 363條圖像-文本對,稱其為VCGI數(shù)據(jù)集;此外,從3 244個ANP[19]中隨機選出300個ANP作為情感關鍵詞,又從相同的網(wǎng)站上爬取37 158條圖像-文本對,稱其為VCGII數(shù)據(jù)集.
此外,多語言視覺情感本體庫MVSO是由來自于12種語言(例如中文、英文等)的15 600個概念構成,這些概念和圖像中表達的情感和情緒密切相關.類似于VSO數(shù)據(jù)集,這些概念也以ANP的形式定義.與VCG數(shù)據(jù)獲取的方式相同,利用MVSO[25]中提供的英文語言ANP,選取其中情感分數(shù)絕對值大于1的ANP作為關鍵詞從社交網(wǎng)站Flickr上爬取75 516條圖像與其相對應的標題、標簽、描述,稱其為MVSO-EN數(shù)據(jù)集.
文獻[4]中公開了帶有3個標注(積極、中性、消極)的Flickr圖像ID,幸運的是Flickr提供了API,其能通過提供的唯一ID獲得1張圖像的元數(shù)據(jù)(描述、上傳日期、標簽(tags)等),因此利用公開的所有ID從Flickr網(wǎng)站上爬取了6萬余張圖像以及相對應的標題、標簽、描述,稱其為Flickr數(shù)據(jù)集.
對于來自于Getty圖像的2個數(shù)據(jù)集,由于存在極少量中文描述的數(shù)據(jù)集,則刪除那些描述是中文的圖像-文本對,同時為了獲得更豐富的文本語義信息,則刪除那些英文描述少于20個字符的圖像-文本對;對于MVSO-EN數(shù)據(jù)集和Flickr數(shù)據(jù)集,選擇那些標簽和描述至少有1個存在的數(shù)據(jù),將篩選過后的數(shù)據(jù)集中存在的標簽、描述、標題組合成文本信息(這里并不是所有的數(shù)據(jù)都是三者都有,但至少有1個).由于文本中存在一些不是詞匯的內容,而是以鏈接、符號等明顯不含語義信息的內容形式展示,則利用wordnet刪除文本信息中不在wordnet中的詞匯以生成最終的文本.
VCG數(shù)據(jù)集和MVSO-EN數(shù)據(jù)集中圖像的情感極性標簽來自于ANP的情感分數(shù)值,而Flickr數(shù)據(jù)集中圖像的情感標簽來自于人工標注,將至少2個人標注為積極的圖像的極性標簽認為是積極,至少2個人標注為中性的圖像的極性標簽認為是中性,至少2個人標注為消極的圖像的極性標簽認為是消極.此外,處理后的Flickr數(shù)據(jù)集有3萬多張積極標簽的圖像,明顯高于消極的和中性的數(shù)量.為了人工構造一個較平衡的數(shù)據(jù)集,從積極的圖像中隨機取樣一些與消極或中性大致數(shù)量相等的數(shù)據(jù).因此得到了本文在實驗中使用的5個數(shù)據(jù)集,分別為VCGI,VCGII,MVSO-EN,F(xiàn)lickr-2,F(xiàn)lickr-3,其具體信息統(tǒng)計如表1所示:
Table 1 Statistic of The Datasets表1 實驗使用數(shù)據(jù)集統(tǒng)計
VCG數(shù)據(jù)來自于視覺中國網(wǎng)站的Getty專區(qū),其圖像的文本描述相對正式和簡潔.由于其文本長度普遍較短且長短不一,則選取所用訓練集中最長的文本長度為最大長度,不足最大長度的文本用零向量填充.MVSO-EN數(shù)據(jù)集和Flickr數(shù)據(jù)集均來自社交網(wǎng)站Flickr,不同的是獲取數(shù)據(jù)的方式以及圖像標簽(label)的方法不同.由于不是所有的圖像共現(xiàn)的文本信息中都含有標簽(tags)、描述和標題,則文本長度長短不一且差別較大,故截取最大文本長度為300,不足最大長度的文本以零向量填充.
每一個詞向量的維度設置為300,在訓練過程中微調詞向量來適應本文使用的情感數(shù)據(jù)集.文本模態(tài)特征提取網(wǎng)絡的卷積核在實驗中使用了3個不同的卷積核尺寸,分別為3,4,5,且針對每一個卷積核尺寸采用了20個濾波器.此外,針對所有的圖像都調整其為相同的大小224×224.在實驗中總共有2個端到端的優(yōu)化過程:1)多模態(tài)深度多重判別性相關分析的優(yōu)化,除了在最后關聯(lián)層上采用線性(linear)激活函數(shù),其他網(wǎng)絡層的輸出均連接到ReLU激活函數(shù);2)多模態(tài)注意力融合網(wǎng)絡的分類交叉熵的優(yōu)化,每一個全連接層(除最后一個)的輸出均連接到ReLU激活函數(shù),最后一個全連接層的輸出采用softmax進行分類.但是這2個優(yōu)化的過程均使用小批量的RMSprop方法[29]來優(yōu)化網(wǎng)絡.為了防止過擬合,實驗中整體模型上均采用Dropout策略,具體設定Dropout的值為0.5.
本文實驗主要評估提出的方法在二分類(積極、消極)目標和三分類(積極、消極、中性)目標上的效果.針對情感分類準確性評估和局部模型效用評估的所有實驗中,每個實驗均從各自對應數(shù)據(jù)集中隨機選取80%用于訓練,20%用于測試.
3.3.1 對比方法
為了證明提出方法的有效性,首先比較其與僅用圖像和僅用文本進行情感分析的方法,然后進一步比較其與其他相關的圖文融合情感分類方法的性能.對比方法說明有4種:
1) S -Visual. 利用文獻[30]中提出的基于遷移學習的視覺情感分析方法,不同的是本文實驗利用VGG-16net網(wǎng)絡模型.
2) S -Text. 利用本文提出的文本模態(tài)特征提取網(wǎng)絡,并通過softmax層對文本進行情感分類.
3) CNN-Multi. 由3個CNN組成.預訓練的文本CNN和圖像CNN分別抽取文本和圖像的特征表示,然后拼接2個特征向量輸入到另一個僅有4個全連接層的multi-CNN結構.文本CNN中的卷積層用的是二維卷積,每一個文本樣本的維度像單通道圖像一樣被調整為50×50的大小[5].
4) DNN-Multi. 方法同CNN-Multi,不同的是利用本文提出的視覺模態(tài)特征提取網(wǎng)絡和文本模態(tài)特征提取網(wǎng)絡分別抽取圖像和文本的特征表示,然后拼接2個特征向量輸入到另一個有4個全連接層的結構中.
3.3.2 結果與討論
表2展示了本文方法和對比方法在2個VCG數(shù)據(jù)集上的比較結果.如表2所示,本文提出的層次化深度關聯(lián)融合網(wǎng)絡的方法DDC+co-attention和DANDC+co-attention的分類效果明顯優(yōu)于單模態(tài)圖像S -Visual和單模態(tài)文本S -Text的分類效果,說明學習圖文多媒體內容的特征能更好地理解用戶的情感.此外,盡管CNN-Multi在多模態(tài)情感分析的任務上取得了一定的效果,然而其特征提取的網(wǎng)絡模型比較簡單,故修改CNN-Multi網(wǎng)絡結構的DNN-Multi方法取得了更優(yōu)異的效果,這一定程度上說明設計合適的網(wǎng)絡結構有益于學習好的特征表示以更好地服務于情感分類.
Table 2Accuracy of Different Methods on VCGI andVCGII Dataset
表2 在VCGI和VCGII數(shù)據(jù)集上不同方法的準確率%
Notes: The bold values are the accuracy obtained by our method.
然而CNN-Multi和DNN-Multi都是首先分別提取圖像和文本的特征然后再進行融合,不是共同地學習成對的圖像-文本數(shù)據(jù),而社交媒體上共現(xiàn)的圖像-文本數(shù)據(jù)往往是存在語義概念相關的,若分別提取圖像特征和文本特征后再進行特征融合,這會割裂圖像與文本之間對應的語義關聯(lián).本文提出的方法是同時共同地學習圖像-文本的共現(xiàn)數(shù)據(jù),且效果也優(yōu)于CNN-Multi和DNN-Multi,這表明在多模態(tài)情感分析任務上同時處理成對的圖像-文本的共現(xiàn)數(shù)據(jù)是必要的.如表2所示,提出的方法在VCGI和VCGII數(shù)據(jù)集上相較對比方法均展示出更好的性能,說明提出的方法在相同領域不同背景的數(shù)據(jù)集下具有領域適應能力.
表3分別展示了本文方法和對比方法在MVSO-EN數(shù)據(jù)集和Flickr數(shù)據(jù)集上的實驗結果.盡管MVSO-EN數(shù)據(jù)集和Flickr數(shù)據(jù)集都是來自于Flickr社交網(wǎng)站,但是它們數(shù)據(jù)集的構造方式略有不同,其中MVSO-EN數(shù)據(jù)集和VCG數(shù)據(jù)集的構造方式相同,則針對MVSO-EN數(shù)據(jù)集的實驗評估,采取了與表2中VCG數(shù)據(jù)集同樣的對比方式,且本文的方法DDC+co-attention和DANDC+co-attention都展示了優(yōu)異的性能.
Table 3Accuracy of Different Methods on MVSO-EN andFlickr Dataset
表3 在MVSO-EN和Flickr數(shù)據(jù)集上不同方法的準確率%
Notes: The bold values are the accuracy obtained by our method.
此外,由于Flickr數(shù)據(jù)集的標簽來自于人工標注,故沒有圖像的ANP信息,則在Flickr數(shù)據(jù)集上不能評估DANDC+co-attention的性能,表3中空白表示無實驗數(shù)據(jù).但是由于本文使用的Flickr數(shù)據(jù)集來自于人工標注,其標簽相比更準確,同時為了證明本文提出的DDC+co-attention同樣適用于三分類的目標,故針對Flickr數(shù)據(jù)集,在二分類目標和三分類目標上都進行了分類性能評估,其中在Flickr-2數(shù)據(jù)集上是為了評估二分類目標,而在Flickr-3數(shù)據(jù)集上是為了評估三分類目標,且在Flickr-2和Flickr-3這2個數(shù)據(jù)集上DDC+co-attention均較對比方法展示了更好的性能.
盡管表2和表3的實驗已經展示了本文提出的方法可以達到更好的情感分類效果,但是在本文提出的層次化深度關聯(lián)融合網(wǎng)絡的模型中,不僅考慮了經過多模態(tài)深度多重判別性相關分析的優(yōu)化而生成的最大相關的判別性視覺特征表示和判別性語義特征表示,還在多模態(tài)注意力的融合網(wǎng)絡中序列化地研究了圖像視覺特征和文本語義特征之間的協(xié)同關注(co-attention).為了探討這2部分模型的設置對圖像和文本融合的情感分類結果的貢獻度以及合理性,則分別做實驗來評估這2個部分的性能.
3.4.1 對比方法
首先,通過設定實驗來評估多模態(tài)深度多重判別性相關分析的合理性.對比方法設置為:
1) DNN-S.利用DNN-Multi方法中的DNN網(wǎng)絡結構分別提取圖像和文本的特征,然后拼接特征向量輸入softmax層進行情感分類.
2) DC-S.利用文獻[17]中提出的深度相關性分析的方法,不同于文獻[17]中的網(wǎng)絡結構,而是利用本文提出的視覺模態(tài)特征提取網(wǎng)絡和文本模態(tài)特征提取網(wǎng)絡來共同提取圖像和文本的最大相關的視覺和語義的映射特征,將圖文映射特征融合后通過softmax層進行情感分類.
3) DDC-S.利用本文DDC的方法共同地提取圖像和文本的最大相關的判別性視覺和語義的映射特征,將視覺和語義映射特征融合后通過softmax層進行情感分類.
4) DANDC-S.利用本文DANDC的方法共同地提取圖像和文本的最大相關的判別性視覺和語義的映射特征,將視覺和語義映射特征融合后通過softmax層進行情感分類.
總之,前3組實驗設置是為了評估簡單的特征融合(DNN-S)、具有深度相關分析的特征映射(DC-S)、具有深度多重判別性相關分析的特征映射(DDC-S)這三者在情感分類上的性能差異,而DANDC-S是為了評估在深度多重判別性相關分析階段,融入圖像中層語義特征對分類結果的影響.
其次,通過設定實驗來評估多模態(tài)協(xié)同注意力(co-attention)設置的合理性,對比方法設置為:
3.4.2 結果與討論
Fig. 4 Evaluate the performance of deep and discriminative correlation analysis on five datasets圖4 在5個數(shù)據(jù)集上評估深度判別性相關分析的性能
圖4的實驗結果展示了在5個數(shù)據(jù)集上利用多模態(tài)深度多重判別性相關分析(DDC-S和DANDC-S)的分類性能均優(yōu)于DNN-S和DC-S,這說明利用多重深度判別性相關分析來學習最大相關的判別性特征表示是可行且必要的.此外,在視覺模態(tài)上共同學習圖像視覺特征和圖像中層語義特征的DANDC-S在除了VCGI數(shù)據(jù)集外的所有數(shù)據(jù)集上的分類結果上均優(yōu)于僅利用視覺特征的DDC-S.然而,在VCGI數(shù)據(jù)集上DANDC+co-attention的情感分類性能要優(yōu)于DDC+co-attention,如表2所示.此外,在表3中的MVSO-EN數(shù)據(jù)集上,DANDC+co-attention的性能次優(yōu)于DDC+co-attention,但是在多重深度判別性相關分析階段DANDC-S的分類性能要優(yōu)于DDC-S,如圖4所示.這表明融入圖像的中層語義特征(ANP)在一定程度上對多模態(tài)情感分類的性能是起積極作用的.
然后,進一步評估co-attention方法設置的合理性,本實驗僅利用提出的DDC模型生成的最大相關的判別性視覺特征和判別性語義特征做基準,比較其與same-co-attention和co-attention-2的性能差異.如圖5所示,在5個數(shù)據(jù)集上的對比實驗均顯示序列化的co-attention相比于非序列化的same-co-attention都取得了略好的情感分類效果,這說明先后序列化生成視覺的注意力和語義的注意力的設置有益于探測圖像視覺和文本語義之間的深層內部關聯(lián).另外,為了探討嵌套co-attention網(wǎng)絡的性能,在5個數(shù)據(jù)集上也相應做了實驗評估.如圖5所示,在Flickr-2和Flickr-3數(shù)據(jù)集上的分類結果co-attention-2略優(yōu)于co-attention,但在其他數(shù)據(jù)集上效果反而不如co-attention的性能.由于增加co-attention網(wǎng)絡的迭代交互的次數(shù),不僅會使模型變得更復雜,而且在實驗中需要更多的訓練時間.很顯然,嵌套序列交互后的效果沒有明顯的提升甚至在幾個數(shù)據(jù)集上反而下降,因此,實驗設置中沒有必要去設置更多嵌套co-attention層的模型.
Fig. 5 Evaluate the performance of co-attention settings on five datasets圖5 在5個數(shù)據(jù)集上評估co-attention設置的性能
近年來,多模態(tài)情感分析已經成為一個日益重要的研究熱點,尤其在社交媒體大數(shù)據(jù)的環(huán)境下.本文提出一個新穎的層次化深度關聯(lián)融合網(wǎng)絡結構用于多模態(tài)情感分析.在提出的方法中,首先依賴提出的多模態(tài)深度多重判別性相關分析的模型共同學習最大相關的判別性視覺特征表示和判別性語義特征表示.基于這2種特征表示,進一步提出多模態(tài)注意力融合網(wǎng)絡的情感分類模型,首先,序列化地生成語義的視覺注意力和視覺的語義注意力來交互視覺和語義,從而獲得圖像的和文本的更深層和更判別性的特征表示;然后,合并最新的圖像視覺特征和文本語義特征后并通過全連接神經網(wǎng)絡學習后再用于訓練情感分類器.在5個真實數(shù)據(jù)集上已經評估了提出方法的有效性,且實驗結果表明本文提出的層次化深度關聯(lián)融合網(wǎng)絡的圖文媒體情感分析方法要優(yōu)于其他相關的方法.
在未來的工作中將考慮不同的文本語言類型、圖像的區(qū)域化語義,設計更好的多模態(tài)網(wǎng)絡提取結構以及更合理的注意力網(wǎng)絡模型用于情感分析,此外,還將研究更好的特征融合策略以進一步提高異構多模態(tài)特征融合的性能.