張 沖,于玉海,孟佳娜
(大連民族大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,遼寧 大連 116650)
情感分析,也稱意見挖掘,是指個人對許多話題表達(dá)的意見、情感和態(tài)度的分析。社會媒體的發(fā)展推動了信息發(fā)布形式的多樣化,目前社交媒體用戶除了用文本來表達(dá)自己的情感,也經(jīng)常上傳帶有感傷或者高興文字的圖片,使推文更生動、更容易理解。方面級情感分析是細(xì)粒度情感分析,在方面級情感分析任務(wù)中,使用注意力機(jī)制可以有效提高分類效果。Ma等人[1]提出一種基于分層注意力機(jī)制的長短期記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM),同時將情感相關(guān)概念的常識性知識引入到深度神經(jīng)網(wǎng)絡(luò)端到端的訓(xùn)練中進(jìn)行情感分類。Wang等人[2]提出MemNet模型,應(yīng)用記憶網(wǎng)絡(luò)的思想,通過上下文信息構(gòu)建記憶網(wǎng)絡(luò),通過注意力機(jī)制捕獲對方面情感傾向比較重要的信息,使用多層計算單元提取到更多的信息,進(jìn)而提升模型的性能。引入圖像描述生成方法[3],通過圖像描述語句生成,增加語言模型可用的文本數(shù)量,然后通過圖像生成的圖像描述語句與目標(biāo)方面詞構(gòu)建一個輔助句子,輔助句子與文本標(biāo)題一同輸入RoBERTa混合神經(jīng)網(wǎng)絡(luò)模型,將多模態(tài)交互應(yīng)用于情感傳遞,最后利用自注意力機(jī)制對目標(biāo)方面詞對應(yīng)的關(guān)鍵信息賦予不同權(quán)重,并把編碼結(jié)果輸入到情感分類器中進(jìn)行多模態(tài)方面級情感分析。模型用Twitter-15/17數(shù)據(jù)集來評估,實驗結(jié)果數(shù)據(jù)表明該模型具有效性。主要貢獻(xiàn)如下:
(1)提出一種混合神經(jīng)網(wǎng)絡(luò)模型(Hybrid Neural Networks,HNNet),并引入圖像描述生成方法準(zhǔn)確提取圖像信息,生成圖像描述語句,更好應(yīng)用到下游情感分析任務(wù)中。
(2)構(gòu)建輔助句子與文本數(shù)據(jù)融合,彌補(bǔ)Twitter文本較短、包含信息量少,難以捕獲重要信息等問題。
(3)融入注意力機(jī)制,使模型更好的關(guān)注到目標(biāo)方面詞所對應(yīng)的句子關(guān)鍵信息上,從而有效地提高方面級情感分析的準(zhǔn)確度。
基于多模態(tài)方面級情感分析的新任務(wù)來源于兩個研究方向,分別是方面級情感分析和多模態(tài)情感分析。
方面級情感分析的目的是識別文本句子在某一方面的情感極性。它的研究方法可以分為兩大類:基于傳統(tǒng)特征選擇的方法和基于神經(jīng)網(wǎng)絡(luò)的方法。
基于特征情感分析方法通過對文本內(nèi)容中出現(xiàn)情感詞的概率進(jìn)行編碼來完成任務(wù)。情感詞語檢測[4]、統(tǒng)計模型[5]是典型的方法。情感詞語檢測是最常用的方法。統(tǒng)計模型是一個經(jīng)過大規(guī)模標(biāo)記語料庫訓(xùn)練的分類器,用于識別單詞的情感強(qiáng)度。
基于神經(jīng)網(wǎng)絡(luò)的方面級情感分析,也取得很好的效果。為了進(jìn)一步處理多方位句和句法復(fù)雜的句子結(jié)構(gòu),Liu等人[6]提出了句子層面的內(nèi)容注意力機(jī)制,從全局角度捕捉給定方面的重要信息,語境注意力機(jī)制同時考慮語境詞的順序及其相互關(guān)系。然而以往的研究并未考慮語法規(guī)則對語篇情感分析的影響,并且注意力機(jī)制也過于簡單,難以從語境和目標(biāo)中交互學(xué)習(xí)到重要的注意信息,所以Lu等人[7]提出一個交互規(guī)則注意網(wǎng)絡(luò)IRAN用于方面級情感分析,這種交互可以捕捉到更多重要的信息。Du等人[8]指出現(xiàn)有的神經(jīng)網(wǎng)絡(luò)模型大多傾向于利用靜態(tài)的集中操作或注意力機(jī)制來識別感傷詞,不足以處理重疊的特征。與他們的工作不同,本文主要使用深度混合模型RoBERTa、雙向長短期記憶網(wǎng)絡(luò)(Bi-directional Long-Short Term Memory,Bi-LSTM)和自注意力機(jī)制進(jìn)行方面級情感分析。
隨著多種形式的用戶生成內(nèi)容(如文本、圖像、語音或視頻)在社交網(wǎng)站中的流行,情感分析已經(jīng)不限于基于文本的分析。多模態(tài)情感分析是將文本和非文本信息整合到用戶情感分析中的新興研究領(lǐng)域。
文本-圖像對是多模態(tài)數(shù)據(jù)最常見的形式。傳統(tǒng)方法采用基于特征的方法進(jìn)行多模態(tài)情感分析。如Borth等人[9]從圖像中提取1 200對形容詞-名詞對作為圖像的視覺特征進(jìn)行分類,然后根據(jù)英語語法和拼寫風(fēng)格計算文本的情感得分生成文本特征。這些基于特征的方法在很大程度上依賴于費時費力的特征工程,未能建立視覺信息與文本信息之間的關(guān)系模型。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,一些基于神經(jīng)網(wǎng)絡(luò)的多模態(tài)情感分析模型被提出,Cai等人[10]利用基于卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)從文本和圖像中提取特征表示,并取得顯著的進(jìn)展。為了充分捕捉視覺語義信息,Xu等人[11]從圖像中提取場景和物體特征,并利用這些視覺語義特征聚合文本情緒信息詞,建模圖像對文本的影響。Wang等人[12]從每個模態(tài)中提取特征,然后對跨模態(tài)關(guān)聯(lián)進(jìn)行建模,以獲得更具有識別力的表示,以此在多任務(wù)框架中同時感知事件和情感。Yang等人[13]引入多通道圖神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)基于數(shù)據(jù)集全局特征多模態(tài)表示,利用多頭注意機(jī)制實現(xiàn)多模態(tài)深度融合預(yù)測圖像-文本對的情感。
多模態(tài)方面級情感分析屬于細(xì)粒度的多模態(tài)情感分析任務(wù)。與基于純文本的情感分析相比,多模態(tài)方面級情感分析主要從文本、視覺等不同情感信息中獲取情感特征,這些方法的聯(lián)合應(yīng)用不僅可以提高情感表達(dá)的質(zhì)量,還可以提高情感分析的分類精度。Xu等人[14]提出一種基于方面的多交互記憶網(wǎng)絡(luò),以及一個 Multi-ZOL多模態(tài)中文情感分析數(shù)據(jù)集,用于多模態(tài)情感分析。Wang等人[15]提出一種基于注意膠囊與多頭注意力機(jī)制的網(wǎng)絡(luò)模型,以及一個基于目標(biāo)方面類別的多模態(tài)情感分析數(shù)據(jù)集用于模型評估。Yu等人[16]提出了一種多模態(tài)BERT架構(gòu),該架構(gòu)將BERT用于跨模態(tài)交互以獲得目標(biāo)敏感的文本與視覺表示,利用多個自注意力層來實現(xiàn)多模態(tài)融合。Khan等人[3]將圖像轉(zhuǎn)換為標(biāo)題,作為情感分類的輔助句子,并利用BERT進(jìn)行情感分類。本文在圖像處理部分引入圖像轉(zhuǎn)換為標(biāo)題模塊,在此基礎(chǔ)上,進(jìn)一步把文本與圖像描述語句以句子對形式輸入到混合神經(jīng)網(wǎng)絡(luò)模型進(jìn)行方面級情感分類。
一組多模態(tài)樣本,每個樣本包含一個句子Si=(W1,W2,...,WL),其中L是單詞數(shù),句子旁邊是一個圖像Ii、一個目標(biāo)方面Ti,對應(yīng)的標(biāo)簽Yi∈{negative,neutral,positive},目的是學(xué)習(xí)一個函數(shù)F:(Ti,Si,Ii)→Yi。
本文提出一種基于多模態(tài)方面級情感分析的混合神經(jīng)網(wǎng)絡(luò)模型,總體模型如圖1。首先對于圖像利用圖像描述生成器進(jìn)行輸入轉(zhuǎn)換,將情感目標(biāo)的標(biāo)記與圖像描述生成語句的標(biāo)記連接起來,從而創(chuàng)建一個輔助句子,然后把輔助句子與文本以句子對形式輸入預(yù)訓(xùn)練模型RoBERTa,獲取文本特征表示,并將其輸出作為Bi-LSTM神經(jīng)網(wǎng)絡(luò)的輸入,利用Bi-LSTM對每個句子分別采用順序和逆序計算得到兩套不同的隱層表示,通過向量拼接得到最終的隱層表示。使用自注意力機(jī)制捕獲文本重要語義特征,在輸入序列中對標(biāo)簽結(jié)果影響大的特征分配較大權(quán)重,在提取到最終的文本特征向量之后,送到池化層、全連接層,最后利用softmax進(jìn)行情感分類。
圖1 總體模型圖
模型由兩部分組成。給定一個由目標(biāo)方面、輸入句子和圖像組成的多模態(tài)輸入樣本mi=(Ti,Si,Ii),包含目標(biāo)方面Ti、輸入語句Si和圖像Ii。首先將圖像經(jīng)過圖像描述生成器進(jìn)行轉(zhuǎn)換,將圖像Ii∈R3×W×H轉(zhuǎn)換成輸入空間中的一個元素Ii'∈N0L,3,W,H分別表示圖像的通道數(shù)、寬度和高度。圖像描述生成的最大輸出長度為L。Ii',Si,Ti∈N0L,代表圖像上下文、句子和目標(biāo)方面存在于同一個空間N0L中。通過圖像描述生成器和語言模型之間的共享標(biāo)記器,將符號詞映射到詞匯表N0L里面,圖像的自然語言描述語句Ii'∈N0L。利用圖像的自然語言描述Ii',同目標(biāo)方面語Ti構(gòu)造一個輔助句Auxi,然后與輸入語句Si構(gòu)建句子對(Si,Auxi),在句子對分類模式中使用大規(guī)模預(yù)訓(xùn)練模型,通過混合神經(jīng)網(wǎng)絡(luò)模型得到目標(biāo)方面語的情感預(yù)測。
引入圖像描述生成方法,給定輸入圖像,首先使用基于CNN骨干網(wǎng)絡(luò)的ResNet101[17]生成一個特征映射圖,然后通過固定的位置編碼增強(qiáng)后傳遞到DETR[18]編碼器層。最后利用Transformer解碼器轉(zhuǎn)換嵌入,使用解碼器通過預(yù)測前饋網(wǎng)絡(luò)預(yù)測輸入圖像的描述來生成非自回歸文本。圖像描述生成網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2。利用圖像的自然語言描述,與圖像對應(yīng)的目標(biāo)方面語構(gòu)造一個輔助句子,采用輔助問題[19]機(jī)制使文本與圖像的自然語言描述進(jìn)行融合。在輔助句分類方法中,將RoBERTa用于句子對分類模式,在句子對分類模式中,輸入到RoBERTa的句子對形為
圖2 圖像描述生成模塊結(jié)構(gòu)圖
(1)
本文所提出的模型是穩(wěn)健優(yōu)化的RoBERTa和BiLSTM的混合神經(jīng)網(wǎng)絡(luò)模型。該模型利用預(yù)訓(xùn)練的RoBERTa權(quán)重有效地將映射詞嵌入空間中,然后將輸出的詞嵌入輸入到BiLSTM以捕獲顯著的語義特征。
2.4.1 RoBERTa文本表示層
RoBERTa模型是雙向編碼器表示Transformers的擴(kuò)展。BERT和RoBERTa都是屬于Transformers系列,該系列是為序列到序列建模而開發(fā)的,以解決長期依賴問題。Transformer模型包括三個組件,即編碼器、解碼器和頭。編碼器將原始文本轉(zhuǎn)換為稀疏索引編碼。解碼器將稀疏內(nèi)容重新轉(zhuǎn)換為上下文嵌入以進(jìn)行更深入的訓(xùn)練。頭部被用來包裝轉(zhuǎn)換器模型,以便上下文嵌入可用于下游任務(wù)。
BERT與現(xiàn)有的語言模型略有不同,它可以從句子兩端學(xué)習(xí)上下文表示。對于標(biāo)記部分,BERT使用30K的字符級字節(jié)對編碼,相比之下,RoBERTa使用字節(jié)對編碼(Byte-Pair Encoding,BPE)結(jié)合字符級和單詞級表示,其詞匯集更大,由50K子字單元組成。除此之外,RoBERTa模型通過訓(xùn)練更多數(shù)據(jù)、更長的序列和更長的時間來微調(diào)模型。RoBERTa基礎(chǔ)層旨在創(chuàng)建有意義的詞嵌入作為特征表示,以便后續(xù)層可以輕松地從詞嵌入中捕獲有用信息。
本文模型的文本表示層引入RoBERTa來獲取文本的字向量表示,將文本離散的序列轉(zhuǎn)換為計算機(jī)可識別的稠密向量。通過預(yù)訓(xùn)練模型RoBERTa獲得的字向量組成的文本序列向量表示S為
(2)
2.4.2 雙向長短期記憶網(wǎng)絡(luò)層
LSTM模型能夠存儲先前的信息, 從而捕獲給定輸入中突出的遠(yuǎn)程依賴關(guān)系。使用BiLSTM對序進(jìn)行處理,捕獲文本的長期依賴特征,具體過程為
(3)
。
(4)
。
(5)
設(shè)每個單向LSTM的隱藏單元數(shù)為u,則BiLSTM的隱藏單元為T=2u,其輸出H如公式(6)所示。
H=(h1,h2,h3,...,hT)。
(6)
自注意力機(jī)制是從眾多信息中選擇對當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息,然后對需要重點關(guān)注的目標(biāo)區(qū)域投入更多的注意力資源。用Bi-LSTM神經(jīng)網(wǎng)絡(luò)提取文本的全局特征之后,運用自注意力機(jī)制,選擇性地對文本中關(guān)鍵的內(nèi)容賦予更多的權(quán)重,利用上下文的語義關(guān)聯(lián)信息可以有效彌補(bǔ)深度神經(jīng)網(wǎng)絡(luò)獲取局部特征方面的不足。文本局部特征表示文本中部分內(nèi)容之間的關(guān)聯(lián)特征,例如在句子“這家飯店的燒烤特別美味,啤酒也很棒!”中,“燒烤”是一個顯性的方面類別,與“特別”“美味”這樣的詞關(guān)系比較密切,就會給分配較大權(quán)重,而其余詞的關(guān)聯(lián)度小,分配相對較小權(quán)重,因為各個詞對方面類別詞的影響程度不同,所以為其分配的權(quán)重也不同。
引入注意力機(jī)制后,輸入句子的映射矩陣為Q,K,V,可將輸入句子的嵌入與對應(yīng)的權(quán)值矩陣相乘進(jìn)行初始化。
Q=WqI
,
(7)
K=WkI
,
(8)
V=WvI
。
(9)
式中,Wq,Wk,Wv為不同的向量空間,是可訓(xùn)練的參數(shù),當(dāng)對輸入序列I經(jīng)過多次變換得到不同的Q,K,V,可以得到I在不同子空間的特征以學(xué)習(xí)到不同的注意力特征。
用Q和K計算相似性,用softmax函數(shù)歸一化處理為
A=KTQ
。
(10)
式中,K是進(jìn)行訓(xùn)練之后的參數(shù),KT為K的轉(zhuǎn)置。
(11)
對V使用權(quán)重系數(shù)進(jìn)行加權(quán)求和,得到輸出h*為
h*=A′V。
(12)
本文采用一個全連接層作為輸出網(wǎng)絡(luò)進(jìn)行情感分類。首先將注意力層的輸出作為全連接層的輸入,然后通過softmax函數(shù)對輸出向量進(jìn)行歸一化處理,最后得到模型的輸出向量為
y′=softmax(Wh*+b)。
(13)
式中,W為訓(xùn)練權(quán)重參數(shù),b為偏置。
實驗中所使用的Twitter-15和Twitter-17兩個數(shù)據(jù)集是由多模態(tài)推文組成,其中每條多模態(tài)推文都包含文本、與推文一起發(fā)布的圖像、推文中的目標(biāo)以及每個目標(biāo)的情感。每個目標(biāo)都被賦予來自集合{negative,neutral,positive}的標(biāo)簽,任務(wù)是一個標(biāo)準(zhǔn)的多分類問題。數(shù)據(jù)集見表1~2。
表1 Twitter-15數(shù)據(jù)集基本統(tǒng)計數(shù)據(jù)
表2 Twitter-17數(shù)據(jù)集基本統(tǒng)計數(shù)據(jù)
本實驗中句子分詞最大長度設(shè)置為100,批量處理數(shù)量batchsize設(shè)置為8,LSTM單元狀態(tài)維度128,RoBERTa詞向量的維度為768,Dropout與Epoches值分別為0.000 02和6,Twitter-15與Twitter-17的學(xué)習(xí)率值分別為0.1和0.5。具體參數(shù)設(shè)置如見表3。
表3 實驗參數(shù)設(shè)置
為了驗證本文模型的有效性,將本文模型與經(jīng)典的文本情感分析方法(ATAE-LSTM、MemNet、MGAN、RAM、EF-Net(text))和具有代表性的多模態(tài)情感分析方法(Res-MGAN、TomBERT、EF-Net、EF-CapTrBERT)進(jìn)行對比分析。
3.3.1 基于文本數(shù)據(jù)的對比實驗
ATAE-LSTM[2]:應(yīng)用LSTM和連接過程來獲得方面嵌入,并使其參與到注意力權(quán)重的計算中,當(dāng)涉及到不同的方面時,參與不同部分的計算。
MGAN[20]:一種細(xì)粒度注意力機(jī)制,用來捕捉方面和上下文之間的詞級交互,然后利用細(xì)粒度和粗粒度注意力機(jī)制來組成MGAN框架。
MemNet[21]:通過上下文信息構(gòu)建記憶網(wǎng)絡(luò),通過注意力機(jī)制捕獲對不同方面情感傾向較為重要的信息,使用多層計算單元提取到更多的信息,進(jìn)而提升模型的性能。
RAM[22]:在Bi-LSTM的隱藏狀態(tài)上構(gòu)建記憶,并生成同樣基于Bi-LSTM的方面表示,其多個注意層的輸出與遞歸神經(jīng)網(wǎng)絡(luò)非線性結(jié)合,增強(qiáng)全局記憶抽象的表達(dá)能力。
EF-Net(text)[15]:基于多頭注意力網(wǎng)絡(luò)對文本信息進(jìn)行處理進(jìn)行情感分析。
HNNet(text):在本文模型上去除掉圖像特征,只對文本信息方面級情感分析任務(wù)。
在基于文本數(shù)據(jù)的基線方法中,ATAE-LSTM表現(xiàn)不佳,因為沒有通過平等對待方面和上下文單詞來明確區(qū)分。比較結(jié)果見表4。與ATAE-LSTM相比,MemNet表現(xiàn)更好,在輸入記憶跳躍處側(cè)重方面記憶和單詞記憶,利用多次記憶跳躍提取更深層次的注意表征。RAM結(jié)合了遞歸網(wǎng)絡(luò)在考慮語境信息方面的優(yōu)勢,加入記憶信息的多重注意力機(jī)制,利用非線性組合,充分考慮所有記憶結(jié)果。EF-Net(text)利用注意力機(jī)制重點關(guān)注文本數(shù)據(jù)中有關(guān)方面的重點信息。HNNet(text)首先文本信息經(jīng)過預(yù)訓(xùn)練模型RoBERTa獲取詞向量表示,然后通過Bi-LSTM提取上下文信息、最后利用自注意力機(jī)制重點關(guān)注文本數(shù)據(jù)中有關(guān)方面的重點信息,效果是最好的。
表4 HNNet模型與文本數(shù)據(jù)基線方法的比較結(jié)果 %
3.3.2 基于多模態(tài)數(shù)據(jù)的對比實驗
Res-MGAN:采用ResNet的最大池化層與MGAN的隱藏層簡單拼接起來進(jìn)行多模態(tài)情感分類。
EF-Net[15]:基于多頭注意力的網(wǎng)絡(luò)和 ResNet-152分別處理文本和圖像,捕捉多模態(tài)輸入之間的交互。
TomBERT[16]:一種面向目標(biāo)的多模態(tài) BERT(TomBERT)架構(gòu),可以有效地捕捉模態(tài)內(nèi)和模態(tài)間的動態(tài)表示。
EF-CapTrBERT[3]:將圖像轉(zhuǎn)換為標(biāo)題,作為情感分類的輔助句子,利用BERT進(jìn)行情感分析。
VLPMABSA[23]:一種基于多模態(tài)方面的情感分析的特定任務(wù)的視覺語言預(yù)訓(xùn)練框架。
基于多模態(tài)數(shù)據(jù)的方法中,Res-MGAN結(jié)果是最低的,因為它對文本和圖像信息內(nèi)容只進(jìn)行簡單的拼接見表5。與Res-MGAN相比,EF-Net表現(xiàn)更好,EF-Net利用一種注意力膠囊和多頭注意融合網(wǎng)絡(luò)對文本和圖像進(jìn)行提取,促進(jìn)多模態(tài)數(shù)據(jù)間交互。TomBERT和EF-CapTrBERT比EF-Net取得了更好的效果,TomBERT使用ResNet結(jié)合目標(biāo)方面提取圖像特征,目標(biāo)注意力機(jī)制在目標(biāo)和圖像之間進(jìn)行匹配,以獲得目標(biāo)敏感的視覺表示,BERT提取文本句子特征,然后利用多頭注意力機(jī)制分配高注意力權(quán)重到與目標(biāo)密切相關(guān)的圖像區(qū)域。EF-CapTrBERT利用輸入空間中的翻譯將圖像翻譯成文本,使用BERT進(jìn)行情感分析,效果優(yōu)于TomBERT。本文模型HNNet在圖像轉(zhuǎn)換為自然語言描述之后,描述語句與文本信息融合豐富了信息,利用預(yù)訓(xùn)練模型RoBERTa和Bi-LSTM更好的提取信息,然后利用自注意力機(jī)制,給目標(biāo)方面關(guān)系密切的詞更大的權(quán)重,最后進(jìn)行情感分析,在兩個數(shù)據(jù)集上的結(jié)果幾乎比具有視覺語言預(yù)訓(xùn)練任務(wù)的VLP-MABSA模型效果好。
表5 HNNet模型與多模態(tài)數(shù)據(jù)基線方法的比較結(jié)果 %
從表4~5可以看出,本文模型在文本與圖像描述語句結(jié)合之后的效果比僅單文本的效果要好,也證明構(gòu)建輔助句子進(jìn)行融合可以彌補(bǔ)文本較短、包含信息量少,難以捕獲重要信息等問題。
3.3.3 單模態(tài)與多模態(tài)實驗結(jié)果分析
單模態(tài)實驗僅使用數(shù)據(jù)集中的文本數(shù)據(jù),多模態(tài)實驗使用數(shù)據(jù)集中的文本以及圖像數(shù)據(jù)。將本文單模態(tài)數(shù)據(jù)實驗結(jié)果與多模態(tài)數(shù)據(jù)實驗結(jié)果進(jìn)行聯(lián)合分析,實驗結(jié)果對比如圖3~4。
圖3 Twitter-15數(shù)據(jù)集情感分析準(zhǔn)確率與F1值對比
圖4 Twitter-17數(shù)據(jù)集情感分析準(zhǔn)確率與F1值對比
結(jié)果表明,在傳統(tǒng)的基于方面的情感分析任務(wù)中引入圖像模態(tài)數(shù)據(jù)是非常有效的。在單模態(tài)數(shù)據(jù)實驗中,HNNet(text)模型比其它單模態(tài)模型的效果有了一定的提升,但是相對于多模態(tài)數(shù)據(jù)效果不理想。相比于單模態(tài)數(shù)據(jù),多模態(tài)數(shù)據(jù)之間的相互依賴、相互補(bǔ)充的特點,克服單一模態(tài)信息魯棒性差,表達(dá)片面的缺點,所以效果更優(yōu)。HNNet模型與最新的多模態(tài)方面級情感分析方法相比,在Twitter-15數(shù)據(jù)集上準(zhǔn)確率提升了0.18%,F1值提升了1.36%。在Twitter-17數(shù)據(jù)集上F1值提升了0.46%。
3.3.4 消融實驗
為了驗證本文的預(yù)訓(xùn)練模型RoBERTa、BiLSTM以及自注意力機(jī)制Attention的有效性,在使用預(yù)訓(xùn)練模型RoBERTa的HNNet模型的基礎(chǔ)上設(shè)計一系列的變體進(jìn)行相關(guān)實驗。
HNNet w/o Att:在HNNet模型的基礎(chǔ)上去掉自注意力機(jī)制模塊。
HNNet w/o BiLSTM:在HNNet模型的基礎(chǔ)上去掉BiLSTM模塊。
HNNet w/o BiLSTM Att:在HNNet模型的基礎(chǔ)上去掉BiLSTM模塊和自注意力機(jī)制模塊。
HNNet(BERT):把HNNet模型中的預(yù)訓(xùn)練模型RoBERTa換成BERT。
消融實驗比較結(jié)果見表6。把HNNet模型中的預(yù)訓(xùn)練模型RoBERTa換成BERT,說明在本實驗中RoBERTa比BERT具有更強(qiáng)大的嵌入能力,更全面地生成文本向量。在去除模型中其他模塊之后,結(jié)果有所下降,表明加入BiLSTM神經(jīng)網(wǎng)絡(luò)提取全局特征,運用自注意力機(jī)制,選擇性對文本中關(guān)鍵內(nèi)容賦予更多權(quán)重的有效性。
表6 消融實驗比較結(jié)果 %
文章提出了一種面向多模態(tài)方面級情感分析的混合神經(jīng)網(wǎng)絡(luò)模型。首先,使用圖像描述生成器對圖像進(jìn)行輸入轉(zhuǎn)換,生成圖像描述輔助句。然后,將這個輔助句與相應(yīng)的文本進(jìn)行融合,通過整合上下文和圖像信息來增強(qiáng)目標(biāo)方面的表示。同時利用自注意力機(jī)制來捕獲目標(biāo)方面對應(yīng)的文本中的重要語義特征,從而顯著提高多模態(tài)方面級情感分析的準(zhǔn)確性。在多模態(tài)方面級情感數(shù)據(jù)集Twitter-15/17中對提出的模型HNNet進(jìn)行評估。實驗結(jié)果表明,本文提出的混合神經(jīng)網(wǎng)絡(luò)模型優(yōu)于基線方法,驗證該模型在多模態(tài)方面級情感分析任務(wù)中的有效性。未來,考慮在方面級情感分析與多模態(tài)情感分析的交叉領(lǐng)域中引入文本圖像關(guān)系檢測模塊,以更好地控制視覺信息的正確利用,從而提高準(zhǔn)確率。