摘 要:為了縮小模態(tài)間的異質(zhì)性差異并緩解多個(gè)方面詞帶來的情感混淆,提出一種基于細(xì)粒度圖像-方面的情感增強(qiáng)多模態(tài)方面級(jí)情感分析。具體地,該模型經(jīng)過文本圖像編碼后,首先利用形容詞-名詞對(duì)將與方面詞相關(guān)的圖像信息加入到文本方面詞中,并通過細(xì)粒度圖像-方面跨模態(tài)注意力機(jī)制優(yōu)化圖像表征,得到細(xì)粒度方面詞-圖像特征;接著,基于句法結(jié)構(gòu)引入情感得分,得到基于方面詞的文本情感特征;最后,進(jìn)行模態(tài)融合得到最終情感預(yù)測(cè)結(jié)果。在Twitter-2015和Twitter-2017數(shù)據(jù)集上,與基線模型TMSC相比,提出模型值準(zhǔn)確率分別提高了0.25百分點(diǎn)和0.16百分點(diǎn),充分證明了細(xì)粒度的圖文匹配和情感增強(qiáng)操作有助于提高分類效果。
關(guān)鍵詞:多模態(tài)方面級(jí)情感分析;形容詞-名詞對(duì);跨模態(tài)注意力機(jī)制;情感分?jǐn)?shù);模態(tài)融合
中圖分類號(hào):TP393"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號(hào):1001-3695(2025)04-014-1073-07
doi: 10.19734/j.issn.1001-3695.2024.08.0294
Aspect-oriented affective knowledge enhanced for aspect-based sentiment analysis
Yu Bengonga, b, Chen Mingyuea
(a.School of Management, b. Key Laboratory of Process Optimization amp; Intelligent Decision-making, Ministry of Education, Hefei University of Technology, Hefei 230009, China)
Abstract:To reduce the heterogeneity differences between modalities and alleviate the emotional confusion caused by multiple aspect words, this paper proposed a fine-grained image-aspect emotional enhancement model for multimodal aspect-based sentiment analysis. Specifically, after encoding text and images, the model first integrated image information related to aspect words into the textual aspect words using adjective-noun pairs. It then optimized the image representation through a fine-grained image-aspect cross-modal attention mechanism to obtain fine-grained aspect-word-image features. Next, it introduced sentiment scores based on syntactic structure to derive textual sentiment features based on aspect words. Finally, modality fusion was performed to obtain the final sentiment prediction results. This method achieves an accuracy improvement of 0.25 and 0.16 percentage points on the Twitter-2015 and Twitter-2017 datasets, respectively, compared to the baseline model TMSC, de-monstrating that fine-grained image-text matching and emotional enhancement operations contribute to improving classification performance.
Key words:multimodal aspect-based sentiment analysis; adjective-noun pairs; cross-modal attention mechanism; sentiment scores; modal fusion
0 引言
隨著互聯(lián)網(wǎng)的快速發(fā)展,用戶情感表達(dá)方式逐漸呈現(xiàn)多樣性。越來越多用戶愿意在網(wǎng)絡(luò)上分享生活和對(duì)事物的看法,通過包含文本、圖像、音頻、表情包等多元化的表現(xiàn)手段,在線評(píng)論可以清晰地表現(xiàn)出情感傾向[1]。目前,隨著社交媒體和第三方平臺(tái)的普及,在線用戶通過圖文方式來表達(dá)情感的趨勢(shì)吸引了大量學(xué)者進(jìn)行多模態(tài)情感分析研究(multimodal aspect-based sentiment analysis, MABSA)[2]。近年來,多模態(tài)情感分析在政治選舉、輿情監(jiān)測(cè)[3] 、社會(huì)治安[4]、醫(yī)療保健等領(lǐng)域發(fā)揮了重要的作用,在實(shí)際工作中具有極大的應(yīng)用價(jià)值[5]。
多模態(tài)方面級(jí)情感分析是一項(xiàng)細(xì)粒度情感分析任務(wù),在過去的幾年中成為研究熱潮。通過給定文本-圖像對(duì)推斷特定方面詞的情感極性。如圖1所示,對(duì)給出的右側(cè)樣本句“RT @ KPerham: Ride near Bath Maine? Watch out for this dude. He will assault you and call you a fag (many times)!”及其圖像,模型可以預(yù)測(cè)方面詞“Bath Maine”情感傾向是消極。對(duì)給出的左側(cè)樣本例句“RT @ BBCOne: Dear Madonna, THIS is how you wear a cape.”結(jié)合評(píng)論文本,可以發(fā)現(xiàn)涉及到的實(shí)體有“Madonna”“Poldark”和“Demelza”三個(gè),通過識(shí)別圖像中的人物細(xì)節(jié),尋找特定人物的圖像特征,從而推斷出“Madonna”情感傾向是積極,“Poldark”和“Demelza”情感傾向是中立。由此可見基于多模態(tài)方面情感分析輸入圖像和文本結(jié)構(gòu)的復(fù)雜性。評(píng)論文本中的實(shí)體及其語義關(guān)系在判斷情感傾向時(shí)起到關(guān)鍵作用[6],但是不同方面實(shí)體之間的情感混淆增加了預(yù)測(cè)的難度;同時(shí)利用多模態(tài)信息加強(qiáng)實(shí)體情感推導(dǎo)時(shí),從豐富的圖像表示中挖掘跨模態(tài)間的同質(zhì)性信息是必要的,即所需的視覺特征要涉及到特定方面詞信息,否則會(huì)引入其他噪聲。圖文結(jié)構(gòu)的復(fù)雜性對(duì)MABSA任務(wù)提出了極大的挑戰(zhàn),影響了預(yù)測(cè)的準(zhǔn)確性。先前研究已經(jīng)提出了大量的方法優(yōu)化MABSA任務(wù)。Ju等人[7]提出了基于文本圖像關(guān)系檢測(cè)來對(duì)齊圖文特征,從多模態(tài)聯(lián)合學(xué)習(xí)的角度確認(rèn)多模態(tài)實(shí)體和特定實(shí)體情感。曾碧卿等人[8]構(gòu)建了多層次感知的注意力融合網(wǎng)絡(luò),通過動(dòng)態(tài)注意力機(jī)制獲得了融合特征表示。Xu等人[9]注意到三元組之間的高度相關(guān)性,設(shè)計(jì)了一個(gè)能捕捉元素交互信息的位置感知標(biāo)記模型,從而聯(lián)合提取三元組以提高模型的準(zhǔn)確性。然而,上述模型在模態(tài)融合過程中忽略了與特定方面詞不相關(guān)的視覺信息,會(huì)為預(yù)測(cè)引入噪聲。
為了解決上述問題,本文提出了一種基于細(xì)粒度圖像-方面的情感增強(qiáng)多模態(tài)方面級(jí)情感分析模型(aspect-oriented affective knowledge enhanced for multimodal aspect-based sentiment analysis,AAK)。該模型首先利用預(yù)訓(xùn)練語言模型分別獲得文本特征和圖像特征,然后通過基于細(xì)粒度圖像-方面的跨模態(tài)注意力機(jī)制獲得基于文本的圖像表示。其中,模型基于圖像中的ANPs將與方面詞最相關(guān)的圖像信息加入到文本方面詞中,并通過注意力機(jī)制和池化操作優(yōu)化圖像表征得到細(xì)粒度方面詞-圖像特征。接著,引入情感得分獲得豐富的文本情感表示,得到基于方面詞的文本特征。最后將文本上下文表示、文本情感表示和基于方面詞的圖像表示共同輸入到Transformer中得到最終情感預(yù)測(cè)結(jié)果。
本文的工作貢獻(xiàn)總結(jié)如下:a)設(shè)計(jì)了一種創(chuàng)新的細(xì)粒度圖像-文本跨模態(tài)注意力機(jī)制,旨在通過引入與特定方面詞相關(guān)的圖像名詞,增強(qiáng)圖像在特定方面區(qū)域的特征表示。此機(jī)制不僅實(shí)現(xiàn)了方面詞與局部圖像特征的對(duì)齊,而且從細(xì)粒度層面篩選出與特定方面詞高度相關(guān)的圖像特征,有效減少了非相關(guān)圖像區(qū)域所引入的噪聲,提高了情感分析的精確度;b)構(gòu)建了一種文本情感卷積模塊,該模塊通過引入文本的情感得分,并基于句法結(jié)構(gòu)進(jìn)行卷積操作,從而在文本層面上豐富了情感特征的表達(dá),并減少了多個(gè)方面對(duì)應(yīng)情感的混淆影響。在多模態(tài)融合階段,本文模塊從語義情感的角度出發(fā),為多個(gè)實(shí)體的情感預(yù)測(cè)提供了感情依據(jù),并顯著提升了情感分類的準(zhǔn)確性。
1 相關(guān)研究
1.1 基于情感知識(shí)的方面級(jí)情感分析
情感的多樣化表達(dá)和復(fù)雜的句子結(jié)構(gòu),為方面級(jí)情感分析任務(wù)帶來了挑戰(zhàn),并在過去幾年中引起了文本領(lǐng)域廣泛的關(guān)注。為了對(duì)句中不同方面的特定情感進(jìn)行準(zhǔn)確的識(shí)別,情感詞典作為信息增強(qiáng)的方法之一被廣泛應(yīng)用于各研究中。Zhao等人[10]利用堆疊網(wǎng)絡(luò)中的多任務(wù)學(xué)習(xí)捕捉三個(gè)任務(wù)之間的相關(guān)性從而提高了分類結(jié)果。Pang等人[11]利用依賴結(jié)構(gòu)和語義信息構(gòu)建了動(dòng)態(tài)的多通道情感圖卷積網(wǎng)絡(luò)(graph convolutional network, GCN),并在傳統(tǒng)數(shù)據(jù)集上獲得了顯著效果。Liang等人[12]基于情感知識(shí)和句法結(jié)構(gòu)捕捉觀點(diǎn)詞及其情感信息。Liu等人[13]利用語言知識(shí)并通過單頭或多頭注意力機(jī)制將情感詞典整合到深度神經(jīng)網(wǎng)絡(luò)中,以提高粗粒度情感分類效果。Zhou等人[14]設(shè)計(jì)了一種自注意機(jī)制來捕捉每個(gè)詞的重要性,以區(qū)分文檔的情感極性。Borth等人[15]首次提出形容詞-名詞對(duì)ANPs(adjective-noun pairs)來區(qū)分多模態(tài)背景下不同名詞的情感傾向。在此基礎(chǔ)上,Chen等人[16]從視覺圖像對(duì)文本單詞不同貢獻(xiàn)度的角度設(shè)計(jì)了文本引導(dǎo)的跨模態(tài)交互層和情感感知層兩個(gè)輔助任務(wù),從而提高了情感預(yù)測(cè)的效果。楊茹蕓等人[17] 利用外部知識(shí)加強(qiáng)多模態(tài)的情感特征,從而提高多模態(tài)特征融合效果。
1.2 多模態(tài)方面級(jí)情感分析
用戶在社交媒體上的帖子中包含著豐富的多模態(tài)評(píng)論,學(xué)者注意到圖片在提取方面情感中提供了額外信息。因此, MABSA作為一項(xiàng)重要的情感分析任務(wù)得到廣泛的研究。其主要包含三個(gè)子任務(wù),分別為MATE(multi-modal aspect term extraction)在圖像的提示下提取句子中的所有方面的術(shù)語,MASC(multi-modal aspect-oriented sentiment classification)預(yù)測(cè)各方面的情感極性,JMASA(joint multimodal aspect-sentiment analysis)既提取方面詞也要預(yù)測(cè)對(duì)應(yīng)的情感信息。為了捕獲跨模態(tài)對(duì)齊,Khan等人[18]通過兩階段輸入提高模型預(yù)測(cè)性能,首先將圖像轉(zhuǎn)換成文本表達(dá),然后通過圖像的文本表示和文本特征交互獲得最后的模型預(yù)測(cè)結(jié)果。Yang等人[19]關(guān)注到圖像中人物與文本之間的關(guān)聯(lián),并提出了基于面部表情的方面級(jí)情感分析,通過將面部表情轉(zhuǎn)換成形象的文本模型,最后和文本模態(tài)一起輸入到預(yù)訓(xùn)練語言模型加強(qiáng)訓(xùn)練,從而提升模型效果。Hwang等人[20]基于自動(dòng)單峰標(biāo)簽注釋聯(lián)合訓(xùn)練多模態(tài)和單峰任務(wù)從而加強(qiáng)不同模態(tài)之間的關(guān)聯(lián)。Mai等人[21]為加強(qiáng)樣本間和類間關(guān)系的學(xué)習(xí),設(shè)計(jì)了三模態(tài)表示的混合對(duì)比學(xué)習(xí)以加強(qiáng)跨模態(tài)交互。Ma等人[22]基于文本標(biāo)記和情緒標(biāo)簽之間的錯(cuò)誤相關(guān)性提出了基于文本模態(tài)的距離感知對(duì)比學(xué)習(xí),從而重新學(xué)習(xí)情緒標(biāo)簽和各個(gè)模態(tài)間的相互關(guān)系。歐陽夢(mèng)妮等人[23]基于模態(tài)間和多模態(tài)融合結(jié)果與單模態(tài)輸入之間的目標(biāo)過濾來提高下游多模態(tài)情感分析任務(wù)的性能。Lin等人[24]設(shè)計(jì)了一個(gè)極性向量和一個(gè)強(qiáng)度向量獲得模態(tài)間的同質(zhì)性和異質(zhì)性信息。隨著深度學(xué)習(xí)的深入發(fā)展,基于多模態(tài)的特征融合手段逐漸豐富。Chen等人[25]基于單峰學(xué)習(xí)的局限性設(shè)計(jì)了分層多模態(tài)對(duì)比學(xué)習(xí),利用雙峰數(shù)據(jù)合并模態(tài)相關(guān)內(nèi)容,從高維角度增強(qiáng)對(duì)復(fù)雜情感的理解。盡管它們都取得了成功,但大多數(shù)研究還是集中在粗粒度的視覺特征上,忽略了數(shù)據(jù)集中與文本無關(guān)的噪聲圖像對(duì)結(jié)果預(yù)測(cè)產(chǎn)生的負(fù)面影響[26]。之前學(xué)者在這一方面已經(jīng)開發(fā)了跨模態(tài)關(guān)系檢測(cè)模塊來降低相關(guān)影響[27]。但這些方法缺乏對(duì)方面描述的語法依賴和情感信息的建模,這在情感分析中被證明是起著重要作用的[28]。Liang等人[29]基于文本的句法依賴關(guān)系構(gòu)建了交互式圖卷積網(wǎng)絡(luò)從而從特定方面捕捉特定交互信息,并構(gòu)建方面間卷積圖從而捕捉重要的上下文信息。
雖然之前關(guān)于多模態(tài)方面級(jí)情感分析的研究已經(jīng)取得了一定的成就,但與之前的研究不同,本文的特點(diǎn)是:充分考慮了模態(tài)間特征的不一致性,并且為了減少異質(zhì)信息的差異性,引入了基于細(xì)粒度圖文跨模態(tài)注意力機(jī)制模塊的方法來獲取基于方面的細(xì)粒度圖文匹配情感。同時(shí),考慮到情感分析任務(wù)的特點(diǎn),創(chuàng)新地將情感詞典引入模型進(jìn)行情感增強(qiáng),并利用注意力機(jī)制有效促進(jìn)情感特征和圖像文本特征之間的交互作用。
2 模型構(gòu)建
2.1 任務(wù)描述與模型介紹
對(duì)于一組多模態(tài)數(shù)據(jù)集D,每個(gè)數(shù)據(jù)樣本d∈D都包含一個(gè)給定的文本-圖像對(duì){S,V}。具體來說,由文本評(píng)論S={w1,w2,…,wm}、一個(gè)相關(guān)的圖像V和單詞數(shù)目為n的方面實(shí)體A={a1,a2,…,an}構(gòu)成,其中A是S的子序列。本文研究目標(biāo)是對(duì)樣本中的每個(gè)方面實(shí)體進(jìn)行消極、中立、積極三種情感的預(yù)測(cè)。
本文所提AAK模型整體框架如圖2所示。一共由四個(gè)部分構(gòu)成。a)特征提取模塊:分別利用RoBERTa[20]預(yù)訓(xùn)練語言模型和ResNet152[21]提取文本特征和圖像特征;b)基于細(xì)粒度圖像-方面的跨模態(tài)注意力機(jī)制模塊:首先通過跨模態(tài)注意力機(jī)制獲得基于文本的圖像表示,然后比對(duì)圖像中名詞和方面詞的相似性,優(yōu)化圖像表征得到細(xì)粒度圖像特征;c)文本情感卷積模塊:通過對(duì)基于SenticNet的情感得分和依賴樹鄰接矩陣進(jìn)行卷積,獲得豐富文本情感表示;d)模態(tài)融合模塊:通過將文本上下文表示、文本情感表示和基于文本的圖像表示共同輸入到Transformer中,使用softmax獲得最終的情感預(yù)測(cè)。
3 實(shí)驗(yàn)
3.1 實(shí)驗(yàn)設(shè)置
為了驗(yàn)證AAK的有效性,本文基于Twitter-2015和Twitter-2017公開數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證,并選取代表性的多模態(tài)方面級(jí)情感分析數(shù)據(jù)結(jié)果進(jìn)行實(shí)驗(yàn)對(duì)比。這兩個(gè)數(shù)據(jù)集的數(shù)據(jù)都是基于Twitter在2014~2015年,2016~2017年發(fā)表的包含文本和圖像的推文,在經(jīng)過Yu等人[28]標(biāo)注后形成包含單個(gè)或多個(gè)實(shí)體-情感極性組合的圖文多模態(tài)方面級(jí)情感分析數(shù)據(jù)集。具體來說,數(shù)據(jù)集的劃分如表1所示。
本文基于PyTorch深度學(xué)習(xí)框架搭建,實(shí)驗(yàn)環(huán)境如表2所示。同時(shí),為了防止模型出現(xiàn)過擬合等情況,通過多次實(shí)驗(yàn)后選取了如表3所示的具體數(shù)值。采用預(yù)訓(xùn)練模型RoBERTa對(duì)文本進(jìn)行詞嵌入和編碼,采用ResNet-152獲得圖像特征,詞向量和圖像向量維度均為768。將批處理大小設(shè)置為32,訓(xùn)練epoch設(shè)為10,K值設(shè)置為5,學(xué)習(xí)率設(shè)置為2E-5,并采用AdamW優(yōu)化器在驗(yàn)證集上優(yōu)化參數(shù)。特別地,將{λ,λn}在Twitter-2015上設(shè)置為{0.5,0.3},在Twitter-2017上設(shè)置為{0.3,0.3}。基于 PyTorch框架實(shí)現(xiàn)模型,并通過準(zhǔn)確率Acc (accuracy)和F1值(macro-F1)作為實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)。
3.2 基線對(duì)比實(shí)驗(yàn)
為了充分有效地證明AAK的有效性,本文選擇單模態(tài)和多模態(tài)模型分別作為AAK的對(duì)比基線來輔助判斷模型性能。
1)圖像模態(tài) Res-Target[30] :深度殘差網(wǎng)絡(luò)模型中的一種,用于做圖文情感預(yù)測(cè)任務(wù)。
2)文本模態(tài) a)BERT[27] :是一種基于 Transformer大規(guī)模的預(yù)訓(xùn)練語言模型;b)MGAN[26] :通過依賴關(guān)系和情感方面交互的情感檢測(cè)模型;c)AE-LSTM[31] :基于LSTM的注意力機(jī)制以獲得方面詞上下文語法語義信息的情感檢測(cè)模型;d)RoBERTa[32] :BERT的訓(xùn)練優(yōu)化策略,基于更大語料庫的預(yù)訓(xùn)練語言模型。
3)文本+圖像多模態(tài) a)AOM[33] :利用編碼-解碼結(jié)構(gòu)基于方面詞信息和情感表示信息獲得圖文信息匹配的情感預(yù)測(cè)模型;
b)TMSC [34] :從細(xì)粒度和粗粒度圖文信息匹配加強(qiáng)方面詞和圖像信息的匹配程度;
c)CapRoBERTa[18] :基于RoBERTa的Cap模型,是一種生成圖像字幕從而只基于文本的多模態(tài)情感分析模型;
d)ESAFN[35]" :是一種基于實(shí)體感知注意力的多模態(tài)情感預(yù)測(cè)模型;
e)IAMFN[36] :基于遞歸神經(jīng)網(wǎng)絡(luò)的注意力機(jī)制融合圖像-文本以學(xué)習(xí)上下文中每個(gè)方面詞的權(quán)重來學(xué)習(xí)模態(tài)內(nèi)上下文。
通過表4的結(jié)果對(duì)比,可以看出:a)單一模態(tài)背景下的多模態(tài)情感分析檢測(cè)模型效果相對(duì)不佳,這表明圖像任務(wù)在圖文檢測(cè)模型中起到重要的作用,但是無法作為主導(dǎo)模態(tài)來進(jìn)行情感預(yù)測(cè)。b)文本模態(tài)只有基于大規(guī)模的語料訓(xùn)練背景下才能比多模態(tài)背景下具有更高的實(shí)踐效果。RoBERTa的模型性能相較于BERT效果更好,表明RoBERTa在提取文本向量過程中具有更大優(yōu)勢(shì)。c)融合多模態(tài)信息的模型,相比之下效果都相對(duì)更好,表明了圖像雖然不能作為主導(dǎo)模態(tài),但是將圖像作為輔助模態(tài)進(jìn)行多模態(tài)情感檢測(cè)能夠取得更好的效果。d)實(shí)驗(yàn)結(jié)果在Twitter-2015上優(yōu)于基線模型TMSC。其中,Acc值提高了0.25百分點(diǎn),F(xiàn)1值提高了0.20百分點(diǎn)。這表明了加強(qiáng)情感計(jì)算和方面詞-圖注意力機(jī)制可以得到有效的多模態(tài)特征,從而提高情感預(yù)測(cè)結(jié)果。但是在Twitter-2017上,基于真實(shí)值的預(yù)測(cè)結(jié)果表現(xiàn)良好,F(xiàn)1值卻略低于基線模型TMSC,考慮到TMSC是一個(gè)方面詞查找和方面詞情感預(yù)測(cè)的多任務(wù)多模態(tài)方面級(jí)情感分析,由此分析可能是因?yàn)楸疚哪P头夯圆]有TMSC優(yōu)秀,從而在Acc高于TMSC的情況下,F(xiàn)1值卻低于該模型。
3.3 實(shí)驗(yàn)分析
3.3.1 AAK模型消融實(shí)驗(yàn)分析
為了分析模塊中各個(gè)部分對(duì)模型效果的影響,本部分進(jìn)行了消融實(shí)驗(yàn),結(jié)果如表5所示。
a)w/o圖像輔助信息模塊:為了研究圖像與方面詞相關(guān)的信息表示對(duì)多模態(tài)特征融合效果的影響,在完整模塊的基礎(chǔ)上將其刪除。
b)w/o細(xì)粒度跨模態(tài)注意力機(jī)制:為了研究基于方面的細(xì)粒度圖像篩選對(duì)跨模態(tài)情感預(yù)測(cè)的重要性,在完整模塊的基礎(chǔ)上將其刪除。
c)w/o基于細(xì)粒度圖像-方面的跨模態(tài)注意力機(jī)制:為了研究細(xì)粒度圖文匹配對(duì)跨模態(tài)情感預(yù)測(cè)結(jié)果的影響,在完整模塊的基礎(chǔ)上將其刪除。
d)w/o文本情感卷積模塊:為了研究以情感信息對(duì)最終情感預(yù)測(cè)的影響,在多模態(tài)情感分析中,在完整模塊的基礎(chǔ)上將其刪除。
從表5可以看出,移除任何一個(gè)模塊對(duì)最終結(jié)果都有顯著影響,接下來進(jìn)行具體分析:a)移除圖像輔助信息模塊,可以看到在兩個(gè)數(shù)據(jù)集上的Acc和F1值明顯下降,這表明利用ANPs得到的圖像名詞能夠使得圖像特征包含更多的方面詞信息以幫助進(jìn)行情感預(yù)測(cè)任務(wù)。b)移除細(xì)粒度跨模態(tài)注意力機(jī)制效果的下降證明了采用圖像輔助信息雖然可以有效地提升效果,但是可能會(huì)引入噪聲,從而也證明了細(xì)粒度篩選設(shè)計(jì)的有效性。c)移除基于細(xì)粒度圖像-方面的跨模態(tài)注意力機(jī)制在兩個(gè)數(shù)據(jù)集上的Acc和F1值下降最明顯,這說明了細(xì)粒度的方面詞-圖像匹配對(duì)于多模態(tài)情感預(yù)測(cè)是至關(guān)重要的,基于方面詞的細(xì)粒度圖像信息是多模態(tài)情感預(yù)測(cè)中值得重視的部分。d)移除文本情感卷積模塊,在兩個(gè)數(shù)據(jù)集上的Acc和F1值相較于圖像中的單一模塊也下降明顯,可以說明文本情感信息對(duì)捕捉多模態(tài)融合特征起到積極作用,文本中對(duì)應(yīng)的情感傾向可以有效地減少不同方面詞帶來的情感混淆問題,從而提高情感預(yù)測(cè)的準(zhǔn)確率。
3.3.2 ANPs中K的取值
從圖3可以看出,隨著ANPs數(shù)量的變化,模型性能在兩個(gè)數(shù)據(jù)集上的變化趨勢(shì)。當(dāng)K為5時(shí)模型取得了最佳性能,當(dāng)K大于5時(shí),模型性能在兩個(gè)數(shù)據(jù)集上均明顯下降。可能由于當(dāng)K過大時(shí),過多的圖像信息被送入模型中訓(xùn)練,圖像特征反而會(huì)引入額外噪聲從而導(dǎo)致模型性能下降。所以,最終將K設(shè)置為5。
3.3.3 重要性程度λ和λn的取值
為了研究λ和λn的取值對(duì)模型性能的影響,在(0,1)以0.1為步長(zhǎng)進(jìn)行了測(cè)試。圖4展示了模型在不同結(jié)果上的表示??梢园l(fā)現(xiàn)模型性能一開始會(huì)有所提升,但達(dá)到一個(gè)閾值之后,模型會(huì)趨于平穩(wěn)或下降??赡苡捎谧铋_始圖像中的名詞給多模態(tài)捕捉特定方面詞的圖像特征提供了幫助,從而提高了模型的性能。但隨著名詞的比重增大,模型學(xué)習(xí)到的是更大權(quán)重的圖像信息而沒有對(duì)文本中指定方面詞進(jìn)行學(xué)習(xí),從而偏離了主任務(wù)MABSA,導(dǎo)致性能下降。所以,最終將{λ,λn}在Twitter-2015設(shè)置為{0.5,0.3},在Twitter-2017設(shè)置為{0.3,0.3}。
3.3.4 案例分析
為了直觀分析模型的模塊效果,本文通過選取來自Twitter-2015和Twitter-2017公開的多模態(tài)方面級(jí)數(shù)據(jù)集中的樣本進(jìn)行案例分析。如表6所示,所選取的第一個(gè)樣本句中方面詞語有三個(gè),在文本中的敘述為:“親愛的Madonna,這是你圍披風(fēng)的方式啊?!睆倪@句話中,直接判斷周圍人和Madonna的說話方式是困難的。而在圖像中,可以發(fā)現(xiàn)Madonna是面露微笑的,基于細(xì)粒度圖像-方面的跨模態(tài)注意力機(jī)制有效幫助模型識(shí)別了圖像中對(duì)應(yīng)的句子主體的情感傾向,減少了句子和圖像中其他冗余信息的影響,從而使得AAK模型得到正確預(yù)測(cè)。在第二個(gè)樣本中,圖片中的人物沒有任何表情色彩,但是文本語句:“在緬因州巴斯附近騎行?小心這個(gè)家伙。他會(huì)攻擊你,并且多次稱呼你為fag!”在文本情感卷積模塊的幫助下,結(jié)合圖像特征,AAK模型能夠得到正確的情感預(yù)測(cè)結(jié)果。
為了進(jìn)一步展現(xiàn)AAK與基線模型的比較,取Twitter-2015數(shù)據(jù)集為例,圖5、6分別對(duì)其進(jìn)行了柱狀圖可視化分析??梢钥闯?,圖5、6分別將單模態(tài)和多模態(tài)模型與本文模型進(jìn)行了比較,模型效果優(yōu)于基礎(chǔ)的模型。如圖5所示,視覺模態(tài)模型由于僅含圖像不足以識(shí)別潛在的情感傾向,并且其表現(xiàn)不如文本模態(tài)模型。比較圖5、6可以看出,使用單一模態(tài)的方法在多模態(tài)情感分析任務(wù)上表現(xiàn)不佳,因此結(jié)合圖像和文本的多模態(tài)模型更適合于多模態(tài)情感分析。
4 結(jié)束語
本文構(gòu)建了一種細(xì)粒度圖像-方面情感增強(qiáng)的方面級(jí)情感分析模型。具體來說,該模型創(chuàng)新性地設(shè)計(jì)了細(xì)粒度圖像-方面的跨模態(tài)注意力機(jī)制,基于圖像中的名詞優(yōu)化圖像表征得到細(xì)粒度方面詞-圖像特征。此外,模型引入了一個(gè)情感分?jǐn)?shù)作為情感信息增強(qiáng)的手段,并利用文本句法結(jié)構(gòu)和情感信息融合得到豐富的文本情感表示。實(shí)驗(yàn)結(jié)果證實(shí),該模型顯著提升了情感分類的準(zhǔn)確性,并通過消融實(shí)驗(yàn)驗(yàn)證了細(xì)粒度情感-方面注意力機(jī)制及情感增強(qiáng)的實(shí)際應(yīng)用價(jià)值。然而,本文尚存在一些局限:a)研究數(shù)據(jù)集均為圖文數(shù)據(jù),未來需關(guān)注如何提高數(shù)據(jù)多樣性,以增強(qiáng)模型的泛化能力;b)本文雖針對(duì)縮小異質(zhì)信息差距提出了解決策略,但如何更有效地挖掘異質(zhì)信息的同質(zhì)化特征,以進(jìn)一步提升情感檢測(cè)性能,將是后續(xù)研究的重點(diǎn)方向。
參考文獻(xiàn):
[1]趙朝陽, 朱貴波, 王金橋. ChatGPT給語言大模型帶來的啟示和多模態(tài)大模型新的發(fā)展思路 [J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2023, 7(3): 26-35. (Zhao Chaoyang, Zhu Guibo, Wang Jinqiao. The inspiration brought by ChatGPT to LLM and the new development ideas of multi-modal large model [J]. Data Analysis and Knowledge Discovery, 2023, 7(3): 26-35.)
[2]Cheema G S, Hakimov S, Müller-Budack E,et al. A fair and comprehensive comparison of multimodal tweet sentiment analysis methods[C]//Proc of Workshop on Multi-Modal Pre-Training for Multimedia Understanding. New York: ACM Press, 2021: 37-45.
[3]Gandhi A, Adhvaryu K, Poria S,et al. Multimodal sentiment analysis: a systematic review of history, datasets, multimodal fusion me-thods, applications, challenges and future directions [J]. Information Fusion, 2023, 91: 424-444.
[4]Zeng Ziming, Sun Shouqiang, Li Qingqing. Multimodal negative sentiment recognition of online public opinion on public health emergencies based on graph convolutional networks and ensemble learning [J]. Information Processing amp; Management, 2023, 60(4): 103378.
[5]Zhao Tianyu, Meng Lingang, Song Dawei. Multimodal aspect-based sentiment analysis: a survey of tasks, methods, challenges and future directions [J]. Information Fusion, 2024, 112: 102552.
[6]黃俊, 劉洋, 王慶鳳, 等. 基于語序知識(shí)的雙通道圖卷積網(wǎng)絡(luò)方面級(jí)情感分析 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(3): 779-785. (Huang Jun, Liu Yang, Wang Qingfeng, et al. Dual-channel graph convolutional network with word-order knowledge for aspect-based sentiment analysis [J]. Application Research of Computers, 2024, 41(3): 779-785.)
[7]Ju Xincheng, Zhang Dong, Xiao Rong, et al. Joint multi-modal aspect-sentiment analysis with auxiliary cross-modal relation detection[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2021: 4395-4405.
[8]曾碧卿, 姚勇濤, 謝梁琦, 等. 結(jié)合局部感知與多層次注意力的多模態(tài)方面級(jí)情感分析[J/OL]. 計(jì)算機(jī)工程.(2024-06-28)[2024-11-03]. https://doi. org/10. 19678/j. issn. 1000-3428. 0069705. (Zeng Biqing, Yao Yongtao, Xie Liangqi, et al. Multimodal aspect-based sentiment analysis combining local perception and multi-level attention [J/OL]. Computer Engineering.(2024-06-28) [2024-11-03]. https://doi. org/10. 19678/j. issn. 1000-3428. 0069705.)
[9]Xu Lu, Li Hao, Lu Wei, et al. Position-aware tagging for aspect sentiment triplet extraction[C]//Proc of the 2020 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2020: 2339-2349.
[10]Zhao Fei, Wu Zhen, Long Siyu, et al. Learning from adjective-noun pairs: a knowledge-enhanced framework for target-oriented multimodal sentiment classification[C]// Proc of the 29th International Confe-rence on Computational Linguistics. [S.l.]:International Committee on Computational Linguistics, 2022: 6784-6794.
[11]Pang Shiguan, Xue Yun, Yan Zehao, et al. Dynamic and multi-channel graph convolutional networks for aspect-based sentiment ana-lysis[C]//Proc of the Association for Computational Linguistics: ACL-IJCNLP 2021. Stroudsburg, PA: Association for Computational Linguistics, 2021: 2627-2636.
[12]Liang Bin, Su Hang, Gui Lin, et al. Aspect-based sentiment analysis via affective knowledge enhanced graph convolutional networks [J]. Knowledge-Based Systems, 2022, 235: 107643.
[13]Liu Hui, Wang Wenya, Li Haoliang. Towards multi-modal sarcasm detection via hierarchical congruity modeling with knowledge enhancement[C]//Proc of the 2022 Conference on Empirical Methods in Na-tural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2022: 4995-5006.
[14]Zhou Jie, Huang J X, Hu Q V, et al. SK-GCN: modeling syntax and knowledge via graph convolutional network for aspect-level sentiment classification [J]. Knowledge-Based Systems, 2020, 205: 106292.
[15]Borth D, Ji Rongrong, Chen Tao, et al. Large-scale visual sentiment ontology and detectors using adjective noun pairs[C]//Proc of the 21st ACM International Conference on Multimedia. New York: ACM Press, 2013: 223-232.
[16]Chen Zhuang, Qian Tieyun. Relation-aware collaborative learning for unified aspect-based sentiment analysis[C]// Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 3685-3694.
[17]楊茹蕓, 馬靜. 一種融合知識(shí)與Res-ViT的特征增強(qiáng)多模態(tài)情感識(shí)別模型 [J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2023, 7(11): 14-25. (Yang Ruyun, Ma Jing. A feature-enhanced multi-modal emotion recognition model integrating knowledge and Res-ViT [J]. Data Analysis and Knowledge Discovery, 2023, 7(11): 14-25.)
[18]Khan Z, Fu Yun, Khan Z, et al. Exploiting BERT for multimodal target sentiment classification through input space translation[C]// Proc of the 29th ACM International Conference on Multimedia. New York: ACM Press, 2021: 3034-3042.
[19]Yang Hao, Zhao Yanyan, Qin Bing. Face-sensitive image-to-emotional-text cross-modal translation for multimodal aspect-based sentiment analysis[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2022: 3324-3335.
[20]Hwang Y, Kim J H. Self-supervised unimodal label generation strategy using recalibrated modality representations for multimodal sentiment analysis[C]// Proc of Findings of the Association for Computational Linguistics: EACL 2023. Stroudsburg, PA: Association for Computational Linguistics, 2023: 35-46.
[21]Mai Sijie, Zeng Ying, Zheng Shuangjia, et al. Hybrid contrastive learning of tri-modal representation for multimodal sentiment analysis [J]. IEEE Trans on Affective Computing, 2022, 14(3): 2276-2289.
[22]Ma Feipeng, Zhang Yueyi, Sun Xiaoyan. Multimodal sentiment ana-lysis with preferential fusion and distance-aware contrastive learning[C]// Proc of IEEE International Conference on Multimedia and Expo. Piscataway, NJ: IEEE Press, 2023: 1367-1372.
[23]歐陽夢(mèng)妮, 樊小超, 帕力旦·吐爾遜. 基于目標(biāo)對(duì)齊和語義過濾的多模態(tài)情感分析[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2024, 34(10): 171-177. (Ouyang Mengni, Fan Xiaochao, Palidan Turson. Multimodal sentiment analysis based on target alignment and semantic filtering [J]. Computer Technology and Development, 2024, 34(10): 171-177.)
[24]Lin Han, Zhang Pinglu, Ling Jiading, et al. PS-Mixer: a polar-vector and strength-vector mixer model for multimodal sentiment analysis [J]. Information Processing amp; Management, 2023, 60(2): 103229.
[25]Chen Tao, Yu F X, Chen Jiawei, et al. Object-based visual sentiment concept analysis and application[C]// Proc of the 22nd ACM International Conference on Multimedia. New York: ACM Press, 2014: 367-376.
[26]Xu Nan, Mao Wenji, Chen Guandan. Multi-interactive memory network for aspect based multimodal sentiment analysis [C]//Proc of AAAI Conference on Artificial Intelligence. 2019: 371-378.
[27]Devlin J, Chang Mingwei, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]// Proc of North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2019: 4171-4186.
[28]Yu Jianfei, Chen Kai, Xia Rui. Hierarchical interactive multimodal transformer for aspect-based multimodal sentiment analysis [J]. IEEE Trans on Affective Computing, 2023, 14(3): 1966-1978.
[29]Liang Bin, Yin Rongdi, Gui Lin, et al. Jointly learning aspect-focused and inter-aspect relations with graph convolutional networks for aspect sentiment analysis[C]// Proc of the 28th International Conference on Computational Linguistics.[S.l.]: International Committee on Computational Linguistics, 2020: 150-161.
[30]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 770-778.
[31]Wang Yequan, Huang Minlie, Zhu Xiaoyan, et al. Attention-based LSTM for aspect-level sentiment classification[C]// Proc of Confe-rence on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2016: 606-615.
[32]Liu Yinhan, Ott M, Goyal N, et al. RoBERTa: a robustly optimized BERT pretraining approach [EB/OL]. (2019-07-26). https://arxiv.org/abs/1907.11692.
[33]Zhou Ru, Guo Wenya, Liu Xumeng, et al. AoM: detecting aspect-oriented information for multimodal aspect-based sentiment analysis[C]// Proc of Findings of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2023: 8184-8196.
[34]Yu Jianfei, Wang Jieming, Xia Rui, et al. Targeted multimodal sentiment classification based on coarse-to-fine grained image-target ma-tching[C]// Proc of the 31st International Joint Conference on Artificial Intelligence.[S.l.]: International Joint Conferences on Artificial Intelligence Organization, 2022: 4482-4488.
[35]Chen Guimin, Tian Yuanhe, Song Yan. Joint aspect extraction and sentiment analysis with directional graph convolutional networks[C]// Proc of the 28th International Conference on Computational Linguistics.[S.l.]: International Committee on Computational Linguistics, 2020: 272-279.
[36]Wang Jinghong, Gao Yuan, Li Haokang. An interactive attention mechanism fusion network for aspect-based multimodal sentiment analysis[C]// Proc of International Conference on Machine Learning and Cybernetics. Piscataway, NJ: IEEE Press, 2023: 268-275.