• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于多層次特征融合注意力網(wǎng)絡的多模態(tài)情感分析

    2022-01-01 13:11:20王靖豪劉婷婷王媛怡柴艷杰
    中文信息學報 2022年10期
    關鍵詞:注意力關聯(lián)模態(tài)

    王靖豪,劉 箴,劉婷婷,王媛怡,柴艷杰

    (1. 寧波大學 信息科學與工程學院,浙江 寧波 315211;2. 寧波大學 科學技術學院信息工程學院,浙江 慈溪 315300)

    0 引言

    隨著網(wǎng)絡技術的發(fā)展,越來越多的人在社會媒體中發(fā)表觀點,及時發(fā)現(xiàn)這些觀點中的情感傾向對于理解用戶行為至關重要。社會媒體情感分析被廣泛應用于如心理健康檢測[1]、商業(yè)分析[2]、輿情監(jiān)控與分析[3]等領域。但是,現(xiàn)有的情感分析方法大多只關注文本[4]或圖像[5]等單模態(tài)數(shù)據(jù),難以適用于海量的多類型社會媒體數(shù)據(jù)(如視頻、音頻、圖像、文本等)。因此,結合不同模態(tài)數(shù)據(jù)的語義信息對社會媒體數(shù)據(jù)進行情感分析是亟待深入研究的。

    分析多模態(tài)數(shù)據(jù)情感的前提是將來自不同模態(tài)的關聯(lián)語義信息融合。研究表明[6-7],多模態(tài)數(shù)據(jù)中的文本情感詞、語音語調、圖像局部區(qū)域之間存在著相互關聯(lián)、相互補充的語義信息。如何提取模態(tài)間的關聯(lián)語義信息,是進行多模態(tài)情感分析的重點。針對于此,研究者進行了一些相關工作的探索。Zadeh等[8]為了捕捉各模態(tài)間的關聯(lián)語義信息,在進行文本、圖像、語音特征的提取時,利用注意力機制獲得每個時刻的模態(tài)關聯(lián)語義信息。在此研究的基礎上,他們[9]進一步考慮了視頻中的各模態(tài)上下文和模態(tài)間的相關性,同時捕捉模態(tài)間和時序間的關聯(lián)語義信息。Mittal等[10]使用基于注意力的方法和格蘭杰因果關系對時間因果關系進行顯式建模,并綜合各種因素,獲得了豐富的情感表征。然而,采取融合各模態(tài)整體信息的方法會引入大量噪聲,造成信息冗余。現(xiàn)實中,人們常以圖文并茂的方式在社交媒體中表達情感。大多以文本結合圖像的方式進行,并選取能夠相互映射的文本和圖像來凸顯自身的情感態(tài)度。基于此,Huang等[11]利用注意力機制尋找文本和圖像之間的情感對應關系,并將生成具有關聯(lián)的文本和圖像特征向量進行融合,輸入到分類層中,從而預測情感。Xu等[12]從兩個方向提取文本和圖像之間的關聯(lián)信息,在一定程度上彌補了模態(tài)間的語義鴻溝。Han等[13]提出了雙向雙模態(tài)融合網(wǎng)絡,對兩種模態(tài)特征表示執(zhí)行相關性增量操作和差異增量操作,進而提取模態(tài)間的關聯(lián)信息。上述方法在特征融合過程中均沒有考慮到多模態(tài)間的層次關聯(lián)信息和互補信息。多模態(tài)數(shù)據(jù)在不同層次上表達出不同的情感信息,如文本中的詞、短語、句子、文檔和圖像中的局部信息、全局信息分別對應不同的情感信息。因此,忽略了不同模態(tài)層次間的關聯(lián)信息,情感分析將無法得到可靠和有效的結果。

    本文針對社會媒體多模態(tài)情感分析中沒有考慮模態(tài)間多層次關聯(lián)信息、特征融合信息冗余等問題,提出了基于多層次特征融合的注意力網(wǎng)絡。由于社會媒體中的音頻和視頻數(shù)據(jù)集難以收集,本文提出的模型主要針對社會媒體中的圖文數(shù)據(jù)處理,模型由多模態(tài)層次特征注意力網(wǎng)絡和多模態(tài)特征融合策略組成。多模態(tài)層次特征注意力網(wǎng)絡是由多層次文本特征注意力網(wǎng)絡和多層次圖像特征注意力網(wǎng)絡構成。其中,多層次文本特征注意力網(wǎng)絡利用文本中的詞、短語、文檔來引導圖像區(qū)域的情感權重,多層次圖像特征引導的注意力網(wǎng)絡利用圖像中的全局信息和局部信息來引導文本中詞的情感權重,從兩個方向捕捉不同模態(tài)間的關聯(lián)信息,生成具有情感語義信息的“圖文”特征和“文圖”特征。最后,利用多模態(tài)融合策略對得到的多層次關聯(lián)特征進行線性拼接,將其作為最終情感感知的特征,從而得到預測的情感標簽。本文的主要貢獻如下:

    (1) 本文把圖文多模態(tài)信息層次關聯(lián)理解為“圖文”特征與“文圖”特征之間的信息互補問題,并提出了多層次特征融合注意力網(wǎng)絡情感分析模型。該模型能有效地捕捉模態(tài)間的多層次情感關聯(lián)信息,并能減少信息冗余。

    (2) Yelp和MultiZOL數(shù)據(jù)集上的實驗結果表明,本文提出的模型效果均優(yōu)于目前主流的方法。并且證明了提取模態(tài)間相互補充的層次特征情感信息能夠有效感知社會媒體多模態(tài)數(shù)據(jù)中的情感。

    本文的組織結構安排如下: 第1節(jié)介紹了目前的相關研究進展,并分析其優(yōu)劣;第2節(jié)詳細描述了本文所提出的模型;第3節(jié)為實驗研究與分析,以證明本文提出的模型信息對情感分析的有效性;第4節(jié)為本文研究的結論和對本研究領域的展望。

    1 相關工作

    1.1 單模態(tài)情感分析研究

    1.1.1 文本情感分析

    現(xiàn)有的文本情感分析方法主要分為基于情感詞典的方法、基于機器學習的方法和基于深度學習的方法?;谇楦性~典的方法通過句法特征、語義特征、語法規(guī)則提取出文本包含的情感詞,并以此進行情感分析。例如,Stone等[14]通過構建情感詞典,由情感詞來計算文本的整體情感極性?;跈C器學習的方法通過統(tǒng)計學將人工標注的訓練語料作為訓練集,提取情感特征,并進行情感分類。例如,Wiebe等[15]構建了大型語料庫,利用機器學習分類器建立基于情感的預測模型。深度學習的方法能夠主動抽取文本特征,節(jié)省人工時間。Kim等[16]首次使用卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)進行文本情感分類。Socher等[17]使用遞歸神經(jīng)網(wǎng)絡(recurrent neural network,RNN)來進行情感分析,克服了卷積神經(jīng)網(wǎng)絡無法提取序列順序信息的缺點。隨后,Wang等[18]利用長短時記憶網(wǎng)絡(long-short term memory,LSTM)抽取文本上下文序列間的隱藏信息。在此基礎上,Basiri等[19]利用兩個獨立的雙向LSTM和GRU層來提取時間流上過去和未來的上下文信息,極大提高了文本情感分析的準確性。

    1.1.2 圖像情感分析

    近年來,圖像的情感識別和分析也在快速發(fā)展。You等[20]首先提出了對圖像情感分析的卷積神經(jīng)網(wǎng)絡架構,并在手動標記的twitter圖像數(shù)據(jù)集上進行了驗證。Sun等[21]提出了一種基于深度框架的情感區(qū)域檢測算法,使用預先訓練好的CNN模型計算檢測到情感區(qū)域的情感得分,該方法能夠有效地檢測出情感區(qū)域。You等[22]研究了局部圖像區(qū)域對視覺情感分析的影響,認為局部圖像區(qū)域與人類對整體的情感反應密切相關,于是利用注意力機制發(fā)現(xiàn)共同相關的局部區(qū)域,并在局部區(qū)域上建立情感分類。He等[23]提出了一種新的多注意力金字塔模型(MAP)用于視覺情感分析,該模型從全局圖像的多個局部區(qū)域中提取局部視覺特征,然后加入自注意力機制挖掘局部視覺特征之間的關聯(lián),最終實現(xiàn)情感表征。其后,Ou等[24]提出了一種結合局部表示和全局表示的多層次視覺情感分析方法,提取不同程度語義信息和多層次的情感表征,改善了不同區(qū)域信息提取不充分的缺點。

    1.2 多模態(tài)情感分析研究

    從特征融合的角度來看,多模態(tài)情感分析研究主要分為特征級融合、決策級融合和混合融合。

    特征級融合以拼接、相加等方式融合不同模態(tài)特征的向量表示,形成一維的向量。例如,Rosas等[25]對視頻進行特征提取,將語音特征、文本特征和圖像特征進行拼接后生成融合特征,并將其送入SVM中進行情感分類。Poria等[26]利用LSTM提取了時序上的視覺特征,并與文本和音頻特征進行融合。Wu等[27]觀察到任意兩種模態(tài)之間的交互作用是不同的,并且它們對最終情感預測的貢獻并不相等,于是提出了基于多頭自注意力機制的融合網(wǎng)絡,通過合理地分配聲學-視覺、聲學-文本等特征權重,獲得重要的情感特征。然而,特征級融合方法無法獲得模態(tài)間的層次關聯(lián)信息,且會引入大量噪聲,造成特征冗余。

    決策級融合對每個模態(tài)的特征進行獨立建模與分析,將分析的情感類型概率結果融合為最終預測的情感結果。例如,Yu等[28]提出了一種利用CNN對微博中圖像和文本的情感分析方法,該方法通過CNN和DNN分別對圖像數(shù)據(jù)和文本數(shù)據(jù)進行情感分析,最后用權重和平均策略進行結果的融合。在此基礎上,Setiawan等[29]添加了一種從文本和圖像派生的概念模態(tài),利用集成學習將每個分類器對圖像、文本和概念的預測概率結合起來,實現(xiàn)了一個元分類器,通過圖像-文本概念特征的融合來預測最終的情感。除此以外,Poria等[30]利用深度CNN對視頻中的三種模態(tài)進行情感分析,并對每種模態(tài)的分析結果進行最后的決策級融合。雖然決策級融合方法可以針對不同模態(tài)數(shù)據(jù)選擇最優(yōu)的分類器模型,但是分類器的增加使得整體模型非常耗時和繁瑣,且沒有考慮到模態(tài)間的交互信息。

    混合融合通過對不同模態(tài)特征編碼,獲取相應的特征表示,最后進行融合并分類。例如,You等[31]提出了一種基于注意力機制與LSTM相結合的模型,用來學習圖像-文本聯(lián)合語義表示。Zadeh等[32]提出了張量融合網(wǎng)絡(TFN)模型,將各模態(tài)數(shù)據(jù)提取出的不同模態(tài)特征進行外積運算,得到融合特征并輸入到全連接層進行情感分類。Truong等[33]提出使用注意力機制來指出文本中重要的部分,從詞、句子特征分析情感傾向。Wen等[34]提出了跨模態(tài)上下文門控卷積網(wǎng)絡,引入了跨模態(tài)上下文門的概念,使其能有效地捕獲模態(tài)間的交互信息,同時減少不相關信息的影響。盡管基于混合融合的方法取得了較好的效果,但對于模態(tài)間的層次關聯(lián)信息并沒有進行充分的考慮。

    2 模型

    本文在構造網(wǎng)絡模型時,受到Glove、注意力機制、VGG和Faster-RCNN的啟發(fā)。其中,Glove是基于全局詞頻統(tǒng)計的詞特征提取工具,由Pennington等人[35]提出。Glove把每個單詞表達成一個由實數(shù)組成的向量,在這些向量中,包含了詞之間的某些語義特性,如類比性、相似性等。因此,在本文中,我們使用Glove來處理文本,獲得基礎的語義信息。注意力機制借鑒了人類視覺對事物選擇性注意的特點,以獲得需要重點關注的目標區(qū)域。Mnih等人[36]首次在深度網(wǎng)絡RNN中加入注意力機制來進行圖像的分類,證明了加入注意力機制的網(wǎng)絡能夠更好地學習到關鍵特征。VGG模型是Simonyan等人[37]在ILSVRC2014上提出的,通過增加網(wǎng)絡結構的深度能夠提升網(wǎng)絡的最終性能,能夠更好地提取圖像的全局特征。Ren等人[38]對幾種常見的視覺檢測模型進行了改進,提出Faster-RCNN模型。該模型能夠檢測圖像上的重要區(qū)域,對圖像局部特征的提取做出了很大的貢獻。

    基于上述模型,本文提出了一種多層次特征融合注意力網(wǎng)絡進行情感分析。模型框架可分為四個主要模塊: 文本-圖像多層次注意力網(wǎng)絡模塊、圖像-文本多層次注意力網(wǎng)絡模塊、特征融合模塊、分類輸出模塊。模型結構如圖1所示。

    圖1 模型框架結構圖

    2.1 文本-圖像多層次注意力網(wǎng)絡模塊

    在本模塊中,使用構造的文本圖像多層次注意力網(wǎng)絡獲取多層次文本與圖像特征之間的關聯(lián)信息,用于反映文本和圖像特征的相關性強弱。對于每個單詞wi,k,k、i代表了第k句話的第i個詞,使用預訓練好的Glove詞嵌入模型,獲取模型的嵌入矩陣Wg,得到詞向量ci,k∈Rdc,然后在每一個時間步上使用最大池化來獲得詞級嵌入Ci,如式(1)、式(2)所示。

    考慮到詞匯的語義并不能完全表達出文本情感信息,且句子的長度并不統(tǒng)一,因此本文選擇提取文本的短語級特征,短語定義為由若干個相連的詞匯組成。在實驗中,我們使用窗口為4的一維卷積網(wǎng)絡進行詞嵌入得到短語級的向量。對于可能出現(xiàn)的不足4個單詞的短語,我們再使用0填充詞向量。最后在每個時間步長上使用最大池化操作來獲得短語級嵌入pi,如式(3)、式(4)所示。

    其中,pi,j∈Rdp是第j個詞的卷積輸出,*是卷積操作過程,We是卷積層對應的權重參數(shù)矩陣。接著使用LSTM對整個文本中的所有詞嵌入編碼,得到文檔層級嵌入Di,如式(5)所示。

    對于圖像數(shù)據(jù),本文采用經(jīng)ImageNet數(shù)據(jù)集預訓練后的VGG-19模型處理,并取最后一層卷積層中14×14個區(qū)域特征為全局特征,如式(6)所示。

    為了學到注意力權重,分別把文本各層次特征表示和圖像全局特征表示映射到同一值范圍。

    在本文的研究中,對于一個文本,與之對應的圖片數(shù)量是M,累加每個圖片對文本多層次聯(lián)合特征的權值,得到關于每組圖片對于對應文本的注意力特征Ui,如式(15)所示。

    2.2 圖像-文本多層次注意力網(wǎng)絡模塊

    以往研究中沒有考慮到關于圖像的多層次特征,僅是通過卷積神經(jīng)網(wǎng)絡來獲取圖像的全局特征。而圖像的多層次特征能夠提供更多隱藏的信息,能改善信息提取不足的問題。在本模塊中,我們提出圖像文本多層次注意力網(wǎng)絡來獲取多層次圖像和文本之間的相關性,用于計算圖像特征和文本特征相關程度。

    (16)

    (17)

    (18)

    采用內積法獲得圖像文本多層次聯(lián)合注意力特征向量Qi,m,為了約束聯(lián)合特征的大小,使用L2歸一化聯(lián)合注意特征。

    在本文的研究中,對于一個文本,與之對應的圖片數(shù)量是M,累加文本對每個圖片多層次注意聯(lián)合特征得到關于文本對應每組圖片的注意力特征Qi,如式(20)所示。

    2.3 特征融合與分類輸出

    通過上述的文本圖像多層次注意力網(wǎng)絡和圖像文本多層次注意力網(wǎng)絡的處理,分別獲得了圖像對多層次文本聯(lián)合注意力特征Ui和文本對多層次圖像聯(lián)合注意力特征Qi,對兩種特征進行線性拼接得到Hi,如式(21)~式(23)所示。

    其中,concat代表線性拼接操作,Wo是softmax函數(shù)中的參數(shù)矩陣,bo為偏置項,ρ為得到分類后的概率,y表示真實標簽值,在模型訓練時,采用最小化交叉熵損失函數(shù)來優(yōu)化模型。

    3 實驗

    3.1 數(shù)據(jù)集

    Yelp開放數(shù)據(jù)集: Yelp開放數(shù)據(jù)集中包括對美國8個大都市的16萬家餐廳、酒店等娛樂場所的863萬個文本評價和20多萬張相關圖片。本文選取了Yelp數(shù)據(jù)集中關于五個大城市中餐廳的部分文本評論和圖片,數(shù)據(jù)的標簽以用戶評價內容中的情感評分1到5來表示。數(shù)據(jù)集統(tǒng)計情況如表1所示,從表中可以看出,數(shù)據(jù)集中總體評論的文本數(shù)量有4萬多條,對應的圖片有24萬多張,每一個文本評論對應的圖片至少有三張。

    表1 Yelp數(shù)據(jù)集統(tǒng)計表

    MultiZOL數(shù)據(jù)集: MultiZOL數(shù)據(jù)集是Xu等[12]在ZOL.com網(wǎng)址上抓取的熱門手機評論,數(shù)據(jù)集中有12 587條評論,其中7 359條單模態(tài)評論,5288條多模態(tài)評論。在此數(shù)據(jù)集中,每個多模態(tài)評論包含一個文本內容、一個圖像集和一個用戶情感評價分數(shù)。根據(jù)用戶評價分數(shù)將多模態(tài)評論數(shù)據(jù)分為消極、積極、中性三種情感等級,數(shù)量分別為1 053、3 127和1 108個。

    本文的目的是針對這些數(shù)據(jù)集中的文本和圖片評論進行情感等級分類。其中,Yelp數(shù)據(jù)集收集了大量用戶對各種娛樂場所的評論(包括文本和圖片),用戶在評論時進行情感態(tài)度評分(用戶有1到5五個評分選擇),這5個情感強度等級是根據(jù)數(shù)據(jù)集中用戶的情感態(tài)度評分進行劃分的,對應于情感標簽的5個類別。MultiZOL數(shù)據(jù)集收集了大量用戶對手機的評論(包括文本和圖片),同樣的,用戶在評論后進行情感態(tài)度評分,根據(jù)用戶評分分成消極、積極和中性三種情感等級,對應于情感標簽的3個類別。對于整個數(shù)據(jù)集,數(shù)據(jù)劃分為將80%的數(shù)據(jù)作為訓練集,5%的數(shù)據(jù)作為驗證集,15%的數(shù)據(jù)作為測試集。

    3.2 實驗參數(shù)設置

    為了獲取模型的最優(yōu)參數(shù)集合,在進行模型的優(yōu)化時,需要調節(jié)的超參數(shù)以及獲得最優(yōu)模型時的超參數(shù)如表2所示。

    表2 超參數(shù)設置

    續(xù)表

    3.3 評估準則

    在本文實驗中,采用宏平均精確率(Marco-precision,P)、宏平均召回率(Marco-recall,R)、宏平均調和平均數(shù)(MarcoF1-score,F(xiàn)1)來評估情感分析模型的效果,計算如式(24)~式(26)所示。

    其中,n為分類的類別數(shù),prei表示第i類的精確率,reci表示第i類的召回率,F(xiàn)1i表示第i類的調和平均數(shù)。

    3.4 基準模型

    隨著互聯(lián)網(wǎng)和社會媒體的廣泛普及,針對多模態(tài)數(shù)據(jù)的情感分析也隨之發(fā)展,多模態(tài)情感分析領域因此產生了很多優(yōu)秀的模型,在本文的實驗中,選取了近幾年來表現(xiàn)相對優(yōu)異的模型進行對比分析。

    ?BIGRU-VGG: Tang等人[39]使用BiGRU來學習文本的特征表示,BiGRU對順序數(shù)據(jù)很有效果,用來提升文本特征表示,BiGRU-VGG同時使用VGG網(wǎng)絡模型來對圖像數(shù)據(jù)進行特征提取,把得到的文本特征表示和圖像特征表示拼接起來,最后輸送到分類層進行情感分類。其中,BiGRU-AVGG是在特征融合之前經(jīng)過平均池化處理圖像特征,BiGRU-MVGG是在特征融合之前經(jīng)過最大池化處理圖像特征。

    ?HAN-VGG: Yang等人[40]利用多層次文本注意力來學習文本的特征表示,同時使用VGG網(wǎng)絡模型來對圖像特征進行提取,把得到的多層次文本特征表示和圖像特征表示拼接起來,最后把融合后的特征向量輸入到分類層。其中,HAN-AVGG是在特征融合之前經(jīng)過平均池化處理的圖像特征,HAN-MVGG是在特征融合之前經(jīng)過最大池化處理的圖像特征。

    ?TFN: Zadeh等人[32]提出張量融合網(wǎng)絡進行情感分析,使用張量融合層來融合文本特征與圖像特征,通過情感推理子網(wǎng)進行反饋,最后得到情感分類的結果。其中,TFN-AVGG是在特征融合之前經(jīng)過平均池化處理圖像特征,TFN-MVGG是在特征融合之前經(jīng)過最大池化處理圖像特征。

    ?VistaNet: Truong等人[33]提出視覺注意力網(wǎng)絡,通過詞嵌入與軟注意力網(wǎng)絡來表示文本特征,同時,在圖像特征提取時采用VGG模型,利用注意力機制來引導圖像增強文本情感的特征表示,并融合圖片對文本的注意力特征,最后進行情感分類。

    3.5 實驗結果與分析

    3.5.1 實驗對比分析

    在本文中,為了驗證提出的基于多層次特征融合注意力網(wǎng)絡的優(yōu)越性以及從兩個方向提取注意力特征對圖文情感分析的效果的有效性,本文選擇了近年來多模態(tài)情感分析中的BiGRU-VGG、HAN-ATT-VGG、TFN、VistaNet進行效果對比,對比結果如表3和表4所示。

    表3 在YELP數(shù)據(jù)集上的對比結果 (單位: %)

    表4 在MultiZOL數(shù)據(jù)集上的對比結果 (單位: %)

    續(xù)表

    表3和表4呈現(xiàn)的是本文提出的模型與近年來多模態(tài)情感分析模型分別在Yelp和MultiZOL數(shù)據(jù)集上的實驗對比結果。對比利用高維特征融合的TFN網(wǎng)絡模型結果,本文提出的模型在三項評估指標上均優(yōu)于TFN約20%。這在一定程度上表明,TFN雖然對每種特征進行了充分的融合,但是也引入了大量的冗余信息和噪聲,使得TFN無法達到最好的效果,而利用注意力機制能夠很好地避免這種風險。本文通過相互為文本和圖像的不同區(qū)域分配不同的注意力權重,使得模型關注到文本和圖像之間的關聯(lián)情感信息,降低特征冗余和噪聲的影響,進而使模型效果更優(yōu)。在同BiGRU-VGG的對比中,本文模型精確率分別提高了近13%和16%。BiGRU-VGG利用BIGRU提升了文本情感信息特征表示,但是情感分析的效果并沒有得到很大的提高,這在一定程度上說明僅在單模態(tài)特征提取上的優(yōu)化工作無法彌補模態(tài)間的語義鴻溝。而本文模型捕捉到了模態(tài)間的相互關聯(lián)信息,沒有割裂模態(tài)之間聯(lián)系。在同HAN-VGG的對比中可以看出,HAN-VGG與BiGRU-VGG之間的效果差異并不巨大,這是因為HAN-VGG是在BIGRU-VGG的基礎上,僅利用注意力機制在文本上提取多層次的文本特征,并沒有對如何獲取模態(tài)間的關聯(lián)語義信息進行改善。本文模型不僅對文本進行了多層次的提取特征,還利用注意力機制捕捉了文本多層次特征與圖像特征的關系。在與VistaNet的對比中可以看出,VistaNet相對于上述的幾個模型在效果上都有顯著的提高,這是因為VistaNet在BiGRU-VGG和HAN-VGG的基礎上從詞、句子層面利用注意力機制提取與圖像相關的情感區(qū)域,以圖像注意力為導向,提取與之相關的重要文本特征,這在一定程度上減少了噪聲和信息冗余。本文提出的模型在與VistaNet相比中,各方面指標都有所提升,其中精確率分別提升了約1%和2%。這是由于本文的模型針對圖文多模態(tài)數(shù)據(jù),同時考慮了文本多層次特征與圖像特征之間及圖像多層次特征與文本特征之間的關聯(lián)性,綜合了模態(tài)之間的關聯(lián)交互信息和模態(tài)間的互補信息,提取了更完整的情感關聯(lián)語義信息。

    3.5.2 消融實驗

    為了驗證本文模型的有效性,在相應參數(shù)保持不變的情況下,考慮不同子模型的影響。我們將本文提出的模型與其“文圖”和“圖文”子模型進行對比,實驗結果如表5、表6所示。

    表5 在Yelp數(shù)據(jù)集上的消融實驗結果 (單位: %)

    表6 在MultiZOL數(shù)據(jù)集上的消融實驗結果 (單位: %)

    在表5、表6中,Text-Images代表文本圖像多層次注意力網(wǎng)絡模型,Images-Text代表圖像文本多層次注意力網(wǎng)絡模型。從對比結果中可以看出,本文模型的效果均要好于Text-Images和Images-Text。這是因為Text-Images只獲取圖像特征與多層次文本特征之間的關聯(lián)信息,忽略了文本特征與多層次圖像特征之間的關聯(lián)信息,Images-Text只獲取多層次圖像特征與文本特征之間的關聯(lián)信息,忽略了多層次文本特征與圖像特征之間的關聯(lián)信息。本文模型從兩個方向進行模態(tài)間情感特征的提取,并融合兩個子模型的多層次關聯(lián)信息,在一定程度上改善了情感關聯(lián)信息提取不充分的缺點。本文模型在多模態(tài)情感分析上的優(yōu)越表現(xiàn),證明了模態(tài)間的層次關聯(lián)信息和互補信息在多模態(tài)情感分析中起到重要作用。

    4 結論與展望

    針對當前社會媒體多模態(tài)數(shù)據(jù)間層次關聯(lián)信息的分析不足,本文提出了一種基于多層次特征融合注意力網(wǎng)絡的情感分析模型。通過注意力網(wǎng)絡捕捉多層次圖文特征和多層次文圖特征之間的關聯(lián)信息,減少信息冗余。最后利用多模態(tài)融合策略對得到的多層次關聯(lián)特征進行線性拼接,并將其作為最終情緒感知的特征,從而得到預測的情感標簽。本文將提出的模型在真實的數(shù)據(jù)集上進行了驗證研究,并與近年來不同的基線模型進行效果對比分析,實驗結果表明,本文提出的模型具有一定的優(yōu)勢。

    目前,社會媒體中帶有情感標簽的音頻、視頻數(shù)據(jù)仍比較稀少,因此本文模型目前只應用在社會媒體中包含圖像和文本的數(shù)據(jù)集上,缺少在其他模態(tài)數(shù)據(jù)上的驗證。未來工作中,我們將嘗試設計一種無監(jiān)督的社會媒體情感分析方法,從而在社會媒體中更好地自動感知情感。同時,如何更有效地捕捉不同模態(tài)間的關聯(lián)和交互信息、減少信息冗余和噪聲都將是多模態(tài)情感分析領域未來研究的重點。

    猜你喜歡
    注意力關聯(lián)模態(tài)
    讓注意力“飛”回來
    “一帶一路”遞進,關聯(lián)民生更緊
    當代陜西(2019年15期)2019-09-02 01:52:00
    奇趣搭配
    “揚眼”APP:讓注意力“變現(xiàn)”
    傳媒評論(2017年3期)2017-06-13 09:18:10
    智趣
    讀者(2017年5期)2017-02-15 18:04:18
    A Beautiful Way Of Looking At Things
    國內多模態(tài)教學研究回顧與展望
    基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
    由單個模態(tài)構造對稱簡支梁的抗彎剛度
    計算物理(2014年2期)2014-03-11 17:01:39
    語言學與修辭學:關聯(lián)與互動
    當代修辭學(2011年2期)2011-01-23 06:39:12
    古浪县| 邳州市| 拉萨市| 恩施市| 蒙山县| 兰溪市| 灵宝市| 山西省| 贵州省| 图木舒克市| 望城县| 青岛市| 德安县| 正安县| 华宁县| 电白县| 吉水县| 磐石市| 涞水县| 南昌县| 庆城县| 龙海市| 那曲县| 三门县| 崇阳县| 资中县| 安宁市| 铜梁县| 乳山市| 四子王旗| 清镇市| 额济纳旗| 平利县| 河东区| 聊城市| 巧家县| 晋江市| 桐乡市| 运城市| 姜堰市| 临洮县|