楊春霞,吳亞雷,閆晗,黃昱錕
(1.南京信息工程大學(xué)自動化學(xué)院,江蘇 南京 210044;2.江蘇省大數(shù)據(jù)分析技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210044;3.江蘇省大氣環(huán)境與裝備技術(shù)協(xié)同創(chuàng)新中心,江蘇 南京 210044)
情感分析已成為自然語言處理中的熱門話題。方面級情感分析旨在確定句子中給定方面的情感極性。例如:“great food but the service was dreadful”給定2個(gè)方面詞food和service,目標(biāo)是推斷方面詞的情感極性:food為正面,service為負(fù)面。方面級情感分析可以讓用戶對特定方面的意見進(jìn)行細(xì)粒度分析,是許多自然語言處理任務(wù)的基礎(chǔ),近年來引起了廣泛的關(guān)注。
方面級情感分析的早期研究大多使用機(jī)器學(xué)習(xí)算法來構(gòu)建情感分類器。后來,研究者針對這項(xiàng)任務(wù)提出了各種神經(jīng)網(wǎng)絡(luò)模型,包括長短期記憶(LSTM)[1]網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)[2]和深度記憶網(wǎng)絡(luò)(MemNet)[3]。以上模型將句子表示為一個(gè)詞序列,忽略了詞與詞之間的句法關(guān)系,因此它們很難找到遠(yuǎn)離方面詞的意見詞。為了解決這個(gè)問題,人們開始利用基于圖的模型來整合句子的句法結(jié)構(gòu),并顯示出比不考慮句法關(guān)系的模型更好的性能。但僅基于語法的方法忽略了語料庫中的詞共現(xiàn)信息,而這些信息又是大量存在且不可忽視的[4]。例如,在句子“food was okay, nothing special”中,詞對nothing special在SemEval訓(xùn)練集中出現(xiàn)了5次,表示負(fù)極性。如果沒有這樣的全局信息來抵消okay的積極影響,基于語法的方法將對food做出錯(cuò)誤的情感預(yù)測。因此,為了能夠充分利用到語料庫中的詞共現(xiàn)信息,本文首先使用全局詞匯圖對語料庫中的詞共現(xiàn)信息進(jìn)行編碼,然后在詞共現(xiàn)圖和語法圖上分別進(jìn)行雙層卷積。這樣,在考慮句子語法信息的同時(shí),也能有效地利用語料庫中的詞共現(xiàn)信息,從而達(dá)到更好的分類效果。
此外,當(dāng)前對提取出的特征的處理方法主要是直接屏蔽掉非方面詞,然而,這樣有可能會遺漏與方面詞有關(guān)的情感信息。門控線性單元(GLU)是卷積神經(jīng)網(wǎng)絡(luò)中的一種門控機(jī)制,與循環(huán)神經(jīng)網(wǎng)絡(luò)的門控循環(huán)單元(GRU)相比,門控線性單元更容易進(jìn)行梯度傳播,不易造成梯度消失或者梯度爆炸,且能大幅度減少計(jì)算時(shí)間。此外,門控機(jī)制控制信息在網(wǎng)絡(luò)中流動的路徑已被證明對神經(jīng)網(wǎng)絡(luò)有很好的效果。
基于以上分析,本文提出一種融合雙圖卷積與門控線性單元的方面級情感分析模型(BGGCN),主要貢獻(xiàn)如下:
1)采用2種圖結(jié)構(gòu)獲取句子的詞匯信息與語法信息,使用卷積模塊進(jìn)行建模,并將2種建模后的結(jié)果進(jìn)行交互,有效地利用了語料庫中的詞共現(xiàn)信息,彌補(bǔ)了單獨(dú)使用句法結(jié)構(gòu)的缺陷。
2)使用門控線性單元控制模型提取的情感信息,幫助模型更加精確地對方面詞進(jìn)行情感分類。
3)使用4個(gè)SemEval數(shù)據(jù)集進(jìn)行廣泛的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明所提模型較對比模型取得了顯著的性能提升。
當(dāng)前方面級情感分類的研究主要集中在如何準(zhǔn)確地利用語法信息,因?yàn)檎Z法信息可以提供特定方面與情感表達(dá)之間的關(guān)系信息。因此,研究者采用基于圖的模型來整合句法結(jié)構(gòu),基本思想是將依存樹轉(zhuǎn)換為圖,然后使用圖卷積網(wǎng)絡(luò)(GCN)或圖注意網(wǎng)絡(luò)(GAT)將信息從語法鄰域意見詞傳播到方面詞。ZHANG等[5]提出在句子的依存樹上使用GCN,以利用上下文的句法信息和方面的單詞依存關(guān)系。HUANG等[6]提出了一個(gè)目標(biāo)依存圖注意力網(wǎng)絡(luò),通過探索上下文詞之間的依存關(guān)系來學(xué)習(xí)每個(gè)方面的情感信息。SUN等[7]在LSTM上堆疊了GCN層來完成方面級情感分類的任務(wù),利用雙向LSTM(Bi-LSTM)模型來學(xué)習(xí)句子的上下文特征,并進(jìn)一步在依存樹上執(zhí)行卷積操作以提取豐富的方面級情感表示。盡管這些方法很有效,但基于語法的方法忽略了語料庫中的詞共現(xiàn)信息,而這些信息又是大量存在且不可忽視的。AF-LSTM方法[8]通過計(jì)算方面和上下文之間的循環(huán)相關(guān)性或循環(huán)卷積并將它們輸入到關(guān)注層,來利用方面和上下文間的單詞共現(xiàn)。然而,它的性能并不總是優(yōu)于其他經(jīng)典方法。由此可推斷出,通過關(guān)注層直接整合單詞關(guān)聯(lián)信息不足以利用詞匯關(guān)系。
門控機(jī)制控制信息在網(wǎng)絡(luò)中流動的路徑,并已被證明可用于遞歸神經(jīng)網(wǎng)絡(luò)[9]。LSTM通過由輸入和遺忘門控制的獨(dú)立單元實(shí)現(xiàn)長期記憶,這允許信息在可能的許多時(shí)間步驟中暢通無阻地流動。如果沒有這些門,信息很容易通過每個(gè)時(shí)間步的轉(zhuǎn)換而消失。相反,卷積網(wǎng)絡(luò)不受相同類型的消失梯度的影響,研究者通過實(shí)驗(yàn)發(fā)現(xiàn)它們不需要遺忘門。門控線性單元是一種基于DAUPHIN等[10]的非確定性門工作的簡化選通機(jī)制,通過將線性單元耦合到門來緩解消失梯度問題,其保留了層的非線性能力,同時(shí)允許梯度通過線性單元傳播而不縮放。
以上相關(guān)工作表明,句法結(jié)構(gòu)信息與詞共現(xiàn)信息的交互對情感分析都有不可或缺的作用。本文模型利用句法圖和詞匯圖來捕獲句子中的依存關(guān)系和訓(xùn)練語料庫中的單詞共現(xiàn)關(guān)系,利用分類概括結(jié)構(gòu)將具有相似用途或含義的關(guān)系分組在一起,并減少噪聲。同時(shí)本文引入門控線性單元,這有助于模型控制情感信息流向給定方面。
給定一個(gè)由n個(gè)詞和一個(gè)從a+1位置開始且長度為m的方面詞組成的句子S=[w1,w2,…,wa+1,…,wa+m,…,wn],方面級情感分析的目標(biāo)是通過從上下文中提取與方面相關(guān)的情感信息來檢測給定方面的情感極性。
句法圖中有一個(gè)節(jié)點(diǎn)集Vs和一個(gè)邊集Es。Vs中的每個(gè)節(jié)點(diǎn)v是句子中的一個(gè)詞,Es中的每條邊e表示2個(gè)詞在句法上是相關(guān)的。
現(xiàn)有的語法集成方法沒有在其句法圖中利用各種類型的依存關(guān)系和邊,只是簡單地表示2個(gè)詞之間存在依存關(guān)系。正如上文在引言中提到的,每個(gè)依存關(guān)系代表一個(gè)單詞在句子中所起的特定語法功能,并且應(yīng)該以自己的方式使用。然而,由于解析樹中存在大量關(guān)系,因此直接使用一個(gè)依存關(guān)系作為圖中的一種邊可能會產(chǎn)生解析錯(cuò)誤等噪聲。
為了解決這個(gè)問題,在依存關(guān)系上添加一個(gè)句法分類結(jié)構(gòu)Rs。具體來說,本文將36個(gè)依存關(guān)系分為5種關(guān)系類型,包括“名詞”、“動詞”、“副詞”、“形容詞”和“其他”,在Rs中分別表示為s1,s2,…,s5。由于大多數(shù)方面詞和意見詞分別是名詞和形容詞,因此“名詞”和“形容詞”成為2種主要類型;由于動詞表示動作、事件或狀態(tài),副詞修飾動詞和形容詞,因此分為“動詞”和“副詞”2種類型;其余所有關(guān)系類型構(gòu)成“其他”類型。
然后基于句法分類結(jié)構(gòu)構(gòu)造一個(gè)句法分類圖,記為{Vs,Es,Rs},其中,Vs、Es、Rs分別是節(jié)點(diǎn)集、邊集、句法關(guān)系類型集。Es中的每條邊都附有一個(gè)標(biāo)簽,表示Rs中的依存關(guān)系類型。句法分類圖示例如圖1所示。
圖1 句法分類圖Fig.1 Syntactic classification graph
為了使模型能考慮到語料庫中的詞共現(xiàn)信息,本文構(gòu)造了詞匯圖來完成這一任務(wù)。全局詞匯圖中有一個(gè)節(jié)點(diǎn)集VT和一個(gè)邊集ET。VT中的每個(gè)節(jié)點(diǎn)v表示一個(gè)詞,ET中的每條邊e表示詞匯量為N的訓(xùn)練語料庫中2個(gè)單詞之間的詞共現(xiàn)頻率。然后,本文為每個(gè)句子構(gòu)造一個(gè)局部詞匯圖,其中每個(gè)節(jié)點(diǎn)代表句子中的一個(gè)單詞,每條邊表示句子中同時(shí)出現(xiàn)的2個(gè)單詞。但是,這個(gè)邊與全局詞匯圖中2個(gè)相同單詞之間的邊具有相同的權(quán)重,其基本原理是將全局詞匯圖中的全局詞分布信息轉(zhuǎn)移到局部詞匯圖中。
語料庫中詞的共現(xiàn)頻率高度傾斜,其中多數(shù)詞對出現(xiàn)1~2次,少數(shù)詞對出現(xiàn)頻率較高。顯然,應(yīng)該區(qū)別對待頻繁詞對和罕見詞對。因此,本文在詞共現(xiàn)關(guān)系上添加了一個(gè)頻率分類結(jié)構(gòu)Rf,根據(jù)對數(shù)正態(tài)分布對詞對的頻率進(jìn)行分組。具體來說,用d1和d2表示頻率為20和21的詞對關(guān)系,用d3,d4,…,d7表示頻率落在[2k+1,2k+1](1≤k≤5)區(qū)間的詞對關(guān)系,用d8表示所有出現(xiàn)頻率大于26的詞對的詞匯關(guān)系。詞共現(xiàn)圖示例如圖2所示。
圖2 詞共現(xiàn)圖Fig.2 Word co-occurrence graph
在本節(jié)中將介紹本文提出的BGGCN模型。首先在圖3中展示其架構(gòu)。從圖中可以看出,BGGCN主要由嵌入層、卷積交互層和門控輸出層組成。首先以頻率全局詞匯圖和詞序列為輸入得到初始句子表示,然后經(jīng)過交叉網(wǎng)絡(luò),用以深度融合GCN嵌入和Bi-LSTM嵌入。在頻率局部詞匯圖和句法圖上執(zhí)行雙層卷積后,使用交互模塊改進(jìn)句子表示。最后,通過門控線性單元獲得面向方面的表示,以更好地預(yù)測句子中特定方面的情感極性。
圖3 BGGCN模型框架Fig.3 Framework of BGGCN model
GloVe通過利用全局詞頻統(tǒng)計(jì)信息來學(xué)習(xí)詞嵌入,這種方法能夠捕捉到更全面的語言信息。相比之下,Word2Vec基于局部的上下文窗口來學(xué)習(xí)詞向量,可能會忽略一些詞的全局信息[11]。因此,本文采用已預(yù)訓(xùn)練好的GloVe嵌入獲得每個(gè)詞向量。預(yù)訓(xùn)練的詞嵌入表示為Ew∈|V|×d。其中:|V|是詞匯量;d是詞嵌入的維度;Ew用于將包含n個(gè)詞的評論序列S映射到詞向量空間[e1,e2,…,ea+1,…,ea+m,…,en]∈n×d。然后,本文提出了2種類型的文本表示來改進(jìn)句子嵌入:一種是基于頻率全局詞匯圖的GCN嵌入,另一種是Bi-LSTM嵌入。
3.1.1 GCN嵌入
首先,將特定語料庫的詞匯信息編碼到評論表示中。對于這個(gè)目標(biāo),本文首先構(gòu)建一個(gè)嵌入矩陣Ewt∈N×d用來作為訓(xùn)練語料庫的特征矩陣,其中,N是訓(xùn)練語料庫的詞匯量。
然后,在頻率全局詞匯圖上執(zhí)行標(biāo)準(zhǔn)GCN,并得到一個(gè)新的嵌入矩陣Egcn∈N×d。頻率全局詞匯圖可以提供所有單詞之間的關(guān)系信息,即使單詞之間的距離很遠(yuǎn),也能夠捕捉到它們之間的關(guān)系。這樣可以在模型中考慮更多的上下文信息,提高模型的準(zhǔn)確性。此外,頻率全局詞匯圖根據(jù)整個(gè)語料庫中的單詞共現(xiàn)情況進(jìn)行構(gòu)建,可以更好地反映單詞之間的相關(guān)性。
最后,再使用Egcn即可形成輸入評論序列S的GCN嵌入,即[x1,x2,…,xa+1,…,xa+m,…,xn]∈n×d,在圖3中表示為x。
3.1.2 Bi-LSTM嵌入
本文按照之前的大多數(shù)研究將序列信息編碼到評論表示中。此外,由于更接近方面詞的詞向量可能對判斷方面詞的情感貢獻(xiàn)更大,因此計(jì)算每個(gè)上下文詞wt到對應(yīng)方面詞的絕對距離,并且得到S的位置序列。令Ep∈n×d為隨機(jī)初始化的位置嵌入查找表,然后將位置序列映射到位置嵌入查找表[p1,p2,…,pa1,…,pam,…,pn]。
從圖3中可以看出,卷積交互層由3個(gè)模塊組成,分別是交叉網(wǎng)絡(luò)模塊、Bi-GCN模塊和信息交互模塊。以GCN嵌入x和Bi-LSTM嵌入y作為初始句子表示,使用交叉網(wǎng)絡(luò)融合GCN嵌入和Bi-LSTM嵌入,然后利用Bi-GCN在頻率局部詞匯圖和句法圖上進(jìn)行卷積,用來更好地表示句子S。頻率局部詞匯圖可以更好地捕捉單詞之間的相對位置信息,并幫助模型更好地識別出每個(gè)方面的情感傾向,這對于情感分析任務(wù)來說非常重要。例如,一個(gè)單詞可能在某個(gè)特定方面具有不同的情感傾向,而這取決于它在句子中的位置。此外,為了使2個(gè)圖可以進(jìn)行交互,本文引入了BiAffine模塊,這有助于更好地改進(jìn)句子表示。
3.2.1 交叉網(wǎng)絡(luò)
為了深度融合GCN嵌入x和Bi-LSTM嵌入y,本文采用了簡單而有效的交叉網(wǎng)絡(luò)結(jié)構(gòu)[9]。首先連接x和y以形成固定組合h0∈d,即h0=x⊕y。然后在交叉網(wǎng)絡(luò)的每一層中,使用下式來更新融合嵌入:
hl=h0(hl-1)Twl+bl+hl-1
(1)
其中:l表示層數(shù)(l=1,2,…,|L|);wl,bl∈d是權(quán)重和偏差參數(shù)。然后將第l層中的融合嵌入hl從原始連接位置分離為xl和yl,這將用作雙層GCN中2個(gè)圖的輸入節(jié)點(diǎn)表示。
3.2.2 Bi-GCN
本文的句法圖和詞匯圖包含分類概括結(jié)構(gòu),而普通GCN不能在帶有標(biāo)記邊的圖上進(jìn)行卷積。為了解決這個(gè)問題,本文使用用于聚合不同關(guān)系類型的Bi-GCN,即給定一個(gè)句子,使用2個(gè)聚合操作來執(zhí)行雙層卷積。
第2個(gè)聚合將所有虛擬節(jié)點(diǎn)及其特定關(guān)系聚合在一起。使用不同關(guān)系類型上的平均聚合函數(shù)更新目標(biāo)詞m的表示:
(2)
其中:⊕r表示不同關(guān)系類型的表示的串聯(lián);Wl是第l層的權(quán)重矩陣。
3.2.3 信息交互
為了在頻率局部詞匯圖和句法分類圖之間有效地交換相關(guān)特征,本文采用相互BiAffine變換作為橋梁。具體如下:
(3)
(4)
其中:V1和V2是可訓(xùn)練的參數(shù)。
在模塊最后,將Hx和Hy組合在一起形成聚合嵌入Hl=Hx⊕Hy。
為了更好地預(yù)測一個(gè)方面的情感極性,本文使用門控線性單元來控制情感信息流向給定方面。該機(jī)制依照LSTM中的門機(jī)制,利用多層的CNN結(jié)構(gòu),為每層CNN都加上一個(gè)輸出門控,運(yùn)算過程如下所示:
(5)
HL=Hl*αt
(6)
在使用LSTM進(jìn)行情感分析時(shí),因?yàn)樵贚STM的最終隱藏狀態(tài)中,模型已經(jīng)將輸入文本中的所有上下文信息整合到一個(gè)固定長度的向量表示中,這個(gè)向量表示可以看作是整個(gè)文本的“語義向量”。在情感分析任務(wù)中,需要將這個(gè)“語義向量”作為輸入傳遞到輸出層,以進(jìn)行情感分析預(yù)測[12]。最后,檢索與方面詞語義相關(guān)的重要特征,并為每個(gè)上下文詞設(shè)置基于檢索的注意力權(quán)重。句子的最終表示為:
(7)
(8)
(9)
其中:yt∈d是Bi-LSTM嵌入;通過一個(gè)全連接層從方面詞嵌入轉(zhuǎn)換得到,以保持與yt相同的維度。
在獲得面向方面的表示Z后,將其輸入一個(gè)全連接層和一個(gè)Softmax層以投影到預(yù)測空間中:
U=Softmax(Wuz+bu)
(10)
其中:U是預(yù)測結(jié)果;Wu和bu分別是權(quán)重矩陣和偏差。然后將最高概率的標(biāo)簽設(shè)置為最終預(yù)測U。
本文使用基于L2正則化的交叉熵?fù)p失函數(shù)作為模型的損失函數(shù)。交叉熵?fù)p失函數(shù)是一種常用的用于分類任務(wù)的損失函數(shù),它衡量了模型的預(yù)測結(jié)果與真實(shí)標(biāo)簽之間的差異,并且可以通過最小化該損失函數(shù)來優(yōu)化模型的參數(shù)。在損失函數(shù)中添加L2正則化項(xiàng),用于約束模型的復(fù)雜度,可以使模型的權(quán)重參數(shù)趨向于較小的值,從而減小過擬合的風(fēng)險(xiǎn)。損失函數(shù)表示為:
(11)
本文在4個(gè)公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),分別是Twitter[13]、SemEval-2014[14]、SemEval-2015[15]和SemEval-2016[16]評論集。以上數(shù)據(jù)集中標(biāo)注了每句句子的方面詞以及方面詞的情感極性,分別為“積極”、“中性”和“消極”3種不同的情感極性,具體分布情況如表1所示。本文的實(shí)驗(yàn)平臺及實(shí)驗(yàn)環(huán)境如表2所示。
表1 數(shù)據(jù)集中情感極性分布Table 1 Distribution of emotional polarities in datasets 單位:個(gè)
表2 實(shí)驗(yàn)平臺及實(shí)驗(yàn)環(huán)境Table 2 Experimental platform and environment
本文使用嵌入維度為300的預(yù)訓(xùn)練GloVe來獲得初始詞嵌入,使用spaCy工具包來獲取依存關(guān)系。具體參數(shù)設(shè)置如表3所示。
表3 參數(shù)設(shè)置Table 3 Parameters setting
(12)
(13)
(14)
對于dp個(gè)類別,準(zhǔn)確率與宏平均F1值的計(jì)算公式分別為:
(15)
(16)
其中:宏平均F1值是指所有類別的F1值的平均值,模型重復(fù)運(yùn)行3次,取最高的一次作為最終結(jié)果。
將本文模型與以下基線模型進(jìn)行比較:
1)LSTM[17],是一種目標(biāo)相關(guān)的模型,該模型在生成句子表示時(shí)可以捕捉目標(biāo)詞與其上下文之間的聯(lián)系,用于目標(biāo)相關(guān)的情感分類。
2)MemNet[3],是一種基于記憶的模型,該模型將神經(jīng)注意力模型與外部記憶相結(jié)合,計(jì)算每個(gè)上下文詞對某個(gè)方面的重要性。
3)AF-LSTM[8],是一個(gè)方面融合LSTM模型,該模型學(xué)習(xí)句子單詞和方面之間的關(guān)聯(lián)關(guān)系。
4)RAM[18],該模型使用多跳的注意力層,并將輸出與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)相結(jié)合用于句子表示。
5)AOA[19],該模型學(xué)習(xí)方面詞和上下文詞之間的相互作用,并通過注意力模型關(guān)注句子中的重要部分。
6)IAN[20],該模型使用2個(gè)LSTM和1個(gè)交互式注意力機(jī)制來生成方面詞和句子的表示。
7)ASGCN[5],該模型在依存樹上為每個(gè)句子構(gòu)建有向圖,然后通過GCN提取句法信息和單詞依存關(guān)系。
8)CDT[7],該模型在句子的依存樹上利用GCN模型來提取上下文詞和方面詞之間的依存關(guān)系。
9)kumaGCN[21],該模型使用潛在的圖形結(jié)構(gòu)來補(bǔ)充句法特征。
在上述模型中,前6種模型是具有典型神經(jīng)結(jié)構(gòu)的經(jīng)典模型,后3種模型是基于圖形和語法集成的模型。
所有模型的比較結(jié)果如表4所示,可以看出:本文提出的BGGCN模型在4個(gè)不同的公開數(shù)據(jù)集上準(zhǔn)確率和宏平均F1值均有一定的提升。與表現(xiàn)較好的kumaGCN相比,準(zhǔn)確率分別提高了2.37、1.49、1.6和0.42個(gè)百分點(diǎn),宏平均F1值分別提高了2.2、1.1、1.73和0.18個(gè)百分點(diǎn)。LSTM僅僅對句子進(jìn)行建模,忽略了方面詞的影響,最終得到的是句子的全局情感,因此效果最差?;谧⒁饬C(jī)制的模型如MemNet、RAM、IAN和AOA性能均優(yōu)于LSTM模型,這表明注意力機(jī)制在情感分析任務(wù)中是有效的。IAN將方面詞和上下文詞進(jìn)行交互獲取句子的準(zhǔn)確表達(dá),并且考慮到方面詞可能有多個(gè)單詞組成,另外添加了一層對于方面詞的注意力操作用于計(jì)算權(quán)重。AOA與IAN思路相似,也是利用方面詞與上下文之間的信息交互從而獲取語義。因此,IAN與AOA的效果較好?;趫D和語法的集成方法ASGCN、CDT和kumaGCN比不考慮語法的前5種方法要好,表明依存關(guān)系有利于識別情感極性,這與以往的研究一致。但是,它們只考慮到句子的語法信息,忽略了語料庫中的詞共現(xiàn)信息,因此與本文提出的 BGGCN模型相比,顯現(xiàn)出明顯的不足。AF-LSTM通過關(guān)注層直接整合單詞關(guān)聯(lián)信息,未能充分地利用到詞匯信息,與基于注意力機(jī)制的模型相比都不能取得更好的效果。BGGCN在考慮到句法信息的同時(shí),也考慮到語料庫級別的詞共現(xiàn)信息,并將詞匯信息與語法信息進(jìn)行有效的交互。此外,其又利用了門控線性單元,避免了對特征表示進(jìn)行平均池化可能會缺失重要的情感信息的問題,因此,在與上述模型的對比實(shí)驗(yàn)中,取得了最為優(yōu)異的結(jié)果。
表4 不同模型的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of different models %
為了觀察BGGCN模型中每個(gè)組件的影響,本文進(jìn)行了消融研究,并將結(jié)果列在表5中。其中:w/o sy表示只保留詞匯圖的模型;w/o wc表示只保留句法圖的模型;w/o mu表示2個(gè)GCN模塊沒有交互的模型;w/o ga表示去掉門控線性單元的模型;w/o sy+ga和w/o wc+ga 表示在使用門控線性單元下分別去掉句法圖和詞匯圖的模型。
表5 消融實(shí)驗(yàn)結(jié)果Table 5 Results of ablation experiment %
首先研究詞匯圖和句法圖的影響。與完整的BGGCN模型相比,去掉詞匯圖或者句法圖的模型性能均有所下降。因?yàn)閮H使用詞匯圖會忽略句法信息,而僅使用句法圖會忽略詞共現(xiàn)信息。從表中還可看出,即使只使用單個(gè)圖卻已然取得了有效的結(jié)果,表明無論是詞匯圖還是句法圖都有本身的貢獻(xiàn)存在。本文還研究句法圖和詞匯圖上的信息未交互時(shí)的情況,可以看出,由于在2個(gè)圖上孤立地提取特征,因此未能取得比BGGCN模型更好的結(jié)果。
此外,本文還研究了門控線性單元對模型的影響。從表5中可以看出,當(dāng)去掉門控線性單元時(shí),由于無法保證輸出的情感信息流向指定方面,導(dǎo)致預(yù)測性能指標(biāo)明顯降低。而當(dāng)只用句法信息或詞共現(xiàn)信息時(shí),使用門控線性單元依然取得了良好的效果。由此可以看出本文所添加模塊的必要性及有效性。
為了解決詞共現(xiàn)信息缺失以及不能控制情感信息流向的問題,本文提出了BGGCN模型,利用基于圖的方法進(jìn)行方面級情感分類。該模型使用詞匯圖來捕獲訓(xùn)練語料庫中的全局單詞共現(xiàn)信息,在每個(gè)詞匯圖和句法圖上建立一個(gè)分類概括結(jié)構(gòu),分別處理圖中不同類型的關(guān)系;使用卷積交互層以使詞匯圖和句法圖協(xié)同工作,有效融合句法信息和詞匯信息;使用門控線性單元來控制情感信息流向指定方面,用于更有效地預(yù)測一個(gè)方面的情感極性。本文在4個(gè)公開的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),BGGCN模型均取得了優(yōu)秀的分類效果。
BGGCN模型仍存在一些不足之處。例如,本文主要針對英文文本進(jìn)行情感分析,而對于跨語言和多模態(tài)的情感分析任務(wù),該模型可能無法直接適用。此外,該模型在大規(guī)模數(shù)據(jù)集上存在計(jì)算效率較低的問題,導(dǎo)致訓(xùn)練和推斷時(shí)間較長。下一步將把該模型擴(kuò)展到跨語言和多模態(tài)情感分析領(lǐng)域,并優(yōu)化模型結(jié)構(gòu)和算法,提高計(jì)算效率,以適應(yīng)更大規(guī)模的數(shù)據(jù)集。