唐恒亮,尹棋正,常亮亮,薛 菲,曹 陽
北京物資學(xué)院 信息學(xué)院,北京 101149
方面級(jí)情感分類是當(dāng)前自然語言處理領(lǐng)域中備受關(guān)注的一項(xiàng)基本任務(wù)[1]。不同于普通情感分類對(duì)一篇文章或一個(gè)句子所屬的情感極性進(jìn)行區(qū)分,方面級(jí)情感分類的任務(wù)是判斷給定語句中所描述對(duì)象不同方面的情感極性,例如:
“A mix of students and area residents crowd into this narrow,barely there space for its quick,tasty treats at dirt-cheap prices.”
該語句摘自SemEval2014 Restaurant 數(shù)據(jù)集[2],語句中描述了某家餐廳的space、tasty 和prices,相應(yīng)的方面級(jí)情感分類結(jié)果分別為消極、積極、積極。方面級(jí)情感分類提供了更精確具體的情感信息,因此在很多領(lǐng)域,特別是電子商務(wù)和社交網(wǎng)絡(luò)輿情分析中得到廣泛的應(yīng)用,受到學(xué)術(shù)界與業(yè)界的廣泛關(guān)注。
近年來,深度學(xué)習(xí)在自然語言處理領(lǐng)域不斷取得令人矚目的成就,越來越多的方面級(jí)情感分類模型使用神經(jīng)網(wǎng)絡(luò)。早期應(yīng)用于方面級(jí)情感分類的神經(jīng)網(wǎng)絡(luò)[3]相較于傳統(tǒng)的機(jī)器學(xué)習(xí),在準(zhǔn)確率、泛化能力以及魯棒性上都有較大的提升。但是,方面級(jí)情感分類正確的前提是將方面詞與相關(guān)上下文情感表達(dá)詞正確匹配,此類模型缺乏解釋句法依賴的機(jī)制,難以實(shí)現(xiàn)較高的分類準(zhǔn)確率。Tang 等[4]通過研究證實(shí)了方面詞與上下文情感表達(dá)詞依賴關(guān)系對(duì)方面級(jí)情感分類的重要性。受此啟發(fā),結(jié)合注意力機(jī)制的長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)模型被廣泛地應(yīng)用[5]。此外,Xue和Li[6]認(rèn)為某一方面的情感極性通常由一系列關(guān)鍵短語所決定,提出了一種注意力機(jī)制增強(qiáng)的卷積神經(jīng)網(wǎng)絡(luò)模型,取得了優(yōu)異的效果。
隨著對(duì)注意力機(jī)制的深入研究,發(fā)現(xiàn)通過引入注意力機(jī)制,能夠從復(fù)雜的語句中捕獲與方面詞相關(guān)的細(xì)節(jié)情感特征。一些研究人員使用將注意力機(jī)制與卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)結(jié)合的方法進(jìn)行序列分類任務(wù)。Tang 等[7]提出了一種基于注意力機(jī)制的MemNet模型,該模型基于輸入語句的詞向量構(gòu)成的外部記憶進(jìn)行注意力學(xué)習(xí)。Chen等[8]在MemNet的基礎(chǔ)上提出了一個(gè)基于注意力機(jī)制的RAM(recurrent attention on memory)模型。
盡管基于注意力機(jī)制的模型能夠在有限的程度上捕捉方面詞與上下文詞之間的情感關(guān)系特征,并取得較大的性能提升,但是由于注意力機(jī)制缺乏顯式的句法依賴捕捉機(jī)制,在方面級(jí)情感分類的應(yīng)用上仍存在較大的局限性。如對(duì)于上文SemEval2014 Restaurant數(shù)據(jù)集例子中tasty方面,注意力機(jī)制可能在某些情況下錯(cuò)誤地注意到narrow 和barely,這將會(huì)對(duì)分類準(zhǔn)確率產(chǎn)生較大的影響。
為了解決基于注意力機(jī)制模型的局限性,更好地利用方面詞與上下文情感表示詞之間的句法依賴關(guān)系,Zhang等[9]提出了一種應(yīng)用在句法依賴樹上的圖卷積網(wǎng)絡(luò)模型,能夠捕捉句法依賴樹中所包含的句法依賴關(guān)系。圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)是一種用于處理非結(jié)構(gòu)化數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),因此對(duì)自然語言處理中的非結(jié)構(gòu)化數(shù)據(jù)的處理具有優(yōu)勢(shì)[10]。得益于句法依存樹的引入,受到Zhang等人的啟發(fā),Tang等[11]使用Bi-GCN 獲取依賴樹的句法信息與Transformer 獲取的文本平面表示迭代交互方式,提出了一種雙重Transformer 結(jié)構(gòu)模型進(jìn)行方面級(jí)情感分類。Huang 和Carley[12]提出了一種方面依賴圖注意力網(wǎng)絡(luò),更明確地利用了方面詞與相關(guān)上下文情感表示詞之間的關(guān)系。在如圖1所示例句“nice beef but terrible juice.”的原始句法依賴樹實(shí)例中,方面詞“beef”和“juice”均與其情感表達(dá)詞“nice”和“terrible”相連接。
圖1 句法依賴樹實(shí)例Fig.1 Syntactic dependency tree example
建立在句法依賴樹上的圖神經(jīng)網(wǎng)絡(luò)模型被廣泛地證明能對(duì)方面級(jí)情感分類產(chǎn)生顯著的積極效果,其主要原因歸功于圖神經(jīng)網(wǎng)絡(luò)對(duì)句法依賴樹這種圖數(shù)據(jù)強(qiáng)大的特征提取能力。但是在該類方法中,句法依賴樹的獲取通常使用一些自然語言處理基礎(chǔ)工具(如spaCy、CoreNLP等),由于目前依賴信息解析性能的不完善,不可避免地產(chǎn)生錯(cuò)誤。此外,由于方面級(jí)情感分類應(yīng)用的主要領(lǐng)域?yàn)殡娚淘u(píng)論或社交平臺(tái)信息,此類語句存在著大量的不規(guī)范表達(dá),在語法上具有隨意性,因此該類模型性能并不能在這些數(shù)據(jù)上獲得明顯提升。
針對(duì)上文所提出的局限性,本文提出了一個(gè)具有創(chuàng)新性的混合圖神經(jīng)網(wǎng)絡(luò)模型(mixture graph neural network model,MGNM)。本文主要貢獻(xiàn)如下:
(1)設(shè)計(jì)了一種結(jié)合GCN 網(wǎng)絡(luò)和殘差圖注意力網(wǎng)絡(luò)(Res-graph attention network,Res-GAT)的混合模型。與現(xiàn)有模型的主要區(qū)別在于,該模型使用GCN 提取句法依賴樹上的句法依賴關(guān)系,然后針對(duì)目前此類模型所面臨的句法依賴樹不穩(wěn)定性問題,創(chuàng)造性地引入Res-GAT構(gòu)建詞級(jí)依賴關(guān)系作為GCN提取的句法依賴關(guān)系的補(bǔ)充,并且利用BiAffine模塊在L-layer GCN與Res-GAT之間進(jìn)行信息交互。
(2)提出了一種應(yīng)用于連通詞關(guān)系圖的Res-GAT,通過為GAT 設(shè)計(jì)獨(dú)特的殘差連接,改善了非單層GAT極易出現(xiàn)的過平滑問題。在Res-GAT部分,將所輸入語句中的詞作為節(jié)點(diǎn),構(gòu)建連通詞關(guān)系圖,然后Res-GAT中的多頭注意力機(jī)制為節(jié)點(diǎn)之間關(guān)系分配權(quán)值,得到詞與詞之間不同的重要性關(guān)系,以此作為GCN 提取句法依賴關(guān)系的補(bǔ)充參與方面詞情感極性的判斷。
(3)在Twitter[3]、SemEval2014 Restaurant、Laptop、SemEval2015 Restaurant[13]和SemEval2016 Restaurant[14]五個(gè)數(shù)據(jù)集上進(jìn)行大量的實(shí)驗(yàn)驗(yàn)證,并與當(dāng)前主流的相關(guān)工作進(jìn)行比較,實(shí)驗(yàn)效果證明本文模型優(yōu)于相關(guān)工作。并設(shè)置了一系列的消融實(shí)驗(yàn),證明了本文模型相關(guān)設(shè)置與改進(jìn)的合理性。
基于混合圖神經(jīng)網(wǎng)絡(luò)的方面級(jí)情感分類模型MGNM如圖2所示。
圖2 MGNM模型示意圖Fig.2 Schematic diagram of MGNM
在MGNM 中采用GloVe[15]和雙向長短期記憶網(wǎng)絡(luò)(bi-directional long short-term memory,Bi-LSTM)或預(yù)訓(xùn)練BERT(bidirectional encoder representations from transformers)[16]兩種方法獲取詞向量與上下文表示。模型設(shè)置了一個(gè)L-layer GCN 獲取句法依賴信息,設(shè)置Res-GAT 構(gòu)建包含單詞之間重要性關(guān)系的詞級(jí)依賴關(guān)系,然后采用Mutual BiAffine 模塊使兩種特征信息交互產(chǎn)生影響,最后將兩種特征拼接后作為最終特征表示。以下介紹MGNM的各組成部分與原理。
給定一個(gè)n個(gè)詞的句子S,表示為S={w1,w2,…,wτ,…,wτ+m-1,…,wn},其中包含m個(gè)方面詞,τ為方面詞開始的標(biāo)記。本文采用GloVe 和Bi-LSTM 或預(yù)訓(xùn)練BERT 兩種方法獲取詞向量與上下文表示,下面分別對(duì)這兩種方法進(jìn)行介紹。
1.1.1 GloVe與Bi-LSTM
預(yù)訓(xùn)練嵌入矩陣GloVe 是由斯坦福大學(xué)發(fā)布的一個(gè)基于詞頻統(tǒng)計(jì)的詞表征工具。MGNM 使用GloVe 將給定句子S中的單詞映射到低維向量空間,獲取單詞的詞嵌入向量,句子S的嵌入向量表示為,N表示詞的個(gè)數(shù),demb表示詞嵌入向量的維度。
為獲取語句的上下文信息,將句子的詞嵌入向量輸入到Bi-LSTM 網(wǎng)絡(luò),Bi-LSTM 是由前向LSTM 與后向LSTM 兩個(gè)方向的LSTM 組成,將前向LSTM 與后向LSTM隱藏層輸出拼接作為輸出,因此能夠從兩個(gè)方向提取語句的上下文信息,從而構(gòu)建出包含文本上下文信息的隱藏狀態(tài)向量。對(duì)于組成Bi-LSTM的LSTM,計(jì)算公式如下:
式中,et為t時(shí)刻輸入到Bi-LSTM中的詞向量,it、ft、ot分別為輸入門、遺忘門和輸出門,ct和ct-1為t時(shí)刻與t-1 時(shí)刻記憶單元狀態(tài),ht和ht-1代表t時(shí)刻與t-1時(shí)刻LSTM 的隱藏層輸出,Wi、Wf、Wo、Wt為可訓(xùn)練權(quán)重矩陣,bi、bf、bo、bt為偏差,σ代表sigmoid 函數(shù),tanh為雙曲正切激活函數(shù)。
由于Bi-LSTM是由前向LSTM和后向LSTM組成,并將兩個(gè)不同方向的LSTM輸出拼接,計(jì)算公式如下:
通過以上Bi-LSTM對(duì)所給語句S的詞向量進(jìn)行上下文編碼后,輸出隱藏狀態(tài)向量矩陣:
其中,時(shí)間步t的隱藏狀態(tài)向量表示為,dh為Bi-LSTM輸出隱藏狀態(tài)向量的維度。
1.1.2 BERT
本文使用BERT 模型生成所給語句單詞的特征表示,BERT 是Google 發(fā)布的一種預(yù)訓(xùn)練語言表征模型。在該模型中將BERT 所提取的特征表示作為詞向量輸入到圖神經(jīng)網(wǎng)絡(luò)中。為便于BERT的調(diào)整和訓(xùn)練,將語句與方面詞結(jié)合成完整句子輸入到BERT中,具體形式為[CLS]+S+A+[SEP],其中S為上下文語句,A為方面詞。輸出的上下文表示為:
1.2.1 位置權(quán)重
受Zhang等人啟發(fā)[9],考慮與方面詞相近的上下文詞的重要性,將輸入層輸出的HS傳遞到GCN或Res-GAT之前,為句中單詞增加位置感知變換,其目的是減少依賴解析過程中產(chǎn)生的噪聲與偏差。計(jì)算過程如下:
式中,F(xiàn)(·)代表位置感知變換函數(shù),qi∈? 代表第i個(gè)單詞的位置權(quán)重。最終句子S的上下文表示矩陣HS經(jīng)過位置感知變換后得到,向量維度不發(fā)生變化。
1.2.2 多層GCN
為獲取句法依賴特征,本文設(shè)置了一個(gè)應(yīng)用于句法依賴樹的多層GCN。具體來說,首先為給定語句構(gòu)建句法依賴樹(本文使用Spacy模塊獲?。?,然后根據(jù)句法依賴樹可輕易得出包含句法依賴樹結(jié)構(gòu)關(guān)系的鄰接矩陣A∈?n×n,n表示所給語句包含單詞數(shù)。此外,根據(jù)GCN 的特性,為節(jié)點(diǎn)加入自循環(huán)可以在GCN 聚合更新節(jié)點(diǎn)信息,更好地保留原節(jié)點(diǎn)信息,因此在鄰接矩陣A中為每個(gè)節(jié)點(diǎn)增加自循環(huán),將節(jié)點(diǎn)與自身連接,即Aii=1,i為句中第i個(gè)單詞。
圖卷積網(wǎng)絡(luò)是一種用于處理非結(jié)構(gòu)化數(shù)據(jù)的特征提取器,對(duì)自然語言處理領(lǐng)域的圖結(jié)構(gòu)數(shù)據(jù)處理具有很強(qiáng)的優(yōu)勢(shì)。文中設(shè)置的l-layer GCN 可以使每個(gè)節(jié)點(diǎn)受到l次鄰居節(jié)點(diǎn)的影響。這種方法對(duì)句法依賴樹進(jìn)行卷積,將句法依賴信息添加在有關(guān)詞序的文本特征上,實(shí)現(xiàn)句法依賴特征的匯集。
首先,將經(jīng)過位置感知變換的上下文表示Hq輸入到l-layer GCN,即將節(jié)點(diǎn)的特征輸入到GCN 中,然后使用歸一化因子進(jìn)行圖卷積運(yùn)算,如下:
1.2.3 Res-GAT
GAT 是圖神經(jīng)網(wǎng)絡(luò)結(jié)合注意力機(jī)制的一種重要變體,在節(jié)點(diǎn)特征聚合操作時(shí),能夠使用注意力機(jī)制為節(jié)點(diǎn)之間分配重要性權(quán)值,提高網(wǎng)絡(luò)的表達(dá)能力。在MGNM 中將所輸入語句中的詞作為節(jié)點(diǎn),構(gòu)建包含連通詞關(guān)系圖,GAT負(fù)責(zé)利用多頭注意力機(jī)制對(duì)詞與詞之間分配權(quán)值,得到詞與詞之間依賴的重要性關(guān)系。下式為節(jié)點(diǎn)i在第l+1 層特征表達(dá)計(jì)算過程:
為進(jìn)一步提升圖注意力層的表達(dá)能力和模型的穩(wěn)定性,在圖注意力層加入K組相互獨(dú)立的注意力機(jī)制,然后將輸出結(jié)果拼接:
值得注意的是,在該部分首先為所輸入語句構(gòu)建一個(gè)強(qiáng)連通圖,該圖將句中單詞作為節(jié)點(diǎn),圖中每個(gè)節(jié)點(diǎn)都與其他節(jié)點(diǎn)相連接,然后獲取該連通圖的鄰接矩陣Aq∈?n×n,n表示所給語句包含單詞數(shù)。與句法依賴樹鄰接矩陣A相似,在Aq中也增加節(jié)點(diǎn)自循環(huán)保留節(jié)點(diǎn)自身信息。此外,考慮到多層GAT 極易出現(xiàn)過平滑問題,本文為GAT設(shè)計(jì)了獨(dú)特的殘差連接方式:
為了使GCN 與Res-GAT 所提取的兩種特征HL∈與HL′∈充分融合并交換相關(guān)特征,模型采用BiAffine Module進(jìn)行特征融合。
式中,W1與W2為可訓(xùn)練權(quán)重矩陣,θ1和θ2為從HL到HL′與HL′到HL的臨時(shí)線性映射矩陣,HB為HL′到HL的映射,同樣HB′為HL到HL′的映射。
然后將HB和HB′進(jìn)行平均池化:
隨后將它們進(jìn)行拼接得到最終表示r:
將最終特征表示r饋送到全連接層,隨后是Softmax歸一化層,最后產(chǎn)生概率分布的情感極性決策空間。
其中,dp與情感標(biāo)簽維度相同,學(xué)習(xí)權(quán)重表示為Wp∈,偏置表示為。
本文所提出的DWGCN采用交叉熵?fù)p失和L2正則化的標(biāo)準(zhǔn)梯度下降算法訓(xùn)練。
本實(shí)驗(yàn)采用的實(shí)驗(yàn)平臺(tái)信息如表1所示,所有模型的訓(xùn)練與測(cè)試均在GPU上進(jìn)行。
表1 實(shí)驗(yàn)平臺(tái)Table 1 Experiment platform
為驗(yàn)證本文提出的方面級(jí)情感分類模型的有效性,本文的實(shí)驗(yàn)在Twitter數(shù)據(jù)集,以及分別從SemEval2014 task4、SemEval2015 task12 和SemEval2016 task5 中獲取的四個(gè)數(shù)據(jù)集(Rest14、Lap14、Rest15、Rest16)上進(jìn)行,這四個(gè)數(shù)據(jù)集分別是來源于電商平臺(tái)對(duì)筆記本電腦和餐廳的評(píng)價(jià)。五個(gè)數(shù)據(jù)集中方面詞情感極性包括積極、消極和中性三種。本文所采用的五個(gè)數(shù)據(jù)集情況統(tǒng)計(jì)如表2所示。
表2 數(shù)據(jù)集信息表Table 2 Statistics for datasets
為探究模型的性能,在該實(shí)驗(yàn)中采用了兩種輸入方式。在MGNM-GloVe 中使用300 維預(yù)訓(xùn)練GloVe 模型初始化上下文得到詞向量,Bi-LSTM 的隱藏狀態(tài)向量維度也為300。在MGNM-BERT 中使用預(yù)訓(xùn)練BERT模型獲取詞向量,嵌入維度為768。模型中使用Adam(adaptive moment estimation)優(yōu)化器,除BERT 以外所有權(quán)重均采用均勻分布初始化方法。對(duì)MGNM的GloVe靜態(tài)嵌入與BERT 嵌入兩種方式設(shè)置了不同的學(xué)習(xí)率。此外根據(jù)最優(yōu)實(shí)驗(yàn)結(jié)果確定GCN與Res-GAT層數(shù)均為2,Res-GAT 的注意力頭數(shù)為3。具體實(shí)驗(yàn)設(shè)置如表3所示。
表3 參數(shù)設(shè)置Table 3 Parameter settings
為了綜合評(píng)價(jià)MGNM,采用準(zhǔn)確度(accuracy,Acc)與宏觀平均F1值(macro average F1,MF1)作為評(píng)估指標(biāo)。引入混淆矩陣,如表4所示。設(shè)各個(gè)類別都如表中所示,預(yù)測(cè)正確的樣本數(shù)為T,總樣本數(shù)為N,其中TP+FN+TN+TN=N。
表4 混淆矩陣Table 4 Confusion matrix
根據(jù)表4混淆矩陣,準(zhǔn)確率計(jì)算方法為:
MF1計(jì)算方式為:
式中,Precision與Recall為精準(zhǔn)率與召回率,m表示類別數(shù)。
為了綜合評(píng)估本文所提出的基于混合圖神經(jīng)網(wǎng)絡(luò)的方面級(jí)情感分類模型MGNM,引入了目前主流的方面級(jí)情感分類方法。其中SVM與LSTM是兩種傳統(tǒng)的方法,MemNet、IAN、AOA 和AEN 是基于注意力機(jī)制的方法,應(yīng)用句法依賴關(guān)系的方法有LSTM+SynATT、TD-GAT、ASGCN。此外為驗(yàn)證本文所提出的Res-GAT的改進(jìn)優(yōu)于原始GAT 的程度,在該部分實(shí)驗(yàn)中創(chuàng)建MGNM-GAT,將Res-GAT 替換為原始GAT。本文采用的對(duì)比模型詳情如下:
SVM[17]:基于復(fù)雜特征工程的傳統(tǒng)支持向量機(jī)方法。
LSTM[4]:該方法使用LSTM 獲取上下文隱藏狀態(tài)向量用以方面級(jí)情感分類。
MemNet[7]:該方法提出使用外部存儲(chǔ)器來模擬上下文表示,并使用多跳注意力架構(gòu)。
IAN[18]:該方法設(shè)計(jì)了面向方面和上下文的交互建模模型,利用Bi-RNN 和注意機(jī)制實(shí)現(xiàn)面向方面詞和上下文表示的交互學(xué)習(xí)。
AOA[19]:該方法提出了一個(gè)注意力集中注意網(wǎng)絡(luò)模型(attention-over-attention neural network,AOA),以聯(lián)合的方式建模方面和句子,明確捕獲方面和上下文句子之間的相互作用。
AEN[20]:該方法設(shè)計(jì)了一種注意力編碼網(wǎng)絡(luò),用來建模上下文和特定方面之間的關(guān)系,嵌入層采用預(yù)訓(xùn)練GloVe靜態(tài)嵌入。
LSTM+SynATT[21]:該方法提出了一種可以更好地捕獲方面語義的方法,并提出了一種將句法信息集成到注意機(jī)制中的注意模型。
ASGCN[9]:該方法第一次提出通過GCN 和依賴樹學(xué)習(xí)特定方面的特征表示,解決長距離多詞依賴問題。
TD-GAT[12]:該方法提出了一種新的基于目標(biāo)依賴圖注意網(wǎng)絡(luò)(TD-GAT)的方面級(jí)情感分類方法,明確地利用了詞與詞之間的依賴關(guān)系。
將MGNM 與SVM、LSTM、MemNet、IAN、AOA、AEN-GloVe、LSTM+SynATT、TD-GAT 和ASGCN 模型在Twitter、Lap14、Rest14、Rest15 和Rest16 這五個(gè)公開數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),表5為詳細(xì)實(shí)驗(yàn)結(jié)果表。表中對(duì)比模型實(shí)驗(yàn)結(jié)果均來源于公開發(fā)表論文,N/A代表該項(xiàng)實(shí)驗(yàn)結(jié)果未公開。最好的前兩項(xiàng)結(jié)果加粗表示。
從表5所示的對(duì)比實(shí)驗(yàn)結(jié)果中可以得出以下結(jié)論:本文所提出的MGNM-GloVe在五個(gè)數(shù)據(jù)集上的準(zhǔn)確率(Acc)和F1值優(yōu)于對(duì)比模型,其中在Lap14和Rest16數(shù)據(jù)集上的表現(xiàn)略優(yōu)于其他比較模型,在Twitter與Rest14數(shù)據(jù)集上展現(xiàn)出較大的提升,但是在Rest15數(shù)據(jù)集上沒有表現(xiàn)出值得關(guān)注的提升。使用預(yù)訓(xùn)練BERT 模型獲取詞向量作為輸入的MGNM-BERT在五個(gè)數(shù)據(jù)集上均表現(xiàn)出明顯的改進(jìn),證明預(yù)訓(xùn)練BERT模型能夠大幅提升模型的性能。
表5 對(duì)比實(shí)驗(yàn)結(jié)果Table 5 Experimental results of different models 單位:%
與傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行比較,基于神經(jīng)網(wǎng)絡(luò)的方法不依賴繁瑣的人工提取特征,更適用于方面級(jí)別情感分類。在Twitter、Lap14和Rest14三個(gè)數(shù)據(jù)集上,MGNMGloVe 相較于SVM 準(zhǔn)確率分別有11.53 個(gè)百分點(diǎn)、5.43個(gè)百分點(diǎn)、1.98個(gè)百分點(diǎn)的提升。LSTM能夠利用上下文時(shí)序信息,但是缺乏方面詞與語境匹配機(jī)制,難以取得較好的性能。
與基于注意力機(jī)制的四個(gè)模型相比,MNGM 中應(yīng)用于句法依賴樹上的GCN能夠明確地捕捉方面詞與上下文情感評(píng)價(jià)詞的依賴關(guān)系,構(gòu)建更合理的特征表示。以AEN 為例,AEN 采用基于多頭注意力機(jī)制的編碼器對(duì)上下文與方面詞分別建模,然后通過以上獲得的編碼信息之間的交互影響得到最終特征表示。該類模型的效果取決于注意力機(jī)制是否準(zhǔn)確地建立了方面詞與上下文情感評(píng)價(jià)詞之間的關(guān)系,但是由于句子復(fù)雜性以及注意力機(jī)制捕捉遠(yuǎn)距離依賴關(guān)系的固有缺陷,基于注意力機(jī)制的模型難以完全捕捉句法依賴關(guān)系。對(duì)比實(shí)驗(yàn)結(jié)果中也可以明顯地看出,MGNM-GloVe 較四種基于注意力機(jī)制的模型的性能有著顯著提升。
應(yīng)用句法依賴關(guān)系的模型中,LSTM+SynATT方法與不考慮句法依賴關(guān)系的LSTM對(duì)比,在Lap14、Rest14和Rest15數(shù)據(jù)集上的性能表現(xiàn)出了顯著的提升,證明句法依賴關(guān)系對(duì)于方面級(jí)情感分類的重要性。由于句法依賴關(guān)系表現(xiàn)為樹狀結(jié)構(gòu),因此圖神經(jīng)網(wǎng)絡(luò)被引入。以ASGCN為例,在ASGCN模型中應(yīng)用了一個(gè)句法依賴樹上的多層GCN,由于句法依賴樹的噪聲與不穩(wěn)定性,相較于其他對(duì)比模型性能提升有限。與基于圖神經(jīng)網(wǎng)絡(luò)的ASGCN 和TD-GAT 相比,MGNM-GloVe 在Twitter、Lap14、Rest14和Rest16數(shù)據(jù)集上均有明顯的提升,尤其是在Twitter 數(shù)據(jù)集上準(zhǔn)確率提升達(dá)到2.78 個(gè)百分點(diǎn)。其原因是Twitter數(shù)據(jù)集來源于社交網(wǎng)絡(luò),語句的規(guī)范性不足,語法不敏感,MGNM中的Res-GAT所提取的詞級(jí)依賴關(guān)系作為句法依賴關(guān)系的補(bǔ)充,發(fā)揮了重大的作用。
此外,應(yīng)用預(yù)訓(xùn)練BERT模型的MGNM-BERT與所列出的所有對(duì)比模型相比,取得了壓倒性的實(shí)驗(yàn)結(jié)果,證明了BERT提升模型性能的優(yōu)勢(shì)。
為驗(yàn)證MGNM 中將GCN 與Res-GCN 結(jié)合的有效性,在該部分實(shí)驗(yàn)中去掉Res-GCN,僅保留GCN 建立MGNM-GCN;去掉GCN,建立MGNM-RGAT;將Res-GAT替換為原始GAT,建立MGNM-GAT模型。以上三種模型使用GloVe輸入方式,在Twitter、Lap14和Rest14三個(gè)有代表性的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示。
表6 消融實(shí)驗(yàn)結(jié)果Table 6 Results of ablation experiments 單位:%
從表6 中可以看出,MGNM 在準(zhǔn)確率與F1 值兩個(gè)指標(biāo)上均高于MGNM-GCN 與MGNM-RGAT,表明MGNM性能與穩(wěn)定性均優(yōu)于以上兩個(gè)消融模型。從實(shí)驗(yàn)結(jié)果來看MGNM-GCN 在Lap14 與Rest14 數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果優(yōu)于MGNM-RGAT,但是在語法不敏感的Twitter數(shù)據(jù)集上,MGNM-RGAT不依賴句法,使用注意力機(jī)制獲取單詞之間的關(guān)聯(lián)程度,因此表現(xiàn)優(yōu)于MGNMGCN。同時(shí)表6 所示,MGNM-GAT 的準(zhǔn)確率(Acc)和F1 值相較于MGNM 有所下降,證明了Res-GAT 改善GAT過平滑問題的有效性。
為了降低句法依賴樹的噪聲以及文本語法不規(guī)范表達(dá)給方面級(jí)情感分類帶來的不利影響,本文提出了一種基于混合圖神經(jīng)網(wǎng)絡(luò)的情感分類模型。該模型首先采用了GloVe+Bi-LSTM 與BERT 兩種方式獲取文本的上下文表示編碼,隨后加入位置編碼突出與方面詞距離較近上下文單詞的重要性;然后通過一個(gè)l-layer GCN獲取方面詞與上下文單詞的依存關(guān)系,并通過Res-GAT獲取單詞之間重要性關(guān)聯(lián);最后使用特征融合模塊將GCN 與Res-GAT 的輸出相互施加影響并進(jìn)行拼接,將拼接后的最終特征表示用于方面級(jí)情感分類。在五個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)證明了MGNM的有效性。本文所提出的模型緩解了句法依賴樹的噪聲以及語法不規(guī)范性對(duì)情感分類任務(wù)的影響,下一步將深入研究修剪句法依賴樹降低噪聲,并利用不同句法依賴關(guān)系進(jìn)行情感分類。