何勇禧,韓虎,孔博
(蘭州交通大學 電子與信息工程學院,甘肅 蘭州 730070)
方面級情感分析(aspect-based sentiment analysis,ABSA)旨在對文本中給定的方面詞進行情感極性分類,包括正面、中立和負面[1],是自然語言處理 (natural language processing,NLP) 領(lǐng)域的重要研究方向.如“The food was great and tasty,but the sitting space was too small.”,ABSA 能夠?qū)⒎矫嬖~ “food”和“sitting space”分別分類為積極和消極.
圖卷積網(wǎng)絡(luò)(graph convolutional networks,GCN)[2]因具有有效處理非結(jié)構(gòu)化數(shù)據(jù),特別是句子句法依賴樹方面的優(yōu)點,已經(jīng)被廣泛應用于方面情感分析[3-5].Zhang 等[6]證明如依賴樹的句法信息在捕獲從表面形式看不清楚的長距離句法關(guān)系方面非常有效.有許多成功的方法在依賴樹上使用GCN 模型進行方面級情感分類,如王汝言等[7]利用依存樹中的語法距離特征對GCN 的鄰接矩陣進行加權(quán),以減少與方面詞語法上不相關(guān)的信息干擾;Zhang 等[8]將句子的依存關(guān)系樹輸入GCN,以充分利用句法信息和單詞的依存關(guān)系;Sun等[9]在句法依賴樹上構(gòu)建GCN,并結(jié)合BiLSTM來捕獲關(guān)于詞序的上下文信息;Wang 等[10]提出新型的面向方面的依賴樹結(jié)構(gòu),將方面詞作為新的根節(jié)點,通過重新構(gòu)建原始依賴樹并進行修剪,消除了不必要的關(guān)聯(lián),實現(xiàn)了更高效的結(jié)構(gòu).上述方法表明,句法信息有助于將方面詞與相關(guān)意見詞直接關(guān)聯(lián),以提高情感分類的魯棒性;但Wang 等[10]同時發(fā)現(xiàn),現(xiàn)有的方法容易出現(xiàn)解析錯誤.盡管在標準基準測試上具有很高的邊緣解析性能,但先進的依賴解析器通常難以預測完美的解析樹.He 等[11]證明深度模型能夠恢復遠距離依存關(guān)系,但會產(chǎn)生明顯錯誤,語法解析器仍有改善的空間;Sachan 注入語法后的Transformer 性能是否提升在很大程度上取決于依存關(guān)系解析[12].這對基于依賴的方法提出了巨大挑戰(zhàn),即句法結(jié)構(gòu)的額外好處并不總是能抵消模型句法解析帶來的噪聲.
盡管GCN 對語法和語義進行了協(xié)同開發(fā),但仍存在局限性:GCN 通常用于處理全局語法信息,掩碼操作最后用于隱藏上下文單詞,決定了方面詞的情感分類.增強文本的語義信息須融合外部知識,在實際應用中,上下文噪聲的引入可能會導致方面詞的重要性下降.為了增強文本的語義信息,部分研究者利用先驗信息,如知識圖譜、情感詞典的外部知識,為模型提供監(jiān)督信號[13].外部知識在情感分析中被廣泛應用,以提升情感特征的表達能力[14].Ren 等[15]利用情感詞典來提取句子中的情感信息進行注意力權(quán)重計算.對比傳統(tǒng)的情感詞典,SenticNet 可以更好地捕捉詞匯之間的相關(guān)性[16].SenticNet 是公開的、用于意見挖掘和情感分析的工具,提供了語義、情感和極性之間的相關(guān)概念[17-19].Bian 等[18]使用多頭注意力機制有效結(jié)合方面詞和上下文,將外部知識庫中的概念知識整合到模型中,以提升模型的性能.Liang 等[20]將SenticNet 的情感信息與依賴樹相結(jié)合,增強了文本的情感極性.Microsoft Concept Graph[21]顯式知識庫豐富了上下文和目標的語義表示.
受上述工作啟發(fā),本研究提出基于多依賴圖和知識融合的方面級情感分析模型(aspect-based sentiment analysis model based on multi-dependency graph and knowledge fusion,MDKGCN).該模型是基于知識的多依存關(guān)系融合方法,能夠幫助基于依存關(guān)系的模型減輕解析錯誤帶來的影響.由于不同的解析器尤其是具有不同歸納偏差的解析器,往往會以不同的方式出錯.為了不對多個解析結(jié)果產(chǎn)生干擾,本研究給定來自多個解析器的依賴圖,為外部情感知識單獨建立情感圖,并為每個圖分配單獨的模型參數(shù)和同一輸入的模型表示,在應用表示學習器(如GCN)之后,將不同的圖的高維特征組合起來.使用概念知識圖譜增強方面詞的本體信息,為了減少引入概念知識時產(chǎn)生的噪聲,使用可視矩陣對經(jīng)過概念知識圖譜增強的句子進行掩碼;對融合后的文本特征進行分類.
如圖1 所示,MDKGCN 由嵌入層、語義提取層、雙通道圖卷積網(wǎng)絡(luò)層、多特征融合層、掩碼層、多交互層以及輸出層構(gòu)成.模型中,s={w1,w2,···,wa1,wa2,···,wam,···,wn-1,wn}表示輸入長度為n的句子,包括長度為m的方面詞a={wa1,wa2,···,wam},即方面詞a是句子s的子序列.
圖1 基于多依賴圖和知識融合的方面級情感分析模型的框架圖Fig.1 Framework diagram of aspect-based sentiment analysis model based on multi-dependency graph and knowledge fusion
使用GloVe[22]或BERT[23]預訓練詞典,將每個單詞映射到低維實值向量空間,構(gòu)建由低維實數(shù)向量組成的詞向量:
嵌入完成后的句子表示為V=[v1,v2,···,va1,va2,···,vam-1,vam,···,vn-1,vn].
BiLSTM 利用反向傳播算法,通過句子的正反輸入分別建立正向和反向的上下文依存關(guān)系,能夠比單向LSTM[24]提取出更多的上下文信息.BERT 不再依賴傳統(tǒng)的單向語言模型,而是采用掩碼語言模型(masked language model,MLM)實現(xiàn)更深層次的雙向語言表征.通過將初始化的向量輸入BiLSTM 或BERT,提取句子中的隱藏信息,得到雙向語言表征H=[h1,h2,···,hn].
為了充分利用句子單詞間的依存關(guān)系,分別采用句法依賴構(gòu)建工具spaCy[25]和Stanza[26],為每個輸入句子的構(gòu)建2 個不同的依賴圖.相比單個依賴圖,2 個依賴圖可以在依存關(guān)系方面進行互補,使依賴錯誤問題減少.推導出句子的2 個鄰接矩陣D∈Rn×n,∈Rn×n,其中D為spaCy 構(gòu)建的依賴圖,為Stanza 構(gòu)建的依賴圖,相應矩陣元素的表達式為
1.3.1 情感知識 外部情感知識在情感分析任務中被廣泛應用[19],以提升特征表示的準確性和可靠性.為了使情感信息不對某個單獨的依賴圖產(chǎn)生影響,引入SenticNet 的情感評分,使情感評分獨立成圖:
其中SN(wi)∈[-1,1]表示單詞wi在SenticNet 中的情感評分.SN(wi)=0 表示wi為中性詞或在SenticNet 中不存在.在句子的依賴樹中突出方面詞的情感表示,用Ti,j表示,即模型傾向于從方面詞中學習相關(guān)情感信息.
為了避免模型偏向于識別積極的方面詞而忽略消極的方面詞,對情感矩陣元素Si,j的值+1,最終得到句子的增強鄰接矩陣A的元素表達式為
1.3.2 概念知識 Microsoft Concept Graph[21]使用isA 關(guān)系,通過概念化的方法將目標詞即實例與實例的相關(guān)概念聯(lián)系起來,稱為單實例概念化.本研究將k個概念知識插入對應的方面詞后,通過嵌入層可以得到表示V=[v1,v2,···,va1,va2,···,vam,···,vc1,vc2,···,vck-1,vck,···,vn-1,vn],再由語義提取層得到句子的雙向語言表征Hc=[h1,h2,···,hn].
如圖2 所示,在句子樹中,假設(shè)k=2,“food”為方面詞,即知識圖譜中的實例(instance),則可從知識圖譜中獲得實例“food”的概念知識:“item”與“industry”.知識有導致原句的意思發(fā)生變化的風險,即知識噪聲問題.在句子樹中,概念“item”只修飾了實例“food”,與概念“pedestrian amenity”沒有任何關(guān)系.因此,概念“item”的特征表示不應受到概念“pedestrian amenity”的影響.本研究使用可見矩陣M來限制每個詞元的可見面積,這樣“item”和“pedestrian amenity”彼此都不可見.定義矩陣M的元素為
圖2 引入概念知識的例句與對應的可見矩陣Fig.2 Example sentences introducing conceptual knowledge and corresponding visible matrix
其中R表示wi和wj是實例和概念的關(guān)系,S表示wi和wj都是原句中的詞.
1.3.3 雙通道圖卷積網(wǎng)絡(luò)層 基于方面的情感分類旨在從方面的角度判斷情感,需要面向方面的特征提取策略,為此提出雙通道圖卷積網(wǎng)絡(luò)層,如圖3 所示.
圖3 雙通道圖卷積網(wǎng)絡(luò)層Fig.3 Dual-channel graph convolutional network layer
對圖D、、A、M使用圖卷積運算更新每個節(jié)點的表示:
式中:Dij、分別為spaCy、Stanza 句法依存分析獲得的鄰接矩陣D、中的元素,Aij為SenticNet情感分析的鄰接矩陣A中的元素,Mij為對概念知識進行掩碼操作的可見矩陣M中的元素,di=為依賴樹中第i個單詞節(jié)點的度,為第l層節(jié)點vi的網(wǎng)絡(luò)輸出,為前一層圖卷積網(wǎng)絡(luò)輸出結(jié)果,Wl、bl分別為權(quán)重矩陣和偏置項.
式中:pi為第i個單詞的位置權(quán)重;a+1、a+m分別為方面項開始和結(jié)束的位置,若有概念知識,則a+1 和a+m分別是方面項開始和概念知識結(jié)束的位置.值得注意的是,本研究沒有直接將輸入連續(xù)GCN 層,每層網(wǎng)絡(luò)輸出都利用式(13)計算句子中單詞間的位置距離特征pi,以增強距離方面詞較近的單詞信息,減弱距離較遠的信息.利用位置權(quán)重函數(shù)F(·)將位置距離特征融入每層圖卷積網(wǎng)絡(luò)的輸出向量中,
1.3.4 多特征融合層 由圖卷積層得到多個特征向量,由于在原有文本中加入了概念知識,使得的維度和其余向量不同,須進行單獨處理.這里將進行特征融合,表達式為
使用掩碼矩陣N對融合后的特征進行掩碼,在屏蔽非方面詞的隱藏狀態(tài)向量的同時保持方面詞的向量ha不變;對于引入知識后的文本hlm,也進行相同的處理.經(jīng)過掩碼層的操作保留方面的特征信息HL:
1.5.1 語義交互 經(jīng)過語義提取層后可以獲得文本中隱含語義特征的上下文表示H,與掩碼之后的隱藏狀態(tài)HLm之間進行注意力交互:
基于語義的hse由式(21)~式(23)得到.
1.5.2 語法交互 將經(jīng)過多特征融合層后隱含語法特征的上下文表示與掩碼之后的隱藏狀態(tài)HLm之間進行注意力交互:
同時對于引入概念知識的分支采用相同的方式進行特征提取,得到語義向量以及語法向量.在經(jīng)過不同的交互注意力后,得到2 組不同分支的特征向量,將各自的特征向量進行融合,得到2 個分支的結(jié)果:
將2 個分支的最終輸出ha、hc輸入多特征融合層,使其平衡不同分支的權(quán)重,得到文本向量的最終表示:
再經(jīng)過全連接層后,由softmax 函數(shù)輸出情感極性:
式中:Wf為全連接層的權(quán)重項,bf為偏置項.通過最小化交叉熵損失函數(shù),對模型的參數(shù)進行優(yōu)化和更新:
式中:λ 為L2正則化的系數(shù),C為情感極性標簽的數(shù)量,D為訓練樣本的數(shù)量,y為模型預測的極性類別,為方面詞真實的極性類別.
使用Twitter、Restaurant14、Laptop14、Restaurant15、Restaurant16 數(shù)據(jù)集[27-30]來驗證模型有效性.每個數(shù)據(jù)集都由1 組訓練模型和1 組測試模型組成,每個句子都是獨立的樣本,其中包括評論文本、方面詞以及與之相關(guān)的情緒標簽.訓練集和測試集以及標簽分布如表1 所示,其中Npos、Nneu、Nneg分別為積極、中性和消極標簽的數(shù)量.
實驗采用300 維的預訓練GloVe 初始化詞嵌入,單向LSTM 輸出的隱藏狀態(tài)維度設(shè)置為300;使用BERT 預訓練模型時,隱藏狀態(tài)維度為768.模型中的權(quán)重采用均勻分布進行初始化,GCN 的層數(shù)設(shè)置為2,此時模型的性能表現(xiàn)最好.在模型訓練過程中,采用Adam 優(yōu)化器作為求解算法,以實現(xiàn)對模型參數(shù)的高效更新與優(yōu)化.模型的具體超參數(shù)如表2 所示.
表2 所提模型基于2 種詞嵌入的實驗參數(shù)設(shè)置Tab.2 Experimental parameter settings for proposed model based on two types of word embeddings
模型采用準確率Acc 與宏平均F1 值MF1 作為評價指標,其中MF1 為分類問題的衡量指標,由精確率與召回率的調(diào)和平均數(shù)得到.2 項指標的計算式分別為
式中:T為正確預測的樣本數(shù)量,N為樣本總數(shù),P為預測為正的樣本中預測正確的概率,R為正樣本中預測正確的概率.
對比MDKGCN 與多種情感分析方法探究方法的差異.參與對比的其他方法如下.1)LSTM[24]:使用單向的LSTM 編碼上下文信息,用于方面級情感分析.2)IAN[31]:使用BiLSTM 編碼上下文信息,利用注意力機制交互學習目標詞和上下文之間的關(guān)系.3)ASGCN[8]:通過句法依賴樹加權(quán)的圖卷積操作,以學習相關(guān)句法信息與依存關(guān)系.4)kumaGCN[32]:將依賴圖與自我注意力相結(jié)合,提出新的門控機制,以發(fā)掘潛在的語義依賴,補充受到監(jiān)管的句法特性.5)SKGCN[33]:使用圖卷積融合句法依賴樹和常識知識,以提升句子對特定方面的表達能力.6)CDT[9]:將句子的依賴樹與圖神經(jīng)網(wǎng)絡(luò)結(jié)合,學習方面特征表示.7)MI-GCN[7]:通過多交互圖卷積融合語法與語義特征,同時利用語義信息補充句法結(jié)構(gòu),以解決依賴解析錯誤的問題.8)DGAT[34]:利用BiLSTM 提取語義信息,根據(jù)句法依賴樹構(gòu)建句法圖注意力網(wǎng)絡(luò)表示依存關(guān)系重要程度,建立目標與情感詞之間的關(guān)系.9)BERT-BASE[23]:使用雙向Transformers 網(wǎng)絡(luò)結(jié)構(gòu)的預訓練模型,可以生成融合左右上下文信息的深層雙向語言表征.10)SSEMGAT-BERT[35]:引入成分樹和方面感知的注意來分配上下文之間特定方面的注意權(quán)重,以增強的語法和語義特征.11)WGAT-BERT[36]:根據(jù)不同依賴關(guān)系的重要程度構(gòu)造依賴加權(quán)鄰接矩陣,在圖注意力網(wǎng)絡(luò)中進行特征提取.12)MFSGC-BERT[37]:使用SenticNet增強句法依賴樹,并輸入GCN 進行特征融合,以豐富情感特征.
如表3 所示,基于不同的詞嵌入方法,將對比模型分為GloVe 和BERT 組.在GloVe 組中,對比基線模型(LSTM、IAN),MDKGCN 在5 個數(shù)據(jù)集上的Acc 均有較大提升,情感分類效果優(yōu)秀,證明了語義交互和語法交互的有效性;對比其他GCN模型(如ASGCN模型),MDKGCN 在Restaurant15 和Restaurant16 數(shù)據(jù)集上的MF1 分別提升了4.96 與8.04 個百分點,在其他數(shù)據(jù)集上也均能提升超過2 個百分點以上.MDKGCN 使用多個依賴解析因此比于單一依賴解析的模型更加優(yōu)異;此外,MDKGCN 引入外部知識增強相關(guān)情感信息,使得模型在一定程度上能夠得到更加準確的情感分類.在BERT 組中,相較于原始的BERT-BASE 模型,MDKGCN-BERT 在5 個數(shù)據(jù)集上的準確率和宏F1 值平均提升了3.15 與6.60 個百分點,尤其在Restaurant15 數(shù)據(jù)集,MF1 提升了8.97 個百分點.對比引入單一解析器與單一知識的SK-GCN-BERT、MFSGC-BERT,MDKGCN均有所提升;對比圖注意力模型WGAT-BERT、SSEMGAT-BERT,MDKGCN 在其中3 個數(shù)據(jù)集上互有勝負,說明Twitter 數(shù)據(jù)集對語法依賴關(guān)系不敏感,證明了多依賴解析與多知識的有效性.可以看出,MDKGCN 在5 個數(shù)據(jù)集上的表現(xiàn)均優(yōu)于新型GCN 模型(MI-GCN、MFSGC-BERT);對比圖注意力模型(DGAT),僅在Restaurant14 數(shù)據(jù)集上Acc 和MF1 較小.實驗結(jié)果證明了MDKGCN的優(yōu)越性.
表3 不同模型在5 個數(shù)據(jù)集上的分類準確率和宏觀F1 分數(shù)對比Tab.3 Comparison of classification accuracy and macro F1 score of different models in five datasets %
為了明確MDKGCN 中各組件對模型性能的獨立影響,設(shè)計MDKGCN 組件的拆解實驗,并進行雙知識的融合對比、概念知識的融合方式對比以及GCN 層數(shù)對模型的影響可視化分析.
如表4 所示為所提模型在5 個數(shù)據(jù)集上的消融實驗結(jié)果.表中,W/O Concept 表示刪除概念知識分支,W/O MS_Matrix 表示不使用可見矩陣對引入的知識進行遮蔽,W/O Stanza 表示僅刪除Stanza 依賴解析,W/O spaCy 表示僅刪除spaCy依賴解析器,W/O Sentic 表示僅刪除SenticNet 情感知識.可以看出,在去除Stanza 依賴圖后,準確率與宏F1 值平均下降1.12 和2.13 個百分點;在去除spaCy 依賴圖后,準確率與宏F1 值平均下降1.56 和2.32 個百分點.證明spaCy 依賴解析器的性能雖然強于Stanza,但是無法解析出完美的依賴圖.在去除其他組件或模塊后,模型性能也都有一定程度的下降,表明模型中均為有效組件.
表4 所提模型在5 個數(shù)據(jù)集上的消融實驗結(jié)果Tab.4 Ablation experimental results of proposed model in five datasets %
對基于BERT 的MDKGCN 進行模塊消融實驗,如表5 所示.表中,GCN 表示將多通道GCN層的換為普通GCN 模塊,只使用基于spaCy 的依賴樹.S 表示模型不引入概念知識的單分支模型,D 代表引入概念知識的雙分支模型.相較于不引入概念知識的單分支BERT,引入GCN 后準確率和宏F1 值平均提升0.96 與3.07 個百分點;引入MDKGCN 后準確率和宏F1 值平均提升2.04 與5.05 個百分點.對比引入概念知識后的雙分支BERT,引入GCN 后的準確率和宏F1 值平均提升0.26 與2.59 個百分點;引入MDKGCN 后的準確率和宏F1 值平均提升1.78 與4.56 個百分點.對比2 種結(jié)構(gòu)的MDKGCN-BERT 模型,雙分支比單分支在準確率與宏F1 值上平均提升1.10 與1.55 個百分點.結(jié)果表明了多依賴信息以及多知識的有效性.
表5 所提模型使用BERT 時在5 個數(shù)據(jù)集上的消融實驗結(jié)果Tab.5 Ablation experimental results for proposed model with BERT in five different datasets %
如表6 所示,跟蹤GPT-3 系列大型語言模型,對Davinci[38]、Text-Davinci-001[39]、Code-Davinci-002[40]、Text-Davinci-002、Text-Davinci-003 和GPT-3.5-Turbo進行對比分析.可以發(fā)現(xiàn),盡管大語言模型的優(yōu)勢較為明顯,但兩者的參數(shù)量級不在同一水平線上.BERT 擁有1.10×108的參數(shù)量,僅為情感分析能力最強的Code-Davinci-002 模型1.75×1013參數(shù)量的0.63‰,在情感分析任務中擁有其超過85%的性能,微調(diào)后的MDKGCN-BERT 更是擁有其超過88%的性能.
表6 所提模型與大型語言模型的對比實驗結(jié)果Tab.6 Comparative experimental results between proposed model and large language models %
2.5.1 GCN 層數(shù)對實驗結(jié)果的影響 實驗將GCN 層數(shù)分別設(shè)置為L={1,2,3,···,10},在5 個公開數(shù)據(jù)集上對應的準確率和宏F1 如圖4 所示.從總體效果看,MDKGCN 在GCN 層數(shù)L=2 時達到最優(yōu)的性能,當GCN 網(wǎng)絡(luò)深度增加,準確率與宏F1 值隨之波動,但整體性能呈現(xiàn)下降趨勢.當L=10 層時,相較于最佳性能,準確率平均下降了2.13 個百分點,宏F1 值平均下降了3.09 個百分點,由于網(wǎng)絡(luò)層數(shù)增加,模型引入過多參數(shù),產(chǎn)生過擬合現(xiàn)象.
圖4 圖卷積網(wǎng)絡(luò)層數(shù)對準確率和宏F1 值的影響Fig.4 Effect of graph convolutional networks layers on accuracy and macro F1 score
2.5.2 雙知識的融合對比實驗 為了驗證外部知識對所提模型的影響,針對MDKGCN 引入的SenticNet 情感知識、概念知識設(shè)計對比實驗,結(jié)果如圖5 所示.圖中,S_C 表示融合概念知識,S_S 表示融合SenticNet 情感知識;S_C+S_S 表示融合雙知識.可以看出,單獨引入SenticNet 情感知識比單獨引入概念知識有接近或更好的性能,準確率和宏F1 值平均提升0.74 與0.24 個百分點,表明對方面詞進行解釋比賦予情感詞相關(guān)情感得分能夠更好地解決一詞多義問題.在引入雙知識后,模型性能有明顯提升.對比單情感知識,準確率和宏F1 值平均提升0.58 與1.60 個百分點;相較于單概念知識,準確率和宏F1 值平均提升1.32與1.84 個百分點.證明引入雙知識可以有效提升模型性能.
圖5 外部知識對準確率和宏F1 值的影響Fig.5 Effect of external knowledge on accuracy and macro F1 score
2.5.3 概念知識的融合方式對比實驗 為了驗證概念知識融合方式的有效性,比較3 種經(jīng)典的信息融合方式,結(jié)果如圖6 所示.圖中,S_Ma 表示在掩碼層只對方面詞進行掩碼操作,之后不使用可見矩陣對其特征進行掩碼;S_Mu 表示只使用可見矩陣對特征進行篩選,不使用掩碼層對方面詞進行掩碼;Ma_Mu 表示引入概念知識的文本與概念知識可見矩陣直接做矩陣乘法;GCN 表示將引入概念知識的文本與遮蔽概念知識的可見矩陣輸入GCN.可以看出,與其他融合策略相比,本研究使用的GCN 方式在準確率與宏F1 指標上均優(yōu)于其他3 種融合方式.分別對比S_Ma、S_Mu、Ma_Mu,準確率平均提升0.87、0.71、1.10 個百分點;宏F1 值平均提升1.56、1.48、2.36 個百分點.該實驗結(jié)果證明了GCN 在處理非結(jié)構(gòu)化數(shù)據(jù)的優(yōu)勢.
圖6 概念知識融合方式對準確率和宏F1 值的影響Fig.6 Effect of concept knowledge fusion method on accuracy and macro F1 score
選取評論語句,對所提模型進行注意力可視化分析.顏色深淺反映該詞在句子中的重要性,顏色越深表明該詞越重要.在句子“The food was great and tasty,but the sitting space was too small.”中,有2 個方面詞,分別為“food”和“sitting space”.如圖7 所示,對于“food”,在不引入概念知識時,注意力完全在“great”上,“tasty”理應分得部分注意力,這樣更符合人類的正常思維;引入概念知識后,注意力分別給了“great”和“tasty”,符合現(xiàn)實情況.如圖8 所示,對于方面詞“sitting space”,在沒有概念知識時注意力更多在“was”上,按照正常邏輯,“too”這個詞也應該分到不小的注意力分值,而且將“sitting space”割裂開來,使注意力分布不同;在引入概念知識后,更符合現(xiàn)實的注意力得分.
圖7 方面詞“food”注意力權(quán)重對比Fig.7 Comparison of attention weights for aspect word "food"
圖8 方面詞“sitting space”注意力權(quán)重對比Fig.8 Comparison of attention weights for aspect word “sitting space”
綜上所述,使用MDKGCN 可以得到更符合常識的注意力得分.即使在含有多個方面詞的文本中,該模型仍然能夠計算出正確的注意力權(quán)重,判斷方面詞的情感極性.
本研究使用2 種不同的句法解析方式對句子構(gòu)建2 種句法關(guān)系依賴圖,依據(jù)SenticNet 情感知識圖譜構(gòu)建情感關(guān)系圖,使用圖卷積神經(jīng)網(wǎng)絡(luò)將2 種依賴圖與情感關(guān)系圖相融合.引入概念知識圖譜增強句子中的方面詞本體,構(gòu)建對應的可視矩陣,遮蔽引入的概念知識,避免由于大量知識后引入導致句子偏離其本意的情況.將這2 種融合后的特征表示進行語義、語法雙交互,融合多種不同的特征表示,有效地利用所有信息實現(xiàn)了多特征的共享與互補.通過5 個基準數(shù)據(jù)集的驗證,所提模型的準確率和宏F1 值都顯著優(yōu)于傳統(tǒng)的單解析模型和當前的主流模型.也應注意到,雖然SenticNet 和概念知識圖譜為模型提供了豐富的語義和情感信息,但知識圖譜本身的完備性和時效性可能會影響最終結(jié)果.此外,本研究對知識圖譜中實體關(guān)聯(lián)關(guān)系的深度挖掘和利用不夠充分,未來將引入更多類型和更全面的知識圖譜,并探索更為有效的知識融合和推理機制,以提高模型對復雜文本的理解能力和泛化性能.