張文軒,殷雁君
(內(nèi)蒙古師范大學(xué) 計算機(jī)科學(xué)技術(shù)學(xué)院,內(nèi)蒙古 呼和浩特 010022)
隨著社交網(wǎng)絡(luò)和電子商務(wù)的發(fā)展,情感分析已經(jīng)成為自然語言處理(Natural Language Processing, NLP)的一個熱門研究課題[1]。方面級情感分析(Aspect-Level Sentiment Analysis, ALSA)是一項面向?qū)嶓w的細(xì)粒度情感分析任務(wù),旨在確定句子中方面項的情感極性,即積極、消極或中性。以語句“Great food but the service was dreadful !”為例,其對于給定的兩個方面項“food”和“service”的情感極性分別為積極和消極。ALSA可以準(zhǔn)確地識別用戶對某個具體方面的態(tài)度,而不是簡單地為一個句子指定情感極性,因而在市場調(diào)研、輿情監(jiān)測等領(lǐng)域具有寶貴的應(yīng)用價值。
為幫助神經(jīng)網(wǎng)絡(luò)模型聚焦于方面項,過去的研究通常采用注意力機(jī)制(Attention Mechanism)[2]對句子中詞語間的語義關(guān)聯(lián)進(jìn)行建模。但由于文本的復(fù)雜性,單純的注意力機(jī)制往往不能準(zhǔn)確捕獲方面和上下文詞之間的依賴關(guān)系。同時,基于注意力機(jī)制生成的權(quán)重通常分布較為密集,因此不可避免會引入噪聲信息[3-4]。
近年來,圖卷積網(wǎng)絡(luò)(Graph Convolution Network, GCN)[5]在依存樹上的應(yīng)用在ALSA領(lǐng)域引起了廣泛關(guān)注。這類模型根據(jù)句子的句法結(jié)構(gòu)建立依存樹,并利用GCN操作在基于依存樹生成的圖結(jié)構(gòu)上進(jìn)行表示學(xué)習(xí),使得方面項與距離較遠(yuǎn)的意見項能夠更加高效、準(zhǔn)確地進(jìn)行信息交互。然而,此類方法利用依存樹構(gòu)建的鄰接矩陣中僅采用“1”或“0”兩種情況,表示兩個節(jié)點(diǎn)間是否存在通路,這種簡單、固定的邊權(quán)重?zé)o法為方面項與相應(yīng)的意見項提供相較于其他詞語更多的關(guān)注度。以句子“I think the meatball parm is good”為例,其依存樹及鄰接矩陣如圖1所示,方面項“meatball parm”和意見項“good”具有和“the”等無關(guān)詞相同的邊權(quán)重,這顯然會為ALSA任務(wù)帶來干擾。
為克服注意力機(jī)制和GCN各自的缺陷,最近的研究嘗試在依存樹生成的圖結(jié)構(gòu)上應(yīng)用注意力機(jī)制[6-8]或建立基于圖結(jié)構(gòu)和注意力機(jī)制的雙通道模型[9-11],幫助模型有針對性地提取對ALSA任務(wù)有益的信息。然而,以上方法存在模型性能高度依賴依存樹解析質(zhì)量的缺陷,當(dāng)句子結(jié)構(gòu)較為復(fù)雜或?qū)φZ法不敏感導(dǎo)致依存樹解析質(zhì)量較差時,模型將難以維持原有性能[12]。
為解決以上問題,本文提出一種圖指導(dǎo)的差異化注意力網(wǎng)絡(luò)(Graph-Guided Differentiated Attention Network, GGDAN)用于ALSA任務(wù)。針對當(dāng)前結(jié)合注意力機(jī)制與圖結(jié)構(gòu)的模型高度依賴依存樹解析質(zhì)量的問題,提出一種圖指導(dǎo)機(jī)制,利用依存樹生成的圖結(jié)構(gòu)指導(dǎo)注意力權(quán)重矩陣的生成,在幫助模型更為準(zhǔn)確、高效地捕捉詞語間依賴關(guān)系的同時,降低了模型對依存樹的依賴程度。針對注意力權(quán)重分布密集的問題,提出一種注意力差異化,幫助模型學(xué)習(xí)更加離散化的注意力權(quán)重,能夠在一定程度上減少噪聲引入。在3個公開數(shù)據(jù)集上的多方面實驗證明了本文模型的先進(jìn)性和可解釋性。
與傳統(tǒng)的句子級或文檔級的情感分析任務(wù)不同,方面級情感分析是一種面向?qū)嶓w的細(xì)粒度情感分析任務(wù)。早期的ALSA方法主要基于情感詞典和機(jī)器學(xué)習(xí)[13],這類方法主要依靠手工提取特征,雖然在特定領(lǐng)域有良好表現(xiàn),但需要耗費(fèi)大量人工成本,并且無法對方面項及其上下文之間的依賴關(guān)系進(jìn)行建模。
神經(jīng)網(wǎng)絡(luò)模型不依靠人工定義特征,能夠進(jìn)行端到端的表示學(xué)習(xí)。近年來,由于注意力機(jī)制在上下文語義建模中的良好表現(xiàn),大量工作嘗試將基于注意力的神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于ALSA任務(wù),其主要目的在于利用注意力機(jī)制捕捉和建立方面項及其意見項之間的聯(lián)系。Wang等[14]提出的ATAE-LSTM將方面詞向量和上下文詞向量組合作為LSTM的輸入,利用注意力機(jī)制為上下文賦予不同的權(quán)重以提取有利于ALSA任務(wù)的語義特征。IAN[15]、MGAN[16]和AOA[17]則分別對方面項和上下文進(jìn)行建模,并利用二者間的交互注意力機(jī)制為上下文分配權(quán)重。盡管上述方法已經(jīng)在ALSA任務(wù)中取得了良好的性能,但由于缺乏對語法知識的利用,當(dāng)句子成分較為復(fù)雜或句中存在多個方面時,將難以對方面項的情感極性做出準(zhǔn)確判斷。同時,注意力機(jī)制存在權(quán)重分布過于密集的現(xiàn)象,導(dǎo)致模型不可避免地受到不相關(guān)詞語的干擾。
考慮到語法知識在ALSA任務(wù)中的重要性,基于依存樹建立的GCN模型逐漸成為ALSA領(lǐng)域的研究熱點(diǎn)。依存句法分析通過對句子中詞與詞之間的語法關(guān)系進(jìn)行抽取和篩選以構(gòu)建依存樹,能夠有效縮短方面項和觀點(diǎn)詞之間的距離[18]。以句子“The falafel was over cooked and dried but the chicken was fine”為例,其依存樹如圖2所示,其中方面項“chicken”和意見項“fine”之間存在直接相連路徑,表示二者具有語法關(guān)聯(lián),而方面項“falafel”和“fine”間則不存在直接相連的路徑。因此,依存樹在一定程度上能夠規(guī)避無關(guān)上下文信息對ALSA任務(wù)的影響。文獻(xiàn)[19]根據(jù)依存樹建立無向圖,利用GCN學(xué)習(xí)包含語法知識的上下文表示,在ALSA任務(wù)中達(dá)到了當(dāng)時最先進(jìn)的水準(zhǔn)。文獻(xiàn)[20]則分別利用依存樹和詞共現(xiàn)關(guān)系構(gòu)建基于語法圖和詞匯圖的雙通道GCN模型,學(xué)習(xí)同時包含語法和語義關(guān)系的特征表示。然而,GCN模型邊權(quán)重固定的特點(diǎn)導(dǎo)致其信息交互過程缺乏區(qū)分性,為表示學(xué)習(xí)帶來困難。
最近的研究者采用將依存樹與注意力機(jī)制相結(jié)合的方法解決這一問題,研究思路主要包括:
(1) 直接在圖結(jié)構(gòu)上應(yīng)用注意力機(jī)制以學(xué)習(xí)具有動態(tài)權(quán)重的圖。例如,Huang等[6]提出的TD-GAT基于依存樹構(gòu)建圖注意力網(wǎng)絡(luò),并采用LSTM單元結(jié)構(gòu)對節(jié)點(diǎn)進(jìn)行更新。Wang等[7]引入依賴關(guān)系類型信息,并以目標(biāo)方面為根節(jié)點(diǎn)對依存樹進(jìn)行修剪,構(gòu)建關(guān)系圖注意力網(wǎng)絡(luò)(Relational Graph Attention Network, R-GAT)。
(2) 基于圖結(jié)構(gòu)和注意力機(jī)制建立雙通道模型以進(jìn)行不同層面的表示學(xué)習(xí)。例如,Xu等[9]提出的AEGCN采用多頭自注意力和GCN雙通道的方式分別提取特征,并通過通道間的交互注意力機(jī)制使得注意力機(jī)制和GCN相互增強(qiáng)。Tang等[11]提出的依存樹增強(qiáng)的雙Transformer模型(Dependency Graph Enhanced Dual-Transformer, DGEDT)則分別基于多頭自注意力和GCN建立雙通道Transformer模型,并引入一個交互雙仿射模塊以方便通道間的信息交流。此外,Hou等[21]提出基于選擇性注意力的圖卷積網(wǎng)絡(luò)(Selective Attention based Graph Convolutional Networks, SA-GCN),通過對注意力機(jī)制生成的權(quán)重值應(yīng)用Top-k操作,丟棄權(quán)重較低的詞語,以去除不相關(guān)詞語對ALSA任務(wù)的影響。然而,這些方法的模型性能高度取決于依存樹的解析質(zhì)量的缺陷,魯棒性較差。
基于以上思考,本文提出圖指導(dǎo)的差異化注意力網(wǎng)絡(luò)GGDAN。模型以注意力機(jī)制為基礎(chǔ),通過圖指導(dǎo)機(jī)制利用依存樹包含的語法知識對其進(jìn)行增強(qiáng),以有效結(jié)合二者優(yōu)勢。針對注意力權(quán)重分布過于密集的問題,模型引入注意力差異化操作,幫助模型學(xué)習(xí)更具差異性的注意力權(quán)重,減少噪聲信息引入。在3個公開數(shù)據(jù)集上進(jìn)行廣泛實驗,顯示本文提出的GGDAN網(wǎng)絡(luò)實現(xiàn)了較為先進(jìn)和穩(wěn)定的性能。
本節(jié)將詳細(xì)介紹本文提出的用于方面級情感分析的圖指導(dǎo)的差異化注意力網(wǎng)絡(luò)GGDAN,其流程如圖3所示。
圖3 GGDAN整體流程
模型由Bi-LSTM編碼層、自注意力模塊、圖卷積層、特征交互模塊和分類層等結(jié)構(gòu)組成。模型以句子方面對(s,a)為輸入,其包含一個長度為n的句子s={w1,w2,…,wτ+1,…,wτ+m,…,wn},以及從該句第τ+1個詞開始的長度為m的方面a={wτ+1,wτ+2,…,wτ+m}。利用Bi-LSTM對句子s經(jīng)嵌入得到的詞向量序列表示進(jìn)行編碼,并將編碼后的隱藏向量與預(yù)處理步驟得到的位置向量和詞性(Part of speech, POS)向量進(jìn)行拼接,輸入自注意力模塊中計算注意力權(quán)重矩陣,同時利用依存樹生成的圖結(jié)構(gòu)對注意力權(quán)重矩陣進(jìn)行指導(dǎo)。隨后將注意力權(quán)重矩陣作為具有邊權(quán)重的圖結(jié)構(gòu),對Bi-LSTM層得到的隱藏向量進(jìn)行圖卷積操作。利用特征交互模塊對圖卷積得到的特征進(jìn)行聚合,生成用于預(yù)測的情感向量。最后將情感向量送入分類器得到情感預(yù)測結(jié)果。
預(yù)處理旨在對輸入句子s進(jìn)行依存分析(Dependency Parsing),并根據(jù)依存樹建立鄰接矩陣G∈Rn×n。具體來說,對于圖G中的任意元素gij,若詞wi和詞wj在依存樹中存在語法關(guān)系,則令gij=gji=1,否則令gij=gji=0。同時為G中所有節(jié)點(diǎn)添加自連接,即gii=1。此外, 參考Sun等[22]
的研究,根據(jù)句中詞語同方面項間的相對位置關(guān)系及依存解析結(jié)果為每個詞語分配位置標(biāo)簽和詞性標(biāo)簽,并基于位置標(biāo)簽和詞性標(biāo)簽對句子進(jìn)行嵌入表示,生成可學(xué)習(xí)的位置向量Xpost∈Rn×dpt和詞性向量XPOS∈Rn×dps,其中,dpt和dps分別表示位置向量和詞性向量的維度。
對于句子方面對(s,a),利用嵌入矩陣E∈R|V|×de獲取句子s的詞向量表示X={x1,x2,…,xn},其中|V|是詞表大小,de是詞向量維度。將X送入Bi-LSTM進(jìn)行編碼以獲得包含上下文信息的隱藏狀態(tài)向量H={h1,h2,…,hn},其中,hi∈R2dhid是Bi-LSTM在時間步i處的隱藏向量,dhid是隱藏狀態(tài)向量維度。Bi-LSTM編碼層的形式化定義如式(1)~式(3)所示。
其中,LSTMforward和LSTMbackward分別表示前向和后向LSTM編碼操作,[;]表示拼接操作。
自注意力模塊以包含語法知識的鄰接矩陣G為輔助監(jiān)督,基于自注意力機(jī)制生成差異化注意力矩陣A∈Rn×n作為加權(quán)圖。具體來說,首先將經(jīng)過BiLSTM編碼得到的隱藏向量H∈Rn×dhid與位置向量Xpost、詞性向量XPOS進(jìn)行拼接作為輸入特征H′∈Rn×(dhid+dpt+dps),形式上如式(4)所示。
H′=[H;Xpost;XPOS]
(4)
輸入特征H′經(jīng)過線性映射分別生成查詢向量Q∈Rn×dk和鍵向量K∈Rn×dk,并用于計算注意力權(quán)重矩陣A,其中,dk是查詢向量和鍵向量的維度。具體定義如式(5)~式(8)所示。
其中,WQ∈R2dhid×dk和WK∈R2dhid×dk是可學(xué)習(xí)的權(quán)重矩陣,bQ∈Rdk和bK∈Rdk是可學(xué)習(xí)的偏置,An∈Rn×n表示未經(jīng)歸一化注意力權(quán)重矩陣。
2.3.1 圖指導(dǎo)機(jī)制
為充分發(fā)揮注意力機(jī)制與語法知識各自的優(yōu)勢并減輕模型對依存樹的依賴程度,本文提出了圖指導(dǎo)機(jī)制,幫助模型自發(fā)地學(xué)習(xí)接近于圖結(jié)構(gòu)的注意力權(quán)重,而不是直接基于圖結(jié)構(gòu)進(jìn)行表示學(xué)習(xí)。
(9)
其中,inf表示無窮大。
利用maskG(·)對An進(jìn)行過濾得到基于圖G的注意力權(quán)重矩陣AG∈Rn×n,如式(10)所示。
AG=Softmax(maskG(An))
(10)
為防止單純的自注意力機(jī)制引入過多語法上無關(guān)的噪聲信息,本文設(shè)計了對比損失Lcon,利用AG對A進(jìn)行監(jiān)督,如式(11)所示。
(11)
直觀上,對比損失Lcon通過計算A和AG間的均方誤差,使得A和AG相互接近,以實現(xiàn)利用圖G包含的語法知識指導(dǎo)注意力權(quán)重的目的,其本質(zhì)在于鼓勵句中詞語更多關(guān)注與自身在語法上直接關(guān)聯(lián)的詞語,反之則給予懲罰。
2.3.2 注意力差異化操作
如前文所述,過于密集的注意力權(quán)重分布可能引入大量無關(guān)的上下文信息,為表示學(xué)習(xí)帶來負(fù)面影響。文獻(xiàn)[3-4]表明,更稀疏的注意力權(quán)重能使得每個節(jié)點(diǎn)關(guān)注的信息更具針對性,以減少不相干節(jié)點(diǎn)的干擾。因此,為使得A中注意力權(quán)重值趨于稀疏,即權(quán)重分布趨于離散,本文提出了注意力差異化操作。
(12)
差異化損失Ldiff的本質(zhì)在于最大化注意力權(quán)重矩陣的方差,促進(jìn)A中權(quán)重分布的離散程度增大,這使得每個詞語更容易為與其高度相關(guān)的上下文提供較高的權(quán)重,從而減少無關(guān)節(jié)點(diǎn)的干擾。
與以往基于依存樹的GCN模型[19-20, 22]不同,本文模型的圖卷積層將自注意力模塊生成的注意力權(quán)重矩陣A作為圖結(jié)構(gòu)并用于節(jié)點(diǎn)的表示學(xué)習(xí),其優(yōu)勢在于: 一是注意力權(quán)重矩陣作為全連通圖能夠有效縮短依存樹結(jié)構(gòu)中多跳相關(guān)節(jié)點(diǎn)間的路徑距離,二是可以減輕模型對依存樹的依賴程度。
參考Kipf和Welling等[5]的研究,本文GCN層的形式化定義如式(13)所示。
Hl=σ(AHl-1Wl+bl)
(13)
其中,Hl∈Rn×dg表示第l個GCN層的輸出,且H0=H,Wl和bl∈Rdg分別表示第l個GCN層中可學(xué)習(xí)的權(quán)重和偏置,且除W1∈R2dhid×dg外,對任意l>1都有Wl∈Rdg×dg,dg為圖卷積層的輸出維度,σ表示ReLU激活函數(shù)。通過堆疊L個GCN層使得節(jié)點(diǎn)間的信息充分交互。
特征交互模塊利用低層特征和高層特征之間的交互注意力機(jī)制對方面項和其上下文間的依賴關(guān)系進(jìn)行建模,生成用于情感分類的方面和上下文表示。
首先,通過平均池化操作對隱藏狀態(tài)向量H中的方面向量進(jìn)行聚合,并通過一個線性層將其映射到與圖卷積層的輸出HL∈Rn×dg相同維度的向量空間,以捕獲低層方面特征h′a∈Rdg,如式(14)、式(15)所示。
其中,Wa∈R2dhid×dg為可學(xué)習(xí)的權(quán)重。
其中,h′Ta表示h′a的轉(zhuǎn)置。
考慮句子“It takes a long time to boot up”和“The battery life is long”,盡管兩個句子具有相同的意見詞“l(fā)ong”,但方面項“boot up”和“battery life”的情感極性完全相反。這表明對于不同的方面項,情感極性的判斷準(zhǔn)則也不盡相同,因此在判斷方面項情感極性的過程中有必要將方面自身信息納入考慮[24]。基于以上考慮,本文通過平均池化操作對HL中的方面向量進(jìn)行聚合,生成高層方面特征ra∈Rdg,如式(19)所示。
(19)
最后,將高層上下文特征rc和高層方面特征ra進(jìn)行拼接以獲得用于分類的情感向量r∈R2dg,如式(20)所示。
r=[rc;ra]
(20)
將特征交互模塊得到的情感向量r送入一個線性層,并利用Softmax函數(shù)生成關(guān)于方面項情感極性的概率分布,如式(21)所示。
(21)
其中,Wp∈R2dg×c和bp∈Rc分別表示可學(xué)習(xí)的權(quán)重和偏置,c為情感極性類別數(shù)。
模型利用交叉熵?fù)p失對情感分類任務(wù)進(jìn)行監(jiān)督,如式(22)所示。
(22)
本文模型的最終損失如式(23)所示。
L=Lsc+λLcon+μLdiff+ε‖θ‖2
(23)
其中,λ和μ是調(diào)節(jié)損失平衡性的超參數(shù),ε是正則化系數(shù),θ是本文模型所有參數(shù)的集合。
本文在3個公開數(shù)據(jù)集上對提出的GGDAN模型進(jìn)行了一系列實驗,以驗證其在性能上的先進(jìn)性和可解釋性。
本文在3個公開數(shù)據(jù)集上進(jìn)行實驗,包括SemEval-2014任務(wù)[25]的餐廳評論數(shù)據(jù)集Rest14和筆記本電腦評論數(shù)據(jù)集Lap14,以及由Dong等[26]整理的Twitter推文數(shù)據(jù)集。數(shù)據(jù)集中的每條樣本均由真實的評論語句、評論中出現(xiàn)的方面詞和其對應(yīng)的情感類別組成,并且標(biāo)簽只包含積極、消極和中性。數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)如表1所示。
表1 各數(shù)據(jù)集統(tǒng)計數(shù)據(jù)
本文使用Stanford解析器(1)https://stanfordnlp.github.io/ CoreNLP/獲取所有文本數(shù)據(jù)的依存句法關(guān)系。使用Pennington等[27]提供的300維GloVe詞向量作為本文模型和全部對比模型的初始化詞嵌入,位置向量維度設(shè)置為30,詞性向量維度設(shè)置為30,BiLSTM輸出的隱藏狀態(tài)維度設(shè)置為50,查詢向量和鍵向量的維度設(shè)置為50,GCN層數(shù)設(shè)置為2且所有GCN層的輸出維度均設(shè)置為50。本文對BiLSTM編碼層的輸入應(yīng)用丟棄率為0.6的Dropout操作,對每個GCN層的輸入應(yīng)用丟棄率為0.5的Dropout操作,對自注意力模塊生成的注意力權(quán)重矩陣A應(yīng)用丟棄率為0.2的Dropout操作。設(shè)置對比損失系數(shù)λ=0.5,差異化損失系數(shù)μ=0.1,正則化系數(shù)ε=10-5。模型訓(xùn)練采用學(xué)習(xí)率為0.001的Adam優(yōu)化器,設(shè)置Batch大小為32,在每個數(shù)據(jù)集上進(jìn)行50輪訓(xùn)練。
實驗結(jié)果取隨機(jī)初始化5次運(yùn)行的最好結(jié)果的平均值,并采用分類準(zhǔn)確率和Macro-F1值作為評價指標(biāo)。
為了全面評估和分析本文提出的GGDAN模型在ALSA任務(wù)上的性能,本文選取了一系列基于不同方法類型的代表性模型與GGDAN進(jìn)行比較,包括:
ATAE-LSTM[14]: 利用LSTM對句子進(jìn)行建模,基于上下文與方面項的相關(guān)性對上下文進(jìn)行加權(quán)聚合。
MemNet[28]: 將上下文句子視為外部記憶,在上下文的詞向量表示上應(yīng)用多跳注意力機(jī)制,并將最后一跳的輸出作為方面的最終表示。
IAN[15]: 使用兩個LSTM分別對方面和上下文進(jìn)行編碼,并利用交互注意力機(jī)制對方面和上下文間的關(guān)系進(jìn)行建模。
TNet[29]: 將Bi-LSTM編碼后的句子特征表示經(jīng)過連續(xù)的面向方面的上下文編碼和注意力機(jī)制進(jìn)行特征融合與提取,并使用CNN提取最終的特征表示。
ASGCN[19]: 使用Bi-LSTM獲取句子的特征表示,通過基于依存樹的GCN學(xué)習(xí)特定于方面的上下文表示,并利用注意力機(jī)制聚合上下文表示用于分類。
CDT[22]: 使用Bi-LSTM獲取句子的特征表示,并通過基于依存樹的GCN學(xué)習(xí)包含情感極性的方面表示。
BiGCN[20]: 基于依存樹和詞共現(xiàn)關(guān)系構(gòu)建句法圖和詞匯圖,歸納區(qū)分不同類型的語法依賴關(guān)系和詞共現(xiàn)關(guān)系,設(shè)計了雙層次交互式圖卷積網(wǎng)絡(luò)以充分學(xué)習(xí)節(jié)點(diǎn)表示。
TD-GAT[6]: 提出基于依存樹的圖注意力網(wǎng)絡(luò),并采用LSTM單元逐層更新節(jié)點(diǎn)表示。
AEGCN[9]: 以雙通道的形式分別利用多頭注意力和引入注意力機(jī)制的基于依賴樹的GCN對文本表示進(jìn)行編碼,并利用通道間的交互注意力進(jìn)一步增強(qiáng)表示。
kumaGCN[10]: 利用HardKuma分布對句子的語義信息進(jìn)行采樣,歸納生成方面特定的潛在圖結(jié)構(gòu),并引入門控機(jī)制將潛在圖與依存樹相結(jié)合。
DGEDT[11]: 提出了一種雙通道Transformer結(jié)構(gòu),分別基于多頭自注意力和依存樹上的GCN學(xué)習(xí)句子的平面表示和圖表示,并利用交互雙仿射變換進(jìn)行通道間信息交互。
本節(jié)在全部3個數(shù)據(jù)集上比較了GGDAN和對比模型的ALSA任務(wù)性能,其中各對比模型的實驗結(jié)果分別來自原文獻(xiàn)。實驗結(jié)果如表2所示,其中字體加粗的表示當(dāng)前指標(biāo)中的最優(yōu)結(jié)果,加下劃線的表示次優(yōu)結(jié)果。
表2 實驗結(jié)果 (單位: %)
如表2所示,ASGCN、CDT等基于依存樹的GCN模型在大多數(shù)數(shù)據(jù)集上的性能都明顯優(yōu)于ATAE-LSTM、MemNet等基于注意力機(jī)制的模型,說明相較于注意力機(jī)制,語法知識的引入能幫助模型更為準(zhǔn)確地提取與方面項相關(guān)的上下文信息。同時,除DGEDT外,TD-GAT、AEGCN等將注意力機(jī)制與語法知識相結(jié)合的模型并未表現(xiàn)出明顯優(yōu)于基于依存樹的GCN模型的性能,尤其是在大多數(shù)數(shù)據(jù)集上都沒能達(dá)到與CDT相近的水平,說明當(dāng)前研究中依然缺乏將注意力機(jī)制與語法知識有效結(jié)合的方法。
從表2還可以看出,本文提出的GGDAN在3個數(shù)據(jù)集上都實現(xiàn)了較為優(yōu)秀的分類性能,證明了本文模型在ALSA任務(wù)中的有效性。GGDAN在Rest14數(shù)據(jù)集上的準(zhǔn)確率和F1值分別取得了次優(yōu)和最優(yōu)結(jié)果,在Lap14數(shù)據(jù)集上的準(zhǔn)確率和F1值均取得了最優(yōu)結(jié)果,在Twitter數(shù)據(jù)集上則取得了準(zhǔn)確率的最優(yōu)結(jié)果。
同時可以觀察到,大多數(shù)結(jié)合語法知識的模型在Rest14、Lap14數(shù)據(jù)集上性能優(yōu)于基于注意力機(jī)制的模型,而在Twitter數(shù)據(jù)集上的性能則遜于基于注意力機(jī)制的TNet模型。這種現(xiàn)象的可能原因是Twitter數(shù)據(jù)集對語法知識不敏感,依存樹解析質(zhì)量相對較差,因此注意力機(jī)制對于文本間依賴關(guān)系建模的作用更大。本文提出的圖指導(dǎo)機(jī)制通過幫助GGDAN模型自發(fā)地學(xué)習(xí)接近于圖結(jié)構(gòu)的注意力權(quán)重,對依存樹的依賴較小,因此相比其他結(jié)合語法知識的模型,能夠在Twitter數(shù)據(jù)集上保持較為先進(jìn)的情感分類性能,與TNet模型的性能相仿。
為進(jìn)一步驗證GGDAN中各模塊的有效性,本文設(shè)計了7組對比模型,包括:
(1)Ours-GCN: 移除GGDAN模型中的自注意力模塊,直接利用基于依存樹生成的圖G進(jìn)行圖卷積操作。
(2)Ours-GAT: 去除自注意力模塊中的對比損失和差異化損失,將經(jīng)過圖結(jié)構(gòu)過濾的注意力權(quán)重矩陣AG作為自注意力模塊的輸出,并應(yīng)用于后續(xù)的GCN層。
(3)Ours-w/o-con&diff: 去除自注意力模塊中的對比損失Lcon和差異化損失Ldiff,即不使用圖指導(dǎo)機(jī)制和注意力差異化操作。
(4)Ours-w/o-con: 只去除對比損失Lcon,即不使用圖G對注意力權(quán)重矩陣A進(jìn)行指導(dǎo)。
(5)Ours-w/o-diff: 只去除差異化損失Ldiff,即不對注意力權(quán)重矩陣A做離散化要求。
(6)Ours-w/o-rc: 去除了特征交互模塊中對高層方面特征的聚合步驟,只使用高層上下文特征rc進(jìn)行分類。
(7)Ours-w/o-ra: 去除了特征交互模塊中的交互注意力機(jī)制,只使用高層方面特征ra進(jìn)行分類。
運(yùn)用以上對比模型在全部3個數(shù)據(jù)集上進(jìn)行消融實驗,實驗結(jié)果如表3所示。
表3 消融實驗結(jié)果 (單位: %)
由表3可知,相比使用圖指導(dǎo)機(jī)制的Ours-w/o-diff和完整的GGDAN模型,Ours-GCN、Ours-GAT、Ours-w/o-con&diff和Ours-w/o-con等不使用圖指導(dǎo)機(jī)制的對比模型在Rest14和Lap14數(shù)據(jù)集上均表現(xiàn)出不同程度的性能下降,證明本文提出的圖指導(dǎo)機(jī)制在ALSA任務(wù)中的有效性,即圖指導(dǎo)機(jī)制能夠有效地對方面項及其上下文間的依賴關(guān)系進(jìn)行捕獲與建模。Twitter數(shù)據(jù)集上的最佳準(zhǔn)確率由Ours-w/o-con和Ours-w/o-con&diff取得,這可能是由于Twitter數(shù)據(jù)集對語法不敏感,圖指導(dǎo)機(jī)制可能相比單純的注意力機(jī)制為表示學(xué)習(xí)帶來一定干擾。值得注意的是,完整的GGDAN模型在Twitter數(shù)據(jù)集上依然取得了準(zhǔn)確率和F1值的次優(yōu)結(jié)果,并明顯優(yōu)于Ours-GCN、Ours-GAT等嚴(yán)格依賴于依存樹的模型,表明本文提出的圖指導(dǎo)機(jī)制能夠通過減輕模型對依存樹依賴程度,幫助模型在語料對語法不敏感的情況下保持較為魯棒的性能。
此外,觀察完全基于自注意力機(jī)制的Ours-w/o-con&diff,其表現(xiàn)依然明顯優(yōu)于具有圖結(jié)構(gòu)的Ours-GCN和Ours-GAT,甚至在Twitter上取得了最高準(zhǔn)確率。這說明相較于語法知識,自注意力機(jī)制為本文模型性能帶來的增益更大,尤其是在語料對語法不敏感的情況下。
從表3可以看出,在全部3個數(shù)據(jù)集上,完整的GGDAN模型的表現(xiàn)均明顯優(yōu)于Ours-w/o-diff,Ours-w/o-con的表現(xiàn),也都略微優(yōu)于Ours-w/o-con&diff。以上現(xiàn)象表明,通過學(xué)習(xí)分布更為離散的注意力權(quán)重,本文提出的注意力差異化操作能夠有效減少無關(guān)信息對ALSA任務(wù)的影響。
最后,對比Ours-w/o-rc、Ours-w/o-ra和GGDAN模型的性能可知,特征交互模塊包含的高低層特征間的交互注意力以及將方面和上下文信息相結(jié)合的方法對ALSA任務(wù)是有益的。
總體上,完整的GGDAN模型實現(xiàn)了最佳的情感分類性能,證明了GGDAN中各模塊的有效性。值得注意的是,GGDAN模型相比Ours-GAT、Ours-w/o-con&diff、Ours-w/o-con和Ours-w/o-diff等對比模型并沒有參數(shù)上的增加,表明本文提出的圖指導(dǎo)機(jī)制和注意力差異化操作能夠在不引入額外參數(shù)的情況下提高模型的表示學(xué)習(xí)能力,具有一定的高效性。
3.6.1 對比損失系數(shù)λ的影響
為探究對比損失系數(shù)λ對模型性能的影響,固定差異化損失系數(shù)μ=0.1,并設(shè)置不同的λ取值作為對比模型進(jìn)行實驗,結(jié)果如表4所示,其中λ=0.0的情況等價于3.5節(jié)的Ours-w/o-con。
表4 對比損失系數(shù)λ的影響 (單位: %)
如表4所示,當(dāng)λ=0.0時,模型完全去除了圖指導(dǎo)機(jī)制,其性能在Rest14和Lap14數(shù)據(jù)集上都明顯弱于其他幾組對比模型,再次證明本文提出的圖指導(dǎo)機(jī)制的有效性。對于Rest14和Lap14數(shù)據(jù)集,當(dāng)λ=0.5時模型取得最佳性能,這表明本文的參數(shù)設(shè)置具有一定合理性。在Twitter數(shù)據(jù)集上,模型在λ=0.0時取得最佳性能,這可能是由于Twitter數(shù)據(jù)集對語法不敏感,依存樹解析質(zhì)量相對較差,單純的注意力機(jī)制更有利于捕捉文本間的依賴關(guān)系。
3.6.2 差異化損失系數(shù)μ的影響
為探究差異化損失系數(shù)μ對模型性能的影響,固定對比損失系數(shù)λ=0.5,并設(shè)置不同的μ值作為對比模型,結(jié)果如表5所示,其中μ=0.0的情況等價于3.5節(jié)的Ours-w/o-diff。
如表5所示,當(dāng)μ=0.0時,模型在3個數(shù)據(jù)集上的分類性能均不同程度弱于μ取0.05或0.1時的性能,證明本文提出的注意力差異化操作的有效性。當(dāng)μ=0.1時,本文模型在3個數(shù)據(jù)集上均取得了最佳性能,說明本文的參數(shù)設(shè)置具有一定合理性。此外,當(dāng)μ>0.1時,隨著μ值的增大,模型性能迅速衰減。本文認(rèn)為這種現(xiàn)象的可能原因: 一是差異化損失過大導(dǎo)致模型難以專注于分類任務(wù),二是過于稀疏的注意力權(quán)重矩陣可能導(dǎo)致重要信息的丟失。
本文提出了一種用于ALSA任務(wù)的圖指導(dǎo)的差異化注意力網(wǎng)絡(luò)GGDAN。模型通過圖指導(dǎo)機(jī)制將注意力機(jī)制和語法知識相結(jié)合,利用依存樹生成的圖結(jié)構(gòu)指導(dǎo)注意力權(quán)重矩陣的生成,在幫助模型更為準(zhǔn)確、高效地捕捉詞語間依賴關(guān)系的同時,減輕了模型對依存樹解析質(zhì)量的依賴程度。同時,提出了一種注意力差異化操作,通過幫助模型學(xué)習(xí)分布更加離散的注意力權(quán)重,在一定程度上減少了噪聲信息對任務(wù)的干擾。在3個公開數(shù)據(jù)集上的一系列實驗證明,本文模型在性能上的先進(jìn)性和模型成分的可解釋性。
未來工作中,我們將從以下方向?qū)Ρ疚难芯窟M(jìn)行擴(kuò)展: 一是本文模型的自注意力模塊需要使用依存分析生成的詞性知識,對解析性能仍然具有較強(qiáng)的依賴性,應(yīng)當(dāng)繼續(xù)尋找更加準(zhǔn)確、高效地對語義關(guān)系和語法關(guān)系進(jìn)行建模的方法。二是探討本文模型在其他情感分析任務(wù)中的有效性,如方面三元組抽取[30]等。