趙 振,朱振方*,王文玲
(1.山東交通學(xué)院 信息科學(xué)與電氣工程學(xué)院,山東 濟南 250357;2.魯東大學(xué) 文學(xué)院,山東 煙臺 264025)
隨著互聯(lián)網(wǎng)的迅速發(fā)展,越來越多的用戶熱衷于在網(wǎng)絡(luò)上發(fā)表評論,產(chǎn)生了大量帶有情感傾向的評論文本,挖掘并分析這些文本所對應(yīng)的情感極性,可以幫助政府、商家等做出正確的決策。若要逐個分析文本中多個評價對象的情感傾向,則需要用到基于方面的情感分析(Aspect-Based Sentiment Analysis,ABSA)[1]技術(shù)。
基于方面的情感分析主要涉及兩個任務(wù),即確定句子的所有方面和計算特定方面的情感極性(如正面、負(fù)面、中性)。對于第二個任務(wù),即基于方面的情感分類,常用的方法是通過縮短方面詞與觀點詞之間的單詞距離,從而更有效地將觀點詞傳播到方面詞。
在ABSA領(lǐng)域,情感文本的組成元素包括評論者、評論主體、體現(xiàn)評論者情感的情感詞等,各個組成元素之間存在著各種依存關(guān)系,如主謂關(guān)系、動賓關(guān)系等,利用這些聯(lián)系,能夠更直接地通過句法結(jié)構(gòu)的規(guī)則約束篩選出文本中的觀點詞和方面詞,豐富文本的特征表示,進一步提高情感分類的準(zhǔn)確率。
句法依存分析是自然語言處理中的關(guān)鍵技術(shù)之一,其中“句法”指句子的結(jié)構(gòu)方式,它以詞作為基本單位;“依存”指詞與詞之間支配與被支配的關(guān)系,這種關(guān)系具有方向。應(yīng)用該技術(shù)可生成具有單詞節(jié)點和節(jié)點關(guān)系的句法依存樹,它在形式上可看作是一種圖結(jié)構(gòu),并具有以下特點:(1)縮短了句子各個方面與目標(biāo)方面之間的距離;(2)可以捕捉每個單詞之間的句法關(guān)系;(3)為依存關(guān)系樹中的信息傳播提供句法識別路徑。這種結(jié)構(gòu)有助于使目標(biāo)方面更接近其相關(guān)上下文,從而促進特征表示,對方面情感分類具有一定的輔助作用。
在最近的ABSA任務(wù)中,諸多學(xué)者對句法依存樹進行了研究,取得了優(yōu)越的成果。他們的方法是將依存樹視為鄰接矩陣,使用圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)[2]或圖注意力網(wǎng)絡(luò)(Graph Attention neTwork,GAT)[3]根據(jù)這些矩陣對輸入句子進行編碼。例如,Sun等[4]提出了用于編碼句法依存特征的圖卷積網(wǎng)絡(luò),以建立目標(biāo)和上下文之間的信息交換;Bai等[5]研究了一種集成類型化句法依存信息的關(guān)系圖注意力網(wǎng)絡(luò),從而可以有效地對句法特征進行編碼,實驗結(jié)果表明了該方法的有效性。然而,之前的研究對單詞間的依存關(guān)系利用并不充分,忽略了單詞之間的依存關(guān)系類型信息,從而導(dǎo)致模型可能出現(xiàn)丟失重要情感信息的問題。
為了解決上述問題,該文提出一種關(guān)系交互圖注意力網(wǎng)絡(luò)(Relational Interaction Graph Attention Network,RIGAT)模型,該模型將關(guān)系特征融入到注意力機制中,使用一個新的擴展注意力來引導(dǎo)信息從目標(biāo)方面的句法上下文傳播到目標(biāo)方面本身。首先,模型采用圖注意力網(wǎng)絡(luò)來學(xué)習(xí)依存樹中單詞節(jié)點的向量表示,并捕獲其局部位置;其次,使用關(guān)系感知網(wǎng)絡(luò)對依存樹中每個單詞節(jié)點之間的依賴關(guān)系進行特征表示,使模型更多地關(guān)注方面詞;最后,將圖注意力網(wǎng)絡(luò)與關(guān)系感知網(wǎng)絡(luò)的最終表示進行融合,然后通過分類函數(shù)計算并輸出對應(yīng)方面的情感極性。實驗結(jié)果表明,該模型在基于方面的情感分類任務(wù)上取得了較高的準(zhǔn)確率,進一步驗證了模型的有效性。
近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,注意力機制逐漸開始應(yīng)用于方面級情感分析任務(wù)。例如,馬遠等[6]提出一種融合左右雙邊注意力機制的文本情感分析模型,通過內(nèi)部注意力機制來處理方面詞,并根據(jù)方面詞和上下文詞設(shè)計了雙邊交互注意力機制,最后將上述注意力的處理結(jié)果進行級聯(lián)并分類;程艷等[7]提出一種基于注意力機制的多通道CNN和BiGRU的神經(jīng)網(wǎng)絡(luò)模型,該模型通過注意力機制對情感極性分類重要的詞語進行關(guān)注,并使用CNN與BiGRU分別提取文本的局部特征和上下文語義特征,獲得了較好的效果;馮超等[8]提出使用層次注意力機制和門機制處理方面級情感分類任務(wù),層次注意力機制負(fù)責(zé)更新方面詞與上下文詞的表示,門機制選擇出對于方面詞有用的上下文信息,實驗結(jié)果進一步證明了該方法的有效性。
然而,基于注意力機制的情感分類方法并未考慮到文本的句法依存信息,忽略了文本句法結(jié)構(gòu)對情感分類的重要性。已有學(xué)者對注意力機制與句法依存信息做了進一步研究,例如,Lu等[9]提出了一個交互式規(guī)則注意力網(wǎng)絡(luò),通過模擬句子的句法功能,并使用注意力網(wǎng)絡(luò)從上下文中學(xué)習(xí)注意力信息,來考慮句法規(guī)則對情感的影響;張文軒等[10]提出一種將注意力機制與句法知識相結(jié)合的新方法,他利用依存句法關(guān)系和位置關(guān)系為每個句子建立面向方面的依存樹,然后利用其對注意力權(quán)重進行監(jiān)督,從而在利用語義和句法信息的同時減輕對依存樹的依賴程度;Ke等[11]提出了一種新的基于句法依賴的注意力網(wǎng)絡(luò),該模型首先對每個單詞和方面之間的依賴路徑進行建模,隨后將生成的句法表示輸入注意力層,以進一步推斷情感預(yù)測的依賴權(quán)重。
最近的研究利用圖神經(jīng)網(wǎng)絡(luò)對句法結(jié)構(gòu)進行編碼,它解決了CNN和RNN無法處理非結(jié)構(gòu)化數(shù)據(jù)的問題,同時對節(jié)點信息與結(jié)構(gòu)信息進行端到端學(xué)習(xí),從而有效地提取空間特征,增強方面情感分類的性能。例如,Zhang等[12]提出了一個特定于方面的圖卷積網(wǎng)絡(luò),它將句法信息和長距離單詞依賴性納入分類模型,解決了由于缺乏相關(guān)句法約束和長距離詞依賴而導(dǎo)致的模型對觀點詞判斷錯誤問題;Wang等[13]提出了一個關(guān)系圖注意力網(wǎng)絡(luò)來編碼依存樹結(jié)構(gòu),他們以目標(biāo)方面為根,重塑和修剪依存樹來定義一個面向方面的依存樹結(jié)構(gòu);Li等[14]提出了一種雙圖卷積網(wǎng)絡(luò)模型,該模型同時考慮了句法結(jié)構(gòu)和語義的互補性,進一步解決了由于依賴解析結(jié)果的不準(zhǔn)確性以及文本的非正式表達所帶來的問題;王光等[15]提出一種句法信息感知的方面級情感分類模型,該方法使用注意力機制,結(jié)合記憶文本語義、詞性、方面與位置信息的記憶網(wǎng)絡(luò),以及基于依存句法分析樹的圖卷積神經(jīng)網(wǎng)絡(luò),從而更準(zhǔn)確地建立了方面詞與觀點詞之間的聯(lián)系;夏鴻斌等[16]提出了一種結(jié)合圖卷積網(wǎng)絡(luò)和注意-過度注意網(wǎng)絡(luò)的方面級情感分類模型,他們通過在每個句子的依賴樹上建立相應(yīng)的圖卷積網(wǎng)絡(luò),并利用注意力機制捕獲方面詞與上下文之間的交互和表示,實驗結(jié)果證明了其優(yōu)越性。
受以上方法啟發(fā),該文使用雙向門控循環(huán)單元、圖注意力網(wǎng)絡(luò)和注意力機制來完成方面級文本情感分類任務(wù),將文本的句法依存關(guān)系融合到上下文的語義信息中,再通過注意力機制學(xué)習(xí)方面詞及其上下文之間的交互信息,從而進一步提高情感分類任務(wù)的性能。
對于該文所提模型,每個訓(xùn)練實例由三個組件組成:目標(biāo)方面、句子和句子的依賴樹。形式上,可將這些組件表示為三元組:(a,s,d),其中a={wi,wi+1,…,wi+m-1}表示方面詞序列,s={w1,w2,…,wi,…,wi+m,…,wn}表示句子序列,a和s的長度分別是m和n,d={V,A,R}表示句子s上的一個依存樹,V包含所有的單詞節(jié)點,A表示一個鄰接矩陣,其中Aij=1表示詞wi和wj之間存在依賴關(guān)系,否則Aij=0,R表示一個標(biāo)簽矩陣,它記錄A中相對應(yīng)的關(guān)系。方面情感分類的目標(biāo)是通過給定的句子s和方面詞a,預(yù)測情感極性y={-1,0,1},其中-1、0、1分別表示消極、中性、積極。
RIGAT模型的整體結(jié)構(gòu)如圖1所示,主要由三部分組成:
圖1 模型框架
(1)雙向門控循環(huán)單元:它將句子上下文編碼進行特征學(xué)習(xí)。
(2)圖注意力層與關(guān)系感知層:前者側(cè)重于將句法信息與上下文信息進行建模,生成上下文感知的單詞嵌入;后者側(cè)重于捕獲詞與詞之間的依存關(guān)系,生成關(guān)系感知的單詞嵌入。
(3)特征融合與分類:它用于動態(tài)組合上下文和句法表示,并使用簡單的池化函數(shù)進行特征融合。
該文使用雙向門控循環(huán)單元對上下文信息進行雙向建模,該結(jié)構(gòu)將具有n個有序詞嵌入的句子s作為輸入,將上下文信息集成到詞嵌入中。其中,輸入特征由GloVe嵌入vi、詞性嵌入ti和位置嵌入pi組成,因此,一個單詞就可以被表示為wi=[vi;ti;pi]。
若給定一個詞嵌入序列s={w1,w2,…,wn},前向與后向GRU可以分別學(xué)習(xí)到詞嵌入s傳播的隱藏狀態(tài)h1與h2,這就可以在向前的方向上捕獲上下文信息。最后,將前向和后向GRU建模的并行嵌入連接成更高維的表示h={h1;h2}。
與標(biāo)準(zhǔn)的GAT相比,該文所提出的RIGAT模型還可以利用標(biāo)簽關(guān)系,從而產(chǎn)生更多的信息表示。對于未使用標(biāo)簽關(guān)系的GAT,其依存樹形式表示為d={V,A},它使用相鄰的矩陣作為結(jié)構(gòu)信息,因此忽略了依賴特性。RIGAT擴展了原始GAT,將關(guān)系特征融入到注意力計算和聚合過程中,使其能對有標(biāo)簽關(guān)系的依存樹d={V,A,R}進行建模。
(1)
其中,hi表示節(jié)點i的最終狀態(tài);ρ是激活函數(shù);W是線性權(quán)重;A表示圖G的一個鄰接矩陣。
對于關(guān)系感知層,該文將依存樹中兩個詞wi和wj之間的關(guān)系Rij轉(zhuǎn)換成一個與依存關(guān)系維度一致的向量rij。在計算節(jié)點之間的注意力權(quán)重時,考慮了節(jié)點特征和關(guān)系特征,其中第l層節(jié)點感知的注意力權(quán)重eN和關(guān)系感知的注意力權(quán)重eR的計算公式分別如下:
(2)
(3)
(4)
通過這種方式,模型得到的注意力分?jǐn)?shù)同時包含了節(jié)點特征和關(guān)系特征。
ha=φ°ht+(1-φ)°hg
(5)
其中,°是元素正交運算,φ是由上下文和句法感知表示共同加權(quán)并經(jīng)激活函數(shù)σ計算所得:
φ=σ(Wφ[hg;ht]+bφ)
(6)
分類器是一個全連接網(wǎng)絡(luò),它將融合表示ha作為輸入,并計算每個情感類別c的概率:
(7)
其中,W和b為模型的可調(diào)參數(shù),C表示所有情感類別的集合。
該文在損失優(yōu)化部分,使用的訓(xùn)練方法是L2正則化的交叉熵?fù)p失:
(8)
其中,N表示訓(xùn)練案例數(shù);I表示指標(biāo)函數(shù);λ表示正則化超參數(shù);θ表示模型可調(diào)參數(shù)的集合。同時,該文采用了自正則化非單調(diào)函數(shù)Mish[17],其定義為:
F(x)=xtanh(ln(1+ex))
(9)
與常見的激活函數(shù)ReLU[18]相比,Mish的梯度更平滑,可以更好地讓信息穿透神經(jīng)網(wǎng)絡(luò),從而獲得更高的準(zhǔn)確性。
該文在四個公開數(shù)據(jù)集上進行實驗,包括SemEval 2014的Restaurant和Laptop數(shù)據(jù)集[1]、Twitter提供的推文數(shù)據(jù)集[19]和一個大規(guī)模多方面多情感(MAMS)數(shù)據(jù)集[20],它們的情感極性可分為正面、負(fù)面和中性。表1顯示了這些數(shù)據(jù)集中每個樣本類別的統(tǒng)計信息,以及訓(xùn)練集、測試集的劃分情況。
表1 數(shù)據(jù)集統(tǒng)計信息
在實驗參數(shù)設(shè)置方面,該文采用300維的Glove[21]向量,其中包括8 400億個詞嵌入向量,依存關(guān)系向量為30維,這些向量在訓(xùn)練過程中會被調(diào)整。Batch Size設(shè)置為32,學(xué)習(xí)率設(shè)置為0.001,優(yōu)化器使用Radam[22],句子的依存樹使用Stanford[23]解析工具生成。同時,該文在所有公開數(shù)據(jù)集上使用固定的隨機種子進行訓(xùn)練,以盡可能避免隨機數(shù)對模型的影響。
該文使用準(zhǔn)確率對模型性能進行評估,準(zhǔn)確率的定義如下:
(10)
其中,P∈[0,1]為模型預(yù)測的準(zhǔn)確程度,TP表示預(yù)測正確的樣本數(shù),F(xiàn)P表示預(yù)測錯誤的樣本數(shù)。
為了驗證RIGAT的性能,該文與使用相同數(shù)據(jù)集的最新模型進行了比較,包括:
(1)CapsNet[20]:利用一種基于膠囊網(wǎng)絡(luò)的模型來學(xué)習(xí)方面和上下文之間的復(fù)雜關(guān)系。
(2)G-ATT[24]:提出一種帶有記憶融合的圖注意力網(wǎng)絡(luò),通過給邊緣分配不同的權(quán)重來擴展GCN。
(3)R-GAT[13]:通過對普通的依賴解析樹進行重塑和剪枝,定義了一個基于目標(biāo)方面的依賴樹結(jié)構(gòu)。
(4)RGAT[5]:提出一種新的關(guān)系圖注意力網(wǎng)絡(luò),通過集成類型化的句法依賴信息,有效地提高了情感分類性能。
(5)UP-CNN[25]:提出一種基于先驗知識的方面檢測網(wǎng)絡(luò),并通過方面掩碼來構(gòu)建具有方面感知的上下文表示。
(6)SPRN[26]:提出一種基于方面的語義感知和細化網(wǎng)絡(luò),該方法采用了雙門控多通道卷積來獲取句子中的方面相關(guān)語義特征。
(7)GL-GCN[27]:提出一種全局和局部依賴引導(dǎo)的圖卷積網(wǎng)絡(luò),通過利用句法依賴結(jié)構(gòu)和句子序列信息來挖掘句子的局部結(jié)構(gòu)信息,通過對整個語料庫構(gòu)圖,挖掘單詞之間的全局依賴信息。
(8)AFGCN[28]:通過引入依賴樹和依賴位置圖來增強每個實例的句法依賴,并使用圖卷積網(wǎng)絡(luò)將兩者融合以生成交互情感特征。
將該文所提模型與上述基線模型進行對比,以驗證方法的有效性。實驗結(jié)果的準(zhǔn)確率如表2所示,其中“-”表示未找到對應(yīng)數(shù)據(jù)。
分析表2的對比結(jié)果可以發(fā)現(xiàn),RIGAT在四個數(shù)據(jù)集上的表現(xiàn)均優(yōu)于其他基線模型,準(zhǔn)確率分別達到了85.92%、79.37%、76.65%、83.56%。相較于目前性能最好的RGAT模型,該文所述方法在Laptop數(shù)據(jù)集上的性能提升最小,原因可能是由于Laptop數(shù)據(jù)集內(nèi)的隱式情感表達樣本較多,且數(shù)據(jù)量較少,導(dǎo)致模型不能很好地捕捉并分析方面與觀點詞之間的內(nèi)在關(guān)系;而對于MAMS數(shù)據(jù)集,模型的性能提升最大,說明模型可以更好地捕獲長距離單詞間的依存關(guān)系。
表2 RIGAT模型與基線模型在不同數(shù)據(jù)集下的分類準(zhǔn)確率 %
與其他基線模型相比,文中提出的RIGAT模型可以更好地對句法依存關(guān)系進行交互,考慮到英文文本具有時序性,通過句法解析的方式縮短了單詞之間的依存路徑,進一步簡化了句子結(jié)構(gòu)。同時,句法關(guān)系和注意力機制的融入進一步提高了句法信息的可靠性,使得模型可以更好地對每個單詞進行權(quán)重分配,并在不同層次之間進行信息傳播,從而得到更為準(zhǔn)確的情感傾向。
3.4.1 句法關(guān)系信息對模型的影響
為探究句法關(guān)系信息對情感預(yù)測的有效性,該文使用傳統(tǒng)GAT,去除句法關(guān)系信息,僅對方面和上下文進行建模。實驗結(jié)果如圖2所示,相較于僅使用傳統(tǒng)的圖注意力網(wǎng)絡(luò),RIGAT不僅考慮到了方面詞與上下文之間的交互信息,而且充分地利用了單詞與單詞之間的句法關(guān)系信息,其在Restaurant數(shù)據(jù)集上的準(zhǔn)確率分別提高了3.28百分點、2.16百分點、2.61百分點和3.44百分點。可見將句法關(guān)系信息融入到上下文信息之中,能有效提升情感預(yù)測的準(zhǔn)確率。
圖2 GAT與RIGAT在數(shù)據(jù)集上的準(zhǔn)確率比較
3.4.2 RNN、LSTM與GRU的性能比較
將GRU分別替換為LSTM、RNN網(wǎng)絡(luò),以驗證GRU在所提模型中的優(yōu)越性。實驗結(jié)果如圖3所示,可以發(fā)現(xiàn)相較于傳統(tǒng)的LSTM,GRU在四個Restaurant和Laptop數(shù)據(jù)集上更具優(yōu)勢,分別提高了2.06百分點和3.37百分點,可能的原因是GRU使用了更新門與重置門存儲并過濾信息,這種方式更適合于文本情感分類任務(wù)。
圖3 LSTM、RNN、GRU分別在數(shù)據(jù)集上的準(zhǔn)確率比較
3.4.3 模型層數(shù)的影響
分別調(diào)整圖注意力網(wǎng)絡(luò)與關(guān)系感知網(wǎng)絡(luò)的層數(shù),檢查對RIGAT準(zhǔn)確率的影響。實驗結(jié)果如圖4、圖5所示。綜合結(jié)果分析,可以發(fā)現(xiàn)準(zhǔn)確率曲線呈現(xiàn)出上下波動的趨勢,并且往往在一開始就表現(xiàn)出最高分?jǐn)?shù)。對于Restaurant和Twitter數(shù)據(jù)集,它們都在圖注意力網(wǎng)絡(luò)和關(guān)系感知網(wǎng)絡(luò)層數(shù)為1時表現(xiàn)出最高的準(zhǔn)確率;對于Laptop和MAMS數(shù)據(jù)集,當(dāng)圖注意力網(wǎng)絡(luò)和關(guān)系感知網(wǎng)絡(luò)層數(shù)為2時,模型的準(zhǔn)確率最高。
圖4 不同數(shù)量的圖注意力層在數(shù)據(jù)集上的準(zhǔn)確率
圖5 不同數(shù)量的關(guān)系感知層在數(shù)據(jù)集上的準(zhǔn)確率
該文提出一種基于關(guān)系交互圖注意力網(wǎng)絡(luò)的情感分類研究方法,利用圖注意力網(wǎng)絡(luò)與句法關(guān)系感知相交互的方式,共同提取句子的語義和句法信息,旨在充分利用文本間的句法依存特性,進一步提高方面情感分類的準(zhǔn)確率。在公開數(shù)據(jù)集的實驗結(jié)果表明,該文所提出的RIGAT模型相對于基線模型有更優(yōu)越的表現(xiàn)。
盡管該文在情感分類任務(wù)上取得了不錯的效果,但仍具有進一步改進的空間。一方面,由于該文只著重于公開數(shù)據(jù)集上的性能提升,而忽略了對模型的魯棒性研究,在未來的研究中,模型需要結(jié)合更多的對抗性文本進行訓(xùn)練,以提升在方面情感分類上的魯棒性能。另一方面,目前的研究僅局限于英文文本的情感分類研究,而忽視了中文情感文本,下一步將探索模型在中文文本上的可能性。