牛利月,鄭秋生,張 龍,王 鵬
(1 中原工學(xué)院 前沿信息技術(shù)研究院,鄭州 450007;2 河南省網(wǎng)絡(luò)輿情智能檢測與分析重點(diǎn)實(shí)驗(yàn)室,鄭州 450000)
方面級情感分析(Aspect -Based Sentiment Analysis,ABSA)是近年來自然語言處理(Natural Language Process,NLP)領(lǐng)域的一個(gè)重要研究方向,現(xiàn)已廣泛應(yīng)用于電商評論分析等多個(gè)領(lǐng)域,方面級情感分析任務(wù)的目標(biāo)是預(yù)測句子中特定方面術(shù)語的情感極性。例如,給定句子“The food in the restaurant was ok,but the service was slow”中,對于給定的方面詞“food”,其對應(yīng)的觀點(diǎn)詞“ok”表現(xiàn)出積極情感,對于方面詞“service”、觀點(diǎn)詞“slow”表現(xiàn)出消極情感。與文檔級或者句子級情感分類相比,方面級情感分析任務(wù)的主要挑戰(zhàn)是如何設(shè)計(jì)有效的算法,對相應(yīng)的觀點(diǎn)詞和方面詞進(jìn)行有效建模,使得模型能夠判定給定方面詞在語境中的情感傾向。
傳統(tǒng)的方面級情感分析方法有基于情感詞典的方法和結(jié)合人工設(shè)計(jì)特征的機(jī)器學(xué)習(xí)方法。近年來,深度學(xué)習(xí)的方法在情感分析任務(wù)中被廣泛使用并取得了可觀效果。值得關(guān)注的是,結(jié)合注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型也已應(yīng)用在方面級情感分析任務(wù)中,且已驗(yàn)證具有明顯的優(yōu)越性。
然而,注意力機(jī)制也有其局限性。因缺少句法的約束,在某些情況下,注意力機(jī)制可能會錯(cuò)誤地捕獲方面詞與情感詞之間的線索。例如,在句子“The packaging should be more delicate”中,對于特定方面詞“packaging”,注意力機(jī)制往往給單詞“delicate”分配更多的關(guān)注,因此導(dǎo)致模型針對該方面詞取得了相反的情感極性。
圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Networks,GCN)結(jié)合依存句法依賴樹獲取句子信息,近年來被廣泛應(yīng)用于方面級情感分類任務(wù)中,并且取得了長足的發(fā)展。句法信息能夠有效地建立方面詞與意見術(shù)語之間的關(guān)系,可用作獲取方面級情感信息的關(guān)鍵,且能夠從根本上解決長序依賴的問題。圖卷積神經(jīng)網(wǎng)絡(luò)GCN 以其處理圖結(jié)構(gòu)的優(yōu)勢,在捕獲遠(yuǎn)程單詞之間的依賴關(guān)系上表現(xiàn)出很大的潛力。
但是,由于人類語言的復(fù)雜性,在缺乏句法特征的句子中,句法分析會出現(xiàn)解析錯(cuò)誤,句法結(jié)構(gòu)分析的誤差會影響情感分類的準(zhǔn)確率。
為解決以上問題,本文提出了結(jié)合句法增強(qiáng)的多通道方面級情感分析模型(Syntactic enhanced multi-channel aspect emotion analysis model,SE-MCGCN),旨在綜合提取句子的語義和句法特征。該方法借助依存句法樹,構(gòu)建基于特定方面句法依賴樹,使用圖卷積神經(jīng)網(wǎng)絡(luò)GCN 提取句法樹信息;同時(shí)采用單詞共現(xiàn)的方法構(gòu)建單詞共現(xiàn)圖,使用GCN 提取共現(xiàn)圖信息,Bi-GRU 提取句子語義信息,將提取的信息融合進(jìn)行情感分類。模型在公開的數(shù)據(jù)集上與基線方法進(jìn)行實(shí)驗(yàn)比較,以研究其工作性能。
注意力機(jī)制能夠有效分析每個(gè)單詞及其相關(guān)的語義成分,從而提取語境中的重要信息。將注意力機(jī)制與深度學(xué)習(xí)方法融合的相關(guān)研究工作,已經(jīng)在方面級情感分析任務(wù)中取得了不錯(cuò)的成果。如:文獻(xiàn)[6]中將注意力機(jī)制與LSTM 結(jié)合在一起,提出AE-LSTM、AT-LSTM、ATAE-LSTM 三個(gè)模型,通過注意力機(jī)制去獲取對不同方面詞更重要的上下文信息。文獻(xiàn)[7]提出了一種既考慮目標(biāo)注意力又考慮上下文注意力的交互式注意力網(wǎng)絡(luò)(IAN),使用2個(gè)注意力網(wǎng)絡(luò)交互式檢測目標(biāo)詞和上下文重要詞。文獻(xiàn)[8]采用多頭注意機(jī)制(multi-head attention)來捕獲距離較遠(yuǎn)的情緒特征,從而對不相關(guān)信息確保了更強(qiáng)的魯棒性。文獻(xiàn)[9]提出了一種基于注意的層次位置感知網(wǎng)絡(luò)(HAPN),引入位置嵌入來學(xué)習(xí)句子的位置感知表示,并進(jìn)一步生成語境詞的特定方面詞表示。此外,基于transformer 和Bert 等預(yù)訓(xùn)練模型在方面級情感分析任務(wù)中也取得了可觀的進(jìn)展[10]。
句法分析有效地在方位詞和觀點(diǎn)詞之間架起了一座橋梁,解決了句子長距離依賴問題。句法信息融入到句子表征過程中來處理方面級情感分析任務(wù)的相關(guān)工作取得了不小的成就,也逐漸成為方面級情感分析任務(wù)的研發(fā)基礎(chǔ)。文獻(xiàn)[13]提出了一個(gè)近似加權(quán)卷積網(wǎng)絡(luò),利用上下文詞與方面的句法接近度、即接近權(quán)重,來確定其在句子中的重要性。
近來,基于GCN 的模型在NLP 中受到越來越多的關(guān)注。鑒于GCN 能夠處理圖數(shù)據(jù),包含豐富關(guān)系信息的依存句法樹與GCN 結(jié)合,為方面級情感分析研發(fā)提供了可行性依據(jù)。文獻(xiàn)[14]在句子的依賴樹上構(gòu)建圖卷積網(wǎng)絡(luò),利用句法信息和單詞依賴,提出一種特定方面的情感分類框架ASGCN。文獻(xiàn)[15]提出了句法和詞匯的概念層次,并以此為基礎(chǔ)建立了層次句法圖和層次詞匯圖,隨后設(shè)計(jì)了雙層交互式圖卷積網(wǎng)絡(luò)以充分融合層次句法和詞匯圖。文獻(xiàn)[16]重新構(gòu)造和修剪一個(gè)普通的依賴解析樹,設(shè)計(jì)了一個(gè)基于目標(biāo)方面詞為根節(jié)點(diǎn)面向方面的依賴樹結(jié)構(gòu),提出了一個(gè)關(guān)系圖注意網(wǎng)絡(luò)(R-GAT),來編碼新的情緒預(yù)測樹結(jié)構(gòu)。
本文提出了一種結(jié)合句法增強(qiáng)的多通道方面級情感分析模型SE-MC-GCN,模型整體架構(gòu)如圖1所示。該模型首先將輸入文本分別表示為基于方面詞的句法依賴樹和單詞共現(xiàn)圖,分別使用2 個(gè)GCN網(wǎng)絡(luò)學(xué)習(xí)圖表示,同時(shí)使用Bi-GRU 編碼句子語義特征,將3 個(gè)輸出特征池化后進(jìn)行融合,最后通過softmax 分類器得到情感極性。
圖1 結(jié)合句法增強(qiáng)的多通道方面級情感分析模型Fig.1 Syntactic enhanced multi-channel aspect-based emotion analysis model
2.1.1 基于方面詞的句法圖
句法依賴樹通常使用依存句法分析的方法幫助構(gòu)建。依存句法分析是在語法理論的基礎(chǔ)上,對自然語言進(jìn)行的一種句法分析形式。句子中的任意2 個(gè)詞之間都存在著某種支配和被支配關(guān)系,句法分析的結(jié)果是有向的依存關(guān)系樹,可以表達(dá)句子整體結(jié)構(gòu)。
依存句法分析得到的句法樹,通常不是以基于方面詞的句法樹。為了更好地建模方面詞與觀點(diǎn)詞之間的關(guān)系,將方面詞作為依存樹的根節(jié)點(diǎn),轉(zhuǎn)換原來的根節(jié)點(diǎn)為葉子節(jié)點(diǎn),得到基于方面詞的句法圖。給定句子“I like this ring because it is beautiful”,原來的依存句法樹如圖2(a)所示,轉(zhuǎn)換為基于方面詞的句法圖如圖2(b)所示。
2.1.2 單詞共現(xiàn)圖
使用單詞共現(xiàn)的方法構(gòu)建文本圖,是將每一個(gè)文檔都看作是一個(gè)獨(dú)立的拓?fù)鋱D,單詞作為圖的節(jié)點(diǎn),利用單詞之間的共現(xiàn)關(guān)系建立邊。該方法使用一個(gè)固定大小的共現(xiàn)窗口在文檔中滑動(dòng)統(tǒng)計(jì)單詞共現(xiàn)信息。
圖2(c)則是使用單詞共現(xiàn)方法,設(shè)置共現(xiàn)窗口3 時(shí)構(gòu)建的文本圖。
圖2 句子“I like this ring because it is beautiful”的文本圖Fig.2 The graph of the sentence“I like this ring because it is beautiful”
2.2.1 圖編碼器
設(shè)目標(biāo)圖(,,)。其中,、、分別表示圖的節(jié)點(diǎn)、邊和鄰接矩陣。
圖卷積神經(jīng)網(wǎng)絡(luò)GCN 學(xué)習(xí)圖的節(jié)點(diǎn)信息的過程可以表示為:
其中,h、h分別表示第1 層和第層的節(jié)點(diǎn);W表示權(quán)重矩陣;是非線性激活函數(shù)。
對圖2(b)、(c)中構(gòu)造的句法圖和單詞共現(xiàn)圖,分別使用GCN 捕獲每個(gè)節(jié)點(diǎn)與其相鄰節(jié)點(diǎn)之間的信息傳遞,信息交互公式如下:
2.2.2 Bi-GRU 編碼器
輸入序列{,,…,x},將每個(gè)單詞映射到低位向量,得到e={,,…,ex},e∈? ,是詞向量維度。模型中GRU 的前向傳播公式如下:
Bi-GRU 聯(lián)合2 個(gè)方向相反的GRU,其傳播過程如下:
在句法圖、單詞共現(xiàn)圖和句子編碼信息上執(zhí)行池化操作,得到:
模型采用高速網(wǎng)絡(luò)機(jī)制,最終的句子表示為:
與拼接相比,高速網(wǎng)絡(luò)機(jī)制通過使用門控單元,將輸入的句法樹提取信息、單詞共現(xiàn)圖提取信息和提取句意信息通過網(wǎng)絡(luò)進(jìn)行調(diào)節(jié)。信息可以跨多個(gè)通道傳輸,選擇出比較重要的特征完成融合。
將融合后的句子經(jīng)過全連接層后,輸入分類器中,輸出最后的情感極性的概率分布,公式如下:
模型使用交叉熵?fù)p失函數(shù),為防止模型過擬合,采用正則方法進(jìn)行訓(xùn)練,參數(shù)和權(quán)值通過反向傳播更新。損失函數(shù)可以表示為:
為驗(yàn)證模型的有效性,實(shí)驗(yàn)采用的數(shù)據(jù)集為:Laptop數(shù)據(jù)集、Restaurant數(shù)據(jù)集(Rest14)與Twitter 數(shù)據(jù)集。實(shí)驗(yàn)數(shù)據(jù)被標(biāo)記為3 種不同的情感極性,即正面、中性和負(fù)面。數(shù)據(jù)集詳細(xì)信息見表1。
表1 數(shù)據(jù)集詳情Tab.1 Dataset details
實(shí)驗(yàn)中,對每個(gè)輸入的句子使用Stanford 句法解析器(https:/ /stanfordnlp.github.io/CoreNLP/)構(gòu)建依存句法樹,使用共現(xiàn)窗口(3)構(gòu)建單詞共現(xiàn)圖。同時(shí)對每個(gè)單詞使用Glove 預(yù)訓(xùn)練的300 維詞向量進(jìn)行初始化;將Bi-GRU 的隱藏狀態(tài)設(shè)置為300。為防止模型過擬合,設(shè)定為0.5,正則的權(quán)重設(shè)置為0.000 1;采用作為優(yōu)化器,學(xué)習(xí)率設(shè)置為0.001。此外,本文使用準(zhǔn)確率()和宏觀值(Macro)來衡量模型效果。
為了驗(yàn)證模型在方面級情感分析任務(wù)上的有效性,實(shí)驗(yàn)中對一些基線模型進(jìn)行了比對,實(shí)驗(yàn)結(jié)果見表2。
表2 情感分類結(jié)果Tab.2 Sentiment classification results
由實(shí)驗(yàn)結(jié)果可知,與基于注意力機(jī)制結(jié)合深度學(xué)習(xí)的方法(Attention-based),以及句法分析結(jié)合圖神經(jīng)網(wǎng)絡(luò)的方法(Syn-based)相比,本文模型有效地結(jié)合了句法和語義特征,準(zhǔn)確率和值都優(yōu)于大多數(shù)方法??紤]到Twitter 數(shù)據(jù)通常缺乏句法特征,本文模型有效地結(jié)合了語義信息,補(bǔ)充語法特征缺失,從而獲得更高的精度。
同時(shí),實(shí)驗(yàn)中對比了基于Bert 的預(yù)訓(xùn)練模型,本文模型結(jié)果仍然是這組數(shù)據(jù)中較好的。以上結(jié)果證明,本文模型能夠有效捕獲句子語義和句法特征。
為了驗(yàn)證不同模塊功能對模型的影響,進(jìn)行了消融實(shí)驗(yàn)對比。
從表2 可以看出,以本文模型SE-MC-GCN 作為基線模型,分別去除句法圖編碼、貢獻(xiàn)圖編碼、和句子語義編碼模塊,都會使實(shí)驗(yàn)結(jié)果有所降低。以Twitter 數(shù)據(jù)為例,去除句子語義編碼實(shí)驗(yàn)結(jié)果下降較為明顯,也進(jìn)一步驗(yàn)證了本文模型中語義編碼模塊的有效性。此外,特征融合模塊去除高速網(wǎng)絡(luò)機(jī)制,替換為向量拼接,實(shí)驗(yàn)效果也有所下降,證明高速網(wǎng)絡(luò)機(jī)制更好地保留了對結(jié)果有用的特征。因此,模型SE-MC-GCN 中每個(gè)模塊都對整體結(jié)果有一定的貢獻(xiàn)。
實(shí)驗(yàn)中涉及到使用的門控圖神經(jīng)網(wǎng)絡(luò)的層數(shù),本文在Laptop 數(shù)據(jù)集上對比了不同層數(shù)的圖神經(jīng)網(wǎng)絡(luò)對實(shí)驗(yàn)最終性能的影響,結(jié)果如圖3 所示。
由圖3 可知,當(dāng)GCN 層數(shù)為3 時(shí),對于數(shù)據(jù)集Twitter 和Rest14,實(shí)驗(yàn)效果相對最好;對于Laptop數(shù)據(jù)集,GCN 層數(shù)為4 時(shí)實(shí)驗(yàn)效果相對最好。
圖3 不同GCN 層數(shù)對實(shí)驗(yàn)結(jié)果的影響Fig.3 The effect of different GCN layers
為了分析模型捕獲重點(diǎn)信息的能力,采用掩碼實(shí)驗(yàn)分析單詞相關(guān)性,計(jì)算公式如下:
其中,h是句子表示,h是掩蓋掉單詞的句子表示。如果(,)等于0,說明單詞對句子沒有貢獻(xiàn)度。
以句子“I bought the cup,that were many roses on the box,it was beautiful”為例,其方面詞為“cup”,方面詞對應(yīng)的情感極性為正面,可以看出觀點(diǎn)詞“great”對方面詞的情感貢獻(xiàn)比較大。
CDT 和SE-MC-GCN 單詞相關(guān)性對比結(jié)果(句子方面詞為‘cup’)如圖4 所示。由圖4 可以看出,相比CDT 模型,本文模型增強(qiáng)了對重點(diǎn)信息的捕獲能力。CDT 和SE-MC-GCN 單詞相關(guān)性對比(句子方面詞為‘cup’)。
圖4 CDT 和SE-MC-GCN 單詞相關(guān)性對比(句子方面詞為‘cup’)Fig.4 Word correlation comparison between CDT and SE-MC-GCN(sentence aspect word as ‘cup’)
句法分析對文本理解有重要的幫助,在方面級文本情感分析的任務(wù)中,能夠有效地建立方位詞和觀點(diǎn)詞之間的依賴關(guān)系。基于此,本文提出了基于句法增強(qiáng)的多通道方面級情感分析模型,對句子的句法圖、單詞共現(xiàn)圖分別編碼,與句子語義特征融合,目標(biāo)是捕獲句子句法信息和語義信息,在特征融合部分采用高速網(wǎng)絡(luò)機(jī)制,用來選擇對模型效果更好的特征。實(shí)驗(yàn)結(jié)果驗(yàn)證了模型的有效性。