夏衛(wèi)歡,廖列法,2,張守信,張燕琴
(1.江西理工大學(xué)信息工程學(xué)院,江西 贛州 341000;2.江西理工大學(xué)軟件工程學(xué)院,江西 南昌 333000)
方面級(jí)情感分析(ABSA)已成為當(dāng)下自然語言處理(NLP)的研究熱點(diǎn)。隨著互聯(lián)網(wǎng)的發(fā)展,電商等線上平臺(tái)發(fā)展迅猛,越來越多的用戶在網(wǎng)上分享對(duì)產(chǎn)品的意見,決策者需要根據(jù)用戶的評(píng)論信息對(duì)產(chǎn)品進(jìn)行優(yōu)化。然而,由于用戶評(píng)論文本的不規(guī)范及其復(fù)雜結(jié)構(gòu),因此傳統(tǒng)的情感分析難以準(zhǔn)確且快速地判斷其中包含的情感信息。針對(duì)產(chǎn)品特定方面的評(píng)論信息進(jìn)行分析,符合方面級(jí)情感分析任務(wù)能夠判斷句子中特定方面的情感極性特點(diǎn),因此受到廣泛關(guān)注,具有重要的研究意義。
早期的方面級(jí)情感分析研究大多是基于統(tǒng)計(jì)和規(guī)則的方法,如情感詞典等。此類方法需要大量人工參與詞典的構(gòu)建以及特征規(guī)則的設(shè)計(jì),模型效果很大程度上依賴于手工標(biāo)注數(shù)據(jù)的質(zhì)量,達(dá)不到預(yù)期的目的,方法的適用性也較差。隨著深度學(xué)習(xí)廣泛應(yīng)用在自然語言處理中,經(jīng)典的序列循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型因其能建模序列數(shù)據(jù)的特性常被用于方面級(jí)情感分析任務(wù)中提取句子的語義信息。此外,卷積神經(jīng)網(wǎng)絡(luò)因其能夠提取局部信息特征也被用于建模上下文語義信息[1-2]。文獻(xiàn)[3]使用長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)捕獲上下文語義信息并進(jìn)行方面級(jí)的情感極性分類。然而單一的序列模型無法自動(dòng)關(guān)注上下文中重要的語義信息,文獻(xiàn)[4]將注意力機(jī)制與長(zhǎng)短期記憶網(wǎng)絡(luò)相結(jié)合,并使用方面嵌入進(jìn)行情感極性預(yù)測(cè)。文獻(xiàn)[5]分別建模上下文和方面詞,設(shè)計(jì)一種交互注意力機(jī)制檢索方面詞和上下文兩者之間的相互注意力分?jǐn)?shù)貢獻(xiàn),取得不錯(cuò)的效果。此外,文獻(xiàn)[6-8]探索并設(shè)計(jì)多種注意力機(jī)制并應(yīng)用于方面級(jí)情感分析任務(wù)。但是,序列模型和注意力機(jī)制及其組合模型無法建模句子本身的長(zhǎng)距離依賴關(guān)系。文獻(xiàn)[9]使用圖卷積網(wǎng)絡(luò)(GCN)學(xué)習(xí)句子依存句法樹上的詞間長(zhǎng)距離依賴關(guān)系。文獻(xiàn)[10]通過多頭注意力編碼層學(xué)習(xí)語義信息,并結(jié)合圖卷積網(wǎng)絡(luò)進(jìn)行方面級(jí)情感分析。文獻(xiàn)[11]使用語法距離信息加權(quán)對(duì)圖卷積網(wǎng)絡(luò)的鄰接矩陣進(jìn)行加權(quán),并使用多交互注意力機(jī)制將句子語義和語法信息進(jìn)行融合。圖卷積網(wǎng)絡(luò)在方面級(jí)情感分析中的應(yīng)用表現(xiàn)出較優(yōu)的性能。然而,由于方面級(jí)情感分析語料的不規(guī)范性,因此僅考慮特定方面詞與上下文之間的依賴關(guān)系可能會(huì)造成情感極性的誤判。同時(shí),因方面級(jí)情感分析任務(wù)的特性,如何學(xué)習(xí)有效的上下文語義和語法信息成為其關(guān)鍵所在。
本文提出一種基于方面-詞性感知的圖卷積網(wǎng)絡(luò)ASP_POSGCN。利用方面詞嵌入和上下文詞性信息對(duì)上下文語義信息進(jìn)行感知,使模型能夠充分挖掘與方面詞和特定詞性相關(guān)的情感意見詞的語義信息;根據(jù)特定詞性單詞對(duì)方面的情感貢獻(xiàn)及其位置信息重構(gòu)依存句法樹,設(shè)計(jì)1 個(gè)雙通道圖卷積網(wǎng)絡(luò)和多圖感知機(jī)制,同時(shí)建模原始和重構(gòu)后的依存句法樹中的依賴關(guān)系;本文在4 個(gè)公開數(shù)據(jù)集上對(duì)ASP_POSGCN 模型性能進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果表明,相較于經(jīng)典的基線模型和主流的利用圖卷積網(wǎng)絡(luò)的方法,所提模型在4 個(gè)數(shù)據(jù)集上的準(zhǔn)確率和宏F1 值均有提升。消融實(shí)驗(yàn)結(jié)果說明了方面-詞性感知以及重構(gòu)句法依存樹對(duì)情感極性分類的重要性。
方面級(jí)情感分析屬于細(xì)粒度情感分析范疇,與篇章級(jí)和句子級(jí)等粗粒度情感分析不同,方面級(jí)情感分析旨在分析判斷句子中特定方面的情感極性。例如,給定1 條語句“great food but the service was dreadful.”,其中“food”和“service”分別為給定的積極和消極方面詞,粗粒度情感分析無法準(zhǔn)確識(shí)別其中包含的情感信息。在電子商務(wù)、服務(wù)業(yè)、健康醫(yī)療和金融等領(lǐng)域,文獻(xiàn)[12]研究表明方面級(jí)情感分析在一定程度上能夠?yàn)槠髽I(yè)和組織提供強(qiáng)大的決策支持,相較于粗粒度情感分析,具有重要的研究?jī)r(jià)值和實(shí)際意義。
詞性(POS)信息是句子中單詞本身具有的特征,對(duì)于理解句子起到了決定性的作用。在方面級(jí)情感分析中,一些特定詞性的單詞決定了給定方面的情感極性。在句子“great food but the service was dreadful.”中,形容詞“great”決定了方面詞“food”的積極情感,形容詞“dreadful”決定了“service”消極情感。文獻(xiàn)[13]通過對(duì)方面級(jí)情感分析數(shù)據(jù)集進(jìn)行詞性統(tǒng)計(jì)發(fā)現(xiàn),大多數(shù)影響方面詞情感傾向的是形容詞、副詞和動(dòng)詞等意見詞。如何利用詞性信息成為研究的關(guān)鍵,文獻(xiàn)[14]將詞性標(biāo)簽直接輸入到模型中用于情感分類。文獻(xiàn)[15-16]設(shè)計(jì)門控機(jī)制,利用詞性嵌入過濾上下文信息。然而以上大多數(shù)研究?jī)H考慮詞性對(duì)語義信息的影響,忽略了其在理解語法信息中的作用。
近年來,圖神經(jīng)網(wǎng)絡(luò)特別是圖卷積網(wǎng)絡(luò)在方面級(jí)情感分析中取得了優(yōu)異的成果。文獻(xiàn)[9]將圖卷積網(wǎng)絡(luò)引入到方面級(jí)情感分析任務(wù)中,通過建模句子的依存句法樹捕獲語法信息,關(guān)注方面詞及其長(zhǎng)距離上下文依賴關(guān)系。文獻(xiàn)[17]設(shè)計(jì)類型感知圖卷積網(wǎng)絡(luò)學(xué)習(xí)詞間依賴關(guān)系。文獻(xiàn)[18]將SenticNet 情感詞典知識(shí)融合到句法依賴圖中增強(qiáng)情感意見詞的作用。文獻(xiàn)[19]構(gòu)造1 個(gè)雙重圖卷積神經(jīng)網(wǎng)絡(luò)來關(guān)注詞間共現(xiàn)關(guān)系。盡管圖卷積神經(jīng)網(wǎng)絡(luò)在方面級(jí)情感分析任務(wù)中已經(jīng)成為主流研究方法,但是大多數(shù)研究忽略詞性信息及其在句子中與方面詞的相對(duì)距離對(duì)于方面情感的貢獻(xiàn)。
本文所提的方面-詞性感知圖卷積網(wǎng)絡(luò)ASP_POSGCN架構(gòu)如圖1 所示。模型由詞嵌入、語義提取、方面-詞性感知、語法提取和情感分類器組成。首先在詞嵌入層中使用GloVe 詞向量來表示句子;然后在語義提取部分使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)建模上下文信息,并利用方面嵌入和詞性信息對(duì)上下文語義信息進(jìn)行過濾,在語法提取部分使用雙通道圖卷積神經(jīng)網(wǎng)絡(luò)分別建模原始句法依賴矩陣和重構(gòu)句法依賴矩陣,將多圖感知機(jī)制應(yīng)用于2 個(gè)單通道的輸出;最后將語義和語法特征的最終表示計(jì)算注意力得到方面級(jí)的情感預(yù)測(cè)概率值。
圖1 ASP_POSGCN 模型結(jié)構(gòu)Fig.1 Structure of ASP_POSGCN model
給定1 個(gè)長(zhǎng)度為n的句子s,s={w1,w2,…,wn},包括長(zhǎng)度為m的方面詞a={wt+1,wt+2,…,wt+m},其中a是s的子序列。在詞嵌入部分中,使用GloVe 詞向量將s中的每個(gè)單詞映射成低維向量wi∈R|V|,其中|V|是詞匯表的大小。利用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)提取句子的語義信息Hi=[hl;hr]。hl和hr分別為 方向相反的單層長(zhǎng)短期記憶網(wǎng)絡(luò),其結(jié)構(gòu)如圖2 所示。
圖2 長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of long short-term network
ft、it和ot分別為 遺忘門、輸入門 和輸出 門,信 息更新方式如式(1)~式(6)所示:
其中:xt和Ct-1分別表示模型當(dāng)前時(shí)刻的輸入和上一時(shí)刻的記憶細(xì)胞狀態(tài);σ 為Sigmoid 激活函數(shù);W和b分別表示可學(xué)習(xí)的權(quán)重和偏置矩陣;tanh 為雙曲正切函數(shù)。
上一時(shí)刻的記憶細(xì)胞狀態(tài)Ct-1和當(dāng)前時(shí)刻信息被共同輸入到長(zhǎng)短期記憶網(wǎng)絡(luò)中,經(jīng)過it,ft和ot門控機(jī)制后得到當(dāng)前時(shí)刻的輸出ht和當(dāng)前時(shí)刻的記憶細(xì)胞狀態(tài)Ct。
圖3 所示為雙向長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)構(gòu),通過拼接2 個(gè)單向長(zhǎng)短期記憶網(wǎng)絡(luò)的輸出hl和hr可以得到句子s的語義信息Hi={h1,h2,…,hn},其中hi∈R2d,d為單向長(zhǎng)短期記憶網(wǎng)絡(luò)的隱藏層維度。
圖3 雙向長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of bi-directional long short-term network
考慮到單詞與方面詞的相對(duì)距離對(duì)其情感的影響,本文采用位置編碼建模單詞與方面詞的距離信息。為每個(gè)上下文單詞賦予不同權(quán)重,權(quán)重大小與上下文和方面詞的相對(duì)距離成正比,權(quán)重計(jì)算式如式(7)和式(8)所示:
其中:n為句子s的長(zhǎng)度;[t+1,t+m]為方面詞序列索引值區(qū)間;pi表示句子s中單詞i的權(quán)重值。利用位置編碼將上下文相對(duì)于方面詞位置信息融入其自身語義信息中,Hi將作為最終的語義信息輸入到圖卷積網(wǎng)絡(luò)中。
文獻(xiàn)[20]研究發(fā)現(xiàn),在方面級(jí)情感分析中40%的誤差是由于未考慮到方面詞本身造成的。因此,為了同時(shí)關(guān)注方面詞本身以及上下文詞性信息,本文設(shè)計(jì)方面-詞性感知機(jī)制,使用方面詞嵌入和詞性信息的隱藏層狀態(tài)并借助門控機(jī)制來實(shí)現(xiàn)。
首先利用方面感知門控機(jī)制計(jì)算語義信息Hi和方面嵌入ei的相關(guān)性,計(jì)算式如式(9)~式(11)所示:
其中:Wa∈R2d,Wt∈R2d,ba∈R2d和bt∈R2d分別表 示可學(xué)習(xí)的參數(shù)權(quán)重和偏置矩陣;σ 表示Sigmoid 激活函數(shù);ei∈Rd為方面詞嵌入;Zi={z1,z2,…,zn}為句子s經(jīng)由方面感知門控機(jī)制后的語法信息,過濾上下文中與當(dāng)前方面詞不相關(guān)的信息,避免引入不必要的噪聲,其中zi∈R2d。
句子中特定詞性的單詞與方面詞情感極性有直接聯(lián)系,詞性感知部分通過門控機(jī)制可以進(jìn)一步篩選出方面感知輸出中特定詞性的上下文信息。具體地,將單詞的詞性嵌入輸入到雙向長(zhǎng)短期記憶網(wǎng)絡(luò)中,得到詞性信息隱層狀態(tài)Hp∈R2d用于詞性感知門控計(jì)算,如式(12)所示:
其中:tanh為雙曲正切函數(shù);Wp∈R2d表示可學(xué)習(xí)的權(quán)重;Z∈R2d表示方面感知的輸出。最終得到方面-詞性感知的輸出Hp將與之后的圖卷積網(wǎng)絡(luò)的輸出計(jì)算注意力送入情感分類器中。
2.3.1 依存句法樹重構(gòu)
近年來,依存句法分析被用于方面級(jí)情感分析中,不僅能夠捕獲長(zhǎng)距離上下文與方面詞的關(guān)系,還能提供句子的語法信息有利于指導(dǎo)模型進(jìn)行情感極性預(yù)測(cè)。然而,因公開語料庫(kù)中句子的不規(guī)范導(dǎo)致在進(jìn)行依存句法分析時(shí)產(chǎn)生誤差,從而引入噪聲信息。為緩解這種現(xiàn)象,本文結(jié)合方面詞和詞性信息對(duì)依存句法樹進(jìn)行重構(gòu)。
詞性信息是句子本身帶有的特征,文獻(xiàn)[13,15]研究表明形容詞、副詞和動(dòng)詞等詞性的單詞對(duì)給定方面的情感傾向影響較大?;诖耍疚膶?duì)原始依存句法樹中的詞間依賴關(guān)系進(jìn)行重構(gòu)。首先,利用spaCy 自然語言處理工具包生成原始依存句法樹。原始依存句法樹如圖4 所示。
圖4 原始依存句法樹Fig.4 Primitive dependency syntax tree
原始依存句法樹包含單詞之間的長(zhǎng)距離依賴關(guān)系,為此構(gòu)建原始句法依賴矩陣Ai,j∈Rn×n,如式(13)所示:
之后,根據(jù)上下文詞性對(duì)依賴關(guān)系進(jìn)行重構(gòu),將方面詞作為根節(jié)點(diǎn)指向其情感相關(guān)上下文單詞,并替換原始依存句法樹中的依賴關(guān)系為上下文單詞詞性。依存句法樹重構(gòu)如圖5 所示。
圖5 依存句法樹重構(gòu)Fig.5 Reconstruction of dependency syntax tree
最后在生成句法依賴矩陣時(shí)根據(jù)上下文單詞的詞性及其與方面詞的距離賦予其不同權(quán)重。權(quán)重計(jì)算式如式(14)和式(15)所示:
具體的重構(gòu)流程如算法1 所示。
算法1方面-詞性感知矩陣算法
在算法1 中詞性列表選擇形容詞、副詞和動(dòng)詞。經(jīng)過重構(gòu)后的方面-詞性矩陣Mi,j不僅融合上下文中特定詞性單詞的位置和詞性信息,在一定程度上緩解了因句法解析錯(cuò)誤帶來的情感極性誤判,同時(shí)融合詞性信息的句法依賴矩陣能更好地指導(dǎo)模型在提取語法時(shí)專注于和方面詞直接相關(guān)的情感意見詞。
2.3.2 多圖感知機(jī)制
在語法提取初期,本文分別構(gòu)建原始句法圖和方面-詞性感知圖,以獲取句子內(nèi)部語法關(guān)聯(lián)。為改善以上2 種圖之間的語法和句法依賴關(guān)系,利用多圖感知機(jī)制捕獲不同圖之間無法捕獲的依賴關(guān)系信息,以減少信息的重疊。具體的感知機(jī)制如式(16)和式(17)所示:
其中:Gsyn和Gap分別表示原始依賴圖和方面-詞性感知圖;R表示多圖感知;Regular(Gsy‖nGap)表示Gsyn和Gap之間的異構(gòu)信息;KL 表示Kullback-Leibler 散度。多圖感知機(jī)制能夠考慮兩者之間的相似度。如果兩者相似度較高,則傾向于0;否則,則傾向于1。
2.3.3 雙通道圖卷積網(wǎng)絡(luò)
圖卷積網(wǎng)絡(luò)常被用于建模長(zhǎng)距離語法依賴關(guān)系。文獻(xiàn)[9]使用2 層圖卷積網(wǎng)絡(luò)建模句子句法依賴矩陣。為了同時(shí)建模原始依存句法樹和重構(gòu)依存句法樹,本文設(shè)計(jì)1 個(gè)雙通道圖卷積網(wǎng)絡(luò),分別為Syn-GCN 和AP-GCN。Syn-GCN 和AP-GCN 計(jì)算均使用KIPF等[21]改進(jìn)的通過歸一化來更新節(jié)點(diǎn)圖卷積網(wǎng)絡(luò)。
在Syn-GCN 中使用原始句法依賴矩陣Ai,j進(jìn)行計(jì)算,對(duì)于第i個(gè)節(jié)點(diǎn),將其標(biāo)記為,其輸出為具體計(jì)算式如式(18)和式(19)所示:
其中:Wl∈R2d和bl∈R2d分別為可學(xué)習(xí)的權(quán)重和偏置矩陣∈R2d為節(jié)點(diǎn)i的l-1 層輸出∈R2d為節(jié)點(diǎn)i的第l層輸出;di∈Rn×n為矩陣Ai,j的度矩陣。
在AP-GCN 中使用重構(gòu)后的句法依賴矩陣Mi,j進(jìn)行計(jì)算,與Syn-GCN 類似,使用位置編碼后的語義信息hi作為初始節(jié)點(diǎn)信息,具體計(jì)算式如式(20)和式(21)所示:
其中:Wl∈R2d和bl∈R2d表示可學(xué)習(xí)的參數(shù)權(quán)重和偏置矩陣;∈R2d為節(jié)點(diǎn)i的l-1 層輸出;∈R2d為節(jié)點(diǎn)i的第l層輸出;di∈Rn×n為矩陣Mi,j的度矩陣。
經(jīng)過雙通道圖卷積網(wǎng)絡(luò)后得到原始依賴圖和方面-詞性感知圖的隱藏表示為結(jié)合兩者來提取語義和句法依賴,并采用多圖感知機(jī)制以減輕重疊信息,計(jì)算如式(22)所示:
其中:α為特征相關(guān)系數(shù)。為獲取特定方面的語法信息,利用Mask 掩碼層對(duì)非特定方面的語法特征進(jìn)行屏蔽。具體地,保持特定方面的語義信息不變,將非特定方面的語義信息設(shè)為0,如式(23)所示:
經(jīng)過Mask 掩碼層得到句子s特定方面的最終語法表示
為了檢索句子s語義信息與語法信息的相關(guān)性,使用多圖感知機(jī)制后的掩碼輸出hli和zi計(jì)算注意力,具體計(jì)算式如式(24)~式(26)所示:
得到最終分類表示γ∈R2d后使用1 個(gè)全連接層映射得到輸出x,通過Softmax 獲取方面a情感極性c的概率值p,如式(27)所示:
其中:Wp和bp表示可學(xué)習(xí)的參數(shù)權(quán)重和偏置。使用結(jié)合L2 正則化的交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練,如式(28)所示:
其中:C表示輸出的情感極性分類空間;λ表示L2 正則化系數(shù);Θ表示模型訓(xùn)練的參數(shù)。
為驗(yàn)證本文所提ASP_POSGCN 模型的性能,在Twitter-SemEval2014 task4 中 的Laptop14,Restaurant14和SemEval2016 task5 中 的Restaurant16 這4 個(gè)方面級(jí)情感分析公共數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。每個(gè)數(shù)據(jù)集都包含若干條中立、積極和消極3 種類型的語句。數(shù)據(jù)集規(guī)模如表1 所示。
表1 數(shù)據(jù)集規(guī)模Table 1 Dataset size 單位:條
此外,本文提出的ASP_POSGCN 模型使用NLTK 自然語言處理工具包對(duì)數(shù)據(jù)集進(jìn)行詞性標(biāo)注預(yù)處理,用于模型的詞性感知部分。
本文采用準(zhǔn)確率(Acc,計(jì)算中用A)和宏F1 值對(duì)模型實(shí)驗(yàn)效果進(jìn)行評(píng)估,準(zhǔn)確率和宏F1 值(計(jì)算中用F1)的定義如式(29)~式(32)所示:
其中:TTP為正樣本預(yù)測(cè)正確數(shù)量;TTN為正樣本預(yù)測(cè)錯(cuò)誤數(shù)量;FFP為負(fù)樣本預(yù)測(cè)正確數(shù)量;FFN為負(fù)樣本預(yù)測(cè)錯(cuò)誤數(shù)量;P為精準(zhǔn)率,表示正確預(yù)測(cè)的正樣本占實(shí)際預(yù)測(cè)正樣本的比例;R為召回率,表示正確預(yù)測(cè)的正樣本占總正樣本的比例。
本文實(shí)驗(yàn)使用預(yù)訓(xùn)練的300 維度GloVe 詞向量生成詞嵌入以及不同維度的詞性嵌入進(jìn)行實(shí)驗(yàn),模型的所有參數(shù)初始化均采用均勻分布。雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的隱藏層維度為300,使用Adam 優(yōu)化器進(jìn)行參數(shù)優(yōu)化,采用L2 正則化和Dropout 防止模型過擬合,針對(duì)不同數(shù)據(jù)集達(dá)到最優(yōu)實(shí)驗(yàn)效果的參數(shù)不同,模型的學(xué)習(xí)率和相關(guān)參數(shù)取值不同。具體實(shí)驗(yàn)參數(shù)以及實(shí)驗(yàn)平臺(tái)配置如表2 和表3 所示。
表2 模型參數(shù)設(shè)置Table 2 Model parameters setting
表3 實(shí)驗(yàn)平臺(tái)配置Table 3 Experimental platform configuration
為驗(yàn)證本文提出的ASP_POSGCN模型的可行性,本文在Twitter、Laptop14、Restaurant14和Restaurant16數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn)。
3.4.1 對(duì)比實(shí)驗(yàn)
將本文所提ASP_POSGCN 與如下方面級(jí)情感分析基線模型和主流研究方法進(jìn)行對(duì)比。
LSTM[3]:使用長(zhǎng)短期記憶網(wǎng)絡(luò)建模語義信息并使用其輸出的隱藏層狀態(tài)進(jìn)行情感極性預(yù)測(cè)。
ATAE-LSTM[4]:采用方面詞嵌入,將長(zhǎng)短期記憶網(wǎng)絡(luò)與注意力機(jī)制相結(jié)合用于方面級(jí)情感分析。
MemNet[22]:結(jié)合具有位置特征注意力機(jī)制和深度記憶網(wǎng)絡(luò)進(jìn)行方面級(jí)情感分析。
IAN[7]:通過長(zhǎng)短期記憶網(wǎng)絡(luò)分別建模上下文和方面詞,設(shè)計(jì)一種交互注意力機(jī)制生成上下文和方面詞表示并拼接作為最終分類表示。
AOA[23]:借鑒機(jī)器翻譯中的注意-過度注意思想,聯(lián)合建模方面詞和上下文,通過計(jì)算逐行和逐列式注意力得到上下文相對(duì)于方面詞的加權(quán)表示。
ASGCN[9]:使用圖卷積網(wǎng)絡(luò)建模句子語法信息用于方面級(jí)情感分析。
BiGCN[19]:將句子中單詞共現(xiàn)信息整合到句法依賴圖中以增強(qiáng)其表征能力。
AEGCN[10]:結(jié)合注意力編碼器與圖卷積網(wǎng)絡(luò)分別建模句子語義和語法信息后拼接作為句子最終情感分類表示。
ATGCN[24]:通過多頭注意力計(jì)算上下文嵌入和方面嵌入的相關(guān)性,結(jié)合圖卷積網(wǎng)絡(luò)進(jìn)行方面級(jí)情感極性分類。
MIGCN[11]:使用語法距離信息加權(quán)對(duì)圖卷積網(wǎng)絡(luò)的鄰接矩陣進(jìn)行加權(quán),并使用交互注意力機(jī)制使模型同時(shí)關(guān)注詞間語義和語法信息。
PGGCN[16]:分別建模詞嵌入和詞性嵌入,并使用門控機(jī)制將兩者的LSTM 輸出進(jìn)行融合與圖卷積網(wǎng)絡(luò)的輸出計(jì)算注意力分?jǐn)?shù)。
ASP_POSGCN:本文提出的方面-詞性感知圖卷積網(wǎng)絡(luò),同時(shí)關(guān)注方面嵌入和詞性信息在語義和語法中對(duì)方面情感極性的貢獻(xiàn)。
不同模型的實(shí)驗(yàn)結(jié)果如表4 所示,加粗表示最優(yōu)數(shù)據(jù)。
表4 不同模型的評(píng)價(jià)指標(biāo)對(duì)比Table 4 Evaluation indicators comparison among different models %
從表4 可以看出,基于序列建模的LSTM 模型以及結(jié)合注意力機(jī)制的ATAE-LSTM 和MemNet 模型的效果普遍較差,因其模型架構(gòu)僅考慮了上下文語義部分,無法有效預(yù)測(cè)情感極性。IAN 和AOA 模型在建模上下文時(shí)同時(shí)考慮方面詞信息,通過設(shè)計(jì)注意力機(jī)制有效地提取與方面詞相關(guān)的上下文語義信息,在4 個(gè)數(shù)據(jù)集上的準(zhǔn)確率和F1 值相較于單一語義建模的模型有明顯提升,說明方面信息有助于檢索上下文語義信息。基于圖卷積網(wǎng)絡(luò)的模型充分考慮了語法信息在理解句子時(shí)的作用,實(shí)驗(yàn)效果相較于單一語義建模的模型也大幅提升。相較于ASGCN 模 型,BiGCN 在Twitter 數(shù)據(jù)集 上的準(zhǔn)確率和F1 值分別提升2.01 和2.95 個(gè)百分點(diǎn),在Restaurant14 數(shù)據(jù)集上提升1.20 和1.46 個(gè)百分點(diǎn),說明詞間共現(xiàn)信息在一定程度上能夠強(qiáng)化詞間的依賴關(guān)系。AEGCN 模型的性能相較于ASGCN 在Twitter、Laptop14 和Restaurant14 數(shù)據(jù)集 上均得到提升,說明結(jié)合注意力編碼序列模型的上下文語義信息的表征能力要優(yōu)于單一的序列模型。ATGCN 模型通過多頭注意力機(jī)制計(jì)算方面嵌入與上下文嵌入的相關(guān)性,在Restaurant14 數(shù)據(jù)集上的準(zhǔn)確率和F1值比AEGCN 分別提升0.81 和1.99 個(gè)百分點(diǎn),說明考慮方面信息有助于模型性能的提升。MIGCN 相比于ASGCN 模型,在4 個(gè)數(shù)據(jù)集上準(zhǔn)確率平均提升1.07 個(gè)百分點(diǎn),F(xiàn)1 值平均提升2.47 個(gè)百分點(diǎn),說明加權(quán)圖卷積網(wǎng)絡(luò)有利于增強(qiáng)依賴關(guān)系,多交互注意力機(jī)制有利于文本語義和語法的特征融合。與ASGCN相 比,PGGCN 在Twitter、Laptop14、Restaurant14 和Restaurant16 數(shù)據(jù)集上的準(zhǔn)確率和F1 值均有明顯提升,證明詞性門控機(jī)制的有效性。ASP_POSGCN 相較于利用依存句法樹構(gòu)建鄰接矩陣的ASGCN 模型,在4 個(gè)數(shù)據(jù)集上的準(zhǔn)確率分別為74.57%、79.15%、83.84% 和91.23%,F(xiàn)1 值分別 為72.59%、75.76%、77.00%和77.11%,其中準(zhǔn)確率平均提升2.83 個(gè)百分點(diǎn),F(xiàn)1 值平均提升了5.38 個(gè)百分點(diǎn)。方面-詞性感知鄰接矩陣充分考慮了方面詞和特定POS 的單詞及其相對(duì)距離對(duì)情感的影響,使得ASP_POSGCN 在4 個(gè)數(shù)據(jù)集上均取得或接近最優(yōu)的效果。
3.4.2 消融實(shí)驗(yàn)
為驗(yàn)證ASP_POSGCN 模型中各個(gè)模塊對(duì)方面情感極性的影響,本文設(shè)計(jì)1 組消融實(shí)驗(yàn)。其中w/o ap表示僅去掉方面感知部分;w/o pp 表示僅去掉詞性感知部分;w/o ap-gcn 表示僅去掉重構(gòu)依存句法樹分支部分;w/o mgp 表示去掉多圖感知機(jī)制,即使用方面-詞性感知的輸出分別與雙通道GCN 輸出計(jì)算注意力并拼接作為最終表示。消融實(shí)驗(yàn)結(jié)果及統(tǒng)計(jì)圖如表5、圖6 和圖7 所示,加粗表示最優(yōu)數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,方面-詞性雙感知機(jī)制的效果優(yōu)于單一感知機(jī)制,重構(gòu)后的句法依賴圖充分挖掘和利用原始依存句法圖中忽略的方面詞和特定詞性間的依賴關(guān)系,多圖感知機(jī)制能夠捕獲原始依存句法圖和方面-感知依存圖的異構(gòu)信息,從而有助于模型性能的提升。此外,本節(jié)分別對(duì)特征相關(guān)系數(shù)α、詞性嵌入維度pos_dim 和GCN 層數(shù)進(jìn)行消融實(shí)驗(yàn)。
表5 消融實(shí)驗(yàn)結(jié)果Table 5 Ablation experimental results %
圖6 消融模型與準(zhǔn)確率的關(guān)系Fig.6 The relationship between ablation models and accuracy
圖7 消融模型與F1 值的關(guān)系Fig.7 The relationship between ablation models and F1 value
3.4.3 特征相關(guān)系數(shù)α消融實(shí)驗(yàn)
在多圖感知機(jī)制中,特征相關(guān)系數(shù)α的值反映不同數(shù)據(jù)集對(duì)原始依存句法圖和方面-詞性感知依存圖的敏感程度。因此,對(duì)特征相關(guān)系數(shù)α進(jìn)行消融實(shí)驗(yàn),其中α的取值為(0,1]。特征相關(guān)系數(shù)α與準(zhǔn)確率和F1 值的關(guān)系如圖8 和圖9 所示。
圖8 特征相關(guān)系數(shù)α 與準(zhǔn)確率的關(guān)系Fig.8 The relationship between characteristic correlation coefficient α and accuracy
圖9 特征相關(guān)系數(shù)α 與F1 值的關(guān)系Fig.9 The relationship between characteristic correlation coefficient α and F1 value
當(dāng)α從0.1 增加到1.0 的過程 中,ASP_POSGCN在4 個(gè)數(shù)據(jù)集上的準(zhǔn)確率變化較F1 值相對(duì)平緩。當(dāng)α取值 為0.5 時(shí),Twitter 和Restaurant14 數(shù)據(jù)集的準(zhǔn)確率和F1 值均達(dá)到最大值,而Laptop14 和Restaurant16 數(shù)據(jù)集均在α取值為1 時(shí)達(dá)到最大值,說明不同的數(shù)據(jù)集對(duì)于方面-詞性感知圖中的信息關(guān)注程度不同。
3.4.4 詞性嵌入維度消融實(shí)驗(yàn)
在方面-詞性感知機(jī)制中,詞性嵌入維度會(huì)影響學(xué)習(xí)到的上下文語義特征質(zhì)量。為此,本文對(duì)詞性嵌入維度進(jìn)行消融實(shí)驗(yàn),詞性維度設(shè)置為pos_dim∈{20,25,30,35,40}。詞性嵌 入維度 與準(zhǔn)確率和F1 值的關(guān)系如圖10 和圖11 所示。
圖10 詞性嵌入維度與準(zhǔn)確率的關(guān)系Fig.10 The relationship between the embedding dimension of part-of-speech and accuracy
圖11 詞性嵌入維度與F1 值的關(guān)系Fig.11 The relationship between the embedding dimension of part-of-speech and F1 value
從圖10 可以看出,當(dāng)詞性嵌入維度發(fā)生變化時(shí),ASP_POSGCN 的準(zhǔn)確率出現(xiàn)了小范圍的浮動(dòng),說明數(shù)據(jù)集準(zhǔn)確率對(duì)詞性嵌入維度敏感程度較小。從圖11 可以看出,當(dāng)詞性嵌入維度設(shè)置為30 時(shí),ASP_POSGCN 在4 個(gè)數(shù)據(jù)集上的F1 值均達(dá)到最大值。其中,Laptop14、Restaurant14 和Restaurant16 數(shù)據(jù)集的F1 值隨著詞性嵌入維度改變發(fā)生較大程度的波動(dòng),說明Laptop14、Restaurant14 和Restaurant16 數(shù)據(jù)集的F1 值對(duì)詞性嵌入維度較為敏感。
3.4.5 GCN 層數(shù)消融實(shí)驗(yàn)
為驗(yàn)證圖卷積網(wǎng)絡(luò)層數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響,本文設(shè)置圖卷積網(wǎng)絡(luò)層數(shù)L∈{1,2,3,4,5,6,7,8}進(jìn)行消融實(shí)驗(yàn)。GCN 層數(shù)與準(zhǔn)確率和F1 值的關(guān)系如圖12 和圖13 所示。
圖12 GCN 層數(shù)與準(zhǔn)確率的關(guān)系Fig.12 The relationship between GCN layers and accuracy
圖13 GCN 層數(shù)與F1 值的關(guān)系Fig.13 The relationship between GCN layers and F1 value
當(dāng)GCN 層數(shù)為2 層 時(shí),ASP_POSGCN 模型在Twitter、Laptop14、Restaurant14 和Restaurant16 數(shù) 據(jù)集上的準(zhǔn)確率和F1 值均達(dá)到最優(yōu)。隨著GCN 層數(shù)的增加,ASP_POSGCN 在4 個(gè)數(shù)據(jù)集上的性能都呈現(xiàn)下降趨勢(shì),其原因可能為隨著GCN 層數(shù)的增加,模型參數(shù)量隨之增加,導(dǎo)致過擬合現(xiàn)象的發(fā)生。
本文提出一種方面-詞性感知圖卷積網(wǎng)絡(luò)。利用方面嵌入和詞性信息感知上下文語義特征,同時(shí)重構(gòu)句子依存句法樹構(gòu)建方面-感知鄰接矩陣以增強(qiáng)詞間依賴關(guān)系,并使用多圖感知機(jī)制捕獲兩者異構(gòu)信息,通過雙通道圖卷積網(wǎng)絡(luò)進(jìn)行建模,最后將方面-詞性感知上下文語義信息和語法信息計(jì)算注意力作為分類特征表示。實(shí)驗(yàn)結(jié)果表明,方面-詞性感知機(jī)制有助于提取情感相關(guān)的上下文語義信息,同時(shí)本文提出的重構(gòu)依存句法圖鄰接矩陣和多圖感知機(jī)制是有效的。實(shí)驗(yàn)結(jié)果表明,ASP_POSGCN 模型在公開數(shù)據(jù)集上的準(zhǔn)確率和F1 值優(yōu)于基線模型和一些主流的研究方法。下一步將考慮利用詞間依賴標(biāo)簽以達(dá)到增強(qiáng)模型語法表征能力的效果。