摘要:針對(duì)方面級(jí)情感分析利用注意力機(jī)制和傳統(tǒng)深度學(xué)習(xí)方法提取方面詞與上下文之間的聯(lián)系時(shí),未充分考慮句法依存信息及關(guān)系標(biāo)簽導(dǎo)致預(yù)測(cè)效果不佳的問(wèn)題,提出一種基于關(guān)系圖注意力網(wǎng)絡(luò)的分析模型。利用DeBERTa預(yù)訓(xùn)練模型進(jìn)行詞嵌入,并將初始詞向量進(jìn)行多頭注意力計(jì)算以增強(qiáng)方面詞與上下文信息之間的關(guān)系。通過(guò)圖注意力網(wǎng)絡(luò)學(xué)習(xí)句法信息中的關(guān)系標(biāo)簽特征,借助這些關(guān)系標(biāo)簽特征進(jìn)一步提取句法信息中方面詞和上下文之間的聯(lián)系,增強(qiáng)模型對(duì)于情感特征的提取能力。SemEval-2014數(shù)據(jù)集的實(shí)驗(yàn)測(cè)試結(jié)果表明,所提出模型的準(zhǔn)確率和Macro-F1均優(yōu)于對(duì)比模型。
關(guān)鍵詞:情感分析;注意力機(jī)制;圖神經(jīng)網(wǎng)絡(luò);句法依賴樹(shù)
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1008-0562(2024)02-0232-09
0 引言
社交網(wǎng)絡(luò)媒體和購(gòu)物平臺(tái)的指數(shù)級(jí)增長(zhǎng),為人們提供了分享和表達(dá)個(gè)人觀點(diǎn)的廣闊平臺(tái)。伴隨各種網(wǎng)絡(luò)文本數(shù)據(jù)的迅速增長(zhǎng),情感分析(sentimentanalysis,SA)已成為自然語(yǔ)言處理(natural languageprocessmg,NLP)的研究熱點(diǎn)。經(jīng)典情感分析任務(wù)在工業(yè)環(huán)境中的典型應(yīng)用是對(duì)產(chǎn)品評(píng)論中蘊(yùn)含的單一情緒極性(積極、消極或中性)進(jìn)行判別。但這種粗粒度的情感分析任務(wù)實(shí)際應(yīng)用價(jià)值不高,與上述任務(wù)相比,方面級(jí)情感分析屬于細(xì)粒度的任務(wù),其致力于判別對(duì)應(yīng)方面詞的情緒極性。具體來(lái)說(shuō),對(duì)于一個(gè)句子中的一個(gè)或多個(gè)方面詞,該任務(wù)需要判斷句子內(nèi)包含的所有方面詞的情感極性。例如,句子“I like the food here, but the service is terrible.”中給定的方面詞“food”和“service”所產(chǎn)出情緒極性分別為正向和負(fù)向。細(xì)粒度情感分析的目標(biāo)是以方面詞為中心的,可從句子中抽取更細(xì)粒度的情緒信息,因此受到學(xué)者們的關(guān)注,并逐步應(yīng)用于實(shí)際應(yīng)用場(chǎng)景中。
方面級(jí)情感分析需要在上下文中找到特定的方面詞,通過(guò)具有情感信息關(guān)聯(lián)的部分判定方面詞的情感極性。因此該任務(wù)需要充分考慮方面詞與上下文之間的語(yǔ)義關(guān)聯(lián)性,即句子內(nèi)一個(gè)或多個(gè)方面詞的情感極性在上下文中關(guān)注的部分是完全不同的。近年來(lái),方面級(jí)情感分析研究的學(xué)者重點(diǎn)關(guān)注于模型如何高效率且準(zhǔn)確地學(xué)習(xí)方面詞和上下文的語(yǔ)義關(guān)聯(lián)性。其中最直接的方法是利用人工設(shè)計(jì)一組與方面詞相關(guān)的特征,并集成到現(xiàn)有的基于特征的傳統(tǒng)機(jī)器學(xué)習(xí)算法中。但特征工程是勞動(dòng)密集型的工作,耗費(fèi)大量人工成本,且模型相關(guān)指標(biāo)效果不佳。
神經(jīng)網(wǎng)絡(luò)模型尤其是基于長(zhǎng)短期記憶(longshort-term memory,LSTM)網(wǎng)絡(luò)的相關(guān)技術(shù)在情感分析領(lǐng)域應(yīng)用廣泛,在生成句子表示時(shí)能夠捕捉方面詞與其上下文之間的語(yǔ)義關(guān)聯(lián)信息,但由于其傾向于分配整個(gè)句子的極性,一定程度上忽略了要判定的方面詞。一些學(xué)者提出使用注意力機(jī)制(attention mechanism)學(xué)習(xí)方面詞與上下文的交互信息,其能夠特別關(guān)注方面詞和上下文中的關(guān)鍵信息,使得生成的方面詞和上下文表示更加豐富。但上述研究缺乏句法信息分析,未考慮距離方面詞較遠(yuǎn)的情感特征,如方面詞與上下文之間存在的句法依存關(guān)系。而句子的依存關(guān)系可以通過(guò)外部解析器spaCy. StanfordNLP等解釋句法結(jié)構(gòu),分析句子中存在的依賴關(guān)系,句法依賴樹(shù)等句法結(jié)構(gòu)有助于更好地學(xué)習(xí)方面詞以及對(duì)應(yīng)情感特征之間的相關(guān)性。
將句法依賴樹(shù)視為鄰接矩陣,使用圖神經(jīng)網(wǎng)絡(luò)對(duì)句法依賴樹(shù)等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行局部信息編碼,這種具有依存關(guān)系的樹(shù)結(jié)構(gòu)使得方面詞更接近其相關(guān)上下文中的情感特征,從而豐富其特征表示。句法依賴樹(shù)見(jiàn)圖1,圖中形容詞“great”與“dreadful”在句子中均為代表方面詞的情感極性詞,與方面詞具有句法依賴關(guān)系,即形容詞“great”和修飾名詞性主語(yǔ)“wme”,形容詞“dreadful”和修飾名詞性主語(yǔ)“servlce”。圖神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)在于能夠利用方面詞與上下文之間的句法依賴關(guān)系提升模型提取給定方面相關(guān)的情感特征的能力,但并未考慮關(guān)系依賴標(biāo)簽,在進(jìn)行圖注意力融合計(jì)算時(shí)對(duì)給定方面相連的上下文沒(méi)有進(jìn)行區(qū)分,可能導(dǎo)致情感特征分析模糊不清。因此,如何有效地利用這些細(xì)粒度的語(yǔ)法特征進(jìn)行更有針對(duì)性的情感分類(lèi)已成為該領(lǐng)域的研究難點(diǎn)和熱點(diǎn)。
本文提出的關(guān)系圖注意力網(wǎng)絡(luò)分析模型是基于圖注意力網(wǎng)絡(luò)(graph attention network,GAT)學(xué)習(xí)類(lèi)型的依賴標(biāo)簽,將關(guān)系標(biāo)簽與圖注意力機(jī)制相結(jié)合,使用基于關(guān)系標(biāo)簽的圖注意力機(jī)制來(lái)引導(dǎo)特征信息由方面詞的句法語(yǔ)境傳播到方面詞本身。借助這些關(guān)系標(biāo)簽特性,模型可以更好地捕捉單詞之間的關(guān)系,并且標(biāo)簽特性還可以作為附加功能豐富單詞的表示。模型還使用DeBERTa (decoding-enhanced BERT with disentangled attention)預(yù)訓(xùn)練模型進(jìn)行詞嵌入,使用多頭自注意力機(jī)制學(xué)習(xí)方面詞和上下文的語(yǔ)義關(guān)聯(lián)性,故模型是基于DeBERTa的關(guān)系圖注意力網(wǎng)絡(luò)(RGAT)。
1 相關(guān)工作
1.1 傳統(tǒng)深度學(xué)習(xí)方法
方面級(jí)情感分析屬于細(xì)粒度的情感分析子任務(wù),傳統(tǒng)基于機(jī)器學(xué)習(xí)的模型較難滿足方面級(jí)情感分析對(duì)于高效率和高質(zhì)量的要求。近年來(lái)隨著算力不斷提升,深度學(xué)習(xí)方法已成為研究方面級(jí)情感分析的熱點(diǎn)方法。
TANG等使用LSTM來(lái)增強(qiáng)方面詞和上下文之間的聯(lián)系,將方面詞的上下文通過(guò)2個(gè)LSTM分別學(xué)習(xí),拼接對(duì)應(yīng)隱狀態(tài)向量后進(jìn)行分類(lèi)。但該方法在代表方面詞的情緒特征與方面詞距離較遠(yuǎn)的情況下,需要逐字傳遞語(yǔ)義信息,容易丟失特征信息。CHEN等提出基于記憶的循環(huán)注意力網(wǎng)絡(luò),通過(guò)雙向LSTM獲取記憶切片,根據(jù)與方面詞的相對(duì)位置進(jìn)行加權(quán)后,利用多層注意力選擇最優(yōu)的記憶切片,利用相比于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neuralnetwork,RNN)較輕量級(jí)的門(mén)控循環(huán)單元(gatedrecurrent unit,GRU)來(lái)整合非線性結(jié)果。WANG等提出基于注意力機(jī)制的長(zhǎng)短期記憶網(wǎng)絡(luò)模型,將輸入層隱狀態(tài)向量與方面詞向量進(jìn)行融合,通過(guò)注意力機(jī)制獲得對(duì)應(yīng)權(quán)重。此后,在方面級(jí)情感分析研究中大多數(shù)都融入了注意力機(jī)制。TANG等提出采用多個(gè)基于記憶網(wǎng)絡(luò)的多層注意力機(jī)制進(jìn)行計(jì)算,提取更豐富的抽象語(yǔ)義特征。MA等認(rèn)為需要對(duì)方面詞和上下文分別進(jìn)行建模,使用LSTM獲得方面詞和上下文抽象特征表示后,使用交互注意力網(wǎng)絡(luò)分別學(xué)習(xí)方面詞和上下文的注意權(quán)重。FAN等認(rèn)為上述的注意力機(jī)制是粗粒度的,因?yàn)閷?duì)于方面詞和上下文向量的平均池化操作過(guò)于簡(jiǎn)單,從而較易丟失重要語(yǔ)義信息,設(shè)計(jì)了多粒度的注意力機(jī)制,增強(qiáng)方面詞和上下文的聯(lián)系。同時(shí)在目標(biāo)函數(shù)中添加了可以關(guān)注方面詞注意力權(quán)重差異的Loss損失函數(shù)。孫小婉等通過(guò)多頭注意力和自注意力機(jī)制,獲取到更加全面的注意力信息,彌補(bǔ)注意力單一問(wèn)題。LI等認(rèn)為在情感分析任務(wù)中,基于注意力機(jī)制的詞級(jí)特征組合存在缺陷,可能會(huì)引入噪聲,且卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneutral networks,CNN)不能完全提取方面詞語(yǔ)義信息,同時(shí)CNN在一定程度上難以區(qū)分多個(gè)方面詞的情感特征,從而影響分類(lèi)的準(zhǔn)確率。因此提出TNet(target-specific transformation networks),該模型利用多層CPT(context-preserving transformation)和上下文保護(hù)機(jī)制,使用深層網(wǎng)絡(luò)學(xué)習(xí)更抽象的情緒特征,在學(xué)習(xí)過(guò)程中同時(shí)保護(hù)上下文信息。最后通過(guò)上下文和方面詞之間的相關(guān)位置來(lái)縮放卷積層的輸入,從而幫助CNN更精準(zhǔn)地提取情感特征。
1.2 圖神經(jīng)網(wǎng)絡(luò)方法
在方面級(jí)情感分析中,句法依存信息也不容忽視,傳統(tǒng)深度學(xué)習(xí)模型沒(méi)有使用句法約束信息,難以捕捉距離方面詞較遠(yuǎn)的情感特征,導(dǎo)致模型準(zhǔn)確率不高。一些學(xué)者通過(guò)圖神經(jīng)網(wǎng)絡(luò)(graph neuralnetwork,GNN)模型處理句法依存信息,從而有效利用句法依存信息,提高模型性能指標(biāo)。
SUN等認(rèn)為基于句法依存信息建立的圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional networks,GCN)模型可以捕捉到距離方面詞較遠(yuǎn)的情感特征,使單詞之間的依賴關(guān)系能夠在較長(zhǎng)的上下文的信息傳遞過(guò)程中得以保留。注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)內(nèi)在的方面詞和上下文語(yǔ)義的對(duì)齊能力,使其在方面級(jí)情感分析中得到廣泛使用。然而,這不足以捕捉上下文單詞和句子中的方面詞之間的句法依賴關(guān)系,且缺乏一種機(jī)制來(lái)對(duì)相關(guān)句法約束和長(zhǎng)期的字詞依賴進(jìn)行利用,從而導(dǎo)致模型錯(cuò)誤地將與句法無(wú)關(guān)的上下文識(shí)別為分析特定方面詞情感極性的特征詞。卷積神經(jīng)網(wǎng)絡(luò)容易將多個(gè)單詞視為連續(xù)的單詞特征,從而難以識(shí)別多個(gè)不相鄰的單詞所代表的情感特征。為解決上述兩個(gè)問(wèn)題,ZHANG等引用外部句法依賴樹(shù),并在其基礎(chǔ)上利用GCN將句法相關(guān)的單詞更新到方面詞進(jìn)行表示。此外,句法依賴樹(shù)上的GCN將非連續(xù)詞的情感特征匯聚到一個(gè)較近距離內(nèi),并通過(guò)圖卷積操作適當(dāng)?shù)爻橄笏鼈兊奶卣?,因此GCN可處理方面詞的情感特征是由非連續(xù)詞組成的句子。針對(duì)依賴外部解析器結(jié)果不準(zhǔn)確,以及在對(duì)語(yǔ)法依賴關(guān)系不敏感的數(shù)據(jù)集上依賴關(guān)系樹(shù)上的GCN模型效果欠佳等問(wèn)題。11等提出了一個(gè)基于GCN的雙通道模型,該模型可學(xué)習(xí)給定句子中的句法結(jié)構(gòu)和語(yǔ)義相關(guān)性,同時(shí)通過(guò)相互作用模塊集成句法GCN和語(yǔ)義GCN網(wǎng)絡(luò)。HUANG等應(yīng)用GAT對(duì)依賴樹(shù)進(jìn)行建模,在依賴關(guān)系圖中將方面詞和相關(guān)上下文單詞直接連接,并將GAT層與LSTM相融合,使其在遞歸鄰域擴(kuò)展期間顯式地捕獲跨層的方面詞情緒特征。BAI等認(rèn)為上述方法沒(méi)有考慮依賴標(biāo)簽對(duì)于模型的重要程度,提出了通過(guò)GAT學(xué)習(xí)依賴標(biāo)簽以提高模型的分類(lèi)性能。
為彌補(bǔ)上述研究在利用外部句法依賴關(guān)系和應(yīng)對(duì)方面詞非連續(xù)性方面的不足,本文提出一種基于預(yù)訓(xùn)練的RGAT模型,利用圖注意力網(wǎng)絡(luò)學(xué)習(xí)提取的關(guān)系標(biāo)簽和上下文表示,在一定程度上降低上述問(wèn)題對(duì)分類(lèi)結(jié)果的影響。
2 基于DeBERTa的關(guān)系圖注意力網(wǎng)絡(luò)模型
2.1 問(wèn)題定義
給定由,z個(gè)單詞組成的句子,記為S=(w1,w2,…,wi,…,wi+m,…,wn)。P為該句子中包含的長(zhǎng)度為m的方面詞序列,
記為P=(wi,wi+1,…,wi+m-1),且P為S的子序列。方面級(jí)情感分析研究的目的是判別輸入句子S對(duì)方面詞P的情感極性(1、-1、0),其中1、-1和0分別表示積極、消極和中性。
2.2 模型框架
RGAT主要由文本編碼層、多重注意力計(jì)算層、門(mén)控融合層以及情感分類(lèi)層4個(gè)部分組成,模型的總體架構(gòu)見(jiàn)圖2,其中文本編碼層將句法依賴樹(shù)、文方面詞及上下文嵌入到低維實(shí)值向量空間中。多重注意力計(jì)算層包含上下文注意力模塊hcon和關(guān)系圖注意力模塊hgat兩部分,分別提取上下文與方面詞之間交互程度及依賴關(guān)系特征信息。門(mén)控融合層動(dòng)態(tài)融合多重注意力計(jì)算層的輸出。最后將其融合結(jié)果送入情感分類(lèi)層中通過(guò)Softmax函數(shù)生成對(duì)應(yīng)情感極性的概率分布。
2.3文本編碼層
由于計(jì)算機(jī)不能直接處理自然語(yǔ)言文本,因此模型的第一步就是將評(píng)論文本序列轉(zhuǎn)化為詞向量形式?;赥ransformer的預(yù)訓(xùn)練模型DeBERTa,使用解耦注意力機(jī)制和增強(qiáng)掩碼解碼器改進(jìn)BERT和RoBERTa模型,與其他預(yù)訓(xùn)練模型相比預(yù)訓(xùn)練效率更高。
模型采用deberta-v3 -base版本,同時(shí)在模型訓(xùn)練中對(duì)DeBERTa進(jìn)行微調(diào)以獲取更好的初始參數(shù)向量。將評(píng)論文本序列重構(gòu)為“[CLS]+句子+[SEP]+方面詞+[SEP]”作為模型的輸入。通過(guò)DeBERTa預(yù)訓(xùn)練模型生成一個(gè)與重構(gòu)后長(zhǎng)度相同的新序列為
h=(h0,h1,…,hn,hn+1,hn+2,…,h+1+m,hn+2+m),(1)
式中:h1,h2,…,hn為重構(gòu)后單詞序列的輸出上下文表示;hn+1,hn+2,…,hn+1+m,hn+2+m為方面詞的表示詞向量;h0為[CLS]的表示詞向量。
2.4 多重注意力計(jì)算層
(1)上下文注意力模塊
上下文注意力模塊基于自注意力機(jī)制,使用多頭自注意力計(jì)算每個(gè)上下文單詞的注意力分?jǐn)?shù)。對(duì)于自注意力機(jī)制,使用計(jì)算速度更快、效率更高的縮放點(diǎn)積注意力函數(shù)(scaled dot product attention,SDA),其定義為
式(2)、式(3)中,Q、K、V通過(guò)詞嵌入層的輸出表示乘以其各自的權(quán)重矩陣Wq、Wk、Wv獲得。每個(gè)注意力頭學(xué)習(xí)到的注意力表征通過(guò)右乘WMH進(jìn)行連接和轉(zhuǎn)換。模型設(shè)計(jì)中注意力頭數(shù)設(shè)為12。若Hi是每個(gè)注意力頭提取的特征表示,則多頭自注意力的計(jì)算公式為
式中:Pe為真實(shí)的情感分類(lèi)向量;Pe為模型預(yù)測(cè)的情感分類(lèi)向量;c為當(dāng)前預(yù)測(cè)的情感極性;C為情感極性的集合;λ為L(zhǎng)2正則化參數(shù);θ為模型的參數(shù)集合。
3 實(shí)驗(yàn)
3.1 數(shù)據(jù)來(lái)源與實(shí)驗(yàn)平臺(tái)
選取SemEval-2014 Task 4的數(shù)據(jù)來(lái)驗(yàn)證所提模型的分類(lèi)性能,數(shù)據(jù)包含來(lái)自餐廳(Restaurant)和筆記本電腦(Laptop)領(lǐng)域的情感評(píng)論。同時(shí)選取MAMS[22]數(shù)據(jù)集作為消融實(shí)驗(yàn)附加數(shù)據(jù)集。1、-1和0分別表示積極、消極和中性的評(píng)論文本。每條評(píng)論文本包含一個(gè)或多個(gè)方面,每個(gè)方面都有確定的情感極性,兩個(gè)數(shù)據(jù)集的統(tǒng)計(jì)信息見(jiàn)表1。
實(shí)驗(yàn)平臺(tái)環(huán)境見(jiàn)表2,實(shí)驗(yàn)基于Pytorch深度學(xué)習(xí)框架與Deep Biaffine Parser神經(jīng)句法分析器,通過(guò)Python 3.7編程實(shí)現(xiàn)。
3.2 實(shí)驗(yàn)設(shè)置與評(píng)價(jià)指標(biāo)
預(yù)訓(xùn)練模型的相關(guān)參數(shù)設(shè)置如下。Dropout比率為0.1,正則化項(xiàng)為2×10-5,學(xué)習(xí)率為1×10-5,模型采用Adam優(yōu)化器進(jìn)行優(yōu)化。對(duì)于GIoVe進(jìn)行詞嵌入時(shí),詞向量的維度均采用300維。為驗(yàn)證所提出模型的有效性,實(shí)驗(yàn)分別選取3個(gè)固定的隨機(jī)數(shù)種子,考慮到實(shí)驗(yàn)數(shù)據(jù)集的樣本分布,選取3次實(shí)驗(yàn)的準(zhǔn)確率(accuracy,Acc)和綜合評(píng)價(jià)指標(biāo)Marco-F1的平均值作為最終的實(shí)驗(yàn)結(jié)果,后者更適用于分類(lèi)不平衡的數(shù)據(jù)集,以提高實(shí)驗(yàn)過(guò)程的確定性。
3.3 對(duì)比實(shí)驗(yàn)
選用近年文獻(xiàn)中較為高效的方法來(lái)進(jìn)行模型對(duì)比實(shí)驗(yàn),包括基于傳統(tǒng)深度學(xué)習(xí)模型和基于圖神經(jīng)網(wǎng)絡(luò)模型兩類(lèi)基準(zhǔn)模型。
LSTM模型:將輸入句子序列根據(jù)方面詞分為左上下文和右上下文。此外,采用兩個(gè)LSTM網(wǎng)絡(luò)分別對(duì)具有目標(biāo)相關(guān)的左上下文序列和右上下文序列進(jìn)行學(xué)習(xí)。左右目標(biāo)相關(guān)表示都由相應(yīng)的LSTM網(wǎng)絡(luò)處理,并作為一個(gè)整體連接起來(lái),以預(yù)測(cè)目標(biāo)相關(guān)的情緒極性。
記憶遞歸注意力模型(RAM):一種基于記憶網(wǎng)絡(luò)的遞歸注意力機(jī)制,通過(guò)使用Bi-LSTM,即雙向LSTM網(wǎng)絡(luò)表示記憶進(jìn)行改進(jìn)。同時(shí),引入GRU來(lái)學(xué)習(xí)經(jīng)過(guò)多重注意力機(jī)制處理過(guò)的特征表示,使其可以捕獲遠(yuǎn)距離的語(yǔ)義特征。
交互式注意力網(wǎng)絡(luò)模型(IAN):分別通過(guò)兩個(gè)LSTM生成目標(biāo)方面和上下文的表示。使用兩個(gè)注意力網(wǎng)絡(luò)交互式地學(xué)習(xí)方面詞和整個(gè)上下文的重要性表示。交互式注意力機(jī)制帶來(lái)了相當(dāng)大的性能提升。
轉(zhuǎn)換網(wǎng)絡(luò)模型(TNet):利用多層CPT及CNN提取情感特性信息,同時(shí)利用LF(losslessforward)或AS(adaptive scaling)機(jī)制保護(hù)上下文信息,以將上下文信息傳遞到每一層CPT中。
卷積依賴樹(shù)模型(CDT):利用Bi-LSTM來(lái)學(xué)習(xí)上下文特征表示,并使用直接作用于句子依賴樹(shù)的GCN,使其沿著依賴樹(shù)的語(yǔ)法路徑建模依賴關(guān)系,進(jìn)一步增強(qiáng)其嵌入表示。將上下文和依賴信息從情緒觀點(diǎn)詞傳播到方面詞,為判別情緒極性提供區(qū)分性屬性。
特定方面圖卷積網(wǎng)絡(luò)模型(ASGCN):通過(guò)特定的注意力機(jī)制,結(jié)合多層GCN學(xué)習(xí)在句法依存樹(shù)上的與方面詞相關(guān)的句法依存信息,證明利用句法信息和遠(yuǎn)距離單詞依賴的重要性。
目標(biāo)相關(guān)圖注意網(wǎng)絡(luò)模型(TD-GAT):一種基于圖注意力網(wǎng)絡(luò)的方面級(jí)情感分析模型。將句子表示為依賴圖,而不是單詞序列。采用多層圖注意力網(wǎng)絡(luò)將情感特征從重要的語(yǔ)法鄰域詞傳播到方面詞。在其中加入一個(gè)LSTM單元,以在遞歸鄰域擴(kuò)展期間顯式地捕獲跨層的方面詞相關(guān)情感特征。
交互注意力(attention over attention,AOA)神經(jīng)網(wǎng)絡(luò)模型:通過(guò)AOA模塊計(jì)算句子的注意力權(quán)重,包括方面詞對(duì)于上下文和上下文對(duì)于方面詞的注意力權(quán)重,使其可以自動(dòng)關(guān)注句子中對(duì)于方面詞的重要情感特征。
注意力編碼網(wǎng)絡(luò)模型(AEN):一種基于注意力編碼網(wǎng)絡(luò)的方面級(jí)情感分析模型。該模型利用注意力機(jī)制學(xué)習(xí)輸入單詞向量之間的語(yǔ)義表示,經(jīng)過(guò)LSTM網(wǎng)絡(luò)進(jìn)一步提取句子的深層語(yǔ)義表達(dá),同時(shí)引入標(biāo)簽平滑以降低模型過(guò)擬合程度。
3.4 實(shí)驗(yàn)結(jié)果分析
實(shí)驗(yàn)結(jié)果見(jiàn)表3,包括使用全局向量詞嵌入的RGAT-GIoVe和預(yù)訓(xùn)練模型的RGAT-DeBERTa。實(shí)驗(yàn)結(jié)果表明,所提出模型的分類(lèi)準(zhǔn)確率Acc和Marco-FI值較對(duì)比模型更優(yōu)。預(yù)訓(xùn)練模型DeBERTa可以顯著提高各個(gè)模型的性能,使得提出的模型比所有基線都獲得了更好的結(jié)果,在Laptop、Rest14數(shù)據(jù)集上分別達(dá)到最優(yōu)分類(lèi)準(zhǔn)確率82.03%、87.54%。
3.5 消融實(shí)驗(yàn)
為了探究模型中各部分的功能和對(duì)分類(lèi)效果的獨(dú)立影響因素,分別設(shè)計(jì)了RGAT層數(shù)、替換關(guān)系圖注意力層和門(mén)控融合層3組對(duì)照消融實(shí)驗(yàn)。
(1) RGAT層數(shù)
由于關(guān)系圖注意力編碼層包含多層RGAT,每層RGAT又包含多個(gè)圖注意力頭,因此不能忽視這些因素對(duì)模型性能的影響。圖3為L(zhǎng)aptop和Restaurant數(shù)據(jù)集的RGAT層數(shù)與準(zhǔn)確率關(guān)系曲線。在Laptop數(shù)據(jù)集上,初始精度較低,隨深度增加準(zhǔn)確率出現(xiàn)波動(dòng),在第4層和第5層中達(dá)到82.03%的最優(yōu)準(zhǔn)確率。原因是與方面詞相關(guān)的情感特征與其相隔較遠(yuǎn),這意味著需要多層次的節(jié)點(diǎn)通信才能將相關(guān)上下文信息傳遞給方面詞。與Laptop數(shù)據(jù)集相比,在Restaurant數(shù)據(jù)集上,模型通過(guò)1層RGAT就幾乎達(dá)到了5層RGAT堆疊才能獲得的最優(yōu)準(zhǔn)確率,這是由于該數(shù)據(jù)集上與方面詞相關(guān)的情感特征與方面詞相隔距離較近。超過(guò)7層準(zhǔn)確率基本不變,且復(fù)雜度代價(jià)過(guò)大,因此綜合考慮各方面因素,最終將所提出模型RGAT層數(shù)設(shè)為5。
(2)替換關(guān)系圖注意力層
關(guān)系標(biāo)簽及門(mén)控融合實(shí)驗(yàn)結(jié)果見(jiàn)表4。與基于GAT的模型相比,基于RGAT的模型在3個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果評(píng)價(jià)指標(biāo)都更優(yōu),其準(zhǔn)確率分別為82.03%、87.84%、84.28%。實(shí)驗(yàn)結(jié)果表明使用依賴項(xiàng)標(biāo)簽可以顯著改善基線模型的性能,進(jìn)一步證實(shí)了細(xì)粒度關(guān)系信息對(duì)模型的重要作用。
(3)門(mén)控融合層
由表4可以看出,與RGAT-DeBERTa模型相比,不配備門(mén)控融合層的模型RGAT-DeBERTa w/oGate,在3個(gè)數(shù)據(jù)集上的性能指標(biāo)除Laptop數(shù)據(jù)集上Acc有所提升外,其他均有所下降。這表明通過(guò)門(mén)控融合層可以將上下文編碼層和關(guān)系圖注意力編碼層得到的上下文和語(yǔ)法感知的方面詞向量動(dòng)態(tài)融合,在模型訓(xùn)練過(guò)程中,使模型獲取到更適合進(jìn)行分類(lèi)的向量表示,進(jìn)一步提高模型的分類(lèi)性能。
4 結(jié)論
(1)本文提出一種RGAT模型,通過(guò)多重注意力機(jī)制學(xué)習(xí)上下文與方面詞之間交互程度及句法依存信息,同時(shí)使用門(mén)控融合機(jī)制保證模型學(xué)習(xí)更利于分類(lèi)的隱狀態(tài)表示。在公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,RGAT模型能夠有效地提升判別情感極性的性能指標(biāo)。
(2)模型設(shè)計(jì)重點(diǎn)在于英文語(yǔ)境下句法依存樹(shù)的特征構(gòu)造及關(guān)系特征處理上,未來(lái)的工作中將進(jìn)一步擴(kuò)展到中文語(yǔ)境的方面級(jí)情感分析,并利用時(shí)空數(shù)據(jù)等更多的信息進(jìn)一步豐富詞的嵌入表示。
基金項(xiàng)目:遼寧省教育廳高等學(xué)校基本科研項(xiàng)目(LJK20327)