許宋爍,張梓光,張小芳,周 敏
(廣東工業(yè)大學 自動化學院,廣東 廣州 510006)
作為自然語言處理領域的重要內(nèi)容之一,情感分析旨在識別和提取文本的主觀信息,然后把文本情感極性分類為積極、消極或中性[1]。然而,當一個句子中包含多個方面時,普通的情感分析會遇到情感極性模糊的困難,基于方面情感分析(Aspect-Based Sentiment Analysis,ABSA)則克服了上述局限性。
目前,學術界已經(jīng)提出很多方法用來處理基于方面情感分析。早期基于特征的機器學習方法[2]大獲成功,近年來,基于深度學習的方法在情感分析領域取得了更好的成績[3]。最近兩年,采用預訓練形式的模型[4-5]將自然語言處理推向了新的高度,特別是BERT在多項自然語言處理任務上取得了優(yōu)異的成績,但上述模型在基于方面情感分析上對方面的注意力并不足。
針對上述問題,本研究提出一種基于BERT和方面信息注意力的編碼解碼模型。該模型采用句子與方面信息融合輸入,通過BERT進行編碼后,再次采用方面信息進行解碼,增強了模型對方面信息的注意力。
BERT-AAtt模型由輸入部分、BERT部分、方面注意力部分和輸出部分4個部分構(gòu)成,具體如圖1所示。
圖1 基于BERT和方面注意力的方面情感分析模型
將句子與方面信息合并為句子對,分割為token序列,輸入模型。BERT接收token序列后,利用其從大量數(shù)據(jù)集中訓練得到的豐富語義信息,從token序列中提取對應方面的語義特征。
方面注意力部分的輸入采用了BERT的“sequence output”,即整個token序列對應編碼后的輸出序列。
本模型的方面注意力部分共有6層,每層結(jié)構(gòu)相同,均采用了與Transformer解碼器類似的結(jié)構(gòu)。
多頭注意力部分的輸出可表示為:
vl,i=softmax(el,aiHT)·H#
(1)
vl,i將經(jīng)過一個殘差連接和層歸一化,計算過程如下:
(2)
再經(jīng)過一個全連接前饋網(wǎng)絡,可獲得特定方面的文本表示,即:
(3)
同樣經(jīng)過一個殘差連接和層歸一化后,可得到當前層的最終輸出:
(4)
(5)
(6)
(7)
本實驗對來自SemEval-2014任務4、SemEval-2015任務12和SemEval-2016任務5中的Restaurants領域數(shù)據(jù)集進行整理、合并后作為本實驗的數(shù)據(jù)集。
在Restaurant-Merge數(shù)據(jù)集上分別進行了三分類實驗后,各模型的查準率、查全率和F1值如表1所示。
表1 不同模型在數(shù)據(jù)集上的三分類結(jié)果
在積極情感方面,各個模型都能良好地識別,這是因為積極情感的樣本在數(shù)據(jù)集中占比最大,且情感傾向較為明顯。在消極情感與中性情感方面,BERT-AAtt模型勝過了其他模型,分別比BERT提升了1.41%和7.65%,相比于更新的模型BERT-pair-QA-B,也有了0.97%和4.82%的提升。這說明BERT-AAtt模型在樣本量較少以及方面情感極性比較模糊的場景下對方面的注意力更充分,有更好的方面情感分析能力,驗證了本研究所提方法的有效性。