陶林娟,華庚興,李 波
華中師范大學(xué)計(jì)算機(jī)學(xué)院,武漢 430079
在情感分析任務(wù)中,依據(jù)情感評(píng)價(jià)主體的粒度大小不同,可以將其分為篇章級(jí)情感分析、句子級(jí)情感分析以及方面級(jí)情感分析三類[1]。其中,方面級(jí)情感分析是一項(xiàng)評(píng)價(jià)主體粒度最小的情感分析任務(wù),其在自然語言處理(natural language processing,NLP)領(lǐng)域中有著廣泛應(yīng)用[2]。
方面級(jí)情感分析的目的是得到句子中特定方面詞的情感傾向,情感傾向的結(jié)果一般有積極的、消極的以及中立的三種。其中,句子中特定的方面詞指的是某個(gè)主體的某一方面的屬性,比如對(duì)于電腦這個(gè)主體,其屬性可以是價(jià)格、外觀以及性能等。因此在現(xiàn)實(shí)生活中,即使是對(duì)于同一事物,如果從不同的屬性角度進(jìn)行評(píng)價(jià),結(jié)果也可能是截然不同的。例如“Price was higher when purchased on MAC when compared to price showing on PC when I bought this product”。這是一句關(guān)于電腦的評(píng)論,兩個(gè)方面詞分別是“price purchased on MAC”和“price showing on PC”,評(píng)論者對(duì)于“price purchased on MAC”的評(píng)價(jià)是消極的,而對(duì)于“price showing on PC”的評(píng)價(jià)卻是積極的??梢园l(fā)現(xiàn),在句子中存在多個(gè)主體時(shí)或者存在一個(gè)主體的多個(gè)屬性時(shí),包含的情感會(huì)比較復(fù)雜,此時(shí)篇章級(jí)別情感分析和句子級(jí)別情感分析無法確切概括篇章或者句子的情感。而方面級(jí)別的情感分析方法只關(guān)注特定方面詞,更加適用于現(xiàn)實(shí)中的情況,這也是方面級(jí)情感分析逐漸受到關(guān)注的原因[3]。
在方面級(jí)情感分析中,早期的解決方法是使用人工提取到的特征(如人工得到的情感詞典)結(jié)合傳統(tǒng)的機(jī)器學(xué)習(xí)方法來進(jìn)行方面級(jí)情感分類[4-5]。然而上面這種方法不僅會(huì)消大量的人力物力,人工提取特征的質(zhì)量也會(huì)對(duì)方面級(jí)情感分類的效果有很大的影響,造成不確定性,這種方法的缺點(diǎn)比較突出[6]。隨著研究工作的深入,深度學(xué)習(xí)模型因其表征自動(dòng)學(xué)習(xí)的優(yōu)點(diǎn)常被用于方面級(jí)情感分析任務(wù)中,比如經(jīng)常使用循環(huán)神經(jīng)網(wǎng)絡(luò)RNN[7]和標(biāo)準(zhǔn)注意力機(jī)制[8]來學(xué)習(xí)上下文和方面詞的語義特征以及它們之間的關(guān)系,這種方法能夠克服人工提取情感特征的缺陷[9-10]。鑒于深度學(xué)習(xí)方法的優(yōu)點(diǎn),深度學(xué)習(xí)已成為方面級(jí)情感分析中主流的研究方法[11]。
在方面級(jí)情感分析任務(wù)中,對(duì)該任務(wù)進(jìn)行改進(jìn)的關(guān)鍵在于準(zhǔn)確地找到并表征與方面詞相關(guān)的上下文內(nèi)容。針對(duì)此問題,此前提出的許多解決方案多關(guān)注注意力機(jī)制的設(shè)計(jì)與改進(jìn)。與上述工作不同,本文從詞語表征和文本特征提取兩個(gè)方面進(jìn)行改進(jìn),提出了基于位置增強(qiáng)詞向量和GRU-CNN 模型的方面級(jí)情感分析模型(aspect-level sentiment analysis based on locationenhanced word embeddings and GRU-CNN model,LWGC)來實(shí)現(xiàn)句子中的詞語表征以及提取出上下文中與特定方面詞相關(guān)的情感信息,并根據(jù)獲取的相關(guān)信息得到方面級(jí)情感分析的結(jié)果。本文的主要工作及貢獻(xiàn)有:
(1)基于BERT模型和方面詞位置信息得到適用于方面級(jí)情感分析任務(wù)的詞向量表示。將預(yù)訓(xùn)練BERT模型[12]訓(xùn)練得到的詞向量作為輸入表示,使詞向量的表示更加完整豐富;之后加入位置權(quán)重度量公式,該公式以選定的方面詞為中心,方面詞左右兩邊的上下文則隨著遠(yuǎn)離方面詞權(quán)重依次減少;由位置度量公式得到的位置權(quán)重系數(shù)與預(yù)訓(xùn)練得到的詞向量表示對(duì)應(yīng)相乘,得到位置增強(qiáng)的詞向量表示。
(2)提出了適用于方面級(jí)情感分析任務(wù)的GRUCNN模型。GRU-CNN網(wǎng)絡(luò)首先通過GRU提取文本的時(shí)序語義特征,再使用CNN 提取文本的局部語義特征。由于文本是具有時(shí)序特征的數(shù)據(jù),且本文所使用的數(shù)據(jù)集數(shù)量較少,所以這里提出使用參數(shù)較少的門控循環(huán)神經(jīng)網(wǎng)絡(luò)GRU;同時(shí)考慮到和方面詞相關(guān)的情感信息往往位于方面詞的附近,而CNN 適合對(duì)短語進(jìn)行建模,非常適合于方面詞情感特征的提取,因此提出使用CNN進(jìn)行方面詞附近局部信息的提取。本文后續(xù)部分的實(shí)驗(yàn)證明了這種組合提取方式對(duì)于方面級(jí)情感分析任務(wù)的有效性。進(jìn)一步,本文在GRU-CNN網(wǎng)絡(luò)之上聯(lián)合使用注意力機(jī)制,對(duì)GRU-CNN網(wǎng)絡(luò)所提取到的特征進(jìn)行注意力建模,捕捉其中的關(guān)鍵特征信息用于方面級(jí)情感分類任務(wù)中。
情感分析任務(wù)起初是針對(duì)句子級(jí)別的情感分析和篇章級(jí)別的情感分析。在早期,基于深度學(xué)習(xí)的情感分析研究工作多使用循環(huán)神經(jīng)網(wǎng)絡(luò)(如長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM)來獲取整個(gè)句子的向量表征,再通過softmax 層得到情感分類的結(jié)果[13]。
隨著人們對(duì)情感分類的主體進(jìn)一步細(xì)化,出現(xiàn)了更加細(xì)粒度的情感分類——方面級(jí)情感分析。在方面級(jí)情感分析任務(wù)中,每個(gè)句子中也許會(huì)有多個(gè)評(píng)價(jià)主體,同時(shí)每個(gè)主體對(duì)應(yīng)的情感也不盡相同。因此,在實(shí)現(xiàn)方面級(jí)情感分類時(shí),不能再將整個(gè)句子的信息不經(jīng)篩選地都用于獲取方面級(jí)情感分類的類別。對(duì)于方面級(jí)情感分類任務(wù),所設(shè)計(jì)的模型應(yīng)該能夠重點(diǎn)關(guān)注到上下文中和方面詞相關(guān)的詞語。因此近年來許多研究主要集中在注意力機(jī)制的改進(jìn)和設(shè)計(jì)上,以此獲得上下文中和特定方面詞情感有關(guān)的詞語。
Wang 等[3]提出在方面級(jí)情感分析模型中加入注意力機(jī)制,該模型首先在輸入詞向量時(shí)加入方面詞的平均池化表示,同時(shí)使用方面詞平均池化表示對(duì)上下文進(jìn)行注意力建模使得模型能夠重點(diǎn)關(guān)注到與方面詞情感有關(guān)的部分,最后將加權(quán)后的表示向量經(jīng)過softmax 得到分類的結(jié)果。
Ma 等[14]首先提出交互式注意力機(jī)制建模,該模型首先對(duì)上下文和方面詞都單獨(dú)建模,之后通過交互式方式學(xué)習(xí)上下文和方面詞的注意力權(quán)重,得到方面詞和對(duì)應(yīng)上下文新的權(quán)重化表示,從而能夠很好地表示方面詞和其對(duì)應(yīng)上下文,提高情感分類的效果。
上述研究工作確實(shí)取得了不錯(cuò)的效果,但是模型本身仍然著重于從注意力機(jī)制角度進(jìn)行改進(jìn),卻未考慮到從其他方面進(jìn)行改進(jìn)。受到Li 等[15]和Zhang 等[16]的啟發(fā),本文認(rèn)為方面詞與對(duì)應(yīng)上下文之間的相對(duì)位置信息對(duì)于方面級(jí)情感分析來說具有重要價(jià)值。一般來說,與特定方面詞的情感相關(guān)的上下文語句大多集中在該方面詞的附近。因此,本文提出基于方面詞相對(duì)位置的權(quán)重度量公式。位置權(quán)重度量公式以方面詞為基準(zhǔn),而方面詞左右兩邊的詞語距離該方面詞越遠(yuǎn)則賦予其越小的權(quán)重。最后將上下文中每個(gè)詞語的詞向量表示與其位置權(quán)重系數(shù)對(duì)應(yīng)相乘,那么方面詞附近的詞語由于被賦予的權(quán)重較高就會(huì)有更大的影響力,這樣經(jīng)過位置關(guān)系處理的句子詞向量表示就是特定于某個(gè)方面詞的句子表示。本文所提出的位置權(quán)重度量方法可以使模型重點(diǎn)關(guān)注方面詞附近的語句,有利于提高方面級(jí)情感分類的性能。
在詞向量方面,早期的情感分類模型一般使用Word2Vec[17]和GloVe[18]模型得到句子的詞語表征,這兩種編碼方式存在一些局限性,比如無法表達(dá)一詞多義問題。在BERT 模型問世之后,研究者們開始使用BERT進(jìn)行詞語編碼[19],由于BERT模型優(yōu)秀的詞語表達(dá)能力,其在多達(dá)11項(xiàng)NLP任務(wù)中都刷新了最好成績(jī)。完整的BERT預(yù)訓(xùn)練模型規(guī)模較大、參數(shù)眾多,從頭訓(xùn)練十分耗費(fèi)時(shí)間和資源,因此大多數(shù)情況下通過參數(shù)微調(diào)方式將BERT模型應(yīng)用于具體的下游任務(wù)。
受上述啟發(fā),本文提出使用BERT模型結(jié)合位置權(quán)重度量公式來得到位置增強(qiáng)的詞向量表示,接著使用GRU-CNN 網(wǎng)絡(luò)來提取文本的語義表征以最終實(shí)現(xiàn)方面級(jí)的情感分析。
本文所提出的模型主要由幾個(gè)神經(jīng)網(wǎng)絡(luò)層構(gòu)成,包括詞語表示層、文本特征提取層、注意力層以及一個(gè)情感分類層。如圖1 所示是本文所提出LWGC 模型的總體結(jié)構(gòu)。在詞語表示層部分,本模型首先通過預(yù)訓(xùn)練BERT 模型獲取基礎(chǔ)的詞向量表示,再將本文所提出的位置權(quán)重度量公式與基礎(chǔ)詞向量進(jìn)行結(jié)合,得到位置增強(qiáng)詞向量的表示;在文本特征提取層部分,本模型設(shè)計(jì)了一種GRU-CNN網(wǎng)絡(luò)來聯(lián)合提取文本特征,首先使用GRU 網(wǎng)絡(luò)來提取序列數(shù)據(jù)中的特征,在GRU 網(wǎng)絡(luò)之上接著使用CNN網(wǎng)絡(luò)來提取文本的局部特征。之后根據(jù)方面詞對(duì)上下文進(jìn)行注意力建模,最后將在注意力層所得的結(jié)果通過softmax 函數(shù)進(jìn)行方面級(jí)情感分類,得到情感分類的結(jié)果。
圖1 LWGC模型的總體結(jié)構(gòu)示意圖Fig.1 Overall structure diagram of LWGC model
在詞語表示層部分,利用BERT預(yù)訓(xùn)練網(wǎng)絡(luò)獲得句子詞向量表征,所得到的詞向量表征與位置度量公式相結(jié)合得到位置增強(qiáng)詞向量表示。
輸入部分由兩部分組成:一個(gè)上下文序列wc={w1,w2,…,wn}和一個(gè)方面詞序列was={wr+1,wr+2,…,wr+m}(0 ≤r≤n-m)。方面詞序列是上下文序列的子序列,wi(1 ≤i≤n)表示組成句子的單詞。
對(duì)于上述輸入文本序列,首先要做的是將其轉(zhuǎn)化為計(jì)算機(jī)可以理解的形式。與之前提出的大多數(shù)方面級(jí)情感分析模型不同,LWGC模型使用BERT語言模型來獲取輸入句子的詞語表征,由于BERT模型具備在通用大規(guī)模文本數(shù)據(jù)集上學(xué)得的語義知識(shí),引入BERT模型可以得到更加準(zhǔn)確的詞向量表示。此外,本文在對(duì)應(yīng)方面詞的位置再拼接方面詞的詞向量表示,其余位置使用零填充,這樣能夠標(biāo)示出方面詞的位置。故本文稱拼接的向量為方面詞指示向量,方面詞指示向量就是用來區(qū)分上下文和方面詞的。因此LWGC 模型中的輸入詞向量表示如下:
其中,上下文序列wc經(jīng)過BERT 模型編碼后得到詞嵌入向量Bc,方面詞序列was經(jīng)過BERT模型編碼后的方面詞指示向量是Bas。
根據(jù)方面級(jí)情感分類的特點(diǎn),與其情感態(tài)度相關(guān)的詞語大多出現(xiàn)在方面詞的附近。例如“The food did take a few extra minutes to come,but the cute waiters’jokes and friendliness made up for it”,句中與方面詞“food”有關(guān)的語句“take a few extra minutes”都在其附近的位置。為了使得模型能夠重點(diǎn)考慮方面詞附近的部分,本文在這里添加一個(gè)位置函數(shù),使得隨著上下文遠(yuǎn)離方面詞賦予其越來越小的權(quán)重。位置權(quán)重公式如下所示:
其中,句子長(zhǎng)度為n,方面詞長(zhǎng)度為m,下標(biāo)從1 開始,s和e分別表示句子中方面詞開始和結(jié)束的位置。t為超參數(shù),t越大會(huì)使得方面詞附近的語句有更大的影響。那么,位置增強(qiáng)的詞向量yi(1 ≤i≤n)可表示為:
其中,pi是由位置度量公式得來的,xi是輸入句子表征x中第i個(gè)詞的表示向量。
本節(jié)將經(jīng)過位置增強(qiáng)后的句子表示向量y={y1,y2,…,yn}作為文本特征提取層的輸入,分別通過門控循環(huán)單元(GRU)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取文本語義特征。
根據(jù)本文所使用的數(shù)據(jù)集規(guī)模較小的特點(diǎn),在這里使用結(jié)構(gòu)相對(duì)簡(jiǎn)單的GRU網(wǎng)絡(luò)來獲取文本向量的序列語義信息。輸入表示中已經(jīng)包含了方面詞的信息,所以這里通過GRU 網(wǎng)絡(luò)得到特定方面詞的上下文語義表示。其結(jié)果如下所示:
式中,gru表示GRU 網(wǎng)絡(luò),hi-1和hi代表連續(xù)時(shí)刻的兩個(gè)隱狀態(tài)向量,z(z∈Rd×n)是GRU網(wǎng)絡(luò)得到的結(jié)果,d和n分別是詞向量的嵌入維度和句子長(zhǎng)度。
本文通過GRU 網(wǎng)絡(luò)得到句子的時(shí)序信息,接著使用卷積神經(jīng)網(wǎng)絡(luò)提取局部上下文信息,兩者互為補(bǔ)充。
與CNN 用于圖像處理操作不同的是,為了利用每個(gè)單詞的完整含義,對(duì)文本進(jìn)行卷積操作一般使用一維卷積,使用卷積核在句子所構(gòu)成的二維矩陣的整行上滑動(dòng),可以得到在滑動(dòng)窗口內(nèi)提取的句子局部特征。本文中CNN 對(duì)文本處理的過程如圖2 所示,假設(shè)輸入CNN中的文本序列的表示為z=[z1,z2,…,zn],u∈Rd×k表示卷積核矩陣,卷積核矩陣是可學(xué)習(xí)的參數(shù)矩陣,其中k(k<n)是卷積核窗口大小,d是BERT詞嵌入的維度大小,卷積網(wǎng)絡(luò)層利用卷積核與每個(gè)長(zhǎng)度為k的子序列分別進(jìn)行卷積,從而得到文本序列的局部特征。為了保持文本矩陣的維度不變,本文使用零填充的寬卷積方式,一般來說寬卷積就是在輸入矩陣高和寬的兩側(cè)填充零元素,一維卷積為了保留完整的詞語信息,詞向量維度不需填充,這里只需使用零填充增加句子長(zhǎng)度這一維度。每次卷積操作的公式表示如下所示:
圖2 CNN對(duì)文本的處理過程Fig.2 Processing process of CNN
其中,f是激活函數(shù),zi:i+k-1表示對(duì)應(yīng)的文本句子中第i個(gè)詞到第i+k-1 個(gè)詞所構(gòu)成的局部文本特征矩陣,“·”運(yùn)算代表內(nèi)積操作。對(duì)整個(gè)句子序列進(jìn)行卷積操作得到特征映射Ci=[c1,c2,…,cn]T,Ci∈Rn。
使用注意力機(jī)制能夠計(jì)算出每個(gè)輸入對(duì)于特定方面詞的注意力權(quán)值,本文使用注意力機(jī)制可以使模型重點(diǎn)關(guān)注到和方面詞相關(guān)的上下文語句。
在自然語言處理領(lǐng)域中,關(guān)于注意力機(jī)制的運(yùn)算原理如圖3 所示:把源句子當(dāng)做是由許多的
圖3 注意力機(jī)制Fig.3 Attention mechanism
本文把輸入句子和方面詞指示向量拼接為源句子,得到
其中,W1∈Rd×d和w∈Rd是可學(xué)習(xí)的參數(shù),S∈Rd。
最后,上文得到的句子表示再通過情感分類器獲得方面級(jí)情感的分類結(jié)果:
其中,W2∈R3×d和b是情感分類層可學(xué)習(xí)的參數(shù)。同時(shí),本文通過交叉熵?fù)p失函數(shù)來學(xué)習(xí)模型參數(shù)。
數(shù)據(jù)集。為了對(duì)模型的有效性進(jìn)行驗(yàn)證,本文使用2014 年國(guó)際語義評(píng)測(cè)大會(huì)(SemEval)中的Task4 數(shù)據(jù)集[20],該數(shù)據(jù)集包含Restaurant 和Laptop 兩類領(lǐng)域的評(píng)論數(shù)據(jù),是方面級(jí)情感分析中很常用的數(shù)據(jù)集,該數(shù)據(jù)集在相關(guān)的研究中得到了廣泛應(yīng)用。這些數(shù)據(jù)集包含積極的(positive)、消極的(negative)以及中性的(neutral)三類情感傾向。這兩個(gè)數(shù)據(jù)集中的數(shù)據(jù)分布情況如表1所示。
表1 數(shù)據(jù)集的統(tǒng)計(jì)特征Table 1 Statistical characteristics of datasets
需要注意的是,盡管某一句子中可能會(huì)有多個(gè)方面詞,但本文所用數(shù)據(jù)集中每一個(gè)句子用特殊符號(hào)$T$標(biāo)注了其中一個(gè)方面詞。因此,在使用該數(shù)據(jù)集時(shí)可以直接確定每次需要考慮的情感主體,不必考慮其他的方面詞。
實(shí)驗(yàn)參數(shù)設(shè)置。在訓(xùn)練過程中使用Adam 算法來優(yōu)化模型,學(xué)習(xí)率設(shè)置為2E-5。模型其他參數(shù)設(shè)置為BERT詞向量嵌入維度是768、隱藏層維度是768、dropout設(shè)為0.1、批處理大小設(shè)置為16、權(quán)重衰減率為0.01。位置度量函數(shù)中的超參數(shù)t從{1,2,2.5,3}中選擇。
評(píng)價(jià)指標(biāo)。使用分類的準(zhǔn)確率Acc以及F1-score作為本文模型的評(píng)價(jià)指標(biāo)。
準(zhǔn)確率Acc是指預(yù)測(cè)為正確的數(shù)量占總數(shù)的比重,公式如下:
在上式中,TP 代表本身是正例且也被判定為正例,TN代表本身是負(fù)例并且也被判定為負(fù)例;FP 代表實(shí)際為負(fù)例但被判定為正例;FN 表示本身為正例但被判定為負(fù)例。
而F1-score則是精確率(precision)和召回率(recall)的調(diào)和平均,F(xiàn)1-score 的數(shù)值越大說明模型質(zhì)量越高。精確率是指正確地預(yù)測(cè)為正的樣本占全部預(yù)測(cè)為正樣本的比例,召回率是指正確地預(yù)測(cè)為正的樣本占全部實(shí)際為正樣本的比例。指標(biāo)F1-score的計(jì)算公式如下:
本文使用以下基準(zhǔn)模型作為對(duì)比來評(píng)估所提出模型的效果,這些基線模型是:
TD-LSTM[7]:該模型中包含左右兩個(gè)LSTM,把方面詞及其前面的部分作為左LSTML 的輸入,逆序把方面詞及其后面的部分作為右LSTMR 的輸入,再將兩個(gè)網(wǎng)絡(luò)的最后一個(gè)隱藏向量串接起來,最后通過softmax分類器分類。
TC-LSTM[7]:與TD-LSTM 模型僅有的不同是在輸入詞向量后面拼接方面詞的平均池化向量。
ATAE-LSTM[3]:LSTM的輸入部分是由句子中每個(gè)詞語表征與方面詞的平均池化向量拼接,通過LSTM得到的句子語義表示再次和方面詞平均池化向量拼接,最后通過注意力機(jī)制、softmax 分類器得到情感分類的結(jié)果。
IAN[14]:分別根據(jù)方面詞和上下文的平均池化表示對(duì)上下文和方面詞進(jìn)行交互注意力建模,再將以上兩個(gè)通過注意力機(jī)制的結(jié)果進(jìn)行拼接以獲取方面級(jí)情感分類的結(jié)果。
HAG[1]:通過上下文對(duì)方面詞建模獲取方面詞新的表示,再使用新的方面詞表示反過來對(duì)上下文建模,得到新的上下文表示;模型還加入門機(jī)制以在上下文中選擇出對(duì)于方面詞情感分類有用的信息。
ASGCN-AOADG[21]:通過LSTM對(duì)上下文進(jìn)行建模,使用圖卷積神經(jīng)網(wǎng)絡(luò)引入句法信息,最后通過注意-過度注意(AOA)機(jī)制,自動(dòng)關(guān)注與方面詞相關(guān)的句子部分。
MCRF-SA[22]:在輸入部分拼接方面詞指示向量,添加位置衰減函數(shù)使模型重點(diǎn)關(guān)注方面詞附近的上下文,接著使用結(jié)構(gòu)化的多條件隨機(jī)場(chǎng)注意力來捕獲與特定方面詞有關(guān)的上下文。
AEN-BERT[23]:模型引入BERT結(jié)構(gòu),同時(shí)采用基于注意力的編碼器對(duì)上下文和方面詞進(jìn)行建模。
IAGCN-BERT[24]:模型利用BiLSTM 和修正動(dòng)態(tài)權(quán)重層對(duì)文本建模,使用圖卷積網(wǎng)絡(luò)對(duì)句法信息加以編碼,最后利用交互注意力重構(gòu)上下文和方面術(shù)語的表示。
在實(shí)驗(yàn)結(jié)果表2中,將以上提到的模型作為基線模型。依據(jù)本領(lǐng)域中已有文獻(xiàn)的一般做法,各個(gè)基線模型的實(shí)驗(yàn)結(jié)果均直接來自對(duì)應(yīng)論文中給出的最優(yōu)實(shí)驗(yàn)結(jié)果。
表2 實(shí)驗(yàn)結(jié)果Table 2 Experimental results單位:%
如表2 所示是上述基線模型與本文LWGC 模型的對(duì)比實(shí)驗(yàn)結(jié)果。
對(duì)表2 的實(shí)驗(yàn)結(jié)果進(jìn)行分析,盡管TD-LSTM 模型在提取語義特征時(shí)考慮了方面詞信息,但是沒有使用注意力機(jī)制,模型不能重點(diǎn)關(guān)注到和方面詞相關(guān)的上下文信息,可以看出TD-LSTM模型的效果相對(duì)來說較差。
ATAE-LSTM 模型中加入了單層注意力,通過方面詞對(duì)句子上下文進(jìn)行注意力建模,相比TD-LSTM 有了一定的提升。IAN模型接著對(duì)注意力機(jī)制進(jìn)行改進(jìn),提出交互注意力機(jī)制,進(jìn)一步提高了方面級(jí)情感分類準(zhǔn)確率。
不同于IAN將兩個(gè)注意力機(jī)制分開建模,HAG模型提出的是層次注意力機(jī)制,層次注意力機(jī)制使得上下文和方面詞的表示更加準(zhǔn)確,也加深了上下文和方面詞之間的聯(lián)系,因此效果上比ATAE-LSTM模型要好很多。
MCRF-SA模型提出在結(jié)構(gòu)化注意力模型中加入多條件隨機(jī)場(chǎng),同時(shí)考慮到方面級(jí)情感分析的特點(diǎn)加入了位置衰減函數(shù),模型效果相比之前也得到了較好的提升。
本文提出的LWGC模型在詞語表征部分使用BERT模型和位置權(quán)重度量公式得到位置增強(qiáng)詞向量;然后在文本特征提取方面通過GRU-CNN 網(wǎng)絡(luò)得到句子的語義表示。在SemEval2014 Task4 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,LWGC 取得了良好的實(shí)驗(yàn)效果。LWGC 模型比MCRF-SA 模型在Restaurant 數(shù)據(jù)集上準(zhǔn)確率提高了2.68 個(gè)百分點(diǎn),F(xiàn)1 值提高了5.16 個(gè)百分點(diǎn);在Laptop 數(shù)據(jù)集上LWGC模型比MCRF-SA模型準(zhǔn)確率提高了2.71個(gè)百分點(diǎn),F(xiàn)1值提高了2.28個(gè)百分點(diǎn)。可以看出,本文提出的模型在兩個(gè)公開數(shù)據(jù)集上的效果均要明顯高出之前的模型。
本部分包含LWGC模型的一些變體,以驗(yàn)證LWGC模型組成部分的有效性。LWGC是本文提出的模型,表3是針對(duì)LWGC模型的消融實(shí)驗(yàn)結(jié)果。
表3 消融實(shí)驗(yàn)結(jié)果Table 3 Ablation experimental results 單位:%
GRU-CNN與GRU-CNN-A模型均使用GRU和CNN提取文本特征,區(qū)別在于模型輸入時(shí)GRU-CNN拼接方面詞的平均池化向量,GRU-CNN-A拼接的是方面詞指示向量,這種拼接方式會(huì)隱含方面詞的位置信息。GRUCNN、GRU-CNN-A這兩個(gè)模型和LWGC模型最大的區(qū)別在于沒有使用BERT預(yù)訓(xùn)練詞向量以及位置函數(shù)。
BERT-CNN-G 模型是把LWGC 模型中的CNN 和GRU 互換位置,先通過CNN 提取局部特征,然后使用GRU網(wǎng)絡(luò)提取文本序列信息。LWGC-A模型是在LWGC的基礎(chǔ)之上在輸入時(shí)拼接了方面詞指示向量。
如表3展示了在Restaurant和Laptop兩個(gè)公開數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果。
從表3 可以看出,GRU-CNN-A 比GRU-CNN 模型在Restaurant 數(shù)據(jù)集上的準(zhǔn)確率提高了1.25 個(gè)百分點(diǎn),F(xiàn)1 值提高了1.63 個(gè)百分點(diǎn);在Laptop 數(shù)據(jù)集上準(zhǔn)確率提高了2.6個(gè)百分點(diǎn),F(xiàn)1值提高了5.37個(gè)百分點(diǎn)。這說明了在方面級(jí)情感分析中使模型能夠準(zhǔn)確區(qū)分方面詞和上下文位置的重要性。
GRU-CNN、GRU-CNN-A 這兩個(gè)模型與LWGC 模型最大的區(qū)別在于LWGC 模型使用了BERT 語言模型作為詞向量的編碼方式,這一改變使得模型的效果有了顯著提升,也說明了準(zhǔn)確豐富的詞向量編碼方式對(duì)于方面級(jí)情感分析的作用十分重大。
通過表3還可以發(fā)現(xiàn),在Restaurant數(shù)據(jù)集上BERTCNN-G 模型比LWGC 模型效果略好,但是在Laptop 數(shù)據(jù)集上LWGC模型的效果要明顯好于BERT-CNN-G模型,準(zhǔn)確率提高了1.1 個(gè)百分點(diǎn),F(xiàn)1 值提高了1.12 個(gè)百分點(diǎn),說明在Laptop數(shù)據(jù)集上依次使用GRU、CNN網(wǎng)絡(luò)的特征提取方式更合適。
從模型的效果上來看,LWGC-A模型并沒有LWGC模型那么好,也許是因?yàn)長(zhǎng)WGC模型中已經(jīng)加入了位置度量函數(shù)。即使在LWGC 模型的基礎(chǔ)上拼接方面詞指示向量得到LWGC-A,由于這兩個(gè)模塊中都包含有位置信息,作用類似,所以即使重復(fù)利用位置信息也不會(huì)有太大的效果變化。
為了更清晰地看到注意力機(jī)制在本模型中的作用,本章節(jié)將上下文關(guān)于特定方面詞的注意力權(quán)重進(jìn)行可視化。如圖4 所示,是例句“It is super fast and has outstanding graphics.”中每個(gè)單詞對(duì)于方面詞“graphics”的注意力權(quán)重可視化的圖,其中區(qū)域塊內(nèi)顏色越深表示注意力權(quán)值越大,可以獲得模型更高的關(guān)注。
圖4 上下文注意力可視化Fig.4 Visualization of contextual attention
從圖4中可以看出,對(duì)于方面詞“graphics”影響最大的是描述詞“outstanding”,同時(shí)“has”以及“graphics”這兩個(gè)和方面詞關(guān)系次之的單詞也受到了一定的關(guān)注,而對(duì)于其他不太相關(guān)的單詞則關(guān)注較少或者直接忽略。這說明了本文模型中的注意力機(jī)制可以正確地關(guān)注到和某方面詞相關(guān)的情感信息,證明了注意力機(jī)制對(duì)于方面級(jí)情感分析任務(wù)的有效性。
本文提出了基于位置增強(qiáng)詞向量和GRU-CNN 模型的方面級(jí)情感分析方法。該模型使用BERT 模型得到輸入句子的詞向量表示,然后結(jié)合位置權(quán)重度量公式分配位置權(quán)重得到位置增強(qiáng)的詞向量表示,使得模型充分考慮方面詞附近的語句;之后再將得到的位置增強(qiáng)詞向量通過GRU-CNN網(wǎng)絡(luò)得到句子的語義表示,最后使用注意力機(jī)制對(duì)上下文建模,使模型更加關(guān)注與方面詞情感極性有關(guān)的語句,根據(jù)這些語句進(jìn)行方面級(jí)別的情感預(yù)測(cè)。最終的實(shí)驗(yàn)結(jié)果證明了本文提出的LWGC 模型的有效性。
目前,用于方面級(jí)情感分析的數(shù)據(jù)集規(guī)模普遍偏小,下一步計(jì)劃擴(kuò)充一部分相關(guān)領(lǐng)域的方面級(jí)情感分類數(shù)據(jù)集,然后建立特定領(lǐng)域的情感詞向量表示,將其應(yīng)用于后續(xù)的情感分類任務(wù)中。