方面級情感分析(Aspect-Based Sentiment Analysis,ABSA)屬于情感分析中的細(xì)粒度任務(wù),目的在于預(yù)測評論中某個(gè)具體方面的情感極性[1].互聯(lián)網(wǎng)的高速發(fā)展大大提升了輿論的產(chǎn)生和傳播速度,評論中所包含的情感指向性和應(yīng)用價(jià)值也成為關(guān)注的熱點(diǎn)[2].在常見的評論句中,存在著不少沒有明確情感詞的評論,卻依舊可以清晰地表達(dá)情感.為了與帶有明顯情感傾向詞的方面級顯式情感區(qū)別開,將此類文本命名為方面級隱式情感.例如"Having USB3 is why I bought this Mini."句中方面詞"USB3"并沒有對應(yīng)的情感詞,但仍可以清楚地感受到對該方面的積極情感.如今互聯(lián)網(wǎng)中存在大量類似的委婉評論,而開展方面級隱式情感分析研究可以有效提升對這些評論的理解,從中獲得的數(shù)據(jù)可用于輿論分析、商品價(jià)格預(yù)測、民眾心理分析等.
相比于顯式情感,隱式情感的研究主要有以下兩個(gè)難點(diǎn):一是缺乏情感詞導(dǎo)致情感語義特征不易識別;二是隱式情感與上下文中的主觀表達(dá)聯(lián)系更加緊密,導(dǎo)致對語義的理解難度加大.早期隱式情感分析的研究主要基于構(gòu)建隱式情感數(shù)據(jù)集或者構(gòu)建隱式情感詞典.Russo等[3]提出在研究的語料中存在著隱含的情感極性,并提供了隱式情感數(shù)據(jù)集.Choi等[4]通過構(gòu)造相應(yīng)的EffectWordNet情感詞典,檢測到語料中的隱式情感.然而情感詞典存在著更新代價(jià)大、效率不高等缺點(diǎn),因此已經(jīng)逐漸被更加高效的神經(jīng)網(wǎng)絡(luò)模型所取代.
為了方便提取句子中的語義信息,目前隱式情感研究通常會對輸入句進(jìn)行詞向量化處理.詞向量模型主要分為靜態(tài)和動態(tài)兩種.靜態(tài)詞向量模型的主要功能是為每個(gè)詞提供固定的詞向量,如Word2Vec[5]和Glove[6]模型,但它們不適用于一詞多義的文本,因此出現(xiàn)了動態(tài)詞向量模型.動態(tài)詞向量模型能夠依據(jù)同一個(gè)詞在不同語境中與其他詞之間的聯(lián)系而建模,并生成對應(yīng)的詞向量,如ELMo[7]模型.近年出現(xiàn)的預(yù)訓(xùn)練模型如BERT(Bidirectional Encoder Representations from Transformers)[8]也屬于動態(tài)詞向量模型,Li等[9]利用BERT預(yù)訓(xùn)練模型和外部語料庫知識來增強(qiáng)模型識別情感語義特征的能力,將方面級文本中的顯式與隱式情感標(biāo)簽相匹配,有效地捕獲了上下文中的隱含情感知識,得到了更好的方面級隱式情感分類結(jié)果.但是該模型需要額外添加方面詞遮掩任務(wù)才能感知方面詞信息,這導(dǎo)致其在使用BERT進(jìn)行預(yù)訓(xùn)練的過程中可能會丟失與方面詞相關(guān)的上下文信息,并且在后續(xù)的編碼過程中很難彌補(bǔ)這種損失.
上下文感知模型與注意力(Attention)機(jī)制相結(jié)合的方法也在隱式情感分析中取得了不錯(cuò)的效果,其主要原理是先對句子中的上下文信息進(jìn)行建模,再依據(jù)不同信息的權(quán)重去度量它們的重要程度.Klinger等[10]提出一個(gè)共享任務(wù),對一個(gè)自動標(biāo)記的Twitter數(shù)據(jù)集,要求系統(tǒng)在不需要捕獲情感詞特征的情況下能夠識別其中的情感極性,參賽的前三名都采用BiLSTM與注意力機(jī)制相融合的模型,而他們的區(qū)別在于:Balazs等[11]采用基于深層的語境化(ELMo)表示編碼詞語信息;Chronopoulou等[12]使用預(yù)訓(xùn)練模型的權(quán)重來初始化網(wǎng)絡(luò)的特定層;Rozental等[13]在大規(guī)模文本的基礎(chǔ)上訓(xùn)練語言模型并獲取詞向量作為輸入.此外在方面級顯式情感分析中,楊春霞等[14]融合深度雙向門控循環(huán)單元(Deep Bi-directional Gated Recurrent Unit,DBGRU)與注意力機(jī)制進(jìn)行情感分類任務(wù),通過實(shí)驗(yàn)說明DBGRU能更加高效地提取深層語義特征.受其啟發(fā),本文嘗試將DBGRU與注意力機(jī)制相融合,用于提取方面級隱式情感中的深層特征.然而一般注意力機(jī)制存在無法有效利用深層特征中語境信息的缺點(diǎn),導(dǎo)致其不能準(zhǔn)確提取與方面詞相關(guān)的深層情感特征.
本文提出一種融合深度雙向門控循環(huán)單元及語境感知注意力機(jī)制的方面詞感知BERT(Deep Bi-directional Gated Recurrent Unit Context-Aware Attention Aspect-Aware BERT,DCAB)模型,主要貢獻(xiàn)如下:
1)本文改進(jìn)了基礎(chǔ)BERT的輸入嵌入部分,構(gòu)造了方面詞感知BERT(Aspect-Aware BERT,AABERT),對句子中方面級隱式情感語料進(jìn)行了預(yù)訓(xùn)練編碼.AABERT將方面詞作為輸入句的相鄰句進(jìn)行預(yù)測,通過下一句預(yù)測任務(wù),能夠在預(yù)訓(xùn)練過程中有效捕獲與方面詞相關(guān)的上下文信息,最終獲得與方面詞相關(guān)的動態(tài)詞向量表示.
2)本文構(gòu)造了一種語境感知注意力(Context-Aware Attention,CAT)機(jī)制,用于關(guān)注深層情感特征中與方面詞相關(guān)的重要信息.對于由DBGRU編碼器得到的深層特征向量,CAT機(jī)制在一般注意力機(jī)制的權(quán)重參數(shù)中引入了深層語境信息,并添加了一個(gè)學(xué)習(xí)參數(shù)來明確每一個(gè)隱藏特征向量和深層語境信息對注意力權(quán)重大小的影響,有效地捕捉了深度上下文中與方面詞相關(guān)的語義信息和句法信息.
本文提出的DCAB模型的結(jié)構(gòu)框架如圖 1所示,主要組成部分如下:
1)詞嵌入層:將輸入文本通過AABERT模型進(jìn)行預(yù)訓(xùn)練,生成與方面詞相關(guān)的動態(tài)詞向量.
2)DBGRU詞向量編碼層:將AABERT詞向量輸入到DBGRU編碼器中,提取包含上下文信息的深層特征向量,其中高層的隱藏特征包含上下文中的語義信息,低層的隱藏特征包含上下文中的句法信息.
3)CAT機(jī)制層:將DBGRU編碼器輸出的深層特征向量作為輸入,使用CAT機(jī)制更加準(zhǔn)確地關(guān)注上下文中與方面詞相關(guān)的隱藏特征信息.
4)輸出層:對CAT機(jī)制層輸出的特征向量使用Softmax分類器進(jìn)行不同情感類別概率的計(jì)算.
BERT模型主要由輸入嵌入、雙向Transformer編碼器[15]和無監(jiān)督任務(wù)三部分構(gòu)成,其主要原理是通過額外添加的輸出層結(jié)合語境進(jìn)行語義微調(diào),能夠聯(lián)合所有層級中的上下文單詞訓(xùn)練雙向語義表示[16].其中:輸入嵌入負(fù)責(zé)對輸入句子進(jìn)行標(biāo)記處理;Transformer編碼器是BERT的核心部分,由輸入、自注意力和前饋神經(jīng)網(wǎng)絡(luò)組成,負(fù)責(zé)捕捉上下文中各個(gè)詞之間的特征信息;無監(jiān)督任務(wù)負(fù)責(zé)對Transformer編碼器輸出的隱藏向量進(jìn)行預(yù)訓(xùn)練.而自注意力部分是Transformer中最重要的模塊,它能夠?qū)⑽谋局械拿總€(gè)輸入單詞依次與其他單詞進(jìn)行建模,從而直接捕獲隱藏層狀態(tài)之間的依賴關(guān)系[17].隨后將得到的隱藏向量再傳遞到前饋神經(jīng)網(wǎng)絡(luò)部分,進(jìn)行求和、歸一化與前向反饋等流程后,最終得到輸出詞向量.
方面級隱式情感分析任務(wù)的目的是預(yù)測句子中給定方面所表達(dá)的情感,然而傳統(tǒng)的BERT模型無論是輸入嵌入、Transformer編碼器還是無監(jiān)督任務(wù)部分中都沒有能夠感知方面詞的結(jié)構(gòu)設(shè)計(jì),這導(dǎo)致其在預(yù)訓(xùn)練過程中可能會丟失與方面詞相關(guān)的上下文信息.為了解決這個(gè)問題,本文考慮從BERT的內(nèi)部結(jié)構(gòu)進(jìn)行改進(jìn),使其獲得方面詞感知能力.但在實(shí)際情形中發(fā)現(xiàn)Transformer編碼器和無監(jiān)督任務(wù)部分的結(jié)構(gòu)設(shè)計(jì)緊湊、邏輯嚴(yán)謹(jǐn)、修改難度較大,如果添加的參數(shù)過多很可能會導(dǎo)致模型的復(fù)雜度大幅增加,出現(xiàn)過擬合現(xiàn)象,反而會降低原有的優(yōu)秀建模能力;而輸入嵌入部分結(jié)構(gòu)則較為靈活,由于直接與輸入句子接觸,添加方面詞信息更加方便,且在修改的過程中不會影響到BERT原有的建模能力.因此為了使BERT在擁有方面詞感知能力的同時(shí)保持其優(yōu)秀的語言建模功能,本文通過修改輸入嵌入部分,將BERT調(diào)整為能夠感知上下文中與方面詞相關(guān)信息的AABERT.
AABERT的改進(jìn)主要分為三個(gè)步驟:首先,對于輸入句子s={w1,w2,…,wn},每次輸入結(jié)束時(shí)的標(biāo)點(diǎn)符號(比如句號‘.’)可以認(rèn)為是一個(gè)弱分隔符,同時(shí)將給定的方面詞插入到標(biāo)點(diǎn)符號和最后的結(jié)束標(biāo)記([SEP])之間,在標(biāo)記嵌入(Token Embeddings)過程中對所有輸入詞匯(包括正常詞匯和特殊符號)進(jìn)行嵌入,就能生成對應(yīng)的標(biāo)點(diǎn)符號和方面詞的位置標(biāo)記,即提供了一個(gè)給定方面詞的感知信號.其次在輸入中再采用一個(gè)顯式分隔符[SEP]來分隔輸入的句子和方面詞,進(jìn)一步加深給定方面詞的信號,它在位置嵌入(Position Embeddings)中的初始化標(biāo)記與句尾的[SEP]設(shè)置相同.最后將方面詞的片段嵌入(Segment Embeddings)標(biāo)記與前句的片段嵌入標(biāo)記分別設(shè)置為A、B,即在嵌入過程中將前句與方面詞視為兩個(gè)不同的句子.其輸入部分結(jié)構(gòu)如圖2所示.
圖2 AABERT輸入序列Fig.2 AABERT input sequence
圖3 語境感知注意力網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Context-aware attention network structure
改進(jìn)后,輸入句的格式被設(shè)置為Ik=[CLS]+wk+[SEP]+waspect+[SEP].在預(yù)訓(xùn)練過程中,先將輸入句嵌入Ik輸入到Transformer編碼器中進(jìn)行編碼,其過程如式(1)所示:
xk,…,xaspect=TransEnc(Ik)
(1)
其中,xi為輸入句單詞的隱藏輸出向量,xaspect為方面詞的隱藏輸出向量.再將得到的隱藏向量送入掩碼語言模型(Masked Language Model,MLM)和下一句預(yù)測(Next Sentence Prediction,NSP)兩個(gè)無監(jiān)督任務(wù)中來完成詞向量的預(yù)訓(xùn)練[8].MLM會隨機(jī)對單詞遮掩(mask),讓模型通過語境學(xué)習(xí)被遮掩的單詞,它很好地利用了語境中的信息,但是不能直觀地判斷文本對之間的邏輯關(guān)系.而NSP解決了這個(gè)問題,它通過判斷后句即方面詞是否為前句的下一個(gè)句子,挖掘了句子之間的邏輯關(guān)系,最終捕獲了與方面詞相關(guān)的詞向量表示{e1,e2,…,en}.
門控循環(huán)單元(Gated Recurrent Unit,GRU)[14]是由長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)改進(jìn)而來的,它能夠獲取文本語境中的語義信息,并且相比于LSTM擁有更高的信息獲取效率.但是GRU只能傳遞某一時(shí)刻中詞向量序列的語義信息,忽略了全局文本中的語境所帶來的影響,而BiGRU解決了這個(gè)問題,它由正反向GRU最后一個(gè)狀態(tài)向量連接而成,可以提取正反向時(shí)間序列中的隱藏狀態(tài).DBGRU由多層BiGRU疊加而來,其中每層BiGRU的輸出將作為下一層的輸入.本文采用由兩層BiGRU組成的DBGRU來進(jìn)一步挖掘方面級隱式情感語料中的深層語義信息.
GRU的更新公式如下:
zt=σ(Wzet+Uzht-1+bz),
(2)
rt=σ(Wret+Urht-1+br),
(3)
(4)
(5)
BiGRU的計(jì)算公式如下:
(6)
(7)
(8)
DBGRU每個(gè)單元如下:
(9)
(10)
(11)
在方面級語料中往往存在著不少具有情感傾向的詞匯,它們對方面的情感極性有著不小的影響.為了提高情感分析的準(zhǔn)確率,以往模型通常會采用一般注意力機(jī)制捕捉這些情感特征并分配其較大權(quán)重,其注意力權(quán)重向量uh計(jì)算過程如下:
(12)
其中:tanh為激活函數(shù);Wh∈Rn×d為可訓(xùn)練的權(quán)重參數(shù)矩陣,d為單詞嵌入的維度;bh為偏置項(xiàng).本文在應(yīng)用一般注意力機(jī)制后發(fā)現(xiàn)分析效果不太理想,原因可能是:1)本文研究的方面級隱式情感語料與普通的方面級情感語料最大的不同在于句子中沒有明顯的情感詞,這會導(dǎo)致一般注意力機(jī)制無法準(zhǔn)確地捕獲相關(guān)詞向量;2)DBGRU得到的特征向量為多層,其中含有不同類型的語義和句法信息,而一般注意力權(quán)重向量uh僅由一個(gè)可訓(xùn)練的參數(shù)矩陣Wh控制,錯(cuò)失了有效利用這些深層語境信息的機(jī)會.由于注意力機(jī)制中最重要的部分是計(jì)算權(quán)重系數(shù),權(quán)重系數(shù)越高,此部分信息越重要.因此,為了有效突出方面級隱式情感文本中隱含的重要信息,本文對一般注意力機(jī)制進(jìn)行了改進(jìn),將DBGRU中的多層語境信息引入到權(quán)重參數(shù)中,從而構(gòu)造了CAT機(jī)制.CAT的結(jié)構(gòu)如圖 3所示.
(13)
λw=σ(WhVh+CUwVc),
(14)
C=[C1,…,Cl-1],
(15)
(16)
(17)
(18)
本文將CAT機(jī)制輸出的特征向量sh輸入到Softmax分類層中,并計(jì)算其在不同情感極性中的概率,其計(jì)算過程如下:
g=Softmax(Wsh+b),
(19)
其中,W為權(quán)重矩陣,b為偏置項(xiàng),g為模型最終的輸出向量.此外,選用了基于L2正則化的交叉熵?fù)p失函數(shù)作為損失函數(shù),其計(jì)算過程如下:
(20)
本文選取的方面級隱式情感數(shù)據(jù)集來自SemEval2014 task4數(shù)據(jù)集[18]中的隱式情感語料.其中:Restaurant主題中的隱式數(shù)據(jù)占比達(dá)27.47%,被稱為餐廳隱式情感表達(dá)(Restaurant Implicit Sentiment Expression,Rest_ISE);Laptop主題中的隱式數(shù)據(jù)占比達(dá)30.09%,被稱為筆記本電腦隱式情感表達(dá)(Laptop Implicit Sentiment Expression,Lap_ISE).這些數(shù)據(jù)說明ABSA數(shù)據(jù)集中廣泛存在隱式情感語料,值得研究.此外,為了保證本文模型能夠充分捕捉方面級隱式情感的特征,引入了數(shù)據(jù)集Yelp和Amazon[19]用于AABERT的預(yù)訓(xùn)練.以上數(shù)據(jù)集都將語料標(biāo)記為積極、消極和中性三種情感極性.其具體數(shù)據(jù)分布如表1所示.
表1 數(shù)據(jù)集中的樣本標(biāo)簽分布
表2 實(shí)驗(yàn)環(huán)境
本文的實(shí)驗(yàn)環(huán)境如表 2所示.
模型提取方面級隱式情感特征的能力不僅與自身的設(shè)計(jì)結(jié)構(gòu)相關(guān),還會受到參數(shù)設(shè)置的影響,合理的參數(shù)能夠有效提升模型的實(shí)驗(yàn)效果,因此參數(shù)調(diào)優(yōu)是實(shí)驗(yàn)過程中不可或缺的一個(gè)步驟.本文在數(shù)據(jù)集Rest_ISE上以對實(shí)驗(yàn)結(jié)果影響較大的可調(diào)參數(shù)隨機(jī)失活率(Dropout)與DBGRU隱藏層參數(shù)維度為例進(jìn)行分析,使用控制變量法,在兩種參數(shù)上分別選取了10個(gè)大小不同的指標(biāo)進(jìn)行對比,每個(gè)指標(biāo)進(jìn)行了10次反復(fù)實(shí)驗(yàn)并計(jì)算準(zhǔn)確率的平均值作為結(jié)果.本文從對比實(shí)驗(yàn)中選取了具有代表性的5個(gè)指標(biāo),其實(shí)驗(yàn)結(jié)果如表3所示.
表3 參數(shù)設(shè)置對準(zhǔn)確率的影響
Dropout在模型訓(xùn)練階段的前向傳播過程中,讓某些神經(jīng)元的激活值以一定的概率停止工作,在一定程度上可以避免過擬合現(xiàn)象.由對比實(shí)驗(yàn)可知,DCAB模型的Dropout取值為0.1時(shí)模型的準(zhǔn)確率較高,其原因在于當(dāng)Dropout值設(shè)置過小時(shí),緩解過擬合現(xiàn)象的能力并不強(qiáng),而當(dāng)Dropout值設(shè)置過大時(shí),又會使激活值失活較多從而丟失部分特征,導(dǎo)致準(zhǔn)確率下降.DBGRU的隱藏層參數(shù)維度即提取到的特征維度,由對比實(shí)驗(yàn)可知,當(dāng)隱藏層參數(shù)維度設(shè)置為128時(shí)模型效果較好,其原因在于當(dāng)隱藏層參數(shù)維度過小時(shí),模型的特征提取能力較弱,而當(dāng)維度過大時(shí),可能會出現(xiàn)過擬合現(xiàn)象,并且模型的訓(xùn)練時(shí)間大大增加.
經(jīng)過對比實(shí)驗(yàn)確定DCAB模型的參數(shù)后,在數(shù)據(jù)集Rest_ISE上對模型進(jìn)行訓(xùn)練.由于本文模型使用了12層Transformer,多頭自注意力的個(gè)數(shù)為12,因此AABERT的隱藏層參數(shù)維度為768.當(dāng)模型參數(shù)迭代至最優(yōu)時(shí)需要大約4個(gè)Epoch,并且使用了Adam優(yōu)化器進(jìn)行優(yōu)化.模型整體參數(shù)如表4所示.
表4 實(shí)驗(yàn)參數(shù)
本文選取了準(zhǔn)確率(Accuracy,A)和F1值作為模型的評價(jià)指標(biāo),具體公式如下:
(21)
(22)
(23)
(24)
由于目前隱式情感分析研究較少,本文選用了一些常見的顯式情感分析模型作為對比模型的補(bǔ)充.對比實(shí)驗(yàn)具體模型如下:
1)TD-LSTM[20]:模型將目標(biāo)信息合并到LSTM中,對句子中的目標(biāo)及其上下文進(jìn)行建模.
2)IIIDYT[11]:采用基于深層語境化(ELMo)的嵌入方法,將得到的詞向量表示傳遞到BiLSTM中,再結(jié)合注意力機(jī)制去提取相關(guān)的隱式語義信息.
3)RAM[21]:該模型使用GloVe嵌入,將得到的詞向量傳遞到DBLSTM中編碼,再使用注意力機(jī)制捕獲深層語義特征中的重要信息,最終識別評論句中方面詞的情感極性.
4)GloVe+BiGRU+Attention(GBA)[22]:一種融合了BiGRU和注意力機(jī)制的模型,能夠在Glove詞嵌入過程中保留方面詞向量的位置信息并消除其位置嵌入.
5)Amobee[13]:使用Transformer遍碼器進(jìn)行預(yù)訓(xùn)練,將得到的詞向量傳遞到BiLSTM與注意力機(jī)制相結(jié)合的框架中分析隱式語料的情感極性.
6)BERT+BiGRU+Attention(BBA)[23]:該模型將BERT模型作為輸入層,BiGRU模型作為隱藏層,再結(jié)合注意力機(jī)制提取其中的重要隱式情感特征,最后用Softmax作為輸出層來進(jìn)行情感分類.
對比實(shí)驗(yàn)的結(jié)果如表5所示.由表 5可知,在數(shù)據(jù)集Rest_ISE和Lap_ISE中,本文提出的DCAB模型的準(zhǔn)確率和F1值均高于其余基線模型,說明DCAB模型的性能要優(yōu)于其他基線模型.TD-LSTM僅對目標(biāo)詞及其上下文進(jìn)行建模,IIIDYT在BiLSTM的基礎(chǔ)上加入了注意力機(jī)制,在提取上下文隱式情感特征的同時(shí)關(guān)注了其中與方面詞相關(guān)的重要信息,因此性能要優(yōu)于TD-LSTM.RAM在IIIDYT的基礎(chǔ)上使用DBLSTM代替BiLSTM作為模型的編碼器,它能夠提取文本中更深層次的語義特征,所以效果較IIIDYT有所提升.而GBA使用了BiGRU對詞向量進(jìn)行建模,BiGRU相比BiLSTM參數(shù)更少更容易收斂,因此GBA模型的精度在一定程度上要優(yōu)于IIIDYT模型.另外,Amobee和BBA模型都是基于BERT或Transformer結(jié)構(gòu)的模型,Transformer相比于RNN能直接并行計(jì)算序列數(shù)據(jù),為不同的頭分配不同的任務(wù),從而更好地捕捉上下文中隱藏層狀態(tài)之間的依賴關(guān)系,因此性能較其他僅使用RNN結(jié)構(gòu)的模型有了較大提升,進(jìn)而也說明本文使用AABERT作為預(yù)訓(xùn)練模型是合理的.
表5 對比模型分類結(jié)果
本文提出的DCAB模型在兩個(gè)數(shù)據(jù)集上相比性能最優(yōu)的基線模型BBA準(zhǔn)確率分別提升2.60和1.28個(gè)百分點(diǎn);F1值分別提升4.16和1.58個(gè)百分點(diǎn).其原因在于DCAB模型改進(jìn)了提取與方面詞相關(guān)的上下文信息的方法,即使用AABERT預(yù)訓(xùn)練模
型生成與方面詞相關(guān)的詞向量,AABERT在基礎(chǔ)BERT的輸入嵌入結(jié)構(gòu)中引入了方面詞,通過在標(biāo)記嵌入、位置嵌入和片段嵌入中設(shè)置特殊標(biāo)記格式從而加強(qiáng)方面詞的信號,使模型獲得方面詞信息的感知能力,并且構(gòu)造了語境感知注意力機(jī)制學(xué)習(xí)上下文中與方面詞相關(guān)的深層特征,CAT機(jī)制在分配注意力權(quán)重時(shí)能夠感知上下文隱藏狀態(tài)中的語義信息和句法信息,更加精準(zhǔn)地關(guān)注與方面詞相關(guān)的深層信息.綜上所述,DCAB模型是有效的,不僅能夠在預(yù)訓(xùn)練過程中保留與方面詞相關(guān)的上下文信息,還能準(zhǔn)確提取上下文中與方面詞相關(guān)的深層特征信息.
2.5.1 不同詞向量對模型性能的影響
為了驗(yàn)證AABERT預(yù)訓(xùn)練模型對文本向量化表示的能力,本文將DCAB中的AABERT詞向量模型分別替換為GloVe、ELMo、BERT,并在Rest_ISE數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn),結(jié)果如圖4所示.
圖4 詞嵌入模型對比實(shí)驗(yàn)結(jié)果Fig.4 Comparative experimental results of word embedding models
圖5 注意力機(jī)制對比實(shí)驗(yàn)結(jié)果Fig.5 Comparative experimental results of attention mechanism
由圖4可知:GloVe作為靜態(tài)詞向量模型,針對每個(gè)輸入單詞會生成固定的詞向量,忽略了一詞多義的情況,因此效果較差;ELMo是一種動態(tài)詞向量模型,它將輸入句傳遞到BiLSTM中,生成的詞向量包含了上下文語義信息,所以其性能要優(yōu)于GloVe;BERT使用了雙向Transformer語言模型,并結(jié)合MLM和NSP任務(wù),從而生成動態(tài)詞向量,能夠有效解決一詞多義的問題,因此效果要優(yōu)于ELMo;AABERT在BERT的基礎(chǔ)上對輸入嵌入部分進(jìn)行了改進(jìn),在引入方面詞的同時(shí)加強(qiáng)了其信號,使模型獲得了方面詞相關(guān)信息的感知能力,因此性能要優(yōu)于BERT.綜上,這組實(shí)驗(yàn)說明了AABERT模型的優(yōu)越性.
2.5.2 不同注意力機(jī)制對模型性能的影響
為了驗(yàn)證語境感知注意力機(jī)制的有效性,本文移除注意力機(jī)制,建立了AD(AABERT+DBGRU)模型;使用傳統(tǒng)的注意力機(jī)制代替CAT機(jī)制,建立了ADA (AABERT+DBGRU+Attention)模型.對比實(shí)驗(yàn)結(jié)果如圖 5所示.
由圖 5可知,在兩個(gè)數(shù)據(jù)集Rest_ISE和Lap_ISE中,DCAB模型的準(zhǔn)確率和F1值相比AD和ADA模型均有所提升,這說明DCAB模型的效果相較于AD和ADA模型要更加優(yōu)秀.AD模型僅提取詞向量中的深層上下文語義特征,效果較差;ADA模型在AD模型的基礎(chǔ)上還關(guān)注了上下文語義特征中的重要隱式情感特征,效果次之;而DCAB模型在AD模型的基礎(chǔ)上使用的CAT機(jī)制不僅能夠提取上下文中的重要隱式情感特征,還能充分挖掘深層特征中所包含的語義信息與句法信息.這組實(shí)驗(yàn)結(jié)果說明了語境感知注意力機(jī)制的優(yōu)越性.
2.5.3 實(shí)例分析
為了進(jìn)一步分析DCAB模型捕獲的深層隱式情感特征在方面級隱式情感分析中的有效性,本文選取數(shù)據(jù)集中的幾個(gè)例句,將本文的DCAB模型與RAM和BBA模型進(jìn)行實(shí)例對比分析,結(jié)果如表 6所示.句子中存在的方面詞已用下劃線標(biāo)出,其中加粗的單詞需要判斷隱式情感極性.
從表6中可以看出,第1及第2句中只存在1個(gè)方面詞,第4及第5句中存在2個(gè)方面詞.由第1和第2句可知,對情感極性為積極或消極的方面級隱式情感句的判斷準(zhǔn)確率較低,難度較大,但是本文提出的DCAB模型相比RAM和BBA模型在積極或消極情感句上的性能最優(yōu).由第3句可知,3種模型在中性情感句上的判斷都比較準(zhǔn)確.由第4句可知,RAM和BBA模型準(zhǔn)確率較低,本文推測可能是由于存在著顯式情感詞"good"修飾方面詞"battery life",影響了方面詞"cord"隱式情感極性的判斷;而DCAB的效果較好,其原因在于CAT機(jī)制能夠關(guān)注與給定方面詞相關(guān)的上下文特征信息,并忽略其他方面詞的信息.綜上,本文提出的DCAB模型在方面級隱式情感分析任務(wù)上有效提高了深層隱式情感特征提取的準(zhǔn)確性.
表6 方面級隱式情感句對比
雖然本文模型在總體效果上有一定的提升,但也引入了一些新的問題.由第5句可知,當(dāng)句子中存在著兩個(gè)隱式情感的方面詞時(shí),DCAB模型會將方面詞"online chat"的情感極性誤判為消極,可能是受到了整個(gè)句子消極情感的影響,這是本文模型的局限所在.
為解決現(xiàn)有模型可能會在預(yù)訓(xùn)練過程中丟失方面詞信息和提取深層特征信息不準(zhǔn)確的問題,本文提出DCAB模型.首先通過AABERT生成與方面詞相關(guān)的詞向量,再通過DBGRU進(jìn)行編碼,接著使用CAT機(jī)制感知深層隱藏特征中的語義信息和句法信息,提取上下文中與給定方面詞相關(guān)的深層特征信息.方面級隱式情感分析的對比實(shí)驗(yàn)結(jié)果表明,DCAB模型性能優(yōu)于基線模型.本文沒有考慮到更大范圍語境的影響,下一步將研究句子層面的信息是如何影響隱式情感的.