張 立,肖志勇
(江南大學(xué) 人工智能與計算機(jī)學(xué)院,江蘇 無錫 214122)
特定目標(biāo)情感分類作為情感分析領(lǐng)域中的一項子任務(wù)[1-3],其目的在于分析社交網(wǎng)絡(luò)短文本中用戶對于不同事物所發(fā)表觀點的情感傾向。不同于分析整個句子的情感傾向,特定目標(biāo)情感分類目的在于分析特定目標(biāo)背后所包含的情感極性(包括積極、中性和消極)。例如,在句子“Great food but the service was dreadful !”中,目標(biāo)“food”表達(dá)的是積極情感,目標(biāo)“service”表達(dá)的是消極情感,所以相較于分析整個句子,特定目標(biāo)情感分類能更好地挖掘用戶對特定事物的觀點。
早期的研究工作中使用的是傳統(tǒng)的機(jī)器學(xué)習(xí)方法[4-6],通過使用大量的人工特征來提升模型性能,這些人工特征需要對輸入進(jìn)行大量的預(yù)處理和復(fù)雜的特征工程,人工特征的設(shè)計優(yōu)劣在很大程度上決定了模型的性能。
近年來,隨著深度學(xué)習(xí)的發(fā)展[7-8],大量使用神經(jīng)網(wǎng)絡(luò)的方法被提出[9-12],Tang等[9]提出Target-Dependent Long Short Term Memory(TD-LSTM),使用兩個LSTM分別對包含目標(biāo)的左半部分和包含目標(biāo)的右半部分建模,再將兩部分的輸出拼接,以此來充分考慮句子的上下文。Wang等[10]提出Attention-based Long Short Term Memory with Aspect Embedding(ATAE-LSTM),通過使用注意力機(jī)制[13-14]來關(guān)注目標(biāo)在句子中的重要信息。梁斌等[11]將卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制結(jié)合來獲得目標(biāo)更深層次的情感特征。Xue等[12]提出基于門控機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)來提取目標(biāo)在句子中的情感信息。
由于簡單的注意力機(jī)制會使注意力渙散,一些使用復(fù)雜的多注意力機(jī)制的方法[15-19]被提出,Ma等[15]使用兩個注意力網(wǎng)絡(luò),分別獲取目標(biāo)在句子中和句子在目標(biāo)中的關(guān)鍵信息后,再將兩者拼接。Huang等[16]使用Attention Over Attention(AOA)機(jī)制來更好地從句子中獲取目標(biāo)相關(guān)的深層信息。Tang等[17]通過使用外部記憶單元來改善注意力網(wǎng)絡(luò)。Chen等[18]使用多層注意力機(jī)制來獲取較長距離的情感信息,從而增強(qiáng)模型對復(fù)雜情況的表達(dá)能力。Song等[19]使用注意力編碼目標(biāo)和上下文,同時在損失函數(shù)中引入了標(biāo)簽平滑正則項。
由于圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)[20]能高效處理圖結(jié)構(gòu)信息,近年來在自然語言處理領(lǐng)域得到了廣泛的應(yīng)用[21-23],一些基于依存句法樹的圖卷積網(wǎng)絡(luò)模型被提出[24-27],Zhang等[24]使用圖卷積網(wǎng)絡(luò)建立目標(biāo)和上下文的依存關(guān)系,再利用注意力機(jī)制進(jìn)一步提取目標(biāo)在上下中的情感特征。Zhao等[25]使用全相連和鄰近相連兩種情感圖對同一句子中多個目標(biāo)建模,來獲取更有效的情感信息。Huang等[27]使用圖注意力網(wǎng)絡(luò)(Graph Attention Network, GAT)[28]來建立目標(biāo)和上下文之間的依存關(guān)系。
上述方法中采用的圖卷積網(wǎng)絡(luò)雖然能建立起目標(biāo)和上下文的依存句法關(guān)系,但大都忽略了同一句子中不同目標(biāo)之間的依存關(guān)系,直觀地看,同一句話的不同目標(biāo)之間往往存在一定的聯(lián)系,若能綜合考慮目標(biāo)之間的依存關(guān)系,結(jié)果也將更準(zhǔn)確。Zhao等[25]使用全相連和鄰近相連兩種情感圖對同一句子中多個目標(biāo)建模,但僅討論了目標(biāo)全相連和鄰近目標(biāo)相連兩種情況。實際上,根據(jù)句子中目標(biāo)之間的不同距離,應(yīng)該考慮賦予邊權(quán)重,并探索割斷不同權(quán)重的邊對結(jié)果的影響?;谠撍枷耄瑸榱四軌蛴行ЫM痪渥又卸鄠€目標(biāo)之間存在的依存關(guān)系,本文提出一個基于多目標(biāo)依存建模的圖卷積網(wǎng)絡(luò)模型(Model Multi-aspect Dependencies with Graph Convolutional Network, MDGCN),模型首先對輸入句子進(jìn)行語義編碼,再通過GCN、Attention層得到目標(biāo)的隱層表示,最后通過MDGCN層對多個目標(biāo)之間的依存建模,得到目標(biāo)的最終表示后,預(yù)測目標(biāo)情感極性。本文模型相較于其他模型,有以下幾點優(yōu)勢:
(1) 根據(jù)句子的依存句法樹,構(gòu)建多目標(biāo)依存圖來表示目標(biāo)之間的關(guān)系。
(2) 提出一個全新的MDGCN模型來建模同一句中多個目標(biāo)之間的依存關(guān)系。
(3) 通過割斷多目標(biāo)依存圖中不同權(quán)重的邊來提高對包含特定數(shù)量目標(biāo)句子的結(jié)果準(zhǔn)確性。
本文在SemEval 2014 Task4[3]Restaurant和Laptop兩個數(shù)據(jù)集上進(jìn)行實驗,實驗結(jié)果表明,本文模型相比標(biāo)準(zhǔn)圖卷積網(wǎng)絡(luò)模型性能有顯著提高,準(zhǔn)確率分別達(dá)到85.45%和79.62%,F(xiàn)1值分別達(dá)到78.58%和76.53%。
依存句法樹可以建立目標(biāo)與上下文之間的依存句法關(guān)系,使目標(biāo)可以獲取相鄰詞的信息,從而更容易獲取關(guān)鍵情感信息。依存句法樹的例子如圖1所示,句子為“The owner and staff go to great lengths to make you feel comfortable”,其中包含兩個目標(biāo)“owner”和“staff”,情感極性均為積極,從中可以看出兩個目標(biāo)在圖中的距離十分接近。
圖1 依存句法樹例子
圖卷積網(wǎng)絡(luò)能高效處理圖結(jié)構(gòu)信息,圖中每一個點都能獲取其相鄰點的信息,通過將圖轉(zhuǎn)換為鄰接對稱矩陣進(jìn)行計算,對于一個l層GCN,計算如式(1)所示。
Hl=σ(AWlHl -1+bl)
(1)
其中,Wl,bl為可訓(xùn)練參數(shù),σ為非線性函數(shù),A為鄰接對稱矩陣,Hl-1為l層輸入向量,Hl為l層輸出向量。
注意力機(jī)制其本質(zhì)在于篩選出重要信息,忽略不重要的信息,篩選的過程體現(xiàn)在權(quán)重系數(shù)的計算上,對于向量組H={h1,h2,…,hi,…h(huán)n},i∈[1,n],向量ht在向量組H中注意力計算式(2)~式(4)所示。
其中,βi為注意力權(quán)重,ai為注意力分?jǐn)?shù),ho為輸出向量。在特定目標(biāo)情感分類中引入注意力機(jī)制,可以使模型更多地關(guān)注句子中與目標(biāo)相關(guān)的情感特征詞。本文模型在構(gòu)建目標(biāo)隱層表示時,利用注意力機(jī)制來生成更為準(zhǔn)確的目標(biāo)情感特征表示。
為了能夠有效建模同一句子中多個目標(biāo)之間存在的依存關(guān)系,本文提出一個基于多目標(biāo)依存建模的圖卷積網(wǎng)絡(luò)模型(Model Multi-aspect Dependencies with Graph Convolutional Network, MDGCN),模型總體框架如圖2所示,主要由以下五個部分組成:
圖2 MDGCN模型總體框架
(1) 輸入層: 對輸入進(jìn)行詞嵌入操作。
(2) Bi-LSTM層: 對輸入進(jìn)行正向和反向的語義編碼,得到句子的隱層表示。
(3) 構(gòu)建目標(biāo)向量的隱層表示: 使用圖卷積網(wǎng)絡(luò)和注意力機(jī)制生成與目標(biāo)相關(guān)的情感特征向量,得到目標(biāo)的隱層表示。
(4) MDGCN層: 對多個目標(biāo)之間的依存建模,得到目標(biāo)的最終表示。
(5) 輸出層: 使用目標(biāo)的最終表示進(jìn)行情感極性預(yù)測。
2.3.1 圖卷積網(wǎng)絡(luò)
圖卷積網(wǎng)絡(luò)是一種作用于圖,并能利用其結(jié)構(gòu)信息的網(wǎng)絡(luò),圖中的每一個點都會受到其相鄰點的影響,本文使用圖卷積網(wǎng)絡(luò),在句法上混合目標(biāo)與句子中其他詞的信息。首先構(gòu)建句子的依存句法樹,樹上每一個詞都與該詞句法上有聯(lián)系的詞相連接,再根據(jù)樹構(gòu)建鄰接對稱矩陣At,At∈Rn×n,與文獻(xiàn)[29]相同,每一個詞都與它自身相連,所以矩陣At的主對角線元素均為1,然后對矩陣At進(jìn)行歸一化,具體為At的每個元素均除以該元素所在行的和,如式(5)所示。
(5)
與文獻(xiàn)[24]相同,由于目標(biāo)的情感極性由其周邊詞決定,其本身并不包含情感極性,所以將目標(biāo)置為零向量,方便目標(biāo)下一步混合在句法上有聯(lián)系的詞的信息,如式(6)如示。
(6)
(7)
2.3.2 注意力機(jī)制
(8)
(9)
然后,通過將注意力分?jǐn)?shù)αt和Bi-LSTM層的輸出隱層表示Hs加權(quán)求和,得到與目標(biāo)相關(guān)的上下文表示ha,實現(xiàn)如式(10)所示。
(10)
2.3.3 池化與拼接
2.4.1 多目標(biāo)依存圖
同一個句子中可能存在多個目標(biāo),考慮到目標(biāo)之間可能存在聯(lián)系,本文提出多目標(biāo)依存圖來表示目標(biāo)之間的關(guān)系,通過對目標(biāo)之間情感依存性的處理,使情感預(yù)測更為準(zhǔn)確。
多目標(biāo)依存圖由該句的依存句法樹轉(zhuǎn)換而來,圖3為依存句法樹轉(zhuǎn)換為多目標(biāo)依存圖的一個例子,由于目標(biāo)通常是由多個詞組成的短語,為了選定一個詞來代表整個短語,本文選擇將由短語生成的依存句法樹中的根節(jié)點詞來代表整個短語,圖3中的A1、A2、A3、A4均為對應(yīng)目標(biāo)的根節(jié)點詞。多目標(biāo)依存圖中的節(jié)點僅保留了依存句法樹中的目標(biāo)的根節(jié)點詞,圖中的邊存在權(quán)重,其值由依存句法樹中相對應(yīng)點之間的距離決定。
圖3 依存句法樹轉(zhuǎn)換為多目標(biāo)依存圖的例子
之后再構(gòu)建多目標(biāo)依存圖的鄰接對稱矩陣Ag,Ag∈Re×e,其中e為句子中目標(biāo)的個數(shù),算法1描述了構(gòu)建過程,首先給出該句中所有的目標(biāo)aspecti,i∈[1,e]和句子的依存句法樹的鄰接對稱矩陣At∈Rn×n,然后求出目標(biāo)的根節(jié)點詞,最后根據(jù)目標(biāo)的根節(jié)點詞之間的距離得到Ag。
算法1: 構(gòu)建多目標(biāo)依存圖的鄰接對稱矩陣的偽代碼Input: aspecti,i∈[1,e],adjacency matrix of dependency tree At∈Rn×nOutput: adjacency matrix of multi-aspects dependency graph Ag∈Re×eBeginfor i=1 to e do aspectiroot=get_aspect_root(aspecti)fori=1 to e do forj=1 to e do ifi==jthen Agij=1 else Agij=distance(aspectiroot,aspectjroot,At) end if end forend forreturnAg
最后再對Ag做歸一化處理,根據(jù)相近節(jié)點其情感更為接近的想法,使權(quán)重越小的邊占比越大,權(quán)重越大的邊占比越小,具體實現(xiàn)如式(13)所示。
(13)
2.4.2 基于多目標(biāo)依存圖的圖卷積網(wǎng)絡(luò)
(14)
用一個全連接層將輸出最終表示轉(zhuǎn)換為與情感類別相同的維度,再通過softmax函數(shù)將其轉(zhuǎn)換為概率表示,實現(xiàn)如式(15)所示。
(15)
其中,W、b為本層可訓(xùn)練的參數(shù)。
本文模型使用交叉熵誤差函數(shù)和L2權(quán)重衰退共同作為損失函數(shù),實現(xiàn)如式(16)所示。
(16)
其中,pij為向量pi第j個特征,labelij為one-hot表示的labeli的第j個值,λ是L2權(quán)重衰退的超參數(shù),Θ為模型中所有可訓(xùn)練的參數(shù), 3是情感極性的類別個數(shù)(積極,中性,消極)。
本實驗使用的數(shù)據(jù)是從SemEval 2014 Task4中獲得的,包含兩個領(lǐng)域的文本數(shù)據(jù)集: Restaurant,Laptop,數(shù)據(jù)集中包含句子、目標(biāo)和目標(biāo)的情感極性,情感極性分為積極、中性、消極三種,Restaurant數(shù)據(jù)集中還包括矛盾(conflict)的情感極性,由于以前的工作均不考慮此類情感,所以本文也刪除了此類情感,數(shù)據(jù)集的具體統(tǒng)計信息如表1所示。
表1 實驗數(shù)據(jù)統(tǒng)計
本文模型的詞向量采用預(yù)訓(xùn)練好的GloVe[30]詞向量和BERT[31]詞向量。GloVe詞向量維度選用300,此時隱層維度為600,使用Adam作為優(yōu)化器,學(xué)習(xí)率設(shè)置為0.001;BERT詞向量維度為768,此時隱層維度為768,使用隨機(jī)梯度下降(SGD)作為優(yōu)化器,學(xué)習(xí)率設(shè)置為0.005;權(quán)重矩陣初始化為服從glorot分布的隨機(jī)值,偏置初始化為0,L2正則化參數(shù)設(shè)置為0.000 01,dropout設(shè)置為0.3,批大小設(shè)置為16,使用準(zhǔn)確率(Accuracy)和F1值作為評價指標(biāo)。
TD-LSTM[9]: 使用兩個LSTM分別對包含目標(biāo)的右半部分和包含目標(biāo)的左半部分建模,然后將兩部分的最終輸出拼接來預(yù)測目標(biāo)的情感極性。
ATAE-LSTM[10]: 將均值池化后的目標(biāo)向量分別和輸入層表示、LSTM層隱層表示進(jìn)行拼接,然后利用注意力機(jī)制獲取目標(biāo)在句子中的相關(guān)重要信息。
IAN[15]: 使用兩個LSTM分別對句子和目標(biāo)進(jìn)行編碼,然后分別獲取目標(biāo)在句子中和句子在目標(biāo)中的關(guān)鍵信息,最后拼接進(jìn)行情感極性預(yù)測。
MemNet[17]: 使用外部記憶單元來改善注意力網(wǎng)絡(luò)。
RAM[18]: 使用多層注意力機(jī)制來獲取較長距離的情感信息,增強(qiáng)模型對復(fù)雜情況的表達(dá)能力,從而生成更加準(zhǔn)確的目標(biāo)情感特征向量。
AEN[19]: 使用注意力編碼目標(biāo)和上下文,同時在損失函數(shù)中引入了標(biāo)簽平滑正則項。
CDT[26]: 使用Bi-LSTM對句子進(jìn)行編碼,然后使用圖卷積網(wǎng)絡(luò)在句法上混合句子中的相關(guān)信息,最后對目標(biāo)向量進(jìn)行池化得到目標(biāo)的最終表示。
ASGCN[24]: 使用圖卷積網(wǎng)絡(luò)建立目標(biāo)和上下文的依存關(guān)系,再利用注意力機(jī)制進(jìn)一步提取目標(biāo)在上下文中的情感特征。
SDGCN[25]: 使用全相連和鄰近相連兩種情感圖對同一句子中多個目標(biāo)建模,來獲取更有效的情感信息。
BERT[31]: BERT模型上游先預(yù)先訓(xùn)練出一個對自然語言有一定理解的通用模型,再將該模型對下游具體任務(wù)進(jìn)行微調(diào)。本文使用句子輸入BERT模型后得到的[CLS]標(biāo)志位的向量,再將該向量經(jīng)過全連接層轉(zhuǎn)換維度后進(jìn)行情感分類。
本文模型在Restaurant和Laptop數(shù)據(jù)集上與上述模型進(jìn)行比較,實驗結(jié)果如表2所示。
從表2的實驗結(jié)果可以看出:
(1) 基于多注意力機(jī)制的模型(IAN, MemNet,RAM,AEN)實驗結(jié)果好于基于RNN的模型(TD-LSTM,ATAE-LSTM)的實驗結(jié)果,表明注意力機(jī)制能有效捕獲句子中與目標(biāo)相關(guān)的情感特征詞。
(2) 基于圖卷積網(wǎng)絡(luò)的模型(ASGCN,SDGCN,CDT)實驗結(jié)果好于基于多注意力機(jī)制模型(IAN,MemNet,RAM,AEN)的實驗結(jié)果,表明在依存句法樹上相關(guān)聯(lián)的詞存在著較高的情感相關(guān)性,相比注意力機(jī)制,從整個句子中篩選出情感特征詞,從依存句法樹的關(guān)聯(lián)詞中篩選情感特征詞,更為準(zhǔn)確高效。
(3) 對比本文模型和同樣使用圖卷積網(wǎng)絡(luò)的ASGCN、CDT模型,本文模型的實驗結(jié)果更好,表明對同一句子中多個目標(biāo)之間的依存性進(jìn)行建模,能構(gòu)建與目標(biāo)相關(guān)度更高的情感特征向量,從而取得更好的實驗效果。
(4) 對比本文模型和同樣對多個目標(biāo)之間的依存性建模的SDGCN模型,本文模型的實驗結(jié)果更好,相較于SDGCN保留了目標(biāo)之間所有的邊和只保留目標(biāo)之間鄰近邊的兩種情況,本文根據(jù)目標(biāo)之間的距離遠(yuǎn)近,給邊賦予相應(yīng)的權(quán)重,同時對權(quán)重過大的邊進(jìn)行割斷,并對割斷邊的權(quán)重進(jìn)行了多組實驗來找出效果最好的情況,通過割斷權(quán)重過大的邊,來避免引入不必要的噪聲,使模型能關(guān)注到更為準(zhǔn)確的情感特征,從而取得更好的實驗效果。
(5) 對比使用BERT作為詞向量的本文模型(MDGCN-BERT)和其他使用BERT作為詞向量的模型(SDGCN-BERT,BERT_CLS),MDGCN-BERT在Restaurant數(shù)據(jù)集上的實驗結(jié)果最好,表明使用預(yù)訓(xùn)練模型作為詞向量可以讓單詞獲取更加符合句子語境的隱層表示,從而構(gòu)建更為準(zhǔn)確的情感特征向量;在Laptop數(shù)據(jù)集上的實驗結(jié)果好于BERT_CLS和MDGCN-GloVe,但不及SDGCN-BERT,這可能有以下原因: Laptop數(shù)據(jù)集包含較多專有詞,使用BERT對其進(jìn)行詞嵌入和使用GloVe對其詞嵌入差別不大,以及Laptop數(shù)據(jù)集相對于Restaurant數(shù)據(jù)集對句子的句法信息并不敏感。
考慮到多目標(biāo)依存圖中的目標(biāo)節(jié)點之間的邊權(quán)重(Edge Weight,EW)過大時,其情感關(guān)聯(lián)性實際很小,所以本文將通過割斷EW大于n(n≥1)的邊來探索其對情感分類的影響,統(tǒng)計了兩個數(shù)據(jù)集中所有目標(biāo)節(jié)點之間的權(quán)重值情況(圖4),EW取值從0到14不等,其中EW=0表示兩端的節(jié)點在依存句法樹中未連通的情況。另外,由于EW≥8的邊數(shù)量過少,所以本文不對EW≥8的邊進(jìn)行單獨(dú)比較。實驗結(jié)果如表3所示,從中我們可以看出多目標(biāo)依存圖保留權(quán)重較小的邊時,實驗效果最好,表明距離相對較近的目標(biāo)節(jié)點之間存在較為密切的依存關(guān)系,隨著多目標(biāo)依存圖中保留邊的權(quán)重增大,實驗效果變差,表明距離相對較遠(yuǎn)的目標(biāo)節(jié)點之間的情感關(guān)聯(lián)性很小,保留權(quán)重過大的邊會給模型引入不必要的噪聲,干擾模型的判斷。
圖4 SemEval 2014數(shù)據(jù)集中邊權(quán)重統(tǒng)計情況
表3 不同權(quán)重的邊對結(jié)果的影響 (單位: %)
數(shù)據(jù)集中存在大量包含不同目標(biāo)數(shù)量的句子,統(tǒng)計情況如圖5所示。從圖中可以看出,句子中包含多個目標(biāo)十分普遍,句子中包含目標(biāo)的數(shù)量從1到13不等??紤]到包含不同目標(biāo)數(shù)量的句子,其對多目標(biāo)依存圖中權(quán)重的敏感性也不同,所以本文通過割斷多目標(biāo)依存圖中不同權(quán)重的邊來探索其對包含特定數(shù)量目標(biāo)的句子的影響。由于兩個測試集中包含目標(biāo)數(shù)量大于或等于6的句子過少,參考意義不大,所以本文實驗時將其去除。實驗結(jié)果如圖6所示,從圖中可以看出:
圖5 SemEval 2014數(shù)據(jù)集中包含不同目標(biāo)數(shù)量的句子中的目標(biāo)數(shù)量統(tǒng)計情況
圖6 不同權(quán)重的邊對多目標(biāo)句子結(jié)果的影響
(1) 當(dāng)多目標(biāo)依存圖中的EW≤1時,單目標(biāo)句子的準(zhǔn)確率最高,而EW≤n(n≥2)的模型,其對單目標(biāo)句子的準(zhǔn)確率相對較低,說明當(dāng)多目標(biāo)依存圖保留較小的邊權(quán)重時,其對單目標(biāo)句子的擬合效果最好,而保留較高邊權(quán)重的模型,在對單目標(biāo)句子分類時,會由于擬合了目標(biāo)之間較長距離的依存性而帶來了額外的噪聲。
(2) 對于多目標(biāo)句子來說,其準(zhǔn)確率最高的情況均為EW≤n(n≥2)的模型。這說明當(dāng)多目標(biāo)句子中目標(biāo)數(shù)量較多時,其目標(biāo)之間的距離相對較遠(yuǎn)的概率也越大,而當(dāng)多目標(biāo)依存圖保留較高的邊權(quán)重時,其對圖中相對較遠(yuǎn)的兩個目標(biāo)節(jié)點之間的依存性進(jìn)行了有效建模,所以其對多目標(biāo)句子分類效果較好,雖然整體的準(zhǔn)確率會下降,但其對特定目標(biāo)數(shù)量的句子的準(zhǔn)確率會上升,從而說明了保留高邊權(quán)重值的模型對多目標(biāo)句子分類的有效性。
(3) 從圖中還可以看出,由于包含5個目標(biāo)的句子數(shù)量相對較少,所以保留不同邊權(quán)重的模型在分類該類別時準(zhǔn)確率波動較大。
為了探索包含不同MDGCN層數(shù)的模型對結(jié)果的影響,本文對層數(shù)從0到7進(jìn)行了實驗比較,以準(zhǔn)確率和F1值為評價指標(biāo),探究其在Restaurant和Laptop數(shù)據(jù)集上的效果。其中層數(shù)為0表示去除MDGCN的情況,此時,構(gòu)建完的目標(biāo)向量的隱層表示,將會直接通過一個全連接層轉(zhuǎn)換維度,再通過softmax層轉(zhuǎn)換為概率表示進(jìn)行分類。
詞向量使用GloVe詞向量,邊權(quán)重值取為3.4節(jié)中結(jié)果最好的參數(shù),其余超參數(shù)與3.1節(jié)中選用GloVe作為詞向量時的設(shè)置一致。
實驗流程設(shè)置為連續(xù)20個世代沒有出現(xiàn)更高的測試精度時結(jié)束本次實驗,實驗結(jié)果包含準(zhǔn)確率和F1分?jǐn)?shù),均取該次實驗中在測試集上出現(xiàn)的最高精度,結(jié)果如圖7所示。從圖中可以看出:
圖7 MDGCN層數(shù)對結(jié)果的影響
(1) 層數(shù)為1時比層數(shù)為0時有了較大的性能提升,兩個數(shù)據(jù)集的準(zhǔn)確率分別從81.96%和78.14%提升到了83.48%和79.47%,分別提升了1.52%和1.33%,F(xiàn)1值分別從74.42%和74.80%提升到了76.56%和76.11%,分別提升了2.14%和1.31%,表明MDGCN對目標(biāo)之間的情感依存性進(jìn)行有效建模,構(gòu)建了與目標(biāo)相關(guān)度更高的情感特征向量。
(2) 層數(shù)為1時結(jié)果最好。層數(shù)大于1時,模型性能開始下降并波動;層數(shù)大于5時,模型性能進(jìn)一步加速下降,這可能由以下的原因引起: 隨著層數(shù)的增加,模型參數(shù)變多,表達(dá)能力增強(qiáng),模型開始變得難以訓(xùn)練和擬合。
為了對MDGCN有一個直觀的理解,從Restaurant-test數(shù)據(jù)集中選取一個包含兩個目標(biāo)的句子“First walking in the place seemed to have great ambience .”(目標(biāo)為“place”和“ambience”), 來做注意力可視化說明,如圖8所示,顏色越深,代表注意力分?jǐn)?shù)越大。
圖8 注意力分?jǐn)?shù)可視化結(jié)果
可以看出,去除MDGCN的模型在預(yù)測“place”時,主要關(guān)注了“walking”“seemed”“have”“ambience”這些非關(guān)鍵信息,因而錯誤地將情感預(yù)測為中性;預(yù)測“ambience”時,幾乎把所有注意力都集中到了“great”詞上,雖然預(yù)測正確,但是對單個詞存在過高的關(guān)注度,忽略了句中的其他有效信息。
帶有MDGCN的模型在預(yù)測“place”時,由于MDGCN對多目標(biāo)之間的依存性進(jìn)行建模,使模型在預(yù)測時不僅關(guān)注到當(dāng)前目標(biāo)的相關(guān)信息,還能關(guān)注到同一句中其他目標(biāo)的相關(guān)信息,關(guān)注度的大小由目標(biāo)之間依存性的高低決定,所以帶有MDGCN的模型在關(guān)注“place”的相關(guān)信息時,同時也關(guān)注到了目標(biāo)“ambience”的相關(guān)信息“great”,從而正確將其預(yù)測為積極。預(yù)測“ambience”時,同樣也關(guān)注到了目標(biāo)“place”的相關(guān)信息,從而降低了原先對“great”的過高關(guān)注度,使模型能關(guān)注到句子中的其他有效信息。
MDGCN能根據(jù)目標(biāo)之間的依存性從全局上關(guān)注到更多的有效信息,使模型能更準(zhǔn)確地識別出目標(biāo)的情感極性。
本文提出了基于多目標(biāo)依存建模的圖卷積網(wǎng)絡(luò)模型,該方法可以對同一句子中多個目標(biāo)之間的依存性進(jìn)行有效建模。首先根據(jù)句子的依存句法樹構(gòu)建多目標(biāo)依存圖來表示目標(biāo)之間的關(guān)系,然后再根據(jù)多目標(biāo)依存圖使用圖卷積網(wǎng)絡(luò)對目標(biāo)之間的依存性建模,在SemEval 2014 Task4數(shù)據(jù)集上的實驗結(jié)果表明,本文模型可以構(gòu)建與目標(biāo)相關(guān)度更高的情感特征向量,本文還對MDGCN對模型的作用進(jìn)行了驗證,不同權(quán)重的邊對結(jié)果以及對多目標(biāo)句子的影響進(jìn)行了實驗,通過這些對比實驗,證明了本文模型對多目標(biāo)之間依存性建模的有效性。