凌鍵軍, 李志鵬, 陳丹陽(yáng)*, 王翔宇, 鐘誠(chéng)
(1.廣西大學(xué)計(jì)算機(jī)與電子信息學(xué)院, 廣西南寧530004;2.廣西高校并行分布與智能計(jì)算重點(diǎn)實(shí)驗(yàn)室, 廣西南寧530004;3.騰訊云計(jì)算(北京)有限責(zé)任公司, 廣東深圳518000)
方面級(jí)情感分類[1]是一種細(xì)粒度的文本情感分類任務(wù),可以識(shí)別出句子中方面詞所表達(dá)的情感極性,方面詞的情感極性一般分為積極、消極和中性3種類型。如果一個(gè)句子包含多個(gè)方面詞,則分別對(duì)每個(gè)方面詞都進(jìn)行情感極性判斷。例如,在句子“This phone performs very well but the price is too expensive.”中包含了2個(gè)方面詞“performs”和“price”,它們?cè)诰渥又械那楦袠O性分別是“積極”和“消極”,方面級(jí)情感分類任務(wù)的目標(biāo)是分別判斷句子中2個(gè)方面詞的情感極性。
方面級(jí)情感分類的核心問(wèn)題是如何從句子中獲取與方面詞相關(guān)的情感信息。起初,一些研究者將神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于方面級(jí)情感分類中,取得了一定的成果。Tang等[2]使用長(zhǎng)短記憶網(wǎng)絡(luò)從句子的上下文中提取特征信息,獲取與方面詞相關(guān)的情感特征信息進(jìn)行分類。Ma等[3]分別對(duì)方面詞和上下文進(jìn)行建模,利用注意力機(jī)制針對(duì)方面詞學(xué)習(xí)上下文的特征向量,從而提取有利于方面級(jí)情感分類的特征信息。Song等[4]使用注意力編碼器網(wǎng)絡(luò)(attentional encoder network, AEN)從單詞嵌入中挖掘豐富的語(yǔ)義信息。這些模型雖然利用了句子與方面詞之間的序列結(jié)構(gòu)信息,但卻忽視了語(yǔ)法結(jié)構(gòu)信息在方面級(jí)情感分類中的重要性,難以分析復(fù)雜的方面詞關(guān)系。
近年來(lái),一些研究者嘗試將語(yǔ)法依賴樹(shù)應(yīng)用于方面級(jí)情感分類。Zhang等[5]提出了一種基于特定方面的圖卷積網(wǎng)絡(luò)模型,模型使用圖卷積網(wǎng)絡(luò)結(jié)合語(yǔ)法依賴樹(shù)對(duì)方面詞及上下文關(guān)系進(jìn)行建模,然而該模型只是簡(jiǎn)單地利用語(yǔ)法依賴樹(shù)的鄰接矩陣關(guān)系,丟失了其他的語(yǔ)法依賴信息。同時(shí),圖卷積網(wǎng)絡(luò)[6]忽視了句子中每個(gè)單詞對(duì)方面詞的重要程度不同的這一特點(diǎn),平等地處理各個(gè)單詞之間的關(guān)系,有失偏頗。為了更好地利用語(yǔ)法依賴樹(shù)的信息,Wang等[7]提出了一種面向方面詞的語(yǔ)法依賴樹(shù)的關(guān)系圖注意力網(wǎng)絡(luò)(relational graph attention networks, RGAT)模型。該模型修剪語(yǔ)法依賴樹(shù),人為構(gòu)造面向方面詞的依賴樹(shù)關(guān)系,使得模型得到更豐富的語(yǔ)法信息,提升了模型的性能,然而,面向方面的依賴關(guān)系的構(gòu)建方式過(guò)于主觀,對(duì)語(yǔ)法依賴樹(shù)的修剪和重構(gòu)會(huì)導(dǎo)致句子中重要語(yǔ)法信息的丟失。同時(shí),單詞之間依賴關(guān)系的編碼過(guò)于簡(jiǎn)單,無(wú)法充分表示單詞之間的語(yǔ)法關(guān)系。
針對(duì)以上問(wèn)題,本文中提出了一種結(jié)合句子序列與語(yǔ)法關(guān)系的融合網(wǎng)絡(luò)(sequence-syntax information fusion network, SYFN)模型。SYFN模型結(jié)合語(yǔ)法依賴關(guān)系、詞性標(biāo)注信息以及相對(duì)位置信息多種句子語(yǔ)法與語(yǔ)義知識(shí),能夠同時(shí)處理句子的序列結(jié)構(gòu)信息和語(yǔ)法結(jié)構(gòu)信息,學(xué)習(xí)獲得更多的情感特征知識(shí),增強(qiáng)模型的情感表達(dá)能力。SYFN模型主要由結(jié)構(gòu)信息網(wǎng)絡(luò)和多層融合網(wǎng)絡(luò)組成。結(jié)構(gòu)信息網(wǎng)絡(luò)包含多層網(wǎng)絡(luò)結(jié)構(gòu),每一層網(wǎng)絡(luò)中包含3個(gè)主要部分:序列結(jié)構(gòu)網(wǎng)絡(luò)、語(yǔ)法結(jié)構(gòu)網(wǎng)絡(luò)和結(jié)構(gòu)信息融合網(wǎng)絡(luò)。其中,基于多頭注意力機(jī)制的序列結(jié)構(gòu)網(wǎng)絡(luò)能夠快速提取句子序列的前后語(yǔ)義信息。結(jié)合關(guān)系圖注意力方法的語(yǔ)法結(jié)構(gòu)網(wǎng)絡(luò)能夠獲取到更多的與方面詞相關(guān)的語(yǔ)法結(jié)構(gòu)信息。結(jié)構(gòu)信息融合網(wǎng)絡(luò)能夠?qū)?種結(jié)構(gòu)關(guān)系信息進(jìn)行融合,有效提取句子中與方面詞最相關(guān)的部分情感特征信息。多層融合網(wǎng)絡(luò)使用權(quán)重機(jī)制有選擇地結(jié)合高低層網(wǎng)絡(luò)的結(jié)構(gòu)關(guān)系融合信息,使模型能夠同時(shí)關(guān)注低層網(wǎng)絡(luò)單詞之間的簡(jiǎn)單關(guān)系和高層網(wǎng)絡(luò)中短語(yǔ)之間的復(fù)雜關(guān)系,有效地結(jié)合簡(jiǎn)單和復(fù)雜的關(guān)系信息,提升模型分類性能。另外,采用一種迭代式的消融實(shí)驗(yàn)方法,對(duì)融合模型進(jìn)行不斷改進(jìn),最終得到最優(yōu)結(jié)果。
在本文模型中,假定輸入句子序列s={w1,w2,…,wn},方面詞序列a={a1,a2,…,an},其中方面詞a是句子s的單詞子序列,n和m分別是文本句子和方面詞的單詞個(gè)數(shù)。方面級(jí)情感分類任務(wù)的主要目的是預(yù)測(cè)句子s在給定方面詞a的情感極性。
該模塊包括數(shù)據(jù)預(yù)處理和結(jié)構(gòu)信息預(yù)處理2個(gè)部分。數(shù)據(jù)預(yù)處理用于從句子中提取位置信息、語(yǔ)義信息和語(yǔ)法結(jié)構(gòu)信息。結(jié)構(gòu)信息預(yù)處理用于初始化2種結(jié)構(gòu)信息網(wǎng)絡(luò)的輸入信息。
1.1.1 數(shù)據(jù)預(yù)處理
首先,使用上下文編碼器對(duì)句子s中的單詞w進(jìn)行編碼,得到句子的上下文詞嵌入向量集合e={e1,e2,…,en},其中ei(i∈n)是單詞wi的向量化編碼。在輸入的句子s中,根據(jù)句子中每個(gè)單詞與方面詞之間的相對(duì)距離,可以得到句子中第i個(gè)單詞的相對(duì)位置信息ri(i∈n)。位置信息可以為模型提供句子的序列結(jié)構(gòu)信息,計(jì)算單詞的相對(duì)位置信息時(shí),將位于方面詞左邊的位置信息設(shè)為負(fù)數(shù),位于方面詞右邊的位置信息設(shè)為正數(shù)。句子中第i個(gè)單詞的相對(duì)位置信息ri的具體計(jì)算方法如式(1)所示。
(1)
式中j表示方面詞在句子中的位置,方面詞可以包含多個(gè)單詞。對(duì)整個(gè)句子中所有單詞的相對(duì)距離信息集合r={r1,r2,…,rn}進(jìn)行向量化編碼,得到句子中各個(gè)單詞的相對(duì)位置信息的向量集合p={p1,p2,…,pn},其中pi表示句子中第i個(gè)單詞的相對(duì)位置信息ri的向量化編碼,其向量維度為dp。
為了獲取更多的語(yǔ)法和語(yǔ)義知識(shí),使用句法解析器對(duì)句子s進(jìn)行解析,獲取句子的詞性標(biāo)注信息和語(yǔ)法依賴樹(shù)關(guān)系圖。將詞性標(biāo)注信息進(jìn)行編碼向量化,從而獲得句子的詞性標(biāo)注信息向量集合t={t1,t2,…,tn},維度為dt。從句法解析器獲得的語(yǔ)法依賴樹(shù)包含著句子的語(yǔ)法結(jié)構(gòu)關(guān)系,可以為模型提供語(yǔ)法結(jié)構(gòu)信息。通過(guò)語(yǔ)法依賴樹(shù)構(gòu)造單詞之間的依賴關(guān)系詞典,對(duì)依賴關(guān)系進(jìn)行編碼,得到句子中各個(gè)單詞之間的依賴關(guān)系矩陣D如式(2)所示。
(2)
式中dij是句子中第i個(gè)單詞和第j個(gè)單詞之間依賴關(guān)系的向量編碼。
1.1.2 結(jié)構(gòu)信息預(yù)處理
在本文模型中,序列結(jié)構(gòu)信息網(wǎng)絡(luò)和語(yǔ)法結(jié)構(gòu)信息網(wǎng)絡(luò)的輸入數(shù)據(jù)是不同的。
(3)
式中:q表示序列結(jié)構(gòu)網(wǎng)絡(luò);0表示第一層網(wǎng)絡(luò);concat表示對(duì)向量進(jìn)行拼接操作。
(4)
式中r表示語(yǔ)法結(jié)構(gòu)網(wǎng)絡(luò)。
另一部分的輸入信息是語(yǔ)法結(jié)構(gòu)信息的依賴關(guān)系集合D。
結(jié)構(gòu)信息網(wǎng)絡(luò)是一個(gè)多層結(jié)構(gòu)的網(wǎng)絡(luò),每一層網(wǎng)絡(luò)主要由序列結(jié)構(gòu)信息網(wǎng)絡(luò)、語(yǔ)法結(jié)構(gòu)信息網(wǎng)絡(luò)和結(jié)構(gòu)信息融合網(wǎng)絡(luò)組成。
1.2.1 序列結(jié)構(gòu)信息網(wǎng)絡(luò)
序列結(jié)構(gòu)信息網(wǎng)絡(luò)能夠處理句子的序列結(jié)構(gòu)關(guān)系,通過(guò)分析單詞之間的序列結(jié)構(gòu)關(guān)系,提取句子的序列結(jié)構(gòu)特征信息。該網(wǎng)絡(luò)主要利用多頭注意力機(jī)制(multi-head self-attention,MHSA)提取句子的序列結(jié)構(gòu)關(guān)系信息。
(5)
(6)
(7)
式中:W1、W2、b1、b2分別為可學(xué)習(xí)參數(shù);relu為激活函數(shù);o表示信息輸出。
1.2.2 語(yǔ)法結(jié)構(gòu)信息網(wǎng)絡(luò)
語(yǔ)法結(jié)構(gòu)信息網(wǎng)絡(luò)用于提取句子的語(yǔ)法結(jié)構(gòu)信息。結(jié)合語(yǔ)法依賴樹(shù)信息有助于模型從語(yǔ)法關(guān)系層面提取句子的情感特征信息,提高方面級(jí)情感分類的效果。在該網(wǎng)絡(luò)中設(shè)計(jì)了一個(gè)基于圖注意機(jī)制的語(yǔ)法結(jié)構(gòu)模型來(lái)處理句子的語(yǔ)法結(jié)構(gòu)信息,從而能夠獲得更多的語(yǔ)法關(guān)系信息。
(8)
(9)
(10)
(11)
1.2.3 結(jié)構(gòu)信息融合網(wǎng)絡(luò)
序列結(jié)構(gòu)信息和語(yǔ)法結(jié)構(gòu)信息的融合可以結(jié)合2種結(jié)構(gòu)關(guān)系的優(yōu)勢(shì),從句子中提取到融合2種結(jié)構(gòu)關(guān)系的情感特征信息,提高模型的情感表達(dá)能力。在結(jié)構(gòu)信息融合網(wǎng)絡(luò)中,使用門控機(jī)制融合2種結(jié)構(gòu)關(guān)系的特征信息,其計(jì)算公式分別為
(12)
(13)
(14)
(15)
式中
分別為下一層序列結(jié)構(gòu)信息網(wǎng)絡(luò)和語(yǔ)法結(jié)構(gòu)信息網(wǎng)絡(luò)的輸入。
在多層融合網(wǎng)絡(luò)中,低層的網(wǎng)絡(luò)可以關(guān)注句子單詞之間簡(jiǎn)單的句法關(guān)系,高層的網(wǎng)絡(luò)可以關(guān)注句子短語(yǔ)之間復(fù)雜的句法關(guān)系信息。多層融合網(wǎng)絡(luò)能夠結(jié)合來(lái)自高低層的結(jié)構(gòu)融合特征信息,使模型能夠同時(shí)處理簡(jiǎn)單和復(fù)雜的句子關(guān)系,提高模型的情感分類的效果。
(16)
將方面詞的特征信息ha輸入到softmax函數(shù)中,計(jì)算其在不同情感類別中的概率P,然后通過(guò)最小化帶L2正則項(xiàng)系數(shù)的交叉熵?fù)p失函數(shù)來(lái)調(diào)節(jié)模型參數(shù),損失函數(shù)的計(jì)算公式為
(17)
式中:c為情感類別;I為一個(gè)指示函數(shù);γ為一個(gè)正則化超參數(shù);θ為模型中的所有參數(shù)集。
本文中在Rest14、Laptop[8]、Twitter[9]、MAMS[10]這4個(gè)公開(kāi)基準(zhǔn)數(shù)據(jù)集上評(píng)估了SYFN模型的性能。數(shù)據(jù)集的情感分類包含積極、中性、消極3種類型。其中Rest14數(shù)據(jù)集和Laptop數(shù)據(jù)集中每個(gè)條數(shù)據(jù)包含一個(gè)或多個(gè)方面詞,Twitter數(shù)據(jù)集中每條數(shù)據(jù)只包含一個(gè)方面詞,MAMS數(shù)據(jù)集中的每條數(shù)據(jù)都包含至少2個(gè)具有不同情感極性的方面詞。數(shù)據(jù)集統(tǒng)計(jì)信息見(jiàn)表1。
表1 數(shù)據(jù)集中不同情感分類的數(shù)據(jù)數(shù)目Tab.1 The number of different sentiment classifications in the datasets
使用PyTorch 1.8在CentOS 7.4系統(tǒng)、Tesla T4 GPU上進(jìn)行實(shí)驗(yàn),模型訓(xùn)練使用Adam[11]優(yōu)化器。使用句法解析器The Biaffine Parser[12]解析句子得到詞性標(biāo)注信息和語(yǔ)法依賴樹(shù)關(guān)系,詞性標(biāo)注、位置關(guān)系和語(yǔ)法依賴樹(shù)的向量化維度設(shè)置為30。模型的詞嵌入初始化分別使用結(jié)合雙向長(zhǎng)短記憶網(wǎng)絡(luò)的300維的GloVe[13]詞嵌入向量和英文版的bert-base-uncased[14]預(yù)訓(xùn)練模型進(jìn)行詞向量編碼。
對(duì)于使用GloVe詞嵌入向量的SYFN-GloVe模型,每次訓(xùn)練60個(gè)批次,每批次包含16條數(shù)據(jù)。輸入數(shù)據(jù)的dropout率為0.3,正則化系數(shù)為0.000 01,優(yōu)化器的學(xué)習(xí)率設(shè)為0.001。對(duì)于Rest14、 Laptop、Twitter和MAMS這4個(gè)數(shù)據(jù)集,訓(xùn)練過(guò)程中SYFN模型的網(wǎng)絡(luò)層數(shù)和注意力頭數(shù)分別設(shè)置為(4,8)、(4,5)、(2,5)和(2,10)。
對(duì)于使用預(yù)訓(xùn)練語(yǔ)言模型BERT編碼的SYFN-BERT模型,每次訓(xùn)練30個(gè)批次,每批次包含32條數(shù)據(jù)。BERT模型的輸出維度設(shè)為100。輸入數(shù)據(jù)的的dropout率為 0.1,正則化系數(shù)為0.000 01。優(yōu)化器的學(xué)習(xí)率設(shè)為0.000 01,BERT模型的學(xué)習(xí)率為0.000 02。對(duì)于Rest14、Laptop、Twitter和MAMS 4個(gè)數(shù)據(jù)集,網(wǎng)絡(luò)層數(shù)和注意力頭數(shù)分別設(shè)置為(3,5)、(2,5)、(2,4)和(2,10)。
使用準(zhǔn)確率(accuracy,ACC)和宏平均(macro-F1,F1)2個(gè)指標(biāo)評(píng)估模型的性能,獨(dú)立重復(fù)每個(gè)實(shí)驗(yàn)10次,并計(jì)算平均值。
將SYFN模型與方面級(jí)情感分類領(lǐng)域的一些具有代表性的基線模型進(jìn)行比較。這些基線模型的具體描述如下:
①IAN[3]:使用2個(gè)長(zhǎng)短記憶網(wǎng)絡(luò)模型和注意機(jī)制交互學(xué)習(xí)方面詞和上下文表示。
②MGAN[15]:使用雙向長(zhǎng)短記憶網(wǎng)絡(luò)獲取句子的上下文信息,并結(jié)合多粒度的注意力機(jī)制來(lái)提取方面詞和上下文之間的語(yǔ)義關(guān)系。
③AEN[4]:使用基于自注意力的編碼網(wǎng)絡(luò)分別對(duì)方面詞和上下文的語(yǔ)義信息進(jìn)行建模。
④CDT[16]:使用單層圖卷積神經(jīng)網(wǎng)絡(luò)結(jié)合語(yǔ)法依賴樹(shù)關(guān)系學(xué)習(xí)方面詞的情感表示。
⑤ASGCN[5]:使用具有注意力機(jī)制的圖卷積神經(jīng)網(wǎng)絡(luò)結(jié)合語(yǔ)法依賴樹(shù)學(xué)習(xí)方面詞與上下文的關(guān)系。
⑥RGAT[6]:對(duì)句子的語(yǔ)法依賴樹(shù)進(jìn)行重構(gòu),生成面向方面詞的語(yǔ)法依賴樹(shù),并主觀構(gòu)造單詞與方面詞之間的依賴關(guān)系,最后結(jié)合圖注意力網(wǎng)絡(luò)學(xué)習(xí)方面詞的句法特征信息。
⑦BERT-PT[17]:在BERT預(yù)訓(xùn)練語(yǔ)言模型上使用后訓(xùn)練的方法,以提高閱讀理解和目標(biāo)方面情緒分類的表現(xiàn)。
⑧BERT-SPC[18]:將方面詞和句子以“[CLS]”+句子+”[SEP]“+方面詞+”[SEP]”的格式輸入BERT預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行編碼,然后使用池化層進(jìn)行分類。
⑨DualGCN[19]:使用2個(gè)圖卷積網(wǎng)絡(luò)分別考慮句子的語(yǔ)法和語(yǔ)義信息,并使用正則項(xiàng)對(duì)模型進(jìn)行約束。
⑩BERT4GCN[20]:利用BERT預(yù)訓(xùn)練語(yǔ)言模型的中間層知識(shí)和位置信息,并使用圖卷積網(wǎng)絡(luò)結(jié)合依賴樹(shù)語(yǔ)法知識(shí)進(jìn)行情感分類。
為了更好地展示模型的效果,使用了GloVe、BERT這2種類型的上下文編碼器。在4個(gè)數(shù)據(jù)集上SYFN模型與基線模型的性能比較見(jiàn)表2,名字中包含“syn”的模型表示模型結(jié)合了語(yǔ)法知識(shí),“-”表示模型沒(méi)有在改數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn);加粗字體表示該數(shù)據(jù)集上的最優(yōu)結(jié)果。從表2可見(jiàn),不管是在GloVe模型還是BERT模型中,SYFN模型的表現(xiàn)基本優(yōu)于所有的基線模型。
表2 在4個(gè)數(shù)據(jù)集上SYFN模型與基線模型的性能比較Tab.2 Performance comparison of SYFN model with baseline models on four datasets %
具體來(lái)說(shuō),在同一種編碼器的模型中,具有語(yǔ)法知識(shí)的模型在4個(gè)數(shù)據(jù)集上的表現(xiàn)明顯優(yōu)于不具有語(yǔ)法知識(shí)的模型,說(shuō)明在方面級(jí)情感分類中,結(jié)合語(yǔ)法知識(shí)能夠有效提高情感分類的效果。而SYFN模型比包含語(yǔ)法知識(shí)的模型效果更好,情感分類的性能超過(guò)了所有只利用其中一種結(jié)構(gòu)知識(shí)的模型,說(shuō)明SYFN模型能夠結(jié)合2種句子結(jié)構(gòu)知識(shí)的優(yōu)勢(shì),證明結(jié)構(gòu)知識(shí)融合能夠提高情感分類的效果。在MAMS數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果上,盡管MAMS數(shù)據(jù)集中每條數(shù)據(jù)都包含了至少2個(gè)方面項(xiàng)和不同的情感極性,但SYFN模型仍然取得了最優(yōu)的效果,說(shuō)明SYFN模型能夠處理復(fù)雜的句子關(guān)系,能夠在復(fù)雜的句子關(guān)系中避免噪聲的干擾并準(zhǔn)確地提取方面詞的情感特征信息,充分展現(xiàn)SYFN模型結(jié)合2種結(jié)構(gòu)知識(shí)信息的優(yōu)越性。
最后,SYFN模型不管是在簡(jiǎn)單的句子關(guān)系還是復(fù)雜的句子關(guān)系中都取得了卓越的效果,表明SYFN模型能夠處理各種各樣的句子關(guān)系,體現(xiàn)了SYFN模型結(jié)合2種結(jié)構(gòu)知識(shí)的優(yōu)點(diǎn)。
為了進(jìn)一步研究模型SYFN網(wǎng)絡(luò)的每個(gè)組成部分對(duì)性能的影響,本文中將采用迭代的思想逐步驗(yàn)證SYFN模型中各個(gè)組件的效果和作用,在數(shù)據(jù)集Rest14、Laptop上對(duì)使用GloVe詞嵌入向量的SYFN網(wǎng)絡(luò)模型進(jìn)行了消融實(shí)驗(yàn)研究。
本次消融實(shí)驗(yàn)中設(shè)計(jì)了4種類型消融模型與SYFN模型進(jìn)行比較,4種類型消融模型分別為①SYFN w/o Syn模型:SYFN模型去掉語(yǔ)法結(jié)構(gòu)模塊,只保留序列結(jié)構(gòu)模塊的網(wǎng)絡(luò)模型;②SYFN w/o Seq模型:SYFN模型去掉序列結(jié)構(gòu)模塊,只保留語(yǔ)法結(jié)構(gòu)模塊的網(wǎng)絡(luò)模型;③SYFN fus in last-layer模型:SYFN模型中序列結(jié)構(gòu)網(wǎng)絡(luò)和語(yǔ)法結(jié)構(gòu)網(wǎng)絡(luò)只在最后一層網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)關(guān)系信息融合并將最后一層的融合信息用于情感分類的網(wǎng)絡(luò)模型;④SYFN clas in last-fus模型:SYFN模型中序列結(jié)構(gòu)網(wǎng)絡(luò)和語(yǔ)法結(jié)構(gòu)網(wǎng)絡(luò)在每一層都進(jìn)行結(jié)構(gòu)特征信息融合,但是只將最后一層融合特征信息用于情感分類的網(wǎng)絡(luò)模型。消融研究的實(shí)驗(yàn)結(jié)果見(jiàn)表3。
表3 消融研究的實(shí)驗(yàn)結(jié)果Tab.3 Experiment results of ablation study %
從表3可見(jiàn),SYFN clas in last-fus 模型的分類效果比 SYFN fus in last-layer 模型中有所提升,表明在每一層的網(wǎng)絡(luò)中融合2種結(jié)構(gòu)特征信息,能獲取到更多的情感特征信息,將融合信息傳遞到后面的網(wǎng)絡(luò)中,提升模型的分類效果。此外,本文中的SYFN模型分類效果優(yōu)于SYFN clas in last-fus模型,表明結(jié)合每一層的結(jié)構(gòu)融合信息能夠提升模型的性能,SYFN模型中低層的網(wǎng)絡(luò)獲取句子簡(jiǎn)單的結(jié)構(gòu)特征信息,高層的網(wǎng)絡(luò)獲取句子復(fù)雜的結(jié)構(gòu)特征信息。結(jié)合高低層融合信息使模型能夠兼顧簡(jiǎn)單和復(fù)雜的情感特征信息,提高模型的情感表達(dá)能力。
總的來(lái)說(shuō),消融實(shí)驗(yàn)的結(jié)果表明SYFN模型中2種結(jié)構(gòu)信息網(wǎng)絡(luò)、結(jié)構(gòu)信息融合網(wǎng)絡(luò)和多層融合網(wǎng)絡(luò)在方面級(jí)情感分類中有巨大的作用,結(jié)合這3種網(wǎng)絡(luò)的優(yōu)勢(shì),讓模型能夠更全面地獲取到方面詞的情感特征信息。
為了更好地研究SYFN模型在結(jié)合序列和語(yǔ)法結(jié)構(gòu)信息方面的優(yōu)勢(shì), 將SYFN 模型與沒(méi)有語(yǔ)法結(jié)構(gòu)信息的 AEN 模型和具有語(yǔ)法結(jié)構(gòu)信息的 RGAT 模型在特定例子中進(jìn)行比較。AEN、RGAT和SYFN 模型在案例上的預(yù)測(cè)結(jié)果見(jiàn)表4,表中用粗體突出顯示了方面詞。
表4 AEN、RGAT和SYFN 模型在案例上的預(yù)測(cè)結(jié)果Tab.4 Preprediction results of the AEN, RGAT and SYFN models
在第1個(gè)句子中, AEN模型因?yàn)闊o(wú)法理解連接詞“but”而錯(cuò)誤地關(guān)注了單詞“Great”,誤判了方面詞“service”的情感極性。與之相比,RGAT模型和SYFN模型都能夠?qū)Ψ矫嬖~進(jìn)行正確的分類,說(shuō)明結(jié)合語(yǔ)法結(jié)構(gòu)信息的模型能夠有效地處理復(fù)雜的句子關(guān)系,能夠從句子中準(zhǔn)確提取到方面詞的情感特征。
在第2個(gè)句子中,連詞“but”和否定詞“not”一起出現(xiàn),這種情況讓句子中的句法關(guān)系更加復(fù)雜。面臨這種情況,不僅僅是AEN模型,包含語(yǔ)法結(jié)構(gòu)信息的RGAT模型也對(duì)方面詞“price”進(jìn)行了錯(cuò)誤的分類,意味著只包含語(yǔ)法結(jié)構(gòu)知識(shí)的情感分類模型也不能處理這種復(fù)雜的關(guān)系。SYFN模型能夠準(zhǔn)確地對(duì)方面詞的情感極性進(jìn)行分類,表明本文中結(jié)合2種結(jié)構(gòu)信息的網(wǎng)絡(luò)和多層融合策略可以有效地處理各種復(fù)雜的句子關(guān)系。
第3個(gè)句子中存在著3個(gè)方面詞,而且每個(gè)方面詞的情感極性都各不相同,這種情況下預(yù)測(cè)單個(gè)方面詞的情感極性時(shí),它們會(huì)互相干擾。同時(shí)句子中還存在著連詞“but”和否定詞“not”, 大大增加了情感分類的難度。AEN和RGAT模型表現(xiàn)不佳,說(shuō)明只憑借一種類型的句子結(jié)構(gòu)關(guān)系無(wú)法處理這種復(fù)雜的情況。SYFN模型仍然表現(xiàn)得很好,可以準(zhǔn)確地預(yù)測(cè)各個(gè)方面詞的情感極性,表明SYFN模型中將2種結(jié)構(gòu)關(guān)系和多層信息融合相結(jié)合的方法可以有效地防止噪聲的干擾,并能夠從復(fù)雜的句子關(guān)系提取出方面詞對(duì)應(yīng)的情感特征信息。
本文中的SYFN模型使用了更為靈活的特征融合方法,同時(shí)也使用了更多的參數(shù)。文中基于GloVe編碼和基于BERT編碼的2種SYFN模型在不同數(shù)據(jù)集上的參數(shù)量見(jiàn)表5。
表5 SYFN模型在不同數(shù)據(jù)集上的參數(shù)量Tab.5 Parameters of the SYFN model on different datasets ×106
從表5可見(jiàn),基于BERT編碼的模型參數(shù)量遠(yuǎn)遠(yuǎn)大于基于GloVe編碼的模型參數(shù)量,這是因?yàn)轭A(yù)訓(xùn)練模型BERT中包含著龐大的參數(shù)量,導(dǎo)致SYFN-BERT模型參數(shù)量的大量增加。同時(shí)可以看到,在SYFN-GloVe模型中,Twitter和MAMS數(shù)據(jù)集的模型參數(shù)量多于Rest14和Laptop數(shù)據(jù)集的模型參數(shù)量,這是因?yàn)樵赥witter和MAMS數(shù)據(jù)集的文本數(shù)據(jù)中包含的單詞種類個(gè)數(shù)遠(yuǎn)多于Rest14和Laptop數(shù)據(jù)集,導(dǎo)致在對(duì)文本句子數(shù)據(jù)進(jìn)行單詞向量化時(shí)需要更多的參數(shù)。
本文中提出了一種結(jié)合句子序列和語(yǔ)法關(guān)系的方面級(jí)情感分類(SYFN)模型,它能夠有效地利用句子的序列語(yǔ)義信息和語(yǔ)法結(jié)構(gòu)信息,從2種信息角度提取到與方面詞更加相關(guān)的情感特征信息。此外,多層網(wǎng)絡(luò)融合的機(jī)制進(jìn)一步加強(qiáng)了模型對(duì)2種結(jié)構(gòu)信息的利用能力,使模型能夠同時(shí)處理簡(jiǎn)單和復(fù)雜的句子關(guān)系,最大限度地獲取到與方面詞相關(guān)的情感信息,提高模型的分類能力。實(shí)驗(yàn)結(jié)果表明,SYFN模型能夠處理各種復(fù)雜的句子關(guān)系,在方面級(jí)情感分類中擁有優(yōu)秀的情感分類能力,同時(shí)文中還在消融實(shí)驗(yàn)中驗(yàn)證了SYFN模型各個(gè)組件設(shè)計(jì)思想的合理性。