謝 珺 王雨竹 陳 波 張澤華 劉 琴
(太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院 山西晉中 030600)(xiejun@tyut.edu.cn)
情感分析,又稱(chēng)為觀點(diǎn)挖掘,是自然語(yǔ)言處理領(lǐng)域文本挖掘任務(wù)中的一個(gè)重要研究方向[1].從文本分析的層面來(lái)看,情感分析可以分為粗粒度和細(xì)粒度2種層次[2].其中,屬性情感分析(aspect based sentiment analysis, ABSA),又稱(chēng)為基于評(píng)價(jià)對(duì)象的情感分析,就是一種細(xì)粒度的情感分析任務(wù),目的是識(shí)別文本中不同評(píng)價(jià)對(duì)象的情感極性[1-2].例如,給定一條有關(guān)相機(jī)的評(píng)論“I bought a camera. The picture quality is amazing but the battery life is too short”,“picture quality”和“battery”就是評(píng)論語(yǔ)句中的2個(gè)不同的評(píng)價(jià)對(duì)象(也稱(chēng)屬性),相應(yīng)具有不同的情感極性.對(duì)于評(píng)價(jià)對(duì)象“picture”,情感是正向的,而對(duì)于“battery”,則是負(fù)面的情感.屬性情感分析任務(wù)的目的就是挖掘句子中不同評(píng)價(jià)對(duì)象對(duì)應(yīng)的情感傾向.
屬性情感分析作為細(xì)粒度的情感分析任務(wù),與句子級(jí)別的情感分析相比,評(píng)價(jià)對(duì)象屬性的情感極性不僅與句子的上下文信息有關(guān),還依賴(lài)于屬性相關(guān)的特征信息[3].因此,評(píng)價(jià)對(duì)象屬性的特征信息提取包括2個(gè)方面的關(guān)鍵技術(shù):一方面是與評(píng)價(jià)對(duì)象有關(guān)的文本上下文特征信息的提取,這也是進(jìn)行所有文本分析任務(wù)的首要步驟;另一方面是對(duì)于評(píng)價(jià)對(duì)象的多詞遠(yuǎn)距離依賴(lài)特征信息的捕獲,比如評(píng)價(jià)對(duì)象屬性詞與其他單詞之間存在的句法依存關(guān)系[4].句子的依存分析是一種用來(lái)解釋句法結(jié)構(gòu)、分析句子各成分依賴(lài)關(guān)系的關(guān)鍵技術(shù),可以通過(guò)依存分析圖來(lái)進(jìn)行可視化.如圖1所示,使用stanfordnlp工具(1)https://stanfordnlp.github.io/CoreNLP/demo.html對(duì)句子進(jìn)行句法依存分析的結(jié)果顯示,“short”和“amazing”分別有多條指向其他單詞的有向弧,表示“short”和“amazing”與其他多個(gè)單詞之間存在依賴(lài)關(guān)系,如圖1中顯示的“nsubj”“cop”“conj”等關(guān)系,學(xué)習(xí)特定評(píng)價(jià)對(duì)象與其他單詞,特別是情感描述詞匯之間的依賴(lài)關(guān)系對(duì)于屬性情感分析任務(wù)來(lái)說(shuō)十分重要.
Fig. 1 Dependency tree圖1 依存關(guān)系樹(shù)
在進(jìn)行屬性情感分析任務(wù)的時(shí)候,除了傳統(tǒng)機(jī)器學(xué)習(xí)算法結(jié)合人工設(shè)計(jì)的特征之外,越來(lái)越多的研究人員專(zhuān)注于設(shè)計(jì)相應(yīng)的深度神經(jīng)網(wǎng)絡(luò)模型來(lái)提取有關(guān)評(píng)價(jià)對(duì)象的關(guān)鍵特征.由于文本表達(dá)的上下文關(guān)聯(lián)性,序列型神經(jīng)網(wǎng)絡(luò)尤其是基于長(zhǎng)短期記憶(long short-term memory, LSTM)網(wǎng)絡(luò)的相關(guān)技術(shù)[5-7],已經(jīng)在文本情感分析領(lǐng)域得到了廣泛的應(yīng)用.LSTM神經(jīng)網(wǎng)絡(luò)是傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)的變種,通過(guò)引入門(mén)控機(jī)制解決了傳統(tǒng)RNN模型由于序列長(zhǎng)度遞增而存在的梯度消失和梯度爆炸問(wèn)題.如圖2所示,BiLSTM(bi-directional long short-term memory)可以對(duì)輸入特征序列進(jìn)行雙向編碼表示,學(xué)習(xí)句子的上下文語(yǔ)義信息.但BiLSTM無(wú)法進(jìn)一步捕獲單詞與單詞之間的遠(yuǎn)距離依賴(lài)關(guān)系,利用評(píng)價(jià)對(duì)象與其他單詞之間存在的句法依存關(guān)系可以引入與評(píng)價(jià)對(duì)象相關(guān)的遠(yuǎn)距離依賴(lài)信息.為了對(duì)句法依存關(guān)系樹(shù)等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行局部信息編碼,以GCN(graph convolutional network)為代表的圖神經(jīng)網(wǎng)絡(luò)技術(shù)[8-10]在近幾年的研究中獲得更多的關(guān)注.如圖3所示,GCN是一種基于圖結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò),可以視為傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)在非歐式空間的擴(kuò)展.但是GCN在聚合學(xué)習(xí)的過(guò)程中丟失了詞序信息,忽略了句子的上下文關(guān)系.
Fig. 2 BiLSTM network structure圖2 BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)
Fig. 3 GCN network structure圖3 GCN網(wǎng)絡(luò)結(jié)構(gòu)
針對(duì)序列型神經(jīng)網(wǎng)絡(luò)和圖神經(jīng)網(wǎng)絡(luò)在評(píng)價(jià)對(duì)象特征提取過(guò)程中的不足,本文結(jié)合BiLSTM,GCN和指導(dǎo)注意力機(jī)制,設(shè)計(jì)出一種基于雙指導(dǎo)注意力網(wǎng)絡(luò)的屬性情感分析模型BiG-AN(bi-guide attention network),用于對(duì)相關(guān)評(píng)價(jià)對(duì)象的上下文語(yǔ)義特征以及遠(yuǎn)距離依賴(lài)特征進(jìn)行學(xué)習(xí),并使用注意力機(jī)制增強(qiáng)模型的特征表達(dá)能力,進(jìn)一步提升模型的實(shí)際效果.
本文的主要貢獻(xiàn)包括3個(gè)方面:
1) 利用BiLSTM捕獲句子的上下文信息,在此基礎(chǔ)上,通過(guò)句法依存關(guān)系分析,建立句子的依存關(guān)系鄰接矩陣,并通過(guò)GCN捕獲評(píng)價(jià)對(duì)象的遠(yuǎn)距離依賴(lài)信息.
2) 設(shè)計(jì)了一種融合CGA(context guide aspect)和DGA(dependency guide aspect)注意力的雙指導(dǎo)注意力網(wǎng)絡(luò)BiG-AN,將評(píng)價(jià)對(duì)象的上下文語(yǔ)義特征和遠(yuǎn)距離依賴(lài)特征進(jìn)行融合表示.
3) 將多頭自注意力機(jī)制引入本文所提模型中,融合評(píng)價(jià)對(duì)象的上下文信息和遠(yuǎn)距離依賴(lài)信息,聚合學(xué)習(xí)評(píng)價(jià)對(duì)象的情感特征表示,提高了情感分類(lèi)的結(jié)果.
屬性情感分類(lèi)屬于細(xì)粒度層次的情感分析任務(wù),旨在對(duì)給定對(duì)象屬性的情感極性進(jìn)行判別.許多學(xué)者對(duì)其展開(kāi)研究,設(shè)計(jì)了不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)去融合文本信息和屬性信息,提取相應(yīng)的屬性情感特征進(jìn)行情感極性預(yù)測(cè).Tang等人[5]基于LSTM提出一種屬性情感分析模型TD-LSTM,把句子按照評(píng)價(jià)對(duì)象屬性詞的位置進(jìn)行切分,輸入序列從左到右的上文信息和從右到左的下文信息,然后將2個(gè)LSTM輸出的隱含狀態(tài)特征向量進(jìn)行拼接,最后使用softmax進(jìn)行屬性情感分類(lèi).Wang等人[7]考慮到句子的情感極性除了與句子的上下文信息有關(guān)以外,還與屬性本身密切相關(guān),為了更好地利用屬性本身的信息,提出一種融合屬性信息的ATAE-LSTM情感分析模型,使用LSTM學(xué)習(xí)句子與屬性的共同表示.同樣地,Liang等人[11]通過(guò)設(shè)計(jì)一種深度轉(zhuǎn)換結(jié)構(gòu),將屬性信息引入到句子編碼階段,利用門(mén)機(jī)制指導(dǎo)復(fù)雜特征的選擇和抽取.Ma等人[12]認(rèn)為,由評(píng)價(jià)對(duì)象屬性詞構(gòu)成的序列應(yīng)該與句子序列分開(kāi),單獨(dú)進(jìn)行建模,并且句子序列與屬性詞序列之間具有交互關(guān)系,以往的工作僅僅是針對(duì)其中某一序列,或者是將二者單獨(dú)進(jìn)行分析,沒(méi)有考慮到二者之間的交互性,因此提出一種基于LSTM和交互注意力機(jī)制的IAN屬性情感分析模型,在使用LSTM分別對(duì)句子序列和屬性詞序列進(jìn)行隱含特征學(xué)習(xí)之后,采用交互注意力機(jī)制實(shí)現(xiàn)了二者的交互融合.Fan等人[13]認(rèn)為IAN模型在進(jìn)行交互注意力之前,對(duì)句子序列和評(píng)價(jià)對(duì)象屬性詞序列所進(jìn)行的池化操作過(guò)于簡(jiǎn)單,可能會(huì)導(dǎo)致信息的丟失,因此提出了一種多粒度的注意力網(wǎng)絡(luò)MGAN,用于捕獲評(píng)價(jià)對(duì)象屬性詞和上下文單詞之間的詞級(jí)交互特征,減少粗粒度注意力機(jī)制中的信息損失.在之后的工作中,Tang等人[14]將深層記憶網(wǎng)絡(luò)引入到屬性情感分析的任務(wù)中,結(jié)合注意力機(jī)制學(xué)習(xí)每個(gè)上下文單詞對(duì)屬性特征的重要性.Peng等人[15]認(rèn)為距離評(píng)價(jià)對(duì)象屬性越近的單詞對(duì)屬性情感的影響越大,距離對(duì)象屬性越遠(yuǎn)的單詞對(duì)屬性情感的影響越小,因此在LSTM輸出每個(gè)隱含狀態(tài)之后,通過(guò)距離度量計(jì)算每個(gè)隱含狀態(tài)對(duì)應(yīng)的權(quán)重,然后經(jīng)過(guò)多層的注意力機(jī)制,提取得到更復(fù)雜特征,用于最后的屬性情感分類(lèi)任務(wù).同樣地,劉全等人[16]考慮到當(dāng)前句子的上下文信息對(duì)于屬性情感分類(lèi)的重要性,提出一種LSTM深度分層網(wǎng)絡(luò)模型,分別獲取待分類(lèi)句子內(nèi)部單詞之間的相互聯(lián)系,以及待分類(lèi)句子和評(píng)論中其他句子之間的情感關(guān)聯(lián),并通過(guò)分層注意力機(jī)制來(lái)獲取特定屬性在句子當(dāng)中的局部特征和獲取整個(gè)評(píng)論中的遠(yuǎn)距離依賴(lài)特征.
注意力機(jī)制在以往的屬性情感分析模型當(dāng)中發(fā)揮了重要的作用,使網(wǎng)絡(luò)模型在訓(xùn)練的過(guò)程中可以高度關(guān)注特定的屬性目標(biāo),從而加強(qiáng)學(xué)習(xí)與評(píng)價(jià)對(duì)象屬性語(yǔ)義關(guān)系更為密切的上下文特征,有效識(shí)別不同屬性的情感極性.Song等人[17]設(shè)計(jì)了一個(gè)注意力編碼網(wǎng)絡(luò)AEN來(lái)捕獲評(píng)價(jià)對(duì)象屬性詞、上下文單詞之間的隱含狀態(tài)特征和語(yǔ)義交互特征,強(qiáng)化與評(píng)價(jià)對(duì)象屬性詞相關(guān)的特征表達(dá).梁斌等人[18]提出一種融合多注意力機(jī)制的屬性情感分析模型,該模型通過(guò)多種注意力機(jī)制的融合,有效彌補(bǔ)了僅僅依賴(lài)內(nèi)容層面注意力機(jī)制的不足,使模型可以獲取更深層次的情感特征信息.同樣地,孫小婉等人[19]提出一種面向雙注意力網(wǎng)絡(luò)的屬性情感分析模型,結(jié)合上下文自注意力信息和評(píng)價(jià)對(duì)象屬性的注意力信息,共同作為屬性情感預(yù)測(cè)的依據(jù).He等人[20]在基于注意力方法的基礎(chǔ)上,提出了2種新的方法來(lái)提高注意力的有效性,首先提出一種評(píng)價(jià)對(duì)象屬性的表示方法,更好地捕獲屬性相關(guān)的上下文語(yǔ)義特征;其次將句法依存關(guān)系整合到注意力機(jī)制中,使用依存關(guān)系樹(shù)中的相對(duì)距離來(lái)計(jì)算注意力權(quán)重,提升了模型的表現(xiàn)能力.
句法依存關(guān)系通過(guò)分析給定的語(yǔ)法體系來(lái)推導(dǎo)出句子的句法結(jié)構(gòu),建立依存關(guān)系樹(shù)來(lái)識(shí)別句子中單詞與單詞之間的相互依存關(guān)系[4].對(duì)于屬性情感分析任務(wù)來(lái)說(shuō),學(xué)習(xí)評(píng)價(jià)對(duì)象屬性詞與其他單詞之間的依賴(lài)關(guān)系有助于提升模型的實(shí)際效果.Li等人[21]設(shè)計(jì)了一種規(guī)則,將依存關(guān)系樹(shù)轉(zhuǎn)換為1棵二叉樹(shù),其中屬性詞位于根節(jié)點(diǎn)的2個(gè)子節(jié)點(diǎn)之一的位置,之后通過(guò)使用遞歸神經(jīng)網(wǎng)絡(luò)將屬性詞的情感信息自下而上地傳遞到屬性詞的周?chē)?,得到句子的向量表示之后進(jìn)行屬性情感的判別.同樣使用遞歸神經(jīng)網(wǎng)絡(luò),Nguyen等人[22]同時(shí)考慮了句子的依存樹(shù)和成分樹(shù),豐富了屬性詞的情感特征表達(dá).然而,依存關(guān)系樹(shù)的結(jié)構(gòu)更像是一種非結(jié)構(gòu)化的圖結(jié)構(gòu),如圖1所示,一個(gè)單詞節(jié)點(diǎn)可能與多個(gè)單詞之間存在依賴(lài)關(guān)系,文獻(xiàn)[21-22]工作不能夠?qū)D結(jié)構(gòu)進(jìn)行有效的建模.最近的研究工作表明,結(jié)合依存關(guān)系樹(shù)和GCN的方法在關(guān)系提取[8]、情感分析[23-26]等任務(wù)上取得了不錯(cuò)的效果.Huang等人[23]根據(jù)單詞之間的依存關(guān)系樹(shù)構(gòu)建圖神經(jīng)網(wǎng)絡(luò),之后使用圖注意力機(jī)制和LSTM學(xué)習(xí)與屬性相關(guān)的依賴(lài)信息.Liang等人[24]使用GCN和CNN分別捕獲單詞之間的依存關(guān)系和N元關(guān)系,從而豐富屬性詞的特征信息.Sun等人[9]認(rèn)為基于依存關(guān)系樹(shù)建立的圖卷積神經(jīng)網(wǎng)絡(luò)模型可以縮短屬性詞與其他單詞之間的距離,使得單詞之間的依存關(guān)系能夠在較長(zhǎng)句子的信息傳遞過(guò)程中得以保留,因此提出一種基于依存關(guān)系樹(shù)的圖卷積神經(jīng)網(wǎng)絡(luò)模型CDT用于屬性情感分類(lèi)任務(wù).Zhang等人[25]考慮到在屬性情感分析任務(wù)當(dāng)中,以往的模型可能會(huì)將句法層面不相關(guān)的上下文單詞識(shí)別為與評(píng)價(jià)對(duì)象屬性相關(guān)的情感特征詞,降低最后的分類(lèi)效果,因此在依存關(guān)系樹(shù)的基礎(chǔ)上建立了一個(gè)多層圖卷積神經(jīng)網(wǎng)絡(luò)模型ASGCN,融合注意力機(jī)制進(jìn)一步提升模型的分類(lèi)效果.Zhang等人[26]在依存關(guān)系樹(shù)的基礎(chǔ)上,加入了語(yǔ)料庫(kù)級(jí)別的單詞共現(xiàn)信息,提出一種基于全局詞匯圖的GCN屬性情感特征表示方法,并結(jié)合BiLSTM學(xué)習(xí)得到的隱含狀態(tài)特征信息、使用交叉融合網(wǎng)絡(luò)得到評(píng)價(jià)對(duì)象屬性的聚合表示,用于最后的屬性情感分類(lèi)任務(wù).
本文提出一種基于雙指導(dǎo)注意力網(wǎng)絡(luò)的屬性情感分析模型BiG-AN,實(shí)現(xiàn)了評(píng)價(jià)對(duì)象的上下文信息和依賴(lài)信息的有效融合,最后通過(guò)實(shí)驗(yàn)驗(yàn)證了所提模型的實(shí)際效果.
本文提出BiG-AN模型的整體結(jié)構(gòu)如圖4所示,包括上下文信息編碼模塊、依賴(lài)信息編碼模塊、特征信息融合模塊和情感分類(lèi)模塊4個(gè)部分.
1) 上下文信息編碼模塊.通過(guò)BiLSTM神經(jīng)網(wǎng)絡(luò)對(duì)詞嵌入信息w進(jìn)行編碼,捕獲句子級(jí)文本的上下文信息hc.
2) 依賴(lài)信息編碼模塊.將1)中編碼的上下文信息隱含狀態(tài)向量hc作為輸入,通過(guò)構(gòu)建基于句法依存關(guān)系的圖卷積神經(jīng)網(wǎng)絡(luò),捕獲句子級(jí)文本的遠(yuǎn)距離依賴(lài)特征信息hd.
3) 特征信息融合模塊.為了讓1)和2)實(shí)現(xiàn)更有效的信息融合,針對(duì)評(píng)價(jià)對(duì)象,分別采用CGA和DGA注意力機(jī)制學(xué)習(xí)其上下文信息和依賴(lài)信息.
4) 情感分類(lèi)模塊.將3)中的融合向量hcd經(jīng)過(guò)一個(gè)多頭自注意力模塊f,得到對(duì)特定評(píng)價(jià)對(duì)象最終的聚合表示,并經(jīng)過(guò)一個(gè)全連接層,使用softmax激活函數(shù)進(jìn)行激活,得到屬性表示的情感標(biāo)簽概率分布.
Fig. 4 The overall framework of BiG-AN model圖4 BiG-AN模型網(wǎng)絡(luò)整體框架
本文考慮使用BiLSTM神經(jīng)網(wǎng)絡(luò)對(duì)文本信息進(jìn)行編碼,捕獲單詞的上下文信息(context infor-mation).假設(shè)給定單詞序列s=[w1,w2,…,wa1,wa2,…,wn],其中[wa1,wa2,…,wam]是句子當(dāng)中評(píng)價(jià)對(duì)象的序列.使用Glove[27]詞向量將文本單詞嵌入到dw維的特征空間當(dāng)中,將離散的單詞序列進(jìn)行映射,得到對(duì)應(yīng)的連續(xù)詞向量表示e=(e1,e2,…,ea1,ea2,…,en),ex∈dw.接著將詞向量輸入到BiLSTM中,得到引入了上下文信息的句子表示hc:
(1)
(2)
(3)
接著,使用針對(duì)評(píng)價(jià)對(duì)象的Mask方法,對(duì)隱含狀態(tài)向量序列hc中的非評(píng)價(jià)對(duì)象詞的狀態(tài)進(jìn)行Mask,同時(shí)保持評(píng)價(jià)對(duì)象詞對(duì)應(yīng)的狀態(tài)向量不變,得到序列hc的Zero-Mask嵌入表示:
(4)
(5)
GCN區(qū)別于傳統(tǒng)的LSTM模型,是一種處理非結(jié)構(gòu)化信息數(shù)據(jù)的有效手段,本文通過(guò)對(duì)單詞序列進(jìn)行依存關(guān)系圖形建模,使用多層GCN模型(GCNs)學(xué)習(xí)單詞與單詞之間的依賴(lài)關(guān)系.
任何一個(gè)句子的依存關(guān)系樹(shù)均可以看作是1張包含N個(gè)節(jié)點(diǎn)的有向圖,其中每個(gè)節(jié)點(diǎn)代表句子中對(duì)應(yīng)的單詞,每條邊代表依存關(guān)系圖中單詞與單詞之間的句法依存關(guān)系.根據(jù)圖1所示依存關(guān)系樹(shù)的分析結(jié)果,構(gòu)建如圖5所示的鄰接矩陣關(guān)系圖,用于GCNs的依賴(lài)信息建模.矩陣構(gòu)建的規(guī)則為:
1) 鄰接矩陣是一個(gè)對(duì)角矩陣,維度是固定句子的長(zhǎng)度,矩陣的行表示目標(biāo)節(jié)點(diǎn)i,矩陣的列表示鄰域節(jié)點(diǎn)j,矩陣元素的值表示目標(biāo)節(jié)點(diǎn)i與鄰域節(jié)點(diǎn)j的幾何關(guān)系,即單詞與單詞之間的依賴(lài)情況.
2) 本文所構(gòu)建的鄰接矩陣重點(diǎn)關(guān)注單詞與單詞之間是否存在依賴(lài)關(guān)系,所以不考慮依賴(lài)關(guān)系的類(lèi)型,即鄰接矩陣中不存儲(chǔ)依存分析圖中的有向弧的標(biāo)簽信息,如conj,nsubj等.因此,如果節(jié)點(diǎn)i與節(jié)點(diǎn)j存在依存關(guān)系,則Aij=1,否則Aij=0.以圖1所示的句子為例,單詞“quality”與“amazing”之間存有向弧連接,則矩陣中的對(duì)應(yīng)位置用“1”來(lái)填充,而單詞“quality”沒(méi)有指向“battary”的邊存在,則相應(yīng)位置處用“0”來(lái)表示.另外,關(guān)于是否考慮單詞本身的依賴(lài)關(guān)系,本文在構(gòu)建鄰接矩陣的時(shí)候,均考慮單詞對(duì)于自身的依賴(lài),即當(dāng)i=j,Aij=1.
Fig. 5 Adjacency matrix diagram圖5 鄰接矩陣關(guān)系圖
在構(gòu)建好鄰接矩陣關(guān)系圖之后,本文考慮使用GCNs來(lái)捕獲單詞與單詞之間的依賴(lài)信息.GCNs可以有效地利用依存關(guān)系路徑來(lái)進(jìn)行信息傳遞,并通過(guò)對(duì)傳遞的信息進(jìn)行聚合,來(lái)更新節(jié)點(diǎn)的表示狀態(tài).在本文的具體操作中,認(rèn)為單詞之間的依賴(lài)信息可以在k階鄰域內(nèi)進(jìn)行傳遞,所以,節(jié)點(diǎn)i的狀態(tài)更新采用式(6)表示:
(6)
gc=(hc;ep;ept),
(7)
(8)
其中,符號(hào)“;”表示向量拼接操作,hlgcn∈n×dg表示來(lái)自GCNs編碼輸出的隱含狀態(tài)向量序列,表示節(jié)點(diǎn)i在第lgcn層GCN的輸出,dg是GCNs輸出的隱含狀態(tài)向量的維數(shù).
(9)
(10)
(11)
(12)
其中,Wa∈2dl+dg是可學(xué)習(xí)的權(quán)重矩陣,fs表示注意力打分函數(shù),用于計(jì)算和之間語(yǔ)義相關(guān)性.因此,通過(guò)式(13)計(jì)算DGA-Attention最后的輸出dg,得到基于依賴(lài)信息指導(dǎo)注意力的評(píng)價(jià)對(duì)象的特征表示如式(14)所示.
(13)
(14)
Attention(k,q)=softmax(fs(k,q))·k,
(15)
(16)
(17)
Fig. 6 DGA-Attention implementation process圖6 DGA-Attention實(shí)現(xiàn)過(guò)程圖
(18)
(19)
(20)
(21)
其中,Wmha∈dhid×dhid是特征隱射矩陣,oh∈dhid∥H表示第h頭注意力輸出,h∈[1,H] ,“∥”表示相除并向下取整.
在獲得評(píng)價(jià)對(duì)象的最終聚合表示ha∈dhid之后,將它經(jīng)過(guò)一個(gè)全連接層和softmax歸一化層,得到最終的情感標(biāo)簽概率分布p∈dc.
p=softmax(Wp·ha+bp),
(22)
其中Wp∈dc×r和bp∈dc分別是權(quán)重矩陣和偏置項(xiàng),dc是情感標(biāo)簽概率分布的維數(shù).
本文最終將評(píng)價(jià)對(duì)象的聚合表示通過(guò)一個(gè)softmax函數(shù)激活的全連接層,得到文本表示在不同情感極性上的概率分布,然后通過(guò)反向傳播對(duì)模型進(jìn)行訓(xùn)練,并使用帶有L2正則化項(xiàng)的交叉熵誤差函數(shù)作為模型待優(yōu)化的目標(biāo)函數(shù).
(23)
其中,C是不同情感類(lèi)別的集合,yc∈C是用one-hot向量表示的真實(shí)標(biāo)簽的集合,元素取值為0或是模型輸出層預(yù)測(cè)的情感標(biāo)簽分布,Θ是BiLSTM和GCNs中可訓(xùn)練的參數(shù)集合,λ是L2正則化的衰減系數(shù),用于防止模型出現(xiàn)過(guò)擬合現(xiàn)象.
本文在4個(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),評(píng)估所提模型的分類(lèi)性能.分別是SemEval-2014 Task 4(2)https://alt.qcri.org/semeval2014/task4/,該任務(wù)包括Rest14和Laptop數(shù)據(jù)集.另外2個(gè)數(shù)據(jù)集是來(lái)自SemEval-2016 Task 5(3)https://alt.qcri.org/semeval2016/task5/中的Rest16和Li等人[21]提供的Twitter數(shù)據(jù)集.4個(gè)數(shù)據(jù)集分別拆分了訓(xùn)練集和測(cè)試集,并給出了評(píng)價(jià)對(duì)象所對(duì)應(yīng)的3類(lèi)情感標(biāo)簽.詳細(xì)的數(shù)據(jù)集統(tǒng)計(jì)情況如表1所示:
Table 1 Statistics of Datasets
1) 實(shí)驗(yàn)超參數(shù)設(shè)置
在本文所有的實(shí)驗(yàn)中,模型的權(quán)重參數(shù)使用均勻分布進(jìn)行初始化.為了獲得模型參數(shù)的最優(yōu)組合,所有需要調(diào)節(jié)的超參數(shù)如表2所示:
Table 2 Hyper Parameters Setting of Model
本文所提模型是基于PyTorch 1.0.0版本的深度學(xué)習(xí)框架進(jìn)行實(shí)現(xiàn)的.模型的輸入均采用預(yù)訓(xùn)練的300維Glove詞向量,即dw=300.LSTM和GCNs的隱含層單元數(shù)量分別設(shè)置為50和100,即dl=50,dg=100.多頭自注意力輸出的向量維度設(shè)置為100,即dhid=100.模型訓(xùn)練采用Adamax優(yōu)化器進(jìn)行優(yōu)化,學(xué)習(xí)率設(shè)置為0.01.為了防止模型的過(guò)擬合,除了增加L2正則化損失項(xiàng)之外,還分別對(duì)BiLSTM和GCNs的輸入和輸出采用Dropout機(jī)制,比率分別設(shè)置為0.7和0.1.針對(duì)不同的數(shù)據(jù)集規(guī)模,設(shè)置不同的Mini-batch大小,其中Laptop數(shù)據(jù)集設(shè)置為32,Rest14數(shù)據(jù)集設(shè)置為64,Rest16和Twitter數(shù)據(jù)集設(shè)置為128,所有訓(xùn)練過(guò)程均進(jìn)行100次迭代.
2) 評(píng)估標(biāo)準(zhǔn)
為了驗(yàn)證本文所提模型的提升效果,采用準(zhǔn)確率Acc和Marco-F1值來(lái)衡量模型最終的分類(lèi)效果,計(jì)算過(guò)程如式(24)(25)所示,同時(shí)采用混淆矩陣來(lái)直觀地判別模型分類(lèi)性能的好壞.分別選取3個(gè)固定的隨機(jī)種子進(jìn)行實(shí)驗(yàn),以減少實(shí)驗(yàn)過(guò)程的隨機(jī)性.實(shí)驗(yàn)結(jié)果在測(cè)試集上進(jìn)行評(píng)估,選擇最優(yōu)的超參數(shù),然后選取3次實(shí)驗(yàn)的Acc和Marco-F1的平均值作為最終的實(shí)驗(yàn)結(jié)果.
(24)
(25)
其中,All表示所有類(lèi)別樣本的總數(shù),T表示所有樣本中預(yù)測(cè)正確的總數(shù).Pc和Rc分別是針對(duì)類(lèi)別c的精確率和召回率,考慮到本實(shí)驗(yàn)所選數(shù)據(jù)集的樣本分布,單獨(dú)計(jì)算每個(gè)類(lèi)別的F1值,然后取各類(lèi)別F1值的平均值作為最后的評(píng)價(jià)標(biāo)準(zhǔn),即Marco-F1.
本文選用了近年來(lái)表現(xiàn)相對(duì)優(yōu)異的8種方法來(lái)進(jìn)行實(shí)驗(yàn)的對(duì)比分析,包括基于LSTM和基于GCN的2類(lèi)基準(zhǔn)模型.
1) ATAE-LSTM[7].一種經(jīng)典的基于LSTM的屬性情感分析模型.該模型主要通過(guò)注意力機(jī)制來(lái)捕獲上下文信息和評(píng)價(jià)對(duì)象之間的重要關(guān)系,將評(píng)價(jià)對(duì)象的詞向量表征加入到每個(gè)單詞向量中,結(jié)合注意力機(jī)制與LSTM對(duì)句子進(jìn)行語(yǔ)義建模.
2) IAN[12].一種基于LSTM和交互注意力機(jī)制的屬性情感分析模型.該模型采用LSTM分別對(duì)單詞序列和評(píng)價(jià)對(duì)象序列進(jìn)行建模,通過(guò)交互注意力機(jī)制捕獲評(píng)價(jià)對(duì)象和句子向量之間的重要性表征.
3) RAM[15].一種基于多重注意力機(jī)制的屬性情感分析模型.該模型將多重注意力捕獲的遠(yuǎn)距離語(yǔ)義特征和LSTM捕獲的上下文特征進(jìn)行非線性組合,得到句子的最終表示.
4) AEN[17].一種基于注意力編碼網(wǎng)絡(luò)的屬性情感分析模型.該模型通過(guò)注意力編碼層學(xué)習(xí)輸入單詞向量之間的語(yǔ)義表示,然后經(jīng)過(guò)LSTM進(jìn)一步捕獲句子的深層語(yǔ)義表達(dá).
5) TD-GAT[23].一種基于圖注意力網(wǎng)絡(luò)的屬性情感分析模型.該模型使用圖注意力網(wǎng)絡(luò)來(lái)學(xué)習(xí)單詞與單詞之間的依賴(lài)信息,之后通過(guò)LSTM學(xué)習(xí)評(píng)價(jià)對(duì)象與句子向量的上下文表征.
6) ASGCN[25].一種結(jié)合注意力機(jī)制和圖卷積神經(jīng)網(wǎng)絡(luò)的屬性情感分析模型.該模型通過(guò)特定屬性的注意力機(jī)制,結(jié)合圖卷積網(wǎng)絡(luò)學(xué)習(xí)與評(píng)價(jià)對(duì)象有關(guān)的句子特征,用于最終的情感分類(lèi)任務(wù).
7) CDT[9].一種結(jié)合句法依存關(guān)系和圖卷積神經(jīng)網(wǎng)絡(luò)的屬性情感分析模型.該模型使用LSTM學(xué)習(xí)句法關(guān)系強(qiáng)化的上下文特征,然后經(jīng)過(guò)圖卷積網(wǎng)絡(luò)捕獲評(píng)價(jià)對(duì)象的遠(yuǎn)距離依賴(lài)信息.
8) BiGCN[26].一種基于雙向圖卷積神經(jīng)網(wǎng)絡(luò)的屬性情感分析模型.該模型通過(guò)建立層次句法圖和層次詞匯圖,之后經(jīng)過(guò)雙層交互式圖卷積神經(jīng)網(wǎng)絡(luò)捕獲句子之間的聚合信息.
為了驗(yàn)證所提模型可以同時(shí)捕獲特定評(píng)價(jià)對(duì)象的上下文信息和遠(yuǎn)距離依賴(lài)信息,本文設(shè)計(jì)了以下3組消融實(shí)驗(yàn)進(jìn)行分析.
本文主要進(jìn)行了2組實(shí)驗(yàn):一是將本文提出的BiG-AN模型與基于LSTM構(gòu)建的屬性情感分析模型進(jìn)行對(duì)比;二是將BiG-AN模型與不同的GCN基準(zhǔn)模型進(jìn)行對(duì)比,對(duì)比實(shí)驗(yàn)結(jié)果如表3所示:
Table 3 Comparison Results of Different Models
從表3的實(shí)驗(yàn)結(jié)果可以看出,本文提出的BiG-AN模型的分類(lèi)準(zhǔn)確率和Marco-F1值均取得了不錯(cuò)的結(jié)果.其中,在Twitter,Laptop,Rest14數(shù)據(jù)集上均取得了最優(yōu)的分類(lèi)準(zhǔn)確率,分別達(dá)到了74.89%,79.75%,82.48%,相較于基準(zhǔn)模型的最優(yōu)結(jié)果分類(lèi)準(zhǔn)確率分別提高了0.31,3.32,0.22個(gè)百分點(diǎn).其Marco-F1值也是較優(yōu)的,在Twitter,Rest14,Rest16數(shù)據(jù)集上,相較于最優(yōu)的Marco-F1值分別相差0.34,0.36,0.33個(gè)百分點(diǎn).另外,BiG-AN在Laptop數(shù)據(jù)集上,Acc和Marco-F1值均達(dá)到了最優(yōu)結(jié)果,而且有較大的提升,分別提升了3.32,3.33,2.43個(gè)百分點(diǎn),驗(yàn)證了BiG-AN相較于其他模型的優(yōu)越性.
根據(jù)上述對(duì)比實(shí)驗(yàn)結(jié)果可知,基于GCN構(gòu)建的模型效果基本上優(yōu)于僅使用LSTM構(gòu)建的模型效果,說(shuō)明GCN可以學(xué)習(xí)到除了上下文語(yǔ)義信息以外的其他信息,輔助評(píng)價(jià)對(duì)象的情感判別.具體來(lái)說(shuō),LSTM更關(guān)注單詞的上下文信息,而且隨著句子長(zhǎng)度的增加,學(xué)習(xí)到的與評(píng)價(jià)對(duì)象情感判別無(wú)關(guān)的噪聲信息也增加,而GCN可以通過(guò)構(gòu)圖來(lái)實(shí)現(xiàn)單詞與單詞之間的遠(yuǎn)距離連接和信息傳遞.另外,通過(guò)句法依存關(guān)系樹(shù)進(jìn)行建圖,可以進(jìn)一步學(xué)習(xí)單詞與單詞之間的依賴(lài)關(guān)系,得到基于依賴(lài)關(guān)系的評(píng)價(jià)對(duì)象的最終表示.
為了更直觀地顯示模型的實(shí)驗(yàn)效果,本文使用混淆矩陣對(duì)分類(lèi)結(jié)果進(jìn)行可視化,圖7(a)~(d)依次為T(mén)witter,Laptop,Rest14,Rest16數(shù)據(jù)集情感分類(lèi)的混淆矩陣,Positive,Neutral,Negative類(lèi)別分別對(duì)應(yīng)標(biāo)簽值1,0,-1.對(duì)于Twitter和Laptop數(shù)據(jù)集,BiG-AN在3個(gè)類(lèi)別上均有很好的區(qū)分,而Rest14和Rest16數(shù)據(jù)集的混淆矩陣結(jié)果顯示,在對(duì)Neutral類(lèi)別進(jìn)行判別的時(shí)候,錯(cuò)分的概率較大,這也是導(dǎo)致實(shí)驗(yàn)結(jié)果的準(zhǔn)確率Acc很高,但是相應(yīng)的Marco-F1值卻相對(duì)低的原因.具體來(lái)說(shuō),在計(jì)算Marco-F1值的時(shí)候,由于Neutral類(lèi)別的F1值很小,最后對(duì)3個(gè)類(lèi)別的F1值進(jìn)行平均,致使結(jié)果大大降低.
Fig. 7 The confusion matrix results of different datasets圖7 不同數(shù)據(jù)集的混淆矩陣結(jié)果圖
最后,為了進(jìn)一步驗(yàn)證所提模型的有效性,分別考慮模型不同的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)實(shí)驗(yàn)效果的影響,在模型相應(yīng)參數(shù)保持不變的情況下進(jìn)行消融實(shí)驗(yàn)的結(jié)果如圖8~11所示.結(jié)合Acc和Macro-F1值2個(gè)評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果顯示,采用依賴(lài)信息指導(dǎo)注意力機(jī)制的DGA-AN模型表現(xiàn)普遍均優(yōu)于采用上下文信息指導(dǎo)注意力機(jī)制的CGA-AN模型.這同時(shí)表明,在進(jìn)行情感分類(lèi)的過(guò)程中,與評(píng)價(jià)對(duì)象存在句法依賴(lài)關(guān)系的單詞相較于評(píng)價(jià)對(duì)象相鄰的上下文單詞具有更重要的語(yǔ)義信息.
Fig. 8 Ablation experimental results of Twitter圖8 Twitter消融實(shí)驗(yàn)結(jié)果
Fig. 9 Ablation experimental results of Laptop圖9 Laptop消融實(shí)驗(yàn)結(jié)果
Fig. 10 Ablation experimental results of Rest14圖10 Rest14消融實(shí)驗(yàn)結(jié)果
Fig. 11 Ablation experimental results of Rest16圖11 Rest16消融實(shí)驗(yàn)結(jié)果
本文所設(shè)計(jì)BiG-AN模型結(jié)合CGA和DGA注意力機(jī)制,可以進(jìn)一步融合評(píng)價(jià)對(duì)象的上下文語(yǔ)義特征和遠(yuǎn)距離依賴(lài)特征,有助于增強(qiáng)模型的特征表達(dá)能力,提高模型的性能.另外,對(duì)比BiG-AN w/o MHA和BiG-AN模型的結(jié)果可以看出,與直接將融合特征輸出到分類(lèi)層相比,將融合特征通過(guò)MHA進(jìn)行學(xué)習(xí)表示可以進(jìn)一步捕獲特征之間的重要聯(lián)系,學(xué)習(xí)到更高質(zhì)量的特征信息.
綜合上述分析,所提BiG-AN模型可以通過(guò)BiLSTM和GCNs網(wǎng)絡(luò)分別引入評(píng)價(jià)對(duì)象的上下文語(yǔ)義信息和評(píng)價(jià)對(duì)象的遠(yuǎn)距離句法依賴(lài)信息,之后通過(guò)CGA和DGA注意力機(jī)制增強(qiáng)模型的特征表示學(xué)習(xí)能力,并通過(guò)交互機(jī)制學(xué)習(xí)上下文特征和依賴(lài)特征之間的交互關(guān)系,最后將融合特征序列通過(guò)多頭自注意力機(jī)制進(jìn)行結(jié)合,進(jìn)一步提高模型的性能.
本文提出一種基于雙指導(dǎo)注意力網(wǎng)絡(luò)的BiLSTM和GCNs結(jié)合的屬性情感分析模型BiG-AN,該模型能夠通過(guò)CGA和DGA注意力機(jī)制同時(shí)關(guān)注到句子中對(duì)屬性情感極性分類(lèi)重要的上下文信息和遠(yuǎn)距離依賴(lài)信息,并實(shí)現(xiàn)2種特征信息的交互傳遞,增強(qiáng)模型對(duì)于屬性級(jí)別文本特征的提取表示能力.實(shí)驗(yàn)結(jié)果表明,BiG-AN模型在Twitter,Laptop,Rest14數(shù)據(jù)集上均取得了最優(yōu)的Acc值和較優(yōu)的Marco-F1值,但是在Rest16數(shù)據(jù)集上取得的Acc值不佳,可能是因?yàn)镽est16數(shù)據(jù)集是類(lèi)別嚴(yán)重不平衡的,BiG-AN模型在優(yōu)化Marco-F1值的時(shí)候更多的關(guān)注到數(shù)據(jù)較少的Neutral類(lèi)別,從而影響了模型最終的Acc.所以,下一步的研究工作將針對(duì)存在的問(wèn)題對(duì)模型進(jìn)行改進(jìn),以達(dá)到更好的效果.
作者貢獻(xiàn)聲明:謝珺負(fù)責(zé)提出算法思路和網(wǎng)絡(luò)模型;王雨竹負(fù)責(zé)設(shè)計(jì)實(shí)驗(yàn)方案并撰寫(xiě)論文;陳波負(fù)責(zé)編寫(xiě)代碼完成實(shí)驗(yàn);張澤華負(fù)責(zé)提出指導(dǎo)意見(jiàn)并修改論文;劉琴負(fù)責(zé)整理實(shí)驗(yàn)結(jié)果并繪制圖表.