張文豪,廖列法,2,王茹霞
(1.江西理工大學(xué) 信息工程學(xué)院,江西 贛州 341000;2.江西理工大學(xué) 軟件工程學(xué)院,南昌 330000)
隨著大數(shù)據(jù)時(shí)代的到來(lái),互聯(lián)網(wǎng)上產(chǎn)生的數(shù)據(jù)呈爆炸式增長(zhǎng),對(duì)數(shù)據(jù)分析的需求也越來(lái)越大。方面級(jí)情感分析是數(shù)據(jù)分析中的一種,旨在分析用戶評(píng)論數(shù)據(jù)中的情感極性(如消極、中性或積極),方便企業(yè)推薦用戶感興趣的內(nèi)容以及了解用戶的喜好。
方面級(jí)情感分析早期大都采用機(jī)器學(xué)習(xí)方法[1]進(jìn)行分析,需要大量的人力對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,還需要通過(guò)人工建立情感詞典并訓(xùn)練出分類模型,這對(duì)研究人員提出了很高的要求,且過(guò)程耗費(fèi)精力,容易出錯(cuò)。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,各種神經(jīng)網(wǎng)絡(luò)模型[2-3]被用于方面級(jí)情感分析任務(wù)中,大部分方法是通過(guò)神經(jīng)網(wǎng)絡(luò)結(jié)合注意力機(jī)制[4-5]來(lái)完成情感分析。文獻(xiàn)[6]利用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)單獨(dú)對(duì)方面詞和上下文進(jìn)行建模,并利用交互式注意力網(wǎng)絡(luò)分別學(xué)習(xí)并生成方面詞和上下文的交互特征。文獻(xiàn)[7]提出一種細(xì)粒度注意力機(jī)制,用于捕獲方面詞和上下文之間詞級(jí)別的信息交互,然后將粗粒度注意力與細(xì)粒度注意力相結(jié)合用于最終的情感極性預(yù)測(cè)。上述方法大多通過(guò)神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)句子中的語(yǔ)義信息,然后通過(guò)注意力機(jī)制獲得文本序列與方面詞的交互信息,它們大多都忽略了對(duì)語(yǔ)法信息的獲取。
近年來(lái),圖卷積網(wǎng)絡(luò)(Graph Convolutional Netwoks,GCN)[8]被廣泛應(yīng)用于情感分析任務(wù)中。文獻(xiàn)[9]利用GCN 進(jìn)行文本分類,然后通過(guò)依存句法樹完成方面級(jí)情感分析。這種結(jié)合依存句法樹和GCN 的方法可以縮短方面詞與情感詞之間的距離,并利用GCN 進(jìn)行語(yǔ)法信息的學(xué)習(xí)。文獻(xiàn)[10]利用句子的依存關(guān)系構(gòu)建鄰接矩陣,通過(guò)GCN 學(xué)習(xí)句子中的語(yǔ)法關(guān)系,驗(yàn)證了GCN 可以正確捕獲句法信息和遠(yuǎn)程單詞依賴關(guān)系。文獻(xiàn)[11]提出一種新的網(wǎng)絡(luò)架構(gòu),利用多層圖注意力網(wǎng)絡(luò)將情感特征詞與方面詞相連接。文獻(xiàn)[12]認(rèn)為普通的鄰接矩陣缺少了詞與詞之間的依存關(guān)系和共現(xiàn)關(guān)系,其將層次句法圖和層次詞匯圖(Hierarchical Lexical Graph,HLG)代替普通的鄰接矩陣來(lái)進(jìn)行語(yǔ)法學(xué)習(xí)。例如,“food was okay,nothing special.”句子中的“nothing special”單詞對(duì)在訓(xùn)練集中出現(xiàn)了5次,并且該單詞對(duì)表示消極的情感極性,在這種情況下,如果要正確預(yù)測(cè)“food”方面詞的情感極性,則需要有其他信息來(lái)抵消句中出現(xiàn)的“okay”的積極性。
受上述方法的啟發(fā),本文提出MILFST 模型,該模型同時(shí)進(jìn)行語(yǔ)義信息和語(yǔ)法信息的學(xué)習(xí),通過(guò)使用層次詞匯圖代替普通的依存句法樹來(lái)完成語(yǔ)法信息的學(xué)習(xí),并借助層次詞頻圖代替普通的依存句法樹進(jìn)行圖卷積網(wǎng)絡(luò)的語(yǔ)法信息學(xué)習(xí)。在此基礎(chǔ)上,將相對(duì)距離和語(yǔ)法距離信息融合后嵌入模型中。本文的主要工作如下:
1)將相對(duì)距離和語(yǔ)法距離融合后嵌入模型中,同時(shí)考慮單詞的相對(duì)距離和語(yǔ)法距離對(duì)方面詞的影響。
2)考慮單詞在依存句法樹上不同位置對(duì)分析結(jié)果的影響,分析單詞在句法樹中的高度以及單詞節(jié)點(diǎn)所含有的度數(shù)在文本序列中的重要程度。
3)同時(shí)對(duì)語(yǔ)義信息和語(yǔ)法信息進(jìn)行學(xué)習(xí),使文本序列含有更豐富的信息,更充分地提取方面詞信息。
4)引入層次詞匯圖來(lái)代替普通的依存句法樹,既能捕捉語(yǔ)法信息,又能關(guān)注詞匯之間的共現(xiàn)關(guān)系,從而提高語(yǔ)法學(xué)習(xí)的效率。
通過(guò)神經(jīng)網(wǎng)絡(luò)模型處理方面級(jí)情感分析任務(wù),大多都是使用詞嵌入層[13-14]作為模型的起始層,主要是因?yàn)樵~嵌入層能將文本序列信息一一映射到低維的向量空間,然后通過(guò)各種深度學(xué)習(xí)模型來(lái)對(duì)映射到低維向量空間中的信息進(jìn)行學(xué)習(xí)。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)早期是用在圖像處理任務(wù)中,主要通過(guò)卷積核提取圖像的局部信息。自從CNN 被用在自然語(yǔ)言處理任務(wù)中[15],研究人員開始利用CNN 結(jié)合其他模型進(jìn)一步提取特征信息。文獻(xiàn)[16]采用多層CNN 來(lái)并行地對(duì)上下文進(jìn)行建模,然后利用注意力機(jī)制來(lái)關(guān)聯(lián)上下文和方面詞之間的信息。文獻(xiàn)[17]提出一種CNN 結(jié)合門控機(jī)制的模型,該模型過(guò)濾與方面詞信息無(wú)關(guān)的情感特征,然后根據(jù)方面詞有選擇性地輸出相關(guān)的情感特征。
有研究表明[18-19],在方面級(jí)情感分析任務(wù)中,句中每個(gè)詞對(duì)方面詞都有不同程度的影響,距離方面詞越遠(yuǎn)的詞對(duì)方面詞影響越小,距離方面詞越近的詞對(duì)方面詞影響越大。因此,句中單詞和方面詞之間的距離可以分為相對(duì)距離和語(yǔ)法距離。文獻(xiàn)[20]利用加權(quán)卷積網(wǎng)絡(luò)來(lái)探索相對(duì)位置關(guān)系和語(yǔ)法距離關(guān)系,研究結(jié)果表明,語(yǔ)法距離關(guān)系比相對(duì)距離關(guān)系更有利于方面詞分類。文獻(xiàn)[21]將語(yǔ)法位置信息融合到模型中,實(shí)驗(yàn)結(jié)果證明了語(yǔ)法位置信息能夠讓模型更好地理解上下文和方面詞之間的關(guān)系。
隨著情感分析研究的不斷深入,語(yǔ)法信息被不斷地挖掘。例如,通過(guò)使用語(yǔ)法解析工具,可以將句子“The food was excellent as well as service,however,I left the four seasons very disappointed.”解析成一棵具有語(yǔ)法信息的依存句法樹,如圖1 所示。句子中有3 個(gè)方面詞,即food、service 和seasons。從句中可以推斷出方面詞“food”和“service”是積極的,“seasons”是消極的。以往許多模型在一些情況下會(huì)關(guān)注錯(cuò)誤的單詞。在圖1中,對(duì)于“service”方面詞,很多模型會(huì)錯(cuò)誤地關(guān)注“well”,但是從整個(gè)句子來(lái)看,判斷“service”方面詞的情感極性依賴的是“excellent”而不是“well”。從依存句法樹上看,“service”通過(guò)依存關(guān)系“attr”和“acomp”與“excellent”相連接,減少了“well”對(duì)方面詞的影響。
圖1 依存句法樹Fig.1 Dependency syntax tree
圖卷積網(wǎng)絡(luò)的優(yōu)點(diǎn)是能夠很好地捕獲依存句法樹的結(jié)構(gòu)信息,彌補(bǔ)其他模型難以捕獲語(yǔ)法信息的缺陷。文獻(xiàn)[22]通過(guò)鍵值記憶網(wǎng)絡(luò)有選擇性地利用依賴信息,然后根據(jù)記憶機(jī)制對(duì)不同的依賴信息進(jìn)行加權(quán),有效地甄別無(wú)用的信息。文獻(xiàn)[12]使用層次句法圖和層次詞匯圖來(lái)進(jìn)行語(yǔ)法信息學(xué)習(xí)。層次詞匯圖將語(yǔ)料庫(kù)中2 個(gè)詞出現(xiàn)的頻率作為連接因素,根據(jù)這個(gè)因素對(duì)每一個(gè)句子構(gòu)建層次詞匯圖。如圖2 所示,在語(yǔ)料庫(kù)中,很多詞共同出現(xiàn)的概率很低,只有少數(shù)一些詞的共現(xiàn)概率很大。因此,層次詞匯圖根據(jù)共現(xiàn)次數(shù)的對(duì)數(shù)的正態(tài)分布頻率進(jìn)行分組。其中,d1和d2分別表示共現(xiàn)頻率為20和21的詞對(duì),d3,…,d7表示共現(xiàn)頻率在[2k+1,2k+1] (1 ≤k≤5)區(qū)間的詞對(duì),d8表示共現(xiàn)頻率大于26的詞對(duì)。最后,基于詞匯共現(xiàn)頻率構(gòu)造層次詞匯圖HLG={Vd,Ed,Rd},其中,Vd表示圖中的節(jié)點(diǎn)集合,Ed表示圖中的邊集合,Rd表示詞對(duì)共現(xiàn)關(guān)系的集合。
圖2 層次詞匯圖Fig.2 Hierarchical lexical graph
給定一個(gè)文本序列s={w1,w2,…,wn}和方面詞序列a={wt,wt+1,…,wt+m-1},其中,文本序列中含有n個(gè)詞,方面詞序列中含有m個(gè)詞,并且方面詞序列a是文本序列s中的一個(gè)子序列。本文模型結(jié)構(gòu)如圖3 所示,模型總共分為7層,分別是詞嵌入層、隱藏層、位置嵌入層、學(xué)習(xí)層、注意力層、特征提取層和池化層。其中,學(xué)習(xí)層分為2 個(gè)模塊,分別是語(yǔ)義學(xué)習(xí)模塊和語(yǔ)法學(xué)習(xí)模塊,注意力層也分為2 個(gè)部分,分別是語(yǔ)義優(yōu)化注意力和語(yǔ)法優(yōu)化注意力。
圖3 MILFST 模型結(jié)構(gòu)Fig.3 MILFST model structure
本文使用GloVe 作為詞嵌入層,通過(guò)GloVe 預(yù)訓(xùn)練模型,將文本序列中的每個(gè)詞一一映射到向量空間中,然后每個(gè)詞都由向量表示,詞向量wi∈Rda,其中,da表示詞向量的維度。再將詞向量輸入到雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)中 獲得隱藏層向量H={h1,h2,…,hn}。隱藏層向量計(jì)算公式如下:
2.2.1 樹形結(jié)構(gòu)
依存句法樹代表的是一個(gè)句子的語(yǔ)法信息,現(xiàn)有研究目前還未利用依存句法樹中節(jié)點(diǎn)的度和深度進(jìn)行信息更新,更多的是利用依存句法樹進(jìn)行圖卷積操作。
句法樹表示的是一個(gè)句子的語(yǔ)法信息,如圖4所示,該樹由圖1 中的依存句法樹簡(jiǎn)化而來(lái)。“The”“as”“well”和“very”等詞都是一些修飾詞,這些詞在語(yǔ)法中起到加強(qiáng)的作用,但是,模型在學(xué)習(xí)一些信息時(shí)會(huì)受到這些詞的影響。例如,單獨(dú)“well”表示好的意思,在句中,它只是作為一個(gè)連詞,起連接的作用,如果只是對(duì)這個(gè)句子進(jìn)行學(xué)習(xí),“well”會(huì)影響“service”的判斷。在句法樹中,“well”距離“service”較遠(yuǎn),對(duì)“service”的影響較小。在此句中的修飾詞可能會(huì)在其他句中修飾含義相反的詞,從而影響方面詞情感極性的判斷。從依存句法樹中可以看出,往往一些修飾詞或者噪聲詞的深度更深,而且該節(jié)點(diǎn)的度都是1。因此,在學(xué)習(xí)句子信息之前,需要盡量降低一些修飾詞和噪聲詞的影響。
圖4 簡(jiǎn)化的依存句法樹Fig.4 Simplified dependency syntax tree
式(2)、式(3)分別是詞節(jié)點(diǎn)的度和深度的權(quán)重公式:
其中:di和dmax分別表示當(dāng)前節(jié)點(diǎn)的度和依存句法樹中最大的度;gi和gmax分別表示當(dāng)前節(jié)點(diǎn)所在的深度和依存句法樹中最大的深度。最后,根據(jù)句法樹的2 個(gè)權(quán)重公式進(jìn)行信息更新,如下:
2.2.2 位置編碼
本文采用位置編碼來(lái)關(guān)聯(lián)上下文和方面詞之間的關(guān)系。位置編碼分為語(yǔ)法位置編碼和相對(duì)位置編碼。語(yǔ)法位置編碼在依存句法樹中考慮單詞與方面詞之間的距離。例如,在圖4中,方面詞“food”與“excellent”通過(guò)“was”相連,因此,它們的語(yǔ)法距離為2。語(yǔ)法位置編碼計(jì)算公式如下:
其中:di表示方面詞與其他詞在依存句法樹中的距離;n表示句中單詞的個(gè)數(shù)。
相對(duì)位置編碼是根據(jù)每個(gè)詞與方面詞的距離不同進(jìn)行權(quán)重分配,距離方面詞越遠(yuǎn)的詞信息就越弱,距離方面詞越近的詞信息就越強(qiáng)。根據(jù)此分配方法,相對(duì)位置編碼計(jì)算公式如下:
通過(guò)式(5)和式(6)對(duì)上下文進(jìn)行位置編碼后,需要將編碼后的信息嵌入模型中,嵌入后隱藏層表示如下:
其中:es,i表示語(yǔ)法位置嵌入表示;er,i表示相對(duì)位置嵌入表示。
一個(gè)句子同時(shí)包含語(yǔ)義信息和語(yǔ)法信息,從以往的研究中可以得出[12,18],這2 種信息對(duì)于方面詞情感極性判斷都有作用。本文模型設(shè)計(jì)2 個(gè)模塊分別對(duì)語(yǔ)義信息和語(yǔ)法信息進(jìn)行學(xué)習(xí)。
2.3.1 語(yǔ)法學(xué)習(xí)模塊
圖卷積是在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)上的一種改進(jìn),主要是對(duì)圖結(jié)構(gòu)進(jìn)行操作。對(duì)于圖結(jié)構(gòu)中的每個(gè)節(jié)點(diǎn),圖卷積都要考慮該節(jié)點(diǎn)自身的特征信息以及它所有鄰居節(jié)點(diǎn)的特征信息,這樣可以有效地獲取2 個(gè)相連節(jié)點(diǎn)之間的信息。在進(jìn)行方面級(jí)情感分析時(shí),可以根據(jù)依存句法樹中的邊進(jìn)行信息的傳遞與獲取。例如,對(duì)于圖4 中的方面詞“service”,在依存句法樹中該節(jié)點(diǎn)連接的是“was”節(jié)點(diǎn),“was”節(jié)點(diǎn)連接的是“excellent”節(jié)點(diǎn)。因此,在進(jìn)行信息獲取時(shí),“excellent”節(jié)點(diǎn)會(huì)將特征信息先傳入“was”節(jié)點(diǎn)中,然后再將特征信息傳入“service”中。在進(jìn)行信息獲取時(shí),這縮短了在相對(duì)位置中傳遞信息的距離,有效減少了傳遞過(guò)程中的噪聲。
由于普通的圖卷積操作中不含帶標(biāo)記邊的圖,因此本文利用文獻(xiàn)[12]中的層次詞匯圖進(jìn)行語(yǔ)法學(xué)習(xí),該圖不僅包含句法樹結(jié)構(gòu),還包含詞之間的共現(xiàn)關(guān)系。通過(guò)該圖卷積,能夠?qū)⑾嗤铂F(xiàn)關(guān)系的詞合并到虛擬節(jié)點(diǎn),然后對(duì)合并的所有虛擬節(jié)點(diǎn)進(jìn)行信息更新。虛擬節(jié)點(diǎn)信息更新如下:
其中:⊕r表示不同共現(xiàn)關(guān)系類型的連接;l表示層數(shù);wl表示第l層中的權(quán)重表示每一種共現(xiàn)關(guān)系r的表示。
2.3.2 語(yǔ)義學(xué)習(xí)模塊
在圖卷積出現(xiàn)之前,大多數(shù)的模型都是通過(guò)對(duì)語(yǔ)義的學(xué)習(xí)來(lái)提高對(duì)方面詞情感極性的判斷。本文使用多層卷積神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)義信息進(jìn)行學(xué)習(xí)。卷積神經(jīng)網(wǎng)絡(luò)通過(guò)卷積核將一個(gè)文本序列對(duì)應(yīng)的矩陣以滑動(dòng)窗口的方式提取相鄰單詞之間的信息。卷積核的高通常設(shè)為3,長(zhǎng)為詞向量的維度。因此,在進(jìn)行卷積操作時(shí),往往會(huì)被一些噪聲詞影響。本文模型在語(yǔ)義學(xué)習(xí)之前,在位置編碼時(shí)就對(duì)噪聲詞進(jìn)行削弱。因此,相對(duì)于文獻(xiàn)[16]中的模型,本文模型在進(jìn)行語(yǔ)義學(xué)習(xí)時(shí)減少了一些對(duì)噪聲詞的操作。利用式(10)進(jìn)行語(yǔ)義信息的學(xué)習(xí):
其中:CNN 表示卷積操作;l表示卷積神經(jīng)網(wǎng)絡(luò)層數(shù)。
在學(xué)習(xí)層進(jìn)行語(yǔ)義和語(yǔ)法學(xué)習(xí)之后,需要對(duì)這2 個(gè)部分信息進(jìn)行優(yōu)化融合??紤]到語(yǔ)義信息和語(yǔ)法信息存在一些差異性,直接將兩者進(jìn)行注意力融合會(huì)導(dǎo)致融合不充分。因此,為了更好地融合這2 種信息,借助樹形結(jié)構(gòu)化的信息分別對(duì)語(yǔ)義信息和語(yǔ)法信息進(jìn)行注意力融合優(yōu)化。注意力層分為語(yǔ)義優(yōu)化注意力和語(yǔ)法優(yōu)化注意力2 個(gè)部分,分別對(duì)語(yǔ)義信息和語(yǔ)法信息進(jìn)行融合優(yōu)化。2 個(gè)部分具體如下:
1)語(yǔ)義優(yōu)化注意力。
語(yǔ)義優(yōu)化注意力主要是將語(yǔ)義學(xué)習(xí)模塊學(xué)到的信息hi,c,l與樹形結(jié)構(gòu)化信息進(jìn)行交互優(yōu)化,如式(11)~式(13)所示:
其中:exp表示以e為底的指數(shù)函數(shù);Si,α表示語(yǔ)義優(yōu)化注意力的輸出。
2)語(yǔ)法優(yōu)化注意力。
語(yǔ)法優(yōu)化注意力主要是將語(yǔ)法學(xué)習(xí)模塊學(xué)習(xí)到的語(yǔ)法信息hi,l與樹形結(jié)構(gòu)化信息進(jìn)行交互優(yōu)化,如式(14)~式(16)所示:
其中:Gi,β表示語(yǔ)法優(yōu)化注意力的輸出。
方面詞的信息對(duì)方面詞情感極性的判斷尤為重要,特征提取層則是對(duì)方面詞信息進(jìn)行提取,分別從語(yǔ)義信息和語(yǔ)法信息中提取方面詞的信息。方面詞信息提取公式如下:
其中:a表示方面詞信息。使用式(17)分別提取語(yǔ)義信息和語(yǔ)法信息中的方面詞信息,分別記為as和ag。
在提取方面詞信息之后,將提取的方面詞信息進(jìn)行整合,對(duì)as和ag進(jìn)行拼接。方面詞信息整合公式如下:
將整合后的方面詞信息通過(guò)池化層進(jìn)行最大池化操作,進(jìn)一步篩選方面詞的有效信息,如下:
其中:max_pooling 表示最大池化。
將得到的方面詞信息輸入Softmax 層進(jìn)行分類,分類結(jié)果分為積極性質(zhì)、中性性質(zhì)和消極性質(zhì)3類。最終的情感極性分類結(jié)果如下:
其中:Softmax 表示分類器;W表示權(quán)重矩陣;B表示偏置矩陣。
本文模型使用標(biāo)準(zhǔn)梯度下降算法進(jìn)行參數(shù)的學(xué)習(xí)訓(xùn)練,訓(xùn)練算法為交叉熵?fù)p失函數(shù)和L2 正則化項(xiàng):
其中:c表示情感標(biāo)簽的個(gè)數(shù);y^i表示模型的輸出情感值;yi表示標(biāo)簽中的真實(shí)值;λ表示L2 正則化參數(shù);Θ表示模型中所用到的參數(shù)。
本文模型是在搭載Intel?Xeon?W-2123 CPU @3.60 GHz 的CPU 和NVIDIA GeForce RTX 2080 Ti 的GPU 服務(wù)器上運(yùn)行的。實(shí)驗(yàn)使用Python 語(yǔ)言進(jìn)行編程,Python 版本為Python 3.8.8,編程工具為PyCharm,版本為PyCharm 2021.2.1 社區(qū)版。
模型使用GloVe[14]作為詞嵌入層對(duì)文本進(jìn)行初始化,初始化詞向量維度為300,雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的隱藏層維度與詞向量維度相同,設(shè)置為300。選擇Adam 作為模型的優(yōu)化器,模型學(xué)習(xí)率為0.001,L2正則化項(xiàng)系數(shù)為0.000 01,批量訓(xùn)練大小為32。
實(shí)驗(yàn)所使用的數(shù)據(jù)集是5 個(gè)公開的英文方面詞情感分析數(shù)據(jù)集,分別是Twitter[23]、SemEval-2014 Task 4 中的Lap14 和Res14[24]、SemEval-2015 Task 12中 的Res15[25]和SemEval-2016 Task 5中的Res16[26]。SemEval-2014 Task 4 含有對(duì)筆記本評(píng)價(jià)的數(shù)據(jù)和對(duì)餐廳評(píng)論的數(shù)據(jù)。數(shù)據(jù)集標(biāo)簽分布如表1 所示。
表1 數(shù)據(jù)集標(biāo)簽分布Table 1 Datasets label distribution
實(shí)驗(yàn)采用2 個(gè)評(píng)價(jià)指標(biāo),分別是準(zhǔn)確率(計(jì)算中用AAcc表示)和Macro-F1(計(jì)算中用F1表示)。AAcc表示分類正確的樣本數(shù)占比,計(jì)算如式(22)所示。F1是精確率和召回率的調(diào)和平均,計(jì)算如式(23)~式(25)所示。
其中:TTP表示分類正確的積極標(biāo)簽的樣本數(shù);TTN表示分類正確的消極標(biāo)簽的樣本數(shù);FFP表示分類錯(cuò)誤的積極標(biāo)簽的樣本數(shù);FFN表示分類錯(cuò)誤的消極標(biāo)簽的樣本數(shù);c表示情感類別的標(biāo)簽種類個(gè)數(shù)。
為了評(píng)估MILFST 模型的有效性,選擇如下具有代表性的模型進(jìn)行對(duì)比:
1)SVM[1],該模型通過(guò)支持向量機(jī)方法進(jìn)行方面級(jí)情感分類。
2)ATAE-LSTM[27],該模型是將文本序列與方面詞進(jìn)行拼接以融合信息,通過(guò)LSTM 和注意力機(jī)制進(jìn)行情感極性分類。
3)GCAE[17],該模型使用卷積神經(jīng)網(wǎng)絡(luò)提取特征信息,然后通過(guò)門控機(jī)制過(guò)濾與方面詞信息無(wú)關(guān)的情感特征,進(jìn)而有選擇性地輸出相關(guān)的情感特征。
4)IAN[6],該模型利用LSTM 分別對(duì)文本序列和方面詞進(jìn)行建模,利用交互注意力交叉融合文本序列和方面詞信息,并生成特定的文本序列信息和方面詞信息。
5)AOA[28],該模型利用注意力機(jī)制關(guān)注重要信息的特點(diǎn),將方面詞和句子以聯(lián)合的方式進(jìn)行建模,進(jìn)而捕獲方面詞和句子之間的交互信息。
6)ASGCN[10],該模型利用依存句法樹建立一個(gè)依存句法圖,然后通過(guò)圖卷積操作進(jìn)行語(yǔ)法信息學(xué)習(xí)。
7)TD-GAT[11],該模型利用單詞之間的依賴關(guān)系進(jìn)行情感特征傳遞。
8)Bi-GCN[12],該模型在依存句法樹上提出層次語(yǔ)法圖和層次詞匯圖,通過(guò)雙層交互式圖卷積網(wǎng)絡(luò)學(xué)習(xí)語(yǔ)法信息。
在上述對(duì)比模型中:前5 個(gè)模型基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)進(jìn)行語(yǔ)義信息學(xué)習(xí),這些模型沒(méi)有學(xué)習(xí)語(yǔ)法信息;后3 個(gè)模型通過(guò)依存句法關(guān)系對(duì)句子的語(yǔ)法信息進(jìn)行學(xué)習(xí)。各模型在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2 所示,最優(yōu)結(jié)果加粗標(biāo)注。
表2 各模型的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of each model %
從表2 可以看出,基于深度學(xué)習(xí)的模型普遍優(yōu)于基于機(jī)器學(xué)習(xí)的模型,這是因?yàn)樯疃葘W(xué)習(xí)能夠自主學(xué)習(xí)句子中的特征信息,捕捉的信息更為豐富和完整。將前5 個(gè)模型和后4 個(gè)模型進(jìn)行對(duì)比可以看出,前5 個(gè)模型的指標(biāo)值明顯小于后4 個(gè)模型,這主要是因?yàn)楹? 個(gè)模型考慮了語(yǔ)法信息,而前5 個(gè)模型未考慮語(yǔ)法信息,這也驗(yàn)證了句子的語(yǔ)法信息能夠有效幫助模型識(shí)別方面詞的情感極性。
ASGCN 模型和TD-GAT 模型在5 個(gè)數(shù)據(jù)集中實(shí)驗(yàn)結(jié)果相差不大:在Twitter 數(shù)據(jù)集中,TD-GAT 模型的準(zhǔn)確率和F1 值都大于ASGCN 模型,但是相差不大;在Lap14 數(shù)據(jù)集、Res14 數(shù)據(jù)集和Res15 數(shù)據(jù)集中,TD-GAT 模型的準(zhǔn)確率高于ASGCN 模型,但是F1值小于后者;在Res16數(shù)據(jù)集中,雖然TD-GAT 的準(zhǔn)確率比ASGCN低,但是F1 值卻比ASGCN高。因此,只是單獨(dú)地通過(guò)依存句法樹進(jìn)行語(yǔ)法信息學(xué)習(xí),很難再提高準(zhǔn)確率。基于此,Bi-GCN 在依賴圖中增加了詞與詞之間的連接關(guān)系,從表中數(shù)據(jù)可以看出,Bi-GCN 在增加連接關(guān)系之后準(zhǔn)確率和F1 值明顯高于前2 個(gè)模型。
與ASGCN 和TD-GAT 相比,本文MILFST 模型在5 個(gè)數(shù)據(jù)集中準(zhǔn)確率和F1 值都更優(yōu),這說(shuō)明模型在考慮語(yǔ)法信息時(shí)也不能忽略語(yǔ)義信息,語(yǔ)義信息和語(yǔ)法信息對(duì)方面詞情感極性的判斷都很重要。
與Bi-GCN 模型相比,MILFST 模型在5 個(gè)數(shù)據(jù)集上結(jié)果幾乎都有提升,除了在Twitter 數(shù)據(jù)集上F1 值小于Bi-GCN外,在其他數(shù)據(jù)集上F1 值都高于Bi-GCN,在另外4 個(gè)數(shù)據(jù)集上F1 值分別提高2.43、1.06、1.36 和0.73個(gè)百分點(diǎn),在5 個(gè)數(shù)據(jù)集上準(zhǔn)確率分別提高0.11、3.15、0.53、0.57 和0.65 個(gè)百分點(diǎn)。這也驗(yàn)證了模型同時(shí)對(duì)文本序列的語(yǔ)義信息和語(yǔ)法信息進(jìn)行學(xué)習(xí)是有意義的。
為了驗(yàn)證MILFST 模型中每個(gè)組件對(duì)模型性能的重要性,設(shè)置一系列的消融實(shí)驗(yàn)進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果如表3 所示。其中:w/o pos 表示消融了位置信息;w/o tree 表示消融了樹形結(jié)構(gòu)化信息;w/o atn 表示消融了注意力層;w/o sy 表示消融了語(yǔ)法學(xué)習(xí)模塊;w/o se 表示消融了語(yǔ)義學(xué)習(xí)模塊;w/o asp 表示消融了特征提取層。
表3 消融實(shí)驗(yàn)結(jié)果Table 3 Results of ablation experiment %
從表3 的消融實(shí)驗(yàn)結(jié)果可以看出:
1)在消融位置信息和樹形結(jié)構(gòu)化信息后,w/o pos 和w/o tree 的性能指標(biāo)下降,說(shuō)明每個(gè)詞的位置信息和樹形結(jié)構(gòu)化信息會(huì)對(duì)方面詞的判斷結(jié)果產(chǎn)生影響。在5 個(gè)數(shù)據(jù)集中,w/o pos 在Res14 數(shù)據(jù)集上下降幅度大于w/o tree,在另外4 個(gè)數(shù)據(jù)集上w/o tree下降幅度更大,說(shuō)明樹形結(jié)構(gòu)化信息對(duì)方面詞的影響比位置信息更大。
2)在消融了注意力層之后,在Lap14 數(shù)據(jù)集上,模型性能指標(biāo)反而有所上升,在其他數(shù)據(jù)集上都有所下降,說(shuō)明在Lap14 數(shù)據(jù)集上學(xué)習(xí)的語(yǔ)義信息和語(yǔ)法信息已經(jīng)能夠表達(dá)方面詞的情感極性,但是注意力機(jī)制過(guò)度聚焦信息,反而對(duì)語(yǔ)義信息和語(yǔ)法信息的融合有抑制作用。在另外4 個(gè)數(shù)據(jù)集上,注意力機(jī)制能有效融合語(yǔ)義信息和語(yǔ)法信息。
3)在實(shí)驗(yàn)中分別消融了語(yǔ)法學(xué)習(xí)模塊和語(yǔ)義學(xué)習(xí)模塊后,w/o sy 和w/o se 性能指標(biāo)都有下降,但是w/o se 的下降幅度比w/o se 更大,說(shuō)明語(yǔ)義學(xué)習(xí)模塊和語(yǔ)法學(xué)習(xí)模塊在MILFST 模型中同樣重要,但是MILFST 模型對(duì)語(yǔ)義信息的學(xué)習(xí)依賴性更高一些。
4)在消融了特征提取層后,w/o asp 性能指標(biāo)有所下降,說(shuō)明在最后對(duì)方面詞進(jìn)行特征提取是有必要的。
從整個(gè)實(shí)驗(yàn)結(jié)果來(lái)看,將模型中的一部分組件進(jìn)行消融之后,模型的性能指標(biāo)有明顯下降,說(shuō)明模型中的每一個(gè)部分都十分重要,缺一不可。消融每一個(gè)組件后模型的性能指標(biāo)下降幅度也各不相同,說(shuō)明每個(gè)部分對(duì)于不同數(shù)據(jù)集的敏感程度不同,主要取決于每個(gè)數(shù)據(jù)集中句子的完整性和長(zhǎng)度。
本文提出一種同時(shí)學(xué)習(xí)語(yǔ)義信息和語(yǔ)法信息的MILFST 模型。該模型在學(xué)習(xí)語(yǔ)義信息和語(yǔ)法信息之前,通過(guò)文本序列在依存句法樹中的位置信息以及其自身的相對(duì)位置信息和語(yǔ)法位置信息對(duì)文本序列進(jìn)行更新,從而減輕文本序列中存在的一些噪聲詞的影響,使得在進(jìn)行信息學(xué)習(xí)之前原本的文本序列中就含有語(yǔ)法相關(guān)信息。實(shí)驗(yàn)結(jié)果表明,MILFST模型能夠有效學(xué)習(xí)語(yǔ)義信息和語(yǔ)法信息,且模型中的各個(gè)部分都對(duì)情感極性判斷有積極作用。
經(jīng)研究發(fā)現(xiàn),MILFST 模型高度依賴語(yǔ)句的完整性,對(duì)于不完整語(yǔ)句的分類效果不理想。下一步將嘗試使用知識(shí)圖譜和情感知識(shí)來(lái)提高模型對(duì)方面詞信息的理解,增強(qiáng)語(yǔ)義信息和語(yǔ)法信息的學(xué)習(xí)效果,進(jìn)一步提高模型對(duì)方面詞信息的分類性能。