蔡瑞初,尹 婉,許柏炎
(廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣州 510006)
隨著深度學(xué)習(xí)技術(shù)提升,句子級(jí)別的情感分析研究取得巨大進(jìn)展,已被廣泛應(yīng)用到社交網(wǎng)絡(luò)輿情分析和電子商務(wù)等場(chǎng)景.基于目標(biāo)的情感分析(Target-Based Sentiment Analysis)是一種細(xì)粒度的情感分析任務(wù),旨在識(shí)別句子中的目標(biāo)并預(yù)測(cè)目標(biāo)的情感極性,其中包括目標(biāo)提取和特定目標(biāo)情感分析兩個(gè)子任務(wù)[1].如圖1所示,當(dāng)輸入句子“這家中國餐廳比上次那家昂貴的泰國餐廳更好吃”,應(yīng)提取出該句子中包含的目標(biāo)“中國餐廳”和“泰國餐廳”,并預(yù)測(cè)出目標(biāo)“中國餐廳”的情感為積極,目標(biāo)“泰國餐廳”的情感為消極.
圖1 基于目標(biāo)的情感分析任務(wù)
現(xiàn)有大多數(shù)情感分析研究工作只關(guān)注解決目標(biāo)提取或特定目標(biāo)情感分析.少數(shù)研究工作同時(shí)解決兩個(gè)子任務(wù).根據(jù)協(xié)同子任務(wù)訓(xùn)練方式的不同,可以劃分為流水線方法、聯(lián)合方法和統(tǒng)一方法.研究者[2,3]將基于目標(biāo)情感分析任務(wù)建模成序列標(biāo)注問題,利用神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)技術(shù)實(shí)現(xiàn)3類方法.
其中,流水線方法需要按次序分別訓(xùn)練目標(biāo)提取模型和特定目標(biāo)的情感分析模型,缺乏集成度和存在誤差傳播等問題;聯(lián)合方法是采用兩個(gè)不同的標(biāo)簽集共同標(biāo)記每個(gè)句子,統(tǒng)一方法則是將兩個(gè)標(biāo)簽折疊成一個(gè)統(tǒng)一標(biāo)簽.聯(lián)合方法和統(tǒng)一方法可采用端到端的訓(xùn)練方式.
然而,現(xiàn)有研究中仍然存在以下不足:1)基于長短期記憶網(wǎng)絡(luò)模型無法很好地捕獲輸入文本的內(nèi)部聯(lián)系.隨著輸入文本距離的增加,學(xué)習(xí)較遠(yuǎn)位置之間的依賴關(guān)系變得困難[4].因此當(dāng)輸入句子中的目標(biāo)詞與情感詞距離較遠(yuǎn)時(shí),無法學(xué)習(xí)到兩者之間的聯(lián)系,容易導(dǎo)致目標(biāo)詞情感極性判斷錯(cuò)誤;2)現(xiàn)有工作無法很好地利用子任務(wù)的信息來協(xié)助目標(biāo)和情感的同時(shí)產(chǎn)生.顯然,其中的關(guān)鍵是引入無距離限制的語義提取方法.
因此,本文提出一種基于方向感知Transformer的雙輔助網(wǎng)絡(luò)模型.模型包含語義特征提取組件,雙輔助任務(wù)分支和目標(biāo)情感分析主線網(wǎng)絡(luò).通過引入方向感知的Transformer(Direction-Aware Transformer,DAT)[5]用于提取源輸入序列的語義特征,DAT是一種可以提取句子語義特征和學(xué)習(xí)源輸入中目標(biāo)詞和情感詞內(nèi)在聯(lián)系的組件.DAT組件不同于長短期記憶網(wǎng)絡(luò)需要依賴上個(gè)時(shí)間步的隱向量,其任意兩個(gè)單詞的依賴計(jì)算為常數(shù)級(jí)別,可以捕獲的相關(guān)性范圍更廣,能更好地捕獲到情感詞和目標(biāo)詞之間的聯(lián)系.雙輔助任務(wù)分支是指目標(biāo)提取網(wǎng)絡(luò)和情感增強(qiáng)網(wǎng)絡(luò),目標(biāo)提取網(wǎng)絡(luò)有助于捕獲目標(biāo)詞的邊界信息,情感增強(qiáng)網(wǎng)絡(luò)有助于捕獲目標(biāo)詞對(duì)應(yīng)的情感信息.本文引入雙輔助任務(wù)分支可以充分利用子任務(wù)的信息輔助邊界表示和情感表示,輔助模型分別去學(xué)習(xí)兩種不同類型的標(biāo)簽.目標(biāo)情感分析主線網(wǎng)絡(luò)用于輸出統(tǒng)一標(biāo)簽,將雙輔助任務(wù)分支輸出的隱向量融合后輸入到目標(biāo)情感分析主線網(wǎng)絡(luò)得到最終的統(tǒng)一標(biāo)簽.
本文的主要總結(jié)如下:
1)在基于目標(biāo)的情感分析任務(wù)引入相對(duì)位置編碼的Transformer,學(xué)習(xí)句子中單詞和情感詞的內(nèi)部聯(lián)系.
2)構(gòu)建目標(biāo)提取和情感增強(qiáng)雙輔助分支,融合子任務(wù)的信息,輔助目標(biāo)情感分析主線網(wǎng)絡(luò)生成統(tǒng)一標(biāo)簽.
前文提及,基于目標(biāo)的情感分析包括目標(biāo)提取和特定目標(biāo)的情感分析兩個(gè)子任務(wù).多數(shù)經(jīng)典研究工作專注于研究其中一類子任務(wù),近來少數(shù)研究工作開始著手同時(shí)解決目標(biāo)提取和情感分析.本章節(jié)將依次進(jìn)行介紹,另外序列標(biāo)注的相關(guān)工作也將被討論.
目標(biāo)提取任務(wù)研究中,F(xiàn)an等[6]基于長短期記憶網(wǎng)絡(luò)建模,將目標(biāo)信息和上下文信息融合,學(xué)習(xí)特定目標(biāo)的上下文表示,成對(duì)提取意見目標(biāo)和意見詞.Luo等[7]提出一種無監(jiān)督神經(jīng)網(wǎng)絡(luò)框架,充分利用語義符號(hào)增強(qiáng)詞匯中的語義,發(fā)現(xiàn)單詞之間的一致性.Liao等[8]采用無監(jiān)督方式基于神經(jīng)網(wǎng)絡(luò)建模,耦合全局和局部表示來提取目標(biāo)方面.
特定目標(biāo)的情感分析任務(wù)的研究中,Chen等[9]基于雙向切片門控循環(huán)單元和注意力機(jī)制建立情感分類模型,充分提取文本語義特征.Zhao等[10]利用文檔級(jí)情感分類數(shù)據(jù)集的注意力知識(shí)提高方面級(jí)情感分類任務(wù)的注意力能力,解決方面級(jí)情感分類任務(wù)中數(shù)據(jù)稀缺性導(dǎo)致注意力機(jī)制無法集中在情感詞的問題.Wang等[11]提出一種基于注意力機(jī)制和長短期記憶網(wǎng)絡(luò)的模型,可以有效捕捉目標(biāo)與情感表達(dá)式之間的結(jié)構(gòu)依賴關(guān)系.Zhang等[12]提出基于有序神經(jīng)元長短時(shí)記憶和自注意力機(jī)制的方面情感分析模型,從上下文的左右兩個(gè)方向同時(shí)進(jìn)行訓(xùn)練.Chen等[13]使用門控循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)分別從字向量和詞向量中提取特征,獲取上下文語義特征和局部語義特征,提高文本情感分類的性能.然而在情感分析的實(shí)際應(yīng)用中,單獨(dú)處理兩個(gè)子任務(wù)的研究具有一定的局限性,同時(shí)處理兩個(gè)子任務(wù)的研究在實(shí)際應(yīng)用具有更廣泛的價(jià)值.
基于目標(biāo)的情感分析的研究方法需要同時(shí)解決目標(biāo)提取和特定目標(biāo)情感分析兩個(gè)子任務(wù).現(xiàn)有的研究工作可以分為流水線方法、聯(lián)合方法和統(tǒng)一方法.Zhang等[3]基于神經(jīng)網(wǎng)絡(luò)建模實(shí)現(xiàn)3類方法,通過淺層神經(jīng)網(wǎng)絡(luò)自動(dòng)提取特征.通過流水線方法組合基于深度學(xué)習(xí)的目標(biāo)提取任務(wù)模型HAST[14]和基于循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的情感分析任務(wù)模型TNet[15].Peng等[16]首次為方面提取,方面情感分類,以及意見詞提取提供一個(gè)完整的解決方案.Li等[17]提出基于堆疊長短期記憶網(wǎng)絡(luò)的端到端情感分析模型E2E-TBSA,上下層網(wǎng)絡(luò)分別預(yù)測(cè)統(tǒng)一標(biāo)簽和目標(biāo)邊界標(biāo)簽,采用目標(biāo)詞邊界信息引導(dǎo)組件約束統(tǒng)一標(biāo)簽生成,取得顯著的提升效果.
流水線方法需要按次序分別訓(xùn)練目標(biāo)提取模型和特定目標(biāo)的情感分析模型.聯(lián)合方法是聯(lián)合訓(xùn)練兩個(gè)子任務(wù),而統(tǒng)一方法將兩個(gè)子任務(wù)標(biāo)簽折疊成一個(gè)統(tǒng)一標(biāo)簽.聯(lián)合方法和統(tǒng)一方法實(shí)現(xiàn)端到端的訓(xùn)練方式相比流水線方法單獨(dú)訓(xùn)練模型具有更好的集成性.與E2E-TBSA模型不同,本文引入融合方向感知的Transformer解決了長短期網(wǎng)絡(luò)無法很好的捕捉內(nèi)部聯(lián)系的問題,并設(shè)計(jì)雙輔助網(wǎng)絡(luò)用于輔助目標(biāo)情感分析主線網(wǎng)絡(luò)學(xué)習(xí).
本文提出基于雙輔助網(wǎng)絡(luò)的目標(biāo)情感分析模型 DNTSA(Dual-assist Network based framework for Target Sentiment Analysis),主要由目標(biāo)提取網(wǎng)絡(luò)、情感增強(qiáng)網(wǎng)絡(luò)和目標(biāo)情感分析主線網(wǎng)絡(luò)組成.如圖2所示.模型工作流如下,輸入句子S經(jīng)過詞嵌入層后分別輸入到目標(biāo)提取網(wǎng)絡(luò)和情感增強(qiáng)網(wǎng)絡(luò)中.詞嵌入層采用了預(yù)訓(xùn)練Glove詞向量[18].目標(biāo)提取網(wǎng)絡(luò)中的融合方向信息Transformer(Direction-Aware Transformer,DAT)用來獲取目標(biāo)的邊界信息,情感增強(qiáng)網(wǎng)絡(luò)中的DAT用來獲取目標(biāo)的情感信息.目標(biāo)提取網(wǎng)絡(luò)和情感增強(qiáng)網(wǎng)絡(luò)得到的隱藏表示相加,輸入到目標(biāo)情感分析主線網(wǎng)絡(luò)中的DAT融合輔助信息到目標(biāo)情感分析主線網(wǎng)絡(luò),最終預(yù)測(cè)統(tǒng)一標(biāo)簽序列.
圖2 基于雙輔助網(wǎng)絡(luò)的目標(biāo)情感分析模型DNTSA
與現(xiàn)有的基于目標(biāo)的情感分析工作普遍采取長短期記憶網(wǎng)絡(luò)不同,本文引入DAT 作為語義特征提取器學(xué)習(xí)語義信息,提取原始詞向量和雙輔助任務(wù)分支學(xué)習(xí)的特定表示語義信息.DAT通過相對(duì)位置編碼具有方向感知.在基于目標(biāo)的情感分析任務(wù)中,DAT組件相比長短期記憶網(wǎng)絡(luò)能更好的獲取到距離較遠(yuǎn)兩個(gè)詞之間的語義信息,也能具有長短期記憶網(wǎng)絡(luò)方向感知的優(yōu)點(diǎn).本節(jié)詳細(xì)介紹DAT組件的相對(duì)位置編碼與多頭注意力機(jī)制.
3.1.1 相對(duì)位置編碼
Transformer[4]中位置編碼采用正弦余弦的點(diǎn)積,如公式(1)、公式(2)所示:
(1)
(2)
DAT采用相對(duì)位置編碼,t表示當(dāng)前單詞的索引,j表示上文單詞的索引,Rt-j表示t和j之間的相對(duì)位置編碼,如公式(3)、公式(4)所示:
(3)
(4)
因?yàn)閟in(x)=-sin(x),cos(x)=cos(-x),公式(4)中cos(cit)的前向和后向相對(duì)位置編碼是相同的,但是sin(cit)前向和后向的位置編碼是相反的.因此相對(duì)位置編碼具有方向感知.
3.1.2 多頭注意力機(jī)制
DAT組件中注意力機(jī)制得分計(jì)算如公式(5)、公式(6):
(5)
(6)
多頭注意力機(jī)制將多組Q,K,V分別進(jìn)行多次注意力機(jī)制計(jì)算并將結(jié)果拼接,最后用前饋神經(jīng)網(wǎng)絡(luò)連接多頭注意力機(jī)制的輸出,計(jì)算如公式(7)、公式(8)所示:
multihead(Q,K,V)=concat[head1,…,headn]Wo
(7)
headi=attention(Qi,Ki,Vi)
(8)
其中n是頭的數(shù)量,i表示頭索引.
與E2E-TBSA模型只采用目標(biāo)提取子任務(wù)信息不同,本文采用雙輔助網(wǎng)絡(luò):目標(biāo)提取網(wǎng)絡(luò)和情感增強(qiáng)網(wǎng)絡(luò),共同獲取目標(biāo)邊界和情感的信息,增強(qiáng)模型目標(biāo)提取和情感識(shí)別能力.
(9)
(10)
(11)
(12)
(13)
(14)
(15)
在一個(gè)多單詞構(gòu)成的目標(biāo)中,目標(biāo)內(nèi)單詞的統(tǒng)一標(biāo)簽需要保持情感一致.例如目標(biāo)詞“中國餐廳”的統(tǒng)一標(biāo)簽為"B-POS,E-POS",詞語“中國”和詞語“餐廳”的情感標(biāo)簽需要保持一致性.如公式(16)、公式(17)所示,本文利用門控制機(jī)制gt[16]保持多單詞目標(biāo)的情感一致性,當(dāng)前時(shí)間步特征依賴上一步時(shí)間步特征.其中是Wg,bg為模型參數(shù).
(16)
(17)
(18)
(19)
損失函數(shù)如公式(20)所示:
J(θ)=LSE+LTE+LU
(20)
J(θ)為總損失函數(shù),LU為預(yù)測(cè)統(tǒng)一標(biāo)簽任務(wù)的損失函數(shù),LTE和LSE分別為邊界增強(qiáng)和情感增強(qiáng)輔助任務(wù)的損失函數(shù).
損失函數(shù)的計(jì)算基于單詞級(jí)別,采用交叉熵計(jì)算,如公式(21)所示.
(21)
本節(jié)將詳細(xì)介紹實(shí)驗(yàn)采用的數(shù)據(jù)集和模型的超參數(shù)設(shè)置,通過實(shí)驗(yàn)來評(píng)價(jià)提出模型的性能,包括兩個(gè)部分:1)從整體的角度來與基準(zhǔn)方法比較在各評(píng)價(jià)指標(biāo)上的結(jié)果差異;2)從局部模型設(shè)置有效性的角度來確定整體模型中的關(guān)鍵部件對(duì)結(jié)果的影響.
為了驗(yàn)證基于目標(biāo)的情感提取模型的通用有效性,本文實(shí)驗(yàn)采用了3個(gè)不同領(lǐng)域的開源數(shù)據(jù)集進(jìn)行測(cè)試:
1)Laptop數(shù)據(jù)集是2014年SemEval ABSA挑戰(zhàn)賽[1]針對(duì)筆記本電腦領(lǐng)域的公開文本評(píng)論數(shù)據(jù)集,訓(xùn)練集共3045條句子,測(cè)試集共800條句子.
2)Restaurant數(shù)據(jù)集是2014年、2015年、2016年SemEval ABSA挑戰(zhàn)賽[19-21]餐廳文本評(píng)論數(shù)據(jù)集的并集,本文的數(shù)據(jù)集是3年的數(shù)據(jù)集的并集,訓(xùn)練集共3877條句子,測(cè)試集共2158條句子.
3)Twitter數(shù)據(jù)集是Mitchell等[2]收集的推特推文組成,訓(xùn)練集共21150條句子,測(cè)試集共2350條句子.
數(shù)據(jù)集中的情感極性主要包括積極、消極、中性,訓(xùn)練集和測(cè)試集的具體數(shù)量如表1所示.本文隨機(jī)保留訓(xùn)練集數(shù)據(jù)的10%作為驗(yàn)證集.對(duì)于Twitter數(shù)據(jù)集,沒有標(biāo)準(zhǔn)的訓(xùn)練集和測(cè)試集的劃分,沿用基準(zhǔn)方法的劃分方式[3,17],采用十折交叉驗(yàn)證得出最終結(jié)果.
表1 數(shù)據(jù)集表
關(guān)于實(shí)驗(yàn)超參數(shù)設(shè)置,列舉如下:詞向量和隱狀態(tài)維度大小均為300維;使用預(yù)訓(xùn)練Glove詞向量初始化;對(duì)于詞典中不存在的詞語被隨機(jī)采樣初始化,隨機(jī)采樣服從μ(-0.25,0.25)分布;所有偏差的初始化均服從μ(-0.25,0.25)的隨機(jī)采樣;模型采用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為0.0001.詳細(xì)的模型超參數(shù)如表2設(shè)置.
表2 超參數(shù)表
本文通過完全匹配來衡量評(píng)估指標(biāo):精確度P、召回率R、F1得分.本文F1采用的是MicroF1.F1計(jì)算公式如公式(22)所示:
(22)
基于目標(biāo)的情感分析任務(wù)目前主要存在3種實(shí)現(xiàn)方法:流水線、聯(lián)合、統(tǒng)一.本實(shí)驗(yàn)將本文模型與3種方法下的主流模型進(jìn)行對(duì)比,各對(duì)比模型簡介如下:
1)CRF-{pipelined,joint,unified}[2]:利用條件隨機(jī)場(chǎng)技術(shù),分別構(gòu)建流水線、聯(lián)合、統(tǒng)一的3種模型.
2)NN+CRF-{pipelined,joint,unified}[3]:運(yùn)用條件隨機(jī)場(chǎng)技術(shù)和神經(jīng)網(wǎng)絡(luò)分別構(gòu)建的3種實(shí)現(xiàn)方法模型.
3)HAST-Tnet:HAST[14]利用循環(huán)神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制建模.TNet[15]采用卷積神經(jīng)網(wǎng)絡(luò)和雙向循環(huán)神經(jīng)網(wǎng)絡(luò)建模.HAST-TNet是用流水線方法將HAST和TNet用流水線形式組合起來,是當(dāng)前流水線方法下最前沿的模型之一.
4)LSTM-unified:基于長短期記憶網(wǎng)絡(luò)的統(tǒng)一方法模型.
5)LSTM-CRF-1[22]:基于長短期記憶網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)技術(shù).
6)LSTM-CRF-2[23]:在LSTM-CRF-1基礎(chǔ)上增加了卷積神經(jīng)網(wǎng)絡(luò).
7)LM-LSTM-CRF[24]:采用預(yù)訓(xùn)練詞嵌入和字符級(jí)知識(shí),基于長短期記憶網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)技術(shù)建立神經(jīng)網(wǎng)絡(luò)模型.
8)E2E-TBSA[17]:基于雙長短期記憶網(wǎng)絡(luò)的端到端情感分析模型,雙網(wǎng)絡(luò)分別預(yù)測(cè)統(tǒng)一標(biāo)簽和目標(biāo)邊界標(biāo)簽,是當(dāng)前統(tǒng)一方法下最前沿的模型之一.
本文與基于目標(biāo)的情感分析任務(wù)的其它模型比較,結(jié)果見表3.從表3可以看出,本文的模型優(yōu)于其它基線.與最佳的流水線模型HAST-TNet相比,本文的模型在數(shù)據(jù)集Laptop,Restaurant,Twitter上的性能都有所提升,F(xiàn)1值分別提升了7.1%,5.5%,4.7%,相比流水線方法本文采用的統(tǒng)一方法具有更高的集成度,便于同時(shí)訓(xùn)練目標(biāo)提取和情感增強(qiáng)網(wǎng)絡(luò).在統(tǒng)一方法中,與E2E-TBSA模型相比,本文的模型在Laptop,Restaurant,Twitter數(shù)據(jù)集上F1值分別提升了2.3%,1.8%,3.9%,表明在統(tǒng)一方法中,本文模型比E2E-TBSA模型更具有優(yōu)勢(shì),一方面是因?yàn)楸疚哪P突谌诤戏较蚋兄猅ransformer,不僅相比長短期記憶網(wǎng)絡(luò)能更好地學(xué)習(xí)到目標(biāo)詞和上下文之間內(nèi)部聯(lián)系,也具有長短期記憶網(wǎng)絡(luò)方向感知的優(yōu)點(diǎn).另一面是因?yàn)槟P统浞掷昧藘蓚€(gè)子任務(wù)的信息.此外,在Twitter數(shù)據(jù)集上提升的效果比其它兩個(gè)數(shù)據(jù)集顯著,可能是因?yàn)門witter數(shù)據(jù)集中的長句子較多,而Transformer對(duì)比長短期記憶網(wǎng)絡(luò)在長句子中更具有優(yōu)勢(shì).基準(zhǔn)方法實(shí)驗(yàn)結(jié)果引用Li等[17]的復(fù)現(xiàn)結(jié)果.
表3 與相關(guān)工作的比較實(shí)驗(yàn)
本文模型采用了雙輔助任務(wù)分支和DAT組件,為了探討兩部分對(duì)模型結(jié)果的貢獻(xiàn)度以及合理性,設(shè)計(jì)以下消融實(shí)驗(yàn)來進(jìn)行有效評(píng)估:
1)Model-TEN:在模型的基礎(chǔ)上去除目標(biāo)提取網(wǎng)絡(luò);
2)Model-SEN:在模型基礎(chǔ)上去除情感增強(qiáng)網(wǎng)絡(luò);
3)Model-LSTM:將模型中的DAT組件替換成雙向長短期記憶網(wǎng)絡(luò);
4)Model-Transformer:將模型中的DAT組件替換成普通Transformer.
從表4的實(shí)驗(yàn)結(jié)果可以看出,去除目標(biāo)提取網(wǎng)絡(luò)以后的模型Model-TEN和原模型相比,在Laptop,Restaurant,Twitter數(shù)據(jù)集中F1值分別下降了3.9%,1.5%,2.4%.去除情感增強(qiáng)網(wǎng)絡(luò)以后的模型Model-SEN和原模型相比,在Laptop,Restaurant,Twitter數(shù)據(jù)集中F1值分別下降了6.3%,1.4%,2.3%.實(shí)驗(yàn)結(jié)果的下降說明了目標(biāo)邊界信息和情感信息對(duì)生成的統(tǒng)一標(biāo)簽起到了一定的作用,雙輔助任務(wù)分支通過生成邊界表示和情感表示輔助目標(biāo)情感分析主線網(wǎng)絡(luò)充分利用目標(biāo)邊界信息和情感信息.將DAT組件替換成雙向長短期記憶網(wǎng)絡(luò)以后,模型Model-LSTM和原模型相比,在Laptop,Restaurant,Twitter數(shù)據(jù)集中F1值下降了3.9%,1%,2.9%,實(shí)驗(yàn)結(jié)果表明DAT組件比長短期記憶網(wǎng)絡(luò)在基于目標(biāo)的情感分析任務(wù)中表現(xiàn)更好,DAT組件能更好的學(xué)習(xí)到目標(biāo)詞和情感詞之間的聯(lián)系.將DAT組件替換成普通Transformer以后,模型Model-Transformer和原模型相比,在Laptop,Restaurant,Twitter數(shù)據(jù)集中F1值下降了5.2%,2.4%,3.9%,實(shí)驗(yàn)結(jié)果表明DAT組件中的方向信息對(duì)目標(biāo)情感分析任務(wù)有所幫助.另外模型Model-Transformer和Model-LSTM相比,F(xiàn)1值有所下降,雖然普通Transformer緩解了LSTM無法很好捕獲長文本句子內(nèi)部聯(lián)系的問題,但是普通 Transformer缺乏方向信息,因此可能導(dǎo)致其在目標(biāo)情感分析任務(wù)中整體表現(xiàn)欠佳.
表4 消融實(shí)驗(yàn)
表5給出了Model-SEN和Full Model模型的一些預(yù)測(cè)示例,輸入句子得到預(yù)測(cè)的統(tǒng)一標(biāo)簽.通過分別觀察表5中的3個(gè)示例,對(duì)比兩個(gè)模型生成的統(tǒng)一標(biāo)簽,可以看出Model-SEN生成的統(tǒng)一標(biāo)簽中邊界標(biāo)簽正確而情感標(biāo)簽出現(xiàn)錯(cuò)誤,表明Model-SEN在捕獲情感信息的時(shí)候存在不足之處.可能是由于沒有情感增強(qiáng)網(wǎng)絡(luò)時(shí),模型學(xué)習(xí)兩種不同類型的標(biāo)簽存在一定困難.而 Full Model加入情感增強(qiáng)網(wǎng)絡(luò)之后,模型可以更好地捕獲到情感信息,并正確預(yù)測(cè)出目標(biāo)詞的情感標(biāo)簽.表6給出了Model-TEN和Full Model模型的一些預(yù)測(cè)示例.通過觀察表6中示例1,2,3,對(duì)比兩個(gè)模型生成的統(tǒng)一標(biāo)簽,可以看出Model-TEN中邊界標(biāo)簽產(chǎn)生錯(cuò)誤從而導(dǎo)致統(tǒng)一標(biāo)簽錯(cuò)誤.而 Full Model加入了目標(biāo)提取網(wǎng)絡(luò)之后,模型可以更好地捕獲到目標(biāo)詞邊界信息,并正確預(yù)測(cè)出目標(biāo)詞的邊界標(biāo)簽.表5和表6兩個(gè)實(shí)例分析表明雙輔助任務(wù)分支能幫助模型分別學(xué)習(xí)兩種不同類型的標(biāo)簽,使得情感標(biāo)簽和邊界標(biāo)簽容易出現(xiàn)錯(cuò)誤的問題得到了緩解.
表5 Model-SEN和Full Model模型的實(shí)例分析
表6 Model-TEN和Full Model模型的實(shí)例分析
類似的,表7給出了Model-LSTM和Full Model模型的一些預(yù)測(cè)示例.通過觀察表7中示例1和示例2我們發(fā)現(xiàn)當(dāng)輸入句子中目標(biāo)詞距離情感詞有一定距離時(shí),Model-LSTM模型預(yù)測(cè)的情感標(biāo)簽會(huì)出現(xiàn)錯(cuò)誤.表7示例1和示例2中,表達(dá)情感的情感詞分別為"issue"和"dismissive",分別距離目標(biāo)詞"os"和"owner"有一定距離,Model-LSTM產(chǎn)生了錯(cuò)誤的情感標(biāo)簽,這可能是由于長短期記憶網(wǎng)絡(luò)當(dāng)前時(shí)間步計(jì)算依賴上一個(gè)時(shí)間步所導(dǎo)致,當(dāng)目標(biāo)詞和情感詞存在一定距離時(shí),獲取到兩個(gè)詞之間的聯(lián)系信息變得困難.當(dāng)情感詞和目標(biāo)詞距離較遠(yuǎn)時(shí),基于DAT的Full Model模型對(duì)兩個(gè)輸入詞之間的依賴計(jì)算是常數(shù)級(jí)別,可以較好的學(xué)習(xí)到任意兩個(gè)詞之間的內(nèi)部聯(lián)系.示例3中目標(biāo)詞"food"附近有情感詞"hard"和"fancy","hard"表示消極情感"hancy"表示積極情感.Model-LSTM模型預(yù)測(cè)的情感標(biāo)簽出現(xiàn)了錯(cuò)誤.因此Full Model相比Model-LSTM可以更好地學(xué)習(xí)到目標(biāo)詞和情感詞之間的聯(lián)系.
表7 Model-LSTM和Full Model模型的實(shí)例分析
表8給出了Model-Transformer和Full Model模型的兩個(gè)預(yù)測(cè)示例.通過觀察表8中示例1、2發(fā)現(xiàn),當(dāng)輸入句子中有不同類型的情感詞時(shí),Model-Transformer模型預(yù)測(cè)的情感標(biāo)簽會(huì)出現(xiàn)錯(cuò)誤.示例1中,目標(biāo)詞” Hardware performance”上文中存在的情感詞” not inexpensive”表示消極情感,下文中存在的情感詞” impressive”表示積極情感.示例2中,目標(biāo)詞”waiting”上文中存在的情感詞”popular”表示積極情感,下文中存在的情感詞”nightmare”表示消極情感.兩個(gè)示例的預(yù)測(cè)結(jié)果中,Model-Transformer都產(chǎn)生了錯(cuò)誤的情感標(biāo)簽,這可能是由于普通的Transformer缺乏方向信息導(dǎo)致的,DAT引入了方向信息后,模型可以更好的學(xué)習(xí)到句子的語義信息.
表8 Model-Transformer和Full Model模型的實(shí)例分析
目標(biāo)情感分析任務(wù)中,多頭注意力機(jī)制學(xué)習(xí)目標(biāo)詞的邊界信息以及目標(biāo)詞和情感詞之間的關(guān)系.圖3例句所示,目標(biāo)情感分析主線網(wǎng)絡(luò)中DAT的注意力機(jī)制權(quán)重觀察(注意力機(jī)制權(quán)重為多頭注意力機(jī)制head的平均值).通過觀察圖3,發(fā)現(xiàn)多單詞組成的目標(biāo)詞″battery life″″battery″和″life″產(chǎn)生依賴組成短語.目標(biāo)詞″battery life″和情感詞″wonderful″產(chǎn)生聯(lián)系.實(shí)驗(yàn)表明目標(biāo)情感分析主線網(wǎng)絡(luò)中DAT的多頭注意力機(jī)制能有效學(xué)習(xí)目標(biāo)詞單詞間的依賴以及目標(biāo)詞和情感詞之間的聯(lián)系.
圖3 注意力機(jī)制觀察例句
本文提出一種基于雙輔助網(wǎng)絡(luò)的目標(biāo)情感分析模型DNTSA,包括雙輔助網(wǎng)絡(luò)和目標(biāo)情感主線,其中引入方向感知的Transformer作為語義特征提取器.模型的核心思想是通過語義特征器分別學(xué)習(xí)目標(biāo)提取和情感增強(qiáng)子任務(wù)的語義表示輔助目標(biāo)情感分析主線網(wǎng)絡(luò)學(xué)習(xí),解決了統(tǒng)一方法下同時(shí)學(xué)習(xí)目標(biāo)提取標(biāo)簽和情感分析標(biāo)簽存在困難的問題.語義特征提取器采用方向感知的Transformer有效學(xué)習(xí)目標(biāo)詞和情感詞之間內(nèi)部關(guān)系,方向感知有效避免了多個(gè)目標(biāo)詞和情感詞的對(duì)齊錯(cuò)誤.未來的工作中,本文將進(jìn)一步改進(jìn)雙輔助網(wǎng)絡(luò)語義表達(dá)的融合方式,有效提高目標(biāo)提取和情感標(biāo)簽的協(xié)同訓(xùn)練.