付朝燕,黃賢英,劉瀚鍇,齊嵩喆
(重慶理工大學 計算機科學與工程學院,重慶 400054) E-mail:wldsj_cqut@163.com
當今社交媒體發(fā)展迅速,越來越多人通過網(wǎng)絡平臺分享自己對事物的態(tài)度.針對大量的網(wǎng)絡評論信息,方面級情感分析旨在分析文本中人們對事物的某些方面表達的情感、觀點及態(tài)度.對于在線商城調(diào)整經(jīng)營策略、分析商家信譽值,社交平臺分析熱點事件輿情走向、維護社區(qū)網(wǎng)絡環(huán)境等應用場景都具有重要意義.文本中事物的某些方面由單個詞或一組詞表示,這些詞稱作這段文本中的方面項.一般來說評論數(shù)據(jù)的情感偏向比較明確,可以分為消極(Negative)、積極(Positive)、中性(Neutral)3個極性,例如筆記本電腦的一條評論文本“I charge it at night and skip taking the cord with me because of the good battery life.”,提到了筆記本電腦的兩個方面項“cord”、“battery life”.文本中沒有對“cord”評論,沒有明顯的情感傾向,則其情感極性劃分為中性(Neutral),而對于“battery life”則進行了夸贊,有積極的情感詞“good”修飾,則為其情感極性劃分為積極(Positive).同理在一條文本中如果有消極情感傾向的描述指向方面項時,其情感極性劃分為消極(Negative).在方面級情感分析任務的研究發(fā)展過程中,早期基于人工特征如建立情感詞典、預處理獲得句法依賴信息等,再利用最大熵、支持向量機、樸素貝葉斯、決策樹等傳統(tǒng)分類器進行情感分類的方法曾取得不錯的效果,但需要消耗大量人工成本.隨著深度學習的出現(xiàn),基于循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)、長短期記憶網(wǎng)絡(Long-Short Term Memory,LSTM)和GRU[1](Gate Recurrent Unit)、卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)等的方法減輕了對人工特征的依賴,能有效地提取特征信息.
近年來融合多種方法的多策略混合模型成為方面級情感分析的研究新趨勢,特別是句法依存樹結(jié)合圖卷積神經(jīng)網(wǎng)絡(Graph Convolutional Network,GCN)的建模方法在方面級情感分析及其相關任務中得到廣泛應用.2019年的研究工作中Sun等人[2]提出了將句法依存樹與神經(jīng)網(wǎng)絡相結(jié)合的語義依存關系樹應用于表示學習的模型CDT(Convolution over Dependency Tree Model).Zhang等人[3]提出的AS-GCN(Aspect-specific Graph Convolutional Network)模型把句法依存樹信息引入到多層GCN中.2020年的研究工作中Tang等人[4]提出基于transformer[5]和GCN的雙通道模型DGEDT(Dependency Graph Enhanced Dual-transformer Network)以迭代交互的方式融合兩個通道的結(jié)果,相互強化兩通道的表示學習.Veyseh等人[6]使用給定的方面術語來定制隱藏向量,再基于句法依存樹和GCN來計算句子中每個單詞的重要性分數(shù).Zhou等人[7]提出了基于句法依存樹和常識知識的圖卷積網(wǎng)絡SK-GCN(Syntax and Knowledge via GCN)模型.宋威等人[8]提出利用門控機制實現(xiàn)特征蒸餾,建立FDDN模型提取句子的情感語義特征.Sun等人[9]通過Bert構(gòu)建輔助句子,引入外部特征建模,起到了數(shù)據(jù)增強作用.
相比以往一些經(jīng)典模型,近兩年提出的這些句法依存樹結(jié)合GCN的模型在性能上有較大提升,也能表明基于GCN引入圖結(jié)構(gòu)的模型相比傳統(tǒng)的序列化建模處理的模型,能更有效地提取到非線性的復雜語義信息,在一定程度上提升模型性能.現(xiàn)有研究[9,10]表明在實體抽取、方面級情感分析這些文本處理任務中多策略混合的方法效果較優(yōu).但這些模型都只運用了單一特征級的句法信息來加強單詞表示,利用GCN建模時未充分利用句法依存樹中除邊和節(jié)點之外的信息,基于句法依存樹與GCN結(jié)合的方法有進一步改進提高的空間,有必要對新的特征提取和融合方法進行研究.
因此本文提出一個用于提取句法依存樹上有效信息的多級特征提取算法ML-FE(Multi Level- Feature Extraction)并用其搭建句法特征融合增強模型進行實驗,以此驗證算法的有效性.本文主要工作:1)數(shù)據(jù)預處理時改進句法依存樹建立句法圖,進行深度優(yōu)先搜索、計算每個單詞的權(quán)值,進一步得出淺層句法特征信息;2)在GCN建模時根據(jù)詞之間相對位置信息將句法圖劃分為多個子圖并分別建模,來提取深層句法特征信息;3)加入注意力融合單元,將深層特征信息映射到句子的編碼層的輸出序列,得到句子的深層特征級表示;4)融合淺層特征級和深層特征級的句子表示得到最終的多層級特征的句子表示后進行情感分類.
句法依存樹在實體抽取、文本分析、命名體識別、情感分析、智能問答等領域有著廣泛的應用.使用Stanford NLP工具包(1)http://nlp.stanford.edu對文本數(shù)據(jù)進行預處理,構(gòu)建句法依存樹,如圖1所示節(jié)點是文本中的單詞,節(jié)點之間的連邊是語義關系或依存關系.句法依存樹展示了句子中各個詞之間的語法依賴關系,圖中每條邊都有自己的標簽,不同標簽代表不同依賴關系.如“det”標簽代表決定詞,圖中帶有“det”標簽的有向邊從方面詞“quality”指向定冠詞“The”,就表示“quality”的決定詞即冠詞是“The”.
句法依存樹上的節(jié)點之間的路徑長度能表示句子中詞之間的語義邏輯距離,有直接依賴關系的詞之間的語義邏輯距離比詞在文本中的相對位置距離更短.引入句法依存樹建模有利于在任務中處理長文本數(shù)據(jù),解決長距離依賴問題.但是在方面級情感分析中,句法依存樹在縮短方面詞與對應情感詞距離上的作用不明顯,如圖1中可以看到方面詞沒有可以到達情感詞的路徑.因此Zheng等人[10]反轉(zhuǎn)句法依存樹部分依存關系邊加入額外的邊和節(jié)點,提出了一種隨機游走方面級情感分析模型RepWalk.此外Liu等人[11]提出通過除去停用詞、反轉(zhuǎn)邊等操作修剪句法依存樹結(jié)構(gòu)的句子相似度比較方法.Hewitt等人[12]基于Bert提出一種結(jié)構(gòu)探針(Structural Prob)驗證了Bert詞向量有效學到了句法依存樹結(jié)構(gòu).張沁洋[13]等人提出利用句法依存樹信息改進實體表示的方法.這些相關研究表明引入句法依存樹的建模方法能學習到句子的語義信息.
2013年Bruna等人[14]在譜空間定義圖卷積,提出了第一個圖卷積神經(jīng)網(wǎng)絡.GCN可以用來提取非歐幾里得結(jié)構(gòu)的拓撲圖的空間特征,學習節(jié)點表示,捕獲節(jié)點在圖中的特征信息[15].圖卷積神經(jīng)網(wǎng)絡模型第l層的計算方法如式(1)所示:
(1)
GCN廣泛應用于節(jié)點分類、鏈接預測、推薦系統(tǒng)、社交網(wǎng)絡分析、圖分類等研究領域中.在真實的圖結(jié)構(gòu)數(shù)據(jù)中,除了節(jié)點和邊的信息外還蘊含有許多有用信息,目前一些GCN模型建模時使用子圖拆解、參數(shù)重調(diào)、對偶建圖等方法,在卷積操作中使用這些額外信息提升模型效果[15].如2018年Schlichtkrull等人[16]提出的關系圖神經(jīng)網(wǎng)絡(R-GCNs)以連邊的標簽類型對原圖進行拆解,分別對子圖建模.2020年Chen等人[17]在方面實體抽取任務中對GCN進行改進,提出融入相對位置信息的D-GCN(Directional Graph Convolutional Networks)模型.此外Li等人[18]對卷積層數(shù)對模型性能影響進行分析,提出單層的GCN明顯優(yōu)于全連接網(wǎng)絡,而使用多層的GCN會導致效果降低,原因是在更新目標節(jié)點表達時會混合其他類節(jié)點的信息,從而導致效果降低.相關研究[14-16]表明基于GCN建模的方法能有效提取深層特征信息,融合多種策略建模,可以提高模型方面級情感分析的能力.
綜上所述基于句法依存樹構(gòu)建句法圖,在句法圖上進行深度優(yōu)先搜索獲得淺層句法特征信息,在GCN建模時劃分句法圖為多子圖并分別建模,能更好地將單詞之間的依賴關系整合到模型中,學習到包含深層句法特征信息的句子表示.因此本文提出的方法具有技術和理論可行性,使用特征融合增強的句子表示,能有效提高模型性能.
模型整體結(jié)構(gòu)如圖2所示,包括輸入層、嵌入層、編碼層、多級特征提取層和聚合層、輸出層.
圖2 句法特征融合增強模型架構(gòu)圖Fig.2 Framework of our syntactic feature fusion enhancement model
輸入層采用如2.1節(jié)所述的構(gòu)建句法依存樹方法為輸入的目標句子建立句法依存樹后,反轉(zhuǎn)句法依存樹中指向方面項中第1個詞的所有邊,構(gòu)建以方面項中第1個詞為根節(jié)點的句法圖(Syntactic graph).
根據(jù)上述句法圖建立句法圖信息列表和句法圖鄰接矩陣.句法圖信息列表是由句法圖中單詞、單詞詞性標簽、依賴關系邊、依存關系邊標簽、方面詞的位置標記組成的嵌套列表,用符號S表示.句法圖鄰接矩陣(Syntactic graph adjacency matrix)是句法圖的矩陣表示形式,用Α∈n×n表示,當單詞i和單詞j之間有依賴關系邊則ai,j=1,反之a(chǎn)i,j=0,ai,j是句法圖的鄰接矩陣Α∈n×n中的元素,1≤i≤n,1≤j≤n.
使用深度學習方法處理文本信息,需要通過詞嵌入將文本轉(zhuǎn)為向量形式,嵌入層使用詞嵌入技術將文本映射成低維向量,得到分布式的詞向量表示.使用預訓練好的300維GloVe詞典[19]來初始化嵌入層,對句法圖信息列表中包含的單詞進行詞嵌入得到詞向量序列X={x1,x2,…,xn-1,xn},X∈n×dx.n為單詞個數(shù),dx為詞嵌入的向量維度,xi∈dx表示第i個詞的詞向量.
此外分別設置相應的嵌入維度將詞性標簽和依存關系邊標簽也通過嵌入層轉(zhuǎn)為向量形式.pi∈dp是第i個詞的詞性標簽向量、dp為詞性標簽嵌入的向量維度,Re∈dr是依存關系邊e的標簽向量,dr為依存關系邊標簽嵌入的向量維度,1≤i≤n.
編碼層使用雙向GRU(Bi-GRU)來實現(xiàn),輸入包括詞向量和詞性標簽向量兩部分.對詞向量和詞性標簽向量進行拼接,輸入Bi-GRU中提取上下文特征,得到融合詞性信息和語義信息的特征提取序列H={h1,h2,…h(huán)n-1hn},H∈n×dh.dh為特征提取序列中向量的維度,hi∈dh表示特征提取序列中第i個詞的帶有高層語義信息的向量,計算公式如式(2)所示.
hi=Bi-GRU(xi;pi)
(2)
其中Bi-GRU表示雙向GRU,xi∈dx表示第i個詞的詞向量,1≤i≤n,n為文本長度,pi∈dp是第i個詞的詞性標簽的嵌入向量,dp為詞性標簽嵌入的向量維度,“;”表示向量拼接.
多級特征提取層的目的是更好的整合單詞之間的依賴關系到模型中,學習到更好的句子表示,以增強模型能力.該層分為淺層特征提取和深層特征提取兩層,其本質(zhì)區(qū)別是對句法圖的使用方法不同.淺層特征提取層僅基于對句法圖的深度優(yōu)先搜索來計算每個單詞的權(quán)值,從而得出句子的淺層特征級表示.深層特征提取層采用多子圖GCN進行建模提取句法圖的圖結(jié)構(gòu)特征,相比傳統(tǒng)的序列化建模處理的模型,能更有效地提取到非線性的復雜語義信息,在一定程度上提升模型性能.
3.4.1 淺層特征提取層
淺層特征提取層的目的是在句法圖中從代表方面詞的根節(jié)點出發(fā)進行深度優(yōu)先搜索,遍歷圖中每個節(jié)點,學習到融入句子的句法結(jié)構(gòu)特征信息的句子表示.單詞權(quán)重計算如圖3所示,其中每條邊權(quán)重值計算方法如式(3)所示:
le=σ([hu;hv]WpRe+bp)
(3)
其中e表示以節(jié)點u為起點和v為終點的邊,le代表e的權(quán)重值,hu∈dh代表起始節(jié)點u的編碼層表示,hv∈dh代表終節(jié)點v的編碼層表示;Re∈dr是依存關系邊e的標簽向量,dr為依存關系邊標簽嵌入的向量維度;Wp∈2dh×dr是權(quán)重參數(shù)矩陣,bp是偏置項,σ是Sigmoid激活函數(shù),“;”表示向量拼接.
單詞i的權(quán)重αi通過將從根節(jié)點到目標節(jié)點i的路徑上的邊的權(quán)重相乘來計算,1~m表示方面項中詞的Id,m表示方面項中的單詞個數(shù),對于方面項中的詞,權(quán)重都置為零.εi表示是從根節(jié)點到目標節(jié)點i的路徑上的邊集.權(quán)重αi計算方式如式(4)所示:
(4)
圖3 淺層特征提取層節(jié)點權(quán)重計算例圖Fig.3 Shallow feature extraction layer node weight calculation
淺層特征提取層最終的句子表示d∈dh的計算方式如式(5)所示:
(5)
其中n為句子長度,1≤i≤n.
3.4.2 深層特征提取層
深層特征提取層的目的是利用GCN學習到句法圖上的深層特征信息,增強句子表示.該層由兩個相對位置圖卷積(Relative Position Graph Convolutional Network,RPGCN)單元和注意力融合單元組成.
在句子上從左往右按升序的方式順序給每個詞分配一個標號Id,單詞i與單詞j相對位置信息用其標號Id相減的差來表示,記為dir.詞與詞之間的相對位置信息在句法圖的鄰接矩陣中有更直觀的體現(xiàn).參考Chen等人[17]的實體抽取模型DGCN中引入相對位置信息建模方法,把鄰接矩陣中元素的下標關系對應到單詞的相對位置關系上,改進GCN建模方式,并加入歸一化層建立RPGCN單元.
圖4 相對位置圖卷積(RPGCN)單元結(jié)構(gòu)圖Fig.4 Framework of relative position graph convolution(RPGCN)unit
RPGCN單元如圖4所示,由K層卷積層和歸一化層組成.將輸入的特征矩陣劃分為3個子矩陣(3個子矩陣是分別提取原矩陣的上三角矩陣元素、下三角矩陣元素和對角線上元素后,再用“0”填充擴展到原矩陣大小構(gòu)成的矩陣,子矩陣對應著子圖),在每個子矩陣上分別建模、獨立地進行特征提取.將節(jié)點在不同子矩陣上得到的結(jié)果相加,作為下一層網(wǎng)絡的輸入.句法圖鄰接矩陣和序列Η作為初始輸入進入第一個RPGCN單元.第k層卷積操作的計算方法如式(6)和式(7)所示:
(6)
(7)
其中ai,j是句法圖的鄰接矩陣A∈n×n中的元素,是該層的特征矩陣中的元素也是融入了上一層卷積信息的權(quán)重矩陣中的元素;dh×dh表示處理不同子矩陣數(shù)據(jù)時選取不同的權(quán)重矩陣,dir<0時時dh×dh,dir>0時dh×dh.
在模型中使用了兩個RPGCN單元,第2個RPGCN單元的初始輸入包括句法圖鄰接矩陣和第一個RPGCN單元的輸出序列G′∈n×dh,最終得深層特征信息序列G={g1,g2,…,gn-1,gn},G∈n×dh和編碼層輸出序列H經(jīng)過一個注意力融合單元進行一次融合,融合的計算方法如式(8)和式(9)所示.
?1=softmax(HW1GT)
(8)
h′=?1G
(9)
其中?1∈n是經(jīng)過注意力融合單元后得到的權(quán)重序列,n是文本長度,GT∈dh×n是G的轉(zhuǎn)置,h′∈dh是序列G在序列H上的得到的一個映射,是該層的最終輸出也是該層得到的句子表示,dh是編碼層輸出向量的維度.
3.4.3 多層特征提取算法
綜上所述,該層多級特征提取層的算法流程具體見表1.
表1 多級特征提取層算法Table 1 Feature extraction layer algorithm
聚合層的作用是融合得到的句法圖淺層特征與深層特征得到最終的句子表示.聚合計算如式(10)所示:
o=LN(ReLU(h′⊕d))
(10)
其中⊕表示逐元素相加,經(jīng)過ReLU激活函數(shù)和LN(Layer Normalization)歸一化層得到最終的句子表示o∈dh.
該層包括一個全連接層和一個歸一化層來預測情感極性分布,預測結(jié)果計算方法如式(11)所示:
(11)
在實驗中應用中斷策略來減輕過擬合,優(yōu)化器采用Adam.最終的損失函數(shù)如式(12)和式(13)所示,包括了交叉熵(Cross Entropy)損失、L1、L2正則化項:
(12)
(13)
其中αz∈n對應樣本中第x條文本的經(jīng)過淺層特征提取層后的權(quán)值向量,n為該條文本長度.τ對應于所有的可訓練的參數(shù),β和λ調(diào)節(jié)L1正則化項和L2正則化項的影響,φ表示兩個正則化項相加的和.是基本真實的情感極性,K是訓練的樣本數(shù)量,C是情感極性類別的數(shù)量,表示預測的情感極性.
不同的公開數(shù)據(jù)集有著不同的極性劃分標準,如部分中性的詞語在不同的數(shù)據(jù)集中可能會被分為積極或者是消極,因此在模型中使用錯誤或者不符合實際極性的數(shù)據(jù)會引入噪聲,導致決策邊界偏移,得到分類不準確的模型.因此選擇在4個較為權(quán)威的公開數(shù)據(jù)集上進行實驗,對本文模型性能和算法有效性進行評估.數(shù)據(jù)集Restaurant14(Rest14)、Laptop 14(Laptop)來自SemEval 2014 task 4[20],Restaurant 16(Rest 16)來自SemEval 2016 task 5[21].此外還有Li等人[22]的Twitter 評論數(shù)據(jù)集.這些數(shù)據(jù)集是方面級情感分析任務的主流數(shù)據(jù)集,極性劃分較為權(quán)威.各個數(shù)據(jù)集中測試集和訓練集的情感極性分布情況統(tǒng)計如表2所示.
表2 數(shù)據(jù)集統(tǒng)計表Table 2 Dataset description
在實驗中使用PyTorch框架(1.8.1+cu102版)實現(xiàn)模型編碼.4個數(shù)據(jù)集的Batch-Size都設為32,Rest16、Rest14、Twitter 3個數(shù)據(jù)集的學習率為1×10-3,Laptop數(shù)據(jù)集學習率為5×10-4.輸出層中的中斷率(Dropout Radio)在Rest16數(shù)據(jù)集上設置為0.3,Twitter數(shù)據(jù)集上設置為0.4,Laptop、和Rest14數(shù)據(jù)集上設置為0.5,其他的參數(shù)各個數(shù)據(jù)集統(tǒng)一設置,詳見表3.
表3 實驗參數(shù)設置表Table 3 Experimental parameter settings table
采用準確率(ACC)和Macro-F1(F1)值作為模型的評價標準,對比模型和實驗結(jié)果如表4所示.
表4 句法特征融合增強模型與基線模型結(jié)果對照表Table 4 Syntactic feature fusion enhancement model and baseline model results comparison table
對比模型中除基于人工特征的SVM-feature模型外,可以分為以下兩類:
·線性序列模型:LSTM、RAM、SA-LSTM-P、MGAN、HSCN.
·非線性序列模型:CDT、GCAE、Repwalk、SK-GCN、FDDN、New models.
選取SVM-feature作為對比的基準模型之一是為了比較傳統(tǒng)機器學習方法與基于深度學習中圖卷積方法的優(yōu)劣.實驗結(jié)果表明,基于圖卷積神經(jīng)網(wǎng)絡的方法整體優(yōu)于SVM-feature模型.
線性序列模型中除LSTM模型僅簡單使用LSTM對文本進行編碼外,MGAN模型還提出多粒度注意機制、HSCN模型額外提取了方面和上下文之間交互的特征信息.但這些模型都僅基于BiLSTM對句子編碼提取上下文信息,沒有考慮使用句子的句法特征來提取非線性的復雜語義信息,都是線性序列模型.從表4中實驗結(jié)果數(shù)據(jù)可以看出,本文模型的準確率(ACC)和Macro-F1(F1)值始終優(yōu)于這些主流的序列化建模處理的模型.
CDT模型僅利用句法依存樹的邊和節(jié)點信息建模提取句法特征信息.GCAE利用CNN建模結(jié)合門控機制獲取特征信息.SK-GCN模型在使用GCN建模的基礎上還引入了外部知識進行特征增強.FDDN模型使用門控機制實現(xiàn)特征蒸餾.New models采用GCN獲取上下文特征進而改進實體表示.Repwalk模型基于RNN建模提取上下文信息,再通過簡單遍歷句法圖提取淺層特征級信息.相比Repwalk模型,本文模型在Rest16數(shù)據(jù)集上的準確率提高了2.12%、F1值提高了4.79%;在Rest14數(shù)據(jù)集上準確率提高了1.71%、F1值高了3.63%;在Laptop數(shù)據(jù)集上的準確率提高了1.97%、F1值高了2.67%;在Twitter數(shù)據(jù)集上的準確率提高了1.64%、F1值高了2.24%.
從4個數(shù)據(jù)集上的實驗結(jié)果來看,句法特征融合增強模型該模型除在Twitter數(shù)據(jù)集的F1值指標上稍低CDT外,本文的模型性能整體優(yōu)于這些主流模型,也驗證了多級特征提取算法的有效性.
將通過以下幾組實驗和個例分析對模型進行性能評價.實驗1分析RPGCN單元中卷積層數(shù)對整體模型準確率的影響;實驗2分析深層特征提取層中RPGCN單元數(shù)量對模型的影響;實驗3分析Bi-GRU編碼層特征提取序列中向量的維度對模型的影響;實驗4分析輸出層的Dropout Radio(中斷率)對模型的影響;實驗5分析多級特征提取層中各個層對模型的影響.5組實驗中除該組分析的參數(shù)外,其他參數(shù)均統(tǒng)一設置為4.2節(jié)所述數(shù)值.
1)分析RPGCN單元中卷積層數(shù)對整體模型準確率的影響,卷積層數(shù)取1、2、3、4、5層時各數(shù)據(jù)集的實驗結(jié)果.如表5所示:在實驗中隨著卷積層數(shù)的增加,模型的性能并沒有提升,相反計算速度變慢,在最終模型中每個RPGCN單元的卷積層取1層.
2)分析深層特征提取層中RPGCN單元的個數(shù)對模型的影響,在實驗中,模型的RPGCN單元個數(shù)分別設定為1、2、3、4、5,測定RPGCN單元有幾個時模型效果較好.經(jīng)過實驗發(fā)現(xiàn)當RPGCN單元的超過2個時,模型的準確率并沒有隨著RPGCN單元的個數(shù)增加而有所提升,反而耗費更長的實驗時間.基于表6所示結(jié)果分析,增加層數(shù)會增加模型的復雜性.
表5 卷積層數(shù)對模型的影響Table 5 Effect of convolutional layers on the model
在一開始增加RPGCN單元數(shù)可以提升模型的性能,但隨著層數(shù)持續(xù)增加,模型性能呈下降趨勢,原因是過于復雜的模型容易過擬合.故最終模型選擇的RPGCN單元的個數(shù)為2時是較合理的.
表6 RPGCN單元對模型的影響Table 6 Effect of the RPGCN unit on the model
3)分析編碼層特征提取序列中向量的維度對模型的影響,維度設置為200、400、600、800、1000這5項.實驗結(jié)果如表7所示,通過對實驗數(shù)據(jù)的觀察可以發(fā)現(xiàn),增加編碼層特征提取序列中向量的維度在一定程度上可以提升模型的性能,但也同時提升了學習參數(shù)的復雜度,因此在訓練模型時需要考慮選擇合理的編碼層輸出序列的維度.此外也可以看出,剛開始逐步增加編碼層特征提取序列中向量的維度時,模型性能有上升趨勢,這是因為隨著編碼層輸出序列的維度的增加,模型可以提取到更多高階隱含信息,從而提升模型預測精度.但是當編碼層輸出序列的維度達到一定閾值時,編碼層輸出序列的維度對模型性能的影響已經(jīng)到達極限,再增加維度可能會學習到其他信息引入噪音.這不僅不能對模型性能帶來更多提升,還增加了模型復雜度,甚至會導致模型性能下降,因此需要合理選擇編碼層特征提取序列中向量的維度.
表7 編碼層輸出序列維度對模型的影響Table 7 Effect of the coding layer output sequence dimension on the model
4)在輸出層中句子表示h′和d對應元素相加后設置中斷層,分析Dropout Radio參數(shù)變化對模型性能的影響,Dropout Radio參數(shù)實驗中分別選取0、0.3、0.4、0.5、0.7這五個參數(shù)進行對比實驗,在Twitter、Rest16數(shù)據(jù)集上的實驗結(jié)果如圖5所示,經(jīng)觀察可知在該模型中,Rest16數(shù)據(jù)集的中斷率設置為0.3,Twitter設置為0.4較好,合理設置中斷率對提升模型性能有一定的幫助.
圖5 輸出層中斷率對模型的影響Fig.5 Impact of the output layer dropout radio on the model
5)分析多級特征提取層中兩個不同級的特征提取層對模型性能的影響,在模型中分別移除淺層特征提取層和深層特征提取層,進行消融實驗.實驗結(jié)果如表8所示,Out-DFS表示移除淺層特征提取層、Out-GCN表示移除深層特征提取層,結(jié)果驗證淺層特征提取層和深層特征提取層融合的模型結(jié)構(gòu)設計相比單一特征級的模型結(jié)構(gòu)確實可以提取出更多對于方面級情感分析有價值的信息,不同層級的特征融合增強的結(jié)構(gòu)設計可以增強分類效果.此外也能看出淺層特征提取層提取到的淺層特征信息的重要性并不比圖卷積層提取到的信息低,在使用圖卷積神經(jīng)網(wǎng)絡提取深層特征信息時可以考慮融入淺層特征信息進行特征增強.
6)深度特征提取層中的注意力融合單元的有效性分析.以Rest16數(shù)據(jù)集中的“i am not a vegetarian but,almost all the dishes were great .”和“we started off with a delightful sashimi amuse bouche .”兩句文本作為觀察樣本,使用熱力圖來可視化分析樣本經(jīng)過注意力融合單元后各單詞上的權(quán)重值.熱力圖中顏色相對較暗的單詞表示權(quán)重較小的單詞,顏色較淺的是權(quán)重較大的詞.如圖6所示,經(jīng)過注意力融合單元后模型的重心落在一些有助于推斷情感極性的重要詞上.兩句樣本中權(quán)重最大的單詞是分別是“great”、“delightful”兩個情感詞,相對的一些人稱代詞和符號的權(quán)重較低.經(jīng)觀察可知注意力融合單元能夠捕獲豐富的上下文單詞信息,突出顯示情感詞.第2個觀察樣本表明,注意力融合單元也可以成功地捕獲有關方面項的信息,方面項中的詞“sashimi ”、“amuse”、“bouche”權(quán)重值都很低.從這兩個觀察樣本的注意力融合單元得到的權(quán)重序列結(jié)果中可知,本文所提出的模型能夠借助注意力融合單元來捕獲重要的上下文信息,在方面級的情感分類任務中取得不錯效果.
圖6 注意力融合單元結(jié)果圖Fig.6 Results of the attention fusion unit
在近幾年的方面級情感分析任務研究中,引入句法依存樹和深度神經(jīng)網(wǎng)絡等的多策略方法已經(jīng)成為研究趨勢.本文提出基于句法依存樹的多級特征提取層算法,建立句法特征增強模型.在4個方面級情感分析任務常用的基準數(shù)據(jù)集上進行了實驗,結(jié)果表明本文提出的模型性能整體優(yōu)于目前的一些主流方法,能夠有效地捕捉句子中方面詞的上下文信息特征,能提升GCN和句法依存樹的融合效果,改善句子表示,提高模型性能,也驗證了多級特征提取層算法是有效的.通過實驗發(fā)現(xiàn)在Twitter數(shù)據(jù)集上基于句法依存樹的模型相比其他模型性能較差,原因是Twitter評論數(shù)據(jù)集中文本口語化較明顯,包含新出現(xiàn)的一些網(wǎng)絡熱詞,建立句法依存樹容易存在噪聲,建立錯誤的句法依存樹則影響了模型后期的句子表示學習.
基于句法信息的模型的性能很大程度上取決于將句子解析成正確的依存關系樹的能力.將句法信息用于處理偏正式、無過多拼寫或語法錯誤的數(shù)據(jù)集將會取得不錯的效果.現(xiàn)實中網(wǎng)絡評論基本都是簡短、隨意的口語化句子,解析成正確的句法依賴關系時會存在困難.在未來將研究使用知識圖譜、遷移學習等方法處理這類句子,優(yōu)化模型.