宋 婷, 陳戰(zhàn)偉
(1 太原科技大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院, 太原030024; 2 中國移動通信集團(tuán)山西有限公司, 太原030001)
情感分析是自然語言處理的任務(wù)之一,如何從社交網(wǎng)絡(luò)眾多文本信息中判斷用戶的情感傾向,分析人們對產(chǎn)品、服務(wù)、事件、主題及其屬性等實體對象所持的意見、情感、評價、看法和態(tài)度等主觀感受,是情感分析的主要研究工作。 方面級情感分析,是針對同一實體不同方面屬性挖掘更深層次的情感表達(dá)。 其中包括兩個子任務(wù),首先是方面詞的提取,它可以是一個單詞,也可以是一個短語;接著是針對各個方面分析其情感極性。 例如句子:“Good food but dreadful service at that restaurant”。 其中語句評論的對象是餐廳,句中分別描述了兩個方面:food 和service,相對應(yīng)的情感極性分別是積極和消極。
早期,文本分類問題采用傳統(tǒng)的機(jī)器學(xué)習(xí)算法,其訓(xùn)練集需要經(jīng)過大量人工標(biāo)注的過程,從而在訓(xùn)練集上進(jìn)行特征提取,構(gòu)建文本分類模型,因此它基于復(fù)雜的人工規(guī)則和特征工程[1]。 近年來,深度學(xué)習(xí)被廣泛應(yīng)用于自然語言處理中,它的最大優(yōu)點是能自動學(xué)習(xí)大量數(shù)據(jù)中的潛在特征。 深度神經(jīng)網(wǎng)絡(luò)模型在機(jī)器翻譯、文本分類等任務(wù)中顯現(xiàn)出較好的效果,同時結(jié)合注意力機(jī)制,在訓(xùn)練過程中高度關(guān)注特定目標(biāo)的特征信息,針對不同目標(biāo)調(diào)整參數(shù)[2-4]。在情感分析領(lǐng)域,當(dāng)下使用最多的模型是卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)[5-6],卷積神經(jīng)網(wǎng)絡(luò)沒有時序性,提取的是文本局部特征,而循環(huán)神經(jīng)網(wǎng)絡(luò)有時序性。 當(dāng)前的決策除了和當(dāng)前的輸入相關(guān)外,還和上一決策相關(guān),可以捕捉到網(wǎng)絡(luò)的時序性,從而可以捕捉文本的上下文語義信息。
文本的一個句子中若存在多個特定方面目標(biāo),則句子情感可能存在多樣性,同一個用戶評論中也可能存在兩個以上的情感極性,而現(xiàn)有文獻(xiàn)沒有考慮句子中單詞和方面的情感極性信息。 情感極性信息對判斷句子情感有著重要作用,這一點和特征工程算法有相似之處。 單詞和方面詞之間的位置信息可幫助判斷單詞對方面詞的影響力大小,方面、詞性信息對情感極性都有不同程度的影響。 基于上述問題,本文提出一種基于多通道模式和改進(jìn)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的方面級情感分析模型,主要貢獻(xiàn)如下:
(1)提出一種多通道-雙向-ALSTM 模式進(jìn)行特定方面級情感分析。 模型利用不同通道對現(xiàn)有文本任務(wù)中圍繞方面抽取的豐富情感資源建模。
(2)分別抽取單詞詞性、單詞情感極性和相對方面詞的位置信息,從不同角度學(xué)習(xí)挖掘更多的隱藏信息。 同時嵌入了方面信息,并融入相應(yīng)方面情感極性。 融合后,經(jīng)過線性轉(zhuǎn)換與通道特征結(jié)合,從而實現(xiàn)深層次的方面情感特征學(xué)習(xí)。
(3)在傳統(tǒng)LSTM 網(wǎng)絡(luò)的基礎(chǔ)上添加了預(yù)定義的方面目標(biāo)屬性。 設(shè)計擴(kuò)大的內(nèi)部記憶鏈獲取情感特征,利用內(nèi)部記憶鏈上動態(tài)記憶單元控制情感信息的遠(yuǎn)距離依賴。
(4)在SemEval 2014 的兩個數(shù)據(jù)集和Twitter 數(shù)據(jù)集上進(jìn)行對比實驗,驗證了該方法中不同特征對模型準(zhǔn)確率提升程度不同。 特征的加入使情感分類準(zhǔn)確率均得到了有效提升。 對傳統(tǒng)LSTM 的改進(jìn)提高了分類準(zhǔn)確率,加快了訓(xùn)練的收斂速度。
早期的神經(jīng)網(wǎng)絡(luò)模型采用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)結(jié)構(gòu)[7],句法結(jié)構(gòu)信息的使用雖然提高了情感分類準(zhǔn)確率,但句法分析的準(zhǔn)確率對結(jié)果影響較大,尤其對非書面表達(dá)時效果欠佳。 Socher 等[8]提出的遞歸神經(jīng)張量網(wǎng)絡(luò)(RNTN),用分布式向量表示短語;Kalchb-renner 等[9]提出了一種動態(tài)卷積神經(jīng)網(wǎng)絡(luò)(dynamic convolutional neutral network,簡稱DCNN),用于句子級的 語 義 建 模。 文 獻(xiàn)[10]利 用 長 短 期 記 憶 網(wǎng) 絡(luò)(LSTM)抽取文本中的情感特征。 LSTM 是RNN 的變體,較好的解決了長距離依賴問題。 雙向長短期記憶網(wǎng)絡(luò)(bi-LSTM)[11]和具有注意力機(jī)制的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)模型都有較好的性能表現(xiàn)[12]。 Wang 等[13]提出AE-LSTM 神經(jīng)網(wǎng)絡(luò)和ATAE-LSTM 神經(jīng)網(wǎng)絡(luò)模型,后者比前者增強(qiáng)了方面嵌入的效果,兩者都是通過LSTM 建模,對上下文建模后結(jié)合文本隱藏狀態(tài)和方面信息生成注意力向量,最終得到方面的情感分類。 Tang 等[14]提出基于方面的TD -LSTM 模型和TC-LSTM 模型,兩者皆利用方面的上下文語義信息作為輸入一部分進(jìn)行情感分類。 Ruder 等[15]提出層次化的Bi-LSTM 模型,將單詞向量作為句子級Bi-LSTM 的輸入。 Ma 等[16]基于注意力機(jī)制同時獲取方面信息和上下文語義信息的重要部分,是一種交互式的網(wǎng)絡(luò)模型。 Tang 等[17]提出基于端到端存儲網(wǎng)絡(luò)的方面級情感分析,利用外部存儲器通過注意力機(jī)制獲取方面上下文語義的權(quán)重信息。
近期的方面級情感分析大部分圍繞RNN 網(wǎng)絡(luò)的設(shè)計與注意力機(jī)制的結(jié)合,及分類器設(shè)計等方面工作的研究,以求提升模型性能。
本文提出的多通道方面級情感雙向循環(huán)神經(jīng)網(wǎng)絡(luò)基本模型如圖1 所示。
圖1 多通道雙向GRU 網(wǎng)絡(luò)模型Fig.1 Multi-channel bidirectional GRU network model
該模型由4 部分組成:
(1)獲取信息層。 基于文本語言知識,圍繞文本方面詞抽取一系列情感特征信息。 其中包括詞性信息、情感極性、詞語相對方面詞的位置信息,從而充分的獲取句子情感。
(2)多通道輸入層。 融合方面詞向量和方面極性信息,將形成的方面特征信息和三個通道特征向量融合,得到最終的通道特征信息,待進(jìn)入網(wǎng)絡(luò)獲取上下文信息。
(3)改進(jìn)的多通道LSTM 網(wǎng)絡(luò)層。 該部分對傳統(tǒng)的LSTM 網(wǎng)絡(luò)進(jìn)行了改進(jìn),在LSTM 網(wǎng)絡(luò)的基礎(chǔ)上添加了預(yù)定義的方面屬性類別;設(shè)計了一種內(nèi)部記憶鏈獲取情感特征;利用動態(tài)記憶單元控制情感信息的遠(yuǎn)距離依賴。
(4)情感輸出層,輸出最終的情感分類結(jié)果。
研究表明,忽略文本方面信息是導(dǎo)致情感分類失敗的原因之一,充分證明了方面信息的重要性。因此,本文將基于文本語言知識,圍繞文本方面詞獲取一系列情感特征信息。 包括:詞性信息、情感極性、單詞相對方面詞的位置信息。 通過與文本詞向量融合分三個通道作為Asp 模型輸入。
(1)詞向量
文本句子中隱含著情感分類所需的語義信息,通過將文本向量化獲取句子的特征信息。 利用工具Glove 將詞語向量化,設(shè)維度設(shè)為300。 給定句子s,n 表示句子長度,句中wi表示句子s 的第i 個單詞;給定方面其中包含m 個單詞。 得到s 的詞嵌入矩陣為Ws=[wv1,wv2,...,wvn],wv ∈Rd1、特定方面目標(biāo)的詞嵌入矩陣WAsp=[wa1,wa2,...,wam],wa ∈Rd2,其中,d1,d2分別是句子和方面的詞向量維度。
(2)詞性
單詞詞性暗含用戶對方面的主觀意識和情感極性。 本文通過工具POS Tagger 對單詞進(jìn)行詞性標(biāo)注,將得到的單詞詞性進(jìn)行one hot 編碼。 句子的詞性設(shè)為:,wpos∈Rd3。 標(biāo)簽級包含36 種詞性,p 為詞性長度,d3為向量的維度。若對應(yīng)單詞無詞性標(biāo)注,則將向量設(shè)置為0。
(3)位置信息
句子單詞相對方面詞的位置信息,在一定程度上反映了單詞對情感分類的影響力大小。 單詞相對于方面詞的位置信息計算如式(1)所示。
其中,pi表示句子s 在第i 個位置上相應(yīng)單詞的位置信 息, len(s) 為 句 子 的 長 度, pasp(1 ≤pasp≤len(s)) 表示方面詞在句中的順序排位。 上式將句子以方面詞為中心,劃分左右兩部分。 右邊以方面詞為起始,依次掃描,以1 為步長遞增;左邊依次以1 為步長遞減。 情感詞對方面詞的權(quán)重影響大小和相對距離成反比。 由此得到句子的位置信息表示:,其中l(wèi) 表示位置信息的長度,d4表示詞向量的維度。
(4)情感極性
不同詞性的單詞情感分?jǐn)?shù)不同,在不同語境下單詞的情感分?jǐn)?shù)也不同。 利用工具SentiWordNet 在已獲取單詞詞性的基礎(chǔ)上計算單詞的情感極性。 將單詞在不同語境下的情感分?jǐn)?shù)取均值,情感極性用一個二維數(shù)組表示,兩個元素分別代表積極分?jǐn)?shù)和消極分?jǐn)?shù),分別用正值和負(fù)值表示。 根據(jù)已知詞性,將相應(yīng)情感分?jǐn)?shù)置于數(shù)組對應(yīng)位置上。 句子情感極性和方面情感極性分別表示為:詞向量維度分別是d5,d6。
在2.1 節(jié)基礎(chǔ)上形成三個通道作為網(wǎng)絡(luò)模型的輸入。 以句子詞向量為主體,分別和詞性特征向量、位置特征向量、情感極性特征向量,通過拼接操作形成三個輸入通道,如式(2)-(4)所示。
由此得到三個通道的待輸入特征信息。 其中,d1+d3,d1+d4,d1+d5分別為三組特征向量的維度。
將方面詞向量和方面極性融合、方面信息和已得到的三個待輸入通道特征依次融合,得到最終的三個通道特征信息,進(jìn)入改進(jìn)的雙向LSTM 網(wǎng)絡(luò)。
aspss1 表示方面詞和方面極性融合的計算結(jié)果。 假設(shè)方面詞包含單詞數(shù)最多為M,則aspss1 的維度為M?(d2+d6),為了與待輸入的通道特征結(jié)合,通過一次線性轉(zhuǎn)換得到方面信息aspss, 如式(5)所示:
其中,Waspss是1?M 維的權(quán)重參數(shù)。
基于方面目標(biāo)詞的細(xì)粒度情感分析,需要模型能夠精確地識別方面相關(guān)的情感特征,從而進(jìn)行情感分類。 本節(jié)在LSTM 網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行了改進(jìn),在對網(wǎng)絡(luò)模型擴(kuò)展的同時更有利于獲取方面相關(guān)的情感特征。 網(wǎng)絡(luò)模型中添加了預(yù)定義的方面屬性類別,通過形成的內(nèi)部記憶鏈獲取方面屬性情感特征,利用動態(tài)記憶單元控制情感信息的遠(yuǎn)距離依賴,內(nèi)部記憶鏈通過注意力機(jī)制獲取情感分類。 改進(jìn)后的模型網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。其中::表示文本中的詞向量;: 表示第j個預(yù)定義的方面屬性;:表示當(dāng)前輸入的方面屬性j 的上一時刻隱層狀態(tài);:表示方面屬性j 在內(nèi)部記憶鏈中上一時刻的隱層狀態(tài);: 表示方面屬性j 的門控單元;分別表示當(dāng)前時刻網(wǎng)絡(luò)和內(nèi)部記憶鏈的隱層狀態(tài)。 每一個方面屬性類別都對應(yīng)一個內(nèi)部狀態(tài)鏈,其中擴(kuò)展的內(nèi)部記憶鏈上的動態(tài)記憶模塊是一個GRU 單元,用來控制長距離依賴的情感信息,每輸入一個,計算當(dāng)前方面屬性j 的臨時隱層狀態(tài),從而通過門控單元和內(nèi)部記憶鏈更新。 計算公式如式(6)-(9)所示:
圖2 改進(jìn)的雙向LSTM 網(wǎng)絡(luò)Fig.2 Improved two-way LSTM network
其中:X、Y、U、V 是待訓(xùn)練參數(shù),?和σ 是非線性的激活函數(shù),☉代表元素相乘。 臨時隱層狀態(tài)由方面屬性、上一時刻的內(nèi)部記憶狀態(tài)和當(dāng)前輸入的信息線性變換組成。 門控單元由式(8)中第一部分的內(nèi)容信息和第二部分的位置信息決定。 當(dāng)輸入的向量和方面詞向量相符,并含有方面相關(guān)情感特征時,門控單元的計算則對方面屬性的上一步隱層狀態(tài)提供更豐富深層的信息量。 門控單元計算式子中第三部分為遠(yuǎn)距離依賴信息,若當(dāng)前進(jìn)入的詞向量與方面屬性存在遠(yuǎn)距離狀態(tài),則門控單元的計算給當(dāng)前的隱層狀態(tài)提供更多的更新信息。 由此可見,內(nèi)部狀態(tài)鏈上的記憶模塊實現(xiàn)了方面相關(guān)信息長距離依賴的情感信息控制功能。 最終得到的網(wǎng)絡(luò)當(dāng)前隱層狀態(tài)由式(9)中上一步的隱層狀態(tài)和代表更新信息量的合并求得。 當(dāng)前的隱層狀態(tài)值通過遺忘過期信息將取值縮至單元距離間,以此丟掉網(wǎng)絡(luò)中已過期信息。
本文采用雙向網(wǎng)絡(luò)學(xué)習(xí)特征的上下文信息,沿著前后兩個方向進(jìn)行建模,最終得到雙向循環(huán)網(wǎng)絡(luò)。其表示如式(10)所示:
通過改進(jìn)的Bi-ALSTM 網(wǎng)絡(luò),得到三個隱藏層輸出,經(jīng)過歸一化處理分別得到三個不同的情感特征,然后進(jìn)入Merge 層。 通過⊕操作得到情感分類層的輸入向量x,放到情感分類器,從而得到情感極性結(jié)果如式(11)所示:
其中,wp,bp分別表示權(quán)重參數(shù)和偏置參數(shù),本文在模型訓(xùn)練過程中使用交叉熵作為損失函數(shù),如式(12)所示:
其中,D、C 分別為訓(xùn)練數(shù)據(jù)大小和類別數(shù),y、p分別為實際類別和預(yù)測類別。
本文提出的基于多通道模式的雙向LSTM 方面情感分析模型(MCBL),在三個數(shù)據(jù)集上進(jìn)行驗證。實驗采用SemEval 2014 Task4 的Laptop、Restaurant數(shù)據(jù)集。 其中包含四種情感類別:積極的、消極的、中立的、沖突的,最后一種類別數(shù)據(jù)所占比例較低,實驗中只保留前三種。 第三個數(shù)據(jù)集來自文獻(xiàn)[19]的Twitter 數(shù)據(jù)集,三個數(shù)據(jù)集數(shù)據(jù)統(tǒng)計結(jié)果如表1 所示。
表1 數(shù)據(jù)集信息Tab.1 Data set information
實驗過程中采用準(zhǔn)確率作為評價指標(biāo),向量初始化采用Glove 詞向量。 詞向量維度為300,詞性、級性、位置信息特征維度為100。 采用均勻分布U(- 0.1,0.1) 對未登陸詞初始化,偏置初始化為0。訓(xùn)練采用Adam[20]優(yōu)化器更新模型參數(shù),參數(shù)設(shè)置如表2 所示。
表2 參數(shù)設(shè)置Tab.2 Parameter settings
為了驗證本文模型的性能,將其與以下模型進(jìn)行對比:
(1)LSTM:采用長短期記憶網(wǎng)絡(luò)對文本進(jìn)行方面級的情感分析[11]。
(2)GNN:采用門限神經(jīng)網(wǎng)絡(luò)獲取文本上下門和方面信息,將兩者融合生成句子表示[21]。
(3)TD-LSTM:通過兩個LSTM 對左、右兩個方向分別獲取文本上下文信息,獲得情感分類結(jié)果[14]。
(4)?ATAE-LSTM:將方面信息拼接到句子向量上,通過注意力機(jī)制獲取詞向量權(quán)重,得到分類結(jié)果[13]
(5)MemNet:通過文本詞向量構(gòu)造外部記憶,利用注意力機(jī)制的方面情感分析,每一層計算關(guān)于方面的注意力表達(dá)作為下一層的輸入重新計算[17]。
本文模型(MCBL)同以上模型比較后的準(zhǔn)確率值如表3 所示。
表3 不同模型的方面級情感分類準(zhǔn)確率Tab.3 Accuracy rate of aspect-level sentiment classification of different models %
由表3 可見:二分類的實驗結(jié)果優(yōu)于三分類,當(dāng)分類考慮中性情感,模型分類準(zhǔn)確率降低。 本文在三個數(shù)據(jù)集上分別對三分類和二分類兩種情況進(jìn)行實驗。
通過分析得到基于LSTM 的模型實驗效果優(yōu)于只采用LSTM 的網(wǎng)絡(luò)模型;嵌入方面信息的TDLSTM 優(yōu)于基礎(chǔ)模型LSTM;ATAE-LSTM 考慮了注意力機(jī)制,在分類準(zhǔn)確率上比TD-LSTM 有所提高,考慮了方面和注意力機(jī)制的MemNet 模型優(yōu)于以上模型,由此可得方面和注意力機(jī)制對模型效果提升有一定影響。
本文提出的MCBL 模型基于多通道模式嵌入不同的特征信息,通過改進(jìn)的雙向LSTM 網(wǎng)絡(luò)獲取上下文,在三個數(shù)據(jù)集上的實驗結(jié)果和對比模型相比均有1-3 個百分點的提升,驗證了該方法的有效性。
通過不同通道特征的組合驗證,不同特征信息對模型準(zhǔn)確率的提升效果如表4 所示。
其中,SA 表示融入方面信息的模型,所有對比通道模型均在已融入方面信息的基礎(chǔ)上添加其它信息特征;SAP 表示在融入方面信息的基礎(chǔ)上嵌入詞性信息;SAL 表示在融入方面信息的基礎(chǔ)上嵌入位置信息;SAS 表示在融入方面信息的基礎(chǔ)上嵌入極性信息。
表4 特征信息組合性能準(zhǔn)確率Tab.4 Performance accuracy rate of combination of characteristic information %
表4 中融入通道特征后的模型分類準(zhǔn)確率,優(yōu)于表3 中只融入方面信息的模型,嵌入多通道特征信息的模型分類準(zhǔn)確率均比單通道特征模型有不同程度的提升。 不同通道特征的結(jié)合對模型準(zhǔn)確率的影響大小不同,對比表4,可得詞性特征、位置特征相比單詞極性對模型效果的影響力較大,嵌入三種特征信息的模型效果最好。
為了驗證基于LSTM 改進(jìn)的循環(huán)網(wǎng)絡(luò)在方面嵌入和內(nèi)部記憶鏈的擴(kuò)展情況下,情感特征的獲取是否穩(wěn)定,模型性能是否提高。 通過若干次迭代過程計算平均損失值,對比模型[14],如圖3 所示。 橫坐標(biāo)代表實驗中訓(xùn)練的迭代次數(shù),縱坐標(biāo)代表平均損失值,實線代表本文模型,虛線代表對比模型。 可以看出隨著迭代次數(shù)的增加模型的平均損失值逐漸減小。 分析得出本文改進(jìn)后的網(wǎng)絡(luò)模型在實驗訓(xùn)練過程中收斂的速度更快,性能更優(yōu)。
圖3 改進(jìn)模型與對比模型收斂速度Fig.3 Convergence speed of the improved model and the comparison model
本文基于多通道模式嵌入不同特征信息,分析現(xiàn)有語言知識提取情感資源,形成不同特征通道。 融入方面情感極性,經(jīng)過線性轉(zhuǎn)換與通道特征結(jié)合,設(shè)計擴(kuò)大的動態(tài)記憶鏈改進(jìn)LSTM,實現(xiàn)深層次的方面情感特征學(xué)習(xí)。 通過數(shù)據(jù)集上的對比實驗,驗證了該方法中幾種特征的嵌入對模型情感分類準(zhǔn)確率均有提升。 通過一些實例分析得出,包含跨領(lǐng)域詞匯和網(wǎng)絡(luò)用語句子的方面情感分析,現(xiàn)模型還不能很好的進(jìn)行情感識別,這將作為下一步研究的重點。