李衛(wèi)疆,漆 芳
(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,越來越多的用戶在網(wǎng)上表達(dá)自己的觀點(diǎn)和情感。如何高效快速的分析這些帶有情感的觀點(diǎn)和言論,已得到越來越多研究人員的關(guān)注。
傳統(tǒng)的情感分類方法主要包括基于詞典和基于機(jī)器學(xué)習(xí)。基于詞典方法的核心模式是“詞典+規(guī)則”,即以情感詞典作為判斷評(píng)論情感極性的主要依據(jù)[1],依賴于情感詞典和判斷規(guī)則的質(zhì)量,需要大量的人工干預(yù);基于機(jī)器學(xué)習(xí)方法將情感分析看作一個(gè)分類問題,該方法是對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)習(xí)來構(gòu)建一個(gè)分類模型,用來對(duì)未知標(biāo)簽的測(cè)試數(shù)據(jù)進(jìn)行分類預(yù)測(cè)[2-3]。這類方法的多數(shù)模型的性能依賴于標(biāo)注數(shù)據(jù)的質(zhì)量,需要耗費(fèi)大量的人工成本。
近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的方法成為了主流,被廣泛地應(yīng)用于自然語言處理(NLP)領(lǐng)域中。卷積神經(jīng)網(wǎng)絡(luò)(convolution neural networks,CNN)[4]和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[5]是目前在情感分析任務(wù)中具有代表性的深度學(xué)習(xí)模型。其中CNN通過對(duì)句子的所有詞的詞向量使用不同大小的滑動(dòng)窗口進(jìn)行卷積操作,提取局部相鄰詞之間的高維度特征。與CNN相比,RNN具有上下文語義捕捉能力,能夠?qū)⒂洃泝?nèi)容應(yīng)用到當(dāng)前情景下,并且支持變長(zhǎng)樣本的輸入。文獻(xiàn)[6]中,作者提出使用長(zhǎng)短期記憶網(wǎng)絡(luò)(long short term memory,LSTM),是RNN的變種,考慮了詞序列之間順序依賴關(guān)系,能夠很好地解決長(zhǎng)時(shí)距離依賴問題。
在情感分析任務(wù)中,相對(duì)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)能夠自動(dòng)捕捉從數(shù)據(jù)本身到高層特征更為復(fù)雜的語義映射,特征獲取無需大量人工干預(yù)。在性能上也體現(xiàn)了相比于以往方法的優(yōu)越性。雖然這些神經(jīng)網(wǎng)絡(luò)模型取得了巨大的成功,但也存在著一些缺陷。首先,忽略了情感分析任務(wù)中現(xiàn)有的語言知識(shí)和情感資源,不能充分的利用這些情感特征信息;其次,語言知識(shí),如情感詞匯、否定詞 (如不,從不)、程度副詞(非常,很),在神經(jīng)網(wǎng)絡(luò)模型中未被充分使用。陳釗等[7]提出了一種利用情感詞典中的詞條對(duì)文本中詞語進(jìn)行抽象表示生成的特征加入卷積神經(jīng)網(wǎng)絡(luò)(WFCNN);這一類方法過于依賴于情感詞典,需要大量的人工整理情感詞典,無法充分利用情感分析任務(wù)中特有的語言知識(shí)和情感特征信息。而且,該方法使用的卷積神經(jīng)網(wǎng)絡(luò)的濾波器的詞容量有限,不能捕捉到句子中距離長(zhǎng)的信息,從而無法獲得句子中非相鄰詞之間的長(zhǎng)距離語義關(guān)系。Qiao Qian等[8]提出使用句級(jí)注釋訓(xùn)練的簡(jiǎn)單LSTM模型,并對(duì)情感詞匯、否定詞和強(qiáng)度詞的語言角色(作用)進(jìn)行建模。雖然該模型能夠捕捉到非相鄰詞之間的語義關(guān)系,但是該方法需要人工來建立強(qiáng)度正則化器,過于依賴正則化句級(jí)注釋。還有一些非常依賴解析樹結(jié)構(gòu)和昂貴的短語級(jí)注釋的模型,如Tree-LSTM[9],當(dāng)僅使用句子級(jí)進(jìn)行訓(xùn)練時(shí),其性能會(huì)顯著下降。
針對(duì)上述問題,本文提出一種基于多通道雙向長(zhǎng)短期記憶的文本情感分析方法,該方法首先通過對(duì)文本中的詞語進(jìn)行詞性標(biāo)注,并進(jìn)行向量化操作,映射成一個(gè)詞性特征向量,其中重點(diǎn)對(duì)特殊情感詞進(jìn)行標(biāo)注。同時(shí),對(duì)文本進(jìn)行句法依存分析,生成依存特征;對(duì)每個(gè)詞語的位置,通過向量化映射成一個(gè)位置特征向量。有效的將文本的情感特征信息充分的加入模型中。從而,更加準(zhǔn)確地的突出詞語的語義程度。其次,將輸入文本句子中的詞向量和詞性特征向量、位置特征向量和依存特征向量三者進(jìn)行兩兩組合,生成不同特征的通道輸入,再將每個(gè)通道輸入學(xué)習(xí)一個(gè)Bi-LSTM;讓模型從不同的角度去學(xué)習(xí)句子中的情感特征信息,挖掘句子中不同方面的隱藏信息。
本文在中文傾向性分析評(píng)測(cè)COAE2014、英文電影評(píng)論MR和斯坦福情緒樹庫(SST)三個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),并和多種基準(zhǔn)模型進(jìn)行了對(duì)比。實(shí)驗(yàn)結(jié)果顯示本文提出的Multi-Bi-LSTM在三個(gè)數(shù)據(jù)集上取得了比樸素貝葉斯、支持向量機(jī)、RNN、Bi-LSTM等一些基準(zhǔn)模型更好的性能。綜上,本文貢獻(xiàn)如下:
(1) 提出了一種Multi-Bi-LSTM模型用于情感分析任務(wù),該模型對(duì)情感分析任務(wù)中現(xiàn)有的語言知識(shí)和情感資源進(jìn)行建模,形成不同的特征通道。
(2) 使用三個(gè)Bi-LSTM對(duì)不同的特征通道去學(xué)習(xí)不同角度的情感信息特征,挖掘句子中更多的隱藏信息。與以前依賴情感詞典、人工建立情感強(qiáng)度正則化器和解析結(jié)構(gòu)以及昂貴的短語級(jí)注釋不同,本文提出的模型簡(jiǎn)單而有效。
(3) 在中英文三個(gè)數(shù)據(jù)集上驗(yàn)證了本文提出的Multi-Bi-LSTM模型在情感分析任務(wù)中的有效性。
情感分析是自然語言處理領(lǐng)域中的一個(gè)任務(wù)。在過去的研究中,基于機(jī)器學(xué)習(xí)方法得到很多學(xué)者的重點(diǎn)關(guān)注,使用最多的經(jīng)典分類模型有樸素貝葉斯(NB)、支持向量機(jī)(SVM)和最大熵(ME)等。將文本特征映射為多維特征向量送入這些模型中進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練,學(xué)習(xí)文本的特征信息。很多研究工作者嘗試設(shè)計(jì)更好的工程特征來提高情感分析的性能。黃發(fā)良[10]將情感表情符號(hào)與微博用戶性格情緒特征納入到圖模型LDA中實(shí)現(xiàn)微博主題與情感的同步推導(dǎo)。這些模型是基于詞袋模型,文本中每個(gè)詞語都是獨(dú)立的不依賴于其他詞語,忽略了詞序和語法,無法獲取到文本中隱藏的語義信息。
自從2006年無監(jiān)督逐層學(xué)習(xí)技術(shù)的提出,深度學(xué)習(xí)開始成為機(jī)器學(xué)習(xí)領(lǐng)域的熱門研究方向。Kim[4]使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)電影評(píng)論進(jìn)行情感分類,實(shí)驗(yàn)結(jié)果表明卷積神經(jīng)網(wǎng)絡(luò)的分類性能優(yōu)于遞歸神經(jīng)網(wǎng)絡(luò)。劉龍飛等[11]提出結(jié)合不同粒度的卷積神經(jīng)網(wǎng)絡(luò)模型,將詞級(jí)別和字級(jí)別的文本表示作為卷積神經(jīng)網(wǎng)絡(luò)的輸入來學(xué)習(xí)句子的特征信息。結(jié)果取得了比傳統(tǒng)的SVM方法更好的效果。陳釗等[7]提出了一種結(jié)合情感詞典和卷積神經(jīng)網(wǎng)絡(luò)分類方法,利用情感詞典中的詞條對(duì)文本中的詞語進(jìn)行抽象化表示,來獲取更多的語義信息。在中文COAE2014數(shù)據(jù)集上取得了主流的卷積神經(jīng)網(wǎng)絡(luò)以及樸素貝葉斯、支持向量機(jī)更好的性能,但這類方法過于依賴與情感詞典,且無法獲取到距離長(zhǎng)詞的信息,忽略了非相鄰詞之間的語義關(guān)系。
一些研究者提出了序列模型如RNN來解決情感分類問題,Socher等[12-14]提出了遞歸神經(jīng)網(wǎng)絡(luò)RNN分類模型,RNN分類模型通過遞歸計(jì)算來獲取句子語義,學(xué)習(xí)變長(zhǎng)語句的特征用來解決情感分類問題中語義合成等任務(wù)。傳統(tǒng)RNN存在的優(yōu)化問題很早就被研究者所知,并提出了長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM[6]。將評(píng)論建模成詞序列來解決情感分類問題,考慮了詞序列之間順序依賴關(guān)系,能夠捕捉的上下文語義信息。Jin Wang[15]提出一種區(qū)域CNN-LSTM模型,該模型由兩部分組成: 區(qū)域CNN和LSTM,用于預(yù)測(cè)文本的valence-arousal(VA)空間(VA是指在情感分析中從維度上識(shí)別多維空間中的連續(xù)數(shù)值)。該方法所提出區(qū)域CNN使用單個(gè)句子作為區(qū)域,將輸入文本劃分成若干區(qū)域,以便可以提取每個(gè)區(qū)域中有用的情感信息。在使用LSTM進(jìn)行VA預(yù)測(cè)時(shí),這些區(qū)域信息將按區(qū)域順序進(jìn)行集合。通過結(jié)合區(qū)域CNN和LSTM,可以在預(yù)測(cè)過程中考慮句子內(nèi)的局部(區(qū)域)信息和句子之間的長(zhǎng)距離依賴性。實(shí)驗(yàn)結(jié)果表明,該方法優(yōu)于先前研究中提出的基于詞典,基于回歸和基于NN的方法。Qiao Liu[16]提出了一種新穎的基于內(nèi)容注意的方面情感分類模型,具有兩個(gè)關(guān)注增強(qiáng)機(jī)制: 句子內(nèi)容注意機(jī)制能夠從全局角度獲取關(guān)于給定方面的重要信息,而情景注意機(jī)制是負(fù)責(zé)同時(shí)考慮單詞及其相關(guān)性的順序,將它們嵌入到一系列定制的記憶中。實(shí)驗(yàn)結(jié)果表明,該模型勝過當(dāng)時(shí)最先進(jìn)的技術(shù),其中提出的機(jī)制起著關(guān)鍵作用。Nallapati等[17]在抽象文本摘要任務(wù)中提到了將語言學(xué)特征轉(zhuǎn)化為多維度向量的方法。把詞性、命名實(shí)體標(biāo)簽,單詞的TF和IDF等這些額外特征全部與單詞進(jìn)行連接,使每個(gè)單詞具有多個(gè)維度的意義。Qiao Qian[8]提出語言規(guī)則化的LSTM,用句級(jí)注釋訓(xùn)練的簡(jiǎn)單模型,并對(duì)情感詞匯、否定詞和強(qiáng)度詞等語言知識(shí)進(jìn)行建模。
本文提出的Multi-Bi-LSTM與文獻(xiàn)[7]使用的利用情感詞典中的詞條對(duì)文本中詞語進(jìn)行抽象表示生成的二取值特征不同之處在于,本文使用連續(xù)值向量的形式來表示詞的特征,且不依賴情感詞典;同時(shí),本文使用的Bi-LSTM神經(jīng)網(wǎng)絡(luò)方法,能夠解決CNN的固定窗口問題,能夠捕捉到評(píng)論詞與詞之間的長(zhǎng)依賴關(guān)系。相比文獻(xiàn)[17]所使用的將語言學(xué)特征轉(zhuǎn)化為多維度向量的方法,文本采用了以詞為基礎(chǔ)和詞性、位置和句法依存分別進(jìn)行兩兩組合,形成三個(gè)不同的特征向量通道輸入,在不同特征向量通道輸入上,讓模型從不同角度去學(xué)習(xí)句子中不同方面的情感特征信息,挖掘句子中不同角度的隱藏信息。與文獻(xiàn)[8]提出的語言規(guī)則化的LSTM相比,Multi-Bi-LSTM不需要大量的人工來建立強(qiáng)度正則化器。也不與Tree-LSTM模型[9]一樣,需要依賴解析樹結(jié)構(gòu)和昂貴的短語級(jí)注釋。
本文通過在Bi-LSTM神經(jīng)網(wǎng)絡(luò)輸入層構(gòu)建多個(gè)通道,來解決如何更加充分地學(xué)習(xí)利用文本情感分析任務(wù)中的特有的情感資源信息。從而提高情感分析性能。本文提出的多通道雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Multi-Bi-LSTM)整體框架如圖1所示,是一個(gè)從左至右的多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),主要由4 部分組成,從左至右依次為輸入層,多通道層,Bi-LSTM layer和情感輸出層。
輸入層是Multi-Bi-LSTM模型的輸入層,是由整個(gè)數(shù)據(jù)集中的詞向量、詞性特征向量、位置值向量和依存句法向量構(gòu)成。其中,本文將輸入的樣本最大步長(zhǎng)設(shè)置為maxlen,對(duì)于長(zhǎng)度小于maxlen的輸入,在其末以“0”填充,對(duì)于超出maxlen的樣本,直接截取前maxlen。
(1) 詞向量
在神經(jīng)網(wǎng)絡(luò)中,是通過接受文本向量化輸入來學(xué)習(xí)句子特征信息的。在文本分類任務(wù)中,每個(gè)句子中的詞隱藏著重要的情感特征信息。文本將句子以詞為單位形成一個(gè)詞序列。將每個(gè)詞映射為一個(gè)多維連續(xù)值的向量。如: 對(duì)于長(zhǎng)度為n(1≤n≤maxlen)的句子s={w1,w2…wn},其中每個(gè)wi為句子s中第i個(gè)詞語。存在一個(gè)詞向量矩陣:W∈Rd*|v|,|v|是詞表大小,d是詞向量的維度。每個(gè)wi映射為一個(gè)多維連續(xù)值的詞向量ei,使用這個(gè)詞向量矩陣,可以把句子中的每個(gè)詞轉(zhuǎn)換成詞向量表示如式(1)所示。
圖1 Multi-Bi-LSTM網(wǎng)絡(luò)模型結(jié)構(gòu)圖
其中,vi是大小為|v|的one-hot向量,在對(duì)應(yīng)的維度取值為1,其它位置全為0。通過將句子序列中的詞向量拼接起來,就得到了整個(gè)句子序列的詞向量矩陣表示如式(2)所示。
其中,ei∈Rd,⊕為拼接操作。
(2) 詞性特征向量
本文利用HowNet(1)http://www.keenage.com/html/c_index.html情感集合,對(duì)輸入的句子進(jìn)行詞性標(biāo)注。通過對(duì)句子的詞性標(biāo)注,可以讓模型學(xué)習(xí)對(duì)情感分類有重要影響的詞語,其中重點(diǎn)對(duì)特殊的詞進(jìn)行標(biāo)注,如表1所示。本模型中重點(diǎn)特殊情感詞包括: 程度副詞(如: 非常,很),正面/負(fù)面評(píng)價(jià)詞、正面/負(fù)面情感詞和否定詞(如: 不,從不)對(duì)于標(biāo)注好的詞性,通過向 量化操作,映射成一個(gè)多維的連續(xù)值向量,與詞向量操作一樣。使ti∈Rm,其中ti為第i個(gè)詞性特征向量,m是詞性向量的維度。對(duì)于長(zhǎng)度為n的句子s的詞性特征向量表示如式(3)所示。
表1 詞性標(biāo)注
(3) 位置值向量
在情感任務(wù)中,詞語之間的位置往往也隱藏著很重要的信息。同一個(gè)詞語出現(xiàn)在不同的位置,可能表達(dá)著不同的情感信息,如式(4)所示。
其中,pi為句子s中第i個(gè)詞的位置值,ti!=0為第i個(gè)詞含有特殊的詞性,i為詞在句子s中的位置,maxlen為本文輸入的最大的步長(zhǎng),len(s)為句子s的長(zhǎng)度(len(s)=n)。本文將每一個(gè)位置值映射成一個(gè)多維的連續(xù)值向量pi∈Rl,其中pi為第i個(gè)位置特征向量,l是位置特征向量的維度。對(duì)于長(zhǎng)度為n的句子s的詞性特征向量表示如式(5)所示。
(4) 依存句法向量
此外,本文對(duì)輸入的句子進(jìn)行了依存句法分析,通過對(duì)輸入的句子進(jìn)行句法分析,確定句子的句法結(jié)構(gòu)和句子中詞匯之間的依存關(guān)系??梢宰屇P驮诟蟪潭壬蠈W(xué)習(xí)情感分析任務(wù)中現(xiàn)有的語言知識(shí),挖掘更多的隱藏情感信息。依存句法分析是通過分析語言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu),將每一個(gè)句子的句法特征映射成一個(gè)多維連續(xù)值向量parseri∈Rp,其中parseri為句子s中第i個(gè)詞的句法特征,p是句法特征向量的維度。對(duì)于長(zhǎng)度為n的句子s的句法特征向量表示如式(6)所示。
為了讓模型更加充分的學(xué)習(xí)到語言知識(shí)和隱藏的情感信息。本文將以詞特征為主體與詞性特征,位置特征和依存句法三個(gè)向量,進(jìn)行不同的組合形成3個(gè)通道作為網(wǎng)絡(luò)模型的輸入,為了讓模型簡(jiǎn)單化,本文在實(shí)驗(yàn)中使用一種簡(jiǎn)單拼接操作,如式(7)~式(9)所示。
2.3.1 長(zhǎng)短期記憶網(wǎng)絡(luò)
長(zhǎng)短期記憶網(wǎng)絡(luò)(long short term memory,LSTM)是對(duì)遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的改進(jìn),被廣泛用于文本處理。在LSTM[6]中,隱藏狀態(tài)ht和存儲(chǔ)器單元ct是上一個(gè)單元的隱藏狀態(tài)ht-1和存儲(chǔ)器單元ct-1和輸入向量xt的函數(shù)。每個(gè)位置(ht)的隱藏狀態(tài)只考慮前向上下文,而不考慮后向上下文。計(jì)算如式(10)所示。
2.3.2 多通道雙向長(zhǎng)短期記憶網(wǎng)絡(luò)
在文本中,使用基于多通道雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Multi-Bi-LSTM),根據(jù)3.2形成的三個(gè)通道輸入。該網(wǎng)絡(luò)在訓(xùn)練過程中分別使用Bi-LSTM[18]從這三個(gè)通道輸入來學(xué)習(xí)特征信息。同時(shí)用兩個(gè)LSTM沿著序列的兩個(gè)方向(前向和后向)進(jìn)行建模。前向和后向LSTM計(jì)算如式(11)、式(12)所示。
圖通道Bi-LSTM結(jié)構(gòu)圖
接著,將三個(gè)Bi-LSTM網(wǎng)絡(luò)中隱藏層輸出H分別使用文獻(xiàn)[19]提出的層歸一化(layer normalization)來計(jì)算隱藏層中神經(jīng)元的求和輸入的均差和方差。一個(gè)層中的所有隱藏單元共享同樣的歸一化項(xiàng)μ和σ,層歸一化計(jì)算如式(13)~式(15)所示。
其中,U為隱藏神經(jīng)單元個(gè)數(shù),g和b為待更新的偏差和增益參數(shù),⊙為兩個(gè)向量之間的元素乘法。
將經(jīng)過層歸一化提取得到的三個(gè)不同的情感特征的最重要信息h進(jìn)入Merge層,通過⊕得到向量x,本實(shí)驗(yàn)中該層使用tanh作為激勵(lì)函數(shù),如式(16)所示。
在模型中,將上一層的輸出作為全連接的輸入,通過softmax輸出層,對(duì)最后的分?jǐn)?shù)進(jìn)行歸一化,可以得到分類結(jié)果,如式(17)所示。
其中,x為上一層輸出,wc為權(quán)重矩陣,bc為偏置。在模型訓(xùn)練的過程中,本文使用交叉熵作為損失函數(shù),且在模型參數(shù)上面使用權(quán)重衰減(weight decay)來對(duì)參數(shù)進(jìn)行正則化,損失函數(shù),如式(18)所示。
其中,D為訓(xùn)練數(shù)據(jù)集大小,C為數(shù)據(jù)的類別數(shù),p為預(yù)測(cè)類別,y為實(shí)際類別,λ||θ||2為正則項(xiàng),λ為正則化系數(shù),θ為模型中所有參數(shù)。本文中使用時(shí)序反向傳播算法(back propagation)來對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行更新。
本文在中文觀點(diǎn)傾向性分析評(píng)測(cè)(Chinese opinion analysis evaluation,COAE2014)任務(wù)4、英文電影評(píng)論(movie reviews,MR)(2)http://www.cs.cornell.edu/people/pabo/movie-review-data/和斯坦福情緒樹庫(stanford sentiment treebank,SST)(3)https://nlp.stanford.edu/sentiment/index.html三個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。從COAE數(shù)據(jù)集中標(biāo)注6 000條帶有極性的數(shù)據(jù),其中正面情緒3 022條,負(fù)面情緒2 978條。MR數(shù)據(jù)集包含了從電影評(píng)論網(wǎng)站上采集到的電影評(píng)論數(shù)據(jù),每個(gè)樣本是一個(gè)句子,注明了其源評(píng)論的情感類別,有5 331個(gè)正面和5 331個(gè)負(fù)面處理句子。SST數(shù)據(jù)集中句子和短語一共有239 231條,是由斯坦福解析器[20]在11 855個(gè)句子的解析樹中解析的227 376個(gè)短語級(jí)的細(xì)粒情感分類。其中情感標(biāo)簽集合為{0,1,2,3,4},分別對(duì)應(yīng)于“非常消極”“消極”“中立”“積極”“非常積極”等五類,本文分別在SST句子級(jí)(Sent.-level)和基于短語級(jí)注釋的句子級(jí)(Phrase-level)上進(jìn)行訓(xùn)練,最后使用句子級(jí)中的測(cè)試數(shù)據(jù)對(duì)這兩個(gè)訓(xùn)練分別進(jìn)行測(cè)試。其中,在整理Train/Dev./Test時(shí),和原本的數(shù)據(jù)(8 544/1 101/2 210)條,存在一些差別,Train少了100條,Dev.少了8條,Test少了10條;另外,去掉了Phrase-level里面一些特殊字符8條數(shù)據(jù)。詳細(xì)的數(shù)據(jù)統(tǒng)計(jì)如表2所示。
表2 MR 和COAE兩個(gè)數(shù)據(jù)集的相關(guān)信息
本文使用哈工大的語言技術(shù)平臺(tái)LTP工具(4)https://ltp.readthedocs.io/zh_CN/latest/begin.html對(duì)表2中文COAE實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分詞,詞性標(biāo)注和依存句法分析。使用預(yù)訓(xùn)練好的百度百科中文特征向量(5)https://github.com/Embedding/Chinese-Word-Vectors,對(duì)詞向量和詞性特征向量進(jìn)行訓(xùn)練。使用Stanford CoreNLP工具(6)https://nlp.stanford.edu/software/corenlp-backup-download.html對(duì)表2英文MR和SST實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分詞,詞性標(biāo)注和依存句法分析。詞向量采用Pennington等人[21]提出的Glove(7)http://nlp.stanford.edu/projects/glove詞向量來初始化,其中每個(gè)詞向量為300維,詞典大小為1.9MB。對(duì)三個(gè)實(shí)驗(yàn)數(shù)據(jù)集中,未登錄詞使用均勻分布U(-0.05,0.05)來隨機(jī)初始化。訓(xùn)練過程采用Duchi[22]提出的Adagrad方法來更新模型參數(shù),本文選擇在測(cè)試數(shù)據(jù)集上表現(xiàn)最佳的結(jié)果作為最終表現(xiàn)。模型的參數(shù)設(shè)置如表3所示。
表3 三個(gè)數(shù)據(jù)集的最佳超參數(shù)設(shè)置
在整個(gè)實(shí)驗(yàn)中,詞向量維度為300維,詞性特征為30維,位置特征為25維,依存句法特征為25維。
將本文提出的模型和文獻(xiàn)[4, 6-9]提出的方法在表2所示的數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)。驗(yàn)證本文提出的方法的有效性,如表4所示,介紹如下:
(1) NBSVM: 在本文實(shí)驗(yàn)中使用bi-gram作為特征的樸素貝葉斯SVM模型。
(2) CNN: 文獻(xiàn)[4]提出的卷積神經(jīng)網(wǎng)絡(luò),是通過卷積和合并操作生成句子表示。
(3) RNN/RNTN: 文獻(xiàn)[12]提出的循環(huán)神經(jīng)網(wǎng)絡(luò),文獻(xiàn)[14]提出的遞歸張量神經(jīng)網(wǎng)絡(luò)(RNTN)使用張量來建模子節(jié)點(diǎn)向量的不同維度之間的相關(guān)性。
(4) LSTM/Bi-LSTM: 文獻(xiàn)[6]提出的長(zhǎng)短期記憶網(wǎng)絡(luò)和網(wǎng)絡(luò)的雙向變體。
(5) Tree-LSTM: 文獻(xiàn)[9]提出的樹狀結(jié)構(gòu)的長(zhǎng)期短期記憶模型,將記憶細(xì)胞和門引入樹形結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)。
(6) WFCNN: 文獻(xiàn)[7]提出的結(jié)合情感序列的卷積神經(jīng)網(wǎng)絡(luò)模型,在本文實(shí)驗(yàn)中,使用Glove詞向量來初始化。
(7) LR-LSTM/LR-Bi-LSTM: 文獻(xiàn)[8]提出的語言規(guī)則化的LSTM。
(8) Multi-LSTM/Multi-Bi-LSTM: 本文提出來的多通道LSTM和多通道雙向LSTM網(wǎng)絡(luò)。
表4 不同模型的情感分類性能對(duì)比
注: 標(biāo)有*的結(jié)果將從文獻(xiàn)[8-9, 14, 23]中引用。
首先,從表4結(jié)果可以看出,本文提出的Multi-LSTM 和Muti-Bi-LSTM模型在COAE和MR數(shù)據(jù)集上,都取得了比傳統(tǒng)方法NBSVM更好的分類效果,這表明神經(jīng)網(wǎng)絡(luò)模型在情感分析任務(wù)上比傳統(tǒng)方法有更好的效果。同時(shí),本文提出的模型分類效果在三個(gè)數(shù)據(jù)集上,也遠(yuǎn)遠(yuǎn)高于CNN、RNN、RNTN和LSTM這些只使用了詞向量訓(xùn)練的模型。說明本文提出的對(duì)現(xiàn)有語言知識(shí)和情感資源進(jìn)行建模,生成不同特征通道的方法在情感分析任務(wù)中的有效性。
其次,在MR數(shù)據(jù)集上,對(duì)比文獻(xiàn)[8]提出來的LR-LSTM、LR-Bi-LSTM模型的81.5%、82.1%和文獻(xiàn)[9]提出來的Tree-LSTM模型的80.7%可以看出,本文提出的Multi-Bi-LSTM模型的81.9%,比Tree-LSTM模型提高了1.2%。比LR-Bi-LSTM模型效果稍微差一點(diǎn)(0.2%)。但是,LR-Bi-LSTM模型過于依賴情感詞典,另外還需要使用大量的人工來建立強(qiáng)度正則化器,而本文提出的Multi-Bi-LSTM模型則不需要這樣情感詞典以及強(qiáng)度正則化器。說明了本文模型的簡(jiǎn)單性。在SST數(shù)據(jù)集中,本文模型在Phrase-level上的51.4%比LR-Bi-LSTM模型的50.6%提高了0.8%,比Tree-LSTM模型的51.0%提高了0.4%,在Sent.-level上本文模型分別提高了0.9%和1.4%。除此之外,從表4中還可以看出,Tree-LSTM模型嚴(yán)重依賴于短語級(jí)注釋,當(dāng)僅使用句子級(jí)進(jìn)行訓(xùn)練時(shí),其性能會(huì)下降2.9%(性能從51.0%下降到48.1%),而本文提出的模型不依賴于解析樹。因此,本文模型效率更高。在中文COAE數(shù)據(jù)集上,與文獻(xiàn)[7]提出來的WFCNN模型的88.6%相比,本文提出的Multi-Bi-LSTM模型表現(xiàn)的稍差一點(diǎn)(0.2%),而在F1值上,本文模型提高了0.4%。另外,在SST數(shù)據(jù)集中,對(duì)比WFCNN模型的49.6%、48.0%,本文模型提高了1.8%、1.5%。這說明本文提出的方法充分利用了情感分析任務(wù)中的語言知識(shí)和情感信息,取得了比以往模型更好的分類效果。
最后,與文獻(xiàn)[6]提出的基本Bi-LSTM模型相比,本文提出的Multi-Bi-LSTM模型在三個(gè)數(shù)據(jù)集上的分類效果最高提升了3.4%??梢娫谇楦蟹治鋈蝿?wù)中,充分利用現(xiàn)有的語言知識(shí)和情感資源的重要性。
為了揭示每個(gè)語言特征對(duì)模型的影響,本文在三個(gè)數(shù)據(jù)集上進(jìn)行了特征組合實(shí)驗(yàn)。由于本文提出的模型不依賴于解析樹,所以SST數(shù)據(jù)中的短語注釋(Phrase-level)數(shù)據(jù)不參與實(shí)驗(yàn)。根據(jù)表3的性能分析結(jié)果,選擇在Bi-LSTM基礎(chǔ)上,設(shè)置相同的參數(shù),并依次在Bi-LSTM上添加語言特征,形成不同的通道,觀察模型的性能變化。以下表中的W、P、Ps和T分別表示詞向量、位置特征向量、依存句法特性向量和詞性特征向量。實(shí)驗(yàn)結(jié)果如表5所示,隨著語言特征的添加,模型的復(fù)雜度越來越高,模型的性能起伏比較大;但是,總體性能是呈上升趨勢(shì)的。其中,在詞向量(W)基礎(chǔ)上,詞性特征向量(T)和句法特征向量(Ps)在性能提升方面起著關(guān)鍵性的作用。
表5 Bi-LSTM語言特征調(diào)節(jié)的性能
為了進(jìn)一步分析本文提出的模型對(duì)比其他模型的優(yōu)點(diǎn),這里通過幾個(gè)具體的樣例來分析。如表6所示,從COAE數(shù)據(jù)集的測(cè)試集中提取出一些典型樣例的分類結(jié)果進(jìn)行了對(duì)比分析。
如表6的樣例的分類結(jié)果所示。對(duì)于樣例3,情感詞不是單獨(dú)起作用的,而是通過詞序列結(jié)合句子的上下語義表達(dá)出整個(gè)句子的情感。
表6 典型數(shù)據(jù)實(shí)驗(yàn)樣例
由于WFCNN,提取的特征是局部相鄰詞之間的特征,因此會(huì)出現(xiàn)誤分類為正面的情況。Bi-LSTM雖具有強(qiáng)大的上下文語義捕捉能力,但在樣例3中具有大量的正負(fù)面情感詞。由于對(duì)特殊的情感詞并沒有進(jìn)行處理,從而出現(xiàn)了誤分類。而在Multi-Bi-LSTM中,不僅有強(qiáng)大的上下文語義捕捉能力,能夠根據(jù)上下語義,對(duì)正負(fù)面情感詞進(jìn)行程度加強(qiáng)而且還能夠?qū)渥舆M(jìn)行句法分析,同時(shí),對(duì)句子進(jìn)行句法分析,確定樣例3整體情感偏向于負(fù)面。因此,對(duì)樣例3分類正確。對(duì)于樣例4,樣例6,WFCNN模型都沒有分類正確。由于這類樣例是反問句式,往往是諷刺的表達(dá)方式,一般有著和正確類別的相反情感。所以,對(duì)于提取的僅僅是局部相鄰詞之間特征的WFCNN模型僅從句子的表面信息來判斷樣例的情感類別,會(huì)得到錯(cuò)誤的分類結(jié)果。對(duì)于Bi-LSTM,樣例4,可以直接從詞序上就可以判斷出正確分類結(jié)果。而樣例6,這種諷刺極其強(qiáng)而情感特征又不明顯的樣例,WFCNN模型和Bi-LSTM模型會(huì)簡(jiǎn)單的根據(jù)樣例中“會(huì)技術(shù)”,而進(jìn)行誤分類。對(duì)于這類樣例,因?yàn)楸疚奶岢龅姆椒▽?duì)這類詞進(jìn)行了學(xué)習(xí),所以Multi-Bi-LSTM模型可以根據(jù)這些詞在句子中位置,詞與詞之間的句法關(guān)系和詞性特征來學(xué)習(xí)這類句型的情感信息,從而分類正確。對(duì)于樣例7,這類中有太多的網(wǎng)絡(luò)詞匯如“逆天”、“艾瑪”等等。同時(shí),對(duì)于“霸道”在不同領(lǐng)域中,所表達(dá)的情感極性不同。因此,WFCNN模型、Bi-LSTM模型以及本文提出的Multi-Bi-LSTM模型都出現(xiàn)了錯(cuò)誤的分類。對(duì)于樣例1、樣例2以及樣例5,這類樣例中的情感詞比較明顯,沒有什么反轉(zhuǎn)諷刺句子。故而,WFCNN模型、Bi-LSTM模型以及本文提出的Multi-Bi-LSTM模型都判斷出了正確的類別。
本文提出多通道雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Multi-Bi-LSTM)進(jìn)行對(duì)文本進(jìn)行情感分析。所提出的模型,通過對(duì)情感分析任務(wù)中現(xiàn)有的語言知識(shí)和情感資源進(jìn)行建模形成多通道輸入,再利用Bi-LSTM來充分的獲得這些有效的情感資源信息。實(shí)驗(yàn)結(jié)果表明,本文提出的模型在中英文數(shù)據(jù)集上取得了較好的分類效果。但是,通過典型例子分析可以看出,本文提出的多通道雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型,在中文數(shù)據(jù)集中,對(duì)于跨領(lǐng)域帶有極性的情感的詞匯以及網(wǎng)絡(luò)詞匯,不能很好地識(shí)別出這類文本的情感極性。進(jìn)而在下一步工作中,重點(diǎn)以中文數(shù)據(jù)集為中心引入網(wǎng)絡(luò)詞匯和多個(gè)領(lǐng)域的文檔,對(duì)跨領(lǐng)域文本進(jìn)行情感分類。