張寶華 ,李奀林 ,張華平 ,商建云
(1.北京理工大學(xué)計算機(jī)學(xué)院,北京 100081;2.軍委訓(xùn)練管理部,北京 100142)
情感分析是自然語言處理的研究熱點(diǎn)[1],近幾年來,隨著互聯(lián)網(wǎng)用戶的增加,情感分析技術(shù)已成為對網(wǎng)民進(jìn)行觀點(diǎn)挖掘的必不可少的技術(shù)手段[2]。然而,新詞頻出是互聯(lián)網(wǎng)數(shù)據(jù)的一大特點(diǎn),很多詞匯不在已知的情感詞典中,如“廢青”“甴曱”等,由于這些詞極性未知,在進(jìn)行情感分析時會誤認(rèn)為其情感權(quán)重為零,從而導(dǎo)致分析結(jié)果不準(zhǔn)確。因此,如何計算新情感詞的權(quán)重是當(dāng)前情感分析工作的難點(diǎn)。
現(xiàn)有的情感權(quán)重計算方法大多只根據(jù)語義信息計算,忽略了情感詞所在語境,在面對語義未知的詞時,很難得到正確的情感權(quán)重,因此,通過語義方法計算得到的情感詞典的準(zhǔn)確率較低。如在微博評論“香港法官是最大的甴曱,和那些亂港分子、暴力分子里應(yīng)外合的太明顯了”,其中由于“甴曱”的意思未知,現(xiàn)有的情感權(quán)重計算方法很難得到該詞的情感權(quán)重。但是,根據(jù)語境信息,我們知道 “暴力”是個負(fù)面詞,由“和暴力分子里應(yīng)外合”可得“甴曱”是一個偏向負(fù)面的詞??梢钥闯?,基于語境的方法較適合此類語義未知的新詞。
本文根據(jù)情感分析的要素,提出了從構(gòu)字到篇章的情感分析層次體系,并針對每個層次提出了面向上層的表示方法和情感權(quán)重計算方法。在此基礎(chǔ)上,本文提出了一種情感語義單元的自動構(gòu)建方法,從情感語義單元的構(gòu)字和語境的情感傾向出發(fā)推導(dǎo)其情感權(quán)重。本文在真實的評論數(shù)據(jù)上進(jìn)行了實驗,實驗結(jié)果表明,本文提出的方法可以很好地提取出每個領(lǐng)域?qū)?yīng)的情感單元并計算其情感權(quán)重,由此得到的情感詞典較其他情感詞典構(gòu)建方法有更高的準(zhǔn)確率。同時,本文提出的情感語義單元可以直接在基于規(guī)則的方法和深度學(xué)習(xí)的方法上使用。
本文第2節(jié)針對當(dāng)前常用的情感詞典構(gòu)建方法進(jìn)行了總結(jié),第3節(jié)提出了情感分析層次體系,并詳細(xì)介紹了每層向上層的表示方法和情感計算公式,第4節(jié)提出了情感語義單元自動構(gòu)建的模型,第5節(jié)進(jìn)行了真實評論數(shù)據(jù)的實驗對比,結(jié)果表明,與當(dāng)前公開的情感詞典在基于規(guī)則的情感分析準(zhǔn)確率上,本文方法構(gòu)建的情感語義單元有約9%的提升,在深度學(xué)習(xí)方法的情感分析準(zhǔn)確率上,本文方法構(gòu)建的情感語義單元有3%的提升。
基于情感詞典的方法是最早用來進(jìn)行情感分析的,早期的情感詞典都是通過人工構(gòu)建[3,4],所含情感詞較少,只有一些常見的形容詞如“高興”“開心”“漂亮”等。洪巍等人[5]提出了基于情感詞典的情感分析方法,其原理與斯坦?;谠~典的情感分析方法基本相同,情感詞典的質(zhì)量決定了實驗效果?;跈C(jī)器學(xué)習(xí)的方法主要是通過提取文本的特征,然后根據(jù)某種算法進(jìn)行分類。機(jī)器學(xué)習(xí)的分類器主要包括最近鄰KNN(K-Nearest Neighbor)、最大熵和支持向量機(jī)SVM(Support Vector Machine)等。Pang等人[7]對比了最大熵、SVM和樸素貝葉斯3種機(jī)器學(xué)習(xí)算法,發(fā)現(xiàn)在影評數(shù)據(jù)集上SVM的分類效果更好。曹海濤[8]使用上述機(jī)器學(xué)習(xí)算法對愉悅激活優(yōu)勢PAD(Pleasure Arousal Dominance)情感語義特征進(jìn)行了實驗,發(fā)現(xiàn)SVM算法的實驗效果較優(yōu)。隨著深度學(xué)習(xí)的興起,許多研究者開始使用神經(jīng)網(wǎng)絡(luò)進(jìn)行情感分類。由于長短時記憶LSTM(Long Short-Term Memory)神經(jīng)網(wǎng)絡(luò)可以保存時序信息,Li等人[9]提出了在情感分析上使用LSTM;Li等人[10]采用卷積神經(jīng)網(wǎng)絡(luò)提取文本的特征;Hassan等人[11]將這2種方法結(jié)合起來,使用LSTM代替池化層,減少了局部細(xì)節(jié)信息的丟失;李衛(wèi)疆等人[12]在LSTM的基礎(chǔ)上,將詞性特征、位置值特征和依存句法特征,以多通道的方式輸入到雙向長短時記憶網(wǎng)絡(luò)中,并取得了很好的效果;Wang等人[13]通過研究樹型結(jié)構(gòu)的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)與長短時記憶神經(jīng)網(wǎng)絡(luò)結(jié)合模型CNN-BiLSTM(Convolutional Neural Network-Bi-directional Long Short-Term Memory),提出了更細(xì)粒度的情感分析方法;邱寧佳等人[14]提出的雙通道中文情感模型結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)和雙向長短時記憶神經(jīng)網(wǎng)絡(luò),同時還利用了文本特征和語法規(guī)則??梢钥闯?,情感分析已經(jīng)從早期以獲取文本特征為主發(fā)展到同時結(jié)合文本特征和語義規(guī)則特征,如何將早期情感詞典方法中的規(guī)則結(jié)合到深度學(xué)習(xí)模型中是當(dāng)前的研究方向。但是目前的研究仍然沒有形成完整的體系,文本方面的特征仍以句子特征為主,缺乏對其他維度特征的研究。
在情感詞典構(gòu)建方面,Liu等人[15]認(rèn)為構(gòu)建情感詞典主要有基于手工標(biāo)注的方法、基于已知詞典的方法和基于語料庫的方法。本文認(rèn)為情感詞典的構(gòu)建方法分為以下3種:基于語義的方法、基于統(tǒng)計的方法和基于深度學(xué)習(xí)的方法。
基于語義的方法主要是通過選取一些種子情感詞,然后利用同義詞和反義詞進(jìn)行擴(kuò)展。Hu等人[16]首先將句子中的形容詞提取出來,然后人工給出20個正負(fù)面種子情感詞,根據(jù)WordNet,如果形容詞的近義詞和反義詞都在種子情感詞中就可以確定其極性,然后不斷迭代。Hatzivassiloglou等人[17]利用種子情感詞和連接詞進(jìn)行判斷,如and連接的形容詞往往極性相同。Strapparava等人[18]分別在情感詞典中加入了名詞、動詞、副詞和中性詞,擴(kuò)展了情感詞典。Kamps等人[19]提出了一種迭代公式計算方法EVA(EVAluate),通過該方法可分別計算出情感詞迭代到正負(fù)面已知情感詞的次數(shù),利用迭代到負(fù)面情感詞的次數(shù)減去迭代到正面情感詞的次數(shù),若差值大于0則為正面情感詞,小于0則為負(fù)面情感詞。該方法認(rèn)為如果一個詞的極性更傾向于正面,則迭代到正面情感詞的次數(shù)越少,這種方法引入了少量的統(tǒng)計工作。
基于統(tǒng)計的方法是根據(jù)語料庫計算某一領(lǐng)域的情感詞典,最常見的是利用點(diǎn)互信息PMI(Pointwise Mutual Information)[20],其認(rèn)為如果2個詞同時出現(xiàn)的次數(shù)越多,則2個詞相似度越高。因此,結(jié)合情感詞典中的正負(fù)面情感詞就可以計算得出其他詞的情感極性和權(quán)重。Tureny[21]提出利用SO-PMI(Semantic Orientation Pointwise Mutual Information)公式來計算未知情感詞的權(quán)重,計算情感詞的正面點(diǎn)互信息和負(fù)面點(diǎn)互信息的差值。Tai等人[22]針對PMI做了改進(jìn),提出了二階點(diǎn)互信息SEC-PMI(SECond-order Point Mutual Information)的算法,可以計算2個由中間詞連接的詞的PMI。張華平等人[23]提出了一種基于貝葉斯公式的算法,其主要思想是一個詞的構(gòu)字也是具有情感傾向的,根據(jù)已知情感詞典和語料庫計算每個字的情感傾向概率,然后利用貝葉斯公式計算未知情感詞的權(quán)重。
基于深度學(xué)習(xí)的方法是基于詞嵌入(word2vec)技術(shù)的,楊陽等人[24]在訓(xùn)練詞向量的基礎(chǔ)上分別使用了權(quán)重遞增法、SVM分類法和中心向量法3種方法進(jìn)行候選情感詞的傾向判斷,實驗表明權(quán)重遞增法和SVM分類法的效果不佳,而中心向量法又依賴人工選取中心點(diǎn)。胡家珩等人[25]提出了在word2vec的基礎(chǔ)上使用全連接層訓(xùn)練情感詞的分類器,然后對候選情感詞進(jìn)行分類。Tang等人[26]在word2vec的基礎(chǔ)上,修改了詞袋模型,提出了3種神經(jīng)網(wǎng)絡(luò)模型,將語義信息和情感信息加入到了訓(xùn)練的詞向量中。李永帥等人[27]提出了三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的方法,通過CBOW(Continuous Bag Of Words)提取情感信息,然后利用2層雙向LSTM和二叉語義依存結(jié)構(gòu)得到高質(zhì)量的情感詞典。
本文構(gòu)建了一個情感分析的層次體系,包括字、元情感詞、復(fù)合情感詞、單句、復(fù)句和篇章。其中元情感詞是本文新提出的,表示不包含否定詞和程度詞的情感詞。情感單元是指每層中最基礎(chǔ)的部分,每一層都可看做是其上層的情感分析單元,在進(jìn)行情感分析時,根據(jù)每層的情感單元計算對應(yīng)的權(quán)重。
本文認(rèn)為組成情感詞的字同樣具有情感極性,情感詞的極性在本質(zhì)上受其構(gòu)字的影響,因此字在情感分析中應(yīng)該處于最底層。而否定詞和程度副詞會對情感詞的極性和權(quán)重產(chǎn)生影響,因此根據(jù)情感詞中是否含有否定詞和程度副詞,將情感詞劃分為元情感詞和復(fù)合情感詞。元情感詞處于第2層,復(fù)合情感詞在其上層。句子是由多個詞構(gòu)成的,根據(jù)句法規(guī)則和句型規(guī)則[24],句子可分為單句和復(fù)句,因此,句子在詞的上層。其中單句表示不能再拆分的句子,復(fù)句表示由關(guān)聯(lián)詞或者標(biāo)點(diǎn)符號連接的2個以上的單句組成的句子。篇章是由多個復(fù)句組成的。因此,篇章為情感分析的最高層,本文構(gòu)建的情感分析層次體系具體如圖1所示。
Figure 1 Hierarchical of sentiment analysis圖1 情感分析層次體系
對于元情感詞,字是其情感單元,元情感詞是復(fù)合情感詞的情感單元,令L表示字,W=L1,…,LNL表示詞,其中NL為W中包含的字L的個數(shù),則復(fù)合情感詞Cs表示如式(1)所示:
Cs=(WD|WN)*WS|WS(WD|WN)*
(1)
其中,WN表示否定詞,如“不是”“從未”“絕不”等;WD表示程度詞,如“非?!薄坝悬c(diǎn)兒”等;WS表示簡單情感詞也叫元情感詞,即不含否定詞和程度詞的情感詞,如“公平”“仁慈”,*表示存在0個或者多個。
令weigth表示權(quán)重,則元情感詞的權(quán)重記為:weigth(WS),程度詞的權(quán)重記為weigth(WD)。令score表示情感得分,根據(jù)其所包含的否定詞和程度副詞以及組成順序,復(fù)合情感詞的情感值計算方式如式(2)所示:
score(Cs)=weight(WS)*D
(2)
其中D為情感詞的影響因子,其計算方式如式(3)所示:
(3)
其中,M為比例因子,第4種情況表示較弱的否定詞+情感詞,所以0 記單句為SS,復(fù)合情感詞是單句的情感單元,則SS可以表示如式(4)所示: SS=Cs(W|Cs)* (4) (5) 其中,NC為單句SS中包含的復(fù)合情感詞Cs的個數(shù),Csi表示第i個復(fù)合情感詞。 記復(fù)句為MS,關(guān)聯(lián)詞為WR,單句是復(fù)句的情感單元,則MS可以表示如式(6)所示: MS=(WR1)*Ss1(WRi|Ssi)*(SsNS)* (6) 其中,WR1,WRt分別表示復(fù)句中的第1個關(guān)聯(lián)詞和第i個關(guān)聯(lián)詞,如“雖然”“但是”。Ss1,Ssi分別表示復(fù)句中第1個單句和第i個單句,NS為復(fù)句MS中單句SS的個數(shù)。 綜上所述,復(fù)句MS的情感值score(MS)計算公式如式(7)所示: (7) 其中,weight(WR)是關(guān)聯(lián)詞的權(quán)重,具體計算方法由關(guān)聯(lián)詞的類型決定,計算公式如表1[28]所示,其中SSi和SSj分別表示第i個和第j個單句。 Table 1 Weight of different types of related words on different positions 計算依據(jù)為句型規(guī)則,句型規(guī)則一般有轉(zhuǎn)折關(guān)系、遞進(jìn)關(guān)系、因果關(guān)系和假設(shè)關(guān)系[29,30]。但是,在實驗中發(fā)現(xiàn),由于因果關(guān)系和假設(shè)關(guān)系存在多種情況,如因果關(guān)系“因為你喜歡我,所以我也喜歡你”和“因為你喜歡他,所以我不喜歡你”中,2句的前半句的情感詞相同,但是后半句的情感詞完全相反,所以這里只考慮轉(zhuǎn)折關(guān)系和遞進(jìn)關(guān)系。 令Q表示篇章,則: Q=MS(MS)* (8) 由于篇章是由復(fù)句組成的,所以其情感值應(yīng)該等于復(fù)合的情感值累加,如式(9)所示: (9) 其中,Msi表示第i個復(fù)句,NM為篇章Q中復(fù)句MS的個數(shù)。 在本文提出的情感分析層次體系中,詞處于最重要的位置,無論是單句、復(fù)句還是篇章的情感值,都可以通過情感單元變換,最終由詞的權(quán)重計算得到,在基于規(guī)則的方法中,詞典本身就是一個重要的因素,在深度學(xué)習(xí)方法中,復(fù)合情感詞也是重要的情感特征。因此,情感詞是情感分析任務(wù)中的基礎(chǔ)情感單元,也叫做情感語義單元。 情感語義單元的構(gòu)字影響著該單元的基本情感傾向,其語境決定最終情感傾向,在計算其情感權(quán)重時必須同時考慮到構(gòu)字和所在語境。對于一個情感單元WS,設(shè)WS=L1,…,LNL,其中,NL為WS中包含的字L的個數(shù),WS的上層是Cs,則其情感權(quán)重計算公式如下: weight(WS)=λF(score(Cs))+ (10) 基于情感詞構(gòu)字方法的主要思想是利用貝葉斯公式[23],根據(jù)已有的情感詞典,通過計算候選情感詞構(gòu)字在給定語料庫中的正負(fù)面情感傾向概率得到其極性和權(quán)重,以下是對文獻(xiàn)[23]所提出的方法的改進(jìn): 根據(jù)第3節(jié)的層次體系,原文選擇的情感詞典既包含元情感詞也包含復(fù)合情感詞,如“不猶豫”為褒義詞,而“猶豫”為貶義詞,在計算時,將否定詞“不”也作為情感詞。但是,“不”實際上只是起到改變極性的作用,在復(fù)合情感詞中“不”本身并沒有情感傾向,所以在計算之前需要先處理已知情感詞,將復(fù)合情感詞中的程度副詞和否定詞去除,并根據(jù)式(2)反向計算得到元情感詞權(quán)重。同樣,在計算時也應(yīng)該只計算元情感詞的權(quán)重,再根據(jù)式(2)計算得出復(fù)合情感詞的權(quán)重。 (11) (12) 由此: (13) 由于情感詞典中的詞有正負(fù)面之分,所以需要分別計算其屬于正負(fù)面的概率,如式(14)所示: (14) (15) 其中,σ為一個很大的數(shù),本文選取為數(shù)據(jù)集總字?jǐn)?shù)。 最后根據(jù)權(quán)重排名便可以得到準(zhǔn)確率較高的情感詞典。 同一個詞在不同語境中可能會有截然不同的情感極性,如,“他講了個笑話,大家笑的很開心”,“小明今天鬧了個笑話,覺得很沒面子”,這2句中的“笑話”一詞在前句中為褒義詞,在后一句中為貶義詞。因此,在計算情感詞的情感權(quán)重時必須考慮到其所在語境。 基于候選情感詞語境的思想是,在一個單句中,句內(nèi)的情感傾向保持一致,其組成該單句的所有復(fù)合情感詞具有相同的極性,假設(shè)每個情感單元對SS的情感值貢獻(xiàn)了相同的情感得分,則可據(jù)此推測出未知復(fù)合情感詞的極性和情感得分。再由式(2)反推出元情感詞的權(quán)重。如果某一單句中不含已知情感詞,無法通過已知情感詞典直接計算得出該句的情感值,可以通過句間關(guān)系來計算,在表1中提到過4種句型規(guī)則,同樣選取轉(zhuǎn)折關(guān)系和遞進(jìn)關(guān)系,具體計算方法如表2所示。 表2中H為權(quán)重因子,表示遞進(jìn)句后句較前句的強(qiáng)烈程度,H>1。綜上所述,未知復(fù)合情感詞的權(quán)重計算公式如式(16)所示: (16) 其中,NS為包含該情感詞的句子個數(shù),n為單句中包含的復(fù)合情感詞的個數(shù)。 在實驗中發(fā)現(xiàn),部分詞的情感極性不明顯,既在負(fù)面情感句中出現(xiàn),也在正面情感句中出現(xiàn),且出現(xiàn)的頻率相差不大。為了避免這部分詞對最終結(jié)果造成影響,對所計算的情感單元增加置信度權(quán)重,根據(jù)其在正負(fù)面句子中出現(xiàn)的概率分別計算其正負(fù)面置信度,最終根據(jù)置信度的大小確定其極性。 Table 2 Calculation method and example of the sentiment score of compound sentiment words 將基于構(gòu)字和基于語境的方法以最終加權(quán)的方式結(jié)合,即可得到準(zhǔn)確率較高的情感詞典,其中基于情感語義單元語境的權(quán)重計算方法的權(quán)重較高。由于本文的2種方法都是基于已知情感詞典的,在每次計算出未知情感詞典之后,都可將其加入到已知情感詞典中進(jìn)行迭代計算。同時對于已知情感詞典中的情感詞權(quán)重,該方法也會進(jìn)行更新調(diào)整,最終得到更準(zhǔn)確的情感詞典。本文將2種方法加權(quán)結(jié)合的方法稱為基于層次體系的方法。 本文的數(shù)據(jù)集選自真實評論數(shù)據(jù),包含譚松波酒店評論數(shù)據(jù)(Hotel)正負(fù)面各3 000條,京東上采集的水果(Fruit)、衣服(Clothes)和平板電腦(Ipad)評價,正負(fù)面各5 000條,以及豆瓣(Douban)上采集的17萬條電影評論,篩選后保留正負(fù)面影評各5萬條。本文的情感詞典選自臺灣大學(xué)的NTUSD(National Taiwan University Sentiment Dictionary)、清華大學(xué)李軍中文褒貶義詞典以及知網(wǎng)的HowNet,將3部詞典中極性相同的詞放到一起,極性不同的詞去除不用。本文的否定詞詞典和程度詞詞典選自知網(wǎng),其中程度詞按照知網(wǎng)的分類給予不同的權(quán)重,權(quán)重對應(yīng)如表3[28]所示,關(guān)聯(lián)詞選自新華字典,具體如表4所示。 Table 3 Weight of intensifiers Table 4 Transition words and progressive words 根據(jù)文獻(xiàn)[23]中提到的方法,對結(jié)果按照計算得出的權(quán)重排序,計算排名前200的情感詞的準(zhǔn)確率。本文將基于情感語義單元構(gòu)字的權(quán)重計算方法(4.1節(jié))、基于情感語義單元語境的權(quán)重計算方法(4.2節(jié))、基于點(diǎn)互信息(SO-PMI)的權(quán)重計算方法、基于詞向量的權(quán)重計算方法與本文基于情感層次體系的權(quán)重計算方法進(jìn)行對比,實驗結(jié)果如表5所示。 Table 5 Accuracy of different methods on the first 200 words with positive and negative sentiment 表5的結(jié)果表明,基于構(gòu)字方法構(gòu)建的情感詞典的準(zhǔn)確率較差,而只使用語境的方法得到的情感詞典的準(zhǔn)確率接近構(gòu)字和語境都用的方法,這說明語境對情感詞的影響較大。同時與基于構(gòu)字的方法相比,本文方法在準(zhǔn)確率上有約3%的提升,所得到的情感詞典更加準(zhǔn)確。表6為由層次體系方法得到的情感詞權(quán)重的部分結(jié)果示例。在實驗結(jié)果中發(fā)現(xiàn),基于構(gòu)字的方法計算得到的情感詞典會出現(xiàn)矛盾的情況,如表7所示,如在水果評論的數(shù)據(jù)集中“貴”和“不貴”的情感傾向是相同的,表7的結(jié)果表明在不加入情感層次體系區(qū)分元情感詞和符合情感詞前,基于構(gòu)字的方法在元情感詞及其組成的復(fù)合情感詞權(quán)重上有很大的誤差。如“貴”和“挺貴”的權(quán)重相同,“大”和“不大”的權(quán)重相同。在引入情感層次體系之后,所得情感詞權(quán)重符合情感層次體系,根據(jù)不同的組成,使不同的復(fù)合情感詞有不同的權(quán)重。 Table 6 Examples of weight of some sentiment words Table 7 Comparison of partial results of the sentiment hierarchy and the original method 實驗結(jié)果主要從精確率P(Precision)、召回率R(Recall)、F1值和準(zhǔn)確率acc(accuracy)4個方面進(jìn)行分析,分別計算5.2節(jié)中的5種方法在正負(fù)面數(shù)據(jù)集上的P、R、F1,以及整體的準(zhǔn)確率。 實驗設(shè)置如下:在Ipad、水果、衣服和豆瓣的評論數(shù)據(jù)集上,使用基于情感詞典的方法,分別使用5.2節(jié)中的5種方法構(gòu)建適用于該語料的情感詞典,然后用基于規(guī)則的方法對語料進(jìn)行情感評分,結(jié)果如表8所示。 Table 8 Experimental results of sentiment dictionary obtained by five methods based on sentiment words in sentiment analysis method 從表8可以看出,本文方法得出的情感詞較原有情感詞在計算情感值時準(zhǔn)確率提升了9%。這表明本文方法得到的情感詞典更準(zhǔn)確且更適合這個領(lǐng)域,證明了本文方法的有效性。 為了驗證本文提出的情感語義單元構(gòu)建方法的貢獻(xiàn),本文在BiLSTM(Bi-directional Long Short-Term Memory)模型上進(jìn)行了深度學(xué)習(xí)的對比實驗,實驗設(shè)置如下:所有實驗均采用jieba分詞,利用word2vec得到詞向量,最后使用BiLSTM模型進(jìn)行訓(xùn)練。前2組實驗輸入為整句,不同的是,第2組實驗在jieba 分詞前將基礎(chǔ)情感詞典加入到用戶詞典中。剩下的6組在訓(xùn)練數(shù)據(jù)輸入BiLSTM模型之前都要進(jìn)行處理,去掉不在情感詞典中的詞。其中第3組使用公開情感詞典的情感詞,第4組是通過SO-PMI[9]方法構(gòu)建的情感詞典,第5組是使用word2vec權(quán)重遞增法[21]構(gòu)建的情感詞典,第6組是使用構(gòu)字方法得到的情感詞典,第7組是使用語境方法得到的情感詞典,第8組是使用層次體系方法得到的情感詞典。將數(shù)據(jù)集隨機(jī)選擇30%作為測試集進(jìn)行實驗,準(zhǔn)確率如表9所示。 從表9可以看到,第1組和第2組的結(jié)果相差不大,但是前2組的結(jié)果要比后6組的結(jié)果差,這說明情感詞在情感分析中起著重要的作用,準(zhǔn)確、全面的情感詞典可以提高情感分析的準(zhǔn)確率。后6組只使用情感詞的實驗表明,較當(dāng)前的情感詞典構(gòu)建方法構(gòu)建的情感詞典,本文方法構(gòu)建的情感詞典在情感分析實驗上準(zhǔn)確率更高,表明了本文方法的有效性。 Table 9 Accuracy of different methods on different datasets 本文首先提出了從字到篇章的情感分析層次體系,針對每層都提出了該層的情感權(quán)重表示方法和計算公式,可以通過下層情感單元計算得到相應(yīng)的情感權(quán)重。在此基礎(chǔ)上,本文提出了基于構(gòu)字和語境的情感語義單元自動構(gòu)建,同時使用情感詞的構(gòu)字情感傾向和語境的情感值計算其權(quán)重,可以提取出更適合該語料的情感詞典,提高對該語料情感分析的準(zhǔn)確率。通過真實評論數(shù)據(jù)集的實驗,驗證了本文提出的情感語義單元構(gòu)建方法可以提升情感詞典構(gòu)建的準(zhǔn)確率。與基于規(guī)則方法和深度學(xué)習(xí)方法的情感分析對比實驗表明,本文構(gòu)建的情感語義單元均有良好的表現(xiàn),較當(dāng)前的公開詞典和構(gòu)建算法構(gòu)建的詞典,本文方法構(gòu)建的詞典的情感分析準(zhǔn)確率分別提升了9%和3%。4 情感語義單元的自動構(gòu)建
4.1 基于情感語義單元構(gòu)字的權(quán)重計算方法
4.2 基于情感語義單元語境的權(quán)重計算方法
5 實驗與分析
5.1 數(shù)據(jù)集與情感詞典
5.2 基于候選情感詞構(gòu)成的情感詞典構(gòu)建方法對比
5.3 基于情感詞典方法的對比實驗
5.4 基于深度學(xué)習(xí)方法的對比實驗
6 結(jié)束語