梁禮欣, 郝志峰, 蔡瑞初, 溫 雯
(廣東工業(yè)大學(xué) 計算機學(xué)院,廣東 廣州 510006)
?
基于混合高斯分布偽樣本生成的情感分析方法
梁禮欣, 郝志峰, 蔡瑞初, 溫 雯
(廣東工業(yè)大學(xué) 計算機學(xué)院,廣東 廣州 510006)
針對微博行文自由性大,情感傾向識別困難的問題,提出了一種基于混合高斯分布偽樣本生成技術(shù)和條件隨機場模型的新方法。該方法首先利用混合高斯分布模型來為訓(xùn)練集中的少數(shù)類生成偽樣本從而構(gòu)建一個情感傾向分布平衡的訓(xùn)練集,然后通過使用Word2vec來擴展微博句子以豐富它的情感信息,從而緩解情感詞典不足夠大對情感分類的負(fù)面影響;最后將條件隨機場模型應(yīng)用在上面已經(jīng)平衡和擴展后的訓(xùn)練集上.實驗結(jié)果表明該方法比現(xiàn)有方法在數(shù)據(jù)集情感傾向分布不平衡時能更有效地識別微博的情感傾向.
情感分析; 混合高斯分布; 條件隨機場; 情感傾向; 不平衡性;Word2vec
微博作為一個新的社交平臺,承載了海量的信息,如何有效分析和挖掘用戶微博中的情感是非常有意義的[1].與傳統(tǒng)的情感分析工作一樣,對微博的情感分析方法可以分為兩類.一類是基于情感詞典和規(guī)則的方法,這類方法通過計算句子中負(fù)面情感詞和正面情感詞的個數(shù)來識別情感傾向[2-6].另一類是基于機器學(xué)習(xí)的方法,它們通過挑選合適的特征來訓(xùn)練模型[7-11].
然而,傳統(tǒng)方法都沒有意識到中文微博數(shù)據(jù)集中的情感傾向分布不平衡性對情感分類的影響.人們在微博中討論的話題往往帶有很強的情感傾向性,這導(dǎo)致很多話題的情感傾向分布不平衡,例如“#90后暴打老人#”等話題本身具有明顯的貶義情感,而“#莫言獲諾貝爾獎#”這個話題具有明顯的褒義情感[12].
數(shù)據(jù)集情感傾向分布的不平衡性恰恰是導(dǎo)致很多機器學(xué)習(xí)算法表現(xiàn)不好的重要因素,尤其是在情感傾向中占少數(shù)的類別的識別效果上[2].此外,微博的長度比傳統(tǒng)文本要短,這使得傳統(tǒng)方法很難從其中抽取出很多有助于情感分類的信息,而且目前還沒有一個足夠大的情感詞典可以覆蓋所有的情感詞.針對以上問題,本文提出了一種基于混合高斯分布偽樣本生成技術(shù)和條件隨機場(Conditional Random Field,CRF)模型的方法GWCRF(Gaussian Mixture Distribution Word2vec CRF).實驗結(jié)果表明,在中文微博情感傾向分析任務(wù)上,GWCRF方法比現(xiàn)有的方法取得更好的效果.
這個章節(jié)將介紹中文微博情感分析任務(wù)的相關(guān)研究成果.Barbosa[8]的情感分析方法首先是將推特分為主觀句或者客觀句,然后判別主觀句的情感傾向是正面或者是負(fù)面.Davidov[13]使用一個KNN相似的分類器去對推特進(jìn)行情感傾向分析,該方法將推特的表情符號和hashtags主題標(biāo)簽作為特征.Vanzo[9]提出應(yīng)用SVMhmm算法在包含上下文信息(例如微博的主題和對原始微博的回復(fù)等)的推特上. Jiang[14]也提出了一種與文獻(xiàn)[8]中的方法不同的兩步的情感分類方法,它考慮了目標(biāo)依賴特征和基于圖的情感優(yōu)化.
雖然英文微博的情感分析已經(jīng)有很多成果,但是中文微博情感分析還處于起步階段.中文與英文不同的是它具有更加復(fù)雜的句子類型和語言結(jié)構(gòu).這導(dǎo)致了很多英文微博情感分析方法在一定程度上不適合使用在中文上.
Xie[1]首次嘗試對句子級別的中文微博進(jìn)行情感分類,比較了三種方法的效果:基于情感詞典的方法、基于表情符合的方法和使用SVM算法的分層混合方法.最后,實驗結(jié)果顯示混合方法達(dá)到最好的效果.該方法首先把一條微博分為幾個句子,接著使用已經(jīng)訓(xùn)練好的SVM分類器來判別每個句子的情感傾向.與文獻(xiàn)[8]中的方法不同,SVM分類器一步就將句子分為正面、負(fù)面或者中性,這樣做的效果比兩步的方法更好.但是他們并沒有考慮這些句子間的依賴關(guān)系.另外,現(xiàn)有的方法都沒有意識到數(shù)據(jù)集中的情感傾向分布不平衡性對情感傾向分析的影響,從而導(dǎo)致分類器偏向于多數(shù)類樣本,使得少數(shù)類樣本識別性能不高.
2.1 利用混合高斯分布生成偽樣本
高斯混合模型是用高斯概率密度函數(shù)精確地量化事物,它是一個將事物分解為若干的基于高斯概率密度函數(shù)形成的模型.
中文微博數(shù)據(jù)集中情感傾向分布是不規(guī)則的,不能以一種單一的分布函數(shù)對軟件缺陷分布進(jìn)行模擬.傳統(tǒng)方法以每個樣本為中心獨立添加偽樣本,這樣不僅不能很好地刻畫樣本分布,而且容易導(dǎo)致樣本重疊.另外,用基于樣本全局的分布的單高斯模型來生成偽樣本會破壞樣本原先的分布.基于上面的分析,本文提出利用混合高斯分布生成偽樣本,具體步驟如下:
(1) 對于一個訓(xùn)練集t1,將它分為多數(shù)類maj1(即數(shù)據(jù)集中情感傾向占多數(shù)的類別)和少數(shù)類min1(即數(shù)據(jù)集的情感傾向中占少數(shù)類別).例如,在不平衡數(shù)據(jù)集“#90后暴打老人#”中,負(fù)面情感的數(shù)據(jù)會比正面情感數(shù)據(jù)的多很多,所以負(fù)面情感的數(shù)據(jù)就是多數(shù)類,正面情感的數(shù)據(jù)就是少數(shù)類.
(1)
④ 將數(shù)據(jù)集min2和maj1集中在一起得到一個平衡訓(xùn)練集t2.然后將t2代替t1作為最終的訓(xùn)練集.
2.2 利用Word2vec來擴展微博
Word2vec是Google在2013年中開源的一款將詞表征為實數(shù)值向量的高效工具,其利用深度學(xué)習(xí)的思想,把對文本內(nèi)容的處理簡化為K維向量空間中的向量運算,而向量空間上的相似度可以用來表示文本語義上的相似度.
本文從新浪微博API收集了大量的微博語料來訓(xùn)練詞向量,對微博進(jìn)行清洗過濾后,剩下6 G的微博數(shù)據(jù)作為訓(xùn)練集.接著使用Word2vec中的Skip-gram模型來訓(xùn)練詞向量,這樣就可以通過該詞向量來求微博中每個詞的相似詞了.
本文擴展微博方法的步驟如下:(1)對于一條微博t,將它分詞之后得到它的詞序列,表示為(W1,W2,…,Wn).(2)使用已經(jīng)訓(xùn)練好的詞向量來求微博t中每個詞的前k個相似詞,從而達(dá)到擴展微博的目的.擴展后的微博可以表示為(W1,W2,…,Wn,W11,W12,…,W1k,W21,W22,…,W2k,…,Wn1,Wn2,…,Wnk),其中(W11,W12,…,W1k)代表詞W1的前k個相似詞.(3)對于微博中表情符號和標(biāo)點符號的處理是將它們直接保留在微博中,所以擴展后的微博會比原微博含有更多的信息.
2.3 條件隨機場模型
CRF模型是由Lafferty在2001年提出的一種典型的判別式模型.CRF模型不僅擁有判別式模型的優(yōu)點,而且擁有產(chǎn)生式模型考慮到上下文標(biāo)記間的轉(zhuǎn)移概率,以序列化形式進(jìn)行全局參數(shù)優(yōu)化和解碼的特點.它還解決了其他判別式模型難以避免的標(biāo)記偏置問題.在CRFs模型中,應(yīng)用最廣泛的是Linear-chain CRF模型,下面介紹怎樣將它應(yīng)用在中文微博情感分析問題上.
在圖1中,X是一個觀測變量集合,例如一個樣本序列,每個變量X代表情感分析任務(wù)中的一個樣本,Y是要預(yù)測的目標(biāo)變量的集合,例如在情感分析任務(wù)中,Y代表樣本的標(biāo)簽,取值范圍是{正面,負(fù)面}.
圖1 線性鏈條件隨機場
CRF模型公式化表示為
(2)
和
(3)
這里{fk}是特征集合,包括狀態(tài)特征和轉(zhuǎn)移特征,{λk}是特征權(quán)重的集合.{fk}可以表示為
(4)
Linear-chain CRF模型的定義表明,每個特征函數(shù)都可以依賴任何時間點的觀測變量.在圖1中,X=(X1,X2,…,Xn)作為一個單獨的觀測變量節(jié)點,而不是將每個變量X1,X2,…,Xn用L-BFGS擬牛頓法來估計模型的參數(shù),利用Loopy BP(Loopy Belief Propagation)[15]算法來推理測試數(shù)據(jù)的標(biāo)簽序列.
2.4 中文微博情感分析的流程
中文微博情感分析任務(wù)可以視為序列標(biāo)注任務(wù),目標(biāo)是為每個樣本打上Y或N的標(biāo)簽,Y是指正面情感,N是指負(fù)面情感.
圖2是GWCRF方法的工作流程,具體細(xì)節(jié)如下.
(1) 利用混合高斯分布生成偽樣本:為訓(xùn)練集中的少數(shù)類的每一個子類生成高斯隨機偽樣本.
(2) 預(yù)處理:本文實驗中采用開源的中科院ICTCLAS中文分詞器對原始的微博數(shù)據(jù)集進(jìn)行分詞和詞性標(biāo)注,同時它允許用戶添加自定義的分詞詞典.由于微博語料中情感表達(dá)的方式十分口語化,因此本文通過構(gòu)建自己的分詞詞典來提高分詞效果,分詞詞典主要由情感詞詞典、網(wǎng)絡(luò)用語詞典等構(gòu)成.網(wǎng)絡(luò)用語詞典不僅包括網(wǎng)絡(luò)流行詞或短語如:屌絲、碉堡等,還包括一些表達(dá)觀點的日??谡Z詞如:傻逼、屁用等.
(3) 利用Word2vec擴展微博:使用Skip-gram模型訓(xùn)練的詞向量來擴展微博句子.
(4) 特征抽?。和ㄟ^對比多組特征組合的實驗效果,本文最終確定了一組最優(yōu)特征組合,所采用的最優(yōu)特征組合特征如表1所示.
(5) 訓(xùn)練GWCRF模型:輸入為訓(xùn)練集中的特征向量,使用L-BFGS算法來估計每個特征的權(quán)重.
(6) 得到標(biāo)記序列:輸入一個測試集的特征向量到已經(jīng)訓(xùn)練好的模型得到標(biāo)簽序列.
表1 最優(yōu)特征組合的具體情況
3.1 實驗設(shè)置
本文通過三個實驗來驗證GWCRF方法的有效性.(1) 比較GCRF方法(即將CRF模型直接應(yīng)用在經(jīng)過混合高斯分布平衡處理過的訓(xùn)練集上)和CRF方法(即將CRF模型直接應(yīng)用在沒有經(jīng)過平衡處理原始訓(xùn)練集上)和SCRF方法(即對原始訓(xùn)練集隨機增加少數(shù)類的樣本從而得到平衡的訓(xùn)練集,再將CRF模型應(yīng)用在平衡后的訓(xùn)練集上)的表現(xiàn),通過這個實驗可以知道混合高斯分布偽樣本生成技術(shù)對情感分析任務(wù)的貢獻(xiàn).(2) 比較GWCRF和GCRF方法的表現(xiàn),通過這個實驗可以看出利用Word2vec擴展微博對于情感分析任務(wù)的貢獻(xiàn).(3) 比較GWCRF、SVM和BP神經(jīng)網(wǎng)絡(luò)方法的表現(xiàn),通過這個實驗可以看出GWCRF方法對于情感分析任務(wù)的有效性.
3.2 實驗數(shù)據(jù)集
本文從新浪微博API獲取大約3萬條未標(biāo)記語料作為訓(xùn)練GWCRF模型的數(shù)據(jù).過濾掉一些廣告文本后,得到表2的數(shù)據(jù)集,這些微博包含了四個熱門主題,都是帶有明顯情感偏向(負(fù)面情感比正面情感多)的社會事件,例如(#90后暴打老人#、#食用油漲價#等),這些主題的情感傾向都是不平衡的.本文使用這四個不平衡數(shù)據(jù)集作為實驗數(shù)據(jù),分別用D1到D4來表示.從D1到D4,數(shù)據(jù)集的情感傾向分布不平衡性依次遞增.
表2 數(shù)據(jù)集的詳細(xì)情況
3.3 實驗結(jié)果與分析
由表3和表4可知GCRF方法在四個數(shù)據(jù)集的實驗結(jié)果都優(yōu)于CRF方法,在少數(shù)類召回率上平均提升6.8%,在G-mean上平均提升5%,這說明利用混合高斯分布偽樣本生成技術(shù)平衡訓(xùn)練集后能使情感識別效果有明顯的提升.此外,CRF方法對少數(shù)類樣本的情感傾向預(yù)測性能較低,而它對于多數(shù)類樣本預(yù)測性能較高,這是數(shù)據(jù)集情感傾向分布不平衡導(dǎo)致的.傳統(tǒng)方法對正面情感樣本和負(fù)面情感樣本同等處理,而未考慮在實際數(shù)據(jù)集中情感傾向分布不平衡的影響.當(dāng)訓(xùn)練數(shù)據(jù)集中情感傾向分布相差懸殊時,預(yù)測結(jié)果明顯偏向多數(shù)類樣本,從而導(dǎo)致少數(shù)類樣本的預(yù)測精度降低.
另外,從表4和表5中可以看到GCRF方法的結(jié)果比SCRF方法在G-mean指標(biāo)上平均提升3.3%,這說明利用混合高斯分布為少數(shù)類增加偽樣本是有效的,它能夠增加很多有利于分類器判別的信息.
表3 CRF方法的實驗結(jié)果
表4 GCRF方法的實驗結(jié)果
表5 SCRF方法的實驗結(jié)果
SCRF方法效果不好的原因是隨機增加少數(shù)類樣本的方式很可能出現(xiàn)樣本重疊的情況,從而不能很好模擬數(shù)據(jù)集的分布.在表4和表6中,可以看到在4個數(shù)據(jù)集上GWCRF的結(jié)果平均比GCRF提升了1.1%,這證明了利用Word2vec來擴展微博能夠豐富微博句子的情感信息,從而有利于提高情感分類任務(wù)的性能.例如,句子“它的屏幕很細(xì)膩”,假如情感詞典中沒有“細(xì)膩”這個情感詞,這時就識別不出這個句子是正面的.然而,假如利用Word2vec求得它的相似詞是“精致”,并且情感詞典中有該詞,這時就可以識別出句子的情感.
從表7中可以看出GWCRF方法在中文微博情感分析任務(wù)上比SVM方法和BP神經(jīng)網(wǎng)絡(luò)方法取得更好的效果,說明CRF模型應(yīng)用在經(jīng)過本文混合高斯分布偽樣本生成技術(shù)和Word2vec技術(shù)處理后的數(shù)據(jù)上時能提高預(yù)測性能.因為CRF模型不僅能夠處理復(fù)雜的特征,而且能夠引入句子間的上下文依賴信息.
表6 GWCRF方法的實驗結(jié)果
表7 SVM、BP神經(jīng)網(wǎng)絡(luò)、GWCRF方法的實驗結(jié)果
從表3到表7可知,從D1到D4,隨著數(shù)據(jù)集情感傾向分布不平衡性的增加,各個方法的召回率和G-mean值都會出現(xiàn)不同程度的下降,而本文提出的GWCRF方法依然能取得不錯的效果,這證明了GWCRF方法在情感傾向分布不平衡的中文微博數(shù)據(jù)集的情感傾向識別問題上是有效的.
本文提出了一種處理情感傾向分布不平衡的中文微博數(shù)據(jù)集的情感傾向識別問題的方法.該方法包含了混合高斯分布偽樣本生成技術(shù)和CRF預(yù)測模型.混合高斯分布偽樣本生成技術(shù)中,通過增加偽樣本的方式增加少數(shù)類樣本的數(shù)量來平衡訓(xùn)練集.在預(yù)測模型中,首先利用Word2vec來擴展微博,然后將CRF模型應(yīng)用在平衡和擴展后的訓(xùn)練集上.實驗結(jié)果證明, GWCRF方法在中文微博情感分析問題上能比傳統(tǒng)的方法取得更好的效果.
[1] XIE L, ZHOU M, SUN M. Hierarchical structure based hybrid approach to sentiment analysis of chinese micro blog and its feature extraction[J]. Journal of Chinese Information Processing, 2012, 26(1): 73-83.
[2]VHUTTO C J, GILBERT E. VADER: A parsimonious rule-based model for sentiment analysis of social media text[C]∥Proceedings of the Eighth International AAAI Conference on Weblogs and Social Media.Phoenix, Arizona, USA: Association for the Advancement of Artificial Intelligence, 2014: 216-225.
[3] PANDARACHALIL R, SENDHILKUMAR S, MAHALAKSHMI G S. Twitter sentiment analysis for large-scale data:an unsupervised approach[J]. Cognitive Computation, 2014, 7(2): 254-262.
[4] ZHOU S, CHEN Q, WANG X. Active deep learning method for semi-supervised sentiment classification[J]. Neurocomputing, 2013, 120(10): 536-546.
[5] 吳江,唐常杰,李太勇,等.基于語義規(guī)則的Web金融文本情感分析[J].計算機應(yīng)用,2014,34(2):481-485.
WU J, TANG C J, LI T Y, et al. Sentiment analysis on Web financial text based on semantic rules[J]. Journal of Computer Applications, 2014, 34(2):481-485.
[6] 李壽山,李逸薇,黃居仁,等.基于雙語信息和標(biāo)簽傳播算法的中文情感詞典構(gòu)建方法[J].中文信息學(xué)報,2013,27(6):75-81.
LI S S,LI Y W,HUANG J R, et al.Construction of Chinese sentiment lexicon using bilingual information and label propagation algorithm[J].Journal of Chinese Information Processing, 2013, 27(6): 75-81.
[7] TANG D, WEI F. Building large-scale Twitter-Specific sentiment lexicon: a representation learning approach[C]∥Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics. Dublin, Ireland:Technical Papers, 2014: 172-182.
[8] BARBOSA, FENG J. Robust sentiment detection on Twitter from biased and noisy data.[C]∥Proceedings of COLING 2010, the 23rd International Conference on Computational Linguistics. Beijin, China: Posters Volume, 2010: 36-44.
[9] VANZO A, CROCE D, BASILI R. A context-based model for sentiment analysis in Twitter[C]∥Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics. Dublin, Ireland: Technical Papers, 2014: 2345-2354.
[10] 楊經(jīng),林世平.基于SVM 的文本詞句情感分析[J].計算機應(yīng)用與軟件,2011,28(9):225-228.
YANG J, LIN S P.Emotion analysis on text words and sentences based on SVM[J]. Computer Applications and Software, 2011, 28(9) : 225-228.
[11] 陳培文,傅秀芬.采用 SVM 方法的文本情感極性分類研究[J].廣東工業(yè)大學(xué)學(xué)報,2014(3):95-101.
CHEN P W, FU X F.Research on sentiment classification of texts based on SVM[J]. Journal of Guangdong University of Technology, 2014(3): 95-101.
[12] 滕少華,吳昊,李日貴,等.可調(diào)多趟聚類挖掘在電信數(shù)據(jù)分析中的應(yīng)用[J].廣東工業(yè)大學(xué)學(xué)報,2014(3):1-7.
TENG S H, WU H, LI R G , et al.The application of the adjustable multi-times clustering algorithm in telecom data sentiment analysis on web financial text based on semantic rules[J]. Journal of Computer Applications, 2014(3): 1-7.
[13] DAVIDOV D, TSUR O, RAPPOPORT A. Enhanced sentiment learning using Twitter hashtags and smileys[C]∥Proceedings of COLING 2010, the 23rd International Conference on Computational Linguistics. Beijing, China: Posters Volume, 2010: 241-249.
[14] JIANG L, YU M, ZHOU M, et al. Target-dependent Twitter sentiment classification[C]∥The Meeting of the Association for Computational Linguistics, Human Language Technologies, Proceedings of the Conference. Portland, Oregon, USA: Association for Computational Linguistics, 2011: 151-160.
[15] TASKAR B, ABBEEL P, KOLLER D.Discriminative probabilistic models for relational data[J]. Eprint Arxiv, 2012, 7(3): 485-492.
An Approach to Sentiment Analysis of Chinese Microblogs Based on Gaussian Mixture Distribution Pseudo-sample Generation
Liang Li-xin, Hao Zhi-feng, Cai Rui-chu, Wen Wen
(School of Computers, Guangdong University of Technology, Guangzhou, 510006)
Since informal words and expressions are widely used in miscroblogs, sentiment analysis of the microblogs is a difficult scientific problem, especially with the data in imbalanced sentiment distribution. GWCRF (Gaussian Mixture Distribution Word2vec CRF), a method based on pseudo-sample generation technique and Conditional Random Field (CRF) for sentiment analysis of microblogs in imbalance distribution is presented. In the proposed method, firstly, the Gaussian Mixture Distribution is leveraged to generate pseudo-samples, which can increase the samples of minor classes for balancing the train data sets. Secondly, Word2vec technology is leveraged to enrich the microblog message and overcome the problem that sentiment lexicon is not large enough. Moveover, the CRF model is proposed to apply in the above balanced and extended train data sets. Experimental results on the microblog data demonstrate that this method outperforms the state-of-art methods in sentiment analysis of the microblog data sets with imbalanced sentiment distribution.
sentiment analysis; Gaussian mixture distribution; conditional random field; sentiment; imbalance; Word2vec
2016- 03- 23
國家自然科學(xué)基金資助項目(61472089,61572143)
梁禮欣(1990-),男,碩士研究生,主要研究方向為文本情感分析、數(shù)據(jù)挖掘.
10.3969/j.issn.1007- 7162.2016.06.015
TP391
A
1007-7162(2016)06- 0085- 06