栗雨晴,禮 欣,韓 煦,宋丹丹,廖樂(lè)健
(1.北京理工大學(xué)計(jì)算機(jī)學(xué)院,北京 100081;2.北京市海量語(yǔ)言信息處理與云計(jì)算應(yīng)用工程技術(shù)研究中心,北京 100081)
?
基于雙語(yǔ)詞典的微博多類情感分析方法
栗雨晴1,2,禮 欣1,2,韓 煦1,宋丹丹1,2,廖樂(lè)健1,2
(1.北京理工大學(xué)計(jì)算機(jī)學(xué)院,北京 100081;2.北京市海量語(yǔ)言信息處理與云計(jì)算應(yīng)用工程技術(shù)研究中心,北京 100081)
現(xiàn)有微博文本情感分析方法多面向單一語(yǔ)種語(yǔ)料,如:中文語(yǔ)料.但是,中英文搭配使用的表達(dá)習(xí)慣已逐漸成為個(gè)體意見(jiàn)表達(dá)的重要形式.本文提出一種基于雙語(yǔ)詞典的多類情感分析方法,通過(guò)構(gòu)建雙語(yǔ)多類情感詞典對(duì)微博文本進(jìn)行多分類語(yǔ)義傾向性分析,以便更準(zhǔn)確有效捕捉群體意見(jiàn),及時(shí)發(fā)現(xiàn)社會(huì)輿論傾向.通過(guò)與多數(shù)投票算法、支持向量機(jī)算法、基于余弦距離的K近鄰分類算法相比,本文提出的基于雙語(yǔ)詞典的多類情感分析模型具有良好的分類效果,其在分類準(zhǔn)確率、F1值等方面都有明顯提高.
雙語(yǔ)語(yǔ)義傾向性分析;半監(jiān)督高斯混合模型;相對(duì)熵;情感詞典
隨著社交媒體平臺(tái)的興起和廣泛使用,針對(duì)社交網(wǎng)絡(luò)數(shù)據(jù)的自然語(yǔ)言處理已成為當(dāng)前研究熱點(diǎn)并囊括多種前沿課題.
目前,一些情感分析方面的工作主要針對(duì)單一語(yǔ)種文本情感傾向進(jìn)行統(tǒng)計(jì)分析,但中英文搭配使用或純英文書寫已逐漸成為個(gè)體情感表達(dá)的重要形式.在本文中我們通過(guò)利用大量語(yǔ)料、已有知識(shí)庫(kù)、詞匯相似性計(jì)算模型構(gòu)建英漢雙語(yǔ)情感詞詞典,進(jìn)而對(duì)微博文本進(jìn)行向量化處理.本文利用半監(jiān)督高斯混合模型分類算法(Semi-GMM,Semi-supervised Gaussian Mixture Model)和基于對(duì)稱相對(duì)熵的K近鄰算法(KNN-KL,K-Nearest Neighbor-symmetric Kullback-Leibler divergence)對(duì)微博文本進(jìn)行情感分類.實(shí)驗(yàn)證實(shí),半監(jiān)督高斯混合模型分類算法魯棒性強(qiáng),并且分類準(zhǔn)確率不受訓(xùn)練集文本規(guī)模大小的影響,而基于對(duì)稱相對(duì)熵的K近鄰算法(KNN-KL)在訓(xùn)練數(shù)據(jù)充分的情況下,可以取得更高的分類準(zhǔn)確率.
目前國(guó)內(nèi)外對(duì)于文本情感傾向性判定主要有基于語(yǔ)料庫(kù)和基于詞典兩種方法.總體來(lái)看,使用情感詞典及與其相關(guān)聯(lián)信息對(duì)文本進(jìn)行情感判別效果更加精準(zhǔn)[1].針對(duì)微博上大量中英雙語(yǔ)混合文本的出現(xiàn),我們通過(guò)構(gòu)建雙語(yǔ)情感詞典以提高情感傾向分析的準(zhǔn)確性.
在文獻(xiàn)[2,3]中,作者提出跨語(yǔ)言混合模型,利用平行語(yǔ)料庫(kù)提高詞典覆蓋率,通過(guò)最大化生成語(yǔ)料庫(kù)的似然值對(duì)未標(biāo)注詞語(yǔ)進(jìn)行情感極性標(biāo)注,進(jìn)而擴(kuò)展詞典.但是,利用平行語(yǔ)料庫(kù)的方式進(jìn)行文本情感分類對(duì)平行語(yǔ)料庫(kù)質(zhì)量、規(guī)模要求很高.微博文本內(nèi)容簡(jiǎn)短、詞匯復(fù)雜多變不利于平行語(yǔ)料庫(kù)的構(gòu)建.因此,本文首先對(duì)大規(guī)模語(yǔ)料進(jìn)行統(tǒng)計(jì)分析,預(yù)先對(duì)具有代表性的詞匯進(jìn)行人工標(biāo)注選為種子詞匯,再利用已有情感詞匯知識(shí)庫(kù)、語(yǔ)義相似度計(jì)算模型或?qū)哟谓Y(jié)構(gòu)模型等方法對(duì)雙語(yǔ)情感詞典進(jìn)行擴(kuò)充.在構(gòu)建詞典的過(guò)程中我們利用新浪微博消息文本、中英文種子詞集結(jié)合雙語(yǔ)料相似度計(jì)算模型構(gòu)建情感詞典.
在文獻(xiàn)[4]中作者指出采用機(jī)器學(xué)習(xí)方法比簡(jiǎn)單統(tǒng)計(jì)褒義和貶義情感詞匯個(gè)數(shù)具有更好的分類效果,并提出將情感詞典同監(jiān)督學(xué)習(xí)算法相結(jié)合以實(shí)現(xiàn)更高的文本分類精度.在文獻(xiàn)[5]中,作者提出一種反應(yīng)公眾對(duì)社會(huì)事件關(guān)注的五分類模型(社會(huì)關(guān)愛(ài)、高興、悲傷、憤怒、恐懼).本文結(jié)合上述文本情感類別,提出基于半監(jiān)督高斯混合模型等一系列動(dòng)態(tài)學(xué)習(xí)算法對(duì)中文及中英雙語(yǔ)微博文本進(jìn)行情感傾向性分類.
本章將從情感詞典的構(gòu)建、文本情感傾向性分類、文本的向量表示以及文本情感分類算法設(shè)計(jì)四個(gè)方面的研究工作進(jìn)行介紹.文本情感分類系統(tǒng)的整體框架如圖1所示:
3.1 情感詞典
中英文搭配使用已成為個(gè)體表達(dá)的流行趨為進(jìn)一步說(shuō)明加入英文情感詞典的必要性,我們?cè)趫D2中展示微博用戶發(fā)布的兩則博文,圖中可以看出,具有雙語(yǔ)表述習(xí)慣的用戶在談及某一話題時(shí),慣用英語(yǔ)情感詞匯進(jìn)行情感表達(dá).
為建立雙語(yǔ)情感詞典,首先我們從新浪微博中收集大量具有情感傾向的語(yǔ)料,并從語(yǔ)料集中提取出具有情感傾向的高頻詞匯.之后,應(yīng)用已有知識(shí)庫(kù)(HowNet[6]、WordNet[7]、NTUSD[8])對(duì)情感詞典進(jìn)行擴(kuò)展.在已有知識(shí)庫(kù)中(HowNet[6]、WordNet[7])每個(gè)詞匯vb(b∈Z+)可以通過(guò)多個(gè)概念Sba(a∈Z+)進(jìn)行描述,每個(gè)概念又是以義原為基礎(chǔ)通過(guò)知識(shí)庫(kù)表述語(yǔ)言進(jìn)行定義,且每個(gè)概念Sba含有多個(gè)義原pat(t∈Z+)對(duì)其進(jìn)行解釋.對(duì)于中文詞匯間的語(yǔ)義相似性,本文采用HowNet詞匯相似度計(jì)算方法[9],其定義如式(1)、式(2)所示:
(1)
(2)
其中,t1,t2分別表示S1a1,S2a2兩個(gè)概念含有的義原數(shù)目,并選取兩個(gè)詞之間的最大概念描述相似度作為兩個(gè)詞的相似度.
而對(duì)于英文詞匯間的語(yǔ)義相似性,我們利用WordNet中的Lesk方法對(duì)詞匯之間的關(guān)聯(lián)度進(jìn)行度量.在Wordnet中的每一個(gè)概念(word sense)都是通過(guò)一個(gè)短注釋進(jìn)行定義的.Lesk方法通過(guò)尋找和計(jì)算兩個(gè)概念的注釋的交叉部分進(jìn)而計(jì)算兩詞匯之間的相似度sim(v1,v2).本文采用NLTK中給出的Lancaster和WordNet Lemmatizer兩種方式對(duì)英文詞匯進(jìn)行詞形變化和詞干提取.除傳統(tǒng)情感詞外,我們還在情感詞典中引入了網(wǎng)絡(luò)語(yǔ)言和表情符號(hào).綜上所述,本文所構(gòu)建的中文情感詞匯共計(jì)7590個(gè),英文情感詞匯共計(jì)421個(gè),網(wǎng)絡(luò)詞匯613個(gè),常用表情符號(hào)101個(gè).
3.2 文本的向量表示
根據(jù)構(gòu)建的情感詞典我們從中選取部分詞匯進(jìn)行人工標(biāo)注作為5類情感的種子詞匯.種子詞集A-seedset={PC,PJ,PB,PA,PF},其中PC,PJ,PB,PA,PF分別代表各類情感(社會(huì)關(guān)愛(ài)、高興、悲傷、憤怒、恐懼)的子集.其中“社會(huì)關(guān)愛(ài)”類別的引入旨在更準(zhǔn)確有效的捕捉、辨別群體意見(jiàn)[5],而對(duì)于不在種子集合中的情感詞,我們則利用式(3)中所給定義將其分類.
Ψ(v)=
(3)
其中K1,K2,K3,K4,K5為各類情感子集中種子詞匯的數(shù)目.Ψ(v)表示非種子詞匯所屬情感類別,取決于與各類情感子集平均相似度的最大值.而對(duì)于微博消息中常出現(xiàn)的網(wǎng)絡(luò)詞匯則采用多人人工標(biāo)注的方式對(duì)其進(jìn)行分類.最終建立的中英雙語(yǔ)五類情感詞典涵蓋“社會(huì)關(guān)愛(ài)”類詞匯971個(gè)、“高興”類詞匯2731個(gè)、“悲傷”類詞匯2289個(gè)、“憤怒”類詞匯1458個(gè)、“恐懼”類詞匯1276個(gè).
本文采用ICTCLAS分詞系統(tǒng) (http://ictclas.nlpir.org/)對(duì)中文文本進(jìn)行詞匯識(shí)別,而對(duì)于英文文本則根據(jù)空格進(jìn)行詞匯識(shí)別.對(duì)一條微博消息文本進(jìn)行分此后,對(duì)其進(jìn)行去停用詞處理,如:“的”、“a”、“the”等.
對(duì)微博消息文本進(jìn)行上述處理之后便可依照多分類情感詞典對(duì)其進(jìn)行文本向量化表示.設(shè)D={d1,d2,…,dn}是所有微博消息文本的集合,其中di是本文集合中第i條文本的向量表示.則對(duì)于任一條微博文本di=[ωiC,ωiJ,ωiB,ωiA,ωiF]T其中ωiC,ωiJ,ωiB,ωiA,ωiF表示微博消息文本中包含各類情感詞的個(gè)數(shù),因此每條微博消息均以5維向量表示.
3.3 算法設(shè)計(jì)
本節(jié)將詳細(xì)介紹本文提出的兩種文本情感多分類模型——半監(jiān)督高斯混合模型分類算法(Semi-GMM)和基于對(duì)稱相對(duì)熵的K近鄰算法(KNN-KL).
3.3.1 半監(jiān)督高斯混合模型(Semi-GMM)情感分類算法
高斯混合模型學(xué)習(xí),即是對(duì)各個(gè)高斯模型加概率密度的估計(jì)和權(quán)重(πk)進(jìn)行最大似然估計(jì)的過(guò)程.本文采用半監(jiān)督高斯混合模型對(duì)文本進(jìn)行分類,首先通過(guò)已標(biāo)記微博消息文本學(xué)習(xí)高斯混合模型,然后以該模型參數(shù)和已標(biāo)記樣本的概率分布作為高斯混合模型的參數(shù)初值對(duì)已有模型進(jìn)行迭代學(xué)習(xí).
半監(jiān)督高斯混合模型是一個(gè)自訓(xùn)練算法,在每一次迭代訓(xùn)練的過(guò)程中,已標(biāo)注樣本集合(L)通過(guò)不斷在未標(biāo)注樣本集合(U)中選擇表現(xiàn)良好的樣本加入,更新標(biāo)注樣本集.根據(jù)新的標(biāo)注集合不斷對(duì)混合高斯模型進(jìn)行學(xué)習(xí),直至算法收斂或未標(biāo)注集合為空.半監(jiān)督高斯混合模型情感分類算法偽代碼如算法1所示:
算法1 半監(jiān)督高斯混合模型情感分類算法
輸入:小規(guī)模已標(biāo)注微博文本集合,高斯混合模型
輸出:Θ(q)
1.q←0
3. whileU!=NULL or‖Q(θ(q+1),θ(q))-Q(θ(q),θ(q))‖>ε
4. E-step:
7.L←L∪uj
8.U←U-uj
9. M-step:
11.q←q+1
3.3.2 基于對(duì)稱相對(duì)熵的K近鄰情感分類算法
K近鄰分類算法(KNN,K-Nearest Neighbor)[10]是指一個(gè)樣本所屬類別取決于特征空間中最鄰近的樣本中大多數(shù)所屬類別.在本文中我們采用相對(duì)熵對(duì)文本情感相似性進(jìn)行度量.相對(duì)熵是對(duì)相同事件空間里的兩個(gè)概率分布(P和Q的)的非對(duì)稱性度量,記為DKL(P‖Q).因此對(duì)3.3節(jié)中提出的文本向量表示進(jìn)行歸一化,如式(4)所示,歸一化后的文本向量記為Ti,其中W為文本包含各類情感詞的個(gè)數(shù)總和.
Ti=〈ωiC/W,ωiJ/W,ωiB/W,ωiA/W,ωiF/W〉
(4)
微博消息文本Ti與Tj之間的距離定義如式(5)所示:
(5)
由于傳統(tǒng)相對(duì)熵具有非對(duì)稱性,因此在度量概率分布P和Q的差別時(shí),P表示數(shù)據(jù)的真實(shí)分布,Q表示P的近似分布.因此,在計(jì)算文本之間的距離時(shí),Ti為已標(biāo)記文本的歸一化向量表示,Tj則為未標(biāo)記文本的歸一化向量表示.tik但是這種非對(duì)稱性計(jì)算形式忽略了P對(duì)于Q的近似分布.為了改進(jìn)傳統(tǒng)相對(duì)熵計(jì)算的非對(duì)稱性,本文采用的相對(duì)熵計(jì)算公式[11]定義如式(6)所示:
(6)
4.1 多種文本情感分類算法比較
本實(shí)驗(yàn)根據(jù)3.1節(jié)中構(gòu)建的中文情感詞典,選取多種機(jī)器學(xué)習(xí)分類算法進(jìn)行比較.使用新浪微博提供的API抓取7170條中文微博文本信息作為實(shí)驗(yàn)數(shù)據(jù).并邀請(qǐng)25位研究自然語(yǔ)言方向的學(xué)生依照5類情感對(duì)文本進(jìn)行人工類別標(biāo)注,進(jìn)而使得文本的情感類別取決于多數(shù)人選取的情感類別.語(yǔ)料在各情感類別中的分布情況如表1所示:
表1 微博文本在5類情感類別中的分布
針對(duì)上述微博文本我們采用多種分類模型對(duì)文本進(jìn)行情感分類,實(shí)驗(yàn)詳細(xì)設(shè)計(jì)與結(jié)果分析如下所述.
我們從中選取3170條微博作為測(cè)試集,其中表達(dá)社會(huì)關(guān)愛(ài)的微博文本500條,表達(dá)高興的微博文本1300條,表達(dá)悲傷的微博文本540條,表達(dá)憤怒的微博文本510條,表達(dá)恐懼的微博文本320條.訓(xùn)練集則從余下4000條中選取1000至4000條微博不等.
(1)我們首先對(duì)基于非對(duì)稱相對(duì)熵的K近鄰分類算法,如式(5)所示和基于對(duì)稱相對(duì)熵的K近鄰分類算法,如式(6)所示進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表2所示.
結(jié)果表明,盡管基于對(duì)稱相對(duì)熵的K近鄰分類算法依照本文所示訓(xùn)練文本優(yōu)勢(shì)并不明顯,但考慮到基于對(duì)稱相對(duì)熵的K近鄰分類算法可消除不同訓(xùn)練集導(dǎo)致的算法準(zhǔn)確率差異,進(jìn)而提高分類算法的高魯棒性.因此,在之后的多種機(jī)器學(xué)習(xí)分類算法的比較中,我們僅選用基于對(duì)稱相對(duì)熵的K近鄰分類算法參與比較.
表2 基于不同距離度量算法的K近鄰分類算法在不同訓(xùn)練集規(guī)模下的準(zhǔn)確率比較
(2)多模型分類結(jié)果的比較
我們選用多數(shù)投票算法(Majority Vote)、支持向量機(jī)算法(SVM)、基于余弦距離的K近鄰分類算法(KNN-Cosine)同本文中提出的半監(jiān)督高斯混合模型分類算法(Semi-GMM)和基于對(duì)稱相對(duì)熵的K近鄰算法(KNN-KL)進(jìn)行比較.比較結(jié)果如圖3所示:
從圖3可以看出當(dāng)訓(xùn)練集文本規(guī)模為4000條時(shí),KNN-KL準(zhǔn)確率最高達(dá)到85.1%.當(dāng)選用相同最近鄰數(shù)時(shí),采用對(duì)稱相對(duì)熵進(jìn)行文本距離度量比采用余弦距離進(jìn)行文本距離度量分類效果更好.但隨著訓(xùn)練集文本數(shù)目下降到1000條,采用KNN-KL的準(zhǔn)確率下降了8.9%,而Semi-GMM僅下降了2.9%.這也進(jìn)一步證實(shí)了Semi-GMM更加適合在訓(xùn)練集規(guī)模較小時(shí)使用,而KNN這種全監(jiān)督學(xué)習(xí)算法容易被選取鄰居數(shù)目左右,影響分類效果.
表3 在不同訓(xùn)練集規(guī)模下,基于Semi-GMM和KMM-KL的文本分類準(zhǔn)確率
表4 在不同訓(xùn)練集規(guī)模下,基于Semi-GMM和KMM-KL的文本分類F1值
在不同文本訓(xùn)練集規(guī)模下,Semi-GMM和KNN-KL的F1值如表4所示,這也進(jìn)一步證實(shí)了Semi-GMM在小規(guī)模訓(xùn)練集下的分類優(yōu)勢(shì).
4.2 雙語(yǔ)微博文本情感分類實(shí)驗(yàn)
類似的,我們使用新浪提供的API抓取7000條雙語(yǔ)微博文本信息.并邀請(qǐng)25位研究自然語(yǔ)言方向的學(xué)生依照5類情感對(duì)文本進(jìn)行人工類別標(biāo)注,情感類別語(yǔ)料在各情感類別中的分布情況如表5所示:
表5 微博文本在5類情感類別中的分布
針對(duì)上述雙語(yǔ)微博文本我們采用多種分類模型對(duì)文本進(jìn)行情感分類,實(shí)驗(yàn)詳細(xì)設(shè)計(jì)與結(jié)果分析如下所述.
(1)多模型分類結(jié)果比較
我們從中選取3000條微博作為測(cè)試集,其中表達(dá)社會(huì)關(guān)愛(ài)的微博文本400條,表達(dá)高興的微博文本950條,表達(dá)悲傷的微博文本660條,表達(dá)憤怒的微博文本500條,表達(dá)恐懼的微博文本490條.訓(xùn)練集則從余下4000條中選取1000至4000條微博不等.
我們選用僅使用中文情感詞典作感詞識(shí)別的半監(jiān)督高斯混合模型分類算法(Semi-GMM(Ch.))和基于對(duì)稱相對(duì)熵的K近鄰算法(KNN-KL(Ch.))同使用中英文情感詞典相結(jié)合進(jìn)行情感詞識(shí)別的多數(shù)投票算法(Majority Vote(Ch.+Eng.))、SVM(Ch.+Eng.)算法、基于余弦距離的K近鄰分類算法(KNN-Cosine(Ch.+Eng.))以及本文提出的半監(jiān)督高斯混合模型分類算法(Semi-GMM(Ch.+Eng.))和基于對(duì)稱相對(duì)熵的K近鄰算法(KNN-KL(Ch.+Eng.))進(jìn)行比較.比較結(jié)果如圖4所示:
如圖4所示,利用中英文情感詞典相結(jié)合進(jìn)行情感詞識(shí)別的文本情感分類算法準(zhǔn)確率明顯高于單一利用中文情感詞典進(jìn)行情感詞識(shí)別的文本情感分類算法,進(jìn)一步證實(shí)了我們建立的雙語(yǔ)情感詞詞典的有效性.當(dāng)訓(xùn)練集微博文本下降到1000條時(shí),Semi-GMM(Ch.+Eng.)的分類準(zhǔn)確率最高達(dá)到了68.3%.
表6 不同訓(xùn)練集規(guī)模下,基于Semi-GMM和KMM-KL的文本分類準(zhǔn)確率
分類算法訓(xùn)練集文本數(shù)量社會(huì)關(guān)愛(ài)高興悲傷憤怒恐懼KNN?KL400066.7%84.7%68.2%81.2%81.1%100053.2%77.8%58.2%71.4%67.5%Semi?GMM400062.3%82.9%65.2%78.8%76.5%100054.6%78.8%59.4%72.9%68.8%
表6和表7給出了當(dāng)文本訓(xùn)練集規(guī)模不同時(shí),Semi-GMM和KNN-KL針對(duì)文本進(jìn)行5類情感識(shí)別的準(zhǔn)確率.在文本訓(xùn)練集規(guī)模下降到1000時(shí),Semi-GMM的F1值大于KNN-KL的F1值,這也進(jìn)一步證實(shí)了文本中出現(xiàn)不同語(yǔ)種的文字不會(huì)對(duì)Semi-GMM的穩(wěn)定性造成影響,并且在小規(guī)模訓(xùn)練集下Semi-GMM更具分類優(yōu)勢(shì).
表7 不同訓(xùn)練集規(guī)模下,基于Semi-GMM和KMM-KL的文本分類F1值
(2)平行語(yǔ)料vs.雙語(yǔ)情感詞典
我們利用平行語(yǔ)料庫(kù)方式對(duì)文本進(jìn)行預(yù)處理——通過(guò)調(diào)用百度翻譯API將雙語(yǔ)微博文本信息全部翻譯為中文單一語(yǔ)料文本.針對(duì)于上述構(gòu)建完成的平行語(yǔ)料文本集,我們選用中文情感詞典作情感詞識(shí)別的半監(jiān)督高斯混合模型分類算法(Semi-GMM(Ch.))和基于對(duì)稱相對(duì)熵的K近鄰算法(KNN-KL(Ch.))對(duì)文本就行情感分類.并與本文提出的基于雙語(yǔ)情感詞詞典的半監(jiān)督高斯混合模型分類算法(Semi-GMM(Ch.+Eng.))和基于對(duì)稱相對(duì)熵的K近鄰算法(KNN-KL(Ch.+Eng.))進(jìn)行比較.
如圖5所示,在選用相同分類模型的前提下,利用中英文情感詞典相結(jié)合進(jìn)行情感詞識(shí)別的文本情感分類算法準(zhǔn)確率明顯高于利用平行語(yǔ)料庫(kù)方式進(jìn)行文本預(yù)處理的文本情感分類算法.由于情感詞匯語(yǔ)義復(fù)雜,上述實(shí)驗(yàn)也印證了多類別情感詞典的構(gòu)建不適宜采用平行語(yǔ)料庫(kù)的方式,證實(shí)了我們構(gòu)建的雙語(yǔ)情感詞詞典對(duì)于多類情感識(shí)別的有效性.
(3)微博文本英文字符所占比重對(duì)情感分類的影響
我們通過(guò)實(shí)驗(yàn)分析了微博文本中英文字符所占比重(新浪微博中每?jī)蓚€(gè)英文字符算為一字)對(duì)本文提出的情感分類算法的影響.我們從7000條雙語(yǔ)微博文本信息中隨機(jī)選取其中3000條雙語(yǔ)微博文本作為訓(xùn)練集.測(cè)試集則從余下4000條中選取,其中英文字符所占比重小于30%的文本共計(jì)1105條(27.62%),英文字符所占比重介于30%至70%的文本共計(jì)2170條(54.25%),英文字符所占比重大于70%的文本共計(jì)725條(18.13%).實(shí)驗(yàn)結(jié)果如表8所示:
表8 不同英文字符占比測(cè)試集下的文本分類準(zhǔn)確率比較
結(jié)果表明,本文提出的情感分類算法的高準(zhǔn)確率不受文本英文字符比重的影響.這也進(jìn)一步證明了我們建立的雙語(yǔ)情感詞詞典的有效性以及分類模型的強(qiáng)魯棒性.
中英文搭配使用的表達(dá)習(xí)慣已成為社交網(wǎng)絡(luò)個(gè)體、群體意見(jiàn)表達(dá)的重要形式.本文使用新浪微博消息文本和已有知識(shí)庫(kù)構(gòu)建了雙語(yǔ)情感詞典.為進(jìn)一步加強(qiáng)面向語(yǔ)義分類器的性能,本文提出了半監(jiān)督高斯混合模型和基于相對(duì)熵的K近鄰算法對(duì)文本進(jìn)行情感分類.實(shí)驗(yàn)結(jié)果表明,本文提出的基于雙語(yǔ)情感詞典的情感分類方法的準(zhǔn)確率和綜合評(píng)價(jià)指標(biāo)(F1值)均高于傳統(tǒng)的分類方法.特別是半監(jiān)督高斯混合模型分類算法在小規(guī)模訓(xùn)練集下的分類效果明顯優(yōu)于其他方法.
[1]Melville P,Gryc W,Lawrence R D.Sentiment analysis of blogs by combining lexical knowledge with text classification[A].Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C].New York:ACM SIGKDD Explorations Newsletter,2009.1275-1284.
[2]Wan X.Bilingual co-training for sentiment classification of Chinese product reviews[J].Computational Linguistics,2011,37(3):587-616.
[3]Meng X,Wei F,Liu X,et al.Cross-lingual mixture model for sentiment classification[A].Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics:Long Papers-Volume 1[C].Stroudsburg:Association for Computational Linguistics,2012.572-581.
[4]Pang B,Lee L.Opinion mining and sentiment analysis[J].Foundations and Trends in Information Retrieval,2008,2(1-2):1-135.
[5]Li Y,Li X,Li F,et al.A lexicon-based multi-class semantic orientation analysis for microblogs[A].Web Technologies and Applications[C].Cham:Springer International Publishing,2014.81-92.
[6]Dong Z,Dong Q.HowNet and the Computation of Meaning[M].Singapore:World Scientific,2006.
[7]Miller G A.WordNet:a lexical database for English[J].Communications of the ACM,1995,38(11):39-41.
[8]Hu M,Liu B.Opinion extraction and summarization on the web[A].Proceedings of the 21st National Conference on Artificial Intelligence(AAAI 2006) [C].California:AAAI Press,2006.1621-1624.
[9]Zhu Y L,Min J,Zhou Y,et al.Semantic orientation computing based on HowNet[J].Journal of Chinese Information Processing,2006,20(1):14-20.
[10]Chen J,Xue N,Palmer M S.Using a smoothing maximum entropy model for Chinese nominal entity tagging[A].Natural Language Processing-IJCNLP 2004[C].Heidelberg:Springer-Verlag Berlin Heidelberg,2004.493-499.
[11]Seghouane A K,Amari S I.The AIC criterion and symmetrizing the Kullback-Leibler divergence[J].IEEE Transactions on Neural Networks,2007,18(1):97-106.
栗雨晴 女,1991年7月出生于北京市.現(xiàn)為北京理工大學(xué)碩士研究生.主要研究方向?yàn)樯缃痪W(wǎng)絡(luò)、文本情感分析.
E-mail:liyqyimy@163.com
禮 欣(通訊作者) 女,1980年4月出生于黑龍江省佳木斯市.2001和2004年分別獲得吉林大學(xué)計(jì)算機(jī)學(xué)院工學(xué)學(xué)士和碩士學(xué)位,2009年獲香港浸會(huì)大學(xué)計(jì)算機(jī)博士學(xué)位.目前就職于北京理工大學(xué)計(jì)算機(jī)學(xué)院,主要從事數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、無(wú)線傳感網(wǎng)、車聯(lián)網(wǎng)、社交網(wǎng)絡(luò)分析和移動(dòng)計(jì)算等方面的研究.
E-mail:xinli@bit.edu.com
A Bilingual Lexicon-Based Multi-class SemanticOrientation Analysis for Microblogs
LI Yu-qing1,2,LI Xin1,2,HAN Xu1,SONG Dan-dan1,2,LIAO Le-jian1,2
(1.SchoolofComputerScience,BeijingInstituteofTechnology,Beijing100081,China;2.BeijingEngineeringApplicationResearchCenterofHighVolumeLanguageInformationProcessingandCloudComputing,Beijing100081,China)
Most of the existing Weibo sentiment analysis focuses on monolingual corpus like Chinese.However,a mixed use of Chinese and English becomes a popular form of expression.To better capture the social attention on public events,this paper proposes a bilingual lexicon based multi-class semantic orientation analysis for bilingual microblogs.We compare our proposed methodologies with majority vote,support vector machine (SVM) and K-nearest neighbor (KNN) by using cosine similarity which are competitive baseline methods.The experimental results show that our proposed methods outperform the three approaches we mentioned in terms of the accuracy and F1 score.
bilingual semantic orientation analysis;semi-supervised gaussian mixture model(Semi-GMM);Kullback-Leibler divergence;sentiment lexicon
2015-02-03;
2015-07-20;責(zé)任編輯:覃懷銀
國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃(973計(jì)劃)項(xiàng)目(No.2013CB329605);國(guó)家自然科學(xué)基金(No.61300178)
TP391;H085.5
A
0372-2112 (2016)09-2068-06
??學(xué)報(bào)URL:http://www.ejournal.org.cn
10.3969/j.issn.0372-2112.2016.09.007