邢玉娟,李恒杰,胡建軍,王萬(wàn)軍
(甘肅聯(lián)合大學(xué) 電子信息工程學(xué)院,甘肅 蘭州 730000)
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,用戶(hù)通過(guò)博客、微博、論壇等方式參與網(wǎng)絡(luò)信息的交流與傳遞,導(dǎo)致信息媒體的數(shù)量越來(lái)越大,網(wǎng)絡(luò)在線(xiàn)資源數(shù)量不斷增多.如何在如此龐大的網(wǎng)絡(luò)數(shù)據(jù)中快速地提取情感信息并及時(shí)對(duì)其觀點(diǎn)(肯定、否定)進(jìn)行判定,成為越來(lái)越多研究者的研究熱點(diǎn).文本情感分類(lèi)[1-2]是文本傾向性分析的一個(gè)重要分支,它對(duì)用戶(hù)的評(píng)論文本的觀點(diǎn)進(jìn)行挖掘,提取出相關(guān)信息的情感關(guān)鍵詞,然后根據(jù)關(guān)鍵詞采用一定的判決技術(shù)判斷出文本所表達(dá)的觀點(diǎn)(肯定、否定).
G.Salton[3]1975年提出將文檔表示為一個(gè)向量矩陣,即向量空間模型,該模型將文檔數(shù)據(jù)化,從而可以應(yīng)用各種機(jī)器學(xué)習(xí)方法對(duì)文本進(jìn)行情感分類(lèi).具有出色分類(lèi)性能的支持向量機(jī)(Support Vector Machine,SVM)算法被廣泛地應(yīng)用于文本情感分類(lèi)領(lǐng)域.Pang Bo[4]以電影評(píng)論數(shù)據(jù)作為仿真實(shí)驗(yàn)語(yǔ)料庫(kù),對(duì)樸素貝葉斯、最大熵和SVM 的分類(lèi)性能進(jìn)行了分析比較,實(shí)驗(yàn)結(jié)果表明SVM 的分類(lèi)性能優(yōu)于樸素貝葉斯、最大熵.國(guó)內(nèi)研究方面,周杰[5]等人采用SVM,KNN,RBF 網(wǎng)絡(luò)等方法,對(duì)網(wǎng)絡(luò)新聞評(píng)論數(shù)據(jù)進(jìn)行了情感分析,驗(yàn)證了SVM 出色的分類(lèi)性能.
然而,向量空間模型中的數(shù)據(jù)包含較多的對(duì)分類(lèi)沒(méi)有貢獻(xiàn)的零值,是一個(gè)稀疏矩陣,隨著文檔長(zhǎng)度的增加,VSM 的維度會(huì)急劇增大.同時(shí),標(biāo)準(zhǔn)SVM 的訓(xùn)練方法隨著樣本維度和樣本數(shù)量的增加,會(huì)消耗大量的時(shí)間和存儲(chǔ)量[6-8].針對(duì)這些問(wèn)題,本文提出了一種混合特征VSM 模型聚類(lèi)算法,將信息增益(Information Gain,IG)和互信息(Mutual Information,MI)與文檔的不同詞性特征相結(jié)合提取混合特征向量.該方法在對(duì)文檔特征空間降維的同時(shí),以期提高文本情感分析的效率.根據(jù)文檔VSM 模型之間的差異度對(duì)相似文檔進(jìn)行聚類(lèi),從而減少樣本的數(shù)量,解決SVM 訓(xùn)練速度慢的問(wèn)題,發(fā)揮其出色的分類(lèi)性能.
文本的詞性特征具有出色的多義詞匯消岐[9-10]特點(diǎn),在情感分析和觀點(diǎn)挖掘中獲得了廣泛的應(yīng)用.基本的詞性包括名詞(N)、動(dòng)詞(V)、形容詞(A)、副詞(D)、代詞(R)、介詞(P)、成語(yǔ)(I)、習(xí)慣語(yǔ)(L)和連詞(C)等.本文由于考慮到向量空間模型維數(shù)的問(wèn)題,因此只選擇情感色彩較強(qiáng)的名詞(N)、動(dòng)詞(V)、形容詞(A)、副詞(D)[11].我們將詞性組合“N+D+A”定義為一類(lèi)特征,“D+A”定義為二類(lèi)特征,“A”定義為三類(lèi)特征.由于這三類(lèi)特征在文檔中出現(xiàn)的次數(shù)較多,導(dǎo)致特征空間高緯度,因此選取信息增益(Information Gain,IG)和互信息(Mutual Information,MI)方法對(duì)文檔特征進(jìn)行選擇,這樣在保證選擇有效特征的同時(shí),對(duì)高維特征降維.
信息增益(IG)是基于特征在文檔中出現(xiàn)的頻率衡量該特征為分類(lèi)所提供的平均信息量的方法,同時(shí)也是一種有效的特征降維方法.假設(shè)特征項(xiàng)為t,其信息增益IG(t)[12]可定義為
式中:d為文檔類(lèi)別;D表示文檔集;H(D)為系統(tǒng)熵;H(D|t)表示在選擇特征的情況下系統(tǒng)的條件熵;表示特征t不出現(xiàn)的概率.由式(1)可知,特征t的信息增益量表明該特征對(duì)分類(lèi)的貢獻(xiàn)程度,二者成正比例關(guān)系.分別對(duì)名詞(N)、動(dòng)詞(V)、形容詞(A)、副詞(D)這4 類(lèi)詞性計(jì)算其信息增益量,按照由大到小的順序排列,選擇信息增益量最大的前q個(gè)特征作為最終特征.將經(jīng)過(guò)IG 處理的特征再次組合,分別構(gòu)成三類(lèi)混合特征.
互信息(MI)是一種根據(jù)隨機(jī)變量間相關(guān)性來(lái)度量特征信息量的方法.假定文檔類(lèi)別為d,特征t和類(lèi)別d之間的互信息[12]定義為
當(dāng)特征項(xiàng)t與當(dāng)前文檔c無(wú)關(guān)時(shí),MI(d,t)=0.將特征t和所有類(lèi)別的互信息平均值MIavg(t)=作為衡量互信息的閾值,同樣從式(2)可知MI值和該特征與類(lèi)別的相關(guān)性成正比,因此選擇MI值較大的候選特征歸入最終混合特征集.
向量空間模型(Vector Space Model,VSM)是一種有效的文檔數(shù)據(jù)化的方法[13],其基本原理就是將文檔中的每一個(gè)特征項(xiàng)與高維空間向量的每一維相對(duì)應(yīng),而特征項(xiàng)的權(quán)重表示其對(duì)文本分類(lèi)的貢獻(xiàn)量.因此,在高維空間中每一個(gè)向量對(duì)應(yīng)一篇文檔,其中向量的維數(shù)表示文檔的詞條數(shù),各個(gè)維的坐標(biāo)值就是詞的權(quán)重wji.
假設(shè)文檔數(shù)目為N,聚類(lèi)數(shù)目為K.文檔Di采用VSM可以將其表示為di=(w1,i,w2,i,…,Wn,i),i=1,…,N,其中wji表示文檔Di中出現(xiàn)詞wj的權(quán)重.文檔聚類(lèi)中心向量可表示為,c=1,…,K,其 中,r=1,…,s,表示當(dāng)前類(lèi)別c中所有文檔中出現(xiàn)詞wj的平均權(quán)重,s表示當(dāng)前類(lèi)別c中文檔的數(shù)目.
兩文檔間的距離可以通過(guò)計(jì)算兩個(gè)文本向量的夾角得到,因此兩個(gè)文檔間的差異度可表示為
將文檔差異度作為文檔聚類(lèi)的閾值,本文提出的文檔聚類(lèi)算法如下:
Step 1.設(shè)定聚類(lèi)數(shù)K,隨機(jī)指定K個(gè)文檔初始化聚類(lèi)中心,tc=0(c=1,…,K)用于記錄當(dāng)前類(lèi)別c中聚類(lèi)的文檔數(shù)目;
Step 2.根據(jù)式(3)計(jì)算文檔向量di(i=1,…,N)和聚類(lèi)中心向量d(c)(c=1,…,K)之間的差異度;
Step 3.將與當(dāng)前聚類(lèi)中心差異度最小的文檔向量劃分到當(dāng)前的類(lèi)中,tc=tc+1,重新計(jì)算文檔聚類(lèi)中心的向量d(c);
Step 4.重復(fù)執(zhí)行步驟2和步驟3,直到聚類(lèi)中心向量不再變化為止.
采用IG 和MI對(duì)文檔特征向量降維的同時(shí)生成高效的混合特征向量,緊接著利用文檔聚類(lèi)算法減少訓(xùn)練樣本的數(shù)量,在樣本緯度和數(shù)量上加快SVM 的訓(xùn)練.根據(jù)最終的聚類(lèi)中心,重新構(gòu)造文檔集的向量空間模型,最終由SVM 判斷出文檔的觀點(diǎn)(肯定/否定).
SVM 通過(guò)樣本在原空間映射到高維特征空間中構(gòu)造最優(yōu)分類(lèi)超平面,將給定的屬于兩個(gè)不同類(lèi)別的樣本分開(kāi),構(gòu)造超平面的依據(jù)是兩類(lèi)樣本與超平面的距離最大化.SVM 的決策分類(lèi)函數(shù)是
式中:xi∈Rn,i=1,2,…,l是用于訓(xùn)練的約簡(jiǎn)文檔混合向量集;yi∈{-1,1}是類(lèi)別標(biāo)號(hào);αi>0是Lagrange系數(shù),對(duì)應(yīng)于支持向量(SV)的αi取值非零,其余取值為零;b是分類(lèi)的域值,可以由任意一個(gè)線(xiàn)性支持向量求得.在本文中選擇類(lèi)似于GMM 的徑向基核函數(shù)[14]
仿真實(shí)驗(yàn)采用中國(guó)科學(xué)院計(jì)算技術(shù)研究所譚松波博士提供的中文文本情感分析語(yǔ)料庫(kù).該語(yǔ)料庫(kù)包含酒店評(píng)論、筆記本電腦評(píng)論和書(shū)籍評(píng)論三種語(yǔ)料集,每種語(yǔ)料集的正負(fù)類(lèi)文本各2 000篇.仿真實(shí)驗(yàn)基于酒店評(píng)論數(shù)據(jù),隨機(jī)選取數(shù)據(jù)中正面和負(fù)面各1 200 篇用于模型的訓(xùn)練,而剩余文本用于性能的測(cè)試.采用ICTCLAS 漢語(yǔ)分析系統(tǒng)對(duì)酒店評(píng)論語(yǔ)料集中的文本進(jìn)行分詞、標(biāo)記詞性等預(yù)處理,不考慮標(biāo)點(diǎn)符號(hào)和助詞如“的”對(duì)語(yǔ)料情感的影響.實(shí)驗(yàn)中特征權(quán)重的計(jì)算選用TF-IDF 函數(shù)[15].實(shí)驗(yàn)樣本信息如表1 所示.
表1 實(shí)驗(yàn)樣本信息Tab.1 Experimental example information
實(shí)驗(yàn)1 不同詞性特征組合分析比較
本實(shí)驗(yàn)主要是測(cè)試不同詞性組合特征對(duì)傳統(tǒng)SVM,經(jīng)典樸素貝葉斯(NB)和最大熵(ME)分類(lèi)算法的影響.實(shí)驗(yàn)結(jié)果如表2 所示.
由表2 可知:
1)“D+A”詞性特征組合的分類(lèi)準(zhǔn)確率最高.其中“D+A”特征的維數(shù)遠(yuǎn)遠(yuǎn)小于“N+D+A”特征的維數(shù),但其分類(lèi)性能優(yōu)于“N+D+A”特征,在SVM 中識(shí)別準(zhǔn)確率達(dá)到了88.7%.而形容詞由于其特征數(shù)量太少,且其與不同名詞組合具有不同的語(yǔ)義傾向,因此導(dǎo)致其分類(lèi)準(zhǔn)確率較低.
2)在三種不同的詞性組合特征中,SVM 的性能都是最優(yōu)的.在“N+D+A”特征中,SVM 的分類(lèi)準(zhǔn)確率比NB 高出將近6%,而比ME 高出2.8%;在“D+A”特征中,SVM 比NB 高出7.4%,比ME 高出4.2%;在“A”特征中,SVM的分類(lèi)準(zhǔn)確率高于NB3.6%,高于ME1.7%.
表2 不同詞性組合性能比較Tab.2 Performance comparison of different part of speech combination
實(shí)驗(yàn)2 混合特征分析比較
分別采用IG 和MI與各類(lèi)詞性特征組合成混合特征,將基于IG 的三類(lèi)混合特征稱(chēng)為:IG 一類(lèi)混合特征(hfIG(1)),IG 二類(lèi)混合特征(hfIG(2)),IG 三類(lèi)混合特征(hfIG(3)).相應(yīng)地,基于MI的混合特征為:MI一類(lèi)混合特征(hfMI(1)),MI二類(lèi)混合特征(hfMI(2)),MI三類(lèi)混合特征(hfMI(3)).以正面查準(zhǔn)率(PP)、正面召回率(RP)、負(fù)面查準(zhǔn)率(PN)、負(fù)面召回率(RN)和綜合準(zhǔn)確率F為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果如表3 所示.
表3 混合特征性能比較Tab.3 Performance comparison of mixed feature
由表3 可知,
1)在兩種特征選擇方法中,IG 性能優(yōu)于MI.在第一類(lèi)混合特征中,系統(tǒng)的維度較高,hfIG(1)的各項(xiàng)性能指標(biāo)高于hfMI(1);在第二類(lèi)混合特征中,hfIG(2)的性能達(dá)到最優(yōu),其綜合準(zhǔn)確率F為87.1%,而hfMI(2)的 綜 合 準(zhǔn) 確 率F僅 為72.5%;在第三類(lèi)混合特征中,MI的特征選擇性能最差,其F為59.62%.IG 的情感特征提取性能高于MI,主要是由于MI只考慮特征在某一類(lèi)文檔中出現(xiàn)的情況,而不考慮此特征在另外一類(lèi)文檔中沒(méi)有出現(xiàn)的情況.
2)在使用IG 進(jìn)行特征選擇時(shí),hfIG(2)的正面查準(zhǔn)率(PP)、正面召回率(RP)、負(fù)面查準(zhǔn)率(PN)、負(fù)面召回率(RN)和綜合準(zhǔn)確率F最高.hfIG(2)的維數(shù)比hfIG(1)大大地降低,但其綜合準(zhǔn)確率F有所提高,主要是因?yàn)閔fIG(1)是基于“A+D+N”,其中N(名詞)在文檔中所占比重較大,但是其所帶感情色彩較輕,對(duì)情感分類(lèi)的影響較小.而hfIG(2)基于“A+D”,A(形容詞)和D(副詞)對(duì)情感傾向性的影響較大,是有效的情感分類(lèi)特征.
綜上所述,在文本情感分類(lèi)中,特征選擇算法以及特征詞性的選擇對(duì)系統(tǒng)的分類(lèi)準(zhǔn)確率影響較大.
實(shí)驗(yàn)3 聚類(lèi)算法性能分析比較
本實(shí)驗(yàn)主要測(cè)試本文提出的聚類(lèi)算法的性能,分類(lèi)算法采用性能最優(yōu)的SVM.由實(shí)驗(yàn)2 可知,hfIG(2)特征性能最好,因此在本實(shí)驗(yàn)中采用該混合特征.實(shí)驗(yàn)結(jié)果如表4 和圖1 所示.
表4 VSM 文檔聚類(lèi)性能比較Tab.4 Performance comparison of VSM clustering
圖1 VSM 文檔聚類(lèi)曲線(xiàn)Fig.1 Curve of VSM clustering
由表4 可知,本文的算法在聚類(lèi)數(shù)目c=1 500 時(shí),文本情感分類(lèi)的準(zhǔn)確率為89.56%,達(dá)到最佳值.隨著c值的減少,用于訓(xùn)練SVM 的特征向量的數(shù)目也隨之減少,使得SVM 模型的識(shí)別準(zhǔn)確率受到影響.2 400 篇訓(xùn)練文檔經(jīng)過(guò)VSM聚類(lèi)算法,訓(xùn)練樣本數(shù)目減少到1 500,減少了37.5%,既減少了向量的存儲(chǔ)空間,也降低了SVM 訓(xùn)練的計(jì)算復(fù)雜度,勢(shì)必會(huì)提高文本情感分類(lèi)系統(tǒng)的分類(lèi)速度.其分類(lèi)準(zhǔn)確率曲線(xiàn)如圖1 所示.
本文提出了一種基于混合特征向量空間模型聚類(lèi)算法.采用信息增益(IG)和互信息(MI)兩種特征提取方法,與文檔的不同詞性特征相結(jié)合,生成文檔的混合特征向量;根據(jù)文檔向量空間模型之間的差異度,對(duì)相似文檔進(jìn)行聚類(lèi).減少了樣本維度和數(shù)量,解決了SVM 在大規(guī)模數(shù)據(jù)下訓(xùn)練速度慢的問(wèn)題,在保證系統(tǒng)分類(lèi)準(zhǔn)確率的前提下,可以有效地提高系統(tǒng)的分類(lèi)速度,取得了較為理想的實(shí)驗(yàn)結(jié)果.不同詞性特征和混合特征的實(shí)驗(yàn)結(jié)果表明,特征選擇算法以及詞性的選擇對(duì)系統(tǒng)的分類(lèi)準(zhǔn)確率影響較大;聚類(lèi)算法實(shí)驗(yàn)結(jié)果表明,當(dāng)c=500 時(shí),系統(tǒng)的分類(lèi)準(zhǔn)確率達(dá)到了最佳值,此時(shí)訓(xùn)練樣本的數(shù)目有效地減少.因此,本文提出的算法是一種行之有效的方法,為加快文檔情感分類(lèi)提供了一種新途徑.
[1]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834-1848.Zhao Yanyan,Qin Bing,Liu Ting.Sentiment analysis[J].Journal of Software,2010,21(8):1834-1848.(in Chinese)
[2]Duric A,Song F.Feature selection for sentiment analysis based on content and syntax models[J].Decision Support Systems,2012,53(4):704-711.
[3]Salton G,Wang A.Yang C S.A vector space model for automatic indexing[J].Communication of the ACM,1975,18(11):613-620.
[4]Pang B,Lee L,Vaithyanathan S.Thumbs up sentiment classification using machine learning techniques[C].Proceedings of the 2002Conference on Empirical Methods in Natural Language Processing,2002:79-86.
[5]周杰,林琛,李弼程.基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)新聞評(píng)論情感分類(lèi)研究[J].計(jì)算機(jī)應(yīng)用,2010,30(4):1011-1014.Zhou Jie,Lin Chen,Li Bicheng.Research of sentiment classification for netnews comments by machine learning[J].Journal of Computer Applications,2010,30(4):1011-1014.(in Chinese)
[6]Wang Suge,Li Deyu,Song Xiaolei,et al.A feature selection method based on improved fisher's discriminant ratio for text sentiment classification[J].Expert Systems with Application,2011,38(7):8696-8702.
[7]Xia Huosong,Tao Min,Wang Yi.Sentiment text classification of customers reviews on the web based on SVM[C].Proceedings of the 2010Conference on Natural Computation,2010,3633-3637.
[8]Moraes R.Document-level sentiment classification:An empirical comparison between SVM and ANN[J].Expert Systems with Applications,2012,40(2):621-633.
[9]Prabowo R,Thelwall M.Sentiment analysis:A combined approach[J].Journal of Informetrics,2009,3(2):143-157.
[10]王秀娟,鄭康鋒.基于文檔空間向量距離的查詢(xún)擴(kuò)展[J].計(jì)算機(jī)工程,2009,35(18):54-56.Wang Xiujuan,Zheng Kangfeng.Query expansion based on vector distance in documents space[J].Computer Engineering,2009,35(18):54-56.(in Chinese)
[11]徐淑坦.基于改進(jìn)RBF 神經(jīng)網(wǎng)絡(luò)文本情感分類(lèi)研究[D].長(zhǎng)春:吉林大學(xué),2011.
[12]汪正中.基于英文博客空間文本的情感分析研究[D].溫州:溫州大學(xué),2011.
[13]Li Xinwu.A new text clustering algorithm based on improvedK-means[J].Journal of Software,2012,7(1):95-101.
[14]Yang Shu,Yan Shuicheng,Zhang Chao.Bilinear analysis for kernel selection and nonlinear feature extraction[J].Neural Networks,2007,18(5):1442-1452.
[15]昝紅英,郭明,柴玉梅,等.新聞報(bào)道文本的情感傾向性研究[J].計(jì)算機(jī)工程,2010,36(15):20-22.Zan Hongying,Guo Ming,Chai Yumei,et al.Research on news report text sentiment tendency[J].Computer Engineering,2010,36(15):20-22.(in Chinese)