邢玉娟 譚 萍 曹曉麗
(蘭州文理學(xué)院數(shù)字媒體學(xué)院 甘肅 蘭州 730000)
?
基于多約簡Fisher-VSM和SVM的文本情感分類
邢玉娟譚萍曹曉麗
(蘭州文理學(xué)院數(shù)字媒體學(xué)院甘肅 蘭州 730000)
為了提高文本情感分類準(zhǔn)確率,提出基于多約簡Fisher向量空間模型和支持向量機(jī)的文本情感分類算法。該算法首先采用Fisher判別準(zhǔn)則提取TF-IDF特征向量,然后依據(jù)低維文檔向量空間模型間的相似度對文檔進(jìn)行聚類,減少文檔的數(shù)目。該算法從維度和數(shù)量兩個方面對文檔的向量空間模型進(jìn)行約簡,以期提高支持向量機(jī)的訓(xùn)練速度和分類性能。仿真實驗結(jié)果表明,該算法具有良好的召回率和分類準(zhǔn)確率。
文本情感分類Fisher 判別比向量空間模型支持向量機(jī)
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,人們將網(wǎng)絡(luò)作為發(fā)表個人觀點、評價產(chǎn)品和服務(wù)的平臺,相應(yīng)的網(wǎng)絡(luò)文本評論信息呈爆炸式增長。如何對海量的網(wǎng)絡(luò)文本信息進(jìn)行歸納處理,判定其表達(dá)的情感觀點,如肯定和否定,成為當(dāng)前互聯(lián)網(wǎng)智能信息處理的研究熱點。在電影評論、產(chǎn)品質(zhì)量與服務(wù)評價、社會輿情分析、有害信息過濾、Blog評價、新聞報道評述、股票評論、圖書推薦、敵對信息檢測等領(lǐng)域具有廣闊的應(yīng)用前景和市場價值[1]。文本情感分類屬于一種文本分類,它是對文本信息進(jìn)行分析、處理、歸納和推理,從而判定其表達(dá)觀點(肯定/否定)的過程。在文本情感分類中,有效情感特征的選擇以及判別算法的設(shè)計是關(guān)鍵。
基于統(tǒng)計的文本向量空間模型VSM(Vector Space Model)的提出,使得機(jī)器學(xué)習(xí)算法可以廣泛地應(yīng)用于文本情感分類。多種機(jī)器學(xué)習(xí)算法如支持向量機(jī)SVM、經(jīng)典樸素貝葉斯NBve Bayes)、最大熵ME(Maximum Entropy)等廣泛地應(yīng)用于文本情感分類。文獻(xiàn)[2]最早采用NB、ME和SVM對Internet上的電影評論文本進(jìn)行分類,驗證了機(jī)器學(xué)習(xí)算法在文本情感分類中應(yīng)用的可行性。同時實驗結(jié)果表明,SVM具有良好的泛化能力和較高的分類精確率,性能優(yōu)于NB和ME。文獻(xiàn)[3]將形容詞及其修飾詞作為文檔候選特征,建立VSM,并采用SVM進(jìn)行分類,判斷文檔的正面和負(fù)面觀點,獲得了較好的實驗結(jié)果。文獻(xiàn)[4]在情感詞典上選擇和加權(quán)文檔的情感特征,使用SVM判定情感極性。肖正等[5]采用SVM在基于“詞-文檔”的語義距離向量空間上判定文檔情感極性的分類,獲得較高的分類準(zhǔn)確率。楊經(jīng)等[6]采用SVM并結(jié)合詞性特征和語義特征對句子進(jìn)行情感識別和分類。由此可見,SVM作為典型的機(jī)器學(xué)習(xí)方法在文本情感分類中獲得了成功的應(yīng)用。
然而,由于文檔的規(guī)模較大,且VSM的初始特征向量的維數(shù)較大,需要大量的存儲資源和較高的計算復(fù)雜度,在很大程度上影響了SVM的訓(xùn)練速度。因此在基于SVM的文本情感分類中,文本特征向量的選擇和約簡直接影響到系統(tǒng)性能。文獻(xiàn)[7]將文檔頻率加權(quán)方法和信息增益IG(Information Gain)、互信息 MI(Mutual Information)等特征貢獻(xiàn)評估方法相結(jié)合,進(jìn)行高判別性特征的選擇。文獻(xiàn)[8]提出一種基于多重詞典的特征選擇算法,實驗結(jié)果表明,該算法具有良好的性能。Wang等[9]提出一種基于改進(jìn)的Fisher判別比的文本特征選擇方法,通過計算文本特征項詞頻和布爾值的Fisher判別比來衡量特征項的貢獻(xiàn)程度。然而詞頻和布爾值只反映了特征項在所屬文檔出現(xiàn)的次數(shù)或是否出現(xiàn),無法衡量特征項在文檔集上的特性。
在以上研究工作的基礎(chǔ)上,本文提出一種基于多約簡Fisher-VSM和SVM的文本情感分類算法。該算法首先采用Fisher判別準(zhǔn)則剔除VSM中的冗余和噪聲信息,在特征加權(quán)方面采用詞頻-逆文檔頻率法以克服詞頻法和布爾值的缺陷;然后對文檔進(jìn)行相似性聚類。在保證文本特征向量高判別性的前提下,從文檔VSM的維數(shù)以及數(shù)量兩個方面進(jìn)行約簡,以期加快SVM的訓(xùn)練速度,減少SVM的計算復(fù)雜度和空間占用,進(jìn)而提高文本情感分類系統(tǒng)的性能。
1.1向量空間模型
在向量空間模型VSM[2]中,依據(jù)特征項在所屬文檔中的重要程度,將文檔數(shù)字化為一高維向量,每一個特征項對應(yīng)向量的一維。如何衡量特征項的重要程度是文檔向量空間模型建立的關(guān)鍵。常用的特征項權(quán)重計算方法主要有:二值法、絕對詞頻TF(Term Frequency)法、逆文檔頻率IDF(Inverse Document Frequency)法和詞頻-逆文檔頻率TF-IDF(Term Frequency-Inverse Document Frequency)法[10]。二值法是最簡單的權(quán)重計算方法,反映特征項是否在文檔中出現(xiàn);絕對詞頻法主要反映特征項在文檔中出現(xiàn)的次數(shù),是一種局部文本信息加權(quán)方法;逆文檔頻率法反映該特征出現(xiàn)文檔的數(shù)目,是一種全局信息加權(quán)方法;TF-IDF法既考慮到了文本信息的局部特性,同時也兼顧了特征項的全局特征[11],是目前使用最為廣泛的文檔特征加權(quán)方法,其計算公式如下:
(1)
其中di表示含有N個文檔的文檔集D={D1,D2,…,DN}中第i篇文本Di的數(shù)字化向量,di=(w1,i,w2,i,…,wn,i),wji(j=1,2,…,n)表示文檔Di中出現(xiàn)特征項tj的權(quán)重,n表示特征項的個數(shù)。
1.2支持向量機(jī)
支持向量機(jī)[12]是基于結(jié)構(gòu)風(fēng)險最小化原則在兩類中尋找最優(yōu)分類邊界,在數(shù)據(jù)分類方面顯示了優(yōu)越的性能。它的基本原理是首先通過非線性變換將輸入空間映射到一個高維特征空間,然后根據(jù)核函數(shù)在這個新空間中求取最優(yōu)線性分類平面。支持向量機(jī)由于具有較高的分類精確率和召回率,且具有較好的穩(wěn)定性,被廣泛地應(yīng)用于文本分類中。并且支持向量機(jī)的分類超平面有效地克服了特征冗余、樣本分布以及過擬合等因素的影響,具有較好的泛化能力。然而,它在大數(shù)據(jù)集上訓(xùn)練收斂速度較慢,并需要大量的存儲資源和較高的計算復(fù)雜度。采用輸入向量進(jìn)行SVM的訓(xùn)練,可得到?jīng)Q策分類函數(shù):
(2)
(3)
文檔的VSM維數(shù)較高,且包含大量的噪聲信息和冗余信息。為了更好地選擇高判別性的低維文檔特征向量,減少相似文檔對分類算法的影響,本文提出多約簡Fisher判別性向量空間模型Fisher-VSM,并采用SVM判定文檔的觀點。本文提出的文本情感分類系統(tǒng)框圖如圖1所示。
圖1 基于多約簡Fisher-VSM和SVM的文本情感分類系統(tǒng)框圖
由圖1可知,本文提出的算法主要包括文檔VSM維度約簡和文檔VSM聚類兩個方面。由于文檔的TF-IDF權(quán)特征不僅考慮到特征項在所屬文檔中的特性,同時也兼顧特征項在整體文檔集中的分布情況,具有比二值法、詞頻法和逆文檔頻率法更優(yōu)的分類特性。因此,本文提出采用Fisher 判別準(zhǔn)則選擇高判別性的低維的文檔TF-IDF特征。
2.1低維Fisher-VSM
Fisher判別準(zhǔn)則[13]的基本原理是通過尋找特征向量的投影空間,使得特征向量在該投影空間的分離度最大。它在去除噪聲特征以及判別性能較差的特征和去除冗余特征方面具有良好的性能[14]。
(4)
(5)
(6)
(7)
則tk的Fisher判別比值為:
(8)
其中:
(9)
(10)
將式(9)和式(10)代入式(8)即可計算特征項tk的Fisher比值,該公式的計算復(fù)雜度為O(m+n)。F(tk)值越大,表明該特征項對分類的貢獻(xiàn)越大。因此,可根據(jù)該公式分別對文檔集中的特征項計算其Fisher判別比值,并由大到小排序,選擇值最大的前q個特征項構(gòu)建文檔Fisher判別性VSM(Fisher-VSM)。
2.2Fisher-VSM聚類
本文在K-均值聚類算法的啟發(fā)下,提出Fisher-VSM聚類算法。該算法在采用Fisher準(zhǔn)則得到的約簡向量集上,以文檔間的差異度作為相似文檔的衡量標(biāo)準(zhǔn),對文檔集進(jìn)行聚類,以減少文檔集的規(guī)模,進(jìn)一步加快SVM的訓(xùn)練速度。同時,為了加快聚類算法的收斂速度,采用粒子群算法[15]全局搜索最優(yōu)聚類中心。本文算法區(qū)別于K-均值聚類算法的優(yōu)點是:原始數(shù)據(jù)集經(jīng)過了Fisher降維處理,且采用粒子群確定聚類中心,聚類算法收斂速度較快、計算復(fù)雜度低。
(11)
在本文的聚類算法中,假設(shè)初始化m個粒子群,則第i個粒子的位置為xi=(xi,1,xi,2,…,xi,q),速度為vi=(vi,1,vi,2,…,vi,q)。種群的個體極值為pi=(pi,1,pi,2,…,pi,q),全局極值為g=(g1,g2,...,gq)。粒子的速度和位置更新公式為:
vi=ωvi+c1·r1()·(pi-xi)+c2r2()·(g-xi)
(12)
xi=xi+vi
(13)
其中,r1()和r2()是分布在[0,1]之間的隨機(jī)數(shù);c1和c2是加速常數(shù),本文取值為2;ω為慣性權(quán)值,用于平衡全局搜索和局部搜索。
Fisher-VSM聚類算法的具體步驟如下:
Step1設(shè)定聚類的類別數(shù)為C,隨機(jī)指定C個文檔的Fisher-VSM作為最初聚類中心,將各類的聚類中心作為粒子的初始位置,計算粒子的適應(yīng)度,初始化粒子速度,反復(fù)進(jìn)行m次,生成m個初始粒子群;Rs=0(s=1,2,…,C)用于記錄屬于當(dāng)前類別s的文檔的數(shù)目。
Step2將當(dāng)前位置設(shè)置為個體極值位置,當(dāng)前位置的適應(yīng)度為個體極值,并根據(jù)各個粒子的個體極值找出全局極值和全局極值位置,調(diào)節(jié)ω的值。
Step3根據(jù)式(12)和式(13)更新粒子的位置和速度。
Step4在當(dāng)前位置對文檔特征向量進(jìn)行聚類
Step4.2選擇與聚類中心差異度最小的文檔劃分到相應(yīng)的類中,Rs=Rs+1,重新計算文檔聚類中心模型Ms。
Step5重復(fù)執(zhí)行Step2至Step5,直到聚類中心向量不再變化為止。
3.1實驗語料庫
實驗語料庫采用譚松波博士收集整理的中文語料庫中的酒店評論數(shù)據(jù)[16],隨機(jī)選取數(shù)據(jù)中正面和負(fù)面各1200篇,總共2400篇評論用于模型的訓(xùn)練,選取正負(fù)各800篇,總共1600篇用于測試。通過ICTCLAS漢語分析系統(tǒng)對所有的語料文本進(jìn)行分詞,標(biāo)記詞性,選擇具有較重感情色彩的名詞、形容詞和副詞作為候選特征項。性能衡量標(biāo)準(zhǔn)為分類準(zhǔn)確率(CR)、正面查準(zhǔn)率(PP)、正面召回率(RP)、負(fù)面查準(zhǔn)率(PN)、負(fù)面召回率(RN)正面綜合準(zhǔn)確率(FP)和負(fù)面綜合準(zhǔn)確率(FN),計算公式[11]如下:
(14)
(15)
(16)
(17)
(18)
(19)
其中,aP表示正面文本中正確分類的文本數(shù),aN表示負(fù)面文本中正確分類的文本數(shù);bP表示分類為正面的文本數(shù),bN表示分類為負(fù)面的文本數(shù);cP表示正面文本數(shù),cN表示負(fù)面文本數(shù)。
3.2實驗結(jié)果及分析
實驗1:SVM分類性能測試分析
該實驗測試SVM、經(jīng)典樸素貝葉斯NB和最大熵三種經(jīng)典機(jī)器學(xué)習(xí)方法對文本情感分類性能的影響,采用TF-IDF函數(shù)為特征加權(quán)。實驗結(jié)果如表1和圖2所示。
表1 不同分類算法性能比較
圖2 不同分類算法性能比較
由表1可知,在三種分類算法中,SVM的正確分類準(zhǔn)確率最高為88.87%,相比于NB分類準(zhǔn)確率提高了13.68%,相比于ME提高了將近25個百分點。因此,SVM在文本情感分類中,具有良好的分類性能。
實驗2:特征權(quán)重實驗
該實驗分別采用二值法、詞頻法、IDF法和TF-IDF法對文檔的特征項加權(quán),測試這四種特征加權(quán)方法對情感分類的影響,采用SVM判別文本觀點。實驗結(jié)果如表2所示。
表2 不同權(quán)重特征Fisher特征選擇性能比較
在這四種特征加權(quán)方法中,TF-IDF的性能最高,其分類準(zhǔn)確率為82.74%,相比于二值法提高了將近20%,相比于詞頻法提高了8.3%,相比于IDF法提高了2.99%。這主要是由于TF-IDF在特征項加權(quán)中綜合考慮特征項局部信息和全局信息,而其他三種方法各有偏重,因此分類準(zhǔn)確率較低。
實驗3: Fisher特征選擇分析比較
該實驗采用Fisher準(zhǔn)則提取低維高判別性TF-IDF特征,標(biāo)記為tFisher,原始TF-IDF特征標(biāo)記為tOrginal,進(jìn)行對比分析,測試Fisher特征選擇對文本情感分類的影響。實驗結(jié)果如表3所示。
表3 Fisher特征選擇性能比較
由表3可知:基于Fisher特征選擇的TF-IDF權(quán)重特征的各項性能指標(biāo)均高于原始TF-IDF特征,其FP=89.25%,F(xiàn)N=89.00%,且整體分類準(zhǔn)確率達(dá)到了89.13%,相比于原始TF-IDF特征分類準(zhǔn)確率提高了6.39%。在特征空間維數(shù)約簡方面,原始TF-IDF的維數(shù)為9483, Fisher準(zhǔn)則將其約簡為5216,特征維度約簡率為44.7%。因此,F(xiàn)isher準(zhǔn)則可以有效地提取低維的高判別性特征向量,提高SVM的分類性能,是一種有效的特征選擇方法。
實驗4:Fisher-VSM聚類算法分析
本實驗主要測試Fisher-VSM聚類算法的性能。首先測試Fisher-VSM在不同聚類數(shù)目K情況下的性能,實驗結(jié)果如表4和圖3所示。緊接著將Fisher-VSM聚類算法與原始TF-IDF特征構(gòu)成的VSM聚類進(jìn)行對比分析,實驗結(jié)果如表5所示。
表4 Fisher-VSM聚類性能分析比較
圖3 Fisher-VSM聚類性能分析比較
聚類算法PP(%)RP(%)FP(%)PN(%)RN(%)FN(%)CR(%)Fisher?VSM(K=1500)93.9892.8193.3992.6393.8293.2293.31VSM(K=1500)86.2480.6083.3279.2485.2182.1182.74
由表4可知,當(dāng)聚類數(shù)目設(shè)置為1500時,系統(tǒng)的分類準(zhǔn)確率達(dá)到最佳,其分類準(zhǔn)確率為93.31%。而隨著聚類數(shù)目的減少,系統(tǒng)的分類性能急劇下降,主要是由于訓(xùn)練樣本規(guī)模的減少,使得SVM出現(xiàn)訓(xùn)練不足的問題。然而,若K的值較大,雖然解決了訓(xùn)練數(shù)據(jù)不足的問題,但是大量相似數(shù)據(jù)的存在,影響了SVM的訓(xùn)練速度及分類準(zhǔn)確率。因此,文檔聚類數(shù)目K=1 500是系統(tǒng)的最佳值。系統(tǒng)的訓(xùn)練文檔由2400篇減少到了1 500篇,數(shù)目約簡率為37.5%,同時系統(tǒng)的分類準(zhǔn)確率相比聚類前提高了4.18%。本文提出的Fisher-VSM聚類算法有助于SVM性能的提高,同時可以有效地節(jié)約存儲空間。
由表5可知,在最優(yōu)聚類數(shù)目K=1500情況下,本文提出的Fisher-VSM聚類算法相比于VSM聚類算法,其分類準(zhǔn)確率提高了10.57%。因此,本文提出的聚類算法具有較好的性能。
本文提出一種基于多約簡Fisher-VSM和SVM的文本情感分類算法。借助于TF-IDF權(quán)重函數(shù)兼顧文檔特征項局部和全局分布信息的優(yōu)勢,采用Fisher準(zhǔn)則選擇高判別性的低維的TF-IDF特征,降低文檔的維度,建立低維Fisher-VSM。根據(jù)Fisher-VSM之間的相似度,對文檔模型進(jìn)行聚類,從而減少文檔集的數(shù)量。從文檔的維數(shù)及數(shù)量兩個方面的約簡,提高了SVM的分類性能和訓(xùn)練速度。實驗結(jié)果表明,本文提出的算法維度約簡率為44.7%,文檔數(shù)目約簡率為37.5%,其分類準(zhǔn)確率為93.31%,是一種可行的高效的文本情感分類算法。高效準(zhǔn)確的文本評論觀點的判定,有利于決策支持。本文提出的多約簡文本聚類算法,不僅有利于SVM的訓(xùn)練,也適用于其他分類方法,期望對機(jī)器學(xué)習(xí)算法在文本情感分類領(lǐng)域的應(yīng)用有所借鑒。
[1] 樊小超.基于機(jī)器學(xué)習(xí)的中文文本主題分類及情感分類研究[D].南京理工大學(xué),2014.
[2] Pang B,Lee L,Vaithyanathan S.Thumbs up? Sentiment classification using machine learning techniques[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing,Philadelphia,2002:79-86.
[3] Whitelaw C,Garg N,Argamon S.Using appraisal groups for sentiment analysis[C]//Proceedings of the ACM Conference on Information and Knowledge Management,Bremen(DE),2005:625-631.
[4] 陳培文,傅秀芬.采用SVM方法的文本情感極性分類研究[J].廣東工業(yè)大學(xué)學(xué)報,2014,31(3):95-101.
[5] 肖正,劉輝,李兵.一種基于語義距離的Web評論SVM情感分類方法[J].計算機(jī)科學(xué),2014,41(9):248-252,284.
[6] 楊經(jīng),林世平.基于SVM的文本詞句情感分析[J].計算機(jī)應(yīng)用與軟件,2011,28(9):225-228.
[7] 周城,葛斌,唐九陽,等.基于相關(guān)性和冗余度的聯(lián)合特征選擇方法[J].計算機(jī)科學(xué),2012,39(4):181-184.
[8] 朱艷輝,栗春亮,徐葉強,等.一種基于多重詞典的中文文本情感特征抽取方法[J].湖南工業(yè)大學(xué)學(xué)報,2011,25(2):42-46.
[9] Wang Suge,Li Deyu,Song Xiaolei,et al.A feature selection method based on improved fisher’s discriminant ratio for text sentiment classification[J].Expert Systems with Applications,2011,38(7):8696-8702.
[10] 孫勁光,馬志芳,孟祥福.基于情感詞屬性和云模型的文本情感分類方法[J].計算機(jī)工程,2013,39(12):211-215,222.
[11] 王素格.基于web的評論文本情感分類問題研究[D].上海大學(xué),2008.
[12] 谷文成,柴寶仁,韓俊松.基于支持向量機(jī)的垃圾信息過濾方法[J].北京理工大學(xué)學(xué)報,2013,33(10):1062-1066,1071.
[13] 張璇.基于 Fisher 準(zhǔn)則的說話人識別特征參數(shù)提取研究[D].湖南大學(xué),2013.
[14] 王颯,鄭鏈.基于Fisher準(zhǔn)則和特征聚類的特征選擇[J].計算機(jī)應(yīng)用,2007,27(11):2812-2813,2840.
[15] 劉靖明,韓麗川,侯立文.基于粒子群的K均值聚類算法[J].系統(tǒng)工程理論與實踐,2005,25(6):54-58.
[16] 譚松波.中文情感挖掘語料-ChnSentiCorp [EB/OL].[2012-08-10].http://www.searchforum.org.cn/tansongbo/corpus-senti.htm.
TEXT SENTIMENT CLASSIFICATION BASED ON MULTI-REDUCED FISHER-VSM AND SVM
Xing YujuanTan PingCao Xiaoli
(School of Digital Media,Lanzhou University of Arts and Science,Lanzhou 730000,Gansu,China)
We propose a novel text sentiment classification algorithm in this paper,it is based on multi-reduced Fisher-VSM and SVM,to improve the accuracy of text sentiment classification.The algorithm first adopts Fisher’s discriminant criterion to extract TF-IDF eigenvector,and then clusters the documents according to the similarity between vector space models of low-dimension documents so as to reduce their numbers.The algorithm makes reduction on vector space model of documents from two aspects of dimensionality and number so as to improve the training speed and classification performance of SVM.Simulation experimental results demonstrate that the proposed algorithm has good recall ratio and classification accuracy.
Text sentiment classificationFisher discriminant ratioVector space model (VSM)Support vector machine (SVM)
2015-04-27。邢玉娟,副教授,主研領(lǐng)域:文本情感分類。譚萍,副教授。曹曉麗,講師。
TP181
A
10.3969/j.issn.1000-386x.2016.09.070