于海燕,陳麗如,鄭文斌
(中國(guó)計(jì)量大學(xué) 信息工程學(xué)院,浙江 杭州 310018)
?
基于核超限學(xué)習(xí)機(jī)的中文文本情感分類(lèi)
于海燕,陳麗如,鄭文斌
(中國(guó)計(jì)量大學(xué) 信息工程學(xué)院,浙江 杭州 310018)
【摘要】針對(duì)傳統(tǒng)情感分類(lèi)算法存在的參數(shù)學(xué)習(xí)困難及分類(lèi)性能較低等問(wèn)題,提出了一種基于核超限學(xué)習(xí)機(jī)的中文文本情感分類(lèi)方法.首先通過(guò)信息增益對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行特征選擇以降低輸入維數(shù),然后通過(guò)構(gòu)建基于小波核超限學(xué)習(xí)機(jī)的分類(lèi)器實(shí)現(xiàn)對(duì)中文文本的情感分類(lèi).實(shí)驗(yàn)結(jié)果表明,新方法參數(shù)學(xué)習(xí)容易,且其文本情感分類(lèi)性能通常優(yōu)于支持向量機(jī)和樸素貝葉斯.
【關(guān)鍵詞】核超限學(xué)習(xí)機(jī);情感分類(lèi);中文文本
隨著科學(xué)技術(shù)的發(fā)展,互聯(lián)網(wǎng)越來(lái)越普及,Web2.0給人們帶來(lái)了很大的互動(dòng)性,人們不僅可以閱讀網(wǎng)頁(yè),而且還可以在網(wǎng)上對(duì)商品的滿意度、當(dāng)下熱點(diǎn)話題、時(shí)事政治等發(fā)表自己的觀點(diǎn)和表明態(tài)度.商業(yè)公司、用戶等迫切需要計(jì)算機(jī)能夠有效地判斷這些觀點(diǎn)和態(tài)度的情感傾向性,以幫助他們做出正確的決策.文本情感分類(lèi)獲得越來(lái)越多的關(guān)注.
情感分類(lèi)主要是判斷文本的情感傾向性,即褒貶性[1-3].當(dāng)前研究使用的技術(shù)主要分為兩大類(lèi):一類(lèi)是基于詞典的方法[4,5],通過(guò)構(gòu)建情感詞典,并計(jì)算情感文本中正負(fù)情感詞的個(gè)數(shù)以實(shí)現(xiàn)情感分類(lèi);另一類(lèi)是基于機(jī)器學(xué)習(xí)的方法[1,6,7],如:樸素貝葉斯[8](Naive Bayes,NB)、支持向量機(jī)[9](Support Vector Machine,SVM)等.當(dāng)前很多研究結(jié)果表明,基于機(jī)器學(xué)習(xí)的方法比基于詞典的方法性能好[1,2].然而,這些方法仍然存在一些問(wèn)題,如:NB完全忽略了特征項(xiàng)之間的聯(lián)系[10],而文本特征間明顯存在關(guān)聯(lián);SVM分類(lèi)模型性能較好,但是其參數(shù)學(xué)習(xí)比較困難[11].
近年來(lái),黃廣斌等提出了一種新的學(xué)習(xí)算法即超限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)[12],它是一種單隱藏層前饋神經(jīng)網(wǎng)絡(luò),可以解析求出網(wǎng)絡(luò)的輸出權(quán)值,具有學(xué)習(xí)速度快、外權(quán)求解全局最優(yōu)等特點(diǎn).但是,ELM的隱藏層輸入權(quán)值隨機(jī)產(chǎn)生,使得最終結(jié)果帶有一定的隨機(jī)性.Huang等[13]通過(guò)進(jìn)一步研究,對(duì)比ELM與SVM的建模和求解過(guò)程,提出了核超限學(xué)習(xí)機(jī)(Kernel Extreme Learning Machine,KELM)算法,其可調(diào)參數(shù)少、性能穩(wěn)定,且核函數(shù)的引入使非線性映射隱含在線性學(xué)習(xí)器中同步進(jìn)行,有利于學(xué)習(xí)速度進(jìn)一步提高.
本文提出一種基于KELM的中文文本情感分類(lèi)方法:首先采用信息增益實(shí)現(xiàn)情感文本的特征選擇以降低輸入維度,從而降低KELM的網(wǎng)絡(luò)規(guī)模.之后根據(jù)KELM網(wǎng)絡(luò)特點(diǎn)設(shè)計(jì)分類(lèi)器并實(shí)現(xiàn)情感分類(lèi).主要貢獻(xiàn)有:1)探索基于KELM的分類(lèi)器實(shí)現(xiàn)文本情感分類(lèi)的可行性;2)探索KELM相關(guān)參數(shù)對(duì)分類(lèi)器性能的影響;3)將KELM與流行的相關(guān)分類(lèi)模型進(jìn)行性能比較.
本文其他章節(jié)安排如下:第1節(jié)介紹了基于核超限學(xué)習(xí)機(jī)的情感分類(lèi)的具體實(shí)現(xiàn);第2節(jié)呈現(xiàn)了相關(guān)實(shí)驗(yàn)結(jié)果及實(shí)驗(yàn)分析;第3節(jié)給出相應(yīng)總結(jié)及展望.
1基于KELM的中文文本情感分類(lèi)實(shí)現(xiàn)
1.1文本表示及特征選擇
本文采用TF-IDF[14]方法實(shí)現(xiàn)文本的特征表示.TF-IDF特征權(quán)值不但考慮了特征項(xiàng)在每篇文檔中出現(xiàn)的次數(shù),而且還考慮了特征項(xiàng)在整個(gè)數(shù)據(jù)集中的情況,其基本公式為
TF-IDF(ti,d)=tf(ti,d)×idf(ti).
(1)
其中,t和d分別表示特征項(xiàng)和文檔,tf(ti,d)是特征項(xiàng)ti在文檔d中出現(xiàn)的次數(shù),idf(ti)是逆文檔頻率,idf(ti)=log(N/df(ti)),N是指訓(xùn)練集中總的文檔數(shù),df(ti)指訓(xùn)練集中包含ti的文檔數(shù).
將TF-IDF特征權(quán)值歸一化如式(2),這樣可以消除不同文檔長(zhǎng)度的影響.
(2)
其中,n是特征空間的維數(shù),wi是文檔d中特征項(xiàng)ti的權(quán)值.
由于文本特征維數(shù)較高,特別是中文文本在分詞后特征維數(shù)很高,所以需要特征選擇以提高分類(lèi)的效率.本文采用具有較好性能的信息增益[15]進(jìn)行文本特征選擇,其計(jì)算公式為
(3)
其中,c表示情感類(lèi)別,P(t,c)表示特征項(xiàng)和類(lèi)別的共現(xiàn)概率.
1.2分類(lèi)模型實(shí)現(xiàn)
(4)
其中,
(5)
(6)
(7)
(8)
其中,
(9)
(10)
K(xi,xj)是核函數(shù)的形式,常用的核函數(shù)有多項(xiàng)式核函數(shù)、高斯徑向基核函數(shù)、線性核函數(shù)、小波核函數(shù)等.
1.3算法描述
基于核超限學(xué)習(xí)機(jī)的中文文本情感分類(lèi)的具體算法流程如下.
輸出:測(cè)試樣本類(lèi)別標(biāo)簽c;
1)對(duì)訓(xùn)練樣本與測(cè)試樣本分別進(jìn)行分詞、去停用詞;
2)通過(guò)公式(3)計(jì)算訓(xùn)練樣本初始特征的信息增益,按信息增益從大到小的順序選取前n維特征作為文本特征向量,n為預(yù)選取的特征維數(shù);
2實(shí)驗(yàn)
實(shí)驗(yàn)中所采用的計(jì)算機(jī)配置環(huán)境為:處理器為Intel(R)Core(TM)i3-4150CPU@3.50GHz,內(nèi)存為4GB,操作系統(tǒng)為Windows7.計(jì)算軟件是MATLAB7.11.0(R2010b);SVM分類(lèi)算法調(diào)用的是LIBSVM工具箱*http://www.csie.ntu.edu.tw/~cjlin/libsvm/.
2.1數(shù)據(jù)集與預(yù)處理
本文采用了兩個(gè)領(lǐng)域的語(yǔ)料集:書(shū)籍(BOOK)評(píng)論、筆記本(NOTEBOOK)評(píng)論,均來(lái)源于譚松波博士搜集整理的中文文本語(yǔ)料*http://www.datatang.com/datares/go.aspx?dataid=605301.實(shí)驗(yàn)中每個(gè)數(shù)據(jù)集選用正負(fù)向文本各1 000篇.
預(yù)處理過(guò)程中,首先對(duì)情感文本進(jìn)行分詞并去除停用詞.分詞調(diào)用的是NLPIR2015漢語(yǔ)分詞系統(tǒng)中的開(kāi)源代碼*http://ictclas.nlpir.org/.然后進(jìn)行特征選擇,構(gòu)造特征向量空間.
2.2性能評(píng)價(jià)
在實(shí)際的情感分類(lèi)系統(tǒng)中,不僅需要考慮分類(lèi)的準(zhǔn)確率,而且還要考慮計(jì)算成本.本文從準(zhǔn)確率(Accuracy)、訓(xùn)練時(shí)間(TrainingTime)、測(cè)試時(shí)間(TestingTime)等多角度評(píng)價(jià)分類(lèi)系統(tǒng).其中準(zhǔn)確率為情感分類(lèi)正確的文本數(shù)與總的文本數(shù)的百分比;訓(xùn)練時(shí)間和測(cè)試時(shí)間主要是針對(duì)分類(lèi)算法的訓(xùn)練和測(cè)試過(guò)程,不包含前期的預(yù)處理過(guò)程.
2.3實(shí)驗(yàn)結(jié)果與分析
為能夠客觀評(píng)價(jià)分類(lèi)器性能,實(shí)驗(yàn)結(jié)果中采用5折交叉驗(yàn)證取平均值的方法.分類(lèi)器輸入特征維數(shù)在50維到4 000維之間進(jìn)行取值.分類(lèi)算法有NB、SVM和KELM,后兩種算法都會(huì)涉及到參數(shù)的選擇,支持向量機(jī)需要選擇的是懲罰因子和核參數(shù),核超限學(xué)習(xí)機(jī)需要選擇核參數(shù)和正則化參數(shù).實(shí)驗(yàn)中用網(wǎng)格交叉驗(yàn)證法選擇各算法的相關(guān)參數(shù).
核超限學(xué)習(xí)機(jī)中的核函數(shù)有多項(xiàng)式核函數(shù)、高斯徑向基核函數(shù)、線性核函數(shù)、小波核函數(shù)等.其中,小波核函數(shù)中的小波函數(shù)選用的是morlet小波函數(shù),則小波核函數(shù)為
exp(-(xi-xi′)2/2a2)].
(11)通過(guò)對(duì)比以上四種核函數(shù)的性能,選取最優(yōu)核函數(shù).
圖1、2對(duì)比了四種核函數(shù)在兩個(gè)數(shù)據(jù)集上的分類(lèi)性能.從圖中可以看出小波核函數(shù)(wavelet-kernel)的性能在大部分情況下都優(yōu)于其他三個(gè)核函數(shù).維數(shù)大于等于1 000維時(shí),小波核函數(shù)的性能保持不變或有所提高,且基本上均優(yōu)于其它核函數(shù).整體上,在3 000維到4 000維時(shí)性能要優(yōu)于其他維數(shù)時(shí)的性能.根據(jù)此實(shí)驗(yàn)結(jié)果,接下來(lái)的實(shí)驗(yàn)中采用小波核作為核超限學(xué)習(xí)機(jī)的核函數(shù).
圖1 BOOK數(shù)據(jù)集上四種核函數(shù)的性能對(duì)比Figure 1 Performance comparison of the four kernel functions on the BOOK data set
圖2 NOTEBOOK數(shù)據(jù)集上四種核函數(shù)的性能對(duì)比Figure 2 Performance comparison of the four kernel functions on the NOTEBOOK data set
圖3、4分別給出了KELM的參數(shù)在BOOK和NOTEBOOK數(shù)據(jù)集上的一個(gè)網(wǎng)格交叉驗(yàn)證結(jié)果.可以看出正則化參數(shù)C對(duì)性能的影響要弱于核參數(shù).從整體上看,當(dāng)C較大時(shí),KELM對(duì)核參數(shù)的選擇并不敏感.這有利于方便高效地選擇核參數(shù).
圖3 KELM的參數(shù)在BOOK數(shù)據(jù)集上的一個(gè)網(wǎng)格交叉驗(yàn)證結(jié)果Figure 3 Grid cross validation of the KELM parameters on the BOOK data set
圖4 KELM的參數(shù)在NOTEBOOK數(shù)據(jù)集上的一個(gè)網(wǎng)格交叉驗(yàn)證結(jié)果Figure 4 Grid cross validation of the KELM parameters on the NOTEBOOK data set
表1和表2分別給出了KELM、SVM、NB三種分類(lèi)模型在BOOK和NOTEBOOK數(shù)據(jù)集上的分類(lèi)準(zhǔn)確率.可以看出KELM的準(zhǔn)確率通常優(yōu)于SVM,隨著維數(shù)的升高,這種差距越明顯.而NB分類(lèi)模型的準(zhǔn)確率較低,雖然其性能隨著特征維數(shù)的增加也增加,但是依然低于KELM.
表1、2均反映出KELM在高維情況下的性能仍然穩(wěn)定,而且其準(zhǔn)確率隨特征維度的升高而升高.但是在4 000維時(shí)略微有所下降,這說(shuō)明特征維數(shù)并不是越高越好,因?yàn)榫S數(shù)過(guò)高容易引入較多的噪聲特征.
表1 不同分類(lèi)模型在BOOK數(shù)據(jù)集上的準(zhǔn)確率對(duì)比
表2 不同分類(lèi)模型在NOTEBOOK數(shù)據(jù)集上的準(zhǔn)確率對(duì)比
圖5、6分別給出了三種分類(lèi)模型在BOOK數(shù)據(jù)集上的訓(xùn)練時(shí)間和測(cè)試時(shí)間.從圖5中可以看出KELM在保證取得較高分類(lèi)準(zhǔn)確率的情況下,其訓(xùn)練時(shí)間接近SVM快于NB.在測(cè)試階段,KELM所需的時(shí)間低于SVM,NB算法的測(cè)試時(shí)間雖然很短,但是其分類(lèi)精度較低.綜合起來(lái),KELM的整體性能優(yōu)于其他兩種算法.
圖5 BOOK數(shù)據(jù)集上各分類(lèi)模型的訓(xùn)練時(shí)間對(duì)比 Figure 5 Training time comparison of the different classification models on the BOOK data set
圖6 BOOK數(shù)據(jù)集上各分類(lèi)模型的測(cè)試時(shí)間對(duì)比 Figure 6 Testing time comparison of the different classification models on the BOOK data set
3總結(jié)與展望
本文提出了一種基于KELM的中文文本情感分類(lèi)方法,探索了核參數(shù)以及正則化參數(shù)的選擇變化對(duì)系統(tǒng)性能的影響.進(jìn)一步對(duì)比了KELM與SVM、NB在不同輸入維數(shù)下的分類(lèi)準(zhǔn)確率以及訓(xùn)練時(shí)間和分類(lèi)時(shí)間.實(shí)驗(yàn)表明:當(dāng)正則化參數(shù)較大時(shí),小波核超限學(xué)習(xí)機(jī)對(duì)核參數(shù)的選擇并不敏感,有利于方便高效地學(xué)習(xí)參數(shù).在分類(lèi)性能方面,KELM的準(zhǔn)確率一般優(yōu)于SVM和NB,其所需的訓(xùn)練時(shí)間和測(cè)試時(shí)間也較少.因此KELM的整體性能優(yōu)于其他兩種算法.在將來(lái)的工作中,將研究如何有效降低特征的維度,以進(jìn)一步減少核函數(shù)矩陣的計(jì)算花銷(xiāo)以及如何進(jìn)一步優(yōu)化小波核函數(shù),以獲得更好的中文文本情感分類(lèi)性能.
【參考文獻(xiàn)】
[1]PANG B, LEE L, VAITHYANATHAN S. Thumbs up: sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: Association for Computational Linguistics,2002:79-86.
[2]TAN S, ZHANG J. An empirical study of sentiment analysis for Chinese documents[J]. Expert Systems with Applications,2008,34(4):2622-2629.
[3]王素格,李德玉,魏英杰.基于賦權(quán)粗糙隸屬度的文本情感分類(lèi)方法[J].計(jì)算機(jī)研究與發(fā)展,2015,48(5):855-861.
WANG Suge, LI Deyu, WEI Yingjie. A method of text sentiment classification based on weighted rough membership[J]. Journal of Computer Research and Development,2015,48(5):855-861.
[4]ANDREEVSKAIA A, BERGLER S. Mining WordNet for a fuzzy sentiment: sentiment tag extraction from WordNet glosses[C]// Proceedings EACL-06, the 11th Conference of the European Chapter of the Association for Computational Linguistics. Trento, Italy: EACL,2006:209-216.
[5]KENNEDY A, INKPEN D. Sentiment classification of movie reviews using contextual valence shifters[J]. Computational Intelligence,2006,22(2):110-125.
[6]葉佳駿,馮俊,任歡,等.IG-RS-SVM的電子商務(wù)產(chǎn)品質(zhì)量輿情分析研究[J].中國(guó)計(jì)量學(xué)院學(xué)報(bào),2015,26(3):285-290.
YE Jiajun, FENG Jun, REN Huan, et al. Analysis of pubilic opinon on E-commerce product quality based on IG-RS-SVM[J]. Journal of China University of Metrology,2015,26(3):285-290.
[7]CHEN P, FU X, TENG S, et al. Research on micro-blog sentiment polarity classification based on SVM[M]. Switzerland: Springer International Publishing,2015:392-404.
[8]MCCALLUM A, NIGAM K. A comparison of event models for naive bayes text classification[C]//AAAI-98 Workshop on Learning for Text Categorization. USA: AAAI,1998:41-48.
[9]GODBOLE S, SARAWAGI S, CHAKRABARTI S. Scaling multi-class support vector machines using inter-class confusion[C]//Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.USA:ACM,2002:513-518.
[10]LU S H, CHIANG D A, KEH H C, et al. Chinese text classification by the Naive Bayes classifier and the associative classifier with multiple confidence threshold values[J]. Knowledge-Based Systems,2010,23(6):598-604.
[11]祁亨年.支持向量機(jī)及其應(yīng)用研究綜述[J].計(jì)算機(jī)工程,2004,30(10):6-9.
QI Hengnian. Support vector machines and application research overview[J]. Computer Engineering,2004,30(10):6-9.
[12]HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: a new learning scheme of feedforward neural networks[C]//2004 IEEE International Joint Conference on Neural Networks. America: IEEE,2004:985-990.
[13]HUANG G B, ZHOU H, DING X, et al. Extreme learning machine for regression and multi-class classification[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics),2011,42(2):513-529.
[14]SALTON G, BUCKLEY C. Term-weighting approaches in automatic text retrieval[J]. Information Processing & Management,1988,24(5):513-523.
[15]LEE C, LEE G G. Information gain and divergence-based feature selection for machine learning-based text categorization[J]. Information Processing & Management,2006,42(1):155-165.
【文章編號(hào)】1004-1540(2016)02-0228-06
DOI:10.3969/j.issn.1004-1540.2016.02.018
【收稿日期】2015-12-30《中國(guó)計(jì)量學(xué)院學(xué)報(bào)》網(wǎng)址:zgjl.cbpt.cnki.net
【基金項(xiàng)目】國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61272315,11391240180),浙江省自然科學(xué)基金資助項(xiàng)目(No.LY14F020041,LY15A020003).
【作者簡(jiǎn)介】于海燕(1991-),女,河南省南陽(yáng)人,碩士研究生,主要研究領(lǐng)域?yàn)槲谋厩楦蟹诸?lèi).E-mail:diyyhy@163.com 通信聯(lián)系人:鄭文斌,男,副教授.E-mail:zwb@zju.edu.cn
【中圖分類(lèi)號(hào)】TP391
【文獻(xiàn)標(biāo)志碼】A
Chinese text sentiment classification based on kernel extreme learning machines
YU Haiyan, CHEN Liru, ZHENG Wenbin
(College of Information Engineering, China Jiliang University, Hangzhou 310018, China)
Abstract:Aiming at the disadvantages of traditional classification algorithms for sentiment classification, such as complicated parameter learning and low classification performance, this paper proposed a novel Chinese text sentiment classification approach based on kernel extreme learning machines. First, the feature selection for training data via the information gain technology was implemented to reduce the input dimensionality. Then, a classifier based on the wavelet kernel extreme learning machine was constructed for Chinese text sentiment classification. The experimental results show that the model parameters of the proposed method are easier to learn and the Chinese text sentiment classification performance of the proposed method is usually superior to support vector machines or naive bayes.
Key words:kernel extreme learning machine; sentiment classification; Chinese texts