夏睿,宗成慶
(中國科學(xué)院 自動化研究所,北京 100190)
情感文本分類混合模型及特征擴(kuò)展策略
夏睿,宗成慶
(中國科學(xué)院 自動化研究所,北京 100190)
針對篇章級別情感文本分類問題,分析了傳統(tǒng)的生成式模型和判別式模型的性能,提出了一種級聯(lián)式情感文本分類混合模型以及句法結(jié)構(gòu)特征擴(kuò)展策略.在該模型中,生成式模型(樸素貝葉斯分類器)和判別式模型(支持向量機(jī))以級聯(lián)的方式進(jìn)行組合,旨在消除對于分類臨界樣本,模型判決置信度不足引起的誤差.在混合模型的基礎(chǔ)上,提出了一種高效擴(kuò)展依存句法特征的策略.該策略既提高了系統(tǒng)的正確率,又避免了傳統(tǒng)特征擴(kuò)展方法所帶來的計算量增加的問題.實驗結(jié)果表明,混合模型及特征擴(kuò)展策略與傳統(tǒng)方法相比,在算法準(zhǔn)確性和效率上,都有顯著的提高.
文本分類;情感分類;混合模型;特征擴(kuò)展
近10年來文本分類成為自然語言處理和模式識別領(lǐng)域的一個研究熱點.傳統(tǒng)的文本分類技術(shù)關(guān)注的是文本的客觀內(nèi)容,如文本主題.基于主題的文本分類技術(shù)已有多年的研究基礎(chǔ),發(fā)展較為成熟并且得到了廣泛應(yīng)用[1];而情感文本分類所研究的對象是文本的主觀內(nèi)容,如作者的傾向度,近年來逐漸發(fā)展成為一種獨(dú)特的文本分類任務(wù),國內(nèi)外都有著廣泛的研究[2].
情感文本分類的相關(guān)研究主要圍繞下面2個問題進(jìn)行:1)設(shè)計合適的分類器模型;2)尋找能夠有效體現(xiàn)情感信息的特征表示方法.
對于問題1),情感文本分類沿襲了傳統(tǒng)的主題文本分類模型,常見的分類器有樸素貝葉斯模型(NB)、支持向量機(jī)(SVM)和最大熵模型(MaxEnt).文獻(xiàn)[3]對這3種分類器在情感文本分類任務(wù)中的性能進(jìn)行了比較,實驗結(jié)果顯示在電影評論語料(Cornel movie-review dataset)中 SVM 表現(xiàn)最好,MaxEnt次之,NB最后,不過三者之間的差距并不顯著.然而后續(xù)研究表明,分類器的性能具有領(lǐng)域依賴性,對不同的領(lǐng)域而言,任何一個分類器性能都無法始終占優(yōu)[4],例如在多領(lǐng)域情感分類語料(multi-domain sentiment dataset)中,NB性能要優(yōu)于SVM.因此,對于情感文本分類,生成式模型和判別式模型孰優(yōu)孰劣,一直是一個難以回答的問題.
對于問題2),傳統(tǒng)的文本分類方法基于詞袋模型(bag-of-words,BOW)進(jìn)行文本表示,以單個詞作為特征的基本單元.情感分類有別于主題分類,它需要在特征中體現(xiàn)更多的情感信息,因此,很多研究者立足于挖掘文本中更多能夠有效表達(dá)情感的信息作為新的特征,如詞序及其組合信息[3,5]、詞性(partof-speech,POS) 信 息[6-8]、高 階 n 元 語 法 (ngram)[3-4]等,但是這些特征所達(dá)到的效果并不明顯.也有學(xué)者嘗試挖掘更深層次的文本信息,比如句法結(jié)構(gòu)信息等[9-11],以期捕捉更加復(fù)雜的語法及語義特征(包括否定、轉(zhuǎn)折等),這些方法在一定程度上超過了基于詞袋的傳統(tǒng)方法,但是系統(tǒng)性能的提高仍然有限.同時,引入句法特征所帶來的最大問題就是特征空間的急劇增加,以及分類任務(wù)計算量的指數(shù)級增加.因此,如何更加有效地利用句法結(jié)構(gòu)特征也是一個亟待解決的難題.
立足于解決上述2個問題,提出了一種基于生成式和判別式模型融合的情感文本分類方法.生成式和判別式分類器以一種級聯(lián)的方式進(jìn)行結(jié)合,旨在利用判別式模型消除生成式模型對分類臨界處樣本的判決置信度不高引起的誤差.此外,遵循“奧卡姆剃刀”(Occam’s razor)原則,在二級判別式分類器上,只對部分臨界樣本進(jìn)行特征向量擴(kuò)展,引入句法結(jié)構(gòu)特征,目的在于向難于分辨的樣本中加入更多的情感信息,同時又回避了將所有樣本都進(jìn)行向量擴(kuò)展所帶來的計算量的增加.
情感文本分類任務(wù)的主流分類方法是基于機(jī)器學(xué)習(xí)的統(tǒng)計模型.從建模本質(zhì)加以區(qū)別,可以分為生成式模型(generative model)和判別式模型(discriminative model)2種.
生成式模型對特征和類別的聯(lián)合概率進(jìn)行建模,然后利用貝葉斯公式計算后驗概率.這一類以貝葉斯決策理論為核心的分類器稱作貝葉斯分類器,它們是理論上的最優(yōu)分類器.其中,樸素貝葉斯分類器(NB)假設(shè)了在給定類別的條件下,各個特征項之間相互獨(dú)立(條件獨(dú)立性假設(shè)),大大簡化了類條件概率密度的估計,是一種最簡單的生成式模型,在文本分類任務(wù)中被廣泛應(yīng)用[12].然而,NB的假設(shè)條件過強(qiáng),在樣本的特征相關(guān)性較大的情況下,分類性能往往得不到保證.
判別式模型則直接對后驗概率進(jìn)行建模,通常依據(jù)一定的準(zhǔn)則從樣本數(shù)據(jù)中訓(xùn)練模型參數(shù).支持向量機(jī)(SVM)[13]是文本分類任務(wù)中常用的判別式模型.SVM的基本思想一是尋找具有最大類間距離的決策面,二是將低維不可分問題轉(zhuǎn)化為高維可分問題,并且通過核函數(shù)在低維空間計算并構(gòu)建分類面.然而,SVM分類器存在容易過學(xué)習(xí)的缺點,而且,在特征的獨(dú)立性條件滿足較好的情況下,性能不如貝葉斯模型.
通過對NB和SVM這2類模型的錯誤性分析發(fā)現(xiàn),錯分樣本的分布是交叉的,一部分NB錯分的樣本SVM可以正確劃分,反之亦然.在Kitchen語料(將在4.1節(jié)中詳細(xì)介紹)中抽出100個正例樣本和100個負(fù)例樣本,計算歸一化對數(shù)聯(lián)合概率,作分布圖,如圖1所示,圖中加號(+)和點號(·)分別表示2類判決值log(p(x,+))和log(p(x,-)),虛線左邊表示正例樣本,虛線右邊表示負(fù)類樣本.
圖1 2類歸一化對數(shù)聯(lián)合概率分布Fig.1 Distribution of log-likelihood by NB
由圖1可見,縱坐標(biāo)在0.5附近的水平中軸區(qū)域,2類判決值非常接近,正負(fù)2類樣本中出現(xiàn)錯分的比率較大;離水平中軸越遠(yuǎn),錯分比率越小.給定文檔x,為了衡量2類判決的置信度,定義2類歸一化對數(shù)聯(lián)合概率距離作為刻畫分類判決置信度的一個指標(biāo):
對相同的樣本作概率距離分布曲線,如圖2所示.與正確劃分的樣本相比,錯分樣本的概率距離統(tǒng)計上更加接近0.雖然也有一部分概率距離接近0的樣本也被正確劃分,認(rèn)為它們的置信度仍然不高,這樣的判決帶有很大風(fēng)險.
用水平線(如圖2中縱坐標(biāo)為0.004的直線)表示置信度閾值,通過設(shè)置一個合理的閾值去衡量置信度,如果概率距離高于閾值,表示判決可信,否則認(rèn)為判決不可信.
圖2 相同樣本歸一化對數(shù)聯(lián)合概率距離分布Fig.2 Distributions of distance between two-state loglikelihood
依據(jù)前面的分析,得到這樣的結(jié)論:當(dāng)樣本處在2類空間的臨界面附近時,生成式模型NB的分類精度不高.而判別式模型SVM基于最大正負(fù)樣本分類距離準(zhǔn)則,相對前者,它對于分類邊界處的樣本有著較高的判別能力.
基于上述想法,論文提出了一個生成式/判別式混合模型,模型結(jié)構(gòu)如圖3所示.其中生成式分類器NB作為第1級分類器,判別式分類器SVM作為2級分類器,它們以級聯(lián)的方式進(jìn)行組合.概率距離閾值作為衡量判決置信度的參數(shù),決定2個分類器結(jié)合的程度.當(dāng)NB判決的概率距離低于閾值時,轉(zhuǎn)由SVM進(jìn)行二次判別.
圖3 級聯(lián)式混合模型結(jié)構(gòu)Fig.3 Structure of the hybrid model
傳統(tǒng)的詞袋模型(BOW)中,一篇文檔被看作一個詞袋,完全忽略了詞之間的排序信息和句法關(guān)系.雖然高階n元語法,如二元語法(bigrams)和三元語法(trigrams),被用于代替單一的一元語法(unigrams)作為BOW的基本特征,然而文獻(xiàn)[3]表明在電影評論領(lǐng)域語料中,bigrams的效果還不如unigrams,其原因可能是傳統(tǒng)的bigrams和trigrams難于捕捉長距離的依賴關(guān)系,對情感分類作用不大.
依存句法信息被認(rèn)為是情感分類中的有效特征[10,14].作為一種句子級粒度的文本結(jié)構(gòu)表示方法,依存句法樹利用樹中父子節(jié)點的關(guān)系來表述句子中各詞之間的依存關(guān)系.以句子“I definitely recommend this film.”為例,它的依存句法樹如圖4所示.
圖4 依存句法結(jié)構(gòu)樹示例Fig.4 Example of dependency parsing tree
得到依存句法樹之后,抽取每個父子節(jié)點的詞對作為新的特征(如例句中的“definitely recommend”和“film recommend”),這些詞對特征能夠捕捉句子中詞序信息和詞之間的長距離依賴關(guān)系,經(jīng)常包含一元語法以外的情感信息.表1中列舉了3種不同的特征表示方法.
表1 情感特征表示方法示例Table 1 Examples of different feature representation
雖然句法結(jié)構(gòu)可以表達(dá)更多的文本信息,但是它帶來的最大問題就是特征空間變成了原來的平方級,特征空間的急劇增加給后續(xù)任務(wù),如特征選擇、分類,帶來了嚴(yán)重的計算負(fù)擔(dān).
為了解決這個問題,在混合模型的基礎(chǔ)上,提出了一種高效引入獨(dú)立依存關(guān)系特征的策略:在混合模型生成式分類器中,概率距離高于閾值的樣本有較高的置信度,無需進(jìn)行特征擴(kuò)展;而概率距離低于閾值的樣本,在第1級分類器中被拒絕判決,在第2級分類器中需要引入句法結(jié)構(gòu)特征以提高其可分性,如圖5所示.該策略不僅能夠提高分類精度,而且在效率上也占據(jù)優(yōu)勢.
圖5 混合模型依存句法特征擴(kuò)展策略Fig.5 Structure of the hybrid model with feature expansion strategy
1)語料:本文選用了多領(lǐng)域情感數(shù)據(jù)集(multidomain sentiment dataset)進(jìn)行實驗.該語料由文獻(xiàn)[15]首次引入,之后也得到廣泛使用.該數(shù)據(jù)集由從Amazon.com抽取的4個領(lǐng)域(Book、DVD、Electronics和Kitchen)的產(chǎn)品評論語料組成,每個領(lǐng)域包含正負(fù)例評論文檔各1 000篇.實驗采用了全部4個領(lǐng)域的語料.
2)語言分析工具:詞性分析是句法分析的預(yù)處理步驟之一,選用MXPOST作為詞性分析器.另外,使用MSTParser進(jìn)行依存句法分析,訓(xùn)練集使用的是賓州書庫的WSJ部分.
3)分類器: 本文使用開源軟件 OpenPR-NB[3]和LibSVM[4]作為2種分類器的實現(xiàn)工具.其中OpenPRNB的參數(shù)設(shè)置為多項式模型和拉普拉斯平滑[12],LibSVM采用線性核函數(shù),其他參數(shù)均保持默認(rèn).
1)交叉驗證:每個數(shù)據(jù)集被平均分成5份,所有的實驗結(jié)果均經(jīng)過5倍交叉驗證.交叉驗證的每一次循環(huán),4份作為訓(xùn)練集,剩余1份作為測試集.
2)閾值參數(shù)訓(xùn)練:閾值是混合模型的一個重要參數(shù),為防止過擬合,參數(shù)訓(xùn)練在訓(xùn)練集內(nèi)使用4倍的交叉驗證,最后使用4次循環(huán)的均值作為最后的參數(shù),最優(yōu)參數(shù)可以表示為
式中:F表示當(dāng)前測試集表示當(dāng)前訓(xùn)練集,f表示當(dāng)前訓(xùn)練集中用于訓(xùn)練參數(shù)的開發(fā)集,在(0,0.01]范圍內(nèi)以0.005為步長尋找最優(yōu)值.
首先,將NB和SVM作為基線系統(tǒng),給出Hybrid模型的對比實驗結(jié)果,如表2所示.3個系統(tǒng)都以Unigrams作為BOW模型基本特征,分別用U@NB、U@SVM和U@Hybrid表示,特征選擇方法使用的是信息增益法(information gain,IG)[16],表 2 給出了2類實驗結(jié)果:一類是使用全部特征的分類正確率,表格中用All表示;另一類是經(jīng)過IG特征選擇的最優(yōu)特征子集的結(jié)果,用Best@IG表示.
表2 使用Unigrams特征時的系統(tǒng)性能比較Table 2 The system performance with Unigram features
從表2的結(jié)果可以看出,與基線系統(tǒng)NB和SVM相比,Hybrid模型無論是使用全部特征集還是使用最優(yōu)特征子集,在4個數(shù)據(jù)集中均表現(xiàn)出了明顯的優(yōu)勢.
此外,給出了在遞增的特征選擇子集下,3個模型特征數(shù)-分類正確率的曲線,如圖6所示.
圖6 系統(tǒng)在IG特征選擇下的分類性能Fig.6 The accuracy curve under IG feature selection
圖6中橫軸最右邊的數(shù)值就是使用全部特征的結(jié)果,3條曲線的縱軸最高點就是最優(yōu)特征子集的結(jié)果(參見表2).由圖6可見,無論是在哪個特征子集上,混合模型的曲線均在最上方.
實驗2中首先在2個基線系統(tǒng)上對全部樣本都進(jìn)行依存句法特征擴(kuò)展(以unigrams和依存句法特征的合集作為新的特征集),接著在混合模型中引入第3節(jié)所述的句法結(jié)構(gòu)特征擴(kuò)展策略,表3給出了綜合對比結(jié)果.
表3 句法結(jié)構(gòu)特征擴(kuò)展后各方法的性能比較Table.3 The system performance with feature expansion strategy
其中U+P@NB和U+P@SVM分別表示NB分類器和SVM分類器加入依存句法特征的結(jié)果.非常明顯地看出,在加入句法結(jié)構(gòu)特征之后,NB和SVM分類器的性能都有了顯著提高.這樣的實驗結(jié)果充分證實了句法結(jié)構(gòu)信息確實是情感文本分類的顯著特征.
用U@NB&U+P@SVM表示在混合模型上引入句法結(jié)構(gòu)特征的實驗結(jié)果,表3給出了2個方向上的結(jié)果比較:與混合模型使用原始特征相比,在2級分類器上擴(kuò)展句法特征之后,分類正確率在5個領(lǐng)域上均有提高,提高幅值為(1.5~3.5)%;與NB和SVM擴(kuò)展句法結(jié)構(gòu)特征(U@NB、U+P@SVM)兩者之中最好的結(jié)果相比,各個領(lǐng)域都有(0.5~2)%的提高.因此綜合來看,混合模型輔以句法結(jié)構(gòu)特征在2個方向的比較上都有顯著優(yōu)勢.
由于該方法只在2級分類器上擴(kuò)展句法特征的策略,訓(xùn)練語料里絕大部分的樣本不需要特征擴(kuò)展,僅僅需要對分類邊界的樣本進(jìn)行擴(kuò)展,因此該方法大大節(jié)省了系統(tǒng)開銷.
本文提出了一種情感文本分類混合模型,將生成式、判別式基分類器以一種級聯(lián)的方式進(jìn)行組合,旨在消除傳統(tǒng)方法對分類邊界附近樣本由于判決置信度不高而帶來的誤差.2類概率“距離”用于衡量生成式模型判決的置信度,對于置信度不高的樣本,生成式模型拒絕判決,交由判別式模型進(jìn)行分類.此外,還提出了在2級判別式模型中擴(kuò)展句法結(jié)構(gòu)特征的策略,通過對難以判決的臨界樣本增加依存句法信息,以提高其分類的精度,同時只在必要的樣本上進(jìn)行特征擴(kuò)展.實驗表明,與傳統(tǒng)方法相比,提出的混合模型及特征擴(kuò)展策略不僅在分類精度上有顯著的、魯棒的提高,而且在算法效率上,避免了傳統(tǒng)特征擴(kuò)展所帶來的高維計算負(fù)擔(dān),提高了系統(tǒng)效率.
如何更好地將生成式模型和判別式模型融合到一起,以及如何有效地對句法結(jié)構(gòu)特征進(jìn)行特征選擇,是值得進(jìn)一步研究的問題,這也是下一步即將進(jìn)行的工作.
[1]宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學(xué)出版社,2008:23-28.
[2]PANG B,LEE L.Opinion mining and sentiment analysis[J].Foundations and Trends in Information Retrieval,2008,2:1-135.
[3]PANG B.Thumbs up?sentiment classification using machine learning techniques[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP).Philadelphia,USA,2002:79-86.
[4]XIA R.Ensemble of feature sets and classification algorithms for sentiment classification[J].Information Sciences,2011,181:1138-1152.
[5]RILOFF E,PATWARDHAN S,WIEBE J,et al.Feature subsumption for opinion analysis[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP).Stroudsburg,PA,USA,2006:440-448.
[6]HATZIVASSILOGLOU V,WIEBE J.Effects of adjective orientation and gradability on sentence subjectivity[C]//Proceedings of the International Conference on Computational Linguistics(COLING).Saarbrücken, Germany,2000:299-305.
[7]XIA R,ZONG C Q.Exploring the use of word relation features for sentiment classification[C]//Proceedings of the 23rd International Conference on Computational Linguistics(COLING).Beijing,China,2010:1336-1344.
[8]XIA R,ZONG C Q.A POS-based ensemble model for cross-domain sentiment classification[C]//Proceedings of the International Joint Conference on Natural Language Processing(IJCNLP).Chiang Mai,Thailand,2011:614-622.
[9]GAMON M.Sentiment classification on customer feedback data:noisy data,large feature vectors,and the role of linguistic analysis[C]//Proceedings of the International Conference on Computational Linguistics(COLING).Barcelona,Spain,2004:841-847.
[10]KENNEDY A,INKPEN D.Sentiment classification of movie reviews using contextual valence shifters[J].Computational Intelligence,2006,22:110-125.
[11]DAVE K.Mining the peanut gallery:opinion extraction and semantic classification of product reviews[C]//Proceedings of the International World Wide Web Conference(WWW).Budapest,Hungary,2003:519-528.
[12]MCCALLUM A,NIGAM K.A comparison of event models for naive Bayes text classification[C]//Proceedings of the AAAI Workshop on Learning for Text Categorization.Madison,USA,1998:15-18.
[13]JOACHIMS T.Text categorization with support vector machines:learning with many relevant features[C]//Chemnitz,Germany:Springer,1998:237-243.
[14]KUDO T,MATSUMOTO Y.A boosting algorithm for classification of semi-structured text[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP).Barcelona,Spain,2004:35-41.
[15]BLITZER J.Biographies,bollywood,boom-boxes and blenders:domain adaptation for sentiment classification[C]//Proceedings of the Association for Computational Linguistics(ACL).Prague,Czech Republic,2007:151-156.
[16]YANG Y,PEDERSEN J.A comparative study on feature selection in text categorization[C]//Proceedings of the Fourteenth International Conference on Machine Learning(ICML).Nashville,USA,1997:412-420.
夏睿,男,1981年生,博士,主要研究方向為模式識別、機(jī)器學(xué)習(xí)、自然語言處理和文本挖掘等.
宗成慶,男,1963年生,研究員,博士生導(dǎo)師,中科院自動化所模式識別國家重點實驗室副主任.亞洲自然語言處理聯(lián)合會(AFNLP)執(zhí)行理事、國際學(xué)術(shù)期刊 IEEE Intelligent Systems副主編、ACM Transactions on Asian Language Information Processing副主編、International Journal of Computer Processing of Languages副主編、Journal of Computer Science and Technology編委、《自動化學(xué)報》編委、中國中文信息學(xué)會常務(wù)理事、中國人工智能學(xué)會理事,并曾在若干國際學(xué)術(shù)會議(包括ACL、COLING等本領(lǐng)域頂級國際會議)上擔(dān)任程序委員會及組織委員會主席、Area Chair、委員等職務(wù).主要研究方向為自然語言處理的理論與方法、機(jī)器翻譯、文本分類等.在大規(guī)??谡Z語料庫建設(shè)、口語理解與翻譯、文本機(jī)器翻譯和自動分類等方面,提出了一系列新的技術(shù)和方法,多次在國際口語翻譯權(quán)威評測中獲得優(yōu)異成績.申請國家發(fā)明專利10余項。在國內(nèi)外重要學(xué)術(shù)刊物和會議上發(fā)表學(xué)術(shù)論文70余篇,出版學(xué)術(shù)專著1部.
A hybrid approach to sentiment classification and feature expansion strategy
XIA Rui,ZONG Chengqing
(Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China)
In this paper,focusing on sentiment text classification,the performance of generative and discriminative models for sentiment classification was studied,and a hybrid approach to sentiment classification was proposed.The individual generative classifier(naive Bayes,(NB)and the discriminative classifier(support vector machines,SVM)were merged into a hybrid version in a two-stage process in order to overcome individual drawbacks and benefit from the merits of both systems.On the basis of the hybrid classifier,an efficient strategy of incorporating dependency features was also presented.The strategy not only increases the accuracy of the system,but also avoids the defects of increased computing volume brought by the traditional feature expansion method.Experimental results show the apparent advantages of this approach in both classification accuracy and efficiency.
text classification;sentiment classification;hybrid model;feature expansion
TP391.1
A
1673-4785(2011)06-0483-06
10.3969/j.issn.1673-4785.2011.06.002
2011-05-12.
國家“863”計劃資助項目(2008AA01Z148);黑龍江省杰出青年科學(xué)基金資助項目(JC200703);哈爾濱市科技創(chuàng)新人才研究專項基金資助項目(2007RFXXG009).
夏睿.E-mail:rxia@nlpr.ia.ac.cn.