王志昊,王中卿,李壽山,李培峰,施寒瀟
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州215006)
(浙江工商大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,浙江 杭州310018)
隨著微博、社交網(wǎng)絡(luò)、電子商務(wù)等互聯(lián)網(wǎng)應(yīng)用的迅猛發(fā)展,人們習(xí)慣于在網(wǎng)絡(luò)中表達(dá)觀點(diǎn)或抒發(fā)情感。與此同時,網(wǎng)絡(luò)中的用戶行為數(shù)據(jù)成倍增長,這些數(shù)據(jù)包含著大量情感信息。傳統(tǒng)的基于主題的文本分類系統(tǒng)無法滿足對這些主觀文本分析的需求,情感分類在這種背景下受到越來越多人的重視[1]。情感分類任務(wù)是指對文本自身情感傾向性進(jìn)行分類,例如,判斷某一評論是“贊揚(yáng)”或“批評”[2-3]。近年來,情感分類在自然語言處理研究領(lǐng)域已經(jīng)成為一個熱點(diǎn)研究問題[1]。
情感分類的主流研究方法是機(jī)器學(xué)習(xí)方法,大致可以分為無監(jiān)督學(xué)習(xí)、監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)三種。目前大多數(shù)研究都基于監(jiān)督學(xué)習(xí)并且已經(jīng)取得了非常好的效果[4],但是由于監(jiān)督學(xué)習(xí)依賴于大量人工標(biāo)注的訓(xùn)練樣本,使得監(jiān)督學(xué)習(xí)的分類系統(tǒng)具有很高的標(biāo)注代價。相對而言,無監(jiān)督學(xué)習(xí)方法不需要人工標(biāo)注訓(xùn)練樣本,是最小化標(biāo)注量的一種解決方案,但由于其分類效果不佳,通常難以達(dá)到實(shí)際要求[5-6]。半監(jiān)督學(xué)習(xí)是采取綜合利用少量已標(biāo)注樣本和大量的未標(biāo)注樣本來提高學(xué)習(xí)性能的情感分類方法[7-9],它兼顧了人工標(biāo)注成本和分類效果,被視為一種折中方案。本文主要圍繞半監(jiān)督情感分類方法進(jìn)行展開。
情感分類任務(wù)同其他文本分類一樣,面臨著高維度特征空間的問題,同時半監(jiān)督情感分類任務(wù)中的訓(xùn)練分類模型的過程也因高維度而變得漫長。特征選擇是解決高維問題的一種有效手段,可以在不降低分類效果的前提下達(dá)到降維的目的。特征選擇方法在文本分類研究中占有非常重要的地位。同時,已有的研究顯示特征選擇方法能夠有效的降低監(jiān)督情感分類中的特征維度空間[10]。然而針對半監(jiān)督情感分類,特征選擇方法的研究還未涉及。在半監(jiān)督情感分類中,由于標(biāo)注樣本規(guī)模太小,特征在類別中的分布并不能可靠獲得。因此,傳統(tǒng)的基于監(jiān)督情感分類的特征提取方法沒法直接應(yīng)用。如何在半監(jiān)督情感分類中進(jìn)行特征選擇是一個新的具有挑戰(zhàn)的問題。
本文首次探討半監(jiān)督情感分類中的特征提取方法,提出一種基于二部圖的特征選擇方法。該方法首先借助二部圖模型來表述文檔與單詞間的關(guān)系。然后,結(jié)合小規(guī)模標(biāo)注樣本的標(biāo)簽信息和二部圖,利用標(biāo)簽傳播(LP)算法計(jì)算特征的正負(fù)類的情感概率。最后,按照特征的情感概率進(jìn)行排序進(jìn)而實(shí)現(xiàn)特征選擇?;谶x擇出的特征,利用標(biāo)簽傳播算法進(jìn)行半監(jiān)督情感分類。該方法在英文和中文領(lǐng)域都有明顯的降維效果,在部分領(lǐng)域的評論語料中,其分類效果超過了使用全特征的半監(jiān)督學(xué)習(xí)方法,最高有4個點(diǎn)的提升。此外,我們還針對隨機(jī)特征選擇的結(jié)果進(jìn)行了比較研究,實(shí)驗(yàn)結(jié)果顯示我們的方法優(yōu)勢明顯。
本文結(jié)構(gòu)安排如下:第2節(jié)介紹了半監(jiān)督情感分類及特征選擇方法的相關(guān)工作;第3節(jié)提出基于二部圖的半監(jiān)督特征選擇方法;第4節(jié)為實(shí)驗(yàn)結(jié)果及分析;第5節(jié)為相關(guān)結(jié)論。
近幾年來,基于半監(jiān)督學(xué)習(xí)的情感分類漸漸受到廣大研究者們的重視。文獻(xiàn)[8]將兩種不同語言(英語和漢語)作為兩個不同的視圖,采用協(xié)同訓(xùn)練方法進(jìn)行半監(jiān)督情感分類;Li等則是把評價語句分為個人視圖(Personal View)和非個人視圖(Impersonal View)并同樣采用協(xié)同訓(xùn)練方法進(jìn)行半監(jiān)督情感分類[9]。Dasgupta和Ng將譜聚類、主動學(xué)習(xí)、直推學(xué)習(xí)和集成學(xué)習(xí)引入到半監(jiān)督學(xué)習(xí)中[7],但仍未獲得較高的分類準(zhǔn)確率(在初始標(biāo)注樣本為100時,Book和DVD領(lǐng)域的準(zhǔn)確率只有60%)。蘇艷等對協(xié)同訓(xùn)練方法進(jìn)行改進(jìn),提出了基于動態(tài)隨機(jī)特征子空間的協(xié)同訓(xùn)練算法,并實(shí)驗(yàn)驗(yàn)證了當(dāng)特征子空間數(shù)目為4左右的時候,該半監(jiān)督分類方法能夠取得最佳性能[11]。Li等則基于限制性非負(fù)矩陣分解 (Constrained Non-negative Tri-factorization)的方法實(shí)現(xiàn)了這種方式的半監(jiān)督學(xué)習(xí)情感分類任務(wù)[12]。此外,高偉等提出了一種基于一致性標(biāo)簽的集成方法,該方法對兩種主流的半監(jiān)督情感分類方法:基于隨機(jī)特征子空間的協(xié)同訓(xùn)練方法和標(biāo)簽傳播方法進(jìn)行了融合,從而有效降低對未標(biāo)注樣本的誤標(biāo)注率,獲得比任一種半監(jiān)督學(xué)習(xí)方法更好的分類效果[13]。
情感分類任務(wù)作為一種特定的文本分類任務(wù),同其他文本分類一樣面臨著高維度特征空間的問題。特征選擇用于降低高維度特征空間,讓文本分類變得更快速,分類更精確[14]。相關(guān)研究表明,將特征選擇方法CHI應(yīng)用于大規(guī)模在線產(chǎn)品評論,可以在不損失性能的前提下減少特征向量維度[15]。Ng等將WLLR方法用于電影評論的情感分類,取得很好的分類效果[16]。此外,Li等將 DF、MI、IG等特征選擇方法用于主題文本分類和情感分類問題中,有效降低了維度[10]。然而,上述特征選擇方法都是基于監(jiān)督學(xué)習(xí)的,依賴于人工標(biāo)注的結(jié)果。在半監(jiān)督情感分類中,如何利用少量標(biāo)注樣本尋找出大量未標(biāo)注樣本中的有效特征是值得研究的問題。據(jù)我們所知,在半監(jiān)督情感分類問題上還沒有關(guān)于特征選擇方法的研究。
為了本文的表述清楚,我們首先給出基于二部圖的半監(jiān)督特征選擇方法的總體框架圖,如圖1所示。該方法以二部圖模型為基礎(chǔ),首先構(gòu)建情感文本的二部圖表示,建立文檔到特征的正負(fù)類轉(zhuǎn)移概率矩陣。通過多次迭代并對轉(zhuǎn)移概率差值進(jìn)行排序,選擇出那些區(qū)分度最高的特征。這些被選擇出的特征構(gòu)成了半監(jiān)督學(xué)習(xí)和情感分類過程中的特征空間。此外,在半監(jiān)督學(xué)習(xí)中我們選用標(biāo)簽傳播算法(LP)作為學(xué)習(xí)策略,情感分類方面則選用貝葉斯分類器。下文將詳細(xì)介紹我們提出的基于二部圖的半監(jiān)督特征選擇方法的具體實(shí)施步驟。
圖1 總體框架圖
情感分類中,文檔通常用詞袋(Bag-of-words)模型化并用向量形式描述,其缺點(diǎn)是文檔與單詞間的關(guān)聯(lián)是不清晰的。本文采用的二部圖是圖論中的一種特殊模型,其頂點(diǎn)集V可分割為兩個互不相交的子集,并且圖中每條邊依附的兩個頂點(diǎn)都分屬于這兩個互不相交的子集。圖2顯示了文檔—單詞的二部圖表示,其中文檔用d1,d2...,dn表示,文檔中包含的單詞用w1,w2...,wn表示。文檔—單詞的二部圖僅存在文檔到詞及詞到文檔的連接關(guān)系,一篇文檔可以包含多個單詞,一個單詞會在多個文檔中出現(xiàn)。顯然,通過構(gòu)建這種文檔—單詞的二部圖可以很清晰地表述文檔與單詞間的關(guān)系。
圖2 文檔與單詞的二部圖模型
上文提到,在半監(jiān)督情感分類的問題上還沒有關(guān)于特征選擇方法的研究,目前大多數(shù)特征選擇方法都是圍繞監(jiān)督學(xué)習(xí)展開的。相關(guān)研究表明,特征選擇可以在不降低分類效果的前提下達(dá)到降維目的,這也是我們提出這種方法的動機(jī)所在。
對于每個文檔和文檔中所含單詞,或文檔所包含的特征之間具有如下轉(zhuǎn)移概率。如果文檔di包含m個特征且特征tk的權(quán)重為wik,則文檔di到特征tk的轉(zhuǎn)移概率為式(1):同理,若特征tk在n個文檔中出現(xiàn)且文檔dj的權(quán)重為wkj,那么該特征到文檔dj的轉(zhuǎn)移概率為式(2):
顯然,所有文檔到特征tk的轉(zhuǎn)移概率之和可由式(3)求得。
所有v個特征到某個文檔di的轉(zhuǎn)移概率之和如式(4)所示。
由于半監(jiān)督情感分類中具有少量已標(biāo)注樣本,包括正類和負(fù)類樣本,我們由式(3)、式(4)求得文檔到特征tk的正類轉(zhuǎn)移概率之和及負(fù)類轉(zhuǎn)移概率之和,式(5)中的ppos(di)表示特征到文檔di的正類轉(zhuǎn)移概率之和,
式(6)中的pneg(di)則表示特征到文檔di的負(fù)類轉(zhuǎn)移概率之和。其中ppos(tk)和pneg(tk)的初始值p0T都為0。
對于標(biāo)注樣本,正類和負(fù)類轉(zhuǎn)移概率初始值為固定常數(shù)(本文中取0),對于沒有情感傾向的未標(biāo)注樣本,正類和負(fù)類轉(zhuǎn)移概率的初始值設(shè)為0,在標(biāo)簽傳播的過程中,樣本到特征以及特征到樣本的正負(fù)類轉(zhuǎn)移概率被不斷更新。本文所提出的特征選擇方法認(rèn)為,某一特征的正類和負(fù)類轉(zhuǎn)移概率之和的差值越大,該特征所包含的情感區(qū)分度越高,差值的具體計(jì)算公式如式(7)所示。
我們選擇那些區(qū)分度最高的特征作為半監(jiān)督學(xué)習(xí)和情感分類過程中使用的特征,特征的極性由轉(zhuǎn)移概率之和高的一方?jīng)Q定。圖3給出了基于二部圖的半監(jiān)督特征選擇方法流程。
圖3 文檔與單詞的二部圖模型
半監(jiān)督學(xué)習(xí)方面,本文使用的是標(biāo)簽傳播算法。標(biāo)簽傳播算法是Zhu等人于2002年提出的,它是一種基于圖的半監(jiān)督學(xué)習(xí)方法,其基本思路是用已標(biāo)記節(jié)點(diǎn)的標(biāo)簽信息去預(yù)測未標(biāo)記節(jié)點(diǎn)的標(biāo)簽信息[17]。同樣的,這里我們也采用文檔—詞的二部圖來表述文檔與單詞的關(guān)系。文檔di到文檔dj的轉(zhuǎn)移概率是由文檔di通過該文檔里面的所有詞到達(dá)文檔dj的概率之和,即式(8)。
得到文檔間的轉(zhuǎn)移概率之后,通過建立標(biāo)注矩陣和文檔—特征的概率轉(zhuǎn)移矩陣計(jì)算出未標(biāo)注樣本的標(biāo)簽[18]。此外,本文中的標(biāo)簽傳播算法建立在上一步挑選出來的特征,而并不是所有的特征。值得一提的是,實(shí)驗(yàn)過程中我們發(fā)現(xiàn),使用了特征選擇后的標(biāo)簽傳播算法執(zhí)行效率更高,特別是當(dāng)特征數(shù)目很少時,這種優(yōu)勢非常明顯。
實(shí)驗(yàn)數(shù)據(jù)使用了中文和英文兩組數(shù)據(jù)集:其中英文語料采用亞馬遜收集的四個不同領(lǐng)域的產(chǎn)品評論,具體為Book、DVD、Electronics和 Kitchen,每個領(lǐng)域包含1 100篇正類和1 100篇負(fù)類評論。實(shí)驗(yàn)隨機(jī)選取正類和負(fù)類樣本各100篇作為初始標(biāo)注樣本,隨機(jī)選取正類和負(fù)類各800篇作為未標(biāo)注樣本,剩余的正負(fù)各200篇作為測試樣本。中文語料同樣涵蓋四個領(lǐng)域的產(chǎn)品評論,分別是化妝品、箱包、電腦和電子產(chǎn)品,每個領(lǐng)域包含1 000篇正類和1 000篇負(fù)類評論,實(shí)驗(yàn)隨機(jī)選取正類和負(fù)類樣本各100篇作為初始標(biāo)注樣本,隨機(jī)選取正負(fù)各700篇作為未標(biāo)注樣本,剩余的正負(fù)各200篇作為測試樣本。實(shí)驗(yàn)采用MALLET機(jī)器學(xué)習(xí)工具包中的貝葉斯分類器,分類算法的所有參數(shù)都設(shè)置為默認(rèn)值。分類選取詞的二元特征(Bigram)作為特征。除了與幾種常見分類方法作比較外,實(shí)驗(yàn)中我們還加入了隨機(jī)特征選擇方法用于對比研究,考慮到該方法的隨機(jī)性問題,每次實(shí)驗(yàn)我們?nèi)?次實(shí)驗(yàn)結(jié)果的平均值作為最終結(jié)果。
實(shí)驗(yàn)中使用準(zhǔn)確率(Accuracy,Acc.)衡量分類效果,其中,TP和TN代表了被正確分類的正類樣本和負(fù)類樣本,F(xiàn)P和FN代表了被錯誤分類的正類樣本和負(fù)類樣本。準(zhǔn)確率的計(jì)算公式如式(9)所示。
我們實(shí)現(xiàn)以下常見方法的比較研究。
全監(jiān)督學(xué)習(xí):直接使用標(biāo)注樣本及其所有特征訓(xùn)練分類模型(未使用非標(biāo)注樣本)。
使用所有特征的半監(jiān)督學(xué)習(xí):運(yùn)用標(biāo)簽傳播算法后的所有樣本直接訓(xùn)練分類器,不使用特征選擇方法。
使用特征選擇的半監(jiān)督學(xué)習(xí):使用基于二部圖的半監(jiān)督特征選擇方法選擇特征并構(gòu)成特征空間,用于標(biāo)簽傳播算法和訓(xùn)練分類過程,方法過程參見3.1。
我們首先實(shí)驗(yàn)觀察了基于二部圖的半監(jiān)督特征選擇方法在英文語料中的表現(xiàn),之后,在中文領(lǐng)域我們也安排了相應(yīng)的實(shí)驗(yàn)。下面的實(shí)驗(yàn)結(jié)果中,每張曲線圖中橫縱坐標(biāo)表示的含義相同,橫坐標(biāo)為特征數(shù)百分比,即選擇的特征數(shù)目除以總特征數(shù),縱坐標(biāo)為準(zhǔn)確率。
圖4 基于二部圖的半監(jiān)督特征選擇方法的分類性能比較(英文領(lǐng)域)
圖4顯示了基于二部圖的半監(jiān)督特征選擇方法在英文語料中表現(xiàn)??梢钥吹?,當(dāng)選擇的特征數(shù)量大于總特征數(shù)的10%時,我們的方法基本保持穩(wěn)定的分類效果,很好的達(dá)到降維目的。此外,在kitchen和electronics兩個領(lǐng)域,我們的方法表現(xiàn)優(yōu)異,在保持性能的情況下有1%~2%的提升。
圖5顯示了我們的方法在中文語料下的分類效果。實(shí)驗(yàn)結(jié)果表明,基于二部圖的半監(jiān)督特征選擇方法在中文語料里也有不俗表現(xiàn)。其中化妝品和箱包兩個領(lǐng)域在特征數(shù)相對較少時也有很好的分類性能,達(dá)到了降維的效果。值得一提的是,在電子產(chǎn)品領(lǐng)域我們的方法表現(xiàn)突出,分類效果基本不低于使用全特征的標(biāo)簽傳播算法。在特征數(shù)百分比為0.03,即136個特征時達(dá)到峰值,分類效果有4個點(diǎn)的提高。
圖5 基于二部圖的半監(jiān)督特征選擇方法的分類性能比較(中文領(lǐng)域)
圖7 500個特征下與隨機(jī)特征選擇方法的分類性能比較
圖6和圖7分別顯示了選擇200個和500個特 征時,隨機(jī)特征選擇和我們提出的方法在中英文領(lǐng)域下的分類性能比較。實(shí)驗(yàn)結(jié)果清楚的表明:基于二部圖的半監(jiān)督特征選擇方法比隨機(jī)特征選擇方法的分類效果好很多,特別是在特征數(shù)目很少的時候這種優(yōu)勢越大。除了上圖中200和500這兩個固定的特征數(shù)目點(diǎn)以外,我們對其他特征數(shù)也做了類似的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果都顯示,我們的方法始終優(yōu)于隨機(jī)特征選擇方法。
本文在半監(jiān)督情感分類中,提出一種基于二部圖和標(biāo)簽傳播的特征選擇方法。該方法首先借助二部圖模型來表述文檔與單詞間的關(guān)系。然后,結(jié)合小規(guī)模標(biāo)注樣本和標(biāo)簽傳播算法進(jìn)行特征提取。實(shí)驗(yàn)結(jié)果表明,在多個領(lǐng)域的半監(jiān)督情感分類任務(wù)中,基于二部圖和標(biāo)簽傳播的特征選擇方法明顯優(yōu)于隨機(jī)特征選擇。在保證分類效果不下降(甚至提高)的前提下有效降低了特征空間維度。
面向半監(jiān)督分類的特征選擇的研究才剛剛起步,存在很多問題需要我們進(jìn)一步探討。例如,從上面的實(shí)驗(yàn)結(jié)果可以看到,相比使用全部特征的半監(jiān)督學(xué)習(xí)方法,我們的方法在大多數(shù)領(lǐng)域的分類效果沒有很大的性能提升。下一步工作中,我們將嘗試加入分類器融合策略,用以穩(wěn)定和提高最終的分類性能。此外,我們會繼續(xù)關(guān)注半監(jiān)督領(lǐng)域的高維度特征空間問題,尋找更適合半監(jiān)督情感分類任務(wù)的特征選擇方法。
[1]Pang Bo,Lee L,Vaithyanathan S.Thumbs up?Sentiment classification using machine learning techniques[C]//Proceedings of EMNLP-02,2002:79-86.
[2]Liu Bing,Hu Minqing,Cheng Junsheng.Opinion Observer:Analyzing and Comparing Opinions on the Web[C]//Proceedings of WWW-05,2005:342-351.
[3]Wiebe J,Wilson T,Cardie C.Annotating Expressions of Opinions and Emotions in Language.Language Resources and Evaluation,2005,39:165-210.
[4]唐慧豐,譚松波,程學(xué)旗.基于監(jiān)督學(xué)習(xí)的中文情感分類技術(shù)比較研究[J].中文信息學(xué)報(bào),2007,6(2):88-94.
[5]Zagibalov T,Carroll J.Automatic Seed Word Selec-tion for Unsupervised Sentiment Classification of Chinese Test[C]//Proceedings of COLING,2008:1073-1080.
[6]Yarowsky D.Unsupervised Word Sense Disambiguation Rivaling Supervised Methods[C]//Proceedings of ACL-05,2005:189-196.
[7]Dasgupta S,Ng V.Mine the Easy,Classify the Hard:A Semi-Supervised Approach to Automatic Sentiment Classification[C]//Proceeding of ACL-IJCNLP-09,2009:701-709.
[8]Wan Xiaojun.Co-Training for Cross-Lingual Sentiment Classification[C]//Proceedings of ACL-IJCNLP-09,2009:235-243.
[9]Li Shoushan,Huang Chu-Ren,Zhou Guodong,et al.Employing Personal/Impersonal Views in Supervised and Semi-supervised Sentiment Classification[C]//Proceedings of ACL-10,2010:414-423.
[10]Li Shoushan,Xia Rui,Zong Chengqing,et al.A Framework of Feature Selection Methods for Text Categorization [C]//Proceedings of IJCNLP-09,2009:692-700.
[11]蘇艷,王中卿,居勝峰,等.基于隨機(jī)特征子空間的半監(jiān)督情感分類方法研究[J].中文信息學(xué)報(bào),2012,26(4):85-92.
[12]Li Tao,Zhang Yi,Sindhwani V.A Non-negative Matrix Tri-factorization Approach to Sentiment Classification with Lexical Prior Knowledge[C]//Proceeding of ACL-IJCNLP-09,2009:244-252.
[13]高偉,王中卿,李壽山.基于隨機(jī)特征子空間的半監(jiān)督情感分類方法研究[J].中文信息學(xué)報(bào),2012,27(3):120-126.
[14]Yang Yiming,Pedersen J.A comparative study on feature selection in text categorization[C]//Proceedings of ICML-97,1997.
[15]Cui Hang,Mittal V,Datar M.Comparative Experiments on Sentiment Classification for Online Product Reviews[C]//Proceedings of AAAI-06,2006:611-618.
[16]Ng V,Dasgupta S,Niaz Arifin S.Examining the role of linguistic knowledge sources in the automatic identification and classification of reviews[C]//Proceedings of the COLING/ACL Main Conference Poster Sessions,2006.
[17]宗成慶.統(tǒng)計(jì)自然語言處理[M].清華大學(xué)出版社,2008.5
[18]Zhu Xiaojin,Ghahramani Z.Learning from Labeled and Unlabeled Data with Label Propagation[C]//Proceedings of CMU CALD Technical Report,2002.