吳 瓊,譚松波,張 剛,段洣毅,程學(xué)旗
(1. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所,北京 100190; 2. 中國(guó)科學(xué)院 研究生院,北京 100049)
近年來(lái),隨著互聯(lián)網(wǎng)快速發(fā)展,論壇、博客等網(wǎng)絡(luò)交流平臺(tái)不斷涌現(xiàn),人們?cè)絹?lái)越習(xí)慣于在網(wǎng)上發(fā)表主觀性的言論,這些言論用于表達(dá)自己對(duì)于日常事件、產(chǎn)品、政策等的觀點(diǎn)和看法,這使得網(wǎng)上存在大量帶有情感傾向性的文本。那么如何對(duì)這些有主觀情感的文本進(jìn)行分類(lèi),判斷其是正面還是負(fù)面,是持支持態(tài)度還是反對(duì)態(tài)度,這就引出了自然語(yǔ)言處理領(lǐng)域一個(gè)重要的研究方向——傾向性分析。該技術(shù)有很多實(shí)際應(yīng)用,越來(lái)越引起廣泛關(guān)注(如文獻(xiàn)[1-6])。
作為傳統(tǒng)文本分類(lèi)[8-10]的一個(gè)特殊分支,典型的監(jiān)督分類(lèi)方法都適用于文本傾向性分析。然而,當(dāng)訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)不屬于同一個(gè)領(lǐng)域的時(shí)候,典型的分類(lèi)方法的效果就變得很差。這是由于訓(xùn)練域里有強(qiáng)烈傾向性的詞在測(cè)試域里不再有強(qiáng)烈傾向性,反之亦然。由此產(chǎn)生了跨領(lǐng)域傾向性分析問(wèn)題(也稱(chēng)為跨領(lǐng)域情感分類(lèi)問(wèn)題)[11-13]。隨著信息量的急速增加、新領(lǐng)域的不斷涌現(xiàn),人們需要在大量新領(lǐng)域里進(jìn)行傾向性分析,這是個(gè)費(fèi)時(shí)費(fèi)力的事情。因此要盡量基于已經(jīng)標(biāo)注好的數(shù)據(jù)對(duì)新領(lǐng)域進(jìn)行分析,這使得跨領(lǐng)域的傾向性分析具有重要意義。
跨領(lǐng)域傾向性分析是一個(gè)全新的研究領(lǐng)域,目前的研究工作還比較少?,F(xiàn)有的一些技術(shù)主要分為兩類(lèi):第一類(lèi)需要在測(cè)試域標(biāo)注少量數(shù)據(jù)來(lái)輔助訓(xùn)練,如文獻(xiàn)[11]等;第二類(lèi)在測(cè)試域不需要任何標(biāo)注好的數(shù)據(jù),如文獻(xiàn)[12-13]等。本文主要針對(duì)應(yīng)用更為廣泛的第二類(lèi)情況。
為解決不需任何測(cè)試域輔助數(shù)據(jù)的傾向性分析問(wèn)題,本文將文本的傾向性與圖排序算法結(jié)合,提出一種基于圖排序的跨領(lǐng)域傾向性分析算法。該算法為測(cè)試集中的每一個(gè)文本分配一個(gè)情感分,來(lái)表示該文本“支持”或“反對(duì)”的程度,然后利用源領(lǐng)域的準(zhǔn)確標(biāo)簽和目標(biāo)領(lǐng)域的偽標(biāo)簽來(lái)迭代計(jì)算該情感分,算法收斂時(shí)得到最終情感分,并據(jù)此判別目標(biāo)領(lǐng)域測(cè)試數(shù)據(jù)的傾向性。得到傾向性判別結(jié)果后,為充分利用其中傾向性判斷較為準(zhǔn)確的測(cè)試文本來(lái)提高整個(gè)測(cè)試集傾向性分析的精度,我們將這些較準(zhǔn)確的測(cè)試文本作為“種子”,進(jìn)一步通過(guò)EM算法迭代進(jìn)行跨領(lǐng)域傾向性分析。針對(duì)以上部分,我們分別進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文提出的方法能大幅度提高跨領(lǐng)域傾向性分析的精度。
傾向性分析的目的是判斷文本的情感類(lèi)別,即該文本對(duì)某一主題是持支持還是反對(duì)態(tài)度。根據(jù)實(shí)現(xiàn)的方法可分為基于詞的傾向性分析和基于機(jī)器學(xué)習(xí)的傾向性分析。
2.1.1 基于詞的傾向性分析
詞為構(gòu)成文本的單元,因此可以先判斷詞的傾向性,再根據(jù)此信息來(lái)判斷文本的傾向性。
Turney[15]提出了PMI-IR方法,利用詞語(yǔ)與具有明顯語(yǔ)義傾向性的種子詞語(yǔ)之間互信息關(guān)系來(lái)判別詞語(yǔ)的傾向性;Hatzivassiloglou等[16]認(rèn)為形容詞的傾向性受連接它們的連接詞約束,他們提出一種四步法的監(jiān)督算法來(lái)判斷形容詞的傾向性。
得出詞的傾向性后,可以通過(guò)統(tǒng)計(jì)具有正面傾向性和負(fù)面傾向性的詞語(yǔ)數(shù)目來(lái)判斷文本的傾向性。Turney[17]提出一個(gè)無(wú)監(jiān)督學(xué)習(xí)方法,求出文本中所有短語(yǔ)的傾向性的平均值,根據(jù)其正負(fù)來(lái)判斷文本的傾向性。
2.1.2 基于機(jī)器學(xué)習(xí)的傾向性分析
文本傾向性分析可以看作是一種特殊的分類(lèi),即根據(jù)文章中對(duì)某一主題的觀點(diǎn)(支持或反對(duì)、高興或悲傷等)對(duì)文本進(jìn)行分類(lèi),因此可將機(jī)器學(xué)習(xí)算法用于傾向性分析。B.Pang等[18]以電影評(píng)論作為語(yǔ)料,將三個(gè)典型的機(jī)器學(xué)習(xí)方法用于傾向性分析,實(shí)驗(yàn)結(jié)果表明機(jī)器學(xué)習(xí)方法對(duì)傾向性分析效果很好。H.Cui等[19]用不同的機(jī)器學(xué)習(xí)算法對(duì)大規(guī)模在線(xiàn)產(chǎn)品評(píng)論進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明帶有高階n元特征的分類(lèi)器可以達(dá)到更好的性能。
本文即在機(jī)器學(xué)習(xí)方法的基礎(chǔ)上進(jìn)行跨領(lǐng)域傾向性分析。
移植學(xué)習(xí)是指利用其他領(lǐng)域或時(shí)間段的數(shù)據(jù)來(lái)輔助當(dāng)前學(xué)習(xí)。作為機(jī)器學(xué)習(xí)領(lǐng)域一個(gè)重要研究方向,有許多學(xué)者對(duì)此進(jìn)行研究并產(chǎn)生出很多算法(如文獻(xiàn)[20-22])。Daume III. H等[20]使用一個(gè)特有的高斯模型研究統(tǒng)計(jì)自然語(yǔ)言處理領(lǐng)域的移植學(xué)習(xí)。Dikan Xing等[21]提出一個(gè)名為“橋優(yōu)化”的算法來(lái)解決移植學(xué)習(xí)問(wèn)題。Jing Jiang等[22]提出一個(gè)兩階段法來(lái)解決移植學(xué)習(xí)問(wèn)題。其算法的基本思想是:第一階段,即泛化階段,得到在各領(lǐng)域之間通用的一些特征;第二階段,即適應(yīng)階段,找出特定于目標(biāo)域的有用的特征。
然而,以上工作均沒(méi)有將領(lǐng)域移植用于傾向性分析領(lǐng)域,本文將提出算法,解決跨領(lǐng)域傾向性分析問(wèn)題。
我們定義跨領(lǐng)域傾向性分析問(wèn)題如下:
測(cè)試集DU= {d1,…,dn}和訓(xùn)練集DL={dn+1,…,dn+m},其中di表示第i個(gè)文本的向量,每一個(gè)文本應(yīng)該有一個(gè)來(lái)自類(lèi)別集C={支持, 反對(duì)}中的標(biāo)簽。每一個(gè)測(cè)試文本di∈DU(i=1,…,n) 沒(méi)有被標(biāo)注, 每一個(gè)訓(xùn)練文本dj∈DL(j=n+1,…,n+m) 已經(jīng)被標(biāo)注了一個(gè)類(lèi)別C中的標(biāo)簽。假設(shè)測(cè)試數(shù)據(jù)集DU和訓(xùn)練數(shù)據(jù)集DL來(lái)自相關(guān)但不相同的領(lǐng)域。本算法的目標(biāo)是利用另一個(gè)領(lǐng)域的訓(xùn)練數(shù)據(jù)集DL來(lái)對(duì)測(cè)試數(shù)據(jù)集中的每一個(gè)文本di∈DU(i=1,…,n)分配一個(gè)C中的標(biāo)簽,使得準(zhǔn)確率最高。
本算法基于以下前提:
(1) 用WL表示舊領(lǐng)域的詞空間,WU表示新領(lǐng)域的詞空間,且WL∩WU≠Φ。
(2) 如果一個(gè)文本既存在于訓(xùn)練集中,又存在于測(cè)試集中,則標(biāo)簽一致。
圖排序算法(如PageRank[14])的思想是:圖中與其他重要節(jié)點(diǎn)緊密相聯(lián)的節(jié)點(diǎn)也很重要。該算法已成功應(yīng)用于很多領(lǐng)域?;趫D排序思想,我們認(rèn)為如果一個(gè)文本與一些具有支持(反對(duì))態(tài)度的文本緊密聯(lián)系,則它也很可能持支持(反對(duì))態(tài)度,這也是鄰域?qū)W習(xí)思想。
因此,我們將訓(xùn)練集和測(cè)試集看作一個(gè)圖,每一個(gè)文本為圖中的一個(gè)節(jié)點(diǎn)。給每一個(gè)節(jié)點(diǎn)一個(gè)表示其情感類(lèi)別的分?jǐn)?shù),稱(chēng)其為情感分。本文提出的算法將文本情感類(lèi)別間的關(guān)系與graph-ranking算法結(jié)合起來(lái)。對(duì)于每一個(gè)待標(biāo)注文本,算法通過(guò)其在訓(xùn)練域和測(cè)試域的鄰域來(lái)計(jì)算它的情感分,并用一個(gè)統(tǒng)一的公式進(jìn)行迭代計(jì)算,當(dāng)算法收斂時(shí),得到待標(biāo)注文本的最終情感分。如果一個(gè)節(jié)點(diǎn)的情感分在-1到0之間,表示這個(gè)節(jié)點(diǎn)所代表的文本是持反對(duì)態(tài)度,情感分越接近于-1,此文本越傾向于反對(duì)態(tài)度;如果一個(gè)節(jié)點(diǎn)的情感分在0到1之間,表示這個(gè)節(jié)點(diǎn)所代表的文本是持支持態(tài)度,情感分越接近于1,此文本越傾向于支持態(tài)度。
3.2.1 算法初始化
(1)
3.2.2 情感分計(jì)算策略
得到初始情感分向量S0后,即可利用訓(xùn)練域的準(zhǔn)確情感分和測(cè)試域的偽情感分來(lái)迭代計(jì)算測(cè)試集的最終情感分。
1) 利用訓(xùn)練集的準(zhǔn)確情感分來(lái)計(jì)算測(cè)試集的情感分
建立一個(gè)圖模型,節(jié)點(diǎn)表示DL和DU中的文本,邊表示文本間的內(nèi)容相似度。內(nèi)容相似度此處用余弦相似度來(lái)計(jì)算。我們使用一個(gè)聯(lián)接矩陣U來(lái)表示DU和DL間的相似矩陣。U=[Uij]n×m定義如下:
(2)
(3)
最后,用di鄰居們的分?jǐn)?shù)來(lái)計(jì)算它的情感分,公式如下所示:
(4)
2) 利用測(cè)試集的“偽”情感分來(lái)計(jì)算測(cè)試集的情感分
(5)
3.2.3 算法迭代過(guò)程
本算法要同時(shí)利用訓(xùn)練域和測(cè)試域的信息來(lái)對(duì)測(cè)試域的文本進(jìn)行標(biāo)注,因此綜合公式(4)、(5),得到迭代計(jì)算測(cè)試數(shù)據(jù)集的情感分的公式如下所示:
(6)
其中α+β=1,α和β分別表示訓(xùn)練域和測(cè)試域?qū)ψ罱K情感分的貢獻(xiàn)大小。為保證算法收斂,算法每迭代一次都需要將S歸一化(如公式(1)),迭代計(jì)算情感分S并歸一化,直到收斂為止。
得到基于圖模型的跨領(lǐng)域傾向性判別結(jié)果后,我們充分利用其中傾向性判斷較為準(zhǔn)確的測(cè)試文本來(lái)提高整個(gè)測(cè)試集傾向性分析的精度,進(jìn)一步通過(guò)EM算法迭代進(jìn)行跨領(lǐng)域傾向性分析。
EM算法[23]是進(jìn)行極大似然估計(jì)的一種有效方法。之所以命名為EM,是因?yàn)樗惴ǖ拿恳淮蔚▋刹剑旱谝徊角笃谕?Expectation Step),稱(chēng)為E步;第二步求極大值(Maximization Step),稱(chēng)為M步。它是一種迭代方法,每一次迭代都保證似然函數(shù)值增加,最終收斂于一個(gè)局部極大值。然而,它又不是直接對(duì)復(fù)雜的后驗(yàn)分布求極大化,而是在觀察數(shù)據(jù)的基礎(chǔ)上添加一些“種子數(shù)據(jù)”,從而簡(jiǎn)化計(jì)算并完成一系列簡(jiǎn)單的極大化模擬。
我們基于EM算法的思想,從上一節(jié)算法的測(cè)試集傾向性分析最終結(jié)果中選出一部分分類(lèi)最準(zhǔn)的文本作為“種子”,保持這些“種子”文本的類(lèi)別不變,其余測(cè)試集中的文本根據(jù)與這些“種子”之間的相似程度進(jìn)行迭代計(jì)算,如果一個(gè)文本與一些具有支持(反對(duì))態(tài)度的“種子”文本緊密聯(lián)系,則它也很可能持支持(反對(duì))態(tài)度,算法收斂時(shí),得到測(cè)試集的最終傾向性分析結(jié)果。
具體算法如下:
第一步,挑選種子文本。將上一節(jié)算法得到的最終測(cè)試集情感分由高到低進(jìn)行排序,分別將排序列表中最前和最后P/2個(gè)文本作為種子(其中P為待選種子占整個(gè)測(cè)試集文本數(shù)的百分比)。其中前P/2個(gè)文本是最有可能持支持態(tài)度的文本,最后P/2個(gè)文本是最有可能持反對(duì)態(tài)度的文本。
第二步,情感分初始化。根據(jù)上一節(jié)中的判斷結(jié)果,將測(cè)試集中每個(gè)文本的情感分初始化,如果它分配到的標(biāo)簽是“反對(duì)”,則將它的情感分賦為-1;如果它分配到的標(biāo)簽是“支持”,則將它的情感分賦為1。然后將這些情感分利用公式(1)進(jìn)行歸一化。
第三步,EM迭代計(jì)算。在上一節(jié)中,我們已經(jīng)得到一個(gè)DU在測(cè)試域中的鄰居矩陣M=[Mij]n×K以及利用測(cè)試域的情感分來(lái)計(jì)算測(cè)試集的情感分公式(5)。此時(shí),保持種子文本的情感分不變,其余文本由公式(5)根據(jù)其鄰域的情感分來(lái)計(jì)算最終情感分。同樣,為保證算法收斂,算法每迭代一次都需要將除種子以外的文本的情感分歸一化(公式(1)),使得正的情感分之和為1,負(fù)的情感分之和為-1。迭代計(jì)算情感分S并歸一化,直到算法收斂為止。
第四步,判斷文本傾向性。如果文本的情感分在-1到0之間,表示它持反對(duì)態(tài)度;如果一個(gè)文本的情感分在0到1之間,表示它持支持態(tài)度。
目前尚未有傾向性分析的中文文本語(yǔ)料,我們從互聯(lián)網(wǎng)上的評(píng)論中整理出三個(gè)領(lǐng)域的中文數(shù)據(jù)集,分別是:電子評(píng)論(來(lái)源于:http://detail.zol.com.cn/),財(cái)經(jīng)評(píng)論(來(lái)源于:http://blog.sohu.com/stock/)以及酒店評(píng)論(來(lái)源于:http://www.ctrip.com/)。然后由專(zhuān)家將這些數(shù)據(jù)集標(biāo)注為“支持”或“反對(duì)”。數(shù)據(jù)集的具體組成如表1所示(其中“詞典長(zhǎng)度”表示數(shù)據(jù)集中不同詞的數(shù)量):
表1 數(shù)據(jù)集構(gòu)成
我們對(duì)上述數(shù)據(jù)集進(jìn)行以下預(yù)處理:首先,我們使用中文分詞工具ICTCLAS(http://ictclas.org/)來(lái)對(duì)這些中文評(píng)論進(jìn)行分詞,然后,用向量空間模型來(lái)表示文本。在該模型中,每個(gè)文本轉(zhuǎn)化為詞空間中的詞袋表示,詞的權(quán)重用該詞在文本中出現(xiàn)的頻率來(lái)計(jì)算。
在傾向性分析中,特征選擇方法則需要選出具有語(yǔ)義傾向的詞語(yǔ)作為特征詞。我們通過(guò)詞性來(lái)判斷詞的語(yǔ)義傾向性。在漢語(yǔ)中,具有語(yǔ)義傾向的詞語(yǔ)的詞性有12種[24],其中一些嘆詞等雖然也具有傾向性,但在評(píng)論中出現(xiàn)的次數(shù)非常少,因此本文沒(méi)有將它們作為特征提取出來(lái),而是選擇經(jīng)常出現(xiàn)的具有以下4種詞性的詞作為特征,如表2所示:
表2 具有傾向性的詞語(yǔ)的詞性構(gòu)成
本文用LibSVM[7]作為Baseline算法,使用其線(xiàn)性核,并將所有參數(shù)設(shè)為缺省值。另外,將本文算法與結(jié)構(gòu)對(duì)應(yīng)學(xué)習(xí)算法(記作SCL)[12]進(jìn)行比較分析。SCL算法是一種新的跨領(lǐng)域傾向性分析算法。該算法思想為:找出在不同領(lǐng)域中頻繁出現(xiàn)的情感特征作為樞紐特征,然后通過(guò)建模來(lái)獲得非樞紐特征與樞紐特征之間的關(guān)聯(lián)。文獻(xiàn)[12]中的最優(yōu)參數(shù)設(shè)置,本實(shí)驗(yàn)中,我們使用100個(gè)樞紐特征。本文使用精度(Accuracy)作為傾向性分析系統(tǒng)的評(píng)價(jià)標(biāo)準(zhǔn)。
我們提出的算法中有兩個(gè)參數(shù):K和α(β可以由1-α計(jì)算得出)。將K設(shè)為150,表示為每一個(gè)文本求出150個(gè)鄰居;將α設(shè)為0.7,表示訓(xùn)練域?qū)η楦蟹值呢暙I(xiàn)比測(cè)試域略大。同時(shí),我們認(rèn)為對(duì)于di∈DU(i=1,…n),如果連續(xù)兩步計(jì)算得到的情感分si的變化量低于一個(gè)給定的閥值則該算法收斂,本文設(shè)定此閥值為0.000 01。另外,在實(shí)驗(yàn)結(jié)果中,我們將基于圖排序模型的跨領(lǐng)域傾向性分析算法記作GraphOA,將基于EM思想的跨領(lǐng)域傾向性分析方法記作EMOA。
表3顯示了將LibSVM用于傾向性分析時(shí),在特征選擇前、后的精度:
表3 特征選擇前后的傾向性分析精度
表4顯示了當(dāng)進(jìn)行跨領(lǐng)域傾向性分析時(shí),LibSVM、SCL以及基于圖排序的跨領(lǐng)域傾向性分析算法(GraphOA)的精度,其中我們的算法用LibSVM分類(lèi)器進(jìn)行初始化。
在GraphOA的基礎(chǔ)上,我們又進(jìn)行了基于EM思想的跨領(lǐng)域傾向性分析方法(EMOA),其中根據(jù)待選種子占整個(gè)測(cè)試集文本數(shù)的百分比P分別為1%、5%、10%、20%而做了四組實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。
表4 跨領(lǐng)域傾向性分析時(shí)不同算法性能比較
表5 不同取值P時(shí)EMOA算法精度比較
由表3可以看出,本文采用的面向傾向性分析的特征選擇方法可以提高文本傾向性分析的精度,特征選擇后的平均精度提高了1.62%,說(shuō)明我們的特征選擇方法對(duì)于傾向性分析問(wèn)題是適用的。
由表4可以看出,基于圖排序的跨領(lǐng)域傾向性分析算法大幅度地提高了跨領(lǐng)域傾向性分析的精度。其中第2列是LibSVM的精度,第4列為用LibSVM初始化后本算法的精度,對(duì)比可見(jiàn),我們算法的精度均高于LibSVM的精度,平均精度提高了11.9%。精度上如此大幅度的提高表明我們的算法對(duì)于跨領(lǐng)域傾向性分析問(wèn)題非常有效。
表4中第3列為SCL算法的精度,總體上說(shuō),我們對(duì)于SCL算法的實(shí)驗(yàn)結(jié)果與文獻(xiàn)[12]中結(jié)果基本一致。SCL算法的平均精度比LibSVM高,這證明SCL算法對(duì)于跨領(lǐng)域傾向性分析問(wèn)題是有效的。然而從表中可以看出,我們提出的算法的精度優(yōu)于SCL算法。分析其原因,是因?yàn)橐韵聝牲c(diǎn):第一,SCL算法本質(zhì)上是基于詞的共現(xiàn)(窗口大小為整篇文本),因此它很容易被低頻詞及數(shù)據(jù)集大小所影響。第二,SCL算法的樞紐特征是完全由領(lǐng)域?qū)<疫x定的,因此樞紐特征選擇的質(zhì)量會(huì)影響SCL算法的性能。
表5顯示基于EM思想的方法可以進(jìn)一步提高跨領(lǐng)域傾向性分析的精度。當(dāng)選取的種子數(shù)超過(guò)測(cè)試集的5%時(shí),基于EM思想的跨領(lǐng)域傾向性分析方法的精度就開(kāi)始比GraphOA高,并隨著種子百分比的增大而進(jìn)一步提高,當(dāng)P取20%時(shí),基于EM的方法比基于圖排序的跨領(lǐng)域傾向性分析算法的平均精度提高了1.63%。這說(shuō)明基于EM思想的算法對(duì)于跨領(lǐng)域傾向性分析問(wèn)題是十分有效的。
本文提出一種跨領(lǐng)域傾向性分析算法,它將文本的情感傾向性與圖排序方法結(jié)合起來(lái)進(jìn)行跨領(lǐng)域的傾向性分析。在得到迭代最終結(jié)果后,利用其中傾向性判斷較為準(zhǔn)確的測(cè)試文本來(lái)提高整個(gè)測(cè)試集傾向性分析的精度,我們將這些較準(zhǔn)確的測(cè)試文本作為“種子”,進(jìn)一步通過(guò)EM算法迭代進(jìn)行跨領(lǐng)域傾向性分析。我們針對(duì)三個(gè)領(lǐng)域相關(guān)的情感數(shù)據(jù)集檢驗(yàn)本文提出的算法。實(shí)驗(yàn)結(jié)果表明,我們的算法可以大幅度地提高跨領(lǐng)域傾向性分析的精度。
[1] 胡熠,陸汝占,李學(xué)寧,等.基于語(yǔ)言建模的文本情感分類(lèi)研究[J].計(jì)算機(jī)研究與發(fā)展,2007, 44(9): 1469-1475.
[2] 姚天昉,婁德成.漢語(yǔ)語(yǔ)句主題語(yǔ)義傾向分析方法的研究[J].中文信息學(xué)報(bào),2007, 21(5): 73-79.
[3] 唐慧豐,譚松波,程學(xué)旗.監(jiān)督學(xué)習(xí)方法在語(yǔ)氣挖掘中的應(yīng)用研究[J].中文信息學(xué)報(bào),2007,21(6): 88-94.
[4] 趙軍, 許洪波, 黃萱菁, 譚松波, 劉康, 張奇.中文傾向性分析評(píng)測(cè)技術(shù)報(bào)告[C]//第一屆中文傾向性分析評(píng)測(cè)會(huì)議 (The First Chinese Opinion Analysis Evaluation). COAE, 2008.
[5] Weifu Du, Songbo Tan. An Iterative Reinforcement Approach for Fine-Grained Opinion Mining[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Boulder, Colorado, 2009: 486-493.
[6] Huifeng Tang, Songbo Tan and Xueqi Cheng. A Survey on Sentiment Detection of Reviews. Expert Systems With Applications[J]. Elsevier. 2009, 36(7): 10760-10773.
[7] Chang CC, Lin CJ. LIBSVM: a library for support vector machines. 2001. Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm.
[8] Songbo Tan, Xueqi Cheng, Moustafa M. Ghanem, Bin Wang, Hongbo Xu. A Novel Refinement Approach for Text Categorization[C]//Proceedings of the 14thACM international conference on Information and knowledge management. Bremen, Germany, 2005:469-476.
[9] Songbo Tan. An Effective Refinement Strategy for KNN Text Classifier. Expert Systems With Applications[J]. Elsevier. 2006, 30(2): 290-298.
[10] Tan S. B. Neighbor-weighted K-nearest neighbor for unbalanced text corpus[J]. Expert Systems with Applications. 2005, 28: 667-671.
[11] John Blitzer, Mark Dredze, Fernando Pereira. Biographies, Bollywood, Boom-boxes and Blenders: Domain Adaptation for Sentiment Classification[C]//Proceedings of the 45thAnnual Meeting of the Association of Computational Linguistics. Prague. 2007:440-447.
[12] Songbo Tan, Xueqi Cheng, Yuefen Wang and Hongbo Xu. Adapting Naive Bayes to Domain Adaptation for Sentiment Analysis[C]//31stEuropean Conference on Information Retrieval. Springer Berlin: Heidelberg, 2009: 337-349.
[13] Songbo Tan, Gaowei Wu, Huifeng Tang and Xueqi Cheng. A Novel Scheme for Domain-transfer Problem in the context of Sentiment Analysis[C]//Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. Lisbon, Portugal, 2007:979-982.
[14] S. Brin, L. Page, R. Motwami, and T. Winograd, The PageRank Citation Ranking: Bringing Order to the Web[R]. Stanford, CA: Computer Science Department, Stanford University, 1999.
[15] Turney, P.D.Mining the Web for synonyms: PMI-IR versus LSA on TOEFL[C]//Proceedings of the Twelfth European Conference on Machine Learning. Berlin: Springer-Verlag., 2001:491-502.
[16] Vasileios Hatzivassiloglou, Kathleen R. McKeown. Predicting the Semantic Orientation of Adjectives[C]//Proceedings of the 35thAnnual Meeting of the Association for Computational Linguistics and the 8thConference of the European Chapter of the ACL. New Brunswick: NJ, 1997: 174-181.
[17] Turney Peter. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[C]//Proceedings of the 40thAnnual Meeting of the Association for Computational Linguistics. Philadelphila, USA: ACL, 2002: 417-424.
[18] B. Pang, L. Lee, and S. Vaithyanathan. Thumbs up? Sentiment classification using machine learning techniques[C]//Proceedings of EMNLP. Philadelphia, USA: ACL, 2002:79-86.
[19] H. Cui, V. Mittal, and M. Datar. 2006. Comparative experiments on sentiment classification for online product reviews[C]//AAAI. Boston, USA, 2006:1265-1270.
[20] Daume III, H. and Marcu, D. Domain adaptation for statistical classifiers[J]. Journal of Artificial Intelligence Research, 2006, 26: 101-126.
[21] Dikan Xing, Wenyuan Dai, Gui-Rong Xue, and Yong Yu. Bridged refinement for transfer learning[C]//PKDD. Warsaw, Porland, 2007:324-335.
[22] Jing Jiang, ChengXiang Zhai. A Two-Stage Approach to Domain Adaptation for Statistical Classifiers[C]//CIKM. Lisbon, Portugal, 2007:401-410.
[23] Despster, A. P., Laird, N. M., Rubin, D. B. Maximum likelihood from incomplete data via the EM algorithm[J]. Royal Stat Soc. B. 1977,39(1): 1-38.
[24] 王治敏,朱學(xué)鋒,俞士汶.基于現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典的詞語(yǔ)情感評(píng)價(jià)研究[J].Computational Linguistics and Chinese Language Processing, 2005, 10(4): 581-592.