潘艷茜,姚天昉
(上海交通大學(xué) 計(jì)算機(jī)科學(xué)與工程系,上海 200240)
近年來,微博逐漸成為人們表達(dá)自己看法,交流意見的平臺。微博中包含的大量主觀性信息在許多應(yīng)用領(lǐng)域有很大的潛在價值。然而人工瀏覽這些信息成本高,效率低。所以,針對微博文本的情感分析成為國內(nèi)外的一個研究熱點(diǎn)。與傳統(tǒng)的在產(chǎn)品評論等領(lǐng)域的情感分析相比,由于微博主題包羅萬象且內(nèi)容簡短,對其進(jìn)行情感分析更加困難。目前國外有關(guān)英文Twitter①① https://twitter.com/的情感分析研究已有較為成熟的成果,但基于中文微博的相關(guān)研究工作相對較少。中文中經(jīng)常會使用比喻、反諷等修辭手法表達(dá)情感,使得單純用情感詞典或語義規(guī)則的方法并不能準(zhǔn)確地對其情感進(jìn)行判斷。
情感分析的第一步通常是進(jìn)行主客觀文本分類,主客觀分類要比情感傾向性(正面、負(fù)面)分類更具有挑戰(zhàn)性,因?yàn)橛袝r區(qū)分一篇文本是否包含主觀觀點(diǎn)的界線要比區(qū)分一篇含有觀點(diǎn)的文本是正面還是負(fù)面評價更加模糊。此外,由于本文研究的微博汽車領(lǐng)域還包含大量企業(yè)宣傳的信息,本文不僅僅要進(jìn)行主客觀分類,還需要區(qū)分用戶發(fā)出的觀點(diǎn)句和企業(yè)發(fā)布的官方宣傳。
本文選取了微博汽車領(lǐng)域的文本作為實(shí)驗(yàn)數(shù)據(jù)集,其中的觀點(diǎn)句指用戶對特定品牌的汽車或其屬性評價的句子。例如,微博“最近想買車,12萬左右的預(yù)算,自己看上了新??怂?.6AT舒適型。我覺得福克斯操控和安全,最擔(dān)心K3漆薄皮兒薄,老婆卻鐘情它的配置和外觀?!敝械谝痪錇榉怯^點(diǎn)句,第二句為觀點(diǎn)句。一些官方微博發(fā)布的新聞和新車推廣雖可能包含對汽車的評價,但均不屬于本文定義的觀點(diǎn)句。如“#福特?歷史# 2004年巴黎車展上福特發(fā)布了第二代??怂梗瑸榱搜永m(xù)上代車型良好操控性的傳統(tǒng),第二代??怂箤嚿韯傂杂肿隽思訌?qiáng)。”這條微博雖然含有“良好操控性”、“加強(qiáng)”這些詞,但屬于官方微博為新車發(fā)布做的宣傳,不屬于觀點(diǎn)句。
本文對于微博汽車領(lǐng)域的文本進(jìn)行用戶觀點(diǎn)句識別,取得了如下研究結(jié)果: 提出了用戶觀點(diǎn)句識別問題,對過濾官方微博的宣傳和廣告進(jìn)行了探究;比較了不同特征集合對觀點(diǎn)句識別性能的影響,實(shí)驗(yàn)結(jié)果表明評價詞特征和部分微博相關(guān)特征使得分類器的F值提高了1%以上;對于微博汽車領(lǐng)域文本中非觀點(diǎn)句遠(yuǎn)遠(yuǎn)多于觀點(diǎn)句的問題,本文利用汽車評論語料補(bǔ)充了訓(xùn)練語料,在相同的測試數(shù)據(jù)上測試表明,使用汽車評論和微博做訓(xùn)練數(shù)據(jù)的分類器的F值比只用微博做訓(xùn)練數(shù)據(jù)的方法高4%左右。
主客觀文本分類即判斷一篇文章、一句話或一個詞是主觀的還是客觀的。早期的研究表明主觀性文本與形容詞有很大關(guān)系[1],尤其是帶有感情色彩的形容詞和形容詞比較級[2],并通過計(jì)算候選詞與形容詞詞典中的詞的相似性來抽取主觀性形容詞,從而判斷文本的主客觀性[3]。主客觀分類通常采用監(jiān)督學(xué)習(xí)算法。如2003年,Riloff等人利用主觀性名詞、話語特征和主觀線索建立樸素貝葉斯分類器(Na?ve Bayes classifier)[4]。但監(jiān)督學(xué)習(xí)的弊端是需要大量人工標(biāo)注的數(shù)據(jù),于是2005年,Riloff和Wiebe研究了如何在未標(biāo)記的文本上建立主客觀句分類器,他們首先利用基于規(guī)則的分類器建立訓(xùn)練語料,再利用Na?ve Bayes模型和自學(xué)習(xí)算法訓(xùn)練分類器,所達(dá)到的性能與監(jiān)督學(xué)習(xí)的分類器相當(dāng)[5]。
對于中文的主客觀分類研究,姚和彭在2007年探究了人稱代詞、不規(guī)范的標(biāo)點(diǎn)符號等特征對篇章級主客觀文本分類的作用[6]。2009年,姚和張?zhí)岢隽藘H依賴于正例的半監(jiān)督學(xué)習(xí)的主觀性文本分類方法[7]。2011年COAE評測(Chinese Opinion Analysis Evaluation)中的一項(xiàng)任務(wù)為中文觀點(diǎn)句抽取,最好結(jié)果的F值為0.583 4。該最好結(jié)果首先構(gòu)建領(lǐng)域相關(guān)的情感詞典,然后利用該詞典篩選出觀點(diǎn)句[8]。
微博情感分析是近幾年隨著社交網(wǎng)絡(luò)的發(fā)展而產(chǎn)生的新的研究領(lǐng)域。除傳統(tǒng)文本分類所用的特征外,微博中還含有一些特殊的對情感分類有所幫助的特征,如tweet標(biāo)簽(hashtag)、鏈接和表情符號等[9-10]。2011年,Jiang等人加入了與情感對象相關(guān)的特征來判斷tweet的情感,并利用轉(zhuǎn)發(fā)、回復(fù),同一作者發(fā)布的微博等信息用圖模型進(jìn)行優(yōu)化[11]。2012年,Liu和Li提出一種基于表情符號的Twitter情感分類模型,將Twitter上大量帶有表情符號的tweets與人工標(biāo)記的數(shù)據(jù)有機(jī)結(jié)合,共同訓(xùn)練分類器[12]。
目前關(guān)于中文微博情感分析的相關(guān)研究還比較少。謝等人在2012年提出了基于SVM(Support Vector Machine)的層次結(jié)構(gòu)的多策略方法進(jìn)行微博情感分類[13]。2012年由中國計(jì)算機(jī)學(xué)會中文信息技術(shù)專業(yè)委員會(CCF TCCI)舉辦的中文微博情感分析評測中,第一個任務(wù)為觀點(diǎn)句識別。最好結(jié)果的F值可達(dá)0.784,該系統(tǒng)選用了基于VFI(Voting Feature Interval)分類器的方法,抽取了詞性、標(biāo)點(diǎn)符號、評價詞個數(shù)等特征。
本系統(tǒng)選取汽車相關(guān)微博和汽車評論作為語料,首先對語料進(jìn)行人工標(biāo)注,然后利用現(xiàn)有工具對數(shù)據(jù)進(jìn)行分詞、詞性標(biāo)注和語法分析等預(yù)處理。本文共抽取出四類特征進(jìn)行基于SVM分類器的分類,分別為: 單詞、評價詞、與評價對象有特定語法關(guān)系的詞,以及微博相關(guān)的特征。其中評價詞和評價對象由種子詞利用語法規(guī)則擴(kuò)展得到。整體結(jié)構(gòu)如圖1所示。
圖1 系統(tǒng)結(jié)構(gòu)
3.2.1 詞語特征
本文將句子中所有詞語的TF·IDF(term frequency-inverse document frequency)值作為特征。TF·IDF反映了一個詞在數(shù)據(jù)集中的重要性,其計(jì)算公式如式(1)~(3)所示。
其中fij為詞i在句子j中出現(xiàn)的次數(shù),ni為有詞i出現(xiàn)的句子數(shù),N為總句子數(shù)。
3.2.2 評價詞特征
基于領(lǐng)域內(nèi)評價詞詞典的特征通常對判斷句子的主客觀性起到很大作用,故本文將句子中包含的領(lǐng)域評價詞個數(shù)作為一維特征。
在抽取該特征之前,需要先構(gòu)建領(lǐng)域內(nèi)評價詞詞典。本系統(tǒng)采用了文獻(xiàn)[14]中的方法,先手動選取少量評價詞和評價對象種子詞,再在所有觀點(diǎn)句語料上根據(jù)評價詞之間、評價對象之間以及評價詞和評價對象之間的語法依賴關(guān)系擴(kuò)展出符合微博汽車領(lǐng)域語料的評價詞詞典和評價對象詞典。該方法只考慮詞與詞之間的直接依賴關(guān)系,即詞A直接依賴于詞B,或詞A和詞B都依賴于詞C。用于抽取評價詞和評價對象的語法規(guī)則如表1所示。
表1 情感詞和評價對象抽取規(guī)則
其中s(或f)表示被抽取出的評價詞(或評價對象),{S}(或{F})為已知的評價詞(或評價對象)集合。SS-DepF表示S和F符合依賴關(guān)系S-Dep(S, F)。POS(S)(或POS(F))表示S(或F)的詞性。{JJ}包含JJ和VA(形容詞),{NN}包含NN(名詞)、DC(數(shù)字)和NR(專有名詞),{CONJ}為conj(連詞),{MR}包括nsubj(主謂)、dobj(動賓)、amod(形容詞性修飾語)和pnmod(名詞性后置修飾語)等關(guān)系。每當(dāng)有新詞符合這四種規(guī)則,則將該詞添加進(jìn)評價詞詞典或評價對象詞典,循環(huán)運(yùn)行直至沒有新詞再加入詞典。
3.2.3 與評價對象有語法關(guān)系的詞語特征
除利用詞匯信息外,句子的語法結(jié)構(gòu)特征也被證明在情感分析問題上十分有效。本文將與評價對象有語法依賴關(guān)系的詞也作為分類器的特征,評價對象來自上節(jié)構(gòu)建的評價對象詞典。具體的提取特征的規(guī)則如下所述:
? 如果詞w是動詞,評價對象t是w的賓語,則產(chǎn)生一個D_w_arg1特征。例如,“我覺得福克斯操控和安全,最擔(dān)心K3漆薄皮兒薄,老婆卻鐘情它的配置和外觀?!边@句話中,針對“外觀”這個評價對象,可產(chǎn)生“D_鐘情_arg1”的特征。
? 如果詞w是動詞,評價對象t是w的主語,則產(chǎn)生一個D_w_arg2的特征。例如,“試乘了??怂梗杏X動力不錯,外形也挺好,就是內(nèi)飾太難看了?!边@句話,對于“動力”這個評價對象,可產(chǎn)生“D_不錯_arg2”的特征,對于“外形”,可產(chǎn)生“D_好_arg2”的特征,關(guān)于“內(nèi)飾”,可抽取出“D_看_arg2”的特征。
? 如果w是形容詞或名詞,評價對象t是w所修飾的中心詞,則產(chǎn)生一個D_w_arg3的特征。例如,“我實(shí)在舍不得軒逸的舒適空間和低油耗,可它操控性也確實(shí)不如福克斯?!?,針對評價對象“空間”,可產(chǎn)生“D_舒適_arg3”的特征,對于“油耗”,則產(chǎn)生了“D_低_arg3”的特征。
? 如果w是副詞,并且評價對象t是w所修飾的動詞的主語,則產(chǎn)生D_w_arg4的特征。例如,“20來萬的越野,還是先推薦福特新出的翼虎,操控性出色,舒適性也挺好?!保瑢τ谠u價對象“舒適性”產(chǎn)生了“D_也_arg4”和“D_挺_arg4”兩個特征。
3.2.4 與微博相關(guān)的特征
由于微博除文本之外還包含一些微博特有的信息,如用戶類型、微博類型(是否為原創(chuàng))、鏈接信息、表情符號等,通過觀察,本系統(tǒng)選取了一系列與微博特點(diǎn)相關(guān)的特征:
? 用戶類型。新浪微博共有四類用戶,分別是個人認(rèn)證用戶(紅V)、機(jī)構(gòu)認(rèn)證用戶(藍(lán)V)、達(dá)人和普通用戶。其中機(jī)構(gòu)認(rèn)證用戶發(fā)出的信息最有可能是汽車廠商或4S店對新車的宣傳和廣告,故本文將是否為機(jī)構(gòu)認(rèn)證用戶作為一個特征。
? 微博類型。此處微博類型指該微博是原創(chuàng)的還是轉(zhuǎn)發(fā)的。通常用戶評價都來自原創(chuàng)微博,而被轉(zhuǎn)發(fā)的微博通常是基于事實(shí)的描述。
? 鏈接數(shù)和圖片數(shù)。非用戶觀點(diǎn)句通常含有鏈接和圖片。
? 轉(zhuǎn)發(fā)數(shù)、回復(fù)數(shù)和贊的數(shù)量。直觀來講,客觀的微博傳播范圍比較廣,所以轉(zhuǎn)發(fā)和回復(fù)較多,而主觀的微博(若不是由粉絲眾多的用戶發(fā)出的)傳播范圍較小,轉(zhuǎn)發(fā)和回復(fù)均不會太多,故本本文將轉(zhuǎn)發(fā)數(shù)、回復(fù)數(shù)和贊的數(shù)量分別作為三個特征。
? 微博長度和句子長度。通過觀察微博數(shù)據(jù)發(fā)現(xiàn),客觀性微博的字?jǐn)?shù)一般要比主觀評價的微博字?jǐn)?shù)要多。在統(tǒng)計(jì)了3 063條訓(xùn)練數(shù)據(jù)(2 602條非觀點(diǎn)句、461條觀點(diǎn)句)后得出含有觀點(diǎn)句的微博的平均長度為95字,不含觀點(diǎn)句的微博平均長度為108字,觀點(diǎn)句平均含45字,非觀點(diǎn)句平均39字。說明微博長度和句子長度可作為區(qū)分觀點(diǎn)句和非觀點(diǎn)句的依據(jù)。
? 表情符號。將句子中所有被中括號包含的詞作為表情符號提取出來,作為特征。例如,“新??怂共倏匦院芎茫绿旎[駕駛舒適,速騰馬上要出的GLI很偏運(yùn)動,馬6睿翼操控運(yùn)動元素齊聚,銳志不說了后驅(qū)車[嘻嘻]”將產(chǎn)生“E_嘻嘻”的特征。
本系統(tǒng)用于用戶觀點(diǎn)句識別的所有特征總結(jié)如表2。
表2 用戶觀點(diǎn)句識別特征集合
由于汽車領(lǐng)域的微博中包含大量的企業(yè)宣傳信息,真正的用戶評價非常少,訓(xùn)練集中的非觀點(diǎn)句數(shù)量遠(yuǎn)遠(yuǎn)多于觀點(diǎn)句(比例為6∶1左右)。前人的研究表明訓(xùn)練數(shù)據(jù)的不平衡對分類器的性能有很大影響,分類結(jié)果將偏向于訓(xùn)練語料中較多的那一類,而訓(xùn)練語料中較少的那一類的分類效果很差。由于本文的主要目的是找出觀點(diǎn)句,所以應(yīng)側(cè)重于提高觀點(diǎn)句那一類的分類性能。于是,本文利用了新浪汽車頻道中的用戶評論信息,將所有用戶評論中的句子作為用戶觀點(diǎn)句訓(xùn)練語料加入訓(xùn)練集合,使得訓(xùn)練集中的觀點(diǎn)句與非觀點(diǎn)句達(dá)到平衡。由于用戶評論不含有用戶類型、鏈接等具有微博特點(diǎn)的特征,本文將微博觀點(diǎn)句數(shù)據(jù)對應(yīng)特征的平均值賦給用戶評論數(shù)據(jù)。
本文之所以將新浪汽車頻道中的用戶口碑直接作為觀點(diǎn)句,一是因?yàn)槠渚渥犹卣髋c微博句子比較像,都是短句且都包含一些非規(guī)范詞。例如,這條評論: “油耗低,車內(nèi)駕乘空間較小。我是1.6AT自動舒適型,油耗確實(shí)低,我現(xiàn)在是加的97#汽油,平均每公里油耗0.63元左右,車子暫時沒有什么毛病”。二是因?yàn)橛玫攘康挠脩粼u論數(shù)據(jù)代替微博觀點(diǎn)句做訓(xùn)練集,訓(xùn)練出的分類器效果相似,說明該數(shù)據(jù)符合微博觀點(diǎn)句的特征。表3為分別用260句微博用戶觀點(diǎn)句和260句用戶評論句與260句微博非觀點(diǎn)句進(jìn)行訓(xùn)練得出的結(jié)果。
表3用用戶評論句代替微博用戶觀點(diǎn)句在訓(xùn)練集上進(jìn)行十倍交叉驗(yàn)證的效果比較
訓(xùn)練集組成PrecisionRecallF微博觀點(diǎn)句+微博非觀點(diǎn)句0.8060.8020.801汽車頻道用戶評論+微博非觀點(diǎn)句0.7980.7960.796
在最后的實(shí)驗(yàn)中,本系統(tǒng)先選取等量的人工標(biāo)記的微博觀點(diǎn)句和非觀點(diǎn)句作為訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,再加入等量未人工標(biāo)記的用戶評論句和人工標(biāo)記的微博非觀點(diǎn)句進(jìn)行訓(xùn)練。
實(shí)驗(yàn)中所用到的數(shù)據(jù)集來自新浪微博*http://weibo.com/和新浪汽車頻道*http://data.auto.sina.com.cn/car_comment/,包括??怂?、新寶來和思域三個車型。數(shù)據(jù)規(guī)模為1 000條微博,1 000條汽車評論。去掉與汽車領(lǐng)域無關(guān)的句子和重復(fù)的句子后,還剩余3 063個微博句子,2 141個汽車評論句子。本文對3 063條微博句子進(jìn)行了人工標(biāo)注,觀點(diǎn)句和非觀點(diǎn)句的數(shù)據(jù)分布情況如表4所示。
表4 觀點(diǎn)句與非觀點(diǎn)句數(shù)據(jù)分布
本系統(tǒng)在對句子進(jìn)行分詞之前做了如下預(yù)處理工作:
? 將大寫的英文字母全部替換為小寫,將全角字符替換為半角字符,刪除多余的空格,為分詞做準(zhǔn)備。
? 將“。。?!薄ⅰ?。。”等不規(guī)范的省略號替換為ETC。
? 將微博中出現(xiàn)的“@用戶名”全部替換為USERNAME。因?yàn)橛脩裘ǔEc微博內(nèi)容沒有關(guān)聯(lián),對含有用戶名的句子進(jìn)行分詞和語法分析會產(chǎn)生錯誤,故將用戶名替換為USERNAME。
本文中采用的觀點(diǎn)句識別的評價標(biāo)準(zhǔn)為準(zhǔn)確率(Accuracy),正確率(Precision),召回率(Recall)和F值(F-score),計(jì)算公式如式(4)~(7)所示。
4.3.1 不同特征集合對觀點(diǎn)句識別效果的影響
在本實(shí)驗(yàn)中,僅使用微博語料作為訓(xùn)練和測試數(shù)據(jù)。為了使訓(xùn)練數(shù)據(jù)中觀點(diǎn)句與非觀點(diǎn)句平衡,本文選取了461句非觀點(diǎn)句與461句觀點(diǎn)句構(gòu)成訓(xùn)練集。在該訓(xùn)練集上做10倍交叉驗(yàn)證,結(jié)果如表5所示。
表5 使用不同特征集合時觀點(diǎn)句識別效果
續(xù)表
從表5中可以看出,評價詞個數(shù)、用戶類型、鏈接數(shù)和圖片數(shù)的特征對分類器的性能有較大提高。加入與評價對象有語法關(guān)系的詞、微博類型、句子長度和表情符號的特征使得分類器的F值稍有提高。而加入轉(zhuǎn)發(fā)數(shù)、回復(fù)數(shù)和贊數(shù)以及微博長度的特征卻使得分類器性能下降。究其原因,轉(zhuǎn)發(fā)、回復(fù)和贊的數(shù)量除跟微博的熱門程度有關(guān),還跟微博抓取和發(fā)布的時間差有關(guān),發(fā)布時間越長的微博,轉(zhuǎn)發(fā)數(shù)也會越多。所以這個特征并不能很好地反映微博的主客觀性。而微博長度不能明確反映每句話是否含有觀點(diǎn),相比之下句子長度的特征效果就比較好。最終,本文選取了所有使分類器的F值有所提高的特征,即最后一欄的有效特征,使得分類器的F值比只用詞語做特征時提高了1.2%。
4.3.2 汽車評論數(shù)據(jù)對觀點(diǎn)句識別的作用
為考察汽車評論語料對微博中觀點(diǎn)句與非觀點(diǎn)句分類的作用,本文將上述922個句子(觀點(diǎn)句非觀點(diǎn)句各461句)作為微博語料,將剩余的2 141句微博非觀點(diǎn)句與2 141句汽車評論作為補(bǔ)充訓(xùn)練語料。每次隨機(jī)從微博語料中抽取數(shù)量相等的觀點(diǎn)句和非觀點(diǎn)句(各X句)與補(bǔ)充訓(xùn)練語料一起作為訓(xùn)練數(shù)據(jù),將其余(922-2X)句句子作為測試數(shù)據(jù)。隨機(jī)抽取并測試10次,結(jié)果取平均值。抽取不同數(shù)量的微博訓(xùn)練數(shù)據(jù)得到的F值和準(zhǔn)確率分別如圖2和圖3所示。
圖2 汽車評論數(shù)據(jù)對觀點(diǎn)句識別的作用(F值)
圖3 汽車評論數(shù)據(jù)對觀點(diǎn)句識別的作用(Accuracy)
從圖2和圖3中首先可以看出,隨著訓(xùn)練數(shù)據(jù)的增加,分類器的性能越來越好。這是監(jiān)督學(xué)習(xí)的一個特點(diǎn),但獲取大規(guī)模的人工標(biāo)注的數(shù)據(jù)集又很困難,尤其是在數(shù)據(jù)不平衡的情況下。而加入汽車評論做訓(xùn)練數(shù)據(jù)后,即使人工標(biāo)注的數(shù)據(jù)量很小,也可使分類器的性能穩(wěn)定在較好水平。使用800條微博訓(xùn)練數(shù)據(jù)與汽車評論數(shù)據(jù)一起訓(xùn)練時,分類器的F值和準(zhǔn)確率分別提高了4%和5%。
本文對識別微博汽車領(lǐng)域文本中的用戶觀點(diǎn)句進(jìn)行研究,提出結(jié)合詞語、評價詞、與評價對象有語法依賴關(guān)系的詞以及微博相關(guān)特征的基于SVM分類器的方法,并利用新浪汽車頻道的汽車評論語料解決了微博中用戶觀點(diǎn)句和非觀點(diǎn)句不平衡的問題。實(shí)驗(yàn)表明評價詞個數(shù)、用戶類型、鏈接數(shù)和圖片數(shù)的特征對分類器的性能提高幫助最大。利用這些特征使用戶觀點(diǎn)句識別的F值達(dá)到86.2%。當(dāng)微博訓(xùn)練語料較少時,加入用戶評論數(shù)據(jù)可大幅度提高分類器效果,使得分類器的F值和準(zhǔn)確率分別提高4%和5%。
[1] Bruce R F, Wiebe J M. Recognizing subjectivity: a case study in manual tagging[J]. Natural Language Engineering, 1999, 5(2): 187-205.
[2] Hatzivassiloglou V, Wiebe J M. Effects of adjective orientation and gradability on sentence subjectivity[C]//Proceedings of the 18th conference on Computational linguistics-Volume 1. Association for Computational Linguistics, 2000: 299-305.
[3] Wiebe J M. Learning subjective adjectives from corpora[C]//Proceedings of the National Conference on Artificial Intelligence. Menlo Park, CA; Cambridge, MA; London; AAAI Press; MIT Press; 1999, 2000: 735-741.
[4] Riloff E, Wiebe J, Wilson T. Learning subjective nouns using extraction pattern bootstrapping[C]//Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Volume 4. Association for Computational Linguistics, 2003: 25-32.
[5] Wiebe J, Riloff E. Creating subjective and objective sentence classifiers from unannotated texts[J]. Computational Linguistics and Intelligent Text Processing, 2005: 486-497.
[6] 姚天昉, 彭思崴. 漢語主客觀文本分類方法的研究[C]//第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集. 2007 年.
[7] 姚天昉,張鑫. 一種基于正例的漢語意見型主觀性文本分類方法. 第十二屆中國少數(shù)民族語言信息處理學(xué)術(shù)研討會論文集. 拉薩, 2009年7月.
[8] 許洪波, 孫樂, 姚天昉. 第三屆中文傾向性分析評測 (COAE2011) 總結(jié)報(bào)告[C]. 第三屆中文傾向性分析評測會議, 山東, 2011.
[9] Barbosa L, Feng J. Robust sentiment detection on twitter from biased and noisy data[C]//Proceedings of the 23rd International Conference on Computational Linguistics: Posters. Association for Computational Linguistics, 2010: 36-44.
[10] Davidov D, Tsur O, Rappoport A. Enhanced sentiment learning using twitter hashtags and smileys[C]//Proceedings of the 23rd International Conference on Computational Linguistics: Posters. Association for Computational Linguistics, 2010: 241-249.
[11] Jiang L, Yu M, Zhou M, et al. Target-dependent twitter sentiment classification[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. 2011, 1: 151-160.
[12] Liu K L, Li W J, Guo M. Emoticon smoothed language models for twitter sentiment analysis[C]//Proceedings of the twenty-Sixth AAAI Conference on Artificial Intelligence. 2012.
[13] 謝麗星, 周明, 孫茂松. 基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J]. 中文信息學(xué)報(bào), 2012, 26(1): 73-83.
[14] Qiu G, Liu B, Bu J, et al. Expanding domain sentiment lexicon through double propagation[C]//Proceedings of the 21st international jont conference on Artifical intelligence. 2009: 1199-1204.