江 濤,袁 斌,于洪志,加羊吉
(西北民族大學(xué) 中國民族語言文字信息技術(shù)重點實驗室,甘肅 蘭州 730030)
基于多特征的藏文微博情感傾向性分析
江 濤,袁 斌,于洪志,加羊吉
(西北民族大學(xué) 中國民族語言文字信息技術(shù)重點實驗室,甘肅 蘭州 730030)
中英文微博大都以單一語種來表述,而將近80%的藏文微博都是以藏漢混合文本形式呈現(xiàn),若只針對藏文內(nèi)容或中文內(nèi)容進(jìn)行情感傾向性分析會造成情感信息丟失,無法達(dá)到較好效果。根據(jù)藏文微博的表述特點,該文提出了基于多特征的情感傾向性分析算法,算法使用情感詞、詞性序列、句式信息和表情符號作為特征,并針對藏文微博常出現(xiàn)中文表述的情況,將中文的情感信息也作為特征進(jìn)行情感計算,利用雙語情感特征有效提高了情感傾向性分析的效果。實驗顯示,該方法對純藏文表述的微博情感傾向性分析正確率可達(dá)到79.8%,針對藏漢雙語表述的微博在加入中文情感詞、中文標(biāo)點符號等特征后,正確率能夠達(dá)到82.8%。
藏文微博;混合文本;情感傾向;情感詞;詞性序列
微博作為一種通過關(guān)注機(jī)制分享簡短實時信息的廣播式社交網(wǎng)絡(luò)平臺,已吸引了海量的用戶使用,發(fā)布和查看微博已成為人們每天必做之事[1]。用戶發(fā)布微博通常是為了表達(dá)自己的心情或看法,如對網(wǎng)購產(chǎn)品的看法,對時事發(fā)表評論等,因此微博中蘊含著豐富的情感信息。對微博的情感傾向性研究有助于商家及時掌握產(chǎn)品的反饋信息,也有利于輿情信息的收集與分析。
藏文的情感知識庫建設(shè)相對滯后,在藏文詞法和句法分析上的準(zhǔn)確度與中文也存在較大差距,將中文微博情感分析的方法直接應(yīng)用到藏文微博分析中無法取得較好效果。本文在藏文情感詞典缺乏的情況下,采用人工標(biāo)注加點間互信息計算的方法從現(xiàn)有語料中構(gòu)建藏文情感詞典,利用藏文格語法分析提取藏文微博中的詞性序列和句式作為情感特征,并根據(jù)藏文微博常出現(xiàn)藏漢混排的特點,將中文文本的情感特征也作為情感傾向性的判斷依據(jù),大幅提高了藏文微博傾向性分析的準(zhǔn)確率。
由于傾向性分析是文本情感分析的組成部分,故TREC評測、NTCIR評測以及COAE評測均設(shè)置了相應(yīng)的評測項目,而隨著微博應(yīng)用的快速發(fā)展,面向微博的情感傾向性分析已成為熱門研究課題。目前微博情感傾向性分析方法主要分為兩類: 基于情感知識的方法和基于特征分類的方法。
2.1 基于情感知識的方法
基于情感知識的方法主要通過現(xiàn)有的情感知識(情感詞典、極性詞典等)及語義規(guī)則來判定文本的情感傾向性,該方法需要建設(shè)情感知識庫,使用情感詞典統(tǒng)計文本的正向情感詞和負(fù)向情感詞個數(shù),根據(jù)其差值判斷情感傾向性。文獻(xiàn)[2]根據(jù)中文微博的特點,提出了基于層次結(jié)構(gòu)的多策略情感分析框架,對微博的屬性,如鏈接、表情符號、情感詞典等進(jìn)行了特征選擇,采用基于表情符號結(jié)合情感詞典的方法進(jìn)行情感分類。文獻(xiàn)[3]以HowNet 的情感詞典為基礎(chǔ)構(gòu)建微博情感詞典,在對文本進(jìn)行分句、分詞、標(biāo)注后,構(gòu)建自動機(jī)來計算短文本情感傾向性。文獻(xiàn)[4]在傳統(tǒng)情感詞典的基礎(chǔ)上,加入表情符號詞典和網(wǎng)絡(luò)新詞,構(gòu)建專門的微博詞典,同時對微博進(jìn)行修辭分析和句式分析以提升傾向性分析的效果。文獻(xiàn)[5]基于Apriori算法對金融文本進(jìn)行屬性抽取,構(gòu)建金融情感詞典和語義規(guī)則識別情感單元及強(qiáng)度,進(jìn)行文本的情感傾向性計算。文獻(xiàn)[6]使用自建的藏文詞典,采用TF-IDF統(tǒng)計的方式計算微博的情感傾向,并在小規(guī)模語料中進(jìn)行了測試,分類準(zhǔn)確率可達(dá)65%。
基于情感知識的方法簡單直觀,對于結(jié)構(gòu)簡單的句子能夠取得較好的分類效果,但在實際應(yīng)用中存在較大的局限性。首先情感詞典容易受到建設(shè)成本和規(guī)模的限制[7],其次詞語的情感極性會隨時間和語境的變化而發(fā)生改變,僅憑情感知識無法準(zhǔn)確判定詞語的情感極性。
2.2 基于特征分類的方法
基于特征分類的方法主要是選取文本中的情感特征,利用機(jī)器學(xué)習(xí)算法在已標(biāo)注情感信息的數(shù)據(jù)上訓(xùn)練分類模型,使用該模型預(yù)測文本的情感傾向性。機(jī)器學(xué)習(xí)模型包括支持向量機(jī)(support vector machine,SVM)、樸素貝葉斯(na?ve bayes,NB)和最大熵(maximum entropy,ME)等。文獻(xiàn)[8]首次將機(jī)器學(xué)習(xí)的方法應(yīng)用到文本情感分類中,從文本中抽取出unigram、詞性、詞的位置特征等特征,在SVM、NB、ME上分別進(jìn)行實驗,得出將unigram作為特征并使用SVM模型效果最好。文獻(xiàn)[9]基于遠(yuǎn)距離監(jiān)督的機(jī)器學(xué)習(xí)算法實現(xiàn)了Twitter信息的情感分類,利用一元語法、二元語法及兩種語法模型相結(jié)合的方式實現(xiàn)Twitter信息特征的抽取,該方法對特定領(lǐng)域的傾向性分析效果較為明顯。文獻(xiàn)[10-12]將Twitter上的標(biāo)簽、表情符號和產(chǎn)品評價等信息作為特征,分析其對微博情感分析的影響,采用機(jī)器學(xué)習(xí)方法實現(xiàn)了Twitter的情感分類。文獻(xiàn)[13]使用三種機(jī)器學(xué)習(xí)算法、三種特征選擇算法及三種特征項權(quán)重計算方法對微博進(jìn)行了情感分類的實證研究,實驗證明TF-IDF作為特征權(quán)重,采用SVM和IG方法對微博的情感分類效果最好。文獻(xiàn)[14]提出一種基于SVM和CRF多特征組合的微博情感分析方法,使用詞性、情感詞、否定詞、程度副詞和特殊符號等多文本特征進(jìn)行情感分析。文獻(xiàn)[15] 針對微博文本特征及微博間轉(zhuǎn)發(fā)、評論關(guān)系特征,構(gòu)建情感分析用詞典、網(wǎng)絡(luò)用語詞典及表情符號庫,實現(xiàn)了基于短語路徑的微博話題情感傾向性判定算法?;谔卣鞣诸惖臋C(jī)器學(xué)習(xí)方法是當(dāng)前傾向性判別的主流方法,情感傾向性分析結(jié)果優(yōu)于基于情感知識的方法,但該方法需要大規(guī)模標(biāo)注語料用于模型訓(xùn)練。
目前關(guān)于微博的情感分析研究主要集中在中英文微博方面,面向藏文微博的情感分析研究還處于起步階段,藏文的情感知識庫建設(shè)相對滯后,情感詞典的規(guī)模較小,如果采用基于情感知識的方法進(jìn)行情感分析,會出現(xiàn)情感詞遺漏并影響情感分析的結(jié)果,本文根據(jù)藏文語法特性和藏文微博多以藏漢雙語形式表述的特點,在現(xiàn)有情感分類算法基礎(chǔ)上,提出基于多特征分類的藏文微博情感傾向性分析方法。
3.1 微博符號特征
微博文本中的表情符號能夠較為簡潔、直觀地表達(dá)情感和態(tài)度,能夠反映作者的情感傾向。如表示“[鼓掌]”,表達(dá)作者對某事物的強(qiáng)烈贊同;表示 “[棒]”,表達(dá)贊美之意;表示“[咒罵]”,表達(dá)作者對某事物的深惡痛絕,表示“[抓狂]”,表達(dá)非常憤怒而又無處發(fā)泄的情感,體現(xiàn)作者的負(fù)面情緒。目前以藏文發(fā)布的微博主要來自新浪微博和騰訊微博,本文以新浪和騰訊微博平臺自帶的表情庫為基礎(chǔ)構(gòu)建了表情符號詞典,依據(jù)情感傾向類別和程度將表情符號分為正面強(qiáng)烈情感、正面普通情感、負(fù)面強(qiáng)烈情感和負(fù)面普通情感,并給“強(qiáng)烈”和“普通”兩種程度的表情賦予相應(yīng)情感值。
3.2 藏漢情感詞典
情感詞是表達(dá)人們內(nèi)心情緒的詞語,能夠較好表征文本的情感傾向,利用情感詞和情感極性可以提升情感傾向的判定效果。鑒于藏文微博中大量出現(xiàn)藏漢混排的現(xiàn)象,我們分別建立了藏文情感詞詞典和中文情感詞典。目前藏文還沒有公開的情感詞典,本文采用人工標(biāo)注和自動擴(kuò)展的方式從大量藏文微博語料中提取情感詞。首先人工挑選感情色彩強(qiáng)烈的詞語作為基準(zhǔn)詞語,然后從微博文本中自動抽取形容詞、動詞和名詞并將其作為情感詞的候選項,運用基于擴(kuò)展的點間互信息(so-PMI)的方法計算候選詞與基準(zhǔn)詞的相似度,從而判斷候選詞的情感傾向,將情感傾向較強(qiáng)的詞語一并收錄到詞典中[16]。中文情感詞詞典是在HowNet和NTUSD的基礎(chǔ)上建立起來的,HowNet發(fā)布的情感分析用詞語集里中文詞語約8 942個,NTUSD是臺灣大學(xué)總結(jié)整理的中文情感詞典,包含正向情感詞2 812個,負(fù)向情感詞8 276個。
3.3 詞性序列特征
3.4 句式特征
微博文本句式多樣,隨意性較強(qiáng),主要句式有感嘆句、反問句、疑問句、陳述句,句式不同所反映的情感程度也有所不同。感嘆句是抒發(fā)強(qiáng)烈情感的句式,情感表達(dá)程度最強(qiáng)。反問句是在強(qiáng)調(diào)某種肯定或否定的表述,是陳述句的強(qiáng)調(diào)性的表現(xiàn),情感程度略低于感嘆句。疑問句表達(dá)的是一種不甚了解但比較關(guān)心的一種態(tài)度,情感表達(dá)程度略高于陳述句。另外,微博用戶往往會以連續(xù)的標(biāo)點符號或擬音詞來表達(dá)其強(qiáng)烈的情感,以此來表述比句子本身更強(qiáng)烈的情感傾向。對于此類連續(xù)標(biāo)點和擬音詞,我們分析整理連續(xù)出現(xiàn)兩次以上的相同符號,并根據(jù)各句式所能表達(dá)情感的特點,結(jié)合連續(xù)標(biāo)點符號和句式信息賦予不同句式相應(yīng)的情感系數(shù)。
藏文微博情感傾向性分析處理的對象為純藏文微博和藏漢混排微博兩類,對于純藏文微博,本文選取情感詞、表情符號、否定詞、程度副詞、詞性序列作為情感特征。針對藏漢混排微博,首先提取微博表情符號和藏漢兩種語言的情感詞,其次對藏文部分進(jìn)行句子成分分析,判斷是否存在成分缺失或代詞指代情況,若存在缺失或指代,使用中文部分替換并協(xié)同提取混排文本的詞序特征。為選出更能表達(dá)情感傾向的特征,以及解決情感詞歧義問題,本文使用期望交叉熵來選擇情感特征,情感傾向性判別采用支持向量機(jī)作為情感分類器。
4.1 語料預(yù)處理
(1) 過濾。去除URL鏈接、用戶名(如@YYY、@用戶的ID)、話題(新浪微博中的話題是用#XXX#格式來表示的)。
(2) 語種判斷。藏文微博常涉及藏文和中文兩種語言的文本表述,因此需要進(jìn)行語種判斷和文本提取。本文利用藏文和中文字符編碼,并結(jié)合藏文高頻字詞實現(xiàn)藏漢語種判別和提取。
(3) 分詞及詞性標(biāo)注。藏文文本分詞及詞性標(biāo)注采用西北民族大學(xué)祁坤鈺教授開發(fā)的基于HMM的藏文詞性自動標(biāo)注軟件實現(xiàn),中文文本使用中國科學(xué)院計算技術(shù)研究所的ICTCLAS進(jìn)行分詞和詞性標(biāo)注。分詞過程中加入用戶詞典,詞典主要由微博流行詞語、表情符號詞匯組成。
4.2 期望交叉熵
期望交叉熵(expectation cross entropy)又稱為相對熵(relative entropy),是一種基于信息論的參數(shù)估計的方法。其原始含義為: 當(dāng)不知道X的真實分布h(x)時,假設(shè)X服從的分布為g(x),然后計算g(x)與h(x)的距離即為交叉熵[18]。g(x)與h(x)之間的距離也稱為KL距離,是Kullback-Leibler差異(Kullback-Leiblerdivergence)的簡稱,如式(1)所示。
期望交叉熵方法的原理與信息增益方法相同,唯一不同的是期望交叉熵不考慮特征未出現(xiàn)的情況。期望交叉熵反映文本類別的概率分布和在出現(xiàn)了某個特征項的條件下, 文本類別的概率分布之間的距離,特征項的期望交叉熵值越大,對文本類別分布的影響也越大。
4.3 支持向量機(jī)分類
支持向量機(jī)是Vapnik和其領(lǐng)導(dǎo)的貝爾實驗室小組在1995年提出的一種基于統(tǒng)計學(xué)習(xí)理論的新型的通用學(xué)習(xí)方法,它是在統(tǒng)計學(xué)習(xí)理論的VC理論和結(jié)構(gòu)風(fēng)險最小化原理的基礎(chǔ)上發(fā)展起來的[19]。SVM分類方法是一種具有很好泛化能力的預(yù)測工具,已廣泛應(yīng)用于文本分類、文字識別、圖像處理等領(lǐng)域。在微博情感分析領(lǐng)域,SVM被證明具有最好的分類效果,與其他機(jī)器學(xué)習(xí)方法相比具有更好的魯棒性[13-14]。
支持向量機(jī)是有指導(dǎo)的機(jī)器學(xué)習(xí)算法,根據(jù)情感傾向性分析模型訓(xùn)練的需要,本文將藏文微博語料標(biāo)注為褒義、貶義和中性三種情感類別,使用臺灣大學(xué)林智仁(Chih-JenLin)教授開發(fā)的支持向量機(jī)算法庫Libsvm*http://www.csie.ntu.edu.tw/~cjlin/libsvm/index.html進(jìn)行情感傾向性分析模型的訓(xùn)練與預(yù)測。
5.1 實驗語料
目前還沒有公開的藏文微博語料可用于實驗評測,我們通過微博接口抓取和人工標(biāo)注的方式自建了藏文微博情感傾向語料庫,語料均來自新浪微博,去掉重復(fù)和純鏈接微博,共選出20 000條微博作為實驗語料。藏文微博語料庫分為三部分: 第一部分微博內(nèi)容以純藏文內(nèi)容表述;第二部微博內(nèi)容以中文表述為主,含有少量的藏文;第三部分微博內(nèi)容為藏漢雙語混排文本,雙語內(nèi)容量較為均衡,此部分語料所占比例最大。藏文微博語料類型如表1所示。
5.2 評價方法
本文采用COAE2014提供的評價方法進(jìn)行情感傾向性分析算法評價,以準(zhǔn)確率P(precision)、召回率R(recall)、F值(F-measure)作為評價指標(biāo),即
其中,A表示情感分類器分類正確的微博個數(shù);B表示情感分類器分類錯誤的微博個數(shù);C表示沒被分類和分類錯誤的微博個數(shù);F是對準(zhǔn)確率和召回率的一個平衡均值評估。
5.3 實驗分析
本文分別設(shè)計純藏文微博傾向性分析對比、藏漢雙語混排微博雙語和單語特征對比,以及藏漢雙語混排微博特征選擇方法對比三組實驗,從而確定本文所提出方法的優(yōu)勢和不足。
5.3.1 純藏文微博傾向性分析對比實驗
本實驗提取藏文微博的情感符號、藏文情感詞、藏文詞性和藏文詞性序列作為特征,使用TF-IDF和期望交叉熵進(jìn)行特征表示和選擇,利用SVM算法訓(xùn)練情感傾向性分類模型。藏文微博情感分析的研究成果非常少,為驗證本文方法的有效性,使用文獻(xiàn)[6]提出的基于情感詞典的藏文微博情感分析方法和本文方法進(jìn)行比較,同時選取樸素貝葉斯(NB)分類模型與本文的SVM分類模型進(jìn)行實驗對比。三種方法的實驗結(jié)果見表2。
從表2中可以看出,與基于情感詞典的純藏文微博情感分析方法相比,本文提出融合多特征的傾向性分析方法在準(zhǔn)確率和召回率上都有很大提升?;谇楦性~典的方法沒有考慮微博中出現(xiàn)的表情符號和句子語法成分等特征,其結(jié)果依賴于正負(fù)情感詞的個數(shù),導(dǎo)致其分析結(jié)果的準(zhǔn)確率和召回率都不高。本文方法在藏文情感詞典的基礎(chǔ)上,充分考慮了微博中出現(xiàn)的各種情感信息,如表情符號、藏文的否定詞、程度副詞、詞性序列信息等,傾向性分析效果要優(yōu)于基于情感詞典的方法。與樸素貝葉斯的情感分類方法相比,本文采用的SVM情感分類方法具有更好的魯棒性。因此在選擇相同情感特征的前提下,SVM情感分類方法具有更高的準(zhǔn)確率。
表2 純藏文微博情感分析實驗結(jié)果
5.3.2 藏漢雙語混排微博雙語與單語特征對比實驗
在對藏漢雙語混排微博進(jìn)行情感傾向性分析時,一般做法是抽取單語特征進(jìn)行情感計算,本實驗在提取情感符號、藏文情感詞、藏文詞性序列特征的基礎(chǔ)上,增加了中文情感詞特征和中文句式標(biāo)點符號特征。隨機(jī)抽取6 000篇藏漢雙語混排微博作為實驗語料進(jìn)行模型的訓(xùn)練和測試,該微博語料主要分為“藏文評論中文敘述”“藏文敘述中文評論”“漢藏混合評論敘述”三種類型。雙語特征與單語特征情感分析實驗結(jié)果詳見表3。
表3 雙語特征和單語特征情感分析實驗結(jié)果
5.3.3 藏漢雙語混排微博特征選擇方法對比實驗
文獻(xiàn)[13]對信息增益、DF和卡方三種特征方法做了比較,并證明信息增益+TF-IDF+SVM對微博的情感分類效果最好。本文選取6 000條藏漢雙語混排微博語料分別采用期望交叉熵+TF-IDF、 信息增益+TF-IDF 和互信息+TF-IDF的方法進(jìn)行實驗對比,實驗結(jié)果見表4。從實驗結(jié)果可看出,本文所采用方法對藏漢雙語混排微博語料的分類效果要優(yōu)于其他兩種。原因在于藏漢雙語混排微博文本是兩種語言的混合表述,詞語出現(xiàn)的頻率參差不齊,信息增益的方法對極少出現(xiàn)的詞很敏感,互信息未考慮特征出現(xiàn)頻率對類別的影響程度,而期望交叉熵不考慮特征未出現(xiàn)的情況,降低了非頻繁詞的影響,因此情感分類結(jié)果好于信息增益和互信息。
表4 藏漢雙語混排微博特征選擇方法對比實驗結(jié)果
微博作為主流的信息傳播工具,具有強(qiáng)大的社會影響力,對藏文微博進(jìn)行情感傾向性分析研究有利于藏文輿情分析技術(shù)的發(fā)展。本文根據(jù)藏文微博的特點提出了多特征融合藏文微博情感傾向性分析方法,并針對藏文微博普遍存在藏漢文本混合的情況,將中文情感詞和中文句式特征一并作為情感分析的依據(jù),實驗表明該方法有效地提高了藏文微博傾向性分析的準(zhǔn)確率和召回率。藏文微博傾向性分析研究剛剛起步,由于情感知識庫規(guī)模及藏文詞法分析準(zhǔn)確率的限制,對純藏文表述的微博進(jìn)行情感分析的結(jié)果與中文微博的相比存在一定差距。下一步將提高藏文情感知識庫的質(zhì)量及藏文詞法句法分析的水平,融合機(jī)器學(xué)習(xí)和語義規(guī)則的方法來提升藏文微博傾向性分析的效果。
[1] 文坤梅,徐帥,李瑞軒. 微博及中文微博信息處理研究綜述[J].中文信息學(xué)報,2012,26(6): 27-37.
[2] 謝麗星, 周明, 孫茂松. 基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J]. 中文信息學(xué)報, 2012, 26(1): 73-83.
[3] 韓忠明,張玉沙,張慧,等. 有效的中文微博短文本傾向性分類算法[J].計算機(jī)應(yīng)用與軟件, 2012,29(10): 89-93.
[4] 劉培玉, 張艷輝, 朱振方,等. 融合表情符號的微博文本傾向性分析[J].山東大學(xué)學(xué)報(理學(xué)版),2014,49(11): 8-13.
[5] 吳江,唐常杰,李太勇,等. 基于語義規(guī)則的Web金融文本情感分析[J].計算機(jī)應(yīng)用,2014,34(2): 481-485.
[6] 張俊,李應(yīng)興. 基于情感詞典的藏文微博情感分析研究[J].硅谷, 2014,24(20): 220-222.
[7] Neviarouskaya A, Prendinger H, Ishizuka M. Sentiful: a lexicon for sentiment analysis[J]. Affective Computing, IEEE Transactions on, 2011,2(1): 22-36.
[8] PANG Bo, LEE L,Vaithyanathan S. Thumbs up? sentiment classification using machine learning techniques [C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.2002: 79-86.
[9] Alec Go,Richa Bhayani, Huang Lei. Twitter Sentiment Classification using Distant Supervision[R].CS224N Project Report, Stanford: 2009.
[10] Jiang Long, Yu Mo, Zhou Ming, et al. Target-dependent Twitter sentiment classification [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics. Somerset: ACL, 2011: 151-160.
[11] Davidav D, Tsur O, Rappoport A. Enhanced sentiment learning using Twitter hashtags and smileys [C]//Proceedings of the 23rd International Conference on Computational Linguistics. Bejing, 2010: 241-249.
[12] Kouloumpis E, Wilson T, Moore J. Twitter sentiment analysis: the good the bad and the omg! [C]//Proceedings of ICWSM.AAAI Press,2011,11: 538-541.
[13] 劉志明, 劉魯. 基于機(jī)器學(xué)習(xí)的中文微博情感分類實證研究[J].計算機(jī)工程與應(yīng)用, 2012, 48(1): 1-4.
[14] 李婷婷, 姬東鴻. 基于SVM和CRF多特征組合的微博情感分析[J/OL].計算機(jī)應(yīng)用研究, 2015.
[15] 劉全超, 黃河燕, 馮沖.基于多特征微博話題情感傾向性判定算法研究[J]. 中文信息學(xué)報, 2014,28(4): 123-131.
[16] Alina Andreevskaia, Sabine Bergler. Mining WordNet for a fuzzy sentiment: sentiment tag extraction from WordNet Glosses [C]//Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics.Trento: Association for Computational Linguistics, 2006: 209-216.
[17] 盧偉勝, 郭躬德, 陳黎飛. 基于詞性標(biāo)注序列特征提取的微博情感分類[J]. 計算機(jī)應(yīng)用,2014,34(10): 2869-2873.
[18] Pu Qiang , Yang Guo Wei .Short-text classification based on ICA and LSA [C]//Proceedings of International Symposium on Neural Networks, 2006(ISNN 2): 265-270.
[19] Vapnic V. The nature of statistical learning theory [M]. Springer, 2000.
Multi-featureBasedSentimentAnalysisofTibetanMicroblogs
JIANG Tao, YUAN Bin, YU Hongzhi, JIA Yangji
(Key Lab of Chinese National Linguistic Information Technology, Northwest University for Nationalities, Lanzhou, Gansu 730030, China)
While most Chinese or English micro-blogs are in just one single language, nearly 80% Tibetan Micro-blogs are mixed text of Tibetan and Chinese languages. If emotion orientation analysis is only targeted at Tibetan or Chinese, this analysis would be partial and fail to achieve its goal. According to the expression features of Tibetan micro-blogs, this paper puts forward the algorithm of multi-feature sentiment analysis, upon such features as emotional words, the sequence of part of speech, sentence information and emoticon signs. Dealing with Tibetan micro-blogs, this algorithm takes into consideration the emotional information of Chinese language and has improved the effect of sentiment analysis with the help bilingual information. The experimental results indicate that the sentiment analysis accuracy concerning monolingual Tibetan expression is 79.8%, which is boosted up to 82.8% after taking into consideration of the features of Chinese emotional words and Chinese punctuations.
Tibetan micro-blog; mixed text; sentiment orientation; emotional words; part of speech sequence
江濤(1983—),博士,講師,主要研究領(lǐng)域為自然語言處理。
袁斌(1989—),碩士,工程師,主要研究領(lǐng)域為數(shù)據(jù)挖掘。
于洪志(1947—),學(xué)士,教授,主要研究領(lǐng)域為自然語言處理。
1003-0077(2017)03-0163-07
2015-06-05定稿日期: 2016-10-25
國家自然基金(61262054);西北民族大學(xué)中央專項資金資助研究生項目(Yxm2014001);國家科技支撐計劃項目(2014BAK10B03);甘肅省科技重大專項項目(1203FKDA033)
TP391
:A