劉志遠,高俊波
(上海海事大學 信息工程學院,上海 201306)
基于話題的微博多特征情感極性分類
劉志遠,高俊波
(上海海事大學 信息工程學院,上海 201306)
通過對新浪微博特點的分析與研究,利用話題下微博文本的多特征,建立微博情感極性分類模型,運用機器學習的分類方法對微博情感極性進行判定,應用微博的轉發(fā)、評論、點贊、粉絲數(shù)與關注數(shù)等的關系進行圖優(yōu)化,提出一種基于話題的微博多特征情感極性分類方法。實驗結果表明,該方法對微博情感極性分類具有良好的效果。
多特征;機器學習;微博;情感極性
隨著科學技術的快速發(fā)展,人與人之間的社交活動逐漸偏向于網(wǎng)絡,大眾慢慢地習慣了在網(wǎng)上瀏覽新聞,互動交流,表達對生活中某些事情的觀點。微博,作為一個社會網(wǎng)絡平臺,用戶可以獲得豐富的實時信息,也為用戶提供了方便的交流方式。根據(jù)統(tǒng)計表明,截止到2016年8月,每個月微博有2.82億使用者,每天有1.26億使用者。如此多的活躍用戶量使微博擁有很多的數(shù)據(jù),在這樣多的數(shù)據(jù)中,其中的大部分是帶有情感傾向的文本數(shù)據(jù),這樣的情感文本數(shù)據(jù)是特別有用的意見資源,對這些話題下的微博內(nèi)容使用文本情感分類的方法進行情感極性的分類研究。
與傳統(tǒng)的文本相比,微博內(nèi)容相對簡單,它的文本短小,其內(nèi)容不能超過140字。而且微博用戶會使用網(wǎng)絡用語、表情符號與鏈接,每個用戶關注事情的角度非常廣泛,這些都增加了微博情感分析的難度。
近年來,對于微博情感的研究引起了許多學者的興趣,國內(nèi)外研究者已在文本情感分析方向做了許多的研究工作,并取得了很多的成果。目前,對文本的情感分類常用的研究方法大致概括為兩種:第一種是使用情感詞典分類的方法,第二種是使用機器學習分類的方法。基于情感詞典的方法是通過利用詞典獲得文本的情感?;跈C器學習的方法重點是文本特征的準確判定,利用選擇的特征進行組合計算文本的情感極性。
本文通過觀察微博的特征提出了利用話題下微博內(nèi)容的多特征,建立話題下微博情感分類模型,運用機器學習的分類方法對微博情感極性進行判定,應用微博的轉發(fā)、評論、點贊、粉絲數(shù)與關注數(shù)等的關系進行圖優(yōu)化,提出一種基于話題的微博多特征情感極性分類方法。
近年來,微博的情感分類已經(jīng)成為自然語言研究的熱門方向,關于文本情感分類方法的研究學術界已經(jīng)取得了豐富的成果??偟膩碚f,情感分類的途徑可以概括為下面的兩種常用的方法。
1.1 基于情感詞典的分類方法
基于詞典的分類方法通常采用WordNet、HowNet詞典來判斷詞語的相同的程度。文獻[1]使用WordNet計算特征詞在積極種子詞與消極種子詞之間的距離,判斷情感極性。文獻[2]建立情感知識庫使用WordNet,對評論中的詞語的情感極性進行選取并確認,判別評論的全體的情感極性。文獻[3]使用PMI方法,計算出微博內(nèi)容中與規(guī)則短語的語義傾向相符合的,判斷微博內(nèi)容的整體傾向。
1.2 基于機器學習的分類方法
基于機器學習方法的步驟:先人工識別文本情感類別并進行標注,把這些標注了的語料作為訓練集,然后運用合適的方法進行文本特征的表示,最后利用機器學習的方法建立可獲得待測文本的情感類別的分類器,得到希望的效果。文獻[4]使用樸素貝葉斯、最大熵和SVM的算法,實驗結果顯示,SVM分類器在幾種分類方法得到了最理想的效果。文獻[5]使用語義特征和機器學習結合的方法,對褒貶詞、否定詞、程度副詞這幾種詞匯迭代遞增選取特征集,使用SVM分類器與對詞的頻率進行加權統(tǒng)計的方法,對實驗的數(shù)據(jù)進行褒貶分類。文獻[6]在特征的提取方法上進行了改進,提出了將詞性、詞組內(nèi)部組成形式、詞語上下文語境多種語法特征結合的方法。文獻[7]在分類方法的角度上進行了研究,提出了一種組合的思路,即將不同的分類器進行組合來提高情感分類的性能。
1.3 微博情感分類方法
微博是一個人們獲取消息,表達觀點的快速交流的信息平臺,現(xiàn)在對微博內(nèi)容的情感分類研究已有了較多的方法。文獻[8]提出了對Twitter上的微博內(nèi)容使用距離監(jiān)督的方法來進行情感判斷,把表情符當成標簽,訓練集為采集到的英文語料,沒有了人工識別標注語料的步驟。文獻[9]提出一種在微博文本上利用與評價目標有關系的特征,以此增加情感分類精度。文獻[10]使用詞、詞性與句法模式利用CRF模型獲得評論句里評價對象,然后用SVM分類器對評論句中的情感進行分類。文獻[11]選擇并自行標明大規(guī)模微博沒有標注的語料,把自動標注的語料運用為訓練集建立微博情感分類器,自動對微博情感類別分類。
由于微博中存在轉發(fā)、回復等評論轉發(fā)方式,加上用戶可同時參與多個話題的談論,這種相互聯(lián)系,形成基于評論文本的交互信息網(wǎng)絡。通過網(wǎng)絡爬蟲等工具可以獲取文本內(nèi)容及相互間交流的過程,這些信息也可以加入到對微博短文本分析過程中。文獻[12]將微博使用者的社會關系聚類,將聚類所得作為特征用以提高分類的效果。文獻[13]針對文本特征向量的維度,對獲取信息的文本結構以及情感表達特點進行分析,使用一種改進的KNN算法進行文本情感分類。
與以上文獻的工作不同的是,本文利用話題下微博文本的多特征,建立微博文本情感分類模型,運用機器學習的分類方法對微博情感極性進行判定,應用微博的轉發(fā)、評論、點贊、粉絲數(shù)與關注數(shù)等的關系進行圖優(yōu)化,提出一種基于話題的微博多特征情感極性分類方法。
本文主要研究微博文本情感極性的分類。本文的輸入是話題下所有采集的微博內(nèi)容,輸出是微博文本的情感極性。運用3個步驟進行情感極性分類的研究。第一步進行主觀性分類,判斷輸入語料庫中的文本是主觀的還是客觀的。第二步進行情感極性判斷,判斷第一步中被分類為主觀的文本的情感極性是積極的還是消極的。第三步性能優(yōu)化,提高分類的性能。本文使用LIBSVM分類器進行研究。
對于文本情感分類的途徑已經(jīng)有許多有效的方法,例如:詞性特征、表情符號特征、上下文關系。在本文的實驗中,有些特征被使用。但是這些特征都是文本本身的特征,忽略了微博文本的特殊性,微博的轉發(fā)、評論、點贊、粉絲數(shù)與關注數(shù)等的多因素是微博文本相對于其他文本特有的特征,本文將這些特征應用于微博文本情感分類。
通常人們表達他們對于某個主題的情感,不是對主題本身,而是對跟主題有相關性的事情。例如,某個人表達對一部電影的評論,他可能選擇電影里面的一個片段或者背景音樂進行評論,讀者可以從這些評論中得到他對于主題的觀點。
本文,文本多的特征一共有5個,分別是:副詞加動詞(例如:我很喜歡這電影,“很”加“喜歡”作為一個特征)、及物動詞加主語、及物動詞加賓語、及物動詞單獨出現(xiàn)和形容詞單獨出現(xiàn)。利用一個二元關系表示這些特征,如果有某個特征即為1,否則為0。
主題通常模糊不清,把主題的外部關系考慮進去可能有更好的效果。本文考慮了微博的轉發(fā)、評論、點贊、粉絲數(shù)與關注數(shù)等。轉發(fā)別人的微博,通常不改變別人的內(nèi)容,通常表達了相同的情感。評論可能支持也可能反對本微博的情感。點贊大多數(shù)表達對微博的贊同,表達了相同的情感。粉絲大部分都對作者的微博認同,也表達了相似的情感。
情感極性分為積極、消極和中立3種,本文利用下面的公式進行圖優(yōu)化:
(1)
3.1 實驗設置
本實驗使用了“2017再出發(fā)”、“汽車”、“美聯(lián)儲加息”、“考研”、“霧霾來襲”這5個主題下的數(shù)據(jù),利用微博爬蟲從網(wǎng)絡上采集實驗需要的數(shù)據(jù),每個主題采集500個微博,然后進行人工標注微博的情感極性,最終得到實驗使用的數(shù)據(jù)集,正向情感有1 056條微博,負向情感有856條微博,中立情感有553條微博,如表1所示。
表1 實驗數(shù)據(jù)
3.2 主客觀性分類
用不同的特征來對比主客觀性分類的效果,為了進行對比,加入了Hownet詞典的分類方法作為對比。實驗中,選取正向與負向的1 912條微博為主觀性的微博,中立的553條微博為客觀性的微博,選取1 400條的主觀性微博與410條客觀性微博為訓練集,余下的512條主觀性微博與143條客觀性微博作為測試集。實驗結果如表2所示。
表2 主客觀性分類的準確性
從表2可以看出,只用文本特征得到的準確率最低,為62.8%,情感詞典對提高準確率有幫助,本文提出的方法的準確率最高,為69.3%。結果表明,本文的方法對情感極性分類的準確率有所提高。
3.3 情感極性分類
選取每個主題每個極性下的2/3作為訓練集,剩下的1/3作為測試集,選擇不同的特征,利用SVM方法分類。
表3 情感極性分類的準確性
實驗結果如表3所示。
從表3可以看出,只用文本特征得到的準確率最低,為76.6%,情感詞典對提高準確率有幫助,本文提出的方法的準確率最高,為86.3%。結果表明,本文的方法對情感極性分類的準確率有所提高。
3.4 結果的優(yōu)化
主題下有的微博沒有轉發(fā)、評論、點贊關系,使用擁有這些關系的微博進行試驗,得到的實驗結果如表4所示。
表4 優(yōu)化的準確率
從表4可以看出,優(yōu)化方法對極性分類的準確率有所提高。
微博情感分類吸引了很多人去研究,本文提出結合微博文本本身與文本上下文的特征微博情感極性分類方法,并利用微博的轉發(fā)、評論、點贊、粉絲數(shù)與關注數(shù)等的關系進行圖優(yōu)化。與之前的利用微博文本方法不同,本文提出了利用文本上下文特征的方法進行微博情感極性分類。實驗結果表明,本文方法分類的準確度優(yōu)于使用微博文本。
在本文方法中,有許多地方有待改進,如將聯(lián)系比較緊密的名詞或名詞短語作為擴展目標,添加到話題詞的集合中,提高情感極性分類的效果,這是今后的研究方向。
[1] KAMPS J,MARX M J,MOKKEN R J,et al.Using WordNet to measure semantic orientations of adjectives[C]. Proceedings of the 4th International and Evaluation, 2014:1115-1118.
[2] Hu Minqing, Liu Bing. Mining and summarizing customer reviews[C]. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2004: 168-177.
[3] TURKEY P D.Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews[C]. Proceedings of the 40th Annual Meeting on Association for Computational Linguistics,2002:417-424.
[4] Pang Bo,LEE L,VAITHYANATHAN S.Thumbs up? Sentiment classification using machine learning techniques[C]. Proceedings of the 2002 Conference on Empircal Method in Language Processing,2002:79-86.
[5] 徐琳宏,林鴻飛,楊志豪.基于語義理解的文本傾向性識別機制[J].中文信息學報,2007,21(1):98-102.
[6] Wei Jin,HO H H,SRIHARI R K.Opinion miner:a novel machine learning system for web opinion mining and extraction[C].Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2009:1195-1204.
[7] PRABOWO R,THELWALL M.Sentiment analysis: a combined approach[J].Journal of Informetrics,2009,3(2):143-157.
[8] JOSHI A, BALAMURALI A R, BHATTACHEARYYA P, et al.C-feel-i:a sentiment analyzer for micro-blog[C].Proceeding of the ACL-HLT 2011 System Demonstration.Portland,Oregon,USA, 2011:127-132.
[9] BARBOSA L,Feng Junlan. Robust sentiment detection on twitter from biased and noisy data[C].Proceedings of the 23th International Conference on Computational Linguistic.Poster,Stroudsburg,PA,USA,2010:36-44.
[10] 包亮,張莉,許鑫. 蘇州園林網(wǎng)絡評論意見挖掘研究[J]. 微型機與應用,2016,35(13):86-89.
[11] 龐磊,李壽山,周國棟.基于情緒知識的中文微博情感分類方法[J]. 計算機工程,2012,38(13):156-158,162.
[12] CHURCHILL A L,LIODAKIS E G,SIMON H Y. Twitter relevance filtering via joint bayes calssifiers from user clustering[EB.OL].(2013-02-26)[2017-02-25]http://cs229.stanford.edu/proj2010/churchill Liodakis Ye Twitter Relevance Filtering Via Joint Bayesclassifiers Fromllser Clustering.pdf.
[13] 劉曉菲,丁香乾,石碩,等.基于改進KNN的消費者評價信息情感分類研究[J].微型機與應用, 2014,33(24):81-83,86.
Multi-feature based sentiment orientation identification for micro-blog topics
Liu Zhiyuan, Gao Junbo
(College of InformationEngineering,Shanghai Maritime University,Shanghai 201306, China)
Basing on analyzing and researching the characteristics of micro-blog, by utilizing multiple features of micro-blog text under the topic, this paper establishes the micro-blog sentiment polarity classification model, judges the polarity of micro-blog by adopting a classification method of machine learning, uses the relationship between the repostment,the comment and the praise of micro-blog, the number of fans and the number of concerns to implement graph-based optimization, and proposes a method of micro-blog’s multi feature sentiment polarity classification based on the topic of micro-blog. The experimental results demonstrates that this method has a favorable effect on sentiment polarity classification of micro-blog.
multi-feature; machine learning; micro-blog; sentiment polarity
TP391
A
10.19358/j.issn.1674- 7720.2017.16.017
劉志遠,高俊波.基于話題的微博多特征情感極性分類[J].微型機與應用,2017,36(16):60-62,66.
2017-02-25)
劉志遠(1992-),通信作者,男,碩士研究生,主要研究方向:數(shù)據(jù)挖掘。E-mail:liu770105275@163.com。
高俊波(1972-),男,博士,副教授,主要研究方向:計算智能、數(shù)據(jù)挖掘。