萬琪,楊祎
(四川大學計算機學院,成都610065)
中文情緒分析方法研究綜述
萬琪,楊祎
(四川大學計算機學院,成都610065)
隨著互聯(lián)網(wǎng)的持續(xù)發(fā)展,對博客、論壇、微博等社交媒體文本的情緒分析相關研究得到學術界和工業(yè)界廣泛關注。針對中文情緒分析,現(xiàn)有的研究主要有三類方法:基于規(guī)則和情緒詞典方法、基于多類標分類機器學習方法、考慮類標間關聯(lián)的方法。對幾類方法進行介紹,指出存在的一些問題和發(fā)展方向。
情緒分析;機器學習;多類標分類;微博
隨著互聯(lián)網(wǎng)的發(fā)展,論壇、博客等社交媒體成為大眾表達情感和傳遞信息的重要媒介[1]。目前,在移動互聯(lián)網(wǎng)推動下,微博具備的傳播快、信息量大、有較大影響力等特性,很快吸引大量用戶在上面抒發(fā)自己對及時新聞和生活瑣事的感受[2]。這些社交媒體上文本蘊含了巨大的商業(yè)價值,分析其中蘊含的情緒色彩能夠幫助政府進行輿情監(jiān)控、企業(yè)了解用戶體驗、預測電影票房等[3,8]。
情緒是人個體所產(chǎn)生的身體和心理狀態(tài),情緒分析研究目的是能自動識別文本中表達的情緒類別,它是細粒度情感分析任務。Ekman[4]通過研究人的面部表情,將情緒劃分為六種基本狀態(tài):喜(joy)、哀(sad)、怒(anger)、懼(fear)、驚(surprise)、惡(disgust)[8]。由于一篇文檔中可能同時包含多種情緒,Bhowmick等[5]提出將文本情緒識別看成多類標識別問題。中文的文本不同于英文的語言形式,需要預先進行分詞處理[3];同時,由于近幾年微博的流行,微博文本中包含大量的新詞和不規(guī)范表達,這些都對中文情緒分析提出了挑戰(zhàn)。目前,針對中文文本的情緒分析任務主要有三類方法:基于情緒和表情詞典方法、基于多類標分類機器學習方法、考慮類標間關聯(lián)的方法。
1.1 基于詞典和規(guī)則的方法
中文微博情緒分析在起步階段,許多學者研究建立高精度的中文情緒詞典在社交媒體文本分析中的應用[8]。國外有學者在對Twitter等微博進行情緒分類以及情緒強度的分類時,提出利用基于情緒詞表的規(guī)則方法[6],對中文情緒分類有一定的借鑒意義。國內(nèi)學者在研究情感分析時,提出從語言學角度出發(fā),分析詞典中對詞匯語義定義的特點,采用“情感傾向定義”權重優(yōu)先的計算方法獲得短語中各詞的語義傾向度[7],對文本進行情感分類。文獻[8]提出一種以詞典為依據(jù)的基于規(guī)則的中文情緒分析方法,選取了外部資源HowNet和C-LIWC這兩個被廣泛應用的情感詞典,利用詞典微博文本情緒自動分析,找到微博中所包含的情緒詞,情緒詞數(shù)量最多的那種情緒為該文本的主要情緒。然而,基于詞典的方法,不能處理文本中情緒詞缺失和隱式情緒表達的情況,文獻[9]提出了兩階段法進行微博文本的情緒分析;第一步借助情緒詞典進行情緒的自動識別,第二步利用SVM對未覆蓋的文本進行情緒預測,在NLPCC 2014相關評測任務中取得了較好的效果。
1.2 基于多類標分類機器學習方法
基于詞典和規(guī)則的方法,存在情緒詞缺失和匹配的情緒詞有時并不能表達文本當前的真實情緒等問題,同時大多數(shù)該方法是一種無監(jiān)督算法,效果并不理想,所以也有很多學者研究基于統(tǒng)計的機器學習方法來解決文本情緒識別問題。國外,Bhowmick等[5]第一次提出將該問題看成是一個多類標識別的分類問題,同時提出了基于多類標KNN有監(jiān)督算法來識別句子中的情緒類別。文獻[10]提出了基于SVM的中文微博情緒分類方法,主要探討在利用機器學習算法前提下,文本中選取表情、詞袋模型和情緒詞典等特征對微博情緒分類的影響。這些方法解決了文本中多種情緒的識別,但是沒有分析不同情緒極性的強弱。
文獻[9]提出基于Calibrated Label Ranking算法的機器學習方法,解決識別中文情緒類別的強弱順序問題。該方法,先將多類標分類問題轉化成多個單類標分類問題,利用樸素貝葉斯和SVM算法得到每種情緒類別的概率值;然后更具Calibrated Label Ranking公式(1)計算得到一定閾值內(nèi)排序靠前的情緒類別。
其中,f(xi,yj)表示在文本xi中情緒yj的概率大小;如果滿足設置,<π>=1,否則為0;rankf(xi,yj)表示情緒yj在當前文本的排序值。
1.3 考慮類標間關聯(lián)的方法
上述基于多類標分類機器學習方法在識別文本情緒類別時,沒有考慮文本中情緒類別之間的關聯(lián),比如:負向情緒憤怒(anger)和厭惡(disgust)往往是共同出現(xiàn)的。所以,有學者提出基于類標關聯(lián)的方法,主要思路有:基于多層次分類模型[3,11]和基于類標依賴的概率圖模型[12]的情緒分析方法。
(1)基于多層次分類模型
圖1 微博文本情緒層次結構圖
文獻[11]提出了根據(jù)情緒的正負極性及情緒間的關系,將六類情緒分為三個層次,微博情緒的層次結構如圖1所示,基于樸素貝葉斯模型的多層次情緒分析方法。
(2)基于類標依賴的概率圖模型
文獻[12]考慮了根據(jù)文本中情緒類標共現(xiàn)的情況,提出了基于上下文和類標依賴的概率圖模型,希望計算在給定網(wǎng)絡因子圖G情況下,情緒類別Y分布的情況P(Y|G)如公式(2),通過實驗對比,該方法相比其他方法取得目前最好的效果[12]。
DFG圖模型的學習過程,是通過極大似然估計L(θ)=log Pθ(Y|G),估計最好的參數(shù)θ=({α},{β},{δ}),最終得到最優(yōu)的參數(shù)θ如式(6)。
本文基于現(xiàn)有的中文情緒分析研究成果進行了介紹,分析了中文情緒分析面臨的挑戰(zhàn)和幾類方法的改進思想。未來,自動分析中文的情緒傾向將有助于預測事件走向、大眾需求進而作出迅速及時的反應,具有很高的應用價值,隨著新的技術不斷被提出,這一領域的工作也是越來越成熟;但是中文的語言形式也在不斷演化,給這項任務提出新的挑戰(zhàn),也需要進一步的探索新的解決方法。
[1]周勝臣,瞿文婷,石英子.中文微博情感分析研究綜述[J].計算機應用與軟件,2013,30(3):161-164.
[2]黃萱菁,張奇,吳苑斌.文本情感傾向分析[J].中文信息學報,2011,25(6):118-125.
[3]謝麗星,周明,孫茂松.基于層次結構的多策略中文微博情感分析和特征抽取[J].中文信息學報,2012,26(1):73-83.
[4]Ekman P.Facial Expression and Emotion[J].American Psychologist,1993,48:384-392.
[5]Bhowmick P.,A.Basu,P.Mitra,etal.Multi-Label Classification Framework[C].Research in Computing Science.Special Issue:Natural Language Processing and Its Applications,pp.143-154.
[6]G Paltoglou,M Thelwall.Twitter,MySpace,Digg:Unsupervised Sentiment Analysis in Social Media[J].Acm Transactions on Intelligent Systems&Technology,2012,3(4):67-83.
[7]李鈍,曹付元,曹元大等.基于短語模式的文本情感分類研究[J].計算機科學,2008,35(4):132-134.
[8]牛耘,潘明慧,魏歐等.基于詞典的中文微博情緒識別[J].計算機科學,2014,41(9):253-258,289.
[9]MWang,M Liu,SFeng,DWang,etal.A Novel Calibrated Label Ranking Based Method for Multiple Emotions Detection in Chinese Microblogs[J].Communications in Computer&Information Science,2014,496:238-250.
[10]C Li,H Wu,Q Jin.Emotion Classification of Chinese Microblog Text Via Fusion of BoW and eVector Feature Representations[J]. Springer Berlin Heidelberg,2014,496:217-228.
[11]劉寶芹,牛耘.多層次中文微博情緒分析[J].計算機技術與發(fā)展,2015,25(11):23-26.
[12]S Li,L Huang,RWang,et al.Sentence-level Emotion Classification with Label and Context Dependence[C].ACL,2015:1045-1053.
Research Overview of Chinese Emotion Analysis
WAN Qi,YANG Yi
(College of Computer Science,Sichuan University,Chengdu 610065)
With the continuous developmentof the Internet,research on the emotional analysis of socialmedia such as blog,forum,micro-blog has been widely concerned by the academ ic and industrial circles.According to the Chinese emotion analysis,there are three main methods in the present study includemethod based on rule and expression dictionary,machine learningmethod based onmulti label classification and method of the correlation between the emotion labels.Introduces thesemethods are,and points out some problems and development directions.
Emotion Analysis;Machine Learning;MultiClass Label Classification;Micro-Blog
1007-1423(2017)03-0003-03
10.3969/j.issn.1007-1423.2017.03.001
萬琪(1991-),男,湖北荊門人,碩士研究生,研究方向為自然語言處理楊祎(1993-),女,四川南充人,碩士研究生,研究方向為自然語言處理
2016-11-01
2016-12-30