梁亞偉(上海海事大學(xué)信息工程學(xué)院,上?!?01306)
基于表情詞典的中文微博情感分析模型研究
梁亞偉
(上海海事大學(xué)信息工程學(xué)院,上海201306)
眾所周知,微博消息中包含了文本、表情、圖像和視頻等信息表達(dá)方式。其中,表情符號由于具有生動、形象的信息表達(dá)特點(diǎn)而被用戶廣泛采納,在一些情感極性比較明顯的微博消息中,表情符號在情感表達(dá)中起著舉足輕重的作用。鑒于缺乏表情情感詞典的研究現(xiàn)狀,本文提出一種基于情感詞典的微博表情情感詞典的構(gòu)建與更新方法。首先,基于微博消息中文本的情感強(qiáng)度值,構(gòu)造出針對整條微博消息的情感曲線。然后,根據(jù)表情符號出現(xiàn)在情感曲線上的坐標(biāo)位置,按照就近原則和加窗方法,找到表情符號臨近的情感詞,根據(jù)情感詞的情感強(qiáng)度計算出表情符號的情感傾向性。最后,采用基于閾值的方法,對表情符號的情感傾向性進(jìn)行推理和歸納,得出表情符號的情感強(qiáng)度和極性,進(jìn)而構(gòu)建表情情感詞典。
基于微博文本情感分析和微博表情情感詞典的研究成果,分析與量化微博消息的情感傾向性。抽取微博情感曲線波動性、微博情感強(qiáng)度、微博情感傾向性、微博正向情感值、微博負(fù)向情感值、文本曲線波動性、文本情感強(qiáng)度、文本情感傾向性、文本正向情感值、文本負(fù)向情感值、表情曲線波動性、表情情感強(qiáng)度、表情情感傾向性、表情正向情感值、表情負(fù)向情感值?;谏鲜鎏卣?,手動對微博情感進(jìn)行標(biāo)注,采用機(jī)器學(xué)習(xí)的方法對微博消息的情感類別進(jìn)行分類。首先基于15種特征,后來采用LDA特征選擇,基于選擇出來的特征進(jìn)行情感分類,選擇分類效果最好的分類方法評價微博情感。
本文基于現(xiàn)有的情感詞匯本體資源庫,采取從文本情感類別倒推表情情感類別的方式,開發(fā)一種基于文本的表情情感詞典的構(gòu)建方法。
1.1文本預(yù)處理以及微博表情符號抽取
在微博情感分析的研究中,針對微博文本信息的分詞和詞匯情感強(qiáng)度量化操作是通過文本預(yù)處理操作來完成的。本文采用中科院分詞工具ICTCLAS和大連理工大學(xué)中文情感本體資源庫分別對微博文本進(jìn)行分詞和詞匯情感強(qiáng)度量化操作。表1是對該情感詞匯本體的格式舉例。
表1 情感詞匯本體格式舉例
微博消息轉(zhuǎn)換成文本格式后,其中包含的表情符號具有一定的文本格式。例如高興的表情符號在微博消息中的表達(dá)方式為“[高興]”,即用“[]”將情感詞匯包裹起來進(jìn)而區(qū)分微博文本消息和表情符號。因此,在抽取微博表情符號時,采用正則表達(dá)式對微博文本進(jìn)行處理,抽取文本中包含的表情符號。
1.2微博文本情感分析
基于上文對文本分詞和詞匯情感強(qiáng)度量化的研究成果,本節(jié)對微博文本情感進(jìn)行量化分析。依據(jù)文本中出現(xiàn)的情感詞和副詞的情感強(qiáng)度,分別計算微博文本正向情感值、負(fù)向情感值和情感傾向性等特征。上述三種特征不僅可以作為后續(xù)基于情感詞典和表情詞典情感分析與評價工作的數(shù)據(jù)特征,而且可以通過上述三個特征值描繪出反映文本情感變化的微博文本情感曲線,并作為對表情符號情感傾向性、強(qiáng)度和極性等量化操作的數(shù)據(jù)基礎(chǔ)。
1.3微博文本情感曲線
微博文本情感曲線根據(jù)微博消息中出現(xiàn)的情感詞和語氣詞的情感強(qiáng)度,反映了微博消息所包含的情感變化。具體來說,根據(jù)微博的文本正向情感值和負(fù)向情感值,可以描繪出文本情感曲線來反映該文本所包含的情感變化。首先獲得文本中出現(xiàn)的每個情感詞匯的正向情感值和負(fù)向情感值,并記錄每個情感詞匯在文本中出現(xiàn)的相對位置;然后按照情感詞在文本中出現(xiàn)的先后順序,以1為單位勾畫出文本情感曲線。本節(jié)對具體的微博消息勾畫文本情感曲線,并展示相應(yīng)結(jié)果。具體的微博消息如下所示:
誰的佐料都沒自己的好,領(lǐng)老婆(自己家的)去看場電影也不錯滴!
要喝風(fēng)花雪月啤酒!
我有!
哈爾濱啤酒節(jié),我來了!
明天我過節(jié),童心未泯呀!
你就不怕事大,不過我同意!
今天新聞?wù)f,9月起個稅起征點(diǎn)調(diào)到了3500,是不是意味著我們工資要上調(diào)了呢?盡管不多,也是漲啊,好兆頭!
哎!因為堵車,我都不敢出門了!
同感!
奶奶的!藥廠又放味,熏得我頭疼,關(guān)鍵熏到孩子怎么辦,喪盡天良!放味者必遭天譴!
也要上班了,肚子也消停了,真怪!看來2012的運(yùn)程不得不信啊!
該微博文本情感曲線勾畫結(jié)果如圖1所示。圖中橫坐標(biāo)表示微博消息中出現(xiàn)的情感詞匯,縱軸表示每個情感詞匯的情感強(qiáng)度值。
圖1 微博文本情感曲線
1.4微博表情情感詞典的構(gòu)建
根據(jù)1.2節(jié)微博文本情感分析的研究成果計算表情符號的情感傾向性、情感強(qiáng)度和極性等量化值,采用聚類的方法對表情符號進(jìn)行分類,結(jié)合本體理論對構(gòu)建的情感詞典進(jìn)行組織和管理。
對于表情情感詞典構(gòu)建方法,其主要步驟敘述如下:
(1)針對采集到的所有微博文本,依次輪循每個微博文本并計算其情感曲線;
(2)對于沒有包含表情符號的微博文本進(jìn)行判斷。當(dāng)微博文本中沒有出現(xiàn)表情符號時,則執(zhí)行(5),反之執(zhí)行(3);
(3)對微博文本的分詞結(jié)果進(jìn)行位置編號。獲得表情符號在文本中的相對位置;
(4)根據(jù)微博情感曲線計算并存儲表情符號情感強(qiáng)度和極性。確切地說,根據(jù)(3)獲得的相對位置,對表情符號所在的文本語句進(jìn)行情感強(qiáng)度和極性計算,即將該文本語句的情感強(qiáng)度作為表情符號的情感強(qiáng)度,對文本語句中出現(xiàn)的正向情感詞和負(fù)向情感詞的情感強(qiáng)度進(jìn)行求和再平均操作;
(5)判斷所有文本是否輪循完畢。完畢后,執(zhí)行(6),反之,執(zhí)行(1);
(6)針對所有微博文本中出現(xiàn)的每一個表情符號進(jìn)行情感傾向性計算,計算公式如式(1)所示。其中,F(xiàn)T表示表情符號情感傾向性,Efi表示所有微博文本中每個表情符號的情感強(qiáng)度,m為表情符號的個數(shù)。此外,根據(jù)存儲的表情符號情感強(qiáng)度和極性值,分別采用平均求和與投票的方法獲得每種表情符號的情感強(qiáng)度和極性;
(7)針對所有表情符號,將其情感強(qiáng)度、極性和情感傾向性作為數(shù)據(jù)特征,采用聚類的方法對所有表情符號進(jìn)行分類。獲得相應(yīng)的分類結(jié)果后,采用人工標(biāo)注的方法,將所有表情分為生氣、高興、厭惡和悲傷等四大類;
(8)流程結(jié)束,采用定義好的表情詞典本體資源庫對表情符號進(jìn)行存儲和管理。表情情感詞典本體格式舉例如表2所示。其中,以[怒]、[吐]、[哈哈]和[傷心]等四個微博表情為例,分別給出本文計算出的情感傾向性、情感強(qiáng)度和極性值。
表2 表情情感詞典本體格式舉例
基于上一節(jié)的研究成果,本文提出一種自動化地基于情感詞典和表情詞典的微博情感分析與評價策略。該策略主要采用機(jī)器學(xué)習(xí)方法,將進(jìn)行了手動式情感標(biāo)注的微博信息作為訓(xùn)練樣本,對新的微博測試樣本進(jìn)行情感傾向性評價。該策略主要流程敘述如下:
(1)根據(jù)需要可以獲取單個用戶或者多個用戶的微博消息并將其轉(zhuǎn)化為文本格式,方便后續(xù)處理。針對單個用戶的微博消息獲取與處理,可以獲得該用戶某段時間內(nèi)的情感變化,主要應(yīng)用于面向個人喜好的人物情感追蹤。針對多個用戶的微博消息獲取與處理,可以獲得用戶對某一事件的情感傾向進(jìn)而應(yīng)用在面向政府機(jī)構(gòu)的輿情監(jiān)控;
(2)對獲得的微博文本進(jìn)行情感詞匯和表情符號抽取,用于計算各種微博情感特征;
(3)基于情感詞典和表情詞典的情感詞匯、表情符號屬性值查詢與獲?。?/p>
(4)基于微博文本中包含的情感詞匯和表情符號情感強(qiáng)度屬性值,計算該微博的情感曲線;
(5)基于微博文本中包含的情感詞匯、表情符號等各種屬性值,以及微博情感曲線,抽取微博消息的情感波動性、情感強(qiáng)度和情感傾向性等多種情感特征;
(6)基于抽取的情感特征,為了避免多種特征之間由于具有較強(qiáng)關(guān)聯(lián)性而出現(xiàn)共線性進(jìn)而影響分類器分類效果的現(xiàn)象,采用線性判別分析(LDA)的方法對多種特征進(jìn)行特征選擇操作;
(7)基于特征選擇結(jié)果,首先采用人工標(biāo)注的方式對大量的微博文本進(jìn)行類別標(biāo)注,與微博表情情感類別一致,本文將微博情感分為生氣、厭惡、高興和悲傷四大類。然后采用Bayes分類器對微博消息進(jìn)行情感分類,并分析該分類器的分類效果;
(8)采用Bayes分類器對每條微博消息進(jìn)行情感類別概率計算,設(shè)計多個閾值劃定情感類別界限,根據(jù)類別概率與類別界限之間的相對距離,對微博情感進(jìn)行評價。
本文使用的微博語料數(shù)據(jù)由第六屆中文傾向性分析評測(COAE2014)競賽提供,共包含了279個用戶的微博數(shù)據(jù),每個用戶擁有10條微博消息,總共2790條微博語料。我們首先采用人工標(biāo)注的方法對下載的微博語料進(jìn)行情感標(biāo)注。經(jīng)過人工標(biāo)注后,2790條微博數(shù)據(jù)包含的正向情感微博數(shù)、負(fù)向情感微博數(shù)和中性情感微博數(shù)如表3所示。
表3 微博數(shù)據(jù)統(tǒng)計表
本文采用準(zhǔn)確率(precision)、召回率(recall)和F測度值(F-Measure)三種評估指標(biāo),評價基于情感詞典和表情詞典的微博情感分類結(jié)果。以計算正向情感分類準(zhǔn)確率、召回率以及F測度值為例,其數(shù)學(xué)公式分別如下:
本文分別采用基于情感詞典的微博情感分析方法以及基于情感詞典和表情詞典的微博情感分析方法,將LDA的特征選擇結(jié)果作為Bayes分類方法的輸入,對微博數(shù)據(jù)分別進(jìn)行正向情感、負(fù)向情感和中性情感的三分類操作。一方面,說明引入表情詞典有利于提高對微博情感進(jìn)行分析的準(zhǔn)確性。另一方面,驗證本文提出的表情詞典構(gòu)建與更新方法在微博情感分析工作中具有有效性?;谇楦性~典的三種情感類別分類結(jié)果如表4所示。結(jié)果顯示,正向情感類別和負(fù)向情感類別的分類準(zhǔn)確率都在75%以上,中性情感類別的分類準(zhǔn)確率為56.3%。說明采用大連理工情感詞匯本體庫對微博文本包含的情感詞匯進(jìn)行量化操作的方法具有有效性。
表4 基于情感詞典的三種情感類別分類結(jié)果
表5 基于情感詞典和表情詞典的三種情感類別分類結(jié)果
基于情感詞典和表情詞典的三種情感類別分類結(jié)果如表5所示。結(jié)果顯示,正向情感類別和負(fù)向情感類別的分類準(zhǔn)確率都在85%以上,中性情感類別的分類準(zhǔn)確率達(dá)到了68.3%。經(jīng)過對比,各項分類指標(biāo)都優(yōu)于基于情感詞典的情感分類結(jié)果,不僅說明了引入表情詞典對微博情感分析的有效性,而且驗證了本文提出的自動化表情詞典構(gòu)建與更新方法具有應(yīng)用價值。
本文基于情感詞典和表情詞典的微博情感分類方法雖然取得了一定的成果,但仍然存在著一些不足和需要改進(jìn)的地方,仍有較大的提升空間。例如,本文方法對微博中性情感類別分類率不高,主要是因為微博語料中出現(xiàn)了較多字義上帶有主觀情緒但在特定語境下為中性情感的情感詞匯,因此,在不同場景下對情感詞匯進(jìn)行語義性識別、提高中性情感詞匯的識別率將在未來工作中加以考慮。
[1]喻琦.中文微博情感分析技術(shù)研究[D].浙江工商大學(xué),2013.
[2]李炤.基于微博情感分析的網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)模型研究[D].蘭州大學(xué),2013.
[3]王文遠(yuǎn).面向情感傾向分析的微博表情情感詞典構(gòu)建及應(yīng)用[D].東北大學(xué),2012.
[4]楊希.基于情感詞典與規(guī)則結(jié)合的微博情感分析模型研究[D].安徽大學(xué),2014.
[5]Yang C,Lin K H,Chen H H.Emotion classification using web blog corpora[C].Web Intelligence,IEEE/WIC/ACM International Conference on.IEEE,2007:275-278.
[6]Quan C,Ren F.Sentence emotion analysis and recognition based on emotion words using Ren-CECps[J].International Journal of Advanced Intelligence,2010,2(1):105-117.
[7]劉志明,劉魯.基于機(jī)器學(xué)習(xí)的中文微博情感分類實證研究[J].計算機(jī)工程與應(yīng)用,2012,01:1-4.
[8]謝麗星,周明,孫茂松.基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽?。跩].中文信息學(xué)報,2012,01:73-83.
[9]林江豪.中文微博情感分析關(guān)鍵技術(shù)研究[D].廣東外語外貿(mào)大學(xué),2013.
[10]鄭毅.基于情感詞典的中文微博情感分析研究[D].中山大學(xué),2014.
Microblog Emotion Analysis;Emotion Curve;Expression Dictionary;Emotion Dictionary
Research on the Chinese Microblog Sentiment Analysis Model Based on Emotion Dictionary
LIANG Ya-wei
(College of Information Engineering,Shanghai Maritime University,Shanghai 201306)
1007-1423(2015)21-0007-05
10.3969/j.issn.1007-1423.2015.21.002
梁亞偉(1990-),男,河南鹿邑人,碩士研究生,研究方向為數(shù)據(jù)挖掘
2015-05-26
2015-07-14
提出一種反映微博文本情感變化的文本情感曲線,采用加窗的方法計算表情符號情感強(qiáng)度,實現(xiàn)自動化的微博表情情感詞典構(gòu)建。其次,基于情感詞典和表情詞典,計算出反映微博情感變化的微博情感曲線,抽取微博情感曲線波動性、微博情感強(qiáng)度和微博情感傾向性等15種情感特征,采用線性判別分析和貝葉斯分類方法分別對微博進(jìn)行特征選擇和情感分類操作,從而判斷微博的情感傾向性。
微博情感分析;情感曲線;表情詞典;情感詞典
Proposes a text emotion curve to reflect the emotional changes of microblog text.Shifts the window to calculate emotional intensity of emoticons,develops an automatic construct and update method of emoticon dictionary.Then,based on emotion and emoticon dictionary,calculates the emotional curve to reflect the emotion changes of microblog,extracts the 15 emotion features such as volatility of emotion curve,emotion intensity and emotional bias,uses linear discriminant analysis and Bayesian method to select features and classify emotions,and then judge the emotional tendentiousness of microblog.