(海軍工程大學電子工程學院計算機工程系 武漢 430033)
人類的情感是一種多成分、多維量、多種類、多水平整合的復合心理過程,是對趨向知覺為有益的,離開知覺有害的事物的體驗傾向[1]。對于人類情感的研究主要集中在情感的產(chǎn)生、識別和表達三個方向,語言是個體情感外在表現(xiàn)的重要途徑之一,分析個體語言表達是進行情感識別研究的重要方法。2010年中國互聯(lián)網(wǎng)輿情報告指出,微博成為網(wǎng)絡輿論主要載體[2],大量微博用戶發(fā)布的文本信息表達個體情緒情感,通過對用戶文本情感提取、識別個體情感,對預防個體極端情緒和行為傾向有重要參考意義。
目前,微博情感分析主要針對大量微博文本情感傾向進行統(tǒng)計分析,研究在商品評價和輿情監(jiān)控等領域的應用。本文則在研究個體情感發(fā)展特點基礎上,分析當前文本情感提取基本方法,提出了基于隱形馬爾科夫鏈方法的情感分析模型,從而分析微博用戶情感及其發(fā)展傾向預測。
情感是一個十分復雜的現(xiàn)象,包含豐富的內(nèi)容。情緒和情感是人對客觀事物的態(tài)度體驗,是人的生理需求和社會需求是否獲得滿足的反映,包括了情感過程和情感個性[3]兩個層次:
1)情感過程:情感的具體表現(xiàn)為情緒和心情兩種情感狀態(tài),情感狀態(tài)變化是變化過程的一個重要方面。當為情緒狀態(tài)時,激動水平較高,有強烈的情緒表現(xiàn)和明顯的情感行為;當為心情狀態(tài)時,激動水平較低,變化緩慢,沒有強烈的情緒表現(xiàn)和明顯的情感行為;從性質(zhì)上情感狀態(tài)可分為高興、憤怒、恐懼、悲哀等。從變化方式上情感過程可分為受外界刺激影響的應急變化和由自身特性決定的自然變化。
2)情感個性:情感個性是與個體特性相關的包括需求、動機、興趣等個性傾向性和能力、性格、氣質(zhì)等個性心理特征。情感態(tài)度表示對人或事物在態(tài)度方面的比較穩(wěn)定的評價性情感,包括褒貶、喜惡等;情感在氣質(zhì)、性格方面主要體現(xiàn)情緒體驗的強度、情緒狀態(tài)變化的速度、情緒的穩(wěn)定性和持久性,以及在同樣外部刺激條件下產(chǎn)生某種情緒傾向性大小等。
情感具有多維度結構,情感的表示可看作具有信息度量的多維空間的點在情感空間中的映射[4]。情感映射維度論認為不同情感是逐漸的、平穩(wěn)的轉變,不同情感之間的相似性和差異性由維度空間距離顯示。代表性的情感維度模型包括:1966年Watson等設計的二維量表分析模型,設計了正負性情緒量表PANAS和癥狀自評量表SCL-90等,1974年Mehrabian和Russell提出的PAD 三維情感模型,認為情感具有愉悅度、激活度和優(yōu)勢度三個維度,以及R.Plutchik 提出結合維度和基本情緒理論的情感錐球模型[5]。
情感分析模型是采用數(shù)學方法分析人類情感,實現(xiàn)情感的模型化和形式化[6]。依照描述情感的數(shù)學方法可分為維度空間、非線性、灰色理論和隨機過程等。
情感分析模型建模主要先對情感進行量化分析,采用情感維度或情感熵等方法,然后對情感自然個性和外界刺激等方面進行分類分層考慮,從概率轉移、分層網(wǎng)絡等方面研究情感狀態(tài)變化,完成對情感的分析。情感分析模型研究主要方法包括基于歐氏空間的情感數(shù)學模型,建立情感空間的概率模型進行分析計算;基于馬爾科夫鏈的情感計算模型,建立情感概率空間從而實現(xiàn)情感變化的模型模擬,給出了情感能量、情感強度和情感熵等概念;基于自組織理論的情感建模,依據(jù)情感由基本情感和表征人意志力的內(nèi)驅力形成,借鑒自組織理論,模糊數(shù)學,最優(yōu)化理論等數(shù)學思想,構建不同性格特征的數(shù)學模型;基于貝葉斯網(wǎng)絡的情感分析建模,定義了性格空間和情感空間,設計了分層和網(wǎng)絡化的情感分析模型[7]。
文本情感分析主要任務就是根據(jù)文本來判斷作者的情感傾向,主要利用底層情感信息抽取的結果將情感文本單元分為若干類別,如分為褒貶,喜悲等對立兩類或更為細致的感情類別(如喜怒哀樂等),并進行分析歸納。文獻[7]最早給出了情感分析的概念,文獻[8]針對中文的文本情感分析的任務、內(nèi)容和主要技術進行描述。
文本情感分析可分為三個研究層次,即情感信息的抽取、情感信息的分類以及情感信息的檢索與歸納。其中情感信息抽取是抽取情感文本中有價值的情感信息,是情感分析的基礎任務,為后續(xù)文本情感分析提供數(shù)據(jù)基礎。
文本情感提取按照處理文本的粒度不同可以分為詞語級,語句級和篇章級;按照不同分析目的,可以分為主客觀分析和主觀分析,前者主要研究作者對客觀事物的褒貶評價,后者則主要研究作者自身的喜怒感受;按照分析內(nèi)容的不同,可分為對新聞事件的情感分析和對商品評價的情感分析;按照技術處理手段可分為基于詞典的情感分析和基于機器學習的情感分析,前者主要是利用基礎情感詞典對文本中詞語進行情感分析,后者則是利用SVM 方法、神經(jīng)網(wǎng)絡、樸素貝葉斯等分類器進行文本情感分析;按照有無人工參與可分為無監(jiān)督分類方法和有監(jiān)督分類方法,主要區(qū)別在于是否需要人工詞語情感標注。
結合微博文本的長度較短,結構不規(guī)范,中文語法結構復雜等特點,本文的文本情感提取算法主要基于情感詞典的方法。
本文主要通過個人微博文本進行情感提取,建立適當模型研究個體情感發(fā)展趨勢。隱形馬爾科夫模型(Hidden Markov Model,HMM)是一種用參數(shù)表示,用于描述隨機過程統(tǒng)計特性的概率模型,因具有成熟算法及其數(shù)據(jù)處理中表現(xiàn)很好的魯棒性廣泛應用于自然語言處理、文本分類等領域[9]。
按照系統(tǒng)的發(fā)展,將時間離散化為事件節(jié)點,對應的系統(tǒng)狀態(tài)用隨機變量表示為一定的發(fā)生概率,這個概率成為狀態(tài)概率。當系統(tǒng)由隨機過程中的某一個階段狀態(tài)轉移到另一個階段狀態(tài)時,在這個轉移過程中存在著轉移的概率,稱為轉移概率。如果轉移概率只和目前相鄰兩個狀態(tài)的變化有關,也就是說下一階段的狀態(tài)只和現(xiàn)在狀態(tài)有關而與過去無關,這種離散狀態(tài)按照離散時間的隨機轉移系統(tǒng)過程,稱為馬爾科夫過程[10]。
HMM 是在馬爾科夫鏈的基礎上發(fā)展起來的。在實際問題中,由于觀察值和狀態(tài)值通常不是兩相對應的,二者通過一定的概率分布描述,實質(zhì)是一個“雙重隨機過程”。其中T為觀察值的時間長度,馬爾科夫鏈過程通過轉移概率(π,A)描述狀態(tài)之間的轉移,確定狀態(tài)序列,隨機過程通過觀察值概率矩陣B確定觀察值和狀態(tài)之間的對應關系得到對應的觀察值序列。
隱馬爾科夫模型的定義如下:λ={X,O,π,A,B},由五個部分組成,詳細含義如下:
1)設X表示狀態(tài)的集合,其中X={S1,S2,…,SN},N表示狀態(tài)的個數(shù)。在t時刻的狀態(tài)用qt表示。雖然狀態(tài)是隱藏的,但在很多應用中,物理意義和狀態(tài)或者狀態(tài)集合相關。狀態(tài)之間的內(nèi)部關系,即從一個狀態(tài)轉移到另一個狀態(tài)。
2)O用來表示一組被觀察值的集合。O={V1,V2,…,VM},M的含義是某狀態(tài)可輸出的不同觀察值個數(shù)。
3)狀態(tài)轉移概率矩陣A={aij},矩陣元素的含義是從一個狀態(tài)轉移到另一個狀態(tài)的概率。aij=P(qt+1=Sj|qt=Si)其中1≤i,j≤N。某些情況下,若任意兩個狀態(tài)之間都可以一步達到,則aij≥0,也就是說狀態(tài)轉移概率矩陣的元素值都大于0。
4)狀態(tài)j時的觀察概率矩陣B={bj(k)}是在狀態(tài)為j的情況下,其相應觀察值的概率求解方式為bj(k)=P{Ot=Vk|qt=Si},其中1≤j≤N,1≤k≤M。
5)初始狀態(tài)π={π1,π2,…,πN},其含義是在初始時刻為某個狀態(tài)概率,其表達式πi=P{q1=Si},其中1≤i≤N。
HMM 模型的基本要素由五個部分組成,也可簡寫成λ={π,A,B},前文提到HMM 模型是雙重隨機過程,在表達式中也體現(xiàn)了這一點,三個關鍵元素實際上可以分為兩個部分,用π,A來說明馬爾科夫鏈,即根據(jù)初始值和狀態(tài)數(shù)可畫個有向圖,觀察概率矩陣B來描述隨機過程。
圖1 情感分析模型結構圖
本文建立針對個體微博文本的情感分析模型,模型基本結構如圖1所示。
其基本步驟為
1)微博文本情感提取,采用基于情感詞典方法對微博文本基本情感進行提取。
2)微博情感量化分析,采用情感維度對提取情感進行量化。
3)利用HMM 對情感進行分析,完成情感狀態(tài)轉移概率研究,進行分析預測。
3.2.1 微博文本情感提取
本文的微博文本情感提取采用基于情感詞典的方法,采用“知網(wǎng)”(Hownet)的語義詞典,是一款為自然語言處理研究人員使用的一個共享軟件。它是將漢語及英語詞語所代表的概念作為描述對象,以展露概念之間、概念所包括的屬性之間的關系作為基礎內(nèi)容的常識知識庫。它所反映的內(nèi)容包括概念的共性及個性,同時還展示了概念之間及概念的屬性之間的各種關系。知網(wǎng)知識庫內(nèi)容包括中英雙語知識詞典、義原分類源文件、知網(wǎng)管理工具以及一些說明文件[11]。
本文采用基于知網(wǎng)的方法對微博文本中情感詞以及否定副詞和句法結構按文獻[12]方法進行情感傾向判別,同時研究文本中副詞、標點符號等采用文獻[13]方法對情感傾向程度進行量化分析,同時采用文獻[14]方法對評價的主客觀進行分析判別。
3.2.2 情感維度量化
根據(jù)微博情感提取的情感傾向T、強度I以及主客觀情感類型SI,采用PAD 情感維度方法構建情感空間。PAD 三維情感模型將情感分為愉悅度、激活度和優(yōu)勢度,其中P代表愉悅度,表示個體情感狀態(tài)的正負特征;A代表激活度,表示個體的神經(jīng)生理激活水平;D代表優(yōu)勢度,表示個體對其他事物的控制狀態(tài)。
采用統(tǒng)計學方法建立個體微博文本情感特征:傾向T,強度I和主客觀類型SI,同PAD 模型P、A和D之間的映射關系。研究不同個體已發(fā)布的300條帶情感色彩的微博,通過基于知網(wǎng)的情感提取得到T、I和SI值,14 名專家針對各微博給出PAD 值,按照GEP算法[15]得到映射公式:
部分基本情感狀態(tài)與PAD 模型空間存在對應關系[16]如表1所示。
表1 情感狀態(tài)空間與PAD 空間對應表
3.2.3 基于HMM 情感分析
設計基于HMM 的情感分析模型,建立簡單的六種情感狀態(tài)的集合X={Xi},Xi={平靜,高興,憤怒,恐懼,悲傷,厭惡},微博文本的觀測集合O={Oi},Oi={傾向Ti,強度Ii,主客觀SIi},對微博文本按發(fā)布時間分為時間序列1,2,…,i,N,通過對應映射關系和隸屬函數(shù)概率得到與集合X的對應。
HMM 模型進行微博文本情感分析,在給定模型的情況下觀察序列O的概率,如何快速地選擇在一定意義下“最優(yōu)”的狀態(tài)序列,使得該狀態(tài)序列“最好地解釋”觀察序列,以及可能的模型空間,如何來估計模型參數(shù),也就是說,如何調(diào)節(jié)模型{π,A,B}的參數(shù),使得P(O|λ)最大。
按照前后向遞推法,由模型λ得到觀察序列O的概率:
按照Viterbi算法,在給定觀察序列O和模型λ的條件下t時刻處于狀態(tài)S的概率:
采用Baum-Welch 算法用于情感模型的參數(shù)估計:
其中,φ為對向前變量a和向后變量β進行處理的比例因子,l為對應觀察序列的序號。
那么建立HMM 情感分析模型如圖2所示。
圖2 微博文本情感分析HMM 模型框架
HMM 模型進行個體微博文本情感分析的基本步驟為:
1)設置模型初始值:隱狀態(tài)數(shù)L=6,觀察狀態(tài)數(shù)N=3,初始情感為平靜л=(1,0,0,0,0)。
2)模型參數(shù)計算:使用訓練樣本按照上述方法得到轉移概率矩陣A以及輸出觀察狀態(tài)概率矩陣B,從而得到HMM 模型(A,B,л)。
3)分析對象狀態(tài)提?。喊刺爝M行時間序列劃分,進行文本情感提取傾向T0,強度I0,主客觀SI0,利用隸屬函數(shù)得到初始狀態(tài)概率л0。
4)情感預測:根據(jù)初始狀態(tài)л0和HMM 模型預測時間序列后的情感狀態(tài)Ot+1。
個體在日常生活中無重大外部時間刺激下,其情感發(fā)展和情緒變化具有相對穩(wěn)定變化狀態(tài),其特點與個體本身特征相關。根據(jù)上述HMM 模型方法可以分析得到微博用戶個體的情感狀態(tài)轉移變化過程,從而能對個體心理情感進步發(fā)展進行預測并及時予以疏導和干預。
本文選用新浪微博中某活躍用戶P 連續(xù)發(fā)布的200篇微博,采用情感詞典Hownet進行情感提取,按照映射公式得到PAD 值,并根據(jù)隸屬函數(shù)和情感對照表1得到微博的六種基本情感狀態(tài),按照HMM 模型方法得到情感狀態(tài)轉移矩陣:
以及情感狀態(tài)分布矩陣:
那么,矩陣A,B表征了用戶P個體情感變化的固有穩(wěn)定特征,結合某時刻T發(fā)布微博文本情感狀態(tài)概率лt=(1,0,0,0,0),按照HMM(лT,A,B,)模型得到最大概率情感狀態(tài)序列,從而得到T+t時刻的用戶P的情感狀態(tài)。
對于該個體10個階段不同初始狀態(tài)的t=10天發(fā)布的微博文本進行情感分析,預測10天后情感特點并根據(jù)實際發(fā)布的微博情感進行比較研究。發(fā)現(xiàn)10個分析案例中其中7個能得到很好預測,其余3個預測結果與實際出入較大,發(fā)現(xiàn)均為外部重大事件發(fā)生導致。分析可以得到以下結論:
1)在個體情感穩(wěn)定情況下,模型能較好地預測分析個體情感發(fā)展。
2)在外部重大事件突發(fā)時,模型矩陣A,B以及部分參數(shù)應當進行調(diào)整。
3)模型具有較好的適應性,在多種初始狀態(tài)情感和發(fā)展變化下,均能較好完成預測。
結合實例分析,對個體微博文本HMM 情感分析模型下一步可以從以下幾點進行改進研究:
1)根據(jù)微博文本情感實時變化建立反饋參數(shù),對模型進行調(diào)整。
2)對進一步研究個體應對外部時間刺激的反映程度對其穩(wěn)定情感模型影響,并針對不同類型時間建立不同影響模型,從而實現(xiàn)對外部事件刺激模型建立的完善。
微博已經(jīng)逐漸成為個體表達情感重要途徑,研究微博情感和預測個體情感發(fā)展具有重要意義。本文建立了基于HMM 的個體微博情感分析模型,通過微博文本情感提取,PAD 情感模型維度量化為HMM 分析做好數(shù)據(jù)準備,采用HMM 模型對個體情感發(fā)展進行分析得到個體情感狀態(tài)變化穩(wěn)定特征,并進行情感預測以實現(xiàn)及時心理疏導,通過實例研究發(fā)現(xiàn)該方法在無外部重大事件刺激下具有很好預測效果,下一步將針對外部事件刺激的情感變化進行研究,提高模型效能。
[1]Tracy J,Ramsey J.Emotions[M].North Carolina:The Guilford Press,2001:21-25.
[2]中國互聯(lián)網(wǎng)信息中心.第二十五次中國互聯(lián)網(wǎng)發(fā)展狀況統(tǒng)計報告[R].中國互聯(lián)網(wǎng)統(tǒng)計報告,2010(1):1-10.
[3]李維杰.情感分析與認知[J].計算機科學,2010(7):11-16.
[4]Picard R W.Affective Compution[M].London:MIT Press,1997:12-17.
[5]王良志.人工情感[M].北京:機械出版社,2009:39-49.
[6]張穎,羅森林.情感建模與情感識別[J].計算機工程與應用,2003(33):98-102.
[7]Bo Pang,Lillian lee.Thumbs up:Sentiment Classification Using Machine Learning Techniques [C]//EMNLP'02,July 6-7,Philadelphia,USA,2002:22-240.
[8]魏韡,向陽,陳千.中文文本情感分析綜述[J].計算機應用,2011,31(12):3321-3323.
[9]李開榮,孔照昆,陳桂香,等.基于改進隱馬爾科夫模型的文本分類研究[J].微電子學與計算機,2012(11):161-165.
[10]李杰.隱馬爾科夫模型的研究及其在圖像識別中的應用[D].北京:清華大學圖書館,2004:12-18.
[11]董振東,董強,郝長伶.知網(wǎng)的理論發(fā)現(xiàn)[J].中文信息學報,2007,21(4):3-9.
[12]黨蕾,張蕾.一種基于知網(wǎng)的中文句子情感傾向判別方法[J].計算機應用研究,2010(4):1370-1372.
[13]楊頻,李濤,趙奎.一種網(wǎng)絡輿情的定量分析方法[J].計算機應用研究,2009(3):1066-1070.
[14]蒙新泛,王厚峰.主客觀識別中的上下文因素的研究[J].中國計算機語言學研究前沿進展,2007-2009:594-599.
[15]Ferreira C.Gene expression programming:a new adaptive algorithm for solving problems[J].Complex System,2001,12(2):87-129.
[16]Gebhard P.ALMA-A Layered Model of Affect[C]//AAMAS'05.Utrecht,Netherlands:ACM,2005:29-36.