張 茜, 張士兵, 任福繼, 張曉格,2
(1. 南通大學(xué) 電子信息學(xué)院,江蘇 南通226019;2. 南通先進(jìn)通信技術(shù)研究院有限公司,江蘇 南通 226019;3. 德島大學(xué) 工程學(xué)院,日本 德島 7700855)
微博2.0是最受歡迎的應(yīng)用之一,它給予用戶更自由、更快捷的方式來溝通信息、表達(dá)觀點、記錄心情。這種140字左右的文字更新信息為公開可用的文本提供了豐富的資源。因此,很多對中文文本情感分析的研究都是基于微博平臺展開的[1-3]。新浪微博中的原創(chuàng)微博下存在著用戶評論,對這些評論進(jìn)行褒貶態(tài)度的挖掘能幫助用戶快速了解評論用戶對原創(chuàng)微博內(nèi)容的認(rèn)可程度,對評論進(jìn)行方面觀點的提取可以為用戶提供細(xì)粒度的信息。
微博情感分析的方法按照學(xué)習(xí)方法的不同可以分為監(jiān)督學(xué)習(xí)方法、半監(jiān)督學(xué)習(xí)方法與無監(jiān)督學(xué)習(xí)方法。近年來,以LDA(Lateut Dirichlet Allocation)為基礎(chǔ)的主題情感模型能有效地避免傳統(tǒng)無監(jiān)督學(xué)習(xí)方法依賴情感詞典的缺點,達(dá)到較好的情感識別效果[4-7]。然而,直接對原創(chuàng)微博下的用戶評論進(jìn)行情感極性分析,并不能完全反映用戶對原創(chuàng)微博的褒貶態(tài)度。因為有些評論針對原創(chuàng)微博,有些評論是用戶閱讀原創(chuàng)微博后有感而發(fā)表達(dá)的與原創(chuàng)無關(guān)的評論?,F(xiàn)舉例說明:
例1:原創(chuàng)微博內(nèi)容有關(guān)全國政協(xié)委員白巖松,提案中呼吁要多關(guān)注“非名?!钡膶W(xué)生。讓他憂心的是,“這些非名校的學(xué)生絕對是中國未來建設(shè)的基石。但他們大學(xué)四年就在不自信、自卑、迷茫,甚至混日子中度過”。
用戶1: 字字珠璣!醍醐灌頂[good]
用戶2: 工人農(nóng)民都是建設(shè)國家的基石??!
用戶3: 本科還好啦,??瞥鋈ジ徽腥舜姟二哈][二哈][二哈]
用戶1的評論內(nèi)容很容易看出,該評論針對原創(chuàng)微博本身。而用戶2與用戶3的評論都屬于與原創(chuàng)無關(guān)的評論,它們沒有表明對提案的態(tài)度傾向。用戶2感慨工人農(nóng)民對于國家建設(shè)都很重要,用戶3則敘述其認(rèn)為的專科生求職現(xiàn)狀。
由例1我們可以看出,只是分析情感極性而忽略評論對象,會影響評論集褒貶態(tài)度分類結(jié)果的準(zhǔn)確率。其次,用戶在發(fā)表評論時,會選擇表情符號表達(dá)感情或是強(qiáng)調(diào)補(bǔ)充文字所表達(dá)的情感傾向,其中表情符號蘊含了大量的情感信息[8],若將其作為噪聲去除,有可能會產(chǎn)生情感極性的誤判。
針對上述問題,我們提出了微博評論方面觀點褒貶態(tài)度挖掘方法。首先,提出通過三個相似度方法計算每條評論與原創(chuàng)微博的相關(guān)度,識別出與原創(chuàng)微博內(nèi)容無關(guān)的評論;其次,提出用融入了表情符號情感層與文本情感層的主題模型,實現(xiàn)微博評論方面觀點與褒貶態(tài)度的同步推導(dǎo)。實驗表明,表情符號情感層的融入能提高模型的褒貶態(tài)度識別能力。
隨著互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)評論信息的日益增長,觀點挖掘技術(shù)逐漸成為數(shù)據(jù)挖掘技術(shù)中重要的一部分[9-10]。方面、持有者、觀點內(nèi)容及情感是組成觀點的四個元素[11]。Hu等[12]提出了通過關(guān)聯(lián)挖掘,提取高頻名詞及名詞短語作為意見目標(biāo)的方法。Zhou等[13]提出CMiner系統(tǒng)用于實現(xiàn)方面提取到觀點總結(jié),他們首次將CMiner系統(tǒng)用于微博話題評論數(shù)據(jù)。
近年來,以LDA主題模型[14]為基礎(chǔ)的方面觀點挖掘的方法逐漸受到關(guān)注。在這些方法中,方面和觀點詞被建模為主題。Titov等[15]通過拓展標(biāo)準(zhǔn)主題建模方法來歸納多粒度主題。他們表明當(dāng)局部主題可以發(fā)現(xiàn)方面時,全局主題可以發(fā)現(xiàn)實體。李晨曦等[16]考慮到文本屬于不同類別的隱含信息,基于LDA主題模型建立了“類別—文檔—主題—單詞”四層結(jié)構(gòu)的新模型,用于提取多類型文檔的觀點信息。
微博的表情符號通常反映用戶的心情,蘊含情感信息。謝麗星[17]指出表情符號在微博文本中以“[(.*?)]”的正則表達(dá)式出現(xiàn)。Zhang等[18]建立了一個加權(quán)網(wǎng)絡(luò)分析微博的情感,該網(wǎng)絡(luò)中表情符號為節(jié)點,互信息關(guān)聯(lián)系度為邊的權(quán)重值。黃發(fā)良等[8]提出了一個基于多特征融合的微博主題情感挖掘模型TSMF(Topic Sentiment Model Based on Multi-feature Fusion)。該模型將情感表情符號與微博用戶性格情緒特征納入到圖模型LDA中,實現(xiàn)微博主題與情感的同步推導(dǎo)。
本文基于主題模型對原創(chuàng)微博下的評論進(jìn)行細(xì)粒度信息分析。我們將原創(chuàng)微博內(nèi)容與評論中的名詞及名詞短語作為每條評論的方面,其他詞語作為觀點詞語,來研究微博評論方面觀點提取的問題。如:“酸奶和養(yǎng)樂多是最好的選擇”這句評論中“酸奶”、“養(yǎng)樂多”是這條評論語句的方面信息,“最好”“選擇”是該條評論語句的觀點信息。我們首先計算語句之間方面的相關(guān)度,識別出評論對象與原創(chuàng)無關(guān)的評論;其次,我們使用JAOES(Joint Aspect-Based Opinion and Emoticon-Sentiment)模型實現(xiàn)評論集方面觀點和褒貶態(tài)度的同步推導(dǎo)。
本節(jié)首先介紹與原創(chuàng)微博內(nèi)容無關(guān)評論的判別方法,然后詳細(xì)介紹我們提出的微博評論褒貶態(tài)度挖掘算法。
新浪微博原創(chuàng)微博下存在著很多評論,有些評論內(nèi)容是針對原創(chuàng)微博內(nèi)容本身,帶有褒貶態(tài)度傾向;有些評論則是用戶閱讀完原創(chuàng)微博內(nèi)容后有感而發(fā)寫下的,評論對象與原創(chuàng)微博內(nèi)容無關(guān)。因此,我們提出與原創(chuàng)無關(guān)的評論判別方法,通過計算原創(chuàng)微博與評論之間的相關(guān)度,識別與其無關(guān)的評論。
字符串相似度考慮的是同時出現(xiàn)在兩個方面當(dāng)中的漢字的個數(shù)。例如,“白巖松委員”,“白老師”和“白巖松”都是同一個評論對象,它們都擁有漢字“白”。通常用杰卡德相似性系數(shù)去度量短語AO1與AO2之間的字符串相似度,如式(1)所示。
(1)
其中,A(·)表示一個方面包含的漢字集。
(2)
為了得到兩個方面之間的語義相似度,我們使用Word2Vec訓(xùn)練詞向量?;谟?xùn)練好的詞向量模型,計算兩個方面之間相似度的值,從而判斷它們之間的關(guān)聯(lián)程度。如:“桃子”與“草莓”之間的相似度的值會遠(yuǎn)遠(yuǎn)大于“桃子”與“手機(jī)”之間相似度的值。
我們計算原創(chuàng)微博方面與每條評論語句方面之間的字符串相似度和語義相似度;計算每條評論觀點詞語與原創(chuàng)微博觀點詞語之間的情景相似度。將上述方法得到的三個相似度值進(jìn)行累加并歸一化,作為每條評論與原創(chuàng)微博的相關(guān)度。若相關(guān)度小于0.5,則認(rèn)為該評論是與原創(chuàng)內(nèi)容無關(guān)的評論。這個閾值是通過大量的實驗而決定,可以使得與原創(chuàng)無關(guān)的評論的判別準(zhǔn)確率達(dá)到最優(yōu)。如果評論中不存在方面,則默認(rèn)評論對象存在于原創(chuàng)微博中。
LDA“文檔—主題—單詞”三層貝葉斯主題模型,是無監(jiān)督學(xué)習(xí)算法,是典型的詞袋模型。LDA模型在訓(xùn)練數(shù)據(jù)時不需要手工標(biāo)注訓(xùn)練集,只需要文檔集以及指定主題的數(shù)目。在文本主題識別、文本分類的研究中廣為使用。
本文基于LDA主題模型,提出融入表情符號情感層與文本情感層的新模型JAOES (joint aspect-based opinion and emoticon-sentiment)(圖1所示,符號說明見表1),JAOES模型可以實現(xiàn)方面觀點和褒貶態(tài)度的同步推理。
圖1 JAOES圖模型
α(評論,表情符號情感,文本情感)—方面分布的Dir參數(shù)β(表情符號情感,文本情感,方面)—詞語分布的Dir參數(shù)λ(評論,表情符號情感)—文本情感分布的Dir參數(shù)μ評論-表情符號情感分布的Dir參數(shù)A(評論,表情符號情感,文本情感)—方面分布B(表情符號情感,文本情感,方面)—詞語分布V評論—表情符號情感分布E(評論,表情符號情感)—文本情感分布W評論中的詞語數(shù)w詞語t方面e文本情感q表情符號情感Q表情符號情感數(shù)L文本情感數(shù)T方面數(shù)M微博評論數(shù)N評論詞庫的詞語數(shù)
過濾掉人工標(biāo)注的與原創(chuàng)無關(guān)的評論得到的微博評論集D={s1,s2,…,sM}。其中,M為微博評論集D的總數(shù),N為評論集D的詞庫的詞語數(shù),每一條評論sm的文本部分是由Wm個單詞構(gòu)成的。JAOES生成評論集D的過程大致如下:首先,某條評論以一定的概率從評論—表情符號情感分布中選擇表情符號情感q,V服從參數(shù)為μ的Dirichlet分布;其次從(評論,表情符號情感)—文本情感分布中選擇文本情感e,E服從參數(shù)為λ的Dirichlet分布;根據(jù)(評論,表情符號情感,文本情感)—方面分布選出方面t,A服從參數(shù)為α的Dirichlet分布;最后,從(表情符號情感,文本情感,方面)—詞語分布選出詞語w,B服從參數(shù)為β的Dirichlet分布。算法1為該過程的形式化描述。
算法1微博評論集D的生成過程
for eachq∈{1, 2, …,Q}
for eache∈{1, 2, …,L}
for eacht∈{1, 2, …,T}
for eachw∈{1, 2, …,N}
chooseBq,e,t,w~Dir(β)
for each microblogm∈{1, 2, …,M}
for eachq∈{1, 2, …,Q}
chooseVm, q~Dir(μ)
for eache∈{1, 2, …,L}
chooseEm, q,e~Dir(λ)
for eacht∈{1, 2, …,T}
chooseAm, q,e,t~Dir(α)
for each wordwin microblog commentsm:
chooseq~(Vm)
choosee~(Em,q)
chooset~(Am,q,e)
choosew~(Bq,e,t)
2.2.1 模型推理
JAOES模型的推導(dǎo)采用Gibbs 采樣的方法,計算參數(shù)分布A,B,V與E。Gibbs 采樣是統(tǒng)計學(xué)中用于馬爾科夫蒙特卡洛(MCMC)的一種算法,它可以通過迭代采樣的方式對復(fù)雜的概率分布進(jìn)行推導(dǎo)[3]。詞語w、表情符號情感q、文本情感e與方面t的聯(lián)合分布P(w,t,e,q)如式(3)所示。
P(w,t,e,q)=P(w|t,e,q)P(t|e,q)P(e|q)P(q)
(3)
分別對分布B、A、E和V進(jìn)行積分得到式(3)各因子的推導(dǎo)公式,如式(4)~式(7)所示。
(4)
其中,nq,e,t,w表示詞語w同時屬于表情符號情感q、文本情感e、方面t的頻數(shù),nq,e,t表示所有同時屬于表情符號情感q、文本情感e、方面t的詞語的總頻數(shù)。Γ(*)為伽馬函數(shù)。
(5)
其中,nm,q,e,t表示第m句微博評論中,方面為t的詞語 同時屬于表情符號情感q、文本情感e的頻數(shù),nm,q,e表示第m句微博評論中,屬于表情符號情感q、文本情感e的詞語的總頻數(shù)。
(6)
其中,nm,q,e表示第m句微博評論中,文本情感為e的詞語屬于表情符號情感q的頻數(shù),nm,q表示第m句微博評論中,屬于表情符號情感q的詞語的總頻數(shù)。
(7)
其中,nm,q表示第m句微博評論中屬于表情符號情感q的詞語的頻數(shù),nm表示第m句微博評論總詞語數(shù)。
由上述聯(lián)合概率可以進(jìn)一步得到評論集方面觀點褒貶態(tài)度的后驗分布,如式(8)所示。
(8)
分布V,E,A,B可形式化為式(9)~式(12)。
(9)
(10)
(11)
(12)
2.2.2 JAOES模型的先驗
為了提升JAOES模型情感學(xué)習(xí)能力,在初始階段賦予微博評論詞庫里的每一個詞語情感極性。同時對每個詞語的表情符號情感進(jìn)行定義。
(1) 詞語情感先驗
本文結(jié)合HowNet的正面/負(fù)面情感詞語、正面/負(fù)面評價詞語與NTUSD的正面/負(fù)面情感詞語,得到正面情感詞語語料庫與負(fù)面情感詞語語料庫。微博的論題開放的功能使得微博數(shù)據(jù)集的方面觀點跨領(lǐng)域性極強(qiáng),經(jīng)常會出現(xiàn)一些新的情感詞。文獻(xiàn)[19]提出潛在情感詞的自動挖掘并計算其極性權(quán)重的算法。該方法利用共現(xiàn)特性,基于樸素貝葉斯公式計算未知情感詞語的情感權(quán)重值的大小并判斷其極性。該算法與應(yīng)用領(lǐng)域無關(guān),拓展性良好。對于評論詞庫中的每一個詞語,如果它存在于語料庫中,則直接賦予相應(yīng)的情感值。否則,采用上述方法對詞語進(jìn)行情感賦值。
(2) 表情符號先驗
對于不帶有表情符號的語句,它擁有特定的標(biāo)簽且迭代過程中不發(fā)生任何變化?;谥氨砬榉柷楦袠?biāo)簽的研究結(jié)果[20],我們將情感庫里參與研究的68個表情符號的情感分為三類:絕對積極情感符號(用來增強(qiáng)語句積極情感的表情符號,例如,[開心])、絕對消極情感符號(用來增強(qiáng)語句消極情感的表情符號,例如,[怒])和語境情感符號(表情符號的情感極性隨著語句的不同而改變,例如,[微笑])。對于每一條微博評論,若包含的表情符號屬于絕對積極/絕對消極情感符號,則直接賦予相應(yīng)的表情符號情感,且在迭代過程中不會發(fā)生改變。對于不存在于情感庫的其他表情符號與語境情感符號,由模型進(jìn)行隨機(jī)賦值,迭代過程中會發(fā)生改變。
2.2.3 微博評論褒貶態(tài)度挖掘算法
通過2.2.1節(jié)推導(dǎo)出求解JAOES模型需要的公式后,利用模型判斷用戶評論文本情感與表情符號情感,從而挖掘出每條用戶評論的褒貶態(tài)度傾向。為了方便敘述,構(gòu)造變量集WC={nm,nm,q,nm,q,e,nm,q,e,t,nq,e,t,w,nq,e,t}。
在進(jìn)行微博評論時,有些用戶的文字表達(dá)很直接,有些很含蓄,有些則使用反語。若充分考慮表情符號提供的情感信息可以效提升微博情感分析的能力[21-22]。社會神經(jīng)系統(tǒng)科學(xué)研究表明[23],人類將表情符號視為真實的物理行為進(jìn)行響應(yīng),而不是簡單的將其當(dāng)作一個符號。因此,表情符號帶有的情感極性,能在一定程度上提高我們對情感判別的準(zhǔn)確性。針對上述現(xiàn)象,評論集褒貶態(tài)度挖掘算法包含以下四個部分。
(1) 數(shù)據(jù)預(yù)處理部分:該部分主要包括微博數(shù)據(jù)的去噪去停用詞與語句的分詞和詞性標(biāo)注,對詞語的表情符號情感、文本情感以及方面進(jìn)行初始賦值等。
(2) 對每條微博評論中的每個單詞w,計算P(qi=q,ei=e,ti=t|q-i,e-i,t-i,w),并且更新變量集WC。重復(fù)上述過程直到達(dá)到最大迭代次數(shù)。
(4) 通過評論的表情符號情感與文本情感判別評論的褒貶態(tài)度。如果存在表情符號,則根據(jù)表情符號情感判別褒貶態(tài)度,表情符號情感為消極的評論為貶義態(tài)度評論,反之則為褒義態(tài)度評論;對于不存在表情符號的評論,則按照文本情感進(jìn)行褒貶態(tài)度判別,文本情感為消極則該評論為貶義態(tài)度評論,反之則為褒義態(tài)度評論。
輸入: 微博評論集D,α,β,μ,λ,Q,L,T;
輸出: 評論集中每條評論的褒貶態(tài)度傾向。
1. 微博評論數(shù)據(jù)預(yù)處理,對評論里的每一個詞語進(jìn)行表情符號情感,文本情感與方面的初始化;
2. count=1
3. while count <= 1000:
4. for eachsm∈D:
5. for each wordwinsm:
6. 從WC中除去當(dāng)前詞語所屬的表情符號情感,文本情感與方面;
7. 如果詞語w所在語句不包含表情符號或是包含的表情符號情感均為絕對積極/絕對消極情感,則詞語的表情符號情感的賦值不發(fā)生改變;否則,隨即賦予詞語w表情符號情感。通過公式(8)可以重新賦予詞語w文本情感與方面;
8. 更新變量WC;
9. count=count+1
10. for eachsm∈D:
11. if 存在表情符號:
13.sm為貶義態(tài)度評論;
14. else:
15.sm為褒義態(tài)度評論;
16. else:
18.sm為貶義態(tài)度評論;
19. else:
20.sm為褒義態(tài)度評論。
基于微博平臺的研究大部分是圍繞文本情感分類而展開的,現(xiàn)有的公開微博實驗數(shù)據(jù)集缺少帶有表情符號的評論用戶的褒貶態(tài)度傾向數(shù)據(jù),因此無法滿足本文實驗要求。因此,我們通過新浪微博API接口編寫網(wǎng)絡(luò)爬蟲構(gòu)造數(shù)據(jù)集。對于采集到的數(shù)據(jù)集,進(jìn)行如下預(yù)處理:1)微博評論中存在“@回復(fù)”形式的評論?為評論用戶之間的互動評論,此類評論不屬于本文的研究對象,因此在預(yù)處理的過程中會過濾掉。同時,不包含漢字或表情符號的評論,漢字長度不超過5個字符的用戶評論,都會進(jìn)行刪除;2)使用中科院的漢語分詞系統(tǒng)對所有語句進(jìn)行分詞,去除停用詞后保留語句的名詞及名詞短語、形容詞及形容詞短語和動詞及動詞短語部分。經(jīng)過預(yù)處理后的實驗數(shù)據(jù)包括10組原創(chuàng)微博及其評論,共有2721條語句。數(shù)據(jù)集包含三類標(biāo)簽:褒義態(tài)度標(biāo)簽、貶義態(tài)度標(biāo)簽和與原創(chuàng)無關(guān)的評論標(biāo)簽。
實驗由兩個部分構(gòu)成:第一部分使用準(zhǔn)確率(Accuracy)評價2.2.3節(jié)提出的褒貶態(tài)度挖掘算法。設(shè)置JAOES的迭代次數(shù)為1000次,α設(shè)為0.1,β設(shè)為0.01,μ設(shè)為1/Q,λ設(shè)為1/L,方面數(shù)T的值為10。實驗中,將我們提出的方法與baseline方法基于評論集D進(jìn)行褒貶態(tài)度分類準(zhǔn)確率的比較。baseline方法同樣基于LDA模型實現(xiàn),從JAOES中去除表情符號層進(jìn)行訓(xùn)練?;€方法認(rèn)為文本情感極性為消極的評論為貶義態(tài)度評論,反之則為褒義態(tài)度評論;第二部分通過具體實例從以下兩個角度分析與原創(chuàng)無關(guān)的評論判別方法的必要性:1)與原創(chuàng)微博無關(guān)的評論判別方法對初始評論集褒貶態(tài)度分類準(zhǔn)確率的影響; 2)初始評論集和經(jīng)過與原創(chuàng)無關(guān)的評論判別方法過濾得到的評論集方面觀點提取結(jié)果的分析。
我們按照實驗設(shè)置的內(nèi)容進(jìn)行實驗并對結(jié)果進(jìn)行分析。
3.3.1 表情符號情感層對褒貶態(tài)度分類準(zhǔn)確率的影響
圖2展示了提出的方法與baseline方法褒貶態(tài)度分類的準(zhǔn)確率。
圖2 褒貶態(tài)度分類的準(zhǔn)確率
從圖2中我們可以看出,融入了表情符號情感層的JAOES模型褒貶態(tài)度識別的準(zhǔn)確率優(yōu)于baseline方法。原因有以下幾點:1)用戶選擇表情符號營造出語境氛圍,同一個語句伴隨不同的表情符號能表現(xiàn)出不同的情感。因此,表情符號提供的情感信息更有助于判別評論的情感極性;2)用戶表達(dá)方式各有不同,當(dāng)某些用戶表達(dá)得委婉含蓄時,增加了情感分類的難度。表情符號提供的信息更能體現(xiàn)評論的情感傾向,從而提高了褒貶態(tài)度分類的準(zhǔn)確率。
3.3.2 與原創(chuàng)無關(guān)的評論判別方法的影響
本節(jié)我們通過一個具體實例從兩個角度分析與原創(chuàng)無關(guān)的評論判別方法的影響。
例2: 原創(chuàng)微博內(nèi)容是“人大代表楊琴在2018兩會上表示:臨近除夕大家已無心工作,建議春節(jié)假期延長至十天。這個建議你支持嗎?”該原創(chuàng)微博及其評論經(jīng)過預(yù)處理后得到357條評論語句。經(jīng)人工標(biāo)注后對該建議表示支持的褒義態(tài)度評論有146句;不支持該建議的貶義態(tài)度評論有58句;與原創(chuàng)無關(guān)的評論有153句。也就是說,40.90%的評論用戶是支持楊琴代表的建議的,16.25%的評論用戶表示不支持,其他的用戶則是發(fā)表了與原創(chuàng)無關(guān)的評論,并未表明是否支持該建議。
如果未剔除無與原創(chuàng)微博內(nèi)容無關(guān)的評論,使用JAOES模型訓(xùn)練后得到的評論的褒貶態(tài)度傾向結(jié)果如下:265條評論為褒義態(tài)度傾向,92條評論為貶義態(tài)度傾向。即:74.23%的評論用戶支持楊琴代表的建議,25.77%表示反對;通過本文的評論判定方法識別出評論對象并非原創(chuàng)微博的用戶評論,再對其他用戶評論進(jìn)行褒貶態(tài)度挖掘得到的結(jié)果為:170條褒義態(tài)度傾向評論,70條貶義態(tài)度傾向評論。即:47.62%的評論用戶支持楊琴代表的建議,19.61%的評論用戶表示反對。
評論集中存在與原創(chuàng)無關(guān)的評論的這個事實,如果忽略它直接進(jìn)行微博評論褒貶態(tài)度挖掘,會影響評論集的褒貶態(tài)度分類結(jié)果。在例2得到的實驗結(jié)果認(rèn)為,74.23%的評論用戶是支持楊琴代表的建議的,與實際情況誤差了30%多;而進(jìn)行了與原創(chuàng)無關(guān)的評論判別后,再挖掘褒貶態(tài)度傾向的方法得到的結(jié)果認(rèn)為47.62%的評論用戶支持楊琴代表的建議,這個結(jié)果更接近于真實的支持率。
我們?nèi)匀皇褂美?分析初始評論集和經(jīng)過與原創(chuàng)無關(guān)的評論判別方法過濾得到的評論集方面觀點提取結(jié)果。表2展示了使用JAOES模型對初始評論集進(jìn)行方面觀點的提取得到的出現(xiàn)概率最高的詞語。
從褒義態(tài)度部分的方面觀點詞中,我們可以看出用戶對“臨近除夕大家已無心工作,春節(jié)假期延長至十天”這條建議的支持,及希望在擁有假期的同時不存在調(diào)休情況;貶義態(tài)度部分的方面觀點詞中,大概可以看出用戶覺得正常放假不調(diào)休就足夠了,就算延長假期,放假前還是會無心工作。表2中的一些方面觀點并不能讓他人明白評論用戶保持某態(tài)度的原因,尤其是“支持”一詞以高概率出現(xiàn)在貶義態(tài)度部分,更加讓人疑惑。
表2 初始評論集方面觀點
表3展示了2.1節(jié)提出的與原創(chuàng)無關(guān)的評論的判定方法后,使用JAOES模型對評論集進(jìn)行方面觀點的提取所得到的出現(xiàn)概率最高的詞語。
表3 評論集方面觀點
與表2得到的初始評論集方面觀點相比,表3的褒義態(tài)度部分“春運”“路程”,“關(guān)系民生”能看出一些用戶支持建議的原因。表3的貶義態(tài)度部分的方面觀點能看出用戶不支持該建議的更多原因:除了上述分析的原因外,有些用戶由于值班的原因,對假期的長短抱無所謂的態(tài)度; 有些用戶覺得這個建議聽聽就行,不會真正被實施。
通過對例2的分析,我們可以看出:1)進(jìn)行與原創(chuàng)無關(guān)的評論判別后的評論集褒貶態(tài)度分類結(jié)果更接近于真實情況;2)進(jìn)行了與原創(chuàng)無關(guān)的評論判定后的評論集提取的方面觀點更能看出評論用戶保持某態(tài)度的原因;3)與原創(chuàng)微博相關(guān)度小的評論不參與方面觀點的判定,因此沒有出現(xiàn)表2中“支持”一詞存在于貶義態(tài)度部分讓人產(chǎn)生疑惑的現(xiàn)象。
對與原創(chuàng)無關(guān)的評論集進(jìn)行方面觀點的提取,可以讓用戶了解由原創(chuàng)微博內(nèi)容衍生而出的新的方面觀點,這個結(jié)果為話題的推送等研究提供了豐富的信息。
新浪微博中,原創(chuàng)微博下存在著大量評論。這些評論反映原創(chuàng)微博的內(nèi)容,用戶對原創(chuàng)內(nèi)容的態(tài)度以及與原創(chuàng)內(nèi)容相關(guān)的一些話題,包含了豐富的信息。若忽略評論對象,會影響評論集褒貶態(tài)度分類結(jié)果的準(zhǔn)確率。因此,我們首先提出與原創(chuàng)無關(guān)的評論判別方法識別對象并非原創(chuàng)微博的用戶評論;其次,將融入了表情符號情感層與文本情感層的主題模型,用于實現(xiàn)微博評論方面觀點與褒貶態(tài)度的同步推導(dǎo)。實驗表明:表情符號情感層的融入能提高模型的褒貶態(tài)度識別能力。