王 林,李昀澤
(西安理工大學(xué) 自動化與信息工程學(xué)院,陜西 西安 710048)
情感傾向分析在輿情監(jiān)控方面的研究
王 林,李昀澤
(西安理工大學(xué) 自動化與信息工程學(xué)院,陜西 西安 710048)
針對Hownet經(jīng)典算法的應(yīng)用只是側(cè)重于詞句優(yōu)化方面的研究,忽視了因不同人群層次主觀色彩偏差而造成的判別準確性下降問題,文章提出了一種優(yōu)化Hownet判別方法。搭建閾值確定的新框架,并利用義源信息量衍生義項的方法動態(tài)更新情感詞庫,一方面考慮到不同人群主觀色彩對傾向分析產(chǎn)生的影響問題,另一方面針對某一事件或話題直接得出大眾情感傾向。實驗表明,相較傳統(tǒng)的Hownet方法而言,優(yōu)化后的Hownet實現(xiàn)了對輿情傾向分析的跨人群分析,且有更高的準確性。
義源信息量;衍生義項;Hownet算法;傾向性分析
在輿情媒體規(guī)模、媒體種類等發(fā)展迅猛的情況下,輿情監(jiān)測顯得愈發(fā)重要,其中人群傾向性偏差問題尤為受到關(guān)注。研究不同領(lǐng)域的人群情感傾向偏差問題,是解決輿情人群主觀色彩差異的重點[1],也可為眾多輿情分析平臺提供幫助,并可為政府監(jiān)管系統(tǒng)對輿情的整體走勢和褒貶判斷提供重要依據(jù)。
針對主觀色彩偏差問題,近年來研究者提出的解決方案主要有細粒度分析法[2]、挖掘新模式二次調(diào)用[3]、情感詞典邏輯結(jié)合[4]等方法。由于Hownet方法重點在于優(yōu)化情感詞庫和解決詞句[5]問題,所以利用Hownet解決主觀情感差異并不常見。呂韶華等人[6]基于SimRank的跨領(lǐng)域情感傾向性分析算法構(gòu)建潛在空間向量,實現(xiàn)了領(lǐng)域分類,但僅限于分類階段。YZERBYT V等人[7]提出分類識別行動傾向,引入傳播動力學(xué),但只側(cè)重于傳播方式研究。魏現(xiàn)輝[8]提出了一種基于加權(quán)SimRank的分析模型,實現(xiàn)了跨領(lǐng)域情感分類,但傾向性分析結(jié)果準確性不高。張瑩[9]提出基于異構(gòu)信息源和邏輯斯諦回歸模型進行情緒預(yù)測的方法,該方法是解決跨領(lǐng)域跨人群問題的一大突破,但是步驟過于繁瑣。馬鳳閘[10]將經(jīng)典遷移學(xué)習(xí)TrAdaBoost算法的樣本遷移機制應(yīng)用于情感傾向性分析,為跨領(lǐng)域分析做出了重大貢獻,但精確度有待提高。孟佳娜等人[11]提出歸納式遷移學(xué)習(xí),通過領(lǐng)域采集的關(guān)聯(lián)問題解決了情感色彩的不同影響,但是側(cè)重于領(lǐng)域采集研究而非傾向結(jié)果判斷。由此可知,跨領(lǐng)域研究既要解決不同人群傾向差異,又要提高總體分析的準確度,利用機器學(xué)習(xí)或數(shù)據(jù)挖掘[12-15]的方法不僅步驟繁瑣,而且對整體分析結(jié)果的準確性影響很大。
本文提出一種優(yōu)化Hownet算法,該方法通過計算不同的評論文本的正傾向和負傾向的加權(quán)平均值,并利用二次分類方法確定正負傾向的單一閾值,二次分類結(jié)合單邊帶[5]和向量機分類[16]的優(yōu)點,對主題和情感進行再分類[18],達到減少主觀情感影響的目的。并采用義源衍生義項方法[2,5,16-18]對Hownet詞典庫進行實時更新,達到區(qū)分人群的目的,最后利用Hownet算法與優(yōu)化后的閾值進行對比運算。本文將針對詞句分析的Hownet算法應(yīng)用到分析人群主觀色彩偏差上,通過對閾值的優(yōu)化達到減少人群情感偏差影響的目的,大幅減小各類不同情感色彩帶來的影響,也能有效解決跨領(lǐng)域、跨人群的主觀表達問題。該優(yōu)化方法也可直接針對某一話題或事件得出傾向性分析結(jié)果并提高了判斷的準確性。
1.1 存在的問題和解決目標
人群傾向偏差不是片面的一詞多義,也不局限于簡單的褒貶相反,而是個人主觀色彩的不同。所以要從根源上對主觀色彩進行區(qū)分,就要對人群進行區(qū)分,建立區(qū)分的方法。
1.2 Hownet算法優(yōu)勢
(1) Hownet是自然語言處理系統(tǒng),解釋概念間的關(guān)系與屬性,有強大的動態(tài)詞典數(shù)據(jù)庫;
(2)以網(wǎng)狀結(jié)構(gòu)反映整體與部分的關(guān)系;
(3)經(jīng)典Hownet算法如下;
(1)
其中,Orient為最終閾值,pword與nword分別為褒義詞結(jié)果集和貶義詞結(jié)果集。該方法方便理解,易于操作,詞典庫可動態(tài)更新。
2.1 主題提取
詞匯信息量基本公式:
(2)
其中p代表義原詞匯,C(p)代表詞匯p的信息量,H(p)表示詞匯p出現(xiàn)的數(shù)量,max 表示在語義詞庫中的總數(shù)。
2.2 主題分類
單邊帶分類是對于不同義原詞匯進行分類,其基本公式為:
(3)
其中n代表某個義項,即某種衍生意。假設(shè)p1有n1個義原,p2有n2個義原。c1與c2是記錄下的n1與n2的數(shù)目,再計算相似度。
2.3 人群分類
利用前兩部分實現(xiàn)人群細分,即不用主動去分類人群,而是對不同義項進行分類:
假設(shè)某語句w1有s1個義項,w2有s2個義項,則w1與w2的相似度為:
(4)
2.4 加權(quán)平均
最終進行正負閾值的加權(quán)平均,得到在不同人群基礎(chǔ)上的結(jié)果:
pword:積極詞集合,nwords消極詞集合
Orient(word) >&(閾值) 輿論積極
Orient(word) <& (閾值) 輿論消極
3.1 優(yōu)化步驟
(1)根據(jù)TF/IDF權(quán)值法計算提煉主題,而不直接歸類其情感傾向,且同步利用式(1)對此情感庫進行更新,避免了中文表達復(fù)雜帶來的情感傾向誤判:
(5)
其中,N表示文本集中的文本數(shù)量,n表示文本集中包含目標項的文本數(shù)量,f表示目標項出現(xiàn)的頻數(shù)。
可以看出,如果某個詞在某篇文檔出現(xiàn)的頻率高,而在其他文檔中出現(xiàn)的頻率低,說明該詞對該文檔而言,具有更高的代表性,同時也應(yīng)有更高的權(quán)重值。
(2)先以向量空間模型歸類主題的相似性,再以single-pass算法判斷主題情感相似性,避免了因不同篇章的情感色彩強烈而帶來的誤判,向量空間模型算法基本公式為:
(6)其中di、dj代表兩個文本的sim相似度,wk代表目標項的權(quán)重值。此步驟與式(3)、(4)算法同時進行,目的在于對詞庫進行義項衍生分類,在分類基礎(chǔ)上進行第二步歸類。
(3)以single-pass算法判斷主題情感相似性,如果該新聞報道S是輸入的第一篇報道,則將該報道當(dāng)做第一個話題。后續(xù)輸入的新聞報道內(nèi)容向量與己有的話題內(nèi)容向量進行比較用兩個向量之間的余弦夾角sim(di,dj)作為衡量相似度的標準,如果其值小于設(shè)定的閾值,則認為新輸入的新聞報道屬于該話題,否則將該新聞報道作為一個新的話題。
3.2 原理總結(jié)
由上面步驟可知:因中文表達中,不同句式(反問句、否定句)褒貶相反,所以采用二次分類法,對單一的向量分類或算法分類組合使用,取各自優(yōu)點。向量空間模型通過權(quán)值歸類主題,與TF一樣避開了情感部分,主題相似的wkj與wki的取值需通過單邊的情感分類,旨在確定是褒義值@+與貶義值@-,再界定中性范圍,計算加權(quán)平均值@:
(7)
實驗?zāi)康脑谟隍炞C優(yōu)化的Hownet方法傾向性分析模塊是否實現(xiàn)了互聯(lián)網(wǎng)信傾向性分析功能,且與傳統(tǒng)方式進行比較,驗證其優(yōu)點。
4.1 輿情走勢分析情感統(tǒng)計
本文以2016年7月17日~7月19日連續(xù)兩天的輿情走勢為樣本,以某個搜索引擎、新聞網(wǎng)站、論壇、微博、微信等平臺為目標,得出正面、負面和中性的文本數(shù)量。
4.2 傾向性結(jié)果展示
表1為文本結(jié)果細分統(tǒng)計,加入了中度、輕度、重度的正負面文本評論。
隨著詞典庫的不斷更新,該話題輿情呈現(xiàn)出細分的趨勢,結(jié)果顯示出更新詞典庫的突出效果,通過對正負面程度的統(tǒng)計可以判斷輿情的正確走勢,如圖1所示。
圖1為輿情分析走勢圖,圖中可看出中性情感最為突出且走勢明顯,可判斷輿情發(fā)展主要由中性情感決定并且呈現(xiàn)出下降趨勢。
4.3 結(jié)果分析
4.3.1 評價指標
本文分類評價指標包括查準率、查全率和F1值。
4.3.2 算法參數(shù)選取
(1)優(yōu)化步驟首先利用式(2)對詞典進行初步主題統(tǒng)計,在此基礎(chǔ)上利用式(5)進行文本分類,初始值f的頻率可選,先用擬固定值f=0.5。
(2)c1與c2是記錄下的n1與n2的數(shù)目,式(3)在c1與c2選取上初始值規(guī)定為c1=20和c2=30,此數(shù)據(jù)會根據(jù)后面步驟實時更新增長。
(3)利用向量機和單邊帶算法統(tǒng)計情感分類,式(6)是建立在式(3)、(4)基礎(chǔ)上的,對單邊情感分類,隨機地抽取出正負面的感情色彩文本各 500 篇,其中正面被正確識別出來的數(shù)量為 400 篇,負面被識別出來的數(shù)量為 435篇。
(4)為了使更新詞典庫的義項分類與前三步模式更加緊密結(jié)合,對閾值的確定就尤為重要,初始@=1.87,第一次取400個正面的@+=0.81,435個負面@-=0.78。利用式(7)可以計算出@的加權(quán)平均值為1.122,該值小于初值,可判斷走勢下降。
4.3.3 對比試驗
本文利用4個評價指標對閾值進行設(shè)定,確定初始閾值@+與@-,再利用式(7)確定最終閾值,分別對傳統(tǒng)方法與優(yōu)化方法的閾值進行計算,得出正負面文本的查準率、查全率和F1值。表2為優(yōu)化閾值與傳統(tǒng)閾值計算結(jié)果對比。
從表2可以看出,優(yōu)化后的P值、R值、F值都明顯高于傳統(tǒng)方法。
圖2為優(yōu)化方式與傳統(tǒng)方式對比圖,可更清晰地說明問題:實線、點線和虛線分別代表正面、負面及平均值。由圖2可以看出,優(yōu)化模式(左半部)線條值都普遍高于傳統(tǒng)模式(右半部)線條值,其原因在于對文本分類的文章,在Hownet判別時已經(jīng)用衍生義項原理實現(xiàn)了潛在的人群分類,所以基于最終的優(yōu)化閾值進行判別時,很大程度上降低了人群情感色彩偏差帶來的影響。
本文采取優(yōu)化Hownet分析方法,對某一話題在不同領(lǐng)域或不同平臺進行傾向性分析,通過對閾值的優(yōu)化界定并與傳統(tǒng)模式相對比,驗證其優(yōu)化效果。優(yōu)化模式合理地結(jié)合了權(quán)值提煉與機器學(xué)習(xí)分類方法,通過采用義源衍生義項的分類方法實現(xiàn)人群分類的目的,在此基礎(chǔ)上優(yōu)化的閾值不僅大幅削弱了不同人群層次的情感偏差影響,而且使得分析結(jié)果更加可靠,具有更高的參考價值,且對輿情總體趨勢的情感傾向分析更加有利。
[1] YZERBYT V, DUMONT M, WIGBOLDUS D.The impact british of categorization emotions and action tendencies[J].Journal of Social on-Wiley Online Library,2013,23(8):62-66.
[2] 劉龍飛,楊亮,張紹武,等.基于卷積神經(jīng)網(wǎng)絡(luò)的微博情感傾向性分析[J]. 中文信息學(xué)報,2015,29(6):159-165.
[3] 黃高峰,周學(xué)廣.一種語句級細粒度情感傾向性分析算法研究[J]. 計算機應(yīng)用與軟件, 2015,32(4):239-242.
[4] YARDI S, BOYD D.Dynamic debates: an analysis of group polarization over time on twitter[J]. Bulletin of Science, Technology & Society, 2010,69(6): 066133.
[5] 呂韶華,楊亮,林鴻飛.基于SimRank的跨領(lǐng)域情感傾向性分析算法研究[J].中文信息學(xué)報, 2012,26(6):38-44.
[6] 陸振東,張楠.基于句法與主題擴展的中文微博情感傾向性分析模型[J]. 計算機應(yīng)用,2014,78(2):561-570.
[7] NABI R L.Exploring the framing effects of emotion do discrete emotions differentially influence information accessibility, information seeking, and policy preference[J]. Communication Research, 2010,69(6): 66-133.
[8] 魏現(xiàn)輝,張紹武,楊亮,等.基于加權(quán)SimRank的跨領(lǐng)域文本情感傾向性分析[J].模式識別與人工智能,2013,26(11): 1004-1009.
[9] 張瑩.在線新聞評論的情感分析研究[D].天津:南開大學(xué),2013.
[10] 馬鳳閘,吳江寧,楊光飛.基于雙重選擇策略的跨領(lǐng)域情感傾向性分析[J].情報學(xué)報, 2012,31(11):1202-1209.
[11] 孟佳娜,趙丹丹,于玉海,等.歸納式遷移學(xué)習(xí)在跨領(lǐng)域情感傾向性分析中的應(yīng)用[J].南京大學(xué)學(xué)報(自然科學(xué)版),2016,52(1):175-183.
[12] BARBOSA L, FENG J. Robust, sentiment detection on twitter from biased and noisy data[C].Proceedings & COLING,Beijing,China, 2010,91(7):12-20.
[13] 宋艷雪,張紹武,林鴻飛,等.基于語境歧義詞的句子情感傾向性分析[J].中文信息學(xué)報, 2012,26(3):38-43.
[14] 周杰.網(wǎng)絡(luò)輿情話題情感傾向性分析技術(shù)研究[D] . 鄭州:解放軍信息工程大學(xué), 2010.
[15] 烏達巴拉,汪增福.一種擴展式CRFs的短語情感傾向性分析方法研究[J] .中文信息學(xué)報, 2015,29(1):155-161.
[16] LIU Q, FENG C, HUANG H.Emotional tendency identification for micro-blog topics based on multiple characteristics[J]. Proceedings of the 26th Pacific Asia Conf, 2012,24(7): 121-130.
[17] 黃挺,姬東鴻. 基于圖模型和多分類器的微博情感傾向性分析[J].計算機工程,2015,41(4):171-175.
[18] 熊德蘭,程菊明,田勝利.基于HowNet的句子褒貶傾向性研究[J].計算機工程與應(yīng)用, 2008, 44(22):143-145.
李昀澤(1990-), 男,碩士研究生,主要研究方向:輿情傳播及監(jiān)控。
The research of emotional tendency analysis in public opinion monitoring
Wang Lin, Li Yunze
(School of Automation and Information Engineering, Xi’an University of Technology, Xi’an 710048, China)
According to Hownet classic algorithms only focus on words on optimization, neglect the subjective color deviation due to different population levels, which will cause decrease in accuracy, an optimized Hownet discriminant method is proposed in this paper. It puts forward an optimized Hownet building threshold value to determine the new framework, uses Basemeaning information derived meanings to dynamic update emotional word library. On one hand, considering the different crowd with impact of subjective tendency to analysis hard problem, on the other hand,for an event or topic it directly gets emotional tendency of the masses.The experimental results show that compared with the traditional method of Hownet, the optimized Hownet realizes across population analysis for public opinion tendency, and gets higher accuracy.
basemeaning information,;derivative meanings;Hownet algorithm;tendency analysis
TN929.12
A
10.19358/j.issn.1674- 7720.2017.05.004
王林,李昀澤.情感傾向分析在輿情監(jiān)控方面的研究[J].微型機與應(yīng)用,2017,36(5):11-13,17.
2016-11-13)
王林(1963-),男,博士,教授,主要研究方向:復(fù)雜系統(tǒng)及輿情傳播。