【摘 要】互聯(lián)網(wǎng)提供了一個開放、快捷、交互的平臺,使得網(wǎng)民可以自由發(fā)表個人意見、表達個人觀點、參與對公共事件的討論。尤其對感興趣的熱點事件或涉及自身利益的社會公共事件,會積極地參與討論和質(zhì)疑,這往往會形成對熱點事件的態(tài)度的一致性和普遍性。對于這些熱點問題需要及早發(fā)現(xiàn)并掌握其發(fā)展動態(tài),及時收集數(shù)據(jù)、整理信息、分析后續(xù)發(fā)展并形成相關(guān)輿情報告,為政府和相應(yīng)職能部門提供決策的客觀依據(jù)。論文在對文本語義模式分析和詞匯情感傾向值計算的基礎(chǔ)上,提出了基于語義模式與詞匯情感傾向的改進判定算法。
一、文本語義情感傾向分析研究的意義
網(wǎng)絡(luò)信息浩如煙海,魚龍混雜,人工識別和研判顯得力不從心。如何利用計算機網(wǎng)絡(luò)技術(shù)、人工智能技術(shù)和數(shù)據(jù)挖掘技術(shù),對網(wǎng)絡(luò)輿情信息有效地挖掘和分析成為了一個新的研究熱點。如何識別民眾所關(guān)注的熱點話題并有效地分類,如何判斷民眾對社會事件的態(tài)度是正向的d還是反向的,如何分析和把握社會熱點事件的波動性等,是網(wǎng)絡(luò)輿情研究中的亟需解決的重點問題,對認識和引導(dǎo)網(wǎng)絡(luò)輿情具有重要的科學(xué)意義。
互聯(lián)網(wǎng)提供了一個開放、快捷、交互的平臺,使得網(wǎng)民可以自由發(fā)表個人意見、表達個人觀點、參與對公共事件的討論。尤其對感興趣的熱點事件或涉及自身利益的社會公共事件,會積極地參與討論和質(zhì)疑,這往往會形成對熱點事件的態(tài)度的一致性和普遍性。同時,因為網(wǎng)絡(luò)的匿名性,網(wǎng)民發(fā)布消息時往往不考慮所發(fā)布內(nèi)容的真實性以及可能帶來的社會影響。隨著網(wǎng)民數(shù)量的持續(xù)增長,網(wǎng)絡(luò)輿情對社會產(chǎn)生的影響也越來越大。
我國正處于社會轉(zhuǎn)型時期,各種公共衛(wèi)生事件、自然災(zāi)害事件、社會安全事件等時有發(fā)生;受賄腐敗、分配不公等熱點問題不斷出現(xiàn)。對于這些熱點問題需要及早發(fā)現(xiàn)并掌握其發(fā)展動態(tài),及時收集數(shù)據(jù)、整理信息、分析后續(xù)發(fā)展并形成相關(guān)輿情報告,為政府和相應(yīng)職能部門提供決策的客觀依據(jù)。如果任憑事態(tài)的自行發(fā)展,很有可能最終形成網(wǎng)絡(luò)突發(fā)事件,影響到社會的穩(wěn)定和諧。
近幾年來,已經(jīng)有許多網(wǎng)絡(luò)輿情事件在互聯(lián)網(wǎng)上發(fā)生、發(fā)展,并且造成了嚴重的社會影響。從“甕安打砸搶事件”到 “躲貓貓事件",從“郭美美炫富”到“呼格吉勒圖奸殺案”,從“香港占中事件”到2015年的“5·2慶安火車站槍擊事件”等等,各種社會熱點事件不斷呈現(xiàn),都在網(wǎng)絡(luò)上廣泛傳播而受到社會的關(guān)注。每一個熱點話題的出現(xiàn)都可能隱含著某種社會安全危機,存在著轉(zhuǎn)變成社會突發(fā)事件的可能性。因此,對網(wǎng)絡(luò)輿情監(jiān)測中的文本語義情感傾向分析研究的重要性日益突現(xiàn)。
二、文本語義情感傾向分析研究的基礎(chǔ)
目前,基于網(wǎng)絡(luò)輿情文本語義傾向性研究方法主要有兩種:一種是通過現(xiàn)有詞典構(gòu)建情感傾向詞典,基于建立的詞典,運用分詞等技術(shù)判斷文檔中包含的關(guān)鍵詞與詞典中情感詞的語義相似度來決定此關(guān)鍵詞的傾向性,把所有關(guān)鍵詞的傾向性綜合起來就可得到此文檔的傾向性。例如,Ku等利用WordNet中的其他與詞匯相關(guān)的信息來判斷詞匯的語義傾向性;徐琳宏等采用HowNet作為基準(zhǔn)詞,并在實驗中加入否定詞和副詞的處理,計算待測詞與關(guān)聯(lián)度確定語義傾向,從語義理解方面對電影評論進行了傾向性識別研究。
另一種是建立一個語義模式庫,采用語義分析技術(shù)用于文本傾向性判斷。例如,Wilson等探討如何結(jié)合上下文環(huán)境來判定詞語傾向性,選用了大量的特征,對信息的傾向性判別提出了一種比較全面的方法;呂濱等設(shè)計了一種基于語義分析的信息過濾模型,該模型針對不良信息的特點,以自然語句為處理單元,采用主題詞和語義分析的兩級過濾工作模式。
綜上所述,文本情感傾向性分析技術(shù)已經(jīng)具有一定的研究成果,但是許多方法只是片面地進行傾向性判定,不能較全面、準(zhǔn)確地判定文本傾向。目前基于文本語義傾向性研究的方法較多,但都有其局限性。具有代表性的主要有兩種方法,一是通過現(xiàn)有詞典構(gòu)建情感傾向詞典,將所有情感關(guān)鍵詞的傾向性綜合起來,從而判定待測文本的情感傾向性,雖然此方法具有通用性,對于所有話題都可以使用一樣的情感詞典,但是基于情感詞典的方法由于沒有考慮語義關(guān)系和上下文環(huán)境,并不能真正鑒別相關(guān)文本的情感傾向性;另一種方法是基于語義模式的方法,采用語義分析技術(shù)對文本傾向性進行判斷,但這種方法不具有通用性,針對每個話題要抽取的語義模式不一樣,無法實現(xiàn)自動抽取語義模式??梢姡壳搬槍ξ谋菊Z義情感傾向性研究的方法,單獨使用一種方法都不能達到較好的判別效果。
三、文本語義情感傾向分析研究結(jié)構(gòu)
本文是以詞匯的傾向分析為基礎(chǔ),逐漸深入到顆粒度更大的句子、文本拓展研究。這是基于以下的分析:從顆粒度大小來說,從詞匯到句子再到文本,顆粒度是在逐漸增大的。從這個方面來看,詞匯具有基本的顆粒度大小,句子、文本等都是建立在此之上的。換句話說,詞匯是句子和文本的基本組成單元,對于句子來說,句子是由有限個詞匯組成的,其顆粒度的大小也是有限的。所以,通過一定的句法分析,最終仍需要詞匯級別的信息來對句子級別進行識別處理。對于文本來說,其可以由無限個詞匯或無限個句子所組成,顆粒度的大小不可能局限在某個范圍之內(nèi)。在實用系統(tǒng)中,絕大多數(shù)的情況正是文本級別的識別。雖然文本的語義傾向識別的顆粒度顯得有些粗糙,而從詞匯入手,以詞匯級別的識別為基礎(chǔ),正是解決文本粗糙性的一條重要途徑。例如,我們可以通過簡單地計算文本中詞匯的傾向值并對其求平均的方式,來獲得文本的傾向。綜上所述,句子、文本級別的傾向分析研究的基礎(chǔ)工作就是對詞匯級別的傾向分析研究,對詞匯的傾向計算是此類研究中的關(guān)鍵工作。
四、文本語義情感傾向分析研究的算法改進
本論文主要是將結(jié)合這兩種研究方法的優(yōu)點,將兩者結(jié)合起來,形成如下的研究框架:首先,基于HowNet建立基準(zhǔn)詞詞典、否定詞詞典、程度副詞詞典和語義模式庫;其次,對句子進行中文分詞和詞性標(biāo)注,提取特征詞匯并依據(jù)HowNet相似度方法確定其傾向值,同時考慮否定詞、程度副詞對詞匯傾向值的影響;第三,對句子進行語義模式匹配并確定句子權(quán)值,并結(jié)合已計算的詞匯傾向值來確定文檔的傾向值;最后將文檔的傾向值與設(shè)定的閾值進行比較,來最終確定文檔的情感傾向性。綜合以上分析,得到以下判定算法:
輸入:語義模式集合S={s1,s2,……},需要情感傾向判定的話題T={d1,d2,……},其中di是話題的各條評論,設(shè)定閥值為θ。
輸出:話題評論的情感情感傾向值R(T)。
通過實驗證明,將基于情感詞典和語義模式兩種方法綜合起來判定文本的語義情感傾向性比單獨使用其中一種方法的判定準(zhǔn)確率要高,此種方法能夠較全面準(zhǔn)確的判定文本語義的情感傾向性,從而驗證了此種改進算法的有效性和實用性。
基金項目:貴州省教育廳高校人文社會科學(xué)研究項目,項目編號:2017ZC044
參考文獻:
[1]熊德蘭,程菊明,田勝利.基于HowNet的句子褒貶傾向性研究[J].計算機工程與應(yīng)用,2008,44(22):143-144.
[2]黨蕾,張蕾.一種基于知網(wǎng)的中文句子情感傾向判別方法[J].計算機應(yīng)用研究,2010,27(4):1370-1372.
[3]徐軍,丁宇新,王曉龍.使用機器學(xué)習(xí)方法進行新聞的情感自動分類[J].中文信息學(xué)報,2010,2195-100.
作者簡介:
張毅(1974--),貴州遵義人,碩士,副教授,主要研究方向為計算機應(yīng)用技術(shù)。
(作者單位:貴州理工學(xué)院大數(shù)據(jù)學(xué)院)