呂翔,劉陸民
(信陽農(nóng)林學(xué)院 信息工程學(xué)院,河南 信陽 464000)
網(wǎng)絡(luò)時(shí)代的信息爆炸是毋庸置疑的,社交媒體尤其是近幾年“兩微一端”(微信、微博、移動(dòng)客戶端)為人們提供了網(wǎng)絡(luò)溝通、網(wǎng)絡(luò)評(píng)論、觀點(diǎn)分享等更為便捷和自由的網(wǎng)絡(luò)平臺(tái)。這給人們生活帶來了極大的便捷性但也孕育著極大的危機(jī)。以往群體性事件爆發(fā)后消息的傳播有其局限性,地域性事件往往很難有大范圍的傳播。而現(xiàn)在,借助于網(wǎng)絡(luò)平臺(tái)各種社會(huì)矛盾和熱點(diǎn)問題可以在極短的時(shí)間內(nèi)迅速傳播到各個(gè)網(wǎng)絡(luò)能延伸到的區(qū)域。網(wǎng)民們?cè)诓幻魉缘那闆r下肆意表達(dá)自己的觀點(diǎn),反而對(duì)事件的本身起到了推波助瀾的作用。一些負(fù)面的“網(wǎng)絡(luò)群體性事件”將在短時(shí)間內(nèi)產(chǎn)生嚴(yán)重的影響。同樣,一些積極向上的正能量表達(dá)也能迅速得到廣大網(wǎng)民的點(diǎn)贊,如近期發(fā)生的信陽小學(xué)教師李芳為救學(xué)生犧牲的事情,迅速在網(wǎng)絡(luò)擴(kuò)散傳播,感動(dòng)了所有網(wǎng)友。因此,挖掘和分析包含網(wǎng)民情感的網(wǎng)絡(luò)群體性事件的輿情信息,可以有效地獲取所需的重要信息,了解網(wǎng)絡(luò)輿情的發(fā)展動(dòng)向,從而進(jìn)行有效的掌握和引導(dǎo)。面對(duì)龐大復(fù)雜的網(wǎng)絡(luò)評(píng)論,僅僅依靠人工進(jìn)行分析已經(jīng)成為不可能完成的任務(wù),利用計(jì)算機(jī)自動(dòng)對(duì)文本進(jìn)行分析成為目前的主流。情感詞典作為文本情感分析的重要工具, 越來越多的組織和研究人員開始關(guān)注其構(gòu)建問題[1]。
構(gòu)建情感詞典的方法有多種,如Kim等使用詞語資源[2],Hatzivassiloglou等使用大型語料庫[3],Velikovich等使用網(wǎng)絡(luò)[4],他們都通過獲取詞語之間的語義關(guān)系來構(gòu)建大規(guī)模的情感詞典。在群體性事件爆發(fā)后,網(wǎng)絡(luò)上會(huì)充斥著各式各樣的言論,而微博作為當(dāng)前最具代表性且擁有數(shù)億用戶的一個(gè)特色網(wǎng)絡(luò)社交平臺(tái),通過簡短卻帶著濃烈的個(gè)人感情色彩和強(qiáng)烈的主觀色彩的句子,反映了對(duì)某個(gè)事件的態(tài)度,表達(dá)了受眾的真實(shí)情感。本文主要通過采集微博評(píng)論內(nèi)容,收集微博情感詞,在已有資源的基礎(chǔ)上,構(gòu)建一個(gè)針對(duì)群體性事件網(wǎng)絡(luò)輿情的情感詞典。
基礎(chǔ)情感詞典主要是基于現(xiàn)有的知網(wǎng)Hownet情感詞典和臺(tái)灣大學(xué)簡體中文情感極性詞典(NTSUSD)[5]而構(gòu)建。知網(wǎng)的“中文情感分析用詞語集”包括6個(gè)子文件:“正面情感”詞語,如愛、贊賞、快樂、感同身受、好奇、喝彩、魂?duì)繅?mèng)縈、嘉許等;“負(fù)面情感”詞語,如哀傷、半信半疑、鄙視、不滿意、不是滋味兒、后悔、大失所望等;“正面評(píng)價(jià)”詞語,如:不可或缺、才高八斗、沉魚落雁、催人奮進(jìn)、動(dòng)聽、對(duì)勁兒等;“負(fù)面評(píng)價(jià)”詞語,如丑、苦、超標(biāo)、華而不實(shí)、荒涼、混濁、畸輕畸重、價(jià)高、空洞無物等;“程度級(jí)別”詞語和“主張”詞語[6]。臺(tái)灣大學(xué)簡體中文情感極性詞典(NTSUSD)共包含2812個(gè)正向情感詞和8278個(gè)負(fù)向情感詞,是基于二元情感分類劃分的一個(gè)中文詞語數(shù)據(jù)庫。本文將這兩個(gè)中文情感詞典進(jìn)行融合,對(duì)相同極性的詞語進(jìn)行消重,重新分類組合,組成所需要的基礎(chǔ)情感詞典。此外,對(duì)知網(wǎng)(Hownet)里面的程度副詞設(shè)置了不同的權(quán)值。
網(wǎng)絡(luò)語言是在網(wǎng)絡(luò)上被廣泛使用的一種新的語言形態(tài)[7],如QQ中的隱身“潛水”、Thank you用3Q代替,這些都非??谡Z話。各種俗語和俚語被廣泛使用,如“猴賽雷”、“神馬都是浮云”等,甚至一些粗話、臟話,如“你妹”、“然并卵”、“日了狗”等。網(wǎng)絡(luò)用語之所以能夠傳播,在于它被認(rèn)同,反映某種現(xiàn)實(shí),類似“猴賽雷”這些網(wǎng)絡(luò)用語,形象鮮明地反映當(dāng)時(shí)網(wǎng)民的情緒,具有明確的情感傾向。但是網(wǎng)絡(luò)用語更新快、傳播迅速,未能及時(shí)納入到傳統(tǒng)的情感詞典中,用傳統(tǒng)的情感詞典對(duì)這些網(wǎng)絡(luò)文本進(jìn)行分析時(shí)往往會(huì)出現(xiàn)很多錯(cuò)誤。基于此,針對(duì)網(wǎng)絡(luò)文本的情感分析必須構(gòu)建網(wǎng)絡(luò)用語的情感詞典。
網(wǎng)絡(luò)語言創(chuàng)新性強(qiáng),自我更新速度快,易被人們?cè)诰W(wǎng)絡(luò)上使用,其來源也相當(dāng)復(fù)雜,目前也沒有什么有效的方法直接獲取大量的網(wǎng)絡(luò)用詞。本文通過人工的方式從近10年的百度熱門網(wǎng)絡(luò)流行語和搜狗拼音詞庫網(wǎng)絡(luò)流行新詞中抽取、整理得到網(wǎng)絡(luò)用語情感詞典。正面網(wǎng)絡(luò)用語情感詞典,如“給力”、“碉堡”、“稀飯”、“猴賽雷”等,負(fù)面網(wǎng)絡(luò)用語情感詞典,如“坑爹”、“尼瑪”、“然并卵”、“次奧”等。
圖1微博表情符號(hào)
在網(wǎng)絡(luò)用語中表情符號(hào)使用非常廣泛,表情符號(hào)用來生動(dòng)呈現(xiàn)和描摹日常面對(duì)面交際中的非言語信息[8],網(wǎng)民通過使用表情符號(hào)形象地表達(dá)自己當(dāng)前的感情,網(wǎng)絡(luò)表情符號(hào)如圖1所示:
否定詞會(huì)對(duì)情感傾向起到否定和反轉(zhuǎn)的作用,會(huì)改變情感極性[9]。當(dāng)否定詞修飾正面情感詞時(shí),會(huì)將正向情感變成負(fù)面,比如“好”,加一個(gè)否定詞“不”變?yōu)椤安缓谩薄7粗?,也同樣?huì)將負(fù)面的情感反轉(zhuǎn)。如果仍舊使用情感詞的極性進(jìn)行文本分析,必然造成結(jié)果南轅北轍。因此,為了更加準(zhǔn)確地判斷情感極性,需要構(gòu)建否定詞詞典。本文根據(jù)微博文本收集了部分常用的否定詞,如不、沒、未嘗、并非、否、絕不、尚未等。
網(wǎng)絡(luò)輿情作為輿情的一個(gè)組成部分和主要表現(xiàn)形式,是指網(wǎng)民或媒體以網(wǎng)絡(luò)為載體、以事件為核心的情感、態(tài)度、意見、觀點(diǎn)的表達(dá)、傳播與互動(dòng)以及后續(xù)影響力的集合,以及對(duì)某一社會(huì)公共事務(wù)或焦點(diǎn)問題所表現(xiàn)出的具有某種傾向性的、有一定影響力的意見或言論[10]。這也就要求我們?cè)卺槍?duì)群體性事件的網(wǎng)絡(luò)輿情構(gòu)建情感詞典時(shí),應(yīng)該考慮領(lǐng)域的特殊性,選擇領(lǐng)域詞匯對(duì)情感詞典進(jìn)行完善補(bǔ)充。信息的主題主要包括:生存危機(jī)、公共安全、腐敗、分配差距、時(shí)政、法制等[11]。如“石首事件”、“我爸是李剛案”、“郭美美案”、“楊達(dá)才手表案”等,反映的都是腐敗、官民矛盾、貧富差距等社會(huì)矛盾。本文通過搜集新浪微博事件主題文本得到語料集,提取情感詞,對(duì)語料集進(jìn)行預(yù)處理、詞頻統(tǒng)計(jì)、關(guān)鍵詞提取等。中科院計(jì)算所的張華平、劉群所開發(fā)的一套獲得廣泛好評(píng)的NLPIR-ICTCLAS漢語分詞系統(tǒng),其主要功能包括中文分詞、英文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、新詞識(shí)別、關(guān)鍵詞提取、支持用戶專業(yè)詞典與微博分析。本文利用該系統(tǒng)對(duì)事件文本進(jìn)行分析,得到標(biāo)注的各類分詞,對(duì)其中的情感詞進(jìn)行篩選,并與前文提到的三個(gè)情感詞典中的情感詞匯對(duì)比,去掉不相關(guān)的詞語和明顯在其他領(lǐng)域都具有普遍情感傾向的詞語,得到本文所需的群體性事件輿情情感詞匯集。
對(duì)情感詞做了匯總后,再對(duì)情感極性強(qiáng)度進(jìn)行計(jì)算和說明。情感傾向性可理解為情感的極性,在群體性事件中用戶發(fā)表的微博文本所表達(dá)的觀點(diǎn)是正面情感、負(fù)面情感還是中性情感,需要經(jīng)過分析得出。本文采用支持向量機(jī)模型(Support Vector Machine)[12]進(jìn)行情感分析。
首先通過詞頻計(jì)算出權(quán)重,按權(quán)重從大到小排序,然后剔除無用詞,這些詞通常是與主題無關(guān)的,任何類的微博文本中都有可能大量出現(xiàn)的,比如“的”“是”“在”一類的詞,一般在停詞表中已定義好。去除這些詞以后,有一個(gè)新的序列排下來,然后可以按照實(shí)際需求選取權(quán)重最高的前4個(gè)或者更多詞匯來代表該文本的核心內(nèi)容。
特征項(xiàng)的提取步驟如圖2所示:
圖2 特征項(xiàng)的提取步驟
本文利用改進(jìn)的TF-IDF公式[13]計(jì)算詞的權(quán)值,情感詞在某個(gè)類別文本出現(xiàn)的次數(shù)越多,則對(duì)于表征該類別越重要。公式如下:
其中w(i,k)為文本i中特征項(xiàng)k的影響程度表征,tf(i,k)為特征項(xiàng)k在文本i中的頻率,N表示情感訓(xùn)練數(shù)據(jù)集總數(shù)量,p(k)為情感訓(xùn)練數(shù)據(jù)集中出現(xiàn)特征項(xiàng)k的頻率,分母為歸一化因子。
本文主要用于研究群體性事件,采集的數(shù)據(jù)是某群體性事件爆發(fā)后網(wǎng)友的微博評(píng)論文本。訓(xùn)練的特征選擇包括情感詞和修飾情感詞的否定詞,以及它們?cè)谖谋局谐霈F(xiàn)的位置和數(shù)量。通過訓(xùn)練得到關(guān)于情感傾向性分類的模型。
本文通過采集2018年5月份原央視知名主持人崔永元在微博陸續(xù)發(fā)文爆料娛樂圈明星“陰陽合同”事件中網(wǎng)友評(píng)論,驗(yàn)證所建情感詞典的有效性。共采集6198條微博評(píng)論,從中選取2000條,人工標(biāo)注情感傾向性用于測(cè)試,其中正面情感和負(fù)面情感各1000條。
性能評(píng)估指標(biāo)主要為準(zhǔn)確率和召回率[14-15]。準(zhǔn)確率(Precision),記為p,是指通過分類實(shí)驗(yàn)后,該類的正確數(shù)目(k)占判斷屬于該類別數(shù)目(n)的比值,反應(yīng)情感分類模型的準(zhǔn)確性,其數(shù)學(xué)公式為:
(1)
召回率(Recall)記為r, 通過分類實(shí)驗(yàn)后,判斷為該類的正確數(shù)目(k)占本應(yīng)判斷為該類別數(shù)目(1)的比值,其數(shù)學(xué)公式為:
(2)
相關(guān)文獻(xiàn)表明,這兩個(gè)指標(biāo)在一定程度上是相互制約的關(guān)系,故需要引入一個(gè)合適的度來衡量,尋求兩者之間的一個(gè)平衡點(diǎn)。選用一個(gè)綜合度量指標(biāo) F1 作為兩者的調(diào)和平均數(shù)來衡量:
(3)
利用上節(jié)介紹的語料預(yù)處理方法對(duì)實(shí)驗(yàn)語料進(jìn)行預(yù)處理后,采用傳統(tǒng)的基礎(chǔ)詞典與本文構(gòu)建的情感詞典進(jìn)行實(shí)驗(yàn)。首先使用僅包括基礎(chǔ)情感詞典的傳統(tǒng)方式,對(duì)預(yù)料進(jìn)行預(yù)處理后,采用支持向量機(jī)模型(SVM)進(jìn)行情感分析,得出的實(shí)驗(yàn)結(jié)果如表1所示。
表1 傳統(tǒng)的基礎(chǔ)詞典
而后,采用本文的方法,在基礎(chǔ)情感詞典的基礎(chǔ)上,構(gòu)建針對(duì)網(wǎng)絡(luò)的網(wǎng)絡(luò)用語詞典、網(wǎng)絡(luò)表情符號(hào)詞典、否定詞詞典以及群體性事件的網(wǎng)絡(luò)輿情領(lǐng)域詞典,在此基礎(chǔ)上再針對(duì)所選實(shí)驗(yàn)微博語料進(jìn)行預(yù)處理,使用SVM情感分類,結(jié)果如表2所示。
表2 本文構(gòu)建的詞典
從表1和表2可以看出,使用本文構(gòu)建的情感詞典處理,實(shí)驗(yàn)結(jié)果與傳統(tǒng)詞典相比無論是準(zhǔn)確率還是召回率都有一定提高。
本文針對(duì)群體性事件網(wǎng)絡(luò)輿情,構(gòu)建了領(lǐng)域詞典。通過對(duì)人工標(biāo)注后的微博事件評(píng)論文本進(jìn)行驗(yàn)證,發(fā)現(xiàn)本文構(gòu)建的用于群體性事件輿情詞典,提高了微博文本情感分類的準(zhǔn)確率和召回率,達(dá)到了預(yù)期效果。但是本文所做的工作還遠(yuǎn)遠(yuǎn)不夠,如對(duì)多義性情感詞和隱含性情感句規(guī)則的構(gòu)建并未加以考慮。如同一個(gè)詞用在不同的語境下所表達(dá)的情感可能截然不同,有些評(píng)價(jià)詞語也會(huì)出現(xiàn)在不帶感情色彩的文本中,等等,這些都會(huì)影響對(duì)情感傾向的分析和判斷。
信陽農(nóng)林學(xué)院學(xué)報(bào)2019年2期