摘要:微博作為異軍突起的新媒體,已經(jīng)成為傳統(tǒng)媒體跟蹤突發(fā)消息的重要來源。文章對(duì)突發(fā)事件輿情傳播的特征與趨勢(shì)、微博短文本預(yù)處理、微博突發(fā)事件情感分析3個(gè)微博突發(fā)事件監(jiān)測(cè)的關(guān)鍵問題進(jìn)行了闡釋和探討,并基于已有的研究,給出可能地解決方案。最后提出了一個(gè)高效的微博突發(fā)事件輿情監(jiān)測(cè)的設(shè)計(jì)框架,通過發(fā)現(xiàn)突發(fā)事件情感特征及突發(fā)期,再對(duì)處于突發(fā)期的博文進(jìn)行主題聚類抽取突發(fā)事件。
關(guān)鍵詞:微博;突發(fā)事件;短文本;情感分析;輿情監(jiān)測(cè)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)05-0905-03
Research on Chinese Micro-blog Bursty Topics Detection
CHEN Guo-lan1,2
(1.Library of Nanjing University of Posts and Telecommunications, Nanjing 210003,China;2. Libraries Information Institute of Nanjing University of Posts and Telecommunications, Nanjing 210003,China)
Abstract: As a new media, microblog has become an important source to track a breaking news for traditional media. In this paper, Characteristics and trend of emergency public opinion transmission, the pretreatment, microblog essay emergency sentiment analysis, three key problems about blog bursty topics detection are explained and discussed. And based on the existing research, possible solutions are presented. Finally put forward an efficient design framework of emergency microblogging public opinion monitoring, emotional characteristics by finding emergencies and sudden period, then to post at the emergency period subject cluster extraction emergency.
Key words: microblog; bursty topics; short texts; emotion analysis; Public opinion monitoring
根據(jù)第32次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1],截至2013年6月底,我國(guó)微博網(wǎng)民規(guī)模為3.31億,較2012年底增長(zhǎng)了2216萬(wàn),增長(zhǎng)7.2%。網(wǎng)民中微博使用率達(dá)到了56.0%,較上年底增加了1.3個(gè)百分點(diǎn)。目前微博已經(jīng)成為網(wǎng)民獲取信息的重要途徑之一,微博從滿足人們?nèi)蹶P(guān)系的社交需求上逐漸演變成為大眾化的輿論平臺(tái),越來越多機(jī)構(gòu)及公眾人物都通過微博來發(fā)布或傳播信息。
在微博影響力呈幾何式倍增升態(tài)勢(shì)下,微博成為突發(fā)事件網(wǎng)絡(luò)輿情轉(zhuǎn)移擴(kuò)散的重要源頭。
微博作為一種異軍突起的新媒體,正在對(duì)傳統(tǒng)主流媒體的影響力產(chǎn)生重大沖擊。歷數(shù)近幾年年國(guó)內(nèi)外發(fā)生的大事幾乎都會(huì)在微博傳播,并通過微博平臺(tái)擴(kuò)大傳播形成輿論中心,特別是一些突發(fā)事件,微博由于其發(fā)布的便捷性,成為很多突發(fā)消息的首發(fā)平臺(tái)。因此如果輿情監(jiān)督部門或者決策者通過對(duì)微博中的話題進(jìn)行監(jiān)測(cè)及時(shí)的發(fā)現(xiàn)突發(fā)事件,在合適的時(shí)機(jī)介入,就能夠爭(zhēng)取化危機(jī)為轉(zhuǎn)機(jī),盡可能的避免突發(fā)事件轉(zhuǎn)化成惡性群體性事件。
1 突發(fā)事件監(jiān)測(cè)的關(guān)鍵問題
1.1微博突發(fā)事件輿情傳播的特征與趨勢(shì)
作為一種新型的媒體,微博信息具有自身的傳播特點(diǎn):首先發(fā)布和接收信息簡(jiǎn)便,很多重大突發(fā)事件都是由現(xiàn)場(chǎng)的用戶在第一時(shí)間發(fā)出的,具有很強(qiáng)的即時(shí)性和現(xiàn)場(chǎng)性;其次微博的轉(zhuǎn)發(fā)功能激發(fā)民眾進(jìn)行全民參與,使信息呈現(xiàn)“核裂變”式的幾何級(jí)數(shù)擴(kuò)散態(tài)勢(shì);另外擁有眾多粉絲數(shù)的意見領(lǐng)袖具有強(qiáng)大話語(yǔ)權(quán),在突發(fā)事件的產(chǎn)生、發(fā)酵、傳播等環(huán)節(jié)中起主要推動(dòng)作用,潛意識(shí)里影響著數(shù)以萬(wàn)計(jì)的圍觀群眾。
突發(fā)事件輿情在微博里面的傳播主要經(jīng)歷潛伏期、醞釀期、爆發(fā)期、衰退期四個(gè)階段。潛伏期時(shí), 輿情危機(jī)的起因往往是爆料人的發(fā)帖具有很強(qiáng)的新聞性,能引起網(wǎng)民的關(guān)注;醞釀期時(shí),信息經(jīng)過傳播者(特別是擁有眾多粉絲數(shù)的微博名人)的傳播得到更多網(wǎng)民的關(guān)注,其特有的新聞話題能迅速引起廣大網(wǎng)民的轉(zhuǎn)發(fā)和討論; 爆發(fā)期時(shí), 事件經(jīng)過媒體、意見領(lǐng)袖進(jìn)一步放大,迅速升級(jí)為一個(gè)熱門事件,通常網(wǎng)民的情緒激化,負(fù)面情感爆發(fā);若相關(guān)部門在爆發(fā)期時(shí)能積極的應(yīng)對(duì)危機(jī)事件提出合理的解決方案, 便能疏導(dǎo)民眾的情緒, 使事件進(jìn)入衰退期。
突發(fā)事件一個(gè)很重要的特點(diǎn)是引發(fā)突然性和瞬間聚眾性,微博的轉(zhuǎn)發(fā)功能能夠使得處于潛伏期的一個(gè)事件跳過醞釀期迅速擴(kuò)散進(jìn)入爆發(fā)狀態(tài)。一個(gè)事件演變成為突發(fā)事件,通常具備幾要素:一、傳播過程中通常有微博名人的參與,微博的名人效應(yīng)有助于微博信息的迅速傳播,信息經(jīng)過他們的轉(zhuǎn)載,即可產(chǎn)生多米諾骨牌效應(yīng),放大網(wǎng)絡(luò)輿論,加速主流輿論形成;二、單位時(shí)間內(nèi)發(fā)文和回帖數(shù)劇增,微博里面的轉(zhuǎn)發(fā)和評(píng)論數(shù)也劇增;三、評(píng)論人數(shù)多,能引起眾多的心里共鳴,評(píng)論中情感傾向嚴(yán)重偏向負(fù)極。
為了提高監(jiān)測(cè)環(huán)節(jié)的計(jì)算速度和準(zhǔn)確性,可以根據(jù)突發(fā)事件的傳播特點(diǎn),在采集微博數(shù)據(jù)時(shí)可對(duì)不可能是突發(fā)事件話題的噪音微博進(jìn)行過濾:1)過濾噪聲用戶的微博。噪聲用戶主要指一些僵尸粉,這些用戶會(huì)發(fā)布大量重復(fù)的內(nèi)容用于一些商業(yè)目的,會(huì)對(duì)話題檢測(cè)造成不少的影響,會(huì)對(duì)聚類算法產(chǎn)生干擾。僵尸粉通常關(guān)注人數(shù)多,粉絲數(shù)量少(接近于零),可以對(duì)它們的比值設(shè)定一定的閥值,如果小于一定閥值,就判定為僵尸用戶,就可以過濾其所發(fā)的微博。2)過濾轉(zhuǎn)發(fā)數(shù)量和評(píng)論數(shù)量小于一定閾值的微博消息,一個(gè)熱門事件必定有較大量的轉(zhuǎn)發(fā)數(shù),同時(shí)引起網(wǎng)民的廣泛評(píng)論或跟帖。3)過濾單純用戶之間對(duì)話性微博,通常帶有“@用戶”格式的消息,多數(shù)是用戶之間對(duì)話式的互動(dòng)。而我們的檢測(cè)目標(biāo)是突發(fā)事件,通常受眾面較廣,很少只是用戶之間的交流,所以對(duì)帶有@格式的指向性消息進(jìn)行過濾,可以大大提高事件檢測(cè)的精度。4)過濾微博平臺(tái)給出的熱門話題,這種消息以“#話題名#”為格式,這通常是微博平臺(tái)針對(duì)熱門事件之后給定的一些熱門話題,這其中多數(shù)是對(duì)熱門事件的討論,再次成為突發(fā)事件的概率較小。
1.2微博短文本處理
由于微博平臺(tái)有發(fā)表字?jǐn)?shù)限制,多數(shù)用戶使用微博通長(zhǎng)只是以日志形式記錄自己的生活事宜,因此微博文本與傳統(tǒng)的新聞、博客相比,有其自身的特點(diǎn):1)文本內(nèi)容短,可使用的文本特征詞少且稀疏;2)文本口語(yǔ)化,諧音詞、變異詞多,給文本理解帶來困難。3)文本數(shù)量大,存在較大比重的噪聲數(shù)據(jù)。微博短文本是微博內(nèi)容挖掘的基礎(chǔ),在微博話題檢測(cè)、情感傾向性分析等研究中均需要使用到短文本挖掘技術(shù)。
為了較好的實(shí)現(xiàn)對(duì)微博短文本的挖掘,國(guó)內(nèi)外學(xué)者做了很多嘗試。楊震等將每個(gè)短文本文檔看成一個(gè)由文字、數(shù)字和標(biāo)點(diǎn)構(gòu)成的字符串,并基于字符串自身的特性直接計(jì)算其相似性,在此基礎(chǔ)上進(jìn)行短文本層次化聚類,進(jìn)而發(fā)現(xiàn)網(wǎng)絡(luò)輿情熱點(diǎn). 由于這種方法免去特征提取和文本表示過程,在一定程度上避免了傳統(tǒng)方法在短文本表示時(shí)特征向量稀疏的不足,有效解決了短文本內(nèi)容聚類問題[2]。金甌提出長(zhǎng)文本輔助短文本的知識(shí)遷移聚類方法,此方法通過與主題相關(guān)的長(zhǎng)文本利用二元隱含狄利克雷分配模型 (DLDA)來輔助數(shù)據(jù)稀疏的短文本聚類。該方法通過對(duì)大規(guī)模的廣告和微博數(shù)據(jù)進(jìn)行實(shí)驗(yàn),獲得了較好的短文本聚類效果[3]。因此針對(duì)微博文本特征稀疏的問題,常用的解決方法是利用知網(wǎng)、維基百科等一些常用的知識(shí)庫(kù)作為輔助數(shù)據(jù)集來對(duì)短文本進(jìn)行拓展,豐富短文本的特征。
上述研究均基于假定微博文本信息都是相互獨(dú)立的前提下的,并沒有考慮到微博文本所具有的話題線索性,通常微博文本包括大量對(duì)主題貼的回復(fù),微博文本的這種“對(duì)話性”特性,使其擁有豐富的上下文,如果加以語(yǔ)境線索可以增加對(duì)微博短文本的理解。趙文清等[4]就充分利用了這種話題線索性,提出基于詞共現(xiàn)圖的識(shí)別中文微博新聞話題的方法。它首先通過綜合相對(duì)詞頻和詞頻增加率2 個(gè)因素抽取微博數(shù)據(jù)中的主題詞,然后利用詞共現(xiàn)圖原理構(gòu)建微博話題簇來識(shí)別微博新聞話題,實(shí)驗(yàn)驗(yàn)證了該方法的有效性。
針對(duì)微博文本口語(yǔ)化,諧音詞、變異詞多的特點(diǎn),該文提出變體詞表歸一化的思想。微博文本的不規(guī)則形式變化多端,包括使用拼音或者諧音字來代替非法詞或敏感詞其中的某些單字,或者在非法詞或敏感詞中間插入特殊符號(hào)等。首先選取民眾普遍關(guān)注,容易演變成熱點(diǎn)話題的社會(huì)事項(xiàng),如:醫(yī)療衛(wèi)生、公共安全、司法公正、公共教育、社會(huì)就業(yè)、權(quán)力腐敗等主題,提取短文本敏感關(guān)鍵詞,然后根據(jù)已知所有的詞變體制作一個(gè)變形詞表,然后濾掉待過濾文本中的特殊符號(hào),,最后將文本中的詞到詞典中查詢,如果存在則判定為變體詞。 最終將所有原文中出現(xiàn)的變體詞都?xì)w一化到最具代表性的一個(gè)詞上。例如,"GCD"和"共*黨"都代表“共產(chǎn)黨”,那么當(dāng)歸一化完成,所有的"GCD"或"共*黨"都會(huì)被映射為“共產(chǎn)黨”。這個(gè)過程的難點(diǎn)是變形詞表的制作是一個(gè)很大的工作量,而且是一個(gè)動(dòng)態(tài)增長(zhǎng)的過程,需要后期持續(xù)的進(jìn)行補(bǔ)充和維護(hù)。
針對(duì)微博文本樣本數(shù)量大,少部分短文本占整體比重大的特點(diǎn),有學(xué)者將“長(zhǎng)尾理論”應(yīng)用到大規(guī)模短文本聚類中?!伴L(zhǎng)尾”實(shí)際上是統(tǒng)計(jì)學(xué)中冪律(Power Laws)和帕累托分布(Pareto distributions)特征的一個(gè)口語(yǔ)化表達(dá)。應(yīng)用在文本領(lǐng)域,舉例來說,我們常用的漢字實(shí)際上不多,但為數(shù)不多的漢字因出現(xiàn)頻次高占據(jù)了很大比例,而絕大部分的漢字難得一用,它們就屬于長(zhǎng)尾。俞曉明等[5]發(fā)現(xiàn)“長(zhǎng)尾理論”也適合在微博的主題聚類中,在微博的海量文本中,少部分占很大比例的短文本不太具有主題聚類的效果和意義,屬于孤立點(diǎn)。因此他們提出不完全聚類思想來實(shí)現(xiàn)微博的大規(guī)模短文本聚類,在聚類過程中集中資源處理重要的大類別短文本,減少資源在孤立點(diǎn)聚類上的浪費(fèi), 盡量減少小類別短文本的聚類時(shí)間,增加大類別短文本聚類的機(jī)會(huì)。
1.3突發(fā)事件微博情感分析
突發(fā)事件的發(fā)生容易引發(fā)網(wǎng)絡(luò)社會(huì)情緒危機(jī)。當(dāng)突發(fā)事件發(fā)生時(shí),用戶的情感和情緒也會(huì)呈現(xiàn)出一個(gè)爆發(fā)現(xiàn)象,像恐懼、害怕、憤恨等一些負(fù)面情感會(huì)迅速蔓延。因此可以通過監(jiān)測(cè)微博中的用戶情感變化,特別是大規(guī)模的負(fù)面情緒的爆發(fā)來檢測(cè)突發(fā)事件。劉志明等[6]以Aging theory主題生命周期模型為基礎(chǔ),設(shè)計(jì)了面向突發(fā)事件的微博民眾負(fù)面情緒生命周期模型,并結(jié)合主題檢測(cè)與跟蹤技術(shù)來檢測(cè)突發(fā)事件主題數(shù)據(jù)流,構(gòu)建基于微博的民眾負(fù)面情緒實(shí)時(shí)監(jiān)控預(yù)警框架。文中最后以25 起突發(fā)事件為實(shí)驗(yàn)對(duì)象,驗(yàn)證了提出模型的有效性。但是由于此模型需要突發(fā)事件作為訓(xùn)練樣本,訓(xùn)練模型的好壞跟訓(xùn)練樣本數(shù)量多少相關(guān),因此需要持續(xù)的收集各類突發(fā)事件樣本數(shù)據(jù)。另外沒有考慮到突發(fā)事件的演化模式不同導(dǎo)致的模型差別。
微博情感傾向性分析的關(guān)鍵在于提取微博短文本中的情感詞作為特征屬性,并對(duì)信息進(jìn)行正確分類。情感詞又稱為極性詞,是指帶有情感傾向性的詞語(yǔ),通常分為正極、負(fù)極和中性。情感詞的抽取和判別主要可基于大規(guī)模語(yǔ)料庫(kù)的統(tǒng)計(jì)方法和基于情感詞典的判別方法?;谡Z(yǔ)料庫(kù)的情感詞語(yǔ)抽取和判別主要是利用大規(guī)模語(yǔ)料中挖掘出的語(yǔ)言學(xué)規(guī)則特征,以機(jī)器學(xué)習(xí)模型對(duì)詞匯的情感極性進(jìn)行判別。這種方法的最大優(yōu)點(diǎn)在于簡(jiǎn)單易行, 缺點(diǎn)則在于可以利用的情感語(yǔ)料庫(kù)有限,同時(shí)情感詞語(yǔ)在大語(yǔ)料庫(kù)中的分布等現(xiàn)象并不容易歸納[7]。因此如果能將語(yǔ)料庫(kù)按照專業(yè)領(lǐng)域建設(shè),并和微博的主題結(jié)合,則可以進(jìn)一步提升機(jī)器學(xué)習(xí)判斷的正確率。
基于情感詞典的判別方法主要是使用詞典中詞語(yǔ)之間的詞義聯(lián)系來挖掘情感詞,其判別難度在于情感詞典的構(gòu)建。中文里有較多的一詞多義現(xiàn)象,且在不同的語(yǔ)境下表達(dá)的意義可能相反?,F(xiàn)有的中文情感詞典資源有《知網(wǎng)》、《常用褒貶義詞語(yǔ)詳解詞典》、《學(xué)生褒貶義詞典》、NT-USD、《褒義詞詞典》和《貶義詞詞典》等,基于微博五花八門的網(wǎng)絡(luò)用語(yǔ)不斷涌現(xiàn),需要建立相應(yīng)的網(wǎng)絡(luò)語(yǔ)言情感詞庫(kù),來提高情感判別的準(zhǔn)確性。
近年來,國(guó)內(nèi)外學(xué)者關(guān)于情感傾向性分析的研究也較多,主要集中于情感傾向分類和情感詞抽取。段建勇[8]等提出一個(gè)基于句法語(yǔ)義的情感傾向性評(píng)測(cè)算法,通過構(gòu)建特定領(lǐng)域的輿情知識(shí)庫(kù),然后結(jié)合人工分析給出高頻詞匯的情感傾向知識(shí)庫(kù),為后續(xù)情感分析提供必要的基本數(shù)據(jù)。算法以句子為基本單位進(jìn)行處理,運(yùn)用基于擴(kuò)展句法樹的語(yǔ)言處理模型,從單句到篇章計(jì)算文本情感傾向。王振宇等[9]針對(duì)HowNet和PMI兩種方法的局限性,提出了一種知網(wǎng)與PMI 相融合的詞語(yǔ)情感極性計(jì)算方法,該方法首先利用知網(wǎng)進(jìn)行同義詞擴(kuò)展來降低情感詞在語(yǔ)料庫(kù)中出現(xiàn)頻率低所帶來的問題,同時(shí)根據(jù)知網(wǎng)相似度計(jì)算的特性,將知網(wǎng)相似度與PMI 計(jì)算方法相融合。并通過實(shí)驗(yàn)驗(yàn)證了該方法的有效性。
另外在對(duì)情感詞判別其情感傾向時(shí),還要結(jié)合其詞語(yǔ)所在的語(yǔ)境,在不同的領(lǐng)域甚至在相同的領(lǐng)域,同樣的單詞在不同的語(yǔ)境下可以表達(dá)出不同的觀點(diǎn)。例如,“你的建議很高明!”這里面“高明”是褒義詞,代表正面情感。反之在“我們都被他高明的伎倆給騙了”里,“高明”就是貶義詞,代表負(fù)面情感。因此情感詞識(shí)別需要結(jié)合其上下文語(yǔ)境,不僅要提取情感詞,還要提取其評(píng)價(jià)的對(duì)象,根據(jù)其評(píng)價(jià)對(duì)象來判別情感詞的極性。
2 監(jiān)測(cè)系統(tǒng)框架
探討完微博突發(fā)事件監(jiān)測(cè)的幾個(gè)關(guān)鍵問題后,設(shè)計(jì)微博突發(fā)事件的監(jiān)測(cè)流程圖如下:
圖1
大體思路如下: 首先通過網(wǎng)絡(luò)爬蟲對(duì)具有影響力的微博網(wǎng)站采集微博頁(yè)面信息,然后經(jīng)過頁(yè)面分析,根據(jù)我們前面提到的過濾規(guī)則消除掉不太可能引起突發(fā)事件的噪聲數(shù)據(jù),提取微博短文本集;再對(duì)微博短文本進(jìn)行短文本預(yù)處理(包括變體詞識(shí)別、短文本擴(kuò)展、不完全聚類裁剪)變成易于識(shí)別和處理的傳統(tǒng)文本;然后再對(duì)其文本數(shù)據(jù)進(jìn)行預(yù)處理( 包括特征選擇、中文分詞處理、停用詞過濾、情感標(biāo)注等)得到文本向量,之后再用分類器對(duì)數(shù)據(jù)進(jìn)行情感極性分類, 通過情感評(píng)估,將情感極性大于一定閥值的熱門博文庫(kù)進(jìn)行主題聚類,最后抽取出突發(fā)事件。
3 總結(jié)
在基于前人研究的基礎(chǔ)上,對(duì)微博突發(fā)事件監(jiān)測(cè)涉及的幾個(gè)關(guān)鍵問題,進(jìn)行了探討。首先根據(jù)微博突發(fā)事件輿情傳播的特征與趨勢(shì),對(duì)微博的文本采集提出了合理的過濾規(guī)則,對(duì)不可能引發(fā)突發(fā)事件的微博文本進(jìn)行過濾,可以大大提高監(jiān)測(cè)的效率;之后又根據(jù)微博短文本的3個(gè)特點(diǎn),結(jié)合前人的研究,給出相應(yīng)可能的解決方案;文章最后提出了一個(gè)微博突發(fā)事件監(jiān)測(cè)框架,其主要思想是基于情感分析的微博突發(fā)事件監(jiān)測(cè),通過監(jiān)測(cè)情感爆發(fā)詞提取突發(fā)期,再用主題聚類方法對(duì)突發(fā)期內(nèi)的話題進(jìn)行聚類,識(shí)別出突發(fā)事件。該文的主要工作主要是基于理論的探討,將此理論付諸實(shí)踐,開發(fā)出一個(gè)微博突發(fā)事件監(jiān)測(cè)系統(tǒng),是后續(xù)研究的重點(diǎn)。
參考文獻(xiàn):
[1] 第32次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》.
[2] 楊震, 段立娟, 賴英旭.基于字符串相似性聚類的網(wǎng)絡(luò)短文本輿情熱點(diǎn)發(fā)現(xiàn)技術(shù)[J].北京工業(yè)大學(xué)學(xué)報(bào),2010(5):669-673.
[3] 金甌.長(zhǎng)文本輔助短文本的知識(shí)遷移聚類方法[D]. 上海:上海交通大學(xué),2012.
[4] 趙文清,侯小可.基于詞共現(xiàn)圖的中文微博新聞話題識(shí)別[J].智能系統(tǒng)學(xué)報(bào),2012(10):444-449.
[5] 彭澤映,俞曉明,許洪波,等.大規(guī)模短文本的不完全聚類[J].中文信息學(xué)報(bào),2011(1):54-59.
[6] 劉志明,劉魯.面向突發(fā)事件的民眾負(fù)面情緒生命周期模型[J].管理工程學(xué)報(bào),2013(1):15-20.
[7] 周勝臣,瞿文婷,石英子等.中文微博情感分析研究綜述[J].計(jì)算機(jī)應(yīng)用與2013(3):161-164
[8] 段建勇,謝宇超,張梅基.基于句法語(yǔ)義的網(wǎng)絡(luò)輿論情感傾向性評(píng)價(jià)技術(shù)研究[J].情報(bào)雜志,2012(1):147-150.
[9] 王振宇,吳澤衡,胡方濤.基于HowNet 和PMI的詞語(yǔ)情感極性計(jì)算[J].計(jì)算機(jī)工程,2012(8):187-193.