張 瑜,李 兵,劉晨玥
(對外經濟貿易大學 信息學院,北京100029)
?
面向主題的微博熱門話題輿情監(jiān)測研究
——以“北京單雙號限行常態(tài)化”輿情分析為例
張 瑜,李 兵,劉晨玥
(對外經濟貿易大學 信息學院,北京100029)
社交媒體輿情監(jiān)測是社交媒體分析的熱點研究問題,學界和工業(yè)界取得了很多研究成果。但目前針對熱門話題輿情監(jiān)測研究中,往往只在整體上關注事件輿情趨勢,而沒有對事件內部不同的討論主題進行分析。鑒于此,該研究將主題分類模型引入到輿情監(jiān)測中來,并在此基礎上,以時間為脈絡進行面向主題的情感分析。并以“北京市單雙號限行常態(tài)化”這一微博話題為例進行實證研究,通過各個時段 “北京市單雙號限行常態(tài)化”這一微博話題群體情感傾向變化的分析,為輿情的監(jiān)測提供對象和時點選擇的參考建議。
輿情監(jiān)測;短文本情感分析;樸素貝葉斯
微博以碎片化的信息形式滲入到人們生活的各個方面,已經成為互聯網輿論演化的重要平臺。網民對網絡話題所持觀點的演化過程是輿論演化的重要內容,并對輿論的發(fā)展趨勢有重要影響。而網絡輿情的突發(fā)性、廣泛性也使得網絡輿情極易造成社會恐慌,如果輿情沒有得到及時有效的引導,往往造成社會輿論爆發(fā)、謠言出現等,嚴重的還將導致社會情緒低落和失控,甚至會危及社會穩(wěn)定,因此研究微博輿論觀點演化的規(guī)律對科學地引導輿論具有重要意義。
微博熱門話題事件是微博強大信息傳播能力的一個代表,也是微博輿情監(jiān)控的一個主要陣地。持續(xù)性敏感話題是指一些長期受公眾關注的話題或事件,由于并沒有最終的結論或結果而長時間的處于亞沸點狀態(tài),一旦有相關事件進展發(fā)生,很容易就會觸發(fā)輿論熱潮。針對于這類事件或話題的研究相對較少,而且以往針對熱門事件輿情傳播及其監(jiān)測的研究往往僅是從整體上關注事件輿情趨勢,而沒有對事件內部不同的討論主題進行分析。這導致對于輿情的監(jiān)測往往失卻著力點,忽略事件內部的主要矛盾問題而不能達到有效監(jiān)測輿情的目的。因此,本課題的研究意義就在于,通過關注持續(xù)性敏感性話題內部不同主題的民眾情感傾向,結合時間發(fā)展變化,尋找大多數民眾最關心、最敏感的議題方向。為輿情的監(jiān)測提供有效的參考建議。
2.1 國內研究現狀
就網絡輿情的類型而言,“網絡輿情”是一個寬泛而模糊的概念,目前學界對于網絡輿情的分類有多種不同的方法,大多數的分類從輿情的內容性質出發(fā)。如謝耕耘[1]按內容將輿情分為食品安全輿情、環(huán)境輿情、醫(yī)療業(yè)輿情、教育輿情、反腐倡廉輿情、官員人事任免輿情、交通輿情、涉警涉法輿情、企業(yè)及企業(yè)家輿情等。但也有文獻從不同的角度對網絡輿情進行分類,中宣部輿情信息局[2]分別按形成過程,分為自發(fā)網絡輿情和自覺網絡輿情; 按構成,分為事實性信息和意見性信息; 按境內外,分為境內網絡輿情和境外網絡輿情。也有文獻對“事件主體”和“傳播媒介”等進行了研究。王國華[3]根據刺激性事件的主體行為將輿情劃分為政府類行為事件和非政府類行為事件。根據傳播媒介的不同將輿情劃分為個體傳播為主的輿情事件和媒體傳播為主的輿情事件。
從網絡輿情的監(jiān)控角度來看,當前,我國網絡輿情問題涉及人數眾多,信息量巨大,影響力空前。因此,網絡輿情預警研究成為網絡輿情研究的熱點,目前,主要的網絡輿情監(jiān)控研究有以下幾種模式?!爸笜梭w系+ 評價模型”模式的網絡輿情預警研究,通過按照一定的科學方法確定關鍵指標、指標維度、指標層次、指標量化方法,建立預警指標系統,根據不同的評價模型對網絡輿情進行監(jiān)控[4-5];基于情感態(tài)度分析的網絡輿情預警研究,即通過群體情感傾向性分析( 包括“贊同”、“反對”、“中立”三種態(tài)度),利用計算機對網絡文本進行分析,關注輿情的發(fā)展狀態(tài)[6];基于數據挖掘技術的網絡輿情監(jiān)控研究,即通過對網絡數據進行數據特征提取、聚類、關聯規(guī)則挖掘等,得到相關數據,然后通過數據分析對網絡輿情進行監(jiān)控[7]。
2.2 國外研究現狀
國外的相關研究多基于推特話題探測、公眾意
見分析、傳播機制三個方向。
從推特話題探測角度入手的學者多提出話題探測方法并用實際數據進行驗證。Mario Cataldi[8]等人基于推特內容老化理論對推特特征詞詞語進行提取,利用用戶的關系網絡計算用戶權威度,并通過主題連通圖聯結關鍵詞,以探測新興話題的產生。Ana-Maria Popescu[9]等人則構建由話題目標、話題持續(xù)期、與話題相關的推特構成的三元組,通過回歸機器學習模型計算每個話題的爭議程度大小,從而探測公眾情感兩級分化較大的推特話題。
從公眾意見分析角度入手的專家學者,采取將推特文本情感分析得到的結果與實際公眾情感對比,探究了使用推特文本進行公眾情感檢測的可行性與準確性。Brendan O’Connor[10]等人以2008~2009年的政治觀點和消費者信心的調查為例,將以投票方式測度的公眾意見與以文本測度的公眾情感相連接,測度兩者之間的相關系數,認為后者可以在一定程度補充或替代前者。
而Daniel M.Romero[11]等學者則從信息的傳播機制入手,通過分析一微博用戶在頻繁接觸該話題后參與該話題的可能性,探究不同推特話題在傳播過程中的差異;并探究導致該差異的原因是以推特事件的“影響”為主還是以人們保持“同質性”的傾向為主。而Hsia-Ching Chang[12]利用創(chuàng)新擴散理論,基于Logistic Model和Bass Model提出推特信息傳播機制的一般性結論,分析信息傳播過程中“模仿”因子和“創(chuàng)新”因子扮演的角色。
2.3 研究現狀總結
以往研究多針對及時探測突然性話題和監(jiān)測網絡輿情對于政府決策的意義,然而除突發(fā)性熱門話題及事件外,還有一類話題長期受社會關注而處于敏感狀態(tài),一旦有事件觸發(fā)就會立刻爆發(fā)輿論潮。我們將這種話題稱為持續(xù)性敏感話題。
先前的研究缺乏對話題性質的辨別,因而在監(jiān)測輿情時無法確切把握其著力點;以往輿情研究多數關注的是總體情感傾向,而針對持續(xù)性敏感話題內部議題情感傾向變化對總體情感傾向變化的解釋作用的研究卻很少。
本文在判定微博話題性質的基礎上,關注內部不同議題的民眾情感傾向,尋找大多數民眾最關心、最敏感的議題方向。為輿情的監(jiān)測提供有效的參考建議。
3.1 理論基礎與方法
(1) 巴斯模型
網絡輿情的演變離不開微博使用者的“創(chuàng)新”與“模仿”?!皠?chuàng)新”,即微博使用者受到話題事件進一步發(fā)展的外部影響而撰寫微博的行為?!澳7隆?,即微博使用者受到其他微博使用者的內部影響而參與到該微博話題中的行為。在不同話題的輿情演變過程中,“創(chuàng)新”與“模仿”兩者的相對重要性不同。掌握輿情演化的主要影響因素,是對網絡輿情進行監(jiān)控的基礎。
本文使用巴斯模型對以微博為代表的網絡輿情演化機制進行探究。Frank M Bass[13]提出,在新產品上市的時候,每個人只購買一個單位的新產品,不存在重復購買。在該假設下,以新產品推出之時為0時刻,則在t時刻未采用而即將采用新產品的潛在市場份額是t時刻之前采用的消費者的線性函數。
其基本形式如式(1)所示:
(1)
其中t代表從新產品上市開始所經歷的時間,三個巴斯模型系數p、q、M分別為外部影響系數(即創(chuàng)新系數)、內部影響系數(即模仿系數)、總體潛在消費者數。F(t)代表在t時刻之前累計消費者占總體潛在消費者的比率,f(t)是F(t)的導數,表示t時刻消費者占總體潛在消費者的比率。A(t)代表在t時刻之前累計消費者數,a(t)是A(t)的導數,表示t時刻消費者數。
以微博為代表的網絡輿情演化機制在一定程度上與新產品的市場擴散類似,其相似性表現在以下幾個方面。首先,對于某一微博話題而言,微博用戶對該話題一次性發(fā)表意見的可能性高于多次重復發(fā)表意見的可能性。因此可以認為基于微博的網絡輿情演變過程滿足了巴斯模型的基本假設。其次,微博用戶可以分為創(chuàng)新者和模仿者。創(chuàng)新者即為受到外部影響如話題事件發(fā)生而主動撰寫微博的人群;模仿者即為受到內部影響,如因他人轉發(fā)相關話題的微博而參與該話題討論的人群。
鑒于以上兩點,考慮到本文的數據抓取時間單位為天,本文將使離散形式的巴斯模型(即Srinivasan-Mason[14]形式)對網絡輿情演化情況進行分析。將A(t)=MF(t),a(t)=Mf(t)代入巴斯模型的基本形式中即可得到:
其中,創(chuàng)新系數p為在外部影響下微博用戶主動撰寫相關微博的可能性,模仿系數q為在內部影響下微博用戶可能參與該話題討論的可能性,A(t-1)代表第0至第t-1天的累計參與該話題的微博用戶數;a(t)表示第t天該話題參與者數目。受內外影響共同作用而參與該話題討論的微博用戶數a(t)即為該話題的輿情情況。
Hsia-Ching Chang指出,對于一般性話題,創(chuàng)新系數并不顯著表明微博用戶缺乏內在驅動參與該話題,而顯著的模仿系數表明微博用戶極有可能受到其他微博用戶的影響來參與到話題中。本文將沿用這一思路,根據創(chuàng)新系數和模仿系數是否顯著來判斷持續(xù)性敏感話題的輿情情況。
(2) 基于特征向量空間模型和樸素貝葉斯分類器的議題劃分
該微博話題下的議題因為后續(xù)事件的發(fā)展而不斷改變,而該話題內部不同議題的情感傾向變化無疑對該話題的總體情感傾向變化具有解釋作用。因此基于巴斯模型對以微博為代表的網絡輿情演化機制進行探究后,本文利用特征向量空間模型對微博進行特征提取,使用樸素貝葉斯分類器對微博所屬議題進行劃分,具體步驟如下。
? 微博文本分詞
對于經過預處理的微博數據,本文使用中國科學院計算機所軟件室開發(fā)的中文分詞工具ICTCLAS進行分詞操作,以便下一步提取微博文本的特征詞。
對于微博語料口語化的特殊性,本文對ICTCLAS的用戶詞典添加了相應的網絡用語,以提高其分詞準確性。
? 閾值確定
對于微博數據的分詞結果計算每個詞的TF-IDF值,并據此降序排列,結合微博數據實際情況和數據處理經驗,詞匯大約在36.5%基本喪失特征性,因此選取36.5%處對應的TF-IDF值作為閾值。
? 微博文本特征提取
對于分詞結果,本文采用特征向量空間模型[15]對微博文本進行特征提取,通過微博文本的特征項和其相應權值來替代微博文本,如式(2)所示。
(2)
每個微博短文本可以看成由若干特征項ti組成,每個特征項具有權值wi,為了保證選取的特征項具有高代表性和高區(qū)分度,以特征項ti的TF-IDF值作為該特征項的權重wi。并選取TF-IDF值超過閾值的詞語作為微博文本特征項。
如上分詞后的微博文本以權值向量的形式表示,如式(3)所示。
d=
d((老百姓,0.879 685 7),(車主,0.415 903 8)……)
(3)
? 議題詞典構建
在對TF-IDF超過閾值的詞語進行統計收集后,我們以人工頭腦風暴交流討論的方式對收集到的詞匯進行了分類。構建本事件內部微博議題類別yi(i=0,1,2): 環(huán)境保護、公共交通、公民權利保障。
基于此,本文構建了議題詞典,如“所有權”、“聽證會”、“法治”等詞被歸為公民權利保障類議題的關鍵詞,“生態(tài)”、“高能耗”等詞語被歸為環(huán)境保護類的關鍵詞,“公路”、“機動車”等詞語被歸為公共交通類的關鍵詞。
? 微博文本議題劃分
本文使用樸素貝葉斯分類器[16]對微博文本特征詞所屬于的議題進行劃分。
(4)
(5)
分類結束后,選取大小為200的樣本,對分類結果進行了五次抽樣驗證,訓練數據的精度為Accuracy=83.25%,測試數據的精度為Accuracy=75.23%,相比起英文文本情感分析,中文語言更加復雜、多樣。再加上微博語言的不規(guī)范性造成的一定干擾。所以要準確預測情感極性很困難,75.23%的準確度是可以被采納的。
4.1 數據采集和數據處理
本文使用網絡數據采集工具MetaSeeker來抓取網頁微博的數據,數據采集使用了分時段采集的方式。采集了包括用戶ID、微博ID、本微博內容、被轉微博內容等特征的數據作為研究對象。
在對語料進行分詞之前,在數據庫中對數據進行了清洗處理。去掉各種文本交互信息及新聞、廣告等垃圾信息的干擾。并對如“的”、“明日”、“他”等高頻但無研究意義的詞匯進行清洗處理。
之后,利用自行開發(fā)的詞頻統計工具進行統計操作。經過詞頻統計操作后,將用戶微博數據和熱門事件數據按其詞語詞頻的降序順序排列存儲。
4.2 研究對象
本文研究微博熱點事件內部不同主題方向輿情隨時間的變化發(fā)展。
本文選取話題“#單雙號限行常態(tài)化#”下的微博作為樣本語料數據,于2014年11月26日至12月30日對新浪微博“#單雙號限行常態(tài)化#”熱門話題微博進行了采集。在對數據進行去重過濾、去不相關處理后共得新浪微博關于北京單雙號限行事件有效微博3 983條。本次數據采集內容包括微博用戶ID、微博ID、本微博內容、被轉微博內容、微博發(fā)布時間等。
4.3 數據特征描述
為了發(fā)現輿情演變整個時間段(11月26日-12月27日)中政府、意見領袖、民眾的特點,我們利用收集到的關于單雙號限行常態(tài)化事件的數據,對其進行統計分析,得到不同主體的微博數量如圖1所示。
圖1 事件期間各角色主體發(fā)博數量
4.4 網絡輿情演化結果呈現
由于本文的數據是以天為單位進行抓取,為離散數據,因此將使用Srinivasan-Mason離散形式的巴斯模型進行非線性回歸,以觀測單雙號限行常態(tài)化這一微博話題的網絡輿情演化情況,如式(6)所示。
(6)
其中,A(t-1)代表第0天至第t-1天的累計參與該話題的微博用戶數;a(t)表示 第t天該話題參與者數目。
通過最小二乘法進行非線性回歸,我們可以確定參數a、b、c的值如表1所示。
表1 參數a、b、c的值
圖2 回歸數據與實際數據對比
當a(t)=0,此時0至t-1時期的累計微博話題參與者數A(t)達到最大,即達到了潛在話題參與者的最大值M。因而,M可以通過式(7)計算得到
(7)
創(chuàng)新系數p可由式(8)得到
(8)
模擬系數q可由式(9)得到
(9)
表2 創(chuàng)新系數和模擬系數值
得到的創(chuàng)新系數p為0.113在95%的置信度下顯著(p值=2.2E-06<0.05),然而模仿系數q在統計意義上并不顯著。從以上統計數據中,結合單雙號微博話題的演變過程,我們可以看到,外部影響如政府作出回應、人大代表發(fā)表評論等觸發(fā)事件,相比內部影響如其他微博用戶的轉發(fā)評論,對單雙號限行這一網絡輿情的演變產生了更大的影響。在輿情傳播過程中,這樣長期存在、受事件影響更大的話題,本文將其稱為持續(xù)性敏感話題。
在持續(xù)性敏感微博話題的輿情傳播過程中,與該話題相關的后續(xù)事件在輿情演變的過程中扮演著不可忽視的角色: 該微博話題下的議題因為后續(xù)事件的發(fā)展而不斷改變,而該話題內部不同議題的情感傾向變化無疑對該話題的總體情感傾向變化具有解釋作用。
4.5 網絡輿情生命周期劃分結果呈現
從觀察得到的統計數據,很容易看到整個網絡輿情的演變呈現落差式分布。根據既有研究對網絡輿情演化過程的分段,并結合本案具體情況,筆者劃分輿論生命周期。觀察數據的時間分布特征,結合事件的發(fā)展歷程,可以明顯發(fā)現在事件進展的關鍵轉折時點,微博數據的發(fā)帖量也有明顯的增長。本文就根據事件的幾個轉折點將輿情劃分為六個階段,分別對應各輿情演化階段,如表3所示。
表3 輿情階段劃分及各階段轉折點
4.6 網絡輿情議題劃分結果呈現
(1) 微博文本分詞結果
對于經過預處理的微博數據,分詞結果舉例如下。
圖3 情感分析結果
(2) 詞語TF-IDF文本表征
為了通過程序對大批量的微博文本進行議題的歸類,本文首先提取了TF-IDF權值超過規(guī)定閾值的詞語作為用于議題歸類的關鍵詞,如表4所示。
(3) 議題劃分結果
本文從3 983條數據中選取400條構成訓練樣本集,應用如表5的數據展示了各階段網民關注議題的比例數量變化, 圖4是表5數據的圖表表示。
表4 選取的關健詞及其相應TF-IDF權值
表5 各階段網民關注各議題比例變化
圖4 各階段網民關注各議題比例變化折線圖
4.7 情感極性演變結果呈現與分析
本文使用Semantria情感分析軟件對微博文本進行情感極性的分析,得到結果如圖5所示。
通過情感極性分析結果進行統計,得到結果如下。圖6、7、8分別是三個議題的情感極性。
可以看出,在輿情演化的不同階段,群體的情感極性變化是有鮮明的變化趨勢的。下文我們將“公民權利保障”、“環(huán)境保護”、“公共交通建設”分別稱為“話題一”、“話題二”、“話題三”。
圖5 情感分析結果
圖6 議題—“公民權利保障”各階段情感極性變化
圖7 議題—“環(huán)境保護”各階段情感極性變化
圖8 議題—“公共交通建設”各階段情感極性變化
圖9 單雙號限行常態(tài)化事件總體情感極性分布
具體分析如下:
(1) 潛伏期(11月26日): 2014年11月26日下午,因某政府官員表示要“聽取和論證”單雙號限行的建議,但因為語言表達具有一定的歧義,大眾認為單雙號限行的政策已經開始制定并將要實施,引起輿論傳播的熱潮。通過圖4,我們可以看到,因APEC剛過,良好環(huán)境質量的影響猶在,潛伏期超過半數群體主要關注的議題是單雙號常態(tài)化對環(huán)境保護的作用,其次比較關注的方面是交通限行政策的制定是否觸及公民的權利,其余的13%左右的群體關注公共交通建設的問題;觀察圖6—圖8,“環(huán)境保護”和“公民權利保障”兩議題的消極傾向都超過了半數,受此影響事件所有微博的總體情感傾向也有超過半數的群體偏向消極。潛伏期一個值得注意的問題是,在26日上午的言論造成輿論爭議后,政府在下午就立刻采取了行動在主要的媒體微博澄清表示: 論證但不一定會實施。一定程度上消減了之前言論的刺激性影響,但整個事件并沒有因此而冷卻下來。
(2) 成長期(11月27日-11月29日)27日到29日是事件的傳播期。這一階段,并沒有特別的觸發(fā)事件發(fā)生。但之前政府的澄清微博沒能完全消解事件影響,事件相關微博依然在傳播,但發(fā)帖量相比潛伏期前期的爆發(fā),數量已經有顯著降低。成長期內相對潛伏期,群體關注的議題發(fā)生了一定改變?!肮步煌ńㄔO”和“公民權利保障”相關議題得到了更多的關注,“環(huán)境保護”議題的影響力開始下降。觀察群體情感極性,本階段觸發(fā)事件和意見領袖的缺失使得整體上和議題內部的情感變化都比較微小,輿論情感傾向并沒有發(fā)生很大的變化。
(3) 爆發(fā)期(11月30日-12月1日) 從29日下午起,媒體相關意見領袖開始逐漸發(fā)聲。意見領袖集中于討論單雙號限行常態(tài)化的可行性情況,帶動事件熱度提高。直到11月30日下午,新華視點,人民日報先后在微博上推送“【單雙號限行常態(tài)化突破法治紅線】”提出專家意見。權威媒體傳播專業(yè)人士對政策合法性質疑這一觸發(fā)事件的發(fā)生,使得整個事件輿論評述進入爆發(fā)期。相關微博被大量轉載,我們關注的話題下微博發(fā)帖量也迅速增加。值得注意的是,因這一階段的觸發(fā)事件多關注單雙號限行常態(tài)化這一政策的合法性討論,在本階段,“公民權利保障”相關議題得到了極大的關注,觀察圖4可以發(fā)現在爆發(fā)期,已有超過50%的群體關注該話題。“環(huán)境保護”和“公共交通建設”議題關注度則有所下降。情感極性方面,受觸發(fā)事件影響,話題一和話題三的情感極性消極方面占比迅速提高,話題一的消極比例更是達到了79%左右。話題二的情感極性中反而是消極情感比例略有下降,積極情感比例上升。但因為占微博總體數量比例小,話題一、三微博數量較多,總體上在爆發(fā)期,整個群體消極情緒爆發(fā),積極情感降低。
(4) 衰退期(12月2日-12月8日) 微博巨大的信息量在帶來巨量輿論信息流的同時,也加快了事件降溫的速度。因沒有觸發(fā)事件的繼續(xù)刺激,群體情感逐漸冷靜,進入一個衰退期。發(fā)文數量和情感極性都趨向平穩(wěn)。本時期內群體關注議題情況與爆發(fā)期情況基本一致。議題一、三的消極情感比例略有回落,總體情感中性和積極情感比例小有上升,消極情感比例下降。
(5) 波動期(12月9日-12月11日)衰退期中,輿情的發(fā)展比較穩(wěn)定,消極情感極性并沒有繼續(xù)發(fā)展,但若有刺激性觸發(fā)事件出現,輿情會產生波動。12月9日微博賬號中國之聲發(fā)表微博: “人大教授: 北京單雙號若常態(tài)化將違憲”。此次觸發(fā)事件的主人公權威性較高,并涉及“違憲”。于是在衰退期后,迎來了這次輿論波動。因為多次事件觸發(fā)皆關注議題一,所以在波動期,議題一相關微博比例繼續(xù)上升。其余兩個議題的比例仍下降。整個事件過程中,政府除26日下午的信息澄清外,并沒有明確的回應,這也使得群體情緒一直在波動中朝消極方向發(fā)展。議題一群體輿情消極比例創(chuàng)出新高,受其影響,整個事件微博的總體輿情的消極情感傾向達到頂峰。
(6) 死亡期(12月12日-12月27日)12月26日全國人大常委會委員審議時表示,單雙號限行常態(tài)化侵犯公民財產權利,建議刪除,不能隨便給單雙號限行常態(tài)化“開口子”。事件有了最終結果。受此觸發(fā)事件影響,事件經歷了最后的發(fā)帖熱潮,此階段最受關注的議題依然是議題一,議題一、三的消極情感比例皆有所下降。但單雙號限行討論的擱置不利于環(huán)境的保護,議題二的消極情感比例有所上升。但總體上,群體情感得到了安撫,滿意度上升。
(1) 持續(xù)性敏感話題長期處于休眠狀態(tài),一旦有相關事件觸發(fā)就可能會產生劇烈爆發(fā),引起輿論潮。單雙號限行政策從2007年第一次實施起就存在著一定的爭議。之后該政策擴散到西安、武漢等城市時都曾成為一段時間內的地方性熱門話題,該話題本身長期處于一種溫熱的亞沸點狀態(tài)。本次同樣是被事件觸發(fā)形成熱門話題,因此注意識別潛在的持續(xù)性敏感話題并進行一定的跟蹤監(jiān)督十分必要。
(2) 在同一話題下,不同的人群因個人社會地位、相關利益的不同,會關注不同的議題,也會因為社會環(huán)境和輿論環(huán)境的變化而發(fā)展。本例中,潛伏期的首次觸發(fā)事件發(fā)生在APEC剛剛結束后,此時“APEC藍”仍被人們津津樂道,大氣環(huán)境污染問題仍是網絡輿論空間里的一個重要的話題,所以在話題預熱的最初,人們相對關注的話題仍舊是單雙號對于環(huán)境保護的意義。但隨后的意見領袖對于此話題的關注集中于單雙號常態(tài)化的合法性及對公民權利的影響,多次觸發(fā)事件的影響加上意見領袖的誘導,導致群體對于本話題下的議題關注比例發(fā)生了明顯的變化。這表明對于話題內部的不同議題的引導是必要且有意義的。
(3) 話題內部主要議題的群體情感極性對最終整個話題的群體情感狀態(tài)起決定性作用。觀察圖6—圖8和圖9,可以明顯的發(fā)現圖6與圖9的圖形相似度極高。在本例中因為我們研究的是輿情的監(jiān)控,所以主要關注群體輿情的消極方面。對“公民權利保障”議題相關微博的消極情感微博數據和總體消極情感微博數據進行相關性分析可得兩者的相關系數達0.955。這表明在對整個話題輿情的監(jiān)測過程中,尋找到多數群體關注的議題,掌握該群體的情感極性對于針對性的調控整個話題輿情的發(fā)展具有重要意義。
(4) 網絡輿情對于政府決策機制具有指導作用,同時,政府的決策反饋也可以起到安撫輿情的作用。政策應以民意為向導,通過掌握網絡大量群體對于某項政策的情感傾向和意見指向,為有效地根據民意制定政策提供了一種方法。在本例中,群體對于北京單雙號限行常態(tài)化使得該項建議的論證得到了極大的關注,最終得到了良好的討論和處理,事件最終結果同時也安撫了群體情緒,扭轉了輿情消極傾向不斷發(fā)展的態(tài)勢。
(5) 政府相關部門應重視政務信息傳播的準確性,并關注微博上相關話題的傳播發(fā)展,適當建立政府的官方政務微博。本次話題的預熱起源于對政府官員的語言信息的缺漏性歧義傳播,該官員的原意表達的是: 將對單雙號限行常態(tài)化這一建議進行論證。但在隨后的新聞媒體傳播過程中,缺失了“建議”二字,使得部分網友產生了單雙號限行常態(tài)化的政策已經進入立法階段的錯覺,并引發(fā)了政府“懶政”的嫌疑,整個話題熱度徒升。雖然該官員在當天下午就通過媒體澄清了原意,但因為該媒體沒有權威和強有力的話語權,雖然在一定程度上消弭了事件的影響,但并不能完全消除話題熱度。事件的觸發(fā)效應已經發(fā)生,將持續(xù)性敏感話題從休眠狀態(tài)喚醒,進入了一次輿論潮。因此,政府建立掌握一個強有力的權威政務微博是有必要的。
持續(xù)性敏感話題是指一些長期受社會關注而處于休眠狀態(tài)的社會話題,一旦有事件觸發(fā)就會立刻爆發(fā)輿論潮。我們通過巴斯模型對此類事件進行識別,并通過關注持續(xù)性微博敏感性話題內部不同主題的民眾情感傾向,結合時間發(fā)展變化,尋找大多數民眾最關心、最敏感的議題方向為輿情監(jiān)測提供調控對象和時點選擇的建議。
由于持續(xù)性敏感性話題,往往會在相當的一段時間內得到持續(xù)關注,可能會存在同一主體多次發(fā)表意見的現象,這一點與巴斯模型 “不存在重復購買”的假設有所偏離,我們會在未來的工作中進一步完善研究,未來的工作包括修正模型,以及針對類似事件的實證研究等。
[1] 謝耘耕.中國社會輿情與危機管理報告[M]. 北京: 社會科學文獻出版社,2012.
[2] 中共中央宣傳部輿情信息局. 網絡輿情信息工作理論和實務[M].北京: 學習出版社,2009: 9-12.
[3] 王國華,馮偉,王雅蕾. 基于網絡輿情分類的輿情應對研究[J]. 情報雜志,2013,32(5): 1-4.
[4] 楊娟娟,楊蘭蓉,曾潤喜,張韋. 公共安全事件中政務微博網絡輿情傳播規(guī)律研究: 基于“上海發(fā)布”的實證[J]. 情報雜志,2013,32(9): 11-15.
[5] 曾潤喜,徐曉林. 網絡輿情突發(fā)事件預警系統、指標與機制[J]. 情報雜志,2009, 28(11) : 52-54.
[6] 王青,成穎,巢乃鵬. 網絡輿情監(jiān)測及預警指標體系構建研究[J]. 圖書情報工作,2011(4) : 54-57.
[7] 劉全超,黃河燕,馮沖. 基于多特征微博話題情感傾向性判定算法研究[J].中文信息學報 2014,28(4): 123-131.
[8] 吉祥.基于觀點挖掘的網絡輿情信息分析[J]. 現代情報,2010(11): 46-49.
[9] Mario Cataldi,Luigi Di Caro, ClaudioSchifanella.Emerging Topic Detection on Twitter based on Temporal and Social TermsEvaluation[C]//Proceedings of the 10th International Workshop on Multimedia Data Mining.New York:ACM,2010:4.
[10] Ana-Maria Popescu, Marco Pennacchiotti,Detecting Controversial Events from Twitter[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management.New York:ACM, 2010(16):1873-1876.
[11] Brendan O'Connor,Ramnath Balasubramanyan,Bryan R.Routledge,Noah A.Smith. From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series[J].Computer and Information Science.2010(5):122-129.
[12] Daniel M Romero, Brendan Meeder,Jon Kleinberg. Differnces in Mechanics of Information Diffusion Across Topics: Idiom,Political Hashtags,and Complex Contagion on Twitter[C]//Proceedings of the 20th International Conference on World Wide Web. Hyderabad, India, 2011: 695-704.
[13] Hsia-Ching Chang.Rehashing Information Architecture:Explorint Human-Information Interaction of Collaborative Tagging Using Twitter Hashtags[D].New York:University at Albany,State of University of New York.2010:47-57.
[14] The Bass Model[EB/OL].[2015-04-20].http://www.bassbasement.org/BassModel.
[15] Srinivasan, V. Seenu, Charlotte Mason. Nonlinear least squares estimation of new product diffusion models[J]. Marketing Science, 2012,5(2), 169-178.
[16] Salton, G., Wong, A., Yang, C.S. A vector space model for automatic indexing[C]//Proceedings of the Communications of the ACM 18: 613-620.
[17] Naive Bayes[EB/OL].[2010-06-07].http://group.cnblogs.com/topic/40112.html.
Topic-Oriented Monitoring of Public Sentiment towards Popular Weibo Events——A Case Study on “Regular ‘Odd-even’ Vehicle Restriction in Beijing”
ZHANG Yu, LI Bing, LIU Chenyue
(School of Information and Technology, University of International Business and Economics, Beijing 100029,China)
The monitoring of the public sentiment is a popular issue in the study of social media where a myriad of researches concentrate on the general trend of public sentiment towards certain event. However, few of them has analyzed the public sentiment towards various topics on the event. This paper focuses a topic-oriented sentiment analysis on temporal term. And the Weibo on the event of ‘regular’ odd-even ‘vehicle restriction in Beijing’ is selected as the target of our work. By observing the sentimental trend of the different topics on this event, we attempt to offer feasible suggestions for public sentiment monitoring.
public sentiment monitoring; short text analysis; Na?ve Bayes
張瑜(1995—),本科,主要研究領域為電子商務。E-mail:zhangyubut@foxmail.com李兵(1970—),通信作者,博士,教授,主要研究領域為社會網絡分析和數據挖掘。E-mail:lb0501@126.com劉晨玥(1994—),本科,主要研究領域為信息管理。E-mail:liuchenyue1617@sina.com
2015-06-01 定稿日期: 2015-08-10
北京市自然科學基金(9142014)
TP391
A