陳 婷,胡改麗,陳福集
(福州大學 經濟與管理學院,福建 福州305106)
據中國互聯網信息中心(CNNIC)發(fā)布的《第33 次中國互聯網絡發(fā)展狀況統計報告》,截至2013年12 月底,我國網民規(guī)模已達6.18 億,互聯網普及率為45.8%[1]。人們可以在互聯網上自由發(fā)表言論和觀點,各種不同的觀點、思想和言論碰撞交匯,形成一種強大的漩渦,即網絡輿情。網絡輿情是互聯網上公眾對某事件的認知、態(tài)度、情感和行為傾向的集合[2]。
對突發(fā)事件發(fā)生后的相關輿情話題的收集和追蹤,是分析事態(tài)發(fā)展的重要依據。由于網絡輿情的傳播路徑不確定,輿情話題在傳播過程中可能朝任意方向發(fā)展,某一特定的輿情話題可以衍生出多個相關的新輿情話題。話題衍生性是網絡輿情傳播演化的一個主要特點,特別是在輿情衰退期,由于網民對原始輿情話題的相關元素已失去興趣、訴求和需要,原始輿情話題失去生命力,被新的衍生話題所替代,這就是輿情對社會的“二次影響”。衍生話題與原始話題相互交織而形成動態(tài)的衍生網絡會延長原始事件的生命周期,其持續(xù)期和消退期的持續(xù)時間均延長,加大了突發(fā)事件應急處理難度,有時衍生話題的社會影響遠大于原事件,給社會環(huán)境帶來極大的損失。因此,把握輿情話題及其衍生話題之間的交錯復雜的遷移關系,構建話題演化動態(tài)模型,設計話題追蹤方法,通過對輿情話題進行追蹤了解,預測事件的發(fā)展態(tài)勢,避免事件的無限衍生蔓延,能夠為政府突發(fā)事件應急管理工作提供重要的決策支持。
在輿情話題演化模型的構建方面,MATSUMURA 等提出的影響力傳播模型即IDM 模型,該模型基于用戶間交互模式的視角,發(fā)現網絡論壇中有影響力的任務和話題[3]。文獻[4]提出了一種基于小波分析和神經網絡建模的非線性時間序列的預報方法,并基于該方法將話題分為不同序列構建模型以實現對熱點話題的預測。文獻[5]通過分析新聞報道中種子事件與后續(xù)新穎事件間的演化關系,強調命名實體詞的貢獻度,并及時調整話題的重心向量,建立了一種動態(tài)的話題檢測和追蹤模型。張曉艷等[6]使用一個基于話題的權重計算方法,在學習相關信息時盡可能減小偽相關報道中的噪音影響,并利用最新的話題無關報道來定位過濾當前話題模型中的動態(tài)噪音,提出一種能動態(tài)調整發(fā)生偏移的話題模型。文獻[7]針對輿情信息的特點,建立網絡輿情信息模型,進一步提出基于動態(tài)主題模型OLDA(online latent dirichlet allocation)的話題演化模型。
在話題追蹤算法方面,馬雯雯等針對傳統的話題發(fā)現算法中僅基于關鍵詞匹配而未考慮話題語義相關性的問題,引入隱含語義分析的方法對語料信息進行建模,通過兩階段的聚類策略發(fā)現網絡上較受關注的話題[8]。文獻[9]利用LDA模型對網絡熱點話題主題進行提取,利用時間標簽發(fā)現熱點話題,并設計了基于時序主題模型的網絡熱點話題演化分析系統。趙華等關注話題隨時間的動態(tài)變化,提出了基于話題持續(xù)時間的動態(tài)閾值模型[10]?;ヂ摼W輿情所具有的衍生性和動態(tài)性使得輿情呈現出復雜的演化特性,而以往學者構建的話題模型在話題演化的動態(tài)過程和微觀結構方面缺乏有效的描述,導致其不足以揭示出輿情話題的演化機理,且輿情發(fā)展后期的話題漂移是話題追蹤中不可忽視的問題,因此以往的話題追蹤算法中基于話題內容相似度計算兩者相關性的方法難以滿足實際的應用需求。筆者在分析話題演化特性和拓撲結構的基礎上,構建了基于時間片的輿情話題動態(tài)演化模型,該模型增加了對輿情話題的時序關聯,為了克服話題演化中的話題漂移,話題相關度分析中對僅基于內容相似度的方法進行了改進,在內容分析的基礎上結合對網頁鏈接關系的分析,進而通過實驗驗證了改進方法的有效性。
輿情動態(tài)演變網絡的組成要素包括原輿情話題、衍生子話題及話題的多維屬性,研究突發(fā)事件的衍生機理,需要對熱點話題進行評估。跟蹤熱點話題與發(fā)現話題之間的演化路徑是構建話題演化動態(tài)網絡的重要內容。話題關注度是評估話題熱度的重要參考指標,因此將話題關注度作為話題的重要屬性。而話題的內容和關注度均隨時間的發(fā)展而變化,故時序信息是輿情話題的重要內容。此外,話題熱度的變化具有一定的時序性和規(guī)律性,時序信息描述了衍生話題產生和發(fā)展的序列關系,時序性是輿情話題的重要屬性。
動態(tài)性是網絡輿情演化的一大特性,隨著時間推進,話題關注的焦點不斷變化,焦點子話題也不斷變化,衍生出的新話題與原輿情話題在內容上發(fā)生了較大偏移。此外,在輿情衰退期的話題漂移現象是不可忽視的問題,隨著突發(fā)事件的演進,與之相關的話題重心也在動態(tài)變化。
輿情話題除了結構化的文本信息,還包括網頁鏈接信息,話題的發(fā)布者(用戶)之間的關聯信息,話題之間的時序特性是描述話題演變關系的重要依據。通過對輿情話題微觀組成和演化特征的分析,確定話題演化模型組成元素的映射關系:模型將話題抽象為節(jié)點,節(jié)點之間的連接弧表示話題之間存在關聯,弧的權值表示話題的相關度。話題演化模型根據話題的多元信息組成確定其拓撲結構為層次結構,每個層次對應話題的一種信息。輿情話題動態(tài)演化模型如圖1 所示。
圖1 輿情話題動態(tài)演化模型
(1)話題信息層。將話題演變過程在時間上進行劃分即形成了時間片。話題信息層是由不同時序信息的話題組成的體系結構,可表示為:
式中:T為某一特定的突發(fā)事件;ti為對應的時間片;eij為在時間片ti內產生的與突發(fā)事件相關的輿情話題;Ei為對應時間片ti的話題集合。
(2)網頁信息層。網頁信息層是具有特定時序信息的網頁集合P={p1,p2,…,pT}及網頁間的鏈接關系集合PR={PR1,PR2,…,PRT},pi為時間片ti產生的網頁集合,PRt表示前t個時間片內的網頁集合,且PRt={(pi,pj)|pi,pj∈∪t1pt},網頁pi通過鏈接指向網頁pj。
(3)用戶信息層。用戶信息層是網絡用戶的信息及其關系的集合UG=(UG1,UG2,…,UGT),UGi表示第i個時間片內的話題討論者的關系集合。當大多數用戶對某一用戶的觀點持否定態(tài)度時,該用戶極有可能放棄該觀點,當絕大多數用戶對某一用戶的觀點呈現一邊倒的支持態(tài)度時,該用戶更有可能堅持自己的觀點。因此,用戶觀點的轉化受用戶間交互關系和自身特質的綜合作用。而網民觀點的演化是輿情話題演化的主要動力,特別是在輿情衰退期,網民關注點的轉移是衍生話題產生的主要原因。故在模型中引入用戶信息層。
筆者構建的三層話題模型是一種動態(tài)的信息表示模型,隨著時間的演進和與話題相關的網頁的不斷加入,話題模型要隨著網頁間的鏈接關系進行實時更新。由于模型的目的是探測新話題,因此判斷新加入的網頁與種子話題的相關度是首要任務,互聯網中輿情報道語料與原始輿情話題的相關性是判斷新報道是否為新話題的主要依據。分析突發(fā)事件的種子話題與新話題之間的演化關系可以得出,新的話題往往是在對前一個話題或種子話題的回顧性描述或評論中產生的,而這種描述或評論一般是通過網頁鏈接進行互動的。因此,針對圍繞突發(fā)事件的輿情話題的相關報道的語料信息,話題模型中話題信息層中的節(jié)點與輿情話題的相關度計算需要綜合考慮節(jié)點網頁之間的鏈接關系和內容相似度?;诰W頁間鏈接關系和內容相關度,筆者提出網頁間話題相關度的計算公式:
式中:RC為根據網頁內容計算得到的相關度,具體做法是計算互聯網新聞報道語料的內容空間向量與輿情話題的內容空間向量兩者之間的相似度;RL為根據網頁間的鏈接關系,在區(qū)分鏈接性質的前提下計算出的網頁主題之間的相關度;⊕表示RL與RC之間的運算是廣義加法運算,即網頁間的話題相關度R滿足max(RL,RC)≤R≤min(1,RL+δRC),δ 是依據RL和RC的相對重要性設置的調節(jié)系數。
新入網頁Pa與原輿情話題相關度RL(Pa)的具體計算公式為:
式中:RC(Pi)為網頁Pa與原有報道的網頁Pi的內容相似度;N(a)為網頁Pa發(fā)出的鏈接總數。由于原話題可能涉及多個網頁,而新入的輿情報道網頁若與多個原有報道的網頁之間均有鏈接關系,則新入網頁的話題與原話題的相似度需取與原有網頁報道的相關度總和的平均值。
突發(fā)事件的互聯網輿情報道是按時序連續(xù)更新的,對于一系列連續(xù)的報道,為了反映出輿情話題隨時間的演化路徑,先將時間軸劃分為一定長度的時間片,然后按照輿情報道發(fā)布的時間將其劃歸到相應的時間片中,同時對與報道相關的新入網頁進行特征抽取,獲得特征項,用權重較高的特征項對報道進行描述,將報道轉化為特征項形成的多元向量空間,然后計算其與原輿情報道話題之間的內容相似度。
定義Rnewc(S,T)為互聯網輿情報道語料S和話題T的內容相似度,式(3)表示新輿情報道的內容相似度的調整。
由于話題的衍生和漂移現象常發(fā)生在時間距離較近的話題之間,時間相隔越久的話題存在衍生、次生關系的可能性越小,因此計算新的輿情報道話題的相似度時只需考慮同一時間片內的話題。對于RL,主要根據新入輿情報道的網頁與原網頁之間的鏈接指向關系進行調整。如果新入的網頁Pa有指向原話題T的鏈接,則根據式(4)調整RL。
計算出新的輿情報道的RL,RC后,根據式(1)調整話題相關度R。為了判斷新話題的產生,需要預先設定閾值θ,當R≤θ 時,則認為報道中出現了新話題,反之,則認為是對已有話題的重復報道。
互聯網輿情報道隨著時間的演進不斷更新,新話題產生與否是未知的,因此話題的識別是一種增量式的聚類過程,并且話題挖掘過程是無監(jiān)督的。首先,對于一系列的輿情報道,按照發(fā)布的時間信息將其劃歸到對應的時間片,在一個特定的時間片內對報道進行特征抽取。某特定時間的輿情報道中可能涉及多個話題,因此通過特征抽取形成多個話題向量,并將其轉換為對應的話題向量矩陣。
話題追蹤方法是從兩個方面捕捉輿情報道的動態(tài)變化。①在模型的話題信息層中保存當前時刻的話題信息,主要是通過話題挖掘已經得到的聚類結果;②根據話題模型更新策略計算新入報道的話題相關度,用追蹤到的輿情報道的話題挖掘結果動態(tài)擴充新的信息到話題模型。這種增量式的話題聚類過程相當于是對整個報道集的聚類算法,算法按照時間片的順序,對報道集進行增量聚類,依次處理輿情報道信息流中的報道網頁,該方法為神經網絡學習使用較多的批處理學習算法[11]。具體算法步驟如下:
輸入:R=(R1,R2,…,Rn)(輿情報道集合)
輸出:T={T1,T2,…,Tn}(話題集合)
(1)T1={R1};num(T1)=1;k=1//將R1作為種子報道,對其進行特征抽取,得到種子話題T1,初始化話題模型;
(2)for eachRi//Ri為后續(xù)的輿情報道網頁;
(3)if(RC(Ri)≥δ)then//判斷Ri是否為與原始話題內容相關的報道;
(4)R=R.add(Ri)//若Ri為相關報道,則將Ri加入話題模型,并更新話題模型;
(5)to extract effective link fromRi//區(qū)分Ri發(fā)出的網頁鏈接類型,去除友情鏈接和廣告鏈接;
(6)for each linkLj
(7)if (Pj?Ti)then //鏈接Lj指向網頁Pj,且Pj不在已有的話題集中;Tj=Tj+{Pj};
(8)num(Ti)+ +;//將網頁Pj加入話題模型;update(Tj);
(9)T=T.addLink(Ri,Pj)//更新話題模型的網頁信息層,添加Ri指向Pj的鏈接信息;
(10)T=T.computeRL(Ri)//基于鏈接關系分析報道Ri的相似度;
(11)for each linkLj
(12)T=T.updateR(Ri,Pj);//根據式(4)調整與報道Ri有鏈接關系的所有網頁Pj的相關度;
(13)if(R(Ri)≥θ)then
(14)Tj=Tj+{Rj};
(15)num(Ti)+ +;//報道Ri的相關度超過了預設的閾值,認為輿情報道Ri出現了新話題,更新話題集;
update(Tj);
(16)return{T1,T2,…,Tm};//返回追蹤到的話題集;
(17)End。
從算法中可以看出,話題模型是隨著新入輿情報道的更新而不斷調整的,當突發(fā)事件發(fā)生后,將最初的輿情報道作為種子報道,種子報道中包含的話題為種子話題,在此基礎上逐步構建和更新話題模型。
為對話題識別的性能進行實際測試,筆者進行了實證分析。實驗以網易新聞為實驗平臺,選取發(fā)生于2014 年3 月8 日的“馬航MH370 失聯”事件作為分析的案例。
為了保證數據的穩(wěn)定性,實驗中語料信息選取的時間范圍固定在2014 年3 月8 日至4 月15日,事件涉及的話題包括飛機失聯、馬航MH370搜救、馬來西亞政府應對、失聯原因分析、乘客名單公布、多國民眾集體祈福、墜落地點預測、飛機殘骸多國搜尋、國際賠償程序和善后處理,以及澳政府擬建馬航MH370 紀念碑等話題。實驗語料的獲取主要利用網易提供的API 接口,輔以網絡爬蟲的數據采集方式,通過輸入以上話題的關鍵詞對特定時間段內涉及到的10 多個話題的相關網絡報道進行采集。
事件發(fā)生初期,網絡報道數量相對密集,由于時間片的大小對話題演化分析的準確性具有一定的影響,為了更好地分析各話題之間的演化關系,實驗中將時間片{t1,t2,…,tm}的時間跨度設置為3 天,實驗將采集的語料集合S={S1,S2,…,Sn}按照其發(fā)布時間劃歸到對應的時間片,并按照先后順序排序。經過這樣處理的語料集可以模擬出真實網絡輿情事件的報道信息流。通過對語料集中的報道進行聚類,得到報道中涵蓋的話題集合E={E1,E2,…,Em},其中Ei為所有發(fā)生在時間片t的話題集合。根據報道頻率排序,得到報道頻率較高的10 個話題,表1 列出了前5 個時間片內的話題特征和報道分布情況。
由表1 可看出,在事件發(fā)生后的初期,輿情報道相對密集,報道頻率較高,且事件的衍生話題較多,在以3 天為跨度的5 個時間片內出現了15 個報道頻率較高的話題,從表1 中也可看出輿情話題的演化具有很強的時效性,一個報道頻率較高的話題不會同時出現在兩個相鄰的時間片內。從而說明時序信息是輿情話題的重要屬性,刻畫了衍生子話題發(fā)生和發(fā)展階段的序列關系,是話題追蹤的重要依據,因此,筆者考慮了話題演化的時序特征和時間片對話題演化的影響,并通過鏈接關系和內容相似度兩個因素計算話題之間的相關度。為了驗證筆者提出的話題追蹤方法的有效性,將該方法與傳統的方法進行對比分析。實驗中對算法的實現選擇的編程語言是Java 語言,并通過開源的CRF 中文分詞工具對文集進行分詞、停用詞過濾等預處理。將經過預處理后的這10 個話題的相關語料作為測試報道流,分別采用兩種話題追蹤方法對“馬航MH370 失聯”事件進行輿情話題追蹤,進行對比實驗,并對實驗結果進行人工分析和判斷。
表1 時間片的話題特征和分布情況
話題追蹤方法的評價是考察方法的話題檢索能力的優(yōu)劣,簡而言之,相關的話題能被識別出來的正確率越高,說明方法的性能越好。話題識別效果一般借助于類別與話題雙向表[12]表達,具體形式如表2 所示。
表2 話題識別評測的類別與話題雙向表
實驗采用準確率P、召回率R和模型綜合指標F作為方法性能優(yōu)劣的評價指標。根據話題識別雙向表,對以上指標作出如下定義:
根據廣義加法的定義域,有如下運算法則:
文獻[13]的實驗結果說明,進行多次實驗,比較分析后,當運算法則選取式(5)時,綜合指標F的平均值最大,說明不同的話題相關度計算公式確實會影響話題追蹤結果,因此,在實驗中,計算話題的相關度時,選取式(5)進行計算。
表3 基于測試語料集的實驗結果
新話題出現與否的預設閾值大小直接影響到話題追蹤的準確率和召回率,當閾值較大時,會導致實驗結果的召回率均太小,當閾值較小時,又會導致準確率均較低,閾值過大或過小都會增大實驗誤差,因此實驗中將閾值范圍設定為[0. 1,0.4],每設定一次閾值,分別用兩種方法進行多次實驗,計算性能評價指標的平均值,實驗結果如表3 所示。表3 的實驗結果顯示方案②的準確率平均值不及方案①,但是相差不大,說明在突發(fā)事件爆發(fā)后輿情演化初期,大部分的話題是圍繞事件本身展開的,話題在內容上具有很高的相似度,因此在前3 組時間片{t1,t2}{t3,t4}{t5,t6}傳統的話題追蹤方法在準確率上高于筆者設計的方法,但是兩者相差不大,基于內容相似度計算話題相關度的話題追蹤方法的精準度要大于筆者提出的方法,在突發(fā)事件發(fā)生初期,各大媒體和網民對飛機失聯的信息非常敏感,話題與事件具有較高的相似度,與事件無關的話題衍生率較低,話題的重心仍然是與突發(fā)事件所引發(fā)的原始話題相關的話題,尚未發(fā)生話題漂移。此時,話題之間的內容相似度仍可作為判斷兩者是否相關的主要依據。在時間片{t7,t8}{t9,t10}的方案②的P值超過了方案①,說明在輿情擴散期和高漲期,衍生話題大量出現,且衍生話題與原始輿情話題的內容相似度較低,這時如果僅僅將內容相似度作為話題相關的判斷標準,會引起話題追蹤查準率的降低,而原話題與衍生子話題之間往往會有鏈接指向關系,如果將話題之間的相似度和鏈接關系作為判斷相關度的主要依據,會提高話題的查準率。在時間片{t9,t10}輿情的演化處于衰退期,此時話題的重心由原來的空難事故的相關話題轉變?yōu)榕c其在內容上大相徑庭的關于國家政治領土主權的政治敏感話題,在極易發(fā)生話題漂移現象的輿情衰退期,傳統的話題追蹤方法已經失去了生命力,而方案②的話題追蹤性能顯示出了很大的優(yōu)勢。當閾值較低時,方案②檢索出了方案①中尚未檢索出的兩篇報道“馬航引發(fā)中國安全戰(zhàn)略思考”和“MH370 陰謀論再起:美澳同在演戲”,這是由于這兩個話題是與飛機失事事件在內容上相關度甚小的兩個衍生子話題。
實驗結果還反映出方案②在召回率上明顯高于方案①,方案②的F值要大于方案①,說明準確率和召回率雖然具有互逆性,但方案②比方案①更有效。在時間片{t1,t2}{t3,t4}中,當閾值設置為0.1 時,方案①的F值均大于方案②,這是由于此時兩種方案的召回率R值均較高,而此時影響F值的主要指標成為準確率P,結果表現為方案①優(yōu)于方案②。
針對突發(fā)事件網絡輿情中的話題漂移現象和衍生效應,通過分析話題的衍生路徑和拓撲結構,構建了基于時間片的話題演化動態(tài)模型,根據衍生話題的特點提出了基于內容相似性和鏈接關系的話題相關度計算方法,并在此基礎上提出了話題模型的動態(tài)更新策略,進而設計了話題追蹤算法。由于話題模型隨著網絡報道動態(tài)更新而改變,由此提出的話題追蹤算法能夠實現對互聯網輿情話題的實時追蹤。實驗證明,筆者提出的方法能夠有效解決傳統的話題探測算法中不能兼顧話題漂移和衍生問題的缺陷,但是實驗結果也反映出在輿情發(fā)生期,當閾值較低時,該方法的優(yōu)勢較不明顯,主要表現為召回率較低,進而造成綜合指標較低。
[1] 中國互聯網絡信息中心.CNNIC 發(fā)布《第31 次中國互聯網絡發(fā)展狀況調查統計報告》[EB/OL].[2014 -10- 17]. http://www. cnnic. cn/hlwfzyj/hlwxzbg/hlwtjbg/201301/t20135_38508.htm.
[2] 曾潤喜.網絡輿情管控工作機制研究[J].圖書情報工作,2009 (18):79 -82.
[3] MATSUMURA N ,OHSAWA Y,ISHIZU K A M.Influence diffusion model in text - based communication[J]. Journal of the Japanese Society for Artificial Intelligence,2002,3(13):259 -267.
[4] 張虹,鐘華,趙兵.基于數據挖掘的網絡論壇話題熱度趨勢預報[J].計算機工程與應用,2013,57(9):96 -118.
[5] 胡耀斌,林培光,聶培堯,等.種子事件與新穎事件演化關系的話題檢測與追蹤[J]. 微型機與應用,2013,32(6):65 -71.
[6] 張曉艷.新聞話題表示模型和關聯追蹤技術研究[D].長沙:國防科學技術大學圖書館,2010.
[7] 胡艷麗,白亮,張維明.網絡輿情中一種基于OLDA的在線話題演化方法[J]. 國防科技大學學報,2012,34(1):150 -154.
[8] 馬雯雯,魏文晗,鄧一貴.基于隱含語義分析的微博話題發(fā)現方法[J]. 計算機工程與應用,2014,50(1):96 -100.
[9] 廖君華,孫克迎,鐘麗霞.一種基于時序主題模型的網絡熱點話題演化分析系統[J]. 圖書情報工作,2013,57(9):96 -118.
[10] 趙華,趙鐵軍,趙霞.時間信息在話題檢測中的應用研究[J].計算機科學,2008,35(1):221 -223.
[11] 許彪,李明楚.基于終身學習RBF 神經網絡的網絡安全態(tài)勢預測[EB/OL].[2014-10-17].http://www.paper.edu.cn/html/releasepaper/2008/09/690/.
[12] 張思龍. 微博熱點話題預判技術研究[D]. 鄭州:中國人民解放軍信息工程大學圖書館,2013.
[13] JANSEN B J,ZHANG M,SOBEL K,et al. Twitter power:tweets as electronic word of mouth[J]. Journal of the American Society for Information Science and Technology,2009,11(60):2169 -2188.