王飛
(甘肅政法學(xué)院 信息工程學(xué)院,甘肅 蘭州 730070)
計算機(jī)技術(shù)研究
基于貝葉斯網(wǎng)絡(luò)的應(yīng)急預(yù)測算法在群體性突發(fā)事件網(wǎng)絡(luò)輿情中的優(yōu)勢研究
王飛
(甘肅政法學(xué)院 信息工程學(xué)院,甘肅 蘭州 730070)
隨著網(wǎng)絡(luò)社會的逐漸發(fā)展,群體性突發(fā)事件可以通過互聯(lián)網(wǎng)形成網(wǎng)絡(luò)輿情,并對政府及企業(yè)處理群體性突發(fā)事件帶來極大挑戰(zhàn).網(wǎng)絡(luò)輿情的變動機(jī)制、阻動機(jī)制、啟動機(jī)制與驅(qū)動機(jī)制分別在爆發(fā)、終結(jié)、形成與擴(kuò)散階段起到了引導(dǎo)作用.論文闡述了貝葉斯網(wǎng)絡(luò)應(yīng)急預(yù)測算法在網(wǎng)絡(luò)輿情中群體事件性能方面的優(yōu)勢.
群體性;突發(fā)事件;網(wǎng)絡(luò)輿情;演變
依據(jù)網(wǎng)絡(luò)輿情中群體性事件的詞語群體度計算、群體事件詞語權(quán)重計算和群體詞的提取結(jié)果,并且按群體性事件的演化過程,核心是網(wǎng)絡(luò)輿情的群體性事件中的狀態(tài)變化,構(gòu)造出以下三種子網(wǎng)絡(luò),依次為輸入-狀態(tài)、狀態(tài)-狀態(tài)、狀態(tài)-輸出子網(wǎng)絡(luò),根據(jù)三個子網(wǎng)絡(luò)里面的公共變量把以下三種子網(wǎng)絡(luò)連接起來,就組成了對網(wǎng)絡(luò)輿情的群體性事件進(jìn)行預(yù)估出的一個齊備的網(wǎng)絡(luò)系統(tǒng).
(1)輸入-狀態(tài)子網(wǎng)絡(luò).該網(wǎng)絡(luò)由輸入變量和狀態(tài)變量以及控制輸入變量互相作用關(guān)系構(gòu)成.設(shè)定網(wǎng)絡(luò)輿情中群體事件的環(huán)境輸入變量集合用EI={eii|1≤i≤m}表示,控制輸入變量集合表示為XI={Xik|1≤k≤m},事件狀態(tài)變量集合描述成MP={mpj|1≤j≤n},承載體狀態(tài)變量集合用IP={ipj|1≤j≤m}描述.MP為列變量,EI為行變量,關(guān)聯(lián)矩陣X=(Xij)m×n根據(jù)專家經(jīng)驗構(gòu)造得出,若Xij≥α,那么eii和mpj經(jīng)過有向邊進(jìn)行連接;針對XI里面的所有控制措施Xik,基于目的與控制對象,Xik與mpj或ipj經(jīng)過有向邊進(jìn)行連接,建立了輸入-狀態(tài)子網(wǎng)絡(luò).
可以通過條件概率將網(wǎng)絡(luò)中的因果關(guān)系描述成:P (mpj|eii)能夠體現(xiàn)出網(wǎng)絡(luò)輸入對事件狀態(tài)的影響程度;P(mpj, ipj|Xik)能夠體現(xiàn)出控制輸入對時間和承載體的影響程度.
(2)狀態(tài)-狀態(tài)子網(wǎng)絡(luò).用于對狀態(tài)變量之間的因果關(guān)系進(jìn)行一定程度的反映.假如事件形態(tài)變量的集合為MP;承載體狀態(tài)變量的集合為IP;事件生命周期變量為lc.依據(jù)輸入-狀態(tài)子網(wǎng)絡(luò)所體現(xiàn)出的模式,把MP看成列變量與行變量,構(gòu)建出的關(guān)聯(lián)矩陣是Y=(bij)n×n,行變量為MP,列變量是IP,所建立的關(guān)聯(lián)矩陣是C=(cij)n×m;如果bij≥α或cij≥α,則通過有向邊連接相關(guān)變量;最終,把變量lc和承載體狀態(tài)ipj及事件狀態(tài)mpj(描述事件生命周期)連接在一起,建立了狀態(tài)-狀態(tài)子網(wǎng)絡(luò)[2].
可通過條件概率將該網(wǎng)絡(luò)中的因果關(guān)系描述成:令mpj∈MP,p(mpj|mpi)能夠體現(xiàn)事件狀態(tài)變量之間的影響程度;p(ipj|mpi)能夠體現(xiàn)事件狀態(tài)變量對承載體狀態(tài)變量的影響程度;P(lc|mpi,ipj)能夠體現(xiàn)不同的事件狀態(tài)與承載體狀態(tài)相應(yīng)的事件生命周期.
(3)狀態(tài)-輸出子網(wǎng)絡(luò).事件狀態(tài)變量集合用MP來描述;該網(wǎng)絡(luò)能夠表達(dá)輸出變量和狀態(tài)變量之間的因果關(guān)系.使用IP表示一個集合,該集合包括承載體的狀態(tài)變量;輸出變量集合表示為O={oj|1≤j≤m};與事件有關(guān)的外部環(huán)境變量集合描述為EO={eoj|1≤j≤p};事件損失變量集合用LO={lok|1≤k≤q}描述,并且,O=EO∪LO.假如群體性事件的狀態(tài)變量為S=MP∪IP,行變量為S,列變量為EO,建立的關(guān)聯(lián)矩陣D為(dij)(m+n)×p,將IP作為行變量,將LO作為列變量,塑造關(guān)聯(lián)矩陣E=(ejk)m×q;假設(shè)dij≥α或者eij≥α,那么經(jīng)過有向邊把相關(guān)變量進(jìn)行連接,建立了狀態(tài)——輸出子網(wǎng)絡(luò).
通過條件概率將該網(wǎng)絡(luò)含有的因果關(guān)系描述成:p (oj|mpi和p(oj|ipj),依次用于描述當(dāng)事件或承載體在某一狀態(tài)時,群體事件對外部環(huán)境的影響或?qū)е聯(lián)p失的概率.
(4)基于(1)—(3)所構(gòu)造的子網(wǎng)而形成的網(wǎng)絡(luò)輿情中基于群體事件預(yù)測的貝葉斯網(wǎng)絡(luò):把承載體狀態(tài)變量與事件狀態(tài)變量當(dāng)做公共節(jié)點,把前述的三個子網(wǎng)組合起來,建造了網(wǎng)絡(luò)輿情中群體性事件的整體預(yù)測網(wǎng)絡(luò).
用以下公式表示:
網(wǎng)絡(luò)輿情群體性事件的所有變量之間相互依賴的條件間關(guān)系用公式(1)表述,同時表達(dá)了群體性事件全部要素的聯(lián)合概率的分布可能性,經(jīng)過分析式(1),可以求得網(wǎng)絡(luò)里全部節(jié)點的邊緣概率,最終活動先驗與后驗的概率統(tǒng)計網(wǎng)絡(luò).
網(wǎng)絡(luò)輿情群體性事件的貝葉斯網(wǎng)絡(luò)推理用以下公式表示:
該公式的前提是重要狀態(tài)變量和輸出變量作為目標(biāo)變量,經(jīng)過對式(2)的分析可以知道,網(wǎng)絡(luò)輿情群體性事件貝葉斯網(wǎng)絡(luò)的推理式為正向推理,因此可以預(yù)測在某環(huán)境輸入的狀態(tài)情況下群體性事件生成的影響和重要狀態(tài)的取值.
進(jìn)行相關(guān)的實驗分析并驗證文章中提出的算法.實驗中將新浪微博,通過新浪微博XPI和網(wǎng)絡(luò)爬蟲,10天內(nèi)共204252條新浪微博,對原始微博數(shù)據(jù)中的微博文本信息、傳播信息和用戶信息進(jìn)行采集,將其作為本文實驗數(shù)據(jù).
對網(wǎng)絡(luò)輿情中群體性事件進(jìn)行應(yīng)急預(yù)測的傳統(tǒng)聚類算法和本文算法進(jìn)行比較,重點比較兩種不同算法時間性能,使用圖1表述.
圖1 傳統(tǒng)算法與本文算法執(zhí)行時間情況比較
分析圖1看出該文章提出的算法在時間性能方面比傳統(tǒng)聚類算法優(yōu)越很多,傳統(tǒng)聚類算法上升的梯度增加明顯,前提是數(shù)據(jù)規(guī)模慢慢擴(kuò)大,算法效率明顯比較低;但論文所提出的算法在執(zhí)行時間梯度方面比較平穩(wěn),所以論文提出的算法效率比較高.
除了以上描述,論文提出算法的優(yōu)勢還有準(zhǔn)確率、召回率方面,得到的結(jié)果如圖2所示.
圖2 傳統(tǒng)算法與本算法性能結(jié)果比較
由圖2得出結(jié)論,論文提出算法的準(zhǔn)確率和召回率都比傳統(tǒng)聚類算法高,原因是本論文提出的算法把用戶的影響力權(quán)重值加入考慮范圍,也有效提取了群體詞,這樣的到的群體詞可以更準(zhǔn)確地表達(dá)網(wǎng)絡(luò)輿情中群體性事件;并且傳統(tǒng)聚類算法準(zhǔn)確率很低,因為沒有辦法準(zhǔn)確定位一個最優(yōu)化的群體詞序列.
論文構(gòu)建了一種有關(guān)群體性公共事件的應(yīng)急預(yù)測算法,該算法重建了網(wǎng)頁內(nèi)容,并進(jìn)一步計算得出網(wǎng)絡(luò)詞語的基礎(chǔ)權(quán)重值,同時依據(jù)來自網(wǎng)頁中的傳播特性與計算出的網(wǎng)絡(luò)詞語的基礎(chǔ)權(quán)重值求出一段時期內(nèi)的詞語的權(quán)重值.結(jié)合總體考慮詞語權(quán)重信息和用戶的影響力,同時給群體性一個準(zhǔn)確概念,之后再依據(jù)其斷定一個詞是否是群體詞.依照群體性公共事件變化的過程,把基礎(chǔ)變成網(wǎng)絡(luò)輿情的群體性事件的狀態(tài),按次序分別建立三種子網(wǎng)絡(luò),構(gòu)建網(wǎng)絡(luò)輿情的群體性公共事件預(yù)測的整個網(wǎng)絡(luò)結(jié)構(gòu).論文最后以先驗與后驗概率網(wǎng)絡(luò)為前提,計算得出了上述網(wǎng)絡(luò)中全部節(jié)點的邊緣概率值,由此推論出了網(wǎng)絡(luò)輿情中群體性事件的貝葉斯網(wǎng)絡(luò)模型,由此得出了網(wǎng)絡(luò)輿情中群體性事件的應(yīng)急預(yù)測方案.仿真后的實驗結(jié)論得出論文建立的貝葉斯方法準(zhǔn)確性比較高.
〔1〕保羅·拉扎斯菲爾德,伯納德·貝雷爾森,黑茲爾·高德特.人民的選擇:選民如何在總統(tǒng)選戰(zhàn)中做決定[M].北京:中國人民大學(xué)出版社,2012.1-15.
〔2〕周耀明,張慧成,王波.網(wǎng)絡(luò)輿情演化模式分析[J].信息工程大學(xué)學(xué)報,2012(03):334-341.
〔3〕Shang Y. An Agent Based Modelfor Opinion Dynamics with Random ConfidenceThreshold[J]. Communications in Nonlinear Science and NumericalSimulation.2014,19(10):3766-3777.
〔4〕陳桂茸,蔡皖東,徐會杰,等.網(wǎng)絡(luò)輿論演化的高影響力優(yōu)先有限信任模型 [J].上海交通大學(xué)學(xué)報,2013(01):155-160.
〔5〕周耀明,王波,張慧成.基于Emd的網(wǎng)絡(luò)輿情演化分析與建模方法[J].計算機(jī)工程,2012(21):5-9.
〔6〕熊熙,胡勇.基于社交網(wǎng)絡(luò)的觀點傳播動力學(xué)研究[J].物理學(xué)報,2012(15):104-110.
〔7〕王根生.網(wǎng)絡(luò)輿情群體極化動力模型與仿真分析[J].情報雜志,2012,31(3):20-24.
〔8〕陸安,劉業(yè)政.基于連續(xù)影響函數(shù)的群體觀點演化模型與仿真[J].管理學(xué)報,2014,11(2):283-287.
〔9〕夏玲玲.基于在線社交網(wǎng)絡(luò)的謠言控制策略研究[D].南京郵電大學(xué),2013.
〔10〕顧亦然,夏玲玲.在線社交網(wǎng)絡(luò)中謠言的傳播與抑制[J].物理學(xué)報,2012(23):544-550.
〔11〕李青,朱恒民.基于BA網(wǎng)絡(luò)的互聯(lián)網(wǎng)輿情觀點演化模型研究[J].情報雜志,2012(3):6-9+35.
〔12〕劉小波.基于Netlogo平臺的輿情演化模型實現(xiàn)[J].情報資料工作,2012(1):55-60.
〔13〕Cioffi-Revilla C.Introduction to Computational Social Science:Principles and Applications[M].Springer.2014: 358.
〔14〕劉怡君,周濤.社會動力學(xué)[M].北京:科學(xué)出版社,2012. 23-25.
〔15〕MarchiS, Page S E. Agent-Based Modeling[J]. Annual Review of Political Science.2014,17(1):1-20.
TP311.134
A
1673-260X(2017)08-0011-02
2017-05-17
教育部人文社會科學(xué)研究西部和邊疆地區(qū)項目資助(NO.14XJC840002);甘肅省社科規(guī)劃項目(NO.YB098);甘肅省高等學(xué)??蒲许椖抠Y助(NO.2014B-064);甘肅政法學(xué)院校級科研資助重點項目(NO.GZFXZDLW008);甘肅省教育科學(xué)“十二五”規(guī)劃課題資助(NO.GS[2014]GHBZ019);甘肅政法學(xué)院教改重點項目(NO.GZJG2015-A04)