謝 康,姜國慶,郭杭鑫,劉 崢
(1.公安部第三研究所 網絡安全技術研發(fā)中心,上海 200031;2.上海工程技術大學 管理學院,上海 201620)
輿情產生后在網絡中容易被不斷發(fā)酵,原始輿情在多方面因素綜合影響下隨之異化,形成多個不切實際的網絡謠言。同時在信息傳播的過程中,隨著謠言不斷產生和擴散,網絡輿情呈現出信息異化的典型特征。由于社交平臺實名制程度不高、網民綜合素質不高等客觀原因的存在,如果監(jiān)管部門不采取措施對輿情進行及時干預,輿情的自由傳播會導致諸如網絡集群行為的發(fā)生,易產生負面的社會影響,威脅公共安全。因此,對輿情進行監(jiān)控并建立謠言預警機制是政府監(jiān)管部門進行立體化防控、維護社會穩(wěn)定以及增強政府公信力的關鍵。
目前已有許多學者對網絡輿情的預警機制進行了定量研究。吳鋒[1]以高校突發(fā)事件網絡輿情為研究對象,構建了高校公共安全評估系統(tǒng),運用層次分析法對指標檢測值進行處理確定輿情發(fā)展等級。馬永軍等[2]提出正則化長短時記憶(Regularization Long Short-Term Memory,Re-LSTM)網絡模型對食品安全網絡輿情預警機制進行了研究。周琦萍等[3]以傳染病模型SIS(Susceptible-Infectious-Susceptible)為基礎,考慮網絡輿情擴散系數及遺忘率,提出了一種網絡輿情無監(jiān)督預警策略。孫玲芳等[4]運用遺傳算法(Genetic Algorithm,GA)對BP(Back Propagation)神經網絡的初始權值和閾值進行優(yōu)化,構建了基于BP 神經網絡的遺傳算法的輿情發(fā)展預測模型。閆婷瑞等[5]將神經網絡與實踐序列模型結合,提出一種自回歸-徑向基函數模型(AutoregRessive model-Radial Basis Function,AR-RBF)對輿情發(fā)展趨勢進行了預測。楊文陽[6]通過信息源理論與信息傳播理論的有機結合,提出一種GA 與貪心算法結合的改進算法,研究了網絡輿情信息源優(yōu)化問題。于營等[7]針對復雜的網絡輿情數據,提出一種改進的經驗模態(tài)分解-自回歸極端梯度提升模型(Empirical Mode Decomposition-AutoRegressive model-XGBoost,EMD.ARXG)對輿情發(fā)展進行了預測,并與經驗模態(tài)分解-反向傳播神經網絡(Empirical Mode Decomposition-Back Propagation Neural Network,EMD-BPNN)模型進行了對比。莫贊等[8]針對傳統(tǒng)單一模型預測能力有限的問題,提出一種基于經驗模態(tài)分解-自回歸組合模型用于網絡輿情的預測。李啟月等[9]針對網絡輿情預警等級難以界定問題,基于系統(tǒng)安全降維理論將高維預警指標及其影響因素轉化為低維指標,有效降低了預警難度。章留斌等[10]在現有研究基礎上,從社會學角度入手,基于社會安全閥理論結合灰色預測模型對微博某政務事件進行了網絡預警模型研究。劉巧玲等[11]對傳統(tǒng)傳染病傳播模型SIR(Susceptible-Infective-Recovered)進行改進,運用爬蟲技術爬取新浪微博平臺熱點話題內容的相關數據并進行了參數反演,以此來預測網絡輿情的發(fā)展趨勢。
綜上所述,目前很多學者運用不同的方法對輿情預警機制進行了研究,但大多數研究方法僅僅對輿情熱點事件的數據進行了簡單的靜態(tài)預測,此外在輿情發(fā)展預測指標構建上僅簡單地考慮了一些影響社會關注度的因素。事實上,區(qū)別于其他領域的趨勢預測,輿情預測具有一定的特殊性:一是輿情數據受眾多因素影響。在實際生活中,只有當社會公眾激進情緒達到一定程度才需要“預警”從而引起高度關注,因此僅考慮社會關注度無法真實反映輿情發(fā)展真實特點,故無法全面預測輿情發(fā)展趨勢。二是輿情數據具有高實時性和動態(tài)性,靜態(tài)模型使相關因素的自身規(guī)律無法表達,故許多方法在處理輿情數據時存在一定局限性。
基于當前研究的不足,本文的主要工作包括:1)以指標能反映輿情發(fā)展特點為原則,構建包含社會關注度和公眾對待輿情的態(tài)度兩個維度的指標體系;2)運用多因素GM(1,n)灰色預測模型對輿情發(fā)展趨勢進行初步預測,并運用殘差修正原理對預測結果進行一次修正;3)結合馬爾可夫理論,對結果進行了二次修正,然后結合新陳代謝理論,固定預測序列長度不變,進一步提升模型預測精度;4)以“新疆棉”“成都四十九中”兩個事件為例,驗證了新陳代謝馬爾可夫GM(1,n)模型對輿情預測具有良好的實用價值。
網絡輿情發(fā)展趨勢的預測受到多方面因素的影響,例如微博博主的影響力、微博內容的呈現方式等,因此構建合理的衡量輿情發(fā)展的指標體系是研究輿情預警機制的關鍵。楊小溪等[12]基于信息生態(tài)理論,構建了包括信息生態(tài)位寬度、信息繁衍狀態(tài)以及信息間競爭與合作關系的輿情事件預警綜合評價指標。張鵬等[13]構建了包括網絡謠言狀態(tài)、網絡輿情熱度和網絡謠言趨勢的輿情發(fā)展評價指標體系,盡管進行了定量研究,但網絡謠言發(fā)展的衡量標準靠人為打分賦值,存在較強的主觀性;同時,當相關影響因素較多時,容易導致預測結果的偏差。
考慮信息演化的特點,輿情發(fā)展程度可以運用社會關注度和公眾對待輿情的態(tài)度兩個方面來衡量[14]。社會關注度是指,原始輿情產生后,公眾通過搜索、瀏覽、評論、轉發(fā)、點贊等行為表達自己對事件的觀點,反映了公眾對該事件的關注程度。輿情態(tài)度是社會公眾對待輿情信息的主觀反映,體現了社會公眾對輿情持續(xù)發(fā)展所表現的敏感度,決定了輿情發(fā)展的趨勢,是預測輿情發(fā)展趨勢的關鍵因素。因此,綜合考慮影響輿情發(fā)展預測的重要因素和因素數量對預測精度的影響,本文選取社會關注度和公眾輿情態(tài)度作為預測輿情發(fā)展的指標,其中社會關注度包含百度搜索指數、原創(chuàng)博文數量、博文評論量、博文轉發(fā)量和博文點贊數等5 個二級指標。公眾輿情態(tài)度包含百度搜索指數變化率和原創(chuàng)信息變化率等2 個二級指標,指標體系構建如圖1 所示。
灰色系統(tǒng)是指部分信息已知、部分信息未知的“小樣本”以及“貧信息”不確定系統(tǒng),是用來解決信息不完備系統(tǒng)的數學方法[15]?;疑A測模型通過弱化原始數據的隨機性,使其轉化為有規(guī)律的新數列,通過求解一階線性微分方程,經一次累減序列進行還原可得到預測值。多因素GM(1,n)灰色預測模型構建過程如下:
GM(1,n)模型通過將原始序列累加從而生成較規(guī)律的新序列,挖掘數據變化的潛在規(guī)律,從而對數據變化趨勢進行預測,但多因素GM(1,n)灰色預測模型通常用于預測數據量小、數據波動不大的數據。由于輿情數據波動性較大,易導致模型預測精度不高[16]。
馬爾可夫模型將隨機序列視為一個系統(tǒng),該系統(tǒng)在某時刻對應的狀態(tài)僅取決于該系統(tǒng)上一時刻對應的狀態(tài),通過不同狀態(tài)間轉移概率的概率預測系統(tǒng)發(fā)展的趨勢,對預測波動性較大的數據具有良好的實用性[17]。具體地,馬爾可夫GM(1,n)灰色預測模型的構建過程如下:
1)狀態(tài)區(qū)間劃分。根據多因素GM(1,n)灰色預測模型預測的相對誤差做散點圖,散點圖內每個區(qū)間對應一種狀態(tài),記作狀態(tài)Ei。
2)轉移概率計算。記狀態(tài)Ei轉移到狀態(tài)Ej轉移所需次數為nij,區(qū)間數量為Ni,則轉移概率可以表示為:
3)預測值計算。假設某一時刻處于Ei狀態(tài),若概率矩陣中第k行滿足maxPij=Pkl,則下一時刻有很大可能從狀態(tài)Ei轉換到狀態(tài)Ej,此時預測區(qū)間為[E1i,E2i],取其中間值作為下時刻的預測值,即:
4)誤差計算。得到預測值后,計算相對誤差。
盡管理論上灰色預測模型可預測數據的數量是無限的,但隨著預測地不斷進行,隨著預測數據增多,數據序列中“非真實值”數據的比例也逐漸增大,從而影響模型預測的數據精度。從數據序列維度角度看,隨著數據序列維度逐漸增大,預測系統(tǒng)被隨機性因素干擾,導致預測精度降低[18]。
同時,新信息優(yōu)先理論認為,新信息對事件的認知能力要高于舊信息,故在預測模型中提高新信息的權重有利于模型預測精度的提升。綜合考慮數據長度和數據維度兩方面對模型預測精度的影響,本文將新陳代謝理論與灰色預測模型相結合,在原始序列中取出固定的一部分數據作為預測的訓練樣本,當模型完成階段性預測工作產生一個新數據時,便會自動去除序列中最舊的一個數據,從而維持固定長度的數據列,建立新的多因素GM(1,n)灰色預測模型。具體地,新陳代謝理論用數學模型可以表示為:
微博平臺具有即時、開放、互動的特點,網友可以隨時在微博平臺上瀏覽或參與熱點話題的討論。從微博發(fā)布的2020 年用戶發(fā)展報告可知,截至2020 年9 月,微博平臺月活用戶達5.11 億,日活用戶達2.24 億,因其更廣的社交圈子,微博平臺的消息也傳播得更快,同時微博的“熱搜”板塊聚集了每個時刻最受微博網友關注的話題,促使熱點話題更容易曝光于其他尚未對該事件形成初步認識的網友,微博逐漸成為各類信息的第一產地,因此微博輿情管控具有十分重要的現實意義。本文以“新疆棉”事件作為本次研究的數據源進行數據獲取,通過對數據的分析,對微博網絡輿情的預警機制研究。
“新疆棉”事件自爆發(fā)到逐漸平息時間段內的百度搜索指數如圖2 所示,由圖可知該事件搜索熱度大致呈現“倒U”形,3 月25 日搜索量達到峰值90 370。
患者常規(guī)禁食8 h,禁飲4 h,所有患者均于術前進行血常規(guī)及凝血功能檢查、血生化檢查包括血離子濃度和空腹血糖測定、肝、腎功能檢查、心電圖檢查。入手術室后開放靜脈通路,輸注復方氯化鈉液 8~10 mL/(kg·h),常規(guī)監(jiān)測血壓(BP),心率(HR),心電圖(ECG),脈搏氧飽和度(SpO2),呼吸頻率(RR),呼氣末二氧化碳分壓(PETCO2),并擺好截石體位。即刻采集患者非輸液側手指末梢血及動脈血進行血糖及血氣分析。
圖2 “新疆棉”事件的百度搜索指數Fig.2 Baidu search index of "Xinjiang cotton" event
本研究將“新疆棉”事件自2021 年3 月22 日至2021 年4月5 日的輿情數據作為樣本數據,以“新疆棉”作為關鍵詞,通過網絡爬蟲爬取微博平臺“新疆棉”事件在該時間段內每天的原創(chuàng)博文量、博文轉發(fā)量、博文評論量及博文點贊量,并根據百度搜索指數與原創(chuàng)博文量計算搜索變化率及原創(chuàng)信息變化率兩個指標的數據,具體數據如表1 所示。
表1 “新疆棉”事件的原始數據Tab.1 Raw data of "Xinjiang cotton" event
研究過程中,將3 月24 日至4 月2 日共10 d 的數據作為預測模型的訓練集,其余3 d 的數據作為測試集。根據多因素GM(1,n)灰色預測模型構建過程,可得:
由最小二乘參數估計可得:
由此可計算殘差修正前后GM(1,n)模型的預測值及誤差值如表2 所示。由表2 可知:GM(1,n)模型預測的平均相對誤差為12.937%,誤差率較高;而經殘差修正后的GM(1,n)模型預測的平均相對誤差為1.388%,可見殘差修正可以提升模型預測的精度。
表2 殘差修正前后的GM(1,n)模型的誤差對比Tab.2 Error comparison of GM(1,n)model before and after residual correction
輿情發(fā)展趨勢預測的相對誤差散點圖如圖3 所示。根據散點的分布,將狀態(tài)分為4 個區(qū)間,分別為S1:[-0.4,-0.2),S2:[-0.2,0),S3:[0,0.2),S4:[0.2,0.4]。根據區(qū)間的劃分,各時刻預測的結果及所屬區(qū)間如表3所示。
圖3 狀態(tài)區(qū)間Fig.3 State intervals
表3 預測值所屬區(qū)間Tab.3 Intervals of predicted values
由表3 及式(10)、(11)可得轉移矩陣為:P(1)=,第10 時刻輿情處于S1狀態(tài),則由概率矩陣可知第11 時刻輿情最可能處于S4狀態(tài),此時=0.385,由此可計算預測區(qū)間為[0.385,0.462],則在第11 時刻輿情預測值為=0.426。同理,預測第12、13 時刻的輿情熱度時,先計算轉移矩陣分別為:P(2)=,則在第12、13 時刻輿情預測值分別為0.343 和0.367。
設定序列長度為10 固定不變,即在預測第12 時刻的輿情熱度時,去掉第1 時刻同時增添第11 時刻的輿情熱度作為預測序列;同理,在預測第13 時刻的輿情熱度時,去掉第2 時刻同時增添第12 時刻的輿情熱度作為預測序列。由此可計算第12 和第13 時刻輿情熱度預測值分別為0.358 和0.308。
針對“新疆棉”事件,不同預測模型的預測誤差對比如表4 所示。
表4 不同預測模型對“新疆棉”事件的預測誤差對比Tab.4 Prediction error comparison among different prediction models on “Xinjiang Cotton” event
由表4 可知,新陳代謝馬爾可夫GM(1,n)模型第12 和13 時刻的輿情熱度預測的相對誤差分別為1.172% 和5.519%,而隨機森林的相對誤差分別為6.591% 和10.020%。相較于GM(1,n)模型、馬爾可夫GM(1,n)模型和隨機森林模型,新陳代謝馬爾可夫GM(1,n)模型都體現出了更高的網絡輿情預測精度。
為進一步驗證模型的有效性,還選取“成都四十九中”5月10 日至5 月21 日的數據進行驗證,相關原始數據如表5 所示。對應的模型間預測誤差對比如表6 所示。由表6 可知,針對“成都四十九中”事件,新陳代謝馬爾可夫GM(1,n)模型對輿情的預測精度同樣要顯著高于其他預測模型,這進一步說明了陳代謝馬爾可夫GM(1,n)模型在網絡輿情預警方面具有良好的性能。
表5 “成都四十九中”事件的原始數據Tab.5 Raw data of “Chengdu No.49 middle school” event
表6 不同預測模型對“成都四十九中”事件的預測誤差對比Tab.6 Prediction error comparison among different prediction models on “Chengdu No.49 middle school” event
網絡輿情的演化可能對社會穩(wěn)定造成負面的影響,同時科學的輿情發(fā)展分析可以更有效地把握輿情演化,因此輿情預警機制的研究具有重要的現實意義,本文將社會關注度與網民輿情態(tài)度作為一級指標構建了輿情預警指標體系,在傳統(tǒng)多因素GM(1,n)模型基礎上進行改進,并建立了新陳代謝馬爾可夫GM(1,n)預測模型,最后以“新疆棉”事件和“成都四十九中”事件作為案例,通過模型改進前后的縱向對比以及與隨機森林預測模型的橫向對比,驗證該模型對輿情預測具有良好的預測精度。由預測結果誤差對比可知:新陳代謝馬爾可夫GM(1,n)模型在網絡輿情預警方面具有良好的性能。
但本文僅針對微博平臺和百度平臺數據進行了研究分析,在今后的研究中,將重點對其他網絡平臺的數據進行深入研究,以提高模型預測的普適性。