張冬冬 林杉
(解放軍61716 部隊福建福州350002)
據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)《第31 次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》顯示,2012年12月底,網(wǎng)民規(guī)模達為5.64 億,互聯(lián)網(wǎng)普及率達到42.1%?;ヂ?lián)網(wǎng)成為了繼報紙、廣播、電視之后的“第四媒介”,也成為反映社會輿情的一個重要載體?;ヂ?lián)網(wǎng)的開放性和離散性決定了信息傳遞和交流自由度的無限制擴大,使互聯(lián)網(wǎng)上各種思潮并存并相互激蕩,成為了輿論信息與不良內(nèi)容的助推器與集散地。
西方國家通過“軟殺傷”戰(zhàn)略進行網(wǎng)絡(luò)意識形態(tài)滲透,利用互聯(lián)網(wǎng)干涉他國內(nèi)政和顛覆他國政權(quán),在北非和西亞等地區(qū)屢屢得手。國內(nèi)如云南看守所“躲貓貓事件”、上?!皸罴岩u警案”、杭州飆車案和樂清錢云會案等,也都是互聯(lián)網(wǎng)輿情向現(xiàn)實空間擴散的結(jié)果。因此,研究互聯(lián)網(wǎng)認知域監(jiān)測、預(yù)警和引導(dǎo)技術(shù),能及時有效地感知影響面廣的謠言和反政府敵對勢力的輿情攻勢,掌握其意識形態(tài)滲透的策略手段,監(jiān)控其輿情發(fā)展的變化趨勢;同時進行輿情的主動引導(dǎo),揭露違法分子擾亂社會安定,敵對勢力反動宣傳的企圖,引導(dǎo)民眾不信謠,維護社會安定團結(jié),爭取中立國家、國際和地區(qū)組織等對我國政策、制度、支持和理解是十分必要的。
互聯(lián)網(wǎng)輿情是互聯(lián)網(wǎng)空間認知域信息的綜合匯集,本文主要以網(wǎng)絡(luò)空間的互聯(lián)網(wǎng)媒介為研究對象,對現(xiàn)階段互聯(lián)網(wǎng)輿情信息的監(jiān)測、預(yù)警技術(shù)進行分析和總結(jié),結(jié)合互聯(lián)網(wǎng)空間認知域的信息引導(dǎo)技術(shù),形成一個完整的體系架構(gòu)。網(wǎng)絡(luò)空間認知域的監(jiān)測、預(yù)警和引導(dǎo)處理流程下:
①采集:按照預(yù)先配置的信息采集條件,通過分布式并行采集器完成數(shù)據(jù)源的收集,將分散的數(shù)據(jù)進行有機的集中;
②預(yù)處理:對不規(guī)范的數(shù)據(jù)進行規(guī)約和整合,對不完整的和不一致的數(shù)據(jù)進行清理,完成數(shù)據(jù)的規(guī)范化變換,簡化數(shù)據(jù)處理的難度[1];
③分析處理:對預(yù)處理后的數(shù)據(jù),選擇合適的分析工具,應(yīng)用統(tǒng)計方法、事例推理、決策樹、規(guī)則推理與模糊集,甚至神經(jīng)網(wǎng)絡(luò)和遺傳算法等方法進行處理,得出分析結(jié)果;
④預(yù)警:將分析結(jié)果以報表和圖示等可視化方式呈現(xiàn),同時評估當前網(wǎng)絡(luò)輿情的態(tài)勢,按照輿情預(yù)警規(guī)則向指定的預(yù)警提醒對象發(fā)送相應(yīng)的危機處理提醒;
⑤引導(dǎo):輔助完成引導(dǎo)信息的主題策劃和內(nèi)容策劃,制作認知域的信息,利用互聯(lián)網(wǎng)的社交網(wǎng)絡(luò)、論壇、博客及微博等渠道完成信息投送。
網(wǎng)絡(luò)信息的監(jiān)測、預(yù)警和引導(dǎo)處理是一個完整的循環(huán)流程,通過新一輪的采集可以獲取引導(dǎo)信息產(chǎn)生的效果,并不斷調(diào)整引導(dǎo)策略,達到化解公共危機和挫敗恐怖分子破壞社會安定的目的。
網(wǎng)絡(luò)輿情的監(jiān)測主要包括信息采集、預(yù)處理和分析處理。提供輿情的自動發(fā)現(xiàn)和分類,對用戶關(guān)注的敏感信息進行跟蹤,通過褒貶傾向性分析技術(shù)發(fā)現(xiàn)負面信息,實現(xiàn)對敏感信息的有效監(jiān)控。
信息采集解決網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)的來源,利用網(wǎng)絡(luò)爬蟲技術(shù)從某一個網(wǎng)頁開始,下載該網(wǎng)頁內(nèi)容及其網(wǎng)頁內(nèi)URL 指向的其他網(wǎng)頁,遞歸下載直至完成整個網(wǎng)站的鏡像。
為保證數(shù)據(jù) 釆集的及時性,爬蟲程序需要長時間運行和大規(guī)模的遍歷訪問,會遇到被目標網(wǎng)站屏蔽的問題,特別是境外網(wǎng)站,這樣就需要采用有效的采集防屏蔽技術(shù),目前應(yīng)用的主要技術(shù)包括輪轉(zhuǎn)訪問/分時任務(wù)、lP 地址輪換和模擬瀏覽器等。
⑴輪轉(zhuǎn)訪問和分時任務(wù)
在目標網(wǎng)站容忍范圍內(nèi)對網(wǎng)站進行訪問抓取,將一個大規(guī)模任務(wù)分塊分時段完成。
⑵IP 地址輪換
多數(shù)網(wǎng)站會對訪問頻率過高的主機lP 地址進行暫時性屏蔽,當抓取進程檢測到當前l(fā)P 地址被屏蔽后,自動更換一個IP 地址繼續(xù)訪問。
⑶模擬瀏覽器登陸技術(shù)
對于一些需要用戶登錄后才能繼續(xù)訪問的網(wǎng)站,如論壇、博客和微博等,需要采取模擬瀏覽器的技術(shù),提交用戶名和密碼實現(xiàn)登錄。
由于互聯(lián)網(wǎng)信息冗余度高,網(wǎng)頁重復(fù)和轉(zhuǎn)載現(xiàn)象嚴重,加上采集到的原始數(shù)據(jù)包含大量非結(jié)構(gòu)化數(shù)據(jù),在表示方法和可訪問性等方面參差不齊,而這些數(shù)據(jù)難以直接處理,因此需要通過數(shù)據(jù)規(guī)約、清理和變換等預(yù)處理手段轉(zhuǎn)化為規(guī)范化數(shù)據(jù)。
⑴數(shù)據(jù)規(guī)約
通過元數(shù)據(jù)篩選降低數(shù)據(jù)量,采用特征選擇和子集選擇簡化數(shù)據(jù)處理難度,利用字幕提取、視頻關(guān)鍵幀抽取、語音識別、圖像識別和文本摘要完成數(shù)據(jù)降維,方便處理。
⑵數(shù)據(jù)清理
通過刪除、替換與補齊缺失數(shù)據(jù)完成信息格式標準化,利用比對、相似度計算、哈希散列和文本摘要清除重復(fù)數(shù)據(jù),使用分箱技術(shù)局部平滑、聚類檢測孤立點、回歸函數(shù)和時間序列分析修正清除噪聲數(shù)據(jù),采用移動窗口理論、移動曲面擬合及聚類分析異常檢測完成信息的錯誤糾正。
⑶數(shù)據(jù)變換
通過音視頻編碼、封裝格式轉(zhuǎn)換完成格式轉(zhuǎn)換,利用線性或非線性數(shù)學(xué)變換消除數(shù)據(jù)空間、屬性、時間及精度等差異,減少數(shù)據(jù)復(fù)雜度,按比例縮放落入特定區(qū)域。
輿情信息分析處理技術(shù)實現(xiàn)采集信息的綜合解析處理,對文本文件直接提取屬性與內(nèi)容,對音視頻文件抽取關(guān)鍵幀、語音轉(zhuǎn)換為文字并提取屬性與內(nèi)容,然后進行聚類分析和主題檢測。
⑴文本聚類
文本聚類算法從本質(zhì)上來看,屬于無監(jiān)督的機器學(xué)習(xí)方法,通過將一個文本集聚成若干個簇,同一個簇中的文本間具有較大的相似性,簇之間的文本具有較小的相似性。文本聚類算法的目的是讓屬于同一個話題信息之間的度量值盡可能的小,而不同類別信息之間的度量值盡可能的大。
當前主流的聚類算法中基于劃分的聚類方法和層次聚類方法應(yīng)用最為廣泛。最常用的基于劃分的聚類算法是k-means算法,該算法不斷計算每個聚類的中心,也就是聚類中對象的平均值。層次聚類方法就是把所有的數(shù)據(jù)按層次聚集,最終形成一個樹狀類簇結(jié)構(gòu),每一類簇節(jié)點包含所有的子類簇節(jié)點,所有相鄰的子類簇分割了他們父類簇的數(shù)據(jù)點。
⑵主題檢測
主題是有生存期限的,通過老化理論建立主題生存模型來測量主題的生存周期。根據(jù)輸入信息的順序,先出現(xiàn)的信息先聚成主題的候選集合,后來的相似信息內(nèi)容將被聚到已形成的主題,或者形成新的主題。通過引入老化理論建立主題的生存周期模型,主題有其生存期限。一個主題一直有新增的補充信息,其主題的生命值將不斷提高,證明這是一個持續(xù)性的熱點主題;如果一個主題沒有新帖增加,那么其主題的生命值就會不斷減弱,主題也會消失。
輿情預(yù)警的作用在于超前反饋、及時布置和防風(fēng)險于未然,因此預(yù)警要能夠靈敏、準確地呈現(xiàn)風(fēng)險。輿情預(yù)警主要包括呈現(xiàn)和預(yù)警通知兩部分。
網(wǎng)絡(luò)輿情處理的結(jié)果需要以一種直觀的方式呈現(xiàn)給用戶,便于用戶的理解和決策。常見的社交關(guān)系和餅圖比例如圖1 所示。
圖1 社交關(guān)系和輿情區(qū)域比例圖
社交關(guān)系圖以微博、郵件和即時通信等為載體,繪制虛擬社交網(wǎng)絡(luò)中的人際交往關(guān)系,利用人群間連線的跳數(shù)展示關(guān)系的強弱。輿情區(qū)域比例圖主要展現(xiàn)輿情熱點在各個區(qū)域的分布情況,用于定位輿情的區(qū)域熱度。
如圖2 所示,時間趨勢分析圖將輿情信息的數(shù)量按時間軸進行統(tǒng)計,用于演示與某個事件相關(guān)信息的增長或減少趨勢。傳播路徑分析圖記錄了信息產(chǎn)生的源頭,被轉(zhuǎn)載和傳播的路徑,各站點傳播的先后次序及時間點,可以清晰的掌握輿情的傳播規(guī)律。熱點聚類分析圖以顏色區(qū)分的點狀圖顯示輿情聚類分析的結(jié)果,點狀圖形的大小標明了該主題的熱度,圖形之間的顏色和距離表示主題之間的關(guān)聯(lián)關(guān)系。
圖2 時間趨勢分析圖
綜合傾向性分析結(jié)論、統(tǒng)計結(jié)果以及輿情信息內(nèi)容敏感程度,通過網(wǎng)絡(luò)輿情預(yù)警機制的動態(tài)模型確定不同輿情信息的權(quán)重系數(shù),將網(wǎng)絡(luò)輿情態(tài)勢分為3個等級:一級預(yù)警,定時提醒用戶查看相關(guān)信息;二級預(yù)警,主動推送,及時處理;四級,最高級,啟動引導(dǎo)聯(lián)動處置。
預(yù)警等級的量化指標主要包括輿情傳播類型、輿情表現(xiàn)和輿情關(guān)注3個部分[2]。輿情傳播類型由網(wǎng)絡(luò)新聞、傳統(tǒng)媒體和官方新聞發(fā)布組成;輿情表現(xiàn)部分由新建量、轉(zhuǎn)載量和點擊量組成;輿情關(guān)注部分由政府關(guān)注、網(wǎng)民關(guān)注和境外關(guān)注組成。輿情等級可通過下式表示:
輿情等級=關(guān)注度×關(guān)注度權(quán)重指數(shù)+擴散度×擴散度權(quán)重指數(shù)+敏感度權(quán)重指數(shù)×輿情信息內(nèi)容敏感度+危害度×危害度權(quán)重指數(shù)。
根據(jù)輿情的特點和傳播特性研判到網(wǎng)絡(luò)輿情對社會穩(wěn)定和發(fā)展產(chǎn)生威脅時,通過多種網(wǎng)絡(luò)空間信息輿情引導(dǎo)技術(shù),在短時間內(nèi)調(diào)動和整合各方面的力量,形成應(yīng)對危機的合力,引導(dǎo)輿情向著預(yù)設(shè)的方向發(fā)展。通過發(fā)送輿情疏導(dǎo)信息,使得網(wǎng)民能了解真實信息,通過正面的信息潛移默化地引導(dǎo)和調(diào)節(jié)輿情。輿情引導(dǎo)流程如圖3 所示。
圖3 輿情引導(dǎo)流程
根據(jù)輿情呈現(xiàn)和預(yù)警提供的輿情報告、預(yù)警通知和呈現(xiàn)圖表等,同時利用輿情引導(dǎo)技術(shù)的輔助情況判斷和決策,制定引導(dǎo)方案,完成引導(dǎo)信息的主題和內(nèi)容策劃,輔助制作人員完成引導(dǎo)信息的制作,利用互聯(lián)網(wǎng)和傳統(tǒng)媒體等完成引導(dǎo)信息的投送。
各個網(wǎng)絡(luò)人群具有不同的信息采集偏好,網(wǎng)絡(luò)輿論形成的特點和渠道各不相同。輔助決策依據(jù)目標人群年齡、性別、政治傾向、上網(wǎng)習(xí)慣和網(wǎng)絡(luò)信息來源渠道等,定位投送目標和引導(dǎo)渠道[3]。
以人工智能、運籌學(xué)和信息處理技術(shù)作為工具,以知識庫和專家系統(tǒng)為基礎(chǔ),研究信息智能策劃技術(shù),通過計算、推理和仿真等手段輔助完成引導(dǎo)信息主題和內(nèi)容的策劃。根據(jù)輿情發(fā)展的不同階段,提供相應(yīng)的應(yīng)對預(yù)案。
網(wǎng)絡(luò)空間輿情信息引導(dǎo)以互聯(lián)網(wǎng)和電信網(wǎng)為主?;ヂ?lián)網(wǎng)輿情引導(dǎo)基于社交網(wǎng)絡(luò)、論壇、博客和微博等渠道,電信網(wǎng)輿情引導(dǎo)以移動通信網(wǎng)和公用電話網(wǎng)為主要途徑。信息投送需要綜合網(wǎng)絡(luò)空間的各種媒介渠道,最廣度的發(fā)布輿論疏導(dǎo)信息,增強輿論導(dǎo)向信息傳播的速度和密度,以及信息投送的精度和力度,形成快速和有效的輿情引導(dǎo)能力[4]。
我國在輿情監(jiān)測方面的建設(shè)取得了一定的成果,國家職能部門根據(jù)自己的需要直接指導(dǎo)建設(shè)、定制開發(fā)及推廣,但由于業(yè)務(wù)與關(guān)注點不同,都是各自為政,缺乏統(tǒng)一的網(wǎng)絡(luò)輿情匯集和分析機制的指標體系,系統(tǒng)的綜合可用性較差,而且在輿情預(yù)警和輿情引導(dǎo)領(lǐng)域的研究尚處于起步階段,距離實用化還有相當?shù)木嚯x,面臨著巨大的挑戰(zhàn)。
為了有效提升網(wǎng)絡(luò)空間輿情監(jiān)測、預(yù)警和引導(dǎo)能力,應(yīng)該從以下幾個方面進行持續(xù)的研究和投入:①充分借鑒國外的建設(shè)經(jīng)驗和理論成果,緊跟網(wǎng)絡(luò)前沿技術(shù)和網(wǎng)絡(luò)新興媒體,整體布局,統(tǒng)一頂層規(guī)劃[5],將網(wǎng)絡(luò)輿情的監(jiān)測、預(yù)警和引導(dǎo)成體系建設(shè);②輿情的深度加工與利用在很長一段時間內(nèi)都會是研究的重點,因涉及語義層面的因素,需要融合多個學(xué)科領(lǐng)域在文本挖掘、知識發(fā)現(xiàn)、機器學(xué)習(xí)和語義分析等相關(guān)方面的成果加以應(yīng)用;③提升輿情引導(dǎo)能力應(yīng)對復(fù)雜網(wǎng)絡(luò)輿情,不僅需要充分利用已有的理論知識和先進的技術(shù)手段,還需要我們能夠創(chuàng)新性地提出更貼切實際的解決方案[6]。
[1]譚 磊.大數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2013.
[2]何 佳,周長勝,石顯鋒.網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實現(xiàn)方法[J].鄭州大學(xué)學(xué)報,2010(1):83-85.
[3]孫 榮.網(wǎng)絡(luò)輿論引導(dǎo)的特點及其方法研究[J].產(chǎn)業(yè)與科技論壇,2012(24):119-120.
[4]段婉立,王力塵.互聯(lián)網(wǎng)輿情引導(dǎo)策略研究[J].遼寧工業(yè)大學(xué)學(xué)報,2013(6):67-68.
[5]羅霄峰,羅萬伯,等.網(wǎng)絡(luò)輿情治理研究[J].通信技術(shù),2010(4):82-83.
[6]張金龍.互聯(lián)網(wǎng)輿情分析研究[J].遼寧經(jīng)濟,2012(11):84-85.