于茜 大連科技學院 數(shù)字技術學院
隨著互聯(lián)網(wǎng)的快速發(fā)展和普及應用,網(wǎng)絡輿情成為現(xiàn)階段主要的輿情方式。隨著我國網(wǎng)民數(shù)量的激增和移動智能設備的普及,社交網(wǎng)絡等新媒體工具逐漸滲透到人們的生活當中。近年來,突發(fā)公共安全事件在網(wǎng)上傳播的速度越來越快,人們對突發(fā)公共安全事件的關注度越來越高,但網(wǎng)絡輿情經(jīng)過有特殊目的的過分渲染將會變成有害的輿論,并且傳播迅速聲勢浩大,危害社會公共安全。近年來我國各類突發(fā)公共安全事件頻繁發(fā)生,給人民生命財產(chǎn)和經(jīng)濟社會發(fā)展造成了重大損失,快速收集網(wǎng)絡輿情信息,提高當前大數(shù)據(jù)環(huán)境下突發(fā)公共安全事件輿情信息的分析能力,及時準確地掌握輿情動態(tài),主動預警,政府積極引導社會輿論,跟蹤事態(tài)變化,及時向有關部門通報,是網(wǎng)絡這一新興媒體所面臨的嚴肅課題與嚴峻挑戰(zhàn)。
近年來學者將模擬仿真、數(shù)據(jù)挖掘、文本挖掘等技術引入至網(wǎng)絡輿情分析研究中。目前比較成熟的技術有:文本采集、文本分類、文本聚類、信息抽取、話題監(jiān)測、情感分析和數(shù)據(jù)挖掘等[1],以上技術和方法適用于傳統(tǒng)環(huán)境下的網(wǎng)絡輿情數(shù)據(jù)分析,在大數(shù)據(jù)環(huán)境下這些技術、方法適用性較差。在大數(shù)據(jù)分析方面,深度學習和知識計算研究已初見成效,代表性的知識庫或應用系統(tǒng)有KnowItAll[2],TextRunner[3],NELL[4],Probase 等[5],但目前尚未有成熟的突發(fā)公共安全事件知識庫和網(wǎng)絡輿情分析方法。綜上所述,當前突發(fā)公共安全事件網(wǎng)絡輿情研究存在四個問題:(1)沒有針對突發(fā)公共安全事件的網(wǎng)絡輿情分析方法;(2)沒有針對突發(fā)公共安全事件的網(wǎng)絡輿情預警系統(tǒng);(3)原有的網(wǎng)絡輿情數(shù)據(jù)分析方法無法處理大數(shù)據(jù)環(huán)境下的海量數(shù)據(jù);(4)缺少大數(shù)據(jù)環(huán)境下的突發(fā)公共安全事件網(wǎng)絡輿情知識庫,不能支持相關數(shù)據(jù)分析。
本文在現(xiàn)有大數(shù)據(jù)分析模型Map/Reduce、Web 服務技術、突發(fā)公共安全事件網(wǎng)絡輿情預警機制等研究基礎上,以突發(fā)公共安全事件概念、網(wǎng)絡輿情數(shù)據(jù)特征為主要依據(jù),首先基于Map/Reduce 計算突發(fā)公共安全事件網(wǎng)絡輿情數(shù)據(jù)特征及特征值列表,并封裝成Web 服務,然后基于已有突發(fā)公共安全事件實例采用手動構建突發(fā)公共安全事件知識庫,并基于線性鏈條件隨機場(lined conditional random field,LCRF)模型對知識庫中已有突發(fā)公共安全事件知識進行訓練,得到最好的模型應用于突發(fā)公共安全事件網(wǎng)絡輿情數(shù)據(jù)分析,將新學習到的突發(fā)公共安全事件知識更新到知識庫,采用此種半監(jiān)督方法構建知識庫,最后基于Web 服務技術實現(xiàn)智能預警,實現(xiàn)大數(shù)據(jù)環(huán)境下突發(fā)公共安全事件網(wǎng)絡輿情預警系統(tǒng)。
數(shù)據(jù)分析是大數(shù)據(jù)環(huán)境下的突發(fā)公共安全事件網(wǎng)絡輿情預警系統(tǒng)的關鍵技術。以往的網(wǎng)絡輿情數(shù)據(jù)分析多采用數(shù)據(jù)挖掘或基于隱馬爾可夫模型的文本語義識別技術,近年來發(fā)現(xiàn)條件隨機場(conditional random field,CRF)模型在識別方面上效果更好,由于突發(fā)公共安全事件網(wǎng)絡輿情發(fā)展過程有嚴謹?shù)南群箨P系,可抽象為線性關系,即后續(xù)發(fā)展狀態(tài)依賴于前續(xù)事件狀態(tài),所以本文將線性鏈條件隨機場(LCRF)模型引入網(wǎng)絡輿情數(shù)據(jù)分析。
LCRF 的訓練過程就是要得到最優(yōu)的轉移特征和狀態(tài)特征,將突發(fā)公共安全事件知識庫中的知識作為模型輸入,事件對象是狀態(tài)序列,對象特征是觀測序列,每一個對象特征值就是觀測序列的觀測值,通過LCRF 模型訓練得到最優(yōu)的轉移特征和狀態(tài)特征,即得到最優(yōu)的模型。然后將捕獲的網(wǎng)絡輿情實時數(shù)據(jù)通過Map/Reduce模型計算得到特征和特征值,輸入LCRF 模型進行學習,識別出新的突發(fā)公共安全事件。
本文對大數(shù)據(jù)環(huán)境下的突發(fā)公共安全事件網(wǎng)絡輿情預警系統(tǒng)進行了研究,提出了一個由數(shù)據(jù)特征及特征值提取、網(wǎng)絡輿情數(shù)據(jù)分析、突發(fā)公共安全事件知識庫三層構成的預警系統(tǒng)體系,并對基于LCRF 的網(wǎng)絡輿情數(shù)據(jù)分析技術的使用進行了闡述,從而解決了目前大數(shù)據(jù)環(huán)境下的突發(fā)公共安全事件網(wǎng)絡輿情預警系統(tǒng)研究中的關鍵技術問題。