劉曉輝,邵開麗,周凱祥
(黃河科技學(xué)院,河南 鄭州 450009)
互聯(lián)網(wǎng)時代,每個人都擁有使用網(wǎng)絡(luò)發(fā)表自己意見的權(quán)力。人們在網(wǎng)絡(luò)中表達自己情緒和發(fā)表評論的渠道越來越多,也越來越復(fù)雜。而大多數(shù)人正是通過這些渠道來了解災(zāi)情信息。在復(fù)雜的環(huán)境下,如果一旦有人發(fā)表了背離災(zāi)情真實性的消息,就會誤導(dǎo)網(wǎng)民,使災(zāi)情在傳播過程中逐漸偏離其真實的軌道。因此,研究解決災(zāi)情在傳播過程中的質(zhì)量問題,有很大的使用和探索價值。
如何對災(zāi)情輿情產(chǎn)生的大數(shù)據(jù)進行分析和處理,并給出相應(yīng)的預(yù)警,國內(nèi)一些研究者對其進行了很多研究。王展、趙征鵬的研究中,對學(xué)校的輿情管理起到了關(guān)鍵作用。夏玲玲等的研究中,幫助政府和有關(guān)監(jiān)管部門及時管理和掌握公眾號的文章和評論內(nèi)容,有助于提高社會穩(wěn)定性。鄺楚文的研究中,通過對大數(shù)據(jù)背景下數(shù)據(jù)挖掘技術(shù)面臨的問題進行分析,設(shè)計了校內(nèi)網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)。袁志遠、徐懷超等的研究中,對輿情信息進行了多個維度的智能分析,提升了對輿情信息的分析能力。王政的研究中,精準、迅速的掌握和判斷互聯(lián)網(wǎng)輿情發(fā)展現(xiàn)狀及未來發(fā)展走勢,為構(gòu)建和諧社會,打造良好的輿情生態(tài)環(huán)境和正能量意識形態(tài)打下了基礎(chǔ)。黃迅、孫軍梅的研究中,通過LSTM-CNN混合模型了解學(xué)生主要關(guān)注的熱點,進而分析學(xué)生的思想。田煜的研究中,為網(wǎng)絡(luò)熱點事件得到控制和增強管控提供了技術(shù)支撐。朱琪的研究中,通過對數(shù)據(jù)的預(yù)處理,為數(shù)據(jù)去重、降噪,并利用數(shù)據(jù)分析方法實現(xiàn)了預(yù)警。陳剛、李弼程等的研究中,用威脅評估等方法構(gòu)建預(yù)警系統(tǒng)模型。曾宇的研究提高了監(jiān)測的準確率,增強了輿情的管控能力。
以上研究可分為三類:
(1)第一類只是對災(zāi)情數(shù)據(jù)的分析和分類進行了研究;
(2)第二類主要為系統(tǒng)的數(shù)據(jù)來源比較單一;
(3)第三類是系統(tǒng)的對象只針對政府和有關(guān)部門而設(shè)計,預(yù)警涉及面窄。
綜合而言,這些研究針對基層網(wǎng)民的比較少,收集的輿情評論范圍不夠廣泛,沒能從根本上起到對網(wǎng)民的預(yù)警作用。網(wǎng)民是數(shù)據(jù)的產(chǎn)生者和傳播者,如果系統(tǒng)能建立起與網(wǎng)民之間的聯(lián)系,直接引導(dǎo)、糾正網(wǎng)民對災(zāi)情的評論與傳播行為,從根本上解決輿情傳播變質(zhì)的問題,將大大減少災(zāi)情輿情的監(jiān)控工作量。
在網(wǎng)民普遍的時代,數(shù)據(jù)越來越多,出現(xiàn)了很多獲取數(shù)據(jù)的手段。面對如此多的數(shù)據(jù),可以用爬蟲迅速獲取需要的數(shù)據(jù)。爬蟲選擇需要爬取的網(wǎng)頁,使用規(guī)定的規(guī)則,通過網(wǎng)頁鏈接及源代碼進行數(shù)據(jù)爬取,爬蟲流程如圖1所示。
圖1 基于大數(shù)據(jù)的災(zāi)情輿情采集流程
本文針對網(wǎng)絡(luò)信息的海量特性,將爬蟲技術(shù)從功能上分為3個部分,分別為數(shù)據(jù)獲取、數(shù)據(jù)處理、數(shù)據(jù)存儲。
(1)數(shù)據(jù)獲取是通過爬取網(wǎng)頁的鏈接獲取其中摻雜文本的源代碼,然后對源代碼進行解析,獲得需要的輿情數(shù)據(jù);
(2)數(shù)據(jù)處理是對獲取的災(zāi)情輿情數(shù)據(jù),利用自然語言處理技術(shù)進行處理;
(3)數(shù)據(jù)存儲是將處理好的輿情數(shù)據(jù)自動存儲到數(shù)據(jù)庫中,方便后續(xù)流程使用數(shù)據(jù)。
為使獲取的原始數(shù)據(jù)能夠在系統(tǒng)中有效使用,需要對災(zāi)情輿情數(shù)據(jù)做進一步提取,并且對數(shù)據(jù)進行預(yù)處理,獲取標準格式的數(shù)據(jù),然后再對數(shù)據(jù)進行文本分析,得到不同類型的輿情數(shù)據(jù)。數(shù)據(jù)分析流程如圖2所示。
圖2 數(shù)據(jù)的分析流程
爬蟲爬取HTML頁面的原始代碼,找到代碼中對應(yīng)的成對標簽。標簽層層嵌套,在爬取時要選對標簽,找到需要的信息后開始爬取。
由于爬取的數(shù)據(jù)并非標準數(shù)據(jù),所以需要對數(shù)據(jù)進行預(yù)處理。數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)的清洗、集成、變換和規(guī)約。數(shù)據(jù)清洗是指去除噪聲和部分無用數(shù)據(jù)。其中,噪聲是數(shù)據(jù)隨機產(chǎn)生的誤差和方差,即obs=。數(shù)據(jù)集成是將多個數(shù)據(jù)源合并,最終變成一個大數(shù)據(jù)并存儲。數(shù)據(jù)變換是將原數(shù)據(jù)轉(zhuǎn)換成適合使用的數(shù)據(jù)。數(shù)據(jù)規(guī)約的主要方法一般為維度歸約、離散化等。
在得到標準格式的數(shù)據(jù)后需要進行文本分詞和文本分類。文本分詞一般基于詞典分詞或者基于語言模型分詞。詞典分詞有英文分詞,通常以空格分詞。中文分詞有3種匹配法,分別為正向最大匹配法、逆向最大匹配法和雙向最大匹配法,這些方法基于詞典匹配而成?;谡Z言模型的分詞方法有很多,常用的是隱馬爾可夫模型。文本分類方法包括K-最近鄰、決策樹、貝葉斯分類方法等。KNN是指找到個最近的測試樣本,按照占比最多的類別,判斷測試樣本為該類,計算可由公式(1)實現(xiàn),其中為奇數(shù)。
式中,=1, 2, ...,
在貝葉斯公式中,B被認為是導(dǎo)致試驗結(jié)果發(fā)生的原因,而(B)(=1, 2, ...)是多種原因發(fā)生的概率,即先驗概率;(B|)(=1, 2, ...)是當產(chǎn)生一個試驗結(jié)果后,對其他原因進行新的概率分析,即后驗概率。
該系統(tǒng)由5層組成,分別為數(shù)據(jù)的采集層、處理層、提取層、應(yīng)用層和用戶交互層。系統(tǒng)的總體框架如圖3所示。
圖3 系統(tǒng)總體框架
數(shù)據(jù)采集層:主要功能是通過反爬蟲、網(wǎng)頁爬取、框架設(shè)計獲取新聞、微博、微信、APP、短視頻、評論等數(shù)據(jù)。
數(shù)據(jù)處理層:主要包含2個模塊,分別為數(shù)據(jù)處理和聚類法分類。其中,數(shù)據(jù)處理主要是對采集的災(zāi)情輿情數(shù)據(jù)進行規(guī)范化處理,包括過濾去重、降噪、格式轉(zhuǎn)換等處理方式。聚類法模塊主要是對采集的數(shù)據(jù)進行簡單分類。
數(shù)據(jù)提取層:從輿情采集模塊中獲取及時數(shù)據(jù),形成不斷更新的數(shù)據(jù)流,再通過輿情檢索模塊、輿情分析模塊構(gòu)建具有流動性數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù)庫。結(jié)構(gòu)化數(shù)據(jù)庫采用分布式存儲方法,分類存儲不同類型的數(shù)據(jù),為應(yīng)用層的數(shù)據(jù)計算和數(shù)據(jù)分析提供大量不同類型的數(shù)據(jù)。
應(yīng)用層:在數(shù)據(jù)提取層的基礎(chǔ)上,借助輿情采集、檢索、分析、預(yù)警4個模塊,為預(yù)警系統(tǒng)構(gòu)建簡潔、方便、通俗易懂的可視化頁面。
用戶交互層:主要結(jié)合數(shù)據(jù)整合和文本處理與分析,判斷用戶發(fā)表的輿情言論是否準確,便于系統(tǒng)發(fā)揮對用戶引導(dǎo)和預(yù)警的作用。校對信息來自數(shù)據(jù)提取層。
3.2 系統(tǒng)主要功能模塊
該系統(tǒng)主要包含4個模塊,分別是輿情采集、檢索、分析和預(yù)警模塊。系統(tǒng)主要功能模塊如圖4所示。
圖4 系統(tǒng)主要功能模塊
輿情采集模塊:輿情采集主要是對系統(tǒng)涉及的輿情信息進行采集、收納,并存入數(shù)據(jù)庫。信息來源于不同網(wǎng)站,以及微博、微信、抖音等APP。
輿情檢索模塊:該部分主要將檢索的網(wǎng)絡(luò)輿情信息暫時儲存,然后信息數(shù)據(jù)采集爬蟲根據(jù)任務(wù)要求工作,并將結(jié)果存儲到數(shù)據(jù)庫中。
輿情分析模塊:輿情分析主要完成對收集的災(zāi)情信息的分類,提取其中的重要信息,以及對用戶評論的內(nèi)容進行分析,最終構(gòu)建結(jié)構(gòu)化數(shù)據(jù)庫,為后續(xù)預(yù)警打下基礎(chǔ)。
輿情預(yù)警模塊:預(yù)警模塊主要根據(jù)結(jié)構(gòu)化數(shù)據(jù)庫對用戶發(fā)表有關(guān)輿情的評論內(nèi)容,進行真實性的監(jiān)測與追蹤,最終通過頁面展示分析結(jié)果,達到預(yù)警目的。
為提高系統(tǒng)的預(yù)警性能,需要對災(zāi)情信息進行分類并劃出預(yù)警的標準,見表1所列。表中將災(zāi)難分為四大類,即自然災(zāi)難、人為災(zāi)難、技術(shù)性災(zāi)難、區(qū)域性災(zāi)難。預(yù)警等級為4個等級,每個等級都有相應(yīng)的條件。在系統(tǒng)預(yù)警過程中,根據(jù)這些條件可以很好地實現(xiàn)對輿情走勢的把控,預(yù)防劣質(zhì)災(zāi)情信息傳播。
表1 災(zāi)情信息分類與預(yù)警標準
由于互聯(lián)網(wǎng)數(shù)據(jù)飛速增長和輿情信息快速傳播,使輿情分析難度增大。在應(yīng)對網(wǎng)絡(luò)輿情時要充分利用大數(shù)據(jù)技術(shù),通過專業(yè)的技術(shù)分析可以很好地進行測評和評估,實現(xiàn)預(yù)警。該系統(tǒng)有助于及時、快速,并且準確地分析輿情走向,引導(dǎo)用戶成為高質(zhì)量的輿情傳播者。