張馨怡,張正霞,閆遠(yuǎn)芳,閆曉美
(1.山西省地震局,山西 太原 030021;2.太原大陸裂谷動(dòng)力學(xué)國(guó)家野外科學(xué)觀測(cè)研究站,山西 太原 030025)
地震謠言事件一般指由地震謠言信息的傳播、擴(kuò)散而引發(fā)的人群聚集、社會(huì)恐慌事件,會(huì)造成社會(huì)秩序混亂,使公眾態(tài)度、行為失范,經(jīng)濟(jì)生產(chǎn)停滯等一系列消極后果,尤其是在地震發(fā)生后一段時(shí)間內(nèi),地震謠言呈爆發(fā)式增長(zhǎng)。隨著移動(dòng)智能設(shè)備及移動(dòng)互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,各種地震不良言論散布快速且廣泛[1]。因此,如何高效地識(shí)別網(wǎng)絡(luò)上千變?nèi)f化的地震謠言,解決在新媒體時(shí)代下其傳播快、廣的問(wèn)題,做好群眾維穩(wěn)和防震減災(zāi)宣傳工作,亟須研究一種新的解決方案。
通過(guò)對(duì)歷年來(lái)我國(guó)發(fā)生影響較大的地震謠言事件進(jìn)行分析、歸納后發(fā)現(xiàn),大多數(shù)謠言是以“移花接木”的方式通過(guò)變換地震信息的地名、時(shí)間、數(shù)據(jù)等內(nèi)容重復(fù)出現(xiàn),使用大量的真實(shí)地震事件、地點(diǎn)的材料通過(guò)圖片拼湊、視頻剪輯連接到一起,使得謠言在大眾媒體和人與人之間進(jìn)行迅速傳播。根據(jù)這一特性,可利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)對(duì)這些地震謠言進(jìn)行爬取,并將各類謠言進(jìn)行分類,形成謠言數(shù)據(jù)庫(kù),面向公眾提供謠言信息查詢推送平臺(tái),通過(guò)各種媒介平臺(tái)進(jìn)行信息公開(kāi),使公眾更加理性看待地震時(shí)傳播的信息,不僅有助于平息謠言,還能建立良好的媒體形象[2]。
地震謠言的產(chǎn)生有其特定的社會(huì)原因和心理原因,下面從產(chǎn)生地震謠言的客觀原因方面對(duì)地震謠言進(jìn)行分類。通過(guò)分類有利于后期盡可能豐富常用的關(guān)鍵詞,不斷優(yōu)化檢索的主題詞及常用搭配語(yǔ)句,以便獲取和判斷謠言信息的源頭[3]。
(1) 片面理解特殊時(shí)段的地震監(jiān)測(cè)、震災(zāi)預(yù)防、地震應(yīng)急工作產(chǎn)生的謠言。
當(dāng)遇到各級(jí)政府及企事業(yè)單位制定破壞性地震應(yīng)急預(yù)案,相關(guān)單位開(kāi)展防震減災(zāi)知識(shí)宣傳活動(dòng)等時(shí),被公眾誤認(rèn)為即將發(fā)生破壞性地震,造成缺乏地震知識(shí)的公眾以自己的主觀理解傳播扭曲后的信息,最終導(dǎo)致大規(guī)模的地震謠傳發(fā)生。
(2) 非正常渠道獲取地震預(yù)測(cè)意見(jiàn)引發(fā)的謠言。
相關(guān)人員個(gè)人的地震預(yù)測(cè)意見(jiàn),地震震情會(huì)商形成的地震預(yù)報(bào)意見(jiàn),或地震預(yù)報(bào)意見(jiàn)的評(píng)審結(jié)果被擅自向社會(huì)散布,使部分公眾對(duì)網(wǎng)絡(luò)上地震專業(yè)人士的言論深信不疑,或有“寧可信其有,不可信其無(wú)”心態(tài)的網(wǎng)民對(duì)信息進(jìn)行加工化傳播,使其更具蠱惑性,從而產(chǎn)生地震謠言。
(3) 各種前兆異常引發(fā)的謠言。
由于群眾對(duì)地球物理異?,F(xiàn)象的片面解讀,把洪水、干旱、地面沉陷、隆起、地裂縫等自然現(xiàn)象和動(dòng)物異常當(dāng)作破壞性地震發(fā)生的前兆,認(rèn)為這些現(xiàn)象和地震有某種必然聯(lián)系,并巧妙地把以往在地震中出現(xiàn)的前兆異常聯(lián)想到一起,消解了謠言的荒謬性使其更趨于合理,導(dǎo)致社會(huì)公眾的普遍恐慌,助長(zhǎng)了謠言的迅速傳播。
(4) 異地或海外的預(yù)測(cè)、預(yù)報(bào)意見(jiàn)引發(fā)的地震謠言。
由于公眾對(duì)地震成因、機(jī)理的科學(xué)認(rèn)知不到位及對(duì)政府的不信任感,使其盲目相信異地或海外的預(yù)測(cè)預(yù)報(bào)意見(jiàn),主動(dòng)成為謠言的傳播者。
(5) 利用封建迷信或其他原因編造地震謠言。
以“消息靈通人士”為幌子,這種地震謠言制造者并不是出于恐震心理,而是別有用心,如被封建迷信所驅(qū)使,或有其他社會(huì)背景因素。
通過(guò)分析網(wǎng)絡(luò)謠言的特點(diǎn),可以得出,謠言傳播一方面具有非線性特征,其傳播過(guò)程包含爆發(fā)期和變種期,謠言的內(nèi)容和受眾在傳播過(guò)程中不斷發(fā)生變化,線性模型難以對(duì)其進(jìn)行衡量;另一方面謠言內(nèi)容長(zhǎng)短不一,辨識(shí)模型的獲取結(jié)果很大程度上取決于提取的特征值。提取可以代表謠言文本的關(guān)鍵特征值至關(guān)重要,具體而言,一個(gè)謠言的關(guān)鍵性因素包含非理性和非客觀用詞。例如,容易引起公共突發(fā)事件的謠言通常包含有煽動(dòng)性和強(qiáng)烈感情色彩的詞語(yǔ),這是識(shí)別的關(guān)鍵。因此,需要在文本特征提取和非線性辨識(shí)模型上進(jìn)行針對(duì)性設(shè)計(jì)[4]。
應(yīng)用網(wǎng)絡(luò)謠言智能辨識(shí)模型開(kāi)展網(wǎng)絡(luò)辟謠是謠言甄別的關(guān)鍵環(huán)節(jié),現(xiàn)階段,人工智能技術(shù)如決策樹(shù)、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)、SVM、貝葉斯網(wǎng)絡(luò)等已廣泛應(yīng)用,具備自主學(xué)習(xí)的數(shù)據(jù)特征并基于所學(xué)模型進(jìn)行自主辨識(shí)的能力。其中,BP神經(jīng)網(wǎng)絡(luò)是一種模擬人腦邏輯思考的連接模型,它基于數(shù)以萬(wàn)計(jì)的神經(jīng)元節(jié)點(diǎn)(是否連接和連接權(quán)值)實(shí)現(xiàn)信息的傳遞,形成非線性的實(shí)時(shí)并行處理系統(tǒng)。具有非線性標(biāo)準(zhǔn)能力強(qiáng)、自主學(xué)習(xí)效率高、模型布局維護(hù)難度小等優(yōu)勢(shì),是實(shí)現(xiàn)網(wǎng)絡(luò)謠言智能辨識(shí)的首選。
辨識(shí)模型對(duì)網(wǎng)絡(luò)平臺(tái)進(jìn)行實(shí)時(shí)監(jiān)測(cè),需要具備網(wǎng)絡(luò)數(shù)據(jù)的自動(dòng)抓取能力。網(wǎng)絡(luò)爬蟲(chóng)技術(shù)是一種通過(guò)關(guān)鍵詞、敏感詞獲取網(wǎng)絡(luò)數(shù)據(jù)的方法。通??深A(yù)先設(shè)置謠言關(guān)鍵詞匯(例如地震謠言可以是地震關(guān)鍵詞、發(fā)生時(shí)間、地點(diǎn)等),在初始種子和主題確立后,爬蟲(chóng)技術(shù)通過(guò)文本爬行、頁(yè)面分析、相關(guān)度計(jì)算、數(shù)據(jù)過(guò)濾、相關(guān)度評(píng)價(jià)和調(diào)度排序等方式對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行篩選,獲取相關(guān)的網(wǎng)絡(luò)數(shù)據(jù)。主題爬蟲(chóng)技術(shù)具有比通用搜索引擎更高的信息獲取效率,極大地釋放了爬取時(shí)間和存儲(chǔ)空間?,F(xiàn)階段,主題爬蟲(chóng)技術(shù)的研究成果已在地震宏觀異常研究、公安刑偵辦案的網(wǎng)絡(luò)輿情監(jiān)控領(lǐng)域發(fā)揮著重要作用。
目前,機(jī)器學(xué)習(xí)方法已能輔助進(jìn)行較好的網(wǎng)絡(luò)數(shù)據(jù)篩選,提高網(wǎng)絡(luò)地震謠言識(shí)別的效率?;谌斯ぶ悄芗夹g(shù),采集地震謠言信息的方法流程主要包括以下三方面。
網(wǎng)絡(luò)謠言的鑒別屬于文本內(nèi)容識(shí)別領(lǐng)域,文本關(guān)鍵詞是否包含敏感詞匯,發(fā)布時(shí)間、地點(diǎn)判斷是否與實(shí)際情況一致等都可作為重要的甄別依據(jù)。以地震謠言為例,地震謠言通常發(fā)表在論壇、微博、微信等自媒體平臺(tái),建立地震謠言數(shù)據(jù)集要,選取與其相關(guān)的關(guān)鍵詞來(lái)描述地震主題。主題詞的確定尤為關(guān)鍵,主題關(guān)鍵詞的變化通常會(huì)影響謠言信息的獲取和辨識(shí),在選取主題詞時(shí),通常是結(jié)合專家意見(jiàn)和特征提取兩種方式,可分為上級(jí)、政府、專家、地震局、預(yù)測(cè)、意見(jiàn)、發(fā)布等官方用語(yǔ);7級(jí)、8級(jí)等衡量指標(biāo);青蛙、蛇、池塘、暴雨、大風(fēng)、地光等關(guān)聯(lián)現(xiàn)象;常見(jiàn)的地震帶、斷裂帶等專業(yè)詞匯。在不影響檢索效率和檢索精度的前提下,盡可能選取常用的詞匯。
地震謠言的辨識(shí)模型包括樣本庫(kù)構(gòu)建、特征提取和模型學(xué)習(xí)等環(huán)節(jié)。其流程包括:通過(guò)人工挑選的形式建立謠言(正樣本)和非謠言樣本庫(kù)(負(fù)樣本);然后采取自然語(yǔ)言技術(shù)進(jìn)行特征轉(zhuǎn)換和提取,將文本形式變換成特征數(shù)據(jù)的描述形式;最后再輸入到合適的辨識(shí)模型進(jìn)行學(xué)習(xí)。在構(gòu)造樣本庫(kù)環(huán)節(jié),通常將謠言樣本標(biāo)注為1,將非謠言樣本標(biāo)注為0;從文本到特征數(shù)據(jù)的轉(zhuǎn)換通常采用One-Hot編碼格式;機(jī)器學(xué)習(xí)模型可采用SVM支持向量機(jī)、KNN近鄰分類器、BP神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)等。
地震謠言辨識(shí)模型根據(jù)已有標(biāo)準(zhǔn)樣本數(shù)據(jù),通過(guò)自學(xué)習(xí)和參數(shù)自調(diào)整方式不斷修改辨識(shí)網(wǎng)絡(luò)的神經(jīng)元連接方式和連接權(quán)值,使其達(dá)到穩(wěn)定狀態(tài)。由于地震消息的復(fù)雜性和實(shí)時(shí)動(dòng)態(tài)變化性,地震謠言辨識(shí)模型是一個(gè)長(zhǎng)期學(xué)習(xí)的過(guò)程,需要不斷的更新迭代樣本集,用辨識(shí)出錯(cuò)的樣本案例對(duì)模型進(jìn)行修正,最終輸出穩(wěn)定性高的謠言甄別概率。
利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)實(shí)時(shí)監(jiān)測(cè)搜索引擎、新聞門戶、論壇、微博、微信、博客的數(shù)據(jù)內(nèi)容,在輿情系統(tǒng)應(yīng)用領(lǐng)域發(fā)揮著重要的作用。通常,可將網(wǎng)絡(luò)爬蟲(chóng)技術(shù)理解為使用某種語(yǔ)言(通常選用Python)按照一定規(guī)則(主題詞、敏感詞)主動(dòng)從互聯(lián)網(wǎng)抓取特定信息的程序或腳本。基于Python的網(wǎng)絡(luò)爬蟲(chóng)實(shí)現(xiàn)原理大概包括如下兩個(gè)步驟。
(1) 數(shù)據(jù)平臺(tái)。
主要針對(duì)目標(biāo)地區(qū)的論壇、微博、微信等自媒體平臺(tái)。
(2) 數(shù)據(jù)采集。
通過(guò)Python網(wǎng)絡(luò)模塊(URLIB2、HTTPLIB、Requests)模擬用戶瀏覽器向服務(wù)器正常發(fā)送HTTP請(qǐng)求,服務(wù)器在正常接受、解析和響應(yīng)用戶請(qǐng)求后會(huì)反饋相關(guān)數(shù)據(jù),用戶主機(jī)此時(shí)要基于Python過(guò)濾模塊(LXML、HTML、RE)解析出所需內(nèi)容。
(3) 數(shù)據(jù)預(yù)處理。
通過(guò)文本去重、短語(yǔ)去重及語(yǔ)義過(guò)濾等預(yù)處理方法對(duì)爬取的數(shù)據(jù)進(jìn)行去重處理,為輿情分析準(zhǔn)備好數(shù)據(jù)。
(4) 數(shù)據(jù)建模。
將爬取的信息進(jìn)行分類,標(biāo)注每類信息的背景、時(shí)間、關(guān)鍵詞等形成謠言樣本庫(kù)。
采用Python模塊化編程技術(shù)、編寫文字、匹配圖片、視頻信息并利用HTML5技術(shù),實(shí)現(xiàn)無(wú)需安裝、跨平臺(tái)使用。借助微信、微博、官方網(wǎng)頁(yè)等接口為公眾提供網(wǎng)絡(luò)謠言信息查詢平臺(tái)。
因?qū)Φ卣鸨旧淼目謶只蚴菒阂庵圃鞂?dǎo)致的地震謠言,不僅給社會(huì)發(fā)展帶來(lái)危害,對(duì)人類的發(fā)展、生存也將帶來(lái)不良影響。因此,通過(guò)技術(shù)手段爬取地震謠言,并將其進(jìn)行分類,建立謠言數(shù)據(jù)庫(kù),面向公眾提供謠言信息查詢推送平臺(tái),通過(guò)各種媒介平臺(tái)進(jìn)行信息公開(kāi),
有利于嚴(yán)格把控虛擬空間內(nèi)地震謠言的產(chǎn)生和發(fā)展動(dòng)態(tài),提高公眾了解各類謠言套路后的鑒別能力,使公眾更加理性看待日常生活中所傳播的地震謠言信息,對(duì)地震造成破壞的危害性和可能性產(chǎn)生客觀、理性的認(rèn)識(shí),增強(qiáng)社會(huì)公眾的防震減災(zāi)意識(shí),有效防控地震謠言。