姜贏,張婧,朱玲萱,渠暢
(北京師范大學(xué)珠海分校管理學(xué)院,廣東珠海519087)
網(wǎng)絡(luò)謠言文本句式特征分析與監(jiān)測系統(tǒng)
姜贏,張婧,朱玲萱,渠暢
(北京師范大學(xué)珠海分校管理學(xué)院,廣東珠海519087)
基于實(shí)現(xiàn)網(wǎng)絡(luò)謠言自動(dòng)識別的目的,從地域、時(shí)間和傳播形式3個(gè)維度分析了收集到的網(wǎng)絡(luò)謠言基本情況。網(wǎng)絡(luò)謠言以文本傳播形式為主,而且在文本句式上有一定的共通點(diǎn)和相似之處。本文采用了五類網(wǎng)絡(luò)謠言文本句式特征分析方法,結(jié)合LanguageTool構(gòu)建了一系列基于XML的網(wǎng)絡(luò)謠言句式匹配規(guī)則。通過對收集到的網(wǎng)絡(luò)謠言實(shí)驗(yàn)測試,得出此方法能夠?qū)崿F(xiàn)網(wǎng)絡(luò)謠言的自動(dòng)識別和監(jiān)測,可以減少50%以上的人工識別工作量的結(jié)論。
網(wǎng)絡(luò)謠言;句式特征;LanguageTool;XML
網(wǎng)絡(luò)謠言傳播者善于運(yùn)用富有煽動(dòng)性的句式和語氣來擴(kuò)大傳播面積和影響力。例如“請把它轉(zhuǎn)達(dá)給每一個(gè)你珍惜和喜愛的人”、“是中國人就應(yīng)該轉(zhuǎn)”等都是網(wǎng)絡(luò)謠言經(jīng)常使用的語句。網(wǎng)絡(luò)謠言傳播者往往首先把自己撇清,把信息來源指向不確定的某個(gè)地方,常用些“信不信由你”的詞語。另外,在網(wǎng)絡(luò)上感嘆號密集、瘋狂煽情、強(qiáng)調(diào)語句聚集,以及“是。就頂樓主”之類的的語句也往往是謠言。由此可見,謠言文本句式的特征具有一定規(guī)律,而且有跡可循。總結(jié)、分析這些與特征與規(guī)律,并用于提高網(wǎng)絡(luò)謠言的識別率,對實(shí)現(xiàn)網(wǎng)絡(luò)謠言實(shí)時(shí)監(jiān)測和主動(dòng)預(yù)警有重要意義。
在網(wǎng)絡(luò)謠言分類方面,近年來國內(nèi)學(xué)者經(jīng)過調(diào)研發(fā)現(xiàn)[15-16],網(wǎng)絡(luò)謠言主要包括醫(yī)療衛(wèi)生、社會(huì)政治、災(zāi)害安全等類型,以及一些廣受關(guān)注熱點(diǎn)問題[2,5,14]。北京師范大學(xué)心理學(xué)院孫嘉卿[10]通過對新浪微博辟謠信息的統(tǒng)計(jì)分析,總結(jié)出有6種被反復(fù)使用的微博謠言辟謠方式。在網(wǎng)絡(luò)謠言的治理方面,武漢大學(xué)馬克思主義學(xué)院周潤[3]、徐州師范大學(xué)安仲森[6],湖南水利水電職業(yè)技術(shù)學(xué)院劉河元[8],不約而同的提出應(yīng)在政府(法制建設(shè)與信息公開)、單位(網(wǎng)絡(luò)監(jiān)管與思想教育)[11]和個(gè)人(個(gè)人素質(zhì)提高與自律)等多個(gè)部門和層面多管齊下進(jìn)行標(biāo)本兼治;上海對外貿(mào)易學(xué)院姚福生[4]認(rèn)為謠言治理的基礎(chǔ)在于信息透明,必須進(jìn)一步推進(jìn)信息公開,而對謠言治理必須及時(shí),掌握最佳時(shí)間,要做“第一定義者”的及時(shí)性;武漢工業(yè)學(xué)院胡頻偉提出,防范和處置網(wǎng)絡(luò)謠言首先要認(rèn)識到建立監(jiān)測系統(tǒng)在早期預(yù)警系統(tǒng)中的作用,包括網(wǎng)絡(luò)謠言監(jiān)測、識別、系統(tǒng)、評價(jià)、處置和反饋系統(tǒng)。北京郵電大學(xué)公共管理學(xué)院王歡等[7]提出網(wǎng)絡(luò)謠言的治理框架建包括6個(gè)“止于”:信源控制止于智者、內(nèi)容控制止于公開、過程控制止于及時(shí)、社會(huì)環(huán)境控制止于機(jī)制與法制、網(wǎng)絡(luò)環(huán)境控制止于技術(shù)。另外,廣東白云學(xué)院[9]對于學(xué)生工作網(wǎng)絡(luò)輿情信息監(jiān)控工作進(jìn)行了實(shí)證研究。
綜上所述,網(wǎng)絡(luò)謠言傳播原因主要有:1)網(wǎng)絡(luò)準(zhǔn)入門檻低:一臺(tái)連接網(wǎng)絡(luò)的設(shè)備,就可以輕松申請到一個(gè)微博賬號,缺乏監(jiān)管,微博上出現(xiàn)一類群體“網(wǎng)絡(luò)水軍”,他們?nèi)藬?shù)眾多,出于某種商業(yè)目的,會(huì)對某一言論一邊倒評論,為達(dá)到雇主需求而捏造事實(shí)。因此,網(wǎng)民很難判斷出某一微博信息是否真實(shí)。2)從眾心理導(dǎo)致趨向傳播:人們在接受信息時(shí),會(huì)考慮信息是否與自己認(rèn)知保持一致,當(dāng)認(rèn)知一致時(shí),大多會(huì)進(jìn)行傳播。從眾心理使得網(wǎng)民在群體壓力下產(chǎn)生群體自我膨脹的現(xiàn)象,以群體的決策為正確的,經(jīng)常造成謠言的肆意傳播。當(dāng)面對外部大量信息的刺激,個(gè)體容易隨波逐流,表現(xiàn)出強(qiáng)烈的從眾行為。3)網(wǎng)民約束力較差:由于因特網(wǎng)協(xié)議的開放性和管理方式的分散性,互聯(lián)網(wǎng)上的信息傳播和交流是很少受政府管制的,在網(wǎng)絡(luò)空間中,先進(jìn)的科技造就了一批迷失的“網(wǎng)絡(luò)人”,“網(wǎng)絡(luò)人”長期活動(dòng)在互聯(lián)網(wǎng)上,喪失道德判斷能力和責(zé)任感。容易被謠言所捕獲,成為謠言傳播的載體。4)“把關(guān)人”缺失:“把關(guān)人”詞義是“是在向受傳者傳遞信息的過程中,有權(quán)控制信息的流量和流向,影響著對信息的理解,決定讓哪些信息通過以及如何通過的人或機(jī)構(gòu)”,這個(gè)“把關(guān)人”一般由政府,媒體擔(dān)任,他們的職責(zé)是對信息進(jìn)行選擇和篩選,并防止個(gè)人意志通過媒體傳達(dá)給大眾,盡力保持客觀,公證,平衡的準(zhǔn)則。新興媒體不斷加入,紛紛創(chuàng)辦各自的網(wǎng)站,但網(wǎng)絡(luò)的采編和渠道審核程序不同,缺乏“守門人”的監(jiān)管機(jī)制,這樣會(huì)讓一些大型門戶網(wǎng)站會(huì)出現(xiàn)虛假信息,并且利用自己的權(quán)威和力量,使得小道消息快速傳播開來,為網(wǎng)絡(luò)謠言打開一道大路。同時(shí),在微博上,每個(gè)人都是信息的傳播者和發(fā)布者,“把關(guān)人”的角色幾乎消失無存,登陸微博發(fā)布信息,不需要經(jīng)過任何審查和等待,所發(fā)布的內(nèi)容就會(huì)出現(xiàn)在網(wǎng)上,并可以被網(wǎng)民所看到。根據(jù)我們所調(diào)查的數(shù)據(jù),幾乎有80%的校園謠言和社會(huì)謠言是通過個(gè)人發(fā)布端發(fā)送出來,所以“把關(guān)人”的缺失是導(dǎo)致謠言信息傳播迅速的原因之一。
但是目前未見專門針對網(wǎng)絡(luò)謠言文本句式特征分析的相關(guān)研究報(bào)道。在此背景下,本文提出在網(wǎng)絡(luò)謠言文本句式特征分析基礎(chǔ)之上,利用基于Languagtool[13]的XML[12]模式匹配識別技術(shù)實(shí)現(xiàn)網(wǎng)絡(luò)謠言的自動(dòng)識別和監(jiān)測。
本文研究的網(wǎng)絡(luò)謠言數(shù)據(jù)主要來自3個(gè)渠道:1)采用網(wǎng)絡(luò)調(diào)研和文獻(xiàn)分析等方法,從人人網(wǎng)、騰訊微信、騰訊QQ、新浪微博、百度貼吧以及相關(guān)BBS網(wǎng)址等收集到網(wǎng)絡(luò)謠言相關(guān)公開的373個(gè)相關(guān)鏈接、340個(gè)謠言事件;2)通過分組調(diào)研,從微信朋友圈、騰訊QQ等自媒體等途徑收集了345條朋友間轉(zhuǎn)發(fā)的網(wǎng)絡(luò)謠言私密信息。3)利用新浪微博虛假消息辟謠官方賬號“微博辟謠”收集了6個(gè)月(2015年7月1日至2015年12月15日)該平臺(tái)公布的453個(gè)社會(huì)謠言事件。筆者對這些不同渠道的數(shù)據(jù)進(jìn)行了人工篩選、去重、分類和匯總,最終建立了包含345條網(wǎng)絡(luò)謠言的案例庫。以下從地域、內(nèi)容和傳播形式3個(gè)維度對這些網(wǎng)絡(luò)謠言數(shù)據(jù)基本情況進(jìn)行介紹。
網(wǎng)絡(luò)謠言具有明顯的地域指向,即發(fā)生在某地某市,或者是針對某市某省所散布的謠言。例如,“揚(yáng)州曲江公園砍人、江都金牛灣發(fā)生武力事件多人倒地”、“湛江到廣東9 570頭家禽感染”和“深圳有多人被感染”等等。如表1所示,與地域相關(guān)的網(wǎng)絡(luò)謠言有289條,其中與中國大陸相關(guān)的有272條。
表1 網(wǎng)絡(luò)謠言指向地區(qū)分類匯總表
網(wǎng)絡(luò)謠言內(nèi)容上依據(jù)按一般傳統(tǒng)媒體的新聞分類法分為:政治、經(jīng)濟(jì)、法律、軍事、科技、文教、衛(wèi)體、社會(huì)等等新聞。如表2所示,此處所稱的社會(huì)新聞內(nèi)容很多,包括民生新聞、新聞熱線中讀者、聽眾、觀眾提供的新聞線索等。社會(huì)新聞大多數(shù)以負(fù)面的表達(dá)出現(xiàn),如“特警暴力執(zhí)法強(qiáng)拆,侵占老百姓田地”、“廉江一產(chǎn)婦在分娩時(shí)身亡,家屬聚集婦幼保健院門口燒黃紙討說法!”等等。
表2 網(wǎng)絡(luò)謠言內(nèi)容分類統(tǒng)計(jì)表
如表3所示,網(wǎng)絡(luò)謠言傳播形式非常集中,接近九成是以文字直接進(jìn)行傳播。極少數(shù)謠言是以視頻、圖片、圖文、文視進(jìn)行傳播。且這些網(wǎng)絡(luò)謠言中,內(nèi)容也集中在與社會(huì)人群息息相關(guān)的社會(huì)新聞和衛(wèi)體新聞。
表3 網(wǎng)絡(luò)謠言傳播形式分類統(tǒng)計(jì)表
筆者在對收集到的309條以文字為傳播形式的網(wǎng)絡(luò)謠言的分析過程中,發(fā)現(xiàn)網(wǎng)絡(luò)謠言在句式上都會(huì)有一定的共通點(diǎn)和相似之處,主要存在以下這些較為顯著的句式。
句式:“溫馨提示|緊急通知|宣布|最新消息|注意:|,……否則|以免|請|別|不要”;“今天才得知|現(xiàn)在才發(fā)現(xiàn)……竟然|會(huì)|可以”;“最近|近日|這段時(shí)間……”。例如:“溫馨提示:按照我省交警總隊(duì)要求,2016年七月一日起將增加科目五考察(高速公路的安全駕駛),請大家最好在七月一日前考完科目四,否則考試結(jié)束時(shí)間將無法確定!”,“最新消息,根據(jù)中央電視臺(tái)發(fā)布的消息,由于微信紅包被利用成賭博工具,將會(huì)在10月20日正式取消微信紅包,請各位把微信的零錢取現(xiàn),否則將無法取出?!边@類句式是通過一些警示或通知的語句來引起他人的注意從而達(dá)到謠言的傳播。
句式:“……請|求|……擴(kuò)散|轉(zhuǎn)發(fā)|群發(fā)|散播”;“……收到馬上發(fā)給|轉(zhuǎn)發(fā)”;“……轉(zhuǎn)發(fā)……可以|得到”;“……互相轉(zhuǎn)告|一定要轉(zhuǎn)發(fā)|中國人就轉(zhuǎn)發(fā)”。例如:“注意了?。?!粵CJJ217,黑色轎車,在小學(xué)門口搶小學(xué)生!?。【揭呀?jīng)初步證實(shí)了??!已經(jīng)在全省范圍內(nèi)通緝??!不求點(diǎn)贊只求擴(kuò)散!請看好自己的小孩!看見了轉(zhuǎn)下,提醒下大家,否則留下就是終身的遺憾了”,“緊急通知,暫時(shí)別吃雞肉,鴨肉,因河南省安陽市5570頭家禽已感染。收到馬上發(fā)給你關(guān)心的人,預(yù)防永遠(yuǎn)勝過治療。看到,群發(fā)擴(kuò)散?。?!”。這類句式一般情況下會(huì)結(jié)合句式1一起使用,通過呼吁他人轉(zhuǎn)發(fā)從而使謠言大規(guī)模擴(kuò)散。
句式:”……小孩|男孩|女孩|兒童|孩子|學(xué)生|老人……被|注意|死|傷|遭……”;“搶|走失|抱|殺|丟|找……小孩|男孩|女孩|兒童|孩子|學(xué)生|老人”;“太原四歲小女孩被晉中牌照面包車搶走”;“一條三歲多小女孩在錦繡花園小區(qū)附近被拐”;“貴港大將宏名中學(xué)有女學(xué)生被迷奸?!?。這類句式主要是通過人們對這么群體的關(guān)注和特殊情感,從而吸引人們的眼球達(dá)到傳播謠言的目的。
句式:“……可以|能夠預(yù)防|導(dǎo)致|治療|治愈|造成……”;“……通過|使用……可以|能|導(dǎo)致……”;“專家|科學(xué)家|實(shí)驗(yàn)|研究指出證明|稱……可|能|導(dǎo)致|造成……”。例如:“權(quán)威科學(xué)雜志消息:用花生油或橄欖油等植物油炒菜,有導(dǎo)致包括腫瘤在內(nèi)的各種病癥的可能。所以,推薦使用芝麻油、牛油、椰子油或者豬油取代一般的植物油?!保弧暗?zé)峁┡幸欢ㄝ椛湮:?,使用地暖還會(huì)導(dǎo)致小孩白血病、誘發(fā)腫瘤、破壞循環(huán)系統(tǒng)、嚴(yán)重影響兒童智力、危害心血管健康、導(dǎo)致視力低下等6大危害……”。
句式:“余|多|數(shù)|上萬”。例如:“福建有一艘偷渡到美國的船沉了,10余名福建人淹死。”;“有100多個(gè)新疆人,現(xiàn)已經(jīng)到了監(jiān)利縣附近,專來偷小孩搶小孩,監(jiān)利縣一帶已丟了20多個(gè)小孩?!薄_@一類多數(shù)用一下不準(zhǔn)確、夸大、大概的數(shù)值來吸引人們的注意,形成一種以假亂真的效果。
LanguageTool是一款集合英語、法語、德語、中文等多國語言的新型、開源、可擴(kuò)展式自然語言監(jiān)測系統(tǒng)[1]。LanguageTool專注于檢測復(fù)雜的字詞形態(tài)結(jié)構(gòu)錯(cuò)誤、用詞錯(cuò)誤和句法錯(cuò)誤等自然語言的抽象邏輯錯(cuò)誤,并最大限度提供最具可能性的匹配結(jié)果。筆者利用LanguageTool構(gòu)建基于XML[12]的網(wǎng)絡(luò)謠言句式匹配規(guī)則,并對收集到的網(wǎng)絡(luò)謠言進(jìn)行了測試。
筆者將五類網(wǎng)絡(luò)謠言文本句式分別設(shè)計(jì)了五個(gè)匹配規(guī)則組rulegroup。如圖1所示,請求轉(zhuǎn)發(fā)類謠言包含兩個(gè)匹配規(guī)則rule。每個(gè)rule又由一系列的token逐個(gè)進(jìn)行匹配。每個(gè)token可以使用正則表達(dá)式(regex=“yes”)和詞性標(biāo)注(postag)進(jìn)行條件匹配。其中min的值代表可以重復(fù)的此token最少次數(shù),如果等于0則表示可以有這個(gè)token也可以沒有。skip的值代表可以跳過的下一個(gè)token的個(gè)數(shù),如果等于1則表示可以跳過至多1個(gè)token。另外,message是針對匹配監(jiān)測到的謠言文本的警告語言。
筆者使用Languagetool自帶的testrules.bat工具對每個(gè)規(guī)則進(jìn)行測試,被測試的實(shí)驗(yàn)數(shù)據(jù)為收集到的345條網(wǎng)絡(luò)謠言。經(jīng)過測試發(fā)現(xiàn),監(jiān)測匹配到“通知警示類”的網(wǎng)絡(luò)謠言句式的有50條網(wǎng)絡(luò)謠言,匹配“請求轉(zhuǎn)發(fā)類”句式的有38條,匹配“針對人群類”句式的有34條,匹配“健康科普類”句式的有58條,匹配“概數(shù)類”句式的有10條。總之,345條網(wǎng)絡(luò)謠言數(shù)據(jù)中的190條被監(jiān)測到了,識別率達(dá)超過了50%。而另外一部分網(wǎng)絡(luò)謠言文本句式特征并不明顯,未能監(jiān)測匹配到。如果將此方法和技術(shù)用于網(wǎng)絡(luò)謠言監(jiān)測實(shí)踐,至少可以減少50%以上的人工識別的工作量。
圖1 請求轉(zhuǎn)發(fā)類謠言XM匹配規(guī)則
本文在總結(jié)前人網(wǎng)絡(luò)謠言理論研究基礎(chǔ)之上,以文本句式特征分析為切入點(diǎn),研發(fā)出基于LanguageTool的網(wǎng)絡(luò)謠言自動(dòng)檢測系統(tǒng)。該方法說明網(wǎng)絡(luò)謠言自動(dòng)檢測是可以實(shí)現(xiàn)的,能夠大幅減少人工檢測工作量。該系統(tǒng)還可以根據(jù)不同領(lǐng)域的應(yīng)用需要通過擴(kuò)展XML匹配規(guī)則庫來進(jìn)一步優(yōu)化網(wǎng)絡(luò)謠言識別和監(jiān)測的效率和效果。
[1]姜贏,曾杰,林啟紅,等.LanguageTool中文語法校對XML規(guī)則定制方法[J].圖書情報(bào)工作,2014(5):86-92.
[2]張薇,張雷.大學(xué)生網(wǎng)絡(luò)謠言問題的探因與對策研究[J].金田,2012(10):322-323.
[3]周潤,張斌,黃巧仙,等.網(wǎng)絡(luò)謠言對高校網(wǎng)絡(luò)思想政治教育工作的挑戰(zhàn)及對策研究——從重慶交大學(xué)生“針刺”謠言事件說起[J].湖北第二師范學(xué)院學(xué)報(bào),2013,30(1):50-52,68.
[4]姚福生.校園謠言透析與治理[J].思想理論教育(上半月綜合版),2013(2):86-89,94.
[5]孫麗.網(wǎng)絡(luò)謠言的類型與特征[J].電子政務(wù),2015(1):18-23.
[6]安仲森.論網(wǎng)絡(luò)謠言對高校德育工作的挑戰(zhàn)與應(yīng)對舉措[J].湖北省社會(huì)主義學(xué)院學(xué)報(bào),2011(5):80-83.
[7]王歡,祝陽.“微博時(shí)代”反腐敗類謠言的治理策略研究[J].現(xiàn)代情報(bào),2013,33(7):7-11.
[8]劉河元.網(wǎng)絡(luò)謠言對大學(xué)生倫理道德的影響及應(yīng)對策略[J].世紀(jì)橋,2012(19):51-52.
[9]李林,李建華,楊寶麗,等.高校微博輿情的監(jiān)控與引導(dǎo)——以廣東白云學(xué)院為例[J].高校輔導(dǎo)員學(xué)刊,2012(6):49-52.
[10]孫嘉卿.微博謠言特征及辟謠策略研究——基于新浪微博的質(zhì)性研[J].中國出版雜志,2012(10):21-24.
[11]張兵.基于微博的大學(xué)生思想政治教育探索[J].棗莊學(xué)院學(xué)報(bào),2011(1):23-25.
[12]孫溫穩(wěn).XML文本的標(biāo)準(zhǔn)化[J].電子技術(shù)與軟件工程,2016(7):187.
[13]Ying Jiang,Tong Wang,Tao Lin,et al.A rule based chinese spelling and grammar detection system utility[C]// In Proceedings of 2012 International Conference on System Science and Engineering(ICSSE 2012):437-440.
[14]黎慈.大學(xué)生傳播網(wǎng)絡(luò)謠言的誘因與教育管理對策研究[J].河北公安警察職業(yè)學(xué)院學(xué)報(bào),2013(1):71-74.
[15]楊慶國,陳敬良.公共事件中大學(xué)生短信謠言傳播危機(jī)意識調(diào)查[J].當(dāng)代青年研究,2012(1):66-71.
[16]劉超.微博謠言防控措施研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2012(3):75-77.
Analysis of online rumor text syntactical structure features and the monitoring system
JIANG Ying,ZHANG Jing,ZHU Ling-xuan,QU Chang
(School of Management,Beijing Normal University,Zhuhai519087,China)
In order to realize online rumors automatic identification,it introduces the collected online rumors in the three dimensions of location,time and spreading media.The main spreading media is text based on analysis,with common and similar text syntactical structure features.Five text syntactical structure features are summarized,based on which a series of online rumor text syntactical structure XML rules are constructed.Tests are performed upon the collected online rumors,which shows that it can realize the automatic identifying and monitoring the online rumors,with half of the manual work-load reduced.
online rumors;syntactical structure feature;LanguageTool;XML
TN99
A
1674-6236(2017)23-0007-04
2016-11-27稿件編號:201611217
廣東省自然科學(xué)基金項(xiàng)目(2016A030313386);廣東省教育廳省級學(xué)校德育創(chuàng)新項(xiàng)目(2015DYZD015)
姜贏(1981—),男,湖北武漢人,博士,副教授。研究方向:網(wǎng)絡(luò)輿情監(jiān)控。