陳蕾,鄒儀
(中國人民警察大學(xué),河北 廊坊 065000)
“謠言識別”被賦予了非比尋常的時代意義。目前,信息以互聯(lián)網(wǎng)為載體在網(wǎng)民之間飛速傳播,“話語權(quán)”也向普通民眾轉(zhuǎn)移,自媒體時代的到來深刻地影響著人們的生活。更需重視的是,網(wǎng)絡(luò)在極大方便信息交互的同時,一些無中生有或粉飾事實的信息,由于難以識別、不易發(fā)現(xiàn),導(dǎo)致其在傳播網(wǎng)絡(luò)中被歪曲放大不斷蔓延,造成消極的社會影響甚至危害社會秩序和國家安全。例如,2013-04-23,黑客入侵美聯(lián)社的Twitter 賬號,散布美國總統(tǒng)奧巴馬被炸傷的謠言,引起資本市場的震蕩,令美國股市蒸發(fā)2 000億美元[1]。微博憑借其多樣性、共享性、實時性、互動性在各類社交媒體平臺中脫穎而出,即使是用戶覆蓋度最高的微信系統(tǒng),其微信公眾賬號中超過60%的推廣信息也是通過微博進行發(fā)布的[2],識別微博平臺中的謠言也具有相當(dāng)重要的意義。
目前關(guān)于謠言的識別方法可以分為2 大類,一類是基于人工的識別方法,另一類是基于計算機技術(shù)的自動識別方法。
人工謠言識別法是各大網(wǎng)絡(luò)社交平臺普遍使用的一種謠言識別方法。由于社交媒體中謠言難以一一辨認,各類平臺都鼓勵其用戶進行監(jiān)督投訴,開設(shè)專門的投訴通道,甚至對能準(zhǔn)確投訴監(jiān)督的用戶有一定獎勵;此外,平臺也會在其用戶中或社會上選擇一些行業(yè)專家,利用專家的領(lǐng)域知識對相關(guān)謠言信息的真實性進行鑒定識別。前者利用普通網(wǎng)民進行謠言識別,可稱為網(wǎng)民謠言識別;后者認定相關(guān)專家進行謠言識別,可稱為專家謠言識別。
關(guān)于網(wǎng)民謠言識別的研究較少,且在行政管理領(lǐng)域被討論較多。鄭潔等[3]認為要培育全民“把關(guān)人”,使其自覺加入到處理相關(guān)事件的隊伍里,只有這樣才能有效規(guī)避技術(shù)弊端所帶來的監(jiān)管缺失問題。林鴻潮[4]認為要發(fā)揮集體智能在網(wǎng)絡(luò)空間探尋真相,通過“眾包”協(xié)作的方式,集合“數(shù)字志愿者”的力量。相關(guān)研究大多停留在探討廣泛發(fā)動網(wǎng)民的重要意義上,至于如何更加高效、科學(xué)地發(fā)動網(wǎng)民的力量較少討論。
專家謠言識別在社交媒體上一般作為網(wǎng)民謠言識別的一種補充。張淳藝[5]針對新冠肺炎期間“糧慌”的謠言提出政府等權(quán)威機構(gòu)要及時澄清、辟謠,民眾也要做到“不信謠,不傳謠”。高玉君等[6]通過研究微博辟謠機制,說明了專家謠言識別的過程。微博網(wǎng)民通過“舉報”功能向平臺舉報可疑信息,微博平臺的相關(guān)專家會再次對這些信息進行一個再判別,并在平臺上公布鑒別結(jié)果,這些專家或權(quán)威機構(gòu)也可以在網(wǎng)絡(luò)中直接搜尋相關(guān)“謠言”并加以判斷,平臺會通過公眾號“微博辟謠”對用戶進行發(fā)布。
人工謠言識別法有著較高的識別率,但亦存在著一些缺點。其一是人力耗費多。無論是網(wǎng)民謠言識別還是專家謠言識別,都需要對相關(guān)信息進行逐條甄別并以此識別出其是否為謠言,這就意味著將產(chǎn)生極大的人力消耗。其二是專業(yè)依賴強。謠言復(fù)雜多樣,單個謠言可能包含著跨度極廣的專業(yè)知識,某些特定領(lǐng)域的專家依賴其知識背景或?qū)I(yè)知識有很大概率作出錯誤的判斷。其三是遺漏率高。社交媒體平臺對做出正確舉報行為的用戶沒有“實質(zhì)”性的獎勵,導(dǎo)致網(wǎng)民對監(jiān)督舉報的積極性低,僅靠其自覺又難以達到相應(yīng)效果,加之專家等專職人員數(shù)量有限,所以無法對謠言進行全方位的網(wǎng)羅、識別。
自動謠言識別包括基于機器學(xué)習(xí)的謠言識別和基于深度學(xué)習(xí)的謠言識別。本節(jié)將對2 種方法在謠言識別領(lǐng)域的研究作出歸納說明。
目前應(yīng)用于謠言識別的機器學(xué)習(xí)算法主要有支持向量機、決策樹、貝葉斯算法、隨機森林等。用其進行謠言識別的一般過程是:在謠言發(fā)布初期,結(jié)合自然語言敏感詞、情感詞等分析手段識別話題,進行初步篩選。具體步驟是:用爬蟲軟件獲取微博原始數(shù)據(jù),并進行數(shù)據(jù)清洗,去除無關(guān)信息;對獲取的微博數(shù)據(jù)進行分詞、去停用詞,并結(jié)合微博的內(nèi)容增加新詞匯,然后對文本特征按權(quán)值進行轉(zhuǎn)換,最后進行聚類和降維,實現(xiàn)輸出。
3.1.1 數(shù)據(jù)獲取
數(shù)據(jù)獲取是進行謠言檢測的前提,現(xiàn)在一般借助網(wǎng)絡(luò)爬蟲程序?qū)崿F(xiàn)數(shù)據(jù)獲取。其大體流程是:根據(jù)微博等社交軟件的特點,分析登錄協(xié)議、數(shù)據(jù)請求過程和每個請求的URL 與數(shù)據(jù)的對應(yīng)關(guān)系;然后,通過獲取cookie 并創(chuàng)建session,使用程序模擬網(wǎng)頁登錄的過程;實現(xiàn)模擬登錄后,以登錄用戶的信息為種子集合,通過HTTP 協(xié)議使用GET 方法對數(shù)據(jù)進行采集并對獲得的數(shù)據(jù)進行解析。這種模擬用戶登錄的方法,不需要官方授權(quán)和APⅠ,很靈活,可以全面、高效地獲取數(shù)據(jù)。
3.1.2 數(shù)據(jù)處理
對于獲取的微博數(shù)據(jù),需要進行相關(guān)的文本分析和特征提取,以方便機器學(xué)習(xí)算法處理。主要步驟有:①噪聲過濾。去除噪聲是數(shù)據(jù)清洗的一部分,主要目的是去除無用的數(shù)據(jù),提升后續(xù)環(huán)節(jié)的檢測效率。一般設(shè)定一個閾值,將粉絲數(shù)量低于該閾值的微博用戶的微博數(shù)據(jù)刪除。②分詞。微博文本都刪除是短文本,對短文本進行分類,是進行預(yù)處理的關(guān)鍵步驟之一。目前比較常用的中文分詞方法主要基于統(tǒng)計學(xué)、字符串匹配或者人工智能方法,實現(xiàn)將連續(xù)文本轉(zhuǎn)換成詞的序列,方便進行去除停用詞、詞性轉(zhuǎn)換等,從而為后續(xù)的文本向量化打下基礎(chǔ)。③向量表示。為了方便計算,一般需要將微博的文本信息按照其特征項(比如字符、詞語)轉(zhuǎn)換為特征向量的形式。有效地為微博消息的文本內(nèi)容建立結(jié)構(gòu)化向量,計算文本之間的相關(guān)性,是提升識別效率的重要手段。
3.1.3 特征選擇
目前用于謠言識別的機器學(xué)習(xí)算法大都屬于監(jiān)督學(xué)習(xí),嚴格意義上來說仍然需要人工對其訓(xùn)練數(shù)據(jù)進行標(biāo)注,但造成不同算法甚至相同算法間巨大差異的原因在于其訓(xùn)練分類器的數(shù)據(jù)特征不同。如何取舍相關(guān)特征用以表征數(shù)據(jù),就成為謠言識別成效的關(guān)鍵所在?,F(xiàn)在研究比較多的特征類型如下。
3.1.3.1 基于用戶特征
謠言發(fā)端于用戶,用戶是社交網(wǎng)絡(luò)的重要組成部分,將其作為謠言識別的特征亦是值得研究的課題。針對該特征,LⅠANG 等人[7]基于微博平臺用戶的行為,選取發(fā)帖用戶和傳播用戶每日關(guān)注的好友數(shù)、每日發(fā)布的博文數(shù)、可能的消息源數(shù)、質(zhì)疑評論占比和更正數(shù)這5 個特征,結(jié)合用戶認證人數(shù)、粉絲人數(shù)、轉(zhuǎn)發(fā)及評論數(shù)等特征數(shù)據(jù)訓(xùn)練決策樹模型,并獲得了86.5%的精確度和85.4%的召回率。WU 等[8]認為謠言歸根結(jié)底是由普通用戶發(fā)布,再被意見領(lǐng)袖轉(zhuǎn)發(fā),最后被大量普通用戶轉(zhuǎn)發(fā),這是區(qū)別于非謠言的一個重要特征,其選取信息發(fā)布者和轉(zhuǎn)發(fā)者的行為特征與消息內(nèi)容特征相結(jié)合,利用混合SVM 模型以識別謠言。
3.1.3.2 基于內(nèi)容特征
在社交平臺中,內(nèi)容是謠言的表現(xiàn)形式,其包括文字、圖片、視頻、表情符號等,在各類文獻的研究中,實驗結(jié)果均表明基于內(nèi)容特征的謠言識別模型在性能上明顯優(yōu)于基于用戶特征、基于網(wǎng)絡(luò)特征的謠言識別模型[9]。賀剛等人[10]選取文本符號、鏈接、關(guān)鍵詞分布、時間差4 類特征,使用SVM 模型進行訓(xùn)練并獲得81.2%的準(zhǔn)確率,訓(xùn)練結(jié)果表明,這4 類特征中關(guān)鍵詞分布特征對準(zhǔn)確率影響最大。ZHANG 等人[11]選取流行度取向、內(nèi)外一致性、情感極性、評論觀點4個基于內(nèi)容的隱式特征,并用SVM 模型進行訓(xùn)練獲得了72.4%的精確度和58.6%的召回率。
3.1.3.3 基于傳播特征
謠言的傳播和非謠言的傳播存在著極大的不同,用戶在接觸謠言時會有不同的反應(yīng),而這些反應(yīng)亦會被映射到傳播過程中。KWON 等人[12]觀察到非謠言在傳播過程中會有一個顯著峰而謠言則會有多個峰,基于該特征建立了周期性外部震動模型以捕獲謠言的周期性爆發(fā),最后結(jié)合結(jié)構(gòu)和內(nèi)容特征訓(xùn)練隨機森林模型獲得93.5%的精確度和89.2%的召回率。MA 等人[13]提出傳播樹內(nèi)核(PTK),主要選取傳播結(jié)構(gòu)中的非時間特征,實驗結(jié)果顯示,PTK 謠言識別模型分別比基線方法中表現(xiàn)最好的GRU 模型檢測精確度提高6.4%、8.9%。
綜合來說,基于機器學(xué)習(xí)的謠言識別關(guān)鍵在于選擇合適的特征,特征的選擇在一定程度上比算法模型的選擇更為重要,所以其本質(zhì)還是人工性的,存在著一些不足。其一,對于一些復(fù)雜數(shù)據(jù)難以處理,社交媒體謠言數(shù)據(jù)特征一般是高維、抽象的,人工難以完全拆解識別。其二,使用人工標(biāo)注的特征集合用以訓(xùn)練模型,并試圖得到一個通用的謠言識別機器,難以保證模型的泛化性能。
深度學(xué)習(xí)作為機器學(xué)習(xí)一個發(fā)展迅猛的分支,在自然語言處理等方面應(yīng)用越來越廣泛。深度學(xué)習(xí)主要有卷積神經(jīng)網(wǎng)路(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)2大類組成,比較靈活,一般只需要修改參數(shù)就可以實現(xiàn)模型修改,但是需要大量數(shù)據(jù)和訓(xùn)練的支撐。
相比于機器學(xué)習(xí)需要人工進行特征篩選,深度學(xué)習(xí)可以自動習(xí)得相關(guān)數(shù)據(jù)特征,且其學(xué)習(xí)得到的特征比人工標(biāo)注的更加有效,達到更好的謠言識別效果[14]。MA 等人[15]提出利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)檢測微博謠言,并分別在Twitter 和微博數(shù)據(jù)集上進行實驗,并與SVM-TS 等手工制作特征模型進行比較,其中GRU-2 在Twitter 和微博數(shù)據(jù)集上的準(zhǔn)確率分別為88.1%和91.0%,準(zhǔn)確率大幅提升。劉政等人[16]采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)檢測微博謠言,并使用Doc2Vec訓(xùn)練向量矩陣,此模型與RNN 模型進行比較,精確率提高了10.2%。WANG 等[17]通過研究各類謠言事件的共性,提出事件生成對抗網(wǎng)絡(luò)(EANN)模型以識別謠言,實驗顯示該模型比att-RNN 模型的準(zhǔn)確率提高了10.3%,F(xiàn)1 提高了16.5%,表明事件共性特征進一步提高了模型的泛化能力。劉鐘山[18]提出的基于LSTM 的謠言檢測模型作為改進的RNN 模型,對公開的微博謠言數(shù)據(jù)集進行檢測,實驗顯示該模型比GRU 模型的準(zhǔn)確率提高了12.0%,F(xiàn)1 值提高了11.3%,整體識別效果良好。
綜合來看,基于深度學(xué)習(xí)的謠言識別的效果優(yōu)于機器學(xué)習(xí)的模型,它很好地避免了人工特征選擇的缺陷,但是由于其比較復(fù)雜,需要大量的數(shù)據(jù)作為支撐,因此如何獲得大量且完整的數(shù)據(jù)也成為了一個關(guān)鍵問題。
人工識別和機器自動識別2 類謠言識別的方法各有其優(yōu)缺點和存在的意義。人工識別的方法由于其準(zhǔn)確性等優(yōu)點有著不可替代的作用,但應(yīng)該提出更為有效、科學(xué)的方法來促進發(fā)揮其作用?;跈C器學(xué)習(xí)的謠言識別技術(shù)如何取舍相關(guān)特征用以表征數(shù)據(jù)是謠言識別成效的關(guān)鍵。目前多采用支持向量機(SVM)模型,在特征選取上內(nèi)容特征有著很高的準(zhǔn)確度,但是還應(yīng)關(guān)注這些綜合性特征在不同算法模型甚至不同模型組合中的訓(xùn)練精度,以及模型的泛化能力。基于深度學(xué)習(xí)的謠言識別可以自動習(xí)得相關(guān)數(shù)據(jù)特征,且其學(xué)習(xí)得到的特征比人工標(biāo)注的更加有效,存在很多優(yōu)勢,但較為復(fù)雜,未來亦會有更多在此方面的研究。