吳詩苑,董慶興,宋志君,張 斌
(1. 華中師范大學(xué)信息管理學(xué)院,武漢 430079;2. 武漢大學(xué)新聞與傳播學(xué)院,武漢 430072;3. 武漢大學(xué)大數(shù)據(jù)研究院,武漢 430072;4. 南京大學(xué)信息管理學(xué)院,南京 210023)
在“萬物皆媒”的新媒體時(shí)代,人們在社交媒體上的活動(dòng)不限于接收與傳播信息,同時(shí)也在生產(chǎn)、發(fā)布信息,其中,一些不負(fù)責(zé)任的用戶會(huì)有意無意地散布一些錯(cuò)誤信息[1]。錯(cuò)誤信息的泛濫增加了信息環(huán)境中的“噪音”和“污染”,降低了信息環(huán)境中的信噪比,給信息生態(tài)的平衡、穩(wěn)定和有序造成了嚴(yán)重的威脅[2]。然而,與生產(chǎn)和傳播錯(cuò)誤信息相比,驗(yàn)證一條信息真?zhèn)蔚某杀靖甙?,成本之間的不對稱導(dǎo)致錯(cuò)誤信息在互聯(lián)網(wǎng)上很容易蔓延開來。因此,如何利用已有的技術(shù)和方法在新媒體環(huán)境下低成本、高效率地檢測出錯(cuò)誤信息是學(xué)界和業(yè)界都廣泛關(guān)注的一個(gè)重要議題。圖書情報(bào)領(lǐng)域的學(xué)者已經(jīng)對錯(cuò)誤信息的傳播、演化和模型仿真有了深入的研究[3],近年來開始在錯(cuò)誤信息檢測這一方向上取得突破[4-6]。綜合考慮網(wǎng)絡(luò)環(huán)境、用戶和錯(cuò)誤信息的傳播機(jī)制,學(xué)者們運(yùn)用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法提出了錯(cuò)誤信息甄別、信息危機(jī)預(yù)警和早期檢測等一系列具有實(shí)用價(jià)值的模型,并在測試中取得了不錯(cuò)的效果,給錯(cuò)誤信息的檢測提供了新思路。
所謂錯(cuò)誤信息(misinformation)有狹義和廣義之分,如圖1 所示。狹義的錯(cuò)誤信息是指無意傳播的假的或者不準(zhǔn)確的信息[7]。這類信息的傳播動(dòng)機(jī)不是為了欺騙接收者,可能只是傳播者出于對信息源的信任,這種被信任的信息源通常是傳播者的家人、朋友或社交網(wǎng)絡(luò)上的意見領(lǐng)袖[8]。傳播者通常持分享、關(guān)心或娛樂的動(dòng)機(jī)將潛在的問題或情況告知他們的朋友,以此起到提醒和共鳴的作用[9]。因?yàn)閭鞑フ呤浅鲇诤靡猓?,這類錯(cuò)誤信息通常也被稱作“誠實(shí)的錯(cuò)誤”[10]。與狹義的錯(cuò)誤信息相對應(yīng)的一個(gè)術(shù)語叫“虛假信息(disinformation)”,也就是刻意制造并故意傳播的假的或者不準(zhǔn)確的信息[11-13],這類信息是惡意用戶為了獲得不正當(dāng)利益而故意制造的,專門用來誤導(dǎo)大眾,引起公眾的焦慮情緒[14]。雖然錯(cuò)誤信息和虛假信息都是假的、不準(zhǔn)確的,但它們之間最大的區(qū)別在于主觀意圖——虛假信息是被惡意制造并傳播的,但錯(cuò)誤信息的制造與傳播并非出于惡意[15]。而廣義的錯(cuò)誤信息則是指所有假的、不準(zhǔn)確的或未經(jīng)證實(shí)的信息[16-17]。廣義定義并不區(qū)分傳播者的動(dòng)機(jī),只要信息與真實(shí)情況不符或與現(xiàn)實(shí)證據(jù)沖突都可以被視為錯(cuò)誤信息[18]。因此,在廣義層面上,錯(cuò)誤信息作為一個(gè)總括術(shù)語包含了虛假信息在內(nèi)的謠言、假新聞、陰謀論等所有可能造成嚴(yán)重后果的不實(shí)信息[19]。錯(cuò)誤信息檢測的目的在于找到一種方法來有效地辨別信息內(nèi)容的真假,而對于傳播者的意圖,不論是研究者還是平臺(tái)管理員通常都難以確定。因此,廣義定義在錯(cuò)誤信息檢測研究中更加常用[20]。本文主要關(guān)注散布在社交媒體上的不準(zhǔn)確信息,循例使用錯(cuò)誤信息的廣義定義。
圖1 錯(cuò)誤信息的分類
錯(cuò)誤信息的檢測方法可以從不同的角度劃分成不同的種類。由于錯(cuò)誤信息的產(chǎn)生與傳播不僅限于信息本身,更是一個(gè)牽涉到人和環(huán)境的復(fù)雜事件,因此有必要從一個(gè)整體的框架來梳理當(dāng)前錯(cuò)誤信息的檢測方法。信息生態(tài)學(xué)則提供了在一個(gè)完整的信息生態(tài)中分析信息、信息人、信息環(huán)境三者互相影響、共同演化的視角,如圖2 所示。信息生態(tài)理論指出,信息生態(tài)是由信息、信息人和信息環(huán)境中各種要素和資源共同構(gòu)成的整體[21]。各個(gè)組成部分之間存在強(qiáng)大的相互聯(lián)系和依賴:信息在傳播時(shí),越來越多信息人的參與會(huì)不斷地向信息中加入新內(nèi)容或改變原內(nèi)容,在這個(gè)過程中,信息不僅會(huì)受到信息人的價(jià)值和偏好的影響,還會(huì)受到信息環(huán)境的干擾,使得信息量增減并存并產(chǎn)生價(jià)值變異[22];信息人在受到信息環(huán)境的刺激后通過自身的能動(dòng)性加工發(fā)生了信息的生產(chǎn)、組織、傳遞、消費(fèi)、分解等基本行為,這些行為會(huì)反過來作用于信息環(huán)境[23];信息環(huán)境是一切信息人發(fā)生信息交互行為的場所,信息環(huán)境的改變會(huì)影響信息人的行為和信息傳播的方式[24]。由此可見,信息生態(tài)中每種要素的變化都是系統(tǒng)性的,一個(gè)要素發(fā)生變化就會(huì)影響整個(gè)信息生態(tài)系統(tǒng)[25]。因此,從信息生態(tài)的角度來討論錯(cuò)誤信息檢測可以得到一個(gè)相對完整的分析框架。
圖2 信息生態(tài)基本結(jié)構(gòu)[23]
本文對照信息生態(tài)中的各個(gè)要素,從內(nèi)容、用戶和傳播這三個(gè)角度對錯(cuò)誤信息檢測方法進(jìn)行綜述。具體地,基于內(nèi)容的檢測方法主要從信息內(nèi)容本身入手,直接捕獲信息傳達(dá)的思想和情感,并以此為依據(jù)來進(jìn)行識(shí)別?;谟脩舻臋z測是以信息人在信息生態(tài)中扮演的角色以及信息人的行為為依據(jù)進(jìn)行檢測?;趥鞑サ臋z測則是根據(jù)錯(cuò)誤信息傳播的時(shí)間特征和網(wǎng)絡(luò)分布特征進(jìn)行檢測。這種在信息生態(tài)背景下分析錯(cuò)誤信息檢測問題的論述方式既涵蓋了信息本身,又考慮了信息人與信息環(huán)境之間的交互背景,有助于更加系統(tǒng)、全面地了解各種因素對錯(cuò)誤信息產(chǎn)生的影響,從而更有針對性地梳理當(dāng)前關(guān)于錯(cuò)誤信息檢測方法的研究。
本文把從中國知網(wǎng)、萬方數(shù)據(jù)、Web of Sci‐ence、DBLP (DataBase Systems and Logic Program‐ming)以及Google Scholar 中檢索到的論文作為主要數(shù)據(jù)源。中文論文檢索以“錯(cuò)誤信息/虛假信息/假新聞/陰謀論/謠言”為主要關(guān)鍵詞,分別將這些關(guān)鍵詞與“檢測/識(shí)別”搭配檢索;英文論文檢索以“misinformation/disinformation/false information/fake news/conspiracy/rumor”為主要關(guān)鍵詞,并分別將這些關(guān)鍵詞與“detection/recognition/identification”搭配檢索。檢索時(shí)除了考慮關(guān)鍵詞之外,還考慮了其同義詞、近義詞、相關(guān)詞、下位詞等,不限制檢索的相關(guān)起始時(shí)間,將截止時(shí)間設(shè)定為2021 年3 月3日,綜合考慮主題相關(guān)性后共得到1012 篇文獻(xiàn)?;趦?nèi)容、基于用戶和基于傳播的三種檢測方法下的相關(guān)論文數(shù)量對比如圖3 所示。由于一些論文同時(shí)使用了多種檢測方法,因此三種檢測方法的論文數(shù)量總和大于1012 篇??傮w而言,在文獻(xiàn)數(shù)量方面,基于內(nèi)容檢測的文獻(xiàn)數(shù)量要遠(yuǎn)高于另外兩種檢測方法的文獻(xiàn)數(shù)量,這可能是因?yàn)槲谋緝?nèi)容是最直觀的,內(nèi)容特征是最容易獲取和處理的。
在社交媒體上識(shí)別錯(cuò)誤信息的一個(gè)最直接的方法是檢測包括實(shí)體和非實(shí)體在內(nèi)的信息內(nèi)容[26]。其中,實(shí)體內(nèi)容是信息的載體和形式,包括標(biāo)題、正文、圖像等。由于實(shí)體內(nèi)容具有直觀性,它是判斷信息真實(shí)性的重要依據(jù),檢測者可以根據(jù)檢測需要對其進(jìn)行一系列的篩選、提取、編碼等操作[27]。而非實(shí)體內(nèi)容則是作者表達(dá)的觀點(diǎn)、態(tài)度和情感等隱含信息,它是判斷信息真實(shí)性的主要著力點(diǎn)[28]。錯(cuò)誤信息大多是為了誤導(dǎo)公眾和引起人們的注意而編造的,往往與真實(shí)信息有著不同的行文模式[29]。比如,內(nèi)容真實(shí)的新聞往往含有更多的鏈接且文本長度通常大于假新聞[30];假新聞中通常含有更多的否定詞、消極詞和夸張表達(dá),而內(nèi)容真實(shí)的新聞中則有更多的認(rèn)知行為詞和推斷行為詞[31]。
圖3 三種檢測方法下的論文數(shù)量對比
根據(jù)這些特點(diǎn),Castillo 等[29]利用統(tǒng)計(jì)特征,如標(biāo)點(diǎn)符號(hào)、表情、超鏈接等出現(xiàn)的次數(shù),使用決策樹模型來簡單評估推文的真實(shí)性??紤]到假新聞和垃圾郵件在行文模式上的相似性,使用垃圾郵件分類技術(shù)(如樸素貝葉斯分類器)也可有效檢測假新聞[32]。隨著語言特征提取技術(shù)的發(fā)展,更多精準(zhǔn)、高效的提取技術(shù)被有效地利用于該領(lǐng)域[33]。例如,Rashkin 等[34]使用一種復(fù)雜的語法信息與心理語言特 征 工 具LIWC (linguistic inquiry and word count)設(shè)計(jì)了多種語言特征,結(jié)合長短期記憶網(wǎng)絡(luò)(long short term memory,LSTM)取得了不錯(cuò)的檢測效果。Ahmed 等[35]通過TF-IDF 提取新聞文本特征并使用支持向量機(jī)(support vector machine,SVM)對社交媒體上的新聞進(jìn)行分類,準(zhǔn)確率高達(dá)92%。但是,上述模型過于依賴訓(xùn)練數(shù)據(jù)中的先驗(yàn)分布,對新話題和新事件的應(yīng)用效果不理想。針對該問題,學(xué)界開始研究更具有話題遷移性的檢測方法[36]。例如,將假新聞檢測視為一種鏈接預(yù)測任務(wù),或是通過分析知識(shí)圖上相關(guān)概念之間的路徑長度來評估陳述的真實(shí)性,兩種方法都可在新話題和新事件上正常運(yùn)行[37-38]。Guacho 等[39]則通過半監(jiān)督方法,在構(gòu)建的K-NN(k-nearest neighbor)圖上運(yùn)用FaBP(fast be‐lief propagation)傳播已知標(biāo)簽以確定未知標(biāo)簽,比完全監(jiān)督模型實(shí)現(xiàn)了更高的檢測精度。
伴隨著深度學(xué)習(xí)的熱潮,深度學(xué)習(xí)強(qiáng)大的學(xué)習(xí)能力和特征表示能力引起了廣泛的關(guān)注,逐漸被應(yīng)用到錯(cuò)誤信息檢測中。Ma 等[40]首次使用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)對特征進(jìn)行學(xué)習(xí),在Twitter 和Weibo 數(shù)據(jù)集上均達(dá)到80%以上的準(zhǔn)確率。樓靚[41]改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)得到TextCNN 模型,該模型可結(jié)合字粒度的文本語義向量和句粒度的文本統(tǒng)計(jì)特征,提升了模型的識(shí)別精度。針對傳統(tǒng)檢測模型需要大量統(tǒng)計(jì)特征以及難以實(shí)現(xiàn)及時(shí)檢測的問題,李悅晨等[5]使用BERT(bidirectional encoder represen‐tation from transformers)對微博原文進(jìn)行向量表示,然后將獲取的語義特征輸入RCNN (region-CNN)模型中,得到了較高的檢測速度和準(zhǔn)確率。深度學(xué)習(xí)模型在錯(cuò)誤信息自動(dòng)檢測領(lǐng)域中的應(yīng)用解決了傳統(tǒng)特征工程方法的不足,提高了檢測結(jié)果的可信度。
然而,上述檢測方法都是針對文本的檢測,無法識(shí)別由圖像構(gòu)成的信息。在同一則消息中,圖像和文本作為不同模態(tài)的信息聯(lián)系緊密,同時(shí)使用不同模態(tài)的數(shù)據(jù)可以提高數(shù)據(jù)的利用率[42],由此產(chǎn)生了基于多模態(tài)數(shù)據(jù)的錯(cuò)誤信息檢測方法[43-46]。例如,將與事件相關(guān)的圖像特征和文本特征進(jìn)行融合檢測[47];或是將圖像映射為語義標(biāo)簽,通過計(jì)算圖像與文本的語義一致性來檢測圖文不匹配類型的謠言[48]?;诙嗄B(tài)檢測的思路,劉金碩等[49]通過提取文本、圖像和圖像內(nèi)嵌文本特征設(shè)計(jì)出多模態(tài)網(wǎng)絡(luò)謠言檢測模型MRSD,與基準(zhǔn)模型相比,該模型在準(zhǔn)確率和F1 值上都有顯著提高。然而,僅實(shí)現(xiàn)特征融合是不夠的,模型應(yīng)更具有泛化能力,可以學(xué)習(xí)與事件無關(guān)的特征。Wang 等[50]提出的基于對抗網(wǎng)絡(luò)的端到端模型將VGG19 (visual geometry group-19)提取的視覺特征和TextCNN 提取的文本特征相融合,可在判斷新聞?wù)鎸?shí)性的同時(shí)判斷新聞來自哪一類事件。為了提高模型檢測的準(zhǔn)確率,Khattar等[51]將文本、視覺的拼接特征編碼為一個(gè)中間表達(dá),利用重構(gòu)損失保證編碼后的中間表達(dá)可以解碼回原狀態(tài),并用該中間表達(dá)的向量做虛假新聞檢測。
綜上可知,基于內(nèi)容的檢測主要是借助SVM、決策樹等判別模型以及CNN、RNN 等神經(jīng)網(wǎng)絡(luò)模型從語法和語義層面展開的[52]。與純文本的錯(cuò)誤信息相比,帶有多媒體內(nèi)容的錯(cuò)誤信息具有更快的傳播速度[53]。由此提出的多模態(tài)錯(cuò)誤信息檢測方法在提高數(shù)據(jù)利用率的同時(shí)還提高了模型的魯棒性。此外,即使其中一種模態(tài)數(shù)據(jù)缺失,多模態(tài)檢測方法仍然可以運(yùn)行。因此,在未來的研究中應(yīng)當(dāng)更加重視對多模態(tài)信息的利用并不斷提高多模態(tài)特征的提取效率和準(zhǔn)確率,以更有效地檢測錯(cuò)誤信息。
社交媒體的開放性讓許多用戶從信息的被動(dòng)接收者變成內(nèi)容的主動(dòng)貢獻(xiàn)者。如果將用戶理解為數(shù)據(jù)感知器,那么社交媒體就是由用戶所見、所想、所聽、所說組成的[54]。因此,利用用戶畫像抽取用戶特征有利于提高錯(cuò)誤信息檢測的準(zhǔn)確率。從不同的粒度看,用戶特征可以分為兩大類:個(gè)體特征和群體特征[55]。針對錯(cuò)誤信息檢測這一特定任務(wù)來說,個(gè)體特征一般是指從單個(gè)用戶的各項(xiàng)統(tǒng)計(jì)指標(biāo)中抽取的用來分析用戶可信度的一系列特征,包括用戶的ID、性別、年齡、粉絲數(shù)、注冊時(shí)間、地理位置等[56];群體特征則是指在信息傳播的過程中具有相似屬性的用戶所擁有的整體特征,通常由個(gè)體特征聚合而來[57],如平均粉絲數(shù)、認(rèn)證用戶的比例等,群體特征的基本假設(shè)是傳播錯(cuò)誤信息的群體和傳播真實(shí)信息的群體具有不同的特點(diǎn)[31],這些特點(diǎn)主要體現(xiàn)在用戶簡檔、用戶可信度、用戶行為和情感立場四個(gè)方面[26]。
以用戶簡檔作為輸入數(shù)據(jù)的一部分,Wang[58]使用混合CNN 模型取得了較好的檢測結(jié)果。Long等[59]將用戶簡檔和帶有注意力機(jī)制的LSTM 模型結(jié)合起來,與當(dāng)時(shí)最先進(jìn)的模型相比,準(zhǔn)確率提高了14.5%。從用戶行為的角度出發(fā),Liang 等[60]將用戶行為視為隱藏線索,以指示誰可能是謠言制造者。Yang 等[61]則將新聞可信度和用戶信譽(yù)作為潛在變量,從用戶的社會(huì)參與中提取用戶對新聞可信度的立場,以此為依據(jù)來檢測假新聞。此外,融合文本特征和用戶特征的方法備受關(guān)注。Zhang 等[62]通過融合文本流行度、文本情感極性、用戶影響力和博文轉(zhuǎn)發(fā)率等特征來構(gòu)造微博謠言檢測器。吳樹芳等[63]提出了融合微博用戶交互行為和博文內(nèi)容的用戶可信度評估算法HITS-UC(hyperlink-induced top‐ic search - user's credibility),并驗(yàn)證了算法的可行性和有效性。按照信息生態(tài)中信息、信息人、信息環(huán)境的劃分,Shu 等[64]設(shè)計(jì)的半監(jiān)督多特征融合模型結(jié)合了文本特征、相關(guān)用戶特征和媒體特征來檢測假新聞,與其他同類型半監(jiān)督模型相比,該模型獲得了更高的分類準(zhǔn)確率?;谏疃壬窠?jīng)網(wǎng)絡(luò),Xu等[65]通過RNN 對文本編碼,并通過點(diǎn)贊數(shù)進(jìn)行回復(fù)文本過濾,取得了不錯(cuò)的分類效果。柳先覺等[66]提出了結(jié)合自注意力和TextCNN 的二級編碼和個(gè)人資料信譽(yù)編碼的謠言檢測方法,發(fā)現(xiàn)文本內(nèi)容結(jié)合個(gè)人資料和微博統(tǒng)計(jì)數(shù)據(jù)構(gòu)成的特征取得了非常好的檢測結(jié)果。受此啟發(fā),尹鵬博等[67]通過對用戶歷史行為特征進(jìn)行分析并結(jié)合用戶屬性和微博文本,使用C-LSTM(convolution - long short-term memory)深度學(xué)習(xí)模型實(shí)現(xiàn)了微博謠言的早期檢測。由于該方法不使用評論轉(zhuǎn)發(fā)信息,能在謠言產(chǎn)生之初將其識(shí)別出來,因此,可以比現(xiàn)有的方法在更“早”的階段實(shí)現(xiàn)檢測。
上述方法都是基于真實(shí)用戶的檢測,但是社交媒體上還充斥著大量的電子人和社交機(jī)器人,其中一些機(jī)器人是專門用來傳播謠言、陰謀論等網(wǎng)絡(luò)噪音的[68]。從發(fā)布的內(nèi)容來看,與人類用戶相比,社交機(jī)器人產(chǎn)生的推文缺乏原創(chuàng)性,轉(zhuǎn)發(fā)的推文占比很高,而且推文中含有更多的外部鏈接[69];從發(fā)文時(shí)間來看,社交機(jī)器人發(fā)文時(shí)間不規(guī)律,短時(shí)間內(nèi)發(fā)文數(shù)量多,但長時(shí)間來看不活躍[70]。根據(jù)這些特征,Khaund 等[71]提出了一種基于圖的檢測方法,該方法的基本假設(shè)是社交機(jī)器人也有集群的特點(diǎn),他們彼此交互緊密而與人類交互有限,可利用這個(gè)特點(diǎn)檢測出網(wǎng)絡(luò)上的社交機(jī)器人。
此外,近年來一些基于眾包和群體智慧的檢測方法也不斷涌現(xiàn)。Wang 等[72]設(shè)計(jì)了一個(gè)可擴(kuò)展的檢測系統(tǒng)來識(shí)別惡意用戶,該系統(tǒng)的眾包層標(biāo)注經(jīng)過過濾層過濾得到的可疑用戶,在合理的成本下實(shí)現(xiàn)了準(zhǔn)確性和可擴(kuò)展性。Wu 等[73]從歷史眾包數(shù)據(jù)中獲得用戶信息,通過建立稀疏表示模型選擇共享特征來訓(xùn)練事件無關(guān)分類器。Cai 等[74]則從群眾響應(yīng)的角度出發(fā)抽取了轉(zhuǎn)發(fā)和評論中的文本特征,使用分層聚類算法來發(fā)現(xiàn)樣本中更多的謠言。為應(yīng)對傳統(tǒng)謠言檢測中因人力資源不足而帶來的檢測周期過長的問題,楊文太等[75]利用群眾智慧挖掘和度量待檢測信息和微博用戶的領(lǐng)域相關(guān)性,把待檢測謠言推送給領(lǐng)域最相關(guān)的微博用戶(即領(lǐng)域?qū)<遥┳餍畔⒄鎸?shí)性甄別;該方法不僅縮短了檢測時(shí)間,還能夠較好地應(yīng)用于實(shí)際的微博謠言檢測。為實(shí)現(xiàn)假新聞檢測的自動(dòng)化,Qian 等[76]提出了一種生成式條件變分自動(dòng)編碼器,該編碼器可以從歷史用戶對真假新聞的評論中獲取用戶響應(yīng)模式,進(jìn)而在假新聞傳播的早期階段,當(dāng)用戶與文章的交互數(shù)據(jù)不可用時(shí),利用群體智慧來生成對新文章的響應(yīng),以提高模型的檢測能力。
總體來說,基于用戶的檢測方法主要是尋找在社交媒體上高度活躍、帶有明顯傾向性的惡意賬號(hào),這些惡意賬號(hào)既包括真實(shí)用戶,也包括偽裝成真實(shí)用戶的社交機(jī)器人,成功識(shí)別這類用戶有助于提高錯(cuò)誤信息的檢測效率,降低錯(cuò)誤信息的干預(yù)成本。
網(wǎng)絡(luò)是錯(cuò)誤信息滋生的溫床和傳播的渠道,了解網(wǎng)絡(luò)特征有助于從傳播的角度對錯(cuò)誤信息進(jìn)行檢測。網(wǎng)絡(luò)特征是通過在發(fā)布相關(guān)帖子的用戶之間構(gòu)建特定的網(wǎng)絡(luò)來提取的[55],可分為分布特征和時(shí)間特征。分布特征有助于捕捉網(wǎng)絡(luò)信息的獨(dú)特傳播模式,可以通過構(gòu)建一棵傳播樹來描述[77]。例如,基于核函數(shù)的傳播樹檢測模型對微博帖子的傳播過程進(jìn)行建模,通過評估傳播樹結(jié)構(gòu)之間的相似性來區(qū)分不同類型的謠言[78-79]。時(shí)間特征則是以時(shí)間序列的方式描述網(wǎng)絡(luò)信息各項(xiàng)指標(biāo)的變化情況,是可以用于檢測可疑發(fā)布行為的良好屬性[80]。常用的時(shí)間特征包括兩個(gè)帖子發(fā)布的時(shí)間間隔、某個(gè)帳戶的發(fā)布、回復(fù)和評論的頻率、在固定時(shí)間內(nèi)帖子被重新發(fā)布和轉(zhuǎn)發(fā)的頻率等[81]。研究發(fā)現(xiàn),未經(jīng)證實(shí)的新聞極有可能被重新報(bào)道,隨著時(shí)間的推移會(huì)出現(xiàn)周期性的討論高峰,而已經(jīng)證實(shí)的新聞往往只有一個(gè)顯著的高峰[82]。對比真新聞的傳播過程,假新聞?wù)w上要傳播得更遠(yuǎn)、更快、更廣,因?yàn)橄嗤瑫r(shí)間里假新聞的級聯(lián)深度更深,最大寬度更大,且假新聞級聯(lián)達(dá)到任何深度和寬度所需的時(shí)間均小于真新聞,這一點(diǎn)在政治類假新聞上表現(xiàn)得尤為明顯[83]。
基于上述特點(diǎn),Kwon 等[31]提出時(shí)序、結(jié)構(gòu)、語言三類特征,將謠言和非謠言的數(shù)目-時(shí)間圖與傳播網(wǎng)絡(luò)圖之間的差異作為檢測特征,在隨機(jī)森林算法上得到了92%的精確率。Ma 等[40]將事件的數(shù)據(jù)流根據(jù)時(shí)間算法進(jìn)行切片后得到的數(shù)據(jù)通過RNN進(jìn)行學(xué)習(xí),并將學(xué)習(xí)結(jié)果與傳統(tǒng)的謠言分類結(jié)果進(jìn)行比較,發(fā)現(xiàn)使用神經(jīng)網(wǎng)絡(luò)可以大大提高謠言檢測的準(zhǔn)確性。與上述兩種方法類似,任文靜等[84]將帖子的評論信息按照時(shí)間節(jié)點(diǎn)展開后利用注意力機(jī)制衡量每個(gè)時(shí)間節(jié)點(diǎn)對最終語義表示的重要程度,發(fā)現(xiàn)在加入評論信息和注意力機(jī)制后,準(zhǔn)確率可以達(dá)到92.66%。
隨著研究的深入,特征組合檢測的方式漸漸成為主流。最常見的做法是從總體數(shù)據(jù)中挖掘文本、用戶、傳播結(jié)構(gòu)特征的動(dòng)態(tài)時(shí)序模型以捕捉這些特征隨時(shí)間的變化[85]。毛二松等[86]據(jù)此提出了微博情感傾向性特征、意見領(lǐng)袖影響力特征、轉(zhuǎn)發(fā)數(shù)差值和評論數(shù)差值等特征,并使用集成分類器來檢測微博上的謠言;結(jié)果表明,分類特征和集成分類器都有效地提高了謠言檢測的準(zhǔn)確率。針對假新聞檢測模型的檢測性能與泛化性能無法兼顧的問題,何韓森等[87]提出了一種基于特征聚合的假新聞檢測器CCNN(center cluster neural network),與傳統(tǒng)的SVM、樸素貝葉斯和隨機(jī)森林模型相比,該模型的整體性能有明顯優(yōu)勢。劉勘等[88]則提出了一種基于深度遷移網(wǎng)絡(luò)的跨領(lǐng)域謠言檢測模型,在源領(lǐng)域擁有標(biāo)注數(shù)據(jù)、目標(biāo)領(lǐng)域無標(biāo)注數(shù)據(jù)的情況下,通過雙層雙向LSTM實(shí)現(xiàn)對文本特征的深度提取,并與用戶特征及傳播特征相融合,結(jié)果證明,深度遷移網(wǎng)絡(luò)能夠有效遷移源領(lǐng)域標(biāo)注數(shù)據(jù),幫助目標(biāo)領(lǐng)域構(gòu)建謠言檢測模型,顯著提升目標(biāo)領(lǐng)域謠言的檢測準(zhǔn)確率。
此外,一些學(xué)者根據(jù)信息傳播和傳染病傳播之間的相似性,把SI、SIS 和SIR(S=susceptible,I=in‐fectious,R=recovered) 等傳染病模型運(yùn)用到謠言傳播模型的構(gòu)建中[89]。其中,Zanette[90]使用SI 模型模擬了小世界網(wǎng)絡(luò)中謠言傳播的動(dòng)態(tài)過程,以定量的方法證實(shí)網(wǎng)絡(luò)謠言的傳播過程可被SI 模型解釋。Nekovee 等[91]通過SIR 模型和馬爾可夫鏈建立了平均場方程來研究網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中的謠言傳播過程;陳一新等[92]在SIR 模型的基礎(chǔ)上加入“辟謠者”狀態(tài)構(gòu)建了基于社交網(wǎng)絡(luò)中節(jié)點(diǎn)交互作用 的SIDR (susceptible infected denied removal) 模型,利用Beam Search 搜索算法在謠言傳播初期Top 5 節(jié)點(diǎn)的識(shí)別上達(dá)到了83%的準(zhǔn)確率。
錯(cuò)誤信息檢測的最終目的是及時(shí)找到并有效阻斷錯(cuò)誤信息的傳播,防止其可能對社會(huì)造成的不良影響。上述基于傳播的檢測方法可以滿足該需求,但是,由于許多新聞在發(fā)布的時(shí)候只有有限的,甚至根本沒有社會(huì)語境信息,導(dǎo)致這類方法在沒有良好輸入的情況下準(zhǔn)確率很難得到保證,優(yōu)勢難以發(fā)揮。
檢測出社交媒體中的錯(cuò)誤信息是凈化網(wǎng)絡(luò)環(huán)境、維護(hù)信息生態(tài)平衡的關(guān)鍵。鑒于信息生態(tài)是由信息、信息人、信息環(huán)境組成的一個(gè)密不可分的整體,本文在整理和分析相關(guān)文獻(xiàn)后,對照信息生態(tài)的三個(gè)組成要素將檢測方法從內(nèi)容、用戶和傳播三個(gè)方面進(jìn)行了闡述,如圖4 所示。從當(dāng)前的研究趨勢看,在檢測方法上,研究者們從早期的人工檢測、實(shí)證研究向人工智能和機(jī)器學(xué)習(xí)轉(zhuǎn)變;訓(xùn)練數(shù)據(jù)正在從靜態(tài)、滯后、小規(guī)模數(shù)據(jù)向動(dòng)態(tài)、早期、大規(guī)模數(shù)據(jù)轉(zhuǎn)變,但是這種轉(zhuǎn)變對模型的遷移能力、特征提取技術(shù)和數(shù)據(jù)集規(guī)模提出了較高的要求。尤其是早期檢測,相關(guān)數(shù)據(jù)的稀缺、用戶數(shù)據(jù)的提取困難導(dǎo)致效果不夠理想。為了充分滿足錯(cuò)誤信息檢測的需求,需要對各項(xiàng)檢測特征進(jìn)行深度挖掘,對檢測方法進(jìn)行進(jìn)一步探索和優(yōu)化,從而設(shè)計(jì)出更加準(zhǔn)確、高效、可解釋、可擴(kuò)展的模型。
圖4 基于信息生態(tài)理論的錯(cuò)誤信息檢測框架
首先,當(dāng)前的錯(cuò)誤信息檢測主要依賴機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)[93-94],并由大規(guī)模文本數(shù)據(jù)集訓(xùn)練而來。而在某一特定的錯(cuò)誤信息傳播過程中,與其相關(guān)的數(shù)據(jù)是隨著事態(tài)發(fā)展而增多的,傳統(tǒng)模型只有在積累到一定量的數(shù)據(jù)以后才能進(jìn)行有效訓(xùn)練,這就導(dǎo)致檢測方法的開發(fā)滯后于檢測需求。因此,在數(shù)據(jù)匱乏的情況下完成早期檢測是一個(gè)亟待解決的任務(wù)。其次,無論是為了更有效地評價(jià)錯(cuò)誤信息檢測模型還是提升模型的遷移能力,當(dāng)前都需要構(gòu)建規(guī)模更大、更全面的數(shù)據(jù)集。此外,通過分析用戶的簡檔和歷史行為來提取用戶畫像是檢測錯(cuò)誤信息的重要手段。但是,不少惡意用戶會(huì)刻意偽裝成正常用戶,且用戶特征一般具有無序性和復(fù)雜性,這給用戶信息挖掘帶來了困難。面對當(dāng)前業(yè)界實(shí)踐以及科學(xué)研究中的具體難題,錯(cuò)誤信息檢測領(lǐng)域存在以下幾個(gè)方面的挑戰(zhàn)。
1)錯(cuò)誤信息早期檢測
錯(cuò)誤信息早期檢測是一個(gè)極具社會(huì)現(xiàn)實(shí)意義的研究方向。從信息生態(tài)的角度看,在錯(cuò)誤信息傳播早期,信息大多分布在位于信息生態(tài)鏈上游的生產(chǎn)者以及與這些生產(chǎn)者聯(lián)系較為密切的小部分傳播者之間。如果能在錯(cuò)誤信息到達(dá)中下游之前將其識(shí)別出來并加以控制,那么會(huì)大幅降低錯(cuò)誤信息的治理成本和可能產(chǎn)生的負(fù)面影響?,F(xiàn)有的檢測模型在特征提取方面已表現(xiàn)得較為出色,但仍需要大量特征信息作為輸入。在錯(cuò)誤信息傳播的早期,文本信息、用戶評論、傳播信息等相關(guān)特征非常少,并不能滿足基于多特征檢測模型的需要,即早期檢測存在“冷啟動(dòng)”問題。此外,現(xiàn)有的檢測方法更傾向于學(xué)習(xí)特定事件的特征,而這些特征在不同的事件之間往往不能遷移。因此,基于這種不可遷移性,對暫未發(fā)生的事件目前還很難做到有效的早期檢測。
2)大規(guī)模基準(zhǔn)數(shù)據(jù)集構(gòu)建
錯(cuò)誤信息檢測模型的開發(fā)和測評都需要依賴數(shù)據(jù)輸入。雖然當(dāng)下已有許多公開的數(shù)據(jù)集可供開發(fā)和檢驗(yàn)錯(cuò)誤信息檢測模型,但這些數(shù)據(jù)集都存在一定程度上的不足,如表1 所示。
表1 現(xiàn)有的主要公開數(shù)據(jù)集
隨著相關(guān)研究的深入,學(xué)界需要建立更全面的大規(guī)?;鶞?zhǔn)數(shù)據(jù)集以便更好地構(gòu)建和測試錯(cuò)誤信息的檢測模型。首先,就數(shù)據(jù)獲取方法來說,目前錯(cuò)誤信息數(shù)據(jù)的來源主要有社交媒體平臺(tái)提供的API(application programming interface)、通用爬蟲、第三方公開數(shù)據(jù)集。然而,由于社交媒體平臺(tái)對本平臺(tái)的數(shù)據(jù)都有相應(yīng)的保護(hù)策略,通過平臺(tái)API 獲取數(shù)據(jù)在爬取速度和數(shù)量上都受到嚴(yán)格控制,無法滿足檢測的需求。基于爬蟲的方式不僅技術(shù)復(fù)雜,還可能面臨法律風(fēng)險(xiǎn)。第三方公開數(shù)據(jù)雖然容易獲得,但這些數(shù)據(jù)是由數(shù)據(jù)提供者根據(jù)自己的需要收集后公開的,顯然無法滿足所有用戶的需求[95]。上述三種方式都是以研究人員為中心的數(shù)據(jù)獲取。為了提高錯(cuò)誤信息檢測問題的研究效率,將研究者從瑣碎繁重的數(shù)據(jù)收集工作中解放出來,政府、社交平臺(tái)與學(xué)術(shù)界應(yīng)當(dāng)協(xié)同合作,共同構(gòu)建大規(guī)模數(shù)據(jù)集,這可以讓研究者把更多的精力放在檢測方法的探索上。其次,就數(shù)據(jù)標(biāo)記來說,許多數(shù)據(jù)集通常是通過手工標(biāo)記的,這種標(biāo)記方式成本高昂且需要從業(yè)人員具有豐富經(jīng)驗(yàn)。因此,如何準(zhǔn)確、高效地構(gòu)建大規(guī)模數(shù)據(jù)集是一大挑戰(zhàn)。此外,錯(cuò)誤信息的產(chǎn)生往往來源于最新事件,新事件的特點(diǎn)就是缺乏確鑿的證據(jù),現(xiàn)有的數(shù)據(jù)庫無法對這些新事件進(jìn)行及時(shí)的檢驗(yàn)與核實(shí),導(dǎo)致無法獲取完全有效的特征并影響模型建立。因此,建立一個(gè)全面、大規(guī)模、實(shí)時(shí)更新的基準(zhǔn)數(shù)據(jù)集對推動(dòng)錯(cuò)誤信息檢測方法的開發(fā)與測試有著巨大的幫助。
3)惡意用戶識(shí)別
錯(cuò)誤信息泛濫與網(wǎng)絡(luò)上充斥著大量的惡意賬戶密切相關(guān)。水軍、社交機(jī)器人等在社交媒體上開展輿論引導(dǎo)、惡意評論、誹謗和意識(shí)形態(tài)滲透等一系列活動(dòng),這一小部分惡意用戶是網(wǎng)絡(luò)中大部分錯(cuò)誤信息的貢獻(xiàn)者,他們的存在是網(wǎng)絡(luò)環(huán)境和信息生態(tài)面臨的最大威脅,較早識(shí)別出惡意用戶對錯(cuò)誤信息檢測具有重要意義。但是,由于用戶是否存在惡意很難有一個(gè)明確的判斷標(biāo)準(zhǔn),這類惡意用戶不僅特征復(fù)雜,還會(huì)偽裝成正常用戶以避免被發(fā)現(xiàn)?,F(xiàn)有的許多研究只從單一的角度提取社交機(jī)器人的特征,并不能得到相對詳細(xì)的惡意用戶的畫像。所以如何全面、有效地捕獲惡意用戶的特征仍是一個(gè)有待解決的問題。此外,不同的社交媒體平臺(tái)在語言、功能、特性方面存在差異,適用于某一社交媒體平臺(tái)的惡意用戶識(shí)別技術(shù)不一定適用于另一個(gè)社交媒體平臺(tái)。因此,這種難移植性對基于用戶信息的錯(cuò)誤信息檢測方法提出了很高的要求。