金志威 曹娟 王博 王蕊 張勇東
摘要 以微博為代表的社會媒體的蓬勃發(fā)展在加速信息交流的同時,也促使虛假謠言信息迅速在社會網(wǎng)絡(luò)上傳播,造成嚴(yán)重的后果.自動謠言檢測問題受到了國內(nèi)外學(xué)術(shù)界、產(chǎn)業(yè)界的廣泛關(guān)注.圍繞社會多媒體謠言檢測這一問題,本文總結(jié)了融合多模態(tài)特征的謠言檢測相關(guān)技術(shù).首先從基本概念出發(fā),闡述了謠言的定義和社會多媒體的特點,給出了社會多媒體謠言檢測問題的定義.針對謠言檢測面臨的多模態(tài)特征抽取和模型構(gòu)建兩大難點,分別總結(jié)和歸納了各種類型的特征及其提取方法和不同的機器學(xué)習(xí)檢測模型.這些特征和算法是檢測謠言的基本手段,也是接下來研究的基礎(chǔ),可為進一步謠言檢測的研究提供參考.關(guān)鍵詞謠言檢測;社會媒體計算;多媒體計算;深度學(xué)習(xí);多模態(tài)特征融合;新聞?wù)J證
中圖分類號 TP393.092
文獻標(biāo)志碼 A
0 引言
隨著Web2.0時代的到來,各種社會媒體應(yīng)運而生.以微博為代表的社會媒體通過開放平臺鼓勵用戶自己生產(chǎn)內(nèi)容(User Generated Content,UGC),并通過社交網(wǎng)絡(luò)進行發(fā)布、分享、交流和傳播.這種基于社會媒體發(fā)布、分享多媒體內(nèi)容的社交行為方式成為人們生活中不可或缺的一部分,對社會產(chǎn)生了巨大的影響.
社會媒體平臺以其開發(fā)與便捷性,極大地促進了新聞信息的快速交流,成為當(dāng)今社會人們獲取信息資源的重要手段.根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)2017年1月發(fā)布的第39次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》[1]表明,截止2016年12月,我國網(wǎng)民規(guī)模已達7.31億,其中84%的網(wǎng)民通過互聯(lián)網(wǎng)獲取新聞.對媒體工作者而言,社會媒體也是重要的新聞線索來源:根據(jù)2011年的統(tǒng)計數(shù)據(jù),超過80%的社會重大新聞第一手信息來源于微博[2].
然而,社交平臺在加速信息公開的同時,也帶來了謠言等虛假信息的泛濫.由于普通用戶的媒介素養(yǎng)參差不齊,造成UGC新聞普遍存在著虛假、差錯、欠準(zhǔn)確等問題.在缺乏有效的新聞?wù)J證技術(shù)以及“搶新聞”、“追熱點”的心態(tài)下,大量公眾人物和主流媒體無意間推轉(zhuǎn)相關(guān)虛假新聞,成為很多網(wǎng)絡(luò)謠言和虛假報道的推波助瀾者,嚴(yán)重?fù)p害了他們的媒體公信力.據(jù)《中國新媒體發(fā)展報告( 2013 )》[3]統(tǒng)計的2012 年的 100 件微博熱點輿情案例中,有1/3的熱點事件出現(xiàn)了謠言.國外的網(wǎng)絡(luò)謠言問題同樣不容樂觀.在2016年美國總統(tǒng)大選期間,大量謠言在Facebook、Twitter上廣泛傳播,甚至被指控嚴(yán)重影響了美國大選結(jié)果[4].
網(wǎng)絡(luò)謠言的廣泛傳播會侵害到個體和社會的發(fā)展,對個體情感、社會經(jīng)濟、政治穩(wěn)定發(fā)展方面產(chǎn)生嚴(yán)重的負(fù)面影響.2013 年的10大假新聞之一“深圳90 后女孩當(dāng)街給殘疾乞丐喂飯感動路人”,嚴(yán)重傷害了公眾的感情;2011年響水縣“爆炸謠言”引發(fā)十幾萬人大逃亡,4人遇難,嚴(yán)重危害社會穩(wěn)定;2013年1條據(jù)稱來自美聯(lián)社的Twitter消息說,“白宮發(fā)生2起爆炸,美國總統(tǒng)奧巴馬受傷”,導(dǎo)致美國股指暴跌,短時間內(nèi)市值蒸發(fā)了2 000億美元,產(chǎn)生巨大經(jīng)濟損失.
當(dāng)前,世界各國紛紛采取措施推動互聯(lián)網(wǎng)謠言檢測的技術(shù)研究與應(yīng)用.在美國,2017年初,企業(yè)代表Facebook在該平臺上線了一個“虛假標(biāo)簽”模塊供用戶手動舉報,若有多名用戶舉報則該條消息會自動顯示“虛假新聞”的標(biāo)簽予以提醒.在英國,媒體機構(gòu)代表BBC將要成立核實組,重點打擊網(wǎng)絡(luò)媒體上的虛構(gòu)性及有誤導(dǎo)性的新聞,此計劃已獲得2.9億英鎊的項目支持.歐盟也于2014年初分別成立了2個叫做“PHEME”和“REVEAL”的網(wǎng)絡(luò)謠言自動檢測計劃,前者由英國謝菲爾德大學(xué)帶領(lǐng)15個研究機構(gòu)共同承擔(dān),主要側(cè)重網(wǎng)絡(luò)內(nèi)容可信度計算的理論研究;后者由多家企業(yè)聯(lián)合承擔(dān),主要側(cè)重網(wǎng)絡(luò)謠言檢測的產(chǎn)業(yè)化.在中國,受中宣部的委托,2013年底,新華社聯(lián)合中國科學(xué)院計算機研究所研發(fā)了一個互聯(lián)網(wǎng)新聞?wù)J證系統(tǒng)[5].
由于社會媒體上的信息數(shù)量巨大、非結(jié)構(gòu)性、不完備、噪聲多等特點,自動化地檢測謠言仍然面臨著許多挑戰(zhàn).首先,無法僅僅基于文本內(nèi)容來有效檢測謠言.因為謠言多是蓄意捏造出來誤導(dǎo)大眾的報道,通常手段是將虛假信息糅雜在部分真實情況中,很難僅根據(jù)內(nèi)容判定其真假;同時,謠言在話題選擇、語言風(fēng)格等方面千變?nèi)f化,這導(dǎo)致了傳統(tǒng)的基于人工特征的、針對某一類特定數(shù)據(jù)的文本分析算法無法有效檢測出社會媒體謠言,必須借助社交網(wǎng)絡(luò)上的用戶參與、內(nèi)容傳播鏈路、多媒體內(nèi)容等多種輔助信息來提高謠言檢測準(zhǔn)確率.而這又帶來謠言檢測的第2大挑戰(zhàn):如何有效地利用這些大規(guī)模、異構(gòu)的、跨模態(tài)的輔助信息來檢測謠言.
針對社會媒體謠言檢測的挑戰(zhàn)和發(fā)展,在厘清社會媒體謠言檢測相關(guān)概念后,本文重點介紹了基于多模態(tài)融合的方法檢測謠言的關(guān)鍵技術(shù),特別是從特征抽取和模型構(gòu)建2個方面展開闡述,對謠言檢測問題中的多模態(tài)特征以及特征融合方法進行闡述.
1 社會多媒體謠言檢測概念
相對于各界對謠言檢測問題的關(guān)注度而言,社會多媒體謠言檢測技術(shù)在研究領(lǐng)域的發(fā)展才剛剛起步,且出現(xiàn)了一些理解上的偏差.如一些研究團隊通過媒體報道聲稱目前的謠言檢測精度已經(jīng)達到90%以上,甚至已經(jīng)解決等,給研究者們造成很多困惑和誤解.究其原因,主要在于對于謠言檢測問題理解上的不同,如什么是謠言,謠言檢測的類型等.另一方面,基于社會多媒體的謠言檢測必然不能脫離社會媒體自身的特點進行孤立地研究.為此,本節(jié)首先厘清謠言檢測問題的定義,再結(jié)合社會多媒體的定義和特點,綜合闡述了社會多媒體謠言檢測的相關(guān)概念,最后給出謠言檢測問題的嚴(yán)格形式化定義.
1.1 謠言的定義
謠言,又稱作“虛假傳言”、“虛假新聞”等,在傳統(tǒng)社會心理學(xué)上被定義為“真實值不確定或者故意偽造的報道或聲明”[6-7].而在實際研究與應(yīng)用中,多數(shù)研究者從謠言的“故意偽造”這個角度出發(fā),將權(quán)威渠道證實確實是偽造虛構(gòu)的消息認(rèn)定為謠言[8-13].基于該定義,在標(biāo)注謠言時從Snopes.com[4]、微博謠言舉報平臺[12-13]等權(quán)威渠道獲知每條消息是否為謠言,能夠快速得到大量權(quán)威標(biāo)注數(shù)據(jù).該定義無法判斷預(yù)測性、情感性等類型謠言的真?zhèn)危驗檫@類謠言往往還不能夠證偽.
這種客觀定義的謠言,由于其具有標(biāo)注權(quán)威準(zhǔn)確、數(shù)據(jù)易收集的特點,被謠言自動檢測界廣泛采用.鑒于本文關(guān)注于如何檢測有害謠言并防止其繼續(xù)傳播造成危害,本文后續(xù)所有謠言都是指客觀定義的謠言.
1.2 社會多媒體的定義
針對社會多媒體的謠言檢測技術(shù),需要充分挖掘社會媒體的特征,利用其提供的多種資源.社會多媒體通常被定義為“支持個體參與、社區(qū)形成和社會交互的在線多媒體資源”[16].該定義指出了社會媒體的3個核心要素:多媒體內(nèi)容、網(wǎng)絡(luò)用戶以及用戶與媒體內(nèi)容之間的交互(圖1).
1)多媒體內(nèi)容.社會媒體網(wǎng)絡(luò)上的內(nèi)容由多種不同模態(tài)的內(nèi)容組成,主要包括文字、圖片、視頻、語音等.與傳統(tǒng)單一模態(tài)媒體相比,在社會媒體上發(fā)布的內(nèi)容通常包含一種以上的內(nèi)容形式,從而增加了內(nèi)容表現(xiàn)力,使其能夠得到更廣泛的傳播和關(guān)注.
2)網(wǎng)絡(luò)用戶.在社會多媒體中,網(wǎng)絡(luò)用戶既是內(nèi)容的生產(chǎn)者,又是內(nèi)容的消費者,是社會多媒體的一個非常重要的組成部分.社交媒體平臺允許用戶編輯的特點,使得用戶從信息的被動接受者成為一個主動的貢獻者.用戶的廣泛參與使得大量的UGC內(nèi)容出現(xiàn)在社會媒體平臺上,極大地促進了社會多媒體內(nèi)容的繁榮.如果將網(wǎng)絡(luò)用戶理解為數(shù)據(jù)感知器,社會多媒體實際上是由用戶所見、所聽、所說、所想組成的.
3)用戶與多媒體內(nèi)容的交互.用戶和媒體內(nèi)容是社會媒體中的2個基本元素,通過交互行為,孤立的各個元素間形成了相互連接的網(wǎng)絡(luò):①用戶之間的交互,包括“加好友”、“關(guān)注”、“收聽”等方式構(gòu)建成一個龐大的用戶社交網(wǎng)絡(luò),也正是多媒體內(nèi)容傳播的網(wǎng)絡(luò);②多媒體內(nèi)容通過標(biāo)簽、話題、超鏈接等形式構(gòu)建相互連接,形成不同的內(nèi)容子話題,這些連接關(guān)系對分析多媒體內(nèi)容有重要作用;③用戶對多媒體內(nèi)容進行上傳、評論、轉(zhuǎn)發(fā)、標(biāo)注等操作與其進行交互,促使用戶和多媒體內(nèi)容之間建立了豐富的社會關(guān)系.
與傳統(tǒng)的單一模態(tài)、孤立的內(nèi)容分析相比,社會多媒體在內(nèi)容和用戶交互上具有多模態(tài)性和互聯(lián)性,如何利用這些特性進行高效的謠言檢測成為當(dāng)前研究的重點.
從定義1可以看出我們把謠言檢測問題定義為一個基于內(nèi)容和用戶的二分類問題.謠言檢測的目標(biāo)即為學(xué)習(xí)分類預(yù)測函數(shù)F來區(qū)分謠言事件和真實事件.下面介紹謠言檢測的一般性方法.這里主要涉及到2個方面的研究重點,一是如何有效地表示謠言事件的特征,二是如何利用這些特征來檢測謠言.為此,從特征抽取和模型構(gòu)建2個方面展開介紹.特征抽取研究如何從文本、圖片、用戶等事件包含的豐富的多媒體內(nèi)容中抽取出有效信息,并把它們表示成結(jié)構(gòu)化的數(shù)學(xué)形式.在此基礎(chǔ)上,模型構(gòu)建基于這些特征表達利用機器學(xué)習(xí)模型來檢測謠言.近年來,一些基于深度神經(jīng)網(wǎng)絡(luò)的方法將特征抽取與模型學(xué)習(xí)整合到一個端到端的網(wǎng)絡(luò)中,本文也將對這些工作進行介紹.
2 謠言檢測特征抽取
傳統(tǒng)的新聞報道通常只包含新聞本身的內(nèi)容,而在社會媒體上,新聞消息會附帶有其他社會屬性的內(nèi)容,這些輔助內(nèi)容能夠用來提高謠言的特征表達性.如圖2所示的一則謠言消息中,就包含了文本內(nèi)容(包括文字描述、話題和外部鏈接等)、圖片內(nèi)容(2張圖片)和一些社交內(nèi)容(轉(zhuǎn)發(fā)、評論等).為此,將介紹如何從消息內(nèi)容和社交屬性2個方面提取有效特征來表達新聞消息.
2.1 內(nèi)容特征
新聞事件e其包含的微博消息集合M描述了新聞事件的關(guān)鍵信息.主要包含以下幾個方面的屬性:
1)文本內(nèi)容:主體的一段話來描述新聞事件.通常有能夠體現(xiàn)作者觀點和立場的重要結(jié)論,或支持性描述.
2)圖片/視頻:有些消息會通過附圖片/視頻的方式給文字描述提供視覺支撐.
3)其他內(nèi)容:社會媒體特有的語言交流方式會產(chǎn)生額外的內(nèi)容信息,比如話題(##)、用戶提醒(@)、超鏈接(URL)、表情符號等.
基于這些原始的內(nèi)容屬性,各種各樣的內(nèi)容特征被提取出來以區(qū)分謠言特性.通常這些特征可以分為文本特征和視覺特征2大類.下面介紹這2類特征的主要抽取方法.
2.1.1 文本特征
謠言通常是蓄意捏造的,有誤導(dǎo)大眾意圖的虛假信息而不是客觀的事實報道,因而它們通常包含著一些觀點性或者煽動性的語言,即所謂的“標(biāo)題黨”,來引誘大眾關(guān)注和傳播.例如,文獻[14]通過分析大量謠言信息流發(fā)現(xiàn)謠言在語言模式上具有“求真性”和“質(zhì)疑性”2大類語言模式.所以,可以通過抽取語言學(xué)特征來描述謠言消息與真實消息的不同特點.
文本特征通常從文本內(nèi)容的不同組織維度上抽取,包括字、詞、句、消息、消息集合等.為了更加全面地描述文本內(nèi)容,現(xiàn)有的研究工作不僅提出了一般性的文本特征,也結(jié)合平臺特點提出了領(lǐng)域相關(guān)的文本特征.
一般性的文本特征是指在其他自然語言處理任務(wù)中被廣泛應(yīng)用的一類特征.常見的語言特征有:
1)詞法特征:單個字級別的或單個詞級別的語言特征,包括總字?jǐn)?shù)、總詞數(shù)、不同單詞個數(shù)、每個詞平均長度等[8].
2)句法特征:句子級別的語言特征,包括關(guān)鍵詞頻數(shù)(n-grams模型和詞袋模型[17])、標(biāo)點符號類型和數(shù)目,以及詞性標(biāo)注等.
3)主題特征:主題級別的語言特征,例如對整個文檔集構(gòu)建主題模型(topic model[18]),還有提取的消息話題特征、消息的情感傾向特征等.
領(lǐng)域相關(guān)的文本特征是指跟發(fā)布平臺、消息類型有關(guān)的一些特征,比如外部鏈接、應(yīng)用圖片數(shù)量、消息長度等[19].其他的一些語言特征也能一定程度上捕捉文本的寫作風(fēng)格用來檢測謠言,比如謊言檢測特征[20].
2.1.2 視覺特征
視覺內(nèi)容在謠言產(chǎn)生和傳播方面有著重要的作用.一方面,圖片等視覺內(nèi)容在社交網(wǎng)絡(luò)上廣泛存在.受限于單條微博的字?jǐn)?shù)限制,越來越多的微博消息通過圖片形式輔助傳遞信息.文獻[13]指出超過51.6%的微博帶有圖片.另一方面,圖片對于新聞信息的傳播具有重要影響.相比于純文本內(nèi)容,圖片能夠生動形象地描述具體場景,吸引到更多的注意力.統(tǒng)計發(fā)現(xiàn),平均而言,帶有圖片的微博獲得的轉(zhuǎn)發(fā)量是不帶圖片微博的11倍(191比16)[13].如此巨大的差距體現(xiàn)了圖片在信息傳播過程中的重要作用.基于上述分析,很有必要綜合利用圖片等視覺內(nèi)容輔助進行謠言檢測.
視覺特征指從以圖片視頻等視覺內(nèi)容為中心抽取的一組特征,根據(jù)特征抽取方式的不同,視覺特征大致可以分為以下3類:圖片相關(guān)特征、視覺內(nèi)容特征以及深度學(xué)習(xí)特征.
1)視覺統(tǒng)計特征
視覺統(tǒng)計特征通常直接從圖片附屬的屬性抽取特征而對其具體視覺內(nèi)容不做分析.在文獻[7]中定義了一個特征來描述用戶是否包含頭像,用來評估該用戶的可信度.文獻[21]中定義了一個微博級的“has multimedia”特征來描述微博是否包含有多媒體信息這一狀態(tài).Gupta等[22]提出一種分類方法來識別颶風(fēng)發(fā)生期間的各類虛假圖片.文獻[10]發(fā)現(xiàn)虛假新聞更有可能包含之前已經(jīng)發(fā)布過的過時圖片,因此他們定義了圖片發(fā)布時間延遲這一特征,并用搜索引擎發(fā)現(xiàn)和獲取原始圖片的發(fā)布時間.Boididou等[23]提出了一項驗證多媒體使用(Verifying Multimedia Use)的任務(wù),以致力于自動預(yù)測包含多媒體內(nèi)容的微博是否為假.文獻[13]提出7種統(tǒng)計特征,描述微博事件中圖片大小、圖片比例、圖片熱點等特點.
2)視覺內(nèi)容特征
傳統(tǒng)的基于內(nèi)容的圖片視覺特征從視覺語義的角度描述了圖片內(nèi)容.而針對謠言檢測這一任務(wù),我們通常并不關(guān)心圖片是否描述了某一特定對象或者場景.我們需要從區(qū)分謠言事件的角度分析圖片在真假事件中不同的分布特點.如圖3所示,通過觀察真假2個不同事件中的熱門圖片,可以發(fā)現(xiàn),真新聞里圖片更多,差異性更大,而假新聞里,圖片多樣性更差[13].因此,在視覺特性上,文獻[13]提出5個能夠準(zhǔn)確描述圖片視覺分布的特征:
①視覺清晰度特征(visual clarity score)度量2個圖片集的分布差異.一個是指定新聞事件中的圖片集(事件集),另一個是包含所有圖片的全集.這個特征背后的邏輯很簡單:如果一個事件集和全集中的圖片分布差距很大,那么這個事件很有可能是真實事件.這是基于真實事件中包含大量原創(chuàng)性圖片的假設(shè).可以通過構(gòu)建2個語言模型來計算這一特征,即分別對事件集和全集構(gòu)建視覺詞匯語言模型.視覺清晰度就定義為這2個模型之間的KL散度,圖片集的語言模型可以用視覺詞袋模型得到.
②視覺一致度特征(visual coherence score)描述了同一事件中的圖片是否具有一致性.相關(guān)的圖片通常會具有相似的視覺外觀,通過計算視覺一致度,能夠量化出同一事件中的圖片管理程度.這里定義視覺一致度為事件內(nèi)任意圖片對相似度的平均值.
③視覺相似性直方圖(visual similarity distribution histogram)從更加精細的粒度上衡量圖片集的一致性程度.該特征是基于事件中所有圖片的相似度矩陣計算的.首先計算兩兩圖片之間的相似度得到相似度矩陣,然后將矩陣量化就能得到對應(yīng)的直方圖.
④視覺多樣度(visual diversity score)度量了指定新聞事件圖片集中的視覺上的差異程度.和視覺一致度相比,這個特征直接計算了圖片的多樣性分布特點,而且更加強調(diào)代表性的圖片.我們定義一個圖片的多樣度為該圖片到排在其之前的圖片中的最小的距離.視覺一致度計算的是整個圖片集上相似度的算術(shù)平均,而視覺多樣度計算的是不相似度的加權(quán)平均.在社會多媒體網(wǎng)絡(luò)上,可通過圖片獲得的轉(zhuǎn)發(fā)量來排序圖片.因此視覺多樣度打分能夠加重這些代表性圖片的權(quán)重,減少事件中噪音圖片的干擾.
⑤視覺聚類度(visual clustering score)從圖片聚類的角度衡量了圖片的視覺分布特點.它被定義為圖片集中聚類得到的類簇的個數(shù).我們采用分層聚合聚類算法自底向上地將相似圖片聚集成類.相比于其他聚類算法,如K-means,該算法不需要事先指定聚類個數(shù),而能根據(jù)數(shù)據(jù)分布特點自動聚集出若干個類.設(shè)定相同的參數(shù)下,該算法能夠揭示出圖片集的多樣性特點.我們移除了數(shù)量小于3的小類,并把剩下的類的個數(shù)記作視覺聚類度.
3)深度學(xué)習(xí)特征
近年來,以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)為代表的深度神經(jīng)網(wǎng)絡(luò)算法在視覺表征學(xué)習(xí)上展示出了遠超傳統(tǒng)淺層模型的優(yōu)良效果.對于很多計算機視覺任務(wù),包括圖片分類[24-25]和對象檢測[26-27],CNN都明顯優(yōu)于傳統(tǒng)的手工構(gòu)造的特征方法.在謠言檢測方面,文獻[28]提出利用CNN來學(xué)習(xí)謠言圖片中的復(fù)雜語義特征.一個典型的CNN包含了一系列卷積層和全連接層.一個深度卷積神經(jīng)網(wǎng)絡(luò)通常包含了數(shù)以百萬計的參數(shù),這些參數(shù)在模型訓(xùn)練的過程中得以學(xué)習(xí).比如,AlexNet就包含了超過6 000萬的參數(shù)[2].要訓(xùn)練這樣一個復(fù)雜的神經(jīng)網(wǎng)絡(luò)通常需要大量的標(biāo)注樣本,而現(xiàn)有的虛假圖片數(shù)據(jù)集太小,不能滿足直接訓(xùn)練的需求,因此文獻[28]提出利用深度遷移學(xué)習(xí)來解決特征學(xué)習(xí)和標(biāo)注數(shù)據(jù)集缺乏的難題.
2.2 社交特征
社會媒體最大的特點之一就是廣泛的互聯(lián)性,主要包括3個方面的互聯(lián)關(guān)系.一是用戶之間的交互:社會媒體用戶通過“加好友”、“關(guān)注”、“收聽”等方式構(gòu)建成一個龐大的社交網(wǎng)絡(luò),多媒體內(nèi)容正是通過該網(wǎng)絡(luò)進行快速傳播;二是媒體內(nèi)容的交互:多媒體內(nèi)容通過標(biāo)簽、話題、超鏈接等形式構(gòu)建相互連接,這些連接關(guān)系對分析多媒體內(nèi)容有重要作用;三是用戶與媒體內(nèi)容的交互:用戶對多媒體內(nèi)容進行上傳、評論、轉(zhuǎn)發(fā)、標(biāo)注等操作與其進行交互,促使用戶和多媒體內(nèi)容之間建立了豐富的社會關(guān)系.如轉(zhuǎn)發(fā)過同一個視頻的用戶之間存在聯(lián)系,由同一個用戶上傳的圖片和視頻之間存在聯(lián)系等.
因此,社會媒體上的謠言檢測,除了直接抽取謠言的內(nèi)容特征外,還需要充分挖據(jù)這些互聯(lián)關(guān)系網(wǎng)絡(luò)中形成的各類特征.下面分別從用戶網(wǎng)絡(luò)、內(nèi)容網(wǎng)絡(luò)和交互網(wǎng)絡(luò)3個方面介紹基于社交屬性的謠言檢測特征.
2.2.1 基于用戶的社交特征
謠言傳播過程中,可能存在大量“水軍”推波助瀾,或者一些惡意賬戶故意捏造、傳播.前文也分析過不同類型的賬戶對大眾具有不同的可信度.因此利用用戶畫像的方法抽取基于用戶的特征能夠幫助提高謠言檢測準(zhǔn)確率.基于用戶的社交特征是指描述用戶在社交網(wǎng)絡(luò)中傳播信息時展現(xiàn)出來的特點.從不同的粒度看,這些特征可以分為2大類:個體特征和群組特征.
1)個體特征
個體特征是指針對單個用戶的各項統(tǒng)計指標(biāo)中抽取出來,用來分析該特點用戶可信度的一系列特征.主要包括注冊時間、用戶名類型、年齡、性別、粉絲數(shù)、關(guān)注數(shù)、發(fā)布微博數(shù)等[8].
2)群組特征
群組特征描述的是在信息傳播過程中具有相似性的某個用戶群體的整體特征[9].抽取該類特征時的一個基本的假設(shè)就是傳播謠言的社區(qū)和傳播真實消息的社區(qū)各不相同并且有不同的特點.群組特征通常是從個體特征聚合而來的,例如認(rèn)證用戶的比例、平均粉絲數(shù)等[29-30].
2.2.2 基于內(nèi)容的社交特征
新聞事件在社會媒體上傳播的過程中,不同的用戶會通過轉(zhuǎn)發(fā)、評論的方式表達各自的觀點、情感傾向,例如質(zhì)疑原文真實性的態(tài)度、反感的情緒表達等.這些來自社交網(wǎng)絡(luò)的反饋信息在謠言檢測中具有重要的價值.通過抽取基于內(nèi)容的設(shè)計特征,能夠有效捕捉這些反饋情感和特征.從考察的不同角度和粒度出發(fā),基于內(nèi)容的社交特征大致可以分為3類:消息級的內(nèi)容特征、群組級的內(nèi)容特征和時間片級的內(nèi)容特征.
1)消息級特征
消息級特征為每條轉(zhuǎn)發(fā)或評論的微博抽取特征來描述單條消息.因此上文中提到的各種內(nèi)容特征提取方法和一些基于詞嵌入的模型方法[31]都可以用來提取消息級特征.文獻[21,30]采用基于主題模型的方法(LDA)來抽取每條消息的話題特征.
2)群組級特征
內(nèi)容的群組級特征基于“群體智慧”的思想,從大量消息中總結(jié)出謠言檢測特征.這些特征通常是通過聚合消息級特征產(chǎn)生的.文獻[8]中列舉了大量的群組級特征,通過在這些特征上構(gòu)建決策樹來檢測謠言事件.文獻[11]通過聚類的方式將描述相同話題的消息聚合在一起抽取特征.
3)時間級特征
內(nèi)容的時間級特征考察的是隨著時間的變化事件中消息的特征變化情況[30].無監(jiān)督的深度神經(jīng)網(wǎng)絡(luò)方法(反饋神經(jīng)網(wǎng)絡(luò)RNN)被用來學(xué)習(xí)消息流隨著時間變化的特征[31-32].文獻[29]通過考察隨時間變化的消息數(shù)量變化曲線,抽取特征刻畫謠言消息特征.
2.2.3 基于交互網(wǎng)絡(luò)的社交特征
謠言消息在社交網(wǎng)絡(luò)上的傳播可以形成轉(zhuǎn)發(fā)傳播樹,另一方面參與傳播的用戶也潛在地隱含在一個用戶社交網(wǎng)絡(luò)中.通過抽取特征來描述這些關(guān)系網(wǎng)絡(luò)就形成了基于交互網(wǎng)絡(luò)的謠言檢測特征.文獻[29]通過網(wǎng)絡(luò)度和聚類系數(shù)來描述傳播網(wǎng)絡(luò)和社交網(wǎng)絡(luò)特征.文獻[21]提出一種基于核方法的SVD模型來描述簡化后的轉(zhuǎn)發(fā)樹.
圖4總結(jié)了社會媒體謠言檢測中常用的各類特征.
3 謠言檢測模型構(gòu)建
從社會媒體上抽取出謠言檢測的大量特征后,如何構(gòu)建模型分類謠言成為研究的關(guān)鍵.從對特征的不同利用方式出發(fā),目前主要有2種模型構(gòu)建方法:基于特征分類的方法和基于傳播的方法.下面以一些典型應(yīng)用案例出發(fā)介紹這2類方法.
3.1 基于特征分類的謠言檢測模型
謠言檢測問題本質(zhì)上是一個二分類問題,抽取出大量特征后,可以直接對特征進行傳統(tǒng)的機器學(xué)習(xí)建模得到分類器來進行謠言分類.Castillo等[8]首先應(yīng)用分類算法決策Twitter上新聞事件的真假.他們提取了來自文本內(nèi)容、用戶以及傳播等多方面的特征,并比較了這些特征在決策樹、SVM等多種常用分類器上的新聞?wù)J證效果.針對中文微博的新聞?wù)J證通常也遵循了同樣的思路,文獻[9-10]提出了幾個新的特征來增強中文微博的謠言檢測效果,同樣采用邏輯回歸等傳統(tǒng)分類器進行分類.Wu等[21]提出一種混合SVM分類器來檢查微博上的謠言.該分類器利用一種隨機行走的核方法(random walk graph kernel)來描述單條微博的復(fù)雜轉(zhuǎn)發(fā)樹,并與通常的RBF核結(jié)合,更加準(zhǔn)確地描述了微博傳播的特征,取得了良好的謠言檢測結(jié)果.為進一步整合消息級和群組級特征,Jin等[33]從消息級和群組級2個層次分別進行分類器學(xué)習(xí)再采用類似于stacking的集成學(xué)習(xí)方法檢測多媒體謠言.
3.2 基于傳播的謠言檢測模型
傳統(tǒng)的基于特征的分類算法孤立地分析單條微博或者單個新聞事件的可信度,而忽略了不同微博和事件具有廣泛的關(guān)聯(lián).為此,基于傳播的方法被提出來從整體上評估整個內(nèi)容網(wǎng)絡(luò)中各消息的真假.該類算法的核心是內(nèi)容網(wǎng)絡(luò)的構(gòu)建和可信度傳播算法.具體而言,該類算法通過定義微博間的連接關(guān)系將時間相關(guān)的所有內(nèi)容連接成一個可信度傳播網(wǎng)絡(luò);隨后,不同消息的可信度在一定約束條件下在該網(wǎng)絡(luò)上彼此影響和傳播直到收斂.不同消息的初始可信度值可以通過基于分類的方法學(xué)習(xí)得到,因此該方法往往比簡單的分類方法具有更好的認(rèn)證準(zhǔn)確率和穩(wěn)定性.
設(shè)計可靠、合理的可信度傳播算法是基于傳播的新聞?wù)J證方法的關(guān)鍵.不同對象的可信度初值在內(nèi)容網(wǎng)絡(luò)上的傳播過程可以看作是一種半監(jiān)督的網(wǎng)絡(luò)學(xué)習(xí)模型.作為一種有效的圖學(xué)習(xí)方法,半監(jiān)督圖學(xué)習(xí)的理論已被廣泛的研究和應(yīng)用[34-35].該類算法的目標(biāo)是在保持已有標(biāo)注數(shù)據(jù)和網(wǎng)絡(luò)結(jié)構(gòu)一致性的前提下,預(yù)測未標(biāo)注數(shù)據(jù)的類別.
Gupta等[22]構(gòu)造了一個包含用戶、微博消息和事件的可信度傳播網(wǎng)絡(luò),將不同實體基于相似度連接在一起.基于半監(jiān)督學(xué)習(xí)的思想,他們用了一種啟發(fā)式的迭代算法來求解可信度的傳播結(jié)果.
基于特征的分類算法通常將事件中涉及到的每條信息當(dāng)成孤立的對象,而沒有考慮到內(nèi)容之間可能存在的內(nèi)在關(guān)系.另一方面,根據(jù)標(biāo)簽、話題、超鏈接等形成的內(nèi)容網(wǎng)絡(luò)往往稀疏且噪音多,不能滿足謠言檢測的需要.文獻[11]注意到除了事件級的關(guān)聯(lián)之外(即2條消息是否描述了同一個謠言事件),同一事件下的消息還會在社交網(wǎng)絡(luò)上形成不同子事件.如圖5所示,在“深圳最美女孩當(dāng)街為乞討老人喂飯”這一謠言事件中,隨著事件進展,社交網(wǎng)絡(luò)上出現(xiàn)了不同的討論重點,形成了不同的子事件.
每個子事件有不同的可信度,子事件之間也存在一定關(guān)聯(lián).與孤立地計算每條消息的可信度相比,綜合考慮子事件的可信度以及子事件之間的依賴關(guān)系能夠更加準(zhǔn)確地判斷新聞事件的真假.為此,文獻[11]提出一種分層的內(nèi)容網(wǎng)絡(luò),它能夠從微博消息、子事件和事件3個不同粒度全面地考察新聞事件,構(gòu)建更加真實的可信度傳播網(wǎng)絡(luò).其中子事件通過聚類算法將語義相似的微博消息聚合而成.
對于一個新聞事件來說,一個分層的內(nèi)容網(wǎng)絡(luò)由3層網(wǎng)絡(luò)(消息層、子事件層和事件層)以及它們之間的邊組成.如圖6所示,該網(wǎng)絡(luò)中有3種在上節(jié)中定義的實體:消息m、子事件s和事件e,以及4種類型的邊:消息到子事件之間的邊(g(mi,sj))、子事件到事件之間的邊(p(si,ej))、消息之間互聯(lián)的邊(f(mi,mj))以及子事件之間互聯(lián)的邊(h(si,sj)).各邊的權(quán)重都定義為該邊2個定點的函數(shù).通過子事件聚類,消息連接到對應(yīng)的子事件.
該網(wǎng)絡(luò)中各類型的邊權(quán)重計算方法如下:
1)消息-消息.在可信度傳播網(wǎng)絡(luò)中,消息間的邊權(quán)值決定了每條消息是如何影響其他消息的可信度的.假定相似的消息很大程度上具有相似的可信度值,這樣,2條消息越相似,它們之間的邊權(quán)重就越大.考慮到微博是140字以內(nèi)的短文本,可利用Jaccard系數(shù)來計算2條消息的unigram序列之間的相似度.同時考慮2條消息的情感值極性,定義不同情感傾向的消息之間的邊權(quán)值為0,相同情感傾向的消息之間的邊權(quán)值正比于2條消息的內(nèi)容相似度.
2)子事件-子事件.同理,相似子事件之間應(yīng)該有更強的關(guān)聯(lián)性.用每個子事件聚類中心代表該子事件,這樣,通過計算2個聚類中心之間的余弦距離,可以得到子事件之間的關(guān)聯(lián)度.
3)消息-子事件.定義一條消息對所在子事件的影響來自2個方面:一是消息與子事件的一致程度,二是消息在子事件中的重要程度.其中一致性可由文本相似度來刻畫,重要性由媒體轉(zhuǎn)發(fā)量來刻畫.
4)子事件-事件.子事件對事件的影響同樣也由相似度和轉(zhuǎn)發(fā)重要程度2個方面決定.
通過把不同實體在該分層網(wǎng)絡(luò)上的可信度傳播過程定義為一個圖優(yōu)化問題,定義損失函數(shù)后,利用梯度下降算法可以得到該函數(shù)的迭代解,從而得到各實體的最終可信度值.
4 小結(jié)
社會媒體由于其開放性、實時性和交互性,成為當(dāng)今社會人們發(fā)布、獲取、傳播信息的重要渠道.然而由于缺乏有效監(jiān)管,大量虛假謠言信息的泛濫不僅損害媒體公信力,還有可能造成重大的經(jīng)濟、政治損失,破壞網(wǎng)絡(luò)輿情環(huán)境和社會穩(wěn)定.針對自動化謠言檢測這一問題,本文首先闡述了謠言的各種定義以及社會媒體的特性,并以此給出謠言檢測的明確定義.針對謠言檢測面臨的特征抽取和模型構(gòu)建2大難題,文章總結(jié)概括了現(xiàn)有工作中的各種方法.具體而言,從網(wǎng)絡(luò)謠言的內(nèi)容和社交屬性2個方面出發(fā),介紹了謠言檢測中應(yīng)用的5大子類的特征.這些特征全面描述了謠言的文本、視覺內(nèi)容和社交化屬性,為構(gòu)造有效的謠言檢測算法提供了基礎(chǔ).在謠言檢測模型方面,文章總結(jié)了現(xiàn)有工作中的2大類算法.基于特征的分類方法簡單有效,但受限于人工構(gòu)造的特征以及模型表達能力,通常效果不是最優(yōu)的.基于傳播的算法能夠有效利用謠言的社會屬性構(gòu)建內(nèi)容網(wǎng)絡(luò)來檢測謠言.本文總結(jié)的各類特征方法提供了構(gòu)建一個有效謠言檢測算法的指南,同時也為進一步研究提供了參考.
參考文獻
References
[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心.中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[R].2017
China Internet Network Information Center.Statistical report on the development of Internet in China[R].2017
[2] 劉瓊.中國網(wǎng)絡(luò)新聞可信度研究[D].武漢:華中科技大學(xué)新聞與信息傳播學(xué)院,2011
LIU Qiong.Study on Chinas Internet news credibility[D].Wuhan:Journalism and Information Communication School,Huazhong University of Science and Technology,2011
[3] 唐緒軍.中國新媒體發(fā)展報告[M].北京:社會科學(xué)文獻出版社,2013
TANG Xujun.Annual report on development of new media in China[M].Beijing:Social Sciences Academic Press,2013
[4] Jin Z W,Cao J,Guo H,et al.Detection and analysis of 2016 US presidential election related rumors on twitter[C]∥International Conference on Social Computing,Behavioral-Cultural Modeling and Prediction and Behavior Representation in Modeling and Simulation,2017:14-24
[5] Zhou X,Cao J,Jin Z W,et al.Real-time news certification system on Sina weibo[C]∥Proceedings of the 24th International Conference on World Wide Web,2015:983-988
[6] Allport G W,Postman L.The psychology of rumor[M].New York:Heney Holt and Company,1947
[7] Gupta M,Zhao P X,Han J W.Evaluating event credibility on twitter[C]∥Proceedings of the SIAM International Conference on Data Mining,2012:153-164
[8] Castillo C,Mendoza M,Poblete B.Information credibility on twitter[C]∥Proceedings of the 20th International Conference on World Wide Web,2011:675-684
[9] Yang F,Liu Y,Yu X H,et al.Automatic detection of rumor on Sina weibo[C]∥Proceedings of the ACM SIGKDD Workshop on Mining Data Semantics,2012:13
[10] Sun S Y,Liu H Y,He J,et al.Detecting event rumors on Sina weibo automatically[C]∥Asia-Pacific Web Conference:Web Technologies and Applications,2013:120-131
[11] Jin Z W,Cao J,Jiang Y G,et al.News credibility evaluation on microblog with a hierarchical propagation model[C]∥IEEE International Conference on Data Mining,2014:230-239
[12] Jin Z W,Cao J,Zhang Y D,et al.News verification by exploiting conflicting social viewpoints in microblogs[C]∥Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence,2016:2972-2978
[13] Jin Z W,Cao J,Zhang Y D,et al.Novel visual and statistical image features for microblogs news verification[J].IEEE Transactions on Multimedia,2017,19(3):598-608
[14] Zhao Z,Resnick P,Mei Q Z.Enquiring minds:Early detection of rumors in social media from enquiry posts[C]∥Proceedings of the 24th International Conference on World Wide Web,2015:1395-1405
[15] Morris M R,Counts S,Roseway A,et al.Tweeting is believing? Understanding microblog credibility perceptions[C]∥ACM Conference on Computer Supported Cooperative Work,2012:441-450
[16] Naaman M.Social multimedia:Highlighting opportunities for search and mining of multimedia data in social media applications[J].Multimedia Tools and Applications,2012,56(1):9-34
[17] Fürnkranz J.A study using n-gram features for text categorization[J].Austrian Research Institute for Artificial Intelligence,1998,3:1-10
[18] Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of machine Learning Research,2003,3:993-1022
[19] Potthast M,Kiesel J,Reinartz K,et al.A stylometric inquiry into hyperpartisan and fake news[J].arXiv e-print,2017,arXiv:1702.05638
[20] Afroz S,Brennan M,Greenstadt R.Detecting hoaxes,frauds,and deception in writing style online[C]∥IEEE Symposium on Security and Privacy,2012:461-475
[21] Wu K,Yang S,Zhu K Q.False rumors detection on Sina weibo by propagation structures[C]∥IEEE International Conference on Data Engineering,2015:651-662
[22] Gupta A,Lamba H,Kumaraguru P,et al.Faking Sandy:Characterizing and identifying fake images on twitter during hurricane Sandy[C]∥Proceedings of the 22nd International Conference on World Wide Web,2013:729-736
[23] Boididou C,Papadopoulos S,Dang-Nguyen D,et al.Verifying multimedia use at mediaEval 2015[C]∥MediaEval Workshop,2015:235-237
[24] Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C]∥Proceedings of the 25th International Conference on Neural Information Processing Systems,2012:1097-1105
[25] Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[J].arXiv e-print,2014,arXiv:1409.1556
[26] Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2014:580-587
[27] Szegedy C,Toshev A,Erhan D.Deep neural networks for object detection[J].Advances in Neural Information Processing Systems,2013:2553-2561
[28] Jin Z W,Cao J,Luo J B,et al.Rumor image detection with effective domain transferred deep networks[J].ACM Transactions on Multimedia Computing,Communications and Application(accepted)
[29] Kwon S,Cha M,Jung K,et al.Prominent features of rumor propagation in online social media[C]∥IEEE International Conference on Data Mining,2013:1103-1108
[30] Ma J,Gao W,Wei Z Y,et al.Detect rumors using time series of social context information on microblogging websites[C]∥ACM International Conference on Information and Knowledge Management,2015:1751-1754
[31] Ruchansky N,Seo S,Liu Y.CSI:A hybrid deep model for fake news[J].arXiv e-print,2017,arXiv:1703.06959
[32] Ma J,Gao W,Mitra P,et al.Detecting rumors from microblogs with recurrent neural networks[J].International Joint Conference on Artificial Intelligence,2016:3818-3824
[33] Jin Z W,Cao J,Zhang Y Z,et al.MCG-ICT at MediaEval 2015:Verifying multimedia use with a two-level classification model[J].Media Eval,2015
[34] Zhu X J,Ghahramani Z.Learning from labeled and unlabeled data with label propagation[R].CMU Technical Report,CMU-CALD-02-107,2002:19-26
[35] Zhu X J,Ghahramani Z,Lafferty J.Semi-supervised learning using Gaussian fields and harmonic functions[C]∥Twentieth International Conference on International Conference on Machine Learning,2003:912-919