亓 鵬 曹 娟 盛 強(qiáng)
(中國科學(xué)院智能信息處理重點實驗室(中國科學(xué)院計算技術(shù)研究所) 北京 100190)
(中國科學(xué)院計算技術(shù)研究所 北京 100190)
(中國科學(xué)院大學(xué) 北京 100049)
中國社會科學(xué)院2020年發(fā)布的《中國新媒體發(fā)展報告No.11》[1]顯示,以微信、微博等為代表的社交媒體已經(jīng)成為我國公眾獲取新聞信息的主要渠道.社交媒體的實時性、開放性、便捷性和雙向性使得人們可以快速地獲取并傳播信息.但與此同時,社交媒體低門檻的特點也促進(jìn)了虛假信息尤其是虛假新聞在網(wǎng)絡(luò)空間的滋長蔓延.網(wǎng)絡(luò)虛假新聞不僅使受眾深受其害,沖擊了主流媒體的權(quán)威性和公信力,還產(chǎn)生了經(jīng)濟(jì)、政治等多個方面的風(fēng)險隱患(1)http://www.cac.gov.cn/2020-01/23/c_1581318267502085.htm.近年來,在社交媒體的富媒體化趨勢下,用戶發(fā)布的內(nèi)容由純文本向圖文并茂的多媒體形式轉(zhuǎn)變.虛假新聞的發(fā)布者也開始利用一些極具誤導(dǎo)性甚至經(jīng)過篡改的圖片來吸引讀者的注意,進(jìn)一步促進(jìn)虛假新聞的傳播[2].因此,基于社交媒體的多模態(tài)虛假新聞檢測已經(jīng)成為近年來的研究熱點.
現(xiàn)有研究表明:虛假新聞在表現(xiàn)層面上與真實新聞具有顯著的差異性.虛假新聞往往呈現(xiàn)出更加強(qiáng)烈的情感煽動性、主觀性[3-4],經(jīng)常出現(xiàn)“緊急通知”“快轉(zhuǎn)”等高頻短語;虛假新聞圖片具有低質(zhì)量、視覺沖擊力強(qiáng)的特點[5-6].相比下,真實新聞往往更加客觀嚴(yán)謹(jǐn),配圖質(zhì)量更高.現(xiàn)有的多模態(tài)方法[7-9]一般采用通用的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)分別捕捉虛假新聞文本及視覺模態(tài)表現(xiàn)層面的特性.然而,虛假新聞表現(xiàn)層面的特性與數(shù)據(jù)集高度相關(guān),這使得在特定數(shù)據(jù)集上性能不錯的方法往往難以良好泛化到新數(shù)據(jù)集上,容易誤判表現(xiàn)層特性不明顯的假新聞.
事實上,對于虛假新聞檢測任務(wù)而言,僅僅關(guān)注新聞是如何表述的,即新聞表現(xiàn)層面的特點是不夠的,還應(yīng)該關(guān)注新聞具體描述了什么內(nèi)容,即新聞?wù)Z義層面的特點.在語義層面上,虛假新聞往往會涉及一些極具爭議性的話題,或者存在圖文不符等現(xiàn)象.與表現(xiàn)層相比,虛假新聞?wù)Z義層面的特點往往更難捕獲.一方面,新聞作為一種特殊的敘事文體,往往包含人名、地名、機(jī)構(gòu)名及其他專有名詞等命名實體.理解這些實體對建模虛假新聞?wù)Z義層面的特點起到重要的作用,但他們的含義難以簡單地通過上下文理解,需要引入外部事實知識.另一方面,在多模態(tài)新聞的語義理解中,圖片模態(tài)經(jīng)常提供有利于模型預(yù)測的關(guān)鍵實體信息(名人、地標(biāo)、旗幟標(biāo)志等).例如我們可以通過核對圖文中出現(xiàn)人物身份的一致性推斷該新聞的可信度.然而,通用的視覺特征表示大多停留在感知層面,無法找到并充分建模這些視覺實體背后的深層語義.另外,通用的視覺語義特征和文本語義處于不同的特征空間,存在語義鴻溝和特征異構(gòu)的問題.因此,如何充分建模圖文之間的語義交互,也是我們需要著重考慮的問題.
為了解決上述挑戰(zhàn),我們提出了一種語義增強(qiáng)的多模態(tài)虛假新聞檢測方法.首先,我們利用預(yù)訓(xùn)練語言模型中隱含的大量的事實知識,更好地理解多模態(tài)新聞中的實體概念;其次,在提取通用的視覺特征向量的基礎(chǔ)上,利用外部模型顯式提取新聞圖片中的視覺實體及嵌入文字,得到不同語義層次的視覺特征;最后,我們采用文本引導(dǎo)的注意力機(jī)制建模文本與不同層次的視覺特征之間的語義交互,進(jìn)而得到統(tǒng)一的多模態(tài)特征表達(dá).
本文的主要貢獻(xiàn)包括3個方面:
1) 提出了新穎的語義增強(qiáng)的多模態(tài)虛假新聞檢測方法.通過融合外部知識以及顯式的視覺實體提取,更好地理解多模態(tài)新聞中的實體語義,從而更充分地挖掘多模態(tài)虛假新聞的語義線索;
2) 采用文本引導(dǎo)的注意力機(jī)制建模文本與不同層次的視覺特征之間的語義交互,更好地融合多模態(tài)異構(gòu)特征;
3) 在真實世界的微博數(shù)據(jù)集上對本文提出的方法進(jìn)行驗證.與當(dāng)前較好方法相比,我們的模型能夠大幅提高虛假新聞檢測的準(zhǔn)確率.
根據(jù)研究對象的不同,虛假新聞檢測可以分為事件層面的檢測和微博層面的檢測.事件層面的檢測利用同一事件下所有微博的信息聯(lián)合判斷該新聞事件的可信度.但是事件形成往往需要一定時間.一些重大的虛假新聞可能在事件形成前已經(jīng)在社交媒體上廣泛傳播,在非常短的時間內(nèi)產(chǎn)生較大的消極影響.微博層面的檢測是指判斷單條微博消息的可信度.與事件層面的檢測相比,這種方法在實際應(yīng)用中可以做到實時檢測,因此得到了研究人員的廣泛關(guān)注.本文的研究專注于微博層面的虛假新聞檢測.
大多數(shù)現(xiàn)有的研究利用文本內(nèi)容和傳播過程中產(chǎn)生的社交上下文檢測虛假新聞[10].基于文本內(nèi)容的檢測方法主要基于虛假新聞特定的語言風(fēng)格建模,包括早期提取語言學(xué)特征、主題特征等手工特征的方法[11-13],以及近年來基于深度模型自動學(xué)習(xí)數(shù)據(jù)高層特征的方法[14].基于社交上下文的方法主要包括基于用戶行為可信度的方法[15-17]以及基于傳播網(wǎng)絡(luò)的方法[18-21].
近年來,一些工作開始關(guān)注視覺模態(tài)在虛假新聞檢測中的作用[5-6,22-26].虛假新聞圖片主要包括篡改圖片和誤用圖片兩大類[6].篡改圖片指使用工具故意進(jìn)行像素級改動或是算法自動生成的非真實圖片,而誤用圖片一般指未經(jīng)刻意修改,取自其他事件或是圖片內(nèi)容被錯誤解讀的真實圖片.現(xiàn)有基于視覺模態(tài)的研究主要利用圖片的取證特征[23]、語義特征[6]、分布特征[22]以及上下文特征[24-25]等進(jìn)行虛假新聞檢測.
文本模態(tài)和視覺模態(tài)為虛假新聞檢測提供了各有側(cè)重、相互補充的信息.因此,結(jié)合多模態(tài)信息進(jìn)行虛假新聞檢測的方法也備受關(guān)注.文獻(xiàn)[7]第1次通過深度神經(jīng)網(wǎng)絡(luò)的方法將多模態(tài)信息引入到虛假新聞檢測中,他們提出了一種帶注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)融合文本、視覺及社交上下文的信息.為提高模型在新的虛假新聞事件上的泛化性能;文獻(xiàn)[8]利用對抗學(xué)習(xí)的方法,引入事件分類這一輔助任務(wù),引導(dǎo)模型學(xué)習(xí)到更具泛化性能的與事件無關(guān)的多模態(tài)特征;文獻(xiàn)[9]利用“編碼器-解碼器”結(jié)構(gòu)來構(gòu)建多模態(tài)新聞的特征表達(dá).上述方法在多模態(tài)虛假新聞檢測上具有一定的有效性,但是由于缺乏足夠的事實知識,不能充分理解多模態(tài)新聞事件的深層語義.針對這一問題,文獻(xiàn)[27]從外部知識圖譜中提取文本實體對應(yīng)的概念知識融入多模態(tài)的表達(dá)中,從而獲得更好的語義理解能力;文獻(xiàn)[28]提出利用圖神經(jīng)網(wǎng)絡(luò)建模文本、知識以及圖片中的物體之間的交互.上述方法通過引入外部知識圖譜的方式增強(qiáng)對新聞文本語義的理解,但是在對圖片語義信息建模以及多模態(tài)異構(gòu)特征融合上仍存在欠缺之處.
因此,針對已有工作的不足,我們提出了一種語義增強(qiáng)的多模態(tài)虛假新聞檢測方法,不僅能夠利用外部知識深入理解文本及圖片的語義信息,也能充分融合不同模態(tài)的異構(gòu)特征.
我們的任務(wù)是判斷給定的單條多模態(tài)新聞為真新聞或假新聞.圖1展示了我們提出的語義增強(qiáng)的多模態(tài)虛假新聞檢測模型,主要由文本語義編碼器、視覺語義編碼器、多模態(tài)特征融合以及分類4部分組成.
Fig. 1 Framework of our semantics-enhanced multi-modal fake news detection model圖1 語義增強(qiáng)的多模態(tài)虛假新聞檢測模型結(jié)構(gòu)圖
文本作為新聞事件的敘述主體,包含了豐富的信息,為新聞可信度的判定提供了不同層次的線索.現(xiàn)有方法大多利用循環(huán)神經(jīng)網(wǎng)絡(luò)等對輸入文本的上下文信息進(jìn)行建模,捕捉文本表現(xiàn)層的模式[7,9,14,27].然而,由于特征提取過程缺少相應(yīng)事實知識的參與,這類方法對新聞文本中命名實體的理解能力有限,進(jìn)而難以充分捕捉虛假新聞?wù)Z義層面的線索.
近期一些工作[29-30]表明,以BERT[31](bidirec-tional encoder representations from transformers)為代表的預(yù)訓(xùn)練語言模型不僅具有強(qiáng)大的建模能力,通過在大規(guī)模預(yù)訓(xùn)練語料上的學(xué)習(xí),其內(nèi)部已經(jīng)學(xué)習(xí)到了某些句法知識和常識知識.在BERT的基礎(chǔ)上,百度提出了一種知識增強(qiáng)的語義表示模型ERNIE(enhanced representation from knowledge integration)[32].ERNIE的結(jié)構(gòu)與BERT類似,都是利用多層的Transformer[33]作為基本的編碼器,通過self-attention機(jī)制實現(xiàn)對上下文信息的建模.與BERT不同的是,ERNIE對詞、實體等語義單元進(jìn)行掩碼,并擴(kuò)展了一些知識類的中文語料進(jìn)行預(yù)訓(xùn)練,能夠更好地建模實體概念等先驗語義知識,從而進(jìn)一步提升模型的語義表示能力.ERNIE不僅能夠作為上下文編碼器產(chǎn)生句子的表達(dá),還可以作為知識存儲器,在產(chǎn)生句子表達(dá)的時候隱式地利用模型中存儲的大量事實知識.因此,我們使用ERNIE作為文本模態(tài)的特征提取器,同時建模文本在表現(xiàn)層及語義層的特點.
具體地,我們首先在虛假新聞分類任務(wù)的數(shù)據(jù)集上對ERNIE進(jìn)行微調(diào).對于輸入句子T=[w1,w2,…,wn],其中wi代表句子中的第i個詞,ERNIE會先對其進(jìn)行編碼,添加[MASK],[SEP],[CLS]等標(biāo)記,然后進(jìn)行訓(xùn)練.我們提取[CLS]對應(yīng)的768維的特征向量作為輸入句子的最終語義表示如式(1):
(1)
另外,社交媒體上存在很多以文字型圖片為主體的新聞,即新聞的主要文本用圖片的形式表示.我們使用百度預(yù)訓(xùn)練的OCR文字檢測模型(2)https://ai.baidu.com/tech/ocr提取圖片中的文本信息.經(jīng)過數(shù)據(jù)預(yù)處理后,可以將圖片中識別到的文本表示為詞序列O=[w1,w2,…,wn],其中wi表示句子的第i個詞.為充分建模輸入文本T與圖片文本O的語義交互,我們將兩者拼接成一個序列,用[SEP]進(jìn)行分隔,輸入到ERNIE網(wǎng)絡(luò)中,得到對應(yīng)的語義表示:
xto=ERNIE(T[SEP]O).
(2)
與真實新聞的配圖相比,虛假新聞圖片往往具有更低的圖片質(zhì)量,更具視覺沖擊和情感煽動的圖片風(fēng)格[6].因此,現(xiàn)有方法大多通過卷積神經(jīng)網(wǎng)絡(luò)提取顏色、邊緣、紋理等層次化的視覺特征來建模圖片的質(zhì)量及風(fēng)格特性.然而,由于缺乏外部知識的引入,這類通用的視覺特征表示大多停留在感知層面,無法充分建模新聞圖片的深層語義.
事實上,新聞圖片往往包含一些極具新聞性的視覺實體,包括名人、地標(biāo)、旗幟標(biāo)志以及一些敏感目標(biāo)等.準(zhǔn)確識別這些實體有助于我們更加充分地理解多模態(tài)新聞的語義,從而更好地捕捉虛假新聞的線索.例如,通過對圖片進(jìn)行名人及地標(biāo)識別,可以發(fā)現(xiàn)圖片中所展示的人物及地點與新聞文本描述不符;通過識別圖片中的敏感標(biāo)志及物體,可以強(qiáng)調(diào)文本中的相關(guān)實體,從而更好地理解多模態(tài)新聞的爭議點.因此,為充分建模虛假新聞圖片的語義特性,我們一方面提取圖片的視覺特征向量建模其質(zhì)量及風(fēng)格特性,另一方面引入外部模型顯式提取圖片中的視覺實體建模其深層語義.
至此,我們得到了文本的表達(dá)xt,文本及圖片文本的聯(lián)合表達(dá)xto、視覺實體序列的表達(dá)E以及視覺特征向量序列的表達(dá)V,本節(jié)將介紹如何融合上述多種異構(gòu)特征得到一個統(tǒng)一的多模態(tài)表達(dá).
圖片中可能存在多個視覺實體,但并非所有檢測到的實體都對虛假新聞分類的任務(wù)有幫助,融合所有的實體信息可能會導(dǎo)致信息冗余甚至引入噪聲.經(jīng)過觀察,我們發(fā)現(xiàn)能夠與文本對應(yīng)的視覺實體往往更加重要.因此,我們對圖片中識別到的多個視覺實體E=[e1,e2,…,en]進(jìn)行基于文本引導(dǎo)的注意力機(jī)制的融合.我們首先根據(jù)文本特征xt,計算每個視覺實體ei的重要性:
(3)
其中,W為隨機(jī)初始化并在訓(xùn)練過程中聯(lián)合優(yōu)化的參數(shù)矩陣,f(·)為激活函數(shù).我們對權(quán)值進(jìn)行歸一化:
(4)
并根據(jù)得到的權(quán)重對不同的視覺實體表示進(jìn)行加權(quán)求和,得到最終的視覺實體表示:
(5)
同樣地,圖片的不同區(qū)域?qū)τ谡Z義理解也具有不同的重要性.因此,我們對圖片不同區(qū)域的特征向量V=[v1,v2,…,vn]進(jìn)行基于文本引導(dǎo)的注意力機(jī)制的融合,得到最終的視覺特征向量表示:
(6)
(7)
(8)
經(jīng)過上述操作,我們得到了原始文本以及圖片文字的聯(lián)合表示xto,圖片的視覺實體表示xe以及圖片的視覺特征向量表示xv.這些特征從不同角度建模了輸入的多模態(tài)新聞不同層次的語義信息,具有一定的互補性.我們將這些特征拼接在一起,得到該條新聞最終的多模態(tài)表示:
x=xto⊕xe⊕xv,
(9)
其中,⊕是拼接操作.
在得到輸入新聞的多模態(tài)表示x之后,我們將其輸入全連接層,并將全連接層的輸出通過softmax層產(chǎn)生分類標(biāo)簽的分布:
p=softmax(WCx+bC),
(10)
其中,WC和bC是模型的參數(shù).我們采用交叉熵作為模型的損失函數(shù):
L=-∑[yflogpf+(1-yf) log(1-pf)],
(11)
其中,yf是樣本的真實標(biāo)簽,1表示該樣本為假新聞,0表示該樣本為真新聞;pf表示該樣本被預(yù)測為假新聞的概率.
在目前的虛假新聞研究中,公開的多模態(tài)數(shù)據(jù)集比較少,故在本文的后續(xù)實驗中主要討論在中文微博數(shù)據(jù)集上的性能,但是本文提出的模型同樣也適用于英文多模態(tài)虛假新聞數(shù)據(jù)集.這是因為本文提出的模型主要關(guān)注文本及圖片深層語義的提取和交互,與文本語言的表現(xiàn)形式關(guān)系不大.語言形式對模型的影響將在今后進(jìn)一步的工作中進(jìn)行驗證.
本文采用Jin等人[7]基于中文新浪微博平臺構(gòu)建的虛假新聞數(shù)據(jù)集.該數(shù)據(jù)集包含微博官方謠言舉報平臺上從2012-05—2016-01所有官方認(rèn)證為假的新聞消息,以及從新華社的熱點新聞發(fā)現(xiàn)系統(tǒng)采集的同時期的真實新聞的微博消息.由于社交媒體平臺上的消息存在一定噪聲和冗余,為保證數(shù)據(jù)集的質(zhì)量,Jin等人去除了重復(fù)圖像、過小的圖像以及垃圾圖像等.為更好地驗證模型在新的新聞事件上的泛化能力,在劃分訓(xùn)練數(shù)據(jù)、驗證數(shù)據(jù)及測試數(shù)據(jù)時,本文先將所有數(shù)據(jù)進(jìn)行聚類,得到不同的事件.在此基礎(chǔ)上對所有數(shù)據(jù)進(jìn)行事件級別的劃分,從而保證訓(xùn)練數(shù)據(jù)、驗證數(shù)據(jù)以及測試數(shù)據(jù)不會包含同一事件的新聞.由于整體數(shù)據(jù)量比較小,本文按照3∶1∶1的比例劃分最終的訓(xùn)練集、驗證集和測試集,相關(guān)數(shù)據(jù)指標(biāo)如表1所示.
Table 1 Statistics of the Dataset表1 數(shù)據(jù)集統(tǒng)計指標(biāo)
本文使用準(zhǔn)確率(accuracy)和假新聞類別上的F1值、精確率(precision)及召回率(recall)作為評估指標(biāo).在模型的實現(xiàn)上,預(yù)訓(xùn)練的ERNIE模型來自GitHub上的開源項目Transformers[38].在對VGG19進(jìn)行微調(diào)時,采用了圖片翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)的策略提升模型的泛化性能.句子的最大長度設(shè)置為128,batch size設(shè)置為64.使用ReLU作為非線性激活函數(shù),使用Adam方法[39]優(yōu)化損失函數(shù).
3.3.1 對比方法
為了驗證本文提出方法的有效性,我們實現(xiàn)了3類代表性的方法進(jìn)行性能對比.其中,attRNN方法由參考文獻(xiàn)[7]作者提供,其他方法由本文作者根據(jù)論文描述復(fù)現(xiàn).
1) 基于單文本模態(tài)的方法
① TextCNN.采用文獻(xiàn)[40]提出的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本分類.使用了3種不同大小的卷積核,高度分別為3,4,5.每一種卷積核的數(shù)目均設(shè)定為100.
② BiLSTM-Att.循環(huán)神經(jīng)網(wǎng)絡(luò)是文本分類任務(wù)中一種經(jīng)典的建模方法.本文選擇雙層的LSTM[41]和注意力機(jī)制堆疊成的網(wǎng)絡(luò)作為對比方法.其中,網(wǎng)絡(luò)的隱層單元數(shù)被設(shè)定為128.
③ BERT.預(yù)訓(xùn)練語言模型近年來在各類自然語言處理任務(wù)中表現(xiàn)優(yōu)越.采用在本文任務(wù)數(shù)據(jù)集上微調(diào)后的BERT模型作為對比.預(yù)訓(xùn)練的BERT模型bert-base-chinese來自GitHub開源項目Trans-formers[38].
④ ERNIE.采用在本文任務(wù)數(shù)據(jù)集上微調(diào)后的ERNIE模型作為對比.預(yù)訓(xùn)練的ERNIE模型nghuyong/ernie-1.0來自GitHub開源項目Trans-formers[38].
2) 基于單視覺模態(tài)的方法
① VGG19[34].在目前的多模態(tài)虛假新聞研究中,VGG19被廣泛用作視覺特征提取器.本文將在ImageNet數(shù)據(jù)集[37]上預(yù)訓(xùn)練的VGG19模型在本文任務(wù)數(shù)據(jù)集上進(jìn)行微調(diào).
② ResNet152[35].將在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet152模型在本文任務(wù)數(shù)據(jù)集上進(jìn)行微調(diào).
3) 基于多模態(tài)的方法
① attRNN.文獻(xiàn)[7]提出了一種基于注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò),用于融合文本、視覺及社交上下文3種模態(tài)的特征.其中,文本部分采用LSTM進(jìn)行建模,圖片部分采用預(yù)訓(xùn)練的VGG19進(jìn)行特征提取.為了對比的公平性,在具體實現(xiàn)時,我們移除了處理社交特征的部分.
② EANN.文獻(xiàn)[8]提出了一種基于事件對抗機(jī)制的神經(jīng)網(wǎng)絡(luò).通過引入事件分類器作為輔助任務(wù),引導(dǎo)模型學(xué)習(xí)到與事件無關(guān)的多模態(tài)特征.該模型分別采用TextCNN和預(yù)訓(xùn)練的VGG19進(jìn)行文本及視覺模態(tài)特征提取,并將2種模態(tài)特征進(jìn)行拼接,作為虛假新聞的多模態(tài)特征表達(dá),輸入到虛假新聞分類器及新聞事件分類器中.
③ MVAE.文獻(xiàn)[9]提出了一種結(jié)合多模態(tài)變分自動編碼器和虛假新聞檢測器的多任務(wù)模型.其中,文本和圖片分別通過雙向LSTM及預(yù)訓(xùn)練的VGG19進(jìn)行特征提取,兩者的拼接特征被編碼為一個中間表達(dá),用于重構(gòu)輸入特征及虛假新聞分類.
④ KMGCN.文獻(xiàn)[28]提出了一種知識引導(dǎo)的多模態(tài)圖卷積網(wǎng)絡(luò).該方法從外部的百科知識圖譜中提取文本中出現(xiàn)的命名實體所對應(yīng)的概念作為外部知識.該方法對每條輸入的多模態(tài)新聞都會構(gòu)建一個圖,圖的節(jié)點包括文本中的單詞、文本實體所對應(yīng)的概念以及圖片中識別到的物體名稱,節(jié)點通過預(yù)訓(xùn)練的Word2Vec詞向量進(jìn)行初始化,邊的權(quán)重設(shè)置為2個單詞的PMI值.通過2層圖卷積網(wǎng)絡(luò)及最大池化得到圖表達(dá)用于虛假新聞分類.
3.3.2 結(jié)果分析
表2列出了對比實驗的結(jié)果,觀察可得到結(jié)論:
Table 2 Performance Comparison of Different Methods表2 不同方法的性能比較
1) 我們的方法在分類準(zhǔn)確率上顯著超過其他對比方法,說明本文提出的這種語義增強(qiáng)的多模態(tài)模型確實能夠有效提升虛假新聞檢測的性能.尤其在虛假新聞的召回率上,我們的方法超出其他方法7個百分點以上,說明我們的模型可以通過充分挖掘多模態(tài)語義線索,檢測到被現(xiàn)有方法遺漏的虛假新聞.
2) 在基于多模態(tài)的方法中,KMGCN顯著低于其他對比方法.主要的原因可能是GCN對于微博這類短文本的建模能力較差,在此基礎(chǔ)上無法很好地體現(xiàn)外部知識的作用.另外,KMGCN僅提取了圖片中的物體標(biāo)簽信息,對于圖片語義建模不充分.
3) 基于單文本模態(tài)的方法要優(yōu)于基于單視覺模態(tài)的方法,說明虛假新聞檢測主要依靠文本線索.基于多模態(tài)的方法要優(yōu)于具有相同子網(wǎng)絡(luò)結(jié)構(gòu)的單模態(tài)方法,說明文本和圖片模態(tài)能夠為虛假新聞檢測任務(wù)提供互補的線索.其中,我們提出的方法與ERNIE相比,準(zhǔn)確率提升了4.3個百分點,進(jìn)一步證明了圖片語義特征的重要性.
4) 在基于單文本模態(tài)的方法中,預(yù)訓(xùn)練語言模型要優(yōu)于CNN,RNN等傳統(tǒng)的文本建模方法.這種提升一方面來源于Transformer更強(qiáng)大的建模能力,另一方面受益于預(yù)訓(xùn)練語言模型從大量預(yù)訓(xùn)練語料中學(xué)習(xí)到的語言學(xué)知識.ERNIE的效果要優(yōu)于BERT,這說明增加實體概念知識可以增強(qiáng)對新聞的語義理解,進(jìn)而提升虛假新聞的檢測效果.
3.4.1 對比方法
為驗證不同的模型組件對實驗結(jié)果的影響,我們設(shè)計了5種模型的變體,對模型進(jìn)行消去分析.
1) 去掉ERNIE.對文本及圖片文本進(jìn)行建模時,用雙向LSTM結(jié)合注意力機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu)替換ERNIE;獲取視覺實體表示時,用預(yù)訓(xùn)練的Word2Vec詞向量替代ERNIE生成的詞向量表示.
2) 去掉OCR文本.移除提取及處理圖片文字的部分.此時輸入信息的多模態(tài)表示由原始文本的特征表達(dá)和原始文本引導(dǎo)下的視覺特征向量、視覺實體向量拼接而成.
3) 去掉視覺實體.移除提取及處理圖片中視覺實體的部分.此時輸入信息的多模態(tài)表示由原始文本和圖片文本的聯(lián)合表示及原始文本引導(dǎo)下的視覺特征向量拼接而成.
4) 去掉特征向量.移除處理圖片視覺特征向量的部分.此時輸入信息的多模態(tài)表示由原始文本和圖片文本的聯(lián)合表示及原始文本引導(dǎo)下的視覺實體向量拼接而成.
5) 去掉注意力機(jī)制.移除視覺實體及視覺特征向量在文本引導(dǎo)下的注意力機(jī)制.此時多個視覺實體向量和視覺特征向量分別通過平均操作進(jìn)行融合.
3.4.2 結(jié)果分析
表3列出了消去分析的實驗結(jié)果,可以得到2個結(jié)論:
Table 3 Ablation Study表3 消去分析
1) 移除模型的任何部分,模型的分類準(zhǔn)確率都會出現(xiàn)一定程度的下降,這說明了模型各元素的有效性.
2) 按照移除后模型分類準(zhǔn)確率的下降程度,可以將各模型組件的重要性排序如下:ERNIE>圖片文本>視覺實體>視覺特征向量=注意力機(jī)制.這說明對于虛假新聞檢測任務(wù),文本比圖片發(fā)揮的作用更重要,圖片的高層語義比低層語義更重要.
為了更加直觀地展示本文方法的優(yōu)越性,我們對比了本文模型和表2列出的對比方法中性能最好的ERNIE模型在測試集上的預(yù)測結(jié)果,并對ERNIE模型無法檢測但本文模型能夠成功檢測到的多模態(tài)虛假新聞進(jìn)行分析.圖4展示了3條代表性的樣例,分別體現(xiàn)了圖片的視覺特征向量、視覺實體和圖片文本對于虛假新聞檢測的重要性.
Fig. 2 Examples of multi-modal fake news detected by our model圖2 本文模型成功檢測的多模態(tài)假新聞示例
① 該假新聞示例已被新浪微博社區(qū)管理中心判定為不實信息 https://service.account.weibo.com/show?rid=K1CaJ6g5f7aYd.新聞文本已在不影響語義的前提下進(jìn)行刪減展示
② 該假新聞示例已被新浪微博社區(qū)管理中心判定為不實信息 https://service.account.weibo.com/show?rid=K1CaJ6wpc66kl.新聞文本已在不影響語義的前提下進(jìn)行刪減展示
③ 該假新聞示例已被新浪微博社區(qū)管理中心判定為不實信息 https://service.account.weibo.com/show?rid=K1CaJ7Apk7aci.為避免引起讀者不適,新聞圖片及OCR文字中的謾罵言語已被隱去
圖4(a)中的新聞配圖清晰度較低,重壓縮造成的塊狀效應(yīng)明顯,說明該張圖片很可能是從網(wǎng)上下載的來自其他事件的過時圖片,而非在本次事件中現(xiàn)場拍攝的圖片.本文模型通過提取圖片的視覺特征向量對圖片質(zhì)量進(jìn)行建模,可以判斷該條新聞為假的可能性較大.圖4(b)中,通過提取圖片中的視覺實體,可以識別出該條新聞配圖里的人物為女演員瑞切爾·蕾·庫克(Rachael Leigh Cook),而非文本中所說的比爾蓋茨的女兒.本文模型通過提取圖片中的視覺實體并利用預(yù)訓(xùn)練語言模型中隱含的事實知識,可以發(fā)現(xiàn)圖文語義的沖突點,作為虛假新聞的線索.圖4(c)為以圖片為主體的多模態(tài)新聞,其原始文本中包含的信息量較少,不足以提供假新聞判定的線索.只有對圖片進(jìn)行文字提取,才能充分理解該條新聞的語義,從而發(fā)現(xiàn)虛假新聞的線索.
針對現(xiàn)有方法對于多模態(tài)新聞?wù)Z義理解不足的問題,本文提出了一種語義增強(qiáng)的多模態(tài)虛假新聞檢測方法.通過隱式利用外部模型中存儲的大量事實知識,更好地理解多模態(tài)新聞的深層語義.提取不同語義層次的視覺特征,并采用文本引導(dǎo)的注意力機(jī)制建模圖文之間的語義交互,從而更好地融合多模態(tài)異構(gòu)特征.實驗結(jié)果表明:本文提出的方法在準(zhǔn)確率上大幅超越當(dāng)前最好的方法,證明了基于語義增強(qiáng)方法的有效性.