景全亮 范鑫鑫 王保利 畢經(jīng)平 譚海寧
(中國科學(xué)院計算技術(shù)研究所 北京100190)
(中國科學(xué)院大學(xué) 北京100049)
近年來,隨著社交媒體(新浪微博、Twitter、Facebook 等)應(yīng)用的發(fā)展普及,獲取信息的方式正在發(fā)生改變,人們花費(fèi)在社交媒體上的時間越來越長[1],越來越多的人正在從社交媒體等渠道中獲取信息,而不是從報紙、電視等傳統(tǒng)、正規(guī)的渠道,例如,2016 年有62%的美國成年人在社交媒體上獲得新聞,而在2012 年該比例只占49%。由于社交媒體等應(yīng)用的開放性,每天都會有成千上萬的消息在社交媒體中發(fā)表、傳播,但是各機(jī)構(gòu)并沒有對各類信息進(jìn)行有效的甄別,各類假消息層出不窮,對人們的生活造成了重大影響[2-3]。這已經(jīng)成為各社交媒體、政府、社會面臨的主要問題之一。
傳統(tǒng)社交媒體的內(nèi)容僅僅是文字信息,人們可以通過專家標(biāo)注、分類方法[4-6]、圖模型[7-9]等技術(shù)手段識別假消息。隨著多媒體和計算機(jī)通信等技術(shù)的快速發(fā)展,社交媒體的內(nèi)容越來越多樣化,用戶可以通過社交媒體發(fā)表文字、圖片以及短視頻信息,這吸引了越來越多人的關(guān)注,同時,由于人們可以隨意對文本、圖像、視頻等多種信息進(jìn)行偽造、拼接[10-11],這給假消息的檢測帶來了挑戰(zhàn)。
本文的目標(biāo)是檢測同時包含了文本和圖像的虛假消息。文本和圖像提供了豐富的信息[10,12-13],為假消息的檢測提供了各種技術(shù)途徑。有些消息從文本特征即可判斷真假[4,14-15],有些消息從圖像內(nèi)容即可識別真假[6-7],然而,有些消息需要使用圖像和文本數(shù)據(jù)聯(lián)合判斷才能更加準(zhǔn)確地判定是否為假消息[10,12,16]。
現(xiàn)階段,基于傳統(tǒng)的特征提取方法和基于深度學(xué)習(xí)的方法都已經(jīng)被應(yīng)用到假消息的檢測任務(wù)中。文獻(xiàn)[4]試圖從消息的文本內(nèi)容中提取特征進(jìn)行假消息的檢測,文獻(xiàn)[17]利用人工提取的特征構(gòu)建決策樹模型實(shí)現(xiàn)假消息的識別。文獻(xiàn)[11]利用引入注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)實(shí)現(xiàn)假消息的識別。在利用多類型數(shù)據(jù)方面,基于深度學(xué)習(xí)的方法能夠提取更加相關(guān)的特征,取得了比傳統(tǒng)方法更好的效果。文獻(xiàn)[10]受自動編碼器思想的啟發(fā),嘗試通過學(xué)習(xí)文本和圖像的共享表示形式,以此檢測假消息。文獻(xiàn)[12]通過基于注意力機(jī)制,利用視覺、文本和社交環(huán)境特征來預(yù)測假新聞。文獻(xiàn)[16]使用一個額外的事件判別器來學(xué)習(xí)所有消息中所有事件之間共享的共同特征,基于此特征通過一個假消息的檢測器判斷消息的真假。
針對同時包含圖像和文本的假消息檢測,目前深度學(xué)習(xí)模型尚存在以下的缺陷或不足。首先,現(xiàn)有模型往往通過獨(dú)立分支各自獲取圖像和文本特征,并將其拼接的方式實(shí)現(xiàn)各模態(tài)信息的利用,該種使用方式?jīng)]有考慮文本和圖像之間的關(guān)系,如文本和圖像是否匹配等,從而降低了假消息檢測的準(zhǔn)確度,同時,現(xiàn)有的檢測模型對于圖像特征的提取比較粗糙,僅僅獲取了整個圖像的總體特征,沒有對圖像進(jìn)行細(xì)粒度的處理,進(jìn)一步影響檢測準(zhǔn)確性;其次,社交媒體中含有大量的圖像和文本數(shù)據(jù),該類數(shù)據(jù)包含的信息可以增強(qiáng)假消息識別的準(zhǔn)確率,但是現(xiàn)有的方法僅僅基于標(biāo)準(zhǔn)的訓(xùn)練集,并沒有充分利用社交媒體中的圖像和文本數(shù)據(jù),造成模型不能充分理解未包含訓(xùn)練集中特征的消息,導(dǎo)致對該類型假消息檢測準(zhǔn)確度低。
為了解決以上問題,亟需探索如何構(gòu)建有效的模型融合文本和圖像信息以便更加精確地識別假消息。本工作首先通過將文本和圖像信息同時經(jīng)由Transformer[18]模型處理和預(yù)訓(xùn)練,學(xué)習(xí)兩者的融合表示;然后基于已標(biāo)注數(shù)據(jù)集對預(yù)訓(xùn)練的模型進(jìn)行參數(shù)調(diào)整,學(xué)習(xí)一個針對該任務(wù)的模型參數(shù);最后通過該調(diào)整的模型識別假消息。
本文的主要貢獻(xiàn)如下。
(1) 提出了一種融合社交媒體消息中文本和圖像的模型,通過該模型可以有效學(xué)習(xí)文本和圖像的融合表示。
(2) 所提融合模型充分利用了已有的海量社交媒體數(shù)據(jù),提高了假消息識別的準(zhǔn)確率,同時緩解了在數(shù)據(jù)分布不均衡時模型檢測準(zhǔn)確率下降過快的問題。
(3) 在真實(shí)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,相較于當(dāng)前主流方法,本文提出的假消息檢測方法可以更有效地識別消息的真假。
本文剩余部分總結(jié)如下:第1 節(jié)介紹了假消息檢測相關(guān)工作,同時介紹了在多模態(tài)融合方面的研究進(jìn)展;第2 節(jié)介紹了本文模型所使用的大規(guī)模數(shù)據(jù)獲取方法;第3 節(jié)詳細(xì)描述了本文提出的假消息檢測框架和方法;第4 節(jié)通過充分的實(shí)驗(yàn)對本研究中提出的方法進(jìn)行了有效的驗(yàn)證,并分析實(shí)驗(yàn)結(jié)果;第5 節(jié)總結(jié)了對本文的工作并展望未來發(fā)展方向和前景。
本節(jié)將詳細(xì)介紹目前主流的面向文本和圖像的假消息檢測相關(guān)工作?,F(xiàn)階段,假消息的檢測方法主要可以分為兩類,即基于單模態(tài)的方法和基于多模態(tài)的方法。
首先,在基于單模態(tài)的檢測方法中,文獻(xiàn)[4,14]基于文本的統(tǒng)計特征或者語義特征探索消息的可信性。文獻(xiàn)[4]基于消息、用戶、主題以及傳播數(shù)據(jù),構(gòu)建決策樹實(shí)現(xiàn)消息可信度的評估。文獻(xiàn)[14]把假消息的檢測問題轉(zhuǎn)化為分類問題,基于支持向量機(jī)(support vector machine,SVM)的方法,利用從推文中提取的45 個特征,包括推文內(nèi)容、作者特征以及有關(guān)外部URL 的信息等,對推文的可信度進(jìn)行評分,依此識別虛假消息。文獻(xiàn)[19]提出了一種在開放域中對非結(jié)構(gòu)化文本進(jìn)行可信度分析的通用方法,利用消息的語言風(fēng)格和來源可靠性來評估其可信度。文獻(xiàn)[11]利用深度學(xué)習(xí)的方法提取文本時空特征進(jìn)行假消息的識別。文獻(xiàn)[15]提出了一種基于遞歸神經(jīng)網(wǎng)絡(luò)的深度關(guān)注模型,選擇性地學(xué)習(xí)文本的表示形式以進(jìn)行謠言識別。該模型將注意力機(jī)制用在遞歸層面學(xué)習(xí)不同特征,并生成隱藏的表示,以捕獲相關(guān)推文隨時間變化的情況。以上現(xiàn)有的各類方法一方面需要人工提取特征,且提取何種類型的特征需要領(lǐng)域?qū)<业膮⑴c,耗時耗力。除此之外,需要人工提取的特征,比如傳播數(shù)據(jù)、關(guān)注數(shù)等,往往在微博消息發(fā)表的初期是采集不到的,限制了該類方法的實(shí)時性;另一方面,僅僅通過文本信息的特定特征識別假消息,忽略了微博中包含的其他模態(tài)信息對檢測的作用。
此外,最近的研究表明,視覺特征是用來檢測假新聞非常重要的依據(jù)[1,6]。但是,關(guān)于驗(yàn)證社交媒體上多媒體內(nèi)容的可信度的研究非常有限[10]。此外,文獻(xiàn)[6,7]探索研究了微博內(nèi)容中的視覺信息基本特征的提取,但是這些特征的獲取仍是采用人工方式,不能代表視覺內(nèi)容的復(fù)雜分布[10],因此通過這些特征并不能很好地識別假消息。
還有,社交上下文信息也為假消息的檢測提供豐富的信息,比如消息傳播方式、轉(zhuǎn)發(fā)數(shù)、評論數(shù)和評論內(nèi)容等。文獻(xiàn)[20]探索利用消息的傳播模式挖掘假消息出現(xiàn)時特定的特征。然而,消息傳播此類數(shù)據(jù)的獲取十分困難,且需要消息傳播之后才能檢測,無法做到實(shí)時或者準(zhǔn)實(shí)時地進(jìn)行真假識別。
僅基于文本或者圖像數(shù)據(jù)進(jìn)行假消息檢測的方法,忽略了兩者之間包含的隱形關(guān)聯(lián)信息,因此,近幾年通過融合圖像和文本信息的檢測方法逐漸被提出來。
現(xiàn)階段,由于深度學(xué)習(xí)在算力、模型處理能力等各方面的提升,大部分多模態(tài)融合模型均是基于深度學(xué)習(xí)的思路,包括圖像描述(image captioning)[20-21]和視覺問答(visual question answering,VQA)[22]。在基于多模態(tài)數(shù)據(jù)的假消息檢測方面,文獻(xiàn)[12]采用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)融合圖像、文本和社交上下文信息,其中,社交上下文信息是一些統(tǒng)計信息,包括正面詞匯數(shù)量、負(fù)面詞匯數(shù)量、URL 中包含的@符號數(shù)量、微博文本的情感得分、評論的數(shù)量等信息。對于給定的推文,首先讓其文字和社交上下文信息采用長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)方式融合;然后將上一步獲取的融合表示與采用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)方法獲取的視覺特征融合。在融合過程中,LSTM 的每一個時間步長的輸出都會采用注意力機(jī)制和視覺特征融合。文獻(xiàn)[16]模型主要由3個主要部分組成,即多模態(tài)特征提取器、事件鑒別器和假新聞檢測器。事件鑒別器采用對抗神經(jīng)網(wǎng)絡(luò)方式移除特定事件的特征,確保模型學(xué)習(xí)到推文中和事件無關(guān)的圖像和文字的共享特征,通過學(xué)習(xí)識別虛假新聞的可辨別表示,提高假新聞檢測的準(zhǔn)確率。文獻(xiàn)[10]采用了變分自動編碼器(variational autoencoder)思想,模型由3 個主要部分組成,即一個編碼器、一個解碼器和一個假新聞檢測器,解決了在推文多模態(tài)數(shù)據(jù)之間學(xué)習(xí)共享表示這一挑戰(zhàn),以幫助假新聞檢測。以上的相關(guān)方法存在的缺陷是:在已有帶標(biāo)簽的數(shù)據(jù)集上訓(xùn)練,沒有充分使用社交媒體中無標(biāo)簽的數(shù)據(jù)信息;同時也沒有考慮針對圖像的細(xì)粒度處理。
在融合模型方面,文獻(xiàn)[23]提出了雙向注意力來解決視覺和語言任務(wù),提出了一種新的聯(lián)合圖像和文本特征的協(xié)同顯著性的概念,使得兩個不同模態(tài)的特征可以相互引導(dǎo)。此外,該文作者也對輸入的文本信息,從多個角度進(jìn)行加權(quán)處理,構(gòu)建多個不同層次的圖像問題聯(lián)合注意力映射(image-question co-attention maps),即詞級別(word-level)、短語級別(phrase-level)和問題級別(question-level)。最后,在短語級別,作者提出一種新穎的卷積-池化策略(convolution-pooling strategy)自適應(yīng)地選擇短語規(guī)模。文獻(xiàn)[24]對模型和注意力機(jī)制進(jìn)行了詳細(xì)的探究,提出了經(jīng)典的BiDAF(雙向注意流)模型,該模型計算了兩種注意力,從上下文到問題,以及從問題到上下文。文獻(xiàn)[18]在機(jī)器翻譯任務(wù)中提出了Transformer 模型,之后被應(yīng)用于各類任務(wù)中。Bert[25]是Google 在NLP 方面的一個重要工作,使NLP 預(yù)訓(xùn)練模型思想更加得成熟,可以說一定程度上改變了NLP 領(lǐng)域的研究方式,之后基于預(yù)訓(xùn)練思想的各類模型出現(xiàn)[26-27]。總體的思想都是采用通用模型架構(gòu)在語料庫(Corpus)上預(yù)訓(xùn)練(pre-training);然后針對具體的任務(wù),在通用模型架構(gòu)上增加幾層,固定通用模型的參數(shù),微調(diào)(fine-tuning)增加的若干層參數(shù)。在跨模態(tài)信息融合方面,LXMERT[26]構(gòu)建了一個多層的Transformer 模型,它含有3 個編碼器:即一個對象關(guān)系編碼器、一個語言編碼器和一個跨模態(tài)編碼器。首先,采用對象關(guān)系編碼器和語言編碼器分別對文本和圖像單獨(dú)建模表示,然后將兩種模態(tài)的結(jié)果與交叉模態(tài)轉(zhuǎn)換器結(jié)合在一起。為了讓模型具備聯(lián)系視覺和語言語義的能力,用了大量的圖像和句子對進(jìn)行了模型預(yù)訓(xùn)練。文獻(xiàn)VisualBERT[27]采用了一組層疊的Transformer 層,使用自我注意力機(jī)制把輸入的一段文本和一張輸入圖像中的區(qū)域隱式地對齊起來。同時,作者還提出了兩個在圖像描述數(shù)據(jù)上的視覺-語言關(guān)聯(lián)學(xué)習(xí)目標(biāo),用于VisualBERT 的預(yù)訓(xùn)練。以上的模型主要是基于有標(biāo)簽數(shù)據(jù)集應(yīng)用于VQA、VCR 等任務(wù),且大部分的模型都是通過兩個單獨(dú)分支對文本和圖像分別處理,然后再對各自得到的結(jié)果融合。本文提出的模型借鑒了語言模型中的Bert 思想,基于公眾媒體平臺上的大規(guī)模無標(biāo)簽數(shù)據(jù)實(shí)現(xiàn)自監(jiān)督學(xué)習(xí),實(shí)現(xiàn)文本和圖像融合,通過預(yù)訓(xùn)練步驟實(shí)現(xiàn)在沒有額外顯式監(jiān)督的條件下學(xué)習(xí)多模態(tài)的高階特征,然后基于有標(biāo)簽數(shù)據(jù)微調(diào)模型,最終利用圖像和文本的融合表示識別假消息。
在假新聞檢測方面,先前的工作對圖像的處理都是采用預(yù)訓(xùn)練的CNN 模型,比如VGG19,獲取整張圖像的特征。但最近的研究工作[28-30]均建議對圖像進(jìn)行細(xì)粒度處理,使用圖像目標(biāo)檢測模型獲取重點(diǎn)區(qū)域(regions of interest,ROI)作為圖像的描述信息,然后把重點(diǎn)區(qū)域作為模型的輸入。其中,文獻(xiàn)[29]把圖像檢測模型和Bert 模型結(jié)合,同時進(jìn)行訓(xùn)練。從以上的研究中可以看出,基于圖像重點(diǎn)區(qū)域的圖像描述信息可以輸入模型中,從而取得很好的效果。
本文提出的基于預(yù)訓(xùn)練思想的假消息檢測方法將圖像進(jìn)行細(xì)粒度處理,獲取圖像各個重點(diǎn)區(qū)域,然后將圖像各個重點(diǎn)區(qū)域和文本信息一同作為模型輸入進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)圖像和文本的融合表示,進(jìn)行假消息的識別。該方法不僅可以充分使用社交媒體網(wǎng)絡(luò)中已有的圖像和文本信息,同時也有效地緩解由數(shù)據(jù)不均衡導(dǎo)致的假新聞檢測準(zhǔn)確度不高的問題。
本節(jié)主要介紹如何收集大量的同時含有圖像和文本的數(shù)據(jù)集。目前,在自然語言處理領(lǐng)域,有非常多的文本語料可以使用,包括BooksCorpus[31]、Wikipedia 和新聞?wù)Z料[32]等;同時,在涉及圖像和文本融合的任務(wù)中,現(xiàn)階段,大部分的預(yù)訓(xùn)練模型[27-29,33]都是采用兩個數(shù)據(jù)集:The Conceptual Captions(TCC)[34]和SBU Captions[35],其中,TCC 數(shù)據(jù)集從互聯(lián)網(wǎng)中的網(wǎng)頁收集,含有300 萬張圖片以及對圖片的描述信息,SBU 數(shù)據(jù)集含有100 萬張圖片以及對應(yīng)的標(biāo)題。本文的目標(biāo)是識別同時含有圖像和文字的假消息,由于社交網(wǎng)絡(luò)中不同用戶發(fā)表的圖片和文字消息在語言風(fēng)格、內(nèi)容等方面有較大的差異,檢測模型不能直接應(yīng)用于以上數(shù)據(jù)集,因此需要在社交媒體中收集大量的高質(zhì)量的同時含有圖像和文字的數(shù)據(jù)作為預(yù)訓(xùn)練集。
基于以上需求,本文設(shè)計了社交媒體數(shù)據(jù)收集方法,下面以新浪微博為例,說明采集數(shù)據(jù)的具體過程。
數(shù)據(jù)采集。微博用戶達(dá)到數(shù)億級別,每個用戶發(fā)表信息的質(zhì)量參差不齊。為了確保采集數(shù)據(jù)的質(zhì)量,從權(quán)威用戶發(fā)布的信息中采集數(shù)據(jù),文獻(xiàn)[16]使用的微博數(shù)據(jù)集中的真消息都是從微博權(quán)威用戶中獲取的,比如人民日報、新華網(wǎng)等,因此以本數(shù)據(jù)集中的權(quán)威用戶為基礎(chǔ),爬取該類用戶的數(shù)據(jù)。本文所采集的數(shù)據(jù)年份為2010 年9 月至2020 年4月,采集的原始數(shù)據(jù)數(shù)量為18 萬條。
數(shù)據(jù)過濾。在收集數(shù)據(jù)的過程中,為了獲取高質(zhì)量的數(shù)據(jù),根據(jù)圖像的內(nèi)容和文本的內(nèi)容對數(shù)據(jù)進(jìn)行過濾。針對圖像,把圖像低于300 ×300 像素的數(shù)據(jù)丟棄,同時,也將丟棄不能被模型識別的GIF 動態(tài)圖;針對文本信息,把文本低于10 個字的數(shù)據(jù)丟棄。為了確保文本信息的質(zhì)量,會過濾一些特殊的符號,比如@、空格等信息。最終,過濾之后,收集了大約13 萬條同時包含圖像和文字的數(shù)據(jù)。
圖1 是模型的整體框架,本文借鑒自然語言處理領(lǐng)域中Bert 模型思想,使用Transformer 作為基礎(chǔ)的結(jié)構(gòu)。Bert 中學(xué)習(xí)的是文本之間的相互關(guān)系,本文和Bert 不同的是,本文的模型需要學(xué)習(xí)文本、圖像以及文本和圖像之間的關(guān)聯(lián)關(guān)系,因此在模型數(shù)據(jù)輸入階段,本文會將圖像看作文本,同時把圖像和文本的表示輸入模型中。圖像和文本采用不同的編碼器分別進(jìn)行編碼,其中,圖像的編碼通過圖像檢測模型Faster-RCNN[36]獲取,該模型會對一張圖像進(jìn)行分割,提取重要的區(qū)域;模型中文本的每一個輸入代表一個字。圖像和文本輸入模型經(jīng)過多層Transformer 之后,模型會融合兩種模態(tài)的數(shù)據(jù),最終學(xué)習(xí)一個文本和圖像的融合表示。
本文采用模型在訓(xùn)練時包括兩個階段:預(yù)訓(xùn)練階段和微調(diào)階段。兩個階段數(shù)據(jù)輸入一致,都包括圖像和文本,不同的是在微調(diào)階段僅需一個目標(biāo)任務(wù)即可。本節(jié)將詳細(xì)介紹以上兩個階段,其中,在預(yù)訓(xùn)練階段將說明采用何種預(yù)訓(xùn)練任務(wù)使模型獲取好的模型預(yù)訓(xùn)練參數(shù),從而可以在微調(diào)階段獲取較優(yōu)的模型參數(shù)以進(jìn)行假消息的識別。
模型輸入包含文本和圖像兩部分,下面分別予以說明。
文本嵌入表示。首先需要構(gòu)造模型的文本輸入,本文采用中文全詞覆蓋(whole word masking)的方法處理文本信息[37]。
文本數(shù)據(jù)采用上述方法處理完成之后,整個文本就分成了詞的序列。在文本序列的起始位置添加特殊字符[CLS],在序列的結(jié)束位置添加特殊字符[SEP]。字符[CLS]的作用是在模型輸出時作為圖像和文本的共享表示,字符[SEP]的作用是作為圖像和文本的分隔符。之后,如式(1)~(3)所示,需要做字符嵌入wei、字符位置嵌入wpei和輸入類型的嵌入wtei,通過各個嵌入層,把各信息映射至向量,其中輸入類型表示輸入的是文本還是圖像。
式中wi代表了第i個位置的詞語,wti代表了輸入類型。最后采用和Bert 中相同的策略,每一個字符的嵌入表示是字符嵌入、字符位置嵌入和輸入類型的嵌入的加和。
圖像嵌入表示。與現(xiàn)有工作不同,本文直接采用通過預(yù)訓(xùn)練的CNN 模型提取圖片的特征。本文應(yīng)用預(yù)訓(xùn)練好的Faster-RCNN 模型[36]提取n個候選框(RoI),該預(yù)訓(xùn)練模型基于ResNet-101 實(shí)現(xiàn),使用了Visual Genome 數(shù)據(jù)集預(yù)訓(xùn)練。RoI 用其特征和對應(yīng)的坐標(biāo)位置表示,把提取出來的n個RoI 的特征標(biāo)識為{c1,c2,…,cn},每一個ci是一個2048維度的向量,該維度是Faster-RCNN 模型提供的向量維度;每一個RoI 的位置標(biāo)識為{p1,p2,…,pn},每一個元素代表RoI 的具體位置信息:
圖像信息的表示生成和文本信息處理過程類似,可以把n個RoI 看做n個單詞。需要對這n個RoI 進(jìn)行特征嵌入、位置嵌入、類型嵌入、圖像坐標(biāo)位置嵌入。其中,針對特征嵌入,由于已經(jīng)獲取了每一個區(qū)域的特征,特征映射的作用是把特征向量采用多層感知機(jī)方式映射到和文本相同維度的向量空間。與文本處理不同的是,本文同時應(yīng)用了RoI 在圖像中的具體坐標(biāo)位置信息:
最終,每一個圖像的嵌入表示是特征嵌入、位置嵌入、類型嵌入和圖像坐標(biāo)位置嵌入的總和,即:
位置和類型嵌入表示。無論是文本還是圖像數(shù)據(jù)都使用位置嵌入信息,其目的是為了表示每一個元素在序列中的位置,其中,文本信息有著嚴(yán)格的順序,按照從小到大的順序排序。對于圖像輸入,由于每一個圖像之間沒有嚴(yán)格的順序關(guān)系,因此在圖像的位置嵌入中,位置變量都設(shè)置了相同的固定值;同時,類型表示輸入的是文本還是圖像,是為了區(qū)分多模態(tài)信息。針對文本信息的類型嵌入,類型變量全部取0,即wti=0;針對圖像信息的類型嵌入,類型變量全部取1,即vti=1。
本小節(jié)將詳細(xì)介紹模型在預(yù)訓(xùn)練過程中所采用的預(yù)訓(xùn)練任務(wù)。本文主要采用了4 種預(yù)訓(xùn)練任務(wù),分別是掩碼語言模型(masked language modeling,MLM)、掩碼區(qū)域分類(masked ROI classification,MRC)、掩碼區(qū)域特征回歸(masked ROI regression,MRR) 和多模態(tài)匹配(cross-modality matching,CMM)。
掩碼語言模型。在文本輸入模型時會遮掩一部分詞,在模型的最終輸出時預(yù)測這些被遮掩的詞,其目的是為了捕捉句內(nèi)不同單詞之間的關(guān)系。與Bert[25]模型不同的是,在預(yù)測這些被遮掩詞的時候,不但利用了文本中非遮掩的詞,同時也利用了先前提取的n個RoI 信息,基于此種方式,可有效捕獲視覺和語言內(nèi)容之間的依賴關(guān)系。在執(zhí)行遮掩時,文本中的詞會隨機(jī)按照15%的概率遮掩,具體地,如果某個詞匯被選中遮掩,那么有3 種遮掩方式:(1)該詞以80%的概率被一個特殊字符[MASK]代替;(2)該詞以10%的概率替換為任意的詞;(3)該詞以10%的概率保持不變。在預(yù)測時,本文采用常用的交叉熵作為損失函數(shù):
式中D代表訓(xùn)練數(shù)據(jù)集,代表文本中被遮蓋的M個詞中的第j個,s() 為真實(shí)標(biāo)簽值。對應(yīng)于Transformer 模型中針對該位置的輸出向量。通過添加一個多層感知機(jī)以預(yù)測正確的詞語,多層感知機(jī)的輸入即,輸出為hk()。
掩碼區(qū)域分類。通過遮掩視覺特征并預(yù)測視覺分類信息,讓模型理解視覺,達(dá)到讓視覺信息和文本信息匹配對齊的目的。由于預(yù)測視覺分類信息是同時基于未被遮掩的文本信息和視覺信息,促進(jìn)了視覺信息和語言信息的融合。遮掩視覺特征信息時,和掩碼語言模型類似,會隨機(jī)按照15%的概率遮掩視覺特征。在這里,同樣有3 種遮掩的方式:(1)該視覺特征以80%的概率被0 代替;(2)該詞以10%的概率替換為任意的其他特征;(3)該詞以10%的概率保持不變。在預(yù)測時需要用到分類的標(biāo)簽信息,此信息從Faster R-CNN[34]中獲取,同樣采用交叉熵作為損失函數(shù):
其中,代表被遮蓋的N個RoI 中的第i個,l()為真實(shí)標(biāo)簽值。對應(yīng)于Transformer 模型中針對該位置的輸出向量,通過添加一個多層感知機(jī)以預(yù)測正確的分類,多層感知機(jī)的輸入即,輸出為
掩碼區(qū)域特征回歸。該任務(wù)和MRC 的目的相同,都是為了能夠讓模型學(xué)習(xí)理解視覺信息,讓視覺信息和文本信息匹配對齊。MRR 和MRC 相比,可以更加精確地學(xué)習(xí)視覺信息。該任務(wù)的目標(biāo)是針對遮掩的視覺區(qū)域,能夠預(yù)測具體的特征。在實(shí)現(xiàn)的過程中,本文會在Transformer 模型的輸出之后,添加一個全連接層,該層輸出維度和視覺特征的輸入維度一致,在這里使用的損失函數(shù)是L2 損失函數(shù)。
多模態(tài)匹配。除了以上3 個關(guān)于文本和視覺的任務(wù)之外,本文還設(shè)置了一個多模態(tài)的匹配任務(wù),該任務(wù)的目的是為了讓模型學(xué)習(xí)文本信息和視覺信息是否匹配。在訓(xùn)練的過程中,針對每一條包含圖像和文本的訓(xùn)練數(shù)據(jù),本文以0.5 的概率替換訓(xùn)練條目的視覺信息為其他任意視覺信息,使文本和視覺信息不匹配,以此生成負(fù)樣本。模型會訓(xùn)練一個分類器對是否匹配做出預(yù)測,在模型輸入章節(jié),在文本的前面添加一個特殊字符[CLS];在訓(xùn)練時,會在該特殊字符的輸出后面添加一個全連接層,得到一個分類結(jié)果,采用二分類交叉熵作為損失函數(shù)。
其中,代表特殊字符[CLS]的模型輸出,hf()為通過添加一個多層感知機(jī)以預(yù)測多模態(tài)信息是否匹配的輸出值,yf為真實(shí)標(biāo)簽值。
該模型的完整目標(biāo)函數(shù)定義如下:
其中,λ1、λ2、λ3、λ4代表各個損失的權(quán)重,其值分別設(shè)置為1、6.6、6.6、1。
本文所提檢測模型主要包括模型預(yù)訓(xùn)練及模型調(diào)整。
模型預(yù)訓(xùn)練。針對輸入的文本,首先采用Bert[25]中提供的WordPieceTokenizer[38]的分詞方式實(shí)現(xiàn)句子單詞級的切分,然后使用中文分詞工具實(shí)現(xiàn)對句子詞語級別的劃分,最終基于這兩個切分的列表實(shí)現(xiàn)中文全詞覆蓋,本模型使用的中文分詞工具是Jieba 分詞工具。針對輸入的圖像,使用在Visual Genome[36]上預(yù)訓(xùn)練的Faster R-CNN[39]模型對圖像處理,不同于文獻(xiàn)[39]的做法,針對每一張圖像,其獲取的候選框數(shù)量是一個動態(tài)變化的數(shù)值,而本文固定獲取10 個候選框(RoI),這樣有助于對輸入模型時的數(shù)據(jù)進(jìn)行預(yù)處理操作,不用對候選框少的圖像進(jìn)行補(bǔ)全對齊操作。在模型結(jié)構(gòu)參數(shù)方面,采用了12 層的Transformer 模型,隱狀態(tài)向量維度為768維,中間向量維度大小為3076 維。在預(yù)訓(xùn)練過程中使用了多個預(yù)訓(xùn)練任務(wù),因此有多個損失。模型訓(xùn)練時,最終損失的大小是所有損失的總和。訓(xùn)練的過程使用Adamw 作為模型優(yōu)化器,學(xué)習(xí)率為1e-4,批數(shù)量大小設(shè)置為50,訓(xùn)練輪數(shù)為65。
模型調(diào)整。調(diào)整過程就是應(yīng)用從微博中獲取的人工標(biāo)注假新聞數(shù)據(jù)集,對模型進(jìn)行訓(xùn)練,以便讓模型能夠適應(yīng)假新聞識別的任務(wù)。模型調(diào)整的過程中僅僅判斷消息的真假,不再執(zhí)行預(yù)訓(xùn)練任務(wù),由于本文僅執(zhí)行假新聞檢測任務(wù),沒有其他任務(wù),因此沒有采用在LXMERT[26]、VisualBERT[27]和VL-BERT[29]等其他研究中采用的僅僅微調(diào)模型中幾層神經(jīng)網(wǎng)絡(luò)參數(shù)的策略,而是對模型的所有參數(shù)進(jìn)行修改。在模型調(diào)整的過程中,設(shè)置學(xué)習(xí)率為1e-5,批數(shù)量大小設(shè)置為40,訓(xùn)練100 輪。
本節(jié)將對所提方法的有效性進(jìn)行驗(yàn)證及分析。首先,介紹測試使用的數(shù)據(jù)集,并說明對比的基準(zhǔn)方法;然后,對實(shí)驗(yàn)結(jié)果進(jìn)行分析,驗(yàn)證本文所提模型的有效性。
當(dāng)前,同時含有圖像和文本的用于假消息檢測的數(shù)據(jù)集主要有2 個:Tweet 數(shù)據(jù)集和新浪微博數(shù)據(jù)集。Tweet 數(shù)據(jù)集的隱私政策,無法獲取數(shù)據(jù),因此本文主要在新浪微博數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)評估。下面從數(shù)據(jù)集大小和數(shù)據(jù)特點(diǎn)等方面分別介紹這個數(shù)據(jù)集。
在假消息的檢測方面,新浪微博數(shù)據(jù)集已經(jīng)被諸多研究工作使用[10,12,16],其從官方渠道采集數(shù)據(jù),例如人民日報、新華網(wǎng)等,數(shù)據(jù)集的爬取時間為2012 年5 月至2016 年1 月,后續(xù)本文把該數(shù)據(jù)標(biāo)識為weibo-T。針對該數(shù)據(jù)集,首先移除了沒有同時包含圖像和文本的微博,然后移除重復(fù)的圖片和低質(zhì)量的圖片,以確保數(shù)據(jù)集的質(zhì)量。由于該數(shù)據(jù)集爬取的截止時間為2016 年1 月,之后又有許多假消息產(chǎn)生,為了進(jìn)一步驗(yàn)證模型的性能,本文又進(jìn)一步從新浪微博官方渠道(https://service.account.weibo.com/index? type=5&status=4&page=1)中爬取了數(shù)據(jù),該渠道鼓勵普通用戶報告可疑帖子,并由專門的人員檢查帖子的真實(shí)性。本文爬取數(shù)據(jù)的截止時間為2020 年5 月,后續(xù)把該數(shù)據(jù)集標(biāo)識為weibo-O。在預(yù)處理此數(shù)據(jù)集時,遵循和以往工作[12]中相同的步驟,首先刪除了低質(zhì)量的圖像,以確保整個數(shù)據(jù)集的質(zhì)量,然后統(tǒng)計正樣本和負(fù)樣本的數(shù)量,最后將整個數(shù)據(jù)集按照7:1:2 的比例分為訓(xùn)練集、驗(yàn)證集和測試集。在生成數(shù)據(jù)的過程中,為了確保各集合中的數(shù)據(jù)不會重復(fù),本文設(shè)計了數(shù)據(jù)集生成算法,如算法1 所示。為了驗(yàn)證訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的相關(guān)性對檢測模型的影響,算法在具體執(zhí)行的過程中,需要相關(guān)系數(shù)參數(shù),取值設(shè)置為從0.2 到1 且步長為0.1的9 個數(shù)值,這樣就生成了9 對數(shù)據(jù)集,數(shù)據(jù)集的詳細(xì)信息如表1 所示。表中數(shù)據(jù)用斜杠分割,分別表示在某個相關(guān)系數(shù)下的假新聞和真新聞的數(shù)量。為了公平比較,對weibo-T 和weibo-O 兩部分?jǐn)?shù)據(jù)集分別進(jìn)行測試,以驗(yàn)證所提模型的可行性。
表1 新浪微博數(shù)據(jù)集詳情
為了廣泛驗(yàn)證本文模型,選擇了兩類方法進(jìn)行對比,即單模態(tài)方法和多模態(tài)方法。
單模態(tài)方法。由于數(shù)據(jù)集包含圖像和文本兩種模態(tài),每一類模態(tài)都可以單獨(dú)使用作為假消息檢測的依據(jù),因此,可看作是單模態(tài)方法。
基于文本的檢測方法(Text)。該方法僅僅使用文本信息作為檢測依據(jù)。使用CNN 模型來提取文本特征作為檢測的依據(jù),在使用時把每一個詞編碼為32 維的向量,經(jīng)過CNN 提取特征得到結(jié)果之后,接一個全連接層,全連接層采用的維度大小也是32維,然后采用softmax 方式得到預(yù)測結(jié)果。CNN 模型的參數(shù)設(shè)置采用和文獻(xiàn)[14]相同的配置,使用20個過濾器(filter),每一個過濾器的窗口大小(window size)從1 到4。
基于圖像的檢測方法(Vis)。該模型僅僅使用圖像信息判斷是否為假消息。使用預(yù)訓(xùn)練好的VGG-19 對圖像進(jìn)行處理,獲取圖像特征,然后接一個32 維的全連接層獲取最終的預(yù)測結(jié)果。
多模態(tài)方法同時使用圖像和文本信息來檢測是否為假消息,目前利用多模態(tài)對假新聞進(jìn)行識別的方法主要有兩個,即EANN[16]和MVAE[10]。
EANN。該框架利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)未見事件的可傳遞特征。它由3 個主要組件組成,即多模態(tài)特征提取器、假新聞檢測器和事件鑒別器。多模態(tài)特征提取器提取微博中文本和圖像的共有特征,其與假新聞檢測器配合使用,以學(xué)習(xí)用于識別假新聞的顯著特征表示。同時,事件鑒別器通過去除事件特定特征來學(xué)習(xí)事件不變表示。該模型也可以只使用兩個組件來檢測假新聞,即多模態(tài)特征提取器和假新聞檢測器。因此,同MVAE[10]一樣,為了進(jìn)行公平的比較,實(shí)驗(yàn)中使用了一個不包括事件鑒別器的EANN 變體。
MVAE。該方法為解決在推文中學(xué)習(xí)各模態(tài)之間相關(guān)性的挑戰(zhàn),提出了一種多模態(tài)變分自編碼器模型,模型由3 個主要部分組成:編碼器、解碼器和假消息檢測器?;谖谋竞蛨D像的重建方式,聯(lián)合訓(xùn)練編碼器、解碼器和假消息檢測器,最終得到多模態(tài)數(shù)據(jù)(圖像和文本)的共享表示,依此進(jìn)行假消息檢測。
本節(jié)中,進(jìn)行了2 組實(shí)驗(yàn)來驗(yàn)證本文提出的假消息檢測模型的有效性。第1 組實(shí)驗(yàn)是通過在已有數(shù)據(jù)集和本文采集的數(shù)據(jù)集上進(jìn)行,數(shù)據(jù)集的詳細(xì)信息如表1 中相關(guān)系數(shù)為1 的列所示。該實(shí)驗(yàn)會計算模型檢測準(zhǔn)確率、召回率等指標(biāo),判斷模型的有效性。表2 展示了本文所提方法以及對比方法的實(shí)驗(yàn)結(jié)果,針對數(shù)據(jù)中包含的假消息和真實(shí)消息,分別列出了各檢測方法檢測結(jié)果的準(zhǔn)確率、召回率和F1分?jǐn)?shù)。從表中可以看到,總體來說,本文所提方法在檢測準(zhǔn)確率上要優(yōu)于各對比方法。
表2 在新浪微博數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
在2 個數(shù)據(jù)集中,僅通過文本識別假消息的準(zhǔn)確率要明顯高于僅通過圖像識別。也就是說在數(shù)據(jù)集中,相對于圖像數(shù)據(jù),文本信息提供了更加豐富的語義特征來輔助識別假消息。在weibo-T 數(shù)據(jù)集中,本文所提方法和基線方法相比,檢測準(zhǔn)確率提升了2.7%,從84.6% 提升到了87.3%,F1 分?jǐn)?shù)從85%提高到了88%;在weibo-O 數(shù)據(jù)集中也表現(xiàn)出了類似的趨勢,檢測準(zhǔn)確率和F1 分?jǐn)?shù)也有了提升,其中檢測準(zhǔn)確率從85.1%提升到了86.2%,F1 分?jǐn)?shù)從85%提高到了86%。
在第2 組實(shí)驗(yàn)中,為了驗(yàn)證訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的相關(guān)性對檢測模型的影響,本文采用算法1 生成的訓(xùn)練數(shù)據(jù)集合對模型參數(shù)訓(xùn)練調(diào)整,并用對應(yīng)的測試集測試訓(xùn)練好的模型。在這里用本文所提模型和EANN 做比較,最終結(jié)果如圖2 所示。從圖中可以看到,在2 個數(shù)據(jù)集中,本文提出的模型全面優(yōu)于EANN 方法。在weibo-T 數(shù)據(jù)集中,隨著相關(guān)系數(shù)的增加,本文所提模型的準(zhǔn)確率從69.8%提高到了87.3%,EANN 模型的準(zhǔn)確率從62.8%提高到了84.6%,通過對比可以發(fā)現(xiàn),隨著相關(guān)系數(shù)的增加,由于測試集和驗(yàn)證集中能夠匹配到的詞語在增多,所以經(jīng)過測試集訓(xùn)練的模型,在驗(yàn)證集上的檢測準(zhǔn)確率也逐漸上升,符合直觀的理解。同時,從圖中可以看到,在相關(guān)系數(shù)相同的條件下,本文所提模型識別假消息的準(zhǔn)確率也高于其他模型,在weibo-T數(shù)據(jù)集中,準(zhǔn)確率的變化幅度在1.4%~7%之間;在weibo-O 數(shù)據(jù)集中,準(zhǔn)確率的變化幅度在1.2%~8.6%之間。通過該實(shí)驗(yàn)可以證明,當(dāng)測試集和驗(yàn)證集中的數(shù)據(jù)分布不均衡時,本文所提方法有明顯優(yōu)勢。上述現(xiàn)象出現(xiàn)是由于用戶發(fā)表微博消息中文本的多樣性,導(dǎo)致訓(xùn)練集和測試集中的數(shù)據(jù)可能存在較大差異性,同時現(xiàn)有的模型并沒有很好地學(xué)習(xí)文本之間的關(guān)系,從而導(dǎo)致用訓(xùn)練集訓(xùn)練的模型不能很好地對測試集中的數(shù)據(jù)進(jìn)行檢測,模型效果不佳。
圖2 模型檢測準(zhǔn)確率對比示意圖
本文提出了一種基于預(yù)訓(xùn)練方式的假消息檢測方法。基于該方法可以充分利用社交媒體中已有的大量多模態(tài)數(shù)據(jù),基于多個預(yù)訓(xùn)練任務(wù)有效地融合消息中圖像和文本信息,最終,基于多模態(tài)的融合表示有效地識別假消息。實(shí)驗(yàn)結(jié)果表明,本文提出的假消息檢測方法在準(zhǔn)確度方面優(yōu)于現(xiàn)有的檢測方法,并緩解了在數(shù)據(jù)內(nèi)容分布不均衡時造成的模型檢測準(zhǔn)確率下降問題。
未來的工作將進(jìn)一步考慮基于多模態(tài)的假消息識別方法,并從以下幾個方面進(jìn)行嘗試:(1) 在實(shí)際應(yīng)用場景中,越來越多的用戶發(fā)表的內(nèi)容中包含視頻信息,而目前大多數(shù)的方法都是建立在文本或者圖像之上,沒有對視頻數(shù)據(jù)分析處理,基于視頻和文本信息的假消息識別值得更多的關(guān)注;(2) 將用戶對微博的評論信息引入,進(jìn)一步提升假消息檢測的準(zhǔn)確信。