周昊瑋,劉勇*,玄萍,2**
(1.黑龍江大學(xué)計算機科學(xué)與技術(shù)學(xué)院,黑龍江哈爾濱 150080;2.汕頭大學(xué)工學(xué)院計算機科學(xué)與技術(shù)系,廣東 汕頭 515063)
社交媒體在帶給人們豐富信息資源的同時,也帶來了虛假新聞泛濫問題。虛假新聞的廣泛傳播會對整個社會造成嚴(yán)重的負(fù)面影響。因此,虛假新聞的有效監(jiān)測方法受到了研究人員的廣泛關(guān)注。虛假新聞監(jiān)測方法主要包括基于專家的事實核查、基于眾包的人工事實核查、自動假新聞檢測技術(shù)三大類方法。
基于專家的事實核查與基于眾包的人工事實核查是應(yīng)對假新聞惡意傳播的傳統(tǒng)方法[1]?;趯<业氖聦嵑瞬闇?zhǔn)確性較高,但由于昂貴的人工成本和漫長的檢測時間,難以對社交媒體的眾多新聞進行高效檢測?;诒姲娜斯な聦嵑瞬樵诳蓴U展性方面表現(xiàn)很好,但該方法假新聞檢測準(zhǔn)確性較低。由于人工核查方法的限制,自動假新聞檢測技術(shù)逐步發(fā)展起來,以解決傳統(tǒng)方法存在的問題[1]。早期的一些研究試圖將手動設(shè)計的一系列特征輸入機器學(xué)習(xí)模型來識別假新聞[2],但這些方法仍然費時費力,且難以跨平臺和跨領(lǐng)域進行推廣。
近年來,深度神經(jīng)網(wǎng)絡(luò)(DNN)由于具有自動獲取復(fù)雜抽象特征的強大能力,在一定程度上彌補了傳統(tǒng)模型的不足。利用文本特征檢測假新聞是現(xiàn)有的主流研究方法[3]。然而,目前越來越多的新聞中包含了文本、圖像、視頻等不同模態(tài)的信息[4-6]。值得注意的是,更容易吸引用戶關(guān)注的往往是帶有視覺模態(tài)的信息[7],同時利用文本特征和視覺特征檢測假新聞逐漸成為了該領(lǐng)域的重點研究內(nèi)容。
多模態(tài)假新聞檢測研究雖然取得了一定進展,但多數(shù)方法在獲取不同模態(tài)特征后[7],以簡單拼接的方式進行特征融合,難以對不同模態(tài)特征的相關(guān)性進行有效建模。而且,每個模態(tài)的特征提取方法在提取模態(tài)特征時并未利用其他模態(tài)的相關(guān)信息,這使得不同模態(tài)特征之間缺乏必要的聯(lián)系。因此,現(xiàn)有多模態(tài)假新聞檢測方法并沒有充分發(fā)揮多模態(tài)在假新聞檢測中的優(yōu)勢,不同模態(tài)的有效融合仍然是假新聞檢測領(lǐng)域的一項重要挑戰(zhàn)。另外,新聞領(lǐng)域眾多,某些領(lǐng)域標(biāo)簽數(shù)據(jù)較少,如何把模型推廣到標(biāo)簽較少的領(lǐng)域也是一項重要挑戰(zhàn)。
為了克服上述方法的局限性,本文提出一種基于預(yù)訓(xùn)練和多模態(tài)融合的假新聞檢測模型PMFD。針對標(biāo)簽稀缺挑戰(zhàn),在標(biāo)簽豐富的領(lǐng)域數(shù)據(jù)上預(yù)訓(xùn)練一個模型,然后在標(biāo)簽稀缺的領(lǐng)域數(shù)據(jù)上進行微調(diào),強化模型泛化能力。面對多模態(tài)有效融合挑戰(zhàn),提出一種新穎的多階段融合方式,從而對跨模態(tài)共享引導(dǎo)向量與各模態(tài)私有特征進行聯(lián)合學(xué)習(xí)。具體來說,在早期融合階段,分別提取圖像中不同區(qū)域的特征作為圖像的原始向量集,將原始向量集池化成圖像的引導(dǎo)向量,然后用圖像的引導(dǎo)向量初始化文本特征提取器來進行早期融合。在中期融合階段,使用每個模態(tài)的原始向量和其他模態(tài)的引導(dǎo)向量計算注意力權(quán)重,再根據(jù)原始向量和對應(yīng)的注意力權(quán)重構(gòu)造每個模態(tài)的特征表示。在后期融合階段,先計算每個模態(tài)特征表示的注意力權(quán)重,再使用每個模態(tài)的特征表示和對應(yīng)的注意力權(quán)重構(gòu)造新聞的特征表示。通過使用上述3 個階段的融合機制,模態(tài)私有特征和跨模態(tài)共享特征得到完善,從而提高檢測的準(zhǔn)確性。
假新聞檢測的目的在于評估給定新聞的真實性。目前,多數(shù)假新聞檢測工作都將該問題看作二分類問題,還有一些工作將假新聞檢測看作多分類或回歸問題。本節(jié)從基于文本的假新聞檢測和基于多模態(tài)的假新聞檢測兩方面對相關(guān)工作進行簡要介紹。
1.1.1 基于文本的假新聞檢測
早期研究者主要通過人工手段選擇文本特征[8]。但對于假新聞檢測任務(wù),手工選擇的文本特征很難進行跨領(lǐng)域推廣。為了捕捉文本序列單詞之間的長期依賴性,文獻[9]采用軟注意和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)學(xué)習(xí)文本表征進行假新聞檢測。受生成對抗網(wǎng)絡(luò)(GAN)的啟發(fā),文獻[10]通過文本生成器和假新聞鑒別器之間的對抗學(xué)習(xí)來改善檢測性能。此外,還有利用強化學(xué)習(xí)[11]、殘差注意力網(wǎng)絡(luò)[12]等方法進行假新聞檢測的工作。
1.1.2 基于多模態(tài)的假新聞檢測
近年來,視覺特征已被證明是假新聞檢測的重要特征[13]。使用文本特征與視覺特征融合方式進行假新聞檢測引起了研究者的廣泛關(guān)注。
文獻[14]簡單地連接手工設(shè)計的特征或基于深度學(xué)習(xí)的文本和圖像特征進行假新聞檢測。文獻[15]同時從原始文本信息和融合后的多模信息中分別提取文本特征表示,以減輕交叉模態(tài)融合產(chǎn)生的噪聲影響,提高假新聞檢測模型的泛化性。視頻數(shù)據(jù)也是多模態(tài)的主要研究對象[16],通常手段是通過對齊文本、圖像和視頻數(shù)據(jù)來實現(xiàn)多模態(tài)融合。文獻[2]通過在單詞水平對齊文本和視頻來實現(xiàn)多模融合進行假新聞檢測。
預(yù)訓(xùn)練通過學(xué)習(xí)數(shù)據(jù)的通用表示來輔助下游任務(wù),它通常使模型具有更好的泛化性能,加速向目標(biāo)任務(wù)的收斂[17]。實際上,預(yù)訓(xùn)練也可以理解成一種形式的正則化,目的是避免小數(shù)據(jù)的過度擬合。
預(yù)訓(xùn)練在自然語言處理(NLP)和計算機視覺(CV)領(lǐng)域有著廣泛的應(yīng)用。在NLP 中,早期的工作主要是通過使用文本語料庫來學(xué)習(xí)(淺層)詞嵌入[18]。近年來,語境化詞匯嵌入方面取得了重大進展,如BERT[19]、GPT[20]。這些預(yù)訓(xùn)練方法已經(jīng)被證明性能良好,所以被許多模型作為基本步驟。在CV中,早期的預(yù)訓(xùn)練技術(shù)[21]大多遵循在大規(guī)模監(jiān)督數(shù)據(jù)集上學(xué)習(xí)通用范式。最近,一些自監(jiān)督的任務(wù)[22]也被用于預(yù)訓(xùn)練視覺模型。
盡管預(yù)訓(xùn)練技術(shù)在NLP 和CV 等領(lǐng)域被廣泛采用,但據(jù)筆者所知,還沒有工作直接探索預(yù)訓(xùn)練技術(shù)在多模態(tài)假新聞檢測中的效果,這也是本文模型使用預(yù)訓(xùn)練技術(shù)的一個主要動機。
社交媒體發(fā)布的新聞中通常包含多種不同模態(tài),例如微博可以包含文本、圖像、視頻等模態(tài)。筆者希望利用數(shù)據(jù)的多模態(tài)來判斷這些新聞的真假性。針對這個問題,本文提出一個基于預(yù)訓(xùn)練和多模態(tài)融合的假新聞檢測模型PMFD。首先概述模型的框架,然后對模型的實現(xiàn)細(xì)節(jié)進行描述。
PMFD 模型的框架結(jié)構(gòu)如圖1 表示。首先,對原始新聞數(shù)據(jù)進行預(yù)處理。新聞附帶的圖像被劃分為多個區(qū)域,使用預(yù)訓(xùn)練的ResNet[23]模型對區(qū)域進行特征提取,獲得圖像的原始向量集合。圖像原始向量池化后(不同區(qū)域特征相加取均值)得到了圖像引導(dǎo)向量。新聞附帶的文本通過分詞后進行詞嵌入,將其結(jié)果輸入雙向LSTM(Bi-LSTM)[24]模型中得到文本的原始向量集合(不同時刻的隱狀態(tài)集合)。文本原始向量池化后(不同時刻的隱狀態(tài)相加取均值)得到了文本引導(dǎo)向量。在這一步驟中,為了使文本引導(dǎo)向量含有附帶圖像的語義,對圖像引導(dǎo)向量應(yīng)用非線性變換,然后將結(jié)果作為Bi-LSTM 的初始隱藏狀態(tài),這一階段的融合稱之為早期融合。隨后將每個模態(tài)的原始向量集合與其他模態(tài)的引導(dǎo)向量進行融合,構(gòu)造每個模態(tài)的特征表示,這一階段的融合稱之為中期融合。此后,將每個模態(tài)的特征表示進行融合,構(gòu)造新聞特征表示,這一階段的融合稱之為后期融合。最后,通過一個多層的神經(jīng)網(wǎng)絡(luò)分類器預(yù)測新聞的真假性。
圖1 PMFD 框架Fig.1 Framework of PMFD
將輸入圖像大小重新調(diào)整為448×448 像素,并切分圖像為14×14個均分區(qū)域。區(qū)域用Ii(i=1,2,…,196)表示。如式(1)所示,用一個預(yù)訓(xùn)練的ResNet-50 V2[23]模型來獲取每個區(qū)域Ii的特征向量vregioni。這些區(qū)域特征向量稱為圖像的原始向量集合。
如前所述,圖像引導(dǎo)向量vimage是所有原始向量池化后的結(jié)果,具體操作如式(2)所示:
其中:Nr是區(qū)域的數(shù)量,設(shè)定為196(14×14 個區(qū)域)。
首先,對文本使用jieba 分詞庫對新聞文本進行分詞,輸入預(yù)訓(xùn)練的GloVe[12]模型獲得詞嵌入。然后,采用Bi-LSTM[24]獲取文本的原始向量集合,單句對應(yīng)詞向量上限限制為75。Bi-LSTM 在t時刻的計算過程如式(3)~式(8)所示:
其中:Wi、Wf、Wo、Ui、Uf、Uo是權(quán)重矩陣;xt、ht是在t時刻的輸入狀態(tài)和隱狀態(tài);σ是Sigmoid 函數(shù);⊙表示按元素乘積。本文把不同時刻的隱狀態(tài)向量稱為文本的原始向量集合。如前所述,文本引導(dǎo)向量vtext是所有文本原始向量池化后的結(jié)果,具體操作過程如式(9)所示:
其中:L是文本的長度。
文本作為主體特征,在假新聞檢測中扮演主要角色,圖像能輔助文本提高新聞特征的信息量,如何將兩者有效融合是一個關(guān)鍵問題。
在使用Bi-LSTM 抽取文本特征時,初始化狀態(tài)通常定義為0。但是這些原本應(yīng)該定義為0 的狀態(tài),完全可以注入其他多模態(tài)的信息來加強模態(tài)間的聯(lián)系。因此,本文提出一種早期融合方式。具體來說,首先對圖像引導(dǎo)向量進行非線性變換,然后將變換后的結(jié)果作為Bi-LSTM 的初始化狀態(tài),具體變化過程如式(10)所示:
其中:hF0、cF0為Bi-LSTM 前向初始狀態(tài);hB0、cB0為Bi-LSTM 后向初始狀態(tài);(;)表示向量連接;ReLU 表示激活函數(shù);W和b為權(quán)重矩陣和偏差。
在獲得每個模態(tài)的原始向量和引導(dǎo)向量之后,需要構(gòu)造每個模態(tài)的特征表示。模態(tài)m(可以是文本或圖像)的第i個原始向量用表示。本文首先計算每個的注意力權(quán)重,然后加權(quán)平均構(gòu)造模態(tài)m的特征表示。
受多任務(wù)注意力機制的啟發(fā),為了更精確地建模多個模態(tài)之間的關(guān)系,本文利用其他模態(tài)引導(dǎo)向量vn(可以是文本或圖像)來計算模態(tài)m原始向量的注意力權(quán)重。具體來說,對于模態(tài)m的第i個原始向量,使用式(11)根據(jù)其他模態(tài)n的引導(dǎo)向量計算多個引導(dǎo)權(quán)重,然后使用式(12)將引導(dǎo)權(quán)重歸一化,接著使用式(13)對引導(dǎo)權(quán)重取均值構(gòu)造的注意力權(quán)重,最后使用式(14)對模態(tài)m的所有的原始向量計算加權(quán)平均,獲得模態(tài)m的特征表示。本文將構(gòu)造某模態(tài)特征表示時所采用的模態(tài)融合稱作中期融合。
其中:m、n?{文本,圖像}表示某個模態(tài)是權(quán)重矩陣是偏差是模態(tài)n對模態(tài)m的第i個原始向量的引導(dǎo)權(quán)重是模態(tài)m的第i個原始向量的注意力權(quán)重;Lm是模態(tài)m原始向量集合的大小。
在獲得每個模態(tài)的特征表示之后,需要融合它們構(gòu)造新聞特征表示。受到多模態(tài)融合[25]的啟發(fā),為了進一步融合不同模態(tài)的特征表示,本文沒有采用傳統(tǒng)的簡單拼接方式,而是計算每個模態(tài)的注意力權(quán)重,通過加權(quán)平均來構(gòu)造最后的新聞特征表示。本文將該階段的模態(tài)融合稱為后期融合。
首先使用兩層的前饋網(wǎng)絡(luò)[見式(15)]計算模態(tài)m的注意力權(quán)重,然后使用式(16)將模態(tài)m的特征表示轉(zhuǎn)換成定長形式,最后使用式(17)對所有模態(tài)的特征表示進行加權(quán)平均,構(gòu)造新聞特征表示。
其中:vm代表模態(tài)m的特征表示代表模態(tài)m的注意力權(quán)重代表權(quán)值矩陣為偏置項;vf表示最終的新聞特征表示。
將融合后的新聞特征表示輸入到一個三層的MLP 分類器中進行最終分類。使用交叉熵函數(shù)作為損失函數(shù)。在隱藏層和輸出層分別使用ReLU 與Sigmoid 作為激活函數(shù)。Sigmoid 函數(shù)輸出介于0 到1之間的置信度。如果這個置信度大于等于0.5,預(yù)測該條為假新聞;否則,預(yù)測為真新聞。
NLP 和CV 領(lǐng)域自監(jiān)督學(xué)習(xí)的最新進展表明數(shù)據(jù)本身包含豐富的語義知識,因此能夠捕獲數(shù)據(jù)分布的模型能夠快速遷移到相關(guān)領(lǐng)域數(shù)據(jù)中。受此啟發(fā),本文提出在PMFD 模型中通過預(yù)訓(xùn)練的方式來進一步改善模型的準(zhǔn)確性。具體來說,在標(biāo)簽豐富的數(shù)據(jù)上進行預(yù)訓(xùn)練并保存模型參數(shù),然后利用保存的參數(shù)作為模型的初始參數(shù),在標(biāo)簽稀少的數(shù)據(jù)上進行微調(diào)。在微調(diào)的過程中對部分超參數(shù)進行調(diào)整。
實驗數(shù)據(jù)集是由北京市經(jīng)濟和信息化局、中國計算機學(xué)會大數(shù)據(jù)專家委員會聯(lián)合發(fā)布的疫情期間互聯(lián)網(wǎng)多模態(tài)虛假新聞檢測數(shù)據(jù)(https://www.datafountain.cn/competitions/422/datasets),其中包含8 個領(lǐng)域(科技、政治、軍事、財經(jīng)商業(yè)、社會生活、文體娛樂、醫(yī)藥健康、教育考試)的真假新聞。
由于該數(shù)據(jù)集合中的推文存在特殊標(biāo)點符號與表情、隨意配圖等問題,對數(shù)據(jù)集進行過濾和清洗(如約束文本字?jǐn)?shù)、去掉用戶名、去除特殊符號、去除無意義的詞、去除含URL 的推文等),最終得到14 016 條推文加圖像的標(biāo)準(zhǔn)數(shù)據(jù)集。
本文選出4 個推文最多的領(lǐng)域(科技、政治、文體娛樂、社會生活)的數(shù)據(jù)構(gòu)成預(yù)訓(xùn)練數(shù)據(jù)集,共計9 442 條推文加圖像數(shù)據(jù),其余4 個領(lǐng)域(教育考試、醫(yī)藥健康、財經(jīng)商業(yè)、軍事)的數(shù)據(jù)構(gòu)成微調(diào)數(shù)據(jù)集,共計4 574 條推文加圖像數(shù)據(jù)。微調(diào)數(shù)據(jù)集被劃分成訓(xùn)練集、驗證集和測試集,比率分別為80%、10%、10%。假新聞的標(biāo)記為1,真新聞的標(biāo)記為0。預(yù)訓(xùn)練數(shù)據(jù)與微調(diào)數(shù)據(jù)的統(tǒng)計信息如表1 和表2 所示。
表1 預(yù)訓(xùn)練數(shù)據(jù)集統(tǒng)計Table 1 Pre-training data set statistics 單位:條
表2 微調(diào)數(shù)據(jù)集統(tǒng)計Table 2 Fine-tune data set statistics 單位:條
在使用預(yù)訓(xùn)練數(shù)據(jù)獲得模型參數(shù)之后,本文使用微調(diào)數(shù)據(jù)集的驗證集確定模型的超參數(shù)。最后確定的超參數(shù)如表3 所示。
表3 超參數(shù)Table 3 Hyper-parameters
本文使用準(zhǔn)確率與F1 值作為模型的評估標(biāo)準(zhǔn)。F1 值的定義如式(18)所示:
其中:P(精度/查準(zhǔn)率)指的是被預(yù)測為假新聞的樣本中真正的假新聞所占的比重;R(召回率/查全率)指的是被預(yù)測為假新聞并且確實是假新聞的樣本占全體假新聞樣本的比重。
為了使模型更快地收斂,本文采用一種動態(tài)學(xué)習(xí)率的方式。在每次epoch 后記錄下F1 值,如果當(dāng)前epoch 的F1 值較上一個epoch 沒有提升,就將學(xué)習(xí)率更新為上一個epoch 學(xué)習(xí)率的80%。
實驗過程中本文對部分重要超參數(shù)對模型影響做了進一步研究,結(jié)果如圖2 所示。大量研究表明,過大或過小的詞嵌入維度都無法保證模型的最優(yōu)性。在本文中,通過實驗獲得詞嵌入設(shè)置為200 時,模型表現(xiàn)最優(yōu)。
圖2 詞嵌入維度對模型性能的影響Fig.2 Effect of word embedding dimension on model performance
為找出最優(yōu)LSTM 隱藏層大小,本文實驗分別設(shè)置了64、128、256、512 的隱藏層大小。如圖3 所示??梢钥闯鲭[藏層大小越大,得到的效果越好。但512 大小的隱藏層只是略優(yōu)于256,筆者分析認(rèn)為隱藏層越大帶來的過擬合風(fēng)險越大,而且增大隱藏層的同時也會增加訓(xùn)練時間。綜合考慮,本文將LSTM 隱藏層的大小設(shè)為256。
圖3 LSTM 隱藏層大小對模型性能的影響Fig.3 Effect of LSTM hidden layer size on model performance
為了驗證本文所提出的多模態(tài)融合模型在假新聞檢測任務(wù)中的有效性,將其與下列多個基線方法進行了比較,比較結(jié)果如表4 所示,其中加粗?jǐn)?shù)據(jù)表示最優(yōu)值,下同。
表4 對比實驗結(jié)果Table 4 Results of comparative experimental results
CNN[26]:使用圖像來評估新聞的可信度,使用一個三層神經(jīng)網(wǎng)絡(luò)分類器進行分類。
LSTM[27]:使用文本來評估新聞的可信度,采用長短期記憶的模型對新聞進行分類。
BERT[19]+MLP:利用預(yù)訓(xùn)練的語言模型對新聞進行表示和分類。
保證檔案資源橫向縱向交流暢通,應(yīng)該結(jié)合信息技術(shù)的發(fā)展,不斷的通過加密技術(shù)、規(guī)范的數(shù)字化技術(shù)、數(shù)據(jù)分析技術(shù)等進行全面的管理,核實。從而滿足在大數(shù)據(jù)時代下,企業(yè)檔案管理的安全性,實現(xiàn)服務(wù)多元化,管理高效化。
Chinese_BERT[28]+MLP:采用最新專業(yè)的中文語調(diào)庫對語言模型進行預(yù)訓(xùn)練,之后對新聞文本進行假新聞檢測。
EANN[29]:采用多模態(tài)(圖像、文本)和基于事件的對抗網(wǎng)絡(luò)對假新聞進行檢測。
M_model[30]:采用多模態(tài)和注意力對假新聞進行檢測。
從表4 的實驗結(jié)果可以看出,多模態(tài)模型要比單模態(tài)模型更具優(yōu)勢。單模態(tài)只能反映新聞的某一方面,不能對新聞數(shù)據(jù)充分建模,所以單模態(tài)模型的檢測效果通常比多模態(tài)模型差。
M-Model 模型采用3 種模態(tài)(圖像、文本和標(biāo)簽)進行融合,其中標(biāo)簽是通過將圖像輸入到某個自編碼機中生成的5 個特征描述詞。在實驗中,本文發(fā)現(xiàn)有些圖像不能準(zhǔn)確地生成相應(yīng)的標(biāo)簽,甚至不相關(guān)的圖像也被貼上了相同的標(biāo)簽,這種錯誤的標(biāo)簽對于模型來說相當(dāng)于一種干擾,影響了模型的預(yù)測結(jié)果。EANN 模型使用一種基于事件的對抗網(wǎng)絡(luò)來減少模型對領(lǐng)域信息的依賴。雖然對抗網(wǎng)絡(luò)能提高模型的檢測性能,但是EANN 模型只能對多模態(tài)特征進行簡單拼接融合,不能對新聞特征進行有效建模,從而一定程度上又降低了檢測的性能。本文PMFD 模型采用了一種全新的多階段融合方式,使得最后的新聞特征包含更多的重要信息,顯著地改善了模型的檢測性能。
本文通過一系列的消融實驗來評價PMFD 模型中不同階段融合方式和預(yù)訓(xùn)練的作用。本文構(gòu)造了PMFD 模型的多個變體,如下所示:
Text:在PMFD 模型中,只使用文本進行檢測。
Image:在PMFD 模型中,只使用圖像進行檢測。
PMFD-A:在PMFD 模型中,同時使用文本與圖像進行檢測,但不使用早期融合。
PMFD-B:在PMFD 模型中,同時使用文本與圖像進行檢測,但不使用中期融合。
PMFD-C:在PMFD 模型中,同時使用文本與圖像進行檢測,但不使用后期融合(采用模態(tài)直接拼接的方式)。
為了評價預(yù)訓(xùn)練的作用,本文也給出了PMFD 所有變體在不使用預(yù)訓(xùn)練的情況下,直接在微調(diào)數(shù)據(jù)上進行檢測的結(jié)果(如表5 所示),以及所有變體在預(yù)訓(xùn)練情況下檢測結(jié)果(如表6 所示)。PMFD 模型所有變體經(jīng)預(yù)訓(xùn)練后性能在不同程度上均有提升,可見預(yù)訓(xùn)練對跨領(lǐng)域檢測具有不可忽視的作用。
表5 無預(yù)訓(xùn)練消融實驗結(jié)果Table 5 Results of ablation experiment without pre-training
表6 預(yù)訓(xùn)練消融實驗結(jié)果Table 6 Results of ablation experiment with pre-training
首先,預(yù)訓(xùn)練可以很好地通過學(xué)習(xí)通用表示來輔助下游任務(wù);其次,通過在標(biāo)簽稀缺領(lǐng)域的微調(diào),降低了模態(tài)在對應(yīng)新聞領(lǐng)域的高度依賴,減少了過擬合的風(fēng)險;最后,通過多模態(tài)、多階段融合的方式,能夠更好地利用預(yù)訓(xùn)練微調(diào)后獲得的通用表示,模態(tài)私有特征和跨模態(tài)共享特征得以完善,從而得到更多的特征來判斷新聞內(nèi)容的真實性。
多模態(tài)模型與單模態(tài)模型相比,性能普遍提升10%以上。如果PMFD 不使用早期融合(PMFD-A變體),性能有小幅度下降。早期融合使得文本能夠在圖像的引導(dǎo)下進行特征提取,這有助于模態(tài)之間的信息共享,一定程度上促進了模型的性能。如果PMFD 不使用中期融合(PMFD-B 變體),性能下降比較明顯。筆者通過分析認(rèn)為,PMFD-B 變體在構(gòu)造模態(tài)特征表示時直接將模態(tài)所有原始向量取平均,沒有使用其他模態(tài)引導(dǎo)向量計算不同原始向量的權(quán)重系數(shù),不能充分對模態(tài)特征表示進行建模,導(dǎo)致模型性能下降明顯。如果PMFD 不使用后期融合(PMFD-C 變體),性能也有小幅度下降,PMFD-C 變體在構(gòu)造新聞特征表示時直接將各個模態(tài)特征表示進行簡單拼接,沒有充分考慮不同模態(tài)的注意力系數(shù),從而影響了模型的性能。
由此可見,本文PMFD 模型通過預(yù)訓(xùn)練和多種融合方式構(gòu)造了新聞的多模態(tài)表示的方式,降低了特定模態(tài)與所在領(lǐng)域的高度相關(guān)性,有效改善了模型的檢測效果。
本文研究假新聞檢測問題,提出一種基于預(yù)訓(xùn)練和多模態(tài)融合的PMFD 模型。在該模型中,通過三階段的融合方式融合新聞的不同模態(tài)特征來增強各模態(tài)之間的聯(lián)系,同時利用預(yù)訓(xùn)練的方式來提高模型泛化能力。然而,實驗中標(biāo)注的新聞數(shù)據(jù)只有1 萬多條,訓(xùn)練的模型存在過擬合風(fēng)險。后續(xù)將使用自監(jiān)督的方式來擴展模型,減少模型對于標(biāo)注數(shù)據(jù)的依賴。