李國棟,彭敦陸
(上海理工大學光電信息與計算機工程學院,上海 200093)
信息技術手段的飛速發(fā)展極大地改變了人們獲取新聞的方式,傳統(tǒng)上人們一般通過紙質報紙或電視新聞節(jié)目獲悉新聞內容,而新社交媒體平臺的興起使得新聞傳播變得更為簡單及時,同時也更加廣泛,人們可以獲悉世界各地所發(fā)生的新聞事件。但隨之帶來的負面影響也逐漸增多,傳播方式的便捷使得虛假新聞大量地充斥在各種社交媒體上,同時由于新型的新聞內容更加全面,包含了傳統(tǒng)報紙新聞所不具備的圖像、音頻甚至是視頻用來更詳細地描述新聞事件。新社交媒體平臺上的虛假新聞通過夸張的文字或圖像來吸引讀者的注意力,其一般是通過篡改圖像內容或是配上與圖不相符的文本描述[1]。由于新聞描述與對應圖像有較大的相似度,而普通群眾并不都具備分辨的能力,故促使讀者成為了加速虛假新聞傳播的一分子,大規(guī)模的虛假新聞傳播會帶來重大的負面影響,有些甚至能夠操縱重要的公共事件。這些現(xiàn)象使虛假新聞檢測成為新時代新聞領域中一個重要的挑戰(zhàn),同時隨著人工智能技術的發(fā)展,研究人員期待通過技術手段完成虛假新聞的檢測工作,以此來遏制虛假新聞的傳播。
現(xiàn)有的對虛假新聞研究主要是針對新聞內容[2]進行真假性質檢測。最初的研究方法是對新聞內容的文本內容描述提取出語言特征來檢測新聞[3]。而后來由于深度學習技術的發(fā)展與引入,虛假新聞檢測的手段也由早期的傳統(tǒng)學習方式[4-5]發(fā)展到現(xiàn)今的深度學習模型[6-7]。深度學習模型相較于傳統(tǒng)方法具備出色的特征提取能力,使檢測結果得到了極大提升。
描述同一新聞事件通常具備多種不同模態(tài),其之間往往是密切相關的,新聞信息的不同模態(tài)之間能夠起到相互補充的作用。因此研究人員嘗試將圖像數據引入到虛假新聞檢測工作中,期望圖像信息能與新聞文本描述相結合獲取融合特征[8-9]以得到更優(yōu)的檢測結果。Jin等人[10]引入神經網絡將新聞的不同模態(tài)特征融合并引入注意力機制[11]來抽取上下文相關信息用于虛假新聞檢測工作并取得了良好的結果。Wang等人[12]則提出了源于對抗網絡的鑒別器用于學習不同新聞事件之間的公共特征,通過消除特定事件中的特定特征來提高模型的泛化學習能力。Khattar等人[13]則使用了變分自動編碼器用于學習新聞多種模態(tài)的融合特征表示,并使用此中間表達向量完成虛假新聞檢測任務。
綜合之前的研究內容,已有的虛假新聞檢測已經將多種模態(tài)的新聞數據融合,從多模態(tài)的角度來獲取用于檢測工作的特征表示,但由于文本特征與圖像特征之間具有較大的差異性,僅通過多種模態(tài)特征向量之間的簡單拼接完成融合特征的表示并不足以表達多模態(tài)數據之間的互補及差異性,會導致最終在檢測任務表現(xiàn)有所偏差。因此在現(xiàn)有研究的基礎之上,本文針對特征融合方法進行研究,在新聞各模態(tài)數據特征提取的基礎上,結合多模雙線性池化算法,對多模態(tài)的新聞特征表示進行有效融合獲取融合特征表示,構建起新型融合特征表示的虛假新聞檢測模型,完成虛假新聞檢測工作。
新聞事件中的文本信息和圖像信息均是為了詳盡地描述核心信息的媒介,新聞文本和圖像之間對特定事件描述的同時存在著互相補充的聯(lián)系,一般是圖像附屬于文本信息或圖像是對文本信息的補充說明。新聞圖像通常是以視覺效果展示出新聞事件發(fā)生的具體信息,而對應的文本描述則是以語言文字描述新聞事件,兩者之間具有較緊密的關聯(lián)關系同時又各自具備自己的特定特征。以讀者認知的角度來看,無論是文字還是圖像信息實際上會帶來不相同的效果,文字特征通常是以線性描述的邏輯展開,而圖像更偏向于空間上的描述,兩者特征之間的差異若僅通過普通拼接方式會有信息的冗余或者缺失。為實現(xiàn)文本特征與圖像特征之間更優(yōu)的融合效果,本文采用基于特征向量外積的多模雙線性池化方法,其核心思想是充分結合文本與圖像每一位置的獨特維度信息,將圖像與文本信息充分融合,結合降維方法將文本和圖像數據的特征映射為低維空間上的特征向量進行外積計算獲得融合特征。由于虛假新聞本質上屬于二元分類問題[14],模型輸入一般是包含文本和圖像的新聞推文,輸出為對應的真假新聞標簽,0為真實新聞,1為虛假新聞。本文分別使用不同的特征提取方法提取文本和圖像的高維特征,最終使用經多模雙線性池化方法融合后的特征向量用于虛假新聞檢測,模型總體框架如圖1所示。
1)文本特征抽取。
文本信息在虛假新聞檢測工作中具有至關重要的作用,其所抽取的特征表示直接影響到虛假新聞檢測的準確率。對于每一條新聞推文,在經過預處理之后采用Text-CNN[15]抽取文本特征。由于Text-CNN具有不同窗口大小的多個卷積過濾器,因此可以捕獲不同細粒度的文本特征用于識別虛假新聞。詳細過程為將文本內容中的每一個單詞均表示為一個詞向量(Word Embedding),從而得到一個句子的向量表示T1:n,經過窗口大小為h的過濾器將句子中連續(xù)h個單詞輸出為特征向量,最終得到句子的特征向量表示為t,對所有的特征向量t使用最大池化運算取其最大值便得到每一個句子中最為重要的信息特征,由于Text-CNN具有多個不同大小的過濾窗口(設定為c個),且為了提取到不同細粒度的文本特征,對應特定大小的窗口還擁有nh個不同的過濾器,將最終得到的文本特征表示為RTc∈c·nh,為保持文本圖像特征維度一致,最大池化運算后結合全連接層,操作如式(1):
FT=σ(Wtf·RTc)
(1)
其中,F(xiàn)T為最終獲取到的文本特征,Wtf是全連接層的參數,σ表示激活函數。
2)圖像特征抽取。
新聞推文中的圖像內容通常是為了補充說明新聞事件,以視覺化效果將具體新聞事件展現(xiàn)給讀者,其在虛假新聞檢測工作中占有較大的比重,同樣是檢測工作中不可或缺的信息?,F(xiàn)有的視覺特征提取方法中,本文選取應用最為廣泛的VGG-19[16]用于圖像特征提取。為了保證與文本特征相同維度,在其網絡最后一層基礎之上添加全連接層,具體操作如下:
FV=σ(Wvf·RVvgg)
(2)
其中,F(xiàn)V為最終的圖像特征,RVvgg為經過VGG-19得到的圖像特征表示,Wvf是全連接層的參數,σ同樣表示激活函數。
3)多模雙線性池化特征融合。
ψ(x?q,h,s)=ψ(x,h,s)*ψ(q,h,s)
(3)
其中,x和q分別表示來自2種特征提取器所提取的特征,而其中的h與s分別表示2個初始化向量h∈{1,…,d}n和s∈{-1,1}n,它們用于高維空間(假設為n維)特征x和q向低維空間(假設為d維)的映射轉化,即將特征映射到低維空間進行外積計算[20],*表示卷積操作,同時卷積定理中指出時域上的卷積等于頻域上的乘積操作,故而可以將卷積x′*q′(通過公式(3)得到)寫作FFT-1(FFT(x′)⊙FFT(q′)),其中⊙表示逐元素相乘,繼而對得到的不同特征向量進行外積相乘,最終獲得融合特征,此方法具體過程如圖2所示。
圖2 MCBP特征融合過程
將提取到的文本特征和圖像特征分別經過Count Sketch方法進行降維,降維后特征通過FFT(快速傅里葉變換)后再進行逐位相乘,最終經過FFT-1(逆快速傅里葉變換)得到所需融合特征。
于是本文使用這種多模雙線性池化方法對文本特征FT和圖像特征FV進行融合之后獲得融合特征F用于最終的虛假新聞檢測工作中:
F=MCBP([FT,FV])
(4)
最后,本文采用帶有Softmax函數的全連接層對融合特征輸出結果進行分類以完成虛假新聞檢測工作。
為了驗證本文所提融合方法的有效性以及模型對于虛假新聞檢測工作的性能,采用來源于Twitter和Weibo這2個社交媒體平臺的數據集,這2個數據集均具備文本與圖像結合的新聞推文,適用于本文研究。其中,Weibo數據集[10]來源于中國新浪微博社交平臺且經由中國新華社進行人工標注,同時經過微博官方謠言系統(tǒng)的核查后將其劃分為虛假新聞和真實新聞,且從已有的工作[6,21]來看,該數據集具有較強的可信度。Twitter數據集[22]是來自于Mediaeval任務,其目的是為了自動檢測社交媒體中的虛假內容,包含了來自于17個新聞事件的推文合集以及其他的約2000條推文,其主要包含了文本內容、附加圖像內容等。本文對這2項數據集進行了預處理工作,保證其不再包含重復的內容,將數據集按照7∶1∶2的比例劃分為訓練集、驗證集和測試集,最終獲取到的數據詳情如表1所示。
表1 實驗數據集 單位:條
實驗在Windows 10操作系統(tǒng)+Python3.6環(huán)境下進行,采用TensorFlow深度學習框架構建虛假新聞檢測模型進行訓練,機器的詳細配置為搭載了英特爾i7-8700K的CPU,擁有64.0 GB內存和1080Ti型號的GPU。
實驗需要提取文本特征,本文采用預訓練好的Word2vec表示單詞[23]并將嵌入詞向量的維度設為32,則新聞文本部分每一個單詞都能夠獲得32維的詞嵌入向量,對于Text-CNN的過濾器窗口大小,則會設置1~4大小不等的過濾器窗口進行特征過濾。圖像特征則使用預訓練的VGG-19網絡進行提取。訓練階段使用50個實例的批處理大小,周期設置為50。
實驗采用了Twitter和Weibo這2個數據集來驗證多模雙線性融合方法的性能,同時,對比已有的多模態(tài)融合方法模型。采用分類任務常用的準確度(Accuracy)、精確率(Precision)、召回率(Recall)和F1指標來驗證檢測模型性能。實驗通過設置對照組檢驗不同特征融合方法模型的性能,并選取當前多模態(tài)虛假新聞檢測任務的EANN模型作為對照,最終實驗結果如表2所示。
表2 虛假新聞檢測結果
從表2可以得出,本文提出的基于多模雙線性池化方法模型在Twitter和Weibo這2種數據集中性能表現(xiàn)大部分略優(yōu)于已有模型。與普通的特征向量拼接方法對比,本文提出的方法在各項評價指標上均表現(xiàn)得更為優(yōu)異,這表明多模雙線性特征融合方法在虛假新聞檢測工作中明顯優(yōu)于傳統(tǒng)向量拼接方法,說明本文所提多模雙線性池化檢測模型相較于傳統(tǒng)特征拼接方法檢測模型更有效。這是由于此種特征融合方法相較于傳統(tǒng)拼接能夠更好地融合文本與圖像特征表示,從而提升了檢測任務結果。通過與已有的多模態(tài)虛假新聞檢測模型進行對比,該融合方法在準確率及F1值上略優(yōu)于已有檢測模型,這個結果說明,不同的深度學習方法對于融合特征的表示學習會有差異性的效果,需要不斷研究得到更好的融合特征表示以此提升最終的檢測結果。綜合以上考慮,謹慎得出基于多模雙線性池化特征融合方法在虛假新聞檢測領域具有較好的特征學習能力,且其在虛假新聞檢測領域有效的結論。
虛假新聞的廣泛傳播不僅會給普通民眾的日常生活帶來影響,而且會引導網絡輿論的偏向,甚至會損害新聞媒體的公信力,對社交媒體的發(fā)展有著巨大的危害。本文針對虛假新聞檢測工作,綜合考慮了文本及圖像2種不同模態(tài)的新聞數據,通過神經網絡及應用于多模態(tài)融合的雙線性池化算法構建出虛假新聞檢測模型,有效地提升了多模態(tài)特征之間的融合表示,提升了虛假新聞檢測性能。且與之前的多模態(tài)檢測模型對比發(fā)現(xiàn),提升多模態(tài)數據之間的融合特征表示能夠更有效地區(qū)分新聞真假。而特征提取方法與深度學習算法導致的特征表現(xiàn)在新聞檢測工作中起到了重要作用,因此在之后研究中需要進一步提升新聞文本與圖像內容之間的相關性,并且在更多的新聞數據中驗證其有效性,這將是未來虛假新聞檢測工作的重點。