王蕊? 黎欣雨? 馬霄
摘要:[目的/意義]旨在通過融合BERT和VGG模型解決當前虛假新聞泛濫、虛假新聞自動檢測準確度較低、智能化較低問題。[方法/過程]使用預訓練模型BERT和VGG將新聞中的圖文分離并轉化為特征向量集,并進行特征融合,運用SVM模型設計分類器實現(xiàn)多模態(tài)虛假新聞檢測識別。[結果/結論] 實證結果表明,實驗數據集F1值達到93%,相較于單獨使用BERT和VGG模型提升7%與9%,該方法具有較高的準確率和召回率,能夠有效地檢測虛假新聞。
關鍵詞:虛假新聞檢測;特征提??;特征融合;多模態(tài)分析
分類號:TP391
引用格式:曾江峰, 王蕊, 黎欣雨, 等. 融合BERT和VGG模型多模態(tài)虛假新聞檢測方法研究[J/OL]. 知識管理論壇, 2023, 8(6): 502-513[引用日期]. http://www.kmf.ac.cn/p/367/.
習近平總書記在二十大報告中強調,要加強全媒體傳播體系建設,推動形成良好網絡生態(tài)[1]。互聯(lián)網的普及推動了信息傳播的發(fā)展,覆蓋了更為廣泛的受眾,但這些信息的真實性、準確性有待考量?!疤摷傩侣劇币辉~在2016年美國總統(tǒng)大選期間成為主流,當時數百家網站發(fā)布了虛假或帶有嚴重偏見的報道,其中許多是為了從社交媒體廣告收入中獲利[2]。2020年初,面對新冠肺炎疫情,恐懼與不安充斥全國,每天新聞產出量劇增,針對“辟謠”的百度搜索指數(2020年1月19—25日)與2019年春節(jié)期間相比,增長了5.4倍;中國科學院計算技術研究所研發(fā)的虛假新聞自動檢測平臺“AI識謠”平均每天發(fā)現(xiàn)具有爭議性的疫情新聞200條;騰訊開發(fā)的以人工審核為主的事實查證平臺“較真”的疫情新聞特別版上線24小時,用戶已超過4 000萬,服務次數超過1億。虛假新聞的存在嚴重威脅著人們的生活和社會秩序,對虛假新聞的檢測已然成為一個備受關注的熱門研究領域。隨著多媒體技術的發(fā)展和社交媒體的廣泛應用,新聞不再僅僅局限于文字形式,而是包括圖片、視頻和語音等多種形式。鑒于此,針對多模態(tài)的虛假新聞檢測成為一個新的研究方向。
目前學界對虛假新聞檢測方法的研究主要集中于以下幾個方面:①針對文本形式的虛假新聞,通常采用自然語言處理技術,如詞袋模型、詞向量等,對新聞文本的特征進行分析和提取[3]。②針對圖片形式的虛假新聞,采用計算機視覺技術,如卷積神經網絡等,對圖片的內容、色調、尺寸等特征進行分析和提取。③由于虛假新聞往往包含多種形式的信息,學者開始探索多模態(tài)特征融合的方法,將不同形式的特征進行整合,提高虛假新聞檢測的準確率和魯棒性。④對于虛假新聞的傳播路徑分析,研究者致力于了解虛假新聞的來源、傳播規(guī)律和受眾群體,以提高虛假新聞檢測的精度和效率。⑤針對虛假新聞檢測模型受到的對抗性攻擊,學者提出系列防御方法,以提高虛假新聞檢測模型的魯棒性??傊?,學界對于虛假新聞檢測方法的研究涵蓋了自然語言處理、計算機視覺、機器學習等多個領域,是一個具有挑戰(zhàn)性和復雜性的研究方向。
虛假新聞帶來社會恐慌、輿情肆意泛濫等嚴重的社會影響,檢測并打擊虛假新聞具有現(xiàn)實性和緊迫性[4]。目前大多虛假新聞檢測要依靠讀者檢舉揭發(fā),并讓相關專家和機構來證實。但這種方式時效性不強,檢測效率不高,相比識別新聞的復雜過程,謠言的傳播成本相對較低,制作虛假新聞的簡單與檢測虛假新聞的困難形成強烈反差。因此,構建自動化程度高、響應速度快的虛假新聞檢測模型及系統(tǒng)是產學研界關注的焦點,如何高效檢測虛假新聞這一問題迫在眉睫[5]。
在此背景下,本研究提出融合預訓練BERT(Bidirectional Encoder Representations From Transformers)和VGG(Visual Geometry Group Network)模型的多模態(tài)虛假新聞檢測算法。首先搜集的虛假信息數據集,用BERT模型提取文本特征向量;其次利用VGG模型提取圖片特征向量;最后進行特征融合,將這兩部分向量拼接在一起,用于訓練最終的分類器。通過融合文本和圖像兩個單模態(tài)模型中的隱層特征,最終得到多模態(tài)融合特征和其對應的真假標簽。這些特征和標簽將作為下游分類器的輸入,經過進一步的特征組合訓練實現(xiàn)對真假新聞概率上的判別。最后將未被訓練的數據集輸入到訓練好的分類模型,從而得到測試集的分類精度,完成對多模態(tài)新聞真假的檢測。
1? 相關研究
虛假新聞也可以被稱為虛假信息,它被定義為故意捏造和已經被核實的虛假信息[6]。虛假信息通常表現(xiàn)為各種形式,如謠言、緋聞、流言、偽科學等[7]。目前學界對虛假新聞的研究主要聚焦于檢測方法。首先,虛假新聞的檢測主要采用機器學習方法,如基于深層次和集成分類器的微博謠言檢測方法、提取Twitter中謠言的文本特征、行為特征,構建貝葉斯分類器。P. Zhou等[8]提出一個雙流的 Faster R-CNN模型,將 RGB流和噪聲流中豐富的篡改特征進行了很好的利用,以此實現(xiàn)多種類型虛假圖片的檢測。C. Boididou等[9]將取證特征用在虛假新聞檢測領域,以塊效應網格和分塊離散余弦變換(DCT)系數等作為特征,取得不錯的反饋結果。Z. Jin等[10]基于多媒體數據集分析新聞、文章的圖像進行虛假新聞檢測,探討了視覺和統(tǒng)計圖像特征,以預測各自文章的準確性,并提出了利用從文章中提取的沖突觀點構建的可信度傳播網絡的虛假新聞檢測方法。Y. Liu等[11]利用多元時間序列對新聞傳播路徑進行分類,提出了一種由傳播路徑構建與轉換、基于循環(huán)神經網絡的傳播路徑表示、基于卷積神經網絡傳播路徑表示和傳播路徑分類四個主要部分構成的虛假新聞早期檢測模型。
隨著互聯(lián)網技術飛速發(fā)展,虛假新聞呈現(xiàn)出多元化趨勢,基于虛假新聞自身語言特性的虛假新聞檢測模型出現(xiàn)很多局限性[12],因此,基于多模態(tài)特征的虛假新聞檢測算法的研究頗多。劉鵬飛等[13]提出的模型利用多核異步長卷積神經網絡對新聞標題作者及鏈接信息中隱含的辨別特征進行充分提取,根據新聞圖片語義和物理級別的聯(lián)系,利用注意力機制來提取帶有權重的特征。P. Qi等[14]設計基于CNN和CNN-RNN的網絡來捕捉頻域和像素域的視覺特征,并使用注意力機制來動態(tài)融合特征表示,以檢測虛假新聞。陶霄等人[15]提取文本、視覺和用戶三個模態(tài)的特征向量,在詞語和視覺的雙向匹配、前期融合和后期融合中均加入注意力機制,實現(xiàn)特征和決策的自動加權,并基于 Dempster組合規(guī)則進行混合融合。R K. Kaliyar等[16]提出一個深度卷積神經網絡模型(FNDNet),它包含一個預先訓練好的名為 GloVe的單詞嵌入和一個具有多個隱藏層的 CNN,在每一層提取用于分類假新聞的判別性特征。S. Deepak等[17]在神經網絡中加入在線數據挖掘,從互聯(lián)網上獲得與所考慮的新聞文章相對應的知識特征。M. H. Goldani等[18]使用邊際損失(Margin Loss),在 CNN上進行虛假新聞檢測,這是第一個將邊際損失用于文本分類工作的模型,并在 ISOT和 LIAR數據集上獲得較好表現(xiàn)。S. R. Sahoo等[19]提出一種 chrome環(huán)境下 Facebook的自動假新聞檢測方法。這些模型收集并分析多個特征,這些特征與 Facebook賬戶和一些新聞內容特征相關,并使用機器學習和深度學習將其輸入分類器,然后選擇匹配度最高的分類器,通過chrome擴展來檢測假新聞。S. HAKAK等[20]從虛假新聞數據集中提取重要特征,然后使用由隨機森林決策樹和非線性分類器組成的集合模型對提取的特征進行分類。
MVAE和MVNN代表了在多模態(tài)信息處理領域的最新研究進展。這兩個模型都致力于將不同模態(tài)的數據(如文本和圖像)融合到一個統(tǒng)一的表示空間中,從而為任務提供更多元化和豐富的信息。MVAE采用了一種變分自編碼器的結構,包括編碼器、解碼器和假新聞檢測器模塊。通過學習概率潛變量模型,MVAE能夠將不同模態(tài)的信息編碼成潛在的表示,這為任務提供了更靈活的信息表達方式。盡管相對于BERT+VGG+SVM,MVAE的精確率、召回率和F1值稍低,但它仍然表現(xiàn)出令人印象深刻的性能,尤其是在多模態(tài)任務中[21]。MVNN采用了不同的方法,它利用頻域子網絡和像素域子網絡的特征來對輸入圖像進行分類。這種方法使MVNN在圖像分類任務上表現(xiàn)出色,其精確率、召回率和F1值都達到了90%以上。這顯示出了MVNN在圖像相關任務上的強大性能[22]。
盡管MVAE和MVNN是多模態(tài)模型,它們提供了更豐富的輸入數據表示,但在某些情況下,需要更復雜的模型結構和訓練策略,以便充分發(fā)揮它們的潛力。相反,BERT+VGG+SVM雖然只是串聯(lián)了文本信息和圖像信息,但它在性能上仍然勝過了這兩個多模態(tài)模型。這突顯了模型選擇的重要性,以確保最適合特定任務和數據集的性能。
綜上,虛假新聞檢測方式主要是基于用戶行為可信度的方法以及基于網絡傳播的方法,具體而言是利用手工特征、深度學習、循環(huán)神經網絡等研究方法。由于虛假新聞的形式多樣化,僅基于虛假新聞自身語言特性的虛假新聞檢測模型不足以滿足現(xiàn)狀,文本和圖片為虛假新聞檢測提供相對側重、相輔相成的信息。在過去的研究中,已有學者使用單模態(tài)的方式進行虛假新聞檢測。但單模態(tài)方法往往忽略了多模態(tài)信息之間的相互作用。虛假新聞的傳播往往涉及多元化的信息,因此,為更加全面地評估虛假新聞的真實性,學界開始探索多模態(tài)虛假新聞檢測的方法。鑒于此,基于多模態(tài)的虛假新聞檢測方法備受關注[23],如何有效提取各個模態(tài)的特征并進行有效的融合是多模態(tài)虛假新聞檢測的核心。針對現(xiàn)有研究的局限性,筆者提出了一種基于BERT和VGG模型的多模態(tài)虛假新聞檢測方法。其中,BERT模型用于處理文本信息,VGG模型用于處理圖片信息,筆者將 BERT和 VGG兩個模型融合,提取虛假新聞的文本、圖像特征,以解決虛假新聞檢測問題。
2? 研究框架
BERT直接引用Transformer架構中的Encoder模塊,舍棄Decoder模塊,自動擁有雙向編碼能力和強大的特征提取能力。VGG16采用連續(xù)的幾個小卷積核(3×3)代替Alex Net中的較大卷積核(11×11,7×7,5×5),卷積的固定步長為1,并在圖像的邊緣填充1個像素,這樣卷積后保持圖像的分辨率不變,在保證具有相同感知野的條件下,在一定程度上提升神經網絡的效果。基于此,對于搜集的虛假信息數據集,利用VGG模型生成圖片特征向量;利用BERT模型生成文本特征向量;通過向量拼接的方式將文本和圖片特征進行特征融合后基于SVM模型設計分類器來自動鑒別新聞的真?zhèn)危瑢崿F(xiàn)多模態(tài)虛假新聞檢測。使用初步完成的多模態(tài)檢測模型進行數據測試,分析測試效果,并根據效果對模型進一步優(yōu)化。具體研究過程分為三個部分,如圖1所示:
(1)數據來源與處理。數據來源于中國科學院計算技術研究所舉辦的虛假新聞檢測挑戰(zhàn)賽中多模態(tài)虛假新聞檢測的測試集數據,并將數據中包含的發(fā)布人信息、發(fā)布時間等冗余信息剔除。經處理后的一條數據設為N=[T,V,Y],T代表新聞文本數據,V代表新聞圖片數據,Y為該條新聞的真實性標簽,取值為{0,1},0表示真實新聞,1表示虛假新聞。
(2)模型構建與特征提取。分別使用BERT模型和VGG16模型對處理后的文字新聞和圖片新聞進行特征提取并融合,形成代表新聞數據的融合特征向量。
(3)結果檢測與分析。將獲得的新聞特征向量輸入SVM分類器實現(xiàn)多模態(tài)虛假新聞檢測,并選用精確率、召回率和F1值作為模型的評價指標,判斷建立的bert-vgg-svm多模態(tài)新聞檢測模型的優(yōu)劣,并對檢測結果進行分析。
3? 模型構建
本研究旨在基于社交媒體新聞中的文字和圖像數據使用,運用深度學習方法構建虛假新聞檢測模型,以此識別虛假新聞。該模型將 BERT與 VGG16相結合,融合文本和圖片特征對虛假新聞進行識別,其中使用 BERT提取文本特征向量,VGG16提取圖片特征向量特征,經過向量拼接后輸入 SVM中進行虛假新聞判別,輸出為對應的真假新聞標簽,TRUE為真實新聞,F(xiàn)ALSE為虛假新聞。
3.1? 特征提取
3.1.1? 文本特征提取
文本特征在文本分析中起到重要作用,直接影響虛假新聞檢測的準確率。對每一條新聞文本進行預處理后,使用 BERT模型來提取文本特征,以捕捉文本中潛在的依存關系。BERT框架見圖2,通過查詢字向量表將文本中的每個字轉換為詞嵌入向量、句向量和位置向量的拼接結果,然后將其通過多層雙向Transformer編碼器,模型輸出則是輸入各字對應的融合全文語義信息后的向量表示。
BERT 引入自注意力機制,聯(lián)合 Next Sentence Prediction和 Masked-LM進行訓練。模型在提取文本特征時,讀取 csv文件,輸入包含 s個詞匯的新聞文本數據 T=(T1,T2,…,Ts),在倒數第二層輸出處理后的整個句子語義向量Tf,過程表示如公式(1)所示:
Tf=BERT(T)
Tf為 BERT模型在倒數第二層的向量輸出,也是文本數據最終的表示特征,共有 768維。
3.1.2? 圖像特征提取
人類大腦處理視覺信息的速度是處理文字信息的 6 000倍,視覺信息可以縮小溝通差距、幫助理解信息內容、增強人類記憶。因此,模型同時融合圖像特征,采用在 ImageNet數據庫上訓練的 VGG16模型提取圖像特征。由圖 3所示,VGG16由 13層卷積層和 3個全連接層組成,可以有效提取圖像特征。
由于新聞圖像數據大小不一,對其統(tǒng)一縮放后裁剪成規(guī)格為 224*224的區(qū)域,轉換成符合輸入的三通道圖片格式Vimg,再輸入 VGG16模型中進行特征提取。過程表示如公式(2)所示:
Vf=VGG16(Vimg)
Vf為 VGG16模型在 fc7層的向量輸出,也是圖像數據最終的表示特征,共有4 096維。
3.2? 特征融合
特征融合即輸入兩個模態(tài)的特征向量,輸出融合后的向量。本模型采用向量拼接的方式,用Tf表示文本特征,用Vf表示圖像特征,融合后的新聞特征用F表示。過程表示如公式(3)所示:
F=Tf⊕Vf (TVf∈R4864)
如圖4所示,將提取出的新聞文本數據的特征向量Tf與新聞圖像數據的特征向量Vf 進行融合,形成代表新聞數據的融合特征向量F。為了穩(wěn)定獲取新聞數據特征,將新聞數據分為真實新聞數據集和虛假新聞數據集,根據數據對應的標簽分別進行訓練,融合后的特征輸出至csv文件中儲存。
3.3? 模型分類
通過融合文本和圖像兩個單模態(tài)模型中的隱層特征,得到4 864維的多模態(tài)融合特征D'={TVf1, TVf2, …, TVfn}和其對應的真假標簽Label=[L1, L2, …, Ln]。這些特征和標簽將作為下游分類器的輸入,經過進一步的特征組合訓練實現(xiàn)對真假新聞概率上的判別。最后將未被訓練的數據集輸入到訓練好的分類模型,從而得到測試新聞的分類精度,完成對多模態(tài)新聞真假的檢測。在分類器模型的選擇中,優(yōu)先選擇scikit-learn包中的SVM(支持向量機)作為特征融合后的分類器。
SVM是一種以統(tǒng)計學為基礎的線性分類器,被頻繁地應用在二分類問題中。同時其表現(xiàn)出優(yōu)秀的泛化能力,在高維空間中非常有效。尤其是在特征維數大于樣本的情況下,可以將向量從低維空間映射到高維空間,效果要優(yōu)于其他傳統(tǒng)分類算法。它的主要思想是找到一個最優(yōu)的超平面來劃分不同類別的數據點。為了驗證SVM的優(yōu)越性,同時選取GBDT(Gradient Boosting Decision Tree)分類模型進行結果比對。
GBDT是一種基于決策樹的集成學習算法,它通過迭代的方式訓練多個決策樹,并將它們組合成一個強分類器。GBDT算法的主要思想是通過迭代的方式訓練多個弱分類器,每個弱分類器都嘗試去糾正之前分類器的誤差。在每一輪迭代中,GBDT算法都會新增一棵決策樹,并將它的預測結果與之前的分類器進行加權組合,得到最終的預測結果。
在本文中,選擇GBDT作為對比算法的依據是因為GBDT算法在處理非線性數據上具有很好的性能,并且可以自動進行特征選擇。通過與SVM進行對比,可以更全面地評估SVM算法在高維稀疏數據上的優(yōu)越性。同時,選取適當的對比算法也有助于驗證實驗結果的可靠性。
4? 實驗與分析
4.1? 數據集
為保證數據的真實可靠,對新聞數據標記真假;作為多模態(tài)的數據集,需要同時包含文本和圖片的新聞數據。數據集經過篩選和初步實驗,確定選擇中國科學院計算技術研究所舉辦的虛假新聞檢測挑戰(zhàn)賽中多模態(tài)虛假新聞檢測賽道的數據。
虛假新聞多模態(tài)檢測任務中,包含文本和圖片兩種模態(tài)的數據。圖片模態(tài)包括“piclist”字段,表示該文本對應的圖片,如果沒有,則該字段為空;如果有多張,則使用“ \ t ”進行分隔。原始數據集由新聞文本數據以及相關的新聞圖像數據構成。對于原始文本數據,由于原始數據信息的復雜性和無序性,在數據處理過程中,會將其攜帶的冗余信息進行剔除,可使用表情符號、URL、賬號信息和發(fā)布時間作為標簽替換,對空白字符和繁體字符等其他特殊字符做轉換,保留剩余文字信息。對于新聞圖片數據,新聞文本對應的圖片類型不一,有GIF、JPG等,本文對新聞圖片數據的處理方法是將文本對應的圖片統(tǒng)一為JPG格式,因為新聞中的圖片有可能不止一個,本文統(tǒng)一將第一個圖片作為對應的數據。
由于融合后的數據特征維數過大,為了防止數據集過小出現(xiàn)模型過擬合的風險,因此訓練數據集的大小應和特征維數同量級。這里選擇2 200條真實數據和2 200條虛假數據,共4 400條數據作為訓練集;另選擇100條真實數據和300條虛假數據,共400條數據作為測試集,如表1所示:
4.2? SVM模型參數調優(yōu)
由于本次實驗的訓練集維數即特征數很大,并接近于樣本數,理論上應該選擇線性核函數“Linear”來防止出現(xiàn)過擬合。為了保證實驗結果的精準性,采用五折交叉驗算和網格搜索的方式來確定懲罰因子C及核函數kernel的最優(yōu)參數。懲罰因子C決定了分類器對誤分類樣本的懲罰程度,較小的C表示允許一些誤分類,較大的C表示不允許誤分類。網格搜索是一種通過在一定范圍內不斷調整參數來尋找最優(yōu)參數的方法,而交叉驗證則是一種通過將數據集劃分為訓練集和測試集來評估模型性能的方法。通過設定一組候選的懲罰因子C和核函數kernel的參數組合,對于每一組參數組合,都使用五折交叉驗證來評估該組合下的SVM模型的性能,最終選擇在驗證集上表現(xiàn)最好的一組參數組合作為最優(yōu)參數。
具體實現(xiàn)過程為:定義懲罰因子C和核函數kernel的參數范圍,C=[0.01,0.1,1,10],kernel=[‘linear’, ‘rbf’, ‘sigmoid’]。將訓練集數據分為5份。對于每一組參數組合,使用五折交叉驗證來訓練SVM模型,計算模型在驗證集上的精度。將所有參數組合在五折交叉驗證中的平均精度計算出來,選取平均精度最高的一組參數作為最優(yōu)參數。使用最優(yōu)參數訓練SVM模型,并使用測試集來測試模型的性能。
最終,本次實驗確定SVM模型的最佳核函數為預測的“Linear”,C為1。將 400條測試集輸入到訓練好的分類模型中。隨著訓練集樣本數由 2 000條增加至 4 400條,準確度也逐漸提高。訓練集所訓練的模型測試分類精度由 0.84提高至0.93,效果遠優(yōu)于 GBDT分類模型的分類精度 0.735。
4.3? 實驗基線
本研究選擇4種基線模型來進行虛假新聞檢測的任務。這4種基線模型包括:
BERT+SVM(單文本特征):筆者使用BERT預訓練模型提取文本特征,并使用SVM分類器進行分類。該模型只考慮了文本信息,并使用了SVM分類器進行分類。
VGG+SVM(單圖片特征):筆者使用VGG預訓練模型提取圖片特征,并使用SVM分類器進行分類。該模型只考慮了圖片信息,并使用了SVM分類器進行分類。
BERT+VGG+SVM(多模態(tài)分類):筆者使用BERT模型提取文本特征,使用VGG模型提取圖片特征,將兩個模型的特征向量拼接起來作為SVM模型的輸入,并使用SVM分類器進行分類。該模型綜合了文本和圖片信息,并使用了SVM分類器進行分類。
BERT+VGG+GBDT(多模態(tài)分類):筆者使用BERT預訓練模型提取文本特征,使用VGG預訓練模型提取圖片特征,并將兩者合并后使用GBDT分類器進行分類。該模型綜合了文本和圖片信息,并使用了GBDT分類器進行分類。
這4種基線模型的選擇是基于其代表性和效果評估。其中,BERT和VGG是當前在文本和圖像領域最為流行和有效的預訓練模型,而SVM和GBDT是分類問題中表現(xiàn)較為優(yōu)秀的分類器。筆者希望通過對這4種模型的對比,能夠更好地了解不同模型在虛假新聞檢測任務中的表現(xiàn)。
4.4? 評價指標
為了檢驗筆者提出的基于 ERT-VGG-SVM的多模態(tài)新聞檢測模型的優(yōu)劣,采用混淆矩陣(Confusion Matrix,CM)作為模型實驗結果的評判指標。混淆矩陣見公式(4)。0是真實新聞,1是虛假新聞。TP表示虛假新聞被預測為虛假新聞的數量;FN表示虛假新聞被預測為真實新聞的數量;FP表示真實新聞被預測為虛假新聞的數量;TN表示真實新聞被預測為真實新聞的數量。如圖5所示,TP和TN較大,F(xiàn)N和FP較小。
通過構建單文本特征、單圖像特征以及 gdbt分類模型的基線模型,在同樣的數據集下,如公式(5)—(7)所示,通過混淆矩陣得到TP、TN、FP和FN,得出精確率(Precision,P)、召回率(Recall,R)和F1值(F1-score,F(xiàn)1)。
精確率表示模型預測為真實新聞的結果中,模型預測正確的比例,公式如下:
召回率表示真實新聞數據中模型預測正確的比例,公式如下:
F1值綜合精確率和召回率的結果,對二者進行加權調和平均,公式如下:
4.5? 實驗結果
各模型的預測分類結果見圖 6。綜合單文本特征識別結果和單圖像分類結果,從圖6中可以看出,單文本特征、單圖像特征在測試集上的精確率分別為86%、84%。單文本特征分類效果略優(yōu)于單圖像特征分類效果。結果表明,在新聞傳播過程中,文本相較于圖片更貼近人類情感,可以更為準確地表達信息含義,傳遞新聞創(chuàng)造者的思想主旨,是虛假新聞檢測的主要依據。而圖像包含更多的特性,使得單圖像模型很難在不同類型的虛假新聞中提取相同的特征,所表達的信息內容更為模糊,在情感傳遞過程中存在語義障礙,檢測過程中一般起到輔助的作用。與視覺特征相比,文本特征更具有可轉移性,從而提高單文本模型的性能。
對比單模態(tài)檢測結果和多模態(tài)檢測結果,實驗得出多模態(tài)新聞檢測模型精確率、召回率均為93%,F(xiàn)1值為0.93。相較于單文本特征以及單圖像特征的單模態(tài)特征檢測來說,多模態(tài)新聞檢測模型在精確率、召回率和F1值上都是最優(yōu)的。由此可以推斷,多模態(tài)新聞檢測方法可以提高虛假新聞檢測的準確性,對于文本和圖片表達情感有較大差異的情況,僅分析文本或僅分析圖片,都可能對檢測結果帶來干擾。在這種情況下,將文本與圖像的特征相結合,便能更加準確識別新聞的真假。
此外,在多模態(tài)新聞檢測模型中,使用gdbt分類器的模型精確率結果為71%,使用SVM分類器精確率結果為93%,相較于gdbt分類器的基線模型高出22%。這也驗證針對多樣本、高維數特征所選的分類器是合適的,在數據分類方面有更好的表現(xiàn)。綜合來看,多模態(tài)新聞檢測模型均優(yōu)于基準模型,其優(yōu)點主要在于利用深度學習網絡將提取的文本特征和圖像特征融合后進行統(tǒng)一識別,避免單一模態(tài)語義缺失的缺點。同時,利用支持向量機有效處理高維數據的特點,增強分類器的泛化能力,解決了模型過擬合的問題,提高模型分類的精確率。
5? 結語
虛假新聞的泛濫傳播已成為一個全球性的社會問題,對公眾的認知、社會輿論和政治經濟等方面產生了重要影響。多模態(tài)虛假新聞檢測是一個新興的研究領域,其重要性和研究價值正在逐步被認識和認可,多模態(tài)虛假新聞檢測技術的研究和應用,可有效地幫助公眾識別和避免虛假新聞的誤導,維護社會公正、公平和穩(wěn)定。本研究基于多模態(tài)信息融合的思想,提出一種融合BERT和VGG模型的虛假新聞檢測方法。該方法將文本和圖像信息進行有機結合,同時利用BERT模型學習文本特征和VGG模型學習圖像特征,以實現(xiàn)更加準確和可靠的虛假新聞檢測。通過實驗驗證,本研究所提出的多模態(tài)虛假新聞檢測方法準確率、召回率和F1值都優(yōu)于基準模型,證明了該方法的有效性和可行性。
盡管本研究所提出的多模態(tài)虛假新聞檢測方法在性能和可解釋性方面都表現(xiàn)出較好的優(yōu)勢,但是仍存在一定的改進空間。①由于圖片提取特征維數過多,可能存在一些冗余信息,延緩模型運行速度,如何在兼顧準確度和性能的條件下降低特征向量的維數是后續(xù)研究的重點之一。②文本特征與圖片特征的普通拼接很可能難以充分利用多模態(tài)之間的關聯(lián),從而對分類產生一定的干擾。在后續(xù)的研究中,將采用不同的特征融合方法,揭示其對模型性能的影響,更近一步地提高新聞檢測的準確率。
未來可以從以下幾個方面進行深入探究:①優(yōu)化模型的訓練和調參方法,以進一步提高檢測性能;②考慮更多的模態(tài)信息,如視頻和音頻等,以實現(xiàn)更全面的虛假新聞檢測;③結合領域知識,以更好地應對虛假新聞檢測中的特殊場景和問題。
參考文獻:
[1] 新華社.中國共產黨第二十次全國代表大會在京開幕 習近平代表第十九屆中央委員會向大會作報告[EB/OL]. [2023-01-22]. http: //www.gov.cn/xinwen/2022-10/16/content_5718884.htm. (Xinhua News Agency. Twentieth National Congress of the Communist Party of China opens in Beijing Xi Jinping reports to the Congress on behalf of the 19th Central Committee [EB/OL]. [2023-01-22]. http: //www.gov.cn/xinwen/2022-10/16/content_5718884.htm.)
[2] ALLCOTTH, GENTZKOW M. Social media and fake news in the 2016 election[J]. Journal of economic perspectives, 2017, 31(2): 211-36.
[3] 劉賞, 沈逸凡.基于新聞標題—正文差異性的虛假新聞檢測方法[J]. 數據分析與知識發(fā)現(xiàn), 2023, 7(2): 97-107. (LIU S, SHEN Y F. Fake news detection method based on news title-text variability[J]. Data analysis and knowledge discovery, 2023, 7(2): 97-107.)
[4] VOSOUGHIS, ROY D, ARAL S. The spread of true and false news online[J]. science, 2018, 359(6380): 1146-1151.
[5] GUO C, CAO J, ZHANG X, et al. Dean: learning dual emotion for fake news detection on social media[J]. arXiv e-prints, 2019: arXiv: 1903.01728.
[6] RUCHANSKY N, SEOS, LIU Y. CSI: a hybrid deep model for fake news detection[C]//Proceedings of the 2017 ACM on conference on information and knowledge management. New York: ACM, 2017: 797-806.
[7] 刁海倫, 王樹義, 王楠.基于多主體的微博網絡虛假信息的集中甄別方法研究[J]. 情報科學, 2016, 34(2): 37-44. (DIAO H L, WANG S Y, WANG N. Research on centralised screening method of microblogging network false information based on multi-subjects[J]. Information science, 2016, 34(2): 37-44.)
[8] ZHOU P, HAN X, MORARIU VI, et al. Learning rich features for image manipulation detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Salt Lake City: IEEE, 2018: 1053-1061.
[9] BOIDIDOU C, READOU K, PAPADOPOULOS S, et al. Verifying multimedia use at mediaeval 2015[M]//MediaEval 2015. Wurzen: CEUR-WS, 2015: 1436.
[10] JIN Z, CAO J, ZHANG Y, ET AL. Novel visual and statistical image features for microblogs news verification[J]. IEEE transactions on multimedia, 2016, 19(3): 598-608.
[11] LIU Y, WU Y F. Early detection of fake news on social media through propagation path classification with recurrent and convolutional networks[C]//Proceedings of the AAAI conference on artificial intelligence. New Orleans: AAAI, 2018: 354-361.
[12] MIAN A, KHAN S. Coronavirus: the spread of misinformation[J]. BMC medicine, 2020, 18(1): 1-2.
[13] 汪超.基于多模態(tài)融合的虛假新聞檢測算法研究[D]. 安徽: 安徽理工大學, 2022. (WANG C. Research on false news detection algorithm based on multimodal fusion[D]. Anhui: Anhui University of Science & Technology, 2022.)
[14] PENG Q, JUAN C, TIANYUN Y, et al. Exploiting multi-domain visual information for fake news detection[C]//2019 IEEE international conference on data mining (ICDM). Beijing: IEEE, 2019: 518-527.
[15] 陶霄, 朱焱, 李春平.基于注意力與多模態(tài)混合融合的謠言檢測方法[J]. 計算機工程, 2021, 47(12): 71-77. (TAO X, ZHU Y, LI C R. Rumour detection method based on attention and multimodal hybrid fusion[J]. Computer engineering, 2021, 47(12): 71-77.)
[16] KALIYAR R K, GOSWAMI A, NARANG P, et al. FNDNet–A deep convolutional neural network for fake news detection[J]. Cognitive systems research, 2020, 61: 32-44.
[17] DEEPAK S, CHITTURI B. Deep neural approach to Fake-News identification[J]. Procedia computer science, 2020, 167: 2236-2243.
[18] GOLDANI M H, SAFABAKHSH R, MOMTAZI S. Convolutional neural network with margin loss for fake news detection[J]. Information processing & management, 2021, 58(1): 102418.
[19] SAHOO S R, Gupta B B. Multiple features based approach for automatic fake news detection on social networks using deep learning[J]. Applied soft computing, 2021, 100: 106983.
[20] HAKAK S, ALAZAB M, KHAN S, et al. An ensemble machine learning approach through effective feature extraction to classify fake news[J]. Future generation computer systems, 2021, 117: 47-58.
[21] KHATTAR D, GOUD J S, GUPTA M, et al. Mvae: Multimodal variational autoencoder for fake news detection[C]//The world wide Web conference. New York: Association for Computing Machinery, 2019: 2915-2921.
[22] QI P, CAO J, YANG T, et al. Exploiting multi-domain visual information for fake news detection[C]//2019 IEEE international conference on data mining (ICDM). Beijing: IEEE, 2019: 518-527.
[23] 亓鵬, 曹娟, 盛強.語義增強的多模態(tài)虛假新聞檢測[J]. 計算機研究與發(fā)展, 2021, 58(7): 1456-1465. (QI P, CAO J, SHENG Q. Semantic enhancement for multimodal fake news detection[J]. Journal of computer research and development, 2021, 58(7): 1456-1465.)
作者貢獻說明:
曾江峰:提出研究思路,設計研究方案;
王? 蕊:撰寫論文;
黎欣雨:爬取、采集、清洗和分析數據;
馬? 霄:負責進行實驗。
Research on Multimodal Fake News Detection Method Based on BERT and VGG Models
Zeng Jiangfeng1? Wang Rui1? Li Xinyu2? Ma Xiao2
1School of Information Management, Central China Normal University, Wuhan 430079
2School of Information and Security Engineering, Zhongnan University of Economics and Law, Wuhan 430073
Abstract: [Purpose/Significance] The aim is to solve the current problems of the proliferation of fake news, low accuracy and low intelligence of automatic fake news detection by integrating BERT and VGG models. [Method/Process] BERT and VGG models were uesd to separate the graphics and texts in the news and convert them into feature vector sets, and the feature fusion was carried out. The SVM model was used to design a classifier to achieve multi-modal fake news detection and identification. [Result/Conclusion] The empirical result shows that the F1 value of the experimental dataset reaches 93%, which is 7 percentage points and 9 percentage points higher than that of the BERT and VGG models alone, indicating that the combination of the two models has good detection accuracy and recall rate, and can effectively detect fake news.
Keywords: fake news detection? ? feature extraction? ? feature fusion? ? multimodal analysis
基金項目:教育部人文社會科學研究項目青年基金項目“情境大數據驅動的社交媒體虛假信息識別模型與治理策略研究”(項目編號:21YJC870002)、湖北省自然科學基金一般面上項目“基于多層語義融合的多模態(tài)社交媒體虛假信息檢測研究”(項目編號:2023AFB1018)和武漢市知識創(chuàng)新專項項目曙光計劃項目“多源知識驅動的社交媒體虛假新聞檢測研究”(項目編號:2022010801020287)研究成果之一。
作者簡介:曾江峰,講師,博士;王蕊,博士研究生,通信作者,E-mail:471133151@qq.com;黎欣雨,碩士研究生;馬霄,講師,博士。
收稿日期:2023-08-29? ? ? ? 發(fā)表日期:2023-12-21? ? ? ? 本文責任編輯:劉遠穎