中圖分類號:TP391 文獻標志碼:A
Short Text News Fake Detection Model Based on Aggregating External Knowledge and Internal Contextual Semantics
QIU Yanfang 1 , ZHAO Zhenyu 2 , SUN Zhijie', MA Kun’ , JI Ke1 , CHEN Zhenxiang 1
(1.a.School of Information Science and Engineering,b.Shandong KeyLaboratory of Ubiquitous Inteligent Computing, University of Jinan,Jinan 250O22,Shandong,China; 2. Shandong Talent Development Group Information Technology Co., Ltd., Jinan , Shandong,China)
Abstract:To adressthe problem ofsemantic feature sparsityin shorttext news and the neglectof the homology between external knowledge and thesemanticsof short-text news,ashort text news fake detection model basedonagregating external knowledge and internal contextual semantics (EKCS-ST)was proposed.A news feature information network was constructed,which included three typesof external knowledge,such as news topics,authors,and entities,to enrichthe semantic featuresof short text news.The exteral knowledge graph features of the news were generated through graph convolution.The newstext was fed intoa text encoder to capture internal contextual semantic features.These external knowledgegraph featuresand internal contextual semantic features were thenused in a context-aware computation to strengthen thecorrelation between external knowledgeand contextual semantics.Theatention mechanism wasutilized to selectand enhance the keyfeaturesof the news,whiletheloss errorfor minority-classnews was increased to mitigate the data imbalance issue.The results show that F1 score of the proposed model,which is the harmonic mean of precision and recall,is O.86,outperforming BERT and TextGCN models by 18% and 17% ,respectively,validating the effectiveness of the model.
Keywords: short text news fake detection;external knowledge;attention mechanism;semantic feature
自媒體發(fā)布了大量快訊、頭條等表達簡短扼要的短文本新聞,未經(jīng)鑒別的新聞?wù)鎸嵭詿o法保證[1]。假新聞是一種虛假的敘述,未能真實反映客觀事物本來面貌,會給新聞相關(guān)的人物和社會大眾帶來困擾,降低新聞聚合平臺的社會公信力[2]。短文本新聞(如推文、標題等)缺乏充足的上下文信息,使得人們從中提取有意義的特征變得困難[3]因此,利用智能檢測方法識別假短文本新聞已成為亟需解決的問題[4]
假新聞的檢測方法可以分為傳統(tǒng)機器學習方法[5]和深度學習方法[]。傳統(tǒng)的機器學習方法主要依賴于人工提取新聞內(nèi)容特征,這些提取到的特征經(jīng)過支持向量機、決策樹等機器學習分類器的處理得到檢測結(jié)果。在這之后有人提出了深度學習方法,通過構(gòu)造神經(jīng)網(wǎng)絡(luò)來學習時間序列中的文本特征[7]。2016年循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型應(yīng)用于社交網(wǎng)絡(luò)假新聞檢測,將事件中的帖子建模為一個連續(xù)的時間序列,在這之后文本分類卷積神經(jīng)網(wǎng)絡(luò)(TextCNN)[8]、長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)等模型也展現(xiàn)出在自然語言處理(NLP)領(lǐng)域的優(yōu)越性。此后研究者們將不同神經(jīng)網(wǎng)絡(luò)模型相結(jié)合,提出了諸如選區(qū)卷積神經(jīng)網(wǎng)絡(luò)(RCNN)[9]、卷積神經(jīng)網(wǎng)絡(luò)(CNN)與LSTM相結(jié)合的(C-LSTM)[o]等由不同網(wǎng)絡(luò)結(jié)合而成的模型。深度學習模型相較于傳統(tǒng)模型具有自動學習內(nèi)容特征的能力,提高了假新聞檢測任務(wù)的效率和準確率,但是在結(jié)合外部知識庫來進行學習的方面還有所欠缺。2017年由Google提出的多層變換器(Transformer)的注意力機制被廣泛應(yīng)用于Seq2Seq模型中[11]。之后的學者相繼提出了雙向LSTM 構(gòu)建的 ELMo 模型[12],以及利用 Trans-former網(wǎng)絡(luò)捕獲長距離語言結(jié)構(gòu)的中文預(yù)訓練(CPT)模型[13]。由谷歌提出的基于 Transformer 的雙向編碼器表示(BERT)[14模型采用掩碼語言模型(MaskedLM)技術(shù)實現(xiàn)了雙向語言模型訓練,較單向訓練的語言模型能夠?qū)W習到更加深入的語境理解。XLNet模型[15通過最大化所有可能的因式分解順序的對數(shù)似然學習雙向語境信息。2019年,Liu 等[16]在BERT模型基礎(chǔ)上,再次對模型參數(shù)量、數(shù)據(jù)量以及訓練方法進行優(yōu)化,提出了優(yōu)于BERT模型的改進版RoBERTa[1模型,但是模型提取的文本特征之間缺少相關(guān)性。
近幾年,不少學者利用構(gòu)建圖的方式進行新聞檢測。2019年,Yao等[17]提出基于圖卷積網(wǎng)絡(luò)的文本分類(TextGCN)模型,利用文檔和單詞構(gòu)建網(wǎng)絡(luò),使用圖卷積方式訓練。2020年,Zhang等[18]提出基于圖神經(jīng)網(wǎng)絡(luò)的歸納式文本分類(TextING)模型,利用圖神經(jīng)網(wǎng)絡(luò)進行分類訓練,同年,Ding等[19]提出超圖注意力網(wǎng)絡(luò)(HyperGAT)模型,利用圖注意力網(wǎng)絡(luò)進行分類訓練。2019年, Hu 等[20]針對于短文本的圖異構(gòu)注意力網(wǎng)絡(luò)(HGAT)方法,在文本處理時加入了實體、主題2個額外特征信息,將不同類型的節(jié)點詞嵌入映射到同一個維度空間,展現(xiàn)出該模型在短文本分類方面的優(yōu)勢。2021年,Ren等[2]針對于假新聞檢測的層次圖注意模型HGAT,使用了一種新的分層注意機制進行假新聞分類。2022年,Mehta等[22]提出根據(jù)新聞來源、發(fā)布的文章以及在社交媒體上吸引用戶之間的關(guān)系進行推理的假新聞檢測方法。這些圖處理方式加入主題、實體等文本的多種附加特征,可以豐富文本特征,也提供了一種利用外部特征異構(gòu)的檢測假新聞方式,尤其是在短文本分類方面,可以很好地解決短文本分類語義缺失等缺陷。
現(xiàn)有的短文本新聞虛假檢測方法主要是提取新聞的上下文語義特征;但由于短文本新聞特征稀疏、上下文聯(lián)系弱、詞表達易產(chǎn)生歧義,使得從文本中提取有意義的特征變得困難[3],因此檢測準確率低?,F(xiàn)有技術(shù)利用外部知識(比如新聞的主題詞)增強短文本新聞的上下文語義理解,然而,這些技術(shù)往往忽略了外部知識與新聞內(nèi)容之間的同源關(guān)聯(lián)性。盡管外部知識可以提供額外的語境信息;但由于沒有考慮到它們與新聞內(nèi)容之間的關(guān)系,因此可能導致對新聞?wù)鎸嵳Z義的理解不足或誤導。除此之外,數(shù)據(jù)集不均衡問題也給短文本新聞的檢測帶來挑戰(zhàn)。
為了應(yīng)對上述挑戰(zhàn),本文提出一種外部知識與內(nèi)部上下文語義聚合的短文本新聞虛假檢測(EKCS-ST)模型。該模型可以同時處理短文本新聞的附加外部知識和原文內(nèi)部上下文語義特征,利用附加外部知識豐富短文本新聞?wù)Z義并建立與原文上下文語義特征之間密切的聯(lián)系。
本文的主要貢獻包括3個方面:
1)構(gòu)建新聞特征信息網(wǎng)絡(luò),包含新聞主題、作者、實體3種外部知識,通過圖卷積操作提取特征并通過隱藏層生成新聞信息表示,形成新聞的外部知識圖特征;將新聞文本輸人多層Transformer結(jié)構(gòu)的文本編碼器,使用多頭注意力機制捕獲新聞內(nèi)部上下文語義特征。
2)開展上下文感知計算,聚合圖編碼器中的主題、實體、作者等外部知識圖特征與文本編碼器中的內(nèi)部上下文語義特征,加強外部知識與上下文語義的關(guān)聯(lián)。
3)嵌入模式級和點級注意力機制,篩選和強化新聞關(guān)鍵特征;通過計算模型預(yù)測值的平衡量,調(diào)高少數(shù)類新聞的損失誤差,緩解數(shù)據(jù)不均衡問題。
EKCS-ST 模型
針對短文本新聞,EKCS-ST模型使用圖編碼器處理提取的新聞附加外部知識(主題、命名實體、作者信息),將新聞外部知識表示作為圖節(jié)點并利用圖卷積操作提取數(shù)據(jù)特征,在不同新聞特征之間構(gòu)建聯(lián)系,增強短文本新聞?wù)Z義特征和上下文關(guān)系;此外,EKCS-ST模型使用文本編碼器處理新聞內(nèi)部上下文語義特征,動態(tài)處理生成的詞向量,結(jié)合上下文進行學習;將圖編碼器中學習的外部知識圖特征與文本編碼器學到的內(nèi)部上下文語義特征進行上下文感知計算。在EKCS-ST模型中嵌入注意力機制,篩選和強化新聞關(guān)鍵特征,并且針對數(shù)據(jù)集不均衡問題,在任務(wù)分類時通過計算模型預(yù)測值的平衡量,調(diào)高少數(shù)類新聞的損失誤差,緩解數(shù)據(jù)不均衡問題。
1. 1 新聞特征信息網(wǎng)絡(luò)
圖1為新聞特征信息網(wǎng)絡(luò)示意圖。該圖左側(cè)為新聞信息網(wǎng)絡(luò),以新聞文本為根起點聚合了以新聞主題、實體、作者信息為節(jié)點的新聞附加知識。該圖右側(cè)為通過圖網(wǎng)絡(luò)隱藏層處理后形成的新聞信息表示。在形式上,給定一個圖 G=(V,E) ,其中 V ( ∣V∣=n) 和 E 分別是 n 個節(jié)點和節(jié)點間邊的集合。對于任意節(jié)點,假設(shè)其與自身相連,即邊 (v,v)∈ E 。令 X∈Rn×m 為 n 個節(jié)點的特征矩陣,其中 m 為特征向量的維度,每行的元素 xv∈Rm 為對應(yīng)節(jié)點的特征向量。引入 G 的鄰接矩陣 A 及其度矩陣 D ,其中 。由于節(jié)點的聚合表征不包含它自己的特征,只有自環(huán)的節(jié)點才在聚合中包含自己的特征,因此須要給每個節(jié)點增加自連接,設(shè)置 A 的對角線元素為1。圖網(wǎng)絡(luò)通過一層卷積僅能捕獲近鄰的信息,多個卷積層堆疊可以聚合更大鄰域的信息。對于1層卷積層,新的 k 維節(jié)點特征矩陣 L1∈ Rn×k 由以下公式計算:
式中: L1 為1層卷積層中新的 k 維節(jié)點特征矩陣;
為歸一化對稱鄰接矩陣,
; W0∈
為該層的權(quán)重矩陣; ρ 為設(shè)置的激活函數(shù)。
進一步地,通過堆疊多個卷積層可以合并高階鄰域信息,即
式中: j 為卷積層的層數(shù),當 j=0 時, L0 為卷積層的層數(shù)為0時的圖節(jié)點特征矩陣,此時 L0=X : Lj )Lj+1 分別為 X 通過 j,j+1 層卷積層之后得到的特征矩陣; Wj 為 j 層卷積層的權(quán)重矩陣。
1.2 上下文感知計算
EKCS-ST模型使用文本編碼器提取新聞內(nèi)部上下文語義特征并處理為信息表示,然后與新聞附加外部知識特征聚合。文本編碼器是包含Transformer結(jié)構(gòu)的編碼器,每個編碼器都包含多頭自注意力機制和前饋神經(jīng)網(wǎng)絡(luò),以捕捉文本中的上下文信息。
EKCS-ST模型結(jié)構(gòu)如圖2所示。在新聞數(shù)據(jù)中提取附加知識特征與新聞上下文語義特征并輸入模型,分別訓練圖編碼器和文本編碼器,生成待驗證測試文章的內(nèi)部上下文語義特征表示、外部知識表示以及上下文感知表示。首先,文本編碼器以文本為輸入,訓練模型完成新聞分類任務(wù),經(jīng)過訓練的文本編碼器生成新聞內(nèi)部上下文語義特征 ,其中 dt 是文本編碼器的隱藏維數(shù), Rdt 表示一個 dt 維的實數(shù)向量空間。文本編碼器中的多頭注意力可以捕獲輸入新聞序列中的不同位置信息,通過一個線性層生成最終的輸出表示,并且文本編碼器利用Transformer架構(gòu)實現(xiàn)雙向上下文表示,同時考慮文本中每個詞左、右兩側(cè)的上下文信息,獲得語義表示。然后,圖編碼器將新聞附加知識作為圖網(wǎng)絡(luò)節(jié)點,利用圖卷積網(wǎng)絡(luò)融合多項新聞附加知識特征。經(jīng)過訓練的圖編碼器能夠生成外部知識聚合的嵌入信息 hg={n1,n2,…,nm} ,其中 ni∈Rdg , dg 為圖編碼器的隱維數(shù), Rdg 為圖編碼器輸出的維度為 dg 特征空間。EKCS-ST模型的最終信息上下文感知表示計算為 T=hg°ledastrt ,其中
是聚合操作符。這種形式的聚合可以保留不同類別特征的信息,并且將內(nèi)部上下文語義和外部知識特征相結(jié)合。最后,利用聚合完成的信息特征對邏輯回歸分類器(LR)進行訓練。經(jīng)過訓練的文本編碼器從內(nèi)容中捕獲對任務(wù)至關(guān)重要的上下文語義特征,經(jīng)過訓練的圖形編碼器考慮各種類型信息的差異,融合多種重要附加外部知識特征,經(jīng)過上下文感知計算后,使用經(jīng)過訓練的邏輯回歸分類器對新聞分類,最終得到預(yù)測新聞類別是否為假的結(jié)果。
1.3 嵌入模式級和點級注意力機制
EKCS-ST模型嵌入點級注意力機制,捕獲圖網(wǎng)絡(luò)中不同相鄰節(jié)點的重要性,并降低有噪聲節(jié)點的權(quán)重,給定一個特定節(jié)點 b 以及它的相鄰節(jié)點 b′∈ Nb,Nb 是一個包含與節(jié)點 b 相連的所有鄰居節(jié)點的集合,通過節(jié)點 b 的嵌入表示 hb 和節(jié)點 b′ 的嵌入表示 hb′ 來計算點級注意力得分 dbb′ ,計算公式為
dbb′=σ(νT?α|hb||hb′|),
式中: ∣ν∣ 為注意力向量; α 是節(jié)點 b 和鄰居節(jié)點 b′ 之間的注意力權(quán)重。
在訓練和測試模型的過程中,短文本新聞數(shù)據(jù)集數(shù)據(jù)不均衡問題顯著,使得模型檢測的評估變得困難,傳統(tǒng)的評估指標(如準確率)可能無法準確反映模型的性能,須要利用 F1 值即精確率和召回率的調(diào)和平均值、召回率和精確率等來全面評估模型,并且模型的整體泛化能力也會受限。為了解決短文本新聞數(shù)據(jù)不均衡問題,本文在模型訓練時,根據(jù)統(tǒng)計真假新聞的數(shù)量,計算得到對應(yīng)類別模型預(yù)測值的平衡量,對于占比較少的類別給予更大的損失誤差調(diào)整,加強其對損失函數(shù)的干預(yù),減小因數(shù)據(jù)不均衡給模型訓練造成的影響
2 實驗與結(jié)果分析
2.1 數(shù)據(jù)集介紹
Fakeddit數(shù)據(jù)集由Nakamura等[23]在2020年提出,包括文本、圖像、用戶評論和其他信息,是一個典型的短文本類型數(shù)據(jù)集。本文中選用的數(shù)據(jù)包含24706個新聞實例樣本,平均長度為12.5個單詞,包含774名作者,多數(shù)新聞實例詞量在50個以下。數(shù)據(jù)集包含真假新聞比例為18:7,數(shù)據(jù)比例相對不均衡。
2.2 基線模型解析
在實驗中分別以文本檢測模型和圖網(wǎng)絡(luò)模型為基線模型來驗證EKCS-ST模型的性能。
2.2.1 文本檢測模型
預(yù)訓練的語言表征模型BERT,利用Transformer架構(gòu)實現(xiàn)雙向上下文表示,能夠捕捉文本中的雙向語義信息。同時考慮文本中每個詞的左、右兩側(cè)上下文獲得更豐富的語義表示,生成深度的雙向語言表征。
RoBERTa模型包含多層Transformer編碼器,每個編碼器由多頭自注意力機制和前饋神經(jīng)網(wǎng)絡(luò)組成,能夠有效地捕捉文本中的上下文信息。
上述2個模型均有基礎(chǔ)版(base)、大型版(large)。BERT-base、RoBERTa-base模型均包含12個隱藏層,處理維度為768維,包含12個頭注意力;BERT-large[24]、RoBERTa-large 模型均包含 24個隱藏層,處理維度為1024維,包含16個頭注意力。
2.2.2 圖網(wǎng)絡(luò)檢測模型
TextGCN模型:將文本語料庫建模為一個包含文檔和單詞節(jié)點的圖,利用圖卷積網(wǎng)絡(luò)融合節(jié)點的特征和鄰居節(jié)點的信息,
TextING模型:為每個文檔構(gòu)建單獨的圖,使用圖神經(jīng)網(wǎng)絡(luò)(GNN)學習基于它們的局部結(jié)構(gòu)的細粒度單詞表示,將單詞節(jié)點作為文檔嵌人被合并。
HGAT模型:引入注意力機制捕捉文本數(shù)據(jù)中的復(fù)雜關(guān)系和語義信息,將主題、實體特征與原文本構(gòu)建圖網(wǎng)絡(luò)并加入注意力機制,學習不同特征的重要性。
圖注意力網(wǎng)絡(luò)(GAT)模型[25:基于注意力機制的圖神經(jīng)網(wǎng)絡(luò)模型,可以學習圖數(shù)據(jù)中節(jié)點之間的復(fù)雜關(guān)系,每個節(jié)點都有一個特征向量表示,通過注意力機制,每個節(jié)點可以根據(jù)與其相鄰節(jié)點的特征動態(tài)地分配不同的注意力權(quán)重。
圖卷積網(wǎng)絡(luò)(GCN)模型[26]:用于處理圖數(shù)據(jù)的深度學習模型,通過在圖結(jié)構(gòu)上執(zhí)行卷積操作來學習節(jié)點表示,聚合每個節(jié)點的鄰居節(jié)點特征,并將這些聚合后的特征與節(jié)點自身的特征相結(jié)合,從而更新節(jié)點的表示。
用于短新聞分類的GAT(GAT-SN)模型[27]:從新聞中提取多種外部知識和文本特征信息構(gòu)建為圖網(wǎng)絡(luò),嵌入雙注意力機制進行訓練,捕獲不同相鄰節(jié)點的重要性,降低有噪聲節(jié)點的權(quán)重。
2.3 對比實驗結(jié)果分析
2.3.1不同文本編碼器實驗
EKCS-ST模型使用的文本編碼器包含基礎(chǔ)版本、大型版本,根據(jù)版本不同將文本語義特征處理為768、1024維度的張量數(shù)據(jù),而圖編碼器生成的外部知識圖特征為512維張量數(shù)據(jù)。首先,將文本編碼器和圖編碼器這兩部分的特征表示處理為相同維度后聚合,在獲得文本內(nèi)部上下文語義特征的同時兼顧新聞附加外部知識特征;然后,在EKCS-ST模型中嵌入的注意力機制,可以篩選和加強新聞關(guān)鍵特征;最后,計算得到新聞對應(yīng)類別的平衡量,從而減少對模型檢測結(jié)果的影響。在短文本類型的假新聞識別任務(wù)中,占比較少的類是假新聞,所以實際實驗中對假新聞數(shù)據(jù)的損失誤差調(diào)整更大,以減少對模型檢測結(jié)果的影響。
首先分別使用文本編碼器的基礎(chǔ)、大型版本進行模型的訓練和測試,實驗結(jié)果見表1。由表可知:大型版本的EKCS-ST模型編碼器效果優(yōu)于基礎(chǔ)版本的,因為在大型版本的模型中包含有更多層的處理機制,維度也由768維變?yōu)?024維,文本處理性能更好,并且在其內(nèi)部包含的多頭注意力機制也從原來的12個變?yōu)?6個,對重要新聞特征信息的識別更準確。從相同文本編碼器的EKCS-ST模型分別使用模式級、點級注意力機制的實驗結(jié)果可以看出,點級注意力機制可以更好地篩選新聞重要特征,捕獲圖網(wǎng)絡(luò)中不同相鄰節(jié)點的重要性,并減小有噪聲節(jié)點的權(quán)重,因此EKCS-ST模型使用點級注意力機制的性能優(yōu)于另外2種機制。
在實驗數(shù)據(jù)集中,EKCS-ST模型測試了真實出現(xiàn)的一些假新聞。例如,在2020年新型冠狀病毒感染防控期間,網(wǎng)絡(luò)上曾假借鐘南山院士的名義散布“這場瘟疫比17年前的非典更嚴重,用的藥副作用更大。一旦染上,就算治愈了,后遺癥也會拖累后半生”的謠言。EKCS-ST模型對這條新聞進行了驗證,輸出結(jié)果表明這是一條假新聞。通過網(wǎng)絡(luò)平臺上相關(guān)信息的驗證,這條新聞確實是假新聞,這也證明了模型的有效性。
2.3.2 基線模型對比實驗
EKCS-ST模型與基線模型對比的實驗結(jié)果如表2所示,分別嵌人點級注意力機制、模式級注意力機制,選用準確率、 F1 值、損失值3個評價指標對比實驗結(jié)果。由表可以看出,EKCS-ST模型在3個評價指標上的性能優(yōu)于其他基線模型的,尤其在點級注意力機制的嵌入時EKCS-ST模型性能最優(yōu),其準確率、 F1 值均大于其他基線模型的,損失值均小于基線模型的。
注: ① BERT-base為基于多層變換器的雙向編碼器表示模型的基礎(chǔ)版本。 ② BERT-large為BERT的大型版本。 ③ RoBERTa-base為改進版BERT的基礎(chǔ)版本。 ④ RoBERTa-large為改進版BERT的大型版本。 ⑤ TextGCN為基于圖卷積網(wǎng)絡(luò)的文本分類模型。 ⑥ TextING為基于圖神經(jīng)網(wǎng)絡(luò)的歸納式文本分類模型。 ⑦ HGAT為圖異構(gòu)注意力網(wǎng)絡(luò)。 ⑧GAT 為圖注意力網(wǎng)絡(luò)。 ⑨GCN 為圖卷積網(wǎng)絡(luò)。 ⑩ GAT-SN 為用于短新聞分類的GAT。 ?F1 值為精確率與召回率的調(diào)和平均值。
在同一數(shù)據(jù)集中,BERT、RoBERTa模型的大型版本的檢測結(jié)果整體優(yōu)于基礎(chǔ)版本的,這2個模型都是通過大規(guī)模的無監(jiān)督語言模型訓練數(shù)據(jù)來學習文本表示,主要通過上下文語義信息表示來完成新聞檢測;但是2個模型都以提取原文中的文本特征為新聞檢測任務(wù)的依據(jù),在檢測短文本新聞時存在短文本語義稀疏、上下文表示難以提取且數(shù)據(jù)不均衡問題,所以檢測準確率低于檢測長文本數(shù)據(jù)集時的。EKCS-ST模型則在兼顧新聞內(nèi)部上下文語義特征的同時,將幾種不同的外部知識特征加入其中,改善短文本語義稀疏、上下文表示難以提取的問題,并且方法中嵌入的注意力機制可以幫助模型篩選和強化關(guān)鍵特征,提高模型檢測任務(wù)的準確率。除此之外,調(diào)整模型的損失誤差,加強對損失函數(shù)的干預(yù),減小了數(shù)據(jù)不均衡帶來的影響,EKCS-ST模型的性能優(yōu)于用于對比的文本檢測模型。由于短文本數(shù)據(jù)具有特征少難提取的特點,TextGCN模型和TextING模型這2種圖網(wǎng)絡(luò)檢測模型構(gòu)建的圖特征網(wǎng)絡(luò)較為簡單,因此檢測短文本數(shù)據(jù)集的準確率比檢測長文本數(shù)據(jù)集的低。HGAT模型和GAN-ST模型都利用新聞文本的附加外部特征構(gòu)建圖網(wǎng)絡(luò),由于缺少文本內(nèi)部上下文語義特征的使用,并且沒有調(diào)整數(shù)據(jù)集中的數(shù)據(jù)不均衡問題,因此這2種模型檢測數(shù)據(jù)不均衡的短文本新聞數(shù)據(jù)集的準確率低于檢測長文本數(shù)據(jù)集的。由于GAT模型和GCN模型中未加入新聞主題、實體等外部知識特征,并且未篩選和強化新聞關(guān)鍵特征,因此導致這2個模型在短文本新聞虛假檢測中存在缺陷。
綜上分析,與基于文本語義特征的檢測模型和基于圖特征網(wǎng)絡(luò)的檢測模型相比,EKCS-ST模型聚合新聞外部知識與內(nèi)部上下文語義特征,增強了外部知識特征與內(nèi)部上下文語義的關(guān)聯(lián),并且針對數(shù)據(jù)的不均衡問題,在模型訓練階段采用了邏輯回歸調(diào)整模型Logit以調(diào)整模型輸出損失誤差的方法,有效地減少了因數(shù)據(jù)不均衡給模型分類結(jié)果帶來的誤差。除此之外,EKCS-ST模型嵌入注意力機制,對不同類型特征給予對應(yīng)的權(quán)重,篩選和強化關(guān)鍵特征,提高有效信息的利用,其中在點級注意力機制的嵌入中表現(xiàn)突出。
3結(jié)論
本文中提出一種外部知識與內(nèi)部上下文語義聚合的短文本新聞虛假檢測模型(EKCS-ST模型),該模型的優(yōu)勢在于提取多種附加外部知識豐富短文本新聞的語義信息,并同時考慮新聞內(nèi)部上下文語義特征和附加外部知識在假新聞檢測任務(wù)中的同源關(guān)聯(lián)性,理解新聞數(shù)據(jù)的整體結(jié)構(gòu)和上下文語義。實驗結(jié)果表明,EKCS-ST模型的性能優(yōu)于其他的基線模型。另外,在模型中嵌人的注意力機制篩選和強化新聞特征信息在檢測任務(wù)中的作用,通過計算模型預(yù)測值的平衡量,調(diào)高少數(shù)類新聞的損失誤差,緩解數(shù)據(jù)不均衡問題
未來工作主要包括兩方面:1)EKCS-ST模型主要針對短文本類型假新聞檢測,后期的研究將長文本與短文本作為共同研究內(nèi)容,進一步完善模型結(jié)構(gòu);2)挖掘外部知識的深層應(yīng)用,通過挖掘不同外部知識庫、多類型信息特征的方式開展假新聞檢測。
參考文獻:
[1] 張明道,周欣,吳曉紅,等.基于語義擴充和HDGCN的虛假 新聞聯(lián)合檢測技術(shù)[J].計算機科學,2024,51(4):299.
[2] 王騰,張大偉,王利琴,等.多模態(tài)特征自適應(yīng)融合的虛假新 聞檢測[J].計算機工程與應(yīng)用,2024,60(13):102.
[3] TOMMASEL A,GODOY D. Short-text feature construction and selection in social media data:a survey[J]. Artificial Intelligence Review,2018,49(3):301.
[4] ZHOUXY,ZAFARANIR,SHUK,etal.Fake news:fundamental theories,detection strategiesand challenges[C]//Proceedings of theTwelfthACMInternationalConferenceonWebSearchandData Mining,F(xiàn)ebruary11-15,2O19,Melbourne,VIC,Australia.New York:ACM,2019:836.
[5] 李海霞,宋丹蕾,孔佳寧,等.傳統(tǒng)機器學習模型的超參數(shù)優(yōu) 化技術(shù)評估[J].計算機科學,2024,51(8):242. 研究綜述[J].計算機學報,2024,47(6):1244.
[7] MINAEE S,KALCHBRENNER N,CAMBRIA E et al. Deep learning-based text classification:a comprehensive review[J]. ACM Computing Surveys, 2021, 54(3) : 62.
[8]ZHANG T Y,YOU F C.Research on short text clasification based on TextCNN[J]. Journal of Physics:Conference Series, 2021,1757(1) : 012092.
[9]CHENG BW,WEI Y C,SHI HH,et al. Revisiting RCNN:On awakening the classfication power of faster RCNN[ C]//FERRARI V,HEBERT M, SMINCHISESCU C,et al. Computer Vision : ECCV 2018. Cham:Springer,2018:473.
[10]SHI MY,WANG KX,LI C F. A C-LSTM with word embedding model for news text classification[C]//2019 IEEE/ACIS 18th International Conference on Computer and Information Science (ICIS),June 17-19,2019,Beijing,China.New York: IEEE, 2019:253.
[11]LIU T Y,WANG K X,SHA L,et al. Table-to-text generation by structure-aware seq2seq learning[ C]//Proceedings of the AAAI Conference on Artificial Intelligence,F(xiàn)ebruary 2-7,2O18,New Orleans,Louisiana,USA. Palo Alto,CA: AAAI,2018: 4881.
[12]MASLENNIKOVA E. ELMO word representations for news protection[C]/CEUR Workshop Proceedings,September 9-12,2019, Lugano,Switzerland.Lugano:CEUR-WS. Org,2019:1.
[13]SHAO Y F,GENG Z C, LIU Y T,et al. CPT: a pre-trained unbalanced transformer for both chinese language understanding and generation[J]. Science China: Information Sciences,2024,67 (5):152102.
[14]DEVLIN J, CHANG MW,LEE K,et al. BERT: pre-training of deep bidirectional transformers for language understanding[ C]/ Proceedings of the2O19 Conferenceof the North American Chapter of the Association for Computational Linguistics: Human Language Technologies,June2-7,2019,Minneapolis,MN,USA.Stroudsburg:ACL,2019: 4171.
[15]YANG Z L,DAI Z H, YANG Y M,et al. XLNet:generalized autoregressve pretraining for language understanding[ C]//WALLACH H M,LAROCHELLE H,BEYGELZIMER A,et al. NIPS’19:Proceedings of the 33rd International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc,2019:5753.
[16]LIU Y H, OTT M, GOYAL N,et al.RoBERTa: a robustly optimized bert pretraining approach[EB/OL].(2019-07-26)[2024- 05-01]. htps://doi.org/10.48550/arXiv.1907.11692.
[17]YAO L,MAO C S,LUO Y. Graph convolutional networks for text classification[ C]//Proceedings of the AAAI conference on artificial intelligence,January 27-February1,2019,Honolulu, Hawaii, USA. Menlo Park: AAAI Press,2019:7370.
[18]ZHANG Y F,YU X L,CUI Z Y,et al. Every document owns its structure:inductive text classification via graph neural networks [C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics,July 5-10,2020,Online.Stroudsburg:ACL,2020: 334.
[19]DINGK,WANGJL,LIJD,etal.Be more with less:hypergraphattention networks for inductive text classification[C]//2020 Conference on Empirical Methods in Natural Language Processing,November16-20,2020,Online.Stroudsburg:ACL,2020: 4927.
[20] HU L M,YANG TC,SHI C,et al.Heterogeneous graph attentionnetworks for semi-supervised short text classification[C]// Proceedings of the 2O19 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing,November 3-7,2019, HongKong,China.Stroudsburg:ACL,2019:4823.
[21] RENYX,ZHANGJW.Fake newsdetection onnews-oriented heterogeneous information networks through hierarchical graph attention[C]//2O21 International Joint Conference on Neural Networks(IJCNN),July 18-22,2021,Shenzhen,China.New York:IEEE,2021:1.
[22] MEHTAN,PACHECOML,GOLDWASSERD. Tackling fake newsdetectionbycontinually improving social contextrepresentations using graph neural networks[C]//Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics, May22-27,2022,Dublin,Ireland.Stroudsburg:ACL,2022: 1363.
[23]NAKAMURA K, LEVY S,WANG WY. Fakeddit: a new multimodal benchmark dataset for fine-grained fake news detection [C]//Proceedings of the Twelfth Language Resources and EvaluationConference,May11-16,2O2O,Marseille,F(xiàn)rance.Paris: European Language Resources Association,2O2O:6149.
[24] WANG S, GUO Y Z, WANG Y H, et al. SMILES-BERT: large scaleunsupervised pre-training for molecularproperty prediction [C]//Proceedings of the 1Oth ACM International Conference on Bioinformatics,Computational Biology and Health Informatics, September7-1O,2019,NewYork,NY,USA.NewYork:ACM, 2019:429.
[25]VELICKOVIC P,CUCURULL G,CASANOVA A,et al. Graph attention networks[C]//6th International Conference on Learning Representations,April30-May3,2018,Vancouver,BC,Canada. [S.1.]:OpenReview,2018:339.
[26] ZHOU Y C,HUO HT,HOU Z W,et al.A deep graph convolutionalneural network architecture for graph classification[J]. PLoSOne,2023,18(3):e0279604.
[27]SUN Z J. Graph attention network for short text type news[C]// Proceedings of the 2O23 6th International Conference on Big Data Technologies,September 22-24,2O23,Qingdao,China.NewYork: ACM,2023:66.
(責任編輯:劉飚)