劉玉婷,丁 鯤,劉 茗
(1.國防科技大學(xué)第六十三研究所 信息科學(xué)技術(shù)學(xué)院,江蘇 南京 210007;2.南京信息工程大學(xué) 計算機學(xué)院、網(wǎng)絡(luò)空間安全學(xué)院,江蘇 南京 210044;3.國防科技大學(xué)大數(shù)據(jù)與決策實驗室,湖南 長沙 410073)
隨著大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)、區(qū)塊鏈、5G 等信息技術(shù)的興起,社交媒體成為了人們獲取開源情報的重要渠道,但同時也為虛假情報的廣泛傳播提供了平臺。與傳統(tǒng)的秘密情報不同的是,開源情報是以滿足用戶特定情報需求為導(dǎo)向,圍繞一個或多個明確主題,在分散的公開可用的信息源中經(jīng)收集、整理及分析評估之后產(chǎn)生并及時傳遞給特定受眾的情報信息。近年來,互聯(lián)網(wǎng)的高速發(fā)展給用戶提供了大量開源情報,尤其是社交媒體渠道的膨脹使得情報的來源和真實性難以鑒別。據(jù)2022年度的微博辟謠報告顯示,全年有82 274條不實信息被官方處理。愈演愈烈的虛假情報引發(fā)了一系列社會治理問題,因此,如何有效進(jìn)行虛假信息查證是突破信息迷霧的重要研究議題之一。
以往的虛假情報檢測主要是情報員人工干預(yù),以標(biāo)記內(nèi)容特征等形式來對假新聞標(biāo)示。但是這些方法還集中在靜態(tài)內(nèi)容的基礎(chǔ)上,并且很難掌握情報文本深層次的語義特征,另外以人工的方式來處理不僅耗費精力且效率不高。為解決上述問題,本文構(gòu)建了基于事件表示的虛假情報檢測模型。該模型具體如下,通過擴展網(wǎng)絡(luò)結(jié)構(gòu)的方式學(xué)習(xí)事件文本內(nèi)部結(jié)構(gòu)信息,進(jìn)一步捕捉事件元素之間的交互信息進(jìn)行深層特征提取,以獲得更高質(zhì)量的特征向量;再將事件表示映射到一個具體的領(lǐng)域。為了驗證本文所提出的方法的有效性,在謠言數(shù)據(jù)集上進(jìn)行了相關(guān)任務(wù)的驗證。
為保留事件豐富的語義信息,將結(jié)構(gòu)化的信息表示為計算機可以理解的形式。早期的事件表示學(xué)習(xí)研究主要基于離散的事件表示,將事件表示為由事件元素構(gòu)成的元組。文獻(xiàn)[1]將事件表示為三元組(Qi,P,t),其中Qi為對象的謂詞,P為對象間的關(guān)系,t為事件發(fā)生的時間。為進(jìn)一步地添加事件角色[2],提出六元組(P,O1,O2,O3,O4,t),分別代表著標(biāo)記事件發(fā)生的動作或狀態(tài)、實施者、事件作用的對象、使事件發(fā)生的工具、地點以及時間戳。為簡化事件表示[3],將其表示為(P,O1,O2,T),一個事件只包含一個施事者O1和受事者O2。
但離散的事件表示面臨著稀疏性的問題,為緩解稀疏性[3],提出基于WordNet將各事件元素中的單詞還原為詞干,再將事件動詞泛化為其在VerbNet中的類別名稱,從而能得到泛化事件。
為計算低維、稠密的事件向量表示,根據(jù)事件結(jié)構(gòu)對事件元素的詞向量進(jìn)行語義組合。按組合方式的不同,分為基于詞向量與基于神經(jīng)網(wǎng)絡(luò)的事件表示這兩種方法[4]。提出了一種高效訓(xùn)練詞向量的模型——Word2Vec,并利用向量的加法屬性來學(xué)習(xí)短語向量表示,再根據(jù)詞匯的“共現(xiàn)”信息將詞匯編碼成一個向量。基于詞向量的方法是對用矩陣向量表示短語的補充,在一定程度上推進(jìn)了推理工作的發(fā)展。與基于詞向量的方法不同的是,基于神經(jīng)網(wǎng)絡(luò)的方法則是使用神經(jīng)網(wǎng)絡(luò)模型從文本中提取特征,進(jìn)行編碼,解決了詞向量編碼存在的建模薄弱的問題[5]。提出了Neural Tensor Network模型,首先對施事者和動作詞、動作詞和受事者進(jìn)行組合,再對得到的向量進(jìn)行組合,從而得到最終的事件表示。
以上研究表明,高效的事件表示學(xué)習(xí)方法可以很大程度上提升下游任務(wù)的效果。
早期的謠言檢測方法主要是手工從消息中提取關(guān)于消息的文本內(nèi)容、用戶資料、傳播結(jié)構(gòu)等統(tǒng)計特征,然后利用機器學(xué)習(xí)算法進(jìn)行分類檢測。但這類方法十分依賴特征工程,且無法提取語義特征。
為解決手工提取特征的缺陷,基于深度學(xué)習(xí)的謠言檢測方法得到廣泛使用[6]。利用雙向長短時記憶神經(jīng)網(wǎng)絡(luò)(Bi-directional Long-Short Term Memory,Bi-LSTM)和貝葉斯網(wǎng)絡(luò)分別提取新聞和評論的語義特征,然后通過多層感知機將新聞特征和評論特征做融合輸入分類器進(jìn)行分類。
當(dāng)前謠言檢測領(lǐng)域的方法大都是利用神經(jīng)網(wǎng)絡(luò)模型來提取不同的特征。然而僅將特征拼接、特征相加或基于簡單神經(jīng)網(wǎng)絡(luò)進(jìn)行特征空間映射等方法很難準(zhǔn)確地提取深層特征,所以需要利用特征融合策略來學(xué)習(xí)特征的增強表示[7-8]。
虛假情報的查證的方法可分為人工和算法兩類,人工手段主要是以標(biāo)記等形式來對假情報進(jìn)行標(biāo)示,算法識別則是以內(nèi)容特征、傳播特征等為基礎(chǔ)進(jìn)行識別[9-10]。提出以閾值為基礎(chǔ)的數(shù)據(jù)融合策略,分析了拓?fù)涓兄獥l件下的虛假信息攻擊,發(fā)現(xiàn)在大多數(shù)節(jié)點已經(jīng)妥協(xié)的基礎(chǔ)上,網(wǎng)絡(luò)對于虛假信息抵御的彈性仍能得到加強。人工手段亦會運用一些可視化工具輔助進(jìn)行虛假情報的查證[11-13],運用知識圖譜等可視化分析方法,對比分析了國內(nèi)外網(wǎng)絡(luò)謠言研究的起源和發(fā)展,同時分析了國內(nèi)外研究熱點和未來研究趨勢。
對海量數(shù)據(jù)進(jìn)行判讀、清洗和篩選需要大量的人力資源,也難以滿足情報任務(wù)需求??紤]到人類的計算速度和精力有限,借助大數(shù)據(jù)等技術(shù)手段提升開源情報的處理效率和穩(wěn)定性。
虛假情報檢測的框架包含三個部分。如圖1所示,情報收集層,從原始文本中提取事件,對其進(jìn)行統(tǒng)一化處理;情報分析層,構(gòu)建模型對情報特征進(jìn)行分析,獲取更深層次的特征;情報研判層,采用一些具有特定任務(wù)和指標(biāo)的評估方法來測試模型的性能。
圖1 虛假情報檢測框架
在情報收集階段,由于可公開獲取的信息越來越多,在搜集工作中要選擇可靠且權(quán)威性較高的情報源,保證情報的可信度。
為提高收集到的情報質(zhì)量,首先針對收集到的原始情報進(jìn)行數(shù)據(jù)預(yù)處理,預(yù)處理的步驟如圖2所示。數(shù)據(jù)清洗目的在于刪除原始數(shù)據(jù)集中無關(guān)數(shù)據(jù)、重復(fù)數(shù)據(jù)、平滑噪聲數(shù)據(jù),篩選掉與挖掘主題無關(guān)的數(shù)據(jù),處理缺失值、異常值等;數(shù)據(jù)集成的目的在于將多個數(shù)據(jù)源合并存放在一個一致的數(shù)據(jù)存儲中;數(shù)據(jù)歸約目的在于得到信息內(nèi)容的損失最小化;數(shù)據(jù)變換則是對數(shù)據(jù)進(jìn)行規(guī)范化處理,將數(shù)據(jù)轉(zhuǎn)換成適當(dāng)?shù)男问健?/p>
圖2 預(yù)處理流程
圖3 情報分析模型
經(jīng)預(yù)處理后的情報信息量仍然巨大,很難以人工的方法對其進(jìn)行查證,情報分析的重要性就隨之凸顯了。在特征編碼階段,在提取語義特征時,使用Word2vec作為特征提取器,用長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)獲取深層次的語義特征。模型圖如3所示。
具體來說,詞嵌入模塊主要將情報文本轉(zhuǎn)化為詞向量矩陣,情報文本可表示為長度為N的事件序列(e1,e2,e3,…,eN),使用Word2vec獲取詞向量序列Ei,形式化過程可表示為(1):
Ei=Embedding(ei)
(1)
事件特征融合主要由LSTM、最大池化層和全連接層組成,主要用于獲取事件中的語義信息。首先通過LSTM網(wǎng)絡(luò)捕捉到情報文本的語義特征,然后使用最大池化層對高維的特征進(jìn)行降維,保留對目標(biāo)有用的信息,最后通過全連接層得到低維的情報文本的抽象語義表示。
LSTM采用了門控輸出的方式,主要由輸入門it、遺忘門ft和輸出門ot組成,形式化表示為:
it=σ(Wiixt+Whih(i-1)+bii+bhi)
(2)
fi=σ(Wifxt+Whfh(i-1)+bif+bhf)
(3)
gt=tanh(Wigxt+Whgh(t-1)+bit+bhg)
(4)
ot=σ(Wioxt+Whoh(t-1)+bio+bho)
(5)
ct=ft*c(t-1)+it*gt
(6)
ht=ot*tanh(ct)
(7)
其中,σ代表sigmoid函數(shù),ct代表候選狀態(tài),ht代表隱藏狀態(tài)。
池化層對LSTM的輸出進(jìn)行最大池化操作,提取情報的重要特征,并將高維特征降至低維,如(8)所示:
φi=MaxPooling(hi)
(8)
其中,MaxPooling(·)代表最大池化。
全連接層將情報的高維特征映射到低維空間,降低模型計算復(fù)雜度,得到最終的事件表示ci。
將最終得到的事件表示送入分類器中,采用softmax激活函數(shù)進(jìn)行最終的預(yù)測,判斷情報的可信程度,計算過程為:
(9)
對于普通用戶而言,通過利用情報分析結(jié)果,與虛假信息內(nèi)容進(jìn)行直接對比,有效切斷虛假信息帶來的持續(xù)效應(yīng)。
對情報人員而言,通過對情報文本進(jìn)行有序化處理和分析之后建立虛假信息查證的開源情報庫,促進(jìn)信息轉(zhuǎn)化,形成系統(tǒng)完整的開源情報產(chǎn)品,將大大減少情報工作人員所耗費的時間與精力,使情報人員及信息用戶更方便地掌握、交流和共享信息。
以謠言事件為例探討本文所提出的方法的有效性。數(shù)據(jù)集來源為從微博不實信息舉報平臺抓取的中文謠言數(shù)據(jù)。數(shù)據(jù)集中共包括三個文件夾,分別是非謠言、謠言和所有數(shù)據(jù),其中每個文件里面單條數(shù)據(jù)均為json格式,其中text字段代表微博原文的文字內(nèi)容,數(shù)據(jù)集中共包含1 538條謠言和1 849條非謠言。
為了證明本模型的有效性,在相似度計算任務(wù)上進(jìn)行測試。
(1)相似度計算
將任意四個場景的事件中的兩個事件作為一個事件對,相同場景的則為相似事件,否則為不相似事件。該實驗采用精確率P、召回率R和綜合評價指標(biāo)F1作為模型性能的評判方法,計算方法如下:
(10)
(11)
(12)
其中,TP為模型識別正確的總數(shù),F(xiàn)P模型識別錯誤的總數(shù),F(xiàn)N為未識別正確的樣例的總數(shù)。
實驗代碼使用Python編程語言編寫,機器學(xué)習(xí)框架采用PyTorch,在 NVIDIA GEFORCE RTX 3090 GPU平臺上進(jìn)行實驗。在詞向量方面,采用謠言數(shù)據(jù)訓(xùn)練的Word2vec詞向量。實驗中,Dropout 用來防止過擬合,“丟棄率”為 0.5。實驗使用的部分參數(shù)如表1所示。
表1 模型參數(shù)
(1)事件相似度計算結(jié)果與分析
為了驗證模型的有效性,本文設(shè)計了相似度計算任務(wù)實驗。實驗結(jié)果如表2所示。
表2 實驗結(jié)果
實驗各項指標(biāo)表明,通過融合事件的語義特征可以有效地區(qū)分詞向量共現(xiàn)高但語義不同的事件,一定程度上表明本文方法在區(qū)分真?zhèn)吻閳笊系挠行浴?/p>
(2)事件聚類實驗結(jié)果與分析
為了證明基于事件表示的虛假情報檢測方法能夠更加準(zhǔn)確區(qū)分真?zhèn)吻閳?,設(shè)計了事件聚類相關(guān)實驗。實驗結(jié)果如圖4示。
圖4 聚類可視化圖
聚類結(jié)果的可視化表明,本方法將真實情報歸為同一組,虛假情報歸為不同的組。
本文提出一種基于事件表示的虛假情報檢測方法,在掌握更深層次的情報內(nèi)容的基礎(chǔ)上進(jìn)行情報真?zhèn)蔚谋鎰e。一方面,幫助普通用戶分辨開源情報的真?zhèn)危瑸橛行ё钄嗵摷偾閳蟮膫鞑ゲ⒉扇☆A(yù)警措施提供了科學(xué)的依據(jù)。另一方面,該方法能夠有效輔助情報人員預(yù)測情報的真?zhèn)???紤]到情報數(shù)據(jù)集的特殊性,謠言數(shù)據(jù)具有一定的代表性,因此選取微博謠言數(shù)據(jù)集進(jìn)行本文方法的有效性驗證。隨著事件表示的方法愈發(fā)成熟,在未來的日常戰(zhàn)備活動中,將為情報員分辨情報提供智能化的輔助決策手段。