張明書,葛曉義,魏 彬
(武警工程大學(xué)密碼工程學(xué)院,陜西 西安 710086)
隨著網(wǎng)絡(luò)媒體的高速發(fā)展,信息的獲取和傳播更加便利,民眾更加傾向于社交媒體中獲取信息,根據(jù)《微博2020用戶發(fā)展報(bào)告》,9月日活躍用戶達(dá)2.24億。但審核機(jī)制的不完善等原因也導(dǎo)致了社交媒體中了謠言的滋生和傳播,破壞了網(wǎng)絡(luò)環(huán)境的良性發(fā)展,給社會(huì)、文化、經(jīng)濟(jì)等帶來嚴(yán)重的影響。在新冠肺炎爆發(fā)之初,一系列關(guān)于封鎖、和感染數(shù)量的謠言,使得人們開始囤積口罩等物資[1],在今天關(guān)于疫苗的謠言仍影響著疫苗接種效率[2]。
社會(huì)網(wǎng)絡(luò)謠言為一種在社會(huì)網(wǎng)絡(luò)上傳播且未經(jīng)驗(yàn)證,或已被官方證實(shí)為假,并在社會(huì)網(wǎng)絡(luò)中流傳的信息[3]。目前,社交平臺(tái)中的謠言檢測(cè)主要依靠人工檢測(cè),對(duì)于社交媒體上的信息數(shù)據(jù)量巨大,內(nèi)容參差不齊,信息種類繁雜的情況,人工檢測(cè)顯得效率低下,且耗費(fèi)人力、財(cái)力,因此研究謠言自動(dòng)檢測(cè)是非常迫切和必要的。
釣魚謠言[4]本身是指具有明顯知識(shí)陷阱的戲虐謠言,是一些網(wǎng)絡(luò)高手為了顯擺自己的智力優(yōu)勢(shì)而虛構(gòu)的謠言。在政治和軍事類謠言上存在的釣魚謠言,往往是別有用心者為獲取軍事情報(bào)或其它信息,故意發(fā)布具有明顯性的錯(cuò)誤信息或者誤導(dǎo)信息,等待知情者給出正確答案。因此需要謠言產(chǎn)生的評(píng)論信息以及轉(zhuǎn)發(fā)信息作為特征的謠言檢測(cè)效果相對(duì)滯后。
本文針對(duì)利用評(píng)論和轉(zhuǎn)發(fā)信息作為特征的謠言檢測(cè)模型的滯后性,提出一種基于情感特征和謠言種類的謠言檢測(cè)模型。
謠言檢測(cè)2011年由Castillo[5]在Yahoo實(shí)驗(yàn)室提出后,一直以來作為輿情分析研究的重點(diǎn),也是自然語言處理領(lǐng)域(Natural Language Processing,NLP)的熱點(diǎn)。
基于機(jī)器學(xué)習(xí)的謠言檢測(cè)主要通過謠言文本、用戶信息、傳播模式等構(gòu)造特征,依靠人工設(shè)計(jì)的特征,Yang[6]等人提出基于地理位置,利用支持向量機(jī)(Support Vector Machine,SVM)構(gòu)建分類器;Kwon[7]等人于提出基于事件、結(jié)構(gòu)等,利用隨機(jī)森林(Random Forest)構(gòu)建分類器。雖然基于機(jī)器學(xué)習(xí)的謠言檢測(cè)具有一定的效果,但該類方法嚴(yán)重依賴于特征工程,耗時(shí)耗力且檢測(cè)準(zhǔn)確率低。
隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,Ma[8]等利用長短記憶網(wǎng)絡(luò)[9](Long Short-Term Memory,LSTM)、門控循環(huán)神經(jīng)網(wǎng)絡(luò) (Gated Recurrent Unit,GRU)[10]等方法,通過謠言的傳播結(jié)構(gòu)獲取高級(jí)特征對(duì)謠言檢測(cè)進(jìn)行研究;劉政[11]等提出基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的方法對(duì)謠言檢測(cè)進(jìn)行研究,通過卷積核提取領(lǐng)域的相關(guān)特征,Zhou[12]等在此基礎(chǔ)上,結(jié)合CNN與GRU二者優(yōu)點(diǎn),充分挖掘文本深層特征,檢測(cè)效果明顯提高,李[13]等人改進(jìn)生成對(duì)抗網(wǎng)絡(luò),強(qiáng)化謠言特征的學(xué)習(xí),進(jìn)行謠言檢測(cè)。鑒于用戶、帖子和傳播模式等可以構(gòu)成圖,采用圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)進(jìn)行謠言檢測(cè),Bian[14]等人分別通過構(gòu)造謠言文本與評(píng)論之間的關(guān)系圖和謠言傳播樹構(gòu)成的圖,采用圖卷積神經(jīng)網(wǎng)絡(luò)[15](Graph Convolutional Networks,GCN)的方法進(jìn)行謠言檢測(cè),檢測(cè)結(jié)果大幅提升?;谏疃葘W(xué)習(xí)的謠言檢測(cè)效果優(yōu)于基于機(jī)器學(xué)習(xí)的謠言檢測(cè)。
分析現(xiàn)有模型發(fā)現(xiàn)往往需要大量的特征,在謠言發(fā)布之初,不具備評(píng)論和轉(zhuǎn)發(fā)信息,因此現(xiàn)有的謠言早期檢測(cè)模型不能滿足需要。在不具備評(píng)論和轉(zhuǎn)發(fā)信息的基礎(chǔ)上,如何利用謠言文本及謠言種類標(biāo)識(shí)的信息實(shí)現(xiàn)謠言高準(zhǔn)確率的檢測(cè),是謠言檢測(cè)的一項(xiàng)艱巨任務(wù)。Nguyen[16]等人提出一種多頭文檔注意力機(jī)制,根據(jù)假新聞中單詞對(duì)文檔語義貢獻(xiàn)不同進(jìn)行謠言檢測(cè)。Alonso[17]等人綜述了當(dāng)前僅利用文本內(nèi)容,通過情感分析對(duì)假新聞進(jìn)行檢測(cè)的方法和技術(shù),主要是講文本中的情感分析作為文本的基礎(chǔ)和補(bǔ)充,以增強(qiáng)謠言檢測(cè)的性能。在文本分類任務(wù)和情感分析任務(wù)中,不少學(xué)者考慮文本領(lǐng)域不同,對(duì)分類任務(wù)具有重要的影響,因此提出采用基于Bert和LDA的模型[18,19]。在謠言檢測(cè)領(lǐng)域,Silva[20]等人考慮不同領(lǐng)域的文本往往具有不同的詞匯使用和傳播模式,提出一種可以在新聞?dòng)涗浿新?lián)合保存特定領(lǐng)域和跨領(lǐng)域的知識(shí),以檢測(cè)來自不同領(lǐng)域的虛假新聞。
本文提出一種基于情感特征和謠言種類的謠言檢測(cè)模型,在獲取謠言種類標(biāo)識(shí)的基礎(chǔ)上,通過Bi-LSTM提取上下文特征,利用Self-Attention根據(jù)謠言種類獲取特征,與謠言文本提取的情感特征融合,通過(多層感知機(jī))MLP和Softmax進(jìn)行謠言分類,結(jié)果證明能夠有效提高謠言檢測(cè)準(zhǔn)確率。
謠言檢測(cè)往往需要根據(jù)上下文本內(nèi)容信息來檢測(cè),其它特征作為增強(qiáng)向量。Bi-LSTM能夠充分學(xué)習(xí)上下文的特征,獲取特征能力更強(qiáng),并添加謠言文本類別作為文本補(bǔ)充,同時(shí)需要知道上下文內(nèi)容中哪一部分內(nèi)容重要,就需要自注意力(Self-Attention)分配不同的權(quán)重。最后將特征融合通過MLP和Softmax進(jìn)行謠言分類。因此本文采取基于Bi-LSTM與Self-Attention獲取文本和文本種類信息的特征,通過情感詞典獲取情感特征作為增強(qiáng)特征。具體模型如圖1所示。該模型分為輸入層、詞向量表示層、Bi-LSTM層、Self-Attention層、情感特征層、MLP層、Class層。
圖1 謠言檢測(cè)模型結(jié)構(gòu)
長短記憶網(wǎng)絡(luò)(Long Short-tern Memory,LSTM)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),通過增加輸入門it,遺忘門ft和輸出門ot和記憶單元Ct,使得自循環(huán)的節(jié)點(diǎn)通過幾個(gè)“門”來控制,導(dǎo)致不同時(shí)刻的訓(xùn)練時(shí)更新的權(quán)重可以動(dòng)態(tài)改變,避免梯度消失的情況,如圖2所示。
圖2 LSTM結(jié)構(gòu)
輸入門it,遺忘門ft和輸出門ot和記憶單元Ct及隱藏狀態(tài)ht計(jì)算過程分別如下所示
ft=σ(Wf·[ht-1,xy]+bf
(1)
it=σ(Wi·[ht-1,xt]+bi
(2)
ot=σ(Wp·[ht-1,xt]+bo
(3)
Ct=fy×Ct-1+it×tanh(Wf·[ht-1,xt]+bc)
(4)
ht=ot·tanh(Ct)
(5)
其中W為權(quán)重矩陣,b為偏置矩陣,σ,tanh為激活函數(shù)。
在謠言文本中,詞匯往往與上下文具有關(guān)聯(lián)性,對(duì)于涉軍謠言的專有名詞,只有某一軍種存在,具有較強(qiáng)的雙向語義依賴,因此逆序處理十分必要。雙向長短記憶網(wǎng)絡(luò)(Bidirectional Long short-tern memory,Bi-LSTM)將正逆 LSTM 結(jié)合起來,用兩個(gè)相互獨(dú)立的隱層從兩個(gè)方向同時(shí)處理數(shù)據(jù),將輸出數(shù)據(jù)相結(jié)合作為輸出層的輸入。Bi-LSTM 包括前向LSTM 和逆向LSTM,假設(shè)一條謠言經(jīng)過數(shù)據(jù)預(yù)處理后,由n個(gè)詞組成的謠言數(shù)據(jù)S=[w1,w2,w3,…,wn],wi是序列中第i個(gè)元素的d維嵌入,S是由謠言序列中所有詞向量拼接而成的 n×d維矩陣。S輸入Bi-LSTM模型后,在t時(shí)刻前向 LSTM的隱狀態(tài)輸出為
(6)
逆向LSTM隱狀態(tài)輸出為
(7)
注意力機(jī)制的提出是為了處理圖像,用來關(guān)注某一小塊區(qū)域,給予更多的資源。對(duì)于自然語言處理而言,同樣存在“關(guān)鍵性”的詞匯,通過引入自注意力機(jī)制區(qū)別詞語的重要性,如軍事、疫情、科技分別對(duì)應(yīng)的重要詞匯不同,自動(dòng)關(guān)注更能體現(xiàn)語義的詞語。
本文中,自注意力層是作在Bi-LSTM層得到的H上添加注意力,將Bi-LSTM層的隱藏狀態(tài)集合H=[h1,h2,h3,…,hn]作為輸入,則輸出注意力向量α為
a=softmax(Ws2tanh(Ws1HT))
(8)
假設(shè)LSTM層的前向與逆向LSTM隱藏節(jié)點(diǎn)數(shù)為u,可得H∈Rn×2u;式中Ws1∈Rda×2u作為權(quán)重矩陣,Ws2∈Rda×1為參數(shù)向量,其中da為超參數(shù);通過Softmax函數(shù)得到每一個(gè)向量的概率。按照得到的注意力向量a將H線性加權(quán)求和得到狀態(tài)測(cè)量序列的嵌入表示m。那么計(jì)算多個(gè)特征的m作為序列S的嵌入表示,可得A=[a1,a2,a3,…,an]。那么M矩陣為
M=AH
(9)
謠言文本中幾個(gè)詞就能反應(yīng)所表達(dá)的情感,因此采用基于詞典的方法提取情感特征。在情感詞典中,假設(shè)有d種情感,則情感字典可定義為E={e1,e2,…,ed},對(duì)于情感詞典中的每一情感e,都有對(duì)應(yīng)的情感詞W={w1,w2,…,wL}。在文本中不僅存在代表情感的詞語,同時(shí)也存在反應(yīng)情感強(qiáng)度的程度副詞以及否定詞等。計(jì)算某一情感的詞匯值
(10)
其中D為情感字典,xi為字典中詞匯,w表示上下文的范圍,neg(xi,w),deg(xi,w)為對(duì)應(yīng)的否定詞和程度副詞值
(11)
(12)
根據(jù)每一文本中的情感詞、程度副詞和否定詞計(jì)算得到文本中某一類的情感值,則該文本的某一情感e為所有存在該情感詞匯之和。最后計(jì)算得到文本的特征為
(13)
將情感特征與提取文本得到文本和種類特征融合,將得到的特征通過MLP和softmax進(jìn)行分類,則預(yù)測(cè)值為
(14)
本文采用交叉熵作為損失函數(shù)進(jìn)行模型訓(xùn)練,計(jì)算公式
(15)
本文所使用的數(shù)據(jù)均已證明為謠言或者確定為準(zhǔn)確消息,謠言數(shù)據(jù)集共分為社會(huì)、文化、健康、政治、軍事、科技、疫情7種。
分類謠言數(shù)據(jù)在中國互聯(lián)網(wǎng)聯(lián)合辟謠平臺(tái)的案例分類獲取(1)https:∥www.piyao.org.cn/jdal.htm;疫情謠言數(shù)據(jù)在中國互聯(lián)網(wǎng)聯(lián)合辟謠平臺(tái)的疫情防控辟謠專區(qū)(2)https:∥www.piyao.org.cn/2020yqpy/獲得。軍事類謠言以及其它分類謠言部分?jǐn)?shù)據(jù)在微博(3)https:∥weibo.com/通過關(guān)鍵詞獲取。
本文對(duì)獲取到的數(shù)據(jù)進(jìn)行匯總和去重,謠言與非謠言共計(jì)51474條,其中各類數(shù)量如圖3所示。首先使用正則化過濾無關(guān)信息,然后對(duì)數(shù)據(jù)進(jìn)行去噪,刪除長度不足五個(gè)字的數(shù)據(jù),提高處理效率,并用中文結(jié)巴分詞進(jìn)行分詞操作。
圖3 謠言類別統(tǒng)計(jì)圖
本文采取謠言檢測(cè)常用測(cè)評(píng)的準(zhǔn)確率(Accuracy)、召回率(Recall)與F1 值(F1-Score)作為評(píng)價(jià)指標(biāo),用于反映模型效果。首先引入混淆矩陣,如表1所示,其中TP、TN、FP、FN應(yīng)的概念為:
表1 混淆矩陣
1) 準(zhǔn)確率(Accuracy)
2)召回率(Recall)
3)F1 值(F1-Score)
1)實(shí)驗(yàn)環(huán)境。①操作系統(tǒng)::Windows 10 家庭版;②CPU:Intel(R) Core(TM) i7-10750H;③GPU:NVIDIA GeForce RTX 2060。
2)參數(shù)設(shè)置。采用word2vec對(duì)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,詞向量長度設(shè)為300。LSTM與隱藏層為128,激活函數(shù)分別為ReLU與Tanh,其中為避免過擬合,dropout為0.2,采用Adam算法優(yōu)化結(jié)果,模型采用30個(gè)epochs,每個(gè)batch的大小為64。
3)對(duì)比模型。.
本文模型為了評(píng)價(jià)結(jié)果,分別與其它基線方法在同樣的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),選取的模型如下:
LSTM模型[8]:該模型將RNN中的循環(huán)機(jī)制改為門控機(jī)制,不僅可以融入過去的特征,同時(shí)還能捕捉到當(dāng)前時(shí)間步長中的特征和選擇遺忘不重要的信息,是RNN的一種變體模型。
CNN[11]:該模型通過將謠言事件向量化,直接利用卷積神經(jīng)網(wǎng)絡(luò)挖掘表示文本深層的特征,無需人工構(gòu)建特征,卻能發(fā)現(xiàn)不易被發(fā)現(xiàn)的特征。
RCNN[21]:該模型分別通過RNN學(xué)習(xí)時(shí)間序列表示,CNN學(xué)習(xí)謠言事件文本表示,解決了傳統(tǒng)RNN與CNN在謠言檢測(cè)上存在的問題。
Transformer[22]:該模型通過Transformer編碼器進(jìn)行特征提取,能更加準(zhǔn)確地理解語義,解決長文本存在遠(yuǎn)距離特性依賴問題。
DPCNN[23]:該模型通過一種低復(fù)雜性詞級(jí)深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Pyramid Convolutional Neural Networks,DPCNN)架構(gòu),能夠有效地代表文本中長級(jí)關(guān)聯(lián),可以有效解決情感分類和文本分類問題。
本文使用keras來實(shí)現(xiàn)實(shí)驗(yàn)?zāi)P?對(duì)數(shù)據(jù)集按照6:2:2的方式進(jìn)行劃分,使用上述指標(biāo)來評(píng)估模型的性能,實(shí)驗(yàn)結(jié)果如表2所示。
表2 本文模型與基準(zhǔn)算法結(jié)果
從表2種可以看出,CNN模型的實(shí)驗(yàn)結(jié)果優(yōu)于DPCNN模型,說明采用CNN模型進(jìn)行謠言分類時(shí),不能僅依靠增加卷積深度來提高準(zhǔn)去率。而RCNN模型效果優(yōu)于CNN與RNN模型,是因?yàn)橥ㄟ^兩個(gè)模型的融合能夠更好的提取特征。單獨(dú)使用Transformer模型并沒有取得較好的結(jié)果,雖然,Attention機(jī)制可以調(diào)整權(quán)重,但是不能較好的提取上下文特征。
通過提取上下文特征與謠言種類特征,并調(diào)整權(quán)重,取得最優(yōu)結(jié)果,與次優(yōu)模型相比在準(zhǔn)確率上提高了0.09,在F1上與次優(yōu)結(jié)果相比提高了0.08。
在上述實(shí)驗(yàn)的基礎(chǔ)上,將不謠言種類標(biāo)識(shí)特征加入謠言文本內(nèi),放在每一個(gè)文本前,并進(jìn)行各模型訓(xùn)練,實(shí)驗(yàn)結(jié)果如表3所示。
表3 加入種類標(biāo)識(shí)后的結(jié)果
通過對(duì)比表3與表2,可以發(fā)現(xiàn)各模型在加入種類后的效果都相對(duì)有所提升,RCNN在準(zhǔn)確率上提上了0.12,F1上提升了0.07,Bi-LSTM和Self-Attention模型在準(zhǔn)確率上提升了0.11,F1上提升了0.13,證實(shí)了謠言種類類別作為特征對(duì)于謠言檢測(cè)的有效性。
將文本中在情感字典獲取的單個(gè)情感特征連接得到文本情感特征,將情感特征與文本與種類組成的特征融合,通過訓(xùn)練得到結(jié)果如圖4所示。
圖4 綜合特征的準(zhǔn)確率
通過圖4可以看出,模型在運(yùn)行至第14個(gè)epoch時(shí)就停止,此時(shí)val_acc已經(jīng)為0.900,采用保存的最好的模型對(duì)測(cè)試機(jī)進(jìn)行測(cè)試,準(zhǔn)確率也達(dá)到0.898,進(jìn)一步說明僅從謠言文本中提取豐富的特征進(jìn)行謠言檢測(cè)也可以取得較好的效果。
本文提出一種基于情感特征和謠言種類的謠言檢測(cè)模型,通過Bi-LSTM充分學(xué)習(xí)上下文和謠言種類的特征,通過Self-Attention對(duì)特征重要程度動(dòng)態(tài)調(diào)整,以及提取情感特征作為增強(qiáng)特征,實(shí)驗(yàn)證明謠言文本在加入謠言種類類別和情感特征提取后能夠提升模型性能,能夠有效進(jìn)行謠言檢測(cè),從而避免了釣魚謠言的危害。下一步將考慮謠言文本與謠言評(píng)論的語義差異進(jìn)行謠言檢測(cè)。