楊延杰 王 莉 王宇航
(太原理工大學(xué)大數(shù)據(jù)學(xué)院 山西晉中 030600)
隨著互聯(lián)網(wǎng)的飛速發(fā)展,社交媒體已經(jīng)成為用戶獲取信息、交流意見的主要平臺(tái),根據(jù)Kantar Media在2019年發(fā)布的一份報(bào)告,全球40%的人使用社交媒體[1],而且這一數(shù)字還在不斷地增加,這就極大地促進(jìn)了謠言的快速滋生和廣泛傳播,對(duì)社會(huì)穩(wěn)定造成巨大的威脅.例如據(jù)BuzzFeed News報(bào)道[2],在2016年美國總統(tǒng)大選期間,謠言的傳播在網(wǎng)絡(luò)上造成了不小的負(fù)面影響.2020年COVID -19疫情爆發(fā)期間,有些人在社交平臺(tái)上散布一些有關(guān)疫情傳播的謠言,引發(fā)了人們的不安.謠言的迅速傳播,已經(jīng)開始從各個(gè)方面影響人們的正常生活,因此,謠言檢測(cè)是一個(gè)亟待解決的關(guān)鍵問題.
然而,謠言檢測(cè)是一項(xiàng)非常有挑戰(zhàn)性的任務(wù),主要體現(xiàn)為3個(gè)方面:1)謠言具有強(qiáng)迷惑性和誤導(dǎo)性,使得單獨(dú)從謠言文本內(nèi)容本身檢測(cè)謠言存在困難.因此除了從謠言本身的內(nèi)容信息出發(fā),我們還應(yīng)該探索和利用其他信息,如社交媒體上的用戶信息以及社會(huì)上下文信息.2)早期檢測(cè)的需求.社交媒體上的用戶較為活躍,使得謠言能夠在短時(shí)間內(nèi)廣泛傳播,謠言造成的負(fù)面影響隨之劇增,使得早期檢測(cè)尤為重要.3)謠言的傳播過程復(fù)雜多樣[3],數(shù)據(jù)流動(dòng)沒有固定的規(guī)律,謠言內(nèi)容涵蓋的方面非常大,使得數(shù)據(jù)的處理和使用成為一大困難.
為了有效檢測(cè)謠言,人們已經(jīng)做了大量的研究,常見的方法利用文本內(nèi)容進(jìn)行謠言檢測(cè),研究人員從文本內(nèi)容中提取一些低級(jí)特征如n-gram,TF-IDF,bag-of-word[4-6]和一些高級(jí)的特征如文體特征、事實(shí)主觀性、寫作風(fēng)格一致性[6-8]等,然后將這些特征應(yīng)用于機(jī)器學(xué)習(xí)算法進(jìn)行謠言檢測(cè).這些方法基于手工構(gòu)建的特征,特征提取類別較為單一,無法很好的應(yīng)對(duì)復(fù)雜多變的真實(shí)環(huán)境.深度學(xué)習(xí)不依賴于手工特征的構(gòu)建,而且還能提取得到高層次的特征表示.近年來,研究者開始利用深度學(xué)習(xí)方法建模文本語言[9-11]、文本結(jié)構(gòu)[12-14]等,取得了非常好的效果.這一類方法需要較長的文本才能夠訓(xùn)練得到好的特征表示以提高檢測(cè)效果.但是社交媒體上,人們發(fā)表見解的帖子通常是較短的文本[15],這就可能影響基于內(nèi)容的方法的檢測(cè)性能.此外,還有方法利用參與社交媒體的用戶信息來檢測(cè)謠言[16-17],這些方法受到現(xiàn)實(shí)場(chǎng)景的限制,出于隱私考慮,用戶的真實(shí)信息往往難以獲得.研究者們開始關(guān)注于利用社交網(wǎng)絡(luò)上的傳播信息進(jìn)行謠言檢測(cè),一些研究利用傳播路徑構(gòu)建傳播樹,然后利用長短期記憶(long short-term memory, LSTM)網(wǎng)絡(luò)、門控遞歸單元(gated recurrent unit, GRU)來學(xué)習(xí)傳播過程中的序列特征[18-19],但是傳播的序列特征無法反映傳播內(nèi)部的結(jié)構(gòu)信息,此類方法有一定的局限.圖卷積網(wǎng)絡(luò)(graph convolutional network, GCN)[12]的誕生,為我們提供了很好的思路,最近的一些研究使用GCN解決謠言檢測(cè)問題[20-21]并取得了較好的效果.
受上述研究啟發(fā),社交媒體上的消息轉(zhuǎn)發(fā)可以建模為圖結(jié)構(gòu),圖1(a)展示了來自公共數(shù)據(jù)集Fake-NewsNet的一條“凱瑟琳生下第3個(gè)孩子后5個(gè)小時(shí)就出現(xiàn)在倫敦一家醫(yī)院外”(1)https://twitter.com/CNN/status/988463960159608833的謠言以及它的轉(zhuǎn)發(fā)路徑,根據(jù)圖1(a)的轉(zhuǎn)發(fā)關(guān)系可以得到如圖1(b)所示的轉(zhuǎn)發(fā)圖.消息轉(zhuǎn)發(fā)圖中某一帖子的上游信息和下游信息對(duì)于研究當(dāng)前帖子都非常重要,我們認(rèn)為這樣的轉(zhuǎn)發(fā)圖中蘊(yùn)含著豐富的結(jié)構(gòu)關(guān)系可以為謠言檢測(cè)提供幫助.另外,轉(zhuǎn)發(fā)過程是一種信息逐步擴(kuò)展的過程,源帖表達(dá)出最原始且最重要的信息,更好地利用源帖的信息對(duì)于謠言檢測(cè)至關(guān)重要.
Fig. 1 Construction of forwarding graph in social media environment圖1 社交媒體場(chǎng)景下的轉(zhuǎn)發(fā)圖的構(gòu)造方法
本文主要研究:1)如何有效地利用轉(zhuǎn)發(fā)圖來整合復(fù)雜的轉(zhuǎn)發(fā)結(jié)構(gòu)信息用于分類;2)如何更好地利用源帖的信息以提高謠言檢測(cè)的性能.為了解決這2個(gè)問題,提出了一種謠言檢測(cè)模型GUCNH.首先,我們利用社交網(wǎng)絡(luò)中帖子的轉(zhuǎn)發(fā)關(guān)系構(gòu)造轉(zhuǎn)發(fā)圖,然后提出了一種融合門控的圖卷積網(wǎng)絡(luò)模塊用于捕獲轉(zhuǎn)發(fā)圖中的各節(jié)點(diǎn)之間的結(jié)構(gòu)信息,融合門控的目的是對(duì)圖卷積之前的特征表示和之后的特征表示進(jìn)行選擇與組合,以得到更加可靠的表示.為了更好地利用源帖信息,我們?cè)谠刺麑?duì)應(yīng)節(jié)點(diǎn)的原始表征和通過融合門控的圖卷積網(wǎng)絡(luò)模塊之后得到的表示之間進(jìn)行選擇與組合,將選擇后的結(jié)果與每個(gè)節(jié)點(diǎn)的表征拼接.最后將所有節(jié)點(diǎn)表征取平均用于分類.本文工作的主要貢獻(xiàn)可以概括為3個(gè)方面:
1) 提出了一種融合門控的圖卷積網(wǎng)絡(luò)模塊GUCN,該模塊通過門控單元來對(duì)圖卷積之前的特征表示和之后的特征表示進(jìn)行選擇與組合,以得到更加可靠的表示.通過該模塊來捕獲轉(zhuǎn)發(fā)圖節(jié)點(diǎn)之間的結(jié)構(gòu)關(guān)系,并結(jié)合多頭自注意力模塊來考慮任意節(jié)點(diǎn)之間可能存在的影響,最終生成節(jié)點(diǎn)表示.
2) 源貼信息往往最為重要,為了充分利用源貼信息,在生成節(jié)點(diǎn)表示之后,模型將經(jīng)過選擇的源貼特征表示與轉(zhuǎn)發(fā)圖中生成的所有節(jié)點(diǎn)表示拼接起來,以加強(qiáng)源帖的重要性.
3) 在3個(gè)真實(shí)的數(shù)據(jù)集進(jìn)行了一系列的實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果表明:本模型在謠言分類和早期檢測(cè)任務(wù)方面都取得了優(yōu)于現(xiàn)有模型的結(jié)果.
謠言檢測(cè)的目標(biāo)是根據(jù)用戶發(fā)布在社交媒體平臺(tái)上的相關(guān)信息(如文本內(nèi)容、用戶配置文件、評(píng)論、傳播模式等)來檢測(cè)謠言的真假.根據(jù)研究對(duì)象的不同,相關(guān)工作可以大致的分為3類:1)基于內(nèi)容的方法;2)基于用戶的方法;3)基于傳播的方法.
1) 基于內(nèi)容的方法.基于內(nèi)容的方法主要依賴于文本的內(nèi)容信息來檢測(cè)謠言,這些研究通常面向于長文本數(shù)據(jù).一部分研究者從機(jī)器學(xué)習(xí)的角度進(jìn)行謠言檢測(cè),Pérez-Rosas等人[22]從新聞中提取手工特征建立組合特征集訓(xùn)練線性支持向量機(jī)SVM模型用于謠言檢測(cè);Popat等人[7]通過研究文本內(nèi)容的語言風(fēng)格來進(jìn)行謠言檢測(cè);Takahashi等人[23]通過應(yīng)用命名實(shí)體和線索關(guān)鍵字來訓(xùn)練分類器進(jìn)行謠言檢測(cè),這類方法均基于機(jī)器學(xué)習(xí),需要人工設(shè)計(jì)特征并進(jìn)行提取,在通用性和擴(kuò)展性上存在一定的缺陷.近年來,深度學(xué)習(xí)的發(fā)展為謠言檢測(cè)提供了很多新的方法,Ma等人[18]利用遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)從文本內(nèi)容中提取隱藏的向量表示用于分類;Ahn等人[10]將預(yù)訓(xùn)練的BERT模型用于謠言檢測(cè)任務(wù),取得了非常好的效果;Vaibhav等人[13]提出了一種用于虛假新聞檢測(cè)的圖神經(jīng)網(wǎng)絡(luò)模型,該模型對(duì)新聞中所有句子對(duì)之間的語義關(guān)系進(jìn)行建模,從而進(jìn)行謠言檢測(cè);Wang等人[14]依賴文本內(nèi)容,提出了SemSeq4FD模型來檢測(cè)虛假信息,該模型同時(shí)考慮了新聞中句子之間的全局語義關(guān)系和局部上下文順序特征,取得了很好的效果.本節(jié)介紹的基于文本內(nèi)容的方法局限性是它們更適用于長文本,基于機(jī)器學(xué)習(xí)的方法需要長文本才能提取到所需要的特征進(jìn)行分類,基于深度學(xué)習(xí)的方法也需要較長的文本才能夠訓(xùn)練得到好的特征表示以提高檢測(cè)效果,而社交媒體上的帖子大多是短文本,造成數(shù)據(jù)稀疏問題從而影響該類方法的檢測(cè)性能.
2) 基于用戶的方法.基于用戶的方法主要針對(duì)參與社交媒體的用戶進(jìn)行建模.其中用戶的特征信息是從用戶配置文件中收集的,如描述、性別、關(guān)注者、朋友、位置和驗(yàn)證類型等.Yang等人[16]提取用戶特征進(jìn)行分類,如性別、地理位置和追隨者數(shù)量;Castillo等人[4]利用Twitter上的用戶特征來檢測(cè)假新聞,這些特征包括關(guān)注者數(shù)量、好友數(shù)量、注冊(cè)年齡等;Shu等人[24]充分研究了用戶配置文件在虛假信息檢測(cè)中的作用,他們的工作為深入探索社交媒體的用戶特征提供了基礎(chǔ);Liu等人[17]結(jié)合RNN和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)來捕獲基于時(shí)間序列的用戶特征;Lu等人[20]將參與社交的所有用戶構(gòu)建為一個(gè)完全連通的圖以輔助檢測(cè)謠言.這類方法的局限性主要表現(xiàn)在由于隱私問題,許多用戶會(huì)隱藏自己的信息或使用虛假的個(gè)人信息,這使得獲取真實(shí)的用戶信息變得非常困難.
3) 基于傳播的方法.與基于內(nèi)容和基于用戶的2種方法不同,基于傳播的方法主要側(cè)重于真假信息傳播特征的差異,現(xiàn)有的研究根據(jù)建模類型的不同主要可以分為3種:基于傳播鏈的方法、基于傳播樹的方法、基于傳播圖的方法.①基于傳播鏈的方法主要將信息傳播按照時(shí)間順序看為一個(gè)時(shí)間鏈來檢測(cè)謠言.Kwon等人[25]確定了真假新聞在傳播中存在語言差異,從時(shí)間、內(nèi)容等方面分析了謠言的傳播特征,并根據(jù)這些特征,利用決策樹、隨機(jī)森林和支持向量機(jī)來檢測(cè)謠言;Ma等人[26]提出了一系列基于謠言生命周期的時(shí)間序列特征,將這些特征用于分類,一定程度上提高了謠言的檢測(cè)效果.②基于傳播樹的方法主要將信息的傳播建模為一棵消息傳播樹,通過對(duì)消息傳播樹中的傳播鏈進(jìn)行一系列操作以檢測(cè)謠言.Wu等人[27]提出了一種隨機(jī)游走的核來建模消息的傳播樹,以提高謠言的檢測(cè)能力;Ma等人[19]建立了樹結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)(RvNN),從傳播結(jié)構(gòu)和文本內(nèi)容中捕捉各節(jié)點(diǎn)的隱藏表示,取得了不錯(cuò)的效果.然而,這些方法通常只關(guān)注于從傳播樹上學(xué)習(xí)序列化特征,忽略了社交網(wǎng)絡(luò)上帖子之間的全局轉(zhuǎn)發(fā)關(guān)系.③最近的一些研究將信息的傳播建模為一個(gè)傳播圖,利用圖神經(jīng)網(wǎng)絡(luò)技術(shù)解決謠言檢測(cè)問題,Wei等人[28]針對(duì)謠言檢測(cè)問題,提出了一種多深度M-GCN模型,該模型能夠捕獲多尺度的鄰居信息;Wu等人[29]對(duì)于傳播圖迭代的使用圖神經(jīng)網(wǎng)絡(luò)直到收斂,將收斂之后的節(jié)點(diǎn)表示用于分類;最近,Bian等人[21]提出了一種用于謠言檢測(cè)的雙向BiGCN模型.通過雙向圖卷積網(wǎng)絡(luò)學(xué)習(xí)消息轉(zhuǎn)發(fā)的結(jié)構(gòu)特征,取得了良好的效果.這些現(xiàn)有的基于傳播圖的方法雖然已經(jīng)開始注意使用消息傳播結(jié)構(gòu)信息,但是他們過分依賴于GNN,GCN等單一模型的處理結(jié)果,同時(shí)源帖子的重要性并沒有得到充分利用.
本文的研究主要是根據(jù)文本內(nèi)容和轉(zhuǎn)發(fā)結(jié)構(gòu)進(jìn)行謠言檢測(cè),與本研究最相關(guān)的是基于文本內(nèi)容的方法和基于傳播的方法.本文工作的貢獻(xiàn)在于:考慮到帖子之間的轉(zhuǎn)發(fā)結(jié)構(gòu)信息、融合門控單元和圖卷積網(wǎng)絡(luò)進(jìn)行建模、充分利用源帖的信息.
本文提出一種謠言檢測(cè)模型——GUCNH,如圖2所示,主要分為4個(gè)模塊:轉(zhuǎn)發(fā)圖構(gòu)建、節(jié)點(diǎn)表示、選擇性增強(qiáng)根節(jié)點(diǎn)表示、謠言分類.
Fig. 2 Four modules in GUCNH model圖2 GUCNH模型的4個(gè)模塊
(1)
借鑒Bian等人[21]的方法,本文引入了一種DropEdge[31]的方法以減少GCN過擬合,在訓(xùn)練的每個(gè)階段,隨機(jī)的將輸入圖中的一部分邊去掉,增加了輸入數(shù)據(jù)的隨機(jī)性和多樣性,能夠有效地防止過擬合.本文模型中,隨機(jī)刪除邊的比率設(shè)定為q,通過DropEdge之后,鄰接矩陣變?yōu)?/p>
(2)
構(gòu)建好轉(zhuǎn)發(fā)圖之后,通過融合門控的圖卷積網(wǎng)絡(luò)模塊GUCN和多頭自注意力模塊來得到包含轉(zhuǎn)發(fā)結(jié)構(gòu)信息的節(jié)點(diǎn)表示,前者利用圖卷積網(wǎng)絡(luò)聚合一定的鄰居信息,融合門控機(jī)制來獲取更好的中間表示,后者主要通過注意力機(jī)制來捕獲任意節(jié)點(diǎn)之間的多方面影響,具體介紹如下:
1) 融合門控的圖卷積網(wǎng)絡(luò)模塊GUCN
為了充分利用轉(zhuǎn)發(fā)圖中的轉(zhuǎn)發(fā)結(jié)構(gòu)信息,使轉(zhuǎn)發(fā)圖中的各個(gè)節(jié)點(diǎn)能很好地融合鄰居信息以獲得更好的特征表示,引入了融合門控的圖卷積網(wǎng)絡(luò)模塊GUCN,圖卷積網(wǎng)絡(luò)[12]能夠依據(jù)結(jié)構(gòu)信息對(duì)圖中的節(jié)點(diǎn)進(jìn)行融合,得到聚合鄰居信息后的特征表示.但是GCN依靠聚合鄰居信息來提升自己的表示,有些聚合可能帶來噪聲.受文獻(xiàn)[32]的啟發(fā),本文提出了一種名為GU的門控單元,實(shí)現(xiàn)從不同的數(shù)據(jù)組合中找到合適的中間表示.門控單元GU的結(jié)構(gòu)如圖3所示:
Fig. 3 GU network structure diagram圖3 GU網(wǎng)絡(luò)結(jié)構(gòu)圖
為了提高表示的質(zhì)量,門控單元對(duì)圖卷積之前的特征表示和之后的特征表示進(jìn)行選擇與組合,最終通過堆疊GUCN模塊得到融合鄰居信息的節(jié)點(diǎn)高級(jí)特征表示:
X1=GUCN(X),
(3)
X2=GUCN(X1),
(4)
(5)
H1=tanh(W1XT),
(6)
(7)
Z=σ(W3[H1,S1]T),
(8)
X1=ZH1+(1-Z)S1,
(9)
2) 多頭自注意力模塊
(10)
(11)
(12)
MutiHeadAttention(Q,K,V)=
Concat(Head1,Head2,…,Headh)WO,
(13)
(14)
(15)
(16)
z=σ(W6[h1,s1]T),
(17)
(18)
(19)
(20)
本節(jié)主要討論如何使用得到的節(jié)點(diǎn)表示Xlast進(jìn)行分類,我們認(rèn)為基于轉(zhuǎn)發(fā)圖的謠言檢測(cè)可以看作是一個(gè)圖分類任務(wù),所以需要一個(gè)單獨(dú)的向量作為整圖的特征表示用于分類.具體的,首先通過選擇性增強(qiáng)根節(jié)點(diǎn)表示模塊得到了轉(zhuǎn)發(fā)圖中每個(gè)節(jié)點(diǎn)的表示,然后通過平均這些節(jié)點(diǎn)表示得到整個(gè)轉(zhuǎn)發(fā)圖的向量表示,將該向量表示作為全連接神經(jīng)網(wǎng)絡(luò)的輸入,得到預(yù)測(cè)結(jié)果,計(jì)算過程為
(21)
最后,將模型的損失函數(shù)定義為預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽之間的交叉熵:
(22)
其中,r為分類的類別數(shù),θ為整個(gè)模型的參數(shù),yi∈{0,1,2,3}(Twitter),yi∈{0,1}(Weibo)為真實(shí)標(biāo)簽值.
對(duì)所提GUCNH模型的時(shí)間復(fù)雜度和空間復(fù)雜度進(jìn)行分析.對(duì)于端到端的深度學(xué)習(xí)算法而言,相比訓(xùn)練的時(shí)間復(fù)雜度,實(shí)際應(yīng)用中,更關(guān)注其預(yù)測(cè)時(shí)間復(fù)雜度,因此,在進(jìn)行時(shí)間復(fù)雜度分析的時(shí)候,我們只分析所提模型預(yù)測(cè)一個(gè)謠言需要的時(shí)間.在進(jìn)行空間復(fù)雜度分析的時(shí)候,我們則更關(guān)注于訓(xùn)練參數(shù)的個(gè)數(shù).分2個(gè)方面進(jìn)行分析:
1) 時(shí)間復(fù)雜度分析.對(duì)于本文提出的方法,當(dāng)來自鄰居的信息根據(jù)式(3)進(jìn)行GCN運(yùn)算的時(shí)候,時(shí)間復(fù)雜度與轉(zhuǎn)發(fā)圖中節(jié)點(diǎn)的個(gè)數(shù)k以及平均入度β有關(guān),所以式(3)的時(shí)間復(fù)雜度為O(βkd2),其中d為節(jié)點(diǎn)表示維度.式(6)~(9)的時(shí)間復(fù)雜度為O(kd2),所以GUCN模塊的總體時(shí)間復(fù)雜度為O((β+1)kd2).多頭自注意力模塊的時(shí)間復(fù)雜度除了與節(jié)點(diǎn)個(gè)數(shù)k相關(guān),還與頭的個(gè)數(shù)相關(guān),文章中使用了4個(gè),所以該模塊的時(shí)間復(fù)雜度為O(4k2d2),綜合可得在節(jié)點(diǎn)表示模塊,時(shí)間復(fù)雜度為O(4k2d2+2(β+1)kd2).根節(jié)點(diǎn)選擇性增強(qiáng)模塊的時(shí)間復(fù)雜度為O(d2).謠言分類階段的時(shí)間復(fù)雜度則為O(rkd2),其中r為最終分類的類別數(shù).
將通過實(shí)驗(yàn)回答3個(gè)問題:
1) 問題1.與現(xiàn)有的謠言檢測(cè)方法相比,本模型GUCNH是否能夠獲得較好的謠言檢測(cè)性能?
2) 問題2.GUCNH的每個(gè)模塊對(duì)于謠言檢測(cè)的性能是否有貢獻(xiàn)?
3) 問題3.與現(xiàn)有的謠言檢測(cè)方法相比,GUCNH是否具有優(yōu)秀的早期檢測(cè)性能?
1) 實(shí)驗(yàn)數(shù)據(jù)
我們?cè)?個(gè)真實(shí)數(shù)據(jù)集上評(píng)估了我們提出方法的有效性:Twitter15[30], Twitter16[30]和Weibo[18].Twitter15,Twitter16數(shù)據(jù)集均包含4個(gè)標(biāo)簽類別,分別是非謠言(N)、經(jīng)過驗(yàn)證的非謠言(F)、真謠言(T)、未經(jīng)證實(shí)的謠言(U).而Weibo數(shù)據(jù)集包含2個(gè)標(biāo)簽類別,分別是謠言(T)和非謠言(F).數(shù)據(jù)集中的每個(gè)事件標(biāo)簽都是根據(jù)辟謠網(wǎng)站上文章的真實(shí)性標(biāo)簽來標(biāo)注的,這3個(gè)數(shù)據(jù)集的詳細(xì)統(tǒng)計(jì)情況如表1所示:
Table 1 Dataset Statistics表1 數(shù)據(jù)集統(tǒng)計(jì)
2) 對(duì)比方法
為了驗(yàn)證我們的模型,我們將提出的方法和一些最先進(jìn)的基線方法進(jìn)行了比較,這些方法大致可以分為基于機(jī)器學(xué)習(xí)的方法、基于傳播鏈和傳播樹的方法、基于傳播圖的方法:
① 基于機(jī)器學(xué)習(xí)的方法
Ⅰ DTC[4]:使用基于人工設(shè)計(jì)的各種統(tǒng)計(jì)特征進(jìn)行分類的決策樹分類模型.
Ⅱ SVM-RBF[16]:一種基于支持向量機(jī)的RBF核模型,利用手工制作的特征對(duì)帖子進(jìn)行總體統(tǒng)計(jì).
② 基于傳播鏈和傳播樹的方法
Ⅰ BU-RvNN[19]: 基于遞歸網(wǎng)絡(luò)的自底向上樹狀結(jié)構(gòu)的謠言檢測(cè)模型.
Ⅱ TD-RvNN[19]: 基于遞歸神經(jīng)網(wǎng)絡(luò)的自頂向下樹狀結(jié)構(gòu)的謠言檢測(cè)模型.
Ⅲ PPC_RNN+CNN[17]:一種結(jié)合遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的模型,通過謠言傳播鏈中的用戶特征來進(jìn)行謠言檢測(cè).
Ⅳ CED(0.975)[34]:一種基于謠言轉(zhuǎn)發(fā)序列的可信度檢測(cè)模型,該模型通過尋找一個(gè)時(shí)間點(diǎn)來做出可信的預(yù)測(cè),其中0.975為預(yù)測(cè)閾值.
③ 基于傳播圖的方法
BiGCN[21]:利用信息傳播時(shí)的雙向傳播結(jié)構(gòu)使用圖卷積網(wǎng)絡(luò)進(jìn)行謠言檢測(cè)的模型.
3) 實(shí)現(xiàn)細(xì)節(jié)和評(píng)價(jià)指標(biāo)
首先,本文所有實(shí)驗(yàn)的機(jī)器配置以及環(huán)境為:Intel i7 2.20 GHz(處理器),8.0 GB(內(nèi)存),GTX-1050 ti(GPU),所有代碼都是用Python(3.7.6)實(shí)現(xiàn),scikit-learn(0.22.1),Theano(1.0.4),Pytorch(1.4.0).
① 基于機(jī)器學(xué)習(xí)的方法:
使用scikit-learn實(shí)現(xiàn)基于機(jī)器學(xué)習(xí)的對(duì)比方法DTC和SVM-RBF,對(duì)于特征的選擇與提取,完全按照原文描述基于我們的數(shù)據(jù)集提取了有效特征(主要包括:轉(zhuǎn)發(fā)數(shù)、粉絲數(shù)、發(fā)布設(shè)備類型、好友數(shù)量、用戶所在地、是否認(rèn)證、發(fā)帖數(shù)、性別、評(píng)論數(shù)等).
② 基于傳播鏈和傳播樹的方法:
使用Theano實(shí)現(xiàn)了基于傳播鏈的方法BU-RvNN和TD-RvNN(2)https://github.com/majingCUHK/Rumor_RvNN,使用pytorh實(shí)現(xiàn)了基于用戶傳播鏈的方法PPC_RNN+CNN(3)https://github.com/yumere/early-fakenews-detection.在BU-RvNN和TD-RvNN中,所有模型的參數(shù)通過Adam[35]算法更新,模型參數(shù)的初始化使用均勻分布,詞匯大小設(shè)置為5000,隱層單元大小設(shè)置為100.在PPC_RNN+CNN中,我們?cè)O(shè)置epoch=200,早停機(jī)制輪數(shù)設(shè)置為10,GRU輸出維度設(shè)置為32,CNN窗口大小設(shè)置為3,dropout率設(shè)置為0.5.對(duì)于CED方法,由于可復(fù)現(xiàn)性問題,我們僅在Weibo數(shù)據(jù)集上得到了結(jié)果(結(jié)果來自原文).
③ 基于傳播圖的方法:
使用Pytorch實(shí)現(xiàn)了基于傳播圖的方法BiGCN(4)https://github.com/TianBian95/BiGCN以我們提出的模型GUCNH.其中BiGCN的復(fù)現(xiàn)代碼由原作者提供,每個(gè)節(jié)點(diǎn)的隱層特征向量維度設(shè)置為64,隨機(jī)刪除邊的比率q設(shè)置為0.2,dropout率設(shè)置為0.5,epoch設(shè)置為200,其余參數(shù)設(shè)置嚴(yán)格按照原文設(shè)定.
我們所提模型中的參數(shù)由Adam[35]算法更新, 學(xué)習(xí)率初始化為1E-4,在訓(xùn)練過程中逐漸降低.我們利用TF-IDF值提取前d個(gè)單詞構(gòu)建詞袋模型作為文本的初始表征,設(shè)置d=5 000,模型中圖卷積網(wǎng)絡(luò)輸出表征的維度m和門控單元輸出表征的維度n均設(shè)置為64,多頭自注意力模塊頭的個(gè)數(shù)h=4.對(duì)于原始的轉(zhuǎn)發(fā)圖,我們?cè)O(shè)置隨機(jī)的刪除邊的比率q=0.2,即隨機(jī)刪除20%的邊.實(shí)驗(yàn)的batchsize=128,epoch=100,為了防止過擬合,模型中用到了dorpout機(jī)制,其比率為0.3,我們將數(shù)據(jù)集隨機(jī)分成5部分進(jìn)行5折交叉驗(yàn)證以獲得結(jié)果,除此之外還應(yīng)用了早停機(jī)制[36].
我們采用了與先前工作中相同評(píng)估指標(biāo)[20,37],即準(zhǔn)確度、F1分?jǐn)?shù)、召回率和精準(zhǔn)率進(jìn)行評(píng)估.為了公平比較,我們的方法和對(duì)比方法在所有數(shù)據(jù)集上的結(jié)果都是在5次實(shí)驗(yàn)的結(jié)果上取平均.
為了回答問題1,通過實(shí)驗(yàn)得到分類的總體準(zhǔn)確率Acc和各類別的F1值來驗(yàn)證本文模型的謠言檢測(cè)性能.表2~4分別展示了本文模型以及所有比較方法在3個(gè)數(shù)據(jù)集上的性能.顯然,我們提出的模型優(yōu)于選定的對(duì)比模型.對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析:
Table 2 Experimental Results on Twitter15 Dataset表2 Twitter15數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
Table 3 Experimental Results on Twitter16 Dataset表3 Twitter16數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
Table 4 Experimental Results on Weibo Dataset表4 Weibo數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
1) 可以觀察到深度學(xué)習(xí)方法的性能要明顯地優(yōu)于機(jī)器學(xué)習(xí)方法,理由是因?yàn)樯疃葘W(xué)習(xí)方法可以捕捉到更有價(jià)值的高層特征,而機(jī)器學(xué)習(xí)的方法需要手工提取特征,檢測(cè)能力較為局限.這進(jìn)一步說明了研究深度學(xué)習(xí)方法在謠言檢測(cè)中的重要性和必要性.
2) 可以觀察到我們提出的GUCNH模型在Twitter15數(shù)據(jù)集上的結(jié)果要比BU-RvNN和TD-RvNN模型分別高17.6個(gè)百分點(diǎn)和16.1個(gè)百分點(diǎn),在Twitter16數(shù)據(jù)集上的結(jié)果比BU-RvNN和TD-RvNN模型分別高16.8個(gè)百分點(diǎn)和14.9個(gè)百分點(diǎn),在Weibo數(shù)據(jù)集上的結(jié)果比BU-RvNN和TD-RvNN模型分別高7.1個(gè)百分點(diǎn)和6.3個(gè)百分點(diǎn).實(shí)驗(yàn)結(jié)果表明傳播結(jié)構(gòu)中包含很多重要信息,捕獲這部分結(jié)構(gòu)信息有助于謠言檢測(cè)任務(wù),將任務(wù)建模為傳播圖以捕獲全局結(jié)構(gòu)信息的方法要優(yōu)于通過建模為傳播樹捕獲局部序列特征的方法.
3) 相比于PPC_RNN+CNN,我們提出的模型結(jié)果更好.一方面,PPC_RNN+CNN僅僅使用傳播鏈上的用戶信息進(jìn)行建模,單一使用用戶的一些特征來檢測(cè)謠言有一定的片面性;另一方面,PPC_RNN+CNN并沒有考慮到實(shí)際的轉(zhuǎn)發(fā)結(jié)構(gòu).我們提出的模型根據(jù)實(shí)際的轉(zhuǎn)發(fā)結(jié)構(gòu)充分了利用了每個(gè)帖子的內(nèi)容信息,從而取得了更好的結(jié)果,由此可見實(shí)際的轉(zhuǎn)發(fā)結(jié)構(gòu)在檢測(cè)謠言中的重要性.相較于CED(0.975),我們的模型在Weibo數(shù)據(jù)集上的準(zhǔn)確率要高4個(gè)百分點(diǎn),這進(jìn)一步說明了利用全局傳播結(jié)構(gòu)的優(yōu)勢(shì).
4) 本文模型的實(shí)驗(yàn)結(jié)果要優(yōu)于BiGCN,BiGCN雖然使用了雙向的GCN對(duì)于轉(zhuǎn)發(fā)圖結(jié)構(gòu)進(jìn)行了建模,同時(shí)還在2次GCN之間融入了一定的源節(jié)點(diǎn)信息,但是僅僅使用GCN聚合得到節(jié)點(diǎn)表示的方法太過于依賴GCN的表現(xiàn),這一點(diǎn)本文模型通過引入門控單元來彌補(bǔ).此外,本文模型引入了多頭自注意力模塊來考慮任意節(jié)點(diǎn)之間的多方面影響,可以有效彌補(bǔ)有限次GCN不能很好地捕獲任意節(jié)點(diǎn)信息的缺陷.
為了回答問題2,證明我們提出模型各模塊的有效性,進(jìn)行了一系列的消融實(shí)驗(yàn).主要包括4部分:
1) w/o Matt.移除多頭自注意力模塊,在節(jié)點(diǎn)表示模塊,只使用2次GUCN的堆疊,其余部分不變.
2) w/o 1GUCN.移除一個(gè)GUCN模塊,主要用于驗(yàn)證GUCN模塊堆疊的有效性,將多頭自注意力模塊輸出的結(jié)果作為節(jié)點(diǎn)表示模塊的輸出,然后拼接源帖表示進(jìn)行分類.
3) w/o Head.移除選擇性增強(qiáng)根節(jié)點(diǎn)表示模塊,主要用于驗(yàn)證增強(qiáng)源帖信息對(duì)于該場(chǎng)景分類的有效性.
4) w/o GU.移除每個(gè)GUCN模塊中的GU門控單元,只保留圖卷積操作,用于驗(yàn)證我們引入的門控網(wǎng)絡(luò)與圖卷積網(wǎng)絡(luò)融合的有效性.
如圖4為消融實(shí)驗(yàn)的結(jié)果,其中ALL為不做任何消融的原始模型GUCNH,根據(jù)表中的實(shí)驗(yàn)結(jié)果,可以得到結(jié)論為:
Fig. 4 The ablation experiment result of the GUCNH on three datasets圖4 GUCNH在3個(gè)數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果
首先研究多頭自注意力模塊帶來的影響,根據(jù)實(shí)驗(yàn)結(jié)果可以看到,刪除多頭自注意力模塊會(huì)影響我們的模型在3個(gè)數(shù)據(jù)集上的結(jié)果,其中GUCNH在消融多頭自注意力模塊后,Twitter15和Twitter16數(shù)據(jù)集上的結(jié)果分別下降了3.3個(gè)百分點(diǎn)和2.0個(gè)百分點(diǎn),Weibo數(shù)據(jù)集上的結(jié)果下降了1.5個(gè)百分點(diǎn).多頭自注意力模塊可以捕獲任意節(jié)點(diǎn)之間的影響,而不僅僅限于具有鄰接關(guān)系的節(jié)點(diǎn)之間,使得在進(jìn)行下一次節(jié)點(diǎn)信息融合之前所有節(jié)點(diǎn)的信息盡可能的全面,對(duì)于結(jié)果的提升有很大的幫助.結(jié)果同樣可以證明我們引入該模塊的動(dòng)機(jī),并非具有直接轉(zhuǎn)發(fā)關(guān)系的帖子之間會(huì)相互影響,任意的帖子之間也會(huì)存在相互影響,而使用多頭注意力模塊能夠很好地考慮到這些影響,取得較好的結(jié)果.
隨后我們?cè)u(píng)估了GUCN模塊堆疊的有效性.GCN的適當(dāng)堆疊有助于節(jié)點(diǎn)聚合高階鄰居的信息,所以我們的模型采用了融合門控的圖卷積網(wǎng)絡(luò)模塊堆疊的方式.一方面使得節(jié)點(diǎn)能夠聚合到更遠(yuǎn)節(jié)點(diǎn)上的信息;另一方面為了在多頭注意力機(jī)制之后重新讓節(jié)點(diǎn)數(shù)據(jù)考慮到結(jié)構(gòu)信息.為了驗(yàn)證GUCN模塊堆疊的有效性,我們進(jìn)行了w/o 1GUCN消融實(shí)驗(yàn),根據(jù)實(shí)驗(yàn)結(jié)果可以看到,不進(jìn)行GUCN模塊堆疊會(huì)影響我們所提模型在3個(gè)數(shù)據(jù)集上的結(jié)果,GUCNH在不堆疊GUCN模塊的實(shí)驗(yàn)中,Twitter15和Twitter16數(shù)據(jù)集上的結(jié)果分別下降了3.4個(gè)百分點(diǎn)和0.8個(gè)百分點(diǎn),Weibo數(shù)據(jù)集上的結(jié)果下降了2.6個(gè)百分點(diǎn).結(jié)果表明,對(duì)融合門控的圖卷積網(wǎng)絡(luò)模塊GUCN進(jìn)行堆疊使用可以使得節(jié)點(diǎn)更好地融合鄰居節(jié)點(diǎn)甚至更遠(yuǎn)節(jié)點(diǎn)的信息,同時(shí)對(duì)于多頭自注意力模塊有可能造成的結(jié)構(gòu)信息破壞問題有一定的解決,所以取得比單一使用該模塊更好的結(jié)果.
謠言事件的源帖總是有著最豐富且重要的信息,所以我們的模型包含選擇性增強(qiáng)根節(jié)點(diǎn)模塊,作用就是額外的為每個(gè)節(jié)點(diǎn)增加源帖的信息.為了證明設(shè)計(jì)的有效性,進(jìn)行了該模塊的消融實(shí)驗(yàn).根據(jù)實(shí)驗(yàn)結(jié)果可以看到,不增強(qiáng)頭節(jié)點(diǎn)的信息會(huì)影響我們所提模型在3個(gè)數(shù)據(jù)集上的結(jié)果. GUCNH在沒有選擇性增強(qiáng)頭節(jié)點(diǎn)模塊的實(shí)驗(yàn)中,Twitter15和Twitter16數(shù)據(jù)集上的結(jié)果分別下降了2.6個(gè)百分點(diǎn)和3.6個(gè)百分點(diǎn),Weibo數(shù)據(jù)集上的結(jié)果下降了2.2個(gè)百分點(diǎn).結(jié)果表明,源帖有著非常重要且原始的信息,為每個(gè)節(jié)點(diǎn)額外的增加源節(jié)點(diǎn)對(duì)應(yīng)的信息,能夠有效地提高該場(chǎng)景下的檢測(cè)能力.
最后研究了引入融合門控的圖卷積網(wǎng)絡(luò)的有效性,實(shí)驗(yàn)過程是將原模型中所有融合門控的圖卷積網(wǎng)絡(luò)模塊GUCN換為單一的圖卷積網(wǎng)絡(luò)模塊GCN進(jìn)行實(shí)驗(yàn),根據(jù)實(shí)驗(yàn)結(jié)果可以看到,使用單一的GCN會(huì)影響我們所提模型在3個(gè)數(shù)據(jù)集上的結(jié)果, GUCNH在使用單一GCN的實(shí)驗(yàn)中,Twitter15和Twitter16數(shù)據(jù)集上的結(jié)果分別下降了4.2個(gè)百分點(diǎn)和2.5個(gè)百分點(diǎn),Weibo數(shù)據(jù)集上的結(jié)果下降了2.9個(gè)百分點(diǎn).結(jié)果表明,引入門控單元GU能夠?qū)M(jìn)行圖卷積之前的特征表示和之后的特征表示進(jìn)行選擇與組合,從而得到更好的表示使得分類結(jié)果有了一定的提升.
在謠言檢測(cè)任務(wù)中,最關(guān)鍵的目標(biāo)之一是盡早發(fā)現(xiàn)謠言,以便及時(shí)進(jìn)行干預(yù)[38].為了回答問題3,驗(yàn)證我們提出的模型具有優(yōu)秀的早期檢測(cè)性能,我們?cè)赥witter15和Twitter16這2個(gè)數(shù)據(jù)集上設(shè)計(jì)了早期檢測(cè)實(shí)驗(yàn),具體的方法是設(shè)置檢測(cè)截止時(shí)間節(jié)點(diǎn),即僅使用在發(fā)布時(shí)間到檢測(cè)截止時(shí)間節(jié)點(diǎn)之間的帖子內(nèi)容來評(píng)估模型檢測(cè)的性能.通過改變檢測(cè)截止時(shí)間節(jié)點(diǎn)(我們?cè)O(shè)置節(jié)點(diǎn)分別是源帖發(fā)布后4 h,8 h,12 h,24 h,36 h),分別得出了2個(gè)數(shù)據(jù)集上的早期檢測(cè)結(jié)果,如圖5和圖6分別為2個(gè)數(shù)據(jù)集上進(jìn)行早期檢測(cè)的結(jié)果.可以看到,在源帖發(fā)布的最早期,也就是圖5、圖6中4 h時(shí),我們提出模型的在Twitter15數(shù)據(jù)集和Twitter16數(shù)據(jù)上分別取得了82.1%和84.1%的結(jié)果,可以看出這些結(jié)果比其余對(duì)比方法的結(jié)果好,這表明我們提出的模型具有良好的早期檢測(cè)性能.當(dāng)檢測(cè)截止時(shí)間節(jié)點(diǎn)逐漸增大時(shí),我們模型的性能仍然呈上升趨勢(shì),這一點(diǎn)與BiGCN等模型不同,隨著時(shí)間節(jié)點(diǎn)的變大,轉(zhuǎn)發(fā)結(jié)構(gòu)更加復(fù)雜,言論種類也逐漸增多,我們的模型仍然可以保持很好的結(jié)果,說明我們的模型對(duì)復(fù)雜的數(shù)據(jù)不敏感,具有較好的穩(wěn)定性和魯棒性.
Fig. 5 Experimental results of early detection on Twitter15 dataset圖5 Twitter15 數(shù)據(jù)集上早期檢測(cè)實(shí)驗(yàn)結(jié)果
Fig. 6 Experimental results of early detection on Twitter16 dataset圖6 Twitter16 數(shù)據(jù)集上早期檢測(cè)實(shí)驗(yàn)結(jié)果
本文提出了一個(gè)融合門控的傳播圖卷積網(wǎng)絡(luò)模型GUCNH,該模型首先通過融合門控的圖卷積網(wǎng)絡(luò)模塊GUCN來根據(jù)實(shí)際轉(zhuǎn)發(fā)結(jié)構(gòu)聚合鄰居信息以生成節(jié)點(diǎn)的表示,即門控機(jī)制用來對(duì)進(jìn)入圖卷積網(wǎng)絡(luò)之前的特征表示和經(jīng)過圖卷積網(wǎng)絡(luò)之后的特征表示進(jìn)行選擇與組合得到質(zhì)量更高的特征表示,同時(shí)在2個(gè)融合門控的圖卷積模塊之間引入了多頭自注意力模塊來考慮任意節(jié)點(diǎn)之間的影響,使得節(jié)點(diǎn)信息在進(jìn)入下一次融合之前包含盡可能全面的信息.在生成節(jié)點(diǎn)的高級(jí)特征表示之后,我們選擇性的增強(qiáng)了源節(jié)點(diǎn)的信息,理由是往往轉(zhuǎn)發(fā)源的信息最為豐富.為了確保增強(qiáng)的源節(jié)點(diǎn)信息的質(zhì)量,同樣加入門控單元對(duì)于源節(jié)點(diǎn)的信息進(jìn)行了選擇與組合,最終將選擇后的源節(jié)點(diǎn)特征表示與所有節(jié)點(diǎn)的特征表示拼接用于分類.在3個(gè)真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們提出的方法優(yōu)于最先進(jìn)的方法.
在未來的研究中,我們將主要從2個(gè)方面繼續(xù)深入工作:1)在轉(zhuǎn)發(fā)圖的構(gòu)建方面,尋找更加合適的建模方法(如加入用戶構(gòu)建異構(gòu)圖),以提高檢測(cè)性能.2)一般來說,完整的社交帖子不僅只有文本內(nèi)容,同樣還會(huì)包含圖像或視頻等信息,在接下來的研究中,我們還將考慮利用多模態(tài)信息來解決謠言檢測(cè)問題.