王昕巖,宋玉蓉,宋 波
1(南京郵電大學 自動化學院、人工智能學院,南京 210023)
2(南京郵電大學 現(xiàn)代郵政學院,南京 210003)
謠言是在人和人之間傳播的,含有公眾關(guān)心信息的一種特殊陳述,而其真實性不能及時得到證明或是無法證明[1],往往會帶來惡劣的影響.例如新冠肺炎期間,美國總統(tǒng)特朗普在得知消毒劑能夠在一分鐘之內(nèi)殺死病毒后,呼吁給新冠病毒患者直接注射消毒劑,或者用強光照射,以起到殺死病毒的作用.據(jù)美國疾控中心報告顯示,家用清潔劑產(chǎn)品中毒的數(shù)量在幾周內(nèi)都在上升.在人們的日常生活中,這類誤導(dǎo)性的謠言比比皆是,因此為了避免謠言可能造成的傷害,采取謠言檢測的措施是十分必要的.
謠言能夠在社會中快速而廣泛地傳播,與社交媒體的快速發(fā)展是密切相關(guān)的.社交媒體在提高人們信息獲取效率的同時,也產(chǎn)生了許多與真實信息相背的謠言信息[2].由于每個普通人都可以成為信息的發(fā)布源,就會造成信息質(zhì)量的良莠不齊,不可避免地會有不法分子為了達到目的惡意地發(fā)布謠言信息誤導(dǎo)民眾,使其做出符合謠言散布者期望的舉動,影響了社會的穩(wěn)定.近年來,社交媒體的謠言治理已經(jīng)成為熱門研究課題,引起了國內(nèi)外學者的廣泛關(guān)注.對社交媒體的謠言檢測任務(wù),通過收集與事件相關(guān)的各種信息,自動地完成檢測任務(wù)來判斷被檢測事件的真?zhèn)?對謠言事件的自動檢測方法,一方面減輕了人工辟謠的資源消耗,另一方面能更快地檢測出流散的謠言,從而能夠營造積極健康的網(wǎng)絡(luò)環(huán)境,維護社會的穩(wěn)定[3].
目前針對社交媒體的謠言檢測方法,如傳統(tǒng)的機器學習方法,以及深度學習方法包括卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[4]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[5]等,對事件的學習只是將這些事件看作成獨立的個體,平等地學習事件的特征.然而在社交媒體中,事件之間的關(guān)系并不是獨立的,而是具有拓撲關(guān)系的.社交媒體中的每個事件和與該事件有關(guān)的用戶都存在著聯(lián)系,包括發(fā)布、評論、轉(zhuǎn)發(fā)等,并且這些用戶之間的交互關(guān)系,也是與這些用戶有關(guān)的事件之間關(guān)系的體現(xiàn).只考慮每個事件本身的特征而忽略事件之間的聯(lián)系,會對檢測效果造成影響.因此有學者考慮了事件之間的聯(lián)系,提出使用圖網(wǎng)絡(luò)模型來進行謠言檢測,但是他們忽略了事件之間聯(lián)系的緊密程度,也會對檢測效果造成一定的影響.在社交網(wǎng)絡(luò)中,事件之間的聯(lián)系具有異質(zhì)性,其緊密程度存在著差異.謠言事件往往具有鼓動性,這是由于大部分的謠言事件的發(fā)布者在發(fā)布謠言時,擅長使用一些煽動性的語句來激發(fā)人們的情緒.往往對這些事件進行評論和轉(zhuǎn)發(fā)的用戶,更加容易受到這些刺激性語句的蠱惑,也會受到其他謠言事件中這類語句的鼓動.與非謠言相比,謠言的發(fā)布者更加希望所發(fā)布的謠言信息能夠有更多轉(zhuǎn)發(fā)和評論,來引起人們的關(guān)注.于是許多謠言發(fā)布者為了達到這一目的,會有意識地組織用戶進行轉(zhuǎn)發(fā)、評論來提高事件的熱度,而這些用戶也更易受到其他謠言發(fā)布者的利用.因此本文考慮事件之間相同數(shù)量的評論者或轉(zhuǎn)發(fā)者,來確定事件之間聯(lián)系的緊密程度.
為了充分考慮事件之間的聯(lián)系及其異質(zhì)性,本文提出了一種基于加權(quán)圖卷積神經(jīng)網(wǎng)絡(luò)(Weighted-Graph Convolutional Network,W-GCN)模型的謠言檢測方法.該方法以事件作為節(jié)點,以事件之間是否有聯(lián)系構(gòu)建連邊并根據(jù)事件之間聯(lián)系的緊密程度,賦予連邊不同的權(quán)重.接著通過BERT(Bidirectional Encoder Representation from Transformers)模型和CNN模型對事件的文本提取特征,并將該特征作為W-GCN模型中節(jié)點的特征向量,來完成模型的訓練,從而完成對社交媒體中事件的謠言檢測任務(wù).考慮到新浪微博是一種基于用戶關(guān)系信息分享、傳播以及獲取的實時社交媒體,是中國最大的社交媒體平臺,因此本文選擇新浪微博作為研究對象來完成謠言檢測的任務(wù).實驗結(jié)果表明,與傳統(tǒng)的機器學習模型以及GRU-2[5]、PPC-RNN+CNN[6]等深度學習模型相比,本文提出的W-GCN模型能更有效地完成新浪微博中謠言的檢測任務(wù).并且與這些方法相比,本文方法同樣能更加有效地完成新浪微博中謠言的早期檢測任務(wù).
本文剩余章節(jié)安排如下:第2節(jié)介紹社交媒體謠言檢測的相關(guān)研究工作;第3節(jié)介紹本文提出的新的謠言檢測模型;第4節(jié)通過實驗及分析,驗證本文提出的新的謠言檢測方法的有效性;第5節(jié)為結(jié)束語.
目前國內(nèi)外對于謠言檢測的工作主要分為兩個方面,一個是使用傳統(tǒng)的機器學習方法,另一個是使用深度學習的方法.使用傳統(tǒng)的機器學習方法大多是通過選取人工特征,主要包括文本特征、用戶特征以及傳播特征,并使用包括貝葉斯[7]、支持向量機(Support Vector Machine,SVM)、決策樹[8]等分類器來對事件進行學習分類.Qazvinian等[9]使用了貝葉斯分類器,提取了用戶行為特征及文本特征等特征.Yang等[10]使用了SVM分類器,提取了發(fā)布微博的客戶端及其所在的地理位置等特征.Liang等[11]提取了質(zhì)疑文本特征以及用戶行為等特征.Yang等[12]提取了熱門話題等特征.Wu等[13]提出了基于圖核的混合SVM分類器,提取了語義特征以及高階傳播特征.Ma等[14]提出了傳播樹模型來獲取事件的特征表示.
近年來隨著深度學習的快速發(fā)展,深度學習模型包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等在計算機視覺[15]等領(lǐng)域上的應(yīng)用得到了快速發(fā)展,使用深度學習模型來解決自然語言處理(Natural Language Processing,NLP)任務(wù)[16],逐步取得了顯著的成果.并且與傳統(tǒng)的機器學習模型相比,深度學習模型對人工特征的依賴較小.因此在NLP任務(wù)中,使用深度學習模型可以減少設(shè)計特征帶來的人力、物力的消耗,并能提高模型的魯棒性.Ma等[5]首次提出將深度學習模型RNN應(yīng)用于社交媒體的謠言檢測,首先通過TF-IDF(Term Frequency-Inverse Document Frequency)算法來獲取時間段內(nèi)的微博文本向量,接著通過RNN模型的學習,最后獲取文本向量的特征表示.Yu等[17]使用生成句向量的方法來獲取微博文本向量,再用CNN模型來學習獲取文本向量的特征表示.Liao等[18]提取文本特征和用戶局部特征,使用GRU(Gated Recurrent Unit)網(wǎng)絡(luò)和注意力機制來獲取微博事件的特征表示.Hu等[19]使用圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN)模型,根據(jù)新聞的相似性構(gòu)建連邊,并提取歷史信用特征對新聞進行分類.Tian[20]等人使用GCN模型,根據(jù)謠言傳播的方向性構(gòu)建連邊對事件進行分類.雖然這些方法在分類效果上比傳統(tǒng)的機器學習方法更加出色,但是它們沒有考慮事件之間的聯(lián)系或事件之間聯(lián)系的異質(zhì)性,對謠言檢測的效果造成了一定的影響.
對新浪微博平臺的謠言檢測任務(wù),實際上是一個對事件進行二分類的問題.對于給定的事件組E={e1;e2;e3;e4;…;ei;…;en}和標簽組L={l1;l2;l3;l4;…;li;…;ln}.在事件組E中,ei表示第i個事件,包括所有與這個事件相關(guān)的微博原文以及轉(zhuǎn)發(fā)、評論等信息,n表示事件總數(shù);在標簽組L中,li表示第i個事件的標簽,分為謠言標簽和非謠言標簽.在新浪微博平臺的謠言檢測任務(wù)中,首先將事件組E分為事件訓練集Etrain和事件測試集Etest,將標簽組分為訓練集標簽Ltrain和測試集標簽Ltest.讓模型對事件訓練集Etrain以及它們對應(yīng)的訓練集標簽Ltrain進行學習,構(gòu)建出一個以事件信息ei作為輸入,分類標簽li作為輸出的映射模型.接著將事件測試集Etest輸入該模型,輸出對應(yīng)的預(yù)測標簽組Lpred.最后根據(jù)預(yù)測標簽組Lpred與實際標簽組Ltest的相符程度,來衡量該謠言檢測模型的檢測效果.
1)BERT預(yù)訓練模型
自然語言處理(NLP)任務(wù)一般分為上游任務(wù)和下游任務(wù).上游任務(wù)主要對數(shù)據(jù)進行預(yù)處理,將文本數(shù)據(jù)轉(zhuǎn)化為向量表示.下游任務(wù)主要對轉(zhuǎn)化后的向量進行操作.上游任務(wù)使用的模型主要包括Word2Vec[21]、ELMo[22]等.Word2Vec模型將單詞通過高維空間映射成詞向量,可以表征現(xiàn)實生活中詞語之間的關(guān)系.但是通過Word2Vec模型,每個單詞與一個固定的詞向量相對應(yīng),使得每個單詞無法理解上下文的語義.ELMo模型通過雙向語言模型,并根據(jù)具體的輸入來得到上下文依賴的詞向量表示,將NLP的一部分下游任務(wù)轉(zhuǎn)移到了上游任務(wù)中,增強了向量的特征表示能力.但是該模型的工作效率低,并且只能將數(shù)據(jù)用詞向量來表示.BERT模型[23]作為一個語言表征模型,由谷歌團隊使用雙向編碼操作,通過大量數(shù)據(jù)和多層模型訓練而成.該模型的并行性好,效率高.并且該模型可以將數(shù)據(jù)轉(zhuǎn)化為維度具有一致性的句向量,因此本文采用BERT模型對新浪微博中的文本數(shù)據(jù)進行預(yù)處理操作.
2)卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型
卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型[24]可以使用通過BERT模型轉(zhuǎn)化后的向量,來作為模型的輸入,進而完成模型的訓練,如圖1所示.CNN模型由4部分構(gòu)成:輸入層(Input Layer)、卷積層(Convolution Layer)、池化層(Pooling Layer)和全連接層(Fully Connected Layer).
圖1 卷積神經(jīng)網(wǎng)絡(luò)(CNN)結(jié)構(gòu)圖
CNN模型將事件ei轉(zhuǎn)化后的向量vi作為輸入,通過卷積層(Convolution Layer)選取寬度與向量vi維度等長的卷積核,使該卷積核始終保持在豎直方向滑動,來完成對向量的卷積操作,繼而得到與卷積核數(shù)量相同的特征向量ci.接著通過池化層(Pooling Layer)對特征向量ci進行最大池化(Max-Pooling)操作,提取局部接受域中向量的最大值,得到特征向量pi.最后通過全連接層,將最大池化操作后提取的特征向量pi,在全連接層中與分類標簽進行全連接(Fully Connected)操作,得到該事件ei的預(yù)測標簽li,最終完成謠言的檢測任務(wù).本文提出的模型將最大池化操作后的特征向量pi作為事件ei的特征向量.
3)圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)
圖卷積神經(jīng)網(wǎng)絡(luò)[25](GCN)是一種多層神經(jīng)網(wǎng)絡(luò),可以通過圖中的節(jié)點和連邊信息直接對圖中的節(jié)點進行端對端的學習并完成分類任務(wù).給定一個圖G=(N,E),其中N表示節(jié)點,E表示連邊.GCN模型的輸入包括特征矩陣X∈Rn×m,鄰接矩陣A∈Rn×n以及標簽組L∈Rn×2.其中特征矩陣X包括圖中的所有節(jié)點n以及每個節(jié)點特征向量的維數(shù)m.鄰接矩陣A表示圖中各節(jié)點之間的連邊關(guān)系.如果節(jié)點ni和節(jié)點nj之間有連邊,則Aij=α,其中α為該連邊的權(quán)重,否則Aij=0.GCN模型通過節(jié)點的相鄰節(jié)點信息來更新該節(jié)點的隱層信息,每一層只捕獲該節(jié)點的最近鄰節(jié)點的信息.當GCN模型有多個層數(shù)時,模型會整合更多的鄰居節(jié)點信息.因此GCN模型中的第i個隱藏層的特征矩陣Hi,如式(1)所示.
Hi=f(Hi-1,A)
(1)
其中,H0=X,f是傳播函數(shù).
GCN模型的第i個隱藏層的特征矩陣Hi,與特征矩陣Hi∈Rn×m相對應(yīng),代表這個節(jié)點在該層的特征表示.第i個隱藏層的特征矩陣Hi中節(jié)點的特征被聚合后再通過傳播函數(shù)f,得到該節(jié)點在下個隱藏層中的特征表示.對于只含有一個隱藏層的GCN模型,節(jié)點的k維特征矩陣H1∈Rn×k如式(2)所示.
(2)
(3)
對于多層GCN模型,下一個隱藏層的特征矩陣Hi+1可以通過上一個隱藏層的特征矩陣Hi及權(quán)重矩陣Wi,如式(4)所示.
(4)
1)W-GCN模型介紹
本文在考慮事件之間聯(lián)系的基礎(chǔ)上,充分考慮了事件之間聯(lián)系的異質(zhì)性,即事件之間聯(lián)系的緊密程度,賦予了GCN模型中連邊的權(quán)重,提出了一種新型社交網(wǎng)絡(luò)的謠言檢測方法.該方法對微博事件中的用戶信息以及文本信息進行提取處理.對于用戶信息,通過考慮用戶與事件之間的評論與轉(zhuǎn)發(fā)行為來確定事件與事件之間是否有聯(lián)系關(guān)系,并根據(jù)事件之間相同的評論者或轉(zhuǎn)發(fā)者數(shù)量來確定事件之間聯(lián)系的緊密程度.將新浪微博中的事件作為節(jié)點,事件之間的聯(lián)系作為連邊,聯(lián)系的緊密程度作為連邊的權(quán)重,從而搭建了一個加權(quán)圖卷積神經(jīng)網(wǎng)絡(luò)(W-GCN)模型,如圖2所示.對于微博事件中的文本信息,首先通過BERT模型將文本信息進行預(yù)處理操作,將文本信息轉(zhuǎn)化成維數(shù)為768的向量表示,緊接著使用CNN模型對轉(zhuǎn)化后向量進行特征提取.最后將CNN模型中最大池化(Max-Pooling)操作后得到的特征輸入到W-GCN模型中,最后模型學習得到事件的隱層表達,進而實現(xiàn)對事件的分類操作,最終完成新浪微博中謠言的檢測任務(wù).
圖2 加權(quán)圖卷積神經(jīng)網(wǎng)絡(luò)(W-GCN)結(jié)構(gòu)圖
本文提出的加權(quán)圖卷積神經(jīng)網(wǎng)絡(luò)模型W-GCN的輸入包括兩個部分:由所有事件的特征向量組成的節(jié)點的特征矩陣X,以及根據(jù)事件之間的聯(lián)系及其緊密程度構(gòu)建的W-GCN中的鄰接矩陣A.
2)W-GCN模型的節(jié)點特征矩陣
考慮到GCN中,每個節(jié)點的特征向量需為固定的長度.僅使用預(yù)訓練模型對一個微博事件的所有文本信息進行預(yù)處理轉(zhuǎn)化為向量,無疑會破壞文本的結(jié)構(gòu)特征,會對檢測效果造成巨大影響.經(jīng)過實驗,僅通過預(yù)訓練模型對一個微博事件的所有文本信息進行預(yù)處理,不具有很好的分類特征.考慮到現(xiàn)有的深度學習模型中,CNN模型在經(jīng)過最大池化(Max-Pooling)操作后得到的特征向量,維度相同并且維數(shù)較少,可以最大程度地保留文本的結(jié)構(gòu)特征,因此本文使用卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)對事件文本進行特征提取.對于圖網(wǎng)絡(luò)模型中作為節(jié)點ni的事件ei,首先將事件ei的文本信息,逐條通過BERT模型轉(zhuǎn)化為向量表示,并作為CNN模型的輸入.經(jīng)過CNN的卷積和池化操作后得到特征pi,將其作為W-GCN模型中節(jié)點的特征向量xi.
3)W-GCN模型的鄰接矩陣
W-GCN模型中節(jié)點ni和節(jié)點nj之間的連邊,由對應(yīng)的事件ei和事件ej之間的聯(lián)系來確定.對于事件ei和事件ej,根據(jù)這兩個事件之間是否有相同的評論者或轉(zhuǎn)發(fā)者來確定兩個事件之間是否存在聯(lián)系,繼而決定圖網(wǎng)絡(luò)模型中節(jié)點ni和節(jié)點nj之間是否存在連邊.節(jié)點之間的連邊通過鄰接矩陣A來表示,為了簡便起見,本文不考慮事件傳播的方向,即不考慮連邊的有向性.如果事件ei和事件ej之間沒有相同的評論者或轉(zhuǎn)發(fā)者,那么這兩個事件之間不構(gòu)成傳播關(guān)系,即事件ei和事件ej之間不存在聯(lián)系,定義節(jié)點ni和節(jié)點nj之間不存在連邊,令A(yù)ij=0;如果事件ei和事件ej之間含有相同的評論者或轉(zhuǎn)發(fā)者,那么事件ei和事件ej之間就可能存在傳播關(guān)系,對此定義節(jié)點ni和節(jié)點nj之間存在連邊,那么Aij的值至少為1.再通過考慮事件ei和事件ej之間聯(lián)系的緊密程度,即事件ei和事件ej之間相同的評論者或轉(zhuǎn)發(fā)者數(shù)量α,給Aij賦予不同的值來定義節(jié)點ni和節(jié)點nj之間連邊的權(quán)重,即:
1)實驗數(shù)據(jù)集及模型參數(shù)設(shè)置
本文選用的數(shù)據(jù)集是Ma等[5]使用的用于新浪微博平臺的謠言檢測數(shù)據(jù)集.該數(shù)據(jù)集包括4664個事件,每個事件對應(yīng)的標簽,事件信息包括微博用戶信息、文本信息、時間等信息,如表1所示.
表1 數(shù)據(jù)集參數(shù)表
在模型的參數(shù)設(shè)置上,本文將該數(shù)據(jù)集4664個事件中的85%作為訓練集,15%作為測試集,并完成了5次5折交叉驗證.對BERT模型,設(shè)置向量的維度為768;對卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,設(shè)置卷積核的寬度設(shè)為3,長度為768,卷積核數(shù)量為300,dropout為0.5.對加權(quán)圖卷積神經(jīng)網(wǎng)絡(luò)(W-GCN)模型,沿用Kipf等[25]的設(shè)置,第一個隱藏層單元數(shù)為16,第二個隱藏層單元數(shù)為7,dropout設(shè)置為0.5.模型在學習時,在每個Epoch中迭代訓練所有的訓練集事件,直到模型收斂或者Epoch數(shù)量達到最大值為止.此外,本文選取了以小時作為單位的9個時間點,分別為1,3,6,12,24,36,48,72,96.從事件中微博原文發(fā)出的時間算起,在以上的時間節(jié)點內(nèi),分別通過W-GCN模型來完成新浪微博的謠言檢測任務(wù),來檢驗該模型在謠言早期檢測方面的有效性.
2)實驗評估參數(shù)
謠言檢測任務(wù)實際上是一個文本分類的子任務(wù),是一種二分類的文本分類問題,輸出的結(jié)果為謠言及非謠言的概率,選取概率較大的一類作為模型預(yù)測的類別.模型的預(yù)測類別與實際類別的分類依據(jù),如表2所示.
表2 分類依據(jù)
本文選取了評價分類器優(yōu)良最常見的4個指標:正確率(Accuracy,Acc)、精確率(Precision,Pre)、召回率(Recall,Rec)、F1值(F1-Measure,F(xiàn)1),來評價本文提出的W-GCN模型的有效性.正確率表示被模型正確分類的事件數(shù)量與事件總數(shù)的比值,如式(5)所示;精確率表示被模型正確分類為謠言(或非謠言)的事件數(shù)量與被分類為謠言(或非謠言)的事件總數(shù)的比值,如式(6)所示;召回率表示被模型正確分類為謠言(或非謠言)的事件數(shù)量與實際為謠言(或非謠言)的事件總數(shù)的比值,如式(7)所示;F1值表示準確率和召回率加權(quán)調(diào)和平均,是對準確率和召回率的綜合考慮,如式(8)所示.
(5)
(6)
(7)
(8)
本文將本文方法與同樣使用該數(shù)據(jù)集的基準方法進行對比,所選取的基準方法如下:
1)DT-Rank 模型[26].該模型通過搜索微博文本中有爭議的事實性聲明,將它們按相似度進行聚類并根據(jù)統(tǒng)計特征,使用決策樹的排名方法對聚類結(jié)果進行排名,來完成微博事件的分類任務(wù).
2)SVM-TS 模型[27].該模型通過使用事件的時間序列來得到隨時間變化的事件特征,使用線性SVM分類模型來完成微博事件的分類任務(wù).
3)GRU-2模型[5].該模型基于樹結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò),捕捉相關(guān)帖子隨時間變化的上下文信息,使用GRU模型通過傳播結(jié)構(gòu)學習事件特征,來完成微博事件的分類任務(wù).
4)PPC_RNN+CNN模型[6].該模型根據(jù)事件的傳播路徑,將循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型與卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型進行模型融合,使用融合后的模型學習事件特征,來完成微博事件的分類任務(wù).
1)謠言檢測效果對比
由于GCN的特性,本文在具體實驗時,對事件的訓練集Etrain只將其中的150個微博事件的標簽設(shè)置為已知標簽,實驗結(jié)果如表3所示.表格中,第1列為所選取的基準方法的模型及本文的模型,從上至下分別為:DT-Rank,SVM-TS,GRU-2,PPC_RNN+CNN和W-GCN模型;第2列為事件的類別,其中R表示謠言(Rumor),N表示非謠言(Non-rumor);第3列為正確率;第4列為精確率;第5列為召回率;第6列為F1值.
表3 謠言檢測結(jié)果
從結(jié)果中可以看到在基準方法中,傳統(tǒng)的機器學習方法中SVM-TS模型的檢測效果最好,可以達到0.857的正確率;深度學習方法中PPC_RNN+CNN模型的檢測效果最好,可以達到0.916的正確率,可見在謠言檢測任務(wù)中,使用深度學習的模型可以取得比傳統(tǒng)的機器學習方法更加顯著的效果.而本文提出的W-GCN模型在檢測結(jié)果上,正確率達到了0.956,且各項評估指標均優(yōu)于上述基準方法.而本文在謠言檢測的評估指標中,召回率可以達到0.977,表明本文方法對謠言事件有更高的敏感性.因此本文模型在謠言檢測的任務(wù)上,降低了謠言事件的誤判率,能夠盡可能多地識別出可能的謠言事件.模型的謠言檢測評估指標中的召回率數(shù)值更高,意味著更多的謠言事件被篩選出來,能夠更大程度地識別出社交網(wǎng)絡(luò)中潛藏的謠言事件,來減少潛藏謠言事件帶來的不利影響,這對社交媒體是十分必要的.綜上所述,本文方法在對新浪微博中的謠言檢測任務(wù)中表現(xiàn)出了更好的檢測效果.
與此同時,由于社交媒體信息量的快速增長,對社交媒體中的事件予以謠言或非謠言的標簽,往往需要花費大量的時間與精力.因此社交媒體中的事件,擁有標簽的事件大多數(shù)是已經(jīng)過時的事件,只有極少部分的事件是較新的事件.因此在對新浪微博的謠言檢測任務(wù)中,傳統(tǒng)的機器學習方法和深度學習方法包括CNN、RNN等在事件標簽數(shù)量不足的情況下,檢測效果會大幅下降,泛化能力較弱.本文提出的模型能夠在標簽數(shù)量有限的情況下,達到同樣的檢測效果.綜上所述,與現(xiàn)有的謠言檢測方法相比,本文提出的模型在新浪微博的謠言檢測任務(wù)中具有更好的實用性.
2)5折交叉驗證結(jié)果
本文使用5次5折交叉驗證,進一步驗證本文模型的謠言檢測效果.在對數(shù)據(jù)集的劃分中,本文將數(shù)據(jù)集中的85%劃分為訓練集,15%劃分為測試集.在交叉驗證環(huán)節(jié)中,本文將訓練集的數(shù)據(jù)平均分成5份,每次驗證實驗只取其中的1份,并將其作為測試集,其余4份作為訓練集,通過W-GCN模型來得到這份數(shù)據(jù)的謠言檢測結(jié)果,并記錄各項評估指標.將該過程重復(fù)進行5次,最終得到所有作為本文訓練集數(shù)據(jù)的檢測結(jié)果,并記錄各項評估指標,結(jié)果如表4所示.
表4 5折交叉驗證結(jié)果
結(jié)果顯示,5次5折的交叉驗證結(jié)果中,正確率最大值為0.966,最小值為0.942,相差2.4%,正確率的平均值為0.952.本文測試集實驗結(jié)果的正確率高于這5次交叉驗證結(jié)果的最小值,低于這5次交叉驗證結(jié)果的最大值,略高于這5次交叉驗證結(jié)果的平均值.由此可見本文模型在新浪微博的謠言檢測任務(wù)中具有較強的泛化能力.
3)早期謠言檢測效果對比
本文在謠言的早期檢測方面與其他基準方法進行了對比,結(jié)果如圖3所示.
圖3 謠言的早期檢測結(jié)果
在謠言的早期檢測任務(wù)中,只能使用從微博原文發(fā)布的時間算起之后的若干小時內(nèi)的微博信息.為了評估本文模型與其他基準方法在謠言檢測早期性的表現(xiàn),本文選取了以小時作為單位的9個時間點,分別為1,3,6,12,24,36,48,72,96小時.可以看出與現(xiàn)有的謠言檢測方法相比,本文提出的模型在謠言的早期檢測任務(wù)上同樣表現(xiàn)出了更好的效果.
4)與無權(quán)圖卷積神經(jīng)網(wǎng)絡(luò)模型的效果對比
為了分析連邊的權(quán)重對檢測效果的影響,我們將本文模型與無權(quán)圖卷積神經(jīng)網(wǎng)絡(luò)(Unweighted-Graph Convolutional Network,UW-GCN)模型進行對比,實驗結(jié)果如圖4所示.通過比較W-GCN模型與UW-GCN模型在選取的9個時間點上謠言檢測的正確率,不難看出考慮事件之間聯(lián)系的緊密程度,能夠?qū)χ{言檢測的效果有較大提升.
圖4 加權(quán)圖卷積神經(jīng)網(wǎng)絡(luò)(W-GCN)模型與無權(quán)圖卷積神經(jīng)網(wǎng)絡(luò)(UW-GCN)模型的謠言檢測結(jié)果
5)模型訓練的Epoch數(shù)量對謠言檢測效果的影響
對W-GCN模型,不同的Epoch數(shù)量下訓練集事件與測試集事件的謠言檢測效果進行實驗,設(shè)置了25個不同的Epoch數(shù)量,結(jié)果如圖5所示.
圖5 Epoch(s)數(shù)量對謠言檢測效果的影響
可以看出,當模型訓練1個Epoch時,訓練集和測試集數(shù)據(jù)的檢測正確率都比較低,此時的模型無法學習到微博事件的隱層特征,模型的謠言檢測效果較低.當模型訓練到了第5個Epochs時,訓練集和測試集數(shù)據(jù)的檢測正確率均快速上升,此時的模型已經(jīng)初步完成了對微博事件隱層特征的學習,模型的謠言檢測效果一般.隨著模型訓練到第25個Epochs時,訓練集和測試集數(shù)據(jù)的檢測正確率在一定范圍內(nèi)波動,總體呈上升趨勢,此時的模型已經(jīng)具有比較良好的謠言檢測效果.而隨著Epoch(s)數(shù)量的進一步增加,模型最終會收斂,對謠言事件的檢測效果會達到最優(yōu)值.
目前傳統(tǒng)的機器學習方法以及深度學習方法被廣泛地應(yīng)用于社交媒體的謠言檢測中,但是這些方法忽略了事件之間的聯(lián)系或者事件之間聯(lián)系的緊密程度,會影響檢測的效果.因此本文充分考慮了事件之間聯(lián)系的異質(zhì)性,基于圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)提出了一種新型的新浪微博平臺謠言檢測的方法.該方法通過將事件作為節(jié)點,事件之間的聯(lián)系作為連邊,并且考慮了連邊的權(quán)重,構(gòu)建出了一個加權(quán)圖卷積神經(jīng)網(wǎng)絡(luò)模型W-GCN.接著使用BERT模型和卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型得到微博事件的特征表示,并將該特征輸入到W-GCN模型中,對W-GCN中的節(jié)點完成分類,最終完成新浪微博的謠言檢測任務(wù).與所選的基準方法相比,本文的方法在謠言事件的檢測上取得了最好的效果,體現(xiàn)了本文模型在新浪微博謠言檢測問題中對謠言事件檢測的有效性.同時在謠言的早期檢測方面,本文的方法也高于基準方法,體現(xiàn)了本文提出的模型在新浪微博謠言的早期檢測方面的有效性.為了提高模型檢測的性能,在之后的研究中,可以考慮使用其他事件之間的聯(lián)系作為GCN模型中節(jié)點之間的連邊,或考慮使用不同的圖網(wǎng)絡(luò)模型,在節(jié)點的特征向量中,融入一些代表性的微博事件特征等方法,來進一步增強模型的謠言檢測性能.