王友衛(wèi),鳳麗洲,王煒琦,侯玉棟
(1.中央財(cái)經(jīng)大學(xué) 信息學(xué)院,北京 100081;2.天津財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)學(xué)院,天津 300222)
隨著社交媒體的發(fā)展,網(wǎng)絡(luò)謠言給社會(huì)帶來(lái)了嚴(yán)重的影響,并逐漸引起了公眾關(guān)注,成為了國(guó)內(nèi)外學(xué)者的研究熱點(diǎn)。黨的二十大報(bào)告中指出,“健全網(wǎng)絡(luò)綜合治理體系,推動(dòng)形成良好網(wǎng)絡(luò)生態(tài)”??梢?jiàn),實(shí)現(xiàn)謠言檢測(cè)對(duì)于促進(jìn)網(wǎng)絡(luò)空間建設(shè)、維護(hù)社會(huì)穩(wěn)定快速發(fā)展具有重大的現(xiàn)實(shí)意義。
謠言檢測(cè)任務(wù)通過(guò)模型將正常文檔與含有謠言的異常文檔區(qū)分開(kāi),屬于文本分類領(lǐng)域中的重要子問(wèn)題。謠言檢測(cè)的相關(guān)方法可分為三類[1]: ①基于外部知識(shí)的方法; ②基于關(guān)系網(wǎng)絡(luò)的方法; ③基于文本內(nèi)容的方法?;谕獠恐R(shí)的方法主要利用專家系統(tǒng)或集體智慧對(duì)謠言文檔進(jìn)行判別,該方法需要耗費(fèi)大量的人工成本建立知識(shí)圖譜,因此相關(guān)研究較少?;陉P(guān)系網(wǎng)絡(luò)的方法通過(guò)消息的傳播特點(diǎn)、傳播者追加的評(píng)論文本以及傳播者的社會(huì)背景對(duì)謠言進(jìn)行檢測(cè)[2]。但是,此類方法的檢測(cè)準(zhǔn)確度與傳播時(shí)間成正比,無(wú)法在謠言傳播的初期對(duì)其進(jìn)行較好的識(shí)別?;谖谋緝?nèi)容的方法認(rèn)為謠言與非謠言在表達(dá)習(xí)慣、討論主題以及行文風(fēng)格上存在一定差別,因此可以通過(guò)從文本中提取可供分類的向量化信息實(shí)現(xiàn)謠言檢測(cè)。基于文本內(nèi)容的檢測(cè)方法可進(jìn)一步分為基于傳統(tǒng)分類器的檢測(cè)方法與基于深度學(xué)習(xí)的檢測(cè)方法兩類。前者方法通過(guò)匹配文本中出現(xiàn)的人工特征來(lái)構(gòu)建文本內(nèi)容的one-hot向量,之后將特征向量輸入支持向量機(jī)(Support Vector Machine, SVM)、隨機(jī)森林(Random Forest, RF)、邏輯回歸(Logistic Regression, LR)等機(jī)器學(xué)習(xí)模型,以此實(shí)現(xiàn)對(duì)謠言信息的識(shí)別。此類方法中最常用的特征是文本極性以及組合特征,如通過(guò)人工詞典構(gòu)建的情緒特征和語(yǔ)言學(xué)家構(gòu)建的句式特征等[3]。但此類方法在提取特征時(shí)單純依靠規(guī)則或者人工經(jīng)驗(yàn),因此相對(duì)于基于深度學(xué)習(xí)的檢測(cè)方法而言無(wú)法較好地表征文本中的潛在語(yǔ)義信息。
近年來(lái),基于深度學(xué)習(xí)的文本分類方法已被廣泛應(yīng)用于謠言檢測(cè)任務(wù)中。Nguyen等[4]與Singh等[5]分別將謠言數(shù)據(jù)的向量化結(jié)果帶入到卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)與循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)中,相對(duì)于傳統(tǒng)分類器而言有效提高了謠言檢測(cè)的精度。Ma等[6]提出了一種基于RNN的評(píng)論上下文學(xué)習(xí)方法,通過(guò)學(xué)習(xí)微博事件的連續(xù)表示來(lái)實(shí)現(xiàn)謠言信息檢測(cè)。Song等[7]和王友衛(wèi)等[8]將所有轉(zhuǎn)發(fā)信息視為一個(gè)序列,通過(guò)CNN實(shí)現(xiàn)可信早期謠言檢測(cè)研究,有效縮短了謠言檢測(cè)的時(shí)間跨度。Chen等[9]結(jié)合知識(shí)圖譜提出一種基于圖的謠言文本生成模型G2S-AT-GAN。該模型使用基于注意力的圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network, GCN)和生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)來(lái)生成不同主題的謠言文本,在解決謠言數(shù)據(jù)不平衡問(wèn)題的同時(shí)提高了謠言檢測(cè)的性能。但上述方法大多僅關(guān)注源信息和評(píng)論信息的內(nèi)容,并沒(méi)有有效利用評(píng)論、用戶之間的相互關(guān)系,為此,楊延杰等[10]利用消息轉(zhuǎn)發(fā)關(guān)系構(gòu)建評(píng)論轉(zhuǎn)發(fā)圖,通過(guò)兩個(gè)融合門(mén)控機(jī)制的圖卷積網(wǎng)絡(luò)模塊來(lái)聚合鄰居節(jié)點(diǎn)信息以生成節(jié)點(diǎn)的表示,有效利用了源博文的影響力與任意帖子之間的多角度影響。Wu等[11]提出了基于圖神經(jīng)網(wǎng)絡(luò)全局嵌入的謠言檢測(cè)模型和基于圖神經(jīng)網(wǎng)絡(luò)集成學(xué)習(xí)的謠言檢測(cè)模型。通過(guò)在有限時(shí)間步內(nèi)在相鄰節(jié)點(diǎn)之間交換信息來(lái)更新節(jié)點(diǎn)表示,有效提高了謠言檢測(cè)的準(zhǔn)確性。Bian等[12]提出了一種雙向圖卷積網(wǎng)絡(luò)(Bi-GCN),根據(jù)謠言的轉(zhuǎn)發(fā)關(guān)系建立自上而下和自下而上的圖傳播結(jié)構(gòu),較好地實(shí)現(xiàn)了謠言信息的嵌入表達(dá),不足之處在于圖中每個(gè)評(píng)論節(jié)點(diǎn)只能融合一個(gè)傳播方向上的鄰居節(jié)點(diǎn)信息。為了更好地考慮用戶信息的影響,Lu和Li通過(guò)引入文本發(fā)布者的社交關(guān)系進(jìn)行謠言檢測(cè)[13]。Zhang等[14]借助立場(chǎng)檢測(cè)任務(wù),提出了一種基于多模態(tài)融合和元知識(shí)共享的謠言檢測(cè)方法。該方法使用注意力機(jī)制計(jì)算評(píng)論權(quán)重,較好地區(qū)分了不同評(píng)論的重要性。
通過(guò)研究發(fā)現(xiàn),雖然上述方法已獲得較好的謠言檢測(cè)效果,但仍存在以下問(wèn)題: ①大多數(shù)方法在利用評(píng)論文本內(nèi)容時(shí)僅關(guān)注詞語(yǔ)特征信息,忽略了詞語(yǔ)情感特征、語(yǔ)法特征、語(yǔ)言特征等重要因素的影響; ②現(xiàn)有算法普遍根據(jù)原始博文和轉(zhuǎn)發(fā)評(píng)論之間的關(guān)系建立圖結(jié)構(gòu),忽略了原始評(píng)論之間的語(yǔ)義關(guān)聯(lián)性,因此難以針對(duì)新發(fā)布的博文進(jìn)行檢測(cè),限制了模型的泛化能力。
為解決上述問(wèn)題,本文以微博為研究對(duì)象,利用圖神經(jīng)網(wǎng)絡(luò)在圖表示學(xué)習(xí)任務(wù)方面的優(yōu)勢(shì),提出了基于事件-詞語(yǔ)-特征異質(zhì)圖的微博謠言檢測(cè)新方法RD_EWF。具體而言,本文創(chuàng)新點(diǎn)如下:
(1) 綜合考慮情感特征、語(yǔ)法特征以及語(yǔ)言特征對(duì)于謠言檢測(cè)的影響,在評(píng)論內(nèi)容信息基礎(chǔ)上提出文本特征的概念。在此基礎(chǔ)上,將微博事件、文本詞語(yǔ)、文本特征作為節(jié)點(diǎn)構(gòu)建事件-詞語(yǔ)-特征異質(zhì)圖,解決了傳統(tǒng)方法單純利用文本內(nèi)容信息導(dǎo)致的模型表達(dá)能力不足的問(wèn)題。
(2) 綜合考慮事件-事件之間、評(píng)論-詞語(yǔ)之間、評(píng)論-特征之間以及詞語(yǔ)-詞語(yǔ)之間的相互作用,提出基于GraphSAGE和異質(zhì)圖注意力網(wǎng)絡(luò)(Heterogeneous Graph Attention Network, HGAT)的圖節(jié)點(diǎn)表示學(xué)習(xí)方法GS_HGAT,以此區(qū)分不同類型節(jié)點(diǎn)的影響,實(shí)現(xiàn)對(duì)微博事件節(jié)點(diǎn)的歸納式表達(dá),提高模型的泛化能力。
GNN是被廣泛應(yīng)用于圖分析任務(wù)的一類神經(jīng)網(wǎng)絡(luò),現(xiàn)已廣泛應(yīng)用于社交網(wǎng)絡(luò)、推薦系統(tǒng)、生物科技等領(lǐng)域。給定一個(gè)屬性圖G=(V,E)(V為節(jié)點(diǎn)集、E為邊集)及其特征矩陣X={xi},其中xi是節(jié)點(diǎn)vi∈V的d維特征向量,GNN的目標(biāo)是學(xué)習(xí)每個(gè)節(jié)點(diǎn)vi的表示hi,考慮第m層GNN,節(jié)點(diǎn)vi在第m層的表示向量定義為:
(1)
(2)
C_LIWC詞典是在語(yǔ)言查詢和詞數(shù)統(tǒng)計(jì)詞典(Linguistic Inquiry and Word Count, LIWC)基礎(chǔ)上形成的詞典。Pennebaker等人研究建立的LIWC詞典主要用于對(duì)文本描述中的單詞進(jìn)行統(tǒng)計(jì)分析。該詞典包含約4 500個(gè)從社會(huì)學(xué)、健康學(xué)以及心理學(xué)方面挖掘的情緒和認(rèn)知方面單詞,現(xiàn)已成為英文情緒分析研究應(yīng)用的重要依據(jù)。臺(tái)灣科技大學(xué)人文社會(huì)學(xué)科研究人員根據(jù)中文特性將LIWC詞典翻譯改編為中文版本C-LIWC。C-LIWC包含語(yǔ)言特征30類(如副詞、介詞等)、心理特性42類(如正向情緒詞、負(fù)向情緒詞等),共72個(gè)類別、6 862個(gè)詞。其中,與情緒相關(guān)的類別包括positive emotion、negative emotion、anxiousness、anger和sadness。C_LIWC詞典中每個(gè)詞都有一個(gè)或多個(gè)類別屬性,如“擔(dān)憂”同時(shí)屬于Negative Emotion類和Anxiousness類。
以微博為研究對(duì)象,相關(guān)定義如下[8]:
定義1 微博事件定義微博事件集合E= {Ei}(0≤i 定義2 源微博源微博是指最開(kāi)始發(fā)出的微博,該微博不回復(fù)其他任何微博。mi,0表示第i個(gè)微博事件的源微博。 定義3 評(píng)論評(píng)論是指直接回復(fù)源微博或回復(fù)與源微博相關(guān)微博的微博。mi,j(1≤j≤ni)表示第i個(gè)微博事件的第j條評(píng)論。 給定微博事件Ei,本文方法的目標(biāo)是學(xué)習(xí)一個(gè)分類模型CM以輸出Ei是否為謠言的判定結(jié)果,即:y=CM(Ei,θ)(θ為參數(shù)集)。如果y=1,說(shuō)明Ei為謠言事件,否則Ei為正常事件。 首先,對(duì)微博語(yǔ)料庫(kù)中的微博事件進(jìn)行中文分詞,獲得其中所有的事件及其對(duì)應(yīng)的詞語(yǔ);然后,引入情感、語(yǔ)法、心理等方面知識(shí),構(gòu)建文本特征集,在此基礎(chǔ)上挖掘事件-事件之間、事件-詞語(yǔ)之間、詞語(yǔ)-特征之間以及詞語(yǔ)-詞語(yǔ)之間的相互作用,構(gòu)建事件-詞語(yǔ)-特征異質(zhì)圖;最后,為區(qū)分不同類型節(jié)點(diǎn)的影響,提出基于GraphSAGE和異質(zhì)圖注意力網(wǎng)絡(luò)的節(jié)點(diǎn)聚合方法,以此獲得事件節(jié)點(diǎn)的向量表達(dá)。本文方法RD_EWF執(zhí)行流程如圖1所示。其中,M為事件總數(shù),N為詞語(yǔ)總數(shù),S為特征總數(shù)。具體介紹如下: 圖1 RD_EWF執(zhí)行流程 2.2.1 文本特征構(gòu)建 為了綜合考慮不同類型特征對(duì)謠言檢測(cè)結(jié)果的影響,本文將構(gòu)建以下三種文本特征: 情感特征、語(yǔ)法特征以及語(yǔ)言特征。具體如下: (1) 情感特征 情感特征來(lái)自DUTIR實(shí)驗(yàn)室構(gòu)建的Emotion Ontology情感詞典[17]。該詞典是大連理工大學(xué)信息檢索研究室在林鴻飛教授的指導(dǎo)下整理和標(biāo)注的一個(gè)中文本體資源,從不同角度描述一個(gè)中文詞匯或者短語(yǔ),包括詞語(yǔ)詞性種類、情感類別、情感強(qiáng)度及極性等信息。如表1所示,該詞典將詞語(yǔ)情感共分為樂(lè)、好、怒等7個(gè)大類,21小類,共計(jì)27 466個(gè)詞語(yǔ)。為了體現(xiàn)不同情感傾向?qū)τ谥{言檢測(cè)結(jié)果的影響,本文使用該詞典中的21個(gè)情感小類作為情感特征集Fs。 (2) 語(yǔ)法特征 對(duì)于信息含量較少的微博文本而言,詞性、實(shí)體等語(yǔ)法特征可能包含人物、地點(diǎn)、時(shí)間、機(jī)構(gòu)、數(shù)量、方位等多類信息,其中的部分信息可以作為檢測(cè)謠言文本的重要依據(jù)。一般而言,信息描述越模糊,其為謠言的可能越高。例如,“某大學(xué)教授稱……”“某知名人士稱……”“研究者發(fā)現(xiàn)……”等文本并沒(méi)有明確的人物、機(jī)構(gòu)等名稱,因此它們?yōu)橹{言的可能性較大。中文詞法分析(Lexical Analysis of Chinese, LAC)模型[18]是百度研發(fā)的一款聯(lián)合的詞法分析工具,能有效實(shí)現(xiàn)中文分詞、詞性標(biāo)注、專名識(shí)別等功能。鑒于LAC模型在處理中文文本方面的優(yōu)勢(shì),本文使用該模型獲得詞性標(biāo)簽 24個(gè)、專名實(shí)體類別標(biāo)簽4個(gè),以此構(gòu)建語(yǔ)法特征集Fg。 (3) 語(yǔ)言特征 語(yǔ)言特征由評(píng)論中與用戶心理、情緒、認(rèn)知、用詞習(xí)慣等相關(guān)的詞語(yǔ)所歸屬的類別構(gòu)成。此類特征能較好地反映用戶的情緒變化、心理狀態(tài)、用詞習(xí)慣等特點(diǎn),因此包含與謠言檢測(cè)相關(guān)的重要信息。本文根據(jù)C-LIWC中文語(yǔ)言分析工具[16],將其整理的6 862個(gè)詞語(yǔ)所歸屬的72個(gè)類別作為語(yǔ)言特征集Fl。部分語(yǔ)言特征及其代表性詞語(yǔ)如表2所示。 表2 部分語(yǔ)言特征 2.2.2 謠言檢測(cè)異質(zhì)圖構(gòu)建 首先,從訓(xùn)練集中獲取事件集E、詞語(yǔ)集W、文本特征集F={Fs,Fg,Fl}。在此基礎(chǔ)上,建立由E、W、F構(gòu)成的異質(zhì)圖G={V,A},A為G中節(jié)點(diǎn)對(duì)應(yīng)的鄰接矩陣,如圖2所示,其中,V={E,W,F},vea∈E(0≤a<5)、vwb∈W(0≤b<5)、vfc∈F(0≤c<5)。針對(duì)V中任意節(jié)點(diǎn)對(duì)vi、vj(0≤i,j 圖2 謠言檢測(cè)異質(zhì)圖示意 (1) 若vi∈E并且vj∈E: 根據(jù)它們之間的語(yǔ)義相似性建立連邊(圖2中細(xì)實(shí)線所示),連邊權(quán)重Aij為: 其中,cossim為余弦相似度函數(shù),arccos為反余弦函數(shù),xwk為詞語(yǔ)wk對(duì)應(yīng)的詞向量,xi、xj分別為vi、vj兩個(gè)事件中所有詞語(yǔ)的詞向量均值,nwi、nwj分別為vi、vj中的詞語(yǔ)數(shù)。 (2) 若vi∈E并且vj∈W: 如果vj出現(xiàn)在vi中,則在vi、vj之間建立連接(圖2中細(xì)虛線所示),權(quán)重Aij為vj在vi中的歸一化TF-IDF值,即: (6) 其中,nij為詞語(yǔ)vj在事件vi中出現(xiàn)的數(shù)量,ncj為詞語(yǔ)vj出現(xiàn)的事件數(shù),M為事件總數(shù)。 (3) 若vi∈W并且vj∈W,則根據(jù)它們的共現(xiàn)情況建立連邊(圖2中粗實(shí)線所示)。采用點(diǎn)互信息(Pointwise Mutual Information, PMI)[19]來(lái)計(jì)算語(yǔ)料庫(kù)中詞語(yǔ)和詞語(yǔ)之間的連接權(quán)重Aij,定義如下: 其中,p(vi)為詞語(yǔ)vi在事件中出現(xiàn)的概率,p(vi,vj)為詞語(yǔ)vi與詞語(yǔ)vj在事件中同時(shí)出現(xiàn)的概率,ncij為詞語(yǔ)vi、vj同時(shí)出現(xiàn)的事件數(shù)量。 (4) 若vi∈W并且vj∈F: 如果vi屬于vj對(duì)應(yīng)的詞語(yǔ)集,則在vi、vj之間建立連邊(圖2中粗虛線所示),令A(yù)ij=Aji=1。 2.2.3 節(jié)點(diǎn)嵌入 (10) 其中,exp為以e為底的指數(shù)函數(shù),σ為Relu激活函數(shù),||為向量拼接操作,We1為參數(shù)矩陣,ek0為原微博vk0中所含詞語(yǔ)向量的均值向量,ekl為原微博的第l條評(píng)論中所含詞語(yǔ)向量的均值向量。在此基礎(chǔ)上,獲得事件vk對(duì)應(yīng)的節(jié)點(diǎn)向量xek,如式(11)所示。 (11) 其中,We2為參數(shù)矩陣。由于xfj與xwi、xek維度不同,進(jìn)一步通過(guò)前饋神經(jīng)網(wǎng)絡(luò)將其映射到一個(gè)維度相同的空間內(nèi),即: xfj=σ(xfjWe3+bf) (12) 其中,We3∈R|F|×d、bf∈R1×d為訓(xùn)練參數(shù)矩陣。 2.2.4 節(jié)點(diǎn)采樣與聚合 由于2.2.2節(jié)所構(gòu)建的謠言檢測(cè)異質(zhì)圖G規(guī)模較大,直接在該圖上使用節(jié)點(diǎn)分類算法將面臨計(jì)算開(kāi)銷較大的問(wèn)題。GraphSAGE算法[21]首先通過(guò)采樣鄰居的策略,將節(jié)點(diǎn)訓(xùn)練由全圖訓(xùn)練方式轉(zhuǎn)換為以節(jié)點(diǎn)為中心的小批量訓(xùn)練方式,使得大規(guī)模圖數(shù)據(jù)的分布式訓(xùn)練成為可能。此外,GraphSAGE對(duì)鄰居節(jié)點(diǎn)的聚合操作進(jìn)行了拓展,提出平均聚合、LSTM聚合、池化聚合等方法以提高節(jié)點(diǎn)表達(dá)的準(zhǔn)確性。本文利用GraphSAGE的上述優(yōu)勢(shì),通過(guò)采樣得到圖G的子圖實(shí)現(xiàn)一種高效、可歸納的謠言檢測(cè)過(guò)程。如圖3所示,針對(duì)每個(gè)事件節(jié)點(diǎn)vi,首先,在一階(k=1)采樣過(guò)程中我們將獲取vi鄰居中的全部詞語(yǔ)節(jié)點(diǎn)并獲得vi鄰居中連邊權(quán)重最大的ns(ns=10)個(gè)事件節(jié)點(diǎn);然后,為控制節(jié)點(diǎn)集規(guī)模,在第二、三階采樣中,分別針對(duì)vi的一階采樣結(jié)果中的每個(gè)節(jié)點(diǎn)vj,通過(guò)隨機(jī)采樣方法獲得vj的ns(ns=10)個(gè)鄰居節(jié)點(diǎn);最后,利用上述采樣所得節(jié)點(diǎn)集Vi={Vij}(Vij為在第j階采樣過(guò)程中得到的節(jié)點(diǎn)集)及對(duì)應(yīng)鄰接矩陣Ai構(gòu)建子圖Gi。 如圖3所示,RD_EWF采樣方向按照階段k=1,2,3依次向外,而節(jié)點(diǎn)聚合過(guò)程則與采樣方向相反。由于每個(gè)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)可能類型不同(如事件節(jié)點(diǎn)的鄰居可能為詞語(yǔ)節(jié)點(diǎn)或者事件節(jié)點(diǎn),而詞語(yǔ)節(jié)點(diǎn)的鄰居可能為詞語(yǔ)節(jié)點(diǎn)、事件節(jié)點(diǎn)或者特征節(jié)點(diǎn)),HGAT[22]通過(guò)異質(zhì)圖注意力網(wǎng)絡(luò)來(lái)考慮不同類型信息的異構(gòu)性,并利用雙層注意力機(jī)制捕獲不同鄰居節(jié)點(diǎn)和不同節(jié)點(diǎn)類型對(duì)特定節(jié)點(diǎn)的重要性。但是,該方法在所有節(jié)點(diǎn)上進(jìn)行訓(xùn)練,因此難以適用于規(guī)模較大的圖結(jié)構(gòu)數(shù)據(jù)。為此,本文在GraphSAGE基礎(chǔ)上結(jié)合HGAT來(lái)為不同類型節(jié)點(diǎn)連邊賦予注意力權(quán)重,以此在提高節(jié)點(diǎn)計(jì)算效率的同時(shí)區(qū)分不同鄰居節(jié)點(diǎn)對(duì)當(dāng)前節(jié)點(diǎn)的影響。在子圖Gi的第k層聚合過(guò)程中,本文基于GraphSAGE和HGAT的節(jié)點(diǎn)聚合過(guò)程(GS_HGAT)描述如下: (13) (16) 其中,Wh為訓(xùn)練參數(shù)矩陣。 2.2.5 謠言分類 (17) 其中,Wo為訓(xùn)練參數(shù)矩陣,hij為vi的第j個(gè)鄰居節(jié)點(diǎn)vij的隱狀態(tài)向量,BiGRU({hij})函數(shù)輸出詞語(yǔ)序列{vij}對(duì)應(yīng)的句向量。在此基礎(chǔ)上,將hi輸入到全連接層中,并結(jié)合其實(shí)際類別及交叉熵函數(shù)來(lái)使損失最小化,如式(18)、式(19)所示。 可見(jiàn),為提高模型針對(duì)圖節(jié)點(diǎn)的學(xué)習(xí)能力,RD_EWF綜合考慮了事件、詞語(yǔ)、特征三類節(jié)點(diǎn)之間的相互影響,通過(guò)引入情感、語(yǔ)法、心理等方面的知識(shí),解決傳統(tǒng)方法單純利用評(píng)論詞語(yǔ)信息導(dǎo)致的模型表達(dá)能力不足的問(wèn)題。此外,為保證模型的高效性及針對(duì)新評(píng)論的學(xué)習(xí)能力,本文通過(guò)隨機(jī)采樣構(gòu)建謠言檢測(cè)子圖,利用基于GraphSAGE和HGAT的節(jié)點(diǎn)聚合方法(GS_HGAT)在區(qū)分不同類型節(jié)點(diǎn)影響的同時(shí)提升了模型的泛化學(xué)習(xí)能力。 如表3所示,本文使用Rumdect[24]和CED[7]兩個(gè)公開(kāi)數(shù)據(jù)集驗(yàn)證模型的有效性,采用7:1:2的比例將數(shù)據(jù)集切分為訓(xùn)練集、驗(yàn)證集與測(cè)試集。 表3 實(shí)驗(yàn)數(shù)據(jù)集 為驗(yàn)證RD_EWF在謠言檢測(cè)領(lǐng)域的有效性,將其與11個(gè)典型基準(zhǔn)方法進(jìn)行對(duì)比,具體包括: ①傳統(tǒng)機(jī)器學(xué)習(xí)方法: 樸素貝葉斯(Naive Bayes, NB)[25]、邏輯回歸(Logistic Regression, LR)[26]以及隨機(jī)森林(Random Forest, RF)[26]; ②基于深度學(xué)習(xí)的方法: FastText[27]、TextCNN[28]、BiGRU-CNN[29]、TextGCN[30]、TextING[31]、I-BERT-LSTM[32]、dEFEND[33]、Bi-GCN[12]、RumorGCN[34]及GLAN[35]。實(shí)驗(yàn)參數(shù)設(shè)定如下: 節(jié)點(diǎn)丟棄率Dropout_rate=0.5,輪次Epoch=100,學(xué)習(xí)率Learning_rate=0.005,批大小Batch_size=100,詞向量維度Word_dim=256。為了避免實(shí)驗(yàn)誤差,針對(duì)每種方法取50次實(shí)驗(yàn)平均值作為最終的實(shí)驗(yàn)結(jié)果。 上述方法的參數(shù)設(shè)置如表4所示。 表4 參數(shù)設(shè)置 本文采用準(zhǔn)確率(Accuracy)與F1值來(lái)衡量謠言檢測(cè)方法的分類效果,定義如式(20)、式(21)所示[35]。 式(20)中TP是預(yù)測(cè)為謠言且實(shí)際為謠言的樣本數(shù),FN是預(yù)測(cè)為非謠言但實(shí)際為謠言的樣本數(shù),FP是實(shí)際為非謠言但被預(yù)測(cè)為謠言的樣本數(shù),TN是實(shí)際為非謠言且被預(yù)測(cè)為非謠言的樣本數(shù)。式(21)中精確率(Precision)與召回率(Recall)指標(biāo)定義如式(22)、式(23)所示。 為獲得最優(yōu)的隱藏層維度d,分別令d=128、256、512、1 024,并統(tǒng)計(jì)RD_EWF在Rumdect與CED數(shù)據(jù)集上對(duì)應(yīng)的Accuracy值和F1值,結(jié)果如圖4所示。由圖知,當(dāng)隱藏層的維度小于256時(shí),本文對(duì)應(yīng)的Accuracy值和F1值均呈現(xiàn)上升趨勢(shì);當(dāng)d=256時(shí),本文在Rumdect數(shù)據(jù)集上獲得最大Accuracy值(0.938)和F1值(0.934),在CED數(shù)據(jù)集上獲得最大Accuracy值(0.916)和F1值(0.914);當(dāng)隱藏層的維度大于256時(shí),模型對(duì)應(yīng)的結(jié)果呈現(xiàn)下降趨勢(shì)。究其原因,過(guò)低的嵌入維度可能使得隱藏向量包含的特征信息較少,導(dǎo)致模型的特征表達(dá)能力不足,而過(guò)高的嵌入維度將使得模型出現(xiàn)過(guò)擬合或者欠擬合問(wèn)題,繼而降低了算法的分類性能。由于當(dāng)d=256時(shí)本文獲得最高的Accuracy值和F1值,因此這里設(shè)定默認(rèn)隱藏層維度為256。 圖4 隱藏層維度的影響 為驗(yàn)證本文提出的基于GraphSAGE和HGAT的圖節(jié)點(diǎn)聚合方法(GS_HGAT)在提升節(jié)點(diǎn)表示方面的有效性,這里將其與以下兩種方法進(jìn)行對(duì)比: (1)GS: 使用本文采樣方法獲得節(jié)點(diǎn)子圖,然后直接使用基于LSTM聚合器的GraphSAGE算法[21]生成圖節(jié)點(diǎn)表達(dá)。 (2)GS_GAT: 使用本文采樣方法獲得節(jié)點(diǎn)子圖,然后使用圖注意力網(wǎng)絡(luò)(Graph Attention Network, GAT)[36]生成圖節(jié)點(diǎn)表達(dá)。 在此基礎(chǔ)上,我們將上述不同方法在不同數(shù)據(jù)集上進(jìn)行比較,當(dāng)采樣鄰居節(jié)點(diǎn)數(shù)量n取2、4、 6、…、20時(shí)統(tǒng)計(jì)不同方法對(duì)應(yīng)的Accuracy值和F1值,結(jié)果如圖5、圖6所示。由圖知,隨著ns值的增大,不同方法對(duì)應(yīng)的結(jié)果均呈現(xiàn)出逐漸增加的趨勢(shì),原因在于在圖節(jié)點(diǎn)信息聚合過(guò)程中采樣更多的鄰居節(jié)點(diǎn)能夠豐富節(jié)點(diǎn)語(yǔ)義信息,提高節(jié)點(diǎn)特征表示的完整性。但是,隨著ns值繼續(xù)增加,不難發(fā)現(xiàn)上述方法在不同數(shù)據(jù)集上的表現(xiàn)均呈現(xiàn)下降趨勢(shì),例如當(dāng)使用CED數(shù)據(jù)集時(shí),GS方法在ns=12時(shí)取得最大的Accuracy值和F1值,但當(dāng)ns=20時(shí),該方法對(duì)應(yīng)結(jié)果下降了超過(guò)0.01。可見(jiàn),適當(dāng)增加ns值能提高節(jié)點(diǎn)表示學(xué)習(xí)的準(zhǔn)確性,但是ns值過(guò)大容易帶來(lái)較多的冗余特征信息,在提高算法計(jì)算開(kāi)銷的同時(shí)降低信息聚合效果。 圖5 不同聚合方法在Rumdect數(shù)據(jù)集上的比較 進(jìn)一步地,通過(guò)對(duì)比GS與GS_GAT發(fā)現(xiàn)后者對(duì)應(yīng)的結(jié)果普遍高于前者對(duì)應(yīng)的結(jié)果,這是因?yàn)镚S方法在節(jié)點(diǎn)聚合過(guò)程中僅根據(jù)連邊權(quán)重來(lái)獲得鄰居節(jié)點(diǎn)的加權(quán)結(jié)果,而GS_GAT方法則計(jì)算了鄰居節(jié)點(diǎn)的注意力權(quán)重大小,繼而能區(qū)分不同鄰居節(jié)點(diǎn)對(duì)聚合結(jié)果的貢獻(xiàn)程度,提高節(jié)點(diǎn)表示的準(zhǔn)確性。對(duì)比GS_HGAT和GS_GAT時(shí)發(fā)現(xiàn),前者對(duì)應(yīng)的結(jié)果普遍偏高。例如,當(dāng)使用Rumdect數(shù)據(jù)集時(shí),GS_HGAT在ns=6時(shí)對(duì)應(yīng)的Accuracy值比GS_GAT方法高出0.013;當(dāng)使用CED數(shù)據(jù)集時(shí),GS_HGAT在ns=20時(shí)對(duì)應(yīng)的F1值比GS_GAT算法高出0.008,這說(shuō)明在節(jié)點(diǎn)聚合過(guò)程中同時(shí)考慮節(jié)點(diǎn)權(quán)重與節(jié)點(diǎn)類型權(quán)重,能有效提高模型對(duì)于節(jié)點(diǎn)表示的學(xué)習(xí)能力,提升謠言檢測(cè)效果。 這里在RD_EWF的基礎(chǔ)上進(jìn)行調(diào)整,衍生出以下幾種變體方法并將其與本文進(jìn)行比較: (1)RD_E_noC: 區(qū)別于RD_EWF,僅使用事件構(gòu)建謠言檢測(cè)異質(zhì)圖,并且在計(jì)算事件初始化嵌入表達(dá)時(shí)不考慮評(píng)論文本的影響。此外,利用基于平均聚合的GraphSAGE算法獲得事件的最終嵌入表達(dá),并利用公式(18)、(19)進(jìn)行模型訓(xùn)練。 (2)RD_E: 區(qū)別于RD_EWF,僅使用事件構(gòu)建謠言檢測(cè)異質(zhì)圖。此外,利用基于平均聚合的GraphSAGE算法獲得事件的最終嵌入表達(dá),并利用公式(18)、(19)進(jìn)行模型訓(xùn)練。 (3)RD_EW: 區(qū)別于RD_EWF,該方法僅使用事件及詞語(yǔ)構(gòu)建謠言檢測(cè)異質(zhì)圖。 (4)RD_EW_senF: 區(qū)別于RD_EWF,該方法使用事件、詞語(yǔ)以及文本特征中的情感特征構(gòu)建謠言檢測(cè)異質(zhì)圖。 (5)RD_EW_entF: 區(qū)別于RD_EWF,該方法使用事件、詞語(yǔ)以及文本特征中的語(yǔ)法特征構(gòu)建謠言檢測(cè)異質(zhì)圖。 (6)RD_EW_linF: 區(qū)別于RD_EWF,該方法使用事件、詞語(yǔ)以及文本特征中的語(yǔ)言特征構(gòu)建謠言檢測(cè)異質(zhì)圖。 在此基礎(chǔ)上,我們統(tǒng)計(jì)了上述方法在不同數(shù)據(jù)集上對(duì)應(yīng)的Accuracy值和F1值,結(jié)果如表5所示。由表5可知: 表5 本文方法與不同變體方法的比較 (1) 與未使用評(píng)論信息的RD_E_noC方法相比,RD_E對(duì)應(yīng)的結(jié)果明顯偏高。例如,當(dāng)使用Rumdect數(shù)據(jù)集時(shí),RD_E相對(duì)于RD_E_noC在Accuracy值與F1值方面分別提升0.039和0.043,這說(shuō)明評(píng)論文本對(duì)于檢測(cè)事件是否為謠言具有重要作用。 (2) 對(duì)比RD_EW和RD_E發(fā)現(xiàn),前者在不同數(shù)據(jù)集上對(duì)應(yīng)的Accuracy值與F1值相對(duì)后者均偏高,驗(yàn)證了本文使用BiGRU融合文本詞語(yǔ)的上下文序列化信息對(duì)于提升事件節(jié)點(diǎn)表達(dá)精度的有效性。 (3) 進(jìn)一步發(fā)現(xiàn),與未使用文本特征的RD_EW方法相比,結(jié)合部分文本特征的RD_EW_senF、RD_EW_entF及RD_EW_linF方法對(duì)應(yīng)的Accuracy值與F1值普遍偏高。例如,當(dāng)使用Rumdect數(shù)據(jù)集時(shí),RD_EW_senF相對(duì)于RD_EW_noF在Accuracy值與F1值方面分別提升0.006和0.002,RD_EW_linF相對(duì)于RD_EW在Accuracy值與F1值方面分別提升0.013和0.011,說(shuō)明在事件、詞語(yǔ)等信息基礎(chǔ)上考慮情感特征、語(yǔ)法特征或者語(yǔ)言特征能從一定程度上提高謠言檢測(cè)效果。并且,不難發(fā)現(xiàn)RD_EW_linF相對(duì)于RD_EW的性能提升程度較另外兩種方法更為明顯。究其原因,RD_EW_linF方法使用事件、詞語(yǔ)以及文本特征中的語(yǔ)言特征構(gòu)建謠言檢測(cè)異質(zhì)圖,其抽取的語(yǔ)言特征中除包含情感特征外,還包含心理特征、認(rèn)知特征等重要信息,因此相對(duì)于RD_EW_senF(RD_EW_entF),單純使用情感特征(語(yǔ)法特征)而言更有助于提高節(jié)點(diǎn)信息的聚合效果。 當(dāng)對(duì)比RD_EWF與其他算法表現(xiàn)時(shí)發(fā)現(xiàn),RD_EWF在不同數(shù)據(jù)集上的結(jié)果均明顯高于其他算法,這說(shuō)明在謠言檢測(cè)過(guò)程中綜合考慮詞語(yǔ)的情感特征、語(yǔ)法特征、語(yǔ)言特征后的方法性能要優(yōu)于單純使用其中一種特征時(shí)的方法性能,進(jìn)一步驗(yàn)證了本文引入的文本特征對(duì)于提升謠言檢測(cè)效果的有效性。 本文將RD_EWF與13個(gè)典型方法進(jìn)行對(duì)比,結(jié)果如表6所示。其中,所有方法中的最優(yōu)結(jié)果用粗體表示,次優(yōu)結(jié)果使用下劃線表示。由表6可知: 表6 不同方法的實(shí)驗(yàn)結(jié)果 (單位: %) (1) 基于深度學(xué)習(xí)模型的文本分類方法在不同數(shù)據(jù)集上的表現(xiàn)均優(yōu)于NB、LR、RF等傳統(tǒng)分類方法,原因在于前者方法能更好地挖掘謠言信息的隱含特征,而傳統(tǒng)分類方法只是使用簡(jiǎn)單的詞袋模型表示事件文本,丟失了文本上下文語(yǔ)義、詞語(yǔ)順序等重要信息。進(jìn)一步發(fā)現(xiàn),I-BERT-LSTM結(jié)果相對(duì)于TextCNN、BiGRU-CNN、TextGCN、TextING等方法普遍偏高,這是由于TextCNN等方法直接將整個(gè)微博事件對(duì)應(yīng)的文本信息作為模型輸入,而I-BERT-LSTM利用TextRank算法獲得微博事件對(duì)應(yīng)的文本摘要,因此能有效避免截取有限長(zhǎng)度序列帶來(lái)的關(guān)鍵信息丟失問(wèn)題。 (2) 當(dāng)將dEFEND與TextCNN、TextGCN、I-BERT-LSTM等方法比較時(shí)發(fā)現(xiàn),前者對(duì)應(yīng)結(jié)果明顯偏高,說(shuō)明將原始微博劃分成句子并結(jié)合互注意力機(jī)制細(xì)化句子與相關(guān)評(píng)論的關(guān)系能較好地提升謠言檢測(cè)效果。 (3) 相對(duì)于Bi-GCN,RumorGCN對(duì)應(yīng)結(jié)果均有所提升,這是因?yàn)锽i-GCN僅僅考慮傳播樹(shù)中父子節(jié)點(diǎn)之間形成的層間依賴關(guān)系,而RumorGCN共同顯式建模層間依賴關(guān)系和兄弟節(jié)點(diǎn)之間形成的層內(nèi)依賴關(guān)系,因此能聚合不同依賴關(guān)系下的局部鄰域信息,繼而學(xué)習(xí)到更準(zhǔn)確、更豐富的傳播結(jié)構(gòu)特征。 (4) 通過(guò)比較RD_EWF和其他方法發(fā)現(xiàn),前者除在CED數(shù)據(jù)集上的Accuracy值低于dEFEND方法對(duì)應(yīng)結(jié)果外,在其他情況下均獲得最優(yōu)實(shí)驗(yàn)結(jié)果。究其原因: ①本文構(gòu)建的謠言檢測(cè)異質(zhì)圖在傳統(tǒng)評(píng)論、詞語(yǔ)信息的基礎(chǔ)上引入情感、語(yǔ)法、心理等知識(shí),綜合了事件、詞語(yǔ)以及文本特征三方面之間的相互影響,豐富了節(jié)點(diǎn)向量表達(dá)中所含的特征信息; ②本文提出的基于GraphSAGE和HGAT的節(jié)點(diǎn)聚合方法不僅能區(qū)分不同鄰居節(jié)點(diǎn)的重要性,還考慮了不同節(jié)點(diǎn)類型對(duì)于聚合結(jié)果的貢獻(xiàn),避免了TextING、Bi-GCN、RumorGCN等方法單純考慮鄰居節(jié)點(diǎn)重要性而導(dǎo)致的節(jié)點(diǎn)表示不準(zhǔn)確的問(wèn)題。 由于謠言傳播較為迅速,因此能否及時(shí)地對(duì)尚未被評(píng)論或者較少被評(píng)論過(guò)的微博事件進(jìn)行正確檢測(cè)是衡量謠言檢測(cè)算法性能的重要標(biāo)準(zhǔn)。為此,這里根據(jù)3.6節(jié)結(jié)果選取了4種表現(xiàn)較好的謠言檢測(cè)算法I-BERT-LSTM、RumorGCN、dEFEND和GLAN,并將它們與本文RD_EWF方法進(jìn)行對(duì)比以分析評(píng)論數(shù)量對(duì)不同方法的影響。為了仿真那些尚未被評(píng)論或者較少被評(píng)論的微博信息,我們隨機(jī)選擇測(cè)試集中10%的微博事件,然后針對(duì)每個(gè)事件只保留其中10%的評(píng)論信息。在此基礎(chǔ)上,我們?cè)跀?shù)據(jù)集Rumdect與CED上統(tǒng)計(jì)了每種方法對(duì)應(yīng)的Accuracy值和F1值,結(jié)果如圖7、圖8所示。 圖7 微博評(píng)論數(shù)量對(duì)不同方法的影響 圖8 微博評(píng)論數(shù)量對(duì)不同方法的影響 由圖知,隨著測(cè)試集中部分微博評(píng)論數(shù)減少,上述方法對(duì)應(yīng)性能均呈現(xiàn)出不同程度的下降,說(shuō)明微博評(píng)論中蘊(yùn)含著較多與謠言檢測(cè)相關(guān)的信息。進(jìn)一步發(fā)現(xiàn),dEFEND對(duì)應(yīng)結(jié)果普遍高于I-BERT-LSTM、RumorGCN和GLAN,說(shuō)明關(guān)注原始微博不同句子之間以及句子與評(píng)論之間的語(yǔ)義關(guān)聯(lián)性能較好地保證謠言檢測(cè)效果。與I-BERT-LSTM和GLAN相比,RumorGCN對(duì)應(yīng)結(jié)果稍高,可能原因是前兩種算法只關(guān)注評(píng)論信息之間的內(nèi)容相關(guān)性,忽略了評(píng)論之間實(shí)際轉(zhuǎn)發(fā)關(guān)系對(duì)謠言檢測(cè)結(jié)果的影響。對(duì)比RD_EWF與其他算法發(fā)現(xiàn),本文對(duì)應(yīng)的Accuracy值和F1值在不同數(shù)據(jù)集上均獲得最大值,雖然相對(duì)于表6中的表現(xiàn)有所下降,但所得結(jié)果仍明顯高于其他算法。可見(jiàn),由于本文在考慮原始微博和評(píng)論信息的基礎(chǔ)上進(jìn)一步結(jié)合了不同事件之間的相關(guān)性,因此能在評(píng)論較少的情況下根據(jù)事件之間的相互聯(lián)系學(xué)習(xí)到對(duì)分類有用的重要信息,繼而提高針對(duì)尚未被評(píng)論或者有較少評(píng)論的微博信息的檢測(cè)能力。 本文提出了一種基于事件-詞語(yǔ)-特征異質(zhì)圖的微博謠言檢測(cè)新方法RD_EWF,主要貢獻(xiàn)包括: ①在微博原文及評(píng)論內(nèi)容信息基礎(chǔ)上,引入了由情感特征、語(yǔ)法特征以及語(yǔ)言特征構(gòu)成的文本特征的概念,將微博事件、文本詞語(yǔ)、文本特征作為節(jié)點(diǎn)構(gòu)建事件-詞語(yǔ)-特征異質(zhì)圖,解決了現(xiàn)有方法單純利用文本內(nèi)容導(dǎo)致節(jié)點(diǎn)信息表達(dá)不充分的問(wèn)題; ②綜合考慮事件-事件之間、事件-詞語(yǔ)之間、詞語(yǔ)-詞語(yǔ)之間以及詞語(yǔ)-特征之間的相互作用,提出基于GraphSAGE和異質(zhì)圖注意力網(wǎng)絡(luò)的節(jié)點(diǎn)聚合方法GS_HGAT,以此區(qū)分不同類型節(jié)點(diǎn)的影響,在保證模型可歸納的同時(shí)提高節(jié)點(diǎn)表示的準(zhǔn)確性。在兩個(gè)典型謠言檢測(cè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,RD_EWF相對(duì)于傳統(tǒng)文本分類方法及深度學(xué)習(xí)方法在提升微博謠言檢測(cè)準(zhǔn)確性方面具有明顯優(yōu)勢(shì)。未來(lái)計(jì)劃將該方法推廣至標(biāo)題黨識(shí)別、虛假信息識(shí)別等相關(guān)領(lǐng)域。2.2 方法描述
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)設(shè)置
3.2 評(píng)價(jià)指標(biāo)
3.3 隱藏層維度取值影響
3.4 圖節(jié)點(diǎn)聚合方法比較
3.5 消融實(shí)驗(yàn)
3.6 與現(xiàn)有典型方法的比較
3.7 微博評(píng)論數(shù)量影響分析
4 結(jié)束語(yǔ)