• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合信息對抗及混合特征表示的社交網(wǎng)絡(luò)謠言檢測方法*

      2024-03-01 00:38:46
      情報雜志 2024年2期
      關(guān)鍵詞:鑒別器時序謠言

      朱 賀

      (河南師范大學(xué)圖書與檔案信息中心 新鄉(xiāng) 453007)

      0 引 言

      線上社交網(wǎng)絡(luò)為信息的傳播提供了快速的傳播通路,而謠言作為信息的一種特定存在形式,自然也包括其中。謠言傳播造成了巨大的經(jīng)濟(jì)損失,同時也給社會的平穩(wěn)運行提出了嚴(yán)峻的挑戰(zhàn)。在新冠疫情的背景下,多種涉及民生事件的謠言被居心不良的個人或者團(tuán)體捏造并傳播,對社會和諧、民心安定和政府治理造成了巨大的負(fù)面影響。謠言的傳播已經(jīng)成為了一項社會問題,相關(guān)領(lǐng)域的研究必須給與足夠的重視。

      現(xiàn)有高性能的謠言檢測方法大多建立在廣泛的特征提取和大規(guī)模的數(shù)據(jù)分析上,此類方法在一定程度上提高了謠言檢測的效率和精度,使得在大規(guī)模傳播事件中實現(xiàn)對謠言的甄別成為了可能。然而,需要指出的是,網(wǎng)絡(luò)環(huán)境并不是“一塵不染”的,在廣泛的自由互動的背景下,輿情參與個體變得更加復(fù)雜,輿情事件中往往也會包含著一定量的虛假評論或惡意陳述。遺憾的是,數(shù)據(jù)驅(qū)動的謠言檢測方法并未對輿情信息中充斥著的各種“噪聲”做出應(yīng)有的應(yīng)對,這也就限制了謠言檢測精度在當(dāng)前日益復(fù)雜的輿情傳播背景下進(jìn)一步的提高。

      基于此,本研究提出了一種融合信息對抗及混合特征表示的社交網(wǎng)絡(luò)謠言檢測模型,從而在現(xiàn)實情形中廣泛存在不實表達(dá)的背景下,增強模型對于“噪聲信息”的容抗性,提高謠言檢測的準(zhǔn)確度。本模型利用混合特征呈現(xiàn)的方法,從傳播時序和擴散結(jié)構(gòu)雙重維度來解析輿情事件,提取抽象化的高維謠言鑒別變量,克服了單一考慮“樹形拓?fù)洹被蛘摺皶r序依存”時特征呈現(xiàn)不充分的缺點。此外,借助于信息對抗,在網(wǎng)絡(luò)構(gòu)建及學(xué)習(xí)過程中,采用競爭機制,利用輿情評論數(shù)據(jù)生成對抗性的虛擬噪聲聲音,推動謠言鑒別器在成功識別提取的混合謠言特征的同時,不斷對生成的對抗性聲音做出有利于正確識別謠言方向的應(yīng)答,達(dá)到同步提升模型謠言檢測精度和噪聲容抗性的目的。

      1 相關(guān)研究

      現(xiàn)代謠言檢測研究的重點在于適用于大規(guī)模且自動化的輿情處理,受益于人工智能技術(shù)的發(fā)展,線上社交網(wǎng)絡(luò)上輿情信息的即時識別變得不再遙不可及[1-2]。一部分學(xué)者認(rèn)為,謠言同真實信息之間存在著一些顯性的,諸如在語法、句法、詞匯或者情感表達(dá)等特征標(biāo)志位的不同,而這些標(biāo)志位的特征差異正可被利用作為識別謠言的依據(jù)[3-5]。Gupta等[6]從發(fā)布的輿情信息中提取了一個多達(dá)45個標(biāo)志位的謠言特征集,建立了一個即時的評估線上輿情可信性的分析系統(tǒng)。Popat[7]提出了一類包含“斷言性短語”“詞語符號”“主觀判斷”等變量的謠言判定特征集,并比較了在不同特征集組合下的謠言檢測效果。為了提高謠言的識別效果, Yang[8]和Sun[9]在謠言特征標(biāo)志集中進(jìn)一步加入了對謠言發(fā)布個體特征的描述,實現(xiàn)了對謠言特征更加全面的呈現(xiàn)。這些基于特征的謠言鑒別方法為自動化謠言檢測提供了可能性,然而在任務(wù)前期卻需要耗費大量的人力進(jìn)行特征的篩選,提高了謠言鑒別的成本。此外,在現(xiàn)實情形中,不同平臺、不同興趣群的社交群體之間的信息交互方式是不同的,這就要求基于特征的謠言鑒別針對不同的平臺設(shè)計不同的特征集,而這也就限制了此類方法跨平臺的泛化能力。

      機器學(xué)習(xí)特別是深度學(xué)習(xí)技術(shù)的發(fā)展促進(jìn)了數(shù)據(jù)驅(qū)動的謠言檢測方法的研究。得益于智能化的信息分析流程,數(shù)據(jù)驅(qū)動的謠言檢測不再需要依賴于前期大量的人工特征提取,真正實現(xiàn)了謠言檢測方法的自動化,提升了其跨平臺的適用性[10-13]。為了降低話題偏移對突發(fā)性事件中謠言檢測精度的影響,Alkhodair等[13]提出了一個基于word2vec和循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的融合監(jiān)督及非監(jiān)督性學(xué)習(xí)過程的謠言檢測模型。Ma等[14]提出了兩類“自上而下”和“自下而上”的樹形結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)來呈現(xiàn)謠言傳播過程中相關(guān)信息之間的層級結(jié)構(gòu)關(guān)系,同時,在其隨后的研究工作中[15],注意力機制也被融入到了樹形結(jié)構(gòu)的構(gòu)建過程中,提高了關(guān)鍵性謠言檢測信息點的識別。劉勘等[16]基于雙層LSTM及遷移網(wǎng)絡(luò),分析并提取了用戶及傳播特征,提出了一種在無標(biāo)注數(shù)據(jù)情況下的跨領(lǐng)域謠言檢測策略。上述數(shù)據(jù)驅(qū)動的方法提高了謠言檢測的準(zhǔn)確性,但卻只考慮了謠言傳播的時序或結(jié)構(gòu)特征,缺少了更加全面的混合特征的呈現(xiàn)。同時,現(xiàn)有的數(shù)據(jù)驅(qū)動方法也沒能對現(xiàn)實情形中廣泛存在的“噪聲”信息做出充分的應(yīng)對,而這也就進(jìn)一步限制了此類方法在謠言檢測效果上的提升。

      生成對抗網(wǎng)絡(luò)GAN在其提出之初就引起了學(xué)術(shù)界和業(yè)界極大的關(guān)注,被廣泛的應(yīng)用于圖像和視頻生成等非監(jiān)督性學(xué)習(xí)任務(wù)之中。在“生成器”和“鑒別器”之間的對抗學(xué)習(xí)機制的作用下,生成對抗網(wǎng)絡(luò)變得有能力提取出原本不易被學(xué)習(xí)或者提取出的“非顯性特征”。為了將適用于非監(jiān)督學(xué)習(xí)的生成對抗網(wǎng)絡(luò)移植到監(jiān)督學(xué)習(xí)的謠言識別任務(wù)中,Ma等[17]首次提出了信息對抗的概念,他們利用基于循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的生成器產(chǎn)生爭議性的對抗言論,從而給鑒別器更大的壓力使其更好的識別謠言文本中具有指示性的辨別特征。孟佳娜等[18]基于對抗神經(jīng)網(wǎng)絡(luò)提出了一個混合文本信息以及圖片信息的跨模態(tài)謠言檢測模型,提高了謠言檢測的特征遷移能力。Cheng等[19]建立一個具有智能化自學(xué)習(xí)能力的謠言信息輸入序列修正模型,他們提出的基于GAN的模型框架很好地解決了謠言識別過程中“謠言”和“非謠言”數(shù)據(jù)的不平衡性。基于對抗學(xué)習(xí)的謠言檢測方法加強了對謠言數(shù)據(jù)中“噪聲”信息的處理能力,然而,由于生成對抗網(wǎng)絡(luò)對于非監(jiān)督學(xué)習(xí)的特異性,其模型關(guān)注的重心落在生成器而不是鑒別器上,生成器的對抗機制必然會降低鑒別器的鑒別效果,這就要求在針對有監(jiān)督任務(wù)時對鑒別器應(yīng)做額外的加強處理,但遺憾的是,上述研究卻沒能給出有效的解決。

      2 融合信息對抗及混合特征表示的社交網(wǎng)絡(luò)謠言檢測方法

      本研究提出的融合信息對抗及混合特征表示的謠言檢測方法(簡稱IHCR,代指Information-campaign and Hybrid Characteristic Representation)在整體上可以看作是一個具有部分參數(shù)共享的“雙步”模型:在“第一步”中,為了提升對噪聲信息的容抗性,本模型借鑒了Wasserstein GAN(WGAN)[20-21]以及Auxiliary Classifier GAN(ACGAN)[22]的模型構(gòu)建思想,提出了監(jiān)督性學(xué)習(xí)任務(wù)背景下的生成對抗網(wǎng)絡(luò),實現(xiàn)了針對謠言信息流的信息對抗機制;此外,考慮到謠言特征識別的全面性,在本步中,生成對抗網(wǎng)絡(luò)中的“生成器”模塊將被特別加強,通過融合圖卷積網(wǎng)絡(luò)GCN[23]以及雙向門循環(huán)網(wǎng)絡(luò)Bi-GRU,實現(xiàn)謠言信息中的傳播結(jié)構(gòu)特征和時序依賴特征的混合提取??紤]到生成對抗網(wǎng)絡(luò)在模型構(gòu)建思想上對于鑒別效果的抑制作用,直接使用第一步“鑒別器”的輸出作為謠言推斷的依據(jù)將會提高謠言誤判的可能性,因此,本模型特別引入了“第二步”基于自注意機制self-attention的判別網(wǎng)絡(luò):此步中的網(wǎng)絡(luò)一方面接受“第一步”中提取的混合特征,維持信息對抗機制;另一方面,對“鑒別器”做進(jìn)一步的加強處理,從而在保證噪聲容抗性的同時,從整體上提高謠言鑒別的準(zhǔn)確性。模型的整體結(jié)構(gòu)如圖1所示。

      圖1 模型整體框架圖

      2.1 信息對抗機制的構(gòu)建

      本模塊對應(yīng)于本研究提出的“雙步”模型的第一步。在本模塊中,我們將結(jié)合WGAN和ACGAN,提出適用于謠言檢測任務(wù)的有監(jiān)督學(xué)習(xí)背景下的信息對抗機制:利用加強的具備混合特征提取的生成器,產(chǎn)生對抗性的虛擬聲音參與訓(xùn)練,從而提升模型對 “噪聲”的容抗性。需要強調(diào)的是,區(qū)別于其他基于GAN的模型,本研究提出的方法不再使用隨機數(shù)據(jù)產(chǎn)生對抗性樣本,而是使用真實輿情事件的回復(fù)評論數(shù)據(jù)。圖2是基于一則從“醫(yī)保繳費信息”引發(fā)的新浪微博輿情事件中提取的抽象化的傳播網(wǎng)絡(luò)示意圖(截取部分信息)。 圖2中所有信息相對于時間軸的先后次序蘊含了輿情傳播網(wǎng)絡(luò)的時序特征;同時,回復(fù)評論信息相對于信息源的不同位置構(gòu)成了多層級的拓?fù)渚W(wǎng)絡(luò)。圖中在各個信息節(jié)點上人為加入了自連接環(huán),目的在于后續(xù)結(jié)構(gòu)特征的分析及提取。本模塊將依據(jù)此抽象化的傳播網(wǎng)絡(luò)圖提取輿情信息的結(jié)構(gòu)特征以及時序特征,并加以融合。

      圖2 抽象化的傳播網(wǎng)絡(luò)示意圖

      2.1.1基于混合特征表示的生成器

      在本部分中,我們將利用回復(fù)評論數(shù)據(jù)生成對抗性的虛擬聲音,相關(guān)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。為了表述的簡潔性和清晰性,下述的回復(fù)評論數(shù)據(jù)均代指已經(jīng)利用句子嵌入Sentence Embedding方法映射到句子表示空間的高維向量。

      圖3 基于混合特征表示的生成器結(jié)構(gòu)圖

      a.輿情信息結(jié)構(gòu)特征提取:依據(jù)輿情事件相關(guān)的回復(fù)評論數(shù)據(jù)建立傳播網(wǎng)絡(luò),網(wǎng)絡(luò)中的節(jié)點為回復(fù)評論信息,連邊根據(jù)回復(fù)評論之間的層級關(guān)系建立。再在生成的傳播網(wǎng)絡(luò)的節(jié)點上加入自連接環(huán),得到最終關(guān)于回復(fù)評論信息的關(guān)系網(wǎng)G。

      依據(jù)建立的信息關(guān)系網(wǎng)G生成鄰接矩陣A和節(jié)點的度矩陣D。為了提取直接相鄰節(jié)點之間的結(jié)構(gòu)信息,我們需要采用單層的圖卷積操作

      (1)

      (2)

      其中W2為第二層的可學(xué)習(xí)權(quán)重,L2即為最終提取的輿情信息結(jié)構(gòu)特征。

      b.輿情信息時序特征提取:考慮到時序特征提取的效果以及網(wǎng)絡(luò)結(jié)構(gòu)的簡單性,我們選擇利用門循環(huán)網(wǎng)絡(luò)GRU來分析回復(fù)評論數(shù)據(jù)之間的時間依賴關(guān)系。

      令xt表示一個回復(fù)評論數(shù)據(jù)流在t時刻對應(yīng)的信息,那么,GRU網(wǎng)絡(luò)中相關(guān)變量的更新將遵循以下公式

      (3)

      上述操作可以提取正向輿情信息流的時序特征,然而,在謠言檢測的實際操作中僅僅依賴正向的時序特征往往是不夠的。因此,我們進(jìn)一步加入了反向輿情信息流的時序特征提取操作。通過堆疊正反向的GRU網(wǎng)絡(luò),最終可以得到雙向的深度Bi-GRU網(wǎng)絡(luò),連接其輸出的正向及反向時序特征,即可得到最終在整體上的時序特征表示ha,t。

      c.結(jié)構(gòu)特征和時序特征融合:采用公式(3)所述的更新規(guī)則,將結(jié)構(gòu)特征L2映射為hb,t,其維度和ha,t完全一致。為了實現(xiàn)融合結(jié)構(gòu)特征和時序特征時權(quán)重的自動調(diào)整,我們利用Attention機制,其Attention權(quán)重α通過以下公式計算

      (4)

      其中,γ和Wh是注意力網(wǎng)絡(luò)中待學(xué)習(xí)的參數(shù)。那么得到的融合特征為

      (5)

      為了產(chǎn)生類似輿情信息源的對抗性聲音,我們需要利用反卷積操作,將句子空間表示的ht映射到詞表示空間內(nèi)

      (6)

      2.1.2基于多維度語義分析的鑒別器

      圖4 基于多維度語義分析的鑒別器結(jié)構(gòu)圖

      對于三個卷積層,輸出通道數(shù)被固定為相同的值,其卷積過程通過以下公式實現(xiàn):

      (7)

      v=Concatenate(v1,v2,v3)

      (8)

      再將其輸入到一個多層的前饋神經(jīng)網(wǎng)絡(luò)中:

      (9)

      2.1.3“第一步”的優(yōu)化目標(biāo)

      鑒別器的輸出包括兩類,即判定輸入為信息源而不是生成信息的概率,以及輿情信息的謠言分類概率。令Ls和Lc分別表示上述兩類概率輸出的損失函數(shù),其形式為

      (10)

      其中Nt為訓(xùn)練樣本數(shù),y為訓(xùn)練樣本的真實分類。為了提高訓(xùn)練的穩(wěn)定性,我們借鑒了WGAN中Lipschitz約束的使用,在隨機樣本的梯度范數(shù)上添加了一個正則化項

      GP=

      (11)

      那么,對于生成器其優(yōu)化目標(biāo)為最小化Lc-Ls,對于鑒別器其優(yōu)化目標(biāo)為最小化Lc+Ls+GP。在此優(yōu)化目標(biāo)的作用下,生成器將持續(xù)向迷惑鑒別器的方向優(yōu)化,同時,鑒別器也將在保證謠言鑒別準(zhǔn)確率的前提下,不斷深挖非顯性的謠言特異特征。

      2.2 基于自注意機制的二次判別網(wǎng)絡(luò)

      圖5 基于自注意機制的二次判別網(wǎng)絡(luò)結(jié)構(gòu)圖

      2.2.1混合自注意機制的判別網(wǎng)絡(luò)

      自注意機制的引入目的是為了進(jìn)一步提取輿情信息源s中隱藏的高維特征信息。對于一個具有h個Head的多頭注意力(Multi-head Self-attention)網(wǎng)絡(luò),使用Qj,Kj和Vj分別代表第j個Head的Query,Key和Value矩陣,他們的計算方法為

      (12)

      (13)

      其中,d是比例縮放系數(shù)。連接所有Head輸出的特征,可以得到整體的多頭注意輸出Z'

      Z'=Concatenate(Z1,Z2,…,Zj)WZ

      (14)

      其中,WZ是自學(xué)習(xí)權(quán)重。為了防止原始輸入信息過多的特征丟失,我們在自注意網(wǎng)絡(luò)中使用了殘差連接,進(jìn)一步使用layer normalization后,輸出變?yōu)?/p>

      Z=Layernorm(s+Z')

      (15)

      參照Transformer[27]中的方法,我們將多頭注意力網(wǎng)絡(luò)的輸出同一個全連接的前饋網(wǎng)絡(luò)相連,同時保留殘差連接和layer normalization,得到的輸出為

      Oatt=Layernorm(Z+ZWf+bf)

      (16)

      其中,Wf和bf分別是前饋網(wǎng)絡(luò)的權(quán)重及偏置矩陣,Oatt即為從輿情信息源s提取的多維度特征矩陣。

      2.2.2“第二步”的優(yōu)化目標(biāo)

      (17)

      其中,μ是一個超參數(shù),用于調(diào)整從原始信息源和生成的對抗性聲音中習(xí)得知識的權(quán)重。

      我們使用交叉熵作為“第二步”模塊的優(yōu)化目標(biāo),其包括兩部分:對于原始信息源的損失評估以及對于生成的對抗性聲音的損失評估

      (18)

      3 實驗與分析

      為了驗證本研究提出的模型(簡稱IHCR),在此部分中我們將基于公共數(shù)據(jù)集展開對比實驗,證實本模型的謠言檢測效果,檢驗在有噪聲數(shù)據(jù)影響時,本模型對于干擾信息的容抗性。

      3.1 實驗數(shù)據(jù)

      對比實驗將利用在謠言鑒別領(lǐng)域被廣泛使用的兩個數(shù)據(jù)集展開,即PHEMEv5[25]和新浪微博[26]數(shù)據(jù)集。PHEMEv5數(shù)據(jù)集是在Twitter平臺上爬取的關(guān)于5類話題事件發(fā)表的5 802條相關(guān)信息及其后續(xù)評論,該數(shù)據(jù)集信息的承載語言為英文,采集時間為2016年。新浪微博數(shù)據(jù)集是從新浪微博平臺獲取的包含多類話題事件的4 664條相關(guān)信息及其后續(xù)評論,該數(shù)據(jù)集信息的承載語言為中文,采集時間為2016年。兩個數(shù)據(jù)集中所有的信息都別標(biāo)記為“謠言”和“非謠言”兩者中的一類。兩個數(shù)據(jù)集具體的細(xì)節(jié)信息在表1中給出,選取這兩個數(shù)據(jù)集的目的是為了驗證我們提出的模型跨平臺及跨語言的適用性。

      表1 PHEMEv5和新浪微博數(shù)據(jù)集統(tǒng)計信息

      3.2 評估指標(biāo)及主要參數(shù)設(shè)置

      為了全面地體現(xiàn)謠言檢查效果,同時方便橫向的模型比較,本研究選取了國內(nèi)、外謠言檢測學(xué)術(shù)界常用并被普遍認(rèn)可的四個評估指標(biāo),即準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1得分四個指標(biāo),其計算方法為

      (19)

      其中,TPc,FPc和FNc分別表示正確預(yù)測的正例個數(shù),錯誤預(yù)測的正例個數(shù)和錯誤預(yù)測的負(fù)例個數(shù)。

      我們使用PyTorch來實現(xiàn)我們的模型。對于模型中相關(guān)參數(shù)的選擇,本研究進(jìn)行了大量的對比實驗,比較了不同參數(shù)設(shè)置下謠言檢測的效果,并找出了檢測效果最優(yōu)的一組作為最終的參數(shù)組合,具體為:詞嵌入和句子嵌入維度設(shè)定為300,“第一步”模塊生成器中的Bi-GRU的隱層數(shù)為2并使用Dropout,鑒別器中的CNN的輸出通道數(shù)為128,后續(xù)連接的前饋神經(jīng)網(wǎng)絡(luò)的隱層數(shù)為4。使用He initialization方法來初始化“第一步”信息對抗模塊中的可學(xué)習(xí)權(quán)重,并選用Adam算法來優(yōu)化損失函數(shù),其超參數(shù)為β1=0.5,β2=0.9。在“第二步”二次鑒別模塊中,設(shè)置自注意的多頭數(shù)為3,后續(xù)全連接的前饋網(wǎng)絡(luò)的輸出維度為256,仍然選用Adam算法來優(yōu)化第二步的損失函數(shù),此處的超參數(shù)為β1=0.9,β2=0.999。兩步中的學(xué)習(xí)率都設(shè)置為1e-3,并隨著學(xué)習(xí)過程逐漸下降。實驗中各結(jié)果通過五折交叉驗證得到。

      3.3 對比實驗選取的參照模型

      為了驗證本模型的謠言鑒別效果,我們從現(xiàn)有研究中選取了9種具有代表性的模型來進(jìn)行對比,包括一種傳統(tǒng)的基于決策樹構(gòu)建的模型(DT-Rank[27])、一種基于樹形傳播網(wǎng)絡(luò)構(gòu)建的模型(BU-RvNN[14])、兩種基于RNN的模型(DA-RNN[28]和GRU-R[26])、兩種基于CNN的模型(Text-CNN[29]和TDRD[30])、一種基于混合特征提取的模型(GGNN[31])和兩種基于GAN的模型(GAN-GRU[17]和RG-GAN[19]):

      ①DT-Rank:一種通過分析包含有爭議事實的信息來對趨勢消息進(jìn)行分類的決策樹模型。

      ②BU-RvNN:一種基于遞歸神經(jīng)網(wǎng)絡(luò)構(gòu)建的,通過回溯信息傳播路徑推斷謠言真實性的模型。

      ③DA-RNN:一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法,該方法通過識別潛在的時間敏感表征來捕獲謠言信息特有的上下文變化。

      ④GRU-R:一種利用深度堆疊GRU單元構(gòu)建的,通過在不同時間間隔內(nèi)聚合判別性特征來鑒別謠言的模型。

      ⑤Text-CNN:一種基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類器,其利用微調(diào)技術(shù)來學(xué)習(xí)文本分類任務(wù)中的指向性特征向量。

      ⑥TDRD:一種基于主題的CNN模型,其預(yù)測的主題特征被合并到源信息中,從而輔助謠言的檢測。

      ⑦GGNN:一種混合時序和結(jié)構(gòu)特征的謠言檢測方法,該方法將GRU和GCN相結(jié)合,分析并融合了信息流和層次節(jié)點之間的非顯性關(guān)系。

      ⑧GAN-GRU:一種基于GAN的謠言檢測方法,該方法使用對抗性學(xué)習(xí)策略施壓分類器,以獲得更強的謠言指示性表示。

      ⑨RG-GAN:一種結(jié)合了GAN和強化學(xué)習(xí)的模型,通過有選擇的在信息中插入生成的詞向量來提高模型對于噪聲信息的容抗性。

      3.4 謠言檢測結(jié)果及分析

      表2中呈現(xiàn)的是本研究提出的IHCR模型和9種對比實驗方法在謠言檢測任務(wù)上的檢測效果。每種檢測指標(biāo)的最優(yōu)值我們使用粗體字來標(biāo)示。從表2中可以看出,本研究提出的方法在兩種典型的中文及英文語境中均有最好的謠言檢測準(zhǔn)確率,分別是88.5%(PHEMEv5數(shù)據(jù)集)和95.7%(新浪微博數(shù)據(jù)集),相較于對比方法中在謠言檢測準(zhǔn)確率指標(biāo)上最好的GGNN分別提升了3.1%和4.1%。觀察在“謠言”和“非謠言”分類的下F1得分,本研究提出的方法在兩個數(shù)據(jù)集上相較于所有對比方法均得到了最高的得分,體現(xiàn)出IHCR有能力在謠言的各類別上挖掘并識別出區(qū)別于它類的指示性信息特征。

      表2 IHCR和對比模型在PHEMEv5和新浪微博數(shù)據(jù)集上的謠言檢測效果

      分析表2可知,相較于基于數(shù)據(jù)驅(qū)動的模型,基于特征的DT-Rank的檢測效果明顯要略遜一籌,在各個指標(biāo)上的結(jié)果幾乎都是最低的,反映出基于特征的方法在跨數(shù)據(jù)集泛化能力上的不足。基于RNN的方法目的在于提取時序特征,而基于CNN的方法分析的重點落在了信息結(jié)構(gòu)特征的挖掘,從表2中可以看到,其識別效果是不及基于混合特征提取的模型GGNN的,而這也是本研究將混合特征表示融入到信息對抗的出發(fā)點。GAN-GRU和RG-GAN均是基于對抗生成網(wǎng)絡(luò)構(gòu)建,雖然提高了網(wǎng)絡(luò)對噪聲數(shù)據(jù)的容抗性,但其生成的對抗數(shù)據(jù)會影響鑒別器的鑒別效果,拉低了謠言分類的準(zhǔn)確率,GAN-GRU的準(zhǔn)確率僅有78.3%和76.5%,而這也就是本研究構(gòu)建二次判別網(wǎng)絡(luò)的動因。

      3.5 消融實驗分析

      為了驗證本研究提出模型中各個組成模塊存在的必要性,在本部分中我們設(shè)計了一系列消融實驗,分析在特定組成部分缺失的情況下模型對于謠言檢測的效果。各變體模型詳述如下:

      ①w/o GCN:移除“第一步”中生成器中的結(jié)構(gòu)特征提取網(wǎng)絡(luò),生成器僅提取時序特征。

      ②w/o GRU:移除“第一步”中生成器中的時序特征提取網(wǎng)絡(luò),生成器僅提取結(jié)構(gòu)特征。

      ③Random-G:使用隨機初始化而不是“第一步”學(xué)習(xí)得到的生成器作為“第二步”二次判別網(wǎng)絡(luò)的輸入。

      ④w/o ATT:移除“第二步”中的自注意力網(wǎng)絡(luò),僅使用后續(xù)連接的和“第一步”鑒別器同構(gòu)的網(wǎng)絡(luò)進(jìn)行謠言判別。

      ⑤w/o GAN:完全移除“第一步”信息對抗模塊,僅使用二次判別網(wǎng)絡(luò)進(jìn)行謠言檢測。

      ⑥w/o SEC:完全移除“第二步”二次判別網(wǎng)絡(luò),僅使用信息對抗模塊進(jìn)行謠言檢測。

      消融實驗的謠言鑒別效果如表3所示??梢钥闯?相較于本研究提出的模型完全體,各變體模型在謠言識別的準(zhǔn)確率和F1得分上均有了一定程度的降低,反映出所有組成模塊都是必要的,任意一模塊的缺失都會限制IHCR對謠言特征進(jìn)行全面分析的能力。特別的,w/o GRU下的謠言檢測準(zhǔn)確率要明顯低于w/o GCN,說明相較于結(jié)構(gòu)特征,信息的時序依存性在謠言檢測任務(wù)上具有更高的影響權(quán)重。Random-G的謠言檢測效果在兩個數(shù)據(jù)集上都是最差的,隨機初始化的生成器不僅沒能提供任何謠言檢測的線索,反而對模型產(chǎn)生了誤導(dǎo),這也就從側(cè)面印證了“第二步”繼承的從“第一步”習(xí)得的生成器的必要性以及正面的促進(jìn)作用。w/o GAN不盡如人意的謠言檢測效果證實了單一的信息對抗機制對于鑒別器輸出的抑制作用,而w/o SEC構(gòu)型下較低的準(zhǔn)確率則反映出了信息對抗的必要性。

      表3 消融實驗結(jié)果

      3.6 噪聲容抗性分析

      在本部分的實驗中,為了分析IHCR對噪聲信息的容抗性,我們在PHEMEv5和新浪微博數(shù)據(jù)集的回復(fù)評論信息中人為插入了一定比例的噪聲數(shù)據(jù),從而研究在噪聲信息影響情形下IHCR對謠言的檢測效果。我們設(shè)計了兩種模型訓(xùn)練策略進(jìn)行比照:策略一是利用混合有噪聲的數(shù)據(jù)集訓(xùn)練整個模型;策略二是利用原始數(shù)據(jù)訓(xùn)練“第一步”信息對抗模塊,再使用混合有噪聲的數(shù)據(jù)集訓(xùn)練“第二步”二次鑒別模塊。所有的參數(shù)及初始化方法保持和原始設(shè)定一致。表4和表5中呈現(xiàn)的是兩類訓(xùn)練策略下的謠言檢測結(jié)果。在策略一下,隨著噪聲占比的提升,謠言檢測效果并沒有呈現(xiàn)出單調(diào)的下降趨勢,謠言檢測準(zhǔn)確率在整體上比較穩(wěn)定,這就說明我們提出的模型對于噪聲信息并不敏感,具有較好的噪聲容抗性。在策略二下,謠言檢測效果隨著噪聲占比的提升而逐漸下降,但是下降的速率并不顯著,噪聲占比從10%提升到50%,謠言檢測準(zhǔn)確率僅下降了2.1%(PHEMEv5)和4.1%(新浪微博)。相較于大部分對比實驗中的模型,即使在訓(xùn)練策略二下,IHCR仍是具有競爭力的,這就進(jìn)一步反映出我們提出的信息對抗背景下混合特征表示的有效性。

      表4 按策略一訓(xùn)練時不同噪聲占比情況下的謠言檢測效果

      表5 按策略二訓(xùn)練時不同噪聲占比情況下的謠言檢測效果

      4 結(jié) 語

      本研究提出了一種融合信息對抗及混合特征表示的謠言檢測模型。區(qū)別于現(xiàn)有的直接移植非監(jiān)督性學(xué)習(xí)中的對抗生成網(wǎng)絡(luò)GAN來搭建有監(jiān)督的謠言檢測模型,本研究提出了一種具有部分參數(shù)共享的“兩步走”模型,從而克服了對抗機制對有監(jiān)督學(xué)習(xí)造成的負(fù)面影響,實現(xiàn)了在提升檢測效果的同時,增強模型對于噪聲容抗性的目的。此外,為了進(jìn)一步賦能信息對抗模塊中生成器對于特征的表達(dá),本研究搭建了有機混合時序特征及結(jié)構(gòu)特征的深度網(wǎng)絡(luò),實現(xiàn)了對輿情信息在多種維度上的特征呈現(xiàn)。借助于真實的社交網(wǎng)上的輿情信息,本研究比較并分析了提出模型的謠言檢測效果,結(jié)果表明,在中文及英文語言環(huán)境下,本研究提出的模型均有能力在保證低噪聲敏感性的同時提升謠言檢測的準(zhǔn)確率。

      猜你喜歡
      鑒別器時序謠言
      時序坐標(biāo)
      基于多鑒別器生成對抗網(wǎng)絡(luò)的時間序列生成模型
      中國使館駁斥荒謬謠言
      基于Sentinel-2時序NDVI的麥冬識別研究
      衛(wèi)星導(dǎo)航信號無模糊抗多徑碼相關(guān)參考波形設(shè)計技術(shù)*
      當(dāng)謠言不攻自破之時
      一種毫米波放大器時序直流電源的設(shè)計
      電子制作(2016年15期)2017-01-15 13:39:08
      謠言
      陣列天線DOA跟蹤環(huán)路鑒別器性能分析
      謠言大揭秘
      卢湾区| 盘山县| 孝昌县| 彭州市| 桦川县| 绥宁县| 通河县| 周宁县| 伊川县| 桃园县| 湟源县| 大埔县| 寿阳县| 宜城市| 通海县| 策勒县| 丹棱县| 华亭县| 临沧市| 安庆市| 富裕县| 阳东县| 司法| 金塔县| 荥阳市| 桐柏县| 冷水江市| 乌鲁木齐市| 康平县| 庄浪县| 福海县| 孝感市| 台北县| 宁海县| 扶绥县| 开原市| 沙雅县| 乳山市| 高安市| 黔西| 鹤山市|