馮茹嘉,張海軍,潘偉民
(新疆師范大學(xué)計算機科學(xué)技術(shù)學(xué)院,新疆 烏魯木齊 830054)
21世紀作為一個互聯(lián)網(wǎng)發(fā)展的時代,各類社交應(yīng)用蓬勃發(fā)展并快速擴張,它以共享、開放、便捷、及時等特性為人們獲取各種信息提供了一個方便的平臺。然而,信息發(fā)布和傳播的便捷性也方便了謠言會在被發(fā)現(xiàn)之前的短時間內(nèi)爆發(fā)性傳播,使人們獲取真實可靠的信息變得困難,甚至在某些特殊情況下引起公眾恐慌或造成經(jīng)濟損失。比如2020年1月,新型冠狀肺炎爆發(fā),有人通過社交網(wǎng)絡(luò)傳播各種不實信息,引起社會恐慌,造成了極其惡劣的影響。因此,針對謠言可能造成的惡劣影響,盡快構(gòu)造自動檢測模型來識別社交媒體上的謠言是刻不容緩的。
目前,關(guān)于“謠言”,并沒有一個明確的概念。百度百科將“謠言”定義為沒有相應(yīng)事實基礎(chǔ),卻被捏造出來并通過一定手段推動傳播的言論。本文中所討論的謠言是指那些沒有事實根據(jù)、憑空捏造的或者有一定事實根據(jù),卻被發(fā)布者進行了夸大扭曲的、偏離了事件真相的言論。
當前的謠言檢測工作的主流手段主要包括機器學(xué)習(xí)和深度學(xué)習(xí)2種方法。機器學(xué)習(xí)的方法需要依賴于手工提取謠言特征,從而建立謠言檢測模型分類器。該方法較為耗費時間,且手工提取的特征往往只能在限定的情形下使用,難以保證高效率。深度學(xué)習(xí)的方法是使用神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)有效的特征來進行謠言檢測。常用的神經(jīng)網(wǎng)絡(luò)如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN),都可以高效自動地提取謠言文本特征。但循環(huán)神經(jīng)網(wǎng)絡(luò)存在梯度消失問題,卷積神經(jīng)網(wǎng)絡(luò)更偏重關(guān)注局部特征,且大多數(shù)研究者更側(cè)重于微博謠言的正文內(nèi)容,忽略了評論信息中包含的大量有用的情感信息,因此在謠言檢測工作中還存在一些可改進的工作。
本文提出一種結(jié)合情感分析和Transformer模型的微博謠言檢測模型。Transformer模型可以很好地解決循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度消失問題,該方法還著重關(guān)注微博評論信息的情感特征,通過挖掘微博正文的語義特征和微博評論的情感特征來提高謠言檢測模型的準確率。
針對社交網(wǎng)絡(luò)中的謠言泛濫問題,學(xué)術(shù)界進行了大量的研究與探索,大多數(shù)研究者將謠言檢測看作一個二分類問題。目前謠言檢測包括2個發(fā)展階段:早期基于傳統(tǒng)機器學(xué)習(xí)的謠言檢測和基于深度神經(jīng)網(wǎng)絡(luò)模型的謠言檢測。
早期的謠言檢測工作主要側(cè)重于從文本內(nèi)容[1-3]、用戶行為[4-6]、時間序列[7-8]和傳播結(jié)構(gòu)[9-10]中提取謠言特征,從標記數(shù)據(jù)中用有監(jiān)督的方式學(xué)習(xí)分類器。Castillo等人[4]以Twitter平臺的數(shù)據(jù)為基礎(chǔ),提取了內(nèi)容、用戶、傳播和話題4類特征,并篩選出了15個最具有區(qū)分度的特征,構(gòu)建J48決策樹分類模型,對謠言的識別準確率達到了86%。Qazvinian等人[1]通過對收集到的數(shù)據(jù)進行分類標注,驗證了淺層文本內(nèi)容特征、微博元素和行為特征在謠言檢測中的區(qū)分度和有效性,并構(gòu)建了貝葉斯分類器和集成分類器模型。Yang等人[11]以新浪微博數(shù)據(jù)作為謠言識別研究的基礎(chǔ),提出了消息發(fā)布客戶端和事件發(fā)生位置這2個關(guān)鍵特征,并與內(nèi)容和用戶特征結(jié)合,構(gòu)建SVM分類模型,最終模型準確率達到了78.7%。Zhang等人[12]基于微博數(shù)據(jù),提取了受歡迎程度、社會影響和意見轉(zhuǎn)發(fā)影響這3個與用戶影響力相關(guān)的特征,發(fā)現(xiàn)謠言的文本主題一般與用戶歷史消息類別是具有差別的,基于以上幾個新特征構(gòu)建的分類器在準確率上又有所提高。Mendoza等人[13]發(fā)現(xiàn)了在緊急情況下,謠言相對應(yīng)的Tweet的傳播模式與普通新聞的Tweet的傳播模式是不同的,因為Twitter社區(qū)是更傾向于質(zhì)疑謠言的。Takahashi等人[14]以日本海嘯事件引發(fā)的Twitter謠言為實例,對災(zāi)難過后的有關(guān)謠言傳播路徑和傳播規(guī)律展開研究,提取了謠言爆發(fā)點、轉(zhuǎn)發(fā)率等特征,基于以上特征構(gòu)建了謠言檢測系統(tǒng),并取得了良好的效果。
基于傳統(tǒng)機器學(xué)習(xí)的謠言檢測方法的重點在于找到具有高區(qū)分度的特征集以及特征處理,尋找能夠較為明確地區(qū)分謠言與非謠言的要素,從內(nèi)容、傳播以及用戶等方面提取謠言特征,結(jié)合現(xiàn)有的分類工具和分類方法實現(xiàn)謠言識別,這種方法在謠言檢測中初具成效。然而,早期的謠言檢測方法存在以下不足:依賴于人工提取特征,非常耗時耗力。手工設(shè)計的特征往往存在特定的局限性,泛化性能較差。手工制作的特征常會缺乏從謠言文本內(nèi)容中提取的深層次表征。
為了解決傳統(tǒng)基于手工提取特征方法存在的問題,實現(xiàn)對深層次特征的自動學(xué)習(xí),研究者提出深度神經(jīng)網(wǎng)絡(luò)模型的謠言檢測方法。Ma等人[15]利用循環(huán)神經(jīng)網(wǎng)絡(luò)RNN對轉(zhuǎn)帖進行建模,從基于時間序列的內(nèi)容特征中捕獲隱藏表示。實驗表明該深度學(xué)習(xí)模型能夠挖掘處于時間變化過程中的隱藏內(nèi)容和線索,具有較好的分類性能。Chen等人[16]結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)RNN和自動編碼器構(gòu)造了無監(jiān)督的深度學(xué)習(xí)模型,并引入用戶行為這一重要特征,提高了模型的檢測性能。Yu等人[17]指出了循環(huán)神經(jīng)網(wǎng)絡(luò)不能有效地進行謠言早期檢測。因此,該文采用卷積神經(jīng)網(wǎng)絡(luò)CNN構(gòu)建謠言檢測模型。實驗結(jié)果顯示該模型在謠言早期檢測中表現(xiàn)出良好的效果。李力釗等人[18]結(jié)合卷積神經(jīng)網(wǎng)絡(luò)CNN和門控循環(huán)單元(GRU)的優(yōu)點,通過將微博數(shù)據(jù)句向量化,采用卷積神經(jīng)網(wǎng)絡(luò)并結(jié)合門控循環(huán)單元的實驗?zāi)P?,分別提取微博數(shù)據(jù)的局部特征和全局特征,進而實現(xiàn)微博謠言檢測。結(jié)果表明,該模型具有良好的謠言識別性能。近期,Ma等人[19]提出了采用對抗性學(xué)習(xí)檢測Twitter上的謠言。由鑒別器作為分類器,相應(yīng)地,生成器則通過產(chǎn)生沖突的噪聲來提高鑒別器的分類性能,使謠言文本生成器和鑒別器在對抗性上互相增強,以提高模型的鑒別能力。
基于深度神經(jīng)網(wǎng)絡(luò)的謠言檢測模型克服了手工特征在提取特征工作上的繁瑣和場景局限性問題以及特征稀疏的問題,且在一定程度上模擬了人腦的思維模式,模型的準確率往往較高,目前用于謠言檢測的效果比較好。然而循環(huán)神經(jīng)網(wǎng)絡(luò)存在梯度消失和不容易平行化的問題。LSTM和GRU雖然可以緩解梯度消失的問題,但不能徹底解決?;诰矸e神經(jīng)網(wǎng)絡(luò)的謠言檢測模型更側(cè)重于提取局部特征,但對特征理解不足,沒有記憶功能。同時,微博用戶的頁面結(jié)構(gòu)不僅有微博正文還包括大量的微博評論信息,評論中包含評論者對微博事件的態(tài)度、觀點和用戶隱藏其中的情感宣泄。但在以往的研究中,由于用戶情感不容易抓取,研究人員有時會忽略掉這一重要特征。
針對以上問題,本文提出一種基于情感分析和Transformer模型的微博謠言檢測方法。與之前的謠言檢測方法相比,該方法加入了微博評論信息的情感特征,使用BiLSTM+Attention模型,模擬人在閱讀時對關(guān)鍵信息的偏重能力,增加模型對情感關(guān)鍵信息的敏感度,提取微博文本的情感特征。本文方法能夠捕獲到微博的深層語義信息,并且將微博轉(zhuǎn)帖和評論中潛在的情感信息融入文本表示中,利用微博評論中評論者對微博事件的情感偏好來提升模型謠言檢測的準確率。
為了進一步提高微博謠言檢測的準確性,本文提出基于情感分析和Transformer模型的微博謠言檢測方法。本文方法的具體流程如圖1所示。
首先將微博文本序列向量化,使用XLNet預(yù)訓(xùn)練的詞嵌入作為模型的輸入,之后分別使用Transformer的編碼器結(jié)構(gòu)和BiLSTM+Attention網(wǎng)絡(luò)進行特征提取,再將2種詞向量進行拼接融合,進一步豐富文本輸入特征,最后利用Softmax函數(shù)對融合特征進行相應(yīng)的計算,進而實現(xiàn)微博謠言檢測。
本文使用XLNet[20]的預(yù)訓(xùn)練方法。XLNet是一種既結(jié)合了ELMO[21]和BERT[22]的優(yōu)點,又避免了它們的缺陷的一種自回歸語言模型。首先,XLNet對文本中詞組的因式分解順序進行排列操作,每個位置都能夠看到它的前向和后向上的所有語義信息,從而實現(xiàn)雙向語義捕捉,避免了傳統(tǒng)語言模型中只能捕捉單向語義的問題。其次,自回歸目標提供一種自然的方式,來利用乘法法則對預(yù)測單詞的聯(lián)合概率執(zhí)行因式分解,這樣便消除了BERT中的獨立性假設(shè)的問題。
微博內(nèi)容中有包含區(qū)分謠言和非謠言的線索,在語言表達和用詞上謠言和非謠言有一定差別,因此本文使用微博文本的語義信息來識別謠言。
傳統(tǒng)的RNN存在梯度消失或梯度爆炸問題,在處理序列化數(shù)據(jù)時依賴于前一時刻的輸出,模型并行效率低。而Transformer模型的多頭自注意力機制可以很好地解決這一問題,在并行計算的同時學(xué)習(xí)長距離依賴關(guān)系,充分捕獲輸入文本的全局語義信息。
將長度為n的微博文本表示為w={w1,w2,…,wn},其中,wi為微博文本w中的第i個詞,通過預(yù)處理得到詞向量集x={x1,x2,…,xn},xi為微博文本w中的第i個詞向量。通過一個Transformer的編碼器來學(xué)習(xí)微博的文本特征,在文獻[23]中Transformer編碼器是由6個相同的層組成,每一層又由2個不同的子層組成,即多頭注意力機制層和前饋神經(jīng)網(wǎng)路層。在本文中依舊使用這種6層結(jié)構(gòu)的編碼器。
自注意力機制是將文本中的詞與詞進行加權(quán)計算,目的是為了學(xué)習(xí)微博文本的內(nèi)部依賴關(guān)系,捕獲序列內(nèi)部結(jié)構(gòu)特征。
Attention(Q,K,V)=softmax(QKT)V
(1)
通過線性變換將初始詞向量轉(zhuǎn)化為Q、K、V,即查詢矩陣(Query Matrix)、鍵矩陣(Key Matrix)和值矩陣(Value Matrix)。注意力機制是V值進行加權(quán)求和,而Q和K用來計算對應(yīng)V的權(quán)重系數(shù)。
使用多頭注意力機制能夠更好地提取輸入序列的內(nèi)部關(guān)系,實現(xiàn)對不同位置上的謠言檢測模型輸入信息的共同關(guān)注。
MultiHead(Q,K,V)=Concat(head1,head2,…,headh)WO
(2)
(3)
其中,h為多頭注意力機制頭的數(shù)量,headi為i第個頭的輸出,WQ、WK、WV分別為Q、K、V的參數(shù)矩陣。以上參數(shù)矩陣可通過模型訓(xùn)練學(xué)習(xí)得到。
之后將多頭注意力層中學(xué)習(xí)到的特征向量輸入全連接前饋神經(jīng)網(wǎng)絡(luò)層,如果多頭注意力層的輸出表示為Z,則前饋神經(jīng)網(wǎng)絡(luò)層可以表示為:
Hz=max(0,ZW1+b1)W2+b2
(4)
其中,W1、W2為前饋神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣,b1、b2為前饋神經(jīng)網(wǎng)絡(luò)的偏置項。Hz即為最終的微博正文的語義表達。
微博數(shù)據(jù)不只包括微博正文,還包括了微博評論這一重要數(shù)據(jù)。微博評論表達了評論者對微博事件的立場、觀點以及個人情感,與非謠言相比謠言評論中包含了更多的質(zhì)疑和反駁的信息,負面情感詞匯在微博評論中的占比更大。因此,通過學(xué)習(xí)微博評論的情感特征有利于提高謠言檢測模型的準確率。
本文通過BiLSTM+Attention模型提取情感特征。BiLSTM+Attention是在BiLSTM的模型上加入注意力機制。在微博評論中,并非所有的單詞在情感表達上的作用同等重要,應(yīng)關(guān)注重要的情感詞匯。反之,對于其他部分應(yīng)分配相對較少的注意力。因此,加入注意力機制可以使模型更加關(guān)注評論中的情感信息。
將評論文本表示為wit,使用一個詞嵌入矩陣We將單詞編碼為向量:
xit=Wewit
(5)
使用Attention賦予具有情感傾向的單詞較高的權(quán)重,從而提升它們的重要性:
(6)
首先獲取hit的隱層表示:
uit=tanh(Wwhit+bw)
(7)
通過一個softmax函數(shù)獲得歸一化權(quán)重:
(8)
最后使用每個單詞的hit與對應(yīng)權(quán)重?it的乘積,獲得情感特征向量:
(9)
融合層中將Transformer編碼器和BiLSTM+Attention模型的結(jié)果進行融合,既能夠提取微博正文的特征,又可提取微博評論的情感特征,兼顧兩者的優(yōu)勢。
H=(HZ⊕Hi)
(10)
其中,⊕表示將2個模型的結(jié)果進行拼接。
最終通過全連接神經(jīng)網(wǎng)絡(luò)將正文的語義特征和評論的情感特征融合,進而得到謠言檢測的分類結(jié)果:
(11)
實驗采用Ma等人[15]在2016年公布的社交媒體謠言檢測數(shù)據(jù)集,該數(shù)據(jù)集包含新浪微博數(shù)據(jù)和Twitter數(shù)據(jù)。由于該數(shù)據(jù)集只提供了Twitter事件相關(guān)的Tweet ID,而具體內(nèi)容獲取困難,因此實驗只采用數(shù)據(jù)集中的新浪微博數(shù)據(jù),新浪微博數(shù)據(jù)中包含了微博的評論信息,故不需額外爬取評論數(shù)據(jù)。新浪微博數(shù)據(jù)集中共包含4664個事件,每個事件都有對應(yīng)的標簽,每個事件中包含有若干條微博和其微博評論,具體內(nèi)容均已完整提供。如表1所示。
表1 數(shù)據(jù)集說明
在微博文本中包含許多非文本數(shù)據(jù),比如超鏈接、標簽、圖片應(yīng)用、停用詞和標點符號等,因此對于這些非文本數(shù)據(jù)需要進行降噪處理。降噪處理之后,使用中文分詞工具對微博文本進行分詞,最后使用XLNet的預(yù)訓(xùn)練方法得到詞向量,即為微博事件的嵌入矩陣。
數(shù)據(jù)集的訓(xùn)練集與測試集比例為3∶1,實驗基于TensorFlow框架實現(xiàn),使用Adam優(yōu)化器,學(xué)習(xí)率為0.001。模型具體參數(shù)設(shè)置如表2所示。
表2 實驗參數(shù)設(shè)置
3.4.1 與傳統(tǒng)Word2vec方法的實驗結(jié)果對比
為對比XLNet預(yù)訓(xùn)練語言模型對謠言檢測任務(wù)的效果,實驗采用Word2vec獲取詞向量,并作為Transformer模型和Transformer-BiLSTM+Attention模型的輸入向量,以此作為對比實驗。對比結(jié)果如表3所示。
通過對比傳統(tǒng)Word2vec方法與XLNet預(yù)訓(xùn)練語言模型方法,可以看出加入預(yù)訓(xùn)練語言模型的謠言檢測方法在精確率、召回率和F1上都有大幅度提升,從而表明了預(yù)訓(xùn)練語言模型在謠言檢測任務(wù)上的有效性。XLNet可在謠言檢測任務(wù)上達到較高的精度,原因在于XLNet可實現(xiàn)雙向語義的捕捉,可動態(tài)地學(xué)習(xí)上下文語義信息,同時XLNet利用乘法法則對預(yù)測單詞的聯(lián)合概率執(zhí)行因式分解,消除了BERT中的獨立性假設(shè)的問題,從而達到更優(yōu)的檢測效果。
3.4.2 與基準方法的實驗結(jié)果對比
在當前謠言檢測工作中,DTC模型、SVM-RBF模型、GRU-2模型和CAMI模型都是極其具有代表性的。其中DTC模型[4]和SVM-RBF模型[11]是謠言檢測中的2個典型的機器學(xué)習(xí)模型;GRU-2模型[15]是將深度神經(jīng)網(wǎng)絡(luò)首次運用到謠言檢測中,并取得了顯著的效果;CAMI模型[17]在GRU-2模型的基礎(chǔ)上進行了方法改進,實現(xiàn)了謠言早期檢測。因此,選取以下4種方法與Transformer-BiLSTM+Attention模型作對比。
1)DTC模型[4]:Castillo等人手動提取了微博文本的情感分數(shù)、用戶特征(用戶注冊天數(shù)、平均粉絲數(shù)、發(fā)布的微博數(shù)、平均關(guān)注數(shù)等)、包含URL的微博數(shù)等特征,構(gòu)建J48決策樹分類器。
2)SVM-RBF[11]:Yang等人手動提取了微博的內(nèi)容特征、用戶特征、傳播特征以及主題特征,采用基于RBF核函數(shù)的SVM模型進行分類。
3)GRU-2模型[15]:該模型使用TF-IDF方法對每個時間段的文本進行向量表示,然后采用雙層的GRU網(wǎng)絡(luò)捕捉相關(guān)帖子的上下文信息隨時間的變化特征,從而實現(xiàn)對微博謠言的分類。
4)CAMI模型[17]:該模型對文獻[17]中微博時間的時間段分割進行了修改,將微博事件按照等長的時間段進行劃分,并采用Doc2vec方法對每個時間段的文本進行向量化表示,最后利用卷積神經(jīng)網(wǎng)絡(luò)自動獲取微博事件的關(guān)鍵特征,進而進行謠言事件的識別。
各方法的實驗結(jié)果對比如表4所示,從中可以看出,謠言識別方法的性能排序如下:Transformer-BiLSTM+Attention, Transformer, CAMI, GRU-2, DTC, SVM-RBF。從表4中可以看出,對于基于傳統(tǒng)人工特征提取并使用機器學(xué)習(xí)構(gòu)建分類器的方法,SVM-RBF和DTC模型在新浪微博數(shù)據(jù)集上分別達到了81.8%和83.1%的正確率。而在基于神經(jīng)網(wǎng)絡(luò)的方法中,GRU-2和CAMI模型的正確率在新浪微博數(shù)據(jù)集上分別達到了91.0%和93.3%。與基于深度神經(jīng)元網(wǎng)絡(luò)的方法相比,基于傳統(tǒng)機器學(xué)習(xí)的方法的性能相對較差??赡茉驗槭止ぬ匦曰蛞?guī)則的方法在社交媒體復(fù)雜場景中的泛化能力較差?;谏疃壬窠?jīng)元網(wǎng)絡(luò)DNN的方法,可以學(xué)習(xí)深層潛在特征之間的高級交互,這使得模型更接近真實場景。
表4 實驗結(jié)果對比
而本文中提出的方法在新浪微博數(shù)據(jù)集上的正確率到達93.9%,識別謠言性能略高于CAMI和GRU-2模型,原因在于Transformer模型能夠提取文本中更豐富的隱含語義信息特征,使得模型性能更優(yōu)。Transformer-BiLSTM+Attention模型是在Transformer模型的基礎(chǔ)上加入了微博評論的情感特征,該模型的正確率達到94.8%,比Transformer模型提高了0.9個百分點,說明微博評論的情感特征是一重要指標,對提高謠言檢測性能具有顯著作用。
綜上所述,本文提出的方法與基準方法中最好的CAMI模型相比正確率提高了1.5個百分點,說明該模型在社交媒體的謠言檢測問題上達到了更好的效果,通過實驗結(jié)果可以表明本文提出的謠言檢測方法具有以下特點:
1)對于謠言識別,Transformer模型優(yōu)于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)。與循環(huán)神經(jīng)網(wǎng)絡(luò)相比,Transformer模型克服了不能并行計算的限制;與卷積神經(jīng)網(wǎng)絡(luò)相比,Transformer模型計算2個位置之間的關(guān)聯(lián)所需的操作次數(shù)不隨距離增長,且自注意力可以產(chǎn)生更具可解釋性的模型,可以從模型中檢查注意力分布,多頭注意力可以學(xué)會執(zhí)行不同的任務(wù)。
2)加入微博評論的情感特征之后的模型優(yōu)于只關(guān)注微博正文的模型。與單純使用語義信息相比,情感的融入提高了整個框架的性能,在模型使用情感嵌入后,整體性能提升。
圖2為模型結(jié)果對比圖。
圖2 模型結(jié)果對比圖
本文使用了微博評論文本的情感特征,為此,為了驗證評論情感對實驗結(jié)果的影響,選擇5個細粒度的情感類別來調(diào)查謠言與非謠言中的情感,包括憤怒、悲傷、懷疑、快樂和無(有些評論內(nèi)容可能不包含情感信息)。采用BiLSTM+Attention模型作為情感分類器對實驗數(shù)據(jù)進行情感分類標注,之后統(tǒng)計了謠言與非謠言中5類情感的比例,如3圖所示。
圖3展示了用戶評論中情感類別的分布情況。從圖中數(shù)據(jù)可以明顯發(fā)現(xiàn),在謠言中的憤怒、悲傷和懷疑的情緒比非謠言中的高得多,消極情感更容易出現(xiàn)在謠言中。此外,謠言中快樂的比例比非謠言中則更低,積極情感在謠言中相對出現(xiàn)較少。研究結(jié)果表明,與非謠言相比,在謠言評論都傾向于表達更多的高喚醒情緒,比如憤怒、悲傷和懷疑。
圖3 評論情感類別分布圖
最后,通過Transformer模型與Transformer-BiLSTM+Attention模型的實驗結(jié)果對比,驗證了評論的情感特征在謠言檢測中的有效性,在加入了微博評論的情感特征后,實驗結(jié)果的正確率提高了0.9個百分點,說明微博評論的情感特征對提高謠言檢測性能具有真實有效的作用。
本文提出了一種基于情感分析和Transformer模型的微博謠言檢測方法,該方法利用Transformer模型學(xué)習(xí)微博內(nèi)容中的深層語義信息,無需考慮它們在序列中的距離,完全依賴于注意力機制對輸入輸出的全局依賴關(guān)系進行建模,避免了循環(huán)模型結(jié)構(gòu)梯度下降的問題。而對于微博評論中評論者對微博事件表達的立場、觀點以及個人情感這一重要特征,則通過BiLSTM+Attention模型去學(xué)習(xí),挖掘雙向信息流的用戶情感偏好。將融合后的特征用于微博謠言的識別,實驗結(jié)果表明本文所提出的謠言檢測模型在新浪微博數(shù)據(jù)集上與目前最好的基準方法相比取得了更高的正確率,證明了該模型對社交媒體謠言檢測問題的可行性和有效性。
本文的不足之處在于本文提出的謠言檢測模型依賴于微博評論信息,當謠言早期的評論信息不足時,模型只能依賴原始微博提供的信息,造成檢測力度不足,謠言早期識別困難。在今后的工作中,將考慮實現(xiàn)早期謠言檢測,在現(xiàn)有模型的基礎(chǔ)上,使用謠言早期的數(shù)據(jù),通過調(diào)整優(yōu)化模型,使其對于識別早期謠言也可以表現(xiàn)出優(yōu)越的性能。