李亦軒,劉克劍,楊瀟帥,李偉豪,馮媛媛
(西華大學(xué)計算機與軟件工程學(xué)院,四川 成都 610039)
隨著時代飛速發(fā)展,虛擬網(wǎng)絡(luò)的社交平臺發(fā)展迅速,微博等社交平臺已經(jīng)成為分享生活、分享新聞、分享知識的重要社交方式。但是,其便捷的傳播方式、熱點鏈式傳播烈度,也為虛假信息擴散帶來“方便”。雖然這些虛假信息在短時間內(nèi)被官方澄清,造謠者受到公安機關(guān)嚴肅處理,但是其還是產(chǎn)生了高的討論熱度,上榜熱搜。部分網(wǎng)民在沒有證實信息真實性情況下,選擇盲目相信網(wǎng)上一些有熱度但又不一定真實的消息,從而出現(xiàn)真相跑不過謠言的情況,這給社會造成了負面影響。人們一般都是依靠自己的常識或通過一些權(quán)威網(wǎng)站的辟謠社區(qū)(例如微博的官方辟謠賬號“@微博辟謠”等)判斷消息的真實性,但是這類媒體或網(wǎng)站可能具有滯時性和專業(yè)方向細分特性,導(dǎo)致對虛假信息不能及時澄清。
正確識別網(wǎng)絡(luò)虛假信息是制止其散播的重要前提。GUO 等[1]認為虛假信息的情感比真實的新聞更加強烈,一些表示極端情緒的情感單詞出現(xiàn)的頻率會更高。例如“anger”“sadness”之類的詞,帶有強烈情感色彩會更容易出現(xiàn)。近年來,隨著深度學(xué)習(xí)的發(fā)展,計算機視覺、文本翻譯以及句子分類、句子情感分析等方面的研究都取得了不錯的成果。Ma 等[2]使用深度學(xué)習(xí)模型對虛假信息進行提取特征分析,使用了RNN[3](recurrent neural network)、LSTM[4](long short-term memory)等循環(huán)神經(jīng)網(wǎng)絡(luò)模型對虛假信息進行特征提取。但是這些模型還存在很多缺陷,例如無法獲取比較完整的詞語含義、無法獲取前置信息等,這會對虛假信息識別造成不小的影響。
Bert(bidirectional encoder representations from transformers)模型[5]作為較新推出的預(yù)訓(xùn)練語言模型,在多個數(shù)據(jù)集上都取得了不錯的效果,尤其是對于文本推理、閱讀理解等任務(wù)表現(xiàn)得非常優(yōu)秀。然而,Bert 模型預(yù)訓(xùn)練時,并沒有添加任何情感信息,導(dǎo)致其在情感分析任務(wù)上不如其他自然語言處理任務(wù)表現(xiàn)優(yōu)秀。在數(shù)據(jù)樣本量較少時,Bert 對于文本的情感特征提取能力不足,因此,在情感分析任務(wù)中,Bert 模型還存在可優(yōu)化的空間。本文從情感分析的角度出發(fā),對Bert 模型進行改進,給Bert 模型設(shè)計一個新的預(yù)訓(xùn)練任務(wù),讓其在無監(jiān)督的數(shù)據(jù)集上也能獲取一定的情感極性。本文首先根據(jù)Hownet 情感詞典給目標數(shù)據(jù)集情感詞上添加情感權(quán)重,讓Bert 模型在目標數(shù)據(jù)集上進一步預(yù)訓(xùn)練;接著對掩蓋詞文本進行情感極性標注,讓模型根據(jù)情感標注預(yù)測掩蓋詞上下文情感信息,并獲取情感向量。本文在改進的Bert 模型基礎(chǔ)上提出了一種新的虛假信息識別模型,即通過Bert 模型得到情感向量后,再結(jié)合BI-LSTM 模型,做全連接操作,最終輸出虛假信息。
Bert 模型[5]是Google 團隊于2018 年發(fā)布的。它利用了Transformer 強大的特征抽取能力,并使用了掩蓋語言模型,因此,一經(jīng)推出就在多個數(shù)據(jù)集上取得了很好的成績。Bert 模型結(jié)構(gòu)如圖1所示。E1,E2,···,En為文本輸入,Trm 是Transformer編碼器,也是模型的重要組成部分,T1,T2,···,Tn表示Bert 處理后得到的特征向量。與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)RNN 相比,雙向Transformer 有更好的特征提取能力,能獲取更多的上下文信息。本文將在Bert 模型基礎(chǔ)之上改進,并用其獲取文本情感特征。
圖1 Bert 模型結(jié)構(gòu)示意圖
Transformer[6]編碼器是一個基于Self-Attenton機制的Seq2seq[7]模型。Seq2seq 模型是面向輸出長度不確定的模型,可以有效避免RNN 無法并行、運行慢、長序列中容易丟失特征信息等問題,從而提升其運行效率和正確率。
Self-Attention 的核心優(yōu)勢就是能夠充分考慮文本間不同詞語之間的相互關(guān)系。計算每個單詞與其他單詞的相互關(guān)系并得到對應(yīng)權(quán)重矩陣,這個權(quán)重矩陣蘊含的信息比較全面,包含了與上下文中其他單詞的相互關(guān)系。關(guān)于Self-Attention,其輸入向量矩陣為Q、K、V,dk為輸入向量維度,Q×KT表示計算輸入向量之間的關(guān)系。經(jīng)過與dk運算降維之后再通過softmax 歸一化函數(shù)得到權(quán)重向量,最后輸出句子中所有詞向量加權(quán)求和得到的新向量。計算公式[4]如公式(1)所示。
其中Softmax(?)是一個歸一化指數(shù)函數(shù),會對矩陣中行向量做如下運算[5]。
式中Z1,Z2,···,ZN是一個N維行向量。經(jīng) 過Softmax(?)函數(shù)作用后,行向量元素會被壓縮在0~1 之間,并且元素和為1。Softmax 值將決定當前單詞在文本中單詞位置的表示程度。Self-Attention機制會關(guān)注其他單詞,因此最終得到的是一個矩陣。該矩陣會融合其他詞的位置信息,相比傳統(tǒng)的Word2vec[8],其結(jié)果更準確和全面。例如“樹上的蘋果又紅又圓”和“蘋果公司將于年底推出新產(chǎn)品”,在這2 句話中的“蘋果”一詞代表的意思并不相同。經(jīng)過上面步驟后可以分別得到2 句話中每個詞的Attention 向量,可以在模型訓(xùn)練中提供更準確的詞語信息。
Bert 使用掩蓋語言模型作為主要任務(wù)訓(xùn)練模型。掩蓋語言模型首先會對輸入文本樣例進行隨機掩蓋,一般會掩蓋15%左右的單詞,然后引入噪聲(mask)代替掩蓋單詞,接著根據(jù)上下文降噪獲取到的特征,對被掩蓋的詞進行特征分析和重新編碼。其目的是為了讓模型能夠基于上下文來預(yù)測被掩蓋的單詞。
對于特定的單詞搭配和固定的語法規(guī)律,模型可以很好的預(yù)測。但是,如果句子正好掩蓋了關(guān)鍵單詞,模型預(yù)測正確率將降低。例如“這家餐廳的服務(wù)太糟糕了,服務(wù)員上菜慢并且對于客戶毫無耐心”。模型對于這句話的不同詞語有不同的掩蓋損失。其中對于“糟糕”“慢”“毫無耐心”這3 個單詞來說,掩蓋損失值應(yīng)該是最大的,就算模型的預(yù)測結(jié)果為消極,仍會產(chǎn)生較高損失。因此,應(yīng)給予模型外部情感信息,提高模型對于掩蓋詞上下文情感極性預(yù)測能力,降低掩蓋關(guān)鍵情感詞對模型預(yù)測的損失影響,讓模型在預(yù)測文本情感極性任務(wù)上取得更好效果。
LSTM[9]可以較好解決RNN 梯度消失問題或者梯度爆炸問題。較RNN,LSTM 可以更加準確地獲取詞語含義,在情感特征提取等任務(wù)上能取得較好的效果,但是LSTM 序列化處理問題,難以捕捉上下文信息,無法獲取全面的信息特征。為解決該問題,BI-LSTM 誕生了。它是由一個前向LSTM和一個后向LSTM 組成,可以更準確地獲取前向信息和后向信息。本文將經(jīng)過改進的Bert 模型提取到的情感特征送入BI-LSTM 模型中,做全連接操作,最終輸出虛假信息檢測結(jié)果。
對于BI-LSTM,輸入的文本記為Y1={y0,y1,···,yn?1,yn},對于前向,其輸入文本順序為y0,y1,···,yn?1,yn,得到向量組,對于后向,其輸入文本順序正好相反,記為Y2={yn,yn?1,···,y1,y0},得到向量組然后將Y1,Y2這 2 組隱向量進行兩兩拼接得到新的隱向量組 {h0,h1,···,hn?1,hn}。此向量組包含了前向和后向的特征信息。在虛假信息檢測任務(wù)中,使用BI-LSTM 能夠同時獲取雙向文本信息,提取更全面的文本特征信息,對虛假信息檢測能夠起到很好的效果。
為了處理輸入的文本信息,需要提前對文本進行預(yù)處理:將文本中的特殊符號進行處理;去除多余空白;將繁體轉(zhuǎn)換成簡體;去除文本中常用的停頓詞,例如“的”“呢”等。去除這些常用的停頓詞可以降低文本輸入工作量,提升文本分類處理效率。
情感分析(sentiment analysis)是對文本信息去除客觀信息后的主觀態(tài)度和情感傾向等語義進行分析,并將文本分為積極、消極、多種細粒度類型等。很多學(xué)者已經(jīng)運用特征工程手段,提取情感極性[10?12]。研究結(jié)果[2]表明,虛假新聞往往會比真實新聞帶有更多的極端情感詞,例如“怒罵”“震驚”“去死”等,這會讓虛假信息更能吸引人們的眼球。有學(xué)者利用情感詞典[13?15]來判斷文本中情感傾向,也取得了不錯的效果。
對于Bert 模型而言,其文本特征提取主要是依靠掩蓋語言模型。掩蓋語言模型可以很好地預(yù)測介詞或者連詞,但當掩蓋詞為情感詞或其他掩蓋情感特征損失較大的詞時,對模型的預(yù)測影響較大。同時當情感詞較少,或者句子中不包含情感詞的隱式情感,模型難以注意到這些情感表達,對句子的情感特征提取會不充分,導(dǎo)致其預(yù)測結(jié)果不佳。為此,本文對Bert 模型做了適當改進。
1)根據(jù)Hownet 情感詞典,對情感詞加權(quán),提高模型對文本情感特征提取能力。
2)給出被掩蓋詞情感極性信息,以此向模型加入外部情感信息,讓模型能夠推測其掩蓋詞上下文情感信息。
3.2.1 加權(quán)情感詞
在大部分文本數(shù)據(jù)中,明顯帶有情感極性的情感詞可能只會占文本的小部分,這些情感詞在文本中出現(xiàn)較少。同時對于上下文中不包含情感詞的隱式情感,模型容易忽略,導(dǎo)致在預(yù)訓(xùn)練階段對情感特征提取不夠充分。為此,本文根據(jù)Hownet情感詞典,對目標數(shù)據(jù)集情感詞進行加權(quán),以提高模型對文本情感的預(yù)測效果。為了防止在情感預(yù)測時產(chǎn)生梯度爆炸,在計算損失函數(shù)時,選擇較大的權(quán)重值。
問題定義:一個不定長的序列L中,首個單詞Wcls和某個掩蓋單詞Wmask,在經(jīng)過Transformer提取特征后得到向量Qcls和Qmask,Y為根據(jù)情感詞典得到的文本整體情感詞集合,則損失函數(shù)Loss 為
3.2.2 文本情感極性預(yù)測
Bert 作為一個預(yù)訓(xùn)練模型,并不適合直接向模型中通過向量拼接或者向量相乘的方式加入情感特征,所以在預(yù)訓(xùn)練時,要對Bert 進行一定改進,將掩蓋單詞情感極性以有監(jiān)督的方式提供給模型,并通過反向傳播修改參數(shù)信息、學(xué)習(xí)情感特征信息。例如“這臺筆記本電腦功能強大且輕巧方便”,對于這段文本,若掩蓋的是“輕巧方便”,則可以通過前面的“功能強大”和連詞“且”推測被掩蓋的詞應(yīng)該為正向情感,從而可以得到文本正向隱式情感表達。同樣的,本文為Bert 模型提供被掩蓋單詞的情感極性,這樣作為在一種在多項自然語言處理任務(wù)上都取得不錯成績的預(yù)訓(xùn)練語言模型,它也能根據(jù)被掩蓋單詞情感極性和剩余文本單詞的特征信息,推斷出被掩蓋單詞上下文的情感極性,挖掘文本情感特征。
本文對被覆蓋的詞進行批量情感極性標注,給模型一個額外的監(jiān)督信息,則模型能夠更加準確地獲取到文本情感色彩,從而發(fā)現(xiàn)文本中情感的隱性表達。當文本數(shù)據(jù)輸入模型后,經(jīng)過Transformer提取得到特征向量,該向量已經(jīng)包含了上下文的情感信息。該向量使用softmax 損失函數(shù)對其情感特征進行預(yù)測。
根據(jù)式(4),模型將會做出對掩蓋詞的情感預(yù)測,給出其屬于情感詞類別sen 的概率分布。其中WE為Bert 的詞嵌入矩陣。
LableBert 模型由Bert 和BI-LSTM 2 部分組成。通過改進Bert 基礎(chǔ)模型的預(yù)訓(xùn)練任務(wù),得到情感向量,并結(jié)合BI-LSTM 可以學(xué)習(xí)到融合“前后”2 個不同方向文本的特征信息,對文本數(shù)據(jù)進行虛假信息檢測。
整體模型如圖2 所示。首先對文本數(shù)據(jù)進行預(yù)處理:將文本的數(shù)據(jù)進行“凈化”,將文本的繁體字進行轉(zhuǎn)換;刪除一些不影響文本意思的連詞和特殊符號;對超過限制長度的超長文本進行特殊處理,將其限制在規(guī)定長度內(nèi)。然后將處理好的文本經(jīng)過改進預(yù)訓(xùn)練任務(wù)的Bert 模型,對文本進行隱式情感特征挖取和情感特征提取分析,得到情感特征向量。最后將情感特征向量送入BI-LSTM 層,隨后經(jīng)過全連接層整合提取特征,進行虛假信息預(yù)測。
圖2 LabelBert 模型結(jié)構(gòu)示意圖
經(jīng)過優(yōu)化后的Bert 模型訓(xùn)練的輸出Ci,點乘一個權(quán)重WC,再加上一個偏置ba,經(jīng)過sigmod 函數(shù)得到BI-LSTM 的輸入ai,其計算公式為
模型將輸入向量輸送到隱藏層中。與標準的LSTM 不同,BI-LSTM 能夠在2 個方向的隱藏層中對特征進行計算分析,最后將2 個方向得出的結(jié)果進行合并輸出。前向LSTM 的隱藏層向量為,后向LSTM 的隱藏層向量為。它們合并結(jié)果為
然后使用tanh 函數(shù)對隱藏層進行計算
式中:Wah代表輸入ai的權(quán)重矩陣;U為對應(yīng)i?1 時刻hi的權(quán)重矩陣;bH為偏置向量。將所有時刻的Hi拼接起來得到向量H,即句子級別的句子特征向量表示。將特征向量H輸入到全連接層,使用softmax 函數(shù)進行分類,完成最后的虛假信息識別判斷。
式中Ws為隨機初始化矩陣。
本文采用的數(shù)據(jù)集是Ma 等[16]在2016 年公布的,適用于社交媒體虛假信息檢測的數(shù)據(jù)集。目前該數(shù)據(jù)集在很多文獻都被使用,已經(jīng)成為社交媒體虛假信息檢測的經(jīng)典數(shù)據(jù)集。
該數(shù)據(jù)集中的新浪微博數(shù)據(jù)集包含4 664 個事件及事件對應(yīng)的標簽,每個事件包含若干條微博,每條微博的具體內(nèi)容、用戶信息、用戶等級等數(shù)據(jù)均已在原始數(shù)據(jù)集中完整提供。
為了驗證LabelBert 模型有效性,本文將其與經(jīng)典模型進行虛假新聞檢測對比,采用4 個評判值進行模型可行性判斷。
1)準確率(Accuracy):模型預(yù)測正確的樣本占總樣本的比例。
2)召回率(Recall):實際為虛假信息(或非虛假信息)的并且被正確預(yù)測的樣本所占總樣本的比例。
3)精確率(Precision):所有被預(yù)測為虛假信息(或非虛假信息)的事件數(shù)量與被分類為虛假信息(或非虛假信息)的事件總數(shù)的比值。
4)F1值(F1-Score):準確率和召回率加權(quán)調(diào)和平均。F1值越高則模型有效性越高。計算公式為
本文使用Google 團隊公布的基礎(chǔ)Bert 模型。該模型有12 層,768 個隱藏層節(jié)點和12 個自注意力頭部。在訓(xùn)練時,批量大小設(shè)置為32,學(xué)習(xí)率設(shè)置為 2×10?5。Fine-turnning 階段batch_szie 設(shè)置為16,對數(shù)據(jù)進行2 次迭代,dropout 概率都設(shè)置為0.1。對于超過文本限制長度的數(shù)據(jù),將其長度強行設(shè)置為280。
為了測試出最優(yōu)參數(shù)值,本文進行多次不同參數(shù)的實驗,篩選出最佳的超參數(shù)k值。本文單獨抽取15%的測試數(shù)據(jù)(不與訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)交叉)進行測試。對于k值的選取,由于非情感詞權(quán)重k值已經(jīng)固定為1,所以對于情感詞的權(quán)重,一般來說應(yīng)取大于1 的數(shù)。為此,本文選取了一系列實數(shù)來進行實驗測試。實驗結(jié)果如圖3 所示。
圖3 k 值實驗測試圖
從圖可以看出,當k在2.0 左右時,模型效果達到最高峰值。當k值過大,效果反而下降,這可能是因為產(chǎn)生了過擬合,導(dǎo)致模型效果不理想。本文情感詞權(quán)重k都選2.0 作為超參數(shù)。
將本文方法與幾個經(jīng)典模型在相同數(shù)據(jù)集上進行實驗。本文選取了以下幾個經(jīng)典方法。
1)Bert:直接將數(shù)據(jù)放入已經(jīng)預(yù)訓(xùn)練好的Bert 基礎(chǔ)模型中。
2)Word2vec-BILSTM:使用word2vec 模型將文本向量化,并結(jié)合BI-LSTM 模型實現(xiàn)分類。
3)ELMo-BILSTM[17]:使用ELMo 模型將文本向量化,并結(jié)合BI-LSTM 模型實現(xiàn)分類。
4)Bert-RNN:利用Bert 預(yù)訓(xùn)練得到文本特征之后,再結(jié)合RNN 模型完成特征訓(xùn)練及分類。
5)Bert-SVM:利用Bert 預(yù)訓(xùn)練得到文本特征后輸入到SVM 中進行分類。
6)Bert-BILSTM:利用Bert 預(yù)訓(xùn)練得到文本特征,并結(jié)合BI-LSTM 進行分類。
7)LabelBert 模型:加入情感分析,改進Bert 模型,并結(jié)合BI-LSTM 進行分類。
圖4 示出各模型的4 個評判值。模型4)、5)、6)都是在Bert 基礎(chǔ)上的模型。模型4)采用的SVM 是傳統(tǒng)的分類方法。模型5)采用的RNN 是比較基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)模型。模型6)采用的是BILSTM 模型。從圖4 可以看出:模型2)的實驗效果一般,說明基于Word2vec 的文本表示方法還存在一定缺陷,Word2vec 雖然可以很好的表現(xiàn)數(shù)據(jù)文本中各詞語之間的關(guān)系,但是無法完整地提取不同語境下,相同詞語的不同語義特征,也無法獲取長距離語義關(guān)聯(lián)信息;從表現(xiàn)上看,模型3)比Word2vec 已經(jīng)有了很大進步,能獲取多語義特征,對虛假信息檢測這種分類問題有較大幫助。
圖4 各模型實驗對比結(jié)果
模型1)并沒有加入情感因素和結(jié)合其他模型,其檢測結(jié)果比模型2)和模型3)表現(xiàn)更好,證明Bert 模型在處理虛假信息檢測等分類任務(wù)上效果較好。模型6)在各項指標上較模型4)和模型5)都有不同程度的提升,說明BI-LSTM 模型在獲取文本特征上具有一定的優(yōu)勢。模型4)、5)、6)的正確率和F1值較模型1)都有不同程度上升,其中模型6)表現(xiàn)最好,正確率和F1值分別達到了90.90 和90.64。當k值選為2.0 時,改進了Bert預(yù)訓(xùn)練任務(wù)的模型7)的正確率和F1值分別達到了91.36 和91.03,較沒有進行Bert 預(yù)訓(xùn)練任務(wù)改進的模型6)有略微提高,說明對Bert 預(yù)訓(xùn)練任務(wù)添加情感信息,對模型虛假信息檢測具有一定幫助。
本文對Bert 模型進行了一定的改進,在文本數(shù)據(jù)較少的情況下,情感特征提取能力有一定的提升,再結(jié)合BI-LSTM,進一步提高了虛假信息檢測的能力。
對于文本虛假信息檢測,還可以從情感分析以外的其他角度去分析。例如:從時序、微博URL、用戶注冊天數(shù)等角度對虛假信息進行分析;從無監(jiān)督數(shù)據(jù)提取情感信息對虛假信息進行輔助判斷,從而提高虛假信息檢測的效果等。
在未來的工作中,對于虛假信息檢測應(yīng)該從多方面展開,更加全面準確地識別虛假信息。同時應(yīng)該更加關(guān)注謠言傳播的方式和計算方法,找到虛假信息傳播的各種特征表示方式,并且計算它們對于虛假信息傳播的影響權(quán)重,進一步提高對于虛假信息檢測的效果。