李文麗
(上海大學管理學院,上海 200444)
互聯(lián)網(wǎng)技術的快速發(fā)展帶動了網(wǎng)絡媒體的進步,網(wǎng)絡媒體借助自身傳播信息速度快、范圍廣的特性,為用戶帶來了及時全面獲取信息的便利,但同時也引發(fā)了許多失范行為,網(wǎng)絡謠言就是其一。謠言的滋生往往會造成民眾恐慌,破壞社會秩序,甚至威脅國家安全,具有極大的危害性。比如,2011年日本核泄漏事件,有消息稱自然鹽將會受到核污染而致使鹽量減少,鹽商借此哄抬鹽價,高于日常幾倍價格售賣,引起大眾恐慌,破壞社會穩(wěn)定。因此,制止網(wǎng)絡謠言傳播尤為必要。目前,許多國家推出了謠言檢測、跟蹤系統(tǒng),但絕大部分辟謠工作仍需人工完成,盡管人工辟謠可以保證較高的準確率,但存在費時費事的突出問題,且辟謠措施具有滯后性。因而,亟需自動或半自動的方法識別網(wǎng)絡謠言[1],以彌補人工辟謠的關鍵缺陷。
識別網(wǎng)絡謠言的方法主要有2種。第1種是基于分類的識別方法,即將謠言識別看做二分類問題,通過選擇合適的特征并結合一種分類算法,以達到識別謠言的目的[1]。研究人員經(jīng)常使用到的算法有多種,如Qazvinian等[2]使用的貝葉斯分類算法,祖坤琳等[3-5]使用的支持向量機和Sun等[6,7]使用的決策樹等。另外,現(xiàn)階段工作大都在Castillo等[7,8]工作的基礎上進行,研究人員將特征分為3種類型,分別是文本內(nèi)容特征、用戶特征和傳播特征。由于特征的設計和選擇對于謠言識別的影響較大,因而研究者往往會提出新的特征。如賀剛等[9]認為淺層文本特征不利于文本識別,故對微博內(nèi)容進行深入挖掘,提出了符號、鏈接、關鍵詞和時間差4種隱式特征。Zhang等[10]提出流行度取向、內(nèi)外一致性、情感極性和評論觀點4個新型隱式特征,結合Yang 等[8]提出的淺層文本特征,通過支持向量機識別方法使得識別精確率有所提升。Sun等[6]發(fā)現(xiàn)80%的事件謠言都配有圖片,且大部分圖文不符,對此提出了4個新的文本特征和1個多媒體特征。
第2種是基于模型的識別方法,相關研究較少,除傳染病[11]、神經(jīng)網(wǎng)絡[12,13]和信息傳播[14]等幾種經(jīng)典模型外,Liu等[14]開發(fā)了一種基于異構用戶表示的謠言識別信息傳播模型,以實現(xiàn)網(wǎng)絡謠言識別,魏陽等[15]提出了基于灰色關聯(lián)分析的模型識別方法。李明彩等[16]基于最大熵模模型,構建了網(wǎng)絡環(huán)境中謠言信息的識別機制。
相比于第1種方法,基于模型的分類方法需要大量參數(shù)[1],增加了計算過程的復雜性,且謠言識別問題本質上就是一個分類問題,即將信息分類為謠言或者非謠言[16],因而,本文選擇基于分類的識別方法進行研究。另外,在貝葉斯、支持向量機和決策樹等分類方法中,樸素貝葉斯分類算法理論基礎成熟,對于多分類問題具有較低的復雜度,且在分布獨立的假設下,分類效果優(yōu)良。但在以往研究中,較少將其直接用于網(wǎng)絡謠言識別,Qazvinian等[2]雖然用到了貝葉斯算法,但只是利用其處理數(shù)據(jù)特征,Liang等[18]只是利用樸素貝葉斯分類器判別質疑評論,未將其直接應用于謠言分類。
微博作為一種全新的社交平臺,可為用戶提供信息發(fā)布與共享的社會服務。研究微博謠言識別的方法,有助于用戶判斷信息的真假,營造積極的網(wǎng)絡環(huán)境,使微博在信息傳播引導、輿情監(jiān)控過程中起到積極作用。此外,微博平臺中社區(qū)管理中心板塊主要處理被舉報抄襲、冒充和泄露隱私等糾紛事務,可從此模塊獲取謠言信息,為本文研究提供所需數(shù)據(jù)。因而,本文從微博中收集若干數(shù)據(jù),并從中提取若干個特征,通過假設各個特征之間相互獨立,利用樸素貝葉斯分類器,探究其對網(wǎng)絡謠言的識別效果。
第1步是訓練分類器。該過程包含以下步驟:首先是對數(shù)據(jù)進行預處理,包括分詞、去停用詞等操作,通過對復雜的消息進行處理,完成對數(shù)據(jù)的清理、變換,以生成包含內(nèi)容、用戶等各個方面的特征集合,形成訓練數(shù)據(jù)矩陣、類矩陣和測試數(shù)據(jù)矩陣,為接下來的處理做準備。其次是選擇特征。一般來說,特征越發(fā)散則越有利于謠言識別,同時也可考慮特征與謠言的相關性,兩者為正向關系,相關性越強越有利于謠言識別。在完成前兩部分的工作后,接下來就要在Python、R語言或者Matlab等平臺上訓練樸素貝葉斯分類器。本文選擇Matlab數(shù)學軟件工具訓練分類器,由于Matlab的基本數(shù)據(jù)單位是矩陣,因此經(jīng)過預處理和特征選擇2個步驟生成的特征矩陣,可為訓練分類器提供數(shù)據(jù)。
第2步為測試。在這一階段也要完成對測試數(shù)據(jù)的預處理,提取與訓練階段相同的特征,形成測試數(shù)據(jù)的特征矩陣,利用第1步所訓練的分類器進行分類實驗。
在經(jīng)過前2步的訓練與測試后,可得到測試數(shù)據(jù)的分類結果,從而可以對分類結果進行評價。本文提出的謠言識別算法框架圖如圖1所示。
Figure 1 Framework of rumor recognition algorithm
樸素貝葉斯分類器的分類效果受多重因素的影響,例如訓練樣本數(shù)量、特征的選取和特征的數(shù)目等,這些影響因素綜合作用,導致在分類過程中不可避免地會出現(xiàn)預測出錯的情況,比如將謠言預測為非謠言,因此降低出錯率尤為必要,可以通過一些評價指標來評判分類效果[3]。
首先建立混淆矩陣,如表1所示。其中,TP(True Positive)代表實際為謠言并被正確預測為謠言的樣本數(shù)量,F(xiàn)N(False Negative)代表實際為謠言而被預測為非謠言的樣本數(shù)量,F(xiàn)P(False Positive)代表實際為非謠言而被預測為謠言的樣本數(shù)量,TN(True Negative)表示實際為非謠言并被正確預測為非謠言的樣本數(shù)量。
Table 1 Confusion matrix
常用的評價指標及其含義[8,9]如下所示:
(1)準確率(Accuracy):表示被正確預測的數(shù)據(jù)樣本占總研究樣本的比率,是最主要的評價指標。計算公式為(TP+TN)/(TP+FP+TN+FN),其值越接近1,說明分類模型的預測效果越優(yōu)。
(2)精確率(Precision):被正確預測為謠言的樣本數(shù)目與被預測為謠言的樣本數(shù)目的比率,主要衡量模型的查準率。計算公式為TP/(TP+FP),其值越大則查準率越高,其值越小說明分類效果越差。
(3)召回率(Recall):被正確預測為謠言的樣本數(shù)目與樣本中謠言的總數(shù)目的比率,用來衡量模型對謠言的查全率。計算公式為TP/(TP+FN),一般來說,召回率越接近1,越能識別出所有謠言。
(4)F1值:由于精確率與召回率有時會沖突,因此引入F1值。F1值為精確率和召回率的調和平均值,是實現(xiàn)精確率和召回率綜合表現(xiàn)的評價指標。計算公式為F1=2*精確率*召回率/(精確率+召回率)。F1與分類效果成正向關系,其值越大說明謠言的識別效果越好。
本文以新浪微博為基礎,從其中摘錄數(shù)據(jù),為了更有效地測試樸素貝葉斯分類器的有效性,共收集3套數(shù)據(jù)集。第1套數(shù)據(jù)集摘錄于微博用戶“謠言檔案館”所匯總的謠言檔案,該數(shù)據(jù)集的特點是謠言大多集中在2014年之前,涉及到各個類別的謠言,大多數(shù)配有圖片,本文從中共摘錄出60條謠言,此套數(shù)據(jù)集稱為訓練集1。第2套數(shù)據(jù)集來自于新浪微博社區(qū)管理中心,該中心主要處理被舉報抄襲、冒充和泄露隱私等糾紛事務,力求維護微博社區(qū)秩序,構建安全的網(wǎng)絡環(huán)境,本文在管理中心不實信息模塊共過濾摘錄了78條謠言,時間點集中在近年,此套數(shù)據(jù)集稱為訓練集2。第3套數(shù)據(jù)集是非謠言集合,隨機從微博熱門、熱搜榜和同城榜等模塊摘取,共120條,稱為訓練集3。
由于特征的選擇關系到謠言識別的準確度,屬性在謠言與非謠言數(shù)據(jù)中出現(xiàn)的頻率相差越大,越有利于謠言的識別。因而,在進行謠言識別時,選擇合適的特征尤為重要。基于此,本文選用了以下特征:
特征1媒體特征。本文將收集到的數(shù)據(jù)樣本分為3類,分別是配圖片、視頻和無多媒體。其中,在配有圖片的數(shù)據(jù)集中,根據(jù)水印個數(shù)進一步細分。
特征2其他字符特征。為了增加信息的可靠性,很多謠言會配有圖片,而這些圖片中往往會有水印或者其他文字字符。本文依據(jù)是否配有圖片、圖片特征對數(shù)據(jù)樣本進行編碼分類。
特征3符號特征。本文對這類特征的處理方式為計算?、!…等符號個數(shù)總和。
特征4~特征6情感詞數(shù)目特征。本文以大連理工大學信息檢索研究室編寫的中文情感詞匯本體庫為基礎,進行適當擴展,例如根據(jù)語境可認為“遭”“遭遇”等于“遭受”,以判斷每個情感詞的情感強度和情感極性,并統(tǒng)計數(shù)據(jù)樣本中正、負、中性情感詞的數(shù)目,依據(jù)分類不破壞原則對其進行編碼。
特征7摹因符號特征。本特征針對訓練集1,依據(jù)數(shù)據(jù)樣本是否含有#、@、URL等符號進行分類。
特征8評論特征。通過觀察評論,可發(fā)現(xiàn)在謠言的評論中存在大量的“謠言”“辟謠”“假的”等詞匯,本文通過過濾前10條評論,將含有這些詞語的樣本編碼為2,否則編碼為1。
由于人工收集的實驗數(shù)據(jù),樣本容量與多樣性均有限,在計算過程中無法避免零概率問題,將造成實驗結果具有一定的不合理性,故本文以是否進行平滑處理操作為基準,進行2組實驗。第1組實驗未進行平滑處理,以訓練樣本為變量,旨在探究樸素貝葉斯分類器對網(wǎng)絡謠言識別的可行性,及不同訓練條件下的樸素貝葉斯分類器對謠言與非謠言的識別情況和所含規(guī)律。第2組實驗中引入拉普拉斯平滑,消除零概率事件的影響,旨在與第1組實驗結果進行對比,判斷是否依然滿足第1組實驗的結論,且比較拉普拉斯平滑修正前后的樸素貝葉斯分類器的結果,探索規(guī)律。
3.3.1 訓練樣本數(shù)量不同對識別結果的影響
為探究不同數(shù)量訓練樣本條件下分類器對謠言與非謠言的識別情況,本文首先進行實驗1:從數(shù)據(jù)集1中選取數(shù)量相當?shù)闹{言與非謠言來訓練分類器,訓練樣本數(shù)目分別是60,70,80,90,100,受到該數(shù)據(jù)集條件的限制,本文共計從上述特征中選取了特征1~特征7共7個特征,同時用同一檢測樣本集(10條謠言和10條非謠言)來檢測以上5組訓練數(shù)據(jù),實驗結果如圖2所示。
Figure 2 Comparison of experimental results of different training samples in experiment 1-dataset 1
再次,考慮到數(shù)據(jù)集1的局限性,利用數(shù)據(jù)集2進行實驗2:在該實驗中,選取特征1~特征6和特征8共7個特征,實驗過程與實驗1相類似,分別選取了60,70,80,90,100個樣本訓練分類器,同時使用另一套測試集(10條謠言和10條非謠言)來檢測以上5組數(shù)據(jù),實驗結果如圖3所示。
Figure 3 Comparison of experimental results of different training samples in experiment 2-dataset 2
為了探討使用不同訓練集生成的分類器對同一測試集的測試效果,本文進行了實驗3: 從數(shù)據(jù)集2中選取2組互不交叉的訓練集,每組訓練集中樣本數(shù)目為70(35條謠言+35條非謠言),隨后利用2個訓練集分別訓練分類器,使用所得到的分類器檢測包含有14條數(shù)據(jù)的測試集(8謠言和6非謠言)。實驗結果如表2所示。
Table 2 Comparison of recognition effect
結論1將樸素貝葉斯分類器用于網(wǎng)絡謠言識別,能獲得良好的識別效果。觀察實驗1和實驗2的結果,識別準確率均達到了0.6以上,且F1值也較高,說明識別效果良好。
結論2訓練樣本數(shù)目與識別效果并非正比關系。觀察圖2和圖3可發(fā)現(xiàn),準確率、精確率、召回率和F1等4個評價指標都會隨著樣本數(shù)目的變化上下波動,且圖2呈現(xiàn)凸字形曲線,當訓練樣本數(shù)目為80或90時,各評價指標均達到最大值0.8。另外觀察圖3曲線,當訓練樣本數(shù)目為70和80時,準確率相同,曲線水平說明結論2成立。
結論3利用過多或過少的樣本訓練的分類器識別準確率可能會下降。當訓練樣本數(shù)目為60時,實驗1和實驗2的準確率分別為0.7和0.67,均低于各自對應的最高值。此外,在實驗1中,當訓練樣本為100時,準確率也低于最大值0.8,由此可以說明結論3成立。
結論4根據(jù)實驗3可知,使用不同訓練集生成的分類器對同一組測試樣本的識別結果有可能不同。
3.3.2 拉普拉斯修正對識別結果的影響
拉普拉斯修正的本質是為每個計數(shù)均加上一個較小的數(shù),該值通常為1,既保證了每個屬性概率非零又保證了概率和為1。本文用N表示訓練集中總共的分類數(shù);屬性ai可能的取值數(shù)用Ni表示;Db表示樣本中事件b發(fā)生的次數(shù),在本文中事件b有2種可能性,即謠言和非謠言;Db,ai表示屬于事件b,且屬性為ai的樣本個數(shù);D表示樣本總數(shù),則修正規(guī)則如式(1)~式(4)所示:
先驗概率P(b)計算公式為:
(1)
經(jīng)拉普拉斯修正后為:
(2)
條件概率P(x|b)計算公式為:
(3)
經(jīng)拉普拉斯修正后為:
(4)
實驗4:在保證實驗1和實驗2訓練集、測試集和特征不變的前提下,在謠言識別的過程中進行拉普拉斯修正,得出修正后的判別結果,并對比實驗1和實驗2的準確率,實驗結果如圖4和圖5所示。
Figure 4 Experiment 4-experiment 1 Laplace modification
Figure 5 Experiment 4-experiment 2 Laplace modification
實驗5:以實驗3數(shù)據(jù)為基礎,采用與實驗4的方法進行拉普拉斯修正,計算修正后的準確率,并對比實驗3修正前后的結果,如表3和表4所示。
Table 3 Experiment 5-comparison 1 before and after modification
Table 4 Experiment 5-comparison 2 before and after modification
結論5經(jīng)拉普拉斯修正以后,結論1~結論4依然成立。觀察以上修正前后的圖表可以發(fā)現(xiàn),雖然謠言識別結果有所變化,但是依然符合上述結論。
結論6訓練條件一定的情況下,對樸素貝葉斯分類器進行拉普拉斯修正會影響對謠言與非謠言的識別結果,且修正后的分類器識別準確率不一定會增加。首先,觀察表4和表5可發(fā)現(xiàn),修正前后的分類器2的識別結果是相同的。其次,分類器1的識別結果在修正前后均發(fā)生了變化,說明訓練集不同會影響識別結果;但分類器2的2次識別效果均相同,說明識別結果在修正前后也存在不變的可能性。此外,觀察對比圖6和圖7可看出,修正后的分類器識別準確率并沒有完全高于修正前的,說明拉普拉斯修正不會提高識別準確率。
Figure 6 Experiment 5-experiment 1 accuracy comparison before and after modification
本文將網(wǎng)絡謠言識別與樸素貝葉斯理論結合,通過對數(shù)據(jù)進行預處理、分詞、編碼和統(tǒng)計分析等操作,提取8個特征,分別是媒體特征、其他字符特征、符號特征、正、負、中性情感詞數(shù)目特征、摹因符號特征和評論特征,利用Matlab構建樸素貝葉斯分類器實現(xiàn)對謠言與非謠言的分類。實驗結果發(fā)現(xiàn):樸素貝葉斯分類器具有良好的分類效果;通過控制訓練條件發(fā)現(xiàn),訓練集的選取與控制對識別結果的影響較大,在訓練樣本數(shù)目變動時識別準確率會發(fā)生波動,其中,受先驗概率的影響是一個重要原因。
本文還存在以下不足之處:(1)由于數(shù)據(jù)來源有限且通過人工收集,數(shù)據(jù)量較少,所獲取的實驗數(shù)據(jù)集具有一定的局限性,在未來的研究中將擴大謠言的收集范圍,及時收錄更多謠言。(2)樸素貝葉斯假設各個特征之間相互獨立,而現(xiàn)實中各個因素之間往往相互聯(lián)系,理論要求與現(xiàn)實情況存在一定的誤差,在未來研究中將考慮特征之間的聯(lián)系,利用貝葉斯網(wǎng)絡分類謠言。