徐銘達 張子柯 許小可
1(大連民族大學信息與通信工程學院 遼寧大連 116600)
2(浙江大學傳媒與國際文化學院 杭州 310058)
3(杭州師范大學阿里巴巴復雜科學研究中心 杭州 311121)
社交網絡(social networks)是一種典型的復雜網絡[1],它包含了一定范圍內人與人之間的聯系,其中個人用戶可以抽象為網絡中的節(jié)點,聯系抽象為節(jié)點間的鏈接[2].在線社交網絡中,海量信息通過用戶的交互和轉發(fā)行為進行傳播,社交媒體作為信息傳播的載體,既可以使人們快捷地分享信息流獲取時事新聞,方便人與人之間的思想交流與信息交互,同時也可能成為虛假信息泛濫蔓延的重要渠道.
虛假信息中通常充斥著具有誤導性質的謠言[3-4],大多數人在網絡中面對大量信息往往不能準確判斷信息的真?zhèn)?,導致了虛假信息的廣泛傳播.新浪微博是我國用戶閱讀新聞信息、分享個人日常的重要平臺,用戶作為信息傳播的生產者與傳播者,不僅可以通過接受信息帶來的影響,也可以通過發(fā)送推文的方式獲得影響.用戶通過在社交媒體散布虛假信息,可能會影響輿論、政治[5-6]、經濟[7]等諸多領域.
虛假信息通常也伴有主觀形式的偏見[8]與情感的煽動性,因此在熱點事件爆發(fā)的同時,往往也是虛假信息醞釀與擴散的重要時機,成為信息傳播中幾乎不可避免的副產品.在信息技術快速發(fā)展的今天,如何避免大量攝入虛假信息,準確識別信息源的真實性,揭示微博信息的傳播重要性度量及虛假信息檢測機制已然成為復雜網絡領域的熱點研究方向.對虛假信息網絡傳播特性深入挖掘,有助于分析在線社交網絡中虛假信息的傳播機制,因此研究虛假信息傳播機制具有非常重要的科學意義與實際應用價值.
本文對社交網絡中信息傳播結構進行定量分析與刻畫,將模體度的概念應用于微博社交平臺的虛假信息傳播研究,具有重要的現實意義,主要貢獻有3個方面:
1) 提出了廣度模體度和深度模體度的模體度傳播特征概念來量化微博的傳播特性.模體理論可從微觀尺度提取網絡中重要的局部結構特征,通過廣度模體度與深度模體度構建的二維模體度量化指標,精細刻畫微博的廣度與深度傳播特性,進而分析微博中虛假信息的傳播規(guī)律;
2) 通過將模體度和其他網絡傳播重要性指標的相關性分析,表明基于模體度的網絡傳播重要性計算是對傳統(tǒng)網絡結構指標中傳播規(guī)模與傳播深度指標的進一步拓展,相較于結構性病毒特征更全面地測度了網絡結構的復雜性和傳播模型的多維度重要性;
3) 模體度重要性指標可揭示微博網絡中虛假信息傳播模式,信息傳播是由廣度傳播與深度傳播共同作用,深度模體度主要影響虛假信息傳播的網絡結構復雜性,廣度模體度在真實信息傳播中起主導作用.相對于傳統(tǒng)網絡結構特征的虛假信息檢測方法,基于模體度結構特征的虛假信息檢測算法具有更高的準確性.
廣度和深度模體度可應用于的虛假信息傳播機制分析與檢測、遏制虛假信息的早期傳播以及虛假信息傳播規(guī)模預測等實際場景中.
虛假信息傳播通常作為熱點事件傳播的附加產物,在不確定、焦慮性和輕信性的共同作用下出現[9].虛假信息表現出比在線真實信息更具有病毒特征[4],研究證明虛假信息傳播網絡具有獨特的結構特征,例如,虛假信息具有長穿透直徑傳播模式,且該模式不受限于多種社交平臺[10-11].虛假信息所帶來的“負偏見”在無形中可能導致虛假信息的后期傳播,從而表現出與真實信息傳播本質上的不同.傳統(tǒng)的研究中,新聞信息的傳播與社交平臺賬號的朋友數量和粉絲數量相關.然而,無論發(fā)布信息作者是人類還是機器人用戶,由于用戶特征對真實信息的傳播具有較大影響,因此僅從用戶特征的角度無法充分解釋虛假信息更易傳播的事實[12].
現有的虛假信息檢測研究多基于機器學習或深度學習的相關算法,如基于用戶對于微博新聞觀點的謠言檢測算法以及基于微博新聞文本的情感分類算法.Liu等人提出了一種通過對信息傳播路徑進行分類在社交媒體上早期檢測虛假信息的模型[13];Jin等人基于傳播行為建模,對虛假信息的傳播游走軌跡跟蹤,以及通過圖模型和演化模型中針對特定虛假信息的進一步調查,最終發(fā)現識別虛假信息的關鍵傳播者,對于減輕社交媒體的傳播范圍至關重要[14];Chuai等人根據在線傳播信息時的情緒因素,采取在社交媒體上標記情感的措施,從源頭上減緩或防止虛假信息傳播[15];Ma等人提出基于RNN的謠言檢測模型,性能優(yōu)于手動尋找特征的謠言監(jiān)測模型,速度與準確性均領先于現有的在線謠言揭穿服務[16];也有學者Liu等人通過提取信息推文中圖片內嵌文本內容的方法,提出了基于深度神經網絡的多模態(tài)網絡謠言檢測的方法[17].
基于黑盒的機器學習算法,雖然通常具有較高的識別準確率,但往往僅使用虛假信息的網絡結構特征來提高識別虛假信息的可能性,而忽略了與真實信息網絡結構的對比.從復雜網絡的角度看待虛假信息檢測是基于網絡結構特征,通過信息轉發(fā)情況可以構建完整的級聯網絡結構,計算得到復雜網絡中的多種拓撲統(tǒng)計量,如傳播的深度和廣度、傳播的速率和擴散率、傳播的規(guī)模和級聯率等特性都可以作為基于網絡拓撲結構的信息重要性度量指標.虛假信息網絡通常具有鮮明的結構特征,Goel等人提出了一種計算所有節(jié)點間的平均距離算法的結構性病毒式傳播特征,該方法通過引入病毒性傳播特征,來解解釋Twitter網絡中信息具有病毒式傳播這一現象[18].Zhao等人提出網絡異質性、網絡層級比率、平均距離等指標,能夠在早期階段高效、準確地識別虛假信息的信號,有助于防止虛假信息對現代社會的負面影響,并且發(fā)現了虛假信息可以多顆星型網絡的形式傳播,而真實信息通常具有高耦合性且圍繞一個信息來源進行廣播傳播[19].
在復雜網絡領域中,模體是一種網絡子圖[20],通常由少數幾個節(jié)點組合連接構成,這些模體被定義為網絡中發(fā)生頻率較高的節(jié)點交互子圖,用以研究在時間級聯拓撲結構中節(jié)點之間的交互模式.基于模體的復雜網絡研究能夠揭示網絡的結構演化和功能特性,被廣泛應用于節(jié)點重要性、鏈路預測等相關研究中.模體分析除了有助于深入理解復雜網絡的局部結構和功能[21],也可以從微觀的角度來探索社交網絡的信息傳播模式.Sarkar等人使用模體來描述社交網絡的擴散過程及級聯生命周期,并通過對模體的組合對未來短期的網絡結構進行了預測[22].然而,雖然已有實驗探索了社交網絡和信息內容的結合,但很少有研究涉及基于模體的虛假信息傳播機制與真實信息的異同,因此從社交網絡的模體結構作為出發(fā)點,在揭示社交網絡的虛假信息傳播機制,探索影響虛假信息檢測精度等方向將具有實際應用前景.
廣度傳播和深度傳播的概念源自信息轉推網絡中的2種主要但獨特的信息傳播模式.首先,廣度傳播是指大量個人直接從同一社交媒體用戶接收信息,信息源經過意見領袖廣播發(fā)送到大量受眾,因此其擴散模式類似星型網絡.由于原始用戶的信息大量轉發(fā),該信息迅速傳播.這個過程是一個“一對多”過程,社交媒體用戶會圍繞一個話題迅速傳播來影響大眾的觀點和行為[23].社交媒體上的第二種傳播方式是深度傳播.深度傳播具有病毒性,其傳播形式具有傳染機制,即信息通過多代和多分支向更縱深的方向擴散[24],深度傳播的典型特征體現在內容通過人與人之間“一對一”的影響而后達到了流行,其傳播往往依靠人與人之間的鏈式感染,傳播鏈條會更趨向于增加結構的復雜性而不是擴大廣播形式.
以往研究中往往側重于將單個節(jié)點作為信息傳播過程的影響因素[25],而忽略了多節(jié)點同時產生的潛在影響.本文根據每個節(jié)點所構建的廣度傳播模體與深度傳播模體,計算傳播網絡中所構成2類模體的數量和,將其作為網絡廣度傳播特性與深度傳播特性的度量,定義模體度這一網絡結構特性來度量網絡的廣度傳播與深度傳播特性.本文為了能夠準確地刻畫上述2種方式的傳播特點,分別基于2種模體識別算法[26]的定向無環(huán)三節(jié)點模體,定義了廣度傳播模體與深度傳播模體結構.本研究選取2種三節(jié)點模體基本結構如圖1所示:
Fig. 1 Motif structure of breadth and depth diffusion圖1 廣度傳播模體結構與深度傳播模體結構
圖1的2類模體中,圖1(a)中節(jié)點S作為信息源,將信息廣播至節(jié)點T1與T2,此時S作為網絡中的上級節(jié)點,T1,T2為轉發(fā)節(jié)點,而在下一級傳播中,T1,T2可能作為上級節(jié)點進行信息的再傳播.圖1(b)中信息傳播遵循鏈式傳播特征,“一對一”的層級傳遞使網絡向縱深方向發(fā)展.在線社交網絡中,廣度和深度傳播往往是共同存在的,因此我們基于這2類傳播,提出了模體度的符號定義和解釋.
定義1.廣度模體度(breadth motif degree,BM).廣度模體度是反映了信息傳播過程中的廣播效應,是星型網絡結構的主要構成成分.典型擴散傳播特征是由于單個有影響力的節(jié)點i所致,由節(jié)點i所能產生的廣度傳播模體數量即為節(jié)點廣度模體度bmi,而網絡中所包含的節(jié)點總數n對應的節(jié)點廣度模體度bmi之和為該網絡的廣度模體度BM,廣度模體度的取值范圍為BM∈[0,(n-1)*(n-2)/2],當BM取極大值時網絡結構為深度為1的完全星型拓撲結構.
(1)
定義2.深度模體度(depth motif degree,DM).深度模體度反映了信息傳播過程中的深度傳播效應,其中節(jié)點僅直接影響相鄰的分支,深度傳播模體將信息傳播至網絡的更深層,使網絡結構的塑造更趨于復雜,節(jié)點間的距離更長.同樣的,由節(jié)點i所能產生的深度傳播模體數量即為節(jié)點深度模體度dmi,節(jié)點總數n對應的節(jié)點深度模體度dmi之和為該網絡的深度模體度DM,取值范圍為DM∈[0,n-2],DM取極大值時有2種情況:1)網絡完全為鏈式結構網絡;2)根節(jié)點只發(fā)生一次轉發(fā),而其子節(jié)點只進行信息的廣度傳播.
(2)
網絡的廣度模體度與深度模體度是傳播網絡的全局結構特性,該指標忽略了網絡中節(jié)點本身的屬性差異,只考察整個傳播網絡的宏觀特征.
本節(jié)將重點描述模體度的計算過程.首先構建轉發(fā)關系數據集,該數據集包括源節(jié)點S以及目的節(jié)點T,然后讀取數據構建單條微博級聯的傳播結構,對每個網絡結構,遍歷其包含的節(jié)點,計算以每個節(jié)點為源節(jié)點能夠構成的2類有向模體數量,將其記為節(jié)點模體度,最后將所有節(jié)點模體度進行求和得到網絡的廣度與深度模體度.模體度算法具體流程如算法1所示:
算法1.模體度算法(G).
輸入:網絡G;
輸出:網絡廣度模體度BM、深度模體度DM.
①bm←?,dm←?;
/*初始化節(jié)點模體度儲存列表*/
② for all (v∈G.nodes) do
③node_list←?,node_i←?;
/*初始化節(jié)點存儲列表*/
④ if (v.successors≠?) then
⑤node_list.push(v.successors);
⑥bm.push(len(node_list)*len(node_list)-1)/2);/*計算每個節(jié)點的廣度模體度*/
⑦ for all(node_j∈node_list) do
⑧ if (node_j.successors≠?) then
⑨node_i.push(node_j.successors);
⑩ end if
/*計算每個節(jié)點的深度模體度*/
本研究使用Ma等人收集的基于事件的微博公開數據集[16],該數據集收集了虛假謠言和真實信息的轉發(fā)傳播數據.合計為4 664個微博事件源微博的完整轉發(fā)數據,其中包括2 313條虛假信息微博,2 351條真實信息微博,涉及到2 746 818個用戶節(jié)點、3 805 656次微博轉發(fā).虛假信息來自微博官方網站,如果微博的源用戶所報道信息為虛假信息,則該微博即視為虛假信息.該數據集包括源微博id、微博上級用戶id、微博轉發(fā)用戶id、微博發(fā)布與轉發(fā)時間、以及微博文本內容等信息.為了創(chuàng)建級聯轉發(fā)網絡,選擇微博用戶作為網絡節(jié)點,去除2個節(jié)點間的重復連邊只保留一次有效轉發(fā).根據用戶間的轉發(fā)行為構成了鏈式傳播關系,首先提取2類數據,以獲取虛假信息和真實信息的各種特征:
1) 微博上級用戶.信息傳播的父節(jié)點,與轉發(fā)用戶為傳遞關系,同時在網絡中也標記了根源用戶節(jié)點,該節(jié)點為信息散布的最初節(jié)點.
2) 微博轉發(fā)用戶.定向轉發(fā)上級微博信息的唯一用戶節(jié)點,轉發(fā)用戶具有傳播信息、擴大源微博影響力的功能.
我們發(fā)現,由于個別微博涉及用戶節(jié)點數量級龐大,傳播時間較長,少數熱點事件的源微博傳播時間達到了2~4年,類似這種極值在信息傳播過程中具有特殊性,其復雜的網絡結構會對數值計算以及整體分布會造成較大影響.而對一定范圍內的數據樣本進行采樣將具有代表性,本文也將僅討論在相同傳播范圍內的微博網絡虛假信息傳播特征.
因此,在微博總體的4 664個事件數據中,本文將只研究用戶節(jié)點數量在2 000以內的微博事件樣本,最終使用數據集為2 133個虛假信息微博事件與2 213個真實信息微博事件.該樣本數據占總體數據的93.4%,可以反映在一定傳播范圍內的普遍規(guī)律,基本不會對整體數據的分析過程造成影響.
定義3.微博傳播深度(depth).假設微博在傳播過程中形成有向無權圖,相鄰節(jié)點距離為1,那么從根源用戶節(jié)點到其他節(jié)點的最長距離即為該微博的傳播深度.
定義4.微博傳播規(guī)模(scale).微博的傳播規(guī)模定義為微博傳播網絡中所有節(jié)點的數目之和.
定義5.結構性病毒特征(structural virality).該指標基于所有節(jié)點間的最短平均距離,其被定義為
(3)
其中,V是所有節(jié)點的集合,d(s,t)表示網絡中節(jié)點s到節(jié)點t之間的最短路徑長度,n表示網絡中節(jié)點的數量.當結構性病毒特征趨近于2時,其網絡結構趨近于完全廣播的星型結構.Goel等人提出的結構性病毒傳播特征,主要考察的是傳播機制導致的網絡結構特性[18].信息的傳播能力可能不僅取決于傳播規(guī)模,傳播形成的網絡結構復雜程度也能反映信息的病毒傳播特性,結構性病毒特征可以度量傳播結構的多樣性與復雜性.
若一條微博的傳播方式屬于廣度傳播,通常這條微博的擴散深度較低.如果該微博的傳播具有深度傳播特性,該信息經過多級轉發(fā),那么該信息就具有較大的傳播深度.為了探索微博網絡的模體度指標的傳播特性,本文計算并使用每條微博的傳播深度、傳播規(guī)模、結構性病毒特征等指標構建了每個微博事件傳播網絡的度量,并將這些指標與網絡廣度模體度、深度模體度進行基于皮爾遜系數的相關性分析.
根據已構建的微博傳播網絡,使用皮爾遜相關性系數來度量2個變量之間的線性相關程度.皮爾遜相關系數已廣泛應用于聚類和特征分析中,其定義為
(4)
根據統(tǒng)計的虛假信息和真實信息的微博網絡結構特征指標,特征相關性熱力圖如圖2所示,相關性熱力圖中顏色的深淺表示對應行列元素相關性的強弱.
根據圖2的結果可知,在微博傳播網絡結構特征中,廣度模體度與微博的傳播規(guī)模具有強正相關性.由于微博信息發(fā)布之后龐大的受眾群體會加快信息的廣播效應,微博信息會圍繞一個信息源進行擴散,所以廣度播模體度數值也相應增大.同時相關性分析顯示,深度模體度也與傳播規(guī)模和傳播深度具有一定正相關關系.在全部樣本數據中,隨著傳播規(guī)模的擴大,通常會伴隨微博網絡結構的復雜化,網絡的深度也會隨之增加.
Fig. 2 Correlation among network structure features圖2 網絡結構特征之間的相關性
在圖3中展示了真實信息微博與虛假信息微博中傳播規(guī)模大于100的網絡的互補累計分布函數(complementary cumulative distribution function, CCDF),圖3中縱坐標軸CCDF反映了對應變量的概率分布,是對離散的變量中,所有大于x軸上的某一值,其出現概率的和,圖中即表示傳播規(guī)模及結構性病毒特征大于某一值時,對應的概率之和.我們發(fā)現相對真實信息的傳播,虛假信息的傳播規(guī)??梢宰兊梅浅}嫶?,虛假信息更容易吸引指數級的轉發(fā)與傳播.同樣圖3(b)真假信息的結構性病毒特征也明顯反映了微博信息在傳播過程中的巨大差異,結構性病毒特征的取值范圍分布展現的差異性,也說明了真假信息的網絡結構總體上具有區(qū)別明顯的特征.
Fig. 3 Distribution of diffusion scale and structural virality圖3 傳播規(guī)模和結構性病毒特征的互補累計分布
真假信息在傳播模式上產生的差異,會直觀地反映在所構成的網絡結構上,就結構性病毒特征而言,虛假信息比真實信息(K-S test~0.610,p-value~0)更具病毒性,且平均路徑更長,在傳播深度上,虛假信息的平均深度要大于真實信息(K-S test~0.438,p-value~0),同時該驗證在整體微博數據集上也依然成立,具有一定的普適性.表1統(tǒng)計了真假信息數據的詳細信息,其中數值表示虛假信息與真實信息網絡結構特征的均值:
Table 1 Features of Weibo Network表1 微博網絡數據統(tǒng)計
表1數據說明了虛假信息與真實信息網絡在相同傳播規(guī)模內的樣本數據具有明顯的差異,虛假信息網絡在結構上表現出具有更深的傳播深度與相對較小的傳播規(guī)模,就模體度而言真實信息往往廣度模體度數值更大,深度模體度小于虛假信息網絡.
在信息擴散的早期,微博網絡結構表現出不穩(wěn)定性,虛假信息也可能形成星型結構,但在整體生命周期中,2類信息所呈現的結構特征便具有一定的差異,如表1所示.虛假信息多以更深層更復雜的網絡結構傳播,表現在虛假信息網絡傳播深度更深,可能是由于熟人之間的牢固聯系導致了更多的轉發(fā),真實信息大多數更多的是圍繞著一個信息源,例如大V認證用戶、官方賬號、政府組織等權威機構,也存在一部分非官方用戶進行真實信息的散布,進而實現信息的爆發(fā)廣播.可以說虛假信息更具有煽動性,會存在偏見以及不穩(wěn)定性,因此與真實信息的傳播方式呈現出明顯差異.
當然,虛假信息的傳播也涉及到新聞學、心理學與社會學范疇,其傳播模式不僅僅取決于文本內容與節(jié)點信息,例如有研究發(fā)現:謠言是人們更感興趣的且更覺得重要的話題[2].這種話題的重要性越高,虛假信息的流行度也就越廣,且謠言越具戲劇性與煽動性越容易引起人們的關注.人們往往對具有戲劇性或者具有娛樂性質的信息更具偏好,多數虛假信息的內容與人們對客觀事實的認知背道而馳,可能是它易吸引人們關注的原因之一.如果有人制造謠言,與大家的預期相悖,得到轉發(fā)的可能性會更高,因為在參與話題討論的過程時,往往會無意識地推進了謠言的傳播,進而導致了虛假信息的泛濫蔓延.
我們觀察到近似相同傳播規(guī)模的微博可以具有截然不同的網絡結構,為了定量分析在近似相同的傳播規(guī)模內的微博網絡的傳播影響因素,篩選出傳播規(guī)模在[99~111]區(qū)間的5條微博,構建傳播層級結構,如圖4所示.圖4(a)與圖(b)網絡為真實信息微博,圖4(c)~(e)等網絡為虛假信息微博.根據微博網絡結構分析,在近似相等的傳播規(guī)模下,發(fā)現信息擴散可以完全通過廣度傳播來驅動,所有用戶都從一個來源接收到一條消息;也可以具有較大的傳播深度,信息通過多個后代和分支傳播,形成較長的鏈式結構.
圖4(a)微博網絡中,信息的傳播完全是由廣播形式的來驅動的,該類微博多表現為認證賬號發(fā)布的公共信息,例如人民日報、新華社等公共機構賬號,通常只存在大量低深度轉發(fā),將信息廣播擴散到所有聽眾,而不會觸發(fā)多層級深度轉發(fā).在圖4(c)~(e)等網絡中,通常表現為朋友親屬之間小規(guī)模轉發(fā)行為,但會伴隨著多級“一對一”形式的信息傳播,最終形成的微博網絡會表現出較強的深度傳播特性,往往會形成多個星型結構或長鏈式傳播的復雜網絡.上述網絡均為所有微博網絡中的特殊情況,但實際上絕大多數微博的傳播過程最終會形成圖4(b)與圖4(c)等形式的網絡結構,即2種傳播模式的混合是驅動信息進行擴散的主要原因,這表明信息傳播是由廣度和深度傳播機制的共同驅動作用的.
Fig. 4 Structure of the network at the same diffusion scale圖4 有相同傳播規(guī)模的網絡結構
由于微博生命周期不同以及信息內容的差異,最終形成的拓撲結構差異明顯.為了刻畫模體度分布以及模體度與傳播規(guī)模的具體影響,我們分別將真假信息微博的廣度模體度和深度模體度投影到二維平面,并以該投影點到坐標系原點的歐氏距離歸一化作為度量網絡傳播重要性的指標,該指標反映了微博傳播中所產生的影響力.影響力越強的內容與事件越容易得到大量轉發(fā)與傳播,同時廣度傳播與深度傳播也會對微博網絡結構相應產生一定影響.繪制模體度散點分布熱力圖如圖5所示,紅色實線為深度模體度的平均值,綠色實線為廣度模體度的平均值.整體分布情況而言,虛假信息微博的深度模體度要高于真實信息,真實信息微博的廣度模體度的平均值也要高于虛假信息.傳播重要性強的網絡往往是廣度傳播與深度傳播共同作用的結果,廣度傳播占有主導作用.
Fig. 5 Motif degree scatter heat map圖5 模體度散點熱力圖
為了探索虛假信息與真實信息網絡傳播規(guī)模的主要驅動因素的差異,以及進一步分析造成這種差異的規(guī)律,我們通過圖6來反應不同信息與傳播規(guī)模的關聯.圖中黑色實線分別為當前傳播規(guī)模下級聯達到星型網絡和鏈狀網絡的模體取值范圍的理論極大值,當廣度模體度取理論極大值時,那么規(guī)模為n的網絡對應的BM為(n-1)×(n-2)/2,深度模體度的理論極大值為n-2.微博網絡中在相近似傳播規(guī)模條件下真假信息模體度有較明顯區(qū)分,真實信息中星型網絡的廣度模體度與對應傳播規(guī)模呈線性關系.與虛假信息相對比,圖6(a)中相同傳播規(guī)模下真實信息的廣度模體度整體上要大于虛假信息,分布更為集中,因此真實信息更多驅動于廣度式的傳播形式.圖6(b)中虛假信息網絡深度模體度相對更收斂于深度模體度極大值,而真實信息分布極為離散,這表明虛假信息網絡結構受深度傳播形式主導.
Fig. 6 Comparing the motif degree for false and real information圖6 真假信息的模體度比較
為了更直觀地觀察模體度分布差異,將網絡模體度進行離差標準化(min-max normalization)處理,通過將模體度縮放至[0,1]區(qū)間內,統(tǒng)計各模體度區(qū)間內網絡所占比例,進而反映模體度分布對應真假信息的可能性.結果如圖7所示,虛假信息網絡的深度模體度分布較集中于數值較大的區(qū)間,相較于真實信息分布區(qū)分較為明顯,相對的真實信息中廣度模體度數值較大的網絡也具有更大的占比,該結果也進一步說明了在微博平臺上,虛假信息網絡的深度模體度相對較大.結合深度模體度定義分析,如果一個網絡的深度模體度越趨近其理論極大值,那么該網絡所對應內容為虛假信息的可能性也更大.這也揭示了虛假信息網絡結構較復雜,而真實信息網絡表現出更穩(wěn)定的結構布局,單傳播源的廣度傳播占據整個傳播過程的主導作用.
Fig. 7 Motif degree distribution of false and real information network圖7 虛假信息與真實信息網絡模體度分布
目前基于內容的微博虛假信息檢測方法主要是從文本信息、用戶屬性以及時序特征的角度,通過識別推文文本特征、用戶屬性以及時間變化趨勢,使用機器學習及深度學習分類算法,進行謠言檢測.這些方法通常具有較高分類準確精度,但是忽略了網絡結構特征在虛假信息網絡檢測時的作用.Zhao等人提出的結構異質性特征(structural heterogeneity)是一種基于網絡結構的度量方法,該指標反映了傳播網絡與其大小相同的星型網絡之間的差異,且該方法未知類型的微博網絡在相對較短的轉發(fā)時間內,具有相對較高的識別精度[19].
本文提取微博傳播網絡的模體度特征,基于XGBoost模型構建有監(jiān)督分類模型對真假信息進行分類.XGBoost模型是基于特征選擇法的封裝法,通過訓練分類器模型,可以根據分類器的性能對特征進行評價[27].研究中將基于廣度與深度模體度特征的檢測方法,與基于結構異質性特征的檢測方法以及結構性病毒特征做對比,對微博信息數據的完整生命周期(第1次轉發(fā)到最近1次轉發(fā))和信息發(fā)布的前3 h進行特征計算,使用準確率Accuracy指標比較3種基于網絡結構特征以及融合3種網絡結構特征的虛假信息分類準確率.結果如表2所示,發(fā)現基于模體度特征的虛假信息檢測方法,相對于結構異質性特征和結構性病毒特征,在微博網絡的完整生命周期以及傳播早期均具有更高的分類準確率.并且融合3種網絡結構特征后,模型預測準確率得到進一步提升.
Table 2 Detection Accuracy of Weibo False Information表2 微博虛假信息檢測準確率
為了進一步驗證在更多社交媒體平臺虛假信息傳播網絡數據中,使用基于模體度的結構特征進行虛假信息檢測的有效性與泛用性,實驗使用基于Ma等人發(fā)布的2個Twitter公開數據集:Twitter15和Twitter16.該數據集將謠言數據細分為4種類型[28],并根據Twitter謠言信息的轉發(fā)關系以及時序先后,可構建級聯傳播樹,該數據集統(tǒng)計匯總如表3所示:
Table 3 Statistics of Twitter Datasets表3 Twitter數據集統(tǒng)計
我們將Twitter15與Twitter16數據進行預處理后合并,使用全部的2 308條Twitter,采用與微博數據相同的特征提取方法,進行了基于XGBoost多分類模型的Twitter虛假信息的檢測準確率對比.表4匯總了4分類的結果,同樣在基于3種網絡結構特征的分類準確率對比中,模體度特征具有更好的識別精度,并且融合的網絡結構特征可以更有效地進行Twitter網絡的虛假信息檢測.
Table 4 Detection Accuracy of Twitter False Information表4 Twitter虛假信息檢測準確率
基于微博與Twitter平臺的研究結果表明,即使不構建文本特征、用戶屬性特征與時序特征,基于網絡結構特征也可以得到較高的虛假信息檢測準確率,并能夠在信息傳播的早期實現對虛假信息的檢測.由于Twitter數據數量較少,且網絡結構呈現出較小的差異,基于網絡結構特征虛假信息檢測準確率相對較低,但基于模體度特征的分類檢測仍具有一定的參考價值.
本文提出了一種基于模體度的社交媒體虛假信息檢測方法,對微博傳播網絡中的熱點事件進行了基于廣度模體度與深度模體度構建的二維模體度量化.通過對模體度重要性指和其他經典網絡結構特征之間的相關性分析,發(fā)現基于模體度重要性指標的計算方法是對傳統(tǒng)網絡結構影響力指標的一種改進與拓展.模體度細致刻畫了真假信息的網絡結構特性,可用于分析微博網絡中虛假信息的傳播機制.
微博平臺的真假信息傳播機制差異明顯,真實信息更趨近于廣度傳播,而虛假信息網絡結構更為復雜.基于模體度的虛假信息檢測方法可有效地區(qū)分真假信息,并可以根據早期網絡結構特征實現對微博虛假信息的分類.而由于Twitter平臺數據量較少以及網絡結構差異相對不明顯等原因,網絡結構特征的檢測準確率相對較低,但基于模體度特征的研究在未來的虛假信息傳播工作中仍將具有一定的參考價值.需要注意的是,信息早期傳播結構的不穩(wěn)定性會增加虛假信息檢測的難度,并且考慮到虛假信息內容的復雜性與多樣性,未來基于模體度結構特征與文本信息相結合將可能構建出一個更具魯棒性的虛假信息檢測框架.此外,基于模體度特征對微博平臺之外的社交媒體信息傳播進行分析也具有廣泛的應用前景.