肖云鵬李松陽 劉宴兵
(重慶郵電大學,網絡與信息安全技術重慶市工程實驗室,重慶 400065)(2016年6月7日收到;2016年10月18日收到修改稿)
一種基于社交影響力和平均場理論的信息傳播動力學模型?
肖云鵬?李松陽 劉宴兵
(重慶郵電大學,網絡與信息安全技術重慶市工程實驗室,重慶 400065)(2016年6月7日收到;2016年10月18日收到修改稿)
在線社會網絡中,信息傳播蘊含著復雜的動力學成因.本文將傳染病模型與社交影響力要素相結合,并針對影響力度量中主要研究靜態(tài)網絡拓撲結構、忽略個體行為特征的問題,提出一種基于動態(tài)節(jié)點行為和用戶影響力的信息傳播動力學模型,旨在量化影響力強度,為研究信息擴散過程中不同用戶群體狀態(tài)轉變提供理論依據.首先,在網絡拓撲結構和用戶行為兩方面,提取個人記憶和用戶交互兩個表征,分析影響力形成的內因和外因兩個動力學成因,并基于多元線性回歸模型,提出一種度量用戶社會影響力的方法.其次,在傳統(tǒng)傳染病SIR(susceptible-infected-recovered)模型基礎上,結合信息擴散與傳染病蔓延相似的傳播機理,綜合考慮信息傳播的多源并發(fā)性和雙向性,引入影響力因子,利用平均場理論改進得到一種基于用戶影響力的信息傳播模型.實驗表明,該模型能有效地解釋在線社會網絡中信息傳播的動力學原因,感知社會網絡中信息傳播演化態(tài)勢.
信息傳播,傳播動力學,社交影響力,平均場理論
面向社會性網絡服務的在線社交網絡是Web2.0體系下的典型應用,當前關于在線社會網絡的研究包括網絡結構[1]、群體互動[2]、信息傳播[3,4]三個核心要素.在線社會網絡的蓬勃發(fā)展和線上用戶的急劇增長,使其迅速成為人們信息傳播、商品營銷、購物推薦、觀點表達、產生社會影響力的理想平臺,研究社會網絡中的信息傳播動力學成為熱門課題之一[5,6].鑒于信息收發(fā)方式多樣化、傳播效率核裂化、交互方式便捷化的特點,有效控制輿情信息的準確性、真實性和及時性對規(guī)范線上網絡信息起著至關重要的作用,也為相關部門加強社會輿情監(jiān)控和制定信息管控策略提供重要參考.
在線社會網絡的信息傳播問題研究,主要涉及研究信息傳播機理的解釋模型和信息擴散規(guī)律的預測模型.解釋模型中,學者們大多從網絡結構或自定義的信息傳播機理著手研究.例如,Borge-Holthoefer和Moreno[7]選擇不同核數的節(jié)點作為模型的出發(fā)點,探索核數在信息傳播的作用.王超等[8]結合遏制機制和遺忘機制提出新的信息傳播模型.Lu等[9]研究了競爭性和合作性實體對信息傳播的影響.預測模型歸結起來可分為基于圖的線性閾值模型[10]和獨立級聯模型[11],基于非圖的傳染病模型[12]和博弈論模型[13].
傳染病模型是信息傳播領域較為成熟的模型[14].傳染病模型[15]認為,當信息已知者對某個消息未知者的傳播率大于某一臨界值時,信息已知者會將信息傳播給該消息未知個體,這個過程會持續(xù)到整個網絡信息已知者處于某一穩(wěn)定的狀態(tài).SIR(susceptible-infected-recovered)模型在發(fā)展過程中出現了很多變種,例如,類似于SI模型的級聯模型[16]、考慮到重復感染的SIS模型[17]以及異構網絡中的SIRS模型[18,19].Xiong等[20]提出一種基于轉發(fā)機制的SCIR模型,把網絡中的人群劃分為4類,即易感人群S(susceptible)、讀了信息但沒有傳播的人群C(contacted)、接收信息并繼續(xù)傳播的人群I(infected)和失去傳播信息興趣的人群R(refractory),該模型認為I和R是信息傳播最終穩(wěn)定的狀態(tài).Li等[21]提出改進的SIQRS模型研究無標度網絡中的傳播動力學模型,在模型中加入隔離人群Q(quarantined individuals),并認為這些人在信息傳播中起關鍵作用.Xiong等[22]引入潛伏者的角色,提出了SILR(susceptible-infectedlatent-refractory)模型.由此可見,學者們集中考慮SIR模型狀態(tài)的劃分問題,少有量化導致狀態(tài)改變的感染率和免疫率的研究.
另一方面,影響力最大化問題[23,24]也是信息傳播領域的關鍵問題之一,其目的是通過提取異質網絡中的多個特征,與影響用戶轉發(fā)、評論行為的因素結合,發(fā)現最大程度上影響網絡功能與信息傳播的節(jié)點集合[25,26].已有研究中,學者們大都是基于網絡拓撲結構[23,27,28]探討信息的傳播方式,而在線社會網絡用戶數量巨大,用戶之間形成的關系非常復雜,在這樣的環(huán)境下對社交影響力的定性分析受到很多因素的干擾和影響[29].盡管有不少學者試圖客觀準確地理清影響力和其他因素之間的關系,使用了包括隨機化方法[30,31]、馬爾可夫鏈[32]、塊模型[33]在內的多種技術手段,但最終難以很好地解決該問題.這種局面不僅與社交影響力的復雜構成和信息傳播的不確定性有關,也與影響力自身的定義密切相關.
綜上可知,現有研究中普遍忽視了信息傳播中用戶相互影響的問題,本文從個體記憶維度和用戶交互維度兩個角度量化群體間的影響力,并認為影響力因素是傳染病模型中狀態(tài)轉化的動力學成因,利用平均場理論[34]對在線社會網絡傳播模式進行分析研究.
本文的創(chuàng)新點可以總結為如下兩點.
1)在影響強度計算上,與當前研究工作中主要考慮網絡結構不同,本文綜合考慮內部因素即個體記憶維度及外部因素即用戶交互維度,提出一種基于多元線性回歸模型的用戶影響力計算和衡量方法.結合用戶自身屬性和個體行為習慣兩個維度分析個體記憶原理,利用圖論中的最短路徑法來度量社會網絡中用戶間信息交互經過某條邊的流的總數來研究用戶交互原理.
2)在信息擴散建模上,借鑒SIR模型機理,本文引入用戶影響力因子作為傳染病模型中狀態(tài)改變的參數,運用平均場理論建立微分方程組,并在此基礎上給出新的信息傳播動力學模型和驗證方法,有效避免了在模型中人為設定參數帶來的隨機性,揭示信息傳播中多因素耦合的本質規(guī)律.
本文的組織結構如下:第一部分闡述模型建立的背景及其基礎性工作;第二部分依據在線社會網絡信息關系網、信息傳播屬性、影響力形成的內因和外因給出屬性的定義及問題的科學性描述;第三部分對信息模型進行詳細描述,并給出相應的學習算法和平均場方程;第四部分以真實的信息數據為背景,運用研究思路對模型進行仿真實驗,并與真實的自然規(guī)律進行對比驗證;第五部分對本文所做的相關工作進行總結.
2.1 相關知識
首先,設G={V,E}為信息傳播網絡,其中V={v1,v2,...,vn}是社會網絡中單個信息互動用戶集合,|V|=N,即用戶總數,E?V×V為用戶間的朋友關系,若存在邊ei,j= 〈vi,vj〉,則用戶vj是用戶vi的粉絲,表示信息可沿邊ei,j由用戶vi傳向用戶vj.
然后,設A={(a,vi,t)}為不同時間段的用戶互動數據,其中{(a,vi,t)}表示用戶vi在t時間的動作a,A是用戶群體Tk時間段的互動行為.
接著,設個人記憶原理Inner和用戶交互原理Outer兩種度量用戶影響力的特征量,形式化表示群體事件擴散中用戶行為動力學的內因和外因.
最后,設D(vi,t)為用戶vi在時刻t的狀態(tài).網絡中的用戶劃分為3類,每類個體集合都處于同一種狀態(tài),即D(vi,t)={S,I,R}∈κ,其中κ表示單個信息事件的傳播行為.每個用戶有三種可能的狀態(tài),分別為易感狀態(tài)S(susceptible),即消息未知者,有可能被感染;感染狀態(tài)I(infected),即消息已知者,具有傳染性;免疫狀態(tài)R(recovered),即消息免疫者,對消息失去了興趣.
2.2 特征提取與定義
在社會網絡中,信息傳播是個體、團體之間的信息傳遞和交流.一個人發(fā)布的消息會被其好友看到,并以一定的概率分享、傳播.若好友對該信息內容不感興趣,則成為消息免疫者且不會傳播.本文針對熱點話題傳播,挖掘影響用戶參與話題討論和轉發(fā)等行為的內部、外部動力驅動因素,具體從個體記憶和用戶互動兩個維度出發(fā),提取影響信息傳播表征.
1)個體記憶維度
在個體方面,我們認為一個喜歡參與社會事件討論的人可能在今后的生活中依然喜歡參與,這種社交活動中的活躍分子對群體事件具有記憶效應,這是由用戶自身因素決定的.在社會網絡中,用戶對一個群體事件的關注程度反映了信息的受歡迎程度,關注的人越多,證明人們對該事件越感興趣,信息擴散的機會就越大.也就是說,研究用戶個人興趣在信息傳播領域具有不可或缺的作用.為了度量影響力的內部成因,結合信息傳播網絡的靜態(tài)拓撲結構,本文提取用戶內部屬性列于表1.以下對所提取的內部屬性做具體闡述.
定義1用戶度數Deg(vi)
用戶度數(degree)定義為與用戶vi相關聯的邊的數目.社會網絡是有向圖,若存在邊vi→vj,則用戶vj是用戶vi的關注者,關注者總和記作d+(vi);若存在邊vi←vk,則用戶vk是用戶vi的粉絲,粉絲總和記作d?(vi).顯然
定義2用戶介數Cb(vi)
用戶介數(between)定義為網絡最短路徑中經過該節(jié)點(或邊)的概率之和,描述了節(jié)點在網絡中的影響力與中心性程度.假設節(jié)點p和節(jié)點q之間的最短路徑數為δpq條,這兩個節(jié)點之間經過節(jié)點vi的最短路徑數為δpq(vi).在此基礎上,用戶vi的介數可定義為
定義3用戶緊密度Cc(vi)
用戶緊密度(closeness)定義為用戶vi與網絡中其他用戶的平均距離的長短,考察用戶vi傳播信息時不依靠其他用戶的程度.若社會網絡中有N個用戶,求用戶vi到其他所有用戶的最短距離,記作d(vi,vj),則用戶緊密度可定義為
表1 內部屬性符號及描述Tab le 1.Symbols and descriptions of internal attribu te.
為了便于描述,本文統(tǒng)一用ψij來表示用戶vi影響力內在驅動因素,其中j=1,2,3分別代表上述3個靜態(tài)屬性.
2)用戶交互維度
現實世界中人們通過共同地域、相同活動、親屬關系等形式構建網絡,在線社會網絡與現實世界不同,主要通過信息發(fā)布、共享、擴散等信息交流的形式產生聯系.因此,在線社會網絡中信息是人們產生聯系的載體,用戶線上的交互行為在信息傳播影響力中扮演了重要角色.為了對影響力形成的外部動態(tài)驅動因素進行定量分析,結合促進信息傳播的用戶行為記錄,本文提取用戶間交互的屬性列于表2.
表2 外部屬性符號及描述Tab le 2. Symbols and descriptions of ex ternal attribute.
定義4內容相似性S(vi)
內容相似性(similarity)定義為用戶vi的個人興趣與話題標簽的相似程度.從用戶自定義的標簽和熱點話題中分別提取關鍵字,用Jaccard系數進行歸一化計算.Jaccard系數越大,表明信息內容和用戶個人興趣有較大的相關性,反之,相關性較小.令A為熱點話題內容,B為用戶歷史行為數據的高頻詞匯,則內容相似性為
定義5意見領袖L(vi)
意見領袖(leader)定義為對他人施加影響的活躍分子,在信息傳播中起到重要的中介或過濾作用.用PageRank算法[35]計算得到的PR值作為判定用戶vi是否為意見領袖的閾值,用φ作為可調參數,意見領袖定義為
定義6活躍用戶A(vi)
A(vi)代表目標用戶vi是否為活躍用戶(active user),1代表該用戶是活躍用戶,0代表該用戶不是活躍用戶.相比非活躍用戶,我們認為活躍用戶對信息傳播所起的作用較大,活躍用戶定義為
其中,Active(vi)代表用戶vi的活躍指數,τ為可調參數.
其中,ρ ∈ [0,1]為 弱 化 系 數,N[orig(vi)]和N[retw(vi)]分別是用戶vi在話題發(fā)起前一個月每日發(fā)表微博和轉發(fā)微博的數量.
定義7信息傳播帶動力I(vi)
I(vi)指的是用戶vi發(fā)布信息后,該信息由于該用戶粉絲的瀏覽、評論、轉發(fā)等歷史行為在社會網絡中不斷擴散,設η是弱化系數,分別為用戶vi在所研究話題發(fā)起前一個月每條微博的平均閱讀數、平均評論數、平均轉發(fā)數.綜合不同的用戶行為,量化該用戶的信息傳播帶動力為
為了便于描述,本文統(tǒng)一用符號χij來表示用戶vi影響力外部驅動因素,其中j=1,2,3,4代表上述4個動態(tài)屬性.
2.3 問題形式化
本文構建的模型旨在分析信息傳播中的用戶行為動力學成因,挖掘用戶個人和用戶間的因素在信息傳播中所起的作用,如圖1所示,通過量化影響力強度進一步分析用戶影響力對信息接收程度的影響,并利用平均場理論挖掘信息傳播態(tài)勢.其中,對于影響力的度量,考慮到線性回歸模型能綜合信息的多個特性,本文設計了一種基于線性回歸模型的影響力強度計算方法.
圖1 (網刊彩色)問題概述Fig.1.(color on line)Prob lemoverview.
在t時間段內,給定某個特定話題全網用戶群體關系網G(V,E)以及全網用戶的歷史行為數據A={(a,vi,t)},解決如下問題.
1)如何度量用戶影響力?本文模擬用戶行為動力學,結合影響力形成的內部靜態(tài)要素finternal(vi)和外部動態(tài)要素fexternal(vi),用多元線性回歸方法定量闡述用戶影響力Inf(vi).
2)如何感知信息傳播態(tài)勢?本文把影響力要素Inf(vi)與傳染病模型結合,為模型中感染率λ和恢復率μ提供理論依據.本文通過二項分布計算得到的感染率和免疫率分別為θ(t),1?θ(t).接著,依托平均場理論建立動力學微分方程組,計算不同時間步的用戶集合{St},{It},{Rt},模擬不同階段信息擴散的大致情況.
3.1 模型框架
為了解決上述問題,構建模型系統(tǒng)框架如圖2所示.首先,根據社會網絡中用戶個人屬性、個人行為習慣和信息交互記錄量化用戶影響力的內因和外因,即訓練出個人記憶維度和用戶交互維度.接著,計算處于同一狀態(tài)下的用戶群體相對于另一狀態(tài)用戶群體的影響力均值作為感染率λ和恢復率μ.最后,基于平均場理論,把λ和μ運用到傳染病模型中,作為微分方程狀態(tài)轉移的參數依據,模擬信息傳播趨勢,感知群體狀態(tài)演化.
圖2 模型框架Fig.2. Model framework.
3.2 模型細化
根據信息傳播網絡拓撲關系和用戶信息互動行為提取兩種用戶影響力要素,即靜態(tài)內部要素和動態(tài)外部要素.形象表示如圖3,左邊為個人所處網絡靜態(tài)環(huán)境,右邊為基于擴散信息動作的網絡.
圖3 社交影響力內部和外部要素Fig.3. Internal and external factors of social in fluence.
我們認為信息的傳播力不僅與用戶的自身網絡結構屬性有關,如用戶度數、用戶介數、用戶緊密性等,還與其外部行為屬性有關,如信息內容相似性、意見領袖、用戶是否為活躍用戶、信息傳播帶動力.綜合內因和外因,用戶vi的影響力函數為
這里的參數β0,β1,β2是偏回歸系數,由多元線性回歸模型訓練擬合得出,其中,β1,β2是測試個體內因和外因的權值系數,反映網絡結構和信息交互情況在影響力構成中的比重;finternal(vi)為用戶的內部影響力,
其中,ψij表示用戶vi的靜態(tài)結構屬性,可取度數、緊密度、介數等網絡結構靜態(tài)屬性,mv∈aVx(ψ(v))為歸一化因子;fexternal(vi)為用戶的外部影響力,
由于信息話題影響力具有隨著時間推移而逐漸降低的事實,因此,本文引入半衰期函數表示信息從發(fā)布到慢慢消亡的生命周期,其中,ti表示當前時間,表示用戶vi上次行為時間,ω為正則化因子,本文中ω=1000;χij表示用戶vi的動態(tài)行為屬性,可取內容相似性、意見領袖、活躍度、信息傳播帶動力等用戶交互屬性.
為了驗證影響力對信息擴散的作用,本文采用改進的SIR模型模擬信息傳播的過程.SIR模型中的用戶群體有三種狀態(tài):易感染狀態(tài)S(susceptible),感染狀態(tài)I(infected)、免疫狀態(tài)R(recovered).不同用戶間的狀態(tài)轉移不僅依賴于用戶自身的狀態(tài),還與其鄰居用戶的狀態(tài)相關.
這里要特別說明的是,該模型的建立基于以下3個假設.
1)由于信息傳播具有爆發(fā)性、時長短的特點,我們認為在研究時間段內用戶群體粉絲的增長和減少互相持平,故不考慮出生率和死亡率等種群因素.參與信息傳播的用戶總數始終保持一個常數N,所以S+I+R=1.
2)信息傳播為接觸性傳播,一個新用戶與信息已知者接觸就必然具有一定的傳染率.
3)假定用戶被傳播信息后,經過一段時間(8 h)就會對該消息失去興趣,從而變成免疫者.經過對以上數據的統(tǒng)計,本文設定消息已知者變?yōu)橄⒚庖哒叩臅r間為8 h.
當個體處于感染狀態(tài)時,以λ的概率感染處于易感染狀態(tài)的鄰居個體,以μ的概率恢復為免疫狀態(tài).通過不同狀態(tài)間的變化,研究信息傳播機制,動力學方程如下:
個體感染具有單向性,用戶接受信息的順序為未感染狀態(tài)、感染狀態(tài)、免疫狀態(tài).因此,假設一個處于某個狀態(tài)的用戶vi有m個鄰居,則其中k個鄰居狀態(tài)發(fā)生改變的概率滿足二項分布,
則任一用戶在時刻t改變狀態(tài)的概率為
結合平均場方程式(12)得
針對在線社會網絡中信息傳播模式的特點,結合傳染病動力學原理,提出在線社會網絡中新的信息傳播擴散模型.模型考慮不同關鍵用戶對信息傳播機理的影響力度,挖掘在信息傳播擴散過程中各因素的地位,建立不同用戶節(jié)點的演化方程組,模擬信息傳播擴散的過程,分析不同類型的用戶在網絡中的結構特征以及影響信息傳播的主要因素.
3.3 模型算法
傳統(tǒng)的SIR模型的狀態(tài)轉變參數缺少理論依據,人為設定的參數具有較大的隨機性,從而產生一定的誤差,導致預測值與當前實際值差距較大的現象.針對以上局限性,進行了一些改進,并以此為基礎結合在線社會網絡行為屬性,利用平均場理論的基本思想和方法,建立基于用戶影響力的SIR傳播模型.通過模型學習算法,獲取殘差值,并分析網絡靜態(tài)因素和交互動態(tài)因素對用戶影響力的權重地位.總體來說,模型學習算法分為兩步:1)調節(jié)學習參數,并根據平均場理論獲取不同時間段的信息擴散情況;2)通過多元線性回歸算法,挖掘影響力動力學成因.表3列出了本文所提出模型的算法實施過程.
表3 模型算法Tab le 3.Model algorithm.
模型學習算法首先是初始化不同狀態(tài)的用戶群,利用模型進行首次估計,得到初始狀態(tài)用戶的影響因子;然后利用多元線性回歸模型不斷調節(jié)參數,重復獲取不同狀態(tài)節(jié)點的影響權重,將其作為用戶影響力的量化值,每個節(jié)點狀態(tài)改變的概率作為模型的傳染率和免疫率.本文根據每個信息的初始用戶群體數量,結合信息的生命周期特征,預測信息的變化趨勢.由于每次建立模型求解用到的原始數據都為話題數據,保留了真實性.不斷調節(jié)學習參數,對模型進行修正,找到與實際最相符的狀態(tài)轉移概率,減小誤差,提高精確度.其中,多元線性回歸算法對影響力的度量與信息傳播SIR模型密切相關,時間復雜度為Tinfluence=O(N),影響因子選擇階段的時間復雜度Tfactor=O(N),信息傳播模型執(zhí)行的時間復雜度Tmodel=1.因此,算法的時間復雜度T=Tinfluence+Tfactor~O(N).
4.1 數據描述
在人們的社交活動中,很多時候信息是以話題的形式產生和傳播的.研究工作發(fā)現,不同話題具有不同的影響力,即便是相同的話題在不同的人群中也不盡相同.所以,使用不同話題作為信息傳播的基本研究對象,能夠從多角度對用戶影響力進行細致刻畫.本文基于騰訊微博真實數據進行了實證驗證,選取的熱點話題包括“馮小剛電影《私人定制》”(話題 A)、“爸爸去哪兒”(話題 B)、“熊貓女孩兒急需救助”(話題 C),針對這3個不同主題的群體事件對模型進行實驗驗證.表4列出3個話題的統(tǒng)計數據.
表4 話題數據統(tǒng)計Tab le 4.Statistics of topics.
本文利用真實信息傳播趨勢和模型估計值對信息傳播模型進行校驗,真實走勢與模型估計值越接近,模型越優(yōu);利用殘差檢驗方法對影響力度量進行校驗,殘差序列越平穩(wěn),置信區(qū)間落在stats∈[?1,1]越多,則模型擬合越佳;利用線性回歸模型驗證社交影響力形成的內因和外因對信息傳播的驅動力大小;在模型的計算感染率和免疫率基礎上,預估信息傳播的最大感染峰值,為輿情傳播提供可控可管思路.
4.2 實驗結果與討論
通過觀察上述社會網絡中的3個話題在整個生命周期中的演化趨勢,發(fā)現或多或少存在信息傳播的爆發(fā)期,結合用戶影響力,選定最活躍的時間段進行本文信息傳播模型的驗證.
本文把每2 h參與話題的人作為一個時間段分片,設定用戶轉發(fā)或評論話題的有效時間為24 h,如果超過24 h沒有重新參與話題,則認為該用戶對該話題失去興趣.通過觀察,從話題發(fā)布算起,話題A的活躍區(qū)間為94—472 h,話題B的活躍區(qū)間為16—2730 h,話題 C的活躍區(qū)間為18—3598 h.圖4是3個話題不同時間段的實際參與信息傳播情況與模型估計值對比.
在圖4中,左邊一列圖4(a),(c),(e)依次為模型估計的話題A、話題B、話題C的信息未知者、信息已知者、信息免疫者的比例.網絡總數為最終傳播信息的人群及其所有會接受到該信息的粉絲.初始免疫者為網絡中內因和外因值均為0的用戶群,即先剔除網絡中尤其不活躍的用戶;初始信息已知者為兩個時間片內知道該信息的用戶;網絡中剩下的用戶群為信息未知者.從實驗圖中可看出,在信息傳播過程中,信息未知者密度不斷較少,信息免疫者密度持續(xù)增大,信息已知者先增大后減小,總有一個時間段信息已知者會達到峰值,稱為信息爆發(fā)期;隨著時間的推移,三種狀態(tài)會之間趨于穩(wěn)定,即信息處于消亡期,驗證了信息已知者會逐漸演變?yōu)樾畔⒚庖哒?網絡中最終用戶群的狀態(tài)為信息未知者和消息免疫者兩種人群.右邊一列圖4(b),(d),(f)為活躍時期真實的消息已知者和模型估計值對比,從圖中大致觀察到本文所建模型的精確度與真實信息傳播趨勢較為接近.
圖4 (網刊彩色)真實情況和模型結果對比 (a)話題A的SIR估計比例;(b)話題A的真實感染人群和模型估計值,總人數N=216792;(c)話題B的SIR估計比例;(d)話題B的真實感染人群和模型估計值,總人數N=38188;(e)話題C的SIR估計比例;(f)話題C的真實感染人群和模型估計值,總人數N=39197Fig.4.(color on line)Contrast between real situation and model resu lts contrast:(a)SIR estimated proportion of topic A;(b)contrast between real in fected people and model estimation of topic A,N=216792;(c)SIR estimated proportion of topic B;(d)contrast between real in fected people and model estimation of topic B,N=38188;(e)SIR estimated proportion of topic C;(f)contrast between real in fected people and model estimation of topic C,N=39197.
本文選定初始信息已知者作為研究對象,運用多元線性回歸模型驗證影響力內因和外因的擬合程度.通過殘差衡量標準,獲得如圖5所示的信息殘差序列圖,橫坐標為不同用戶的編號,縱坐標為殘差值.
圖5 (網刊彩色)殘差序列圖 (a)話題 A;(b)話題B;(c)話題 CFig.5.(color on line)Residual plot:(a)Topic A;(b)topic B;(c)topic C.
通過圖5可以觀察到,殘差序列整體上較平穩(wěn),基本上都落在[?1,1]的區(qū)間,說明觀察值和估計值之差較小,預估方程符合客觀事實,即內部靜態(tài)因素和外部動態(tài)因素在群體影響力的度量上有一定的相關性.
為了衡量不同靜態(tài)內部屬性對用戶內部影響力的影響,本文分別選取度數、介數、緊密度兩兩組合進行實驗,得出不同指標與信息已知群體的關系如圖6所示.橫坐標表示時間序列,縱坐標表示消息已知者累積值.
圖6 (網刊彩色)用戶內部因素影響變化趨勢 (a)話題A內因影響量化圖;(b)話題B內因影響量化圖;(c)話題C內因影響量化圖Fig.6.(color on line)Trends of user internal in fl uence:(a)Internal factors quantization of topic A;(b)internal factors quantization of topic B;(c)internal factors quantization of topic C.
如圖6(a)所示,當除去網絡中的度數影響時,信息擴散峰值普遍增加,尤其是對話題A的影響較為明顯.經計算對比,在初始傳播節(jié)點中,話題A的平均度數為1069.14,話題B的平均度數為877.3,話題C的平均度數為956.31.由此可見,信息在初始傳播節(jié)點平均度數大的網絡中傳播較廣,這與現實是相符的,往往朋友多的人比朋友少的人更容易成為意見領袖,促進信息的傳播.如圖6(b)所示,當除去網絡中介數的影響時,信息擴散受到較大影響,甚至難以擴散.這是因為介數是用來評價節(jié)點的流量承載能力的指標,常用來衡量網絡中某一用戶向所有用戶之間傳遞信息的重要程度.若除去重要的節(jié)點,將影響其周圍眾多節(jié)點接收信息.如圖6(c)所示,當除去網絡緊密度時,信息受眾最大峰值將會下降.這是由于網絡緊密度反映給定節(jié)點到其他節(jié)點中可達程度,若網絡不緊密,信息傳播會受到限制.
為了進一步分析內因和外因對信息傳播的影響,本文采用時間分片的方法,截取信息擴散活躍階段進行研究,嘗試將社交影響力的內因和外因認同度量化.如圖7所示,橫坐標為活躍時間段(每2 h為一個時間片),縱坐標為信息擴散的驅動因子認同度.
通過以話題A、話題B、話題C為例的實驗發(fā)現,在線社會網絡信息傳播的驅動因子在不同時間段會動態(tài)變化,但整體波動不大.即便靜態(tài)因素和動態(tài)因素均存在一定的差異,但就總體而言,在整個信息傳播過程中,外因的作用力比內因的作用力大.在信息傳播后期,內因的量化值基本上為0,即內因所起作用不大.這種情況與現實社會是相符的,人們在社交網絡中不是獨立的個體,人與人之間的信息互動交流是促進其傳播最直接的成因,而不僅僅是依靠網絡的靜態(tài)結構.也就是說,針對信息傳播和話題演化,個體記憶并不占據優(yōu)勢地位,相反卻是用戶交互在信息傳播的生命周期起主導作用.
接下來,在前面構建的信息傳播模型的基礎上,分別固定平均場方程中的感染率和免疫率,分析三類信息的傳播廣度.如圖8所示,從上述三類信息中計算得到的信息傳播影響力出發(fā),取δ=0.05的步長,在(0,1)范圍內分析信息傳播過程中的最大覆蓋范圍.
圖7 (網刊彩色)信息傳播驅動因子的變化趨勢 (a)話題A驅動因子量化圖;(b)話題B驅動因子量化圖;(c)話題C驅動因子量化圖Fig.7.(color on line)Trends of information dissemination d riving factors:(a)D riving factors quantization of topic A;(b)d riving factors quantization of topic B;(c)d riving factors quantization of topic C.
從圖8的實驗結果可以發(fā)現,最大感染峰值MIP(max infected peak)在三類信息中明顯地表現為隨著感染率的增大而上升,隨著免疫率的減小而下降.最大感染峰值的變化表明用戶單位時間內信息的傳播力度是有差異的.顯然,MIP值越大,表明單位時間內信息擴散的速度越快.MIP作為衡量用戶傳播信息速度和信息覆蓋程度的指標,很大程度上受感染率和免疫率的直接影響.如果感染率很大,信息很快就會擴散,一旦控制不當,甚至能影響整個網絡;如果免疫率很小,信息也會傳播得很快,并且覆蓋整個網絡.特別地,如果感染率控制在較小的范圍,免疫率控制在較大的范圍,信息就能較好地維持在初始感染水平,知道信息的用戶不會爆發(fā)式增長.所以,相關部門可以從信息感染率和免疫率兩方面著手,對網絡輿情進行有效管控.
圖8 (網刊彩色)感染人數峰值 (a)感染峰值隨θ(t)的變化情況:topic A,1?θ(t)=0.301;topic B,1?θ(t)=0.266;topic C,1?θ(t)=0.126;(b)感染峰值隨1?θ(t)變化情況:topic A,θ(t)=0.699;topic B,θ(t)=0.734;topic C,θ(t)=0.874Fig.8.(color on line)Peak of in fected people:(a)Peak change with θ(t),topic A,1? θ(t)=0.301;topic B,1? θ(t)=0.266;topic C,1? θ(t)=0.126;(b)peak change with 1? θ(t),topic A,θ(t)=0.699;topic B,θ(t)=0.734;topic C,θ(t)=0.874.
通過分析人們相互之間的影響模式和信息傳播方式,既能夠從社會學角度加深理解人們的社會行為,為公共決策和輿情導向等提供理論依據,同時還能促進政治、經濟和文化活動等多個領域的交流和傳播,具有重要的社會意義和應用價值.考慮到在線社交影響力及其傳播過程受諸多因素制約,而且不同因素之間往往相互影響,本文對具有特定屬性的用戶深入探討并對用戶與信息之間的交互行為進行分析和度量.在此基礎上,本文采用改進的SIR模型作為信息傳播模型,將用戶群體劃分為信息未知者、信息已知者、信息免疫者三種狀態(tài),并把量化后的影響力作為狀態(tài)轉移參數的理論支撐.研究表明,本文優(yōu)化的模型可以從更為宏觀的層面上理解社交影響力的作用原理和信息傳播機制,解釋信息傳播的內部和外部動力學成因,探知挖掘人類的行為特征和行為規(guī)律,促進該領域知識的進步和發(fā)展,為社會感知信息傳播態(tài)勢和制定信息傳播管控策略提供理論依據.
[1]CaiM,Du HF,Feldman MW 2014Acta Phys.Sin.63 060504(in Chinese)[蔡萌,杜海峰,Feldman MW 2014物理學報63 060504]
[2]Zhou B,He Z,Jiang L L,W ang N X,W ang BH2014Sci.Rep.4 7577
[3]Huang J,Li C,W ang W Q,Shen HW,Li G,Cheng X Q 2014Sci.Rep.4 5334
[4]Zheng M,LüL,ZhaoM2013Phys.Rev.E88 012818
[5]Chen D B,Huang S,Shang MS 2011Comput.Sci.38 118(in Chinese)[陳端兵,黃晟,尚明生 2011計算機科學38 118]
[6]Chen D B,GaoH2012Chin.Phys.Lett.29 048901
[7]Borge-Holthoefer J,MorenoY 2012Phys.Rev.E85 026116
[8]W ang C,Liu C Y,Hu Y P,Liu Z H,Ma J F 2014Acta Phys.Sin.63 180501(in Chinese)[王超,劉騁遠,胡遠萍,劉志宏,馬建峰2014物理學報63 180501]
[9]Lu W,Chen W,Lakshmanan L V S 2015Proceedings of the VLDBEndowmentHawaii,USA,August 31–September 4,2015 p60
[10]Elias Boutros K,Dilkina B,Song L 2014Proceedings of the 20th ACMSIGKDD In ternationa l Conference on Knowledge D iscovery and Data MiningNewYork,USA,August 24–27,2014 p1226
[11]Singer Y 2012Proceedings of the Fifth ACMIn ternational Conference on Web Search and Data MiningW ashington,USA,Feb ruary 8–12,2012 p733
[12]Liu JG,Lin JH,GuoQ,Zhou T2016Sci.Rep.6 21380
[13]Montanari A,Saberi A2010Proc.Natl.Acad.Sci.107 20196
[14]Yuan X P,Xue Y K,Liu MX 2013Chin.Phys.B22 030207
[15]Pastor-Satorras R,CastellanoC,van Mieghe P,Vespignani A2015Rev.Mod.Phys.87 925
[16]Kempe D,Jon K,éva T2003Proceedings of the N in th ACMSIGKDD International Conference on Knowledge D iscovery and Data MiningW ashington,USA,August 24–27,2003 p137
[17]Liu Q M,Deng C S,Sun MC 2014Physica A410 79
[18]Li C H,Tsai C C,Yang S Y 2014Commun.Non linear Sci.19 1042
[19]Chen L,Sun J 2014Physica A410 196
[20]X iong F,Liu Y,Zhang Z J,Zhu J,Zhang Y 2012Phys.Lett.A376 2103
[21]Li T,W ang Y,Guan Z H2014Commun.Non linear Sci.19 686
[22]X iong F,W ang X M,Cheng J J 2016Chin.Phys.B25 108904
[23]Kitsak M,Gallos L K,Hav lin S,Liljeros F,Muchnik L,Stan ley HE,Makse HA2010Nat.Phys.6 888
[24]Hu Q C,Zhang Y,Xu X H,Xing C X,Chen C,Chen X H2015Acta Phys.Sin.64 190101(in Chinese)[胡慶成,張勇,許信輝,邢春曉,陳池,陳信歡2015物理學報64 190101]
[25]LüL Y,Chen D B,Ren X L,Zhang Q M,Zhang Y C,Zhou T2016Phys.Rep.650 1
[26]W u Y,Yang Y,Jiang F,Jin S,Xu J 2014Physica A416 467
[27]Liben-Nowell D,Kleinberg J 2008Proc.Natl.Acad.Sci.105 4633
[28]LüL Y,Zhou T,Zhang Q M,Stan ley HE 2016Nat.Commun.7 10168
[29]Myers S A,Zhu C,Leskovec J 2012Proceedings of the 18th ACMSIGKDD In ternational Conference on Knowledge Discovery and Data MiningBeijing,China,August 12–16,2012 p33
[30]Aral S,W alker D 2012Science337 337
[31]La Fond T,Neville J 2010Proceedings of the 19th In ternational Conference on World W ide WebRaleigh,USA,April 26–30,2010 p601
[32]Li P,Zhang J,Xu X K,Small M2012Chin.Phys.Lett.29 048903
[33]Newman,ME J 2012Nat.Phys.8 25
[34]Barabási AL,Albert R,Jeong H1999Physica A272 173
[35]Ped roche F,MorenoF,González A,Valencia A2013Math.Comput.Model57 1891
PACS:05.10.–a,89.75.FbDOI:10.7498/aps.66.030501
An in formation d iff usion dynamic model based on social in fl uence and mean-fi eld theory?
XiaoYun-Peng?Li Song-Yang Liu Yan-Bing
(Chongqing Engineering Laboratory of Internet and Information Security,Chongqing University of Posts and Telecommunications,Chongqing 400065,China)(Received 7 June 2016;revised manuscript received 18 October 2016)
W ith the development of on line socialnetworks,they rapid ly become an ideal platformfor in formation about social information diff usion,commodity marketing,shopping recommendation,opinion expression and social consensus.The social network in formation propagation has become a research hotspot correspondingly.Meanwhile,in formation diff usion contains complex dynamic genesis in on line social networks.In viewof the diversity of in formation transmission,the effi ciency of propagation and the convenience of interaction,it is very important toregu late the accuracy,strengthen the public opinion monitoring and formulating the information control strategy.
The purpose of this study is toquantify the intensity of the infl uence,especially provides a theoretical basis for studying the state transition of diff erent user groups in the evolution process.As existing epidemic model paid less attention toinfluence factors and previous research about in fluence calculation mainly focused on static network topology but ignored individual behavior characteristics,we propose an in formation diff usion dynamicsmodel based on dynamic user behaviors and infl uence.Firstly,according tothe multiple linear regression model,we put forward a method toanalyze internal and external factors for influence formation fromtwoaspects:personalmemory and user interaction.Second ly,for a similar propagationmechanismof information diff usion and epidemics spreading,in this paper we present an improved SIR model based on mean-field theory by introducing influence factor.
The contribution of this paper can be summarized as follows.1)For the infl uence quantification,diff erent fromthe current research work that mainly focuses on network structure,we integrate the internal factors and external factors,and propose a user influence evaluation method based on themu ltiple linear regression model.The individualmemory principle is analyzed by combining user attributes and individual behavior.User interaction is alsostudied by using the shortest path method in graph theory.2)On modeling the in formation diff usion,by referring SIR model,we introduce the user infl uence factor as the parameter of the state change intothe epidemic model.Themean-field theory is used toestablish the diff erential equations.Subsequently,the novel information diff usion dynamicsmodel and verification method are proposed.The method avoids the randomness of the artificial setting parameters within the model,and reveals the nature ofmulti-factors coupling in the information transmission.
Experimental resu lts showthat the optimized model can comprehend the principle and information diff usion mechanismof social infl uence froma more macroscopic level.The study can not on ly explain the internal and external dynamics genesis of information diff usion,but alsoexplore the behavioral characteristics and behavior laws of human.In addition,we try toprovide theoretical basis for situation awareness and control strategy of social information diff usion.
information dissemination,diffusion dynamics,individual influence,mean-field theory
10.7498/aps.66.030501
?國家重點基礎研究發(fā)展計劃(批準號:2013CB329606)、國家自然科學基金(批準號:61272400)、重慶市青年人才項目(批準號:cstc2013kjrc-qnrc40004)、教育部–中國移動研究基金(批準號:MCM20130351)、重慶市研究生研究與創(chuàng)新項目(批準號:CYS14146)、重慶市教委科學計劃項目(批準號:KJ1500425)和重慶郵電大學文峰基金(批準號:W F201403)資助的課題.
?通信作者.E-mail:xiaoyp@cqupt.edu.cn
*Project supported by the National Basic Research Programof China(G rant No.2013CB329606),the National Natural Science Foundation of China(G rant No.61272400),the Chongqing Youth Innovative Talent Project,China(G rant No.cstc2013k jrc-qn rc40004),the Foundation of Ministry of Education of China and China Mobile(G rant No.MCM20130351),the Chongqing G raduate Research and Innovation Project,China(G rant No.CYS14146),the Science and Technology Research Programof the Chongqing Municipal Education Committee,China(G rant No.KJ1500425),theWenFeng Foundation of Chongqing University of Post and Telecommunications,China(G rant No.W F201403).
?Corresponding author.E-mail:xiaoyp@cqupt.edu.cn