張 永,和 凱
蘭州理工大學(xué) 計算機(jī)與通信學(xué)院,蘭州 730050
社交網(wǎng)絡(luò)服務(wù)SNS(Social Network Service)近年來發(fā)展迅速,其憑借網(wǎng)絡(luò)的強(qiáng)大連通力將人們的社交范圍從現(xiàn)實(shí)的人際關(guān)系擴(kuò)展到虛擬的網(wǎng)絡(luò)中來。通過即時聊天工具、微博、博客、網(wǎng)絡(luò)社區(qū)等網(wǎng)絡(luò)應(yīng)用將人們的社交范圍逐步擴(kuò)大,最終形成一個人與人關(guān)聯(lián)的巨大的復(fù)雜網(wǎng)絡(luò)。Facebook是目前世界上最大的在線社交網(wǎng)絡(luò),目前已擁有超過22億的總用戶,并據(jù)Facebook預(yù)測到2030年用戶總數(shù)將會達(dá)50億人。社交網(wǎng)絡(luò)不但具有互聯(lián)網(wǎng)絡(luò)的物理特性,還包含了人際關(guān)系的社交特性,是一個典型的復(fù)雜網(wǎng)絡(luò),其規(guī)模及影響范圍正在不斷擴(kuò)大。
針對社交網(wǎng)絡(luò)上的信息傳播問題已有一定的研究成果,如謠言傳播問題[1-3]、社交網(wǎng)絡(luò)中的信息轉(zhuǎn)發(fā)預(yù)測[4-6]、信息傳播的模型研究[7-11]等,其中用戶影響力問題[12-20]一直是一個熱點(diǎn)。由于社交網(wǎng)絡(luò)的復(fù)雜特性,影響信息傳播的因素非常多,要提取所有對信息傳播有影響的特征不現(xiàn)實(shí),過多的特征會使得模型復(fù)雜度過高。在上述研究問題中,無論是謠言傳播與轉(zhuǎn)發(fā)預(yù)測,還是構(gòu)造信息傳播模型,信息源節(jié)點(diǎn)的權(quán)威性這一特征會對信息的傳播結(jié)果有重要的影響。因此量化信息源節(jié)點(diǎn)的權(quán)威性,對精確描述信息傳播的過程有重要意義。其中文獻(xiàn)[13]利用網(wǎng)絡(luò)拓?fù)鋵ふ抑匾?jié)點(diǎn),文獻(xiàn)[19]則研究了在有社區(qū)結(jié)構(gòu)的網(wǎng)絡(luò)中如何尋找重要節(jié)點(diǎn)。
本文主要解決的問題是如何通過衡量信息源節(jié)點(diǎn)的影響力來確定一條信息的初始傳播概率。本文的研究重點(diǎn)是在實(shí)際傳播開始之前給出一個明確的傳播概率,取代以往研究中根據(jù)經(jīng)驗(yàn)設(shè)定的固定值,而不考慮在傳播過程中,由于輿論導(dǎo)向,人際關(guān)系的相互影響等因素而引起的動態(tài)傳播狀態(tài)變化。本文參考了基于隨機(jī)游走的知識圖譜問題的解決方案[21-22],提出一種基于節(jié)點(diǎn)影響力的初始傳播概率計算方法。實(shí)驗(yàn)以SIR傳染病模型[23]為信息傳播基礎(chǔ)模型,首先證明節(jié)點(diǎn)影響力對傳播結(jié)果有重要影響,其次證明了基于影響力的算法的有效性,最后對比了基于節(jié)點(diǎn)影響力的信息傳播概率與固定傳播概率在傳播過程中的差異。信息傳播概率可以為預(yù)測信息傳播規(guī)模、分析信息傳播特點(diǎn)、挖掘輿論導(dǎo)向等問題提供一定的依據(jù)。
社交網(wǎng)絡(luò)上影響力的研究是社交計算的重要內(nèi)容,找出有影響力的節(jié)點(diǎn)在社會輿論導(dǎo)向、商業(yè)營銷、謠言識別以及專家發(fā)現(xiàn)等問題上都有重要意義。目前對于如何確定一個社交網(wǎng)絡(luò)用戶的影響力有很多的研究,其方法大致可以歸結(jié)為兩類:基于網(wǎng)絡(luò)拓?fù)涞姆椒ㄅc基于用戶行為的方法。其中基于網(wǎng)絡(luò)拓?fù)涞挠绊懥λ惴ㄏ啾然谟脩粜袨榈乃惴ǜ雍唵吻覐?fù)雜度低,常用的有基于節(jié)點(diǎn)度(Degree Centrality)、基于最短路徑的介數(shù)中心度(Betweenness Centrality)、緊密中心度(Closeness Centrality)、基于隨機(jī)游走的特征向量中心度等算法。
確定節(jié)點(diǎn)的影響力問題,類似于PageRank算法對網(wǎng)頁排名的問題,需要對每一個節(jié)點(diǎn)確定影響力。針對大規(guī)模社交網(wǎng)絡(luò)而言,傳統(tǒng)的節(jié)點(diǎn)影響力度量指標(biāo)效果均不理想。比如用度中心度來衡量節(jié)點(diǎn)影響力的效果很差,而介數(shù)中心度與緊密中心度雖然效果較好,但是時間復(fù)雜度高達(dá)O(n3),性能無法接受。
節(jié)點(diǎn)ui的度中心度以Ck(ui)表示:
節(jié)點(diǎn)ui的介數(shù)中心度CB用以衡量網(wǎng)絡(luò)中包含節(jié)點(diǎn)ui的任意兩個節(jié)點(diǎn)間的最短路徑的條數(shù),占所有最短路徑條數(shù)的比例大小。它可以較好地描述節(jié)點(diǎn)ui在網(wǎng)絡(luò)中的中心性,即對其他節(jié)點(diǎn)的影響力大小,以CB(ui)表示:
其中,σst是節(jié)點(diǎn)s與節(jié)點(diǎn)t間所有最短路徑的條數(shù),而σst(v)則是包含節(jié)點(diǎn)ui的s與t間最短路徑的條數(shù)。
節(jié)點(diǎn)ui的緊密中心度CC用以衡量節(jié)點(diǎn)ui到網(wǎng)絡(luò)中其他節(jié)點(diǎn)的距離之和,即如果節(jié)點(diǎn)ui發(fā)出一條信息,需要多久能傳播到所有能夠到達(dá)的節(jié)點(diǎn)。
其中,dG=(ui,t)是節(jié)點(diǎn)v到節(jié)點(diǎn)t 的距離。
但是,在社交網(wǎng)絡(luò)中,有一種如圖1所示的常見現(xiàn)象。在圖1(a)中,中心節(jié)點(diǎn)雖然本身具有很大影響力,但它的鄰居節(jié)點(diǎn)卻都是小影響力節(jié)點(diǎn)。而圖1(b)中,中心節(jié)點(diǎn)雖然本身影響力小,但它有4個影響力大的鄰居。這種情況會使得圖1(b)的中心節(jié)點(diǎn)比圖1(a)的中心節(jié)點(diǎn)擁有更大的影響力,而圖1(b)中心節(jié)點(diǎn)的度卻比圖1(a)中心節(jié)點(diǎn)的度小。進(jìn)一步的,本文發(fā)現(xiàn)如果有圖1(c)這樣的結(jié)構(gòu),在中心節(jié)點(diǎn)本身度很小的情況下,在它的附近有幾個權(quán)威節(jié)點(diǎn),信息可能需要經(jīng)過一次傳播,或經(jīng)過較少的兩次或三次的傳播后,能到達(dá)這幾個重要的節(jié)點(diǎn)。在這種情況下,如圖1(c)這樣的中心節(jié)點(diǎn)仍會擁有較大的影響力。圖2為以類似圖1(a)、圖1(b)、圖1(c)的中心節(jié)點(diǎn)為信息源節(jié)點(diǎn),在SIR模型上的傳播結(jié)果,橫軸t為傳播輪次,縱軸為最大感染率。在圖2中可以看到度數(shù)最大的中心節(jié)點(diǎn)影響力卻最小,這表明簡單的節(jié)點(diǎn)影響力度量單位不能很好反映出潛在重要節(jié)點(diǎn)所帶來的影響力變化。
圖1 三種不同情況下的信息源節(jié)點(diǎn)
圖2 三種不同情況下的信息源節(jié)點(diǎn)影響力比較
文獻(xiàn)[7]中的方法考慮到了圖1(b)中的這種情況,如果一個節(jié)點(diǎn)的鄰居節(jié)點(diǎn)或鄰居節(jié)點(diǎn)的鄰居節(jié)點(diǎn)是影響力很大的節(jié)點(diǎn),即沿著網(wǎng)絡(luò)拓?fù)湎蛲鈧鞑?層時,若這個信息源節(jié)點(diǎn)周圍有重要節(jié)點(diǎn)與之相連,那么這個節(jié)點(diǎn)因此影響力也會比較大。但是考慮到圖1(c)的情況,也許在一個節(jié)點(diǎn)向外傳播3層或4層就會有許多重要節(jié)點(diǎn),那么上述的各種方法便不能反映出這些重要節(jié)點(diǎn)對信息源節(jié)點(diǎn)影響力的作用。
本文針對社交網(wǎng)絡(luò)上的信息傳播特點(diǎn),用基于隨機(jī)游走的節(jié)點(diǎn)影響力算法來確定信息傳播概率。其主要思想為:對于一個社交網(wǎng)絡(luò)G=(V,E),其中V為所有頂點(diǎn)的集合,E為所有邊集合,設(shè)置N個從信息源節(jié)點(diǎn)v出發(fā)隨機(jī)游走器,游走長度為L的路徑,計算每條路徑權(quán)重,最后將沿著信息源節(jié)點(diǎn)出發(fā)游走到的路徑權(quán)重求和,得到信息源節(jié)點(diǎn)的影響力大小,歸一化后設(shè)為信息傳播概率。詳細(xì)算法描述如下。
從所求節(jié)點(diǎn)v出發(fā),設(shè)置隨機(jī)游走器數(shù)量為N,游走路徑長度為L。則隨機(jī)游走器Ni的一次長度為L的隨機(jī)游走所帶來的權(quán)重為:
其中,本文N的取值根據(jù)計算量要求可靈活設(shè)置,LNi為隨機(jī)游走器Ni在長度L的游走路徑上的所有節(jié)點(diǎn)的集合。Cv′為節(jié)點(diǎn)v′的權(quán)重值,計算公式如下:
其中,Γ(v′)為節(jié)點(diǎn)v′的最近鄰居節(jié)點(diǎn)集合,Q(u)的計算公式為:
其中,Γ(u)為節(jié)點(diǎn)u的最近鄰居節(jié)點(diǎn)集合,degree為節(jié)點(diǎn)z的度。然后將所有隨機(jī)游走器帶來的權(quán)值求平均,即得最終節(jié)點(diǎn)的影響力評分,表示為:
其中Nc為設(shè)置的degree(e)×3個隨機(jī)游走器的集合。最后利用Score的最大與最小值的差將Score值歸一化為傳播概率。
以圖3為例解釋上述影響力算法。節(jié)點(diǎn)1為信息源節(jié)點(diǎn),假設(shè)有2個隨機(jī)游走器,游走到了2條路徑,分別是LN1=(1,3,6),LN2=(1,12,13)。節(jié)點(diǎn)1的影響力評分Score(1)=hN1(1)+hN2(1)=78+43=121。其中有hN1(1)=C(1)+C(3)+C(6),C(3)=Q(1)+Q(6),Q(3)=degree(1)+degree(6),其余同理可得。
圖3 隨機(jī)游走示例圖
本文實(shí)驗(yàn)中使用四種社交網(wǎng)絡(luò):MSN Space(MS)、NetsScience(NS,一種科學(xué)家發(fā)表論文的合作關(guān)系網(wǎng)絡(luò))、Twitter(TW)、新浪微博(XL)。其中實(shí)驗(yàn)所用MS的 數(shù) 據(jù) 取 自 http://www.cs.bris.ac.uk/~steve/networks/peacockpaper;NS 數(shù)據(jù)取自 http://www.personal.umich.edu/~mejn/netdata;TW數(shù)據(jù)取自http://snap.stanford.edu/data/;XL數(shù)據(jù)取自http://www.nlpir.org/?action-viewnewsitemid-299。假設(shè)這四種網(wǎng)絡(luò)均為無向無權(quán)圖,以G=(V,E)表示,其中V表示網(wǎng)絡(luò)節(jié)點(diǎn)的集合,E表示鏈接V的邊的集合。詳細(xì)網(wǎng)絡(luò)拓?fù)鋽?shù)據(jù)如表1所示,具體網(wǎng)絡(luò)度分布如圖4所示。
表1 網(wǎng)絡(luò)參數(shù)
首先可以看到圖4所示的四種社交網(wǎng)絡(luò)均很好地服從了冪率分布,符合典型社交網(wǎng)絡(luò)的分布特點(diǎn)。其中Twitter的聚類系數(shù)相對較大,為同配性網(wǎng)絡(luò),MSN Space、NetsScience、Twitter與新浪微博為異配性網(wǎng)絡(luò)。需要注意的是Twitter與新浪微博中存在權(quán)威節(jié)點(diǎn)的現(xiàn)象相對更加明顯,可以看到大量節(jié)點(diǎn)分布在103量級附近,而MSN Space與NetsScience中權(quán)威節(jié)點(diǎn)則更多分布在102量級附近。在圖4(d)中可以看到,在度2 000的位置有一個明顯的尾部上升趨勢,這是因?yàn)樾吕宋⒉┍旧硐拗谱畲箨P(guān)注2 000人,在節(jié)點(diǎn)度數(shù)達(dá)到2 000后,便不能再增長。
SIR傳染病模型可將社交網(wǎng)絡(luò)中信息的傳播過程描述如下:某幾個節(jié)點(diǎn)首先發(fā)出一條信息,成為初始信息源節(jié)點(diǎn),這些處于傳播信息狀態(tài)的節(jié)點(diǎn)為感染狀態(tài)(Infected,I),其余暫時未接觸到這條信息的節(jié)點(diǎn)為易感染狀態(tài)(Susceptible,S)。這些處于感染狀態(tài)節(jié)點(diǎn)的直接鄰居節(jié)點(diǎn)會接收到信息,并以一定的概率傳播這條信息,由易感染狀態(tài)變?yōu)楦腥緺顟B(tài),這個概率就是上述提到信息的初始傳播概率。而處于感染狀態(tài)節(jié)點(diǎn)不會一直處于感染狀態(tài),它們會在一定時間后,結(jié)束傳播過程,轉(zhuǎn)變?yōu)槊庖郀顟B(tài)(Recovered,R),不再傳播該信息。SIR模型可用下列微分方程組描述:
圖4 各網(wǎng)絡(luò)的度分布
表2 各網(wǎng)絡(luò)中影響力前五的節(jié)點(diǎn)
實(shí)際上使用簡單的SIR模型不能完全描述社交網(wǎng)絡(luò)中各種復(fù)雜的節(jié)點(diǎn)狀態(tài),且模型在計算節(jié)點(diǎn)狀態(tài)的改變概率時并沒有考慮到社交網(wǎng)絡(luò)中節(jié)點(diǎn)相互影響的重要特性。針對此問題,文獻(xiàn)[2],文獻(xiàn)[9]與文獻(xiàn)[11]的研究內(nèi)容主要是在模型信息傳播過程時,對簡單病毒傳播模型的改進(jìn)。目前主要的改進(jìn)手段為添加新類型的節(jié)點(diǎn)以描述社交網(wǎng)絡(luò)中節(jié)點(diǎn)的傳播狀態(tài),或設(shè)定一些符合特定社交網(wǎng)絡(luò)中信息的規(guī)則。本文為了保持除初始傳播概率這一影響傳播的因素外,其他影響因素不變,故使用了傳統(tǒng)的SIR模型,以方便對照實(shí)驗(yàn)結(jié)果。
實(shí)驗(yàn)首先通過對比已有的節(jié)點(diǎn)權(quán)威性度量單位:度中心度、介數(shù)中心度、緊密中心度來確定本文影響力評分Score計算方法的有效性。最后對比了使用基于影響力算法的傳播概率,與使用固定傳播概率的最終傳播結(jié)果的差異。
表2為根據(jù)上述指標(biāo)得到影響力最大的前5個節(jié)點(diǎn)。其中CK表示度中心度的計算結(jié)果,CB表示介數(shù)中心度的計算結(jié)果,CC表示緊密中心度的計算結(jié)果,Score為本文方法的計算結(jié)果,游走長度L取值為5,隨機(jī)游走器數(shù)量取值為degree(e)×100。如表2所示,總體來看本文提出的Score值與度中心度的衡量結(jié)果相似度更大,和介數(shù)中心度與緊密中心度的衡量結(jié)果相似度較小。介數(shù)中心度與緊密中心度的衡量結(jié)果較為相似,因?yàn)檫@兩個指標(biāo)都是基于最短路徑的,而本文提出的方法采用的是隨機(jī)游走與度中心度結(jié)合的一種方法,因而結(jié)果更接近于度中心度?,F(xiàn)今社交網(wǎng)絡(luò)的規(guī)模越來越大,許多社交網(wǎng)絡(luò)上有數(shù)億個節(jié)點(diǎn),即使截取部分網(wǎng)絡(luò),如同介數(shù)中心度與緊密中心度這樣時間復(fù)雜度高達(dá)O(n3)的算法仍然是不可接受的。本文Score算法好處在于通過控制隨機(jī)游走器的數(shù)量與游走的路徑長度,可以很好地控制算法的時間消耗,在計算效率與精確度之間的關(guān)系上具有良好的靈活性。
因?yàn)镾core的計算方法是基于隨機(jī)游走的,而隨機(jī)游走本身帶有一定的不確定性,所以為確保實(shí)驗(yàn)結(jié)果的穩(wěn)定性,本文在隨機(jī)游走器的數(shù)量分別設(shè)為degree(e)×10、degree(e)×50、degree(e)×100的情況下對每個網(wǎng)絡(luò)上的Score評分最大的節(jié)點(diǎn)進(jìn)行了10次評分。實(shí)驗(yàn)結(jié)果表明,在degree(e)×100的情況下,隨機(jī)游走的結(jié)果能夠達(dá)到比較穩(wěn)定的狀態(tài),特別是針對權(quán)威節(jié)點(diǎn)的評分更加穩(wěn)定。如圖5所示,橫軸t為實(shí)驗(yàn)輪次,縱軸為Score評分。隨著隨機(jī)游走器數(shù)量的增加,基于隨機(jī)游走的方法的實(shí)驗(yàn)結(jié)果是越來越穩(wěn)定的,所以Score算法應(yīng)具有足夠的健壯性。
針對上述結(jié)果,本文根據(jù)以往研究,采取固定傳播概率PSI=0.2進(jìn)行輪次t=15的傳播仿真。最終感染比率I(t)分別與表2中的四種指標(biāo)比較其關(guān)聯(lián)性,繪制如圖6與圖7所示的關(guān)系圖。好的影響力指標(biāo)應(yīng)當(dāng)在影響力增大的同時,使最終感染人數(shù)增大??梢栽趫D6與圖7中看到,在四種網(wǎng)絡(luò)中緊密中心度的表現(xiàn)相對較好,特別是在MSN Space與NetsScience中,緊密中心度的結(jié)果與最終感染人數(shù)比率有很強(qiáng)的正相關(guān)性,在Twitter與新浪微博中的相關(guān)性相對較小。這可能是因?yàn)橄啾萂SN Space與NetsScience,Twitter與新浪微博這類社交網(wǎng)絡(luò)的社交性更強(qiáng),網(wǎng)絡(luò)更加復(fù)雜。人們在這種網(wǎng)絡(luò)上傳播信息會受到更多種因素的影響,如是否是熱點(diǎn)話題,是否含有圖片與超鏈接等因素都會影響最終的傳播結(jié)果,所以信息源節(jié)點(diǎn)對權(quán)威性這一因素的作用可能會被稀釋。在MSN Space與NetsScience網(wǎng)絡(luò)中,Score值的效果雖不如緊密中心度,但明顯優(yōu)于度中心度與介數(shù)中心度。而在Twitter網(wǎng)絡(luò)中緊密中心度表現(xiàn)出一定的關(guān)聯(lián)性,其余指標(biāo)表現(xiàn)結(jié)果均不理想。在新浪微博中,Score值略優(yōu)于其他三種指標(biāo)。
圖5 Score評分的穩(wěn)定性示意圖
圖6 MSN Space與NetsScience上最終感染比率與各影響力指標(biāo)間的關(guān)系
為了驗(yàn)證Score值的有效性,圖8為在MSN Space、NetsScience、Twitter與新浪微博中以各影響力指標(biāo)排名第一的節(jié)點(diǎn)作為信息源節(jié)點(diǎn),同樣以固定傳播概率PSI=0.2在SIR模型中傳播10次,得到的最終感染率變化的曲線圖??梢钥吹皆贛SN Space中,四種影響力指標(biāo)均排名第一的節(jié)點(diǎn)cjun50在最終感染比率上明顯高于其他節(jié)點(diǎn),這首先可以說明節(jié)點(diǎn)權(quán)重對信息傳播結(jié)果有明顯的影響,高影響力節(jié)點(diǎn)傳播的信息會感染更多節(jié)點(diǎn)。其次,可以看到cjun50節(jié)點(diǎn)的最終感染率是明顯高于其他節(jié)點(diǎn)的,由表2所示數(shù)據(jù)可知,Score值將此節(jié)點(diǎn)排名第一,且cjun50的Score值是明顯高于其他節(jié)點(diǎn)的,而其他評價值卻相差不大,這顯示出Score值一定的優(yōu)越性。由Score值識別出的一個重要節(jié)點(diǎn)chanxiner,與緊密中心度、介數(shù)中心識別為第二重要節(jié)點(diǎn)的xhzd其最終感染率相近,但其他指標(biāo)卻未識別出此節(jié)點(diǎn)。在NetsScience網(wǎng)絡(luò)中,由度中心度、緊密中心度與Score識別為排名第一的AKIMITSU,J,它的最終感染率的確較高,而介數(shù)中心度識別出的排名第一的節(jié)點(diǎn)AFFLECK,I的最終感染率也比較高,這說明這四種指標(biāo)NetsScience網(wǎng)絡(luò)中均有良好的表現(xiàn)。其中Score值將AEPPLI,G節(jié)點(diǎn)排在第二位,而度中心度與介數(shù)中心度也識別出了這個重要節(jié)點(diǎn),且Score排名前五個重要節(jié)點(diǎn)中,有三個節(jié)點(diǎn)由其他評價指標(biāo)確定為排名前五的重要節(jié)點(diǎn),說明這些節(jié)點(diǎn)的評價指標(biāo)有一定程度的相似性。在Twitter網(wǎng)絡(luò)中,首先可以看到由各個評價指標(biāo)選出的影響力排名前五的節(jié)點(diǎn)差異很大,與圖8數(shù)據(jù)所示結(jié)論一致,各個評價指標(biāo)的表現(xiàn)均不穩(wěn)定,差異較大。感染率最高的節(jié)點(diǎn)7861312由度中心度與介數(shù)中心度識別出,但得分不高。在新浪微博中,感染率較高的10413節(jié)點(diǎn),除了緊密中心度為將其排名前五外,其他三種指標(biāo)均識別出了這個重要節(jié)點(diǎn)。總的來說,Score評分與其他影響力指標(biāo)選擇出的重要節(jié)點(diǎn),對信息傳播的結(jié)果均有一定影響,證明Score值在評價節(jié)點(diǎn)影響力方面的有效性。且各指標(biāo)在不同的網(wǎng)絡(luò)上,性能好壞有差異。
圖7 Twitter與新浪微博上最終感染比率與各影響力指標(biāo)間的關(guān)系
表3 對比固定傳播概率與基于影響力的傳播概率
實(shí)驗(yàn)最后,在上述四種網(wǎng)絡(luò)上,任選一個節(jié)點(diǎn)為信息源節(jié)點(diǎn),分別采用由本文提出的基于影響力的信息傳播概率P(v),與固定概率Fixed=0.2進(jìn)行傳播模擬。具體選取情況見表3。實(shí)驗(yàn)結(jié)果如圖9所示,橫軸t為傳播輪次,縱軸為感染節(jié)點(diǎn)比例。可以明顯看到,不同的初始傳播概率對信息的傳播過程影響極大。對于不同的初始傳播概率,曲線斜率代表的信息傳播的速度不一致,曲線頂點(diǎn)代表的最大信息傳播范圍不一致,達(dá)到信息傳播的最大范圍時間也不一致,同時感染節(jié)點(diǎn)比例再次歸零,即信息消亡的時間也不一致,尤其在NetScience網(wǎng)絡(luò)上差異極大。這些結(jié)果證明了在以往的研究中,所有傳播過程均指定固定概率,忽略不同信息源節(jié)點(diǎn)的差異,是極為不準(zhǔn)確的。根據(jù)節(jié)點(diǎn)的影響力,給信息源節(jié)點(diǎn)不同的傳播概率,相比人為設(shè)定固定的傳播概率更為合理。
在以往的研究中,研究者的研究重點(diǎn)往往在于信息的傳播過程中,而忽略在傳播開始之前的環(huán)境影響。本文提出了一種基于節(jié)點(diǎn)影響力的信息傳播概率算法,用以確定不同信息源節(jié)點(diǎn)的初始傳播概率。實(shí)驗(yàn)通過在SIR模型上模擬信息傳播過程,通過驗(yàn)證影響力算法的有效性,證明計算后的傳播概率更加合理。影響力算法不僅可以用于計算信息傳播概率,同樣在謠言傳播、專家發(fā)現(xiàn)、傳染病控制等方面均有重要價值。
圖8 各權(quán)威節(jié)點(diǎn)的最終感染比率
圖9 固定傳播概率對比基于節(jié)點(diǎn)影響力的傳播概率
本文重點(diǎn)是在模擬傳播開始之前,根據(jù)節(jié)點(diǎn)本身屬性確定一個合適的初始傳播概率,代替以往研究中人為設(shè)定的固定概率。應(yīng)當(dāng)明確的是,在實(shí)際信息傳播過程中,傳播概率會受到很多因素的影響,如會受到周圍權(quán)威節(jié)點(diǎn),或當(dāng)前輿論導(dǎo)向的影響,這些在傳播過程中動態(tài)的影響因素將會是日后的研究方向。
:
[1]Zhao L J,Wang J J,Chen Y C,et al.SIHR rumor spreading model in social networks[J].Physica A,2012,391(7):2444-2453.
[2]顧亦然,夏玲玲.在線社交網(wǎng)絡(luò)中謠言的傳播與抑制[J].物理學(xué)報,2012,61(23).
[3]王輝,韓江洪,鄧林,等.基于移動社交網(wǎng)絡(luò)的謠言傳播動力學(xué)研究[J].物理學(xué)報,2013,62(11).
[4]曹玖新,吳江林,石偉,等.新浪微博網(wǎng)信息傳播分析與預(yù)測[J].計算機(jī)學(xué)報,2014(4).
[5]Hong L,Dan O,Davison B D.Predicting popular messages in Twitter[C]//Proceedings of the 20th International Conference Companion on World Wide Web,2011.
[6]Dickens L,Molloy I,Lobo J.Learning stochastic models of information flow[C]//IEEE 28th International Conference on Data Engineering(ICDE),2012.
[7]張彥超,劉云,張海峰,等.基于在線社交網(wǎng)絡(luò)的信息傳播模型[J].物理學(xué)報,2011,60(5).
[8]Yang J,Leskovec J.Modeling information diffusion in implicit networks[C]//Proceedings of the 2010 IEEE International Conference on Data Mining,Sydney,Australia,2010:599-608.
[9]王金龍,劉方愛,朱振方.一種基于用戶相對權(quán)重的在線社交網(wǎng)絡(luò)信息傳播模型[J].物理學(xué)報,2015,64(5).
[10]Lü L,Chen D B,Zhou T.Small world yields the most effective information spreading[J].New Journal of Physics,2011,12.
[11]唐朝生.在線社交網(wǎng)絡(luò)信息傳播建模及轉(zhuǎn)發(fā)預(yù)測研究[D].河北秦皇島:燕山大學(xué),2014.
[12]Kimura M,Saito K,Nakano R,et al.Extracting influential nodes on a social network for information diffusion[J].Data Min Knowl Disc,2010,20:70-97.
[13]Chen D,Lü L,Shang M S,et al.Identifying influential nodes in complex networks[J].Fuel&Energy Abstracts,2012,391(4):1777-1787.
[14]Kitsak M,Gallos L K,Havlin S,et al.Identification of influentialspreadersin complex networks[J].Nature Physics,2010,6(11):888-893.
[15]Batagelj V,Zaversnik M.An O(m)algorithm for cores decomposition of networks[J].Advances in Data Analysis and Classification,2011,5(2):129-145.
[16]Hou B,Yao Y,Liao D.Identifying all-around nodes for spreading dynamics in complex networks[J].Physics A:Statistical Mechanics and Its Applications,2012,391(15):4012-4017.
[17]Hu Q,Gao Y,Ma P,et al.A new approach to identify influential spreaders in complex networks[J].Acta Physica Sinica,2013,62(14):99-104.
[18]Lü L,Zhang Y C,Chi H Y,et al.Leaders in social networks,the delicious case[J].Plos One,2011,6(6).
[19]Zhang X,Zhu J,Wang Q,et al.Identifying influential nodes in complex networks with community structure[J].Knowledge-Based Systems,2013,42(2):74-84.
[20]Wei D,Deng X,Zhang X,et al.Identifying influential nodes in weighted networks based on evidence theory[J].Physica A Statistical Mechanics& Its Applications,2013,392(10):2564-2575.
[21]Lao N,Cohen W W.Relational retrieval using a combination ofpath-constrained random walks[J].Machine Learning,2010,81(1):53-67.
[22]Lao N,Cohen W W.Fast query execution for retrieval models based on path-constrained random walks[C]//ACM SIGKDD InternationalConferenceonKnowledge Discovery and Data Mining,2010:881-888.
[23]Moreno Y,Nekovee M,Pacheco A F.Dynamics of rumor spreading in complex networks[J].Physical Review E,2004,69(6).