李瑋新,李 銳,洪偉彬
(上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們對(duì)線上社交的需求越來越高。微博憑借其平臺(tái)開放性、終端拓展性、內(nèi)容簡(jiǎn)潔性和低門檻等特性,逐漸成為了一個(gè)重要的社會(huì)化媒體[1]。研究社交網(wǎng)絡(luò)中的用戶影響力不僅能度量社會(huì)影響力的大小,還能對(duì)減少垃圾營銷、挖掘資深用戶、相關(guān)用戶推薦等應(yīng)用做出一些改進(jìn)[2]。
對(duì)微博用戶影響力的評(píng)估等相關(guān)研究一直都是一個(gè)比較熱門的領(lǐng)域。譚琪等人[3]構(gòu)造了一種融入結(jié)構(gòu)度中心性的用戶影響力評(píng)估算法SDRank。王利等人[4]提出了基于Swarm 突現(xiàn)計(jì)算模型的用戶影響力排序算法。王頂?shù)热薣4]采用權(quán)重因子將用戶粉絲對(duì)用戶影響力的貢獻(xiàn)值進(jìn)行分配。師亞凱等人[6]、馬俊等人[7]、張紹武等人[8]和賈沖沖等人[9]則分別從不同的角度提出了用戶影響力的計(jì)算模型和排序方法。但是上述算法有的考慮的因素相對(duì)單一,有的則不能較好適應(yīng)當(dāng)前社交網(wǎng)絡(luò)出現(xiàn)的一些新變化如“粉絲經(jīng)濟(jì)”、微博營銷等。本文從用戶自身的影響力和傳播影響力兩方面,綜合計(jì)算了微博用戶的影響力。
PageRank 算法[10]是由Google 創(chuàng)始人Lary Page和Sergey Brin 提出的鏈接分析算法,是用來衡量網(wǎng)頁好壞的重要標(biāo)準(zhǔn)。PageRank 算法結(jié)合網(wǎng)頁的入鏈數(shù)量和網(wǎng)頁的質(zhì)量來衡量網(wǎng)頁的重要性。而微博中用戶間的關(guān)注關(guān)系可以類比PageRank 算法中網(wǎng)頁的鏈接關(guān)系,因此PageRank算法很適合用來進(jìn)行微博用戶影響力的分析。常見的算法如Twitterank[11]、MDIR[12]、BWPR[13]以及加入用戶權(quán)重的用戶影響力算法[14]。但是這些算法有的只關(guān)注用戶自身屬性對(duì)其影響力的貢獻(xiàn);有的研究的用戶自身屬性的維度過少,未考慮到用戶認(rèn)證情況、粉絲數(shù)等其他重要因素。
在PageRank 算法中,每個(gè)網(wǎng)頁的初始PR 值是相同的,每個(gè)網(wǎng)頁的出鏈的PR 值也是平均分配的,而微博用戶的影響力往往會(huì)因?yàn)槠湔J(rèn)證情況、粉絲數(shù)等產(chǎn)生差異,所以在評(píng)估微博用戶影響力時(shí)不僅要考慮用戶的鏈接關(guān)系,還要綜合用戶的自身屬性和用戶微博的傳播能力。
本文從上述兩個(gè)方面綜合考慮微博用戶的影響力,提出一種基于用戶自身影響力和傳播影響力的BPPI 算法(Based on users' Personal and Propagating Influence),用用戶的自身影響力代替PageRank 算法中平均分配的初始影響力,解決了PageRank算法中每個(gè)網(wǎng)頁初始PR值相同的情況,排除了用戶僵尸粉對(duì)影響力的干擾;也對(duì)其他類似算法所存在的問題進(jìn)行了改進(jìn)。對(duì)傳播影響力的評(píng)估可以解決PageRank 算法中網(wǎng)頁出鏈的PR值平均分配的問題,相比其他類似的算法可以較大地提高用戶影響力評(píng)價(jià)的準(zhǔn)確度。
本文根據(jù)微博用戶間的關(guān)注關(guān)系,構(gòu)建微博的傳播網(wǎng)絡(luò)。設(shè)微博傳播網(wǎng)絡(luò)為G(V,E),G是一有向圖;V 是該網(wǎng)絡(luò)中點(diǎn)的集合,代表微博用戶的集合;E 是該網(wǎng)絡(luò)中邊的集合,代表微博用戶間的關(guān)注關(guān)系,當(dāng)用戶u 關(guān)注了用戶v,則會(huì)有一條有向邊從代表u 的節(jié)點(diǎn)指向代表v的節(jié)點(diǎn)。
微博用戶往往會(huì)直觀地根據(jù)用戶的一些屬性來判斷其影響力。基于此,可以參照這些屬性,來評(píng)估用戶的自身影響力,自身影響力包括用戶認(rèn)證情況、活躍粉絲數(shù)、活躍度以及關(guān)注度四個(gè)屬性。
⑴認(rèn)證情況
現(xiàn)給出用戶認(rèn)證情況的計(jì)算公式:
其中,auth(u)指用戶u的認(rèn)證情況。
⑵活躍粉絲數(shù)
活躍粉絲數(shù)指近一個(gè)月內(nèi)對(duì)用戶的微博有點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)的行為的粉絲數(shù)量。
⑶活躍度
活躍度反映了用戶一個(gè)月內(nèi)的活躍程度?,F(xiàn)給出活躍度的計(jì)算公式:
其中,liveness(u)指用戶u的活躍度,blog(u)指用戶u在一個(gè)月內(nèi)發(fā)布的微博數(shù)量,allblogs指一個(gè)月內(nèi)所有微博用戶發(fā)微博的數(shù)量。
⑷關(guān)注度
關(guān)注度指用戶微博獲得的點(diǎn)贊、評(píng)論和轉(zhuǎn)發(fā)的相對(duì)數(shù)量。現(xiàn)給出關(guān)注度的計(jì)算公式:
其中,atten(u)指用戶u 的關(guān)注度,like(bi),comm(bi),repo(bi)分別指用戶u的第i條微博獲得的點(diǎn)贊數(shù)、評(píng)論數(shù)和轉(zhuǎn)發(fā)數(shù),fans(u)是用戶u 的粉絲數(shù),B 是用戶u 發(fā)布的所有微博的集合。
綜合上述四個(gè)因素,最終得出自身影響力的計(jì)算公式:
其中,personal_influ(u)是用戶u 的自身影響力值,auth(u)是用戶u 的認(rèn)證情況,activefans(u)是用戶u 的活躍粉絲數(shù),liveness(u)是用戶u的活躍度,atten(u)是用戶u的關(guān)注度。
傳播影響力由用戶v 對(duì)用戶u 的互動(dòng)情況,包括對(duì)用戶u微博的點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)的頻率決定?,F(xiàn)給出傳播影響力的計(jì)算公式:
其中,propagating_influ(u,v)指用戶v 對(duì)用戶u 的傳播影響力;like(u,v)、comm(u,v)、repo(u,v)分別表示用戶v 對(duì)用戶u 的微博的點(diǎn)贊數(shù)、評(píng)論數(shù)和轉(zhuǎn)發(fā)數(shù);blog(u)指用戶u發(fā)布微博的總數(shù)。
根據(jù)傳播影響力的公式(式⑸),可以得到傳播影響力比例的計(jì)算公式:
其中,prop_r(u,v)指用戶v對(duì)用戶u的傳播影響力比例,follow(v)指用戶v關(guān)注的用戶集合,propagating_influ(u,v)指用戶v對(duì)用戶u的傳播影響力。
BPPI 算法從用戶的自身影響力和傳播影響力兩個(gè)方面描述了用戶的影響力。算法的過程是:根據(jù)用戶數(shù)據(jù)構(gòu)建出微博傳播網(wǎng)絡(luò)圖,依次計(jì)算圖中每一個(gè)用戶的影響力:先計(jì)算用戶的自身影響力作為影響力的初值,再依次對(duì)每一個(gè)粉絲計(jì)算傳播影響力的比例,得出的影響力值和上一輪的影響力作對(duì)比,如果差值小于閾值,則退出循環(huán),得到最終的影響力值,否則繼續(xù)計(jì)算。
現(xiàn)給出BPPI算法的計(jì)算公式:
其中,BPPI(u)指任一微博用戶u的影響力值,fans(u)指用戶u 的粉絲集,prop_r(u,v)指用戶v 對(duì)用戶u 的傳播影響力比例,q為阻尼系數(shù)。
BPPI算法的主要計(jì)算過程如下:
本文以新浪微博作為數(shù)據(jù)源,爬取了2021 年10月-12月某一特定領(lǐng)域的部分用戶的信息。
因?yàn)榕廊〉降臄?shù)據(jù)過于冗雜,為方便后續(xù)計(jì)算,現(xiàn)在排除掉粉絲數(shù)小于100 和發(fā)博數(shù)小于50 的用戶信息。處理過的數(shù)據(jù)信息如表1。
表1 微博數(shù)據(jù)信息
本文將處理過的數(shù)據(jù)分別用BPPI算法、BWPR 算法和PageRank算法進(jìn)行計(jì)算,得到影響力前十名的用戶,并和該領(lǐng)域10月的新浪微博V 影響力榜以及粉絲量排名作對(duì)比,結(jié)果如表2。表2的用戶編號(hào)和id對(duì)應(yīng)情況如表3所示。
表2 2021年10月各模型下的影響力前十名用戶編號(hào)
表3 表2的各用戶編號(hào)和id情況
根據(jù)表2 可以看出,粉絲數(shù)量、PageRank 算法、BWPR算法都與V影響力榜的排名差距較大。為了得到更直觀、嚴(yán)謹(jǐn)?shù)呐袛?,本文采用斯皮爾曼等?jí)相關(guān)[15]來對(duì)上述模型進(jìn)行相關(guān)性分析。以月為統(tǒng)計(jì)周期,選取30 名用戶在2021 年10 月、11 月、12 月三個(gè)月的數(shù)據(jù),計(jì)算了V 影響力榜分別和粉絲數(shù)量、BPPI 算法、BWPR 算法、PageRank 算法四種排名下的斯皮爾曼等級(jí)相關(guān)系數(shù)。得到的結(jié)果如圖1所示。
圖1 V影響力榜和其他模型排名的相關(guān)性
根據(jù)圖1,由粉絲數(shù)量衡量一個(gè)微博用戶的影響力是不可靠的,因?yàn)楹芏啻骎博主會(huì)“購買粉絲”,但是這樣只是增加了粉絲數(shù)量,微博的點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)數(shù)量并不會(huì)增加,這就導(dǎo)致這一衡量標(biāo)準(zhǔn)會(huì)出現(xiàn)較大的誤差。PageRank 算法由于初始PR 值和傳遞PR 值分配不合理的問題,導(dǎo)致與V 影響力榜的偏差較大。BWPR 算法只重點(diǎn)關(guān)注了用戶的互動(dòng)行為,沒有考慮用戶的其他基本屬性。而BPPI 算法綜合考慮了上述因素,與V 影響力榜的斯皮爾曼等級(jí)相關(guān)系數(shù)是最接近1的,所以BPPI算法較為準(zhǔn)確。
本文提出了基于PageRank 算法的微博用戶影響力評(píng)估算法BPPI。BPPI 算法通過綜合用戶的認(rèn)證情況、活躍粉絲數(shù)、活躍度和獲得的關(guān)注度來計(jì)算用戶的自身影響力,解決了PageRank算法中每個(gè)網(wǎng)頁的初始PR 值相同的問題;通過其他用戶與該用戶點(diǎn)贊、評(píng)論和轉(zhuǎn)發(fā)三種互動(dòng)的行為來衡量用戶的傳播影響力,結(jié)合這兩種影響力得出了最終的用戶影響力。本文在真實(shí)的數(shù)據(jù)集上對(duì)V 影響力榜、粉絲數(shù)量、BWPR算法、PageRank 算法和BPPI 算法五種模型進(jìn)行研究,結(jié)果表明BPPI 算法是最接近新浪微博給出的V 影響力榜的,這說明BPPI算法能夠較為準(zhǔn)確地評(píng)估用戶的影響力。