周 飛,高茂庭
(上海海事大學(xué) 信息工程學(xué)院,上海 201306)
隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,社交網(wǎng)絡(luò)服務(wù)(Social Network Service,SNS)作為互聯(lián)網(wǎng)應(yīng)用發(fā)展的必備要素,不再局限于信息傳遞,而是與溝通交流、商務(wù)交易類應(yīng)用融合,借助其他應(yīng)用的用戶基礎(chǔ),形成更強(qiáng)大的關(guān)系鏈,從而實(shí)現(xiàn)信息的廣泛、快速傳播。網(wǎng)絡(luò)社區(qū)是具有相同興趣愛(ài)好的網(wǎng)民相互交流、共享資源的虛擬社區(qū),越來(lái)越多的人通過(guò)網(wǎng)絡(luò)社區(qū)分享信息、圖片,表達(dá)意見(jiàn)、觀點(diǎn)或參與話題討論。與線下社區(qū)一樣,網(wǎng)絡(luò)社區(qū)同樣存在社會(huì)分層,不同的是網(wǎng)絡(luò)社區(qū)更多依據(jù)思想和觀點(diǎn)的影響力進(jìn)行劃分,影響力較高的成員就成了群體中的重要角色,即意見(jiàn)領(lǐng)袖。意見(jiàn)領(lǐng)袖通常是網(wǎng)絡(luò)社區(qū)中的活躍分子,是信息的積極傳播者,能夠提供大量信息、意見(jiàn),引起大量關(guān)注并影響社區(qū)中的輿論導(dǎo)向,對(duì)網(wǎng)絡(luò)信息傳播、網(wǎng)絡(luò)營(yíng)銷、廣告投放、輿論引導(dǎo)等方面起著極其重要的作用[1]。因此,對(duì)網(wǎng)絡(luò)社區(qū)中意見(jiàn)領(lǐng)袖的發(fā)現(xiàn)進(jìn)行研究具有重要意義。
“知乎”是社區(qū)氛圍友好與理性、連接各行各業(yè)精英的一個(gè)網(wǎng)絡(luò)問(wèn)答社區(qū)。用戶利用各自的專業(yè)知識(shí)、經(jīng)驗(yàn)和見(jiàn)解,為互聯(lián)網(wǎng)源源不斷地提供高質(zhì)量的信息。知乎不同于微博與傳統(tǒng)社區(qū),社會(huì)身份并非是知乎社區(qū)意見(jiàn)領(lǐng)袖的決定因素,知乎特有的投票機(jī)制和關(guān)注模式催生了大批草根意見(jiàn)領(lǐng)袖[2]。鑒于現(xiàn)有意見(jiàn)領(lǐng)袖發(fā)現(xiàn)算法中對(duì)用戶動(dòng)態(tài)行為分析和動(dòng)態(tài)行為所帶來(lái)的真實(shí)瀏覽量考慮不足的問(wèn)題[3-6],本文對(duì)用戶自身影響力、用戶動(dòng)態(tài)行為及其給動(dòng)態(tài)內(nèi)容帶來(lái)的真實(shí)影響等3個(gè)方面進(jìn)行研究,提出一種基于用戶自身影響力、影響力傳播度和PageRank的意見(jiàn)領(lǐng)袖識(shí)別算法。
文獻(xiàn)[7]提出的二級(jí)傳播理論是關(guān)于意見(jiàn)領(lǐng)袖的最早研究,該理論指出意見(jiàn)領(lǐng)袖在主要以廣播和報(bào)紙為信息傳播媒介的當(dāng)時(shí)占有不可或缺的地位,媒介信息必須經(jīng)由某些意見(jiàn)領(lǐng)袖才能到達(dá)其他人群。隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)社交媒體成為人們?nèi)粘I畹闹匾ぞ?同時(shí)也吸引了眾多學(xué)者對(duì)其信息傳播、社會(huì)影響力、意見(jiàn)領(lǐng)袖發(fā)現(xiàn)等方面進(jìn)行研究。文獻(xiàn)[8]指出在網(wǎng)絡(luò)社區(qū)中人們通常通過(guò)用戶發(fā)布信息的數(shù)量來(lái)認(rèn)定意見(jiàn)領(lǐng)袖。文獻(xiàn)[9]通過(guò)Twitter網(wǎng)絡(luò)證實(shí)了信息傳播過(guò)程中兩級(jí)傳播理論的存在。文獻(xiàn)[4]用關(guān)注用戶數(shù)量、粉絲數(shù)量、是否被驗(yàn)證身份和發(fā)布的微博數(shù)量等4項(xiàng)數(shù)據(jù)構(gòu)建微博客意見(jiàn)領(lǐng)袖識(shí)別多維模型,對(duì)微博客用戶重要性進(jìn)行評(píng)分。文獻(xiàn)[5]利用從網(wǎng)絡(luò)中采集到的基本數(shù)據(jù),構(gòu)造網(wǎng)絡(luò)話題參與者的“屬性矩陣”,提出意見(jiàn)領(lǐng)袖綜合評(píng)價(jià)算法。文獻(xiàn)[6]選取7個(gè)用戶特征,采用聚類分析方法篩選出具有意見(jiàn)領(lǐng)袖特點(diǎn)的群體。文獻(xiàn)[4-6]都是通過(guò)提取意見(jiàn)領(lǐng)袖屬性特征進(jìn)行歸納分析,提出意見(jiàn)領(lǐng)袖發(fā)現(xiàn)算法。但是這些算法都沒(méi)有考慮到用戶與用戶之間的關(guān)注關(guān)系,因此,可能存在用戶大量發(fā)帖但并沒(méi)有人對(duì)其回復(fù)卻被誤認(rèn)為是意見(jiàn)領(lǐng)袖的情況,與客觀事實(shí)存在一定偏差。文獻(xiàn)[10]通過(guò)考慮用戶的興趣空間和回復(fù)關(guān)系,提出基于興趣領(lǐng)域的意見(jiàn)領(lǐng)袖識(shí)別算法。文獻(xiàn)[3,11]將情感傾向性作為用戶之間評(píng)價(jià)的指標(biāo),并作為網(wǎng)絡(luò)權(quán)重分別提出OpinionRank算法和LeaderRank算法。文獻(xiàn)[12]基于話題相似度和用戶間關(guān)注關(guān)系提出TwitterRank算法。文獻(xiàn)[13]發(fā)現(xiàn)消息在微博網(wǎng)絡(luò)中的傳播過(guò)程可近似分解為各個(gè)意見(jiàn)領(lǐng)袖所驅(qū)動(dòng)的子過(guò)程的特性,提出基于消息傳播的微博意見(jiàn)領(lǐng)袖影響力建模方法,并得出影響力衰減指數(shù)的大小以及影響力持續(xù)時(shí)間的長(zhǎng)短與粉絲數(shù)量幾乎無(wú)關(guān)的結(jié)論。文獻(xiàn)[14]綜合考慮用戶自身影響力和用戶之間的鏈接關(guān)系,提出基于用戶影響力的PageRank意見(jiàn)領(lǐng)袖識(shí)別算法,簡(jiǎn)稱UilRank算法。該算法雖然考慮了網(wǎng)絡(luò)論壇中的發(fā)帖數(shù)、回帖數(shù)和被回復(fù)數(shù)、被瀏覽數(shù),但是缺乏用戶動(dòng)態(tài)行為分析,以及存在使動(dòng)態(tài)內(nèi)容閱讀量增長(zhǎng)的來(lái)源指向不明確的現(xiàn)象。
針對(duì)以上算法中用戶動(dòng)態(tài)行為分析缺失和動(dòng)態(tài)內(nèi)容閱讀數(shù)增長(zhǎng)不明確等問(wèn)題,本文以網(wǎng)絡(luò)社區(qū)“知乎”為研究對(duì)象,綜合分析意見(jiàn)領(lǐng)袖影響力因子,在UilRank算法的基礎(chǔ)上,又從用戶動(dòng)態(tài)行為影響傳播度和用戶行為對(duì)動(dòng)態(tài)內(nèi)容帶來(lái)的真實(shí)影響兩個(gè)方面考慮,提出一種基于PageRank的知乎意見(jiàn)領(lǐng)袖影響力發(fā)現(xiàn)算法。其中用戶自身影響力來(lái)源于諸如用戶粉絲數(shù)、獲得贊同數(shù)、回答問(wèn)題數(shù)等用戶自身屬性。用戶動(dòng)態(tài)行為及其對(duì)問(wèn)題的真實(shí)影響將通過(guò)對(duì)用戶動(dòng)態(tài)行為信息和問(wèn)題動(dòng)態(tài)變化信息分析得出,兩者共同決定用戶影響力傳播度的大小,繼而作用于改進(jìn)的PageRank算法中。
PageRank的初衷指的是計(jì)算某個(gè)人在任意次點(diǎn)擊鏈接之后到達(dá)某一網(wǎng)頁(yè)的可能性,在網(wǎng)絡(luò)社區(qū)意見(jiàn)領(lǐng)袖發(fā)現(xiàn)中可把用戶之間的關(guān)注關(guān)系看作是用戶之間的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),通過(guò)分析網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)可獲得用戶影響力排名。因此,用戶影響力可以通過(guò)PageRank算法得出,如式(1)所示。
(1)
其中,PR(u)表示網(wǎng)頁(yè)u的PageRank值,Lu表示指向網(wǎng)頁(yè)u的網(wǎng)頁(yè)集合,N(Ov)表示網(wǎng)頁(yè)v指向其他網(wǎng)頁(yè)的總個(gè)數(shù),d為阻尼因子,表示某頁(yè)面被訪問(wèn)的概率,一般設(shè)為0.85。
文獻(xiàn)[14]在PageRank算法的基礎(chǔ)上,提取用戶屬性特征并給出權(quán)重,將用戶間的回復(fù)次數(shù)作為影響力占比分配原則,提出基于用戶影響力的意見(jiàn)領(lǐng)袖發(fā)現(xiàn)算法,簡(jiǎn)稱UilRank算法,如式(2)、式(3)所示。
(2)
(3)
其中,R(u)表示用戶u的影響值,Tu為回復(fù)u的用戶集合,Wuv表示用戶u在所有影響用戶v的節(jié)點(diǎn)中所占比例,Iu代表用戶u的初始影響值,kuv表示用戶u和v之間的回復(fù)次數(shù),Bv表示用戶v回復(fù)的用戶集合,通過(guò)數(shù)次迭代直至達(dá)到收斂狀態(tài),得到用戶影響值。
在用戶影響力傳播度計(jì)算上,現(xiàn)有意見(jiàn)領(lǐng)袖識(shí)別算法往往采用均分原則平均分配,與實(shí)際網(wǎng)絡(luò)中意見(jiàn)領(lǐng)袖對(duì)不同用戶影響程度不同的這一情形不相符。
意見(jiàn)領(lǐng)袖在對(duì)某一提問(wèn)做出回答行為或者對(duì)某一答案做出點(diǎn)贊行為時(shí),他的行為動(dòng)態(tài)就產(chǎn)生了,繼而將影響他的部分粉絲也對(duì)該提問(wèn)或回答產(chǎn)生行為動(dòng)態(tài)。然而,在這個(gè)過(guò)程中,有部分粉絲看到意見(jiàn)領(lǐng)袖的行為動(dòng)態(tài)后,只是瀏覽了這個(gè)動(dòng)態(tài)內(nèi)容,并沒(méi)有發(fā)出回答或點(diǎn)贊的行為動(dòng)態(tài),因此,不能確定意見(jiàn)領(lǐng)袖是否對(duì)該用戶產(chǎn)生了影響。
為了解決這些問(wèn)題,對(duì)這些屬性值量化處理后得到用戶的初始影響力值,即用戶自身影響力。還將往往被研究者遺忘的動(dòng)態(tài)內(nèi)容被閱讀數(shù)作為一個(gè)考核標(biāo)準(zhǔn),考量用戶在對(duì)某動(dòng)態(tài)內(nèi)容產(chǎn)生行為動(dòng)態(tài)后一段時(shí)間內(nèi)該內(nèi)容閱讀量的真實(shí)變化情況,閱讀量變化情況考量是對(duì)用戶行為動(dòng)態(tài)影響度量存在缺漏現(xiàn)象的補(bǔ)充。然而在實(shí)際網(wǎng)絡(luò)中又存在普通用戶緊隨意見(jiàn)領(lǐng)袖產(chǎn)生行為動(dòng)態(tài)而將意見(jiàn)領(lǐng)袖對(duì)閱讀量變化產(chǎn)生的影響據(jù)為己有的現(xiàn)象,用戶行為動(dòng)態(tài)影響度量又反過(guò)來(lái)制約了此現(xiàn)象,防止普通用戶被認(rèn)為擁有高影響力傳播度。2種度量方法相輔相成,構(gòu)成用戶影響力傳播度。最后將用戶自身影響力和用戶影響力傳播度引入到改進(jìn)的PageRank算法中得到每個(gè)用戶的最終影響力,排名靠前者即為網(wǎng)絡(luò)社區(qū)意見(jiàn)領(lǐng)袖。
3.1.1 用戶屬性特征提取
文獻(xiàn)[15-17]指出在Twitter網(wǎng)絡(luò)環(huán)境中,粉絲數(shù)量在信息傳播過(guò)程中和用戶影響力呈弱相關(guān)性。本文通過(guò)獲取到的知乎真實(shí)數(shù)據(jù),對(duì)用戶粉絲數(shù)、獲得贊同數(shù)、回答問(wèn)題數(shù)、獲得感謝數(shù)4個(gè)屬性特征兩兩刻畫相關(guān)性散點(diǎn)圖,如圖1所示,從圖1(a)發(fā)現(xiàn)獲得贊同數(shù)和獲得感謝數(shù)存在一定的線性相關(guān)性,因此,將贊同數(shù)和感謝數(shù)看作是相同的影響因子。另外,從圖1(b)~圖1(d)可以看出用戶粉絲數(shù)、獲得贊同數(shù)和回答問(wèn)題數(shù)這3個(gè)屬性特征不存在線性相關(guān)性,因此,使用這3個(gè)屬性特征對(duì)用戶自身影響力進(jìn)行評(píng)估,其中回答問(wèn)題數(shù)是對(duì)意見(jiàn)領(lǐng)袖活躍度的一種肯定。
圖1 用戶各屬性特征散點(diǎn)圖
3.1.2 用戶屬性特征計(jì)算
從圖1可看出各個(gè)特征數(shù)據(jù)不具備一致性參考標(biāo)準(zhǔn),因此不能直接比較,需要對(duì)每個(gè)特征指標(biāo)進(jìn)行歸一化處理。由于特征數(shù)據(jù)跨度較大,如用戶粉絲數(shù)高的用戶可以達(dá)到百萬(wàn)級(jí)別,低的用戶甚至一個(gè)粉絲都沒(méi)有,因此本文采用對(duì)數(shù)歸一化處理方法。這種處理方式計(jì)算簡(jiǎn)單、運(yùn)算速度快、處理后數(shù)據(jù)跨度小,如式(4)所示。
(4)
其中,Fu表示對(duì)用戶u實(shí)際粉絲數(shù)做歸一化處理后得到的值,fu表示用戶u的實(shí)際粉絲數(shù),fmax代表所有用戶粉絲數(shù)的最大值。同理,對(duì)用戶u獲得贊同數(shù)和回答問(wèn)題數(shù)用式(4)歸一化處理后分別表示為Su、Au。本文定義以下公式計(jì)算用戶u的自身影響力值。
SI(u)=ω1Fu+ω2Su+ω3Au
(5)
其中,SI(u)代表用戶自身影響力值,對(duì)應(yīng)UilRank算法中的Iu,Fu、Su、Au分別是用戶粉絲數(shù)、獲得贊同數(shù)和回答問(wèn)題數(shù)歸一化處理過(guò)后的值,ω1、ω2、ω3代表不同特征的權(quán)重值。為了將各屬性重要程度數(shù)學(xué)化、系統(tǒng)化,本文采用層次分析法確定每個(gè)屬性特征的權(quán)重值,該方法對(duì)于多準(zhǔn)則、多目標(biāo)的系統(tǒng)有較好的判定效果[18]。構(gòu)建以下判斷矩陣:
(6)
通過(guò)計(jì)算,得到各個(gè)屬性特征權(quán)值,一致性檢驗(yàn)結(jié)果為0.079 33<0.1,滿足一致性檢驗(yàn),各屬性特征權(quán)值ωi如表1所示。
表1 屬性特征權(quán)重
在實(shí)際的網(wǎng)絡(luò)傳播中,存在以下2種現(xiàn)象:
1)在意見(jiàn)領(lǐng)袖發(fā)出回答、點(diǎn)贊等行為動(dòng)態(tài)后,部分粉絲接收到意見(jiàn)領(lǐng)袖的動(dòng)態(tài),閱讀了相關(guān)動(dòng)態(tài)內(nèi)容并對(duì)此動(dòng)態(tài)內(nèi)容發(fā)出行為動(dòng)態(tài)。那么意見(jiàn)領(lǐng)袖對(duì)于這部分粉絲的影響是顯而易見(jiàn)并且可以通過(guò)收集動(dòng)態(tài)行為數(shù)據(jù)得到。但是仍然會(huì)存在一些粉絲在閱讀了動(dòng)態(tài)內(nèi)容后,不發(fā)出任何行為動(dòng)態(tài),對(duì)于這部分粉絲則無(wú)法通過(guò)動(dòng)態(tài)行為數(shù)據(jù)知曉意見(jiàn)領(lǐng)袖是否對(duì)其產(chǎn)生了影響。
2)粉絲們會(huì)通過(guò)意見(jiàn)領(lǐng)袖發(fā)出的行為動(dòng)態(tài)瀏覽這一動(dòng)態(tài)內(nèi)容,那么該動(dòng)態(tài)內(nèi)容在該意見(jiàn)領(lǐng)袖發(fā)出回答、點(diǎn)贊等行為之后某個(gè)時(shí)間段內(nèi)的瀏覽數(shù)增長(zhǎng)便可在一定程度上反映該意見(jiàn)領(lǐng)袖的影響力。但是當(dāng)2個(gè)意見(jiàn)領(lǐng)袖A和意見(jiàn)領(lǐng)袖B相近時(shí)間發(fā)出同樣的行為動(dòng)態(tài)時(shí),就無(wú)法確定給動(dòng)態(tài)內(nèi)容帶來(lái)的影響是意見(jiàn)領(lǐng)袖A還是意見(jiàn)領(lǐng)袖B,或者是他們分別帶來(lái)了多少影響。
分析這2種現(xiàn)象可以發(fā)現(xiàn),其實(shí)現(xiàn)象2就是對(duì)現(xiàn)象1中意見(jiàn)領(lǐng)袖影響缺失的一個(gè)補(bǔ)充,現(xiàn)象1則是對(duì)現(xiàn)象2中給動(dòng)態(tài)內(nèi)容帶來(lái)影響重疊的一個(gè)制約。對(duì)于現(xiàn)象1,將采用高行為動(dòng)態(tài)數(shù)據(jù)(即參與者人數(shù)較多的動(dòng)態(tài)內(nèi)容數(shù)據(jù))根據(jù)時(shí)間節(jié)點(diǎn)建立有向無(wú)環(huán)圖計(jì)算用戶行為動(dòng)態(tài)信息下的影響力傳播度。對(duì)于現(xiàn)象2,采用低行為動(dòng)態(tài)數(shù)據(jù)(即參與者人數(shù)較少的動(dòng)態(tài)內(nèi)容數(shù)據(jù))計(jì)算行為動(dòng)態(tài)后的問(wèn)題被瀏覽增長(zhǎng)率,確定基于動(dòng)態(tài)內(nèi)容瀏覽數(shù)增長(zhǎng)下的用戶影響力傳播度。最后將兩者加權(quán)累加得到用戶影響力傳播度。
3.2.1 用戶行為動(dòng)態(tài)信息下的影響力傳播度
在分析以時(shí)間線為基準(zhǔn)的用戶行為動(dòng)態(tài)后發(fā)現(xiàn),該動(dòng)態(tài)行為序列構(gòu)成一個(gè)有向無(wú)環(huán)圖,如圖2所示。
圖2 用戶行為動(dòng)態(tài)結(jié)構(gòu)
圖2描述了影響力傳播的3種情況:
1)在用戶A發(fā)出某一行為動(dòng)態(tài)后,他的粉絲用戶中C、D、E也對(duì)該內(nèi)容發(fā)出行為動(dòng)態(tài),則可認(rèn)為A對(duì)C、D、E產(chǎn)生了影響。
2)用戶H是用戶D、E的共同粉絲,且用戶D、E在用戶H前發(fā)出行為動(dòng)態(tài),那么認(rèn)定用戶H同時(shí)受到用戶D、E的影響。
3)用戶I是用戶B、E的共同粉絲,且用戶E在用戶B之后發(fā)出行為動(dòng)態(tài),用戶I在用戶E之后發(fā)出行為動(dòng)態(tài),那么認(rèn)定用戶I同時(shí)受到用戶B、E的影響,用戶E受到用戶B的影響。
由此,根據(jù)用戶動(dòng)態(tài)行為數(shù)據(jù)建立用戶動(dòng)態(tài)行為結(jié)構(gòu)圖(在圖中認(rèn)定出度為0的節(jié)點(diǎn)為葉子節(jié)點(diǎn)),并依次從葉子節(jié)點(diǎn)向根節(jié)點(diǎn)遍歷,統(tǒng)計(jì)每個(gè)用戶的用戶動(dòng)態(tài)行為影響力值。用戶行為動(dòng)態(tài)信息下的影響力傳播度算法描述如下,其中qid表示動(dòng)態(tài)內(nèi)容編號(hào)。
輸入qid
輸出用戶行為動(dòng)態(tài)影響度Degree
執(zhí)行步驟:
1)Userlist←動(dòng)態(tài)內(nèi)同編號(hào)為qid并以時(shí)間節(jié)點(diǎn)排序的用戶列表;
2)for用戶u∈UserList:{
用戶u的孩子集ChildSetu←UserList中排在u之后的用戶集和用戶u粉絲集的交集;
將添加到ChildrenSetu中每個(gè)用戶c的父集合ParentSetc中;}
3)LeafSet←UserList中孩子集合為空的用戶集合;
4)for用戶u∈LeafSet:{
標(biāo)記v已經(jīng)被查找過(guò);
將v父集合ParentSetv中每個(gè)父節(jié)點(diǎn)p的深度Degreep自加1;
如果p沒(méi)有被查找過(guò)且不在LeafList中,將p添加到LeafSet中;}
5)ifLeafSet不為空,轉(zhuǎn)到4),否則轉(zhuǎn)到6);
6)用對(duì)數(shù)歸一化法對(duì)Degree進(jìn)行歸一化處理;
7)ReturnDegree。
該算法中步驟2)和步驟3)的時(shí)間復(fù)雜度都是O(N),步驟4)、步驟5)為二層循環(huán),時(shí)間復(fù)雜度為O(N2),步驟6)為歸一化處理,時(shí)間復(fù)雜度為O(N)。因此,該算法時(shí)間復(fù)雜度為O(N2)。另外,需要3N的額外空間存儲(chǔ)結(jié)果和中間變量。因此,該算法空間復(fù)雜度為O(N)。
在使用用戶行為動(dòng)態(tài)影響力算法對(duì)每一個(gè)行為動(dòng)態(tài)計(jì)算之后,得到每個(gè)動(dòng)態(tài)下的用戶影響力值,返回歸一化后的用戶動(dòng)態(tài)行為影響力傳播度。
(7)
其中,Degree(qid)[u]為對(duì)第qid號(hào)的動(dòng)態(tài)行為做用戶動(dòng)態(tài)行為影響力算法后用戶u的影響力傳播度,Qlist為用戶行為動(dòng)態(tài)編號(hào)列表。
3.2.2 動(dòng)態(tài)內(nèi)容瀏覽數(shù)增長(zhǎng)下的影響力傳播度
文獻(xiàn)[13]指出在微博網(wǎng)絡(luò)環(huán)境中,在意見(jiàn)領(lǐng)袖發(fā)出一條消息后300 min內(nèi),消息以激增的態(tài)勢(shì)傳播,隨后逐漸減弱,第二天會(huì)有所增長(zhǎng)但影響將逐漸消失。由于微博信息繁雜且動(dòng)態(tài)內(nèi)容更新速度快,表現(xiàn)出快速增長(zhǎng)和快速消亡的特性。但對(duì)于知乎而言,這個(gè)過(guò)程就相對(duì)緩慢一些,因此,以2天為一個(gè)行為動(dòng)態(tài)的影響周期,計(jì)算這段時(shí)間內(nèi)的最快增長(zhǎng),把增長(zhǎng)率作為用戶動(dòng)態(tài)行為給問(wèn)題帶來(lái)實(shí)際影響的考量標(biāo)準(zhǔn)。
本文通過(guò)式(8)~式(10)計(jì)算用戶u給動(dòng)態(tài)內(nèi)容帶來(lái)的平均真實(shí)影響度。
Gn(q,t)=max(B(q,t+1)-B(q,t)),?t∈[t,t+2]
(8)
(9)
(10)
其中,B(q,t)表示問(wèn)題q在t時(shí)刻的被瀏覽次數(shù),Gn(q,t)表示問(wèn)題q在[t,t+2]時(shí)間區(qū)間內(nèi)被瀏覽次數(shù)增長(zhǎng)最大值,utime表示用戶u對(duì)問(wèn)題q產(chǎn)生行為動(dòng)態(tài)的時(shí)刻,max(Gn(q,T))表示在整個(gè)數(shù)據(jù)集時(shí)間段中問(wèn)題q的被瀏覽次數(shù)增長(zhǎng)最大值,Gr(q,u)表示用戶u在問(wèn)題q下的影響力比率,Qir(u)表示用戶u在眾多問(wèn)題動(dòng)態(tài)中給問(wèn)題帶來(lái)的平均真實(shí)影響度。
綜合用戶行為動(dòng)態(tài)信息下的影響力傳播度和行為動(dòng)態(tài)給動(dòng)態(tài)內(nèi)容帶來(lái)的實(shí)際影響度得到用戶影響力傳播度 (User Influence Transfer Degree,UITD)。
(11)
本文在PageRank算法的思想基礎(chǔ)上提出了基于用戶自身影響力、用戶影響力傳播度和PageRank的意見(jiàn)領(lǐng)袖發(fā)現(xiàn)算法,簡(jiǎn)稱ZhihuRank算法,如式(12)、式(13)所示。
(12)
(13)
其中,ZR(u)表示用戶的影響力值。d為阻尼因子,表示用戶受到影響的概率,通常在(0,1)之間,本文設(shè)為0.85。FRu表示用戶u的粉絲集合,對(duì)應(yīng)于UilRank算法中的Tu集合。W(u,v)表示用戶u在用戶v關(guān)注的人集合中影響力傳播度的占比。FEv表示用戶v關(guān)注的人的集合,對(duì)應(yīng)于UilRank算法中的Bv集合。SI(u)表示用戶自身初始影響力值。UITD(u)代表用戶u的影響力傳播度。
假設(shè)網(wǎng)絡(luò)社區(qū)個(gè)體數(shù)為N,設(shè)定2個(gè)結(jié)束標(biāo)志,一個(gè)為網(wǎng)絡(luò)循環(huán)迭代次數(shù)iterations,另一個(gè)為α,表示每個(gè)個(gè)體當(dāng)前ZR值和上一次迭代結(jié)果ZRold值的差值的閾值。算法結(jié)束后ZR為最終用戶影響力值,SORT()是以ZR為基準(zhǔn)的逆排序函數(shù)。ZhihuRank算法描述如下:
輸入N,iteration,a
輸出用戶影響力排名
執(zhí)行步驟:
1)對(duì)ZR進(jìn)行初始化,將所有節(jié)點(diǎn)ZR值設(shè)為1。
2)使用式(12)、式(13)計(jì)算每個(gè)節(jié)點(diǎn)的ZR值。