路遠(yuǎn)聰,劉 云
(北京交通大學(xué) 電子信息工程學(xué)院,北京 100044)
基于用戶能量排序的論壇用戶影響力分析
路遠(yuǎn)聰,劉 云
(北京交通大學(xué) 電子信息工程學(xué)院,北京 100044)
論壇是具有媒體和社交功能的網(wǎng)絡(luò)服務(wù)。分析論壇的用戶行為、輿論走向具有重要的現(xiàn)實(shí)意義。本文受廣義分子內(nèi)能理論啟發(fā),基于論壇用戶的行為、關(guān)系、質(zhì)量,設(shè)計(jì)了用戶能量排序算法,論壇用戶影響力分析具有重要現(xiàn)實(shí)意義,社會(huì)經(jīng)濟(jì)效益使該方法具有巨大的應(yīng)用前景。
論壇; 用戶影響力; 能量排序
論壇是網(wǎng)絡(luò)時(shí)代一種的社交網(wǎng)絡(luò)平臺(tái)和媒體平臺(tái)。論壇用戶可以方便地獲取關(guān)注信息,了解領(lǐng)域動(dòng)態(tài),表達(dá)個(gè)人想法,交流溝通情感。同時(shí),政府機(jī)構(gòu)、社會(huì)團(tuán)體也通過(guò)創(chuàng)建官方論壇大力宣傳政治理念、社會(huì)風(fēng)尚以引導(dǎo)主流價(jià)值觀,大量企業(yè)品牌論壇也借此促進(jìn)營(yíng)銷。論壇社區(qū)的熱點(diǎn)內(nèi)容、用戶行為和交互方式深刻影響著網(wǎng)絡(luò)用戶生活和網(wǎng)絡(luò)輿情走向,影響力高的用戶對(duì)其他用戶的網(wǎng)絡(luò)行為具有更強(qiáng)的驅(qū)動(dòng)力。
各個(gè)行業(yè)一般都有各自的論壇,其論壇的用戶多為該行業(yè)員工、科技人員、顧客、愛(ài)好者,經(jīng)常需要對(duì)諸多涉密信息和內(nèi)部資料進(jìn)行管理、需要對(duì)顧客對(duì)客服質(zhì)量的意見(jiàn)予以解決、需要對(duì)論壇輿論的真實(shí)性進(jìn)行審核,保持社會(huì)輿論的健康穩(wěn)定,這就需要對(duì)注冊(cè)用戶的影響力進(jìn)行分析,通過(guò)關(guān)鍵用戶的輻射帶動(dòng)作用引導(dǎo)輿論,因此本文對(duì)某論壇用戶影響力進(jìn)行研究,具有重大社會(huì)經(jīng)濟(jì)意義。
影響力一般是指以其他人樂(lè)于接受的形式改變他人思想和行動(dòng)的能力。論壇用戶的影響力可以理解為驅(qū)使其他用戶認(rèn)同某觀點(diǎn)或做出某動(dòng)作的能力。國(guó)外較早開(kāi)始對(duì)社交網(wǎng)絡(luò)的研究,主要是針對(duì)twitter,多數(shù)算法是基于著名的網(wǎng)頁(yè)排名算法Pagerank算法[1],多數(shù)學(xué)者從用戶行為的角度分析了用戶影響力,但對(duì)影響因子的選取僅僅限于轉(zhuǎn)貼、回復(fù)、提及,按3種因素進(jìn)行影響力測(cè)量,運(yùn)用斯比爾曼等級(jí)相關(guān)系數(shù)進(jìn)行比較后得出排名結(jié)果。也有學(xué)者提出了主動(dòng)指標(biāo)和被動(dòng)指標(biāo)的概念。Yuto[2]借鑒ObjectRank[3]的方法提出了TURank(twitter user rank)算法,在網(wǎng)絡(luò)圖中將用戶和內(nèi)容相結(jié)合,達(dá)到了把粉絲信息和用戶行為信息相結(jié)合的目的。唐飛龍[4]等借鑒了文獻(xiàn)[5]的方法,提高了具有高質(zhì)量粉絲的用戶的影響力,設(shè)計(jì)了基于用戶質(zhì)量的User Impack Rank(UIR)排序算法。李軍[6]總結(jié)了當(dāng)前主要的4中影響力排名方法,并在TURank的基礎(chǔ)上進(jìn)行了改進(jìn)。
2.1 論壇用戶能量和論壇用戶影響力
用戶可以發(fā)表帖子,內(nèi)容可以是根據(jù)自身生活經(jīng)歷發(fā)表自己的心情感受,也可以是轉(zhuǎn)發(fā)自己喜歡的別人的帖子;用戶也可以回復(fù)其它論壇用戶的話題;也可以是什么也不做,僅僅關(guān)注自己關(guān)注的信息。用戶間可以互相沒(méi)有關(guān)注、單向關(guān)注、互相關(guān)注;論壇平臺(tái)的用戶質(zhì)量有著巨大差異,例如:僵尸粉的存在。僵尸粉指的是注冊(cè)之后很少有活動(dòng)的用戶。很多用戶由于有大量僵尸粉關(guān)注,形成了虛假的影響力。各個(gè)用戶的原創(chuàng)帖子的比例也有不同。論壇上的用戶可以認(rèn)為是在一個(gè)引力場(chǎng)作用中的物體, 論壇用戶的影響力隨著用戶行為的活躍程度的提升而提升;隨著用戶間互相吸引、互相驅(qū)使的能力的提升而提升;隨著用戶質(zhì)量的優(yōu)劣和可信程度的提升而提升。論壇的這些現(xiàn)象可以用廣義分子內(nèi)能理論來(lái)比擬。在廣義分子內(nèi)能理論中,分子動(dòng)能、分子勢(shì)能和分子內(nèi)部能量構(gòu)成分子總能量,做分子熱運(yùn)動(dòng)的分子平均動(dòng)能與溫度正相關(guān),分子間的相互作用與間距正相關(guān)(間距大于10倍平衡距離時(shí)),分子內(nèi)部能量與分子質(zhì)量正相關(guān)。在廣義分子內(nèi)能理論的啟發(fā)之下,本文將用戶行為、用戶間關(guān)系、用戶自身質(zhì)量比擬為分子所具有的分子動(dòng)能、分子間勢(shì)能、分子內(nèi)部能量,形成用戶動(dòng)能、用戶間勢(shì)能、用戶內(nèi)部能量三維的用戶能量指標(biāo)。
(1)用戶動(dòng)能:表達(dá)用戶行為,用戶對(duì)帖子施加不同動(dòng)作,例如:評(píng)論、轉(zhuǎn)發(fā)等,即論壇上用戶的行為;
(2)用戶勢(shì)能:表達(dá)用戶關(guān)系,不同論壇用戶間存在的關(guān)注關(guān)系產(chǎn)生的吸引作用,因而產(chǎn)生的一種潛在能量;
(3)用戶內(nèi)部能量:表達(dá)用戶質(zhì)量,不同論壇用戶的自身特質(zhì)不同,具有不同的信用等級(jí)和真實(shí)程度,因論壇用戶本身的質(zhì)量水平獲得自有的能量;
(4)用戶總能量:由上述3種能量合成,代表綜合影響力。
2.2 Pagerank算法簡(jiǎn)介
Pagerank算法[1]是一種網(wǎng)頁(yè)間迭代傳遞信任的方法,由Larry Page和Sergrey Brin提出。其計(jì)算公式為:
其中,m表示一個(gè)網(wǎng)頁(yè),PR(m)表示網(wǎng)頁(yè)m的重要性權(quán)值,PR(n)表示網(wǎng)頁(yè)n的重要性權(quán)值,I(m)表示從其它網(wǎng)頁(yè)鏈接到m的網(wǎng)頁(yè)集合,L(n)是網(wǎng)頁(yè)n指向外部網(wǎng)頁(yè)的鏈接數(shù),d是阻尼因子,一般取0.15。Pagerank算法實(shí)例如圖1所示。
圖1 Pagerank算法實(shí)例
在論壇平臺(tái)上,用戶之間的關(guān)注行為類似于網(wǎng)頁(yè)間的鏈接,因此可以講用戶作為節(jié)點(diǎn),關(guān)注關(guān)系作為有向邊,每個(gè)粉絲對(duì)自己的關(guān)注都是自身影響力的一條入鏈,即表達(dá)該粉絲對(duì)自己的支持,自己對(duì)其的影響吸引能力。
2.3 定義與算法主要思想
三維的用戶能量指標(biāo)可以寫成{EB, ER, EQ},EB表示用戶動(dòng)能,ER表示用戶勢(shì)能,EQ表示用戶內(nèi)部能量。
圖2 三維指標(biāo)圖
上節(jié)所述方法的缺點(diǎn)是只使用了關(guān)注行為作為評(píng)價(jià)標(biāo)準(zhǔn),不能準(zhǔn)確的反映用戶的真實(shí)影響力。本文提出的User Energy Rank方法不是簡(jiǎn)單地基于鏈接關(guān)系,關(guān)注行為產(chǎn)生的鏈接關(guān)系相當(dāng)于是對(duì)用戶影響力的投票,同樣,對(duì)一個(gè)帖子評(píng)論、轉(zhuǎn)發(fā)等也是對(duì)該發(fā)表帖子用戶的支持和信任的表現(xiàn),所以應(yīng)該將用戶行為、用戶關(guān)系、用戶自身質(zhì)量均納入評(píng)價(jià)的考察范圍,實(shí)現(xiàn)對(duì)用戶真實(shí)影響力的測(cè)評(píng)。用戶動(dòng)能反映用戶在活躍程度方面產(chǎn)生的動(dòng)態(tài)影響力,其影響因子可通過(guò)AHP層次分析法得到各自權(quán)重。用戶勢(shì)能反映用戶在吸引他人關(guān)注方面擴(kuò)大輻射面而產(chǎn)生的潛在能力,即靜態(tài)影響力,以用戶內(nèi)部能量反映用戶的真實(shí)程度、可信程度,來(lái)排除僵尸粉和水軍用戶的干擾,反映由用戶自身的質(zhì)量?jī)?yōu)劣和帖子的原創(chuàng)率,是用戶的基礎(chǔ)能量。該方法可描述為如圖3所示。
圖3 User Energy Rank 方法
2.4 用戶動(dòng)能
用戶動(dòng)能主要通過(guò)被轉(zhuǎn)發(fā)數(shù)、被評(píng)論數(shù)、被提及數(shù)體現(xiàn)。用戶動(dòng)能反映用戶的被關(guān)注程度和在網(wǎng)絡(luò)空間中對(duì)其他用戶的吸引作用。當(dāng)然,每種表達(dá)關(guān)注的行為方式應(yīng)具有不同的權(quán)重,例如:評(píng)論對(duì)用戶動(dòng)能的貢獻(xiàn)應(yīng)高于轉(zhuǎn)發(fā),用戶動(dòng)能計(jì)算式如下:
其中,B(v, u)函數(shù)用于從用戶行為角度調(diào)整出鏈的分配權(quán)重,f(u)表示u的入鏈集合, 計(jì)算式如下:
其中,F(xiàn)u、Cu、Mu分別為論壇被轉(zhuǎn)發(fā)數(shù)、被評(píng)論數(shù)、被提及數(shù),N表示v的出鏈數(shù),由于考慮到影響力是一個(gè)論壇用戶經(jīng)過(guò)時(shí)間累積的效果,因此影響因子選取的不是每個(gè)帖子的被轉(zhuǎn)發(fā)、評(píng)論、提及的數(shù)目,而是一定時(shí)段的總數(shù)值,其系數(shù)可經(jīng)過(guò)權(quán)重分析由AHP方法給出。
2.5 用戶勢(shì)能
用戶勢(shì)能反映用戶在靜態(tài)狀態(tài)下,即沒(méi)有做出動(dòng)作行為的情況下,由于自身潛在的影響力產(chǎn)生對(duì)其他用戶的吸引,反映在指標(biāo)上是粉絲數(shù),粉絲越多則具有越強(qiáng)的吸引力,用戶的影響力與粉絲的粉絲數(shù)成正相關(guān)系,與粉絲的關(guān)注數(shù)成反相關(guān)系,且由于論壇水軍通過(guò)大量互相關(guān)注造成虛假影響力,考慮到水軍的關(guān)注數(shù)往往會(huì)大大超過(guò)其粉絲數(shù),因此使用兩者的比值。另一方面,入鏈數(shù)多不一定意味著具有高影響力,圖4顯示具有較少高影響力入鏈的用戶具有比入鏈數(shù)多的用戶更高的影響力,本節(jié)計(jì)算的用戶勢(shì)能借鑒了改進(jìn)的Pagerank方法,并在其基礎(chǔ)上繼續(xù)進(jìn)行了改進(jìn),以提高具有高質(zhì)量用戶的粉絲的權(quán)重。
圖4 較少高影響力用戶
用戶勢(shì)能的計(jì)算式如下:
其中,R(v, u)函數(shù)用于從用戶關(guān)系角度調(diào)整出鏈的分配權(quán)重, f(u)表示u的入鏈集合, 計(jì)算式如下:
其中,In表示入鏈數(shù),即他人對(duì)己的關(guān)注,Out表示出鏈數(shù),即自己對(duì)他人的關(guān)注,通過(guò)此式增加具有高影響力粉絲的用戶的影響力。
2.6 用戶內(nèi)部能量
用戶內(nèi)部能量反映論壇用戶的真實(shí)可靠程度。用戶發(fā)帖數(shù)越多,發(fā)帖越頻繁,在其他用戶瀏覽網(wǎng)頁(yè)時(shí)越容易看到其信息,不同于以上2種能量是用戶被動(dòng)的被關(guān)注或者相互間作用產(chǎn)生,用戶無(wú)論是轉(zhuǎn)帖還是自己發(fā)帖都是自主決定的,用戶內(nèi)部能量反映了用戶的真實(shí)可靠程度,同樣由于受到網(wǎng)絡(luò)水軍的影響,不能簡(jiǎn)單的認(rèn)為發(fā)帖數(shù)多的就一定比發(fā)論壇數(shù)少的影響力大。網(wǎng)絡(luò)水軍指的是通過(guò)大量發(fā)帖轉(zhuǎn)帖造勢(shì)的用戶。這些注冊(cè)用戶常常通過(guò)大量互相轉(zhuǎn)帖形成聲勢(shì),而原創(chuàng)帖子卻占比很小,而且僵尸粉一次轉(zhuǎn)發(fā)之后甚至自注冊(cè)之后很少發(fā)布論壇,因此上次發(fā)論壇距離現(xiàn)在的時(shí)間也是影響因子。
用戶內(nèi)部能量的計(jì)算式如下:
其中,Q(v, u)函數(shù)用于從用戶質(zhì)量角度調(diào)整出鏈的分配權(quán)重, f(u)表示u的入鏈集合,其計(jì)算式如下:
其中,OW為原創(chuàng)帖子數(shù),F(xiàn)W為轉(zhuǎn)發(fā)帖子數(shù),T為上次發(fā)帖時(shí)間與當(dāng)前時(shí)間差值(天)。
2.7 合成用戶總能量
以上3類能量反映了用戶的3種網(wǎng)絡(luò)關(guān)系,E=k1EB+k2ER+k3EQ,其系數(shù)利用YAAHP軟件計(jì)算得到(k1, k2, k3)為(0.3371, 0.3371, 0.3257),使用此用戶能量考慮到了用戶行為、關(guān)系、質(zhì)量對(duì)其影響力的權(quán)重貢獻(xiàn),在計(jì)算過(guò)程中注意到各要素的重要程度和貢獻(xiàn)率,也采取有效的方法降低了垃圾用戶的干擾,可以較真實(shí)地反映論壇用戶真實(shí)影響力。
影響力研究是重要的社交網(wǎng)絡(luò)研究領(lǐng)域。每個(gè)行業(yè)的相關(guān)論壇的輿論傳播都極大影響著民眾對(duì)行業(yè)發(fā)展、客服質(zhì)量、安全運(yùn)營(yíng)的公眾意見(jiàn),因此分析輿論形成過(guò)程中的高影響力用戶,規(guī)范其網(wǎng)絡(luò)言行并進(jìn)行輿論導(dǎo)向具有重大的意義。
本文對(duì)論壇用戶的影響力的分析受到了廣義分子能量理論的啟發(fā),將論壇注冊(cè)用戶的影響力類比為分子能量,將用戶行為、用戶關(guān)系、用戶自身質(zhì)量分別理解成分子動(dòng)能、勢(shì)能、內(nèi)部能量。根據(jù)用戶能量的3個(gè)維度分別對(duì)Pagerank進(jìn)行改進(jìn),使其適應(yīng)用戶影響力計(jì)算,本文綜合了用戶行為、關(guān)系、用戶質(zhì)量能多方面因素全面地評(píng)價(jià)論壇用戶的影響力,排除干擾因素的影響,較準(zhǔn)確地發(fā)現(xiàn)論壇中具有高影響力的用戶。對(duì)論壇的其他進(jìn)一步研究有一定的現(xiàn)實(shí)意義。對(duì)論壇用戶影響力的研究,有助于改善行業(yè)客服、監(jiān)督敏感輿論、保障顧客權(quán)益、維護(hù)社會(huì)穩(wěn)定,具有的經(jīng)濟(jì)效益和社會(huì)效益,本文中的方法也因此有較大的應(yīng)用前景。
[1] Page Lawrence, Brin Sergey, etc. The PageRank Citation ranking: Bring Order to the Web[R].technical report, Stanford Digital Library Technologies Project (1998), http://ilpubs. stanford.edu:8090/422/.
[2] Yuto Yamaguchi et al., TURank: Twitter User Ranking Based on User-Tweet Graph Analysis[C]. WISE 2010. 243-246.
[3] Andrey Balmin, et al., Objectrank: Authority-based keyword search in databases[C]. VLDB 2004. 565-569.
[4]唐飛龍,葉施仁,肖 春.基于用戶質(zhì)量的論壇社區(qū)博主影響力排序算法[J].計(jì)算機(jī)工程與應(yīng)用,2013(6).
[5]陳小飛, 王鐵彤, 馮小軍.一種基于網(wǎng)頁(yè)質(zhì)量的PageRank算法改進(jìn)[J]. 計(jì)算機(jī)研究與發(fā)展, 2009, 46(4): 381-387.
[6]李 軍,陳 震,黃霽崴. 論壇影響力評(píng)價(jià)研究[J].信息網(wǎng)絡(luò)安全,2012(3):10-13,27.
責(zé)任編輯 徐侃春
Analysis of forum user impact based on User Energy Rank
LU Yuancong, LIU Yun
( School of Electronic and Information Engineering, Beijing Jiaotong University, Beijing 100044, China )
Forum was a network service with function of media and social. To analyze forum, s public user behavior and public opinion was with important realistic meaning. Enlightened by the theory of generalized molecular internal energy, based on the forum’s user behavior, relationship, quality, this article designed the User Energy Rank Algorithm. The analysis of forum user impact had important practical signif i cance. The social and economic benef i ts made this method be with great application foreground.
forum; user impact; energy rank
U285∶TP39
A
1005-8451(2014)12-0001-04
2014-07-11
國(guó)家自然科學(xué)基金 (61172072 , 61271308);中央高 ?;究蒲袠I(yè)務(wù)費(fèi) (2014JBM018)。
路遠(yuǎn)聰,在讀碩士研究生;劉 云,教授。