吳 慧,張紹武,林鴻飛
(大連理工大學 計算機科學與技術(shù)學院,遼寧 大連 116024)
微博社交網(wǎng)絡的用戶影響力評價方法
吳 慧,張紹武,林鴻飛
(大連理工大學 計算機科學與技術(shù)學院,遼寧 大連 116024)
該文主要研究在微博社交網(wǎng)絡中怎樣評價用戶的影響力。在影響用戶影響力的眾多因素中,該文認為用戶的傳播能力越強,用戶的信息便可以更快地在網(wǎng)絡中擴散,其影響力也越大。和傳統(tǒng)的用戶影響力評價方法相比,該文綜合考慮用戶的活躍度和用戶所發(fā)微博質(zhì)量兩個方面的因素,得到用戶的影響力權(quán)重,然后把每一個用戶作為社交網(wǎng)絡中的節(jié)點,計算其在社交網(wǎng)絡中的影響力。通過在公開語料集和真實數(shù)據(jù)中的實驗,表明該方法是可行的,比傳統(tǒng)的用戶影響力評價方法更能客觀、真實地反映用戶的實際影響力。
社交網(wǎng)絡;用戶影響力;活躍度;微博質(zhì)量
Abstract: This paper investigates the evaluation of the user influence on Sina microblog. Among various factors, a user is considered as more influential if his information is disseminated faster to a larger extent. Compared with traditional methods, the user’s active degree and the quality of posts are both taken into consideration. Treating each user as a node in the social network, the final user influence is estimated. The experiments on both public dataset and real dataset from Sina microblog show the validity of the method.
Key words: social network; user influence; active degree; microblog quality
收稿日期: 2014-09-25 定稿日期: 2015-04-23
基金項目: 國家自然科學基金(61562080,61632011,61572102);國家重點研發(fā)計劃(2016YFB1001103);教育部留學回國人員科研啟動基金和高等學校博士學科點專項科研基金資助課題(20090041110002)
微博作為一種新型的在線媒介形態(tài),正在悄無聲息地改變著人們的生活和思考方式。在微博時代,每個人好像都有一個麥克,在140字的信息中分享著自己心情和故事,同時表達著自己對世界的認識,微博因此成為輿論的重要發(fā)源地之一,在我們所形成的社交網(wǎng)絡中扮演著越來越重要的作用[1-2]。微博具有評論、轉(zhuǎn)發(fā)、關(guān)注等多種功能,可以加快信息的傳播。每一個用戶所發(fā)的微博都可以引起其他用戶的關(guān)注、轉(zhuǎn)發(fā)和評論,從而在微博社交網(wǎng)絡中產(chǎn)生一定的影響。當然,每一個用戶的影響力也是截然不同的。一般來說,擁有較多粉絲的用戶影響力也較大,其言論和觀點可以被更多的人看到,在微博中產(chǎn)生一定的影響,可以推動輿論的高潮,甚至對輿論的走向起到推波助瀾的作用。然而由于僵尸粉的存在,使得簡單的用粉絲數(shù)來衡量用戶的影響力在實際的應用中存在弊端。用戶微博的轉(zhuǎn)發(fā)數(shù)作為衡量用戶影響力的因素之一,可以反映用戶所發(fā)微博的質(zhì)量及用戶的影響力情況,微博被廣泛地轉(zhuǎn)發(fā),相應的微博信息可以更快地在網(wǎng)絡中傳播,也可以反映出用戶的影響力。將用戶放入到整個社交網(wǎng)絡中,用戶表示節(jié)點,用戶之間的互粉表示鏈接邊,可以形成整個網(wǎng)絡圖,可以通過網(wǎng)絡的拓撲結(jié)構(gòu)得到每個節(jié)點的影響力。對用戶的影響力評估有不同的方法,每一種方法都有其側(cè)重點,在本文中,影響力的衡量主要是信息在網(wǎng)絡中的傳播速度。用戶越活躍,其所發(fā)的微博內(nèi)容被更多的人轉(zhuǎn)發(fā)和評價,該用戶通過微博所承載的信息也能夠更快地在網(wǎng)絡中擴散,廣為人知,那么該用戶的影響力也越大。
在實際的應用領(lǐng)域,對用戶的影響力進行合理的評估,可以在微博社交網(wǎng)絡中找到影響力較高的用戶,可以對影響力較高的用戶進行廣告推薦或植入,該用戶的信息在網(wǎng)絡中可以更快地傳播,進而可以花費最小的代價在一個社交網(wǎng)絡中進行廣告宣傳。在輿情分析中,可以找到影響力較大的用戶,因該用戶的言論在社交網(wǎng)絡中起到領(lǐng)袖的作用,通過對該用戶言論的分析和引導,就可以對輿情的控制起到積極的作用。
本文在評價用戶影響力方面,考慮制約用戶影響力的諸多因素,比如用戶的粉絲數(shù)、用戶微博的轉(zhuǎn)發(fā)數(shù)等,得到用戶在微博社交網(wǎng)絡中的活躍積極性及其所發(fā)微博的質(zhì)量,計算每一個用戶的權(quán)重,根據(jù)用戶的權(quán)重進行影響力排名。將此排名和傳統(tǒng)的方法排名進行比較和分析。
本文的結(jié)構(gòu)安排如下: 第二節(jié)介紹了在微博影響力研究方面的相關(guān)工作;第三節(jié)介紹了加入用戶權(quán)重的影響力評價方法,同時說明了在評價微博社交網(wǎng)絡中一般的傳統(tǒng)評價方法;第四節(jié)介紹了實驗部分,包括實驗數(shù)據(jù)的來源和實驗的結(jié)果,并對結(jié)果進行了分析和對比;第五節(jié)介紹了對本文的總結(jié),以及下一步的工作設想。
對社交網(wǎng)絡中用戶影響力的研究,大體上可以從以下幾個方面進行。
(1) 從用戶的靜態(tài)屬性來研究。Meeyoung Cha等[3]在對Twitter社交網(wǎng)絡中用戶影響力評價的研究中,從用戶的粉絲數(shù)、用戶的轉(zhuǎn)發(fā)數(shù)等排名來研究用戶的影響力,其中粉絲數(shù)較多的一般為知名公眾人物,反映了現(xiàn)在的流行趨勢;轉(zhuǎn)發(fā)數(shù)較多的一般是媒體,其微博的內(nèi)容質(zhì)量較高。但是該方法所得到的排名只是根據(jù)粉絲數(shù)或轉(zhuǎn)發(fā)數(shù),沒有綜合考慮包括用戶行為在內(nèi)的一系列指標,使得排名有一定的限制,不能普遍地反映用戶的實際影響力??紤]到微博是一種互動的社交網(wǎng)絡,石磊等[4]提出了用戶活躍度模型,通過考慮用戶粉絲、用戶發(fā)微博的頻率等計算用戶的活躍指數(shù),從而得到用戶的活躍度排名。用戶活躍度雖然可以作為衡量微博用戶影響力的一項指標,但并不能說明用戶在微博中參與積極性越高、越活躍,該用戶就越具有影響力。Danah Boyd等[5]將Twitter用戶的轉(zhuǎn)發(fā)、回復等行為表示成用戶的行為權(quán)重,在權(quán)重的基礎(chǔ)上計算用戶的影響力。該文章對用戶的行為考慮得較周全,但是又忽略了用戶的粉絲數(shù)等因素。張華平、孫夢姝等[6]通過分析用戶所發(fā)的微博數(shù)、粉絲數(shù)、用戶關(guān)注數(shù)的數(shù)值特征,得到用戶的影響力模型。但是該論文得到的是用戶群體的影響力,比如加V用戶的影響力比普通用戶的影響力高,沒有得到個體用戶的影響力。
(2) 從社交網(wǎng)絡中形成的拓撲結(jié)構(gòu)的角度來研究。Yuto Yamaguchi等[7]通過分析用戶之間的關(guān)注關(guān)系,評估每一個用戶在社交網(wǎng)絡中的影響力。但是該方法僅僅考慮用戶被關(guān)注邊的多少,在網(wǎng)絡圖中所考慮的因素太少。Weng等[8]基于PageRank算法,根據(jù)用戶之間的粉絲聯(lián)系所形成的網(wǎng)絡關(guān)系,得到用戶的影響力排名。該方法用粉絲數(shù)量和質(zhì)量來衡量用戶的影響力,較為直觀,實現(xiàn)也較為簡單,在Twitter社交網(wǎng)絡中取得較好的效果,但實際的微博社交網(wǎng)絡中存在僵尸粉等現(xiàn)象,粉絲作為微博用戶影響力的評價指標并不是很全面。王琛、陳庶樵[9]改進了傳統(tǒng)的PageRank算法的用戶影響力評價方法,引入了微博傳播能力這一概念,加入用戶的行為可以更真實地反映用戶的影響力。但是該方法提出的微博傳播能力只包括了用戶評論等很少量的信息,有一定的缺陷。
針對以上兩個方面的主要研究,不同的影響力因素有其不同的側(cè)重點,也有將兩者結(jié)合起來考慮,將用戶的屬性和用戶所在社交網(wǎng)絡中的拓撲結(jié)構(gòu)同時進行研究,能較為普遍地反映用戶的影響力[10-11]。
通過對以上各種算法的研究,本文綜合考慮反映用戶影響力的指標,用戶所發(fā)微博積極性越高,所發(fā)的微博質(zhì)量越高,微博將被越廣泛的轉(zhuǎn)發(fā)和評價,其信息也相應地在網(wǎng)絡中傳播得更快,其影響力也越大。用戶的積極活躍性考慮了用戶在一段時間內(nèi)所發(fā)原創(chuàng)微博的頻率、轉(zhuǎn)發(fā)的頻率,用戶所發(fā)微博的質(zhì)量考慮了用戶所發(fā)微博在這一段時間內(nèi)被轉(zhuǎn)發(fā)次數(shù)和評價次數(shù),從而得到用戶的權(quán)重,該權(quán)重反映了用戶的影響力。和傳統(tǒng)的用戶影響力評價指標比較,本文所提出的加入用戶權(quán)重的影響力排名更具合理性,并能客觀、真實地反映微博用戶的影響力。
3.1 加入權(quán)重的用戶影響力評價方法 本文所提出的加入用戶權(quán)重的影響力評價方法主要考慮兩個方面的因素: 用戶的活躍度和用戶所發(fā)微博的質(zhì)量。其中用戶的活躍度包括用戶所發(fā)微博和用戶轉(zhuǎn)發(fā)的微博,活躍度反映了用戶參與微博互動的熱情和積極性,用戶的活躍度越高說明其與其他博主的互動越頻繁,更新微博越快,更新的微博的信息可以引起其他用戶的好奇而關(guān)注圍觀,進而加快該博主的微博信息傳播。用戶所發(fā)的微博質(zhì)量包括用戶微博被轉(zhuǎn)發(fā)和被評論的次數(shù),用戶所發(fā)的微博質(zhì)量越高,越容易引起大眾的轉(zhuǎn)發(fā)和評論,該博主的微博信息也被傳播得更快,如圖1所示。
圖1 用戶的權(quán)重及其相關(guān)因素
每一個用戶的權(quán)重計算公式如式(1)。
Xi是指用戶i的活躍度。計算用戶i的活躍度Xi時考慮該用戶在一段時間T內(nèi)的原創(chuàng)微博數(shù)量Pi和轉(zhuǎn)發(fā)微博數(shù)量Ri,具體的計算公式如式(2)。
Yi是指用戶i所發(fā)微博的質(zhì)量。Yi是用戶i在一段時間T內(nèi)所有微博影響力的平均值,評價每一條微博的影響力主要考慮微博被評論次數(shù)和微博被轉(zhuǎn)發(fā)次數(shù)兩個方面的因素,根據(jù)參考文獻[12]計算每一條微博的影響力公式如式(3)。
其中yi,j表示用戶i的第j條微博的影響力,MRi,j表示用戶i的第j條微博被轉(zhuǎn)發(fā)的次數(shù),MCi,j表示用戶i的第j條微博被評論的次數(shù)。得到用戶i的微博影響力公式如式(4)。
其中,n是指用戶在時間段T內(nèi)所發(fā)微博的數(shù)量,包括原創(chuàng)微博和轉(zhuǎn)發(fā)微博。
3.2 用戶影響力排名的評價指標
在對用戶影響力排名評價時,常用的評價指標有排名的Spearman序列相關(guān)系數(shù)、Kendall序列相關(guān)系數(shù)、重疊率、計算代價等。
其中,Spearman相關(guān)系數(shù)反映的兩組排名之間的線性相關(guān),該值越接近+1或-1,兩組排名之間呈線性相關(guān),Spearman相關(guān)系數(shù)的符號反映了兩組排名之間正相關(guān)和負相關(guān)的關(guān)系。符號為正號,兩組排名呈正相關(guān),符號為負號,兩組排名呈負相關(guān)。具體Spearman相關(guān)系數(shù)排名評價方法如式(5)所示。其中,xi和yi分別表示在兩組排名中的排名序號,N表示排名總數(shù)。
Kendall相關(guān)系數(shù)反映了一組排名相對于另一組排名的分歧。其中,如果兩組排名是完全吻合的,該值為+1;如果兩組排名分歧最大,該值為-1;兩組排名越一致,其值也越大。具體Kendall相關(guān)系數(shù)排名方法如式(6)所示。其中,P表示兩組排名一致的對數(shù),n表示排名總數(shù)。
重疊率(overLap)主要是指兩組排名在前N名重疊的次數(shù)(記為topN),N的取值可以根據(jù)具體的數(shù)據(jù)集合理選擇。具體overLap計算方式如式(7)所示。其中,topN(x)和topN(y)分別表示兩組排名中topN的次數(shù)。
計算代價是指根據(jù)該方法得到的用戶影響力評估所消耗的時間、空間復雜度,以便于在具體的研究中根據(jù)應用和環(huán)境選擇理性的評估方法。
4.1 語料來源 本實驗包括兩個語料集,第一個是在公開的數(shù)據(jù)集上的實驗。第二個是在真實的數(shù)據(jù)集上的實驗。
在公開數(shù)據(jù)集中,本文選取的是2012年kddcuptrack1上的數(shù)據(jù)集,該數(shù)據(jù)集是從騰訊微博爬取的共90天內(nèi)的相關(guān)數(shù)據(jù),將得到的數(shù)據(jù)和數(shù)據(jù)間的相互關(guān)系從以下兩個方面概括:
(1) 用戶屬性。包括用戶所發(fā)原創(chuàng)微博數(shù)、用戶轉(zhuǎn)發(fā)微博數(shù)、每一篇微博被評論的次數(shù)、每一篇微博被轉(zhuǎn)發(fā)的次數(shù);
(2) 用戶關(guān)系。包括用戶之間的關(guān)注、用戶的粉絲。
在真實數(shù)據(jù)集中,本文選取的是2012年新浪微博名人影響力榜9月份的數(shù)據(jù)。其中名人堂中的數(shù)據(jù)基本上是經(jīng)過認證的,數(shù)據(jù)信息比較真實可信,數(shù)據(jù)主要是用戶的屬性,包括用戶所發(fā)微博、轉(zhuǎn)發(fā)微博、用戶在這段時間內(nèi)所發(fā)微博被轉(zhuǎn)發(fā)和評論的次數(shù)等。
4.2 對比實驗的描述
本文所選取的對比實驗是用戶的粉絲數(shù)、轉(zhuǎn)發(fā)數(shù)排名及參考文獻[13]在網(wǎng)絡拓撲結(jié)構(gòu)中得到每一個用戶的領(lǐng)袖排名,即leaderRank,其中領(lǐng)袖是指有影響力的用戶。
(1) 粉絲數(shù)。雖然用戶的粉絲數(shù)多,不一定說明其影響力大,但是粉絲數(shù)也反映了用戶的人氣和流行度,如果微博用戶被很多的粉絲跟隨,其微博動態(tài)也可以被更多的人看到,信息可以得到一定的傳播。
(2) 轉(zhuǎn)發(fā)數(shù)。用戶的轉(zhuǎn)發(fā)數(shù)多,其信息可以更快地在網(wǎng)絡中擴散,可以在一定程度上反映用戶的影響力。
文獻[13]是基于網(wǎng)絡拓撲結(jié)構(gòu)得到的一個領(lǐng)袖排名leaderRank。leaderRank主要是對PageRank算法[14]的改進。在微博社交網(wǎng)絡中,用戶可以看作是節(jié)點,用戶之間的“互粉”形成一條邊,如圖2所示,節(jié)點A和B分別表示用戶,A到B的邊表示A是B的粉絲。
圖2 用戶之間的關(guān)系
LeaderRank算法提出了一個虛擬的根節(jié)點(groundnode),該根節(jié)點和網(wǎng)絡中的節(jié)點形成雙向的鏈接,如圖3所示。其中,實線的單向邊表示節(jié)點之間的粉絲跟隨,虛線所形成的雙向邊表示根節(jié)點和網(wǎng)絡中所有節(jié)點的鏈接。
圖3 加入ground node節(jié)點后的網(wǎng)絡圖
計算節(jié)點影響力的公式如式(8)。其中,u、v表示網(wǎng)絡中的節(jié)點,M(u)是指向節(jié)點u的所有節(jié)點集合,N(v)是節(jié)點v的出度。從式(8)可以看出,計算節(jié)點的leaderRank值的過程是一個迭代的過程,其中初始化網(wǎng)絡中每一個節(jié)點的leaderRank值(LR)為1.0,而根節(jié)點的初始值為0.0。
得到每一個節(jié)點的leaderRank值后,和根節(jié)點的leaderRank值歸一化進行累加,得到最終的leaderRank值,計算公式如式(9)所示。其中,N是根節(jié)點的出度,即網(wǎng)絡中的所有節(jié)點數(shù)。
4.3 實驗說明
本文選取了兩個數(shù)據(jù)集,在公開數(shù)據(jù)集和在真實數(shù)據(jù)集中,針對不同的數(shù)據(jù)集,為了說明本文所提出的加入用戶權(quán)重的方法的效果,將其與各個影響力排名進行了比較。根據(jù)數(shù)據(jù)集不同的特點,實驗也有所區(qū)別。
在公開數(shù)據(jù)集kddcup track1的實驗中,分別對用戶的粉絲數(shù)、用戶轉(zhuǎn)發(fā)數(shù)、基于leaderRank算法的用戶影響力排名和加入用戶權(quán)重的影響力方法排名,比較在不同的評價指標中各個排名方法的異同。其中,Spearman相關(guān)系數(shù)分別比較兩組排名占總排名的1%、10%和總排名的相關(guān)性。重疊率比較top 10、top 20、top 50、top 100出現(xiàn)相同節(jié)點的個數(shù)。
在真實數(shù)據(jù)集新浪名人微博社交網(wǎng)絡中,分別對用戶的粉絲數(shù)、用戶轉(zhuǎn)發(fā)數(shù)及加入權(quán)重的影響力方法排名。其中Spearman系數(shù)比較占總排名10%和總排名的線性相關(guān)性。因為在名人排名榜中,占總排名1%的排名太少,所以沒有比較Top 1%的Spearman系數(shù)。重疊率比較Top 10、Top 20、Top 50的出現(xiàn)重復用戶,真實的名人微博排行榜中數(shù)據(jù)集較小,所以沒有比較Top 100出現(xiàn)重復的用戶個數(shù)。在該數(shù)據(jù)集中的實驗沒有基于leaderRank算法的用戶影響力排名,因為在特定的真實數(shù)據(jù)集中,給定了用戶,用戶之間的相互關(guān)注鏈接太少,所得到的節(jié)點之間的網(wǎng)絡拓撲圖也很稀疏,網(wǎng)絡結(jié)構(gòu)信息太少,故沒有從網(wǎng)絡拓撲方面比較各個排名的異同。
4.4 實驗結(jié)果
分別在公開的語料集和真實數(shù)據(jù)集中實驗,可以得到每種影響力排名下的前10名用戶排名,從不同的影響力評價方法中,比較任意兩組排名。具體的實驗結(jié)果如表1~8所示。
表1 在kddcup track1中各個算法的Spearman相關(guān)系數(shù)
表2 在kddcup track1中各個算法的Kendall系數(shù)
表3 在kddcup track1中各個算法的重疊數(shù)overLap
續(xù)表
表4 在新浪微博名人排名榜中各個算法的Spearman系數(shù)
表5 在新浪微博名人排名榜中各個算法的Kendall系數(shù)
表6 在新浪微博名人排名榜中各個算法的重復數(shù)overLap
表7 在kddcup track1各個算法得到的Top 10用戶排名
4.5 實驗結(jié)果分析
由表1、表2、表4、表5在不同的數(shù)據(jù)集中各個排名評價指標中可以看出不同的影響力排名符號都為正號,都是正相關(guān)的,這說明了雖然影響力的評價指標不同,但是各個方法之間也不是毫無關(guān)聯(lián)的,比如粉絲數(shù)多并不一定影響力大,但是粉絲數(shù)多其影響力不會太小。
表8 在新浪微博名人排名榜中各個算法得到的Top 10用戶排名
表1中粉絲數(shù)和轉(zhuǎn)發(fā)數(shù)相關(guān)性較低,粉絲多的其轉(zhuǎn)發(fā)不一定高;粉絲數(shù)和 leaderRank算法相關(guān)度較高,根據(jù)粉絲數(shù)得到的影響力較高的,leaderRank算法得到的影響力也較高,因為leaderRank算法是對PageRank算法的改進,而PageRank算法是與節(jié)點的入度(即粉絲數(shù))相關(guān)的;轉(zhuǎn)發(fā)數(shù)和加入用戶權(quán)重排名相關(guān)性較大,兩者都反映了用戶的信息在微博中傳播的速度,而這也說明了加入用戶權(quán)重的影響力評價方法可以加快微博信息的傳播。
表2也說明了基于leaderRank算法的影響力評價方法和粉絲數(shù)的評價方法更一致,而加入用戶權(quán)重的評價方法和轉(zhuǎn)發(fā)數(shù)的評價方法更一致。
從表3和表6的各個排名重疊數(shù)可以看出雖然各種排名有所區(qū)別,但是無論哪一種排名,隨著topN中N的增大,重疊數(shù)也逐漸增大,各種排名之間有一定的相互聯(lián)系。同時從表3中可以看出各個排名側(cè)重點有所不同,排名很少重合。
通過表4和表5,可以看出在真實數(shù)據(jù)集中加入用戶權(quán)重的影響力評價方法和用戶的轉(zhuǎn)發(fā)數(shù)相關(guān)性較大,用戶的權(quán)重越大,用戶的轉(zhuǎn)發(fā)數(shù)越多,在微博中也傳播得更快。而信息更快更廣的傳播,使用戶的實際影響力也越大。
表7和表8是在不同的評價方法中得到的Top 10的用戶排名,每種排名算法得到的排名側(cè)重點不同,排名也有差異。由表8可以看出粉絲數(shù)較多的用戶一般是活躍流行的明星,轉(zhuǎn)發(fā)數(shù)較多的一般是微博所發(fā)的質(zhì)量較高、引起共鳴和關(guān)注的用戶,比如知名媒體等。而加入用戶權(quán)重的用戶影響力排名綜合考慮了各種因素,將用戶的活躍度和用戶所發(fā)微博的質(zhì)量兩個方面的因素結(jié)合起來,用戶越活躍,所發(fā)的微博被轉(zhuǎn)發(fā)和評論的次數(shù)也越高,該用戶的信息也可以更快地在社交網(wǎng)絡中傳播,更能為人所知。
在計算代價上,粉絲數(shù)影響力排名最簡單直接,只需要統(tǒng)計每一個節(jié)點的入度即可。轉(zhuǎn)發(fā)數(shù)需要累加用戶在這一段時間內(nèi)每條微博的轉(zhuǎn)發(fā)數(shù)。leaderRank算法則是基于網(wǎng)絡拓撲結(jié)構(gòu)計算每一個用戶的leaderRank,得到每一個節(jié)點的入度、出度等,還需要迭代的過程,相比較而言其計算成本較大。加入用戶權(quán)重的評價方法,需要得知每一個用戶所發(fā)的微博數(shù)和轉(zhuǎn)發(fā)數(shù),用戶的微博被轉(zhuǎn)發(fā)和評論的次數(shù),計算代價適中。
本文針對微博社交網(wǎng)絡中用戶影響力排名進行研究,微博用戶的信息可以更快地在網(wǎng)絡中傳播,其影響力也越大。通過分析得到一種加入用戶權(quán)重的用戶影響力算法,該方法考慮了用戶本身的活躍積極性和所發(fā)微博的質(zhì)量兩個方面。
比較傳統(tǒng)的對用戶屬性的評價方法包括用戶粉絲數(shù)和用戶轉(zhuǎn)發(fā)數(shù)等,可以使信息在網(wǎng)絡中得到更快的傳播,在基于網(wǎng)絡拓撲結(jié)構(gòu)對用戶影響力的評價方法中,本文通過給每一個用戶加入一個權(quán)重,在計算其在微博社交網(wǎng)絡中的影響力,可以突出每一個用戶的活躍度和所發(fā)微博質(zhì)量兩方面的因素,更加合理地反映用戶的實際影響力。
通過本文的研究,可以知道用戶影響力包括用戶的主動行為和用戶所發(fā)微博被轉(zhuǎn)發(fā)評論等被動行為(用戶所發(fā)微博質(zhì)量)。在實際的微博社交網(wǎng)絡中,為了提高用戶的影響力,用戶可以通過活躍的參與微博的發(fā)帖、評論、轉(zhuǎn)發(fā)加強和其他用戶的互動,這樣可以引起更多人的關(guān)注,增加更多的粉絲,同時可以發(fā)布更多高質(zhì)量的微博,引發(fā)大家對微博的轉(zhuǎn)發(fā)、評價,引起更多的圍觀,讓信息在網(wǎng)絡中更快的傳播,提高用戶在微博社交網(wǎng)絡中的影響力。
評價微博用戶的影響力可以從不同的角度給出不同的影響力排名,每一種影響力因素的側(cè)重點有所不同,怎樣給出合理的大眾接受的影響力排名需要在不用的應用環(huán)境中區(qū)分考慮。下一步的工作可以從實際微博社交網(wǎng)絡中影響微博用戶排名的因素,比如微博認證、微博標簽等方面來研究微博用戶的影響力評價方法。
[1] Java A, Song X, Finin T, et al. Why we twitter: understanding microblogging usage and communities[C]//Proceedings of knowledge discovery and data mining. 2007: 56-65.
[2] Zhao D, Rosson M B. How and why people Twitter: the role that micro-blogging plays in informal communication at work[C]//Proceedings of international conference on supporting group work, 2009: 243-252.
[3] Cha M, Haddadi H, Benevenuto F, et al. Measuring user influence in Twitter: the million follower fallacy[C]//Proceedings of international conference on weblogs and social media, 2010: 10-17.
[4] 石磊,張聰,衛(wèi)琳.引入活躍指數(shù)的微博用戶排名機制[J].小型微型計算機系統(tǒng),2012(1): 110-114.
[5] Boyd D, Golder S A, Lotan G, et al. Tweet, Tweet, Retweet: Conversational Aspects of Retweeting on Twitter[C]//Proceedings of hawaii international conference on system sciences, 2010: 1-10.
[6] 張華平,孫夢姝,張瑞琪,等.微博博主的特征與行為大數(shù)據(jù)挖掘[J].中國計算機學會通訊,2014(6): 36-43.
[7] Yamaguchi Y, Takahashi T, Amagasa T, et al. TURank: twitter user ranking based on user-tweet graph analysis[C]//Proceedings of web information systems engineering, 2010: 240-253.
[8] Weng J S, Lim E P, Jiang J, et al. TwitterRank: finding topic-sensitive influential twitterers[C]//Proceedings of the 3rd ACM International Conference on Web Search and Data Mining(WSDM 2010). New York, USA. ACM 2010: 261-270.
[9] 王琛,陳庶樵.一種改進的微博用戶影響力評價算法[J].信息工程大學學報,2013(6): 380-384.
[10] Ye S, Wu S F. Measuring message propagation and social influence on Twitter. com[C]//Proceedings of social informatics, 2010: 216-231.
[11] Romero D M, Galuba W, Asur S, et al. Influence and passivity in social media[C]//Proceedings of european conference on principles of data mining and knowledge discovery, 2011: 18-33.
[12] 原福永,馮靜,符茜茜.微博用戶的影響力指數(shù)模型[J].情報分析與研究,2012(6): 60-64.
[13] Lu L, Zhang Y, Yeung C H, et al. Leaders in Social Networks, the Delicious Case[J]. PLOS ONE, 2011,6(6): e21202.
[14] Page Lawrence, Brin Sergey. The PageRank citation ranking: bring order to the web[R]. Technical report,Stanford Digital Library Technologies Project.1998.
吳慧(1987—),碩士,主要研究領(lǐng)域為文本挖掘、社會關(guān)系網(wǎng)絡分析和社交媒體處理。
E-mail: 925836442@qq.com
張紹武(1967—),博士,教授,主要研究領(lǐng)域為文本挖掘、信息檢索、自然語言處理、情感計算和觀點挖掘、社會計算和輿情分析。
E-mail: zhangsw@dlut.edu.cn
林鴻飛(1962—),博士,教授,博士生導師,主要研究領(lǐng)域為自然語言處理、情感分析與觀點挖掘、信息檢索與信息推薦、社會計算與輿情分析、面向生物醫(yī)學領(lǐng)域的文本挖掘等。
E-mail: hflin@dlut.edu.cn
Evaluation of the User’s Influence on Microblog
WU Hui, ZHANG Shaowu, LIN Hongfei
(School of Computer Science and Technology, Dalian University of Technology, Dalian, Liaoning 116024, China)
1003-0077(2017)04-0184-07
TP391
A