劉芳芳 張婉婷
摘要:文章在微博用戶已分類的基礎(chǔ)上,提出一種基于社區(qū)內(nèi)用戶當(dāng)前時(shí)間段的影響力計(jì)算方法,使得用戶影響力計(jì)算結(jié)果更加客觀、科學(xué)以及具有應(yīng)用價(jià)值。文章提出一種新的影響力排名算法,對(duì)原有pagerank算法進(jìn)行改進(jìn),加入時(shí)間和活躍度兩個(gè)因素計(jì)算用戶粉絲對(duì)用戶的影響力貢獻(xiàn)值。首先在數(shù)據(jù)抓取時(shí),只抓取限定時(shí)間段內(nèi)微博數(shù)據(jù),確保數(shù)據(jù)能反應(yīng)用戶最新動(dòng)態(tài)。然后再把用戶的活躍度作為PR值計(jì)算的一個(gè)因子構(gòu)造PR值計(jì)算公式,活躍度越高則粉絲的貢獻(xiàn)值越大。除此以外,還對(duì)用戶自身的影響力進(jìn)行計(jì)算,用戶最終的影響力值等于粉絲貢獻(xiàn)值與自身影響力之和。最后通過對(duì)新浪微博數(shù)據(jù)進(jìn)行采集,將計(jì)算結(jié)果與傳統(tǒng)的pagerank進(jìn)行比較,該算法能更準(zhǔn)確更科學(xué)地反應(yīng)社區(qū)內(nèi)用戶當(dāng)前的影響力排名。
關(guān)鍵詞:微博社區(qū);影響力;pagerank
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)10-0248-03
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
隨著互聯(lián)網(wǎng)技術(shù)和信息傳播方式的不斷發(fā)展,微博從初始的社交網(wǎng)絡(luò)平臺(tái)逐漸發(fā)展成為一種新興的信息傳播媒體,在現(xiàn)實(shí)社會(huì)網(wǎng)絡(luò)中擁有巨大的影響力。新浪微博作為國內(nèi)最大的社交網(wǎng)絡(luò)平臺(tái),通過名人效應(yīng)吸引了一大批用戶,至2017年底,新浪微博月活躍用戶數(shù)已經(jīng)達(dá)到4億。經(jīng)過幾年的發(fā)展,新浪微博已經(jīng)積累了巨大的用戶量,用戶每天在平臺(tái)上發(fā)布新的狀態(tài)或者新聞事件,用戶傳播信息的能力等等,吸引了大批的研究者對(duì)其進(jìn)行研究。研究者通過用戶公開的信息對(duì)其進(jìn)行分類,也就是社區(qū)劃分,將相似的人群劃分為一個(gè)社區(qū),然后再對(duì)各個(gè)社區(qū)挖掘影響力較大的用戶。這種基于社區(qū)劃分的大“V”用戶的挖掘,對(duì)于商業(yè)廣告以及社會(huì)輿論、新聞傳播都有著重要的應(yīng)用價(jià)值。
目前,微博用戶影響力的研究已經(jīng)取得一些成果。張琳等[1]在對(duì)用戶聚類后,提出一種微博魅力指數(shù)即用粉絲數(shù)/微博數(shù),簡(jiǎn)單地計(jì)算用戶影響力。康書龍[2]從復(fù)雜網(wǎng)絡(luò)學(xué)分析用戶行為,認(rèn)為微博用戶的活躍度對(duì)其關(guān)注用戶的影響力計(jì)算具有重要作用,主要考慮好友轉(zhuǎn)發(fā)微博對(duì)其影響力的貢獻(xiàn),提出一種改進(jìn)的pagerank算法,將活躍度作為權(quán)值計(jì)算用戶轉(zhuǎn)發(fā)微博的能力作為影響力值。劉玲等[3],提出用戶的影響力應(yīng)該由用戶自身的質(zhì)量指數(shù)與用戶的間接質(zhì)量指數(shù)構(gòu)成,用戶的自身質(zhì)量指數(shù)即用戶微博的轉(zhuǎn)發(fā)率、評(píng)論率,是否為認(rèn)證用戶等,用戶間接質(zhì)量指數(shù)即用戶好友對(duì)其影響力的貢獻(xiàn)值。但現(xiàn)實(shí)中,大部分的微博用戶行為存在周期性和不穩(wěn)定性,如果拿所有的原始數(shù)據(jù)進(jìn)行分析,得到用戶影響力是長(zhǎng)時(shí)間以來積累的值,不能反映該用戶在最近一段時(shí)間內(nèi)的影響力。本文在以上算法的基礎(chǔ)上,加上時(shí)間因素,采集最近一段時(shí)間內(nèi)的數(shù)據(jù)對(duì)用戶自身質(zhì)量指數(shù)算法和間接質(zhì)量指數(shù)的算法進(jìn)行改進(jìn),提出一種新的微博影響力計(jì)算方法,實(shí)驗(yàn)結(jié)果分析表明,該算法更具科學(xué)性和準(zhǔn)確性。
1 pagerank算法
pagerank算法[4]是一個(gè)網(wǎng)頁排名算法,基本思想是將網(wǎng)頁之間的連接看作是一種投票行為,如果網(wǎng)頁a鏈接到網(wǎng)頁b,則認(rèn)為網(wǎng)頁a給網(wǎng)頁b投了一票。在微博中,也可以用來描述用戶與用戶好友之間的相互作用關(guān)系。如果用戶a轉(zhuǎn)發(fā)了用戶b的微博,如果用戶b是一個(gè)影響力非常大的大“V”用戶,則用戶a的影響力也會(huì)得到大幅提升[5]。Weng 等[6]的研究說明,如果將好友對(duì)其影響力貢獻(xiàn)的總值作為影響力評(píng)價(jià)公式的唯一指標(biāo)應(yīng)用在Twitter上,最后實(shí)驗(yàn)的排序結(jié)果與經(jīng)典的 PageRank 算法排序結(jié)果總體上一致。但是微博用戶中,每個(gè)用戶的活躍度是不一樣的,對(duì)于同一個(gè)粉絲,用戶活躍度越高應(yīng)該獲取到粉絲的影響力貢獻(xiàn)值越高,同時(shí)還要考慮時(shí)間因素,因此需要綜合多項(xiàng)指標(biāo)進(jìn)行評(píng)價(jià)。
經(jīng)典的PageRank算法是通過網(wǎng)頁的鏈接進(jìn)行分析得到網(wǎng)頁的重要度,計(jì)算的網(wǎng)頁的重要度值稱為PR值。一個(gè)網(wǎng)頁的PR值取決于鏈接到頁面的數(shù)量及該被鏈接的頁面的質(zhì)量和重要度,最后該網(wǎng)頁的PR值會(huì)被平均分配給它鏈出的網(wǎng)頁。例如,一個(gè)網(wǎng)頁a指向一個(gè)網(wǎng)頁b,則網(wǎng)頁b的一部分PR值由網(wǎng)頁a的PR值除以鏈出數(shù)量,網(wǎng)頁a的影響力越大,則對(duì)網(wǎng)頁b的PR值貢獻(xiàn)值越大。PageRank算法的數(shù)學(xué)公式描述如下,設(shè)pi為一個(gè)網(wǎng)頁,L(pj)為網(wǎng)頁pj鏈出數(shù)目,M(pi)鏈出到pi的網(wǎng)頁集合,d為阻尼系數(shù),表示用戶在瀏覽某個(gè)頁面后以1-d的概率繼續(xù)瀏覽某一個(gè)鏈出的頁面,以d概率重新選擇一個(gè)隨機(jī)頁面進(jìn)行瀏覽,那么頁面pi的PR值可以用以下公式表示:
其中阻尼系數(shù)d一般取值為0.15[45],加入阻尼系數(shù)是為了保證最后的計(jì)算結(jié)果總是收斂的。微博中用戶之間的關(guān)系可以看成一個(gè)有向圖,用戶看成是網(wǎng)絡(luò)中的網(wǎng)頁,好友關(guān)系可以看成是網(wǎng)頁的鏈入鏈出。但是,傳統(tǒng)的算法只考慮了鏈接, 沒有考慮網(wǎng)頁內(nèi)容和主題的相關(guān)影響,而將PR值均勻地傳遞給它所鏈出的頁面,因此計(jì)算結(jié)果不準(zhǔn)確。后期很多研究者對(duì)算法進(jìn)行了改進(jìn),比如加入時(shí)間因素,加入網(wǎng)頁的內(nèi)容因素和主題因素等。
2 微博用戶影響力計(jì)算模型
本文在基于滑動(dòng)窗口多標(biāo)記傳播算法[7]對(duì)用戶進(jìn)行社區(qū)劃分后,再針對(duì)不同社區(qū)的用戶分別采集最近一段時(shí)間的數(shù)據(jù),計(jì)算影響力。在微博中[8],用戶影響力主要通過發(fā)布微博、轉(zhuǎn)發(fā)微博、評(píng)論、點(diǎn)贊等行為積累而成的,微博社區(qū)內(nèi)的用戶之間交互量非常大且活躍。假設(shè),用戶A關(guān)注了用戶B ,則用戶B發(fā)布的微博就可以被用戶A看到,如果用戶A轉(zhuǎn)發(fā)了用戶B的微博則用戶B的微博影響力被擴(kuò)大,等同于用戶B的影響力擴(kuò)大,用戶A的影響力越大,則對(duì)用戶B的影響力貢獻(xiàn)值就越大;如果用戶A 僅評(píng)論了用戶B的微博,則用戶B的微博僅影響到用戶A一人,因此用戶B中參與評(píng)論的粉絲數(shù)量越多,則影響的用戶量越大;如果用戶A點(diǎn)贊用戶B的微博,則影響如同評(píng)論。除此以外,用戶本身如果為認(rèn)證用戶,則其發(fā)表微博更令人信服,因此,從這個(gè)角度,認(rèn)證用戶自身的影響力指數(shù)高于非認(rèn)證用戶。本文將用戶的影響力計(jì)算值為自身影響力與粉絲影響力貢獻(xiàn)值(間接影響力)之和,具體公式如下:
3 實(shí)驗(yàn)分析
本文在微博用戶社區(qū)劃分[7]數(shù)據(jù)基礎(chǔ)上,對(duì)標(biāo)簽為“裝修 家居 電器 臥室”社區(qū)用戶數(shù)據(jù)爬取。首先爬取該社區(qū)用戶2018年的微博、每條微博被轉(zhuǎn)發(fā)的數(shù)量和轉(zhuǎn)發(fā)的用戶id、 每條微博被評(píng)論的數(shù)量和評(píng)論的用戶id、每條微博被點(diǎn)贊的數(shù)量和點(diǎn)贊用戶的id、用戶是否為認(rèn)證用戶。對(duì)用戶的轉(zhuǎn)發(fā)用戶id、評(píng)論用戶id、點(diǎn)贊用戶id統(tǒng)計(jì)并去重,得到的用戶id則認(rèn)為是與該用戶有交互的粉絲,本文考慮為有效粉絲。然后再根據(jù)有效粉絲的id進(jìn)行第二層數(shù)據(jù)爬取,計(jì)算這些用戶最近一年的微博數(shù)量,這些用戶所關(guān)注的所有用戶集合,以計(jì)算這些用戶的活躍度。
本文針對(duì)“裝修家居”類的社區(qū)3000個(gè)用戶數(shù)據(jù)進(jìn)行分析,并且與傳統(tǒng)的pagerank算法按歷史累計(jì)數(shù)據(jù)對(duì)粉絲影響力平均分配進(jìn)行計(jì)算的結(jié)果比較,分別得到不同的影響力評(píng)價(jià)結(jié)果。其中表1和表2分別代表pagerank算法和本文算法得到的影響力PR值,按照本社區(qū)的影響力PR排名結(jié)果對(duì)比。
由于算法不同,基礎(chǔ)研究數(shù)據(jù)不同,因此PR值計(jì)算結(jié)果不同,但是對(duì)所有用戶排名結(jié)果是有效的。通過兩種算法比較可以看出,本文的算法得到的社區(qū)內(nèi)影響力排名較傳統(tǒng)的pagerank算法發(fā)生了變化。比如用戶id為2354950807的用戶微博等級(jí)為L(zhǎng)V43,被譽(yù)為2018年十大影響力家居LV,查看其微博的轉(zhuǎn)發(fā)量、評(píng)論數(shù)已經(jīng)點(diǎn)贊數(shù)相對(duì)較多。傳統(tǒng)pagerank排名第5,本文算法中排名第二,用戶2994476004情況也類似于2354950807用戶。比如用戶id為2143116435的用戶總的粉絲數(shù)和總的微博量都很大,但是其在最近一年內(nèi)發(fā)布的微博數(shù)量只有2070不到微博總數(shù)的10%,查看其微博的互動(dòng)也非常少,本文的算法排名中它的排名后退了2位,用戶2517621301情況類似。因?yàn)楸舅惴ㄗ⒅刈罱欢螘r(shí)間內(nèi)用戶的影響力,而不是對(duì)歷史累計(jì)的影響力,同時(shí)考慮用戶的活躍度,有些用戶或許過去影響力比較大,而隨著時(shí)間的延長(zhǎng),用戶發(fā)布微博數(shù)量越來越少,或者微博質(zhì)量降低,導(dǎo)致不再吸引用戶而影響力降低,該算法能夠更加準(zhǔn)確客觀地反映用戶的影響力排名。
4 結(jié)語
新浪微博作為國內(nèi)最大的社交網(wǎng)絡(luò)平臺(tái),其反應(yīng)的人類的社交行為具有非常實(shí)際的代表性,研究微博社區(qū)用戶影響力對(duì)新聞傳播、社會(huì)輿論監(jiān)控已經(jīng)商業(yè)廣告都有非常重要的意義。本文提出計(jì)算微博用戶的影響力應(yīng)該以最近時(shí)間段數(shù)據(jù)為基礎(chǔ),從人類的行為特征來分析,人類的活動(dòng)具有周期性和不穩(wěn)定性,因此也把用戶發(fā)布微博的頻率作為用戶的活躍度用來構(gòu)造用戶影響力公式。本文把實(shí)際參與互動(dòng)的粉絲作為有效粉絲計(jì)算用戶自身的影響力和間接影響力,最后通過在新浪微博數(shù)據(jù)集上進(jìn)行試驗(yàn),驗(yàn)證了該算法的有效性。但是目前該算法只能手動(dòng)爬取用戶數(shù)據(jù)再進(jìn)行用戶影響力計(jì)算,還不能實(shí)現(xiàn)實(shí)時(shí)滾動(dòng)地計(jì)算用戶的影響力,而且本文在基于社區(qū)劃分的基礎(chǔ)上進(jìn)行分析,只能對(duì)已分好的社區(qū)內(nèi)用戶進(jìn)行排名,用戶數(shù)數(shù)量固定,不能實(shí)現(xiàn)自我擴(kuò)展,因而排名的范圍受到一定限制,本文接下來將對(duì)這些內(nèi)容進(jìn)行研究。
參考文獻(xiàn):
[1] 張琳,謝忠紅.基于聚類的微博用戶類型與影響力研究[J].情報(bào)科學(xué),2016,34(08):57-61.
[2] 康書龍.基于用戶行為及關(guān)系的社交網(wǎng)絡(luò)節(jié)點(diǎn)影響力評(píng)價(jià)——以微博研究為例[D].北京郵電大學(xué),2011.
[3] 劉玲,楊長(zhǎng)春.一種新的微博社區(qū)用戶影響力評(píng)估算法[J].計(jì)算機(jī)應(yīng)用與軟件,2017,34(07):212-216.
[4] Matthew Richard,Pedro Domings.Combing link and content information in web scarch[EB/OL].http://www.cse.Lehigh.edu/.
[5] 馬俊.基于話題傳播的微博用戶影響力分析[D].解放軍信息工程大學(xué),2013.
[6] Weng J,Lim E P,Jiang J,et al.Twitter Rank: finding top-ic-sensitive influential twitterersC]/ / International Confer-ence on Web Search and Web Data Mining,WSDM 2010,New York,Ny,Usa,F(xiàn)ebruary.2010: 261-270.
[7] 劉芳芳,谷瑞軍,張婉婷.滑動(dòng)窗口多標(biāo)記傳播算法在微博用戶聚類的應(yīng)用.內(nèi)江科技,2018,39(12):42-44.
[8] 馬俊,周剛,許斌等.基于個(gè)人屬性特征的微博用戶影響力分析[J].計(jì)算機(jī)應(yīng)用研究,2013,30(8):2483-2487.
【通聯(lián)編輯:梁書】