• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種多維度微博用戶影響力改進(jìn)算法*

      2022-12-16 09:22:58李瑋新洪偉彬
      計(jì)算機(jī)時(shí)代 2022年12期
      關(guān)鍵詞:關(guān)注度計(jì)算公式網(wǎng)頁

      李瑋新,李 銳,洪偉彬

      (上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)

      0 引言

      隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們對(duì)線上社交的需求越來越高。微博憑借其平臺(tái)開放性、終端拓展性、內(nèi)容簡(jiǎn)潔性和低門檻等特性,逐漸成為了一個(gè)重要的社會(huì)化媒體[1]。研究社交網(wǎng)絡(luò)中的用戶影響力不僅能度量社會(huì)影響力的大小,還能對(duì)減少垃圾營銷、挖掘資深用戶、相關(guān)用戶推薦等應(yīng)用做出一些改進(jìn)[2]。

      對(duì)微博用戶影響力的評(píng)估等相關(guān)研究一直都是一個(gè)比較熱門的領(lǐng)域。譚琪等人[3]構(gòu)造了一種融入結(jié)構(gòu)度中心性的用戶影響力評(píng)估算法SDRank。王利等人[4]提出了基于Swarm 突現(xiàn)計(jì)算模型的用戶影響力排序算法。王頂?shù)热薣4]采用權(quán)重因子將用戶粉絲對(duì)用戶影響力的貢獻(xiàn)值進(jìn)行分配。師亞凱等人[6]、馬俊等人[7]、張紹武等人[8]和賈沖沖等人[9]則分別從不同的角度提出了用戶影響力的計(jì)算模型和排序方法。但是上述算法有的考慮的因素相對(duì)單一,有的則不能較好適應(yīng)當(dāng)前社交網(wǎng)絡(luò)出現(xiàn)的一些新變化如“粉絲經(jīng)濟(jì)”、微博營銷等。本文從用戶自身的影響力和傳播影響力兩方面,綜合計(jì)算了微博用戶的影響力。

      1 相關(guān)研究

      PageRank 算法[10]是由Google 創(chuàng)始人Lary Page和Sergey Brin 提出的鏈接分析算法,是用來衡量網(wǎng)頁好壞的重要標(biāo)準(zhǔn)。PageRank 算法結(jié)合網(wǎng)頁的入鏈數(shù)量和網(wǎng)頁的質(zhì)量來衡量網(wǎng)頁的重要性。而微博中用戶間的關(guān)注關(guān)系可以類比PageRank 算法中網(wǎng)頁的鏈接關(guān)系,因此PageRank算法很適合用來進(jìn)行微博用戶影響力的分析。常見的算法如Twitterank[11]、MDIR[12]、BWPR[13]以及加入用戶權(quán)重的用戶影響力算法[14]。但是這些算法有的只關(guān)注用戶自身屬性對(duì)其影響力的貢獻(xiàn);有的研究的用戶自身屬性的維度過少,未考慮到用戶認(rèn)證情況、粉絲數(shù)等其他重要因素。

      2 BPPI算法

      2.1 算法的提出

      在PageRank 算法中,每個(gè)網(wǎng)頁的初始PR 值是相同的,每個(gè)網(wǎng)頁的出鏈的PR 值也是平均分配的,而微博用戶的影響力往往會(huì)因?yàn)槠湔J(rèn)證情況、粉絲數(shù)等產(chǎn)生差異,所以在評(píng)估微博用戶影響力時(shí)不僅要考慮用戶的鏈接關(guān)系,還要綜合用戶的自身屬性和用戶微博的傳播能力。

      本文從上述兩個(gè)方面綜合考慮微博用戶的影響力,提出一種基于用戶自身影響力和傳播影響力的BPPI 算法(Based on users' Personal and Propagating Influence),用用戶的自身影響力代替PageRank 算法中平均分配的初始影響力,解決了PageRank算法中每個(gè)網(wǎng)頁初始PR值相同的情況,排除了用戶僵尸粉對(duì)影響力的干擾;也對(duì)其他類似算法所存在的問題進(jìn)行了改進(jìn)。對(duì)傳播影響力的評(píng)估可以解決PageRank 算法中網(wǎng)頁出鏈的PR值平均分配的問題,相比其他類似的算法可以較大地提高用戶影響力評(píng)價(jià)的準(zhǔn)確度。

      2.2 構(gòu)建微博傳播網(wǎng)絡(luò)的結(jié)構(gòu)

      本文根據(jù)微博用戶間的關(guān)注關(guān)系,構(gòu)建微博的傳播網(wǎng)絡(luò)。設(shè)微博傳播網(wǎng)絡(luò)為G(V,E),G是一有向圖;V 是該網(wǎng)絡(luò)中點(diǎn)的集合,代表微博用戶的集合;E 是該網(wǎng)絡(luò)中邊的集合,代表微博用戶間的關(guān)注關(guān)系,當(dāng)用戶u 關(guān)注了用戶v,則會(huì)有一條有向邊從代表u 的節(jié)點(diǎn)指向代表v的節(jié)點(diǎn)。

      2.3 自身影響力

      微博用戶往往會(huì)直觀地根據(jù)用戶的一些屬性來判斷其影響力。基于此,可以參照這些屬性,來評(píng)估用戶的自身影響力,自身影響力包括用戶認(rèn)證情況、活躍粉絲數(shù)、活躍度以及關(guān)注度四個(gè)屬性。

      ⑴認(rèn)證情況

      現(xiàn)給出用戶認(rèn)證情況的計(jì)算公式:

      其中,auth(u)指用戶u的認(rèn)證情況。

      ⑵活躍粉絲數(shù)

      活躍粉絲數(shù)指近一個(gè)月內(nèi)對(duì)用戶的微博有點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)的行為的粉絲數(shù)量。

      ⑶活躍度

      活躍度反映了用戶一個(gè)月內(nèi)的活躍程度?,F(xiàn)給出活躍度的計(jì)算公式:

      其中,liveness(u)指用戶u的活躍度,blog(u)指用戶u在一個(gè)月內(nèi)發(fā)布的微博數(shù)量,allblogs指一個(gè)月內(nèi)所有微博用戶發(fā)微博的數(shù)量。

      ⑷關(guān)注度

      關(guān)注度指用戶微博獲得的點(diǎn)贊、評(píng)論和轉(zhuǎn)發(fā)的相對(duì)數(shù)量。現(xiàn)給出關(guān)注度的計(jì)算公式:

      其中,atten(u)指用戶u 的關(guān)注度,like(bi),comm(bi),repo(bi)分別指用戶u的第i條微博獲得的點(diǎn)贊數(shù)、評(píng)論數(shù)和轉(zhuǎn)發(fā)數(shù),fans(u)是用戶u 的粉絲數(shù),B 是用戶u 發(fā)布的所有微博的集合。

      綜合上述四個(gè)因素,最終得出自身影響力的計(jì)算公式:

      其中,personal_influ(u)是用戶u 的自身影響力值,auth(u)是用戶u 的認(rèn)證情況,activefans(u)是用戶u 的活躍粉絲數(shù),liveness(u)是用戶u的活躍度,atten(u)是用戶u的關(guān)注度。

      2.4 傳播影響力

      傳播影響力由用戶v 對(duì)用戶u 的互動(dòng)情況,包括對(duì)用戶u微博的點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)的頻率決定?,F(xiàn)給出傳播影響力的計(jì)算公式:

      其中,propagating_influ(u,v)指用戶v 對(duì)用戶u 的傳播影響力;like(u,v)、comm(u,v)、repo(u,v)分別表示用戶v 對(duì)用戶u 的微博的點(diǎn)贊數(shù)、評(píng)論數(shù)和轉(zhuǎn)發(fā)數(shù);blog(u)指用戶u發(fā)布微博的總數(shù)。

      根據(jù)傳播影響力的公式(式⑸),可以得到傳播影響力比例的計(jì)算公式:

      其中,prop_r(u,v)指用戶v對(duì)用戶u的傳播影響力比例,follow(v)指用戶v關(guān)注的用戶集合,propagating_influ(u,v)指用戶v對(duì)用戶u的傳播影響力。

      2.5 BPPI算法的描述

      BPPI 算法從用戶的自身影響力和傳播影響力兩個(gè)方面描述了用戶的影響力。算法的過程是:根據(jù)用戶數(shù)據(jù)構(gòu)建出微博傳播網(wǎng)絡(luò)圖,依次計(jì)算圖中每一個(gè)用戶的影響力:先計(jì)算用戶的自身影響力作為影響力的初值,再依次對(duì)每一個(gè)粉絲計(jì)算傳播影響力的比例,得出的影響力值和上一輪的影響力作對(duì)比,如果差值小于閾值,則退出循環(huán),得到最終的影響力值,否則繼續(xù)計(jì)算。

      現(xiàn)給出BPPI算法的計(jì)算公式:

      其中,BPPI(u)指任一微博用戶u的影響力值,fans(u)指用戶u 的粉絲集,prop_r(u,v)指用戶v 對(duì)用戶u 的傳播影響力比例,q為阻尼系數(shù)。

      BPPI算法的主要計(jì)算過程如下:

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 數(shù)據(jù)的收集與處理

      本文以新浪微博作為數(shù)據(jù)源,爬取了2021 年10月-12月某一特定領(lǐng)域的部分用戶的信息。

      因?yàn)榕廊〉降臄?shù)據(jù)過于冗雜,為方便后續(xù)計(jì)算,現(xiàn)在排除掉粉絲數(shù)小于100 和發(fā)博數(shù)小于50 的用戶信息。處理過的數(shù)據(jù)信息如表1。

      表1 微博數(shù)據(jù)信息

      3.2 算法結(jié)果與分析

      本文將處理過的數(shù)據(jù)分別用BPPI算法、BWPR 算法和PageRank算法進(jìn)行計(jì)算,得到影響力前十名的用戶,并和該領(lǐng)域10月的新浪微博V 影響力榜以及粉絲量排名作對(duì)比,結(jié)果如表2。表2的用戶編號(hào)和id對(duì)應(yīng)情況如表3所示。

      表2 2021年10月各模型下的影響力前十名用戶編號(hào)

      表3 表2的各用戶編號(hào)和id情況

      根據(jù)表2 可以看出,粉絲數(shù)量、PageRank 算法、BWPR算法都與V影響力榜的排名差距較大。為了得到更直觀、嚴(yán)謹(jǐn)?shù)呐袛?,本文采用斯皮爾曼等?jí)相關(guān)[15]來對(duì)上述模型進(jìn)行相關(guān)性分析。以月為統(tǒng)計(jì)周期,選取30 名用戶在2021 年10 月、11 月、12 月三個(gè)月的數(shù)據(jù),計(jì)算了V 影響力榜分別和粉絲數(shù)量、BPPI 算法、BWPR 算法、PageRank 算法四種排名下的斯皮爾曼等級(jí)相關(guān)系數(shù)。得到的結(jié)果如圖1所示。

      圖1 V影響力榜和其他模型排名的相關(guān)性

      根據(jù)圖1,由粉絲數(shù)量衡量一個(gè)微博用戶的影響力是不可靠的,因?yàn)楹芏啻骎博主會(huì)“購買粉絲”,但是這樣只是增加了粉絲數(shù)量,微博的點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)數(shù)量并不會(huì)增加,這就導(dǎo)致這一衡量標(biāo)準(zhǔn)會(huì)出現(xiàn)較大的誤差。PageRank 算法由于初始PR 值和傳遞PR 值分配不合理的問題,導(dǎo)致與V 影響力榜的偏差較大。BWPR 算法只重點(diǎn)關(guān)注了用戶的互動(dòng)行為,沒有考慮用戶的其他基本屬性。而BPPI 算法綜合考慮了上述因素,與V 影響力榜的斯皮爾曼等級(jí)相關(guān)系數(shù)是最接近1的,所以BPPI算法較為準(zhǔn)確。

      4 總結(jié)

      本文提出了基于PageRank 算法的微博用戶影響力評(píng)估算法BPPI。BPPI 算法通過綜合用戶的認(rèn)證情況、活躍粉絲數(shù)、活躍度和獲得的關(guān)注度來計(jì)算用戶的自身影響力,解決了PageRank算法中每個(gè)網(wǎng)頁的初始PR 值相同的問題;通過其他用戶與該用戶點(diǎn)贊、評(píng)論和轉(zhuǎn)發(fā)三種互動(dòng)的行為來衡量用戶的傳播影響力,結(jié)合這兩種影響力得出了最終的用戶影響力。本文在真實(shí)的數(shù)據(jù)集上對(duì)V 影響力榜、粉絲數(shù)量、BWPR算法、PageRank 算法和BPPI 算法五種模型進(jìn)行研究,結(jié)果表明BPPI 算法是最接近新浪微博給出的V 影響力榜的,這說明BPPI算法能夠較為準(zhǔn)確地評(píng)估用戶的影響力。

      猜你喜歡
      關(guān)注度計(jì)算公式網(wǎng)頁
      電機(jī)溫升計(jì)算公式的推導(dǎo)和應(yīng)用
      2019離職補(bǔ)償金計(jì)算公式一覽表
      基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      雄安新區(qū)媒體關(guān)注度
      全國兩會(huì)媒體關(guān)注度
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      暴力老媽
      網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
      “王者”泛海發(fā)布會(huì)聚焦百萬關(guān)注度
      10個(gè)必知的網(wǎng)頁設(shè)計(jì)術(shù)語
      五家渠市| 辉南县| 景德镇市| 客服| 淮南市| 沐川县| 开平市| 伊宁县| 鞍山市| 克东县| 浦城县| 宜州市| 措美县| 康乐县| 杨浦区| 新干县| 驻马店市| 南召县| 平舆县| 南澳县| 西华县| 克什克腾旗| 定远县| 绩溪县| 沛县| 四子王旗| 河北省| 陇南市| 武冈市| 常山县| 巴彦淖尔市| 武安市| 嘉黎县| 长寿区| 富阳市| 内乡县| 聂拉木县| 鹤山市| 天峨县| 甘洛县| 杭州市|