• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合Spark與隱性興趣的用戶綜合影響力度量

      2020-11-14 04:00:20童曼琪黃江升
      計(jì)算機(jī)工程 2020年11期
      關(guān)鍵詞:計(jì)算公式度量精英

      童曼琪,黃江升,郭 昆

      (1.福州大學(xué) a.福建省空間數(shù)據(jù)挖掘與信息共享教育部重點(diǎn)實(shí)驗(yàn)室;b.福建省網(wǎng)絡(luò)計(jì)算與智能信息處理重點(diǎn)實(shí)驗(yàn)室,福州 350002;2.國網(wǎng)信通億力科技有限責(zé)任公司,福州 350003)

      0 概述

      據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心于2019年2月28日在北京發(fā)布的《第43次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報告》[1]可知,截至2018年12月微博使用率達(dá)到42.3%,較2017年底上升1.4個百分點(diǎn)。在微博、Twitter、YELP和大眾點(diǎn)評等社交應(yīng)用中,其社交屬性決定了被分享的話題多數(shù)為社交關(guān)系圈內(nèi)熱點(diǎn)或共同關(guān)注、感興趣的話題。而社交網(wǎng)絡(luò)在信息傳播過程中通常會存在一些影響力大的用戶,他們通過評論可以在短時間內(nèi)使信息得到廣泛傳播,甚至?xí)龑?dǎo)輿論走向。因此,用戶影響力度量[2]對于信息傳播具有重要作用。

      目前,國內(nèi)外學(xué)者對于社交網(wǎng)絡(luò)中用戶影響力度量的研究包括基于用戶自身屬性、用戶動態(tài)行為和用戶特性綜合考慮的3類用戶影響力度量方法。

      第1類方法通過發(fā)博數(shù)、好友數(shù)、評論數(shù)和轉(zhuǎn)發(fā)數(shù)等用戶自身屬性度量用戶影響力。文獻(xiàn)[3]定義用戶直接影響力和級聯(lián)影響力,提出基于用戶消息傳播范圍的用戶影響力量化方法,并給出用戶影響力計(jì)算方法。文獻(xiàn)[4]基于微博數(shù)據(jù)得到傳播影響力、信息完整度、活躍度和認(rèn)證指數(shù)4項(xiàng)評價指標(biāo),構(gòu)建用戶權(quán)威性定量計(jì)算模型。文獻(xiàn)[5]基于用戶節(jié)點(diǎn)度計(jì)算用戶影響力。但此類算法僅考慮了用戶自身屬性,未考慮其他影響因素,不能排除沉默用戶或者僵尸用戶對網(wǎng)絡(luò)節(jié)點(diǎn)影響力的干擾。

      第2類方法通過轉(zhuǎn)發(fā)、回復(fù)等用戶動態(tài)行為度量用戶影響力。文獻(xiàn)[6]定義用戶影響力分類概念,并且綜合考慮微博中的轉(zhuǎn)發(fā)、回復(fù)、復(fù)制和閱讀4種關(guān)系,提出基于多關(guān)系網(wǎng)絡(luò)的遍歷所有話題的隨機(jī)游走模型。文獻(xiàn)[7]在Twitter數(shù)據(jù)集中,使用種子節(jié)點(diǎn)擴(kuò)散范圍衡量每個種子節(jié)點(diǎn)的影響力。為改進(jìn)回復(fù)關(guān)系鏈接稀疏的問題,文獻(xiàn)[8]引入帖子作為節(jié)點(diǎn)的間接回復(fù)網(wǎng)絡(luò),通過用戶回復(fù)帖子的情感傾向性來度量用戶節(jié)點(diǎn)之間的影響,提出基于傾向性轉(zhuǎn)變的TTRank算法。為衡量消息傳播過程的影響力,文獻(xiàn)[9]采用冪率衰減函數(shù)估計(jì)用戶初始影響力、信息傳播衰減系數(shù)以及傳播持久性指標(biāo),綜合度量節(jié)點(diǎn)影響力。文獻(xiàn)[10]通過考慮用戶閱讀行為特征和博文轉(zhuǎn)發(fā)情況來綜合度量用戶影響力。此類方法能更全面地描述用戶傳播影響力,但未考慮用戶認(rèn)證情況、好友數(shù)等用戶自身屬性對影響力的貢獻(xiàn)。

      第3類方法基于改進(jìn)PageRank算法并綜合考慮粉絲和追隨者數(shù)量等用戶特性來度量用戶影響力。文獻(xiàn)[11]考慮了用戶好友拓?fù)洳⒎治霾┪牡闹黝}相似性,得出用戶綜合影響力是每個主題下的影響力與相應(yīng)權(quán)重的乘積之和,但是該方法未考慮用戶活躍度和權(quán)威性等因素。文獻(xiàn)[12]指出用戶影響力由其自身屬性及其粉絲共同決定,但是在量化用戶自身影響力和粉絲對其影響力時,特征均采用均一化處理方式,從而導(dǎo)致計(jì)算結(jié)果與實(shí)際情況不太符合,用戶影響力評價客觀性較差。文獻(xiàn)[13]對用戶自身影響因素進(jìn)行量化,通過設(shè)置不同行為的權(quán)重值,解決了文獻(xiàn)[12]算法中追隨者影響力等值傳遞的問題,但未考慮興趣對用戶影響力的貢獻(xiàn)。此外,上述算法在處理海量數(shù)據(jù)時運(yùn)行速度均有所下降。

      本文在PageRank算法的基礎(chǔ)上,提出融合隱性興趣的用戶綜合影響力度量算法IBPR。利用隱含狄利克雷分配(Latent Dirichlet Allocation,LDA)模型得到用戶隱性興趣偏好,通過困惑度[14]和平均話題相似度[15]確定最優(yōu)興趣話題數(shù),并建立用戶好友興趣拓?fù)渚W(wǎng)絡(luò),擴(kuò)展用戶之間的隱性興趣關(guān)聯(lián)關(guān)系,同時綜合用戶自身影響力和隱性興趣傳播影響力,過濾大部分僵尸用戶,使用戶影響力評估更全面客觀。

      1 Spark計(jì)算框架

      Spark[16]是加州大學(xué)伯克利分校AMP實(shí)驗(yàn)室開發(fā)的通用內(nèi)存并行計(jì)算框架,基于有向無環(huán)圖(Directed Acyclic Graph,DAG)的任務(wù)調(diào)度執(zhí)行機(jī)制,支持在內(nèi)存中對數(shù)據(jù)進(jìn)行效率更高的迭代計(jì)算。Spark生態(tài)圈即伯克利數(shù)據(jù)分析棧(BDAS),其包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等組件,是實(shí)現(xiàn)無縫集成并提供一站式解決方案的平臺。官方數(shù)據(jù)表明,如果數(shù)據(jù)基于Spark磁盤讀取,速度是Hadoop的10倍以上,如果數(shù)據(jù)基于Spark內(nèi)存讀取,速度是Hadoop的100倍以上,如圖1所示。

      圖1 Hadoop與Spark邏輯回歸運(yùn)行時間對比Fig.1 Comparison of logistic regression running time for Hadoop and Spark

      2 融合隱性興趣的用戶綜合影響力度量

      本文通過綜合分析用戶的個人信息和動態(tài)行為數(shù)據(jù),設(shè)計(jì)基于用戶隱性興趣傳播影響力(User Interest Factor,UIF)、用戶認(rèn)證權(quán)威性(User Identity Authority,UIA)及用戶活躍度(User Activity Degree,UAD)3個維度的IBPR算法,如圖2所示,用戶影響力包括用戶隱性興趣傳播影響力和用戶自身影響力,而用戶自身影響力又包括用戶認(rèn)證權(quán)威性以及用戶活躍度。

      圖2 IBPR算法層次結(jié)構(gòu)Fig.2 IBPR algorithm hierarchy

      2.1 用戶認(rèn)證權(quán)威性

      定義1(用戶認(rèn)證權(quán)威性) 用戶認(rèn)證權(quán)威性包括用戶是否被認(rèn)證過精英、最近精英年份貢獻(xiàn)率、精英年份貢獻(xiàn)率,三部分共同構(gòu)成用戶認(rèn)證權(quán)威性三元組(IA,AR,AC),計(jì)算公式如式(1)所示:

      UIA(ui)=δ×IA(ui)+ν×AR(ui)+θ×AC(ui)

      δ+ν+θ=1

      (1)

      1)IA(ui)表示用戶是否被認(rèn)證過精英的度量。YELP官網(wǎng)每年會評選出精英用戶,評選經(jīng)過官方審核,可信度較高。經(jīng)過官網(wǎng)認(rèn)證的精英用戶更容易受到關(guān)注和重視,計(jì)算公式如式(2)所示:

      (2)

      2)AR(ui)表示在ui為精英用戶情況下的最近精英年份貢獻(xiàn)率度量。一些精英用戶雖然注冊時間較晚,但消息發(fā)布活躍且消息內(nèi)容吸引人也會吸引較多關(guān)注,計(jì)算公式如式(3)所示:

      (3)

      其中,lastTime(ui)表示用戶ui被評選為精英的最近年份,maxTime表示所有用戶評選為精英的最近年份集合的最大值,signTime(ui)表示用戶ui的注冊時間,τ設(shè)置為1,以避免式(3)的分母為0。

      3)AC(ui)表示在用戶ui為精英情況下的精英年份貢獻(xiàn)率度量。用戶精英年份貢獻(xiàn)率越高,用戶被評選為精英的次數(shù)占比越大,越容易受到關(guān)注,對其他用戶影響也越大,計(jì)算公式如式(4)所示:

      (4)

      其中,count(ui)表示用戶ui被評選為精英的年份數(shù),minCount表示所有用戶中最少的精英年份數(shù),maxCount表示所有用戶中最多的精英年份數(shù)。

      在上述3個度量因素中,筆者認(rèn)為決定用戶認(rèn)證權(quán)威性的首要因素為用戶ui被認(rèn)證過精英,其次是精英年份貢獻(xiàn)率,最后是最近精英年份貢獻(xiàn)率。由于精英評選經(jīng)過官方審核,精英年份貢獻(xiàn)率越高表示用戶多次被評選為精英,相對于一些注冊時間較晚只被評過較少精英次數(shù)的用戶而言,前者更可能被其他用戶查看并傳播影響力。

      本文采用層次分析法(Analytic Hierarchy Process,AHP)[4]確定用戶認(rèn)證權(quán)威性評價特征權(quán)值。層次分析法主要用于解決復(fù)雜的多因素決策問題,是一種層次權(quán)重決策分析方法。對于參數(shù)δ、ν及θ,構(gòu)建評價特征的判斷矩陣AUIA,根據(jù)變量相對重要性等級表[17]并結(jié)合3個度量因素的相對重要關(guān)系對矩陣元素aij賦值,例如用戶是否被認(rèn)證過精英相對精英年份貢獻(xiàn)率更重要,因此a12取值為7,計(jì)算公式如式(5)所示:

      (5)

      計(jì)算得到判斷矩陣AUIA的最大特征值λmax,UIA為3.002,該特征值對應(yīng)的特征向量WUIA=[2.147 3,0.293 4,0.561 3]T,其一致性比率CR=0.001 7,遠(yuǎn)小于0.1,因此滿足一致性檢驗(yàn)相關(guān)性要求,從而判定矩陣AUIA合理,并對特征向量WUIA進(jìn)行歸一化處理得到最終權(quán)重比例,即(δ,ν,θ)=(0.715 3,0.097 7,0.187 0)。

      2.2 用戶活躍度

      定義2(用戶活躍度) 用戶活躍度即度量用戶的動態(tài)交互行為頻繁程度,采用平均評論數(shù)和被評論數(shù)對其進(jìn)行綜合度量,計(jì)算公式如式(6)所示:

      (6)

      其中,RI(ui,k)表示用戶ui第k年收到別人的評論數(shù),RO(ui,k)表示第k年評論別人的博文評論數(shù),η表示權(quán)重,n表示從用戶注冊一直到該用戶產(chǎn)生最新評論時所經(jīng)過的年份。

      2.3 用戶隱性興趣傳播影響力

      本文通過LDA[15,18]模型得到隱性用戶興趣偏好,將興趣話題間的相似度與用戶好友拓?fù)湎嘟Y(jié)合,改進(jìn)PageRank算法的轉(zhuǎn)移率得到用戶隱性興趣傳播影響力。用戶隱性興趣傳播影響力計(jì)算過程具體如下:

      1)博文數(shù)據(jù)預(yù)處理。對每個用戶的博文數(shù)據(jù)匯總并進(jìn)行去噪、分詞、去停用詞等預(yù)處理操作。

      2)興趣話題數(shù)確定。通過LDA模型得到用戶興趣話題偏好,并綜合確定話題的最優(yōu)興趣話題數(shù)。

      3)用戶隱性興趣傳播影響力計(jì)算。基于PageRank算法,結(jié)合用戶好友興趣拓?fù)渚W(wǎng)絡(luò)計(jì)算興趣傳播影響力。

      2.3.1 博文數(shù)據(jù)預(yù)處理

      為減少數(shù)據(jù)噪聲并避免噪聲干擾,需對用戶博文數(shù)據(jù)進(jìn)行預(yù)處理,主要包括去除噪聲、文本分詞和詞性標(biāo)注、去停用詞等步驟[19]。噪聲數(shù)據(jù)會影響興趣話題的發(fā)現(xiàn),繼而降低話題質(zhì)量。一般噪聲數(shù)據(jù)是指對于其他用戶貢獻(xiàn)小的用戶數(shù)據(jù),例如沉默用戶或者僵尸用戶。根據(jù)式(6)計(jì)算每個用戶的活躍度,將活躍度低于閾值的用戶數(shù)據(jù)標(biāo)記為噪聲數(shù)據(jù)并剔除。文本分詞和詞性標(biāo)注使用Stanford CoreNLP[20]開源工具實(shí)現(xiàn)。去停用詞之前將所有分詞均轉(zhuǎn)化為小寫形式。去停用詞的操作包括去除意義相對較小的詞、將數(shù)字替換為字符以及去除中文字符的詞,保留名詞、動詞、形容詞用于話題發(fā)現(xiàn)。

      2.3.2 興趣話題數(shù)確定

      本文通過LDA模型得到用戶興趣話題偏好,然后根據(jù)困惑度和平均話題相似度綜合確定最優(yōu)興趣話題數(shù)。

      定義3(余弦相似度) 將向量a和向量b的相似度Sima,b定義為兩個向量間的余弦相似度,計(jì)算公式如下:

      (7)

      其中,ai、bi表示向量a、b對應(yīng)第i維的數(shù)值。

      定義4(平均話題相似度) 平均話題相似度為所有兩兩話題向量之間的相似度均值。話題之間相似度越低,說明該話題模型性能越好,計(jì)算公式如下:

      (8)

      其中,n表示話題數(shù),Simi,j表示第i個話題和第j個話題之間的相似度。

      定義5(困惑度) 對于一篇文檔d,所訓(xùn)練出的模型對文檔d屬于哪個主題具有不確定性,該不確定性即困惑度。困惑度越低,說明聚類效果越好,計(jì)算公式如下:

      (9)

      其中,Z表示文檔數(shù),Ni表示文檔集合D中的文檔d經(jīng)分詞處理后的單詞數(shù)。

      算法1最優(yōu)興趣話題數(shù)確定算法

      輸入分詞后的文本數(shù)據(jù)text、興趣話題數(shù)x

      輸出文本數(shù)據(jù)集的困惑度p(D)、平均話題相似度Simavg、最優(yōu)興趣話題數(shù)xout

      1)隨機(jī)初始化興趣話題數(shù)x,x(20,90)。

      2)利用LDA模型生成話題和話題詞,根據(jù)式(8)和式(9)分別計(jì)算平均話題相似度和困惑度。

      3)循環(huán)執(zhí)行步驟2,保存每次計(jì)算得到的p(D)和Simavg。

      4)選擇平均話題相似度和困惑度結(jié)果最低的興趣話題數(shù)xout。

      2.3.3 用戶隱性興趣傳播影響力計(jì)算

      影響力大的用戶博文通常會受到較多的關(guān)注,而用戶之間也通過興趣而產(chǎn)生吸引力并相互關(guān)注,即同質(zhì)性[11]。對于用戶興趣相似度的計(jì)算,目前主要利用LDA模型發(fā)現(xiàn)興趣話題,再使用KL散度計(jì)算用戶興趣話題的相似度,但KL散度具有不對稱性,即KL(P‖Q)≠KL(Q‖P)(兩個用戶的概率分布為P、Q),因此一般利用取平均值的倒數(shù)來近似表示用戶相似度??紤]到上述情況,本文采用皮爾遜相關(guān)度系數(shù)計(jì)算用戶相似度。

      定義6(用戶相似度) 用戶相似度包括用戶間的相似度和興趣話題間的相似度,采用皮爾遜相關(guān)度系數(shù)進(jìn)行計(jì)算,計(jì)算公式如下:

      (10)

      定義7(用戶興趣傳播轉(zhuǎn)移率) 用戶興趣傳播轉(zhuǎn)移率即用戶間興趣傳播的概率,基于好友拓?fù)渚W(wǎng)絡(luò)得到基于興趣相似度的用戶興趣傳播轉(zhuǎn)移率,計(jì)算公式如下:

      (11)

      定義8(用戶隱性興趣傳播影響力) 用戶隱性興趣傳播影響力即用戶隱性興趣產(chǎn)生的傳播影響力,基于PageRank算法改進(jìn)得到用戶隱性興趣傳播影響力,計(jì)算公式如下:

      (12)

      其中,d表示阻尼系數(shù)。

      2.4 用戶影響力度量

      定義9(用戶影響力) 用戶影響力包括用戶認(rèn)證權(quán)威性、用戶活躍度、用戶隱性興趣傳播影響力三部分,計(jì)算公式如下:

      UI(ui)=α×UIF(ui)+β×UAD(ui)+γ×UIA(ui)

      α+β+γ=1

      (13)

      其中,UIF(ui)為用戶ui的隱性興趣傳播影響力,UAD(ui)為用戶ui的活躍度,UIA(ui)為用戶ui的認(rèn)證權(quán)威性。

      對于參數(shù)α、β及γ,構(gòu)建評價特征的判斷矩陣AUI,計(jì)算公式如下:

      (14)

      計(jì)算得到判斷矩陣AUI的最大特征值λmax,UI為3.002 7,該特征值對應(yīng)的特征向量WUI=[1.847 4,0.277 8,0.877 4]T,其一致性比率CR=0.002 3,遠(yuǎn)小于0.1,因此滿足一致性檢驗(yàn)相關(guān)性要求,從而判定矩陣AUI合理,并對特征向量WUI進(jìn)行歸一化處理得到最終權(quán)重比例,即(α,β,γ)=(0.615 3,0.092 5,0.292 2)。

      算法2融合隱性興趣的用戶綜合影響力度量算法

      輸入用戶相似度數(shù)據(jù)集S(US(ui,uj))、用戶好友關(guān)系數(shù)據(jù)集S(F(ui,uj))、最大迭代次數(shù)itermax、節(jié)點(diǎn)影響力迭代閾值

      輸出用戶隱性興趣傳播影響力UIF(ui)

      1)根據(jù)算法1的最優(yōu)興趣話題數(shù)計(jì)算得到S(US(ui,uj))。

      2)若iter

      3)根據(jù)式(10)獲取用戶相似度。

      4)根據(jù)式(11)計(jì)算用戶興趣傳播轉(zhuǎn)移率。

      5)根據(jù)式(12)計(jì)算用戶隱性興趣傳播影響力UIF。

      6)遍歷判斷每個用戶節(jié)點(diǎn),若對于所有用戶節(jié)點(diǎn)|UIF(ui)UIF|<ε均成立,則執(zhí)行步驟8;否則執(zhí)行步驟7。

      7)將每個用戶的興趣傳播影響力UIF賦值給上一輪計(jì)算的用戶影響力UIFtmp并累加iter迭代次數(shù),返回步驟2。

      8)迭代結(jié)束,求得每個用戶的興趣傳播影響力UIF(ui)。

      9)根據(jù)定義1計(jì)算用戶ui的認(rèn)證權(quán)威性UIA(ui)。

      10)根據(jù)定義2計(jì)算用戶ui的活躍度UAD(ui)。

      11)根據(jù)式(13)計(jì)算用戶影響力UI(ui)并按從大到小的順序輸出。

      考慮到實(shí)驗(yàn)數(shù)據(jù)量較大以及IBPR算法迭代計(jì)算耗費(fèi)時間較多,對算法2迭代過程進(jìn)行基于Spark的并行化計(jì)算。算法2迭代過程(步驟2~步驟8)的偽代碼具體如下:

      2.var oldFinalRanks = finalRanks

      3.val oldRanks = ranks

      4.val oldIntersetRanks = interestRanks

      5.val contribs = links.join(oldRanks).values.flatMap { case (urls,rank) =>val size = urls.size => urls.map(url => (url,rank /size))}.repartition(5 000)

      6.val intersetContribs = interestLinks.join(oldIntersetRanks).values.flatMap { case (urls,rank) =>urls.map(url => (url._1,url._2*rank))}.repartition(5 000)

      7.loop = i

      8.ranks = contribs.mapValues(μ* _)

      9.interestRanks = intersetContribs.mapValues((1μ)* _)

      10.finalRanks = (interestRanks).++(ranks).reduceBy Key(_ + _).mapValues(1d+d* _)

      11.if (delta(oldFinalRanks,finalRanks,min_delta)==true) {

      break()

      }

      }

      代碼中的第5行和第6行分別根據(jù)用戶好友關(guān)系和用戶興趣計(jì)算好友轉(zhuǎn)移率和興趣轉(zhuǎn)移率,第8行~第10行計(jì)算得到用戶綜合影響力,第11行為判斷是否達(dá)到終止迭代閾值。

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 評價方法與指標(biāo)

      實(shí)驗(yàn)使用M折交叉驗(yàn)證方法[6]衡量IBPR算法的有效性,同時選取4種對比算法的Top-10用戶來驗(yàn)證IBPR算法的客觀性。

      1)采用4種常用的用戶影響力算法作為對比算法,即共5種算法參與實(shí)驗(yàn)。對于每種算法分別計(jì)算出Top-K的用戶及其對應(yīng)影響力。

      2)構(gòu)造數(shù)據(jù)集合IM表示任意M種算法均投票認(rèn)為正確的結(jié)果,計(jì)算公式如式(15)所示:

      (15)

      假設(shè)算法A的準(zhǔn)確率(PA)、召回率(RA)和F值(FA)計(jì)算公式如式(16)~式(18)所示:

      (16)

      (17)

      (18)

      其中,IA為算法A計(jì)算得到的用戶影響力Top-K用戶集合。

      3.2 數(shù)據(jù)集

      實(shí)驗(yàn)數(shù)據(jù)采用餐廳點(diǎn)評網(wǎng)站YELP提供的公開數(shù)據(jù)集,其主要為用戶對餐廳的評論信息,在過濾活躍度小于10的用戶后,篩選出的相關(guān)數(shù)據(jù)如表1所示。

      表1 實(shí)驗(yàn)數(shù)據(jù)集設(shè)置Table 1 Setting of experimental dataset

      3.3 參數(shù)設(shè)置

      根據(jù)文獻(xiàn)[21]設(shè)置,LDA模型的興趣話題數(shù)為X、α=50/X、β=0.01、迭代次數(shù)為2 000。IBPR算法的最大迭代次數(shù)itermax=2 000,迭代閾值ε=10??紤]到平均評論數(shù)和平均被評論數(shù)能部分反映用戶活躍度,因此設(shè)置η=0.5??紤]到用戶興趣轉(zhuǎn)移率更能體現(xiàn)用戶的隱性聯(lián)系且不受僵尸粉的影響,因此設(shè)置用戶興趣傳播轉(zhuǎn)移率權(quán)值μ=0.6,用戶隱性興趣傳播影響力的阻尼系數(shù)d=0.85。

      3.4 實(shí)驗(yàn)環(huán)境

      實(shí)驗(yàn)使用4臺虛擬機(jī)搭建Hadoop和Spark集群,每臺虛擬機(jī)配置為雙核CPU 2.60 GHz、16 GB內(nèi)存、500 GB硬盤,操作系統(tǒng)為Ubuntu 16.04.3,實(shí)驗(yàn)集群設(shè)置如表2所示。

      表2 實(shí)驗(yàn)集群設(shè)置Table 2 Setting of experimental cluster

      3.5 結(jié)果對比

      本文選取了目前較主流的4種用戶影響力度量算法進(jìn)行興趣話題數(shù)分析、IBPR算法有效性及客觀性驗(yàn)證實(shí)驗(yàn):1)PageRank算法,由于IBPR算法是基于PageRank的改進(jìn)算法,因此將PageRank算法作對比可以突出隱性興趣因素,使結(jié)果更客觀;2)TwitterRank算法[11],該算法融合了用戶隱性興趣,其作為對比算法用于驗(yàn)證用戶綜合影響力結(jié)果的合理性;3)基于用戶粉絲數(shù)與發(fā)博數(shù)的排名算法:FollowerRank和BlogRank[22]。

      3.5.1 興趣話題數(shù)分析

      興趣話題數(shù)的確定考慮困惑度和平均話題相似度兩個評價指標(biāo)。困惑度傾向于選擇大的主題數(shù),容易造成話題間相似度較高,因此將兩者綜合考慮可以得到最優(yōu)興趣話題數(shù)。圖3是LDA模型在不同興趣話題數(shù)下的平均話題相似度和困惑度曲線??梢钥闯?當(dāng)興趣話題數(shù)取55時的平均話題相似度和困惑度值最低,因此本文確定最優(yōu)興趣話題數(shù)為55。

      3.5.2 算法有效性驗(yàn)證

      本文針對M取2和3情況下對5種算法進(jìn)行交叉驗(yàn)證,比較Top-K用戶(K={100,200,…,1 000})的準(zhǔn)確率、召回率和F值。

      準(zhǔn)確率是衡量算法正確計(jì)算出Top-K用戶占所有用戶數(shù)量K的百分比。如圖4所示,IBPR算法在M和K取不同值時準(zhǔn)確率均優(yōu)于對比算法,其中M=2時各算法準(zhǔn)確率相對M=3時要高約5%,其主要原因?yàn)榻徊嬲蹟?shù)為2時的集合IM比交叉折數(shù)為3時的集合IM多。

      召回率表示算法正確識別影響力排名Top-K的用戶占標(biāo)準(zhǔn)集合IM的用戶比例。圖5表示Top-K影響力用戶的召回率分布,從M=2和M=3兩組實(shí)驗(yàn)結(jié)果可以看出,IBPR算法在不同用戶規(guī)模與交叉折數(shù)下準(zhǔn)確率均優(yōu)于對比算法,其中M=3時的召回率較高。

      F值是正確率和召回率的調(diào)和平均值,其綜合考慮了準(zhǔn)確率和召回率。圖6表示各算法的F值比較結(jié)果,可以看出由于TwitterRank算法只考慮了與用戶興趣相關(guān)的影響力而忽略了其他因素,因此評估效果一般,而PageRank算法是基于用戶好友關(guān)系,容易受到粉絲數(shù)目的影響以及僵尸粉的干擾,導(dǎo)致評估精度降低。FollowerRank和BlogRank算法由于只考慮了用戶自身屬性的影響力,因此評估效果也不理想。IBPR算法相對對比算法具有明顯優(yōu)勢,主要原因?yàn)槠渚C合考慮了用戶認(rèn)證權(quán)威性、用戶活躍度、用戶興趣等因素,能夠更全面地評估用戶影響力。

      圖4 5種算法在交叉驗(yàn)證中的準(zhǔn)確率比較Fig.4 Comparison of the accuracy of five algorithms in cross-validation

      圖5 5種算法在交叉驗(yàn)證中的召回率比較Fig.5 Comparison of the recall of five algorithms in cross-validation

      圖6 5種算法在交叉驗(yàn)證中的F值比較Fig.6 Comparison of the F-value of five algorithms in cross-validation

      3.5.3 算法客觀性驗(yàn)證

      本文選擇IBPR算法計(jì)算的Top-10用戶集合,根據(jù)其與對比算法中這10個用戶排名位置變化進(jìn)行客觀性分析。表3給出了IBPR算法的Top-10用戶在對應(yīng)PageRank算法中的排名。實(shí)驗(yàn)結(jié)果表明,兩種算法的排名基本一致,這是因?yàn)镮BPR算法是基于PageRank算法進(jìn)行改進(jìn),但是PageRank算法僅考慮用戶好友關(guān)系產(chǎn)生的影響,未考慮其他因素對于用戶影響力的貢獻(xiàn)。例如在PageRank算法分別排名為第9名與第7名的用戶在IBPR算法中的排名為第8名與第9名,其原因主要為在IBPR算法排名第8名的用戶認(rèn)證權(quán)威影響力遠(yuǎn)大于排名第9名的用戶,這一結(jié)果說明IBPR算法考慮了用戶認(rèn)證權(quán)威性對用戶影響力的貢獻(xiàn),相對PageRank算法更全面客觀。

      表3 IBPR算法與PageRank算法排名對比Table 3 Ranking comparison of IBPR algorithm and PageRank algorithm

      TwitterRank算法主要基于用戶相似度來計(jì)算用戶興趣影響力,但是未考慮用戶自身影響力。表4給出了IBPR算法的Top-10用戶在對應(yīng)TwitterRank算法中的排名。實(shí)驗(yàn)結(jié)果表明,用戶隱性興趣傳播影響力雖然可以衡量用戶影響力,但是不夠全面,例如用戶在TwitterRank算法中分別排名為第9名與第8名而在IBPR算法中的排名為第8名和第9名,其原因主要為IBPR算法中排名第8名的用戶活躍度大于排名第9名的用戶,這一結(jié)果說明IBPR算法考慮用戶活躍度對用戶影響力的貢獻(xiàn),相對TwitterRank算法更全面客觀。

      表4 IBPR算法與TwitterRank算法排名對比Table 4 Ranking comparison of IBPR algorithm and TwitterRank algorithm

      表5給出了IBPR算法的Top-10用戶在對應(yīng)FollowerRank算法中的排名。實(shí)驗(yàn)結(jié)果表明,粉絲數(shù)雖然對于衡量用戶影響力有一定作用,但是也容易受到僵尸粉的干擾,例如在IBPR算法中排名第4名和第9名的用戶在FollowerRank算法中分別排名為第76名與第58名,而IBPR算法中排名第9名的用戶認(rèn)證權(quán)威性遠(yuǎn)小于排名第4名的用戶,這一結(jié)果說明IBPR算法考慮更全面客觀,可以依據(jù)用戶認(rèn)證權(quán)威性來減少僵尸粉的干擾。

      表5 IBPR算法與FollowerRank算法排名對比Table 5 Ranking comparison of IBPR algorithm and FollowerRank algorithm

      4 結(jié)束語

      本文提出一種基于Spark與隱性興趣的用戶影響力度量算法,結(jié)合興趣話題相似度重新定義Pearson相關(guān)系數(shù),改進(jìn)PageRank算法的轉(zhuǎn)移率計(jì)算用戶隱性興趣傳播影響力,并且采用層次分析法,綜合用戶自身影響力、用戶行為和用戶隱性興趣傳播影響力得到最終用戶影響力,同時基于Spark平臺加快用戶綜合影響力的計(jì)算速度。在公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法能更全面客觀地評估用戶影響力。后續(xù)將結(jié)合地理位置、評論關(guān)系等用戶信息,進(jìn)一步提高用戶綜合影響力的度量準(zhǔn)確性。

      猜你喜歡
      計(jì)算公式度量精英
      有趣的度量
      電機(jī)溫升計(jì)算公式的推導(dǎo)和應(yīng)用
      模糊度量空間的強(qiáng)嵌入
      它們都是“精英”
      2019離職補(bǔ)償金計(jì)算公式一覽表
      迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
      精英2018賽季最佳陣容出爐
      NBA特刊(2018年11期)2018-08-13 09:29:14
      當(dāng)英國精英私立學(xué)校不再只屬于精英
      海外星云(2016年7期)2016-12-01 04:18:01
      昂科威28T四驅(qū)精英型
      世界汽車(2016年8期)2016-09-28 12:11:11
      地質(zhì)異常的奇異性度量與隱伏源致礦異常識別
      大宁县| 凤城市| 澄江县| 宣化县| 商水县| 宣威市| 奎屯市| 罗甸县| 巴中市| 洛川县| 梅河口市| 环江| 英山县| 郧西县| 荥阳市| 沅陵县| 屯昌县| 大足县| 湘乡市| 昌乐县| 阳新县| 来安县| 扬中市| 尚义县| 策勒县| 岳阳市| 牡丹江市| 宜兰市| 正阳县| 农安县| 枣强县| 梓潼县| 和龙市| 伊宁县| 公主岭市| 云梦县| 景宁| 自治县| 离岛区| 阜南县| 安顺市|