• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于LDA的微博用戶粉絲親密度評價模型

      2016-11-08 08:33:58王秋森俞浩亮徐浩誠馮旭鵬劉利軍黃青松
      計算機應用與軟件 2016年10期
      關鍵詞:博主密度用戶

      王秋森 俞浩亮 徐浩誠 馮旭鵬 劉利軍 黃青松,3*

      1(昆明理工大學信息工程與自動化學院 云南 昆明 650500)2(昆明理工大學教育技術與網絡中心 云南 昆明 650500)3(云南省計算機技術應用重點實驗室 云南 昆明 650500)

      ?

      基于LDA的微博用戶粉絲親密度評價模型

      王秋森1俞浩亮1徐浩誠1馮旭鵬2劉利軍1黃青松1,3*

      1(昆明理工大學信息工程與自動化學院云南 昆明 650500)2(昆明理工大學教育技術與網絡中心云南 昆明 650500)3(云南省計算機技術應用重點實驗室云南 昆明 650500)

      用戶關系是目前微博研究的熱門方向,微博用戶親密度評價在對用戶隱含親密粉絲的發(fā)現、微博網絡環(huán)境優(yōu)化等方面具有重要意義。目前微博用戶群體龐大且關系復雜,僅從用戶自身出發(fā),以用戶特征和關系網絡等為依據對用戶關系親密度評價的準確率太低。針對這一問題,提出基于LDA的微博用戶粉絲親密度評價模型。首先,對用戶粉絲集中非活躍粉絲過濾剔除,獲取其活躍粉絲。然后,利用LDA主題模型對用戶某時間段所發(fā)微博集進行訓練,獲取用戶階段性微博的主題分布;同時通過主題分布推斷其興趣取向分布,并利用余弦相似方法計算用戶與其粉絲之間的興趣相似度。最后,結合用戶的背景相似度和關系緊密度,為用戶建立綜合的親密度評價標準。通過新浪API接口抓取微博近期相關數據,組成實驗數據集。在數據集上基于評價的推薦實驗結果表明,所提出的模型方法具有較高的準確率和有效性。

      親密度LDA粉絲主題模型相似度

      0 引 言

      微博,繼Twitter問世之后迅速發(fā)展成為一種主流的信息發(fā)布社交網絡平臺。以新浪微博為代表,其簡潔性、實時性等特點[1]以及新穎的表現形式、獨特的傳播方式[2],迅速吸引了大量的使用人群,成為了國內最重要的社交媒體之一。微博從最基本的用戶信息交流,逐漸發(fā)展成為信息發(fā)布和商業(yè)營銷的平臺,這種發(fā)展為社交網絡的用戶關系分析與用戶個性化推薦提供了良好的研究環(huán)境。

      社交網絡用戶關系分析的相關研究主要集中在用戶影響力分析[3]、信息的傳播[4]等方向,體現了用戶關系在社交網絡中重要研究價值。用戶關系分析,以微博用戶親密度分析為代表,為用戶尋找隱性親密粉絲提供良好依據,在構建由用戶彼此親密粉絲組成的微博網絡環(huán)境上提供有效資源。其在優(yōu)化社交網絡環(huán)境、推進社交網絡的透明化發(fā)展、用戶個性化推薦以及企業(yè)商業(yè)化推薦等方面都具有重要的現實意義。

      對微博用戶關系的分析,Yanagimoto等人[5]將微博社交網絡視為一個加權無向圖,每個邊表示用戶之間的關系,邊的權值表示他們之間的關系強度[6],通過比較相關特征,計算用戶之間關系強度。這種方法在用戶關系的分析上有一定效果,但忽略了用戶自身屬性特征,所以對用戶關系強度的評價不夠客觀。Kahanda等人[7]利用用戶之間的交互性和自身屬性特征來評價用戶關系強度。Xiang等人[8]結合了用戶之間的交互性和用戶相似度來計算用戶的關系強度。以上研究側重于從用戶自身出發(fā)進行分析研究,其優(yōu)點是對用戶關系強度評價效果較為明顯,但是忽略了微博內容對用戶關系的影響,因此對用戶之間個性化特點的評價不準確。

      用戶關系分析經常被應用于用戶個性化推薦。Chen等人[9]通過獲取社交網絡的歷史數據,憑借基于內容的方法進行用戶推薦獲得了一定效果,但單純使用基于內容的方法比較片面,不能很好體現用戶的推薦行為。Hannon等人[10]采用了基于內容相似和協(xié)同過濾方法來推薦Twitter用戶,取得了一定的推薦效果,但該方法還是未能考慮用戶的個人屬性特征,在用戶個性化推薦方面的效果不夠理想。徐雅斌等人[11]提出了選取反映微博用戶之間相關性的多個特征,并通過邏輯回歸模型對潛在的用戶進行評分排序,為目標用戶推薦前N個潛在用戶,在用戶普通推薦上效果較為明顯。但該方法對用戶個人信息特征選取不準確,而且忽略了用戶的興趣取向等重要特征因素,使得該方法在用戶個性化推薦上效果不明顯。

      針對傳統(tǒng)方法在微博用戶關系評價分析中準確率低的現象,本文提出基于LDA的微博用戶粉絲親密度評價模型。從微博及微博用戶本身出發(fā),綜合考慮了微博用戶的被動活躍度(其他用戶對該用戶的主動性)、用戶之間的背景相似度(選取用戶有針對性的自身屬性建立向量,用以計算用戶之間的相似度)、用戶之間的關系強度[6,12](用戶之間的轉發(fā)、評論、提及互動強度)等屬性特征,并結合LDA主題模型對微博內容進行分析。在微博內容分析方面,首先,對于微博內容的主題進行分析,獲取用戶相關的主題分布;然后通過主題分布推斷其興趣分布,以此計算博主與每一個粉絲的興趣相似度;最后,融合以上特征為用戶建立綜合親密度評價得分標準,按評價得分結果進行Top-N排名,得到該評價模型下的用戶推薦列表。利用新浪API接口抓取微博近期相關數據,組成實驗數據集。在數據集上基于評價的推薦實驗結果表明,本文提出的模型方法在用戶的個性化推薦應用方面更有針對性,效果更好。

      1 用戶粉絲親密度的評價模型

      該部分主要介紹用戶親密粉絲的評價推薦流程中的用戶粉絲親密度評價模型,如圖1第三部分所示。用戶親密粉絲評價推薦流程主要由微博數據獲取、構建數據、用戶粉絲親密度評價模型(BLDA)和推薦粉絲排名四個部分組成。第一部分,通過微博API按要求采集微博相關數據,并將其存入數據庫;第二部分,通過分析數據庫數據,建立博主與之對應粉絲集合的數據集;第三部分,通過用戶粉絲親密度評價模型對每個粉絲給出對應的綜合評價得分;第四部分,根據第三部分得到的綜合評價分數,按得分高低順序推薦出前N個粉絲為親密粉絲。下文詳細介紹用戶粉絲親密度評價模型,具體包括微博用戶粉絲活躍度篩選、微博用戶背景相似度分析、微博用戶關系強度對比、微博用戶興趣相似度分析;最后給出粉絲親密度綜合評價得分計算方法。

      圖1 用戶親密粉絲評價推薦流程

      1.1微博用戶粉絲活躍粉絲篩選

      用戶粉絲親密度評價推薦對效率和準確率的精度要求很高,如果籠統(tǒng)對博主所有的粉絲進行評價推薦,會導致效率和準確率降低。特別當粉絲中包含大量對粉絲親密度評價有干擾的“僵尸粉”時,評價推薦的準確率會大大降低。因此,在用戶粉絲親密度評價之前,需要從粉絲集合中剔除這些粉絲。針對“僵尸粉”主動性好、被動性差的特點,本文提出用戶被動活躍度指標對博主的粉絲進行篩選,定義如下:

      定義1令b表示某一個博主,被動活躍閾值為θ,則其活躍粉絲集合表示為F(b)。假定在微博數據時間段K內,微博用戶u發(fā)表原創(chuàng)的、被轉發(fā)的以及被評論的數目的總和為S(u),那么用戶的被動活躍度a可表示為:

      (1)

      當博主的某粉絲用戶的被動活躍度a低于事先設定的閾值θ時,剔除該粉絲。博主b剩下的粉絲為有效活躍粉絲,表示為F(b)。

      1.2微博用戶背景相似度分析

      活躍在背景環(huán)境相似下的微博用戶,會有相似的人生觀、價值觀等一些內在共性,這樣的群體更容易發(fā)展成為親密粉絲關系。本文選取微博用戶的相關背景屬性,主要包括用戶年齡、注冊時間(微齡)、是否加V、關注數/粉絲數、男粉絲/女粉絲、粉絲對博主博文行為/博主所發(fā)博文,進行相似度分析。則對微博用戶背景相似度的定義如下:

      定義2令背景屬性向量為Ubg,微博用戶背景屬性向量表示為Ubg=(year,rage,isV,af,nvf,mbf),博主背景屬性向量為Bbg,第i個粉絲的背景屬性向量為Fbgi,Simbgi為博主與其第i個粉絲背景的相似度。設向量A(a1,a2,…,an)與向量B(b1,b2,…,bn),則向量A、B的相似度關系為:

      (2)

      則結合式(2),博主與其第i個粉絲背景相似度表示為:

      Simbgi=Cos(Bbg,Fbgi)

      (3)

      其中背景屬性向量Ubg屬性變量的定義如下:

      定義3令year表示微博用戶出生年代的類別集合,記作year{00后,90后,80后,70后,60后},并依次賦予權值{2,4,5,3,1};

      定義4令rage表示微博用戶的微齡段集合,記作rage{不到1歲,2歲,3歲,4歲,5歲以上},并依次賦予權值{5,4,3,2,1};

      定義5令isV表示微博用戶是否加V集合,記作isV{是,否},并依次賦值{1,0};

      1.3微博用戶關系強弱度分析

      博主與粉絲之間的互動反映著他們之間的關系強弱,親密粉絲一般與博主有較強的關系緊密度。因此,用戶之間的關系強弱度對粉絲親密度評價有較大影響。令Rui表示博主與第i個粉絲的關系強度,則博主與第i個粉絲之間的互動率表示為:

      (4)

      式中,h為博主與第i個粉絲在相同時間段內發(fā)的相同條數微博數,Ebi、Pbi、Jbi分別表示博主轉發(fā)、評論、提及第i個粉絲fi的數量,Efi、Pfi、Jfi分別表示第i個粉絲fi轉發(fā)、評論、提及博主的數量。

      1.4微博用戶興趣相似度分析

      高明等人[13]提出基于面向微博系統(tǒng)的實時個性化推薦中推斷微博主題分布和用戶興趣取向的研究方法的基礎上,本文提出一種分析博主與粉絲的興趣相似度的研究方法。由于每條微博通常會關聯到一個或多個主題,這種特征符合LDA主題模型方法,故本文第一步采用LDA主題模型來分析微博的主題分布。同時,由于用戶所發(fā)微博能很好地反映用戶所關心的主題,本文第二步通過研究用戶所發(fā)微博的主題分布與其興趣取向分布的關系,給出博主與粉絲間的興趣相似度的計算方法。下文為方法的詳細介紹。

      1.4.1主題分布和興趣取向定義

      定義9令Z={z1,z2,…,zT}為預先給定的T個主題的集合,p(z1|blog),p(z2|blog),…,p(zT|blog)為用戶所發(fā)某一微博blog的主題分布,p(zi|blog)表示微博blog屬于主題zi的后驗概率,其數值越大則微博blog屬于主題zi的可能性就越大。

      定義10令{blog1,blog2,…,blogh}為用戶在某一特定時間內發(fā)布的h條微博集合,Ou=(ou1,ou2,…,ouT)表示該用戶的興趣取向向量,ouk(k=1,2,…,T)為用戶u的第k個興趣取向,結合定義1可以表示為:

      (5)

      式中,ouk表示該用戶對第k個主題感興趣的平均概率,blogj表示第j條微博,zk表示第k個主題。

      1.4.2微博主題推斷

      通過新浪微博API采集相關數據作為訓練數據集,進行LDA主題模型的學習,得出訓練數據集中每條微博的主題分布以及每個單詞在T個主題上的分布情況。對于每條微博的主題分布,都可以通過推斷該微博中各單詞所屬主題,來推斷該微博的主題分布。具體推斷方法如下:

      假定由n個單詞組成的微博為blog,其單詞集合記為{ω1,ω2,…,ωn}。令隨機變量cωi表示單詞ωi的主題,則對微博blog中單詞ωi,cωi=j的概率計算表示為:

      (6)

      (7)

      單詞ωi的主題是從分布Xωi=(x1,x2,…,xT)中抽樣得到,則微博blog屬于第j個主題的概率?blog,j描述為:

      (8)

      最后,微博blog的主題分布表示為:

      ?blog=(?blog,1,?blog,2,…,?blog,T)

      (9)

      1.4.3興趣取向分布

      用戶的興趣取向是用一個T維向量Ou=(ou1,ou2,…,ouT)描述的,每一個用戶的興趣取向向量根據數據集中用戶微博集而確定。對于每一個用戶,選取的h條微博的主題分布可以用一個矩陣表示。令矩陣Gu表示用戶的微博集合所產生的主題分布矩陣,選取通過LDA對博主的微博集進行訓練得到的主題Z={z1,z2,…,zT}為矩陣的行,選取微博用戶發(fā)的微博集合Blog={blog1,blog2,…,blogh}為矩陣的列。其中,對于博主,選取某段時間的若干條微博;對于粉絲,選取與博主相同時間段的相同條數的微博。假設某個用戶在時間段t內發(fā)了x條微博,取其中h(h

      (10)

      Ou=(ou1,ou2,…,ouT)

      (11)

      1.4.4興趣相似度計算

      興趣相似度反映著用戶之間的內在共性,粉絲與博主相似度越大,該粉絲就越容易成為親密粉絲。根據用戶的興趣分布分析,令博主的興趣分布向量為Ob,粉絲i的興趣分布向量為Ofi,由式(1)過濾得到博主的活躍粉絲集合為F(b)。令Simbfi表示博主與粉絲i的興趣相似度,則通過式(2)、式(11)可將博主與粉絲i的興趣相似度表示為:

      Simbfi=Cos(Ob,Ofi)i∈F(b)

      (12)

      1.4.5粉絲親密度綜合評價計算方法

      王煥玲[14]在《“粉”字心義》中對“微博粉絲”的解釋是:在微博里對某一博主保持持續(xù)關注的人類群體。當微博的博主在其微博上發(fā)表新的留言,第一時間關注他的大多數情況下就會是該微博的粉絲。親密粉絲是與博主有較高的親密度的粉絲,主要表現在活躍度高、與博主之間關系緊密、與博主在興趣上相似度大。則對用戶粉絲親密度的定義如下:

      定義11令F表示某一博主的粉絲集合,標記為F={f1,f2,…,fn},由式(1)過濾得到博主的活躍粉絲集合為F(b)。設Qfi表示對博主第i粉絲親密度評價得分,由式(3)中Simbgi表示博主背景與第i個粉絲背景相似度,式(4)中Rui表示博主與第i個粉絲的關系強度,式(10)中Simbfi表示博主與第i個粉絲興趣相似度。則結合式(2)、式(3)、式(4)、式(10),博主第i個粉絲的親密度表示為:

      Qfi=αSimbgi+βRui+λSimbfii∈F(b)

      (13)

      α+β+λ=1

      (14)

      式中,α、β、λ是對應的權重變量,權重變量由實驗數據統(tǒng)計獲得,實驗部分將詳細介紹。通過式(13)計算的Qfi值可以得出對博主第i個粉絲的親密度評價得分。對博主活躍粉絲集合F(b),用以上計算方法,能得出每一個活躍粉絲綜合推薦評分,選取Top-N個活躍粉絲為博主的親密粉絲。

      2 實驗及分析

      2.1實驗數據

      本實驗采用用戶粉絲親密度評價模型(BLDA),對微博用戶進行親密粉絲推薦,并將結果與基于協(xié)同過濾的用戶推薦模型(BPR)[15]和邏輯回歸的用戶推薦模型(LR)[11]進行效果對比,側面反映用戶粉絲親密度評價效果。利用新浪微博開放API的方式獲取用戶基本信息和最新發(fā)布一系列微博信息,構成實驗數據集。數據集中每個用戶基本信息包括用戶年齡、微博注冊時間(微齡)、是否加V、關注人數、粉絲人數、男粉絲數、女粉絲數、用戶發(fā)博文次數、粉絲關注所發(fā)博文數(對于每篇博文,只要有粉絲有相關的關注行為則記為一次,一條微博只記一次,不重復記)。為了對比BPR和LR推薦模型在對親密粉絲推薦上的效果,數據集中每個用戶的微博信息應包括用戶及其關注用戶的微博、用戶標簽、用戶社交圈、用戶個人信息(地區(qū)、性別)。同時為了實驗方便進行,本實驗要求數據集選取的每個用戶關注人數不少于30人,粉絲數在100到2000個之間,且所發(fā)微博數不得少于60條。

      本實驗按照數據集的要求,使用Java語言編寫的程序,從新浪開放API接口獲取了376個滿足條件的用戶及其粉絲的個人基本信息以及相關微博信息。將獲取的376個用戶作為目標用戶,并將這376個目標用戶對應的親密粉絲作為待推薦的用戶,其親密度由訓練獲得。

      將獲取的微博用戶數據集分為訓練數據集和測試數據集。訓練集由376個目標用戶及其對應親密粉絲組成,測試集由376個目標用戶及剔除親密粉絲后剩余的對應粉絲組成。對于測試集中的每個目標用戶,隨機選取對應的40個待推薦的粉絲并隱藏其10個親密粉絲(共50個粉絲)作為測試集。模型訓練結束后,對測試數據集進行實驗,得到按降序排列的Top-N推薦結果。

      2.2實驗評價指標

      在實驗中,采用準確率(P),召回率(R),綜合指標(F)作為評價標準。

      準確率:

      (15)

      召回率:

      (16)

      綜合指標:

      (17)

      其中a表示推薦出來的粉絲為親密粉絲數,b表示推薦出來的粉絲為非親密粉絲數,c表示沒有推薦出來的親密粉絲數。

      2.3評價權重α、β、λ的調整

      表1 評分權重α、β、λ分別取1的實驗結果

      表2 評分權重α、β、λ調整后的實驗結果

      2.4實驗結果與分析

      為驗證本文方法的準確性和有效性,實驗隨機選取5組數據集中的用戶,每組10個用戶參與實驗。對基于協(xié)同過濾的用戶推薦模型(BPR)和邏輯回歸的用戶推薦模型(LR)在本文數據集上推薦結果的準確率、召回率和綜合指標三個指標進行對比,從而進行親密粉絲推薦效果的比較。分別取每個用戶的Top-1、Top-2、Top-3、Top-4、Top-5、Top-6、Top-7、Top-8、Top-9和Top-10十種情況下的實驗結果,即推薦結果的前1個、前2個、前3個、前4個、前5個、前6個、前7個、前8個、前9個和前10個粉絲中,隱藏親密粉絲占推薦結果的平均比例,實驗結果如圖2所示。

      圖2 BLDA、BPR和LP的推薦效果比較

      由實驗結果容易觀察出:BLDA方法模型對用戶親密粉絲推薦的整體準確率要優(yōu)于LR和BPR方法模型。隨著K值的增大,BLDA方法模型的召回率和綜合指標值趨于穩(wěn)定,效果明顯優(yōu)于LR和BPR方法模型。親密粉絲推薦,關注的是推薦出來的是不是親密粉絲以及粉絲的親密度排名,因此準確率、召回率和綜合指標的值越大,效果越好。這說明了本文提出的BLDA方法模型對優(yōu)質粉絲的推薦優(yōu)于BPR和LR方法模型。

      BPR方法模型雖然考慮了用戶多維特征間的相似性,并取得了一定的推薦效果,但由于該方法數據稀疏性處理不夠,對親密粉絲推薦并不理想。LR方法模型從用戶興趣、社交圈和個人信息多個角度出發(fā),數據信息比較充分;并通過深層挖掘用戶信息中潛在支配推薦排序信息的邏輯回歸模型[8],綜合利用這些特征進行用戶親密粉絲推薦。該方法在數據稀疏處理方面比較合理,但對用戶興趣的分析是從自身特征研究,缺乏客觀性,因此在用戶親密粉絲上的推薦效果不理想。BLDA方法模型更加全面地從博文與用戶本身出發(fā),以用戶所發(fā)博文為根據,利用LDA主題模型分析博文的主題分布,用以反映用戶興趣取向。其對用戶興趣的推斷更加客觀準確,從而對用戶粉絲的親密度評價更為客觀,對親密粉絲的推薦針對性更強。綜合利用這些特征對親密粉絲的推薦效果有了較大的提高,側面反映了該用戶親密度評價模型的有效性和準確性。

      3 結 語

      本文主要從微博用戶自身相關特征與博文內容出發(fā),對博文進行深層次挖掘,利用LDA主題模型分析博文的主題分布,反映出興趣取向分布,融合微博用戶的背景特征以及相關行為特征構建了一個綜合的用戶粉絲親密度評價模型。實驗結果表明,本文所搭建的模型在一定程度上提高了親密粉絲個性化推薦的準確率、召回率和綜合指標。但實驗過程中仍存在一些問題:(1) 特征選取不夠全面,對用戶關系的親密度評價效果的影響較大;(2) 實驗效果跟權值的選定有一定關聯。因此,對微博用戶背景、活躍度、興趣的相互關系的深入研究是未來研究的方向。隨著新浪微博的發(fā)展以及互聯網越來越開放,可以獲取到更豐富的用戶屬性,為用戶關系更深入的評價分析提供更多的可靠依據。

      [1] 傅穎斌,陳羽中.基于鏈路預測的微博用戶關系分析[J].計算機科學,2014,41(2):201-205,244.

      [2] 閆強,吳聯仁,鄭蘭.微博社區(qū)中用戶行為特征及其機理研究[J].電子科技大學學報,2013,42(3):328-333.

      [3] 毛佳昕,劉奕群,張敏,等.基于用戶行為的微博用戶社會影響力分析[J].計算機學報,2014,37(4):791-800.

      [4] 曹玖新,吳江林,石偉,等.新浪微博網信息傳播分析與預測[J].計算機學報,2014,37(4):779-790.

      [5]YanagimotoH,YoshiokaM.RelationshipStrengthEstimationforSocialMediaUsingFolksonomyandNetworkAnalysis[C]//2012IEEEInternationalConferenceonFuzzySystems,2012:1-8.

      [6] 徐志明,李棟,劉挺,等.微博用戶的相似性度量及其應用[J].計算機學報,2014,37(1):207-218.

      [7]KahandaI,NevilleJ.Usingtransactionalinformationtopredietlinkstrengthinonlinesocialnetworks[C]//ProceedingsoftheICWSM’09,SanJose,USA,2009:74-81.

      [8]XiangRJ,NevilleJ,RogatiM.Modelingrelationshipstrengthinonlinesocialnetworks[C]//ProceedingsoftheWWW2010,Raleigh,NorthCarolina,USA,2010:981-990.

      [9]ChenJ,GeyerW,DuganC,etal.Makenewfriends,butkeeptheold:Recommendingpeopleonsocialnetworkingsites[C]//ProceedingsoftheSIGCHIConferenceononHumanFactorsinComputingSystems.NewYork:ACM,2009:201-210.

      [10]HannonJ,BennettM,SmythB.Recommendingtwitteruserstofollowusingcontentandcollaborativefilteringapproaches[C]//ProceedingsoftheACMConferenceonRecommenderSystems.NewYork:ACM,2010:199-206.

      [11] 徐雅斌,石偉杰.微博用戶推薦模型的研究[J].電子科技大學學報,2015,44(2):254-259.

      [12]YangL,LiC,DingQ,etal.CombiningLexicalandSemanticFeaturesforShortTextClassification[J].ProcediaComputerScience,2013,22:78-86.

      [13] 高明,金澈清,錢衛(wèi)寧,等.面向微博系統(tǒng)的實時個性化推薦[J].計算機學報,2014,37(4):963-975.

      [14] 王煥玲.“粉”字新義[J].現代語文:下旬.語言研究,2012(4):94-95.

      [15] 胡大偉.基于標簽協(xié)同過濾算法在微博推薦中的研究[D].包頭:內蒙古科技大學,2012.

      EVALUATIONMODELOFWEIBOUSERFOLLOWERSINTIMACYBASEDONLDA

      WangQiusen1YuHaoliang1XuHaocheng1FengXupeng2LiuLijun1HuangQingsong1,3*

      1(FacultyofInformationEngineeringandAutomation,KunmingUniversityofScienceandTechnology,Kunming650500,Yunnan,China)2(EducationalTechnologyandNetworkCenter,KunmingUniversityofScienceandTechnology,Kunming650500,Yunnan,China)3(YunnanKeyLaboratoryofComputerTechnologyApplications,Kunming650500,Yunnan,China)

      Userrelationshipisapopulardirectionofmicrobloggingresearchnowadays,theevaluationofweibo(microblogginginChina)userfollowers’intimacyisofgreatsignificancetothediscoveryofimplicitusers’intimatefollowersandtheoptimisationofmicrobloggingnetworkenvironment.Currentlytheweibousergroupsarelargeandhavecomplexrelationships,ifevaluatingtheintimacyofusers’relationshiponlystartingfromusersownandbasedonusers’characteristicsandrelationshipnetwork,theaccuracyistoolow.Inordertosolvethisproblem,inthispaperweputforwardtheLDA-basedevaluationmodelofmicroblogginguserfollowersintimacy.Firstitfiltersandweedsoutthoseinactivefollowersinuserfollowerssettoobtainactivefollowers.Then,itusesLDAthememodeltotrainthemicrobloggingarticlesetwrittenduringagivenperiodsoastoacquirethemesdistributionofphasedmicroblogsofusers.Meanwhile,accordingtothemesdistributionsthemodelinferstheinterestsorientationdistributionofmicroblogs,andusescosinesimilaritymethodtocalculatetheinterestsimilaritybetweenusersandtheirfollowers.Finally,combiningthebackgroundsimilarityandrelationshipintimacyofusers,wesetupacomprehensiveintimacyevaluationstandard.ThroughSinaAPIinterfaceswecrawledrecentcorrelatedmicrobloggingdataandformedtheexperimentaldataset,theresultsofevaluation-basedrecommendationexperimentondatasetshowedthattheLDA-basedmodelhashigheraccuracyandeffectiveness.

      IntimacyLDAFollows(fans)ThememodelSimilarity

      2015-06-11。國家自然科學基金項目(81360230);科技部科技型中小企業(yè)技術創(chuàng)新基金項目(13C26215305404)。王秋森,碩士生,主研領域:機器學習,自然語言處理。俞浩亮,碩士生。徐浩誠,碩士生。馮旭鵬,碩士。劉利軍,講師。黃青松,教授。

      TP

      ADOI:10.3969/j.issn.1000-386x.2016.10.015

      猜你喜歡
      博主密度用戶
      跟著零食博主買拼多多小吃
      好日子(2022年6期)2022-08-17 07:16:42
      如果孩子想當美妝博主
      『密度』知識鞏固
      密度在身邊 應用隨處見
      時尚博主謝慕梓:分享身邊的美
      金橋(2021年1期)2021-05-21 08:22:04
      “玩轉”密度
      密度應用知多少
      關注用戶
      商用汽車(2016年11期)2016-12-19 01:20:16
      關注用戶
      商用汽車(2016年6期)2016-06-29 09:18:54
      關注用戶
      商用汽車(2016年4期)2016-05-09 01:23:12
      邢台市| 陆河县| 河东区| 长岛县| 梅州市| 柞水县| 苏尼特右旗| 潜江市| 刚察县| 舒兰市| 古田县| 红原县| 阿克苏市| 阳江市| 苍溪县| 剑川县| 环江| 仁布县| 宝鸡市| 平罗县| 堆龙德庆县| 西畴县| 成都市| 五指山市| 正阳县| 奉贤区| 页游| 昭通市| 台南县| 嵊泗县| 历史| 新营市| 建平县| 岳普湖县| 宁波市| 阿图什市| 德阳市| 芮城县| 防城港市| 绥棱县| 五河县|