徐建民,李騰飛,吳樹芳
(1.河北大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河北 保定 071002;2.河北大學(xué) 管理學(xué)院,河北 保定 071002)
?
一種基于用戶交互行為的微博社區(qū)發(fā)現(xiàn)方法
徐建民,李騰飛,吳樹芳
(1.河北大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河北 保定071002;2.河北大學(xué) 管理學(xué)院,河北 保定071002)
通過研究微博社區(qū)的結(jié)構(gòu)特征和用戶交流模式,提出了一種基于微博用戶交互行為的社區(qū)發(fā)現(xiàn)方法.該方法借鑒引文分析理論中的著者互引分析和著者耦合分析,分析微博社區(qū)內(nèi)用戶的交互行為,考慮到不同交互行為體現(xiàn)了對(duì)微博的不同興趣度,給不同的交互行為賦予了不同權(quán)重,進(jìn)行相似度計(jì)算,并利用用戶相似度進(jìn)行社區(qū)發(fā)現(xiàn).實(shí)驗(yàn)結(jié)果顯示,本文提出的方法可以有效地進(jìn)行社區(qū)發(fā)現(xiàn).
微博社區(qū);社區(qū)發(fā)現(xiàn);引文分析;交互行為;用戶相似度
社區(qū)目前沒有標(biāo)準(zhǔn)的定義,社會(huì)網(wǎng)絡(luò)中的社區(qū)可以認(rèn)為是網(wǎng)絡(luò)中由一組具有相同結(jié)構(gòu)或特性的節(jié)點(diǎn)組成的集合.社區(qū)發(fā)現(xiàn)是通過調(diào)用一定的社區(qū)發(fā)現(xiàn)算法,按照某種標(biāo)準(zhǔn)進(jìn)行社區(qū)劃分,其目的是將網(wǎng)絡(luò)中的社區(qū)挖掘出來.隨著互聯(lián)網(wǎng)的發(fā)展、社交網(wǎng)絡(luò)的興盛,社區(qū)發(fā)現(xiàn)逐漸成為熱門研究方向.微博是一種新興的社交網(wǎng)絡(luò),現(xiàn)已成為中國重要的社交網(wǎng)絡(luò)媒體之一.微博社區(qū)發(fā)現(xiàn)有助于研究社會(huì)網(wǎng)絡(luò)演化過程、社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)特征等課題,也可以為好友推薦、廣告精準(zhǔn)投放、話題推送等應(yīng)用提供理論依據(jù)和具體方法,具有重要的學(xué)術(shù)和實(shí)用價(jià)值.
目前對(duì)微博社區(qū)的研究主要集中在用戶關(guān)注關(guān)系和微博文本內(nèi)容分析上.Golsefid等[1]提出利用模糊圖聚類進(jìn)行社區(qū)發(fā)現(xiàn),以可能性C-聚類模型為基礎(chǔ),利用與聚類中心的相似度進(jìn)行節(jié)點(diǎn)距離計(jì)算,最終完成社區(qū)發(fā)現(xiàn).Tang等[2]利用數(shù)據(jù)場理論衡量用戶間的聯(lián)系程度,先確定初始聚類,然后采用粗糙集聚類算法進(jìn)行社區(qū)發(fā)現(xiàn).周小平等[3]以關(guān)注關(guān)系為網(wǎng)絡(luò)節(jié)點(diǎn),以關(guān)注之間的共同用戶為關(guān)注關(guān)系潛在的邊,以關(guān)注關(guān)系所關(guān)聯(lián)用戶的興趣集的交集為關(guān)注關(guān)系的興趣特征,構(gòu)建微博網(wǎng)絡(luò)R-C模型進(jìn)行社區(qū)發(fā)現(xiàn).于洪濤等[4]提出一種基于鏈接相似性的微博重疊社區(qū)發(fā)現(xiàn)算法,該算法通過用戶相似度矩陣映射得到用戶虛擬興趣網(wǎng)并求得該網(wǎng)絡(luò)的鏈接相似度,并綜合用戶的真實(shí)關(guān)注網(wǎng)絡(luò)的鏈接相似度得到總的鏈接相似度,為了將鏈接相似度用于社區(qū)發(fā)現(xiàn),該算法對(duì)傳統(tǒng)的Ward層次聚類算法進(jìn)行推廣,使之適用于具有相似性度量的任意對(duì)象,并將其用于社區(qū)發(fā)現(xiàn).
由于微博用戶互粉、買粉、悄悄關(guān)注等行為,微博內(nèi)容也不局限于文本形式,這些因素導(dǎo)致用戶間的關(guān)注關(guān)系或微博內(nèi)容并不能真實(shí)地反應(yīng)用戶的交際網(wǎng)絡(luò).文獻(xiàn)[5]提出利用用戶間交互行為提高社區(qū)劃分質(zhì)量,但并沒有考慮不同的交互行為表示的聯(lián)系的緊密程度不一樣.1955年,Garfield提出引文分析理論,該理論通過數(shù)學(xué)方法分析文獻(xiàn)間的引用和被引用關(guān)系,以發(fā)現(xiàn)其內(nèi)在規(guī)律[6].2001年,F(xiàn)ang[7]將引文系統(tǒng)看成是網(wǎng)格,這些菱形網(wǎng)格對(duì)應(yīng)的文獻(xiàn)耦合與共引文獻(xiàn)屬于網(wǎng)格系統(tǒng)的基本結(jié)構(gòu).在微博社區(qū)中,不同微博用戶可能關(guān)注同一條微博,一個(gè)微博用戶可能同時(shí)關(guān)注多條微博,這些行為類似于引文分析中的互引和耦合.基于上述原因,本文通過分析用戶交互行為,在引文分析理論的基礎(chǔ)上,根據(jù)用戶間的交互度得到用戶間的相似度,并以此進(jìn)行微博社區(qū)的發(fā)現(xiàn).以新浪微博為數(shù)據(jù)采集平臺(tái),實(shí)驗(yàn)驗(yàn)證了文章給出的微博社區(qū)發(fā)現(xiàn)算法的有效性.
1.1引文分析理論
一般來說,引文分析共包括3種關(guān)系,引用、共引和耦合.圖1a表示文獻(xiàn)引用關(guān)系,即如果文獻(xiàn)B引用了文獻(xiàn)A,則二者之間存在引用關(guān)系,互引關(guān)系是引用關(guān)系中的一個(gè)特例,一般發(fā)生在著者、期刊或者學(xué)科之間,如果著者A引用了著者B,而著者B又引用了著者A,則這2個(gè)著者之間為互引關(guān)系.將所有具有引用關(guān)系的論文連接起來,則形成了引文網(wǎng)絡(luò),圖1d展示了引文網(wǎng)絡(luò)的示例.
文獻(xiàn)共引是Small在1973年提出,如果2個(gè)文獻(xiàn)同時(shí)被一篇文獻(xiàn)引用,則說明這2篇文獻(xiàn)存在相似性[8].在圖1c中,文獻(xiàn)G和文獻(xiàn)H同時(shí)被文獻(xiàn)F引用,則認(rèn)為文獻(xiàn)G和文獻(xiàn)H之間存在文獻(xiàn)共引的關(guān)系.
a.文獻(xiàn)引用;b.文獻(xiàn)耦合;c.文獻(xiàn)共引;d.引文網(wǎng)絡(luò).圖1 文獻(xiàn)引用關(guān)系Fig.1 Relationships of literature citation
文獻(xiàn)耦合的概念是Kessler[9]于1963年提出的,他發(fā)現(xiàn)學(xué)科或者內(nèi)容相近的論文,參考文獻(xiàn)中包含著較多的相同文獻(xiàn),他把同時(shí)引用了一篇文獻(xiàn)的2篇文獻(xiàn)稱為耦合文獻(xiàn),把它們之間的關(guān)系稱為文獻(xiàn)耦合.在圖1b中,文獻(xiàn)D和文獻(xiàn)E同時(shí)引用了文獻(xiàn)C,則文獻(xiàn)D和文獻(xiàn)E之間存在文獻(xiàn)耦合關(guān)系.耦合關(guān)系中除了文獻(xiàn)耦合外,還有學(xué)科耦合、期刊耦合、著者耦合等,其中著者耦合認(rèn)為引用了相同參考文獻(xiàn)的著者之間存在相似性,可以根據(jù)共同引用的參考文獻(xiàn)數(shù)量對(duì)著者間的相似性進(jìn)行量化.
1.2微博社區(qū)
微博是一種新興的社交網(wǎng)絡(luò),有低門檻、實(shí)時(shí)性、簡易性、傳播快的特點(diǎn),這些特點(diǎn)造成微博信息數(shù)量巨大,結(jié)構(gòu)復(fù)雜.在微博網(wǎng)絡(luò)中,用戶不可能瀏覽到所有用戶發(fā)布的所有微博,而是會(huì)基于興趣愛好、職業(yè)、地理等因素關(guān)注自己感興趣的用戶,并和這些用戶組成社區(qū),即微博社區(qū),圖2展示了微博社區(qū)交互示例.1個(gè)微博用戶可能會(huì)有多個(gè)興趣愛好,也就會(huì)分屬于多個(gè)社區(qū),這被稱為“重疊社區(qū)”.例如圖2中,用戶A同時(shí)關(guān)注IT和美食2個(gè)社區(qū),則在社區(qū)劃分時(shí)用戶A既在IT社區(qū)內(nèi),也在美食社區(qū)內(nèi);用戶B同時(shí)關(guān)注了體育和金融2個(gè)社區(qū),則在社區(qū)劃分時(shí),用戶B既在體育社區(qū)內(nèi)也在金融社區(qū)內(nèi).
圖2 微博社區(qū)交互示例Fig.2 A sample of micro-blogging community interactions
1.3微博用戶交互行為
微博社區(qū)內(nèi)主要通過用戶間的交互行為維持彼此之間的聯(lián)系.微博用戶對(duì)博文的交互行為主要有以下6種:
1)轉(zhuǎn)發(fā)微博(retweet):用戶可以將其他用戶的博文或評(píng)論內(nèi)容轉(zhuǎn)發(fā)到自己微博中,轉(zhuǎn)發(fā)時(shí)可以對(duì)微博內(nèi)容進(jìn)行評(píng)論,也可以只轉(zhuǎn)發(fā).轉(zhuǎn)發(fā)后,會(huì)推送給粉絲,粉絲可以對(duì)微博進(jìn)行再次轉(zhuǎn)發(fā)、評(píng)論等交互行為.
2)評(píng)論微博(comment):用戶可以對(duì)博文進(jìn)行評(píng)論,也可以同其他評(píng)論者進(jìn)行交流.
3)點(diǎn)贊微博(like):用戶可以對(duì)博文點(diǎn)贊,表示對(duì)內(nèi)容的贊同或喜歡.
4)@用戶(at):用戶在發(fā)表博文時(shí)可以@其他用戶,表示這是對(duì)@用戶說的話,此時(shí),其他用戶會(huì)收到通知.
5)私信(direct message):私信類似于電子郵件,只有互相通信的2人可以看到.
6)收藏(collect):用戶可以收藏自己喜歡的微博,收藏后可以在收藏欄中看到.
對(duì)于1條微博,用戶可以同時(shí)有多種交互方式,比如同時(shí)點(diǎn)贊和評(píng)論,圖2中的用戶C同時(shí)評(píng)論和點(diǎn)贊了用戶A的1條微博.@用戶一般用在發(fā)布微博或者轉(zhuǎn)發(fā)微博時(shí),圖2中的用戶B在發(fā)布微博時(shí)@到了用戶D.每個(gè)微博用戶偏好的社交習(xí)慣不盡相同,有的用戶偏好轉(zhuǎn)發(fā),有的用戶偏好點(diǎn)贊,有的用戶傾向性不明顯,每種交互行為都可能會(huì)被使用.共同交互的用戶間存在相似性,用戶間共同交互的微博數(shù)目越多,相似性越大.
微博用戶通過交互行為產(chǎn)生聯(lián)系,本文稱為交互關(guān)系.微博用戶間的交互關(guān)系分為直接和間接2種.直接交互指用戶之間直接對(duì)彼此發(fā)布的微博進(jìn)行交互,例如圖2中用戶C對(duì)用戶A的微博進(jìn)行了評(píng)論,則C對(duì)A有直接交互關(guān)系.間接交互指不同用戶同時(shí)對(duì)其他用戶發(fā)布的博文進(jìn)行交互,例如圖2中用戶E和F均轉(zhuǎn)發(fā)了用戶A的某條博文,則認(rèn)為這2個(gè)用戶間存在間接交互關(guān)系.
直接交互關(guān)系類似于著者互引關(guān)系,間接交互類似于著者耦合關(guān)系.借鑒引文分析理論中著者關(guān)系的分析方法,通過量化微博用戶間的直接交互關(guān)系和間接交互關(guān)系計(jì)算用戶間的相似度.雖然微博處于時(shí)時(shí)動(dòng)態(tài)更新中,微博用戶也不斷地和其他用戶進(jìn)行交互,但用戶的興趣愛好和社交網(wǎng)絡(luò)可以認(rèn)為大體上是穩(wěn)定不變的.為此,可以通過用戶的歷史交互行為記錄挖掘出用戶興趣愛好特征,以此發(fā)現(xiàn)用戶的社區(qū)歸屬.
2.1基于用戶交互行為的用戶相似度計(jì)算
本文首先計(jì)算出用戶對(duì)一條博文的興趣度,然后分別計(jì)算出用戶直接交互的交互度和間接交互的耦合度,最后加權(quán)求和得到用戶間的相似度.由于私信和收藏的交互行為屬于隱私,無法獲取,所以研究中不考慮.
假設(shè)網(wǎng)絡(luò)中所有用戶集合為user,所有用戶發(fā)布的微博集合為blog,用戶A發(fā)布的博文為A1,A2,A3,…,Aj,用戶B發(fā)布的博文為B1,B2,B3,…,Bk,其他用戶發(fā)布的博文為O1,O2,O3,…,Om.在上述假設(shè)的基礎(chǔ)上,用戶對(duì)博文興趣度、用戶交互度、用戶耦合度、用戶相似度的具體計(jì)算方法如下文所述.
1)用戶對(duì)博文興趣度
微博用戶對(duì)一條博文可以有多種的、重復(fù)的交互行為,用戶對(duì)一條博文的興趣度由各項(xiàng)交互行為權(quán)重累加得到,其計(jì)算方法為
(1)
2)用戶交互度
用戶間的交互度指用戶間的直接交互關(guān)系的緊密程度,由于用戶間直接交互關(guān)系并非對(duì)等關(guān)系,所以用戶間的交互度由用戶對(duì)彼此微博的興趣度加權(quán)得到,具體公式如下:
(2)
3)用戶耦合度
用戶耦合度指用戶間的間接交互關(guān)系的緊密程度,其內(nèi)涵類似于著者耦合分析中的耦合強(qiáng)度,文獻(xiàn)[10]證明著者耦合分析中,最小值算法是一種比較理想的算法,因此采用最小值算法并通過歸一化得到微博用戶的間接耦合度,計(jì)算公式如下:
(3)
4)用戶相似度
由用戶的交互度和耦合度可以得到用戶間的相似度.計(jì)算公式如下:
Sim(A,B)=ωInteraction(A,B)+(1-ω)Coupling(A,B),
(4)
公式(4)中,Sim(A,B)表示用戶A和B之間的相似度.Interaction(A,B)表示用戶A和B之間的直接交互度,Coupling(A,B)表示用戶A和B之間的間接耦合度.ω為權(quán)重系數(shù),其值根據(jù)經(jīng)驗(yàn)設(shè)定為0.7.
觀察公式(4)發(fā)現(xiàn),不同微博用戶間的相似度越高,則二者共同交互的微博越多,聯(lián)系越緊密,屬于同一社區(qū)的概率越大.
2.2基于用戶交互相似度的社區(qū)發(fā)現(xiàn)算法
一般認(rèn)為,一個(gè)良好的社區(qū)發(fā)現(xiàn)算法應(yīng)該使得社區(qū)內(nèi)部的成員聯(lián)系緊密,同時(shí)與社區(qū)外部的成員聯(lián)系盡可能的少.文章依據(jù)上述思想,借鑒Blondel等[11]提出的模塊度增量函數(shù)和上節(jié)的相似度計(jì)算方法,不斷將與社區(qū)相似度值最大、且模塊度增量大于0的用戶節(jié)點(diǎn)加入社區(qū),最終完成社區(qū)發(fā)現(xiàn)的任務(wù).
節(jié)點(diǎn)與社區(qū)的相似度體現(xiàn)了節(jié)點(diǎn)屬于社區(qū)的可能性,相似度值越大,可能性越高.節(jié)點(diǎn)與社區(qū)相似度計(jì)算公式如公式(5)所示:
(5)
Blondel等在2008年提出一種基于模塊度優(yōu)化的社區(qū)發(fā)現(xiàn)算法,利用模塊度增量判斷節(jié)點(diǎn)是否可加入社區(qū),如果模塊度增量ΔQ大于0,則說明節(jié)點(diǎn)可加入社區(qū),反之則說明節(jié)點(diǎn)不屬于此社區(qū),模塊度增量計(jì)算公式如下:
(6)
公式(6)中∑in是社區(qū)Ck中所有節(jié)點(diǎn)之間的相似度總和,∑tot是Ck中所有節(jié)點(diǎn)與其他所有節(jié)點(diǎn)相似度總和,∑vj是節(jié)點(diǎn)j與其他所有節(jié)點(diǎn)相似度總和,∑vj,in是節(jié)點(diǎn)j與社區(qū)Ck中節(jié)點(diǎn)的相似度總和,m為網(wǎng)絡(luò)中所有相似度的和.
具體社區(qū)發(fā)現(xiàn)算法步驟如下.
輸入:微博用戶節(jié)點(diǎn)集合V={v1,v2,v3,…,vn};
用戶相似度集合E={Sim(v1,v2),Sim(v1,v3),Sim(v1,v4),…,Sim(vn-1,vn)},每個(gè)相似度值為社區(qū)網(wǎng)絡(luò)中連接微博用戶的邊的權(quán)重.
輸出:社區(qū)集合C={C1,C2,C3,…,Ck}.
算法步驟:
1)隨機(jī)從用戶節(jié)點(diǎn)集合V中選取1個(gè)節(jié)點(diǎn),加入空的社區(qū)Ck內(nèi),并從用戶節(jié)點(diǎn)集合V內(nèi)刪除這個(gè)節(jié)點(diǎn).
2)根據(jù)公式(5)計(jì)算社區(qū)Ck外用戶節(jié)點(diǎn)與社區(qū)Ck的相似度,選取與社區(qū)相似度值最大的節(jié)點(diǎn)vj,按公式(6)計(jì)算其模塊度增量,如果ΔQ>0,則將節(jié)點(diǎn)加入社區(qū)內(nèi),更新社區(qū)集合,并從用戶節(jié)點(diǎn)集合V中刪除此節(jié)點(diǎn).重復(fù)此步驟直到?jīng)]有節(jié)點(diǎn)的模塊度增量ΔQ>0,表示社區(qū)已發(fā)現(xiàn)所有屬于此社區(qū)的用戶節(jié)點(diǎn).
3)對(duì)于用戶節(jié)點(diǎn)集合V內(nèi)剩余節(jié)點(diǎn),重復(fù)步驟1)-2),直到用戶節(jié)點(diǎn)集合V為空,表示社區(qū)發(fā)現(xiàn)已完成.
3.1實(shí)驗(yàn)數(shù)據(jù)
由于目前沒有統(tǒng)一的、權(quán)威的微博數(shù)據(jù)集供使用,因此本文通過爬蟲工具,隨機(jī)爬取新浪微博網(wǎng)絡(luò)來采集數(shù)據(jù).經(jīng)過預(yù)處理后得到實(shí)驗(yàn)數(shù)據(jù),共包括5 487名用戶,165 859條微博,以及他們之間互相交互的數(shù)據(jù).將獲得的數(shù)據(jù)分為訓(xùn)練集和測試集,訓(xùn)練集包括50名用戶,4 802條微博,用于獲取交互行為權(quán)重.測試集合包括5 437名用戶,161 057條微博,用于測試算法的有效性.
本文通過人工標(biāo)注,對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行分類,得到用戶發(fā)布微博的興趣分布和交互微博的興趣分布,并通過設(shè)定不同的交互行為權(quán)重值比較這2個(gè)分布,進(jìn)而獲得結(jié)果較優(yōu)的交互行為權(quán)重,結(jié)果如表1所示.
表1 用戶交互行為權(quán)重
3.2評(píng)價(jià)標(biāo)準(zhǔn)
本文采用Newman和Girvan[12]提出的社區(qū)評(píng)價(jià)標(biāo)準(zhǔn)檢測算法的有效性,Newman和Girvan認(rèn)為一個(gè)好的社區(qū)應(yīng)該是內(nèi)部的邊盡可能的多,而外部的邊盡可能的少,基于這種思想,提出了社區(qū)評(píng)價(jià)標(biāo)準(zhǔn)Q函數(shù),由于Q函數(shù)不適合加權(quán)網(wǎng)絡(luò),研究者對(duì)其進(jìn)行了擴(kuò)展,筆者采用的評(píng)測標(biāo)準(zhǔn)是擴(kuò)展后的Qw函數(shù).
(7)
Newman和Girvan指出,如果Q函數(shù)值為0,表示所有的節(jié)點(diǎn)都屬于同一個(gè)社區(qū);Q函數(shù)的值越大,說明社區(qū)劃分的結(jié)果越好.
Q函數(shù)不適用于帶權(quán)網(wǎng)絡(luò),對(duì)于帶權(quán)網(wǎng)絡(luò),擴(kuò)展后的模塊度函數(shù)Qw如下所示:
(8)
公式(8)中,W是網(wǎng)絡(luò)中所有邊的權(quán)值之和,Wc表示社區(qū)c內(nèi)部所有邊的權(quán)值之和,Tc為與社區(qū)c中的所有節(jié)點(diǎn)相鄰的邊的權(quán)值之和.
3.3結(jié)果分析
為驗(yàn)證社區(qū)發(fā)現(xiàn)算法的有效性,對(duì)新浪微博數(shù)據(jù)的測試部分進(jìn)行實(shí)驗(yàn),并運(yùn)用3.2節(jié)的Qw函數(shù)對(duì)社區(qū)劃分結(jié)果進(jìn)行評(píng)價(jià).
根據(jù)公式(1)得到用戶對(duì)博文的興趣度,結(jié)果如表2所示.其中,用戶自己發(fā)布的微博的興趣度為1.
表2 用戶對(duì)博文興趣度
根據(jù)公式(2)和公式(3)分別得到用戶交互度和用戶耦合度,最后通過公式(4)得到用戶相似度,結(jié)果如表3所示.用戶自己對(duì)自己的相似度為1.
表3 微博用戶相似度
在上述實(shí)驗(yàn)結(jié)果的基礎(chǔ)上,運(yùn)用文章提出的社區(qū)發(fā)現(xiàn)算法,對(duì)微博用戶進(jìn)行了社區(qū)劃分,結(jié)果如圖3所示.由于節(jié)點(diǎn)過多,圖3中只選擇了部分社區(qū)劃分結(jié)果.
圖3 部分社區(qū)劃分結(jié)果示意Fig.3 Part of the result of community division
為了檢驗(yàn)算法社區(qū)發(fā)現(xiàn)的有效性,運(yùn)用3.2節(jié)介紹的評(píng)價(jià)標(biāo)準(zhǔn)計(jì)算了Qw函數(shù)值,如表4所示.一般認(rèn)為Qw函數(shù)值越大證明算法的社區(qū)發(fā)現(xiàn)能力越好,但是在實(shí)際的社交網(wǎng)絡(luò)中,由于各種因素的制約,Qw函數(shù)值通常為0.3~0.7,論文提出的社區(qū)發(fā)現(xiàn)算法的Qw函數(shù)值為0.667 9.所以實(shí)驗(yàn)結(jié)果顯示論文提出的基于用戶交互行為的社區(qū)發(fā)現(xiàn)算法能有效地進(jìn)行社區(qū)發(fā)現(xiàn).
表4 Q函數(shù)值
本文通過分析微博社區(qū)結(jié)構(gòu)和交互行為特征,借鑒引文分析理論中著者互引關(guān)系和著者耦合關(guān)系,將用戶交互行為分為直接交互關(guān)系和間接交互關(guān)系,通過對(duì)博文的興趣度量化用戶間的親密程度,最終加權(quán)得到用戶的相似度.在用戶相似度的基礎(chǔ)上,將模塊度增量作為判斷節(jié)點(diǎn)是否加入社區(qū)的標(biāo)準(zhǔn),完成社區(qū)發(fā)現(xiàn).論文從新浪微博采集數(shù)據(jù),驗(yàn)證新算法的有效性.由于實(shí)驗(yàn)是在新浪微博上隨機(jī)獲取的部分?jǐn)?shù)據(jù),權(quán)威性不高,所以在未來的研究中尋找更加權(quán)威的數(shù)據(jù)進(jìn)一步驗(yàn)證算法的有效性.
[1]GOLSEFID S M M,ZARANDI M H F,BASTANI S.Fuzzy community detection model in social networks[J].International Journal of Intelligent Systems,2015,30(12): 1227-1244.DOI:10.1002/int.21743.
[2]TANG L,NI Z.Applying overlapping community detection based on data field theory for twitt-er audiences classification[J].International Journal of u- and e- Service,Science and Technology, 2015,8(5): 23-26.DOI:10.14257/ijunesst.2015.8.5.03.
[3]周小平,梁循,張海燕.基于R-C模型的微博用戶社區(qū)發(fā)現(xiàn)[J].軟件學(xué)報(bào),2014,25(12): 2808-2823.DOI:10.13328/j.cnki.jos.004720.
ZHOU Xiaoping,LIANG Xun,ZHANG Haiyan.User community detection on micro-blog using R-C model[J].Journal of Software,2014,25(12):2808-2823.DOI:10.13328/j.cnki.jos.004720.
[4]于洪濤, 崔瑞飛, 黃瑞陽.鏈接相似性的微博重疊社區(qū)發(fā)現(xiàn)算法[J].小型微型計(jì)算機(jī)系統(tǒng), 2015, 36(5): 928-933.
YU Hongtao,CUI Ruifei,HUANG Ruiyang.Link-based similarity micro-blog overlapping community detecting algorithm[J].Journal of Chinese Computer Systems,2015,36(5):928-933.
[5]QI G J,AGGARWAL C C,HUANG T.Community detection with edge content in social media networks[C]//Data Engineering (ICDE),2012 IEEE 28th International Conference on IEEE,2012: 534-545.DOI:10.1109/ICDE.2012.77.
[6]苑彬成,方曙,劉清,等.國內(nèi)外引文分析研究進(jìn)展綜述[J].情報(bào)科學(xué),2010,28(1): 147-153.
YUAN Bincheng,F(xiàn)ANG Shu,LIU Qing,et al.Overview on progress in citation analysis at home and abroad[J].Information Science,2010,28(1):147-153.
[7]FANG Y,ROUSSRAU R.Lattices in citation networks: An investigation into the structure of citation graph[J].Scientometrics,2001,50(2): 273-287.DOI:10.1023/A:1010573723540.
[8]SMALL H,GRIFFITH B C.The structure of scientific literatures I: Identifying and graphing specialties[J].Science Studies,1974:4(1) 17-40.DOI:10.1177/030631277400400102.
[9]KESSLER M M.Bibliographic coupling between scientific papers[J].American documentation,1963,14(1): 10-25.DOI:10.1002/asi.5090140103.
[10]馬瑞敏,倪超群.作者耦合分析: 一種新學(xué)科知識(shí)結(jié)構(gòu)發(fā)現(xiàn)方法的探索性研究[J].中國圖書館學(xué)報(bào),2012,38(3):4-11.DOI:10.13530/j.cnki.jlis.2012.02.002.
MA Ruimin,NI Chaoqun.Author coupling analysis:an exploratory study on a new approach to discover intellectual structure of a discipline[J].Journal of Library Science in China,2012,38(3):4-11.DOI:10.13530/ j.cnki.jlis.2012.02.002.
[11]BLONDEL V D,GUILLAUME J L,LAMBIOTTE R, et al.Fast unfolding of communities in large networks[J].Journal of Statistical Mechanics: Theory and Experiment,2008:30(2):155-168.DOI:10.1088/1742-5468/2008/10/P10008.
[12]NEWMAN M E J,GIRVAN M.Finding and evaluating community structure in networks[J].Physical Review E,2004,69(2): 026113.DOI:10.1103/PhysRevE.69.026113.
(責(zé)任編輯:孟素蘭)
A micro-blogging community discovery method based on user’s interactions
XU Jianmin1,LI Tengfei1,WU Shufang2
(1.College of Computer Science and Technology,Hebei University,Baoding 071002,China;2.College of Management,Hebei University,Baoding 071002,China)
By investigating the structure of micro-blogging and user’s communication mode,a micro-blogging community discovery method based on user’s interactions was presented.User’s interactions in micro-blogging are analyzed by referring to author cross citation and author coupling citation in citation analysis.Considering different interactions reflect different interests in micro-blogging articles,this paper sets different weights for different interactions and proposes a new calculation method of user’s similarity based on interactions that is used to divide micro-blogging community.Experimental results show that the proposed method can effectively perform community discovery.
micro-blogging community;community discovery;citation analysis;user’s interactions;user’s similarity
10.3969/j.issn.1000-1565.2016.02.014
2015-12-07
河北省自然科學(xué)基金資助項(xiàng)目(F2015201142);河北省教育廳青年基金資助項(xiàng)目(QN2015099);河北省社會(huì)科學(xué)基金資助項(xiàng)目(HB15TQ013);河北省社會(huì)科學(xué)基金課題(HB15SH064)
徐建民(1966-),男,河北邯鄲人,河北大學(xué)教授,博士,主要從事信息檢索、不確定信息處理方向研究.
E-mail:84887613@qq.com
吳樹芳(1979-),女,河北邯鄲人,河北大學(xué)副教授,博士,主要從事信息檢索、不確定信息處理方向研究.
E-mail:598704274@qq.com
TP391
A
1000-1565(2016)02-0189-08