錢蕓蕓,楊文忠,姚 苗,李海磊,柴亞闖
1.新疆大學 信息科學與工程學院,烏魯木齊830046
2.新疆大學 軟件學院,烏魯木齊830046
現(xiàn)今社會存在許多復雜網(wǎng)絡,如社交網(wǎng)絡、科技文獻合著網(wǎng)絡等,都具有明顯的社區(qū)結(jié)構(gòu)。在社區(qū)中人們進行資源共享、興趣互動以及信息傳播,帶來數(shù)據(jù)爆炸式增長,給在復雜網(wǎng)絡中挖掘有效信息并針對特定群體應用分析的任務帶來了巨大的挑戰(zhàn)。為此,有許多主題社區(qū)的挖掘方法被提出。Kim等[1]提出了在線社區(qū)中用戶特征的主題建模方法。Henry等[2]使用貝葉斯模型在動態(tài)文本網(wǎng)絡中進行社區(qū)發(fā)現(xiàn)和主題建模。Ye等[3]采用標簽傳播算法發(fā)現(xiàn)社區(qū),然后跟蹤主題的演化。黃琳凱[4]關聯(lián)知識圖譜挖掘主題社區(qū)。Yang等[5]利用關鍵圖和社區(qū)劃分檢測主題。Jin等[6]在含時間信息的網(wǎng)絡上結(jié)合模張量檢測社區(qū)。
目前普遍認為良好的社區(qū)結(jié)構(gòu)是同一社區(qū)節(jié)點鏈接緊密,不同社區(qū)節(jié)點鏈接稀疏?;诖?,針對主題社區(qū)的挖掘,多基于簡單的鏈接關系和文本信息或在已有社區(qū)上挖掘主題,前者忽略了社區(qū)內(nèi)節(jié)點成員之間的主題相似性,后者分離了主題與社區(qū)的概念,因而挖掘的主題社區(qū)質(zhì)量并不高。此外,真實網(wǎng)絡中往往不同社區(qū)也可能討論同一主題,只是兩個社區(qū)間可能鏈接稀疏或不存在鏈接關系因而應被劃分成同一主題的不同社區(qū)。
針對以上存在問題,本文致力于充分利用節(jié)點文本語義信息,將其轉(zhuǎn)化為邊權(quán)重以劃分社區(qū),并使用新的主題計算方法從社區(qū)層面語義得到潛在的社區(qū)主題。由此挖掘的主題社區(qū),在主題提取和社區(qū)劃分階段均用到語義信息,并且在不分離兩者概念的前提下,保證了主題和社區(qū)的緊密性和相關性。
近年來,主題社區(qū)挖掘在國內(nèi)外均受到廣泛關注,主要分為兩種方法:一是基于鏈接關系和文本信息挖掘主題社區(qū),二是在已劃分社區(qū)基礎上挖掘主題。
賀超波等[7]集成鏈接和屬性信息,結(jié)合非負矩陣分解模型以獲得節(jié)點與社區(qū)歸屬關系矩陣、屬性與社區(qū)關聯(lián)矩陣,保證了社區(qū)成員鏈接結(jié)構(gòu)的緊密度。實驗表明該方法適合用于挖掘復雜網(wǎng)絡中的主題社區(qū)及重疊社區(qū)。何翔等[8]結(jié)合鏈接關系及文本內(nèi)容挖掘微博中的主題社區(qū),同時創(chuàng)造性地融入了領袖發(fā)現(xiàn)、文本分類等鏈接分析技術(shù)。但該模型實驗結(jié)果的好壞依賴于領域分類器的性能。針對傳統(tǒng)社區(qū)挖掘注重鏈接關系而忽略內(nèi)容信息的不足,徐彬等[9]利用LDA主題模型,通過計算用戶間的主題相關性,重新定義用戶鏈接關系,最后進行社區(qū)劃分。該方法雖然考慮了內(nèi)容信息,但改變了原有鏈接關系不符合真實網(wǎng)絡。針對傳統(tǒng)方法沒有考慮用戶社會信息的限制,閆光輝等[10]提出了綜合鏈接和主題的社區(qū)發(fā)現(xiàn)算法。定義了鏈接和主題相關度,用改進后的標簽傳播算法對用戶分類以劃分興趣相似且聯(lián)系緊密的社區(qū)。鄭偉濤等[11]提出一種結(jié)合鏈接關系和用戶興趣分析的社區(qū)發(fā)現(xiàn)方法。但其認為用戶有共同興趣即使沒有鏈接關系也應被分到同一社區(qū)不符合真實網(wǎng)絡。王衛(wèi)平等[12]綜合網(wǎng)絡結(jié)構(gòu)和節(jié)點內(nèi)容提出基于主題相似性和網(wǎng)絡結(jié)構(gòu)的社區(qū)發(fā)現(xiàn)方法。該方法挖掘的社區(qū)內(nèi)節(jié)點相似度高,社區(qū)間相似度低,但真實網(wǎng)絡中不同社區(qū)可能討論相同話題。
由于CPM(Clique Percolation Method)算法對社區(qū)定義過于嚴格,得到的社區(qū)規(guī)模較小,Chen等[13]引入結(jié)構(gòu)相似度和屬性相似度對CPM算法得到的社區(qū)進行合并解決了社區(qū)規(guī)模小的問題,但合并過程不符合實際社區(qū)的定義。歐衛(wèi)等[14]基于文檔間并不相互獨立的假設改進LDA模型使其模擬社交網(wǎng)絡中關系的生成過程來挖掘主題社區(qū),實驗結(jié)果證明了用戶興趣存在級聯(lián)現(xiàn)象的假設。Zhang等[15]提出了一種集網(wǎng)絡結(jié)構(gòu)、文本和時間為一體的動態(tài)主題社區(qū)檢測方法,實現(xiàn)了主題社區(qū)隨時間變化的演化過程。Yin等[16]將鏈接和內(nèi)容信息映射成文本關聯(lián)圖,將社區(qū)發(fā)現(xiàn)過程變成文本關聯(lián)圖的主題分析過程,保證主題的一致性,分離了社區(qū)和主題的概念,但往往社區(qū)和主題是相互作用的。Wang等[17]基于Infomap算法劃分社區(qū),在已劃分社區(qū)基礎上通過社區(qū)中用戶tweet信息,利用LDA模型得到用戶主題,并用距離來量化單個用戶、團體和社區(qū)的主題相似性。秦春秀等[18]提出P2P主題社區(qū)發(fā)現(xiàn)模型,基于給定社區(qū)主題及相關本體知識,然后通過衡量P2P中對等節(jié)點知識地圖的類別概念樹與社區(qū)主題概念樹的內(nèi)容相似度來識別社區(qū)成員。Aktunc等[19]通過修改已知的靜態(tài)社區(qū)檢測算法,提出了動態(tài)模塊度優(yōu)化框架。Blondel等[20]基于模塊度劃分社區(qū)的方法進行優(yōu)化試圖最大化模塊度以得到最優(yōu)社區(qū)劃分,Louvain算法是其具體實現(xiàn)。
以上方法部分彌補了傳統(tǒng)社區(qū)發(fā)現(xiàn)方法中單一考慮鏈接結(jié)構(gòu)的不足,但都只是把語義信息用在提取主題上,再進行社區(qū)劃分,因此得到的主題社區(qū)結(jié)果不理想。目前方法還不能夠?qū)⒅黝}挖掘和社區(qū)劃分二者緊密結(jié)合,針對以上不足,本文提出一種融合主題相似度權(quán)重的主題社區(qū)發(fā)現(xiàn)模型。不僅將語義信息用在社區(qū)劃分上,還將其用在計算社區(qū)潛在主題上。主要將語義信息轉(zhuǎn)化為鏈接權(quán)重以影響社區(qū)劃分結(jié)果,根據(jù)劃分結(jié)果,再綜合社區(qū)內(nèi)節(jié)點語義計算得到潛在主題。
LDA(Latent Dirichlet Allocation)[21]是一種主題生成模型,被用來識別文檔集或語料庫中潛在的主題。LDA主要任務是識別主題,即把文檔-詞匯矩陣變成文檔-主題矩陣(分布)和主題-詞匯矩陣(分布)。
文檔集合D中的每個文檔d都可以看做一個單詞序列,詞與詞之間無先后順序。此外,一篇文檔可以包含多個主題,文檔中每個詞都由其中一個主題生成。LDA找到文檔的主題分布以及主題的詞分布,將文檔的主題以概率分布的形式給出。
常用于相似性度量的函數(shù)有歐氏距離、曼哈頓距離、切比雪夫距離、夾角余弦距離等,但這些距離函數(shù)都要求樣本屬性對稱,不便于度量非對稱二元屬性的樣本集合相似度。Jaccard系數(shù)[22]統(tǒng)計兩個樣本包含的共同特征個數(shù),主要應用于計算文本相似度,如式(1)所示,被定義為兩個集合的交集大小與兩個集合并集大小的比值,取值在[0,1]之間。
Jaccard系數(shù)越大,表示樣本的相似度越高。與Jaccard系數(shù)相反的度量函數(shù)即為Jaccard距離。Jaccard距離用于描述集合間的不相似程度,Jaccard距離越大,樣本相似度越低。
模塊度(Modularity)[23]也被稱為模塊化度量值,常被用來衡量網(wǎng)絡社區(qū)結(jié)構(gòu)強度,最早由Newman提出。當網(wǎng)絡為無向無權(quán)圖時,模塊度定義如下:
其中,m表示網(wǎng)絡中邊的總數(shù),∑表示遍歷所有的頂點i和j,Aij代表網(wǎng)絡中節(jié)點i和j的邊數(shù),ki和kj分別表示網(wǎng)絡中節(jié)點i和節(jié)點j的度數(shù),Ci表示節(jié)點i所屬的社區(qū),當節(jié)點i和節(jié)點j屬于同一個社區(qū)時,δ函數(shù)值為1,否則為0。當網(wǎng)絡為無向帶權(quán)圖時,模塊度函數(shù)定義如下:
式(3)與式(2)的區(qū)別有三,一是W代替了m,這里W是整個網(wǎng)絡所有邊的權(quán)值之和。二是Wij代替了Aij,這里Wij表示節(jié)點i與j之間的邊權(quán)值,可以取任何表示邊權(quán)值的非負值。第三是sisj代替了公式(2)中的kikj,si和sj分別表示鏈接到頂點i和頂點j的邊的權(quán)值之和。
模塊度的取值取決于網(wǎng)絡中節(jié)點的社區(qū)分配,即整個網(wǎng)絡社區(qū)的劃分情況,模塊度值一般用來衡量社區(qū)的劃分質(zhì)量,值越接近1,表示劃分出的社區(qū)結(jié)構(gòu)強度越強,劃分質(zhì)量越好,因此,可以通過最大化模塊度得到最優(yōu)的社區(qū)劃分。
融合主題相似度權(quán)重的主題社區(qū)發(fā)現(xiàn)模型核心任務是從包含直接鏈接關系以及文本內(nèi)容的網(wǎng)絡中提取節(jié)點主題,計算節(jié)點間主題相似度并轉(zhuǎn)化為權(quán)重,然后在包含主題相似度語義的帶權(quán)圖上利用模塊度劃分社區(qū),最后根據(jù)本文提出的社區(qū)主題計算方法得到社區(qū)潛在主題。圖1為TSWTCD模型框架,主要分為三部分:數(shù)據(jù)處理模塊、主題相似度權(quán)重生成模塊、社區(qū)主題生成模塊。
圖1 TSWTCD模型框架
3.1.1 數(shù)據(jù)處理模塊
數(shù)據(jù)處理模塊的主要任務是對數(shù)據(jù)集進行預處理。首先根據(jù)正則表達式匹配節(jié)點標識信息,如姓名。然后正則表達式匹配節(jié)點標識得到每個節(jié)點對應的文本內(nèi)容。最后根據(jù)關注信息或引用信息或評論信息得到每個節(jié)點的直接鏈接關系。為簡化模型,在處理鏈接關系時對其去重得到網(wǎng)絡中的無向邊。
在對數(shù)據(jù)集進行預處理以后得到節(jié)點標識、節(jié)點文本內(nèi)容以及直接鏈接關系等信息。文本內(nèi)容為下一步提取節(jié)點主題做準備,鏈接關系構(gòu)成初始網(wǎng)絡結(jié)構(gòu),這時的網(wǎng)絡是一個整體,還不具有社區(qū)特征。
3.1.2 主題相似度權(quán)重生成模塊
主題相似度權(quán)重生成模塊的主要任務是提取節(jié)點的主題生成主題詞袋,由節(jié)點主題和詞袋得到主題特征集合以計算節(jié)點間主題相似度權(quán)重。首先利用LDA模型基于節(jié)點文本內(nèi)容提取節(jié)點主題Ti(t1,t2,…,ts),綜合所有節(jié)點的主題并去重,然后給每個主題賦予唯一標識得到主題詞袋TW{t1:1,t2:2,…,tm:m},每個編號代表唯一的一個主題。然后綜合節(jié)點主題和主題詞袋得到可以代表節(jié)點主題的特征集合Mu(1,2,…,m),每個編號代表一個主題,編號按升序排序。最后采用Jaccard系數(shù)計算節(jié)點間主題相似度值作為鏈接權(quán)重Weightuv,取值在(0,1]之間,如公式(4):
其中,Mi表示第i個節(jié)點的主題特征集合。Jaccard(Mu,Mv)表示節(jié)點u和節(jié)點v的主題相似度,衡量兩個節(jié)點對相同話題感興趣的程度,值越大表示感興趣的話題越相似。遍歷網(wǎng)絡中的每條邊,通過以上計算得出所有邊的權(quán)值。
3.1.3 社區(qū)主題生成模塊
社區(qū)主題生成模塊的主要任務是劃分社區(qū)并生成每個社區(qū)的主題。首先利用帶權(quán)模塊度函數(shù)對網(wǎng)絡進行社區(qū)劃分,然后根據(jù)提出的社區(qū)主題計算方法計算每個社區(qū)對各主題的相似度,其值表示社區(qū)為該主題的可能性大小,具體計算方法如公式(5),最后取最大值對應的主題作為該社區(qū)的主題(公式(6)),對所有社區(qū)做以上計算,最終得出每個社區(qū)的社區(qū)主題。
其中,CTSij為第i個社區(qū)的主題是tj的可能性,i表示社區(qū)編號,j表示主題編號。Ci表示第i個社區(qū),Jaccard(Mn,Mj)為社區(qū)中第n個節(jié)點的主題和主題詞袋中第j個主題的相似度。CTi為第i個社區(qū)的主題,選擇使CTSij達到最大值的j對應的主題。
為驗證在不同情況下TSWTCD模型的有效性,本文實驗數(shù)據(jù)集選取鏈接結(jié)構(gòu)緊密的DBLP文獻合作網(wǎng)絡(https://dblp.uni-trier.de/)以及鏈接結(jié)構(gòu)稀疏的Cora引文網(wǎng)絡(https://linqs-data.soe.ucsc.edu/public/lbc/cora.tgz)。
(1)DBLP數(shù)據(jù)集
實驗篩選了從2015年至今在幾個領域上發(fā)表的一些學術(shù)論文。這幾個領域包括CN(計算機網(wǎng)絡)、AI&PR(人工智能與模式識別)、N&IS(網(wǎng)絡與信息安全)、SE(軟件工程)、DB(數(shù)據(jù)庫)。
在DBLP數(shù)據(jù)集中,作者作為網(wǎng)絡中的節(jié)點,作者間的合著關系作為邊,若作者A與B存在合著關系,相應地在A與B之間生成一條無向邊,作者發(fā)表的文章標題作為節(jié)點的文本內(nèi)容。數(shù)據(jù)集中包含1 873個節(jié)點,7 474條邊。
(2)Cora數(shù)據(jù)集
Cora數(shù)據(jù)集為機器學習類的引文網(wǎng)絡,由基于案例、遺傳算法、神經(jīng)網(wǎng)絡、概率方法、強化學習、規(guī)則學習、理論7類論文組成。每篇論文都有唯一的編號,作為網(wǎng)絡中的節(jié)點,論文之間的引用關系作為網(wǎng)絡中的邊,若論文A引用了論文B,則A與B之間生成一條無向邊。Cora引文網(wǎng)絡中共有2 708個節(jié)點,5 429條邊。
本文引用社區(qū)Density(鏈接密度)以及社區(qū)Entropy(信息熵)[24]綜合度量主題社區(qū)的質(zhì)量,兩者分別定義如下:
其中,k為社區(qū)編號,m為主題編號,vi表示節(jié)點i,cj表示第j個社區(qū),E為邊集合,V為節(jié)點集合。entropy(ai,cj)=-pijlbpij,pij為社區(qū)j中節(jié)點具有主題ai的比例。Density代表一個社區(qū)內(nèi)節(jié)點鏈接的緊密程度,Entropy代表一個社區(qū)內(nèi)節(jié)點主題的不一致性。前者度量社區(qū)質(zhì)量,后者衡量主題質(zhì)量,因此Density值越大,Entropy值越小說明主題社區(qū)質(zhì)量越好。
4.3.1 TSWTCD模型節(jié)點主題
在DBLP數(shù)據(jù)集上進行實驗,經(jīng)過多次實驗比較確定將主題個數(shù)m定為5最合適,此時主題與詞相關性較強,LDA主題-詞分布結(jié)果如表1所示。
表1 主題-詞分布
從每個主題下概率最大的幾個詞進行分析,可以發(fā)現(xiàn)LDA提取的主題與詞相關性較強。如CN主題下都是計算機網(wǎng)絡領域內(nèi)的一些專用名詞,包括緩存、無線、延遲等詞匯,還有N&IS主題下的詞分布為加密、安全、密鑰等都是與信息安全領域相關的。
綜合上述主題-詞分布的結(jié)果生成主題詞袋為:TW{CN:1,DB:2,AI&PR:3,N&IS:4,SE:5}。
Cora引文網(wǎng)絡為標準分類的數(shù)據(jù)集,因此主題詞袋為:TW{基于案例:1,遺傳算法:2,神經(jīng)網(wǎng)絡:3,概率方法:4,強化學習:5,規(guī)則學習:6,理論:7}。
4.3.2 TSWTCD模型社區(qū)主題
根據(jù)節(jié)點主題特征集合計算節(jié)點間的主題相似度作為邊權(quán)重,然后利用帶權(quán)模塊度劃分社區(qū)。基于DBLP網(wǎng)絡劃分的社區(qū)結(jié)果如圖2(a)所示,共得到23個社區(qū),社區(qū)規(guī)模有大有小,以不同顏色區(qū)分不同社區(qū)。Cora網(wǎng)絡劃分的社區(qū)最小規(guī)模為1,這是由于鏈接結(jié)構(gòu)稀疏導致的,這些社區(qū)相對于整體的影響是極小的。因此,為便于觀察,本文篩選了規(guī)模大于15的社區(qū)進行分析,基于Cora引文網(wǎng)絡的社區(qū)劃分結(jié)果如圖2(b)所示,共得到27個社區(qū)。
對于劃分后的每個社區(qū),采用提出的社區(qū)主題計算方法,得到每個社區(qū)主題及對應主題相似度值,結(jié)果如圖3所示。橫坐標表示每個社區(qū)的主題在主題詞袋中對應的標識;縱坐標表示社區(qū)主題相似度值,描述社區(qū)中節(jié)點主題的一致性強度。
從圖3(a)可以看出,DBLP網(wǎng)絡得到的社區(qū)中,主題為CN、SE、AI&PR的社區(qū)各有5個;主題為DB、N&IS的社區(qū)各有4個。社區(qū)對應主題相似度值均大于0.97,說明社區(qū)內(nèi)節(jié)點成員主題高度一致。社區(qū)在相應主題下的主題相似度值沒有達到1是由于DBLP網(wǎng)絡中節(jié)點的主題不唯一,一部分成員可能對其他主題也感興趣從而產(chǎn)生對其他主題的相似度。
圖2 社區(qū)劃分圖
圖3 社區(qū)-主題相似度
從圖3(b)可以看出,Cora網(wǎng)絡得到的社區(qū)中,基于案例的社區(qū)有3個;主題為遺傳算法、規(guī)則學習、理論的社區(qū)各有2個;主題為神經(jīng)網(wǎng)絡的社區(qū)有12個;主題為概率方法的社區(qū)有5個,主題為強化學習的社區(qū)有1個。社區(qū)對應主題相似度值均為1,這是由于Cora網(wǎng)絡中每個節(jié)點有唯一的主題,因此只要基于語義權(quán)重正確劃分社區(qū),就不存在信息熵的干擾。
本文選取Wang等人論文中采用的Infomap劃分社區(qū)方法與Blondel提出的Louvain社區(qū)發(fā)現(xiàn)算法做對比實驗并分析結(jié)果。前者基于Infomap劃分社區(qū),然后在已劃分社區(qū)基礎上提取社區(qū)主題。后者試求最大化模塊度值以得到最優(yōu)社區(qū)劃分。
以下主要從Density-Entropy值、社區(qū)-節(jié)點主題相關性、社區(qū)-節(jié)點主題分布三方面做對比分析。
4.4.1 Density-Entropy值
在不同數(shù)據(jù)集上用不同方法挖掘的主題社區(qū)Density-Entropy值如圖4所示。
圖4 Density-Entropy
從圖4(a)可以看出,由于Infomap和Louvain直接根據(jù)網(wǎng)絡結(jié)構(gòu)劃分社區(qū),因此Density值高,但其既未融合語義也未考慮權(quán)重,而是在社區(qū)基礎上單獨提取主題,因而Entropy值也高。TSWTCD模型在劃分社區(qū)時就融合語義并轉(zhuǎn)化為權(quán)重,又從社區(qū)語義計算得到社區(qū)主題,相互作用得到的結(jié)果最為理想。
從圖4(b)觀察到當網(wǎng)絡鏈接稀疏時三種模型的Density值相差不大,但Entropy值相差很多。Louvain劃分的主題社區(qū)Entropy值甚至超過了13,這說明社區(qū)內(nèi)節(jié)點成員的主題一致性非常低,而TSWTCD模型劃分的主題社區(qū)Entropy值為0,說明社區(qū)內(nèi)節(jié)點成員的主題高度一致。
4.4.2 社區(qū)-節(jié)點主題相關性
每個節(jié)點都有其所屬社區(qū),但社區(qū)的主題與節(jié)點成員所感興趣主題是否真相關是劃分社區(qū)并確定主題后需要進一步考慮的問題。主題社區(qū)中的節(jié)點由真相關節(jié)點與假相關節(jié)點組成,真相關節(jié)點是其主題包含社區(qū)主題的節(jié)點,假相關節(jié)點是其主題與社區(qū)主題毫不相關卻被劃分到該社區(qū)的節(jié)點。因此采用社區(qū)與節(jié)點成員主題相關性來衡量主題社區(qū)質(zhì)量的優(yōu)劣,社區(qū)中真相關性節(jié)點數(shù)量越接近社區(qū)節(jié)點數(shù)量,表明該主題社區(qū)質(zhì)量越好。在兩個數(shù)據(jù)集上基于不同方法得到的社區(qū)-節(jié)點主題相關性如圖5、圖6所示。圖中藍色線表示主題社區(qū)的節(jié)點數(shù)量,橘色線表示相應社區(qū)中與社區(qū)主題真相關的節(jié)點數(shù)量。
圖5 基于DBLP的社區(qū)-節(jié)點主題相關性對比
從圖5(a)可以明顯看出在DBLP網(wǎng)絡上,TSWTCD劃分的主題社區(qū)中所有節(jié)點與其所在社區(qū)主題接近完全擬合。而Infomap劃分的14個社區(qū)中,第2、3社區(qū)中有小部分甚至近一半的節(jié)點主題與所在社區(qū)主題假相關,第4、5、6社區(qū)中有極少量節(jié)點與所在社區(qū)主題是假相關的。Louvain劃分的社區(qū)中第1個社區(qū)有一部分節(jié)點與所在社區(qū)主題假相關,第2、7社區(qū)中也有極少量節(jié)點是假相關的。這表示當網(wǎng)絡鏈接結(jié)構(gòu)緊密時本文方法挖掘的主題社區(qū)質(zhì)量優(yōu)于其他兩種方法得到的社區(qū)。
圖6 基于Cora的社區(qū)-節(jié)點主題相關性對比
從圖6(a)可以看出,在Cora引文網(wǎng)絡上,TSWTCD方法劃分的主題社區(qū)中所有節(jié)點成員與其所在社區(qū)主題完全擬合。而Infomap得到的結(jié)果只有13、14社區(qū)完全擬合,第1個社區(qū)中的真相關節(jié)點不足社區(qū)規(guī)模的三分之一。Louvain得到的結(jié)果只有6、10、23社區(qū)完全擬合。這表明當網(wǎng)絡鏈接結(jié)構(gòu)稀疏時,本文方法依然能夠很好地劃分主題社區(qū),且在節(jié)點主題唯一時,效果比較其他兩種方法更明顯。
4.4.3 社區(qū)-節(jié)點主題分布
在兩個不同數(shù)據(jù)集上,對于Infomap和Louvain方法所劃分的主題社區(qū),各選取假相關節(jié)點較多的幾個社區(qū),對社區(qū)節(jié)點成員的主題分布做了進一步分析,結(jié)果如圖7、圖8所示,橫坐標表示社區(qū)編號及其主題,縱坐標表示社區(qū)的節(jié)點數(shù)量。
圖7 DBLP-社區(qū)成員主題分布
圖8 Cora-社區(qū)成員主題分布
圖7 (a)可以看到,在鏈接結(jié)構(gòu)緊密且節(jié)點主題不唯一的DBLP網(wǎng)絡上,Infomap劃分的第2社區(qū)中,僅有173個節(jié)點與其所在社區(qū)主題真相關,還有164個主題為SE的假相關節(jié)點;第3個社區(qū)中包含55個主題為CN的假相關節(jié)點。圖7(b)中Louvain劃分的第1個社區(qū)包含79個主題為SE的假相關節(jié)點,第2個社區(qū)也存在少量主題為CN和DB的假相關節(jié)點。
圖8 (a)可以看到,在鏈接結(jié)構(gòu)稀疏且節(jié)點主題唯一的Cora網(wǎng)絡上,Infomap方法得到的主題社區(qū)并不理想。3個社區(qū)中的節(jié)點主題混雜且高度不一致,這導致了其Entropy值很高。第1個社區(qū)中真相關節(jié)點僅有150個,甚至不到其社區(qū)規(guī)模的三分之一,而假相關節(jié)點在其他6個主題都有占比。圖8(b)中Louvain方法得到的社區(qū)同樣如此,第1個社區(qū)中真相關節(jié)點僅占其社區(qū)規(guī)模的四分之一,但由于總體社區(qū)規(guī)模較小,因此其Entropy值沒有Infomap高。
另外,將以上假相關節(jié)點較多的社區(qū)綜合其主題社區(qū)網(wǎng)絡拓撲圖分析發(fā)現(xiàn),Infomap和Louvain方法僅適用于社區(qū)間界限清晰的情況,即社區(qū)內(nèi)鏈接緊密社區(qū)間鏈接稀疏或社區(qū)間沒有鏈接時劃分效果較好,一旦社區(qū)間界限模糊鏈接較密就會被劃分到同一社區(qū)而不管其主題是否相同。這是由于兩種方法都分離了主題和社區(qū)的概念,先社區(qū)后主題的思想與主題社區(qū)概念本身不符,因此挖掘的主題社區(qū)質(zhì)量不高。在結(jié)合不同數(shù)據(jù)集上的實驗發(fā)現(xiàn),當節(jié)點主題唯一時,Infomap和Louvain方法的弊端表現(xiàn)得更為明顯。
本文方法一方面以鏈接關系為主,另一方面以主題相似度權(quán)重為輔,融合語義劃分社區(qū),并基于社區(qū)中語義提取主題。因此,無論是在網(wǎng)絡鏈接結(jié)構(gòu)稀疏的情況下,還是在鏈接結(jié)構(gòu)緊密但社區(qū)間界限不清晰的情況下TSWTCD都可以得到社區(qū)內(nèi)鏈接緊密且節(jié)點成員主題高度一致的高質(zhì)量主題社區(qū)。
網(wǎng)絡中潛在的虛擬社區(qū)是真實社會人際關系的映射,而隱含的語義信息則代表社區(qū)的主題,挖掘主題社區(qū)有助于對特定團體興趣行為進行分析繼而做出相應的商業(yè)化市場推廣。傳統(tǒng)挖掘方法未充分利用語義信息,將主題社區(qū)任務分割成主題挖掘和社區(qū)劃分兩個子任務從而忽略了兩者相互作用關系,因此挖掘結(jié)果不理想。本文的主要工作是,針對傳統(tǒng)方法的不足,圍繞挖掘社區(qū)內(nèi)部聯(lián)系緊密且成員話題相似度高的主題社區(qū)方法給出新的思路。TSWTCD模型基于主題相似度權(quán)重,即語義權(quán)重劃分社區(qū)的同時從社區(qū)語義層面提出新的社區(qū)主題計算方法以達到對主題社區(qū)的高質(zhì)量挖掘。由于現(xiàn)實中的網(wǎng)絡錯綜復雜,很多節(jié)點成員具有多個主題且對每個主題偏好程度不同,這會影響節(jié)點的社區(qū)劃分結(jié)果,本文方法沒有考慮到這一因素。因此在下一階段的工作中,本文將重點研究融合主題偏好程度的主題社區(qū)挖掘問題。