摘 要:局部多重社區(qū)發(fā)現(xiàn)是社交網(wǎng)絡分析中的關(guān)鍵技術(shù),旨在揭示網(wǎng)絡中用戶的多重歸屬和復雜聯(lián)系。針對現(xiàn)有局部多重社區(qū)發(fā)現(xiàn)算法大多基于網(wǎng)絡拓撲結(jié)構(gòu),忽視節(jié)點屬性信息的問題,提出了融合節(jié)點屬性的局部多重社區(qū)發(fā)現(xiàn)算法(MLCDINA)。該算法將屬性網(wǎng)絡的結(jié)構(gòu)和屬性信息相結(jié)合為節(jié)點對之間的邊權(quán)重,并通過隨機游走評估節(jié)點間結(jié)構(gòu)和屬性的融合重要性(IISA)。此外,該算法引入了考慮邊權(quán)重的局部聚類系數(shù)和親密度隨機游走(IRW),以增強對子圖稠密性和IISA的評估。實驗結(jié)果表明,MLCDINA在真實屬性網(wǎng)絡上的Jaccard F1-score較現(xiàn)有算法有顯著提升,驗證了其在局部多重社區(qū)發(fā)現(xiàn)任務中的有效性。
關(guān)鍵詞:局部社區(qū)發(fā)現(xiàn);屬性網(wǎng)絡;隨機游走
中圖分類號:O157.5"" 文獻標志碼:A"" 文章編號:1001-3695(2025)01-006-0042-06
doi: 10.19734/j.issn.1001-3695.2024.06.0190
Multiple local community detection with integrated node attributes
Abstract: Multiple local community detection is a key technology in social network analysis, aiming to reveal the multiple affiliations and complex connections of users within networks. Addressing the issue that most existing multiple local community detection algorithms are based on network topology and neglect node attribute information, this paper introduced an algorithm named multiple local community detection with integrated node attributes (MLCDINA). This algorithm combined the structure and attribute information of the attributed network to determine the edge weights between node pairs and evaluated the importance of the integration of structure and attributes (IISA) through random walks. In addition, the algorithm introduced a local clustering coefficient that considered edge weights and an intimacy random walk (IRW) to enhance the evaluation of subgraph density and IISA. Experimental results indicate that MLCDINA significantly improves the Jaccard F1-score over existing algorithms on real attributed networks, verifying its effectiveness in multiple local community detection tasks.
Key words:local community detection; attributed network; random walk
0 引言
局部多重社區(qū)發(fā)現(xiàn)對于社交網(wǎng)絡研究具有重要意義。局部多重社區(qū)發(fā)現(xiàn)方法能夠揭示節(jié)點所屬的多個緊密聯(lián)系和共同興趣的群體,這些社區(qū)可能具有不同的特征和功能,不僅有助于了解社交網(wǎng)絡的功能及演化過程,而且在推薦系統(tǒng)、輿情監(jiān)測等多個領域也顯示出其獨特價值[1,2]。
局部多重社區(qū)發(fā)現(xiàn)[3~10]是局部社區(qū)發(fā)現(xiàn)的一個擴展,聚焦于發(fā)現(xiàn)網(wǎng)絡中的重疊社區(qū)結(jié)構(gòu),即一個節(jié)點可以同時屬于多個社區(qū),這種方法在分析社交網(wǎng)絡時尤為重要,因為它更準確地模擬了現(xiàn)實世界中個體會同時參與多個社交群體的現(xiàn)象。
屬性網(wǎng)絡不僅包含節(jié)點與節(jié)點之間的拓撲關(guān)系,各個節(jié)點還擁有豐富的屬性信息,例如在社交網(wǎng)絡上對用戶的文字描述、與用戶相關(guān)的評論以及用戶特有的圖片等。合理地利用屬性信息可以彌補基于網(wǎng)絡拓撲結(jié)構(gòu)的局部多重社區(qū)發(fā)現(xiàn)方法的不足,有助于更精準地揭示用戶所屬的社區(qū)信息,擴展了局部多重社區(qū)發(fā)現(xiàn)方法的應用場景。
針對屬性網(wǎng)絡的全局社區(qū)發(fā)現(xiàn),眾多研究者已經(jīng)提出了許多基于不同思想和技術(shù)的方法[11~18],主要包括基于屬性加權(quán)的方法、基于嵌入表示的方法、基于元啟發(fā)式的方法、基于非負矩陣分解的方法等。其中,基于屬性加權(quán)的方法[11~15]是一類經(jīng)典的處理屬性網(wǎng)絡的方法,它利用節(jié)點屬性對網(wǎng)絡的邊賦予權(quán)重,得到加權(quán)圖后再進行聚類。
針對局部多重社區(qū)發(fā)現(xiàn)也已有大量研究[3~10],如基于種子集擴展的方法、基于k-clique的方法和基于非負矩陣分解的方法等。然而,這些研究聚焦于如何利用網(wǎng)絡拓撲結(jié)構(gòu)或節(jié)點拓撲性質(zhì)在網(wǎng)絡中挖掘局部社區(qū)結(jié)構(gòu),未考慮社交網(wǎng)絡中不同群體間用戶屬性存在較大差異這一特性,導致在社交網(wǎng)絡上發(fā)現(xiàn)的局部社區(qū)往往存在局限性。因此,針對社交網(wǎng)絡的局部多重社區(qū)發(fā)現(xiàn)問題,不僅需要考慮網(wǎng)絡拓撲結(jié)構(gòu),還要充分利用豐富的節(jié)點屬性信息以挖掘局部社區(qū)結(jié)構(gòu)。
HoSIM算法[5]是基于種子集擴展的方法中具有代表性的一種方法,其主要思想是基于節(jié)點的高階結(jié)構(gòu)重要性發(fā)現(xiàn)局部社區(qū)中的核心成員,并根據(jù)核心成員以及種子節(jié)點逐步擴展以發(fā)現(xiàn)局部社區(qū)。然而在研究社交網(wǎng)絡時,HoSIM算法[5]存在一些不足。基于網(wǎng)絡拓撲結(jié)構(gòu)評估節(jié)點重要性,未考慮節(jié)點屬性對節(jié)點重要性的影響;在隨機游走的子圖采樣過程中,基于局部聚類系數(shù)的子圖采樣策略在屬性網(wǎng)絡中得到結(jié)構(gòu)稠密但屬性相似程度較低的子圖,導致與種子節(jié)點屬性差異較大的節(jié)點可能獲得較高評分;主動隨機游走(active random walk,ARW)在評估節(jié)點重要性時,提高了與該節(jié)點直接相連的節(jié)點的重要性,導致邊緣節(jié)點也會獲得較高的重要性,影響局部社區(qū)中核心節(jié)點的識別。
針對上述問題,本文對HoSIM算法[5]進行了改進,提出了一種融合節(jié)點屬性的局部多重社區(qū)發(fā)現(xiàn)算法(MLCDINA)。主要的貢獻如下:
a)在隨機游走的采樣子圖中,將子圖的結(jié)構(gòu)信息和屬性信息融合后賦給節(jié)點對之間的邊權(quán)重,以衡量社交網(wǎng)絡中用戶之間的結(jié)構(gòu)和屬性的相似程度,以便后續(xù)隨機游走評估節(jié)點的結(jié)構(gòu)和屬性的融合重要性(IISA)評分。
b)提出了考慮邊權(quán)重的局部聚類系數(shù),以衡量節(jié)點的鄰居節(jié)點的相似程度以及聚集成團的程度,使得在隨機游走的子圖采樣過程中,得到的采樣子圖稠密且屬性相似度高。
c)在標準隨機游走的基礎上,考慮到社交網(wǎng)絡中用戶之間不同親密程度,提出了一種新的隨機游走變體,稱為親密度隨機游走(IRW)。在評估節(jié)點的結(jié)構(gòu)和屬性的融合重要性(IISA)評分時,降低了只與其相連的邊緣節(jié)點的重要性,能夠有效地度量節(jié)點的結(jié)構(gòu)和屬性的融合重要性(IISA)評分。
1 相關(guān)工作
1.1 局部多重社區(qū)發(fā)現(xiàn)算法
現(xiàn)有的局部多重社區(qū)發(fā)現(xiàn)方法主要是基于種子集擴展的、基于k-clique的和基于非負矩陣分解的方法。a)基于種子集擴展的方法。Hollocou等人[3]提出的Multicom通過種子集的得分函數(shù)對嵌入在低維向量空間中的網(wǎng)絡進行聚類,找到新的種子,然后將其擴展到多個社區(qū)。Liu等人[4]通過網(wǎng)絡表示找到高質(zhì)量種子,然后逐個擴展高質(zhì)量種子以獲得多個可能重疊的社區(qū)。Li等人[5]提出的HoSIM算法基于HoSI評估節(jié)點的重要性,以及主動隨機游走(ARW)來評估節(jié)點之間的HoSI分數(shù),并在此基礎上提出了包含子圖采樣、核心成員識別、局部社區(qū)發(fā)現(xiàn)三個階段的HoSIM算法來發(fā)現(xiàn)局部社區(qū)。Li等人[6]通過尋找包含種子節(jié)點的相關(guān)質(zhì)心節(jié)點來自動確定社區(qū)數(shù)量,并利用高質(zhì)量的種子集合來發(fā)現(xiàn)對應的社區(qū)。b)基于k-clique的方法。文獻[7,8]通過挖掘符合其結(jié)構(gòu)定義的特定子圖結(jié)構(gòu)進而發(fā)現(xiàn)局部社區(qū)。然而,基于k-clique的方法在發(fā)現(xiàn)社區(qū)時并不靈活,因為其發(fā)現(xiàn)的社區(qū)結(jié)構(gòu)必須符合它們的結(jié)構(gòu)定義。此外,k-clique的參數(shù)k在實際中很難確定,會顯著地影響結(jié)果。c)基于非負矩陣分解的方法。文獻[9,10]利用非負矩陣分解(non-negative matrix factorization,NMF)估計采樣子圖中的社區(qū)數(shù)目,并將節(jié)點分配到社區(qū)中,但這類方法并未充分利用網(wǎng)絡的結(jié)構(gòu)。這些方法依賴于節(jié)點的拓撲性質(zhì)或網(wǎng)絡的拓撲結(jié)構(gòu),并未針對社交網(wǎng)絡中的其他屬性信息進行整合利用。
1.2 屬性網(wǎng)絡社區(qū)發(fā)現(xiàn)算法
屬性網(wǎng)絡社區(qū)發(fā)現(xiàn)算法種類繁多,基于屬性加權(quán)的方法是其中一類經(jīng)典的處理屬性網(wǎng)絡的方法,主要思路是利用節(jié)點屬性對網(wǎng)絡的邊賦予權(quán)重,得到加權(quán)圖后再進行聚類。文獻[11]使用結(jié)構(gòu)和屬性相似性計算兩個連接節(jié)點之間的權(quán)重得到權(quán)重矩陣,再基于改進標簽傳播算法檢測社區(qū)。文獻[12]將節(jié)點的屬性和拓撲結(jié)構(gòu)相結(jié)合,從具有相互鏈接的節(jié)點的屬性圖中生成加權(quán)圖,在此基礎上根據(jù)擴散方法進行社區(qū)發(fā)現(xiàn)。Wang等人[13]提出了一種基于圖卷積網(wǎng)絡的無監(jiān)督學習方法,融合網(wǎng)絡拓撲和屬性信息來揭示隱藏的社區(qū)結(jié)構(gòu)。Hu等人[14]通過在加權(quán)圖上建模網(wǎng)絡結(jié)構(gòu)和節(jié)點屬性的高階模式來提升社區(qū)檢測的性能。Guo等人[15]提出了一種基于有偏隨機游走的網(wǎng)絡嵌入算法,設計拓撲加權(quán)度和屬性加權(quán)度來增強在社區(qū)內(nèi)外邊界處的隨機游走,以精確提取社區(qū)??梢钥闯觯趯傩约訖?quán)的方法展現(xiàn)出了良好的擴展性和適應性,并且具有計算復雜度較低等優(yōu)點。本文參考基于屬性加權(quán)方法的一般思路,將屬性網(wǎng)絡的結(jié)構(gòu)信息和屬性信息融合轉(zhuǎn)換為邊權(quán)重構(gòu)建加權(quán)圖后進行局部多重社區(qū)發(fā)現(xiàn)。
2 融合節(jié)點屬性的局部多重社區(qū)發(fā)現(xiàn)算法分析
融合節(jié)點屬性的局部多重社區(qū)發(fā)現(xiàn)算法(MLCDINA)面向?qū)傩跃W(wǎng)絡進行局部多重社區(qū)發(fā)現(xiàn)。核心思路是融合屬性網(wǎng)絡的結(jié)構(gòu)信息和屬性信息轉(zhuǎn)換為邊權(quán)重以構(gòu)建應用親密度隨機游走(IRW)的加權(quán)子圖,再基于IRW評估節(jié)點的結(jié)構(gòu)和屬性的融合重要性(IISA)評分,最后基于評分進行局部多重社區(qū)發(fā)現(xiàn)。算法整體分為三步:a)子圖采樣,目的是獲取種子節(jié)點周圍合理大小的子圖,在減少計算量的同時盡可能涵蓋種子節(jié)點可能所屬的所有社區(qū);b)核心成員識別,通過節(jié)點的結(jié)構(gòu)和屬性的融合重要性(IISA)評分識別子圖內(nèi)的可能存在的社區(qū)的核心成員;c)局部社區(qū)發(fā)現(xiàn),以發(fā)現(xiàn)的核心節(jié)點和種子節(jié)點作為擴展種子集合,進一步應用適用于含權(quán)網(wǎng)絡的PPR算法[19]以發(fā)現(xiàn)局部社區(qū)。
2.1 問題描述
給定一個無向圖G=(V,E,X),其中V={vi}表示節(jié)點的集合,E表示邊的集合。A=[aij]n×n表示無向圖G的鄰接矩陣,若節(jié)點i和j之間存在邊,則aij=1,否則aij=0。X={x1,x2,…,xn},其中xi∈Rm是與節(jié)點vi相關(guān)聯(lián)的實值屬性向量。對于一個概率向量p和任一節(jié)點u∈V,令p[u]表示在p中關(guān)于u的概率。令C={C1,C2,…,Cm}表示每個包含種子節(jié)點vs的真實社區(qū)的集合,其中vs∈V是屬于節(jié)點集合的一個種子節(jié)點。本文關(guān)注的問題是發(fā)現(xiàn)一組包含vs的社區(qū)集合C′={C′1,C′2,…,C′k} ,使得對于任一社區(qū)Ci∈C,存在發(fā)現(xiàn)到的社區(qū)C′i∈C′滿足C′i=Ci。
2.2 評價指標
本文使用Jaccard F1-score來評估社區(qū)發(fā)現(xiàn)方法的有效性。Jaccard F1-score指標的計算需要先計算平均召回率和平均精確率。其中平均召回率的計算如下:
給定任一種子節(jié)點vs∈V,發(fā)現(xiàn)到的社區(qū)集合為C′,對于一個真實社區(qū)Ci∈C,它的召回率計算式如下:
進而,平均召回率計算式如下:
類似地,給定任一種子節(jié)點vs∈V,真實社區(qū)集合為C,對于一個發(fā)現(xiàn)到的社區(qū)C′j∈C′,它的精確率計算式如下:
進而,平均精確率計算式如下:
則給定任一種子節(jié)點vs∈V,它的F1-score計算式如下:
在評估局部多重社區(qū)發(fā)現(xiàn)算法的性能時,采用Jaccard F1-score是因為其綜合了精確率與召回率兩個關(guān)鍵指標,提供了一個均衡的視角來衡量算法在識別社區(qū)結(jié)構(gòu)時的效果。精確率反映了算法識別出的社區(qū)中包含的正確節(jié)點與所有識別節(jié)點的比例,而召回率則度量了算法成功找回的正確節(jié)點與真實社區(qū)中節(jié)點的比例。Jaccard F1-score作為精確率與召回率的調(diào)和平均,只有在兩者均較高時才能獲得較高的分數(shù),從而確保了算法在社區(qū)的準確識別與完整性上的表現(xiàn)。
特別是在處理局部多重社區(qū)發(fā)現(xiàn)問題時,節(jié)點可能同時屬于多個社區(qū),Jaccard F1-score能夠有效地捕捉這種社區(qū)重疊的特性。因此,它不僅能夠評價算法在單一社區(qū)發(fā)現(xiàn)上的準確性,還能在社區(qū)重疊的情況下提供更為公正的評價。
2.3 定義
本文定義了邊權(quán)重、融合邊權(quán)重的局部聚類系數(shù)、擴散、結(jié)構(gòu)和屬性的融合重要性(IISA)、親密度隨機游走(IRW)、子圖對節(jié)點IISA評分、節(jié)點的IISA評分、核心成員等八個定義,其中邊權(quán)重參考了基于屬性加權(quán)的方法普遍采用的一般定義。
1)邊權(quán)重
結(jié)構(gòu)權(quán)重是基于網(wǎng)絡拓撲結(jié)構(gòu)提取的,而網(wǎng)絡拓撲結(jié)構(gòu)是社區(qū)發(fā)現(xiàn)中最重要的相似性度量。節(jié)點u和v的結(jié)構(gòu)權(quán)重采用Jaccard相似性計算。它是節(jié)點u和v的共同鄰居節(jié)點數(shù)與u和v的所有鄰居節(jié)點數(shù)的比值。N(u)為節(jié)點u的鄰居節(jié)點的集合。節(jié)點u和v的Jaccard相似度J(u,v)的計算如式(1)所示。
由于研究的屬性為連續(xù)數(shù)值型屬性,故節(jié)點間的屬性權(quán)重采用余弦相似度計算。xi是與節(jié)點vi相關(guān)聯(lián)的實值屬性向量。節(jié)點u和v的屬性余弦相似度CS(u,v)計算如式(2)所示。
融合Jaccard相似度J(u,v)和屬性余弦相似度CS(u,v),α為控制J(u,v)和CS(u,v)之間平衡的參數(shù)。若節(jié)點u和v之間存在邊,則auv=1,否則auv=0。邊權(quán)重W(u,v)計算如式(3)所示。
W(u,v)=auv[αJ(u,v)+(1-α)CS(u,v)](3)
其中:α=1對應于只考慮拓撲結(jié)構(gòu)情況,α=0對應于只考慮節(jié)點屬性情況。一般來說,可以引入一個非線性融合函數(shù)來代替式(3),然而這顯然會使模型變得更加復雜。鑒于社交網(wǎng)絡中網(wǎng)絡的結(jié)構(gòu)信息和屬性信息均體現(xiàn)了現(xiàn)實社區(qū)的某些特征,后續(xù)實驗部分針對α的取值進行了敏感性分析。
2)融合邊權(quán)重的局部聚類系數(shù)
給定一個節(jié)點u∈V,ku是節(jié)點u的度數(shù),局部聚類系數(shù)Lcc(u)為u的所有鄰居之間連接邊數(shù)與所有鄰居之間最大可能的邊數(shù)之比,其計算如式(4)所示。
在含權(quán)網(wǎng)絡中,W(i, j)表示節(jié)點i和j之間的邊權(quán)重,定義融合邊權(quán)重的局部聚類系數(shù)wLcc(u)為節(jié)點u的局部聚類系數(shù)與其鄰居節(jié)點之間的平均邊權(quán)重之積,其計算如式(5)所示。
局部聚類系數(shù)衡量了種子節(jié)點與其鄰居節(jié)點之間的內(nèi)聚性[20]。然而對于含權(quán)網(wǎng)絡,僅僅考慮網(wǎng)絡拓撲結(jié)構(gòu)的局部聚類系數(shù)未能考慮到鄰居節(jié)點之間的同質(zhì)性[21],未能充分利用含權(quán)網(wǎng)絡的信息。據(jù)式(3),本文定義的邊權(quán)重實際上由衡量拓撲相似度的Jaccard相似度和衡量屬性相似度的余弦相似度組成,其可以很好地反映節(jié)點對之間的拓撲和屬性的同質(zhì)性水平。在局部聚類系數(shù)的基礎上,融入鄰居節(jié)點之間的平均邊權(quán)重的局部聚類系數(shù)可以反映種子節(jié)點的鄰居節(jié)點的成團程度以及同質(zhì)性水平,更好地利用了含權(quán)網(wǎng)絡的信息。
節(jié)點具有較高的融合邊權(quán)重的局部聚類系數(shù),不僅反映了該節(jié)點與鄰居節(jié)點之間較高的內(nèi)聚性,同時也反映了聚集的節(jié)點群具有較高的同質(zhì)性。這種同質(zhì)性不僅體現(xiàn)在節(jié)點屬性的相似性上,還體現(xiàn)在節(jié)點間連接的緊密程度上。由于后續(xù)提出的親密度隨機游走(IRW)傾向于選擇與種子節(jié)點屬性和結(jié)構(gòu)更接近的路徑進行游走,所以在同質(zhì)性較高的社區(qū)中,IRW能夠更加精確地識別出社區(qū)邊界,避免因網(wǎng)絡噪聲或邊緣節(jié)點的影響而偏離社區(qū)核心。因此,融合邊權(quán)重的局部聚類系數(shù)不僅是對節(jié)點局部結(jié)構(gòu)的量化描述,也為后續(xù)的IRW提供了良好的游走環(huán)境,進而在社區(qū)發(fā)現(xiàn)任務中實現(xiàn)更優(yōu)的性能表現(xiàn)。
3)擴散
給定一個離種子節(jié)點u最大距離為l的含權(quán)自我中心網(wǎng)絡Gw|u,l|,u∈V,網(wǎng)絡中的邊權(quán)重通過式(3)計算得到,對種子節(jié)點u進行擴散記為dif(k)l(u),在Gw|u,l|中,從節(jié)點u開始執(zhí)行k步隨機游走,得到概率向量p(k)|u,l|。
在進行擴散操作時,由于在網(wǎng)絡中某些節(jié)點可能擁有過多的鄰居節(jié)點,所以在這些節(jié)點上進行擴散操作將顯著增加計算開銷。為了減少擴散操作的計算量,根據(jù)式(5)計算每個鄰居節(jié)點的wLcc值,并取排序最高的前10個的鄰居節(jié)點,再對這10個鄰居節(jié)點分別進行同樣的操作,使最終獲得的子圖大小最多不超過101個節(jié)點。
4)結(jié)構(gòu)和屬性的融合重要性(IISA)
給定一個節(jié)點u∈V和它的l-距離含權(quán)自我中心網(wǎng)絡Gw|u,l|,任一節(jié)點v∈Gw|u,l|對節(jié)點u的結(jié)構(gòu)和屬性的融合重要性分數(shù),稱為IISA(u,v)。節(jié)點v在u的概率向量p(k)|u,l|中的值為p(k)|u,l|[v],用p(k)|u,l|[v]來度量節(jié)點v對u的IISA分數(shù)。
5)親密度隨機游走(IRW)
將隨機游走的過程理解為一個節(jié)點給另一個節(jié)點發(fā)送信息的過程,例如在一對節(jié)點u和v之間,完成這一過程可以分為兩步,第一步為節(jié)點u向v發(fā)送信息,第二步則是節(jié)點v接收u的信息,因此信息從節(jié)點u轉(zhuǎn)移到節(jié)點v受到節(jié)點u和v之間的親密度的影響。
對任意一個節(jié)點u,與鄰居節(jié)點v的親密度為Q(u,v),其計算如式(6)所示。
節(jié)點v對u的親密度Q(v,u)為
故信息從節(jié)點u轉(zhuǎn)移到節(jié)點v的概率Pt(u,v)為
由于研究對象是無向圖,所以W(u,v)=W(v,u)。故式(8)可進一步推導為
由于信息在傳遞過程中受親密度影響,故信息并不是一定會從一個節(jié)點傳遞到另一個節(jié)點,信息停留在原節(jié)點的概率Ps(u,v)為
對任一節(jié)點u,根據(jù)離節(jié)點u最大距離為l的含權(quán)自我中心網(wǎng)絡Gw|u,l|誘導而來的轉(zhuǎn)移概率矩陣為
有偏的隨機游走可以使得隨機過程更加符合現(xiàn)實世界中的非均質(zhì)性和復雜性,更準確地描述了現(xiàn)實系統(tǒng)的真實特性,但現(xiàn)有大多數(shù)有偏的隨機游走忽略了社交網(wǎng)絡中不同角色的親密程度。通過親密度這一機制,很好地模擬了現(xiàn)實生活中不同角色之間的不同親密程度,有效提高了相似度更高節(jié)點重要性的同時降低了邊緣節(jié)點以及相似度低的節(jié)點的重要性,進而更有效地度量節(jié)點的IISA評分,以發(fā)現(xiàn)社區(qū)中的核心成員。
在隨機游走中,如果要找到種子節(jié)點周圍的所有重要節(jié)點,則子圖范圍自然越大越好,然而子圖范圍過大會增加大量不必要的計算。根據(jù)文獻[22],2跳子圖中的擴散概率足以發(fā)現(xiàn)種子節(jié)點周圍的重要節(jié)點,設置隨機游走的步數(shù)k為4,以保證子圖中的每個節(jié)點至少擴散兩次概率。
6)子圖對節(jié)點IISA評分
子圖對節(jié)點的IISA評分反映了一個子圖對一個節(jié)點的重要程度,定義如下:
給定一個子圖Gsub=(Vsub,Esub),對任一節(jié)點u∈V,子圖Gsub對節(jié)點u的IISA評分按以下過程計算:a)對節(jié)點u進行擴散,得到概率向量p(k)|u,l|;b)對所有v∈Vsub,計算節(jié)點v對u的結(jié)構(gòu)和屬性的融合重要性分數(shù)IISA(u,v)并求和,得到子圖Gsub對節(jié)點u的IISA評分IISA(u,Gsub),其計算為
7)節(jié)點的IISA評分
節(jié)點的IISA評分由鄰居節(jié)點擴散到種子節(jié)點的總概率計算得到,定義如下:
對任一v∈V,V|v,l|是Gw|v,l|的節(jié)點集合,對每個u∈V|v,l|進行擴散,節(jié)點v的IISA評分為IISA(v),其計算如式(14)所示。
8)核心成員
社區(qū)的核心成員是社區(qū)內(nèi)部IISA得分最高的少數(shù)節(jié)點。
2.4 算法過程
在HoSIM算法[5]的基礎上,對其進行了適應屬性網(wǎng)絡的改造。算法主要步驟分為子圖采樣、核心成員檢測和局部社區(qū)發(fā)現(xiàn)三個階段,通過三個階段最終發(fā)現(xiàn)包含種子節(jié)點在內(nèi)的多個局部社區(qū)。
算法1 MLCDINA
輸入:無向圖G=(V,E,X);種子節(jié)點vs。
輸出:社區(qū)集合C′={ C′1,C′2,…,C′k}。
初始化C′=。
將G=(V,E,X),vs輸入子圖采樣算法得到采樣的含權(quán)子圖Gwsub和外部鄰接節(jié)點集合Vexterior。
將Gwsub和vs輸入核心成員識別算法得到所有核心成員集合core_members_sets。
for each node_set core_members_set∈core_members_sets do
將Gwsub、Vexterior、vs和core_members_set輸入局部社區(qū)發(fā)現(xiàn)算法得到社區(qū)C′i;
將C′i加入到C′中;
end for
return C′={ C′1,C′2,…,C′k}
2.4.1 子圖采樣
在這一階段,算法為種子節(jié)點采樣一個包含與種子節(jié)點和社區(qū)核心成員最相關(guān)的節(jié)點的子圖。采樣過程分為兩步,算法先采樣一個初始子圖,然后再迭代往初始子圖中添加節(jié)點以獲取最終采樣子圖。同時,為了后續(xù)評價社區(qū)成員與外部節(jié)點的關(guān)系,保留最終采樣子圖的部分外部鄰接節(jié)點。
算法2 子圖采樣
輸入:無向圖G=(V,E,X);種子節(jié)點vs。
輸出:采樣子圖Gwsub和外部鄰接節(jié)點集合Vexterior。
初始化Gsub=[vs]。
while |Gsub|lt;N1 do
Gsub=BFS(Gsub);
end
根據(jù)式(3)計算Gsub中的節(jié)點對的邊權(quán)重得到含權(quán)子圖Gwsub。
將Gwsub和vs輸入適用于含權(quán)網(wǎng)絡的PPR算法得到概率向量pvec。
選取概率向量中概率最大的前N1個節(jié)點構(gòu)成初始子圖Gwsub。
初始化add_number=0。
while add_numberlt;N2 do
獲取Gwsub的鄰居節(jié)點neigh_nodes;
for each node neigh_node∈neigh_nodes do
對neigh_node進行擴散操作;
根據(jù)式(13)計算Gwsub對neigh_node的IISA評分;
end for
根據(jù)IISA評分對neigh_nodes進行降序排列,取前N個節(jié)點加入Gwsub;
add_number=add_number+N;
end while
Vexterior=BFS(Gwsub,2)。//對Gwsub執(zhí)行兩輪BFS
return Gwsub,Vexterior
在第一步中,算法首先迭代地從種子節(jié)點開始執(zhí)行BFS以獲得子圖Gsub。當Gsub的大小大于閾值N1時,停止BFS過程。根據(jù)式(3)計算Gsub內(nèi)的節(jié)點對的邊權(quán)重構(gòu)建含權(quán)子圖Gwsub。然后,算法應用適用于含權(quán)網(wǎng)絡的PPR算法[19]對Gwsub內(nèi)的種子節(jié)點進行概率擴散。選取概率向量中概率最大的前N1個節(jié)點構(gòu)成初始子圖Gwsub。
在第二步中,算法迭代地挑選Gwsub的鄰居節(jié)點(即外部鄰接節(jié)點),并對鄰居節(jié)點中的每個節(jié)點進行擴散。算法根據(jù)式(13)計算Gwsub對鄰居節(jié)點中每個節(jié)點的IISA評分。然后,算法將節(jié)點按照降序排列,并在Gwsub中加入前N個節(jié)點。當加入的節(jié)點數(shù)大于一個閾值N2時,這個迭代過程結(jié)束。由于一般真實社區(qū)的規(guī)模都小于100,故設定N1、N2為100,N為10。
此外,由于發(fā)現(xiàn)一個社區(qū)不僅需要評價社區(qū)內(nèi)成員,還需要評價社區(qū)成員與外部節(jié)點之間的關(guān)系,所以需要保留采樣子圖的外部鄰接節(jié)點。算法執(zhí)行兩輪BFS從Gwsub獲得節(jié)點作為Gwsub的外部鄰接節(jié)點集合Vexterior。
2.4.2 核心成員識別
在這一階段,算法的目的是發(fā)現(xiàn)采樣子圖內(nèi)的社區(qū)核心成員集合。算法計算采樣子圖內(nèi)每個節(jié)點的IISA評分,挑選評分高于種子節(jié)點的節(jié)點作為核心成員,并根據(jù)其在采樣子圖內(nèi)的獨立連通分支,將其劃分為互不相交的核心成員集合。
算法3 核心成員識別
輸入:含權(quán)子圖Gwsub;種子節(jié)點vs。
輸出:所有核心成員集合core_members_sets。
for each node vi∈Gwsub do
對vi進行擴散操作;
end for
for each node vi∈Gwsub do
根據(jù)式(14)計算vi的IISA評分;
end for
選擇IISA評分大于種子節(jié)點IISA評分的節(jié)點作為核心成員core_members。
在Gwsub中發(fā)現(xiàn)core_members的獨立連通分支。
根據(jù)獨立連通分支將core_members劃分為互不相交的集合core_members_sets。
return core_members_sets
在對子圖進行采樣后,算法識別Gwsub內(nèi)部社區(qū)的核心成員。算法對Gwsub中的每個節(jié)點進行擴散操作,并根據(jù)式(14)計算Gwsub中每個節(jié)點的IISA得分。然后,算法選擇IISA評分大于種子節(jié)點IISA評分的節(jié)點作為核心成員。最后,算法基于核心節(jié)點發(fā)現(xiàn)Gwsub內(nèi)部的獨立連通分支。同時,根據(jù)獨立連通分支將核心成員劃分為互不相交的集合。因此,算法自動確定包含種子節(jié)點的社區(qū)數(shù)目。
2.4.3 局部社區(qū)發(fā)現(xiàn)
在這一階段,算法的目的是根據(jù)核心成員集合以及種子節(jié)點,得到最終的局部社區(qū)。算法分為三步:a)根據(jù)核心成員集合以及種子節(jié)點得到擴展節(jié)點集合;b)根據(jù)擴展節(jié)點集合應用適用于含權(quán)網(wǎng)絡的PPR算法得到局部社區(qū);c)根據(jù)局部社區(qū)對其外部以及內(nèi)部節(jié)點的IISA分數(shù)進行增加和刪除操作,得到最終的局部社區(qū)。
算法4 局部社區(qū)發(fā)現(xiàn)
輸入:含權(quán)子圖Gwsub;外部鄰接節(jié)點集合Vexterior;種子節(jié)點vs;一組核心成員集合core_members_set。
輸出:社區(qū)C′i。
選擇core_members_set中IISA得分最高的節(jié)點作為核心節(jié)點core_node。
在Gwsub中尋找一條從vs到core_node的最短路徑short_path。
獲取處于Gwsub內(nèi)的core_node的鄰居節(jié)點core_neigh_nodes。
將short_path上的節(jié)點和core_neigh_nodes合并作為擴展節(jié)點集合extend_nodes。
由Gwsub中的所有節(jié)點和Vexterior中的所有節(jié)點構(gòu)成連通子圖Gunion。
根據(jù)式(3)計算Gunion中的節(jié)點對的邊權(quán)重得到含權(quán)子圖Gwunion。
將Gwunion和extend_nodes輸入適用于含權(quán)網(wǎng)絡的PPR算法得到社區(qū)C′i。
由C′i中的所有節(jié)點構(gòu)成連通子圖GwC′i。
獲取GwC′i的外部鄰接節(jié)點集合out_nodes。
for each node out_node∈out_nodes do
根據(jù)式(13)計算GwC′i對out_node的IISA評分IISA(out_node,GwC′i);
if IISA(out_node,GwC′i)gt;δadd do
將out_node加入到C′i中;
end for
for each node inside_node∈C′i do
根據(jù)式(13)計算GwC′i對inside_node的IISA評分IISA(inside_node,GwC′i);
if IISA(inside,GwC′i)lt;δremove do
將inside_node從C′i中移除;
end for
return C′i
首先,為了選擇一組高質(zhì)量的擴展節(jié)點,算法從核心成員集合中選擇IISA得分最高的節(jié)點作為核心節(jié)點,并在Gwsub中探索一條從種子節(jié)點到核心節(jié)點的最短路徑。然后,算法將最短路徑上的節(jié)點和Gwsub內(nèi)核心節(jié)點的鄰居節(jié)點作為擴展節(jié)點集合。通過這種方式,算法可以分別基于相應的高質(zhì)量擴展節(jié)點集合準確地發(fā)現(xiàn)不同的社區(qū)。
在第二步中,由Gwsub中的節(jié)點和Vexterior中的節(jié)點共同構(gòu)成的連通子圖Gunion,在Gunion上為未賦權(quán)重的邊根據(jù)式(3)計算得到含權(quán)子圖Gwunion。采用適用于含權(quán)網(wǎng)絡的PPR算法[19],在α=0.99和ε=0.001的情況下,將種子節(jié)點集生長為Gwunion內(nèi)部的社區(qū)。
為了充分利用核心節(jié)點和種子節(jié)點,在適用于含權(quán)網(wǎng)絡的PPR[19]中對核心節(jié)點和種子節(jié)點初始化更高的概率權(quán)重。因此,核心節(jié)點和種子節(jié)點都比其他節(jié)點有更高的概率在Gwunion上擴散,從而生成的社區(qū)更容易分別覆蓋相應的成員。
最后,算法進行添加操作和刪除操作,進一步提高檢測到的社區(qū)C′i的質(zhì)量。其中,添加操作是指在Gwunion內(nèi)部,如果C′i構(gòu)成的子圖對其某一外部鄰接節(jié)點的IISA分數(shù)大于給定的閾值δadd,則將該節(jié)點添加到C′i中。當不存在滿足條件的外部鄰接節(jié)點時,該過程結(jié)束。刪除操作是指從C′i中刪除一個內(nèi)部節(jié)點,如果C′i構(gòu)成的子圖對該節(jié)點的IISA得分小于給定的閾值δremove,則刪除該節(jié)點。當不存在滿足條件的內(nèi)部節(jié)點時,該過程結(jié)束。
3 實驗分析
實驗分析的目的是在屬性社交網(wǎng)絡上驗證IRW相比于ARW更有效,以及MLCDINA相比于已有局部多重社區(qū)發(fā)現(xiàn)算法發(fā)現(xiàn)的結(jié)果更準確。實驗評價指標采用Jaccard F1-score。在五個真實屬性網(wǎng)絡上進行了實驗。對于每個網(wǎng)絡,分別從屬于不同社區(qū)數(shù)量的所有節(jié)點組中挑選100個種子節(jié)點。
3.1 數(shù)據(jù)集
選取Politics-UK、Politics-IE、Football、Olympics、Rugby 5個公開數(shù)據(jù)集進行實驗,均屬于Twitter數(shù)據(jù)集[23]。Politics-UK是從2012年英國419名議員的Twitter賬號中收集的。這些賬戶根據(jù)其政治隸屬關(guān)系被分配到五個不相交的社區(qū)。Politics-IE數(shù)據(jù)集來自348名愛爾蘭政治家和政治組織,每個用戶有1 047個維度屬性,用戶分布在7個社區(qū)。Football包含248名活躍在Twitter上的英超足球運動員,他們被分配到20個互不相交的社區(qū),每個社區(qū)對應一個英超俱樂部。Olympics包含倫敦2012年夏季奧林匹克運動會的464名運動員和組織,他們被分為28個互不相交的社區(qū),對應不同的奧林匹克運動項目。Rugby收集了活躍在Twitter上的854名國際橄欖球聯(lián)盟球員、俱樂部和組織,由15個國家對應的重疊社區(qū)組成。每個數(shù)據(jù)集中節(jié)點的屬性都是節(jié)點對應的Twitter賬號的推文中重復500次以上的單詞列表,詞頻為屬性值,因此節(jié)點的屬性個數(shù)并不相同,表1列出了這些節(jié)點屬性去重后的總數(shù)。Rugby中部分節(jié)點屬于2個真實社區(qū),Politics-UK、Politics-IE、Football、Olympics四個數(shù)據(jù)集中所有節(jié)點均只屬于1個真實社區(qū)。將上述數(shù)據(jù)集進行數(shù)據(jù)清洗后,其數(shù)據(jù)信息如表1所示。其中:參數(shù)N表示網(wǎng)絡中的節(jié)點總數(shù); M表示網(wǎng)絡中的總連邊數(shù);A表示網(wǎng)絡中的所有節(jié)點去重后的屬性總個數(shù);c表示網(wǎng)絡的社區(qū)個數(shù)。
3.2 IRW的有效性
為驗證IRW的有效性,MLCDINA其他過程不變,在擴散操作中,分別采用ARW和IRW,在上述五個真實屬性網(wǎng)絡上進行了實驗。實驗結(jié)果如圖1所示。Rugby1表示實驗選取的種子節(jié)點為Rugby中只屬于1個社區(qū)的節(jié)點,Rugby2表示實驗選取的種子節(jié)點為Rugby中屬于2個社區(qū)的節(jié)點。與HoSIM[5]提出的ARW對比,本文IRW在真實屬性網(wǎng)絡上得到的結(jié)果更準確,這表明IRW相比于ARW更適用于真實屬性網(wǎng)絡。
據(jù)圖1,可以觀察到IRW相比ARW在Politics-UK、Politics-IE、Rugby上的優(yōu)勢更為明顯,而在Football、Olympics上只有微弱優(yōu)勢。Politics-UK、Politics-IE、Rugby社區(qū)規(guī)模更大,屬性分布更為集中,而Football、Olympics上社區(qū)規(guī)模較小,網(wǎng)絡中屬性異質(zhì)性更大。在屬性分布較為集中的數(shù)據(jù)集上,IRW能夠更有效地利用節(jié)點屬性信息來指導游走過程,有效識別核心節(jié)點,因此優(yōu)勢更為明顯。相比之下,在屬性異質(zhì)性較大的網(wǎng)絡中,節(jié)點之間的屬性相似度水平都較低,導致IRW相比ARW的優(yōu)勢較為微弱。
3.3 真實屬性網(wǎng)絡上的比較
由于尚未發(fā)現(xiàn)有在屬性網(wǎng)絡上進行局部多重社區(qū)發(fā)現(xiàn)的相關(guān)算法研究,所以選取不考慮節(jié)點屬性的局部多重社區(qū)發(fā)現(xiàn)算法進行比較。對比的算法有Multicom[3]、HoSIM[5]、MLC[9]。對比算法的參數(shù)設置均參照對應論文中的最佳設置,其中Multicom[3]的實驗結(jié)果只取包含種子節(jié)點的社區(qū)進行F1-score計算。實驗結(jié)果如表2所示。每行數(shù)據(jù)集中最優(yōu)和次優(yōu)的結(jié)果用粗體標記。
從表2可以看出,MLCDINA在每個數(shù)據(jù)集上都取得了最大的F1-score,總體上優(yōu)于其他4種算法。MLC[3]和Multicom[9]在Politics-UK、Politics-IE和Rugby上的表現(xiàn)較差,這是因為Politics-UK、Politics-IE和Rugby的真實社區(qū)規(guī)模都較大,這表明這兩種算法容易發(fā)現(xiàn)較小規(guī)模的局部社區(qū),而不適用于真實社區(qū)規(guī)模較大的網(wǎng)絡。HoSIM[5]在Politics-UK和Politics-IE上的表現(xiàn)較好,這表明該算法更適用于真實社區(qū)規(guī)模較大的網(wǎng)絡。MLCDINA在各個數(shù)據(jù)集上表現(xiàn)較為穩(wěn)定,由此可見結(jié)合屬性信息對于局部社區(qū)發(fā)現(xiàn)具有重要意義,能夠有效緩解網(wǎng)絡結(jié)構(gòu)的差異性。上述結(jié)果綜合表明,無論網(wǎng)絡的真實社區(qū)規(guī)模大小,MLCDINA都表現(xiàn)出較為良好的有效性,這表明該算法能有效地指導在真實屬性網(wǎng)絡中的局部多重社區(qū)發(fā)現(xiàn)。
3.4 參數(shù)敏感性分析
由于在融合節(jié)點屬性和結(jié)構(gòu)信息時,參數(shù)的選擇對算法性能影響較大,本文還研究了參數(shù)α的取值對于算法的影響。實驗結(jié)果如表3所示,每行數(shù)據(jù)集中最優(yōu)的結(jié)果用粗體標記。
據(jù)表3,可以觀察到在五個真實屬性網(wǎng)絡上,MLCDINA的F1-score在平衡結(jié)構(gòu)權(quán)重和屬性權(quán)重的參數(shù)取值為0.5時達到最高,顯示出算法在此條件下能夠較好地平衡結(jié)構(gòu)信息和屬性信息,實現(xiàn)最優(yōu)的社區(qū)劃分效果。然而,這種最優(yōu)性能在不同數(shù)據(jù)集上存在差異,其中在Politics-UK和Politics-IE上α變動對F1-score的影響較小,而另外三個數(shù)據(jù)集上影響較大。同時算法在不同α的取值下,在Politics-UK和Politics-IE上的F1-score比其他數(shù)據(jù)集都高,說明Politics-UK和Politics-IE上的社區(qū)結(jié)構(gòu)相對更明顯。由此推斷算法在社區(qū)結(jié)構(gòu)相對明顯的網(wǎng)絡上對于參數(shù)α的敏感性相對較低,而在社區(qū)結(jié)構(gòu)更復雜的網(wǎng)絡上參數(shù)α對于社區(qū)發(fā)現(xiàn)結(jié)果的影響較大。
4 結(jié)束語
針對現(xiàn)有局部多重社區(qū)發(fā)現(xiàn)算法未能有效整合節(jié)點屬性的問題,提出了一種融合節(jié)點屬性的局部多重社區(qū)發(fā)現(xiàn)算法(MLCDINA)。將屬性網(wǎng)絡的結(jié)構(gòu)信息和屬性信息融合后賦給節(jié)點對之間的邊權(quán)重,以便后續(xù)隨機游走評估節(jié)點的結(jié)構(gòu)和屬性的融合重要性(IISA);提出了考慮邊權(quán)重的局部聚類系數(shù),用于隨機游走的采樣子圖稠密且屬性相似度高;考慮到社交網(wǎng)絡中用戶之間不同親密程度,提出了親密度隨機游走(IRW)以有效地度量節(jié)點的IISA評分,綜合利用網(wǎng)絡結(jié)構(gòu)信息和屬性信息挖掘社交網(wǎng)絡中的局部社區(qū)。實驗結(jié)果表明,MLCDINA在真實屬性網(wǎng)絡上優(yōu)于已有算法。相比于無向圖,有向圖更符合現(xiàn)實社交網(wǎng)絡,且更精確地表示了節(jié)點間的關(guān)系,然而有向圖的社區(qū)結(jié)構(gòu)更為復雜,且節(jié)點間存在非對稱關(guān)系,需要重建節(jié)點的重要性評估指標。因此MLCDINA雖然具有擴展至有向圖的潛力,但需要解決一系列理論和計算上的挑戰(zhàn)。
參考文獻:
[1]史艷翠, 王嫄, 趙青, 等. 基于局部擴展的社區(qū)發(fā)現(xiàn)研究現(xiàn)狀[J]. 通信學報, 2019, 40(1): 149-162. (Shi Yancui, Wang Yuan, Zhao Qing, et al. Research status of community detection based on local expansion[J]. Journal on Communications, 2019, 40(1): 149-162.)
[2]付立東, 劉佳會, 王秋紅. 基于密度峰值的標簽傳播社區(qū)發(fā)現(xiàn)算法[J]. 計算機應用研究, 2023, 40(8): 2323-2328. (Fu Lidong, Liu Jiahui, Wang Qiuhong. Label propagation community discovery algorithm based on density peak[J]. Application Research of Computers, 2023, 40(8): 2323-2328.)
[3]Hollocou A, Bonald T, Lelarge M. Multiple local community detection[J]. ACM SIGMETRICS Performance Evaluation Review, 2018, 45(3): 76-83.
[4]Liu Jiaxu, Shao Yingxia, Su Sen. Multiple local community detection via high-quality seed identification over both static and dynamic networks[J]. Data Science and Engineering, 2021, 6(3): 249-264.
[5]Li Boyu, Wang Meng, Hopcroft J E, et al. HoSIM: higher-order structural importance based method for multiple local community detection[J]. Knowledge-Based Systems, 2022, 256: 109853.
[6]Li Boyu, Kamuhanda D, He Kun. Centroid-based multiple local community detection [J]. IEEE Trans on Computational Social Systems, 2024, 11(1): 455-464.
[7]Liu Qing, Zhu Yifan, Zhao Minjun, et al. VAC: vertex-centric attributed community search[C]// Proc of the 36th International Confe-rence on Data Engineering. Piscataway, NJ: IEEE Press,2020:937-948.
[8]Li Qiyan, Zhu Yuanyuan, Ye Junhao, et al. Skyline group queries in large road-social networks revisited [J]. IEEE Trans on Know-ledge and Data Engineering, 2023, 35(3): 3115-3129.
[9]Kamuhanda D, He Kun. A nonnegative matrix factorization approach for multiple local community detection[C]// Proc of IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. Piscataway, NJ: IEEE Press, 2018: 642-649.
[10]Kamuhanda D, Wang Meng, He Kun. Sparse nonnegative matrix factorization for multiple-local-community detection[J]. IEEE Trans on Computational Social Systems, 2020, 7(5): 1220-1233.
[11]Rostami M, Oussalah M. A novel attributed community detection by integration of feature weighting and node centrality[J]. Online Social Networks and Media, 2022, 30: 100219.
[12]Berahmand K, Haghani S, Rostami M, et al. A new attributed graph clustering by using label propagation in complex networks[J]. Journal of King Saud University-Computer and Information Sciences, 2022, 34(5): 1869-1883.
[13]Wang Xiaofeng, Li Jianhua, Yang Li, et al. Unsupervised learning for community detection in attributed networks based on graph convolutional network[J]. Neurocomputing, 2021, 456: 147-155.
[14]Hu Lun, Pan Xiangyu, Yan Hong, et al. Exploiting higher-order patterns for community detection in attributed graphs[J]. Integrated Computer-aided Engineering, 2021, 28(2): 207-218.
[15]Guo Kun, Zhao Zizheng, Yu Zhiyong, et al. Network embedding based on biased random walk for community detection in attributed networks[J]. IEEE Trans on Computational Social Systems, 2023, 10(5): 2279-2290.
[16]Sun Jianyong, Zheng Wei, Zhang Qingfu, et al. Graph neural network encoding for community detection in attribute networks[J]. IEEE Trans on Cybernetics, 2022, 52(8): 7791-7804.
[17]Berahmand K, Mohammadi M, Saberi-Movahed F, et al. Graph regu-larized nonnegative matrix factorization for community detection in attributed networks[J]. IEEE Trans on Network Science and Engineering, 2023, 10(1): 372-385.
[18]Qin Meng, Lei Kai. Dual-channel hybrid community detection in attributed networks[J]. Information Sciences, 2021, 551: 146-167.
[19]彭茂, 張媛. 帶權(quán)網(wǎng)絡的個性化 PageRank 計算[J]. 南京信息工程大學學報: 自然科學版, 2016, 8(2): 116-122. (Peng Mao, Zhang Yuan. Computing personalized PageRank in weighted networks[J]. Journal of Nanjing University of Information Science amp; Technology: Natural Science, 2016, 8(2): 116-122.)
[20]Nascimento M C V. Community detection in networks via a spectral heuristic based on the clustering coefficient[J]. Discrete Applied Mathematics, 2014, 176: 89-99.
[21]Grover A, Leskovec J. node2vec: scalable feature learning for networks[C]// Proc of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2016: 855-864.
[22]Zhang Muhan, Chen Yixin. Link prediction based on graph neural networks [EB/OL]. (2018-11-20). https://arxiv.org/abs/1802.09691.
[23]Greene D, Cunningham P. Producing a unified graph representation from multiple social network views[C]// Proc of the 5th Annual ACM Web Science Conference. New York: ACM Press, 2013: 118-121.