摘要:社區(qū)檢測(cè)是將網(wǎng)絡(luò)中特征相同的成員聚合在一起,社區(qū)內(nèi)成員關(guān)系緊密,社區(qū)之間成員關(guān)系稀疏。社區(qū)檢測(cè)在數(shù)據(jù)挖掘中具有重要意義。近年來(lái)由于大數(shù)據(jù)和深度學(xué)習(xí)的高速發(fā)展,使得深度學(xué)習(xí)在社區(qū)檢測(cè)模型中有了顯著發(fā)展。卷積神經(jīng)網(wǎng)絡(luò)在社區(qū)檢測(cè)領(lǐng)域的應(yīng)用調(diào)查對(duì)社區(qū)檢測(cè)模型具有重要意義,通過(guò)對(duì)卷積網(wǎng)絡(luò)和圖卷積網(wǎng)絡(luò)社區(qū)檢測(cè)方法的歸納總結(jié),總結(jié)現(xiàn)有方法的優(yōu)缺點(diǎn)。最后,通過(guò)這個(gè)快速增長(zhǎng)的深度學(xué)習(xí)領(lǐng)域提出亟待解決的問(wèn)題。
關(guān)鍵詞:社區(qū)檢測(cè);數(shù)據(jù)挖掘;神經(jīng)網(wǎng)絡(luò);圖卷積網(wǎng)絡(luò);重疊社區(qū);拓?fù)洳煌耆W(wǎng)絡(luò)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)24-0097-04
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)
0 引言
自從2002年以來(lái),Girvan和Newman[1]打開(kāi)了圖劃分的新方向。在過(guò)去十年里,計(jì)算機(jī)科學(xué)的研究者通過(guò)利用靜態(tài)和動(dòng)態(tài)網(wǎng)絡(luò),小型和大型網(wǎng)絡(luò)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和語(yǔ)義信息廣泛的研究社區(qū)檢測(cè)算法。
社區(qū)檢測(cè)是一個(gè)越來(lái)越具有現(xiàn)實(shí)意義的研究領(lǐng)域。俗話說(shuō)“物以類聚,人以群分”?;诹确蛛x理論,世界上任何人都能夠通過(guò)6個(gè)熟悉的人知道其他人。這個(gè)俗語(yǔ)和六度分離理論都暗示了社交網(wǎng)絡(luò)的驚人聯(lián)系?!拔镆灶惥郏艘匀悍帧睆?qiáng)調(diào)了人們傾向于與具有相似興趣、背景或特征的人聚集在一起的趨勢(shì)。而六度分離理論則指出了人與人之間的連接并不像我們想象的那么遙遠(yuǎn),即使我們可能認(rèn)識(shí)的人數(shù)很少,通過(guò)社交網(wǎng)絡(luò)中的連接,我們?nèi)匀豢梢耘c世界上任何一個(gè)人建立聯(lián)系。這兩者共同揭示了社會(huì)網(wǎng)絡(luò)的奇妙和復(fù)雜性,以及人際關(guān)系的密切聯(lián)系。比如,社會(huì)網(wǎng)絡(luò)中典型的購(gòu)物網(wǎng)站,社區(qū)檢測(cè)挖掘商家與用戶、商品與商品、用戶與用戶、品牌與商家之間的關(guān)系,以此來(lái)推廣產(chǎn)品和提供個(gè)性化服務(wù)。 社區(qū)檢測(cè)應(yīng)用在代謝網(wǎng)絡(luò)和蛋白質(zhì)網(wǎng)絡(luò)中揭示生物體內(nèi)復(fù)雜的調(diào)控機(jī)制和生物學(xué)過(guò)程,有助于理解各種疾病的發(fā)生機(jī)制。因此,社區(qū)檢測(cè)在數(shù)據(jù)挖掘和網(wǎng)絡(luò)分析中非常重要。
許多傳統(tǒng)社區(qū)檢測(cè)技術(shù),如光譜聚類和統(tǒng)計(jì)推斷能夠應(yīng)用在小型網(wǎng)絡(luò)和簡(jiǎn)單社區(qū)檢測(cè)模型中。然而,包含豐富非線性信息的真實(shí)世界網(wǎng)絡(luò)因?yàn)榫哂袕?fù)雜的拓?fù)浜透呔S特征,使得傳統(tǒng)模型不太適用于實(shí)際應(yīng)用。隨著大數(shù)據(jù)的深度學(xué)習(xí)技術(shù)的蓬勃發(fā)展,越來(lái)越大的規(guī)模,高稀疏性,復(fù)雜結(jié)構(gòu),動(dòng)態(tài)網(wǎng)絡(luò)在現(xiàn)實(shí)世界中的場(chǎng)景被探索。傳統(tǒng)社區(qū)檢測(cè)方法解決不了的問(wèn)題使用深度學(xué)習(xí)技術(shù)能夠很好地解決,包括網(wǎng)絡(luò)中非線性關(guān)系的處理;從高維網(wǎng)絡(luò)數(shù)據(jù)到低維網(wǎng)絡(luò)數(shù)據(jù)的轉(zhuǎn)化;社區(qū)檢測(cè)時(shí)更有效的保留網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性等。因此,社區(qū)檢測(cè)的深度學(xué)習(xí)方法是一個(gè)新的趨勢(shì),包括卷積網(wǎng)絡(luò)社區(qū)檢測(cè)(Convolutional Neural Networks ,CNNs)、生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)、深度非負(fù)矩陣因子(Deep Non-negative Matrix Factorization,DNMF)、深度嵌入(Deep Embeddings,DE)等。卷積網(wǎng)絡(luò)作為深度學(xué)習(xí)的代表,在復(fù)雜網(wǎng)絡(luò)的社區(qū)檢測(cè)中占有很重要的位置。卷積網(wǎng)絡(luò)包括卷積神經(jīng)網(wǎng)絡(luò)和圖卷積網(wǎng)絡(luò)(Graph Convolutional Networks ,GCNs)[2]。
卷積網(wǎng)絡(luò)的一般框架是復(fù)雜結(jié)構(gòu)關(guān)系高維數(shù)據(jù)到低維數(shù)據(jù)的學(xué)習(xí),能夠自動(dòng)學(xué)習(xí)和提取非結(jié)構(gòu)特征,從而在進(jìn)行社區(qū)檢測(cè)時(shí)提供更多有效的知識(shí)。除此之外,在提取特征進(jìn)行社區(qū)進(jìn)測(cè)時(shí),卷積網(wǎng)絡(luò)能夠?qū)⒐?jié)點(diǎn)、邊、鄰居節(jié)點(diǎn)或者多個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的信息融合并進(jìn)行更加有效的社區(qū)檢測(cè)。
1 社區(qū)檢測(cè)
定義1:網(wǎng)絡(luò) 給定一個(gè)基本網(wǎng)絡(luò)[G(V,E)],且[V={V1,V2,...,Vn}]是節(jié)點(diǎn)集合,[E=eijni,j=1]代表節(jié)點(diǎn)之間的邊集。[N(vi)={u∈V|(vi,u)∈E}]定義為[vi]的鄰居節(jié)點(diǎn),[A=[aij]]定義為[n×n]維鄰接矩陣。如果[eij=E]則[aij=1],否則[aij=0]。如果[aij≠aji],[G]是一個(gè)有向網(wǎng)絡(luò),否則[G]是一個(gè)無(wú)向網(wǎng)絡(luò)。如果[aij]由[wij∈W]加權(quán),則[G=(V,E,W)]是權(quán)重網(wǎng)絡(luò),否則就是非權(quán)重網(wǎng)絡(luò)。如果[aij]的值是+1和-1,[G]是信號(hào)網(wǎng)絡(luò)。如果節(jié)點(diǎn)[vi∈V]歸屬于[xi∈X∈?n×d],[G=(V,E,X)]是屬性網(wǎng)絡(luò),否則就是無(wú)屬性網(wǎng)絡(luò)。
定義2:社區(qū) 給定一組社區(qū)[C={C1,C2,…,CK}],每個(gè)社區(qū)[Ck]是圖[G]的一個(gè)分區(qū),它保持區(qū)域結(jié)構(gòu)和聚類性質(zhì)[3]。也就是說(shuō),社區(qū)[Ck]中的成員都具有相同的屬性和結(jié)構(gòu)。社區(qū)聚集到社區(qū)[Ck]的節(jié)點(diǎn)[vi]應(yīng)當(dāng)滿足條件:社區(qū)內(nèi)部節(jié)點(diǎn)的度要超過(guò)外部節(jié)點(diǎn)的度。假設(shè)[Ck?Ck'=?],[(?k,k')],[C]表示離散社區(qū),否則就表示重疊社區(qū)。
定義3:社區(qū)檢測(cè)輸入 深度學(xué)習(xí)模型將網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和網(wǎng)絡(luò)屬性作為輸入。節(jié)點(diǎn)和邊形成的拓?fù)淠軌蛟诰仃囍屑右员硎?,比如鄰接矩陣[A],信號(hào)鄰接矩陣[A(+,-)],以及類似模塊矩陣[B]的測(cè)量矩陣。網(wǎng)絡(luò)屬性表示網(wǎng)絡(luò)實(shí)體額外的信息,例如節(jié)點(diǎn)屬性[X]。
社區(qū)檢測(cè)輸出 社區(qū)檢測(cè)輸出方法的目標(biāo)是輸出一組離散或者重疊社區(qū)。比如,學(xué)生俱樂(lè)部只允許一個(gè)學(xué)生加入其中的一個(gè)俱樂(lè)部,這是離散社區(qū)的典型代表。參與社交網(wǎng)絡(luò)中多個(gè)圈子的用戶,這是重疊社區(qū)的典型代表。部分重疊社區(qū)的檢測(cè)方法可以檢測(cè)離散社區(qū)。
2 基于卷積神經(jīng)網(wǎng)絡(luò)的社區(qū)檢測(cè)算法
CNNs是一類針對(duì)圖像數(shù)據(jù)等網(wǎng)格狀拓?fù)鋽?shù)據(jù)提出的特殊的前饋深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN),其卷積層減少計(jì)算成本和池化操作來(lái)確保CNN特征表示中的穩(wěn)健性?,F(xiàn)有的社區(qū)檢測(cè)方法實(shí)現(xiàn)了具有嚴(yán)格數(shù)據(jù)輸入限制的CNN模型,見(jiàn)圖1。
傳統(tǒng)的社區(qū)檢測(cè)是深度學(xué)習(xí)模型中的無(wú)監(jiān)督學(xué)習(xí)任務(wù),現(xiàn)實(shí)中網(wǎng)絡(luò)可能邊缺失,這種拓?fù)浣Y(jié)構(gòu)不完整的網(wǎng)絡(luò),進(jìn)行社區(qū)檢測(cè)時(shí)會(huì)降低其準(zhǔn)確度。為此,Xin等[4]提出了第一個(gè)針對(duì)不完全拓?fù)渚W(wǎng)絡(luò)結(jié)構(gòu)的有監(jiān)督CNN社區(qū)檢測(cè)模型。通過(guò)設(shè)計(jì)一個(gè)結(jié)構(gòu)化深度卷積神經(jīng)網(wǎng)絡(luò)模型,以便能夠更好地檢測(cè)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)不完整網(wǎng)絡(luò)的社區(qū)。通過(guò)添線性或者星型預(yù)處理方法來(lái)調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),該深度卷積神經(jīng)網(wǎng)絡(luò)有兩個(gè)卷積層和一個(gè)全連接層組成。然后在每個(gè)特征圖上應(yīng)用最大池化運(yùn)算,最后第二卷積層的最大池化操作之后的特征圖都連接到全連接層,逐步將不完整拓?fù)浣Y(jié)構(gòu)網(wǎng)絡(luò)的特征補(bǔ)充完整。最后一個(gè)連接層[f]為每個(gè)節(jié)點(diǎn)[vi]更新社區(qū):
[oki=σ(bfk+Wfkh(2)i)] (1)
其中[σ]表示激活函數(shù),[Wfk]和[bfk]第[k]個(gè)神經(jīng)元的權(quán)重和偏差,[h(2)i]是前兩個(gè)卷積層輸出節(jié)點(diǎn)表示向量。該模型的損失函數(shù)為:
[L=12i∥oi-yi∥22=12ik(oki-yii)2] (2)
這里[yi]表示節(jié)點(diǎn)[vi]的標(biāo)記向量,[yki∈{0,1}]表示[vi]是否屬于第[k]個(gè)社區(qū)。該模型社區(qū)檢測(cè)中,用10%的標(biāo)記節(jié)點(diǎn)實(shí)現(xiàn)了約80%的準(zhǔn)確率,表明使用線性和星型預(yù)處理方法能夠有效提高社區(qū)檢測(cè)的準(zhǔn)確率。
大規(guī)模社交網(wǎng)絡(luò)具有高稀疏性,Sperli[5]設(shè)計(jì)了一個(gè)可以處理大維度和高稀疏性的卷積神經(jīng)網(wǎng)絡(luò),全連接層由[k]個(gè)輸出神經(jīng)元組成,每個(gè)神經(jīng)元對(duì)應(yīng)一個(gè)特定的社區(qū)。每個(gè)特征圖中的每條條目都連接到全連接層上的所有[k]個(gè)神經(jīng)元,表示為:
[okn=relu(bf+WfkqC1C2n)] (3)
其中[okn]是第[k]層神經(jīng)元的值,表示節(jié)點(diǎn)[n]屬于第[k]個(gè)社區(qū)的概率,[bf],[Wfk]和[qC1C2n]分別是統(tǒng)計(jì)偏差、權(quán)重矩陣和第二卷積層輸出。同樣為了處理維數(shù)和稀疏性問(wèn)題,Santo等人[6]引入了SparseConv2D算子修改CNN的輸入層,用來(lái)更有效的在稀疏矩陣上執(zhí)行卷積。雖然神經(jīng)卷積網(wǎng)絡(luò)在社區(qū)檢測(cè)上取得了一定的效果,但是根據(jù)現(xiàn)有的模型,都無(wú)法處理社區(qū)的重疊密集情況,其中一個(gè)節(jié)點(diǎn)可能屬于多個(gè)社區(qū)。GCN在處理圖數(shù)據(jù)具有很強(qiáng)的優(yōu)勢(shì),其最近的發(fā)展表明其有能力在圖形的數(shù)據(jù)中建模和捕捉復(fù)雜關(guān)系。因此,越來(lái)越多的社區(qū)檢測(cè)方法開(kāi)始關(guān)注GCN。
3 基于圖卷積網(wǎng)絡(luò)的社區(qū)檢測(cè)算法
GCN是基于CNNs圖結(jié)構(gòu)數(shù)據(jù)提出的,并在頻譜濾波器的一階近似上執(zhí)行。GCNs的分層傳播規(guī)則是:
[H(l+1)=σ(D-12AD-12H(l)W(l))] (4)
其中[l]層的潛在表示保存在矩陣[H(l)(X(0)=H)]中,通過(guò)激活函數(shù)[σ(?)]和特定層訓(xùn)練權(quán)重矩陣[W(l)]中;[A=A+In]和[In]表示單位矩陣;[Dij=jaij]且[aij∈A]。
GCNs進(jìn)行社區(qū)檢測(cè)是在深度圖卷積層上全局提取復(fù)雜特征并聚合節(jié)點(diǎn)鄰居信息。有兩類基于GCNs的社區(qū)檢測(cè)算法[7]:有監(jiān)督/半監(jiān)督算法以及無(wú)監(jiān)督算法。GCNs使用傳統(tǒng)深度學(xué)習(xí)算子來(lái)進(jìn)行社區(qū)檢測(cè),比如用于統(tǒng)計(jì)推斷的SBMs,用于頻譜分析的拉普拉斯矩陣和用于信念傳播的概率圖模型 [8] 。比如線形圖神經(jīng)網(wǎng)絡(luò)(Line Graph Nerual Network,LGNN)是一個(gè)有監(jiān)督的社區(qū)檢測(cè)模型,改進(jìn)了SBNs并減少了計(jì)算開(kāi)銷,將非回溯算子與信念傳播的消息傳遞規(guī)則相結(jié)合,學(xué)習(xí)網(wǎng)絡(luò)中的節(jié)點(diǎn)表示特征 。激活函數(shù)softmax識(shí)別條件概率:節(jié)點(diǎn)[vi]屬于社區(qū)[Ck(oi,k=p(yi=ck|Θ,G))],并且最小化社區(qū)標(biāo)簽所有可能的組合交叉熵?fù)p失[SC]:
[L(Θ)=minπ∈SC-ilogoi,π(yi)] (5)
GCN本身并不是為了進(jìn)行社區(qū)檢測(cè),因此模型并不能準(zhǔn)確進(jìn)行社區(qū)分類。為了彌補(bǔ)這個(gè)差距,一種半監(jiān)督的社區(qū)GCN檢測(cè)模型MRFasGCN通過(guò)使用馬爾科夫隨機(jī)場(chǎng)進(jìn)行社區(qū)檢測(cè),同時(shí)能夠?qū)⑸鐓^(qū)檢測(cè)結(jié)果進(jìn)行優(yōu)化。為了實(shí)現(xiàn)無(wú)監(jiān)督的社區(qū)檢測(cè),一個(gè)基于GCN框架的網(wǎng)絡(luò)表示學(xué)習(xí)SGCN模型設(shè)計(jì)了局部標(biāo)簽采樣模型[9]并確定社區(qū)檢測(cè)的結(jié)構(gòu)中心,利用圖卷積網(wǎng)絡(luò)進(jìn)行局部特征提取,通過(guò)將標(biāo)簽采樣模型和GCN集成到一個(gè)無(wú)監(jiān)督框架中,SGCN在訓(xùn)練每個(gè)沒(méi)有先驗(yàn)標(biāo)簽節(jié)點(diǎn)的社區(qū)成員身份時(shí)融合拓?fù)浜蛯傩詠?lái)進(jìn)行社區(qū)檢測(cè)?;趫D神經(jīng)網(wǎng)絡(luò)的重疊社區(qū)檢測(cè)[10](Neural Overlapping Community Detection,NOCD)模型,是一個(gè)無(wú)監(jiān)督端到端的深度學(xué)習(xí)模型,將GCN模型和伯努利-泊松(Bernoulli-Poisson,BP)概率相結(jié)合,使用ReLU激活函數(shù)應(yīng)用在輸出層,BP模型的負(fù)對(duì)數(shù)似然對(duì)從屬矩陣使用最小化參數(shù)進(jìn)行優(yōu)化,GNN為相鄰節(jié)點(diǎn)輸出相似的社區(qū)隸屬向量。鄰域聚合算法將圖卷積公式化為對(duì)稱拉普拉斯平滑運(yùn)算,聚合節(jié)點(diǎn)與鄰居的特征信息。但是這種算法在神經(jīng)網(wǎng)絡(luò)深度增加時(shí)會(huì)導(dǎo)致過(guò)度平滑的問(wèn)題。因此Hu等人[11]設(shè)計(jì)了圖卷積梯形網(wǎng)絡(luò)(Graph Convolutional Ladder-shape Networks,GCLN),這是一種新的圖神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),使用上下文特征通道構(gòu)建具有收縮和擴(kuò)張路徑的對(duì)稱結(jié)構(gòu),該梯形架構(gòu)允許網(wǎng)絡(luò)直接將上下文信息從淺層傳輸、融合到更深層,克服過(guò)度平滑,擴(kuò)展神經(jīng)網(wǎng)絡(luò)的規(guī)模。分層傳播等式如下:
[H(l+1)=s(D-12AD-12H(l)W(l))] (6)
獨(dú)立性提升圖糾纏網(wǎng)絡(luò)[12](Independence Promoted Graph Disentangled Network,IPGDN)將現(xiàn)實(shí)網(wǎng)絡(luò)中糾纏的潛在因素獨(dú)立表示出來(lái),同時(shí)增強(qiáng)節(jié)點(diǎn)表示之前的獨(dú)立性,以降低檢測(cè)鄰域的難度。鄰域路由中的Hilbert-Schmidt獨(dú)立準(zhǔn)則(HSIC)正則化支持IPGDN。
屬性圖上的社區(qū)檢測(cè)除了需要處理網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)需要考慮屬性特征。其中結(jié)構(gòu)不同但是屬性相同或相似特征的節(jié)點(diǎn)可能會(huì)劃分為同一社區(qū)。為了解決這一問(wèn)題,在自適應(yīng)圖卷積[13](AGC)中嵌入了一個(gè)低通濾波器,通過(guò)[p(λq)=(1-12λq)k],其中[G]的頻率響應(yīng)函數(shù)[p∧=diag(p(λ1,…,p(λn))]在所有特征值上遞減且非負(fù)。AGC以[k]為單位卷積選擇合適的鄰域跳躍大小,并通過(guò)[k]階圖卷積將圖特征表示為:
[X=(I-12Ls)kX] (7)
其中[Ls]表示[λq]上的對(duì)稱歸一化圖拉普拉斯算子。濾波器平滑節(jié)點(diǎn)嵌入[X]調(diào)整到[k],[k]越高,濾波性能越好,社區(qū)檢測(cè)準(zhǔn)確度更高。自適應(yīng)圖解碼器[14](Adaptive Graph Encoder,AGE)是另一個(gè)擴(kuò)展到社區(qū)檢測(cè)的平滑濾波器模型。AGE自適應(yīng)的執(zhí)行節(jié)點(diǎn)相似性測(cè)量([S=[sij]])和t-附加拉普拉斯平滑濾波器:
[X=(I-γL)tX] (8)
[L=(vi,vj)∈V-s′ijlog(sij)-(1-s′ij)log(1-sij)] (9)
其中[V]表示正(相似)和負(fù)(不相似)樣本上的平衡訓(xùn)練集,[s′ij]是節(jié)點(diǎn)([vi,vj])上的排序二進(jìn)制相似性標(biāo)簽。
GCN濾波器在圖卷積神經(jīng)網(wǎng)絡(luò)中應(yīng)用廣泛。例如,在譜圖卷積結(jié)構(gòu)中,具有Cayley多項(xiàng)式的圖卷積神經(jīng)網(wǎng)絡(luò)(CayleyNets)提出了一種用于社區(qū)檢測(cè)高階近似的有效cayley濾波器。CayleyNets應(yīng)用于窄帶濾波,原因是低頻中包含大量的社區(qū)信息,用于社區(qū)檢測(cè)的目標(biāo)表示。CayleyNets結(jié)合Cayley濾波器,包含頻譜卷積層中的平均池和節(jié)點(diǎn)上的半監(jiān)督softmax分類器用于社區(qū)成員的預(yù)測(cè)。為了緩解圖神經(jīng)網(wǎng)絡(luò)稀疏性的瓶頸,Zhang等人[15]提出了屬性圖聚類的譜嵌入網(wǎng)絡(luò)(SENet),通過(guò)利用共享鄰居的信息來(lái)改進(jìn)圖結(jié)構(gòu),借助頻譜聚類損失來(lái)學(xué)習(xí)節(jié)點(diǎn)嵌入,該損失函數(shù)為:
[L=-tr((H(3))ΤD-12KD-12H(3))] (10)
其中[K]是編碼類型和屬性的核矩陣。 社區(qū)深度圖最大熵[16](Community Deep Graph Infomax ,CommDGI)通過(guò)節(jié)點(diǎn)和社區(qū)上的交互信息(MI)聯(lián)合優(yōu)化圖表示和聚類,并測(cè)量圖模塊化以實(shí)現(xiàn)最大化,該算法通過(guò)對(duì)比訓(xùn)練來(lái)獲得更好的表示、節(jié)點(diǎn)聚類的k-均值和目標(biāo)聚類中心。Zhao等人[17]提出了一個(gè)圖去偏對(duì)比學(xué)習(xí),同時(shí)執(zhí)行表示和聚類,從而提高聚類結(jié)果和判別表示。Moradan等人[18]提出了圖卷積網(wǎng)絡(luò)上的統(tǒng)一社區(qū)檢測(cè)(Unified Community dectection with Graph Convolutional Networks,UCoDe),是屬性圖中進(jìn)行社區(qū)檢測(cè)的統(tǒng)一方法,引入新的對(duì)比損失來(lái)進(jìn)行社區(qū)檢測(cè),能夠同時(shí)檢測(cè)非重疊社區(qū)和重疊社區(qū)。
4 現(xiàn)有卷積網(wǎng)絡(luò)社區(qū)檢測(cè)算法的研究難點(diǎn)
雖然深度學(xué)習(xí)已經(jīng)將社區(qū)檢測(cè)帶入一個(gè)繁榮的時(shí)代,但仍有一些懸而未決的問(wèn)題需要進(jìn)一步研究。
1)未知的社區(qū)數(shù)量?,F(xiàn)實(shí)場(chǎng)景中的社區(qū)檢測(cè),由于獲取成本高,大多數(shù)數(shù)據(jù)都沒(méi)有標(biāo)記,因此社區(qū)數(shù)量[k]是未知的。深度學(xué)習(xí)中的非監(jiān)督檢測(cè)算法提供了一個(gè)有效的方法來(lái)處理未知場(chǎng)景的問(wèn)題,但是一般需要指定[k]為先驗(yàn)知識(shí)。因此在不知道社區(qū)數(shù)量[k]時(shí)算法無(wú)法進(jìn)行,因此在圖卷積網(wǎng)絡(luò)中解決社區(qū)數(shù)量[k]的問(wèn)題就變得非常重要。
2)分層網(wǎng)絡(luò)社區(qū)檢測(cè)限制。網(wǎng)絡(luò)通常顯示不同規(guī)模的社區(qū)樹(shù)狀層次結(jié)構(gòu),其中較低層次的結(jié)構(gòu)聚集在一起,形成較高級(jí)別的大社區(qū)。因此,在這種情況下社區(qū)檢測(cè)算法要求從低層次到高層次的順序檢測(cè)。傳統(tǒng)方法一般遵守三條規(guī)則:第一,直接估計(jì)層次;第二,以自上而下的方式遞歸合并社區(qū);第三,以自上而下的方式遞歸的劃分社區(qū);算法的性能受到大量參數(shù)或者網(wǎng)絡(luò)密度要求的限制。但是,社區(qū)層次無(wú)法保留在深度學(xué)習(xí)模型中。隨著高階關(guān)系表示的發(fā)展,我們相信深度學(xué)習(xí)模型包括卷積網(wǎng)絡(luò)可以促進(jìn)分層社區(qū)檢測(cè)的發(fā)展。
3)多層網(wǎng)絡(luò)。現(xiàn)實(shí)中的網(wǎng)絡(luò)很少有單層的,一般都是多層網(wǎng)絡(luò)。多層網(wǎng)絡(luò)是由多個(gè)相互依賴的圖組成(在這里稱為層),每一層代表不同類型實(shí)體之間的交互,跨層鏈接反映了實(shí)體之間的依賴關(guān)系。比如在多層社會(huì)網(wǎng)絡(luò)中,節(jié)點(diǎn)可以代表個(gè)體,每一層的層內(nèi)連接可表示為友誼、親屬關(guān)系或者同學(xué)等。因此,此類網(wǎng)絡(luò)中的社區(qū)檢測(cè)可以利用更多的信息來(lái)表達(dá)更好的結(jié)果。與單層網(wǎng)絡(luò)中社區(qū)檢測(cè)相比,多層網(wǎng)絡(luò)社區(qū)檢測(cè)算法仍然處于起步階段,方法內(nèi)容都比較少。多層社區(qū)檢測(cè)方法簡(jiǎn)化過(guò)程是將多層網(wǎng)絡(luò)的信息融合到一層,然后采用單層網(wǎng)絡(luò)的社區(qū)檢測(cè)算法。現(xiàn)有的方法是將低維表示中的多層信息扁平化,但是存在以下問(wèn)題:交互數(shù)據(jù)類型之間的不同;每層中不同級(jí)別的稀疏性;跨層連接的可能性;層與層之間的可延展性。圖卷積網(wǎng)絡(luò)能夠更有效地處理圖結(jié)構(gòu)數(shù)據(jù),對(duì)多層網(wǎng)絡(luò)的社區(qū)檢測(cè)有更好的適用性。
4)異構(gòu)網(wǎng)絡(luò)。為了準(zhǔn)確的描述現(xiàn)實(shí)情況,網(wǎng)絡(luò)中會(huì)包含不同的信息,即異構(gòu)信息。包含異構(gòu)信息的網(wǎng)絡(luò)就被稱為異構(gòu)網(wǎng)絡(luò)。異構(gòu)信息表達(dá)出現(xiàn)實(shí)世界不同實(shí)體之間的關(guān)系,比如演員和電影,物品和消費(fèi)者等。由于其信息的復(fù)雜和重疊,不能直接使用同構(gòu)網(wǎng)絡(luò)的卷積神經(jīng)網(wǎng)絡(luò)社區(qū)檢測(cè)建模方式,故異構(gòu)網(wǎng)絡(luò)的社區(qū)檢測(cè)研究具有很大的挑戰(zhàn)性。
5)網(wǎng)絡(luò)異質(zhì)性。網(wǎng)絡(luò)異質(zhì)性可以解釋為連接屬性屬于不同社區(qū)或具有不同特征的現(xiàn)象。例如,欺詐者故意與普通用建立連接以免被發(fā)現(xiàn)。對(duì)于社區(qū)檢測(cè),跨社區(qū)連接的邊界節(jié)點(diǎn)符合此網(wǎng)絡(luò)屬性?,F(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)包括圖卷積網(wǎng)絡(luò)都無(wú)法準(zhǔn)確地提供異質(zhì)網(wǎng)絡(luò)的社區(qū)檢測(cè)。
6)拓?fù)洳煌耆W(wǎng)絡(luò)?,F(xiàn)實(shí)場(chǎng)景中的關(guān)系并不總是可用的,這就導(dǎo)致了不完整的網(wǎng)絡(luò)拓?fù)浜凸铝⒌淖訄D。比如,蛋白質(zhì)-蛋白質(zhì)相互作用(protein-protein interaction,PPI)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)不完整,而檢測(cè)所有的蛋白質(zhì)之間的連接費(fèi)用十分昂貴[15]。這種拓?fù)洳煌耆W(wǎng)絡(luò)在生物學(xué)上較為常見(jiàn),而在這種不完全拓?fù)渚W(wǎng)絡(luò)下劃分社區(qū)意義重大?,F(xiàn)有神經(jīng)網(wǎng)絡(luò)社區(qū)檢測(cè)方法適用于拓?fù)渫暾木W(wǎng)絡(luò)結(jié)構(gòu),針對(duì)拓?fù)洳煌耆木W(wǎng)絡(luò)社區(qū)檢測(cè)方法非常有限。
5 結(jié)束語(yǔ)
本文從卷積網(wǎng)絡(luò)入手,介紹了幾種基于卷積神經(jīng)網(wǎng)絡(luò)和圖卷積網(wǎng)絡(luò)的社區(qū)檢測(cè)算法,簡(jiǎn)要地說(shuō)明了其算法的模型。卷積神經(jīng)網(wǎng)絡(luò)雖然比傳統(tǒng)的非深度學(xué)習(xí)社區(qū)檢測(cè)方法更具優(yōu)勢(shì),但是在處理拓?fù)洳煌暾Y(jié)構(gòu)、捕捉全局圖特征困難等有局限性。圖卷積網(wǎng)絡(luò)結(jié)合傳統(tǒng)社區(qū)檢測(cè)算子彌補(bǔ)了卷積神經(jīng)網(wǎng)絡(luò)的局限性。針對(duì)現(xiàn)有卷積網(wǎng)絡(luò)模型的優(yōu)缺點(diǎn),簡(jiǎn)要地闡述了研究的重點(diǎn)和未來(lái)的方向。下一步將會(huì)從以上幾個(gè)方面入手,對(duì)圖卷積網(wǎng)絡(luò)的社區(qū)檢測(cè)方法展開(kāi)更深的研究。
參考文獻(xiàn):
[1] 高兵,宋敏,鄒啟杰,等.基于圖嵌入和多標(biāo)簽傳播的重疊社區(qū)檢測(cè)算法[J].計(jì)算機(jī)應(yīng)用研究,2024,41(5):1428-1433.
[2] 胡永利,李鷗宵,孫艷豐.基于節(jié)點(diǎn)采樣的子結(jié)構(gòu)代表層次池化圖卷積網(wǎng)絡(luò)模型[J].北京工業(yè)大學(xué)學(xué)報(bào),2024,50(6):693-701.
[3] 高兵,宋敏,鄒啟杰,等.基于圖嵌入和多標(biāo)簽傳播的重疊社區(qū)檢測(cè)算法[J].計(jì)算機(jī)應(yīng)用研究,2024,41(5):1428-1433.
[4] XIN X,WANG C K,YING X,et al.Deep community detection in topologically incomplete networks[J].Physica A:Statistical Mechanics and Its Applications,2017,469:342-352.
[5] SPERLí G.A deep learning based community detection approach[C]//Proceedings of the 34th ACM/SIGAPP Symposium on Applied Computing.Limassol Cyprus.ACM,2019:1107-1110.
[6] DE SANTO A,GALLI A,MOSCATO V,et al.A deep learning approach for semi-supervised community detection in Online Social Networks[J].Knowledge-Based Systems,2021,229:107345.
[7] 楊士杰,帥陽(yáng),韓超,等.基于非負(fù)矩陣分解的有向網(wǎng)絡(luò)半監(jiān)督社區(qū)檢測(cè)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2024,33(1):49-57.
[8] 寧懿昕.基于圖神經(jīng)網(wǎng)絡(luò)的社區(qū)檢測(cè)[D].南昌:江西科技師范大學(xué),2022.
[9] WANG X F,LI J H,YANG L,et al.Unsupervised learning for community detection in attributed networks based on graph convolutional network[J].Neurocomputing,2021,456:147-155.
[10] SHCHUR O,GüNNEMANN S.Overlapping community detection with graph neural networks[EB/OL].2019:1909.12201.https://arxiv.org/abs/1909.12201v1
[11] HU R Q,PAN S R,LONG G D,et al.Going deep:graph convolutional ladder-shape networks[J].Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(3):2838-2845.
[12] LIU Y B,WANG X,WU S,et al.Independence promoted graph disentangled networks[J].Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(4):4916-4923.
[13] ZHANG X T,LIU H,LI Q M,et al.Attributed graph clustering via adaptive graph convolution[EB/OL].2019:1906.01210.https://arxiv.org/abs/1906.01210v1
[14] ZHANG X T,LIU H,WU X M,et al.Spectral embedding network for attributed graph clustering[J].Neural Networks,2021,142:388-396.
[15] ZHANG T Q,XIONG Y,ZHANG J W,et al.CommDGI:community detection oriented deep graph infomax[C]//Proceedings of the 29th ACM International Conference on Information & Knowledge Management.Virtual Event Ireland.ACM,2020:1843-1852.
[16] ZHAO H, YANG X, WANG Z, et al. Graph debiased contrastive learning with joint representation clustering[C]. IJCAI. 2021:3434-3440.
[17] ZHANG X T,LIU H,WU X M,et al.Spectral embedding network for attributed graph clustering[J].Neural Networks,2021,142:388-396.
[18] MORADAN A,DRAGANOV A,MOTTIN D,et al.UCoDe:unified community detection with graph convolutional networks[J].Machine Learning,2023,112(12):5057-5080.
【通聯(lián)編輯:王 力】