Contrastive graph clustering based on multi-level feature fusion andenhancement
Li Zhiming τ1a,1b,1c,2 ,Wei Hepinglat,Zhang Guangkangla,You Dianlong ρ,a,lb,lc,2 (1.a.Schloffotioneeamp;Ein,yoatofofareEgigfberoc,eybofor ComputerVirtalhlogamp;stmIntegationofHbeiProinceYashnUniersityQiangdaHbei,hina;.S search Institute ofYanshan University,Yanshan University,Shenzhen Guangdong 518o63,China)
Abstract:The majorityofexisting contrastivegraph clustering algorithmsfacethe following issues:theyignorethelow-level featuresand structural informationextracted byshalownetworkswhen generatingnoderepresentation.Thealgorithms neither fullutilizehighorderneighbornodeinformationnorintegrateconfidenceinformationwithtopologicalstructureinformationto construct positive sample pairs.Toaddress theabove issues,thispaper proposed acontrastive graph clustering algorithmbased onmulti-evelfeaturefusionandenhancement.Tealgorithmfirstlyintegratednodefeaturesextractedfromdiferentnetwork layerstoenrichthelow-levelstructural informationofodes.Itthenaggegatednodeinformationthroughthelocaltopolgical correlationsandglobalsemanticsimilaritiesbetweennodestoenhancethecontextualconstraintconsistencyofnoderepresentations.Finaly,combiningconfidenceinformationandtopologicalstructureinformation,thealgorithmconstructedmoreig quality positivesamplepairs to improvetheconsistencyof intra-clusterrepresentation.Theexperimental results showthat CGCMFFEhas excelent performance on four widelyused clustering evaluation metrics.Theoretical analysis and experimental studyunderscoretherucialroleoflow-levelodefeatures,hig-orderneighbornodeinformation,confidence,andtopological structure information in the CGCMFFE algorithm,providing evidence for its superiority.
Key words:multi-level feature fusion;contrastive graph clustering;unsupervised learning
0 引言
深度圖聚類是一種利用深度學(xué)習(xí)將圖中節(jié)點(diǎn)數(shù)據(jù)映射到低維稠密向量空間,并以無監(jiān)督的方式將節(jié)點(diǎn)表示劃分為若干個(gè)不相交簇的技術(shù)[1]。該技術(shù)在社交網(wǎng)絡(luò)分析[2]、群組劃分[3]新聞主題劃分[4]等現(xiàn)實(shí)領(lǐng)域得到了廣泛應(yīng)用。圖中節(jié)點(diǎn)表示的質(zhì)量是深度圖聚類效果的關(guān)鍵影響因素,而節(jié)點(diǎn)特征的提取方法[5-7]和正負(fù)樣本對的構(gòu)建策略[8\~11]對節(jié)點(diǎn)表示的質(zhì)量具有重要影響。
近年的相關(guān)研究工作也主要聚焦于節(jié)點(diǎn)特征提取方法和正負(fù)樣本對的構(gòu)建策略兩方面。在節(jié)點(diǎn)特征提取方面, SDCN[6] 利用傳遞算子,首次實(shí)現(xiàn)了將自動(dòng)編碼器(AE)提取的節(jié)點(diǎn)屬性信息輸人到圖自動(dòng)編碼器(GAE)中,由GAE完成節(jié)點(diǎn)屬性信息與拓?fù)浣Y(jié)構(gòu)信息的融合,并將GAE最深層網(wǎng)絡(luò)輸出的頂層特征用于聚類?;赟DCN,AIJSS[提出了雙重交互融合模塊,該模塊將節(jié)點(diǎn)屬性信息和拓?fù)浣Y(jié)構(gòu)信息逐層融合并在網(wǎng)絡(luò)中交替?zhèn)鞑?,最終將融合模塊中的最深層網(wǎng)絡(luò)提取的頂層特征用于后續(xù)聚類任務(wù)。在正負(fù)樣本對的構(gòu)建策略方面,AGC-DRR和R2FGC[12]采用如圖1(a)所示的傳統(tǒng)對比策略,其中兩個(gè)不同視圖中的同一節(jié)點(diǎn)被視為正樣本對,不同節(jié)點(diǎn)則被視為負(fù)樣本對。在此基礎(chǔ)上,SCAGC[13]利用聚類信息增加正樣本對數(shù)量,將偽標(biāo)簽相同的節(jié)點(diǎn)視為正樣本對,其他節(jié)點(diǎn)視為負(fù)樣本對。
雖然以上算法在不同數(shù)據(jù)集上取得較好的聚類性能,但仍存在一些問題,主要包括:a)現(xiàn)有圖聚類模型僅利用最深層網(wǎng)絡(luò)輸出的頂層特征生成節(jié)點(diǎn)表示并用于后續(xù)聚類任務(wù),容易導(dǎo)致節(jié)點(diǎn)特征過度平滑,從而降低節(jié)點(diǎn)間的可區(qū)分度;b)通?;趫D卷積網(wǎng)絡(luò)(GCN)的圖聚類模型僅通過聚合直接鄰居節(jié)點(diǎn)特征生成當(dāng)前節(jié)點(diǎn)表示,導(dǎo)致節(jié)點(diǎn)表示的上下文約束不足;c)現(xiàn)有構(gòu)建正負(fù)樣本對策略往往采用傳統(tǒng)對比策略或僅依賴聚類信息,導(dǎo)致構(gòu)建的正樣本對數(shù)量較少或質(zhì)量較低,影響簇內(nèi)表示一致性。
為解決上述問題,本文提出一種基于多層特征融合與增強(qiáng)的對比圖聚類算法(contrastivegraphclusteringbased onmulti-level featurefusionandenhancement,CGCMFFE)。該算法首先融合淺層網(wǎng)絡(luò)提取的底層特征與最深層網(wǎng)絡(luò)提取的頂層特征,以補(bǔ)充節(jié)點(diǎn)底層結(jié)構(gòu)信息;其次,從節(jié)點(diǎn)的局部拓?fù)湎嚓P(guān)性和全局語義相似度出發(fā),利用二階鄰接矩陣與多頭相似度量機(jī)制捕獲節(jié)點(diǎn)間的高階復(fù)雜聯(lián)系,以增強(qiáng)節(jié)點(diǎn)表示的上下文約束一致性;最后,基于設(shè)定的閾值,選取與簇中心節(jié)點(diǎn)近距的節(jié)點(diǎn)作為高置信度節(jié)點(diǎn),并利用拓?fù)浣Y(jié)構(gòu)中有邊相連的高置信度節(jié)點(diǎn)構(gòu)建正樣本對,從而在保證正樣本對質(zhì)量基礎(chǔ)上顯著增加其數(shù)量,進(jìn)一步提高簇內(nèi)表示一致性,進(jìn)而提升聚類性能。
1相關(guān)工作
近年來,在圖學(xué)習(xí)的眾多方向中,深度圖聚類備受關(guān)注[5.9]。根據(jù)學(xué)習(xí)機(jī)制,現(xiàn)有的深度圖聚類方法大致可分為生成式方法[5,6.14]、對比式方法[8.10.15]和對抗式方法[7,16.17]三類。在這些方法中,本文著重探討前兩類。
1.1生成式深度圖聚類
生成式深度圖聚類方法通過學(xué)習(xí)面向聚類的節(jié)點(diǎn)表示提升聚類性能[18]。為處理復(fù)雜的圖結(jié)構(gòu)數(shù)據(jù),近年來基于GCN的圖聚類方法被不斷提出,并在聚類任務(wù)中表現(xiàn)出良好性能。其中,文獻(xiàn)[19]首次將圖自動(dòng)編碼器(GAE)引入圖領(lǐng)域,通過重構(gòu)拓?fù)浣Y(jié)構(gòu)信息學(xué)習(xí)節(jié)點(diǎn)表示。在此基礎(chǔ)上,文獻(xiàn)[20]提出深度注意力嵌人圖聚類(DAEGC)方法。該方法采用注意力驅(qū)動(dòng)的策略學(xué)習(xí)鄰域節(jié)點(diǎn)特征,并將節(jié)點(diǎn)表示學(xué)習(xí)與聚類任務(wù)整合至統(tǒng)一框架,使模型學(xué)習(xí)的節(jié)點(diǎn)表示直接面向聚類進(jìn)行優(yōu)化,從而提高聚類性能。隨后,SDCN通過設(shè)計(jì)傳遞算子,將自編碼器與圖卷積網(wǎng)絡(luò)結(jié)合,增強(qiáng)節(jié)點(diǎn)屬性與拓?fù)浣Y(jié)構(gòu)信息的交互,使節(jié)點(diǎn)表示更加緊湊全面。DFCN[5進(jìn)一步引入屬性-結(jié)構(gòu)融合機(jī)制,加強(qiáng)節(jié)點(diǎn)表示的一致性學(xué)習(xí),以獲得更具共識(shí)的節(jié)點(diǎn)表示。DCP-DEC[21]則通過引入分布一致性約束來確保屬性信息和拓?fù)浣Y(jié)構(gòu)信息之間的一致性,從而有效提高節(jié)點(diǎn)表示質(zhì)量。
盡管上述方法在聚類任務(wù)中表現(xiàn)良好,但它們通常僅關(guān)注最深層網(wǎng)絡(luò)提取的頂層特征,忽視了淺層網(wǎng)絡(luò)提取的底層特征,導(dǎo)致節(jié)點(diǎn)間的可區(qū)分度較低。此外,大多數(shù)基于GCN的圖聚類模型僅依賴直接鄰居信息生成節(jié)點(diǎn)表示,未充分利用節(jié)點(diǎn)間的高階復(fù)雜聯(lián)系,限制了聚類性能。針對類似問題,本文借鑒文獻(xiàn)[22]在節(jié)點(diǎn)分類任務(wù)中通過殘差連接緩解特征過度平滑的方法,融合淺層和最深層網(wǎng)絡(luò)提取的特征,以增強(qiáng)節(jié)點(diǎn)的區(qū)分度。文獻(xiàn)[23]指出鄰居質(zhì)量影響節(jié)點(diǎn)分類性能,尤其在相似鄰居稀疏時(shí)節(jié)點(diǎn)表示易受噪聲鄰居干擾,因此提出聚合兩跳相似鄰居信息進(jìn)行改進(jìn),受此啟發(fā),本文引入高階的相似鄰居信息以提升節(jié)點(diǎn)表示質(zhì)量。對此,本文提出一個(gè)多層特征融合與增強(qiáng)模塊,將淺層和最深層網(wǎng)絡(luò)提取的特征融合,并引入高階鄰居信息以優(yōu)化節(jié)點(diǎn)表示,從而提升聚類性能。
1.2對比式深度圖聚類
對比式深度圖聚類方法通過構(gòu)建正負(fù)樣本對,設(shè)計(jì)對比損失拉近正樣本對、推遠(yuǎn)負(fù)樣本對的方式,實(shí)現(xiàn)聚類性能提升[24]。受對比學(xué)習(xí)在圖像分類[25]、知識(shí)圖譜[26]等領(lǐng)域成功應(yīng)用的啟發(fā),越來越多的對比式深度圖聚類方法[9.15]被提出。具體而言,MVGRL[27]將同一節(jié)點(diǎn)在局部和全局視圖下的表示視為正樣本對,其他節(jié)點(diǎn)表示視為負(fù)樣本對,通過最大化正樣本對的互信息、最小化負(fù)樣本對的互信息來優(yōu)化節(jié)點(diǎn)的局部與全局表示。DCRN[28]針對表示崩潰問題提出雙重信息相關(guān)性減少模塊,從樣本和特征角度增強(qiáng)同一節(jié)點(diǎn)在不同視圖下的相關(guān)性,降低了不同節(jié)點(diǎn)的相關(guān)性,以學(xué)習(xí)更具辨別力的節(jié)點(diǎn)表示。此外,SCAGC在構(gòu)建樣本對時(shí)引入聚類信息,將兩個(gè)視圖中偽標(biāo)簽相同的節(jié)點(diǎn)表示作為正樣本對,偽標(biāo)簽不同的作為負(fù)樣本對,從而緩解了傳統(tǒng)對比策略中誤將同簇節(jié)點(diǎn)視為負(fù)樣本對的問題,增強(qiáng)了簇內(nèi)表示一致性。類似地, GDCL[29] 通過從偽標(biāo)簽不同的簇中隨機(jī)選擇節(jié)點(diǎn)表示構(gòu)建負(fù)樣本對,有效減少假負(fù)樣本對,提升了節(jié)點(diǎn)表示的判別性。
在正負(fù)樣本對構(gòu)建方面,現(xiàn)有策略主要依賴置信度信息[15]或拓?fù)浣Y(jié)構(gòu)信息[18],雖然在一定程度上提高了樣本對質(zhì)量,但通常局限于單一信息。為此,本文提出了一種結(jié)合置信度信息和拓?fù)浣Y(jié)構(gòu)信息的正負(fù)樣本對構(gòu)建策略,并以兩者為約束,跨視圖生成更多高質(zhì)量的正樣本對。
2方法
CGCMFFE主要由多層特征融合與增強(qiáng)模塊、基于拓?fù)浣Y(jié)構(gòu)的可靠正樣本對構(gòu)建策略兩部分組成,如圖2所示。
2.1 符號定義
給定一個(gè)無向圖 ,其中: V={v1,v2,…,vN} 表示 G 中包含的 K 類節(jié)點(diǎn)的有限集; N 是節(jié)點(diǎn)數(shù)量; E 表示邊集; X∈RN×F 是節(jié)點(diǎn)屬性矩陣; F 是節(jié)點(diǎn)屬性維度; A∈RN×N 是原始鄰接矩陣,表示節(jié)點(diǎn)間的鄰接關(guān)系,若 Aij=1 ,則表示節(jié)點(diǎn)vi 與 vj 之間存在邊。
2.2多層特征融合與增強(qiáng)模塊
為引入對比思想并在雙視圖中生成節(jié)點(diǎn)表示,在融合多層特征前,首先對節(jié)點(diǎn)屬性矩陣 X 添加高斯噪聲,生成噪聲矩陣 和
。隨后,將
和
分別輸入至一對共享參數(shù)的AE、GAE網(wǎng)絡(luò)進(jìn)行編碼,獲得雙視圖中第 i(i=1,2) 個(gè)視圖的AE和GAE的第 m(m=1,2,3,4) 層網(wǎng)絡(luò)所學(xué)節(jié)點(diǎn)表示 Mmi 和 Hmi
在多層特征融合部分,首先拼接AE和GAE的第 j(j=1 2)層網(wǎng)絡(luò)提取的淺層特征 Mji 和 Hji ,獲得淺層節(jié)點(diǎn)表示 Z2i ,如式(1)所示。
隨后,AE和GAE的最深層網(wǎng)絡(luò)所學(xué)節(jié)點(diǎn)表示 M4i 和 H4i 進(jìn)行線性組合,獲得深層節(jié)點(diǎn)表示 Z4i ,如式(2)所示。
Z4i=αiM4i+(1-αα)H4i
其中: αi 是第 i 個(gè)視圖的可學(xué)習(xí)參數(shù),用于平衡節(jié)點(diǎn)屬性和拓?fù)浣Y(jié)構(gòu)信息的相對重要性。
接著,淺層節(jié)點(diǎn)表示 Z2i 和深層節(jié)點(diǎn)表示 Z4i 進(jìn)行線性運(yùn)算,以豐富節(jié)點(diǎn)的底層結(jié)構(gòu)信息,提升節(jié)點(diǎn)間的可區(qū)分度,獲得多層特征融合表示 ,如式(3)所示。
Zfi=βiFC(Z2i)+Z4i
其中: ?:βi 是第 i 個(gè)視圖的可學(xué)習(xí)參數(shù),用于調(diào)整 Z2i 在 Zfi 中的相對重要性;FC是一個(gè)線性層,將 Z2i 映射到與 Z4i 相同的維度。
最后,合并兩個(gè)視圖中的多層特征融合表示 zf1 和 Zf2 ,獲得雙視圖多層特征融合的節(jié)點(diǎn)表示 Zf ,如式(4)所示。
在特征增強(qiáng)部分,首先根據(jù)文獻(xiàn)[20]中的式(3)計(jì)算表征節(jié)點(diǎn)間二階拓?fù)湎嚓P(guān)性的鄰接矩陣 J ,然后利用 J 變換 Zf ,獲得局部拓?fù)湎嚓P(guān)性增強(qiáng)的節(jié)點(diǎn)表示 Zι ,如式(5)所示。
Zl=JZf
其次,為捕獲節(jié)點(diǎn)間的全局語義相似性,本節(jié)引入多頭相似度量機(jī)制。具體而言,首先從維度上均分Z得到Z和 Z,接著按式(6)計(jì)算基于 zι1 的全局語義相似性矩陣 S1 。
之后,基于 S1 對 zι1 加權(quán),得到全局語義相似性增強(qiáng)的節(jié)點(diǎn)表示 Zg1 。同樣地,通過 zl2 計(jì)算得到節(jié)點(diǎn)表示 Zg2 。然后,按式(7)融合 Zg1 和 Zg2 ,獲得全局語義相似性增強(qiáng)的綜合節(jié)點(diǎn)表示Zg。
最后, Zι 和 Zg 進(jìn)行線性組合,得到面向聚類的節(jié)點(diǎn)表示z ,如式(8)所示。
Z=γZg+Zl
其中: γ 是可學(xué)習(xí)參數(shù),用于調(diào)整 Zg 在 z 中的相對重要性。
2.3基于拓?fù)浣Y(jié)構(gòu)的可靠正樣本對構(gòu)建策略
受文獻(xiàn)[15]啟發(fā),提出一種基于拓?fù)浣Y(jié)構(gòu)的可靠正樣本對構(gòu)建策略。具體而言,首先對 z 執(zhí)行K-means聚類,并將聚類后各節(jié)點(diǎn)與簇中心節(jié)點(diǎn)間距作為節(jié)點(diǎn)的置信度分?jǐn)?shù) conF 。接著,基于CONF、超參數(shù) η∈[10% , 90% ]選取置信度排名前η 的 p 個(gè)節(jié)點(diǎn),得到高置信度節(jié)點(diǎn)集合 。
構(gòu)建一個(gè)與單位矩陣 I 形式相同的矩陣,再依據(jù)該矩陣、拓?fù)浣Y(jié)構(gòu)信息和高置信度節(jié)點(diǎn)集合 VH 計(jì)算樣本對關(guān)系矩陣o ,如式(9)所示。
其中: Oij=1 表示將節(jié)點(diǎn) vi 與 vj 構(gòu)建為正樣本對,反之則為負(fù)樣本對?;跇颖緦﹃P(guān)系矩陣 o ,設(shè)計(jì)了如圖1(b)所示的對比策略,跨視圖構(gòu)建了更多高質(zhì)量正樣本對,增強(qiáng)了視圖間和簇內(nèi)表示的一致性。
2.4 目標(biāo)優(yōu)化
按式(10)計(jì)算兩個(gè)視圖中的多層特征融合表示 Zf1 和 Zf2 之間的相似度,形成跨視圖節(jié)點(diǎn)相似矩陣 U
令跨視圖節(jié)點(diǎn)相似矩陣 U 近似于樣本對關(guān)系矩陣 o ,則對比損失 LMSE 的定義如式(11)所示。
最后,將多層特征融合與增強(qiáng)模塊和基于拓?fù)浣Y(jié)構(gòu)的可靠正樣本對構(gòu)建策略集成到一個(gè)框架中,則CGCMFFE的總體目標(biāo)函數(shù) L 定義如式(12)所示。
L=LMSE+LRES+λLKL
其中: LRES 表示節(jié)點(diǎn)屬性的均方誤差重構(gòu)損失; LKL 表示Kullback-Leibler散度損失。關(guān)于 LRES?LKL 和參數(shù) λ 的設(shè)計(jì)細(xì)節(jié)參見文獻(xiàn)[6]。CGCMFFE算法的流程如下:
算法1基于多層特征融合與增強(qiáng)的對比圖聚類算法
輸入:屬性矩陣 X ;鄰接矩陣 A ;聚類數(shù) K ;迭代輪數(shù) I ;第二階段訓(xùn)練的輪數(shù) ? ;超參數(shù) η?? (204號
輸出:聚類結(jié)果 y 。
預(yù)訓(xùn)練AE網(wǎng)絡(luò);
forepoch =1 to I 執(zhí)行:
由式(1)\~(4)獲得雙視圖多層特征融合的節(jié)點(diǎn)表示 Zf 經(jīng)式(5)\~(7)獲取局部拓?fù)湎嚓P(guān)性增強(qiáng)的節(jié)點(diǎn)表示 Zl 和全局語義相似性增強(qiáng)的綜合節(jié)點(diǎn)表示 Zg :由式(8)獲取面向聚類的節(jié)點(diǎn)表示 ,并對 z 執(zhí)行K-means
算法;
經(jīng)式(9)(10)獲取樣本對關(guān)系矩陣 o 和跨視圖節(jié)點(diǎn)相似矩陣 U .
if jgt;Φ 根據(jù)式(11)計(jì)算對比損失 LMSE 。
end if
通過最小化式(12)中的損失 L 來更新整個(gè)模型參數(shù)。
end for
對優(yōu)化后的節(jié)點(diǎn)表示 z 執(zhí)行K-means算法,獲得最終聚類結(jié)果 y □
3實(shí)驗(yàn)
3.1數(shù)據(jù)集
實(shí)驗(yàn)在ACM、DBLP、CITE和AMAP四個(gè)廣泛使用的圖數(shù)據(jù)集上進(jìn)行。這些數(shù)據(jù)集涵蓋了學(xué)術(shù)論文網(wǎng)絡(luò)、作者網(wǎng)絡(luò)、引文網(wǎng)絡(luò)和購物網(wǎng)絡(luò)等多個(gè)領(lǐng)域。此外,它們在數(shù)據(jù)規(guī)模、維度、類別上各不相同,有助于全面評估CGCMFFE算法的性能。數(shù)據(jù)集的相關(guān)匯總信息如表1所示。
3.2基線方法與評價(jià)指標(biāo)
為驗(yàn)證CGCMFFE模型的優(yōu)越性,本文選擇了8種方法進(jìn)行對比,這些方法可以分為經(jīng)典深度圖聚類方法( DEC[30] 、DAEGC、SDCN、 AGCC[31] )和基于對比的深度圖聚類方法(MVGRL、 GCA[10] 、 HomoGCL[32] NCLA[33] )。其中,DEC 通過迭代將節(jié)點(diǎn)嵌入學(xué)習(xí)與聚類結(jié)合,并對兩者進(jìn)行交替優(yōu)化。AGCC通過逐層替換圖的拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)表示來挖掘數(shù)據(jù)間的潛在連接關(guān)系。GCA通過評估節(jié)點(diǎn)特征和邊的重要性,提出了一種自適應(yīng)增強(qiáng)節(jié)點(diǎn)屬性和拓?fù)浣Y(jié)構(gòu)的策略。HomoGCL通過鄰居節(jié)點(diǎn)及其重要性來擴(kuò)展正樣本集合。NCLA利用多頭圖注意力機(jī)制,自適應(yīng)生成多個(gè)增強(qiáng)視圖,實(shí)現(xiàn)端到端的圖對比學(xué)習(xí)。其余基線已在第1章中介紹。
為評估CGCMFFE和所有基線模型的性能,本文采用4種標(biāo)準(zhǔn)且廣泛使用的性能評價(jià)指標(biāo):準(zhǔn)確率(accuracy,ACC)[13]歸一化互信息(normalized mutual information,NMI)[15]、平均蘭德指數(shù)(adjusted Rand index,ARI)[17]和宏觀 F1 分?jǐn)?shù)(macro F1 score, F1 )[18]。這些指標(biāo)的數(shù)值越大,代表模型性能越好。
3.3實(shí)現(xiàn)細(xì)節(jié)和參數(shù)設(shè)置
所有實(shí)驗(yàn)均在配備IntelCorei7-12650HCPU、NVIDIAGeForceRTX3050GPU和PyTorch1.13.0的計(jì)算機(jī)上完成。對比的8個(gè)基線模型按原始文獻(xiàn)參數(shù)設(shè)置復(fù)現(xiàn),并報(bào)告相應(yīng)的聚類結(jié)果。在CGCMFFE中,ACM、DBLP和AMAP數(shù)據(jù)集上的學(xué)習(xí)率設(shè)為1E-3,在CITE數(shù)據(jù)集上的學(xué)習(xí)率設(shè)為1E-4。CGCMFFE對超參數(shù) λ 不敏感,故本文沿用基線方法SDCN的設(shè)置,將 λ 設(shè)為0.1。超參數(shù) η 表示納入高置信區(qū)域的節(jié)點(diǎn)比例,根據(jù)3.6節(jié)實(shí)驗(yàn)結(jié)果取優(yōu),本文在ACM數(shù)據(jù)集上將 η 設(shè)為70% ,在其余三個(gè)數(shù)據(jù)集上將 η 設(shè)為 50% 。此外,為減小單次結(jié)果的隨機(jī)性,本文遵循領(lǐng)域常規(guī)做法,將每種方法運(yùn)行10次,并取其平均值作為聚類結(jié)果。
3.4實(shí)驗(yàn)結(jié)果
如表2所示,所有模型的聚類結(jié)果包含平均值和標(biāo)準(zhǔn)差,其中加粗和下畫線的數(shù)值分別表示最佳和次優(yōu)結(jié)果。根據(jù)實(shí)驗(yàn)結(jié)果,得出以下結(jié)論:
a)CGCMFFE幾乎在四個(gè)數(shù)據(jù)集上均取得最佳聚類結(jié)果,表明其具有良好泛化能力。例如,在DBLP數(shù)據(jù)集上,CGCM-FFE在ACC、NMI、ARI和 F1 方面分別比次優(yōu)方法GCA高1.65、1.34、2.52和2.24百分點(diǎn)。這些顯著提升不僅驗(yàn)證了CGCMFFE的聚類效果,也表明多層特征融合與增強(qiáng)模塊、基于拓?fù)浣Y(jié)構(gòu)的可靠正樣本對構(gòu)建策略有效提升了節(jié)點(diǎn)表示的質(zhì)量。
b)CGCMFFE的各項(xiàng)評測指標(biāo)均高于經(jīng)典深度圖聚類方法。例如,在ACM數(shù)據(jù)集上,相較于AGCC模型,CGCMFFE的ACC提升了1.24百分點(diǎn),NMI提升了1.84百分點(diǎn),ARI提升了2.89百分點(diǎn), F1 提升了1.26百分點(diǎn),這主要?dú)w功于CGCM-FFE通過對比方法能更好地學(xué)習(xí)到跨視圖特征,并充分利用多視圖一致性信息。
c)CGCMFFE的各項(xiàng)評測指標(biāo)幾乎高于基于對比學(xué)習(xí)的深度圖聚類方法。例如,在ACM數(shù)據(jù)集上,CGCMFFE的ACC、NMI、ARI和 F1 分別比MVGRL模型高出3.46、5.82、8.5和3.34百分點(diǎn),這說明結(jié)合置信度信息和拓?fù)浣Y(jié)構(gòu)信息構(gòu)建的正樣本對更為可靠,有助于提高簇內(nèi)表示一致性。然而,在AMAP數(shù)據(jù)集上,CGCMFFE模型的 F1 指標(biāo)取得了次優(yōu)結(jié)果。由于AMAP數(shù)據(jù)集下各類別節(jié)點(diǎn)數(shù)量分布極不均勻,某些類別節(jié)點(diǎn)數(shù)量很少,加之本文正樣本對構(gòu)建策略較NCLA更為嚴(yán)格,使得少數(shù)類下節(jié)點(diǎn)的正樣本數(shù)量較少,導(dǎo)致模型對正樣本學(xué)習(xí)不足,產(chǎn)生了更多假正例,所以 F1 分?jǐn)?shù)低于NCLA。
3.5消融研究
本節(jié)基于SDCN模型,通過引入多層特征融合與增強(qiáng)模塊、傳統(tǒng)對比策略和基于拓?fù)浣Y(jié)構(gòu)的可靠正樣本對構(gòu)建策略,設(shè)計(jì)了B、B-M、B-C、B-M-T和B-M-C五個(gè)模型,并在四個(gè)數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。這些模型的結(jié)構(gòu)描述如表3所示。
圖3展示了消融實(shí)驗(yàn)中對多層特征融合與增強(qiáng)模塊和基于拓?fù)浣Y(jié)構(gòu)的可靠正樣本對構(gòu)建策略有效性的驗(yàn)證結(jié)果,基于此,可以得到以下幾點(diǎn)結(jié)論:
a)B-M在四個(gè)數(shù)據(jù)集上的表現(xiàn)一致優(yōu)于B。例如,在DBLP數(shù)據(jù)集上,B-M的四個(gè)指標(biāo)相較于B分別提升了4.3、4.73、4.21和6.14百分點(diǎn),這表明在基線模型的訓(xùn)練中引入多層特征融合與增強(qiáng)模塊可以提高節(jié)點(diǎn)間的可區(qū)分度,增強(qiáng)節(jié)點(diǎn)表示的上下文約束一致性,從而提升聚類性能。
b)B-M-C在四個(gè)數(shù)據(jù)集上的表現(xiàn)一致優(yōu)于B-M-T。以AMAP數(shù)據(jù)集為例,B-M-C的ACC較B-M-T提升了1.77百分點(diǎn)。這表明,與傳統(tǒng)對比策略相比,基于拓?fù)浣Y(jié)構(gòu)的可靠正樣本對構(gòu)建策略構(gòu)建了更多高質(zhì)量正樣本對,提升了簇內(nèi)表示的一致性和模型的準(zhǔn)確性。
c)B-M-C相較其他變體取得最佳聚類結(jié)果,進(jìn)一步驗(yàn)證了多層特征融合與增強(qiáng)模塊及基于拓?fù)浣Y(jié)構(gòu)的可靠正樣本對構(gòu)建策略的有效性。
d)觀察到B-M-C相較B在四個(gè)數(shù)據(jù)集上的性能提升幅度存在差異。這主要因?yàn)锽-M-C通過選取高置信度節(jié)點(diǎn)并結(jié)合拓?fù)浣Y(jié)構(gòu)信息構(gòu)建正樣本對,而AMAP數(shù)據(jù)集的邊數(shù)量較多,在AMAP數(shù)據(jù)集上更易構(gòu)建更多正樣本對。因此,B-M-C在AMAP數(shù)據(jù)集上的提升幅度遠(yuǎn)超ACM、DBLP和CITE數(shù)據(jù)集。
3.6超參數(shù) η 分析
高置信區(qū)域的節(jié)點(diǎn)比例 η 的數(shù)值在一定程度上決定樣本對的數(shù)量與質(zhì)量,從而作用于節(jié)點(diǎn)表示的質(zhì)量,并進(jìn)一步影響CGCMFFE算法的性能,實(shí)驗(yàn)時(shí)將其設(shè)置在 [10%,90%]. 1。圖4展示了超參數(shù) η 對CGCMFFE算法的影響,根據(jù)實(shí)驗(yàn)結(jié)果,可以得出以下結(jié)論:
c)當(dāng) ηgt;70% 時(shí),過高的置信偽標(biāo)簽可能導(dǎo)致網(wǎng)絡(luò)在訓(xùn)練過程中強(qiáng)化潛在錯(cuò)誤信息,從而引發(fā)確認(rèn)偏差[15]
a)當(dāng) η∈[50%,70%] 時(shí),模型取得較好的性能;
b)當(dāng) ηlt;50% 時(shí),納入高置信區(qū)域的節(jié)點(diǎn)比例較小,導(dǎo)致正樣本對數(shù)量較少,簇內(nèi)表示的一致性較低,模型對節(jié)點(diǎn)的區(qū)分能力受到限制;
4結(jié)束語
為提升對比圖聚類算法的聚類性能,提出了基于多層特征融合與增強(qiáng)的深度圖聚類算法(CGCMFFE)。該算法首先將淺層網(wǎng)絡(luò)提取的底層特征與最深層網(wǎng)絡(luò)提取的頂層特征融合,以補(bǔ)充節(jié)點(diǎn)的底層結(jié)構(gòu)信息,有效提升了節(jié)點(diǎn)間的可區(qū)分度;其次,從局部和全局角度捕獲節(jié)點(diǎn)間的高階復(fù)雜聯(lián)系,從而增強(qiáng)節(jié)點(diǎn)表示的上下文約束一致性;最后,利用基于拓?fù)浣Y(jié)構(gòu)的可靠正樣本對構(gòu)建策略,增強(qiáng)視圖間和簇內(nèi)表示的一致性,從而提升了聚類性能。實(shí)驗(yàn)結(jié)果表明,在深度圖聚類任務(wù)中,融合節(jié)點(diǎn)的底層特征與頂層特征、捕捉并利用節(jié)點(diǎn)間的高階復(fù)雜聯(lián)系,以及構(gòu)建更多高質(zhì)量的正樣本對,均能有效提升聚類性能。
實(shí)驗(yàn)結(jié)果驗(yàn)證了CGCMFFE的有效性和優(yōu)越性,但本文模型在高度不均衡數(shù)據(jù)集上的適用性較低,未來可對此進(jìn)行改進(jìn)。
參考文獻(xiàn):
[1]Liu Yue,YangXihong,Zhou Sihang,etal.Hardsampleawarenetwork forcontrastive deep graphclustering[C]//Proc ofAAAI ConferenceonArtificialIntelligence.PaloAlto,CA:AAAIPress,2023: 8914-8922.
[2]Hu Pengwei,ChanKCC,He Tiantian,et al.Deep graph clustering insocialnetwork[C]//Proc ofthe26thInternationalConferenceon WorldWideWebCompanion.NewYork:ACM Press,2017:1425- 1426.
[3]Kim SY,Jung TS,Suh EH,et al.Customer segmentation and strategydevelopmentbased on customer lifetime value:a case study[J]. ExpertSystemswithApplications,2006,31(1):101-107.
[4]Yang Shuang,Tang Yan. News topic detection based on capsule semantic graph[J].BigData Miningand Analytics,2022,5(2): 98-109.
[5]Tu Wenxuan,Zhou Sihang,Liu Xinwang,et al.Deep fusion clustering network [U 」//Proc of AAAl Conterence on Artiticial Intelgence.Palo Alto,CA: AAAI Press,2021: 9978-9987.
[6]Bo Deyu,Wang Xiao, Shi Chuan,et al. Structural deep clustering network[C]//Proc of Web Conference. New York:ACM Press, 2020:1400-1410.
[7]Li Yafang,Lin Xiumin,Jia Caiyan,et al.Adversarially deep interativefused embedding clustering via joint self-supervised networks [J]. Neurocomputing,2024,601:128205.
[8]Zhang Yuhao,Jiang Hang,Miura Y,et al.Contrastive learning of medical visual representations from paired images and text[C]// Proc of the 7th Machine Learning for Healthcare Conference.[S. 1.]:PMLR,2022:2-25.
[9]Gong Lei,Zhou Sihang,Tu Wenxuan,et al.Atributed graph clusteringwithdual redundancyreduction[C]//Proc of the31st International Joint Conference on Artificial Intelligence.2022:3015-3021.
[10] Zhu Yanqiao,Xu Yichen,Yu Feng,et al.Graph contrastive learning with adaptive augmentation[C]//Proc of Web Conference.New York:ACMPress,2021:2069-2080.
[11]朱玄燁,孔兵,陳紅梅,等.困難樣本采樣聯(lián)合對比增強(qiáng)的深度 圖聚類[J].計(jì)算機(jī)應(yīng)用研究,2024,41(6):1769-1777.(Zhu Xuanye,Kong Bing,Chen Hongmei,et al.Deep graph clustering with hard sample sampling joint contrastive augmentation [J].Application Research of Computers,2024,41(6):1769-1777.)
[12]Yi Siyu, Ju Wei, Qin Yifang,et al. Redundancy-free self-supervised relational learning for graph clustering[J].IEEE Trans on Neural Networks and Learning Systems,2024,35(12):18313-18327.
[13]Xia Wei,Wang Qianqian,Gao Quanxue,et al. Self-consistent contrastive attributed graph clusteringwith pseudo-label prompt[J]. IEEETransonMultimedia,2022,25:6665-6677.
[14]Zhu Pengfei,Li Jialu,Wang Yu,et al.Collaborative decisionreinforced self-supervision for atributed graph clustering[J]. IEEE Trans on Neural Networks and Learning Systems,2023,34 (12):10851-10863.
[15]Yang Xihong,Liu Yue,Zhou Sihang,etal.Cluster-guided contrastive graph clustering network[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2023:10834-10842.
[16]Pan Shirui,Hu Ruiqi,F(xiàn)ung SF,etal. Learning graph embedding with adversarial training methods [J]. IEEE Trans on Cybernetics,2020,50(6):2475-2487.
[17]Yang Liang,Wang Yuexue,Gu Junhua,et al. JANE: jointly adversarial network embedding[C]//Proc of International Joint Conference on Artificial Intelligence.2020:1381-1387.
[18]Liu Yue,Yang Xihong, Zhou Sihang,et al. Simple contrastive graph clustering[J]. IEEE Trans on Neural Networks and Learning Systems,2024,35(10):13789-13800.
[19]Kipf TN,Welling M.Variational graph auto-encoders[EB/OL]. (2016-11-21) . https://doi.org/10.48550/arXiv.1611.07308.
[20]Wang Chun,Pan Shirui,Hu Ruiqi,et al.Atributed graph clustering: a deep attentional embedding approach [EB/OL].(2019-06- ID). https://do1. 0rg/10. 4855U/arXiv. 190b.00532.
[21]ZhengYimei,JiaCaiyan,Yu Jian,etal.Deepembedded clustering with distribution consistency preservation for attributed networks [J]. Pattern Recognition,2023,139:109469.
[22]Guo Yuhe,Wei Zhewei,Guo Yuhe,et al.Clenshaw graph neural networks[C]//Proc of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York:ACM Press, 2023:614-625.
[23]Chen Hao,Huang Zhong,Xu Yue,et al.Neighbor enhanced graph convolutionalnetworks for node classification and recommendation [J].Knowledge-Based Systems,2022,246:108594.
[24]Hu Haigen,Wang Xiaoyuan,Zhang Yan,et al.A comprehensive survey on contrastive learning[J].Neurocomputing,2O24,610: 128645.
[25]Wang Peng,Han Kai,Wei Xiushen,et al. Contrastive learning basedhybrid networksfor long-tailed image classification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:943-952.
[26]YangYuhao,HuangChao,XiaLianghao,etal.Knowledgegraph contrastive learning for recommendation [C]//Proc of the 45th International ACM SIGIR Conference on Research and Development in InformationRetrieval. New York:ACMPress,2022:1434-1443.
[27]Hassani K,Khasahmadi A H. Contrastive multi-view representation learning on graphs [EB/OL]. (2020-06-10). https://arxiv. org/ abs/2006.05582.
[28]Liu Yue,Tu Wenxuan, Zhou Sihang,et al. Deep graph clustering via dual correlation reduction[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press,2022:7603-7611.
[29]Zhao Han,YangXu,Wang Zhenru,etal.Graph debiased contrastive learning with joint representation clustering [C]//Proc of the 30th International Joint Conference on Artificial Intelligence.Red Hook, NY:Curran Associated Inc.,2021:3434-3440.
[30]Xie Junyuan,Girshick R,F(xiàn)arhadi A.Unsupervised deep embedding for clustering analysis [EB/OL].(2015-11-19). htps://arxiv. org/abs/1511.06335.
[31]He Xiaxia,Wang Boyue,Hu Yongli,et al.Parallelly adaptive graph convolutional clustering model [J]. IEEE Trans on Neural Networksand Learning Systems,2024,35(4):4451-4464.
[32]Li Wenzhi,Wang Changdong,XiongHui,et al.HomoGCL:rethinking homophily in graph contrastive learning [C]//Proc of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. NewYork:ACMPress,2023:1341-1352.
[33]Shen Xiao,Sun Dewang,Pan Shirui,et al.Neighbor contrastive learning on learnable graph augmentation [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2023: 9782-9791.
[34]Kulatilleke G K,Portmann M,Chandra S S. SCGC:self-supervised contrastive graph clustering[J].Neurocomputing,2O25,611: 128629.