關(guān)鍵詞:異質(zhì)圖;自監(jiān)督算法;節(jié)點(diǎn)嵌入;高階鄰域
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2025)07-012-2011-07
doi:10.19734/j. issn.1001-3695.2024.11.0493
Abstract:Toaddress theissue thatcurrentself-supervised neuralnetwork algorithms donotconsider theimpactofhighorder node information whenobtaining neighborhood node weights,thispaper proposedaself-supervised heterogeneous graph embeddingalgorithmbasedonhigh-orderneighborhood informationinteraction(SSHGEA-HNI).Itenhancedlocaloptimization capabilitiesandmodelperformancebyaddingafeedforwardfullconnectedlayerintheattentionmechanism tocapturehighorderneighborhoodnodefeatures.Thealgorithmconsistedofalabel generationmoduleandanembeddinglearning module.The label generation module produced pseudo-labels for nodesthrough label propagation,which servedassupervisorysignals to guidetheembedding generationmodule to produceembeddings.Theembedding learning module generatedembeddings andattentioncoeffcientsthroughtheatentionmechanismbasedonhighorderneighborhoodinformationinteraction,withtheaentioncoeffcientsusedtoguidethelabelgeneration module toproduce pseudo-labels.Ineach iteration,thetwo modules shared node atentioncoeficients,promoting mutual utilizationandenhancementbetweenthetwo modules.Experimentswereconductedonfourreal heterogeneous graphdatasets,withimprovementsobserved intheclusteringand clasification tasksof most datasets.Theexperimental results demonstrate thatthe modelcan efectivelyutilize high-order node information.
Key words:heterogeneous graph;self-supervised algorithm;node embedding;high-order neighborhood
0 引言
近年來,由于圖嵌入[1,2]在分析圖結(jié)構(gòu)數(shù)據(jù)過程中十分重要,導(dǎo)致圖嵌人技術(shù)發(fā)展十分迅速。基于神經(jīng)網(wǎng)絡(luò)的方法因其強(qiáng)大的學(xué)習(xí)能力,在圖嵌入方面取得了優(yōu)異的成績[3.4]
首先,本文從半監(jiān)督和自監(jiān)督的角度對圖嵌入算法的現(xiàn)有工作進(jìn)行了系統(tǒng)總結(jié)。由于半監(jiān)督神經(jīng)網(wǎng)絡(luò)嵌入方法在利用未標(biāo)注數(shù)據(jù)方面的優(yōu)勢性能,使其受到研究者的青睞。在過去幾年中,F(xiàn)u等人[5]提出了MAGNN這一元路徑聚合圖神經(jīng)網(wǎng)絡(luò),有效解決了異質(zhì)圖嵌入方法中存在的問題,如節(jié)點(diǎn)內(nèi)容特征丟失、元路徑中間節(jié)點(diǎn)被忽視以及單一元路徑的局限性。緊接著,Hong等人[提出了一種異質(zhì)圖結(jié)構(gòu)注意力神經(jīng)網(wǎng)絡(luò)。該模型無須依賴元路徑即可直接對異質(zhì)圖的結(jié)構(gòu)信息進(jìn)行編碼,從而克服了異質(zhì)圖嵌人算法過度依賴元路徑的缺陷。此外,Zhao等人[首次嘗試研究保留異質(zhì)圖嵌人的網(wǎng)絡(luò)模式,提出了NSHE模型,成功解決了元路徑選擇這一關(guān)鍵問題。
在提升模型性能方面,Li等人[8提出了一種名為SCHAIN的半監(jiān)督算法。該算法將對象屬性和元路徑與加權(quán)方案相結(jié)合,制定了對象聚類的相似度矩陣,有效解決了對象屬性值相似性和結(jié)構(gòu)連通性方面的問題。與此同時(shí), Yin 等人提出了一種新穎的半監(jiān)督學(xué)習(xí)框架,利用基于異構(gòu)圖神經(jīng)網(wǎng)絡(luò)的嵌入來封裝組織結(jié)構(gòu)內(nèi)的復(fù)雜關(guān)系以及用戶和資源之間的交互,為相關(guān)研究提供了新的思路。最后,Chen等人[10]針對復(fù)雜圖中由于不均勻分布和強(qiáng)聚類形成的負(fù)曲率導(dǎo)致的信息過度壓縮問題,提出了一種具有多級數(shù)據(jù)增強(qiáng)的半監(jiān)督異質(zhì)圖學(xué)習(xí)方法,進(jìn)一步拓展了圖嵌入算法的應(yīng)用范圍和研究深度。
但是,以上所論述的半監(jiān)督方法在性能上過度依賴于高質(zhì)量的真實(shí)標(biāo)簽,在實(shí)際生活中,獲取高質(zhì)量的標(biāo)簽是十分困難的[11]。為了充分利用大量的未被標(biāo)記的信息,圖上的自監(jiān)督學(xué)習(xí)(self-supervisedlearning,SSL)已成為一個(gè)熱門的研究課題,并在各種任務(wù)上取得了較好的成績[12]。Yang 等人[13]提出了一種名為SHGP的自監(jiān)督異構(gòu)圖預(yù)訓(xùn)練方法,它不需要生成任何正例或負(fù)例,解決了以往方法需要定制各種策略來生成高質(zhì)量正例和負(fù)例的問題。Hayat等人[14]提出了一種自監(jiān)督異構(gòu)超圖學(xué)習(xí)框架,通過捕獲圖級分類中異構(gòu)性的豐富性和高階連接性來提高模型性能。解決了現(xiàn)有自監(jiān)督方法中忽略異質(zhì)圖中節(jié)點(diǎn)之間的非成對關(guān)系的問題。Wang等人[15]提出了一種新穎的無負(fù)樣本自監(jiān)督異質(zhì)圖學(xué)習(xí)框架,解決了現(xiàn)有對比學(xué)習(xí)方法的性能高度依賴于負(fù)樣本選擇策略的問題。Cao等人[16]使用自監(jiān)督學(xué)習(xí)框架來利用短文本特征和圖結(jié)構(gòu)中的相似性信息來推斷偽標(biāo)簽并對偽標(biāo)簽進(jìn)行分類,緩解了訓(xùn)練數(shù)據(jù)標(biāo)簽稀缺的問題。Li等人[1]提出了一種基于語義強(qiáng)度和特征相似性的異質(zhì)圖神經(jīng)網(wǎng)絡(luò)自監(jiān)督學(xué)習(xí)模型(HetGNN-SF)。解決了忽略圖中不同語義之間的復(fù)雜交互和節(jié)點(diǎn)特征重要性的問題。Gao等人[18]通過自監(jiān)督學(xué)習(xí)自動學(xué)習(xí)數(shù)據(jù)之間的相關(guān)性,并利用編碼和解碼注意力來加強(qiáng)數(shù)據(jù)之間的相關(guān)性,從而提高數(shù)據(jù)融合。Wei等人[19]提出了一種基于自監(jiān)督圖神經(jīng)網(wǎng)絡(luò)(SGNN)的方法。通過網(wǎng)絡(luò)模式視圖和元路徑視圖之間的對比學(xué)習(xí)進(jìn)行自監(jiān)督,來捕獲不同角度的元路徑的局部和全局信息,解決了基于元路徑的學(xué)習(xí)模型只考慮元路徑的端到端關(guān)系,忽略了元路徑中間信息的問題。
自監(jiān)督嵌入方法由于不再需要真實(shí)標(biāo)簽,而在生活中得到了廣泛應(yīng)用。但在自監(jiān)督方法使用注意力機(jī)制時(shí),大多數(shù)自監(jiān)督方法未考慮到高階鄰域節(jié)點(diǎn)信息的影響。以圖1異質(zhì)圖為例進(jìn)行說明,傳統(tǒng)的注意力機(jī)制僅考慮了 p1 節(jié)點(diǎn)與 a1,a2,c1 、 節(jié)點(diǎn)之間的影響,并沒有考慮其余 a1σ°a2σ°c1σ°c2σ°t1σ°t2 節(jié)點(diǎn)之間的相互影響,導(dǎo)致了圖中信息利用不全的現(xiàn)象。
本文提出了一種基于高階鄰域信息交互的自監(jiān)督嵌入模型,旨在解決現(xiàn)有模型中節(jié)點(diǎn)信息利用不充分的問題。傳統(tǒng)監(jiān)督模型往往僅關(guān)注直接相連節(jié)點(diǎn)間的影響,未充分考慮高階節(jié)點(diǎn)信息,從而難以有效捕捉復(fù)雜的節(jié)點(diǎn)關(guān)系。本文算法在嵌入生成階段融入高階節(jié)點(diǎn)信息,助力模型深入挖掘節(jié)點(diǎn)間的深層次關(guān)系與相似性,進(jìn)而生成更高質(zhì)量的嵌入。
該算法由標(biāo)簽產(chǎn)生模塊與嵌入產(chǎn)生模塊協(xié)同運(yùn)作。標(biāo)簽產(chǎn)生模塊運(yùn)用標(biāo)簽傳播技術(shù),依據(jù)節(jié)點(diǎn)間的注意力系數(shù)為現(xiàn)有節(jié)點(diǎn)生成偽標(biāo)簽。隨后,嵌入產(chǎn)生模塊借助鄰域信息交互的注意力機(jī)制,產(chǎn)生預(yù)測標(biāo)簽,以偽標(biāo)簽和預(yù)測標(biāo)簽的交叉熵?fù)p失來調(diào)整節(jié)點(diǎn)注意力系數(shù),從而生成高質(zhì)量嵌入。
在這一過程中,注意力機(jī)制訓(xùn)練所得的參數(shù)被輸入至前饋全連接層,并在此層進(jìn)行優(yōu)化。前饋全連接層的信息轉(zhuǎn)換作用具備交互性,使得節(jié)點(diǎn)在轉(zhuǎn)換過程中能夠獲取其他高階節(jié)點(diǎn)的信息。這為節(jié)點(diǎn)間注意力權(quán)重的優(yōu)化提供了更豐富的參考信息,有效克服了以往自監(jiān)督模型僅關(guān)注相連節(jié)點(diǎn)間影響的局限。具體而言,前饋全連接層憑借其強(qiáng)大的交互與表達(dá)能力,參照節(jié)點(diǎn)的鄰域信息對注意力參數(shù)進(jìn)行優(yōu)化調(diào)整。所有參數(shù)經(jīng)前饋全連接層處理后,實(shí)現(xiàn)了參數(shù)整合與轉(zhuǎn)換,融入了鄰域節(jié)點(diǎn)信息對其他鄰域節(jié)點(diǎn)的影響,從而提升了模型對節(jié)點(diǎn)間復(fù)雜關(guān)系的捕捉與表達(dá)能力。
1相關(guān)概念
定義1異質(zhì)圖[20]。異質(zhì)圖又稱異構(gòu)圖、異質(zhì)信息網(wǎng)絡(luò),是一種特殊的信息網(wǎng)絡(luò),可以表示為 G=(V,E) ,其中 V 表示節(jié)點(diǎn)集合 ??E 表示邊緣集合。異質(zhì)圖使用節(jié)點(diǎn)類型映射函數(shù)?:V?A 和邊緣類型映射函數(shù) φ:E?R 關(guān)聯(lián)節(jié)點(diǎn)和邊緣,其中A和 R 分別表示節(jié)點(diǎn)類型集合和邊緣(關(guān)系)類型集合。通常,當(dāng)節(jié)點(diǎn)類型的數(shù)量IAI和鏈接類型 ∣R∣ 符合 ∣A∣+∣R∣gt;2 時(shí),網(wǎng)絡(luò)可以被視為異質(zhì)圖,否則,該網(wǎng)絡(luò)為同質(zhì)圖。
定義2異質(zhì)圖嵌人[21]。對于給定異質(zhì)圖 G=(V,E) ,異質(zhì)圖嵌入任務(wù)是學(xué)習(xí)每個(gè)節(jié)點(diǎn) v∈V 在 d 維空間中的節(jié)點(diǎn)表示,從而方便進(jìn)行各種下游任務(wù),如鏈接預(yù)測[22,23]、社區(qū)發(fā)現(xiàn)[24,25]等。目標(biāo)是學(xué)習(xí)到一個(gè)函數(shù)f: , dlt;lt;∣V∣ ,其能夠捕獲到圖中的異質(zhì)結(jié)構(gòu)信息和語義信息。
定義3自監(jiān)督學(xué)習(xí)[26]。屬于無監(jiān)督學(xué)習(xí)的一種特殊形式,它不再依賴于高質(zhì)量的標(biāo)簽信息,而是使用數(shù)據(jù)本身的信息來產(chǎn)生偽標(biāo)簽,進(jìn)而學(xué)習(xí)潛在的特征和表示,然后將學(xué)習(xí)到的信息應(yīng)用到各個(gè)下游任務(wù)中。最常見的SSL范式是對比學(xué)習(xí),旨在學(xué)習(xí)同類型節(jié)點(diǎn)之間的共性,區(qū)別非同類型節(jié)點(diǎn)之間的差異。
2本文算法
該算法采用自監(jiān)督學(xué)習(xí)架構(gòu),來對標(biāo)簽產(chǎn)生模塊產(chǎn)生的偽標(biāo)簽和嵌入生成模塊生成的預(yù)測標(biāo)簽進(jìn)行對比,使用交叉熵作為損失函數(shù),并使用梯度下降來對注意力系數(shù)進(jìn)行優(yōu)化,并將優(yōu)化后的注意力系數(shù)作為下一輪標(biāo)簽產(chǎn)生模塊和嵌人生成模塊中的新權(quán)重,從而生成更好的偽標(biāo)簽和節(jié)點(diǎn)嵌人。算法的整體架構(gòu)如圖2(a)所示。
2.1 標(biāo)簽生成模塊
該模塊使用基于注意力的標(biāo)簽傳播算法(attentionbasedlabelpropagationalgorithm,att-LPA)對異質(zhì)圖節(jié)點(diǎn)的標(biāo)簽進(jìn)行更新,并在標(biāo)簽傳播算法收斂后,對小數(shù)量社區(qū)中的節(jié)點(diǎn)進(jìn)行標(biāo)簽修正。標(biāo)簽傳播算法的核心思想是通過對初始化的節(jié)點(diǎn)標(biāo)簽在節(jié)點(diǎn)之間傳播來更新節(jié)點(diǎn)的標(biāo)簽信息。假設(shè)異質(zhì)圖中的節(jié)點(diǎn)為 vi ,其鄰居集合為 N(i) ,則節(jié)點(diǎn) vi 根據(jù)鄰居節(jié)點(diǎn)的標(biāo)簽信息更新標(biāo)簽的公式如式(1)所示。
其中: 為本輪迭代中節(jié)點(diǎn) vi 的標(biāo)簽;
為上一輪迭代中 vj 的標(biāo)簽; wj 為節(jié)點(diǎn) vi 和鄰居節(jié)點(diǎn) vj 之間的注意力系數(shù) $\cdot \varmathbb { I }$ 為指示函數(shù),當(dāng)條件滿足時(shí)取值為1,否則為0。式(1)表示節(jié)點(diǎn) vi 會選擇其鄰居中注意力值累加最大的標(biāo)簽作為節(jié)點(diǎn)的新標(biāo)簽。
在標(biāo)簽傳播算法達(dá)到收斂時(shí),可能會出現(xiàn)節(jié)點(diǎn) vi 趨于鏈接權(quán)重值較大但數(shù)量較少的情況。在實(shí)際情況中,如果鏈接的數(shù)量差距較大,可能數(shù)量更能反映出節(jié)點(diǎn)的真實(shí)信息。因此,在修正節(jié)點(diǎn)的階段根據(jù)數(shù)量的傳播方式對節(jié)點(diǎn)標(biāo)簽進(jìn)行修正,如式(2)所示。
由于重要的節(jié)點(diǎn)往往會影響到更多的其他節(jié)點(diǎn),所以節(jié)點(diǎn)的更新順序也會對標(biāo)簽傳播結(jié)果產(chǎn)生重要的影響[27]。在實(shí)驗(yàn)的異質(zhì)圖中,由于 hub 類型節(jié)點(diǎn)與其他類型節(jié)點(diǎn)相連,而其他類型節(jié)點(diǎn)僅與hub相連。所以,可以認(rèn)定hub類型節(jié)點(diǎn)更重要。在修正標(biāo)簽時(shí),由于 類型節(jié)點(diǎn)擁有更多的信息,為了使標(biāo)簽信息更加穩(wěn)定,所以僅對非
類型節(jié)點(diǎn)進(jìn)行節(jié)點(diǎn)標(biāo)簽的修正。實(shí)驗(yàn)中用到的標(biāo)簽修正公式可以轉(zhuǎn)換為式(3)。
其中: hub(i) 為節(jié)點(diǎn) vi 的hub類型鄰居。修正示意圖如圖2(b)所示。
2.2 嵌入產(chǎn)生模塊
本文算法所采用的嵌入產(chǎn)生模塊是基于高階鄰域信息交互的異構(gòu)圖卷積網(wǎng)絡(luò)。在本文算法中,通過在注意力機(jī)制中引入前饋全連接層,使得節(jié)點(diǎn)能夠獲取其高階鄰域內(nèi)其他節(jié)點(diǎn)的信息,進(jìn)而實(shí)現(xiàn)節(jié)點(diǎn)與其高階鄰域節(jié)點(diǎn)之間的信息交互。這一過程有效地優(yōu)化了節(jié)點(diǎn)之間的注意力系數(shù),提升了模型對節(jié)點(diǎn)間復(fù)雜關(guān)系的捕捉與表達(dá)能力。
該模塊在ie-HGCN[28]網(wǎng)絡(luò)架構(gòu)作為基本編碼器,結(jié)合鄰域信息交互的注意力機(jī)制組成基于鄰域信息交互注意力的異質(zhì)圖卷積網(wǎng)絡(luò)(NIatt-HGNN)。其中,鄰域信息交互注意力的作用如圖2(c)所示。
在第 χt 輪迭代中,通過NIatt-HGNN模塊生成節(jié)點(diǎn)嵌入 H[t] 的公式如式(4)所示。
H[t]=NIatt-HGNN(W[t-1],G,X)
其中: W[t-1] 為模型在 t-1 輪時(shí)的參數(shù); G 為異質(zhì)圖的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu); X 為節(jié)點(diǎn)對象的特征。
在生成嵌人后,將嵌人 H(t] 輸人到NIatt-HGNN模型的
softmax分類器中,來產(chǎn)生預(yù)測標(biāo)簽 Y[t] ,如式(5)所示。
Y[t]=softmax(H[t]?C[t-1])
其中: C[t-1]?W[t-1] 表示 softmax 分類器在 t-1 輪迭代中的參數(shù)矩陣。
該模塊在具體的學(xué)習(xí)過程中,將節(jié)點(diǎn) vi 本身也添加到其鄰居的集合 N(i) 中。因此,邊 (i,i) 被添加到邊緣集合 E 中,其偽自關(guān)系 φ(i,i) 也被添加到關(guān)系集合 R 中。節(jié)點(diǎn) vi 產(chǎn)生新嵌入 hi′ 的公式如式(6)所示。
其中: σ 是非線性激活函數(shù); hj 是鄰居節(jié)點(diǎn) vj 的當(dāng)前嵌入表示; βiφ(i,j) 表示歸一化注意力系數(shù); 表示歸一化鏈接權(quán)重,其中
表示參數(shù)投影矩陣。
2.3 損失函數(shù)
損失函數(shù)被設(shè)計(jì)為嵌入產(chǎn)生模塊的預(yù)測標(biāo)簽 Y[t] 和偽標(biāo)簽生成模塊生成的偽標(biāo)簽 之間的交叉熵,如式(7)所示。
其中: K 表示簇的大小。使用交叉熵作為損失函數(shù)是因?yàn)槠渫ㄟ^最小化預(yù)測標(biāo)簽分布和偽標(biāo)簽分布之間的差異,直接對齊優(yōu)化目標(biāo),使預(yù)測標(biāo)簽的概率分布盡可能接近偽標(biāo)簽的分布,從而提高模型性能。根據(jù)損失函數(shù),通過梯度下降來優(yōu)化模型的參數(shù),如式(8)所示。
W[t]=W[t-1]-θ??WL[t]
其中:θ表示該模型的學(xué)習(xí)率。隨著梯度下降優(yōu)化的進(jìn)行,整個(gè)模型將學(xué)習(xí)到更好的參數(shù)來擬合數(shù)據(jù)。
2.4模型整體介紹
SSHGEA-HNI模型整體架構(gòu)如圖2所示。模型首先根據(jù)輸入的數(shù)據(jù)在標(biāo)簽生成模塊中為每一個(gè)節(jié)點(diǎn)生成對應(yīng)偽標(biāo)簽。與此同時(shí),在嵌入產(chǎn)生模塊中,將根據(jù)輸人的數(shù)據(jù)產(chǎn)生每個(gè)節(jié)點(diǎn)的嵌入表示和節(jié)點(diǎn)的預(yù)測標(biāo)簽。最后,通過損失函數(shù)計(jì)算節(jié)點(diǎn)的偽標(biāo)簽和預(yù)測標(biāo)簽之間的交叉熵,并通過梯度下降來對模型中節(jié)點(diǎn)之間的注意力系數(shù)進(jìn)行優(yōu)化。模型運(yùn)行流程偽代碼如下所示。
算法1 SSHGEA-HNI整體框架輸人:異質(zhì)圖 G ;模型參數(shù) ?W[t-1] ;異質(zhì)圖原始嵌入X
輸出:異質(zhì)圖嵌入H[]。
for n?N do
通過標(biāo)簽生成模塊生成節(jié)點(diǎn)的偽標(biāo)簽;
通過嵌入產(chǎn)生模塊產(chǎn)生節(jié)點(diǎn)嵌入 H[t] 和預(yù)測標(biāo)簽 Y[t] :
通過損失函數(shù)計(jì)算預(yù)測標(biāo)簽 Y[t] 和偽標(biāo)簽 的交叉熵?fù)p失;
通過梯度下降進(jìn)行模型的參數(shù)優(yōu)化;
end for
return H[t]
通過多輪迭代,模型的損失函數(shù)將達(dá)到收斂狀態(tài),并將此時(shí)嵌入產(chǎn)生模塊中生成的節(jié)點(diǎn)嵌入表示作為最終嵌入進(jìn)行保存,以便進(jìn)行下游任務(wù)。
3實(shí)驗(yàn)結(jié)果與分析
本章將介紹實(shí)驗(yàn)用到的數(shù)據(jù)集、基線方法、模型在任務(wù)中的表現(xiàn)和結(jié)果分析。在實(shí)驗(yàn)過程中,每個(gè)模型的指標(biāo)結(jié)果為10次任務(wù)的平均值,單次模型循環(huán)次數(shù)為200次,并且根據(jù)損失函數(shù)顯示,模型在200次循環(huán)時(shí),已經(jīng)獲得了穩(wěn)定的損失函數(shù)值,到達(dá)了收斂。其中SSHGEA-HNI- ??X 為在SSHGEA-HNI去掉修正標(biāo)簽?zāi)K,SSHGEA-HNI- σ?q 為在SSHGEA-HNI使用多頭注意力機(jī)制代替基于鄰域信息交互的注意力機(jī)制。模型代碼上傳到:https://github.com/hellojehu/SSHGEA-HNI。
3.1 數(shù)據(jù)集介紹
在實(shí)驗(yàn)中,使用MAG、ACM、DBLP和IMDB數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。這四個(gè)公開數(shù)據(jù)集均為異質(zhì)圖研究中經(jīng)常被用到的數(shù)據(jù)集。表1給出了四個(gè)數(shù)據(jù)集的詳細(xì)信息。
MAG(https://www.microsoft.com)是Microsoft AcademicGraph中提取的,包含論文、作者、機(jī)構(gòu)和領(lǐng)域四種對象類型,以及它們之間的八種關(guān)系。論文對象根據(jù)其發(fā)表的會議被分為IEEE光伏雜志、天體物理學(xué)、低溫物理學(xué)和應(yīng)用氣象學(xué)與氣候?qū)W雜志四類。
ACM(https://dl.acm.org)是從ACM數(shù)字圖書館中提取的,包含論文、作者和主題三種對象類型,以及它們之間的四種關(guān)系。論文對象根據(jù)其研究領(lǐng)域分為數(shù)據(jù)挖掘、數(shù)據(jù)庫和計(jì)算機(jī)網(wǎng)絡(luò)三類。
DBLP(https://dblp.uni-trier.de)是從DBLP參考書目中提取的,包含作者、論文、會議和術(shù)語四種對象類型,以及它們之間的六種關(guān)系。作者對象根據(jù)其四個(gè)研究領(lǐng)域進(jìn)行標(biāo)記:數(shù)據(jù)挖掘、信息檢索、數(shù)據(jù)庫和人工智能。
IMDB(https://www.imdb.com)是從在線電影評級網(wǎng)站IMDB中提取的,包含電影、演員、用戶和導(dǎo)演四種對象類型,以及它們之間的六種關(guān)系。電影對象根據(jù)其類型被分為喜劇、紀(jì)錄片、戲劇和恐怖四類。
3.2 基線方法
本文將 SSHGEA-HNI 與 HAN[29]. 、ie-HGCN(HGCN)、metapath2-vec[30](M2V)、DMGI[31]、HDGI、 SHGP[13] )SeHGNN[32]和MEGNN[33]模型進(jìn)行比較,來證明模型的優(yōu)越性。其中:M2V是一種基于隨機(jī)游走的傳統(tǒng)的異質(zhì)圖嵌入算法;DMGI、HDGI和SHGP是針對異質(zhì)圖研究的SSL方法;MEGNN使用元路徑提取的方式來獲得異質(zhì)圖嵌人;SeHGNN使用元路徑擴(kuò)展感受野來獲得嵌入。
3.3 評價(jià)指標(biāo)
本節(jié)將介紹實(shí)驗(yàn)中的評價(jià)指標(biāo)。對于聚類任務(wù),采用歸一化互信息(normalizedmutualinformation,NMI)和調(diào)整蘭德指數(shù)(adjustedrandindex,ARI)作為評價(jià)指標(biāo)。對于分類任務(wù),采用微觀 F1 分?jǐn)?shù)( micro-F1 )和宏觀 F1 分?jǐn)?shù)( macro-F1 )作為評價(jià)指標(biāo)。下面將詳細(xì)介紹每一種評價(jià)指標(biāo)的定義和作用。
歸一化互信息(NMI)[34]是一種用于度量兩個(gè)聚類結(jié)果相近程度的方法。NMI結(jié)合了互信息和熵的概念,通過對互信息進(jìn)行歸一化,使得不同維度的數(shù)據(jù)具有可比性。歸一化互信息的具體計(jì)算如式(9)所示。
其中: I(X;Y) 為隨機(jī)變量 (X;Y) 的互信息; H(X) 和 H(Y) 分別為 X 和 Y 的信息熵。NMI的取值在[0,1],值越大表示兩個(gè)聚類結(jié)果越相似,當(dāng)值為0時(shí)表示兩個(gè)聚類結(jié)果完全不一致;當(dāng)值為1時(shí)表示兩個(gè)聚類結(jié)果一致。
調(diào)整蘭德指數(shù)(ARI)[35]是蘭德指數(shù)(RI)的機(jī)會校正版本,是一種用于評估聚類效果的指標(biāo)。其可以衡量兩個(gè)數(shù)據(jù)分配(例如真實(shí)標(biāo)簽和聚類結(jié)果)之間的相似性,其取值為[-1,1]。當(dāng)ARI的值越大時(shí),表示聚類結(jié)果與真實(shí)標(biāo)簽越一致。其計(jì)算公式如式(10)所示。
微觀 F1 分?jǐn)?shù)( )和宏觀 F1 分?jǐn)?shù)(macro- F1 )是用于評估分類模型性能的兩種常用指標(biāo),它們基于 F1 分?jǐn)?shù),可以綜合考慮精確率和召回率。設(shè)第 i 類節(jié)點(diǎn)的精準(zhǔn)率和召回率分別為precision;和 recalli ,其中 micro?F1 的計(jì)算如下。
先計(jì)算所有類別總的精準(zhǔn)率 precisionmicro 和召回率 recallmicro 然后利用上述結(jié)果計(jì)算出micro ?F1 ,如式(11)所示。
由于微觀 F1 分?jǐn)?shù)在計(jì)算過程中考慮了各個(gè)類別的數(shù)量,所以更適用于數(shù)據(jù)分布不平衡的情況。macro- ?F1 的計(jì)算如下。
先對每個(gè)類別的精準(zhǔn)率 precisionmacro 和召回率 recallmacro 求平均值,如式(12)(13)所示。
然后使用上述結(jié)果計(jì)算出macro ?F1 ,如式(14)所示。
由于宏觀 F1 分?jǐn)?shù)在計(jì)算過程中每個(gè)類別的性能進(jìn)行獨(dú)立評估,并對所有類別的性能取平均值,所以更適用于數(shù)據(jù)分布平衡的情況。
3.4 分類任務(wù)
在分類任務(wù)中,無監(jiān)督模型在訓(xùn)練過程中不使用任何標(biāo)簽,產(chǎn)生嵌入后,本文使用學(xué)習(xí)到的節(jié)點(diǎn)嵌人和對應(yīng)標(biāo)簽訓(xùn)練線性邏輯回歸分類器,對節(jié)點(diǎn)進(jìn)行分類;對于半監(jiān)督模型,直接將它們的分類器輸出分類結(jié)果作為最終結(jié)果。經(jīng)過實(shí)驗(yàn)驗(yàn)證,訓(xùn)練集的樣本數(shù)量與模型的訓(xùn)練性能之間存在正比關(guān)系,考慮到效率因素,將在每個(gè)數(shù)據(jù)集上,對于具有真實(shí)標(biāo)簽的節(jié)點(diǎn)類型,本文隨機(jī)選擇 8% 的節(jié)點(diǎn)對象作為訓(xùn)練集,其余節(jié)點(diǎn)對象被平均劃分為驗(yàn)證集和測試集,采用micro ?F1 和macro ?F1 作為評價(jià)指標(biāo)。分類任務(wù)結(jié)果如表2所示。
通過觀察表2可以得知,ACM、DBLP、IMDB數(shù)據(jù)集在SSHGEA-HNI- σ?q 和SSHGEA-HNI ??X 模型上的指標(biāo)大多高于基線模型,證明了該修正標(biāo)簽方法和高階鄰域注意力方法的有效性。并且在大多數(shù)的情況下,最優(yōu)結(jié)果出現(xiàn)在SSHGEA-HNI模型上,證明了兩者結(jié)合的有效性。在分類任務(wù)的消融實(shí)驗(yàn)中,SSHGEA-HNI-q在大多數(shù)實(shí)驗(yàn)中對于指標(biāo)提升的影響與SSHGEA-HNI- σ?x 在大多數(shù)實(shí)驗(yàn)中的影響相比較小,因此,模型整體中節(jié)點(diǎn)信息交互模塊的作用對于修正小數(shù)量社區(qū)模塊的作用更加明顯,更加有效。
在MAG、ACM、DBLP數(shù)據(jù)集中SHGP方法和SSHGEA-HNI-q方法的指標(biāo)在大小上相差較小,經(jīng)過分析,這是由于在標(biāo)簽產(chǎn)生模塊達(dá)到收斂時(shí),節(jié)點(diǎn)已經(jīng)有了比較準(zhǔn)確的標(biāo)簽信息,此時(shí)再進(jìn)行節(jié)點(diǎn)標(biāo)簽的修正,涉及到需要修改標(biāo)簽的節(jié)點(diǎn)數(shù)量較少,所以對結(jié)果的影響變小。對于MAG數(shù)據(jù)集上的表現(xiàn)不如基線方法的情況,在后面章節(jié)中會專門進(jìn)行討論。
3.5 聚類任務(wù)
在聚類任務(wù)中,使用K-means聚類方法對嵌入結(jié)果進(jìn)行聚類,并使用NMI和ARI作為評價(jià)指標(biāo)。聚類任務(wù)結(jié)果如表3所示。
通過聚類結(jié)果表可以看到,最優(yōu)結(jié)果大多出現(xiàn)在本文算法中,證明了本文算法在聚類任務(wù)上的優(yōu)越性。SSHGEA-HNI-q和SSHGEA-HNI在大多數(shù)情況下評價(jià)指標(biāo)相差較小,表明修正標(biāo)簽操作對聚類任務(wù)的影響較小,出現(xiàn)這種現(xiàn)象是由于引入高階信息后,產(chǎn)生的嵌入更符合實(shí)際情況,使得在預(yù)測標(biāo)簽時(shí)更加符合實(shí)際情況,從而減弱了標(biāo)簽修正模塊的作用。經(jīng)過觀察表3可知,在聚類任務(wù)的消融實(shí)驗(yàn)中,SSHGEA-HNI-q在大多數(shù)情況下對于指標(biāo)提升的影響有限,而SSHGEA-HNI ??x 在大多數(shù)情況下對于指標(biāo)提升的影響則比較顯著。因此,信息交互模塊在聚類任務(wù)中對于性能提升的影響更大。
MAG數(shù)據(jù)集中SSHGEA-HNI-q指標(biāo)提升明顯,超過SSHGEA-HNI- ??X 和SSHGEA-HNI,這是由于在MAG數(shù)據(jù)集中存在hub節(jié)點(diǎn)之間的交叉引用。此時(shí)MAG異質(zhì)網(wǎng)絡(luò)變得更加復(fù)雜,更容易產(chǎn)生小數(shù)量的社區(qū),并且在進(jìn)行高階節(jié)點(diǎn)信息交互時(shí),容易引入噪聲信息。因此,出現(xiàn)SSHGEA-HNI- σP 提升,而SSHGEA-HNI- ??x 和SSHGEA-HNI性能下降的情況。
3.6 聚類可視化
在嵌入可視化實(shí)驗(yàn)部分,采用非線性降維算法 Φt -SNE將各個(gè)模型產(chǎn)生的嵌入結(jié)果從高維空間降維到二維空間中,并通過可視化技術(shù)將降維后的嵌人信息進(jìn)行圖表展示。在實(shí)驗(yàn)中,對DBLP數(shù)據(jù)集的嵌人進(jìn)行了可視化,結(jié)果如圖3所示。
通過對DBLP數(shù)據(jù)集上節(jié)點(diǎn)嵌入的可視化分析,可以清晰地觀察到不同簇之間的邊界更為明確,且同一簇內(nèi)的節(jié)點(diǎn)聚集程度更高,其分散性相較于SHGP模型顯著降低。這一結(jié)果有力地證明了SSHGEA-HNI模型生成的節(jié)點(diǎn)嵌人質(zhì)量優(yōu)于SHGP模型。因此,可以明確得出結(jié)論,SSHGEA-HNI模型能夠有效實(shí)現(xiàn)節(jié)點(diǎn)嵌入的優(yōu)化。
3.7 案例應(yīng)用
在生成嵌入后,將其進(jìn)行歸一化操作后,在下游鏈接預(yù)測任務(wù)中進(jìn)行應(yīng)用分析。在實(shí)驗(yàn)中采用向量點(diǎn)積的方法對保險(xiǎn)行業(yè)的問答異質(zhì)圖數(shù)據(jù)集進(jìn)行鏈接預(yù)測。其中,真實(shí)保險(xiǎn)異質(zhì)圖數(shù)據(jù)集包含268543條邊緣。
在閥值設(shè)為O.8時(shí),使用SSHGEA-HNI的嵌入能夠恢復(fù)的邊緣數(shù)量為247283。在其他方法中,效果最好的是SHGP,能夠恢復(fù)的邊緣數(shù)量為 240 367 。其中,SHGP恢復(fù)的邊緣數(shù)量占總數(shù)量的比值為 89.51% ,而SSHGEA-HNI恢復(fù)的邊緣數(shù)量占總數(shù)量的比值為 92.08% ,超過SHGP恢復(fù)邊緣占比為 2.57% 。
通過以上數(shù)據(jù)可知,在鏈接預(yù)測任務(wù)上,SSHGEA-HNI生成嵌入的質(zhì)量超過基線方法的質(zhì)量,嵌入更能符合真實(shí)網(wǎng)絡(luò)的節(jié)點(diǎn)情況。
3.8MAG中hub節(jié)點(diǎn)間引用分析
針對該方法在MAG數(shù)據(jù)集上表現(xiàn)欠佳的情況,本文進(jìn)行了深入分析。MAG的網(wǎng)絡(luò)結(jié)構(gòu)與DBLP數(shù)據(jù)集的網(wǎng)絡(luò)結(jié)構(gòu)對比如圖4所示。通過對MAG數(shù)據(jù)集異質(zhì)結(jié)構(gòu)的細(xì)致剖析,發(fā)現(xiàn)其網(wǎng)絡(luò)結(jié)構(gòu)與其他三個(gè)數(shù)據(jù)集存在兩處顯著差異。首先,MAG數(shù)據(jù)集的網(wǎng)絡(luò)結(jié)構(gòu)中存在hub類型節(jié)點(diǎn)(即P類型節(jié)點(diǎn))之間的相互連接,在圖4中表現(xiàn)為MAG數(shù)據(jù)集網(wǎng)絡(luò)結(jié)構(gòu)中論文節(jié)點(diǎn)之間的引用關(guān)系。其次,網(wǎng)絡(luò)結(jié)構(gòu)中還存在一種不與hub節(jié)點(diǎn)直接相連的節(jié)點(diǎn)類型 Io 具體而言,I類型節(jié)點(diǎn)與A節(jié)點(diǎn)直接相連,但并不與P節(jié)點(diǎn)直接相連接,在圖4表現(xiàn)為MAG數(shù)據(jù)集網(wǎng)絡(luò)結(jié)構(gòu)中機(jī)構(gòu)節(jié)點(diǎn)與作者節(jié)點(diǎn)之間的隸屬關(guān)系。
因此,為了確定效果不佳的具體原因,本文將分別對MAG數(shù)據(jù)集刪除P類型節(jié)點(diǎn)之間的相互引用,刪除不與 P 類型節(jié)點(diǎn)直接相連的I類型節(jié)點(diǎn),以及將兩個(gè)部分全刪除后觀察實(shí)驗(yàn)效果。其中對于分類任務(wù)的結(jié)果如圖5所示,聚類任務(wù)結(jié)果如圖6所示。
根據(jù)圖5的數(shù)據(jù)顯示,在分類任務(wù)中,刪除P類型節(jié)點(diǎn)之間的引用關(guān)系以及刪除兩部分關(guān)系后,模型性能均有較為明顯的提升。然而,當(dāng)僅刪除I類型節(jié)點(diǎn)而保留P類型節(jié)點(diǎn)的引用關(guān)系時(shí),模型性能并未顯著提高,反而部分指標(biāo)出現(xiàn)了下降。這表明,P類型節(jié)點(diǎn)之間的引用關(guān)系對模型在分類任務(wù)中的性能產(chǎn)生了削弱作用。
從圖6的分析結(jié)果來看,在聚類任務(wù)中,無論是刪除P類型節(jié)點(diǎn)之間的引用關(guān)系還是刪除I類型節(jié)點(diǎn),都能較為明顯地提升模型效果。而且,在同時(shí)刪除這兩部分關(guān)系后,模型效果依然得到了較為明顯的提升。由此可以推斷,P類型節(jié)點(diǎn)之間的引用關(guān)系和I類型節(jié)點(diǎn)均對模型性能產(chǎn)生了削弱影響。
在圖5和6中,模型的最佳性能均出現(xiàn)在僅刪除P類型節(jié)點(diǎn)之間引用關(guān)系的情況下,這進(jìn)一步證實(shí)了P類型節(jié)點(diǎn)之間的引用關(guān)系對模型性能具有較大的影響。圖7則展示了在未修改MAG數(shù)據(jù)集時(shí)SHGP模型的性能,以及在刪除P類型節(jié)點(diǎn)之間引用關(guān)系后的MAG數(shù)據(jù)集下,SSHGEA-HNI模型性能的對比情況。
在圖7的圖例中,“原始MAG”表示在未修改MAG數(shù)據(jù)集時(shí)SHGP模型的性能指標(biāo);“修改MAG”則表示在刪除PProc類型節(jié)點(diǎn)之間的引用關(guān)系后,MAG數(shù)據(jù)集下SSHGEA-HNI模型的性能指標(biāo)。觀察圖7可以發(fā)現(xiàn),對MAG數(shù)據(jù)集的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行修改后,相較于未修改時(shí)的SHGP模型,其在micro- ?F1 、NMI和ARI指標(biāo)上的性能有所提升;盡管在macro- ?F1 指標(biāo)上出現(xiàn)了下降,但降幅相對較小。由此現(xiàn)象可推斷,在MAG數(shù)據(jù)集中,P類型節(jié)點(diǎn)的引用關(guān)系對SSHGEA-HNI模型的性能產(chǎn)生了顯著影響,導(dǎo)致該模型在分類任務(wù)和聚類任務(wù)上的表現(xiàn)不如SHGP模型。
4結(jié)束語
本文基于SHGP模型進(jìn)行改進(jìn),通過修正節(jié)點(diǎn)標(biāo)簽來對偽標(biāo)簽進(jìn)行調(diào)整,使其更加符合現(xiàn)實(shí)情況,通過增加注意力機(jī)制可利用信息來解決模型沒有考慮到高階節(jié)點(diǎn)信息的影響,從而導(dǎo)致信息利用不全的問題。通過兩部分的改進(jìn)增強(qiáng)了模型在分類、聚類任務(wù)上的性能,并通過大量的實(shí)驗(yàn),證明了模型的優(yōu)越性。
參考文獻(xiàn):
[1]袁鳳燕,尹學(xué)松,王毅剛.面向無監(jiān)督特征提取的結(jié)構(gòu)化圖嵌入 [J].計(jì)算機(jī)應(yīng)用研究,2024,41(11):3343-3349.(Yuan Fengyan,Yin Xuesong,Wang Yigang.Structured graph embedding for unsupervised feature extraction[J].Application Research of Computers,2024,41(11) :3343-3349.)
[2]張敏,楊雨晴,賀艷婷,等.基于跨視圖原型非對比學(xué)習(xí)的異構(gòu)圖 嵌入模型[J].計(jì)算機(jī)應(yīng)用研究,2024,41(9):2611-2619.(Zhang Min,Yang Yuqing,He Yanting,et al.Heterogeneous graph embedding based on cross-view prototype non-contrastive learning[J].Application Research of Computers,2024,41(9):2611-2619.)
[3]Li Hongbo,Zheng Wenli,Tang Feilong,et al. Dynamic heterogeneous attributed network embedding[J].Information Sciences,2024, 662:120264.
[4] Zhou Silin,He Dan,Chen Lisi,et al. Heterogeneous region embedding with prompt learning[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA:AAAI Press,2023 :4981-4989.
[5]Fu Xinyu,Zhang Jiani,Meng Ziqiao,et al. MAGNN: metapath aggregated graph neural network for heterogeneous graph embeding[C]//Procof Web Conference.New York:ACM Press,202O:2331-2341.
[6]Hong Huiting,Guo Hantao,Lin Yucheng,et al.An attention-based graph neural network for heterogeneous structural learning[C]//Proc of AAAI Conference on Artificial Inteligence. Palo Alto,CA:AAAI Press,2020:4132-4139.
[7]Zhao Jianan,Wang Xiao,Shi Chuan,et al. Network schema preserving heterogeneous information network embedding[C]//Proc of the 29th International Joint Conference on Artificial Intellgence.[S.1.]: International Joint Conferences on Artificial Intelligence Organization, 2020:1366-1372.
[8]Li Xiang,Wu Yao,Ester M,et al.SCHAIN-IRAM: an efficient and effctive semi-supervised clustering algorithm for atributed heterogeneous information networks[J]. IEEE Trans on Knowledge and Data Engineering,2022,34(4) :1980-1992.
[9]Yin Jiao,Chen Guihong,Hong Wei,et al.A heterogeneous graphbased semi-supervised learning framework for access control decisionmaking[J].World Wide Web,2024,27(4):35.
[10] Chen Ying,Qiang Siwei,Ha Mingming,et al.Semi-supervised heterogeneous graph learning with multi-level data augmentation[J].ACM Trans on Knowledge Discovery from Data,2024,18(2):1-27.
[11]Ma Shuai,Liu Jianwei.Self-supervised contrastive learning for heterogeneous graph based on multi-pretext tasks [J]. Neural Computing and Applications,2023,35(14):10275-10296.
[12]Zhao Jianan,WenQianlong,SunShiyu,etal.Multi-viewselfsupervised heterogeneous graph embedding [M]//Oliver N,PérezCruz F,Kramer S,et al. Machine Learning and Knowledge Discovery in Databases. Cham:Springer,2021:319-334.
[13]Yang Yaming,Guan Ziyu,Wang Zhe,et al.Self-supervised heterogeneous graph pre-training based on structural clustering[C]//Proc of the 36th International Conference on Neural Information Processing Systems.Red Hook,NY: Curran Associates Inc.,2022:16962- 16974.
[14]Hayat M K,Xue Shan,Yang Jian. Self-supervised heterogeneous hypergraph learning with context-aware poling for graph-level classification[C]//Proc of IEEE International Conference on Data Mining.Piscataway,NJ:IEEE Press,2023:140-149.
[15]Wang Tianfeng,Pan Zhisong,Hu Guyu,et al.Self-supervised hetero geneousgraph learning with iterativesimilarity distillation[J]. Knowledge-Based Systems,2023,276:110779.
[16]Cao Meng,Yuan Jinliang,Yu Hualei,et al.Self-supervised short text clasification withheterogeneous graph neural networks[J].Expert Systems,2023,40(6):e13249.
[17]Li Chao,Liu Xinming,Yan Yeyu,et al. HetGNN-SF:self-supervised learning on heterogeneous graph neural network via semantic strength and feature similarity[J]. Applied Intellgence,2023,53(19): 21902-21919.
[18]Gao Weidong,Zhao Zhenwei. Self-supervised multi-source heterogeneous data fusion using encode and decode attention for intelligent medical device communication analysis[J]. IEEE Trans on Consumer Electronics,2024,70(1) :1318-1325.
[19]Wei Jinyang,Zhou Lihua, Wang Lizhen,et al. Self-supervised graph neural network based community search over heterogeneous information networks[M]// Meng Xiaofeng,Zhang Xueying,Hu Di,et al. Spatial Data and Inteligence.Singapore:Springer,2024:188-198.
[20]Mei Guangxu,Ye Siyuan,Liu Shijun,et al. Heterogeneous graphletsguidednetwork embedding via eulerian-trail-based representation [J].Information Sciences,2023,622:1050-1063.
[21]Hao Yunzhi, Wang Xinchao, Wang Xingen,et al. Walking with attention:self-guided walking for heterogeneous graph embedding[J]. IEEETrans on Knowledge and Data Engineering,2022,34 (12) :6047-6060.
[22]Hao Yu,Cao Xin,F(xiàn)ang Yixiang,et al.Inductive link prediction for nodes having only attribute information[C]//Proc of the29th International Joint Conference on Artificial Intelligence.[S.1.]:International Joint Conferences on Artificial Intelligence Organization,2O20:1209- 1215.
[23]BarracchiaEP,PioG,BifetA,et al.LP-ROBIN:linkprediction in dynamic networks exploiting incremental node embedding[J]. Information Sciences,2022,606:702-721.
[24]Zheng Yaping, Zhang Xiaofeng,Chen Shiyi,et al.When convolutional network meets temporal heterogeneous graphs :an effective community detection method[J]. IEEE Trans on Knowledge and Data Engineering,2023,35(2):2173-2178.
[25]Wu Yongliang,F(xiàn)u Yue, Xu Jiwei,et al. Heterogeneous question answering community detection based on graph neural network[J]. Information Sciences,2023,621:652-671.
[26]WangXiao,Liu Nian,Han Hui,et al.Self-supervised heterogeneous graph neural network with co-contrastive learning[C]//Proc of the 27th ACM SIGKDD Conference on Knowledge Discovery amp; Data Mining.New York:ACMPress,2021:1726-1736.
[27]Yue Yubin,Wang Guoyin,Hu Jun,et al.An improved label propagationalgorithm based on community core node and label importance for community detection in sparse network [J]. Applied Intelligence, 2023,53(14) :17935-17951.
[28]Yang Yaming,Guan Ziyu,Li Jianxin,et al.Interpretableand efficient heterogeneous graph convolutional network[J]. IEEE Transon Knowledge and Data Engineering,2023,35(2):1637-1650.
[29]Wang Xiao, Ji Houye,Shi Chuan,et al. Heterogeneous graph attention network[C]//Proc of the 28th International World WideWeb Conference.New York:ACMPress,2019:2022-2032.
[30] Dong Yuxiao, Chawla N V, Swami A. metapath2vec:scalable representation learning for heterogeneous networks[C]//Proc of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2017:135-144.
[31]Park C,Kim D,Han Jiawei,et al. Unsupervised atributed multiplex network embedding[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:5371-5378.
[32]Yang Xiaocheng,Yan Mingyu,Pan Shirui,et al.Simple and efficient heterogeneous graph neural network[ C]//Proc of AAAI Conference onArtificial Intellgence.Palo Alto,CA: AAAI Press,2023:10816- 10824.
[33] Chang Yaomin,Chen Chuan ,Hu Weibo,et al. MEGNN:meta-path extracted graph neural network for heterogeneous graph representation learming[J]. Knowledge-Based Systems,2022,235:107611.
[34] Liu Xin,Cheng Huimin, Zhang Zhongyuan. Evaluation of community detection methods[J]. IEEE Trans on Knowledge and Data Engineering,2020,32(9):1736-1746.
[35]Chakraborty T,Dalmia A,MukherjeeA,et al.Metrics for community analysis:a survey [EB/OL].(2016-04-12). https://arxiv.org/abs/ 1604.03512.