摘 要:為解決圖擴散方法在處理復(fù)雜邊關(guān)系時精度降低的局限性,提出了一種基于曲率的圖擴散神經(jīng)網(wǎng)絡(luò)。首先,引入Ollivier-Ricci曲率量化圖的邊曲率,提供關(guān)于圖結(jié)構(gòu)的幾何度量;其次,運用曲率調(diào)整隨機轉(zhuǎn)移矩陣的權(quán)重,根據(jù)幾何關(guān)系進行相應(yīng)的權(quán)重修改;最后,將處理后的曲率矩陣與圖擴散矩陣結(jié)合,更新權(quán)重系數(shù)進行模型訓(xùn)練。實驗結(jié)果表明,與傳統(tǒng)的圖擴散方法相比,改良后的方法保持了有效地平滑圖信號和減少高頻噪聲的優(yōu)點,并在不同邊和節(jié)點數(shù)量的數(shù)據(jù)集上將精度提高0.3~2.0百分點。該方法通過優(yōu)化圖擴散的消息聚合,能夠更有效地利用圖結(jié)構(gòu)中的節(jié)點信息和邊權(quán)重,從而提升節(jié)點分類任務(wù)中的模型性能,為未來基于圖方法的研究提供了更可靠的方法與實驗。
關(guān)鍵詞:圖神經(jīng)網(wǎng)絡(luò);圖擴散;Ollivier-Ricci曲率;節(jié)點分類
中圖分類號:TP391"" 文獻標志碼:A
文章編號:1001-3695(2025)01-023-0165-06
doi: 10.19734/j.issn.1001-3695.2024.06.0192
Graph diffusion node classification algorithm based on Ollivier-Ricci curvature
Abstract:To address the limitations of reduced accuracy in graph diffusion methods when handling complex edge relationships, this paper proposed a curvature-based graph diffusion neural network. The method introduced Ollivier-Ricci curvature to quantify edge curvature, providing a geometric measure of graph structure. The algorithm adjusted the weights of the random transition matrix using curvature, modifying them based on geometric relationships. It then combined the processed curvature matrix with the graph diffusion matrix to update the weight coefficients for model training. Experimental results show that the improved method maintains the advantages of smoothing graph signals effectively and reducing high-frequency noise. It increased accuracy by 0.3 to 2.0 percentage points on datasets with varying numbers of edges and nodes. The method optimized message aggregation in graph diffusion, utilizing node information and edge weights within the graph structure more effectively. This enhancement improves model performance in node classification tasks and provides a reliable method and experimental basis for future graph-based research.
Key words:graph neural network; graph diffusion; Ollivier-Ricci curvature; node classification
0 引言
作為一種抽象的數(shù)據(jù)結(jié)構(gòu),圖常被用來描述對象之間的復(fù)雜關(guān)系,蘊涵豐富的潛在信息[1]。圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)通過將圖結(jié)構(gòu)數(shù)據(jù)嵌入到神經(jīng)網(wǎng)絡(luò)模型中,可以捕捉圖的拓撲信息,被深度應(yīng)用于節(jié)點分類[2]、鏈接預(yù)測[3]和圖分類[4]等任務(wù),并在社交網(wǎng)絡(luò)[5]、生物信息學(xué)[6],以及推薦系統(tǒng)[7]和交通網(wǎng)絡(luò)[8]等多個領(lǐng)域展現(xiàn)出強大的能力。其中,節(jié)點分類任務(wù)需要充分利用節(jié)點的屬性特征。圖的全局拓撲結(jié)構(gòu)(如度分布等)則提供了節(jié)點間的潛在關(guān)系,這些信息能夠顯著提升分類性能[9]。然而,隨著網(wǎng)絡(luò)的發(fā)展,數(shù)據(jù)的規(guī)模和復(fù)雜性日益增加,如何有效地利用圖的全局信息來增強節(jié)點的屬性特征,成為當前研究的重點。
在現(xiàn)有的基于圖神經(jīng)網(wǎng)絡(luò)方法的節(jié)點分類任務(wù)中,有許多研究提出了不同的方法,如圖卷積網(wǎng)絡(luò)[10]、圖注意力網(wǎng)絡(luò)[11]、GraphSage[12]和圖擴散。但是,前幾種方法依賴于局部鄰域的節(jié)點特征來進行消息傳遞,這種局限性導(dǎo)致它們難以捕捉遠距離節(jié)點之間的關(guān)系[13,14],并且容易受到過平滑問題的影響,當網(wǎng)絡(luò)層數(shù)增加時,節(jié)點的特征表示趨于相似,從而喪失區(qū)分性[15]。而GraphSage受限于聚合函數(shù)的表達能力,并且依賴于超參數(shù)的選擇進行大量實驗調(diào)優(yōu),增加了模型復(fù)雜性。
相對以上方法,圖擴散突破單階鄰域的限制。Klicpera等人[16]將個性化PageRank(personalized PageRank,PPR)與圖神經(jīng)網(wǎng)絡(luò)結(jié)合起來,通過PPR進行節(jié)點特征的平滑和擴散,使得每個節(jié)點的信息不僅依賴于其直接鄰居,還包含來自更大鄰域的影響,從而捕捉到更全局的圖結(jié)構(gòu)信息。Tan等人[17]提出了一種新型的熱擴散圖網(wǎng)絡(luò)模型,通過熱擴散核進行圖卷積,平滑圖信號、抑制噪聲,同時保留重要結(jié)構(gòu)信息,但是該工作只專注于少樣本學(xué)習(xí)。Gasteiger等人[18]則結(jié)合PPR和熱核(heat kernel)兩種擴散機制提出圖擴散卷積(graph diffusion convolution,GDC)模型,該方法不僅利用圖的擴散過程來捕捉高階鄰居關(guān)系,也能解決圖中邊的噪聲和有效地緩解過平滑的問題,進一步完善了圖擴散。但在處理具有復(fù)雜邊關(guān)系的圖時,GDC可能無法有效區(qū)分重要邊和次要邊,導(dǎo)致信息傳播的效率降低。這種局限性在邊密集的圖中尤為明顯,需要進一步優(yōu)化擴散過程以改善其性能。此外,為增強GNN對圖拓撲結(jié)構(gòu)的理解,一些研究進行了其他嘗試,比如引入幾何曲率。曲率是幾何學(xué)和微分幾何中的概念,用于描述曲線或曲面的彎曲程度。Ollivier[19]提出了 Ollivier-Ricci 曲率的定義,用于度量離散空間中的幾何性質(zhì)。在圖神經(jīng)網(wǎng)絡(luò)和圖論中,曲率概念被引入以分析圖結(jié)構(gòu)的局部幾何性質(zhì)。Shen等人[20]將Ollivier-Ricci曲率引入到圖卷積網(wǎng)絡(luò)中,使模型能夠更好地捕捉復(fù)雜的生物分子間的相互作用關(guān)系,從而提升生物分子相互作用預(yù)測的準確性,證明了曲率在提高GNN性能中的有效性。Li等人[21]使用Ollivier-Ricci曲率來度量節(jié)點鄰域之間的結(jié)構(gòu)關(guān)系,并將其映射到消息傳遞的權(quán)重上,使曲率在傳統(tǒng)的圖卷積網(wǎng)絡(luò),尤其在大規(guī)模和密集圖上實現(xiàn)了顯著的性能提升。上述例子說明Ollivier-Ricci曲率作為一種基于最優(yōu)傳輸理論的離散曲率度量,可以量化節(jié)點對之間的結(jié)構(gòu)連接強度,能夠更好地理解圖的幾何結(jié)構(gòu)[22]。將曲率整合到圖擴散網(wǎng)絡(luò),通過利用曲率來提取圖數(shù)據(jù)中更復(fù)雜和深入的結(jié)構(gòu)特征,以增強圖神經(jīng)網(wǎng)絡(luò)(GNN)的局部結(jié)構(gòu)適應(yīng)性,提高節(jié)點特征信息質(zhì)量,從而改善節(jié)點分類結(jié)果,具有一定的可行性。
基于上述描述,本文提出基于曲率的圖擴散框架(curvature graph diffussion convolution,CGDC),改善GDC對于圖的邊關(guān)系處理的偏差。本文結(jié)合Ollivier-Ricci曲率和圖擴散網(wǎng)絡(luò),改進圖網(wǎng)絡(luò)對圖拓撲結(jié)構(gòu)的預(yù)處理階段,改善消息聚合。整個算法流程包括四個核心部分:首先,獲取圖擴散稀疏矩陣S,計算圖的邊曲率;其次,用Ollivier曲率來調(diào)整轉(zhuǎn)移矩陣的權(quán)重,根據(jù)每個節(jié)點與其鄰居之間的幾何關(guān)系進行權(quán)重調(diào)整;再次,將經(jīng)過處理的曲率矩陣與圖擴散矩陣相結(jié)合;最后更新權(quán)重系數(shù)進行模型訓(xùn)練。CGDC以圖擴散模型GDC為基礎(chǔ),使用擴散機制實現(xiàn)多跳鄰居,結(jié)合離散圖曲率,更好地利用圖的拓撲信息,改善圖神經(jīng)網(wǎng)絡(luò)的消息聚合,從而提升節(jié)點分類精度。
1 方法
定義無向圖Euclid Math OneGAp=Euclid Math OneVAp,Euclid Math OneEAp,其中Euclid Math OneVAp是圖中所有節(jié)點的集合,Euclid Math OneEAp是圖中所有邊的集合,節(jié)點i∈Euclid Math OneVAp和邊eij=i,j∈Euclid Math OneEAp分別表示圖中的節(jié)點以及節(jié)點i和j之間的邊。用N=Euclid Math OneVAp表示節(jié)點數(shù),A∈RN×N表示圖的N階鄰接矩陣。算法將節(jié)點特征X作為輸入,在預(yù)處理階段經(jīng)過曲率和圖擴散處理后得到新的權(quán)重Wt并更新消息聚合權(quán)重,最后得到新的節(jié)點特征X′。CGDC算法流程如圖1所示。
1.1 擴散矩陣
圖擴散的核心過程首先將注意力放置在某一節(jié)點上,再逐漸將關(guān)注力傳遞至鄰近節(jié)點。該過程反復(fù)進行,直至達到穩(wěn)定狀態(tài)。用式(1)定義圖擴散:
其中:擴散矩陣S代表了圖中所有節(jié)點對之間的相互影響;θk是加權(quán)系數(shù);Tk是廣義轉(zhuǎn)移矩陣,k表示轉(zhuǎn)移的步數(shù),也就是信息傳遞的距離。在本項工作中選取θk∈0,1,使Tk的特征值即λi∈0,1有界,從而保證S是收斂的。
1.2 曲率特征提取
1)離散圖曲率 Ricci曲率最初是一個幾何概念,在黎曼流形分析中起著重要作用,量化空間的彎曲程度。而圖論中,通常要處理的是離散的節(jié)點和邊,因此需要將曲率的概念轉(zhuǎn)換為適用于離散空間的形式。基于離散Ricci曲率評估兩個節(jié)點鄰域的連通性,主要有Ollivier-Ricci曲率[19]和Forman-Ricci曲率[23]。其中,前者量化了局部圖拓撲中節(jié)點及其鄰域之間的幾何特性,具有更扎實的理論基礎(chǔ),能夠更本質(zhì)地描繪圖結(jié)構(gòu)[24]。
在許多現(xiàn)實世界的圖數(shù)據(jù)集中,節(jié)點常常聚集形成局部緊密連接的群體,這些群體之間的連接相對稀疏,被稱為社區(qū)。通常,同一社區(qū)內(nèi)的節(jié)點具有較高的相似性,而不同社區(qū)的節(jié)點則會表現(xiàn)出明顯的差異。節(jié)點對的鄰近節(jié)點重疊越多,它們之間的結(jié)構(gòu)連接就越強,反之亦然[25]。
如圖2(a)所示,將節(jié)點結(jié)構(gòu)劃分為a與b兩類來表示兩種社區(qū)。對于節(jié)點a來說,關(guān)鍵在于聚合其鄰近節(jié)點,同時削弱節(jié)點b的影響。常規(guī)圖卷積為了避免度高的節(jié)點上的特征量過大,會對鄰域特征進行規(guī)范化處理。且因?qū)?jié)點度和連通性等拓撲信息的利用度有限,而無法直接或明確地削弱節(jié)點b的影響,從而導(dǎo)致度高的節(jié)點與度低的節(jié)點被同等對待,如圖2(b)(c)所示。然而在節(jié)點分類任務(wù)中,將節(jié)點b與其他紫色節(jié)點(參見電子版)視為同等重要是不合理的。
圖曲率有效地衡量了一對節(jié)點之間的鄰居關(guān)系,類似于在歐幾里德空間中曲率量化曲線偏離直線的程度。離散圖曲率測量的是邊上兩節(jié)點的鄰居節(jié)點從“平坦”形狀偏離的幾何程度[26]。Ollivier-Ricci曲率可以量化一對節(jié)點的鄰居之間的結(jié)構(gòu)差異。高正曲率的邊表示連接緊密的節(jié)點對,而負曲率的邊則表示連接稀疏的節(jié)點對。如圖2(d)中連接兩個獨立組的邊(a,b),其Ricci曲率為負值,遠小于節(jié)點a與其余紫色節(jié)點之間的曲率,從而減少了圖2(a)中節(jié)點b對a的影響。離散圖曲率精確了對圖的拓撲結(jié)構(gòu)關(guān)系的描述,可以被GNN所利用。
2)特征提取 給定圖Euclid Math OneGAp上的兩個相鄰節(jié)點x和y,以及與每個節(jié)點相關(guān)聯(lián)的概率測度μx和μy(通常基于節(jié)點的度或其他權(quán)重分布),Ollivier-Ricci 曲率的定義如下:
其中:Wμx,μy是概率測度μx和μy之間的Wasserstein距離(或地球移動距離);dx,y是節(jié)點x和y之間的圖距離。將數(shù)據(jù)集中圖的鄰接矩陣A映射到曲率的計算模塊,i和j分別表示圖中兩節(jié)點之間的邊,通過上式遍歷計算節(jié)點間的邊曲率。定義一個與A相同維度的曲率矩陣Cij儲存計算后的曲率值,當Aij=1時,Cij為ricciCurvaturei,j,否則為0,表示如下:
Cij矩陣存儲了圖的邊曲率信息。為確保圖的結(jié)構(gòu)性質(zhì)和算法的穩(wěn)定性,通過向其添加最小值的絕對值來調(diào)整:
Ccur=Cij+|Ccurmin|(4)
此步驟進行了線性化操作,將負權(quán)重進行偏移處理。然后對Ccur實施了dropout處理。最終得到正則化曲率矩陣Ccur,所得結(jié)果為后續(xù)圖處理提供了可靠的數(shù)據(jù)信息。
1.3 圖擴散與曲率的結(jié)合
1)曲率驅(qū)動的PPR PPR算法是對經(jīng)典PageRank算法的創(chuàng)新性改進,旨在衡量網(wǎng)絡(luò)圖中節(jié)點的相對重要性。它依托于隨機游走的機制,通過在網(wǎng)絡(luò)中進行節(jié)點間的連續(xù)跳轉(zhuǎn),并在每次跳轉(zhuǎn)時引入一定的概率返回到原始節(jié)點,以此量化節(jié)點的影響力。
通過曲率調(diào)整,可以使PPR更關(guān)注圖中結(jié)構(gòu)緊密的區(qū)域,能夠識別并強調(diào)那些在網(wǎng)絡(luò)中具有較高局部連接密度的節(jié)點,從而更有效地捕捉和利用網(wǎng)絡(luò)的拓撲特性,達到充分利用拓撲信息的作用。PPR的擴散系數(shù)為θpprk=α1-αk,根據(jù)式(1)得到PPR擴散矩陣:
其中:I是n × n單位矩陣,n是節(jié)點數(shù)量;重啟概率α∈0,1,該值表示隨機游走從當下節(jié)點跳到任意其他節(jié)點的概率。曲率調(diào)整后的ppr矩陣可以定義為
Cppr=Sppr⊙Ccur(6)
其中:Cppr是根據(jù)Ollivier-Ricci曲率計算得到的權(quán)重矩陣;⊙表示Hadamard乘積(即元素對應(yīng)相乘),將曲率的影響直接分配到擴散矩陣中。
2)曲率驅(qū)動的熱核 計算熱擴散矩陣以模擬熱量在圖結(jié)構(gòu)中的擴散過程。通過曲率值調(diào)整邊的權(quán)重,高曲率區(qū)域的熱擴散速度減慢,低曲率區(qū)域的熱擴散速度加快。在調(diào)整后的熱擴散矩陣基礎(chǔ)上,迭代計算熱核,基于預(yù)設(shè)的閾值或保留前k個權(quán)重最大的邊,選擇重要邊,生成優(yōu)化的熱擴散矩陣。
其中:e表示矩陣指數(shù);I是單位矩陣。H同上,是規(guī)范化后的對稱鄰接矩陣。同理,曲率調(diào)整后的熱核矩陣可以定義為
Cheat=SHT⊙Ccur(8)
其中:Cheat表示曲率調(diào)整后的權(quán)重矩陣,曲率信息用于調(diào)節(jié)拉普拉斯矩陣的元素,影響熱核擴散的速率和方向。
舉例來說,對于一個帶權(quán)簡單圖,如圖3(a)所示。首先根據(jù)圖的鄰接矩陣計算出相同維度曲率矩陣和擴散矩陣;其次,利用哈達瑪積將圖的曲率矩陣與擴散矩陣對應(yīng)結(jié)合,使曲率信息能夠注入圖的擴散矩陣從而改善消息聚合,如圖3(b)所示。
此處使用Heat方法確定擴散系數(shù)和擴散矩陣,為方便舉例,使用Wasserstein距離選取隨機數(shù)。
2 實驗結(jié)果與分析
2.1 實驗設(shè)置
1)實驗環(huán)境 本文的所有實驗均在一臺配置為Windows x86系統(tǒng)、Intel Core i7-6700 CPU、NVIDIA V100顯卡和16 GB內(nèi)存的計算機上進行。圖擴散卷積模型的實現(xiàn)使用了PyTorch 3.7框架,CUDA版本為11.7。
為了與基線算法進行公平對比,將進行實驗的模型參數(shù)設(shè)置為統(tǒng)一標準,正則化(dropout)設(shè)為 0.5,學(xué)習(xí)率(lr)為0.01,模型的訓(xùn)練輪數(shù)(epoch)為300,權(quán)重衰減(weight decay)為0.000 1,批大?。╞atch size)設(shè)為128。此外,對于本文模型中的兩種特別擴散參數(shù),經(jīng)過2.3節(jié)對擴散系數(shù)的影響實驗,分別選擇表達平均性能的參數(shù)值,α為0.05,t為5.0進行比較。
2)數(shù)據(jù)集 為了驗證本文方法的有效性,在與原擴散模型相同的六個圖數(shù)據(jù)集上進行了實驗和對比。在使用有標簽數(shù)據(jù)進行實驗時,在所有情況下都使用最大連接組件,確保實驗的一致性和可靠性。具體評估方式是通過20次不同的隨機初始化和100次不同的訓(xùn)練集、驗證集和測試集的劃分來進行。通過多次隨機初始化和數(shù)據(jù)劃分更全面地評估模型的性能,確保結(jié)果的可靠性和穩(wěn)定性。
所用數(shù)據(jù)集被廣泛用于GNN研究,覆蓋了從學(xué)術(shù)出版物到電子商務(wù)共購網(wǎng)絡(luò)的多樣應(yīng)用場景,涉及節(jié)點分類、鏈接預(yù)測和推薦系統(tǒng)等任務(wù)。以上數(shù)據(jù)集的使用既證明本文模型的適應(yīng)性,還展示其在多種應(yīng)用場景的有效性。
Cora,用于節(jié)點分類的基準數(shù)據(jù)集,包含2 708篇機器學(xué)習(xí)論文,分為7類,包括作者、標題和出版物等信息;CiteSeer,由賓夕法尼亞州立大學(xué)創(chuàng)建,包含3 327篇計算機領(lǐng)域的學(xué)術(shù)論文,涉及6個研究領(lǐng)域,包括文獻、作者和引用關(guān)系等信息;Pubmed[21],全球最大的生物醫(yī)學(xué)文獻數(shù)據(jù)庫之一,包括來自醫(yī)學(xué)、護理、牙科、獸醫(yī)等生物醫(yī)學(xué)領(lǐng)域的文獻摘要和全文;CoauthorCS,學(xué)術(shù)合作網(wǎng)絡(luò)數(shù)據(jù)集,通過構(gòu)建基于論文作者之間的合作關(guān)系網(wǎng)絡(luò),研究分析學(xué)術(shù)合作模式及節(jié)點分類任務(wù);Compu-ters,Amazon 電子產(chǎn)品子集之一,包含了用戶對計算機及其配件的評價和評分;Photos,Amazon電子產(chǎn)品子集之一,專注于攝影相關(guān)產(chǎn)品,包含了用戶對相機、鏡頭等攝影器材的評價和評分。
選取的數(shù)據(jù)集在節(jié)點和邊的數(shù)量上呈現(xiàn)出多樣性,反映了不同的圖結(jié)構(gòu)特點和密集程度。邊數(shù)表示了圖中節(jié)點之間的連接數(shù)量,較多的邊數(shù)意味著更密集的連接,直接影響圖的復(fù)雜性。分析圖數(shù)據(jù)集的邊數(shù)和節(jié)點數(shù),有助于評估模型的效果和性能。數(shù)據(jù)集按照節(jié)點數(shù)從大到小排列,詳細信息如表1所示。
3)對比主流模型 本文用于比較的基礎(chǔ)模型分別為:
GAT-ppr[27]: 它是GAT的一個變種,將個性化PageRank(ppr)機制整合到注意力網(wǎng)絡(luò)中,能夠進一步優(yōu)化鄰居節(jié)點的權(quán)重分配。
MoNet[28]:通過考慮節(jié)點的局部結(jié)構(gòu)來學(xué)習(xí)節(jié)點表示,其使用隨機游走的空域卷積網(wǎng)絡(luò),能夠捕捉局部結(jié)構(gòu)。
CGNN[29]:一種基于譜圖理論的圖卷積網(wǎng)絡(luò),利用圖的拉普拉斯矩陣的特征向量來學(xué)習(xí)節(jié)點表示,并通過考慮節(jié)點間的交換性來設(shè)計其卷積操作。
GDE[30]:基于圖擴散的嵌入方法,通過模擬信息在圖中的傳播過程來學(xué)習(xí)節(jié)點的嵌入,可以捕捉節(jié)點的全局鄰域信息,適用于大規(guī)模圖數(shù)據(jù)。
GraphCON[31]:通過在各層之間保持梯度信息來改進信息傳遞,增強模型的穩(wěn)定性和表達能力,提高圖卷積網(wǎng)絡(luò)的表現(xiàn)。
MaskGAE[32]:通過掩蓋部分輸入圖結(jié)構(gòu)并訓(xùn)練模型重建缺失部分,有效學(xué)習(xí)魯棒的圖表示,提高自監(jiān)督學(xué)習(xí)效果。
4)評價指標 本文選用準確率(accuracy)和模型參數(shù)量作為模型評價指標。準確率用于評估模型正確預(yù)測的樣本數(shù)占總樣本數(shù)的比例,該值越高,說明模型的整體預(yù)測性能越佳。計算公式如下:
在分類問題中,可以根據(jù)類別與模型預(yù)測類別的組合將結(jié)果劃分為真正例(true positive,TP)、真反例(true negative,TN)、假正例(1 positive,TP)、假反例(1 negative,F(xiàn)N),如表2所示。
本文關(guān)于模型參數(shù)量的計算,包含對模型中每一層的參數(shù)進行詳細統(tǒng)計。對于全連接層(線性層),參數(shù)量由輸入特征數(shù)乘以輸出特征數(shù),再加上輸出特征數(shù)的偏置項。卷積層的參數(shù)量由卷積核的數(shù)量、大小及輸入通道數(shù)共同決定。此外,循環(huán)神經(jīng)網(wǎng)絡(luò)層的參數(shù)量由權(quán)重矩陣和偏置矩陣共同決定。在實際計算時,使用標準數(shù)據(jù)集Cora進行初始化,確保統(tǒng)計的參數(shù)量準確。通過統(tǒng)計所有層的參數(shù)量之和,得出整個模型的總參數(shù)量,統(tǒng)計結(jié)果如表3所示。
2.2 預(yù)測精度
2.2.1 基線算法
在本實驗中,評估了多種圖神經(jīng)網(wǎng)絡(luò)模型在不同數(shù)據(jù)集上的性能,結(jié)合模型的參數(shù)量和精度進行分析。與基線模型在六個數(shù)據(jù)集上的對比如表4所示,部分基線模型數(shù)據(jù)來自Chamberlain[33]。在模型參數(shù)量方面,本文模型使用了約九萬個參數(shù)的模型。這一參數(shù)量在中型網(wǎng)絡(luò)模型處理復(fù)雜特征時是適當?shù)?,能夠在保持較高分類精度的同時,確保計算和存儲資源的有效利用。
從數(shù)據(jù)集方面比較,在Cora和Computers數(shù)據(jù)集上,Heat和ppr方法均表現(xiàn)優(yōu)異,其中ppr方法更為突出。CGDC-Heat在Cora數(shù)據(jù)集上精度達到了83.35%,而CGDC-ppr在Cora數(shù)據(jù)集上達到了83.86%。在Computers數(shù)據(jù)集上,Heat和ppr方法的精度分別比GDE高2.35和2.71百分點,相比MoNet分別高1.75和2.11百分點。
在PubMed、Computers和Photo數(shù)據(jù)集上,CGDC-Heat保持了較高的預(yù)測精度,分別達到了78.47%、85.25%和90.52%,雖然略遜于個別模型,但仍然在復(fù)雜數(shù)據(jù)集中表現(xiàn)出色,提供了具有競爭力的分類精度。
ppr在多個數(shù)據(jù)集上表現(xiàn)出色,尤其是在CiteSeer、PubMed、Computers和Photo數(shù)據(jù)集上,分別達到了71.91%、78.73%、85.61%和91.88%,展示了其在不同規(guī)模和復(fù)雜度數(shù)據(jù)集上的良好適用性。兩種擴散方法在不同數(shù)據(jù)集下展現(xiàn)出強大的預(yù)測能力,優(yōu)于或至少逼近其他現(xiàn)有模型,證明了其在處理不同規(guī)模和復(fù)雜度圖數(shù)據(jù)集時的廣泛適用性和高效性。
此外,CGNN在PubMed數(shù)據(jù)集上表現(xiàn)出較高的準確率,在Computers數(shù)據(jù)集上,GraphCON和MaskGAE也表現(xiàn)良好,有可能是因為模型在不同數(shù)據(jù)集上的訓(xùn)練過程和參數(shù)調(diào)優(yōu)影響了最終的表現(xiàn)。綜上所述,CGDC模型結(jié)合了較低的參數(shù)量和優(yōu)異的精度,展示了較高的計算效率和強大的泛化能力,強調(diào)了在結(jié)合圖擴散和曲率優(yōu)化方面的有效性。
2.2.2 與未加曲率原模型對比
本節(jié)展示了兩種基于圖擴散的方法(Heat和ppr)在多個數(shù)據(jù)集上的性能表現(xiàn),如圖4所示。在與原始未引入曲率的GDC模型比較中,本研究提出的曲率擴散模型CGDC在多個數(shù)據(jù)集上展示了一定程度的性能提升。
對比兩個模型來說,ppr方法對于原模型在所有數(shù)據(jù)集上的提升更加均衡。尤其在CiteSeer數(shù)據(jù)集上,精確度提升了2百分點,而對于其他數(shù)據(jù)集CoauthorCS、Cora、Photo、pubmed的提升都在1百分點左右。Heat方法的效果略遜色ppr,但在CoauthorCS、Photo數(shù)據(jù)集上對于精確度的優(yōu)化明顯,這可能是因為Heat在較大規(guī)模和復(fù)雜的拓撲結(jié)構(gòu)上對于圖的全局信息利用更好。大多數(shù)數(shù)據(jù)集上,CGDC方法比GDC表現(xiàn)更好,特別是在CiteSeer和Photo數(shù)據(jù)集上,曲率優(yōu)化帶來了明顯的性能提升。這說明在圖擴散過程中加入曲率信息能有效提高模型的處理能力和預(yù)測準確度,驗證了本文工作設(shè)想的合理性。
2.3 擴散系數(shù)對模型的影響
為研究擴散系數(shù)對模型性能的影響,本實驗通過調(diào)整個性化ppr方法的參數(shù)α和熱擴散(Heat)方法的參數(shù)t,評估不同擴散程度對模型分類效果的作用。參數(shù)α和t在模型中分別用于控制個性化ppr方法中的系數(shù)和熱擴散方法中的時間參數(shù),α調(diào)節(jié)隨機游走的返回概率,t控制熱擴散的擴散程度。擴散系數(shù)的大小反映了對局部信息和全局信息的控制程度。擴散系數(shù)的影響如圖5(a)(b)所示。
通過調(diào)整α和t值,驗證了模型在不同局部和全局信息平衡下的分類性能,從擴散方法的角度看,ppr和Heat方法在不同數(shù)據(jù)集上的精度變化趨勢各不相同。結(jié)果顯示,隨著α和t的增加,在選取的四個數(shù)據(jù)集上的分類準確率趨于穩(wěn)定或略有提升,這表明適度增加全局信息和擴散時間能夠提高分類效果。在Heat方法上,調(diào)整參數(shù)所對應(yīng)的精度效果更加穩(wěn)定,這可能是因為熱擴散更偏向于對全局的作用,顯示了該方法的魯棒性相對ppr方法較強。這些參數(shù)調(diào)整有助于找到最優(yōu)配置,從而優(yōu)化模型在不同數(shù)據(jù)集上的分類性能。
2.4 可視化
為了直觀展示CGDC方法在邊數(shù)較大的圖數(shù)據(jù)集上的分類性能,選取了邊數(shù)分別為5 429和119 081的Cora和Photo數(shù)據(jù)集,在訓(xùn)練比例為80%時,對不同的節(jié)點分類模型(GCN、GAT和GraphSage)進行實驗。在保證迭代次數(shù)和學(xué)習(xí)率相同的條件下,使用t-SNE[34]方法對結(jié)果進行可視化,分類效果分別如圖6所示。
如圖6(a)在Cora數(shù)據(jù)集上,Heat方法的各簇之間的間隔明顯,展示了模型在高維特征空間中有效區(qū)分不同類別的能力。ppr方法與前者比較,簇形狀較規(guī)則,大小適中,但某些區(qū)域可能存在輕微重疊。這可能是因為考慮到了全局信息,導(dǎo)致一些節(jié)點在特征空間中的分布相對集中,從而在某些區(qū)域出現(xiàn)輕微重疊的現(xiàn)象。相較之下,GCN和GAT的分類效果較差,主要因為它們只關(guān)注同質(zhì)節(jié)點之間的信息交互,對于不同簇之間的差異性有所忽視,從而導(dǎo)致部分類別的點混雜在一起,分類效果較差。GraphSage表現(xiàn)接近Heat和ppr方法,能夠較好地分離不同類別的點,顯示出較強的特征提取能力。
如圖6(b)在Photo數(shù)據(jù)集上,可以看出CGDC兩種方法在邊數(shù)較高的圖數(shù)據(jù)上更有優(yōu)勢。CGDC-Heat通過形成多個清晰且分離的簇展示了其卓越的特征提取和分類能力,不同類別間的點分布緊密且間隔明顯,表明模型能夠有效地捕捉和區(qū)分不同類別的節(jié)點特征。CGDC-ppr雖然部分簇之間有一定的重疊,但整體上也形成了多個緊密簇,顯示出良好的分類效果。相比之下,GCN和GAT的簇結(jié)構(gòu)較為松散,不同類別點的區(qū)分度低,GraphSage則表現(xiàn)出接近CGDC-Heat的優(yōu)異效果,但在某些細節(jié)上稍遜一籌,比如紅色節(jié)點被分類成了兩個部分。
通過比較其他模型,驗證了使用曲率信息更新了圖的節(jié)點特征的CGDC模型對于圖的節(jié)點分類任務(wù)有良好的效果。
2.5 消融實驗
本節(jié)深入探討作為關(guān)鍵因素的離散圖曲率對實驗結(jié)果的影響。引入前文提到的Forman曲率,考察其在圖神經(jīng)網(wǎng)絡(luò)中的作用及其對實驗結(jié)果的貢獻。通過實驗結(jié)果,對比其他離散圖曲率對于模型的表現(xiàn)。Ollivier-Ricci曲率基于最優(yōu)傳輸理論,衡量的是圖中兩個節(jié)點之間的地理距離和概率分布之間的距離。Forman曲率基于離散微分幾何,是通過計算邊權(quán)重、節(jié)點權(quán)重以及邊的鄰居關(guān)系來定義的,其核心公式[35]如下:
Ollivier和Forman曲率在數(shù)據(jù)集Cora、CiteSeer、Photo對ppr和Heat方法的影響分別如圖7(a)~(c)所示。
從數(shù)據(jù)集方面看,ppr在Cora和CiteSeer數(shù)據(jù)集對比Forman曲率的效果優(yōu)勢更明顯。在Photo這種邊數(shù)更高的數(shù)據(jù)集上,Heat方法要略優(yōu)于ppr,與前面的實驗結(jié)果一致,驗證了兩種擴散方法在不同圖結(jié)構(gòu)上的適應(yīng)性和優(yōu)越性。從曲率方面看,通過對比精度,Ollivier曲率的應(yīng)用在數(shù)據(jù)集和方法上均優(yōu)于Forman曲率。這可能是由于Ollivier曲率在捕捉圖的局部和全局幾何特性方面具有更高的靈敏度,為圖神經(jīng)網(wǎng)絡(luò)提供了更為豐富和有效的信息。Forman曲率雖然也用于量化圖的幾何特性,但在處理復(fù)雜拓撲結(jié)構(gòu)時可能不如Ollivier曲率靈敏,以及對兩種擴散方法的適應(yīng)性不如前者,從而導(dǎo)致模型精度相對較低,證明了本文模型選擇Ollivier曲率的合理性和必要性。
3 結(jié)束語
本文提出了一種新型的基于曲率的圖擴散神經(jīng)網(wǎng)絡(luò),將幾何原理與圖神經(jīng)網(wǎng)絡(luò)結(jié)合,充分發(fā)揮了圖擴散網(wǎng)絡(luò)的優(yōu)點。通過結(jié)合Ollivier-Ricci曲率調(diào)整邊權(quán)重,模型能夠更精準地反映節(jié)點之間的幾何關(guān)系,深度挖掘和利用圖的拓撲信息,改善圖神經(jīng)網(wǎng)絡(luò)的消息聚合過程,從而提高分類精度。相比原擴散模型,結(jié)合曲率后的CGDC更好地利用Heat和ppr兩種擴散機制,彌補了處理復(fù)雜圖時精度降低的問題。本文方法在多個數(shù)據(jù)集上表現(xiàn)優(yōu)異,特別是在處理復(fù)雜和大規(guī)模圖數(shù)據(jù)時效果明顯。未來研究可結(jié)合更復(fù)雜的圖結(jié)構(gòu)特性,優(yōu)化曲率計算方法,以進一步提升模型性能和應(yīng)用范圍。
參考文獻:
[1]Barabási A L. Network science [M]. [S.l.]:Cambridge University Press, 2016: 475.
[2]Velicˇkovic' P. Everything is connected:graph neural networks [J]. Current Opinion in Structural Biology, 2023, 79: 102538.
[3]Cini A, Marisca I, Bianchi F M, et al.Scalable spatiotemporal graph neural networks [C]// Proc of the 37th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2023: 7218-7226.
[4]Tsitsulin A, Palowitch J, Perozzi B, et al.Graph clustering with graph neural networks [J]. Journal of Machine Learning Research, 2023, 24 (127): 1-21.
[5]吳永慶, 孫鵬, 金堯, 等. 融合一致性社交關(guān)系的協(xié)同相似嵌入推薦模型 [J]. 計算機應(yīng)用研究, 2023, 40 (10): 2951-2956. (Wu Yongqing, Sun Peng, Jin Yao," et al.Collaborative similarity embedding recommendation model incorporating consistent social relationships [J]. Application Research of Computers, 2023, 40 (10): 2951-2956.)
[6]Niranjan K, Rakesh S. Deep learning in structural bioinformatics: current applications and future perspectives [J]. Briefings in Bioinformatics, 2024, 25(3): article ID bbae042.
[7]張增杰, 汪曉鋒, 毛岱波, 等. 基于深度知識圖卷積網(wǎng)絡(luò)的推薦算法 [J]. 微電子學(xué)與計算機, 2024, 41 (6): 38-48. (Zhang Zengjie, Wang Xiaofeng, Mao Daibo," et al.Recommendation algorithm based on deep knowledge graph convolution networks [J]. Microelectronics amp; Computer, 2024, 41 (6): 38-48.)
[8]Yin Xueyan, Wu Genze, Wei Jinze," et al.Deep learning on traffic prediction: methods, analysis, and future directions [J]. IEEE Trans on Intelligent Trans Systems, 2021, 23 (6): 4927-4943.
[9]Fang Ruiyi, Wen Liangjian, Kang Zhao," et al.Structure-preserving graph representation learning [C]// Proc of IEEE International Confe-rence on Data Mining. Piscataway, NJ: IEEE Press, 2022: 927-932.
[10]Wu Zonghan, Pan Shirui, Chen Fengwen," et al.A comprehensive survey on graph neural networks [J]. IEEE Trans on Neural Networks and Learning Systems, 2021, 32 (1): 4-24.
[11]Sun Chengcheng, Li Chenhao, Lin Xiang," et al.Attention-based graph neural networks: a survey [J]. Artificial Intelligence Review, 2023, 56 (2): 2263-2310.
[12]Ying R, He Ruining, Chen Kaifeng," et al.Graph convolutional neural networks for web-scale recommender systems [C]// Proc of the 24th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining. New York: ACM Press, 2018: 974-983.
[13]Liu Songtao, Ying R, Dong Hanze," et al.Local augmentation for graph neural networks [C]// Proc of the 39th International Confe-rence on Machine Learning. 2022: 14054-14072.
[14]Balcilar M, Héroux P, Gauzere B, et al.Breaking the limits of message passing graph neural networks [C]// Proc of the 38th International Conference on Machine Learning. 2021: 599-608.
[15]Kim C, Moon H, Hwang H J. NEAR: neighborhood edge aggregator for graph classification [J]. ACM Trans on Intelligent Systems and Technology, 2022, 13 (3): 1-17.
[16]Klicpera J, Bojchevski A, Günnemann S. Predict then propagate: graph neural networks meet personalized PageRank [C]// Proc of International Conference on Learning Representations. [S.l.]: ICLR Press, 2019.
[17]Tan Qi, Wu Zongze, Lai Jialun," et al.HDGN: heat diffusion graph network for few-shot learning [J]. Pattern Recognition Letters, 2023, 171: 61-68.
[18]Gasteiger J, Weienberger S, Günnemann S. Diffusion improves graph learning [C]// Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: NIPS Press, 2019: 13366-13378.
[19]Ollivier Y. Ricci curvature of Markov chains on metric spaces [EB/OL]. (2007-07-30). https://arxiv.org/abs/math/0701886.
[20]Shen Cong, Ding Pingjian, Wee J," et al.Curvature-enhanced graph convolutional network for biomolecular interaction prediction [EB/OL]. (2023) [2024-07-02]. https://arxiv.org/abs/2306. 13699.
[21]Li Haifeng, Cao Jun, Zhu Jiawei," et al.Curvature graph neural network [J]. Information Sciences: An International Journal, 2022, 592: 50-66.
[22]Nguyen K, Hieu N M, Nguyen V D, et al.Revisiting over-smoothing and over-squashing using ollivier-ricci curvature [C]// Proc of the 40th International Conference on Machine Learning. [S.l.]: PMLR Press, 2023: 25956-25979.
[23]Leal W, Restrepo G, Stadler P F, et al.Forman-Ricci curvature for hypergraphs [EB/OL]. (2018) [2024-07-03]. http://rgdoi.net/10.13140/RG.2.2.27347.84001.
[24]Areejit S, Sreejith R P, Jiao G, et al.Comparative analysis of two discretizations of Ricci curvature for complex networks [J]. Scientific Reports, 2018, 8 (1): 8650.
[25]Li Xiaohong, Peng Qixuan, Li Ruihong," et al.Dual graph neural network for overlapping community detection [J]. The Journal of Supercomputing, 2024, 80 (2): 2196-2222.
[26]Saxena C, Liu Tianyu, King I. A survey of graph curvature and embedding in non-Euclidean spaces [C]// Proc of the 27th" International Conference on Neural Information. Berlin: Springer, 2020: 127-139.
[27]Choi J. Personalized PageRank graph attention networks [C]// Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2022: 3578-3582.
[28]Monti F, Boscaini D, Masci J, et al.Geometric deep learning on graphs and manifolds using mixture model CNNs [C]// Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 5115-5124.
[29]Xhonneux L P, Qu Meng, Tang Jian. Continuous graph neural networks [C]// Proc of the 37th International Conference on Machine Learning. [S.l.]:JMLR.org, 2022: 10432-10441.
[30]Poli M, Massaroli S, Park J, et al.Graph neural ordinary differential equations [EB/OL]. (2020) [2024-08-01]. https://doi. org/10. 48550/arXiv. 1911. 07532.
[31]Rusch T K, Chamberlain B P, Rowbottom J, et al.Graph-coupled oscillator networks [C]// Proc of the 39th International Conference on Machine Learning. [S.l.]: PMLR Press, 2022.
[32]Li Jintang, Wu Ruofan, Sun Wangbin, et al.MaskGAE: masked graph modeling meets graph autoencoders [EB/OL]. (2022) [2024-08-01]. https://doi. org/10. 48550/arXiv. 2205. 10053.
[33]Chamberlain B P, Rowbottom J, Gorinova M, et al.GRAND: graph neural diffusion [C]// Proc of the 38th International Conference on Machine Learning. [S.l.]: PMLR Press, 2021.
[34]Laurens V D M, Hinton G. Visualizing data using t-SNE [J]. Journal of Machine Learning Research, 2008, 9: 2579-2605.
[35]Sreejith R P, Mohanraj K, Jost J, et al.Forman curvature for complex networks [J]. Journal of Statistical Mechanics: Theory and Experiment, 2016, 2016 (6): 063206.