楊廣乾,李金龍
(中國科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥230026)
圖結(jié)構(gòu)化數(shù)據(jù)廣泛存在于現(xiàn)實(shí)世界中,圖神經(jīng)網(wǎng)絡(luò)(GNN)已被證明可以有效地學(xué)習(xí)圖結(jié)構(gòu)化數(shù)據(jù)背后的知識(shí)[1-2]。圖神經(jīng)網(wǎng)絡(luò)基于傳播機(jī)制,通過聚合圖中節(jié)點(diǎn)的鄰居信息來學(xué)習(xí)潛在表示,可以用于下游任務(wù),例如節(jié)點(diǎn)分類[2-3]、圖分類[4-5]、連接預(yù)測[6-7]等。
受自然語言處理和計(jì)算機(jī)視覺中注意力機(jī)制的啟發(fā),研究人員也開始探索圖結(jié)構(gòu)學(xué)習(xí)中的注意力機(jī)制。最廣泛使用的注意力機(jī)制是圖注意力網(wǎng)絡(luò)(Graph Attention Network)[8],它已被證明具有出色的性能。圖注意力在消息傳遞過程中計(jì)算每對(duì)鄰居的注意力分?jǐn)?shù),以衡量節(jié)點(diǎn)的重要性,使得圖中的歸納學(xué)習(xí)成為可能?;谶@項(xiàng)工作,后續(xù)工作[9-11]又進(jìn)行了許多對(duì)圖注意力的研究。
在經(jīng)典的圖注意力機(jī)制中,節(jié)點(diǎn)之間的注意力只在直接連接的(一階)鄰居節(jié)點(diǎn)之間計(jì)算,然后通過堆疊層[8,11]以隱式地獲得高階注意力。然而,這種范式存在注意依賴問題。具體來說,后面的層的注意力計(jì)算依賴于前面的層,導(dǎo)致近程鄰居(例如直接相連的鄰居)的注意力分?jǐn)?shù)會(huì)對(duì)遠(yuǎn)程鄰居產(chǎn)生影響。圖1 中展示了層間注意力的皮爾遜相關(guān)系數(shù)隨訓(xùn)練輪數(shù)的變化??梢钥吹?,相關(guān)系數(shù)在初始下降后一直呈上升趨勢,并收斂到較高的值,這表明層間的注意力得分高度相關(guān)。此問題表明,一階鄰居的注意力分?jǐn)?shù)往往與高階鄰居的注意力分?jǐn)?shù)呈正相關(guān),使得注意力計(jì)算更難準(zhǔn)確地模擬遠(yuǎn)程依賴關(guān)系。
圖1 訓(xùn)練損失與層間注意力相關(guān)系數(shù)
為了解決此問題,受自然語言處理模型的啟發(fā),本文提出了一種新的注意力計(jì)算機(jī)制。通過直接顯式地計(jì)算高階鄰居之間的注意力系數(shù)來建模它們的依賴關(guān)系。該方法有兩個(gè)優(yōu)點(diǎn):(1)不同階鄰居之間的注意力可以聯(lián)合建模;(2)圖中潛在的遠(yuǎn)程依賴關(guān)系更容易被捕獲。然而,使用高階鄰接矩陣的注意力計(jì)算會(huì)導(dǎo)致計(jì)算復(fù)雜度呈指數(shù)級(jí)增加。為了提高計(jì)算效率,該方法利用啟發(fā)式剪枝算法來探索更有價(jià)值的節(jié)點(diǎn)。
在計(jì)算多階鄰居的注意力矩陣之后,另一個(gè)主要問題是傳播鄰居信息。在不同的傳播方法中,基于多尺度的方法旨在通過K 階鄰接矩陣[12-15]直接聚合信息。但是,固定的聚合過程是不可學(xué)習(xí)的,無法適應(yīng)不同圖的特性,因此往往會(huì)導(dǎo)致次優(yōu)的結(jié)果。
為了使聚合過程更加靈活,提出了一種自適應(yīng)的方法來直接聚合來自不同跳鄰居的信息。受動(dòng)態(tài)路由方法[16]的啟發(fā),該方法采用鄰居路由機(jī)制來實(shí)現(xiàn)。具體來說,鄰居路由利用與不同跳鄰居表示的耦合度來改進(jìn)聚合過程,以突出了不同階鄰居表示的重要性,而不同階鄰居表示的傳播會(huì)更新節(jié)點(diǎn)的最終表示。通過迭代地執(zhí)行這樣的傳播操作,最終可以獲得感知不同階鄰居重要性的最終表示。
該模型命名為直接多尺度圖注意力網(wǎng)絡(luò)(DMGAT)。該方法包括兩個(gè)過程:(1)通過K 階鄰接矩陣直接計(jì)算注意力分?jǐn)?shù),以直接建模當(dāng)前節(jié)點(diǎn)和鄰居之間的依賴關(guān)系,其中使用剪枝算法來抑制計(jì)算量的指數(shù)增長;(2)采用自適應(yīng)聚合直接傳播信息,其中傳播過程由鄰居路由算法實(shí)現(xiàn)。節(jié)點(diǎn)表示最終將用于線性層的分類。
本文的主要貢獻(xiàn)如下:
(1)提出了一種新的注意力計(jì)算機(jī)制,該機(jī)制直接計(jì)算多跳的注意力,并利用注意力修剪算法來避免指數(shù)的計(jì)算復(fù)雜度。
(2)提出了一種自適應(yīng)多尺度聚合機(jī)制。該機(jī)制不使用固定的聚合公式,而是通過鄰居路由方法基于圖的特性來學(xué)習(xí)更靈活的表示。
模型評(píng)估的實(shí)驗(yàn)結(jié)果表明,該方法在節(jié)點(diǎn)多分類任務(wù)上具有出色的性能。
本節(jié)簡要介紹一些以前的相關(guān)工作。使用方法主要與圖注意力和多尺度網(wǎng)絡(luò)有關(guān)。首先利用圖注意力機(jī)制通過冪鄰接矩陣直接計(jì)算注意力,然后使用從表示中學(xué)習(xí)的靈活聚合機(jī)制來傳播高階信息。
注意力機(jī)制在很多深度學(xué)習(xí)領(lǐng)域得到了廣泛的應(yīng)用,比如自然語言處理[17-18]、計(jì)算機(jī)視覺[19-20]等,后來注意力機(jī)制又出現(xiàn)了很多變種。Graph Attention Network[8]首先提出了圖中的注意力機(jī)制,在聚合信息的同時(shí)計(jì)算不同鄰居的注意力分?jǐn)?shù)。然而,后來的研究表明,基于注意力的機(jī)制在注意力計(jì)算[10]中存在過擬合問題。在此基礎(chǔ)上,后來的研究者們提出了更多的改進(jìn)[21-24],不同的方法一般使用不同的注意力計(jì)算方法。
與這些工作不同,本工作直接通過K 階鄰接矩陣計(jì)算高階鄰居之間的注意力。通過直接的注意力計(jì)算,模型可以更好地模擬遠(yuǎn)程鄰居之間的依賴關(guān)系,以減輕過擬合。此外,進(jìn)一步設(shè)計(jì)了一種高階鄰居剪枝算法,以降低注意力計(jì)算的復(fù)雜度。
傳統(tǒng)的圖神經(jīng)網(wǎng)絡(luò)聚合來自一跳鄰居的信息,并通過堆疊層獲得多跳信息。后來的一些研究人員試圖將多跳信息卷積在一個(gè)單層中,這種方法取得了出色的性能。例如混合鄰接矩陣的多個(gè)冪進(jìn)行卷積[11],以規(guī)避GCN[2]譜圖近似方法造成的建模能力降低[15];在塊 Krylov 子空間形式中推廣譜圖卷積和深度GCN,以利用多尺度信息,賦予網(wǎng)絡(luò)更強(qiáng)的表達(dá)能力;LanczosNet[25]利用圖拉普拉斯算子的低秩近似,快速地近似計(jì)算矩陣冪;MixHop[26]為一層中的每個(gè)鄰接冪學(xué)習(xí)多個(gè)權(quán)重矩陣,并為每一跳調(diào)整潛在維度,從而在一層學(xué)習(xí)GCN 無法表示的高階微分操作;N-GCN[13]進(jìn)一步提出使用權(quán)重來縮放GCN不同階鄰接矩陣的表征;mLink[14]提出了一種節(jié)點(diǎn)聚合方法,該方法將輸入的封閉子圖迭代地變換為不同的尺度;MSGE[27]基于隨機(jī)游走確定多個(gè)不同尺度的子圖,然后采用圖嵌入方法來學(xué)習(xí)超節(jié)點(diǎn)嵌入;MSGA[28]設(shè)計(jì)了一個(gè)多尺度自我表達(dá)模塊,用于從每一層獲得更具辨別力的表示。
本工作設(shè)計(jì)了一種鄰居路由機(jī)制[16],該機(jī)制通過節(jié)點(diǎn)的不同跳的表示來計(jì)算其與最終表示的耦合度,以便節(jié)點(diǎn)可以根據(jù)其特性獲得不同的路由系數(shù)。通過迭代傳播,最終表示可以感知各階鄰居的重要性,從而優(yōu)化了聚合過程。
本節(jié)首先介紹文章中使用的符號(hào)。假設(shè)觀察到一個(gè)圖G=(V,E),其中V 是節(jié)點(diǎn)集,E 是邊集,N=|V|是節(jié)點(diǎn)集中的節(jié)點(diǎn)數(shù)目。對(duì)于任意一個(gè)節(jié)點(diǎn)vi∈V,其都有一個(gè)對(duì)應(yīng)的特征向量,記作xi∈RF,從而構(gòu)成一個(gè)特征矩陣X∈RN×F,其中F 表示特征的維度。進(jìn)一步,圖G 的鄰接矩陣可以表示為A∈RN×N,其中如果兩個(gè)節(jié)點(diǎn)vi和vj間存在邊,則Aij=1,否則Aij=-∞。作為鄰居矩陣的拓展,可以用計(jì)算A 的k次冪的方法得到k 階鄰接矩陣的概念,記作Ak,它表示兩個(gè)節(jié)點(diǎn)是k 階相連的,并且對(duì)應(yīng)的值表示節(jié)點(diǎn)之間的路徑數(shù)。此外,使用一個(gè)恒等矩陣作為自連接矩陣,即A0=I,以保留節(jié)點(diǎn)自身的信息。
該模型旨在學(xué)習(xí)直接融合了多階信息的節(jié)點(diǎn)表征。圖2 闡述了模型的流程。它采用節(jié)點(diǎn)的特征矩陣X 和所有的1 階,2 階,…,K 階鄰接矩陣A1,A2,…,AK∈RN×N作為輸入,再使用權(quán)重共享的注意力處理來自不同階的鄰居,然后使用自適應(yīng)的多跳聚合來傳播來自不同階的信息,最后輸出包含了所有k 階鄰居信息的最終表征,其中k=1,2,…,K,K是一個(gè)表示鄰居最大階數(shù)的超參數(shù)。
直接計(jì)算目標(biāo)節(jié)點(diǎn)vi與它的鄰居節(jié)點(diǎn)vj間的注意力系數(shù),包括直接相連的鄰居和高階鄰居。為了進(jìn)一步降低計(jì)算復(fù)雜度,模型采用剪枝算法來去除部分不重要的邊。
2.2.1 直接高階注意力
首先,輸入節(jié)點(diǎn)特征矩陣X ∈RN×F被一個(gè)線性方程轉(zhuǎn)換成潛在表示H∈RN×F′,如式(1)所示:
其中Watt∈RF′×F是一個(gè)可訓(xùn)練的權(quán)重矩陣。
圖2 模型框架圖
給定一個(gè)潛在空間表示H 后,兩個(gè)k 階鄰接節(jié)點(diǎn)的注意力系數(shù)由注意力函數(shù)a(hi,hj)計(jì)算,如式(2)所示:
其中wu,wv∈RF′是在不同階鄰居間共享的可訓(xùn)練參數(shù),||是拼接操作,LeakyReLU 是非線性激活函數(shù)。注意力系數(shù)用于度量hi和hj間的依賴關(guān)系,從而使模型基于節(jié)點(diǎn)對(duì)間的耦合度學(xué)到不同的關(guān)系。
接下來,基于高階連接重新調(diào)整注意力系數(shù)eijk ,如式(3)所示:
其中p 是系數(shù)dropout 概率,ξ 是一個(gè)0 到1 間的隨機(jī)數(shù)。確切地說,k 階鄰居的注意力系數(shù)以p 的概率被選擇。注意這里使用剪枝的高階鄰接矩陣進(jìn)行注意力計(jì)算,該方法將在下一小節(jié)介紹剪枝算法。
為了注意力系數(shù)的可比性以及數(shù)值的穩(wěn)定性,使用softmax 函數(shù)來對(duì)注意力系數(shù)進(jìn)行歸一化,如式(4)所示:
通過式(4)可以得到所有鄰居節(jié)點(diǎn)的歸一化注意力矩陣,該矩陣反映了哪些鄰居應(yīng)該被分配更多的注意力。進(jìn)一步,基于該矩陣得到用于聚合過程的轉(zhuǎn)移矩陣,如式(5)所示:
與GAT 不同,本方法中來自不同階的鄰居共享同一個(gè)線性變換的權(quán)重矩陣。這種共享的方式有多個(gè)好處:首先,相同的注意力矩陣會(huì)將所有的節(jié)點(diǎn)特征映射到相同的潛在空間中,從而更容易捕獲不同階鄰居間的特征相似性以減輕過擬合;其次,與非共享的方式相比,共享將注意力計(jì)算需要的參數(shù)量降低到原來的1/k,從而顯著降低了內(nèi)存的消耗。并且與DAGN[29]不同,該方法直接計(jì)算包括高階鄰居在內(nèi)的不同階鄰居的注意力系數(shù),而不是只計(jì)算直接相連的鄰居再進(jìn)行擴(kuò)散過程。
2.2.2 高階邊剪枝
此前使用高階鄰接矩陣來進(jìn)行直接注意力計(jì)算。通過分析可以得出,計(jì)算的復(fù)雜度與邊的數(shù)量呈線性關(guān)系。然而,隨著鄰接矩陣冪階數(shù)的增長,邊的數(shù)量會(huì)隨之指數(shù)增長,并且聚合的信息會(huì)變得更加嘈雜。為了解決這個(gè)問題,提出了一個(gè)邊剪枝算法,如式(6)所示:
其中t 是一個(gè)可以基于圖性質(zhì)調(diào)整的超參數(shù)。采用這種剪枝形式是因?yàn)楦哌B通的hub 節(jié)點(diǎn)往往傾向于連接不同的群體[30],因此它們更可能對(duì)于當(dāng)前節(jié)點(diǎn)來說是噪聲。這種方式降低了高階鄰接矩陣的邊的數(shù)目,并鼓勵(lì)節(jié)點(diǎn)探索更可能未被傳播過的節(jié)點(diǎn)信息。
聚合過程可以基于圖的結(jié)構(gòu)和特征調(diào)整為一個(gè)可學(xué)習(xí)的過程,從而對(duì)應(yīng)不同圖的特性。基于這種思想,設(shè)計(jì)了一個(gè)基于路由算法的自適應(yīng)聚合過程。
2.3.1 鄰居路由
然后,使用非線性的tanh 函數(shù)在行維度激活父膠囊H′。進(jìn)一步,計(jì)算父膠囊與子膠囊間耦合系數(shù)來更新對(duì)數(shù)先驗(yàn)概率,如式(9)、式(10)所示:
事實(shí)上,鄰居路由本質(zhì)上是在度量每階鄰居表征對(duì)于下游任務(wù)的作用,其中對(duì)下游任務(wù)幫助更大的表征將會(huì)被分配更高的路由系數(shù)。該結(jié)構(gòu)中涉及較少的參數(shù)量,故有利于緩解過擬合的問題。
聚合了多階鄰居信息的最終表征H′將會(huì)使用一個(gè)全連接層,從而用于分類任務(wù),如式(11)所示:
其中W 是一個(gè)用于分類的線性變換,ReLU 是一個(gè)非線性激活函數(shù)[31],softmax 被用于行維度進(jìn)行分類。
該方法使用交叉熵?fù)p失函數(shù)來優(yōu)化模型,如式(12)所示:
其中YL是有標(biāo)簽的節(jié)點(diǎn)集合。整個(gè)模型使用梯度下降算法進(jìn)行優(yōu)化。
該方法對(duì)于所有鄰接矩陣都使用稀疏表示,鄰接冪的計(jì)算通過系數(shù)矩陣乘法進(jìn)行,復(fù)雜度為O(N|E|)[32]。對(duì)于高階冪的剪枝算法可以將復(fù)雜度降低到與A 相同的階數(shù),即O(|E|),因此注意力系數(shù)的計(jì)算可以近似為O(K|E|)。
該方法對(duì)幾個(gè)數(shù)據(jù)集在半監(jiān)督節(jié)點(diǎn)分類任務(wù)上進(jìn)行了大量的實(shí)驗(yàn)。首先介紹所使用數(shù)據(jù)集的一些統(tǒng)計(jì)數(shù)據(jù),并詳細(xì)說明實(shí)驗(yàn)的一些設(shè)定。為了驗(yàn)證提出的模型 DMGAT 的性能,本節(jié)將其與節(jié)點(diǎn)分類任務(wù)的表現(xiàn)最好的模型進(jìn)行比較,進(jìn)行了更多的參數(shù)實(shí)驗(yàn)和消融實(shí)驗(yàn),以研究模型的超參數(shù)敏感性和不同部分的有效性。最后對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行一些分析。
本節(jié)首先介紹一些實(shí)驗(yàn)使用的數(shù)據(jù)集的基本信息。對(duì)于節(jié)點(diǎn)分類任務(wù),使用三個(gè)基準(zhǔn)引文網(wǎng)絡(luò)進(jìn)行半監(jiān)督學(xué)習(xí),分別是Cora、Citeseer 和Pubmed[33]。在這些數(shù)據(jù)集中,節(jié)點(diǎn)表示文章,邊表示引用關(guān)系。每個(gè)節(jié)點(diǎn)的特征是文章的詞袋特征向量,其使用布爾值來表明一些關(guān)鍵詞在對(duì)應(yīng)的文檔中是否存在,且每個(gè)文檔都有一個(gè)類標(biāo)簽。表1 展示了這些數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù),表中展示了各數(shù)據(jù)集的節(jié)點(diǎn)數(shù)、邊數(shù)、特征數(shù)以及類別數(shù)。
表1 數(shù)據(jù)集統(tǒng)計(jì)數(shù)據(jù)
實(shí)驗(yàn)基于Pytorch Geometric[34]框架進(jìn)行,并使用了和GCN 相同的數(shù)據(jù)劃分以保證比較的公平性。
對(duì)于節(jié)點(diǎn)分類任務(wù),直接對(duì)其進(jìn)行端到端的訓(xùn)練,并使用SGD[35]優(yōu)化算法訓(xùn)練模型以最小化其交叉熵?fù)p失。在這三個(gè)數(shù)據(jù)集上,學(xué)習(xí)率統(tǒng)一被設(shè)置成0.01,L2正則化權(quán)重分別被設(shè)置成0.001、0.003和0.003,隱藏特征的維度F′被設(shè)置成8,注意力頭數(shù)M 被設(shè)置成8。在驗(yàn)證集的交叉熵?fù)p失上使用提前停止策略以終止訓(xùn)練。為了減輕過擬合,在輸入特征和隱藏層中使用了dropout[36]方法。對(duì)于所有的數(shù)據(jù)集,訓(xùn)練模型50 次并使用平均準(zhǔn)確率作為最終結(jié)果。
本節(jié)中報(bào)告實(shí)驗(yàn)的結(jié)果,并將其與一些性能最好的模型進(jìn)行比較以驗(yàn)證模型的表現(xiàn)。
3.3.1 基準(zhǔn)模型介紹
為了分析模型在節(jié)點(diǎn)分類任務(wù)上的性能,本節(jié)將它與一些模型在半監(jiān)督分類任務(wù)上進(jìn)行比較。為了保證比較的公平性,在進(jìn)行實(shí)驗(yàn)時(shí)選擇了一些對(duì)數(shù)據(jù)集有相同劃分的模型的結(jié)果??紤]的代表性模型包括經(jīng)典的模型、基于注意力的模型以及基于多尺度的模型。典型的基準(zhǔn)模型包括GCN、GAT、MixHop、GDC[37]、N-GCN[38]以及S2GC[39]。這里所有的結(jié)果都是由原文中引用得到。
3.3.2 實(shí)驗(yàn)結(jié)果
表2 中總結(jié)了三個(gè)數(shù)據(jù)集上節(jié)點(diǎn)分類準(zhǔn)確性結(jié)果,其中基準(zhǔn)模型的結(jié)果是直接從原文中引用而來的。
表2 三個(gè)數(shù)據(jù)集節(jié)點(diǎn)分類準(zhǔn)確性結(jié)果
如表2 所示,該方法在節(jié)點(diǎn)分類與性能最好的方法相比有著優(yōu)異的性能。在Cora 和Citeseer 數(shù)據(jù)集上,該模型相比其他模型取得了最好的表現(xiàn),相比第二的模型分別提高了1.3%和0.7%;而在Pubmed數(shù)據(jù)集上,它也取得了第二的準(zhǔn)確率80.6%。結(jié)果表明該方法在Cora 和Citeseer 數(shù)據(jù)集上有著優(yōu)異的性能。為了進(jìn)一步驗(yàn)證模型的有效性,本節(jié)設(shè)計(jì)了消融實(shí)驗(yàn),并詳盡分析了使用不同階數(shù)鄰接矩陣時(shí)的表現(xiàn)。
本節(jié)中分別替換了直接注意力和自適應(yīng)多尺度路由以研究每個(gè)組件的作用。
為了研究提出模塊的有效性,本節(jié)分別移除了直接注意力、自適應(yīng)多尺度聚合以進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3 所示。實(shí)驗(yàn)統(tǒng)一使用K=2,M=8 進(jìn)行比較。直接注意力的消融實(shí)驗(yàn)的實(shí)現(xiàn)方式是:使用式(1)中變換一次然后進(jìn)行多次信息傳播。
表3 實(shí)驗(yàn)結(jié)果
如表3 所示,相比之下,直接注意力機(jī)制在Cora、Citeseer 和Pubmed 上分別提高了0.7%,1.5%和0.8%。特別地,在Citeseer 數(shù)據(jù)集上提升最大,這表明該數(shù)據(jù)集相比其他數(shù)據(jù)集更依賴高階鄰居的信息。而自適應(yīng)的聚合過程持續(xù)地提升了每個(gè)數(shù)據(jù)集的表現(xiàn),在Cora、Citeseer 和Pubmed 上分別提高了0.8%、0.6%和0.6%,實(shí)驗(yàn)結(jié)果驗(yàn)證了直接注意力和自適應(yīng)多尺度聚合的有效性。除此之外,在直接注意力計(jì)算的權(quán)重共享設(shè)置上同樣進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明該方法不僅降低了參數(shù)計(jì)算量,同時(shí)在一定程度上提升了準(zhǔn)確率,其在Cora、Citeseer 和Pubmed 上分別提升了1.1%、0.4%和1.1%,實(shí)驗(yàn)結(jié)果表明網(wǎng)絡(luò)模型過大的容量同樣會(huì)導(dǎo)致過擬合問題。
為了研究階數(shù)K 和節(jié)點(diǎn)分類準(zhǔn)確率間的關(guān)系,本節(jié)分別設(shè)置K=2,3,4,并將結(jié)果與GAT 的表現(xiàn)進(jìn)行對(duì)比。結(jié)果表明,相比傳統(tǒng)的堆疊方式,該方法降低了層數(shù)堆疊導(dǎo)致的性能下降問題。
圖3 使用t-SNE 降維的可視化
使用t-SNE[40]進(jìn)行可視化以闡述模型的有效性(如圖3 所示),圖中不同顏色的點(diǎn)表示不同節(jié)點(diǎn)的潛在表征H′。如圖所示,在GAT 中使用2 階鄰居時(shí)表現(xiàn)最好,當(dāng)使用3 階和4 階鄰居時(shí),不同標(biāo)簽的節(jié)點(diǎn)逐漸混合在一起;而在本模型中,使用3 階和4 階鄰居時(shí),不同標(biāo)簽的節(jié)點(diǎn)仍能分辨得相對(duì)清楚,表明該方法在一定程度上緩解了過平滑問題[41]。
本節(jié)使用了一個(gè)小提琴圖來描述不同階數(shù)路由系數(shù)的密度。這里所有數(shù)據(jù)集均使用階數(shù)K=2,研究路由系數(shù)的總體分布,最終數(shù)據(jù)如圖4 所示。
圖4 不同數(shù)據(jù)集上的路由系數(shù)
如圖4 所示,相比節(jié)點(diǎn)自身的信息,1 階和2階的鄰居對(duì)于表征的貢獻(xiàn)更大。這一現(xiàn)象符合直覺,因?yàn)樵诖饲皩?shí)驗(yàn)中可以觀察到,卷積的方法相比單獨(dú)的多層感知機(jī)會(huì)顯著提升分類效果。特別在Citeseer 數(shù)據(jù)集上,路由系數(shù)相比其他數(shù)據(jù)集最穩(wěn)定,其最大值相比最小值近高出0.006 個(gè)點(diǎn)。相反地,Cora 數(shù)據(jù)集上的路由系數(shù)相對(duì)不穩(wěn)定,并且一些情況下節(jié)點(diǎn)自身的路由系數(shù)會(huì)高出鄰居的系數(shù)。而在Pubmed 數(shù)據(jù)集中,不同階表征看起來不具有明顯的區(qū)分性。
本文提出了一個(gè)圖神經(jīng)網(wǎng)絡(luò)模型DMGAT。為解決經(jīng)典注意力計(jì)算中存在的注意力依賴問題,提出了一個(gè)全新的直接注意力機(jī)制。該機(jī)制顯式地計(jì)算高階鄰居間的注意力系數(shù),使用邊剪枝算法以抑制指數(shù)增長的計(jì)算復(fù)雜度。在此基礎(chǔ)上,進(jìn)一步提出一個(gè)自適應(yīng)聚合機(jī)制,該機(jī)制使用鄰居路由算法以直接傳播多尺度信息。大量的節(jié)點(diǎn)分類實(shí)驗(yàn)結(jié)果表明了方法有著優(yōu)異的性能。