張繼杰,楊 艷,2*,劉 勇,2
(1.黑龍江大學(xué)計算機科學(xué)技術(shù)學(xué)院,哈爾濱 150080;2.黑龍江省數(shù)據(jù)庫與并行計算重點實驗室(黑龍江大學(xué)),哈爾濱 150080)
圖在真實世界中無處不在,其在建模結(jié)構(gòu)化和關(guān)系型數(shù)據(jù)的過程中發(fā)揮了關(guān)鍵的作用,如社交網(wǎng)絡(luò)[1-2]、知識圖譜[3]和化學(xué)分子[4]。人們想要將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到不規(guī)則的圖結(jié)構(gòu)上,在這種需求的驅(qū)使下,Kipf 等[5]首次提出了圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)。在圖卷積網(wǎng)絡(luò)被提出后不久,Veli?kovi? 等[6]提出了圖注意力神經(jīng)網(wǎng)絡(luò)(Graph ATtention network,GAT)。
GCN 和GAT 經(jīng)常被用來對圖中的節(jié)點進行分類,節(jié)點分類是網(wǎng)絡(luò)表示學(xué)習(xí)[7]領(lǐng)域一項重要的任務(wù)。例如,在引文網(wǎng)絡(luò)中,對每個論文節(jié)點的領(lǐng)域和主題進行預(yù)測,就是一個最常用的節(jié)點分類任務(wù)。目前,圖神經(jīng)網(wǎng)絡(luò)在這一任務(wù)上取得了巨大的成功,成為解決這一問題的有效手段。圖神經(jīng)網(wǎng)絡(luò)通過迭代地整合節(jié)點的鄰居表示,生成有效的節(jié)點表示。然而,像GCN、GAT 這些模型都在兩層時效果達到最佳,這種淺層的體系結(jié)構(gòu)限制了它們從高階鄰居中提取信息的能力。堆疊更多的層數(shù)和增加非線性往往會降低這些模型的性能。造成這種情況的主要原因可以歸結(jié)為過擬合和過平滑,前者是隨著層數(shù)的不斷加深,模型的參數(shù)不斷增多,模型的訓(xùn)練難度不斷提升,導(dǎo)致模型性能下降。對于后者而言,Li 等[8]首次指出圖卷積網(wǎng)絡(luò)的每一層就是一種特別的拉普拉斯平滑。簡單來講,拉普拉斯平滑就是讓一個節(jié)點和它周圍的節(jié)點盡可能相似,每個節(jié)點的新特征是其周圍節(jié)點特征的均值,進行多次圖卷積會導(dǎo)致連通圖中的節(jié)點趨近于相同的值,使得圖中不同類別的節(jié)點不可區(qū)分。對于所含信息較少的圖來說,利用節(jié)點的高階鄰居信息是必不可少的,因此緩解過平滑問題是很有必要的。
為了進一步緩解過平滑問題,本文提出了基于圖卷積結(jié)構(gòu)的模型,將圖卷積中原本耦合在一起的表示轉(zhuǎn)換和特征傳播操作進行了解耦。在原始的圖卷積傳播過程中需要一個轉(zhuǎn)換矩陣,因此當(dāng)考慮到大的接受域,即堆疊多層圖卷積時,模型的參數(shù)量會非常多,很難用大量的參數(shù)來訓(xùn)練一個多層圖卷積神經(jīng)網(wǎng)絡(luò)模型。其次,在基于圖中連接的節(jié)點屬于同一類的假設(shè)下,特征傳播只是簡化了分類任務(wù),讓連接的節(jié)點的表征更相似。相關(guān)研究證明,僅用多層感知機(Multi-Layer Perceptron,MLP)對節(jié)點初始表示進行降維并分類,效果表現(xiàn)較差。綜上分析,本文模型首先將節(jié)點的原始特征通過多層感知機生成用于之后傳播的表征,然后在特征傳播過程中加入了初始?xì)埐?。在得到不同傳播層的?jié)點表征之后,本文模型利用自適應(yīng)機制將不同傳播層的節(jié)點表示進行加權(quán)求和生成最終用于分類的節(jié)點表示。本文的模型在常用的引文數(shù)據(jù)集上取得了相較經(jīng)典的基線模型更優(yōu)的效果,且在緩解過平滑方面有著顯著的效果。
綜上所述,本文的主要工作如下:
1)將初始?xì)埐詈徒怦畈僮鞴餐瑧?yīng)用到圖卷積網(wǎng)絡(luò)中,并通過自適應(yīng)機制得到最終的節(jié)點表示。
2)實驗結(jié)果表明,本文模型的節(jié)點分類準(zhǔn)確率優(yōu)于多個基線系統(tǒng),同時能更好地緩解過平滑。
殘差網(wǎng)絡(luò)(Residual Network,ResNet)[9]等深層卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn),為圖像分類任務(wù)帶來了效果的巨大提升,于是后續(xù)有很多工作將殘差連接應(yīng)用到深層圖卷積當(dāng)中來緩解過平滑問題。
節(jié)點自身的信息在深層的圖卷積傳播過程中丟失,使得最終的節(jié)點表示不具備原始特征信息。很顯然,通過殘差連接,節(jié)點的淺層特征信息將會在圖卷積傳播過程中一直保留下來。
將圖卷積網(wǎng)絡(luò)與個性化的網(wǎng)頁排序(Page Ranking,PageRank)算法[10]聯(lián)系在一起,通過在PageRank 的隨機游走中保留部分根節(jié)點信息來改進模型,隨后得到了個性化的PageRank 模型。然后,Klicpera 等[11]將這種傳播方式移植到圖卷積網(wǎng)絡(luò)中,得到利用初始?xì)埐钸M行傳播的圖卷積神經(jīng)網(wǎng)絡(luò) APPNP(Approximated Personalized Propagation Neural Predications)。Cluster-GCN(Cluster Graph Convolutional Network)[12]提出殘差連接要考慮圖卷積網(wǎng)絡(luò)層數(shù)的影響,簡而言之就是節(jié)點對離得近的鄰居的影響力應(yīng)該更大。GCNII(Graph Convolutional Networks via Initial residual and Identity mapping)[13]則是通過將初始?xì)埐詈秃愕扔成溥@兩個簡單的技術(shù)應(yīng)用到了圖卷積網(wǎng)絡(luò)中來獲取更好的效果。
目前有工作將BatchNorm(Batch Normalization)技術(shù)[14]遷移到了圖卷積網(wǎng)絡(luò)中,PairNorm(Pair Normalization)[15]將每一層圖卷積的輸出進行正則化,并保持總的節(jié)點對的相互距離不變,這樣隨著圖卷積的進行,圖中連接的節(jié)點距離減少,相應(yīng)地沒有連接的節(jié)點之間的距離會被拉大。
DropEdge(Dropout Edge)[16]就是dropout[17]在圖神經(jīng)網(wǎng)絡(luò)上的擴展。在訓(xùn)練過程中,dropout 會隨機刪除一些輸入數(shù)據(jù)的特征,而DropEdge 則隨機刪除鄰接矩陣中的一些邊。假設(shè)圖的鄰接矩陣有P條邊,隨機選取固定數(shù)量的邊進行刪除,然后用剩余的鄰接矩陣代替原來的鄰接矩陣輸入到圖卷積網(wǎng)絡(luò)中進行訓(xùn)練,當(dāng)圖卷積網(wǎng)絡(luò)有多層時,每層刪除的邊可以不一樣。GRAND(Graph RAndom Neural Networks)[18]提出隨機傳播策略進行數(shù)據(jù)增強,其中應(yīng)用的DropNode(Dropout Node)就是將圖稀疏化的一種策略。
DAGNN(Deeper Adaptive Graph Neural Networks)[19]分析了圖卷積網(wǎng)絡(luò)中表示轉(zhuǎn)換和特征傳播的耦合會促使深層圖卷積性能下降。因此,將這兩個操作進行了解耦并自適應(yīng)地整合不同傳播層的表征,在一定程度上緩解了過平滑問題。
上述四種方法雖然都在緩解過平滑上取得了一定的效果,但是每種方法并沒有考慮與其他方法是否可以聯(lián)系在一起來緩解過平滑問題,本文就是將殘差連接和解耦操作進行了聯(lián)系,從而進一步緩解過平滑。
圖卷積可以被認(rèn)為是一種特殊形式的拉普拉斯平滑。簡單講,拉普拉斯平滑就是讓一個節(jié)點和它周圍的節(jié)點盡可能相似,每個節(jié)點的新特征是其周圍節(jié)點特征的均值。雖然拉普拉斯平滑的特性給圖卷積帶來了很多好處,使得每個節(jié)點能夠更好地利用周圍節(jié)點的信息,但它也帶來了對圖卷積模型的限制。研究者發(fā)現(xiàn),疊加越來越多的圖卷積網(wǎng)絡(luò)層后,結(jié)果不僅沒有變得更好,反而變差了,效果變差是因為連通圖中的節(jié)點表示趨近于相同的值,這就是所謂的過平滑問題。
為了更好地描述本文模型,表1 給出了主要符號及其含義。
表1 符號及其含義Tab.1 Symbols and their definition
本節(jié)給出了本文用到的一些定義。
定義1無權(quán)無向圖。給定一個擁有N=|V|個節(jié)點和M=|E|條邊的圖G=(V,E),其中節(jié)點集V={v1,v2,…,vN},邊集E={e1,e2,…,eM},圖中的邊沒有被賦予權(quán)重(默認(rèn)為1)且無向。
定義2鄰接矩陣和度矩陣。相應(yīng)的A∈{0,1}N×N代表圖的鄰接矩陣,鄰接矩陣的第i行、第j列的元素表示為Ai,j,如果節(jié)點vi和節(jié)點vj存在連接關(guān)系,則Ai,j=1,否則Ai,j=0。I代表主對角線全為1 的單位矩陣,=A+I代表添加自環(huán)之后的鄰接矩陣。由于圖是無向的,不論是否添加自環(huán),其鄰接矩陣都是對稱的,即Ai,j=Aj,i。D代表度矩陣,di是度矩陣D的對角元素,di=。代表加自環(huán)的度矩陣。
定義3網(wǎng)絡(luò)表示學(xué)習(xí)。給定圖G=(V,E)和初始的節(jié)點特征矩陣X∈RN×d,節(jié)點vi對應(yīng)一個d維的向量Xi。網(wǎng)絡(luò)表示學(xué)習(xí)的目標(biāo)是學(xué)習(xí)映射函數(shù)f:X∈RN×d→Z∈RN×c,將圖G中的每一個節(jié)點映射成c維的向量,滿足c?d,得到的節(jié)點表示矩陣Z∈RN×c用于預(yù)測節(jié)點的類別。
定義4半監(jiān)督學(xué)習(xí)。半監(jiān)督學(xué)習(xí)介于傳統(tǒng)監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)之間,其思想是在標(biāo)記樣本數(shù)量較少的情況下,通過在模型訓(xùn)練中直接引入無標(biāo)記樣本,以充分捕捉數(shù)據(jù)整體潛在分布,以改善如傳統(tǒng)無監(jiān)督學(xué)習(xí)過程盲目性、監(jiān)督學(xué)習(xí)在訓(xùn)練樣本不足導(dǎo)致的學(xué)習(xí)效果不佳的問題。
本節(jié)將首先給出兩層圖卷積的原始公式,如式(1)所示:
式(1)可以看出,圖卷積過程中,特征傳播和特征轉(zhuǎn)換是耦合在一起的,這使得當(dāng)進行深層的圖卷積時,模型的訓(xùn)練難度變大。SGC(Simplifying Graph Convolutional networks)[20]提出將圖卷積中的轉(zhuǎn)換矩陣去除,只在最后一層添加轉(zhuǎn)換矩陣,在性能提升很大的同時與圖卷積網(wǎng)絡(luò)產(chǎn)生了具有競爭力的分類效果。其性能提升很大一部分原因是去除了大量的訓(xùn)練參數(shù),使得模型簡化;但它仍避免不了隨著層次的加深出現(xiàn)過平滑現(xiàn)象。
本文提出了一種網(wǎng)絡(luò)表示學(xué)習(xí)模型ID-AGCN(using Initial residual and Decoupled Adaptive Graph Convolutional Network),以圖卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),去除了非線性激活函數(shù)和轉(zhuǎn)換矩陣,沿用了之前介紹的殘差連接和解耦操作,并且利用了自適應(yīng)機制來得到最終的節(jié)點表示。
為了解耦圖卷積中的特征傳播和表示轉(zhuǎn)換,本文提出的模型先利用多層感知機處理節(jié)點的原始表示,以便生成用于之后傳播的表示。這些表示只含有節(jié)點本身的信息,不包含結(jié)構(gòu)信息,而且維度要比節(jié)點初始的特征維度小很多,這里用第i個節(jié)點進行舉例,如式(2)所示:
其中:是經(jīng)過多層感知機降維得到的節(jié)點表示,c?d。圖的結(jié)構(gòu)信息會在傳播過程中被整合到節(jié)點表示中,隨著傳播的層數(shù)逐漸增大,節(jié)點本身的信息占比會逐漸減小。為了進一步保留節(jié)點本身信息,本文方法是在傳播過程中利用了初始?xì)埐钸B接,這樣即使傳播很多層,生成的節(jié)點表示仍能保留部分節(jié)點本身信息,如式(3)、(4)所示:
其中是節(jié)點vi經(jīng)過? 層傳播得到的表示。
然而很難確定一個合適的層數(shù)進行傳播。過少的層數(shù)將不能獲取足夠和必要的鄰居信息,過多的層數(shù)將會帶來過多的全局信息從而消除了具體的局部信息。每個節(jié)點理想中最合適的接受域是不同的,不同的傳播層得到的表征對節(jié)點最終的表征具有不同的影響程度。為了解決這一問題,本文采用了一個可學(xué)習(xí)向量ui∈Rc與不同傳播層得到的節(jié)點表示進行計算,得到相應(yīng)表示的保留分?jǐn)?shù)。這些保留分?jǐn)?shù)衡量了由不同傳播層產(chǎn)生的相應(yīng)表示的信息量有多少應(yīng)予以保留,如式(5)所示:
其中u?是經(jīng)過? 層圖卷積得到的表示的保留分?jǐn)?shù)。
然后將來自不同傳播層的表示進行加權(quán)求和得到最終的節(jié)點表示,如式(6)所示:
其中zi是節(jié)點vi的用于預(yù)測的最終表示。
利用這種自適應(yīng)的調(diào)整機制,模型可以做到自適應(yīng)地平衡每個節(jié)點的局部和全局鄰域的信息。
本文模型的整體框架如圖1 所示。
圖1 本文模型框架Fig.1 Framework of the proposed model
3.1 節(jié)介紹了單個節(jié)點的更新方式,這里采用矩陣運算來方便多個節(jié)點的更新。
這里的H0是初始的節(jié)點表示矩陣X經(jīng)過多層感知機之后得到的用于傳播的表示矩陣。
其中H?是節(jié)點在第? 層的表示矩陣。
將不同傳播層得到的表示矩陣?yán)胹tack 操作進行堆疊來得到表示矩陣H,將此表示矩陣用于后續(xù)保留分?jǐn)?shù)的計算。
利用一個共享可學(xué)習(xí)的向量u∈Rc×1來計算不同傳播層表示的保留分?jǐn)?shù),得到保留分?jǐn)?shù)矩陣U。
利用reshape 操作將保留分?jǐn)?shù)矩陣U進行維度變換得到U^。
利用squeeze 進行維度壓縮,用softmax 進行歸一化操作,得到用于預(yù)測的節(jié)點的表示矩陣Z。
本文任務(wù)為半監(jiān)督的節(jié)點分類[21],利用圖中部分帶標(biāo)簽的節(jié)點構(gòu)造監(jiān)督損失函數(shù)。假設(shè)n個節(jié)點中有m個帶標(biāo)簽的節(jié)點,那么構(gòu)造的交叉熵?fù)p失函數(shù)如式(13)所示:
其中:Yi指的是節(jié)點vi的真實標(biāo)簽,Zi表示節(jié)點vi的預(yù)測表示,Zi第p維的數(shù)值代表節(jié)點屬于第p類的概率。
本文所提的ID-AGCN 如算法1 所示。
算法1 ID-AGCN。
輸入 無權(quán)無向圖G=(V,E),對稱歸一化的鄰接矩陣,節(jié)點特征矩陣X∈RN×d,圖卷積層數(shù)k,初始?xì)埐畋A袈师粒?jié)點類別數(shù)c,多層感知機fmlp(X,θ1),可學(xué)習(xí)的向量u∈θ2。
本文選取了3 個公開真實的引文數(shù)據(jù)集進行實驗驗證,其統(tǒng)計數(shù)據(jù)如表2 所示。
表2 引文數(shù)據(jù)集Tab.2 Citation datasets
這3 個引文數(shù)據(jù)集中的每一個節(jié)點代表一篇論文,它們之間的連邊代表引用關(guān)系。Cora 數(shù)據(jù)集中有2 708 篇論文,共存在5 429 條邊,類別數(shù)為7,代表這些論文共分為7 個研究領(lǐng)域,每篇論文都由一個1 433 維的向量來表示。CiteSeer數(shù)據(jù)集共有3 327 篇論文,類別數(shù)為6,每篇論文由一個3 703維的向量表示。PubMed 數(shù)據(jù)集共有19 717 篇論文,類別數(shù)為3,每篇論文由一個500 維的向量表示。數(shù)據(jù)集的分割采用了文獻[22]中的分割方法,訓(xùn)練集是從每一類中取20 個節(jié)點進行訓(xùn)練,用500 個節(jié)點驗證,用1 000 個節(jié)點測試。
此外,本文還計算了3 個數(shù)據(jù)集的邊密度,計算結(jié)果顯示,PubMed 數(shù)據(jù)集最為稀疏。其中,邊密度ρ的計算公式如下:
其中:m表示邊數(shù),n表示節(jié)點數(shù)。
本文的實驗環(huán)境為AMD Ryzen 7 5800H,CPU@3.20 GHz,16 GB 內(nèi)存,Windows 10 64 位操作系統(tǒng),8 GB 顯存的NVIDIA GeForce RTX 3070。使用Pytorch 和Pytorch Geometric 實現(xiàn)本文模型以及相應(yīng)的基線模型。
ChebNet(Chebyshev Network)[23]:一種實現(xiàn)快速局部化和低復(fù)雜度的譜域圖神經(jīng)網(wǎng)絡(luò),由于使用了切比雪夫多項式展開近似,所以這個網(wǎng)絡(luò)又稱切比雪夫網(wǎng)絡(luò)。
GCN[5]:在切比雪夫網(wǎng)絡(luò)的基礎(chǔ)上,將切比雪夫網(wǎng)絡(luò)中的多項式卷積核限定為1 階,極大減少了計算量。
GAT[6]:在為圖中每個節(jié)點計算向量表示時,利用注意力機制加權(quán)節(jié)點的鄰居,可以跨節(jié)點并行計算。
SGC[20]:在多層圖卷積網(wǎng)絡(luò)中,去除每一層的非線性函數(shù),多層圖卷積網(wǎng)絡(luò)疊加之后的簡化模型仍然可以看作兩部分,左邊是多層圖卷積,右邊是多個全連接線性層,疊加多層之后的圖卷積仍然起到了低通濾波的作用,并將多個全連接線性層合并到一起。
APPNP[11]:利用了初始?xì)埐钸M行圖卷積傳播,只有最開始計算降維的節(jié)點向量表示時引入了參數(shù),接下來的更新步驟都是無參數(shù)的,使得增加層數(shù)不會對整個圖神經(jīng)網(wǎng)絡(luò)的參數(shù)量造成影響,因此只需要很少的參數(shù)就可以傳播到更多的層,而不容易造成過平滑問題。
DAGNN[19]:將圖卷積網(wǎng)絡(luò)中的表示轉(zhuǎn)換與特征傳播進行了解耦,并且采用了自適應(yīng)機制進行了節(jié)點向量表示整合,沒有應(yīng)用殘差技術(shù)。
本文利用不同的模型對3 個引文數(shù)據(jù)集進行了半監(jiān)督的節(jié)點分類準(zhǔn)確率對比,對每個模型進行了100 次的實驗,統(tǒng)計數(shù)據(jù)如表3 所示。
表3 引文數(shù)據(jù)集分類準(zhǔn)確率結(jié)果 單位:%Tab.3 Classification accuracy results for citation datasets unit:%
從表3 可以觀察到,ID-AGCN 在這3 個數(shù)據(jù)集上的分類效果相較GCN 分別提升了3.4、2.3 和1.9 個百分點,表明了本文模型在引文數(shù)據(jù)集半監(jiān)督節(jié)點分類任務(wù)上的優(yōu)越性。
為了尋找本文模型的最佳參數(shù),模型參數(shù)的搜索范圍為:
1)k∈{5,10,15,20,25,30,35,40};
2)weight decay ∈{0,0.005,0.01,0.015,0.02};
3)α∈{0.01,0.02,0.03,0.04,0.05,0.1,0.15,0.2};
4)dropout rate ∈{0.5,0.55,0.8,0.85};
5)學(xué)習(xí)率固定為0.01。
經(jīng)過網(wǎng)格搜索,模型的最優(yōu)參數(shù)設(shè)置如表4 所示。
表4 參數(shù)設(shè)置Tab.4 Parameter setting
由于像GCN、GAT 這種模型是淺層的圖神經(jīng)網(wǎng)絡(luò)模型,不適合進行緩解過平滑實驗對比。為了驗證模型在緩解過平滑方面的能力,首先規(guī)定圖卷積層數(shù)k分別為5、10、15、20、50、100、200 和300,然后采用簡化的圖卷積模型SGC、深層圖卷積模型DAGNN 與本文模型在Cora 數(shù)據(jù)集上進行實驗對比,如圖2 所示。
圖2 緩解過平滑結(jié)果對比Fig.2 Comparison of over-smoothing alleviation results
從圖2 中可以看出,隨著圖卷積層數(shù)的加深,本文提出的模型相較SGC 和DAGNN 有更好的緩解過平滑能力,表明了本文模型在緩解過平滑方面的有效性。
本文在各模型達到最優(yōu)效果的前提下,在Cora 數(shù)據(jù)集上進行運行時間的對比,統(tǒng)計數(shù)據(jù)如表5 所示。
表5 不同模型分類準(zhǔn)確率和運行時間對比Tab.5 Classification accuracy and running time comparison of different models
通過表5 看出,簡化之后的圖卷積模型SGC 在運行時間上占優(yōu),但是其分類準(zhǔn)確率相較本文模型少了3 個百分點。因為本文模型是深層圖卷積,其層數(shù)肯定多于簡化的圖卷積模型,運行時間也會增多,但分類效果提升明顯。
本節(jié)主要進行模型關(guān)鍵模塊的消融,模型的關(guān)鍵模塊包括初始?xì)埐钸B接和自適應(yīng)機制,將初始?xì)埐钸B接稱為IR(Initial Residual),將自適應(yīng)機制稱為AM(Adaptive Mechanism),將去除操作用w/o 表示,通過消除不同的模塊來進行實驗對比。值得一提的是,去掉自適應(yīng)機制指的是將來自不同傳播層的節(jié)點表示進行平均聚合。圖卷積層數(shù)k遵從前文的設(shè)定,分別為5、10、15、20、50、100、200 和300,在Cora 數(shù)據(jù)集上進行了模型消融對比,實驗結(jié)果如圖3 所示。
圖3 消融實驗結(jié)果對比Fig.3 Result comparison of ablation experiments
本節(jié)研究模型對其主要參數(shù)的敏感性,主要包括殘差保留率α和圖卷積層數(shù)k。
本文在3 個引文數(shù)據(jù)集上對這兩個參數(shù)進行了分析,實驗設(shè)置殘差保留率α分別為0.05、0.1、0.15 和0.2,圖卷積層數(shù)k分別為5、10、15、20、50、100、200 和300 來研究它們對模型性能的影響,圖4 和圖5 記錄了模型準(zhǔn)確率在3 個數(shù)據(jù)集上針對不同參數(shù)的變化。
圖4 參數(shù)α的影響Fig.4 Influence of parameter α
圖5 參數(shù)k的影響Fig.5 Influence of parameter k
從圖4 可以看出,隨著殘差保留率α的逐漸增大,模型的性能有些許下降,表明在進行深層圖卷積時不宜加入過多的初始特征信息。從圖5 可以看出,隨著圖卷積層數(shù)k的增多,模型的性能會下降,這是不可避免地產(chǎn)生了過平滑問題,但是本文模型在緩解過平滑方面的能力是較好的,即使在層數(shù)為300 時,節(jié)點的分類準(zhǔn)確率依舊很高,表明了本模型緩解過平滑的有效性。
本節(jié)利用t-SNE(t-distributed Stochastic Neighbor Embedding)技術(shù)對Cora 數(shù)據(jù)集中1 000 個測試的節(jié)點進行可視化,t-SNE 是機器學(xué)習(xí)中用于降維的一種算法,它基于多維縮放和等距特征映射更改了距離不變性的概念,并在將高維映射到低維的同時確保了它們之間的分布概率不變,具體的結(jié)果如圖6 所示。
圖6 Cora數(shù)據(jù)集可視化結(jié)果Fig.6 Cora dataset visualization results
1 000 個測試的節(jié)點總共分為7 個類別,從圖6 中可以看出,本文模型對于節(jié)點分類這一任務(wù)有較好的效果。
本文提出了一種緩解深層圖卷積網(wǎng)絡(luò)過平滑的模型,該模型主要采用初始?xì)埐钸B接以及解耦圖卷積網(wǎng)絡(luò)改進原始的圖卷積,并利用自適應(yīng)機制整合不同傳播層的節(jié)點表征。在3 個真實公開的引文數(shù)據(jù)集上的實驗結(jié)果表明了本文模型的有效性。
本文模型主要做的是半監(jiān)督且直推式的節(jié)點分類任務(wù),其局限是不能擴展到其他圖上,即使是在同一個圖上,要測試的點如果不在訓(xùn)練時就加入圖結(jié)構(gòu),本文模型是沒有辦法得到它的嵌入表示的。但實際應(yīng)用中往往需要通過學(xué)習(xí)已知數(shù)據(jù)的規(guī)律泛化到未知的數(shù)據(jù)上,因此以后可以考慮改進本文模型,進行一些歸納式的預(yù)測任務(wù)。