李卓然,冶忠林,趙海興*,林晶晶
基于混合特征建模的圖卷積網(wǎng)絡(luò)方法
李卓然1,2,3,4,冶忠林1,2,3,4,趙海興1,2,3,4*,林晶晶1,2,3,4
(1.青海師范大學(xué) 計(jì)算機(jī)學(xué)院,西寧 810016; 2.省部共建藏語(yǔ)智能信息處理及應(yīng)用國(guó)家重點(diǎn)實(shí)驗(yàn)室(青海師范大學(xué)),西寧 810008; 3.藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室(青海師范大學(xué)),西寧 810008; 4.青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室(青海師范大學(xué)),西寧 810008)( ? 通信作者電子郵箱h.x.zhao@163.com)
對(duì)于網(wǎng)絡(luò)中擁有的復(fù)雜信息,需要更多的方式抽取其中的有用信息,但現(xiàn)有的單特征圖神經(jīng)網(wǎng)絡(luò)(GNN)無(wú)法完整地刻畫(huà)網(wǎng)絡(luò)中的相關(guān)特性。針對(duì)該問(wèn)題,提出基于混合特征的圖卷積網(wǎng)絡(luò)(HDGCN)方法。首先,通過(guò)圖卷積網(wǎng)絡(luò)(GCN)得到節(jié)點(diǎn)的結(jié)構(gòu)特征向量和語(yǔ)義特征向量;然后,通過(guò)改進(jìn)基于注意力機(jī)制或門(mén)控機(jī)制的聚合函數(shù)選擇性地聚合語(yǔ)義網(wǎng)絡(luò)節(jié)點(diǎn)的特征,增強(qiáng)節(jié)點(diǎn)的特征表達(dá)能力;最后,通過(guò)一種基于雙通道圖卷積網(wǎng)絡(luò)的融合機(jī)制得到節(jié)點(diǎn)的混合特征向量,將節(jié)點(diǎn)的結(jié)構(gòu)特征和語(yǔ)義特征聯(lián)合建模,使特征之間互相補(bǔ)充,提升該方法在后續(xù)各種機(jī)器學(xué)習(xí)任務(wù)上的表現(xiàn)。在CiteSeer、DBLP和SDBLP三個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)的結(jié)果表明,與基于結(jié)構(gòu)特征訓(xùn)練的GCN相比,HDGCN在訓(xùn)練集比例為20%、40%、60%、80%時(shí)的Micro?F1值平均分別提升了2.43、2.14、1.86和2.13個(gè)百分點(diǎn),Macro?F1值平均分別提升了1.38、0.33、1.06和0.86個(gè)百分點(diǎn)。用拼接或平均值作為融合策略時(shí),準(zhǔn)確率相差不超過(guò)0.5個(gè)百分點(diǎn),可見(jiàn)拼接和平均值均可作為融合策略。HDGCN在節(jié)點(diǎn)分類(lèi)和聚類(lèi)任務(wù)上的準(zhǔn)確率高于單純使用結(jié)構(gòu)或語(yǔ)義網(wǎng)絡(luò)訓(xùn)練的模型,并且在輸出維度為64、學(xué)習(xí)率為0.001、2層圖卷積層和128維注意力向量時(shí)的效果最好。
注意力機(jī)制;門(mén)控機(jī)制;雙通道圖卷積網(wǎng)絡(luò);結(jié)構(gòu)特征;語(yǔ)義特征
近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)因具有強(qiáng)大的特征表征能力和不依賴(lài)于大量先驗(yàn)知識(shí)的特點(diǎn)而快速發(fā)展,并借由其強(qiáng)大的建模能力成為研究熱點(diǎn)。CNN在圖像處理[1-2]、自然語(yǔ)言處理(Natural Language Processing, NLP)[3-4]以及旋轉(zhuǎn)機(jī)械[5-6]等領(lǐng)域明顯提升了各種機(jī)器學(xué)習(xí)任務(wù)的性能,然而CNN只能處理具有平移不變性特點(diǎn)的歐氏空間數(shù)據(jù),如圖像、語(yǔ)音等,但生活中的許多關(guān)系更需要用一種非歐氏空間數(shù)據(jù)——圖數(shù)據(jù)——自然地表示,例如社交網(wǎng)絡(luò)[7-8]、生物信息網(wǎng)絡(luò)[9-10]和交通網(wǎng)絡(luò)[11-12]等。不同于圖像等歐氏空間數(shù)據(jù),圖數(shù)據(jù)局部結(jié)構(gòu)各異,不滿(mǎn)足平移不變性,考慮到CNN在圖像識(shí)別領(lǐng)域的成功,如何在圖數(shù)據(jù)上定義CNN成為研究熱點(diǎn)。
Bruna等[13]基于卷積定理于2014年提出了Spectral CNN,模仿CNN特性,通過(guò)疊加多層圖卷積,并且為每一層都定義了卷積核和激活函數(shù),構(gòu)成了圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)。由于GCN時(shí)空復(fù)雜度較高,隨后Defferrard等[14]于2016年提出了ChebNet,通過(guò)將切比雪夫多項(xiàng)式作為卷積核來(lái)降低時(shí)空復(fù)雜度。由于拉普拉斯矩陣的特征值分解復(fù)雜度很高,Hammond等[15]為了避免拉普拉斯矩陣的特征值分解,利用切比雪夫多項(xiàng)式的階截?cái)啻婢矸e核,將卷積核的建模范圍從整個(gè)圖轉(zhuǎn)換到節(jié)點(diǎn)的階鄰居,并減少了卷積核的參數(shù)數(shù)量。Kipf等[16]使用一階近似ChebNet提出了一種層級(jí)傳播方式,每個(gè)圖卷積層僅聚合一階鄰居,并且多個(gè)圖卷積層可以共享一個(gè)卷積核,顯著減少了參數(shù)數(shù)量;而且隨著層數(shù)的增加,可以聚合遠(yuǎn)距離鄰節(jié)點(diǎn)的信息量越多,不需要進(jìn)行拉普拉斯矩陣的特征值分解,降低了時(shí)間復(fù)雜度。這些方法都是在譜域的角度定義圖卷積,而基于空域的方法則出現(xiàn)得更早,并且在后期更受歡迎。早期的圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network, GNN)要求節(jié)點(diǎn)聚合其鄰節(jié)點(diǎn)信息達(dá)到一個(gè)收斂狀態(tài),可能導(dǎo)致節(jié)點(diǎn)無(wú)法被區(qū)分而出現(xiàn)過(guò)平滑現(xiàn)象。
在NLP中,節(jié)點(diǎn)的文本可以提供豐富的特征信息,不僅可以有效彌補(bǔ)因?yàn)榻Y(jié)構(gòu)特征稀疏而導(dǎo)致的訓(xùn)練不充分問(wèn)題,還可以豐富節(jié)點(diǎn)的特征信息,從而提升分類(lèi)任務(wù)的準(zhǔn)確性?,F(xiàn)有的圖表示學(xué)習(xí)算法有一些是基于結(jié)構(gòu)與文本聯(lián)合建模的:TADW(Text?Associated DeepWalk)[17]分別學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)表示和文本表示,然后將二者通過(guò)拼接的方式融入模型;NRNR(Network Representation learning algorithm using the optimizations of Neighboring vertices and Relation model)[18]提出了鄰節(jié)點(diǎn)優(yōu)化的網(wǎng)絡(luò)表示學(xué)習(xí)(Network Representation Learning,NRL),基于知識(shí)表示學(xué)習(xí)中的關(guān)系模型對(duì)混合特征網(wǎng)絡(luò)進(jìn)行聯(lián)合建模;TDNR(Tri?party Deep Network Representation learning using inductive matrix completion)[19]將網(wǎng)絡(luò)結(jié)構(gòu)、文本特征和邊的連接確定度等特征融合到RNL框架中,使學(xué)習(xí)到的表示向量包含了更多的網(wǎng)絡(luò)屬性信息;HSNR(Network Representation learning algorithm using Hierarchical Structure embedding)[20]從知識(shí)表示的角度引入了多關(guān)系建模思想,并將節(jié)點(diǎn)之間的關(guān)系轉(zhuǎn)化為知識(shí)三元組形式,提出了一種聯(lián)合學(xué)習(xí)模型將節(jié)點(diǎn)三元組關(guān)系嵌入到網(wǎng)絡(luò)表示向量中。
在NRL任務(wù)中,通過(guò)淺層神經(jīng)網(wǎng)絡(luò)將文本特征和結(jié)構(gòu)特征聯(lián)合建模的研究較多,這些研究表明:混合特征建模在下游機(jī)器學(xué)習(xí)任務(wù)中的性能更優(yōu)。但在GNN研究中,結(jié)構(gòu)和文本聯(lián)合建模的工作非常少,網(wǎng)絡(luò)除了結(jié)構(gòu)特征,節(jié)點(diǎn)的文本特征也是一個(gè)非常重要的參考特征,研究通過(guò)GNN如何將結(jié)構(gòu)和文本特征聯(lián)合建模是一項(xiàng)非常具有挑戰(zhàn)性的工作。因此,本文提出一種基于混合特征的圖卷積網(wǎng)絡(luò)HDGCN(Hybrid Dual Graph Convolutional Network based on hybrid feature)。首先,將節(jié)點(diǎn)的標(biāo)題作為語(yǔ)義特征并構(gòu)造語(yǔ)義網(wǎng)絡(luò),將節(jié)點(diǎn)間的引用關(guān)系作為結(jié)構(gòu)特征構(gòu)造結(jié)構(gòu)網(wǎng)絡(luò);其次,引入GCN學(xué)習(xí)網(wǎng)絡(luò)中節(jié)點(diǎn)的結(jié)構(gòu)特征向量和語(yǔ)義特征向量;然后,使用改進(jìn)的聚合函數(shù)對(duì)語(yǔ)義特征進(jìn)行聚合;最后,基于雙通道圖卷積網(wǎng)絡(luò)拼接結(jié)構(gòu)特征向量和語(yǔ)義特征向量。
綜上所述,本文主要工作如下:
1)HDGCN引入注意力機(jī)制提升性能,因?yàn)樽⒁饬C(jī)制的學(xué)習(xí)參數(shù)僅與節(jié)點(diǎn)特征相關(guān),與圖結(jié)構(gòu)關(guān)系不大。GCN學(xué)習(xí)的參數(shù)和圖結(jié)構(gòu)密切相關(guān),每次計(jì)算都要更新圖的全部節(jié)點(diǎn),所以在歸納任務(wù)中表現(xiàn)一般。根據(jù)注意力機(jī)制設(shè)計(jì)聚合函數(shù),計(jì)算節(jié)點(diǎn)間的權(quán)重系數(shù),可以擴(kuò)展到大規(guī)模數(shù)據(jù)集,增強(qiáng)泛化能力。對(duì)于不同度的節(jié)點(diǎn),可以賦予相對(duì)應(yīng)的權(quán)重體現(xiàn)最具有影響力的輸入。
2)語(yǔ)義網(wǎng)絡(luò)中節(jié)點(diǎn)存在部分弱相關(guān)鄰節(jié)點(diǎn),可能導(dǎo)致噪聲數(shù)據(jù)影響HDGCN的訓(xùn)練效果,本文采用門(mén)控機(jī)制設(shè)計(jì)聚合函數(shù)控制節(jié)點(diǎn)特征信息流向,增強(qiáng)節(jié)點(diǎn)的特征表達(dá)能力,降低噪聲的干擾。
3)基于語(yǔ)義特征或基于結(jié)構(gòu)特征反映的節(jié)點(diǎn)信息不完整,將兩種單特征融合為混合特征,充分利用了兩種特征之間的互補(bǔ)性和多樣性,增強(qiáng)節(jié)點(diǎn)表達(dá)能力。在三個(gè)基準(zhǔn)測(cè)試數(shù)據(jù)集上驗(yàn)證本文模型,實(shí)驗(yàn)結(jié)果表明GCN中混合特征比單特征的準(zhǔn)確率有明顯提升。
NRL先將網(wǎng)絡(luò)中的節(jié)點(diǎn)映射為低維、稠密、實(shí)值向量表示,再用于各種機(jī)器學(xué)習(xí)任務(wù)。DeepWalk[21]是NRL最著名的工作,它采用隨機(jī)游走方法得到節(jié)點(diǎn)序列,并將一個(gè)序列看作一個(gè)句子,序列中的節(jié)點(diǎn)元素看作單詞,通過(guò)Word2Vec算法將每個(gè)頂點(diǎn)表示為一個(gè)低維向量。DeepWalk在圖數(shù)據(jù)上利用自然語(yǔ)言處理方法學(xué)習(xí)節(jié)點(diǎn)表示,但網(wǎng)絡(luò)中節(jié)點(diǎn)間結(jié)構(gòu)關(guān)系比詞上下文關(guān)系更復(fù)雜,并且通常網(wǎng)絡(luò)中的邊包含權(quán)重,Word2Vec算法目前不能解決該問(wèn)題。LINE(Large?scale Information Network Embedding)[22]定義一階相似度和二階相似度代替隨機(jī)游走算法。受深度學(xué)習(xí)啟發(fā),SDNE(Structural Deep Network Embedding)[23]引入深度自編碼器獲得節(jié)點(diǎn)的一階和二階相似度。由于DeepWalk不能完整地保留網(wǎng)絡(luò)結(jié)構(gòu)信息,Node2Vec[24]優(yōu)化了隨機(jī)游走算法,提出了廣度優(yōu)先策略和深度優(yōu)先策略。隨著深度學(xué)習(xí)的興起,神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖數(shù)據(jù)利用end?to?end方式學(xué)習(xí)節(jié)點(diǎn)表示產(chǎn)生了一個(gè)新的研究熱點(diǎn)——圖神經(jīng)網(wǎng)絡(luò)(GNN)。
GNN分為基于譜域和空域兩種方法。由于圖數(shù)據(jù)不具有平移不變性的特點(diǎn),CNN不能直接應(yīng)用在圖上,譜圖理論的工作為定義圖卷積提供了方法:先使用傅里葉變換,使節(jié)點(diǎn)嵌入從空域轉(zhuǎn)換到譜域;再利用傅里葉逆變換將節(jié)點(diǎn)嵌入轉(zhuǎn)換到原空間實(shí)現(xiàn)圖卷積操作;反復(fù)執(zhí)行圖卷積操作,使節(jié)點(diǎn)對(duì)鄰居節(jié)點(diǎn)的依賴(lài)性降低,能很好地完成圖數(shù)據(jù)中更加復(fù)雜的學(xué)習(xí)任務(wù)。文獻(xiàn)[16]中提出了經(jīng)典的GCN,隨著后續(xù)工作對(duì)GCN的不斷改進(jìn)和完善,該模型的基本結(jié)構(gòu)由輸入層、隱藏層和輸出層三部分組成。其中隱藏層由圖卷積層和池化層構(gòu)成:圖卷積層用來(lái)抽取圖上每個(gè)節(jié)點(diǎn)鄰接節(jié)點(diǎn)的特征,池化層通常用來(lái)降低特征維度。首先,圖數(shù)據(jù)經(jīng)過(guò)隱藏層提取每個(gè)節(jié)點(diǎn)的鄰接節(jié)點(diǎn)特征,如果模型中參數(shù)太多,而訓(xùn)練樣本太少,則通過(guò)Dropout在每個(gè)訓(xùn)練批次中隨機(jī)丟棄一半的隱藏層節(jié)點(diǎn);然后,再對(duì)輸出的特征矩陣進(jìn)行卷積操作;最后,用softmax激活函數(shù)將輸出的節(jié)點(diǎn)嵌入映射到(0,1)區(qū)間,可以看作當(dāng)前屬于各個(gè)分類(lèi)的概率。將模型輸出結(jié)果作為預(yù)測(cè)值和真實(shí)值進(jìn)行比較獲得誤差,通過(guò)反向傳播將誤差從后向前依次傳遞,并求出每一層的誤差作為修改該層參數(shù)的依據(jù)。循環(huán)執(zhí)行此操作直至收斂或預(yù)設(shè)的訓(xùn)練步為止。上述模型都使用原始圖結(jié)構(gòu)來(lái)表示節(jié)點(diǎn)間的關(guān)系,但是,不同節(jié)點(diǎn)間可能存在潛在的關(guān)系。2018年,Li等[25]提出了一種自適應(yīng)圖卷積網(wǎng)絡(luò)(Adaptive Graph Convolutional neural Network, AGCN)來(lái)學(xué)習(xí)節(jié)點(diǎn)之間潛在的關(guān)系。同年,Zhuang等[26]針對(duì)圖的全局和局部一致性提出了對(duì)偶圖卷積網(wǎng)絡(luò)(Dual Graph Convolutional Network, DGCN),使用兩個(gè)不同的卷積獲得局部一致性和全局一致性,并采用無(wú)監(jiān)督損失對(duì)它們同時(shí)進(jìn)行參數(shù)更新。2019年,Xu等[27]采用圖小波變換代替圖傅立葉變換,提出了圖小波神經(jīng)網(wǎng)絡(luò)(Graph Wavelet Neural Network, GWNN)。GWNN有兩個(gè)優(yōu)點(diǎn):無(wú)需矩陣分解即可快速得到圖的小波變換;圖小波具有稀疏性和局部性,分類(lèi)的準(zhǔn)確率結(jié)果更好,更易于解釋。
基于空域的方法的核心思想是通過(guò)定義聚合函數(shù)對(duì)卷積核建模,迭代式地聚合鄰居節(jié)點(diǎn)的特征,進(jìn)而更新當(dāng)前節(jié)點(diǎn)的特征。2009年,Scarselli等[28]提出了GNN,將循環(huán)遞歸函數(shù)作為聚合函數(shù),每個(gè)節(jié)點(diǎn)通過(guò)聚合鄰節(jié)點(diǎn)信息更新自身表達(dá)。2017年,Li等[29]提出了GG?NN(Gated Graph Neural Network),利用門(mén)控循環(huán)網(wǎng)絡(luò)更新節(jié)點(diǎn)自身表達(dá),不再要求圖收斂。2016年,DCNN(Diffusion Convolutional Neural Network)[30]將圖卷積看作擴(kuò)散過(guò)程,節(jié)點(diǎn)間的信息以一定的概率傳播,相鄰節(jié)點(diǎn)間信息傳播概率更高。2017年,Hamilton等[31]提出了GraphSAGE(Graph SAmple and aggreGatE),給出了均值聚合、長(zhǎng)短期記憶(Long Short?Term Memory, LSTM)聚合和池化聚合三種聚合函數(shù)更新節(jié)點(diǎn)狀態(tài)。Gilmer等[32]發(fā)現(xiàn)所有基于空域的都是節(jié)點(diǎn)將鄰節(jié)點(diǎn)信息以某種形式聚合來(lái)更新節(jié)點(diǎn)狀態(tài),旨在將不同的模型集成到一個(gè)框架中,因此提出了一個(gè)基于空域圖卷積的通用框架MPNN(Modified Probabilistic Neural Network)用于化學(xué)分子性質(zhì)的預(yù)測(cè)。2017年,Monti等[33]嘗試整合基于非歐空間模型,提出了MoNet框架。2018年,Wang等[34]通過(guò)整合若干種自注意力方法,提出了非局部神經(jīng)網(wǎng)絡(luò)(Non Local Neural Network, NLNN),非局部操作將某個(gè)位置的隱藏狀態(tài)計(jì)算為所有可能狀態(tài)的特征加權(quán)和。Battaglia等[35]提出了圖網(wǎng)絡(luò)(Graph Network, GN),它為節(jié)點(diǎn)級(jí)學(xué)習(xí)、邊級(jí)學(xué)習(xí)和圖級(jí)學(xué)習(xí)定義了一個(gè)更通用的框架。由于鄰節(jié)點(diǎn)的影響不同,需要對(duì)它們進(jìn)行區(qū)別對(duì)待,2018年,Veli?kovi?等[36]引入注意力機(jī)制定義聚合函數(shù),通過(guò)對(duì)周?chē)?jié)點(diǎn)的表達(dá)加權(quán)求和更新節(jié)點(diǎn)自身表達(dá)。同年,Zhang等[37]提出了門(mén)控注意網(wǎng)絡(luò)(Gated Attention Network, GaAN),它使用一種自注意力機(jī)制從不同的注意力頭中收集信息,取代GAT(Graph ATtention)的平均操作?;诳沼虻姆椒ㄊ构?jié)點(diǎn)聚合了大量的周?chē)?jié)點(diǎn)信息,為了獲得更重要的信息,增強(qiáng)節(jié)點(diǎn)特征的表達(dá)能力,使下游機(jī)器學(xué)習(xí)任務(wù)有更好的效果,引入注意力機(jī)制和門(mén)控循環(huán)單元(Gated Recurrent Unit, GRU)[38]到GNN中。GRU包含重置門(mén)和更新門(mén),其中,重置門(mén)將新信息與之前的記憶結(jié)合,更新門(mén)定義了之前記憶與時(shí)間步相對(duì)應(yīng)的量。更新門(mén)以門(mén)控形式控制信息流入,決定了傳遞到下游任務(wù)的上游信息的數(shù)量,或者兩個(gè)時(shí)間步之間的信息傳遞數(shù)量,緩解了梯度彌散的風(fēng)險(xiǎn)。反之,重置門(mén)是一個(gè)由0和1作為門(mén)控值組成的向量,門(mén)控值決定了門(mén)控的大小,Hadamard乘積決定了上游信息被遺忘的數(shù)量,使用更新門(mén)收集當(dāng)前和之前最終記憶信息,同時(shí)相加得到GRU最終的輸出內(nèi)容。Tree LSTM、Graph LSTM[39]、Sentence LSTM[40]在傳播過(guò)程中使用GRU或LSTM[41]等門(mén)機(jī)制,以減少GNN的計(jì)算限制,并減少節(jié)點(diǎn)信息在圖結(jié)構(gòu)中的傳播時(shí)間。2020年,Li等[42]除了定義注意力機(jī)制為聚合函數(shù),還引入門(mén)單元到聚合函數(shù)。
圖1 HDGCN框架
1)基于注意力機(jī)制的聚合函數(shù)。
2)基于GRU的聚合函數(shù)。
2.4特征融合
影響分類(lèi)任務(wù)的主要因素是網(wǎng)絡(luò)建模能力和基于注意力或門(mén)控聚合函數(shù)。其中,影響網(wǎng)絡(luò)建模效果的因素主要是訓(xùn)練模型的數(shù)據(jù)集,權(quán)重矩陣的初始化,基本單元中卷積層的維度、學(xué)習(xí)率,模型中基本單元的個(gè)數(shù)、激活函數(shù)等。
為評(píng)估HDGCN的有效性,使用三個(gè)引文網(wǎng)絡(luò)數(shù)據(jù)集,包括學(xué)術(shù)網(wǎng)絡(luò)數(shù)據(jù)集CiteSeer、DBLP(DataBase systems and Logic Programming)和SDBLP(Simplified DataBase systems and Logic Programming),它們的統(tǒng)計(jì)數(shù)據(jù)如表1所示。每個(gè)數(shù)據(jù)集根據(jù)關(guān)系類(lèi)型劃分為語(yǔ)義網(wǎng)絡(luò)和結(jié)構(gòu)網(wǎng)絡(luò),節(jié)點(diǎn)代表文獻(xiàn)。在語(yǔ)義網(wǎng)絡(luò)中,節(jié)點(diǎn)間連邊關(guān)系根據(jù)詞共現(xiàn)關(guān)系構(gòu)造,即在每個(gè)節(jié)點(diǎn)的標(biāo)題中,如果出現(xiàn)相同的詞,則節(jié)點(diǎn)間存在連邊關(guān)系;在結(jié)構(gòu)網(wǎng)絡(luò)中,節(jié)點(diǎn)間連邊關(guān)系依據(jù)不同文獻(xiàn)之間的引用關(guān)系確定。SDBLP是DBLP中刪除引用數(shù)小于3的節(jié)點(diǎn),即節(jié)點(diǎn)度小于3的節(jié)點(diǎn)被刪除。
表1 數(shù)據(jù)集統(tǒng)計(jì)信息
3.2.1對(duì)比實(shí)驗(yàn)
1)DeepWalk:一種將隨機(jī)游走和Word2Vec相結(jié)合的圖結(jié)構(gòu)數(shù)據(jù)挖掘算法,它能夠?qū)W習(xí)網(wǎng)絡(luò)的隱藏信息,將圖中的節(jié)點(diǎn)表示為一個(gè)包含潛在信息的向量。
2)LINE:對(duì)節(jié)點(diǎn)一階相似度和二階相似度進(jìn)行建模,根據(jù)權(quán)重對(duì)邊進(jìn)行采樣訓(xùn)練,可用于大規(guī)模有向圖、無(wú)向圖以及邊有權(quán)重的網(wǎng)絡(luò)進(jìn)行節(jié)點(diǎn)表示。
3)Text Feature(TF):將網(wǎng)絡(luò)節(jié)點(diǎn)的文本內(nèi)容轉(zhuǎn)化為共現(xiàn)矩陣,然后使用奇異值分解(Singular Value Decomposition, SVD)去分解該共現(xiàn)矩陣,從而得到一個(gè)語(yǔ)義特征向量。
4)DeepWalk+TF:將DeepWalk和TF生成的網(wǎng)絡(luò)表示向量按列拼接。
5)GraRep:用低維向量表示圖中節(jié)點(diǎn)的向量,并將圖的全局結(jié)構(gòu)信息整合到學(xué)習(xí)過(guò)程。
如表2所示:在CiteSeer中,節(jié)點(diǎn)的語(yǔ)義特征在分類(lèi)任務(wù)的準(zhǔn)確率優(yōu)于DeepWalk和LINE;將TF的特征向量與DeepWalk表示向量進(jìn)行拼接,其準(zhǔn)確率優(yōu)于DeepWalk或文本特征TF;本文提出的HDGCN通過(guò)雙通道圖卷積網(wǎng)絡(luò)和聚合函數(shù)將語(yǔ)義特征融入到網(wǎng)絡(luò)的向量表示中,準(zhǔn)確率優(yōu)于DeepWalk+TF,也優(yōu)于其他對(duì)比算法。
表2 不同訓(xùn)練集比例下的節(jié)點(diǎn)分類(lèi)任務(wù)準(zhǔn)確率 單位: %
在DBLP中,雖然語(yǔ)義特征隨著訓(xùn)練集比例的增加,其準(zhǔn)確率也越來(lái)越優(yōu)于DeepWalk,但是,將DeepWalk與TF結(jié)合得到的結(jié)果卻低于DeepWalk或TF。本文提出的HDGCN分類(lèi)準(zhǔn)確率遠(yuǎn)優(yōu)于DeepWalk、LINE、GraRep等算法。
在SDBLP中,基于矩陣分解的高階網(wǎng)絡(luò)表示學(xué)習(xí)GraRep在分類(lèi)任務(wù)中取得了很好的結(jié)果。由于SDBLP是稠密圖,語(yǔ)義特征的節(jié)點(diǎn)分類(lèi)準(zhǔn)確率最差,所以,將DeepWalk和TF拼接后的分類(lèi)準(zhǔn)確率與DeepWalk相比沒(méi)有優(yōu)勢(shì)。通過(guò)實(shí)驗(yàn)得到HDGCN分類(lèi)性能劣于GraRep,原因是稠密圖中,語(yǔ)義特征包含了許多噪聲數(shù)據(jù),將其融入網(wǎng)絡(luò)的表示向量中會(huì)影響分類(lèi)準(zhǔn)確率。
3.2.2消融實(shí)驗(yàn)
如圖2所示,在SDBLP數(shù)據(jù)集上,基于混合特征訓(xùn)練的HDGCN的節(jié)點(diǎn)分類(lèi)準(zhǔn)確率呈現(xiàn)了先下降后上升的趨勢(shì);但是在CiteSeer和DBLP數(shù)據(jù)集上,準(zhǔn)確率曲線(xiàn)呈現(xiàn)顯著的上升趨勢(shì)。主要原因是在稠密圖上:HDGCN借助密集的邊連接可以充分地反映圖的結(jié)構(gòu)特征,但是,語(yǔ)義特征使許多弱關(guān)聯(lián)鄰節(jié)點(diǎn)與中心節(jié)點(diǎn)的關(guān)系增強(qiáng)甚至成為鄰居節(jié)點(diǎn),作為噪聲數(shù)據(jù)影響HDGCN反映圖語(yǔ)義特征的有效性,因此,特征融合后的混合特征呈現(xiàn)出下降趨勢(shì)。由于DBLP數(shù)據(jù)集是大規(guī)模的稀疏圖,HDGCN受限于其規(guī)模不能充分地反映圖的不同特征,準(zhǔn)確率的跨度低于SDBLP和CiteSeer數(shù)據(jù)集。
表3 不同訓(xùn)練集比例下節(jié)點(diǎn)分類(lèi)任務(wù)的Micro?F1和Macro?F1對(duì)比 單位: %
圖2 不同訓(xùn)練集比例下的節(jié)點(diǎn)分類(lèi)準(zhǔn)確率變化曲線(xiàn)
3.3.1卷積核初始化的選擇
由于一般神經(jīng)網(wǎng)絡(luò)在前向傳播時(shí)神經(jīng)元輸出值的方差會(huì)不斷增大,為了使網(wǎng)絡(luò)中的信息更好地流動(dòng),每層輸出方差應(yīng)該盡量相等,使用Xavier理論上可以保證每層神經(jīng)元輸入輸出方差一致,避免了所有輸出值都趨向于0。標(biāo)準(zhǔn)正態(tài)分布可以將輸入值強(qiáng)行變?yōu)闃?biāo)準(zhǔn)正態(tài)分布,使激活函數(shù)值在非線(xiàn)性函數(shù)中比較敏感的區(qū)域:梯度增大,收斂速度加快。截?cái)嗾龖B(tài)分布指定平均值和標(biāo)準(zhǔn)差,但是大于平均值2個(gè)標(biāo)準(zhǔn)差的值被刪除且重新選擇。圖3是卷積核初始化方法對(duì)模型訓(xùn)練的影響。如圖3所示,使用Xavier初始化卷積核可以使HDGCN在最少的迭代次數(shù)情況下趨于穩(wěn)定,雖然在DBLP數(shù)據(jù)集上使用正態(tài)分布方法相較于Xavier方法更快地使HDGCN達(dá)到穩(wěn)定狀態(tài),但其準(zhǔn)確率均高于使用正態(tài)分布和截?cái)嗾龖B(tài)分布初始化卷積核情況下取得的準(zhǔn)確率。
3.3.2輸出維度的影響
3.3.3學(xué)習(xí)率的選擇
學(xué)習(xí)率是通過(guò)損失函數(shù)的梯度調(diào)整指導(dǎo)權(quán)重矩陣的超參數(shù)。學(xué)習(xí)率越低,損失函數(shù)變化速度越慢。雖然低學(xué)習(xí)率不影響極小值的選擇,但會(huì)延長(zhǎng)收斂的時(shí)間;學(xué)習(xí)率太高,梯度下降的幅度可能會(huì)超過(guò)最優(yōu)值。另外,學(xué)習(xí)速率對(duì)模型達(dá)到最優(yōu)準(zhǔn)確率的速度也有影響。圖5為學(xué)習(xí)率對(duì)訓(xùn)練的影響,可以看出,CiteSeer和SDBLP數(shù)據(jù)集上混合網(wǎng)絡(luò)對(duì)應(yīng)的學(xué)習(xí)率為0.001,并且當(dāng)學(xué)習(xí)率大于0.001時(shí),混合網(wǎng)絡(luò)的分類(lèi)效果均優(yōu)于結(jié)構(gòu)網(wǎng)絡(luò)和語(yǔ)義網(wǎng)絡(luò)。為了避免因梯度下降的幅度過(guò)大而錯(cuò)過(guò)最優(yōu)值,學(xué)習(xí)率選擇0.001。
圖3 卷積核初始化方法對(duì)節(jié)點(diǎn)分類(lèi)準(zhǔn)確率的影響
圖4 輸出維度對(duì)節(jié)點(diǎn)分類(lèi)準(zhǔn)確率的影響
圖5 學(xué)習(xí)率對(duì)節(jié)點(diǎn)分類(lèi)準(zhǔn)確率的影響
3.3.4模型層數(shù)的選擇
眾所周知,GCN是一個(gè)低通濾波器,這種特性可以使信號(hào)更加平滑;但這種優(yōu)勢(shì)若不加以控制則過(guò)猶不及,因?yàn)槎啻芜M(jìn)行信號(hào)的平滑操作容易使節(jié)點(diǎn)信號(hào)趨于一致,喪失節(jié)點(diǎn)多樣性的特征,使得以GCN為基礎(chǔ)的下游任務(wù)難以進(jìn)行,這種現(xiàn)象被稱(chēng)為過(guò)平滑(over?smoothing)。
圖6為卷積層數(shù)對(duì)訓(xùn)練的影響,可以看出:當(dāng)卷積層數(shù)增加到8后,混合網(wǎng)絡(luò)的準(zhǔn)確率低于結(jié)構(gòu)網(wǎng)絡(luò)的準(zhǔn)確率,且隨著層數(shù)的增加,HDGCN的準(zhǔn)確率逐漸降低,出現(xiàn)過(guò)平滑現(xiàn)象;在SDBLP中,卷積層數(shù)為8時(shí)HDGCN的學(xué)習(xí)效果最好;當(dāng)CiteSeer中結(jié)構(gòu)網(wǎng)絡(luò)和語(yǔ)義網(wǎng)絡(luò)的卷積層數(shù)大于2時(shí),分類(lèi)任務(wù)的準(zhǔn)確率逐漸降低;受制于DBLP中混合網(wǎng)絡(luò)存在大量的噪聲數(shù)據(jù),當(dāng)卷積層數(shù)為4時(shí),準(zhǔn)確率到達(dá)峰值。因?yàn)樵诿總€(gè)數(shù)據(jù)集上,混合網(wǎng)絡(luò)的分類(lèi)準(zhǔn)確率在卷積層數(shù)為2、4、8時(shí)均高于結(jié)構(gòu)網(wǎng)絡(luò),并且上述各個(gè)網(wǎng)絡(luò)的準(zhǔn)確率峰值對(duì)應(yīng)的層數(shù)最多為8,為了避免過(guò)擬合,HDGCN選擇2層卷積層。
3.3.5注意力向量維度的選擇
本文通過(guò)使用K?means類(lèi)方法對(duì)節(jié)點(diǎn)進(jìn)行聚類(lèi)并且計(jì)算歸一化互信息(Normalized Mutual Information, NMI)和調(diào)整蘭德指數(shù)(Adjusted Rand Index, ARI)測(cè)試模型性能,K?means聚類(lèi)數(shù)和節(jié)點(diǎn)的類(lèi)別數(shù)相同。節(jié)點(diǎn)聚類(lèi)和分類(lèi)任務(wù)使用相同的模型參數(shù),表4的實(shí)驗(yàn)結(jié)果為10次實(shí)驗(yàn)的平均值。由于SDBLP數(shù)據(jù)集中基于結(jié)構(gòu)特征的節(jié)點(diǎn)間聯(lián)系緊密,聚類(lèi)程度較高,但是,基于語(yǔ)義特征的節(jié)點(diǎn)間聯(lián)系包含了大量的噪聲,可能會(huì)影響節(jié)點(diǎn)的聚類(lèi)效果;因此,基于混合特征的節(jié)點(diǎn)聚類(lèi)效果相較于結(jié)構(gòu)特征差距不明顯。DBLP數(shù)據(jù)集數(shù)據(jù)量較大且具有較強(qiáng)的稀疏性,它基于結(jié)構(gòu)特征的節(jié)點(diǎn)聚類(lèi)效果明顯弱于SDBLP和CiteSeer;因此,基于混合特征的節(jié)點(diǎn)聚類(lèi)效果比結(jié)構(gòu)特征差。
表4 三種特征在聚類(lèi)任務(wù)下的NMI和ARI對(duì)比 單位: %
本文將結(jié)構(gòu)特征和文本特征融合為混合特征,融合策略如表5所示:在SDBLP和CiteSeer數(shù)據(jù)集上,mean作為融合策略時(shí),模型效果最好:在DBLP數(shù)據(jù)集上,concat作為融合策略效果最好。但是,三種融合策略的結(jié)果差異性較小,不是影響模型性能的主要因素。
表5 不同訓(xùn)練集比例下三種融合方式的節(jié)點(diǎn)分類(lèi)任務(wù)準(zhǔn)確率 單位: %
為了能直觀(guān)體現(xiàn)混合特征的優(yōu)越性,本文通過(guò)t?SNE將節(jié)點(diǎn)的嵌入表示映射到二維空間,在圖8中,本文驗(yàn)證了基于混合特征、結(jié)構(gòu)特征以及語(yǔ)義特征的節(jié)點(diǎn)嵌入表示,不同的顏色代表不同的研究類(lèi)別。由圖8可知,混合特征在下游任務(wù)中表現(xiàn)出眾,更具體地說(shuō),基于混合特征的節(jié)點(diǎn)分類(lèi)任務(wù)中,節(jié)點(diǎn)之間的相似性較高且相較于語(yǔ)義特征不同類(lèi)別內(nèi)的大部分節(jié)點(diǎn)具有明顯的邊界,并且對(duì)于基于結(jié)構(gòu)特征的節(jié)點(diǎn)分類(lèi)結(jié)果中未區(qū)分的節(jié)點(diǎn),混合特征按節(jié)點(diǎn)所屬類(lèi)別對(duì)其進(jìn)行分離;基于結(jié)構(gòu)特征的分類(lèi)任務(wù)中,部分節(jié)點(diǎn)沒(méi)有明顯的區(qū)分而緊密地聚集在一起;基于語(yǔ)義特征的分類(lèi)任務(wù)中,由于存在大量的噪聲數(shù)據(jù),不同類(lèi)別的節(jié)點(diǎn)之間不但沒(méi)有明確的界限,還分散地交叉混合在一起。
圖6 卷積層數(shù)對(duì)節(jié)點(diǎn)分類(lèi)準(zhǔn)確率的影響
圖7 注意力向量維度對(duì)節(jié)點(diǎn)分類(lèi)準(zhǔn)確率的影響
圖8 CiteSeer數(shù)據(jù)集上特征嵌入的可視化
本文通過(guò)構(gòu)建雙通道圖卷積網(wǎng)絡(luò)模型學(xué)習(xí)混合特征的節(jié)點(diǎn)嵌入表示。該模型首先將混合特征分解為兩個(gè)單一類(lèi)型特征:結(jié)構(gòu)特征和語(yǔ)義特征;其次,將結(jié)構(gòu)特征和語(yǔ)義特征作為圖卷積層的輸入抽取每個(gè)節(jié)點(diǎn)的特征;然后,為了提高模型泛化能力并抽取完整語(yǔ)義特征的節(jié)點(diǎn)表示,將基于注意力機(jī)制和門(mén)控機(jī)制的聚合函數(shù)作用于基于節(jié)點(diǎn)間語(yǔ)義關(guān)聯(lián)的網(wǎng)絡(luò);最后,將聚合結(jié)果按行拼接、共享參數(shù)、協(xié)同訓(xùn)練得到下游任務(wù)的分類(lèi)結(jié)果。實(shí)驗(yàn)結(jié)果表明,本文使用Xavier初始化卷積核;為了避免因梯度下降的幅度過(guò)大而錯(cuò)過(guò)最優(yōu)值,學(xué)習(xí)率選擇0.001;為了防止發(fā)生過(guò)平滑現(xiàn)象,設(shè)置2層圖卷積;在不同數(shù)據(jù)集上,嵌入維度分別選擇64和256,注意力向量維度分別選擇128和64。在不同的機(jī)器學(xué)習(xí)任務(wù)中,基于HDGCN模型的混合特征節(jié)點(diǎn)嵌入的結(jié)果明顯優(yōu)于另外兩種單一的特征類(lèi)型。增加圖卷積層的數(shù)量可以提高圖卷積網(wǎng)絡(luò)的性能,如何增加HDGCN的圖卷積層數(shù)而且不發(fā)生過(guò)平滑現(xiàn)象也是一個(gè)潛在的研究問(wèn)題。
[1] LIU Y, LIU S P, WANG Z F. A general framework for image fusion based on multi?scale transform and sparse representation[J]. Information Fusion, 2015, 24: 147-164.
[2] EASLEY G, LABATE D, LIM W Q. Sparse directional image representations using the discrete shearlet transform[J]. Applied and Computational Harmonic Analysis, 2008, 25(1):25-46.
[3] KALCHBRENNER N, GREFENSTETTE E, BLUNSOM P. A convolutional neural network for modelling sentences[C]// Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2014: 655-665.
[4] LE Q, MIKOLOV T. Distributed representations of sentences and documents[C]// Proceedings of the 31st International Conference on Machine Learning. New York: JMLR.org, 2014:1188-1196.
[5] ZHAO M H, ZHONG S S, FU X Y, et al. Deep residual shrinkage networks for fault diagnosis[J]. IEEE Transactions on Industrial Informatics, 2020, 16(7): 4681-4690.
[6] 李濤,段禮祥,張東寧,等. 自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)在旋轉(zhuǎn)機(jī)械故障診斷中的應(yīng)用[J]. 振動(dòng)與沖擊, 2020, 39(16):275-282, 288.(LI T, DUAN L X, ZHANG D N, et al. Application of adaptive convolutional neural network in rotating machinery fault diagnosis[J]. Journal of Vibration and Shock, 2020, 39(16):275-282, 288.)
[7] KICK E L, McKINNEY L A, McDONALD S, et al. A multiple? network analysis of the world system of nations, 1995-1999[M]// SCOTT J, CARRINGTON P J. The SAGE Handbook of Social Network Analysis. Thousand Oaks, CA: SAGE Publications Ltd, 2014:311-328.
[8] LIAO L Z, HE X N, ZHANG H W, et al. Attributed social network embedding[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(12):2257-2270.
[9] GLIGORIJEVI? V, BAROT M, BONNEAU R. deepNF: deep network fusion for protein function prediction[J]. Bioinformatics, 2018, 34(22):3873-3881.
[10] SU C, TONG J, ZHU Y J, et al. Network embedding in biomedical data science[J]. Briefings in Bioinformatics, 2020, 21(1):182-197.
[11] 楊力川. 基于深度學(xué)習(xí)的交通標(biāo)志識(shí)別研究綜述[J]. 現(xiàn)代計(jì)算機(jī), 2021(15):3-5, 11.(YANG L C. Summary of research on traffic sign recognition based on deep learning[J]. Modern Computer, 2021(15):3-5, 11.)
[12] CUI Z Y, HENRICKSON K, KE R M, et al. Traffic graph convolutional recurrent neural network: a deep learning framework for network?scale traffic learning and forecasting[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21(11): 4883-4894.
[13] BRUNA J, ZAREMBA W, SZLAM A, et al. Spectral networks and locally connected networks on graphs[EB/OL]. (2014-04-21)[2021-11-26].https://arxiv.org/pdf/1312.6203.pdf.
[14] DEFFERRARD M, BRESSON X, VANDERGHEYNST P. Convolutional neural networks on graphs with fast localized spectral filtering[C]// Proceedings of the 30th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2016:3844-3852.
[15] HAMMOND D K, VANDERGHEYNST P, GRIBONVAL R. Wavelets on graphs via spectral graph theory[J]. Applied and Computational Harmonic Analysis, 2011, 30(2):129-150.
[16] KIPF T N, WELLING M. Semi?supervised classification with graph convolutional networks[EB/OL]. (2017-02-22)[2021-11-26]. https://arxiv.org/pdf/1609.02907.pdf.
[17] YANG C, LIU Z Y, ZHAO D L, et al. Network representation learning with rich text information[C]// Proceedings of the 24th International Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2015:2111-2117.
[18] 冶忠林,趙海興,張科,等. 基于多源信息融合的分布式詞表示學(xué)習(xí)[J]. 中文信息學(xué)報(bào), 2019, 33(10):18-30.(YE Z L, ZHAO H X, ZHANG K, et al. Distributed word embedding via multi?source information fusion[J]. Journal of Chinese Information Processing, 2019, 33(10):18-30.)
[19] YE Z L, ZHAO H X, ZHANG K, et al. Tri?party deep network representation learning using inductive matrix completion[J]. Journal of Central South University, 2019, 26(10): 2746-2758.
[20] YE Z L, ZHAO H X, ZHU Y, et al. HSNR: a network representation learning algorithm using hierarchical structure embedding[J]. Chinese Journal of Electronics, 2020, 29(6):1141-1152.
[21] PEROZZI B, AL?RFOU R, SKIENA S. DeepWalk: online learning of social representations[C]// Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2014:701-710.
[22] TANG J, QU M, WANG M Z, et al. LINE: large?scale information network embedding[C]// Proceedings of the 24th International Conference on World Wide Web. Republic and Canton of Geneva: International World Wide Web Conferences Steering Committee, 2015: 1067-1077.
[23] WANG D X, CUI P, ZHU W W. Structural deep network embedding[C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2016: 1225-1234.
[24] GROVER A, LESKOVEC J. node2vec: scalable feature learning for networks[C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2016: 855-864.
[25] LI R Y, WANG S, ZHU F Y, et al. Adaptive graph convolutional neural networks[C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018:3546-3553.
[26] ZHUANG C Y, MA Q. Dual graph convolutional networks for graph?based semi?supervised classification[C]// Proceedings of the 2018 World Wide Web Conference. Republic and Canton of Geneva: International World Wide Web Conferences Steering Committee, 2018: 499-508.
[27] XU B B, SHEN H W, CAO Q, et al. Graph wavelet neural network[EB/OL]. (2019-04-12)[2021-11-26].https://arxiv.org/pdf/1904.07785.pdf.
[28] SCARSELLI F, GORI M, TSOI A C, et al. The graph neural network model[J]. IEEE Transactions on Neural Networks, 2009, 20(1): 61-80.
[29] LI Y J, ZEMEL R, BROCKSCHMIDT M, et al. Gated graph sequence neural networks[EB/OL]. (2017-09-22)[2021-11-26].https://arxiv.org/pdf/1511.05493.pdf.
[30] ATWOOD J, TOWSLEY D. Diffusion?convolutional neural networks[C]// Proceedings of the 30th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2016:2001-2009.
[31] HAMILTON W L, YING R, LESKOVEC J. Inductive representation learning on large graphs[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017:1025-1035.
[32] GILMER J, SCHOENHOLZ S S, RILEY P F, et al. Neural message passing for quantum chemistry[C]// Proceedings of the 34th International Conference on Machine Learning. New York: JMLR.org, 2017:1263-1272.
[33] MONTI F, BOSCAINI D, MASCI J, et al. Geometric deep learning on graphs and manifolds using mixture model CNNs[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017:5425-5434.
[34] WANG X L, GIRSHICK R, GUPTA A, et al. Non?local neural networks[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018:7794-7803.
[35] BATTAGLIA P W, HAMRICK J B, BAPST V, et al. Relational inductive biases, deep learning, and graph networks[EB/OL]. (2018-10-17)[2021-11-26].https://arxiv.org/pdf/1806.01261.pdf.
[36] VELI?KOVI? P, CUCURULL G, CASANOVA A, et al. Graph attention networks[EB/OL]. (2018-02-04)[2021-11-26].https://arxiv.org/pdf/1710.10903.pdf.
[37] ZHANG J N, SHI X J, XIE J Y, et al. GaAN: gated attention networks for learning on large and spatiotemporal graphs[C]// Proceedings of the Thirty?Fourth Conference on Uncertainty in Artificial Intelligence. Arlington, VA: AUAI Press, 2018: No.139.
[38] CHUNG J, GULCEHRE C, CHO K, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling[EB/OL]. (2014-12-11)[2021-11-26].https://arxiv.org/pdf/1412.3555.pdf.
[39] LIANG X D, SHEN X H, FENG J S, et al. Semantic object parsing with Graph LSTM[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9905. Cham: Springer, 2016:125-143.
[40] ZHANG Y, LIU Q, SONG L F. Sentence?state LSTM for text representation[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2018:317-327.
[41] HOCHREITER S, SCHMIDHUBER J. Long short?term memory[J]. Neural Computation, 1997, 9(8):1735-1780.
[42] LI X H, WEN L J, QIAN C, et al. GAHNE: graph?aggregated heterogeneous network embedding[C]// Proceedings of the IEEE 32nd International Conference on Tools with Artificial Intelligence. Piscataway: IEEE, 2020:1012-1019.
Graph convolutional network method based on hybrid feature modeling
LI Zhuoran1,2,3,4, YE Zhonglin1,2,3,4, ZHAO Haixing1,2,3,4*, LIN Jingjing1,2,3,4
(1,,810016,;2(),810008,;3,(),810008,;4(),810008,)
For the complex information contained in the network, more ways are needed to extract useful information from it, but the relevant characteristics in the network cannot be completely described by the existing single?feature Graph Neural Network (GNN). To resolve the above problems, a Hybrid feature?based Dual Graph Convolutional Network (HDGCN) was proposed. Firstly, the structure feature vectors and semantic feature vectors of nodes were obtained by Graph Convolutional Network (GCN). Secondly, the features of nodes were aggregated selectively so that the feature expression ability of nodes was enhanced by the aggregation function based on attention mechanism or gating mechanism. Finally, the hybrid feature vectors of nodes were gained by the fusion mechanism based on a feasible dual?channel GCN, and the structure features and semantic features of nodes were modeled jointly to make the features be supplement for each other and promote the methods performance on subsequent machine learning tasks. Verification was performed on the datasets CiteSeer, DBLP (DataBase systems and Logic Programming) and SDBLP (Simplified DataBase systems and Logic Programming). Experimental results show that compared with the graph convolutional network model based on structure feature training, the dual channel graph convolutional network model based on hybrid feature training has the average value of Micro?F1 increased by 2.43, 2.14, 1.86 and 2.13 percentage points respectively, and the average value of Macro?F1 increased by 1.38, 0.33, 1.06 and 0.86 percentage points respectively when the training set proportion is 20%, 40%, 60% and 80%. The difference in accuracy is no more than 0.5 percentage points when using concat or mean as the fusion strategy, which shows that both concat and mean can be used as the fusion strategy. HDGCN has higher accuracy on node classification and clustering tasks than models trained by structure or semantic network alone, and has the best results when the output dimension is 64, the learning rate is 0.001, the graph convolutional layer number is 2 and the attention vector dimension is 128.
attention mechanism; gating mechanism; dual channel graph convolutional network; structure feature; semantic feature
This work is partially supported by National Key Research and Development Program of China (2020YFC1523300), Natural Science Foundation of Qinghai Province (2021?ZJ?946Q), Middle?Youth Natural Science Foundation of Qinghai Normal University (2020QZR007).
LI Zhuoran, born in 1996, M. S. candidate. His research interests include data mining, graph neural network.
YE Zhongli, born in 1989, Ph. D., associate professor. His research interests include question answering system, network representation learning.
ZHAO Haixing, born in 1969, Ph. D., professor. His research interests include complex network, network reliability.
LIN Jingjing, born in 1986, Ph. D. candidate, lecturer. Her research interests include data mining, hypergraph neural network.
1001-9081(2022)11-3354-10
10.11772/j.issn.1001-9081.2021111981
2021?11?22;
2022?01?12;
2022?01?14。
國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2020YFC1523300);青海省自然科學(xué)基金資助項(xiàng)目(2021?ZJ?946Q);青海師范大學(xué)自然科學(xué)中青年科研基金資助項(xiàng)目(2020QZR007)。
TP391
A
李卓然(1996—),男,內(nèi)蒙古烏蘭察布人,碩士研究生,CCF會(huì)員,主要研究方向:數(shù)據(jù)挖掘、圖神經(jīng)網(wǎng)絡(luò);冶忠林(1989—),男,青海民和人,副教授,博士,CCF會(huì)員,主要研究方向:?jiǎn)柎鹣到y(tǒng)、網(wǎng)絡(luò)表示學(xué)習(xí);趙海興(1969—),男,青海湟中人,教授,博士,CCF會(huì)員,主要研究方向:復(fù)雜網(wǎng)絡(luò)、網(wǎng)絡(luò)可靠性;林晶晶(1986—),女,甘肅臨洮人,講師,博士研究生,CCF會(huì)員,主要研究方向:數(shù)據(jù)挖掘、超圖神經(jīng)網(wǎng)絡(luò)。