摘要:深度學(xué)習(xí)已經(jīng)在許多領(lǐng)域取得成功,人們在這一領(lǐng)域投入了大量的研究工作,極大地推動了圖學(xué)習(xí)方法的發(fā)展。根據(jù)現(xiàn)有圖神經(jīng)網(wǎng)絡(luò)模型的特點(diǎn),首先描述了一種通用的圖學(xué)習(xí)框架,以系統(tǒng)的方式對其進(jìn)行全面概述,包括消息傳遞、特征聚合以及節(jié)點(diǎn)更新三個部分。然后,以該框架為基礎(chǔ)引入圖注意力機(jī)制,并改進(jìn)消息傳遞方法,解決注意力機(jī)制對空間結(jié)構(gòu)學(xué)習(xí)的不足。最后,我們簡要概述了該框架的應(yīng)用,以期為圖學(xué)習(xí)方法的研究提供指引。
關(guān)鍵詞:圖學(xué)習(xí);深度學(xué)習(xí);注意力機(jī)制;消息傳遞
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2024)22-0035-03
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID)
0 引言
現(xiàn)實(shí)世界場景中存在著各種各樣的圖數(shù)據(jù),例如社交網(wǎng)絡(luò)、引文數(shù)據(jù)和知識圖表等。利用機(jī)器學(xué)習(xí)方法分析這些數(shù)據(jù)可以為如何利用隱藏在圖中的信息提供見解。因此,有效的圖學(xué)習(xí)方法可以更深入地了解數(shù)據(jù)背后的內(nèi)容,從而有利于許多有用的應(yīng)用,如文本分類[1]、特品推薦[2]、交通流預(yù)測[3]等。然而,圖數(shù)據(jù)從非歐空間中生成,將數(shù)據(jù)表示為對象之間具有復(fù)雜關(guān)系和相互依賴性的拓?fù)浣Y(jié)構(gòu),使圖學(xué)習(xí)方法的計(jì)算和空間成本都很高,對現(xiàn)有的機(jī)器學(xué)習(xí)算法提出了重大挑戰(zhàn)。雖然深度學(xué)習(xí)在自然語言翻譯、生成和解碼復(fù)雜音頻信號以及從真實(shí)世界的圖像和視頻中推斷信息方面取得了顯著成功,但處理圖上信息表達(dá)的方法仍處于起步階段,部分深度卷積神經(jīng)網(wǎng)絡(luò)已被證明能有效處理圖片、文本數(shù)據(jù),卷積核的規(guī)則矩型結(jié)構(gòu)卻使其在處理非歐結(jié)構(gòu)的圖數(shù)據(jù)時受到限制,只能通過人為設(shè)計(jì)來修補(bǔ)已有缺陷。最近,注意力機(jī)制在深度學(xué)習(xí)領(lǐng)域受到關(guān)注,部分模型在圖中引入該機(jī)制可以不受結(jié)構(gòu)變化的影響,為圖學(xué)習(xí)方法指明了一個方向,但該方法忽視了結(jié)構(gòu)變化,學(xué)習(xí)不到完整的圖信息。
針對以上非歐結(jié)構(gòu)的圖數(shù)據(jù)的特點(diǎn),我們的目標(biāo)是探索一個有效的圖學(xué)習(xí)方法,能適應(yīng)圖的不同連接方式和依賴關(guān)系,并從圖中學(xué)習(xí)到節(jié)點(diǎn)特征和結(jié)構(gòu)信息。為此,本文描述了一種在圖上進(jìn)行監(jiān)督學(xué)習(xí)的通用框架,總結(jié)了現(xiàn)有圖神經(jīng)網(wǎng)絡(luò)模型之間的共性,并根據(jù)該框架的局限性提出了新的改進(jìn),指導(dǎo)我們對圖學(xué)習(xí)方法的研究。
1 相關(guān)研究
在深度學(xué)習(xí)領(lǐng)域中,當(dāng)面對圖這種非歐幾何結(jié)構(gòu)的應(yīng)用時,由于傳統(tǒng)的卷積核無法適用于鄰居節(jié)點(diǎn)變化的特點(diǎn),可以通過將圖的結(jié)構(gòu)轉(zhuǎn)換為矩陣形式,使其可以適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,但轉(zhuǎn)換后的數(shù)據(jù)會一定程度損失部分信息,直到為圖而專門設(shè)計(jì)的圖神經(jīng)網(wǎng)絡(luò)的出現(xiàn)[4]。圖神經(jīng)網(wǎng)絡(luò)可以分別從頻域和空間域兩個角度建模圖數(shù)據(jù),使該模型可以直接處理非歐結(jié)構(gòu)的數(shù)據(jù)而不丟失數(shù)據(jù)間包含的相關(guān)性依賴。頻域上的建模利用了圖譜理論[5],在頻域?qū)D進(jìn)行操作時,將空間上vcnxZ82TdGdb1rFIVymcbLaYBpOKbsKw7z2hM1UFtBI=的節(jié)點(diǎn)特征進(jìn)行傅里葉變換,并在頻域中設(shè)計(jì)了圖上的卷積公式,該卷積運(yùn)算消除了對數(shù)據(jù)格式的限制,且不需要對矩陣進(jìn)行特征分解,使計(jì)算速度得到提升。空間域上的建模主要通過引入鄰接矩陣來考慮圖上的一階局部近似[6],只考慮一階節(jié)點(diǎn)降低了網(wǎng)絡(luò)參數(shù)數(shù)量,采用堆疊的多個層來獲得類似卷積神經(jīng)網(wǎng)絡(luò)中從局部到全局的效果,這一改變使得圖神經(jīng)網(wǎng)絡(luò)開始得到研究人員的重視。劉欣瑜等人[7]在自然語言處理任務(wù)中,基于圖神經(jīng)網(wǎng)絡(luò)和外部知識建立了自然語言推理模型,補(bǔ)充了語義圖空間特征,進(jìn)一步提高模型推理能力。由于圖神經(jīng)網(wǎng)絡(luò)可以融合圖結(jié)構(gòu)和圖特征進(jìn)行學(xué)習(xí),陳佳樂等人[8]分析了基于圖神經(jīng)網(wǎng)絡(luò)的異常檢測方法,提升了對非歐式空間數(shù)據(jù)進(jìn)行異常檢測的效果。
圖卷積神經(jīng)網(wǎng)絡(luò)受到大量關(guān)注的同時,注意力機(jī)制作為自然語言處理任務(wù)中的核心技術(shù)之一也開始得到廣泛運(yùn)用[9],采用注意力機(jī)制的模型借鑒了人類視覺注意力原理,獲得需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域,也就是一般所說的注意力焦點(diǎn),對焦點(diǎn)區(qū)域投入更多注意力可以獲取更多目標(biāo)的細(xì)節(jié)信息。深度學(xué)習(xí)中注意力機(jī)制允許模型專注于與任務(wù)最相關(guān)的部分,以此輔助做出決策。張小婉等人[10]考慮知識圖譜推薦中不同實(shí)體對于用戶的重要性不同,結(jié)合圖神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制提出了一種知識圖譜推薦系統(tǒng),該系統(tǒng)利用注意力機(jī)制區(qū)分了鄰居節(jié)點(diǎn)的重要性。然而,大多數(shù)涉及注意力機(jī)制的模型,無法對不同的節(jié)點(diǎn)位置進(jìn)行區(qū)分,也無法捕捉節(jié)點(diǎn)的結(jié)構(gòu)信息[11],自然語言翻譯中,會在注意力系數(shù)計(jì)算時加入位置編碼來表示單詞的順序,而圖中節(jié)點(diǎn)的順序沒有統(tǒng)一的表示,導(dǎo)致其注意力機(jī)制的計(jì)算范圍只限于一階鄰域。
因此本文研究注意力機(jī)制與圖學(xué)習(xí)方法的結(jié)合,從而有效利用圖神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制的各自優(yōu)勢。圖神經(jīng)網(wǎng)絡(luò)的出現(xiàn)主要是用來解決傳統(tǒng)卷積核不能處理非歐結(jié)構(gòu)數(shù)據(jù)的缺陷,捕獲實(shí)體以及它們之間的關(guān)系,從而學(xué)習(xí)空間特征。注意力機(jī)制允許模型為圖中的節(jié)點(diǎn)分配權(quán)重,以突出顯示任務(wù)相關(guān)信息最多的節(jié)點(diǎn)。
2 圖學(xué)習(xí)基本框架
多種與圖相關(guān)的神經(jīng)網(wǎng)絡(luò)可以歸納為一種消息傳遞神經(jīng)網(wǎng)絡(luò)(Message Passing Neural Network,MPNN) 框架。在節(jié)點(diǎn)分類任務(wù)上,該框架的架構(gòu)如圖1所示。
該框架描述了在圖上對節(jié)點(diǎn)類別進(jìn)行預(yù)測的過程,包括了消息傳遞、特征聚合、節(jié)點(diǎn)更新三個階段。需要預(yù)測的節(jié)點(diǎn)A,首先找到鄰居節(jié)點(diǎn)B、C、D、E,將它們的特征信息傳遞到一起進(jìn)行聚合,最后與A的特征信息一起生成更新后的目標(biāo)節(jié)點(diǎn)。其中,圖可以表示為G = (V, E),[V]是圖中的節(jié)點(diǎn)集,[E]表示邊的集合,矩陣[X∈RN×d]表示節(jié)點(diǎn)的特征矩陣。分類任務(wù)可表示為,在給定圖的輸入特征矩陣X時,通過MPNN將輸入轉(zhuǎn)換為輸出的過程。
2.1 消息傳遞
MPNN可以看作一種通用的框架,描述了當(dāng)前大部分圖神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)。圖神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)圖中節(jié)點(diǎn)的特征,一般認(rèn)為,相互連接的節(jié)點(diǎn)具有相似的特征。模型利用某種方式尋找某中心節(jié)點(diǎn)鄰域內(nèi)相互連接的鄰居節(jié)點(diǎn),并將它們視為相似節(jié)點(diǎn),通過相似節(jié)點(diǎn)上具有的特征或?qū)傩詠肀磉_(dá)中心節(jié)點(diǎn)特征,這種尋找鄰域內(nèi)相似節(jié)點(diǎn)的過程稱為消息的傳遞。
節(jié)點(diǎn)[vi]的鄰居表示為[Ni],其集合定義為通過邊與[vi]相連的節(jié)點(diǎn)[vj]的集合,記為[Ni={vj:eij∈E}]。圖2展示了節(jié)點(diǎn)A的鄰居在進(jìn)行消息傳遞的具體過程,消息傳遞獲取到中心節(jié)點(diǎn)的鄰居節(jié)點(diǎn)特征,經(jīng)過函數(shù)[f]進(jìn)行特征轉(zhuǎn)換并將轉(zhuǎn)換后的特征傳遞給中心節(jié)點(diǎn),[f]一般是神經(jīng)網(wǎng)絡(luò)或者某個線性變換。該過程會重復(fù)地應(yīng)用于圖中所有節(jié)點(diǎn),以達(dá)到整個圖上節(jié)點(diǎn)的消息傳遞過程。
2.2 特征聚合
在圖節(jié)點(diǎn)分類任務(wù)中,MPNN框架遵循上述消息傳遞原則來獲取鄰居節(jié)點(diǎn)特征,然后通過聚合函數(shù)生成新的特征表示,聚合函數(shù)在選擇上要求具有排列不變性,即鄰居節(jié)點(diǎn)的排列方式對結(jié)果沒有影響,可以取鄰居節(jié)點(diǎn)的平均值聚合,如公式(1) 所示:
[mi=σ(W×MEAN(Xj),j∈Ni)] (1)
式中:[σ]為激活函數(shù),W為參數(shù)矩陣,MEAN為平均聚合函數(shù)。也可以取MAX最大池化聚合,如公式(2) 所示:
[mi=MAX(σ(W×Xj+b),j∈Ni)] (2)
或者直接用神經(jīng)網(wǎng)絡(luò)聚合,如LSTM。與其他聚合方式相比,LSTM具有更大的特征表達(dá)能力,但不是排列不變的。LSTM會以順序的方式處理輸入信息,因此需要簡單地將鄰居節(jié)點(diǎn)隨機(jī)排列后再進(jìn)行輸入,以使得LSTM適應(yīng)于對無序數(shù)據(jù)集的操作。
2.3 節(jié)點(diǎn)更新
MPNN框架的最后一步利用聚合函數(shù)輸出的新節(jié)點(diǎn)特征生成最終的目標(biāo)節(jié)點(diǎn)特征。在該步驟中,中心節(jié)點(diǎn)不僅要利用聚合后的特征,還要利用中心節(jié)點(diǎn)本身的特征。通過將中心節(jié)點(diǎn)的特征與聚合函數(shù)輸出的特征相結(jié)合來實(shí)現(xiàn),結(jié)合的方法可以是拼接操作,如公式(3)所示:
[hi=σ(W×(xi||mi))] (3)
式中,||為特征的拼接,由于圖神經(jīng)網(wǎng)絡(luò)可以是多層的,因此MPNN框架的消息傳遞、聚合和更新步驟也可以形成多層,重復(fù)以上3個步驟,以達(dá)到增強(qiáng)特征表達(dá)能力的作用。
3 基于注意力機(jī)制的圖模型
注意力機(jī)制的優(yōu)點(diǎn)是能夠?qū)W⒂谳斎胄畔⒅兄匾牟糠?,且已被證明可用于機(jī)器翻譯、自然語言處理等任務(wù)中,其效果優(yōu)于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)。本節(jié)將討論在遵循MPNN框架原則下,設(shè)計(jì)基于注意力機(jī)制的圖模型。
3.1 消息擴(kuò)散
在MPNN的消息傳遞步驟,典型的圖模型普遍只采集節(jié)點(diǎn)的一階鄰居節(jié)點(diǎn),即在一個有限的鄰域范圍內(nèi)傳遞信息。為了選擇一個節(jié)點(diǎn)的鄰居,設(shè)置一個定值,每次選擇鄰居的時候就是從周圍的一階鄰居中均勻地采樣固定個數(shù)的節(jié)點(diǎn)。這種局部的鄰域限制了消息傳遞的能力,且圖神經(jīng)網(wǎng)絡(luò)不僅學(xué)習(xí)節(jié)點(diǎn)特征,還應(yīng)學(xué)習(xí)圖上的空間特征,表現(xiàn)為節(jié)點(diǎn)之間的連接方式,即拓?fù)浣Y(jié)構(gòu)。圖上這種特殊結(jié)構(gòu)為圖增加了更多的信息,需要在消息傳遞步驟進(jìn)行捕獲。
為了解決以上問題,需要在更大的鄰域內(nèi)進(jìn)行消息的擴(kuò)散,并且這種擴(kuò)散能捕捉圖的拓?fù)浣Y(jié)構(gòu),而不僅僅是節(jié)點(diǎn)上的特征。我們可以采用多階的鄰接矩陣,其反映了圖的高階結(jié)構(gòu)信息,使注意力機(jī)制應(yīng)用到更遠(yuǎn)的鄰居。同時,也可以采用基于隨機(jī)游走的策略來對消息進(jìn)行擴(kuò)散[12]。如圖3所示,該策略通過隨機(jī)游走采樣形成跟自然語言中的語料庫一樣的節(jié)點(diǎn)序列集,然后再利用注意力模型進(jìn)行節(jié)點(diǎn)特征嵌入,為了獲得高階節(jié)點(diǎn)信息,可以將寬度優(yōu)先搜索和深度優(yōu)先搜索同時引入隨機(jī)游走序列的生成過程中,不僅刻畫了相對局部的結(jié)構(gòu),也包含了更高階節(jié)點(diǎn)間的結(jié)構(gòu)信息,使結(jié)構(gòu)相似的頂點(diǎn)具有相似的特征表示。例如,在給定節(jié)點(diǎn)u的情況下,設(shè)定固定長度L的隨機(jī)游走。設(shè)[ci]表示游走中的第i個節(jié)點(diǎn),從[co=u]開始。第[ci]個節(jié)點(diǎn)的概率分布按照公式(4)生成:
[P(ci|ci-1)=πijz,if(i,j)∈E0,otherwise] (4)
式中:[πij]為節(jié)點(diǎn)[vi]和[vj]之間的轉(zhuǎn)移概率,[z]為歸一化常數(shù)。設(shè)置擴(kuò)散策略的方法是基于圖上邊的權(quán)重[Wij]對下一個節(jié)點(diǎn)進(jìn)行采樣,即[πij=Wij](在無權(quán)圖的情況下權(quán)重為1) 。這種游走的擴(kuò)散策略能獲取更大鄰域內(nèi)的節(jié)點(diǎn),且轉(zhuǎn)移基于邊的權(quán)重,反映了節(jié)點(diǎn)與邊之間的結(jié)構(gòu)關(guān)系。
3.2 圖注意力
經(jīng)過圖上的消息擴(kuò)散后,我們可以聚合到更多的鄰居節(jié)點(diǎn),而在圖卷積網(wǎng)絡(luò)中,節(jié)點(diǎn)的鄰居由鄰接矩陣確定,這是一種預(yù)先設(shè)定的靜態(tài)鄰域結(jié)構(gòu)。然而,鄰居節(jié)點(diǎn)的影響可能會變化,應(yīng)該在訓(xùn)練中學(xué)習(xí)比預(yù)先設(shè)定更多的信息。圖注意力網(wǎng)絡(luò)是一種基于空間的網(wǎng)絡(luò),在聚合鄰居節(jié)點(diǎn)信息時,注意力機(jī)制自適應(yīng)地計(jì)算鄰居節(jié)點(diǎn)的權(quán)重。圖注意力的計(jì)算定義為公式(5):
[h'i=σ(j∈NiαijWhj)] (5)
式中,[α]為注意力系數(shù),按公式(6) 、公式(7) 計(jì)算:
[eij=a(Whi,Whj)] (6)
[αij=softmax(eij)=exp(eij)k∈Niexp(eik)] (7)
式中,[αij]為[vi]相對于[vj]的注意力系數(shù),通過神經(jīng)網(wǎng)絡(luò)[a]擬合得到,[hi]為節(jié)點(diǎn)[vi]的節(jié)點(diǎn)特征,由上一個消息傳遞模塊輸出,通過與參數(shù)矩陣[W]相乘進(jìn)行線性變換后,再由神經(jīng)網(wǎng)絡(luò)[a]計(jì)算相關(guān)性,最后利用Softmax函數(shù)得到注意力系數(shù)的得分。
3.3 應(yīng)用
圖神經(jīng)網(wǎng)絡(luò)在不同的任務(wù)和領(lǐng)域中有著廣泛的應(yīng)用。盡管每一類都經(jīng)過專門優(yōu)化,但都遵循以上 MPNN 框架,經(jīng)過本文的改進(jìn),更是在一般領(lǐng)域有更多的應(yīng)用。其中之一是計(jì)算機(jī)視覺。作為一般的通用框架,不僅能處理傳統(tǒng)上的圖像識別,在場景圖生成、圖分割、動作識別和許多其他方向上都可以捕捉圖結(jié)構(gòu)。另外,基于圖的推薦系統(tǒng)以項(xiàng)目和用戶為節(jié)點(diǎn),具有項(xiàng)目與用戶以及用戶之間的關(guān)系,基于圖的推薦系統(tǒng)能夠利用此關(guān)系產(chǎn)生高質(zhì)量的推薦,尤其是注意力機(jī)制能對項(xiàng)目及用戶的重要性進(jìn)行評分。而在交通流預(yù)測中,采用基于圖的方法和時空神經(jīng)網(wǎng)絡(luò)能方便地建模道路上的節(jié)點(diǎn)關(guān)系以及時間序列特征,有助于智能交通系統(tǒng)有效利用資源。
4 結(jié)論
在本文中,通過探索圖學(xué)習(xí)方法的改進(jìn),在 MPNN 通用學(xué)習(xí)框架的基礎(chǔ)上,分析了消息傳遞中捕捉更大鄰域范圍和圖上結(jié)構(gòu)信息的方法。我們提出了多階鄰接矩陣和隨機(jī)游走的擴(kuò)散方式來改進(jìn)消息傳遞,并分析了在該框架中集成注意力機(jī)制的方法,使改進(jìn)后的框架能同時處理結(jié)構(gòu)和特征信息。最后,給出了圖神經(jīng)網(wǎng)絡(luò)在不同領(lǐng)域中的應(yīng)用,根據(jù)不同任務(wù)所屬的領(lǐng)域進(jìn)行了介紹。
參考文獻(xiàn):
[1] 楊春霞,馬文文,徐奔,等.融合標(biāo)簽信息的分層圖注意力網(wǎng)絡(luò)文本分類模型[J].計(jì)算機(jī)工程與科學(xué),2023,45(11):2018-2026.
[2] 張秋玲,王瀅溪,王建芳,等.基于雙向注意力的圖神經(jīng)推薦算法研究[J].河南理工大學(xué)學(xué)報(自然科學(xué)版),2024,43(1):149-156.
[3] 周安眾,謝丁峰.基于圖注意力機(jī)制的交通流預(yù)測模型[J].軟件工程,2023,26(8):48-52,62.
[4] 趙港,王千閣,姚烽,等.大規(guī)模圖神經(jīng)網(wǎng)絡(luò)系統(tǒng)綜述[J].軟件學(xué)報,2022,33(1):150-170.
[5] 仝宗和,袁立寧,王洋.圖卷積神經(jīng)網(wǎng)絡(luò)理論與應(yīng)用[J].信息技術(shù)與信息化,2020(2):187-192.
[6] 陳可佳,楊澤宇,劉崢,等.基于鄰域選擇策略的圖卷積網(wǎng)絡(luò)模型[J].計(jì)算機(jī)應(yīng)用,2019,39(12):3415-3419.
[7] 劉欣瑜,劉瑞芳,石航,等.基于圖神經(jīng)網(wǎng)絡(luò)和語義知識的自然語言推理任務(wù)研究[J].中文信息學(xué)報,2021,35(6):122-130.
[8] 陳佳樂,陳旭,景永俊,等.圖神經(jīng)網(wǎng)絡(luò)在異常檢測中的應(yīng)用綜述[J/OL].計(jì)算機(jī)工程與應(yīng)用,2024:1-20 [2024-04-23].http://kns.cnki.net/kcms/detail/11.2127.TP.20240113.1222.004.html.
[9] 王匆匆,張仰森,黃改娟.基于注意力機(jī)制與端到端的中文文本糾錯方法[J].計(jì)算機(jī)應(yīng)用與軟件,2022,39(6):141-147.
[10] 張小婉,鄧秋軍,柳先輝.結(jié)合圖注意力機(jī)制的知識圖譜推薦算法[J].計(jì)算機(jī)科學(xué),2023, 50(S2):464-470.
[11] ZHOU A Z,LI Y F.Structural attention network for graph[J].Applied Intelligence,2021,51(8):6255-6264.
[12] 李文舉,姬倩倩,沙利業(yè),等.基于圖游走和圖注意力的點(diǎn)云分類與分割[J].鄭州大學(xué)學(xué)報(工學(xué)版),2024,45(2):33-41.
【通聯(lián)編輯:唐一東】