楊彬,王軼彤
(復(fù)旦大學(xué) 軟件學(xué)院,上海 200433)
異質(zhì)信息網(wǎng)絡(luò)(Heterogeneous Information Network,HIN)[1-2]在人類社會中無處不在,其中往往存在不同類型的節(jié)點(diǎn)和關(guān)系,這些節(jié)點(diǎn)和關(guān)系包含豐富的信息和復(fù)雜的交互,如社會網(wǎng)絡(luò)[3-4]、引文網(wǎng)絡(luò)[5]、電影網(wǎng)絡(luò)[6]、推薦系統(tǒng)[7-9]等。與同質(zhì)信息網(wǎng)絡(luò)相比,異質(zhì)信息網(wǎng)絡(luò)中包含更豐富的語義信息和更復(fù)雜的關(guān)系,這給當(dāng)前的研究帶來了巨大的挑戰(zhàn),特別是異質(zhì)信息網(wǎng)絡(luò)中的表征學(xué)習(xí)。大多數(shù)機(jī)器學(xué)習(xí)方法或數(shù)據(jù)挖掘算法都需要通過準(zhǔn)確的數(shù)據(jù)表征來構(gòu)建各種任務(wù)模型,如分類[10-11]、聚類[12-13]、預(yù)測[14-15]、推薦[16]等。因此,對于這些任務(wù)模型,表征學(xué)習(xí)是非常重要的。
由于不同類型的節(jié)點(diǎn)和復(fù)雜的交互關(guān)系,異質(zhì)信息網(wǎng)絡(luò)表征學(xué)習(xí)[17]一直是一個非常重要和具有挑戰(zhàn)性的問題。在過去的幾年里,人們對該方向進(jìn)行了一系列的研究,并取得了許多較好的成果。經(jīng)典的范例之一是設(shè)計(jì)和使用元路徑,例如metapath2vec[18]和HIN2Vec[19],其中,元路徑是具有特定節(jié)點(diǎn)和關(guān)系類型的預(yù)定義序列模式。近年來,基于圖神經(jīng)網(wǎng)絡(luò)強(qiáng)大的表征能力,人們提出了一些基于圖神經(jīng)網(wǎng)絡(luò)[20]的異質(zhì)信息網(wǎng)絡(luò)表征學(xué)習(xí)模型,例如:HAN[21]利用雙層注意力機(jī)制即節(jié)點(diǎn)級注意力和語義級注意力來獲取節(jié)點(diǎn)及其元路徑的重要性,最后通過鄰域聚合來實(shí)現(xiàn)節(jié)點(diǎn)表征;HGCN[22]設(shè)計(jì)了一種關(guān)系特征學(xué)習(xí)方法,對不同類型的邊的特征進(jìn)行加權(quán),最后進(jìn)行聚合得到節(jié)點(diǎn)表征。
然而,現(xiàn)有的方法大多存在一定的局限性:1)在多數(shù)研究中,元路徑都是由具有特定領(lǐng)域知識的專家手工設(shè)計(jì)的,成本高且覆蓋范圍??;2)目前的方法通常沒有充分考慮高階鄰居的結(jié)構(gòu)和內(nèi)容信息;3)多數(shù)方法要么像在同質(zhì)網(wǎng)絡(luò)中一樣統(tǒng)一處理不同類型的節(jié)點(diǎn),要么不考慮不同類型節(jié)點(diǎn)之間的連接,直接將它們映射到不同的表征空間中。因此,現(xiàn)有的方法難以準(zhǔn)確有效地捕捉特征。鑒于這些局限性,本文試圖通過回答以下2 個問題來解決關(guān)鍵問題:1)如何處理不同類型的鄰居節(jié)點(diǎn)/邊,以捕獲目標(biāo)節(jié)點(diǎn)上有影響力的鄰居節(jié)點(diǎn)(包括高階鄰居);2)如何有效地聚合有影響力的鄰居節(jié)點(diǎn)來更新目標(biāo)節(jié)點(diǎn)的表征。
針對上述問題,本文提出一種基于超鄰接圖的異質(zhì)信息網(wǎng)絡(luò)表征學(xué)習(xí)模型(HIN-HG)。設(shè)計(jì)一個圖卷積層來學(xué)習(xí)不同類型的邊的重要性,引入語義圖來獲取包含高階鄰居的元路徑信息,并將其與特征圖聚合得到超鄰接圖,精確捕獲給定目標(biāo)節(jié)點(diǎn)的有影響力的鄰居節(jié)點(diǎn)。在此基礎(chǔ)上,通過多通道的圖卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)節(jié)點(diǎn)表征,從而有效地聚合有影響的鄰居節(jié)點(diǎn)的信息。本文具體工作如下:首先,引入節(jié)點(diǎn)圖與語義圖來精確捕獲與給定目標(biāo)節(jié)點(diǎn)距離不同的有影響力的鄰居;然后,將語義圖與學(xué)習(xí)得到的特征圖聚合得到超鄰接圖,并使用多通道圖卷積神經(jīng)網(wǎng)絡(luò)將有影響的鄰居信息聚合到目標(biāo)節(jié)點(diǎn);最后,在3 個真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證本文方法的有效性和優(yōu)越性。
目前,表征學(xué)習(xí)研究取得了顯著的進(jìn)展,成為了最受歡迎的數(shù)據(jù)挖掘技術(shù)之一。由于節(jié)點(diǎn)表征的復(fù)雜性和不規(guī)則性,使得異質(zhì)信息網(wǎng)絡(luò)中的節(jié)點(diǎn)表征具有一定的難度和挑戰(zhàn)性,因此早期的研究主要是將同質(zhì)網(wǎng)絡(luò)中的表征方法應(yīng)用到異質(zhì)網(wǎng)絡(luò)中,例如:PEROZZI等[23]受到word2vec[24]的啟發(fā),提出將自然語言處理的思想應(yīng)用于網(wǎng)絡(luò)表征學(xué)習(xí)的DeepWalk,使用隨機(jī)游走策略獲取節(jié)點(diǎn)序列,并通過skip-gram模型表征節(jié)點(diǎn);類似地,node2vec[25]使用帶有偏差的隨機(jī)游走策略擴(kuò)展了DeepWalk;LINE[26]是基于一階和二階相似度學(xué)習(xí)的網(wǎng)絡(luò)表征方法;SDNE[27]使用深度自編碼器來表征網(wǎng)絡(luò),試圖捕獲網(wǎng)絡(luò)中的高度非線性關(guān)系。這些方法雖然能很好地應(yīng)用于同質(zhì)網(wǎng)絡(luò),但由于語義和結(jié)構(gòu)的復(fù)雜性,并不適合直接應(yīng)用于異質(zhì)網(wǎng)絡(luò)。
近年來,一些專為異質(zhì)信息網(wǎng)絡(luò)設(shè)計(jì)的表征學(xué)習(xí)模型逐漸被提出,例如:metapath2vec 通過在給定的元路徑上隨機(jī)游走獲得節(jié)點(diǎn)序列,然后使用基于異質(zhì)的skip-gram 模型學(xué)習(xí)節(jié)點(diǎn)表征;metagraph2vec擴(kuò)展了metapath2vec,使用基于元圖的隨機(jī)游走策略進(jìn)行節(jié)點(diǎn)采樣;HIN2Vec 利用淺層神經(jīng)網(wǎng)絡(luò)同時學(xué)習(xí)網(wǎng)絡(luò)中節(jié)點(diǎn)和關(guān)系的表征。
圖神經(jīng)網(wǎng)絡(luò)是一種新興的深度表征學(xué)習(xí)模型,在相關(guān)任務(wù)中表現(xiàn)出了優(yōu)異的性能。圖神經(jīng)網(wǎng)絡(luò)的核心思想是通過神經(jīng)網(wǎng)絡(luò)從節(jié)點(diǎn)的鄰居中聚合特征來更新節(jié)點(diǎn)表征。GNN 模型有許多變體,例如:圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)[28]利用鄰域聚合和多層網(wǎng)絡(luò)捕獲高階鄰居信息;圖注意網(wǎng)絡(luò)(GAT)[29]利用自注意機(jī)制,根據(jù)鄰居的不同重要性將鄰居信息更精確地聚合到目標(biāo)節(jié)點(diǎn)中;GraphSAGE[30]對給定目標(biāo)節(jié)點(diǎn)的固定大小的k跳鄰居進(jìn)行采樣,并聚合它們的特征來表征目標(biāo)節(jié)點(diǎn)。
雖然圖神經(jīng)網(wǎng)絡(luò)在表征學(xué)習(xí)方面取得了較好的成果,但由于節(jié)點(diǎn)類型和關(guān)系的不同,圖神經(jīng)網(wǎng)絡(luò)不能直接應(yīng)用到異質(zhì)信息網(wǎng)絡(luò)中。為了更好地處理和利用異質(zhì)信息網(wǎng)絡(luò)中的信息,一些異質(zhì)圖神經(jīng)網(wǎng)絡(luò)模型被提出,例如:RGCN[31]根據(jù)不同類型的關(guān)系設(shè)計(jì)多個圖卷積層,然后聚合得到節(jié)點(diǎn)表征;HAN 使用節(jié)點(diǎn)級注意力機(jī)制聚合鄰居信息,使用語義級注意力機(jī)制聚合預(yù)定義元路徑信息;HetGNN[32]采用重啟隨機(jī)游走策略采樣強(qiáng)相關(guān)鄰居,利用LSTM 模型分別計(jì)算目標(biāo)節(jié)點(diǎn)及其鄰居的節(jié)點(diǎn)表征;MetaHIN[33]在異質(zhì)信息網(wǎng)絡(luò)中提出使用元學(xué)習(xí)框架來解決推薦中的冷啟動問題;HGCN[22]使用基于異質(zhì)信息網(wǎng)絡(luò)的GCN 模型來解決集體分類問題;GTN[34]利用圖神經(jīng)網(wǎng)絡(luò),通過識別多跳連接來學(xué)習(xí)圖中的元路徑,獲得了有效的節(jié)點(diǎn)表征;HGSL[35]使用一種聯(lián)合圖結(jié)構(gòu)學(xué)習(xí)和GNN 參數(shù)學(xué)習(xí)的框架來解決分類問題。雖然這些方法在實(shí)驗(yàn)中效果良好,但仍存在一些局限性:元路徑對理解異質(zhì)信息網(wǎng)絡(luò)中節(jié)點(diǎn)之間的結(jié)構(gòu)和語義連接非常重要,然而,手動設(shè)計(jì)元路徑通常需要特定領(lǐng)域的知識,而且成本比較高,一些隱含的元路徑連接甚至對領(lǐng)域?qū)<襾碚f也很難設(shè)計(jì);對于沒有使用元路徑的方法,通常采用消息傳播機(jī)制來識別高階鄰居,然而由于傳播距離較短,高階鄰居不能完全被捕獲。因此,如何精確捕獲不同距離的有影響力的鄰居節(jié)點(diǎn),以及如何有效地聚合鄰居的特征以提高表征學(xué)習(xí)性能,仍需要進(jìn)一步研究。
異質(zhì)圖是一種包含不同類型的節(jié)點(diǎn)和邊的信息網(wǎng)絡(luò)。本節(jié)介紹異質(zhì)圖的定義,并總結(jié)全文中使用的數(shù)學(xué)符號。表1 中列出了本文所使用的數(shù)學(xué)符號的描述。
表1 符號描述Table 1 Descriptions for notations
定義1異質(zhì)圖
一個異質(zhì)圖可以表示為G=(V,E,A,R),由一個節(jié)點(diǎn)集V和一個邊集E 組成。它還包括一個節(jié)點(diǎn)類型映射函數(shù)φ:V →A和一個邊類型映射函數(shù)ψ:E →R,其中,A是節(jié)點(diǎn)類型的集合,R 是邊類型的集合,并且在異質(zhì)圖中滿足|A| +|R| >2。當(dāng)|A|=1且|R|=1時,就得到一個同質(zhì)圖。一個異質(zhì)圖可以看作是一組鄰接矩陣的集合即{Ak}Kk=1,其中,Ak∈RN×N是一個只包含第k種類型邊的子圖,K=|R|,N=|V|。多數(shù)異質(zhì)圖還具有一個初始特征矩陣X∈RN×d,其中,d是每個節(jié)點(diǎn)的特征維度。
定義2元路徑
元路徑可以被定義為在異質(zhì)信息網(wǎng)絡(luò)模式TG=(A,R)下由節(jié)點(diǎn)類型組成的路徑P:,其中,ai∈A,ri∈R。元路徑表示節(jié)點(diǎn)a1和節(jié)點(diǎn)al之間的復(fù)合關(guān)系R=r1?r2?…?rl,其中,?表示關(guān)系的復(fù)合運(yùn)算符。給定一個復(fù)合關(guān)系R或一系列邊類型,將不同邊類型的鄰接矩陣進(jìn)行乘法運(yùn)算,就可以得到元路徑的鄰接矩陣:
本節(jié)介紹基于超鄰接圖的異質(zhì)信息網(wǎng)絡(luò)表征學(xué)習(xí)體系結(jié)構(gòu)。如圖1 所示,該模型分為4 個部分:1)使用1×1 圖卷積層學(xué)習(xí)不同類型邊的權(quán)重,獲得節(jié)點(diǎn)圖;2)通過矩陣乘法和疊加得到語義圖;3)將特征圖與語義圖加權(quán)聚合得到超鄰接圖;4)使用多通道圖卷積網(wǎng)絡(luò)學(xué)習(xí)節(jié)點(diǎn)表征,并通過最小化預(yù)測標(biāo)簽與真實(shí)標(biāo)簽之間的多元交叉熵來優(yōu)化節(jié)點(diǎn)表征。
圖1 本文方法總體框架Fig.1 The overall framework of the proposed method
在異質(zhì)信息網(wǎng)絡(luò)中,不同類型的節(jié)點(diǎn)往往扮演著不同的角色,在學(xué)習(xí)特定任務(wù)的節(jié)點(diǎn)表征時表現(xiàn)出不同的重要性。為了表示與給定目標(biāo)節(jié)點(diǎn)相關(guān)的不同連接下不同類型的鄰居節(jié)點(diǎn)的重要性,通過引入節(jié)點(diǎn)圖來學(xué)習(xí)異質(zhì)圖中每種類型邊的重要性,例如,異質(zhì)圖通常有多個子圖,每一個子圖表示一種類型的邊。因此,本文設(shè)計(jì)了一個1×1 卷積層來學(xué)習(xí)不同類型邊的權(quán)重。卷積過程可以表示為:
其中:∈RN×N是包含不同類型邊的權(quán)重的節(jié)點(diǎn)圖;Wk∈R1×1是不同類型邊的可學(xué)習(xí)權(quán)重系數(shù);bk是偏置向量。為了平衡各類型邊的權(quán)重,使用Softmax 函數(shù)對初始化的權(quán)重系數(shù)進(jìn)行歸一化,得到:
其中:ak∈R1×1是第k張子圖的初始權(quán)重系數(shù)。節(jié)點(diǎn)圖是不對稱的,因?yàn)樵诋愘|(zhì)圖中,2 個節(jié)點(diǎn)對彼此的影響往往是不同的。它可以看作是一種潛在的注意力機(jī)制,可以幫助目標(biāo)節(jié)點(diǎn)學(xué)習(xí)不同類型鄰居節(jié)點(diǎn)的權(quán)重。但是,公式中定義的鄰接矩陣忽略了目標(biāo)節(jié)點(diǎn)本身的重要性。通常,節(jié)點(diǎn)的表征需要保留自己的特征,以防止被鄰居節(jié)點(diǎn)的特征完全同化,故向異質(zhì)圖G中添加單位矩陣,即A0=I,由此,中包含每個節(jié)點(diǎn)自身的權(quán)重。
通常,異質(zhì)圖中的節(jié)點(diǎn)都包含豐富的語義信息,節(jié)點(diǎn)圖僅僅考慮了一階鄰居的重要性,不能充分反映節(jié)點(diǎn)之間的結(jié)構(gòu)和語義聯(lián)系。想要更全面地學(xué)習(xí)節(jié)點(diǎn)表征,需要學(xué)習(xí)不同元路徑的重要性,以捕獲高階鄰居對目標(biāo)節(jié)點(diǎn)的影響。為了解決異質(zhì)圖中元路徑選擇和高階鄰居聚集的問題,本節(jié)基于上述的節(jié)點(diǎn)圖提出一種新的語義圖來學(xué)習(xí)不同元路徑的重要性。給定學(xué)習(xí)得到的多個節(jié)點(diǎn)圖,通過矩陣乘法計(jì)算長度為l的元路徑鄰接矩陣,計(jì)算過程如下:
其中:Al∈RN×N是指定長度l的元路徑鄰接矩陣;∈RN×N是第i層的節(jié)點(diǎn)圖;Aik∈RN×N是第i層節(jié)點(diǎn)圖的第k張子圖;Wik∈R1×1是Aik的可學(xué)習(xí)權(quán)重系數(shù);bik是偏置向量。Wik通過歸一化得到:
其中:aik∈R1×1是初始化的權(quán)重系數(shù)。元路徑鄰接矩陣包含所有指定長度的元路徑,不同的元路徑具有不同的權(quán)重,l=1 的元路徑鄰接矩陣即為第1 層的節(jié)點(diǎn)圖。由于節(jié)點(diǎn)圖中的權(quán)重經(jīng)過歸一化處理,均小于1,因此一般情況下,元路徑越長,權(quán)重越小,這也符合專家認(rèn)知:一般情況下,對于目標(biāo)節(jié)點(diǎn)而言,低階鄰居比高階鄰居更重要。給定長度L,將長度為1~L的元路徑鄰接矩陣相加,如式(6)所示,可以得到含有長度不超過L的所有元路徑的語義圖:
其中:Gsem∈RN×N。語義圖包含長度不超過L的所有元路徑,并為其分配不同的權(quán)重來反映不同的重要性。由于元路徑鄰接矩陣只能學(xué)習(xí)指定長度元路徑上的鄰居節(jié)點(diǎn)的重要性,通過疊加得到語義圖,因此可以將與目標(biāo)節(jié)點(diǎn)距離不大于L的所有鄰居節(jié)點(diǎn)都考慮到,且不同類型、不同距離的鄰居節(jié)點(diǎn)具有不同的權(quán)重,鄰居節(jié)點(diǎn)的權(quán)重越大,其對目標(biāo)節(jié)點(diǎn)的影響力也就越大,反之亦然。相比于其他方法,該方法可以學(xué)習(xí)得到不同鄰居節(jié)點(diǎn)的重要性,由此可以更精確地捕獲到有影響力的鄰居節(jié)點(diǎn)。
語義圖可以捕獲指定距離內(nèi)的鄰居節(jié)點(diǎn)信息,但無法覆蓋與目標(biāo)節(jié)點(diǎn)相似但距離很遠(yuǎn)的節(jié)點(diǎn),因此,進(jìn)一步引入特征圖,為特征相似但距離較遠(yuǎn)的節(jié)點(diǎn)建立連接,以此擴(kuò)充圖的信息。對于特征圖,給出如下定義:
定義3特征圖
對于異質(zhì)圖中的任意2 個節(jié)點(diǎn)進(jìn)行相似性度量,并將原圖中沒有鏈接但相似性較高的節(jié)點(diǎn)對直接建立一條邊,邊的權(quán)重即為相似度,由此得到的新的圖結(jié)構(gòu),稱之為特征圖。
對于異質(zhì)圖中的任意2 個節(jié)點(diǎn)vi和vj,設(shè)置條件函數(shù)來計(jì)算它們的相似性:
其中:fi,fj∈R1×D是節(jié)點(diǎn)vi和vj的特征向量;εfea∈(0,1)是人工設(shè)定的控制特征圖稀疏度的閾值;Gsem[i,j]=0 代表節(jié)點(diǎn)vi和vj在語義圖中沒有連接;Γfea為余弦相似度度量函數(shù)。由此可以計(jì)算得到特征圖Gfea∈RN×N。將語義圖和特征圖進(jìn)行聚合即可得到一張包含所有影響力較大的鄰居節(jié)點(diǎn)的圖,稱之為超鄰接圖:
其中:wfea∈R1×1是特征圖的可學(xué)習(xí)權(quán)重系數(shù)。超鄰接圖中既包含指定距離內(nèi)對目標(biāo)節(jié)點(diǎn)有影響力的鄰居節(jié)點(diǎn),又包含與目標(biāo)節(jié)點(diǎn)距離較遠(yuǎn)但特征相似的節(jié)點(diǎn),不同的節(jié)點(diǎn)通過不同的權(quán)重來體現(xiàn)它們的重要性。
將圖卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于超鄰接圖,從而得到節(jié)點(diǎn)表征:
其中:D是超鄰接圖的度矩陣;X∈RN×D是特征矩陣;W∈RD×D是可學(xué)習(xí)的權(quán)重矩陣。為了考慮多種可能的超鄰接圖,增強(qiáng)模型的學(xué)習(xí)能力,并行學(xué)習(xí)多個超鄰接圖并應(yīng)用圖卷積神經(jīng)網(wǎng)絡(luò),將每個輸出設(shè)置為一個通道,由此應(yīng)用了多通道機(jī)制,以更有效地聚集有影響力的鄰居。最后,將GCN 應(yīng)用于每個通道,并將多個輸出的節(jié)點(diǎn)表征拼接:
其中:Hi為第i個通道輸出的節(jié)點(diǎn)表征;Z為最終用于節(jié)點(diǎn)分類任務(wù)的節(jié)點(diǎn)表征向量。本文的損失函數(shù)定義為具有真實(shí)標(biāo)簽的節(jié)點(diǎn)的標(biāo)準(zhǔn)交叉熵:
其中:Θ是分類器的參數(shù);YL是具有標(biāo)簽的節(jié)點(diǎn)索引的集合;Yl和Zl是已標(biāo)記節(jié)點(diǎn)的標(biāo)簽和表征。
為了評估HIN-HG 的有效性,在以下3 個真實(shí)數(shù)據(jù)集上進(jìn)行相關(guān)實(shí)驗(yàn):學(xué)術(shù)網(wǎng)絡(luò)DBLP 和ACM,以及電影網(wǎng)絡(luò)IMDB。這些數(shù)據(jù)集都包含多種類型的節(jié)點(diǎn)和關(guān)系,具體信息如表2 所示。
表2 數(shù)據(jù)集信息Table 2 Information of datasets
1)DBLP數(shù)據(jù)集來自DBLP官網(wǎng),主要包含18 405個節(jié)點(diǎn)、67 946 條邊和4 種邊類型。根據(jù)研究領(lǐng)域可將作者分為4 類:數(shù)據(jù)庫,數(shù)據(jù)挖掘,信息檢索,人工智能。
2)ACM 數(shù)據(jù)集來自ACM 電子數(shù)據(jù)庫,主要包含8 994 個節(jié)點(diǎn)、25 922 條邊和4 種邊類型。論文類別分為3 類:數(shù)據(jù)挖掘,數(shù)據(jù)庫,無線通信。
3)IMDB數(shù)據(jù)集來自IMDB官網(wǎng),主要包含12 772 個節(jié)點(diǎn)、37 288 條邊和4 種邊類型。電影分為3 類:動作,喜劇,戲劇。
本文通過與以下基線方法(包括基于隨機(jī)游走的方法和基于圖神經(jīng)網(wǎng)絡(luò)的方法)進(jìn)行比較,來驗(yàn)證HIN-HG 的有效性。
1)DeepWalk:針對同質(zhì)圖設(shè)計(jì)的一種基于隨機(jī)游走策略的表征學(xué)習(xí)方法。在本文的實(shí)驗(yàn)中,忽略了節(jié)點(diǎn)的異質(zhì)性,將異質(zhì)圖當(dāng)作是同質(zhì)圖來執(zhí)行DeepWalk。
2)metapath2vec:一種使用基于元路徑的隨機(jī)游走策略并利用skip-gram 表征異質(zhì)圖的表征學(xué)習(xí)方法。本文測試metapath2vec 的所有元路徑,展示其最佳性能。
3)GCN:一種針對同質(zhì)圖設(shè)計(jì)的半監(jiān)督式圖卷積神經(jīng)網(wǎng)絡(luò)。本文忽略節(jié)點(diǎn)和邊的異質(zhì)性,展示其最佳性能。
4)GAT:一種考慮同質(zhì)圖上注意力機(jī)制的半監(jiān)督式神經(jīng)網(wǎng)絡(luò)。本文忽略節(jié)點(diǎn)和邊的異質(zhì)性,展示其最佳性能。
5)RGCN:一種針對異質(zhì)圖不同類型的邊設(shè)計(jì)的半監(jiān)督式圖卷積神經(jīng)網(wǎng)絡(luò)。本文使用原論文的相關(guān)設(shè)置進(jìn)行實(shí)驗(yàn),并展示其最佳性能。
6)HAN:一種同時采用節(jié)點(diǎn)級注意力機(jī)制和語義級注意力機(jī)制的半監(jiān)督式異質(zhì)圖神經(jīng)網(wǎng)絡(luò)。本文使用原論文中手工指定的元路徑進(jìn)行實(shí)驗(yàn),并展示其最佳性能。
7)GTN:一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的能自動學(xué)習(xí)元路徑的半監(jiān)督式圖神經(jīng)網(wǎng)絡(luò)。本文保留原論文的設(shè)置,并展示其最佳性能。
8)HGSL:一種聯(lián)合圖結(jié)構(gòu)學(xué)習(xí)和圖神經(jīng)網(wǎng)絡(luò)參數(shù)學(xué)習(xí)的異質(zhì)圖模型。本文使用原論文中對數(shù)據(jù)集的處理方法,并展示其最佳性能。
為了公平比較,本文將上述所有基線方法的參數(shù)設(shè)置為原論文中的最佳參數(shù),并使用Adam 優(yōu)化器分別選擇超參數(shù),以使每個基線方法都能發(fā)揮最佳性能。對于基于隨機(jī)游走的方法,在1 000 次迭代中,每個節(jié)點(diǎn)的行走長度設(shè)為100,窗口大小設(shè)為5,有7 個負(fù)樣本。對于GCN、GAT、HAN 和GTN,使用驗(yàn)證集優(yōu)化它們的參數(shù)。對于本文的HIN-HG 模型,設(shè)置迭代次數(shù)為40次,通道數(shù)為2個,學(xué)習(xí)率為0.005,權(quán)值衰減率為0.001。對于DBLP 數(shù)據(jù)集,將維度設(shè)置為512,元路徑的最大長度設(shè)置為3。對于ACM 數(shù)據(jù)集和IMDB 數(shù)據(jù)集,將維度設(shè)置為128,元路徑的最大長度設(shè)置為3。
實(shí)驗(yàn)使用PyTorch 訓(xùn)練一個淺層神經(jīng)網(wǎng)絡(luò)作為分類器。由于是多分類問題,因此本文采用Macro-F1和Micro-F1 指標(biāo)來全面地評價模型的性能。表3 展示了HIN-HG 與其他節(jié)點(diǎn)分類基線方法在DBLP、ACM 和IMDB 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,最優(yōu)和次優(yōu)結(jié)果分別使用粗體和下劃線標(biāo)出,可見HIN-HG 基于2 個多分類指標(biāo)在所有數(shù)據(jù)集上都取得了最好的性能,相比于次優(yōu)算法整體性能提升了1.2%以上?;趫D神經(jīng)網(wǎng)絡(luò)的方法性能往往優(yōu)于基于隨機(jī)游走的方法,這是因?yàn)闇\層模型通常只考慮異質(zhì)信息網(wǎng)絡(luò)的結(jié)構(gòu)信息,而圖神經(jīng)網(wǎng)絡(luò)可以既考慮結(jié)構(gòu)信息,又考慮內(nèi)容信息,而且深度模型往往能更好地捕捉網(wǎng)絡(luò)中的高度非線性關(guān)系。
表3 節(jié)點(diǎn)分類實(shí)驗(yàn)結(jié)果Table 3 Results of node classification experiment %
GAT 的性能優(yōu)于GCN,因?yàn)镚CN 聚合鄰居節(jié)點(diǎn)信息時沒有考慮鄰居重要性,而GAT 可以給鄰居節(jié)點(diǎn)分配不同的權(quán)重來反映不同的重要性。雖然HAN 使用了一種基于異質(zhì)信息網(wǎng)絡(luò)的雙層注意力機(jī)制,但實(shí)驗(yàn)結(jié)果表明GAT 在DBLP 和ACM 數(shù)據(jù)集上的性能更好,這可能是因?yàn)镠AN 使用手動設(shè)定的元路徑會影響模型的性能。HGSL 的性能僅次于HIN-HG,體現(xiàn)了學(xué)習(xí)新的圖結(jié)構(gòu)的優(yōu)勢,但是HGSL 使用矩陣乘法進(jìn)行信息傳播與擴(kuò)散的范圍較小,無法精準(zhǔn)捕獲到距離目標(biāo)節(jié)點(diǎn)較遠(yuǎn)的高階鄰居信息。
與以上方法相比,HIN-HG 無須手工設(shè)定元路徑,可以獨(dú)立學(xué)習(xí)不同類型和長度的元路徑的權(quán)重,自動精確地捕獲有影響力的鄰居節(jié)點(diǎn)(包括高階鄰居)。其中,語義圖的設(shè)計(jì)可以緩解高階鄰居對低階鄰居的依賴關(guān)系,為指定距離內(nèi)不同的鄰居節(jié)點(diǎn)學(xué)習(xí)更合理的權(quán)重,同時特征圖的引入可以找到與目標(biāo)節(jié)點(diǎn)距離較遠(yuǎn)但相似度較高的節(jié)點(diǎn),為目標(biāo)節(jié)點(diǎn)捕獲更深層次的鄰居,進(jìn)一步豐富圖的信息。最后,多通道機(jī)制可以適當(dāng)?shù)仄胶獗碚鳎乐惯^擬合,提高模型的學(xué)習(xí)能力。實(shí)驗(yàn)結(jié)果證明了HIN-HG 在節(jié)點(diǎn)分類任務(wù)中的準(zhǔn)確性和有效性,體現(xiàn)了其相比于其他基線模型的優(yōu)勢。
為了進(jìn)一步研究HIN-HG 是否能夠精確地捕獲有影響力的鄰居節(jié)點(diǎn),本文研究了ACM 數(shù)據(jù)集上的節(jié)點(diǎn)圖和語義圖。圖2 展示了不同網(wǎng)絡(luò)層中節(jié)點(diǎn)圖的不同類型邊的權(quán)重,其中:P、A、C 分別表示論文、作者和會議;PA、AP、PC、CP 和I 表示異質(zhì)圖的5 個質(zhì)子圖,如PA 表示所有論文節(jié)點(diǎn)到作者節(jié)點(diǎn)的子圖,I 表示節(jié)點(diǎn)的自連邊。對于論文來說,影響力最大的鄰居節(jié)點(diǎn)是作者。隨著路徑長度的增加,會議對論文的影響逐漸增大,這是因?yàn)樵诜诸惾蝿?wù)中,會議這類度數(shù)較高的中心節(jié)點(diǎn)往往具有更高的影響力。由圖2 可見,節(jié)點(diǎn)圖可以自適應(yīng)地調(diào)整不同類型邊的權(quán)重,得到不同類型的一階鄰居節(jié)點(diǎn)的重要性。由于語義圖由多個節(jié)點(diǎn)圖經(jīng)過計(jì)算和聚合得到,節(jié)點(diǎn)圖中權(quán)重的動態(tài)變化決定了語義圖中不同元路徑的權(quán)重,能夠確定不同元路徑的重要性。圖3展示了語義圖中不同元路徑的權(quán)重。在作者和論文的連接中,它們可能通過元路徑A →P 或A →P →C →P 連接,也可能兩者均連接。在語義圖中,通過不同元路徑與目標(biāo)節(jié)點(diǎn)相連接的鄰居節(jié)點(diǎn)權(quán)重往往不同,這體現(xiàn)了不同鄰居節(jié)點(diǎn)對目標(biāo)節(jié)點(diǎn)的影響力不同,而同時通過多個元路徑連接的鄰居節(jié)點(diǎn)權(quán)重往往更大,對目標(biāo)節(jié)點(diǎn)的影響力也更大。結(jié)果表明,語義圖可以為不同的鄰居節(jié)點(diǎn)分配不同的權(quán)重,從而精確地捕獲特定距離內(nèi)有影響力的鄰居節(jié)點(diǎn)。
圖2 節(jié)點(diǎn)圖中不同類型邊的權(quán)重Fig.2 The weights of different types of edges in node graph
圖3 語義圖中不同元路徑的權(quán)重Fig.3 The weights of different meta-paths in semantic graph
通常,與目標(biāo)節(jié)點(diǎn)特征和結(jié)構(gòu)相似的節(jié)點(diǎn)可以為目標(biāo)節(jié)點(diǎn)提供豐富的信息,但可能因?yàn)榫嚯x較遠(yuǎn)而無法考慮。特征圖可以為該類節(jié)點(diǎn)與目標(biāo)節(jié)點(diǎn)建立聯(lián)系,并通過計(jì)算兩者間的相似性得到其對目標(biāo)節(jié)點(diǎn)的影響力,從而彌補(bǔ)語義圖只能捕獲特定距離內(nèi)鄰居節(jié)點(diǎn)信息的不足。通過加權(quán)聚合語義圖和特征圖的超鄰接圖中既包含特定距離L以內(nèi)所有有影響力的鄰居節(jié)點(diǎn),又包含距離更遠(yuǎn)但特征相似的鄰居節(jié)點(diǎn)。由此,超鄰接圖為目標(biāo)節(jié)點(diǎn)精確地捕獲了全異質(zhì)圖范圍內(nèi)所有有影響力的鄰居節(jié)點(diǎn)。
本節(jié)評估了HIN-HG 的以下3 種變體的性能:1)HIN-HG-hyper:該變體不使用超鄰接圖而僅使用節(jié)點(diǎn)圖。
2)HIN-HG-feature:該變體不使用特征圖而僅使用語義圖。
3)HIN-HG-multi:該變體不使用多通道機(jī)制。
表4 展示了3 個變體和完整的HIN-HG 在ACM數(shù)據(jù)集上運(yùn)行的結(jié)果,其中加粗表示最優(yōu)值。結(jié)果表明,完整的HIN-HG 模型的性能最好,HIN-HG-hyper性能下降最多,這是因?yàn)槌徑訄D為目標(biāo)節(jié)點(diǎn)捕獲了異質(zhì)圖中所有具有影響力的鄰居節(jié)點(diǎn),將其替換為簡單的鄰接矩陣后無法有效捕獲異質(zhì)圖中的結(jié)構(gòu)和語義關(guān)系,這也說明了超鄰接圖在圖卷積神經(jīng)網(wǎng)絡(luò)中的巨大貢獻(xiàn)。在消融實(shí)驗(yàn)中,缺少特征圖會使模型無法捕獲與目標(biāo)節(jié)點(diǎn)距離較遠(yuǎn)但相似度較高的節(jié)點(diǎn),從而造成部分信息的缺失,導(dǎo)致HIN-HG-feature的性能下降。HIN-HG-multi和HIN-HG 的比較結(jié)果證明了多通道機(jī)制在GCN 中的積極作用。多通道機(jī)制可以學(xué)習(xí)多個超鄰接圖,提高模型的泛化能力,避免單一圖結(jié)構(gòu)中存在的噪音引起誤差,同時防止過擬合現(xiàn)象。實(shí)驗(yàn)結(jié)果充分證明了采用多通道機(jī)制的GCN 能夠有效聚合有影響力的鄰居來更新目標(biāo)節(jié)點(diǎn)的表征。
表4 消融實(shí)驗(yàn)結(jié)果Table 4 Results of ablation experiment %
本節(jié)研究主要參數(shù)即迭代次數(shù)、表征維度、路徑長度和通道數(shù)的敏感性,并將各種參數(shù)在ACM 數(shù)據(jù)集上的分類結(jié)果展示在圖4中。
圖4 參數(shù)敏感性實(shí)驗(yàn)結(jié)果Fig.4 Results of parameter sensitivity experiment
1)評估迭代次數(shù)的影響。由圖4(a)可見,隨著迭代次數(shù)的增加,整體性能呈先上升后下降的趨勢。當(dāng)?shù)螖?shù)為40 次左右時,性能達(dá)到最佳,這表明HIN-HG 具有較快的收斂速度和較高的效率。性能下降的原因是出現(xiàn)了過擬合現(xiàn)象。
2)評估表征維度的影響。由圖4(b)可見,隨著表征維度的增加,性能先上升再下降。這是因?yàn)镠IN-HG 需要一個合適的維度來編碼信息,較小的維度無法捕獲完整的信息,而較大的維度可能會引入額外的冗余信息。
3)評估語義圖中指定路徑長度L的影響。由圖4(c)可見,HIN-HG 的性能先是隨著路徑長度的增長而提高,這是因?yàn)檎Z義圖獨(dú)立學(xué)習(xí)不同元路徑的重要性,充分考慮了高階鄰居的影響。然而,隨著路徑長度的不斷增長,HIN-HG 的性能開始逐漸下降,這是因?yàn)榫嚯x較遠(yuǎn)的鄰居可能帶來噪聲,對節(jié)點(diǎn)表征產(chǎn)生負(fù)面影響。
4)為檢驗(yàn)多通道機(jī)制的影響,評估HIN-HG 在不同通道數(shù)下的性能。在圖4(d)中,當(dāng)通道數(shù)設(shè)置為1 個時,多通道機(jī)制即被移除??梢园l(fā)現(xiàn)HIN-HG在通道數(shù)為2 個時就達(dá)到了最佳性能,過多的通道可能會降低性能并大幅增加計(jì)算成本。
本文嘗試解決異質(zhì)信息網(wǎng)絡(luò)表征學(xué)習(xí)的2 個基本問題:如何找到有影響力的鄰居和如何聚合鄰居信息,提出一種基于超鄰接圖的異質(zhì)信息網(wǎng)絡(luò)表征學(xué)習(xí)方法。所提出的HIN-HG 模型可以在不從領(lǐng)域知識中預(yù)先定義元路徑的情況下捕獲異質(zhì)圖的復(fù)雜結(jié)構(gòu)和豐富語義。該模型利用超鄰接圖捕獲不同距離的對目標(biāo)節(jié)點(diǎn)有影響力的鄰居節(jié)點(diǎn),并利用帶有多通道機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)對鄰居節(jié)點(diǎn)進(jìn)行有效聚合。HIN-HG 在3 個真實(shí)數(shù)據(jù)集上進(jìn)行節(jié)點(diǎn)分類任務(wù),表現(xiàn)優(yōu)于對比的基準(zhǔn)模型,證明了它的有效性。消融實(shí)驗(yàn)和參數(shù)敏感性實(shí)驗(yàn)證明了本文方法具有良好的可解釋性。目前大多數(shù)關(guān)于異質(zhì)信息網(wǎng)絡(luò)表征學(xué)習(xí)的研究僅使用了靜態(tài)的結(jié)構(gòu)和內(nèi)容信息,沒有考慮到時間、地域等交互信息。下一步將在異質(zhì)信息網(wǎng)絡(luò)中引入時間信息,通過捕獲網(wǎng)絡(luò)的動態(tài)性進(jìn)行表征學(xué)習(xí)和特定任務(wù)的學(xué)習(xí)。