富坤,郝玉涵,孫明磊,劉贏華
基于優(yōu)化圖結(jié)構(gòu)自編碼器的網(wǎng)絡表示學習
富坤*,郝玉涵,孫明磊,劉贏華
(河北工業(yè)大學 人工智能與數(shù)據(jù)科學學院,天津 300401)( ? 通信作者電子郵箱fukun@hebut.edu.cn)
網(wǎng)絡表示學習(NRL)旨在學習網(wǎng)絡頂點的潛在、低維表示,再將得到的表示用于下游的網(wǎng)絡分析任務。針對現(xiàn)有采用自編碼器的NRL算法不能充分提取節(jié)點屬性信息,學習時容易產(chǎn)生信息偏差從而影響學習效果的問題,提出一種基于優(yōu)化圖結(jié)構(gòu)自編碼器的網(wǎng)絡表示學習模型(NR-AGS),通過優(yōu)化圖結(jié)構(gòu)的方式提高準確率。首先,融合結(jié)構(gòu)和屬性信息來生成結(jié)構(gòu)和屬性聯(lián)合轉(zhuǎn)移矩陣,進而形成高維表示;其次,利用自編碼器學習低維嵌入表示;最后,通過在學習過程中加入深度嵌入聚類算法,對自編碼器的訓練過程和節(jié)點的類別分布劃分形成自監(jiān)督機制,并且通過改進的最大均值差異(MMD)算法減小學習得到的低維嵌入潛在表示層分布和原始數(shù)據(jù)分布的差距。此外,NR-AGS使用自編碼器的重構(gòu)損失、深度嵌入聚類損失和改進的MMD損失共同優(yōu)化網(wǎng)絡。應用NR-AGS對3個真實數(shù)據(jù)集進行學習,再使用得到的低維表示完成下游的節(jié)點分類和節(jié)點聚類任務。實驗結(jié)果表明,與深度圖表示模型DNGR(Deep Neural networks for Graph Representations)相比,NR-AGS在Cora、Citeseer、Wiki數(shù)據(jù)集上的Micro-F1值分別至少提升了7.2、13.5和8.2個百分點??梢?,NR-AGS可以有效提升NRL的學習效果。
網(wǎng)絡表示學習;屬性信息;自編碼器;深度嵌入聚類;最大均值差異
隨著信息技術(shù)的廣泛使用,分析社交網(wǎng)絡、生物網(wǎng)絡和引文網(wǎng)絡等信息網(wǎng)絡能夠提取社會生活的各方面潛在的信息,在許多學科的各種新興應用程序中發(fā)揮著重要的作用[1-3]。例如,在社交網(wǎng)絡中,將用戶分類為不同的社會群體有助于現(xiàn)實中的一些任務,如用戶搜索、有針對性的廣告和推薦等;在通信網(wǎng)絡中,檢測網(wǎng)絡的社區(qū)結(jié)構(gòu)可以幫助更好地理解謠言的傳播過程。然而,對這些網(wǎng)絡的有效分析依賴于網(wǎng)絡的表示學習[4]。
網(wǎng)絡表示學習(Network Representation Learning, NRL)的目的是學習網(wǎng)絡頂點的潛在、低維嵌入表示,同時保留網(wǎng)絡拓撲結(jié)構(gòu)、頂點內(nèi)容和其他邊信息[5]。在學習了新的頂點低維嵌入表示后,可以輕松有效地執(zhí)行網(wǎng)絡分析任務,如節(jié)點聚類、節(jié)點分類、鏈路預測等[6]。相關(guān)NRL模型有:基于結(jié)構(gòu)信息的模型,如DeepWalk[7]、Node2Vec[8]、DNGR(Deep Neural Networks For Graph Representations)[9]、O2MAC (One2Multi graph Autoencoder for multi-view graph Clustering)[10]等;基于結(jié)構(gòu)和屬性信息的模型,如TADW (Text-Associated DeepWalk)[11]、DFCN(Deep Fusion Clustering Network)[12]、變分圖自動編碼器(Variational Graph Auto-Encoder, GVAE)[13]等。但是,當前的NRL方法存在以下兩個關(guān)鍵問題:1)網(wǎng)絡中的屬性信息可以補償結(jié)構(gòu)信息,因此有效提取屬性信息是很重要的[14];2)在生成低維表示的學習過程中存在一定的信息偏差,影響網(wǎng)絡表示學習的效果。
針對以上問題,本文提出了基于優(yōu)化圖結(jié)構(gòu)自編碼器的網(wǎng)絡表示學習模型(Network Representation learning model based on Autoencoder with optimized Graph Structure, NR-AGS),該模型能夠充分利用網(wǎng)絡中的結(jié)構(gòu)和屬性信息,提高網(wǎng)絡節(jié)點的聚集性,減小低維嵌入表示與原始數(shù)據(jù)分布的差距,優(yōu)化低維表示空間的結(jié)構(gòu)。
本文主要工作如下:
1)通過隨機游走算法,將結(jié)構(gòu)和屬性信息聯(lián)合形成結(jié)構(gòu)和屬性聯(lián)合轉(zhuǎn)移矩陣PPMI(Positive Pointwise Mutual Information),該矩陣使結(jié)構(gòu)和屬性信息的聯(lián)系更加緊密,并且相互補充、制約,能夠更加充分利用網(wǎng)絡的信息學習。
2)在運用自編碼器(Autoencoder)學習低維嵌入表示時,引入深度嵌入聚類損失和改進的最大均值差異(Maximum Mean Discrepancy, MMD)損失共同訓練網(wǎng)絡。深度嵌入聚類損失使學習得到的數(shù)據(jù)中同類別的節(jié)點更加聚集,將聚類和自動編碼器統(tǒng)一在一個框架中。使用聚類分布指導網(wǎng)絡表示的學習,反之,低維嵌入目標也監(jiān)督聚類的生成,形成自監(jiān)督機制,利用該機制優(yōu)化網(wǎng)絡結(jié)構(gòu),增強網(wǎng)絡表示學習的效果。改進的MMD損失使學習到的低維嵌入表示分布更加接近原始數(shù)據(jù)分布,有利于保持它們的一致性。
3)運用NR-AGS學習的低維嵌入在Cora(https://linqs-data.soe.ucsc.edu/public/lbc/cora.tgz)、Citseer(https://linqs-data.soe.ucsc.edu/public/lbc/citeseer.tgz)、Wiki(https://dumps.wikimedia.org/wikidatawiki/entities/)這3個公開經(jīng)典數(shù)據(jù)集上的下游任務結(jié)果表明了NR-AGS的有效性,提升了網(wǎng)絡表示學習的結(jié)果。
給定一個信息網(wǎng)絡(,,,),其中:是節(jié)點集合,是邊集合,是節(jié)點屬性,是節(jié)點標簽。網(wǎng)絡表示學習研究的目標是:面對大規(guī)模并且稀疏的網(wǎng)絡,設計能夠滿足保留網(wǎng)絡的局部和全局結(jié)構(gòu),并有效利用頂點屬性信息,最終得到的節(jié)點低維嵌入表示能夠高效地完成下游網(wǎng)絡分析任務,如節(jié)點分類、節(jié)點聚類、社區(qū)檢測等。
一部分網(wǎng)絡表示學習模型只學習結(jié)構(gòu)信息:DeepWalk[7]利用隨機游走將網(wǎng)絡嵌入問題轉(zhuǎn)化為一個詞嵌入問題;Node2Vec[8]在DeepWalk的基礎上增加了廣度優(yōu)先和深度優(yōu)先以探索不同的節(jié)點鄰域,既考慮了局部信息又考慮了宏觀的信息,具有很高的適應性;DNGR[9]運用隨機游走算法計算節(jié)點拓撲結(jié)構(gòu)的高維表示,再輸入去噪自編碼器學習低維表示;LINE(Large-scale Information Network Embedding)[14]不再采用隨機游走的方法,它在圖上定義了兩種相似度——一階相似度和二階相似度,并基于這兩種相似度獲得節(jié)點表示;GraRep(learning Graph Representations with global structural information)[15]改進LINE,提出一種獲取階關(guān)系信息的圖表示方法,可以更好地獲得節(jié)點的高階信息;SDNE(Structural Deep Network Embedding)[16]通過深層神經(jīng)網(wǎng)絡自編碼器實現(xiàn)學習網(wǎng)絡節(jié)點表示,直接將一階相似度和二階相似度保留在嵌入表示中。
上述模型都只使用了拓撲結(jié)構(gòu)信息,但是真實的社會網(wǎng)絡不僅有結(jié)構(gòu)信息,還有豐富的屬性信息,屬性信息可以補償結(jié)構(gòu)信息:TADW[11]運用矩陣分解的方法結(jié)合屬性信息和結(jié)構(gòu)信息;AANE(Accelerated Attributed Network Embedding)[17]將屬性信息作為被分解的信息之一,使得矩陣分解能夠受到結(jié)構(gòu)和屬性信息的共同影響;DVNE(Deep Variational Network Embedding in Wasserstein space)[18]在SDNE的基礎上考慮屬性信息并提出了一種新的度量,相較于SDNE學習效果更好;ANAE(Attributed Network Auto-Encoder)[19]從屬性化的局部子圖中聚合屬性信息,并將目標節(jié)點的表示擴散到局部子圖中的其他節(jié)點,以重建它們的屬性,更好地獲得了節(jié)點上下文信息。
為了優(yōu)化網(wǎng)絡中的結(jié)構(gòu),有些模型引用聚類思想使網(wǎng)絡結(jié)構(gòu)更加聚集,有些模型通過引入MMD損失減小目標分布和原始分布的差異優(yōu)化圖結(jié)構(gòu)。IDEC(Improved Deep Embedded Clustering with local structure preservation)[20]顯式地定義聚類損失,模擬監(jiān)督深度學習中的分類誤差,通過學習表示和聚類聯(lián)合優(yōu)化特征。結(jié)構(gòu)化深度聚類網(wǎng)絡(Structural Deep Clustering Network, SDCN)[21]結(jié)合了自動編碼器和圖卷積算法的優(yōu)點,將結(jié)構(gòu)化信息明確地應用到深度嵌入聚類中。DFCN[12]在此基礎上將圖結(jié)構(gòu)和節(jié)點屬性聯(lián)合建模,并捕獲了全局聚類結(jié)構(gòu)。最大均值差異(MMD),即兩個概率分布之間的距離度量,在MMDnets[22]中,MMD被用于直接比較生成的樣本與真實樣本;DSNs(Domain Separation Networks)[23]將MMD融合到編碼?解碼的網(wǎng)絡中,減小源域和目標域的差異,提高模型性能;MMD-GAN(Maximum Mean Difference-Generative Adversarial Network)[24]則將它的作為損失函數(shù)擴展到GAN框架中,明顯改善性能。
根據(jù)以上研究,同時利用結(jié)構(gòu)和屬性信息的模型普遍比只利用單個信息的模型學習效果更好,同時在網(wǎng)絡中融入聚類和MMD可以優(yōu)化網(wǎng)絡結(jié)構(gòu),獲得更優(yōu)的表示。
NR-AGS的總體框架如圖1所示。它的設計思路如下:首先,為了充分利用結(jié)構(gòu)信息和屬性信息,引入了DNGR中的PPMI矩陣,并在此基礎上融合了屬性信息解決數(shù)據(jù)稀疏導致學習效率低的問題;其次,為了優(yōu)化自編碼器學習到的表示結(jié)構(gòu),在使用自動編碼器學習低維嵌入表示的過程中,加入深度嵌入聚類和MMD共同優(yōu)化深度網(wǎng)絡。綜上所述,本文在自編碼器重構(gòu)損失的基礎上,添加了深度聚類損失和MMD損失兩個信息約束項。
圖1 NR-AGS框架
DNGR通過隨機游走算法構(gòu)建的PPMI矩陣只融合了結(jié)構(gòu)信息,本文在此基礎上又融入了屬性信息,利用結(jié)構(gòu)和屬性信息共同提取特征信息,有助于獲得更好的節(jié)點表示。
在網(wǎng)絡表示學習過程中,首先結(jié)合結(jié)構(gòu)信息和屬性信息形成結(jié)構(gòu)?屬性聯(lián)合轉(zhuǎn)移矩陣,再通過隨機沖浪算法形成共現(xiàn)概率矩陣,最后轉(zhuǎn)化為高密度的PPMI矩陣。
為了綜合運用節(jié)點的兩個信息源,結(jié)合結(jié)構(gòu)轉(zhuǎn)移矩陣和屬性轉(zhuǎn)移矩陣形成結(jié)構(gòu)和屬性聯(lián)合轉(zhuǎn)移矩陣,計算方法如下:
其中:表示各個轉(zhuǎn)移矩陣的第行;(0<<1)為平衡系數(shù)。該聯(lián)合方法通過以下方法使屬性網(wǎng)絡更加密集:1)如果在網(wǎng)絡中兩個節(jié)點間沒有連邊,但是它們的前個的節(jié)點屬性相似,則它們之間就會連上一條新邊,使網(wǎng)絡之間聯(lián)系更加緊密;2)如果兩個節(jié)點已經(jīng)存在連邊,則將通過參數(shù)(0<<1)平衡結(jié)構(gòu)和屬性信息在運用中的比重,值越小,屬性信息對最終的節(jié)點低維表示的影響越大[9]。
其次,沿用DNGR中的兩個步驟:1)通過步迭代,每次以的概率隨機沖浪轉(zhuǎn)化為共現(xiàn)概率矩陣;2)通過共現(xiàn)概率矩陣構(gòu)造信息率密度較高的PPMI矩陣。
本文通過引入改進的MMD度量低維嵌入表示和輸入之間的差異,通過減小該差異優(yōu)化自編碼器學到的低維嵌入表示。編碼器的中間層的潛在低維嵌入表示會保存原始數(shù)據(jù)的重要信息,從而形成兩個不同但相關(guān)的域,即源域(原始數(shù)據(jù)分布)和目標域(編碼器中間的低維嵌入表示分布),即最小化源域和目標域的差異,使目標域的結(jié)果更加準確。MMD就是通過核函數(shù)將一個分布映射到再生希爾伯特空間上,之后度量在再生希爾伯特空間中兩個分布的距離。MMD的損失如下:
其中:sup表示求上界;E表示求期望;(?)表示映射函數(shù),函數(shù)指在再生希爾伯特空間中的范數(shù)應該小于等于1;在本文中指原始數(shù)據(jù),指編碼器產(chǎn)生的低維嵌入表示。MMD的核函數(shù)是高斯核函數(shù):
由于高斯核函數(shù)是非線性的,耗時長,所以本文對它進行改進,運用線性的二次有理核代替高斯核函數(shù)提高運算效率,改進的二次有理核通常具有和高斯核函數(shù)相同的效果,核函數(shù)如下所示:
其中為二次有理核的超參數(shù):較小的會使決策表面更平滑;較高的使結(jié)果更加準確,但可能會過擬合。在實際應用中會取多個值,分別求核函數(shù)后再取和,作為最后的核函數(shù)[26]。
本文通過引入改進的MMD使得兩個域之間的差距越來越小,使編碼器的低維嵌入表示越來越準確。其中,核方法的非線性映射具有面向具體應用問題設計的特性,因此便于集成問題相關(guān)的先驗知識;此外,線性學習器相較于非線性學習器具有更好的過擬合控制,可以更好地保證泛化性能。綜上,選擇MMD有明顯的優(yōu)勢。
在網(wǎng)絡中節(jié)點結(jié)構(gòu)間具有內(nèi)聚的宏觀特性,同類節(jié)點之間距離較近,不同類節(jié)點距離較遠,為了使得本文利用自編碼器學習節(jié)點的低維嵌入表示更加準確地反映這種宏觀特性,優(yōu)化節(jié)點結(jié)構(gòu),需要增強網(wǎng)絡結(jié)構(gòu)中節(jié)點的內(nèi)聚性。本文在編碼過程中引入深度嵌入聚類算法指導監(jiān)督編碼器,深度嵌入聚類作用在深度神經(jīng)網(wǎng)絡形成的低維嵌入表示空間,具體步驟[27]如下。
1)計算由t分布測量的軟標簽分配矩陣。先運用傳統(tǒng)的-means算法求出聚類第個中心,q是以t分布測量的空間中的第個樣本與第個聚類中心的的相似性度量,又稱為軟標簽概率,q真實地反映了節(jié)點的數(shù)據(jù)類分布概率。q組成的矩陣即為∈R,為節(jié)點總數(shù),為數(shù)據(jù)集類目數(shù)目。q的計算公式如下:
3)計算和的KL散度。在求得的軟標簽分配概率矩陣和目標分布概率矩陣后,運用KL散度(Kullback-Leibler Divergence)衡量它們之間的差距。KL散度可以衡量在選擇近似分布時損失的信息量,KL散度值越小,表示和的差距越小,越真實地衡量目標分布。聚類損失的計算公式如下。
量化聚類損失是深度嵌入聚類的核心步驟,將加入統(tǒng)一的損失函數(shù)中訓練深度神經(jīng)網(wǎng)絡,進一步強化監(jiān)督低維嵌入表示的生成。在網(wǎng)絡訓練過程中,通過調(diào)整,使得更好地衡量真實的數(shù)據(jù)分布,更新低維嵌入表示空間的聚類中心和深度神經(jīng)網(wǎng)絡的參數(shù),使得該表示空間每個類中的樣本分布更加密集[28]。
NR-AGS在訓練過程中共考慮3部分損失:自動編碼器重構(gòu)損失、MMD損失和聚類損失。自編碼器用于學習低維嵌入表示,學習到的低維表示可以較好地保留數(shù)據(jù)中的信息;MMD損失可以減小原始數(shù)據(jù)分布和編碼器中間的低維嵌入表示分布之間的差異;聚類損失可以調(diào)整嵌入空間的結(jié)構(gòu)達到聚類效果,有利于學習到的低維嵌入的節(jié)點分布更加清晰,更好地體現(xiàn)網(wǎng)絡中節(jié)點間具有社區(qū)內(nèi)聚的宏觀特性。NR-AGS的整體損失如下:
其中:和分別為深度嵌入聚類損失和MMD損失的權(quán)重。使用深度嵌入聚類損失和改進的MMD損失共同優(yōu)化深度神經(jīng)網(wǎng)絡,可以得到更加準確的低維嵌入表示。算法偽代碼如算法1所示。
算法1 NR-AGS。
輸入 鄰接矩陣、屬性信息矩陣、平衡系數(shù)、Top-值、隨機沖浪迭代步數(shù)、重啟概率、嵌入空間維度、簇中心個數(shù)、迭代次數(shù);
輸出 特征向量矩陣。
1)初始化模型所有權(quán)重矩陣
8) for=1 todo
12) end for
由上面分析可以得出,NR-AGS的時間復雜度主要取決于PPMI矩陣、自編碼器、深度嵌入聚類和改進的MMD,令為低維嵌入維度,則NR-AGS的時間復雜度為(2)。
為了測試NR-AGS的性能,將本文模型與幾種常用的方法在3個真實網(wǎng)絡數(shù)據(jù)集上進行比較,通過本文模型和它的變體學習的低維嵌入表示在下游任務的實驗,驗證本文模型在網(wǎng)絡表示學習方面的有效性。
本文實驗環(huán)境是基于64核、內(nèi)存4 GB的CPU環(huán)境,編程語言為Python3.6,實驗框架為PyTorch1.8.1。
3.1.1數(shù)據(jù)集
本文選取研究網(wǎng)絡表示學習時常用的數(shù)據(jù)集進行實驗,分別是兩個引文網(wǎng)絡數(shù)據(jù)集Cora、Citeseer和一個網(wǎng)頁網(wǎng)絡數(shù)據(jù)集Wiki。
Cora數(shù)據(jù)集包含2 708篇機器學習論文和論文間的5 429篇鏈接,這些鏈接是文檔之間的引用關(guān)系,每個節(jié)點的屬性信息對應每篇論文的一個1 443維向量表示,節(jié)點的標簽按論文研究領域分為7個類別,分別為神經(jīng)網(wǎng)絡、遺傳算法、基于案例、概率方法、強化學習、規(guī)則學習和理論。
Citeseer數(shù)據(jù)集包含3 312篇論文、4 732個鏈接和1 433個屬性,節(jié)點的標簽按論文研究領域分為數(shù)據(jù)庫、機器學習、代理、信息檢索、人工智能和人機交互這6類。
Wiki數(shù)據(jù)集是一個包含2 405個網(wǎng)頁和12 761個鏈接的網(wǎng)頁網(wǎng)絡數(shù)據(jù)集,每個網(wǎng)頁表示一個節(jié)點,節(jié)點之間的邊是連接到其他網(wǎng)頁的超鏈接,每個網(wǎng)頁的文本內(nèi)容作為該網(wǎng)頁的屬性信息。按網(wǎng)頁類別賦予不同的標簽,如藝術(shù)、歷史、科學等,共17類。相較于Cora和Citeseer數(shù)據(jù)集,Wiki數(shù)據(jù)集的節(jié)點數(shù)少、連接多、類別多。具體數(shù)據(jù)信息如表1所示。
表1 網(wǎng)絡數(shù)據(jù)集詳情
3.1.2基準方法
本文運用SVD(Singular Value Decomposition)算法進行只利用網(wǎng)絡中屬性信息的網(wǎng)絡表示學習。與經(jīng)典的網(wǎng)絡表示學習算法對比:1)DeepWalk[7]將網(wǎng)絡嵌入問題轉(zhuǎn)化為一個詞嵌入問題;2)Node2Vec[8]通過增加廣度優(yōu)先和深度優(yōu)先探索不同的節(jié)點鄰域,既考慮了局部信息又考慮了宏觀的信息,具有很高的適應性;3)DNGR[9]首先運用隨機沖浪算法獲取網(wǎng)絡的高維節(jié)點表示,其次使用去噪自編碼器學習節(jié)點的低維表示,但只融合了結(jié)構(gòu)信息。
其他對比的先進網(wǎng)絡表示學習算法:1)TADW[11]是基于矩陣分解形式的DeepWalk算法,并在訓練過程中融合了節(jié)點的屬性信息;2)AANE[17]將屬性信息作為被分解的信息之一,使得學習到的表示結(jié)果能夠保持結(jié)構(gòu)上距離相近和屬性相似的節(jié)點向量表示比較接近;3)ANAE[19]通過從屬性化的局部子圖中聚合屬性信息重建屬性,獲得了節(jié)點上下文信息;4)DFCN[12]利用深度嵌入聚類形成三重監(jiān)督機制,能更有效地融合網(wǎng)絡中的信息,優(yōu)化網(wǎng)絡結(jié)構(gòu);5)dSAFNE(dynamic Structure and vertex Attributes Fusion Network Embedding)[29]通過引入了一種屬性驅(qū)動的拉普拉斯空間優(yōu)化方法收斂結(jié)構(gòu)特征提取和屬性特征提取的過程,使得具有相似屬性但拓撲距離較遠的頂點在嵌入空間中也保持相鄰。
3.1.3實驗參數(shù)設置
由于DNGR也是網(wǎng)絡表示學習模型,同時也可將此模型用于本文實驗的數(shù)據(jù)集(具體情況可見文獻[30]),本文實驗也符合DNGR的環(huán)境,所以結(jié)構(gòu)屬性聯(lián)合轉(zhuǎn)移矩陣時使用的屬性相似性調(diào)整參數(shù)Top-、平衡結(jié)構(gòu)和屬性信息的超參數(shù)、隨機沖浪算法形成共現(xiàn)概率矩陣的重啟概率參數(shù)、隨機沖浪算法每次迭代步數(shù)的參數(shù)設置沿用DNGR模型相同的設置[9]。改進的MMD部分核函數(shù)的超參數(shù),該參數(shù)在實際應用中會取多個值,本文取值集合為{2××0.1,2××0.2,2××0.5,2××1,2××2,2××5,2××10},為自編碼器形成的低維嵌入維度,再分別按照式(13)求出核函數(shù),將所得的核函數(shù)求和,作為最后的核函數(shù)。深度嵌入聚類損失權(quán)重和MMD損失權(quán)重在模型運行中影響的具體分析見3.6節(jié)。
節(jié)點分類是評價網(wǎng)絡表示學習模型的一個重要下游任務,本文在3個數(shù)據(jù)集上先運用本文模型學習低維嵌入表示之后,再進行下游節(jié)點分類的實驗。在節(jié)點分類實驗中抽出一定比率帶標記的節(jié)點嵌入表示,作為訓練集,其余作為測試集,其中訓練集比例分別為10%、30%、50%、70%、90%,做10次實驗,實驗結(jié)果取均值。表2~4中分別為不同模型在3個數(shù)據(jù)集節(jié)點分類任務中的Micro-F1指標的結(jié)果。
從表2~3可以看出,在Cora和Citeseer數(shù)據(jù)集上,在不同比例的訓練集下,NR-AGS均優(yōu)于基準方法;從表4可以看出,在Wiki數(shù)據(jù)集上訓練比例為10%和50%時,NR-AGS的Micro-F1值略差于其他對比基準模型,其余訓練比例的Micro-F1值均優(yōu)于其他對比基準模型。具體地,與DNGR相比,在Cora、Citeseer和Wiki數(shù)據(jù)集上,NR-AGS的Micro-F1分別提升了7.2~8.8、13.5~25.3和8.2~12.1個百分點。
數(shù)據(jù)結(jié)果顯示,由于NR-AGS有效地結(jié)合了節(jié)點結(jié)構(gòu)和屬性信息,使得它們相互補充和制約;聯(lián)合深度嵌入聚類損失共同優(yōu)化網(wǎng)絡,使得不同類別節(jié)點分布更加聚集;引入MMD損失,使得學習到的低維嵌入表示能夠更加接近真實的數(shù)據(jù)。通過以上兩個損失約束使得NR-AGS取得了比其他基準模型在大多數(shù)節(jié)點分類的實驗中更好的效果并且較為穩(wěn)定。由于Wiki數(shù)據(jù)集類別較多,數(shù)據(jù)較復雜,對節(jié)點分類的效果有一定的影響,NR-AGS的學習效果存在個別不穩(wěn)定的情況。
表2 Cora數(shù)據(jù)集上的節(jié)點分類結(jié)果的Micro-F1值
表3 Citeseer數(shù)據(jù)集上的節(jié)點分類結(jié)果Micro-F1值
表4 Wiki數(shù)據(jù)集上的節(jié)點分類結(jié)果的Micro-F1值
本節(jié)運用t-SNE(t-distributed Stochastic Neighbor Embedding)工具[31]可視化Cora和Citeseer數(shù)據(jù)集的下游節(jié)點分類實驗結(jié)果。圖2展示了DeepWalk、TADW、AANE和NR-AGS在Cora數(shù)據(jù)集上的效果,其中,不同顏色的點表示數(shù)據(jù)集的不同類別。Cora數(shù)據(jù)集有7個類別,從圖2可以看出,DeepWalk各個類別的數(shù)據(jù)點界限不清晰,分布較為混亂,而TADW、AANE的每個類別的分布結(jié)果較平均,但是邊界不夠清晰,而NR-AGS能夠清晰地體現(xiàn)每類數(shù)據(jù)的界限,對應結(jié)構(gòu)更緊湊,呈現(xiàn)較好的可視化效果。圖3展現(xiàn)了上述4種模型在Citeseer數(shù)據(jù)集上的可視化效果,Citeseer具有6個類別,從圖3可以看出,DeepWalk、TADW、AANE的圖示中各個類別節(jié)點分布混亂,邊界也不清晰,而NR-AGS呈現(xiàn)出同類節(jié)點明顯聚集的效果。從上述可視化的實驗結(jié)果可以看出,NR-AGS由于引入了深度嵌入聚類與自編碼器形成自監(jiān)督,在學習的過程中優(yōu)化了圖結(jié)構(gòu),使網(wǎng)絡中節(jié)點的聚集性更加顯著,可視化效果優(yōu)于其他基準模型。
圖2 Cora數(shù)據(jù)集的可視化
圖3 Citeseer數(shù)據(jù)集的可視化
為了驗證添加深度嵌入聚類損失和改進的MMD損失的有效性,本節(jié)提出3個NR-AGS的變體模型,進行消融實驗。3個NR-AGS的變體模型分別為:1)NR-AGS-a,表示無深度嵌入聚類損失和MMD損失;2)NR-AGS-ac,表示僅使用深度嵌入聚類損失;3)NR-AGS-am,表示僅使用MMD損失。NR-AGS表示同時使用深度嵌入聚類損失和MMD損失的完全體。分別在3個數(shù)據(jù)集上先運用上述4種模型學習低維嵌入表示之后,進行訓練集比例為50%的節(jié)點分類實驗,Micro-F1、Macro-F1作為評價指標,實驗結(jié)果如表5所示。
從表5可以看出:
1)在Cora和Citeseer數(shù)據(jù)集上,同時使用深度嵌入聚類損失和MMD損失的完全體NR-AGS的Micro-F1、Macro-F1值均優(yōu)于其他3個變體模型,表明了同時使用這兩種約束會提升模型的分類性能。
2)在Wiki數(shù)據(jù)集上的節(jié)點分類實驗中,同時使用深度嵌入聚類損失和MMD損失的完全體NR-AGS的Micro-F1、Macro-F1值低于NR-AGS-ac、NR-AGS-am;這是因為Wiki數(shù)據(jù)集較大,類別數(shù)較多,影響深度嵌入聚類損失和MMD損失共同約束的效果,調(diào)參更加復雜,導致共同約束的節(jié)點分類效果較不穩(wěn)定。
3)NR-AGS-ac、NR-AGS-am和NR-AGS在所有數(shù)據(jù)集上的節(jié)點分類結(jié)果均優(yōu)于NR-AGS-a,表明了單獨使用或同時使用兩個約束均會提升模型的分類性能,結(jié)果驗證了這兩個損失約束的有效性。
表5 NR-AGS及其變體模型的節(jié)點分類結(jié)果
在3個數(shù)據(jù)集上先運用本文模型學習得到低維嵌入表示之后,再進行下游節(jié)點聚類[32]的實驗,評估指標選用標準化互信息(Normalized Mutual Information, NMI)和正確率(ACC),實驗結(jié)果如圖4所示。從圖4中可以得出以下結(jié)論:1)利用節(jié)點結(jié)構(gòu)信息和屬性信息的網(wǎng)絡表示學習模型大部分比只運用節(jié)點結(jié)構(gòu)信息的模型能獲得更好的節(jié)點聚類效果,說明節(jié)點屬性信息能為節(jié)點聚類任務提供有效支持信息;2)相較于其他利用了結(jié)構(gòu)和屬性信息的基準模型,NR-AGS取得了更好或者相當?shù)男Чf明NR-AGS可以獲得更高質(zhì)量的節(jié)點低維嵌入表示,進而有益于節(jié)點聚類任務。
圖4 在3個數(shù)據(jù)集上的節(jié)點聚類結(jié)果
本節(jié)通過實驗分析NR-AGS中自編碼器的低維嵌入表示的維數(shù)、MMD的參數(shù)、深度嵌入聚類損失權(quán)重和MMD損失權(quán)重對下游節(jié)點分類任務性能的影響。當分析一個參數(shù)時,固定其他非分析參數(shù),改變該分析參數(shù)的數(shù)值研究它的影響。
自編碼器生成的低維嵌入表示的維度對模型的學習效果有一定的影響,在3個數(shù)據(jù)集上先運用本文模型學習低維嵌入表示之后,再進行下游節(jié)點分類的實驗。訓練集比例為50%,Micro-F1作為評價指標,分別設置=64、128、192、256、320、324、448、512維,結(jié)果如圖5(a)所示。從圖5(a)可以看出,Micro-F1值逐漸上升,但在256維時,存在較為明顯的拐點,即當?shù)途S嵌入表示的維度高于256維時,節(jié)點分類的效果沒有穩(wěn)步上升,反而有所下降。由實驗結(jié)果可知NR-AGS在=256時性能較好。
MMD的參數(shù)依照DSNs中的經(jīng)驗,較小的會使決策表面更平滑,而較大的使結(jié)果更加準確,但可能過擬合。為了保持穩(wěn)定性,在實際應用中會取多個值,分別求核函數(shù)。本文實驗中以維度的兩倍為基數(shù),以1為中心點,?。?.1,0.2,0.5,1,2,5,10},再另={0.1,0.2,0.5,1,2,5,10}形成多核進行網(wǎng)絡學習,從圖5(b)中可以看出,當取時,實驗結(jié)果比取單個核函數(shù)效果更好。
圖5(c)顯示深度嵌入聚類損失權(quán)重對節(jié)點分類性能的影響,實驗中將它的取值從0.01調(diào)整到10。可以發(fā)現(xiàn),在3個數(shù)據(jù)集上,隨著權(quán)重的增加,NR-AGS的Micro-F1值會發(fā)生變化,說明模型對參數(shù)的敏感性較高。綜合考慮,在深度嵌入聚類損失的權(quán)重取1時,在3個數(shù)據(jù)集上的節(jié)點分類性能都相對較好。
圖5(d)展示了MMD損失權(quán)重對模型節(jié)點分類性能的影響。在10-3至103時,NR-AGS的分類表現(xiàn)都較穩(wěn)定,說明NR-AGS對參數(shù)的敏感性較低。在3個數(shù)據(jù)集上,取值為1時,模型分類效果較好。
圖5 不同參數(shù)對Micro-F1值的影響
為了充分利用網(wǎng)絡中的結(jié)構(gòu)和屬性信息,本文提出基于優(yōu)化圖結(jié)構(gòu)自編碼器的網(wǎng)絡表示學習模型(NR-AGS)。引入PPMI矩陣將結(jié)構(gòu)和屬性信息相融合,得到數(shù)據(jù)的高維嵌入表示,再利用自編碼器學習低維嵌入表示,在學習過程中融合深度嵌入聚類和改進的最大均值差異共同優(yōu)化學習過程。使用NR-AGS學習得到的低維嵌入表示進行下游的節(jié)點分類實驗、可視化實驗和節(jié)點聚類等實驗,實驗結(jié)果驗證了NR-AGS具有較好的網(wǎng)絡表示學習效果。實驗結(jié)果表明使用PPMI矩陣將結(jié)構(gòu)和屬性信息結(jié)合的學習方法能更加高效率地利用網(wǎng)絡的真實信息,在學習過程中融合聚類算法可以更好地使用數(shù)據(jù)分布的內(nèi)聚性優(yōu)化數(shù)據(jù)結(jié)構(gòu),改進的最大均值差異使學習到的低維嵌入表示更加接近真實數(shù)據(jù),通過聯(lián)合優(yōu)化以上3種損失,改善了學習到的低維表示在下游任務上的性能。在未來的研究中,可以將該模型進一步應用于大規(guī)模的網(wǎng)絡數(shù)據(jù),還可以將模型應用于稀疏或缺失數(shù)據(jù)集,進一步改進模型,提高它的學習能力。
[1] 孫金清,周慧,趙中英. 網(wǎng)絡表示學習方法研究綜述[J]. 山東科技 大學學報(自然科學版), 2021, 40(1):117-128.(SUN J Q, ZHOU H, ZHAO Z Y. A survey of network representation learning methods[J]. Journal of Shandong University of Science and Technology (Natural Science), 2021, 40(1): 117-128.)
[2] ZHANG D, YIN J, ZHU X, et al. Network representation learning: a survey[J]. IEEE Transactions on Big Data, 2020, 6(1): 3-28.
[3] WU Z, PAN S, CHEN F, et al. A comprehensive survey on graph neural networks[J]. IEEE Transactions on Neural Networks and Learning Systems, 2021, 32(1): 4-24.
[4] HOU Y, CHEN H, LI C, et al. A representation learning framework for property graphs[C]// Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2019: 65-73.
[5] AHMED N K, ROSSI R A, LEE J B, et al. Role-based graph embeddings[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 34(5): 2401-2415.
[6] 劉昱陽,李龍杰,單娜,等. 融合聚集系數(shù)的鏈接預測方法[J]. 計算機應用, 2020, 40(1): 28-35.(LIU Y Y, LI L J, SHAN N, et al. Link prediction method fusing clustering coefficients[J]. Journal of Computer Applications, 2020, 40(1): 28-35.)
[7] PEROZZI B, AL-RFOU R, SKIENA S. DeepWalk: online learning of social representations[C]// Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2014: 701-710.
[8] GROVER A, LESKOVEC J. node2vec: scalable feature learning for networks[C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2016: 855-864.
[9] CAO S, LU W, XU Q. Deep neural networks for learning graph representations[C]// Proceedings of the 30th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2016: 1145-1152.
[10] FAN S, WANG X, SHI C, et al. One2Multi graph autoencoder for multi-view graph clustering[C]// Proceedings of the Web Conference 2020. Republic and Canton of Geneva: International World Wide Web Conferences Steering Committee, 2020: 3070-3076.
[11] YANG C, LIU Z, ZHAO D, et al. Network representation learning with rich text information[C]// Proceedings of the 24th International Joint Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2015: 2111-2117.
[12] TU W, ZHOU S, LIU X, et al. Deep fusion clustering network[C]// Proceedings of the 35th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2021: 9978-9987.
[13] BEHROUZI T, HATZINAKOS D. Graph variational auto-encoder for deriving EEG-based graph embedding[J]. Pattern Recognition, 2022, 121: No.108202.
[14] TANG J, QU M, WANG M, et al. LINE: large-scale information network embedding[C]// Proceedings of the 24th International Conference on World Wide Web. Republic and Canton of Geneva: International World Wide Web Conferences Steering Committee, 2015:1067-1077.
[15] CAO S, LU W, XU Q. GraRep: learning graph representations with global structural information[C]// Proceedings of the 24th ACM International Conference on Information and Knowledge Management. New York: ACM, 2015: 891-900.
[16] WANG D, CUI P, ZHU W. Structural deep network embedding[C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2016: 1225-1234.
[17] HUANG X, LI J, HU X. Accelerated attributed network embedding[C]// Proceedings of the 2017 SIAM International Conference on Data Mining. Philadelphia, PA: SIAM, 2017:633-641.
[18] ZHU D, CUI P, WANG D, et al. Deep variational network embedding in Wasserstein space[C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2018: 2827-2836.
[19] CEN K, SHEN H, GAO J, et al. ANAE: learning node context representation for attributed network embedding[EB/OL]. (2020-07-06) [2022-07-12]. https://arxiv.org/pdf/1906.08745.pdf.
[20] GUO X, GAO L, LIU X, et al. Improved deep embedded clustering with local structure preservation[C]// Proceedings of the 26th International Joint Conference on Artificial Intelligence. California: ijcai.org, 2017: 1753-1759.
[21] YANG Y. SDCN: a species-disease hybrid convolutional neural network for plant disease recognition[C]// Proceedings of the 2022 International Conference on Artificial Neural Networks, LNCS 13532. Cham: Springer, 2022: 769-780.
[22] LI Y, SWERSKY K, ZEMEL R. Generative moment matching networks[C]// Proceedings of the 32nd International Conference on Machine Learning. New York: JMLR.org, 2015: 1718-1727.
[23] BOUSMALIS K, TRIGEORGIS G, SILBERMAN N, et al. Domain separation networks [C]// Proceedings of the 30th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2016: 343-351.
[24] WANG W, SUN Y, HALGAMUGE S. Improving MMD-GAN training with repulsive loss function[EB/OL] (2019-02-08) [2022-07-12].https://arxiv.org/pdf/1812.09916,pdf.
[25] KINGMA D P, WELLING M. Auto-encoding variational Bayes[EB/OL]. (2014-05-01) [2022-07-12].https://arxiv.org/pdf/1312.6114.pdf.
[26] TZENG E, HOFFMAN J, ZHANG N, et al. Deep domain confusion: maximizing for domain invariance[EB/OL]. (2014-12-10) [2022-07-12].https://arxiv.org/pdf/1412.3474.pdf.
[27] TANG Y, REN F, PEDRYCZ W. Fuzzy C-Means clustering through SSIM and patch for image segmentation[J]. Applied Soft Computing, 2020, 87: No.105928.
[28] 尤坊州,白亮. 關(guān)鍵節(jié)點選擇的快速圖聚類算法[J]. 計算機科學與探索, 2021, 15(10): 1930-1937.(YOU F Z, BAI L. Fast graph clustering algorithm based on selection of key nodes[J]. Journal of Frontiers of Computer Science and Technology, 2021, 15(10): 1930-1937.)
[29] HU S, ZHANG B, LV H, et al. Improving network representation learning via dynamic random walk, self-attention and vertex attributes-driven Laplacian space optimization[J]. Entropy, 2022, 24(9): No.1213.
[30] 張蕾,錢峰,趙姝,等. 利用變分自編碼器進行網(wǎng)絡表示學習[J]. 計算機科學與探索, 2019, 13(10):1733-1744.(ZHANG L, QIAN F, ZHAO S, et al. Network representation learning via variational auto-encoder[J]. Journal of Frontiers of Computer Science and Technology, 2019, 13(10):1733-1744.)
[31] WANG Y, SONG Z, ZHANG R, et al. An overview of t-SNE optimization algorithms[J]. International Core Journal of Engineering, 2021, 7(2): 422-432.
[32] LI X, KAO B, REN Z, et al. Spectral clustering in heterogeneous information networks[C]// Proceedings of the 33rd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2019: 4221-4228.
Network representation learning based on autoencoder with optimized graph structure
FU Kun*, HAO Yuhan, SUN Minglei, LIU Yinghua
(,,300401,)
The aim of Network Representation Learning (NRL) is to learn the potential and low-dimensional representation of network vertices, and the obtained representation is applied for downstream network analysis tasks. The existing NRL algorithms using autoencoder extract information about node attributes insufficiently and are easy to generate information bias, which affects the learning effect. Aiming at these problems, a Network Representation learning model based on Autoencoder with optimized Graph Structure (NR-AGS) was proposed to improve the accuracy by optimizing the graph structure. Firstly, the structure and attribute information were fused to generate the joint transition matrix, thereby forming the high-dimensional representation. Secondly, the low-dimensional embedded representation was learnt by an autoencoder. Finally, the deep embedded clustering algorithm was introduced during learning to form a self-supervision mechanism in the processes of autoencoder training and the category distribution division of nodes. At the same time, the improved Maximum Mean Discrepancy (MMD) algorithm was used to reduce the gap between distribution of the learnt low-dimensional embedded representation and distribution of the original data. Besides, in the proposed model, the reconstruction loss of the autoencoder, the deep embedded clustering loss and the improved MMD loss were used to optimize the network jointly. NR-AGS was applied to the learning of three real datasets, and the obtained low-dimensional representation was used for downstream tasks such as node classification and node clustering. Experimental results show that compared with the deep graph representation model DNGR (Deep Neural networks for Graph Representations), NR-AGS improves the Micro-F1 score by 7.2, 13.5 and 8.2 percentage points at least and respectively on Cora, Citeseer and Wiki datasets. It can be seen that NR-AGS can improve the learning effect of NRL effectively.
Network Representation Learning (NRL); attribute information; autoencoder; deep embedded clustering; Maximum Mean Discrepancy (MMD)
This work is partially supported by National Natural Science Foundation of China (62072154).
FU Kun, born in 1979, Ph. D., associate professor. Her research interests include social network analysis, network representation learning.
HAO Yuhan, born in 1997, M. S. candidate. Her research interests include network representation learning.
SUN Minglei, born in 1992, M. S. candidate. His research interests include network representation learning.
LIU Yinghua, born in 1996, M. S. candidate. His research interests include social network analysis.
1001-9081(2023)10-3054-08
10.11772/j.issn.1001-9081.2022101494
2022?10?12;
2023?02?10;
國家自然科學基金資助項目(62072154)。
富坤(1979—),女,遼寧遼陽人,副教授,博士,主要研究方向:社會網(wǎng)絡分析、網(wǎng)絡表示學習; 郝玉涵(1997—),女,河北張家口人,碩士研究生,主要研究方向:網(wǎng)絡表示學習; 孫明磊(1992—),男,河北承德人,碩士研究生,主要研究方向:網(wǎng)絡表示學習; 劉贏華(1996—),男,河北邯鄲人,碩士研究生,主要研究方向:社會網(wǎng)絡分析。
TP391
A
2023?02?15。