• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      結(jié)構(gòu)增強(qiáng)的屬性網(wǎng)絡(luò)表示學(xué)習(xí)

      2021-09-26 10:43:36張維玉翁自強(qiáng)夏忠秀
      關(guān)鍵詞:編碼器向量自動(dòng)

      竇 偉,張維玉,翁自強(qiáng),夏忠秀

      齊魯工業(yè)大學(xué)(山東省科學(xué)院)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,濟(jì)南250353

      在萬(wàn)物互聯(lián)的信息時(shí)代,網(wǎng)絡(luò)[1]作為日常生活中描述實(shí)體之間聯(lián)系的重要數(shù)據(jù)形式,其表示學(xué)習(xí)的研究也受到廣泛關(guān)注。網(wǎng)絡(luò)表示學(xué)習(xí)旨在為網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)學(xué)習(xí)低維、稠密、實(shí)值的向量表示,從而解決諸如鄰接矩陣等傳統(tǒng)網(wǎng)絡(luò)表示面臨的高維、稀疏等問(wèn)題[2]。通過(guò)網(wǎng)絡(luò)表示學(xué)習(xí)得到的低維向量具有一定的推理能力,可以直接應(yīng)用現(xiàn)有的機(jī)器學(xué)習(xí)算法進(jìn)行多種網(wǎng)絡(luò)分析任務(wù)來(lái)挖掘網(wǎng)絡(luò)數(shù)據(jù)中的潛在信息,例如節(jié)點(diǎn)分類(lèi)[3]、鏈路預(yù)測(cè)[4]、社區(qū)發(fā)現(xiàn)[5]等。

      早期的網(wǎng)絡(luò)表示學(xué)習(xí)主要基于網(wǎng)絡(luò)關(guān)系矩陣的計(jì)算,通過(guò)對(duì)關(guān)系矩陣進(jìn)行特征值分解或者奇異值分解從而降低原矩陣的維度得到節(jié)點(diǎn)低維表示,關(guān)系矩陣是指網(wǎng)絡(luò)的鄰接矩陣或者拉普拉斯矩陣[6]。LLE[7]假設(shè)網(wǎng)絡(luò)中節(jié)點(diǎn)的表示是其鄰居節(jié)點(diǎn)表示的線性組合。Laplace eigenmap[8]假設(shè)網(wǎng)絡(luò)中相連的節(jié)點(diǎn)其表示也應(yīng)該相近,并將距離定義為兩個(gè)向量的歐氏距離。由于此類(lèi)方法計(jì)算復(fù)雜度高,所以難以應(yīng)用于大規(guī)模的網(wǎng)絡(luò)分析,并且沒(méi)有結(jié)合屬性信息。近幾年人工神經(jīng)網(wǎng)絡(luò)技術(shù)蓬勃發(fā)展,一些基于神經(jīng)網(wǎng)絡(luò)的表示學(xué)習(xí)方法相繼被提出。DeepWalk[9]的提出掀起了網(wǎng)絡(luò)表示學(xué)習(xí)的研究熱潮,它在網(wǎng)絡(luò)中實(shí)施截?cái)嚯S機(jī)游走生成含有鄰接信息的節(jié)點(diǎn)序列,然后使用Word2Vec中的skip-gram[10]模型學(xué)習(xí)網(wǎng)絡(luò)表示。LINE[11]定義了網(wǎng)絡(luò)中節(jié)點(diǎn)的一階和二階的相似性,并設(shè)計(jì)和優(yōu)化了兩個(gè)目標(biāo)函數(shù)保存節(jié)點(diǎn)的相似性。Node2Vec[12]則拓展了DeepWalk隨機(jī)游走的方式,結(jié)合深度優(yōu)先搜索和廣度優(yōu)先搜索進(jìn)一步探索網(wǎng)絡(luò)的結(jié)構(gòu)信息。SDNE[13]將深度學(xué)習(xí)技術(shù)應(yīng)用到網(wǎng)絡(luò)表示學(xué)習(xí)中,SDNE結(jié)合深度自動(dòng)編碼器和拉普拉斯映射保留網(wǎng)絡(luò)結(jié)構(gòu)一階和二階的相似性。然而上述網(wǎng)絡(luò)表示學(xué)習(xí)方法都集中于普通網(wǎng)絡(luò)的表示學(xué)習(xí),忽略了節(jié)點(diǎn)豐富的屬性信息。隨著網(wǎng)絡(luò)中信息的多元化,網(wǎng)絡(luò)中的節(jié)點(diǎn)通常包含有豐富的屬性,例如常用的社交軟件微信、微博,用戶(hù)在注冊(cè)的時(shí)候通常都會(huì)填寫(xiě)個(gè)人基本資料(地址、工作單位等);學(xué)術(shù)論文的引用網(wǎng)絡(luò),除了論文之間互相的引用關(guān)系,每篇論文都會(huì)有所屬的期刊/會(huì)議,研究主題等,這類(lèi)具有節(jié)點(diǎn)屬性信息的網(wǎng)絡(luò)稱(chēng)之為屬性網(wǎng)絡(luò)。

      現(xiàn)實(shí)生活中大部分網(wǎng)絡(luò)都可以建模為屬性網(wǎng)絡(luò),所以最近屬性網(wǎng)絡(luò)的表示學(xué)習(xí)引起學(xué)者廣泛研究。TADW[14]證明DeepWalk等價(jià)于矩陣分解,在此基礎(chǔ)之上,TADW對(duì)鄰接矩陣進(jìn)行分解的同時(shí)使用文本表示矩陣進(jìn)行約束,得到刻畫(huà)結(jié)構(gòu)信息和屬性信息的網(wǎng)絡(luò)表示。TriDNR[15]耦合了DeepWalk和Doc2Vec[16]兩個(gè)模型,將結(jié)構(gòu)、屬性和標(biāo)簽考慮其中。FeatWalk[17]和Gat2Vec[18]的想法類(lèi)似,都是在設(shè)計(jì)了一個(gè)兼容屬性和結(jié)構(gòu)的隨機(jī)游走方法,后采用淺層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)網(wǎng)絡(luò)表示。GraphRNA[19]則在一種屬性隨機(jī)游走的基礎(chǔ)之上設(shè)計(jì)了一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)框架來(lái)學(xué)習(xí)網(wǎng)絡(luò)表示。自動(dòng)編碼器是無(wú)監(jiān)督深度學(xué)習(xí)的結(jié)構(gòu),廣泛應(yīng)用于各種無(wú)監(jiān)督學(xué)習(xí)的任務(wù)。DANE[20]使用兩個(gè)深度自動(dòng)編碼器通過(guò)一致性和互補(bǔ)性約束保留結(jié)構(gòu)信息和屬性信息。MVC-DNE[21]也使用兩個(gè)深度自動(dòng)編碼器,以多視圖學(xué)習(xí)的視角學(xué)習(xí)結(jié)構(gòu)和屬性的網(wǎng)絡(luò)表示。VGAE[22]將圖變分自動(dòng)編碼器遷移到屬性網(wǎng)絡(luò)表示學(xué)習(xí)領(lǐng)域。ARNL[23]結(jié)合自動(dòng)編碼器和skip-gram模型共同學(xué)屬性和結(jié)構(gòu)的表示并取得了良好的性能。

      ANRL使用輸入和輸出不同的自動(dòng)編碼器,將節(jié)點(diǎn)自身屬性信息作為自動(dòng)編碼器的輸入,重構(gòu)鄰居的屬性信息。ANRL一定程度結(jié)合了結(jié)構(gòu)信息和屬性信息,但是如果自身的屬性信息與鄰居的屬性信息差別較大,即中心節(jié)點(diǎn)雖然與鄰居節(jié)點(diǎn)相連,但是它們的屬性信息有較大的差異時(shí),則輸入與輸出差別較大自動(dòng)編碼器在重構(gòu)過(guò)程中會(huì)丟失大量信息,從而影響到最終的表示。GCN[24]是譜圖卷積的一階近似,使得處理圖像的卷積操作能夠簡(jiǎn)單地被用到網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)中來(lái),但是GCN是半監(jiān)督的模型,需要依賴(lài)節(jié)點(diǎn)的標(biāo)簽信息,真實(shí)的網(wǎng)絡(luò)數(shù)據(jù)的便簽是極為稀疏的,并且GCN只是節(jié)點(diǎn)分類(lèi)的模型,沒(méi)有拓展到另一個(gè)網(wǎng)絡(luò)分析任務(wù)鏈路預(yù)測(cè)上。這里受GCN聚合思想的啟發(fā),結(jié)合ANRL的框架結(jié)構(gòu),本文提出一種結(jié)構(gòu)增強(qiáng)的屬性網(wǎng)絡(luò)表示學(xué)習(xí)方法SANRL(Structure-enhanced Attributed Network Representation Learning)。SANRL在表示學(xué)習(xí)前期就將結(jié)構(gòu)信息與屬性信息無(wú)縫融合,增強(qiáng)了網(wǎng)絡(luò)中節(jié)點(diǎn)屬性信息的結(jié)構(gòu)特征,并使用自動(dòng)編碼器無(wú)監(jiān)督地提取節(jié)點(diǎn)特征,結(jié)合skip-gram模型并通過(guò)聯(lián)合優(yōu)化框架將結(jié)構(gòu)信息和屬性信息映射到同一向量空間完成網(wǎng)絡(luò)表示學(xué)習(xí)。

      1 相關(guān)定義

      為了更好地對(duì)提出的方法進(jìn)行闡述,本章對(duì)文中出現(xiàn)的字母和符號(hào)進(jìn)行定義和描述。

      定義1屬性網(wǎng)絡(luò)。用G=(V,ε,A,Z)表示屬性網(wǎng)絡(luò),其中V表示網(wǎng)絡(luò)中所包含節(jié)點(diǎn)的集合;ε表示節(jié)點(diǎn)之間邊的集合;A∈Rn×n是描述網(wǎng)絡(luò)全局連接關(guān)系的鄰接矩陣,是n×n的方陣,n表示網(wǎng)絡(luò)中節(jié)點(diǎn)的個(gè)數(shù);Z∈?n×m是描述節(jié)點(diǎn)屬性信息的屬性矩陣,同樣的,n表示節(jié)點(diǎn)的個(gè)數(shù),m是屬性矩陣的維數(shù)。Ai表示鄰接矩陣A的第i行,是節(jié)點(diǎn)i鄰接信息的體現(xiàn)。Aij表示A的第i行第j列的元素,如果Aij=1表示節(jié)點(diǎn)i和節(jié)點(diǎn)j之間有邊相連,否則Aij=0。Zi表示屬性矩陣Z的第i行,是節(jié)點(diǎn)i的屬性信息,如果Zix>0則表示節(jié)點(diǎn)i與屬性x相關(guān)聯(lián)。

      定義2屬性網(wǎng)絡(luò)表示學(xué)習(xí)。屬性網(wǎng)絡(luò)表示學(xué)習(xí)的目標(biāo)就在給定屬性網(wǎng)絡(luò)G=(V,ε,A,Z)的情況下,學(xué)習(xí)一個(gè)映射函數(shù)f:V?Rd,將網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)映射到d維的向量空間中,其中d?n。映射函數(shù)f不僅要保留節(jié)點(diǎn)的結(jié)構(gòu)信息,還要保留節(jié)點(diǎn)的屬性信息。學(xué)習(xí)到的網(wǎng)絡(luò)表示向量可以當(dāng)作特征向量作為后續(xù)網(wǎng)絡(luò)分析任務(wù)(例如節(jié)點(diǎn)分類(lèi)、鏈路預(yù)測(cè))的輸入。

      2 結(jié)構(gòu)增強(qiáng)的屬性網(wǎng)絡(luò)表示學(xué)習(xí)

      SANRL使用統(tǒng)一的框架對(duì)網(wǎng)絡(luò)的結(jié)構(gòu)信息和節(jié)點(diǎn)的屬性信息進(jìn)行表示學(xué)習(xí),在前期對(duì)節(jié)點(diǎn)的屬性信息進(jìn)行鄰接性的增強(qiáng),旨在更好地融合兩方信息學(xué)習(xí)最優(yōu)網(wǎng)絡(luò)表示,SANRL的框架流程如圖1所示。本章將對(duì)SANRL進(jìn)行詳細(xì)介紹。

      圖1 SANRL模型框架Fig.1 Model framework of SANRL

      2.1 全局結(jié)構(gòu)信息和屬性信息的學(xué)習(xí)

      網(wǎng)絡(luò)的結(jié)構(gòu)信息和節(jié)點(diǎn)的屬性信息屬于異構(gòu)信息,分開(kāi)進(jìn)行表示學(xué)習(xí)后將向量進(jìn)行拼接也可以起到結(jié)合的作用,但是簡(jiǎn)單的拼接操作不足以描述節(jié)點(diǎn)的結(jié)構(gòu)和屬性之間的復(fù)雜關(guān)系。這里受GCN的啟發(fā),通過(guò)反映全局結(jié)構(gòu)信息的鄰接矩陣和節(jié)點(diǎn)屬性信息的屬性矩陣,對(duì)節(jié)點(diǎn)鄰居的屬性進(jìn)行聚合操作,并且保留節(jié)點(diǎn)自身的屬性,具體的,數(shù)學(xué)上表示如式(1)所示:

      A的每一行Ai表示了當(dāng)前節(jié)點(diǎn)i的一階鄰接關(guān)系,與節(jié)點(diǎn)i直接相連的節(jié)點(diǎn)在Ai的對(duì)應(yīng)位置為1,其余位置為0。當(dāng)鄰接矩陣A與屬性矩陣Z進(jìn)行乘積時(shí),即節(jié)點(diǎn)i鄰居的屬性在所有維度的加和。因節(jié)點(diǎn)自身屬性也很重要,所以在A的基礎(chǔ)之上加一個(gè)單位矩陣In得到A?,如此在A?與Z相乘后,節(jié)點(diǎn)自身的屬性也被考慮進(jìn)去。再與自身的度矩陣相乘后得到的新的矩陣M,實(shí)際上是節(jié)點(diǎn)自身屬性和鄰居屬性的加權(quán)平均。相比于普通屬性矩陣Z,M包含了自身和鄰居屬性信息,是網(wǎng)絡(luò)結(jié)構(gòu)信息和屬性信息的融合。

      得到聚合有自身屬性與鄰接屬性的矩陣M不是最終目標(biāo),而是對(duì)其降維并保留其中的全局結(jié)構(gòu)信息和屬性信息。為了發(fā)揮深度學(xué)習(xí)自動(dòng)提取特征的優(yōu)勢(shì),本文采用無(wú)監(jiān)督的學(xué)習(xí)結(jié)構(gòu)—自動(dòng)編碼器進(jìn)行表示學(xué)習(xí)。自動(dòng)編碼器是進(jìn)行表示學(xué)習(xí)典型的深度學(xué)習(xí)模型,它的思路很簡(jiǎn)單:將輸入數(shù)據(jù)通過(guò)編碼器映射到某個(gè)特征空間,再通過(guò)解碼器將編碼器壓縮后的特征空間映射回輸入空間,對(duì)輸入數(shù)據(jù)進(jìn)行重構(gòu),這樣神經(jīng)網(wǎng)絡(luò)的中間層就保存了輸入數(shù)據(jù)的特征達(dá)到降維效果。對(duì)應(yīng)本文的任務(wù),將增強(qiáng)結(jié)構(gòu)信息的屬性聚合矩陣M作為自動(dòng)編碼器的輸入,數(shù)據(jù)經(jīng)過(guò)編碼部分被映射到一個(gè)低維的向量空間中,然后在解碼部分對(duì)輸入的數(shù)據(jù)進(jìn)行重構(gòu),“強(qiáng)迫”隱含層盡可能多地將輸入數(shù)據(jù)即結(jié)合有全局結(jié)構(gòu)信息和屬性信息的聚合矩陣M的特征保存下來(lái)。因此,自動(dòng)編碼器每一層的隱含表示如下:

      其中,L表示自動(dòng)編碼器的層數(shù);σ(?)是每層網(wǎng)絡(luò)的激活函數(shù),例如Tanh、ReLU等;W(l)和b(l)分別是神經(jīng)網(wǎng)絡(luò)第l層的權(quán)重矩陣和偏置。自動(dòng)編碼器不需要額外的監(jiān)督信息,它通過(guò)不斷最小化輸入和輸出之間的重構(gòu)誤差進(jìn)行訓(xùn)練,對(duì)應(yīng)于文本的任務(wù)是最小化重構(gòu)聚合矩陣M的損失,定義為:

      2.2 局部結(jié)構(gòu)信息的學(xué)習(xí)

      在上一節(jié)中將網(wǎng)絡(luò)的全局結(jié)構(gòu)信息和屬性信息可以通過(guò)自動(dòng)編碼器合成到低維向量空間中,但是局部的結(jié)構(gòu)信息需要進(jìn)一步加強(qiáng)。skip-gram模型已被廣泛應(yīng)用于網(wǎng)絡(luò)結(jié)構(gòu)的表示學(xué)習(xí)?;趕kip-gram模型網(wǎng)絡(luò)表示學(xué)習(xí)的基本假設(shè)是如果網(wǎng)絡(luò)中的節(jié)點(diǎn)擁有相同或者相似上下文節(jié)點(diǎn)其網(wǎng)絡(luò)表示應(yīng)該相近,所以它的基本思想是通過(guò)網(wǎng)絡(luò)中節(jié)點(diǎn)之間的共現(xiàn)關(guān)系學(xué)習(xí)節(jié)點(diǎn)的向量表示。應(yīng)用于本文,將自動(dòng)編碼器提取到的結(jié)合有全局結(jié)構(gòu)信息和屬性信息的低維表示通過(guò)skip-gram模型使在網(wǎng)絡(luò)中具有共現(xiàn)關(guān)系的節(jié)點(diǎn)的表示向量更加相似。skip-gram模型對(duì)局部窗口內(nèi)的節(jié)點(diǎn)對(duì)進(jìn)行概率建模,并最小化公式(7)所表示的對(duì)數(shù)似然概率:

      其中,Ci={vi-w,…,vi+w}指的是隨機(jī)游走序列中心節(jié)點(diǎn)vi以w為窗口的上下文,條件概率Pr(vj|Mi)是指中心節(jié)點(diǎn)vi在結(jié)合全局結(jié)構(gòu)信息和屬性信息后與上下文節(jié)點(diǎn)共現(xiàn)的可能性,將其定義為:

      f(Mi)是中心節(jié)點(diǎn)vi的全局結(jié)構(gòu)信息和屬性信息經(jīng)過(guò)自動(dòng)編碼器得到的低維表示,vj是節(jié)點(diǎn)vi上下文的低維表示。注意到公式(8)的分母部分,每一次迭代都需要遍歷網(wǎng)絡(luò)中所有的節(jié)點(diǎn)來(lái)完成計(jì)算,對(duì)于規(guī)模大一些的網(wǎng)絡(luò)這個(gè)計(jì)算是相當(dāng)昂貴的。為了降低龐大的計(jì)算量并且保持結(jié)果的有效性,參考文獻(xiàn)[23,27],本文采用Word2Vec[10]提出的負(fù)采樣策略,根據(jù)噪聲分布采樣一定數(shù)量的負(fù)樣本簡(jiǎn)化訓(xùn)練目標(biāo):

      通過(guò)最小化Ls,則有相同的上下文的節(jié)點(diǎn)的網(wǎng)絡(luò)表示在向量空間中距離更近,數(shù)據(jù)及其鄰居在輸入空間中的鄰接關(guān)系在特征空間中仍然保留下來(lái),使網(wǎng)絡(luò)表示的局部結(jié)構(gòu)性得到加強(qiáng)。

      2.3 聯(lián)合優(yōu)化

      前兩節(jié)介紹了如何通過(guò)自動(dòng)編碼器和skip-gram模型捕捉網(wǎng)絡(luò)的全局、局部結(jié)構(gòu)信息和屬性信息,因?yàn)楸疚牡娜蝿?wù)是將結(jié)構(gòu)信息和屬性信息在同一個(gè)向量空間進(jìn)行融合表示,所以結(jié)合在公式(6)和公式(10)定義的損失函數(shù)La和Ls,得到SANRL最終的損失函數(shù):

      本文使用隨機(jī)梯度下降來(lái)對(duì)L進(jìn)行優(yōu)化直至模型收斂,優(yōu)化學(xué)習(xí)過(guò)程在算法1中展示,其中第7行和第9行是對(duì)SANRL中參數(shù)進(jìn)行更新的過(guò)程。最后通過(guò)優(yōu)化這個(gè)聯(lián)合損失,SANRL將網(wǎng)絡(luò)結(jié)構(gòu)信息、節(jié)點(diǎn)屬性信息無(wú)縫的嵌入到同一表示空間中,學(xué)習(xí)最優(yōu)網(wǎng)絡(luò)表示。

      算法1SANRL的聯(lián)合優(yōu)化框架

      2.4 算法復(fù)雜度分析

      首先,聚合矩陣的計(jì)算復(fù)雜度為O(||ε),因?yàn)锳?Z能夠被高效地以稀疏矩陣和稠密矩陣相乘的形式實(shí)現(xiàn)。其次SANRL以mini-batch的方式訓(xùn)練神經(jīng)網(wǎng)絡(luò),其計(jì)算復(fù)雜度與mini-batch的樣本數(shù)和迭代次數(shù)相關(guān),所以SANRL是可拓展的。

      3 實(shí)驗(yàn)與結(jié)果分析

      為了驗(yàn)證所提出的屬性網(wǎng)絡(luò)表示學(xué)習(xí)方法SANRL的有效性,本文在三個(gè)公開(kāi)的真實(shí)的屬性網(wǎng)絡(luò)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。本章介紹了實(shí)驗(yàn)所使用的數(shù)據(jù)集以及對(duì)比方法,通過(guò)節(jié)點(diǎn)分類(lèi)和鏈路預(yù)測(cè)對(duì)SANRL進(jìn)行評(píng)估。

      3.1 數(shù)據(jù)集及對(duì)比方法介紹

      本文使用的數(shù)據(jù)集是三個(gè)真實(shí)公開(kāi)屬性網(wǎng)絡(luò)數(shù)據(jù)集:Cora(https://snap.stanford.edu/data.)、Citeseer和Pubmed(https://linqs.soe.ucsc.edu/data.),它們的大致情況如表1所示。鏈接表示論文的引用關(guān)系,屬性是對(duì)應(yīng)論文的詞帶模型表示。

      表1 三個(gè)真實(shí)數(shù)據(jù)集的統(tǒng)計(jì)信息Table 1 Statistics of three real-world datasets

      為了評(píng)估本文提出的SANRL的性能,本文將其與7個(gè)具有代表性的網(wǎng)絡(luò)表示學(xué)習(xí)方法進(jìn)行對(duì)比驗(yàn)證,其中包括3個(gè)普通網(wǎng)絡(luò)表示學(xué)習(xí)方法和4個(gè)屬性網(wǎng)絡(luò)表示學(xué)習(xí)方法。

      (1)DeepWalk[9]在網(wǎng)絡(luò)中進(jìn)行隨機(jī)游走得到若干節(jié)點(diǎn)序列,將它們送入skip-gram模型中學(xué)習(xí)網(wǎng)絡(luò)表示。

      (2)Node2Vec[12]使用偏置隨機(jī)游走結(jié)合深度優(yōu)先搜索和廣度優(yōu)先搜索來(lái)捕捉網(wǎng)絡(luò)結(jié)構(gòu)信息生成節(jié)點(diǎn)序列,并通過(guò)skip-gram模型完成網(wǎng)絡(luò)中所有節(jié)點(diǎn)的表示學(xué)習(xí)。

      (3)SDNE[13]結(jié)合深度自動(dòng)編碼器和拉普拉斯映射同時(shí)學(xué)習(xí)網(wǎng)絡(luò)的一階和二階結(jié)構(gòu)信息。

      (4)TriDNR[15]耦合skip-gram和Doc2Vec同時(shí)學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)、節(jié)點(diǎn)屬性和節(jié)點(diǎn)的標(biāo)簽信息,可以看作是一個(gè)半監(jiān)督的方法。

      (5)VGAE[22]是一個(gè)基于圖卷積神經(jīng)網(wǎng)絡(luò)的變分自動(dòng)編碼器模型,同時(shí)學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)信息和屬性信息。

      (6)ANRL[23]通過(guò)輸入和輸出不同的自動(dòng)編碼器和skip-gram模型學(xué)習(xí)屬性網(wǎng)絡(luò)中的節(jié)點(diǎn)表示。這里使用它性能最好的一個(gè)方法:ANRL-WAN。

      (7)DANE[20]通過(guò)兩個(gè)自動(dòng)編碼器分別建模結(jié)構(gòu)和屬性信息,設(shè)置約束條件在兩種信息之間保持一致性和互補(bǔ)性。

      前三個(gè)對(duì)比方法是普通網(wǎng)絡(luò)的表示學(xué)習(xí),后四個(gè)是屬性網(wǎng)絡(luò)表示學(xué)習(xí)方法。本文對(duì)比方法的代碼都是作者提供,并且參數(shù)也是按照作者在報(bào)告中所指出的進(jìn)行設(shè)定。為了公平起見(jiàn),最后學(xué)習(xí)的網(wǎng)絡(luò)表示的維度d都設(shè)定為128。對(duì)于SANRL,將上下文窗口的大小w設(shè)置為10,每個(gè)節(jié)點(diǎn)隨機(jī)游走的次數(shù)r設(shè)置為10,隨機(jī)游走的長(zhǎng)度l設(shè)置為80,負(fù)采樣的數(shù)量設(shè)置為5。SANRL中自動(dòng)編碼器的結(jié)構(gòu)如表2所示。

      表2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Table 2 Neural network structures

      本文實(shí)驗(yàn)采用Python3.6版本,基于Tensorflow1.15.2實(shí)現(xiàn),在Intel Core i7-7700,16.00 GB內(nèi)存的操作系統(tǒng)為Windows 10(64位)計(jì)算機(jī)上運(yùn)行。

      3.2 節(jié)點(diǎn)分類(lèi)任務(wù)實(shí)驗(yàn)結(jié)果分析

      在本節(jié)中進(jìn)行常用的網(wǎng)絡(luò)分析任務(wù):節(jié)點(diǎn)分類(lèi)來(lái)評(píng)價(jià)SANRL的性能。具體的,首先使用SANRL以及其他對(duì)比方法對(duì)所給網(wǎng)絡(luò)進(jìn)行表示學(xué)習(xí),然后隨機(jī)選取30%的節(jié)點(diǎn)的表示向量作為節(jié)點(diǎn)特征以及對(duì)應(yīng)的標(biāo)簽作為訓(xùn)練集來(lái)訓(xùn)練SVM分類(lèi)器,剩余節(jié)點(diǎn)作為測(cè)試集,最后計(jì)算Macro-F1和Micro-F1值作為測(cè)試結(jié)果。此過(guò)程重復(fù)10次取平均值作為最后節(jié)點(diǎn)分類(lèi)的結(jié)果。

      所有數(shù)據(jù)集的節(jié)點(diǎn)分類(lèi)的結(jié)果如表3所示,最優(yōu)值以粗體突出顯示。從表中可以觀察出:本文提出的結(jié)構(gòu)增強(qiáng)的屬性網(wǎng)絡(luò)表示學(xué)習(xí)方法SANRL在Cora、Citeseer和Pubmed數(shù)據(jù)集上均表現(xiàn)出了最佳的性能。在只考慮鏈接的網(wǎng)絡(luò)表示學(xué)習(xí)方法中,Node2Vec相比較其他兩個(gè)同類(lèi)方法表現(xiàn)出較好的性能,但是融合了屬性信息的SANRL在三個(gè)數(shù)據(jù)集中Macro-F1和Micro-F1相比于Node2Vec高出0.065到0.185不等。這表明節(jié)點(diǎn)屬性在網(wǎng)絡(luò)表示學(xué)習(xí)中的重要性,融合屬性信息可以很大程度上提高網(wǎng)絡(luò)表示學(xué)習(xí)方法的性能。

      表3 三個(gè)數(shù)據(jù)集的節(jié)點(diǎn)分類(lèi)結(jié)果Table 3 Node classification results of three datasets

      其中在Cora數(shù)據(jù)集的實(shí)驗(yàn)中,相比較ANRL,Macro-F1值高出約0.077,Micro-F1值也高出約0.085。這說(shuō)明SANRL在將自身屬性與鄰居屬性聚合后,相比于ANRL輸入和輸出端不同的自動(dòng)編碼器更容易捕捉到節(jié)點(diǎn)之間復(fù)雜的非線性的關(guān)系,更完整地保留數(shù)據(jù)中的信息,對(duì)最終表示產(chǎn)生積極影響。

      綜合表3的實(shí)驗(yàn)結(jié)果和上述分析,表明SANRL在節(jié)點(diǎn)分類(lèi)任務(wù)中性能最優(yōu),能夠更加準(zhǔn)確地預(yù)測(cè)網(wǎng)絡(luò)中未知節(jié)點(diǎn)的標(biāo)簽,從而更加有效地從原始屬性網(wǎng)絡(luò)中提取更多信息。

      3.3 鏈接預(yù)測(cè)任務(wù)實(shí)驗(yàn)結(jié)果分析

      鏈接預(yù)測(cè)也是網(wǎng)絡(luò)分析中一項(xiàng)非常重要的任務(wù)。本文使用三個(gè)數(shù)據(jù)集的鏈路預(yù)測(cè)任務(wù)來(lái)評(píng)測(cè)SANRL的表示學(xué)習(xí)的能力。鏈接預(yù)測(cè)的目的是預(yù)測(cè)網(wǎng)絡(luò)中缺失的鏈接,或者預(yù)測(cè)在未來(lái)可能出現(xiàn)的鏈接,常用于一些推薦任務(wù)。具體的,首先從網(wǎng)絡(luò)中移除10%已有的鏈接,移除鏈接的節(jié)點(diǎn)成為正樣本,然后隨機(jī)采樣相同數(shù)量沒(méi)有鏈接的節(jié)點(diǎn)作為負(fù)樣本,正樣本和負(fù)樣本構(gòu)成測(cè)試集?;谑S嗟木W(wǎng)絡(luò)使用對(duì)比方法和SANRL進(jìn)行網(wǎng)絡(luò)表示學(xué)習(xí)。給定測(cè)試集中的節(jié)點(diǎn)對(duì),根據(jù)學(xué)得的網(wǎng)絡(luò)表示學(xué)習(xí)向量計(jì)算余弦相似度得分,采用AUC值作為評(píng)價(jià)預(yù)測(cè)結(jié)果的指標(biāo)。圖2展示了在三個(gè)數(shù)據(jù)集上鏈接預(yù)測(cè)任務(wù)的表現(xiàn)。

      圖2 三個(gè)數(shù)據(jù)集的鏈接預(yù)測(cè)結(jié)果Fig.2 Linkprediction results of three datasets

      從柱狀圖可以看出本文提出的SANRL表現(xiàn)出最佳性能,其中在三個(gè)數(shù)據(jù)集中SANRL的AUC值高出前三個(gè)普通網(wǎng)絡(luò)表示學(xué)習(xí)0.09~0.15不等。結(jié)果再次印證只考慮結(jié)構(gòu)信息的網(wǎng)絡(luò)表示學(xué)習(xí)方法的性能有限,將節(jié)點(diǎn)屬性信息考慮其中進(jìn)行表示學(xué)習(xí)得到的網(wǎng)絡(luò)表示向量質(zhì)量的提高是可觀的,很大程度上彌補(bǔ)了因鏈接稀疏給網(wǎng)絡(luò)表示學(xué)習(xí)造成的阻礙。

      SANRL在三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果也均高于其他屬性網(wǎng)絡(luò)表示學(xué)習(xí)方法方法,其中在Pubmed數(shù)據(jù)集上SANRL的實(shí)驗(yàn)結(jié)果的ACU值高出使用兩個(gè)自動(dòng)編碼器的屬性網(wǎng)絡(luò)表示學(xué)習(xí)方法DANE約0.07。SANRL僅使用一個(gè)自動(dòng)編碼器學(xué)習(xí)網(wǎng)絡(luò)表示結(jié)果優(yōu)于兩個(gè)自動(dòng)編碼器的方法,一個(gè)重要原因就是網(wǎng)絡(luò)的結(jié)構(gòu)信息和屬性信息在進(jìn)行表示學(xué)習(xí)時(shí)是密不可分的,若分開(kāi)建模對(duì)最終表示影響很大。SANRL在表示學(xué)習(xí)前期就將屬性信息進(jìn)行結(jié)構(gòu)信息的增強(qiáng),從而融合的特征在經(jīng)過(guò)提取之后更大程度地保留了節(jié)點(diǎn)在網(wǎng)絡(luò)中的所包含的信息,使得學(xué)習(xí)得到的表示向量對(duì)節(jié)點(diǎn)相似度的判斷更加準(zhǔn)確。

      綜合圖2以及上述分析,使用SANRL進(jìn)行表示學(xué)習(xí),其得到的網(wǎng)絡(luò)表示對(duì)網(wǎng)絡(luò)中丟失或者隱含的鏈接地預(yù)測(cè)更加精準(zhǔn)。

      4 結(jié)束語(yǔ)

      本文提出一種鄰居增強(qiáng)的屬性網(wǎng)絡(luò)表示學(xué)習(xí)方法SANRL,該方法可以有效結(jié)合網(wǎng)絡(luò)的結(jié)構(gòu)信息和節(jié)點(diǎn)的屬性信息學(xué)習(xí)質(zhì)量更高的網(wǎng)絡(luò)表示。在網(wǎng)絡(luò)表示學(xué)習(xí)初期,SANRL首先通過(guò)聚合操作使節(jié)點(diǎn)的屬性信息得到結(jié)構(gòu)方面的增強(qiáng),有效避免因結(jié)構(gòu)信息和屬性信息的異構(gòu)性給網(wǎng)絡(luò)表示學(xué)習(xí)帶來(lái)的阻礙。SANRL使用自動(dòng)編碼器無(wú)監(jiān)督地對(duì)結(jié)構(gòu)增強(qiáng)的屬性信息進(jìn)行特征提取,然后通過(guò)skip-gram模型最大化局部窗口內(nèi)節(jié)點(diǎn)對(duì)的似然概率,增強(qiáng)網(wǎng)絡(luò)局部的鄰接關(guān)系使原網(wǎng)絡(luò)中距離相近節(jié)點(diǎn)的表示向量更加相似。最后SANRL通過(guò)一個(gè)聯(lián)合損失函數(shù)使結(jié)構(gòu)和屬性信息得以在同一向量空間獲得最佳表示。在多個(gè)真實(shí)的網(wǎng)絡(luò)進(jìn)行大量的實(shí)驗(yàn),SANRL的表現(xiàn)均優(yōu)于目前流行的網(wǎng)絡(luò)表示學(xué)習(xí)方法,證明了SANRL學(xué)習(xí)得到的網(wǎng)絡(luò)表示質(zhì)量更高。

      異質(zhì)信息網(wǎng)絡(luò)由多種類(lèi)型的節(jié)點(diǎn)和鏈接構(gòu)成,在現(xiàn)實(shí)生活中也比較常見(jiàn),而異質(zhì)信息網(wǎng)絡(luò)中節(jié)點(diǎn)的異質(zhì)性給未來(lái)網(wǎng)絡(luò)表示學(xué)習(xí)帶來(lái)更大挑戰(zhàn)。如何在保持結(jié)構(gòu)增強(qiáng)的屬性信息基礎(chǔ)之上將節(jié)點(diǎn)的異質(zhì)性考慮在內(nèi),設(shè)計(jì)出適合異構(gòu)信息網(wǎng)絡(luò)的表示學(xué)習(xí)方法將成為下一步的研究目標(biāo)。

      猜你喜歡
      編碼器向量自動(dòng)
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      自動(dòng)捕盜機(jī)
      基于FPGA的同步機(jī)軸角編碼器
      基于STM32的自動(dòng)喂養(yǎng)機(jī)控制系統(tǒng)
      基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
      關(guān)于自動(dòng)駕駛
      向量垂直在解析幾何中的應(yīng)用
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
      電子器件(2015年5期)2015-12-29 08:42:24
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      淅川县| 绥中县| 海林市| 金寨县| 平昌县| 临桂县| 五台县| 浦东新区| 永康市| 新疆| 安岳县| 长寿区| 易门县| 丘北县| 武夷山市| 永昌县| 留坝县| 当雄县| 万州区| 景宁| 马关县| 姜堰市| 磐石市| 清河县| 遂宁市| 正阳县| 绥宁县| 肥城市| 赣州市| 巍山| 海南省| 安仁县| 青岛市| 英吉沙县| 广州市| 长汀县| 泽库县| 微山县| 博兴县| 元江| 睢宁县|