張靜 李文斌 張志敏
摘要:GEMSEC(graph embedding with self clustering)在計(jì)算節(jié)點(diǎn)特征的同時(shí)學(xué)習(xí)節(jié)點(diǎn)聚類,通過(guò)強(qiáng)制將節(jié)點(diǎn)進(jìn)行聚類來(lái)揭露網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu),但未考慮類別標(biāo)簽信息,導(dǎo)致學(xué)到的節(jié)點(diǎn)嵌入缺乏區(qū)分性。針對(duì)這一問(wèn)題,提出了一種基于半監(jiān)督聚類的網(wǎng)絡(luò)嵌入方法(NESSC),將隨機(jī)游走序列和少量節(jié)點(diǎn)類別標(biāo)簽作為輸入,在計(jì)算節(jié)點(diǎn)特征和學(xué)習(xí)節(jié)點(diǎn)k-means聚類的過(guò)程中,利用類別標(biāo)簽信息指導(dǎo)聚類過(guò)程,同時(shí)重構(gòu)已知節(jié)點(diǎn)類別標(biāo)簽信息,學(xué)習(xí)具有區(qū)分性的節(jié)點(diǎn)表示。在6個(gè)真實(shí)網(wǎng)絡(luò)上進(jìn)行節(jié)點(diǎn)聚類和節(jié)點(diǎn)分類評(píng)測(cè)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果顯示,NESSC方法明顯優(yōu)于無(wú)監(jiān)督網(wǎng)絡(luò)嵌入方法DeepWalk和GEMSEC,可以通過(guò)加入節(jié)點(diǎn)的標(biāo)簽信息來(lái)提高網(wǎng)絡(luò)嵌入的效果。因此,通過(guò)網(wǎng)絡(luò)節(jié)點(diǎn)的嵌入,可以高效地提取網(wǎng)絡(luò)的有用信息,對(duì)于相關(guān)網(wǎng)絡(luò)嵌入研究具有一定的參考價(jià)值。
關(guān)鍵詞:人工智能其他學(xué)科;網(wǎng)絡(luò)嵌入;聚類;半監(jiān)督;區(qū)分性
中圖分類號(hào):TP181文獻(xiàn)標(biāo)志碼:Adoi: 10.7535/hbgykj.2019yx04004
Abstract:GEMSEC(craph embedding with self clustering) learns a clustering of the nodes simultaneously with computing their features, and reveals the natural community structure in the network by enforcing nodes to be clustered. However, it fails to consider label information, which leads to the lack of discrimination of learned node embedding. To solve this problem, a network embedding method based on semi-supervised clustering(NESSC) is proposed, which takes the random walk sequence and a small amount labels of nodes as input, and the label information is used to guide the clustering process in the process of learning node features and node clustering learning, and the known node label information is reconstructed to learn the discriminative node representation. Finally, an experimental evaluation of node classification is performed, using six real-world datasets. The results demonstrate that NESSC is obviously superior to unsupervised network embedding methods DeepWalk and GEMSEC, which indicates that the effect of network embedding can be improved by adding the label information of nodes. This method can extract useful internet information effectively by embedding of network nodes, which provides reference for the study of network embedding methods.
Keywords:other disciplines of artificial intelligence; network embedding; clustering; semi-supervised; discrimination
現(xiàn)實(shí)世界中的復(fù)雜系統(tǒng)通常都可以建模為網(wǎng)絡(luò),如社交網(wǎng)絡(luò)、生物網(wǎng)絡(luò)、引文網(wǎng)絡(luò)等,其中數(shù)據(jù)樣本對(duì)應(yīng)于網(wǎng)絡(luò)的節(jié)點(diǎn),數(shù)據(jù)樣本之間的關(guān)聯(lián)對(duì)應(yīng)于網(wǎng)絡(luò)的邊。對(duì)這些網(wǎng)絡(luò)的分析在許多新興應(yīng)用中發(fā)揮著重要的作用[1],如在社交網(wǎng)絡(luò)中,將用戶劃分為有意義的社交群體對(duì)于用戶搜索、定向廣告和推薦等許多重要任務(wù)都是有用的;在生物網(wǎng)絡(luò)中,推斷蛋白質(zhì)之間的相互作用可以促進(jìn)形成疾病治療的新方法。但由于高維度和數(shù)據(jù)稀疏等問(wèn)題,使得傳統(tǒng)的基于鄰接矩陣的網(wǎng)絡(luò)表示形式很難在大數(shù)據(jù)環(huán)境下推廣。因此,尋找網(wǎng)絡(luò)節(jié)點(diǎn)的有效低維向量表示,高效提取網(wǎng)絡(luò)的有用信息,具有重要的學(xué)術(shù)意義和廣泛的應(yīng)用價(jià)值[2]。
網(wǎng)絡(luò)嵌入[3-5]通過(guò)保留網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)等信息,將復(fù)雜網(wǎng)絡(luò)中的節(jié)點(diǎn)嵌入到低維、連續(xù)的向量空間,使得具有相似結(jié)構(gòu)的節(jié)點(diǎn)在向量空間中有相近的向量表示。網(wǎng)絡(luò)嵌入通過(guò)優(yōu)化算法自動(dòng)得到網(wǎng)絡(luò)節(jié)點(diǎn)表示,可以有效降低復(fù)雜度,方便進(jìn)行分布式并行計(jì)算,同時(shí)還可以直接應(yīng)用前沿的機(jī)器學(xué)習(xí)算法對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行高效分析與處理。
1相關(guān)工作
傳統(tǒng)的網(wǎng)絡(luò)嵌入方法是基于矩陣特征向量計(jì)算的,例如,局部線性表示(locally linear embedding,LLE)[6]和拉普拉斯特征映射(Laplacian eigenmaps,LE)[7]。該類方法依賴于關(guān)聯(lián)矩陣的定義和構(gòu)建,需要對(duì)關(guān)聯(lián)矩陣進(jìn)行特征值計(jì)算,時(shí)間、空間復(fù)雜度較高,不適用于大規(guī)模網(wǎng)絡(luò)的嵌入學(xué)習(xí)。
近年來(lái),基于神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)嵌入技術(shù)逐漸引起學(xué)術(shù)界的關(guān)注。受神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型Word2vec[8]的啟發(fā),PEROZZI等[9]提出了DeepWalk方法,將在復(fù)雜網(wǎng)絡(luò)中隨機(jī)游走得到的節(jié)點(diǎn)序列看作是文本中的句子,將序列中的節(jié)點(diǎn)看作是文本中的單詞,通過(guò)Skip-Gram模型得到網(wǎng)絡(luò)節(jié)點(diǎn)嵌入表示。由于隨機(jī)游走序列只依賴于局部信息,使得DeepWalk模型計(jì)算時(shí)間、空間消耗較小。之后,Node2vec[10]對(duì)DeepWalk的隨機(jī)游走策略做出了改進(jìn),引入深度優(yōu)先搜索和寬度優(yōu)先搜索來(lái)捕獲節(jié)點(diǎn)的結(jié)構(gòu)對(duì)等性和同質(zhì)性特點(diǎn),因此可以得到更高質(zhì)量的嵌入表示。LINE[11]通過(guò)對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)的一階相似性和二階相似性建模優(yōu)化,來(lái)捕獲網(wǎng)絡(luò)的一階和二階鄰近特征。為了獲取節(jié)點(diǎn)的高階特征表示,GraRep[12]在LINE基礎(chǔ)上進(jìn)行更高階相似性關(guān)系的建模。
保持網(wǎng)絡(luò)結(jié)構(gòu)是網(wǎng)絡(luò)嵌入的基本要求,以上方法只考慮網(wǎng)絡(luò)的局部結(jié)構(gòu),如節(jié)點(diǎn)的一階和二階相似性,忽略了全局結(jié)構(gòu)。MNMF[13]將社區(qū)結(jié)構(gòu)納入到網(wǎng)絡(luò)嵌入中,然后在統(tǒng)一的框架中共同優(yōu)化基于NMF的嵌入表示學(xué)習(xí)模型和基于模塊的社區(qū)檢測(cè)模型,從而使學(xué)到的節(jié)點(diǎn)表示能夠同時(shí)保持網(wǎng)絡(luò)的微觀結(jié)構(gòu)和社區(qū)結(jié)構(gòu)。但該方法是基于矩陣分解的,復(fù)雜度較高,不能處理大規(guī)模網(wǎng)絡(luò)。GEMSEC[14]將聚類約束引入節(jié)點(diǎn)嵌入優(yōu)化目標(biāo),在學(xué)習(xí)節(jié)點(diǎn)特征的同時(shí),對(duì)節(jié)點(diǎn)進(jìn)行k-means聚類,用聚類的結(jié)果來(lái)影響節(jié)點(diǎn)嵌入的學(xué)習(xí),使得到的節(jié)點(diǎn)嵌入表示能夠保持網(wǎng)絡(luò)的潛在聚類結(jié)構(gòu)。同時(shí),由于該方法是基于序列的網(wǎng)絡(luò)嵌入模型,運(yùn)行時(shí)間復(fù)雜度在節(jié)點(diǎn)數(shù)上是線性的。但以上網(wǎng)絡(luò)嵌入方法都是無(wú)監(jiān)督的,學(xué)到的特征缺少區(qū)分性,導(dǎo)致在某些特定任務(wù)上效果不好。
網(wǎng)絡(luò)中除了網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息,還有著豐富的伴隨信息,如節(jié)點(diǎn)的類別標(biāo)簽信息。引入節(jié)點(diǎn)的類別標(biāo)簽信息可以增強(qiáng)學(xué)到嵌入表示的區(qū)分性。CHEN等[15]提出一種融合群內(nèi)部結(jié)構(gòu)和跨群信息的網(wǎng)絡(luò)嵌入訓(xùn)練模型GENE, 通過(guò)在游走序列中添加包含節(jié)點(diǎn)標(biāo)簽信息的標(biāo)簽節(jié)點(diǎn), 實(shí)現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)信息與標(biāo)簽信息的融合。TU等[16]提出基于最大間隔的DeepWalk模型MMDW(max-margin DeepWalk),將節(jié)點(diǎn)的類別標(biāo)簽信息融入到節(jié)點(diǎn)嵌入向量中,學(xué)習(xí)有區(qū)分性的節(jié)點(diǎn)嵌入表示。
本文從融合網(wǎng)絡(luò)結(jié)構(gòu)與節(jié)點(diǎn)標(biāo)簽類別信息出發(fā),提出了一種基于半監(jiān)督聚類的網(wǎng)絡(luò)嵌入方法NESSC,該方法首先受GEMSEC的啟發(fā),在計(jì)算節(jié)點(diǎn)嵌入特征的同時(shí)對(duì)節(jié)點(diǎn)進(jìn)行k-means聚類,使學(xué)到的節(jié)點(diǎn)嵌入能更好地保持網(wǎng)絡(luò)的潛在聚類結(jié)構(gòu),但在聚類的過(guò)程中加入了類別標(biāo)簽信息,利用少量已知節(jié)點(diǎn)的類別標(biāo)簽指導(dǎo)節(jié)點(diǎn)聚類過(guò)程;其次,為了更加充分地利用已知節(jié)點(diǎn)的類別標(biāo)簽信息,將最小化已知節(jié)點(diǎn)所屬類別損失加入到節(jié)點(diǎn)嵌入優(yōu)化的目標(biāo)中,學(xué)習(xí)最優(yōu)化的嵌入表示。
2基于半監(jiān)督聚類的網(wǎng)絡(luò)嵌入方法
2.1定義
為更好地描述所提出的模型及其具體算法,首先給出以下相關(guān)符號(hào)及其含義,如表1所示。
定義1網(wǎng)絡(luò)嵌入:又稱網(wǎng)絡(luò)表示學(xué)習(xí),給定一個(gè)網(wǎng)絡(luò)G=(V,E),通過(guò)學(xué)習(xí)一個(gè)映射函數(shù)f: v→f(v)∈Rd,將網(wǎng)絡(luò)結(jié)構(gòu)嵌入到低維向量空間,其中d|V|。映射函數(shù)f保留了網(wǎng)絡(luò)G的結(jié)構(gòu)信息,使得具有相似結(jié)構(gòu)的節(jié)點(diǎn)具有相近的向量表示。
定義2半監(jiān)督網(wǎng)絡(luò)嵌入:給定一個(gè)含有少量節(jié)點(diǎn)類別標(biāo)簽L的網(wǎng)絡(luò)G=(V,E,L),通過(guò)整合給定少量節(jié)點(diǎn)標(biāo)簽與網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)來(lái)學(xué)習(xí)網(wǎng)絡(luò)節(jié)點(diǎn)的嵌入表示。
2.2模型描述
筆者提出的基于半監(jiān)督聚類的網(wǎng)絡(luò)嵌入方法NESSC,以DeepWalk模型為基礎(chǔ),最大化觀察源節(jié)點(diǎn)與其上下文鄰居節(jié)點(diǎn)共現(xiàn)的概率,保留網(wǎng)絡(luò)的鄰近結(jié)構(gòu)特征;其次,添加k-means聚類損失強(qiáng)制節(jié)點(diǎn)嵌入表示進(jìn)行聚類,同時(shí)利用已知節(jié)點(diǎn)的類別標(biāo)簽對(duì)節(jié)點(diǎn)聚類過(guò)程進(jìn)行指導(dǎo),保持網(wǎng)絡(luò)的全局潛在聚類結(jié)構(gòu);最后,添加重構(gòu)已知節(jié)點(diǎn)類別標(biāo)簽信息損失,聯(lián)合訓(xùn)練優(yōu)化,學(xué)習(xí)具有辨別性的嵌入表示。
首先基于頂點(diǎn)個(gè)數(shù)、類別個(gè)數(shù)和嵌入維度初始化模型參數(shù)。之后,進(jìn)行N次迭代,每次迭代中,先對(duì)節(jié)點(diǎn)集進(jìn)行重新洗牌,再逐點(diǎn)遍歷打亂后的節(jié)點(diǎn)集,采樣節(jié)點(diǎn)序列,并根據(jù)窗口w提取鄰居節(jié)點(diǎn)集合,更新聚類平衡參數(shù)和學(xué)習(xí)率,最后使用隨機(jī)梯度Adam算法更新節(jié)點(diǎn)和類中心的嵌入向量。在針對(duì)每個(gè)節(jié)點(diǎn)的計(jì)算過(guò)程中,采用負(fù)采樣來(lái)降低復(fù)雜度,計(jì)算次數(shù)從|V|次減少為m次。遍歷整個(gè)節(jié)點(diǎn)集合,計(jì)算次數(shù)為(1+m+k)·w·len,迭代N次,整體計(jì)算復(fù)雜度為O((1+m+k)·w·len·|V|·N)。由于m,k,w,len,N|V|,所以NESSC方法時(shí)間復(fù)雜度為O(|V|),可以應(yīng)用于大規(guī)模網(wǎng)絡(luò)嵌入學(xué)習(xí)任務(wù)中。
3實(shí)驗(yàn)結(jié)果分析
為了充分說(shuō)明NESSC方法的有效性,在真實(shí)數(shù)據(jù)集Citeseer,Cora及WebKB上進(jìn)行節(jié)點(diǎn)聚類和節(jié)點(diǎn)分類2個(gè)任務(wù),并將得到的結(jié)果與DeepWalk,GEMSEC算法進(jìn)行比較。
3.1實(shí)驗(yàn)設(shè)定
3.1.1數(shù)據(jù)集
在數(shù)據(jù)集Citeseer,Cora及WebKB進(jìn)行評(píng)測(cè)任務(wù),其中WebKB包括Cornell,Texas,Washington和Wisconsin等4個(gè)子數(shù)據(jù)集。各個(gè)數(shù)據(jù)集去掉孤立點(diǎn)之后,統(tǒng)計(jì)信息如表3所示。
3.1.2實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)定
實(shí)驗(yàn)硬件環(huán)境采用聯(lián)想臺(tái)式機(jī),操作系統(tǒng)為Windows7,處理器為 Intel Core i7-3770,內(nèi)存為 8 GB,硬盤(pán)為500 GB,軟件環(huán)境采用 Python3.6。
考慮算法比較的公平性,共同參數(shù)設(shè)置為嵌入維度d=64,負(fù)采樣個(gè)數(shù)m=5,窗口大小w=5,初始學(xué)習(xí)率ηinit=0.01,最小學(xué)習(xí)率ηmin=0.001。為了取得最優(yōu)的節(jié)點(diǎn)嵌入向量,針對(duì)各數(shù)據(jù)集的參數(shù)設(shè)定如表4所示。針對(duì)半監(jiān)督的網(wǎng)絡(luò)嵌入方法NESSC,設(shè)置已知類別標(biāo)簽節(jié)點(diǎn)的比例為0.05, 01, 0.15, 0.2, 0.25, 0.3,選取方式為隨機(jī)選取。
3.2聚類結(jié)果及分析
將NESSC學(xué)到的嵌入向量用于節(jié)點(diǎn)的聚類任務(wù),以此來(lái)評(píng)估學(xué)到嵌入向量的質(zhì)量。本實(shí)驗(yàn)采用k-means聚類,采用標(biāo)準(zhǔn)互信息NMI[18]評(píng)估,進(jìn)行獨(dú)立重復(fù)實(shí)驗(yàn)10次,取其平均值作為最終結(jié)果。表5記錄了無(wú)監(jiān)督方法DeepWalk,GEMSEC和半監(jiān)督方法NESSC在Citeseer,Cora及WebKB數(shù)據(jù)集上的聚類NMI值,其中NESSC-0.05表示采用NESSC方法對(duì)已知類別標(biāo)簽節(jié)點(diǎn)為5%的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),以此類推。
從表5聚類結(jié)果可以看出:1)GEMSEC效果優(yōu)于DeepWalk,在Citeseer數(shù)據(jù)集上表現(xiàn)更為明顯,NMI值提高4.52%,這說(shuō)明了強(qiáng)制節(jié)點(diǎn)嵌入表示進(jìn)行聚類,可以揭示網(wǎng)絡(luò)社區(qū)結(jié)構(gòu),使學(xué)到的節(jié)點(diǎn)嵌入表示保持網(wǎng)絡(luò)的潛在聚類結(jié)構(gòu);2)NESSC處理效果明顯優(yōu)于GEMSEC和DeepWalk,這是因?yàn)镚EMSEC和DeepWalk屬于無(wú)監(jiān)督的算法,雖然計(jì)算簡(jiǎn)單,但準(zhǔn)確率低。而NESSC充分利用已知節(jié)點(diǎn)的標(biāo)簽信息實(shí)現(xiàn)半監(jiān)督的嵌入表示,因此性能更優(yōu),而且隨著已知類別標(biāo)簽節(jié)點(diǎn)的增加,得到的效果更好。在實(shí)際應(yīng)用中,可以通過(guò)加入少量節(jié)點(diǎn)標(biāo)簽信息的代價(jià)來(lái)獲得網(wǎng)絡(luò)嵌入算法性能的較大提升。
3.3分類結(jié)果及分析
首先利用NESSC方法得到節(jié)點(diǎn)的嵌入表示,然后作為節(jié)點(diǎn)分類任務(wù)的輸入,用分類任務(wù)的效果來(lái)評(píng)價(jià)學(xué)到嵌入表示的質(zhì)量。分類采用KNN[19],評(píng)估方法采用準(zhǔn)確率Accuracy,數(shù)據(jù)集分割方法采用10折交叉驗(yàn)證[19],同時(shí)為了減弱隨機(jī)性,獨(dú)立重復(fù)進(jìn)行10次實(shí)驗(yàn),取其平均值作為最終結(jié)果。表6記錄了無(wú)監(jiān)督方法DeepWalk,GEMSEC和半監(jiān)督方法NESSC在Citeseer,Cora及WebKB數(shù)據(jù)集上的分類準(zhǔn)確率值。
由表6可以看出:1)在數(shù)據(jù)集Cora,Citeseer,Texas和Wisconsin上,GEMSEC效果略優(yōu)于DeepWalk,這表明在計(jì)算節(jié)點(diǎn)嵌入特征的過(guò)程中強(qiáng)制節(jié)點(diǎn)嵌入表示進(jìn)行k-means聚類,學(xué)習(xí)網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu),對(duì)節(jié)點(diǎn)嵌入向量的學(xué)習(xí)產(chǎn)生一定的積極影響;2)NESSC處理效果明顯優(yōu)于GEMSEC和DeepWalk,而且隨著已知類別標(biāo)簽節(jié)點(diǎn)的增加,得到的效果更好,這在數(shù)據(jù)集Texas和Washington上表現(xiàn)尤為明顯。這表明少量節(jié)點(diǎn)類別標(biāo)簽信息的加入可以明顯提升節(jié)點(diǎn)嵌入表示的質(zhì)量。NESSC充分利用少量節(jié)點(diǎn)的類別標(biāo)簽信息實(shí)現(xiàn)半監(jiān)督的網(wǎng)絡(luò)嵌入,學(xué)習(xí)具有區(qū)分性的嵌入表示,性能更優(yōu),但仍然存在一定的錯(cuò)誤率,這是因?yàn)镹ESSC屬于半監(jiān)督模型,加入已知標(biāo)簽的節(jié)點(diǎn)較少,但隨著已知標(biāo)簽節(jié)點(diǎn)的比例增大,NESSC會(huì)取得更好的結(jié)果。
3.4參數(shù)敏感性分析
基于半監(jiān)督聚類的網(wǎng)絡(luò)嵌入方法NESSC含有2個(gè)主要參數(shù):聚類損失平衡參數(shù)γ和重構(gòu)已知節(jié)點(diǎn)類別標(biāo)簽信息平衡參數(shù)β。選擇數(shù)據(jù)集Citeseer和Cornell,已知類別標(biāo)簽節(jié)點(diǎn)的比例是20%,用Accuracy進(jìn)行分析它們的分類準(zhǔn)確率。首先,分別對(duì)γ和β進(jìn)行大范圍搜索,發(fā)現(xiàn)γ取值范圍為{0.000 1,0.001,0.01,0.1,1},β取值范圍為(0,2]時(shí),NESSC方法性能較好。然后對(duì)γ和β的詳細(xì)取值作具體分析,結(jié)果如圖1和圖2所示。
圖1是改變?chǔ)贸跏贾祵?duì)算法結(jié)果的影響。當(dāng)γ值為0時(shí),不考慮聚類結(jié)果對(duì)節(jié)點(diǎn)嵌入計(jì)算的影響。隨著γ值的增大,數(shù)據(jù)集Citeseer和Cornell的分類準(zhǔn)確率逐漸提高,說(shuō)明聚類過(guò)程的加入對(duì)計(jì)算節(jié)點(diǎn)嵌入有積極的影響。當(dāng)γ值為0.01時(shí),分類準(zhǔn)確率最高。之后,又隨著γ值的增大,分類準(zhǔn)確率逐漸降低,這說(shuō)明聚類結(jié)果的過(guò)多加入會(huì)影響節(jié)點(diǎn)特征的學(xué)習(xí),從而導(dǎo)致學(xué)到的嵌入表示質(zhì)量不佳。由此,在數(shù)據(jù)集Citeseer和Cornell的實(shí)驗(yàn)仿真中設(shè)置γ初始值為0.01。
圖2是改變?chǔ)轮祵?duì)算法結(jié)果的影響。當(dāng)β值為0時(shí),不考慮重構(gòu)已知節(jié)點(diǎn)類別標(biāo)簽信息對(duì)節(jié)點(diǎn)嵌入計(jì)算的影響,此時(shí)學(xué)到的節(jié)點(diǎn)嵌入表示缺乏區(qū)分性。隨著β值的增大,數(shù)據(jù)集Citeseer和Cornell的分類準(zhǔn)確率逐漸提高,說(shuō)明重構(gòu)已知節(jié)點(diǎn)類別標(biāo)簽信息可以積極地影響節(jié)點(diǎn)嵌入的計(jì)算。對(duì)數(shù)據(jù)集Citeseer而言,當(dāng)β值為1.8時(shí),分類準(zhǔn)確率最高,之后,又隨著β值的增大,分類準(zhǔn)確率逐漸降低;對(duì)數(shù)據(jù)集Cornell而言,當(dāng)β值為1時(shí),分類準(zhǔn)確率最高,之后,隨著β值的增大,分類準(zhǔn)確率逐漸降低。這說(shuō)明可以適當(dāng)運(yùn)用重構(gòu)已知節(jié)點(diǎn)類別標(biāo)簽信息結(jié)果來(lái)提升節(jié)點(diǎn)嵌入表示的質(zhì)量。因此,在數(shù)據(jù)集Citeseer和Cornell的實(shí)驗(yàn)仿真中,分別設(shè)置β值為1.8和1。
4結(jié)語(yǔ)
筆者提出的基于半監(jiān)督聚類的網(wǎng)絡(luò)嵌入方法NESSC,首先在計(jì)算節(jié)點(diǎn)嵌入特征的過(guò)程中強(qiáng)制節(jié)點(diǎn)進(jìn)行k-means聚類,同時(shí)利用已知節(jié)點(diǎn)類別標(biāo)簽信息來(lái)指導(dǎo)其聚類過(guò)程,以此來(lái)保持網(wǎng)絡(luò)的潛在社區(qū)結(jié)構(gòu)。其次,通過(guò)重構(gòu)已知節(jié)點(diǎn)類別標(biāo)簽信息來(lái)學(xué)習(xí)具有區(qū)分性的嵌入表示。在數(shù)據(jù)集Citeseer,Cora及WebKB上聚類和分類實(shí)驗(yàn)結(jié)果說(shuō)明,NESSC融入節(jié)點(diǎn)類別標(biāo)簽信息提高了網(wǎng)絡(luò)嵌入的質(zhì)量。
現(xiàn)實(shí)網(wǎng)絡(luò)中節(jié)點(diǎn)不僅包含復(fù)雜的拓?fù)浣Y(jié)構(gòu)信息,還擁有豐富的屬性信息。下一步工作中,將在本文的基礎(chǔ)上融入節(jié)點(diǎn)屬性信息,進(jìn)一步提高網(wǎng)絡(luò)嵌入的質(zhì)量。另外,異構(gòu)信息網(wǎng)絡(luò)因?yàn)榘煌愋偷墓?jié)點(diǎn)和邊,可以更加完整自然地對(duì)現(xiàn)實(shí)世界的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行建模,后續(xù)也將對(duì)此展開(kāi)深入探究。
參考文獻(xiàn)/References:
[1]GOYAL P, FERRARA E.Graph embedding techniques, applications, and performance: A survey[J]. Knowledge Based Systems, 2018,151:78-94.
[2]齊金山, 梁循,李志宇, 等. 大規(guī)模復(fù)雜信息網(wǎng)絡(luò)表示學(xué)習(xí): 概念、方法與挑戰(zhàn)[J]. 計(jì)算機(jī)學(xué)報(bào),2018,41(10):2394-2420.
QI Jinshan, LIANG Xun, LI Zhiyu,et al. Representation learning of large-scale complex information network:Concepts,methods and challenges[J]. Chinese Journal of Computers, 2018,41(10):2394- 2420.
[3]HAMILTON W L, YING R, LESKOVEC J. Representation learning on graphs: Methods and applications[J]. IEEE Data Engineering Bulletin, 2017: 1709.05584.
[4]ZHANG Daokun, YIN Jie, ZHU Xingquan, et al. Network representation learning: A survey[J]. IEEE Transactions on Big Data, 2018:2850013.
[5]涂存超,楊成,劉知遠(yuǎn),等. 網(wǎng)絡(luò)表示學(xué)習(xí)綜述[J]. 中國(guó)科學(xué):信息科學(xué),2017,47(8):980-996.
TU Cunchao,YANG Cheng,LIU Zhiyuan, et al. Network representation learning: An overview[J].Scientia Sinica (Informationis),2017,47(8): 980-996.
[6]WANG J. Locally linear embedding[C]// Geometric Structure of High-Dimensional Data and Dimensionality Reduction. Heidelberg:[s.n.], 2012:203-220.
[7]BELKIN M, NIYOGI P. Laplacian eigenmaps and spectral techniques for embedding and clustering[J]. Advances in Neural Information Processing Systems,2002,14(6):585-591.
[8]LE Q, MIKOLOV T. Distributed representations of sentences and documents[C]//Proceedings of the 31th International Conference on Machine Learning.Beijing:[s.n.],2014:1188-1196.
[9]PEROZZI B, Al-RFOU R, SKIENA S. DeepWalk: Online learning of social representation[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. NewYork: ACM, 2014:701-710.
[10]GROVER A, LESKOVEC J. Node2vec: Scalable feature learning for networks[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. NewYork: ACM, 2016:855-864.
[11]TANG Jian, QU Meng, WANG Mingzhe, et al. Line:Large-scale information network embedding[C]//Proceedings of the 24th International Conference on World Wide Web.Florence:[s.n.], 2015: 1067-1077.
[12]CAO Shaosheng, LU Wei, XU Qiongkai. GraRep: Learning graph representations with global structural information[C]//Proceedings of the 24th ACM International on Conference on Information and Knowledge Management.New York:ACM, 2015:891-900.
[13]WANG Xiao, CUI Peng, WANG Jing, et al. Community preserving network embedding[C]//The 31st ?AAAI Conference on Aritificial Intelligence. [S.l.]:[s.n.],2017:1-7.
[14]ROZEMBERCZKI B, DAVIES R, SARKAR R, et al. GEMSEC: Graph embedding with self clustering[J]. Computer Science, 2018: arXiv:1802.03997.
[15]CHEN Jifan, ZHANG Qi, HUANG Xuanjing. Incorporate group information to enhance network embedding[C]//Proceedings of the 25th ACM International on Conference on Information and Knowledge Management. New York:ACM, 2016:1901-1904.
[16]TU Cunchao, ZHANG Weicheng, LIU Zhiyuan, et al.Max-margin deepwalk: Discriminative learning of network representation[C]// Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence. NewYork:[s.n.], 2016: 3889-3895.
[17]KINGMA D P, BA J. Adam: A method for stochastic optimization[J]. Computer Science, 2014: eprint arXiv:1412.6980.
[18]STREHL A, GHOSH J. Cluster ensembles: A knowledege reuse framework for combining multiple partitions[J]. Journal of Machine Learning Research, 2003, 3(1): 583-617.
[19]周志華. 機(jī)器學(xué)習(xí)[M]. 北京: 清華大學(xué)出版社, 2016.