丁 恒,任衛(wèi)強,曹高輝
(華中師范大學(xué)信息管理學(xué)院,武漢 430079)
科學(xué)研究是人類認(rèn)知世界的手段,對社會、科技、經(jīng)濟、文化的發(fā)展具有重大的影響。學(xué)術(shù)文獻(xiàn)是科學(xué)研究活動的重要成果,也是科學(xué)工作者之間交流思想的主要工具。文獻(xiàn)計量學(xué)研究表明,學(xué)術(shù)文獻(xiàn)發(fā)表的數(shù)量以每年8%~9%的速度快速增長[1],展現(xiàn)著科研活動和學(xué)術(shù)交流的繁榮景象。然而,爆炸式增長的文獻(xiàn)數(shù)量也為科研活動帶來了負(fù)面影響,研究人員難以處理海量的學(xué)術(shù)文獻(xiàn),面臨著嚴(yán)重的信息過載問題?;诖耍杂嬎銠C信息處理技術(shù)為核心,面向海量學(xué)術(shù)大數(shù)據(jù)的信息服務(wù)(如Web of Science、Google Scholar、Mendeley等),已成為研究人員不可或缺的科研工具。
如何從學(xué)術(shù)文獻(xiàn)中抽取重要的信息,將學(xué)術(shù)文獻(xiàn)表示成計算機算法更易處理的形式,是實現(xiàn)學(xué)術(shù)文獻(xiàn)的分類、組織、檢索和推薦的一個核心問題。傳統(tǒng)方法主要是依靠專家經(jīng)驗構(gòu)造人工特征對學(xué)術(shù)文獻(xiàn)進(jìn)行表示,例如,在學(xué)術(shù)信息檢索中以論文標(biāo)題和摘要文本構(gòu)建倒排索引,文獻(xiàn)分類和推薦系統(tǒng)中以詞袋模型、向量空間模型、主題模型構(gòu)建學(xué)術(shù)文獻(xiàn)表示向量[2-3]。
近年來,基于深度學(xué)習(xí)的學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)受到了廣泛關(guān)注。例如,文獻(xiàn)[4-6]采用神經(jīng)語言模型從大規(guī)模學(xué)術(shù)文獻(xiàn)語料庫中自動學(xué)習(xí)文獻(xiàn)的語義特征,將學(xué)術(shù)文獻(xiàn)表示成稠密向量,進(jìn)而實現(xiàn)分類、檢索和推薦,其主要缺點在于神經(jīng)語言模型僅考慮了學(xué)術(shù)文獻(xiàn)的文本語義信息,忽視了學(xué)術(shù)文獻(xiàn)之間的關(guān)系結(jié)構(gòu)信息。有鑒于此,文獻(xiàn)[7-9]提出用圖神經(jīng)網(wǎng)絡(luò)從文獻(xiàn)引文網(wǎng)絡(luò)中提取文獻(xiàn)間的關(guān)系結(jié)構(gòu)信息,并與文獻(xiàn)文本語義信息相融合,從而構(gòu)造學(xué)術(shù)文獻(xiàn)表示向量的思路。然而,現(xiàn)有研究大多采用有監(jiān)督圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文獻(xiàn)特征表示,其存在兩個缺點:①有監(jiān)督圖神經(jīng)網(wǎng)絡(luò)需要針對具體的任務(wù)構(gòu)建大量的、高質(zhì)量的標(biāo)注數(shù)據(jù);②有監(jiān)督圖神經(jīng)網(wǎng)絡(luò)獲取的文獻(xiàn)特征表示與標(biāo)注數(shù)據(jù)集的任務(wù)高度耦合,難以直接遷移到其他任務(wù)上,導(dǎo)致特征表示的普適性較差。
相較于有監(jiān)督圖神經(jīng)網(wǎng)絡(luò),無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)可直接從無標(biāo)注文獻(xiàn)網(wǎng)絡(luò)數(shù)據(jù)中學(xué)習(xí)通用的文獻(xiàn)特征表示,進(jìn)而應(yīng)用于文獻(xiàn)分類、學(xué)術(shù)檢索、論文推薦等不同的下游任務(wù),被認(rèn)為是一種更具優(yōu)勢的學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)方法。然而,無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)在學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)上的效果尚不明確?;诖?,本文將無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)方法應(yīng)用于學(xué)術(shù)文獻(xiàn)的表示學(xué)習(xí),自動從不同類型的學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)中學(xué)習(xí)論文的特征表示向量,并且進(jìn)一步探討特征向量在文獻(xiàn)分類、學(xué)術(shù)檢索、論文推薦等下游任務(wù)的應(yīng)用情況。本文旨在通過系統(tǒng)性的模擬實驗回答以下三個研究問題,為構(gòu)建基于預(yù)訓(xùn)練文獻(xiàn)表示向量的學(xué)術(shù)大數(shù)據(jù)應(yīng)用提供有效參考依據(jù)。
問題1:在文獻(xiàn)分類和論文推薦兩個下游任務(wù)場景中,哪種無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)方法具有更好的效果?可能的內(nèi)在原因是什么?
問題2:無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)特征表示維度變化對文獻(xiàn)分類和論文推薦任務(wù)的最終效果有何影響?
問題3:哪種類型的學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)(引文網(wǎng)絡(luò)、共被引網(wǎng)絡(luò)和文獻(xiàn)耦合網(wǎng)絡(luò))更適合學(xué)習(xí)文獻(xiàn)的通用特征表示?
機器學(xué)習(xí)應(yīng)用的效果很大程度上取決于特征表達(dá),即如何構(gòu)建樣本數(shù)據(jù)的特征表示。傳統(tǒng)的機器學(xué)習(xí)時代,特征表達(dá)主要依靠人類的先驗知識,通過人工分析提取樣本的重要信息,將其組織為特征向量,即所謂的特征工程[10]。然而,特征工程嚴(yán)重依賴專家知識且耗時耗力,因此,自動從原始數(shù)據(jù)中學(xué)習(xí)數(shù)據(jù)的有效表示(即表示學(xué)習(xí)研究)逐漸成為研究熱點[11]。近年來,深度學(xué)習(xí)技術(shù)使得表示學(xué)習(xí)在圖像識別、語音和信號處理以及自然語言處理等領(lǐng)域取得了顯著成果。例如,計算機視覺領(lǐng)域,相較于人工視覺特征,利用卷積神經(jīng)網(wǎng)絡(luò)的自動提取視覺特征大大地降低了圖像識別的錯誤率[12];語音識別應(yīng)用中,在傳統(tǒng)聲學(xué)特征梅爾倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)的基礎(chǔ)上,通過神經(jīng)網(wǎng)絡(luò)增強特征表示能夠進(jìn)一步提升語音識別的最終效果[13];自然語言處理研究中,通過訓(xùn)練大規(guī)模預(yù)訓(xùn)練語言模型獲得文本的向量表示,例如,基于詞上下文預(yù)測的Word2Vec[14]、基于上下文Word Embedding雙向動態(tài)調(diào)整的ELMo[15]以及基于Transformer的雙向語言模型BERT(bidirectional encoder representation from transformers)[16-17]已成為當(dāng)前自然語言處理任務(wù)的標(biāo)準(zhǔn)基線。
如何針對不同的具體任務(wù)構(gòu)建合適的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),是基于深度學(xué)習(xí)的表示學(xué)習(xí)研究的一個重要問題。從已有的實證研究來看,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)、遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)和基于注意力機制的Transformer神經(jīng)網(wǎng)絡(luò)已成為圖像、音頻和文本數(shù)據(jù)表示學(xué)習(xí)的關(guān)鍵組件。實證研究表明[11],通過深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征,表示學(xué)習(xí)能夠具有較強的數(shù)據(jù)表征能力,可以不依賴于某一特定任務(wù),學(xué)習(xí)到更通用的先驗知識。因此,將表示學(xué)習(xí)引入學(xué)術(shù)數(shù)據(jù)處理和表征,對論文、作者、期刊、機構(gòu)、研究問題、方法、技術(shù)、數(shù)據(jù)集等學(xué)術(shù)實體的識別、分類、組織、檢索和推薦具有較大的潛在價值。
圖結(jié)構(gòu)廣泛存在于現(xiàn)實場景中,如社交網(wǎng)絡(luò)、通信網(wǎng)絡(luò)、分子結(jié)構(gòu)、引文網(wǎng)絡(luò)等,真實的圖數(shù)據(jù)具有高維度、難處理的特點,如何將高維圖轉(zhuǎn)化為低維向量表示,即圖嵌入研究(graph embedding)一直是學(xué)術(shù)研究的熱點[18]。目前,圖嵌入領(lǐng)域主要有基于因子分解的、基于隨機游走的和基于深度學(xué)習(xí)的三大類方法?;谝蜃臃纸獾膱D嵌入有局部線性嵌入[19]、拉普拉斯特征映射[20]、圖因子分解機[21]等方法,該系列方法以線性代數(shù)為理論基礎(chǔ),依靠特征值分解、奇異值分解等矩陣分解技術(shù),將原始高維向量轉(zhuǎn)換為低維特征向量,且保留原始矩陣中的重要信息?;陔S機游走的圖嵌入有DeepWalk[22]和Node2Vec[23]等,該系列方法受自然語言處理研究中的詞向量(Word2Vec)研究啟發(fā),以圖中任一節(jié)點為起始點,通過無偏或有偏隨機游走獲得節(jié)點序列,再使用Word2Vec算法學(xué)習(xí)節(jié)點的嵌入向量,嵌入向量能夠表征節(jié)點在圖中局部結(jié)構(gòu)信息?;谏疃葘W(xué)習(xí)的圖嵌入有基于自編碼器和鄰接矩陣的SDNE(structural deep network embedding)[24]、基于卷積神經(jīng)網(wǎng)絡(luò)的圖卷積神經(jīng)網(wǎng)絡(luò)GCN(graph convolutional network)[25]以及基于編碼器-解碼器結(jié)構(gòu)的圖自編碼器GAE(graph auto-encoder)[26]等,該系列方法能夠利用深度神經(jīng)網(wǎng)絡(luò)模擬高維非線性函數(shù),從而獲得更精準(zhǔn)的節(jié)點嵌入向量,具有更強的圖數(shù)據(jù)表示能力。
在圖嵌入研究中,以圖自編碼器(GAE)為代表的無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)方法,不僅能夠編碼節(jié)點的網(wǎng)絡(luò)結(jié)構(gòu)信息,而且能夠利用節(jié)點的屬性信息,從多種角度學(xué)習(xí)到圖數(shù)據(jù)中蘊含的先驗知識。由于學(xué)術(shù)數(shù)據(jù)的先驗知識不僅存在于學(xué)術(shù)文獻(xiàn)的文本語義信息中,還蘊藏于學(xué)術(shù)文獻(xiàn)構(gòu)成的關(guān)系網(wǎng)絡(luò)里,且學(xué)術(shù)數(shù)據(jù)的表示可應(yīng)用的領(lǐng)域和任務(wù)較多,利用圖神經(jīng)網(wǎng)絡(luò)獲取學(xué)術(shù)數(shù)據(jù)的通用表示有利于促進(jìn)學(xué)術(shù)大數(shù)據(jù)的挖掘與應(yīng)用。
學(xué)術(shù)文獻(xiàn)往往并非孤立存在,而是通過相互聯(lián)系形成網(wǎng)絡(luò)結(jié)構(gòu),比如引文網(wǎng)絡(luò)、共被引網(wǎng)絡(luò)、文獻(xiàn)耦合網(wǎng)絡(luò)等。網(wǎng)絡(luò)在數(shù)據(jù)科學(xué)、計算機科學(xué)中又稱為圖,是一種常見的數(shù)據(jù)結(jié)構(gòu),一般用G=(V,E)表示。其中,V表示網(wǎng)絡(luò)中所有節(jié)點的集合;E表示網(wǎng)絡(luò)中所有邊的集合;vi∈V表示V中第i個節(jié)點;eij=(vi,vj)∈E表示節(jié)點vi和vj之間的邊。對于學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)G而言,vi表示一篇學(xué)術(shù)論文,eij表示論文vi和論文vj之間的引用、共被引或文獻(xiàn)耦合關(guān)系。在數(shù)學(xué)上,網(wǎng)絡(luò)G的結(jié)構(gòu)信息可用n×n的鄰接矩陣A表示,矩陣A的第i行第j列元素記為Aij,Aij=1表示節(jié)點vi與節(jié)點vj之間存在一條邊;反之,則Aij=0。網(wǎng)絡(luò)G中所有節(jié)點的屬性信息用屬性矩陣X∈Rn×d表示,矩陣X中一行xv∈Rd表示節(jié)點v的屬性向量。因此,具有節(jié)點屬性的圖又可以表示為G=(X,A)。在學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)中,屬性矩陣X代表著所有論文的文本語義信息,而A則代表學(xué)術(shù)文獻(xiàn)之間構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu)信息。
學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí),是指利用神經(jīng)網(wǎng)絡(luò)從大規(guī)模、高維度學(xué)術(shù)文獻(xiàn)數(shù)據(jù)中自動地獲取文獻(xiàn)的低維向量表示,是表示學(xué)習(xí)研究在學(xué)術(shù)數(shù)據(jù)領(lǐng)域的具體應(yīng)用。目前,學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)主要有以下兩大類方法。
(1)基于文本數(shù)據(jù)的文獻(xiàn)表示學(xué)習(xí)。主要利用神經(jīng)語言模型,將篇幅較大、詞項較多的論文的文本信息編碼成低維稠密實數(shù)向量,解決傳統(tǒng)詞袋模型下論文表示向量詞項空間過大的問題。
(2)基于圖數(shù)據(jù)的文獻(xiàn)表示學(xué)習(xí)。主要利用圖神經(jīng)網(wǎng)絡(luò)模型,從文獻(xiàn)關(guān)系網(wǎng)絡(luò)中提取有效信息,進(jìn)而將論文編碼成低維向量,其核心思想是論文之間的關(guān)系結(jié)構(gòu)一定程度上能夠表達(dá)論文本身的特征。
從數(shù)學(xué)形式上看,前者可記為f(X)→Z,只利用了論文的文本語義信息X;后者可記為f(X,A)→Z,不僅利用文本語義信息X,同時利用文獻(xiàn)網(wǎng)絡(luò)的結(jié)構(gòu)信息A。Z是神經(jīng)網(wǎng)絡(luò)f輸出的文獻(xiàn)特征表示矩陣,矩陣Z中任一行zv表示文獻(xiàn)v的特征表示向量,該向量可被應(yīng)用于文獻(xiàn)分類、學(xué)術(shù)檢索、論文推薦等下游任務(wù)中。模糊的學(xué)科邊界、高度交叉融合的學(xué)科體系,導(dǎo)致“一詞多義、一義多詞”的現(xiàn)象普遍存在于學(xué)術(shù)論文中,純粹基于文本語義信息的文獻(xiàn)表示學(xué)習(xí)方法具有先天的缺點,因此,本文主要探討以圖神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),可綜合利用兩種信息的學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)方法。
目前,圖神經(jīng)網(wǎng)絡(luò)主要分為有監(jiān)督、半監(jiān)督和無監(jiān)督三大類型。其中,無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)不僅具備圖神經(jīng)網(wǎng)絡(luò)能夠同時編碼文獻(xiàn)文本語義信息和文獻(xiàn)關(guān)系結(jié)構(gòu)信息的能力,同時具有無需標(biāo)注數(shù)據(jù)的優(yōu)勢,且網(wǎng)絡(luò)訓(xùn)練過程與下游任務(wù)解耦,所學(xué)習(xí)到的文獻(xiàn)表示具有較強的通用性。因此,本文聚焦于多種代表性無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)方法在學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)上的應(yīng)用效果,選擇的代表性無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)有圖自編碼器(GAE[26])、變分圖自編碼器(variational graph auto-encoders,VGAE)[27]、對 抗正則化變分圖自編碼器(adversarially regularized variational graph autoencoder,ARVGA)[27]和深度互信息圖神經(jīng)網(wǎng)絡(luò)(deep graph infomax,DGI)[28]。
無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)主要由編碼器、解碼器以及學(xué)習(xí)目標(biāo)三個部分構(gòu)成。
(1)編碼器。以文獻(xiàn)網(wǎng)絡(luò)的鄰接矩陣A和文獻(xiàn)文本語義信息矩陣X為輸入,通過編碼函數(shù)f獲得文獻(xiàn)特征表示矩陣Z,記為f(X,A)→Z。
(2)解碼器。在文獻(xiàn)特征表示矩陣Z的基礎(chǔ)上,通過解碼函數(shù)獲得重構(gòu)鄰接矩陣記為
(3)學(xué)習(xí)目標(biāo)。在文獻(xiàn)網(wǎng)絡(luò)的鄰接矩陣A、重構(gòu)鄰接矩陣A^、文獻(xiàn)特征表示矩陣Z等的基礎(chǔ)上,根據(jù)目標(biāo)函數(shù)評估、優(yōu)化文獻(xiàn)特征表示矩陣Z的表達(dá)能力。
表1 列舉了四種無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)各部分的差異。
表1 四種無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)差異分析表
在編碼器部分,四種無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)都采用了圖卷積神經(jīng)網(wǎng)絡(luò)GCN,圖卷積神經(jīng)網(wǎng)絡(luò)的計算公式為
其中,GCN表示圖卷積神經(jīng)網(wǎng)絡(luò);D表示鄰接矩陣A對應(yīng)的度矩陣;ReLU為線性整流函數(shù);W0和W1為圖卷積神經(jīng)網(wǎng)絡(luò)待學(xué)習(xí)的參數(shù)。圖自編碼器通過1個圖卷積神經(jīng)網(wǎng)絡(luò)GCN輸出文獻(xiàn)特征表示矩陣Z。變分圖自編碼器則和對抗正則化變分圖自編碼器用GCNμ(X,A)和GCNσ(X,A)輸出文獻(xiàn)特征表示矩陣Z,且GCNμ(X,A)和GCNσ(X,A)是W0相同、W1不同的兩個圖卷積神經(jīng)網(wǎng)絡(luò),分別捕獲文獻(xiàn)特征表示的均值μ和文獻(xiàn)特征表示的方差σ,且不僅生成文獻(xiàn)特征表示矩陣Z,還通過標(biāo)準(zhǔn)正態(tài)分布N(z v|0,1)采樣獲得的先驗表示矩陣深度互信息圖神經(jīng)網(wǎng)絡(luò)則用圖卷積神經(jīng)網(wǎng)絡(luò)編碼隨機擾動矩陣從而輸出噪聲特征表示矩陣在解碼器部分,圖自編碼器、變分圖自編碼器和對抗正則化變分圖自編碼器都采用內(nèi)積運算θ(ZZT)獲取重構(gòu)鄰接矩陣其中,ZT表示Z的轉(zhuǎn)置矩陣,θ表示Sigmoid函數(shù)。深度互信息圖神經(jīng)網(wǎng)絡(luò)則通過矩陣運算θ(ZWs→T)和輸出重構(gòu)矩陣A′和其中,θ表示Sigmoid函數(shù),W是一個大小為d×d可學(xué)習(xí)的參數(shù)矩陣,s→表示文獻(xiàn)全局特征表示向量,具體計算公式為
其中,z v是文獻(xiàn)特征表示矩陣Z的其中一行,代表文獻(xiàn)v的特征表示向量,大小為1×d;表示向量的轉(zhuǎn)置。注意,與前三種神經(jīng)網(wǎng)絡(luò)不同,深度互信息圖神經(jīng)網(wǎng)絡(luò)解碼器輸出的重構(gòu)矩陣時,不僅考慮了各個文獻(xiàn)的特征表示,而且考慮了整體特征表示s→的信息。
在學(xué)習(xí)目標(biāo)部分,四種圖神經(jīng)網(wǎng)絡(luò)采用了不同的損失函數(shù)作為網(wǎng)絡(luò)學(xué)習(xí)優(yōu)化目標(biāo)。涉及的損失函數(shù)有LCE交叉熵?fù)p失函數(shù)、KL相對熵?fù)p失函數(shù)和JS散度損失函數(shù)。交叉熵的計算公式為
其中,n表示文獻(xiàn)網(wǎng)絡(luò)中論文數(shù)量;Aij為原始鄰接矩陣A的第i行第j列;為重構(gòu)鄰接矩陣的第i行第j列;LCE(A^,A)實質(zhì)上衡量了矩陣A和矩陣的差異。
KL相對熵的計算公式為
min||·||和max||·||分別表示最小化和最大化目標(biāo)函數(shù),因此,四種無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)及含義分別為:
對抗正則化變分圖自編碼器中判別器D(Z)的計算公式為
其中,D是一個三層的多層感知機,以文獻(xiàn)特征表示矩陣Z為輸入時,判別器可輸出一個n×1的矩陣D(Z);W0、W1和W2為多層感知機中待學(xué)習(xí)的參數(shù)。同理,以先驗表示矩陣為輸入時,判別器也將輸出一個n×1的矩陣
學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)的根本目標(biāo)是獲得一個具有較強特征表達(dá)能力的文獻(xiàn)特征表示矩陣Z。在基于無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)的學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)框架下,文獻(xiàn)特征表示矩陣Z是由編碼器輸出而得,即f W(X,A)→Z,其中,f代表編碼器中的圖卷積神經(jīng)網(wǎng)絡(luò),W表示圖卷積神經(jīng)網(wǎng)絡(luò)中所有可學(xué)習(xí)的參數(shù)。算法1描述了學(xué)術(shù)文獻(xiàn)特征表示矩陣Z的學(xué)習(xí)過程,學(xué)習(xí)到的文獻(xiàn)表示向量zv可作為特征向量應(yīng)用于下游任務(wù);迭代次數(shù)T為250,特征維度d的取值范圍為[32,64,128,256,512]。
算法1:基于無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)的學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)算法
輸入:文獻(xiàn)關(guān)系網(wǎng)絡(luò)G=(X,A),訓(xùn)練的迭代次數(shù)T,特征維度大小d。
Step1.隨機初始化編碼器參數(shù)W;
Step2.編碼器進(jìn)行運算,輸出文獻(xiàn)特征表示矩陣Z;
Step4.根據(jù)學(xué)習(xí)目標(biāo)計算損失函數(shù);
Step5.采用隨機梯度下降更新編碼器參數(shù)W;
Step6.反復(fù)執(zhí)行Step1~Step5T次;
Step7.輸出Z作為最終學(xué)習(xí)到的文獻(xiàn)特征表示矩陣,文獻(xiàn)v的表示向量為zv∈Rd。
本文選擇文獻(xiàn)分類和論文推薦為下游任務(wù)場景,從而分析學(xué)習(xí)到的學(xué)術(shù)文獻(xiàn)特征表示的有效性。具體而言,在文獻(xiàn)分類任務(wù)中,實驗執(zhí)行以下4個步驟:①文獻(xiàn)表示學(xué)習(xí),將文獻(xiàn)網(wǎng)絡(luò)G=(X,A)輸入無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)獲取文獻(xiàn)特征表示Z;②數(shù)據(jù)集切分,將文獻(xiàn)網(wǎng)絡(luò)G中的所有文獻(xiàn)切分為兩個訓(xùn)練集Z1:v={z1,…,zv}和測試集Zv:n={zv+1,…,zn},樣本比例分別為70%和30%;③分類模型訓(xùn)練,將訓(xùn)練集數(shù)據(jù)輸入邏輯回歸分類器訓(xùn)練分類模型;④評價指標(biāo)計算,將訓(xùn)練好的分類模型運用到測試集上,獲取MarcoF1(宏平均F1值)和MicroF1(微平均F1值)兩個評價指標(biāo)。
在論文推薦任務(wù)中,實驗執(zhí)行以下5個步驟:①文獻(xiàn)表示學(xué)習(xí),將學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)G=(X,A)輸入無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)獲取文獻(xiàn)特征表示Z;②測試文獻(xiàn)采樣,從文獻(xiàn)網(wǎng)絡(luò)G中隨機抽取30個文獻(xiàn),作為論文推薦任務(wù)的測試文獻(xiàn);③推薦列表獲取,依次從文獻(xiàn)特征表示矩陣Z中取出測試文獻(xiàn)對應(yīng)的特征向量z v,利用余弦相似度公式計算其與學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)G中所有其他文獻(xiàn)的相似性,并篩選相似性最大的前20篇文獻(xiàn)為候選推薦列表;④相關(guān)性標(biāo)注,兩位標(biāo)注專家查看測試文獻(xiàn)和推薦列表候選文獻(xiàn)標(biāo)題和摘要的內(nèi)容,判斷測試文獻(xiàn)與推薦列表中每個文獻(xiàn)之間的相關(guān)性大小并進(jìn)行打分,分值為1~5;⑤評價指標(biāo)計算,在相關(guān)性標(biāo)注的基礎(chǔ)上計算Hit@K和Ndcg@K指標(biāo),K的取值為[5,10]。
基于無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)的學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)算法,必須執(zhí)行在既包含文獻(xiàn)網(wǎng)絡(luò)關(guān)系又包含文獻(xiàn)文本語義特征的數(shù)據(jù)集上,因此,本文以三個大小不同的學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)數(shù)據(jù)集Cora、CiteSeer和DBLP(database systems and logic programming)為基礎(chǔ),針對文獻(xiàn)分類和論文推薦兩個任務(wù)進(jìn)行預(yù)處理,從而構(gòu)建了實驗數(shù)據(jù)集。表2列舉了處理后數(shù)據(jù)集的具體信息。
表2 三個學(xué)術(shù)文獻(xiàn)數(shù)據(jù)集的具體信息
具體而言,Cora原始數(shù)據(jù)集共包含2708篇文獻(xiàn),每篇文獻(xiàn)的文本特征為1433維的one-hot向量,文獻(xiàn)引文網(wǎng)絡(luò)的邊數(shù)為5429。本文根據(jù)Cora原始引文網(wǎng)絡(luò)抽取出共被引關(guān)系5687條和文獻(xiàn)耦合關(guān)系39596條,從而構(gòu)建了Cora數(shù)據(jù)集的共被引網(wǎng)絡(luò)和文獻(xiàn)耦合網(wǎng)絡(luò),且從此網(wǎng)站①https://people.cs.umass.edu/~mccallum/data/獲取到Cora數(shù)據(jù)集中每篇文獻(xiàn)對應(yīng)的標(biāo)題和摘要。CiteSeer原始數(shù)據(jù)集共包含3327篇文獻(xiàn),每篇文獻(xiàn)的文本特征為3703維的one-hot向量,文獻(xiàn)引文網(wǎng)絡(luò)的邊數(shù)為4732,共被引網(wǎng)絡(luò)邊5959條、文獻(xiàn)耦合網(wǎng)絡(luò)邊16898條。本文從原始DBLP數(shù)據(jù)中隨機采樣出86592篇文獻(xiàn)及其對應(yīng)的引文關(guān)系968589條,共被引關(guān)系23561659條,文獻(xiàn)耦合關(guān)系10419860條,每篇文獻(xiàn)的文本語義特征向量通過Spacy中的Word2Vec模型獲?、趆ttps://spacy.io/,文獻(xiàn)的文本語義向量為文獻(xiàn)標(biāo)題中所有詞的詞向量的均值向量。。為了提升實驗結(jié)論的可拓展性,本文對每個下游任務(wù)都采用兩個數(shù)據(jù)集進(jìn)行實驗,具體信息如表3所示。
表3 任務(wù)數(shù)據(jù)集選擇及其說明
為了回答在第1節(jié)中提出的三個研究問題,本文共設(shè)計了兩組實驗,相關(guān)設(shè)置如下。
實驗組1:以三個數(shù)據(jù)集的文獻(xiàn)引文網(wǎng)絡(luò)為輸入鄰接矩陣,依次采用四種無監(jiān)督神經(jīng)網(wǎng)絡(luò),選擇不同大小的特征維度d,執(zhí)行文獻(xiàn)分類和論文推薦任務(wù)獲取評價指標(biāo),并以深度隨機游走(Deep-Walk)[22]、Doc2Vec[29]、Paper2Vec[30]的結(jié)果作為對比基線。該實驗組在固定文獻(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)的條件下,通過改變無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和文獻(xiàn)特征表示維度大小獲取實驗結(jié)果,以期回答問題1和問題2。
實驗組2:以Cora數(shù)據(jù)集的引文網(wǎng)絡(luò)、共被引網(wǎng)絡(luò)、文獻(xiàn)耦合網(wǎng)絡(luò)為輸入鄰接矩陣,以固定的無監(jiān)督圖神經(jīng)網(wǎng)絡(luò),通過貪心算法選擇最優(yōu)特征維度d,執(zhí)行文獻(xiàn)分類和論文推薦任務(wù)獲取評價指標(biāo)。該實驗組在固定任務(wù)和確定無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)模型的條件下,通過改變輸入網(wǎng)絡(luò)的結(jié)構(gòu)獲取實驗結(jié)果,以期回答問題3。
表4 顯示了三種基線方法和四種無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)在Cora和CiteSeer兩個數(shù)據(jù)集上執(zhí)行文獻(xiàn)分類實驗的最優(yōu)結(jié)果。由研究結(jié)果可知,在文獻(xiàn)分類任務(wù)上,無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)全面優(yōu)于深度隨機游走,表明在文獻(xiàn)關(guān)系結(jié)構(gòu)信息之上,融合文獻(xiàn)文本語義信息能夠有效提升文獻(xiàn)特征表示能力。深度互信息圖神經(jīng)網(wǎng)絡(luò)在兩個數(shù)據(jù)集中均獲得了最高評價指標(biāo),在Cora數(shù)據(jù)集上,宏平均F1和微平均F1值分別為0.808和0.820;在CiteSeer數(shù)據(jù)集上,宏平均F1和微平均F1值分別為0.657和0.692。變分圖自編碼器僅次于深度互信息圖神經(jīng)網(wǎng)絡(luò),在兩個數(shù)據(jù)集的多項指標(biāo)上均獲得了較好的結(jié)果。圖自編碼器和對抗正則化變分圖自編碼器則表現(xiàn)相當(dāng),在不同數(shù)據(jù)集的不同指標(biāo)上互有勝負(fù)。
表4 三種基線方法和四種無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)在文獻(xiàn)分類任務(wù)上的最優(yōu)結(jié)果
表5 顯示了三種基線方法和四種無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)在Cora和DBLP兩個數(shù)據(jù)集上執(zhí)行論文推薦實驗的最優(yōu)結(jié)果。在Cora數(shù)據(jù)集上,對抗正則化變分圖自編碼器表現(xiàn)最好,其Ndcg@5、Ndcg@10、Hit@5、Hit@10分別為0.596、0.646、0.571、0.660。在Hit@10指標(biāo)上,深度互信息圖神經(jīng)網(wǎng)絡(luò)的表現(xiàn)最優(yōu),而其他三個圖神經(jīng)網(wǎng)絡(luò)則表現(xiàn)相當(dāng)。在Ndcg@5和Ndcg@10指標(biāo)上,對抗正則化變分圖自編碼器遠(yuǎn)高于其他三個神經(jīng)網(wǎng)絡(luò),圖自編碼器則表現(xiàn)優(yōu)于變分圖自編碼器和深度互信息圖神經(jīng)網(wǎng)絡(luò)。在DBLP數(shù)據(jù)集上,對抗正則化變分圖自編碼器在Ndcg@5、Ndcg@10、Hit@5和Hit@10上都得分最高,其他三個神經(jīng)網(wǎng)絡(luò)表現(xiàn)則相差不大。盡管深度互信息圖神經(jīng)網(wǎng)絡(luò)和對抗正則化變分圖自編碼器的Hit@5指標(biāo)均為0.457,但是對抗正則化變分圖自編碼器的Ndcg@5得分為0.573,相比于深度互信息圖神經(jīng)網(wǎng)絡(luò)提高了6.5%,這說明對抗正則化變分圖自編碼器能夠?qū)⑾嚓P(guān)性更高的文獻(xiàn)排在推薦列表頂部。
表5 三種基線方法和四種無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)在論文推薦任務(wù)上的最優(yōu)結(jié)果
上述實驗結(jié)果表明,相較于其他圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的特征表示,深度互信息圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的文獻(xiàn)特征表示具有更強的文獻(xiàn)差異區(qū)分能力。這可能是由于深度互信息圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的目標(biāo)是最大化局部文獻(xiàn)特征表示和全局文獻(xiàn)特征表示的互信息,即學(xué)習(xí)到更能夠表示每一篇文獻(xiàn)獨特性的特征向量,因此,其特別適合于文獻(xiàn)分類這種下游任務(wù)。而其他三種圖神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)均希望使得重構(gòu)鄰接矩陣和原始鄰接矩陣的相接近,實質(zhì)上是讓文獻(xiàn)網(wǎng)絡(luò)中具有關(guān)聯(lián)關(guān)系的文獻(xiàn)具有更相近的特征表示向量。從這個角度來看,理論上圖自編碼器、變分圖自編碼器和對抗正則化變分圖自編碼器學(xué)習(xí)到的文獻(xiàn)特征表示更適合于論文推薦任務(wù)。然而,在Cora和DBLP兩個數(shù)據(jù)集上,深度互信息圖神經(jīng)網(wǎng)絡(luò)表現(xiàn)并非最差,與圖自編碼器和變分圖自編碼器表現(xiàn)相當(dāng)。本文認(rèn)為,這可能與Cora和DBLP兩個數(shù)據(jù)集包含的所有文獻(xiàn)皆屬于計算機領(lǐng)域有關(guān)。正是由于Cora和DBLP數(shù)據(jù)集中文獻(xiàn)都屬于同一領(lǐng)域,執(zhí)行論文推薦任務(wù)時深度互信息圖神經(jīng)網(wǎng)絡(luò)捕捉到的細(xì)節(jié)差異,有利于從主題領(lǐng)域相似的小文獻(xiàn)集合中找到更相關(guān)的推薦文獻(xiàn)。
圖1 顯示了采用不同大小的特征維度d時,四種無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)的文獻(xiàn)特征表示在文獻(xiàn)分類任務(wù)上的效果變化。由圖1可知,對于深度互信息圖神經(jīng)網(wǎng)絡(luò)而言,當(dāng)特征維度增大時,文獻(xiàn)分類各指標(biāo)均呈現(xiàn)遞增的趨勢。而對另外三種無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)來說,特征維度的增大反而使得文獻(xiàn)分類各指標(biāo)呈現(xiàn)波動或降低的趨勢。理論上看,更大的特征維度能夠存儲更多的細(xì)節(jié)信息,從而使得學(xué)習(xí)到的文獻(xiàn)特征能夠刻畫文獻(xiàn)之間更細(xì)節(jié)的差異。正如第5.1節(jié)分析所述,深度互信息圖神經(jīng)網(wǎng)絡(luò)通過最大化局部文獻(xiàn)特征表示和全局文獻(xiàn)特征表示的互信息,使得每篇文獻(xiàn)自身獨特的信息能夠保留在學(xué)習(xí)到的文獻(xiàn)特征表示向量中,因此,文獻(xiàn)分類結(jié)果受益于更大的特征維度。然而,圖自編碼器、變分圖自編碼器和對抗正則化變分圖自編碼器的學(xué)習(xí)目標(biāo)并不能更有效地區(qū)分不同文獻(xiàn)之間的差異,只能讓文獻(xiàn)網(wǎng)絡(luò)中相連接的文獻(xiàn)具有更相似的表示向量,因此,分類任務(wù)上這三種圖神經(jīng)網(wǎng)絡(luò)不能受益于更大的特征維度。
圖1 特征維度變化對文獻(xiàn)分類任務(wù)的影響
圖2 顯示了采用不同特征維度大小d時,四種無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)的文獻(xiàn)特征表示在論文推薦任務(wù)上的效果變化。在DBLP數(shù)據(jù)集上,深度互信息圖神經(jīng)網(wǎng)絡(luò)各指標(biāo)均呈現(xiàn)先增后減的趨勢,且在d=128附近得到最大得分。圖自編碼器和變分圖自編碼器在各指標(biāo)上呈現(xiàn)增減波動,沒有穩(wěn)定提高或降低的趨勢。對抗正則化變分圖自編碼器各指標(biāo)最小值均出現(xiàn)在d=64或d=128時且形成上凹拋弧線。在Cora數(shù)據(jù)集上,除圖自編碼器外的三種無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)在d=32處已取得最優(yōu)指標(biāo)。深度互信息圖神經(jīng)網(wǎng)絡(luò)各指標(biāo)形成S形波動,其他三種圖神經(jīng)網(wǎng)絡(luò)指標(biāo)變化較平緩??偟膩碚f,特征維度的增大不能夠給論文推薦結(jié)果指標(biāo)帶來提升,本文認(rèn)為,這代表四種無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)都無益于論文推薦任務(wù)。
圖2 特征維度變化對論文推薦任務(wù)的影響
由于CiteSeer數(shù)據(jù)集只提供了文獻(xiàn)onehot文本特征,缺乏文獻(xiàn)的原始文本數(shù)據(jù),而DBLP數(shù)據(jù)集沒有提供文獻(xiàn)分類標(biāo)簽,故僅有Cora數(shù)據(jù)集可同時執(zhí)行文獻(xiàn)分類和論文推薦兩個任務(wù)。圖3中的每個子圖都顯示了同一個數(shù)據(jù)集下(Cora數(shù)據(jù)集),采用同一種無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)時,以三種不同文獻(xiàn)網(wǎng)絡(luò)為輸入而獲得的6個任務(wù)指標(biāo)(包括文獻(xiàn)分類2個和論文推薦4個)的數(shù)值得分。由圖3可知,無論是文獻(xiàn)分類還是論文推薦任務(wù)場景,在其他條件相同時,相比于其他兩個文獻(xiàn)網(wǎng)絡(luò),引文網(wǎng)絡(luò)似乎更適合學(xué)習(xí)文獻(xiàn)的通用特征表示,并且文獻(xiàn)耦合網(wǎng)絡(luò)在絕大多數(shù)情況下比共被引網(wǎng)絡(luò)更好。
圖3 文獻(xiàn)網(wǎng)絡(luò)類型變化對文獻(xiàn)分類和論文推薦指標(biāo)的影響
為了進(jìn)一步解釋文獻(xiàn)網(wǎng)絡(luò)類型變化而導(dǎo)致文獻(xiàn)分類任務(wù)效果的差異,本文統(tǒng)計了三種文獻(xiàn)網(wǎng)絡(luò)中不同類型邊的數(shù)量,具體如表6所示。其中,同類文獻(xiàn)節(jié)點間邊的數(shù)量是指文獻(xiàn)網(wǎng)絡(luò)中邊兩側(cè)的文獻(xiàn)節(jié)點屬于同一類別文獻(xiàn)時邊的總數(shù),非同類文獻(xiàn)節(jié)點間邊的數(shù)量是指文獻(xiàn)網(wǎng)絡(luò)中邊兩側(cè)的文獻(xiàn)節(jié)點不屬于同類別文獻(xiàn)時邊的總數(shù)。由表6可知,Cora數(shù)據(jù)集引文網(wǎng)絡(luò)中一共有5429條邊,其中連接同類文獻(xiàn)節(jié)點的邊的數(shù)量占81.4%,非同類文獻(xiàn)節(jié)點的邊的數(shù)量占18.6%。從引文網(wǎng)絡(luò)構(gòu)造共被引網(wǎng)絡(luò)后,共被引網(wǎng)絡(luò)中同類文獻(xiàn)節(jié)點間邊的數(shù)量占比下降到73.6%,非同類文獻(xiàn)節(jié)點間邊的數(shù)量占比上升到26.4%。這表明從引文網(wǎng)絡(luò)構(gòu)建共被引網(wǎng)絡(luò)時,網(wǎng)絡(luò)中不同類型文獻(xiàn)節(jié)點間的聯(lián)系(邊的數(shù)量)密度增大,本來不屬于同一類型的文獻(xiàn)節(jié)點被連接起來,從而弱化了從網(wǎng)絡(luò)中學(xué)習(xí)到的文獻(xiàn)表示向量的類別區(qū)分能力。同理,在文獻(xiàn)耦合網(wǎng)絡(luò)中,同類文獻(xiàn)節(jié)點間邊的數(shù)量占75.8%,非同類文獻(xiàn)節(jié)點間邊的數(shù)量占24.2%,低于引文網(wǎng)絡(luò)但略高于共被引網(wǎng)絡(luò),因此,其在文獻(xiàn)分類任務(wù)上的效果排名第二(圖3)。
表6 Cora數(shù)據(jù)集三種文獻(xiàn)網(wǎng)絡(luò)中邊類型統(tǒng)計數(shù)據(jù)表
為了洞察文獻(xiàn)網(wǎng)絡(luò)類型導(dǎo)致論文推薦任務(wù)效果差異的原因,本文從Cora數(shù)據(jù)集中隨機選擇了3個文獻(xiàn)節(jié)點,并人工統(tǒng)計了這些節(jié)點在不同類型文獻(xiàn)網(wǎng)絡(luò)中鄰居節(jié)點相關(guān)性得分的平均值,結(jié)果如表7所示。由表7可知,對于同一個文獻(xiàn)節(jié)點,其在引文網(wǎng)絡(luò)中的鄰居節(jié)點的相關(guān)性得分平均值高于其他兩個文獻(xiàn)網(wǎng)絡(luò)。這表明相較于其他兩個文獻(xiàn)網(wǎng)絡(luò),引文網(wǎng)絡(luò)中由邊相連的節(jié)點之間可能具有更強的關(guān)聯(lián)性,更利于圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文獻(xiàn)間的相似性,從而有利于論文的推薦任務(wù)。
表7 鄰居節(jié)點相關(guān)性得分統(tǒng)計數(shù)據(jù)表
學(xué)術(shù)文獻(xiàn)的表示學(xué)習(xí)是優(yōu)化學(xué)術(shù)文獻(xiàn)搜索、學(xué)術(shù)文獻(xiàn)分類組織、學(xué)術(shù)文獻(xiàn)個性化推薦等學(xué)術(shù)大數(shù)據(jù)服務(wù)的基礎(chǔ)。本文將自編碼器、變分圖自編碼器、對抗正則化變分圖自編碼器和深度互信息圖神經(jīng)網(wǎng)絡(luò)這四種無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)方法引入學(xué)術(shù)文獻(xiàn)的表示學(xué)習(xí)研究,以文獻(xiàn)分類和論文推薦為下游任務(wù)進(jìn)行了相關(guān)實驗。本文的主要貢獻(xiàn):①分析了四種無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)的差異,提出了以“編碼器-解碼器-學(xué)習(xí)目標(biāo)”為核心的、基于無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)的文獻(xiàn)表示學(xué)習(xí)框架(見表1),并梳理出四種圖神經(jīng)網(wǎng)絡(luò)的矩陣表達(dá)形式;②通過實驗發(fā)現(xiàn)深度互信息圖神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)更適合于文獻(xiàn)分類任務(wù),而對抗正則化變分圖自編碼器更適合于論文推薦任務(wù);③實驗發(fā)現(xiàn)特征維度的增大能夠有效提升深度互信息圖神經(jīng)網(wǎng)絡(luò)的文獻(xiàn)類別差異表征能力,而四種無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)似乎都無益于論文推薦任務(wù);④Cora數(shù)據(jù)集上的實驗表明,相較于共被引網(wǎng)絡(luò)和文獻(xiàn)耦合網(wǎng)絡(luò),引文網(wǎng)絡(luò)更適合于學(xué)習(xí)通用的文獻(xiàn)表示向量。
盡管本文選用了Cora、CiteSeer和DBLP等多個數(shù)據(jù)集進(jìn)行了實驗,然而這些數(shù)據(jù)集都僅只是從真實學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)中抽樣的部分?jǐn)?shù)據(jù)。從理論上看,通過圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文獻(xiàn)的表示向量會受到文獻(xiàn)鄰居節(jié)點文獻(xiàn)的影響,因此,采樣部分文獻(xiàn)數(shù)據(jù)可能會學(xué)習(xí)到有偏的文獻(xiàn)表示,即文獻(xiàn)最終的表示向量由采樣到的鄰居節(jié)點決定,而不是真實學(xué)術(shù)網(wǎng)絡(luò)中所有鄰居節(jié)點決定。未來將分析不同的采樣策略如何影響文獻(xiàn)表示學(xué)習(xí)和相應(yīng)的下游任務(wù)指標(biāo),這是一個有趣且值得研究的問題。