丁恒,張靜,陳佳卓,曹高輝
(華中師范大學(xué)信息管理學(xué)院,武漢 430079)
學(xué)術(shù)文獻(xiàn)作為人類社會化進(jìn)程中不可或缺的知識載體之一,以其無限的方式塑造著人類的思維、行為和決策:科學(xué)家通過批判性地閱讀學(xué)術(shù)文獻(xiàn),激發(fā)新的思維,展開新的研究并創(chuàng)造新的知識;專業(yè)醫(yī)療人員依靠學(xué)術(shù)文獻(xiàn)指導(dǎo)臨床實(shí)踐,并為患者提供最新的醫(yī)療建議;政策制定者借助最新的學(xué)術(shù)文獻(xiàn),以科學(xué)證據(jù)為基礎(chǔ)制定政策和規(guī)定;商業(yè)人員則通過學(xué)術(shù)文獻(xiàn)了解相關(guān)市場的消費(fèi)者行為和偏好,為產(chǎn)品開發(fā)和市場推廣提供指導(dǎo)。然而,隨著學(xué)術(shù)文獻(xiàn)數(shù)量的爆炸性增長,如何在信息過載的時代中幫助用戶更好地檢索和利用學(xué)術(shù)文獻(xiàn)知識,已成為信息資源管理、知識管理、自然語言處理和信息檢索領(lǐng)域?qū)W者的必答之問。
自圖書情報學(xué)領(lǐng)域出現(xiàn)以來,學(xué)術(shù)文獻(xiàn)的分類、組織、檢索和利用始終是領(lǐng)域內(nèi)的核心研究課題,在人工智能符號主義時代做出了很多重要貢獻(xiàn)。例如,①創(chuàng)造系統(tǒng)化的分類體系、主題詞表等工具,用于描述和索引文獻(xiàn)內(nèi)容[1];②發(fā)展和應(yīng)用各種知識組織模式和技術(shù)進(jìn)行文獻(xiàn)組織[2];③制定檢索策略、構(gòu)建索引詞表、開發(fā)檢索語言和搜索算法,以提高文獻(xiàn)檢索效率和準(zhǔn)確性[3]。然而,學(xué)術(shù)文獻(xiàn)作為由人類以自然語言形式創(chuàng)作的一種知識形態(tài),本質(zhì)上屬于非結(jié)構(gòu)化的、具有稀疏符號序列特點(diǎn)的文本。對于基于數(shù)值計(jì)算基礎(chǔ)構(gòu)建的現(xiàn)代信息/計(jì)算機(jī)系統(tǒng)而言,這種符號序列化的表示方式存在著固有差異和隔閡。
近年來,計(jì)算機(jī)領(lǐng)域?qū)W者針對符號化表示方法的缺陷,以深度神經(jīng)網(wǎng)絡(luò)為核心工具,利用非結(jié)構(gòu)化純文本或結(jié)構(gòu)化知識庫作為數(shù)據(jù)源,將文本表示方法從依賴詞匯符號的稀疏表示推進(jìn)到以數(shù)值向量為基礎(chǔ)的稠密表示,即所謂的文本/語義/知識表示學(xué)習(xí)[4]。相較于符號化的稀疏表示,基于數(shù)值向量的稠密表示不僅能體現(xiàn)出文本在詞匯符號層面的關(guān)系,而且適用于挖掘文本間高層語義間的聯(lián)系。計(jì)算機(jī)學(xué)科對文本表示學(xué)習(xí)的探索主要集中在:①創(chuàng)造語義表征能力更強(qiáng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如ELMo(embeddings from language models)[5]和Transformer[6];②尋找適用于不同領(lǐng)域和任務(wù)的模型訓(xùn)練方式,包括訓(xùn)練任務(wù)的構(gòu)造和訓(xùn)練數(shù)據(jù)的選擇,如BERT(bi‐directional encoder representations from transformers)[7]和SpanBERT[8]。圖情領(lǐng)域?qū)W者敏銳地意識到稠密向量表示對學(xué)術(shù)文獻(xiàn)知識加工和組織具有潛在價值,在實(shí)踐應(yīng)用層面展開了積極探索。例如,文獻(xiàn)[9-10] 以BERT神經(jīng)網(wǎng)絡(luò)構(gòu)建語言模型,用于學(xué)術(shù)詞語功能識別和學(xué)術(shù)實(shí)體標(biāo)注任務(wù),利用大規(guī)模學(xué)術(shù)文本數(shù)據(jù)從詞匯層次出發(fā)研究學(xué)術(shù)詞語的數(shù)學(xué)表示方法;文獻(xiàn)[11-12] 將深度神經(jīng)網(wǎng)絡(luò)模型用于學(xué)術(shù)文本句子或段落的向量表示,實(shí)現(xiàn)學(xué)術(shù)文本句子分類和學(xué)術(shù)文本段落結(jié)構(gòu)功能識別任務(wù)。
已有研究表明,利用大規(guī)模學(xué)術(shù)語料中無標(biāo)注文本單元(詞與詞、句與句)間的鄰近關(guān)系訓(xùn)練神經(jīng)網(wǎng)絡(luò),能夠有效提升模型的語義表達(dá)能力,從而有益于學(xué)術(shù)文獻(xiàn)分類、檢索和推薦等下游任務(wù)[13]。在一項(xiàng)被簡稱為SPECTER(scientific paper embed‐dings using citation informed transformers)[14]的工作中,研究者不僅采用Transformer神經(jīng)網(wǎng)絡(luò)將學(xué)術(shù)文獻(xiàn)編碼成表示向量,并且為神經(jīng)網(wǎng)絡(luò)輸出的表示向量附加限制,即假設(shè)存在引用關(guān)系的文獻(xiàn)間向量距離較近,而不存在引用關(guān)系的文獻(xiàn)間向量距離較遠(yuǎn);研究結(jié)果表明,基于引用關(guān)系的文獻(xiàn)距離假設(shè)可顯著提升模型表示能力。根據(jù)圖情領(lǐng)域關(guān)于引文的研究可知,引用動機(jī)是復(fù)雜的,被引文獻(xiàn)與施引文獻(xiàn)不一定在語義內(nèi)容上十分相關(guān),而非引用文獻(xiàn)之間不一定完全無關(guān),因此,我們認(rèn)為SPECTER的假設(shè)可能引入噪聲訓(xùn)練樣本,從而影響模型最終的性能。
盡管SPECTER由計(jì)算機(jī)科學(xué)家提出,但基于引用關(guān)系衡量文獻(xiàn)間相關(guān)性的思想在圖情領(lǐng)域早已有論述[15]。此外,有些圖情領(lǐng)域?qū)W者發(fā)現(xiàn)引文共現(xiàn)層次關(guān)系[16]和引文鄰近距離[15]均可被用于衡量文獻(xiàn)間距離。例如,Elkiss等[16]發(fā)現(xiàn),“在相同的章節(jié)、段落或句子內(nèi)共同引用的論文更相似”(以下簡稱“引文共現(xiàn)層次關(guān)系假設(shè)”);Eto[15]提出“彼此距離較遠(yuǎn)的兩個引文比彼此距離較近的引文關(guān)系弱”的假設(shè)(以下簡稱“引文鄰近關(guān)系假設(shè)”)?;谏鲜鲇^點(diǎn),本文提出了一種新的引文共現(xiàn)層次采樣算法,該算法首先將文獻(xiàn)的篇章結(jié)構(gòu)轉(zhuǎn)換為引文共現(xiàn)層次樹,然后對多文獻(xiàn)的引文共現(xiàn)層次樹進(jìn)行融合構(gòu)造異構(gòu)引文共現(xiàn)網(wǎng)絡(luò),最后基于異構(gòu)引文共現(xiàn)網(wǎng)絡(luò)進(jìn)行正負(fù)樣本采樣,優(yōu)化學(xué)術(shù)文本的語義表征向量;并且通過論文分類、用戶行為預(yù)測、引文預(yù)測和論文推薦四類下游任務(wù),證實(shí)該方法在學(xué)術(shù)文獻(xiàn)特征表示上的有效性,從而回答以下兩個研究問題:(1)引文共現(xiàn)層次關(guān)系假設(shè)是否有助于學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)?(2)引文鄰近關(guān)系假設(shè)是否有助于學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)?
文本表示是指將自然語言符號轉(zhuǎn)化為計(jì)算機(jī)可處理、可計(jì)算的數(shù)學(xué)形式,是自然語言處理、文本分析挖掘任務(wù)中一個基礎(chǔ)且重要的步驟。當(dāng)前,文本表示方法主要有基于向量空間模型的方法[17]、基于主題模型的方法[18]、基于圖的方法[19]、基于知識庫的方法[20]以及基于神經(jīng)網(wǎng)絡(luò)的方法[21]。
基于向量空間模型的方法通過特征空間構(gòu)造和特征權(quán)重計(jì)算兩個步驟,將文本表示為特征空間中的高維向量,維度對應(yīng)于文本的特征項(xiàng),特征空間不同方向的坐標(biāo)對應(yīng)文本在不同特征項(xiàng)上的權(quán)重值。不同的向量空間模型主要是在特征項(xiàng)選擇方式或特征權(quán)重計(jì)算公式兩個方面進(jìn)行差異化設(shè)計(jì),常見的特征項(xiàng)包括詞根[22]、詞[23]、短語[24]及n-gram[25]等,特征項(xiàng)權(quán)重則主要采用詞頻、對數(shù)頻率權(quán)重、TF-IDF(term frequency-inverse document frequency)[26]和內(nèi)部類頻率[27]等計(jì)算方法。向量空間模型方法的特征項(xiàng)選擇建立在詞項(xiàng)組合和篩選的基礎(chǔ)上,容易導(dǎo)致特征項(xiàng)數(shù)量,即特征空間維度過高,從而陷入維數(shù)災(zāi)難[28]。
基于主題模型的方法通過概率生成模型將高維詞項(xiàng)空間映射到低維的主題空間,在降低空間維數(shù)的同時盡可能保留文本的主題語義信息,主題模型特征空間中的每個維度對應(yīng)一個主題,而主題則通常是一組詞的聚類。經(jīng)典概率主題模型LDA(latent Dirichlet allocation)[29]依據(jù)“文檔-主題”及“主題-詞項(xiàng)”的先驗(yàn)分布來估計(jì)一個概率圖生成模型,從而實(shí)現(xiàn)將“文檔-詞項(xiàng)”矩陣轉(zhuǎn)化為“文檔-主題”矩陣和“主題-詞項(xiàng)”矩陣,該模型假設(shè)主題隨機(jī)變量服從Dirichlet分布且主題之間相互獨(dú)立,忽視了語料中不同主題之間的相關(guān)性。有些研究針對LDA模型的假設(shè)缺陷進(jìn)行了優(yōu)化。例如,模型CTM(correlated topic model)[30]假設(shè)主題隨機(jī)變量符合邏輯斯蒂-正態(tài)概率分布,模型CGTM(correlated Gaussian topic model)[31]則運(yùn)用詞潛入技術(shù)把主題描述為向量空間中的多維高斯分布。也有些研究則在文檔、主題、詞項(xiàng)之外引入新的建模變量,如情感主題模型[32]、鏈接主題模型[33]、作者主題模型[34]等。
基于圖的文本表示方法的核心思想是依據(jù)某種規(guī)則將自然語言文本轉(zhuǎn)化為圖結(jié)構(gòu),圖中的節(jié)點(diǎn)為文本單元,邊則表示文本單元之間的關(guān)系,文本單元節(jié)點(diǎn)和邊類型的不同是該系列方法間的主要差異來源,常見的文本單元節(jié)點(diǎn)包括字、詞、短語、實(shí)體、句子等,邊關(guān)系則可以考慮共現(xiàn)關(guān)系、句法關(guān)系和語義關(guān)系等。例如,TextRank模型[35]將名詞、動詞、形容詞等組合起來構(gòu)造關(guān)鍵詞節(jié)點(diǎn),然后采用關(guān)鍵詞共現(xiàn)關(guān)系構(gòu)建節(jié)點(diǎn)之間邊。
基于知識庫的文本表示方法主要借用外部知識庫中的文本關(guān)聯(lián)關(guān)系對文本進(jìn)行表示建模,相較于其他方法,其構(gòu)造的語義特征空間更符合人類認(rèn)知。例如,ESA(explicit semantic analysis)模型[36]利用維基百科知識庫中的概念構(gòu)造語義特征空間,NTEE(neural text-entity encoder)模型[37]則在DBpe‐dia摘要語料和維基百科語料上捕捉詞、實(shí)體之間的語義聯(lián)系,構(gòu)造文本和實(shí)體的表示向量。
基于神經(jīng)網(wǎng)絡(luò)的方法利用多層深度神經(jīng)網(wǎng)絡(luò)的語義特征抽取能力,能夠從海量無監(jiān)督數(shù)據(jù)中逐級學(xué)習(xí)文本的有效特征表示,當(dāng)前該方法研究的主要優(yōu)化思路包括神經(jīng)網(wǎng)絡(luò)架構(gòu)優(yōu)化和無監(jiān)督訓(xùn)練任務(wù)優(yōu)化。其中,前者發(fā)展出LSTM(long short-term memory)、CNN(convolutional neural network)、Transformer等神經(jīng)網(wǎng)絡(luò)模型架構(gòu),而后者發(fā)展出word2vec(中心詞預(yù)測和鄰居詞預(yù)測)[38]、BERT(鄰居句預(yù)測和掩碼預(yù)測)[39]、ALBERT(a lite BERT)(句子順序預(yù)測)[40]、BART(bidirectional and auto-regressive transformers)(句子排列)[41]、PEGASUS(pre-training with extracted gap-sentences for abstractive summariza‐tion sequence-to-sequence models)(空白句填寫)[42]等研究工作。
相較于其他文本表示方法,基于神經(jīng)網(wǎng)絡(luò)的方法具有更強(qiáng)的表征能力,近期的大語言模型研究表明,拓展網(wǎng)絡(luò)深度和增大模型參數(shù)能夠極大地改善模型表征能力上限,并在零樣本學(xué)習(xí)、少樣本學(xué)習(xí)等任務(wù)上展現(xiàn)了令人驚嘆的優(yōu)勢[43]。
不同領(lǐng)域中語言可能呈現(xiàn)截然不同的特質(zhì),有必要開展針對特定領(lǐng)域的文本表示學(xué)習(xí)研究。相較于社交媒體、文學(xué)小說、商務(wù)信件等日常生活類文本,學(xué)術(shù)文本具有語言結(jié)構(gòu)規(guī)范、詞匯語義豐富、概念關(guān)系復(fù)雜等特點(diǎn)。如何充分挖掘?qū)W術(shù)文本間的關(guān)系、有效進(jìn)行學(xué)術(shù)文本特征表示始終是情報學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)等學(xué)科領(lǐng)域的重要研究內(nèi)容[44]。
根據(jù)處理文本粒度的差異,學(xué)術(shù)文本表示研究可分為詞匯層次、句段層次和文獻(xiàn)層次。其中,詞匯層次研究學(xué)術(shù)詞語的數(shù)學(xué)表示方法,主要用于學(xué)術(shù)詞語功能識別[9]、學(xué)術(shù)實(shí)體標(biāo)注[45]、學(xué)術(shù)實(shí)體鏈接等任務(wù);句段層次研究學(xué)術(shù)文本句子或段落的向量表示方法,主要用于學(xué)術(shù)文本句子分類[46]、學(xué)術(shù)文本段落結(jié)構(gòu)功能識別[47]、學(xué)術(shù)段落檢索等任務(wù);文獻(xiàn)層次的學(xué)術(shù)文本表示是研究如何構(gòu)建文獻(xiàn)整體層面的語義表示方法,它與文獻(xiàn)分類、學(xué)術(shù)搜索和論文推薦等下游任務(wù)具有天然的適配性,因此,當(dāng)前學(xué)術(shù)文本表示研究焦點(diǎn)已從詞匯句子層次轉(zhuǎn)移到文獻(xiàn)層次[48-50]。
文獻(xiàn)[13] 通過在大規(guī)模學(xué)術(shù)文獻(xiàn)語料庫(生物醫(yī)學(xué)和計(jì)算機(jī)科學(xué))上微調(diào)BERT神經(jīng)語言模型參數(shù),構(gòu)建了面向?qū)W術(shù)文本表示的SciBERT模型,并使用SciBERT模型抽取文獻(xiàn)標(biāo)題和摘要文本的語義向量作為文獻(xiàn)層次的表示向量。文獻(xiàn)[44] 使用無監(jiān)督圖神經(jīng)網(wǎng)絡(luò)方法,從學(xué)術(shù)文獻(xiàn)關(guān)系網(wǎng)絡(luò)(引文網(wǎng)絡(luò)、共被引網(wǎng)絡(luò)和文獻(xiàn)耦合網(wǎng)絡(luò))中學(xué)習(xí)通用的學(xué)術(shù)文獻(xiàn)特征表示向量,與SciBERT模型強(qiáng)調(diào)文本字面語義關(guān)系不同,該方法抽取的是文獻(xiàn)間的結(jié)構(gòu)關(guān)系特征。文獻(xiàn)[13] 提出一種SPECTER模型,該方法結(jié)合文獻(xiàn)間的相互引用關(guān)系構(gòu)建訓(xùn)練數(shù)據(jù)微調(diào)Sci‐BERT模型,從而將文獻(xiàn)間的結(jié)構(gòu)關(guān)系特征融入文本語義向量。
從自監(jiān)督對比學(xué)習(xí)的視角來看,SPECTER模型成功的關(guān)鍵在于采用學(xué)術(shù)文獻(xiàn)間的關(guān)系構(gòu)造代理任務(wù)(pretext task),且通過三元組對比損失將目標(biāo)(query)文獻(xiàn)與正樣本(positive)文獻(xiàn)的距離拉近,而將目標(biāo)文獻(xiàn)與負(fù)樣本(negative)文獻(xiàn)的距離拉遠(yuǎn)。文獻(xiàn)[51] 指出如何有效挖掘正樣本文獻(xiàn)以及負(fù)樣本文獻(xiàn)的選擇是影響學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)的關(guān)鍵,SPECTER模型將目標(biāo)文獻(xiàn)引用的文獻(xiàn)作為正樣本,將隨機(jī)文獻(xiàn)作為目標(biāo)文獻(xiàn)的負(fù)樣本,這種采樣方法有兩個缺陷:①引用文獻(xiàn)的動機(jī)是復(fù)雜的,被引文獻(xiàn)與施引文獻(xiàn)不一定在語義內(nèi)容上十分相關(guān);②隨機(jī)負(fù)樣本文獻(xiàn)不一定與目標(biāo)文獻(xiàn)無關(guān),即不精準(zhǔn)的采樣方法會引入噪聲訓(xùn)練樣本,從而影響模型最終的性能。針對上述問題,本文提出了一種新的引文共現(xiàn)層次采樣算法,可以有效地排除噪聲訓(xùn)練樣本,彌補(bǔ)SPECTER模型采樣方法的缺陷。
對于給定的文獻(xiàn)集合D=(d1,d2, …,dn),di是D中的一篇文獻(xiàn),文本表示學(xué)習(xí)的目標(biāo)是找到一個映射函數(shù)F,對于任意文獻(xiàn)di可將其表示為k維向量,即F(di)→(x1,x2,…,xk),且該語義向量可適用于不同的下游任務(wù)。已有研究表明,自監(jiān)督對比學(xué)習(xí)框架能夠?qū)W(xué)術(shù)文本進(jìn)行有效語義表征[13],挖掘文獻(xiàn)間的引用關(guān)系有利于優(yōu)化文獻(xiàn)層次的學(xué)術(shù)文本表示[51]。受此啟發(fā),本文采用自監(jiān)督對比學(xué)習(xí)框架,提出了一種基于引文共現(xiàn)的層次樹采樣算法,從結(jié)構(gòu)化全文數(shù)據(jù)中挖掘文獻(xiàn)間的潛在關(guān)聯(lián),構(gòu)造自監(jiān)督前置訓(xùn)練任務(wù)用于訓(xùn)練文獻(xiàn)級的學(xué)術(shù)文本表示模型,模型總體框架如圖1所示,主要包括3個部分。
圖1 模型總體框架
(1)引文共現(xiàn)層次采樣算法。該模塊從結(jié)構(gòu)化全文數(shù)據(jù)中挖掘不同層次的引文共現(xiàn)關(guān)系,構(gòu)建引文共現(xiàn)層次樹,然后融合成異構(gòu)引文共現(xiàn)網(wǎng)絡(luò),并進(jìn)行采樣構(gòu)造三元組訓(xùn)練數(shù)據(jù)(q,q+,q-)。
(2)語義編碼器。該模塊采用Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu),對輸入的學(xué)術(shù)文本進(jìn)行特征抽取,將di∈D映射為特征空間中的特征向量vi=(x1,x2,…,xk)。
(3)三元組對比損失函數(shù)。該模塊定義了模型的優(yōu)化目標(biāo),使訓(xùn)練數(shù)據(jù)中相關(guān)樣本(q,q+)的特征向量距離縮小,不相關(guān)樣本(q,q-)的特征向量距離拉大。
自監(jiān)督對比學(xué)習(xí)中,三元組(q,q+,q-)是指由3個樣本構(gòu)成的一條訓(xùn)練數(shù)據(jù),其中q稱為目標(biāo)樣本,q+和q-分別為正樣本和負(fù)樣本。在本文中,若q是給定的一篇學(xué)術(shù)文獻(xiàn),q+代表與q相關(guān)/相似的學(xué)術(shù)文獻(xiàn),q-則可以代表:①與q不相關(guān)/不相似的文獻(xiàn),常稱為簡單負(fù)樣本;②與q相關(guān)/相似但相關(guān)/相似程度小于q+的文獻(xiàn),又稱困難負(fù)樣本。已有研究表明,自監(jiān)督對比學(xué)習(xí)易受前置任務(wù)即三元組訓(xùn)練數(shù)據(jù)挖掘的影響[40,49];具體而言,對于任意目標(biāo)文獻(xiàn)q,如何定義相關(guān)與非相關(guān),并從無標(biāo)注數(shù)據(jù)中選擇正樣本q+和負(fù)樣本q-,是利用對比學(xué)習(xí)有效進(jìn)行學(xué)術(shù)文本表示的核心問題。文獻(xiàn)[51] 認(rèn)為,若目標(biāo)文獻(xiàn)q引用了文獻(xiàn)q+,則兩者相關(guān)且q+可作為三元組中的正樣本;若目標(biāo)文獻(xiàn)q未引用文獻(xiàn)q-,則q-可作為三元組中的負(fù)樣本。本質(zhì)上,是將文獻(xiàn)引用看作語義相關(guān),而無引用關(guān)系看作語義無關(guān),然而目標(biāo)文獻(xiàn)q引用的文獻(xiàn)q+不一定與文獻(xiàn)q語義相關(guān),而文獻(xiàn)q未引用的文獻(xiàn)q-也可能與q語義相關(guān),因此,該方法易導(dǎo)致引入噪聲數(shù)據(jù)。考慮到研究者在書寫學(xué)術(shù)論文時往往將相似的參考文獻(xiàn)并列/近鄰論述,即相關(guān)文獻(xiàn)在學(xué)術(shù)文獻(xiàn)結(jié)構(gòu)化全文數(shù)據(jù)中分布距離較近,本文提出了一種引文共現(xiàn)層次采樣算法,具體如圖2所示。該算法將文獻(xiàn)的篇章結(jié)構(gòu)轉(zhuǎn)換為引文共現(xiàn)層次樹,然后對多文獻(xiàn)的引文共現(xiàn)層次樹進(jìn)行融合構(gòu)造異構(gòu)引文共現(xiàn)網(wǎng)絡(luò),最后基于異構(gòu)引文共現(xiàn)網(wǎng)絡(luò)進(jìn)行正負(fù)樣本采樣,具體如下。
圖2 引文共現(xiàn)層次采樣
(1)單文獻(xiàn)引文共現(xiàn)層次樹構(gòu)建。對于文獻(xiàn)集合中的每一篇文獻(xiàn)d,其參考文獻(xiàn)列表記為REFL=(ref1,…,reft),依據(jù)參考文獻(xiàn)REFL在文獻(xiàn)d的篇章結(jié)構(gòu)布局構(gòu)建引文共現(xiàn)層次樹tree(d),具體過程如下:首先,將文獻(xiàn)標(biāo)題作為根節(jié)點(diǎn),并以章節(jié)標(biāo)題作為根節(jié)點(diǎn)的子節(jié)點(diǎn),即章節(jié)層子節(jié)點(diǎn);其次,對于每個章節(jié)節(jié)點(diǎn),將該章節(jié)下的每個段落作為對應(yīng)章節(jié)節(jié)點(diǎn)的子節(jié)點(diǎn),即段落層子節(jié)點(diǎn);再其次,對于每個段落節(jié)點(diǎn),將該段落中的每個句子作為該段落節(jié)點(diǎn)的一個子節(jié)點(diǎn),即句子層子節(jié)點(diǎn);最后,對于每個句子節(jié)點(diǎn),將句子中包含的參考文獻(xiàn)(引文)作為句子節(jié)點(diǎn)的葉子節(jié)點(diǎn)。對于任意引文refi和refj且i,j∈(1,t),若refi和refj擁有同一個章節(jié)祖先節(jié)點(diǎn),則稱refi和refj為章節(jié)共現(xiàn);若refi和refj擁有同一個段落祖先節(jié)點(diǎn),則稱refi和refj為段落共現(xiàn);若refi和refj擁有同一個句子父節(jié)點(diǎn),則稱refi和refj為句子共現(xiàn)。
(2)跨文獻(xiàn)引文共現(xiàn)融合。對于文獻(xiàn)集合D=(d1,d2, …,dn)中所有文獻(xiàn)均可構(gòu)建對應(yīng)的引文共現(xiàn)層次樹tree(di),i∈(1,n)。算法第二步以所有引文共現(xiàn)層次樹為輸入,輸出一個異構(gòu)引文共現(xiàn)網(wǎng)絡(luò)G,網(wǎng)絡(luò)G中的節(jié)點(diǎn)v為文獻(xiàn)集合D中出現(xiàn)的參考文獻(xiàn),網(wǎng)絡(luò)的邊etype=(refi, refj), type∈{coSection,coParagraph, coSentence},分別表示文獻(xiàn)refi和refj曾經(jīng)同時在某文獻(xiàn)的章節(jié)/段落/句子中共現(xiàn)。對于引文共現(xiàn)層次樹tree(d),遍歷該樹上的所有參考文獻(xiàn)節(jié)點(diǎn)refi∈REFL,若網(wǎng)絡(luò)G中不存在refi,則在G中添加refi。從tree(d)中任取兩個參考文獻(xiàn)節(jié)點(diǎn)refi和refj,若兩者在tree(d)中句子共現(xiàn),則在網(wǎng)絡(luò)G中添加邊(refi,coSentence, refj);若兩者在tree(d)中段落共現(xiàn),則在網(wǎng)絡(luò)G中添加邊(refi,coParagraph, refj);若兩者在tree(d)中章節(jié)共現(xiàn),則在網(wǎng)絡(luò)G中添加邊(refi,coSection,refj)。對文獻(xiàn)集合D中所有文獻(xiàn)的引文共現(xiàn)層次樹重復(fù)上述操作,即可完成異構(gòu)引文共現(xiàn)網(wǎng)絡(luò)G的構(gòu)造。
(3)訓(xùn)練數(shù)據(jù)采樣。給定異構(gòu)引文共現(xiàn)網(wǎng)絡(luò)G=(V,E),V表示網(wǎng)絡(luò)中的節(jié)點(diǎn)集合,即文獻(xiàn)集合D包含的所有參考文獻(xiàn);E表示網(wǎng)絡(luò)中節(jié)點(diǎn)間存在的邊,即任意兩節(jié)點(diǎn)在文獻(xiàn)集合D中是否存在章節(jié)/段落/句子共現(xiàn)。對于一篇目標(biāo)文獻(xiàn)q,在異構(gòu)引文共現(xiàn)網(wǎng)絡(luò)G中,隨機(jī)選擇K個鄰居節(jié)點(diǎn)作為正樣本q+,隨機(jī)選擇K個非鄰居節(jié)點(diǎn)作為負(fù)樣本q-,即構(gòu)建K個三元組訓(xùn)練數(shù)據(jù)。同理,對于一組N個目標(biāo)文獻(xiàn),重復(fù)上述過程構(gòu)建N×K個三元組數(shù)據(jù)。
語義編碼器是一個能夠?qū)W(xué)術(shù)文獻(xiàn)d的文本轉(zhuǎn)換為k維向量v=(x1,x2,…,xk)的神經(jīng)網(wǎng)絡(luò),理論上該模塊可采用任意神經(jīng)網(wǎng)絡(luò)模型,鑒于Transformer架構(gòu)[52]在自然語言處理任務(wù)中的優(yōu)異表現(xiàn),本文基于Transformer模型構(gòu)建了具有提取上下文功能的語義編碼器Encoder,Transformer模型能夠利用自注意力機(jī)制捕獲單詞之間的長距離依賴關(guān)系,并根據(jù)上下文信息動態(tài)調(diào)整詞嵌入,相較于其他文本特征表示模型表現(xiàn)更好。學(xué)術(shù)文獻(xiàn)全文的長度一般在8000~10000單詞,超出了絕大多數(shù)Transformer模型的處理能力,考慮到文獻(xiàn)的標(biāo)題和摘要提供了全文的簡潔而全面的概括,本文用特殊分割符[SEP] 將標(biāo)題文本和摘要文本拼接起來,輸入語義編碼器獲取文獻(xiàn)的特征表示,即
自監(jiān)督對比學(xué)習(xí)框架中,損失函數(shù)定義了模型優(yōu)化的方向,它指導(dǎo)語義編碼器Encoder調(diào)整神經(jīng)網(wǎng)絡(luò)層中的權(quán)重,輸出更符合優(yōu)化目標(biāo)的表示向量。本文采用三元組對比損失作為目標(biāo)優(yōu)化函數(shù),其公式為
其中,vq、vq+、vq-分別表示目標(biāo)文獻(xiàn)q、正樣本文獻(xiàn)q+和負(fù)樣本文獻(xiàn)q-的表示向量,對應(yīng)于文獻(xiàn)在語義編碼器上的輸出向量。m表示用于控制正負(fù)樣本距離間的偏離量,使模型不需要考慮優(yōu)化過于簡單的負(fù)例。dist(*)是距離函數(shù),本文采用歐幾里得距離,表示文獻(xiàn)i特征向量第m維的數(shù)值,計(jì)算公式為
本文使用艾倫人工智能研究院(Allen Institute for AI)發(fā)布的S2ORC(The Semantic Scholar Open Research Corpus)數(shù)據(jù)集[53]抽取數(shù)據(jù)訓(xùn)練模型,數(shù)據(jù)集靜態(tài)存儲版本為20200705v1。該版本數(shù)據(jù)集包含8100萬篇學(xué)術(shù)文獻(xiàn)元數(shù)據(jù),其中1200萬篇文獻(xiàn)存在結(jié)構(gòu)化的全文數(shù)據(jù),囊括文獻(xiàn)ID、標(biāo)題、摘要、章節(jié)標(biāo)題、段落文本、參考文獻(xiàn)列表及參考文獻(xiàn)出現(xiàn)的位置等信息。首先,遍歷1200萬篇全文文獻(xiàn)數(shù)據(jù),依據(jù)2.2節(jié)中的單文獻(xiàn)引文共現(xiàn)層次樹構(gòu)建及跨文獻(xiàn)引文共現(xiàn)融合方法,構(gòu)造異構(gòu)引文共現(xiàn)網(wǎng)絡(luò)G,該網(wǎng)絡(luò)共有52620852個節(jié)點(diǎn)和2216391068條邊。其次,從SPECTER的訓(xùn)練集三元組中抽取所有目標(biāo)文獻(xiàn)的標(biāo)題,并通過文本匹配獲取其在S2ORC數(shù)據(jù)集中對應(yīng)的文獻(xiàn)ID,共計(jì)獲取目標(biāo)文獻(xiàn)261821篇。最后,以上述文獻(xiàn)ID作為三元組采樣的目標(biāo)文獻(xiàn)集合,采用2.2節(jié)中介紹的訓(xùn)練數(shù)據(jù)采樣方法構(gòu)造三元組數(shù)據(jù),每個目標(biāo)文獻(xiàn)采樣5個正樣本和5個負(fù)樣本,共計(jì)構(gòu)造1309105個三元組。具體實(shí)驗(yàn)中,進(jìn)行了多組采樣策略,每組采樣策略均構(gòu)造1309105個三元組,然后訓(xùn)練對應(yīng)的模型,采樣策略設(shè)置詳見3.3節(jié)。
本文采用SciDocs基準(zhǔn)測試集[8]對實(shí)驗(yàn)結(jié)果進(jìn)行評估,該測試集包含論文分類、用戶行為預(yù)測、引文預(yù)測和論文推薦四類任務(wù),每個任務(wù)均不對學(xué)術(shù)文獻(xiàn)表示向量進(jìn)行額外微調(diào),而是直接將文本表示模型輸出的表示向量作為輸入特征執(zhí)行任務(wù)。例如,在論文分類任務(wù)中,每篇論文被文本表示模型轉(zhuǎn)化成向量后與一個簡單分類器相連,執(zhí)行分類并匯報結(jié)果。在引文預(yù)測任務(wù)中,成對的文獻(xiàn)被文本表示模型轉(zhuǎn)化成兩個向量,然后與一個分類器相連進(jìn)行二分類,其中,0表示兩個文獻(xiàn)沒有引用關(guān)系,1表示兩個文獻(xiàn)存在引用關(guān)系。除文本特征由文本表示模型抽取外,其他具體任務(wù)均由SciDocs評測腳本執(zhí)行,以保證評價的公平性。論文分類包含MeSH(medical subject headings)醫(yī)學(xué)主題詞分類[54]和MAG(Microsoft academic graph)領(lǐng)域標(biāo)簽分類兩個子任務(wù),其任務(wù)評價指標(biāo)為F1值,計(jì)算公式為
其中,Precison表示精確率;Recall表示召回率;F1值的取值范圍在0到1之間,越接近1,代表模型的分類效果越好。
用戶行為預(yù)測包括co-view共瀏覽和co-read共閱讀兩個子任務(wù)。co-view共瀏覽旨在預(yù)測用戶在同一會話中瀏覽的文獻(xiàn)集合,co-read共閱讀則是預(yù)測用戶在觀看某篇文獻(xiàn)頁面時是否會點(diǎn)擊其他文獻(xiàn)的獲取鏈接。該類任務(wù)采用nDCG(normalized dis‐counted cumulative gain)和MAP(mean average pre‐cision)兩個指標(biāo)進(jìn)行評價。nDCG值越大,代表模型的排序效果越好,即推薦結(jié)果和用戶真實(shí)興趣度的匹配程度越高;MAP反映的是平均精度,越接近1,說明排序效果越好。計(jì)算公式分別為
其中,f(di)表示文獻(xiàn)di的價值得分;K表示截取文獻(xiàn)數(shù);|R|表示按價值得分從大到小排列的前K條文獻(xiàn);AP值表示Precision和Recall曲線下的面積;N表示相關(guān)樣本總數(shù)。
引文預(yù)測任務(wù)分為引用預(yù)測和共引預(yù)測,即給定某篇文獻(xiàn),預(yù)測其引用文獻(xiàn)和共引文獻(xiàn),該類任務(wù)也采用nDCG和MAP兩個指標(biāo)進(jìn)行評價。論文推薦任務(wù)是根據(jù)查詢文獻(xiàn)向用戶推薦相似文獻(xiàn)列表,并通過點(diǎn)擊事件獲取用戶反饋,該任務(wù)采用傾向調(diào)整P@1和兩個指標(biāo)進(jìn)行評價,計(jì)算公式分別為
其中,R@1表示排在第一位的文獻(xiàn)是否與用戶的查詢相關(guān),相關(guān)則其值為1,否則為0;T@1表示在模型返回的排序結(jié)果中,排在第一位的文獻(xiàn)總數(shù);P@1表示第一篇文獻(xiàn)的預(yù)測準(zhǔn)確率;N表示多個查詢總數(shù);nDCGn表示第n個查詢的nDCG值;值通常用于評估排序算法的性能。
SciDocs基準(zhǔn)測試集的數(shù)據(jù)構(gòu)建及任務(wù)詳情參見文獻(xiàn)[14] 。
為了回答引言中提出的兩個研究問題,本文基于以下采樣策略訓(xùn)練了多個模型。
(1)隨機(jī)采樣。按照2.2節(jié)所述,對于每一個目標(biāo)文獻(xiàn)隨機(jī)從異構(gòu)引文共現(xiàn)網(wǎng)絡(luò)取5個鄰居節(jié)點(diǎn)作為正樣本,隨機(jī)取5個非鄰居節(jié)點(diǎn)作為負(fù)樣本。基于隨機(jī)采樣可構(gòu)建三元組訓(xùn)練模型,記為CCHT(Random)。
(2)正樣本固定層次采樣。在隨機(jī)采樣的基礎(chǔ)上,限制正樣本鄰居節(jié)點(diǎn)必須來源于同一類邊。例如,固定正樣本采樣層次為同句共現(xiàn)時,在異構(gòu)網(wǎng)絡(luò)中找到與目標(biāo)文獻(xiàn)相連且類型為coSentence的邊,并以這些邊連接的鄰居節(jié)點(diǎn)為候選集合,隨機(jī)抽取5個作為正樣本,且負(fù)樣本采樣隨機(jī)采樣。分別固定正樣本采樣層次為句子共現(xiàn)、段落共現(xiàn)和章節(jié)共現(xiàn),可構(gòu)建三個三元組集合,基于不同三元組集合分別訓(xùn)練3個模型,記為CCHT(Sentence)、CCHT(Paragraph)、CCHT(Section)。
(3)困難負(fù)樣本采樣。已有研究表明,選擇與目標(biāo)文獻(xiàn)完全不相似的隨機(jī)負(fù)樣本無法為模型訓(xùn)練提供有效梯度,在采樣過程中引入困難負(fù)樣本有利于特征表示學(xué)習(xí)[14]。考慮不同層次共現(xiàn)關(guān)系,本文設(shè)計(jì)了一種困難負(fù)樣本選擇方法,具體如下:Q+表示與目標(biāo)文獻(xiàn)q句子共現(xiàn)的文獻(xiàn)集合,Q-表示與目標(biāo)文獻(xiàn)q段落或章節(jié)共現(xiàn)的文獻(xiàn)集合,表示目標(biāo)文獻(xiàn)q的非共現(xiàn)文獻(xiàn)集合,取q+∈Q+為正樣本,正樣本數(shù)量為5;取q-∈Q-為困難負(fù)樣本,困難負(fù)樣本數(shù)量為kq-;取為簡單負(fù)樣本,簡單負(fù)樣本數(shù)量為5-kq-。此時,研究假設(shè)相較于段落或章節(jié)共現(xiàn)的文獻(xiàn),句子共現(xiàn)的文獻(xiàn)具有更高的語義相似度。為分析困難負(fù)樣本數(shù)量對模型的影響,kq-的取值設(shè)置為[1,2,3,4,5] ,并基于不同三元組集合訓(xùn)練5個模型,分別記為CHTT(0.2)、CHTT(0.4)、CHTT(0.6)、CHTT(0.8)和CHTT(1.0),括號中的數(shù)值表示困難負(fù)樣本占總負(fù)樣本的比例。
隨機(jī)采樣和正樣本固定層次采樣策略均采用引文共現(xiàn)層次關(guān)系假設(shè),即在相同的章節(jié)、段落或句子內(nèi)共同引用的論文更相似。困難負(fù)樣本采樣策略則采用引文鄰近關(guān)系假設(shè),即句子共現(xiàn)的文獻(xiàn)比段落或章節(jié)共現(xiàn)的文獻(xiàn)更相似。
語義編碼器采用Transformer模型架構(gòu),模型架構(gòu)參數(shù)與SciBERT[13]相同,包括12層Transformer網(wǎng)絡(luò),每層的隱藏狀態(tài)尺寸為768,每層包含12個自注意力頭。實(shí)驗(yàn)采用Adam優(yōu)化器進(jìn)行模型訓(xùn)練,學(xué)習(xí)率設(shè)為2e-5,dropout始終保持為0.1,beta1設(shè)為0.9,beta2設(shè)為0.999,batch size設(shè)置為8,且使用梯度累計(jì)技術(shù)將實(shí)際批次大小增大到256,每個模型均在V100 GPU上進(jìn)行兩個周期的迭代訓(xùn)練,即epoch=2。模型在2個V100 GPU上進(jìn)行并行訓(xùn)練,每個迭代周期耗時約25小時。
本文與多個基線方法進(jìn)行了比較,包括基于詞向量的通用文本表示方法doc2vec[55]、FastText-sum[56]、SIF(smooth inverse frequency)[57]、ELMo[5]和Citeo‐matic[58],基于圖卷積的通用文本表示方法SGC(simple graph convolution)[59],基于句向量的通用文本表示方法Sentence-BERT[60],學(xué)術(shù)文本表示方法SciBERT[13]和SPECTER[14],以及非監(jiān)督對比學(xué)習(xí)表示方法Unsup-SimCSE(simple contrastive sentence embedding)[61]、Contriever[62]和DiffCSE(differencebased contrastive learning for sentence embeddings)[63]。
表1匯總了各模型在SciDocs測試集各任務(wù)上的效果??傮w而言,可以觀察到本文提出的CHTT(Random)學(xué)術(shù)文獻(xiàn)表示模型在所有任務(wù)上均取得了顯著的改進(jìn),所有任務(wù)指標(biāo)的平均值為81.1,比次優(yōu)基線(SPECTER)提高了1.1。
對于MAG分類任務(wù)而言,SPECTER性能表現(xiàn)最優(yōu),F(xiàn)1值為82;其次是CCHT(Random),F(xiàn)1值為81.1,比SPECTER略低。在MeSH分類任務(wù)中,CCHT(Random)得分最高,其F1值高達(dá)88.9,比SPECTER高出2.5。此外,針對所有的用戶活動預(yù)測和引文預(yù)測任務(wù),CCHT(Random)相對于所有基線表現(xiàn)更為出色。最后,就推薦任務(wù)而言,SPEC‐TER的P@1指標(biāo)表現(xiàn)最佳,達(dá)到了20,而CCHT(Random)的P@1指標(biāo)得分為19.3。然而,在指標(biāo)方面,CCHT(Random)表現(xiàn)與SPECTER相當(dāng)。
本文旨在評估CCHT方法中三元組訓(xùn)練數(shù)據(jù)集選擇對性能的影響。結(jié)果顯示,基于引文共現(xiàn)的層次樹采樣算法可以明顯提升SciDocs測試集任務(wù)上的性能表現(xiàn),特別是在用戶行為預(yù)測和引文預(yù)測任務(wù)上的提升效果最為明顯。由表1可以發(fā)現(xiàn),平均性能分?jǐn)?shù)從80.0提升至81.1,其提升效果較為顯著,這有助于在實(shí)際應(yīng)用中為學(xué)術(shù)界和產(chǎn)業(yè)界提供更加準(zhǔn)確可靠的分類、推薦、用戶行為預(yù)測和引文預(yù)測服務(wù)。
表2展示了3個學(xué)術(shù)文獻(xiàn)表示模型——CCHT(Sentence)、CCHT(Paragraph)和CCHT(Section)與最優(yōu)基線SPECTER在SciDocs測試集任務(wù)上性能表現(xiàn)??傮w而言,CCHT(Sentence)、CCHT(Paragraph)和CCHT(Section)在所有指標(biāo)上的平均性能達(dá)到了81.3、81.2和81.1,比之前最先進(jìn)的SPECTER模型分別提高了1.3、1.2和1.1。由表2可知,CCHT(Sentence)性能優(yōu)于CCHT(Paragraph)和CCHT(Sec‐tion),這說明句子共現(xiàn)相關(guān)性>段落共現(xiàn)相關(guān)性>章節(jié)共現(xiàn)相關(guān)性。因此,句子共現(xiàn)、段落共現(xiàn)和章節(jié)共現(xiàn)這3種不同層次的相關(guān)性明顯會影響到學(xué)術(shù)文獻(xiàn)的表征學(xué)習(xí),進(jìn)而導(dǎo)致模型在SciDocs各任務(wù)中的性能變化。
表2 正樣本固定層次采樣模型在SciDocs測試集上的評價結(jié)果
對于MAG分類,SPECTER表現(xiàn)效果最好,F(xiàn)1達(dá)到了82.0;其次是CCHT(Section),F(xiàn)1為80.9,降低了1.1。對于MeSH分類,CCHT(Section)得分最高,F(xiàn)1為88.9,比SPECTER(86.4)高出2.5。在用戶活動預(yù)測(user activity prediction)任務(wù)中,CCHT(Sentence)、CCHT(Paragraph)和CCHT(Section)模型的MAP和nDCG評分均高于其他基線。此外,對于引文預(yù)測任務(wù),也存在類似的趨勢,本文模型的性能表現(xiàn)均超過了SPECTER。在推薦任務(wù)上,CCHT(Sentence)在該任務(wù)上的表現(xiàn)明顯優(yōu)于SPEC‐TER(次優(yōu)基線),和P@1分別達(dá)到了54.7和20.8。
總之,本文的研究結(jié)果表明,基于不同細(xì)粒度層級的共現(xiàn)關(guān)系對CCHT模型的性能至關(guān)重要,均會使其在SciDocs測試集上的性能得到提升。
圖3顯示了當(dāng)困難負(fù)樣本采樣比例取值分別為0、0.2、0.4、0.6、0.8和1.0時,CCHT(Sentence)模型在SciDocs測試集中4個任務(wù)上的平均性能變化趨勢。當(dāng)困難負(fù)樣本采樣比例逐步增大時,模型在論文分類、用戶行為預(yù)測、引文預(yù)測和論文推薦四類任務(wù)上的指標(biāo)平均值均呈現(xiàn)下降趨勢,且當(dāng)困難負(fù)樣本數(shù)量取值為0時,模型性能達(dá)到峰值。
圖3 困難負(fù)樣本采樣比例在SciDocs測試集上的結(jié)果變化趨勢
Cohan等[14]已證實(shí)在采樣過程中引入有效困難負(fù)樣本有利于特征表示學(xué)習(xí)。本文假設(shè),相較于段落或章節(jié)共現(xiàn)的文獻(xiàn),句子共現(xiàn)的文獻(xiàn)具有更高的語義相似度,并基于此進(jìn)行困難負(fù)樣本采樣。研究結(jié)果表明,該方法易引入噪聲數(shù)據(jù),導(dǎo)致模型性能隨困難負(fù)樣本比例升高而降低。CCHT(Sentence)模型的困難負(fù)樣本候選集Q-是與目標(biāo)文獻(xiàn)段落或章節(jié)共現(xiàn)的文獻(xiàn)集合,理論上來說,研究者在書寫學(xué)術(shù)論文時,往往將相似的參考文獻(xiàn)并列/近鄰論述,即同句中的參考文獻(xiàn)相關(guān)性更高,而困難負(fù)樣本與目標(biāo)文獻(xiàn)距離較遠(yuǎn),相關(guān)性更低。但實(shí)際上,由于各研究者思維邏輯和書寫風(fēng)格的多樣化,在學(xué)術(shù)文獻(xiàn)結(jié)構(gòu)化全文數(shù)據(jù)中,分布距離較遠(yuǎn)的文獻(xiàn)之間相關(guān)性也可能較高。例如,在圖4中,假設(shè)目標(biāo)文獻(xiàn)q取11,則其困難負(fù)樣本集合Q-為(50, 51),由該片段可知,q與Q-均表示被引量預(yù)測主題相關(guān)研究,即目標(biāo)文獻(xiàn)與困難負(fù)樣本之間的語義相似度并不如理論而言是較低的;反之,是較高的。因此,本文在異構(gòu)引文共現(xiàn)網(wǎng)絡(luò)中,根據(jù)層次采樣引入困難負(fù)樣本,容易導(dǎo)致引入噪聲數(shù)據(jù),從而影響模型最終性能。
圖4 同段落文獻(xiàn)結(jié)構(gòu)片段(截取自文獻(xiàn)[64] )
為進(jìn)一步深入分析CCHT模型的表達(dá)性,本文利用t-SNE(t-distributed stochastic neighbor embed‐ding)算法在SciDocs文本分類任務(wù)MeSH數(shù)據(jù)集上執(zhí)行可視化,Unsup-SimCSE、SPECTER以及CCHT這3個模型抽取的學(xué)術(shù)文獻(xiàn)表示向量被投影為二維平面中的點(diǎn),具體如圖5所示,圖中點(diǎn)的顏色代表文獻(xiàn)原本所屬的醫(yī)學(xué)類型。由圖5可知,非監(jiān)督對比學(xué)習(xí)表示方法Unsup-SimCSE在不同類之間呈現(xiàn)模糊的邊界,難以學(xué)習(xí)到判別性強(qiáng)的低維表示。針對已有方法中最優(yōu)模型SPECTER,雖然多數(shù)類型的節(jié)點(diǎn)被清晰地分類,但部分類別間仍然存在一定重疊,少數(shù)類型數(shù)據(jù)點(diǎn)無法被清晰地識別。本文的CCHT模型將點(diǎn)清晰地劃分成不同的部分,即CCHT模型的表示向量具有更顯著的區(qū)分能力,CCHT模型有能力將同類型的文獻(xiàn)投射到距離相近的空間中,并將不同類型文獻(xiàn)間的距離拉開。
圖5 不同方法表示向量的可視化分析(彩圖請見https://qbxb.istic.ac.cn)
有效進(jìn)行學(xué)術(shù)文本特征表示,是實(shí)現(xiàn)學(xué)術(shù)文獻(xiàn)的分類、組織、檢索和推薦的關(guān)鍵。本文將圖情領(lǐng)域的引文共現(xiàn)層次關(guān)系假設(shè)[16]及引文鄰近關(guān)系假設(shè)[15]引入自監(jiān)督對比學(xué)習(xí)框架,提出一種基于引文共現(xiàn)層次采樣算法的學(xué)術(shù)文本表示學(xué)習(xí)方法,在SciDocs基準(zhǔn)測試集上,針對論文分類、用戶行為預(yù)測、引文預(yù)測以及論文推薦四大下游任務(wù)進(jìn)行了相關(guān)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,CCHT(Random)模型在SciDocs基準(zhǔn)測試集中性能優(yōu)于其他先進(jìn)的基線模型,且比已有研究的最佳模型SPECTER提高了1.1,即引入引文共現(xiàn)層次關(guān)系假設(shè)能夠有效提升學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)模型效果。針對引文鄰近關(guān)系假設(shè)(句子共現(xiàn)的文獻(xiàn)比段落或章節(jié)共現(xiàn)的文獻(xiàn)更相似),本文通過引入困難負(fù)樣本采樣構(gòu)造三元組訓(xùn)練模型。實(shí)驗(yàn)結(jié)果表明,該方式易引入噪聲數(shù)據(jù),即引文鄰近關(guān)系假設(shè)在學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)研究中不完全成立。這可能是因?yàn)楸疚亩x的困難負(fù)樣本為同段/同章共現(xiàn)引文,這些文獻(xiàn)之間的語義關(guān)系十分接近,在構(gòu)建正負(fù)樣本對時容易出現(xiàn)對撞數(shù)據(jù),即目標(biāo)文獻(xiàn)與正樣本的距離大于目標(biāo)文獻(xiàn)與負(fù)樣本的距離,在模型訓(xùn)練過程引入了噪聲數(shù)據(jù),從而影響了模型最終的性能。如何排除困難負(fù)樣本中的噪聲數(shù)據(jù)是后續(xù)研究可改進(jìn)的方向之一。
此外,受限于GPU計(jì)算資源,本文根據(jù)經(jīng)驗(yàn)設(shè)置了部分超參數(shù),如實(shí)驗(yàn)中對每個目標(biāo)文獻(xiàn)僅采樣k=5個三元組數(shù)據(jù),改變超參數(shù)設(shè)置可能也會對模型訓(xùn)練產(chǎn)生積極影響,值得進(jìn)一步探索。另外,如何考慮文獻(xiàn)共現(xiàn)次數(shù)構(gòu)建加權(quán)異構(gòu)共引網(wǎng)絡(luò),改進(jìn)三元組采樣也是值得探索的研究方向。最后,在對比學(xué)習(xí)框架下?lián)p失函數(shù)是關(guān)鍵核心組件,設(shè)計(jì)更適合于學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)的對比損失函數(shù)是未來研究的重要方向之一。