摘 要: [目的/ 意義] 現(xiàn)有的引文推薦方法大多采用基于元路徑的網(wǎng)絡(luò)表示學(xué)習(xí)方法, 但該類方法通常存在忽略節(jié)點(diǎn)間復(fù)雜交互、 過度依賴領(lǐng)域知識(shí)等問題。 [方法/ 過程] 本研究提出了一種基于異質(zhì)圖卷積網(wǎng)絡(luò)的方法, 旨在有效融合多維學(xué)術(shù)特征來提高推薦的準(zhǔn)確性。 首先利用預(yù)訓(xùn)練的 BERT 模型提取論文語義特征。 然后設(shè)計(jì)一個(gè)注意力感知的圖卷積神經(jīng)網(wǎng)絡(luò)以自動(dòng)學(xué)習(xí)異質(zhì)學(xué)術(shù)信息網(wǎng)絡(luò)中節(jié)點(diǎn)的鄰域信息。 最后融合網(wǎng)絡(luò)結(jié)構(gòu)和語義信息以生成論文表示。 [結(jié)果/ 結(jié)論] 在 3 個(gè)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn), 結(jié)果表明所提出方法在各項(xiàng)指標(biāo)上均優(yōu)于基線模型。 案例分析進(jìn)一步證實(shí)了該方法在引文推薦任務(wù)中的有效性和適用性。
關(guān)鍵詞: 引文推薦; 圖卷積網(wǎng)絡(luò); 異質(zhì)信息網(wǎng)絡(luò); 注意力機(jī)制; 自然語言處理
DOI:10.3969 / j.issn.1008-0821.2025.07.003
〔中圖分類號(hào)〕 TP391.1; TP183 〔文獻(xiàn)標(biāo)識(shí)碼〕 A 〔文章編號(hào)〕 1008-0821 (2025) 07-0026-10
引文是學(xué)術(shù)論文的重要內(nèi)容之一。 通過對(duì)現(xiàn)有文獻(xiàn)的梳理, 研究人員能夠完善理論框架、 優(yōu)化研究方法, 同時(shí)有助于讀者理解領(lǐng)域知識(shí)體系發(fā)展的脈絡(luò)。 然而, 隨著技術(shù)的進(jìn)步, 學(xué)術(shù)論文的數(shù)量呈指數(shù)級(jí)的增長, 這給研究人員帶來了前所未有的挑戰(zhàn)。 研究人員需要投入更多的時(shí)間和精力用于引文檢索, 同時(shí)還要面臨著錯(cuò)失關(guān)鍵文獻(xiàn)以及出現(xiàn)引用偏差的風(fēng)險(xiǎn)。 面對(duì)海量的科學(xué)論文, 如何準(zhǔn)確而高效地篩選引文成為了一個(gè)亟需解決的難題。
引文推薦系統(tǒng)作為解決學(xué)術(shù)信息過載的有效工具, 受到學(xué)界和工業(yè)界廣泛關(guān)注。 這類系統(tǒng)利用機(jī)器學(xué)習(xí)和自然語言處理技術(shù), 為研究人員提供個(gè)性化的引文推薦, 顯著提高了引文檢索和篩選的效率?,F(xiàn)有的引文推薦系統(tǒng)依據(jù)方法上的差異主要可分為基于內(nèi)容的推薦、 基于協(xié)同過濾的推薦和基于圖的推薦。 基于內(nèi)容的推薦通過分析論文的題目、 摘要和全文內(nèi)容, 識(shí)別出與查詢論文在文本語義上相匹配的文獻(xiàn)[1]。 然而, 過度依賴文本內(nèi)容可能導(dǎo)致推薦系統(tǒng)在同一主題下產(chǎn)生過于相似的結(jié)果, 從而削弱了個(gè)性化推薦的效果。 相比之下, 基于協(xié)同過濾的推薦通過分析論文間的引用模式來生成推薦結(jié)果[2]。 雖然基于協(xié)同過濾的方法在捕捉隱含的引用模式方面表現(xiàn)出色, 但該方法常遭受數(shù)據(jù)稀疏和冷啟動(dòng)問題。
近年來, 基于圖的方法因其強(qiáng)大的信息融合能力和對(duì)復(fù)雜關(guān)系的建模優(yōu)勢而常被用于引文推薦任務(wù)中[3-6]。 這類方法的核心思想是構(gòu)建異構(gòu)信息網(wǎng)絡(luò)(Heterogeneous Information Network, HIN), 將論文的多維度元信息(如作者、 發(fā)表期刊、 年份等)以及它們之間的復(fù)雜關(guān)系整合到一個(gè)統(tǒng)一的圖結(jié)構(gòu)中。 通過這種方式, 模型能夠有效地捕捉和利用學(xué)術(shù)生態(tài)系統(tǒng)中的豐富語義信息和結(jié)構(gòu)特征, 從而顯著提升推薦性能。 在這些基于圖的方法中, 基于元路徑的方法已成為引文推薦研究的主流方向之一[3,7-8]。Yu X 等[3]借助判別性術(shù)語分桶和基于元路徑的特征空間來預(yù)測可能的引用鏈接。 Chen J 等[7] 提出了一種多元路徑融合的引文推薦框架。 該框架利用 3 種預(yù)先定義的元路徑來捕獲學(xué)術(shù)網(wǎng)絡(luò)中的多維語義關(guān)系。 孫金柱等[9]利用注意力學(xué)習(xí)不同關(guān)聯(lián)關(guān)系以生成引文的深層次語義向量表示。 盡管基于元路徑的方法在引文推薦中取得了顯著成效, 然而該類方法往往將不同類型的學(xué)術(shù)信息孤立處理, 忽視了信息之間的相互影響。 例如, 一篇論文的引用行為可能同時(shí)受到其主題內(nèi)容、 作者、 發(fā)表期刊(會(huì)議) 等多個(gè)因素的綜合作用, 這種多維度信息的動(dòng)態(tài)交互難以通過預(yù)定義的靜態(tài)元路徑準(zhǔn)確捕捉。 此外, 元路徑的設(shè)計(jì)和選擇通常依賴領(lǐng)域?qū)<抑R(shí), 這可能導(dǎo)致一些潛在有價(jià)值的信息被忽略。
針對(duì)以上問題, 本研究提出一種基于異質(zhì)圖卷積網(wǎng)絡(luò)的方法(Heterogeneous Graph Convolutional Net?works, HGCN)用于融合多維學(xué)術(shù)特征以提高推薦的準(zhǔn)確性。 HGCN 通過引入注意力機(jī)制, 能夠動(dòng)態(tài)評(píng)估和調(diào)整不同關(guān)系類型及鄰居節(jié)點(diǎn)的重要程度,從而消除了人工設(shè)計(jì)元路徑的需求。 具體地, 首先使用預(yù)訓(xùn)練的 BERT 模型從論文內(nèi)容中提取豐富的語義特征, 然后基于論文的元數(shù)據(jù)和多種關(guān)系構(gòu)建異質(zhì)學(xué)術(shù)信息網(wǎng)絡(luò), 并設(shè)計(jì)一個(gè)注意感知的圖卷積網(wǎng)絡(luò), 自動(dòng)識(shí)別不同類型關(guān)系的重要性, 實(shí)現(xiàn)動(dòng)態(tài)聚合鄰域信息, 從而生成融合網(wǎng)絡(luò)拓?fù)浜驼Z義信息的論文表示。 這種自適應(yīng)的關(guān)系學(xué)習(xí)策略不僅提高了模型的靈活性和泛化能力, 還能更有效地捕捉學(xué)術(shù)網(wǎng)絡(luò)中的復(fù)雜交互模式, 為引文推薦任務(wù)提供了更加精準(zhǔn)和全面的信息基礎(chǔ)。
1 國內(nèi)外研究進(jìn)展
1.1 引文推薦模型
引文推薦是基于給定查詢論文的內(nèi)容和特征,預(yù)測并推薦該論文可能引用的其他相關(guān)論文。 引文推薦根據(jù)推薦范圍可分為局部推薦和全局推薦。 局部引文推薦是一種針對(duì)性的引文推薦任務(wù), 其目標(biāo)是基于學(xué)術(shù)論文中的特定文本片段(通常是 1 個(gè)段落或幾個(gè)句子)為研究人員推薦相關(guān)的引用文獻(xiàn)。 這種任務(wù)的核心在于評(píng)估候選引文與給定查詢文本之間的語義相似度和主題相關(guān)性。 然而, 只考慮局部上下文, 推薦系統(tǒng)可能會(huì)忽視論文的整體主題和結(jié)構(gòu),導(dǎo)致推薦結(jié)果與論文的整體論述不一致[10]。 全局引文推薦是基于整個(gè)查詢論文(如, 已有引用、 標(biāo)題或摘要)進(jìn)行推薦, 可以提供更廣闊的視角[11], 也是本研究關(guān)注的問題。
現(xiàn)有的引文推薦系統(tǒng)研究可分為三類: 基于內(nèi)容的推薦、 基于協(xié)同過濾的推薦和基于圖的推薦[12]。基于內(nèi)容的引文推薦主要利用論文的文本信息, 計(jì)算論文間的語義相似度, 提供引用推薦[1,13]。 這種方法常采用主題模型來提取論文的語義特征, 并基于主題分布的相似性來推薦潛在的引用文獻(xiàn)[13]。 但同一個(gè)研究主題往往包含大量的論文, 需要更準(zhǔn)確地捕捉引用偏好。 協(xié)同過濾方法在引文推薦中將引用關(guān)系類比為用戶—項(xiàng)目交互。 它把引用論文視為“用戶”, 把被引論文視為 “項(xiàng)目”。 這種方法假設(shè)具有相似引用行為的論文可能在主題或方法上存在相關(guān)性。 通過分析論文的引用模式, 識(shí)別相似論文并推薦潛在的參考文獻(xiàn)[14]。 但該方法往往存在冷啟動(dòng)和數(shù)據(jù)稀疏問題。
為了克服上述局限, 整合論文內(nèi)容信息和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的圖推薦方法被廣泛應(yīng)用于引文推薦任務(wù),尤其是異構(gòu)信息網(wǎng)絡(luò)顯示出巨大潛力[9]。 WeightedHeterogeneous Information Network Containing Seman?tic Linking(WHIN-CSL)模型[7] 構(gòu)建包含語義鏈接的加權(quán)異構(gòu)信息網(wǎng)絡(luò), 通過網(wǎng)絡(luò)表示學(xué)習(xí)和多模態(tài)相似度的線性組合提高推薦準(zhǔn)確性。 但該研究直接應(yīng)用了同構(gòu)網(wǎng)絡(luò)的 Node2vec 算法而沒有考慮節(jié)點(diǎn)和邊的異質(zhì)性。 為此, 許多學(xué)者改進(jìn)了基于元路徑的異構(gòu)網(wǎng)絡(luò)表示方法。 CRM-HIN 模型[8] 通過構(gòu)建包含文獻(xiàn)內(nèi)容和多種關(guān)系的異構(gòu)網(wǎng)絡(luò), 結(jié)合元路徑和隨機(jī)游走進(jìn)行表示學(xué)習(xí), 有效地融合了語義和結(jié)構(gòu)信息。 Heterogeneous Graph Attention Network for Ci?tation Recommendation(HAN-CR)模型[9] 通過構(gòu)建包含語義鏈接的異構(gòu)網(wǎng)絡(luò), 基于預(yù)定義的元路徑并結(jié)合雙層注意力機(jī)制進(jìn)行網(wǎng)絡(luò)表示學(xué)習(xí), 實(shí)現(xiàn)了更準(zhǔn)確的論文表示。 以上這些模型均采用基于元路徑的方法從異構(gòu)學(xué)術(shù)網(wǎng)絡(luò)中提取結(jié)構(gòu)化信息, 在一定程度上提高了引文推薦的性能。 然而, 現(xiàn)有方法存在兩個(gè)主要局限性。 首先, 這些方法往往忽視了不同類型信息之間的相互影響和復(fù)雜關(guān)聯(lián)。 學(xué)術(shù)網(wǎng)絡(luò)中的實(shí)體(如作者、 論文、 發(fā)表期刊等)通過多種方式相互關(guān)聯(lián), 這些關(guān)聯(lián)可能對(duì)推薦結(jié)果產(chǎn)生重要影響。其次, 基于元路徑的方法通常依賴于人工定義的元路徑, 這不僅需要大量領(lǐng)域?qū)<抑R(shí), 而且可能導(dǎo)致有價(jià)值的隱含路徑被忽略[15]。 這種人為定義的方式難以全面捕捉網(wǎng)絡(luò)中的復(fù)雜關(guān)系, 可能導(dǎo)致推薦結(jié)果的偏差或不完整。
1.2 基于異質(zhì)信息網(wǎng)絡(luò)的表示學(xué)習(xí)
網(wǎng)絡(luò)表示學(xué)習(xí)旨在將網(wǎng)絡(luò)的結(jié)構(gòu)信息編碼并映射至低維稠密的向量空間以此獲取節(jié)點(diǎn)的表示, 同時(shí)保留結(jié)構(gòu)特征[16-17]。 在推薦系統(tǒng)中, 大多數(shù)建模方法是基于 “用戶—物品” 二部圖, 如經(jīng)典的協(xié)同過濾方法。 然而, 這種建模方式依賴于用戶與物品的交互信息, 易遭受數(shù)據(jù)稀疏和冷啟動(dòng)問題。 為了緩解以上問題, 研究人員提出基于異質(zhì)信息網(wǎng)絡(luò)的建模方法[18]。 通過構(gòu)建異質(zhì)信息網(wǎng)絡(luò), 推薦系統(tǒng)可以融合用戶—物品的交互信息和輔助信息, 并以此建模用戶和物品的特征表示。 基于元路徑的方法是異質(zhì)信息網(wǎng)絡(luò)表示學(xué)習(xí)中一種常用的方法[19-21], 其中元路徑是由在不同對(duì)象類型之間定義的關(guān)系序列(即元級(jí)別的結(jié)構(gòu)路徑) 組成的路徑。 例如, Path?Sim[19]提出了一種基于元路徑的相似性度量方法,用于捕捉異構(gòu)網(wǎng)絡(luò)中同類對(duì)象之間的語義關(guān)系。 通過預(yù)定義的元路徑, 這種方法能夠?qū)?fù)雜的異構(gòu)網(wǎng)絡(luò)投影為多個(gè)語義明確的同構(gòu)子網(wǎng)絡(luò)。 NeuACF[20]基于元路徑相似提取項(xiàng)目的多方面相似性矩陣, 通過深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)不同方面的嵌入。 為了解決基于相似度的方法難以充分挖掘元路徑中的結(jié)構(gòu)信息問題, HERec[22]利用元路徑的隨機(jī)游走構(gòu)建節(jié)點(diǎn)序列, 并結(jié)合個(gè)性化的非線性融合函數(shù)學(xué)習(xí)異構(gòu)中的節(jié)點(diǎn)嵌入。 考慮到已有的方法受限于將異質(zhì)信息網(wǎng)絡(luò)作為輔助信息源, MTRec[23] 設(shè)計(jì)了一個(gè)多任務(wù)學(xué)習(xí)框架。 采用自注意力機(jī)制來學(xué)習(xí)異質(zhì)信息網(wǎng)絡(luò)中元路徑的語義, 并聯(lián)合優(yōu)化推薦和鏈接預(yù)測的任務(wù)。 盡管基于元路徑的方法已經(jīng)取得了優(yōu)異的推薦表現(xiàn), 然而該方法依賴于學(xué)者的領(lǐng)域知識(shí)手工設(shè)置元路徑, 容易遺漏重要信息。 ECHCDR[24] 提出使用基于圖注意網(wǎng)絡(luò)的方法來學(xué)習(xí)節(jié)點(diǎn)嵌入。 ECFKG[25]使用基于 Transformer 的模型來生成節(jié)點(diǎn)嵌入。 In?tentGC[26]將復(fù)雜的異構(gòu)圖轉(zhuǎn)換為基于二階關(guān)系的僅由用戶和項(xiàng)目組成的二部圖, 并進(jìn)行向量卷積以避免不必要的特征交互。
2 基于異質(zhì)圖卷積網(wǎng)絡(luò)的推薦模型
本研究聚焦于引文推薦任務(wù), 旨在根據(jù)輸入的查詢文檔從候選論文集中識(shí)別并推薦最可能被引用的論文。 為了充分利用論文的多維度元信息并提升推薦準(zhǔn)確性, 本研究提出了一種基于異構(gòu)圖卷積網(wǎng)絡(luò)的方法。 以下將系統(tǒng)地闡述本研究的核心內(nèi)容,包括問題的形式化定義、 模型的整體架構(gòu)以及各個(gè)關(guān)鍵步驟的詳細(xì)描述。
2.1 任務(wù)描述
給定一篇查詢論文, 其包含一些元信息, 包括但不限于論文的作者、 題目、 摘要或關(guān)鍵詞和目標(biāo)期刊(會(huì)議)等。 系統(tǒng)中存在一個(gè)候選引文集合, 每一篇候選論文包含題目、 摘要、 關(guān)鍵詞、 發(fā)表期刊(會(huì)議)、 作者和引文集合等。 本研究的任務(wù)是訓(xùn)練一個(gè)推薦模型, 該模型能夠深入分析查詢論文的特征, 并在候選論文集合中識(shí)別出最相關(guān)、 最有價(jià)值的引文, 從而為查詢論文提供一個(gè)高質(zhì)量的推薦引文列表。