摘 要: [目的/ 意義] 梳理并界定引文擴散深度與廣度概念, 探究論文發(fā)表早期引文擴散深度與廣度特征對后期擴散強度的影響, 以豐富對論文早期被引特征與后期被引關(guān)聯(lián)機制的解釋。[方法/ 過程] 采集50 個學科類別各3 本期刊于2013 年發(fā)表的論文題錄數(shù)據(jù)及其早期施引文獻題錄數(shù)據(jù), 構(gòu)建目標論文的早期個體引文網(wǎng)絡;定義引文擴散深度為引文平均級聯(lián)深度, 基于布里淵指數(shù)從學科廣度、地域廣度和作者廣度3 個維度定義引文擴散廣度; 使用負二項回歸模型和雙重機器學習(DDML)方法對早期引文擴散深度和廣度對論文后期擴散強度的影響關(guān)系進行分析。[結(jié)果/ 結(jié)論] 早期引文擴散深度在2 年和3 年引文窗口下均表現(xiàn)出了對后期擴散強度的顯著負向影響, 而早期引文擴散學科廣度在兩個引文窗口下均表現(xiàn)出對后期擴散強度的正向影響; 地域廣度在2 年引文窗口下表現(xiàn)出對論文后期擴散強度的正向影響, 在3 年引文窗口下則未表現(xiàn)出顯著性; 早期引文擴散作者廣度對于低被引論文組表現(xiàn)出與論文后期擴散強度的顯著正向關(guān)系, 但對于高被引論文組則為負向影響關(guān)系。
關(guān)鍵詞: 引文擴散; 擴散深度; 擴散廣度; 擴散強度; 個體引文網(wǎng)絡
DOI:10.3969 / j.issn.1008-0821.2025.05.012
〔中圖分類號〕G250. 252 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2025) 05-0126-13
知識擴散可被定義為科學出版物和專利中所記錄知識的改變與應用[1] , 這一過程不僅包括原有知識向外傳播, 還包括接收方吸收知識并與自身知識結(jié)合產(chǎn)生新知識的過程[2] 。因此, 文獻之間的引證關(guān)系被認為是科學知識擴散的重要形式之一, 基于科學論文引證關(guān)系的引文擴散研究是知識擴散領域的重要研究子域, 而引文擴散效果及其影響因素研究是其下一重要主題。關(guān)于引文擴散效果的測度,研究中提出了強度、速度和廣度3 個主要測量維度, 其中, 擴散強度從擴散次數(shù)的角度對知識擴散進行描述, 能夠通過被引頻次直觀地反映擴散效果, 其背后的影響因素得到了大量研究的探討[3] 。關(guān)于單篇論文擴散強度影響因素, 目前學界主要關(guān)注論文內(nèi)容因素(如創(chuàng)新性[4] 、跨學科性[5] )、論文形式因素(如標題特征[6-7] 、圖表使用情況[8] 、論文篇幅[9] )、期刊因素(如期刊影響力[10] )、作者因素(如科研合作情況[11] 、作者資歷與聲譽[12] )等一系列基于論文內(nèi)、外部特征的因素。此外, 亦有學者聚焦論文早期知識擴散特征, 研究指出, 早期擴散強度[13] 及速度[14] 與論文后續(xù)擴散強度存在顯著正相關(guān)關(guān)系, 表明早期形成的被引優(yōu)勢能夠促進論文后期知識擴散; 早期引文與目標文獻的知識關(guān)聯(lián)也是能夠影響后期擴散的重要因素[15] 。
探究論文早期知識擴散特征與后續(xù)擴散情況的關(guān)聯(lián)關(guān)系, 一方面可在理論層面豐富完善論文知識擴散的動態(tài)機制; 另一方面可以輔助論文影響力的早期預測以及早期學術(shù)影響評估體系的構(gòu)建與完善,具有十分重要的學術(shù)與實踐意義。然而, 就目前的相關(guān)研究而言, 僅基于引文的早期擴散強度和速度兩個指標難以反映知識擴散背后的不同過程及范圍等更深入的效果, 關(guān)于早期引文擴散效果對后期擴散強度的作用機制的揭示尚不夠充分。例如, 早期引文在相近引文數(shù)量(擴散強度)的擴散強度或速度作用下, 可能呈現(xiàn)截然不同的引文網(wǎng)絡結(jié)構(gòu)及引文文獻的學科分布特征等擴散過程及范圍差異, 能在一定程度上反映出目標文獻未來不同的擴散潛力。因此, 引入能夠反映更深層次早期知識擴散效果的維度指標, 進一步探究論文早期知識擴散效果對后續(xù)擴散強度的影響, 對于進一步完善知識擴散機制具有重要意義, 同時也能夠為早期預測與識別較高影響力的文獻、完善早期學術(shù)評估體系提供新的客觀依據(jù)。
早期引文擴散的深度和廣度特征能夠在引文擴散強度的基礎上進一步測量已有引文擴散過程的差異特征, 在一定程度上能夠增強對未來擴散范圍的解釋和預測。引文擴散深度指論文發(fā)表后經(jīng)逐層引用形成的級聯(lián)次數(shù)[16] , 能夠反映論文知識擴散的路徑結(jié)構(gòu)特征, 并一定程度上彰顯論文的傳播“感染”能力; 引文擴散廣度則反映論文的知識擴散輻射范圍, 體現(xiàn)論文在學術(shù)界的“能見度”, 從這兩個維度解析論文早期知識擴散的特征, 能夠深層而多維地揭示早期知識擴散特征對后續(xù)擴散能力的作用機制。
因此, 本研究基于論文個體引文網(wǎng)絡(個體引文網(wǎng)絡的具體內(nèi)涵見2. 2. 1), 聚焦早期引文擴散深度與廣度特征, 探究其對論文后續(xù)擴散強度的作用: 首先, 對已有研究進行梳理, 對擴散深度和廣度進行界定與測度的操作化; 其次, 構(gòu)建目標論文的個體引文網(wǎng)絡, 并計算變量測度指標; 最后, 基于多學科的論文采樣數(shù)據(jù), 采用負二項回歸模型探究早期引文擴散深度和廣度與目標論文后續(xù)擴散強度的關(guān)聯(lián)情況, 并利用雙重機器學習(Double/ DebiasedMachine Learning, DDML) 方法盡可能消除早期引文擴散強度等其他特征帶來的混淆變量干擾,檢驗早期引文擴散深廣度對后續(xù)引文擴散強度的穩(wěn)健因果影響關(guān)系。
1 文獻綜述
1. 1 論文早期知識擴散與后續(xù)擴散的關(guān)聯(lián)
論文在發(fā)表初期獲得的引用是學界對新知識的快速反饋, 能夠反映知識的早期擴散情況。許多研究表明, 論文的早期引文擴散特征對后續(xù)擴散強度存在顯著的影響[15,17] 。相關(guān)研究大致可分為兩類:一是關(guān)注早期引文擴散強度(早期被引頻次)的影響, 如Adams J 等[13] 對6 個學科領域文獻的被引情況分析發(fā)現(xiàn), 前兩年被引量與后續(xù)7 年被引量呈高度相關(guān); Abramo G 等[18] 使用早期被引量和期刊影響因子兩個指標預測論文發(fā)表9 年后的被引量,發(fā)現(xiàn)隨著引文窗口的增加, 回歸模型的擬合優(yōu)度以及早期被引量的回歸系數(shù)均出現(xiàn)明顯增長, 且發(fā)表3 年后的被引量已能夠較為準確地對長期被引進行預測。二是關(guān)注早期引文擴散速度(初次被引時間)的影響, 如Yu T 等[14] 研究發(fā)現(xiàn), 論文的初次被引年齡是影響其長期被引的重要因素之一; Hilmer C E等[19] 則對農(nóng)業(yè)與應用經(jīng)濟學領域論文被引情況進行研究后, 發(fā)現(xiàn)論文在發(fā)表后的第一年獲得引用會顯著促進后續(xù)被引, 比第一年未獲引用的文獻平均多出2 6 次。此外, 早期施引文獻和目標文獻的知識關(guān)聯(lián)程度也能夠強化對論文擴散效果的預測[15] 。
1. 2 引文擴散深度與廣度
部分學者在分析引文擴散情況時曾使用擴散“深度” 一詞, 但對其定義則與得到更廣泛認可的“強度” 的定義具有較高相似度。Yang S L 等[20] 將“深度” 定義為“若干個知識單元對特定知識單元的最大引用次數(shù)”; 俞立平等[21] 參考h 指數(shù)計算原理提出了測度期刊知識擴散深度的指標CJH 指數(shù),并定義為“至少CJH 種期刊引用了該期刊論文CJH次”; 魏緒秋等[22] 將圖書知識擴散深度定義為“某本圖書引證作者的最高引用數(shù)”, 均落腳于知識單元的被引頻次。上述對擴散“深度” 的理解和定義易造成與擴散“強度” 之間的概念混淆, 且從術(shù)語的表達效果來看, “強度” 一詞更為直觀達意。另一派觀點認為, “深度” 是基于網(wǎng)絡的節(jié)點之間的距離[23] , 如深度優(yōu)先算法, 具體反映在論文發(fā)表后經(jīng)過逐層引用而形成的引文級聯(lián)次數(shù)[16] , 它能夠反映出區(qū)別于強度、廣度與速度的基于引文網(wǎng)絡結(jié)構(gòu)的知識擴散特征, 因此, 按照這一理解定義“深度” 更為合理。
相比“深度”, 學界對于擴散“廣度” 的理解則相對一致, 即從覆蓋范圍的角度對知識擴散效果進行描述[3] , 但具體而言這種覆蓋主要涉及學科、期刊和作者三類對象: Liu Y X 等[24] 提出了“學科擴散廣度”, 即一組論文的施引文獻所屬的學科數(shù)量。梁國強等[23] 則用香農(nóng)熵表示學科多樣性, 進而衡量擴散廣度。Rowlands I[25] 提出了“期刊擴散指數(shù)”, 其定義為某期刊每100 次被引所涉及的期刊數(shù)量, 實際上反映了知識擴散的廣度。逄順欣[26] 則直接將作者的知識擴散廣度定義為“作者文獻的引證文獻所屬期刊數(shù)量”。魏緒秋等[22] 將圖書知識擴散廣度定義為“某一本圖書的施引作者數(shù)”。
綜合上述相關(guān)研究可知, 在論文知識擴散強度影響因素的研究方面, 考慮了早期被引的知識擴散強度和速度兩個維度, 而對于早期引文本身的深度及廣度的關(guān)注較為缺乏, 表明對論文早期個體引文網(wǎng)絡所反映的更深層的知識擴散特征的研究相對不足。同時, 已有研究對于擴散深度與廣度內(nèi)涵的理解具有一定差異性、復雜性, 因而, 本研究著眼于論文早期個體引文網(wǎng)絡所體現(xiàn)出的知識擴散深度與廣度特征, 基于相關(guān)研究重新梳理和界定其內(nèi)涵,進而探究其對論文后期擴散強度即被引頻次的影響。
2 研究設計
本研究整體思路: 第一, 界定研究變量, 提出研究假設, 并對變量進行操作化。第二, 設計抽樣方案, 并根據(jù)變量特點獲取相應的論文數(shù)據(jù)集, 對數(shù)據(jù)進行清洗。第三, 基于論文數(shù)據(jù)集, 計算生成最終的研究數(shù)據(jù), 并展開統(tǒng)計分析。第四, 對統(tǒng)計分析結(jié)果進行解讀, 得出研究結(jié)論, 并展開相應討論?;诖耍?具體的研究設計如圖1 所示。
2. 1 數(shù)據(jù)獲取與處理
目前, 對于論文知識擴散強度影響因素的研究多是基于單一學科的論文數(shù)據(jù), 且有不少研究依托的是本學科(即圖書情報學科) 的期刊論文數(shù)據(jù),但鑒于不同學科在研究內(nèi)容、研究方法、學術(shù)交流模式等方面存在差異, 僅依據(jù)單一學科展開研究所得的結(jié)論不一定具有普適性, 故本研究將依托多學科論文數(shù)據(jù)展開分析論述, 據(jù)此設計了如下抽樣方案: ①學科抽取: 采用簡單隨機抽樣法抽取學科類別, 為方便抽樣的實施, 首先生成Journal CitationReports 中254 個學科類別的亂序列表, 然后以5為間隔進行抽取, 最終抽得50 個學科類別, 此舉意在使學科覆蓋更全面, 而非局限于單一或少數(shù)學科的論文樣本, 以增強研究結(jié)論的普適性。②期刊抽?。?對抽取所得的50 個學科類別, 在Journal Ci?tation Reports 中將其下屬期刊按照近5 年影響因子降序排列, 并將其均勻劃分成前、中、后3 組, 在各組中分別選取排在最中間(或接近最中間)的期刊, 此舉意在均衡考慮不同影響力水平的期刊, 進一步增強研究結(jié)論的普適性。③論文抽?。?相關(guān)研究表明, 論文發(fā)表5 年之后的被引量可以較好地反映論文的影響力[14] , 在此將引文時間窗口進一步拉長至10 年, 獲取步驟②所得學術(shù)期刊于2013 年所發(fā)表的全部Article 類型文獻。
大型開放科學知識圖譜OpenAlex 作為微軟學術(shù)圖譜的替代產(chǎn)品, 旨在建立一個全球性的研究文獻關(guān)聯(lián)數(shù)據(jù)平臺, 具有索引文獻量大、覆蓋范圍全、完全免費開源等突出優(yōu)勢[27] , 能夠讓研究者便捷地獲取與使用文獻元數(shù)據(jù), 同時可提供相比付費數(shù)據(jù)庫更為豐富完整的文獻被引記錄, 而不受單一數(shù)據(jù)庫平臺的制約, 并且當前很多學者在研究中充分意識到OpenAlex 的優(yōu)越性, 并將其作為研究數(shù)據(jù)源[28-30] , 因此, 本研究亦選擇OpenAlex 作為數(shù)據(jù)源。在數(shù)據(jù)獲取方面, 直接通過Python 腳本調(diào)用API 將學術(shù)論文題錄數(shù)據(jù)保存至本地。根據(jù)前述抽樣方案獲取原始文獻共8 362篇, 對其中關(guān)鍵字段信息缺失的論文予以剔除, 同時參考前人對早期施引文獻的定義[13] , 將論文發(fā)表前2 年和前3年(包括發(fā)表當年)的引文作為早期引文(以便后續(xù)針對兩個不同的引文窗口展開對比分析), 并據(jù)此將發(fā)表前2 年被引量為0 的論文予以剔除, 最終獲得原始文獻共8 192篇。接著, 獲取原始文獻早期施引文獻集共33 099篇(前2 年)和64 912篇(前3年)。具體所獲取的論文題錄數(shù)據(jù)內(nèi)容如表1 所示。
2. 2 研究變量與假設
2. 2. 1 因變量
本研究旨在探究論文早期個體引文網(wǎng)絡中所表現(xiàn)出的引文擴散深度和廣度特征與其后期擴散強度的關(guān)聯(lián)機制, 根據(jù)擴散強度的基本內(nèi)涵, 采用論文后期被引頻次作為因變量的具體指標。其中, 本研究所指“個體引文網(wǎng)絡”, 也可稱為“自中心引文網(wǎng)絡”, 即社會網(wǎng)絡中的自中心網(wǎng)絡(Ego Network)[31] 在引文網(wǎng)絡上的體現(xiàn), 其定義為以目標文獻(被引用的原始文獻)為中心節(jié)點, 以其所有施引文獻作為節(jié)點的引文網(wǎng)絡, 所有鄰居節(jié)點與中心節(jié)點均存在直接連接, 而鄰居節(jié)點相互之間也可能存在連接,具體形式如圖2 所示, 紅色代表目標文獻(中心節(jié)點), 藍色代表施引文獻(鄰居節(jié)點)。
2."2. 2 研究假設及自變量構(gòu)建
1) 引文擴散深度。根據(jù)文獻綜述部分的討論,本研究對擴散深度的定義為論文經(jīng)逐層引用從而形成的引文級聯(lián)次數(shù)。前人的研究將這種引文級聯(lián)現(xiàn)象類比于病毒的代際傳播與滲透過程, 擴散的距離越遠則代表“感染力” 越強, 而其中一項測量指標即各節(jié)點(各代施引文獻)到初始節(jié)點(原始文獻)深度的平均值[32-33] 。
而對基于單篇論文被引情況形成的個體引文網(wǎng)絡而言, 由于所有其他節(jié)點(施引文獻)均與中心節(jié)點(原始文獻)相連接, 因而其引文級聯(lián)必然會呈現(xiàn)三角引用結(jié)構(gòu)。所謂三角引用是文獻直接引用、共被引與耦合關(guān)系融合到一起所形成的特殊引用關(guān)系, 其定義如下: 若文獻A 與文獻B 被文獻C 引用, 同時文獻A 與B 之間也存在引用關(guān)系, 那么A、B、C 三者之間就建立了三角引用關(guān)系, 文獻A、B、C 分別稱為“原始文獻” “中介文獻” 和“追隨文獻”[34] 。相關(guān)研究發(fā)現(xiàn), 三角引用關(guān)系在引文網(wǎng)絡中普遍存在, 且原始文獻的被引量與三角引用發(fā)生頻次呈正相關(guān)[35] , 而原始文獻往往是相關(guān)研究主題、領域或?qū)W科比較重要的、高影響力的文獻[36] , 并且三角引用關(guān)系中存在的間接引用機制(轉(zhuǎn)引行為、虛假引用)易導致原始文獻A 被引頻次虛高[37] 。相比三角引用關(guān)系, 引文擴散深度側(cè)重于網(wǎng)絡整體結(jié)構(gòu)特征,能夠反映施引文獻到原始文獻的“距離”, 更能體現(xiàn)知識擴散的宏觀特點?;谏鲜龇治?, 提出第一個研究假設:
H1: 早期引文擴散深度正向影響論文后期擴散強度
擴散深度的具體測度指標參考前述的節(jié)點深度平均值, 使用個體引文網(wǎng)絡中其他節(jié)點到中心節(jié)點的最大路徑深度平均值, 計算公式如式(1) 所示:
其中, Nec表示早期施引文獻總量, dmax(p,qi )則表示每篇施引文獻qi 到中心節(jié)點文獻p 的路徑深度最大值。
2) 引文擴散廣度。擴散廣度是從覆蓋范圍的角度衡量引文擴散的影響效果[3] , 相關(guān)研究主要從學科、機構(gòu)、期刊、國家(地區(qū))等維度細化廣度的概念, 并通過實證分析指出在早期具有較高擴散廣度的文獻易成長為高被引文獻[38] 。借鑒前人研究對擴散廣度的多元界定, 并結(jié)合單篇論文的特性, 本研究將擴散廣度細分為學科廣度、地域廣度和作者廣度3 個子維度: 學科廣度能夠反映論文所影響的學科范圍, 體現(xiàn)了跨學科的擴散能力; 地域廣度則反映論文輻射的地域范圍, 代表一種跨越空間邊界的影響能力, 相關(guān)研究表明, 地理邊界和距離仍是制約論文知識擴散傳播的一大因素[39-41] ; 作者廣度反映論文在學術(shù)界所影響學者的范圍, 引文擴散歸根結(jié)底是學者所提出的新知識經(jīng)由文獻引證關(guān)系擴散給其他學者?;诖耍?提出如下研究假設:
H2a: 早期引文擴散學科廣度正向影響論文后期擴散強度
H2b: 早期引文擴散地域廣度正向影響論文后期擴散強度
H2c: 早期引文擴散作者廣度正向影響論文后期擴散強度
布里淵指數(shù)(Brillouins Index, BI)是布里淵于1956 年基于信息論的信息熵原理提出的用于測度信息中包含信息量的統(tǒng)計指標[42] , 綜合考慮多樣性與均勻性的優(yōu)點[43] , 在早期曾被生態(tài)學領域用于生物多樣性研究, 后來則被科學計量學領域視為衡量學科多樣性或跨學科程度的重要指標之一, 目前已有較多研究利用該指標開展跨學科性測度相關(guān)研究[44-46] 。而本研究參考上述研究, 使用布里淵指數(shù)來直接計算引文擴散學科廣度與地域廣度, 計算公式如式(2) 所示[47] :
其中, C 代表早期施引文獻中所涉各學科(地域)對應的文獻數(shù)量總和(由于論文可能存在學者跨國合著的現(xiàn)象, 因此部分論文會在不同地域之下重復計數(shù)), Ci 指某學科(地域)i 的施引文獻數(shù)量,C 越大, 且各學科(地域)所對應的文獻數(shù)量越均勻, BI 值就越大[48] 。參考相關(guān)研究中的處理方法[30] , 本研究依據(jù)OpenAlex 數(shù)據(jù)集的每篇文獻的Concepts 字段來確定其學科類別。Concepts 是一個分為6 級的樹狀層次分類體系, 其從19 個學科入手逐步細分至子學科、研究領域乃至研究主題, 共包含65 000余個概念。OpenAlex 是通過基于微軟學術(shù)圖譜語料庫訓練所得的自動分類器實現(xiàn)對文獻“Concepts” 的標注, 每篇文獻會在各個層級上被標注若干概念, 同時這些概念會被賦予反映其與文獻內(nèi)容契合程度的權(quán)重值。因此, Concepts 字段既能從不同粒度的層面反映文獻的學科歸屬情況, 也能較細粒度地揭示文獻的具體研究主題。據(jù)此, 綜合考慮Concepts 體系的特點, 筆者認為其第2 層級的概念能夠較為有效地揭示與區(qū)分文獻的學科歸屬(2 級概念共284 個), 是對第1 層級19 個較為宏觀的學科概念的細分。因此, 本研究選用文獻所標注的Concepts 體系中權(quán)重最高的第2 級概念作為論文的學科類別。施引文獻的地域信息為OpenAlex中所給出的作者所在國家(地區(qū))的英文縮寫。若少部分施引文獻的Concepts 值缺失, 則在計算跨學科程度時忽略該部分文獻, 作者地域信息缺失的文獻處理亦進行相同處理。
區(qū)別學科廣度和地域廣度的計算, 作者廣度的計算須考慮自引的情況, 因為知識在同一學科內(nèi)或同一國家(地區(qū))內(nèi)部的擴散亦具有重要意義, 而學者的自引則不然。自引是科學交流過程中普遍存在的自然現(xiàn)象, 但由于其動機的復雜性, 致使自引行為長期以來在科學評價中飽受質(zhì)疑與爭議[49] 。合理的自引被視為是科學研究的延續(xù)與繼承[50] , 可以視為學者對舊知識的運用, 而不當自引往往是故意抬升被引率的手段[51] 。從客觀的角度來看, 無論自引的動機合理與否, 就結(jié)果而言, 學者自引并沒有真正實現(xiàn)擴散, 而只是舊知識的延續(xù), 他引才能真正反映出知識的有效擴散。Costas R 等[52] 的研究亦曾指出, 外部引用(他引)才是衡量科學影響力最為可靠的標準。因此, 本研究基于布里淵指數(shù)測度引文擴散作者廣度, 計算公式如式(3) 所示:
其中, Ca 表示早期施引文獻中所涉各作者(考慮文獻的所有作者, 同時除去與原始文獻相同的作者)所對應的文獻數(shù)量總和(由于論文普遍存在合著現(xiàn)象, 因此部分論文會在不同作者之下重復計數(shù))。當Ca =0, 即僅存在原始文獻作者自引的情況時, 規(guī)定作者廣度為0; 而當Ca >0, 即存在其他作者對原始文獻進行了引用, 按照調(diào)整后的布里淵指數(shù)計算公式進行計算作者廣度(為避免他引作者只有1人而導致布里淵指數(shù)為0, 對分子加上Ca )。
2. 2. 3 控制變量
為了因果分析的有效性, 本研究從學界已識別的若干影響因素中選取部分因素作為控制變量, 具體的選取思路如下: ①考慮到數(shù)據(jù)獲取的便利性,控制變量所對應的數(shù)據(jù)可直接從OpenAlex 中獲取,無需進行手動預處理或從其他渠道獲?。?②現(xiàn)有文獻已對其與論文擴散強度的相關(guān)關(guān)系進行了研究與證明?;谏鲜鏊悸罚?共選取了6 個控制變量, 所有變量的基本信息如表2 所示。
2. 3 研究方法與工具
本研究需構(gòu)建原始文獻的早期個體引文網(wǎng)絡以計算引文擴散深度, 采用Python 社會網(wǎng)絡分析工具包Networkx 進行網(wǎng)絡構(gòu)建與變量計算, 具體包括以下幾個步驟: ①針對表1 中Dataset S 數(shù)據(jù)集中每一篇原始文獻p, 使用DiGraph()語句初始化有向網(wǎng)絡Gp ; ②在Dataset C 中(C2 或C3), 獲得原始文獻p 的所有施引文獻構(gòu)成的集合Cp ; ③針對集合Cp 中每一篇施引文獻q, 得到其參考文獻列表Rq , 并在Rq 中篩選出同時出現(xiàn)在原始文獻施引文獻集合Cp 中的文獻q′, 即找出施引文獻中存在的多層級引用關(guān)系; ④基于這些文獻的引用關(guān)系, 利用add_edge()方法構(gòu)建早期施引文獻q 與原始文獻p, 以及施引文獻q 和q′之間的引用關(guān)系,得到原始文獻p 為中心的個體引文網(wǎng)絡Gp ; ⑤基于個體引文網(wǎng)絡Gp , 通過dag_longest_path()方法獲取中心節(jié)點p 到所有施引文獻q 的最大路徑長度, 并根據(jù)式(1) 計算求得文獻p 的早期引文擴散深度。其他3 個引文擴散廣度相關(guān)自變量則可直接使用Python 的數(shù)值計算功能實現(xiàn)。
在統(tǒng)計模型構(gòu)建方面, 相關(guān)研究表明, 由于學術(shù)論文被引頻次為典型的離散型變量, 一般不服從正態(tài)分布而是偏態(tài)分布, 且存在過離散現(xiàn)象, 通常使用負二項回歸模型進行數(shù)據(jù)擬合[53-54] , 本研究使用Stata 的Nbreg 方法命令進行模型檢驗。為了提高回歸分析的穩(wěn)健性, 識別出自變量對與因變量影響的凈效應, 使用DDML 方法(雙重/ 去偏機器學習)[55] 消除控制變量對自變量和因變量的混淆影響,具體地, 采用Stata 工具相應的外部命令DDML。
3 研究結(jié)果
鑒于將2 年設為早期引文窗口時間較短, 且部分發(fā)表于年末的論文在當年難以獲得被引, 早期引文的特征可能難以得到相對準確地反映, 因此本研究另將3 年設為早期引文窗口, 并分別獲取原始文獻的兩個早期施引文獻數(shù)據(jù)集Dataset C2 和DatasetC3, 再分別進行變量的計算, 以實現(xiàn)基于兩個引文窗口對比分析。
3. 1 描述性統(tǒng)計與相關(guān)分析
早期引文窗口為2 年的變量描述性統(tǒng)計與相關(guān)性分析結(jié)果如表3 所示。其中, 論文后期引文擴散強度均值為32. 935, 說明每篇論文在得到發(fā)表的后8 年內(nèi)會被約33 篇論文引用, 但其標準差達到54. 999, 表明擴散強度的離散程度很高; 早期擴散強度均值為4. 020, 說明每篇論文在發(fā)表前2 年內(nèi)平均會被約4 篇論文引用, 而其標準差為5. 083,表明離散程度也較高。由于本研究的自變量均為無計量單位的連續(xù)型變量, 且均值和標準差數(shù)值均較小, 無法直觀判斷其數(shù)據(jù)離散程度, 因而通過計算變異系數(shù)判斷離散程度較為妥當。根據(jù)變異系數(shù)的定義(標準差/ 均值?100%), 計算得到4 個自變量的變異系數(shù)分別為15. 824%、102. 639%、79. 770%、41. 392%, 表明就論文發(fā)表前2 年的個體引文網(wǎng)絡而言, 不同論文的知識擴散深度分布相對集中、差異較小, 而知識擴散學科廣度、地域廣度和作者廣度則離散程度很高且差異明顯, 三者離散程度依次遞減, 即論文所影響的學科多樣性差異大于地域多樣性差異, 地域多樣性差異又大于作者多樣性差異。
早期引文窗口為3 年的變量描述性統(tǒng)計與相關(guān)性分析結(jié)果如表4 所示。論文后期引文擴散強度均值為29. 074, 說明每篇論文在得到發(fā)表的后7 年內(nèi)會被約29 篇論文引用, 其標準差為51. 222, 亦反映了很高的離散程度。相比于2 年引文窗口, 3 年引文窗口的早期擴散強度增至7. 882, 說明每篇論文平均會被約8 篇論文引用。從標準差(9. 772)來看, 離散程度同樣處于較高水平, 計算兩組數(shù)據(jù)的早期擴散強度變異系數(shù)(126. 443%和123. 979%)進行比較后發(fā)現(xiàn), 3 年引文窗口的早期擴散強度離散程度略微低于2 年引文窗口的情況。4 個自變量的均值相比2 年引文窗口的情況均有所增長, 而計算所得變異系數(shù)分別為23.070%、69.984%、59.554%、35. 446%, 表明知識擴散深度的離散程度略有提高,而知識擴散學科廣度、地域廣度和作者廣度的離散程度則有所降低。由此可見, 將引文窗口延長至3年后, 論文獲得了更多早期引文積累, 并且早期引文擴散深廣度的數(shù)據(jù)分布情況與2 年引文窗口的情況表現(xiàn)出了一定差異。
就Spearman 相關(guān)性分析結(jié)果而言, 兩組數(shù)據(jù)并沒有明顯差異, 但值得注意的是, 早期引文擴散學科廣度、地域廣度和作者廣度兩兩之間的相關(guān)系數(shù)在兩個引文窗口之下均高于0. 7, 而由于這3 個自變量的測量對象與實際意義并不相同, 不應視作存在多重共線性。另外, 早期引文擴散強度與4 個自變量的相關(guān)系數(shù)在兩個引文窗口下均較高, 這表明早期引文擴散的深度及廣度均在較大程度上受到早期施引文獻數(shù)量的影響, 因此在后續(xù)進行負二項回歸分析時, 有必要采取相應的穩(wěn)健因果推斷方法,以排除早期引文擴散強度引起的自變量與因變量的虛假相關(guān)。
3. 2 模型假設驗證
由于因變量為計數(shù)型變量, 且描述性統(tǒng)計結(jié)果顯示其方差大于均值, 存在過離散的現(xiàn)象, 因此本研究選擇負二項回歸模型對數(shù)據(jù)進行擬合。表5 展示了8 192篇論文數(shù)據(jù)的負二項回歸結(jié)果, 模型A和模型B 分別代表早期引文窗口為2 年和3 年的結(jié)果, 其下的子模型(1) 僅包含控制變量, 子模型(2) 則加入了自變量。將模型A(2)與A(1)、B(2)與B(1)相比, 偽R2 值均出現(xiàn)上升, 表明自變量的加入提升了模型擬合度, 能夠更充分地對因變量進行解釋。就表5 所呈現(xiàn)的模型A(2)與B(2)的結(jié)果而言, 在2 年引文窗口下, 早期引文擴散深度負向影響后期擴散強度, 而在3 年引文窗口下兩者并不存在顯著關(guān)系(p>0. 1), 說明在論文發(fā)表的前2 年, 早期引文擴散深度會對后期被引產(chǎn)生一定阻礙作用, 當引文窗口得到延長, 這種阻礙作用則不再表現(xiàn)出來。早期引文擴散學科、地域和作者廣度對論文在兩個引文窗口下均正向影響后期擴散強度,三者的影響力度依次遞減, 其中, 學科廣度對后期擴散強度的影響在3 年引文窗口下表現(xiàn)更弱, 而地域廣度和作者廣度的影響則表現(xiàn)更強。在控制變量方面, 早期引文擴散強度、參考文獻數(shù)量和作者影響力正向影響論文后期擴散強度, 這在一定程度上印證了前人研究的結(jié)論, 而作者來源國家(地區(qū))數(shù)量與論文后期擴散強度不存在顯著關(guān)系, 作者數(shù)量則在兩個模型中的顯著性表現(xiàn)出相反情況, 這表明當以前2 年引文數(shù)據(jù)進行分析時, 作者數(shù)量無法表現(xiàn)出與論文后期擴散強度的顯著關(guān)系(p>0. 1), 而基于前3 年引文數(shù)據(jù)則能夠反映作者數(shù)量的負向影響, 一定程度上反映了2 年與3 年引文窗口之間所表現(xiàn)出來的早期引文擴散特征差異對模型整體的擬合產(chǎn)生了影響。進一步從模型A(2)與B(2)偽R2 值的大小關(guān)系來看, 以3 年作為早期引文窗口能夠獲得更好的模型擬合優(yōu)度, 對因變量的解釋更為充分。
根據(jù)前文相關(guān)分析, 本研究的自變量很大程度上受到早期引文擴散強度的影響, 極可能存在虛假相關(guān)的情況, 因此本研究采用雙重機器學習(Doub?le/ De-biased Machine Learning, DDML)方法重新對4 個自變量進行回歸, 以加強因果推斷的穩(wěn)健性。具體而言, 本研究不涉及工具變量, 因而采用DDML中的Partially Linear Model, 其數(shù)學表達式及具體擬合過程如下[56] :
Y =Dθ0 +g0(X)+ζ, E(ζ |D,X)= 0 (4)
D =m0(X)+V, E(V |X)= 0 (5)
其中, D 表示處理變量(即本研究中的4 個自變量), X 表示混淆變量(即本研究中的控制變量早期引文擴散強度), Y 則為因變量(本研究中的后期擴散強度), 首先需要選擇回歸模型分別擬合Y和X 及D 和X, 并得到殘差^ξ =Y-^g0(X)和 ^V =Y-^ m0(X), 再以^ξ =^Vθ0 對殘差進行回歸擬合, 估計出θ0。另外, 對數(shù)據(jù)進行k 折交叉擬合并重復這一步驟能夠提升參數(shù)估計的有效性。本研究選用DDML中常見的機器學習模型———隨機森林回歸器對模型進行擬合, 并采用10 折交叉擬合, 擬合過程重復10 次取平均結(jié)果, 并設置隨機種子確保處理各個自變量時數(shù)據(jù)采樣過程一致。最終得到的DDML 結(jié)果如表6 所示, 結(jié)果顯示, 部分變量回歸系數(shù)的顯著性與正負方向相比于負二項回歸結(jié)果存在明顯差異, 表明早期引文擴散強度的確對原有回歸分析造成了偏誤, 而DDML 起到了去偏的作用。具體而言,在消除了早期引文擴散強度帶來的偏誤后, 早期引文擴散學科廣度在2 年和3 年的引文窗口下均對論文后期擴散強度具有顯著的正向影響, 地域廣度在2 年引文窗口下表現(xiàn)出顯著正向影響, 在3 年引文窗口下則不存在顯著關(guān)系, 而作者廣度在2 年引文窗口下未表現(xiàn)出顯著性, 在3 年引文窗口下則表現(xiàn)出顯著的負向影響。由此可見, 早期引文擴散學科廣度是影響總體擴散強度的重要因素, 而早期引文擴散地域廣度只在前2 年表現(xiàn)其促進后期引文積累的作用。同時, 隨著引文的不斷積累, 早期引文擴散作者廣度則可能從無顯著影響逐漸轉(zhuǎn)變?yōu)楫a(chǎn)生較弱的負向影響。
3. 3 異質(zhì)性分析
為了探究前面所得到的前期引文擴散特征對后期擴散強度的影響在不同特征論文中的差異, 以總被引頻次的中位數(shù)(22 次)為界, 將數(shù)據(jù)集DatasetS 中的論文劃分為高被引組(4 050篇)和低被引組(4 142篇), 再分別進行DDML 回歸, 結(jié)果如表7 和表8 所示, 展開異質(zhì)性分析。
結(jié)果表明, 對于高被引組論文而言, 引文擴散深度廣度對后期引文擴散強度的影響和整體基本一致, 除在2 年引文窗口下早期引文擴散地域廣度的影響不再顯著, 其他變量在兩個引文窗口下表現(xiàn)出來的影響顯著性和方向均與整體樣本沒有本質(zhì)區(qū)別,且回歸系數(shù)的絕對值變大, 表明其影響力更強。而對于低被引組論文而言, 其結(jié)果與樣本整體存在較大區(qū)別, 在兩個引文窗口下的回歸系數(shù)顯著性以及系數(shù)的大小發(fā)生了明顯的變化: 早期引文擴散深度在2 年引文窗口下未表現(xiàn)出顯著影響, 在3 年引文窗口下表現(xiàn)出顯著負向影響; 早期引文擴散學科廣度在2 年引文窗口下呈顯著正向影響, 在3 年引文窗口下表現(xiàn)出顯著性; 地域廣度和作者廣度則在兩個引文窗口下都表現(xiàn)出顯著正向影響, 且根據(jù)回歸系數(shù)來看, 2 年引文窗口所表現(xiàn)出的影響更大, 并且作者廣度的正向影響區(qū)別于整體組和高被引組,說明對于低被引組, 由于論文整體引用較低, 不同作者的引用更能促進后期擴散, 或者說對于通過其他學者的早期引用起到中介傳播作用的依賴性更高,但這種影響其實較為微弱。這表明對于被引量較低的論文而言, 早期引文擴散的深度及廣度對后期擴散強度的影響小于整體及高被引組, 并且由于論文整體引用量較低, 較短時期(2 年)的引文擴散特征對后期引文擴散的影響均大于較長時期(3 年)的影響; 而高被引組論文在較短時期(2 年)的兩個顯著的引文擴散廣度變量對后期引文擴散的影響均小于較長時期(3 年)的影響, 這從一個角度說明了高被引組文獻在時間上的持久影響。
4 結(jié)論與討論
4. 1 主要結(jié)論
本研究以WOS 中50 個學科類別的8 192篇論文數(shù)據(jù)為樣本, 構(gòu)建每篇論文的早期個體引文網(wǎng)絡,并分析了早期引文擴散深廣度與論文后期引文擴散強度的關(guān)聯(lián)性。其中, 對引文擴散深度與廣度的具體內(nèi)涵進行了新的界定。同時, 將早期引文窗口分別設置為2 年和3 年及根據(jù)論文整體被引次數(shù)的不同進行了對比分析。具體的研究結(jié)論如下:
1) 在個體引文網(wǎng)絡中, 早期引文擴散深度在2 年和3 年引文窗口下均表現(xiàn)出了對后期擴散強度的顯著負向影響, 這和假設1 的方向相反。這表明當著眼于目標文獻的個體引文網(wǎng)絡時, 其擴散深度越高, 反而可能代表其知識擴散路徑已相對固化、封閉化, 難以影響到更多的研究, 或是存在一種,因而在后續(xù)獲得更少引用。
2) 在兩個引文窗口下, 早期引文擴散學科廣度均正向影響論文后期擴散強度, 這說明論文在發(fā)表的早期所影響的學科更廣, 后續(xù)在各學科領域的學術(shù)共同體之中能得到更多的關(guān)注, 從而更易獲得更多被引, 假設H2a 得到證實。
3) 早期引文擴散地域廣度在2 年引文窗口下表現(xiàn)出對論文后期擴散強度的正向影響, 在3 年引文窗口下則未表現(xiàn)出顯著性, 即假設H2b 在2 年引文窗口之下成立。由此可知, 在論文發(fā)表前2 年、引文積累時間極短的情況下, 論文所承載的知識擴散至更廣的地域范圍, 在后續(xù)易獲得更多被引, 這可能是由于論文早期的知識擴散受到空間邊界的顯著影響, 國內(nèi)引文比國外引文積累更快、峰值出現(xiàn)更早[39] , 即論文在發(fā)表早期相對不易引起國外學者關(guān)注, 由此推知, 論文在早期就能夠突破這種空間邊界的限制, 影響到了更廣的地域范圍, 能夠在一定程度上反映出其本身的研究質(zhì)量與學術(shù)影響力。但當引文窗口延長至3 年、引文積累更為充分時,這一作用機制則不再表現(xiàn)出來, 這說明此時空間邊界對知識擴散的阻礙作用已經(jīng)基本失效, 因此引文擴散的地域廣度不再能持續(xù)影響論文的擴散過程。
4) 早期引文擴散作者廣度在2 年引文窗口下未表現(xiàn)出與論文后期擴散強度的顯著關(guān)系, 但在3年引文窗口下則表現(xiàn)出對后期擴散強度的弱負向影響, 和假設H2c 的方向相反。這一現(xiàn)象表明, 當引文窗口延長至3 年、引文積累更為充分時, 論文所影響的學者范圍更廣, 反而對后續(xù)擴散與被引起到較為微弱的阻礙作用, 這可能意味著在早期能夠引起更多學者關(guān)注的文獻使用壽命相對較短, 時效性略強, 因而在后續(xù)的擴散和被引上略顯乏力。
5) 異質(zhì)性分析結(jié)果表明, 在高被引組論文中,引文擴散深度廣度對后期引文擴散強度的影響和整體基本一致, 且早期引文擴散特征的作用力度相較整體更強; 而在低被引組論文中, 自變量和因變量的相互關(guān)系則與樣本整體存在明顯區(qū)別, 且較短時期(2 年)的引文擴散特征對后期引文擴散的影響均大于較長時期(3 年)的影響, 而早期引文擴散作者的廣度則正向促進后期擴散強度, 區(qū)別于整體上的負向影響。由此可見, 對于影響力較高的論文而言,早期引文擴散深廣度對后期擴散強度的影響機制與總體情況較為接近, 而影響力較低的論文則表現(xiàn)出明顯區(qū)別于總體的作用機制。
4. 2 研究貢獻
本研究的主要貢獻有3 個方面: 第一, 在理論探索層面, 基于單篇論文的引證關(guān)系界定了引文擴散深度和廣度的內(nèi)涵, 并從擴散深度和廣度兩大維度出發(fā), 探究了早期個體引文網(wǎng)絡中知識傳播結(jié)構(gòu)特征以及早期施引文獻覆蓋范圍的影響, 而非著眼于早期擴散強度(被引頻次)和速度(初次被引時間)等基于計數(shù)指標的淺層維度, 也區(qū)別于早期施引文獻和目標文獻的知識關(guān)聯(lián)視角[15] , 更為充分且深入地解釋了論文早期知識擴散效果與后續(xù)擴散效果關(guān)聯(lián)與作用機制。第二, 在研究方法方面, 本研究在負二項回歸分析基礎上, 采用雙重機器學習方法(DDML)消除混淆變量同時影響自變量和因變量所造成的偏誤[57] , 相比常規(guī)回歸分析能夠更準確地識別自變量對因變量的凈效應, 抑制虛假相關(guān)關(guān)系, 使得研究結(jié)果更為可靠。第三, 在現(xiàn)實意義層面, 本研究從引文關(guān)系的層級深度、學科輻射范圍、地域輻射范圍和作者輻射范圍4 個角度為科學論文未來影響力的早期判斷與預測提供了新思路,能夠在一定程度上支撐后續(xù)的論文被引預測模型研究, 并為進一步完善學術(shù)成果的早期評估體系提供新的依據(jù)。另外, 也能夠為研究者提升自身研究成果的擴散潛力提供一定啟示, 如可以加強跨學科、多學科的學術(shù)交流, 并多參與國際性的學術(shù)活動,以增強自身研究成果在不同學科領域以及不同國家和地區(qū)中的可見度, 為后續(xù)的被引及知識擴散創(chuàng)造更為良好的條件。
4. 3 不足及展望
本研究也存在一定局限性: 本研究對論文早期知識擴散特征的測度都是基于其早期個體引文網(wǎng)絡,即只考慮了論文早期施引文獻之間所表現(xiàn)出的特征,并未從純粹的時間角度出發(fā), 構(gòu)建以原始文獻為起始節(jié)點的完整早期引文網(wǎng)絡(其中應包含僅引用了原始文獻的早期施引文獻, 而未直接引用原始文獻的后續(xù)文獻), 因此有待后續(xù)研究的進一步探索。本研究依舊著眼于早期施引文獻的外在特征表現(xiàn),而未將論文的文本內(nèi)容納入考慮, 從而更細致地探究早期施引文獻的學科主題范圍及其與原始文獻的親疏程度所產(chǎn)生的影響, 后續(xù)可借鑒相關(guān)研究[15]的做法展開進一步探索。另外, 由于本研究旨在從理論和實踐層面獲取相對普適性的結(jié)論, 因而在數(shù)據(jù)獲取過程中選取了較多的學科及期刊, 故不便基于學科或期刊展開異質(zhì)性分析, 鑒于此, 未來的研究亦可在文獻引用規(guī)律方面具有較大差異性的學科(如理工科和社會科學)及期刊(如開源期刊和非開源期刊)上展開異質(zhì)性分析, 以期得到更有價值的研究發(fā)現(xiàn)。
參考文獻
[1] Chen C M, Hicks D. Tracing Knowledge Diffusion [ J]. Sciento?metrics, 2004, 59 (2): 199-211.
[2] 侯劍華, 鄭碧麗, 張洋. 科學知識擴散研究: 概念界定、理論基礎與體系重構(gòu)[J]. 現(xiàn)代情報, 2020, 40 (9): 117-126.
[3] 李江. 基于引文的知識擴散研究評述[ J]. 情報資料工作,2013, 34 (4): 36-40.
[4] 董克, 陳曉萍, 吳佳純. 科研論文創(chuàng)新性與引文影響力相關(guān)性研究———基于語義視角的測度[ J]. 情報理論與實踐, 2023,46 (10): 24-31.
[5] 張琳, 孫蓓蓓, 王賢文, 等. 交叉科學成果影響力研究: 使用數(shù)據(jù)與引用數(shù)據(jù)視角[ J]. 情報學報, 2020, 39 ( 5): 469-477.
[6] Subotic S, Mukherjee B. Short and Amusing: The Relationship be?tween Title Characteristics, Downloads, and Citations in PsychologyArticles [J]. Journal of Information Science, 2013, 40 (1): 115-124.
[7] Jamali H R, Nikzad M. Article Title Type and its Relation with theNumber of Downloads and Citations [J]. Scientometrics, 2011, 88(2): 653-661.
[8] Nieri M, Clauser C, Franceschi D, et al. Randomized ClinicalTrials in Implant Therapy: Relationships Among Methodological,Statistical, Clinical, Paratextual Features and Number of Citations[J]. Clinical Oral Implants Research, 2007, 18 (4): 419-431.
[9] 盛麗娜, 顧歡. 基于學科角度的論文長度與被引頻次關(guān)系研究[J]. 情報雜志, 2019, 38 (4): 111-118, 110.
[10] Leeuwen T N, Moed H F. Characteristics of Journal Impact Fac?tors: The Effects of Uncitedness and Citation Distribution on the Un?derstanding of Journal Impact Factors [ J]. Scientometrics, 2005,63 (2): 357-371.
[11] 楊瑞仙, 李賢. 科學合作與論文影響力之間的相關(guān)性研究[J].現(xiàn)代情報, 2019, 39 (4): 125-133.
[12] 謝娟, 成穎, 李江, 等. 文化資本與論文影響力的關(guān)系[ J].情報學報, 2019, 38 (9): 943-953.
[13] Adams J. Early Citation Counts Correlate with Accumulated Im?pact [J]. Scientometrics, 2005, 63 (3): 567-581.
[14] Yu T, Yu G, Li P Y, et al. Citation Impact Prediction for Scien?tific Papers Using Stepwise Regression Analysis [J]. Scientometrics,2014, 101: 1233-1252.
[15] 李悅, 馬亞雪, 張宇, 等. 基于知識關(guān)聯(lián)度的科學論文擴散效果預測研究———早期施引文獻的作用[ J]. 現(xiàn)代情報, 2023,43 (11): 73-84.
[16] 李奇, 李秀霞, 臧志棟. 作者文獻被引廣度與被引深度分析[J]. 科學與管理, 2024, 44 (4): 52-58.
[17] 阮選敏. 學術(shù)圖書被引外部影響因素及被引預測研究[ D].南京: 南京大學, 2020.
[18] Abramo G, D‘Angelo C A, Felici G. Predicting Publication Long-Term Impact Through a Combination of Early Citations and Journal Im?pact Factor [J]. Journal of Informetrics, 2019, 13 (1): 32-49.
[19] Hilmer C E, Lusk J L. Determinants of Citations to the Agricul?tural and Applied Economics Association Journals [ J]. Review ofAgricultural Economics, 2009, 31 (4): 677-694.
[20] Yang S L, Han R Z. Breadth and Depth of Citation Distribution[J]. Information Processing and Management, 2015, 51 ( 2):130-140.
[21] 俞立平, 萬曉云, 項益鳴, 等. 一個評價學術(shù)期刊知識擴散深度的新指標———CJH 指數(shù)[J]. 情報雜志, 2019, 38 (8):145-150.
[22] 魏緒秋, 郭鳳嬌, 于淼. 微觀視域下的圖書知識擴散特征探析[J]. 情報科學, 2021, 39 (3): 37-43.
[23] 梁國強, 侯海燕, 高桐, 等. 基于創(chuàng)新擴散理論的學術(shù)論文影響力廣度研究[J]. 圖書情報工作, 2019, 63 (2): 91-98.
[24] Liu Y X, Rousseau R. Knowledge Diffusion Through Publicationsand Citations: A Case Study Using ESI-Fields as Unit of Diffusion[J]. Journal of the American Society for Information Science andTechnology, 2009, 61: 340-351.
[25] Rowlands I. Journal Diffusion Factors: A New Approach to Meas?uring Research Influence [J]. Aslib Proceedings, 2002, 54 (2):77-84.
[26] 逄順欣. 基于知識擴散的作者學術(shù)影響力評價研究[D]. 曲阜: 曲阜師范大學, 2021.
[27] Priem J, Piwowar H, Orr R. OpenAlex: A rully-Open Index ofScholarly Works, Authors, Venues, Institutions, and Concepts [EB/OL]. [2024-04-09]. https:/ / arxiv.org/ abs/2205.01833v2.
[28] 鄭智涵, 李昕雨, 孟凡, 等. 融合多種特征的多學科引文分類研究[J]. 情報學報, 2024, 43 (6): 658-671.
[29] Narin F, 欒春娟, 胡志剛. 施引側(cè)文獻計量指標的設置、優(yōu)勢與應用研究[J]. 科學與管理, 2023, 43 (6): 56-61.
[30] Xu H M, Liu M J, Bu Y, et al. The Impact of HeterogeneousShared Leadership in Scientific Teams [J]. Information Processingand Management, 2024, 61 (1): 103542.
[31] Arnaboldi V, Conti M, Passarella A, et al. Online Social Net?works and Information Diffusion: the Role of Ego Networks [ J].Online Social Networks and Media, 2017, 1: 44-55.
[32] Goel S, Anderson A, Hofman J, et al. The Structural Virality ofOnline Diffusion [J]. Management Science, 2015, 62 (1): 180-196.
[33] 閔超, Ding Y, 李江, 等. 單篇論著的引文擴散[ J]. 情報學報, 2018, 37 (4): 341-350.
[34] 劉運梅, 馬費成. 面向全文本內(nèi)容分析的文獻三角引用現(xiàn)象研究[J]. 中國圖書館學報, 2021, 47 (3): 84-99.
[35] Liu Y M, Yang L, Chen M. A New Citation Concept: Triangu?lar Citation in the Literature [ J]. Journal of Informetrics, 2021,15 (2): 101141.
[36] 劉運梅, 張帥, 司湘云, 等. 基于內(nèi)容標注的三角引用動機研究方法探析[J]. 圖書情報工作, 2021, 65 (10): 48-55.
[37] 劉運梅, 李冉, 盛小平. 隱形三角引用: 科學論文中的不規(guī)范引用行為[J]. 現(xiàn)代情報, 2024, 44 (4): 127-141.
[38] 徐建中, 王名揚. 文獻被引特征空間上的引文模式分析[ J].情報雜志, 2013, 32 (11): 55-58.[39] Wang J, Zhang L W. Proximal Advantage in Knowledge Diffusion:The Time Dimension [J]. Journal of Informetrics, 2018, 12 (3):858-867.
[40] Abramo G, DAngelo C A, Costa F D. The Role of GeographicalProximity in Knowledge Diffusion, Measured by Citations to ScientificLiterature [J]. Journal of Informetrics, 2020, 14 (1): 101010.
[41] Wu J. Geographical Knowledge Diffusion and Spatial Diversity Ci?tation Rank [J]. Scientometrics, 2013, 94 (1): 181-201.
[42] Brillouin L. Science and Information Theory [ M]. New York:Academic Press, 1956.
[43] 宋宜嘉, 樓雯, 趙星. 基于布里淵指數(shù)的期刊多維度影響力多樣性測度[J]. 圖書館建設, 2023 (1): 118-127.
[44] Steele T W, Stier J C. The Impact of Interdisciplinary Research inthe Environmental Sciences: A Forestry Case Study [ J]. Journalof the American Society for Information Science, 2000, 51 (5):476-484.
[45] 李江. “跨學科性” 的概念框架與測度[J]. 圖書情報知識,2014 (3): 87-93.
[46] Huang M H, Chang Y W. A Comparative Study of InterdisciplinaryChanges Between Information Science and Library Science [J]. Sci?entometrics, 2012, 91 (3): 789-803.
[47] 陳必坤, 劉鈺馨, 白寬, 等. 基于科學建模的學科交叉測度研究綜述[J]. 圖書情報工作, 2022, 66 (18): 126-139.
[48] 邵瑞華, 李亮, 劉勐. 學科交叉程度與文獻學術(shù)影響力的關(guān)系研究———以圖書情報學為例[J]. 情報雜志, 2018, 37 (3):146-151.
[49] 溫芳芳. 自引研究綜述: 科學評價與科學交流中的質(zhì)疑、求證與創(chuàng)新[J]. 圖書情報工作, 2019, 63 (21): 117-127.
[50] Mubin O, Arsalan M, Mahmud A. Tracking the Follow-up ofWork in Progress Papers [ J]. Scientometrics, 2018, 114 ( 3):1159-1174.
[51] Schreiber M. Self-Citation Corrections for the Hirsch Index [ J].Europhysics Letters, 2007, 78 (3): 30002.
[52] Costas R, Leeuwen T N, Bordons M. Self-Citations at the Mesoand Individual Levels: Effects of Different Calculation Methods[J]. Scientometrics, 2010, 82 (3): 517-537.
[53] 梁興堃. 圖情檔研究中的回歸分析: 基本原理[ J]. 圖書情報知識, 2021, 38 (3): 154-164.
[54] 陳悅, 宋超, 周京生, 等. 文獻計量學視角下的論文被引頻次影響因素研究———兼評使用與被引之間關(guān)系[ J]. 情報雜志,2019, 38 (4): 96-104.
[55] Ahrens A, Hansen C B, Schaffer M E, et al. DDML: Double/Debiased Machine Learning in Stata [J]. The Stata Journal, 2024,24 (1): 3-45.
[56] Bach P, Chernozhukov V, Kurz M S, et al. DoubleML-An Ob?ject-Oriented Implementation of Double Machine Learning in Python[J]. Journal of Machine Learning Research, 2022 (23): 1-6.
[57] 蔣墨冰, 李瑩, 徐曉慧. 反壟斷法與科技企業(yè)進入———基于雙重機器學習的因果推斷[J]. 科學學研究, 2025, 43 (4): 864-875.
(責任編輯: 郭沫含)
基金項目: 廣州市基礎與應用基礎研究項目“基于全文本挖掘的科技論文作者合作模式研究” (項目編號: 2024A04J4393)。