張靖雯,閔 超,孫建軍
(南京大學信息管理學院,南京 210023)
單篇文獻的被引過程是一個從零開始隨著時間逐漸累積的動態(tài)過程,被引頻次在時間軸上呈現(xiàn)的曲線被稱為“引文曲線”[1]或“引文模式”[2]、“引文生命周期”[3]。一般而言,“經(jīng)典引文曲線”的動態(tài)變化包括發(fā)表后進入引用階段的首次被引,而后進入引文快速成長階段達到引用次數(shù)高峰,之后引用次數(shù)逐漸減少進入衰老階段。在對引文動態(tài)的研究中,閔超等[4]將引文理解為一種動態(tài)變化的擴散過程,并提出時間環(huán)境、首次被引、引文起飛、引文高峰、引文累積速度等引文擴散要素及研究框架。其中,引文起飛作為引文擴散的起點,是引文生命周期由引入階段進入快速增長階段的轉(zhuǎn)折點[5],通常是文獻被廣泛采納、成為高影響力文獻的重要信號。
起飛最早用于描述市場中新產(chǎn)品銷售曲線從引入階段到成長階段出現(xiàn)的急劇增長的現(xiàn)象[6],如果將發(fā)表的文獻看作市場中的新產(chǎn)品,那么引文曲線中的起飛現(xiàn)象即為引文起飛。學界對于引文起飛的研究較少,“延遲承認”現(xiàn)象的發(fā)現(xiàn),使引文曲線的快速增長開始得到學者們的關注。van Raan[7]在2004 年將延遲承認現(xiàn)象總結為睡美人,即文獻在發(fā)表后很長一段時間內(nèi)處于低被引或零被引的狀態(tài),就如同沉睡的睡美人,而后在某個時點被喚醒,到達高被引狀態(tài);同時提出了睡美人文獻的量化定義。睡美人文獻的“蘇醒”是一類特殊引文曲線的起飛現(xiàn)象,我們將睡美人文獻的“蘇醒”點推廣至所有的引文曲線,普通文獻的引文曲線也有被引頻次迅速增長的轉(zhuǎn)折點,即引文起飛。引文動態(tài)研究更加關注引文生命周期,從首次被引、引文峰值到文獻衰老。首次被引關注文獻從未被引用到引用的狀態(tài)轉(zhuǎn)變,許多研究基于首次被引構建了引用速度指標[8-9],用于評價文獻吸引引用的能力;引文峰值是引文曲線的最高點,是文獻生命周期走向衰老的拐點,許多研究從引文峰值入手對期刊影響因子等評價指標進行修正[10],預測引文完整生命周期[11]等。遺憾的是,引文起飛作為引文動態(tài)中連接首次被與引文峰值的重要環(huán)節(jié)一直未在學界引起重視,而引文動態(tài)特征相關的實證研究,學者大多選擇自然科學[3,10,12-14],部分學者選擇社會科學[15-17],只有極少數(shù)學者選擇人文科學[18]。
引文起飛作為文獻快速吸引引用的起點,是學術成果被承認和關注的關鍵節(jié)點[5],關于引文起飛的研究有助于進一步理解文獻被引過程的動態(tài)機制。因此,本文選擇人文社會科學領域文獻,聚焦被引速度快速增長的起點,試圖探究引文起飛分布規(guī)律及分布模型,討論引文動態(tài)擴散內(nèi)在機制以及引文起飛在學科分類及被引速度指標構建中的相關應用,為理解引文動態(tài)模式提供新角度。
起飛的概念由Golder 等[6]提出,用來描述新產(chǎn)品從引入階段到成長階段產(chǎn)品銷售曲線急劇增長的轉(zhuǎn)折現(xiàn)象。類似地,引文曲線也有從引入階段進入成長階段的轉(zhuǎn)折點,即引文起飛。在引文分析中,通過對睡美人文獻的研究,引文起飛的現(xiàn)象得到學者們的關注。睡美人文獻表現(xiàn)為發(fā)表后一段時間是零被引或低被引,但在某個時點突然出現(xiàn)高被引。van Raan[7]在2004 年給出睡美人定義,并將睡美人特征歸納為沉睡期、喚醒期2 個時期,以及睡眠深度、睡眠時長、喚醒強度3 個指標。研究發(fā)現(xiàn),睡美人“沉睡期”一般在3~5 年,蘇醒期在4 年以上[19-20]。睡美人文獻是較為罕見的引文現(xiàn)象。Dey等[21]首次對計算機領域中的睡美人現(xiàn)象進行識別,其中“算法與理論”和“科學計算”的子領域占全部睡美人文獻的50%。van Raan[13]在物理、化學工程及計算機科學3 個領域識別睡美人文獻,發(fā)現(xiàn)睡美人文獻的數(shù)量在3 個領域中逐漸增加。Healy[18]在2760 篇哲學文獻中僅識別出4 篇睡美人文獻,說明哲學領域中的引用相對疏離。Ho 等[15]在心理學領域僅識別出3 篇睡美人文獻。Lange[16]識別了2 個心理學期刊的論文,發(fā)現(xiàn)命中型文獻(發(fā)表后不久就被科學界發(fā)現(xiàn)的作品)比睡美人文獻與學術界關注的熱點更相關。引文曲線的快速增長是睡美人蘇醒的標志。Li 等[22]通過觀察引文曲線快速增長特征,發(fā)現(xiàn)了“全要素睡美人”,即睡美人文獻在沉睡前引文曲線出現(xiàn)引用跳躍。Li 等[19]引入基尼系數(shù),構建“心跳圖譜”,基于睡美人文獻蘇醒的快速增長特點,通過計算引用分布的均勻性來識別睡美人文獻。Ke 等[23]從引文曲線點線角度出發(fā),連接引文最高點與原點作為參考線,規(guī)定引文曲線上與參考線垂直距離最大的點為睡美人文獻“蘇醒”時刻。睡美人文獻的識別研究使得引用的爆發(fā)增長被學者關注,普通文獻的引文曲線也有進入快速增長的階段。Eom 等[24]在引文動態(tài)研究中發(fā)現(xiàn)引文爆發(fā)(burst) 現(xiàn)象,并以引文增長率進行度量,發(fā)現(xiàn)90%文獻在發(fā)表后的前4 年出現(xiàn)引文爆發(fā)(增長率>3)。睡美人文獻識別、引文爆發(fā)為引文起飛的識別提供了借鑒參考,相關研究提出了依據(jù)引文曲線分類選擇不同方法進行引文起飛的識別[5]。引文起飛是普通文獻引文曲線被引頻次迅速增長的轉(zhuǎn)折點,對引文起飛的研究一方面能用于更好地識別睡美人文獻,另一方面能進一步探究高影響力文獻實現(xiàn)科學知識擴散的內(nèi)在機制。
科學引文索引的建立使引文成為評估研究績效的重要指標之一。引文數(shù)據(jù),如期刊影響因子[25]和科學家h 指數(shù)[26]等以被引頻次為基礎的量化指標被廣泛應用于學術文獻質(zhì)量和影響力的評價中。然而,被引是一個時間相關的二元事件,引文的發(fā)生是一個動態(tài)的過程[4]。引文曲線是單篇文獻被引的動態(tài)表現(xiàn),對引文曲線特征的研究主要集中在首次被引、引文波峰和睡美人文獻中。
首次被引是文獻打破零被引的重要起點。Nane[27]以 Web of Science 數(shù)據(jù)庫 2000 年收錄的文獻為研究對象,發(fā)現(xiàn)大多數(shù)文章在出版后2 年內(nèi)首次被引。Hancock[28]對期刊Journal of Research in Music Education(JRME) 1988 年至 2013 年的 617 篇文章進行分析,發(fā)現(xiàn)25%的文章在出版2 年后首次被引,30%的文章在出版后3 年內(nèi)首次被引,90%的文章在出版后10 年內(nèi)首次被引;這與國內(nèi)學者武群芳等[17]對經(jīng)濟學科3 種期刊進行研究發(fā)現(xiàn)10 年的時間可使文獻有充足時間至少獲得一次引用相一致。文獻實現(xiàn)首次被引的時間是文獻吸引引文能力的有力表現(xiàn)。Schubert 等[9]在即時指數(shù)(immediacy index)基礎上考慮文獻被引的時間因素,首次提出論文響應時間(response time),即文獻出版日期到首次被引日期所經(jīng)過的時間。Egghe 等[8]基于h 指數(shù)思想提出首次被引速度指標(first-citation-speed-in‐dex,F(xiàn)CSI),F(xiàn)CSI 越高,文獻從發(fā)布到第一次被引之間的時間越短。武群芳等[17]在Egghe 等[8]研究基礎上,引入零被引率對FCSI 指標進行改進優(yōu)化,一定程度上彌補了FCSI 在大數(shù)據(jù)下區(qū)分度小的不足,但FCSI 指標僅適用于文獻組或期刊。首次被引是文獻是否被“使用”的判斷標準。Rousseau[29]最早提出雙指數(shù)模型用來描述文獻組中首次被引的比例分布。Egghe[30]在此基礎上,提出遞減指數(shù)與洛特卡定律相結合的首次被引分布模型,實現(xiàn)凹形和S 形兩種曲線的擬合。高曉培等[31]以科技期刊論文為研究對象分析首次被引分布規(guī)律,發(fā)現(xiàn)不同學科、不同出版年的論文首次被引時間間隔均服從冪律分布。然而快速響應并不意味著高影響力[32],文獻實現(xiàn)首次被引是文獻引用狀態(tài)的轉(zhuǎn)變,并非實現(xiàn)高被引的標志。許多文獻可能在首次被引后便再無引用或短暫低被引后走向衰老,而引文起飛是文獻由低被引到高被引的轉(zhuǎn)折點,是文獻實現(xiàn)知識擴散、高影響力的重要起點,因此,引文起飛的“響應時間”一定程度上更能代表文獻吸引引文的能力。
首次被引后文獻被引數(shù)量逐年上升,到達引文峰值,即引文波峰。引文波峰是實現(xiàn)高影響力的重要時刻,波峰到達時間也得到眾多學者關注。姜春林等[33]統(tǒng)計分析了經(jīng)濟學、管理學和圖書情報學領域部分期刊,發(fā)現(xiàn)期刊引用峰值出現(xiàn)在出版后的1~3 年。Liu 等[10]以28 種眼科期刊作為研究對象,統(tǒng)計了2001—2006 年每年論文的引文趨勢,發(fā)現(xiàn)被引峰值出現(xiàn)在發(fā)表后的2~4 年。黨蘭學[34]統(tǒng)計了50 本科技期刊被引數(shù)據(jù),發(fā)現(xiàn)科技期刊論文被學位論文引用的峰值出現(xiàn)在第8 年,而被期刊引用的峰值出現(xiàn)在第5 年。Bouabid[11]基于文獻引用模式利用引文峰值構建模型預測文獻完整生命周期,發(fā)現(xiàn)不同國家間文獻引用峰值出現(xiàn)在4~5 年。Zhao 等[35]選擇Web of Science 中被引數(shù)最高的100 篇文獻的引用數(shù)據(jù)進行分析,發(fā)現(xiàn)高被引論文的引用峰值遠遠超過一般論文引用峰值,其分布平均值為21.9 年。李凌英等[12]以大量文獻數(shù)據(jù)為基礎,對單篇文獻引文波峰分布分析后發(fā)現(xiàn)大多數(shù)文獻在發(fā)表后0~5 年到達被引首次波峰和最高峰。引文波峰是引文起飛后的直接表現(xiàn),引文曲線在引文起飛后進入引文數(shù)量的快速增長期從而出現(xiàn)引文波峰。對于引文起飛的進一步研究有助于我們了解引文模式,預測引文峰值,構建引文生命周期。
在研究領域上,引文曲線相關研究多以自然科學領域文獻為研究對象,如物理學[12]、醫(yī)學[10]等,部分研究涉及社會科學[15,17],極少數(shù)涉及人文科學[18]。由于學科的差異,自然科學相較于人文科學擁有更多的載文量和被引量,期刊引文索引及文獻分布規(guī)律最初是從自然科學文獻研究得來的[36]。然而隨著人文社會科學知識體系的不斷完善以及科學技術的快速發(fā)展,人文社會科學的“科學性”顯著增強[37],人文社會科學領域文獻及引文數(shù)量不斷增加,對人文社會科學引文的規(guī)律探究尤為必要。在數(shù)據(jù)集的選擇上,大多數(shù)學者只選擇了單個學科[10]或幾個學科[13]的文獻,也有學者從期刊角度出發(fā),只選擇部分期刊作為研究數(shù)據(jù)來源[28]。Cl?nzel 等[32]選擇數(shù)學和細胞生物學文獻數(shù)據(jù)進行研究時發(fā)現(xiàn)不同期刊、學科領域文獻首次被引分布差異較大。單一學科的數(shù)據(jù)研究結果具有較強的學科特點而不能推廣應用至其他學科,具有一定的局限性。
在引文特征的研究對象上,目前學界關于引文起飛的研究較少,相關研究主要集中在首次被引、引文峰值和睡美人文獻。首次被引的研究主要集中在分布模型構建和評價指標的量化;引文峰值在其規(guī)律性探究基礎上更關注文獻生命周期,如通過引文峰值討論期刊影響因子的時間窗[10]。首次被引、引文峰值都是引文曲線的重要組成部分,首次被引關注文獻是否被“使用”的狀態(tài),以文獻轉(zhuǎn)變?yōu)椤笆褂谩睜顟B(tài)的時間評估文獻吸引引文的能力;而引文波峰作為文獻生命的“輝煌時刻”,是決定文獻生命周期的關鍵時刻。引文起飛作為連接首次被引與引文波峰的“中間角色”,與首次被引相比,引文起飛預示著引用的持續(xù)增長,更能體現(xiàn)文獻吸引引文的速度和能力;與引文波峰相比,引文起飛是引文波峰的必要條件,引文起飛的進一步研究或許能探究更多的引用模式。睡美人文獻的“蘇醒”是特殊文獻上的引文起飛,對于所有文獻來說都有其被“喚醒”的時刻,因此引文起飛更具一般性和普遍意義。
綜上所述,學界對于引文起飛的研究尚不夠充分,相關研究主要集中在睡美人文獻,睡美人文獻的蘇醒是文獻進入快速增長的起飛點,是引文起飛的典型代表。鑒于此,本文選擇我國人文社會科學領域的專業(yè)引文數(shù)據(jù)庫——中國社會科學引文索引(Chinese Social Sciences Citation Index,CSSCI),選擇10 年及以上引文時間窗,對應24 個人文社會科學學科,對引文起飛分布及分布模型展開研究。
中國社會科學引文索引(CSSCI)是我國專業(yè)的中文人文社會科學引文數(shù)據(jù)庫,收錄管理學、經(jīng)濟學、歷史學、法學、政治學等學科800 多種學術期刊。本文采集CSSCI 數(shù)據(jù)庫1998—2018 年的文獻及引文數(shù)據(jù),截至2018 年,CSSCI 數(shù)據(jù)庫共計收錄171 萬余篇學術論文和超過232 萬論文間引用關系對。引文曲線的形成需要一定的時間,單篇文獻年均被引頻次過低,甚至為零時,引文曲線呈現(xiàn)不規(guī)則波形,大量不規(guī)則波形引文曲線掩蓋了其他規(guī)則引文曲線,會影響研究結果的科學性和有效性。因此,本文選擇時間窗在10 年以上(包括10 年)、年均被引頻次不小于1 的文獻,即2008 年以前(包括2008 年)發(fā)表的總被引頻次不少于20 的文獻,對應24 個學科,共計7553 篇。
目前,學界對于引文起飛并沒有系統(tǒng)的識別方法。在前期的工作中,我們提出利用論文被引速率(citation speed,CS)對引文曲線進行分類,根據(jù)引文曲線類型不同分別運用人為參數(shù)法、年度引文法和年均被引法進行引文起飛的識別[5]。
對7553 篇文獻進行引文起飛的識別,人為參數(shù)識別法的識別率為69.67%,總體引文起飛識別正確率達90%以上。通過人為參數(shù)識別方法發(fā)現(xiàn)部分文獻有2 個以上起飛點。其中,大部分文獻只有1 個起飛點,占總文獻的78.73%;1336 篇文獻有2 個引文起飛點,占17.69%;少數(shù)文獻的起飛點個數(shù)可達4 個,占總文獻的0.42%。可見引文起飛作為文獻影響力快速增長的轉(zhuǎn)折點,大部分文獻生命周期中有且僅出現(xiàn)1 次。本文僅選擇第一次起飛點為研究對象,探究引文起飛分布規(guī)律。引文起飛在4 種曲線類型中的識別情況如圖1 所示。由圖1 可見,利用被引速率對引文曲線分類后根據(jù)不同曲線類型選擇相應的方法進行引文識別的效果較好。
圖1 4種曲線類型引文起飛識別情況
通過計算論文被引速率(CS)對7553 篇文獻的引文曲線進行分類,論文被引速率代表論文累計被引的速度,本文分別以0.3、0.5、0.7 為分界將引文曲線分為延遲承認型、厚積薄發(fā)型、領先優(yōu)勢型和曇花一現(xiàn)型。如圖2 所示,厚積薄發(fā)型和領先優(yōu)勢型文獻數(shù)量最多,分別為3567 篇(占47.2%)和3370 篇(占44.6%),曇花一現(xiàn)型文獻為461 篇(占6.1%),延遲承認型文獻數(shù)量最少,僅155 篇,占文獻總數(shù)的2.1%。由此也證明,大部分文獻的被引曲線符合經(jīng)典的引文生命周期曲線,即文獻發(fā)表后被引頻次逐漸增加,達到峰值后逐漸減少。
圖2 文獻類型分布
對文獻引文起飛識別結果進行統(tǒng)計(表1),發(fā)現(xiàn)近一半的文獻(3191 篇,42.2%)在發(fā)表年就實現(xiàn)引文起飛;起飛時間距發(fā)表年10 年以上(包括10 年)的文獻有391 篇,占文獻總數(shù)的5.2%;起飛時間最晚的可在發(fā)表后18 年才實現(xiàn)引文起飛(3篇,0.04%)。文獻數(shù)量隨引文起飛時點的增加而逐漸減少。從被引均值上來看,起飛時點較早的文獻被引頻次普遍較高,在發(fā)表年就實現(xiàn)引文起飛的文獻篇被引均值為48 次,而發(fā)表后18 年才實現(xiàn)起飛的被引均值為26 次,前者幾乎是后者的2 倍,也印證了睡美人文獻是少數(shù)現(xiàn)象。
表1 引文起飛時間分布
首次被引是文獻突破零被引狀態(tài)的起點,而引文起飛是文獻進入快速引用的轉(zhuǎn)折點,是引文知識擴散起點。首次被引和引文起飛兩者之間可能存在重疊。當引文起飛出現(xiàn)在首次被引前一年或兩者重疊時,說明文獻首次被引后就進入快速引用階段;當引文起飛在首次被引之后時,說明引文曲線經(jīng)歷成長階段后快速增長,也可能是睡美人文獻。在7553 篇文獻中,較多文獻在發(fā)表年或發(fā)表第一年達到引文起飛狀態(tài),共4194 篇,占全部文獻的55.5%;87%的文獻在發(fā)表后的6 年內(nèi)達到引文起飛狀態(tài)。說明大部分文獻在發(fā)表初期就進入引文快速增長階段,而后達到生命周期峰值,這與首次被引[27]、波峰分布[12]研究相一致。
將首次被引距離發(fā)表年時間與引文起飛距離發(fā)表年的時間分別作為X 軸和Y 軸,觀察首次被引與引文起飛不同位置的文獻數(shù)量對數(shù)分布,如圖3 所示,色塊顏色越深代表文獻數(shù)量越多。從圖3 可以看出,大部分文獻集中分布在左下角,且文獻首次被引和引文起飛緊鄰在一起,首次被引距離發(fā)表年的時間間隔越小,引文起飛與首次被引的時間間隔也越小,說明大多數(shù)文獻“適應力”較強,并且由于優(yōu)先鏈接機制,在早期首次被引后直接進入引文快速增長階段。
圖3 首次被引-引文起飛對數(shù)分布
一般認為,文獻的被引頻次在一定程度上反映了文獻的影響力。在首次被引和引文起飛關系的基礎上引入文獻的總被引頻次指標,構建三維空間散點分布圖。在圖4 中,X 軸表示首次被引時點,Y軸表示引文起飛時點,Z 軸表示文獻總被引頻次,每個圓點代表1 篇文獻。文獻密集地分布在首次被引時點0~3 年,起飛時點在0~3 年,總被引頻次在200 次以下區(qū)域。從總體分布來看,高被引文獻一般在發(fā)表2 年內(nèi)實現(xiàn)首次被引,在發(fā)表5 年內(nèi)實現(xiàn)引文起飛。這表明如果一篇文獻在發(fā)表初期得到初次引用并進入快速增長階段,就容易獲得更多引用,成為高被引文獻。當引文起飛距離發(fā)表年的時間間隔較長時,文獻獲得高被引的概率將大大下降。
圖4 引文起飛-首次被引-總被引數(shù)三維散點分布
由于文獻總被引頻次分布差值較大,本文選取按被引頻次排序后的前20%共1511 篇文獻作為高被引文獻,以此為界,對比高被引文獻和非高被引文獻三維散點分布情況。從分布密度可以看出,高被引文獻的首次被引集中分布在發(fā)表后0~2 年,引文起飛集中分布在發(fā)表后0~3 年;而非高被引文獻分布較為散亂,沒有明顯的集中分布現(xiàn)象。在高被引文獻分布中(圖4a),引文起飛距離發(fā)表年較長的文獻可能為睡美人文獻。
1)引文起飛分布基本特征
對于文獻的首次被引,不少研究提出了如雙指數(shù)模型[29]、冪律分布模型[31]等用于探究首次被引的分布問題。與首次被引相似,CSSCI 論文的引文起飛論文數(shù)與引文起飛論文比例分布規(guī)律是我們考察的內(nèi)容。
繪制引文起飛的論文數(shù)比例分布趨勢圖,X 軸代表引文起飛時間,Y 軸代表不同引文起飛時間下的論文數(shù)量比例,如圖5 中的圓點所示。從圖5 中可以看出,引文起飛分布趨勢為當引文起飛時間較小時,論文數(shù)量比例隨著引文起飛距離發(fā)表年的時間增多而迅速下降;當引文起飛時間較大時,論文數(shù)量比例緩慢下降,引文起飛分布曲線呈指數(shù)分布。
圖5 引文起飛論文比例擬合效果
2)引文起飛的分布規(guī)律描述
引文起飛論文數(shù)比例分布呈凹形,總體分布呈指數(shù)分布。因此,本文選擇指數(shù)分布模型嘗試對引文起飛分布特性進行擬合。指數(shù)分布也稱負指數(shù)分布,在統(tǒng)計學中,是描述泊松過程中事件的時間概率分布。一般情況下的指數(shù)分布的概率密度函數(shù)表示為
其中,參數(shù)λ>0,指數(shù)分布的區(qū)間是[0,∞),與引文起飛時點的取值區(qū)間相一致。因此,根據(jù)指數(shù)分布的概率密度函數(shù),以t表示引文起飛距發(fā)表年的時間,以R(t)表示引文起飛時點論文比例,引文起飛論文比例分布的指數(shù)分布規(guī)律可以表示為
其中,α、β、C均為常數(shù)。公式(2)可以解讀為在一組論文中,引文起飛論文比例服從參數(shù)為β的指數(shù)分布,α+C是論文發(fā)表年就實現(xiàn)起飛的論文比例。
對引文起飛論文數(shù)比例分布使用指數(shù)分布函數(shù)進行擬合,擬合后的引文起飛論文比例分布函數(shù)為R(t) = 0.39e-0.93t+ 0.02,反映擬合效果的擬合優(yōu)度R2=0.96,R2值越大,說明擬合效果越好。指數(shù)分布函數(shù)的擬合曲線如圖5 中虛線所示,可見擬合曲線與論文數(shù)比例分布(圓點)較為一致。
1)學科文獻引文起飛分布情況
表2 列出了7553 篇文獻數(shù)據(jù)的基本特征。可以看出,各學科論文數(shù)量分布差異較大,其中,經(jīng)濟學類的論文數(shù)量最多,占論文總數(shù)的42.5%,也是除軍事學外被引均值最高的學科,其文章的最大被引達1687 次。管理學和圖書館、情報與文獻學(下文簡稱“圖情文獻學”)緊隨其后,分別有1184 篇(占15.7%)和611 篇(占8.1%)。從最大被引數(shù)來看,經(jīng)濟學(1687)、心理學(1022) 和管理學(794)3 個學科的最大被引較大,而宗教學的最大被引僅為29,可能是由于經(jīng)濟學、心理學和管理學論文數(shù)較多而宗教學論文數(shù)較少。不同學科引文起飛時間均值分布在1~4 年,不同學科篇均引文起飛差異較大,其中,文學、考古學、歷史學,以及人文、經(jīng)濟地理等學科引文起飛時間均值都在4 年以上,而經(jīng)濟學、管理學、新聞傳播學等學科引文起飛時間均值較短,圖情文獻學篇均引文起飛僅為1.05年。學科間引文起飛均值差在2 年以上,可見引文起飛在不同學科間具有一定差異。由于部分學科的文獻數(shù)量較少,如馬克思主義、軍事學、藝術學和教育學4 個學科論文數(shù)僅為個位數(shù),為了保證學科特征分析的準確性,本文僅選取文獻數(shù)量在100 以上的學科進行學科引文起飛規(guī)律分析,共計10個學科。
表2 文獻數(shù)據(jù)集的特征值
2)各學科引文起飛分布規(guī)律擬合效果
由上文分析可知,引文起飛總體分布規(guī)律符合指數(shù)分布,按學科分類進行引文起飛論文比例的分布規(guī)律擬合,考察各學科的擬合情況。從擬合結果來看,除政治學學科的擬合優(yōu)度為0.88 外,其他學科的擬合優(yōu)度均在0.90 以上,說明各學科引文起飛論文數(shù)比例分布都可用指數(shù)函數(shù)來近似表征。
觀察表3 擬合系數(shù)發(fā)現(xiàn),不同學科間擬合系數(shù)α、β、C有一定差異。其中,系數(shù)β差異較大,圖情文獻學系數(shù)β為2.052,而心理學的擬合系數(shù)β僅為0.343。為了進一步探究不同β系數(shù)的學科擬合曲線差異以及α、β系數(shù)代表的具體內(nèi)涵,本文選擇擬合系數(shù)α相近、擬合系數(shù)β大于1 的圖情文獻學、新聞學與傳播學,以及擬合系數(shù)β相近且小于1 的社會學、心理學共4 個典型學科,分為A、B 兩組,根據(jù)擬合效果圖,探究系數(shù)β含義。由圖6 擬合曲線的形狀可以看出,當β>1 時,引文起飛論文數(shù)比例隨引文起飛時間的增加而快速下降,擬合曲線呈現(xiàn)出接近90°的急轉(zhuǎn),曲線轉(zhuǎn)折點靠近Y 軸;當β<1時,引文起飛論文數(shù)比例隨引文起飛時間的增加而緩慢下降,擬合的指數(shù)函數(shù)曲線形狀柔和,呈圓滑的弧線,曲線轉(zhuǎn)折點離Y 軸較遠。當擬合系數(shù)α相近時,β系數(shù)越大(如A 組的圖情文獻學和B 組的管理學),引文起飛時點分布就越集中,發(fā)表年起飛的文獻數(shù)遠高于其他時點起飛文獻。由此可以推斷,系數(shù)β反映的是引文起飛論文數(shù)比例隨引文起飛時間下降的快慢,即學科中起飛時點分布差異的大小。當系數(shù)β值越大時,引文起飛論文數(shù)比例隨引文起飛時間的增加下降越快。因此,擬合系數(shù)β一定程度上反映了文獻集中引文起飛時間分布的集中離散情況。
圖6 引文起飛論文比例擬合效果
表3 各學科擬合特征值
選擇擬合系數(shù)β相近、α系數(shù)相差較大的新聞學與傳播學和法學2 個學科繪制擬合效果(圖7),探究系數(shù)α含義。當擬合系數(shù)β相近時,擬合曲線形狀相近,而α較大的新聞學與傳播學在發(fā)表年起飛的文獻比例高,α較小的法學在發(fā)表年起飛的文獻比例較小。由擬合公式可知,文獻發(fā)表年就實現(xiàn)引文起飛的文獻數(shù)占比為α+C,而實際數(shù)據(jù)的擬合可以發(fā)現(xiàn)擬合系數(shù)C遠遠小于α,均值在0.01 左右。因此,擬合系數(shù)α可近似表示某學科在發(fā)表年實現(xiàn)引文起飛文獻比例,系數(shù)α值越大,在發(fā)表年實現(xiàn)引文起飛文獻比例越高。
圖7 不同擬合系數(shù)α的引文起飛論文比例擬合效果
在學科層面上觀察擬合系數(shù)α和β可以發(fā)現(xiàn),不同學科在擬合系數(shù)上具有較大差異。對于圖情文獻學、新聞學與傳播學和經(jīng)濟學等更貼近生活的學科,α、β值相近且較大,說明學科吸引引用能力較強;而對于管理學、語言學和心理學等理論性較強的學科,α值相近且較小,學科吸引引用速度較慢。
文獻被引頻次一定程度上反映了科學研究的影響力。高被引文獻與非高被引文獻引文起飛是否服從指數(shù)分布?為了進一步探究擬合結果系數(shù)內(nèi)在含義,探尋高被引文獻形成的內(nèi)在機制,本文按照總被引頻次從高到低排列,前25%的文獻和后25%的文獻分別劃為被引頻次較高組和被引頻次較低組,其他的文獻為被引頻次適中組,共三組。被引頻次高、中、低三組文獻的引文起飛擬合結果如表4 和圖8 所示,不同被引頻次組引文起飛比例分布均符合指數(shù)分布,擬合優(yōu)度都在0.93 以上。
圖8 不同被引頻次引文起飛比例分布擬合效果
表4 不同被引頻次引文起飛比例分布擬合結果
觀察擬合系數(shù)可以發(fā)現(xiàn),高被引頻次文獻組擬合系數(shù)α和β均大于中、低被引頻次組,可見高被引文獻引文起飛分布更為集中,近一半的文獻在發(fā)表年實現(xiàn)引文起飛,這說明多數(shù)具有高被引潛力的論文在發(fā)表之初就實現(xiàn)了引文起飛,高被引文獻擬合曲線的尾部是睡美人文獻。可以發(fā)現(xiàn),擬合系數(shù)α隨著被引頻次的降低而變小,被引頻次較低的文獻組擬合系數(shù)α、β均小于被引頻次居中和被引頻次較高的文獻組。然而在被引頻次較低的文獻組中,大部分文獻在發(fā)表后2年內(nèi)實現(xiàn)引文起飛,反映了人們在引用文獻時一般傾向于引用較新的文獻闡述當前研究現(xiàn)狀,也進一步說明了文獻發(fā)表時間越久,其被引用的概率會越低。
從引文起飛的分布規(guī)律來看,大多數(shù)文獻在發(fā)表后1~3 年內(nèi)實現(xiàn)引文起飛,首次被引往往伴隨著引文起飛。文獻從發(fā)表到被引,經(jīng)歷了首次被引、引文起飛,進而實現(xiàn)引文高峰。關于引文高峰的分布,不論是以期刊為單位的文獻集或是單篇文獻,引文高峰均出現(xiàn)在文獻發(fā)表后的5 年內(nèi)[10,38],這與本文的研究發(fā)現(xiàn)是相一致的。文獻被引表明文獻受到學界的關注,產(chǎn)生影響;當論文撰寫者在查找相關主題的文獻時,為了了解領域內(nèi)最新研究成果,研究者一般傾向于閱讀最近發(fā)表的論文,并在研究成果中進行引用。因此,對于新發(fā)表的文獻,在引用上具有一定的“優(yōu)先優(yōu)勢”[39]。普賴斯提出的“累積優(yōu)勢”[40]進一步解釋了引文起飛的產(chǎn)生,文獻被引用的概率與其被引頻次成正比,即文獻的被引頻次越高,獲得引用的概率越大。在發(fā)表初期就獲得引用的文獻與未被引用的文獻相比,由于“累積優(yōu)勢”更容易獲得更多的引用,從而實現(xiàn)引文起飛;Schubert 等[9]的研究也表明,4 年內(nèi)沒有獲得被引的文獻之后獲得引用的概率也大大降低。
高被引文獻引文起飛集中分布在文獻發(fā)表初期,近一半的高被引文獻在發(fā)表年即實現(xiàn)了引文起飛,而低被引文獻引文起飛的分布較為離散。從引文起飛時點與篇均被引頻次來看,隨著引文起飛時
點的增加,篇均被引頻次逐漸減少。引文起飛是文獻實現(xiàn)其影響力擴散的重要起點,是文獻吸引引文能力的重要體現(xiàn),潛在的高被引文獻具有快速吸引引用實現(xiàn)引文起飛的能力,這與文獻引用的適應性機制[41]是相一致的,適應性節(jié)點在加入網(wǎng)絡后能以較快的速度獲取鏈接并超越舊節(jié)點。
(1)為學科知識門類劃分提供參考。科學文獻是知識成果的重要載體,其所承載的知識在傳播和利用過程中必然經(jīng)歷擴散老化的過程,而不同的學科、知識門類由于內(nèi)在的學科特質(zhì),其知識引用、擴散及衰老過程存在一定差異性。不少研究也證明了不同學科領域間的引用存在顯著差異[42-43]。Moed[44]發(fā)現(xiàn),面向大眾研究的文獻更易吸引引用;也有研究發(fā)現(xiàn)知識面較窄的學科獲得引用概率較低[45]。在文獻老化研究中,普賴斯指數(shù)從文獻的參考文獻角度出發(fā)衡量各知識領域文獻的老化程度,通過比較普賴斯指數(shù)可以發(fā)現(xiàn)不同學科領域存在不同老化規(guī)律[46-47]。引文起飛比例分布模型的擬合以單篇文獻的引文曲線為研究對象,以文獻生命周期為基礎,一定程度上反映了科學文獻知識擴散、老化的整體趨勢,其擬合系數(shù)α和β對科學文獻集的引文起飛整體分布進行量化描述,是科學文獻集吸引引用速度的重要體現(xiàn)。通過不同學科的引文起飛比例分布擬合結果可以發(fā)現(xiàn),學科性質(zhì)較為相似的學科α和β值較為接近,如圖情文獻學、新聞學與傳播學。不同學科α、β系數(shù)差異較大,擬合系數(shù)α、β一定程度上反映了文獻集知識擴散的整體趨勢,可為學科、知識門類劃分提供參考。
(2)為引用速率指標構建提供新角度??茖W文獻的被引頻次一直被視為科學評價的重要指標,被引頻次作為固定時間窗內(nèi)的靜態(tài)指標,其弊端也不斷顯現(xiàn)。從引用的動態(tài)角度來看,科學文獻的質(zhì)量不僅體現(xiàn)在被引頻次上,更體現(xiàn)在文獻的被引速度上[48]。Schubert 等[9]最早將被引速度引入文獻計量學,而早期的被引速度僅以首次被引速度作為計量指標,以文獻由零被引進入被引的狀態(tài)轉(zhuǎn)變衡量文獻科學研究質(zhì)量[30]。然而,首次被引僅代表文獻被引生命周期的開始,是文獻“被利用”的起點,而引文起飛代表著文獻“被廣泛關注”的起點。比如,睡美人文獻在發(fā)表初期獲得首次被引后一直處于低被引狀態(tài),多年后突然被廣泛關注實現(xiàn)引文起飛。因此,以引文起飛時間構建學術評價指標衡量文獻被引速度、吸引引文的能力,用于評價科學文獻質(zhì)量更具有說服力,為學術評價提供了一個新的視角。
本文在前期研究工作基礎上,通過對引文曲線中引文起飛的識別,選擇人文社會科學領域,探究我國人文社會科學引文起飛分布規(guī)律及學科間的差異,擴充引文起飛研究框架。本研究發(fā)現(xiàn):①大部分文獻只有一個引文起飛點。引文起飛作為文獻被認可和廣泛采納的起點,大部分文獻生命周期中有且僅出現(xiàn)1 次,這符合文獻生命周期理論;我國人文社會科學文獻引文起飛主要分布在發(fā)表后的0~3年,并且首次被引往往伴隨著引文起飛,高被引文獻的引文起飛時間分布較為集中。②引文起飛的論文數(shù)比例分布符合負指數(shù)分布規(guī)律,指數(shù)分布函數(shù)的擬合效果良好。各學科間的引文起飛分布均符合負指數(shù)分布。指數(shù)分布函數(shù)的擬合系數(shù)α可近似表示某學科在發(fā)表年實現(xiàn)引文起飛的文獻比例,擬合系數(shù)β一定程度上反映了論文在引文起飛時間分布上的集中離散情況。③我國人文社會科學各學科引文起飛分布規(guī)律有較大差異。其中,圖書館、情報與文獻學,以及新聞學與傳播學引文起飛均值較小,引文起飛比例時間分布較為相近,在發(fā)表年實現(xiàn)引文起飛的文獻占比較大,文獻在起飛時間上的分布較為集中;而心理學、法學引文起飛均值較大,從引文起飛比例分布來看,發(fā)表年實現(xiàn)引文起飛的文獻占比不足一半,文獻在起飛時間上的分布較為均勻離散。從學科層面來看,擬合系數(shù)一定程度上代表了學科和知識門類的劃分。④不同被引頻次分組均服從引文起飛比例的指數(shù)分布。不同被引頻次的引文起飛指數(shù)分布模型能進一步解釋文獻被引的內(nèi)在機制和睡美人現(xiàn)象。
本文以我國人文社會科學文獻作為研究對象探究引文起飛分布規(guī)律,在引文起飛識別基礎上進一步探究文獻引用過程的內(nèi)在機制。本文在數(shù)據(jù)選擇上僅以人文社會科學領域文獻為研究對象,研究結論是否適用于自然科學領域是一個值得探討的問題。相關研究也表明,由于不同的出版和引文環(huán)境,文獻的引用在學科間存在差異,如自然科學相較于人文社會科學,高被引更集中,文獻老化速度較快[36];相較于人文社會科學,自然科學領域睡美人文獻占比高于人文社會科學領域[15,18]。故后續(xù)研究工作可進一步對比人文社會科學領域和自然科學領域引文起飛分布規(guī)律的差異,挖掘影響引文起飛相關因素,探討不同層面引文起飛模型擬合系數(shù)代表的深層含義及具體應用。