■趙一權(quán) 王振民 熊文炳 毛文莉 王賢文**
1)大連理工大學機械工程與材料能源學部大連116085
2)大連理工大學 公共管理與法學學院 WISE實驗室,大連 116085,E-mail:xianwenwang@dlut.edu.cn
對于科研工作者和科研管理部門來說,如何判斷一篇新發(fā)表論文的潛在影響力高低都是一個重要問題。傳統(tǒng)的方法往往多以論文的被引次數(shù)來衡量論文的科學價值和影響力。但是,這種評價方法存在較長的時間滯后缺陷。比如說,一篇論文從構(gòu)思到試驗、再到寫作、投稿、審稿、發(fā)表,一般需要經(jīng)歷一年甚至更長的時間。同理,對于一篇新發(fā)表論文,如果要知道它未來可能達到的被引次數(shù),一般需要經(jīng)歷很長的一段時間。那么,能否找到一種更加快捷的方法來對一篇新發(fā)表論文的潛在影響力進行快速、準確的判斷,這是科學計量學者和科研管理者需要解決的問題。
以往的大量研究表明,一篇論文的被引用高峰出現(xiàn)在發(fā)表后2年左右。也就是說,研究人員無法對一篇剛剛發(fā)表的論文的學術(shù)價值和影響力做出一個準確的評估,究其原因就是它的被引時間與發(fā)表時間存在較長的滯后。如果能夠發(fā)現(xiàn)下載次數(shù)與被引次數(shù)之間的關(guān)系,那么便可以利用下載次數(shù)指標,對一篇新發(fā)表的論文價值做出快速、比較準確的評估。
英國南安普頓大學的Tim Brody等人利用arXiv數(shù)據(jù)庫在英國的服務器,對論文的下載數(shù)據(jù)和未來的引用次數(shù)進行研究[1]。其研究證明二者有明顯的相關(guān)性。但是arxiv數(shù)據(jù)庫只是一個作者自存儲數(shù)據(jù)庫,arXiv的文獻與正式發(fā)表論文還是有所差別,因此其結(jié)論不具有代表性和普適性。美國印第安納大學布魯明頓分校的Xin Shuai等人選取了4606篇論文,對論文的被下載次數(shù)、Twitter評論和引用次數(shù)這三者進行研究[2]。調(diào)查的論文樣本較為有限,時間跨度從2010年10月4日至2011年5月2日,總共只有7個月,對于一篇論文從剛發(fā)表到下載與被引用次數(shù)的統(tǒng)計來說,這個時間跨度是比較短的,而且這只能體現(xiàn)出它早期的影響力,不能非常明確地獲得論文未來潛在影響力。
在科學文獻的用戶數(shù)據(jù)方面,大連理工大學的王賢文等人利用Springer的Realtime實時下載平臺,24小時監(jiān)測來自全世界各個國家和地區(qū)的科學文獻下載情況,完成了一系列的研究,包括基于科研人員下載文獻的時間數(shù)據(jù)對科學家的工作時間規(guī)律進行分析[3-4]、利用文獻的實時下載數(shù)據(jù)追蹤科研新趨勢[5]。此外,他們利用Nature的articlemetrics指標,研究論文在發(fā)表之后被下載的動態(tài)規(guī)律等等[6]。
國內(nèi)研究方面,相關(guān)研究也并不多見。其中郭強等人從單本期刊的層次研究期刊下載次數(shù)與被引次數(shù)的關(guān)系[7],楊弘選取了5種植物學領(lǐng)域的學術(shù)期刊研究期刊被引頻次與下載次數(shù)的關(guān)系[8]。這些研究的共同點是沒有深入到單篇論文層次來研究,而且由于在最終統(tǒng)計的過程中選取的計量單位不同,只能得到大致的經(jīng)驗認識,無法得出確切的結(jié)論,這種比較有其粗糙性。
在前人研究的基礎上,筆者從期刊層次和單篇論文層次進行研究,力求得到一篇論文從發(fā)表之日起至近期總的被引次數(shù)與下載次數(shù)之間的關(guān)系。并且,相比較于以往有限的樣本研究,筆者選取ACM的30多種期刊,近萬篇文獻,研究成果也將更具代表性。
ACM(Association for Computing Machinery)美國計算機協(xié)會數(shù)字圖書館創(chuàng)立于1947年,是全球歷史最悠久和最大的計算機教育、科研機構(gòu)。ACM于1999年開始提供在線數(shù)據(jù)庫服務ACM Digital Library。ACM數(shù)據(jù)庫內(nèi)容包括:期刊、雜志和會報53種、近300個會議及4000多卷會議錄、超過27萬多篇全文,及“在線計算機文獻指南”數(shù)據(jù)庫中140多萬條文摘題錄信息。從2003年5月開始,ACM數(shù)字圖書館開始提供論文的下載次數(shù)統(tǒng)計信息,即Bibliometrics指標。該指標對每一本期刊、每一個會議,以及每本期刊的每一期、每一篇文獻都會提供最近6周、最近12個月、發(fā)表以來的累積下載次數(shù)和被引次數(shù)。
如圖1所示,以期刊Journal of the ACM為例,該期刊發(fā)表的全部論文的最近6周被下載15772次,最近12個月被下載108855次,累積被下載1840956次,共計被引用57188次。該期刊2012年12月出版的第59卷第6期累積被下載1733次,被引用3次。同理,還可以看到具體每一篇論文的下載次數(shù)和被引次數(shù)。
圖1 ACM數(shù)字圖書館的Bibliometrics指標
在本研究中,選取了ACM出版的31種SCI期刊,考慮到ACM的Bibliometrics指標是從2003年5月才開始提供,選擇這31種SCI期刊2004年至2012年間發(fā)表的9251篇SCI論文作為研究對象。
對于這9251篇論文,利用筆者自編的網(wǎng)頁爬蟲程序,爬取了每一篇論文的Bibliometrics指標網(wǎng)頁。利用PERL語言程序,從9251個網(wǎng)頁中提取每一篇論文的4個Bibliometrics指標,即最近6周的下載次數(shù)、最近12個月的下載次數(shù)、發(fā)表以來的累積下載次數(shù)、被引次數(shù)。將每一篇論文的4個Bibliometrics指標數(shù)據(jù)導入SQL Server進行分析。詳細步驟如圖2所示。
圖2 研究技術(shù)路線
本研究將從期刊和單篇論文兩個層次開展分析,從ACM數(shù)據(jù)庫中查詢到31種ACM的SCI期刊從2004年初到2012年末每一期的Bibliometrics(文獻計量學)指標數(shù)據(jù),包括每一期在過去6周的下載次數(shù)、過去12個月內(nèi)的下載次數(shù)、累積下載次數(shù)和被引次數(shù)。一共查詢得到31種期刊1225期的數(shù)據(jù),數(shù)據(jù)格式如表1所示。表1列舉了Journal of the ACM期刊2004年各期和ACM Computing Surveys期刊2012年各期的數(shù)據(jù)情況。
同樣,從單篇文獻層次,對于31種ACM期刊的9251篇論文,也可以查詢到每一篇論文的文獻計量學指標數(shù)據(jù)。表2列出了部分論文的數(shù)據(jù),其中每一個DOI號都對應于唯一的一篇論文,DOI號相當于文獻的唯一識別標識。
表1 期刊層次的文獻計量學指標提取結(jié)果示例
表2 單篇文獻層次的文獻計量學指標提取結(jié)果示例
表3是所選取的31本SCI期刊名稱以及每本期刊在2004-2012年發(fā)表的論文數(shù)量。作為全球最大、知名度最高的計算機學會,ACM幾乎涉及了計算機科學技術(shù)的所有領(lǐng)域。發(fā)表論文最多的期刊是Communications of the ACM,該刊創(chuàng)刊于1958年,2013年的影響因子為2.511,該刊從2004至2012年共發(fā)表論文1280篇。論文數(shù)位居第2的是ACM Transactions on Graphics,影響因子 3.361,發(fā)表論文580篇。第3的是ACM SIGPLAN Notices,影響因子0.705,發(fā)文489篇。
表3 期刊名稱以及每本期刊2004-2012年發(fā)表論文數(shù)量
從ACM官方網(wǎng)頁找出每一本期刊2004-2012年每一年發(fā)表的期刊數(shù)量,對期刊每一期論文的最近六周、最近一年和總的下載次數(shù)以及它的被引次數(shù)等數(shù)據(jù)進行收集,然后進行相關(guān)性分析。
表4是從2004-2012每一年所有期刊的最近六周、最近一年以及總的下載次數(shù)與被引次數(shù)的相關(guān)性分析系數(shù)??梢钥吹?,在2010年以前,除了2006年最近六周下載次數(shù)與被引次數(shù)的系數(shù)為0.84以外,其余均保持在0.95以上,相關(guān)性非常高。但是相關(guān)系數(shù)為0.84依然非常高,不會影響對最終結(jié)果的判斷。
表4 期刊被引次數(shù)與下載次數(shù)的相關(guān)系數(shù)
圖3 期刊被引次數(shù)與下載次數(shù)的相關(guān)系數(shù)
在2011-2012年,相關(guān)性系數(shù)大幅度下降。究其原因,可能和新發(fā)表論文還沒有達到其被引用高峰有關(guān)。一篇論文從發(fā)表后被人關(guān)注到被引用的時間跨度大部分為兩年甚至更多,所以對于新發(fā)表論文來說,其被下載次數(shù)會比較高,但是其被引次數(shù)在發(fā)表1年之內(nèi)通常都很低,這樣的話難免會造成相關(guān)性大大降低。但是從前面的數(shù)據(jù)來分析,完全有理由推斷,隨著時間的增長,等到2014或2015年來對2011與2012年論文的相關(guān)性進行分析話,相關(guān)系數(shù)會逼近0.95甚至更高。這個預測也能從另一個側(cè)面反映出本研究的正確性與價值所在。
所以,期刊的被下載次數(shù)與被引次數(shù)之間是呈高度正相關(guān)的,在ACM計算機技術(shù)領(lǐng)域,可以利用這一規(guī)律對期刊的潛在影響力做出相對準確的快速評價。如果期刊的新的一期論文發(fā)表之后,引起大家的關(guān)注,下載次數(shù)高于平均水平,那么有理由相信,該期論文在未來的3-4年會有較高的被引次數(shù)。
在這一部分中,選擇了以上31本期刊當中發(fā)表論文數(shù)量最多的兩本期刊:Communications of the ACM,ACM Transactions on Graphics,并對這兩本期刊2004-2012年每一年發(fā)表的所有論文的總下載次數(shù)與被引次數(shù)做了相關(guān)性分析。之所以還要進行單篇論文層次的分析,是因為不同期刊的學科領(lǐng)域有所差異,影響力有高低之分,受到的關(guān)注程度自然也有所區(qū)別,所以為了更準確地研究論文下載次數(shù)與被引次數(shù)之間的關(guān)系,筆者選擇不同的期刊,針對單篇論文層次進行分析。
表5 兩本期刊的被引次數(shù)與下載次數(shù)相關(guān)系數(shù)
圖4 兩本期刊的被引次數(shù)與下載次數(shù)相關(guān)系數(shù)
以上是對單篇論文層次的數(shù)據(jù)處理,從表3中的結(jié)果同樣可以發(fā)現(xiàn)2010年以后的論文下載次數(shù)與被引次數(shù)相關(guān)性數(shù)據(jù)較低,呈弱相關(guān),如上文所述,這應該是合理的。
如圖4所示,不難發(fā)現(xiàn),單篇論文層次的相關(guān)系數(shù)相對于期刊層次的相關(guān)系數(shù)要更低一些,出現(xiàn)這種情況的原因是:對期刊層次的分析是把每一年的所有期刊數(shù)據(jù)匯總,再計算其相關(guān)性,這樣的話,不同期刊的影響力往往差別很大,因此不同期刊之間在期刊這樣一個相對宏觀的層面容易產(chǎn)生類似于“中和”的效應,使相關(guān)的整體水平偏向一個真值;但是,論文層次的分析是把期刊分年限進行分析,那么對于固定的一本期刊來說,它的論文水平與受關(guān)注程度往往是一定的,少數(shù)論文的被引次數(shù)很高,但是下載次數(shù)卻不高,而另外一些論文的下載次數(shù)很高,但是被引次數(shù)卻較低,這樣一些離群值數(shù)據(jù)容易造成整體的相關(guān)系數(shù)下降。不過我們可以看到,2010年以前的相關(guān)系數(shù)大部分在0.4以上,仍然具有較強的相關(guān)性。
期刊與論文的被引次數(shù)是進行學術(shù)價值測度的重要指標,但是被引次數(shù)的獲取卻是一個時間跨度很長的工作。一篇論文發(fā)表之后的影響力不僅體現(xiàn)在被引次數(shù)一個指標上,論文被學者關(guān)注并被下載閱讀同樣是學術(shù)價值的體現(xiàn)。通過研究下載次數(shù)與被引次數(shù)的關(guān)系,來預測被引次數(shù)的多少,這在理論和具體操作層面上都是一種行之有效的方式。
通過對ACM旗下的31本SCI期刊和9251篇SCI論文的下載次數(shù)和被引次數(shù)進行分析,研究結(jié)果發(fā)現(xiàn),對于期刊層次而言,下載次數(shù)與被引次數(shù)是呈高度正相關(guān)的,很多年份的相關(guān)系數(shù)都逼近于完全正相關(guān)。這說明對于一本期刊而言,如果知道一本期刊在過去6周或更長時間內(nèi)的下載次數(shù),就可以較好地判斷出該期刊的被引次數(shù)。從單篇論文層次來說,由于相關(guān)系數(shù)并沒有達到0.8以上,所以在根據(jù)下載次數(shù)判斷被引次數(shù)的準確性方面值得進一步商榷。
對于本研究來說,最理想的數(shù)據(jù)格式是能夠獲得嚴格對應的下載次數(shù)與被引次數(shù),也就是說,一篇論文在一個月或者一年中的下載次數(shù)所導致的被引次數(shù)究竟是多少,但是這個數(shù)據(jù)是無法得到的,所以本文的結(jié)論依然不能非常準確的解釋這個問題。隨著越來越多的學術(shù)出版商向?qū)W術(shù)界公開提供論文的用戶數(shù)據(jù),并且所提供的用戶數(shù)據(jù)越來越完善,筆者期待在不久的將來,能夠?qū)@項研究繼續(xù)進行完善和深入研究。
1 Brody T, Harnad S, Carr L.Earlier web usage statistics as predictors of later citation impact.Journal of the American Society for Information Science and Technology,2006, 57(8): 1060-1072
2 Shuai X,Pepe A,Bollen J.How the scientific community reacts to newly submitted preprints: article downloads, twittermentions, and citations.PloS one, 2012, 7(11): e47523
3 Wang X, Xu S, Peng L, et al.Exploring scientists’ working timetable: Do scientists often work overtime?.Journal of Informetrics, 2012, 6(4): 655-660
4 Wang X, Peng L, Zhang C, et al.Exploring scientists’ working timetable: A global survey.Journal of Informetrics, 2013, 7(3):665-675
5 Wang X, Wang Z, Xu S.Tracing scientist’ s research trends realtimely.Scientometrics, 2013, 95(2): 717-729
6 Wang X, MaoW,Xu S,etal.Usage history of scientific literature:Naturemetrics and metrics of Nature publications.Scientometrics,2014, 98(3), 1923-1933
7 郭強,趙瑾,劉思源等.下載次數(shù)與被引次數(shù)的統(tǒng)計關(guān)系研究.圖書館理論與實踐,2010,(9):30-35
8 楊弘.學術(shù)期刊被引頻次與下載次數(shù)的關(guān)系.安徽農(nóng)業(yè)科學,2013,(4):1820-1821