■楊 浦
河南師范大學學報編輯部,河南省新鄉(xiāng)市建設東路46號 453007
期刊評價機構(gòu)都以一定周期更新評價結(jié)果[1]。有些期刊社也會從大型數(shù)據(jù)平臺查詢本刊和他刊的數(shù)據(jù),以便及時進行自我評價。這些不斷更新的指標可以幫助期刊認識自身的優(yōu)劣勢,但是這些公布的指標都是以均值和排名的形式給出的簡單數(shù)據(jù),即便是期刊社自己查詢到的數(shù)據(jù),也都是處理為均值等簡單數(shù)據(jù)來分析。簡單數(shù)據(jù)的優(yōu)點是簡潔明了,缺點是丟失了大量細節(jié)信息?!逗幽蠋煼洞髮W學報(自然科學版)》(以下簡稱“學報”)2014年和2015年影響因子分別為0.361[2]、0.333[3],當然可以認為學報的平均水平有所下降,但許多細節(jié)問題是上述數(shù)據(jù)無法回答的。例如數(shù)據(jù)下降的原因是2013—2015年的期刊質(zhì)量逐年下降,還是2014年或2015年某年的質(zhì)量下降?是文獻整體水平下降,還是高被引文獻比例下降?這樣的降幅是在正常的波動范圍內(nèi),還是質(zhì)量有明顯下降?
現(xiàn)今是大數(shù)據(jù)技術(shù)充斥各行各業(yè)的時代[4-5],文獻計量學同樣離不開大數(shù)據(jù)。出版社、編輯部也應該充分利用各種學術(shù)服務平臺提供的大數(shù)據(jù)挖掘出更多的有用信息,充實自身辦刊決策的現(xiàn)實數(shù)據(jù)基礎。很多人類行為是有時空特征的,可以量化分析建模[6]。大數(shù)據(jù)技術(shù)的思想來源于統(tǒng)計物理中的隨機動力學(例如布朗運動等):個體的運動是隨機的,宏觀的分布是確定的。文獻的被引過程也不例外。本文在文獻被引數(shù)據(jù)中尋找規(guī)律,建立數(shù)學模型,并對其進行驗證。有了合適的模型來描述期刊的狀態(tài)特征,就可以更方便地為制定辦刊方針提供理論依據(jù)和數(shù)據(jù)支持。
于2015-10-22和2016-10-22兩個時間點(以下簡稱“2015/2016統(tǒng)計數(shù)據(jù)”)在知網(wǎng)上搜索2010—2014年學報每篇可被引文獻的被引量。自2004年以來,學報始終是全國中文核心期刊,稿源和欄目穩(wěn)定,自然來稿是學報發(fā)表稿件的主體。2010—2014年學報每年載文量在207~319范圍內(nèi)逐年遞減。
大數(shù)據(jù)分析的第一步是計算均值,第二步則是計算靜態(tài)分布。目前詳細分析文獻計量學指標分布的研究還很少[7-8]。這些統(tǒng)計分析可以回答“是文獻整體水平下降,還是高被引文獻比例下降”之類的問題,但不能回答“是多年下降,還是某年下降”的問題。
大數(shù)據(jù)分析的第三步是對大數(shù)據(jù)分布動態(tài)變化的研究。它可以將不同年份發(fā)表的文獻進行縱向?qū)Ρ?。文獻[8-11]對數(shù)據(jù)的動態(tài)演化進行了研究,但不是研究分布變化,而是研究均值變化。湯曉浩[8]既統(tǒng)計了靜態(tài)分布,又研究了動態(tài)演化,但是靜態(tài)分布是將10年的文獻整合在一起,動態(tài)演化的研究對象是每年期刊的總被引頻次。
大數(shù)據(jù)分析的第四步是在前三步的基礎上總結(jié)出數(shù)據(jù)演化的規(guī)律,提出數(shù)學模型。這樣可以通過數(shù)值模擬驗證規(guī)律,解決問題。
2010—2014年,學報發(fā)表文獻在上述兩個統(tǒng)計時間點間的篇均被引增量依次約為0.596、0.504、0.500、0.464、0.566,沒有呈現(xiàn)明顯上升或下降的趨勢。按俞立平等[10]提出的分類法,學報屬于持續(xù)被引型。
毛國敏等[7]研究了3種專業(yè)期刊多年間(10年以上)發(fā)表文獻的總體被引量分布,根據(jù)單邊拖尾現(xiàn)象認為每種期刊的分布大體服從冪律分布。從樣本量的角度考慮,這在一定程度上提升了研究結(jié)論的可靠性。如果被引量與發(fā)表時間無關(guān),這樣做是合適的,但是被引量是發(fā)表時間的遞增函數(shù),將不同年份的被引量混在一起考察其分布就削弱了數(shù)據(jù)的意義。2010—2014年學報發(fā)文的被引量分布[圖1(a)]和文獻[7]研究的3種期刊對應的分布趨勢是一致的。從圖1(b)可以看出,只有2010年和2011年發(fā)表文獻的最大單篇被引量大于10,2012以后發(fā)表文獻的最大單篇被引量為10。文獻的被引量分布隨發(fā)表時間的變化是明顯的。這種分布可以有多種解釋[6,12]:可以認為是指數(shù)截斷的冪律分布;也可以認為大部分服從指數(shù)衰減分布,個別高被引論文不服從整體規(guī)律。
圖1 2016年統(tǒng)計的2010—2014年間發(fā)表文獻被引量分布
為研究文獻各年被引量隨時間的變化規(guī)律,簡單處理兩次采集的數(shù)據(jù)后即可得到每篇文獻1年間的被引增量。設m為單篇文獻在2015—2016年間的被引增量,文獻比例x1(m)=被引增量為m的當年文獻數(shù)/當年可被引文獻數(shù)。這些增量按文獻發(fā)表年分組計算其分布,結(jié)果如圖2所示。舉例說明圖2意義。(7,-2.461)是指被引增量m=7的文獻比例x1(7)=10-2.461≈0.0035。m>8的文獻只有1篇(發(fā)表于2010年),未在圖2中給出。
圖2 各年文獻在2015—2016年間被引增量分布
m為0~5時對應各年的x1(m)依次分布在[65.7%,73.0%]、 [14.6%,22.4%]、 [5.0%,8.9%]、 [1.8%,2.9%]、[0.3%,2.3%]、[0.3%,0.7%]的區(qū)間內(nèi)。m>5的文獻共9篇(2010年有5篇),占各年可被引文獻總數(shù)的比例小于1%,是小概率事件;m<6的部分,各年情況基本一致。對m<6的各年數(shù)據(jù)作擬合,可得
x1(m)≈0.708×10-0.535≈0.708exp(-1.232m)。
(1)
各年發(fā)表的被引增量分布基本保持不變并不意味著每篇文獻在發(fā)表后每年的被引量都勻速增長。實際上單篇文獻每年增長量有顯著的波動。圖3為整期文獻在2015年和2016年兩次統(tǒng)計的被引量的Pearson相關(guān)系數(shù)pv({ci,v,2015|i=1,2,…,nv},{ci,v,2016|i=1,2,…,nv}),其中,ci,v,2015表示第v期第i篇文獻截至2015年的被引量;ci,v,2016表示第v期第i篇文獻截至2016年的被引量;v=1,2,…,30,v=1對應2010年第1期,學報為雙月刊,2010—2014年共30期;i是文獻編號,nv為每期載文量。因為被引量與發(fā)表時間的相關(guān)性較強,所以圖3精確到文獻的期號。從圖3可以看到,隨著發(fā)表時間的減小(v的增加),相關(guān)性越來越差,這是因為增長的基數(shù)(ci,v,2015)越來越小。
圖3 每期文獻在2015年和2016年兩次統(tǒng)計的被引量相關(guān)性
文獻的被引過程可以看作一個泊松過程[6,13]。泊松過程是一種經(jīng)典的隨機過程,廣泛用于描述很多實際過程,如電話打入等[6]。假設每篇文獻都有一個固有參數(shù)只與自身學術(shù)質(zhì)量有關(guān),即被引頻率期望λ。該期望值完全確定泊松過程的所有特征量。根據(jù)辛欽大數(shù)定律,文獻發(fā)表時間越長,其年平均被引頻率越接近λ,所以用2016年的統(tǒng)計數(shù)據(jù)計算了學報各年發(fā)表文獻的被引頻率期望。計算平均被引頻率時,被引文獻發(fā)表時間間隔精確到2個月。為了降低被引半衰期的影響(學報被引半衰期為5.9 a[3]),沒有計算2010年之前發(fā)表文獻的被引頻率。2010年之后文獻的年平均被引頻率分布如圖4所示。平均被引頻率大于4的文獻僅有2篇,未在圖4中標出。根據(jù)圖4數(shù)據(jù)可知,各年文獻的分布大致相同,都隨λ的增加指數(shù)衰減。與圖2中m的取值范圍為非負整數(shù)不同,圖4中λ的取值范圍為非負有理數(shù),可近似認為λ在非負實數(shù)區(qū)間連續(xù)取值。設文獻密度函數(shù)
x2(λ)=Ae(-Bλ)。
(2)
圖4 年平均被引頻率(被引頻率期望)分布
基于上述研究,提出兩個命題:(a)文獻被引過程是泊松過程;(b)期刊整年(或整期)文獻的平均被引頻率期望分布服從指數(shù)衰減分布。命題(a)是基于文獻[6,13]提出的假設,描述了單篇文獻的被引行為是一種隨機動力學過程。命題(b)是基于圖4提出的假設,描述的是期刊文獻整體的分布情況。
如果文獻被引頻率期望存在,圖4保證了命題(b)的正確性;如果命題(a)成立,則文獻被引頻率期望必然存在。下面用數(shù)值模擬的方法對命題(a)進行驗證。
建立學報文獻被引過程的數(shù)學模型,用Matlab軟件進行數(shù)值模擬。首先生成分布服從(2)式的N篇文獻被引頻率期望,然后令每篇文獻依據(jù)符合各自被引頻率期望的泊松過程進行演化。經(jīng)過數(shù)據(jù)處理即可得到各種所需的模擬結(jié)果。為了得到較為光滑的曲線,取文獻樣本數(shù)N=30000篇。這時可以認為模擬值近似等于理論值。
模擬過程不考慮半衰期的影響,所以演化時間取為10 a。衰減指數(shù)是從圖4中取得的,根據(jù)泊松過程和辛欽大數(shù)定律,模擬曲線和實際曲線相吻合是平庸的。
單篇文獻直接驗證命題(a)的正確性是困難的,中低被引文獻尤甚。因為泊松過程的短期波動很大,要求有足夠長的數(shù)據(jù)支持,但受到半衰期短的限制,取樣時間不能過長。數(shù)據(jù)過少又會使結(jié)論的可信度大大下降。
如果可以準確估計文獻的被引頻率期望,那么可以結(jié)合大量有相同被引頻率期望的文獻來驗證被引過程是否為泊松過程;但是泊松過程的被引頻率期望難以準確估計,上述驗證過程形成邏輯悖論。
圖2和圖3的統(tǒng)計數(shù)據(jù)繞開了單篇文獻直接驗證命題(a)正確性的困難,通過整體文獻分布的確定性來驗證命題(a)的正確性。
圖2中的模擬曲線和實際曲線吻合并不是平庸的。如果所有文獻的被引頻率期望都等于非負常數(shù)λ,被引過程是泊松過程,那么單篇文獻年被引增量的分布應該是一條泊松曲線pλ(k)=exp(-λ)λk/k!。如果文獻被引頻率期望服從(2)式,而被引過程是平穩(wěn)的(年被引頻次圍繞被引頻率期望在小范圍內(nèi)波動),那么單篇文獻年被引增量的分布應該服從(2)式,即不僅服從指數(shù)衰減,而且衰減指數(shù)相同。圖2的分布不符合上述兩種假設結(jié)論,但與模擬曲線十分符合。模擬曲線的意義在于命題(a)和(b)同時成立的前提下,期刊整年文獻被引量增長的分布應該服從(1)式。因為命題(b)的正確性已由圖4保證,所以命題(a)成立。
在模擬中單篇文獻單位時間內(nèi)被引增量僅依賴于被引頻率期望,而與文獻被引歷史無關(guān),所以圖2中的模擬曲線不會隨發(fā)表時間變化。與圖2不同,圖3包含了文獻的歷史被引量。如果文獻被引過程是完全隨機的,與文獻被引頻率期望無關(guān),那么相關(guān)系數(shù)pv應該與期數(shù)v無關(guān)。參照圖3中每個點的意義,逐期模擬計算相關(guān)系數(shù)pv,可見模擬曲線不僅與實際數(shù)據(jù)的變化趨勢相符,而且在發(fā)表時間較長的區(qū)間模擬數(shù)據(jù)與實際數(shù)據(jù)也十分符合。發(fā)表時間短的文獻的被引量普遍較少,所以相關(guān)性小且有較大波動。圖3從不同出版時間的角度半定量地驗證了命題(a)的正確性。
綜上所述,圖2~4支持命題(a)和(b)成立。
數(shù)學模型可以有效地解決實際問題,譬如影響因子的正常波動范圍。分布穩(wěn)定并不意味著均值穩(wěn)定,尤其是低被引頻次文獻占比較大的期刊。一個著名的例子是一篇高被引文獻將某期刊的影響因子由2提升到50[14]。從圖2可以看到近5年文獻的被引增長分布是穩(wěn)定的,但是學報影響因子有波動。通過模擬計算得到一份每年發(fā)表200篇可被引文獻的期刊,文獻被引情況服從學報被引規(guī)律,被引期望分布參數(shù)與(2)式一致,則其影響因子期望約為0.460,標準差約為0.043。由于引文數(shù)據(jù)庫不同,所以模擬算出的影響因子與文獻[2-3]給出的影響因子差距較大,但相對振幅可以作為參考。此類期刊的影響因子上下浮動10%是正常的。學報影響因子從2014年的0.361降到2015年的0.333,是在正常范圍內(nèi)的波動。模擬中的載文量對影響因子期望不產(chǎn)生影響,但會影響其標準差。學報若在保持文獻質(zhì)量穩(wěn)定的前提下年載文量增至300篇,則標準差可降為0.032。數(shù)值模擬可以隨意調(diào)節(jié)載文量、演化時間等參數(shù),得到各種所需的數(shù)據(jù),可評判期刊各種指標是否異常。
通過分析學報的動態(tài)被引量分布情況,提出了學術(shù)期刊被引規(guī)律;根據(jù)規(guī)律建立了數(shù)學模型;將數(shù)值模擬結(jié)果與實際數(shù)據(jù)對比,驗證了規(guī)律的正確性;利用數(shù)值模擬估計期刊影響因子的波動幅度。除上述結(jié)論外,更重要的價值在于給出一種分析處理文獻指標的新方法,即用隨機動力學分析指標的動態(tài)分布情況。這種方法可以應用于多種文獻的計量學指標,可能會得到多種規(guī)律。該方法的思想來源于統(tǒng)計物理。統(tǒng)計物理研究方法已經(jīng)被引入生物、工程甚至很多社會科學領域[6,16-18]。希望本文能提高編輯界對統(tǒng)計物理方法的關(guān)注。
上述工作處于初步研究階段,還有很多內(nèi)容有待研究完善。
(1) 一種期刊的數(shù)據(jù)對于驗證規(guī)律過少。對多家期刊的研究工作正在進行中。根據(jù)初步研究和文獻[5,13]的研究結(jié)果,學報被引規(guī)律的兩個命題具有一定程度的普適性是可能的。
(2) 對命題驗證不充分。特別是命題(a),圖2和圖3都是從側(cè)面驗證,而且隱含了根據(jù)學報為持續(xù)被引型文獻而作的各年發(fā)表文獻在相同發(fā)表時間條件下被引情況大致相同的假設。未來工作的一項重點內(nèi)容是要提出更可靠的驗證方法。
(3) 建立的模型忽略了很多細節(jié)的影響因素,比如馬太效應、載文量[19]、半衰期等。圖2中m>5的文獻發(fā)表時間較長,可能是由馬太效應引起的。隨著研究的深入更多的因素會加入到模型中,使模型更貼近實際情況。
(4) 研究對象僅限于文獻的被引指標,沒有將該方法擴展到其他文獻計量學指標,如文獻級別用量指標等。
[1] 何峻. 中國期刊出版及評價現(xiàn)狀分析[J]. 廣西民族大學學報(哲學社會科學版),2011,33(5):62-68.
[2] 中國科學文獻計量評價研究中心,清華大學圖書館. 中國學術(shù)期刊影響因子年報( 自然科學與工程技術(shù))[J/CD]. 北京:中國學術(shù)期刊(光盤版)電子雜志社,2015.
[3] 中國科學文獻計量評價研究中心,清華大學圖書館. 中國學術(shù)期刊影響因子年報( 自然科學與工程技術(shù))[J/CD]. 北京:中國學術(shù)期刊(光盤版)電子雜志社,2016.
[4] 舍恩伯格,庫克耶. 大數(shù)據(jù)時代:生活、工作與思維的大變革[M]. 盛楊燕,周濤,譯. 杭州:浙江人民出版社,2013.
[5] 夏登武. 大數(shù)據(jù)時代學術(shù)期刊的內(nèi)容優(yōu)化與價值重構(gòu)[J]. 中國科技期刊研究,2016,27(3):264-268.
[6] 周濤, 韓筱璞,閆小勇,等. 人類行為時空特性的統(tǒng)計力學[J]. 電子科技大學學報,2013,42(4):481-540.
[7] 毛國敏,蔣知瑞,任蕾,等. 期刊論文被引頻次的冪律分布研究[J]. 中國科技期刊研究,2014,25(2):293-298.
[8] 湯曉浩. 《原子能科學技術(shù)》2000—2010年載文被引統(tǒng)計分析[J]. 編輯學報,2011(s1):64-68.
[9] 牛昱昕,宗乾進,袁勤儉. 開放存取論文下載與引用情況計量研究[J]. 中國圖書館學報,2012,38(4):119-127.
[10] 俞立平,王艷. 學術(shù)期刊被引頻次的時間分布規(guī)律研究:以圖書館、情報、文獻學期刊為例[J]. 情報科學,2016,V34(5):159-162.
[11] 劉昌來,李燕文,王國棟,等. 加權(quán)被引頻次:科技期刊單篇論文短期的一種評價方法[J]. 中國科技期刊研究,2014,25(7):958-962.
[12] 汪躍春,胡敏. 期刊被引頻次分布規(guī)律的實證研究:基于經(jīng)濟學期刊的分析[J]. 圖書情報工作網(wǎng)刊,2011(12):28-38.
[13] 鄧集賢,楊維權(quán),司徒榮,等. 概率論與數(shù)理統(tǒng)計(上冊)[M]. 4版. 北京:人民教育出版社,2009.
[14] 張士超. 讓期刊IF從2暴漲到50,這篇“神文”是怎么做到的?[EB/OL](2016-12-19)[2016-12-20]. http:∥mt.sohu.com/20161219/n476337758.shtml.
[15] 張俊瑞,張琦,汪方軍. 《會計研究》三十年論文質(zhì)量評價:基于《中國知網(wǎng)》引證文獻的統(tǒng)計分析[J]. 會計與經(jīng)濟研究,2012,26(1):40-50.
[16] 汪秉宏,周濤,周昌松. 人類行為、復雜網(wǎng)絡及信息挖掘的統(tǒng)計物理研究[J]. 上海理工大學學報,2012,34(2):103-117.
[17] 陳雙平,鄭浩然,馬猛,等. 用統(tǒng)計物理的方法計算信源熵率[J]. 電子與信息學報,2007,29(1):129-132.
[18] 黃穎,王勉. 學術(shù)論文引文網(wǎng)絡的無標度特征及成因分析[J]. 中國科技期刊研究,2010,21(6):851-854.
[19] 黃明睿. 載文量對科技期刊影響力評價的影響[J]. 中國科技期刊研究,2015,26(7):749-757.