張 旭,呂冬晴,阮選敏,成 穎,鞠秀芳
(1.南京大學(xué)信息管理學(xué)院,南京 210023;2.南京大學(xué)中國社會科學(xué)研究評價中心,南京 210093)
學(xué)術(shù)期刊(下文簡稱“期刊”)評價是學(xué)術(shù)評價的重要組成部分。隨著期刊規(guī)模的持續(xù)增長,高質(zhì)量期刊的遴選以及采用何種方法對其進行評價已經(jīng)得到了學(xué)界的廣泛關(guān)注[1]。目前,同行評議仍是期刊評價的主要方法。中共中央辦公廳、國務(wù)院辦公廳印發(fā)的《關(guān)于深化項目評審、人才評價、機構(gòu)評估改革的意見》①http://www.gov.cn/zhengce/2018-07/03/content_5303251.htm明確提出了“基礎(chǔ)前沿研究突出原創(chuàng)導(dǎo)向,以同行評議為主”的指導(dǎo)原則。不過,現(xiàn)有研究表明評審專家的主觀性[1-2]、認知偏差[3-4]以及情感偏差[5]等會對評價結(jié)果產(chǎn)生顯著影響。
文獻計量作為期刊評價的主要方法之一,產(chǎn)生了以期刊影響因子(journal impact factor,JIF)、h指數(shù)等為代表的一系列有影響的成果。JIF等傳統(tǒng)指標的不足之一是僅考慮了期刊的被引數(shù)量,未區(qū)分施引文獻的質(zhì)量。對此,部分研究將PageRank算法[6]應(yīng)用于引文分析[7-8],產(chǎn)生了期刊聲望指標(SCImago journal rank,SJR)[9]與特征因子(eigen‐factor)[10]等衍生指標。PageRank的引入顯著提升了期刊評價的效果,不過,此類方法依然沒有跳出計量評價的范疇。
目前,學(xué)界普遍認同將文獻計量與同行評議有機融合是更有效的評價方式[11-12]。據(jù)此,本研究擬吸收同行評議與文獻計量兩種方法之所長,全面改進期刊評價研究。首先,多項研究表明評議者很容易就最優(yōu)秀評價對象達成一致,即同行評議中普遍存在的偏見、裙帶關(guān)系以及利益沖突等對最優(yōu)個體的評價影響甚微,如學(xué)科的一流期刊[13]。其次,針對PageRank算法的不足,在網(wǎng)頁排序研究與應(yīng)用中通過引入種子網(wǎng)頁的衍化算法Trust Rank[14]已經(jīng)得到了廣泛的應(yīng)用。鑒于PageRank算法在期刊評價研究中的價值,學(xué)界有必要探討TrustRank算法在期刊評價中的意義。
綜上,本研究選取同行評議篩選出的學(xué)科/領(lǐng)域期刊的共識部分——一流期刊作為種子,借助TrustRank算法進行期刊的評價研究。具體地,融合專家的共識意見與文獻計量指標,本研究提出期刊權(quán)威性因子(journal authoritativeness factor,JAF);在此基礎(chǔ)上,提出基于JAF與JIF的綜合指標(journal authoritativeness and impact index,JAII),以提高期刊評價的科學(xué)性與合理性,具體研究問題包括:
(1)JAF評價結(jié)果的可靠性與穩(wěn)定性。
(2)JAII評價結(jié)果的可靠性與穩(wěn)定性。
1955年,Garfield[15]在Science上首次提出了通過被引頻次測度期刊影響力的設(shè)想。1975年發(fā)布的《期刊引用報告》(Journal Citation Reports,JCR)采用文獻計量指標JIF測度了期刊的影響力,自此,學(xué)界與業(yè)界對JIF進行了系統(tǒng)的研究與應(yīng)用[16]。其間,學(xué)界相繼發(fā)現(xiàn)JIF存在如評價維度單一[17]以及在出版周期較長的學(xué)科中評估能力較差[2]等不足,其他還包括JIF無差別地對待每一本施引期刊及每一條引用,忽視了因期刊質(zhì)量不同導(dǎo)致的引文價值差異。對此,Pinski等[18]認為相較于普通期刊,被高影響力期刊引用的成果的學(xué)術(shù)影響力更高[10],并基于加權(quán)引文網(wǎng)絡(luò)得到了期刊影響力值。Page等[6]受Pinski等[18]的啟發(fā),提出了著名的網(wǎng)頁排序算法——PageRank。該算法的卓越表現(xiàn)引起了科學(xué)計量學(xué)者的關(guān)注并將其應(yīng)用于引文分析,以兼顧引用的“數(shù)量”與施引者“質(zhì)量”,彌補了傳統(tǒng)引文指標只考慮引用“數(shù)量”的不足[7-8]。該算法隨之被廣泛應(yīng)用于論文[19-20]、學(xué)者[21-22]以及期刊等的評價研究。
目前,PageRank在期刊評價的研究與實踐中已形成了豐碩的成果。比如,Carl[10]通過“期刊受到越多高影響力期刊的引用,其影響力也越高”的假設(shè)優(yōu)化了PageRank,進而提出了期刊特征因子指標(eigenfactor)。Bollen等[23]將期刊的重要性分為“流行性”與“聲望”兩個維度,分別采用JIF測度期刊的流行性,依據(jù)加權(quán)PageRank算法測度期刊聲望,并據(jù)此提出了融合二者的指標Y-factor;該研究表明,期刊聲望與流行性分屬不同維度,相較于單獨使用二者,Y-factor的評價結(jié)果更符合學(xué)界的認知。蘇成等[24]進一步考慮了期刊載文量的影響,提出了篇均PageRank(PR)值的思路。Cheang等[25]通過區(qū)分期刊自引、內(nèi)部及外部3種不同引用類型改進了PageRank算法,并將其應(yīng)用于39本管理學(xué)期刊的評價。
在評價活動中,對于是否有必要在同行評議中引入定量指標以及二者間的關(guān)系,多項研究給出了肯定的回答,認為定量指標能夠在同行評議中起到輔助作用,可以起到規(guī)避同行評議制度部分缺陷的作用[26]。比如,研究發(fā)現(xiàn),超過2/3的受訪者贊成使用文獻計量學(xué)指標輔助評價決策[27];專家小組成員廣泛支持在同行評議中使用文獻計量指標,但其宜主要應(yīng)用于對候選人的初步評估[28];相關(guān)分析顯示,二者呈強相關(guān)關(guān)系,表明計量指標完全可以替代同行評議,是一個高效且經(jīng)濟的評價方法[12]。不過,少量研究顯示,定量指標與同行評議的相關(guān)性很弱,比如,JIF_2及JIF_5與同行評議結(jié)果的相關(guān)性不顯著[29],JIF_5與同行評議的相關(guān)系數(shù)僅為0.1左右[30]。
學(xué)界嘗試將同行評議與多種文獻計量指標結(jié)合以提升評價效果,將二者加權(quán)是最常見的組合方式。比如,部分研究采用波達計數(shù)法(Borda count)整合了同行評議、JIF與h指數(shù)[31];將專家打分與h指數(shù)、g指數(shù)三者的均值作為期刊最終得分[32-34];分別采用PageRank與同行評議對目標期刊進行評價,然后采用多目標粒子群優(yōu)化算法對評價結(jié)果進行整合[35]等。除了簡單加權(quán)的方法外,也有學(xué)者將二者進行了融合,比如,將權(quán)威期刊論文作者簡介中的期刊列表順序視為專家對期刊的投票,依據(jù)投票結(jié)果構(gòu)建期刊關(guān)系矩陣,并采用PageRank算法得到期刊聲望值[36]。
目前,同行評議與計量指標的結(jié)合作為有效的評價方法[11]已被廣泛應(yīng)用于評價實踐。例如,英國的國家衛(wèi)生研究所(National Institute for Health Re‐search,NIHR)在高級項目負責(zé)人以及生物醫(yī)學(xué)研究等多項評議活動中采用了定量指標輔助決策。英國的研究卓越框架(Research Excellence Framework,REF)在評估高等教育機構(gòu)的研究質(zhì)量時也采用了文獻計量指標,不過最終評價結(jié)果仍由專家小組根據(jù)成果的原創(chuàng)性、重要性和嚴謹性等原則評議形成。澳大利亞卓越研究(Excellence in Research for Australia,ERA)采用了與REF類似的方法,引文分析結(jié)果被明確用作評估研究質(zhì)量的指標。
長期以來,期刊評價一直是學(xué)界廣泛關(guān)注的問題。縱觀其發(fā)展過程,相關(guān)研究與實踐經(jīng)歷了從定性到定量,再到定性與定量相結(jié)合的轉(zhuǎn)變,目前仍存在以下不足。
首先,定量指標主要依賴引文數(shù)據(jù)。以JIF為代表的傳統(tǒng)定量指標均存在一個難以忽視的問題,即未對施引期刊的質(zhì)量加以區(qū)分,相比于質(zhì)量較低的期刊,高質(zhì)量期刊的引用更具學(xué)術(shù)價值。PageR‐ank的引入部分解決了上述問題,推動了期刊定量評價的發(fā)展。不過,PageRank的計算結(jié)果仍難以識別期刊的過度自引[37]、“互惠引用聯(lián)盟”(citation cartel)[38-39]等作弊行為。
其次,同行評議制度的主觀偏見問題亟待解決,定性與定量融合的期刊評價方式需要創(chuàng)新。雖然同行評議是期刊評價的主導(dǎo)方法,但是評審專家的主觀性與認知偏差、評估成本高等問題長期以來難以解決。定量指標因其客觀、成本低等優(yōu)點,成為了輔助同行評議以及降低專家偏見影響的重要方式。從同行評議與計量指標的融合方式來看,學(xué)界長期探索將二者取長補短、科學(xué)融合的方式,但是現(xiàn)有主流做法依然將二者視為相互獨立的成分,尚未實現(xiàn)真正意義上的融合。
綜上,本研究將探索期刊評價研究與實踐中急需的同行評議與文獻計量融合的新方法。具體來說,本研究一方面選擇期刊同行評議中鮮有爭議的共識部分,即一流期刊作為評價的起點,以減少專家偏見的影響,達到取其精華的目的;另一方面,將同行評議的意見充分融入定量評價指標以提升評價的精準性。
“科學(xué)是一個社會過程(Science is a social pro‐cess)”[40],引用是這一過程中科研人員的重要社會行為,也是學(xué)者社會心理過程的反映[41]。引用視角的研究發(fā)現(xiàn),相較于普通學(xué)者,高水平學(xué)者更傾向于引用高質(zhì)量研究,比如,985高校畢業(yè)的學(xué)者更注重參考文獻的質(zhì)量,學(xué)者們對一區(qū)期刊論文的引用偏好隨著高校層次依次降低[42]。被引視角的研究也發(fā)現(xiàn),被高水平研究引用的學(xué)術(shù)成果,同樣具有較高的質(zhì)量[9-10,18,23]。前述研究提示,以學(xué)科/領(lǐng)域內(nèi)普遍認可的一流期刊作為評價的起點,通過一流期刊對其他期刊的引用開展期刊評價具有科學(xué)性與合理性。
實踐中該思路面臨的主要困難是一流期刊的選擇。目前,以計量方式確定的一流期刊爭議較大,比如,存在S ust ainab ility、IE EE Access等期刊雖具有較高的JIF,但在學(xué)科/領(lǐng)域內(nèi)認可度不高的情況。鑒于同行評議仍然是當(dāng)前一流期刊選擇的“金標準”,考慮到同行評議雖存在偏見、裙帶關(guān)系以及利益沖突等問題,但在學(xué)科/領(lǐng)域內(nèi)部,學(xué)者對于一流期刊通常易于達成共識,即學(xué)者和機構(gòu)對一流期刊以及學(xué)科最優(yōu)秀期刊的認知并無太多分歧[13],比如,學(xué)界普遍認可Nat ure、S cience、Cell等期刊屬于超一流期刊,美國得克薩斯大學(xué)達拉斯分校(The University of Texas at Dallas,UTD)界定的24本經(jīng)濟管理類頂級期刊也得到了全球同行的認同。
基于3.1節(jié)的思路,本研究提出融合同行評議共識與文獻計量方法的期刊評價指標JAF。JAF以測度期刊聲望的PageRank類指標為基礎(chǔ)[10,23,43-44],融合專家意見(學(xué)術(shù)質(zhì)量),用于測度期刊權(quán)威性。其計算包括兩個過程:①吸收領(lǐng)域同行關(guān)于期刊質(zhì)量的共識性意見,以學(xué)科/領(lǐng)域內(nèi)的一流期刊作為評價的起點。具體地,采用同行評議的方式從待評價的期刊集合(V)中選擇高質(zhì)量期刊作為種子期刊(S+),并給予這些期刊以高權(quán)威值。②借助TrustRank[14,45]算法,區(qū)分不同等級期刊的引用價值,并將同行達成共識的種子期刊與文獻計量方式相融合,通過種子期刊對其他期刊的引用迭代計算出待評價期刊的JAF值。
TrustRank原本用于網(wǎng)頁重要性排序,但網(wǎng)頁鏈接與期刊引用存在兩個明顯的區(qū)別。其一,在網(wǎng)頁鏈接關(guān)系中,一個網(wǎng)頁最多僅指向其他網(wǎng)頁一次,而在引文網(wǎng)絡(luò)中,一本期刊可以多次引用其他期刊[24];其二,期刊是學(xué)術(shù)論文的集合,而網(wǎng)頁是不可拆分的最小單元。不同期刊發(fā)表論文的周期、數(shù)量存在較大差異,例如,《中國圖書館學(xué)報》是雙月刊,年均載文量不足60篇;半月刊《圖書情報工作》一年可以發(fā)表500余篇論文,數(shù)量約為前者的10倍。載文數(shù)量上的差異會導(dǎo)致期刊在總引用數(shù)上的不平衡,即在其他條件相同的情況下,載文量高的期刊會獲得更多的引用。針對第一個差異,本研究采用Bollen等[23]提出的加權(quán)矩陣代替原始網(wǎng)頁鏈接矩陣;為消解第二個差異帶來的影響,本研究在期刊引用關(guān)系矩陣中引入了期刊載文量,提出篇均關(guān)系矩陣,即公式(2),并采用公式
計算期刊的JAF。與之前的計量指標相比,JAF在區(qū)分不同引文價值的同時,改進了傳統(tǒng)方法中難以融入專家意見的不足。其中,D(i)表示期刊i的初始JAF;m為S+中期刊總數(shù);JT表示期刊篇均關(guān)系矩陣,元素JT(i,j)表示期刊i對j的權(quán)威性轉(zhuǎn)移權(quán)重;r表示期刊i引用期刊j的次數(shù);t表示期刊i的施引次數(shù);n表示期刊j的發(fā)文量;P表示期刊的JAF向量,元素P(i)表示期刊i的JAF,其初始值為D(i);α為衰減因子,參考TrustRank算法,通常將其設(shè)置為0.8或0.85[14]。
考慮到單一指標難以全面反映期刊的質(zhì)量,且長期采用單一指標進行評價,容易形成負向引導(dǎo),比如,為提高JIF而過度自引等。據(jù)此,在期刊評價中引入多維度評價指標的做法得到了廣泛認同[44,46]。本研究提出的JAF反映了期刊的權(quán)威性,JIF反映了期刊的影響力,本研究擬整合JAF與JIF,提出融合指標JAII。
(1)四象限評價。從權(quán)威性(JAF)及影響力(JIF)兩個維度將期刊劃分為4種類型(圖1):第一象限,兼具高影響力與高權(quán)威性特征的期刊,屬于學(xué)科/領(lǐng)域內(nèi)的一流期刊;第二象限,權(quán)威性較高,但影響力略低的期刊;第三象限,權(quán)威性與影響力均較低的期刊;第四象限,具有較高的影響力,但權(quán)威性偏低的期刊。
圖1 期刊權(quán)威性與影響力四象限評價示意圖
(2)指標融合。在前人的研究中,指標融合方法包括熵值法[47]、層次分析法[48]、TOPSIS[49]等。本研究依據(jù)Bollen等[23]的指標融合方式,將JAF與JIF的乘積定義為新指標JAII,
并將其用于期刊評價。
為驗證本研究提出指標的有效性,本研究以FMS(Federation of Management Societies of China)推薦的管理科學(xué)中文期刊為評價對象[50]。FMS是中國優(yōu)選法統(tǒng)籌法與經(jīng)濟數(shù)學(xué)研究會、管理科學(xué)與工程學(xué)會、中國系統(tǒng)工程學(xué)會聯(lián)合發(fā)布的管理科學(xué)高質(zhì)量期刊推薦列表,該列表基于“同行評議、價值導(dǎo)向、等效應(yīng)用”原則形成,不僅關(guān)注期刊論文品質(zhì)與期刊的學(xué)術(shù)影響力,還考慮了同行評議與文獻計量指標雙重影響,其中的期刊被分為T1與T2兩級,T1包括《中國社會科學(xué)》《經(jīng)濟研究》以及《管理世界》等一流期刊,T2包括《旅游學(xué)刊》以及《財貿(mào)研究》等期刊。FMS中的期刊評價結(jié)果具有較高的權(quán)威性與領(lǐng)域認可度,適宜作為本研究的評價對象。
本研究選取中文社會科學(xué)引文索引(Chinese Social Sciences Citation Index,CSSCI)數(shù)據(jù)庫2000—2018年共19年的引文數(shù)據(jù)作為計量評價的數(shù)據(jù)源。選取CSSCI作為引文數(shù)據(jù)來源的原因在于其數(shù)據(jù)標引較為規(guī)范,同時其來源期刊相較于其他期刊具有更好的學(xué)術(shù)規(guī)范。數(shù)據(jù)清洗環(huán)節(jié)僅保留CSSCI來源期刊的內(nèi)部引用關(guān)系,剔除對圖書、會議論文、學(xué)位論文、外文、網(wǎng)絡(luò)資源等非CSSCI來源期刊的引用數(shù)據(jù),CSSCI未收錄的7本FMS期刊亦不作為本研究的評價對象,最終獲得引文數(shù)據(jù)共897821條。
目前,多個機構(gòu)出臺了具有較高認可度和權(quán)威性的期刊等級劃分或排名結(jié)果,如南京大學(xué)中國社會科學(xué)研究評價中心研制的CSSCI核心來源期刊、北京大學(xué)圖書館主導(dǎo)制作并發(fā)布的《中文核心期刊要目總覽》,以及中國科學(xué)引文數(shù)據(jù)庫等。然而上述期刊列表所包含的期刊較多,質(zhì)量參差,不適宜直接作為種子期刊??紤]到種子期刊的選取需要得到領(lǐng)域內(nèi)的高度認可,且近些年來學(xué)科之間不斷增強的交叉融合趨勢,本研究最終選擇南京大學(xué)2017年評選出的31本各學(xué)科一流期刊[51]作為種子期刊。
本研究使用Python 2.7計算JAF,算法的收斂系數(shù)設(shè)為1e-8,衰減因子設(shè)為0.85,迭代次數(shù)為動態(tài)迭代,迭代停止條件設(shè)置為兩次迭代的差異小于收斂系數(shù)[6]。為驗證JAF的有效性,本研究選取了兩種期刊評價方法作為基線:①JIF。盡管JIF存在一些不足,但其仍是當(dāng)下最具影響力的評價指標;②蘇成等[24]提出的優(yōu)化PageRank算法(下文簡稱“蘇成_PR”)。蘇成_PR同樣基于加權(quán)與修正期刊載文量的思路改進了PageRank算法,改進后的算法已經(jīng)取得了較好的評價效果。與本研究的不同之處在于其在期刊PR值計算完成后,再采用載文量對其進行加權(quán)。本研究將FMS期刊排名視為“金標準”,采用兩個指標對其進行檢驗。
(1)相關(guān)系數(shù)(ρ)。采用Spearman相關(guān)分析分別計算3種算法得出的期刊排名與FMS排名的相關(guān)系數(shù),相關(guān)系數(shù)越大,表明算法與FMS的結(jié)果吻合度越高,算法的評價效果越優(yōu)。
(2)T1等級期刊準確率(acc)。期刊評價的重要目的之一在于選出高質(zhì)量的部分,因此,本研究將準確評選出FMS中T1等級期刊的比例作為第二個評價指標,即
其中,acc(X)表示算法X的T1等級期刊準確率;N(X,T1)表示在算法X中準確選出T1等級期刊的數(shù)量;N(FSM,T1)表示FMS中T1等級期刊總數(shù)。
本選取2018年作為目標年份,比較JAF、JIF及蘇成_PR的評價效果,以此檢驗JAF的有效性。考慮到JIF及蘇成_PR采用2年時間窗,JAF采用了相同的設(shè)置,利用2016—2017年的引文數(shù)據(jù)進行計算。此外,由于《保險研究》等5本期刊引文數(shù)據(jù)收錄不完整,本研究僅展示其余73本期刊的評價結(jié)果。
(1)Spearman相關(guān)系數(shù)。JAF、蘇成_PR及JIF這3種方法均與FMS期刊評價結(jié)果呈現(xiàn)較強的、顯著的正相關(guān)關(guān)系,按照相關(guān)系數(shù)由高至低依次為JAF(ρ=0.656,p<0.001)>JIF(ρ=0.601,p<0.001)>蘇成_PR(ρ=0.527,p<0.001),即JAF的評價結(jié)果與FMS更為一致,優(yōu)于2種基線算法(表1),表明在PageRank的基礎(chǔ)上引入專家意見有效地提高了評價的準確性。
(2)T1等級期刊準確率。剔除了引文數(shù)據(jù)不完整的期刊后,共保留FMS的T1等級期刊26本(表2)。3種方法均準確評選出排名前5位的期刊;對于排名位于前2/3的期刊,預(yù)測準確性較高;對于排名靠后的期刊,預(yù)測準確性較低。其中,JAF及蘇成_PR準確評選出T1級期刊17本,準確率達65.385%;JIF準確召回16本,準確率為61.538%,略小于前兩者。
表2 T1等級期刊預(yù)測結(jié)果
JAF是建立在期刊引文網(wǎng)絡(luò)基礎(chǔ)上的評價指標,引文時間窗的設(shè)置會對JAF產(chǎn)生影響。為檢驗JAF對于不同引文時間窗的穩(wěn)健性,本研究選取了2~10年共9種不同長度的引文時間窗,分別計算不同時間窗下JAF的評價結(jié)果,并將評價結(jié)果與FMS進行比較。其中,剔除引文數(shù)據(jù)不完整的期刊12本,對其余66本期刊進行評價。
Spearman相關(guān)分析表明(表3),不同時間窗下,JAF期刊排名結(jié)果與FMS具有顯著的正相關(guān)關(guān)系,相關(guān)系數(shù)介于0.627~0.650,波動較小,表明JAF的評價結(jié)果對不同長度的引文時間窗具有較強的穩(wěn)健性。其中,五年時間窗下的(JAF_5)相關(guān)系數(shù)高達0.650,相較于兩年(JAF_2)的時間窗具有明顯的提升。T1等級期刊準確率數(shù)據(jù)顯示,不同時間窗下的準確率差異較小,長引文時間窗(7~10年)的準確率略高于短期(2~6年),引文時間窗為4時的準確率最低。綜合考慮ρ與acc,JAF在7年引文時間窗下的表現(xiàn)最優(yōu),即7年為在管理科學(xué)領(lǐng)域采用JAF進行期刊評價的最佳引文時間窗。
表3 不同引文時間窗下的JAF與FMS相關(guān)性
4.3.1 聚類分析
本節(jié)從權(quán)威性(JAF)與影響力(JIF)兩個維度對目標期刊進行深入分析,挖掘各期刊在這兩個維度上的表現(xiàn)。同時,考慮到時間窗對兩個指標的影響,本節(jié)進一步從以下兩個方面展開分析:①異步時間窗。由4.2節(jié)可知,7年是采用JAF進行管理科學(xué)期刊評價的最佳引文時間窗。因此,在異步引文窗的分析中,本研究采用7年作為JAF的計算時間窗(JAF_7),分別采用2年、5年與10年的時間窗計算JIF(JIF_2、JIF_5與JIF_10)。②同步時間窗。作為對①的補充,本節(jié)進一步為JAF與JIF設(shè)置相同的時間窗(2年、5年與10年),并分析期刊在該組合維度下的表現(xiàn)。
1)異步時間窗
JAF_7與JIF_2、JIF_5、JIF_10的層次聚類結(jié)果分別如圖2a~圖2c所示。圖2表明,JAF_7與JIF_2、JAF_7與JIF_5,二者的聚類結(jié)果相差甚微,但其與JAF_7和JIF_10的聚類效果存在較大差異,JAF_7與JIF_2或JIF_5的聚類結(jié)果對期刊的區(qū)分度更高,聚類結(jié)果更符合認知。①一流期刊:在所選期刊列表中,僅《經(jīng)濟研究》與《中國社會科學(xué)》2本期刊在3組聚類結(jié)果中穩(wěn)居第一象限,在影響力與權(quán)威性兩個維度均遙遙領(lǐng)先于管理科學(xué)領(lǐng)域的其他期刊。②高權(quán)威性期刊:《經(jīng)濟學(xué)(季刊)》《管理世界》《世界經(jīng)濟》以及《國際經(jīng)濟評論》在不同聚類結(jié)果中穩(wěn)居第二象限,4本期刊均具有較高的權(quán)威性,但在影響力方面的表現(xiàn)略遜色于第一象限;《金融研究》在較長的引文窗口下(5年或10年)屬于第二象限,但在短期引文時間窗下的表現(xiàn)并不突出。③高影響力期刊:《中國工業(yè)經(jīng)濟》和《中國圖書館學(xué)報》2本期刊在2年及5年時間窗下屬于第四象限,即具有較高的影響力但權(quán)威性表現(xiàn)不足;但隨著時間窗的增加,2本期刊的影響力優(yōu)勢也在減弱,與第二、第三象限期刊的差異逐漸縮小,在10年時間窗下,《中國工業(yè)經(jīng)濟》變更為第二象限,而《中國圖書館學(xué)報》則進入第三象限。④普通期刊:除上述期刊外,其余期刊的權(quán)威性與影響力均較低,均屬第三象限。需要說明的是,由于《保險研究》等6本期刊的引文數(shù)據(jù)不完整,沒有納入本節(jié)的分析。
圖2 異步時間窗下JAF與JIF雙維度層次聚類結(jié)果
上述分析表明,管理科學(xué)領(lǐng)域期刊在權(quán)威性與影響力兩個維度的聚類結(jié)果呈金字塔結(jié)構(gòu),期刊數(shù)量由第一象限、第二和第四象限至第三象限呈現(xiàn)出遞增趨勢,即第三象限囊括了管理科學(xué)領(lǐng)域的大部分期刊,而權(quán)威性與影響力俱佳的期刊較少。
2)同步時間窗
與異步時間窗中類似,本節(jié)剔除《保險研究》等5本引文數(shù)據(jù)不完整的期刊,為JAF與JIF設(shè)定相同的引文時間窗,分別探究在2年、5年及10年時間窗下管理科學(xué)領(lǐng)域期刊在權(quán)威性與影響力兩個維度的表現(xiàn)。由圖3a~圖3c可見,采用短期、中期、長期引文時間窗的期刊聚類結(jié)果存在明顯區(qū)別,對期刊的區(qū)分度逐漸減弱。引文窗口從2年增長為5年時,原始的第二象限及第四象限傾向于合并為一類;當(dāng)從5年增長為10年時,期刊的融合趨勢更加明顯,僅剩余第一象限與第三象限兩個類別。
圖3 同步時間窗下JAF與JIF雙維度層次聚類結(jié)果
綜合異步時間窗與同步時間窗的分析結(jié)果可見,JAF在7年引文時間窗下對期刊的區(qū)分度較高,而在5年及10年的時間窗下的區(qū)分度較弱;JIF在2年及5年時間窗下的聚類效果優(yōu)于10年;綜合JAF與JIF兩個維度,JAF采用7年、JIF采用2年的評價結(jié)果更符合學(xué)界認知,而10年的聚類效果不佳,不宜作為雙維度聚類分析的時間窗口。
4.3.2 JAII評價
依據(jù)4.3.1節(jié)的分析結(jié)果,JAF的引文時間窗設(shè)置為7年、JIF設(shè)置為2年,對期刊的區(qū)分效果更佳,故采取這一設(shè)定探究將JAF與JIF融合后的新指標——JAII的評價效果。Spearman分析結(jié)果表明,JAII與FMS的評價結(jié)果存在顯著的正相關(guān)關(guān)系,相關(guān)系數(shù)高達0.716,顯著高于與JAF_7及JIF_2的相關(guān)系數(shù)(表4),即相較于原始指標,融合指標JAII的性能得到了顯著的提升。
表4 JAF_7、JIF_2、JAII及FMS排名的Spearman相關(guān)分析
(1)定性與定量的融合。學(xué)界普遍認可將文獻計量與同行評議加以融合是更有效的評價方式[11],并開展了多方面的探索。張琳等[52]將學(xué)術(shù)評價中的定性與定量結(jié)合方式概括為兩類。第一類是以同行評議為主,科學(xué)計量結(jié)果僅作為評審專家的參考。例如,荷蘭每六年開展一次的全國高校與科研機構(gòu)的評價實踐[53],采用科學(xué)計量指標輔助、評審專家決策的方式。第二類為綜合應(yīng)用,即文獻計量指標與同行評議并行使用,如意大利的學(xué)科評估工作[54]。然而上述兩種主流做法將同行評議與定量指標視為相互獨立的部分,當(dāng)二者的評價結(jié)果出現(xiàn)較大分歧時,依然采用同行評議的決策作為金標準,這導(dǎo)致同行評議中存在的主觀性[1-2]等問題難以改善,同時文獻計量在其中發(fā)揮的作用甚微,二者未達到真正意義上的融合。與現(xiàn)有工作不同,JAF與JAII采用了專家的共識,同行評議主觀性、認知偏差等對其影響甚微。JAF僅選取學(xué)科/領(lǐng)域內(nèi)的一流期刊作為種子期刊,學(xué)者對領(lǐng)域內(nèi)的頂尖期刊具有普遍的共識,且頂尖期刊在較長一段時間內(nèi)基本穩(wěn)定。因此,該做法能夠顯著減少同行評議的主觀性,降低評價工作的人力與物力成本。此外,本研究借助于TrustRank算法,在定量分析方法中引入了專家共識,實現(xiàn)了定性與定量評價的有機融合,提升了定量指標的評價效果,為定性與定量的融合方式提供了新思路。
(2)期刊多元評價的探索。本研究結(jié)果表明,JAF與JIF具有較高的相關(guān)性,但同時散點圖及層次聚類的結(jié)果(圖2,圖3)表明二者存在較大差異。Bollen等[23]的研究也表明,期刊的PR值與JIF兼具較高的相關(guān)性與差異性。采用單一指標開展的評價難以勾勒出期刊的多維特征,多維評價方為期刊評價的必由之路。對此,學(xué)界已經(jīng)進行了積極的探索。例如,李超[47]基于期刊的h指數(shù)和IF依據(jù)熵權(quán)法提出了一種新的期刊影響力評價指標,即HIF指數(shù),該指數(shù)一定程度上改進了JIF只關(guān)注短期期刊影響力的問題。Lowry等[12]采用JIF、五年JIF、h指數(shù)等指標對信息系統(tǒng)領(lǐng)域的期刊進行評價,結(jié)果認為,基于多維定量指標的期刊評價效果與同行評議結(jié)果十分接近,甚至可以替代同行評議成為高效、高性價比的期刊評價方式。
本研究結(jié)果顯示,多維評價能夠增強期刊的區(qū)分度。從4.3.1節(jié)的聚類分析可見,單獨采用JIF或JAF作為評價指標時,區(qū)分度弱于采用雙維度的分析結(jié)果。以JAF_7與JIF_2的組合為例(圖2a),在JAF維度上,第四象限與第三象限的差異性較??;采用JIF維度時,第一與第四象限、第二與第三象限均存在明顯的交叉。而當(dāng)采用雙維度評價時,各象限的界限更加清晰。同時,融合指標JAII的期刊排序結(jié)果與FMS更趨一致,相關(guān)系數(shù)高達0.716,相較于單獨使用JIF或JAF均有顯著提升,再次證實了基于多個指標的融合評價更能反映期刊的真實價值,評價結(jié)果與學(xué)界的認知更貼合[23]。
(3)引文時間窗在多指標評價中的重要性。論文多種形態(tài)的引文曲線[55]是時間窗對引文分析產(chǎn)生顯著影響的內(nèi)在原因。研究發(fā)現(xiàn),在不同時間窗下,引文指標的評價結(jié)果存在顯著差別[56];本研究提出的JAF指標對于引文時間窗具有很好的穩(wěn)健性,在2~10年的不同長度的引文窗口下,JAF的期刊排序結(jié)果與FMS的相關(guān)系數(shù)變化較小,穩(wěn)定在0.64左右。不過,相較于單指標,當(dāng)采用JAF與JIF雙維度評價時,引文時間窗的影響較為明顯,結(jié)果顯示隨著引文時間窗的增長,JAF與JIF對期刊的區(qū)分度逐漸降低,分區(qū)結(jié)果不夠理想。此外,與先前研究得出的“不同時間窗口的評價指標混合使用要慎重”[57]的結(jié)論不同,本研究發(fā)現(xiàn),當(dāng)JAF與JIF分別采用7年與2年引文窗口時,依據(jù)權(quán)威性與影響力雙維度對期刊進行等級劃分的結(jié)果更加符合領(lǐng)域認知,表明JAF在長時間引文窗口、JIF在短時間窗口下的組合評價效果更為突出。因此,期刊的長期權(quán)威性與短期影響力存在較好的互補性,二者的結(jié)合能夠提升期刊評價的區(qū)分度,從而更全面地評價期刊短期、中期的綜合表現(xiàn)。
(4)引文類指標的局限。如表2所示,《系統(tǒng)工程理論與實踐》等8本期刊未被任何一種定量指標準確預(yù)測為T1等級,原因在于其JAF、JIF及蘇成_PR值均明顯低于同等級的其他期刊(圖4)。造成這8本期刊在3個引文類指標上表現(xiàn)不佳的主要原因是期刊的研究主題。根據(jù)CNKI(China Nation‐al Knowledge Infrastructure)數(shù)據(jù)的統(tǒng)計可見,部分期刊論文的研究內(nèi)容偏向數(shù)理以及計算機等學(xué)科,例如,《系統(tǒng)工程理論與實踐》主要研究系統(tǒng)工程領(lǐng)域的熱點問題,涉及遺傳算法、神經(jīng)網(wǎng)絡(luò)、電子商務(wù)以及云計算等主題[58],其中數(shù)學(xué)學(xué)科相關(guān)論文占比高達12%;《情報學(xué)報》涉及算法及計算機應(yīng)用類的論文占比高達14%;《中國管理科學(xué)》中數(shù)學(xué)類論文占比也達到了5%①《系統(tǒng)工程理論與實踐》《中國管理科學(xué)》及《情報學(xué)報》3本期刊的主題及學(xué)科統(tǒng)計數(shù)據(jù)來自CNKI(https://navi.cnki.net/knavi/Journal.html),統(tǒng)計時間是2021年6月10日。。多項研究表明,在社會科學(xué)中,當(dāng)論文中的數(shù)學(xué)知識過多或過深時,比如,論文中的公式或微分方程較多,會顯著影響論文的可讀性,從而降低其被引[59-60]。因此,上述期刊的引文類指標不盡如人意并不意外。
圖4 T1等級期刊JAF、JIF及蘇成_PR值
引文類指標容易受到研究主題的影響,因此,后續(xù)的研究中亟須從其他視角對評價結(jié)果進行補充,例如,采用作者機構(gòu)指數(shù)測度論文的“輸入”質(zhì)量[61]、采用作者簡介信息作為期刊評價的基礎(chǔ)數(shù)據(jù)[36]等可能是一個有效的補充和積極的嘗試。
本研究選擇學(xué)科/領(lǐng)域中同行普遍認可的一流期刊作為評價的出發(fā)點,以減少同行評議的偏見等問題,達到“取其精華”的目的。借助TrustRank算法,提出了融合同行評議共識與文獻計量方法的期刊權(quán)威性因子JAF。出于期刊多維評價的需要,本研究進一步整合JAF與JIF提出融合指標JAII,用于進行期刊雙維度評價。為驗證JAF與JAII的有效性,本研究進一步選取了FMS管理科學(xué)領(lǐng)域推薦期刊為評價對象,基于CSSCI數(shù)據(jù)庫2000—2018年的引文數(shù)據(jù)開展實證研究。結(jié)果表明,與兩種基線指標相比,JAF與FMS的結(jié)果更加一致,且JAF對引文時間窗口具有穩(wěn)健性;在管理科學(xué)領(lǐng)域,適合JAF的最佳引文窗口為7年;JAF與JIF的融合指標JAII評價效果優(yōu)于原始獨立指標。
本研究的創(chuàng)新之處主要體現(xiàn)在以下兩個方面。一是針對當(dāng)前學(xué)術(shù)期刊評價實踐層面存在的定性與定量評價結(jié)合不緊密的問題,提出了融合專家意見共識與定量指標的期刊評價思路。二是據(jù)此在期刊評價實務(wù)層面提出了融合基于JAF與JIF指標的兼顧權(quán)威性與影響力的期刊雙維度評價框架,并通過實證證實了該框架的科學(xué)性、合理性以及實用性。本研究提出的JAF主要存在兩點局限。首先,種子期刊的選取尚缺乏可操作性的細則。本研究直接采用學(xué)界普遍認同的南京大學(xué)推薦的人文社會科學(xué)一流期刊作為種子期刊,在缺少類似前期工作的場景可能會限制本研究提出方法的應(yīng)用,在后續(xù)的研究中將深入探索種子期刊的選取方法。其次,面向期刊多維評價的主流,本研究僅融合了同行評議共識與文獻計量兩個維度,后續(xù)探索中可融合的特征還可以包括作者機構(gòu)指數(shù)[61]等。