王 麗 武瑞原
(1.河北傳媒學(xué)院圖書館 河北石家莊 051430)(2.河北機(jī)電職業(yè)技術(shù)學(xué)院 河北邢臺(tái) 054000)
在評(píng)估科研人員學(xué)術(shù)成就時(shí),“質(zhì)量”與“數(shù)量”的爭論是計(jì)量學(xué)領(lǐng)域持續(xù)被關(guān)注的問題[1]。一種觀點(diǎn)是將科研人員的論文數(shù)量視為“數(shù)量”的評(píng)估標(biāo)準(zhǔn),論文引用次數(shù)視為“質(zhì)量”的評(píng)估標(biāo)準(zhǔn),如論文平均引用次數(shù)、引用次數(shù)最高的10篇論文、引用次數(shù)不低于10次的論文數(shù)量等[2]。然而上述指標(biāo)僅考慮科研人員影響力的一個(gè)方面,因此部分學(xué)者將引用次數(shù)和論文數(shù)量相結(jié)合以實(shí)現(xiàn)更為精準(zhǔn)的評(píng)估,如H指數(shù)[3]、G指數(shù)[4]等。
作為應(yīng)用最為廣泛的計(jì)量指數(shù)之一,計(jì)量學(xué)領(lǐng)域?qū)指數(shù)的研究從未間斷:2010年Egghe對(duì)H指數(shù)及其變體指數(shù)進(jìn)行全面綜述[5];Bornmann等人對(duì)37種變體H指數(shù)進(jìn)行詳細(xì)比較分析[6];Waltman等人討論了H指數(shù)及其變體指數(shù)的不一致性問題,認(rèn)為其無法衡量科研人員整體影響力[7]。2014年,H指數(shù)的提出者Hirsch教授承認(rèn)H指數(shù)的評(píng)價(jià)缺失性[8]。對(duì)H指數(shù)及其變體H指數(shù)的研究,以及指標(biāo)之間的評(píng)估和比較仍在繼續(xù)[9-11]。
分析發(fā)現(xiàn),H指數(shù)及其部分變體指數(shù)都忽略了科研人員的完整引用列表。同時(shí),總引用次數(shù)的缺點(diǎn)是偏向指數(shù),有利于少量高引用論文或大量低引用論文的科研人員。本研究在回顧H指數(shù)及其部分變體指數(shù)基礎(chǔ)上,介紹一種新的計(jì)量指數(shù)——χ指數(shù),以解決前文指數(shù)的缺點(diǎn)。在闡述χ指數(shù)的思想基礎(chǔ)上,分析χ指數(shù)的內(nèi)涵與特點(diǎn),以國內(nèi)圖書情報(bào)學(xué)科的科研人員為對(duì)象,實(shí)證分析χ指數(shù)的評(píng)估效果與優(yōu)勢,并詳細(xì)比較χ指數(shù)與H指數(shù)的異同點(diǎn),以期實(shí)現(xiàn)對(duì)科研人員的科學(xué)性評(píng)估。
χ指數(shù)的理論基礎(chǔ)來源于H指數(shù)、G指數(shù)、A指數(shù)、R指數(shù)。H指數(shù)定義為有H篇論文的引用次數(shù)不低于H次[3]。H指數(shù)對(duì)論文的引用次數(shù)完全不敏感,主要表現(xiàn)為未考慮H核內(nèi)論文的引用次數(shù),以及部分論文引用次數(shù)接近H值的科研人員。對(duì)于高引用次數(shù)的論文評(píng)估,H指數(shù)的改進(jìn)為G指數(shù)。
G指數(shù)是將論文按引用次數(shù)降序排列后,有G篇論文的引用次數(shù)之和不低于G2次[4]??梢园l(fā)現(xiàn),G指數(shù)≥H指數(shù)。G指數(shù)仍然存在偏見:如果研究人員有少量高引用論文,或大量低引用論文,其G指數(shù)仍然較高。
假設(shè)研究人員的H指數(shù)為H,則H核是該人員高度引用的論文集合。作為H指數(shù)的變體指數(shù)之一的A指數(shù),定義為H核論文引用次數(shù)之和與H指數(shù)的比值[12]。A指數(shù)旨在解決H指數(shù)忽略H核中論文引用總數(shù)的問題。然而,A指數(shù)受制于平均值的缺點(diǎn),對(duì)有少量高引用論文的研究人員較為有利。R指數(shù)的提出彌補(bǔ)了A指數(shù)的缺陷,R指數(shù)定義為H核論文引用次數(shù)之和的平方根,明顯地H指數(shù)≤R指數(shù)≤A指數(shù)[12]。
基于上述分析,可以發(fā)現(xiàn)A指數(shù)、R指數(shù)、G指數(shù),都忽略了H核以外的論文引用次數(shù)及其數(shù)量。高引用次數(shù)論文通常與高質(zhì)量相匹配,且高引用論文可能是具有影響力的開創(chuàng)性研究。一方面,上述指數(shù)不利于有少量高引用次數(shù)的研究者,即使其推動(dòng)了科學(xué)研究的進(jìn)步。另一方面,上述指數(shù)同樣不利于有眾多合作者、篇均引用次數(shù)較低的高產(chǎn)型研究者。
為避免上述討論的缺點(diǎn),本研究介紹χ指數(shù)以提高科研人員評(píng)估的科學(xué)性。引用曲線是根據(jù)引用次數(shù)與論文排名關(guān)系得到的引用次數(shù)分布曲線。χ指數(shù)定義為:將論文以引用次數(shù)降序排列,論文序號(hào)i與其引用次數(shù)Ci乘積的平方根最大值,即在引用曲線下擬合的最大矩形面積的平方根,見公式(1)。公式(1)中,i表示將論文按照引用次數(shù)降序排列的序號(hào)(1 ≤ i ≤n,n為論文總數(shù)),Ci為第i篇論文的引用次數(shù)。
部分研究人員已對(duì)H指數(shù)等計(jì)量指標(biāo)的特征進(jìn)行詳細(xì)分析,試圖為不同計(jì)量指數(shù)之間的比較提供客觀依據(jù)[13]。結(jié)合已有文獻(xiàn)和χ指數(shù)分析,本文的χ指數(shù)具有以下特點(diǎn):
(3)H指數(shù) ≤χ指數(shù)。假設(shè)H指數(shù)的論文序號(hào)和引用次數(shù)分別為H和CH,則H×(CH-H)≥0,因而≥H指數(shù)。
(4)χ指數(shù)是單調(diào)遞增。向論文集合中增加論文引用次數(shù)或論文數(shù)量不會(huì)降低χ指數(shù)(H指數(shù)也是單調(diào)遞增)。
(5)χ指數(shù)是規(guī)模不變的。將每篇論文的引用次數(shù)乘以常數(shù)不會(huì)改變兩個(gè)引用向量的相對(duì)等級(jí)(H指數(shù)不是規(guī)模不變)。
(6)χ指數(shù)是動(dòng)態(tài)的。在兩個(gè)引用向量中添加具有相同引用次數(shù)的新論文會(huì)改變二者的相對(duì)排名。例如,χ指數(shù)都為2的兩個(gè)引用集合(2,2)和(1,1,1,1),然而(2,2,1)和(1,1,1,1,1)的χ指數(shù)改變?yōu)?和
為更直觀闡述χ指數(shù)的計(jì)算過程,本研究以Bornmann教授2007—2016年的論文數(shù)據(jù)為計(jì)算示例。Bornmann教授10年間共發(fā)表220篇論文,最高引用次為189次,引用次數(shù)≥1的有181篇,其H指數(shù)為32,詳細(xì)信息如表1所示。根據(jù)χ指數(shù)的計(jì)算公式可知,Bornmann教授的最大矩形面積平方根的組合為(39,28),則Bornmann教授的χ指數(shù)為33.05(如圖1所示)。
表1 Bornmann文獻(xiàn)信息及χ指數(shù)計(jì)算示例
圖1 Bornmann學(xué)者H指數(shù)與χ指數(shù)示例圖
為驗(yàn)證χ指數(shù)的評(píng)估效果,本研究以國內(nèi)LIS領(lǐng)域的作者為實(shí)驗(yàn)對(duì)象。在CNKI的期刊檢索首頁中,設(shè)置學(xué)科為“圖書情報(bào)與數(shù)字圖書館”& 期刊來源為“全部期刊”&時(shí)間范圍“不限”&以“作者姓名”&“作者單位”進(jìn)行檢索,并去除無作者、新聞稿等無效數(shù)據(jù)。所有作者的論文數(shù)據(jù)以Excel格式保存。為保證數(shù)據(jù)信息的時(shí)間統(tǒng)一,樣本數(shù)據(jù)全部于2019年5月28日—5月31日檢索保存。
利用自編VBA程序計(jì)算81位作者的H指數(shù)、G指數(shù)、A指數(shù)、R指數(shù)、論文數(shù)量P、總引用次數(shù)C,以及χ指數(shù)(如表2所示)。初步統(tǒng)計(jì)可知,81位作者的數(shù)據(jù)較為全面,實(shí)驗(yàn)樣本具有一定的代表性:論文數(shù)量P處于區(qū)間[14,314],總引用次數(shù)C處于區(qū)間[207,8751],H指數(shù)處于區(qū)間[8,47],G指數(shù)處于區(qū)間[14,78],χ指數(shù)處于區(qū)間[10.95,51.50]。
表2 作者指標(biāo)數(shù)據(jù)(部分)
本文將討論χ指數(shù)與2.1節(jié)提及的計(jì)量指標(biāo)的異同點(diǎn),但重點(diǎn)分析H指數(shù)與χ指數(shù)的評(píng)估效果。因此,本研究計(jì)算了H指數(shù)與χ指數(shù)的各自排名,以及二者之間的變化情況。
3.3.1 指標(biāo)相關(guān)分析
本文首先探討χ指數(shù)與2.1節(jié)所提及的指數(shù),如H指數(shù)、G指數(shù)、A指數(shù)、R指數(shù),以及論文數(shù)量P和總引用次數(shù)C之間的相關(guān)性[15]。
結(jié)合表3可知,論文數(shù)量P與其他指標(biāo)之間的相關(guān)性最低,同時(shí)其他指標(biāo)之間的相關(guān)性較強(qiáng)。進(jìn)一步了解,雖然與論文數(shù)量P之外的所有指標(biāo)都表現(xiàn)出較強(qiáng)的相關(guān)性,但其評(píng)估結(jié)果可能有失偏頗,論文數(shù)量P也存在同樣的問題,因?yàn)槎呖紤]到科研人員的全部論文數(shù)量。
表3 各指標(biāo)相關(guān)性分析結(jié)果
χ指數(shù)與全部指標(biāo)都在0.01水平下顯著相關(guān),說明χ指數(shù)是對(duì)現(xiàn)有科研評(píng)估指標(biāo)的繼承。χ指數(shù)考慮了科研人員的論文數(shù)量,以及其引用數(shù)據(jù)的幾何分布特征。χ指數(shù)與H指數(shù)高達(dá)0.95,原因在于H指數(shù)是作者引文曲線下的方形分布,而χ指數(shù)是科研人員引文曲線下的矩形分布。χ指數(shù)與論文數(shù)量P的相關(guān)性僅次于H指數(shù)與論文數(shù)量的相關(guān)性,相關(guān)性達(dá)到0.67,說明χ指數(shù)考慮了論文數(shù)量,還將高引用論文納入計(jì)算范疇。χ指數(shù)與引用次數(shù)的相關(guān)性僅次于G指數(shù)、R指數(shù)與其相關(guān)性,說明χ指數(shù)充分考慮了引用次數(shù)對(duì)科研人員的評(píng)估作用,也說明χ指數(shù)有效結(jié)合了G指數(shù)和R指數(shù)的優(yōu)點(diǎn)。
3.3.2 指數(shù)分類分析
為進(jìn)一步分析χ指數(shù)的評(píng)估效果,根據(jù)科研人員χ指數(shù),與χ指數(shù)匹配的論文數(shù)量k和引用次數(shù)Ck,H指數(shù)對(duì)應(yīng)的H核論文數(shù)量,本研究將81位作者分為以下三類情形:①k≈H;②k>H;③k<H,以展示H指數(shù)和χ指數(shù)的幾何分布(如圖2所示)。當(dāng)k>H時(shí),研究者有諸多論文的引用次數(shù)少于H(趨向于高產(chǎn)者);當(dāng)k<H時(shí),研究者有少量論文的引用次數(shù)高于H(趨向于高影響力)。
圖2 χ指數(shù)三種類別示例(上:k ≈ H;下:k < H、k > H)
根據(jù)k與H的關(guān)系,將81位作者劃分為三種類別(如表4所示)。結(jié)合表4可知,k<H的作者數(shù)量占比最大,k≈H和k>H兩種情況相加僅占數(shù)據(jù)集的52%左右。同時(shí),在k<H情形中,90%以上作者的χ指數(shù)>H指數(shù)。上述分析說明,當(dāng)χ指數(shù)明顯大于H指數(shù)時(shí),可以預(yù)期k值將明顯小于H指數(shù)。換言之,當(dāng)科研人員有一定數(shù)量的論文引用次數(shù)大于H指數(shù)時(shí),其必將獲得較高的χ指數(shù)(以表4數(shù)據(jù)利用貝葉斯定理可以證明)。可以發(fā)現(xiàn),χ指數(shù)解決了H指數(shù)沒有充分考慮高引用論文作用的缺點(diǎn)。表5的統(tǒng)計(jì)數(shù)據(jù)同樣證實(shí)了這種優(yōu)化,當(dāng)k<H時(shí),χ指數(shù)的平均值遠(yuǎn)高于H指數(shù)的平均值。進(jìn)一步統(tǒng)計(jì)可知,80.25%的作者χ指數(shù)明顯大于H指數(shù),在χ指數(shù)>H指數(shù)區(qū)間內(nèi),39位共60%作者的Ck>k,說明χ指數(shù)具有區(qū)分相同H指數(shù)作者的潛力。
表4 81位作者的三種分類詳細(xì)數(shù)據(jù)
表5 k ≈ H、k > H、k < H情形下的描述性統(tǒng)計(jì)分析
3.3.3 作者辨識(shí)分析
在指數(shù)分類分析中,發(fā)現(xiàn)χ指數(shù)能夠區(qū)分相同H指數(shù)的作者。為證實(shí)χ指數(shù)的這項(xiàng)特點(diǎn),本研究對(duì)H指數(shù)和χ指數(shù)的科研人員影響力區(qū)分情況進(jìn)行深入研究。H指數(shù)在量化科研人員影響力時(shí),存在大量作者數(shù)值相同的情況,無法準(zhǔn)確區(qū)分科研人員的影響力排名。統(tǒng)計(jì)發(fā)現(xiàn),共有20組75位作者的H指數(shù)相同,占總?cè)藬?shù)的92.59%,甚至有8位作者的H指數(shù)為15,7位作者的H指數(shù)為24。因此,H指數(shù)無法準(zhǔn)確地評(píng)估和區(qū)分科研人員影響力。
81位作者的χ指數(shù)不盡相同。如編號(hào)5和11的兩位作者H指數(shù)都為29,具有較高的學(xué)術(shù)影響力,而后者的χ指數(shù)卻高于前者。觀察發(fā)現(xiàn),兩位學(xué)者的論文數(shù)量、G指數(shù)等都較為接近,但編號(hào)11的作者在總論文引用次數(shù)上要高于編號(hào)5的作者。同時(shí),編號(hào)11的作者在高引用論文的引用次數(shù)上要大于后者(編號(hào)5作者最高引用次數(shù)為127,編號(hào)11作者最高引用次數(shù)為269)。
81位作者中,仍然存在部分作者H指數(shù)不同但χ指數(shù)相同的情況:如編號(hào)6和編號(hào)57的兩位學(xué)者,二者的χ指數(shù)都為25.46。統(tǒng)計(jì)發(fā)現(xiàn),共有9組19位作者的χ指數(shù)相同,占總?cè)藬?shù)的23.46%。顯然,χ指數(shù)的科研人員影響力區(qū)分性明顯高于H指數(shù)。
3.3.4 排名情況分析
根據(jù)表6的排名差值情況統(tǒng)計(jì),81位作者中54位作者的名次變化在[0,5]之間,占總比的66.67%;10位作者名次變化處于[10,47]之間,占總比的12.35%;名次變化3位的作者數(shù)量最多,達(dá)到13位,占總比的16.05%。利用χ指數(shù)評(píng)估影響力者時(shí),53位作者名次下降,22位作者名次上升,6名作者名次未改變。初步看來,81位作者的名次整體變化較為穩(wěn)定,波動(dòng)性較小。
表6 81位作者名次變化統(tǒng)計(jì)
χ指數(shù)排名時(shí),編號(hào)54的學(xué)者名次上升最為明顯(上升47個(gè)名次)。該學(xué)者的H指數(shù)僅為11,在81位作者中排名第74位。造成該作者名次上升的原因主要有:①高引用文獻(xiàn)數(shù)量較為可觀,共有4篇引用次數(shù)>100;②少數(shù)論文引用次數(shù)非常高,共有2篇論文的引用次數(shù)>200??梢园l(fā)現(xiàn),與H指數(shù)僅簡單考慮引用次數(shù)與論文數(shù)量不同,χ指數(shù)不僅考慮了作者的全部論文數(shù)量及其引用次數(shù),還將高引用論文的引用次數(shù)充分利用起來,有效避免了H指數(shù)忽略高引用論文,以及G指數(shù)未考慮低引用次數(shù)論文及其數(shù)量的缺點(diǎn)。χ指數(shù)對(duì)論文引用次數(shù)敏感,能夠更好地利用引用次數(shù)和論文數(shù)量對(duì)科研人員綜合評(píng)估。
χ指數(shù)排名時(shí),編號(hào)42和編號(hào)70的兩位作者名次下降幅度最大(下降15個(gè)名次)。分析發(fā)現(xiàn)共有以下幾點(diǎn)原因:①論文數(shù)量較少,二者分別為39篇和52篇,遠(yuǎn)遠(yuǎn)低于81位作者論文數(shù)量均值;②總引用次數(shù)較低,二者分別為523次和695次,同樣遠(yuǎn)低于平均值;③高引用論文數(shù)量少于大多數(shù)作者,編號(hào)42作者僅1篇論文引用次數(shù)>50;編號(hào)70作者1篇論文引用次數(shù)>100,4篇論文引用次數(shù)>50。
為進(jìn)一步檢驗(yàn)χ指數(shù)評(píng)估科研人員影響力的名次變化情況,本研究對(duì)81位作者的名次變化進(jìn)行統(tǒng)計(jì)分析(如表7所示)。81位作者的名次平均降低1.57位,方差(64.17)和標(biāo)準(zhǔn)差(8.01)較大,極差較大,整體數(shù)據(jù)的穩(wěn)定性一般,表明χ指數(shù)對(duì)科研人員進(jìn)行排名與H指數(shù)變化較為明顯。
表7 81位作者名次變化描述性統(tǒng)計(jì)
[1,27]區(qū)間內(nèi)作者的χ指數(shù)名次平均下降1.48,方差(21.80)和標(biāo)準(zhǔn)差(4.67)數(shù)值在4個(gè)區(qū)間最小、排名最為穩(wěn)定,說明該區(qū)間內(nèi)χ指數(shù)與H指數(shù)的評(píng)估結(jié)果較為一致,對(duì)高影響力的作者識(shí)別效果較好。[28,54]區(qū)間內(nèi)作者的χ指數(shù)名次較H指數(shù)下跌3.15位,方差(32.13)和標(biāo)準(zhǔn)差(5.67)數(shù)值一般,該區(qū)間內(nèi)作者名次下降幅度較高,變化較為明顯。[55,81]區(qū)間內(nèi)作者的χ指數(shù)名次較H指數(shù)微跌0.07,但方差(138.61)和標(biāo)準(zhǔn)差(11.77)在4個(gè)區(qū)間內(nèi)最大、數(shù)據(jù)最不穩(wěn)定,表明該區(qū)間的作者名次變化波動(dòng)劇烈??梢园l(fā)現(xiàn),χ指數(shù)對(duì)論文數(shù)量較少、引用次數(shù)一般的“低影響力作者”評(píng)估效果比H指數(shù)更為合理,原因在于χ指數(shù)充分結(jié)合了論文數(shù)量與引用次數(shù)的幾何關(guān)系,實(shí)現(xiàn)了較為公平的評(píng)估。
基于H指數(shù)等計(jì)量指標(biāo)的不足,平衡科研人員論文數(shù)量與引用次數(shù)之間的關(guān)系,本研究介紹一種新型文獻(xiàn)計(jì)量指標(biāo)——χ指數(shù)。χ指數(shù)被定義為引用曲線下面積最大的矩形平方根,χ指數(shù)的矩形分布比方形分布的H指數(shù)評(píng)估更為合理。
為檢驗(yàn)χ指數(shù)的評(píng)估效果,本研究以CNKI中圖書情報(bào)學(xué)領(lǐng)域的81位作者的論文數(shù)據(jù)為實(shí)證分析對(duì)象,從指標(biāo)相關(guān)、分類研究、辨識(shí)度、排名情況等維度探討了χ指數(shù)的效用。研究發(fā)現(xiàn):①與引用次數(shù)(質(zhì)量)和論文數(shù)量(數(shù)量)相結(jié)合的諸多指標(biāo)類似,χ指數(shù)與引用次數(shù)的平方根顯著相關(guān)。②χ指數(shù)的作者區(qū)分度遠(yuǎn)高于H指數(shù),可以實(shí)現(xiàn)更為精準(zhǔn)的科研人員評(píng)估。χ指數(shù)可以作為一個(gè)獨(dú)立的評(píng)估指標(biāo),并在科研人員排名上獲得比H指數(shù)更為理想的結(jié)果。
本研究仍需要繼續(xù)探討作者合作、時(shí)間因素、跨學(xué)科領(lǐng)域等因素對(duì)χ指數(shù)評(píng)估效果的影響。同時(shí),本研究數(shù)據(jù)來源于CNKI,可能存在引文信息缺失問題。此外,本研究的作者影響力僅代表χ指數(shù)的定量分析結(jié)果,科研人員的影響力同樣包括科研工具、經(jīng)驗(yàn)傳播等難以定量的貢獻(xiàn),仍需要客觀、全面地評(píng)估科研人員學(xué)術(shù)影響力。