□方勝華 劉柏嵩
引文分析(Citation Analysis)是指采用各種數(shù)理統(tǒng)計(jì)和邏輯方法對文獻(xiàn)的引用頻率、模式和圖像進(jìn)行計(jì)量研究[1],將文獻(xiàn)、著者、大學(xué)、國家以及其他感興趣的特征項(xiàng)作為分析對象,以便揭示其內(nèi)在規(guī)律[2]。分析文獻(xiàn)的引用關(guān)系可以揭示出科研成果之間的聯(lián)系,發(fā)現(xiàn)學(xué)科熱點(diǎn)與前沿,預(yù)測學(xué)科的發(fā)展趨勢,遴選核心期刊、評價(jià)科研機(jī)構(gòu)或國家的學(xué)術(shù)地位等。
作為信息計(jì)量學(xué)的子領(lǐng)域,引文分析的迅猛發(fā)展源于20世紀(jì)60年代科學(xué)引文索引(SCI)的誕生[3]。進(jìn)入21世紀(jì),Scoups、Google Scholar等新型數(shù)據(jù)庫工具的出現(xiàn)進(jìn)一步豐富了引文研究的數(shù)據(jù)源,通過這些大規(guī)模的引文數(shù)據(jù),學(xué)者們可運(yùn)用統(tǒng)計(jì)分析、線性代數(shù)、聚類算法等數(shù)理方法來分析和評價(jià)科研產(chǎn)出活動,與此同時(shí),引文分析研究領(lǐng)域自身也形成了一系列新理念和新方法,如影響因子、皇冠指標(biāo)、文獻(xiàn)耦合等。近年來,加權(quán)直接引用、VOS等新型方法工具的出現(xiàn)使引文分析研究成為國內(nèi)外學(xué)者眼中一顆耀眼的明星。為此,本文以上述知識為基礎(chǔ),綜述近年來引文分析在理論與實(shí)踐兩方面取得的研究進(jìn)展,以供國內(nèi)同行參考。
回顧引文分析的發(fā)展歷程不難發(fā)現(xiàn),基礎(chǔ)理論的研究都有力促進(jìn)了領(lǐng)域的變革,豐富了引文分析的實(shí)踐來源,著名文獻(xiàn)計(jì)量學(xué)家Garfield、Persson、Small等對引文分析的基礎(chǔ)理論作出了杰出貢獻(xiàn)[4]。引文分析的基礎(chǔ)理論主要包括引文關(guān)系的相關(guān)概念和引文方法及其相關(guān)指標(biāo)的研究。引文關(guān)系的研究是引文分析的基礎(chǔ)。廣泛使用的引文分析工具ISI Web of Knowledge數(shù)據(jù)庫、Bibexcel等均涉及多種引文關(guān)系。在引文基礎(chǔ)理論研究中,Small對引文關(guān)系進(jìn)行了劃分,Small將引文關(guān)系劃分為直接引用(Direct Citation)、文獻(xiàn)耦合(Bibliographic Coupling)和同被引(Co-citation)等三種類型[5]如圖1所示。瑞典學(xué)者Persson在上述三種引文關(guān)系類型的基礎(chǔ)上,在最新的研究中引入共享引用(Shared References)和加權(quán)直接引用(Weighted Direct Citation)的概念,對引文關(guān)系的基礎(chǔ)理論進(jìn)行了拓展。
圖1 引文關(guān)系的類型[6]
圖1表示一組引用數(shù)據(jù)集,圓和箭頭分別表示文獻(xiàn)和引用關(guān)系。記文獻(xiàn)A—E,M—P發(fā)表的時(shí)間分別為t1和t2(t1>t2)。若A引用 M,那么二者就構(gòu)成直接引用關(guān)系。如文獻(xiàn)簇(A,M,N)。同理還有文獻(xiàn)簇(C,D,O),(E,P)。若兩篇或多篇文獻(xiàn)同時(shí)引用一篇文獻(xiàn),其中施引文獻(xiàn)簇構(gòu)成耦合關(guān)系,如文獻(xiàn)簇(C,D),若一篇文獻(xiàn)同時(shí)引用兩篇乃至多篇文獻(xiàn),則這組文獻(xiàn)存在同被引關(guān)系。其中,施引文獻(xiàn)和被引文獻(xiàn)簇的集合稱為同被引(Co-citation Analysis),亦稱共引,如文獻(xiàn)簇(A,M,N);被引文獻(xiàn)簇表示共引聚類(Co-citation Clusters),如文獻(xiàn)簇(M,N)。
共享引用是指文獻(xiàn)耦合中的被引文獻(xiàn)簇,如圖1中耦合文獻(xiàn)簇(C,D,O)中的文獻(xiàn)O。Persson綜合直接引用、共享引用和同被引三種引文關(guān)系類型提出了加權(quán)直接引用的理論方法[7],所謂加權(quán)直接引用,是指將共享引用和同被引兩種情形與直接引用整合,使之成為一個(gè)新的引用強(qiáng)度,Persson把它稱為加權(quán)直接引用(Weight Direct Citations,縮寫WDC)。其測量可用圖2解釋:由于A和B引用C,所以文獻(xiàn)簇A和B對于C來講,是耦合關(guān)系;同時(shí)D引用A和B,文獻(xiàn)簇(D,A,B)是同被引關(guān)系,綜合這兩種關(guān)系,A到B的直接引用鏈接被加強(qiáng)。假設(shè)對每一種關(guān)系計(jì)分為1分,那么,在這個(gè)集合中,對于AB的加權(quán)直接引用得分為3。如圖2所示。
圖2 加權(quán)直接引用
加權(quán)直接引用理論在引文分析應(yīng)用實(shí)踐中具有重要作用。以探測研究前沿為例,它有利于更加理性看待直接引用、文獻(xiàn)耦合和同被引在探測研究前沿方面的作用。Shibata研究認(rèn)為[8],直接引用較同被引探測研究前沿更理想,主要原因是同被引需要一定的時(shí)間才能體現(xiàn)出來。Persson認(rèn)同Shibata的觀點(diǎn),同時(shí)又認(rèn)為,共享引用和同被引均能夠?qū)η把靥綔y產(chǎn)生重要的影響,這是因?yàn)檎撐牡膮⒖嘉墨I(xiàn)會隨著引證文獻(xiàn)主題的相似發(fā)生相當(dāng)大的變化,直接引用鏈接越多,基于相似性產(chǎn)生共享引用和頻繁被引的可能性越大。因此在探測研究前沿方面要對共享引用和同被引進(jìn)行加權(quán)。引入加權(quán)直接引用,有利于在研究前沿中探測有意義的子領(lǐng)域。加權(quán)直接引用的方法已經(jīng)用于Persson所開發(fā)的著名引文分析軟件Bibexcel中。
引文分析研究方法是引文分析中的核心?;仡櫼姆治龅拿恳淮伟l(fā)展,引文分析研究方法都對引文分析有著顯著的促進(jìn)作用。引文分析研究方法一般由引文分析工具、引文分析流程、引文分析指標(biāo)等構(gòu)成。例如,文獻(xiàn)耦合的流程可概括為圖3所示:
圖3 文獻(xiàn)耦合的流程
基于文獻(xiàn)數(shù)據(jù)建立科學(xué)圖譜的研究方法可直觀地發(fā)現(xiàn)文獻(xiàn)中的各種現(xiàn)象,從而總結(jié)引文規(guī)律。多維尺度分析、可視化分析等分析手段均是引文分析中的科學(xué)圖譜分析方法。荷蘭萊頓大學(xué)Van Eck等人在多維尺度分析(Multidemensional Scaling,縮寫MDS)的基礎(chǔ)上提出了一種新的文獻(xiàn)計(jì)量地圖技術(shù) VOS(Visualization of Similarity)[9]。多維尺度法是運(yùn)用壓力函數(shù)(Stress Function)將多維空間的研究對象(樣本或變量)簡化到低維空間進(jìn)行定位、分析和歸類,同時(shí)又保留對象間原始關(guān)系的數(shù)據(jù)分析方法。VOS方法是對MDS壓力函數(shù)的加權(quán),較多維尺度法基于鄰近指數(shù)和余弦方程產(chǎn)生的MDSAS和 MDS-COS方法,COS在聚合度和區(qū)分度兩種關(guān)鍵評價(jià)指標(biāo)上均要優(yōu)于多維尺度法。
Van Eck選取情報(bào)學(xué)中的作者共引、社會學(xué)期刊的期刊共引和運(yùn)籌學(xué)領(lǐng)域的關(guān)鍵詞共現(xiàn)三種數(shù)據(jù)集,分別采用 MDS-AS、MDS-COS和 VOS三種方法進(jìn)行實(shí)驗(yàn),其結(jié)果如下圖所示:
圖4 采用MDS-AS、MDS-COS和VOS三種方法進(jìn)行實(shí)驗(yàn)的結(jié)果
由上圖看出,VOS方法在三種領(lǐng)域均有較好的聚合度和區(qū)分度,明顯優(yōu)于MDS。為了配合VOS在實(shí)踐中的推廣應(yīng)用,Van Eck于2010年推出了開源軟件VOSviewer供學(xué)者使用,可到網(wǎng)上下載開源軟件包[10]。
近年來納米學(xué)科的結(jié)構(gòu)是怎樣的?該結(jié)構(gòu)中的主要板塊是什么?其中有哪些研究領(lǐng)域/專家?這些類似的問題在不同學(xué)科經(jīng)常引起學(xué)者的關(guān)注。引文分析自產(chǎn)生以來就對學(xué)科結(jié)構(gòu)的揭示進(jìn)行了研究,常用的方法有:聚類、多變量因子、主成分分析[11]等。2009 年,Ibekwe-SanJuan運(yùn)用文本分析軟件Term Watch和網(wǎng)絡(luò)可視化軟件pajek繪制了情報(bào)學(xué)的結(jié)構(gòu)[12]。Chen Chaomei等人則從情報(bào)學(xué)知識圖譜的動態(tài)視角運(yùn)用多視角共引分析法解析共引網(wǎng)絡(luò)的動態(tài)屬性[13]。
Chen Chaomei選取情報(bào)學(xué)領(lǐng)域1996-2008年間12種著名期刊所發(fā)表的論文,運(yùn)用Citespace軟件繪制了作者共引分析(Author Co-citation Analysis,ACA)和文獻(xiàn)共引分析(Documentation Co-citation Analysis,DCA)可視化知識圖譜,分別對兩種地圖從結(jié)構(gòu)、時(shí)態(tài)、語義模式以及共引聚類的引用與被引項(xiàng)進(jìn)行解析識別情報(bào)學(xué)的學(xué)科結(jié)構(gòu)和專家。較Ibekwe-SanJuan在2009年的研究,Chen Chaomei等人討論了被引參考文獻(xiàn)的結(jié)構(gòu)模式,在揭示文獻(xiàn)間的隱含信息方面推進(jìn)了一步。
在科學(xué)研究中,研究前沿對于科研人員捕捉創(chuàng)新思想,占領(lǐng)學(xué)科制高點(diǎn)有著不可估量的作用,運(yùn)用引文分析來探測研究前沿也就成為引文分析應(yīng)用研究最活躍的領(lǐng)域之一。荷蘭[14]、美國、瑞典、日本等國學(xué)者都在此方面作出了重要貢獻(xiàn)。近年來引文分析在研究前沿的探測應(yīng)用研究方面有進(jìn)一步加強(qiáng)的趨勢。
確定研究前沿是建立在對研究前沿概念界定的基礎(chǔ)上的。研究前沿至今尚無統(tǒng)一的定義,較具代表性的觀點(diǎn)可分為三種派別:一種是以瑞典學(xué)者Persson為代表的施引文獻(xiàn)派別:即將一組高被引文獻(xiàn)簇的施引文獻(xiàn)作為研究前沿;一種是以Price和Small為代表的高被引文獻(xiàn)簇派別:即將特定領(lǐng)域內(nèi)被新近發(fā)表的論文引用的早期高被引文獻(xiàn)作為研究前沿;一種是以Chen Chaomei為代表的以突發(fā)熱點(diǎn)主題稱為研究前沿的突發(fā)熱點(diǎn)派別。不同的流派在分析方法上各有不同。如表1所示:
表1 研究前沿的派別[15-16]
上述三種派別充分體現(xiàn)了研究前沿定義的爭議性。但是,這并不妨礙學(xué)者對不同學(xué)科研究前沿的揭示。從發(fā)表的文獻(xiàn)來看,文獻(xiàn)計(jì)量學(xué)界運(yùn)用引文分析探測研究前沿依據(jù)學(xué)科特點(diǎn)的不同,一般綜合了上述三類派別的觀點(diǎn)。在研究前沿的認(rèn)定上,需要結(jié)合相關(guān)的評價(jià)指標(biāo)進(jìn)行綜合研究。2009年,日本東京大學(xué)Shibata等人在分析研究前沿時(shí)提出了能見度、平均出版年和密度(拓?fù)湎嚓P(guān)性)三種指標(biāo)[17]。能見度是對文獻(xiàn)簇進(jìn)行歸一化處理后的文獻(xiàn)簇大小。文獻(xiàn)簇越大,越容易辨別前沿文獻(xiàn)簇與普通文獻(xiàn)簇之間的分布;平均出版年更小,意味著文獻(xiàn)簇可更快地被探測到前沿文獻(xiàn)簇包括的核心論文;文獻(xiàn)簇越密集反映出文獻(xiàn)簇形成的核心文獻(xiàn)群更具價(jià)值,故研究前沿是那些平均出版年越小探測到范圍更大和文獻(xiàn)更集中的文獻(xiàn)簇,Shibata等人將此定義為最佳引用類型。該研究選取氮化鉀、復(fù)雜網(wǎng)絡(luò)和碳納米管三個(gè)不同研究領(lǐng)域,對每一個(gè)領(lǐng)域分別建立直接引用、文獻(xiàn)耦合和同被引三種引用網(wǎng)絡(luò)進(jìn)行比較。研究發(fā)現(xiàn),直接引用能夠探測大量和新近出現(xiàn)的早期聚類,在探測研究前沿具有最好的表現(xiàn)。同被引效果最差。研究還發(fā)現(xiàn)直接引用網(wǎng)絡(luò)的聚類系數(shù)(clustering coefficient)最大,反映出直接引用所測出的論文內(nèi)容相似度最好。
如第1節(jié)所述,Persson認(rèn)同Shibata的研究結(jié)論,同時(shí)又認(rèn)為共享引用和同被引也對研究前沿產(chǎn)生一定的影響,但是其影響較直接引用而言要小。因此,對直接引用網(wǎng)絡(luò)進(jìn)行策略上的優(yōu)化,Perssson引入加權(quán)直接引用的概念。如圖2所示。Persson對直接引用、共享引用和同被引賦予不同的權(quán)重值。與此同時(shí),可能存在論文引用形式不一致的情況:比如有的論文共享引用更多,有的論文同被引情形更多。為了區(qū)分這一情況,對共享引用和同被引要進(jìn)行歸一化處理。例如:如果C受到10篇文獻(xiàn)引用它,即共享引用為10,那么1/10即是C的歸一共享引用值。D引用5篇論文,歸一化共引值為1/5。最后A到B的歸一化加權(quán)直接引用值為1+1/10+1/5=1.3。
通過設(shè)置加權(quán)直接引用,形成新的直接引用網(wǎng)絡(luò),在探測研究前沿時(shí)要通過設(shè)置引文鏈接強(qiáng)度閾值去除不達(dá)標(biāo)的鏈接。對于沒有被引用或很少引用的論文可直接排除。同時(shí),可去除重復(fù)作者集定義的自引鏈接,以避免論文的聚類被相同的作者或相同集合所統(tǒng)治。
較Shibata的研究而言,Persson是對前述研究的深化。研究表明,用共享引用和同被引作為直接引用強(qiáng)度的加權(quán)是剖析論文網(wǎng)絡(luò)的有效工具。設(shè)定閥值對于研究結(jié)果有著重要的影響。由于網(wǎng)絡(luò)的復(fù)雜度很高,提高閾值將導(dǎo)致更多的論文不被納入計(jì)算范圍,從而影響結(jié)果及對結(jié)論的分析。
2009年普賴斯獎得主,匈牙利科學(xué)家Vinkler P認(rèn)為 “指標(biāo)是科學(xué)計(jì)量學(xué)和文獻(xiàn)計(jì)量學(xué)的本質(zhì)”[18]。Garfield的影響因子、荷蘭萊頓大學(xué)的王冠指數(shù)、美國學(xué)者Hirsh的h指數(shù)等指標(biāo)的產(chǎn)生引發(fā)了評價(jià)科研績效的革命。指標(biāo)不僅可以作為對外部對象評價(jià)的方法,還可以評價(jià)引文分析方法本身,它們共同構(gòu)成了引文分析指標(biāo)的兩種應(yīng)用類型。例如,Shibata運(yùn)用能見度、平均出版年和拓?fù)湎嚓P(guān)性三種指標(biāo)確定最佳引用模型。Boyack和Klavans運(yùn)用文本一致性和向心度兩個(gè)指標(biāo)來衡量直接引用、文獻(xiàn)耦合和同被引揭示生物醫(yī)學(xué)領(lǐng)域的研究前沿[19]。
王冠指數(shù)是一個(gè)世界平均水平相比較的相對指標(biāo),在科研績效評價(jià)中有著重要的影響。湯姆森路透對諾貝爾獎獲得者的王冠指數(shù)研究發(fā)現(xiàn),他們中的絕大部分王冠指數(shù)較高,以至于王冠指數(shù)成為預(yù)測新一年是否獲諾獎的風(fēng)向標(biāo)。2010年,Opthof T和Leydesdorff L對王冠指數(shù)進(jìn)行了修正,提出了卡羅林卡指數(shù)(Karolinska Indicator)[20]。
卡羅林卡指數(shù)(Mean Normalized Citation Score,MNCS)是在王冠指數(shù)的基礎(chǔ)上得出的新指標(biāo),其數(shù)學(xué)意義表示所有科研領(lǐng)域論文被引次數(shù)與領(lǐng)域被引次數(shù)比值之和的平均值,用公式表示為:
與卡羅林卡指數(shù)相比較而言,傳統(tǒng)的王冠指數(shù)表示論文篇均被引次數(shù)與評價(jià)對象在不同科研活動領(lǐng)域篇均被引次數(shù)世界平均值的均值CPP/FCSm,其用公式表示是:
通過比較公式可以發(fā)現(xiàn),王冠指數(shù)代表的是平均值的比例(a ratio of averages,Ro A),而卡羅林卡指數(shù)所代表的是比例的平均值(an average of ratios,Ao R)。王冠指標(biāo)由于通過更高的引用數(shù)量對所有領(lǐng)域和期刊賦予更多的權(quán)重,而新指標(biāo)則賦予等同的權(quán)重,這樣在結(jié)論上更為客觀。
綜上所述,筆者從引文分析的基礎(chǔ)理論、引文分析的研究方法、引文分析的研究前沿探測應(yīng)用和引文分析指標(biāo)四個(gè)領(lǐng)域闡述了國外著名學(xué)者近兩年來的重要進(jìn)展。這些介紹只是引文分析近年來發(fā)展的一個(gè)側(cè)面。結(jié)合國際上科學(xué)計(jì)量學(xué)的實(shí)踐進(jìn)展,筆者認(rèn)為,我國學(xué)者可在下列領(lǐng)域深化引文分析研究:
其一,加強(qiáng)對引文分析方法的研究。我國學(xué)者在引文分析研究方面主要是采用國外學(xué)者的工具和方法,基本還處于引進(jìn)消化階段,不能做到與國際引文分析方法的同步。但是,縱觀國外學(xué)者近年來的研究,引文分析方法的革新在學(xué)科發(fā)展中處于核心地位。例如,對引文網(wǎng)絡(luò)和引證網(wǎng)絡(luò)的處理問題。在研究前沿的揭示中,即使選擇一個(gè)較窄的學(xué)科,其結(jié)點(diǎn)和鏈接會相對減少,但要能夠做到識別、閱讀、明確傳統(tǒng)與新興研究主題,這樣產(chǎn)生了評價(jià)指標(biāo)的需求和閥值的設(shè)定。與聚集結(jié)構(gòu)(例如,作者、期刊、機(jī)構(gòu))相比,論文引證網(wǎng)絡(luò)通常更為復(fù)雜。這些有待我們進(jìn)一步研究。
其二,加強(qiáng)對重要指標(biāo)的修正研究。王冠指數(shù)、影響因子是引文分析中最重要的兩個(gè)指標(biāo)。近年來,國際上對王冠指數(shù)和影響因子都提出了不同的見解,著名學(xué)者Leydesdorff、Rousseau等對此進(jìn)行了研究并取得了重要成果。與此同時(shí),H指數(shù)對應(yīng)的修正——H型指數(shù)的研究持續(xù)不斷。為此,我國學(xué)者在此方面應(yīng)給予加強(qiáng)。
其三,加強(qiáng)對新興方法和指標(biāo)的實(shí)證研究。在對新興理論研究進(jìn)行跟蹤的同時(shí),要注意加強(qiáng)對這些方法的實(shí)證研究。中科院、浙江大學(xué)等科研機(jī)構(gòu)走在了前列。其他機(jī)構(gòu)有待加強(qiáng)。
參考資料
1 Garfield,E.Citation Indexing—Its Theory and Application in Science,Technology and Humanities.Philadelphia:ISI Press,1983
2 邱均平.信息計(jì)量學(xué).武漢:武漢大學(xué)出版社,2007
3 龐景安.科學(xué)計(jì)量研究方法論.北京:科學(xué)技術(shù)文獻(xiàn)出版社,2002
4 Rousseau R.Journal evaluation:Technical and practical issues.Library Trends,2002,50(3):418-439
5 Small H.Update on science mapping:Creating large document spaces.Scientometrics,1997,38(2):275-293
6 Boyack KW,Klavans R.Co-Citation Analysis,Bibliographic Coupling,and Direct Citation:Which Citation Approach Represents the Research Front Most Accurately?Journal of the American Society for Information Science and Technology,2010,61(12):2389-2404
7 Persson O.Identifying research themes with weighted direct citation links.Journal of Informetrics,2010,4(3):415-422
8 Shibata N,Kajikawa Y,Takeda Y,et al.Comparative Study on Methods of Detecting Research Fronts Using Different Types of Citation.Journal of the American Society for Information Science and Technology,2009,60(3):571-580
9 Van Eck N J,Waltman L,Dekker R,et al.A comparison of two techniques for bibliometric mapping:Multidimensional scaling and VOS.Journal of the American Society for Information Science and Technology.2010,61(12):2405–2416
10 http://www.vosviewer.com/
11 Morris S A,Van der Veer Martens B.Annual Review of Information Science and Technology.2008,42:213-295
12 Ibekwe-SanJuan F.Information Science in the web era:A termbased approach to domain mapping.Proceedings of the American Society for Information Science and Technology.2009,46(1):1-23
13 Chen C M,Ibekwe-SanJuan F,Hou J H.The Structure and Dynamics of Cocitation Clusters:A Multiple-Perspective Cocitation Analysis.Journal of the American Society for Information Science and Technology.2010,61(7):1386-1409
14 Leydesdorff L,Opthof T.Remaining problems with the“New Crown Indicator”(MNCS)of the CWTS.Journal of Informetrics,2011,5(1):224-225
15 Persson O.The intellectual base and research fronts of JASIS 1986-1990.Journal of the American Society for Information Science,1994,45,(1):31-38
16 Small,H.Co-citation in the scientific literature:A new measure of the relationship between two documents.Journal of the A-merican Society for Information Science 24(4):265-269.
17 Shibata N,Kajikawa Y,Takeda Y,et al.Comparative Study on Methods of Detecting Research Fronts Using Different Types of Citation.Journal of the American Society for Information Science and Technology,2009,60(3):571-580
18 Vinkler P.Indicators are the essence of scientometrics and bibliometrics.Scientometrics,85(3):861-866
19 Boyack K W,Klavans R.Co-Citation Analysis,Bibliographic Coupling,and Direct Citation:Which Citation Approach Represents the Research Front Most Accurately?Journal of The A-merican Society for information Science and Technology.2010,61(12):2389-2404
20 Opthof T,Leydesdorff L.Caveats for the journal and field normalizations in the CWTS (“Leiden”)evaluations of research performance.Journal of Informetrics,2010,4(3):423-430