夏紅玉,胡 潛,王忠義
(華中師范大學(xué)信息管理學(xué)院,武漢 430079)
卡爾·波普爾的科學(xué)知識(shí)增長論將知識(shí)的生產(chǎn)增長過程描述為達(dá)爾文進(jìn)化論式的過程,是知識(shí)在流動(dòng)過程中優(yōu)勝劣汰的過程[1],而這個(gè)過程通過學(xué)術(shù)文獻(xiàn)的引用過程得以體現(xiàn)。學(xué)術(shù)文獻(xiàn)之間的引用關(guān)系反映了知識(shí)采集、組織、生產(chǎn)、傳播和應(yīng)用的過程,引用信息表明,知識(shí)從被引文獻(xiàn)傳播到施引文獻(xiàn)。因此,引文網(wǎng)絡(luò)中的知識(shí)流可用于跟蹤技術(shù)或科學(xué)知識(shí)的發(fā)展軌跡。1964年,科學(xué)引文索引之父Garfield基于學(xué)術(shù)文獻(xiàn)間知識(shí)的溯源與繼承關(guān)系,提出通過分析引文關(guān)系來追尋科學(xué)研究的歷史脈絡(luò)的想法[2];隨后學(xué)者們相繼通過分析引文網(wǎng)絡(luò)來追蹤科學(xué)的歷史和發(fā)展脈絡(luò)[3-5]。然而引文網(wǎng)絡(luò)通常是巨大且復(fù)雜的,需要有效的方法來降低引文網(wǎng)絡(luò)的復(fù)雜性,從而識(shí)別出最重要的路徑來追蹤科學(xué)發(fā)展的軌跡。1989年,Hummon等[6]提出了主路徑分析方法,從引文網(wǎng)絡(luò)的內(nèi)部結(jié)構(gòu)衡量引文鏈接重要性,然后按時(shí)間順序追蹤這些鏈接,建立引文網(wǎng)絡(luò)中最重要的路徑,研究特定科學(xué)領(lǐng)域的發(fā)展軌跡。
作為一種定量分析方法,傳統(tǒng)基于引文網(wǎng)絡(luò)分析的主路徑方法沒有考慮引文對(duì)施引文獻(xiàn)的相對(duì)價(jià)值,認(rèn)為施引文獻(xiàn)中的所有引文對(duì)該文獻(xiàn)具有同等的重要性,導(dǎo)致主路徑分析方法無法客觀體現(xiàn)引文網(wǎng)絡(luò)中知識(shí)流的傳播、利用與創(chuàng)新的關(guān)系。本文以Altmetrics主題研究領(lǐng)域?yàn)槔?,收集?985—2020年Web of Science核心數(shù)據(jù)集中的512篇全文數(shù)據(jù),在施引文獻(xiàn)全文引用位置和全文引用頻次統(tǒng)計(jì)基礎(chǔ)之上,構(gòu)建引文重要度指標(biāo)來表示引文對(duì)施引文獻(xiàn)的重要性,用來加權(quán)調(diào)節(jié)主路徑分析的鏈接遍歷計(jì)數(shù),探索提高主路徑分析方法的可靠性和合理性,并測度了改進(jìn)后的主路徑分析方法在提取知識(shí)流方面的性能表現(xiàn)。
引文分析對(duì)于評(píng)估被引文獻(xiàn)的科學(xué)貢獻(xiàn)具有重要意義,但傳統(tǒng)基于引文著錄分析的方法對(duì)所有引文一視同仁,不區(qū)分引文對(duì)施引文獻(xiàn)的重要性,導(dǎo)致作為科學(xué)影響力衡量標(biāo)準(zhǔn)之一的引文計(jì)數(shù)的準(zhǔn)確性與合理性飽受質(zhì)疑[7]。學(xué)者們指出,每次引用行為背后的原因各有不同,一篇文獻(xiàn)的全部引文中只有少數(shù)引文對(duì)施引文獻(xiàn)研究的影響大于其他文獻(xiàn),因此需要對(duì)引文的重要性進(jìn)行區(qū)分[8]。Moravcsik等[9]的研究顯示,在大多數(shù)科研文獻(xiàn)中40%的引文僅提供常識(shí)和背景知識(shí),并指出將引文一視同仁的計(jì)量方法會(huì)影響引文分析定量評(píng)估的準(zhǔn)確性。1965年,Garfield[10]通過定性分析引文出現(xiàn)的位置和引文上下文信息總結(jié)出15種引用動(dòng)機(jī),首次通過引用動(dòng)機(jī)來對(duì)引文進(jìn)行分類。起初大多數(shù)研究側(cè)重于區(qū)分引文的不同意圖或引用的目的[11-14],后來學(xué)者們開始關(guān)注如何識(shí)別對(duì)施引文獻(xiàn)具有核心影響力的引文[15-17]。目前學(xué)者們發(fā)表了許多識(shí)別引文對(duì)施引文獻(xiàn)重要性的研究,例如,從引文動(dòng)機(jī)的角度選擇衡量指標(biāo)[18-19];基于全文引文計(jì)數(shù)[8,20-21],基于引文和施引文獻(xiàn)的標(biāo)題、摘要、關(guān)鍵詞或引文上下文信息等內(nèi)容之間的相似度[22-25],基于引文的引用位置[26],基于引文句子長度[27-28]等來識(shí)別重要引文。但這些研究中使用的特征相對(duì)有限,無法比較并準(zhǔn)確捕獲能夠有效用于區(qū)分引文重要性的特征。事實(shí)上,每次引用行為都從統(tǒng)計(jì)學(xué)角度和語義內(nèi)容角度為我們提供了分析引文重要性的途徑。引用行為的統(tǒng)計(jì)學(xué)角度包括引用的次數(shù)、引文的句子長度、引用出現(xiàn)的段落,引用行為的語義內(nèi)容角度包括引文的極性(態(tài)度)、引用位置、引文與施引文獻(xiàn)的相似度等[29]。因此,在最新的研究中,Wang等[30]從統(tǒng)計(jì)學(xué)和語義內(nèi)容角度提取了21個(gè)指標(biāo)來構(gòu)建識(shí)別重要引文的特征空間,研究結(jié)果顯示,統(tǒng)計(jì)學(xué)角度的全文引用頻率、引用句子總長度最能有效識(shí)別重要引文,語義內(nèi)容角度的引用位置、引文與施引文獻(xiàn)的內(nèi)容相似性等指標(biāo)也能有效識(shí)別重要引文。
本文從引用行為的統(tǒng)計(jì)學(xué)視角和語義信息視角分別挑選全文引用頻次和引用位置,作為綜合衡量引文重要性的指標(biāo)。事實(shí)上長久以來眾多關(guān)于全文引文分析的研究都試圖根據(jù)被引文獻(xiàn)在施引文獻(xiàn)全文中出現(xiàn)的引用次數(shù),或者引用位置來確定引文對(duì)施引文獻(xiàn)的相對(duì)價(jià)值。目前眾多學(xué)者對(duì)此已經(jīng)達(dá)成了初步共識(shí):①被引文獻(xiàn)對(duì)施引文獻(xiàn)的重要程度與其在施引文獻(xiàn)全文中的引用頻次成正比。Voos等[8]認(rèn)為,引文對(duì)施引文獻(xiàn)的重要性可以用其在全文中的引用頻次來計(jì)算。胡志剛等[31]認(rèn)為基于全文引用頻次的統(tǒng)計(jì)方法用于科學(xué)評(píng)價(jià)與預(yù)測具有更好的效果。Zhu等[16]和Hou等[32]的研究顯示,引文在全文中出現(xiàn)的頻次可以代表該引文對(duì)施引文獻(xiàn)的知識(shí)價(jià)值貢獻(xiàn);并且隨著全文引用次數(shù)的增加,引文對(duì)施引文獻(xiàn)的價(jià)值貢獻(xiàn)也會(huì)增加[33]。②在文獻(xiàn)介紹性部分(引言、相關(guān)研究)之外提到的參考文獻(xiàn)對(duì)施引文獻(xiàn)的價(jià)值往往更高。Mari?i?等[34]在研究了357篇文獻(xiàn)的全文引用語境與位置后提出,應(yīng)根據(jù)引文在文獻(xiàn)中引用位置的不同來對(duì)其進(jìn)行重要性的評(píng)估。學(xué)者們發(fā)現(xiàn),大部分引文出現(xiàn)的位置集中在文獻(xiàn)的開頭(引言、相關(guān)研究)和結(jié)尾(討論和結(jié)論),但出現(xiàn)在介紹性章節(jié)之外的引文對(duì)于施引文獻(xiàn)往往更有價(jià)值[20,35]。出現(xiàn)在文獻(xiàn)方法與結(jié)果部分的引文對(duì)施引文獻(xiàn)的價(jià)值比僅出現(xiàn)在簡介或引言部分的引文更高[36-38]。
主路徑分析方法自提出以來,已被廣泛應(yīng)用到學(xué)術(shù)論文和專利文獻(xiàn)的引文網(wǎng)絡(luò)分析中,用于跟蹤研究領(lǐng)域的發(fā)展歷史和演化路徑,如繪制技術(shù)軌跡[39]、檢測技術(shù)變化[40]、探索知識(shí)的傳播和技術(shù)的擴(kuò)散[41-42]、進(jìn)行文獻(xiàn)綜述[43-44]等。在主路徑分析的發(fā)展過程中,學(xué)者們從主路徑分析方法的不同角度對(duì)其進(jìn)行了改進(jìn),如優(yōu)化主路徑分析的鏈接遍歷計(jì)數(shù)方法。2003年,Batagelj[45]提出了搜索路徑計(jì)數(shù)(search path count,SPC)的方法來計(jì)算引文鏈接重要性,改進(jìn)了主路徑分析方法;Verspagen[46]提出最優(yōu)主路徑演化網(wǎng)絡(luò)(network of the evolution of top path,NETP)算法,通過劃分不同時(shí)間間隔來計(jì)算最優(yōu)主路徑,考察路徑節(jié)點(diǎn)的知識(shí)流隨時(shí)間的發(fā)展情況;Choi等[47]提出前向引證節(jié)點(diǎn)對(duì)統(tǒng)計(jì)值算法(forward citation node pair,F(xiàn)CNP),通過前向引文節(jié)點(diǎn)對(duì)數(shù)確定連邊的權(quán)值來識(shí)別主路徑。針對(duì)主路徑方法產(chǎn)生的知識(shí)軌跡單一,無法展示知識(shí)體系多分支、知識(shí)流融合的局限性,學(xué)者們從不同角度擴(kuò)展了路徑搜索算法。Liu等[48]提出了關(guān)鍵路徑搜索(key-route search)方法進(jìn)行修正,對(duì)主路徑中所遺漏的關(guān)鍵路線進(jìn)行了補(bǔ)充;Park等[49]提出基于知識(shí)遺傳適應(yīng)性的前后路徑方法,減少了對(duì)重要節(jié)點(diǎn)的遺漏;冷伏海等[50]和萬小萍等[51]提出了基于主路徑算法的綜合運(yùn)用來解決知識(shí)軌跡單一問題;劉向等[52]提出了構(gòu)建基于引文路徑疊加的主路徑發(fā)現(xiàn)方法。
傳統(tǒng)主路徑分析方法認(rèn)為每篇引文對(duì)施引文獻(xiàn)的價(jià)值同等重要,而事實(shí)上學(xué)術(shù)文獻(xiàn)中的引用動(dòng)機(jī)和引用情景非常復(fù)雜[53],每次引用行為都從統(tǒng)計(jì)學(xué)角度和語義內(nèi)容角度為我們提供了分析引文重要性的信息,將所有引文一視同仁的研究方法會(huì)使傳統(tǒng)主路徑分析方法無法客觀體現(xiàn)引文網(wǎng)絡(luò)中知識(shí)流的傳播、利用與創(chuàng)新的關(guān)系。因此,學(xué)者們將引文與施引文獻(xiàn)的內(nèi)容相關(guān)性用于衡量引文的重要性,從引用行為語義分析角度改進(jìn)主路徑分析法。例如,陳亮等[54]將文本相似度引入主路徑搜索過程,通過用語義相似度衡量路徑重要性來計(jì)算主路徑;彭澤等[55]設(shè)計(jì)了一種基于文本相似度的知識(shí)流量計(jì)算方法,結(jié)合知識(shí)流動(dòng)路徑類型提取主路徑?;蛘咄ㄟ^數(shù)據(jù)庫的內(nèi)容相關(guān)度標(biāo)引項(xiàng)來表征引文相關(guān)性,例如,Liu等[56]利用法律數(shù)據(jù)庫West Law中KeyCite標(biāo)引項(xiàng),通過引入4級(jí)內(nèi)容相關(guān)度對(duì)鏈接遍歷計(jì)數(shù)進(jìn)行加權(quán)調(diào)節(jié)來確定主路徑。
雖然已經(jīng)陸續(xù)有相關(guān)學(xué)者從引用行為的語義分析角度,通過計(jì)算引文內(nèi)容的語義相似度來提高主路徑分析方法的可靠性和合理性,但目前尚沒有文獻(xiàn)從引用行為的統(tǒng)計(jì)學(xué)層面和語義信息層面綜合區(qū)分引文重要性,探討引文對(duì)施引文獻(xiàn)的重要性對(duì)構(gòu)造主路徑的影響。本文選擇全文引用頻次和引用位置作為引文重要性識(shí)別的特征,擬從統(tǒng)計(jì)學(xué)角度和語義內(nèi)容角度更好地區(qū)分引文的重要性。
為了提升主路徑分析方法的可靠性,改善該方法在分析引文網(wǎng)絡(luò)知識(shí)流動(dòng)路徑的性能,本文試圖構(gòu)建引文重要度指標(biāo)來加權(quán)調(diào)節(jié)引文鏈接的重要性,對(duì)主路徑分析方法中的鏈接遍歷數(shù)進(jìn)行調(diào)節(jié),并作為路徑搜索的參考變量,提高主路徑方法在衡量鏈接權(quán)重指標(biāo)的合理性與準(zhǔn)確性。主路徑分析方法的鏈接遍歷計(jì)數(shù)基準(zhǔn)方法采用SPC方法,引文重要度指標(biāo)使用引用頻次和引用位置加權(quán)方法。
結(jié)合上文所述,本文采用引用位置和引用頻次相結(jié)合的方法來計(jì)算引文對(duì)施引文獻(xiàn)的重要性。首先將文獻(xiàn)根據(jù)IMRaD(Introduction,Materials and methods,Results,Discussion)科研論文寫作結(jié)構(gòu)將引文出現(xiàn)位置標(biāo)記為4級(jí)位置權(quán)重參數(shù),然后計(jì)算引文在該處的引用權(quán)重,最后計(jì)算引文在該處的引文重要性。某篇引文在文獻(xiàn)某處的單次引文重要度r等于其出現(xiàn)的位置權(quán)重參數(shù)L乘以它在該處的引用權(quán)重w,即
在科學(xué)文獻(xiàn)創(chuàng)作中引文與引用之間是多對(duì)多關(guān)系,一篇引文可以被同一文獻(xiàn)多次引用。引文在文獻(xiàn)中的引用權(quán)重,通常采用引用句子長度計(jì)算法或引用頻次整數(shù)計(jì)算法,但這兩種方法都會(huì)導(dǎo)致權(quán)重高估問題[33,57]。Pak等[58]發(fā)現(xiàn)引用頻次分?jǐn)?shù)計(jì)數(shù)法可以有效解決引用計(jì)數(shù)的權(quán)重高估問題,因此,本文采用基于引用頻次的分?jǐn)?shù)計(jì)算法。引用內(nèi)容是包含參考文獻(xiàn)引用的句子或短語。若引用內(nèi)容僅有一條參考文獻(xiàn),則稱之為“獨(dú)立引用”;若引用內(nèi)容包含多條參考文獻(xiàn),則稱之為“非獨(dú)立引用”。學(xué)者們認(rèn)為獨(dú)立引用的參考文獻(xiàn)貢獻(xiàn)大于非獨(dú)立引用的參考文獻(xiàn),因此,每條非獨(dú)立引用的引文在計(jì)算“引用權(quán)重”時(shí)應(yīng)將貢獻(xiàn)平均分配給每條參考文獻(xiàn)[58]。假設(shè)某處引文內(nèi)容包含m條參考文獻(xiàn),則該處每條參考文獻(xiàn)的“引用權(quán)重”w為
引 文1:“Batagelj(2003)further improves that method by proposing fast algorithms to calculate the sig‐nificance of citation links.”
引文2:“The concept of main path analysis has since been used to map technological trajectories(Fon‐tana et al.,2009;Verspagen,2007).”
引文1僅引用了一條參考文獻(xiàn),參考文獻(xiàn)“Batagelj(2003)”為“獨(dú)立引用”;引文2同時(shí)引用了兩條參考文獻(xiàn),參考文獻(xiàn)“Fontana et al.,2009”和“Verspagen,2007”為“非獨(dú)立引用”。因此,文獻(xiàn)“Batagelj(2003)”的引用權(quán)重是1,文獻(xiàn)“Fon‐tana et al.,2009”和“Verspagen,2007”的引用權(quán)重是1/2。引用權(quán)重的取值范圍為0<w≤1。因此,引文在單篇文獻(xiàn)中的總體引文重要度R等于其在全文中的單次引文重要度之和,即
在使用分?jǐn)?shù)計(jì)數(shù)的情況下,L i是引文的位置權(quán)重,n是文獻(xiàn)全文內(nèi)的引用數(shù)量,w j是第j條引文在文獻(xiàn)中的引用權(quán)重,由上文可知,引文在一篇文獻(xiàn)全文中的引文重要度R是其在全文中參考文獻(xiàn)的對(duì)應(yīng)位置權(quán)重與對(duì)應(yīng)引用權(quán)重乘積之和。
在引文網(wǎng)絡(luò)中知識(shí)從被引節(jié)點(diǎn)流向施引節(jié)點(diǎn),節(jié)點(diǎn)之間的鏈接關(guān)系代表了知識(shí)流動(dòng)的方向,節(jié)點(diǎn)之間通過鏈接通道傳播知識(shí)。給定節(jié)點(diǎn)連接到終端節(jié)點(diǎn)的一系列鏈接稱為“搜索路徑”。在一個(gè)復(fù)雜的引文網(wǎng)絡(luò)中,一個(gè)給定節(jié)點(diǎn)可以有多個(gè)搜索路徑,但每個(gè)搜索路徑的意義可能不同。主路徑是在引文網(wǎng)絡(luò)所有搜索路徑中最重要的搜索路徑,代表著引文網(wǎng)絡(luò)中最重要的知識(shí)流動(dòng)的序列。構(gòu)造主路徑通常分為兩步。首先,采用某種遍歷計(jì)數(shù)方法作為衡量引文網(wǎng)絡(luò)鏈接顯著性的指標(biāo),將二元引文網(wǎng)絡(luò)將轉(zhuǎn)化為加權(quán)網(wǎng)絡(luò),每個(gè)鏈接的權(quán)重表示鏈接的重要性。其次,在遍歷計(jì)數(shù)后,采用某種路徑搜索算法來構(gòu)造主路徑[6]。采用遍歷計(jì)數(shù)作為引文網(wǎng)絡(luò)鏈接顯著性指標(biāo)的邏輯是,如果引用鏈接占據(jù)了大量知識(shí)流動(dòng)的路徑,那么它必須在知識(shí)傳播過程中具有一定的重要性。SPC算法是當(dāng)前主路徑分析中鏈接遍歷計(jì)數(shù)的經(jīng)典算法,它通過計(jì)算相鄰兩節(jié)點(diǎn)之間的鏈接被網(wǎng)絡(luò)中所有的路徑所遍歷的次數(shù),來衡量該鏈接在網(wǎng)絡(luò)中的重要性[59]。假設(shè)一個(gè)引文網(wǎng)絡(luò)N=(D,R)是由一組文檔D構(gòu)成的,這些文檔的關(guān)系由R表示,其中R?D×D,而(u,v)表示文檔v引用文檔u。如圖1a所示,引用網(wǎng)絡(luò)被其他節(jié)點(diǎn)引用而未引用其他節(jié)點(diǎn)的文檔,稱之為“源(source)”;引用其他節(jié)點(diǎn)而不被其他節(jié)點(diǎn)引用的文檔,稱之為“匯(sink)”;引用了其他節(jié)點(diǎn)并被其他節(jié)點(diǎn)引用的文檔,稱之為“中間文檔(intermediate)”。知識(shí)沿著引文網(wǎng)絡(luò)中的鏈接在文檔之間傳播流動(dòng)。
圖1 不同SPC值的主路徑計(jì)算方法
假設(shè)知識(shí)從文檔u傳遞到文檔v,根據(jù)Batagelj[45]對(duì)搜索路徑計(jì)數(shù)(SPC)的定義,鏈接(u,v)的遍歷計(jì)數(shù)是從源點(diǎn)到u的路徑數(shù)與從v到匯點(diǎn)的路徑數(shù)的乘積,計(jì)算方法為其中,
因此,圖1a中有A和B兩個(gè)源點(diǎn),以及H、I和J三個(gè)匯點(diǎn)。對(duì)于鏈接(D,G),從源點(diǎn)A、B到D有兩條路徑(A-D,B-D),因此,從G到匯點(diǎn)I、J有兩條路徑(G-I,G-J),因此,2;鏈接(D,G)到Wspc(u,v)=4。對(duì)于鏈接(A,C),因此其SPC值為3。
傳統(tǒng)的主路徑分析對(duì)所有引用鏈接都一視同仁,直接使用遍歷計(jì)數(shù)來搜索主路徑。但考慮引用鏈接的相關(guān)性時(shí),應(yīng)該將遍歷計(jì)數(shù)與引文重要度權(quán)重結(jié)合起來。因此,基于引文重要度的遍歷計(jì)數(shù)計(jì)算方法為
其中,R(u,v)是文獻(xiàn)u和v之間的引文重要度;Wspc(u,v)是鏈接u和v之間的搜索路徑計(jì)數(shù)。假設(shè)引用鏈接(D,G)、(G,I)的重要度為0.6,(D,F)的重要度為2,(C,I)的重要度為4,其余鏈接重要度為1,則調(diào)整后它們的鏈接遍歷重要性如圖1b所示。根據(jù)調(diào)整后的鏈接遍歷計(jì)數(shù)在引文網(wǎng)絡(luò)中搜索主要路徑。全局搜索算法強(qiáng)調(diào)總體重要性,選擇最大總體遍歷計(jì)數(shù)的路徑作為主路徑[48]。圖2展示了基于原始SPC值和利用引文重要度調(diào)節(jié)引文網(wǎng)絡(luò)SPC值后的引文網(wǎng)絡(luò)全局搜索算法的主要路徑。以圖2a為例,路徑A-D-G-I、A-D-G-J、B-D-G-I和B-D-G-J的SPC總值都為11,在所有潛在路徑中SPC總值最大。圖2a與圖2b主路徑的差異表明,考慮引文重要性會(huì)改變主路徑。因此,我們將所有信息轉(zhuǎn)化為引文網(wǎng)絡(luò),構(gòu)造了一個(gè)加權(quán)有向網(wǎng)絡(luò),其中文獻(xiàn)是節(jié)點(diǎn),引用頻次和引用位置被轉(zhuǎn)化為以相應(yīng)的“引文重要度”指標(biāo)作為權(quán)重的鏈接。從這一引文網(wǎng)絡(luò)出發(fā),運(yùn)用主路徑分析法探討了引文與施引文獻(xiàn)的重要性對(duì)構(gòu)造主路徑的影響。
圖2 不同SPC值調(diào)節(jié)后的主路徑
本文構(gòu)建了基于引文重要度指標(biāo)的主路徑分析方法,探討了Altmetrics的知識(shí)流動(dòng)路徑。隨著社交媒體的發(fā)展,傳統(tǒng)的學(xué)術(shù)評(píng)價(jià)方法不能全面有效反映出科學(xué)研究工作的影響力,因此2010年Alt‐metrics一經(jīng)提出便獲得了廣泛的關(guān)注[60]。Altmetrics通常被譯為“替代計(jì)量”或“補(bǔ)充計(jì)量”,它作為一種補(bǔ)充性指標(biāo)用于計(jì)量網(wǎng)絡(luò)環(huán)境下的學(xué)術(shù)影響力[61],因其可評(píng)價(jià)多種類型學(xué)術(shù)資源、開放性強(qiáng)和及時(shí)的特點(diǎn),許多學(xué)者討論了Altmetrics指標(biāo)的優(yōu)勢(shì)、缺陷和應(yīng)用價(jià)值,探究了其指標(biāo)的內(nèi)涵及其與引文指標(biāo)之間的相關(guān)性。在一定程度上,這些文獻(xiàn)圍繞Altmetrics形成了一個(gè)研究的主題領(lǐng)域,在這個(gè)研究領(lǐng)域中必然存在著相應(yīng)的知識(shí)流動(dòng)。因此本研究在Web of Science核心數(shù)據(jù)集中,以檢索詞=“Altmetric*”或“Alt-metric*”或“Alternative met‐ric*”在主題項(xiàng)中進(jìn)行檢索,檢索時(shí)間為1985年1月1日至2020年11月9日,得出檢索結(jié)果512條,共計(jì)21109條引文。
先將根據(jù)科研論文的IMRaD寫作結(jié)構(gòu)將文獻(xiàn)劃分為Introduction、Method、Results、Discussion這4個(gè)部分。其中262篇文獻(xiàn)能根據(jù)論文章節(jié)的標(biāo)題順利劃分為四段體,其他論文并不完全符合IMRaD寫作結(jié)構(gòu)。然后采用引用頻次分?jǐn)?shù)計(jì)數(shù)法計(jì)算每條引用內(nèi)容處相關(guān)引文的引用權(quán)重,并記錄引文出現(xiàn)的位置。在如圖3所示的引文文檔關(guān)系中,文檔D1、D2與引文C5的引文關(guān)系可表示為:D1:C5(1,L1);D1:C5(1/2,L3);D2:C5(1,L0)。其中,“:”表示施引關(guān)系;括號(hào)內(nèi)的值分別是引用權(quán)重與引用位置;文檔D1是可劃分為IMRaD結(jié)構(gòu)的文檔,文檔D2為非IM‐RaD結(jié)構(gòu)文檔;L1=Introduction位置,L2=Method位置,L3=Results位置,L4=Discussion位置,L0為非IMRaD結(jié)構(gòu)文獻(xiàn)的引文位置標(biāo)記。
圖3 文獻(xiàn)的引文分布
對(duì)512篇文獻(xiàn)的引文在全文中的引用強(qiáng)度進(jìn)行計(jì)算后,發(fā)現(xiàn)引文在全文中的引用權(quán)重的值分布在[0.06,18.33]?!?.06”表示在21109條引文數(shù)據(jù)中,某些引文在全文中僅提及一次,且為非獨(dú)立引用(引用權(quán)重為1/16);“18.33”表示某條引文在全文中提及多次,經(jīng)檢查發(fā)現(xiàn)該條引文在全文中共計(jì)出現(xiàn)22次,其中16次為獨(dú)立引用,6次為非獨(dú)立引用。表1為引用權(quán)重值域區(qū)間的分布情況。引用權(quán)重≤0.5的引文有7546條,占總體引文的35.75%,說明有近35.75%的引文在全文中僅出現(xiàn)一次,且為非獨(dú)立引用,這部分引文在施引文獻(xiàn)全文中沒有獨(dú)立的知識(shí)價(jià)值貢獻(xiàn);引用權(quán)重≤1的引文占總體的79.74%,即有近80%的引文在全文中僅獨(dú)立引用一次,或非獨(dú)立引用幾次;1<引用權(quán)重≤2的引文占總體的12.81%,引用權(quán)重>2的引文占總體的7.45%。表2為262篇符合IMRaD結(jié)構(gòu)文獻(xiàn)的引文分布情況,統(tǒng)計(jì)了其中文獻(xiàn)占比排名前六位期刊的引用位置平均分布情況,發(fā)現(xiàn)這些分布相對(duì)穩(wěn)定,大部分引用更多地集中在引言部分中,約83.27%,方法部分的引用相對(duì)少于結(jié)果和討論部分。整體引用在不同位置的數(shù)量分布為:Introduction部分>Dis‐cussion部分>Results部分>Method部分。雖然學(xué)者們認(rèn)為出現(xiàn)在方法、結(jié)果和討論部分的引文對(duì)施引文獻(xiàn)的價(jià)值比僅出現(xiàn)在簡介部分的引文更高,但對(duì)各部分出現(xiàn)引文的重要程度并無統(tǒng)一論斷。張琳等[62]在使用IMRaD結(jié)構(gòu)測量文獻(xiàn)的學(xué)科交叉度時(shí),采用熵值法計(jì)算出四個(gè)部分引文的權(quán)重。本研究對(duì)其參數(shù)進(jìn)行歸一化處理后得到各個(gè)位置的權(quán)重分別為:L1=1,L2=1.5,L3=1.35,L4=1.1;對(duì)不能劃分位置的引文位置權(quán)重L0賦值為1。
表1 基于全文的引文權(quán)重分布
表2 基于全文的引用位置分布
本文在構(gòu)造主路徑時(shí)計(jì)算了4種“遍歷計(jì)數(shù)”方法,作為衡量引文網(wǎng)絡(luò)鏈接重要性指標(biāo):①傳統(tǒng)搜索路徑鏈接計(jì)數(shù)(SPC);②基于引用頻次加權(quán)的搜索路徑鏈接計(jì)數(shù);③基于引用位置加權(quán)的搜索路徑鏈接計(jì)數(shù);④基于引文重要度的搜索路徑鏈接計(jì)數(shù)。接著為了展示基于引文重要度的加權(quán)調(diào)節(jié)對(duì)知識(shí)流動(dòng)主路徑產(chǎn)生的影響,分別采用全局(glob‐al)和關(guān)鍵主路徑(key-route)兩種路徑搜索算法來構(gòu)造主路徑。全局搜索算法構(gòu)造的主路徑使一個(gè)領(lǐng)域的主要發(fā)展路徑清晰可見,關(guān)鍵主路徑搜索算法有助于從不同的角度揭示許多重要的發(fā)展路徑[20]。根據(jù)已采集的數(shù)據(jù)集的特征,實(shí)驗(yàn)分為兩個(gè)數(shù)據(jù)集進(jìn)行。圖4是數(shù)據(jù)集1的512篇文獻(xiàn)構(gòu)造的主路徑,圖5是數(shù)據(jù)集2的262篇文獻(xiàn)構(gòu)造的主路徑。每張圖中所有的節(jié)點(diǎn)和鏈接為關(guān)鍵主路徑(keyroute)搜索算法構(gòu)造的主路徑,加粗鏈接是采用全局(global)搜索算法構(gòu)造的主路徑;箭頭指示知識(shí)流的方向。
主路徑分析作為一種定量分析方法,從給定的引文網(wǎng)絡(luò)中提取出重要路徑,并將其作為知識(shí)通過引文鏈接從被引文獻(xiàn)向施引文獻(xiàn)的傳播軌跡。從圖4a與圖5a可以看出,數(shù)據(jù)源的不同會(huì)直接影響主路徑分析結(jié)果。圖4的主路徑來自512篇文獻(xiàn),21109條引文構(gòu)造的32162條鏈接所形成的引文網(wǎng)絡(luò);圖5的主路徑來自262篇文獻(xiàn),10797條引文構(gòu)造的17564條鏈接所形成的引文網(wǎng)絡(luò)。數(shù)據(jù)集的不同會(huì)導(dǎo)致主路徑不同,如果缺失的文獻(xiàn)具有一定的重要性或是潛在的主要路徑文獻(xiàn),那么結(jié)果將受到很大影響。
圖4 數(shù)據(jù)集1不同SPC值調(diào)節(jié)后的主路徑
假設(shè)主路徑分析的目的是從能代表特定領(lǐng)域研究發(fā)展關(guān)鍵節(jié)點(diǎn)的目標(biāo)文獻(xiàn)數(shù)據(jù)集中檢索相關(guān)文獻(xiàn),那么可以使用3個(gè)指標(biāo)來檢查主路徑分析的性能:精確度(Precision)、召回率(Recall)和F1值(F1-Score)。在本研究中,檢索到的相關(guān)文獻(xiàn)是指同時(shí)存在于主要路徑和目標(biāo)文獻(xiàn)數(shù)據(jù)集中的文獻(xiàn),因此精確度是檢索到的相關(guān)文獻(xiàn)數(shù)量除以主路徑上的文獻(xiàn)總數(shù),召回率是檢索到的相關(guān)文獻(xiàn)數(shù)除以目標(biāo)文獻(xiàn)數(shù)據(jù)集中的文獻(xiàn)數(shù)。本研究篩選了一個(gè)包含98篇文獻(xiàn)的核心文獻(xiàn)數(shù)據(jù)集,其中512篇文獻(xiàn)集中包含98篇核心文獻(xiàn),262篇文獻(xiàn)集中包含70篇核心文獻(xiàn)。在圖4和圖5中,空心圓節(jié)點(diǎn)代表該文獻(xiàn)不在核心文獻(xiàn)數(shù)據(jù)集中,不是重要的發(fā)展節(jié)點(diǎn),實(shí)心圓節(jié)點(diǎn)代表該文獻(xiàn)在核心文獻(xiàn)數(shù)據(jù)集中。
圖5 數(shù)據(jù)集2不同SPC值調(diào)節(jié)后的主路徑
通過圖4a與圖4b,以及圖5a與圖5d的對(duì)比可以發(fā)現(xiàn),經(jīng)過引文重要性加權(quán)調(diào)節(jié)后構(gòu)造的主路徑與原始主路徑知識(shí)流動(dòng)的路徑和節(jié)點(diǎn)基本一致。通常只在源點(diǎn)、匯點(diǎn)和關(guān)鍵的分叉路徑處有差別,而路徑的主干相對(duì)穩(wěn)定;而且樣本數(shù)據(jù)量越大,路徑越穩(wěn)定。我們進(jìn)一步對(duì)各種引文重要度指標(biāo)加權(quán)調(diào)節(jié)構(gòu)成的關(guān)鍵主路徑和全局主路進(jìn)行分析,比較它們的精確度、召回率和F1值(表3),結(jié)果顯示,不同調(diào)整方法的主要路徑包含不同數(shù)量的核心文獻(xiàn)以及不同總量的節(jié)點(diǎn)文獻(xiàn)。通過分析表3可知,數(shù)據(jù)集1和數(shù)據(jù)集2的主路徑在經(jīng)過引用頻次加權(quán)調(diào)節(jié)后其精確度、召回率都有明顯提升,數(shù)據(jù)集1全局主路徑的精度由0.750提升至0.788,F(xiàn)1值由0.210增加至0.242;數(shù)據(jù)集2的關(guān)鍵主路徑精度由0.652提升至0.714,全局主路徑精度由0.769升至0.846。數(shù)據(jù)集2經(jīng)過引用位置加權(quán)調(diào)節(jié)后,雖然全局主路徑的精確度和召回率均不變,但在關(guān)鍵主路徑的精確度有所提升;而數(shù)據(jù)集2經(jīng)過綜合相關(guān)度加權(quán)調(diào)節(jié)后的關(guān)鍵主路徑和全局主路徑F1值均為本實(shí)驗(yàn)的最佳值,分別為0.348和0.265。實(shí)驗(yàn)結(jié)果表明,考慮引文重要性可以提升主路徑分析方法的性能。
表3 不同加權(quán)調(diào)節(jié)主路徑分析效果
傳統(tǒng)主路徑分析不考慮被引文獻(xiàn)對(duì)施引文獻(xiàn)的相對(duì)價(jià)值,將所有引文一視同仁,本文試圖通過計(jì)算引文重要度來解決這個(gè)問題。通過分析發(fā)現(xiàn),基于引文重要度的加權(quán)確實(shí)會(huì)對(duì)主路徑產(chǎn)生影響,但不會(huì)改變整個(gè)主要路徑。圖4b與圖4a相比,在節(jié)點(diǎn)(Copiello S(2020)SCIENTOMETRICS,V124)與節(jié)點(diǎn)(Repiso R(2019)SCIENTOMETRICS,V119)之間增加了兩個(gè)2020年的文獻(xiàn)節(jié)點(diǎn);而對(duì)比于圖5a,圖5c在2020年至2016年之間雖然丟失了一個(gè)2017年的文獻(xiàn)節(jié)點(diǎn),但增加了3個(gè)2018年的文獻(xiàn)節(jié)點(diǎn),這表明考慮引文重要度會(huì)增加主路徑節(jié)點(diǎn)與節(jié)點(diǎn)之間在時(shí)間上的連續(xù)性。通過引文重要度的加權(quán)調(diào)節(jié)能提升主路徑分析方法找到關(guān)鍵節(jié)點(diǎn)的能力,增加主路徑節(jié)點(diǎn)鏈接間的相關(guān)性。在全局主路徑上,圖4b比圖4a多兩個(gè)核心文獻(xiàn)節(jié)點(diǎn),圖5d比圖5a多一個(gè)核心文獻(xiàn)節(jié)點(diǎn);在關(guān)鍵主路徑上,圖4b比圖4a多兩個(gè)核心文獻(xiàn)節(jié)點(diǎn),圖5d比圖5a多兩個(gè)核心文獻(xiàn)節(jié)點(diǎn)。同時(shí),通過引文重要度的加權(quán)調(diào)節(jié)也能增加主路徑分析的鏈接溯源能力,加權(quán)調(diào)節(jié)后圖4b的源點(diǎn)修正為(Priem J(2010)MONDAY,V15),正是在2010年,Priem J提出“Altmetrics”這一概念。
通過圖5b、圖5c與圖5d的兩兩對(duì)比可以發(fā)現(xiàn),引文重要度加權(quán)調(diào)節(jié)與引用頻次加權(quán)調(diào)節(jié)的全局主路徑結(jié)果完全一致,關(guān)鍵主路徑只多一個(gè)文獻(xiàn)節(jié)點(diǎn),關(guān)鍵主路徑的F1值差值僅為0.19,區(qū)別不大。這表明在本研究中,基于引用頻次的加權(quán)調(diào)節(jié)在主路徑的構(gòu)成中起決定性作用,即基于全文引用頻次的加權(quán)方法比基于全文位置對(duì)加權(quán)方法更能區(qū)分引文對(duì)施引文獻(xiàn)的相對(duì)價(jià)值。
通過分析引用頻次與引文網(wǎng)絡(luò)中的鏈接關(guān)系發(fā)現(xiàn)(表4),在數(shù)據(jù)集1和數(shù)據(jù)集2中分別有4321和2276條引文對(duì)在數(shù)據(jù)集全文中的引用頻次≤0.33。刪除這些引文對(duì)后,數(shù)據(jù)集1和數(shù)據(jù)集2的引文網(wǎng)絡(luò)分別減少4181和1956條鏈接,即減少這20%的數(shù)據(jù)量,整體引文網(wǎng)絡(luò)的鏈接僅分別減少13%和11.14%。這表明絕大部分在全文中非獨(dú)立引用1次的文獻(xiàn),不僅在施引文獻(xiàn)中的知識(shí)貢獻(xiàn)低,且在整體的引文網(wǎng)絡(luò)的鏈接中也不具有顯著性。從這個(gè)角度來看,引文對(duì)施引文獻(xiàn)的價(jià)值貢獻(xiàn)隨著其在全文中提及頻率的增加而變得更加清晰,大多數(shù)非獨(dú)立且僅使用一次的參考文獻(xiàn)屬于敷衍性的引用,刪除這些節(jié)點(diǎn)并不影響主路徑的構(gòu)造。
表4 引用頻次與引文鏈接關(guān)系
為了克服傳統(tǒng)主路徑分析不考慮引文對(duì)施引文獻(xiàn)相對(duì)價(jià)值的問題,本文構(gòu)建了參考文獻(xiàn)的“引文重要度”指標(biāo)來衡量引文鏈接的重要性,對(duì)主路徑分析方法中的鏈接遍歷計(jì)數(shù)進(jìn)行加權(quán)調(diào)節(jié),改善主路徑分析方法在引文網(wǎng)絡(luò)中進(jìn)行知識(shí)流動(dòng)路徑分析的應(yīng)用效果。研究結(jié)果發(fā)現(xiàn),通過引文重要性的加權(quán)調(diào)節(jié)可以增加主路徑鏈接在時(shí)間上的連續(xù)性,提高主路徑分析方法的鏈接溯源能力,增加鏈接節(jié)點(diǎn)間的相關(guān)性,提升主路徑分析方法找到關(guān)鍵節(jié)點(diǎn)的能力。本文雖然通過引文重要度指標(biāo)來表示被引文獻(xiàn)對(duì)施引文獻(xiàn)的重要程度,并進(jìn)行了探索性研究,但實(shí)際學(xué)術(shù)文獻(xiàn)中的引用行為非常復(fù)雜,不同的引用動(dòng)機(jī)和引用語境在知識(shí)的擴(kuò)散、傳播、利用與創(chuàng)新中承擔(dān)著不同的作用,后續(xù)研究應(yīng)更加準(zhǔn)確地衡量不同引文語境和引文動(dòng)機(jī)對(duì)引文重要性的影響,更加客觀體現(xiàn)引文網(wǎng)絡(luò)中知識(shí)流的傳播、利用與創(chuàng)新等關(guān)系。