鄭碧麗 侯劍華
(中山大學(xué)信息管理學(xué)院,廣州,510006)
創(chuàng)新,是體現(xiàn)科學(xué)知識產(chǎn)出重要性和顛覆性的要素之一,在推動科學(xué)研究與技術(shù)研發(fā)過程中起著至關(guān)重要的作用。在科學(xué)學(xué)與知識管理的視角下,創(chuàng)新主要分為直接創(chuàng)造和結(jié)合已有知識再創(chuàng)造兩種路徑[1-2]。正如牛頓所說,“如果我看得更遠(yuǎn),那是因為我站在巨人的肩膀上”。在科學(xué)活動中,過去的研究為后續(xù)科學(xué)發(fā)展提供了理論框架、方法與算法、實證數(shù)據(jù)、支撐性的結(jié)論,因此,新的研究發(fā)現(xiàn)往往是基于現(xiàn)有知識基礎(chǔ)和實踐證據(jù),重構(gòu)研究框架、重塑理論、優(yōu)化方法與算法、進(jìn)一步驗證實驗結(jié)果[2]。1955年貝爾納在《科學(xué)研究的戰(zhàn)略》一文中指出:“科學(xué)中的總的發(fā)展模式還是相當(dāng)清楚的:這種模式與其說像樹,不如說像網(wǎng)。與課題或應(yīng)用直接相關(guān)的科學(xué)工作的內(nèi)容,可以比做網(wǎng)的網(wǎng)眼。各條線的交叉點是經(jīng)驗和思想集合的地方,是中心點,是一些新發(fā)現(xiàn),從這里產(chǎn)生各種各樣的應(yīng)用技術(shù)和科學(xué)學(xué)科”[3]。在正式交流體系中,科學(xué)的發(fā)展往往表現(xiàn)為科學(xué)文獻(xiàn)網(wǎng)絡(luò)中知識的演化與發(fā)展。科學(xué)文獻(xiàn)引證不同理論、不同領(lǐng)域、不同學(xué)科的參考文獻(xiàn),形成復(fù)雜的科學(xué)引文網(wǎng)絡(luò),文獻(xiàn)引證關(guān)系表征繼承與創(chuàng)新、基礎(chǔ)與前沿的關(guān)系[4]。在引文網(wǎng)絡(luò)中,來自不同學(xué)科、不同研究主題的知識融合、關(guān)聯(lián)、分化[5],從而激發(fā)來自不同科學(xué)領(lǐng)域的學(xué)者合作,力求發(fā)揮各學(xué)科的優(yōu)勢。這些來自不同領(lǐng)域的知識的結(jié)合可以看作是知識跨越邊界(boundary-spanning)的融合、重組和再創(chuàng)造的過程。目前,在科學(xué)學(xué)、科學(xué)計量學(xué)等領(lǐng)域,已有不少研究表明邊界跨越對論文質(zhì)量、引文量有積極的影響[2,6-8]。引文量是反映論文在學(xué)術(shù)共同體傳播、擴(kuò)散效果的重要指標(biāo),除了邊界跨越之外,還有文章相關(guān)、作者相關(guān)、參考文獻(xiàn)相關(guān)、引文相關(guān)的指標(biāo)。目前,有相當(dāng)數(shù)量的研究從定量的實證或質(zhì)性的內(nèi)容分析兩個角度探討引文及其影響因素的相關(guān)關(guān)系[9-11]。
現(xiàn)有研究雖然解析了與引文量相關(guān)的影響因素,也反映出邊界跨域?qū)σ臄?shù)量的積極影響,但是仍然存在進(jìn)一步研究的空間:(1)邊界跨越測度方法大多數(shù)是基于期刊耦合、學(xué)科耦合的方法測度論文的邊界跨越效應(yīng),難以從知識內(nèi)容的角度,以細(xì)粒度分析的方法,反映知識的重組、融合、流動;(2)引文量及其影響因素的相關(guān)性并不能完全揭示知識擴(kuò)散的機(jī)理,相關(guān)性并不意味著因果關(guān)系。一方面,相關(guān)性系數(shù)是對稱的,而因果關(guān)系則不然。例如,研究表明知識跨學(xué)科領(lǐng)域的融合與引文數(shù)量正相關(guān),則引文數(shù)量與邊界跨越程度也呈正相關(guān)的關(guān)系,但是我們并不能得出引文數(shù)量是知識跨邊界重組的原因。另一方面,因果關(guān)系并不是相關(guān)性的唯一解釋。例如,關(guān)鍵詞的數(shù)量與引文數(shù)量呈現(xiàn)正相關(guān)的關(guān)系,但關(guān)鍵詞數(shù)量是否可以作為解釋引文量的原因,還需要考慮其他因素,如是否被數(shù)據(jù)庫收錄、期刊影響因子、文章長度等。因此,基于已有研究成果,本文主要圍繞兩個研究問題分析邊界跨越對引文量的影響:
(1)如何測度論文的邊界跨越程度?
(2)論文邊界跨越程度與引文量之間是否存在因果關(guān)系?
為了解決上述兩個問題,本文首先界定邊界跨越論文的概念及測度方法,通過文獻(xiàn)調(diào)研,選擇影響引文量的潛在影響因素,采用傾向值匹配的方法討論邊界跨越對引文量的影響,以加深學(xué)界對引文擴(kuò)散機(jī)制和成因的理解。
為了解析邊界跨越論文對其被引量的影響,本部分首先闡釋邊界跨越論文的內(nèi)涵。其次,概述引文影響因素,為后續(xù)因果推斷的實驗提供必要的分析依據(jù)。最后,介紹目前關(guān)于邊界跨越效應(yīng)對引文量影響的研究,總結(jié)現(xiàn)有研究的局限性。
許多網(wǎng)絡(luò)呈現(xiàn)出高度組織化的結(jié)構(gòu)[12]。在一個網(wǎng)絡(luò)中,可以通過不同的聚類算法(如譜聚類、K均值聚類、基于密度的聚類算法、模糊C均值聚類算法)將網(wǎng)絡(luò)中具有相同屬性的節(jié)點劃分為不同的社區(qū)或模塊,每個社區(qū)將網(wǎng)絡(luò)拆解成了相互不重疊的節(jié)點組合[6]。在網(wǎng)絡(luò)中,節(jié)點往往是有意義的實體,網(wǎng)絡(luò)中的連接則是節(jié)點與節(jié)點之間的鏈接或邊。節(jié)點所承載的信息因網(wǎng)絡(luò)而異,例如,合著網(wǎng)絡(luò)中的作者、共被引網(wǎng)絡(luò)中的參考文獻(xiàn)、共現(xiàn)網(wǎng)絡(luò)中的關(guān)鍵詞等。在合著網(wǎng)絡(luò)、參考文獻(xiàn)共被引網(wǎng)絡(luò)、關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)等各種網(wǎng)絡(luò)中,參考文獻(xiàn)共被引網(wǎng)絡(luò)包含更為具體、廣泛的信息。在合著網(wǎng)絡(luò)或者期刊共被引網(wǎng)絡(luò)中,同一作者或同一期刊的文獻(xiàn)可能會被納入到同一節(jié)點當(dāng)中[6],導(dǎo)致部分文獻(xiàn)信息在節(jié)點歸并的過程中丟失。然而,參考文獻(xiàn)共被引網(wǎng)絡(luò)能夠更好地反映知識發(fā)展的足跡。以往的研究為后續(xù)的研究提供概念基礎(chǔ)、研究框架,被閱讀、被借鑒、被引用,在科學(xué)交流系統(tǒng)這一抽象的知識空間中凝固成足跡[13-14]。通過共被引網(wǎng)絡(luò),我們可以窺見知識、研究主題甚至是學(xué)科的穩(wěn)定與變動、融合與演化。因此,大多數(shù)的研究是以參考文獻(xiàn)共被引網(wǎng)絡(luò)為基準(zhǔn)網(wǎng)絡(luò),識別顛覆性、重要性論文,探討引文結(jié)構(gòu)、學(xué)科發(fā)展[15-17]。
鑒于參考文獻(xiàn)共被引網(wǎng)絡(luò)(Co-citation Network of References,CNR)的特征,我們以該網(wǎng)絡(luò)作為基準(zhǔn)網(wǎng)絡(luò)探討邊界跨越文獻(xiàn)或知識的內(nèi)涵與測度方法。在基準(zhǔn)網(wǎng)絡(luò)中,如果一篇文獻(xiàn)在不同主題間建立新的鏈接,則將該文獻(xiàn)定義為邊界跨越文獻(xiàn),承載著邊界跨越的知識[6]。即,在一個由多個主題聚類的參考文獻(xiàn)共被引網(wǎng)絡(luò)中,一篇論文進(jìn)入到該網(wǎng)絡(luò)時,所添加的鏈接可能在某主題聚類內(nèi),也可能跨越若干個主題聚類(如圖1 所示)。本文將連接兩個不同主題聚類的文獻(xiàn)稱為邊界跨越論文(如圖1 中的文獻(xiàn)1),將連接同一主題聚類的文獻(xiàn)稱為非邊界跨越論文(如圖1 中的文獻(xiàn)2)。
圖1 邊界跨越論文示意圖Fig.1 The Illustration of Boundary-spanning Paper
關(guān)于邊界跨越論文,多數(shù)研究將其視為論文“不常見”的組合(atypical combinations)或者是“新組合”(novel combinations)。例如,Uzzi[2]等將知識的重組操作化為論文參考文獻(xiàn)在期刊層面的不常見組合,這種組合通常也被稱為文獻(xiàn)的新穎性。而跨學(xué)科的學(xué)者認(rèn)為,邊界跨越的論文是涵蓋兩個及以上學(xué)科的論文[18-20]。從邊界跨越的理論上看,無論是期刊層面還是學(xué)科層面的知識重組都是知識跨越邊界重組、傳播、擴(kuò)散的現(xiàn)象。然而,由于期刊和學(xué)科都承載大量的研究領(lǐng)域和主題,這兩個層面對知識組合的分析均難以深入解析知識邊界跨越的細(xì)粒度特征。
目前學(xué)術(shù)界關(guān)于邊界跨越是否對引用量產(chǎn)生影響仍然存在分歧[1,21]。一些學(xué)者認(rèn)為,來自不同領(lǐng)域的學(xué)者合作,可以促進(jìn)思維碰撞,彌合不同的知識體系,充分發(fā)揮各學(xué)科的優(yōu)勢,其成果可能獲得更高的引用量[22-24]。例如,Steele和Stier[25]利用布里淵多樣性指數(shù)量化作者、研究主題和引文文獻(xiàn)的學(xué)科交叉性,基于引文分析和OLS的方法,揭示跨學(xué)科的研究對引文量有積極的作用。然而,其他研究表明,邊界跨越的文獻(xiàn)對其引用沒有影響,甚至對某些學(xué)科產(chǎn)生負(fù)面的影響[26-27]。新的知識組合會激發(fā)新想法,形成高創(chuàng)新性的成果,但也導(dǎo)致了較高的不確定性,并且需要較長的時間才能在學(xué)術(shù)共同體中得到認(rèn)可[28-29]。
除了邊界跨越之外,引文量還受到其他因素的影響。Tahamtan[30]等將28個因素分為三大類:論文相關(guān)、期刊相關(guān)、作者相關(guān)。Xie[11]等認(rèn)為,累積引文量還受到文獻(xiàn)早期被引情況的影響,并結(jié)合WoS、CNKI、ORCID的數(shù)據(jù),將66個要素分為論文相關(guān)、作者相關(guān)、參考文獻(xiàn)相關(guān)、引文相關(guān)四個方面。
2.3.1 論文相關(guān)的因素
大量的研究表明,篇幅較長的論文(具體以文獻(xiàn)的頁數(shù)進(jìn)行計算)會有更高的引用量[31-33]。此外,結(jié)構(gòu)化摘要、圖表與公式、開放存取、數(shù)據(jù)庫收錄情況、關(guān)鍵詞數(shù)量、摘要長度與引文量呈現(xiàn)正相關(guān)的關(guān)系[34-35]。然而,標(biāo)題的長度對引用量沒有影響甚至是負(fù)面的影響[35-36]。除了論文文本屬性之外,文章的質(zhì)量、創(chuàng)新度、關(guān)注度、研究主題等都是影響引文量的重要因素,文獻(xiàn)越有吸引力、質(zhì)量越高,其獲得引用的次數(shù)越多[37-39]。
2.3.2 作者相關(guān)的因素
一篇論文的影響力與合作關(guān)系、合作國際化程度、作者聲譽(yù)等要素相關(guān)。在交叉學(xué)科領(lǐng)域,一篇論文的作者越多,作者多樣性越高,其被引用的可能性就越大[40-41]。作者學(xué)歷、學(xué)術(shù)生涯、作者h(yuǎn)指數(shù)、教育背景等與引用量呈正相關(guān)關(guān)系[11]。另外,作者的性別、生產(chǎn)力、頭銜、隸屬機(jī)構(gòu)等也與引文量有關(guān)[41-43]。
2.3.3 參考文獻(xiàn)相關(guān)的因素
參考文獻(xiàn)的數(shù)量、影響力和多樣性是影響引用量的重要因素[44-45]。參考文獻(xiàn)平均“年齡”較低的文獻(xiàn)比引用“舊文獻(xiàn)”的論文更容易被引用[46]。此外,會議論文、參考文獻(xiàn)易獲取性、學(xué)位論文與文獻(xiàn)的被引量相關(guān)性較弱,而外文參考文獻(xiàn)的占比與引文量呈正相關(guān)的關(guān)系,但相關(guān)性系數(shù)較低[11]。
2.3.4 引文相關(guān)的因素
論文自發(fā)表后獲得的初始引用量反映學(xué)術(shù)界對論文的早期反饋,這對論文的累積引文量有重要的影響[47]。因此,論文在初期獲得的引用量可以預(yù)測其未來的科學(xué)影響力[45,48]。對于“睡美人文獻(xiàn)”,論文價值難以通過初期引用量表征,但大多數(shù)的研究還是基于論文發(fā)表后第一年、第二年以及第五年的累積引文量作為其早期學(xué)術(shù)表現(xiàn)的評估指標(biāo)[49]。
綜上,目前關(guān)于邊界跨越對引文量的影響主要存在幾點不足。(1)從期刊、學(xué)科等知識單元的角度,難以深入挖掘論文的邊界跨越程度對引文擴(kuò)散的影響。(2)大量的研究從文獻(xiàn)、期刊、參考文獻(xiàn)等角度分析各個要素與引文的關(guān)系。然而,鮮有文獻(xiàn)從論文研究主題的邊界跨越角度探討其對引文量的影響,并且論文的邊界跨越程度越高,是否意味著更高的引文量仍有待進(jìn)一步的探索。(3)以往研究主要通過相關(guān)性的分析或者回歸方法探討邊界跨越特征與引文數(shù)量的關(guān)系。這些方法揭示邊界跨越對引文量的正向或負(fù)向的影響,但無法揭示導(dǎo)致引文數(shù)量的成因及機(jī)理。
有鑒于此,本研究利用傾向值得分匹配(PSM)的方法,基于參考文獻(xiàn)共被引網(wǎng)絡(luò),以論文邊界跨越程度為視角,闡釋邊界跨越特征與引文量的因果關(guān)系。本文提出假設(shè):論文的邊界跨越特征對其引文量有積極的作用,且邊界跨越程度越大,被引量越高。
本研究我們選取科學(xué)計量學(xué)、信息計量學(xué)領(lǐng)域的五本期刊[50],包括Scientometrics、Journal of Informetrics、Journal of the Association for Information Science and Technology(2014-2015)、Journal of Information Science、Information Processingand Management作為數(shù)據(jù)來源。為了使每篇論文有至少五年引文窗口,本文選取2011-2015年期間共2,860篇論文作為目標(biāo)文獻(xiàn)集(dataset S)。本文從Scopus中下載目標(biāo)文件集所有論文的文獻(xiàn)記錄,包括如標(biāo)題、摘要、作者、關(guān)鍵詞、論文長度、來源期刊、來源期刊的影響因子、文獻(xiàn)的總被引量。其次,我們從Dimensions數(shù)據(jù)庫中爬取目標(biāo)文獻(xiàn)的參考文獻(xiàn)和施引文獻(xiàn)的記錄,包括DOI、標(biāo)題、關(guān)鍵詞、摘要等信息。本文將參考文獻(xiàn)集命名為數(shù)據(jù)集R(dataset R)和數(shù)據(jù)集C(dataset C)(表1)。
表1 研究數(shù)據(jù)基本信息Table 1 Basic Information of Research Data
3.2.1 自變量:論文的邊界跨越程度
陳超美教授[6]提出引文網(wǎng)絡(luò)結(jié)構(gòu)變換(Structural VariationAnalysis,SVA)的方法,通過對目標(biāo)文獻(xiàn)進(jìn)行分析,測度其對現(xiàn)有知識空間的邊界跨越連接。SVA基于現(xiàn)有科學(xué)知識結(jié)構(gòu)與新發(fā)表論文中新思想之間相互作用的過程,通過測度論文改變現(xiàn)有知識結(jié)構(gòu)的能力,評價論文的影響力。SVA基于三個網(wǎng)絡(luò)指標(biāo):模塊度變化率(modularitychangerate,ΔM)、聚類連接(clusterlink)、中心性散度(centralitydivergence)識別文獻(xiàn)改變知識網(wǎng)絡(luò)結(jié)構(gòu)的能力。其中,網(wǎng)絡(luò)的模塊度是衡量網(wǎng)絡(luò)整體結(jié)構(gòu)的指標(biāo),數(shù)值范圍在[-1,1]之間。模塊度變化率是測度目標(biāo)文獻(xiàn)在參考文獻(xiàn)的基準(zhǔn)網(wǎng)絡(luò)中引起的相對網(wǎng)絡(luò)結(jié)構(gòu)變化。目標(biāo)文獻(xiàn)可能在聚類之間或聚類內(nèi)部添加新的連接,導(dǎo)致網(wǎng)絡(luò)模塊度增加或減少。例如,一篇文獻(xiàn)綜述或一篇具有“不常見”知識組合的文獻(xiàn)往往涉及多個聚類,在基準(zhǔn)網(wǎng)絡(luò)中添加邊界跨越連接,導(dǎo)致知識空間的顯著變化。聚類連接反映隨著目標(biāo)文獻(xiàn)進(jìn)入,聚類間產(chǎn)生新的連接,使基準(zhǔn)網(wǎng)絡(luò)的整體結(jié)構(gòu)發(fā)生改變。中心性散度是根據(jù)目標(biāo)文獻(xiàn)進(jìn)入知識空間后,網(wǎng)絡(luò)中節(jié)點中介中心性分布的分散程度來評估文獻(xiàn)改變網(wǎng)絡(luò)的能力。后兩個指標(biāo)直接反映了知識網(wǎng)絡(luò)的節(jié)點屬性變化。
本文選擇ΔM指標(biāo)來測度論文的邊界跨越程度,原因有二。(1)本研究的目的并不是為了識別哪些是邊界跨越的論文,以及這些邊界跨越論文如何改變節(jié)點的中心性,我們關(guān)注的是具有邊界跨越特征的論文在既定網(wǎng)絡(luò)中引起網(wǎng)絡(luò)結(jié)構(gòu)變化的程度。也就是說,本研究的目的在于明確一篇具有邊界跨越特征的文獻(xiàn)是如何改變知識網(wǎng)絡(luò)的,而不僅是關(guān)注它是否為邊界跨越論文。(2)此外,在筆者前期的研究工作中[51],通過模塊度變化率(MCR)測度LIS領(lǐng)域中具有邊界跨越特征的作者,揭示了MCR與高被引論文、高影響力作者具有較強(qiáng)的相關(guān)性,反映MCR在預(yù)測被引量方面有一定的適用性,為這篇論文關(guān)于邊界跨越論文與被引量的關(guān)系研究提供實證依據(jù)。
具體計算步驟如下[52]:(a)根據(jù)Dataset S,通過CiteSpace信息可視化軟件系統(tǒng)逐年繪制參考文獻(xiàn)共被引網(wǎng)絡(luò);(b)通過Threshold Interpolation(c,cc,ccv)①Threshold Interpolation 是閾值插值,其中c 是被引頻次,cc 是兩篇文獻(xiàn)的共被引頻次,ccv 是兩篇文獻(xiàn)的共被引系數(shù)的方法,按照(2,2,20)、(4,3,20)、(3,3,20)篩選共被引網(wǎng)絡(luò)中的參考文獻(xiàn)節(jié)點;(c)采用LLR②LLR 是Likelihoodratiotest(對數(shù)極大似然率),是CiteSpace 中主題聚類分析方法的一種。的算法,根據(jù)聚類內(nèi)的文獻(xiàn)題名、摘要、關(guān)鍵詞析出聚類名;(d)計算每篇論文的ΔM值,并以此作為因果推斷的自變量。樣本中ΔM呈冪律分布的特征(圖2),ΔM數(shù)值在(0.5]之間的論文約占所有樣本的98.6%??紤]到樣本中ΔM差異較大,若直接按照其分布特征進(jìn)行實驗組與控制組的劃分,在后續(xù)的傾向值匹配過程中容易導(dǎo)致實驗組中的樣本因沒有相同或相近傾向值而匹配失敗及樣本丟失。因此,為了使實驗組、控制組均有足量的樣本進(jìn)行高質(zhì)量的匹配,本研究根據(jù)樣本均值(均值為0.45),將ΔM大于均值的樣本劃分為實驗組,反之為控制組,進(jìn)而探討邊界跨越程度大于均值的論文較之小于均值的論文,在被引量方面的凈效應(yīng)。
圖2 ΔM 分布情況Fig.2 The Distribution of ΔM
3.2.2 因變量:論文的引用量
近年來,雖然以引文數(shù)量作為評估指標(biāo)存在較大的爭議[53],但論文的引用量仍然是評估學(xué)術(shù)界對文獻(xiàn)價值、研究水平、學(xué)者評價的重要參考來源[13]。因此,大量的研究依舊以引文數(shù)量作為學(xué)術(shù)影響力的數(shù)據(jù)基礎(chǔ)[54-56]?;诖?,本文以目標(biāo)文獻(xiàn)自發(fā)表后至2020年12月31日在Dimensions數(shù)據(jù)庫中獲得的被引量作為因果推斷的因變量。
3.2.3 控制變量
為了提高因果推斷過程的有效性,本文基于文獻(xiàn)綜述部分提及的可能影響引文數(shù)量的要素作為控制變量。由于諸多數(shù)據(jù)需要手動預(yù)處理,考慮到數(shù)據(jù)的易獲取性,本文根據(jù)以下思路選擇控制變量:(a)現(xiàn)有研究已驗證與引文數(shù)量的相關(guān)性;(b)在Scopus與Dimensions數(shù)據(jù)庫可獲取。本研究選取與文獻(xiàn)、作者相關(guān)的10個變量(表2)作為控制變量。
表2 因果推斷變量說明Table 2 Description of Causal Inferential Variables
在社會科學(xué)的研究中,混淆變量③混淆變量(confoundingvariable)是指與自變量與因變量均相關(guān)的變量,可能會使自變量和因變量之間產(chǎn)生虛假的相關(guān)關(guān)系。和選擇性偏誤④選擇性偏誤(selectionbias),是指在研究過程中因樣本選擇的非隨機(jī)性而導(dǎo)致得到的結(jié)論存在偏差。會對因果推斷結(jié)果帶來影響。一方面,在實際研究過程中,自變量在研究對象之間是非隨機(jī)分配的,這可能導(dǎo)致自變量對于因變量的凈效應(yīng)難以獲得。另一方面,多元線性回歸的回歸系數(shù)由于受到混淆變量的影響,往往會產(chǎn)生“選擇性偏誤”的問題。傾向值匹配作為一種相對新興、可靠的因果推斷方法,被廣泛應(yīng)用在社會科學(xué)研究中[57,58]。傾向值計算將多維混淆變量整合為一個降維后的分?jǐn)?shù)(即傾向值),從而均衡實驗組與對照組之間混淆變量的分布。將非隨機(jī)化實驗中的混淆變量進(jìn)行類似隨機(jī)化的均衡處理,在一定程度上可以降低選擇性偏誤,保證因果推斷的可靠性。傾向值匹配的邏輯是從對照組中選出與實驗組某一個或多個傾向值相同或相近的樣本進(jìn)行配對,常用匹配方法是近鄰匹配、卡尺匹配等。以本研究中邊界跨越程度對被引量的影響為例,傾向值匹配就是在考慮多個混淆變量之后,將高邊界跨越論文與低邊界跨越論文進(jìn)行配對,并確保他們的傾向值相同或相近。在控制多個混淆變量的情況下,高邊界跨越論文組和低邊界跨越論文組的被引量差異只能歸因于其邊界跨越的程度,由此降低了選擇性偏誤。具體地,本研究通過傾向值匹配的方法,計算目標(biāo)文獻(xiàn)的傾向值,估計目標(biāo)文獻(xiàn)接受干預(yù)的概率,將ΔM值大于0.45的目標(biāo)文獻(xiàn)設(shè)為實驗組(treatment=1),將小于0.45的目標(biāo)文獻(xiàn)設(shè)為控制組(treatment=0),在此基礎(chǔ)上考慮邊界跨越程度對引文量的影響,得出邊界跨越對引文量的凈效應(yīng)。本研究涉及的干預(yù)變量為邊界跨越的程度(二分變量),結(jié)果變量為引文量(離散型變量),將出版時間、關(guān)鍵詞數(shù)量、摘要長度、來源期刊影響因子、標(biāo)題長度、文章長度、作者數(shù)量、第一作者發(fā)文量、第一作者被引量、第一作者h(yuǎn)指數(shù)作為控制變量。
為了確保匹配結(jié)果在實驗組和控制組之間是平衡的,即用于匹配的所有變量在兩組之間沒有顯著差異,本研究測試一對一近鄰匹配、一對四近鄰匹配、一對四卡尺匹配、一對四半徑匹配、核匹配、局部線性匹配六種方法的平衡性及共同區(qū)間。匹配后,大多數(shù)觀測值均在共同取值范圍內(nèi)(on support),因此在進(jìn)行傾向得分匹配時僅損失少量樣本。
圖3、表3顯示所有變量的標(biāo)準(zhǔn)化偏差在匹配后縮小,并且所有變量的標(biāo)準(zhǔn)化偏差絕對值小于10%,對比匹配前的結(jié)果,所有變量的標(biāo)準(zhǔn)化偏差均大幅縮小。除了一對四半徑匹配之外,其他匹配結(jié)果也有相似的平衡性檢驗結(jié)果。根據(jù)六種方法匹配后,實驗組與控制組文獻(xiàn)的10個混淆變量值分布均衡,說明這六種匹配方法在很大程度上改善了樣本數(shù)據(jù)的內(nèi)生性問題。
圖3 各變量標(biāo)準(zhǔn)化偏差圖Fig.3 Standardized Deviation for Each Variable
表3 一對四半徑匹配平衡性檢驗Table 3 One to Four Radius Matching Balance Check
本研究通過近鄰匹配、卡尺匹配、半徑匹配、核匹配、局部線性匹配的方法對所有目標(biāo)文獻(xiàn)進(jìn)行匹配。其中,在卡尺匹配中,傾向得分的標(biāo)準(zhǔn)差為0.15,然后乘0.25,可知0.25σ=0.037≈0.04。為了使匹配對象得分更為相近,本文將卡尺范圍定為0.03,這意味著對傾向得分相差3%的觀測值進(jìn)行一對四匹配。
表4為基于傾向值匹配法所得到的實驗組平均處理效應(yīng)(ATT)以及使用Bootstrap方法計算的標(biāo)準(zhǔn)誤。六種匹配方法所得實驗組的平均處理效應(yīng)基本相近,ATT值介于9-12之間,并通過了置信度為99%的顯著性水平檢驗。ATT是文獻(xiàn)在干預(yù)狀態(tài)下的平均干預(yù)效應(yīng),也就是在控制其他匹配變量不變的情況下,文獻(xiàn)在控制組和實驗組內(nèi)因變量的變化。結(jié)果表明,對于邊界跨越程度高的文獻(xiàn)來說,其獲得的引文數(shù)量比程度低的文獻(xiàn)普遍提高約9次。也就是說,在其他匹配變量一致的情況下,控制組(邊界跨越程度低于平均值)與實驗組(邊界跨越程度高于平均值)的文獻(xiàn)所引起的引文量差異為9次左右。這也證實了我們的研究假設(shè):論文的邊界跨越特征對其引文量有積極的作用,且邊界跨越程度越大,被引量越高。
表4 邊界跨越程度對引文量的處理效應(yīng)Table 4 Treatment Effects of the Degree of Boundary-spanning on Citation Counts
對于邊界跨越程度對引文量的作用,本研究做了進(jìn)一步的分析。首先,從文獻(xiàn)類型來看,邊界跨越程度高的文獻(xiàn)包括綜述性文獻(xiàn)。綜述類觸及多個學(xué)科主題,融合當(dāng)下研究熱點和難點,對科學(xué)發(fā)展起到導(dǎo)航的作用,因此這類文獻(xiàn)不僅邊界跨越程度高,被引量也相對較高。例如,邊界跨越程度最高的文獻(xiàn)The diffusion of H-related literature,分析了h指數(shù)產(chǎn)生、方法研究的分化以及在各領(lǐng)域的應(yīng)用等方面,涉及到信息計量學(xué)與科學(xué)計量學(xué)和研究評估領(lǐng)域、信息計量學(xué)領(lǐng)域中的h指數(shù)相關(guān)問題及應(yīng)用、h指數(shù)方法的應(yīng)用和h指數(shù)理論研究四個方面。
其次,從文獻(xiàn)內(nèi)容來看,邊界跨越程度高的文獻(xiàn)也包括理論與方法創(chuàng)新、方法完善類的文獻(xiàn)。這類文獻(xiàn)基于現(xiàn)有的理論與方法,提供更完善的研究框架或方法。例如,A further step forward in measuring journals'scientific prestige: The SJR2 indicator提出一種新的期刊評價指標(biāo)——SJR2,不僅考慮了施引期刊的聲譽(yù),還通過兩個期刊共引分布向量之間的余弦判斷兩本期刊的主題相近度。
傾向值匹配方法如果存在遺漏變量,可能會帶來“隱藏偏差”的問題。為了解決這一問題,使用Rosenbaum Bounds方法檢驗PSM對隱藏偏差的敏感性。Γ系數(shù)越接近1,研究結(jié)果對隱藏偏差越敏感。Γ系數(shù)越大(通常為2),研究結(jié)果對隱藏偏差越不敏感。在表5中,緊鄰匹配、半徑匹配、核匹配、卡尺匹配、局部線性匹配方法的Γ系數(shù)在大于2時,才在5%的置信水平上顯著。因此,本研究根據(jù)已有的混淆變量進(jìn)行的因果推斷結(jié)果是穩(wěn)健的。
表5 Rosenbaum Bounds 敏感性分析Table 5 Sensitivity Analysis by Rosenbaum Bounds
知識的重組與再創(chuàng)造是對現(xiàn)有知識結(jié)構(gòu)改變的過程,是知識分化、跨越原有學(xué)科主題重新融合的過程,也是跨學(xué)科激發(fā)創(chuàng)新、促進(jìn)合作的重要體現(xiàn)。本研究基于邊界跨越的理論與傾向值匹配方法,從實證的角度分析邊界跨越論文對引文量的影響。研究表明,邊界跨越的程度帶來引文量的差異化結(jié)果。第一,論文是否呈現(xiàn)邊界跨越特征,影響其在學(xué)術(shù)共同體的擴(kuò)散效果;第二,高度跨越邊界的論文比程度低的論文,更能吸引后續(xù)研究的引用。
上述研究結(jié)論對跨學(xué)科知識演化及科學(xué)合作有一定的參考價值。一方面,知識的邊界跨越促進(jìn)知識的擴(kuò)散。邊界跨越的知識由于涉及多個知識單元、研究主題,往往越容易給后續(xù)的研究提供參考。另外,由于“新組合”的知識具有一定的創(chuàng)新度,因此“新組合”的知識在一定程度上可以變革知識結(jié)構(gòu),促進(jìn)知識、學(xué)科的演化與發(fā)展[58]。另一方面,對科研人員來說,隨著學(xué)科發(fā)展逐漸細(xì)化,一個學(xué)者難以同時掌握多個領(lǐng)域的知識體系,通過合作的方式促進(jìn)學(xué)科之間的知識流動與交融[59-61],既能充分發(fā)揮學(xué)科優(yōu)勢,又能提高成果的影響力。
本文的研究還存在變量獲取與分析方法的局限性。首先,受限于數(shù)據(jù)的易獲取性,本文只考慮論文相關(guān)及作者相關(guān)的混淆變量。因此在后續(xù)的研究中,需要補(bǔ)充其它變量,如參考文獻(xiàn)、初期引文量相關(guān)的變量。其次,傾向值匹配方法亦存在其局限性。PSM通過匹配的方式減少對多元線性回歸等函數(shù)形式的依賴,并未從根本上解決由選擇偏差或遺漏變量所導(dǎo)致的內(nèi)生性問題,并且需要比較大的樣本容量才能得到高質(zhì)量的匹配結(jié)果[62]。
作者貢獻(xiàn)說明
鄭碧麗:設(shè)計研究方案,數(shù)據(jù)收集與分析,論文撰寫與修改;
侯劍華:確定選題,提出研究思路,修改論文。
支撐數(shù)據(jù)
支撐數(shù)據(jù)由作者自存儲,E-mail:zhengbli@mail2.sysu.edu.cn。
1. 鄭碧麗. 2011-2015data.rar.論文題錄數(shù)據(jù).
2. 鄭碧麗. finaldata.csv. 變量數(shù)據(jù).