莫雪盈 盧 龍
(武漢大學信息管理學院,武漢,430072)
知識在促進人類社會生產(chǎn)力發(fā)展的過程中起到了重要作用,是當今時代重要的戰(zhàn)略資源。但隨著大數(shù)據(jù)和計算技術的發(fā)展,快速增長的信息量給情報組織機構帶來了嚴峻的挑戰(zhàn)。而知識融合為其高效的知識組織和利用、開展高質(zhì)量的知識服務提供了一種良好的解決方案[1-3]。知識融合的概念由數(shù)據(jù)融合和信息融合演化而來,現(xiàn)今仍沒有統(tǒng)一的定義。知識融合通常指通過對分布式數(shù)據(jù)庫和知識庫中的知識進行轉換、集成和融合,并對知識對象的結構和內(nèi)涵進行優(yōu)化,從而產(chǎn)生新知識,提供基于新知識的服務。通常表現(xiàn)為異構數(shù)據(jù)的整合、知識本體的對齊、知識概念的映射、跨語言、跨學科知識融合等[4]。
對于學術論文而言,知識融合的過程便是科研工作者查閱大量資料,從眾多文章中搜索知識,抽取可用知識,并對其進行轉換、集成和合并后,加以歸納、提煉和創(chuàng)新,形成新的知識,從而創(chuàng)作新的文獻的過程??珙I域的知識碰撞與融合往往是新學科、新知識的發(fā)生點,跨學科的知識融合最有可能產(chǎn)生新的科學突破,在促進科技創(chuàng)新方面發(fā)揮著重要的作用。引文視角下,論文的知識融合反映了論文對過去文獻中知識的提取、創(chuàng)造和傳承[3],知識融合是學術論文形成新知識、新觀點必不可少的內(nèi)在過程。國內(nèi)外學者對知識融合的意義和實踐進行了解讀,但知識融合的測量方式,尚未有統(tǒng)一且成熟的方案。引文作為學術論文的重要組成部分,是科研評價的重要指標,引文分析更是科學計量學的核心領域和獨特方法之一[5]。隨著社交網(wǎng)絡環(huán)境的逐步發(fā)展,基于傳統(tǒng)文獻計量學的局限,愈多的學者通過引入替代計量學(Altmetrics)研究學術成果的社會影響力,以豐富我國的科研評價方式,構建更為完善的科研評價機制。引文與學術成果的社會影響力之間的關系也是其中探討的重要課題。部分研究表明,學術成果的引文量與Altmetrics指標呈弱相關關系,而引文學科多樣性與論文影響力之間存在一定的正向關系[6-7]?;诖?,本研究旨在通過論文的引文關系來探討知識融合與學術論文的社會影響力是否存在關系,從知識融合的角度厘清引文與論文影響力背后的聯(lián)系,為Altmetrics作為學術評價指標提供更多證據(jù)。
綜上所述,為研究論文知識融合程度與論文社會影響力的關系,本文從引文視角出發(fā),以圖書情報學科領域、計算機信息系統(tǒng)學科領域與基礎醫(yī)學學科領域的科研論文為研究對象,采用Altmetrics的社交媒體傳播指標衡量論文的社會影響力,計算論文知識融合廣度、知識融合速度和跨學科知識融合度等引文指標,對論文的知識融合進行測度。鑒于知識融合各指標與論文社會影響力指標均不服從正態(tài)分布,不滿足Pearson相關性分析條件,故而采用適用范圍更廣的Spearman秩相關分析,對論文知識融合程度與論文社會影響力之間的關系進行分析,探討知識融合對論文社會傳播的影響,為促進知識傳播,科研成果轉化以及學術論文多元評價提供指導。
按照知識來源可將知識融合研究劃分為兩類:第一類是從信息融合衍化而來,來自工程、軍事、醫(yī)療等領域的數(shù)據(jù)轉化成信息的知識融合;第二類是知識科學視角下的知識融合,通過從第三世界業(yè)已形成的知識庫,例如文獻數(shù)據(jù)庫、圖書館等中抽取知識,融合形成新的知識[1,8]。顯然,學術論文的融合創(chuàng)作屬于第二類知識科學視角下的知識融合。
現(xiàn)有的研究中,鮮有文章從論文層面對知識融合程度進行測度。趙蓉英等[3]根據(jù)學科知識擴散廣度和學科知識擴散深度等指標構建了作者知識融合廣度和作者知識融合深度指標,以此來測度作者知識融合能力。
在引文分析中,與知識融合研究注重知識輸入者不同,知識擴散是從引文網(wǎng)絡的另一角度描述引文關系,指科學文獻在后序網(wǎng)絡中的改變和應用,側重于知識輸出者的研究。國內(nèi)外學者對知識擴散進行了深入的研究,其研究涵蓋了學科[9-10]、機構[11-12]、期刊[13-14]、學者[15]、文獻[16]等多個單元層面,并形成了較為成熟的知識擴散測度方法與指標體系,包括知識擴散廣度[17-19]、知識擴散深度[17-19]、知識擴散強度[20]、知識擴散速度[17-18]等。在不同的知識單元層面上,測度指標的定義也有所不同,如Rowlands[21]在研究期刊跨學科的學術影響情況時,以期刊為單元實體提出了期刊擴散指數(shù)(Journal Diffusion Factor),而Liu[17,22]等以學科為單元實體定義了學科擴散廣度。
學科知識融合的結果表現(xiàn)在學術成果中即為論文的學科交叉程度。因此,本研究采用引文分析中基于參考文獻的學科交叉程度的測度方法,能夠很好地測度不同學科領域之間的知識交叉情況,反映其學科知識的融合程度。隨著學科交叉研究的不斷發(fā)展,出現(xiàn)了許多基于參考文獻的學科交叉測度指標。其中以Gini-Simpson指數(shù)、Salton余弦相似性和香農(nóng)熵(Shannon Entropy,SE)為代表的第一代學科交叉測度指標多數(shù)從其他領域借鑒而來,在考慮了學科豐富度的同時,兼顧了學科間的差異性,反映了參考文獻在不同學科之間的分布情況。而后,學者考慮到參考文獻在不同學科分布的同時,不同學科之間也存在一定的相似性,據(jù)此,學者們提出了第二代學科交叉測度指標,如Rao-Stirling (RD)指數(shù)[23],2DS指數(shù)等。其中,RD指數(shù)是Stirling從variety、balance、disparity三方面出發(fā)構建了學科交叉測度框架,并提出了一種兼顧豐富度、多樣性和學科差異性的指標。
Altmetrics是基于社交網(wǎng)絡、新聞媒體以及在線文獻管理軟件使用數(shù)據(jù),將論文的社交傳播和使用情況進行量化統(tǒng)計的一個綜合型文獻使用情況追蹤與評價方式[24]。該構思由Priem等[25]于2010年首次提出,建立了基于社交媒體數(shù)據(jù)對文獻的社會影響力進行評價的方法[25]。部分學者將其引入國內(nèi),翻譯為替代計量學[26]或補充計量學[27]。相對于被引頻次、使用次數(shù)等指標,替代計量學指標能有效彌補傳統(tǒng)文獻計量指標在社會影響力方面的欠缺,突破了傳統(tǒng)學術影響力的評價模式,形成了全方位、多層次的指標體系結構[28-29]。作為一種能夠直觀反映論文社會影響力的工具,Altmetrics已被國內(nèi)外學者廣泛接受并使用[30-31]。隨著Altmetrics的廣泛研究,出現(xiàn)了多種Altmetrics應用工具,本研究將利用Altmetric.com公司的Altmetric Explorer[32]獲取論文的Altmetrics指標數(shù)據(jù),以此來測度論文的社會影響力。
根據(jù)數(shù)據(jù)質(zhì)量與可獲得性,本文選用Web of Science數(shù)據(jù)庫結合Altmetrics 替代計量學數(shù)據(jù)庫作為數(shù)據(jù)來源。同時考慮到實驗結果的普適性,采用三個學科方向:Computer Science, Information Systems、Information Science & Library Science和 Medicine, General & Internal進行研究。首先,使用Web of Science數(shù)據(jù)庫,編寫檢索式:WC="Computer Science, Information Systems" or WC="Information Science & Library Science" or WC="Medicine, General & Internal", 論文類型限定為article,時間限制在2018—2019年,共檢出文獻146428篇論文,排除重復、無DOI和沒有引文數(shù)據(jù)的文章后,剩余107605篇論文。然后,提取論文的DOI編號,在Altmetric Explorer中檢索論文的社交媒體傳播信息,共追蹤到48795篇文章的外部社會傳播數(shù)據(jù)。數(shù)據(jù)收集截止至2020年12月08日。
本研究數(shù)據(jù)涉及兩個數(shù)據(jù)庫,數(shù)據(jù)處理步驟為:①提取Web of Science數(shù)據(jù)146428篇文章的題目、發(fā)表時間、文章類型、學科領域、DOI、引文數(shù)據(jù)等字段;②運用自編Python腳本提取這些文章的DOI編號,并導出為TXT格式保存;③Altmetric Explorer允許最大同時檢索50000篇參考文獻,因此本研究手動將DOI編號分三批導入,在Altmetric Explorer檢索結果界面導出這些論文的社交媒體傳播字段,并根據(jù)DOI編號建立論文和社交媒體使用情況的聯(lián)系,以此計算論文的社會影響力;④根據(jù)文章的引文字段,查詢論文引文和引文所在期刊的研究領域,以此計算論文的知識融合程度。數(shù)據(jù)清洗、連接、指標計算及繪圖通過自編Python程序完成,統(tǒng)計分析使用Python Scipy數(shù)據(jù)分析工具包完成。
筆者借鑒知識融合能力的測度方法和知識擴散的測度指標體系形成本研究論文知識融合程度的測度方法。結合現(xiàn)有研究中的測度指標與本研究的研究目的以及實際數(shù)據(jù)情況,同時參考論文知識擴散廣度和論文知識擴散速度的測度指標,本文構建了論文知識融合廣度、論文知識融合速度和論文跨學科知識融合度三個測度指標來衡量論文知識融合程度,并基于引文數(shù)據(jù)進行計算。出于結果的可比性和普適性方面的考量,本研究采用跨學科相關研究中應用最為廣泛的香農(nóng)熵和Rao-Stirling指數(shù)衡量論文的跨學科知識融合度。
3.3.1 論文知識融合廣度
Liu等[17]在研究知識在學科領域之間的擴散規(guī)律時,結合期刊擴散指數(shù)的定義,提出了ESI學科擴散廣度的概念,用以衡量知識在不同學科領域的擴散范圍,具體指引用該學科領域內(nèi)文章的引文所涉及到的ESI學科的數(shù)量。趙蓉英等[3]對作者知識融合廣度定義為一定時間內(nèi)文獻創(chuàng)作者引用其他創(chuàng)作者數(shù)量。據(jù)此,筆者將論文知識融合廣度定義為作者在撰寫科研文獻過程中,該文章所引用的其他參考文獻的數(shù)量。
3.3.2 論文知識融合速度
為了更好地衡量學科擴散的演化情況,Liu等[17]對ESI學科平均擴散速度給出定義,即引用該學科組文章的文章所屬ESI學科數(shù)量除以源文章的壽命的平均值,其中壽命被定義為測量年份減去發(fā)表年份。據(jù)此,本研究為了衡量科研論文知識融合的速度,參考學科擴散速度,并考慮不同引文的發(fā)表時間差異認為,論文知識融合速度為該文章引用的參考文獻壽命倒數(shù)的平均值。計算公式如下,其中n為參考文獻數(shù),yf為文獻發(fā)表時間,yi為參考文獻i的發(fā)表時間。
3.3.3 論文跨學科知識融合度
知識融合的來源不同,其產(chǎn)生的成果的影響也有一定差異。相對于學科內(nèi)部的知識交流與融合,跨學科的知識融合有其獨特的優(yōu)勢和價值。借鑒跨學科相關研究工具,本文使用兩個指標香農(nóng)熵和Rao-Stirling指數(shù)衡量論文的跨學科知識融合度。作為第一代學科交叉測度指標,香農(nóng)的信息熵在衡量研究的豐富性的同時兼顧了學科之間的平衡性;而二代Rao-Stirling指數(shù)在計算學科交叉性時,考慮了學科之間的相似性,通過距離測度因子di,j平衡了領域間相似性的差別。具體計算公式如下:其中pi、pj分別代表參考文獻所屬學科i、j在參考文獻中所占的比例,di,j為學科i、j之間的距離。為使本研究結論具有普適性,本文學科分類采用WoS 提供的SCI與SSCI學科類別列表[33],距離度量采用Chavarro[34]提供的WoS學科類別余弦相似度矩陣。
Altmetric Explorer包含新聞報道數(shù)、讀者數(shù)在內(nèi)的17個指標,本文挑選了其中8個主要評價指標,涵蓋了現(xiàn)今主流的社交媒體,收集其數(shù)據(jù)測度論文社會影響力。具體包括每篇論文的 Twitter(推特提及數(shù))、Facebook(臉書提及數(shù))、Google+(Google帖子提及數(shù))、News(新聞報道數(shù))、Mendeley(讀者數(shù))、Blog(學術博客數(shù))、Wikipedia(百科提及數(shù))、以及Altmetric Attention Score(AAS,社會影響力綜合評分)等,表1展示了本研究使用的部分數(shù)據(jù)。
三個學科的論文知識融合廣度、論文知識融合速度和跨學科知識融合度的測度見圖1。
表1 論文Altmetrics社會影響力評價指標
Information Science & Library Science學科領域文章的平均知識融合廣度達50.15,即該學科文章的平均引文數(shù)量為50.15篇,是三個學科中最高的;Medicine, General & Internal學科領域文章的平均知識融合廣度最低,只有35.94。作為一門發(fā)展速度較快的方法性學科,Computer Science, Information Systems學科領域文章的平均知識融合速度最快,為0.191,其引用的文章相較于另外兩門學科發(fā)表時間更新,表明該學科更為關注新的知識技術,知識迭代速度更快;Information Science & Library Science學科領域文章的平均知識融合速度較慢,為0.179。對于跨學科知識融合度,Computer Science, Information Systems學科的香農(nóng)熵、Rao-Stirling指數(shù)平均值都是最高的,分別為2.714、0.346,說明該學科文章的參考文獻涉及的學科范圍最廣,吸納其他學科知識的能力最強,符合其綜合性學科的特性;Information Science & Library Science學科領域的跨學科知識融合度平均最低,其香農(nóng)熵、Rao-Stirling指數(shù)分別為2.072、0.201。值得注意的是,相比于其他兩個學科領域,Information Science & Library Science有15.16%的文章沒有進行跨學科的知識融合,即其參考文獻全部為本學科文獻,其個別研究方向具有更強的專業(yè)領域性。這個比例遠高于Medicine, General & Internal學科領域的0.90%和Computer Science, Information Systems學科領域的2.23%??傮w而言,Computer Science, Information Systems學科的知識融合速度更快,跨學科知識融合度更高,是一門綜合性更強,知識更新速度更快的學科。Information Science & Library Science學科的知識融合廣度更大,說明該學科領域具有更多的理論性研究,而跨學科知識融合度低則表明領域內(nèi)更專注于自身學科的研究。
注:圖中虛線分別為25%分位線、平均數(shù)線、75%分位線
三個學科領域論文的各社會影響力指標見圖2,可以看出三個學科領域的社會影響力指標分布情況基本相同,學科領域之間分布情況無較大差別。代表社交網(wǎng)絡影響力的Twitter、Facebook、Google+指標,代表新聞媒體影響力的News、代表學術評論的Blogs和Wikipedia以及Altmetric Attention Score綜合影響力指標基本符合冪律分布特征,代表讀者影響力的Mendeley讀者數(shù)的分布曲線在小于10之前呈上升趨勢,大于10的后半段曲線仍符合冪律分布特征。
另外,本文對論文社會影響力指標進行了Spearman相關性分析,結果見表2。其中,社會影響力各個維度之間相關性較低,來源相近的指標間相關性系數(shù)相對較高,如推特提及數(shù)和臉書提及數(shù),博客提及數(shù)和新聞提及數(shù)等,這與之前研究成果一致[28]。而Altmetric Attention Score與社會影響力各個維度的相關性較強,可以認為,Altmetric Attention Score基本能夠反映論文的社會影響力。
圖2 論文社會影響力指標分布圖
本文分別用各個論文影響力指標代表論文社會影響力,來探究論文知識融合程度與論文社會影響力的關系。由于研究資料不符合雙變量正態(tài)分布假設,故本研究采用Spearman秩相關檢驗來探究論文知識融合程度與論文社會影響力的關系。其秩相關性熱力圖見圖3。
總體而言,論文的知識融合廣度與論文的社會影響力呈正相關關系,但相關性較弱。知識融合廣度與Altmetric Attention Score的相關性系數(shù)為0.071(p<0.001),但對Information Science & Library Science 學科領域的影響卻有較大差異,相關系數(shù)為-0.178(p<0.001)。值得注意的是,論文的知識融合廣度與Mendeley讀者數(shù)呈較強的正相關關系(r=0.411,p<0.001),也就是說,增加論文知識融合廣度對提升讀者的數(shù)量具有較大作用。
表2 論文Altmetric社會影響力指標間Spearman相關性矩陣
注:僅顯示顯著性P<0.05的Spearman秩相關系數(shù)
論文的知識融合速度與論文的社會影響力呈正相關關系,其與Altmetric Attention Score秩相關系數(shù)為0.186(p<0.001),且該正相關關系在各個學科領域以及社會影響力的各個子維度中比較穩(wěn)定。
論文的跨學科知識融合度與論文的社會影響力相關性極弱(r<0.1),除香農(nóng)熵與Mendeley讀者數(shù)外,其他Spearman秩相關系數(shù)r的絕對值均小于0.07,且兩代不同的跨學科知識融合度測度指標表現(xiàn)出來的相關系數(shù)方向相反(rSE-AAS=0.026,p=0.012;rRD-AAS=-0.067,p=0.031),可以認為,論文的跨學科知識融合度與論文社會影響力之間的相關關系極弱。
本文提出了基于引文數(shù)據(jù)的論文知識融合的測度方法,從知識融合廣度、知識融合速度和跨學科知識融合度這三個角度分別對三個學科領域論文的知識融合程度進行了測度。通過三個指標的比較發(fā)現(xiàn),三個學科領域的文章具有不同的引文偏好,在引文上表現(xiàn)出了不同的學科特點。而后,本文采用Spearman相關性分析,研究論文知識融合程度與論文社會影響力之間的關系??傮w上,知識融合與社會影響力之間存在顯著的相關性,但相關系數(shù)較小,呈弱相關關系,且不同維度間關系強度存在差異。
首先,論文的知識融合廣度與論文的社會影響力呈相對較強的正相關關系,但在不同的學科中其關系有一定的差異。此外,論文的知識融合廣度能夠顯著增加讀者的數(shù)量??蒲泄ぷ髡咴谶M行科研創(chuàng)作過程中所引用的文獻為其文章主要知識融合數(shù)據(jù)來源,其廣度越高,則文章所融合的知識量越大,為高影響力文章的可能性就越大,因此讀者更傾向于閱讀此類文章,并產(chǎn)生社會傳播行為,繼而獲取更大的社會影響力。
其次,論文的知識融合速度能夠影響論文的社會影響力,且不受學科領域的影響。本研究的論文知識融合速度測度采用的是參考文獻發(fā)表時間與論文發(fā)表時間差的倒數(shù)的平均數(shù),即當參考文獻平均較新時,其論文知識融合速度也就越快。這意味著融合的知識源越新,其文章的社會影響力越大。建議論文作者在進行科學研究時,參考最新的科研文獻,并加以提煉融合,從而產(chǎn)生更大的社會影響力。
最后,論文的跨學科知識融合度與論文的社會影響力關系極弱,而且兩代社會影響力測度指標的測度結果方向不同,第一代影響力測度指標香農(nóng)熵顯示論文的跨學科知識融合度與論文社會影響力呈弱正相關,且與Mendeley讀者數(shù)有較強的正相關,這與之前的研究一致[35]。然而,在考慮了學科之間相似性后,使用第二代影響力測度指標Rao-Stirling指數(shù)的測度結果卻相反,而且對不同學科影響強弱不同。相比于香農(nóng)熵,Rao-Stirling指標增加了相似性較低學科的權重且減少了相似性較高學科的權重,這意味著,論文所融合的知識若來自相似的學科則會有較高的社會影響力,若融合的知識所來源的學科跨度較大,則社會影響力反而可能會受到抑制。論文的跨學科知識融合度對論文的社會影響力仍需進一步探究。
本文基于引文數(shù)據(jù),提出了基于論文的知識融合測度方法,并在此基礎上以Information Science & Library Science、Medicine, General & Internal和Computer Science, Information Systems三個學科領域為例,結合Altmetric Explorer的論文社交傳播數(shù)據(jù),探究論文知識融合程度與論文社會影響力之間的關系。結果表明,知識融合與社會影響力之間存在顯著的相關性,但相關系數(shù)較小,整體上呈弱相關關系。論文知識融合廣度與論文社會影響力呈弱正相關關系,且因?qū)W科而異;論文知識融合速度與論文的社會影響力有較強的正相關關系;論文的跨學科知識融合度與社會影響力之間相關關系極弱。
論文知識融合程度關系到論文蘊含的科研價值,而其社會影響力最終影響到科研成果的轉化與實踐過程,本研究對論文的知識融合程度與論文社會影響力的關系進行了探究,驗證了論文知識融合與社會影響力的相關性,但對于知識融合如何影響論文的社會傳播沒有進行深入探究,且涉及的學科和數(shù)據(jù)量有限,未來的研究方向可對論文知識融合程度如何影響到論文的社會傳播機制作出進一步解釋。