潘黎姿,龍俊羽,袁 藝,陳 娟,歐陽昭連△
(1.中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所,北京 100020; 2.北京大學(xué)醫(yī)學(xué)部,北京 100191)
論文被引頻次可反映其在研究領(lǐng)域的影響力,是目前用于評判個人研究成果重要的傳統(tǒng)指標(biāo)。期刊引證報告(JCR)影響因子較高的期刊,其論文被引頻次可能更高[1],但同一期刊的論文被引頻次可能差異較大[2]。隨著互聯(lián)網(wǎng)的快速發(fā)展,越來越多的科研成果以電子形式在網(wǎng)絡(luò)發(fā)布,Twitter,YouTube,F(xiàn)acebook,Blog等社交媒體和主流媒體平臺逐漸成為傳播研究成果的常見工具,加強了研究人員之間及其與社會的聯(lián)系,且可能影響論文被引頻次[3]。PRIEM等[4]提出了以Altmetric(替代計量學(xué))指標(biāo)來衡量論文基于社交網(wǎng)絡(luò)的影響力。Altmetric 網(wǎng)站是2011 年由英國人ADIE 開發(fā)的一款研究工具,通過提取單篇論文在不同社交網(wǎng)絡(luò)平臺和在線媒體提及的次數(shù),以綜合計算論文網(wǎng)絡(luò)影響力。Altmetric網(wǎng)站提供文章在十二大數(shù)據(jù)源中的表現(xiàn)數(shù)據(jù),包括公共政策文件、博客文章、主流媒體報道、Web of Science 引文數(shù)據(jù)、在線文獻管理軟件、同行評審出版平臺、學(xué)術(shù)社交論壇(Research highlights)、社交媒體(Facebook,Twitter,LinkedIn,Google +)等。合成生物學(xué)旨在通過挖掘基因功能元件和模塊,對底盤細(xì)胞代謝調(diào)控網(wǎng)絡(luò)進行基因設(shè)計、修改或補充,使活細(xì)胞產(chǎn)物滿足人類的需求,是生命科學(xué)、工程學(xué)、信息學(xué)等多種學(xué)科融合而成的一門新興學(xué)科[5]。本研究中探討了合成生物學(xué)領(lǐng)域高被引論文替代計量學(xué)指標(biāo)和文獻計量學(xué)指標(biāo)與被引頻次的相關(guān)性。現(xiàn)報道如下。
采用主題檢索方式,在Web of Science 數(shù)據(jù)庫的科學(xué)引文索引擴展版(SCIE)核心合集中以摘要、關(guān)鍵詞和標(biāo)題字段檢索合成生物學(xué)相關(guān)論文,檢索式為(TS=(″synthetic biolog*″)OR SO =(ACS SYNTHETIC BIOLOGY));在檢索結(jié)果中選擇“article”類型的論文,且對其他字段不作限制。將檢索結(jié)果按被引頻次由高到低排序,以排名前1%的論文作為高被引論文,統(tǒng)計其標(biāo)題、作者、發(fā)表時間、發(fā)表期刊和被引頻次。檢索時間為2023年6月21日,對論文的發(fā)表時間不作限定。
數(shù)據(jù)獲取:通過Web of Science 數(shù)據(jù)庫獲取高被引論文被引頻次和JCR影響因子作為文獻計量學(xué)指標(biāo)。通過Altmetric 網(wǎng)站獲取替代計量學(xué)指標(biāo)。1)Altmetric 評分,為Altmetric 網(wǎng)站根據(jù)論文在不同公共平臺的曝光情況加權(quán)計算獲得的綜合評分,通常用以衡量論文在公共平臺的綜合表現(xiàn);2)Twitters,為論文在Twitter 的分享次數(shù);3)Facebook Pages,為論文在Facebook 的分享次數(shù);4)Mendeley,為論文用Mendeley軟件保存的次數(shù),該軟件可提供一系列文獻管理功能,能有效地對文獻進行組織、標(biāo)注和存儲管理;5)Patents,為論文被專利引用的次數(shù),專利是指對產(chǎn)品、方法或其改進所提出的新的技術(shù)方案,專利申請材料中需對方案進行詳細(xì)描述,必要的原理闡述部分需引用文章等依據(jù);6)Blogs,為論文被Blog 引用的次數(shù);7)Weibo User,為論文在微博(Weibo)中被引用的次數(shù)。各指標(biāo)數(shù)據(jù)獲取時間與論文檢索時間一致。
數(shù)據(jù)預(yù)處理:將所有數(shù)據(jù)匯總,查看缺失情況,排除缺失比例超20%的指標(biāo);其余指標(biāo)用平均值填補缺失值。數(shù)據(jù)填補完整后,將所有指標(biāo)值進行歸一化處理,即。其中,i表示上述9個指標(biāo)中的第i個指標(biāo),xi表示指標(biāo)原值,xi,new表示歸一化后的指標(biāo)值,min(xi)和max(xi)分別表示xi的最小值和最大值。
采用R Studio 軟件分析高被引論文的年度發(fā)表情況,分別采用多變量、單變量回歸模型分析文獻計量學(xué)指標(biāo)和替代計量學(xué)指標(biāo)與被引頻次的相關(guān)性。
共獲得9 784 篇論文,以被引頻次排名前100 的論文為高被引論文,其中有2 篇會議論文(被引頻次排名分別為第23 和第54)無法獲取替代計量學(xué)指標(biāo)而不納入,故選取排名為第101和第102的論文遞補。
指標(biāo)數(shù)據(jù)缺失情況見表1。排除Facebook Pages,Blogs,Weibo User 3 個指標(biāo),納入6 個指標(biāo)(見表2),其中包括文獻計量學(xué)指標(biāo)2 個,替代計量學(xué)指標(biāo)4 個。將缺失數(shù)據(jù)填補并將所有數(shù)據(jù)歸一化處理后,形成最終的數(shù)據(jù)集。
表1 指標(biāo)數(shù)據(jù)缺失情況(%)Tab.1 Data missing of each indicator(%)
表2 納入指標(biāo)的描述性統(tǒng)計Tab.2 Descriptive statistics of included indicators
1999 年至2021 年,高被引論文的發(fā)表趨勢為先上升后下降,集中發(fā)表于2011 年至2015 年(51 篇);2015 年后,發(fā)文數(shù)量明顯下降,可能是由于論文從發(fā)表到積累一定量的被引頻次需要時間。詳見圖1。
圖1 100篇合成生物學(xué)高被引論文年度發(fā)表情況Fig.1 Annualpublicationof100highly-citedpapersinsyntheticbiology
多變量回歸模型:以被引頻次為因變量,文獻計量學(xué)指標(biāo)和替代計量學(xué)指標(biāo)為自變量,共擬合2個多變量回歸模型。模型Ⅰ探究文獻計量學(xué)指標(biāo)和替代計量學(xué)指標(biāo)對被引頻次的總體影響。由于Altmetric 評分可反映替代計量學(xué)指標(biāo)的綜合情況,故僅以Altmetric 評分和JCR 影響因子為自變量。結(jié)果顯示,Altmetric 評分與被引頻次呈顯著正相關(guān),JCR 影響因子與被引頻次相關(guān)性不顯著;該模型僅可解釋被引頻次8.8%的變化。模型Ⅱ探究不同細(xì)化指標(biāo)與被引頻次之間的關(guān)系,故將Altmetric 評分替換為Twitters,Mendeley,Patents。結(jié)果顯示,Mendeley 和Patents 與被引頻次均呈顯著正相關(guān),JCR 影響因子和Twitters 與被引頻次相關(guān)性不顯著;Twitters 的影響力低于Mendeley 和Patents;該模型可解釋被引頻次92.9%的變化。詳見表3(其中95%CI為95%置信區(qū)間,表4同)。
表3 多變量回歸模型分析結(jié)果Tab.3 Results of multivariate regression model analysis
表4 單變量回歸模型分析結(jié)果Tab.4 Results of univariate regression model analysis
單變量回歸模型:對5 個自變量分別進行擬合(見表4)。結(jié)果顯示,僅Twitters的擬合結(jié)果不顯著。擬合結(jié)果顯著的4個模型中,Mendeley和Patents分別解釋了被引頻次90.0%和85.6%的變化,JCR 影響因子和Altmetric評分僅分別解釋了被引頻次0.1%和8.6%的變化。
本研究中,多變量回歸的2 個模型分析結(jié)果顯示JCR 影響因子與被引頻次無顯著相關(guān)性,單變量回歸模型分析結(jié)果顯示JCR影響因子與被引頻次呈弱相關(guān),提示合成生物學(xué)高被引論文的被引頻次與期刊的JCR 影響因子相關(guān)性弱或無關(guān)。這與文獻[6 - 7]的研究結(jié)果一致。提示高JCR影響因子的期刊對論文被引頻次的貢獻可能較低,提示學(xué)者應(yīng)專注提高論文水平,而非一味追求高JCR 影響因子。多變量、單變量回歸模型分析結(jié)果均顯示替代計量學(xué)指標(biāo)(Altmetric 評分)與被引頻次顯著相關(guān),且國內(nèi)外多位學(xué)者用不同的替代計量學(xué)指標(biāo)和統(tǒng)計學(xué)方法得出公共平臺對論文引用有正向影響的結(jié)論[8-12]。提示在互聯(lián)網(wǎng)高速發(fā)展的時代,論文影響力的傳統(tǒng)評價體系已發(fā)生改變,互聯(lián)網(wǎng)的及時性可提高論文的傳播速度和范圍??蒲腥藛T在發(fā)表科研成果的同時,應(yīng)充分利用公共社交媒體平臺,及時發(fā)布最新的研究進展,增加公眾和其他學(xué)者對研究成果的了解和關(guān)注,從而提高論文的被引頻次和影響力。
本研究中,Twitters 與被引頻次無顯著相關(guān)性,Mendeley 和Patents 相關(guān)性均較高。有研究發(fā)現(xiàn),Twitters對論文被引頻次的影響程度在不同學(xué)科中不同,其中對普外科[13]、泌尿外科[14]、神經(jīng)外科[15]學(xué)術(shù)論文被引頻次的影響程度較低,對心血管外科[16]、整形外科[17]、兒科[18]學(xué)術(shù)論文的影響程度較高。分析原因,心血管外科、整形外科和兒科患者群體大、公眾關(guān)注度高或主題與日常生活貼近,更易在Twitter平臺傳播,故Twitters與被引頻次相關(guān)性高。合成生物學(xué)是一門新興學(xué)科,發(fā)展歷史短,研究內(nèi)容較前沿,難以受到大眾的關(guān)注,故在Twitter平臺傳播效果欠佳。Mendeley 作為一款文獻管理軟件,其使用者多為專業(yè)學(xué)者和研究人員;專利申請因具有創(chuàng)新性和新穎性,需緊跟領(lǐng)域最新理論進展來支撐技術(shù)創(chuàng)新。故上述兩類使用人員更加關(guān)注行業(yè)前沿,在合成生物學(xué)領(lǐng)域表現(xiàn)出與論文被引頻次顯著的相關(guān)性。本研究的不足之處在于,僅對合成生物學(xué)領(lǐng)域的高被引論文進行研究,在研究樣本的選擇上有一定偏倚,故對不同學(xué)科及不同引用水平的論文可能產(chǎn)生不同的結(jié)論,未來應(yīng)擴大研究范圍,針對更多學(xué)科的全范圍論文進行建模,同時納入更多指標(biāo),獲得更普遍適用的結(jié)論。
綜上所述,合成生物學(xué)高被引論文的被引頻次與期刊JCR 影響因子相關(guān)性小或無關(guān),替代計量學(xué)指標(biāo)(除Twitters 外)在一定程度上可反映論文的影響力。未來可利用替代計量學(xué)指標(biāo)預(yù)測論文的影響力或?qū)⑵淙谌氍F(xiàn)有文獻評價系統(tǒng)中,使研究成果影響力的評價方法更符合當(dāng)代互聯(lián)網(wǎng)時代的發(fā)展趨勢。