向 菲,陳華芳,沈 桐,2,曹 廣,劉 艷
(1. 華中科技大學(xué)同濟(jì)醫(yī)學(xué)院醫(yī)藥衛(wèi)生管理學(xué)院,武漢 430030;2. 華中科技大學(xué)同濟(jì)醫(yī)學(xué)院附屬同濟(jì)醫(yī)院,武漢 430030;3. 浙江省人民醫(yī)院,杭州 310014)
互聯(lián)網(wǎng)和社交媒體平臺(tái)的發(fā)展,使學(xué)術(shù)成果的傳播渠道得到進(jìn)一步拓展,除傳統(tǒng)的期刊、圖書形式外,社交軟件、學(xué)術(shù)博客、視頻、論壇等成為學(xué)術(shù)成果傳播的新渠道。傳播渠道的拓展將學(xué)術(shù)成果的受眾范圍從同行業(yè)的學(xué)者擴(kuò)大到社會(huì)大眾,學(xué)術(shù)成果影響力的體現(xiàn)形式也不僅局限于傳統(tǒng)的文獻(xiàn)被引頻次,還包括社交媒體平臺(tái)上的轉(zhuǎn)發(fā)、收藏、評(píng)論、反饋等[1]。Altmetrics 正是對(duì)社交媒體平臺(tái)上學(xué)術(shù)成果使用情況的測量。從本質(zhì)上看,Altmetrics 和被引頻次均是對(duì)學(xué)術(shù)成果影響力的計(jì)量,那么,由于論文內(nèi)容早熟、超前、顛覆等原因?qū)е略谝闹谐霈F(xiàn)的“睡美人”現(xiàn)象,在Altmetrics 中也同樣存在。因此,僅從引文、學(xué)術(shù)影響力的角度定義“睡美人文獻(xiàn)”是不全面的,睡美人文獻(xiàn)的概念、識(shí)別方法需要從Altmetrics 的角度進(jìn)行補(bǔ)充。
睡美人文獻(xiàn)通常是富有價(jià)值的文獻(xiàn),但一開始并不為人所知,導(dǎo)致知識(shí)浪費(fèi)。社交媒體平臺(tái)具有用戶體量大、覆蓋范圍廣、傳播速度快等特點(diǎn),實(shí)現(xiàn)Altmetrics 睡美人文獻(xiàn)的早期識(shí)別,有利于充分挖掘文獻(xiàn)價(jià)值,提高文獻(xiàn)利用率;有助于知識(shí)在社交媒體上的快速傳播,縮短公眾科學(xué)認(rèn)知時(shí)滯,提升公眾智慧;可以反映公眾對(duì)于科學(xué)的關(guān)注,激發(fā)學(xué)者研究興趣。識(shí)別現(xiàn)有的睡美人文獻(xiàn),是實(shí)現(xiàn)睡美人文獻(xiàn)早期識(shí)別的第一步。只有準(zhǔn)確地識(shí)別出睡美人文獻(xiàn),才能進(jìn)一步分析睡美人文獻(xiàn)的沉睡原因以及檢驗(yàn)睡美人預(yù)測模型的效果。
睡美人文獻(xiàn)最早被稱為“阻滯發(fā)現(xiàn)”(resisted discovery)。1961 年,Barber[2]發(fā)現(xiàn),因?yàn)橐恍┪幕蜕鐣?huì)原因,科學(xué)家們會(huì)對(duì)一些科學(xué)發(fā)現(xiàn)產(chǎn)生抵制。后來,Stent[3]認(rèn)為這類科學(xué)發(fā)現(xiàn)遠(yuǎn)超當(dāng)時(shí)背景下科學(xué)家們的認(rèn)知水平,與公認(rèn)的知識(shí)不一致或無法在技術(shù)上被證實(shí),屬于早熟的、超前的,于是將這類發(fā)現(xiàn)稱為“早熟發(fā)現(xiàn)”(premature discovery)。1980 年,Garfield[4]在總結(jié)這兩類發(fā)現(xiàn)的基礎(chǔ)上,提出了“遲滯承認(rèn)”這一概念,是指這些論文在發(fā)表之后被閑置或不受重視,直至多年后被“重新發(fā)現(xiàn)”(承認(rèn)),重新發(fā)現(xiàn)的過程可能是漸進(jìn)的,也可能是突然的。2004 年,van Raan[5]引用經(jīng)典童話故事“睡美人”,定義發(fā)表后長時(shí)間沒有受到關(guān)注(“沉睡”)而后突然收獲大量引用(“被王子喚醒”)的出版物為睡美人文獻(xiàn)。
目前,關(guān)于引文的睡美人文獻(xiàn)識(shí)別方法已有較多研究,根據(jù)方法特性可將其大致分為4 類:人為參數(shù)類、客觀指標(biāo)類、曲線擬合類和數(shù)據(jù)變換類[6]。
Garfield[7]以平均數(shù)為基礎(chǔ),提出總被引頻次高、前5 年及以上(最好10 年以上)的被引頻次接近每年1 次的為睡美人文獻(xiàn)。van Raan[5]制定了睡眠時(shí)間、睡眠深度和喚醒強(qiáng)度3 個(gè)指標(biāo)用于識(shí)別睡美人文獻(xiàn)。①睡眠時(shí)間:連續(xù)處于睡眠狀態(tài)的時(shí)間為5~10 年;②睡眠深度:在睡眠期間,每年被引頻次不超過1 時(shí)為深度睡眠,大于1 且不超過2 時(shí)為深度睡眠不足;③喚醒強(qiáng)度:被喚醒后連續(xù)4 年總被引頻次大于20 則為蘇醒,總被引頻次越高,喚醒強(qiáng)度越大。
Costas 等[8]參考四分位數(shù)定義提出3 個(gè)指標(biāo):Year50%、P25、P75,將文獻(xiàn)劃分為普通論文、曇花一現(xiàn)、睡美人文獻(xiàn)3 類,發(fā)現(xiàn)不同類型論文的引用過程不同。Wang[9]根據(jù)論文自發(fā)表后被引頻次的積累過程提出“被引速率”。基于此,杜建等[10]結(jié)合年度累計(jì)被引頻次的標(biāo)準(zhǔn)差概念,提出延遲承認(rèn)指數(shù)(delayed recognition index,DRI)。Li 等[11]參考基尼系數(shù)提出了Gs 指數(shù),計(jì)算睡眠文獻(xiàn)覺醒的概率。Sun 等[12]對(duì)Gs 進(jìn)行改進(jìn),提出文獻(xiàn)老化向量,對(duì)睡美人文獻(xiàn)的檢測結(jié)果更加精準(zhǔn)。Ke 等[13]提出了無參數(shù)指標(biāo)“美麗系數(shù)”(beauty coefficient,B),用于量化一篇論文在多大程度上可以被視為睡美人文獻(xiàn)。杜建等[14]對(duì)被引速率和美麗系數(shù)兩種指標(biāo)的識(shí)別結(jié)果進(jìn)行對(duì)比分析發(fā)現(xiàn),美麗系數(shù)只考慮了論文發(fā)表年至最高被引頻次年的過程,而不是全部的引文窗口;被引速率反映了全部的引文窗口,但不能直接篩選出睡美人文獻(xiàn)。因此,2018 年杜建等在美麗系數(shù)的基礎(chǔ)上提出了一個(gè)新的無參數(shù)指標(biāo)Bcp[15]。Teixeira 等[16]參考標(biāo)準(zhǔn)差概念提出了K 指數(shù)。同樣考慮引用分布的離散程度,唐潔等[17]引入變異系數(shù)設(shè)計(jì)了PCV 指數(shù)(product of CVyearlyand CVaccumulative,PCV)。
宋呈玉等[18]為了能夠更簡便、快速地識(shí)別睡美人文獻(xiàn),將引用曲線均擬合為二次函數(shù),根據(jù)函數(shù)對(duì)稱軸與坐標(biāo)軸的距離來識(shí)別睡美人文獻(xiàn)。侯劍華等[19]則借助Logistic 曲線擬合引文累積曲線,設(shè)計(jì)累積引文睡美人指數(shù)(cumulative citation sleeping beauty index,Cc Index)。從曲線擬合類的識(shí)別方法中可以看出,指標(biāo)的計(jì)算結(jié)果會(huì)受到曲線擬合效果的影響,對(duì)于給定的曲線模型,擬合效果差時(shí)計(jì)算結(jié)果會(huì)出現(xiàn)嚴(yán)重偏差,若在應(yīng)用時(shí)加入擬合優(yōu)度約束,則識(shí)別率下降。
目前基于引文的睡美人文獻(xiàn)研究已經(jīng)有了一定進(jìn)展,而基于社交媒體角度的睡美人文獻(xiàn)研究才剛剛起步[20-21]。Altmetrics 指標(biāo)與被引頻次并不完全相關(guān)[22-28],兩類指標(biāo)的累積情況也不完全相同[29],因此基于Altmetrics 的睡美人文獻(xiàn)不能直接照搬基于引文的睡美人文獻(xiàn)相關(guān)結(jié)論,兩類睡美人文獻(xiàn)的對(duì)比研究可能反映指標(biāo)的差異,因此,研究基于Altmetrics 的睡美人文獻(xiàn)是有必要的。
Altmetric.com 可以追蹤文章在多個(gè)社交媒體平臺(tái)上的關(guān)注,指標(biāo)豐富,覆蓋面廣,共有15 個(gè)指標(biāo)帶有時(shí)間標(biāo)簽:News、Blog、Policy document、Patent、Twitter、Peer review、Facebook、Wikipedia、Google+ 、 LinkedIn、 Reddit、 Pinterest、 F1000、Q&A、YouTube。通過其提供的Altmetric Explorer獲取文章,學(xué)科主題限定為“Medical and Health Sciences”,文獻(xiàn)類型限定為“articles”,為保證文章至少有3 年的累積時(shí)間,限定發(fā)表日期在“2018-11-30”之前的文章。檢索時(shí)間為2021 年12 月21日,檢索到685 萬余篇文章,其中475 萬余篇文章?lián)碛嘘P(guān)注分值(Altmetrics attention score,AAS)。根據(jù)睡美人文獻(xiàn)定義,睡美人文獻(xiàn)一定具有高關(guān)注度,參考高被引論文的界定方法[30],選取關(guān)注度排名前1%的文章共47533 篇為高關(guān)注度文獻(xiàn)(相同分值文獻(xiàn)一并納入)。由于Altmetric Explorer 每個(gè)指標(biāo)只提供最新的1 萬條關(guān)注信息,因此,舍去部分指標(biāo)數(shù)據(jù)缺失的文章,研究實(shí)驗(yàn)集共47510 篇文獻(xiàn),數(shù)據(jù)獲取時(shí)間為2021 年12 月21—25 日。
各指標(biāo)值表示文章在不同來源平臺(tái)上的關(guān)注計(jì)數(shù)。Altmetric.com 根據(jù)指標(biāo)來源平臺(tái)的影響覆蓋范圍賦予不同權(quán)重[31],AAS 的計(jì)算方法為
統(tǒng)計(jì)實(shí)驗(yàn)集中文章的關(guān)注累積過程所需時(shí)間,結(jié)果如表1 所示。有接近50%的文章的首次關(guān)注發(fā)生在發(fā)表前后一周內(nèi),約39%的文章在正式發(fā)表之前被提及,其中有接近3%的文章提前一年在社交媒體平臺(tái)上被提及,可見社交媒體平臺(tái)的發(fā)展使得文章可以更早獲得關(guān)注,甚至可以在正式發(fā)表前得到關(guān)注。與引文相比,Altmetrics 對(duì)文獻(xiàn)的關(guān)注反應(yīng)非常迅速。全部文章中有14%的文章在發(fā)表后一年內(nèi)才獲得首次關(guān)注,主要是因?yàn)椤癆ltmetrics”概念于2010 年才被提出,2010 年以前發(fā)表的文章約占總文章數(shù)的12.14%,彼時(shí)社交媒體平臺(tái)還未發(fā)展普及,鮮有人在平臺(tái)上交流學(xué)術(shù)論文。2010 年前發(fā)表的文章在發(fā)表一年后才得到首次關(guān)注的文章占比約80%,2010 年后(包括2010 年)每年發(fā)表的文章中一年后才獲得首次關(guān)注的文章占比逐年下降(圖1)。在2010 年后隨著社交媒體平臺(tái)的推廣和使用用戶的增長,文章在發(fā)表后一周內(nèi)獲得首次關(guān)注的比例呈上升趨勢(圖1),文章更及時(shí)地在平臺(tái)上進(jìn)行傳播,受到關(guān)注的學(xué)術(shù)論文占比逐漸增加。從文章關(guān)注累積各階段的平均時(shí)間也可以證明,雖然所有文章獲得首次關(guān)注的平均時(shí)間為341.04 天,但2010 年后(包括2010 年)發(fā)表的文章平均時(shí)間約為-0.63 天。由此可見Altmetrics 對(duì)于文獻(xiàn)關(guān)注的反應(yīng)速度。
圖1 不同年份文章正式發(fā)表后一段時(shí)間獲得首次關(guān)注的比例
表1 關(guān)注累積達(dá)不同階段所需時(shí)間的文章統(tǒng)計(jì)
文章從獲得首次關(guān)注到關(guān)注累積達(dá)25%所需時(shí)間平均值為675.86 天,從25%到50%所需時(shí)間平均值為186.32 天,從50%到75%需227.91 天,從75%到100%需889.49 天。關(guān)注累積過程平均時(shí)間如圖2所示,文章前期的關(guān)注積累比較緩慢,在有了一定關(guān)注基礎(chǔ)后,關(guān)注累積速度會(huì)加快,達(dá)到關(guān)注高峰后慢慢減少至零,類似Logistic 曲線。
圖2 文章累積關(guān)注的平均時(shí)間
在發(fā)表后一周之內(nèi)累積25%、50%關(guān)注的文章約占25%、20%,由此可見,Altmetrics 能夠及時(shí)反映文章的關(guān)注情況。若以周、月或年為單位觀察關(guān)注變化,則無法反映關(guān)注的迅速累積和文章間的差異性,91%的文章在發(fā)表后一年以上才失去關(guān)注,若以小時(shí)為單位分析全部關(guān)注累積曲線則過于繁雜,故研究關(guān)注的累積變化過程以天為單位更合適。
睡美人文獻(xiàn)是指發(fā)表后長期沒有受到關(guān)注,后突然被喚醒獲得大量關(guān)注的文獻(xiàn)。Altmetrics 主要體現(xiàn)的是文獻(xiàn)在社交媒體平臺(tái)上的受關(guān)注情況,因此,Altmetrics 睡美人文獻(xiàn)是指在社交媒體平臺(tái)上,獲得關(guān)注的時(shí)間比普通論文更晚,喚醒后迅速累積大量關(guān)注的文獻(xiàn)。參考基于引用的睡美人文獻(xiàn)分析結(jié)果,Altmetrics 睡美人文獻(xiàn)應(yīng)具有以下特征:①具有較高關(guān)注度;②比普通論文更長的睡眠時(shí)間;③關(guān)注增長過程具有明顯的“突增”特征。
在對(duì)于目前引文睡美人文獻(xiàn)識(shí)別方法的學(xué)習(xí)基礎(chǔ)上,本文以Altmetrics 睡美人文獻(xiàn)的特征為核心,用無參數(shù)指標(biāo)體現(xiàn),設(shè)計(jì)了基于Altmetrics 的睡美人文獻(xiàn)識(shí)別方法:Altmetrics 睡美人指數(shù)(Altmetrics sleeping beauty index,ASB 指數(shù))。
目前有許多基于引文的睡美人文獻(xiàn)識(shí)別方法研究,其中,四分位法和Bcp 指數(shù)避免了主觀因素的影響,在識(shí)別時(shí)不會(huì)受到被引頻次大小的限制,可以在不同的學(xué)科中推廣使用,但分析識(shí)別結(jié)果發(fā)現(xiàn)其仍存在一些不足。
3.1.1 四分位法
考慮到不同的年份、學(xué)科和文檔類型的適用性,Costas 等[8]參考四分位數(shù)的定義提出了3 個(gè)指標(biāo):Year50%、P25、P75。其中,Year50%是指論文出版后累積引用首次達(dá)到50%的年份;P25、P75 是Year50%值的分布函數(shù)的四分位數(shù),即同年同領(lǐng)域內(nèi)累積引用達(dá)到50%較快的25%、75%論文所需的時(shí)間[8]。根據(jù)這3 個(gè)指標(biāo)將文獻(xiàn)劃分為3 類:①普通文獻(xiàn),P25≤Year50%≤P75;②曇花一現(xiàn)文獻(xiàn):Year50% 雖然睡美人文獻(xiàn)在不同學(xué)科中的存在比例有差異,但均應(yīng)低于10%[32],更有學(xué)者認(rèn)為睡美人文獻(xiàn)的比例約為1%甚至更低[33]。然而,根據(jù)四分位法識(shí)別得到的睡美人文獻(xiàn)約占25%,遠(yuǎn)大于10%,識(shí)別不夠精確。 3.1.2 Bcp指數(shù) 杜建等學(xué)者認(rèn)為,B 指數(shù)存在沒有考慮全部引文窗口、忽視發(fā)表之初的被引情況、依賴總被引頻次等問題,對(duì)其進(jìn)行改進(jìn),并提出Bcp 指數(shù)[15]。 圖3 為論文的年累積被引頻次百分比曲線,ct是指論文年齡為t時(shí)的累積被引百分比,tm是指累積百分比為100%的時(shí)間,直線連接累積曲線的起點(diǎn)(0,c0)和終點(diǎn)(tm,1)兩點(diǎn)做參考線l。計(jì)算直線l與曲線之間差值的總和,即lt-ct的總和,得Bcp 值,計(jì)算公式為 圖3 Bcp指數(shù)示意圖 Bcp 指數(shù)的計(jì)算依賴于圖形的相對(duì)形狀。如圖3 所示,Bcp 指數(shù)默認(rèn)文獻(xiàn)的累積引文曲線為J 形,但侯劍華等[19]認(rèn)為累積引文曲線呈邏輯曲線形增長。從實(shí)際情況來看,文獻(xiàn)的累積引文曲線是復(fù)雜多樣的,Bcp 指數(shù)在計(jì)算其他形式的引文曲線時(shí),指數(shù)值可能會(huì)存在偏差。例如,在計(jì)算累積曲線為S 形曲線的文章的Bcp 指數(shù)時(shí),曲線高于參考線的部分lt-ct的值為負(fù),會(huì)削弱Bcp 指數(shù)值,對(duì)于已經(jīng)完成喚醒再次陷入睡眠的睡美人文獻(xiàn)識(shí)別效果不好。 通過實(shí)證檢驗(yàn)發(fā)現(xiàn),通過Bcp 指數(shù)識(shí)別得到的睡美人文獻(xiàn)平均年齡較大[34]。在李賀等[35]的Bcp 應(yīng)用研究中可以看出,Bcp 指數(shù)高的文獻(xiàn)發(fā)表時(shí)間較早。例如,M 和N 兩篇論文的累積引文曲線與參考線如圖4 所示,可以看出,N 更符合睡美人文獻(xiàn)的“突增”特點(diǎn),但由于年齡較短,N 的Bcp 值為2.21,而M 的Bcp 值為11.86。Bcp 指數(shù)的計(jì)算結(jié)果會(huì)受到引文窗口長度的影響,在年齡相同或相近的文章中影響不明顯,但是累積時(shí)間相差較多的文章進(jìn)行比較時(shí)這種影響就會(huì)放大。對(duì)于Altmetrics 來說,論文的關(guān)注變化以天為單位,文章之間的時(shí)間差異大,這種誤差不能忽略。 圖4 論文M和N的Bcp指數(shù)示意圖 基于上述對(duì)于四分位數(shù)和Bcp 指數(shù)的分析,以Altmetrics 睡美人文獻(xiàn)的特征為核心,全面考慮累積曲線的可能形狀,降低論文年齡的影響,本文設(shè)計(jì)了一種基于Altmetrics 的睡美人文獻(xiàn)識(shí)別方法,稱為Altmetrics 睡美人指數(shù),簡稱ASB 指數(shù)。 3.2.1 ASB指數(shù)設(shè)計(jì) 睡美人文獻(xiàn)最重要的兩個(gè)特點(diǎn)是較長的睡眠時(shí)間和關(guān)注的突增,Altmetrics 睡美人文獻(xiàn)也是如此[36]。Bcp 指數(shù)所用的差值總和可以體現(xiàn)睡美人文獻(xiàn)的睡眠狀況,考慮到關(guān)注累積曲線的多樣,采用直線l:lt=1 作為參考線,如圖5 所示。論文年齡為t時(shí)的累積關(guān)注百分比記為At,論文睡眠時(shí)1 -At值較大,隨著關(guān)注的累積1 -At逐漸變小。對(duì)于Altmetrics 睡美人文獻(xiàn)的識(shí)別來說,睡眠時(shí)間越長、睡眠深度越深,1 -At的差值總和越大。由于預(yù)印本等因素的存在,部分文獻(xiàn)在正式發(fā)表之前,就已經(jīng)在社交媒體平臺(tái)上得到關(guān)注,為懲罰早期關(guān)注,只計(jì)算自發(fā)表之日(t=0) 起至關(guān)注累積百分比為100%時(shí)(tm)的差值總和,發(fā)表日期之前的差值不納入計(jì)算。 圖5 論文關(guān)注累積過程示意圖 如果論文在關(guān)注累積百分比達(dá)到90%以后,在很長一段里偶爾獲得少量關(guān)注,那么累積曲線會(huì)有很長一段“尾巴”接近于參考線,這可能會(huì)使1 -At的總和偏大,影響對(duì)Altmetrics 睡美人文獻(xiàn)的識(shí)別效果。為了降低這種影響,使用指數(shù)函數(shù)對(duì)參考線與曲線間的差值進(jìn)行轉(zhuǎn)換,即e1-At- 1,擴(kuò)大1 -At值的差距,使“尾巴”部分的值更接近于0,以降低影響。 選取論文關(guān)注累積首次達(dá)25%和50%的時(shí)間t25、t50,如圖5 所示。t50-t25的值表示關(guān)注的突增情況,t50-t25的值越小,論文的關(guān)注累積越集中,突增越明顯,且不會(huì)受到論文年齡的影響。 根據(jù)睡美人文獻(xiàn)的特征,論文前期關(guān)注越少,睡眠時(shí)間越長,后期關(guān)注增加越突然,ASB 指數(shù)值越大,越有可能是睡美人文獻(xiàn)。因此,計(jì)算∑(e1-At- 1)與t50-t25的比值,通過預(yù)實(shí)驗(yàn)結(jié)果對(duì)公式進(jìn)行改進(jìn),得ASB 指數(shù)值計(jì)算方法為 對(duì)于t25、t50是同一天的文章,t50-t25的值取0.5。 3.2.2 喚醒時(shí)刻識(shí)別 睡美人文獻(xiàn)在睡眠時(shí)遇到“王子”之后,受到的關(guān)注開始大量增加,即喚醒。Altmetrics 睡美人文獻(xiàn)的喚醒時(shí)刻,也是關(guān)注的突增時(shí)刻,喚醒前關(guān)注少,喚醒前后關(guān)注的增長量大、增長速度快,還可能出現(xiàn)連續(xù)增長[36]。張靖雯等[37]對(duì)比多種引文“起飛”時(shí)刻識(shí)別方法的正確率發(fā)現(xiàn),人為參數(shù)法對(duì)于睡美人文獻(xiàn)喚醒時(shí)刻的識(shí)別正確率最高,年度引文增長率指標(biāo)次之,還可以識(shí)別多次喚醒時(shí)刻。在此基礎(chǔ)上,結(jié)合睡美人文獻(xiàn)的喚醒特征,對(duì)Altmetrics睡美人文獻(xiàn)喚醒時(shí)刻的識(shí)別方法進(jìn)行設(shè)定。 以圖6 睡美人文獻(xiàn)的關(guān)注分布為例,at表示文章第t天獲得的關(guān)注,當(dāng)at為喚醒時(shí)刻時(shí),喚醒前關(guān)注為0 或接近于0,at值小,喚醒后呈現(xiàn)大量增長,at+1應(yīng)該遠(yuǎn)大于at。將喚醒時(shí)刻(t,at)分別與前后兩點(diǎn)(t- 1,at-1)、(t+ 1,at+1)連線,兩條連線的斜率差距應(yīng)該較大。Eom 等[38]識(shí)別引文爆發(fā)時(shí)認(rèn)為年引文增長率大于3 則為爆發(fā)增長,參考年引文增長率指標(biāo)設(shè)定關(guān)注增長率指標(biāo)r,在利用r識(shí)別突增時(shí)也以3 為標(biāo)準(zhǔn)。Altmetrics 睡美人文獻(xiàn)的喚醒時(shí)刻t的具體計(jì)算方法為 圖6 睡美人文獻(xiàn)的關(guān)注示意圖 考慮到at作為分母時(shí)可能等于0,對(duì)于小于1 的分母,at取1。 人為參數(shù)法的正確率高,但識(shí)別率低[37],對(duì)于采用公式(4)沒有識(shí)別出喚醒時(shí)刻的文章,可以考慮刪去條件at-1< 3、at< 3 后重新進(jìn)行識(shí)別。 通過實(shí)證檢驗(yàn)結(jié)果驗(yàn)證ASB 指數(shù)對(duì)Altmetrics睡美人文獻(xiàn)的識(shí)別效果。首先,計(jì)算實(shí)驗(yàn)數(shù)據(jù)中所有文章的ASB 指數(shù)值;其次,根據(jù)ASB 指數(shù)值大小排序后選取不同排名位置的文章;最后,從關(guān)注累積曲線、指標(biāo)特征兩個(gè)方面進(jìn)行比較,分析ASB指數(shù)的有效性。 將實(shí)驗(yàn)數(shù)據(jù)的指數(shù)值從大到小排列,ASB 指數(shù)值的分布情況如圖7 所示,約80%的數(shù)據(jù)分布在[0,1500],頭部數(shù)據(jù)分散,符合睡美人文獻(xiàn)數(shù)量少的特征,ASB 指數(shù)值最高的10 篇文章值均大于57000。 圖7 ASB指數(shù)分布 按照排序結(jié)果分別取ASB 值最高、中位、末位各10 篇文章,其關(guān)注累積曲線如圖8 所示。 圖8 30篇文章的關(guān)注累積曲線 從累積曲線可以看出,ASB 值最高10 篇文章的累積曲線均呈凹形,自正式發(fā)表之后超過25000 天才獲得首次關(guān)注,有很長的睡眠時(shí)間,喚醒后在短時(shí)間內(nèi)迅速累積關(guān)注,幾乎呈直線上升,關(guān)注增長速度快,增長量大。中位10 篇的首次關(guān)注發(fā)生在發(fā)表日期附近,早期就有一定的關(guān)注累積。由于ASB 指數(shù)為0 的文章有275 篇,采用隨機(jī)數(shù)方法從中隨機(jī)抽取10 篇代表排名末位文章,末位10 篇文章的關(guān)注均發(fā)生在正式發(fā)表之前,其中有6 篇的首次關(guān)注發(fā)生在發(fā)表日期的一個(gè)月以前,另外4 篇發(fā)生在發(fā)表前一周內(nèi)。通過對(duì)比排名先后文章的關(guān)注累積曲線可以發(fā)現(xiàn),最高10 篇文章的曲線睡美人特征最明顯,中位10 篇次之,末位10 篇最差,ASB 指數(shù)識(shí)別睡美人文獻(xiàn)的效果良好。 參考基于引文的睡美人文獻(xiàn)特征指標(biāo)擬定下列指標(biāo),用于衡量ASB 指數(shù)的識(shí)別效果。 (1) 睡眠時(shí)長:有多次喚醒的文章有多次睡眠。第一次睡眠時(shí)長是指自文章正式發(fā)表之日起至喚醒時(shí)刻的時(shí)間間隔。文章喚醒后關(guān)注量先上升后下降,若關(guān)注度持續(xù)1 天以上(不包括1 天)低于3,則認(rèn)為文章再次進(jìn)入睡眠。第二次睡眠時(shí)長是從第一次喚醒結(jié)束、再次進(jìn)入睡眠時(shí)開始直至下一次喚醒時(shí)刻止計(jì)算睡眠時(shí)長,以此類推。 (2)睡眠深度:文章處于睡眠狀態(tài)時(shí)所有關(guān)注量之和(包括喚醒時(shí)刻)占總關(guān)注的比值。 (3)喚醒強(qiáng)度:文章被喚醒后處于蘇醒狀態(tài)時(shí)關(guān)注量之和(不包括喚醒時(shí)刻)占總關(guān)注的比值。 (4)突增強(qiáng)度:即關(guān)注增長率,文章的每一次喚醒都有一個(gè)突增強(qiáng)度值。 計(jì)算ASB 值最高的10 篇文章的喚醒時(shí)刻,其中有5 篇文章存在多次喚醒,利用人為參數(shù)法可以識(shí)別出喚醒強(qiáng)度較低的時(shí)刻,識(shí)別準(zhǔn)確率更高。ASB 值最高10 篇文章的睡美人文獻(xiàn)特征指標(biāo)結(jié)果如表2 所示。對(duì)于有多次喚醒的文章,僅保留第一次喚醒時(shí)刻和睡眠時(shí)長,突增強(qiáng)度保留最值。由于大多數(shù)中位10 篇和末位10 篇中文章的關(guān)注發(fā)生時(shí)間早于正式發(fā)表時(shí)間,因此,不計(jì)算睡眠時(shí)長、睡眠深度、喚醒強(qiáng)度。根據(jù)喚醒時(shí)刻的計(jì)算方法計(jì)算突增時(shí)刻,中位10 篇和末位10 篇文章的關(guān)注累積特征如表3 所示。表2 和表3 中突增強(qiáng)度的最大值為592,最小值為3.375,文章的突增強(qiáng)度差距大,文章關(guān)注的累積形式不同,正如Garfield[4]所述,重新發(fā)現(xiàn)的過程可能是漸進(jìn)的,也可能是突然的。 表2 ASB值最高的10篇文章的睡美人文獻(xiàn)特征指標(biāo)結(jié)果 表3 中位10篇和末位10篇文章的關(guān)注累積特征 由表2 可知,指標(biāo)最高10 篇文章中,除第7 篇外,其余文章的睡眠深度均小于10%,符合睡美人文獻(xiàn)睡眠時(shí)關(guān)注度低的特征;喚醒強(qiáng)度均大于90%,符合睡美人文獻(xiàn)喚醒后關(guān)注大量增長的特征;喚醒強(qiáng)度與睡眠深度差距不大,首次睡眠時(shí)長從上到下呈遞減狀態(tài),表明ASB 指數(shù)可以有效根據(jù)睡眠時(shí)長排序文獻(xiàn)可能成為睡美人文獻(xiàn)的概率。與第6 篇相比,雖然第7 篇睡眠時(shí)長更長,但由于睡眠深度、喚醒強(qiáng)度、突增強(qiáng)度比較低,所以,第7篇的ASB 指數(shù)比第6 篇低。 由表3 可以看出,中位10 篇文章的首次突增時(shí)刻在發(fā)表日期前后,均小于30,即在發(fā)表后的一個(gè)月內(nèi)就在社交媒體平臺(tái)上受到關(guān)注;末位10 篇文章的首次突增時(shí)刻均為負(fù)數(shù),即在文章正式發(fā)表之前,就已經(jīng)得到大量關(guān)注;表2 中最高10 篇文章的喚醒時(shí)刻為發(fā)表后70~190 年,遠(yuǎn)超另外兩組文章,滿足睡美人文獻(xiàn)睡眠時(shí)間長的特征。從最高10 篇文章的排序結(jié)果和睡美人文獻(xiàn)指標(biāo)特征來看,ASB指數(shù)識(shí)別效果良好。 計(jì)算實(shí)驗(yàn)集中所有文章的Bcp 值,分別選出ASB 值、Bcp 值最高的10 篇文章,其特征如表4所示。 表4 ASB值、Bcp值最高的10篇文章特征 由表4 可以看出,相較于Bcp 值最高的10 篇文章,ASB 值最高10 篇文章的發(fā)表時(shí)間較晚,t50-t25較小,符合3.1.2 節(jié)的論述,Bcp 指數(shù)的計(jì)算結(jié)果會(huì)受到引文窗口長度的影響。ASB 值最高10 篇文章的關(guān)注分值平均值高于Bcp 值,更符合睡美人文獻(xiàn)具有重要價(jià)值的特征。ASB 值最高10 篇文章的t50-t25為0 或1,與Bcp 值最高10 篇文章相比,ASB 值的關(guān)注突增更明顯。與Bcp 指數(shù)相比,ASB指數(shù)考慮了Altmetrics 指標(biāo)及時(shí)性強(qiáng)、反應(yīng)快的特點(diǎn),更適用于識(shí)別基于Altmetrics 的睡美人文獻(xiàn)。 最高10 篇文章的睡眠深度平均值為8.03%,喚醒強(qiáng)度平均值為91.97%,杜建等通過Bcp 指數(shù)識(shí)別出的引文睡美人樣本集的睡眠深度平均值為28%[15],從側(cè)面反映了Altmetrics 指標(biāo)的關(guān)注分布更為集中,基于引文的睡美人文獻(xiàn)識(shí)別方法不能直接應(yīng)用于Altmetrics。 本文選取累積時(shí)間足夠長的實(shí)驗(yàn)數(shù)據(jù)用于分析Altmetrics 指標(biāo)的累積特征,根據(jù)觀察結(jié)果選取合適的時(shí)間單位用于睡美人文獻(xiàn)的識(shí)別方法設(shè)計(jì)。根據(jù)基于Altmetrics 的睡美人文獻(xiàn)的特征,本文選取論文年齡為t時(shí)的累積關(guān)注百分比At,論文關(guān)注累積首次達(dá)25%和50%的時(shí)間t25、t50,用于設(shè)計(jì)基于Altmetrics 的睡美人文獻(xiàn)識(shí)別方法ASB 指數(shù)。以高關(guān)注度文獻(xiàn)作為實(shí)驗(yàn)數(shù)據(jù),比較ASB 值最高、中位、末位各10 篇文章的關(guān)注累積曲線和指標(biāo)特征,研究結(jié)果表明,ASB 指數(shù)對(duì)基于Altmetrics 的睡美人文獻(xiàn)識(shí)別效果良好。 本文存在一些不足:①很多文獻(xiàn)會(huì)提前在線上發(fā)布,并不是等到發(fā)表之日才公開,但由于無法獲取文獻(xiàn)的具體上線時(shí)間,本文在計(jì)算過程中采用文獻(xiàn)的正式發(fā)表日期作為發(fā)布時(shí)間。后續(xù)研究可以考慮跟蹤一段時(shí)間內(nèi)的文獻(xiàn)發(fā)布情況,以獲取準(zhǔn)確的文獻(xiàn)發(fā)布時(shí)間。②目前,文獻(xiàn)在社交媒體平臺(tái)上的傳播還沒有完全普及,仍然有大量的文獻(xiàn)沒有關(guān)注分值,即使是排名前1%的文章關(guān)注分值也比較低。隨著社交媒體平臺(tái)的發(fā)展和用戶知識(shí)水平的提升,當(dāng)公眾逐漸認(rèn)識(shí)并主動(dòng)關(guān)注學(xué)術(shù)成果時(shí),可能會(huì)有越來越多的論文在社交媒體平臺(tái)上得到關(guān)注,學(xué)者們也更愿意在平臺(tái)上分享科研成果。在后續(xù)研究中可以嘗試加入引文數(shù)據(jù),將基于Altmetrics 的睡美人文獻(xiàn)分析結(jié)果與引文分析結(jié)果相互引證。未來需要進(jìn)一步驗(yàn)證ASB 指數(shù)在不同學(xué)科、不同平臺(tái)以及中文環(huán)境下的有效性。睡美人文獻(xiàn)具有重要價(jià)值,后續(xù)需要對(duì)睡美人文獻(xiàn)進(jìn)行喚醒過程與文獻(xiàn)特征分析,發(fā)現(xiàn)更多的早期識(shí)別線索,實(shí)現(xiàn)睡美人文獻(xiàn)的早期識(shí)別。3.2 ASB指數(shù)設(shè)計(jì)與喚醒時(shí)刻識(shí)別
4 ASB指數(shù)識(shí)別效果檢驗(yàn)
4.1 關(guān)注累積曲線
4.2 指標(biāo)特征
4.3 與Bcp指數(shù)識(shí)別結(jié)果對(duì)比
5 結(jié) 論