余厚強 尹梓涵
(1.中山大學(xué)信息管理學(xué)院 廣州 510006; 2.南京理工大學(xué)經(jīng)濟管理學(xué)院 南京 210094)
隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,科學(xué)交流模式也發(fā)生著日新月異的變化,從傳統(tǒng)的科學(xué)圖書、科技期刊、聲像資料等的交流媒介,以及個人之間通過面談、書信等方式進行的交流形式,到現(xiàn)在各種在線科學(xué)交流平臺和工具的興起,這為研究科學(xué)交流和科技評價提供了大量豐富的數(shù)據(jù),構(gòu)成了替代計量學(xué)研究的基礎(chǔ)[1]。NISO(National Information Standards Organization, 美國國家信息標準化組織)給出替代計量學(xué)的定義為,“替代計量學(xué)是一個寬泛的概念,囊括了與學(xué)術(shù)成果相關(guān)的一系列多樣化的數(shù)字化指標,這些指標來源于學(xué)術(shù)生態(tài)系統(tǒng)乃至公共空間中各種不同利益相關(guān)者和學(xué)術(shù)成果的活動和交互”[2]。
替代計量學(xué)研究離不開高質(zhì)量的替代計量數(shù)據(jù)[3],影響替代計量數(shù)據(jù)質(zhì)量的因素有很多,替代計量數(shù)據(jù)的動態(tài)性、準確性、一致性和可重復(fù)性是影響替代計量數(shù)據(jù)質(zhì)量的主要因素[4]。為規(guī)范替代計量數(shù)據(jù)的使用,美國信息標準化組織對替代計量數(shù)據(jù)質(zhì)量提供了建議性標準,從透明性、可重復(fù)性和準確性三個方面進行了規(guī)定。在此基礎(chǔ)上,劉曉娟等[5]從生命周期視角下,描述了數(shù)據(jù)產(chǎn)生、數(shù)據(jù)收集、數(shù)據(jù)聚合三個環(huán)節(jié)下存在的數(shù)據(jù)質(zhì)量問題和出現(xiàn)問題的原因。余厚強等[6]則通過對替代計量數(shù)據(jù)生產(chǎn)流程的梳理,對與數(shù)據(jù)質(zhì)量相關(guān)的主體要素進行識別,構(gòu)建了替代計量數(shù)據(jù)質(zhì)量評估體系。這些研究為理解和評估替代計量數(shù)據(jù)質(zhì)量提供了框架性的指導(dǎo)。
準確性是數(shù)據(jù)質(zhì)量的基本維度之一,指的是數(shù)據(jù)庫記錄下的數(shù)據(jù)與來源平臺真實的數(shù)據(jù)相一致的程度。針對替代計量數(shù)據(jù)庫的數(shù)據(jù)記錄開展內(nèi)容分析,將數(shù)據(jù)庫提供的數(shù)據(jù)與來源平臺的原始數(shù)據(jù)進行對比,可識別出潛在的錯誤類型。Zahedi等[7]對Mendeley元數(shù)據(jù)的準確性研究發(fā)現(xiàn),學(xué)術(shù)成果的期刊標題、頁碼的錯誤普遍存在。Yu等[8]對政策文件替代計量數(shù)據(jù)的準確性做了系統(tǒng)測定,識別出政策文件平臺和替代計量數(shù)據(jù)庫兩個方面的錯誤類型,并計算出了各種錯誤類型的比例。Ortega[9]則對替代計量數(shù)據(jù)庫中提供的博客和新聞數(shù)據(jù)做了研究,測定了所提供鏈接的可用性。
可重復(fù)性是數(shù)據(jù)質(zhì)量的另一個基本維度,指的是針對相同的對象采用相同的方法在多大程度上可以得到相同的結(jié)果。由于各個替代計量數(shù)據(jù)庫具體的數(shù)據(jù)處理方法無法獲取,相關(guān)研究將不同替代計量數(shù)據(jù)庫的數(shù)據(jù)進行對比,測度數(shù)據(jù)庫之間的數(shù)據(jù)一致性,以評估替代計量數(shù)據(jù)的可重復(fù)性。Zahedi等[10]比較了PLoS、Mendeley和Altmetric三種數(shù)據(jù)庫的數(shù)據(jù),對改進不同替代計量數(shù)據(jù)服務(wù)平臺的數(shù)據(jù)一致性起到了參考性作用。Ortega等[11]從國家、語言和主題角度比較了Altmetric、CrossRef和PlumX在博客提及和新聞提及數(shù)據(jù)上的表現(xiàn),發(fā)現(xiàn)Altmetric在地理和語言上做的較好,博客的覆蓋率最高,PlumX收集的新聞媒體尤其是美國的地方報紙更多一些。不同替代計量數(shù)據(jù)庫提供的替代計量數(shù)據(jù)之間的差異,可能是訪問社交媒體平臺數(shù)據(jù)的不同形式造成的,也可能與收集、處理、匯總和更新替代計量數(shù)據(jù)的不同方式有關(guān)[12]。
替代計量數(shù)據(jù)庫的數(shù)據(jù)政策,是數(shù)據(jù)庫獲取、處理、展示數(shù)據(jù)的根本依據(jù),對指導(dǎo)和保障數(shù)據(jù)質(zhì)量起到至關(guān)重要的作用。不同替代計量數(shù)據(jù)庫為保障數(shù)據(jù)的透明性、可重復(fù)性和準確性,分別采取了不同的政策,對不同替代計量數(shù)據(jù)庫的數(shù)據(jù)政策進行比較,有助于理解不同替代計量數(shù)據(jù)庫對相同的數(shù)據(jù)源在數(shù)據(jù)處理上的差異,以及這些差異可能對數(shù)據(jù)質(zhì)量造成的影響。不同替代計量數(shù)據(jù)庫數(shù)據(jù)數(shù)值的交叉比較,可以從整體上反映替代計量數(shù)據(jù)的穩(wěn)定性,并且發(fā)現(xiàn)不同替代計量數(shù)據(jù)庫在數(shù)據(jù)質(zhì)量上的差異,通過結(jié)合數(shù)據(jù)政策進行分析,可以對差異形成的原因進一步解讀,進而幫助學(xué)者和研究人員在選取替代計量數(shù)據(jù)時根據(jù)不同的需求選擇合適的數(shù)據(jù)庫。
因此,本研究分析了目前主流替代計量數(shù)據(jù)庫的數(shù)據(jù)政策與數(shù)據(jù)數(shù)值,旨在解決以下兩個研究問題:
a. 從數(shù)據(jù)質(zhì)量保障的政策來看,主要的替代計量數(shù)據(jù)庫存在什么異同?數(shù)據(jù)質(zhì)量保障政策包括保障數(shù)據(jù)透明性的政策,保障數(shù)據(jù)可重復(fù)性的政策和保障數(shù)據(jù)準確性的政策。
b. 從數(shù)據(jù)交叉比較的分析角度,不同數(shù)據(jù)庫對相同數(shù)據(jù)來源捕捉的數(shù)據(jù)存在什么異同?針對相同的替代計量數(shù)據(jù)源,分析不同數(shù)據(jù)庫之間的替代計量數(shù)據(jù)差異,并根據(jù)這些差異對替代計量數(shù)據(jù)庫的特征進行分析。
1.1研究對象的選取目前較為流行的替代計量數(shù)據(jù)庫有CrossRef、Altmetric.com、PLoS ALM、ImpactStory、PlumX和Kudos,共計6家。對比了這幾個替代計量數(shù)據(jù)服務(wù)平臺的服務(wù)范圍、受眾范圍、數(shù)據(jù)源等基本情況,本研究選取了Altmetric.com、CrossRef和PLOS ALM這3種替代計量數(shù)據(jù)庫作為比較分析的對象,因為:ImpactStory數(shù)據(jù)庫中的數(shù)據(jù)僅對研究者個人開放使用,無法獲取替代計量數(shù)據(jù)來進行數(shù)據(jù)庫的分析;只有少數(shù)幾家與PlumX合作的機構(gòu)公開了它們的數(shù)據(jù),所以PlumX可以訪問的數(shù)據(jù)很有限;關(guān)于CrossRef、PlumX和Altmetric.com數(shù)據(jù)庫的數(shù)據(jù)比較,Ortega等[11]已經(jīng)進行了較為深入的研究;Kudos與Altmetric.com的數(shù)據(jù)存在重疊。
上述選取的Altmetric.com、CrossRef和PLOS ALM 3種數(shù)據(jù)庫,所收集的替代計量數(shù)據(jù)來源種類并不完全相同。為了進行對比分析,本研究關(guān)注至少被其中兩種數(shù)據(jù)庫收集的替代計量數(shù)據(jù)來源,結(jié)果共有7種數(shù)據(jù)源,其定義和收集情況如表1所示。
表1 獲取的替代計量數(shù)據(jù)庫的數(shù)據(jù)源比較
1.2數(shù)據(jù)獲取過程針對各數(shù)據(jù)庫關(guān)于數(shù)據(jù)政策的比較分析,主要通過網(wǎng)絡(luò)調(diào)研,包括各個數(shù)據(jù)庫的網(wǎng)站和其他會議資料,收集各個數(shù)據(jù)庫在數(shù)據(jù)質(zhì)量方面采取的措施和制定的政策。
針對各數(shù)據(jù)來源的數(shù)值比較,首先利用自行編寫的Python程序,對CrossRef數(shù)據(jù)(CED,CrossRef Events Data)2019年12月1日的數(shù)據(jù)進行獲取,得到了414 132條數(shù)據(jù)。將這些數(shù)據(jù)涉及的學(xué)術(shù)成果DOI提取出來,分別在PLoS ALM數(shù)據(jù)庫和Altmetric.com數(shù)據(jù)庫中進行檢索,得到至少被兩個數(shù)據(jù)庫收錄的學(xué)術(shù)成果1 600個。對3個數(shù)據(jù)庫的數(shù)據(jù)按照DOI進行匹配,兩兩數(shù)據(jù)庫進行數(shù)據(jù)對比,由于不同數(shù)據(jù)庫對于學(xué)術(shù)成果的收錄范圍、收錄時間的不同,不同數(shù)據(jù)庫檢索出來的論文數(shù)量有一定差異,分別獲得的論文數(shù)量如圖1所示。
圖1 三種替代計量數(shù)據(jù)庫收錄論文重疊情況
1.3數(shù)據(jù)分析步驟在得到每一項替代計量數(shù)據(jù)庫的數(shù)據(jù)項后,分別進行數(shù)據(jù)庫之間的比較,比較方式有以下兩種:
a.利用不同數(shù)據(jù)庫之間數(shù)據(jù)的計數(shù)差反映差異。設(shè)DOI相同的學(xué)術(shù)成果為i,i在3個數(shù)據(jù)庫中某一類型的替代計量數(shù)據(jù)(如Twitter)的提及量分別為Ci(CrossRef中提及量)、Ai(Altmetric.com提及量)和Pi(PLoS ALM提及量),用k表示兩個數(shù)據(jù)庫數(shù)據(jù)的差值,N(k)表示兩個數(shù)據(jù)庫差值為k的學(xué)術(shù)成果的總個數(shù)。
k=Ci-Ai
(1)
通過對比N(k),來反映不同替代計量數(shù)據(jù)庫的替代計量數(shù)據(jù)的差異。
b. 利用計數(shù)差的標準差反映不同替代計量數(shù)據(jù)庫之間的差異。將計數(shù)差進行統(tǒng)計分析,標準差可以展現(xiàn)不同替代計量數(shù)據(jù)庫的差異,較集中的分布表明替代計量數(shù)據(jù)庫之間數(shù)據(jù)差異較小,普遍向一個替代計量數(shù)據(jù)庫傾斜的數(shù)據(jù)分布則表明,這個數(shù)據(jù)庫總是比其他數(shù)據(jù)庫提供更多或更少的替代計量事件。
NISO從透明性、可重復(fù)性和準確性三個方面,提出了替代計量數(shù)據(jù)質(zhì)量的建議性規(guī)范和標準[3],替代計量數(shù)據(jù)庫服務(wù)商分別應(yīng)對NISO標準做出了回應(yīng)和調(diào)整,建立了相關(guān)數(shù)據(jù)政策,對數(shù)據(jù)庫的數(shù)據(jù)處理方式、數(shù)據(jù)質(zhì)量的保障方法、數(shù)據(jù)庫信息等進行公示,這為對比不同替代計量數(shù)據(jù)庫數(shù)據(jù)政策,提供了依據(jù)和數(shù)據(jù)支撐。
2.1不同替代計量數(shù)據(jù)庫保障透明性數(shù)據(jù)政策的對比分析透明性是指所提供替代計量數(shù)據(jù)的信息和細節(jié)的清晰程度以及完整的文檔記錄,并將這些信息都向所有用戶開放,以便進行驗證。NISO建議數(shù)據(jù)庫能夠提供以下信息來保障透明度:替代計量數(shù)據(jù)庫如何生成、收集和管理數(shù)據(jù);數(shù)據(jù)庫如何將數(shù)據(jù)聚合和生成派生數(shù)據(jù);數(shù)據(jù)庫更新數(shù)據(jù)的時間和頻率;如何訪問數(shù)據(jù);數(shù)據(jù)庫如何監(jiān)控數(shù)據(jù)質(zhì)量。
為保障替代計量數(shù)據(jù)的透明性,Altmetric.com、CED和PLoS ALM三個替代計量數(shù)據(jù)庫都對數(shù)據(jù)源及其收集方式、更新頻率和監(jiān)控數(shù)據(jù)情況進行公開。三個替代計量數(shù)據(jù)庫的相同點體現(xiàn)在:都公開了生成和管理數(shù)據(jù)的方式;獲取數(shù)據(jù)的途徑主要是各個數(shù)據(jù)平臺的API;提供數(shù)據(jù)訪問的方式主要是API和可視化操作界面。不同點主要體現(xiàn)在:在數(shù)據(jù)庫數(shù)據(jù)更新上,PLoS ALM根據(jù)學(xué)術(shù)成果的發(fā)布時間進行更新,而CED和Altmetric.com都是分時段或?qū)崟r更新;在監(jiān)控方式上,Altmetric.com采取多種數(shù)據(jù)監(jiān)控方式,如設(shè)置閾值自動標記可疑活動、人工監(jiān)控等;在監(jiān)控數(shù)據(jù)上,PLoS ALM采用24小時自動監(jiān)控,并結(jié)合人工監(jiān)控。
2.2不同替代計量數(shù)據(jù)庫保障可重復(fù)性數(shù)據(jù)政策的對比分析可重復(fù)性是指一組數(shù)據(jù)在數(shù)據(jù)源和數(shù)據(jù)收集者之間以及在一段時間內(nèi)保持一致的程度。NISO建議替代計量數(shù)據(jù)庫通過以下方式來保障數(shù)據(jù)的可重復(fù)性:隨著時間的推移,數(shù)據(jù)庫生成所提供的替代計量數(shù)據(jù)的方式應(yīng)該是相同的;數(shù)據(jù)庫應(yīng)該記錄下收集和處理數(shù)據(jù)方法的變化及其造成的影響;數(shù)據(jù)庫對錯誤進行糾正后,數(shù)據(jù)的變化應(yīng)該被記錄在案;數(shù)據(jù)庫同時提供給不同用戶的替代計量數(shù)據(jù)應(yīng)該是相同的,如果提供的數(shù)據(jù)不同,則數(shù)據(jù)庫應(yīng)當記錄不同用戶組訪問的差異;替代計量數(shù)據(jù)庫應(yīng)該提供關(guān)于數(shù)據(jù)是否可以獨立驗證以及如何獨立驗證的信息。
為保障數(shù)據(jù)庫的可重復(fù)性,Altmetric.com、CED和PLoS ALM 3個替代計量數(shù)據(jù)庫都對提供的每個類型的替代計量數(shù)據(jù)進行了說明。a.在數(shù)據(jù)的生成和處理上,Altmetric.com對于學(xué)術(shù)成果的替代計量關(guān)注度得分的加權(quán)算法、原始的計數(shù)在學(xué)術(shù)成果替代計量詳情頁都是公開的;而PLoS ALM由于一些數(shù)據(jù)源的限制,部分數(shù)據(jù)只能提供計數(shù),不能獲取數(shù)據(jù)來源詳情;CED更關(guān)注事件本身而不是對數(shù)據(jù)進行度量,所以不對數(shù)據(jù)進行計量處理。b.在數(shù)據(jù)的提供與跟蹤上,Altmetric.com所有替代計量數(shù)據(jù)都基于相同的數(shù)據(jù)庫;CED數(shù)據(jù)庫直接傳遞替代計量事件的數(shù)據(jù),而不提供度量標準,所有事件都有時間戳,用于表示它們發(fā)生的時間,因此,用于收集事件的程序可以用時間戳進行匹配;PLoS ALM數(shù)據(jù)庫沒有審計跟蹤數(shù)據(jù),對于運行ALM的開源軟件,將可能影響數(shù)據(jù)的收集方式的變化都予以記錄。
2.3不同替代計量數(shù)據(jù)庫保障準確性的數(shù)據(jù)政策對比準確性是指收集到的數(shù)據(jù)描述的準確程度。NISO建議數(shù)據(jù)庫確保以下幾點來保障數(shù)據(jù)的準確性:替代計量數(shù)據(jù)庫提供的數(shù)據(jù)和數(shù)據(jù)庫聲明反映的數(shù)據(jù)一致;數(shù)據(jù)庫應(yīng)當能夠識別和糾正已知的錯誤;替代計量數(shù)據(jù)庫提供數(shù)據(jù)的任何限制都被說明。
在保障數(shù)據(jù)的準確性上,3個數(shù)據(jù)庫的共同點在于,都定義了不同類型的數(shù)據(jù),但是采取了不同的措施:Altmetric.com對數(shù)據(jù)進行監(jiān)控,并在學(xué)術(shù)成果替代計量詳情頁進行解釋;CED為保障數(shù)據(jù)的準確性,對每個數(shù)據(jù)源都進行監(jiān)視,以防服務(wù)中斷導(dǎo)致數(shù)據(jù)源不可用,但是不對數(shù)據(jù)進行調(diào)整,只對新產(chǎn)生的數(shù)據(jù)標上時間戳;PLoS ALM對新收集數(shù)據(jù)的數(shù)據(jù)質(zhì)量通過每24小時運行一次的自動過程進行監(jiān)控,并尋找異常值,同時工作人員也對數(shù)據(jù)進行人工監(jiān)控。
3.1 Twitter數(shù)據(jù)的交叉比對分析根據(jù)處理后的數(shù)據(jù),繪制數(shù)據(jù)庫之間計數(shù)差的直方圖,如圖2所示,其中白色柱狀代表Altmetric/CED,也就是學(xué)術(shù)成果的Twitter數(shù)據(jù)在Altmetric.com數(shù)據(jù)庫和CED數(shù)據(jù)庫計數(shù)差的累計總和。例如,橫坐標為0的白色條形代表在Altmetric和CED兩個數(shù)據(jù)庫中,Twitter數(shù)據(jù)的數(shù)值相差為0的論文數(shù)量的值。
圖2 不同替代計量數(shù)據(jù)庫中Twitter提及數(shù)據(jù)分布差異
表2 不同替代計量數(shù)據(jù)庫Twitter提及數(shù)據(jù)分布統(tǒng)計參數(shù)差異
表2展現(xiàn)了Altmetric、CED、PLoS ALM 3個替代計量數(shù)據(jù)庫的Twitter替代計量數(shù)據(jù)分布差異,可以看出Altmetric的Twitter替代計量數(shù)據(jù)普遍比CED和PLoS ALM兩個數(shù)據(jù)庫的數(shù)據(jù)要大,CED與PLoS ALM相差相對較小,但PLoS ALM部分數(shù)據(jù)的計數(shù)比CED要大一些。
3.2 Wikipedia數(shù)據(jù)的交叉比對分析Wikipedia是目前全球最大的網(wǎng)絡(luò)參考工具書。圖3表示W(wǎng)ikipedia替代計量數(shù)據(jù)的不同數(shù)據(jù)庫的數(shù)據(jù)分布差異情況。從圖3中可以發(fā)現(xiàn)Altmetric/CED分布在坐標軸0刻度的左側(cè),CED/PLoS ALM分布在坐標軸0刻度右側(cè),因此CED的計數(shù)普遍高于Altmetric和PLoS ALM數(shù)據(jù)庫。
圖3 不同替代計量數(shù)據(jù)庫中Wikipedia提及數(shù)據(jù)分布差異
表3 不同替代計量數(shù)據(jù)庫Wikipedia提及數(shù)據(jù)分布統(tǒng)計參數(shù)差異
表3展現(xiàn)了Altmetric、CED、PLoS ALM 3個替代計量數(shù)據(jù)庫的Wikipedia替代計量的數(shù)據(jù)分布參數(shù)差異。從表3中可以看出CED的Wikipedia替代計量數(shù)據(jù)的計數(shù)普遍比其他兩個數(shù)據(jù)庫的數(shù)據(jù)計數(shù)值大,從計數(shù)差的平均值來看,CED比Altmetric數(shù)據(jù)庫的數(shù)據(jù)平均值要高444.8,CED比PLoS ALM數(shù)據(jù)庫的平均值高325.2,從標準差來看,CED與其他兩個數(shù)據(jù)庫的計數(shù)差異的標準差分別為1147.1和995.1,標準差普遍偏高進一步證明了CED替代計量數(shù)據(jù)庫對Wikipedia的引用數(shù)據(jù)的計數(shù)值更高一些。但是值得一提的是,3個數(shù)據(jù)庫的計數(shù)差為0的數(shù)據(jù)所占百分比都較大,其中Altmetric和PLoS ALM數(shù)據(jù)庫的Wikipedia替代計量數(shù)據(jù)一致性更高一些。
3.3 Reddit數(shù)據(jù)的交叉比對分析Reddit是一個集娛樂、社交和新聞一體的網(wǎng)站,網(wǎng)站上的內(nèi)容分類包括新聞、電子游戲、電影、音樂、書籍、健身、食物和圖片分享等。Reddit替代計量數(shù)據(jù)不同數(shù)據(jù)庫的分布差異如圖4所示,可以看出Altmetric和CED數(shù)據(jù)庫的差值分布在坐標軸0刻度的兩側(cè),可以把這種差異歸結(jié)為誤差所致。而Altmetric/PLoS ALM和 CED/PLoS ALM都在坐標軸0刻度的右側(cè)分布多一些,說明Altmetric數(shù)據(jù)庫和CED數(shù)據(jù)庫在Reddit替代計量數(shù)據(jù)上,比PLoS ALM數(shù)據(jù)庫的計數(shù)值都要大一些,而Altmetric數(shù)據(jù)庫和CED數(shù)據(jù)庫的數(shù)據(jù)一致性更強一些。
表4展現(xiàn)了Altmetric、CED、PLoS ALM 3個替代計量數(shù)據(jù)庫的Reddit替代計量的數(shù)據(jù)分布差異??梢钥闯鯝ltmetric/CED的Reddit數(shù)據(jù)的計數(shù)差平均值為-0.2,標準差為2.1,其中計數(shù)差為0的部分所占總體79.9%。從數(shù)據(jù)計數(shù)差值來看,3個數(shù)據(jù)庫計數(shù)差值都達到80%左右,相比其他替代計量數(shù)據(jù)源,Reddit的替代計量數(shù)據(jù)計數(shù)上相差比較小,數(shù)據(jù)的分布一致性較強。
圖4 不同替代計量數(shù)據(jù)庫中Reddit提及數(shù)據(jù)分布差異
表4 不同替代計量數(shù)據(jù)庫Reddit提及數(shù)據(jù)分布統(tǒng)計參數(shù)差異
3.4 F1000數(shù)據(jù)的交叉比對分析F1000是基于訂閱的文章推薦和文獻發(fā)現(xiàn)服務(wù),可幫助讀者篩選每天出版的數(shù)千篇有關(guān)生物學(xué)和醫(yī)學(xué)的期刊文章。圖5展現(xiàn)了Altmetric、CED、PLoS ALM 3個替代計量數(shù)據(jù)庫的F1000替代計量的數(shù)據(jù)分布差異。從圖5可以發(fā)現(xiàn)Altmetric/CED、Altmetric/PLoS和ALMCED/PLoS ALM在直方圖的分布上都在坐標軸0刻度的左側(cè),但分布相對較少,這說明CED數(shù)據(jù)庫在F1000替代計量數(shù)據(jù)的收集的數(shù)據(jù)相較于PLoS ALM和Altmetric數(shù)據(jù)庫更多一些。相比其他替代計量數(shù)據(jù)源,F(xiàn)1000的替代計量數(shù)據(jù)計數(shù)上相差小,數(shù)據(jù)的分布一致性強。
圖5 不同替代計量數(shù)據(jù)庫中F1000提及數(shù)據(jù)分布差異
表5 不同替代計量數(shù)據(jù)庫F1000提及數(shù)據(jù)分布統(tǒng)計參數(shù)差異
從表5中可以看出3個數(shù)據(jù)庫直接的計數(shù)差平均值都很小,相差都在0.05及以下,標準差都在0.04及以下,計數(shù)差為0的部分所占總體均在97.5%以上,進一步證實數(shù)據(jù)分布的一致性較強。
3.5 Facebook數(shù)據(jù)的交叉比對分析Facebook是源于美國的社交網(wǎng)絡(luò)服務(wù)及社會化媒體網(wǎng)站,是用戶分享生活的主要平臺。圖6和表6展現(xiàn)了Altmetric和PLoS ALM兩個替代計量數(shù)據(jù)庫的Facebook替代計量的數(shù)據(jù)分布差異,由于CED數(shù)據(jù)庫沒有Facebook這一替代計量數(shù)據(jù)源,只對Altmetric和PLoS ALM數(shù)據(jù)庫進行分析。
表6 不同替代計量數(shù)據(jù)庫Facebook提及數(shù)據(jù)分布統(tǒng)計參數(shù)差異
圖6 不同替代計量數(shù)據(jù)庫中Facebook提及數(shù)據(jù)分布差異
從圖6中可以看出直方圖的分布上在坐標軸0刻度的兩側(cè),分布較為均勻,從圖中可以看出大于0所占的比例相對大一些。從表6中可以看出,兩個數(shù)據(jù)庫計數(shù)差平均值為-20.2,標準差為189.8,兩個數(shù)據(jù)庫的數(shù)據(jù)分布存在一定的差異,兩個替代計量數(shù)據(jù)庫在Facebook替代計量數(shù)據(jù)數(shù)值差為0占總體的56.1%,計數(shù)差小于0占總體的20.4%,Altmetric數(shù)據(jù)庫比PLoS ALM 數(shù)據(jù)庫的數(shù)值多1的數(shù)據(jù)占比10.7%。所以Altmetric數(shù)據(jù)庫與PLoS ALM在Facebook上的數(shù)據(jù)存在一定差異。
3.6 DataCite數(shù)據(jù)的交叉比對分析DataCite是一個國際非營利性組織,為研究數(shù)據(jù)和其他研究輸出提供持久性標識符(DOI)。圖7和表7展現(xiàn)了CED和PLoS ALM兩個替代計量數(shù)據(jù)庫的DataCite替代計量數(shù)據(jù)的數(shù)據(jù)分布差異,由于Altmetric數(shù)據(jù)庫沒有DataCite這一替代計量數(shù)據(jù)數(shù)據(jù)源,只對CED和PLoS ALM數(shù)據(jù)庫進行DataCite替代計量數(shù)據(jù)進行分析。
圖7 不同替代計量數(shù)據(jù)庫中DataCite提及數(shù)據(jù)分布差異
表7 不同替代計量數(shù)據(jù)庫DataCite提及數(shù)據(jù)分布統(tǒng)計參數(shù)差異
從圖7中可以明顯地看出直方圖更多的分布在坐標軸0刻度的右側(cè),也就是CED的數(shù)據(jù)值普遍會比PLoS ALM的要大一些。從表7中可以看出,兩個數(shù)據(jù)庫計數(shù)差平均值為5.5,標準差為100.8,計數(shù)差小于0僅占總體的0.1%,計數(shù)差為1占總體的0.2%,計數(shù)差為2占總體的0.3%,但其平均值5.5相對其他替代計量數(shù)據(jù)來說,平均值較小,說明兩個數(shù)據(jù)庫的數(shù)據(jù)相差不是特別大。
3.7 Wordpress數(shù)據(jù)的交叉比對分析Wordpress是一個開源的博客軟件和內(nèi)容管理系統(tǒng),是目前最流行的博客系統(tǒng)之一。圖8和表8展現(xiàn)了CED和PLoS ALM兩個替代計量數(shù)據(jù)庫的Wordpress替代計量數(shù)據(jù)的數(shù)據(jù)分布差異,因為Altmetric數(shù)據(jù)庫并不包含Wordpress這一替代計量數(shù)據(jù)源,所以只對CED和PLoS ALM兩個數(shù)據(jù)庫的Wordpress的替代計量數(shù)據(jù)進行分析。
圖8 不同替代計量數(shù)據(jù)庫中Wordpress提及數(shù)據(jù)分布差異
表8 不同替代計量數(shù)據(jù)庫Wordpress提及數(shù)據(jù)分布統(tǒng)計參數(shù)差異
從圖8中可以看出直方圖在坐標軸0刻度兩側(cè)的分布比較均勻,可以理解為兩個數(shù)據(jù)庫的差異更多是由于隨機誤差導(dǎo)致的。從表8中可以看出,兩個數(shù)據(jù)庫計數(shù)差平均值為0.1,標準差為2.6,計數(shù)差小于0占總體的4.3%,計數(shù)差為0的數(shù)據(jù)占總體的91.0%。就平均值而言,相對其他替代計量數(shù)據(jù)數(shù)值小得多,一方面是本身替代計量數(shù)據(jù)為0的數(shù)量比較多,另一方面是在Wordpress這一平臺上被討論的學(xué)術(shù)成果相對偏少,但總的來說Wordpress這一替代計量數(shù)據(jù)源在CED和PLoS ALM替代計量數(shù)據(jù)庫中的差異較小。
雖然理論上來說,不同替代計量數(shù)據(jù)庫應(yīng)該提供一致的替代計量數(shù)據(jù),但是由于替代計量數(shù)據(jù)本身的多源性,目前還沒有一家替代計量數(shù)據(jù)庫能夠涵蓋所有來源的數(shù)據(jù)。不同的替代計量數(shù)據(jù)庫在發(fā)展的過程中,都形成了自己特色的數(shù)據(jù)源,并且基于各自的愿景和目標,制定了不盡相同的數(shù)據(jù)政策。這些數(shù)據(jù)政策對數(shù)據(jù)數(shù)值有直接的影響,使得在某些替代計量數(shù)據(jù)上呈現(xiàn)出顯著差異。
本文通過對不同替代計量數(shù)據(jù)庫的數(shù)據(jù)政策和數(shù)據(jù)數(shù)值進行對比,揭示了不同替代計量數(shù)據(jù)庫數(shù)據(jù)的特征,主要得出以下結(jié)論:
a.Altmetric.com對提供的每個替代計量數(shù)據(jù)都進行了清晰定義,對于學(xué)術(shù)成果的替代計量關(guān)注度得分的加權(quán)算法也進行了公布,原始的計數(shù)在學(xué)術(shù)成果替代計量詳情頁也可以看到,同時Altmetric.com也將不同數(shù)據(jù)源的采集方式公布。
b.CED的數(shù)據(jù)是通過從非學(xué)術(shù)來源進行收集以及允許學(xué)術(shù)來源發(fā)送數(shù)據(jù)。與其他替代計量數(shù)據(jù)庫相比,CED更關(guān)注事件本身而不是對數(shù)據(jù)進行度量,CED對每項替代計量數(shù)據(jù)數(shù)據(jù)的來源以及采集方式進行了說明,同時CED對每個事件都打上時間戳,所有的事件都會與這一時間戳匹配,所有數(shù)據(jù)都將有一個開放的API。
c.PLoS ALM將所有數(shù)據(jù)源的供應(yīng)商進行了公示,由于一些數(shù)據(jù)源的限制,部分數(shù)據(jù)只能提供計數(shù),對于不同的數(shù)據(jù)源,PLoS ALM收集數(shù)據(jù)的時間間隔也不一樣,在論文發(fā)表的第一個月每天收集,在論文發(fā)表的一年內(nèi),每周收集,一年后,每個月收集一次。
4.2不同替代計量數(shù)據(jù)庫的數(shù)據(jù)存在顯著差異一是不同數(shù)據(jù)庫追蹤的替代計量數(shù)據(jù)源不同,二是不同數(shù)據(jù)庫在同一數(shù)據(jù)源上的數(shù)值也存在一定的差異。其中,在數(shù)據(jù)數(shù)值的比較上,對至少被兩種數(shù)據(jù)庫收錄的7種替代計量數(shù)據(jù)做了交叉對比,得到了具體的結(jié)論如下:
a.Twitter數(shù)據(jù)方面,Altmetric數(shù)據(jù)庫的Twitter數(shù)據(jù)計數(shù)值比CED和PLoS ALM替代計量數(shù)據(jù)庫高。這可能是因為計數(shù)方式上的差異,Altmetric數(shù)據(jù)庫在獲取Twitter數(shù)據(jù)時將轉(zhuǎn)發(fā)也進行計數(shù)。
b.Wikipedia數(shù)據(jù)方面,CED所提取Wikipedia的數(shù)據(jù)最為廣泛。3個替代計量數(shù)據(jù)庫搜集Wikipedia頁面的范圍不同,Altmetric數(shù)據(jù)庫只收集英文Wikipedia數(shù)據(jù),PLoS ALM只收集世界上最受歡迎的20個維基百科網(wǎng)站的維基百科頁面數(shù)。
c.Facebook數(shù)據(jù)方面,PLoS ALM的數(shù)據(jù)數(shù)值要大于Altmetric。這可能是因為Altmetric數(shù)據(jù)庫只獲取公開的Facebook數(shù)據(jù),而PLoS ALM涉及私密的Facebook帖子。
d.Reddit、F1000、DataCite和Wordpress數(shù)據(jù)方面,三個數(shù)據(jù)庫的數(shù)據(jù)一致性較強,隨機誤差導(dǎo)致的數(shù)據(jù)分布差異較小。