丁楠黎嬌李文雨澤白晉銘潘有能
(1.浙江大學(xué)圖書館 浙江杭州 310027)
(2.浙江大學(xué)公共管理學(xué)院信息資源管理系 浙江杭州 310058)
·信息分析與科學(xué)評價·
基于引用的科學(xué)數(shù)據(jù)評價研究*
丁楠黎嬌李文雨澤白晉銘潘有能
(1.浙江大學(xué)圖書館 浙江杭州 310027)
(2.浙江大學(xué)公共管理學(xué)院信息資源管理系 浙江杭州 310058)
科學(xué)研究離不開數(shù)據(jù)的支持,科學(xué)數(shù)據(jù)評價是對科學(xué)數(shù)據(jù)實施有效管理、促進數(shù)據(jù)共享與重用的基礎(chǔ)。文章借鑒引文分析方法,選取數(shù)據(jù)發(fā)布量、數(shù)據(jù)被引量、數(shù)據(jù)平均被引頻次及h指數(shù)等指標(biāo),構(gòu)建了基于引用的數(shù)據(jù)評價體系,并以DCI中的人口調(diào)查數(shù)據(jù)為例進行了實證研究。研究發(fā)現(xiàn)通過數(shù)據(jù)引用可以有效地對科學(xué)數(shù)據(jù)的發(fā)布及存儲機構(gòu)的影響力進行評估,而DCI雖然由于建立時間較短而不夠成熟,但仍可為科學(xué)數(shù)據(jù)的定量評價提供強有力支持。
數(shù)據(jù)共享數(shù)據(jù)引用數(shù)據(jù)評價引文分析
現(xiàn)代科學(xué)經(jīng)過數(shù)百年的發(fā)展,產(chǎn)生了數(shù)量龐大而又結(jié)構(gòu)復(fù)雜的科學(xué)數(shù)據(jù),在這些已有數(shù)據(jù)的基礎(chǔ)上開展進一步研究是科學(xué)研究的一種重要模式。從某種程度上來說,基礎(chǔ)數(shù)據(jù)的質(zhì)量直接決定了研究的質(zhì)量,因此科學(xué)數(shù)據(jù)的評價具有重要意義。然而目前國內(nèi)外學(xué)界尚缺乏統(tǒng)一的數(shù)據(jù)引用規(guī)范,也沒有完整的科學(xué)數(shù)據(jù)評價標(biāo)準(zhǔn),這為科學(xué)數(shù)據(jù)的評價帶來了很大的困難,也影響到了作者和機構(gòu)共享數(shù)據(jù)的積極性。本項研究試圖借鑒傳統(tǒng)的引文分析,探討基于引用的科學(xué)數(shù)據(jù)評價方法,選擇合理的評價指標(biāo),從而達到對科學(xué)數(shù)據(jù)及相應(yīng)的機構(gòu)和數(shù)據(jù)倉儲進行客觀、有效地評價的目的,促進數(shù)據(jù)的共享與利用。圖書情報學(xué)領(lǐng)域的專家學(xué)者在引文分析研究中已經(jīng)積累了寶貴的經(jīng)驗并形成了一些較為成熟的方法,這些經(jīng)驗與方法可為數(shù)據(jù)引用分析提供借鑒。但數(shù)據(jù)引用分析與引文分析仍有明顯區(qū)別,引文分析的對象主要是文獻,而數(shù)據(jù)引用分析的對象是原始數(shù)據(jù)或派生數(shù)據(jù),在科研素材體系中處于更底層的位置,其粒度也相對更細。對數(shù)據(jù)引用進行分析可以從更原始、更基礎(chǔ)的層面上了解科研產(chǎn)出情況,從而提供一個新的對科研機構(gòu)或?qū)W者進行評價的視角。
目前專門針對科學(xué)數(shù)據(jù)評價的研究尚不多見,絕大部分的相關(guān)研究都是直接針對“數(shù)據(jù)”這一概念,大致可以分為兩種類型:一種是如何評價一般開放數(shù)據(jù),即對數(shù)據(jù)本身的評價;另外一種則是如何評價特定數(shù)據(jù)環(huán)境中的數(shù)據(jù),即將數(shù)據(jù)置身于數(shù)據(jù)庫或信息系統(tǒng)中進行評價。
(1)對數(shù)據(jù)本身的評價。對數(shù)據(jù)本身的評價方法可分為單維度準(zhǔn)確性評估和基于多維度指標(biāo)的評價等。在單維度準(zhǔn)確性評估中,針對總量數(shù)據(jù),可采用邏輯規(guī)則檢驗、經(jīng)驗參數(shù)比對、相關(guān)指標(biāo)變動趨勢對比、基于模型的異常數(shù)值識別與參數(shù)穩(wěn)定性分析等方法,針對個體數(shù)據(jù),則可采用統(tǒng)計分布檢驗與基于統(tǒng)計分布的異常數(shù)值識別、基于事后重復(fù)調(diào)查的偏差估計、誤差效應(yīng)的測量及其模型建構(gòu)等方法?;诙嗑S度指標(biāo)的評價方法通常在給出精確性(給定數(shù)據(jù)集合與相應(yīng)正確實際的相符程度)、可達性(數(shù)據(jù)可以得到的程度)、一致性(數(shù)據(jù)能以相同格式表達的程度)、完整性(數(shù)據(jù)無缺失的程度)、時效性(數(shù)據(jù)的時間特性對應(yīng)用的滿足程度)等指標(biāo)的定義和計算方法的基礎(chǔ)上,對計算結(jié)果進行再加工。
(2)對特定數(shù)據(jù)環(huán)境中的數(shù)據(jù)的評價。根據(jù)所處數(shù)據(jù)環(huán)境的不同,該類評價方法又可細分為基于數(shù)據(jù)庫的評價和基于信息系統(tǒng)的評價。在基于數(shù)據(jù)庫的評價中,依照用戶的不同可將評價指標(biāo)分為數(shù)據(jù)使用質(zhì)量和數(shù)據(jù)質(zhì)量兩方面。數(shù)據(jù)使用質(zhì)量包括數(shù)據(jù)查詢率、安全性、敏捷性、可響應(yīng)性、可使用性(可采集到的數(shù)據(jù)是否在數(shù)據(jù)超市中得到應(yīng)用)、有效性(數(shù)據(jù)的更新頻率);對數(shù)據(jù)質(zhì)量的評價存在于數(shù)據(jù)倉庫其他模塊對數(shù)據(jù)的操作當(dāng)中,是反映數(shù)據(jù)倉庫物理層數(shù)據(jù)的固有屬性,包括完整度(非法空值記錄的條數(shù))、可信度、正確度(缺省值的記錄條數(shù))、一致性、唯一性等。在基于信息系統(tǒng)的評價中,數(shù)據(jù)被視為有生命周期的產(chǎn)品,從數(shù)據(jù)表示質(zhì)量、數(shù)據(jù)值質(zhì)量、數(shù)據(jù)模型質(zhì)量和數(shù)據(jù)體系結(jié)構(gòu)質(zhì)量4個維度,對數(shù)據(jù)質(zhì)量進行評價。
以上兩種方法在進行數(shù)據(jù)評價時,盡管針對層面和開展角度有所不同,但都需要建立一個評價體系并設(shè)立各種指標(biāo),此外還需確定指標(biāo)的權(quán)重,從而不可避免地具有較大的主觀性。更為重要的是,該類評價方法的適應(yīng)性在復(fù)雜的數(shù)據(jù)環(huán)境中將遭受極大的考驗,正如很難有一套指標(biāo)體系直接對各個學(xué)科中的論文質(zhì)量進行評價一樣。因此,本項研究將摒棄直接對數(shù)據(jù)質(zhì)量進行評價的思路,而試圖通過科學(xué)數(shù)據(jù)被引用的情況來評價其影響力,并從側(cè)面反映數(shù)據(jù)的質(zhì)量及重要程度,從而保證了該評價方法的客觀、有效及廣泛的適用性。
數(shù)據(jù)引用類似于文獻引用,是指作者在論文中以參考文獻、腳注或文中注等方式,對其所引用的數(shù)據(jù)提供來源出處的做法。與文獻引用類似,數(shù)據(jù)被引用意味著數(shù)據(jù)進入了交流領(lǐng)域被獲取和使用,并產(chǎn)生影響。數(shù)據(jù)引用不但意味著使用者對被引用數(shù)據(jù)及其所有者的認(rèn)可,還可在數(shù)據(jù)管理與共享中起到重要作用。首先,科研工作者可通過數(shù)據(jù)引用信息定位并獲取數(shù)據(jù),從而促進數(shù)據(jù)的共享與重用;其次,科研人員或管理者可通過數(shù)據(jù)引用獲取科學(xué)研究的原始數(shù)據(jù),重現(xiàn)研究過程,從而對其結(jié)果進行驗證;最后,數(shù)據(jù)引用可以增強數(shù)據(jù)生產(chǎn)者的被認(rèn)同感,激勵研究人員進行科研創(chuàng)造和共享。
目前,基于文獻引用的引文分析方法在長期發(fā)展中已趨于完善和成熟,并被廣泛應(yīng)用于各個層面的測度評價研究,包括微觀層面(作者個人、研究小組)、中觀層面(機構(gòu)、期刊)和宏觀層面(國家、跨國區(qū)域)。常用的引文分析指標(biāo)則有發(fā)文量、被引量、篇均被引次數(shù)、影響因子、h指數(shù)等,其中發(fā)文量和被引量是兩個基本的測度,篇均被引次數(shù)和影響因子主要用于衡量機構(gòu)或期刊論文的平均影響力。由于影響因子可以消除由于載文量不同和論文質(zhì)量參差不齊所造成的對期刊被引率的影響,從而能夠在不同期刊間進行比較,目前已在引文分析和期刊評價中得到廣泛應(yīng)用。h指數(shù)是近年新出現(xiàn)的一種評價指標(biāo),綜合考慮到了論文發(fā)表的數(shù)量和質(zhì)量,在各個層面的測度評價中具有較強的適應(yīng)性。因為數(shù)據(jù)引用與文獻引用之間的相似性,這些指標(biāo)也可以被數(shù)據(jù)引用分析所借鑒。參照引文分析方法,并綜合考慮數(shù)據(jù)評價的特點與可行性,本項研究擬選取微觀層面的團體作者和中觀層面的數(shù)據(jù)倉儲作為研究對象,統(tǒng)計其數(shù)據(jù)發(fā)布量、數(shù)據(jù)被引量、數(shù)據(jù)平均被引頻次及h指數(shù)。其中,數(shù)據(jù)發(fā)布量即一定時間段內(nèi)某研究團體或數(shù)據(jù)倉儲發(fā)布的總數(shù)據(jù)量,發(fā)布數(shù)據(jù)是被引用的前提,所以該指標(biāo)是基于引用的數(shù)據(jù)質(zhì)量評價的基本指標(biāo);數(shù)據(jù)被引量即發(fā)布的所有數(shù)據(jù)被引用的總次數(shù),用于衡量某研究團體或數(shù)據(jù)倉儲所發(fā)布數(shù)據(jù)的總體影響;數(shù)據(jù)平均被引頻次即數(shù)據(jù)被引量除以數(shù)據(jù)發(fā)布量,該指標(biāo)用于衡量某研究團體或數(shù)據(jù)倉儲所發(fā)布數(shù)據(jù)的平均影響;h指數(shù)則綜合考慮數(shù)據(jù)的質(zhì)和量,某個研究團體或數(shù)據(jù)倉儲的h指數(shù)為n是指其發(fā)布的數(shù)據(jù)中至少有n條數(shù)據(jù)每條被引了至少n次。
2012年10月,全球領(lǐng)先的信息供應(yīng)商湯森路透旗下的知識產(chǎn)權(quán)與科技事業(yè)部宣布推出數(shù)據(jù)引用索引(Data Citation Index,DCI),并將其作為Web of Knowledge平臺上一個新的研究資源,旨在推動對數(shù)據(jù)的檢索、引用與評價,并把這些數(shù)據(jù)與Web of Knowledge中的文獻連接起來。借鑒SCI、SSCI等引文索引系統(tǒng)的成功經(jīng)驗,數(shù)據(jù)引用索引試圖為數(shù)據(jù)的管理、共享、評價提供強有力支持。使用者只需在數(shù)據(jù)引用索引中進行檢索,便可獲得所需要數(shù)據(jù)的元數(shù)據(jù)信息,包括數(shù)據(jù)的創(chuàng)建者、機構(gòu)、標(biāo)題、創(chuàng)建日期等,還可鏈接到所在數(shù)據(jù)倉儲(Data Repository)中。數(shù)據(jù)倉儲是數(shù)據(jù)的實際存儲地,其中包含數(shù)據(jù)研究(Data Study)和數(shù)據(jù)集(Data Set)。一個數(shù)據(jù)研究中往往包含了若干個數(shù)據(jù)集,例如某數(shù)據(jù)倉儲中存有大量人口普查數(shù)據(jù),所有這些數(shù)據(jù)可作為一個數(shù)據(jù)研究,而這些數(shù)據(jù)又可分為20世紀(jì)70年代的人口數(shù)據(jù)、20世紀(jì)80年代的人口數(shù)據(jù)等,這些不同年代的人口數(shù)據(jù)即是多個數(shù)據(jù)集。對數(shù)據(jù)倉儲來說,數(shù)據(jù)引用索引的出現(xiàn)不但能提高其數(shù)據(jù)的被引率,還完善了其元數(shù)據(jù),提供了引用信息,讓數(shù)據(jù)生產(chǎn)者知道有哪些作者或機構(gòu)利用了其數(shù)據(jù),也讓數(shù)據(jù)使用者了解到哪些數(shù)據(jù)屬于高被引數(shù)據(jù)。數(shù)據(jù)引用索引的出現(xiàn)有利于建立有效的數(shù)據(jù)評價機制,激發(fā)數(shù)據(jù)生產(chǎn)者和擁有者共享數(shù)據(jù)的積極性。
4.1 方法與數(shù)據(jù)
考慮到數(shù)據(jù)的相對全面性和完整性,本項研究選擇Web of Science的DCI數(shù)據(jù)庫作為數(shù)據(jù)來源。因為DCI目前所收錄的數(shù)據(jù)量還較為有限,其中圖書情報學(xué)領(lǐng)域的數(shù)據(jù)尤為少見,本項研究選取了和圖書情報學(xué)同屬于社會科學(xué)大類的人口調(diào)查領(lǐng)域進行研究,即在主題檢索中輸入Population Survey進行查詢,時間范圍為1900~2014年,共獲得13796條數(shù)據(jù),然后將數(shù)據(jù)以txt形式下載并導(dǎo)入Excel中進行處理及統(tǒng)計分析。需要注意的是,不同于Web of Science核心合集,DCI目前的功能尚不完善,平均被引頻次及h指數(shù)等均需下載數(shù)據(jù)后自行計算,而作者及機構(gòu)信息也需進一步精煉。
4.2 數(shù)據(jù)倉儲引用分析
經(jīng)統(tǒng)計,人口調(diào)查領(lǐng)域被引次數(shù)排名前10的數(shù)據(jù)倉儲如表1所示。
可以看出,英國國家數(shù)據(jù)倉儲(UK Data Archive,UKDA)和美國高校校際政治與社會研究聯(lián)盟(Inter University Consortium for Political and Social Research,ICPSR)的總被引次數(shù)和h指數(shù)均遙遙領(lǐng)先。其中UKDA是英國最大的人文社會科學(xué)數(shù)據(jù)收藏機構(gòu),由英國埃塞克斯大學(xué)(University of Essex)、經(jīng)濟與社會研究會(Economic and Social Research Council,ESRC)和國家檔案局(National Archives)等機構(gòu)合作建設(shè),其數(shù)據(jù)收錄范圍涵蓋了人文社會科學(xué)及環(huán)境保護中的各個領(lǐng)域,資源豐富、類型多樣。而ICPSR是全球最大的社會科學(xué)數(shù)據(jù)中心,成立于1962年,隸屬于美國密歇根大學(xué)。ICPSR擁有涵蓋約6000個主題的50余萬種數(shù)據(jù)資料,主要以會員制的形式提供服務(wù),目前已有約700家學(xué)術(shù)機構(gòu)會員遍布全球,包括中國的北京大學(xué)、中國人民大學(xué)等。UKDA和ICPSR中均收錄有大量的人口調(diào)查數(shù)據(jù),并得到了廣泛應(yīng)用。
UKDA和ICPSR之所以能在社會科學(xué)領(lǐng)域產(chǎn)生如此大的影響,其原因不但在于收錄的數(shù)據(jù)量較大,還和這兩個機構(gòu)非常重視服務(wù)與推廣有關(guān)。例如,UKDA自1975年起便發(fā)行數(shù)據(jù)通報,2007年起發(fā)行電子報,2010年開始舉辦數(shù)據(jù)使用案例的征集活動。ICPSR同樣也非常重視數(shù)據(jù)的有效使用,自1963年開始便在每年暑假舉行社會科學(xué)定量研究方法培訓(xùn)班,近年來均吸引到全球近千名青年教師與學(xué)生前往學(xué)習(xí)與交流。
澳大利亞南極數(shù)據(jù)中心(AUSTRALIAN ANTARCTIC DATA CENTRE,AADC)雖然被DCI收錄的數(shù)據(jù)只有41條,但總被引達3082次,平均被引頻次達到75.17,說明這些數(shù)據(jù)的權(quán)威性和認(rèn)可度較高。而Figshare是創(chuàng)立于2012年的為科研人員提供發(fā)布各類研究產(chǎn)出的平臺,其理念是可發(fā)現(xiàn)(discoverable)、可共享(shareable)和可引用(citable),數(shù)據(jù)是其主要的發(fā)布形式之一,任何用戶均可在Figshare上面發(fā)布數(shù)據(jù)。因為數(shù)據(jù)發(fā)布者的分散性和成立時間較短,目前Figshare上的數(shù)據(jù)被引較少。
表1 被引次數(shù)排名前10的數(shù)據(jù)倉儲
綜合來看,目前DCI中人口調(diào)查領(lǐng)域具有較大影響力的數(shù)據(jù)倉儲主要是UKDA和ICPSR,而Figshare由于其先進的理念和廣泛的用戶群,有望在數(shù)據(jù)引用領(lǐng)域產(chǎn)生更大的影響。
4.3 機構(gòu)引用分析
經(jīng)統(tǒng)計,人口調(diào)查領(lǐng)域被引次數(shù)排名前10的機構(gòu)如表2所示。
表2 被引次數(shù)排名前10的機構(gòu)
可以看出,數(shù)據(jù)被引次數(shù)排名前十的機構(gòu)中大部分為政府機構(gòu),其中英國的政府機構(gòu)占據(jù)4席,包括被引次數(shù)最多的英國國家統(tǒng)計署(Office for National Statistics,ONS),英國國家統(tǒng)計署成立于1996年,由原英國中央統(tǒng)計署(Central Statistical Office,CSO)和人口普查與調(diào)查署(Office of Population Censuses and Surveys,OPCS)合并而成,而CSO和OPCS在合并前的數(shù)據(jù)引用次數(shù)分別排在第6和第8。美國的政府機構(gòu)占據(jù)3席,其中美國商務(wù)部(United States Department of Commerce)的數(shù)據(jù)被引次數(shù)僅次于英國國家統(tǒng)計署,主要原因在于其下屬的美國人口調(diào)查局(United States Census Bureau)負(fù)責(zé)全美的人口普查,并提供除人口數(shù)目之外的經(jīng)濟指標(biāo)、商業(yè)統(tǒng)計等數(shù)據(jù)。此外,美國衛(wèi)生和公眾服務(wù)部(United States Department of Health and Human Services)以及美國司法部(United States Department of Justice)也在人口調(diào)查數(shù)據(jù)領(lǐng)域具有較大的影響。除英美兩國的機構(gòu)外,澳大利亞就業(yè)部(Department of Employment)雖然發(fā)布的數(shù)據(jù)量不大,但其數(shù)據(jù)平均被引頻次遠遠高于其他機構(gòu),體現(xiàn)出較強的影響力。
除政府機構(gòu)外,英國的倫敦大學(xué)學(xué)院(University College London)及英國國家社會研究中心(National Centre for Social Research)也具有較強的影響力,二者發(fā)布的數(shù)據(jù)量較小,但總被引次數(shù)較高,數(shù)據(jù)平均被引頻次均超過10。
從上述案例可以看出,通過數(shù)據(jù)引用可以有效地對科學(xué)數(shù)據(jù)的發(fā)布及存儲機構(gòu)的影響力進行評估。對人口調(diào)查領(lǐng)域的數(shù)據(jù)引用現(xiàn)狀進行分析后發(fā)現(xiàn),該領(lǐng)域的被引數(shù)據(jù)主要集中于UKDA和ICPSR這兩個著名的數(shù)據(jù)倉儲,其h指數(shù)遠遠超過其他數(shù)據(jù)倉儲。而數(shù)據(jù)被引次數(shù)較多的機構(gòu)大多為英美等發(fā)達國家的政府機構(gòu),這也從一個側(cè)面說明這些國家的政府信息公開度較高,政府機構(gòu)發(fā)布的數(shù)據(jù)也得到了較為廣泛的應(yīng)用。綜合來看,h指數(shù)作為一個兼顧數(shù)量和質(zhì)量的指標(biāo),可以較好地用于評價科學(xué)數(shù)據(jù)的影響力。
同時,由表1和表2中可以看出,基于數(shù)據(jù)引用h指數(shù)體現(xiàn)出的一些特征與基于文獻引用的h指數(shù)相類似:如果數(shù)據(jù)發(fā)布量和總被引次數(shù)較大,那么h指數(shù)也相對較大,但是h指數(shù)的大小同時還極大地受到被引次數(shù)結(jié)構(gòu)的影響,換而言之,高被引數(shù)據(jù)集的數(shù)量決定了數(shù)據(jù)引用h指數(shù)的大小。
DCI是數(shù)據(jù)引用分析與評價的重要工具,但目前仍存在一定的問題:首先,DCI目前收錄的數(shù)據(jù)量較小,且主要來自于較為知名的數(shù)據(jù)倉儲,其他大部分?jǐn)?shù)據(jù)倉儲及更多的未進入到倉儲中的數(shù)據(jù)尚未被收錄;其次,DCI目前所收錄數(shù)據(jù)的地區(qū)及學(xué)科分布不均衡,其數(shù)據(jù)主要來源于英國和美國,且集中在生命科學(xué)、物理學(xué)和社會科學(xué);第三,DCI目前的檢索與分析功能較弱,機構(gòu)及作者甄別功能的缺失增加了數(shù)據(jù)篩選的難度,h指數(shù)等評價指標(biāo)也需手工計算。
更重要的是,DCI至今尚未正式公布其工作機理,如數(shù)據(jù)來源如何甄選、數(shù)據(jù)如何搜集、數(shù)據(jù)被引情況(是否被引及被引次數(shù))如何甄別等,事實上,這些問題至關(guān)重要。對數(shù)據(jù)引用進行檢索、利用與評價,總體上來說可以從兩個方面進行:一是建設(shè)數(shù)據(jù)引用數(shù)據(jù)庫,類似于目前較為成熟的引文數(shù)據(jù)庫,將每篇論文的數(shù)據(jù)引用情況進行統(tǒng)計和標(biāo)引,使用時直接檢索獲取。由于數(shù)據(jù)引用長期以來一直未形成統(tǒng)一規(guī)范的格式,各個學(xué)科或期刊根據(jù)自己的特點和要求提出了不同規(guī)范,而這些規(guī)范在形式和嚴(yán)格程度上均有較大區(qū)別。面對甄別數(shù)據(jù)引用現(xiàn)象時可能出現(xiàn)的各種復(fù)雜情況,目前的計算機程序尚無法獨立完成數(shù)據(jù)標(biāo)引工作,必須加以人工干預(yù)。因此,數(shù)據(jù)引用數(shù)據(jù)庫的發(fā)展和完善將需要較長時間。另一種方式是建設(shè)數(shù)據(jù)引用搜索引擎,即利用現(xiàn)有的數(shù)據(jù)庫,根據(jù)用戶要求通過對引文(甚至原文)的檢索獲取某個數(shù)據(jù)倉儲、機構(gòu)或個人的數(shù)據(jù)被引情況。這種方式的優(yōu)點在于可以利用現(xiàn)有成熟且豐富的引文和全文數(shù)據(jù)庫資源,而無需專門建設(shè)數(shù)據(jù)引用數(shù)據(jù)庫。但如何判斷某條引文乃至某處正文屬于數(shù)據(jù)引用是一個待解決的難題,需要綜合運用文本挖掘技術(shù)和引文分析技術(shù)以提高準(zhǔn)確度。
盡管有種種不足,但DCI畢竟是新推出的數(shù)據(jù)庫產(chǎn)品,所涉及到的又是全新的研究領(lǐng)域,有SCI、SSCI等引文索引成功案例在前,憑借湯森路透強大的經(jīng)濟實力和技術(shù)支持,相信DCI將日趨完善,并為科學(xué)評價與分析發(fā)揮重大作用。
本文參照引文評價方法,選取數(shù)據(jù)發(fā)布量、數(shù)據(jù)被引量、數(shù)據(jù)平均被引頻次及h指數(shù)等指標(biāo),構(gòu)造了一個基于引用的數(shù)據(jù)評價體系,該體系既適用于數(shù)據(jù)生產(chǎn)者(作者、團體作者),也適用于數(shù)據(jù)儲存者(數(shù)據(jù)倉儲)。為驗證該評價方法的可行性,本文利用Web of Knowledge平臺新推出的DCI數(shù)據(jù)庫中的人口調(diào)查主題數(shù)據(jù)進行了實驗,發(fā)現(xiàn)雖然由于DCI數(shù)據(jù)庫的建立時間較短、不夠成熟,其功能相較Web of Science核心數(shù)據(jù)集合有較大缺失,但仍可為科學(xué)數(shù)據(jù)的定量評價提供強有力的支持,從而促進科學(xué)數(shù)據(jù)的共享與重用。
[1]Hailey M.,Mark P.The anatomy of a data citation:Discovery,reuse,and credit[J].Journal of Librarianship and Scholarly Communication,2012,1(1):1035.
[2]侯經(jīng)川,方靜怡.數(shù)據(jù)引證研究:進展與展望[J].中國圖書館學(xué)報,2013,39(1):112-118.
[3]墨愚.數(shù)據(jù)引用的學(xué)術(shù)規(guī)范[J].編輯學(xué)刊,2004,(3):68-69.
[4]王華,金勇進.統(tǒng)計數(shù)據(jù)準(zhǔn)確性評估:方法分類及適用性分析[J].統(tǒng)計研究,2009,26(1):32-37.
[5]袁滿,張磊.數(shù)據(jù)質(zhì)量多屬性加權(quán)評價算法[J].齊齊哈爾大學(xué)學(xué)報(自然科學(xué)版),2010,26(1):26-28.
[6]丁海龍,徐宏炳.數(shù)據(jù)質(zhì)量分析及應(yīng)用[J].計算機技術(shù)與發(fā)展,2007,17(3):236-237.
[7]孟巍.數(shù)據(jù)倉庫數(shù)據(jù)質(zhì)量評價研究及其應(yīng)用[D].河北:河北工業(yè)大學(xué),2004.
[8]向上.信息系統(tǒng)中的數(shù)據(jù)質(zhì)量評價方法研究[J].現(xiàn)代情報,2007,27(3):67-70.
[9]丁楠,潘有能.數(shù)據(jù)引用索引工作機理與應(yīng)用現(xiàn)狀綜析[J].情報理論與實踐,2014,37(6):59-62.
Scientific Data Evaluation based on Data Citation
Data is the footstone of science research.The evaluation of scientific data can promote the management of scientific data,then facilitate the sharing and reuse of data.Based on themethod of citation analysis,the authors propose a scientific data evaluation system which includes indices such as data publication,data citation,citation per data and hindex.An experiment is implemented w ith the data of population survey in DCI.The result shows this system is useful for the evaluation of institutions which published and stored scientific data.The result also shows DCI can provide strong support to the quantitative evaluation of scientific data.
data sharing;data citation;data evaluation;citation analysis
G250.25
:A
:1003-6938(2014)05-0095-05
丁楠(1980-),女,浙江大學(xué)圖書館館員;黎嬌,女,浙江大學(xué)公共管理學(xué)院信息資源管理系本科生;李文雨澤,女,浙江大學(xué)公共管理學(xué)院信息資源管理系本科生;白晉銘,女,浙江大學(xué)公共管理學(xué)院信息資源管理系本科生;潘有能(1977-),男,博士,浙江大學(xué)公共管理學(xué)院信息資源管理系副教授。
*本文系浙江省哲學(xué)社會科學(xué)規(guī)劃項目“社會科學(xué)數(shù)據(jù)引用行為與評價機制研究”(項目編號:13NDJC130YB)和國家自然科學(xué)基金項目“基于關(guān)聯(lián)數(shù)據(jù)的信息聚合模型與實現(xiàn)研究”(項目編號:71273225)研究成果之一。
2014-09-05;責(zé)任編輯:劉全根