李梅
關(guān)鍵詞:數(shù)據(jù)引用;科學(xué)數(shù)據(jù);引用規(guī)范
摘要:文章對(duì)開放環(huán)境下國內(nèi)外有關(guān)開放數(shù)據(jù)引用的研究文獻(xiàn)進(jìn)行了系統(tǒng)梳理和總結(jié),包括數(shù)據(jù)引用的發(fā)展歷程、數(shù)據(jù)引用的關(guān)鍵因素及其互動(dòng)關(guān)系,在此基礎(chǔ)上進(jìn)行分析與總結(jié),并提出一些政策意見和建議。
中圖分類號(hào):G250文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-1588(2017)11-0128-03
隨著科技出版業(yè)的變革及開放運(yùn)動(dòng)的深入開展,科學(xué)數(shù)據(jù)開放獲取的基礎(chǔ)環(huán)境已逐步形成。海量的數(shù)據(jù)源及豐富的數(shù)據(jù)環(huán)境使研究人員得以便捷地發(fā)布、發(fā)現(xiàn)、訪問并獲取數(shù)據(jù),如何規(guī)范地引用數(shù)據(jù)自然也受到科學(xué)界和出版界的極大關(guān)注。
科學(xué)數(shù)據(jù)引用是指提供數(shù)據(jù)參考的做法,類似于研究者為印刷型資源提供參考文獻(xiàn)的方式。數(shù)據(jù)引用是支持?jǐn)?shù)據(jù)訪問、共享和再利用的一種重要方法。通過數(shù)據(jù)引用,降低科學(xué)數(shù)據(jù)發(fā)現(xiàn)和利用的壁壘,提高研究過程的效率和透明度,同時(shí)數(shù)據(jù)與出版物的有效鏈接將有助于學(xué)術(shù)出版形式的創(chuàng)新,促進(jìn)跨學(xué)科研究,降低科研成本,驗(yàn)證并創(chuàng)造新的研究成果。
1數(shù)據(jù)引用的發(fā)展歷程
20世紀(jì)60年代末期,科學(xué)界成立了第一個(gè)科學(xué)數(shù)據(jù)檔案庫,設(shè)計(jì)者開始關(guān)注科學(xué)數(shù)據(jù)的獲取、存儲(chǔ)、格式和信息檢索[1]。之后,數(shù)據(jù)引用的理論和實(shí)踐不斷發(fā)展,大致經(jīng)歷了四個(gè)階段(見表1)。
1.1數(shù)據(jù)可描述與檢索階段
該階段的發(fā)展集中在引文的作用以促進(jìn)描述和信息檢索。比較典型的是Archive系統(tǒng),Dodd[2]建議參照美國書目參考標(biāo)準(zhǔn)ASBR,以系統(tǒng)一致的方式來描述數(shù)據(jù)集,其核心原則是通過作者、題名和版本字段來描述信息。
1.2數(shù)據(jù)可訪問及獲取階段
受美國科學(xué)基金會(huì)NSF資助,Altman等[3]開發(fā)了第一個(gè)開源和開放獲取出版的數(shù)據(jù)系統(tǒng)Virtual Data Center,即虛擬數(shù)據(jù)中心。該中心通過聯(lián)邦機(jī)構(gòu)支持持續(xù)訪問并獲取研究數(shù)據(jù),數(shù)據(jù)引用集成到虛擬數(shù)據(jù)中心,每個(gè)數(shù)據(jù)集被分配一個(gè)永久標(biāo)識(shí)符和地址,并支持所有的研究數(shù)據(jù)都能被引用,而且這些引用應(yīng)當(dāng)具有有效的外部鏈接,即具有網(wǎng)絡(luò)可獲取性。
1.3數(shù)據(jù)可驗(yàn)證及再現(xiàn)階段
該階段數(shù)據(jù)引用與出版生態(tài)系統(tǒng)有了更廣泛的整合,其核心原則是引用應(yīng)當(dāng)支持驗(yàn)證數(shù)據(jù)可鏈接及支持被引用數(shù)據(jù)的再現(xiàn)。最具代表性的是Dataverse Network系統(tǒng),其被哈佛大學(xué)用作數(shù)據(jù)發(fā)布的基礎(chǔ)平臺(tái),有數(shù)以百計(jì)的研究人員和機(jī)構(gòu)通過該系統(tǒng)發(fā)布數(shù)據(jù)。
1.4與學(xué)術(shù)研究系統(tǒng)可集成階段
該階段重在用標(biāo)準(zhǔn)化的方式集成數(shù)據(jù)引用與學(xué)術(shù)研究。例如,Data Dryad、Figshare供科研人員分享科研數(shù)據(jù)的平臺(tái),科睿唯安(原湯森路透知識(shí)產(chǎn)權(quán)與科技事業(yè)部)推出數(shù)據(jù)引文索引(Data citation index)。另外,美國國家科學(xué)總院(The National Academics)、國際科技數(shù)據(jù)委員會(huì)(CODATA)、數(shù)據(jù)引用綜合組(the Data Citation Synthesis Group)等組織經(jīng)過多年努力,使人們認(rèn)識(shí)到數(shù)據(jù)包括數(shù)據(jù)引用是研究出版物不可缺少的一部分,要求數(shù)據(jù)倉儲(chǔ)機(jī)構(gòu)/出版平臺(tái)提供持久鏈接以保證數(shù)據(jù)的長期可訪問性。
2影響數(shù)據(jù)引用的關(guān)鍵因素
2.1政策和機(jī)構(gòu)基礎(chǔ)設(shè)施
隨著科學(xué)研究逐漸向數(shù)據(jù)驅(qū)動(dòng)型發(fā)展,越來越多的國際科學(xué)組織認(rèn)識(shí)到獲取、重用數(shù)據(jù)可以促進(jìn)研究的高效性和有效性,提高公眾的投資回報(bào)??蒲匈Y助機(jī)構(gòu)、研究人員、政策制訂者、出版商、數(shù)據(jù)管理者等,提倡建立數(shù)據(jù)集的相關(guān)基礎(chǔ)設(shè)施,完善基礎(chǔ)設(shè)施機(jī)制。如:數(shù)據(jù)政策、數(shù)據(jù)管理、起源追蹤、永久標(biāo)識(shí)符、元數(shù)據(jù)和引用協(xié)議等。
數(shù)據(jù)引用的前提是數(shù)據(jù)共享,在數(shù)據(jù)共享的基礎(chǔ)設(shè)施和服務(wù)方面,協(xié)同合作非常重要。如:科學(xué)技術(shù)數(shù)據(jù)委員會(huì)(The Committee on Data for Science and Techonlogy, CODATA)、世界數(shù)據(jù)系統(tǒng)(World Data System,WDS)和科學(xué)數(shù)據(jù)聯(lián)盟(Research Data Alliance, RDA)于2015年3月達(dá)成協(xié)議[4],協(xié)議要求CODATA關(guān)注宣傳、政策和流程,WDS關(guān)注數(shù)據(jù)供給和管理,RDA關(guān)注自下而上的數(shù)據(jù)共享工具和技術(shù)支持。政策制定方面,最為重要的是相關(guān)法律法規(guī)的建設(shè),以此營造一種良好的外部環(huán)境。
2.2技術(shù)基礎(chǔ)
數(shù)據(jù)引用的技術(shù)基礎(chǔ)專注于處理數(shù)據(jù)的基礎(chǔ)設(shè)施、系統(tǒng)及標(biāo)識(shí)符。如:XML歸檔系統(tǒng)、RDF(Resource Description Framework)和數(shù)據(jù)庫、永久標(biāo)識(shí)的使用、定義框架和本體發(fā)布數(shù)據(jù)、創(chuàng)建數(shù)據(jù)庫倉儲(chǔ)及提供對(duì)數(shù)據(jù)的訪問等。其中粒度問題、版本控制和唯一標(biāo)識(shí)符是關(guān)鍵影響因素。
2.2.1粒度問題。引用粒度水平代表了數(shù)據(jù)的可重復(fù)性和可檢索性。引用可以是數(shù)據(jù)集、數(shù)據(jù)集中的一個(gè)子集,也可以是一個(gè)特定記錄集。引用系統(tǒng)應(yīng)當(dāng)允許多層粒度的引用,適用于數(shù)據(jù)、數(shù)據(jù)集或記錄集的粒度應(yīng)因上下文信息、不同規(guī)模和類型的數(shù)據(jù)等實(shí)際情況而不同。如:一組由圖像組成的數(shù)據(jù)集,圖像離開上下文環(huán)境仍能使用,而在特定時(shí)間點(diǎn)的大氣測量數(shù)據(jù)集離開了上下文就會(huì)毫無意義,這時(shí)就應(yīng)給予不同類型的標(biāo)識(shí)符。DCC指出,數(shù)據(jù)引用粒度以滿足研究者需求為準(zhǔn),如有不準(zhǔn)確的地方,則需要在文章中引用數(shù)據(jù)的地方,寫明引用數(shù)據(jù)集的細(xì)節(jié)信息[5]。
2.2.2版本控制。在數(shù)據(jù)的生命周期中可能會(huì)存在多版本的數(shù)據(jù)引用,如果動(dòng)態(tài)數(shù)據(jù)集的變化過大或過于頻繁,則難以追蹤管理。好的版本控制可以解決諸如多版本系統(tǒng)的數(shù)據(jù)更新、同一數(shù)據(jù)集中引用多層粒度的問題,可以記錄和跟蹤數(shù)據(jù)的修改歷史,可以使數(shù)據(jù)得以協(xié)作處理和共享。
2.2.3唯一標(biāo)識(shí)符。數(shù)據(jù)引用唯一標(biāo)識(shí)性,要求數(shù)據(jù)引用應(yīng)當(dāng)擁有一個(gè)機(jī)器可以識(shí)別的、全球唯一的、能夠被廣泛使用的可持續(xù)方法。隨著唯一標(biāo)識(shí)符方案的相繼推出,出現(xiàn)了諸如數(shù)字對(duì)象標(biāo)識(shí)符(DigitalObjectIdentifier,DOI)、統(tǒng)一持久資源定位符(Persistent Uniform Resource Locator, PURL)和文檔資源鑰匙持久標(biāo)識(shí)符架構(gòu)(the Archival Resource Key, ARK)等。這些方案提出了將唯一標(biāo)識(shí)符與可引用的數(shù)據(jù)集建立映射關(guān)系,從而創(chuàng)建一組相關(guān)的元數(shù)據(jù)(如作者、版本、URL)用于引用數(shù)據(jù)。唯一標(biāo)識(shí)符是數(shù)據(jù)引用的關(guān)鍵因素,但由于數(shù)據(jù)對(duì)象本身具有的多樣性、動(dòng)態(tài)性及邊界模糊性,給標(biāo)識(shí)符的分配帶來了一定的困難,如何從根本上解決這一問題,還要冀希望于新技術(shù)的出現(xiàn)。endprint
3數(shù)據(jù)引用關(guān)鍵因素間的互動(dòng)
科學(xué)數(shù)據(jù)的引用元素與傳統(tǒng)基于文獻(xiàn)的引用具有其相似性,但又因科學(xué)數(shù)據(jù)獨(dú)特的屬性而不盡相同。解決數(shù)據(jù)引用的核心問題是諸如粒度、版本、唯一標(biāo)識(shí)符等技術(shù)規(guī)范問題,而數(shù)據(jù)引用規(guī)范的制訂又會(huì)受到數(shù)據(jù)出版、共享政策等因素的制約。筆者把政策和機(jī)構(gòu)基礎(chǔ)設(shè)施歸屬于外部環(huán)境因素,良好的外部環(huán)境因素可以有效地促進(jìn)數(shù)據(jù)引用及技術(shù)的發(fā)展,而技術(shù)的發(fā)展又可以影響環(huán)境及文化建設(shè)。從二者互動(dòng)的關(guān)系看,環(huán)境和技術(shù)是一種相互影響,又相互促進(jìn)的關(guān)系。
3.1縱向維度
從縱向維度看,開放數(shù)據(jù)不僅僅只是數(shù)據(jù)發(fā)布的過程,還包括數(shù)據(jù)發(fā)布之后的存儲(chǔ)、管理、引用等,供除數(shù)據(jù)提供者之外的研究人員或者組織機(jī)構(gòu)下載、分析、再利用,以及引用數(shù)據(jù)。規(guī)范的數(shù)據(jù)出版應(yīng)包括數(shù)據(jù)提交、同行評(píng)議、數(shù)據(jù)發(fā)布和永久存儲(chǔ)、數(shù)據(jù)引用、影響評(píng)價(jià)等五個(gè)階段[6]。Koppenol等建立了開放數(shù)據(jù)的實(shí)踐模型:數(shù)據(jù)引用與追溯、數(shù)據(jù)互操作、數(shù)據(jù)的無限制復(fù)用及數(shù)據(jù)語義互聯(lián)四個(gè)階段[7]。在開放數(shù)據(jù)的每個(gè)階段中,良好的政策引導(dǎo)及共享機(jī)制,加上唯一標(biāo)識(shí)符、版本控制等技術(shù)手段的實(shí)施,將促進(jìn)數(shù)據(jù)共享的意愿及數(shù)據(jù)引用的良性發(fā)展。
3.2橫向維度
數(shù)據(jù)引用涉及多重利益相關(guān)者,受到多維因素的影響。許多學(xué)者從多角度對(duì)數(shù)據(jù)引用進(jìn)行分析或是構(gòu)建模型、提出框架構(gòu)想。張麗麗[8]從數(shù)據(jù)的時(shí)間屬性出發(fā),立足數(shù)據(jù)的全生命周期,剖析數(shù)據(jù)引用過程中的數(shù)據(jù)擁有者、出版商、用戶、整合者、監(jiān)管者的角色特征及相互關(guān)系與影響,認(rèn)為靈活多樣的選擇數(shù)據(jù)引用規(guī)范方法,需要更多地關(guān)注數(shù)據(jù)相關(guān)利益者的行為特征,以有利于數(shù)據(jù)引用的可持續(xù)發(fā)展。
3.3兼顧縱橫維度
在數(shù)據(jù)出版周期的各個(gè)節(jié)點(diǎn),制定政策方的各主體旨在創(chuàng)設(shè)一種數(shù)據(jù)引證文化,建立數(shù)據(jù)共享機(jī)制、數(shù)據(jù)使用和復(fù)用機(jī)制、評(píng)價(jià)及獎(jiǎng)勵(lì)機(jī)制,從環(huán)境的角度對(duì)數(shù)據(jù)的獲取、復(fù)用及引用產(chǎn)生影響;而數(shù)據(jù)引用的參與者、技術(shù)和利益相關(guān)者之間動(dòng)態(tài)地對(duì)數(shù)據(jù)引用政策施以挑戰(zhàn),影響環(huán)境及文化建設(shè)。
4結(jié)語
基于以上對(duì)開放環(huán)境下數(shù)據(jù)引用的關(guān)鍵因素進(jìn)行梳理和總結(jié),筆者認(rèn)為推進(jìn)數(shù)據(jù)引用的發(fā)展可以從環(huán)境和技術(shù)兩個(gè)方面加強(qiáng),即健全發(fā)展數(shù)據(jù)引用相關(guān)機(jī)制和推進(jìn)數(shù)據(jù)引用行為的規(guī)范化。環(huán)境方面,政府應(yīng)當(dāng)建立與數(shù)據(jù)引用相關(guān)的法律法規(guī),要完善科研評(píng)價(jià)和人才激勵(lì)機(jī)制;圖書館、數(shù)據(jù)中心、科研機(jī)構(gòu)要加強(qiáng)對(duì)數(shù)據(jù)發(fā)布、共享及保存機(jī)制的規(guī)范要求,建立規(guī)范的管理機(jī)制。技術(shù)方面,數(shù)據(jù)發(fā)布/存儲(chǔ)機(jī)構(gòu)在發(fā)布數(shù)據(jù)時(shí),應(yīng)提供數(shù)據(jù)引用示范供使用者參考,或?qū)κ褂谜呓o出足夠詳細(xì)的數(shù)據(jù)屬性描述信息(如唯一標(biāo)識(shí)符及訪問地址)。
參考文獻(xiàn):
[1]Bisco RL. Social Science Data Archives Technical Considerations [J].Social Science Information,1965(3):129-150.
[2]Dodd S.A. Bibliographic reference for numeric social science data feles: suggested guidelines[J]. Journal of the Association for Information Science & Technology,1979 (2):77-82.
[3]Altman ML, Andreev M. Diggory, G. King, S. Verba, et al. A digital library for the dissemination and replication of Quantitative Social Science Research The Virtual Data Center[J]. Social Science Computer Review,2001(4):458-470.
[4]CODATA. International organizations form partnership to increase the benefit of research data for society[EB/OL]. [2016-10-10]. https://www.eurekalert.org/pub_releases/2015-03/rda-iof030915.php.
[5]Ball A, Duke M. How to cite datasets and link to publications[EB/OL]. [2016-11-03]. http://www.dcc.ac.uk/resources/how-guides/cite-datasets/.
[6]張靜蓓,任樹懷.科研數(shù)據(jù)出版模式、流程及引用策略研究[J].圖書情報(bào)工作,2015(9):21-25.
[7]Koppenol P , Divisional A. Open data in a big data world[J].Chemistry International, 2016(2):17.
[8]張麗麗,黎建輝.數(shù)據(jù)引用的相關(guān)利益者分析[J].情報(bào)理論與實(shí)踐,2014(7):44-47.
(編校:馬懷云)endprint