林芳芳等 趙 輝
(中國科學技術信息研究所,北京 100038)
美國Dryad數據庫共享政策及啟示
林芳芳等 趙 輝
(中國科學技術信息研究所,北京 100038)
國外開放數據庫數據共享政策對國內數據庫建設和運維具有一定借鑒意義,有利于促進國內數據共享的發(fā)展。以Dryad數據庫為例,從數據收集、數據發(fā)布、數據保存、收費和使用4個角度進行分析,采用對比分析法將Dryad與GenBank、Figshare進行比較,提出我國應制定細致、可操作的數據共享政策以及出臺相關政策,加強期刊出版商與數據庫合作的相關數據共享政策建議。
Dryad數據庫;數據共享政策;開放數據庫;GenBank數據庫;Figshare數據庫
科學數據不僅是科學研究的投入,也可作為科學研究的重要成果,是科技創(chuàng)新的基礎。實現科學數據共享對科學研究和經濟社會發(fā)展有推動作用。為更好地對數據進行管理,需要相關政策支持。期刊出版商、科研機構、基金資助機構等為保證機構有效運行以及數據開放訪問陸續(xù)出臺了科學數據管理政策和共享政策。OECD(經濟合作與發(fā)展組織)2003年提倡所有獲得公共財政資金支持的研究數據應能被公眾獲取、共享,并于2007年發(fā)表《公共資助可續(xù)數據開放獲取的原則和指南》[1]。為便于科學數據的公開獲取和共享,期刊出版商如PLOS One在2008年制定了數據共享政策,建議研究人員在發(fā)表論文時,提交相關的附加數據,并建議將數據保存在開放獲取的機構數據庫或多學科數據庫(如GenBank、Dryad)中[2]。《Nature》[3]則要求作者將期刊論文的數據或附加信息存儲于可公開訪問的數據庫中(如GenBank、Protein DataBank等),對于有些類型的數據集(如核酸序列、蛋白質序列等)需強制存儲在公共數據庫中并提供各類型數據集適合的數據庫。公共數據庫區(qū)別于其他數據庫在于其面向科研群體廣、開放性強、有完善的數據管理政策等特點。Dryad作為公共數據庫典型代表,分析其數據共享政策,對我國科學數據共享管理有著重要借鑒作用。
Dryad數據庫于2008年9月由美國國家科學基金會資助建立。最初目的是參與北卡羅來納大學教堂山分校元數據研究中心和國家進化中心聯合項目。Dryad是由董事會管理的非營利性會員制組織,會員資格開放給所有利益相關機構,其中包括雜志、期刊&出版商、研究機構、圖書館和資助機構等。到2013年,Dryad從最初的靠基金資助狀態(tài)過渡到為實現可持續(xù)發(fā)展將非盈利性和實行數據公開收費融合的狀態(tài)[4]。Dryad數據庫是存放優(yōu)質數據資源的場所,使科學出版物背后的數據可被發(fā)現、可重復使用、可引用[5]。其目標是與學術團體、出版、研究和教育機構、基金資助機構和其他利益相關機構構成學術交流體系來協(xié)同、維持和促進學術文獻中基本數據的保護和再利用。Dryad提出的聯合數據存檔策略被許多主流期刊采納,并推薦Dryad作為存放數據場所。
作為數據庫,Dryad支持存放各種類型數據,包括:文本、圖像、表格、音頻、視頻等,提交的數據文件擁有永久可解析的DOI標識。Dryad數據庫中數據可提供下載和重新利用,排除經期刊編輯部允許,在暫時限制時間內的數據。利用Dryad數據庫平臺,研究人員可獲取數據,研究和驗證公布的數據是否合理,或利用已有的數據解決新問題。出版商可免除出版和維護數據成本,并通過鼓勵數據重用來增加出版商的影響和威信。研究機構和圖書館可將數據保存到Dryad中,并獲取來自其他機構有價值的數據。截至2015年5月5日,與Dryad合作的期刊超過400多種,數據文件達26256件,作者超過3萬個,下載次數超過80萬次[6]。
下面將對Dryad數據共享政策進行初步分析。
Joyce在《Research Data Management》中指出,產生的大量數據經常儲存在研究者個人的電腦、實驗室服務器中,只有少量的數據存儲在固定地方,有明確歸檔位置[7]。數據存儲位置分散使數據共享難度增加。期刊出版商與數據庫合作,要求論文中相關數據提交到指定數據庫中,使論文和數據同時出版。這樣使數據存儲相對集中,便于數據共享。為更好地管理和運行,大型數據庫如Dryad會制定詳細的數據政策。本文以Dryad數據庫為例,從數據收集、數據發(fā)布、數據保存以及收費和使用角度對Dryad數據庫共享政策進行分析。
(1)數據收集
數據是數據庫的基礎,制定收集政策可以明確和規(guī)范數據收集的范圍和內容。Dryad數據庫的數據來源可分為合作期刊上發(fā)表的數據、非合作期刊上發(fā)表的數據以及存儲在其他數據庫中的數據。Dryad不接受未發(fā)表的數據,除非是由國家進化綜合中心(NESCent)的科學家創(chuàng)造的數據。Dryad數據庫參與國家進化綜合中心(NESCent)和元數據研究中心(MRC)的聯合項目,且相關元數據研究工作由NESCent和MRC工作人員共同開發(fā)。按照規(guī)定,國家進化綜合中心(NESCent)所產生的數據必須要立即釋放給公眾,沒有限制期間[8]。
對于存儲在其他數據庫中的數據,Dryad的策略是拷貝數據并保存到輔助庫中使數據可用,或提供鏈接給研究人員使研究人員能夠在輔助庫中找到數據。對于合作期刊數據,Dryad數據庫收集政策是盡可能收集出現在其合作期刊上論文所有數據。雖然該數據庫專注服務于合作期刊,但對于非合作期刊數據,其采取的數據收集政策是將那些沒有合適的數據庫存儲了其他領域科學論文數據納入到自己的數據庫中,并不僅僅包括生物、生態(tài)和醫(yī)學領域的數據。非合作期刊數據須經Dryad管理委員會同意才能發(fā)表。數據被收集后,如被認為缺乏足夠的科學價值,Dryad則將數據從資源庫中刪除。
(2)數據發(fā)布
數據庫的發(fā)布政策為數據提交者提供詳細信息,使提交者了解數據發(fā)布條件和流程。對于數據發(fā)布,Dryad數據庫規(guī)定必須要滿足以下7條內容標準[9]:內容必須與已發(fā)布的科學、醫(yī)療或其他學術研究論文相關聯;數據庫中的大多數數據包要有同行評議的文檔,來源于學術論文或圖書但無同行評議文件的相關數據也可接受;保證發(fā)布者是數據的創(chuàng)作者或有足夠權限對數據進行發(fā)布;內容發(fā)布符合期刊出版商政策;符合期刊出版商要求的報告準則和格式;數據包的容量不超過10兆,超過則要收費;語言要求是英語。
Dryad數據庫是集成一體化的,提交到Dryad中的相關數據默認情況下要與論文同時發(fā)表。但如果作者不同意將數據和論文同時公開出版,可選擇在論文出版后一年內公開數據。若被出版商編輯部批準,可一年后再公開數據,但要有明確的數據發(fā)布日期,且最長不超過10年。對于公布之前的論文或數據,當發(fā)現內容有問題時,Dryad會推遲授權給出版商,推遲數據發(fā)布。當公布后發(fā)現數據有問題時,Dryad在保持內容可用性的情況下,會提供鏈接來提醒出版商。原始數據被更正時,Dryad也會發(fā)類似鏈接來提醒出版商。
(3)數據保存
數據的長期保存對于數據庫發(fā)展至關重要,若無完善的保存策略,易造成數據丟失,失去數據提供者對數據庫的信賴。數據長期保存政策更是衡量數據庫是否值得信賴的指標。國際空間數據系統(tǒng)咨詢委員會(Consultative Committee for Space Data Systems,CCSDS)在2011年發(fā)布的審計和認證可值得信賴的數據庫文件中指出,數據庫應具有適當的繼任計劃、應急預案和到位的代管安排,以防數據庫停止運行或資助機構、管理部門在其范圍內大幅度地變更[10]。雖然過去幾年制定數據庫數據保存政策越來越普遍,但由于許多小型的科學數據庫是服務于自身需求的,很少制定數據的保存政策??傮w來說,這樣的數據庫是落后于社會科學數據庫的。社會科學數據庫往往有更穩(wěn)健的政策,如美國校際社會科學數據共享聯盟(Inter-University Consortium for Political and Social Research,簡稱ICPSR)就有完備的數字保存政策和計劃。它還有一個政策模型,任何組織可以用它來開發(fā)自己的數字保存政策框架[11]。
Dryad作為大型且穩(wěn)健的數據庫,有長期保存政策。在數據備份方面,Dryad備份發(fā)表和未發(fā)表的內容, 內容被備份到獨立的遠程服務器進行長期存儲。當服務器出現故障時,如數據沒有及時備份到遠程服務器,可能會導致數據的丟失。在數據存儲位置方面,當Dryad判斷其保存的數據被訪問的可能性提高時,Dryad將自行對文件進行遷移,添加到已發(fā)布數據包中。它不能保證遷移的文件會和原始文件一樣,但同時會盡量減少由文件遷移而導致原有文件中數據缺失。數據維護和故障方面,Dryad是以參與出版商的身份與CLOCKSS進行合作,如果Dryad數據庫出現故障不能維持其服務,在Dryad上注冊過的數據將會被更新,以使用備份在CLOCKSS的數據。使得在相同的條款下,用戶可以繼續(xù)獲取數據。Dryad可自行決定從CLOCKSS更換到另一個故障切換服務的供應商。
(4)收費和使用
Dryad數據庫是非營利性機構,經費最初源自基金資助。為維持數據庫管理和保存數據的基本成本和數據庫的長期發(fā)展,Dryad數據庫于2013年制定數據發(fā)布收費政策(DPCs),對數據提交者收費,實現非盈利性和數據公開收費融合。目前,Dryad數據庫收費政策分3個方面:一是免費,研究者、教育工作者、學生可免費下載和使用數據;二是基本收費,除豁免者外,對內容被接受且符合內容標準的數據提交者實行收費?;砻庹呤前词澜玢y行劃分的低收入或中低收入國家的研究者;三是額外收費,對文件容量超過10GB或使用外部傳輸服務將外部大文件轉移到Dryad中或論文和數據再次提交的情況要額外收費。
使用政策是為了規(guī)范和明確用戶使用的行為和條件,Dryad數據庫使用政策總體分為兩點:一是允許并鼓勵用戶在合法合理的情況下以任何方式對數據進行使用。合理合法包括不侵犯法律或損害Dryad對他人的服務以及損害Dryad的安全性。二是希望數據使用者遵守數據引用規(guī)范,給予數據提交者認同。數據引用規(guī)范最理想的格式是要有完全解析的DOI的URL。
隨著世界各地科研能力的不斷增強,科研產生的數據越來越多,科研數據管理難度隨之增加。為解決科研數據歸檔位置分散問題,研究者建立數據庫的目錄或注冊系統(tǒng)來幫助人們認識和查找在線信息庫信息,如OAD、re3data.org、Databib等[12]。re3data.org是全球研究數據庫的注冊系統(tǒng),截至2015年5月6日,在該系統(tǒng)中注冊的數據庫數量為1223個,其中開放共享的數據庫有1029個[13]??蒲腥藛T需求不同,數據存放地點有所差別,有些因系統(tǒng)化、專業(yè)化服務能力需求而存放在學科數據庫,有些因開放性、共享性需求而存放在公共數據庫,見圖1??傮w來說,Dryad與GenBank、Figshare數據庫在國際上使用頻率較高,且運作方式類似,故選擇這3個數據庫比較他們數據共享政策的異同點,見表1。
GenBank是美國國立衛(wèi)生研究院基因序列數據庫,面向生物信息學領域,是所有公開可用的DNA序列集合數據[15]。Figshare是一個讓研究者所有科研成果可被引用、被分享、被發(fā)現的數據庫[16],面向學科領域廣泛。Dryad與GenBank、Figershare數據庫在國際上使用頻率較高,且運作方式類似,對它們的數據共享政策的比較結果見表1。
Dryad與GenBank、Figershare數據庫相類似,不同之處在于,其面向的學科領域既不像Gen-Bank那樣只面向生物信息學,也不像Figshare那樣面向領域很寬泛。在數據類型方面,GenBank需要特定的上傳格式,Dryad和Figshare收集各種類型的數據??傮w來說,與Figshare較為類似,但其特色在于與采取JDAP策略的期刊出版商合作,重點收集論文中數據,有明確定位。且Dryad數據庫對于數據的收集、出版、保存、收費和使用有明確細致的條款。
Dryad數據庫在出版物相關數據共享方面具有良好的實踐性。作者在提交論文時,有些出版商要求將數據提交到Dryad中。Dryad數據庫實現了論文與科學數據的互聯[17]。在我國,一些科研機構也已制定相應的數據共享與管理政策,如:中國科學院資源環(huán)境科學數據中心制定并實施《中國科學院資源環(huán)境科學數據中心數據共享管理暫行條例》[18],也有類似Dryad的數據庫,只是表現形式不一樣,如中國科學院數據云、數據堂等。但我國目前普遍存在的是機構數據庫、學科數據庫以及少數學科領域之間的數據庫,不利于數據的共享與利用,可查閱的共享數據偏少且不全面。通過對Dryad數據共享政策的分析,我們得到以下兩個方面的啟示。
圖1 數據歸檔位置[14]
表1 三個開放數據庫比較
(1)制定細致、可操作的數據共享管理政策。我國針對氣象、地震、水利、農業(yè)等領域建立各自的數據庫平臺,如中國氣象科學數據共享服務網、國家農業(yè)科學數據共享中心等。針對多學科領域間的數據庫包括中國科學院數據云、數據堂等。然而,由于我國數據政策整體缺乏國家層面的立法保障和宏觀指導、導致科研機構只是制定項目層面的數據管理與共享細則,很難做到學科領域內或多學科的數據管理與共享[19]。大部分可查閱數據庫數據共享政策只是對數據共享做了原則性規(guī)定,具體的操作細節(jié)還有待增強。借鑒Dryad數據共享政策,我國大型數據共享平臺包括機構數據庫、學科數據庫、項目數據庫等均可從收集、發(fā)布、長期保存以及收費和使用等角度建立或完善可操作的數據共享管理政策。如數據堂雖提供數據質量管理和數據安全管理說明,但可從數據收集范圍以及類型、數據發(fā)布原則、長期保存策略、收費和使用條款等角度對該數據庫數據共享政策進行說明,以進一步促進科研數據共享。
(2)出臺相關政策,加強期刊出版商與數據庫合作。許多主流期刊認可和采納了Dryad提出的聯合數據存檔策略(JDAP),并將Dryad作為存放論文數據的公共庫,促進科學數據在研究者間的共享。我國對于論文所涉及的科學數據并沒有明確要求存儲到合適的數據庫中,部分原因在于我國期刊出版商和科研人員對科學數據共享意識不夠強烈以及缺乏相應數據共享政策。我國期刊出版商可借鑒國外期刊出版商措施,出臺相關數據共享政策,要求將支持論文觀點和結論的數據或附加數據存放到類似Dryad等公共數據庫中,便于科學數據集中管理以及實現科學數據共享。
本文通過數據收集、數據發(fā)布、數據保存、收費和使用角度分析發(fā)現Dryad數據庫有良好的數據共享政策。在數據收集方面,Dryad數據庫數據來源廣泛,主要收錄合作期刊數據;在數據發(fā)布方面,數據發(fā)布需符合一定內容標準,在默認情況下數據與論文同時發(fā)表;在數據保存方面,Dryad數據庫會將內容備份,且與CLOCKSS合作,以保證出現故障時也可提供服務;在收費和使用方面,實行非盈利性和數據公開收費相結合政策。研究Dryad數據庫對我國數據共享政策的啟示在于我國機構數據庫、學科數據庫雖然很多,也制定了相應的數據管理政策,但細化以及可操作性不足,同時要加強與期刊出版商的合作。目前,較少有研究以Dryad數據庫為例對國外開放數據的數據共享政策進行研究,本文則從4個角度對其共享政策進行分析,并與Genbank、Figshare進行對比,從而了解國外開放數據庫的數據共享政策。但對于國外開放數據庫的數據共享政策如何制定和實施,以及如何開展與期刊出版商的合作來促進數據共享還有待進一步探究。
[1]OECD Principles and Guidelines for Access to Research Data from Public Funding[EB/OL]. [2015-10-10]. http://www.oecd.org/sti/sci-tech/38500813.pdf.
[2]PLOS One[EB/OL]. [2015-10-10]. http://www. plosone.org/static/policies.action.
[3]Nature[EB/OL]. [2015-10-10]. http://www.nature. com/authors/policies/availability.html.
[4]Mannheimer S, Yoon A, Greenberg J, et al. A Balancing Act: The Ideal and the Realistic in Developing Dryad’s Preservation Policy [J]. First Monday, 2014, 19(8). DOI: http://dx.doi.org/10.5210/fm.v20i10.5401.
[5]The organization – Dryad [EB/OL].[2015-05-05]. http://datadryad.org/pages/organization.
[6]Dryad Digital Repository [EB/OL]. [2015-05-05]. http://datadryad.org/.
[7]JM Ray. Research Data Management: Practical Strategies for Information Professionals [M].West Lafayette: Purdue University Press, 2014: 27-28.
[8]Dryad Collection Policy [EB/OL].[2015-05-05]. http:// dryad.googlecode.com/svn-history/r3005/trunk/dryad/ dspace/modules/xmlui/src/main/webapp/themes/Dryad/ pages/collectionPolicy.html.
[9]Policies - Dryad [EB/OL].[2015-05-06]. https://datadryad.org/pages/policies.
[10]Audit and Certification of Trustworthy Digital Repositories [EB/OL].[2015-05-06].http://public.ccsds.org/ publications/archive/652x0m1.pdf.
[11]Digital Preservation Policies and Planning at ICPSR [EB/OL].[2015-05-06]. http://www.icpsr.umich.edu/ icpsrweb/content/datamanagement/preservation/policies/index.html.
[12]黃永文,張建勇,黃金霞,等.國外開放科學數據研究綜述[J].現代圖書情報技術,2013(5):21-27.
[13]Re3data[EB/OL].[2015-05-06]. http://www.re3data. org/.
[14]A Day in the Life of a Dryad Curator[EB/OL].[2015-05-06].http://www.ils.unc.edu/digccurr/curategear2015-talks/hull.pdf.
[15]Genbank[EB/OL].2015-05-07]. http://www.ncbi.nlm. nih.gov/genbank.
[16]Figshare[EB/OL].[2015-05-07]. http://figshare.com/ about.
[17]黃如花,邱春艷.國外科學數據共享研究綜述[J].情報資料工作,2013(4):24-30.
[18]中國科學院資源環(huán)境科學數據中心數據共享管理暫行條例[EB/OL].[2015-10-13]. http://www.lreis.ac.cn/ sc/subsite/details.aspx?cid=212&v=7.
[19]朱艷華,胡良霖,袁雅琴,等.國內外科研資助機構科學數據共享政策分析[J].中國科技資源導刊, 2015, 47 (3):50-57.
Dryad Data Sharing Policy and Its Implications
Lin Fangfang, Zhao Hui
(Institute of Scientific and Technical Information of China, Beijing 100038)
It has certain significance for us to study the data repository’s data sharing policy, which may promote the development of domestic data sharing. We take the Dryad repository as an example, from the perspective of data collection, data publication, data preservation, charging and using to analysis its data sharing policy. Then we compared with Dryad repository, GenBank and figshare’s data sharing policy by contrast method, and put forward some related suggestions, such as developing detailed, actionable data sharing policies and developing relevant policies to strengthen the cooperation between journal publishers and data warehousing.
Dryad repository, data sharing policy, open database, GenBank, Figshare
G350
A
10.3772/j.issn.1674-1544.2015.06.009
林芳芳*(1992-),女,中國科學技術信息研究所信息資源管理專業(yè)碩士研究生,研究方向:信息資源管理;趙輝(1971-),女,中國科學技術信息研究所副研究館員,研究方向:信息資源管理、科技資源管理。
2015年7月13日。