高凡,田國(guó)祥,賀海蓉,楊津,3,曾憲濤,呂軍,3
2012年,大數(shù)據(jù)時(shí)代降臨,呈爆炸式激增的海量數(shù)據(jù)資源在各個(gè)領(lǐng)域開(kāi)始了量化進(jìn)程。醫(yī)學(xué)研究作為大數(shù)據(jù)發(fā)展的受益者,利用醫(yī)療大數(shù)據(jù)在臨床診斷、個(gè)體化治療、疾病預(yù)測(cè)等方面發(fā)揮著巨大作用[1]。與此同時(shí),數(shù)據(jù)的可再利用性、數(shù)據(jù)共享政策正在引起全球普遍重視,近十幾年數(shù)據(jù)管理和數(shù)據(jù)共享的基礎(chǔ)設(shè)施和相關(guān)法規(guī)建設(shè)正在迅速發(fā)展。自2003年以來(lái),美國(guó)國(guó)立衛(wèi)生院要求所有大型基金資助科研項(xiàng)目公開(kāi)其數(shù)據(jù)。世界最大的開(kāi)放獲取期刊PLOS One要求作者在文章出版的同時(shí)提交其數(shù)據(jù)至公共數(shù)據(jù)庫(kù)平臺(tái)。BMJ出版集團(tuán)建議作者在投稿的同時(shí)將數(shù)據(jù)存儲(chǔ)至Dryad數(shù)據(jù)庫(kù)[2-8]。Dryad作為大型穩(wěn)健的數(shù)據(jù)共享平臺(tái),是實(shí)現(xiàn)數(shù)據(jù)流通、提高數(shù)據(jù)再利用率的典范。本文將詳細(xì)介紹如何通過(guò)Dryad數(shù)據(jù)庫(kù)實(shí)現(xiàn)醫(yī)學(xué)數(shù)據(jù)共享。
Dryad數(shù)據(jù)庫(kù)受美國(guó)國(guó)家科學(xué)基金會(huì)資助,于2008年9月成立,是一家非營(yíng)利性會(huì)員制組織。Dryad數(shù)據(jù)庫(kù)中儲(chǔ)存醫(yī)學(xué)、生物學(xué)、生態(tài)學(xué)領(lǐng)域的研究數(shù)據(jù),向全球開(kāi)放,可免費(fèi)下載其中的數(shù)據(jù)資源并可再次使用。Dryad的誕生源于在生物學(xué)和生態(tài)學(xué)領(lǐng)域的一些領(lǐng)先期刊和科學(xué)團(tuán)體的倡議,他們希望出版機(jī)構(gòu)采用聯(lián)合數(shù)據(jù)存檔政策,即鼓勵(lì)向期刊投稿的研究者提交文稿時(shí)一并上傳數(shù)據(jù)至專(zhuān)業(yè)數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)數(shù)據(jù)和共享數(shù)據(jù)[9]。
Dryad數(shù)據(jù)庫(kù)可幫助研究人員實(shí)現(xiàn)數(shù)據(jù)可長(zhǎng)期存檔保存且開(kāi)放免費(fèi)重復(fù)使用愿望。截止2018年2月,與Dryad數(shù)據(jù)庫(kù)合作的期刊超過(guò)六百種,數(shù)據(jù)文件有六萬(wàn)余件,下載次數(shù)多達(dá)230萬(wàn)次[10]。
登錄Dryad網(wǎng)站(https://datadryad.org/)可進(jìn)行賬號(hào)注冊(cè)(圖1),在Dryad官網(wǎng)點(diǎn)擊“Log in/Sign up”,輸入申請(qǐng)者郵箱,點(diǎn)擊“Register”。
接下來(lái)申請(qǐng)者郵箱將會(huì)收到Dryad數(shù)據(jù)庫(kù)發(fā)來(lái)的郵件,郵件中含有一個(gè)鏈接,點(diǎn)擊該鏈接即自動(dòng)跳轉(zhuǎn)到Dryad網(wǎng)站建立賬號(hào)的頁(yè)面(圖2)。需要填寫(xiě)姓名、電話,設(shè)置賬號(hào)密碼,點(diǎn)擊“Complete registration”即可完成注冊(cè)。無(wú)論是下載Dryad數(shù)據(jù)還是在Dryad平臺(tái)發(fā)布數(shù)據(jù),均需先登錄賬號(hào)。
所有Dryad的數(shù)據(jù)均可免費(fèi)下載使用。在Dryad首頁(yè),可以看見(jiàn)“Browse for data”版塊,其中顯示的是最近在Dyrad平臺(tái)發(fā)布數(shù)據(jù)的文章標(biāo)題和作者,以及數(shù)據(jù)被下載次數(shù)最多的文章標(biāo)題和作者。如對(duì)這些內(nèi)容感興趣,可直接點(diǎn)擊其標(biāo)題,即可看到該文章的具體信息和其包括的數(shù)據(jù)文件,如有具體需搜索數(shù)據(jù)的方向,可在首頁(yè)上“Search for data”中輸入關(guān)鍵詞進(jìn)行搜索,或點(diǎn)擊“Advanced search”進(jìn)行高級(jí)搜索(圖3)。
圖1 Dryad主頁(yè)界面
圖2 Dryad注冊(cè)賬號(hào)界面
在“Search for data”可以輸入的關(guān)鍵詞類(lèi)型包括作者、標(biāo)題、數(shù)字對(duì)象標(biāo)識(shí)符(DOI)等。以搜索2017年發(fā)表的與糖尿病相關(guān)的文章數(shù)據(jù)為例,演示如何進(jìn)行數(shù)據(jù)搜索。點(diǎn)擊“Advanced search”進(jìn)入高級(jí)搜索界面,在“Search terms”中輸入“diabetes”,在“Add refinement”下拉菜單中可以選擇需要附加的其他搜索條件,其中包括文章標(biāo)題、作者、主題、發(fā)表時(shí)間,點(diǎn)擊“Publication date”輸入“2017”,點(diǎn)擊“Add”。搜索結(jié)果中展示了符合本次搜索條件的共21篇文章,搜索結(jié)果可按照相關(guān)性、文章標(biāo)題、文章發(fā)表時(shí)間進(jìn)行排序,圖4中的搜索結(jié)果是按照相關(guān)性進(jìn)行降序排列。圖4右半部分可看到Dryad網(wǎng)站對(duì)本次搜索結(jié)果按照作者、主題、發(fā)表時(shí)間、期刊名稱(chēng)有詳細(xì)的分類(lèi),點(diǎn)擊任一分類(lèi)查看其中包括的研究文章和數(shù)據(jù)。
點(diǎn)擊相關(guān)性排列在第一位的文章,如圖5所示,目標(biāo)研究主頁(yè)面展示該文章的基本信息,發(fā)布的數(shù)據(jù)文件和使用該數(shù)據(jù)時(shí)規(guī)范引用文獻(xiàn)和數(shù)據(jù)的格式。在“Files in this package”當(dāng)中,點(diǎn)擊“download”中文件名稱(chēng),即可下載數(shù)據(jù)。在引用該文獻(xiàn)和數(shù)據(jù)時(shí),可直接點(diǎn)擊“cite”,下載其引用格式。
圖3 Dryad搜索數(shù)據(jù)界面
圖4 高級(jí)搜索界面
越來(lái)越多期刊鼓勵(lì)研究者公布研究數(shù)據(jù),一方面鼓勵(lì)科研數(shù)據(jù)的再利用產(chǎn)生更多新的科學(xué)發(fā)現(xiàn),一方面推動(dòng)醫(yī)學(xué)研究的透明化、公開(kāi)化。研究者發(fā)布在Dryad上的數(shù)據(jù)可用于共享,他人通過(guò)Dryad搜索數(shù)據(jù)同時(shí)會(huì)發(fā)現(xiàn)利用該數(shù)據(jù)發(fā)表的文章,有助于提高該研究者及該出版商的聲譽(yù)和學(xué)術(shù)影響力[7]。同時(shí),Dryad會(huì)給每一個(gè)數(shù)據(jù)包分配一個(gè)全球可識(shí)別的,永久的數(shù)字對(duì)象標(biāo)識(shí)符(DOI),可用于數(shù)據(jù)引用。
在Dryad數(shù)據(jù)庫(kù)發(fā)布數(shù)據(jù)時(shí)有以下幾點(diǎn)注意事項(xiàng):①在Dryad數(shù)據(jù)平臺(tái)發(fā)布的數(shù)據(jù)大部分均與同行評(píng)審的期刊相關(guān)聯(lián),也接受來(lái)自其他知名來(lái)源(例如博士論文和書(shū)籍)的非同行評(píng)審出版物相關(guān)的數(shù)據(jù);②大多數(shù)類(lèi)型的文件格式均可被接受,例如,文本,電子表格,視頻,照片,軟件代碼,包括多個(gè)文件的壓縮存檔,Dryad也可接受非數(shù)據(jù)文件,前提是這些文件是出版物不可或缺的一部分并且可以公開(kāi),此外,雖然Dryad可以存儲(chǔ)軟件腳本和軟件源代碼的照片,但Dryad建議使用具有版本控制的公共軟件存儲(chǔ)庫(kù)來(lái)維護(hù)軟件包;③數(shù)據(jù)文件大小在20GB以下均免費(fèi),超過(guò)20GB將收取額外費(fèi)用;④研究人群的資料必須根據(jù)適用的法律和道德準(zhǔn)則進(jìn)行適當(dāng)?shù)哪涿幚砗蜏?zhǔn)備;⑤需遵循Creative Commons Zero豁免的許可條款;⑥文件語(yǔ)言要求為英語(yǔ)。
圖5 目標(biāo)研究主頁(yè)面
如果研究者投稿的期刊是Dryad的合作伙伴,那么登錄該期刊即可鏈接到Dryad進(jìn)行數(shù)據(jù)發(fā)布,研究者需要遵循該期刊數(shù)據(jù)發(fā)布的指南進(jìn)行數(shù)據(jù)提交,有些期刊建議數(shù)據(jù)在投稿時(shí)提交,有些期刊則要等到文章接收后才提交數(shù)據(jù)。一些合作期刊為作者提供了數(shù)據(jù)在論文出版后延遲發(fā)布的選擇,通??裳舆t一年后再公開(kāi)數(shù)據(jù),且期刊編輯有權(quán)酌情在特殊情況下授予更長(zhǎng)的延遲發(fā)布時(shí)間。Dryad已經(jīng)將數(shù)據(jù)提交模塊嵌入到合作期刊投稿流程中,簡(jiǎn)化提交流程。一旦文件準(zhǔn)備好,提交通常不到15 min。如果研究者投稿的期刊并不是Dryad的合作方,可通過(guò)Dryad官網(wǎng)進(jìn)行數(shù)據(jù)發(fā)布。首先登陸賬號(hào),然后在Dryad首頁(yè)點(diǎn)擊“Submit data now”進(jìn)入數(shù)據(jù)提交頁(yè)面。提交數(shù)據(jù)有四個(gè)步驟,第一填寫(xiě)出版物的基本信息,包括與該數(shù)據(jù)相關(guān)的研究論文或其他刊物的發(fā)表情況、研究者進(jìn)行研究工作的所在國(guó)家、是否受美國(guó)國(guó)家科學(xué)基金會(huì)資助以及數(shù)據(jù)發(fā)布同意書(shū)。填寫(xiě)完成后點(diǎn)擊“next”,第二步上傳數(shù)據(jù),第三步審核數(shù)據(jù),最后提交數(shù)據(jù)。
Dryad會(huì)對(duì)每次提交的文件進(jìn)行基本檢查,例如,文件是否可以打開(kāi),它們是否沒(méi)有病毒,是否沒(méi)有版權(quán)限制,是否顯示沒(méi)有敏感數(shù)據(jù),Dryad也會(huì)檢查元數(shù)據(jù)的完整性和正確性,例如關(guān)于相關(guān)出版物的信息,延遲數(shù)據(jù)發(fā)布的日期,索引關(guān)鍵字,同時(shí)DOI被正式注冊(cè)。一旦論文在網(wǎng)上發(fā)表,數(shù)據(jù)包將同時(shí)公開(kāi)發(fā)布,除非數(shù)據(jù)提供者選擇延遲發(fā)布數(shù)據(jù)。由于論文標(biāo)題,摘要,作者等在出版過(guò)程中經(jīng)常發(fā)生變化,因此Dryad會(huì)根據(jù)已接受或已發(fā)表的文章確認(rèn)并更新此信息。
Dryad元數(shù)據(jù)可通過(guò)索引服務(wù)使信息搜索者盡快找到符合其條件的數(shù)據(jù)資源。數(shù)據(jù)包可以在DataONE網(wǎng)絡(luò)中進(jìn)行訪問(wèn)和備份以實(shí)現(xiàn)長(zhǎng)期保存。原始文件的信息內(nèi)容永遠(yuǎn)不會(huì)被有意修改或處理,但可以制作不同文件格式的副本以便于保存。如果在歸檔后需要對(duì)數(shù)據(jù)包進(jìn)行實(shí)質(zhì)性更改,則必須創(chuàng)建新版本的包。
相比其他公共數(shù)據(jù)庫(kù)平臺(tái),Dryad數(shù)據(jù)庫(kù)憑借和眾多主流期刊的合作更加高效的實(shí)現(xiàn)數(shù)據(jù)共享,通過(guò)給元數(shù)據(jù)分配DOI的形式使得數(shù)據(jù)可以被引用,在提高科研數(shù)據(jù)利用率的同時(shí)也提高了研究者和出版機(jī)構(gòu)的學(xué)術(shù)聲譽(yù);Dryad在數(shù)據(jù)維護(hù)和數(shù)據(jù)容災(zāi)方面具有細(xì)致的管理政策,因此數(shù)據(jù)得以長(zhǎng)期保存;數(shù)據(jù)“零門(mén)檻”使用和友好的操作界面也使得Dryad數(shù)據(jù)庫(kù)受到越來(lái)越多科研工作者的青睞。本文詳細(xì)闡述了如何使用Dryad數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)下載和發(fā)布,相信未來(lái)會(huì)有更多諸如Dryad一樣的開(kāi)放數(shù)據(jù)庫(kù)來(lái)推動(dòng)醫(yī)學(xué)數(shù)據(jù)共享可持續(xù)發(fā)展。
[1]宋波,楊艷利,馮云霞. 醫(yī)療大數(shù)據(jù)研究進(jìn)展[J]. 轉(zhuǎn)化醫(yī)學(xué)雜志,2016(5):298-316.
[2]Dyke Stephanie OM,Hubbard Tim JP. Developing and implementing an institute-wide data sharing policy[J]. Genome Medicine,2011,3(9):60.
[3]李紅星,吳立宗,南卓銅,等. 科學(xué)數(shù)據(jù)聯(lián)合出版模式與內(nèi)容研究[J].遙感技術(shù)與應(yīng)用,2016(4):801-8.
[4]李娟,劉德洪,江洪. 國(guó)際科學(xué)數(shù)據(jù)共享現(xiàn)狀研究[J]. 圖書(shū)館建設(shè),2009(2):19-25.
[5]林芳芳,趙輝. 美國(guó)Dryad數(shù)據(jù)庫(kù)共享政策及啟示[J]. 中國(guó)科技資源導(dǎo)刊,2015,47(6):48-94.
[6]朱艷華,胡良霖,袁雅琴. 國(guó)內(nèi)外科研資助機(jī)構(gòu)科學(xué)數(shù)據(jù)共享政策分析[J]. 中國(guó)科技資源導(dǎo)刊,2015,47(3):50-7.
[7]Piwowar HA. Sharing Detailed Research Data Is Associated with Increased Citation Rate[J]. Plos One,2007,2(3):e308.
[8]Khan K,Weeks A. Dryad in the UK and USA - prospective and retrospective data publication[J]. Toxicological Sciences,2016,153(2):kfw132.
[9]The Organization. [2018-03-07]. http://dryad2.lib.ncsu.edu/pages/organization.
[10]Dryad Digital Repository. [2018-03-07]. http://dryad2.lib.ncsu.edu/