徐菁菁
(浙江大學(xué),浙江 杭州 310058)
近年來(lái),科學(xué)數(shù)據(jù)出版越來(lái)越受到研究者的關(guān)注??茖W(xué)數(shù)據(jù)或研究數(shù)據(jù)是指產(chǎn)生或收集后有待進(jìn)一步檢查并作為推理、討論或計(jì)算基礎(chǔ)的信息[1]??蒲袛?shù)據(jù)的出版是從科學(xué)研究的角度,對(duì)科學(xué)研究的數(shù)據(jù)進(jìn)行公開(kāi)發(fā)表及同行評(píng)審,并創(chuàng)建永久而標(biāo)準(zhǔn)的數(shù)據(jù)引用信息,以便被他人發(fā)現(xiàn)、引用和再利用[2]。
近年來(lái),政府越來(lái)越多地參與到開(kāi)放數(shù)據(jù)的建設(shè)中。許多國(guó)外政府對(duì)項(xiàng)目申請(qǐng)者科研全程的數(shù)據(jù)提出了硬性規(guī)定。美國(guó)國(guó)家科學(xué)基金會(huì)[3]、美國(guó)國(guó)家航空航天局(NASA)、英國(guó)研究理事會(huì)(RCUK)等均有相關(guān)規(guī)定,要求所有提交的基金申請(qǐng)項(xiàng)目,必須使其科學(xué)數(shù)據(jù)有公開(kāi)獲取途徑。
數(shù)據(jù)期刊政策是數(shù)據(jù)期刊發(fā)展的指引方向,主要涉及數(shù)據(jù)提交、數(shù)據(jù)描述、數(shù)據(jù)保存、數(shù)據(jù)利用等流程[4]。首先,數(shù)據(jù)期刊一般要求使用指定格式的數(shù)據(jù)以方便統(tǒng)一管理和引用。在審核階段,需要對(duì)其數(shù)據(jù)進(jìn)行全方位的評(píng)估,同行評(píng)審評(píng)議是審核數(shù)據(jù)集非常重要的過(guò)程之一。另外,還需針對(duì)數(shù)據(jù)集進(jìn)行描述,除了論文幾大要素之外,還要附加描述數(shù)據(jù)采集、處理方法、數(shù)據(jù)樣本描述、數(shù)據(jù)質(zhì)量評(píng)估、元數(shù)據(jù)信息等內(nèi)容。數(shù)據(jù)論文通過(guò)評(píng)審后,將進(jìn)行發(fā)布并確該數(shù)據(jù)集是可發(fā)現(xiàn)和可引用的。
我國(guó)數(shù)據(jù)出版發(fā)展雖已取得階段性成果,但與國(guó)外相比還處于起步和探索階段。我國(guó)大部分期刊都不具有數(shù)據(jù)出版政策,僅有的政策也多以鼓勵(lì)為主,并不強(qiáng)制要求。
科學(xué)數(shù)據(jù)出版模式是推進(jìn)科學(xué)數(shù)據(jù)共享的必經(jīng)之路?,F(xiàn)有研究者主要是通過(guò)科學(xué)數(shù)據(jù)出版的主、客體方式來(lái)歸納科學(xué)數(shù)據(jù)出版模式,屬于比較初級(jí)的劃分。關(guān)于主體與客體的區(qū)分,邱春艷[5]認(rèn)為:科學(xué)數(shù)據(jù)出版的主體主要包含學(xué)術(shù)出版商、科研機(jī)構(gòu)、數(shù)據(jù)中心和圖書(shū)館等,客體為科學(xué)數(shù)據(jù)、科學(xué)數(shù)據(jù)集以及元數(shù)據(jù)等。Lawrence等[6]從客體視角,將數(shù)據(jù)出版劃分為:獨(dú)立的數(shù)據(jù)出版、作為論文輔助資料的數(shù)據(jù)出版、附錄數(shù)據(jù)出版、期刊數(shù)據(jù)檔案出版以及數(shù)據(jù)論文出版等。
目前科研數(shù)據(jù)出版服務(wù)主要有以下4種數(shù)據(jù)出版形式:①學(xué)科數(shù)據(jù)儲(chǔ)存庫(kù)[7]。②機(jī)構(gòu)存儲(chǔ)庫(kù)[8-9]。③數(shù)據(jù)論文和期刊論文。④機(jī)構(gòu)、個(gè)人或第三方網(wǎng)頁(yè)出版[10]。
也有學(xué)者認(rèn)為,科學(xué)出版的主要目的是方便共享,促進(jìn)科學(xué)發(fā)展,所以簡(jiǎn)化流程和方法是非常重要的課題。
基于OSF平臺(tái)[11]中Meeting板塊,創(chuàng)建一個(gè)在線數(shù)據(jù)存儲(chǔ)庫(kù)Data Ark[12],并在其中填充數(shù)據(jù)集(目前網(wǎng)站中的數(shù)據(jù)集上傳時(shí)間為2018-2019),從而使心理學(xué)和精神病學(xué)相關(guān)的研究團(tuán)體能夠重復(fù)使用并驗(yàn)證它們。
Micropublication[13]是一個(gè)新穎的學(xué)術(shù)交流平臺(tái),該平臺(tái)可以捕獲研究人員的數(shù)據(jù),然后通過(guò)Micropublication將其直接傳遞到信息資源中。該平臺(tái)通過(guò)提供快速并且輕量級(jí)的出版物,從而激勵(lì)作者發(fā)布其未發(fā)表的觀察結(jié)果以及相關(guān)的元數(shù)據(jù)。該平臺(tái)每篇文章都經(jīng)過(guò)同行評(píng)審并分配了DOI,整理所包含的數(shù)據(jù),并在發(fā)布后將其存儲(chǔ)在第三方參考數(shù)據(jù)庫(kù)中。
IDR項(xiàng)目的建設(shè)由BBSRC資助,這是鄧迪的 OME財(cái)團(tuán)與EMBL-EBI的合作。IDR使一些研究社區(qū)可以被搜索、查看、挖掘,可以處理和分析大型、復(fù)雜的多維生命科學(xué)圖像數(shù)據(jù)。共享數(shù)據(jù)可以促進(jìn)對(duì)實(shí)驗(yàn)方法和科學(xué)結(jié)論的驗(yàn)證,可以與全球科學(xué)界獲得的新數(shù)據(jù)進(jìn)行比較,并可以使開(kāi)發(fā)人員使用新的分析和處理工具來(lái)重復(fù)使用數(shù)據(jù)[14]。
Psi開(kāi)放數(shù)據(jù)是心理學(xué)研究協(xié)會(huì)開(kāi)放的超心理學(xué)和心理學(xué)研究數(shù)據(jù)的開(kāi)放存儲(chǔ)庫(kù)。該存儲(chǔ)庫(kù)使用DKAN構(gòu)建,DKAN是一個(gè)開(kāi)放源代碼開(kāi)放數(shù)據(jù)平臺(tái),具有完整的編目、發(fā)布和可視化功能。它允許管理員用戶上載研究數(shù)據(jù)集,并允許任何訪客搜索和下載數(shù)據(jù)集[15]。
Qresp[16]是一個(gè)基于Web的開(kāi)放源代碼應(yīng)用程序,可用于管理和探索科學(xué)論文中呈現(xiàn)的數(shù)據(jù),或者僅用于探索科學(xué)論文。它不僅可以用于管理數(shù)據(jù),更可以用于數(shù)據(jù)共享。
Qresp的優(yōu)點(diǎn)不僅在于促進(jìn)數(shù)據(jù)可重復(fù)性;還在于它具有以下優(yōu)點(diǎn):通過(guò)創(chuàng)建論文工作流程,Qresp使作者能夠解釋和公開(kāi)論文的研究?jī)?nèi)容。Qresp通過(guò)鼓勵(lì)使用(重復(fù)使用)腳本化程序以減少耗時(shí)和錯(cuò)誤,從而鼓勵(lì)從研究項(xiàng)目的早期階段就采用良好的科學(xué)實(shí)踐操作。Qresp可以成為培養(yǎng)數(shù)據(jù)管理和共享文化的重要工具。并且Qresp還滿足促進(jìn)數(shù)據(jù)挖掘和統(tǒng)計(jì)分析/學(xué)習(xí)的需求。Qresp增加大量數(shù)據(jù)的可用性,以進(jìn)行統(tǒng)計(jì)學(xué)習(xí),從而有助于該領(lǐng)域的擴(kuò)展和穩(wěn)健性。此外,這將有助于減少在屬于某個(gè)社區(qū)或研究小組的研究人員之間共享數(shù)據(jù)和知識(shí)的時(shí)間框架,從而提高生產(chǎn)率并最大程度地減少工作和成本的 重復(fù)。