■張 恬 劉鳳紅
中國科學(xué)院文獻(xiàn)情報中心科技期刊與知識服務(wù)中心 北京市海淀區(qū)中關(guān)村北四環(huán)西路33號 100190
開放科學(xué)的理念和實踐產(chǎn)生于16世紀(jì)末17世紀(jì)初,伴隨著學(xué)術(shù)期刊的誕生,其成為一場重要的科學(xué)革命,打破了科研保密觀——要秘密地追尋“自然的秘密”——的統(tǒng)治地位,建立了科學(xué)家為快速揭示新知識負(fù)責(zé)的新常態(tài)[1]。隨著科學(xué)研究的快速發(fā)展,科研產(chǎn)出成果逐漸豐富和多樣,分工也趨向精細(xì)化,跨地域、跨學(xué)科、跨流程的科研協(xié)作方式逐漸成為主流,科學(xué)交流的內(nèi)容和方式隨之發(fā)生巨大變革,推動了開放科學(xué)運(yùn)動的蓬勃發(fā)展。迄今,開放科學(xué)運(yùn)動已至少擴(kuò)展至6個方面,即開放獲取(Open Access)、開放數(shù)據(jù)(Open Data)、開放源(Open Source)、開放方法(Open Methodology)、開放同行評審(Open Peer Review)和開放教育資源(Open Educational Resources)[2-3]。
在開放科學(xué)的宏觀框架和體系下,作為首要的科研產(chǎn)出內(nèi)容,研究數(shù)據(jù)的開放備受關(guān)注。由于研究數(shù)據(jù)意味著科研活動中廣泛且多樣化的物質(zhì)產(chǎn)出,本研究將其定義為以研究和學(xué)術(shù)為目的,并可作為現(xiàn)象的證據(jù)實體[4],將數(shù)據(jù)集定義為數(shù)據(jù)出版活動中被集體處理的數(shù)據(jù)單元[5],因此本研究提及的研究數(shù)據(jù)不僅包括傳統(tǒng)意義上的數(shù)據(jù),還包括各種類型的研究產(chǎn)出。
數(shù)據(jù)出版是推動數(shù)據(jù)開放的重要手段和激勵機(jī)制。廣義上講,任何將數(shù)據(jù)公開并供他人重用的行為都可稱為數(shù)據(jù)出版[6]。數(shù)據(jù)出版確保了研究數(shù)據(jù)不再僅僅被作為論文中的表格或圖片,而是被當(dāng)作科研活動的一級科學(xué)產(chǎn)出[7]。近年來,有關(guān)數(shù)據(jù)出版的理論研究、流程設(shè)計和實踐總結(jié)時常見諸學(xué)術(shù)期刊,如Austin等[8-10]分析和鑒定了關(guān)于數(shù)據(jù)出版工作流程和構(gòu)成要素的參考模型;Edmunds等[11]研究如何創(chuàng)新出版形式以關(guān)聯(lián)或嵌入數(shù)據(jù)集和代碼;Wright等[12-14]關(guān)注特定數(shù)據(jù)類型(環(huán)境數(shù)據(jù)、社科數(shù)據(jù)、信息檢索實驗評估等)以研究創(chuàng)新性的解決方案等。
數(shù)據(jù)出版主要有三種形式:作者將數(shù)據(jù)上傳至公開網(wǎng)站或數(shù)據(jù)存儲庫;根據(jù)出版社或期刊要求,作者提供用于支撐傳統(tǒng)研究論文觀點(diǎn)和主張的附屬資料;作者發(fā)表以數(shù)據(jù)為核心對象的數(shù)據(jù)論文[6]。隨著數(shù)據(jù)數(shù)量激增和出版流程規(guī)范需求,上述三種形式正逐步相互融合和轉(zhuǎn)化。如一些數(shù)據(jù)期刊明確要求數(shù)據(jù)論文需存儲于公共存儲庫;在尊重和遵守相應(yīng)版權(quán)協(xié)議前提下,作為論文附屬資料的數(shù)據(jù)也可通過數(shù)據(jù)論文形式再次發(fā)表。
數(shù)據(jù)出版利益相關(guān)方主要涉及三大類:(1)政府機(jī)構(gòu)、資助主體;(2)出版商/出版者(包括數(shù)據(jù)期刊);(3)數(shù)據(jù)存儲庫及其他提供數(shù)據(jù)管理、注冊和培訓(xùn)的服務(wù)平臺。筆者通過文獻(xiàn)調(diào)研、網(wǎng)站調(diào)研、政策報告分析、博客內(nèi)容跟蹤等方式對上述利益相關(guān)方近三年的新動向進(jìn)行梳理,以期分析數(shù)據(jù)出版現(xiàn)狀,并展望其發(fā)展前景。
總體而言,政府機(jī)構(gòu)和公益科研項目資助主體對數(shù)據(jù)出版一直持積極態(tài)度,由歐盟委員會開放科學(xué)云(European Open Science Cloud,EOSC)高層專家委員會前任主席、荷蘭萊頓大學(xué)教授Barend Mons領(lǐng)銜提出的“FAIR原則”(Findable,Accessible,Interoperable, Reusable,即可發(fā)現(xiàn)、可訪問、可交互、可重用)正成為科學(xué)數(shù)據(jù)管理、監(jiān)管與出版的最新通用原則。該原則的創(chuàng)新之處在于其不只針對人,更多地強(qiáng)調(diào)機(jī)器對數(shù)據(jù)發(fā)現(xiàn)、獲取、理解和使用的能力。
歐盟委員會已開始基于FAIR原則對研究數(shù)據(jù)進(jìn)行長期管理。2016年7月26日,歐盟委員會公布《Horizon 2020框架下的FAIR數(shù)據(jù)管理指南》[15],提出所有受Horizon 2020資助且參與“開放研究數(shù)據(jù)試行計劃”的項目必須提交數(shù)據(jù)管理計劃(Data Management Plan,DMP)。該指南給出Horizon 2020 FAIR DMP參考模板供項目經(jīng)費(fèi)獲得者使用。從項目經(jīng)費(fèi)批準(zhǔn)發(fā)放起6個月內(nèi),經(jīng)費(fèi)獲得者必須提交首份DMP,并在整個項目生命周期內(nèi)更新DMP。歐盟委員會向其項目經(jīng)費(fèi)獲得者推薦用于DMP撰寫的相關(guān)在線工具,包括:(1)研究數(shù)據(jù)聯(lián)盟(Research Data Alliance)提供的元數(shù)據(jù)標(biāo)準(zhǔn)目錄(Metadata Standards Directory);(2)EUDAT B2SHARE 工具,可用于為研究數(shù)據(jù)選擇適當(dāng)許可;(3)數(shù)據(jù)存儲庫資源,如研究數(shù)據(jù)存儲庫注冊庫re3data.org,可存儲出版物及數(shù)據(jù),同時提供用作相互關(guān)聯(lián)工具的數(shù)據(jù)存儲庫Zenodo、Open AIRE、CERN Collaboration及DMP Online工具。
美國國立衛(wèi)生研究院(National Institutes of Health, NIH)也正進(jìn)一步發(fā)展數(shù)據(jù)管理、共享和引用策略,其新目標(biāo)是希望通過一系列數(shù)據(jù)管理措施來保證數(shù)據(jù)的公平出版。為此,NIH于2016年11月就此問題公開向社會征集意見[16]:(1)NIH資助項目所產(chǎn)生的科學(xué)數(shù)據(jù)應(yīng)如何管理并最大限度地為公眾所利用;(2)共享數(shù)據(jù)和軟件應(yīng)設(shè)立的引用標(biāo)準(zhǔn)。
我國也正積極推行數(shù)據(jù)管理FAIR原則,《二十國集團(tuán)領(lǐng)導(dǎo)人杭州峰會公報》[17]在“創(chuàng)新驅(qū)動下的增長方式”部分中強(qiáng)調(diào):“我們支持采取適當(dāng)措施促進(jìn)開放科學(xué),推動在可發(fā)現(xiàn)、可訪問、可交互、可重用的原則下,提高獲取公共財政資助的研究成果的便利性”。
近期,歐盟委員會發(fā)布“云服務(wù)和世界級數(shù)據(jù)基礎(chǔ)設(shè)施藍(lán)圖”[18],即公開Horizon 2020框架計劃資助下的研究數(shù)據(jù),使其可發(fā)現(xiàn)、可訪問、可交互、可重用,確??茖W(xué)、商務(wù)和公共服務(wù)從大數(shù)據(jù)革命中獲益。根據(jù)這份藍(lán)圖,歐盟委員會開放科學(xué)云將通過加固和互聯(lián)現(xiàn)有基礎(chǔ)設(shè)施,為歐洲170萬科研人員和7000萬科技專業(yè)人員提供有效環(huán)境來存儲、共享和重用跨學(xué)科和跨國界數(shù)據(jù)。該計劃由歐盟委員會和28個歐盟成員國提供資金支持,集所有用于科研和創(chuàng)新的歐盟資助項目為一體,是全球同類項目中最大的資助項目。
為進(jìn)一步踐行FAIR理念,歐盟委員會開放科學(xué)云啟動GO FAIR計劃(該計劃由FAIR理念創(chuàng)立者和發(fā)起人Barend Mons親自負(fù)責(zé)組織),旨在聯(lián)合全球正在進(jìn)行的云項目,包括美國“NIH Data Commons”項目、“澳大利亞開放研究云”項目[19]、“西非地區(qū)開放科學(xué)云”項目[20]、南非地區(qū)“非洲數(shù)據(jù)強(qiáng)化研究云”項目[21]等。
為加強(qiáng)科技創(chuàng)新基礎(chǔ)能力建設(shè),推動我國科技資源整合共享與高效利用,打破科技信息滯留和數(shù)據(jù)壟斷格局,“十一五”以來,我國科技部、財政部組織開展國家科技基礎(chǔ)條件平臺建設(shè)工作,目前科學(xué)數(shù)據(jù)共享領(lǐng)域已經(jīng)建成林業(yè)科學(xué)數(shù)據(jù)平臺、地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺、人口與健康科學(xué)數(shù)據(jù)共享平臺、農(nóng)業(yè)科學(xué)數(shù)據(jù)共享中心、農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所、地震科學(xué)數(shù)據(jù)共享中心和氣象科學(xué)數(shù)據(jù)共享中心7個平臺,旨在重點(diǎn)集成各部門的科學(xué)數(shù)據(jù)資源,整合離散科學(xué)數(shù)據(jù)資源,開發(fā)數(shù)據(jù)集產(chǎn)品,構(gòu)建面向全社會的科學(xué)數(shù)據(jù)管理與共享服務(wù)設(shè)施。
Leonardo等[22]于2015年總結(jié)了數(shù)據(jù)期刊概況,筆者以此數(shù)據(jù)為基礎(chǔ)進(jìn)行總結(jié)(表1)。在117種支持?jǐn)?shù)據(jù)論文出版的期刊中,有9種只發(fā)表純數(shù)據(jù)論文,其余均為綜合性數(shù)據(jù)期刊。除數(shù)據(jù)論文外,綜合性數(shù)據(jù)期刊還出版?zhèn)鹘y(tǒng)類型文章。數(shù)據(jù)論文也分為不同類型,各刊對數(shù)據(jù)論文的命名也不盡相同,包括Data Article、Data Descriptor、Data in Brief、Data Note、Data Original Article、Data Paper、Database Article、Database Paper、Dataset Paper、Genome Database等。筆者仔細(xì)查閱不同期刊的數(shù)據(jù)論文,發(fā)現(xiàn)各期刊的數(shù)據(jù)論文雖然名稱不同,但均以描述數(shù)據(jù)集的收集、處理過程及其格式等細(xì)節(jié)為主要內(nèi)容。
表1 117種已開展數(shù)據(jù)出版的期刊概況[22]
注:①M(fèi)為綜合性數(shù)據(jù)期刊。其中JBM=BioMed Central journals,JCC=Chemistry Central journals,JEc=Ecology,JF1=F1000Research,JRR=InternationalJournalofRoboticsResearch,JNi=Neuroinformatics,JPe=Pensoft journals,JPO=PLoSONE,JSO=Springer Open journals;
② P為純粹數(shù)據(jù)期刊。其中JSD=ScientificData,JDP=DatasetPapersinScience,JES=EarthSystemScienceData,JGD=GenomicsData,JGS=GeoscienceDataJournal,JOx=Database:TheJournalofBiologicalDatabasesandCuration,JUP=Ubiquity Press journals;
③表中數(shù)據(jù)在文獻(xiàn)[22]基礎(chǔ)上有所更新。
為促進(jìn)數(shù)據(jù)共享和重用,Nature出版集團(tuán)數(shù)據(jù)期刊ScientificData于2016年4月擴(kuò)充其文章類型,除傳統(tǒng)數(shù)據(jù)論文類型Data Descriptor外,新增Analysis和Article兩個類型[23]。Analysis是對已有數(shù)據(jù)的重新分析和元數(shù)據(jù)分析,呈現(xiàn)基于已發(fā)表數(shù)據(jù)的新發(fā)現(xiàn)和新結(jié)論,體現(xiàn)該刊在推動數(shù)據(jù)重用方面的創(chuàng)新實踐。該刊還規(guī)定,如果用于分析的數(shù)據(jù)未經(jīng)發(fā)表,則要同時提交數(shù)據(jù)描述。提交的稿件則必須清晰地描述所有分析步驟以說明研究的可重復(fù)性,提供支撐源代碼,同時闡明源自哪里、以何種方式獲取文章中的數(shù)據(jù)。
Article旨在發(fā)表支持可重復(fù)研究的系統(tǒng)和技術(shù)所進(jìn)行的初始研究,包括如何共享、管理和處理科研數(shù)據(jù)。對數(shù)據(jù)存儲庫、標(biāo)準(zhǔn)、本體等研究內(nèi)容也非常歡迎,前提是能夠呈現(xiàn)數(shù)據(jù)交換、語義增強(qiáng)和知識生成;對數(shù)據(jù)共享習(xí)慣的認(rèn)知、共享政策的有效性等社會學(xué)研究內(nèi)容也在發(fā)表內(nèi)容之列。
除發(fā)表傳統(tǒng)數(shù)據(jù)外,以發(fā)表單個觀察結(jié)果、研究產(chǎn)出等非傳統(tǒng)出版為目的的期刊正在興起。由于很多研究產(chǎn)出無法被看到、被引用,更無法被他人重用,這些研究經(jīng)常被遺忘或遺失,獨(dú)立學(xué)術(shù)出版公司Pensoft于2015年12月創(chuàng)辦新的開放獲取期刊ResearchIdeasandOutcomes(RIO)[24]支持出版整個科研生命周期中的每一步驟,這既包括傳統(tǒng)研究論文,也包括非傳統(tǒng)研究產(chǎn)出,包括但不限于:科研設(shè)想、資助建議書、實驗設(shè)計、工作流、數(shù)據(jù)管理計劃、軟件管理計劃、博士后項目書、見解論文、數(shù)據(jù)論文、軟件描述、會議摘要、研究介紹、研究海報、項目報告、政策與交流簡報、案例研究等。發(fā)表這些成果將幫助尚未獲得資助、處于科研生涯早期的年輕研究者獲得信譽(yù)、避免不必要的重復(fù)科研工作,有助于對“合作”和“新發(fā)現(xiàn)”產(chǎn)生重大影響。RIO榮獲2016年學(xué)術(shù)出版與學(xué)術(shù)資源聯(lián)盟獎。
無獨(dú)有偶,蘇黎世大學(xué)于2016年初啟動三盲評審的開放獲取新刊Matters[25],用于發(fā)表純粹的科學(xué)單元——單個觀察結(jié)果。Matters在辦刊宗旨中強(qiáng)調(diào):如今的期刊更喜歡“講故事”,而非單純陳述觀察結(jié)果;喜歡體現(xiàn)一致性而非個性。這避免了在高影響力期刊中發(fā)表文章時,一些不符合故事情節(jié)但科學(xué)和倫理合理的觀察結(jié)果被舍掉,甚至出現(xiàn)數(shù)據(jù)造假等欺詐行為。因此,為支持客觀研究成果公開發(fā)表,Matters聲明,研究人員只要獲得實實在在且符合科研倫理的觀察結(jié)果,就可投稿,孤立數(shù)據(jù)、陰性數(shù)據(jù)、驗證數(shù)據(jù)、矛盾數(shù)據(jù)均可被發(fā)表??蒲腥藛T不用擔(dān)心投稿的結(jié)果是否為傳統(tǒng)意義上的好科研故事。
隨著Matters和RIO嶄露頭角,為在新興學(xué)術(shù)出版中抓住機(jī)遇,BMCResearchNotes[26]于2017年宣布回歸創(chuàng)刊初衷,只發(fā)表簡短的 research note,用于解放“暗數(shù)據(jù)”(dark data)[27]。該刊創(chuàng)刊于2008年,旨在使研究人員的簡短實驗記錄和單個觀察結(jié)果得以發(fā)表,但于2011年開始接收主流文章類型。此次回歸,該刊將只關(guān)注被稱為“暗數(shù)據(jù)”的孤立數(shù)據(jù)、單個觀察結(jié)果、驗證數(shù)據(jù)、對立數(shù)據(jù)、非預(yù)期結(jié)果等。
與此同時,2002年創(chuàng)刊的JournalofNegativeResultsinBiomedicine(JNRBM) 宣布于2017年9月1日起停刊,其出版商BioMed Central將繼續(xù)保證該刊已出版的文章可存檔及可被檢索[28]。JNRBM 的辦刊宗旨是鼓勵非預(yù)期數(shù)據(jù)的發(fā)表,解決文獻(xiàn)中的偏見問題,這對其他期刊發(fā)表陰性結(jié)果和非預(yù)期結(jié)果起引領(lǐng)作用。隨著能夠發(fā)表此類文章的期刊數(shù)量的增多,BioMed Central認(rèn)為沒有必要保留一種出版非預(yù)期結(jié)果的期刊,其作用可被旗下的多種數(shù)據(jù)出版期刊所替代,而且這些期刊有各自特定領(lǐng)域。此外,對于非傳統(tǒng)類型數(shù)據(jù),BioMed Central推薦作者特別關(guān)注BMCResearchNotes,因為其關(guān)注的數(shù)據(jù)類型遠(yuǎn)多于JNRBM,完全可替代JNRBM。
我國數(shù)據(jù)出版雖然起步較晚,但近幾年已加快探索和實踐步伐。我國唯一面向多學(xué)科領(lǐng)域科學(xué)數(shù)據(jù)出版的學(xué)術(shù)期刊《中國科學(xué)數(shù)據(jù)》已被中國科學(xué)引文數(shù)據(jù)庫(Chinese Science Citation Database,CSCD)收錄[29],截至2018年2月底,該期刊平臺累計訪問量超過36萬次[30]。2018年2月,由中國科學(xué)院發(fā)起,國際數(shù)字地球?qū)W會(International Society for Digital Earth,ISDE)聯(lián)合中國科學(xué)院遙感與數(shù)字地球研究所、中國科學(xué)院戰(zhàn)略性先導(dǎo)科技專項“地球大數(shù)據(jù)科學(xué)工程”、英國Taylor & Francis出版集團(tuán)、中國科技出版?zhèn)髅焦煞萦邢薰镜裙餐瑒?chuàng)辦全球地球科學(xué)領(lǐng)域首個大數(shù)據(jù)開放獲取學(xué)術(shù)刊物——《地球大數(shù)據(jù)》(BigEarthData)[31]。該刊不僅發(fā)表與地球大數(shù)據(jù)相關(guān)的研究論文、綜述文章、快訊文章,還發(fā)表數(shù)據(jù)論文,鼓勵作者將數(shù)據(jù)和算法等存儲于被認(rèn)可的公共存儲器中,以促進(jìn)數(shù)據(jù)共享和重用。近日,國家標(biāo)準(zhǔn)化管理委員會正式發(fā)布《信息技術(shù) 科學(xué)數(shù)據(jù)引用》國家標(biāo)準(zhǔn)[32],并將于2018年7月1日起正式實施?!犊茖W(xué)數(shù)據(jù)引用》針對科學(xué)數(shù)據(jù)傳播機(jī)構(gòu)和數(shù)據(jù)使用者,規(guī)定了科學(xué)數(shù)據(jù)引用元素描述方法、引用元素詳細(xì)說明、引用格式等內(nèi)容。其中,科學(xué)數(shù)據(jù)傳播機(jī)構(gòu)可根據(jù)該標(biāo)準(zhǔn)設(shè)計數(shù)據(jù)引用系統(tǒng),并聲明數(shù)據(jù)引用規(guī)則;數(shù)據(jù)使用者可根據(jù)該標(biāo)準(zhǔn)著錄科學(xué)數(shù)據(jù)引用信息。《科學(xué)數(shù)據(jù)引用》國家標(biāo)準(zhǔn)的正式發(fā)布,標(biāo)志著科學(xué)數(shù)據(jù)可以像學(xué)術(shù)論文一樣被同行標(biāo)準(zhǔn)化引用,這將在一定程度上促進(jìn)數(shù)據(jù)擁有者開放共享其數(shù)據(jù)[33]。
數(shù)據(jù)存儲庫數(shù)量已非常龐大,且持續(xù)增長,據(jù)統(tǒng)計,截至2017年12月,世界上最大、最全面的數(shù)據(jù)存儲庫網(wǎng)絡(luò)注冊系統(tǒng)re3data.org(REgistry of REsearch data REpositories)收錄的數(shù)據(jù)存儲庫已超過1500個。在數(shù)據(jù)量增長的同時, 該系統(tǒng)也致力于功能升級。為確保所收錄數(shù)據(jù)的有效性,re3data.org開始提供徽章生成功能,徽章將展示數(shù)據(jù)存儲庫的名稱、認(rèn)證圖標(biāo)(圖1)、DOI和網(wǎng)站入口,通過徽章標(biāo)識數(shù)據(jù)存儲庫的資質(zhì)?;照驴勺灾桑袃煞N尺寸和顏色可選,生成后下載為SVG和PNG格式或通過HTML代碼片段嵌入[34]。
圖1 re3data.org提供的認(rèn)證圖標(biāo)在數(shù)據(jù)存儲庫中的含義
數(shù)據(jù)存儲庫數(shù)量眾多,絕大多數(shù)為專業(yè)性存儲庫。通用型數(shù)據(jù)存儲庫雖然所占比例不高,但與出版社和期刊編輯部有密切的合作關(guān)系,對數(shù)據(jù)出版起著不可或缺的支持作用。
Dryad國際數(shù)據(jù)存儲庫由期刊出版社、科研團(tuán)體和其他利益相關(guān)者共同管理,截至2017年12月,Dryad平臺已累計存儲19799個數(shù)據(jù)包,63397個數(shù)據(jù)文件,全球范圍內(nèi)擁有20家會員單位,包括美國科學(xué)促進(jìn)會、BMJ出版集團(tuán)、牛津出版社、Wiley出版社等大型知名出版單位。此外,Dryad與656種期刊建立合作關(guān)系,支持期刊開展數(shù)據(jù)出版。Dryad數(shù)據(jù)提交流程已與很多在線稿件處理系統(tǒng)整合,以滿足不同期刊數(shù)據(jù)出版的需求。目前,Dryad 正與美國國家科學(xué)基金會(National Science Foundation, NSF)共同試行一個計劃,用來測試擁有經(jīng)費(fèi)的組織機(jī)構(gòu)直接對數(shù)據(jù)出版費(fèi)進(jìn)行資助的可行性[35]。
Figshare平臺不僅用于存儲和發(fā)布數(shù)據(jù),還為任何形式的研究產(chǎn)出(包括圖片、多媒體、預(yù)印本、報告、海報等)提供存儲、管理和免費(fèi)傳播途徑。2016年10月,F(xiàn)igshare開始為合作研究機(jī)構(gòu)和出版商提供公共使用數(shù)據(jù)統(tǒng)計查詢頁面,與其合作的機(jī)構(gòu)可查看自有數(shù)據(jù)在Figshare門戶上的瀏覽量和下載量[36]。2016年10月,F(xiàn)igshare發(fā)布面向全球2000位研究人員的調(diào)查報告——開放數(shù)據(jù)現(xiàn)狀[37],對全球開放數(shù)據(jù)和共享實踐現(xiàn)狀進(jìn)行評估,得出以下結(jié)論:(1)大多數(shù)受調(diào)查者認(rèn)為開放數(shù)據(jù)已成為現(xiàn)實;(2)研究人員認(rèn)為開放數(shù)據(jù)能夠幫其獲得信譽(yù);(3)對開放數(shù)據(jù)的認(rèn)知程度與年齡和事業(yè)發(fā)展程度無關(guān);(4)研究人員對如何引用數(shù)據(jù)集所知不多;(5)開放科學(xué)是大勢所趨,且未來將更加開放。
Zenodo于2013年5月上線,由歐盟委員會通過Open AIRE(歐洲科研開放獲取基礎(chǔ)設(shè)施)項目予以資助,旨在幫助科研人員保存和共享研究產(chǎn)出。2016年9月,Zenodo將所有數(shù)據(jù)遷入全新平臺,極大提升了平臺的性能[38],表現(xiàn)在以下幾方面:(1)更快,搜索、上傳文件或API調(diào)用的響應(yīng)速度更快;(2)檢索更準(zhǔn)確,全新檢索后臺和新用戶搜索界面;(3)容量更大,由2 GB提升為50 GB;(4)更好地與GitHub整合;(5)可將研究與Horizon 2020資助項目互聯(lián),并自動輸出至Open AIRE。目前,該平臺已累計圖片數(shù)據(jù)169143條,出版數(shù)據(jù)98401條,數(shù)據(jù)集21724條,軟件15322個,報告3296個,海報1533個,視頻477個,課件 320個。
在數(shù)據(jù)密集型科學(xué)研究范式下,數(shù)據(jù)價值越來越受到社會各界重視。國際科技醫(yī)學(xué)出版協(xié)會描繪的STM 2020技術(shù)框架圖明確表明,研究數(shù)據(jù)是重要的一級科研產(chǎn)出。隨著數(shù)據(jù)量激增,對數(shù)據(jù)出版的探索與實踐已不單純停留于“數(shù)據(jù)公開和開放”階段,而是向“如何實現(xiàn)機(jī)器和人對數(shù)據(jù)有效重用”以及“如何有效地從各種層面的研究數(shù)據(jù)中提煉知識和智慧”的方向邁進(jìn)。通過上述梳理可看出,圍繞數(shù)據(jù)出版的各利益相關(guān)方均做出積極有效的探索。
有效的數(shù)據(jù)共享依賴于適當(dāng)、可靠的數(shù)據(jù)管理,政府、資助主體正本著可發(fā)現(xiàn)、可訪問、可交互、可重用的原則制定相應(yīng)的數(shù)據(jù)管理措施,其目標(biāo)為使數(shù)據(jù)更“FAIR”。而要實現(xiàn)此目標(biāo),基礎(chǔ)設(shè)施必不可少,F(xiàn)AIR數(shù)據(jù)的出版、分析工具、計算能力、虛擬計算機(jī)和工作流體系是當(dāng)前一些國家級數(shù)據(jù)基礎(chǔ)設(shè)施的重要部分。歐盟成員國、美國、澳大利亞、非洲部分國家都在為各類科研資源建立基于富元數(shù)據(jù)的基礎(chǔ)設(shè)施,以支持這些資源可被有選擇地重用,而如何確保這些散布于全球各地的基礎(chǔ)設(shè)施所提供的服務(wù)質(zhì)量,是研究熱點(diǎn)之一,F(xiàn)AIR原則將被作為標(biāo)準(zhǔn)制定的參考依據(jù)。
對于出版者而言,數(shù)據(jù)出版的范疇正不斷擴(kuò)展,各種類型、體量、階段的科研產(chǎn)出都將被視為“研究數(shù)據(jù)”進(jìn)行出版。目前,數(shù)據(jù)出版主要表現(xiàn)為兩個特征。(1)出版者已開始對暗數(shù)據(jù)出版進(jìn)行探索。暗數(shù)據(jù)出版是鼓勵科學(xué)家實踐“公開筆記本科學(xué)”的主要做法,被視為開放科學(xué)的一部分,其動機(jī)是認(rèn)為“科學(xué)研究太保密也太緩慢”,其靈感來源于開源軟件。目前,已有科學(xué)家在數(shù)據(jù)存儲庫Zenodo以及博客實時公開實驗記錄[39]。(2)出版者也在嘗試出版數(shù)據(jù)以外的論文類型——研究要素論文。除數(shù)據(jù)論文外,整個科研周期中的各種客觀要素正成為新的基于同行評議的論文類型而得以出版。長期以來,學(xué)術(shù)期刊以刊發(fā)“完整的科研故事”為主要形式,重點(diǎn)關(guān)注學(xué)術(shù)思想、科研問題的新穎性和獨(dú)創(chuàng)性,而對構(gòu)成科研周期的客觀研究要素描述不夠完整,一項科研活動的整個科研周期中包含廣泛且多樣化的物質(zhì)產(chǎn)出,如科研設(shè)想、工作流、數(shù)據(jù)管理計劃、實驗方法材料、軟件描述、案例研究等,這些科研產(chǎn)出構(gòu)成科研活動的客觀支撐條件,具有極高的科研價值[40]。研究要素出版可看作數(shù)據(jù)出版的拓展和延伸,因此這一新興的出版模式值得深入探索。
來自政府、資助主體和出版者對系統(tǒng)管理、共享和重用研究數(shù)據(jù)的要求以及技術(shù)進(jìn)步,導(dǎo)致對數(shù)據(jù)存儲庫尤其是通用型數(shù)據(jù)存儲庫的發(fā)展提出新要求。通用型數(shù)據(jù)存儲庫具備數(shù)據(jù)集格式化、存檔、許可、出版費(fèi)用、有效性、可使用性、可被發(fā)現(xiàn)和可被獲取性以及引用等出版屬性,它可發(fā)表任何類型的數(shù)據(jù)集,這在很大程度上促進(jìn)了數(shù)據(jù)出版的發(fā)展。但是,面對“機(jī)器作為讀者”的未來出版模式新要求,現(xiàn)有數(shù)據(jù)存儲庫顯然還難以滿足。因此,提升元數(shù)據(jù)規(guī)范管理、結(jié)合領(lǐng)域標(biāo)準(zhǔn)對數(shù)據(jù)進(jìn)行語義豐富、與出版社(或期刊)緊密合作的豐富數(shù)據(jù)描述,或許是數(shù)據(jù)存儲庫未來發(fā)展需要考慮的問題。
[1] Paul A D. Understanding the emergence of ′open science′ institutions: functionalist economics in historical context[J]. Industrial and Corporate Change,2004,13(4):571-589.
[2] Kraker P,Leony D,Reinhardt W,etal. The case for an open science in technology enhanced learning[J].InternationalJournalofTechnologyEnhancedLearning,2011,3(6):643-654.
[3] Open Science ASAP. Was ist open science?[EB/OL]. [2014-06-23]. http:∥openscienceasap.org/open-science/.
[4] Borgman C L. Big data,little data,no data: scholarship in the networked world[M]. Cambridge:The MIT Press,2015.
[5] Renear A H,Sacchi S,Wickett K M. Definitions of dataset in the scientific and technical litera-ture[J].ProceedingsoftheAmericanSocietyforInformationScienceandTechnology,2010,47(1):1-4.
[6] 劉鳳紅,崔金鐘,韓芳橋,等. 數(shù)據(jù)論文:大數(shù)據(jù)時代新興學(xué)術(shù)論文出版類型探討[J]. 中國科技期刊研究,2014,25(12):1451-1455.
[7] Callaghan S,Donegan S,Pepler S,etal. Making data a first class scientific output: data citation and publication by NERCs environmental data centres[J].InternationalJournalofDigitalCuration,2012,7(1):107-113.
[8] Austin C C,Bloom T,Dallmeier-Tiessen S,etal. Key components of data publishing: using current best practices to develop a reference model for data publishing[J].InternationalJournalonDigitalLibraries,2017,18(2):1-16.
[9] Kitchin J R,van Gulick A E,Zilinski L D. Automating data sharing through authoring tools[J].InternationalJournalonDigitalLibraries,2017,18(2):93-98.
[10] Harrison K A,Wright D G,Trembath P. Implementation of a workflow for publishing citable environmental data: successes,challenges and opportunities from a data centre perspective[J].InternationalJournalonDigitalLibraries,2017,18(2):133-143.
[11] Edmunds S C,Li P,Hunter C,etal. Experiences in integrated data and research object publishing using GigaDB[J].InternationalJournalonDigitalLibraries,2017,18(2): 99-111.
[12] Wright D G,Trembath P,Harrison K A. Meeting the challenge of environmental data publication: an operational infrastructure and workflow for publishing data[J].InternationalJournalonDigitalLibraries,2017,18 (2):1-10.
[13] van den Eynden V,Corti L. Advancing research data publishing practices for the social sciences: from archive activity to empowering researchers[J].InternationalJournalonDigitalLibraries,2017,18(2):1-9.
[14] Silvello G,Bordea G,Ferro N,etal. Semantic representation and enrichment of information retrieval experimental data[J].InternationalJournalonDigitalLibraries,2017,18(2):145-172.
[15] European Commission. H2020 Programme:guidelines on FAIR data management in horizon 2020[R/OL]. [2016-12-30]. http:∥ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-data-mgt_en.pdf.
[16] NIH Request for Information (RFI): strategies for NIH data management,sharing,and citation[EB/OL]. [2016-11-14]. https:∥grants.nih.gov/grants/guide/notice-files/NOT-OD-17-015.html.
[17] G20 Leaders′ Communique Hangzhou Summit[EB/OL]. [2017-06-06]. http:∥www.fmprc.gov.cn/mfa_eng/zxxx_662805/t1395000.shtml.
[18] European Commission. European Cloud Initiative to give Europe a global lead in the data-driven economy[EB/OL]. [2017-04-19]. http:∥europa.eu/rapid/press-release_IP-16-1408_en.htm.
[19] AARNet. Welcome to AARNET[EB/OL]. [2016-12-15]. https:∥www.aarnet.edu.au/.
[20] The Sci-GaIA Consortium. The Dakar declaration on open science in Africa[EB/OL]. [2017-03-14]. https:∥oar.sci-gaia.eu/record/133?ln=en.
[21] Simmonds R,Taylor R,Horrell B J,etal. The African data intensive research cloud[C/OL]. [2017-12-10]. http:∥ieeexplore.ieee.org/document/7530650/.
[22] Leonardo C,Donatella C,Paolo M,etal. Data journals: a survey[J].JournaloftheAssociationforInformationScienceandTechnology,2015,66(9):1747-1762.
[23] Hufton A. Scientific data to publish a wider range of research advancing data sharing and reuse[EB/OL]. [2017-01-07]. http:∥blogs.nature.com/scientificdata/2016/04/07/scientific-data-to-publish-a-wider-range-of-research-advancing-data-sharing-and-reuse/.
[24] RIO Editorial Office. Big news for RIO: we join the club of SPARC innovators[EB/OL]. [2017-02-21]. http:∥blog.riojournal.com/2016/06/21/big-news-for-rio-we-join-the-club-of-sparc-innovators/.
[25] Why publish with science matters?[EB/OL]. [2017-02-22]. https:∥www.sciencematters.io/why-matters.
[26] Krüger D,Marshall D M. Bite-size research:BMCResearchNotesgoes back to its roots[EB/OL]. [2017-02-14]. https:∥bmcresnotes.biomedcentral.com/articles/10.1186/s13104-017-2418-y.
[27] Goetz T. Freeing the dark data of failed scientific experiments[J].WiredMagazine,2007,15(10):31-32.
[28] Journal of Negative Results in Biomedicine[EB/OL]. [2017-09-01]. https:∥jnrbm.biomedcentral.com.
[29] 中國科學(xué)院. 《中國科學(xué)數(shù)據(jù)》入選中國科學(xué)引文數(shù)據(jù)庫(CSCD)來源期刊[EB/OL]. [2018-02-27]. http:∥www.cas.cn/yx/201704/t20170424_4598039.shtml.
[30] 中國科學(xué)數(shù)據(jù)[DB/OL]. [2018-02-27]. http:∥www.csdata.org/.
[31] 中國科學(xué)院遙感與數(shù)字地球研究所. 全球地球科學(xué)領(lǐng)域首個大數(shù)據(jù)刊物《地球大數(shù)據(jù)(Big Earth Data)》創(chuàng)刊[EB/OL]. [2018-02-08]. http:∥www.radi.ac.cn/dtxw/rdxw/201802/t20180208_4945422.html.
[32] 國家質(zhì)檢總局,國家標(biāo)準(zhǔn)委. 中華人民共和國國家標(biāo)準(zhǔn)公告[S/OL]. [2018-02-01]. http:∥www.sac.gov.cn/gzfw/ggcx/gjbzgg/201732/.
[33] 《科學(xué)數(shù)據(jù)引用》國家標(biāo)準(zhǔn)正式發(fā)布[EB/OL]. [2018-01-20]. http:∥news.sciencenet.cn/htmlnews/2018/1/398942.shtm?id=398942.
[34] Pampel H. Re3data.org reaches a milestone and begins offering badges[EB/OL]. [2017-12-17]. https:∥blog.datacite.org/re3data-reaches-a-milestone-and-begins-offering-badges/.
[35] Morovati M. Piloting new ways for funders to support data stewardship[EB/OL]. [2017-02-20]. https:∥blog.datadryad.org/2016/07/20/piloting-new-ways-for-funders-to-support-data-stewardship/.
[36] Hyndman A. Introducing the new figshare portal usage statistics page[EB/OL]. [2016-10-16]. https:∥figshare.com/blog/Introducing_the_new_figshare_portal_usage_statistics_page/246.
[37] Hyndman A. The state of open data—a figshare report on global trends around open data[EB/OL]. [2017-10-25]. https:∥figshare.com/blog/The_State_of_Open_Data_-_A_figshare_report_on_global_trends_around_open_data/252.
[38] Zenodo. What′s new in Zenodo?[EB/OL]. [2017-03-12]. http:∥help.zenodo.org/whatsnew.
[39] Morris C. Researcher is an open book: first to share lab notes in real time[EB/OL]. [2016-02-26]. https:∥medicine.utoronto.ca/news/researcher-open-book-first-share-lab-notes-real-time.
[40] 劉鳳紅,張?zhí)? 開放科學(xué)背景下新興學(xué)術(shù)論文出版類型——研究要素出版[J]. 中國科技期刊研究,2017,28(2):138-144.