■雷 雪
中國科學(xué)技術(shù)信息研究所,北京市海淀區(qū)復(fù)興路15號 100038
科學(xué)數(shù)據(jù)具有獨(dú)立的身份識別、屬性描述、監(jiān)控機(jī)制和溯源流程[1],包括但不限于原始或處理過的數(shù)據(jù)文件、軟件、代碼、模型、算法、方案、方法、材料等,是科學(xué)研究不可或缺的組成部分。從開放獲取出版到開放數(shù)據(jù),隨著開放科學(xué)運(yùn)動向縱深發(fā)展,科學(xué)數(shù)據(jù)逐漸占據(jù)與學(xué)術(shù)論文同等甚至更為重要的位置,科學(xué)數(shù)據(jù)出版日益成為數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)的重要學(xué)術(shù)傳播方式。依托科技期刊的數(shù)據(jù)出版主要包括兩種模式:一是作為論文輔助資料的數(shù)據(jù)出版;二是以數(shù)據(jù)論文形式的數(shù)據(jù)出版。
FAIR原則是一套數(shù)據(jù)管理原則,由科研人員、出版商、基金組織、圖書管理員和檔案管理員組成的多元社區(qū)創(chuàng)建,目的是通過良好的數(shù)據(jù)管理支持科學(xué)數(shù)據(jù)的重用,特別是提高機(jī)器自動發(fā)現(xiàn)和使用數(shù)據(jù)的能力。目前國內(nèi)FAIR原則的相關(guān)研究多聚焦于FAIR原則的背景、內(nèi)容推介[2],在歐盟科學(xué)數(shù)據(jù)管理領(lǐng)域的實(shí)踐路徑[3],以及在領(lǐng)域數(shù)據(jù)庫、數(shù)據(jù)出版平臺中的應(yīng)用[4-5]等,僅有少數(shù)學(xué)者探討了FAIR原則背景下國際出版集團(tuán)的數(shù)據(jù)政策及實(shí)踐[6]。隨著FAIR原則的推廣,國際期刊出版商不斷制定及更新出版規(guī)范促進(jìn)數(shù)據(jù)FAIR化,以推動期刊科學(xué)數(shù)據(jù)的開放共享和復(fù)用??萍计诳瘮?shù)據(jù)出版是FAIR原則應(yīng)用的重要領(lǐng)域,但相關(guān)研究不足。本文以科技期刊數(shù)據(jù)出版流程為主線,探討FAIR原則在各環(huán)節(jié)的應(yīng)用,以期對我國數(shù)據(jù)出版的實(shí)踐開展有所幫助。
為提高論文同行評審的嚴(yán)謹(jǐn)性并促進(jìn)數(shù)據(jù)重用,很多期刊要求作者在提交論文的同時將數(shù)據(jù)提交至相關(guān)數(shù)據(jù)庫中,數(shù)據(jù)與文獻(xiàn)的關(guān)聯(lián)由來已久。如:自1995年起,天體物理學(xué)數(shù)據(jù)系統(tǒng)(Astrophysics Data System,ADS)提供出版物文獻(xiàn)到相關(guān)數(shù)據(jù)集的鏈接,允許用戶直接訪問與文獻(xiàn)相關(guān)的數(shù)據(jù)[7];2013年,Nature系列期刊面向生命科學(xué)領(lǐng)域論文實(shí)施18項(xiàng)審查,并強(qiáng)烈建議通過公共存儲庫共享數(shù)據(jù)[8];2014年P(guān)LoS系列期刊要求作者提交論文時,必須提交一份基于PLoS政策的數(shù)據(jù)可用性聲明,共享科研數(shù)據(jù)及與之相關(guān)的元數(shù)據(jù)和方法[9]。為促進(jìn)高質(zhì)量科學(xué)數(shù)據(jù)的永久保存及共享交流,數(shù)據(jù)期刊隨即出現(xiàn),如Springer Nature于2014年正式推出的ScientificData、Wiley創(chuàng)辦的GeoscienceDataJournal、Elsevier創(chuàng)辦的DatainBrief等,都是比較有代表性的數(shù)據(jù)期刊。歐美國家也建設(shè)了多個符合主流數(shù)據(jù)標(biāo)準(zhǔn)或慣例的通用數(shù)據(jù)存儲庫(如 Figshare、Dryad、Zenodo 等)和學(xué)科數(shù)據(jù)存儲庫(如NCBI、ENA等),以支撐科技期刊論文數(shù)據(jù)存儲。
在國內(nèi),2015年國務(wù)院發(fā)布《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》(國發(fā)〔2015〕50號),明確提出“積極推動由國家公共財政支持的公益性科研活動獲取和產(chǎn)生的科學(xué)數(shù)據(jù)逐步開放共享”[10];2018年國務(wù)院辦公廳發(fā)布《科學(xué)數(shù)據(jù)管理辦法》(國辦發(fā)〔2018〕17號),進(jìn)一步提出“主管部門和法人單位應(yīng)積極推動科學(xué)數(shù)據(jù)出版和傳播工作”,從而將我國科學(xué)數(shù)據(jù)出版工作推進(jìn)“快車道”[11]。中國科學(xué)院計算機(jī)網(wǎng)絡(luò)信息中心于2015 年創(chuàng)辦的《中國科學(xué)數(shù)據(jù)》,是國內(nèi)第一種綜合性、多學(xué)科的純數(shù)據(jù)期刊;中國科學(xué)院地理科學(xué)與資源研究所也于2017 年創(chuàng)辦了《全球變化數(shù)據(jù)學(xué)報》(中英文)。在對應(yīng)的科學(xué)數(shù)據(jù)存儲方面,2019年科技部國家科技基礎(chǔ)條件平臺中心在高能物理、基因組、氣象、海洋等領(lǐng)域組建了20個國家科學(xué)數(shù)據(jù)中心用于支撐數(shù)據(jù)匯交;ScienceDB、GSA等數(shù)據(jù)存儲庫已面向國內(nèi)外科技期刊提供數(shù)據(jù)存儲服務(wù),并得到Elsevier、Wiley、Springer Nature、Cell Press等國際知名學(xué)術(shù)期刊出版商的認(rèn)可。
隨著開放科學(xué)實(shí)踐的不斷推進(jìn),出臺科學(xué)數(shù)據(jù)政策的科技期刊數(shù)量日趨增多。Springer Nature、Elsevier、Wiley、Taylor & Francis四大學(xué)術(shù)期刊出版商都有明確的研究數(shù)據(jù)出版政策。雖然發(fā)布者已在多學(xué)科期刊數(shù)據(jù)政策的要點(diǎn)上達(dá)成共識,但各期刊政策在內(nèi)容、可發(fā)現(xiàn)性、基礎(chǔ)架構(gòu)等方面不盡相同,甚至存在較大差異。因此,近些年學(xué)術(shù)期刊出版商努力促進(jìn)、實(shí)施和執(zhí)行相對標(biāo)準(zhǔn)和統(tǒng)一的研究數(shù)據(jù)出版政策,同時也提供給科研人員相應(yīng)的數(shù)據(jù)管理計劃。
在出版流程上,作為論文輔助資料的數(shù)據(jù)是將數(shù)據(jù)作為補(bǔ)充材料隨論文一起提交。數(shù)據(jù)集可以存儲在期刊指定或推薦的數(shù)據(jù)存儲庫中,可視為期刊和數(shù)據(jù)存儲庫的聯(lián)合出版。數(shù)據(jù)論文出版則是將數(shù)據(jù)集作為出版主體,數(shù)據(jù)論文詳細(xì)描述數(shù)據(jù)收集的理由和方法,但沒有給出分析過程或結(jié)論,重點(diǎn)關(guān)注數(shù)據(jù)集本身。兩種模式都涵蓋數(shù)據(jù)描述與存儲、數(shù)據(jù)審查、數(shù)據(jù)發(fā)布與共享等主要環(huán)節(jié),如圖1所示。
圖1 科技期刊數(shù)據(jù)出版流程
FAIR原則于2014年被首次提出,經(jīng)FORCE11工作組修改完善后,于2016年3月正式發(fā)表在ScientificData上[12]。FAIR原則旨在面向多源、異質(zhì)、異構(gòu)、海量數(shù)據(jù),提供一套通用的標(biāo)準(zhǔn)規(guī)范,以此提高數(shù)據(jù)的開放性和透明性。
(1) 發(fā)布遵循FAIR原則的數(shù)據(jù)能夠提升科技期刊影響力。為確保數(shù)據(jù)能同時被人和機(jī)器使用,F(xiàn)AIR原則闡明了“數(shù)據(jù)對象”應(yīng)具有的基本屬性,即可發(fā)現(xiàn)(Findable)、可獲取(Accessible)、互操作(Interoperable)和可重用(Re-usable),每個屬性下又有子屬性。這些原則不僅適用于傳統(tǒng)意義上的“數(shù)據(jù)”,也適用于產(chǎn)生數(shù)據(jù)的算法、工具和工作流程。所有學(xué)術(shù)數(shù)字研究對象,從數(shù)據(jù)到分析路徑,都受益于這些原則的應(yīng)用,這是因?yàn)檠芯窟^程的所有組成部分都必須可獲取,以確保透明度、再現(xiàn)性和可重用性。數(shù)據(jù)出版遵循FAIR原則增加了研究人員和機(jī)器發(fā)現(xiàn)與他們的研究相關(guān)的第三方數(shù)據(jù)的可能性。同樣,通過傳播遵循FAIR原則的數(shù)據(jù)和可以被充分發(fā)現(xiàn)和重用的相關(guān)資源,出版物的影響范圍不斷擴(kuò)大、品牌影響力不斷提升。有證據(jù)表明,隨附公開、FAIR數(shù)據(jù)的文章被引用的次數(shù)較多[13]。
(2) 遵循FAIR原則有益于培育良好的數(shù)據(jù)出版生態(tài)。FAIR數(shù)字對象位于一個更廣泛的FAIR生態(tài)系統(tǒng)中,包含了FAIR的服務(wù)和基礎(chǔ)設(shè)施。FAIR的實(shí)現(xiàn)至少依賴于以下基本組件:數(shù)據(jù)政策、數(shù)據(jù)管理計劃、標(biāo)識符、標(biāo)準(zhǔn)和存儲庫。在這個生態(tài)系統(tǒng)中,數(shù)據(jù)政策由幾個利益相關(guān)者發(fā)布,幫助定義和規(guī)范數(shù)據(jù)出版的需求。數(shù)據(jù)管理計劃提供動態(tài)索引,闡明與項(xiàng)目有關(guān)的信息及其與各種FAIR組成部分的聯(lián)系。持久標(biāo)識符被分配到FAIR生態(tài)系統(tǒng)的許多方面,包括數(shù)據(jù)、軟件、機(jī)構(gòu)、研究人員、資助者、項(xiàng)目和工具。對于從用于數(shù)據(jù)描述的元數(shù)據(jù)、詞匯表和本體到用于數(shù)據(jù)訪問的傳輸和交換協(xié)議,以及管理存儲庫認(rèn)證或數(shù)據(jù)管理計劃的標(biāo)準(zhǔn),規(guī)范和標(biāo)準(zhǔn)也是數(shù)據(jù)出版要考慮的重要方面。存儲庫提供數(shù)據(jù)庫和數(shù)據(jù)存儲服務(wù),并且應(yīng)該經(jīng)過認(rèn)證以確??尚湃蝃14]。期刊數(shù)據(jù)出版不僅要制定相應(yīng)的期刊數(shù)據(jù)政策、發(fā)布數(shù)據(jù)管理計劃供研究人員參考,還要制定相應(yīng)的元數(shù)據(jù)標(biāo)準(zhǔn)供研究人員描述數(shù)據(jù)、數(shù)據(jù)庫存儲數(shù)據(jù),它與FAIR生態(tài)系統(tǒng)是契合的。FAIR原則的應(yīng)用有利于促進(jìn)科技期刊數(shù)據(jù)出版生態(tài)建設(shè)。
科技期刊通常允許用戶通過網(wǎng)頁提交、FTP上傳等多種方式提交數(shù)據(jù)至指定的存儲庫并獲得數(shù)字對象唯一標(biāo)識符(Digital Object Identifier,DOI),實(shí)現(xiàn)了元數(shù)據(jù)、實(shí)體數(shù)據(jù)、數(shù)據(jù)集與數(shù)據(jù)論文/傳統(tǒng)論文的關(guān)聯(lián)一體化出版[2]。國際大型期刊出版商及國內(nèi)外代表性科技期刊的數(shù)據(jù)出版流程幾乎涵蓋了FAIR原則的所有核心內(nèi)容。
實(shí)現(xiàn)FAIR的核心是FAIR的數(shù)字對象,這些對象可以是數(shù)據(jù)、軟件、協(xié)議或其他研究資源,需要伴隨持久標(biāo)識符和足夠豐富的元數(shù)據(jù),以便快速、準(zhǔn)確地找到、使用和引用這些對象。此外,數(shù)據(jù)應(yīng)該以通用的格式表示,并使用相關(guān)研究團(tuán)體采用的元數(shù)據(jù)標(biāo)準(zhǔn)和詞匯記錄,以實(shí)現(xiàn)互操作性和可重用性。在共享軟件和算法時,不僅應(yīng)包括源代碼本身,還應(yīng)包括相應(yīng)的聲明和解釋文檔。實(shí)踐中,Springer Nature、Elsevier、Wiley、Taylor & Francis四大學(xué)術(shù)期刊出版商均推薦作者選擇符合FAIR原則的數(shù)據(jù)存儲庫。Figshare、Dryad、Zenodo等是出版商一致推薦使用的通用數(shù)據(jù)存儲庫;若作者首選的數(shù)據(jù)存儲庫不在出版商推薦之列,則建議作者使用FAIRsharing.org或re3data.org來搜索合適的存儲庫——兩者都提供了認(rèn)證的數(shù)據(jù)存儲庫列表。數(shù)據(jù)集中存儲便于將來數(shù)據(jù)的可發(fā)現(xiàn)、可獲取、可交互和可重用。相較于通用數(shù)據(jù)存儲庫,領(lǐng)域數(shù)據(jù)存儲庫可能更有利于數(shù)據(jù)FAIR化,這是因?yàn)閷I(yè)數(shù)據(jù)庫更有利于領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn)的使用。
以Elsevier為例,其旗下的Mendeley Data存儲庫將FAIR原則作為數(shù)據(jù)共享解決方案的核心[15]。(1)在可發(fā)現(xiàn)層面:Mendeley Data數(shù)據(jù)集的元數(shù)據(jù)索引建立在通用索引之上,使用OAI-PMH協(xié)議的OpenAIRE,并共享開放科學(xué)框架;Mendeley Data Search是一個開放的搜索引擎,可以檢索來自數(shù)千個公共存儲庫的2000多萬個數(shù)據(jù)集;Mendeley Data存儲庫中的所有數(shù)據(jù)集(涵蓋底層數(shù)據(jù)集和各種版本)都分配有DOI,數(shù)據(jù)集包含對元數(shù)據(jù)和文件的深度索引。(2)在可訪問層面,Mendeley Data存儲庫收錄的所有數(shù)據(jù)仍歸研究者或機(jī)構(gòu)擁有和控制,若所有者決定公開共享數(shù)據(jù),則可以使用16個開放數(shù)據(jù)許可;確保數(shù)據(jù)集所有者保留對數(shù)據(jù)訪問級別的控制,可選擇公開共享或受限共享等。(3)在可互操作層面,通過使用JSON格式的REST APIs與其他RDM工具集成,在更新數(shù)據(jù)集版本時可保留源版本,為標(biāo)準(zhǔn)字段和自定義元數(shù)據(jù)字段提供受控詞匯表和標(biāo)識符。(4)在可重用層面,除支持Dublin Core和schema.org等標(biāo)準(zhǔn)元數(shù)據(jù)模式外,允許機(jī)構(gòu)和研究者將特定領(lǐng)域的自定義元數(shù)據(jù)字段添加到數(shù)據(jù)集,鼓勵研究者在數(shù)據(jù)集描述中包含逐步的數(shù)據(jù)再現(xiàn)性指導(dǎo)信息。
科學(xué)數(shù)據(jù)的質(zhì)量涉及內(nèi)容質(zhì)量、形式質(zhì)量、訪問質(zhì)量和效用質(zhì)量等多個維度,尚無統(tǒng)一標(biāo)準(zhǔn)。數(shù)據(jù)質(zhì)量控制是將紛繁復(fù)雜的數(shù)據(jù)資源轉(zhuǎn)化為序化可信的數(shù)據(jù)資產(chǎn)的有效途徑,而數(shù)據(jù)審查是數(shù)據(jù)質(zhì)量控制的重要方法。與傳統(tǒng)期刊論文不同,數(shù)據(jù)集通常體量龐大且結(jié)構(gòu)復(fù)雜,許多關(guān)鍵問題尚待探討,如數(shù)據(jù)集類別、數(shù)據(jù)可用性聲明與質(zhì)量控制的關(guān)系,同行評審尤其是學(xué)術(shù)質(zhì)量評審的核心內(nèi)容等[16]。Springer Nature、Elsevier、Wiley都規(guī)定了數(shù)據(jù)審查的內(nèi)容,均在其最高級別的數(shù)據(jù)政策中提出了同行評審的要求,Wiley還進(jìn)一步提出同行評審可能涉及重復(fù)性驗(yàn)證,以確保期刊文章中的聲明是有效和可重復(fù)的。大部分?jǐn)?shù)據(jù)期刊都沿用了傳統(tǒng)期刊的同行評審模式,制定各自的評審標(biāo)準(zhǔn),但指標(biāo)體系與學(xué)術(shù)論文評審有很大不同。除了考慮數(shù)據(jù)完整性、數(shù)據(jù)與論文的一致性、數(shù)據(jù)自身質(zhì)量外,數(shù)據(jù)是否可發(fā)現(xiàn)、可存儲、可互操作、可重用,也是評審專家需要考慮的重要方面。代表性數(shù)據(jù)期刊ScientificData(SD)、EarthSystemScienceData(ESSD)、GigaScience(GS)和《中國科學(xué)數(shù)據(jù)》的數(shù)據(jù)審查中與FAIR原則相匹配的指標(biāo)如表1所示。其中,《中國科學(xué)數(shù)據(jù)》的數(shù)據(jù)評審指標(biāo)設(shè)計將FAIR原則作為基本指導(dǎo)原則,基于此制定了可獲取、可評估、可理解和可重用4個一級指標(biāo),并結(jié)合數(shù)據(jù)生命周期中的質(zhì)量元素,考慮數(shù)據(jù)出版重點(diǎn)關(guān)注內(nèi)容,進(jìn)一步細(xì)化出二級指標(biāo)[20]。其他代表性期刊的評審標(biāo)準(zhǔn)中也對FAIR原則有不同程度的體現(xiàn)。
表1 期刊數(shù)據(jù)審查標(biāo)準(zhǔn)中與FAIR原則相關(guān)的指標(biāo)
期刊數(shù)據(jù)發(fā)布一般都具有清晰和可訪問的數(shù)據(jù)使用許可??色@取原則強(qiáng)調(diào)在尊重知識產(chǎn)權(quán)和授權(quán)與許可的前提下,數(shù)據(jù)資源可被人類和機(jī)器獲取。出版集團(tuán)通過要求作者在文章中提供數(shù)據(jù)可用性聲明,說明數(shù)據(jù)存儲在何處、數(shù)據(jù)鏈接,以及數(shù)據(jù)可訪問和可獲取的條件。但是,這種在文章中提供的聲明目前還主要以科研人員為服務(wù)對象。要達(dá)到可獲取原則的要求,不僅要求面向人類和機(jī)器的數(shù)據(jù)資源檢索協(xié)議清晰明確,還要為元數(shù)據(jù)建立長期保存政策、機(jī)器可操作性模板和框架。
對于數(shù)據(jù)引用,各期刊出版集團(tuán)都規(guī)定了詳細(xì)的引用格式,包括作者、數(shù)據(jù)集名稱、數(shù)據(jù)集存儲庫名稱、版本、年代、DOI 等信息;鼓勵作者引用數(shù)據(jù)集,并將引用數(shù)據(jù)集的條目和引用文章的條目同等對待,共同放在文后參考文獻(xiàn)列表中。BigEarthData規(guī)定:他人在使用作者提供的數(shù)據(jù)時,應(yīng)該遵循CC-BY 4.0 或CC0等知識共享協(xié)議;他人引用BigEarthData的數(shù)據(jù)論文,則建議采用傳統(tǒng)參考文獻(xiàn)格式引用數(shù)據(jù)論文,同時還應(yīng)引用關(guān)聯(lián)數(shù)據(jù)集。數(shù)據(jù)集被引用將會極大地激勵數(shù)據(jù)集作者開放共享數(shù)據(jù)集,同時也幫助提高數(shù)據(jù)集被發(fā)現(xiàn)和獲取的可能性。大多數(shù)受訪者認(rèn)為在參考文獻(xiàn)列表中正式引用數(shù)據(jù)集是承認(rèn)創(chuàng)建者貢獻(xiàn)的正確方式,被引頻次被認(rèn)為是最有效的衡量指標(biāo),下載數(shù)量被認(rèn)為幾乎具有同樣價值[21]。
自2014年被提出以來,F(xiàn)AIR原則在科學(xué)共同體中產(chǎn)生強(qiáng)烈反響,從理念到實(shí)踐的活動逐步推進(jìn),如GO FAIR全球推進(jìn)計劃的發(fā)起及GO FAIR全球支持與協(xié)作辦公室的成立、歐盟將FAIR原則納入歐洲開放科學(xué)戰(zhàn)略計劃中,以及在部分領(lǐng)域數(shù)據(jù)庫和科學(xué)數(shù)據(jù)平臺建設(shè)中展開實(shí)踐等。目前,這些項(xiàng)目在世界范圍內(nèi)仍處于著力推進(jìn)階段,尚未得到廣泛應(yīng)用。為推進(jìn)FAIR原則在科技期刊數(shù)據(jù)出版中的應(yīng)用,本研究提出如下建議。
FAIR原則在科技期刊數(shù)據(jù)出版中的應(yīng)用涉及以下對象:(1)研究社區(qū),包含來自所有研究領(lǐng)域的從業(yè)人員,他們通常因?yàn)閷W(xué)科興趣、數(shù)據(jù)類型或跨領(lǐng)域的重大挑戰(zhàn)聚集在一起;(2)數(shù)據(jù)服務(wù)提供商,包括領(lǐng)域知識庫、研究基礎(chǔ)設(shè)施(如ESFRIs)和電子基礎(chǔ)設(shè)施,以及機(jī)構(gòu)、社區(qū)等;(3)數(shù)據(jù)管理員,來自研究社區(qū)和學(xué)術(shù)圖書館的數(shù)據(jù)支撐人員,以及數(shù)據(jù)存儲庫管理人員;(4)標(biāo)準(zhǔn)組織,如協(xié)調(diào)與FAIR相關(guān)的數(shù)據(jù)標(biāo)準(zhǔn)和治理程序的正式組織和聯(lián)盟,如知識庫認(rèn)證、課程認(rèn)證(如W3C、NIST)等;(5)協(xié)調(diào)組織,如研究數(shù)據(jù)聯(lián)盟(Research Data Alliance)、CODATA、WDS卓越社區(qū)(WDS Communities of Excellence)、GO FAIR、德國數(shù)據(jù)論壇(German Data Forum)、荷蘭協(xié)調(diào)點(diǎn)(Dutch Coordination Point)和類似的倡議組織;(6)決策者,包括政府部門、國際組織(如經(jīng)合組織)、研究資助者、出版商以及其他制定數(shù)據(jù)政策的機(jī)構(gòu);(7)研究資助方,如歐洲委員會(the European Commission),各國家層面的科研資助機(jī)構(gòu)、慈善組織和基金會,以及其他一些社會資助力量;(8)研究機(jī)構(gòu),主要為高校和科研機(jī)構(gòu);(9)出版機(jī)構(gòu),即研究論文和數(shù)據(jù)的出版商或出版社,包括非營利的和商業(yè)的機(jī)構(gòu),涵蓋開放獲取形式或付費(fèi)形式。其中數(shù)據(jù)服務(wù)提供商、標(biāo)準(zhǔn)組織、協(xié)調(diào)組織、決策者等在實(shí)施FAIR原則方面扮演著重要角色,發(fā)揮著重要作用。出版商需要與上述利益相關(guān)方通力協(xié)作,構(gòu)建和諧生態(tài),共同推進(jìn)FAIR原則的落地實(shí)施。
通用數(shù)據(jù)存儲庫通常依賴于用戶輸入的元數(shù)據(jù),這可能并不符合嚴(yán)格的FAIR標(biāo)準(zhǔn)。領(lǐng)域數(shù)據(jù)存儲庫在提供和保存FAIR數(shù)據(jù)方面發(fā)揮著關(guān)鍵作用:它們匯集了相關(guān)領(lǐng)域的專業(yè)知識,可以執(zhí)行社區(qū)標(biāo)準(zhǔn),并可能提供高質(zhì)量的長期保存和管理服務(wù)。但目前科技期刊對數(shù)據(jù)集描述的內(nèi)容要素和結(jié)構(gòu)標(biāo)準(zhǔn)并不統(tǒng)一,同一學(xué)科領(lǐng)域數(shù)據(jù)存儲庫的元數(shù)據(jù)標(biāo)準(zhǔn)也存在多樣性。元數(shù)據(jù)是出版內(nèi)容的基本單元,對跨平臺實(shí)現(xiàn)互操作具有重要意義,因此對元數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)進(jìn)行規(guī)范是保證數(shù)據(jù)高度共享的關(guān)鍵舉措。
未來數(shù)據(jù)期刊應(yīng)遵循統(tǒng)一的或可互操作的元數(shù)據(jù)規(guī)范與標(biāo)準(zhǔn),為大數(shù)據(jù)環(huán)境下的數(shù)據(jù)密集型研究與科學(xué)發(fā)現(xiàn)奠定基礎(chǔ)。政府和科研項(xiàng)目資助機(jī)構(gòu)應(yīng)建立和認(rèn)證國家或領(lǐng)域數(shù)據(jù)存儲庫,加強(qiáng)期刊與倉儲的關(guān)聯(lián),共同推進(jìn)具有科學(xué)數(shù)據(jù)管理、發(fā)布、共享、重用功能的數(shù)據(jù)生態(tài)體系建設(shè)。科技期刊應(yīng)推薦研究人員使用特定學(xué)科領(lǐng)域的數(shù)據(jù)存儲庫,或者將數(shù)據(jù)存放在符合FAIR標(biāo)準(zhǔn)的、經(jīng)過認(rèn)證的通用數(shù)據(jù)存儲庫中[13]。
雖然“開放數(shù)據(jù)”在研究社區(qū)中逐漸得到認(rèn)可,已經(jīng)成為研究人員的主流話題,但FAIR原則還沒有被廣泛了解?!稊?shù)字科學(xué)報告:開放數(shù)據(jù)的現(xiàn)狀》項(xiàng)目組的系列調(diào)研結(jié)果顯示:2018年60%的受訪者表示從未聽說過FAIR原則[22];2019年54%的受訪者表示從未聽說過FAIR原則,特別是在對FAIR相關(guān)聯(lián)盟或倡議的了解上,大多數(shù)研究人員甚至并不了解與FAIR原則相關(guān)的任何一個組織、聯(lián)盟或倡議,如對GO FAIR熟悉的受訪者僅占5%、從未聽過的占77%,對DataCite熟悉的僅占4%、從未聽過的高達(dá)82%,對FORCE熟悉的占11%、從未聽過的占69%[23];2020年受訪者中從未聽說過FAIR原則的比例下降到39%[24]。在總體熟悉度方面,受訪者對FAIR熟悉的占比從2018年的15%提升到2019年的18%,再到2020年的24%。從上述數(shù)據(jù)可以看出,研究社區(qū)對FAIR原則的理解和采用逐漸變得普遍。
2021年11月召開的聯(lián)合國教科文組織第41屆大會審議通過了《開放科學(xué)建議書》,開放科學(xué)被定義為一個集各種運(yùn)動和實(shí)踐于一體的包容性架構(gòu),旨在通過數(shù)據(jù)、協(xié)議、軟件和基礎(chǔ)設(shè)施的開放共享,使整個科學(xué)過程更加容易獲取和透明。從開源軟件、開放獲取到開放數(shù)據(jù),開放科學(xué)逐步邁入全球共識的新階段。FAIR原則是良好數(shù)據(jù)管理的基礎(chǔ),也是數(shù)據(jù)開放共享的保障條件之一。目前FAIR原則在研究社區(qū)的普及率并不太高,期刊出版界在推動數(shù)據(jù)FAIR化的過程中還有很多宣傳推廣工作要做。
本研究選取Springer Nature、Elsevier、Wiley等國際大型學(xué)術(shù)期刊出版商和ScientificData、EarthSystemScienceData、《中國科學(xué)數(shù)據(jù)》等代表性數(shù)據(jù)期刊為樣例,分析FAIR原則在科技期刊數(shù)據(jù)出版中的實(shí)踐現(xiàn)狀。研究發(fā)現(xiàn),國際大型學(xué)術(shù)期刊出版商均推薦作者優(yōu)先選擇符合FAIR原則的數(shù)據(jù)存儲庫,代表性數(shù)據(jù)期刊的數(shù)據(jù)評審指標(biāo)、數(shù)據(jù)發(fā)布與共享協(xié)議等也與FAIR原則具有高度契合性。遵循并應(yīng)用FAIR原則,成為期刊界對科學(xué)數(shù)據(jù)出版的共識。我國也需要大力推進(jìn)FAIR原則的本地化應(yīng)用,以保障科學(xué)數(shù)據(jù)資源的存儲發(fā)布與開放利用。