王 敬,王彥兵
(1.中共安徽省委黨校(安徽行政學(xué)院)圖書和文化館,合肥 230022;2.山東第一醫(yī)科大學(xué)(山東省醫(yī)學(xué)科學(xué)院)圖書館,泰安 271016)
數(shù)據(jù)密集型科學(xué)的興起加速了科研數(shù)據(jù)的產(chǎn)生,科研數(shù)據(jù)在增加科研成果的透明性以及可重現(xiàn)方面扮演著重要角色,已經(jīng)成為科學(xué)界“一等研究公民”。對科研數(shù)據(jù)進行獲取、組織、管理與分享已經(jīng)成為科研周期中不可或缺的重要活動。許多國家科技部門和科研機構(gòu)通過建立科研數(shù)據(jù)基礎(chǔ)設(shè)施 (Research Data Infrastructures,RDI) 來實現(xiàn)對科研數(shù)據(jù)的管理、共享與重用。RDI 是一個包含軟件與硬件,支持科研數(shù)據(jù)分享與重用,促進全球科研合作,加速科學(xué)創(chuàng)新的數(shù)據(jù)生態(tài)系統(tǒng),是當(dāng)今數(shù)字化科研得以高效運轉(zhuǎn)而不可或缺的支撐性基礎(chǔ)設(shè)施[1]。早在2010 年2 月歐盟委員會“第七框架計劃” 就資助了GRDI2020 項目[2],用以指導(dǎo)歐盟構(gòu)建一個可以支持數(shù)據(jù)共享與合作的全球化科研數(shù)據(jù)基礎(chǔ)設(shè)施。2016 年4 月,歐盟委員會又資助了歐洲開放科學(xué)云計劃(European Open Science Cloud Initiative,EOSCI)[3]旨在推動歐洲成為科研數(shù)據(jù)基礎(chǔ)設(shè)施的全球領(lǐng)導(dǎo)者,為歐洲科研人員提供用于存儲、分享、分析與利用科研數(shù)據(jù)的虛擬環(huán)境,促進跨學(xué)科研究。在此背景下,德國國家基金會于2016 年資助了通用科研數(shù)據(jù)基礎(chǔ)設(shè)施 (Generic Research Data Infrastructure,GeRDI) 項目,資助金額達300 萬歐元,并將其作為實施EOSCI 的一部分[4]。在政策、標(biāo)準上,GeRDI 與EOSCI 所實施的開放科學(xué)云政策和云設(shè)施建設(shè)軟件與服務(wù)標(biāo)準保持一致,如遵守FAIR 數(shù)據(jù)準則(可發(fā)現(xiàn)、可獲取、可互操作和可重用)[5,6]和《科學(xué)出版物和科研數(shù)據(jù)開放獲取管理指南》(Guidelines on Open Access to Scientific Publications and Research Data)[7]等。在具體實現(xiàn)技術(shù)上,GeRDI 使用自包含系統(tǒng) (Self-Contained System,SCS) 和微服務(wù)架構(gòu)進行軟件架構(gòu)的設(shè)計。該框架具有良好的擴展性和靈活性,可以便捷的將新功能以SCS 的方式添加至GeRDI,也可以對現(xiàn)有的服務(wù)功能進行刪除、修改。該架構(gòu)方案的設(shè)計理念與EOSCI 的目標(biāo)一致,有利于未來和EOSC 進行深度融合。
GeRDI 是一個針對長尾科研數(shù)據(jù)的分布式、聯(lián)合的科研數(shù)據(jù)基礎(chǔ)設(shè)施,它基于現(xiàn)有的數(shù)據(jù)知識庫,旨在構(gòu)建一個虛擬、分布式的科研數(shù)據(jù)管理系統(tǒng)。GeRDI 的目的是幫助德國所有科研人員,特別是那些擁有長尾科研數(shù)據(jù)的科研人員存儲、分享以及重用符合FAIR 準則的不同學(xué)科領(lǐng)域科研數(shù)據(jù)。GeRDI 的總體目標(biāo)是:①基于開放的標(biāo)準,使用注冊、協(xié)議、元數(shù)據(jù)模式等方法來連接獨立分布的科研數(shù)據(jù)知識庫;②為創(chuàng)建獨立分布、基于特定社區(qū)的數(shù)據(jù)知識庫提供相關(guān)咨詢和軟件設(shè)計與開發(fā)支持;③為所有已連接數(shù)據(jù)知識庫提供具有語義搜索能力的數(shù)據(jù)獲取入口。
筆者使用文獻調(diào)研和網(wǎng)絡(luò)調(diào)研方法,以“通用科研數(shù)據(jù)基礎(chǔ)設(shè)施” 和“GeRDI” 為關(guān)鍵詞檢索中、英文文獻,并從GeRDI 網(wǎng)站獲取項目建設(shè)相關(guān)資源,對項目的建設(shè)模式和服務(wù)功能進行全面調(diào)研。通過文獻調(diào)研發(fā)現(xiàn),國外學(xué)者主要側(cè)重從軟件工程設(shè)計、系統(tǒng)架構(gòu)以及軟件的可持續(xù)性等技術(shù)角度對GeRDI 軟件系統(tǒng)的建設(shè)展開研究[8,9],也有學(xué)者探討了使用GeRDI 對跨學(xué)科海洋漁業(yè)數(shù)據(jù)進行搜索與分析,側(cè)重于GeRDI的應(yīng)用研究[10]。國內(nèi)學(xué)者王敬、王彥兵從發(fā)展歷程、框架模型和實踐狀況對國外科研數(shù)據(jù)基礎(chǔ)設(shè)施進行了調(diào)研和分析[1];章昌平、米加寧提出了社會科學(xué)研究與數(shù)據(jù)管理組合生命周期模型和社會科學(xué)科研數(shù)據(jù)基礎(chǔ)設(shè)施框架模型,并對上述兩個模型框架實施需要的保障條件進行了論述[11]。
已有研究尚未有從GeRDI 項目的組織模式、設(shè)計原則、元數(shù)據(jù)模式以及軟件架構(gòu)等多個維度對其成功建設(shè)經(jīng)驗進行分析與總結(jié),本文研究期望能為中國科研數(shù)據(jù)基礎(chǔ)設(shè)施的建設(shè)和發(fā)展提供策略參考。
GeRDI 由德國國家基金會(DFN) 資助,4 個機構(gòu)參與合作開發(fā),分別是德國國家經(jīng)濟圖書館(萊布尼茲經(jīng)濟信息中心,ZBW)、巴伐利亞科學(xué)與人文學(xué)院萊布尼茲超級計算中心(LRZ)、德累斯頓工業(yè)大學(xué)信息服務(wù)與高性能計算中心(TUD) 以及克里斯蒂安-阿爾布雷希茨大學(xué)軟件工程團隊 (CAU)[12]。其中DFN 和ZBW 負責(zé)整個項目的管理、協(xié)調(diào)與監(jiān)管。大約有28 個不同領(lǐng)域?qū)I(yè)人員合作開發(fā)GeRDI 軟件系統(tǒng)。GeRDI 項目下設(shè)指導(dǎo)委員會、咨詢委員會和用戶委員會3 個專業(yè)委員會。指導(dǎo)委員會主要為GeRDI 項目期間所面臨的戰(zhàn)略議題提供指導(dǎo)與決策支持,由分別來自每個參與機構(gòu)的5 名高級別專家組成。咨詢委員會為GeRDI 的開發(fā)提供有價值的觀點、視角以及戰(zhàn)略建議,其成員由研究人員、政策制定者以及其他相關(guān)科技人員組成,共計11 名。用戶委員會是獲取GeRDI 項目建設(shè)反饋的重要機制之一,由來自科研社區(qū)和數(shù)據(jù)知識庫的8 名代表構(gòu)成。作為利益相關(guān)者與GeRDI 團隊之間的紐帶,用戶委員會將有助于不同信息和思想的交流,可以將用戶在科研數(shù)據(jù)管理過程中的需求和問題反饋給GeRDI 團隊。5 個機構(gòu)在項目不同開發(fā)階段中的分工如圖1 所示。
圖1 5 個機構(gòu)在項目不同階段中的分工[13]Fig.1 Project management and dissemination of five institutions
為了保障GeRDI 項目資助結(jié)束后的可持續(xù)性運營,GeRDI 提供了3 種計劃服務(wù)場景。場景一,提供GeRDI 服務(wù)時收取服務(wù)費,針對大部分潛在的用戶。場景二,將GeRDI 作為現(xiàn)有項目歐洲開放科學(xué)云科研數(shù)據(jù)管理模塊中不可或缺的一部分,在此場景下,GeRDI 將從其它項目的運營模式中獲取相應(yīng)的收益。場景三,探索將GeRDI 作為開源項目,免費提供給用戶使用,相應(yīng)的收益將來源于相關(guān)咨詢、用戶驅(qū)動的開源軟件的二次開發(fā)支持及其類似服務(wù)。當(dāng)前,GeRDI 項目仍在開發(fā)中,還未最終確定使用哪種服務(wù)場景,GeRDI團隊計劃在項目第二階段(2019—2022 年) 對這些服務(wù)場景進行擴展與分析并提供一個最終服務(wù)方案。
長尾理論(The Long Tail) 最早由美國《連線》雜志主編ANDERSON 于2004 年提出,用以描述商業(yè)領(lǐng)域中小交易群體表現(xiàn)來的巨大市場份額[14]。2008 年HEIDORN 首次將長尾理論用于描述科學(xué)研究中的長尾現(xiàn)象[15]。HEIDORN 經(jīng)調(diào)查得出結(jié)論,近80%的科研活動都處于科學(xué)研究的長尾上,這些長尾科研項目雖然經(jīng)費少、規(guī)模小,但卻有眾多科研人員參與,產(chǎn)生了大量的科研數(shù)據(jù)。相對那些專注于核心學(xué)科、關(guān)鍵領(lǐng)域且投資巨大的大項目而言,“小科學(xué)” 投資小、數(shù)據(jù)量多,傾向于更前沿、更創(chuàng)新的研究[16]。也就是說,處于科研長尾上的小科研項目往往更容易成為科學(xué)創(chuàng)新的源頭。但這些小科研項目產(chǎn)生的大量長尾科研數(shù)據(jù)往往由科研人員自己保存,缺乏專門的數(shù)據(jù)管理計劃和數(shù)據(jù)管理工具。這就導(dǎo)致這些長尾科研數(shù)據(jù)很少被共享,很難被重用,沒有挖掘出其潛在的巨大價值。
根據(jù)規(guī)模大小,可以將RDI 分成兩類。一類是專注于大數(shù)據(jù)管理的國家(國際) 數(shù)據(jù)基礎(chǔ)設(shè)施,當(dāng)前,對這類科研數(shù)據(jù)基礎(chǔ)設(shè)施關(guān)注和建設(shè)的比較多,如地球與環(huán)境科學(xué)的世界數(shù)據(jù)中心系統(tǒng)(The World Data Center System)[17]和基因組數(shù)據(jù)庫[18]等。另一類是專注于對長尾科研數(shù)據(jù)管理的基礎(chǔ)設(shè)施,這類科研數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)數(shù)量很少,而且非常分散。GeRDI 就是為了實現(xiàn)對長尾科研數(shù)據(jù)的管理、共享與重用而開發(fā)的聯(lián)合科研數(shù)據(jù)基礎(chǔ)設(shè)施。
科研數(shù)據(jù)生命周期模型是正確理解科研數(shù)據(jù)演變過程的重要數(shù)據(jù)管理框架,它可以用來解釋和定義科研數(shù)據(jù)管理的復(fù)雜過程,明確在科研數(shù)據(jù)服務(wù)實踐中,不同利益相關(guān)者所承擔(dān)的角色和責(zé)任?;诖?,GeRDI使用科研數(shù)據(jù)生命周期模型來更好的理解不同科研社區(qū)的科研數(shù)據(jù)演變過程,繼而識別確定GeRDI 所應(yīng)提供的核心服務(wù)內(nèi)容。在比較研究了若干模型后,GeRDI采用了英國數(shù)據(jù)存檔(UK Data Archive) 數(shù)據(jù)生命周期模型。該模型非常簡單,包含創(chuàng)造數(shù)據(jù)(Creating Data)、處理數(shù)據(jù)(Processing Data)、分析數(shù)據(jù)(Analyzing Data)、保存數(shù)據(jù)(Preserving Data)、獲取數(shù)據(jù)(Giving Access to Data) 和重用數(shù)據(jù)(Re-using Data) 6個階段,如圖2 所示。
圖2 英國數(shù)據(jù)檔案數(shù)據(jù)生命周期模型[19]Fig.2 UK Data Archive's data life cycle model
多樣性是長尾科研數(shù)據(jù)基礎(chǔ)設(shè)施的主要特征,GeRDI 選取分屬4 個不同學(xué)科領(lǐng)域的9 個科研社區(qū)作為試點。這9 個多學(xué)科科研社區(qū)如表1 所示。
表1 GeRDI 9 個試點科研社區(qū)[20]Table 1 Nine pilot research communities of GeRDI
GeRDI 為每個試點社區(qū)設(shè)置一名社區(qū)管理者,他們既是GeRDI 的項目成員,同時也是項目組與試點社區(qū)之間的聯(lián)絡(luò)橋梁。他們負責(zé)收集不同試點社區(qū)的需求,獲取社區(qū)期望GeRDI 提供的功能與服務(wù),同時向項目組提供有建設(shè)性的見解、評價和反饋。社區(qū)需求收集包括訪談、制定需求說明書、需求用例模型化、將需求用例與GeRDI 服務(wù)映射4 個主要過程。
(1) 訪談。社區(qū)管理者以訪談的形式獲取試點社區(qū)的需求是需求收集的重要方法。根據(jù)項目實施階段的不同,訪談的重點也不同。在項目實施前,社區(qū)管理者長時間與用戶溝通交流,獲取用戶的最初需求,在此基礎(chǔ)上,不斷對需求進行提煉并增加新的需求。在GeRDI V.1 發(fā)布后,社區(qū)管理者則通過訪談來獲取用戶使用GeRDI 的評價與反饋,并進一步收集用戶的需求。
(2) 制定需求說明書?;谠L談階段的訪問記錄,社區(qū)管理者識別出最初的用戶需求用例,并制定需求說明書。在此階段,需求開始逐漸轉(zhuǎn)變?yōu)橛脩羝谕贕eRDI 中可獲取到的功能與服務(wù)。例如,基本的搜索服務(wù)功能,用戶期望通過特定的參數(shù)來縮小或擴大搜索結(jié)果。
(3) 需求用例模型化。為了進一步從上述兩個步驟中獲取需求,社區(qū)管理者使用用例將需求進行模型化。社區(qū)管理者可以設(shè)置每個用例實現(xiàn)的優(yōu)先權(quán),并決定是否將某個用例作為一個整體來實現(xiàn),還是將其分割成更小的實現(xiàn)功能單元。在該過程中,為了更好的向用戶展示不同的GeRDI 功能特征,項目組使用了“拋棄式原型” (Throw-Away Prototypes) 開發(fā)方法,用來解決需求的不確定性、不完整性和模糊性。
(4) 將需求用例與GeRDI 服務(wù)功能進行映射。社區(qū)管理者與對應(yīng)的社區(qū)溝通協(xié)調(diào),將需求用例與即將在GeRDI 中實現(xiàn)的服務(wù)功能進行映射。
元數(shù)據(jù)是描述資源實體各種特征的結(jié)構(gòu)化、已編碼的數(shù)據(jù),是實現(xiàn)科研數(shù)據(jù)發(fā)現(xiàn)、管理、共享及重用的重要描述機制,是科研數(shù)據(jù)基礎(chǔ)設(shè)施的重要組成部分。GeRDI 關(guān)注的是對長尾科研數(shù)據(jù)的管理,涉及4個不同學(xué)科領(lǐng)域的9 個科研社區(qū),因此,設(shè)計一個支持描述不同學(xué)科領(lǐng)域科研數(shù)據(jù)的元數(shù)據(jù)模式是GeRDI項目建設(shè)所面臨的主要挑戰(zhàn)之一。GeRDI 元數(shù)據(jù)模式在通用元數(shù)據(jù)與學(xué)科領(lǐng)域元數(shù)據(jù)之間保持了相對平衡,包含通用、操作以及學(xué)科元數(shù)據(jù)3 個部分,分別映射GeRDI 不同的需求類別,為科研社區(qū)提供了更好的支持服務(wù),如圖3 所示。
圖3 GeRDI 元數(shù)據(jù)模式[21]Fig.3 GeRDI metadata schema
(1) 通用元數(shù)據(jù)。包含典型的書目元數(shù)據(jù)元素,如標(biāo)題、作者、出版時間等,這些都是支持RDI 服務(wù)的通用元數(shù)據(jù)元素。通用元數(shù)據(jù)一般包含數(shù)量少但穩(wěn)定的元素。GeRDI 選擇重用成熟、流行的元數(shù)據(jù)標(biāo)準DataCite,用于科研數(shù)據(jù)的交換與引用。
(2) 操作元數(shù)據(jù)。作為基礎(chǔ)設(shè)施,GeRDI 需要特定的元數(shù)據(jù)元素支持相關(guān)操作,如識別已收割數(shù)據(jù)資源,跟蹤數(shù)據(jù)來源、所屬學(xué)科、不同的獲取鏈接(下載、瀏覽等) 等。操作元數(shù)據(jù)對元數(shù)據(jù)收割、維護以及常規(guī)RDI 服務(wù)支持至關(guān)重要。圖3 中“擴展元數(shù)據(jù)”展示了此部分的元數(shù)據(jù)元素。
(3) 學(xué)科元數(shù)據(jù)。學(xué)科元數(shù)據(jù)可以同時影響用戶需求與GeRDI 服務(wù)功能,是元數(shù)據(jù)模式設(shè)計過程中最具挑戰(zhàn)的一個部分。圖3 “學(xué)科元數(shù)據(jù)” 模塊展示了根據(jù)不同學(xué)科領(lǐng)域而組織的元數(shù)據(jù)元素,充分滿足了對多學(xué)科科研數(shù)據(jù)的描述需求。在整個需求收集過程中,科研社區(qū)通過用例 (Use Cases) 來決定在GeRDI Schema 中應(yīng)該加入哪些學(xué)科元數(shù)據(jù)。但是,隨著新科研社區(qū)的加入或者現(xiàn)有社區(qū)提出新的用例,就需要在GeRDI Schema 中持續(xù)加入新的學(xué)科元數(shù)據(jù)元素,這就導(dǎo)致學(xué)科元數(shù)據(jù)元素的數(shù)量會不斷增加。如何在元數(shù)據(jù)元素的廣度與深度之間保持相對平衡是GeRDI 需要持續(xù)考慮的主題之一。為了應(yīng)對該挑戰(zhàn),GeRDI 不斷監(jiān)測、學(xué)習(xí)一些領(lǐng)先的元數(shù)據(jù)研究國際組織的最新元數(shù)據(jù)類型標(biāo)準,如RDA 數(shù)據(jù)類型注冊工作組(RDA Data Type Registries Working Group)。此外,GeRDI 考慮使用本體應(yīng)用從基礎(chǔ)設(shè)施層級來解決該問題。
通用元數(shù)據(jù)和操作元數(shù)據(jù)作為核心部分支撐了GeRDI 的通用服務(wù),學(xué)科元數(shù)據(jù)則為學(xué)科服務(wù)提供支持,這對多學(xué)科科研社區(qū)來說至關(guān)重要。GeRDI 核心元數(shù)據(jù)與學(xué)科元數(shù)據(jù)分別處于不同的區(qū)塊,核心元數(shù)據(jù)區(qū)塊基本保持穩(wěn)定,學(xué)科元數(shù)據(jù)區(qū)塊則根據(jù)需求的變化而不斷變化。當(dāng)向?qū)W科元數(shù)據(jù)區(qū)塊增加新的元數(shù)據(jù)元素時,開發(fā)者首先梳理和確定擬增加的字段結(jié)構(gòu),然后轉(zhuǎn)換為模板文件,最后在安裝部署時將新增加的元數(shù)據(jù)模板文件導(dǎo)入到對應(yīng)的學(xué)科元數(shù)據(jù)區(qū)塊。
架構(gòu)是經(jīng)過系統(tǒng)性思考,經(jīng)權(quán)衡利弊后在現(xiàn)有資源約束下的最合理決策,是最終確定的系統(tǒng)頂層結(jié)構(gòu),包括子系統(tǒng)、模塊和組件以及它們之間的協(xié)作關(guān)系、約束規(guī)范和指導(dǎo)原則。GeRDI 的目標(biāo)是設(shè)計一個可以應(yīng)對不斷變化的用戶需求,避免推倒重建,同時又能夠最大限度降低系統(tǒng)設(shè)計復(fù)雜度的架構(gòu)。基于用戶需求和設(shè)計目標(biāo),GeRDI 選擇自包含系統(tǒng)(Self-Contained System,SCS) 和微服務(wù)架構(gòu)作為軟件架構(gòu)的設(shè)計方案。為了避免系統(tǒng)設(shè)計的復(fù)雜性,自包含系統(tǒng)將GeRDI 主要功能分割成不同的獨立組件,每個組件都擁有用戶界面、商業(yè)和邏輯層的獨立網(wǎng)絡(luò)應(yīng)用程序,即將其實現(xiàn)成為一個微服務(wù)。每個自含式系統(tǒng)由獨立的團隊開發(fā),伸縮性良好,可持續(xù)加入新的功能并將其整合為一個新的微服務(wù),極大的提高了軟件開發(fā)效率。GeRDI 軟件架構(gòu)如圖4 所示。
圖4 GeRDI 軟件架構(gòu)(服務(wù)集) [8]Fig.4 GeRDI system architecture (services)
需求收集期間對科研用例的識別過程為確定GeRDI的潛在服務(wù)提供了足夠的反饋。不同的科研社區(qū)期望GeRDI 所應(yīng)提供什么樣的服務(wù)功能側(cè)重不同,基于用戶需求,GeRDI 開發(fā)組對科研用例進行分析收集并將其與科研數(shù)據(jù)生命周期的不同階段進行映射,如圖5所示。
圖5 將GeRDI 服務(wù)與科研數(shù)據(jù)生命周期映射[21]Fig.5 Mapping of GeRDI services to research data life cycle
GeRDI 的服務(wù)集如圖4 所示,主要分為核心服務(wù)和擴展服務(wù)兩個部分。每個標(biāo)顏色的方框代表某項服務(wù)功能,對應(yīng)科研數(shù)據(jù)生命周期的某個階段。隨著需求收集的不斷進行,新的服務(wù)功能將不斷的加入至核心服務(wù)和擴展服務(wù)中去。
5.2.1 核心服務(wù)
核心服務(wù)集包含收割(Harvest)、搜索(Search)和書簽(Bookmark) 功能。
(1) 收割。收割服務(wù)為元數(shù)據(jù)的獲取提供了接口,GeRDI 從不同社區(qū)的科研數(shù)據(jù)知識庫中獲取元數(shù)據(jù),并將其添加到GeRDI 的索引中去。它也可以豐富充實已收割元數(shù)據(jù)并將其添加至搜索索引中。當(dāng)前,GeRDI已經(jīng)從不同科研社區(qū)的數(shù)據(jù)知識庫收割超過37 萬個數(shù)據(jù)集。為了進一步增加索引量同時證明其良好的可擴展性,GeRDI 同時從歐洲著名開放科學(xué)數(shù)據(jù)庫Zenodo[22]中收取元數(shù)據(jù)。
(2) 搜索。搜索服務(wù)幫助科研人員通過搜索查詢,發(fā)現(xiàn)所需科研數(shù)據(jù)。搜索結(jié)果的過濾以及根據(jù)檢索結(jié)果進行推薦等特性也被加入到搜索服務(wù)中。
(3) 書簽。書簽服務(wù)幫助科研人員長久保存搜索到的結(jié)果,是一種即時收藏服務(wù)。此外,它還保存使用過的搜索詞,方便用戶快速進行再次搜索。
5.2.2 擴展服務(wù)
擴展服務(wù)組件為感興趣的科研社區(qū)提供了相關(guān)功能實現(xiàn)的案例參考,包括存儲(Store)、預(yù)處理(Preprocess)、分析 (Analyze)、出版 (Publish)、存檔(Archive)。
(1) 存儲。科研人員可以利用存儲服務(wù)功能將書簽標(biāo)記的數(shù)據(jù)下載至本地或者遠程存儲系統(tǒng)。
(2) 預(yù)處理。幫助科研人員提前對科研數(shù)據(jù)進行過濾、標(biāo)準化以及預(yù)覽等預(yù)處理操作。
(3) 分析。對已預(yù)處理的數(shù)據(jù)提供數(shù)據(jù)分析服務(wù),幫助科研人員洞察新的科學(xué)發(fā)現(xiàn)。
(4) 出版。為新產(chǎn)生的科研數(shù)據(jù)存入GeRDI 存儲庫提供出版與攝入服務(wù)。
(5) 存檔。為科研數(shù)據(jù)長期保存提供相關(guān)知識庫服務(wù)。
中國現(xiàn)有科研數(shù)據(jù)基礎(chǔ)設(shè)施主要集中在科技云和不同類型的數(shù)據(jù)中心。2017 年12 月啟動了“中國科技云”[23](China Science&Technology Cloud,CSTC) 建設(shè),旨在建成加速科學(xué)發(fā)現(xiàn)、數(shù)據(jù)與計算融合的、領(lǐng)先國家級基礎(chǔ)設(shè)施。2019 年CODATA 北京會議期間提出“全球開放科學(xué)云” (Global Open Science Cloud,GOSC) 理念之后,“中國科技云” 與歐洲開放科學(xué)云EOSC、非洲開放科學(xué)云平臺AOSP 以及澳大利亞科研數(shù)據(jù)共同體ARDC 等開放科學(xué)云實踐加強國際合作,積極參與GOSC 的規(guī)劃與建設(shè)。2019 年6 月,科技部、財政部在前期科學(xué)數(shù)據(jù)工作的基礎(chǔ)上,分別在高能物理、基因組、氣象、地震海洋等領(lǐng)域組建了20 個國家科學(xué)數(shù)據(jù)中心,如國家冰川凍土沙漠科學(xué)數(shù)據(jù)中心、國家基因組科學(xué)數(shù)據(jù)中心、國家基礎(chǔ)學(xué)科公共科學(xué)數(shù)據(jù)中心等。
雖然中國在科研數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)方面已取得了一定的成果,但也存在一些問題。“中國科技云” 主要側(cè)重于高性能計算、人工智能、云計算、云存儲等云服務(wù),在一定程度上實現(xiàn)了科研數(shù)據(jù)的開放、共享與重用,但與領(lǐng)先的歐洲開放科學(xué)云EOSC 相比還有一定的差距。國內(nèi)還未建立全學(xué)科門類、基于統(tǒng)一政策標(biāo)準的、基礎(chǔ)性開放科學(xué)平臺。在缺乏國家總體發(fā)展規(guī)劃下,不同類型的數(shù)據(jù)中心急劇增加,不可避免的會造成重復(fù)建設(shè)、資源浪費以及不同數(shù)據(jù)中心之間缺乏統(tǒng)一的數(shù)據(jù)傳輸與共享標(biāo)準等問題。
因此,國家科技部門應(yīng)抓住機遇,對不同科研社區(qū)的需求進行調(diào)研,制定科研數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)發(fā)展國家戰(zhàn)略規(guī)劃,協(xié)調(diào)國家、領(lǐng)域以及機構(gòu)等不同層次的科研數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)。建立一個基于統(tǒng)一的政策、標(biāo)準、規(guī)范的聯(lián)合科研數(shù)據(jù)基礎(chǔ)設(shè)施,既能夠整合國內(nèi)不同科研數(shù)據(jù)中心數(shù)據(jù)資源,實現(xiàn)科研數(shù)據(jù)一站式訪問、獲取、互操作以及重用,又能夠與國際上重要的科研數(shù)據(jù)基礎(chǔ)設(shè)施進行數(shù)據(jù)交換和共享。
科研社區(qū)的真實需求是驅(qū)動科研數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)和長久運行的原始動力。當(dāng)前,中國的一些數(shù)據(jù)中心建設(shè)還存在“重建設(shè),輕使用” 的狀況。造成這種情況的最主要原因是數(shù)據(jù)中心的建設(shè)通常是“項目驅(qū)動” 而非“需求驅(qū)動”,只重視項目建設(shè)是否完成,未能充分調(diào)研用戶的真實需求。GeRDI 基于試點科研社區(qū)需求驅(qū)動的建設(shè)模式值得我們借鑒。在進行項目建設(shè)時,首先明確項目建設(shè)所要服務(wù)的目標(biāo)用戶群體,即試點科研社區(qū),然后為每個試點科研社區(qū)設(shè)置一名管理者,他們既是項目組成員,同時也是項目組與試點社區(qū)之間的聯(lián)絡(luò)橋梁。通過訪談、制定需求說明書、需求用例模型化、將需求用例與項目服務(wù)映射等過程收集不同試點社區(qū)的需求,獲取社區(qū)期望項目提供的功能與服務(wù),同時向項目組提供有建設(shè)性的見解、評價和反饋。
科研數(shù)據(jù)基礎(chǔ)設(shè)施的建設(shè)不可能把現(xiàn)有RDI 全部推倒重建,最佳方案是把當(dāng)前已建成的數(shù)據(jù)知識庫等分散的基礎(chǔ)設(shè)施連接起來,形成一個開放、動態(tài)、共享的RDI 網(wǎng)絡(luò)。GeRDI 不是建設(shè)一個新的數(shù)據(jù)中心,而是從不同科研社區(qū)已建成的數(shù)據(jù)知識庫獲取科研數(shù)據(jù),實現(xiàn)科研數(shù)據(jù)“物理上分布、邏輯上集中”。因此,RDI 的建設(shè)要兼容現(xiàn)有的元數(shù)據(jù)收割協(xié)議、網(wǎng)絡(luò)協(xié)議,同時要遵守一致的數(shù)據(jù)模型、統(tǒng)一的軟件技術(shù)標(biāo)準等。只有這樣,才能最大限度的降低RDI 建設(shè)的成本,并能充分實現(xiàn)不同RDI 之間的數(shù)據(jù)互操作與共享。
未來RDI 的建設(shè)不是一蹴而就的,而是一個動態(tài)持續(xù)的過程,試點科研社區(qū)會不斷增加新的需求,同時新的試點社區(qū)也會不斷加入。這就要求RDI 在建設(shè)初期就要把這種動態(tài)持續(xù)的特性考慮進去,以適應(yīng)不斷變化的未來。具體可以從兩個方面著手,一是靈活的架構(gòu)設(shè)計,使用自含式系統(tǒng)和微服務(wù)架構(gòu)將不斷變化的需求功能整合至正在運行的系統(tǒng),而不必將原有的系統(tǒng)推倒重來。二是建立RDI 建設(shè)動態(tài)監(jiān)測機制,全面掃描不同機構(gòu)、領(lǐng)域的RDI 建設(shè),重點關(guān)注相關(guān)政策、技術(shù)標(biāo)準、先進的軟件設(shè)計方法等內(nèi)容,始終讓RDI 處于不斷進化的狀態(tài)。
農(nóng)業(yè)圖書情報學(xué)刊2022年3期