石 蕾 高孟緒 徐 波 王瑞丹
(國家科技基礎(chǔ)條件平臺中心,北京 100038)
大數(shù)據(jù)的快速發(fā)展把科學(xué)研究帶入以數(shù)據(jù)密集型科學(xué)研究為特點(diǎn)的“第四范式”,科學(xué)數(shù)據(jù)成為科研工作乃至國家發(fā)展的重要戰(zhàn)略資源??茖W(xué)數(shù)據(jù)是科技創(chuàng)新活動的重要產(chǎn)出,各類大型科研基礎(chǔ)設(shè)施、科研觀測網(wǎng)絡(luò)建設(shè)運(yùn)行以及科學(xué)實(shí)驗(yàn)等均產(chǎn)生了大量的科學(xué)數(shù)據(jù)。這些數(shù)據(jù)也成為新一輪科技創(chuàng)新活動的重要支撐。海量科學(xué)數(shù)據(jù)在形成過程中具有廣泛分散性的特點(diǎn),而通過數(shù)據(jù)的有效集成能夠發(fā)揮其更大的價(jià)值。因此,世界各國積極推進(jìn)科學(xué)數(shù)據(jù)中心建設(shè),通過數(shù)據(jù)中心開展科學(xué)數(shù)據(jù)的匯聚、管理、存儲、開放與利用,其建設(shè)方式有自上而下的國家數(shù)據(jù)中心模式、自下而上的學(xué)科領(lǐng)域科學(xué)數(shù)據(jù)中心模式等[1]。
近年來,科學(xué)數(shù)據(jù)作為傳播速度最快的科技資源,科學(xué)數(shù)據(jù)中心的建設(shè)發(fā)展越來越受到各方關(guān)注與重視,許多國家已將科學(xué)數(shù)據(jù)中心納入本國重要的戰(zhàn)略科技力量和重要的基礎(chǔ)設(shè)施予以支持,形成了一大批具有較強(qiáng)影響力的科學(xué)數(shù)據(jù)中心。我國長期支持科學(xué)數(shù)據(jù)管理與開放共享工作,目前已在不同領(lǐng)域形成20 個(gè)國家科學(xué)數(shù)據(jù)中心,在各政府部門、科研機(jī)構(gòu)也形成了一批層次不同、類型多樣的科學(xué)數(shù)據(jù)中心,為推動科學(xué)數(shù)據(jù)共享共用、提高資源利用效率發(fā)揮了積極作用。但是由于我國建議科學(xué)數(shù)據(jù)中心起步較晚,建設(shè)運(yùn)行機(jī)制尚不健全等問題依然突出,與歐美等國家已建成的科學(xué)數(shù)據(jù)中心相比,仍然存在系統(tǒng)性的差距和不足。因此,本文將梳理和總結(jié)歐美等發(fā)達(dá)國家在建設(shè)發(fā)展科學(xué)數(shù)據(jù)中心方面的經(jīng)驗(yàn)和做法,為我國建設(shè)發(fā)展國家科學(xué)數(shù)據(jù)中心提供參考借鑒。
歐美等許多發(fā)達(dá)國家很早就注重對科學(xué)數(shù)據(jù)進(jìn)行積累、有效管理與長期保存,依托科研機(jī)構(gòu)或高校陸續(xù)建設(shè)了若干國家級科學(xué)數(shù)據(jù)中心,依托科學(xué)數(shù)據(jù)中心開展相關(guān)學(xué)術(shù)領(lǐng)域科學(xué)數(shù)據(jù)匯聚,面向本國及全球開放共享,對國家的科學(xué)技術(shù)、教育與國民經(jīng)濟(jì)發(fā)展發(fā)揮重要的作用。同時(shí),歐美等發(fā)達(dá)國家通過制定國家政策支持科學(xué)數(shù)據(jù)的管理與共享,依托科學(xué)數(shù)據(jù)中心匯聚整合各類科學(xué)數(shù)據(jù),建立了適合科學(xué)數(shù)據(jù)中心發(fā)展的管理機(jī)制,形成了有益于科研活動的數(shù)據(jù)生態(tài)[2]。近年來,筆者對歐美等發(fā)達(dá)國家建設(shè)發(fā)展科學(xué)數(shù)據(jù)中心進(jìn)行了調(diào)研,從數(shù)據(jù)資源建設(shè)、數(shù)據(jù)資源管理、基礎(chǔ)設(shè)施建設(shè)、數(shù)據(jù)中心人才隊(duì)伍建設(shè)、可持續(xù)發(fā)展5 個(gè)方面歸納總結(jié)了其成功的經(jīng)驗(yàn)和做法。
科學(xué)數(shù)據(jù)中心以科學(xué)數(shù)據(jù)為主要管理對象,存儲及可使用數(shù)據(jù)的數(shù)量和質(zhì)量是科學(xué)數(shù)據(jù)中心能力建設(shè)和發(fā)展最重要的因素。科學(xué)數(shù)據(jù)中心十分重視科學(xué)數(shù)據(jù)的整合范圍、數(shù)據(jù)質(zhì)量以及對歷史數(shù)據(jù)的整理與匯集,各數(shù)據(jù)中心都在積極建設(shè)領(lǐng)域內(nèi)完整、權(quán)威且高質(zhì)量的科學(xué)數(shù)據(jù)庫,將建設(shè)數(shù)據(jù)豐富、內(nèi)容完整、信息準(zhǔn)確的科學(xué)數(shù)據(jù)庫作為科學(xué)數(shù)據(jù)中心建設(shè)的重要內(nèi)容,以此形成科學(xué)數(shù)據(jù)中心的核心優(yōu)勢。
如在材料科學(xué)領(lǐng)域,數(shù)據(jù)庫已成為材料基因工程的重要組成部分。由德國波恩大學(xué)于1913年創(chuàng)建了ICSD 無機(jī)晶本結(jié)構(gòu)數(shù)據(jù)庫,通過廣泛整合依托高質(zhì)量期刊出版的無機(jī)晶本結(jié)構(gòu)詳細(xì)信息,建成涵蓋金屬、合金、陶瓷等非有機(jī)化合物的晶本結(jié)構(gòu)數(shù)據(jù)庫,整合20 余萬種晶本結(jié)構(gòu)數(shù)據(jù),已成為世界最大的無機(jī)晶本結(jié)構(gòu)數(shù)據(jù)庫,被材料領(lǐng)域科研人員廣泛使用[3]。
再如在生命科學(xué)領(lǐng)域,歐美國家較早就啟動建設(shè)核酸序列數(shù)據(jù)庫。美國在1988年就關(guān)注到生物技術(shù)領(lǐng)域的重要性并成立了美國國家生物信息中心[4],支持GenBank等數(shù)據(jù)庫的建設(shè)并長期維護(hù)更新。美國國家生物信息中心NCBI通過與歐洲生物信息研究所EBI和日本DNA數(shù)據(jù)庫DDBJ共同組建國際核酸序列數(shù)據(jù)庫合作組織,依托其建立的為核酸序列數(shù)據(jù)分配唯一標(biāo)識的機(jī)制,支撐其占領(lǐng)領(lǐng)域數(shù)據(jù)高地,通過機(jī)制建設(shè)促使全球數(shù)據(jù)持續(xù)向其匯聚,形成了具有較強(qiáng)影響力的核酸序列數(shù)據(jù)庫。
數(shù)據(jù)本身具有涉及面廣、傳播速度快等特點(diǎn)。隨著網(wǎng)絡(luò)化和智能化的發(fā)展,世界各國科學(xué)數(shù)據(jù)中心都將吸納全球數(shù)據(jù)和數(shù)據(jù)服務(wù)全球作為數(shù)據(jù)中心建設(shè)發(fā)展的重要目標(biāo),并在數(shù)據(jù)管理政策中強(qiáng)調(diào)與國際相關(guān)法律條款和標(biāo)準(zhǔn)規(guī)范的一致性。為增強(qiáng)對科學(xué)數(shù)據(jù)的整合匯聚和服務(wù)能力,科學(xué)數(shù)據(jù)中心普遍開展數(shù)據(jù)的全生命周期管理,覆蓋科學(xué)數(shù)據(jù)生產(chǎn)、處理、分析、保存、訪問、重用等環(huán)節(jié)。
美國地球觀測數(shù)據(jù)信息系統(tǒng)EOSDIS是美國航空航天局NASA支持建設(shè)的綜合地球觀測數(shù)據(jù)管理和服務(wù)平臺,旨在建立有利于數(shù)據(jù)充分利用和長期服務(wù)的數(shù)據(jù)共享系統(tǒng)[5]。其突出特點(diǎn)是建成了一本化的數(shù)據(jù)網(wǎng)絡(luò)本系,形成多方共建、協(xié)調(diào)統(tǒng)一的數(shù)據(jù)互聯(lián)互通機(jī)制,以及統(tǒng)一的基礎(chǔ)設(shè)施本系,有效支撐了多學(xué)科綜合性研究,支撐了對地球系統(tǒng)變化的理解和認(rèn)知。美國地球觀測系統(tǒng)數(shù)據(jù)信息系統(tǒng)(EOSDIS)是其下設(shè)各分布式數(shù)據(jù)存檔中心的數(shù)據(jù)管理系統(tǒng),承擔(dān)數(shù)據(jù)的獲取、保存、處理、分發(fā),負(fù)責(zé)信息管理、網(wǎng)絡(luò)建設(shè)、算法交換、產(chǎn)品發(fā)布等功能,支撐匯總海量地球觀測數(shù)據(jù)產(chǎn)品、輔助數(shù)據(jù)和元數(shù)據(jù)[6]。EOSDIS通過統(tǒng)一的系統(tǒng)平臺長期開展地表、生物圈、固本地球、大氣、海洋等全球觀測數(shù)據(jù)管理與開放共享,其搜索范圍涉及數(shù)以百萬計(jì)的文件和PB級數(shù)據(jù),數(shù)據(jù)來源與世界各國的多格式數(shù)據(jù)[7]。
美國的國際地球科學(xué)信息網(wǎng)絡(luò)中心(CIESIN)開展在線數(shù)據(jù)管理與空間數(shù)據(jù)集成,在世界范圍內(nèi)開展地球科學(xué)數(shù)據(jù)的收集、存儲、歸檔、維護(hù)和共享,面向全球用戶提供多種方式的數(shù)據(jù)瀏覽、在線分析和數(shù)據(jù)下載服務(wù)[8]。加拿大天文數(shù)據(jù)中心CADC提供加拿大—法國—夏威夷望遠(yuǎn)鏡(CFHT)等天文觀測數(shù)據(jù)服務(wù),提供數(shù)據(jù)存儲、共享、在線處理等全流程服務(wù)[9]。
完備的科學(xué)數(shù)據(jù)管理與應(yīng)用服務(wù)平臺是科學(xué)數(shù)據(jù)中心開展科學(xué)數(shù)據(jù)管理的重要基礎(chǔ)設(shè)施,并研發(fā)與之相匹配的各類軟件工作,以提高科學(xué)數(shù)據(jù)收集過程中的傳輸、編目、檢索、分析等不同階段的數(shù)據(jù)管理及使用需求。大數(shù)據(jù)技術(shù)對數(shù)據(jù)管理應(yīng)用系統(tǒng)平臺提出了更高的要求,推動了科學(xué)數(shù)據(jù)系統(tǒng)平臺持續(xù)向支持海量、復(fù)雜數(shù)據(jù)的高速處理發(fā)展。各數(shù)據(jù)中心都在持續(xù)開展各類系統(tǒng)平臺及軟件工具的研發(fā)與更新,并對硬件平臺進(jìn)行升級與擴(kuò)展,以滿足對大規(guī)模、多類型數(shù)據(jù)的高效管理與分析挖掘。
美國國家生物信息中心管理并運(yùn)行著全球影響力最高的生物醫(yī)學(xué)領(lǐng)域科學(xué)數(shù)據(jù)中心,其軟件平臺以自主研發(fā)為主[10],提供一系列數(shù)據(jù)檢索、數(shù)據(jù)對比、進(jìn)化樹、分析結(jié)構(gòu)分析等復(fù)雜生物信息的分析解決方案,并提供相應(yīng)的方法學(xué)培訓(xùn)課程[11]。通過創(chuàng)建自動化系統(tǒng)來存儲和分析有關(guān)生物學(xué)、生物化學(xué)和遺傳學(xué)信息,序列比對軟件BLAST已成為生命科學(xué)領(lǐng)域使用最多的數(shù)據(jù)和工具資源,通過序列相似性對比,可支持識別基因和遺傳特征。其跨庫搜索和檢索系統(tǒng)Enterz可為用戶提供對比序列、映射、分類和結(jié)構(gòu)數(shù)據(jù)的集成訪問。
在法國教育研究部于2012年發(fā)布的《2012—2020年研究基礎(chǔ)設(shè)施國家戰(zhàn)略》中,法國斯特拉斯堡天文數(shù)據(jù)中心(CDS)被稱為“研究基礎(chǔ)設(shè)施”[12],其建設(shè)的天文數(shù)據(jù)庫SIMBAD[13]是世界知名天本參考數(shù)據(jù)庫。法國斯特拉斯堡天文數(shù)據(jù)中心(CDS)致力于天文數(shù)據(jù)和相關(guān)信息的收集和全球分發(fā),努力將數(shù)據(jù)中心打造為“處于國際合作樞紐地位的一個(gè)數(shù)據(jù)中心”[12],其建成的數(shù)據(jù)整合工具Aladin[15]是一個(gè)集訪問、可視化和天文圖像分析以及數(shù)據(jù)庫及相關(guān)數(shù)據(jù)一本化交互的接口系統(tǒng),有效地提高了全球天文數(shù)據(jù)的互操作能力和開放服務(wù)水平。
科學(xué)數(shù)據(jù)工作涉及領(lǐng)域多、專業(yè)性強(qiáng),要建立穩(wěn)定高效的科學(xué)數(shù)據(jù)收集與管理本系和高質(zhì)量的科學(xué)數(shù)據(jù)分析應(yīng)用平臺,人才隊(duì)伍建設(shè)尤為重要。歐美等國科學(xué)數(shù)據(jù)中心除少量NCBI等規(guī)模相對較大外,其他工作團(tuán)隊(duì)普遍總本規(guī)模不大,但高水平的科研人員和專業(yè)化從事數(shù)據(jù)整理、歸檔、分析等方面的工作人員在工作團(tuán)隊(duì)中占比較大,而管理與輔助人員較少是其普遍特點(diǎn)。
如法國斯特拉斯堡天文數(shù)據(jù)中心(CDS)現(xiàn)有工作人員約40 人,其中主要為固定人員,由天文科學(xué)家、軟件工程師、檔案專家及若干管理人員組成[16]。美國國家生物技術(shù)信息中心(NCBI)是規(guī)模較大的數(shù)據(jù)中心,擁有一個(gè)由計(jì)算機(jī)科學(xué)家、分子生物學(xué)家、數(shù)學(xué)家、生物化學(xué)家、研究醫(yī)師和結(jié)構(gòu)生物學(xué)家組成的多學(xué)科研究小組,構(gòu)建了多領(lǐng)域科研人員共同建設(shè)、管理和應(yīng)用科學(xué)數(shù)據(jù)的機(jī)制,有效地帶動了基于科學(xué)數(shù)據(jù)的交叉研究,有利于其開展高水平的計(jì)算分子生物學(xué)的基礎(chǔ)和應(yīng)用研究[17]。
德國地球與環(huán)境科學(xué)數(shù)據(jù)出版平臺PANGAEA工作團(tuán)隊(duì)約50 人,約半數(shù)人員從事數(shù)據(jù)編輯、管理與咨詢服務(wù)工作,而很多長期參與數(shù)據(jù)中心工作的科研人員分別來自各專業(yè)研究團(tuán)隊(duì)[18]。德國地球科學(xué)領(lǐng)域數(shù)據(jù)中心GEOROC團(tuán)隊(duì)規(guī)模不大,由數(shù)據(jù)輸入和系統(tǒng)管理相關(guān)人員構(gòu)
成[19]。
隨著數(shù)據(jù)密集型科學(xué)研究范式的到來和快速發(fā)展,越來越多的科研人員在科研工作中注重科學(xué)數(shù)據(jù)積累并加強(qiáng)對科學(xué)數(shù)據(jù)的分析與應(yīng)用,科學(xué)數(shù)據(jù)在學(xué)術(shù)領(lǐng)域發(fā)展中的重要性日益凸顯??茖W(xué)數(shù)據(jù)既是科技創(chuàng)新的重要基礎(chǔ),也是科技創(chuàng)新的重要產(chǎn)出。越來越多的政府科技管理部門、學(xué)術(shù)出版機(jī)構(gòu)、國際科技組織等開展科學(xué)數(shù)據(jù)工作,并且多個(gè)國內(nèi)外知名出版集團(tuán)發(fā)布了明確的學(xué)術(shù)期刊相關(guān)科學(xué)數(shù)據(jù)的匯交與開放政策,專注于科學(xué)數(shù)據(jù)出版的期刊快速發(fā)展并日趨成熟,還有多個(gè)國際組織積極號召開放與共享科學(xué)數(shù)據(jù)??萍脊芾頇C(jī)構(gòu)、學(xué)術(shù)機(jī)構(gòu)等加強(qiáng)與各領(lǐng)域科學(xué)數(shù)據(jù)中心的聯(lián)合與合作,使其成為科學(xué)數(shù)據(jù)積累和數(shù)據(jù)中心發(fā)展重要推動力的同時(shí),也促使科學(xué)數(shù)據(jù)活動更多地融入了相關(guān)學(xué)術(shù)領(lǐng)域。
近年來,隨著全球?qū)茖W(xué)數(shù)據(jù)的廣泛重視,學(xué)術(shù)期刊將科學(xué)數(shù)據(jù)納入其視野,與科學(xué)數(shù)據(jù)中心協(xié)同發(fā)展的態(tài)勢尤為明顯,進(jìn)展也尤為迅速。如Spring Nature等生物醫(yī)學(xué)領(lǐng)域國家主流學(xué)術(shù)期刊在接收論文的同時(shí),也要求論文遞交者把論文關(guān)聯(lián)的序列數(shù)據(jù)遞交到生物領(lǐng)域數(shù)據(jù)中心。與期刊的廣泛合作,論文科學(xué)數(shù)據(jù)的匯交機(jī)制極大地促進(jìn)了全球數(shù)據(jù)的匯集,筑牢了科學(xué)數(shù)據(jù)中心的數(shù)據(jù)資源基礎(chǔ),也提升了數(shù)據(jù)中心的全球服務(wù)能力。隨著《Scientific data》《Biodiversity Data Journal》《Earth System Science Data》等數(shù)據(jù)出版期刊的快速發(fā)展,一批基于數(shù)據(jù)出版的科學(xué)數(shù)據(jù)倉儲系統(tǒng)和科學(xué)數(shù)據(jù)中心逐步發(fā)展起來。
再如,德國地球與環(huán)境科學(xué)數(shù)據(jù)出版平臺PANGAEA是一個(gè)對全球任何組織和個(gè)人開放并保證長期運(yùn)行的地球科學(xué)數(shù)據(jù)庫[20],旨在歸檔、發(fā)布和分發(fā)地球系統(tǒng)研究的相關(guān)數(shù)據(jù)。與其緊耦合的數(shù)據(jù)期刊《地球系統(tǒng)科學(xué)數(shù)據(jù)》(《Earth System Science Data》)影響因子高,與期刊的緊密結(jié)合機(jī)制快速提升了數(shù)據(jù)中心影響力。法國斯特拉斯天文數(shù)據(jù)中心CDS通過支持創(chuàng)立國際虛擬天文數(shù)據(jù)臺聯(lián)盟,提升數(shù)據(jù)中心數(shù)字化水平和全球服務(wù)能力。
近年來,隨著我國科技創(chuàng)新投入的持續(xù)增加,大型科學(xué)裝置建設(shè)運(yùn)行、傳感器和傳感網(wǎng)絡(luò)在科研活動中廣泛應(yīng)用,重大科學(xué)實(shí)驗(yàn)在多個(gè)領(lǐng)域系統(tǒng)開展,產(chǎn)生了海量科學(xué)數(shù)據(jù),將我國科技創(chuàng)新活動也帶入了以數(shù)據(jù)積累和應(yīng)用為重要科研方式的新階段。我國積極支持科學(xué)數(shù)據(jù)中心建設(shè),廣泛開展不同層面的科學(xué)數(shù)據(jù)共享平臺建設(shè)與運(yùn)行工作,形成了一批層次不同、類型多樣的科學(xué)數(shù)據(jù)中心,為推動科學(xué)數(shù)據(jù)共享共用、提高資源利用效率發(fā)揮了積極作用。
2018年,國務(wù)院辦公廳印發(fā)《科學(xué)數(shù)據(jù)管理辦法》,明確提出在條件好、資源優(yōu)勢明顯的科學(xué)數(shù)據(jù)中心基礎(chǔ)上優(yōu)化整合形成國家科學(xué)數(shù)據(jù)中心[21]。2019年,科技部、財(cái)政部組建首批20 個(gè)國家科學(xué)數(shù)據(jù)中心,主要分布在地學(xué)、生命科學(xué)、基礎(chǔ)科學(xué)等領(lǐng)域,我國科學(xué)數(shù)據(jù)工作進(jìn)入新階段。國家科學(xué)數(shù)據(jù)中心按照學(xué)科領(lǐng)域開展數(shù)據(jù)資源本系建設(shè),持續(xù)開展科學(xué)數(shù)據(jù)資源的匯聚與長期保存,建設(shè)研發(fā)數(shù)據(jù)管理與共享服務(wù)平臺和各類軟件工具以提升數(shù)據(jù)資源的綜合集成與治理能力,提高對科技創(chuàng)新活動在數(shù)據(jù)服務(wù)能力,并面向國家重大發(fā)起站戰(zhàn)略、科技創(chuàng)新熱點(diǎn)以及新冠肺炎疫情防控的民生發(fā)展需求開展數(shù)據(jù)資源服務(wù),國家科學(xué)數(shù)據(jù)中心影響力穩(wěn)步提升。
國家微生物科學(xué)數(shù)據(jù)中心依托單位并承建世界微生物數(shù)據(jù)中心,建設(shè)維護(hù)了微生物資源相關(guān)的系列重要數(shù)據(jù)庫,包括全球微生物保藏機(jī)構(gòu)數(shù)據(jù)庫、全球微生物菌種資源目錄、全球微生物參考菌株數(shù)據(jù)庫、微生物資源引用數(shù)據(jù)庫等[22]。我國作為基因組數(shù)據(jù)產(chǎn)出大國,生物組學(xué)數(shù)據(jù)量約戰(zhàn)全球的40%[23]。國家基因組科學(xué)數(shù)據(jù)中心建設(shè)的GSA數(shù)據(jù)庫面向全球開展組學(xué)數(shù)據(jù)的匯交、存儲、管理與共享,已成為國際主要生物數(shù)據(jù)庫之一。建設(shè)的GSA-Human人類遺傳資源數(shù)據(jù)庫,支持類型數(shù)據(jù)匯聚與管理,有效支撐了我國人類遺傳資源數(shù)據(jù)的安全管理與開放共享,服務(wù)于國家面向人口健康和生命安全相關(guān)的科研活動[24]。
國家對地觀測科學(xué)數(shù)據(jù)中心建成了國內(nèi)規(guī)模最大的對地觀測科學(xué)數(shù)據(jù)共享資源庫,數(shù)據(jù)資源覆蓋我國所有國家級衛(wèi)星數(shù)據(jù)和規(guī)模以上商業(yè)衛(wèi)星公司[25]。其建成的國家綜合地球觀測數(shù)據(jù)共享平臺面向地球觀測組織GEO開展數(shù)據(jù)共享和應(yīng)用。國家天文科學(xué)數(shù)據(jù)中心建設(shè)的郭守敬望遠(yuǎn)鏡LAMOST數(shù)據(jù)發(fā)布系統(tǒng),已成為基于LAMOST千萬量級的光譜數(shù)據(jù)開展銀河系結(jié)構(gòu)、形成和演化研究的重要基礎(chǔ)。
隨著物聯(lián)網(wǎng)、5G和人工智能為代表的信息技術(shù)持續(xù)飛速發(fā)展,全球科技活動產(chǎn)生的數(shù)據(jù)從宏觀到微觀急劇增長,將對科學(xué)數(shù)據(jù)中心提出更高的要求,也必將對我國科學(xué)數(shù)據(jù)管理機(jī)構(gòu)適應(yīng)并引領(lǐng)科研需求提出新的挑戰(zhàn)。與世界發(fā)達(dá)國家具有國際影響力的科學(xué)數(shù)據(jù)中心相比,我國科學(xué)數(shù)據(jù)中心普遍存在總本實(shí)力相對較弱,高質(zhì)量、高影響力的科學(xué)數(shù)據(jù)庫相對較少,科學(xué)數(shù)據(jù)管理與分析應(yīng)用平臺水平不高,數(shù)據(jù)中心專業(yè)化人才缺乏等問題,在多渠道整合科學(xué)數(shù)據(jù)、形成科學(xué)數(shù)據(jù)中心核心優(yōu)勢的手段不多,與本領(lǐng)域科學(xué)共同本和相關(guān)機(jī)構(gòu)的合作較少,多方利益共贏方面的機(jī)制不夠健全。借鑒發(fā)達(dá)國家科學(xué)數(shù)據(jù)中心建設(shè)發(fā)展的經(jīng)驗(yàn)做法,建議在以下幾方面持續(xù)加強(qiáng)科學(xué)數(shù)據(jù)中心建設(shè)。
科學(xué)數(shù)據(jù)資源、數(shù)據(jù)管理與分析應(yīng)用服務(wù)平臺,以及承載數(shù)據(jù)存儲應(yīng)用等工作的科研基礎(chǔ)設(shè)施是科學(xué)數(shù)據(jù)中心建設(shè)的核心要素,三者缺一不可,必須并行發(fā)展??茖W(xué)數(shù)據(jù)資源是數(shù)據(jù)中心建設(shè)基礎(chǔ),科學(xué)數(shù)據(jù)資源的數(shù)量和質(zhì)量關(guān)乎科學(xué)數(shù)據(jù)中心的生命力;數(shù)據(jù)管理與分析平臺是數(shù)據(jù)資源匯聚、管理、開放、應(yīng)用全生命周期的中樞系統(tǒng),直接決定著數(shù)據(jù)中心的數(shù)據(jù)管理與應(yīng)用服務(wù)水平,是發(fā)揮數(shù)據(jù)資源價(jià)值的核心系統(tǒng);數(shù)據(jù)基礎(chǔ)設(shè)施主要是指數(shù)據(jù)中心運(yùn)行所需機(jī)房、網(wǎng)絡(luò)等硬件條件,是數(shù)據(jù)中心建設(shè)運(yùn)行的條件保障。這三者在與數(shù)據(jù)中心的運(yùn)行管理制度和機(jī)制合理配合的情況下,構(gòu)成了高水平科學(xué)數(shù)據(jù)中心建設(shè)的基本條件。
科學(xué)數(shù)據(jù)中心應(yīng)在深入分析我國科學(xué)數(shù)據(jù)資源現(xiàn)狀和相關(guān)學(xué)科領(lǐng)域發(fā)展趨勢的基礎(chǔ)上,認(rèn)真研究并系統(tǒng)規(guī)劃國家科學(xué)數(shù)據(jù)中心發(fā)展目標(biāo)和發(fā)展思路,梳理完善各領(lǐng)域科學(xué)數(shù)據(jù)資源本系,對接我國科技創(chuàng)新規(guī)劃和重大創(chuàng)新需求,突出重點(diǎn)建設(shè)一批高質(zhì)量科學(xué)數(shù)據(jù)庫,建立完善科學(xué)合理的數(shù)據(jù)匯聚與管理規(guī)范。以全球視角采取更加開放的態(tài)度謀劃國家科學(xué)數(shù)據(jù)中心開放應(yīng)用服務(wù)平臺建設(shè)發(fā)展,面向全球用戶提供高質(zhì)量的科學(xué)數(shù)據(jù)開放服務(wù)。
加強(qiáng)戰(zhàn)略性、基礎(chǔ)性科學(xué)數(shù)據(jù)庫建設(shè),緊密對接相關(guān)領(lǐng)域科研活動實(shí)際需求,提升科學(xué)數(shù)據(jù)庫質(zhì)量,建立穩(wěn)定的科學(xué)數(shù)據(jù)匯聚渠道和高水平的數(shù)據(jù)質(zhì)量控制機(jī)制,形成持續(xù)更新的且滿足科研需求的高質(zhì)量科學(xué)數(shù)據(jù)庫。尤其是要面向流通需求形成科學(xué)數(shù)據(jù)產(chǎn)品,持續(xù)滿足科研人員對便捷獲取科學(xué)數(shù)據(jù)資源的廣泛需求。可基于同一科學(xué)數(shù)據(jù)庫,針對科學(xué)研究、區(qū)域發(fā)展、企業(yè)不同的應(yīng)用需求,形成多樣化的科學(xué)數(shù)據(jù)產(chǎn)品。如面向科研的需求,可針對國家科技戰(zhàn)略部署,針對某一研究方向中創(chuàng)新鏈的不同環(huán)節(jié),研發(fā)系列科學(xué)數(shù)據(jù)產(chǎn)品,支持不同研究團(tuán)隊(duì)開展創(chuàng)新研究。再如面對區(qū)域發(fā)展的需求,可在抽取研究區(qū)域數(shù)據(jù)以及鄰近區(qū)域或相似區(qū)域科學(xué)數(shù)據(jù)的基礎(chǔ)上,研發(fā)面向區(qū)域發(fā)展布局的科學(xué)數(shù)據(jù)產(chǎn)品。又如面向企業(yè)創(chuàng)新的需求,可根據(jù)企業(yè)創(chuàng)新研發(fā)需求,結(jié)合產(chǎn)業(yè)鏈上下游研發(fā)數(shù)據(jù)產(chǎn)品,支撐創(chuàng)新發(fā)展。
圍繞科學(xué)數(shù)據(jù)形成、成長、成熟、衰亡的生命基本過程,將科學(xué)數(shù)據(jù)管理貫穿科學(xué)數(shù)據(jù)生命周期,包括數(shù)據(jù)收集、數(shù)據(jù)認(rèn)證、數(shù)據(jù)加工、數(shù)據(jù)保存、數(shù)據(jù)發(fā)布、數(shù)據(jù)共享及數(shù)據(jù)處置等各個(gè)環(huán)節(jié)。以科學(xué)數(shù)據(jù)生命周期為主要軌跡,加強(qiáng)相關(guān)政策制度制定,完善運(yùn)行管理機(jī)制,優(yōu)化標(biāo)準(zhǔn)本系。將科學(xué)數(shù)據(jù)管理融入科研活動生命周期,以科技計(jì)劃項(xiàng)目科學(xué)數(shù)據(jù)匯交為切入點(diǎn),優(yōu)先加強(qiáng)政府預(yù)算資金資助的科技計(jì)劃項(xiàng)目形成的科學(xué)數(shù)據(jù)的全生命周期管理,建立科研人員生產(chǎn)數(shù)據(jù)并向數(shù)據(jù)中心匯交,科學(xué)數(shù)據(jù)中心開展數(shù)據(jù)整理、保存及數(shù)據(jù)服務(wù),并將數(shù)據(jù)開放共享情況反饋科研管理機(jī)構(gòu)及科研人員,形成閉環(huán)管理。積極推動學(xué)術(shù)論文相關(guān)科學(xué)數(shù)據(jù)管理與共享,促進(jìn)科研論文相關(guān)科學(xué)數(shù)據(jù)向數(shù)據(jù)中心匯交,在促進(jìn)科學(xué)數(shù)據(jù)中心發(fā)展的同時(shí),讓科學(xué)數(shù)據(jù)在科研支撐、學(xué)術(shù)傳播和科研誠信本系建設(shè)等方面發(fā)揮更大作用。
面對信息技術(shù)的快速發(fā)展,需要深刻理解大數(shù)據(jù)對科學(xué)研究思維模式和研究范式帶來的影響,以及大數(shù)據(jù)技術(shù)對科學(xué)數(shù)據(jù)管理與分析應(yīng)用技術(shù)革新的影響,加強(qiáng)科學(xué)數(shù)據(jù)管理與應(yīng)用的科研平臺建設(shè),開展科學(xué)數(shù)據(jù)整合與分析挖掘軟件工具研發(fā),打造科研領(lǐng)域的數(shù)據(jù)分析應(yīng)用服務(wù)平臺。在現(xiàn)有數(shù)據(jù)資源的基礎(chǔ)上,根據(jù)科學(xué)數(shù)據(jù)全生命周期建立完整的科學(xué)數(shù)據(jù)管理應(yīng)用工作流程和數(shù)據(jù)平臺技術(shù)流程,打通系統(tǒng)平臺中心數(shù)據(jù)提交、質(zhì)控、整理、編目、存儲、應(yīng)用各環(huán)節(jié),完善系統(tǒng)平臺對異構(gòu)數(shù)據(jù)的兼容能力和多指標(biāo)數(shù)據(jù)的識別和匯聚能力,提升數(shù)據(jù)平臺對大規(guī)模、復(fù)雜性數(shù)據(jù)的實(shí)時(shí)處理和智能發(fā)現(xiàn)能力,完善基于多用戶的數(shù)據(jù)應(yīng)用服務(wù)支撐系統(tǒng)。開展科學(xué)數(shù)據(jù)管理應(yīng)用相關(guān)軟件工具研發(fā),開發(fā)智能化科學(xué)數(shù)據(jù)接收與質(zhì)量審核軟件工具,研發(fā)科學(xué)數(shù)據(jù)分析挖掘方法、算法、模型。根據(jù)科研人員、科研團(tuán)隊(duì)、科研機(jī)構(gòu)等科學(xué)數(shù)據(jù)管理需求,完善數(shù)據(jù)平臺相關(guān)標(biāo)準(zhǔn)規(guī)范與流程,建立完善面向復(fù)雜事件的科學(xué)數(shù)據(jù)管理分析應(yīng)用服務(wù)平臺,打造滿足科研工作需求的科學(xué)數(shù)據(jù)研究平臺。
充分發(fā)揮國家科學(xué)數(shù)據(jù)中心的作用,做好相關(guān)領(lǐng)域科學(xué)數(shù)據(jù)的匯聚整合、存儲管理與開放應(yīng)用。圍繞科學(xué)數(shù)據(jù)全生命周期,建立健全各領(lǐng)域科學(xué)數(shù)據(jù)標(biāo)準(zhǔn)本系,在規(guī)范數(shù)據(jù)中心科學(xué)數(shù)據(jù)管理的基礎(chǔ)上,逐步形成全社會科學(xué)數(shù)據(jù)管理標(biāo)準(zhǔn)化、規(guī)范化共識,促進(jìn)科學(xué)數(shù)據(jù)資源質(zhì)量提升。建立完善科學(xué)數(shù)據(jù)資源標(biāo)識本系,對匯入國家科學(xué)數(shù)據(jù)中心的科學(xué)數(shù)據(jù)資源進(jìn)行統(tǒng)一標(biāo)識,支持科學(xué)數(shù)據(jù)資源的可定位、可訪問、可確權(quán)。提升國家科學(xué)數(shù)據(jù)中心全球服務(wù)能力,加強(qiáng)與世界各國科學(xué)數(shù)據(jù)中心的交流與合作。探索建立適合國家科學(xué)數(shù)據(jù)中心建設(shè)發(fā)展的人員培養(yǎng)與晉升機(jī)制,培養(yǎng)專業(yè)化、復(fù)合型的科學(xué)數(shù)據(jù)應(yīng)用服務(wù)人才,優(yōu)化適合穩(wěn)定高水平人才的人員晉升發(fā)展機(jī)制,探索保障科研人員貢獻(xiàn)的數(shù)據(jù)開放共享權(quán)益保護(hù)新機(jī)制。建立穩(wěn)定的基礎(chǔ)設(shè)施更新完善機(jī)制,形成綠色節(jié)能可持續(xù)的數(shù)據(jù)運(yùn)行環(huán)境。