段博文,王卷樂,,石蕾,高孟緒
研究論文
前沿領(lǐng)域國內(nèi)外典型數(shù)據(jù)庫調(diào)研與啟示
段博文1,王卷樂1,2*,石蕾3,高孟緒3
1. 中國科學(xué)院地理科學(xué)與資源研究所資源與環(huán)境信息系統(tǒng)國家重點實驗室,北京 100101;2. 江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心,南京 210023;3. 國家科技基礎(chǔ)條件平臺中心,北京 100862
科學(xué)數(shù)據(jù)是“數(shù)據(jù)—信息—知識—智慧”創(chuàng)新價值鏈的基礎(chǔ),是最基本的科技資源,對經(jīng)濟(jì)社會發(fā)展和科技創(chuàng)新起到重要作用。《中華人民共和國國民經(jīng)濟(jì)和社會發(fā)展第十四個五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》部署了實施戰(zhàn)略性科學(xué)計劃和科學(xué)工程的9大前沿領(lǐng)域。及時掌握這些前沿領(lǐng)域的科學(xué)數(shù)據(jù)共享現(xiàn)狀和需求,對于更好地加強(qiáng)我國科學(xué)數(shù)據(jù)中心建設(shè)并發(fā)揮數(shù)據(jù)對前沿領(lǐng)域的支撐作用意義重大。文章跟蹤人工智能、量子信息、集成電路、生命健康、腦科學(xué)、生物育種、深地、深海以及可持續(xù)發(fā)展9大領(lǐng)域數(shù)據(jù)庫國內(nèi)外進(jìn)展,從數(shù)據(jù)資源情況、數(shù)據(jù)庫/平臺整合能力、應(yīng)用服務(wù)以及典型案例等方面進(jìn)行調(diào)研分析。以在海洋和地球系統(tǒng)科學(xué)領(lǐng)域具有代表性的德國PANGAEA數(shù)據(jù)庫為代表,剖析其在組織架構(gòu)、技術(shù)運維和運營管理流程等方面的特點??偨Y(jié)提出面向我國前沿領(lǐng)域需求的科學(xué)數(shù)據(jù)治理和發(fā)展建議。
數(shù)據(jù)共享;科學(xué)數(shù)據(jù);數(shù)據(jù)庫;PANGAEA;前沿領(lǐng)域;十四五規(guī)劃
隨著“大數(shù)據(jù)”理念的普及和數(shù)據(jù)驅(qū)動科學(xué)研究“第四范式”的興起,世界各國將科學(xué)數(shù)據(jù)視為一個國家重要的戰(zhàn)略性資源和科技實力競爭的重要資本[1]。由各學(xué)科領(lǐng)域科學(xué)數(shù)據(jù)所構(gòu)成的規(guī)范化、集成化和規(guī)?;臄?shù)據(jù)庫體現(xiàn)著一個國家的科學(xué)數(shù)據(jù)積累和服務(wù)能力。發(fā)達(dá)國家已經(jīng)將科學(xué)數(shù)據(jù)的持續(xù)積累和開放利用能力提高到了國家科技戰(zhàn)略的高度進(jìn)行部署,并投入了大量的人力、物力和財力,通過多年持續(xù)積累,形成了一批權(quán)威、長序列和多尺度的科學(xué)數(shù)據(jù)庫,在科研過程中發(fā)揮了重要作用。例如,在農(nóng)業(yè)科學(xué)領(lǐng)域,有被譽(yù)為世界上最古老的農(nóng)業(yè)研究中心之一的英國洛桑農(nóng)業(yè)實驗站,擁有170年序列的土壤科學(xué)數(shù)據(jù)資料,其數(shù)據(jù)內(nèi)容包括遺傳學(xué)、生物化學(xué)、細(xì)胞生物學(xué)和生態(tài)系統(tǒng)研究等方面。該中心為科學(xué)家研究農(nóng)業(yè)、環(huán)境、生態(tài)平衡和分子生物學(xué)等問題提供了寶貴的信息資源[2]。在地球科學(xué)領(lǐng)域,美國地球資源觀測科學(xué)中心(EROS)存放著時間序列最長的Landsat等民用遙感衛(wèi)星歸檔資料,并通過美國地質(zhì)調(diào)查局(USGS)的門戶對全球共享[3]。在生命科學(xué)領(lǐng)域,國際核酸序列共享聯(lián)盟(INSDC)包括國家生物技術(shù)信息中心(NCBI)、歐洲生物信息研究所(EBI)和日本DNA數(shù)據(jù)庫(DDBJ)3大數(shù)據(jù)庫系統(tǒng),形成領(lǐng)域內(nèi)數(shù)據(jù)存儲和共享使用的標(biāo)準(zhǔn),接收并存儲來自全世界科學(xué)家提交的組學(xué)數(shù)據(jù)[4]。
從國際視野整體來看,全球科學(xué)數(shù)據(jù)中心的發(fā)展仍然是主流態(tài)勢。世界數(shù)據(jù)系統(tǒng)(WDS)①[https://www.worlddatasystem.org/]是國際上最大的科學(xué)數(shù)據(jù)組織。截至2020年12月,WDS共建立128個數(shù)據(jù)中心成員,其中有86個具有實體數(shù)據(jù)庫平臺的正式成員。其推出CoreTrustSeal(CTS)數(shù)據(jù)中心認(rèn)證體系,提出TRUST原則(透明、責(zé)任、面向用戶、可持續(xù)和技術(shù)),推動了全球科學(xué)數(shù)據(jù)共享和服務(wù)。Confederation of Open Access Repositories (COAR)②[https://www.coar-repositories.org/]是一個年輕的、迅速成長的開放存取知識庫聯(lián)盟,成立于2009年,是目前最為活躍的開放獲取國際組織之一。目前,它擁有來自世界各地的140多名成員和合作伙伴,代表圖書館、大學(xué)、研究機(jī)構(gòu)、政府資助者和其他利益相關(guān)方。
我國自上世紀(jì)80年代起,通過不同渠道建設(shè)了涉及諸多學(xué)科與行業(yè)領(lǐng)域的科學(xué)數(shù)據(jù)庫。2018年3月,國務(wù)院辦公廳印發(fā)《科學(xué)數(shù)據(jù)管理辦法》[5]。同期,科技部、財政部印發(fā)《國家科技資源共享服務(wù)平臺管理辦法》,規(guī)范管理國家科技資源共享服務(wù)平臺,推進(jìn)科技資源向社會開放共享。2019年6月,科技部、財政部落實《科學(xué)數(shù)據(jù)管理辦法》和《國家科技資源共享服務(wù)平臺管理辦法》的要求,按照《國家科技創(chuàng)新基地優(yōu)化整合方案》對原有國家平臺開展了優(yōu)化調(diào)整工作,共形成“國家高能物理科學(xué)數(shù)據(jù)中心”等20個國家科學(xué)數(shù)據(jù)中心,逐步在建設(shè)和積累我國的科學(xué)數(shù)據(jù)庫資源體系和服務(wù)體系[6]。中國在不同學(xué)科領(lǐng)域的科學(xué)數(shù)據(jù)中心也在蓬勃發(fā)展,例如,有世界可再生資源與環(huán)境數(shù)據(jù)中心(WDC-RRE)、全球變化科學(xué)數(shù)據(jù)出版系統(tǒng)和國家空間科學(xué)數(shù)據(jù)中心(NSSDC)等9家面向不同領(lǐng)域的數(shù)據(jù)中心進(jìn)入WDS;有中國地震科學(xué)探測臺陣數(shù)據(jù)中心、國家氣象信息中心(CMDC)和中國天文數(shù)據(jù)中心(CAsDC)等多領(lǐng)域數(shù)據(jù)中心進(jìn)入re3data.org系統(tǒng)。
圍繞《中華人民共和國國民經(jīng)濟(jì)和社會發(fā)展第十四個五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》(“十四五”規(guī)劃)的發(fā)展要求,國內(nèi)數(shù)據(jù)中心的蓬勃發(fā)展發(fā)揮了很大的支撐和促進(jìn)作用。但是這些數(shù)據(jù)中心與“十四五”規(guī)劃中提到的優(yōu)勢領(lǐng)域?qū)?yīng)性還不強(qiáng),當(dāng)前的科學(xué)數(shù)據(jù)中心還不能完全覆蓋所有的學(xué)科領(lǐng)域,還需要針對性地加強(qiáng)支撐前沿領(lǐng)域發(fā)展的數(shù)據(jù)庫。為此,本文面向國家中長期發(fā)展規(guī)劃中的前沿領(lǐng)域數(shù)據(jù)需求,開展數(shù)據(jù)庫調(diào)研分析和國際影響力較強(qiáng)的典型領(lǐng)域案例剖析,以助力于我國科學(xué)數(shù)據(jù)共享的發(fā)展。
“十四五”規(guī)劃提到要實施戰(zhàn)略性科學(xué)計劃和科學(xué)工程,要瞄準(zhǔn)9大前沿領(lǐng)域,包括人工智能、量子信息、集成電路、生命健康、腦科學(xué)、生物育種、深地、深海以及可持續(xù)發(fā)展[7]。在此背景下,本次重點專題數(shù)據(jù)庫調(diào)研從9大前沿領(lǐng)域中,分別遴選國內(nèi)外有影響的數(shù)據(jù)中心,并從數(shù)據(jù)庫概述、數(shù)據(jù)資源情況、數(shù)據(jù)庫/平臺整合能力、應(yīng)用服務(wù)以及典型案例等多個方面進(jìn)行調(diào)研與分析。
人工智能是計算機(jī)科學(xué)的一個分支,屬于自然科學(xué)和社會科學(xué)的交叉。在實際應(yīng)用中,人工智能可用于多個領(lǐng)域,例如在自動識別領(lǐng)域可服務(wù)于機(jī)器視覺、指紋識別、人臉識別、視網(wǎng)膜識別、虹膜識別和掌紋識別等。在國內(nèi)外人工智能領(lǐng)域中,建有較為成熟的數(shù)據(jù)庫/數(shù)據(jù)中心。例如,英國牛津大學(xué)機(jī)器人研究所的牛津機(jī)器人車數(shù)據(jù)集(Oxford RobotCar Dataset)③[https://robotcar-dataset.robots.ox.ac.uk/]和生物識別與安全技術(shù)研究中心(CBSR)④[http://www.cbsr.ia.ac.cn/]。前者是由汽車攝像頭拍攝的照片組成的數(shù)據(jù)集,主要呈現(xiàn)行駛路線在一年內(nèi)的變化,包含不同天氣、交通和行人的組合,以及建筑和道路工程的變化。CBSR是國內(nèi)專業(yè)從事生物特征識別的研究機(jī)構(gòu)。兩者相比較,牛津機(jī)器人車數(shù)據(jù)平臺建設(shè)較為完善,提供了數(shù)據(jù)、手冊、示例等,但數(shù)據(jù)集的應(yīng)用范圍較小,局限于英國街道。CBSR主要產(chǎn)出生物識別領(lǐng)域數(shù)據(jù)集,涉及數(shù)據(jù)集較多。此外,在應(yīng)用方面,CBSR的CASIA-FaceV5數(shù)據(jù)集為亞洲人臉數(shù)據(jù)集,常被用于人臉識別應(yīng)用。
量子信息領(lǐng)域是量子力學(xué)與信息學(xué)交叉形成的一門邊緣學(xué)科。它的發(fā)展在各個方面影響著人類日常生活。比如,人類使用的互聯(lián)網(wǎng)、計算機(jī)、手機(jī)導(dǎo)航和醫(yī)院里的磁共振成像等,這些無一不依賴于量子科學(xué)的發(fā)展。在量子信息領(lǐng)域數(shù)據(jù)庫的建設(shè)發(fā)展中,美國物理研究所的美國物理學(xué)會(APS)⑤[https://www.aps.org/]和依托于中國科學(xué)技術(shù)大學(xué)的合肥微尺度物質(zhì)科學(xué)國家研究中心⑥[http://www.hfnl.ustc.edu.cn/]是國內(nèi)外建設(shè)體系成熟、發(fā)展迅速的數(shù)據(jù)庫/數(shù)據(jù)中心之一。APS是一個非營利性會員組織,它致力于通過學(xué)術(shù)期刊、科學(xué)會議以及教育、宣傳和國際活動來促進(jìn)和傳播物理知識,是世界上最具聲望的物理學(xué)專業(yè)學(xué)會之一。APS的成立時間遠(yuǎn)早于同類型的數(shù)據(jù)中心且人員組成豐富,資源龐大,共有5萬多名成員,包括美國和世界各地的學(xué)術(shù)界、國家實驗室和行業(yè)的物理學(xué)家。合肥微尺度物質(zhì)科學(xué)國家研究中心是科技部在2017年批準(zhǔn)組建的6個國家研究中心之一,它的研究方面涉及廣泛,我國在量子科技領(lǐng)域取得的眾多成果均有該中心的參與。在應(yīng)用方面,合肥微尺度物質(zhì)科學(xué)國家研究中心利用“墨子號”量子科學(xué)實驗衛(wèi)星,在國際上首次實現(xiàn)千公里級基于糾纏的量子密鑰分發(fā)。
集成電路是微電子技術(shù)發(fā)展的基礎(chǔ),主要將常用電子元件,包括電阻、電容和晶體管等,通過半導(dǎo)體工藝集成在一起,形成具有特定功能的電路,在各行各業(yè)中發(fā)揮著非常重要的作用,是現(xiàn)代信息社會的重要基石。集成電路領(lǐng)域的數(shù)據(jù)庫主要作用是關(guān)注半導(dǎo)體的發(fā)展情況,及時了解動態(tài)數(shù)據(jù),來量化相關(guān)業(yè)務(wù)戰(zhàn)略的有效性。國際典型數(shù)據(jù)庫有總部位于美國加利福尼亞州圣何塞的世界半導(dǎo)體貿(mào)易統(tǒng)計數(shù)據(jù)庫(WSTS)⑦[https://www.wsts.org/]。它不僅關(guān)注當(dāng)前的市場狀況,還可以預(yù)測未來半導(dǎo)體市場的發(fā)展,是提供全行業(yè)市場統(tǒng)計數(shù)據(jù)的重要來源。此外,這些市場信息還能幫助研究團(tuán)隊加強(qiáng)分析,并為調(diào)整關(guān)鍵基準(zhǔn)提供重要的參考點。國內(nèi)在該領(lǐng)域的典型數(shù)據(jù)庫起步較晚,不過有一些潛力較大的數(shù)據(jù)庫,如中國集成電路材料產(chǎn)業(yè)技術(shù)創(chuàng)新聯(lián)盟參與建設(shè)的聯(lián)合分析監(jiān)測與技術(shù)合作服務(wù)平臺⑧[http://www.icmtia.com/]。該平臺著力于收集、發(fā)布聯(lián)盟成員所屬儀器和設(shè)備等資源,并向社會開放共享,以求推動國內(nèi)半導(dǎo)體行業(yè)技術(shù)創(chuàng)新發(fā)展。與WSTS相比,該服務(wù)平臺起步晚,主要通過持續(xù)發(fā)布更新儀器、設(shè)備信息,吸引更多企業(yè)、研究所和高校等能參與其中。
生命健康領(lǐng)域主要是指與人類健康緊密相關(guān)的生產(chǎn)和服務(wù)領(lǐng)域。在國內(nèi)外數(shù)據(jù)庫的發(fā)展進(jìn)程中,該領(lǐng)域的數(shù)據(jù)庫具有很重要的地位并且擁有成熟的管理體系。例如,在國際上該領(lǐng)域的典型數(shù)據(jù)庫有國家生物技術(shù)信息中心(NCBI)⑨[https://www.ncbi.nlm.nih.gov/],國內(nèi)則是有由深圳華大生命科學(xué)研究院(原深圳華大基因研究院)承建的(深圳)國家基因庫(CNGB)⑩[https://www.cngb.org/]。NCBI建立于1988年,是公共生物醫(yī)學(xué)數(shù)據(jù)庫、分子及基因組數(shù)據(jù)的軟件工具及計算機(jī)生物學(xué)研究的領(lǐng)先機(jī)構(gòu)。它的使命是開發(fā)新的信息技術(shù),以幫助理解控制健康和疾病的基本分子和遺傳過程,其網(wǎng)站訪問量每天大約在300萬。CNGB建設(shè)于2011年,是世界領(lǐng)先的國家級綜合性基因庫,目前已初步建成了“三庫兩平臺”的業(yè)務(wù)架構(gòu),擁有10TB+的元信息。從成立時間看,NCBI的建立早于CNGB,并且用戶訪問量也高于國內(nèi)數(shù)據(jù)庫。但CNGB擁有一些獨有的優(yōu)勢,首先,CNGB不僅包括生物信息數(shù)據(jù)庫,還包括生物樣本資源庫、動植物資源活體庫、數(shù)字化平臺和合成與編輯平臺;第二,CNGB不僅僅進(jìn)行樣本和數(shù)據(jù)的存儲,還實現(xiàn)了遺傳資源存、讀和寫的全貫穿;第三,像NCBI、EBI和DDBJ等大多數(shù)國際數(shù)據(jù)庫更多地面向科研,而CNGB在支撐科研的同時,也面向產(chǎn)業(yè)轉(zhuǎn)化和應(yīng)用。腦科學(xué)既是生物科學(xué)里較為神秘的領(lǐng)域,也是未來生命科學(xué)發(fā)展中很重要的一個領(lǐng)域。世界各國普遍重視腦科學(xué)研究,并有相應(yīng)政策扶持。比如,國際腦研究組織(IBRO)于1995年在日本京都舉辦的第4屆世界神經(jīng)科學(xué)大會上,提議把21世紀(jì)稱為“腦的世紀(jì)”;美國在101屆國會通過一個議案“命名1990年1月1日開始的十年為腦的十年”;歐共體成立了“歐洲腦的十年委員會”及腦研究聯(lián)盟;中國也提出了“腦功能及其細(xì)胞和分子基礎(chǔ)”的研究項目,并列入了國家的“攀登計劃”[8]。腦科學(xué)領(lǐng)域數(shù)據(jù)庫的建立與發(fā)展,在推動腦科學(xué)的研究中起到很重要的作用,也是各國在發(fā)展該領(lǐng)域研究中很重要的前沿基礎(chǔ)。例如,美國功能性磁共振成像組織2009年啟動的1 000個功能性連接體項目(1000FCP)?[http://fcon_1000.projects.nitrc.org/index.html],目前已發(fā)布1 200多個靜態(tài)功能磁共振數(shù)據(jù)集。它重視大規(guī)模數(shù)據(jù)集的共享,將腦科學(xué)研究數(shù)據(jù)標(biāo)準(zhǔn)的建立和數(shù)據(jù)平臺的建設(shè)作為促進(jìn)腦科學(xué)創(chuàng)新的關(guān)鍵。該數(shù)據(jù)在78個國家/地區(qū)的1 223個城市產(chǎn)生了超過9 000次下載和約32 000次頁面瀏覽記錄。該數(shù)據(jù)集在美國科學(xué)院院刊(PNAS)上的發(fā)表,證明了使用數(shù)據(jù)集進(jìn)行數(shù)據(jù)匯集和發(fā)現(xiàn)科學(xué)的可行性[9]。國內(nèi)典型數(shù)據(jù)庫有中國科學(xué)院腦科學(xué)與智能技術(shù)卓越創(chuàng)新中心(CEBSIT)下設(shè)的腦科學(xué)數(shù)據(jù)與計算中心?[http://www.ion.ac.cn/]。該中心負(fù)責(zé)開發(fā)腦科學(xué)研究相關(guān)的數(shù)據(jù)處理與計算分析技術(shù),協(xié)助攻克腦與類腦領(lǐng)域的科學(xué)、技術(shù)與工程問題,預(yù)期建成國際領(lǐng)先水平的多緯度、多層次腦科學(xué)數(shù)據(jù)庫。
生物育種是利用遺傳學(xué)、細(xì)胞生物學(xué)和現(xiàn)代生物工程技術(shù)等方法原理培育生物新品種的過程,因此數(shù)據(jù)庫/數(shù)據(jù)中心更專注于物種信息的收集與整理,以支撐前沿科學(xué)的研究與發(fā)現(xiàn)。例如,美國馬里蘭州貝茨維爾國家種質(zhì)資源實驗室運營的美國種質(zhì)資源信息網(wǎng)絡(luò)(GRIN)?[https://www.ars-grin.gov/]和中國科學(xué)院植物研究所創(chuàng)建并負(fù)責(zé)運營的植物科學(xué)數(shù)據(jù)中心?[https://www.plantplus.cn/]。GRIN最初建立于20世紀(jì)70年代,致力于保護(hù)植物遺傳多樣性,提高作物的品質(zhì)和產(chǎn)量。它專注的重點不僅包括植物種質(zhì)體系,同時建立了微生物種質(zhì)體系、動物種質(zhì)體系以及無脊椎動物種質(zhì)體系。植物科學(xué)數(shù)據(jù)中心為國家植物名錄的建造和相關(guān)科研工作提供了重要支撐。這兩個典型數(shù)據(jù)庫有一個共同的特點,即數(shù)據(jù)量龐大,且面向群體廣。例如,運用植物科學(xué)數(shù)據(jù)中心的彩色照片和物種信息等數(shù)據(jù),研發(fā)出可識別5000余種植物的花伴侶專業(yè)版拍照識花APP,助力了對公眾的科普教育,用戶人群達(dá)1200萬,總識別量1.6億次。
從地球認(rèn)知的角度,深地主要是探究地表以下的部分。例如,包括淺表的地下空間、地殼、地幔、地核和地心在內(nèi)的整個固體地球系統(tǒng)。深地領(lǐng)域數(shù)據(jù)庫的建立可以在防災(zāi)減災(zāi)、資源開發(fā)和科學(xué)發(fā)現(xiàn)等方面更好地服務(wù)國家和社會。在國際上,該領(lǐng)域典型數(shù)據(jù)庫有英國地質(zhì)調(diào)查局建設(shè)的全球地質(zhì)一張圖(One Geology)?[https://onegeology.org/]和美國國家科學(xué)基金會(NSF)資助的地質(zhì)年代(GeoChron)?[https://www.geochron.org]。這兩個數(shù)據(jù)庫均啟動和運行于2007年。One Geology致力于在網(wǎng)絡(luò)上以最佳比例尺在全球范圍內(nèi)獲取地質(zhì)和其他地球科學(xué)數(shù)據(jù);GeoChron旨在捕獲完整的數(shù)據(jù)和元數(shù)據(jù)以記錄地球年代。相對于國外兩家在深地領(lǐng)域具有成熟運營管理體系的數(shù)據(jù)庫相比,總部設(shè)在中國的國際深時數(shù)字地球科學(xué)計劃(DDE)?[https://www.ddeworld.org/]正處于起步階段。DDE計劃是一項創(chuàng)新的國際大科學(xué)計劃,它將為地球科學(xué)的發(fā)展提供新的機(jī)遇和方向[10]。上世紀(jì),我國錯失參與板塊理論提出和建立的機(jī)會,導(dǎo)致在國際地球科學(xué)學(xué)術(shù)舞臺上長期沒有話語權(quán)和影響力。今天,我國科學(xué)家主導(dǎo)發(fā)起的DDE的順利實施,將為我國科學(xué)家在新世紀(jì)數(shù)據(jù)驅(qū)動科學(xué)重大突破提供平臺,創(chuàng)造難得機(jī)遇,對實現(xiàn)我國原始創(chuàng)新發(fā)展、顯著提升我國地球科學(xué)水平和國際影響力以及實現(xiàn)地球科學(xué)強(qiáng)國具有重大的科學(xué)意義。
從字面上講,國際上對深海的定義是位于200米以下的區(qū)域就屬于深海區(qū)域。在該領(lǐng)域上,國際大洋發(fā)現(xiàn)計劃(IODP)數(shù)據(jù)庫?[https://web.iodp.tamu.edu/]是目前地球科學(xué)領(lǐng)域迄今為止歷時最長、成效最大的國際科學(xué)合作計劃之一。其中,LIMS數(shù)據(jù)庫是IODP核心的數(shù)據(jù)庫,其整體體系較為成熟,所含數(shù)據(jù)類型及共享方式也日趨完善和體系化。國內(nèi)該領(lǐng)域的典型數(shù)據(jù)庫有國家海洋局第一海洋研究所籌建的國家自然科學(xué)基金青島海洋科學(xué)資料共享服務(wù)中心?[http://www.nsfcodc.cn/]。該中心建立的目的是開展自然科學(xué)基金海洋科學(xué)資料共享服務(wù)工作,建立各類海洋科學(xué)基金項目資料的收集、整編和共享服務(wù)體系。雖然中心起步較晚,但是其數(shù)據(jù)庫的運營維護(hù)具有獨特的特點。
2015年9月,聯(lián)合國193個成員國在聯(lián)合國可持續(xù)發(fā)展峰會上正式通過17個可持續(xù)發(fā)展目標(biāo)(SDGs)[11]??沙掷m(xù)發(fā)展的內(nèi)容包括生態(tài)可持續(xù)發(fā)展、經(jīng)濟(jì)可持續(xù)發(fā)展和社會可持續(xù)發(fā)展3個方面。開放SDG數(shù)據(jù)樞紐?[https://www.sdg.org/]是聯(lián)合國通過地理空間數(shù)據(jù)幫助發(fā)展中國家實現(xiàn)和跟蹤其可持續(xù)發(fā)展目標(biāo)。它可以提供SDG指標(biāo)的地理空間數(shù)據(jù)Web服務(wù),適用于地圖和其他數(shù)據(jù)可視化和分析表達(dá),并以提供數(shù)據(jù)故事/數(shù)據(jù)案例的方式向用戶展示。在國內(nèi),中國科學(xué)院戰(zhàn)略性先導(dǎo)專項“地球大數(shù)據(jù)科學(xué)工程”建立的地球大數(shù)據(jù)科學(xué)工程數(shù)據(jù)共享服務(wù)系統(tǒng)(CASEarth)?[中文網(wǎng)站鏈接:http://www.casearth.cn/;英文網(wǎng)站鏈接:http://english.casearth.com/index.php]致力于構(gòu)建全球領(lǐng)先的地球大數(shù)據(jù)基礎(chǔ)設(shè)施、形成國際一流的地球大數(shù)據(jù)學(xué)科驅(qū)動平臺和構(gòu)建服務(wù)政府高層的決策支持平臺[12]。例如,CASEarth全景展示和動態(tài)推演“一帶一路”可持續(xù)發(fā)展過程與態(tài)勢,實現(xiàn)對全景美麗中國可持續(xù)發(fā)展的精準(zhǔn)評價與決策支持。該數(shù)據(jù)庫的特點是將地球作為一個對象,以數(shù)字地球的概念將數(shù)據(jù)組織在一個平臺上。
PANGAEA O2是地球科學(xué)領(lǐng)域的一個國際數(shù)據(jù)庫,由德國阿爾弗雷德韋格納研究所、赫爾姆霍茲極地和海洋研究中心和不萊梅大學(xué)海洋環(huán)境科學(xué)中心共建。它不僅是地球與環(huán)境科學(xué)數(shù)據(jù)的出版平臺,具有歐洲科技計劃項目數(shù)據(jù)匯交、數(shù)據(jù)出版等數(shù)據(jù)倉儲和服務(wù)功能,同時也是一個用于地球系統(tǒng)研究的開放式數(shù)據(jù)圖書館。其數(shù)據(jù)在空間和時間上都有地理參照,并可以儲存在關(guān)系數(shù)據(jù)庫和長期磁帶檔案中。
PANGAEA數(shù)據(jù)庫的發(fā)展歷程分為3個階段。早期,它起源于1993年一個古氣候數(shù)據(jù)管理的信息系統(tǒng)(科研項目),逐步發(fā)展為一個通用的工具;在2000年,它加入世界數(shù)據(jù)中心(WDS的前身WDC);在2005年后,與數(shù)字唯一標(biāo)識符(DOI)和出版界合作,使用DOI來識別、共享、發(fā)布和引用每個數(shù)據(jù)集。PANGAEA數(shù)據(jù)庫將數(shù)據(jù)作為科學(xué)論文的補(bǔ)充或作為可引用的數(shù)據(jù)集合與領(lǐng)域數(shù)據(jù)期刊緊耦合。它與Earth System Science Data (ESSD)、Geoscience Data Journal和Scientific Data等數(shù)據(jù)期刊相結(jié)合,并迅速在全球形成高影響力。PANGAEA數(shù)據(jù)庫是ESSD期刊的指定倉儲,它在2022年影響因子為11.815,是國際認(rèn)可的頂級期刊。通過與ESSD等數(shù)據(jù)期刊合作,不僅迅速帶動了其影響力,并且成功匯聚大量精品數(shù)據(jù)資源[13]。截至2022年11月,PANGAEA中有22972數(shù)據(jù)集和ESSD關(guān)聯(lián),并且它也承擔(dān)了歐盟支持的多種項目的數(shù)據(jù)匯交工作,收錄762個研究計劃,414678個數(shù)據(jù)集,超過220億條數(shù)據(jù)。
PANGAEA數(shù)據(jù)庫收錄的數(shù)據(jù)主要為地球科學(xué)數(shù)據(jù),一級分類以學(xué)科要素為主,包括農(nóng)業(yè)(AGRI- CULTURE)、大氣(ATMOSPHERE)、生物分類(BIO- LOGICAL CLASSIFICATION)、生物圈(BIO-SPHERE)、化學(xué)(CHEMISTRY)、冰凍圈(CRYOSPHERE)、生態(tài)(ECOLOGY)、漁業(yè)(FISHERIES)、地球物理學(xué)(GEOPHYSICS)、人文方面(HUMAN DIMENSIONS)、湖&河(LAKES&RIVERS)、陸地表層(LAND SURFACE)、巖石圈(LITHOSPHERE)、海洋(OCEANS)和古生物學(xué)(PALEONTOLOGY)15個大類。從數(shù)量上看,PANGAEA數(shù)據(jù)庫更偏向于收錄地球化學(xué)類數(shù)據(jù)和巖石圈數(shù)據(jù),均超過了13萬條;湖&河、人文方面、漁業(yè)、農(nóng)業(yè)類數(shù)據(jù)收較少,均沒有超過千余條(圖1)。
PANGAEA數(shù)據(jù)庫的數(shù)據(jù)提取和存檔工作流程分為4個部分:前臺系統(tǒng)、編輯系統(tǒng)、中間件系統(tǒng)和后臺系統(tǒng)(圖2)[14],符合開放檔案信息系統(tǒng)(OAIS)標(biāo)準(zhǔn)[15]。根據(jù)Diepenbroek等[14]專家的描述,PANGAEA數(shù)據(jù)庫的數(shù)據(jù)首先使用前臺系統(tǒng)(Jira)提交,并分配給相應(yīng)數(shù)據(jù)領(lǐng)域的專家編輯,通過編輯系統(tǒng)完成輸入數(shù)據(jù)的準(zhǔn)備工作。編輯系統(tǒng)檢查數(shù)據(jù)和元數(shù)據(jù)的有效性和完整性,并根據(jù)PANGAEA的導(dǎo)入格式重新格式化數(shù)據(jù)。編輯部的審查通過邀請作者和外部同行評價人員來完成。通過審核的數(shù)據(jù)被接受后,數(shù)據(jù)將被歸檔并提供DOI。該系統(tǒng)的元數(shù)據(jù)統(tǒng)一在DataCite內(nèi)注冊,提高數(shù)據(jù)的互操作性。除了人工提交和收錄數(shù)據(jù)外,該系統(tǒng)還支持外部經(jīng)過認(rèn)證的程序訪問。
非常值得一提的是,PANGAEA數(shù)據(jù)管理團(tuán)隊人員組成豐富,總計包括約50余人。運營團(tuán)隊由數(shù)據(jù)管理者、數(shù)據(jù)編輯和IT專家構(gòu)成。領(lǐng)導(dǎo)管理層由4人構(gòu)成且分工明確,職務(wù)分別為主任、人力團(tuán)隊負(fù)責(zé)人、技術(shù)團(tuán)隊負(fù)責(zé)人和主任助理。數(shù)據(jù)編輯5人,IT技術(shù)研發(fā)10人,項目和數(shù)據(jù)管理12人,數(shù)據(jù)咨詢和服務(wù)12人,對外合作5人以及學(xué)術(shù)兼職人員4人。其中IT技術(shù)、數(shù)據(jù)管理和數(shù)據(jù)服務(wù)人員是其團(tuán)隊主體。
面對國際科學(xué)數(shù)據(jù)治理態(tài)勢,我國迫切需要進(jìn)一步完善數(shù)據(jù)政策和生態(tài)體系。這包括科學(xué)數(shù)據(jù)全鏈條管理體系的健全和分類分組管理、科學(xué)數(shù)據(jù)的持續(xù)積累和增值開發(fā)利用、科學(xué)數(shù)據(jù)標(biāo)準(zhǔn)體系的完善及其國際化接軌、科學(xué)數(shù)據(jù)處理軟件和工具自主開發(fā)等。發(fā)達(dá)國家重視科學(xué)數(shù)據(jù)庫的建設(shè),并形成了相對成熟的建設(shè)體系,這為我國數(shù)據(jù)生態(tài)的構(gòu)建提供了一定的借鑒。美國在法律和制度保護(hù)下,依托國家航空航天局(NASA)、大氣和海洋局(NOAA)和USGS等成立若干涉及地球科學(xué)、環(huán)境科學(xué)、生命科學(xué)等領(lǐng)域的數(shù)據(jù)中心[16]。英國研究理事會(RCUK)、英國癌癥研究中心(CRUK)、歐盟委員會(EC)和維康信托(WT)等科研資助機(jī)構(gòu)對英國科學(xué)數(shù)據(jù)庫進(jìn)行注資,并依托相應(yīng)的國家部門構(gòu)建,如隸屬于司法部的英國國家檔案館[17]。澳大利亞通過高校系統(tǒng)促進(jìn)科學(xué)數(shù)據(jù)庫建設(shè),尤其是在《Australian Code for the Responsible Conduct of Research》頒布后,更加推動了高校數(shù)據(jù)政策制定[18]。
圖1 PANGAEA數(shù)據(jù)庫各領(lǐng)域數(shù)據(jù)收錄量(截止時間:2022-11-29)
圖2 PANGAEA收錄和歸檔工作流程的UML活動圖[14]
科學(xué)數(shù)據(jù)中心是有信譽(yù)的數(shù)據(jù)銀行,是數(shù)字化的科學(xué)研究基礎(chǔ)設(shè)施。有信譽(yù)的數(shù)據(jù)銀行,要求這個科學(xué)數(shù)據(jù)中心要有足夠的影響力,要有標(biāo)志性的精品科學(xué)數(shù)據(jù)庫。例如,國際上的一些數(shù)據(jù)中心都有自己有影響力的數(shù)據(jù)產(chǎn)品。USGS的遙感衛(wèi)星數(shù)據(jù)中心是地理學(xué)、地質(zhì)學(xué)和水文學(xué)領(lǐng)域的全球重要數(shù)據(jù)中心之一,擁有自1972年開始的全球30m Landsat衛(wèi)星系列的影像數(shù)據(jù)產(chǎn)品。哥倫比亞大學(xué)的國際地球系統(tǒng)科學(xué)信息網(wǎng)絡(luò)中心(CIESIN)作為美國的分布式國家數(shù)據(jù)中心(DAACs)之一,擁有權(quán)威的全球人口空間數(shù)據(jù)集、城市極端高溫數(shù)據(jù)集等。
科學(xué)數(shù)據(jù)中心要具有長期可持續(xù)發(fā)展能力,需要重點加強(qiáng)3個方面建設(shè)。一是數(shù)據(jù)匯聚和存儲能力,即要有足夠的數(shù)據(jù)資源存量,例如PANGAEA數(shù)據(jù)中心擁有40多萬個數(shù)據(jù)集,其數(shù)據(jù)量超過220億條。二是數(shù)據(jù)處理分析能力,即,要有增值分析加工的能力,例如世界遙感大氣數(shù)據(jù)中心(WDC-RSAT)研發(fā)和大氣相關(guān)的遙感衛(wèi)星數(shù)據(jù)產(chǎn)品,不但提供基礎(chǔ)遙感科學(xué)數(shù)據(jù)和大氣數(shù)據(jù),而且提供再加工參數(shù)數(shù)據(jù)信息。三是,現(xiàn)代化的基礎(chǔ)設(shè)施和用戶界面,要有足夠便捷的服務(wù)能力,例如英國國家檔案館數(shù)據(jù)中心的門戶網(wǎng)站設(shè)計十分簡潔、直接,完全按照用戶需求定位服務(wù)項目,擁有良好的用戶體驗。
在全球治理的框架下,需要兼顧同一問題在不同學(xué)科領(lǐng)域和區(qū)域的多樣化認(rèn)知,加強(qiáng)多個領(lǐng)域和區(qū)域科學(xué)數(shù)據(jù)中心間的協(xié)同。各科學(xué)數(shù)據(jù)中心之間應(yīng)避免重復(fù)建設(shè)和低水平的競爭,加強(qiáng)數(shù)據(jù)中心之間的優(yōu)勢互補(bǔ)。例如結(jié)合自身的學(xué)科或區(qū)域優(yōu)勢,推出本數(shù)據(jù)中心的關(guān)鍵參考型和資源型數(shù)據(jù)庫;圍繞重大國家或用戶需求,提供有特色的專題數(shù)據(jù)服務(wù);通過不間斷的合作交流,提升各科學(xué)數(shù)據(jù)中心之間的協(xié)作水平。
在前沿領(lǐng)域調(diào)研中,發(fā)現(xiàn)國外數(shù)據(jù)中心在影響力和訪問量等方面呈現(xiàn)3個等級。首先,美國物理學(xué)會、NCBI、IODP、One Geology和開放SDG數(shù)據(jù)樞紐可位于首級。例如,NCBI作為生命健康領(lǐng)域國際地位很強(qiáng)的數(shù)據(jù)庫,其每天的網(wǎng)站訪問量達(dá)到了300萬,下載量達(dá)到了27TB;深海領(lǐng)域的IODP是地球科學(xué)領(lǐng)域迄今為止歷時最長、成效最大的國際科學(xué)合作計劃。影響力相對一般的包括WSTS、GRIN和Geo-Chron數(shù)據(jù)庫。最后,由于牛津機(jī)器人車數(shù)據(jù)集和1000FCP在各領(lǐng)域的數(shù)據(jù)種類較為單一,影響力較為薄弱。結(jié)合這些認(rèn)識,我國可更多借鑒優(yōu)勢數(shù)據(jù)中心的經(jīng)驗,加大在該領(lǐng)域投入力度,提升我國自身能力。
結(jié)合國內(nèi)十四五前沿領(lǐng)域科學(xué)數(shù)據(jù)中心調(diào)研,發(fā)現(xiàn)不同領(lǐng)域數(shù)據(jù)中心的學(xué)科、區(qū)域差異性明顯,可以根據(jù)自身條件及時推動更多數(shù)據(jù)庫和數(shù)據(jù)中心建設(shè)。例如,就國際大科學(xué)計劃而言,DDE是由我國科學(xué)家主導(dǎo)發(fā)起的首批國際大科學(xué)計劃之一,通過構(gòu)建固體地球科學(xué)全領(lǐng)域知識體系與知識圖譜,整合過去數(shù)十億年地球時空大數(shù)據(jù),為地球演化重大科學(xué)問題提供全球服務(wù),因此具有很大的發(fā)展?jié)摿?。圍繞人類命運共同體和可持續(xù)發(fā)展,可以考慮加強(qiáng)地球大數(shù)據(jù)支持可持續(xù)發(fā)展的相關(guān)數(shù)據(jù)平臺建設(shè),提升我國對支持聯(lián)合國可持續(xù)發(fā)展目標(biāo)的貢獻(xiàn)度。在人工智能、量子信息以及集成電路領(lǐng)域,需要考慮扶持和培育更多有條件的數(shù)據(jù)中心建設(shè),提升這些數(shù)據(jù)的大數(shù)據(jù)支撐能力。
[1] 盧雨生. 論大數(shù)據(jù)背景下科學(xué)發(fā)展的第四范式[J]. 現(xiàn)代交際, 2020, 13: 244-245.
Lu Y S. The Fourth Paradigm of scientific development in the context of big data [J]. Modern Communication, 2020, 13: 244-245.
[2] 黃丹丹, 李冬初, 張陸彪, 等. 湖南祁陽紅壤實驗站與英國洛桑實驗站比較分析[J]. 世界農(nóng)業(yè), 2014(4): 146-151. DOI: 10. 13856/j. cn11-1097/s. 2014. 04. 029.
Huang D D, Li D C, Zhang L B, et al. Comparative analysis of Hunan Qiyang Red Soil Experimental Station and the British Lausanne Experimental Station [J]. World Agriculture, 2014 (4): 146-151. DOI: 10. 13856/j. cn 11-1097/ s. 2014. 04. 029.
[3] United States Geological Survey (USGS). (2021). https:// www. usgs. gov/centers/eros.
[4] Karsch-Mizrachi I, Takagi T, Cochrane G, et al. The international nucleotide sequence database collaboration[J]. Nucleic Acids Research, 2018, 46(D1): D48-D51.
[5] 科學(xué)數(shù)據(jù)管理辦法(國辦發(fā)〔2018〕17號)[EB/OL]. http:// www. gov. cn/zhengce/content/2018-04/02/content_5279272. htm.
Administrative Measures for Scientific Data (GBF [2018] No. 17) [EB/OL]. http://www. gov. cn/zhengce/content/2018- 04/02/content_ 5279272. htm.
[6] 科技部財政部關(guān)于發(fā)布國家科技資源共享服務(wù)平臺優(yōu)化調(diào)整名單的通知(國科發(fā)基〔2019〕194號)[EB/OL]. http://www.most.gov.cn/ xxgk/xinxifenlei/fdzdgknr/qtwj/qtwj2019/201906/t20190610_ 147031. html.
Notice of the Ministry of Science and Technology and the Ministry of Finance on Issuing the List of Optimization and Adjustment of the National Science and Technology Re-source Sharing Service Platform (GKFJ [2019]No. 194) [EB/ OL]. https://www.most.gov.cn/xxgk/ xinxifenlei/fdzdgknr/qt-wj/qtwj2019/201906/t20190610_147031. html.
[7] 中華人民共和國國民經(jīng)濟(jì)和社會發(fā)展第十四個五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要[EB/OL]. https://www.ndrc.gov.cn/xxgk/ zcfb/ghwb/202103/t20210323_1270124.html?code=&state=123.
Outline of the 14th Five-Year Plan (2021-2025) for National Economic and Social Development and Vision 2035 of the People's Republic of China[EB/OL]. https://www.ndrc.gov.cn/ xxgk/zcfb/ghwb/202103/t20210323_1270124.html?code=&state= 123.
[8] 傅俊英, 趙蘊華, 王道仁, 等. 基于論文和專利的中美腦科學(xué)領(lǐng)域?qū)Ρ妊芯縖J]. 現(xiàn)代生物醫(yī)學(xué)進(jìn)展, 2017, 17(1): 170-176.
Fu J Y, Zhao Y H, Wang D R, et al. Study on gaps between China and the U. S. based on paper and patent in the field of brain science[J]. Progress in Modern Biomedicine, 2017, 17 (1): 170- 176.
[9] Biswal B B, Mennes M, Zuo X N, et al. Toward discovery science of human brain function[J]. Proceedings of the National Academy of Sciences, 2010, 107(10): 4734-4739.
[10] Wang C S, Hazen R M, Cheng Q M, et al. The Deep-Time-Digital Earth program: data-driven discovery in geosciences [J]. National Science Review, 2021, 8(9): nwab027.
[11] UN. Transforming Our World: The 2030 Agenda for Sustainable Development. (2015-09-02) [2022-11-29]. https://sdgs.un. org/ 2030agenda.
[12] 郭華東, 梁棟, 陳方, 等. 地球大數(shù)據(jù)促進(jìn)聯(lián)合國可持續(xù)發(fā)展目標(biāo)實現(xiàn)[J]. 中國科學(xué)院院刊, 2021, 36(8): 874-884.
Guo H D, Liang D, Chen F, et al. Big earth data facilitates sustainable development goals[J]. Bulletin of Chinese Academy of Sciences, 2021, 36(8): 874-884.
[13] Schumacher S, Sieger R. An introduction to the Data Library PANGAEA [C]. 2012.
[14] Diepenbroek M, Schindler U, Huber R, et al. Terminology supported archiving and publication of environmental science data in PANGAEA [J]. Journal of biotechnology, 2017, 261: 177-186.
[15] Lee C A. Open archival information system (OAIS) reference model[J]. Encyclopedia of library and information Sciences, 2010, 3: 4020-4030.
[16] 王卷樂, 王明明, 石蕾, 等. 科學(xué)數(shù)據(jù)管理態(tài)勢及其對我國地球科學(xué)領(lǐng)域的啟示[J]. 地球科學(xué)進(jìn)展, 2019, 34(03): 306-315. DOI: 10. 11867/j. issn. 1001-8166. 2019. 03. 0306.
Wang J L, Wang M M, Shi L, et al. The situation of scientific data management and its enlightenment to earth sciences of China [J]. Advances in Earth Science, 2019, 34 (3 ) : 306-315. DOI: 10. 11867/j. issn. 1001-8166. 2019. 03. 0306.
[17] 王卷樂, 石蕾, 王淑強(qiáng), 等. 國際科學(xué)數(shù)據(jù)管理概述[M], 北京:科學(xué)技術(shù)文獻(xiàn)出版社, 2021.
Wang J L, Shi L, Wang S Q, et al. Overview of International Scientific Data Management [M], Beijing: Scientific and Technical Documentation Press, 2021.
[18] 完顏鄧鄧. 澳大利亞高??茖W(xué)數(shù)據(jù)管理與共享政策研究 [J]. 信息資源管理學(xué)報, 2016, 6(1): 30-37.
Wanyan D D. Research on the scientific data management and sharing policies in Australian universities [J]. Journal of Information Resources Management, 2016, 6(1):30-37.
Research and Analysis of Typical Databases in Major Frontier Fields at Domestic and International Level
DUAN Bowen1, WANG Juanle1,2*, SHI Lei3, GAO Mengxu3
1. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences Natural Re-sources Research, Chinese Academy of Sciences, Beijing 100101, China; 2. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China; 3. National Science and Technology Infrastructure, Beijing 100862, China
Science data is the basis of the innovation value chain "data-information-knowledge-wisdom", and is the most basic science and technology resource, which plays an important role in economic and social development and scientific innovation. “Outline of the 14th Five-Year Plan (2021—2025) for National Economic and Social Development and Vision 2035 of the People's Republic of China”deployed nine frontier areas for the implementation strategic science programs and science projects. A timely grasp of the current situation and demand for science data sharing in these frontier areas was significant for better strengthen the construction of China's Science Data Center and to play the role of data support for the frontier areas. This paper tracked the domestic and foreign progress in nine areas databases including artificial intelligence, quantum information, integrated circuits, life and health, brain science, biological breeding, deep earth, ocean science, and sustainable development, and investigated and analyzed from data resources, database/platform integration capabilities, application services and typical cases. The study took PANGAEA database as a representative case, which in German and in the deep sea and earth system science field, analyzed its characteristics in organizational structure, technical operation and maintenance, and operation and management process. Suggestions for scientific data governance were proposed for the requirements of frontier fields development.
data sharing; science data; database; PANGAEA; frontier areas; 14th Five-Year Plan
段博文,王卷樂,石蕾,等. 前沿領(lǐng)域國內(nèi)外典型數(shù)據(jù)庫調(diào)研與啟示[J]. 農(nóng)業(yè)大數(shù)據(jù)學(xué)報, 2023,5(1):46-54.
DUAN Bowen,WANG Juanle, SHI Lei, et al. Research and analysis of typical databases in major frontier fields at domestic and international level[J].Journal of Agricultural Big Data,2023,5(1): 46-54.
10.19788/j.issn.2096-6369.230113
2022-11-30
國家重點研發(fā)計劃項目(2022YFF0711600);國家科技基礎(chǔ)條件平臺委托任務(wù)(2020WT22)
第一作者代段博文,女,研究生,研究方向:環(huán)境科學(xué);E-mail:duanbw@lreis.ac.cn。通信作者王卷樂,男,研究生,研究方向:資源環(huán)境數(shù)據(jù)集成與共享;E-mail:wangjl@igsnrr.ac.cn。
農(nóng)業(yè)大數(shù)據(jù)學(xué)報2023年1期