文/胡良霖 黎建輝 沈志宏
科學(xué)大數(shù)據(jù)的建設(shè)與管理
文/胡良霖 黎建輝 沈志宏
科學(xué)數(shù)據(jù)是指通過(guò)實(shí)驗(yàn)、測(cè)量、觀測(cè)、調(diào)查和計(jì)算等方式采集,以科學(xué)證據(jù)形式存在的客觀事實(shí)(Facts),包括數(shù)字化觀測(cè)、科學(xué)監(jiān)測(cè)等來(lái)自?xún)x器設(shè)備或傳感器的數(shù)據(jù),計(jì)算模擬與模型輸出的數(shù)據(jù),對(duì)情景或現(xiàn)象的描述,對(duì)行為的觀測(cè)或定性描述,用于管理或者商業(yè)目的統(tǒng)計(jì)數(shù)據(jù)等等??茖W(xué)數(shù)據(jù)通常是科研過(guò)程的輸入,是證實(shí)或者證偽科學(xué)發(fā)現(xiàn)或科學(xué)觀點(diǎn)的事實(shí)、證據(jù)或者論證推理的基礎(chǔ)。廣義上講,人們目前接觸到的所有數(shù)據(jù)都可以被應(yīng)用到科學(xué)活動(dòng),可以納入科學(xué)數(shù)據(jù)的范疇,所以這里不做概念性定義和探討。
科學(xué)數(shù)據(jù)的采集方式主要有兩種:一是手工采集,科研人員通過(guò)觀察、測(cè)量、訪談、調(diào)查等方式,記錄在紙張上或者其計(jì)算機(jī)中的表格、文本、圖形等,該類(lèi)數(shù)據(jù)通常量較小,復(fù)雜度低,但價(jià)值密度高;二是機(jī)器采集,由大型科學(xué)儀器設(shè)備、大科學(xué)裝置、各種聯(lián)網(wǎng)的自動(dòng)監(jiān)測(cè)網(wǎng)絡(luò)以及大規(guī)模計(jì)算模擬等自動(dòng)產(chǎn)生,這類(lèi)數(shù)據(jù)量比較大,產(chǎn)生的速度快,復(fù)雜度高,但往往有程度不一的噪聲。
從大數(shù)據(jù)4V特征分析典型學(xué)科領(lǐng)域的科學(xué)數(shù)據(jù),如表1所示,科學(xué)數(shù)據(jù)是很典型的大數(shù)據(jù)??茖W(xué)大數(shù)據(jù)作為國(guó)家科技創(chuàng)新的戰(zhàn)略資源,已在國(guó)家《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》予以明確。
大數(shù)據(jù)時(shí)代已然到來(lái),科學(xué)活動(dòng)也在進(jìn)入基于大數(shù)據(jù)的大發(fā)現(xiàn)和大科學(xué)新時(shí)代。郭華東院士在《中國(guó)科學(xué)報(bào)》發(fā)表的題為《大數(shù)據(jù)+大科學(xué)=大發(fā)現(xiàn)》訪談文章中提出:“尤其是需要巨額投資建造、運(yùn)行和維護(hù)大型研究設(shè)施的大科學(xué)工程,以及需要跨學(xué)科合作的大規(guī)模、大尺度的前沿性科學(xué)研究項(xiàng)目,更是與大數(shù)據(jù)聯(lián)系密切。大數(shù)據(jù)+大科學(xué)=大發(fā)現(xiàn)。”2016年5月24日,BBC以特別報(bào)道的方式詳細(xì)介紹引領(lǐng)中國(guó)科學(xué)革命的五大工程:FAST天文望遠(yuǎn)鏡、豬角膜移植人體、大亞灣中微子實(shí)驗(yàn)、彩虹魚(yú)無(wú)人潛水器、載人航天和探月計(jì)劃,很顯然這些工程都離不開(kāi)數(shù)據(jù)的支撐,而且FAST天文望遠(yuǎn)鏡、大亞灣中微子實(shí)驗(yàn)、載人航天和探月計(jì)劃都是生產(chǎn)大數(shù)據(jù)的工程部署。
表1 典型科學(xué)大數(shù)據(jù)的4V特征
在科學(xué)數(shù)據(jù)建設(shè)與管理方面,過(guò)去的30年中國(guó)科學(xué)院一直不斷探索和努力,從1986年國(guó)家計(jì)委正式批復(fù)啟動(dòng)“科學(xué)數(shù)據(jù)庫(kù)及其應(yīng)用系統(tǒng)”工程以來(lái),在國(guó)家和中科院的持續(xù)支持下,現(xiàn)在已經(jīng)發(fā)展到了第五個(gè)階段。第一個(gè)階段是1986~2000年,研究所/課題組自主自治的科學(xué)數(shù)據(jù)資源積累和共享服務(wù);第二個(gè)階段是2001~2005年,中科院“十五”信息專(zhuān)項(xiàng)支持,實(shí)現(xiàn)了規(guī)范化和規(guī)模化資源積累;第三個(gè)階段是2006~2010年,中科院“十一五”信息化專(zhuān)項(xiàng)和國(guó)家科技基礎(chǔ)條件平臺(tái)等支持下,實(shí)現(xiàn)了領(lǐng)域數(shù)據(jù)整合與系統(tǒng)性開(kāi)放共享(科學(xué)數(shù)據(jù)網(wǎng)格);第四個(gè)階段是2010~2015年,中科院“十二五”信息專(zhuān)項(xiàng)支持,實(shí)現(xiàn)資源深度整合與應(yīng)用服務(wù),形成了科學(xué)數(shù)據(jù)云;第五個(gè)階段是從2016年開(kāi)始的目前,科學(xué)邁入大數(shù)據(jù)時(shí)代,科學(xué)數(shù)據(jù)的資產(chǎn)化管理和數(shù)據(jù)驅(qū)動(dòng)的科研創(chuàng)新成為該時(shí)期工作的重點(diǎn)。表2是過(guò)去30年中科院科學(xué)數(shù)據(jù)資源發(fā)展的統(tǒng)計(jì)。
圍繞著科學(xué)數(shù)據(jù),經(jīng)過(guò)30年的探索形成了比較完善的體系,主要包括以下工作:
1.科學(xué)數(shù)據(jù)集成整合與共享服務(wù)
2.基礎(chǔ)環(huán)境與云服務(wù)能力
3.數(shù)據(jù)管理云服務(wù)技術(shù)體系
4.科學(xué)數(shù)據(jù)管理與服務(wù)標(biāo)準(zhǔn)規(guī)范體系
5.科學(xué)數(shù)據(jù)服務(wù)體系
6.典型應(yīng)用
7.數(shù)據(jù)共享政策與數(shù)據(jù)服務(wù)評(píng)估管理體系
關(guān)于科學(xué)數(shù)據(jù)集成整合,以資源學(xué)科領(lǐng)域、植物資源保育學(xué)科領(lǐng)域?yàn)槔f(shuō)明集成整合的現(xiàn)狀。在資源學(xué)科領(lǐng)域基礎(chǔ)科學(xué)數(shù)據(jù)整合與集成方面,以資源學(xué)科體系為框架,通過(guò)聯(lián)合共建,推動(dòng)跨單位、跨地域的資源互補(bǔ)和數(shù)據(jù)整合,形成了比較完善的數(shù)據(jù)資源體系。在植物資源保育學(xué)科領(lǐng)域基礎(chǔ)科學(xué)數(shù)據(jù)整合與集成方面,實(shí)現(xiàn)了武漢、版納、華南三個(gè)植物園,基于統(tǒng)一的物種名稱(chēng)和數(shù)據(jù)訪問(wèn)中間件實(shí)現(xiàn)跨庫(kù)整合。在資源融合的基礎(chǔ)上,通過(guò)中科院數(shù)據(jù)云服務(wù)門(mén)戶(hù)(www.csdb.cn)向社會(huì)免費(fèi)共享服務(wù),服務(wù)效果良好,取得了很好的科研效果和社會(huì)效果。多源異構(gòu)科學(xué)數(shù)據(jù)云管理技術(shù)體系如圖1所示。
中國(guó)科學(xué)院科學(xué)數(shù)據(jù)庫(kù)的基礎(chǔ)環(huán)境與云服務(wù)能力、數(shù)據(jù)管理云服務(wù)技術(shù)體系、科學(xué)數(shù)據(jù)管理與服務(wù)標(biāo)準(zhǔn)規(guī)范體系、科學(xué)數(shù)據(jù)服務(wù)體系都已經(jīng)形成,并在應(yīng)用中取得了良好的效果,并且這些成果都向社會(huì)開(kāi)放,以科學(xué)數(shù)據(jù)管理和服務(wù)標(biāo)準(zhǔn)為例,據(jù)不完全統(tǒng)計(jì),標(biāo)準(zhǔn)規(guī)范文檔已經(jīng)被下載兩萬(wàn)次之上。
科學(xué)數(shù)據(jù)資源建設(shè)和服務(wù)的目的是促進(jìn)數(shù)據(jù)的深度及廣泛應(yīng)用,“十二五”期間,數(shù)據(jù)應(yīng)用也取得了豐碩的成果,以下從三個(gè)示例簡(jiǎn)單說(shuō)明一下。
一是中微子實(shí)驗(yàn)數(shù)據(jù)庫(kù)支持中微子震蕩研究。大亞灣中微子實(shí)驗(yàn)是中國(guó)基礎(chǔ)科學(xué)領(lǐng)域目前最大的國(guó)際合作項(xiàng)目,基于實(shí)驗(yàn)數(shù)據(jù)建設(shè)的中微子實(shí)驗(yàn)數(shù)據(jù)庫(kù),成功支持了中微子振蕩模式的發(fā)現(xiàn)和精準(zhǔn)測(cè)量,助力我國(guó)科學(xué)家首獲“基礎(chǔ)物理學(xué)突破獎(jiǎng)”。
二是動(dòng)物主題數(shù)據(jù)庫(kù)支撐中國(guó)生物多樣性紅色名錄。2015年,由環(huán)境保護(hù)部聯(lián)合中國(guó)科學(xué)院,全國(guó)500多位相關(guān)領(lǐng)域?qū)<覅⑴c,目的是全面掌握中國(guó)物種受威脅狀況。動(dòng)物數(shù)據(jù)庫(kù)承擔(dān)并完成《中國(guó)生物多樣性紅色名錄-脊椎動(dòng)物(兩棲類(lèi))卷》和《中國(guó)生物多樣性紅色名錄-脊椎動(dòng)物 (爬行類(lèi))卷》的評(píng)估報(bào)告。
三是學(xué)術(shù)論文引用,經(jīng)權(quán)威機(jī)構(gòu)統(tǒng)計(jì),在CNKI收錄的期刊中,已經(jīng)查得有1773篇學(xué)術(shù)論文明確標(biāo)注了使用中科院科學(xué)數(shù)據(jù)云開(kāi)放共享的科學(xué)數(shù)據(jù)資源。
表2 中科院科學(xué)數(shù)據(jù)30年發(fā)展統(tǒng)計(jì)
圖1 多源異構(gòu)科學(xué)數(shù)據(jù)云管理技術(shù)體系
科學(xué)大數(shù)據(jù)在進(jìn)入大數(shù)據(jù)時(shí)代以后,無(wú)論是天文、空間、高能還是微生物研究,都面臨著海量數(shù)據(jù)快速、高效處理的挑戰(zhàn)。2016年,中科院計(jì)算機(jī)網(wǎng)絡(luò)信息中心承擔(dān)了國(guó)家重點(diǎn)研發(fā)計(jì)劃“云計(jì)算和大數(shù)據(jù)”重點(diǎn)專(zhuān)項(xiàng)科學(xué)大數(shù)據(jù)管理系統(tǒng),聯(lián)合了中科院有關(guān)研究所以及清華、北大、人大、西安交大、上海大學(xué)、山東大學(xué)等高校的共同參與。
經(jīng)過(guò)近一年的聯(lián)合攻關(guān),該項(xiàng)目已經(jīng)取得了重點(diǎn)突破和顯著進(jìn)展,在完善的技術(shù)架構(gòu)體系下,實(shí)現(xiàn)了多源數(shù)據(jù)采集、大數(shù)據(jù)組件彈性部署、高性能數(shù)據(jù)管理、多元大數(shù)據(jù)管理系統(tǒng)集成管理、可配置大數(shù)據(jù)流水線管理等多項(xiàng)技術(shù)突破和深度應(yīng)用,且在項(xiàng)目外的部分單位得到了應(yīng)用驗(yàn)證。
雖然已經(jīng)置身于科學(xué)大數(shù)據(jù)時(shí)代,我們還應(yīng)客觀、清醒地認(rèn)識(shí)到科學(xué)數(shù)據(jù)積累與應(yīng)用的重要性,毋庸置疑大數(shù)據(jù)管理與分析水平已經(jīng)成為全球分秒必爭(zhēng)的科技競(jìng)爭(zhēng)能否勝出的關(guān)鍵,正因如此,全社會(huì)應(yīng)該更加重視科學(xué)數(shù)據(jù)的持續(xù)積累這一長(zhǎng)期性基礎(chǔ)工作。在數(shù)據(jù)開(kāi)放共享的政策法規(guī)尚需完善的情況下,全社會(huì)應(yīng)利用新技術(shù)和新思路去探索數(shù)據(jù)開(kāi)放共享的可行模式,這方面比較成功的探索有,以Nature的Scientific data、《中國(guó)科學(xué)數(shù)據(jù)》為代表的數(shù)據(jù)出版等,都值得關(guān)注與跟進(jìn)??茖W(xué)數(shù)據(jù)為科學(xué)發(fā)現(xiàn)服務(wù)的同時(shí),應(yīng)進(jìn)一步釋放數(shù)據(jù)紅利,探索服務(wù)于“雙創(chuàng)” 的機(jī)制、運(yùn)行模式等,這也符合國(guó)家《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》對(duì)大數(shù)據(jù)發(fā)展的定位和要求。
(責(zé)編:楊潔)
(作者單位為中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心)