馬俊才 趙方慶 蘇曉泉 徐 健 吳林寰
1 中國(guó)科學(xué)院微生物研究所 北京 100101
2 中國(guó)科學(xué)院北京生命科學(xué)研究院 北京 100101
3 中國(guó)科學(xué)院青島生物能源與過(guò)程研究所 青島 266101
關(guān)于中國(guó)微生物組數(shù)據(jù)中心建設(shè)的思考*
馬俊才1趙方慶2蘇曉泉3徐 健3吳林寰1
1 中國(guó)科學(xué)院微生物研究所 北京 100101
2 中國(guó)科學(xué)院北京生命科學(xué)研究院 北京 100101
3 中國(guó)科學(xué)院青島生物能源與過(guò)程研究所 青島 266101
近年來(lái),美國(guó)、歐盟都陸續(xù)啟動(dòng)了微生物組相關(guān)的研究項(xiàng)目。但微生物組大數(shù)據(jù)的收集、存儲(chǔ)、功能挖掘和開(kāi)發(fā)利用一直是制約微生物組發(fā)展的核心問(wèn)題。文章分析了我國(guó)目前在微生物組數(shù)據(jù)管理中存在著標(biāo)準(zhǔn)不統(tǒng)一、缺乏跨領(lǐng)域的數(shù)據(jù)整合、高質(zhì)量的參考數(shù)據(jù)庫(kù)和數(shù)據(jù)的深度挖掘技術(shù)等問(wèn)題,提出適時(shí)啟動(dòng)“中國(guó)微生物組”計(jì)劃,建立中國(guó)微生物組數(shù)據(jù)中心,在微生物組數(shù)據(jù)標(biāo)準(zhǔn)化的基礎(chǔ)上,建立微生物組大數(shù)據(jù)計(jì)算、存儲(chǔ)和共享平臺(tái),開(kāi)發(fā)微生物組大數(shù)據(jù)挖掘的新方法,實(shí)現(xiàn)我國(guó)微生物組數(shù)據(jù)資源的系統(tǒng)管理和高效利用。
微生物組,標(biāo)準(zhǔn)化,大數(shù)據(jù),中國(guó)微生物組數(shù)據(jù)中心
DOI10.16418/j.issn.1000-3045.2017.03.010
微生物組(Microbiome)是指一個(gè)特定環(huán)境中的總的微生物群落,通過(guò)在一定環(huán)境空間的相互作用和平衡,形成了相對(duì)穩(wěn)定的生態(tài)環(huán)境并具有一定的生理功能。長(zhǎng)期以來(lái),微生物群落被認(rèn)為在營(yíng)養(yǎng)代謝、污染物降解、維持動(dòng)植物和人體生態(tài)系統(tǒng)平衡中發(fā)揮著關(guān)鍵作用,然而,對(duì)其中的作用機(jī)制并不清楚。高通量測(cè)序技術(shù)的廣泛應(yīng)用,為在群落水平上研究微生物的功能和作用機(jī)制開(kāi)辟了新的思路,使得我們能夠從全基因組角度研究自然和人體環(huán)境樣品中微生物的組成和功能,為我們尋找新基因、開(kāi)發(fā)新的生物活性物質(zhì)、研究環(huán)境中微生物多樣性和進(jìn)化提供了重要手段,也使得這一領(lǐng)域迅速成為研究熱點(diǎn)。海量測(cè)序數(shù)據(jù)的產(chǎn)生,使得微生物組學(xué)成了一門(mén)真正的大數(shù)據(jù)科學(xué)。以人體微生物組為例,它包含了數(shù)萬(wàn)億個(gè)細(xì)胞,占人體總細(xì)胞的 90% 以上,涵蓋上千個(gè)物種,至少 2 000 萬(wàn)個(gè)獨(dú)特的微生物基因,其數(shù)目遠(yuǎn)遠(yuǎn)超過(guò)人的基因數(shù)目(大約 2 萬(wàn)至 2.5 萬(wàn)個(gè)基因[1])。人類(lèi)微生物組項(xiàng)目(Human Microbiome Project, HMP)自 2008 年啟動(dòng)至 2012 年第一階段結(jié)束期間,共完成 5 177 個(gè) 16S rDNA 樣本,681 個(gè)全基因組序列(Whole Genome Sequences,WGS)樣本和 3 000 余個(gè)高質(zhì)量的參考基因組測(cè)序[2]。然而,當(dāng)測(cè)序成本已經(jīng)不再成為微生物組學(xué)發(fā)展的主要限制因素時(shí),數(shù)據(jù)分析就成了微生物組研究面對(duì)的最大挑戰(zhàn)。
本文圍繞微生物組數(shù)據(jù)管理與分析這一關(guān)鍵問(wèn)題,分析了目前的現(xiàn)狀和需求,總結(jié)了國(guó)內(nèi)外發(fā)展趨勢(shì)和問(wèn)題,提出了我國(guó)微生物組數(shù)據(jù)中心建設(shè)的思考和建議。
(1)在目前元基因組研究的各個(gè)過(guò)程,從樣本的采集、提取、測(cè)量方法(如高通量測(cè)序技術(shù)、質(zhì)譜、核磁等),到數(shù)據(jù)的分析和整合的各個(gè)環(huán)節(jié),都缺乏標(biāo)準(zhǔn)化的協(xié)議。而元基因組數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一以及整合技術(shù)的缺失,使得不同研究課題、不同采樣來(lái)源、不同數(shù)據(jù)平臺(tái)的樣本數(shù)據(jù)只能簡(jiǎn)單地按照采樣信息對(duì)其進(jìn)行匯總,而無(wú)法根據(jù)結(jié)構(gòu)特征和功能進(jìn)行集成和統(tǒng)一挖掘分析,因此也無(wú)法從大范圍的數(shù)據(jù)中獲得其蘊(yùn)含的生物意義。
(2)微生物組數(shù)據(jù)及其分析的特點(diǎn),對(duì)復(fù)雜數(shù)據(jù)的整合提出了很高的要求。微生物組研究產(chǎn)生了大量的復(fù)雜數(shù)據(jù),既有對(duì)環(huán)境、樣本進(jìn)行描述的元數(shù)據(jù),也有原始的測(cè)序文件,還包括格式各異的序列注釋和功能研究產(chǎn)生的數(shù)據(jù),由此而形成的對(duì)大規(guī)模復(fù)雜數(shù)據(jù)的組織、存儲(chǔ)、訪(fǎng)問(wèn)、共享以及與關(guān)聯(lián)數(shù)據(jù)進(jìn)行整合能力的要求,也是一個(gè)巨大的挑戰(zhàn)。此外,不同的生態(tài)系統(tǒng)(如腸道、土壤、海洋等)、不同結(jié)構(gòu)和功能特征的數(shù)據(jù)整合和對(duì)比分析也有著非常重要的價(jià)值,能夠?qū)缟鷳B(tài)系統(tǒng)的分析、物種分布與環(huán)境因素的相互作用機(jī)制提供數(shù)據(jù)支持。
(3)微生物組數(shù)據(jù)分析缺乏高質(zhì)量的參考序列。因?yàn)樵蚪M研究中物種識(shí)別和基因注釋都依賴(lài)于已知參考基因組及相關(guān)注釋信息, 即便是已經(jīng)有大量系統(tǒng)研究的人體微生物組,也仍然有將近一半預(yù)測(cè)的開(kāi)放閱讀框架(Open Reading Frame, ORF)無(wú)法找到相應(yīng)的相似性序列來(lái)進(jìn)行功能研究[3]。相對(duì)于研究基礎(chǔ)較多的人體微生物組,新環(huán)境下元基因組的研究更缺乏有效的實(shí)驗(yàn)和計(jì)算手段。目前,國(guó)際上也陸續(xù)建立起了如土壤微生物[4],發(fā)酵食品[5]等環(huán)境相關(guān)的高質(zhì)量參考數(shù)據(jù)庫(kù),為功能注釋提供了重要的參考,也對(duì)數(shù)據(jù)整合起到了極大的幫助。
此外,元基因組快速對(duì)比與海量數(shù)據(jù)搜索技術(shù)的缺失,爆發(fā)式增長(zhǎng)的元基因組數(shù)據(jù)的存儲(chǔ)和分析對(duì)成本和計(jì)算能力的需求等問(wèn)題,都迫切需要通過(guò)新型硬件(如GPU等)、云計(jì)算、關(guān)聯(lián)數(shù)據(jù)整合方法、高效搜索算法等相結(jié)合,提出創(chuàng)新解決方案。
2016 年 5 月13日,美國(guó)政府頒布了投資 5.21 億美元的“美國(guó)國(guó)家微生物組計(jì)劃”,試圖通過(guò)對(duì)各種不同環(huán)境中微生物生態(tài)系統(tǒng)的綜合研究,深入揭示微生物組的組成、結(jié)構(gòu)及功能,促進(jìn)對(duì)健康微生物組功能的保護(hù)和恢復(fù)。截至 2016 年,國(guó)際上已陸續(xù)啟動(dòng)了由美國(guó)國(guó)立衛(wèi)生研究院(National Institutes of Health,NIH)支持的 HMP、由歐盟支持的人腸道微生物組(MetaHIT)等 13 項(xiàng)與人類(lèi)健康相關(guān)的微生物組項(xiàng)目及包括“地球微生物組計(jì)劃”(Earth Microbiome Project, EMP)、海洋微生物 B3 計(jì)劃(Micro B3 Biodiversity, Bioinformatics, and Biotechnology)等在內(nèi)的 9 個(gè)環(huán)境微生物組研究計(jì)劃[6]。這些項(xiàng)目大多建立了完善的數(shù)據(jù)集成機(jī)制和數(shù)據(jù)管理平臺(tái),通過(guò)對(duì)人體和環(huán)境樣本進(jìn)行測(cè)序分析,全方位理解微生物群落的多樣性及功能。
HMP 是由美國(guó)國(guó)立衛(wèi)生研究院支持的項(xiàng)目,一期從 2008 年至 2012 年,2014 年起開(kāi)始了第二期的研究工作。該項(xiàng)目的主要目標(biāo)是探索人體微生物組與人類(lèi)健康和疾病的關(guān)系,主要集中在呼吸道、口腔、皮膚、腸道、陰道 5 個(gè)方面。該項(xiàng)目分別在貝勒醫(yī)學(xué)院(Baylor College of Medicine,BCM)和華盛頓醫(yī)學(xué)院(Washington University School of Medicine)兩個(gè)臨床中心從 242 個(gè)人的身上獲取上千個(gè)樣本,在BCM 人類(lèi)基因組測(cè)序中心、麻省理工學(xué)院 Broad 研究所測(cè)序中心、文特研究所和華盛頓大學(xué)醫(yī)學(xué)院 4 個(gè)測(cè)序中心進(jìn)行了16S 和 WGS 測(cè)序[7]。由于樣本采集和測(cè)序都是由不同的機(jī)構(gòu)分別進(jìn)行的,項(xiàng)目開(kāi)發(fā)了針對(duì)測(cè)序和數(shù)據(jù)分析的標(biāo)準(zhǔn)協(xié)議和質(zhì)量控制過(guò)程。HMP 項(xiàng)目也建立了數(shù)據(jù)分析和管理中心(Data Analysis and Coordination Center, DACC)來(lái)存儲(chǔ)所有項(xiàng)目產(chǎn)生的 16S、WGS 和參考基因組序列。同時(shí),DACC 也發(fā)布新聞、通知公告、項(xiàng)目的統(tǒng)計(jì)數(shù)據(jù),并與測(cè)序中心合作,共同進(jìn)行數(shù)據(jù)的分析和注釋工作。項(xiàng)目產(chǎn)生的所有數(shù)據(jù),也同時(shí)提交到美國(guó)國(guó)立生物信息中心進(jìn)行公開(kāi)。
2010 年 8月,地球微生物組計(jì)劃(EMP)正式啟動(dòng),計(jì)劃旨在通過(guò)對(duì)全球典型的環(huán)境樣本進(jìn)行宏基因組測(cè)序,包括土壤、海洋、空氣、淡水等生態(tài)系統(tǒng),從而全方位地分析微生物群落的多樣性及其功能。項(xiàng)目在設(shè)立之初,就將建立一個(gè)用以解決地球生態(tài)系統(tǒng)基礎(chǔ)問(wèn)題的集成樣本、基因、蛋白質(zhì)的數(shù)據(jù)庫(kù)作為 3 個(gè)主要目標(biāo)之一[8]。為了實(shí)現(xiàn)對(duì)元數(shù)據(jù)和數(shù)據(jù)的質(zhì)量控制,EMP 項(xiàng)目推薦使用基因組最小數(shù)據(jù)規(guī)范(Minimum Information about a Genome Sequence Specification, MIGS)[9]和環(huán)境序列最小數(shù)據(jù)規(guī)范(Minimum Information about an ENvironmental Sequence specification,MIENS)[10]作為數(shù)據(jù)標(biāo)準(zhǔn),并且定義了關(guān)于元數(shù)據(jù)、DNA 提取、16S、18S、ITS 等不同測(cè)序目標(biāo)的標(biāo)準(zhǔn)和協(xié)議[11]。 項(xiàng)目產(chǎn)生的數(shù)據(jù)通過(guò)定量微生物生態(tài)系統(tǒng)數(shù)據(jù)庫(kù)(Quantitative Insights into Microbial Ecology database,QIIME)進(jìn)行管理和共享。截至 2014 年 8月,項(xiàng)目已經(jīng)有超過(guò) 200 個(gè)合作者提供數(shù)據(jù),樣本覆蓋超過(guò) 40 種不同的生態(tài)環(huán)境[12]。
除了項(xiàng)目建立的數(shù)據(jù)中心,一些主要的測(cè)序和研究機(jī)構(gòu)也建立了微生物組的數(shù)據(jù)平臺(tái)。其中由美國(guó)能源部聯(lián)合基因組研究中心建立的整合微生物基因組(Integrated Microbial Genomes, IMG)[13]和阿貢國(guó)家實(shí)驗(yàn)室建立的 Metagenome-RAST(MG-RAST)平臺(tái)[14],目前得到了較為廣泛的應(yīng)用。
IMG 平臺(tái)支持美國(guó)能源部聯(lián)合基因組研究中心進(jìn)行測(cè)序的數(shù)據(jù)進(jìn)行注釋、分析和管理, 逐步對(duì)全球科學(xué)家免費(fèi)開(kāi)放。在數(shù)據(jù)標(biāo)準(zhǔn)方面,IMG 及其數(shù)據(jù)管理平臺(tái) Genome Online[15](圖 1)都使用國(guó)際基因組標(biāo)準(zhǔn)委員會(huì)(Genomic Standards Consortium,GSC)[16]領(lǐng)導(dǎo)制定的一系列關(guān)于環(huán)境測(cè)序樣本描述的最小數(shù)據(jù)集,因此,整合的數(shù)據(jù)能夠按照生態(tài)系統(tǒng)、環(huán)境、宿主或工程改造進(jìn)行分類(lèi)組織。此外,平臺(tái)目前還提供一系列的對(duì)基因組和元基因組數(shù)據(jù)的分析工具。
MG-RAST 主要目的是為用戶(hù)提供基于高性能計(jì)算資源的元基因組數(shù)據(jù)的系統(tǒng)發(fā)育和功能注釋等分析流程,對(duì)于非生物信息學(xué)專(zhuān)業(yè)的用戶(hù)來(lái)說(shuō),可以簡(jiǎn)單地通過(guò)一個(gè)工作流(圖 2),得到元基因組數(shù)據(jù)關(guān)于注釋的基本信息。同時(shí),MG-RAST 也提供了數(shù)據(jù)管理的平臺(tái),用戶(hù)可以對(duì)自有的元數(shù)據(jù)和序列文件進(jìn)行管理,并且可以選擇公開(kāi)或者對(duì)數(shù)據(jù)保持私有。
圖2 MG-RAST 通過(guò)自動(dòng)化的分析工具形成的分析結(jié)果
因此,可以看到在國(guó)際上,尤其是美國(guó),已經(jīng)在微生物組研究及其數(shù)據(jù)分析方面具有了比較好的工作基礎(chǔ),形成了有一定影響力的數(shù)據(jù)管理和分析平臺(tái),能夠?qū)Υ笮蜏y(cè)序項(xiàng)目的數(shù)據(jù)進(jìn)行有效管理,并通過(guò)相對(duì)統(tǒng)一的標(biāo)準(zhǔn)和質(zhì)量控制程序,來(lái)保證數(shù)據(jù)產(chǎn)生的質(zhì)量。然而,它們也仍然存在一系列的問(wèn)題,如數(shù)據(jù)中心主要以基因組和元基因組數(shù)據(jù)為主,缺乏與其他數(shù)據(jù)的整合;以縱向數(shù)據(jù)整合為主,跨領(lǐng)域和不同生態(tài)系統(tǒng)的數(shù)據(jù)集很少;同時(shí)也缺乏高質(zhì)量的參考數(shù)據(jù)集、高效的計(jì)算資源及快速的數(shù)據(jù)分析平臺(tái)等[17]。
中國(guó)一方面積極參與了國(guó)際 EMP 計(jì)劃,另一方面,早在 21 世紀(jì)初,中科院微生物所有關(guān)專(zhuān)家就開(kāi)始推動(dòng)“微生物地球”研究計(jì)劃;2014 年,中科院組織并啟動(dòng)了土壤微生物相關(guān)的先導(dǎo)專(zhuān)項(xiàng)研究計(jì)劃。中國(guó)科學(xué)家已經(jīng)在人體微生物組、釀造微生物組、微生物數(shù)據(jù)資源等方面,取得了很好的成績(jī)。從論文的發(fā)文量來(lái)看,中國(guó)已僅次于美國(guó),居于全球第二位,但是與第一名美國(guó),還有較大的差距(圖 3)。
以中科院為核心的團(tuán)隊(duì),在微生物組的數(shù)據(jù)平臺(tái)建設(shè)和數(shù)據(jù)分析方面,具有較好的基礎(chǔ)。在以微生物為核心的數(shù)據(jù)平臺(tái)建設(shè)方面,落戶(hù)于中科院微生物所的世界微生物數(shù)據(jù)中心是我國(guó)生命科學(xué)領(lǐng)域第一個(gè)世界數(shù)據(jù)中心。中科院微生物所馬俊才團(tuán)隊(duì)建立的全球微生物資源目錄數(shù)據(jù)平臺(tái)(Global Catalogue of Microorganism, GCM),目前集成了來(lái)自美國(guó)、法國(guó)、德國(guó)、荷蘭等 43 個(gè)國(guó)家 110 個(gè)國(guó)際微生物資源保藏機(jī)構(gòu),超過(guò) 30 萬(wàn)的微生物實(shí)物資源的詳細(xì)信息,其中不乏來(lái)自特殊生態(tài)環(huán)境、具有重要的科研和工業(yè)應(yīng)用價(jià)值的微生物[18]。此外,馬俊才團(tuán)隊(duì)還建立了食源性病原微生物、極端環(huán)境微生物等高質(zhì)量基因組參考數(shù)據(jù)庫(kù),整合了海量國(guó)際微生物組數(shù)據(jù)和分析工作流,形成了一個(gè)基于云環(huán)境的微生物組分析系統(tǒng)。最近,中科院北京生科院趙方慶團(tuán)隊(duì)建立了 RiboFR-seq[19]、metaSort[20]、inGAP-sf[21]和 inGAP-CDG[22]等多種微生物組學(xué)研究的新技術(shù)和新方法,這些工具分別針對(duì)微生物組分析中的拼接、序列歸類(lèi)和注釋?zhuān)约拔⑸镩g相互作用等問(wèn)題,為高效解讀微生物組提供了全新的技術(shù)手段。中科院青島生物能源與過(guò)程所蘇曉泉、寧康等團(tuán)隊(duì)開(kāi)發(fā)了元基因組高性能計(jì)算分析軟件 Parallel-META 3[23]以及元基因組比較算法 Meta-Storms[24]和 GPU-Meta-Storms[25],能夠深入、全面、快速地將數(shù)量龐大的未知微生物組進(jìn)行結(jié)構(gòu)與功能解析,從而允許從大數(shù)據(jù)的角度剖析疾病或生態(tài)災(zāi)害下微生物組的變化規(guī)律。中科院青島生物能源與過(guò)程所徐健等團(tuán)隊(duì)提出了“拉曼組”(Ramanome)與“元拉曼組”(Meta-ramanome)的概念,能夠在單個(gè)微生物細(xì)胞精度、非標(biāo)記式、快速表征與測(cè)量細(xì)胞群體或群落的狀態(tài)與功能;它們與元基因組等“基因型”數(shù)據(jù)有著本質(zhì)區(qū)別,與元轉(zhuǎn)錄組、元蛋白組和元代謝組等現(xiàn)有“表型”數(shù)據(jù)相比,在單細(xì)胞精度、非破壞性、通量和成本等方面也具不可替代的優(yōu)勢(shì),代表著一種嶄新的微生物組大數(shù)據(jù)類(lèi)型。
圖3 2010—2015 年全球微生物組論文發(fā)文量排名前十的國(guó)家(數(shù)據(jù)來(lái)源:Web of Sciences)
然而,我國(guó)微生物組相關(guān)研究的數(shù)據(jù)資源散落于各實(shí)驗(yàn)室,尚無(wú)國(guó)家層面的微生物組數(shù)據(jù)庫(kù)體系和數(shù)據(jù)管理機(jī)制,同時(shí)在數(shù)據(jù)管理中還存在著標(biāo)準(zhǔn)不統(tǒng)一、數(shù)據(jù)產(chǎn)出和數(shù)據(jù)分析脫節(jié)、數(shù)據(jù)集成和保存困難、分析技術(shù)與方法不完善、數(shù)據(jù)深度挖掘技術(shù)缺乏等問(wèn)題,缺乏高效、穩(wěn)定、可用的計(jì)算平臺(tái),無(wú)法從海量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的生物學(xué)信息,嚴(yán)重阻礙著微生物組技術(shù)的發(fā)展與應(yīng)用。
數(shù)據(jù)資源是微生物組研究的關(guān)鍵,更是重要的戰(zhàn)略資源。與基因組研究相比,微生物組研究在國(guó)際上處于起跑階段。應(yīng)立足于我國(guó)微生物組研究的現(xiàn)狀,解決微生物組數(shù)據(jù)管理和分析的關(guān)鍵問(wèn)題,并逐步形成自己的核心優(yōu)勢(shì)。特提出以下建議:
(1)構(gòu)建微生物組數(shù)據(jù)標(biāo)準(zhǔn)化及數(shù)據(jù)管理系統(tǒng)。
建立一套完整的微生物組研究的技術(shù)標(biāo)準(zhǔn)(樣本采集、保存、數(shù)據(jù)產(chǎn)出、分析、質(zhì)量控制)及管理規(guī)范和機(jī)制(數(shù)據(jù)共享、存儲(chǔ)、知識(shí)產(chǎn)權(quán)等);實(shí)現(xiàn)標(biāo)準(zhǔn)化的數(shù)據(jù)接口和存儲(chǔ)方案、標(biāo)準(zhǔn)化的分析方法和流程、標(biāo)準(zhǔn)化計(jì)算、存儲(chǔ)方案的評(píng)價(jià)體系和標(biāo)準(zhǔn)化數(shù)據(jù)安全及分級(jí)體系。在此基礎(chǔ)上,開(kāi)發(fā)微生物組數(shù)據(jù)管理系統(tǒng),逐步整合國(guó)內(nèi)相關(guān)研究產(chǎn)生的人體、環(huán)境、工農(nóng)業(yè)等微生物組數(shù)據(jù)資源,實(shí)現(xiàn)對(duì)我國(guó)微生物組數(shù)據(jù)資源的有效管理和高效集成。
(2)建立微生物組大數(shù)據(jù)計(jì)算、存儲(chǔ)和共享平臺(tái)。
搜集和整理海量公共微生物組數(shù)據(jù),整合樣本的多組學(xué)信息,實(shí)現(xiàn)微生物組大數(shù)據(jù)的廣泛、深層次整合;建立高質(zhì)量的微生物組參考數(shù)據(jù)庫(kù);實(shí)現(xiàn)高效的大數(shù)據(jù)搜索與相似度分析算法的開(kāi)發(fā);建立高效的微生物組數(shù)據(jù)處理流程,實(shí)現(xiàn)對(duì)微生物組數(shù)據(jù)的系統(tǒng)管理、高效分析及整合利用。
(3)開(kāi)發(fā)微生物組大數(shù)據(jù)挖掘的新方法。建立適合元基因組物種譜注釋和全基因組序列拼接方法,開(kāi)發(fā)基于降低物種復(fù)雜度策略的宏基因拼接和序列歸類(lèi)算法,建立基于多序列聯(lián)配的遠(yuǎn)緣元基因組數(shù)據(jù)的功能注釋方法,發(fā)展基于菌群結(jié)構(gòu)和功能相似性的微生物組大數(shù)據(jù)搜索引擎,并結(jié)合人工智能發(fā)展針對(duì)慢性疾病和生態(tài)災(zāi)害的微生物組診斷和預(yù)警技術(shù)。開(kāi)發(fā)適用于高性能計(jì)算平臺(tái)的數(shù)據(jù)處理方法,實(shí)現(xiàn)大規(guī)模數(shù)據(jù)及分析結(jié)果的可視化。
(4)加強(qiáng)以我為主的國(guó)際合作。以數(shù)據(jù)平臺(tái)為基礎(chǔ),參與國(guó)際標(biāo)準(zhǔn)的制定,積極引領(lǐng)滿(mǎn)足國(guó)家重大需求的國(guó)際微生物組數(shù)據(jù)合作計(jì)劃,形成更大范圍的數(shù)據(jù)共享體系,提升我國(guó)在微生物組研究領(lǐng)域的國(guó)際影響力和貢獻(xiàn)度。
各國(guó)已將微生物組研究置于空前重要的位置,并形成比較完善的工作基礎(chǔ)。我國(guó)在微生物資源、測(cè)序能力等方面具有顯著優(yōu)勢(shì),但在微生物組大數(shù)據(jù)的收集、存儲(chǔ)、功能挖掘、開(kāi)發(fā)利用等關(guān)鍵技術(shù)上,仍存在諸多薄弱環(huán)節(jié),這也是制約我國(guó)微生物組研究的關(guān)鍵問(wèn)題。因此,我們建議適時(shí)啟動(dòng)“中國(guó)微生物組”計(jì)劃,建立中國(guó)微生物組數(shù)據(jù)中心,實(shí)現(xiàn)我國(guó)微生物組數(shù)據(jù)資源的系統(tǒng)管理和高效利用。
1 Grice E A, Segre J A . The Human Microbiome: our second Genome. Annu Rev Genomics Hum Genet, 2012, 13(1): 151-170.
2 Gevers D, Knight R, Petrosino J F, et al. Human Microbiome Project Consortium: A framework for human microbiome research. Nature, 2012, 486(7402): 215-221.
3 Kurokawa K, Itoh T, Kuwahara T, et al. Comparative metagenomics revealed commonly enriched gene sets in human gut microbiomes. DNA Res, 2007, 14: 169-181.
4 Choi J, Yang F, Stepanauskas R, et al. Strategies to improve reference databases for soil Microbiomes.The ISME Journal, 2016, 1-6.
5 Almeida M, Hébert A, Abraham A L, et al. Construction of a dairy microbial genome catalog opens new perspectives for the metagenomics analysis of dairy fermented products. BMC Genomics, 2014, 15:1101.
6 Stulberg E, Fravel D, Proctor L M, et al. An assessment of US microbiome research. Nat Biotechnol, 2016, 1(1):15015.
7 Lita M P. The National Institutes of Health Human Microbiome Project. Seminars in Fetal & Neonatal Medicine, 2016, 21(6): 368-372.
8 Gilbert J A, Meyer F, Jansson J, et al. The Earth Microbiome Project: Meeting report of the “1st EMP meeting on sample selection and acquisition” at Argonne National Laboratory. Standards in Genomic Sciences, 2010, 3(3):249-253.
9 Field D, Garrity G, Gray T, et al. The minimum information about a genome sequence (MIGS) specification. Nat Biotechnol, 2008, 26(5): 541-547.
10 Yilmaz P, Kottmann R, Field D, et al. The “Minimum Information about an Environmental Sequence” (MIENS) specification. Nat Biotechnol, 2011, 29: 415-420.
11 EMP.[2016-12-3]. http://www.earthmicrobiome.org/empstandard-protocols/
12 Gilbert J A, Jansson J K, Knight R, et al. The Earth Microbiome project: successes and aspirations. BMC Biol, 2014, 12(1): 69.
13 Chen I A, Markowitz V M, Chu K, et al. IMG/M: integrated genome and metagenome comparative data analysis system. Nucleic Acids Res, 2017, 45 (D1): D507-D516.
14 Meyer F , Paarmann D, D’Souza M, et al. The metagenomics RAST server-a public resource for the automatic phylogenetic and functional analysis of metagenomes. BMC Bioinformatics 2008, 9(1): 386.
15 Mukherjee S, Stamatis D, Bertsch J, et al. Genomes OnLine Database (GOLD) v.6: data updates and feature enhancements. Nucleic Acids Res, 2017, 45(D): D446-D456.
16 Field D, Sterk P, Kottmann R, et al. Genomic Standards Consortium Projects. Standards in Genomic Sciences, 2014, 9(3): 599-601.
17 Kyrpides N C, Eloe-Fadrosh E A, Ivanova N N. Microbiome data science: understanding our microbial planet. Trends Microbiol, 2016, 24(6): 425-427.
18 Wu L, Sun Q, Desmeth P, et al. World data centre for microorganisms: an information infrastructure to explore and utilize preserved microbial strains worldwide. Nucleic Acids Res, 2017, 45(D): D611-D618.
19 Zhang Y, Ji P, Wang J, et al. RiboFR-Seq: a novel approach to linking16S rRNA amplicon profiles to metagenomes. Nucleic Acids Res, 2016, 44(10): e99.
20 Ji P, Zhang Y, Wang J, et al. MetaSort untangles metagenome assembly by reducing microbial community complexity. Nat Commun, 2017, 8: 14306.
21 Shi W, Ji P, Zhao F. The combination of direct and paired link graphs can boost repetitive genome assembly. Nucleic Acids Res, 2016. DOI: https://doi.org/10.1093/nar/gkw1191
22 Peng G, Ji P, Zhao F. A novel codon-based de Bruijn graph algorithm for gene construction from unassembled transcriptomes. Genome Biol, 2016, 17(1): 232.
23 Jing G, Sun Z, Wang H, et al. Parallel-META 3: Comprehensive taxonomical and functional analysis platform for efficient comparison of microbial communities. Sci Rep, 2017, 7:40371.
24 Su X, Xu J, Ning K. Meta-Storms: Efficient Search for Similar Microbial Communities Based on a Novel Indexing Scheme and Similarity Score for Metagenomic Data. Bioinformatics, 2012, 28 (19): 2493-2501.
25 Su X, Wang X, Jing G, et al. GPU-Meta-Storms: Computing the structure similarities among massive amount of microbial community samples using GPU. Bioinformatics, 2014, 30(7): 1031-1033.
馬俊才 中科院微生物所微生物資源與大數(shù)據(jù)中心主任,正高級(jí)工程師,世界微生物數(shù)據(jù)中心主任,世界微生物菌種保藏聯(lián)合會(huì)(WFCC)理事會(huì)執(zhí)委,科技部人類(lèi)遺傳資源管理專(zhuān)家委員會(huì)委員。國(guó)家“863”計(jì)劃“微生物數(shù)字化信息系統(tǒng)集成關(guān)鍵技術(shù)的研發(fā)”項(xiàng)目首席科學(xué)家。主要研究領(lǐng)域包括:微生物資源和生物技術(shù)領(lǐng)域信息化、基于云環(huán)境的微生物大數(shù)據(jù)管理和分析平臺(tái)。E-mail: ma@im.ac.cn
Ma Juncai Received PhD degree from Department of Bio-resources of Mie University in Japan, now he is the director of The Center for Microbial Resource and Big Data in Institute of Microorganisms, Chinese Academy of Sciences; he is also the director of WFCC-MIRCEN World Data Center of Microorganisms (WDCM), and Board Member of World Federation of Culture Collections (WFCC). He is the Principle investigator of National HighTechnology Research and Development Program “ Key technology researches on microbial digital resources information system”. His researches fields are informalization of microbial and biotechnology resource, cloud based big data management and analysis system of microbial resources. E-mail: ma@im.ac.cn
Strategies on Establishment of China’s Microbiome Data Center
Ma Juncai1Zhao Fangqing2Su Xiaoquan3Xu Jian3Wu Linhuan1
(1 Institute of Microbiology, Chinese Academy of Sciences, Beijing 100101, China; 2 Beijing Institute of Life Sciences, Chinese Academy of Sciences, Beijing 100101, China; 3 Qingdao Institute of Bioenergy and Bioprocess Technology, Chinese Academy of Sciences, Qingdao 266101, China)
Microbiome is the total microbial community of certain environment. Microbiome is considered to play a crucial role on the nutrition metabolism, degradation of pollutant, maintain a balance of ecosystem of animal, plant and human beings although the fundamental mechanism is still unknown. The tremendous development of broad application of high throughput sequencing technology provides the possibility to comprehensive understanding of the composition and functions of microbiome from the view of whole genome sequencing. Microbiome has gradually become a research focus recently. The United States and EU launched national and international projects on microbiome. However, data management and high through-put data analysis still bottlenecks for microbiome research. This paper pointed out current problems for microbiome data management, including the standardization, cross-fields data integration, and high quality reference databases, summarized international microbiome projects and data platforms, and then analyzed current status and questions to be addressed by Chinese researches. Finally, the authors proposed suggestions and strategies for the development of Chinese microbiome data researches and the establishment of national data center.
microbiome, standards, big data, China Microbiome Data Center
*資助項(xiàng)目:國(guó)家“863”計(jì)劃(2015AA020108)
修改稿收到日期:2017年2月25日