潘 愷 郭志英 劉 杰 王昌昆 宋 歌 賈仲君 潘賢章?
(1 土壤與農(nóng)業(yè)可持續(xù)發(fā)展國(guó)家重點(diǎn)實(shí)驗(yàn)室(中國(guó)科學(xué)院南京土壤研究所),南京 210008)(2 中國(guó)科學(xué)院大學(xué),北京 100049)
土壤是地球上最多樣化的生物棲息地之一,不僅包含較大的生物體,如線蟲(chóng)、螞蟻或鼴鼠等,還包含大量的細(xì)菌和真菌等微生物群體。每克土壤中的微生物數(shù)以?xún)|計(jì),物種類(lèi)型達(dá)10萬(wàn)余種,這些海量的微生物與復(fù)雜的土壤環(huán)境總稱(chēng)為土壤微生物組,其中蘊(yùn)藏的巨大微生物多樣性被認(rèn)為是地球元素循環(huán)過(guò)程的重要驅(qū)動(dòng)力[1-3]。傳統(tǒng)的土壤微生物多樣性研究手段,如實(shí)驗(yàn)室培養(yǎng)法,能分離鑒定的土壤微生物種類(lèi)數(shù)量較少[4],近年來(lái)隨著高通量測(cè)序等新技術(shù)的快速發(fā)展,大規(guī)模、高效、低價(jià)檢測(cè)微生物多樣性成為了可能,同時(shí)極大地推動(dòng)了土壤微生物學(xué)研究。
不過(guò)面對(duì)高通量測(cè)序產(chǎn)生的海量數(shù)據(jù),如何進(jìn)行管理、加工和分析又成為新的課題,迫使微生物學(xué)家不得不加入大數(shù)據(jù)俱樂(lè)部[5]。這種努力又反之促進(jìn)了微生物領(lǐng)域?qū)I(yè)數(shù)據(jù)庫(kù)和參考數(shù)據(jù)庫(kù)的發(fā)展。目前得到廣泛應(yīng)用的微生物數(shù)據(jù)大部分存儲(chǔ)在公共的宏基因組在線數(shù)據(jù)庫(kù)平臺(tái)中,例如美國(guó)阿貢實(shí)驗(yàn)室開(kāi)發(fā)的MG-RAST[6-7]、美國(guó)能源部聯(lián)合基因組研究所的整合微生物基因組和宏基因組(IMG/M)[8]、以及metaMicrobesOnline[9]、宏基因組病毒信息學(xué)資源(VIROME)[10]、MGnify(原EBI Metagenomics)[11]等。這些在線數(shù)據(jù)庫(kù)平臺(tái)大都提供內(nèi)置的注釋管道,通過(guò)將用戶(hù)提交的測(cè)序數(shù)據(jù)與后臺(tái)的參考測(cè)序數(shù)據(jù)庫(kù)進(jìn)行比對(duì),進(jìn)行物種分類(lèi)及功能注釋。常用的微生物參考測(cè)序數(shù)據(jù)庫(kù)包括SEED subsystem,COG,KO,NOG,ggNOG,M5RNA,KEGG,TrEMBL,SEED,PATRIC,SwissProt,GenBank,RefSeq,TIGRfam,TIGR,MetaCyc,GO,NCBI Taxonomy,Database of reference genomes,RDP,Greengenes,MGOL,UniRef 100,BacMap,GOLD等[12]。雖然已建成了較多的微生物數(shù)據(jù)庫(kù)和參考數(shù)據(jù)庫(kù),但也有研究指出,為了全面地解碼生態(tài)系統(tǒng),需要新的工具、框架和假設(shè)來(lái)分析、存儲(chǔ)、可視化和共享數(shù)據(jù)集,單個(gè)平臺(tái)不足以進(jìn)行整體宏基因組學(xué)分析,較長(zhǎng)的閱讀序列、精確的組裝和注釋管道是未來(lái)宏基因組學(xué)研究的發(fā)展方向[13]。
對(duì)于土壤微生物數(shù)據(jù),常用的參考庫(kù)包括Greengenes[14],Unite[15],Silva[16],RDP[17],Ez-Taxon[18],eggNOG[19],KEGG[20]等。然而,已有通用平臺(tái)大都聚焦于提供微生物數(shù)據(jù)存儲(chǔ)、管理、訪問(wèn)、注釋等基礎(chǔ)性服務(wù),缺乏對(duì)土壤微生物所處環(huán)境數(shù)據(jù)的系統(tǒng)收集和標(biāo)準(zhǔn)化整合。此外,對(duì)于土壤微生物組研究領(lǐng)域關(guān)注的問(wèn)題,如環(huán)境因素對(duì)土壤微生物群落的影響、土壤微生物空間分布格局等,仍難以提供有效的模型工具支撐。
2014年開(kāi)始,中國(guó)科學(xué)院實(shí)施了戰(zhàn)略性先導(dǎo)科技專(zhuān)項(xiàng)(B類(lèi))“土壤-微生物系統(tǒng)功能及其調(diào)控”,該項(xiàng)目的研究目標(biāo)之一就是構(gòu)建服務(wù)于我國(guó)土壤微生物組研究的專(zhuān)業(yè)數(shù)據(jù)集成和分析平臺(tái),目前平臺(tái)已完成數(shù)據(jù)集成整合、可視化分析、空間制圖等功能,本文主要針對(duì)平臺(tái)的架構(gòu)設(shè)計(jì)和已實(shí)現(xiàn)功能進(jìn)行介紹。
中國(guó)土壤微生物組數(shù)據(jù)平臺(tái)直接服務(wù)于“土壤-微生物系統(tǒng)功能及其調(diào)控”先導(dǎo)專(zhuān)項(xiàng),為便于專(zhuān)項(xiàng)研究產(chǎn)生的海量數(shù)據(jù)資源的整合集成,兼顧未來(lái)的持續(xù)建設(shè)發(fā)展,平臺(tái)采用了基于B/S的可擴(kuò)展架構(gòu)設(shè)計(jì),具體包括基礎(chǔ)設(shè)施層、數(shù)據(jù)資源層、應(yīng)用支撐層、管理業(yè)務(wù)層、用戶(hù)服務(wù)層五個(gè)層次,以及配套標(biāo)準(zhǔn)規(guī)范體系及運(yùn)維保障體系,其總體架構(gòu)如圖1所示。
基礎(chǔ)設(shè)施層包括網(wǎng)絡(luò)、服務(wù)器、防火墻等硬件設(shè)施,需要為平臺(tái)提供足夠的數(shù)據(jù)存儲(chǔ)能力、計(jì)算能力、網(wǎng)絡(luò)帶寬及信息安全保障??紤]到土壤微生物組數(shù)據(jù)具備一定的大數(shù)據(jù)特征[21],本平臺(tái)通過(guò)虛擬化等技術(shù)將10余臺(tái)服務(wù)器集群的硬件資源池化,以作為土壤微生物組數(shù)據(jù)存儲(chǔ)及計(jì)算分析的基礎(chǔ)。同時(shí)采用獨(dú)立的Web服務(wù)器用于響應(yīng)用戶(hù)請(qǐng)求、提供空間數(shù)據(jù)引擎及調(diào)用模型算法等,從而提升服務(wù)器的安全性和可擴(kuò)展性。
圖1 中國(guó)土壤微生物組數(shù)據(jù)平臺(tái)總體架構(gòu)Fig.1 Framework of the China soil microbiome data platform
數(shù)據(jù)資源層是平臺(tái)數(shù)據(jù)資源管理的基礎(chǔ),具體包括元數(shù)據(jù)庫(kù)、土壤微生物數(shù)據(jù)庫(kù)、土壤微生物環(huán)境因子數(shù)據(jù)庫(kù)、用戶(hù)私有數(shù)據(jù)庫(kù)、統(tǒng)一數(shù)據(jù)目錄及數(shù)據(jù)交互接口等數(shù)據(jù)管理模塊。平臺(tái)采用基于用戶(hù)的數(shù)據(jù)資源權(quán)限控制方式,所整合的數(shù)據(jù)資源分開(kāi)放與私有兩大類(lèi),其中開(kāi)放數(shù)據(jù)資源可被全部用戶(hù)訪問(wèn),而私有數(shù)據(jù)資源由用戶(hù)通過(guò)數(shù)據(jù)交互接口集成至平臺(tái),只限上傳者本人訪問(wèn)使用。數(shù)據(jù)目錄由元數(shù)據(jù)庫(kù)提取數(shù)據(jù)庫(kù)關(guān)鍵描述信息生成,數(shù)據(jù)交互接口則負(fù)責(zé)數(shù)據(jù)層與其他層次的數(shù)據(jù)交互,包括數(shù)據(jù)資源的檢索、集成、修改等。
應(yīng)用支撐層為平臺(tái)提供運(yùn)行環(huán)境、工作流程和模型算法等條件保障,具體包含空間數(shù)據(jù)可視化環(huán)境、數(shù)據(jù)預(yù)處理流程、統(tǒng)計(jì)分析模型和空間制圖模型等模塊。其中空間數(shù)據(jù)可視化環(huán)境采用了成熟的空間數(shù)據(jù)引擎ArcGIS Server開(kāi)發(fā)實(shí)現(xiàn),確保所集成微生物組空間數(shù)據(jù)運(yùn)行環(huán)境的穩(wěn)健性和跨瀏覽器兼容性。數(shù)據(jù)預(yù)處理流程主要包含數(shù)據(jù)標(biāo)準(zhǔn)化、空間化等入庫(kù)前預(yù)處理步驟。統(tǒng)計(jì)分析模型集成了微生物數(shù)據(jù)及環(huán)境數(shù)據(jù)的常用統(tǒng)計(jì)方法,如相對(duì)豐度柱狀圖、時(shí)間序列統(tǒng)計(jì)圖等;制圖模型模塊則集成了土壤學(xué)領(lǐng)域常用的空間制圖方法,包括反距離權(quán)重法、克里金法等。
管理業(yè)務(wù)層為管理員持續(xù)管理運(yùn)營(yíng)平臺(tái)提供有效工具,具體包括用戶(hù)權(quán)限管理、元數(shù)據(jù)管理、數(shù)據(jù)資源管理、圖層渲染管理等模塊。管理員通過(guò)相關(guān)模塊持續(xù)更新平臺(tái)開(kāi)放數(shù)據(jù)資源,并確保其元數(shù)據(jù)完整、圖層渲染規(guī)則合適??紤]到海量、異構(gòu)土壤微生物組數(shù)據(jù)及相關(guān)元數(shù)據(jù)管理的復(fù)雜性,在實(shí)現(xiàn)相關(guān)模塊基礎(chǔ)管理配置功能的同時(shí)還完善了對(duì)數(shù)據(jù)資源的排序、篩選等輔助功能。
用戶(hù)服務(wù)層直接與用戶(hù)交互,本平臺(tái)采用基于B/S的技術(shù)架構(gòu),通過(guò)Web直接向用戶(hù)提供數(shù)據(jù)服務(wù)與模型計(jì)算服務(wù),解決了不同操作系統(tǒng)環(huán)境下常見(jiàn)的兼容性問(wèn)題。本層次具體包括用戶(hù)注冊(cè)登錄、數(shù)據(jù)查詢(xún)檢索、私有圖層發(fā)布、元數(shù)據(jù)錄入、空間可視化、微生物組成可視化、空間統(tǒng)計(jì)、空間制圖等功能模塊,滿(mǎn)足土壤微生物數(shù)據(jù)及環(huán)境因子數(shù)據(jù)整合集成、可視化瀏覽以及空間分析制圖等需求。
數(shù)據(jù)資源的整合建庫(kù)是平臺(tái)為用戶(hù)提供土壤微生物組研究相關(guān)數(shù)據(jù)及模型計(jì)算服務(wù)的基礎(chǔ)。鑒于土壤微生物組是土壤中所有微生物及其棲息環(huán)境的總稱(chēng)[3],平臺(tái)收集整合的數(shù)據(jù)資源主要包括土壤微生物組數(shù)據(jù)及環(huán)境因子數(shù)據(jù)兩部分。整合的數(shù)據(jù)資源通過(guò)元數(shù)據(jù)庫(kù)及數(shù)據(jù)字典進(jìn)行統(tǒng)一描述和規(guī)范,包括數(shù)據(jù)來(lái)源、數(shù)據(jù)精度、投影坐標(biāo)體系、土壤分類(lèi)體系、數(shù)據(jù)生產(chǎn)時(shí)間等,其建設(shè)依據(jù)“土壤科學(xué)數(shù)據(jù)元數(shù)據(jù)”(GB/T 32739-2016)國(guó)標(biāo),確保平臺(tái)數(shù)據(jù)具有良好的完整性與可用性。
在平臺(tái)整合集成的數(shù)據(jù)資源如圖2所示,其中土壤微生物數(shù)據(jù)主要來(lái)源于專(zhuān)項(xiàng)實(shí)施中產(chǎn)生的海量土壤微生物數(shù)據(jù),具體包括微生物組成和豐度數(shù)據(jù)、微生物多樣性數(shù)據(jù)和測(cè)序序列數(shù)據(jù),由于采用了統(tǒng)一規(guī)范的采樣及分析方法,所集成的微生物數(shù)據(jù)質(zhì)量較好。而環(huán)境因子數(shù)據(jù)主要依托中國(guó)土壤數(shù)據(jù)庫(kù)(http://vdb3.soil.csdb.cn/)和土壤科學(xué)數(shù)據(jù)中心(http://soil.geodata.cn/),具體涵蓋從90 m、100 m到1 000 m不同分辨率多尺度的土壤類(lèi)型因子、土壤理化因子、氣候環(huán)境因子、地形環(huán)境因子、生物環(huán)境因子、人為因子等土壤微生物棲息環(huán)境有關(guān)的數(shù)據(jù)。其中土壤類(lèi)型因子包含發(fā)生分類(lèi)、系統(tǒng)分類(lèi)、美國(guó)系統(tǒng)分類(lèi)、WRB分類(lèi)等多種土壤分類(lèi)體系數(shù)據(jù)。土壤理化因子包含土壤pH、有機(jī)質(zhì)、全氮、全磷等主要土壤屬性含量數(shù)據(jù)。氣候環(huán)境因子包含年均溫度及年均降水量等。地形環(huán)境因子包含地形、坡度等。生物環(huán)境因子包含植被指數(shù)、覆蓋度、生物量等。人為因子則包含土地利用、行政區(qū)劃等。平臺(tái)整合的數(shù)據(jù)資源為用戶(hù)開(kāi)展土壤微生物組相關(guān)研究,如環(huán)境因素對(duì)土壤微生物群落的影響、土壤微生物空間分布格局等提供了有力的數(shù)據(jù)支撐。
數(shù)據(jù)庫(kù)采用了PostgreSQL數(shù)據(jù)庫(kù)代替?zhèn)鹘y(tǒng)的“關(guān)系型數(shù)據(jù)庫(kù)+ArcSDE”模式,使平臺(tái)可直接通過(guò)數(shù)據(jù)庫(kù)管理空間數(shù)據(jù)。與傳統(tǒng)的空間數(shù)據(jù)管理模式相比,PostgreSQL數(shù)據(jù)庫(kù)不僅具有開(kāi)源免費(fèi)的優(yōu)勢(shì),還具有更優(yōu)秀的空間數(shù)據(jù)管理性能,更適合管理土壤微生物組數(shù)據(jù),具體體現(xiàn)在以下四方面:
圖2 中國(guó)土壤微生物組數(shù)據(jù)平臺(tái)數(shù)據(jù)資源體系Fig.2 Data resource system of the China soil microbiome data platform
可擴(kuò)展性強(qiáng):第三方開(kāi)源軟件很多,有利于提升系統(tǒng)能力的可擴(kuò)展性。針對(duì)本平臺(tái)基礎(chǔ)設(shè)施層分布式集群的架構(gòu),通過(guò)第三方開(kāi)源工具可以方便地解決集群數(shù)據(jù)傳輸中讀寫(xiě)分離、負(fù)載均衡、數(shù)據(jù)水平拆分等問(wèn)題。
功能完善:對(duì)空間數(shù)據(jù)存儲(chǔ)和分析功能的支持完善,而本平臺(tái)整合的數(shù)據(jù)資源以空間數(shù)據(jù)為主,涉及有關(guān)的空間數(shù)據(jù)分析功能,如空間關(guān)系分析、拓?fù)浞治龅?,在PostgreSQL數(shù)據(jù)庫(kù)中均有相應(yīng)的SQL函數(shù)支持。
兼容性好:屬于跨平臺(tái)的數(shù)據(jù)庫(kù)軟件,在各主流操作系統(tǒng)環(huán)境上均能部署應(yīng)用,同時(shí)主流的GIS平臺(tái)軟件如ArcGIS、MapInfo、PostGIS等均支持PostgreSQL數(shù)據(jù)庫(kù),這為本平臺(tái)后續(xù)集成其他GIS平臺(tái)的優(yōu)勢(shì)功能提供了數(shù)據(jù)庫(kù)層面的基礎(chǔ)。
存取效率高:傳統(tǒng)的空間數(shù)據(jù)管理,如Oracle結(jié)合ArcSDE,是原生的關(guān)系型數(shù)據(jù)庫(kù)和外掛擴(kuò)展的空間數(shù)據(jù)結(jié)構(gòu)的結(jié)合,而采用PostgreSQL數(shù)據(jù)庫(kù)統(tǒng)一管理關(guān)系型和空間數(shù)據(jù),是原生的關(guān)系型數(shù)據(jù)庫(kù)和原生的空間數(shù)據(jù)結(jié)構(gòu)的天然統(tǒng)一,從而提升平臺(tái)對(duì)海量土壤微生物組數(shù)據(jù)的存取效率。
在數(shù)據(jù)資源整合及數(shù)據(jù)庫(kù)建設(shè)完成的基礎(chǔ)上,平臺(tái)基于.NET Web開(kāi)發(fā)框架、IIS發(fā)布服務(wù)器、C#開(kāi)發(fā)語(yǔ)言,遵循高內(nèi)聚、低耦合的功能模塊實(shí)現(xiàn)原則,采用ArcGIS Server作為空間數(shù)據(jù)管理及相關(guān)分析功能的開(kāi)發(fā)引擎,初步建成了基于B/S的中國(guó)土壤微生物組數(shù)據(jù)平臺(tái)(http://159.226.101.185/microbe),實(shí)現(xiàn)了數(shù)據(jù)管理、數(shù)據(jù)可視化、數(shù)據(jù)分析、用戶(hù)管理四部分功能模塊。建成的功能模塊包括數(shù)據(jù)服務(wù)前臺(tái)與業(yè)務(wù)管理后臺(tái),為平臺(tái)持續(xù)提供數(shù)據(jù)服務(wù)、維護(hù)與更新數(shù)據(jù)資源提供了支撐保障,建成的平臺(tái)功能結(jié)構(gòu)如圖3所示。
數(shù)據(jù)管理模塊用于支撐平臺(tái)數(shù)據(jù)資源的發(fā)布、管理及檢索,具體包括數(shù)據(jù)集成、數(shù)據(jù)預(yù)處理、元數(shù)據(jù)管理、查詢(xún)檢索等功能。支持集成到平臺(tái)的數(shù)據(jù)格式除常用的空間數(shù)據(jù)格式shp和tif外,同時(shí)支持csv、xls、xlsx等多種常用數(shù)據(jù)格式。數(shù)據(jù)集成到平臺(tái)時(shí)需要填寫(xiě)元數(shù)據(jù)信息,包括數(shù)據(jù)生產(chǎn)者、數(shù)據(jù)生產(chǎn)時(shí)間、投影坐標(biāo)體系等。集成到平臺(tái)的數(shù)據(jù)經(jīng)過(guò)空間化、地理坐標(biāo)轉(zhuǎn)換等預(yù)處理流程后統(tǒng)一在前臺(tái)發(fā)布。
圖3 中國(guó)土壤微生物組數(shù)據(jù)平臺(tái)功能結(jié)構(gòu)圖Fig.3 Function structure of the China soil microbiome data platform
數(shù)據(jù)可視化模塊主要滿(mǎn)足平臺(tái)空間數(shù)據(jù)瀏覽展示需求,包括地圖瀏覽、圖層渲染、微生物組成等可視化功能。其中地圖瀏覽功能集成了圖層目錄、圖層選取、視圖切換、點(diǎn)查、測(cè)距、測(cè)面等地圖瀏覽常用工具。圖層渲染功能根據(jù)屬性字段的類(lèi)別不同或數(shù)值大小,渲染得到不同顏色圖斑或不同大小散點(diǎn)進(jìn)行展示,從而直觀地表達(dá)某一屬性字段的分布情況,如圖4a中不同圖斑顏色代表了不同土壤類(lèi)型。微生物組成可視化功能通過(guò)疊加柱狀圖在地圖上可視化地展示目標(biāo)位置土壤微生物的組成及豐度,并可與平臺(tái)其他數(shù)據(jù)如土壤類(lèi)型圖等進(jìn)行疊加展示,土壤微生物組成可視化效果如圖4b所示。
平臺(tái)數(shù)據(jù)分析模塊通過(guò)集成土壤微生物組數(shù)據(jù)常用的統(tǒng)計(jì)分析模型,滿(mǎn)足用戶(hù)開(kāi)展土壤微生物組數(shù)據(jù)分析研究需求。具體包括時(shí)間序列分析、相關(guān)性分析以及空間制圖等功能。其中時(shí)間序列分析通過(guò)折線圖結(jié)合區(qū)域范圍選擇工具,分析展示目標(biāo)屬性在選定區(qū)域隨時(shí)間變化的特征。相關(guān)性分析通過(guò)象限散點(diǎn)圖工具分析不同屬性字段間的相關(guān)關(guān)系。分析得到相關(guān)關(guān)系后,通過(guò)制圖數(shù)據(jù)生成工具結(jié)合平臺(tái)數(shù)據(jù)資源,得到用于空間制圖的屬性圖層,最終通過(guò)選取合適的制圖模型得到目標(biāo)屬性的分布圖,相關(guān)功能具體應(yīng)用示例見(jiàn)本文第4節(jié)。
用戶(hù)管理模塊負(fù)責(zé)平臺(tái)賬戶(hù)管理與用戶(hù)權(quán)限控制,為平臺(tái)訪問(wèn)安全和信息共享安全提供保障。用戶(hù)分管理員與普通用戶(hù)兩類(lèi)角色,不同角色用戶(hù)擁有不同的操作權(quán)限。普通用戶(hù)登錄平臺(tái)后,可以使用平臺(tái)私有數(shù)據(jù)集成、元數(shù)據(jù)錄入等功能管理自己的數(shù)據(jù),并可開(kāi)展私有數(shù)據(jù)與平臺(tái)公開(kāi)數(shù)據(jù)的相關(guān)性分析、空間分布制圖等研究。管理員用戶(hù)則擁有對(duì)平臺(tái)開(kāi)放數(shù)據(jù)資源管理的權(quán)限,包括數(shù)據(jù)發(fā)布、圖層渲染規(guī)則設(shè)置等,確保平臺(tái)穩(wěn)定運(yùn)行。
中國(guó)土壤微生物組數(shù)據(jù)平臺(tái)建設(shè)的核心思路是在整合土壤微生物數(shù)據(jù)及環(huán)境因子數(shù)據(jù)基礎(chǔ)上,通過(guò)集成方法模型,為土壤微生物組研究領(lǐng)域關(guān)注的問(wèn)題提供數(shù)據(jù)及模型支撐。本節(jié)以表1數(shù)據(jù)為示例,從數(shù)據(jù)集成、相關(guān)性分析、空間制圖等環(huán)節(jié),展示平臺(tái)在土壤微生物多樣性空間分布研究的應(yīng)用。
圖4 平臺(tái)數(shù)據(jù)可視化模塊Fig.4 Data visualization module of the platform
示例區(qū)域?yàn)榘不帐⌒鞘校紨?shù)據(jù)以常用的xlsx格式保存,包含樣品編號(hào)、經(jīng)緯度、pH以及OTUs屬性字段。用戶(hù)登錄平臺(tái)后,通過(guò)前臺(tái)“上傳數(shù)據(jù)”工具選取原始數(shù)據(jù),指定數(shù)據(jù)存放目錄及經(jīng)緯度字段(圖5a),同時(shí)并補(bǔ)充元數(shù)據(jù)信息,其中元數(shù)據(jù)主要包含數(shù)據(jù)生產(chǎn)者、數(shù)據(jù)生產(chǎn)時(shí)間、數(shù)據(jù)簡(jiǎn)要描述等(圖5b)。平臺(tái)檢查數(shù)據(jù)格式以及指定信息無(wú)誤后,通過(guò)空間化步驟將用戶(hù)上傳的關(guān)系型數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一地理坐標(biāo)的空間數(shù)據(jù)入庫(kù)并發(fā)布,成功發(fā)布后用戶(hù)即可開(kāi)展可視化的地圖瀏覽及分析(圖5c)。
數(shù)據(jù)集成到平臺(tái)后,通過(guò)象限圖工具建立土壤微生物OTUs與環(huán)境因子pH之間的關(guān)系模型,通過(guò)指定目標(biāo)字段OTUs和pH,生成的象限圖效果如圖6所示。通過(guò)象限圖初步發(fā)現(xiàn)在研究區(qū)域內(nèi)的土壤微生物OTUs與pH具備一定的線性關(guān)系,進(jìn)一步計(jì)算得到線性回歸方程為:Y=831.68 X-1971.8,其中Y代表OTUs,X代表pH,對(duì)應(yīng)決定系數(shù)R2為0.868 9。
基于得到的土壤微生物OTUs與pH的關(guān)系模型,結(jié)合平臺(tái)已整合的土壤理化因子數(shù)據(jù)庫(kù)中的全國(guó)第二次土壤普查典型剖面pH屬性數(shù)據(jù),可以進(jìn)一步開(kāi)展宣城市土壤微生物OTUs全國(guó)第二次土壤普查空間分布的研究,獲取該時(shí)期宣城市土壤OTUs空間分布圖,具體包括制圖數(shù)據(jù)準(zhǔn)備和空間制圖兩個(gè)步驟。
表1 土壤微生物多樣性分布研究示例數(shù)據(jù)Table 1 Demonstration data of the research on soil microbial diversity distribution
首先依據(jù)得到的線性相關(guān)關(guān)系和全國(guó)第二次土壤普查典型剖面pH屬性數(shù)據(jù),通過(guò)“制圖數(shù)據(jù)生成”工具導(dǎo)入計(jì)算模型(圖7a),生成用于繪制普查期間宣城市OTUs空間分布圖的數(shù)據(jù)圖層。完成數(shù)據(jù)準(zhǔn)備工作后,利用平臺(tái)“空間插值制圖”功能,選擇合適的制圖方法如反距離權(quán)重法或克里金法,繪制得到普查時(shí)期的宣城市土壤微生物OTUs分布圖(圖7b),并可以與現(xiàn)階段采集樣品繪制得到的OTUs分布圖開(kāi)展更深層次的時(shí)空變化分析等研究。
平臺(tái)目前已完成架構(gòu)設(shè)計(jì)、數(shù)據(jù)庫(kù)建設(shè)以及數(shù)據(jù)集成整合、可視化分析、空間制圖等主要功能,初步具備了服務(wù)我國(guó)土壤微生物組研究的能力基礎(chǔ),但在未來(lái)數(shù)據(jù)資源持續(xù)豐富以及相關(guān)計(jì)算制圖模型持續(xù)完善上仍有一些問(wèn)題值得分析和討論。
1)數(shù)據(jù)資源。平臺(tái)目前集成的土壤環(huán)境因子數(shù)據(jù)主要依托于中國(guó)土壤數(shù)據(jù)庫(kù)及土壤科學(xué)數(shù)據(jù)中心中的第二次土壤普查成果,然而該調(diào)查距今已近40年,亟需現(xiàn)勢(shì)性更強(qiáng)的土壤環(huán)境因子數(shù)據(jù)資源,從而進(jìn)一步提升對(duì)我國(guó)土壤微生物組研究支撐的能力。
2)相關(guān)性分析。平臺(tái)初步實(shí)現(xiàn)了基于二維象限圖工具的土壤微生物數(shù)據(jù)與環(huán)境因子數(shù)據(jù)相關(guān)性分析功能,未來(lái)需集成更豐富的數(shù)據(jù)分析模型,支撐涵蓋線性及非線性關(guān)系的土壤微生物-環(huán)境因子挖掘建模研究。
3)空間制圖。平臺(tái)目前已集成了多種土壤學(xué)領(lǐng)域常用的空間制圖模型,包括反距離權(quán)重模型、克里金模型等,但尚缺少適用性強(qiáng)的數(shù)字土壤制圖模型。下一步將結(jié)合數(shù)字土壤制圖領(lǐng)域新近研究進(jìn)展,研究實(shí)現(xiàn)適用于土壤微生物多樣性空間分布的數(shù)字土壤制圖模型。
圖5 數(shù)據(jù)集成示例Fig.5 Example of data integration
圖6 數(shù)據(jù)相關(guān)性分析示例Fig.6 Example of data correlation analysis
圖7 空間分布制圖示例Fig.7 Example of spatial distribution mapping
中國(guó)土壤微生物組數(shù)據(jù)平臺(tái)是戰(zhàn)略性先導(dǎo)科技專(zhuān)項(xiàng)(B類(lèi))“土壤-微生物系統(tǒng)功能及其調(diào)控”的一項(xiàng)重要成果。在數(shù)據(jù)整合方面,通過(guò)統(tǒng)一標(biāo)準(zhǔn)規(guī)范系統(tǒng)收集整合了我國(guó)土壤微生物數(shù)據(jù)及環(huán)境因子數(shù)據(jù)。在功能建設(shè)方面,通過(guò)應(yīng)用先進(jìn)的空間數(shù)據(jù)庫(kù)技術(shù)和WebGIS技術(shù),初步實(shí)現(xiàn)了數(shù)據(jù)集成、可視化分析、空間制圖等功能。目前平臺(tái)已集成約10GB的土壤微生物數(shù)據(jù)和多尺度的各環(huán)境因子數(shù)據(jù),并在專(zhuān)項(xiàng)團(tuán)隊(duì)內(nèi)部開(kāi)放試運(yùn)行,隨著平臺(tái)數(shù)據(jù)資源及功能的不斷豐富和完善,期望將其建設(shè)成為我國(guó)土壤微生物組研究領(lǐng)域的重要公共支撐平臺(tái)。