黃佳城,張璦琿,付友思,方柏山
(1 廈門大學(xué)化學(xué)化工學(xué)院,福建 廈門 361005;2 廈門市合成生物技術(shù)重點實驗室,福建 廈門 361005)
經(jīng)歷了20 年的不斷發(fā)展,合成生物學(xué)逐漸成為了一個綜合學(xué)科融合之所,一個交叉學(xué)科碰撞之處。研究人員創(chuàng)建了形形色色的“微生物細胞工廠”,不僅實現(xiàn)了許許多多化學(xué)品的綠色制造,而且開發(fā)了生物修復(fù)、生物材料合成等多種功能[1]。其中,美國加州大學(xué)伯克利分校(UCB)化學(xué)工程系Keasling 課題組[2]改造大腸桿菌和釀酒酵母合成青蒿素前體是合成生物學(xué)最經(jīng)典的里程碑案例之一。他們歷經(jīng)20 年,研究過程涉及載體構(gòu)建、酶異源表達、底盤細胞開發(fā)、啟動子與核糖體結(jié)合位點高通量篩選、通量平衡分析和轉(zhuǎn)錄后調(diào)控等,最終實現(xiàn)了青蒿素的半合成。該項研究成果在國際上產(chǎn)生重大影響,被Discovery雜志評為當(dāng)年的十大科學(xué)進展之一。
然而,單一生物體工程在復(fù)雜化合物合成上面臨諸多矛盾:第一,復(fù)雜目標(biāo)產(chǎn)物合成所需的大容量外源基因與底盤細胞接收能力的矛盾[3];第二,復(fù)雜目標(biāo)產(chǎn)物合成途徑對細胞中資源需求與細胞本體生長代謝的矛盾[4-5];第三,單一生物體目標(biāo)產(chǎn)物合成過程所需的穩(wěn)定微環(huán)境與環(huán)境擾動的矛盾(例如環(huán)境變化或產(chǎn)物/副產(chǎn)物脅迫)[6-7]。為了解決上述產(chǎn)物合成和生產(chǎn)中單一生物體工程面臨的矛盾,研究人員正在開發(fā)動態(tài)微生物群落中多物種工程改造平臺替代單一生物體工程:從最初的菌株代謝通路的模塊化構(gòu)建的“單兵作戰(zhàn)”快速發(fā)展為合成微生物群落共同協(xié)作的“聯(lián)動共贏”來面對復(fù)雜的產(chǎn)物合成難題[8-10]。
微生物群落一般由多種微生物組成,相比于單一菌株,這些微生物組成的群體具備多種優(yōu)勢[8]:第一,群體中成員的分工協(xié)作減輕了外源載體的容量;第二,分工和資源交換減輕群落中個體的代謝負擔(dān);第三,較高的魯棒性減輕了環(huán)境變化的脅迫壓力。因此,相對于單一菌株,整個群落成員的協(xié)作使其具有更強的代謝能力,同時群落中物種之間的信息交流使其具有更強的穩(wěn)定性[9-11]。正是由于這些特性,微生物群落在復(fù)雜基質(zhì)和污染物的降解[12-18],藥物、生物燃料和蛋白質(zhì)復(fù)合物的生物法生產(chǎn)[13,19-24],功能化生物材料的制備[18,25-27],分布式邏輯計算/存儲器[28-33]、生物傳感器的構(gòu)建[34-35]等方面具有巨大的潛力。
但是微生物群落平臺的發(fā)展帶來諸多優(yōu)勢的同時,也提升了工作量和操作難度[8]。幸運的是,宏組學(xué)(meta-omics)的發(fā)展為我們帶來了微生物群落的大數(shù)據(jù)[36],日益成熟的人工智能理論和技術(shù)顯著提高了其處理和分析大數(shù)據(jù)的能力[37]。通過引入人工智能技術(shù)有望從大數(shù)據(jù)中探究客觀規(guī)律,并利用這些規(guī)律快速尋找特定問題的最佳解決方案。
本文詳細介紹了功能性菌群“自下而上(bottom-up)”和“自上而下(top-down)”的兩種設(shè)計策略,以及功能性菌群的分析工具--“宏組學(xué)”的發(fā)展現(xiàn)狀,總結(jié)了功能性菌群構(gòu)建過程中面臨的挑戰(zhàn),并展望了以“智能設(shè)計”為核心的發(fā)展方向。
在構(gòu)建功能性菌群的探索中,研究人員提出兩種不同的研究策略:分別是“自下而上”和“自上而下”。這兩種研究策略對建立功能性菌群的研究提出不同的見解[38]。
“自下而上”的研究策略一般是通過獲取微生物組中單個成員的基因組來重建它們的代謝網(wǎng)絡(luò),并使用建?;蚓W(wǎng)絡(luò)分析工具來指導(dǎo)設(shè)計微生物群落,使群落具有一定的功能(圖1)。這是合成生物學(xué)家所關(guān)注和努力的方向。該研究策略可以分為以下兩個部分:合成微生物群落工具的開發(fā);利用工具促使群落目標(biāo)功能的實現(xiàn)。
圖1 使用“自下而上”策略構(gòu)建功能菌群Fig.1 “Bottom-up”strategy for constructing functional microbial communities
2.1.1 構(gòu)建合成微生物群落工具的開發(fā)
微生物群落具有“群落內(nèi)部通信”、“感受外界環(huán)境變化”以及“交換群落內(nèi)資源”的功能。為了模擬以上三方面的功能,研究人員建立了“群體感應(yīng)(quorum sensing,QS)”“誘導(dǎo)性元件”“共營養(yǎng)化”3 種方法來開發(fā)適用于合成微生物群落的工具。
群體感應(yīng)[39]是一種生物通信系統(tǒng):在原核物種中,細胞產(chǎn)生的自體誘導(dǎo)物分子能夠作為種群感知群落密度的一個信號,隨著細胞群的增長,細胞會根據(jù)自誘導(dǎo)劑濃度來調(diào)節(jié)基因表達以控制群體水平的行為。然而直接利用天然的群體感應(yīng)系統(tǒng)作為合成微生物群落的工具會存在信號串?dāng)_的問題,因此通過對現(xiàn)有QS 系統(tǒng)的改造,研究人員建立了一系列具有正交性的QS 系統(tǒng)。加州大學(xué)舊金山分校(UCSF)的Hasty 課題組通過啟動子和蛋白質(zhì)修飾,將Rpa 和Tra 群體感應(yīng)系統(tǒng)和Lux和Las 系統(tǒng)進行整合,構(gòu)建具有完全正交性的系統(tǒng)[40],并提出可誘導(dǎo)群體感應(yīng)(inducible quorum sensing system,iQS)的概念[41]。中科院深圳先進技術(shù)研究院婁春波課題組[42]通過對元件挖掘、理性設(shè)計以及定向進化等手段,開發(fā)了10 套全新的群體感應(yīng)系統(tǒng),形成了一整套具有通用性高、正交性強、可以跨生物界通信的合成生物學(xué)工具箱。
誘導(dǎo)性元件使得群落中的成員能夠感應(yīng)環(huán)境條件并做出一系列的反應(yīng)。有的研究通過外源添加分子來改變環(huán)境條件進而控制群落中成員的基因表達。麻省理工學(xué)院(MIT)的Collins 課題組[43]在Lactococcus lactisNZ9000 中構(gòu)建不同誘導(dǎo)物誘導(dǎo)的回路,通過控制誘導(dǎo)物的添加模擬群落的社交關(guān)系;同時環(huán)境條件的改變也包括了調(diào)整營養(yǎng)濃度和培養(yǎng)條件來改變種群特異性基因表達[44]。
群落成員間相互依賴的功能性菌群可以通過共養(yǎng)相互作用的原理進行設(shè)計,使得群落中的某一生物體依賴其他群落成員所產(chǎn)生的代謝物,進而構(gòu)建成員更多、魯棒性更高的功能性菌群。加州大學(xué)圣地亞哥分校(UCSD)的Zengler 課題組[45]系統(tǒng)性地描述如何通過營養(yǎng)缺陷型策略構(gòu)建復(fù)雜群落的原理。根據(jù)這一原理,哥倫比亞大學(xué)的Wang 課題組[46]構(gòu)建了14 種不同缺陷型大腸桿菌群落,它們之間相互依賴、共同生存。
上述這三方面的先驅(qū)性的工作可以幫助我們構(gòu)建正交性更好的“群體感應(yīng)”系統(tǒng)、調(diào)控更為精準(zhǔn)的“誘導(dǎo)性元件”和更為復(fù)雜的“共營養(yǎng)化”策略,有利于我們建立具有高信噪比的菌種通信,完成高精準(zhǔn)的群落內(nèi)基因表達和構(gòu)建高魯棒性的功能性菌群,也為群落行為的實現(xiàn)提供了可靠的工具。
2.1.2 利用工具使得群落表現(xiàn)出目標(biāo)功能
在群落行為的設(shè)計中,合成生物學(xué)家們利用2.1.1所述的工具驅(qū)動微生物群落表現(xiàn)的3種最具代表的行為“菌群的數(shù)量控制”、“分布式代謝”和“菌群的空間編程”。
在群落的代謝過程中,某些特定代謝物的相對產(chǎn)量可能會在代謝流層面上影響最終產(chǎn)物的產(chǎn)出或者是對底盤生物造成毒性[47],而通過“控制微生物群體大小水平”則可以改善該問題。Hasty課題組[48]將兩套正交性的群體感應(yīng)系統(tǒng)和裂解毒蛋白結(jié)合,構(gòu)建了兩個能夠維持競爭關(guān)系的沙門菌群。
“分布式代謝”則是解決產(chǎn)物合成路線過長的終極利器。它通過將冗長的代謝回路合理地分割成不同的部分,并導(dǎo)入最佳宿主中,可以越過本來在單一生物工程中由于代謝負擔(dān)過大而不能生產(chǎn)的難題來合成復(fù)雜的天然產(chǎn)物。MIT 的Stephanopoulos課題組利用分布式代謝的策略,將生產(chǎn)紫杉醇前體--氧化紫杉烷(oxygenated taxanes)的回路分段導(dǎo)入大腸桿菌和釀酒酵母中,利用共培養(yǎng)技術(shù)將氧化紫杉烷的產(chǎn)量提高到33 mg/L,同時證明了該體系也適用于其他氧化類異戊二烯的生產(chǎn)[19]。
“菌群的空間編程”則通過在空間上形成有序的組織結(jié)構(gòu)來幫助整個群落應(yīng)對環(huán)境的擾動[49]。斯坦福大學(xué)的Riedel-Kruse 課題組[50]通過建立正交、可組合的黏附素庫,結(jié)合不同的誘導(dǎo)性元件在E.coliMG1655 和E.coliS1 間建立了晶格狀、相分離和不同的黏附模式,為多細胞的空間編程提供了一個工具箱,研究人員可以利用該工具箱構(gòu)建各種不同的結(jié)構(gòu)來提升群落的穩(wěn)定性。
雖然已經(jīng)能夠利用“自下而上”策略建立發(fā)揮特定功能的中小型功能性菌群[16,46,48-50],同時適用于合成微生物群落的工具的研發(fā)在早期合成生物學(xué)發(fā)展中已經(jīng)初具雛形,元件的正交性和通用性也已經(jīng)獲得保障[41-42,50],并且已經(jīng)完成對群落個體的精準(zhǔn)控制目標(biāo)[16,43,48-50]。但是由于群落設(shè)計原理、模型和計算工具的缺失,導(dǎo)致了群落行為設(shè)計的難度大、設(shè)計完成的菌群穩(wěn)定性差等問題,并且合成群落中菌種數(shù)量的遞增只能通過更復(fù)雜的營養(yǎng)化策略,隨之帶來的是工程菌株中構(gòu)建的回路大多數(shù)是為了維持群落穩(wěn)定而非產(chǎn)品的工業(yè)生產(chǎn)。以上這一系列問題給利用該策略建立大型功能性菌群帶來了諸多麻煩。
“自上而下”的研究策略則是微生物學(xué)家和組學(xué)家的主戰(zhàn)場?!白韵露稀钡难芯坎呗陨瞄L構(gòu)建中小型功能性菌群,相比之下“自上而下”的設(shè)計策略在分析和建立大型、復(fù)雜的功能性菌群方面更具優(yōu)勢。這一策略的研究有明顯的前期后期分界線。
2.2.1 通過馴化獲得功能性菌群
該策略前期的研究工作集中在菌群馴化(圖2),通過物理化學(xué)環(huán)境的設(shè)計引導(dǎo)現(xiàn)有的微生物組(自然發(fā)生或接種)發(fā)生生態(tài)選擇,以執(zhí)行期望的生物過程。成功的例子包括:來自瓦格寧根大學(xué)的Lettinga 課題組[51]通過改變反應(yīng)器內(nèi)的流體動力特征來調(diào)整硫酸鹽廢水中硫酸鹽還原菌和甲烷產(chǎn)生菌之間的競爭關(guān)系;南洋理工大學(xué)的Liu 課題組[52]系統(tǒng)性地闡述了在生物膜和活性污泥形成過程中,生物反應(yīng)器內(nèi)水的剪應(yīng)力對于微生物群落的形成、結(jié)構(gòu)和代謝過程的重要作用等。同時在這一時期發(fā)展了一系列相關(guān)的數(shù)學(xué)模型,用來量化解析系統(tǒng)中化學(xué)物質(zhì)和相關(guān)微生物的質(zhì)量平衡關(guān)系,并模擬了化學(xué)和生物化學(xué)轉(zhuǎn)化率,探究了系統(tǒng)內(nèi)的微生物群落的空間關(guān)系:昆士蘭大學(xué)的Batstone 課題組建立了厭氧消化過程的數(shù)學(xué)模型,推動了傳統(tǒng)廢水循環(huán)中反應(yīng)器的設(shè)計與新興厭氧過程的發(fā)現(xiàn)[53];通過結(jié)合物理輸運過程模型,來自代爾夫特理工大學(xué)的van Loosdrecht課題組[54]建立了多物種參與的生物膜模型來分析不同環(huán)境條件下產(chǎn)生的生物膜的性質(zhì)。這一系列與時間、空間相關(guān)的模型推動了“自上而下”功能性菌群設(shè)計策略的發(fā)展,加深了研究者們對于自然環(huán)境下微生物群落的形成條件和培養(yǎng)要求的理解,反過來指導(dǎo)了一系列菌群馴化相關(guān)的反應(yīng)器的設(shè)計以及培養(yǎng)條件的設(shè)置。
圖2 使用“自上而下”策略構(gòu)建功能菌群構(gòu)建Fig.2 “Top-Down”strategy for construct functional microbial communities
2.2.2 通過挖掘與原位改造技術(shù)打開“環(huán)境菌群黑箱”
該策略后期研究目標(biāo)慢慢轉(zhuǎn)向如何打開環(huán)境菌群的“黑箱”,向大自然尋求智慧。這個時期的主要工作集中于兩部分:挖掘和原位改造由大自然環(huán)境長期進化產(chǎn)生的生態(tài)系統(tǒng)(圖2)。
利用宏基因組技術(shù)進行信息的挖掘。研究者們通過環(huán)境微生物的采樣,不僅在大自然中發(fā)現(xiàn)了新的微生物物種[如加州大學(xué)伯克利分校(UC Berkeley)的Banfield課題組[55]利用宏基因組技術(shù)從地下水中發(fā)現(xiàn)了一類由于16S rRNA 的特殊性無法被傳統(tǒng)方法檢測出的原核生物,并命名其為CPR],而且發(fā)現(xiàn)了一系列的新生物磚,以及新的化學(xué)品合成回路(美國洛克菲勒大學(xué)Brady團隊[56]利用NRPS 基因宏基因組測序和BAC 文庫篩選的方法從2000 多個土壤樣本中發(fā)現(xiàn)了一種未知抗生素合成基因簇)。他們還成功發(fā)現(xiàn)了新的蛋白質(zhì)(來自曼徹斯特大學(xué)的Turner課題組[57]在英國海岸的環(huán)境樣品中發(fā)現(xiàn)了300 多種新的亞胺還原酶)、新的CRISPR 系統(tǒng)[諾貝爾獎獲得者,加州大學(xué)伯克利分校(UC Berkeley)的Doudna 課題組[58]從地下水、底泥、酸性尾礦廢水生物膜和土壤、嬰兒腸道等微生物樣品中挖掘出第1 個來自古菌的Cas9 蛋白和2 個新的CRISPR-Cas 系統(tǒng)]以及一系列的特殊調(diào)控元件(哥倫比亞大學(xué)的Wang團隊[59]通過宏基因組挖掘的方式從數(shù)據(jù)庫中發(fā)現(xiàn)大量5'端調(diào)控元件,經(jīng)高通量實驗驗證后發(fā)現(xiàn)一系列能夠?qū)崿F(xiàn)物種特異性表達的元件)。隨著第三代測序(例如Nanopore和PacBio等)的興起,測序的讀長的增加使得我們能夠挖掘到更為完整的群落信息,獲得更多大自然進化中的瑰寶。
摒棄在實驗室中進行實驗的方式,發(fā)展原位工程的改造策略。原位工程上的發(fā)展給予了研究者們更自由的操作空間和更有希望的應(yīng)用前景,但相比實驗室的非原位工程而言也具有更高的難度。首先,要保證有方法可以遞送質(zhì)粒進入環(huán)境:Wang 課 題 組[60]利 用 接 合 型 質(zhì) 粒(conjugative plasmids),成功將熒光蛋白基因?qū)胄∈蟮哪c道菌群中,建立了在哺乳動物腸道微生物中進行原位工程的方式方法;其次,要確保具有群落內(nèi)精準(zhǔn)基因編輯的工具:UCSF 的Turnbaugh 課題組[61]利用噬菌體M13 完成了群落中大腸桿菌的精準(zhǔn)基因編輯。上述兩項工作,分別對標(biāo)代謝工程中的基因工程改造和基因編輯方法,讓我們在原位水平上修改群落屬性成為可能。當(dāng)然也有作為早期工作的延伸,通過改變環(huán)境條件進行原位菌落馴化的研究:上海交通大學(xué)的張晨虹課題組[62]通過高纖維飲食引起整個腸道微生物群落的變化,使得群落發(fā)酵產(chǎn)生短鏈脂肪酸。類似的工作還有最近吸引眾多科研者目光的糞便微生物移植技術(shù)(FMT)[63]。
利用自上而下的策略設(shè)計功能性菌群的研究中,早期菌群的馴化已經(jīng)能夠解決很大一部分的生態(tài)問題(其中代表性的生態(tài)污泥的研究[51-52]也已趨近完善,并具有應(yīng)用價值),后期在打開菌群這個“黑箱”的過程中,元件的挖掘與原位技術(shù)也取得了一定的進展[56-59]:可以看見自上而下的研究方法為自下而上的元件設(shè)計研究提供了不少新思路,兩者的界限正在慢慢地被打破,一些新的研究范式正在被催生[38]。但是,在后期的研究中,環(huán)境樣本的收集和元件的驗證需要高通量的實驗技術(shù),巨大的實驗工作量對有限的人力物力造成了極大挑戰(zhàn)。除此之外,原位工程技術(shù)的發(fā)展不僅受到接合型質(zhì)粒轉(zhuǎn)入范圍較小且不穩(wěn)定的影響,也受限于噬菌體工程[64]:是否存在廣譜噬菌體或是通過噬菌體改造來改變噬菌體的專一性,進而加強原位工程的精準(zhǔn)性。同時該策略雖然在生態(tài)治理中具有廣泛的應(yīng)用前景,但是對于工業(yè)生產(chǎn)來說可操作性差,難以保障生物安全[38]。
“自下而上”和“自上而下”兩種微生物組研究策略之所以能夠獲得迅猛的進步,除了合成生物技術(shù)的發(fā)展,還要歸功于它們的另一個共性之處--廣泛使用組學(xué)技術(shù)作為群落的分析手段:“自下而上”的研究方法利用了培養(yǎng)組學(xué)技術(shù)結(jié)合16S 擴增子測序技術(shù),解析合成群落的結(jié)構(gòu)以及研究群落動態(tài)變化[46],而“自上而下”的研究策略利用宏基因組技術(shù)從環(huán)境中獲得基因組信息[55-61]、研究群落的動態(tài)變化過程及原因[62]。而在此之前,研究人員已經(jīng)開發(fā)了一系列的方法、流程和軟件來完成復(fù)雜的組學(xué)分析問題。
在群落研究中廣泛使用的組學(xué)技術(shù)包括宏基因組(metagenomics)、宏轉(zhuǎn)錄組(metatranscriptomics)、宏蛋白組(metaproteomics)、宏代謝組(metametabolomics)等。其中,擴增子測序[65]生成菌群結(jié)構(gòu)譜,用于研究菌群中微生物種類、豐度和比例;宏基因組[66]解析了菌群的功能性問題;宏轉(zhuǎn)錄組[65]、宏蛋白質(zhì)組[67]、宏代謝組[68]則揭示了在采集樣本時的理化環(huán)境條件下,菌群準(zhǔn)備發(fā)揮什么功能、菌群正在發(fā)揮什么功能、菌群已經(jīng)發(fā)揮了什么功能。通過對宏組學(xué)數(shù)據(jù)的處理,我們可以獲得整個微生物群落組成、功能、相互作用關(guān)系的圖譜(圖3)。
圖3 使用“宏組學(xué)”分析功能性菌群Fig.3 Analyzing functional microbial communities using meta-omics methodology
早期的宏組學(xué)作為功能性菌群的分析工具,主要集中于利用單一組學(xué)對群落進行分析??屏_拉多大學(xué)Pace[69]在1985年最早提出了從環(huán)境樣品中直接克隆DNA 的想法,而后擴增子測序和鳥槍測序法的出現(xiàn)推動了這一學(xué)科的發(fā)展,一系列大型的測序計劃接踵而至:由美國國立衛(wèi)生研究院(NIH)發(fā)起的人類微生物組計劃(iHMP)通過擴增子測序(階段一)和宏基因組測序(階段二)的方法加深了人們對于微生物菌群相關(guān)疾病的理解[70]。同時,研究人員也將目光從地球環(huán)境轉(zhuǎn)向生物反應(yīng)器,如,來自康奈爾大學(xué)的Angenent 課題組[71]通過對9 個生物反應(yīng)器長達1 年的采樣并對樣品進行擴增子測序,繪制了每個生物反應(yīng)器中的群落圖譜,分析結(jié)果表明了每個生物反應(yīng)器中都具有獨特的高穩(wěn)定性群落結(jié)構(gòu)。近兩年來,漸漸有課題組開始利用多組學(xué)聯(lián)用技術(shù)對功能菌群的進行分析:盧森堡大學(xué)的Willems 課題組[72]通過宏基因組、宏轉(zhuǎn)錄組、宏蛋白質(zhì)組和宏代謝組學(xué)聯(lián)用的方法,對來自生物廢水處理廠的含油微生物種群進行了分析,發(fā)現(xiàn)了群落中存在著廣泛的表型可塑性和生態(tài)位互補性,并利用培養(yǎng)實驗揭示了微生物生態(tài)系統(tǒng)是如何應(yīng)對干擾的;香港大學(xué)張彤課題組[73]建立了宏基因組、宏轉(zhuǎn)錄組、靶向代謝組學(xué)聯(lián)用的分析流程,從具有雙酚A(BPA)生物降解功能的功能性菌群中識別出了參與種間相互作用的底物,并通過分離培養(yǎng)和共培養(yǎng)的方式證明了基于多組學(xué)整合分析方法構(gòu)建出的復(fù)雜降解途徑。相較于單一組學(xué),尤其是在擴增子測序和宏基因組測序方面,多組學(xué)聯(lián)用能夠更為精準(zhǔn)地刻畫功能性菌群的時空景觀,但是同時產(chǎn)生的海量數(shù)據(jù)也為分析帶來極高的難度,大幅增加的數(shù)據(jù)量帶來了算力需求提升以及如何進行多組學(xué)之間的融合分析[74]等諸多問題。
宏組學(xué)數(shù)據(jù)的主要處理軟件見表1。
表1 宏組學(xué)數(shù)據(jù)的主要處理軟件Tab.1 Major software for processing meta-omics data
宏組學(xué)數(shù)據(jù)的處理難點主要產(chǎn)生于宏基因組和宏轉(zhuǎn)錄組的處理過程中如何從擴增子和鳥槍測序法的數(shù)據(jù)中解析出整個生物群落的整體概況--主要是針對基因序列的處理。宏蛋白組、宏代謝組兩種組學(xué)的處理方式和一般蛋白組學(xué)和代謝組學(xué)方法較為一致,本文此處不再贅述。
目前,處理“宏基因組”數(shù)據(jù)的主要流程軟件 包 括QIIME[75]、QIIME2[76]、bioBakery[77]和metaWRAP[78]等。其中,由UCSD 的Knight 課題組開發(fā)的QIIME2,是QIIME 的升級版本,由開源軟件Python 和R 編寫,具有便利的cli、Artifact API、Studio三種操作模式。其主要對擴增子數(shù)據(jù)進行分析,功能包括:下機數(shù)據(jù)的預(yù)處理、質(zhì)量控制、聚類獲得操作分類單元(operating taxonomic units,OTUs)、利用DADA2[89]降噪獲得擴增子序列變體(amplicon sequence variant,ASV)、特征表的生成、群落多樣性指標(biāo)的計算、群落發(fā)育樹的建立等,涵蓋了擴增子測序數(shù)據(jù)處理和分析的方方面面。bioBakery 和metaWRAP 主要針對宏基因組數(shù)據(jù),分別采用基于比對和基于組裝兩種不同的分析方式。由哈佛大學(xué)Huttenhower 課題組研開發(fā)的bioBakery 支持多組學(xué)的數(shù)據(jù)整合,同時支持?jǐn)U增子數(shù)據(jù)分析。整體流程整合了Kneaddata[90]用于對宏基因組測序數(shù)據(jù)進行質(zhì)量控制;MetaPhlAn[91]用于從宏基因組鳥槍測序數(shù)據(jù)中分析微生物群落的組成;HUMAnN[92]用于從宏基因組或宏轉(zhuǎn)錄組測序數(shù)據(jù)中準(zhǔn)確地分析大量微生物代謝途徑和其他分子功能;StrainPhlAn[93]用于群落內(nèi)菌株級別解析度的分析和群落內(nèi)系統(tǒng)發(fā)育樹的建立與分析。metaWRAP通過組裝的方式對宏基因組測序數(shù)據(jù)進行分析:metaWRAP-Read_qc模塊對原始數(shù)據(jù)進預(yù)處理和質(zhì)量控制,MegaHit[94]、metaSPAdes[95]或metaWRAP-Assembly 用于序列組裝,Kraken[96]用來對組裝的序列進行快速物種分類和豐度分析、MaxBin2[97]、metaBAT2[98]、CONCOCT[99]3 個軟件用于對組裝的序列進行進一步分箱。在宏基因組學(xué)數(shù)據(jù)處理的基礎(chǔ)上,基因組尺度代謝模型(genome-scale metabolic model,GEM)重建可以由CarveMe 完成[100]。在基因組尺度代謝模型重建的基礎(chǔ)上,目前能夠?qū)崿F(xiàn)直接靜態(tài)模擬功能(例如,通量平衡分析FBA、動態(tài)通量平衡分析dFBA等)的工具只有metaGEM 這一種[101]。群落動態(tài)模型可以由廣義Lotka-Volterra 模型實現(xiàn),但是尚未有人提出從分析時序性的多組學(xué)數(shù)據(jù)到生成群落含時的動態(tài)模型與模擬的標(biāo)準(zhǔn)處理流程,也尚未有人提出與從分析多組學(xué)的空間面板數(shù)據(jù)到生成群落區(qū)域關(guān)系的標(biāo)準(zhǔn)處理流程。
在組學(xué)算法不完善和樣本質(zhì)量不夠穩(wěn)定的影響下,利用宏組學(xué)研究群落動態(tài)存在如下缺點[65];代謝網(wǎng)絡(luò)重建不準(zhǔn)確和不完整;許多基因、蛋白質(zhì)和代謝物的功能未知;對驅(qū)動個體和群落水平表型的進化的原因缺乏理解;對基因、代謝和生態(tài)系統(tǒng)調(diào)節(jié)體系(例如,群體感應(yīng)信號-響應(yīng)系統(tǒng))的理解有限。而且越來越大的數(shù)據(jù)量亟需一個高效的信息處理流程。
盡管利用上述兩種策略(bottom-up&top-down)設(shè)計功能菌群的研究已經(jīng)取得較大的成功,但是由于技術(shù)所限,更多、更廣泛的功能菌群的設(shè)計與合成存在很大的挑戰(zhàn):諸如計算能力、數(shù)學(xué)模型的缺失以及巨大的實驗工作量等。而功能性菌群作為一個復(fù)雜群體,單獨的“自下而上”和“自上而下”已經(jīng)不足以用來設(shè)計這樣復(fù)雜的系統(tǒng)。威斯康星大學(xué)麥迪遜分校的McMahon 教授[38]通過總結(jié)兩種策略設(shè)計功能性菌群的現(xiàn)有研究,提出“整合設(shè)計(integrated design)”的概念來解決兩種策略的固有缺點:將基于過程的模型(topdown 策略)與利用代謝組學(xué)重構(gòu)的代謝模型(bottom-up策略)合并,以模擬生態(tài)系統(tǒng)過程、質(zhì)量平衡關(guān)系和代謝通量,并使用基因組及其衍生信息以制定菌群的設(shè)計策略;但是McMahon 教授并沒提出可行的流程。
近些年來人工智能技術(shù)[37,102]的興起,為解決“宏組學(xué)”產(chǎn)生的菌群大數(shù)據(jù)帶來了良兵利器[103]。結(jié)合了人工智能和整合設(shè)計的方針為功能性菌群的建立引入了“智能設(shè)計”策略。以下3點問題有望在短時間內(nèi)獲得較好的解決方案:
(1)區(qū)域范圍內(nèi)功能性菌群的時空變化關(guān)系
區(qū)域是多尺度的,從反應(yīng)器級別到市、省、國家、地球區(qū)域,對于各尺度區(qū)域中菌群的時空變化的理解,有利于研究人員開展微尺度區(qū)域下功能性菌群的時空控制與培養(yǎng)和進行大尺度區(qū)域下功能性菌群的采集。然而,對于此方向的研究,研究人員一般采用解釋性強但泛化性差的線性模型[104]。近期,諸如一系列基于深度學(xué)習(xí)的時空數(shù)據(jù)模型[105]以及神經(jīng)網(wǎng)絡(luò)解釋性的研究[106]的發(fā)展,有助于提高現(xiàn)有模型的泛化性并保持一定的解釋性。
(2)結(jié)合“宏組學(xué)”與深度學(xué)習(xí)的多組學(xué)群落分析流程
隨著測序價格下降帶來的海量組學(xué)數(shù)據(jù),需要一個可行、高效的信息處理流程。近年來,深度學(xué)習(xí)在解決超高維問題中的優(yōu)越性使其在生物學(xué)問題中具有廣泛的應(yīng)用:研究人員使用機器學(xué)習(xí)設(shè)計蛋白質(zhì)序列[107]、處理組學(xué)數(shù)據(jù)[108]等。機器學(xué)習(xí)在“宏組學(xué)”數(shù)據(jù)的處理上,包括OUT 聚類、分箱等已經(jīng)有了許多的應(yīng)用[103]??梢灶A(yù)見的是,接下來的重心應(yīng)該向“如何對特征表或是其他傳統(tǒng)算法輸出結(jié)果的進行整合”這一方向發(fā)展。宏組學(xué)數(shù)據(jù)分析產(chǎn)生了一系列的圖數(shù)據(jù)[109],包括代謝網(wǎng)絡(luò)、蛋白互作網(wǎng)絡(luò)等,隨著近兩年來圖神經(jīng)網(wǎng)絡(luò)的發(fā)展[110],正在逐漸地轉(zhuǎn)化為一個可操作的數(shù)據(jù)源;多模態(tài)學(xué)習(xí)[111]的發(fā)展則給予了多組學(xué)數(shù)據(jù)融合問題一個可以接入的框架。
(3)功能性菌群內(nèi)分布式代謝回路的計算設(shè)計
傳統(tǒng)合成生物學(xué)通過基于模型化的思想,構(gòu)建了一系列通量平衡分析模型來對底盤生物的代謝回路進行建模、模擬、預(yù)測與改造,發(fā)展了基于約束的代謝回路設(shè)計的計算方法[112]。原位工程的發(fā)展也已經(jīng)給予研究人員工程化復(fù)雜群落的能力[60-64],但反觀在復(fù)雜群落中設(shè)計代謝回路,由于群落中的微生物種類和數(shù)量、關(guān)系復(fù)雜性的上升,基于約束的代謝回路設(shè)計方式已經(jīng)不再適用[38]。但隨著近年來強化學(xué)習(xí)的發(fā)展[113],當(dāng)把已經(jīng)構(gòu)建好的群落動態(tài)模型作為一個交互環(huán)境,我們?nèi)匀挥邢M谌郝浼墑e下的高維優(yōu)化問題中獲得令人滿意的結(jié)果。
功能性菌群的構(gòu)建作為一個熱門的話題,該方面的研究現(xiàn)如今已經(jīng)有了令人可喜的成果,但也存在一些問題和挑戰(zhàn)。隨著組學(xué)技術(shù)的不斷發(fā)展和“智能設(shè)計”的引入,相信不久的將來這個領(lǐng)域?qū)@得更大的突破。