袁姚夢,邢新會,2,張翀
(1 工業(yè)生物催化教育部重點實驗室,清華大學(xué)化工系生物化工研究所,清華大學(xué)合成與系統(tǒng)生物學(xué)研究中心,北京100084; 2 清華大學(xué)深圳國際研究生院生物醫(yī)藥與健康工程研究院,廣東 深圳 518055)
以石油等不可再生化石資源為原料的傳統(tǒng)制造業(yè)面臨著“高能耗、高污染、高排放”等嚴(yán)峻挑戰(zhàn),亟需通過生產(chǎn)原料、加工過程和產(chǎn)品創(chuàng)制的綠色變革,實現(xiàn)未來的可持續(xù)發(fā)展。綠色生物制造以可再生資源為原料,利用生物催化和轉(zhuǎn)化過程,實現(xiàn)高附加值產(chǎn)品的綠色制造,由于其能夠?qū)崿F(xiàn)工業(yè)制造模式從“末端治理”到“源頭控制”、從“低端產(chǎn)品”到“高值化轉(zhuǎn)化”的轉(zhuǎn)變,成為推動生物經(jīng)濟(jì)發(fā)展的重要路徑之一。
微生物細(xì)胞工廠(microbial cell factories,MCFs)是綠色生物制造的核心環(huán)節(jié)。利用微生物強(qiáng)大且多樣的生化反應(yīng)網(wǎng)絡(luò),通過對代謝路徑的重塑和工程化,可以將微生物細(xì)胞改造為能夠以低價值可再生資源為原料生產(chǎn)各類產(chǎn)品的MCFs。從青霉素[1]、谷氨酸[2]、乙醇、1,3-丙二醇[3]、法尼烯[4]到阿片類藥物[5]等生物合成 MCFs 的成功開發(fā),展示了MCFs 合成高附加值化學(xué)品的巨大潛力。迄今為止,MCFs 已能夠生產(chǎn)抗生素、氨基酸、重組蛋白、生物能源[6]、生物塑料乃至“人造肉”,被廣泛應(yīng)用于制藥、食品、能源和農(nóng)業(yè)等領(lǐng)域[7-12]。
MCFs 的構(gòu)建策略經(jīng)歷了不同的歷史階段。在20 世紀(jì)90 年代之前,主要通過天然微生物的篩選和非理性誘變育種技術(shù)獲得目標(biāo)產(chǎn)物高產(chǎn)菌株。這種將隨機(jī)突變和定向篩選相結(jié)合的策略在工業(yè)菌株的開發(fā)上已經(jīng)有諸多經(jīng)典成功案例[13-15]。然而,由于突變過程的隨機(jī)性,這種策略往往花費時間長、工作量大,是一種典型的“以時間(人力)換水平”的策略。盡管如此,由于其具有應(yīng)用歷史悠久、操作簡單、適用范圍廣、屬于非轉(zhuǎn)基因操作等優(yōu)勢,非理性誘變育種策略至今仍然是微生物育種研究和產(chǎn)業(yè)應(yīng)用的常用平臺技術(shù)。
20 世紀(jì)90 年代以來,隨著分子生物學(xué)、基因工程技術(shù)的逐步引入,代謝工程學(xué)科正式創(chuàng)立[16-17]。代謝工程利用重組DNA 技術(shù)對生物體中已知的代謝途徑進(jìn)行有目的的設(shè)計,以更好地理解和利用細(xì)胞途徑,并對細(xì)胞內(nèi)的基因網(wǎng)絡(luò)和調(diào)節(jié)過程進(jìn)行調(diào)控和優(yōu)化,構(gòu)建具有特定功能的MCFs,例如,提高現(xiàn)有產(chǎn)品的產(chǎn)率,生產(chǎn)新的產(chǎn)品和擴(kuò)大可用的底物范圍[16-18]。按照代謝工程的理論框架,所構(gòu)建的MCFs 需要滿足[19]:第一,通過對代謝網(wǎng)絡(luò)物質(zhì)流和能量流的設(shè)計,實現(xiàn)底物消耗和目標(biāo)產(chǎn)物生產(chǎn)的最優(yōu)化;第二,改造后的MCFs 能夠適應(yīng)工業(yè)生產(chǎn)環(huán)境,滿足工業(yè)生產(chǎn)需求。
隨著分子生物學(xué)和反向遺傳工程手段的發(fā)展,人們對于微生物代謝網(wǎng)絡(luò)及其調(diào)控機(jī)制的認(rèn)識得到了巨大的進(jìn)步,然而,由于微生物系統(tǒng)的復(fù)雜性,仍然不能完全理性地設(shè)計滿足工業(yè)需求的MCFs。目前,利用代謝工程策略開發(fā)MCFs 的流程主要依靠“設(shè)計-構(gòu)建-測試-學(xué)習(xí)”(design-buildtest-learning, DBTL)循環(huán)[20],通常從MCFs概念設(shè)計(proof of concept)到滿足實際應(yīng)用,需要50~300人年和數(shù)億美元的投入[21],耗時耗力、投入高。在代謝工程MCFs 創(chuàng)制的DBTL 循環(huán)中,“理性設(shè)計”始終是人們的理想目標(biāo),也由此應(yīng)運而生諸多代謝網(wǎng)絡(luò)模型和設(shè)計策略。然而,經(jīng)典代謝工程指導(dǎo)的設(shè)計方法大多都基于已知的生物學(xué)知識,由于微生物代謝網(wǎng)絡(luò)中存在諸多可能對目標(biāo)表型產(chǎn)生影響的未知因素,或稱為“生命暗物質(zhì)”,這一手段仍然存在諸多局限[22-25]。生物信息學(xué)和各種組學(xué)技術(shù)的快速發(fā)展,使得研究者逐漸有能力從系統(tǒng)代謝工程的層次思考MCFs的快速創(chuàng)制,例如,基于全基因組改組技術(shù)[26]、新型誘變技術(shù)[27]、單敲除庫篩選技術(shù)[25]、基因組文庫共存/共表達(dá)(coexisting/coexpressing genomic libraries, CoGeLs)[28]等技術(shù),結(jié)合組學(xué)和生物信息學(xué)手段獲取生物學(xué)知識,以進(jìn)一步指導(dǎo)MCFs 的設(shè)計。這一理性/半理性結(jié)合的策略為突破知識局限,獲取更為高效的MCFs 提供了重要的手段,然而,系統(tǒng)代謝工程手段獲取知識的效率不高,MCFs 改造過程仍然需要耗費大量的時間和精力。
近年來,合成生物學(xué)的進(jìn)步使得MCFs構(gòu)建和測試的能力得到顯著提升,為提高構(gòu)建效率以滿足市場快速變化和多樣的需求提供了重要的機(jī)遇。另一方面,二代測序(next generation sequencing,NGS)和基因組編輯的技術(shù)飛躍,使得從全基因組層次設(shè)計和構(gòu)建MCFs成為可能。利用高通量研究技術(shù),目前已經(jīng)可以從全基因組層次并行研究微生物特定表型與基因型的關(guān)系,從而獲得大規(guī)模的基因型-表型關(guān)聯(lián)(genotype phenotype associations,GPA)數(shù)據(jù)集[29]。如果能夠利用這些大規(guī)模GPA 數(shù)據(jù)集,基于數(shù)據(jù)科學(xué)手段從全基因組范圍深度挖掘傳統(tǒng)分子生物學(xué)手段無法發(fā)現(xiàn)的未知關(guān)聯(lián)基因及其位點,將有可能從數(shù)據(jù)(學(xué)習(xí))的角度繞開理性設(shè)計的知識瓶頸,為提高M(jìn)CFs設(shè)計和創(chuàng)建效率提供全新的研究范式。此外,由于上述數(shù)據(jù)驅(qū)動的全基因組規(guī)模定制工程策略基因型搜索范圍更寬(全基因組),不依賴于現(xiàn)有知識(數(shù)據(jù)驅(qū)動),將有可能探索之前理性/半理性所無法達(dá)到的表型“高地”,獲得生產(chǎn)效率更為高效、生產(chǎn)性能更加優(yōu)越的下一代定制化MCFs。
本文將結(jié)合實際案例對MCFs的設(shè)計及構(gòu)建策略進(jìn)行綜述,首先回顧傳統(tǒng)誘變育種和代謝工程指導(dǎo)的理性/半理性設(shè)計策略,接著探討如何突破代謝工程經(jīng)典框架限制,利用全基因組規(guī)模定制工程實現(xiàn)全基因組水平定制化MCFs的快速構(gòu)建,最后將對這一新的MCFs 構(gòu)建范式的未來進(jìn)行展望(圖1)。
圖1 微生物細(xì)胞工廠(MCFs)設(shè)計和構(gòu)建發(fā)展歷程及未來展望Fig.1 Development and future prospects of MCFs design and construction
誘變育種(mutation breeding)是在人為條件下,利用物理、化學(xué)、生物因素,誘發(fā)生物體產(chǎn)生突變,從中選擇、培育植物和微生物新品種的方法,長期以來在科學(xué)研究和生物產(chǎn)業(yè)中得到廣泛應(yīng)用。誘變育種手段通常包括物理誘變、化學(xué)誘變和生物誘變[30](表1)。物理誘變主要采用電離輻射和非電離輻射等物理因素誘發(fā)變異;化學(xué)誘變主要利用烷化劑、堿基類似物、移碼誘變劑、脫氨劑和羥化劑等化學(xué)物質(zhì)誘發(fā)變異;生物誘變主要包括噬菌體、質(zhì)粒、DNA 轉(zhuǎn)座子誘變和原生質(zhì)體融合、DNA 改組、基因組重排等能夠顯著提高基因重組頻率的誘變技術(shù)。誘變產(chǎn)生的突變隨機(jī)性大、且在全基因組范圍分布稀疏,存在大量的無義突變,因此,采用誘變育種技術(shù)獲得理想性狀的微生物往往花費時間長、工作量大,是一種典型的“以時間(人力)換水平”的策略。盡管如此,由于誘變育種技術(shù)采用非理性的手段,理論上不需要任何先驗的微生物代謝網(wǎng)絡(luò)結(jié)構(gòu)及其調(diào)控的知識,對于沒有基因操作手段的微生物,或者具有非轉(zhuǎn)基因(non-GMO)需求的應(yīng)用領(lǐng)域(如食品),在20世紀(jì)90年代之前一直被作為MCFs開發(fā)的最重要的手段,目前也仍然是微生物技術(shù)科研和發(fā)酵產(chǎn)業(yè)最為常用的育種手段之一。一個典型的例子是青霉素菌株的選育,1943年,研究者從霉甜瓜中分離得到一株產(chǎn)黃青霉NRRL-1951,其青霉素產(chǎn)量為60 mg/L,在長達(dá)50年的人工選育后,產(chǎn)黃青霉的青霉素產(chǎn)量已經(jīng)達(dá)到70 g/L[31]。
近年來,多種新型誘變技術(shù)的發(fā)展也為誘變育種注入了新的活力。例如離子注入誘變、等離子體誘變等[30](表1),這些新的誘變技術(shù)具有突變率高、變異范圍廣、變異穩(wěn)定等優(yōu)點。離子注入誘變要求嚴(yán)格的真空環(huán)境和安全防護(hù)措施[30],其推廣使用受到一定程度的限制。近年來新發(fā)展起來的常壓室溫等離子體誘變技術(shù)(ARTP)作為新型物理誘變方法,具有突變率高、突變速度快、突變庫容大、安全性高、可控性好、操作簡單等優(yōu)點,在微生物誘變育種中得到廣泛的應(yīng)用[27]。
20 世紀(jì)90 年代,隨著分子生物學(xué)的發(fā)展,微生物代謝網(wǎng)絡(luò)的物質(zhì)流、能量流以及復(fù)雜的調(diào)控機(jī)制得到了更為深入的研究,基于生物學(xué)知識的理性設(shè)計作為代謝工程指導(dǎo)的經(jīng)典設(shè)計策略逐漸被應(yīng)用于 MCFs 構(gòu)建領(lǐng)域。James E.Bailey[16]最早提出對代謝網(wǎng)絡(luò)進(jìn)行理性設(shè)計,并利用基因工程的手段對其進(jìn)行改造以實現(xiàn)代謝流量分布的優(yōu)化和目標(biāo)產(chǎn)物產(chǎn)量的提升的設(shè)想。Stephanopoulos[17-18]進(jìn)一步指出,微生物的代謝網(wǎng)絡(luò)中具有諸多“剛性”節(jié)點,能夠通過復(fù)雜的調(diào)控機(jī)制抵抗遺傳擾動帶來的通量變化。從代謝網(wǎng)絡(luò)分析的角度看,代謝網(wǎng)絡(luò)的理性設(shè)計面臨三個挑戰(zhàn)[18]:
表1 常見物理、化學(xué)、生物誘變技術(shù)匯總Tab.1 Summary of mutagenesis technologies
(1)識別代謝網(wǎng)絡(luò)中流量分配顯著影響產(chǎn)品合成的關(guān)鍵節(jié)點。多數(shù)工作僅調(diào)控位于產(chǎn)物合成途徑末端的反應(yīng),取得的成就十分有限。事實上,來源于中心代謝的合成前體、輔因子和能量供應(yīng)對產(chǎn)物合成也具有重要的作用,識別其中的關(guān)鍵節(jié)點是顯著提高優(yōu)化效率的基礎(chǔ)。
(2)確定關(guān)鍵節(jié)點處最合適的基因改造類型。包括過表達(dá)目標(biāo)產(chǎn)物合成途徑、抑制副產(chǎn)物生成酶活性、解除剛性關(guān)鍵節(jié)點的調(diào)控機(jī)制等。代謝網(wǎng)絡(luò)的流量分布需要嚴(yán)格而小心的調(diào)控,確定合適的流量調(diào)控類型和程度,是優(yōu)化MCFs的必要步驟。
(3)優(yōu)化中心代謝流量分布之后。需要識別產(chǎn)品合成途徑中所有的代謝控制位點并對其進(jìn)行精準(zhǔn)調(diào)控,同時對潛在競爭途徑中的酶活性加以平衡,以獲得產(chǎn)量提升、性能穩(wěn)定的MCFs。
在經(jīng)典代謝工程領(lǐng)域,多種代謝網(wǎng)絡(luò)分析和設(shè)計方法的不斷提出和完善為代謝網(wǎng)絡(luò)的理性設(shè)計提供了理論和技術(shù)支撐(表2)。這些分析方法主要包括:動力學(xué)分析法,可用于細(xì)胞內(nèi)酶促反應(yīng)動力學(xué)模型的建立和分析;代謝網(wǎng)絡(luò)分析方法,可用于確定某一目標(biāo)函數(shù)下代謝通量的唯一解或進(jìn)行途徑分析,包括代謝通量分析、通量平衡分析和代謝途徑分析三類分析方法;整合了熱力學(xué)的代謝網(wǎng)絡(luò)分析,即以熱力學(xué)第二定律對所有代謝反應(yīng)加以約束,例如網(wǎng)絡(luò)嵌入的熱力學(xué)分析(NET)。隨著計算技術(shù)的進(jìn)步和更多代謝模型的建立,多種應(yīng)變優(yōu)化算法及軟件得到逐步開發(fā)和應(yīng)用,例如基于約束的重構(gòu)與分析(COBRA)。
在此基礎(chǔ)上,研究者逐步闡明了大腸桿菌、谷氨酸棒桿菌、釀酒酵母等微生物的核心代謝網(wǎng)絡(luò),并提出了一系列可用于通量平衡分析的化學(xué)計量學(xué)模型。早期代謝工程領(lǐng)域的代謝途徑設(shè)計幾乎都基于核心代謝網(wǎng)絡(luò)模型,隨著系統(tǒng)生物學(xué)的發(fā)展,基因組規(guī)模代謝重構(gòu)(genome-scale metabolic reconstruction, GSMR)的概念最先在大腸桿菌中被提出[50],隨后,基因組規(guī)模代謝模型(genome-scale metabolic model,GSMM)的概念進(jìn)一步推動了大量基因組規(guī)模實驗數(shù)據(jù)與數(shù)學(xué)建模的結(jié)合,增進(jìn)了人們對于基因組規(guī)模代謝的理解[51-52],MCFs 的代謝模型構(gòu)建規(guī)模也逐漸從核心代謝規(guī)模上升到基因組規(guī)模。Nielsen 和Palsson課題組首次提出了釀酒酵母的代謝模型,這也是真核生物第一個基因組規(guī)模代謝模型[53]。隨著NGS 技術(shù)、組學(xué)分析技術(shù)的快速發(fā)展,越來越多的微生物代謝模型被不斷提出和完善(表3)。
代謝網(wǎng)絡(luò)全基因模型及其計算機(jī)優(yōu)化模擬算法的開發(fā)極大地提高了人們對代謝網(wǎng)絡(luò)的設(shè)計和分析能力,這種從系統(tǒng)層次對微生物代謝網(wǎng)絡(luò)進(jìn)行理性設(shè)計的系統(tǒng)代謝工程方法論逐漸成為MCFs改造領(lǐng)域的研究熱點。2011 年,Becker 等[73]通過基因組規(guī)模的計算模擬,僅通過12 處基因改造就將谷氨酸棒桿菌內(nèi)的代謝流重新定向為合成L-賴氨酸的最優(yōu)途徑,該基因工程改造菌LYS-12 生產(chǎn)的L-賴氨酸滴度達(dá)到120 g/L,轉(zhuǎn)化率為0.55 g氨基酸/g葡萄糖,產(chǎn)率達(dá)到4.0 g/(L·h),以上指標(biāo)均達(dá)到了過去50多年通過誘變育種獲得的最高水平,是第一個可與已有工業(yè)生產(chǎn)菌株競爭的基因工程設(shè)計的L-賴氨酸高產(chǎn)菌。然而由于模型預(yù)測準(zhǔn)確性還亟待提高,基于該方法論的菌株開發(fā)策略仍然依賴于“設(shè)計-構(gòu)建-測試-學(xué)習(xí)”的循環(huán)迭代(試錯)流程[20](圖2):首先利用系統(tǒng)生物學(xué)工具建立微生物的代謝模型,確定MCFs改進(jìn)目標(biāo);接著利用基因工程手段進(jìn)行菌株構(gòu)建;對菌株進(jìn)行表征,并結(jié)合高通量分析或組學(xué)分析等手段對目標(biāo)參數(shù)進(jìn)行評估;根據(jù)分析結(jié)果,對模型進(jìn)行改進(jìn);重復(fù)迭代,直至獲得滿足需求性狀的目的MCFs。需要注意的是由于生物系統(tǒng)的多層次網(wǎng)絡(luò)結(jié)構(gòu)及復(fù)雜性,基于系統(tǒng)層次的代謝網(wǎng)絡(luò)模型進(jìn)行MCFs開發(fā)必須依賴已有的生物學(xué)知識。Sang Yup Lee 等[74]主張將進(jìn)化代謝工程方法論也納入系統(tǒng)代謝工程方法論體系,通過將理性設(shè)計和非理性的隨機(jī)突變或適應(yīng)性進(jìn)化相結(jié)合,利用比較組學(xué)手段可以獲取與微生物代謝網(wǎng)絡(luò)結(jié)構(gòu)及其調(diào)控相關(guān)的未知信息,從而進(jìn)一步提高M(jìn)CFs設(shè)計效率和性能。
表2 用于代謝網(wǎng)絡(luò)設(shè)計的分析方法Tab.2 Analytical methods for metabolic network design
理性/非理性設(shè)計指導(dǎo)的MCF 代謝工程改造策略在實際應(yīng)用中已經(jīng)取得巨大成功,表4匯總了其中一些代表性案例。然而,由于生物系統(tǒng)的復(fù)雜性和“生命暗物質(zhì)”的普遍存在,目前代謝工程主流采用的“設(shè)計-構(gòu)建-測試-學(xué)習(xí)”迭代試錯流程,通常從MCFs 概念設(shè)計(proof of concept)到滿足實際應(yīng)用需求,需要50~300人年和數(shù)億美元的投入。近年來,市場快速變化且多種多樣的需求給MCFs 的開發(fā)效率提出了更高的要求。另外,基于理性/非理性的設(shè)計策略主要基于已知生物學(xué)知識,難以達(dá)到某些未知的表型“高地”,從而制約MCFs性能的進(jìn)一步提升。因此,亟需開發(fā)更為高效的工程化策略以滿足未來快速定制化創(chuàng)制MCFs的需求。
表3 常見的微生物代謝模型匯總Tab.3 Summary of microbial metabolism models
微生物代謝及其控制是一個非線性復(fù)雜網(wǎng)絡(luò)系統(tǒng),細(xì)胞依靠其精巧的基因線路以及嚴(yán)格的調(diào)控機(jī)制來維持各項代謝活動的穩(wěn)定。按照“設(shè)計-構(gòu)建-測試-學(xué)習(xí)”的框架,基于已有的知識,利用基因、啟動子、核糖體結(jié)合位點等分子元件能夠自下而上地在微生物細(xì)胞中進(jìn)行基因線路的設(shè)計和構(gòu)建,從而可望開發(fā)出具有特定功能的MCFs。然而,由于已有生物學(xué)知識的局限性,生物系統(tǒng)存在極高的不可預(yù)測性,導(dǎo)致設(shè)計的基因線路在實際體系中難以達(dá)到理想的目標(biāo)。
事實上,隨著生物信息學(xué)和各種組學(xué)技術(shù)的快速發(fā)展,基因組范圍內(nèi)大量的未知功能基因位點逐漸被人們所認(rèn)知,包括潛在的別構(gòu)調(diào)節(jié)區(qū)域[22]、復(fù)雜的轉(zhuǎn)錄調(diào)節(jié)網(wǎng)絡(luò)[23]、功能未知的基因[24-25]等。這些未知因素及其背后的生物學(xué)機(jī)制限制了現(xiàn)有基于知識的理性/半理性設(shè)計的MCFs工程化策略的進(jìn)一步發(fā)展。為了在MCFs基因組范圍內(nèi)挖掘?qū)δ繕?biāo)表型有重要影響的基因位點,系統(tǒng)代謝工程領(lǐng)域常利用非理性誘變及篩選手段獲得缺陷型菌株,再人為選定目的基因并對其測序,從而找到關(guān)鍵位點。同時,隨著分子生物學(xué)技術(shù)的發(fā)展,亦可通過單敲除庫篩選[25]、基因組文庫共存/共表達(dá)[28]、全基因組ORF表達(dá)水平調(diào)節(jié)[86]等技術(shù)的發(fā)展使得人們能夠挖掘基因組上功能未知的基因位點。例如,目前已經(jīng)在大腸桿菌[87]、枯草芽孢桿菌[88]等模式微生物中對所有基因進(jìn)行逐一敲除,形成包含數(shù)千個不同突變體的單基因敲除菌株陣列(single-gene knockout mutants array),為全基因組范圍的功能基因組學(xué)研究提供了黃金標(biāo)準(zhǔn)。然而,這些技術(shù)往往耗時耗力,成本高昂,且僅能研究全基因范圍內(nèi)少數(shù)基因與目標(biāo)表型的關(guān)聯(lián)(genotype phenotype associations,GPA),亟需通過新技術(shù)的引入大幅提升未知功能基因挖掘的效率。
圖2 菌株理性工程化的試錯流程Fig.2 Ⅰterative trial-and-error cycle of rational engineering of strains
表4 代謝工程指導(dǎo)的經(jīng)典設(shè)計策略的商業(yè)化應(yīng)用案例Tab.4 Commercial application of classic design strategies guided by metabolic engineering
為了更為高效地設(shè)計和構(gòu)建MCFs,必須快速高效地挖掘基因組范圍內(nèi)與目標(biāo)表型相關(guān)聯(lián)的未知基因及其位點。近年來,高通量基因編輯技術(shù)和表型篩選技術(shù)的發(fā)展有可能為未來MCFs的構(gòu)建范式帶來革命性的變革。在基因型方面,首先利用基因型高通量構(gòu)建技術(shù)實現(xiàn)模式微生物全基因組范圍內(nèi)基因的高效編輯、突變和表達(dá)水平調(diào)節(jié);在表型方面,利用表型高通量表征及篩選技術(shù)實現(xiàn)目標(biāo)表型的高效表征和篩選;結(jié)合基因型高通量構(gòu)建和表型表征/篩選獲得的大容量混合文庫樣本,利用新一代測序和數(shù)據(jù)統(tǒng)計分析手段,建立特定表型關(guān)聯(lián)基因及其位點GPA 數(shù)據(jù)集;最后,利用大規(guī)模GPA 數(shù)據(jù)集,結(jié)合深度學(xué)習(xí)等數(shù)據(jù)科學(xué)手段,基于數(shù)據(jù)科學(xué)手段從全基因組范圍深度挖掘傳統(tǒng)分子生物學(xué)手段無法發(fā)現(xiàn)的未知關(guān)聯(lián)基因及其位點,將有可能從數(shù)據(jù)(學(xué)習(xí))的角度繞開現(xiàn)有理性設(shè)計的知識局限性,進(jìn)一步指導(dǎo)高效MCFs 的構(gòu)建,為提高M(jìn)CFs 設(shè)計和創(chuàng)建效率提供全新的研究范式。以下將對這一研究范式涉及的不同技術(shù)環(huán)節(jié)進(jìn)行概要介紹。
微生物的基因組改造(敲入、敲除和引入突變)最早是基于同源重組技術(shù)實現(xiàn)的。最為廣泛應(yīng)用的Red/ET 同源重組技術(shù)利用單鏈DNA(singlestrand DNA,ssDNA)的重組實現(xiàn)基因組的改造,然而由于重組效率的限制,這一方法僅限于對單個基因進(jìn)行串行操作,通量低,遠(yuǎn)不能滿足全基因組范圍大量基因編輯的需求。2009 年,George M.Church 團(tuán)隊提出了多重自動化基因組工程(multiplex automated genome engineering,MAGE)技術(shù)[89],通過對Red/ET 同源重組的參數(shù)進(jìn)行優(yōu)化并提出一套自動化裝置,將單次ssDNA 重組效率提高到約30%。利用這一技術(shù)同時將靶向基因組上多個位點的ssDNA 文庫轉(zhuǎn)入細(xì)胞中,能夠?qū)崿F(xiàn)基因型的大規(guī)模并行改造。2010 年,Ryan T. Gill 團(tuán)隊提出了可追蹤多重重組技術(shù)(trackable multiplex recombineering,TRMR)[90],通過在引入的 DNA中插入特異性標(biāo)簽(barcode),在實現(xiàn)基因組改造的同時,還可通過后續(xù)的標(biāo)簽測序反向追蹤特定基因型。盡管MAGE 和TRMR 的出現(xiàn)極大地提高了微生物功能基因組學(xué)研究的通量,然而,高效同源重組工具只存在于少數(shù)模式微生物中,難以推廣到更多具有應(yīng)用價值的非模式微生物中。
近年來,CRⅠSPR 基因編輯技術(shù)的飛速發(fā)展為更為便捷的基因組編輯帶來了新的機(jī)遇。CRⅠSPR-Cas 系統(tǒng)中的sgRNA 能夠特異性靶向目標(biāo)DNA 序列,根據(jù)不同需要引入Cas 蛋白(及其突變體或具有特定功能的融合蛋白),就能夠?qū)崿F(xiàn)目標(biāo)基因的切割[91]、抑制[92]、激活[93]、編輯[94]和突變[95]。這類技術(shù)的可推廣性遠(yuǎn)遠(yuǎn)高于前述的同源重組技術(shù),目前已經(jīng)被證明適用于包括古細(xì)菌在內(nèi)的十余種重要的模式微生物[96-104]。由于sgRNA 只有20 bp 長,其本身就可以作為目標(biāo)基因的特異性標(biāo)簽,實現(xiàn)混合文庫中特定基因型的反向追蹤。利用這一特性,結(jié)合DNA 合成和NGS 技術(shù),能夠?qū)崿F(xiàn)sgRNA 文庫的定制化合成和后續(xù)基于NGS 的低成本擴(kuò)增子測序,從而極大地提高了功能基因組學(xué)研究的通量和便捷性。表5列舉了近年來開發(fā)的不同類型基因組高通量編輯技術(shù)及其應(yīng)用特性。
盡管基于CRⅠSPR-Cas 系統(tǒng)的高通量基因組編輯技術(shù)極大地提高了基因型的構(gòu)建能力,在表型關(guān)聯(lián)方面,現(xiàn)有研究主要以生長限制因素、耐藥性、溶劑耐受性等為篩選條件,基于不同基因型微生物生長適應(yīng)性(fitness)的差異,通過連續(xù)傳代實現(xiàn)目的表型的篩選[29,86,90,108-110,114]。由于采用傳統(tǒng)的搖瓶或孔板培養(yǎng)進(jìn)行傳代培養(yǎng),將會耗費大量的時間和成本,限制了基因型-表型關(guān)聯(lián)研究的效率。近年新發(fā)展起來的高通量微生物進(jìn)化培養(yǎng)系統(tǒng)大幅提高了傳代效率,例如,Wong 等[115]開發(fā)的eⅤOLⅤER設(shè)備能夠同時大規(guī)模培養(yǎng)16種不同的微生物,其硬件、軟件和濕件的高度模塊化能夠?qū)崿F(xiàn)配置的快速更改,以適應(yīng)更多高通量、自動化連續(xù)培養(yǎng)實驗。本團(tuán)隊自主開發(fā)的基于液滴微流控技術(shù)的“微生物微液滴培養(yǎng)儀”(microdroplet microbial culture,MMC),結(jié)合微流控技術(shù)和光電傳感與控制及自動化技術(shù),可以實現(xiàn)微升級微生物液滴平行培養(yǎng)、生長曲線測定和適應(yīng)性進(jìn)化(通量102~104),對于典型的模式微生物如大腸桿菌、釀酒酵母、乳酸桿菌等,可實現(xiàn)穩(wěn)定傳代100代,大大提升了微生物底物利用能力、溶劑耐受性等表型樣本獲取的效率[116]。
表5 基因組高通量編輯技術(shù)Tab.5 High-throughput genotype construction technologies
除了基于耐受性的表型高通量篩選模型,近年來,還發(fā)展了一系列代謝物產(chǎn)量高通量篩選技術(shù)與裝備。代謝物細(xì)胞傳感器作為一類重要的合成生物學(xué)工具,能夠通過特定的轉(zhuǎn)錄因子、核糖體開關(guān)等識別元件響應(yīng)細(xì)胞內(nèi)特定代謝物的濃度,并將其轉(zhuǎn)化為熒光、抗逆生長等特定的輸出信號,在代謝物濃度表型表征方面得到廣泛應(yīng)用。通過對天然識別元件進(jìn)行鑒定或工程化改造,目前已經(jīng)開發(fā)了不同的生物傳感器[117-120]。代謝物細(xì)胞傳感器與熒光激活細(xì)胞分選技術(shù)(FACS)相結(jié)合,可以將胞內(nèi)代謝物濃度轉(zhuǎn)換為易于檢測的熒光信號,利用流式細(xì)胞儀可實現(xiàn)細(xì)胞的高通量表征及分選,目前已有諸多成功案例。然而,基于FACS的高通量代謝物檢測技術(shù)僅局限于胞內(nèi)代謝物濃度的檢測,無法實現(xiàn)胞外代謝物的高通量檢測。為了解決這些問題,研究者提出了基于液滴微流控的高通量表型篩選方法,將微生物包覆在一個液滴之中進(jìn)行培養(yǎng),再以液滴為單位進(jìn)行胞外代謝物高產(chǎn)菌株的高通量篩選,表6列舉了具有代表性的代謝物高通量表型表征/篩選技術(shù),包括熒光激活液滴分選(FADS)、基于液滴的熒光激活細(xì)胞分選(Droplet-FACS)、基于凝膠微液滴的熒光激活細(xì)胞分選(Gel FACS)、拉曼活化液滴分選(RADS)等。
需要注意的是,目前的表型高通量表征/篩選技術(shù)仍然局限于特定時間點的單一表型快照(snapshot)。如果能夠利用近年來快速發(fā)展的單細(xì)胞RNA 測序[128]、微生物原位高精度熒光顯微定位追蹤[129-131]等技術(shù),使表型端能夠輸出高密度的時間序列信息,進(jìn)一步結(jié)合合成基因線路[132],將輸出表型擴(kuò)展為單細(xì)胞水平異質(zhì)性等更為重要和豐富的類型,將進(jìn)一步推動表型高通量表征和篩選技術(shù)的發(fā)展,大幅度提升MCFs 的工程化能力。
不同于陣列方法(array)對每個基因進(jìn)行逐一敲除或過表達(dá)并進(jìn)行單獨研究的策略,基于混合文庫篩選的方法通過高度平行化的實驗,對基因組范圍內(nèi)的基因位點進(jìn)行大規(guī)模的擾動,并檢測特定篩選條件下的表型變化,能夠?qū)崿F(xiàn)功能基因的快速篩選。以基于CRⅠSPR 體系的混合文庫篩選方法為例,其基本原理是利用定制化設(shè)計和合成的sgRNA 文庫產(chǎn)生混合基因型文庫,并在特定的篩選條件下進(jìn)行篩選,隨后利用NGS 技術(shù)對sgRNA 進(jìn)行擴(kuò)增子測序,根據(jù)測序結(jié)果分析篩選前后sgRNA 豐度的變化,從而獲得特定基因型與篩選條件的關(guān)系,進(jìn)而繪制全基因組規(guī)模的GPA圖譜,實現(xiàn)未知功能基因位點的深度挖掘。
表6 微生物代謝物高通量表征/篩選技術(shù)Tab.6 High-throughput selection/screening technologies in single-cell level
目前,這一策略已經(jīng)被逐漸引入到代謝工程領(lǐng)域并用于菌株工程化改造,其中的典型代表團(tuán)隊是美國科羅拉多大學(xué)的Ryan T.Gill團(tuán)隊。例如,他們利用CREATE 技術(shù)在大腸桿菌中針對19 個基因構(gòu)建了庫容為16 300 的混合文庫,以賴氨酸類似物的競爭性抑制作為致死篩選條件,對賴氨酸代謝相關(guān)的基因進(jìn)行了深度掃描,確定了lysP、argT和cadB等與類似物競爭性相關(guān)的基因[133]。利用類似的策略,該團(tuán)隊先后實現(xiàn)了異丙醇[134]、3-羥基丙酸[135]、苯乙烯[136]等高產(chǎn)菌株的構(gòu)建。本團(tuán)隊利用CRⅠSPRi 技術(shù)首次在大腸桿菌中構(gòu)建了靶向全基因組范圍的sgRNA 文庫,結(jié)合混合文庫篩選的策略CRⅠSPRi-seq,實現(xiàn)了大腸桿菌全基因組(4000 余個基因)范圍內(nèi)必需基因、代謝網(wǎng)絡(luò)結(jié)構(gòu)、與糠醛和異丁醇耐受性相關(guān)基因的快速篩選和鑒定[29]。對于CREATE 技術(shù),其突變位點挖掘的分辨率在堿基層次,由于數(shù)據(jù)密度極高,受限于建庫和測序成本,目前只能實現(xiàn)部分基因的突變位點關(guān)聯(lián)分析,相比之下,本團(tuán)隊開發(fā)的CRⅠSPRi-seq 方法分辨率在單基因?qū)哟?,能夠?qū)崿F(xiàn)全基因組范圍功能基因的高效挖掘。
如前所述,快速發(fā)展的NGS 技術(shù)和基因型-表型關(guān)聯(lián)技術(shù)使得目前能夠以較低的成本快速獲得大量GPA數(shù)據(jù)?;诖笠?guī)模并行實驗表征獲取的GPA數(shù)據(jù)集(103以上)為機(jī)器學(xué)習(xí)提供了高質(zhì)量的注釋樣本,如何利用數(shù)據(jù)科學(xué)手段學(xué)習(xí)基因型-表型數(shù)據(jù)背后隱藏的“機(jī)制”或“規(guī)律”成為研究者日益關(guān)注的重要方向。目前,計算生物學(xué)領(lǐng)域已經(jīng)發(fā)展了多種對不同層次的組學(xué)數(shù)據(jù)進(jìn)行分析、挖掘和學(xué)習(xí)的算法[137]。結(jié)合豐富的組學(xué)數(shù)據(jù),機(jī)器學(xué)習(xí)算法被成功應(yīng)用于通路動力學(xué)的預(yù)測[138]、酵母5′非翻譯區(qū)調(diào)控序列的研究[139]等。如果能夠充分利用大規(guī)模GPA數(shù)據(jù)集,依托數(shù)據(jù)科學(xué)手段從全基因組范圍深度挖掘傳統(tǒng)分子生物學(xué)手段無法發(fā)現(xiàn)的大量的未知關(guān)聯(lián)基因及其位點,將有可能從數(shù)據(jù)(學(xué)習(xí))的角度繞開目前理性設(shè)計的知識瓶頸,實現(xiàn)定制化MCFs的快速、高效創(chuàng)制。
目前,機(jī)器學(xué)習(xí)手段在GPA數(shù)據(jù)的學(xué)習(xí)和利用方面還剛剛起步,相關(guān)研究還比較少。本團(tuán)隊嘗試了小規(guī)模GPA數(shù)據(jù)在酵母MCFs構(gòu)建中的應(yīng)用。為了實現(xiàn)釀酒酵母中異源代謝途徑表達(dá)水平的快速優(yōu)化,我們提出了一種與酵母體內(nèi)生物標(biāo)準(zhǔn)元件組裝策略相結(jié)合的機(jī)器學(xué)習(xí)工作流程(machine-learning workflow in conjunction with YeastFab assembly,MiYA)[140],應(yīng)用人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)模型,以組合空間中2%~5%的數(shù)據(jù)為訓(xùn)練集,成功預(yù)測了具有最優(yōu)表達(dá)水平組合的β-
胡蘿卜素和紫色桿菌素合成途徑。類似地,機(jī)器學(xué)習(xí)策略已經(jīng)被用于指導(dǎo)構(gòu)建生產(chǎn)特定風(fēng)味物質(zhì)的啤酒酵母[141]和色氨酸高產(chǎn)釀酒酵母菌株[142],展現(xiàn)出重要的應(yīng)用潛力。此外,結(jié)合高通量基因組編輯和篩選技術(shù),本團(tuán)隊還報道了迄今為止在大腸桿菌中規(guī)模最大的sgRNA活性數(shù)據(jù)集,并利用機(jī)器學(xué)習(xí)手段建立了sgRNA序列影響活性的數(shù)學(xué)模型,可用于預(yù)測并優(yōu)化CRⅠSPR-Cas系統(tǒng)在大腸桿菌中的工作性能[143]。
MCFs 的設(shè)計和構(gòu)建最終目標(biāo)都是實際應(yīng)用,市場需求快速多樣的變化對MCFs構(gòu)建效率和性能的提升提出嚴(yán)苛的要求。如圖3所示,早期的誘變育種采取非理性手段進(jìn)行MCFs 改造,是典型的“以時間(人力)換水平”的策略。隨著生物學(xué)知識的積累,經(jīng)典代謝工程的發(fā)展使得對生物代謝網(wǎng)絡(luò)進(jìn)行理性/半理性設(shè)計成為可能,以DBTL 循環(huán)為基本流程,MCFs 改造效率得到顯著提升。系統(tǒng)代謝工程的建立進(jìn)一步使得研究者能夠結(jié)合組學(xué)和生物信息學(xué)手段獲取生物學(xué)知識,從系統(tǒng)層次進(jìn)行MCFs 的設(shè)計,進(jìn)一步加快MCFs 的構(gòu)建效率。然而,由于微生物代謝網(wǎng)絡(luò)結(jié)構(gòu)及其調(diào)控機(jī)制的復(fù)雜性和“生命暗物質(zhì)”的廣泛存在,基于上述策略進(jìn)行MCFs設(shè)計和構(gòu)建的過程仍然需要耗費大量的時間和精力,且由于搜索的基因組空間有限,難以滿足工業(yè)生產(chǎn)不斷增長的表型“高地”需求。隨著高通量研究技術(shù)的發(fā)展,由數(shù)據(jù)驅(qū)動的全基因組規(guī)模定制工程化有望克服這些難題,通過將高通量技術(shù)在全基因組范圍基因型空間的挖掘與改造相結(jié)合,有望以更低的開發(fā)成本、更短的研發(fā)周期獲得生產(chǎn)效率更為高效、生產(chǎn)性能更加優(yōu)越的下一代定制化MCFs。
全基因組規(guī)模定制工程化MCFs作為全新的研究領(lǐng)域和范式,目前還處于萌芽階段。為了實現(xiàn)MCFs的定制化設(shè)計與構(gòu)建,亟需解決如下兩個重要問題:
第一,高通量高質(zhì)量GPA 數(shù)據(jù)的產(chǎn)生?;蛐投说幕蚪M編輯技術(shù)、測序技術(shù)發(fā)展較為成熟,而在表型端,由于測試目標(biāo)和測試條件的復(fù)雜性,目前還無法彌補(bǔ)與大規(guī)?;蛐蜆颖局g的數(shù)據(jù)鴻溝。自動化技術(shù)和高通量新型表型表征技術(shù)的引入是解決這一問題的重要發(fā)展方向。近年來,國內(nèi)外基于自動化機(jī)器人的BioFoundry 平臺建設(shè)方興未艾,單細(xì)胞質(zhì)譜、單細(xì)胞RNA 測序等技術(shù)也在迅速發(fā)展,這些都將為跨越基因型-表型數(shù)據(jù)鴻溝,實現(xiàn)高通量高質(zhì)量GPA數(shù)據(jù)供給提供重要機(jī)遇。
圖3 微生物細(xì)胞工廠設(shè)計和構(gòu)建策略效率以及性能對比Fig.3 Comparison of MCFs construction efficiency and performance in different stages
第二,數(shù)據(jù)管理和學(xué)習(xí)。高通量和自動化技術(shù)在極大地提升數(shù)據(jù)獲取能力的同時將不可避免地帶來數(shù)據(jù)爆炸,這為數(shù)據(jù)存儲、數(shù)據(jù)標(biāo)準(zhǔn)化和數(shù)據(jù)共享帶來了挑戰(zhàn)。為了實現(xiàn)不同數(shù)據(jù)的共享和集成,迫切需要建立可查找、可訪問、可相互操作和可重復(fù)使用的工程生物學(xué)數(shù)據(jù)庫。此外,在如何利用GPA數(shù)據(jù)集指導(dǎo)定制化MCFs的設(shè)計和構(gòu)建方面,亟需系統(tǒng)創(chuàng)建性能更優(yōu)的生物數(shù)據(jù)分析、挖掘、學(xué)習(xí)算法和工具,以充分發(fā)揮大規(guī)模數(shù)據(jù)的效力。近年來基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法、基于生成對抗網(wǎng)絡(luò)的生成學(xué)習(xí)算法都被逐漸應(yīng)用到生物系統(tǒng)領(lǐng)域,需要加快這些算法在GPA數(shù)據(jù)集學(xué)習(xí)和利用方面的探索和應(yīng)用。
生物產(chǎn)業(yè)是我國國民經(jīng)濟(jì)的重要支柱,菌種是生物產(chǎn)業(yè)命脈所系,然而,我國菌種長期面臨國外技術(shù)壟斷、專利封鎖的困境,近年更是頻繁出現(xiàn)生物發(fā)酵產(chǎn)業(yè)核心菌種的國際知識產(chǎn)權(quán)糾紛。我們期待,如果能夠抓住全基因組規(guī)模定制工程化發(fā)展機(jī)遇,提升我國MCFs創(chuàng)新能力,將有可能在未來日益激烈的國際競爭中占領(lǐng)菌種創(chuàng)制的戰(zhàn)略制高點,實現(xiàn)我國生物產(chǎn)業(yè)的跨越式發(fā)展。
符號說明
BNICE——生化網(wǎng)絡(luò)集成計算瀏覽器(biochemical net?work integrated computational explorer)
COBRA——基于約束的重構(gòu)與分析(constraint-based reconstruction and analysis)
CREATE——基于CRISPR 的可追蹤基因組工程(CRIS?PR-enabled trackable genome engineering)
CRISPR——規(guī)律成簇的間隔短回文重復(fù)(clustered reg?ularly interspaced short palindromic repeats)
CRISPRa——CRISPR激活(CRISPR activation)
CRISPRi——CRISPR干擾(CRISPR interference)
FACS——熒光激活細(xì)胞分選(fluorescence-activated cell sorting)
FADS——熒光激活液滴分選(fluorescence-activated drop sorting)
FBA——通量平衡分析(flux balance analysis)
GPA——基因型-表型關(guān)聯(lián)(genotype-phenotype asso?ciations)
GSMM——全基因組代謝模型(genome-scale metabolic model)
GSMR——基因組規(guī)模代謝重構(gòu)(genome-scale meta?bolic reconstruction)
MAGE——多重自動化基因組工程(multiplex automat?ed genome engineering)
MCA——代謝控制分析(metabolic control analysis)
MFA——代謝通量分析(metabolic flux analysis)
MMC——液滴微流控培養(yǎng)(microdroplet microbial culture)
MOMA——最小化代謝調(diào)節(jié)(minimization of the meta?bolic adjustment)
MPA——代謝途徑分析(metabolic pathway analysis)
NET——網(wǎng)絡(luò)嵌入的熱力學(xué)分析(network-embedded thermodynamic analysis)
NGS——二代測序(next generation sequencing)
ODE——常微分方程(ordinary differential equation)
PHA——聚羥基鏈烷酸酯(polyhydroxyalkanoate)
RADS——拉曼活化液滴分選(raman-activated droplet sorting)
ROOM——開/關(guān)最小化調(diào)節(jié)(regulatory on/off minimi?zation)
sgRNA——向?qū)NA(single-guide RNA)
ssDNA——單鏈DNA(single-strand DNA)
TAM——靶向AID 介導(dǎo)的誘變(targeted AID-mediated mutagenesis)
TMFA——基于熱力學(xué)的代謝通量分析(thermodynamicsbased metabolic flux analysis)
TRMR——可追蹤多重重組(trackable multiplex recom?bineering)
YOGE——酵母寡核苷酸介導(dǎo)的基因組工程(yeast oligomediated genome engineering)