張震,曾雪城,秦磊,李春,2
(1清華大學(xué)化學(xué)工程系生物化工研究所/工業(yè)生物催化教育部重點(diǎn)實(shí)驗(yàn)室,北京 100084;2清華大學(xué)合成與系統(tǒng)生物學(xué)研究中心,北京 100084)
“碳達(dá)峰、碳中和”作為我國的戰(zhàn)略發(fā)展規(guī)劃,對(duì)社會(huì)各行各業(yè)的發(fā)展將產(chǎn)生深遠(yuǎn)影響,其中對(duì)于制造業(yè)而言,生物制造基于生物催化過程可生產(chǎn)各種高附加值產(chǎn)品,且以可再生的生物質(zhì)為原料,是未來制造業(yè)可持續(xù)發(fā)展的重要方向。微生物細(xì)胞工廠通過在微生物底盤細(xì)胞中表達(dá)異源生物合成途徑來生產(chǎn)目標(biāo)化合物,是綠色生物制造的重要實(shí)現(xiàn)形式。當(dāng)下結(jié)構(gòu)已報(bào)道的天然產(chǎn)物超過了30萬種,目前利用微生物細(xì)胞工廠實(shí)現(xiàn)了生物合成途徑已知的青蒿酸[1]、1,3-丙二醇[2]、法尼烯[3]、甘草次酸[4]、PHA[5]、1,3-丁二醇[6]等多種高附加值化合物的生產(chǎn),產(chǎn)品廣泛應(yīng)用于化工、醫(yī)藥、能源、食品等領(lǐng)域。然而,生物合成途徑完全解析的天然產(chǎn)物只有不到3萬種,尚有大量天然產(chǎn)物的生物合成途徑未解析,嚴(yán)重阻礙了微生物細(xì)胞工廠的發(fā)展[7]。傳統(tǒng)微生物細(xì)胞工廠的設(shè)計(jì)和構(gòu)建方式通量小、效率低,亟需自動(dòng)化的設(shè)計(jì)工具代替?zhèn)鹘y(tǒng)依賴經(jīng)驗(yàn)和試錯(cuò)的設(shè)計(jì)構(gòu)建方式,以加速未知途徑化合物生物合成途徑的解析及其微生物細(xì)胞工廠的合成設(shè)計(jì)。
設(shè)計(jì)-構(gòu)建-測(cè)試-學(xué)習(xí)(design-build-testlearn,DBTL)循環(huán)是開發(fā)微生物細(xì)胞工廠的基本研究思路,使用遞歸循環(huán)的方式使設(shè)計(jì)的微生物細(xì)胞工廠逐漸提高得率、速率及產(chǎn)量等生產(chǎn)目標(biāo)。設(shè)計(jì)(design)是DBTL循環(huán)的第一步,對(duì)細(xì)胞工廠能否成功構(gòu)建產(chǎn)生重要影響。基于有機(jī)化學(xué)和生物化學(xué)的專業(yè)知識(shí)、文獻(xiàn)報(bào)道及自身實(shí)踐經(jīng)驗(yàn)繪制潛在的生物合成途徑的設(shè)計(jì)方法通常僅適用于化學(xué)結(jié)構(gòu)簡單的目標(biāo)化合物。此外,當(dāng)前微生物細(xì)胞工廠中所設(shè)計(jì)途徑與合成調(diào)控元件的組合較為盲目或隨機(jī),只能逐次對(duì)元件進(jìn)行優(yōu)化,而且設(shè)計(jì)出的途徑不能很好與底盤細(xì)胞適配。這些因素導(dǎo)致傳統(tǒng)微生物細(xì)胞工廠的設(shè)計(jì)和構(gòu)建通量小、效率低,且驗(yàn)證過程周期長,例如,阿米瑞斯生物技術(shù)公司(Amyris Biotechnologies)構(gòu)建微生物細(xì)胞工廠生產(chǎn)抗瘧疾前體青蒿素花費(fèi)了十年時(shí)間、150人年的工作量,實(shí)現(xiàn)微生物生產(chǎn)法尼烯花費(fèi)了四年時(shí)間、130~575人年;杜邦公司(DuPont)和杰能科公司(Genencor)分別花費(fèi)約15和575來實(shí)現(xiàn)微生物細(xì)胞工廠生產(chǎn)1,3-丙二醇[8]。然而,組學(xué)時(shí)代的到來和生物數(shù)據(jù)資源的爆炸式增長已經(jīng)改變了生物制造領(lǐng)域的研究模式,為生物制造和微生物細(xì)胞工廠設(shè)計(jì)提供了新的發(fā)展機(jī)遇。因此,在大數(shù)據(jù)基礎(chǔ)上的智能化微生物細(xì)胞工廠設(shè)計(jì)方法成為加速微生物細(xì)胞工廠設(shè)計(jì)構(gòu)建的關(guān)鍵。
借鑒電子設(shè)計(jì)自動(dòng)化(electronic design automation,EDA,指利用計(jì)算機(jī)輔助設(shè)計(jì)軟件,來完成超大規(guī)模集成電路芯片的功能設(shè)計(jì)、驗(yàn)證、物理設(shè)計(jì)等流程的設(shè)計(jì)方式)的概念,微生物細(xì)胞工廠的智能設(shè)計(jì)可采用生物設(shè)計(jì)自動(dòng)化(biological design of automation,BDA)的形式,立足于生物數(shù)據(jù)庫中的豐富資源,通過一系列算法完成細(xì)胞工廠的自動(dòng)化設(shè)計(jì),實(shí)現(xiàn)生物合成途徑的預(yù)測(cè)與篩選、調(diào)控元件的設(shè)計(jì)、途徑與元件組裝設(shè)計(jì)、設(shè)計(jì)途徑與底盤代謝網(wǎng)絡(luò)適配等功能。通過生物合成途徑的預(yù)測(cè)與篩選,對(duì)途徑未知化合物提供可靠性較強(qiáng)、效率較高的候選途徑方案,輔助途徑設(shè)計(jì),此外,從全局出發(fā)預(yù)測(cè)潛在的分支途徑,以實(shí)現(xiàn)對(duì)實(shí)驗(yàn)中可能出現(xiàn)的副產(chǎn)物進(jìn)行快速定位,進(jìn)而指導(dǎo)細(xì)胞工廠的構(gòu)建。通過調(diào)控元件的設(shè)計(jì)及元件與途徑的組合設(shè)計(jì),進(jìn)一步提高預(yù)測(cè)途徑與底盤菌株的適配性及可靠性,為細(xì)胞工廠后續(xù)的構(gòu)建、測(cè)試和學(xué)習(xí)指明方向。
化合物生物合成途徑的設(shè)計(jì)主要采用生物逆合成算法,其思想來源于化學(xué)逆合成,分為生物逆合成途徑的預(yù)測(cè)和途徑篩選兩個(gè)環(huán)節(jié)。在逆合成途徑預(yù)測(cè)階段,通過使用一組在原子水平上描述底物和產(chǎn)物分子之間化學(xué)轉(zhuǎn)化模式的生化反應(yīng)規(guī)則,推測(cè)合成目標(biāo)化合物的反應(yīng)及催化該步反應(yīng)的酶,實(shí)現(xiàn)將輸入化合物(即目標(biāo)化合物)轉(zhuǎn)化為一系列中間化合物,并最終轉(zhuǎn)化為前體化合物的過程。生物逆合成算法按預(yù)測(cè)中間化合物的方式不同可分為兩大類:一是在數(shù)據(jù)庫中檢索已知代謝反應(yīng)并預(yù)測(cè)反應(yīng)和中間化合物,所預(yù)測(cè)的中間化合物種類受到化合物數(shù)據(jù)庫規(guī)模的限制,如FMM、DESHARKY和Metabolic tinker等工具;二是基于泛化的生化反應(yīng)規(guī)則來預(yù)測(cè)新反應(yīng)且可產(chǎn)生數(shù)據(jù)庫中不存在的新化合物,如XTMS[9]、RetroPath[10]、RetroPath2.0[11]、RetroPath RL[12]、novoPathFinder[13]等工具(表1),這一類基于反應(yīng)規(guī)則的算法在生物逆合成預(yù)測(cè)中具有更大的應(yīng)用潛力,因此下述生物逆合成預(yù)測(cè)流程主要介紹基于反應(yīng)規(guī)則的預(yù)測(cè)算法。
表1 生物逆合成工具Table1 Retrobiosynthesis tools
生物合成途徑由多步生化反應(yīng)級(jí)聯(lián)組合而成,后一步反應(yīng)的前體化合物作為前一步反應(yīng)的目標(biāo)產(chǎn)物,相當(dāng)于多個(gè)特殊的單步反應(yīng)的組合,因此生物合成途徑的預(yù)測(cè)關(guān)鍵在于對(duì)某一指定化合物的單步生物合成反應(yīng)的預(yù)測(cè)。單步生物合成反應(yīng)的預(yù)測(cè)以普遍酶具有底物雜泛性的假設(shè)條件為前提,即認(rèn)為酶可以催化與底物具有相似化學(xué)結(jié)構(gòu)的化合物,因此可借鑒已報(bào)道生化反應(yīng)的轉(zhuǎn)化模式及相應(yīng)的酶序列來預(yù)測(cè)與底物具有相似結(jié)構(gòu)化合物發(fā)生的新生化反應(yīng)。同時(shí)存在一些計(jì)算工具可對(duì)酶的底物雜泛性進(jìn)行預(yù)測(cè),如EPP-HMCNF[23]可根據(jù)BRENDA數(shù)據(jù)庫中酶-底物的互作預(yù)測(cè)可催化給定查詢化合物的不同種類的酶?;谏鲜黾僭O(shè)單步反應(yīng)的預(yù)測(cè)流程可以概括為,對(duì)于目標(biāo)化合物Q(query),在化合物數(shù)據(jù)庫中檢索與之結(jié)構(gòu)相似的化合物M1、M2(match),在生化反應(yīng)數(shù)據(jù)庫中檢索M1、M2的相關(guān)反應(yīng)R1、R2(reaction),提取相應(yīng)的反應(yīng)規(guī)則及酶序列,將其應(yīng)用在目標(biāo)化合物Q上,從而得到目標(biāo)化合物Q的生成反應(yīng)、催化該步反應(yīng)的酶序列及直接前體化合物Q11、Q21(圖1,步驟1~5)。
通過對(duì)預(yù)測(cè)前體迭代應(yīng)用單步預(yù)測(cè)反應(yīng),可逐步延伸預(yù)測(cè)途徑的長度,直至達(dá)到規(guī)定的終止條件。通常以預(yù)測(cè)途徑達(dá)到規(guī)定步長、預(yù)測(cè)的前體化合物為指定化合物或指定底盤宿主內(nèi)源化合物等易于計(jì)算的指標(biāo)作為終止條件。由于化合物相關(guān)合成反應(yīng)并不單一,因此預(yù)測(cè)出的合成反應(yīng)通常具有許多分支,從而使得最終的逆合成途徑通常以樹的形式呈現(xiàn),被稱為逆合成網(wǎng)絡(luò)(圖1,步驟6~7),其中目標(biāo)化合物為根節(jié)點(diǎn)、中間化合物為子節(jié)點(diǎn)、指定起始化合物或底盤宿主可內(nèi)源合成的化合物為葉子結(jié)點(diǎn),生化反應(yīng)及催化該步反應(yīng)的酶序列為連接節(jié)點(diǎn)的邊。基于逆合成網(wǎng)絡(luò)的樹形特點(diǎn),一些同樣呈現(xiàn)為樹形的人工智能算法被應(yīng)用到逆合成網(wǎng)絡(luò)的生成中,如RetroPath RL[12]利用蒙特卡洛樹搜索算法(Monte Carlo tree search)的選擇-擴(kuò)展-隨機(jī)模擬-反向傳播四個(gè)過程對(duì)預(yù)測(cè)途徑進(jìn)行延伸,最終生成逆合成網(wǎng)絡(luò)。
圖1 生物逆合成途徑預(yù)測(cè)流程圖Fig.1 Workflow of retrobiosynthesis
在生物合成途徑的預(yù)測(cè)中生化數(shù)據(jù)庫為預(yù)測(cè)算法的實(shí)現(xiàn)奠定了基礎(chǔ),所需要的生化數(shù)據(jù)庫包括化合物數(shù)據(jù)庫、生化反應(yīng)數(shù)據(jù)庫、代謝數(shù)據(jù)庫、酶數(shù)據(jù)庫及細(xì)胞模型。KEGG[24]、KNApSAcK[25]等化合物數(shù)據(jù)庫及天然產(chǎn)物詞典(Dictionary of Natural Products,DNP)(https://dnp.chemnetbase.com)和Super NaturalⅡ[26]等天然產(chǎn)物數(shù)據(jù)庫可被用于相關(guān)反應(yīng)已有文獻(xiàn)報(bào)道的相似化合物的搜索。生化反應(yīng)數(shù)據(jù)庫用于提取反應(yīng)規(guī)則,如ATLAS[27]數(shù)據(jù)庫中收錄了超過14萬條反應(yīng),ATLASx[22]數(shù)據(jù)庫中包含超過500萬個(gè)預(yù)測(cè)反應(yīng)?;诖x途徑中反應(yīng)間的級(jí)聯(lián)關(guān)系可將反應(yīng)規(guī)則構(gòu)建為反應(yīng)規(guī)則網(wǎng)絡(luò),為長途徑的預(yù)測(cè)提供可能。常用的代謝途徑數(shù)據(jù)庫包括:KEGG PATHWAY、MetaCyc、Reactome和UM-BBD等。酶數(shù)據(jù)庫將提供催化生化反應(yīng)可用的酶序列,如BRENDA是一個(gè)綜合酶信息數(shù)據(jù)庫,包含了酶促反應(yīng)和相關(guān)的代謝通路。細(xì)胞模型為基因組規(guī)模代謝網(wǎng)絡(luò)模型(genome-scale metabolic model,GEM),GEM模型可提供底盤宿主中存在的化合物、生化反應(yīng)等信息,并可對(duì)代謝途徑產(chǎn)量進(jìn)行模擬計(jì)算、為預(yù)測(cè)途徑的優(yōu)化提供手段。大腸桿菌、釀酒酵母等常用模式生物均發(fā)展了系列GEM模型。目前也創(chuàng)建了一些綜合數(shù)據(jù)庫,如biochem4j圖數(shù)據(jù)庫中包含36765條反應(yīng)信息、19735條化合物信息、245704條酶序列和8431個(gè)細(xì)胞模型。
生物合成途徑由一系列基于可進(jìn)行酶催化轉(zhuǎn)化的化合物組成,化學(xué)結(jié)構(gòu)式是這些化合物的基礎(chǔ)表示方式,可表示所有原子通過化學(xué)鍵與其相鄰原子連接的原子鍵合環(huán)境信息。在生物逆合成途徑預(yù)測(cè)中通常采用化學(xué)模式語言和分子指紋兩種方式對(duì)化合物的結(jié)構(gòu)式進(jìn)行數(shù)字化編碼,以滿足后續(xù)提取反應(yīng)規(guī)則及搜索結(jié)構(gòu)相似性化合物的需求。
1.3.1 化學(xué)模式語言 在化學(xué)信息學(xué)中,SMILES(simplified molecular-input line-entry system)和SMARTS(smiles arbitrary target specification)是兩種已有明確定義的化學(xué)模式語言,其中SMILES可以將化合物的二維結(jié)構(gòu)式表示為ASCⅡ字符串,主要由原子和化學(xué)鍵兩種基本符號(hào)組成;SMARTS是SMILES的延伸,允許使用通配符表示原子和化學(xué)鍵,如SMARTS中符號(hào)[C,N]表示該原子是碳(C)或氮(N),符號(hào)~可匹配任何化學(xué)鍵[28-30][圖2(a)],這兩種化學(xué)模式語言在生物逆合成算法中常被用于表示化學(xué)反應(yīng)中反應(yīng)物和產(chǎn)物的結(jié)構(gòu)變化[9,11,13,15]。
圖2 化學(xué)模式語言與分子指紋Fig.2 Chemical model language and molecular fingerprints
1.3.2 分子指紋 通過預(yù)定義KEGG原子類型[31]、官能團(tuán)等子結(jié)構(gòu)將化合物結(jié)構(gòu)分解為一個(gè)個(gè)子結(jié)構(gòu)的累積,并將化合物中子結(jié)構(gòu)的數(shù)量和各種物理化學(xué)特性編碼為二進(jìn)制變量的位串,形成化合物的分子指紋??梢允褂肦DKit和PaDEL-descriptor等軟件包來生成分子指紋,RDkit[32]是一個(gè)用于化學(xué)信息學(xué)的開源工具包,可以生成RDKit指紋、Morgan指紋、Avalon指紋和MACCS指紋四種分子指紋,例如MACCS指紋可表示為長度為166位的向量,每一位對(duì)應(yīng)一個(gè)分子特征,當(dāng)化合物中存在此類特征時(shí)該位數(shù)值為1,否則為0[圖2(b)]。PaDEL-descriptor[33]可 生 成PubChem指 紋、CDK指紋、CDKextend指紋、子結(jié)構(gòu)指紋和GraphOnly指紋五種分子指紋。這些指紋一方面可基于Tonimoto等相似性算法用于從化合物數(shù)據(jù)庫中快速搜索與查詢化合物具有相似結(jié)構(gòu)的化合物,另一方面可用作相似性搜索、分類和回歸等各種機(jī)器學(xué)習(xí)任務(wù)的輸入。
反應(yīng)規(guī)則(也稱為反應(yīng)描述符)為產(chǎn)物描述符與底物描述符之間的凈差,通過底物結(jié)構(gòu)式與產(chǎn)物結(jié)構(gòu)式間的原子-原子映射比對(duì)而得到,描述了底物向產(chǎn)物轉(zhuǎn)化時(shí)反應(yīng)中心原子的鍵合環(huán)境變化(圖3)。目前對(duì)反應(yīng)規(guī)則的研究多以反應(yīng)中某一個(gè)主要的反應(yīng)物向相應(yīng)產(chǎn)物的一對(duì)一轉(zhuǎn)化模式為主。反應(yīng)規(guī)則可作為一種模塊化操作,適用于與底物結(jié)構(gòu)相似的化合物上,可預(yù)測(cè)目標(biāo)產(chǎn)物的合成反應(yīng)及相應(yīng)前體化合物。反應(yīng)規(guī)則可以從已知反應(yīng)的數(shù)據(jù)庫中自動(dòng)提取[34-35],也可以通過手動(dòng)輸入生產(chǎn)精簡的專家反應(yīng)規(guī)則集[36]。
1.4.1 基于生化反應(yīng)數(shù)據(jù)庫的反應(yīng)規(guī)則 反應(yīng)規(guī)則的自動(dòng)提取需要經(jīng)歷(1)反應(yīng)物-產(chǎn)物對(duì)的識(shí)別;(2)原子-原子映射;(3)反應(yīng)中心原子、反應(yīng)基團(tuán)及保守基團(tuán)的識(shí)別和(4)提取反應(yīng)規(guī)則四個(gè)過程。PathPred中將每個(gè)反應(yīng)中反應(yīng)對(duì)(反應(yīng)物-產(chǎn)物對(duì))中的匹配區(qū)和非匹配區(qū)之間的邊界原子分別定義為反應(yīng)中心R原子、差異區(qū)域D原子和匹配區(qū)域M原子,引入了R-D-M原子模式。KEGG為反應(yīng)對(duì)提供了基于原子映射的結(jié)構(gòu)對(duì)齊信息,并構(gòu)建了KEGG RPAIR數(shù)據(jù)庫。上述反應(yīng)規(guī)則表示了反應(yīng)物-產(chǎn)物間的最大結(jié)構(gòu)差異,而XTMS[9]基于SMILES化學(xué)模式語言描述化學(xué)反應(yīng),同時(shí)將原子映射編號(hào)附加到反應(yīng)物和產(chǎn)物側(cè)的相應(yīng)原子上,以反映原子身份并跟蹤反應(yīng)中原子的轉(zhuǎn)移;通過調(diào)整反應(yīng)中心原子周圍環(huán)境的大?。粗睆絛)可獲得不同泛化水平的反應(yīng)規(guī)則,當(dāng)d=0時(shí)僅包括反應(yīng)中心原子,d=1時(shí)包括反應(yīng)中心原子及與之直接相鄰的化學(xué)鍵及原子,如此類推,可見隨著直徑d的增加,反應(yīng)規(guī)則變得更加具體(圖3)。該方法中反應(yīng)規(guī)則的泛化水平是逆合成途徑預(yù)測(cè)的關(guān)鍵技術(shù)之一,過于具體的規(guī)則會(huì)限制預(yù)測(cè)新路線的潛力,而過于籠統(tǒng)的規(guī)則可能會(huì)使預(yù)測(cè)偏離實(shí)際[37]。RetroRules[34]反應(yīng)規(guī)則數(shù)據(jù)庫按照SMARTS標(biāo)準(zhǔn)格式收錄了超過40萬條包含立體化學(xué)信息的反應(yīng)規(guī)則,且每條反應(yīng)規(guī)則均可以不同雜泛水平呈現(xiàn)。
圖3 反應(yīng)規(guī)則的提取Fig.3 The extraction of reaction rules
1.4.2 專家反應(yīng)規(guī)則集 自動(dòng)提取的反應(yīng)規(guī)則通常存在大量冗余,將降低途徑延伸時(shí)的預(yù)測(cè)計(jì)算效率,且使產(chǎn)生的化合物和反應(yīng)的數(shù)量呈現(xiàn)指數(shù)增長,造成組合爆炸問題。此時(shí)可通過人工精簡產(chǎn)生規(guī)模較小但更精確的專家反應(yīng)規(guī)則集,以限制途徑延伸時(shí)反應(yīng)的數(shù)量且減少網(wǎng)絡(luò)規(guī)模,有利于提高途徑延伸的計(jì)算效率及反應(yīng)規(guī)則覆蓋所有可能轉(zhuǎn)換的全面性。RetroBioCat[37]人工構(gòu)建了由83個(gè)反應(yīng)組成的反應(yīng)規(guī)則集,使用107個(gè)反應(yīng)的SMARTS編碼進(jìn)行描述。Broadbelt[38]從基于原子映射的MetaCyc反應(yīng)中自動(dòng)提取反應(yīng)規(guī)則,并通過人工精簡獲得最小但全面的1224條通用反應(yīng)規(guī)則,經(jīng)驗(yàn)證可唯一地覆蓋所有常見的酶促轉(zhuǎn)化,且能夠重現(xiàn)KEGG和BRENDA數(shù)據(jù)庫中超過85%的所有反應(yīng),有利于探索已知酶促轉(zhuǎn)化的更大空間,加速生物合成途徑的設(shè)計(jì)。
1.4.3 反應(yīng)規(guī)則網(wǎng)絡(luò) 代謝途徑是生物體內(nèi)的級(jí)聯(lián)反應(yīng),基于代謝途徑數(shù)據(jù)庫可以將從數(shù)據(jù)庫中學(xué)習(xí)到的所有反應(yīng)規(guī)則按照反應(yīng)規(guī)則網(wǎng)絡(luò)(reaction rule network,RRN)的形式進(jìn)行整合[16]。將各個(gè)反應(yīng)規(guī)則均視為節(jié)點(diǎn),若兩個(gè)規(guī)則在已知途徑上呈級(jí)聯(lián)狀態(tài)或具有形成級(jí)聯(lián)反應(yīng)的潛力,則在兩個(gè)規(guī)則間添加邊來連接,最終形成反應(yīng)規(guī)則網(wǎng)絡(luò)并將其應(yīng)用在長途徑化合物的預(yù)測(cè)上。例如,ReactionMiner[16]基于反應(yīng)規(guī)則網(wǎng)絡(luò)對(duì)衣康酸酯、柚皮素、1,3-丙二醇、木糖醇等高附加值化合物的生物逆合成途徑進(jìn)行了預(yù)測(cè),發(fā)現(xiàn)可復(fù)原這些化合物的已知途徑或預(yù)測(cè)出更短且生物學(xué)上更合理的逆合成途徑。
化學(xué)催化和生物催化的主要區(qū)別在于生物催化采用酶作為催化劑,同樣的,生物逆合成區(qū)別于化學(xué)逆合成的關(guān)鍵在于生物逆合成需要為預(yù)測(cè)的反應(yīng)提供可能的催化該步反應(yīng)的酶序列。然而,許多預(yù)測(cè)的新反應(yīng)沒有相關(guān)酶報(bào)道,預(yù)測(cè)與反應(yīng)規(guī)則相關(guān)聯(lián)、可催化新反應(yīng)且與底盤宿主進(jìn)化親緣較近的酶的計(jì)算方法可大大加快生物合成途徑的開發(fā)。
EC號(hào)是國際生物化學(xué)與分子生物學(xué)聯(lián)盟(International Union of Biochemistry and Molecular Biology,IUBMB)中酶學(xué)委員會(huì)(Enzyme Commission)根據(jù)每種酶所催化的化學(xué)反應(yīng)為分類基礎(chǔ)制定的一套由四個(gè)級(jí)別組成的編號(hào)分類法,而反應(yīng)規(guī)則同樣體現(xiàn)了酶催化的功能,因此反應(yīng)規(guī)則與EC號(hào)間存在關(guān)聯(lián),并通過查詢EC號(hào)對(duì)應(yīng)的酶序列可將反應(yīng)規(guī)則與酶序列相關(guān)聯(lián),為預(yù)測(cè)出的新反應(yīng)提供酶催化數(shù)據(jù)。
反應(yīng)同源性是預(yù)測(cè)催化目標(biāo)反應(yīng)候選酶序列的基礎(chǔ),且不同酶序列預(yù)測(cè)工具在反應(yīng)相似性矩陣的計(jì)算及反應(yīng)的輸入格式上有所區(qū)別。Yamanishi等[39]采用KEGG化合物ID作為輸入內(nèi)容,通過比較化合物間的轉(zhuǎn)化模式,構(gòu)建了E-zyme工具,可對(duì)化學(xué)反應(yīng)分配EC號(hào)前三位數(shù)字。Goto等[40]對(duì)E-zyme工具進(jìn)行了拓展并設(shè)計(jì)了E-zyme2工具,可基于RDM模式對(duì)底物-產(chǎn)物對(duì)進(jìn)行全結(jié)構(gòu)比對(duì),當(dāng)已知的相似反應(yīng)與至少一個(gè)基因序列相鏈接時(shí),可為輸入的查詢反應(yīng)分配催化相似反應(yīng)的酶序列。此外,Thornton等[41]開發(fā)了EC-BLAST工具,采用KEGG反應(yīng)ID、SMIRKS反應(yīng)規(guī)則和EC號(hào)作為輸入內(nèi)容,利用最大公共子圖算法(maximal common subgraph,MCS)進(jìn)行原子-原子比對(duì)(atom-atom mapping,AAM),并根據(jù)鍵的變化、反應(yīng)中心及結(jié)構(gòu)相似性從KEGG REACTION數(shù)據(jù)庫中查詢相似反應(yīng),以此為新反應(yīng)分配前三位EC號(hào),但EC-BLAST不能輸出酶序列。Faulon等[42]開發(fā)了Selenzyme工具,采用SMIRKS化學(xué)模式語言作為輸入內(nèi)容,基于biochem4j圖數(shù)據(jù)庫,通過綜合考慮序列相似性、酶序列的物理化學(xué)性質(zhì)、酶來源物種與底盤宿主間的種群發(fā)生距離等方面來選擇最優(yōu)的候選酶序列。
BridgIT[43]考慮了輔因子在反應(yīng)機(jī)制中的關(guān)鍵作用,是目前唯一可以區(qū)分不同酶催化反應(yīng)機(jī)制且可預(yù)測(cè)從頭設(shè)計(jì)反應(yīng)的關(guān)聯(lián)酶序列的方法。BridgIT采用SMILES表示的化學(xué)反應(yīng)及BNICE.ch反應(yīng)規(guī)則作為輸入內(nèi)容,可基于Daylight分子指紋計(jì)算目標(biāo)反應(yīng)與天然反應(yīng)的Tanimoto相似性,并從KEGG中獲取相似天然反應(yīng)及其對(duì)應(yīng)的酶EC號(hào),進(jìn)而提供一個(gè)候選酶EC號(hào)名單。對(duì)于KEGG(2011)中未注釋酶序列且在KEGG(2018)中補(bǔ)充了注釋的反應(yīng),BridgIT對(duì)其中90%的反應(yīng)能夠正確預(yù)測(cè)其相應(yīng)的酶三級(jí)EC號(hào)。
基于以上工具,一些報(bào)道將酶數(shù)據(jù)庫與反應(yīng)數(shù)據(jù)庫相結(jié)合,構(gòu)建出反應(yīng)規(guī)則-酶相互關(guān)聯(lián)的綜合數(shù)據(jù)庫,方便生物逆合成算法的計(jì)算,如EnzyMine[34]將酶催化反應(yīng)的特征與酶序列和結(jié)構(gòu)注釋相聯(lián)系,構(gòu)建了包含7767個(gè)EC號(hào)、267345條蛋白序列和9831個(gè)反應(yīng)的綜合酶-反應(yīng)規(guī)則關(guān)聯(lián)數(shù)據(jù)庫。Fenner等[44]將從化學(xué)污染物生物轉(zhuǎn)化反應(yīng)數(shù)據(jù)庫Eawag-BBD和KEGG數(shù)據(jù)庫中獲取的泛化生物轉(zhuǎn)化規(guī)則與前三位EC號(hào)相關(guān)聯(lián),建立了具有316條反應(yīng)規(guī)則-酶分類鏈接的enviLink數(shù)據(jù)庫。
逆合成網(wǎng)絡(luò)中包含了大量預(yù)測(cè)途徑,但并非所有預(yù)測(cè)途徑都能夠?qū)崿F(xiàn)目標(biāo)催化功能,目前已開發(fā)的工具所預(yù)測(cè)的途徑假陽性過高,使得生物逆合成工具的應(yīng)用仍不夠普及,因此提高生物逆合成途徑預(yù)測(cè)的準(zhǔn)確率和可靠性是促進(jìn)逆合成算法廣泛應(yīng)用的關(guān)鍵。從大量預(yù)測(cè)途徑中推薦最佳候選途徑,需要基于一些評(píng)價(jià)指標(biāo)對(duì)預(yù)測(cè)途徑進(jìn)行評(píng)價(jià)、排序及篩選,目前已經(jīng)報(bào)道的一些途徑評(píng)價(jià)指標(biāo),主要從途徑的理論可行性和與底盤宿主的適配性兩方面對(duì)途徑進(jìn)行評(píng)價(jià)(圖1,步驟8)。
在途徑篩選中,首先需要采用如底物相似性、熱力學(xué)可行性、酶序列、途徑長度等定量指標(biāo),對(duì)一些理論上不可行的途徑進(jìn)行排除。
2.1.1 底物相似性 考慮到生物逆合成算法采用酶-底物雜泛性假設(shè),選擇與已知底物結(jié)構(gòu)相似性較高的輸入化合物將更有可能被相應(yīng)的已知酶催化;相反,若輸入的查詢化合物與化合物數(shù)據(jù)庫中已知化合物的結(jié)構(gòu)相似度較低,則相關(guān)聯(lián)的已知酶對(duì)該查詢化合物成功催化的可能性同樣較低?;诨衔锩枋龇?,可以通過Tanimoto相似性等算法對(duì)預(yù)測(cè)的中間化合物與數(shù)據(jù)庫中已知化合物間的結(jié)構(gòu)相似性系數(shù)進(jìn)行計(jì)算,從而在化合物數(shù)據(jù)庫中檢索結(jié)構(gòu)相似化合物[7,12]。
2.1.2 熱力學(xué)可行性 吉布斯自由能變化ΔG可表示反應(yīng)的熱力學(xué)勢(shì)能變化,決定了酶促反應(yīng)的方向性和效率,是檢測(cè)和選擇預(yù)測(cè)途徑熱力學(xué)可行性及評(píng)估生物合成途徑熱力學(xué)驅(qū)動(dòng)力的重要手段。一些生物逆合成預(yù)測(cè)工具基于數(shù)據(jù)庫中的反應(yīng)吉布斯自由能數(shù)據(jù)或熱力學(xué)計(jì)算工具檢測(cè)途徑的熱力學(xué)可行性并對(duì)途徑進(jìn)行篩選,如Metabolic tinker基于CHEBi和RHEA數(shù)據(jù)庫,使用此前報(bào)道的基于基團(tuán)貢獻(xiàn)(group contribution,GC)的熱力學(xué)計(jì)算工具計(jì)算并評(píng)估途徑的可行性[45];XTMS[9]基于MetaCyc database數(shù)據(jù)庫提供的反應(yīng)吉布斯自由能數(shù)據(jù)來評(píng)價(jià)途徑可行性。此外,OptMDFpathway[46]利用基于約束的模型以途徑的最大最小驅(qū)動(dòng)力(max-min driving force)為優(yōu)化目標(biāo),通過混合整數(shù)線性規(guī)劃來識(shí)別具有最高熱力學(xué)驅(qū)動(dòng)力的途徑,這類途徑具有較高的代謝通量且對(duì)酶的表達(dá)強(qiáng)度要求較小。eQuilibrator3.0[47]可利用組分貢獻(xiàn)(component contribution,CC)工具計(jì)算反應(yīng)的生化平衡常數(shù)和ΔG,同時(shí)給出衡量預(yù)測(cè)不確定性的協(xié)方差矩陣用于基于約束的熱力學(xué)模型計(jì)算。dGPredictor[48]基于KEGG數(shù)據(jù)庫可利用基團(tuán)貢獻(xiàn)工具計(jì)算不同pH和離子強(qiáng)度下的代謝途徑中酶催化反應(yīng)的ΔG,且考慮了化合物結(jié)構(gòu)中的立體化學(xué)信息,增加了熱力學(xué)預(yù)測(cè)的精準(zhǔn)度。
2.1.3 酶序列可行性 有無催化目標(biāo)反應(yīng)的酶序列對(duì)于預(yù)測(cè)途徑的實(shí)現(xiàn)十分重要,尤其是對(duì)于基于反應(yīng)規(guī)則預(yù)測(cè)的新反應(yīng)。在延伸預(yù)測(cè)途徑時(shí)可能一些反應(yīng)規(guī)則不存在相關(guān)聯(lián)的酶序列,此時(shí)預(yù)測(cè)出的新反應(yīng)需要依靠人工查詢文獻(xiàn)以尋找酶序列,降低了設(shè)計(jì)的效率,因此在選擇反應(yīng)規(guī)則時(shí)應(yīng)當(dāng)增加與酶序列相關(guān)聯(lián)的反應(yīng)規(guī)則的權(quán)重,提高酶催化反應(yīng)的可行性。
2.1.4 途徑長度 途徑長度是最直接的篩選指標(biāo),長途徑意味著在底盤宿主中引入了更多的酶,從而使代謝負(fù)擔(dān)增加,而結(jié)構(gòu)復(fù)雜化合物需要經(jīng)歷多種后修飾過程,需要較長的生物合成途徑才能完成修飾作用,因此需要對(duì)途徑長度進(jìn)行合理篩選。目前一些算法直接利用途徑長度對(duì)預(yù)測(cè)途徑進(jìn)行打分和排序,而基于圖論的生物逆合成預(yù)測(cè)工具通常采用混合整數(shù)線性規(guī)劃等基于約束計(jì)算方法尋找底物到目標(biāo)產(chǎn)物的前k條最短基元模式分析(elementary flux mode,EFM)[49]、最 短 碳 流 量 途 徑(carbon flux path,CFP)[50]及最短活性途徑(active pathway)[51]。例如,NICEpath[52]將反應(yīng)物-產(chǎn)物對(duì)中保守的原子數(shù)量作為反應(yīng)權(quán)重結(jié)合k-最短圖搜索(k-shortest graph search)算法可實(shí)現(xiàn)KEGG中途徑的篩選。PATHcre8[53]構(gòu)建了包含可逆反應(yīng)的雙向圖,采用Yen算法與PathLinker算法相結(jié)合的前K條無環(huán)最短路徑算法篩選目標(biāo)途徑。
由于預(yù)測(cè)途徑在底盤宿主中的實(shí)現(xiàn)會(huì)受到內(nèi)源化合物及調(diào)控網(wǎng)絡(luò)影響,從而呈現(xiàn)出偏離預(yù)測(cè)的現(xiàn)象,因此為了合理設(shè)計(jì)一個(gè)高效的異源生物合成細(xì)胞工廠,必須考慮外源反應(yīng)在底盤宿主中特定內(nèi)源性代謝網(wǎng)絡(luò)影響下的穩(wěn)定性,需要對(duì)預(yù)測(cè)途徑與底盤宿主的適配性進(jìn)行評(píng)價(jià),以增加預(yù)測(cè)途徑的可行性。OptStrain[54]、DESHARKY[55]、FMM[49]、Metabolic tinker[45]、GEM-Path[56]、XTMS[9]、MRE[57]、RetroPath2.0[11]等生物逆合成預(yù)測(cè)工具均對(duì)途徑與大腸桿菌、酵母、藍(lán)細(xì)菌等底盤宿主的適配性進(jìn)行了探討。
2.2.1 化合物毒性 中間化合物對(duì)細(xì)胞的毒性將妨礙途徑中的酶在底盤宿主中正常表達(dá),因此需要對(duì)化合物毒性進(jìn)行預(yù)測(cè),避免預(yù)測(cè)途徑中包含高毒性中間化合物。通常采用化合物的半數(shù)抑制濃度(the half inhibitory concentration,IC50)作為化合物毒性的評(píng)價(jià)指標(biāo),表示一半細(xì)胞種群的生長受到抑制時(shí)的化合物濃度[58]。目前有一些收錄了化合物毒性的 數(shù) 據(jù) 庫,如TOXNET[59]、DSSTox[60]、T3DB[61]以 及RTECS[62]等,但其中的毒性數(shù)據(jù)多以動(dòng)物細(xì)胞為對(duì)象,缺少對(duì)微生物細(xì)胞的毒性數(shù)據(jù)。目前已報(bào)道可預(yù)測(cè)化合物對(duì)微生物底盤宿主毒性的軟件較少,其中EcoliTox[63]可基于化學(xué)結(jié)構(gòu)與活性的定量關(guān)系預(yù)測(cè)中間化合物在大腸桿菌中的毒性,在多種逆合成工具中均有應(yīng)用[9,11-12,64-65]。此外Toxicity Estimation Software Tool(TEST)工具也可實(shí)現(xiàn)對(duì)化合物毒性的預(yù)測(cè)。
2.2.2 代謝負(fù)擔(dān) 代謝途徑中引入的異源途徑將增加細(xì)胞的代謝負(fù)擔(dān),從而妨礙細(xì)胞的生長和生產(chǎn)。DESHARKY[55]使用蒙特卡洛啟發(fā)式算法對(duì)生物合成途徑進(jìn)行預(yù)測(cè),同時(shí)對(duì)大腸桿菌中細(xì)胞資源和內(nèi)源代謝情況進(jìn)行建模,基于對(duì)核糖體和RNA聚合酶的消耗量計(jì)算異源代謝途徑對(duì)底盤宿主的負(fù)擔(dān),從而可選取對(duì)宿主產(chǎn)生較小代謝負(fù)擔(dān)的途徑。
2.2.3 理論產(chǎn)量 通過構(gòu)建包含底盤菌株內(nèi)源化合物及預(yù)測(cè)途徑相關(guān)化合物相對(duì)應(yīng)的化學(xué)計(jì)量矩陣來構(gòu)建GEM模型,并利用流量平衡分析(flux balance analysis,FBA)及基于約束的混合整數(shù)線性規(guī)劃算法可計(jì)算途徑在目標(biāo)底盤宿主中化合物的理論產(chǎn)量,且常以產(chǎn)量最大化為優(yōu)化目標(biāo)來選擇途徑,這類生物逆合成預(yù)測(cè)工具包括OptStrain[54]、DESHARKY[55]、FMM[49]、GEM-Path[56]及XTMS[9]等。需要注意的是基于FBA的工具在評(píng)估途徑時(shí)需要提供豐富的信息來為給定底盤細(xì)胞模型設(shè)定嚴(yán)格的反應(yīng)通量邊界,因而僅適用于大腸桿菌、釀酒酵母等經(jīng)過充分研究的模式微生物。
2.2.4 內(nèi)源起始化合物 底盤宿主內(nèi)結(jié)構(gòu)更簡單的起始化合物通常具有更大的代謝通量,有利于增加目標(biāo)產(chǎn)物的產(chǎn)量。SCScore[66]是一項(xiàng)衡量分子復(fù)雜性的指標(biāo),基于大量合成化學(xué)反應(yīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)對(duì)化合物分子的結(jié)構(gòu)復(fù)雜性進(jìn)行評(píng)分,從而有利于指導(dǎo)生物逆合成途徑選擇更簡單的起始化合物。此外化合物官能團(tuán)與反應(yīng)中心碳原子之間的相對(duì)位置,將影響官能團(tuán)的電子構(gòu)型變化以及酶活性位點(diǎn)與底物的結(jié)合,進(jìn)而影響化學(xué)反應(yīng)的可行性。Lee等[67]基于ChemAxon Reactor工具通過比較所選氨基酸前體中官能團(tuán)(氨基和羧基)與L-纈氨酸、L-亮氨酸和L-異亮氨酸的相對(duì)位置,為短鏈伯胺生物合成途徑選擇了最佳的氨基酸前體。
2.2.5 內(nèi)源競(jìng)爭(zhēng)途徑 底盤宿主內(nèi)源代謝網(wǎng)絡(luò)可能會(huì)對(duì)異源生物合成途徑產(chǎn)生競(jìng)爭(zhēng)作用,進(jìn)而影響目標(biāo)化合物的生產(chǎn)。MRE[57]將預(yù)測(cè)出的異源生物合成途徑整合到底盤宿主內(nèi)源代謝網(wǎng)絡(luò)中,并基于熱力學(xué)可行性確定代謝網(wǎng)絡(luò)中反應(yīng)的方向,形成有向圖,基于標(biāo)準(zhǔn)化的Boltzmann因子計(jì)算可對(duì)內(nèi)源前體化合物(節(jié)點(diǎn))進(jìn)行轉(zhuǎn)化的內(nèi)源和異源競(jìng)爭(zhēng)反應(yīng)(邊)的概率分布并由此進(jìn)行賦權(quán),以考慮特定底盤宿主中內(nèi)源代謝反應(yīng)對(duì)異源途徑的競(jìng)爭(zhēng)作用。
在實(shí)際情況中,常使用不同指標(biāo)的加權(quán)組合來對(duì)途徑進(jìn)行綜合評(píng)價(jià),且一些基于綜合評(píng)價(jià)獲得的預(yù)測(cè)途徑已被實(shí)驗(yàn)驗(yàn)證并用于微生物細(xì)胞工廠的構(gòu)建。
XTMS[9]對(duì)食品工業(yè)中使用的昂貴風(fēng)味成分樹莓酮的生物合成途徑進(jìn)行了預(yù)測(cè),并利用通量平衡分析(FBA)根據(jù)熱力學(xué)可行性(吉布斯自由能)、酶性能(基因評(píng)分)、途徑可行性(反應(yīng)步驟的數(shù)量)、中間化合物的毒性及目標(biāo)化合物產(chǎn)量等指標(biāo)對(duì)預(yù)測(cè)途徑進(jìn)行了綜合評(píng)價(jià)和排序,恢復(fù)了以香豆酰輔酶A為底物合成樹莓酮的兩步天然合成途徑,同時(shí)考慮到作為底盤宿主的大腸桿菌中不存在香豆酰輔酶A,XTMS給出了從內(nèi)源性化合物到樹莓酮的生物合成途徑。
PATHcre8可選擇藍(lán)藻為底盤宿主[53],預(yù)測(cè)從乙酰乙酰輔酶A到IPP、從甲羥戊酸到異戊二烯的生物合成途徑及從可卡因到偽雌二醇輔酶A(pseudoecgonyl-CoA)的生物降解途徑,并根據(jù)反應(yīng)熱力學(xué)可行性、途徑中的潛在毒性產(chǎn)物(化合物毒性)、競(jìng)爭(zhēng)反應(yīng)消耗的途徑中的中間產(chǎn)物(產(chǎn)物消耗)以及拷貝數(shù)等指標(biāo)對(duì)途徑進(jìn)行綜合評(píng)價(jià),結(jié)果顯示從乙酰乙酰輔酶A到IPP的天然途徑在預(yù)測(cè)的前15條候選途徑之中,經(jīng)實(shí)驗(yàn)驗(yàn)證的基于磷酸異戊烯酯的(R)-甲羥戊酸到異戊二烯途徑在候選途徑中排名靠前,所預(yù)測(cè)的可卡因生物降解途徑為尚未經(jīng)過實(shí)驗(yàn)測(cè)試的潛在異源降解途徑。
Ahsanul Islam等[68]利用ReactPRED和RetroPath2.0兩種工具對(duì)苯、苯酚和1,2-丙二醇的生物途徑進(jìn)行預(yù)測(cè),結(jié)合底物可行性和熱力學(xué)可行性兩個(gè)篩選指標(biāo),最終共獲得49條生產(chǎn)苯、苯酚和1,2-丙二醇的預(yù)測(cè)途徑,包含了從乙酸鹽、葡萄糖和丙酮酸鹽起始到苯、苯酚和1,2-丙二醇的106個(gè)反應(yīng),且25條預(yù)測(cè)途徑完全由新反應(yīng)組成,表明生物逆合成預(yù)測(cè)加速了潛在新反應(yīng)的發(fā)現(xiàn)。
BioNavi-NP[7]對(duì)倍半萜類衍生物Sterhirsutin J和戊二酸的生物合成途徑進(jìn)行了預(yù)測(cè),并結(jié)合底物相似性和途徑長度兩個(gè)指標(biāo)對(duì)候選途徑進(jìn)行篩選,所得戊二酸的新生物合成途徑已被實(shí)驗(yàn)驗(yàn)證[69]。Lee等[67]利用Park等[70]報(bào)道的工具對(duì)短鏈伯胺的生物合成途徑進(jìn)行了預(yù)測(cè),結(jié)合底物相似性、反應(yīng)位點(diǎn)相似性、熱力學(xué)可行性、路徑距離及酶與底盤的適配性五個(gè)評(píng)價(jià)指標(biāo)對(duì)預(yù)測(cè)途徑進(jìn)行排序,所預(yù)測(cè)異丁胺生物合成途徑在大腸桿菌中產(chǎn)量最高達(dá)到10.6 7g/L。Smolke等[71]利用BNICE.ch對(duì)那可丁衍生物的生物合成途徑進(jìn)行了預(yù)測(cè),通過化合物引用次數(shù)、相關(guān)專利數(shù)對(duì)候選衍生物進(jìn)行篩選,并結(jié)合熱力學(xué)可行性、底物相似性、候選衍生物的生理功能對(duì)候選產(chǎn)物的預(yù)測(cè)途徑進(jìn)行評(píng)價(jià),最終得到了(S)-四氫巴馬汀、(S)-armepavine、(S)-laudanine和(S)-nandinine四種衍生物的候選途徑,并在釀酒酵母中成功地進(jìn)行了途徑構(gòu)建。
微生物細(xì)胞工廠的設(shè)計(jì)不僅包括生物合成途徑的設(shè)計(jì),途徑中所需的編碼基因在底盤宿主中表達(dá)時(shí)還需要一系列必要的轉(zhuǎn)錄和翻譯調(diào)節(jié)元件。這些元件將在一定程度上決定途徑中酶的表達(dá)活性,并進(jìn)一步影響菌株的生長和目標(biāo)化合物的產(chǎn)量。因此需要對(duì)調(diào)節(jié)元件進(jìn)行設(shè)計(jì)和優(yōu)化,以精確控制酶活性且提供途徑與底盤宿主的適配性,而人工智能的出現(xiàn)加速了元件從頭設(shè)計(jì)的研究,并使人工定制遺傳元件成為可能。由于真核生物轉(zhuǎn)錄和翻譯調(diào)控十分復(fù)雜,對(duì)調(diào)控元件的研究集中在原核生物,尤其是大腸桿菌表達(dá)體系。
啟動(dòng)子是在轉(zhuǎn)錄水平調(diào)控基因表達(dá)的關(guān)鍵元件,可驅(qū)動(dòng)對(duì)基因表達(dá)的調(diào)控。先前尋找新啟動(dòng)子的研究主要集中在通過誘變或調(diào)控元件組合對(duì)已知啟動(dòng)子進(jìn)行改造并形成啟動(dòng)子文庫,結(jié)合人工智能手段對(duì)啟動(dòng)子的強(qiáng)度進(jìn)行預(yù)測(cè),以實(shí)現(xiàn)為細(xì)胞工廠提供不同轉(zhuǎn)錄強(qiáng)度的啟動(dòng)子元件(圖4)。
圖4 啟動(dòng)子的設(shè)計(jì)Fig.4 The design of the promoter
在大腸桿菌的啟動(dòng)子設(shè)計(jì)研究中,SelProm[72]將擁有120個(gè)質(zhì)粒的BglBrick文庫中的誘導(dǎo)型啟動(dòng)子替換為組成型啟動(dòng)子,構(gòu)建了10種不同表達(dá)強(qiáng)度水平的組成型表達(dá)質(zhì)粒,覆蓋的表達(dá)強(qiáng)度水平中最弱為未誘導(dǎo)的PlacUV5的1/5.6 ,最強(qiáng)比誘導(dǎo)的Ptrc高4.3 倍,最強(qiáng)與最弱表達(dá)強(qiáng)度水平之差為156倍,以良好的分辨率提供了廣泛的表達(dá)水平。基于該數(shù)據(jù),SelProm利用偏最小二乘回歸(partial least squares regression)算法建立了預(yù)測(cè)選擇模型,可對(duì)不同的質(zhì)粒成分參數(shù)(啟動(dòng)子、抗性基因)下誘導(dǎo)型和組成型質(zhì)粒的表達(dá)強(qiáng)度水平進(jìn)行預(yù)測(cè),并推薦目標(biāo)表達(dá)強(qiáng)度水平相應(yīng)的誘導(dǎo)型和組成型啟動(dòng)子,實(shí)驗(yàn)結(jié)果驗(yàn)證了啟動(dòng)子推薦工具的有效性。此外,Deng等[73]基于易錯(cuò)PCR技術(shù)對(duì)pTrc99a質(zhì)粒上的Ptrc啟動(dòng)子進(jìn)行誘變,產(chǎn)生了由3665個(gè)突變體組成的大腸桿菌人工啟動(dòng)子文庫,所跨越的表達(dá)強(qiáng)度水平超過兩個(gè)數(shù)量級(jí),最強(qiáng)的啟動(dòng)子是1mmol/L IPTG誘導(dǎo)的PT7強(qiáng)度的1.52 倍。使用該合成啟動(dòng)子庫作為輸入數(shù)據(jù)集,構(gòu)建并優(yōu)化了基于XGBOOST機(jī)器學(xué)習(xí)算法的啟動(dòng)子強(qiáng)度預(yù)測(cè)模型,可對(duì)所設(shè)計(jì)的人工啟動(dòng)子的轉(zhuǎn)錄強(qiáng)度水平進(jìn)行預(yù)測(cè),且經(jīng)比較發(fā)現(xiàn),理性設(shè)計(jì)的一百個(gè)人工啟動(dòng)子的預(yù)測(cè)強(qiáng)度和實(shí)際強(qiáng)度十分接近(R2=0.88 ),從而驗(yàn)證了XgBoost模型在啟動(dòng)子表達(dá)強(qiáng)度的預(yù)測(cè)上的可靠性。
隨著啟動(dòng)子突變體文庫的增多,越來越多的啟動(dòng)子序列及其表達(dá)強(qiáng)度數(shù)據(jù)被公開報(bào)道,同時(shí)結(jié)合合成生物學(xué)及生物信息學(xué)領(lǐng)域的快速發(fā)展,啟動(dòng)子的從頭設(shè)計(jì)成為可能。Wang等[74]基于生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GANs)從大腸桿菌天然啟動(dòng)子中學(xué)習(xí)關(guān)鍵特征(k-mer頻率、-10和-35基序及其間距限制),以捕獲不同位置的核苷酸之間的相互作用,從而建立了大腸桿菌啟動(dòng)子的從頭設(shè)計(jì)方法。人工啟動(dòng)子可基于大腸桿菌中的啟動(dòng)子活性和預(yù)測(cè)模型進(jìn)行優(yōu)化,兩輪優(yōu)化后高達(dá)70.8%人工啟動(dòng)子被實(shí)驗(yàn)驗(yàn)證了其調(diào)控轉(zhuǎn)錄水平的功能,且多數(shù)人工啟動(dòng)子與大腸桿菌基因組在序列上具有正交性。此外,其中一些人工啟動(dòng)子顯示出與大多數(shù)天然啟動(dòng)子及其最強(qiáng)突變體相當(dāng)甚至更高的活性,表明深度學(xué)習(xí)的方法可以為細(xì)胞工廠的設(shè)計(jì)提供更廣泛的遺傳元件來源。
真核生物的啟動(dòng)子設(shè)計(jì)研究報(bào)道較少,且集中于釀酒酵母表達(dá)體系,主要通過從釀酒酵母內(nèi)源啟動(dòng)子中獲取保守的模體(motif),并對(duì)模體之間的間隔序列進(jìn)行設(shè)計(jì),得到大型人工啟動(dòng)子文庫,并結(jié)合人工智能算法建立啟動(dòng)子的預(yù)測(cè)模型。如Smolke等[75]以酵母內(nèi)源TDH3啟動(dòng)子為研究對(duì)象,獲取了TDH3啟動(dòng)子中轉(zhuǎn)錄因子結(jié)合位點(diǎn)、TATA框、轉(zhuǎn)錄起始位點(diǎn)等保守序列,對(duì)保守序列之間的間隔序列進(jìn)行隨機(jī)設(shè)計(jì),得到超過675000條基于TDH3啟動(dòng)子的酵母人工啟動(dòng)子文庫,測(cè)量了其中327000條序列的基因表達(dá)活性,并利用卷積神經(jīng)網(wǎng)絡(luò)算法建立了具有較高預(yù)測(cè)準(zhǔn)確性的人工啟動(dòng)子表達(dá)強(qiáng)度預(yù)測(cè)模型。
對(duì)于原核生物而言,在翻譯水平上的調(diào)控主要通過核糖體結(jié)合位點(diǎn)(ribosome binding sit,RBS)的設(shè)計(jì)來實(shí)現(xiàn)。RBS Calculator[76]、RBSDesigner[77]、RedLibs[78]、PartsGenie[79]等工具可預(yù)測(cè)RBS序列的翻譯起始速率以估計(jì)給定mRNA序列的蛋白質(zhì)表達(dá)水平,并被用于設(shè)計(jì)符合所需翻譯起始速率的RBS序列。
例如,RBS Calculator[76]基于翻譯啟動(dòng)階段關(guān)鍵分子相互作用的吉布斯自由能建立了平衡統(tǒng)計(jì)熱力學(xué)模型,通過將熱力學(xué)模型與隨機(jī)優(yōu)化方法相結(jié)合,可設(shè)計(jì)具有特定的翻譯起始速率或使得編碼序列具有盡可能高的翻譯起始速率的RBS序列,此外RBS Calculator還可以通過手動(dòng)設(shè)計(jì)或復(fù)制強(qiáng)大的自然序列來設(shè)計(jì)比以前更強(qiáng)大的人工RBS序列。RedLibs[78]基于RBS Calculator可生成全局優(yōu)化的簡并RBS文庫,以減少RBS文庫中的冗余元件,且在文庫規(guī)模盡量小的情況下包括更多中等或高強(qiáng)度的RBS序列,所得的兼并RedLibs文庫中的核糖體結(jié)合位點(diǎn)樣本能夠以線性方式均勻覆蓋整個(gè)翻譯起始速率(rates for translation initiation,TIR)空間,充分滿足不同強(qiáng)度RBS序列的選擇需求。
此外,Ding等[80]將RBS的設(shè)計(jì)與生物傳感器相結(jié)合,利用DNA微陣列構(gòu)建了包含12000個(gè)RBS的葡萄糖酸生物傳感器,通過熒光激活細(xì)胞分選(FACS)檢測(cè)了生物傳感器中綠色熒光蛋白的熒光強(qiáng)度,利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)對(duì)其中7053個(gè)RBS的七個(gè)特征(RBS的GC頻率,堿基A、T、C、G的頻率,SDn的GC頻率及SDm的GC頻率)進(jìn)行訓(xùn)練,建立了可預(yù)測(cè)RBS序列表達(dá)強(qiáng)度的神經(jīng)網(wǎng)絡(luò)模型CLM-RDR,能夠快速確定與RBS序列對(duì)應(yīng)的生物傳感器的平均動(dòng)態(tài)表達(dá)范圍及其序列特征(圖5)。
圖5 核糖體結(jié)合位點(diǎn)的設(shè)計(jì)Fig.5 The design of the RBS
在微生物細(xì)胞工廠的設(shè)計(jì)階段需要確定所構(gòu)建基因線路中啟動(dòng)子、終止子、標(biāo)簽、整合位點(diǎn)、載體等元件的組合方式,使目標(biāo)途徑能夠發(fā)揮正常功能。在傳統(tǒng)實(shí)驗(yàn)設(shè)計(jì)中由于不同特性的元件使得元件-途徑的組合空間變得十分巨大,組合優(yōu)化將使得實(shí)驗(yàn)量呈現(xiàn)指數(shù)級(jí)增加,在缺乏高通量構(gòu)建平臺(tái)的情況下難以實(shí)現(xiàn),因此通常只能一次對(duì)某一類元件進(jìn)行優(yōu)化(one factor/one variable at a time,OFAT or OVAT),但元件間的內(nèi)在聯(lián)系和約束使所獲取的組合方式只能達(dá)到局部最優(yōu)。實(shí)驗(yàn)設(shè)計(jì)(design of experiments,DoE)是在生物工藝工程中廣泛應(yīng)用的高效探索大規(guī)模設(shè)計(jì)空間的系統(tǒng)方法,可以對(duì)組合空間進(jìn)行優(yōu)化、壓縮,得到精簡的組合空間,進(jìn)而為獲取全局組合優(yōu)化提供了可能。在代謝工程及生物制造領(lǐng)域,DoE被用于優(yōu)化實(shí)驗(yàn)條件以提高目標(biāo)化合物產(chǎn)量(圖6)。
圖6 實(shí)驗(yàn)設(shè)計(jì)Fig.6 Design of experiments
DoE可以對(duì)有不同取值(levels)的因子(factors)的組合空間進(jìn)行評(píng)價(jià),并通過一些代表性實(shí)驗(yàn)來高效探索設(shè)計(jì)空間。DoE包括識(shí)別相關(guān)因子和對(duì)相關(guān)因子的取值組合優(yōu)化兩個(gè)過程。在微生物細(xì)胞工廠構(gòu)建過程中,啟動(dòng)子、拷貝數(shù)、抗生素抗性等遺傳相關(guān)變量以及碳源、氮源、添加物等培養(yǎng)基相關(guān)變量均可以作為具有不同取值的因子。而與預(yù)測(cè)途徑及底盤宿主相關(guān)因子的識(shí)別和選擇依賴于先驗(yàn)知識(shí),其中在DBTL循環(huán)的早期階段,先驗(yàn)知識(shí)較為匱乏,需要考慮較多的因子,并通過盡量少的DBTL的循環(huán)對(duì)設(shè)計(jì)空間進(jìn)行精簡。不同因子組合要實(shí)現(xiàn)的典型優(yōu)化目標(biāo)包括目標(biāo)化合物產(chǎn)量的最大化(如增加得率、速率和產(chǎn)量)、使中間化合物毒性最小化等。
Carbonell等[81-82]基于R程序包planor和DoE.base先后采用了以啟動(dòng)子強(qiáng)度、途徑中基因位置次序及質(zhì)??截悢?shù)為因子和以底盤菌株和培養(yǎng)基組成為因子的方式對(duì)大腸桿菌中黃酮化合物(2S)-喬松素的產(chǎn)量進(jìn)行優(yōu)化,將(2S)-喬松素的產(chǎn)量提高了500倍。Singleton等[83]結(jié) 合DoE軟件JMP Pro(SAS Institute Inc.USA)和人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANN),在搖瓶和96孔板兩種生長環(huán)境條件下,將碳源、氮源、磷酸、維生素、氨基酸濃度等培養(yǎng)基相關(guān)變量作為因子,對(duì)熱葡糖苷土芽孢桿菌(Geobacillus thermoglucosidans)的發(fā)酵培養(yǎng)基組分進(jìn)行優(yōu)化,實(shí)現(xiàn)熱葡糖苷土芽孢桿菌利用己糖單糖和二糖進(jìn)行生長,并可產(chǎn)生乳酸或乙酸鹽。Radivojevi?等[84]結(jié)合機(jī)器學(xué)習(xí)和貝葉斯概率模型建立了自動(dòng)推薦工具(Automated Recommendation Tool,ART),輸入組學(xué)數(shù)據(jù)或啟動(dòng)子的組合可預(yù)測(cè)最終產(chǎn)量各種可能值的概率分布情況,同時(shí)基于逆向設(shè)計(jì)可提供使得目標(biāo)化合物產(chǎn)量最高的候選組學(xué)數(shù)據(jù)或啟動(dòng)子組合,從而指導(dǎo)下一輪DBTL循環(huán)的實(shí)驗(yàn)設(shè)計(jì),但ART目前僅支持單目標(biāo)優(yōu)化。Jensen等[85]將上述ART算法與釀酒酵母GEM、機(jī)器學(xué)習(xí)算法相結(jié)合,以啟動(dòng)子為因子對(duì)色氨酸(tryptophan)的生產(chǎn)進(jìn)行優(yōu)化,最終滴度和產(chǎn)量分別提高74%和43%。
生物制造作為制造業(yè)可持續(xù)發(fā)展的重要方向受到人們?cè)絹碓蕉嗟年P(guān)注,而微生物細(xì)胞工廠是生物制造的有力手段。當(dāng)前持續(xù)積累的生物大數(shù)據(jù)極大地促進(jìn)了計(jì)算機(jī)輔助設(shè)計(jì)工具的發(fā)展,對(duì)微生物細(xì)胞工廠的智能化設(shè)計(jì)將起到革命性的作用。本文依據(jù)細(xì)胞工廠在實(shí)際構(gòu)建中的先后次序?qū)?xì)胞工廠中生物逆合成途徑的預(yù)測(cè)與篩選、轉(zhuǎn)錄水平和翻譯水平上遺傳調(diào)控元件的設(shè)計(jì)、途徑與元件的組合優(yōu)化三個(gè)環(huán)節(jié)相關(guān)的智能設(shè)計(jì)工具進(jìn)行了綜述。
在生物合成途徑的預(yù)測(cè)與篩選環(huán)節(jié),生物逆合成算法基于泛化的反應(yīng)規(guī)則擴(kuò)展逆合成網(wǎng)絡(luò),并利用多種指標(biāo)對(duì)預(yù)測(cè)途徑的途徑可行性和底盤適配性進(jìn)行綜合評(píng)價(jià),給出最具實(shí)際可行性的推薦途徑,幫助人們進(jìn)行已知途徑化合物的途徑優(yōu)化及提產(chǎn)和未知途徑化合物的途徑預(yù)測(cè)及設(shè)計(jì)。此外,蒙特卡洛樹等人工智能算法的引入為生物逆合成算法的發(fā)展提供了新的思路。但值得注意的是,當(dāng)前生物逆合成工具預(yù)測(cè)途徑的假陽性率仍然較高,其主要原因在于途徑評(píng)價(jià)算法不能充分模擬底盤宿主對(duì)途徑的選擇,如不能精確計(jì)算化合物對(duì)指定微生物宿主的毒性、未考慮化合物及酶的區(qū)室化對(duì)途徑表達(dá)的影響以及缺乏酶催化底物雜泛性數(shù)據(jù)等。目前AlphaFold2[86]和RoseTTAFold[87]的出現(xiàn)可實(shí)現(xiàn)基于序列預(yù)測(cè)蛋白質(zhì)晶體結(jié)構(gòu),為酶與底物的適配性問題提供了解決思路。
在遺傳調(diào)控元件設(shè)計(jì)環(huán)節(jié),主要研究對(duì)象是原核生物的啟動(dòng)子和核糖體結(jié)合位點(diǎn)設(shè)計(jì)。對(duì)原核啟動(dòng)子的設(shè)計(jì)主要從對(duì)已有啟動(dòng)子進(jìn)行改造(誘變、易錯(cuò)PCR等)或從頭設(shè)計(jì)兩種手段獲取新啟動(dòng)子,并基于啟動(dòng)子調(diào)控的熒光蛋白的表達(dá)強(qiáng)度數(shù)據(jù)建立預(yù)測(cè)模型及人工啟動(dòng)子庫,為所需表達(dá)強(qiáng)度提供推薦的啟動(dòng)子序列。由于大腸桿菌等原核生物中啟動(dòng)子的長度較短,一般小于150bp,而酵母等真核生物的啟動(dòng)子較長,通常為數(shù)百個(gè)核苷酸,且調(diào)控機(jī)制更為復(fù)雜,因此開發(fā)適用于真核生物啟動(dòng)子設(shè)計(jì)和表達(dá)強(qiáng)度精準(zhǔn)預(yù)測(cè)工具是遺傳調(diào)控元件設(shè)計(jì)的重要挑戰(zhàn)。此外,原核生物核糖體結(jié)合位點(diǎn)的設(shè)計(jì)主要基于熱力學(xué)模型,可計(jì)算RBS序列的翻譯起始效率,并提供推薦的RBS序列。值得注意的是,對(duì)這兩種遺傳調(diào)控元件進(jìn)行設(shè)計(jì)的工具均很少考慮目標(biāo)序列的實(shí)際表達(dá)環(huán)境參數(shù)(菌株、pH、質(zhì)粒類型、標(biāo)簽等),減少了推薦的遺傳元件可靠性。
在途徑與元件組合優(yōu)化環(huán)節(jié),DoE方法簡化了遺傳元件與途徑的組合空間,可以在多輪迭代設(shè)計(jì)中優(yōu)化途徑表達(dá)及目標(biāo)產(chǎn)物的產(chǎn)量,但DoE方法難以充分考慮途徑設(shè)計(jì)及構(gòu)建中的相關(guān)因子,如底盤宿主中可能影響途徑表達(dá)的干擾因子,使得DoE推薦的組合方案具有一定的局限性。
此外,目前微生物細(xì)胞工廠相關(guān)的設(shè)計(jì)工具只能相對(duì)獨(dú)立地進(jìn)行特定環(huán)節(jié)的設(shè)計(jì),不能實(shí)現(xiàn)微生物細(xì)胞工廠的一站式自動(dòng)化設(shè)計(jì)“流水線”,需要靠人力來完成各部分設(shè)計(jì)工具間的連接,因而不能有效地提高細(xì)胞工廠的設(shè)計(jì)效率,通過整合現(xiàn)有工具資源或創(chuàng)制新的工具、統(tǒng)一接口、建立標(biāo)準(zhǔn)化的自動(dòng)化設(shè)計(jì)工作站,將是微生物細(xì)胞工廠智能設(shè)計(jì)的重要發(fā)展方向。