李輝 方志鍇 郭霞凌,*
(1 大邦(湖南)生物制藥有限公司,長沙 410221;2 福建省微生物研究所,福州 350007)
利普斯他汀(lipstatin)是由毒三素鏈霉菌(Streptomyces toxytricini)產(chǎn)生的一種具有良好抑制脂肪酶活性的天然產(chǎn)物,其氫化還原產(chǎn)物奧利司他(orlistat)化學(xué)性質(zhì)更加穩(wěn)定,是目前全球唯一的OTC減肥藥和非中樞神經(jīng)減肥藥[1-2]。以lipstatin為關(guān)鍵前體的發(fā)酵半合成技術(shù)是目前制備orlistat的主要方法,有關(guān)lipstatin的生物合成途徑解析與菌種選育一直是該領(lǐng)域的研究熱點[3-4]。由于lipstatin生物合成途徑復(fù)雜且產(chǎn)生多種副產(chǎn)物和結(jié)構(gòu)類似物,導(dǎo)致發(fā)酵單位產(chǎn)量較低且下游提取精制十分繁瑣[5-6]。因此,構(gòu)建高產(chǎn)低雜的生產(chǎn)菌株,提高工業(yè)化生產(chǎn)水平,是目前亟待解決的關(guān)鍵問題。然而lipstatin完整的生物合成途徑與調(diào)控機制至今未全面闡明,從而無法找到合適的靶基因?qū)ζ洚a(chǎn)生菌進行代謝工程定向改造[7-8]。通過對S.toxytricini進行全基因組測序,有助于從分子水平上了解其遺傳變異規(guī)律、重要代謝途徑和調(diào)控機制,可為高效基因工程菌株的構(gòu)建提供豐富、可靠的遺傳信息。
隨著基因測序技術(shù)的不斷迭代更新,越來越多的微生物基因組序列被破譯[9]。然而,由于二代測序技術(shù)讀長較短、高重復(fù)序列無法跨越、高GC區(qū)域無法準確測定等原因,很多已完成測序的微生物基因組中往往含有數(shù)目不等的空缺區(qū)域(gap)[10]?;蚪M空缺區(qū)域中可能存在重要的遺傳信息,如果不能補齊所有的gap,不僅無法獲得完整的基因組圖譜,還會給后續(xù)關(guān)鍵信息解讀(基因調(diào)控、SNP分析、比較基因組分析等)造成很大困難[11]。三代測序技術(shù)由于其超長的測序讀長和無GC偏好性,不僅可以克服以上部分難題,還可以得到零gap基因組完成圖,但目前三代測序在堿基讀取準確度上較二代測序差。三代聯(lián)合二代測序技術(shù)可克服兩者的缺點,從而獲得更準確、更深入的基因組數(shù)據(jù)挖掘結(jié)果。
本研究采用三代單分子測序長讀長與二代測序糾錯相結(jié)合的方式,對liptatin工業(yè)生產(chǎn)菌株毒三素鏈霉菌AP617-N12CA(S.toxytriciniAP617-N12CA )進行全基因組序列測定,不僅獲得了AP617-N12CA的染色體全基因序列信息,還首次發(fā)現(xiàn)了一個長約0.61Mbp線型質(zhì)粒。通過對染色體基因組和線型質(zhì)粒進行基因功能注釋和次級代謝產(chǎn)物合成基因簇預(yù)測,從線型質(zhì)粒上定位了lipstatin生物合成基因簇,為AP617-N12CA的功能基因組學(xué)研究和代謝調(diào)控提供了理論依據(jù)。
本研究所采用的菌株S.toxytriciniAP617-N12CA為lipstatin工業(yè)化生產(chǎn)菌株,由大邦(湖南)生物制藥有限公司保藏。搖瓶種子培養(yǎng)基:甘油2.0%,酵母提取物0.6%,黃豆餅粉2.0%,蒸餾水配置,pH6.5。YEME培養(yǎng)基:蛋白胨0.5%,酵母提取物0.3%,麥芽提取物0.3%,葡萄糖1.0%,蒸餾水配置,pH7.5。
取少量AP617-N12CA孢子懸液接種于搖瓶種子培養(yǎng)基,28℃恒溫培養(yǎng)36 h,然后以1%的接種量接種于YEME培養(yǎng)基,37℃恒溫培養(yǎng)48 h。離心收集菌絲體,提取AP617-N12CA基因組DNA[12],使用Thermo NanoDrop 2000微量紫外分光光度計對提取的基因組DNA進行濃度測定,然后進行0.5%瓊脂糖凝膠電泳檢測DNA質(zhì)量。
對質(zhì)量和濃度測定合格樣品進行基因組測序,由北京百邁克生物技術(shù)有限公司同時進行Illumina二代測序和ONT三代測序。三代原始數(shù)據(jù)經(jīng)去除測序數(shù)據(jù)中的接頭序列和低質(zhì)量序列后,得到總的數(shù)據(jù)集。使用Canu v1.5 (http://github.com/marbl/canu) 軟件[13]對過濾后的subreads進行從頭組裝,通過Racon v3.4.3軟件利用三代subreads對組裝結(jié)果進行矯正。通過Circlator v1.5.5軟件進行環(huán)化和調(diào)整起始位點,采用Pilon v1.22軟件利用二代數(shù)據(jù)進一步進行糾錯,最終獲得準確度更高且不存在gap的完成圖序列進行后續(xù)分析。
通過軟件Prodigal v2.6.3 (https://github.com/hyattpd/Prodigal/) 進行基因預(yù)測[14]。根據(jù)預(yù)測得到的 CDS 位置信息提取氨基酸序列,與COG/KOG數(shù)據(jù)庫[15]、KEGG數(shù)據(jù)庫[16]、Swiss-Prot蛋白質(zhì)序列數(shù)據(jù)庫、Pfam蛋白質(zhì)家族數(shù)據(jù)庫、NCBI-Nr數(shù)據(jù)庫和CAZy碳水化合物活性酶數(shù)據(jù)庫等進行蛋白質(zhì)同源序列比對,完成基因注釋。
利用次級代謝產(chǎn)物編碼基因成簇存在的特點,采用在線軟件AntiSMASH[17]和NRPSpredictor[18]預(yù)測AP617-N12CA中的次級代謝產(chǎn)物生物合成基因簇,并分析可能合成的代謝產(chǎn)物。
對提取得到總量為200 μL的基因組進行凝膠電泳檢測(圖1),樣品主條帶清晰,存在輕度降解,DNA 樣品濃度測定經(jīng)NanoDrop定量檢測,樣品濃度為48.9 ng/ μL,符合測序要求。
采用ONT測序與Illumina測序相結(jié)合的方式對AP617-N12CA進行全基因組測序,最終組裝得到完整的零gap基因組序列,包含兩個大小不等的線型復(fù)制子。其中一條可以確定為染色體,而另一條可能為游離質(zhì)粒,暫將其命名為復(fù)制子2。AP617-N12CA基因組總長6985682 bp,GC含量為73.76%,預(yù)測含6134個基因,預(yù)測基因序列總長度6119307 bp,預(yù)測基因平均長度997 bp,長度最長的基因長度為18252 bp。其中染色體大小為6375543 bp,占基因組全長的91.3%,預(yù)測含5680個蛋白編碼基因。與其他已測序的鏈霉菌染色體大小(8.5~9.0 Mb)相比,S.toxytricini的染色體相對較小,僅約6.38 Mb。復(fù)制子2長610139 bp,占基因組全長的8.7%,預(yù)測出454個蛋白編碼基因。
根據(jù)Bentley等[19-20]提出的關(guān)于區(qū)分染色體和巨型質(zhì)粒的理論依據(jù)并非根據(jù)它們攜帶的復(fù)制相關(guān)基因,而是判斷它們是否是宿主生長所必需的以及是否攜帶rRNA操縱子。本研究通過對這條6.1 Mb的線型復(fù)制子中的編碼基因進行預(yù)測來判斷它是否為AP617-N12CA的生長所必需的元件。結(jié)果表明,主代謝過程必需的rRNA及tRNA編碼基因無一例外地全部存在于染色體中(RNA預(yù)測結(jié)果顯示該菌染色體上含有72個tRNA基因和21個rRNA基因)。此外,通過對復(fù)制子2上的基因組序列進行預(yù)測分析,預(yù)測結(jié)果顯示的編碼基因都不是AP617-N12CA初級代謝必需的遺傳因子,說明復(fù)制子2并不是AP617-N12CA細胞正常生命活動所必需的?;谏鲜鼋Y(jié)果,本研究推斷AP617-N12CA中的兩個線型復(fù)制子,較大的為染色體,較小的為線型質(zhì)粒,將其命名為pDBSW178,AP617-N12CA基因組完成圖如圖2所示。
采用本地Blastp的方法對AP617-N12CA進行COG,KEGG,Swiss-Prot數(shù)據(jù)庫比對注釋。COG數(shù)據(jù)庫共注釋到6134開放閱讀框編碼可能具有一定功能的蛋白質(zhì),分為A~Z類,各基因數(shù)量和比例見圖3。在這些進行COG分類的CDS中,除一般功能(general function prediction only)基因516個和未知功能(function unknown)基因1119個外,主要集中在能量代謝與轉(zhuǎn)換(energy production and conversion)基因264個、氨基酸轉(zhuǎn)運和代謝(amino acid transport and metabolism)基因337個、碳水化合物運輸和代謝(carbohydrate transport and metabolism)基因263個、轉(zhuǎn)錄(transcription)基因395個。其中次級代謝產(chǎn)物的生物合成、運輸和分解代謝(secondary metabolites biosynthesis, transport and catabolism)基因132個,這些將是研究lipstatin生物合成與代謝調(diào)控的重點。KEGG富集分析顯示如圖4,對應(yīng)到KEGG pathway的2109個基因,富集在123條代謝通路中,其中涉及基因最多的通路主要有:氨基酸生物合成代謝途徑(biosynthsis of amino acids,158個基因)、碳源代謝途徑(carbon metabolism,144個基因)和ABC轉(zhuǎn)運系統(tǒng)(ABC transporters, 108個基因)。可能與lipstatin及其結(jié)構(gòu)類似物有關(guān)的通路有:支鏈氨基酸降解途徑(valine, leucine and isoleucine degradation, 38個基因)、脂肪酸合成途徑(fatty acid biosynthesis,30個基因)、脂肪酸降解途徑(fatty acid degradation,29個基因)等,這些基因也是研究lipstatin生物合成與代謝調(diào)控的重點。Swiss-Prot是含有詳細注釋內(nèi)容的蛋白質(zhì)序列數(shù)據(jù)庫,經(jīng)注釋基因準確度高。AP617-N12CA中共2847條蛋白序列得到Swiss-Prot注釋,這些為后續(xù)該菌的功能基因組學(xué)研究提供了極大的便利。
通過次級代謝產(chǎn)物生物合成基因簇的在線預(yù)測工具antiSMASH對AP617-N12CA基因組中可能編碼的次級代謝產(chǎn)物合成有關(guān)的基因簇進行了預(yù)測。共識別出22個可能的基因簇,其中18個位于染色體中,4個位于線型質(zhì)粒中(表1)。在22個基因簇中,其中8個包含PKS、NPRS或雜合的PKS -NPRS,剩余的基因簇中,6個可能與萜類(terpene)分子生物合成有關(guān),3個可能與鐵載體(siderophore)生物合成有關(guān)。AP617-N12CA染色體中識別出的次級代謝產(chǎn)物合成基因簇總長度為534381 bp,只占染色體基因組的8.38%;而線型質(zhì)粒識別出的次級代謝產(chǎn)物合成基因簇總長度為215998 bp,在線型質(zhì)粒基因組中占比高達35.4%,說明在線型質(zhì)粒上包含了高密度的次級代謝產(chǎn)物合成基因。
表1 S.toxytricini AP617-N12CA基因組中預(yù)測的生物合成基因簇Tab.1 Predicted biosynthesis clusters in S.toxytricini AP617-N12CA
另外,在antiSMASH預(yù)測結(jié)果分析時筆者意外發(fā)現(xiàn),由lstA、lstB、lstC、lstD、lstE和lstF等呈簇分布的基因組成的lipstatin生物合成基因簇(cluster 22)并不位于染色體基因組中,而是分布在線型質(zhì)粒的右臂區(qū)域。對AP617-N12CA中l(wèi)ipstatin生物合成基因簇通過GenBank數(shù)據(jù)庫比對分析,發(fā)現(xiàn)AP617-N12CA中l(wèi)ipstatin生物合成基因簇與S.globosusstarin LHZ-48中相應(yīng)序列在基因組成和排列順序上均具有高度同源性(基因簇同源性高達94.39%),暗示lipstatin生物合成基因簇具備在不同菌株間穿梭或水平轉(zhuǎn)移的可能性。
三代單分子實時測序測序讀長可達到20 kb,測序過程不需要PCR擴增,是目前高比例重復(fù)序列、高雜合度、極端GC含量基因組測序的理想平臺,三代和二代測序技術(shù)聯(lián)合應(yīng)用解析微生物全基因序列將成為主流。本研究運用ONT三代測序和Illumina二代測序兩種測序技術(shù)相結(jié)合的方法對AP617-N12CA進行了全基因組的測序,首次獲得了S.toxytricini基因組完成圖。AP617-N12CA全基因組長度為6985682 bp,GC含量73.76%,包含6134個預(yù)測編碼蛋白。同時對組裝的基因組進行了基因預(yù)測、功能注釋和聚類分析,進一步預(yù)測了次級謝產(chǎn)物生物合成基因簇。最終獲得的這些基礎(chǔ)數(shù)據(jù)有益于從分子水平上認識AP617-N12CA的生理功能、代謝特性和高產(chǎn)機理,同時對lipstatin的生物合成途徑與調(diào)控機制的研究具有一定的參考價值。
鏈霉菌作為一類重要的工業(yè)微生物,能夠產(chǎn)生大量結(jié)構(gòu)復(fù)雜多樣的活性天然產(chǎn)物,如抗生素、抗腫瘤藥物和免疫抑制劑等,廣泛應(yīng)用于醫(yī)藥、農(nóng)業(yè)和畜牧業(yè)等[21]。多數(shù)鏈霉菌的菌株中帶有質(zhì)粒[22],目前已報道的大多數(shù)鏈霉菌抗生素生物合成基因簇定位于染色體上,只有極少數(shù)抗生素的生物合成基因簇存在于游離狀態(tài)的質(zhì)粒上[23],如天藍色鏈霉菌S.coelicolorA3(2)菌株中的次甲霉素A 生物合成基因簇位于長度350 kb的巨型線型質(zhì)粒SCP1質(zhì)粒上[24],婁徹鏈霉菌S.rochei中的卡殺菌素類抗生素(lankacidins)生物成合成基因簇位于長度200 kb的線型質(zhì)粒pSLA2-L上[25]。本研究在對重要工業(yè)微生物S.toxytriciniAP617-N12CA進行全基因組測序時,首次發(fā)現(xiàn)和描述了一個長為610139 bp的線型質(zhì)粒pDBSW178,質(zhì)粒上匯聚了多個合成編碼次級代謝產(chǎn)物的基因簇,AP617-N12CA主要次級代謝產(chǎn)物lipstatin生物合成基因簇也定位于pDBSW178上。后續(xù)進一步對線型質(zhì)粒pDBSW178的檢測與分離、復(fù)制機理和端粒結(jié)構(gòu)等進行深入系統(tǒng)研究,不僅有助于開發(fā)出新型的鏈霉菌線型載體系統(tǒng),還可為lipstatin優(yōu)質(zhì)高產(chǎn)菌株的構(gòu)建與應(yīng)用提供理論基礎(chǔ),并為lipstatin的高效異源生物合成提供研究思路。