張禮文,István MOLNáR,徐玉泉
(1 中國農(nóng)業(yè)科學院生物技術研究所,北京 100081;2 美國亞利桑那大學西南天然產(chǎn)物研究中心,亞利桑那州 圖森85706,美國)
通過測序和注釋,發(fā)現(xiàn)真菌基因組中存在大量參與非核糖體多肽天然產(chǎn)物生物合成的基因簇[1],具有合成結構多樣化合物的巨大潛力[2]。大多數(shù)真菌非核糖體多肽合成酶(nonribosomal polypeptide synthetase,NRPS)包括多個由腺苷?;╝denylation,A)、巰基化(thiolation,T)和縮合(condensation,C)等結構域組成的模塊。在生物合成的過程中,腺苷?;Y構域先將氨基酸或羥基酸前體單元加載到巰基化結構域上,然后縮合結構域縮合前體單元和中間產(chǎn)物合成非核糖體多肽[3]。除了這3個核心結構域,非核糖體多肽合成酶還可能包含修飾前體單元或中間產(chǎn)物甲基化、差向異構化的結構域,以及終止延伸和釋放產(chǎn)物、末端縮合等功能的結構域,從而使合成的產(chǎn)物結構更加復雜多樣。
肉座菌目蟲生真菌能夠產(chǎn)生大量具有抗菌、殺蟲、抗癌、調節(jié)免疫等活性的天然產(chǎn)物,如環(huán)孢霉素和白僵菌素等,具有重要藥用和農(nóng)用價值[3-8]。通過基因缺失和互補、異源表達、化合物結構解析等方法,闡明了部分肉座菌目蟲生真菌天然產(chǎn)物生物合成基因簇的功能,如合成破壞素(destruxins)、白僵菌素(beauvericin)、白僵菌環(huán)四肽(bassianolide)和serinocyclins 等[9-13],然而,很多基因簇在常規(guī)實驗室條件下不表達,因此絕大多數(shù)基因簇的產(chǎn)物未知[14-15]。在過去數(shù)年中,使用特定方法激活沉默基因簇的表達在發(fā)現(xiàn)新型真菌天然產(chǎn)物方面雖然取得了重大進展[1,16-17],然而,面對數(shù)以千萬計的生物合成基因簇,通過實驗的手段鑒定其功能十分費時費力。如何高效選取最具合成新穎天然產(chǎn)物潛力的基因簇成為亟待解決的問題。因此,本研究基于隱馬爾可夫模型從蟲生真菌基因組中預測可能合成非核糖體多肽類天然產(chǎn)物的非核糖體多肽合成酶,通過構建序列相似性網(wǎng)絡將其分類,并與已知產(chǎn)物的標簽結構域進行比較,從而推測出可能合成新穎產(chǎn)物的生物合成基因簇。準確有效預測基因乃至基因簇的功能,不僅可以指導大規(guī)模實驗鑒定和篩選,而且也為后續(xù)利用組合生物合成改造天然途徑提供了候選的基因元件。
本研究使用來自SwissProt(2019年發(fā)行版)審核和人工注釋的全部真菌蛋白作為標簽蛋白。40種肉座菌目蟲生真菌的基因組序列和預測的蛋白序列來自于NCBⅠ數(shù)據(jù)庫。使用基于隱馬爾可夫模型(hidden Markov model,HMM)的 HMMSearch 方法預測腺苷?;≒FAM00501.21) 和縮合(PFAM00668.13) 等結構域 (表 1),并使用Python 提取相應的序列。來自于SwissProt 已知功能的結構域被定義為“標簽”結構域。
表1 非核糖體多肽合成酶結構域注釋Tab.1 Annotion for NRPS domains in hypocrealean entomopathotenic fungi(HEF)
為了建立序列相似性網(wǎng)絡,使用BLASTp程序計算數(shù)據(jù)集中每一對腺苷酰化結構域的氨基酸序列一致性(identity)、覆蓋率(coverage)和e-value。經(jīng)統(tǒng)計分析得出,一致性數(shù)據(jù)在20%~60%區(qū)間符合正態(tài)分布的規(guī)律,高于60%則逐漸偏離正態(tài)分布,離群值的下邊界為62.06%,這表明當兩個腺苷?;Y構域的氨基酸序列一致性高于62.06%時為“真”相似的概率較高。因此在構建網(wǎng)絡和聚類時,將一致性0 參數(shù)的閾值設定為62.06%。類似地,覆蓋率值通常在91%~99%之間,低于75%為異常值,因此覆蓋率的閾值設定為75%。圖形可視化使用Cytoscape ver 3.7.2。利用馬爾可夫聚類算法(MCL),根據(jù)序列相似性矩陣來識別相關節(jié)點的分支。再根據(jù)NRPS的結構域組成,并結合MultiGeneBlast 評估的特定分支中基因簇的相似性,來進一步分析特定分支的特點并預測可能的代謝產(chǎn)物。
2014—2019年期間,已發(fā)表的肉座菌目蟲生真菌基因組序列數(shù)量大幅增加:2014 年以前為8 個,2014年以后增至31個,這為分析天然產(chǎn)物的合成潛力、比較基因簇之間的異同提供了豐富的數(shù)據(jù)。本研究選取的40種真菌來自于白僵菌屬(Beauveria)、冬蟲夏草屬(Cordyceps和Ophiocordyceps)、被毛孢屬(Hirsutella)、座殼孢屬(Hypocrella或Aschersonia)、棒束孢屬(Isaria)、輪枝孢屬(Lecanicillium)、莫勒菌屬(Moelleriella)、彎頸霉屬(Tolypocladium)等,為農(nóng)業(yè)上應用廣泛的生防真菌,也是常用的藥用真菌(菌種目錄詳見http://www.researchgate.net/publication/354887574_Table S1)。
通過HMMsearch檢索所得的腺苷酰化結構域、縮合結構域和非核糖體多肽合成酶數(shù)量見表1、表2。腺苷?;Y構域的氨基酸序列一致性的25%分位數(shù)為27.70%,75%分位數(shù)為41.30%,離群值的下邊界為62.06%。覆蓋率值通常在91%~99%之間,異常值低于75%。因此,在后續(xù)分析中,分別選擇62.06%和75%作為一致性和覆蓋率的閾值,從而得到了182 個腺苷酰化結構域的分支(clade)。
表2 非核糖體多肽合成酶統(tǒng)計信息Tab.2 Statistic summary of NRPSs in hypocrealean entomopathotenic fungi(HEF)
序列相似性網(wǎng)絡(sequence similarity network,SSN)能夠通過同源蛋白之間成對的序列相似關系,自動化評估蛋白的分類,并從家族/亞家族之間的關系來研究特定蛋白的功能。在SSN 中,每個蛋白用一個符號(“節(jié)點”)表示;如果兩個節(jié)點的序列相似性超過指定閾值,則通過一條線(“邊”)連接。已有多篇文章綜述了SSN 在蛋白質序列與功能研究中的成功應用[18-20]。
腺苷?;涂s合結構域均已成功用于非核糖體多肽合成酶系統(tǒng)發(fā)育研究[4,21-26]。本研究在網(wǎng)絡構建和聚類分析腺苷酰化結構域的基礎上,分析了部分非核糖體多肽合成酶的模塊和結構域組成,以及所在的基因簇特征。研究結果顯示肉座菌目蟲生真菌的基因組中廣泛存在功能未知的非核糖體多肽合成酶家族,即使在親緣關系十分接近的種屬之間,它們在基因或基因簇水平上也存在高度變異性,表明肉座菌目蟲生真菌是合成新型非核糖體多肽類天然產(chǎn)物的潛在資源。
大多數(shù)非核糖體多肽合成酶具有多個腺苷酰化結構域,因此,利用對腺苷?;Y構域進行聚類分析來闡明合成酶的功能并預測產(chǎn)物結構變得十分復雜。在真菌聚酮合酶中,酮脂酰合酶(ketoacyl synthase,KS)結構域往往可以代表整個酶的特征;與此相對的,非核糖體多肽合成酶被視為具有不同系統(tǒng)發(fā)育特征的模塊復合體,而腺苷?;Y構域的聚類則代表其所在模塊的特征。收集到的2676 個腺苷酰化結構域(包括302 個已知功能的標簽結構域)的氨基酸序列平均一致性為36.30%,其中2358 個被成功地分為174 個分支(不含聚酮合酶-非核糖體多肽合成酶雜合酶中的腺苷?;Y構域)。由于數(shù)目較多,本文圖中僅列出具有5 個以上節(jié)點的分支簇,且排除了參與短鏈脂肪酸合成的酰基輔酶A 連接酶(http://www.researchgate.net/publication/354887574_Table S1)。由此產(chǎn)生的網(wǎng)絡可將腺苷酰化結構域分為多模塊、雙模塊、單模塊和雜合的非核糖體多肽合成酶。這與先前報道的系統(tǒng)發(fā)育分析基本一致,即真菌非核糖體多肽合成酶分為兩大分支:遠古起源的單/雙模塊和新近起源的多/雙模塊[24,27-28]。
肉座菌目蟲生真菌基因組預測的2440 個腺苷酰化結構域中,有1056 個來自于多模塊的非核糖體多肽合成酶(圖 1)[9,11-14,29-30],這類合成酶僅發(fā)現(xiàn)于真菌基因組,其腺苷?;Y構域可能由垂直遺傳、基因重排(如復制、插入和丟失)或水平轉移事件進化而來[4,24],是發(fā)現(xiàn)新型活性產(chǎn)物的寶貴資源。
圖1 肉座菌目蟲生真菌多模塊非核糖體多肽合成酶的相似性網(wǎng)絡圖Fig.1 Network for the subgroups of multi-modular NRPSs in Hypocrealean Entomopathogenic fungi
這些多模塊非核糖體多肽合成酶中,絕大多數(shù)的產(chǎn)物是未知的。如圖1 所示,第52~64 分支的非核糖體多肽合成酶形成了一個較大的超級分支(super clade)。根據(jù)氨基酸序列相似性,這些合成酶的最后一個結構域屬于環(huán)肽類的終端縮合結構域,可以通過分子內環(huán)化釋放延伸的肽鏈,因此推測其產(chǎn)物是環(huán)肽類化合物。其中,52~60分支可以進一步劃分為3 種含有4 個以上模塊的非核糖體多肽合成酶,其代表為B. bassiana的BBA_06727、M. robertsii的 MAA_09953 和 MAA_09772(圖 1)。通過系統(tǒng)發(fā)育分析,這些非核糖體多肽合成酶曾被歸為“昆蟲病原菌特有”的進化分支[3-4]。與BBA_06727 相似的蛋白有13 個,結構域組成均為(AT)-(CAT)-(CAT)-(CAT)-(CT),它們的第1 個腺苷?;Y構域歸于第53 個分支,第3 個腺苷酰化結構域歸于第54分支,第2個和第4個腺苷酰化結構域均歸于分支52a。同一個非核糖體多肽合成酶中的兩個腺苷酰化結構域聚類在一起通常表明它們來源于進化上的復制事件。這一類非核糖體多肽合成酶所在的基因簇中還含有編碼細胞色素P450 單加氧酶和轉運蛋白的基因[圖2(a)]。BBA_06727 的轉錄在昆蟲感染期間被激活[27],表明可能在昆蟲致病過程中起作用。52b~52h 亞分支和第55 分支的非核糖體多肽合成酶(如MAA_09953)存在于6 種綠僵菌屬真菌基因組中,其結構域組成均為(AT)-(CAT)-(CATE)-(CAT)-(CAT)-(CAT)-(CAT)-(CT),所在基因簇中還包含編碼細胞色素P450 單加氧酶、β-內酰胺酶和轉運蛋白的基因。以MAA_09772 為代表的非核糖體多肽合成酶在8 種綠僵菌屬真菌中十分保守,具有(AT)-(CAT)-(CATE)-(CAT)-(CAT)-(CAT)-(CTT)的結構域組成,其腺苷?;Y構域歸于分支59、亞分支52i~52n、分支60,相應的合成基因簇包含細胞色素P450 單加氧酶、Ser/Thr 蛋白磷酸酶和兩個轉運蛋白的基因。亞分支52o 和分支58 的腺苷?;Y構域也來源于相同的非核糖體多肽合成酶,其結構域的組成為(AT)-(CATE)-(CT)-(CT),基因簇含有編碼細胞色素P450 單加氧酶、兩種氨基轉移酶、脫羧酶、雙加氧酶和含有腺苷酰化結構域的連接酶/合成酶的基因。值得注意的是,超級分支52中幾乎所有的分支都是通過52i中的一個節(jié)點連接的,這個節(jié)點對應于M.rileyi基因組中NOR_07696 的第2 個腺苷?;Y構域(介數(shù)betweenness為0.826),表明這個腺苷?;Y構域與共同的祖先最為相似。分支59~61中來自于線蟲草科(Ophiocordycipitaceae)和麥角菌科(Clavicipitaceae)的非核糖體多肽合成酶也通過NOR_07696相連。
圖2 肉座菌目蟲生真菌基因簇分析Fig.2 Analysis of representative biosynthetic gene clusters in hypocrealean entomopathogenic fungi
分支46~51 對應的非核糖體多肽合成酶可能產(chǎn)生peptaibols 類線性多肽[30],其前體單元除氨基酸外,還包括由基因簇中其他酶合成的非常規(guī)前體。這些多模塊非核糖體多肽合成酶大多來自Trichotheciam和Tolypocladium屬真 菌[30],由 8 個以上CAT 模塊組成,有的還具有特殊模塊或結構域,如T. inflatum的ctg24_orf003 具有一個酮酯酰合成酶和丙二酰/酰基轉移酶結構域組成的加載模塊。O.australis的CDD81_5223 的終端結構域為硫酯酶結構域,而不是CT。這些非核糖體多肽合成酶所在的基因簇并不保守,普遍存在轉氨酶基因,可能用于合成非常規(guī)氨基酸前體。
當非核糖體多肽合成酶兩兩比較時,經(jīng)常發(fā)現(xiàn)它們的部分腺苷?;Y構域能夠聚類在一起,而其余腺苷?;Y構域則屬于不同的分支。例如,來自T.paradoxum的TPAR_05120 對應于綠僵菌屬破壞素合成酶DtxS1 的第1 和第3 個結構域,而TPAR_01525 則與 DtxS1 的第 5 或第 6 模塊相似[圖2(b)]。這種嵌套關系展示了非核糖體多肽合成酶復雜的進化過程,使其產(chǎn)物有不同的結構和生物學功能。
除此之外,一些分支包含產(chǎn)物已知的非核糖體多肽合成酶,具有相同的結構域組成,所在的基因簇也高度相似,可能產(chǎn)生與已知化合物結構類似的產(chǎn)物。其中,分支75~76 包含白僵菌素/白僵菌環(huán)四肽合成酶的腺苷?;Y構域[11,31],分支27~32 和 33~39 則 分 別 包 含 破 壞 素[9-10]和serinocyclin[13]合成酶的腺苷?;Y構域(圖1),說明這些分支中的菌株具有合成殺蟲化合物的潛力。
如圖3 所示,單/雙模塊的非核糖體多肽合成酶包括賴氨酸生物合成途徑中還原α-氨基己二酸的L-氨基己二酸半醛脫氫酶(分支23)[24],參與形態(tài)發(fā)育但產(chǎn)物未知的ChNPS10 合成酶(分支15)[40],產(chǎn)生聚硫二酮哌嗪的 ChNPS11/ETP 毒素合成酶(分支12 和13)等[41],其合成的代謝物參與了真菌重要的生物過程,如性發(fā)育、生殖、分生孢子發(fā)育等,因此在基因組中也較為保守[24,32-39]。其中,部分基因的生理功能已有研究,但其合成產(chǎn)物仍然未知。
圖3 肉座菌目蟲生真菌單模塊和雙模塊非核糖體多肽合成酶的相似性網(wǎng)絡圖Fig.3 Overview of the A domain distance network for monomodular,bimodular or siderophore-like NRPSs in Hypocrealean entomopathogenic fungal species
鐵載體是一種低分子量的鐵螯合物,可分為胞外和胞內兩種類型,因與病原真菌的致病性相關而受到廣泛關注[37]。鐵載體合成酶具有保守的結構域,合成產(chǎn)物的結構和生物學功能相似,在各種營養(yǎng)模式的真菌中廣泛分布,包括動植物病原菌和腐生菌。鐵載體合成酶是多模塊的非核糖體多肽合成酶,在系統(tǒng)發(fā)育中屬于較新的分支,然而由于其序列和功能的保守性,將它們與單/雙模塊的非核糖體多肽合成酶一起分析。大部分肉座菌目蟲生真菌的基因組中都有鐵載體合成酶NPS2/SidC(分支 1~4)[36]、NPS6(分支 9)[39]、SidN(分支7 和8)[38]和/或 SidⅠ(分支21)[37]的編碼基因。值得注意的是,分支5 和6 的腺苷?;Y構域與NPS2/SidC 的第1 個腺苷酰化結構域具有很近的親緣關系,但其所屬的非核糖體多肽合成酶與NPS2/SidC截然不同:僅有一個模塊,幾乎只存在于白僵菌/冬蟲夏草屬真菌中,與醇脫氫酶、細胞色素P450 單加氧酶、聚酮合酶或聚酮合酶-非核糖體多肽合成酶編碼基因成簇存在。這表明該分支的類SidC 非核糖體多肽合成酶可能是通過基因復制從鐵載體合成酶進化而來,并獲得了不同的功能。分支10~11 的雙模塊非核糖體多肽合成酶與人類病原菌A.fumigatus的SidE相似[42]。SidE盡管與NPS2/SidC鐵載體合成酶有著密切的系統(tǒng)發(fā)育關系,但其產(chǎn)物不是鐵載體,而是反丁烯二酰丙氨酸,其結構與已知具有免疫調節(jié)活性的藥物十分相似[42]。在球孢白僵菌中,類SidE 編碼基因BBA_07589 在感染小菜蛾期間上調[27]。因此,分支10~11 的非核糖體多肽合成酶可能產(chǎn)生類似反丁烯二酰丙氨酸的產(chǎn)物,用于抵抗宿主免疫系統(tǒng)的攻擊。
分支16~20 的腺苷?;Y構域來自于單模塊非核糖體多肽合成酶。其中,分支16 主要存在于白僵菌/冬蟲夏草屬真菌的基因組中,它們的編碼基因與羧肽酶、雙加氧酶、鐵(Ⅱ)加氧酶、酰胺水解酶、磷酸酯酶和轉運體蛋白等基因共同組成基因簇,其中一些基因簇還編碼聚酮合酶-非核糖體多肽合成酶雜合酶、酮基還原酶、烯基還原酶、甲基轉移酶和細胞色素P450 蛋白。分支17 中的腺苷?;Y構域主要存在于綠僵菌中,它們的基因簇含有一個寡肽轉運蛋白基因,但沒有修飾酶基因。分支19~20 中的腺苷?;Y構域存在于大多數(shù)已測序的綠僵菌屬真菌中,與LpsC 或LpsB型麥角生物堿非核糖體多肽合成酶十分相似[32],其基因簇中包含萜烯合成酶,可能產(chǎn)生麥角酸α-羥乙基酰胺型或麥角堿類產(chǎn)物[43]。
肉座菌目蟲生真菌是一個極有特色的真菌類群,它們在不同的情況下從植物病原菌和腐生真菌進化成為昆蟲病原菌,并發(fā)展出多種侵染昆蟲、抑制其免疫系統(tǒng)、利用昆蟲作為自身營養(yǎng)源的機制。同時,許多肉座菌目蟲生真菌還保持著與植物共生以及營腐生生活的能力,研究它們的生物合成基因簇不僅有助于理解天然產(chǎn)物在生物和非生物相互作用中的功能,也有助于挖掘臨床、獸用或農(nóng)用藥物分子。
近年來基因組測序成本持續(xù)降低,基因組分析工具不斷完善,公共數(shù)據(jù)庫中高質量真菌基因組序列數(shù)量激增,這些極大改變了基因和基因簇功能研究的模式。利用簡并引物PCR、黏?;蛭膸旌皖愃频膫鹘y(tǒng)方法迅速被基于組學方法的基因功能研究所取代,如產(chǎn)生活性代謝產(chǎn)物的真菌菌株的基因組草圖測序與分析、基于目標產(chǎn)物結構的逆生物合成分析、針對產(chǎn)生類似產(chǎn)物菌株的比較基因組分析以及在產(chǎn)生和不產(chǎn)生目標代謝產(chǎn)物的條件下的轉錄組分析等。類似的基因組學方法已經(jīng)成為挖掘活性代謝產(chǎn)物及其合成基因簇的主要手段。
越來越多的基因組序列也使得人們發(fā)現(xiàn)了大量產(chǎn)物未知的生物合成基因簇。利用異源表達方法,將基因簇轉入較為成熟的底盤細胞中激活并表達,逐漸成為天然產(chǎn)物挖掘以及生物合成途徑研究的主流方法之一。然而,這些方法仍然面臨著重復發(fā)現(xiàn)已知產(chǎn)物的問題。因此,盡可能準確地預測這些未知基因簇的功能、篩選最具潛力的研究對象是十分有必要的。對未知基因和基因簇進行聚類分析可以:①發(fā)現(xiàn)與合成已知活性產(chǎn)物的基因簇相似的基因簇,從而得到活性產(chǎn)物的類似物,例如分支75~76、分支27~32 的合成酶產(chǎn)生具有殺蟲、抗菌、細胞毒性等活性的白僵菌素/白僵菌環(huán)四肽、破壞素類化合物,分支10~11 的合成酶產(chǎn)生可能具有免疫調節(jié)活性的類似反丁烯二酰丙氨酸的化合物;②挖掘全新的生物合成基因簇,得到新結構、新功能的化合物,例如分支52~64 的合成酶可合成4~8 個氨基酸單體組成的環(huán)肽,這些合成酶與已知功能的非核糖體多肽合成酶的序列差異較大,且僅發(fā)現(xiàn)于肉座菌目蟲生真菌基因組中。由于大部分基因在實驗室常規(guī)培養(yǎng)條件下不表達,因此,研究其產(chǎn)物需要進行異源表達、調控因子激活/抑制或其他轉錄激活方法。此外,在利用合成生物學方法創(chuàng)制新結構人工產(chǎn)物方面,可根據(jù)聚類分析的結果,選取特定功能的基因或基因簇,異源表達部分基因簇、或來源于不同基因簇的基因(即組合生物合成)從而改造已知化合物。
通過對腺苷?;Y構域的聚類來預測真菌非核糖體多肽合成酶的功能也存在一定的局限性。即使在系統(tǒng)發(fā)育上接近且整體氨基酸序列一致性很高的腺苷?;Y構域之間,其底物范圍也有可能顯著不同,如在酶的活性部位的關鍵氨基酸位點發(fā)生改變,就可能改變被激活的氨基酸單體的范圍。與原核生物相比,真菌腺苷?;Y構域的底物選擇性預測還不夠精確,這是因為現(xiàn)有的預測算法往往是根據(jù)細菌來源的非核糖體多肽合成酶構建和訓練的。因此,為了更好地建立蛋白序列與產(chǎn)物結構之間的映射關系、從而實現(xiàn)更加準確的功能預測,需要更豐富完善的數(shù)據(jù)庫和更加先進的分析方法。