郭鑫瑤, 季晶焱, 程敏, 趙亮, 曹荷清, 王豐, 李小兵, 廖萬清, 李文均, 康穎倩*
(1.貴州醫(yī)科大學(xué) 基礎(chǔ)醫(yī)學(xué)院 微生物學(xué)教研室, 貴州 貴陽 550025; 2.貴州省微生物與人類健康關(guān)系研究人才基地 & 貴州省普通高校病原生物學(xué)特色重點實驗室, 貴州 貴陽 550025; 3.貴州醫(yī)科大學(xué) 環(huán)境污染與疾病監(jiān)控教育部重點實驗室, 貴州 貴陽 550025; 4.貴州省煙草科學(xué)研究院 貴州省微生物與健康院士工作站, 貴州 貴陽 550000; 5.貴州省赤水河畔醬酒研究中心, 貴州 貴陽 550003; 6.上海市醫(yī)學(xué)真菌分子生物學(xué)重點實驗室, 上海 200003; 7.海軍軍醫(yī)大學(xué)長征醫(yī)院 皮膚科, 上海 200003; 8.中山大學(xué) 生命科學(xué)學(xué)院, 廣東 廣州 510275)
戈登菌屬(Gordonia)由Tsukamura[1]于1971年首次提出,是從肺部疾病患者的痰液或土壤中分離出的棒狀細菌,具有好氧、革蘭陽性至可變、過氧化氫酶陽性、輕微抗酸、不形成芽孢及非運動性等特點[2]。大多數(shù)戈登菌從環(huán)境中分離出來,尤其是在紅樹林、廢水處理廠、生物濾器及石油污染過的土壤等地,可以合成多種化合物(如抗菌劑、表面活性劑、碳水化合物活性酶及次級代謝產(chǎn)物等),在石油降解、生物修復(fù)和臨床醫(yī)學(xué)中有重要的作用[3-6]。有研究表明,大多數(shù)細菌處于極端環(huán)境時可通過碳水化合物活性酶(carbohydrate-active enzymes,CAZymes)對糖原物質(zhì)進行代謝,以滿足其生存的條件,如處于極冷環(huán)境中的節(jié)桿菌屬(Arthrobacter)可利用CAZymes相關(guān)的糖原和海藻糖代謝途徑快速的適應(yīng)環(huán)境,還可以通過CAZymes的種類和數(shù)量了解總體酶功能和碳水化合物代謝情況[7]。另外,放線菌是產(chǎn)生新的次級代謝產(chǎn)物最重要來源之一,尤其是聚酮合酶(polyketides synthase,PKS)、非核糖體肽合成酶(non-ribosomal peptide synthetase,NRPS)、萜烯(terpene)及翻譯后修飾肽類(post-translationally modified peptides,RiPP)等[8]。雖然基因測序和生物信息學(xué)分析水平的發(fā)展迅速,但是對戈登菌屬基因組層面的研究于2010年才開始[9],CAZymes和次級代謝產(chǎn)物方面的研究較缺乏,因此本研究對美國國家生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)下載的41株戈登菌的全基因組進行全基因組特征分析、功能注釋、泛基因組分析,并挖掘戈登菌屬產(chǎn)生CAZymes、生物合成基因簇以及產(chǎn)次級代謝產(chǎn)物的能力,以期探究戈登菌屬的應(yīng)用潛力和環(huán)境適應(yīng)性等。
菌株來源于千葉大學(xué)病原真菌與微生物毒理研究中心(Institute of Food Microbiology, IFM),分別為G.bronchialis3株IFM10331、IFM150及B0002、G.terraeIFM161、G.amaraceIFM210、G.effuseIFM10200、G.araiiIFM10211、G.rubripertinctaIFM10321、G.iteransIFM10348、G.polyisoprenivoransIFM10351、G.alkanivoransIFM10352、G.amicalisIFM10353、G.desulfuricansIFM10355、G.namibiensisIFM10356、G.rhizospheraIFM10357、G.sihwensisIFM10619、G.westfalicaIFM10629、G.paraffinivoransIFM10631及G.sptuiB0003,菌株保存在病原生物學(xué)特色重點實驗室;戈登菌全基因組數(shù)據(jù)主要是從 NCBI下載,優(yōu)先下載全基因組組裝完整的數(shù)據(jù),共下載41個戈登菌的全基因組數(shù)據(jù),其中包括40個已明確分類地位的戈登菌和1株尚未明確的Gordoniasp.,5株來源于人體,16株來源于土壤,4株來源于污泥,5株來源于水,4株來源于生物濾器,其余6株分別來自動物糞便、動物直腸、水稻、空氣或未明確來源,具體情況見表1。
表1 41株戈登菌全基因組基本信息
1.2.1系統(tǒng)發(fā)育學(xué)分析 19株實驗室保存的戈登菌接種于腦心浸出液瓊脂培養(yǎng)基,37 ℃培養(yǎng)48~72 h,采用3區(qū)劃線法分離單個菌落,挑取單個菌落進行傳代培養(yǎng);根據(jù)參考文獻[10]方法對培養(yǎng)的戈登菌進行基因組DNA提取,采用16S小亞基核糖體RNA(16S ribosomal RNA,16S rRNA)通用引物進行聚合酶鏈反應(yīng)(polymerase chain reaction,PCR)擴增[11],PCR產(chǎn)物送上海生工生物工程股份有限公司進行測序;采用barrnap軟件(https://github.com/tseemann/barrnap)提取從NCBI數(shù)據(jù)庫中下載的部分戈登菌全基因組中的16S rRNA基因序列;所有序列經(jīng)過分子進化遺傳學(xué)分析軟件(molecular evolutionary genetics analysis,MEGA)剪切處理后,利用鄰位相接法(neighbor-joining,NJ)構(gòu)建系統(tǒng)發(fā)育樹,以諾卡菌標(biāo)準(zhǔn)菌株Nocardiaasteroides作為外群,自展檢驗(bootstrap)重復(fù)抽樣1 000次;系統(tǒng)發(fā)育樹美化在iTOL平臺[12]完成。采用FastANI(https://github.com/ParBLiSS/FastANI)對41株戈登菌的基因組兩兩比較,計算對應(yīng)的平均核苷酸多態(tài)性(average nucleotide identity,ANI),采用在線分析軟件(http://ggdc.dsmz.de/distcalc2.php)計算戈登菌屬之間DNA-DNA雜交值(DNA-DNA hybridization,DDH),使用HeatMap繪制熱圖。
1.2.2泛基因組學(xué)特征分析 采用軟件Mugssy對戈登菌基因組序列進行比對,結(jié)合原核生物泛基因組學(xué)分析的自動化軟件(pan-genomes analysis pipeline,PGAP)對戈登菌進行全基因組和核心基因組分析,通過Gene Family(GF)方法對基因組進行聚類,將結(jié)果導(dǎo)入PanGP軟件,根據(jù)希普斯定律(Heap's law)和指數(shù)定律(exponential law)分別擬合泛基因組和核心基因組特征曲線[13]。
1.2.3基因組功能分析 利用直系同源蛋白分組比對數(shù)據(jù)庫(evolutionary genealogy of genes: non-supervised orthologous groups,eggNOG)對戈登菌預(yù)測到的基因序列進行直系同源基因簇(clusters of orthologous groups,COG)功能注釋;CAZymes的注釋利用CAZymes數(shù)據(jù)庫(http://www.cazy.org/);使用基因組次級代謝產(chǎn)物分析工具(antibiotics and secondary metabolite analysis shell,antiSMASH;https://antismash.secondarymetabolites.org/)進行生物合成基因簇預(yù)測,再通過生物合成基因簇的標(biāo)準(zhǔn)化信息庫(minimum information about a biosynthetic gene cluster,MIBiG)[14]預(yù)測檢測到的次級代謝產(chǎn)物合成基因簇與已知或新的生物活性化合物的產(chǎn)生之間的關(guān)聯(lián)。
整體而言,戈登菌基因組大小為3 233 079(G.zhaorongruiiHY186)~6 646 044 bp(G.aspleniiTBRC 11910),均數(shù)為4 941 636.42 bp;土壤來源組基因組均數(shù)最大(5 398 505.47±886 760.99) bp,生物濾器來源組基因組最小(4 180 199.00±432 288.28) bp,且2組間差異有統(tǒng)計學(xué)意義(P<0.05),其他各菌株組間的基因組大小比較、差異無統(tǒng)計學(xué)意義(P>0.05);戈登菌基因組G+C含量為62.50%(G.effuseNBRC 100432)~69.30%(G.shandongensisDSM 45094),均數(shù)67.25%,是屬于高GC含量的一類微生物;預(yù)測到的基因數(shù)量為2 999(G.zhaorongruiiHY186)~6 237(G.aspleniiTBRC 11910),均數(shù)為4 479.25,蛋白質(zhì)編碼區(qū)(coding sequence,CDS)均數(shù)為4 445.60,具有豐富的基因組多樣性(表1)。
41株戈登菌的ANI值 和DDH值評估結(jié)果顯示,40株已知種的戈登菌兩兩之間ANI值介于70%~90%,分析軟件 GGDC結(jié)果均顯示為該40株戈登菌兩兩之間的DDH值為20%~30%,然而未進行準(zhǔn)確分類的1株Gordoniasp.YC-JH1與G.sihwensisNBRC 108236之間的ANI值和DDH值均為99.9%(圖1);通過16S rRNA基因序列構(gòu)建的系統(tǒng)發(fā)育樹可發(fā)現(xiàn)(圖2),戈登菌屬分類地位明確,且Gordoniasp.YC-JH1與G.sihwensis處于同一個分支之中,進一步說明Gordoniasp.YC-JH1是屬于G.sihwensis的一個菌株。戈登菌系統(tǒng)發(fā)育樹分為5個分支,在第5支中的菌株主要來源于土壤,其他分支中的菌株來源較為豐富。
注:A、B分別為ANI和DDH分析結(jié)果;淺灰至深灰表示基因組之間相似性越來越大。
注:節(jié)點上數(shù)字表示自展值(僅顯示自展值大于50%的值),標(biāo)尺表示該長度的分支遺傳變異度為0.01;藍色、粉色、橙色、黃色、綠色及紫色分別表示來源于痰液、土壤、污泥、生物濾器、水及其他。
通過泛基因組特征曲線可得到戈登菌泛基因組、核心基因組與菌株數(shù)目之間的關(guān)系(圖3),泛基因組特征方程y=3 686.37x0.55+343.9,R2=0.999 9,其中y為泛基因組大小,x為基因組數(shù),即平均每增加1個新的基因組、就會有343.9個新基因會添加到泛基因組。與之相反的核心基因組的數(shù)量隨菌株數(shù)量增加逐漸減少,直至趨于穩(wěn)定,特征方程為y=3 560.92e-0.33x+1 036.39,當(dāng)添加第12個基因組后緩慢穩(wěn)定,可以推斷出戈登菌的核心基因組基因數(shù)目會穩(wěn)定在1 036個左右。
注:A和B分別為泛基因組特征曲線和核心基因組特征曲線。
2.4.1COG功能注釋分析 根據(jù)COG功能注釋,戈登菌基因組幾乎80%的基因被分為21個直系同源功能類別中,其中[S]未知功能的基因數(shù)量最多,其次是[C]能量的產(chǎn)生和轉(zhuǎn)換、[E]氨基酸轉(zhuǎn)運和代謝、[I]脂肪運輸和代謝和[K]轉(zhuǎn)錄(圖4),并且COG豐度與菌株來源之間差異無統(tǒng)計學(xué)意義(P>0.05)。
注:A表示RNA加工和修飾,B表示染色質(zhì)結(jié)構(gòu)和動力學(xué),C表示能量產(chǎn)生和轉(zhuǎn)換,D表示細胞周期控制、細胞分裂和染色體分離,E表示氨基酸轉(zhuǎn)運和新陳代謝,F表示核酸轉(zhuǎn)運和代謝;G表示碳運輸和新陳代謝,H表示輔酶運輸和代謝,I表示脂類轉(zhuǎn)運和代謝,J表示翻譯、核糖體結(jié)構(gòu)和合成,K表示轉(zhuǎn)錄,L表示復(fù)制、重組及修復(fù),M表示細胞壁膜核膜的合成,N表示細胞機動性,O表示翻譯后修飾、蛋白翻轉(zhuǎn)及分子伴侶,P表示無機離子轉(zhuǎn)運和代謝,Q表示二級代謝生物加工、轉(zhuǎn)運及分解代謝,S表示未知功能,T表示信號傳導(dǎo)機制,U表示胞內(nèi)的交換、分泌和膜泡輸送,V表示防御機制。
2.4.2CAZymes在戈登菌中的分布 經(jīng)過CAZymes數(shù)據(jù)庫的注釋,戈登菌屬糖基轉(zhuǎn)移酶(glycosyl transferases,GTs)含量最多,其次是糖苷水解酶(glycoside hydrolases,GHs),含少量的碳水化合物酯酶(carbohydrate esterases,CEs)和碳水化合物結(jié)合模塊(carbohydrate-binding modules,CBMs;表2)。在不同來源的戈登菌屬中,污泥來源菌株有(34.00±5.50)個基因簇與合成碳水化合物活性酶有關(guān),含量較其他來源菌株少(P<0.05),來源于紅樹林泥濘土壤的G.rhizospheraNBRC 16068 CAZyme基因數(shù)量最多(55個),包含26個GT、19個GH、6個CE和4個CBM/GH,該菌株生存于養(yǎng)分低、重金屬濃度及鹽度較高地方,豐富的CAZymes為其生存提供了更大的可能。GH注釋結(jié)果顯示戈登菌基因組包含了參與不同糖代謝的基因,如β-葡萄糖苷酶、磷酸α-麥芽糖轉(zhuǎn)移酶、分支酶和海藻糖磷酸化酶等。GT參與蛋白、核酸、各種雜環(huán)化合物和其它糖類的生物合成,戈登菌基因組中普遍存在1,6-半乳呋喃糖基轉(zhuǎn)移酶、ADP依賴性α-麥芽糖-1-磷酸合酶、α-海藻糖-磷酸合酶等與能量儲存有關(guān)的基因。
表2 戈登菌基因組中CAZyme種類及數(shù)目
2.4.3戈登菌次級代謝產(chǎn)物類型分布情況 通過AntiSMASH分析,被注釋的戈登菌屬含有PKS、NRPS、萜烯、四氫嘧啶(ectoine)以及RiPP次級代謝產(chǎn)物生物合成基因簇,其中PKS、NRPS和萜烯在該菌屬所含基因簇中占比較高。其中,土壤來源的菌株含有的生物合成基因簇最長(565 044.18±145 911.85) bp,痰液和生物濾器來源的菌株含有的生物合成基因簇較短[(410 160.60±55 322.45) bp和(390 754.25±39 338.59) bp],3組之間差異有統(tǒng)計學(xué)意義(P<0.05);其他組別之間所含生物合成基因簇大小差異無統(tǒng)計學(xué)意義(P>0.05,表3);病原菌株基因簇的總長度在整個基因組中所占的比例低于土壤來源菌株,說明病原菌株合成次級代謝產(chǎn)物的能力比來源于土壤的菌株能力差(圖5)。與MIBiG數(shù)據(jù)庫比對以預(yù)測可能由戈登菌合成的已知或新的次級代謝產(chǎn)物,其中四氫嘧啶、匹馬霉素(pimaricin)、類胡蘿卜素(carotenoid)和SF2575的生物合成簇在戈登菌屬中廣泛存在,四氫嘧啶存在于40株戈登菌中,除G.otitidisFDAARGOS 1600有33.00%的基因與已知基因簇相似,其他的菌株至少有50%的基因與已知基因簇一致。相反,用于合成nocobactin NA、scabichelin、fuscachelin的生物合成基因簇只在少數(shù)菌株中存在超過50%的基因與已知基因簇一致,存在產(chǎn)生新的化合物的可能。
圖5 不同來源戈登菌屬基因組中生物合成基因簇長度占整個基因組的比例
通過對戈登菌屬基因組的比較分析發(fā)現(xiàn),戈登菌的基因組中最大基因組為G.aspleniiTBRC 11910和最小基因組為G.zhaorongruiiHY186;通過COG功能注釋發(fā)現(xiàn),G.aspleniiTBRC 11910擁有[I]脂質(zhì)運輸和代謝、[K]轉(zhuǎn)錄功能和[S]未知功能蛋白的數(shù)量是GordoniazhaorongruiiHY186的2倍,這表明為適應(yīng)環(huán)境等因素的變化,不同的戈登菌的基因組也在進行演變,因此會出現(xiàn)不同菌株之間的差異性。同時,戈登菌屬開放性的泛基因組,進一步說明戈登菌的基因組具有強大的可塑性和遺傳多樣性。
通過戈登菌屬系統(tǒng)發(fā)育學(xué)分析可知40株已明確種的戈登菌之間ANI值<95%,DDH值<70%,均符合為同一屬內(nèi)的相關(guān)種的標(biāo)準(zhǔn)[15],結(jié)果表明40株已明確種的戈登菌分類準(zhǔn)確。然而剩余的1株未進行準(zhǔn)確分類的Gordoniasp.YC-JH1與G.sihwensisNBRC 108236之間的ANI值和DDH值均超過閾值范圍,說明G.sp.YC-JH1為G.sihwensis的一個菌株,并且通過16S rRNA基因序列分析也證實了這一觀點。
此前有學(xué)者對放線菌的CAZymes進行預(yù)測,如Ghimire等[16]通過比對紅球菌屬、分支桿菌屬和棒狀桿菌屬部分菌株之間的CAZymes,發(fā)現(xiàn)它們含有淀粉、糖原和纖維素等化合物降解的CAZyme基因,并且紅球菌屬存在的角質(zhì)酶可能是潛在的植物致病物質(zhì);Shin等[17]學(xué)者成功在大腸桿菌中克隆并表達G.terraeDSM 43249的β-葡萄糖苷酶,從而完成生物轉(zhuǎn)化,提高人參皂苷中Rg3、Rg2和Rh1的轉(zhuǎn)化率,將常量皂苷變?yōu)榫哂锌鼓[瘤、抗過敏、抗炎、緩解動脈硬化特性的稀有皂苷[18]。β-葡萄糖苷酶在生物代謝反應(yīng)過程中起關(guān)鍵作用,能催化水解芳基或烴基與糖基原子團之間的糖苷鍵生成葡萄糖,在農(nóng)業(yè)、食品行業(yè)、生物能源以及醫(yī)藥行業(yè)具有不可取代的作用。另外,本研究選取的戈登菌屬菌株均注釋到了海藻糖相關(guān)酶類,海藻糖具有穩(wěn)定的化學(xué)性質(zhì),可參與細菌對高溫、寒冷、高滲透和和脫水抗性的適應(yīng)[19]。因此,戈登菌中豐富的CAZyme基因可在降解天然聚合物、生物技術(shù)等方面起著重要作用。
本研究還著重分析了戈登菌屬產(chǎn)生次級代謝產(chǎn)物的能力,與其他放線菌相比戈登菌屬顯示出較強且多樣的產(chǎn)次級代謝的能力[20]。所有的戈登菌菌株都含有能夠生產(chǎn)萜烯的基因片段,萜烯和它的衍生物萜類化合物是一類主要的天然芳香化合物,具有多種生物活性,如抗氧化、抗微生物和抗炎特性等[21],有研究驗證了鏈霉菌中存在合成戊內(nèi)酯型萜烯的生物合成簇,對革蘭陽性菌和革蘭陰性菌表現(xiàn)出中等的抗菌活性[22]。有些類型的次級代謝產(chǎn)物只由1株或某幾株戈登菌產(chǎn)生,如套索肽(lassopeptide)的相關(guān)基因只存在于G.croceaNBRC 107697,套索肽屬于RiPP,其結(jié)構(gòu)非常穩(wěn)定,95 ℃~120 ℃高溫條件下也不會被降解,具有抗菌、抗病毒、抗腫瘤和受體拮抗活性,基于其生物活性的多樣性,套索肽可能在治療胃腸疾病、結(jié)核病、阿爾茨海默病、心血管疾病、真菌感染和癌癥等方面發(fā)揮很大的作用[23];呋喃的相關(guān)基因只存在于G.aspleniiTBRC 11910和G.spumicolaNBRC 107696中,呋喃是很多天然產(chǎn)物、藥物和有機化合物的重要結(jié)構(gòu),可形成具有生物活性的物質(zhì),如能夠抗氧化、降低心血管疾病風(fēng)險的呋喃脂肪酸等[24]。通過與MIBiG數(shù)據(jù)庫比對發(fā)現(xiàn),戈登菌屬中存在較多可產(chǎn)生PKS、NRPS及PKS-NRPS混合型的基因簇,可產(chǎn)生相關(guān)物質(zhì)64種,PKS和NRPS參與大量生物活性化合物的生物合成,在臨床上具有抗菌劑、抗寄生蟲劑、抗腫瘤劑和免疫抑制劑等作用;Florez等[25]通過對鏈霉菌、諾卡菌等海洋放線菌的次級代謝產(chǎn)物研究發(fā)現(xiàn),PKS和NRPS相關(guān)的生物活性化合物在宿主防御系統(tǒng)起重要作用。除此之外,部分基因簇存在于多數(shù)戈登菌菌株中,但與已知的生物合成簇相似性較低,如胡蘿卜素、匹馬菌素、康樂霉素及伯爾尼霉素A等,它們可能編碼一些與己知次級代謝產(chǎn)物的結(jié)構(gòu)或合成機制相似的天然產(chǎn)物,在臨床和生物技術(shù)應(yīng)用相關(guān)的活性化合物合成方面具有廣闊前景。
綜上所述,本研究通過比較不同來源的戈登菌屬菌株之間在基因組大小、COG功能、碳水化合物酶類和次級代謝產(chǎn)物合成基因簇之間的差異性,發(fā)現(xiàn)該屬菌株可產(chǎn)生非常具有生物和醫(yī)學(xué)價值的酶類或次級代謝產(chǎn)物,并且還存在部分未明確的化合物,這為以后挖掘該屬相關(guān)天然產(chǎn)物的研究奠定基礎(chǔ)。