姚彩苗 趙雯雅 汪步青 鄭利艷 張麗萍 劉洪偉
(1. 中國人民解放軍聯(lián)勤保障部隊第九八〇醫(yī)院檢驗實驗科,石家莊 050000;2. 河北省科學院生物研究所,石家莊 050081;3. 河北省主要農(nóng)作物病害微生物控制工程技術研究中心,石家莊 050081)
環(huán)狀芽孢桿菌(Bacillus circulans)是一類革蘭氏陽性菌,通常從土壤、污水、食物和傷口中分離得到[1]。這種細菌與人類感染有關,包括敗血癥、混合膿腫感染和傷口感染[2]。此外,研究發(fā)現(xiàn)環(huán)狀芽孢桿菌中能夠合成幾丁質(zhì)酶[3]、環(huán)糊精糖基轉(zhuǎn)移酶[4-5]、木聚糖酶[6]、半乳糖苷酶[7]等工業(yè)用酶,也有研究發(fā)現(xiàn)環(huán)狀芽孢桿菌對鋁土礦的分解具有協(xié)同作用[8]。McLeod[9]從環(huán)狀芽孢桿菌中發(fā)現(xiàn)并鑒定到環(huán)桿菌素(Circulin),Dion等[10]從環(huán)狀芽孢桿菌NRRL B3312和B3313菌株中發(fā)現(xiàn)并鑒定到丁酰苷菌素(Butirosin),這兩種物質(zhì)作為抗生素一直使用至今;He等[11]從環(huán)狀芽孢桿菌J2154中鑒定出多種環(huán)脂肽類抗菌物質(zhì)(Circulocins α-δ),這些物質(zhì)對革蘭氏陽性菌具有很好的抑制效果;Das等[12]對一株海洋來源的環(huán)狀芽孢桿菌鑒定進行研究,發(fā)現(xiàn)其代謝產(chǎn)物中含有具有抑菌活性的脂肽類生物表面活性劑;王美琴等[13]發(fā)現(xiàn)環(huán)狀芽孢桿菌Jcxy8 對灰霉病菌具有拮抗作用,其發(fā)酵上清對灰霉病菌的生長具有顯著抑制作用,這些研究說明環(huán)狀芽孢桿菌具有一定的抗菌物質(zhì)合成能力。
雖然已有大量的環(huán)狀芽孢桿菌相關研究,但到目前為止,只有9株環(huán)狀芽孢桿菌完成了基因組測序。Tettelin等[14]在2005年提出泛基因組(Pangenome)的概念,它包括核心基因組(由所有菌株共有的基因組成)、非必須基因組(由一個或多個菌株缺失的基因組成)和菌株的特殊基因(由每個菌株特有的基因組成)。近年來,泛基因組分析在微生物基因組功能基因鑒定中得到了廣泛的應用[15]。與比較基因組學經(jīng)典分析不同,泛基因組分析可以預測蛋白質(zhì)編碼基因的數(shù)量,并在新的環(huán)狀芽孢桿菌基因組測序時,通過計算可以預測整個環(huán)狀芽孢桿菌泛基因組的大?。?6]。泛基因組分為開放的和封閉的兩種類型,開放的泛基因組是指有的物種在有新的菌株測序時核心基因組中會有新的基因出現(xiàn);封閉的泛基因組是指有的物種在有新的菌株測序時核心基因組中不會有新的基因出現(xiàn)[17]。對菌株代謝產(chǎn)物進行鑒定時,有時傳統(tǒng)的分離純化鑒定手段受到局限,通過對已知基因組數(shù)據(jù)進行挖掘,找到一些新型的次級代謝產(chǎn)物合成通路,通過對這些通路的鑒定,有可能發(fā)現(xiàn)新型的活性物質(zhì)[18]。
在本研究中,我們從NCBI找到了目前所有的9個環(huán)狀芽孢桿菌基因組,并對其進行了泛基因組分析,確定了其泛基因組特征;并通過預測軟件對次級代謝產(chǎn)物合成通路進行了挖掘,確定了其最可能具有的活性物質(zhì)合成能力。本研究旨在為進一步探索環(huán)狀芽孢桿菌的基因組信息,為對該菌的進一步利用奠定基礎。
在NCBI數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/)中的“ Genome” 條目下輸入“Bacillus circulans” 查找環(huán)狀芽胞桿菌屬所有菌株的的NCBI登錄號。本研究中使用的9株環(huán)狀芽孢桿菌的基因組均檢索自2019年3月之前在GenBank數(shù)據(jù)庫中提交的基因組,詳細信息如表1所示。
表1 本研究分析用到的菌株
1.2.1 基因組系統(tǒng)發(fā)育分析 下載表1中菌株對應的gbk格式基因組數(shù)據(jù),使用REALPHY(http://realphy.unibas.ch)進行全基因組比對[20],數(shù)據(jù)以gbk格式進行上傳,使用默認參數(shù)運行。使用MEGA X[21]構建系統(tǒng)進化樹,選擇最大似然(ML)算法以及Kimura 2參數(shù)模型[22]進行計算,設置重復抽樣次數(shù)為1 000,其它參數(shù)使用默認值。
1.2.2 泛基因組和核心基因組分析 下載表1中菌株對應的基因組組裝及注釋等全部數(shù)據(jù),選擇cds_from_genomic.fna.gz,protein.faa.gz和 feature_table.txt.gz三種后綴的文件作為數(shù)據(jù)輸入文件,使用PGAweb[23]軟件的 PGAP 模塊[24]選擇 GF(Gene Family,基因簇)算法對9個基因組進行分析,BLAST參數(shù)最小值設為50,E-value設為1e-10,全局匹配區(qū)不少于蛋白質(zhì)序列的50%,一致性也不低于50%。
下載結(jié)果文件,選擇Orthologs_Cluster1.txt文件,使用PanGP[25]進行數(shù)據(jù)擬合。算法選用遍歷所有組合(Traverse all),其他值使用默認值。
1.2.3 次級代謝產(chǎn)物合成基因簇分析 利用antiSMASH[26](https ://antismash.secondarymetaboli tes.org/)的細菌分析模塊對9株環(huán)狀芽孢桿菌次級代謝產(chǎn)物生物合成基因簇進行預測注釋,參數(shù)選用默認值。
截止至2019年3月20日,NCBI數(shù)據(jù)庫中共有9個環(huán)狀芽孢桿菌基因組,其中2個組裝到完整基因組水平。通過統(tǒng)計發(fā)現(xiàn),9株環(huán)狀芽孢桿菌的基因組大小在5.01-9.63 Mb之間,GC含量在35.3%-39.8%之間,預測基因數(shù)在4 756-9 553個之間,均沒有質(zhì)粒數(shù)據(jù)報道,數(shù)據(jù)釋放時間均在2015年之后。
使用REALPHY將9株環(huán)狀芽孢桿菌基因組進行了比對,然后利用MEGA X選擇最大似然法,構建了系統(tǒng)進化樹。結(jié)果(圖1)顯示,9株環(huán)狀芽孢桿菌在進化樹上被歸為了兩個分支,其中NBRC 13626、NCTC2610、RIT379、7520-T、7524、7506五株菌為一個亞支,7521-2、PK3_109、PK3_138三株菌為一個亞支。與分離源數(shù)據(jù)比較發(fā)現(xiàn),部分菌株的進化關系與分離源具有一定相關性,從巴基斯坦沙漠分離的兩株菌(PK3_109、PK3_138)均在一個亞支,但從海洛因樣本中分離的四株菌(7520-T、7524、7506和7521-2)卻在兩個亞支。
圖1 九株環(huán)狀芽孢桿菌的系統(tǒng)進化樹
環(huán)狀芽孢桿菌的基因組大小和基因數(shù)目成正比,菌株NCTC2610的基因組最大,其對應的基因數(shù)也最多。對環(huán)狀芽孢桿菌進行了泛基因組和核心基因組分析,共有47 354個蛋白質(zhì)編碼基因被分為9 572個基因家族,每個基因家族代表一個假定的同源基因。每個基因家族存在于不同的基因組,一個基因家族覆蓋的基因組越多,這個基因家族中的基因就越保守。核心基因組中的基因決定了主要表型性狀的基本生物學特性[15]。在9個基因組中,鑒定出3 622個基因家族組成核心基因組,其占環(huán)狀芽孢桿菌泛基因組的37.83%。鑒定出特有基因4 593個,占泛基因組的47.98%;其中菌株NCTC2610的特有基因最多,為3 031個;菌株NBRC 13626的特有基因最少,為39個(圖2)。
在泛基因組分析的基礎上,我們使用PanGP軟件計算了泛基因組、核心基因組和基因組數(shù)目之間的關系(圖3)。泛基因組大?。≒)與基因組數(shù)(G)關系的擬合方程為P=1364.59G0.68+3491.53(R2=0.999 7),通過擬合方程可以看出環(huán)狀芽孢桿菌的泛基因組大小隨著測序基因組數(shù)目的增加而增大。核心基因組大?。–)與基因組數(shù)(G)關系的擬合方程為C=3341.67e-1.01G+3621.87(R2=0.983 952),根據(jù)該擬合方程可以看出環(huán)狀芽孢桿菌的核心基因組大約由3 622個基因家族組成。隨著基因組測序數(shù)量的增加,泛基因組隨之增加,而核心基因組則逐漸減少。因此,我們可以推測環(huán)狀芽孢桿菌的泛基因組是開放的。
圖2 環(huán)狀芽孢桿菌基因組中基因家族出現(xiàn)的頻率
圖3 環(huán)狀芽孢桿菌泛基因組和核心基因組特征
在上述數(shù)據(jù)的基礎上,使用PanGP軟件計算了新基因家族數(shù)量(N)與基因組數(shù)(G)的關系(圖4),并計算出擬合方程為N=1062.09G-0.36(R2=0.984 796)。分析表明環(huán)狀芽孢桿菌具有開放的泛基因組,在目前基因組數(shù)量水平上,當添加新測序的基因組后,可以計算出其泛基因組的基因家族數(shù)量預計增加451個,核心基因組的基因家族數(shù)量預計是3 622個,新基因家族數(shù)量預計會增加463個。
圖4 環(huán)狀芽孢桿菌新基因數(shù)量與基因組的關系
利用在線預測軟件antiSMASH對9株環(huán)狀芽孢桿菌基因組中的次級代謝產(chǎn)物合成基因簇進行預測,結(jié)果共注釋到6類、32個次級代謝基因簇(表2)。其中,注釋到的基因簇有1個芳基多烯(Arylpolyene)、1個含鐵細胞(Siderophore)、1個第3類聚酮類化合物(T3pks)、9個套索肽(Lassopeptide)、9個萜烯(Terpene)和11個羊毛硫肽(Lantipeptide)基因簇。這說明,目前測序的環(huán)狀芽孢桿菌的主要代謝產(chǎn)物可能是羊毛硫肽、套索肽和萜烯類化合物。
在上述基因簇中,基因簇1、5、10、12、16、17、21、24、26、30和31與已知基因簇具有一定同源性(表3)。其中只有基因簇31與已知基因簇同源相似度較高,為75%,其他基因簇的同源相似度均低于40%。這說明,環(huán)狀芽孢桿菌中的次級代謝產(chǎn)物可能與已知的次級代謝產(chǎn)物有所不同。
在GenBank數(shù)據(jù)庫中,有9株環(huán)狀芽孢桿菌菌株具有基因組數(shù)據(jù),其中有7株只組裝到contig水平。在本研究中,首先分析了9株菌的進化關系,發(fā)現(xiàn)9株菌在進化樹上被歸為了兩個分支。我們又對9種環(huán)狀芽孢桿菌基因組進行了的泛基因組和核心基因組分析,共鑒定出4 593個特有基因,其中菌株NCTC2610的基因最多(3 030個),而菌株NBRC 13626的特有基因最少(39個)。另外,共鑒定出3 622個基因家族組成核心基因組,占環(huán)狀芽孢桿菌泛基因組的37.83%。趙永兵[27]對甲型副傷寒菌進行核心基因組分析發(fā)現(xiàn),其核心基因組占泛基因組
大小的87.5%;與其相比,環(huán)狀芽孢桿菌在泛基因組組成上可能保守性較低。通過計算泛基因組、核心基因組和基因組數(shù)目之間的關系發(fā)現(xiàn),隨著基因組測序數(shù)量的增加,泛基因組隨之增加,而核心基因組則逐漸減少。因此,我們可以推測環(huán)狀芽孢桿菌的泛基因組是開放的。
表2 antiSMASH注釋的環(huán)狀芽孢桿菌中存在的次級代謝基因簇
表3 antiSMASH注釋的環(huán)狀芽孢桿菌中的已知基因簇
通過次級代謝產(chǎn)物合成基因簇分析,9個環(huán)狀芽孢桿菌基因組中共發(fā)現(xiàn)6類、32個次級代謝基因簇,重復出現(xiàn)最多的代謝通路是羊毛硫肽、套索肽和萜烯類化合物合成通路;另外,有11個基因簇與已知基因簇具有一定同源性,其中基因簇31與已知基因簇同源相似度較高。這些結(jié)果說明,環(huán)狀芽孢桿菌可能具有相似的代謝產(chǎn)物合成途徑,最有可能的活性物質(zhì)是羊毛硫肽、套索肽和萜烯類化合物。Letzel等[28]對211個已發(fā)表的厭氧細菌基因組進行了挖掘,發(fā)現(xiàn)25%以上的菌株具有翻譯后修飾多肽合成基因簇(972個)。Zhang等[29]對830個已發(fā)表的放線菌基因組進行了挖掘,共發(fā)現(xiàn)1 163個類羊毛硫肽合成基因簇。Xin和Kuipers[30]對57個種328個已發(fā)表的芽孢桿菌目細菌基因組進行了挖掘,13類2 397個次級代謝合成通路。與這些類型的細菌相比,環(huán)狀芽孢桿菌的次級代謝通路比較少,可能合成的新型物質(zhì)可能也比較少。
本文通過對9個環(huán)狀芽孢桿菌基因組進行分析,明確了其泛基因組含有9 572個基因家族,核心基因組含有3 622個基因家族,鑒定出4 593個特有基因;通過次級代謝產(chǎn)物合成基因簇分析,9個環(huán)狀芽孢桿菌基因組中共發(fā)現(xiàn)6類、32個次級代謝基因簇,重復出現(xiàn)最多的代謝通路是羊毛硫肽、套索肽和萜烯類化合物的合成通路。