叢華劍武栓虎田健初曉宇伍寧豐
(1.煙臺大學,煙臺 264005;2.中國農(nóng)業(yè)科學院生物技術研究所,北京 100081)
基于細菌同源蛋白預測細菌最適生長溫度的研究
叢華劍1,2武栓虎1田健2初曉宇2伍寧豐2
(1.煙臺大學,煙臺 264005;2.中國農(nóng)業(yè)科學院生物技術研究所,北京 100081)
不同細菌有不同的最適生長溫度,而基因序列與其最適生長溫度密切相關。為探究其相關性,選取92個具有不同最適生長溫度的細菌的全基因組序列為研究材料,通過尋找92個細菌共有的同源蛋白,并計算共有同源蛋白中氨基酸的頻率,發(fā)現(xiàn)共有同源蛋白的氨基酸頻率特征與其最適生長溫度存在著顯著的相關關系,其中蛋白質(zhì)序列中的螺旋結構與其最適生長溫度關系最大。該研究為揭示細菌對溫度的適應機制,以及對蛋白質(zhì)穩(wěn)定性相關的分子設計具有重要的意義。
細菌;最適生長溫度;同源蛋白;氨基酸頻率
細菌生長在不同的自然環(huán)境里,在某個特定的溫度下,它的生長速度最快,這個溫度被稱為其最適生長溫度。根據(jù)最適生長溫度的不同,細菌可以被分為嗜熱菌、中溫菌及嗜冷菌,其中嗜熱菌的最適生長溫度一般在40℃以上,嗜冷菌的最適生長溫度在20℃以下,而大多數(shù)中溫菌最適生長溫度在30℃左右。細菌適應不同最適生長溫度的機制一直是人們針對細菌研究的熱點。2003年,Makarova等[1]通過系統(tǒng)發(fā)生學分析方法尋找到一些可能對嗜熱起關鍵作用的基因,并找到了一些與嗜熱表型特征相關的同源基因簇。2007年,Li等[2]發(fā)現(xiàn)了部分原核生物基因序列與其最適生長溫度的關系。2011年,Kim 等[3]發(fā)現(xiàn)了某一藻類中的耐熱基因,該基因的表達使其在高溫下有更好的生存能力。2012年,Jensen等[4]基于全基因組序列,利用貝葉斯的統(tǒng)計方法對細菌的最適生長溫度范圍進行了預測,得到了準確的結果。2014年,Hu[5]發(fā)現(xiàn)了對細菌在低溫下正常生長起關鍵作用的酶。通過大量研究表明,細菌在最適生長溫度方面的差異,與其基因序列的差異密切相關,然而對于影響其最適生長溫度的序列特征,目前仍缺乏有效的研究和分析,需要從基因組學的層面對其進行系統(tǒng)挖掘。
本研究為了探究基因序列與其最適生長溫度的關系,將運用生物信息學的方法確定不同細菌間共有的同源蛋白,并對這些共有同源蛋白進行序列分析,從中分析與其最適生長溫度相關的分子特征,為揭示細菌對溫度的適應機制以及利用蛋白質(zhì)的分子設計來提高其穩(wěn)定性等方面奠定基礎。
1.1 材料
數(shù)據(jù)集采用Jensen等[4]在實驗中采用的92個細菌(表1),其全基因組序列和最適生長溫度均來自NCBI數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov/)。
表1 92個細菌的詳細信息
續(xù)表
1.2 方法
1.2.1 提取共有同源蛋白 在NCBI數(shù)據(jù)庫中,獲取全部92個細菌的全部基因組信息,選取基因數(shù)目最多的一個細菌,通過RSD[6]軟件(Reciprocal Smallest Distance,https://github.com/todddeluca/ reciprocal_smallest_distance/)找到該菌與其他所有細菌之間共有的同源蛋白,參數(shù)divergence和E-value thresholds分別取值0.2和1e-20,divergence是散度閾值,用來判斷基因之間的“距離”,E-value是期望值閾值,用來判斷結果的顯著性。通過整理之后可以得到所有細菌的共有的同源蛋白,然后對其進行序列比對[7]確定蛋白質(zhì)的功能。
1.2.2 計算氨基酸頻率 提取共有同源蛋白中每一種氨基酸的頻率,并把其頻率值作為特征,采用隨機森林的方法來模擬其與最適生長溫度的相關性。相關系數(shù)采用20-倍的交叉驗證的方法進行,首先把數(shù)據(jù)分為20份,每一次交叉驗證選取其中一份作為測試集,其余19份數(shù)據(jù)作為訓練集,通過訓練集建立隨機森林模型,然后用測試集進行驗證,通過20次交叉驗證后,可以得到最終的相關系數(shù),相關系數(shù)計算公式如下:
式中,ρ表示相關系數(shù)值,X與Y分別表示同源蛋白的氨基酸頻率與溫度值,N為樣本數(shù)量。通過計算可以得到每一個同源蛋白的氨基酸頻率與最適生長溫度之間的相關系數(shù)。
1.2.3 進化樹的構建 利用與最適生長溫度相關性最高的同源蛋白的序列、全部共有同源蛋白序列以及菌株的16S rDNA來構建進化樹,采用的工具為MEGA[8](Molecular Evolutionary Genetics Analysis,http://www.megasoftware.net/),先對所有的同源蛋白進行序列比對,然后選擇構建Maximum Likelihood Tree,因為根據(jù)最大似然估計的方法,概率總和最大的那棵樹最有可能是反映真實情況的系統(tǒng)發(fā)生樹。Bootstrap replications值選擇1 000,1 000次重復可以充分保證結果的可靠性。其他參數(shù)為默認值,以此可以構建出反應進化關系的進化樹。
1.2.4 確定對與最適生長溫度關系最大的序列位置
選取與最適生長溫度相關性最高的10個共有同源蛋白,采用ClusterW[9,10](http://www.clustal.org/)對其序列進行比對后,逐列分析確定與其最適生長溫度相關的關鍵位置。具體方法是根據(jù)比對結果,一次刪除一列,計算相關系數(shù),與原相關系數(shù)進行比較,得到差值,差值的絕對值越大,說明這個位置與最適生長溫度的關系越大。
從與最適生長溫度相關性最高的前10個同源蛋白中,提取每個同源蛋白中對最適生長溫度影響較大的前5%的位置,每個同源蛋白合并可得到92個“子序列”,將10個同源蛋白的“子序列”合并成92個“特征序列”,“特征序列”中的每一個位置都是影響細菌最適生長溫度的關鍵序列。我們將對得到的“特征序列”進行后續(xù)的氨基酸指數(shù)和蛋白質(zhì)二級結構方面的分析。
1.2.5 計算氨基酸指數(shù) 氨基酸指數(shù)[11]是代表每種氨基酸物理或化學性質(zhì)的一套定量值標,現(xiàn)每種氨基酸已有544個氨基酸指數(shù),分別代表某種氨基酸的544種性質(zhì)。在獲取全部544種氨基酸指數(shù)后,分別計算每個“特征序列”在每種氨基酸指數(shù)下的加權平均值,這樣可以獲取一個92行544列的矩陣,然后計算某種氨基酸指數(shù)與最適生長溫度的相關性,共可獲取544個氨基酸指數(shù)與最適生長溫度的相關指數(shù)。
2.1 共有同源蛋白的提取
不同的微生物通常含有不同的基因數(shù)量,為了使不同微生物間具有可比性,本研究首先提取了不同物種間共有的直系同源基因,這些基因一般是由共同的祖先進化而來。不同物種間的直系同源基因一般具有類似的功能,通常編碼生命必需的酶、輔酶或關鍵調(diào)控蛋白的基因,往往具有功能保守、進化緩慢的特征[12,13],這樣的特點便于利用其來分析基因序列與最適生長溫度的關系等相關研究。表2為提取的53個共有的同源基因信息,這些基因是生物中的看家基因,如methionyl-tRNA formyltransferase、glutamine-fructose-6-phosphate aminotransferase、Polyribonucleotide nucleotidyltransferase等都是細菌中非常重要的轉移酶,30S ribosomal protein S13、50S ribosomal protein L13等都是參與細胞翻譯過程的核糖體亞單位的重要組成蛋白。它們在維持生命的過程中起到關鍵的作用。
表2 53個共有同源基因信息
圖1 53個同源蛋白中氨基酸頻率與溫度的相關系數(shù)
2.2 氨基酸頻率與最適生長溫度的相關性
53個共有同源蛋白中氨基酸的頻率與最適生長溫度的相關系數(shù),并按相關系數(shù)大小進行排序,結果(圖1)顯示,與溫度相關性最高的同源蛋白,相關系數(shù)為0.86,對應的蛋白質(zhì)名稱為:Polyribonucleotide nucleotidyltransferase,相關性最低的同源蛋白,相關系數(shù)為0.67,對應蛋白質(zhì)名稱為:Ribulose-phosphate 3-epimerase,全部53個共有同源蛋白的相關系數(shù)都在0.65以上,說明共有同源蛋白的氨基酸頻率與其最適生長溫度具有很高的相關性。我們把53個共有同源蛋白相連,計算氨基酸頻率與其最適生長溫度的相關系數(shù)為0.90,再次驗證了共有同源蛋白中氨基酸頻率與最適生長溫度之間具有較高的相關性。
2.3 氨基酸指數(shù)分析
圖2為相關系數(shù)最高的前30個氨基酸指數(shù)(圖2-A)和最低的后30個氨基酸指數(shù)(圖2-B)的對比圖,圖中顏色越深的點表示相關系數(shù)值越大。圖2-A顯示,除了排在第9位的氨基酸指數(shù)呈現(xiàn)負相關的關系,具體表現(xiàn)為隨著“特征序列”最適生長溫度的增加,氨基酸指數(shù)值逐漸變小,其他的氨基酸指數(shù)均呈現(xiàn)正相關的關系,表現(xiàn)為隨著“特征序列”最適生長溫度的增加,氨基酸指數(shù)值逐漸變大。由此可見,蛋白質(zhì)中與其最適生長溫度相關的特征序列中的氨基酸選擇性有明顯的傾向性,在相關系數(shù)最高的前30個氨基酸指數(shù)中,其相關系數(shù)絕對值均在0.70以上。10個與最適生長溫度相關性最高的氨基酸指數(shù)(表3)顯示,最適生長溫度較高的微生物中蛋白質(zhì)中的特征序列傾向選擇分子量大,且疏水性強的氨基酸。
圖2 相關系數(shù)最高的前30個氨基酸指數(shù)(A)和最低的30個氨基酸指數(shù)(B)
表3 相關性最大的前10個氨基酸指數(shù)
2.4 蛋白質(zhì)二級結構信息
對于蛋白質(zhì)二級結構上的分析,本研究主要探究“特征序列”的每個氨基酸位于蛋白質(zhì)的區(qū)域,觀察其是否有明顯的位置特征。對蛋白質(zhì)的二級結構的預測,采用的工具是PSIPRED[14](http://bioinf. cs.ucl.ac.uk/psipred/)。
圖3 利用Polyribonucleotide nucleotidyltransferase所建的進化樹
圖4 全部同源蛋白構建的進化樹
圖5 基于16 S基因構建的進化樹
對最適生長溫度的影響比較大的氨基酸主要分布于α螺旋及l(fā)oop區(qū),比例分布分別為46.10%和37.13%,β折疊部分只占了16.77%。而“特征序列”所在的完整的蛋白序列中,α螺旋、loop區(qū)及β折疊所占的比例分別為:35.30%、46.37%及18.33%。研究發(fā)現(xiàn),“特征序列”中α螺旋所占比例增加,loop區(qū)所占比例減少,β折疊部分基本保持不變,可見對最適生長溫度有較大影響的位置對α螺旋部分有一定選擇偏好性。
2.5 進化分析
我們選取與最適生長溫度相關性最高的同源蛋白以及全部蛋白來構建進化樹(圖3,圖4)。通過觀察與最適生長溫度相關性最高的同源蛋白所建的進化樹(圖3),發(fā)現(xiàn)較為明顯的異常值有8個,分別占總數(shù)的8.7%。全部共有同源蛋白相連所建的以及進化樹(圖4),可以發(fā)現(xiàn)較為明顯的異常值有5個,占總數(shù)的5.4%。利用92個細菌的16S rDNA構建的進化樹(圖5),其明顯的異常值有7個,占總數(shù)的7.6%,其值均不足10%。因此通過進化樹很好地將高溫、中溫以及低溫3類細菌進行了分類,且3個進化樹分類效果相當。
本研究通過氨基酸頻率特征來探究共有同源蛋白中一些對溫度有影響的關鍵位置,并對其進行分析發(fā)現(xiàn),細菌中的一些特殊基因序列對其最適生長溫度有較大影響,這對蛋白質(zhì)熱穩(wěn)定性相關實驗有比較重要的指導意義。然而,實際上仍有很多因素對蛋白質(zhì)熱穩(wěn)定性有較大影響,國內(nèi)外學者都對其進行了大量的研究。其中Zeldovich等[15]的研究發(fā)現(xiàn)、Ile、Val、Tyr、Trp、Arg、Glu及Leu(IVYWREL)在蛋白序列中的比例與蛋白質(zhì)的最適生長溫度有較高的相關性,說明氨基酸的組成比例與蛋白質(zhì)的最適生長溫度具有相關性。除了基因序列的影響之外,蛋白質(zhì)的空間結構作用力的影響也是一個重要的因素[16],通過分析蛋白質(zhì)的三級結構,并對其進行分子動力學模擬,可以更直觀地分析在高溫情況下蛋白質(zhì)的熱穩(wěn)定性情況。Mitra等[17]的研究就是通過這樣的方法對蛋白質(zhì)進行設計,提高了纖維素酶的熱穩(wěn)定性,Akcapinar等[18]則是對突變后的耐高溫蛋白質(zhì)進行分析,從蛋白質(zhì)活性中心空間作用力改變的角度解釋了突變對其熱穩(wěn)定性的提高的機制。在國內(nèi),對細菌最適生長溫度以及蛋白質(zhì)熱穩(wěn)定性的研究也正不斷開展[19-21],在基因組的熱穩(wěn)定性機制,蛋白質(zhì)穩(wěn)定性的機理,理性設計蛋白質(zhì)熱穩(wěn)定性等方面都取得了不錯的研究成果。所以,在后續(xù)工作中將對這些因素進行更深入的研究,同時也將選取一個更大的數(shù)據(jù)庫來獲取影響最適生長溫度的特征,通過生物信息學的方式來對蛋白質(zhì)的熱穩(wěn)定性進行系統(tǒng)的預測分析。利用生物信息學的方法,可以更高效地獲得并處理大量的基因組數(shù)據(jù),這將對理解蛋白質(zhì)的熱穩(wěn)定性以及蛋白質(zhì)的分子設計具有重要的意義。
本研究通過利用生物信息學的方法,從基因組的層面上對細菌的最適生長溫度進行了分析,利用氨基酸頻率作為特征,發(fā)現(xiàn)了同源蛋白的氨基酸頻率與細菌最適生長溫度有較高的相關性;通過構建進化樹分析發(fā)現(xiàn),共有同源蛋白可以更好地對不同最適生長溫度的細菌進行分類。通過分析氨基酸指數(shù)發(fā)現(xiàn),不同最適生長溫度的細菌中,同源蛋白對氨基酸的選擇有偏好性。通過分析蛋白質(zhì)二級結構發(fā)現(xiàn),對細菌最適生長溫度影響較大的位置的氨基酸普遍位于α螺旋以及l(fā)oop區(qū),并且偏好選擇于α螺旋部位。
[1]Makarova KS, Wolf YI, Koonin EV. Potential genomic determinants of hyper thermophily[J]. Trends Genet, 2003, 19:172-176.
[2]Li W, Zou H, Tao M. Sequences downstream of the start codon and their relations to G02+02C content and optimal growth temperature in prokaryotic genomes[J]. Antonie Van Leeuwenhoek, 2007, 92(4):417-427.
[3]Kim E, Park H S, Jung Y, et al. Identification of the high-temperature response genes from Porphyra seriata(rhodophyta)expression sequence tags and enhancement of heat tolerance of Chlamydomonas(chlorophyta)by expression of the Porphyra htr2 gene 1[J]. Journal of Phycology, 2011, 47(4):821-828.
[4] Jensen DB, Vesth TC, Hallin TC, et al. Bayesian prediction of bacterial growth temperature range based on genome sequences[J]. BMC Genomics, 2012, 13(suppl7):53.
[5]Hu J. Polynucleotide phosphorylase is required for Escherichia coliO157:H7 growth above refrigerated temperature[J]. Foodborne Pathogens & Disease, 2014, 11(3):177-185.
[6] Wall DP, Deluca T. Ortholog detection using the reciprocal smallest distance algorithm[J]. Methods In Molecular Biology, 2007, 396:95-110.
[7]Altschul SF. Basic local alignment search tool[J]. J Mol Biol,1990, 215:403-410.
[8] Tamura K, Stecher G, Peterson D, et al. MEGA6:molecular evolutionary genetics analysis version 6.0[J]. Molecular Biology and Evolution, 2013, 30:2725-2729.
[9]Thompson JD, Higgins DG, Gibson TJ. CLUSTAL W:improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice[J]. Nucleic Acids Res, 1994, 22:4673-4680.
[10]Larkin MA, Blackshields G, Brown NP, et al. Clustal W and Clustal X version 2. 0[J]. Bioinformatics, 2007, 23:2947-2948.
[11] Kawashima S, Kanehisa M. AAindex:amino acid index database[J]. Nucleic Acids Res, 2000, 28(1):374.
[12] Sonnhammer EL, Koonin EV. Orthology, paralogy and proposed classification for paralog subtypes[J]. Trends in Genetics, 2002,18(12):619-620.
[13]Gabaldn T, Dessimoz C, Huxley-Jones J, et al. Joining forces in the quest for orthologs[J]. Genome Biology, 2009, 10(9):403.
[14]Jones DT. Protein secondary structure prediction based on positionspecific scoring matrices[J]. J Mol Biol, 1999, 292:195-202.
[15]Zeldovich KB, Berezovsky IN, Shakhnovich EI. Protein and DNA sequence determinants of thermophilic adaptation[J]. Plos Computational Biology, 2007, 3(1):62-72.
[16]Ratakonda S, Anand A, Dikshit K, et al. Crystallographic structure determination of B10 mutants of Vitreoscilla hemoglobin:role of Tyr29(B10)in the structure of the ligand-binding site[J]. Acta Crystallographica Section F-Structural Biology and Crystallization Communications, 2013, 69:215-222.
[17]Mitra S, Mukhopadhyay BC, Mandal AR, et al. Cloning,overexpression, and characterization of a novel alkali-thermostable xylanase from Geobacillus sp. WBI[J]. Journal of Basic Microbiology, 2015, 55(4):527-537.
[18]Akcapinar GB, Venturini A, Martelli PL, et al. Modulating the thermostability of Endoglucanase I from Trichoderma reesei using computational approaches[J]. Protein Engineering Design & Selection, 2015, 28(5):127-135.
[19]田健, 王平, 伍寧豐, 范云六. 理性設計提高蛋白質(zhì)熱穩(wěn)定性的研究進展[J]. 生物技術進展, 2012, 4:233-239.
[20]張健, 張琳, 王維. 通過蛋白質(zhì)序列比對探討細菌的熱適應機制[J]. 安徽農(nóng)業(yè)科學, 2011, 21:12646-12648.
[21] 盛多紅. 超嗜熱古菌基因組的熱穩(wěn)定性[J]. 生命科學,2014, 1:64-71.
(責任編輯 李楠)
Prediction of Optimal Growth Temperature of Bacterium Based on the Homologous Proteins
CONG Hua-jian1,2WU Shuan-hu1TIAN Jian2CHU Xiao-yu2WU Ning-feng2
(1. Yantai University,Yantai 264005;2. Biotechnology Research Institute,Chinese Academy of Agricultural Sciences,Beijing 100081)
The optimal temperature for each bacterium differs,which is related to its gene sequence. In order to explore the correlation between them,the known genome sequences of 92 bacteria with own different optimal temperatures were selected as the study material,then the common homologous protein from 92 bacteria were searched,and frequencies of the amino acids in homologous protein were calculated. A significant correlation between the frequency of the amino acid in homologous protein and the optimal growth temperature was realized. The analysis of the sites in homologous genes showed that the helix regions in the protein sequence were the most correlated with its optimal growth temperature. This study presents important significance on understanding the mechanism of the bacterial adaption to the temperature as well as designing the mutation to improve the protein stability.
bacterium;optimal growth temperature;homologous protein;amino acid frequency
10.13560/j.cnki.biotech.bull.1985.2016.03.025
2015-05-19
國家自然科學基金項目(31371748)
叢華劍,男,碩士,研究方向:生物信息學;E-mail:conghuajian1991@163.com
武栓虎,教授,碩士生導師, 研究方向: 數(shù)字圖像處理,數(shù)字信號處理,基因信息學,模式識別, 視頻圖像壓縮,小波分析與應用,E-mail:wushuanhu@163.com;田健,博士,副研究員,碩士生導師,研究方向:蛋白質(zhì)分子設計與改良、微生物重要基因資源挖掘等,E-mail:tianjian@caas.cn