唐 珍,郭冬梅
木質(zhì)素單體合成基因的分子進(jìn)化分析
唐 珍,郭冬梅*
(川北醫(yī)學(xué)院生物化學(xué)教研室,四川南充637000)
近年來(lái),人們對(duì)基因所受的凈化選擇壓力強(qiáng)度與基因在代謝途徑或調(diào)控網(wǎng)絡(luò)中所處的位置之間是否具有顯著相關(guān)性進(jìn)行了激烈爭(zhēng)論.為解決這一爭(zhēng)論,本研究通過(guò)挖掘6個(gè)十字花目物種的全基因組序列庫(kù),獲得了它們所擁有的全部10個(gè)參與木質(zhì)素單體合成的基因家族成員.在此基礎(chǔ)上,分別對(duì)每一基因家族進(jìn)行分子進(jìn)化分析.結(jié)果表明,參與木質(zhì)單體合成的但基因所受到的凈化選擇壓力強(qiáng)度與其在代謝途徑中所處的位置之間無(wú)相關(guān)性.本研究通過(guò)合理的取樣、可靠的分析方法以及理想的代謝途徑獲得了可靠的研究結(jié)果,并為解決解決以上爭(zhēng)議提供了有力的依據(jù).
木質(zhì)素單體合成途徑;基因家族;分子進(jìn)化;凈化選擇
基因在進(jìn)化過(guò)程中所受的選擇壓力有3種類型,即凈化選擇(非同義突變對(duì)基因適合度有害)、中性選擇(非同義突變對(duì)適合度沒(méi)有影響)和正選擇(非同義突變對(duì)適合度有利)[1-2].分子進(jìn)化研究的方法之一即檢測(cè)基因所受的選擇壓力,進(jìn)而探討基因進(jìn)化與功能之間的關(guān)系.最初的分子進(jìn)化研究對(duì)象主要是單個(gè)基因或基因家族,之后轉(zhuǎn)向?yàn)檎麄€(gè)代謝途徑或調(diào)控網(wǎng)絡(luò).在這些研究中,關(guān)于基因所受到的自然選擇壓力強(qiáng)度與基因在代謝或者調(diào)控網(wǎng)絡(luò)中所處的位置是否具有相關(guān)性,引起人們激烈的爭(zhēng)論,研究者通過(guò)對(duì)不同代謝途徑或調(diào)控網(wǎng)絡(luò)進(jìn)行研究后得出截然不同的結(jié)論.有研究結(jié)果表明二者之間存在顯著的相關(guān)性,即位于代謝途徑上游或者調(diào)控網(wǎng)絡(luò)中心的基因受到更強(qiáng)烈的凈化選擇作用,而位于其他位置的基因則受到更為松弛的選擇壓力[3-6];然而,最近有對(duì)參與花器官發(fā)育調(diào)控網(wǎng)絡(luò)的所有基因家族分子進(jìn)化的研究,研究認(rèn)為調(diào)控網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)并不能對(duì)基因的進(jìn)化速率產(chǎn)生影響,能對(duì)其產(chǎn)生影響的是基因本身所行使的功能,即基因在調(diào)控網(wǎng)絡(luò)中的位置與基因所受到的選擇壓力無(wú)關(guān)[7].這2種截然不同的觀點(diǎn)到底是因?yàn)檠芯繉?duì)象不同,即不同的代謝途徑或者調(diào)控網(wǎng)絡(luò)可能有不同的進(jìn)化模式,還是由于某些研究中所采用的分析方法不當(dāng)造成的呢?要解決這一問(wèn)題,需要對(duì)更多的代謝途徑進(jìn)行研究.
木質(zhì)素是維管植物的重要組成部分,具有重要的生物學(xué)功能.它主要分布于植物細(xì)胞的次生細(xì)胞壁,為植物的向上生長(zhǎng)提供機(jī)械支撐,參與植物中水分和溶質(zhì)的運(yùn)輸以及植物的防御過(guò)程,在植物對(duì)環(huán)境的適應(yīng)中扮演重要角色[8-9].木質(zhì)素由木質(zhì)素單體聚合而成,木質(zhì)素單體合成途徑是苯丙烷類代謝途徑的一個(gè)分支,另一分支是類黃酮合成途徑[10].目前對(duì)木質(zhì)素單體合成途徑已有較深入的研究,特別是在模式植物擬南芥(Arabidopsis thaliana)中,參與該途徑的所有基因都被克隆,且基因功能也有深入研究[11-12](圖1),這為本研究提供了堅(jiān)實(shí)的研究基礎(chǔ).
本研究擬對(duì)參與木質(zhì)素單體合成途徑的所有基因進(jìn)行分子進(jìn)化研究.利用植物全基因組數(shù)據(jù)庫(kù)資源,以十字花目(Brassicales)中具有全基因組序列的6個(gè)物種為材料,通過(guò)同源搜索獲得參與該途徑的10個(gè)基因家族在6個(gè)物種中的直系同源成員信息.這10個(gè)家族包括:phenylalanine ammonialyase(PAL);cinnamate 4-h(huán)ydroxylase(C4H);4-coumarate:CoA ligase(4Cl);p-h(huán)ydroxycinnamoyl-CoA(HCT);caffeic acid/5-h(huán)ydroxyconiferaldehyde O-methyltransferase(COMT);p-coumarate 3-h(huán)ydroxylase(C3H);ferulate 5-h(huán)ydroxylase(F5H);caffeoyl-CoA O-methyltransferase (CCoAOMT);cinnamoyl-CoA reductase(CCR); cinnamyl alcohol dehydrogenase(CAD).利用軟件PAML分別對(duì)這10個(gè)基因家族進(jìn)行選擇檢驗(yàn),進(jìn)而探討以上基因在木質(zhì)素單體合成途徑中所處的位置與基因所受到的自然選擇壓力的相關(guān)性.
1.1 序列搜索及直系同源成員的確定 由于木質(zhì)素合成途徑的10個(gè)基因家族都是多拷貝基因家族,但是真正參與木質(zhì)素單體合成途徑的僅僅是其中的一個(gè)或少數(shù)幾個(gè)成員[13].本研究根據(jù)J.Rase等[11]的工作,并結(jié)合有關(guān)這些基因的功能研究結(jié)果[14-17],從 NCBI獲得 Arabidopsis thaliana中所有真正參與木質(zhì)素單體合成途徑的基因家族成員信息,即所謂的bona fide成員.分別以每一個(gè)成員的核苷酸序列為模板,利用BLAST對(duì)植物全基因組數(shù)據(jù)庫(kù)(http://www.phytozome.net/)中十字花目的其他5個(gè)物種(即Arabidopsis lyrata,Capsella rubella,Brassica rapa,Thellungiella halophila,Carica papaya)進(jìn)行同源搜索.在參考已有的相關(guān)基因家族的系統(tǒng)發(fā)育研究結(jié)果基礎(chǔ)[13-18],重新構(gòu)建這10個(gè)基因家族在以上6個(gè)物種中的系統(tǒng)發(fā)育關(guān)系.根據(jù)重建的系統(tǒng)發(fā)育研究結(jié)果,就可以初步確定6個(gè)物種中所有真正參與木質(zhì)素單體合成途徑的bona fide成員,即10個(gè)基因家族成員在6個(gè)物種中各自的直系同源成員.序列分析中,序列比對(duì)采用BioEdit軟件[19],系統(tǒng)發(fā)育重建采用PhyML軟件[20].
1.2 選擇分析 最大似然法檢測(cè)基因所受的自然選擇壓力,使用PAML中的 codeml模塊分析軟件[21].本研究分別對(duì)以上10個(gè)基因矩陣進(jìn)行位點(diǎn)模型分析和枝模型(Free ratio branch model)分析.位點(diǎn)模型假定不同位點(diǎn)可以受到不同的選擇壓力,而系統(tǒng)樹(shù)上所有的枝則受到相同的選擇壓力,主要參數(shù)設(shè)置為Model=0;NSsites=0、1、2、3、7、8.模型M0/M3、M1a/M2a和M7/M8利用LRT進(jìn)行兩兩比較,再通過(guò)卡方檢驗(yàn)比較不同模型之間是否有顯著差異[22].枝模型假定系統(tǒng)樹(shù)上不同枝可以受到不同的選擇壓力,而所有位點(diǎn)受到相同的選擇壓力,主要參數(shù)設(shè)置為Model=1;NSites=0[23].
2.1 基因拷貝數(shù)目及序列特征 在本研究所涉及的6個(gè)物種中,10個(gè)基因家族的基因拷貝數(shù)目變異情況見(jiàn)表1,其中PAL和4CL的拷貝數(shù)目最多,為3~6個(gè).基因成員數(shù)目最多的物種是Brassica rapa,為2~6個(gè),這可能與該物種近期發(fā)生過(guò)全基因組的3倍化有關(guān)[24].另外,除個(gè)別基因在個(gè)別物種中有3個(gè)成員外,剩下8個(gè)基因(除了 PAL和4CL外)在其他5個(gè)物種(除Brassica rapa外)中的成員數(shù)目基本為1~2個(gè).兩條序列間的變異程度可以用系統(tǒng)發(fā)育樹(shù)中的枝長(zhǎng)來(lái)度量,枝長(zhǎng)代表了每一個(gè)密碼子的核苷酸替代數(shù)目.所有的枝長(zhǎng)之和就是樹(shù)長(zhǎng),可以用它來(lái)衡量一個(gè)序列矩陣的整體變異程度[25-26].本研究所涉及的 10個(gè)基因矩陣,除CCoAOMT外(樹(shù)長(zhǎng)為0.56),其余9個(gè)基因矩陣的樹(shù)長(zhǎng)都在2~10的范圍內(nèi)(表2).
2.2 選擇檢驗(yàn)結(jié)果 位點(diǎn)模型的檢驗(yàn)結(jié)果顯示所有基因在M0模型(所有位點(diǎn)以及所有枝都受到相同的選擇壓力)下的ω值變異范圍是0.02~0.15 (表2).通過(guò)對(duì)不同模型的似然值ln L進(jìn)行卡方檢驗(yàn),結(jié)果為:1)M0與M3差異顯著,表明不同位點(diǎn)受到的選擇壓力是有差異的;2)M1a(中性選擇模型)與M2a(正選擇模型)差異不顯著,表明M2a模型未能檢測(cè)到正選擇位點(diǎn);3)M7/M8是M1a/M2a的改良模型,相對(duì)于M2a,M8更容易檢測(cè)到正選擇位點(diǎn),其中在5個(gè)基因(C4H,C3H,F(xiàn)5H,COMT,CAD)中,這2個(gè)模型差異顯著.有關(guān)正選擇位點(diǎn)的貝葉斯分析中,僅2個(gè)基因(C3H和CAD)有唯一正選擇位點(diǎn),其貝葉斯后驗(yàn)概率(P)大于0.95(表2).枝模型檢驗(yàn)的結(jié)果顯示,除COMT的基因樹(shù)上有1個(gè)枝的ω值大于1外,其余所有基因樹(shù)上的所有枝的ω值都小于1(表2).
表1 不同物種中的基因拷貝數(shù)目Table 1 Gene copy numbers in different species
表2 選擇檢驗(yàn)結(jié)果Table 2 Results of selection test
在用PAML進(jìn)行選擇檢驗(yàn)時(shí),序列矩陣的變異程度(可以用樹(shù)長(zhǎng)來(lái)度量)對(duì)于檢驗(yàn)結(jié)果的可靠性有重要影響.一般說(shuō)來(lái),中等變異程度的序列矩陣(1<樹(shù)長(zhǎng)<10)所得結(jié)果最為可靠.若序列間相似性太高(樹(shù)長(zhǎng)<1),很難檢測(cè)到正選擇位點(diǎn);反之,若序列變異太大(樹(shù)長(zhǎng)>10),則所檢測(cè)到的正選擇位點(diǎn)屬于假陽(yáng)性的可能性增加[25-26].在本研究中,除CCoAOMT矩陣的樹(shù)長(zhǎng)為0.56外,其余9個(gè)基因家族矩陣的樹(shù)長(zhǎng)都在2~10的范圍內(nèi)(表2).此外,當(dāng)單獨(dú)增加CCoAOMT的物種取樣,使樹(shù)長(zhǎng)增加到6.7,選擇檢驗(yàn)分析的結(jié)果仍無(wú)顯著變化(結(jié)果未顯示).這表明本研究所涉及的基因家族矩陣都屬于中等變異程度,因此選擇檢驗(yàn)結(jié)果的可靠性較高.
此外,能否準(zhǔn)確鑒定矩陣中成員間的同源關(guān)系類型,即它們彼此屬于直系還是旁系同源,這也會(huì)對(duì)檢驗(yàn)結(jié)果的可靠性產(chǎn)生重要影響.本研究挑選十字花目的6個(gè)物種為研究對(duì)象,可以確保準(zhǔn)確鑒定基因間是否屬于直系同源.首先,該研究所挑選的6個(gè)物種都具有全基因組序列,這確保了在搜索基因家族成員時(shí)不會(huì)漏掉相關(guān)成員信息.其次,參與木質(zhì)單體合成途徑的所有基因在擬南芥中都做了詳盡的功能研究,因此容易確定參與木質(zhì)素合成途徑的成員.在本研究中,以擬南芥所有木質(zhì)單體基因?yàn)槟0?,通過(guò)同源搜索獲得了其他5個(gè)物種中同源序列.再對(duì)每一個(gè)基因家族進(jìn)行系統(tǒng)發(fā)育重建,根據(jù)系統(tǒng)發(fā)育關(guān)系的結(jié)果,就可以比較準(zhǔn)確地判斷哪些成員是擬南芥中成員的直系同源基因.這樣就獲得了其他5個(gè)物種中可能參與木質(zhì)素合成途徑的成員信息.因此,在本研究所涉及的10個(gè)基因矩陣中,來(lái)源于6個(gè)物種的成員應(yīng)該都屬于直系同源成員.以上合理的取樣和理想的代謝途徑這2個(gè)研究前提為隨后探討該代謝途徑中基因的選擇壓力與位置之間的關(guān)系這一科學(xué)問(wèn)題提供了保障.
從理論上看,對(duì)于代謝途徑或者調(diào)控網(wǎng)絡(luò)的最終產(chǎn)物而言,有人推測(cè)位于上游或中心位置的基因?qū)?huì)比下游或邊緣位置的基因產(chǎn)生更重要的影響,因此前者應(yīng)該受到更強(qiáng)烈的自然選擇作用[3].有一些具體的研究結(jié)果支持這一理論[3-6].然而,當(dāng)人們對(duì)更多的代謝途徑或者調(diào)控網(wǎng)絡(luò)進(jìn)行研究后,卻發(fā)現(xiàn)在某些調(diào)控網(wǎng)絡(luò)中,基因所受到的選擇壓力與基因在調(diào)控網(wǎng)絡(luò)中的位置無(wú)關(guān),而可能與基因本身所行使的功能相關(guān)[7].本研究的選擇分析結(jié)果表明,參與木質(zhì)素單體合成途徑的10個(gè)基因中,除了2個(gè)位點(diǎn)檢測(cè)到正選擇外,其余所有位點(diǎn)主要受到強(qiáng)烈的凈化選擇的作用(ω值變異范圍是0.02~0.15)(表2).而除COMT的基因樹(shù)上有1個(gè)枝的ω值大于1外,其余所有基因樹(shù)上的所有枝的ω值都小于1(表2),表明這些枝也都受到了凈化選擇作用.此外,基因所受到的凈化選擇強(qiáng)度與基因在代謝途徑中所處的位置無(wú)相關(guān)性.比如,位于代謝途徑第一位的PAL基因和位于分支位點(diǎn)的4CL基因的ω值并沒(méi)有小于其他基因(圖1和表2),表明PAL和4CL所受到的選擇壓力并沒(méi)有比其它基因更大.此外,基因所受到的選擇壓力與基因家族拷貝數(shù)目之間也無(wú)顯著相關(guān)性,比如PAL和4CL擁有最多的基因拷貝數(shù)目,但并沒(méi)有表現(xiàn)出受到強(qiáng)烈或者更松弛的選擇壓力(表1和2).也許,不同的代謝途徑或者調(diào)控網(wǎng)絡(luò)可能具有不同的進(jìn)化模式,這也是生物多樣性的體現(xiàn).要解決這一爭(zhēng)論,需要對(duì)更多的代謝途徑或調(diào)控網(wǎng)絡(luò)進(jìn)行詳盡的分子進(jìn)化研究.在本研究中,取樣是合理的(一個(gè)目?jī)?nèi)不同物種,并且都具有全基因組序列),分析方法是可靠的(序列變異適中),所挑選的代謝途徑是理想的(參與木質(zhì)單體合成途徑的基因都已被清晰鑒定),因此研究結(jié)果具有很高的可信度.而以前的研究很難同時(shí)滿足以上3個(gè)條件.
致謝 川北醫(yī)學(xué)院科研發(fā)展計(jì)劃項(xiàng)目(CBY13-A-ZP04和CBY15-A-YB27)對(duì)本文給予了資助,謹(jǐn)致謝意.
[1]YANG Z H,NIELSEN R,GOLDMAN N,et al.Codon-substitution models for heterogeneous selection pressure at amino acid sites[J].Genetics,2000,155(1):431-449.
[2]MIYATA T,YASUNAGA T.Molecular evolution of messenger RNA:a method for estimating evolutionary rates of synonymous and amino acid substitutions from homologous nucleotide sequences and its application[J].J Molecular Evolution,1980,16(1):23-36.
[3]OLSON-MANNING C F,WAGNER M R,MITCHELL-OLDS T.Adaptive evolution:evaluating empirical support for theoretical predictions[J].Nature Reviews Genetics,2012,13(12):867-877.
[4]MONTANUCCI L,LAAYOUNI H,DALL’OLIO G M,et al.Molecular evolution and network-level analysis of the n-glycosylation metabolic pathway across primates[J].Molecular Biology and Evolution,2011,28(1):813-823.
[5]RAMSAY H,RIESEBERG L H,RITLAND K.The correlation of evolutionary rate with pathway position in plant terpenoid biosynthesis[J].Molecular Biology and Evolution,2009,26(5):1045-1053.
[6]YANG Y H,ZHANG F M,GE S.Evolutionary rate patterns of the Gibberellin pathway genes[J].BMC Evolutionary Biology,2009,9(1):1-11.
[7]DAVILA-VELDERRAIN J,SERVIN-MARQUEZ A,ALVAREZ-BUYLLA E R.Molecular evolution constraints in the floral organ specification gene regulatory network module across 18 angiosperm genomes[J].Molecular Biology and Evolution,2014,31(3):560-573.
[8]VANHOLME R,MORREEL K,DARRAH C,et al.Metabolic engineering of novel lignin in biomass crops[J].New Phytologist,2012,196(4):978-1000.
[9]BOERJAN W,RALPH J,BAUCHER M.Lignin biosynthesis[J].Annual Review of Plant Biology,2003,54:519-546.
[10]TOHGE T,WATANABE M,HOEFGEN R,et al.The evolution of phenylpropanoid metabolism in the green lineage[J].Crit Rev Biochem Mol Biol,2013,48(2):123-152.
[11]RAES J,ROHDE A,CHRISTENSEN J H,et al.Genome-wide characterization of the lignification toolbox in Arabidopsis[J].Plant Physiology,2003,133:1051-1071.
[12]VANHOLME R,STORME V,VANHOLME B,et al.A systems biology view of responses to lignin biosynthesis perturbations in Arabidopsis[J].Plant Cell,2012,24(9):3506-3529.
[13]HAMBERGER B,ELLIS M,F(xiàn)RIEDMANN M,et al.Genome-wide analyses of phenylpropanoid-related genes in Populus trichocarpa,Arabidopsis thaliana,and Oryza sativa:the Populus lignin toolbox and conservation and diversification of angiosperm gene families[J].Canadian Journal of Botany,2007,85(12):1182-1201.
[14]HUANG J L,GU M,LAI Z B,et al.Functional analysis of the Arabidopsis PAL gene family in plant growth,development,and response to environmental stress[J].Plant Physiology,2010,153(4):1526-1538.
[15]ZHOU R,JACKSON L,SHADLE G,et al.Distinct cinnamoyl CoA reductases involved in parallel routes to lignin in Medicago truncatula[J].Proceedings of the National Academy of Sciences,2010,107(41):17803-17808.
[16]GUO D J,CHEN F,INOUE K,et al.Downregulation of caffeic acid 3-O-methyltransferase and caffeoyl CoA 3-O-methyltransferase in transgenic alfalfa:impacts on lignin structure and implications for the biosynthesis of G and S lignin[J].Plant Cell,2001,13(1):73-88.
[17]CHEN H C,SONG J,WILLIAMS C M,et al.Monolignol pathway 4-coumaric acid:coenzyme a ligases in populus trichocarpa:novel specificity,metabolic regulation,and simulation of coenzyme a ligation fluxes[J].Plant Physiology,2013,161(3): 1501-1516.
[18]WU Z H,GUI S T,WANG S Z,et al.Molecular evolution and functional characterisation of an ancient phenylalanine ammonia-lyase gene(NnPAL1)from Nelumbo nucifera:novel insight into the evolution of the PAL family in angiosperms[J].BMC Evolutionary Biology,2013,14(1):13680-13690.
[19]HALL T.BioEdit:a user-friendly biological sequence alignment editor and analysis program for Windows 95/98/NT[J].Nucleic Acids Symposium Series,1999,41:95-98.
[20]GUINDON S,GASCUEL O.A simple,fast,and accurate algorithm to estimate large phylogenies by maximum likelihood[J].Systematic Biology,2003,52(5):696-704.
[21]YANG Z H.PAML 4:phylogenetic analysis by maximum likelihood[J].Molecular Biology and Evolution,2007,24(8):1586-1591.
[22]YANG Z H.Likelihood ratio tests for detecting positive selection and application to primate lysozyme evolution[J].Molecular Biology and Evolution,1998,15(5):568-573.
[23]YANG Z H.Inference of selection from multiple species alignments[J].Current Opinion in Genetics&Development,2002,12(6):688-694.
[24]WANG X,WANG H,WANG J,et al.The genome of the mesopolyploid crop species Brassica rapa[J].Nature Genetics,2011,43(10):1035-1157.
[25]ANISIMOVA M,BIELAWSKI J P,YANG Z H.Accuracy and power of the likelihood ratio test in detecting adaptive molecular evolution[J].Molecular Biology and Evolution,2001,18(8):1585-1592.
[26]ANISIMOVA M,BIELAWSKI J P,YANG Z H.Accuracy and power of Bayes prediction of amino acid sites under positive selection[J].Molecular Biology and Evolution,2002,19(6):950-958.
Molecular Evolution of Genes Involved in the Monolignol Biosynthesis Pathway
TANG Zhen,GUO Dongmei
(Department of Biochemistry,North Sichuan Medical College,Nanchong 637000,Sichuan)
In recent years,it is hotly debated whether there is a significant correlation between the strength of purifying selection and gene placement in its biochemical or regulatory network.In this study,all monolignol biosynthetic genes spanning ten families were recovered from 6 species with whole genome sequenced of Brassicales plants,and studies of molecular evolution of these genes were also conducted.Except PAL and 4CL have 3~6 copies in each species,gene copy number of the rest eight gene families is mainly 1~2.Results of selection test using PAML indicate that most sites of these genes are highly conserved and under purifying selection.However,there is no correlation between the strength of purifying selection and gene placement.
monolignol biosynthesis pathway;gene family;molecular evolution;purifying selection
Q3-3
A
1001-8395(2016)05-0760-05
10.3969/j.issn.1001-8395.2016.05.025
(編輯 周 俊)
2015-09-20
四川省教育廳自然科學(xué)重點(diǎn)基金(15ZA0213)和四川省科技廳應(yīng)用基礎(chǔ)研究項(xiàng)目(2013JY0072)
*通信作者簡(jiǎn)介:郭冬梅(1983—),女,講師,主要從事基因家族進(jìn)化的研究,E-mail:dongmeiguo@nsmc.edu.cn