馬雪蓮,王振怡,聶林曼,汪厚龍,張 瓊,王金朋
(河北聯(lián)合大學生命科學學院,河北唐山063009)
禾本科物種有著重要的經濟和科學研究價值[1-3]。首先,它們是人類最主要的食物來源,如水稻(Oryza sativa)、玉米(Zeamays)和高粱(Sorghum bicolor)等為世界上大多數(shù)人提供主食;其次禾本科物種在進化上是成功的,在約五千到六千萬年間,分化形成了700多個屬,包含10000多個物種覆蓋了地球20%的陸地面積。禾本科研究的主要動力無疑是其經濟價值,而多個禾本科物種的全基因測序完成和即將完成為禾本科物種功能和進化的研究不斷注入新動力[4-5]。
目前國內外關于禾本科植物全基因組加倍有了初步的研究和探索,有研究表明禾本科物種的共同的祖先物種在七千萬年前發(fā)生了一次全基因組的加倍(Whole gene duplication)[3,6-7],全基因組加倍之后物種基因組中產生大量重復基因,為物種基因組的遺傳創(chuàng)新提供了豐富的材料來源。遺傳創(chuàng)新的一種重要機制就是同源DNA片段的遺傳重組(Genetic recombination),不僅可以對遺傳過程中的DNA序列的有害變異進行修復,而且可以進行同源序列間信息傳遞[8-9],即同源重組。相對于同源重組非同源染色體對間的重組稱為非正常遺傳重組(illegitimate recombination)[10]。多倍化之后物種基因組極為不穩(wěn)定,出現(xiàn)DNA丟失,倒位和染色體重排[3,11]?;蚪M重排的結果就是有新的同源染色體對(Neo-h(huán)omologous chromosomes)產生[10],這一新同源染色體對相對于基因組重排之前并非同源染色體對,而是全基因組加倍之后產生,那么基因組的這一重排機制在一定程度上可以抑制染色體重組,然而這一同源染色體對在物種基因組中是否獨立進化并保持下來,是一個十分值得探索的問題。
最近,禾本科植物水稻、高粱、玉米、谷子(Setaria italica)和二葉短柄草(Brachypodium distachyon)的全基因組測序率先完成[5,12-16],為比較基因組學研究提供了良好的數(shù)據材料。本文以五個禾本科物種全基因組序列為研究對象,對其基因組進行同源性和染色體結構的比較分析,確定物種基因組內由全基因組加倍產生的重復基因片段,并建立基因組間染色體片段的同源信息,通過種內和種間重復基因比較推斷七千萬年來同源染色體對趨同進化的規(guī)律,揭示物種分化演化的可能驅動力,加深DNA重排和非正常遺傳重組對基因組結構進化影響的認識。
研究所需的5個禾本科植物水稻、高粱、玉米、谷子和二葉短柄草的全基因組序列從公共數(shù)據庫上下載得到:植物全基因組加倍數(shù)據庫http://chibba.agtec.uga.edu/和植物基因組數(shù)據庫http://www.jgi.doe.gov/。下載獲得每個物種的DNA序列,蛋白質序列以及基因組的注釋信息。
利用序列同源搜索工具Blastp分別對谷子和谷子,玉米和玉米,谷子和玉米的蛋白序列進行比對分析,確定基因間的同源性(E-value<1e-5);根據獲得的基因同源性以及基因在染色體上的物理位置畫二維平面圖,圖中每個點表示一同源基因對,要求基因對匹配的打分值大于100,對于每個基因去掉保留前5個匹配基因對,最好匹配點為紅色,次好匹配為藍色,其它為灰色。
首先,利用多重序列比對工具McScan[17]尋找基因組內和基因組間同源共線DNA片段;然后,利用加入統(tǒng)計估計的共線性分析工具ColinearScan[18],對獲得的基因組共線區(qū)域進行統(tǒng)計估計其顯著性,將顯著性大于1e-10的區(qū)域去掉,確定基因組內重復基因和基因組間的同源共線信息;最后,根據上述同源性信息以及基因組結構分析獲得物種多重序列比對結果。
同源基因對間的分子進化距離,用核苷酸置換率Ks進行度量,利用物種進化分析軟件PAML[23]中的包含的Nei-Gojobori方法計算[24]。
比對分析物種基因組獲得的基因組內的同源信息,根據得到的基因同源信息,染色體的長度以及基因在染色體上的物理位置,對每個物種以及兩物種之間的基因組結構進行分析,以水稻和玉米為例展示研究結果,結果是以基因結構點陣圖的形式給出(如圖1)。
圖1 圖為水稻和玉米基因結構點陣圖
圖1圖為水稻和玉米基因結構點陣圖(Blastp比對基因組蛋白序列):二維平面中的橫軸從左向右依次分別排列的是水稻的12條,玉米10條染色體,縱軸從上到下依次排列,圖中每個點表示的是一對同源基因(基于氨基酸序列相似性獲得),最好匹配的點為紅色,次好匹配為藍色,其它為灰色。在圖中能夠觀察到一系列由連續(xù)的點構成的線,這些線上的基因對是由基因倍增產生的大量重復基因。
圖中可以看到每個物種基因組中有大量的共線性同源基因片段存在,并且相對于水稻基因組玉米中有更多的共線性片段。在水稻基因組中一些共線性基因片段分別存在于Os01-Os05,Os02-Os04,Os02- Os06,Os03-Os07,Os08-Os09,Os11-Os12;在玉米基因組中Zm01-Zm05,Zm01-Zm09,Zm02-Zm07,Zm02-Zm10,Zm03-Zm08,Zm04-Zm05,Zm06-Zm08,Zm06-Zm09。
上述共線區(qū)域分別存在兩物種基因組中的重復基因,這些重復基因由全基因組加倍產生,但在物種進化過程中保留了較好的共線性片段。如水稻的1和5號染色體是由它們共同祖先物種的同一染色體加倍而來,從染色體上基因間的同源性可以判斷這兩條染色體序列幾乎一致,但仍有一些基因序列并非同源基因,這可能是由于物種基因組加倍之后,重復基因進化導致基因序列間的差異變大的結果;相對于谷子基因組玉米有更多的同源染色體片段,且染色體片段較短,在點圖中呈現(xiàn)藍色的線,與紅色的線相比相似性差一些,這些重復基因是由和谷子共同加倍產生[3],但在后來的進化過程中基因序列變異導致相似性降低,并且伴隨大量的基因丟失[11],較長的由紅色點構成的染色體片段是由較近的基因加倍產生[19]。這里以水稻和玉米展示了其基因組同源結構,相應的規(guī)律同樣存在于高粱、谷子以及二葉短柄草。
圖2 水稻和玉米之間基因結構點陣圖
種間基因組比較,實現(xiàn)同源染色體片段分組,確定物種間真正直系同源基因。這一過程分析了谷子和玉米物種間基因組點陣圖,并結合同源基因相似性,理清不同進化事件產生的同源片段,并把不同的同源組分組。在圖中可以發(fā)現(xiàn)水稻每條染色體都會對應兩條比較好的染色體片段,如玉米的1號染色體對應最好的玉米的兩條染色體分別是3和8號染色體,它們之間的同源染色體片段在圖中形成了兩條紅色的線,而谷子的5號和1號染色體是一對旁系同源基因對,并且這一規(guī)律在其它染色體上也都存在,這一結果表明玉米在其進化過程中不僅與水稻共同發(fā)生過一次古老的全基因組加倍,在之后發(fā)生過再次的全基因組加倍[19]。同源基因對在圖中形成的紅色的線表示兩物種之間真正的直系同源基因片段,如水稻1號和玉米的3號染色體上有3個直系同源染色體片段;但同一染色體區(qū)域上的藍色線是由種外的旁系同源基因構成,如水稻的1號和玉米的6號染色體之間的同源染色體片段。通過上述分析水稻與其它4個禾本科物種,可獲得水稻與其它每個物種間的基因同源關系。
圖2.點陣圖展示了基因組間的序列比對信息。紅色的線是Blast比對兩物種基因組序列獲得的最好匹配的基因對,表示物種間直系同源染色體片段;藍色是次好匹配構成的線,表示種間旁系同源染色體片段。
基于前面基因同源信息,以及基因組結構分析,這里獲得了所有物種內以及物種間的同源染色體片段。如高粱基因組內同源染色體片段(如圖1a):Sb01-Sb01,Sb01-Sb02,Sb01-Sb08;Sb02-Sb07;Sb03-Sb09;Sb04-Sb06,Sb04-Sb10;Sb05-Sb08;Sb06-Sb07(注:Sb表示高粱,如Sb01表示高粱1號染色體);玉米染色體內同源染色體片段(如圖1b):Zm01-Zm05,Zm01-Zm07,Zm01-Zm09;Zm02-Zm04,Zm02-Zm05,Zm02-Zm07,Zm02-Zm,10;Zm03-Zm06,Zm03-Zm08,Zm03-Zm10;Zm04-Zm05,Zm04-Zm09,Zm04-Zm,10;Zm05-Zm06,Zm05-Zm09,Zm05-Zm10;Zm06-Zm08,Zm06-Zm09;高粱和玉米之間同源染色體片段(如圖2):
Sb01-Zm01,Sb01-Zm05,Sb01-Zm09;Sb02-Zm02,Sb02-Zm07;Sb03-Zm03,Sb03-Zm08;Sb04-Zm04,Sb04-Zm05;Sb05-Zm02,Sb05-Zm04,Sb06-Zm02,Sb06-Zm10;Sb07-Zm01,Sb07-Zm04,Sb07-Zm10;Sb08-Zm01,Sb08-Zm03,Sb08-Zm10;Sb09-Zm06,Sb09-Zm08;Sb10-Zm05,Sb10-Zm06,Sb10-Zm09。
水稻11和12號染色體是由全基因組加倍產生的一對部分同源染色體對,該染色體對上保留了大量的重復基因,遺傳過程中這一基因對獨立保留下來同時進行著相互作用[10]。根據上述染色體結構分析以及物種染色體片段間的同源關系,這里確定了物種部分同源染色體對,如水稻11號12染色體與其它物種之間的同源染色體對,水稻和高粱:Os11-Sb05;Os12-Sb08;水稻和玉米:Os11-Zm02;Os12-Zm01,Os12-Zm10;水稻和谷子:Os11-Si08;Os12-Si03,Os12-Si09;水稻和二葉短柄草:Os11-Bd04(11號對4號中間部分); Os12-Bd04(12號對4號上下部分)。
基于基因同源共線性分析獲得了每個禾本科物種基因組中含有全基因組加倍產生的重復基因的對數(shù)超過2700對,占物種全基因組的15%以上,且重復基因常常是分布在靠近染色體末端的位置(如圖3)谷子中的重復基因。在谷子基因組內共有402個共線性區(qū)域,包含3846對旁系同源基因對,其中最長的區(qū)域存在與3號與5號染色體之間,有279對旁系同源基因對,長度大于10對旁系同源基因對的區(qū)域有60個,大于50對的區(qū)域有8個;谷子全基因組有約40000個基因,其中重復基因占全部基因的19.2%。
圖4 (b)水稻11和12號染色體同源染色體進化模式
圖4 (a)谷子中的重復基因
圖4.水稻11和12號染色體與高粱5號和8號,谷子7號,8號和3號染色體之間的同源模式及進化模式以及他們的共同祖先:染色體片段(RSA-RSC,SSA-SSB和CSA-CSC),RS表示水稻-高粱分化之后,水稻11號和12號上的染色體片段,SS表示高粱5號和8號上的染色體片段;CS表示在兩物種分化之前水稻-高粱共同的染色體片段。水稻12號和高粱8號染色體上的特有片段用ADD表示。染色體上紅色的曲線表示每條染色體上基因的密度,S和L分別表示染色體短臂、長臂,圈中曲線連接的是重復基因對,基因對之間曲線的顏色根據分子距離漸變。
為了推斷同源染色體對間趨同進化,這里計算了物種同源染色體對上重復基因的分子距離,并且進行了多次的統(tǒng)計實驗分析,研究的結果(如圖4),分析發(fā)現(xiàn)水稻的11號和12號染色體是一對同源染色體對,對應高粱的5號和8號染色體,以及谷子的3號,7號和8號染色體,圈中不同顏色的曲線代表了重復基因對的分子距離的不同,觀察可以發(fā)現(xiàn)靠近染色體短臂的重復基因對間的分子距離特別小,這表明在基因組進化過程中這些基因對可能發(fā)生了基因置換,也即同源的染色體對間存在趨同進化;另外可以看到自染色體短臂到染色體長臂,重復基因對之間的距離有漸變的過程,這表明同源染色體對間的趨同進化可能受重排抑制,并呈階段的發(fā)生。值得注意的是在谷子基因組進化過程中其3號和7號染色體有共同的祖先染色體,它們在進化過程中發(fā)生過染色體斷裂事件,并且這一祖先染色體序列的一個片段與3號染色體融合,另一片段與7號染色體融合為兩條新的染色體序列;從圖中水稻-高粱的同源染色體對上可以看到在靠近著絲粒區(qū)幾乎不存在重復基因。
禾本科物種自七千萬年前的多倍化后,基因組結構的復雜性增加,為揭示非正常遺傳重組對基因結構的影響,本文對五個禾本科物種的全基因組進行了比較分析。統(tǒng)計推斷了物種基因組內由全基因組加倍產生的重復基因片段,并確定了種內和種間的同源染色體片段;基于基因序列相似性比較,發(fā)現(xiàn)同源染色體對上越靠近染色體末端的重復基因間的分子距離越,這可能是重復基因間的非正常遺傳重組導致同源染色體對間的DNA序列變得更為相似的原因。然而關于非正常遺傳重組發(fā)生的模式,以及如何影響物種基因組進化,有待于進一步深入研究。
[1] Kellogg,E.A.Relationships of cereal crops and other grasses.Proceedings of the National Academy of Sciences of the United States of America,95 (5):2005-2010,1998.
[2] Gaut,B.S.Evolutionary dynamics of grass genomes.New Phytologist,154:15-28,2002.
[3] Paterson,A.H.,Bowers,J.E.,and Chapman,B.A.Ancient polyploidization predating divergence of the cereals,and its consequences for comparative genomics.Proc Natl Acad Sci USA,101(26):9903-9908,2004.
[4] Yu,J.Wang,J.Lin,W.Li,S.G.Li,H.Zhou,J.Ni,P.X.Dong,W.Hu.S.N.Zeng,C.Q.et al.The Genomes of Oryza sativa:A history of duplications.PLOSbiology,3(2):266-281,2005.
[5] Paterson,A.H.,Bowers,J.E.,Bruggmann,R.,Dubchak,I.,Grimwood,J.,Gundlach,H.,Haberer,G,Hellsten,U.,Mitros,T.,Poliakov,A.etal.The Sorghum bicolor genome and the diversification of grasses.Nature,457(7229):551-556,2009a.
[6] Kellogg,E.A.Relationships of cereal crops and other grasses.Proceedings of the National Academy of Sciences of the United States of America,95 (5):2005-2010,1998.
[7] Gaut,B.S.Evolutionary dynamics of grass genomes.New Phytologist154:15-28,2002.
[8] Puchta H.,Dujon B.,and Hohn B.,etal.Two differentbut relatedmechanisms are used in plants for the repair ofgenomic double-strand breaks by homologous recombination[C].Proc.Natl.Acad.Sci.93:5055-5060,1996.
[9] Khakhlova O.,and Bock R..Elimination of deleteriousmutations in plastid genomes by gene conversion[J].Plant J.,46:85-94,2006.
[10] Wang X.,Tang H.,et al.Comparative inference of illegitimate recombination between rice and sorghum duplicated genes produced by polyploidization[J].Genome Res,19(6):1026-32,2009.
[11] Wang,X.,X.Shi,et al.Duplication and DNA segmental loss in the rice genome:implications for diploidization[J].New Phytol,165(3):937-46,2005.
[12] International Rice Genome Sequence Project.Themap-based sequence of the rice.Nature,Vol.436,doi:10.1038,793-800,2005.
[13] The International Brachypodium Initiative.Genome sequence and analysis of themodel grass Brachypodium distachyon.Nature,vol.463,doi:10.1038,763-768,2010.
[14] Zhang G.Y.,Liu X.,Wang J.,etal.Genome sequenceof foxtailmillet(Setaria italica)provides insights intograssevolution and biofuel potential[J].Nature Biotechnology,vol.30,no.6,pp.549-556,2012.
[15] Bennetzen J.L.,Schmutz J.,Devos K.M.,et al.Reference genome sequence of themodel plant Setaria[J].Nature Biotechnology,vol.30,no.6,pp.555-561,2012.
[16] Schnable P.S.et al.The B73 maize genome:complexity,diverisity and dynamics[J].Science,326,pp.1112-1115,2009.
[17] Tang H.,Wang X.,Bowers J.E.,et al.Unraveling ancient hexaploidy through multiply-aligned angiosperm gene maps[J].Genome Res,18: 1944-1954,2008.
[18] Wang X.,Shi X.L.,Li Z.,etal.Statistical inference of chromosomal homology based on gene colinearity and applications to Arabidopsis and rice[J].BMC Bioinformatics,7:447,2006.
[19] J.C.Schnable,N.M.Springer,M.Freeling.“Differentiation of the maize subgenomes by genome dominance and both ancient and ongoing gene loss”.PNAS,vol.108,no.10,pp.4069-4074,2011.