胡福博,王希胤
(1.華北理工大學(xué),河北 唐山 063210; 2.華北理工大學(xué)基因組學(xué)與計算生物學(xué)研究中心,河北 唐山 063210)
姜科(Zingiberaceae)是單子葉植物姜目(Zingiberales)的一個重要分支,在生產(chǎn)生活中占據(jù)重要地位。其下屬植物具有重要的經(jīng)濟價值及藥用價值,如姜(Zingiberofficinale)、草果(Amomumtsao-ko)及砂仁(Wurfbainiavillosa),作為中藥應(yīng)用了幾千年[1]。多倍化是物種進化與分歧的重要推動力[2]。研究表明,單子葉植物在進化過程中均經(jīng)歷了全基因組加倍(WGD,whole genome duplication),包括姜科在內(nèi)的大部分單子葉植物共同擁有一次全基因加倍事件,即τWGD[3-5]。全基因組加倍導(dǎo)致的基因丟失、易位等現(xiàn)象對基因組結(jié)構(gòu)及復(fù)雜性造成了重大影響[5-7]。
研究表明,姜在進化過程中從單子葉植物祖先到現(xiàn)在共經(jīng)歷了3次全基因組加倍事件,草果基因組在近期沒有經(jīng)歷過全基因組加倍事件,砂仁基因組的研究表明,砂仁和姜的共同祖先可能經(jīng)歷了1次全基因組加倍事件。但現(xiàn)有研究對姜科植物古多倍化的認(rèn)識還很模糊。隨著單子葉植物基部物種的測序完成,為姜科植物在進化過程中經(jīng)歷的更古老加倍事件的研究提供了條件。
對菖蒲(Acorustatarinowii)基因組的研究表明,它只經(jīng)歷過1次全基因組加倍事件[8]。椰子(Cocosnucifera)在進化過程中除與姜科祖先物種共享了古老的τWGD以外,只單獨經(jīng)歷了1次全基因組加倍事件,兩者基因組相對保守。[4]這有助于進一步了解姜科植物基因組結(jié)構(gòu)的復(fù)雜性。
姜基因組數(shù)據(jù)下載自公共數(shù)據(jù)庫Genebank (Index of /genomes/genbank/plant/Zingiber_officinale/latest_assembly_versions (nih.gov)/GCA_018446385.1_Zo_v1.1/)。草果基因組數(shù)據(jù)來自國家基因庫生命大數(shù)據(jù)平臺CNGBdb(https://db.cngb.org/search/project/CNP0003772/)。砂仁基因組數(shù)據(jù)來自公共數(shù)據(jù)庫Refseq(https://ftp.ncbi.nlm.nih.gov/genomes/refseq/plant/Elaeis_guineensis/all_assembly_versions/GCF_000442705.1_EG5/。菖蒲基因組數(shù)據(jù)來自中國國家基因庫(https://ftp.cngb.org/pub/CNSA/data4/CNP0001708/CNS0456199/CNA0036157/)。編寫python 腳本,將下載得到的原始數(shù)據(jù)進行數(shù)據(jù)預(yù)處理得到所需的注釋文件(gff)、染色體長度文件(lens)、蛋白序列文件(pep)及蛋白編碼序列文件(cds)。
使用蛋白序列比對工具BLAST+[9],對研究物種蛋白序列(pep)文件進行種內(nèi)及種間同源基因搜索(E-value<1e-5,score >100)。使用orthofinder 提取待研究物種的單拷貝基因,構(gòu)建系發(fā)育物種樹(見圖1)。根據(jù)blast得到的結(jié)果,運行生信分析流程軟件WGDI的“-d”模塊,繪制基因組內(nèi)及基因組間的同源基因點陣圖[10],運用共線性分析軟件ColinearScan,提取所研究物種基因組內(nèi)及基因組之間的共線性基因?qū)?共線性片段的基因?qū)?=5個)[11]。
Ata代表菖蒲,Zof代表姜,Ats代表草果,Wvi代表砂仁,Cnu代表椰子圖1 待研究植物系統(tǒng)發(fā)育樹Fig.1 Plant phylogenetic tree to be studied
為了區(qū)分不同全基因組加倍事件產(chǎn)生的共線基因,計算了待研究物種間同源性基因?qū)Φ暮塑账嵬x替代(Ks),以估計共線基因之間的分歧水平。利用clustalW將基因?qū)Φ木幋a序列進行比對,調(diào)用PAML包的Nei-Gojobori的方法進行Ks分布計算[12]。利用WGDI對ks分布進行數(shù)學(xué)擬合,得到ks峰值。
編寫Python腳本,將利用軟件colinearscan提取的姜基因組與菖蒲同源的染色體片段投影到菖蒲染色體上,構(gòu)建一個展示姜基因組染色體同源區(qū)域深度的列表,結(jié)合上述處理得到的染色體長度(lens)文件并運行軟件WGDI的“-ci”模塊將列表可視化。
對共線性分析軟件colinearscan獲得的共線性片段進行分析,分別統(tǒng)計了菖蒲、姜、草果、砂仁的基因組內(nèi)及基因組間的共線性基因?qū)?shù)量5個以上的共線性片段的共線性基因數(shù)(見表1)。姜基因組內(nèi)共線性基因?qū)τ?1 185對,砂仁有6815對,草果有668對。菖蒲與姜基因組間的共線性基因?qū)τ?809對,與砂仁有3323對,與草果有668對。同理,椰子與姜基因組間的共線性基因?qū)τ?4 425對,與砂仁有10 189對,與草果有9935對。結(jié)果顯示,姜基因組進化過程中的同源共線性基因?qū)ΡA糇疃?砂仁次之,草果最少,故后續(xù)分析以姜作為主要研究對象,探究姜科基因組的復(fù)雜性。
表1 同源基因統(tǒng)計
同義核苷酸替換(ks)是蛋白質(zhì)編碼序列的核苷酸變異不引起氨基酸改變[13]。有研究利用椰子基因組內(nèi)共線性基因計算了ks分布并進行數(shù)字?jǐn)M合,發(fā)現(xiàn)有兩個明顯的峰,認(rèn)為ks峰值大的峰代表椰子經(jīng)歷的τWGD。提取了那部分共線性基因繪制了其ks柱狀圖,計算了姜、砂仁及菖蒲基因組內(nèi)與組間共線性基因的ks分布并繪制ks 柱狀圖(見圖2)。發(fā)現(xiàn)菖蒲和姜基因組間的共線性基因?qū)Φ膋s峰值為1.43,對應(yīng)菖蒲和姜發(fā)生分歧的時間。姜和砂仁基因組間共線性基因?qū)Φ膋s峰值為0.36,對應(yīng)姜和砂仁發(fā)生分歧的時間。椰子共線性基因?qū)Φ膋s峰值為0.99,對應(yīng)椰子經(jīng)歷τWGD的時間。姜基因組內(nèi)的同源共線性基因?qū)Φ膋s分布柱狀圖顯示在0.36~1.43有很多小峰,推測在與菖蒲分歧之后,姜科各物種在發(fā)生分歧之前可能經(jīng)歷了包括τWGD在內(nèi)至少4次全基因組加倍事件。
圖2 菖蒲、椰子、姜、砂仁共線性基因同義核苷酸替換Fig.2 Collinear gene synonym nucleotide substitution of calamus, coconut,Zingiberaceae and amomum kernel
在一定程度上,染色體同源區(qū)域深度可以大致反映物種進化過程中經(jīng)歷的全基因組加倍次數(shù)。將姜與菖蒲基因組同源性區(qū)域映射到菖蒲染色體并繪制圈圖(見圖3)。結(jié)果顯示,姜映射到菖蒲染色體上的同源區(qū)域深度最高達到13,由此推測,姜在進化過程中可能至少受到4次全基因組二倍乘事件的影響,越靠近外圈,姜的同源結(jié)構(gòu)空白占比越大,代表同源基因丟失越多,說明姜經(jīng)歷的全基因組加倍事件次數(shù)較多,受古老的加倍事件影響產(chǎn)生的重復(fù)基因隨物種進化而大量丟失。
外圈代表菖蒲映射的姜同源性基因圖3 菖蒲映射姜的染色體同源片段深度Fig.3 Chromosomal homologous fragment depth of acorus mapping Zingiberaceae
為探究姜科物種的基因組結(jié)構(gòu),繪制了菖蒲、椰子、姜等物種基因組間的同源基因點陣圖。物種間的同源點陣圖中的線性片段是由物種分化產(chǎn)生的同源基因片段。如姜與草果、砂仁的點圖中(見圖4),草果的2號染色體同源最好匹配姜的1號染色體,砂仁的2號染色體同源最好匹配姜的1號染色體,說明姜科祖先基因組在分化形成現(xiàn)存物種之后并沒有再經(jīng)歷全基因組加倍事件。
點圖中紅點表示同源性最好,藍點表示同源性次好,灰點表示同源性較差。圖4 姜與草果、砂仁基因組間的同源點陣圖Fig.4 Homologous dot map of the genome of Zingiberaceae, grass fruit and amomum kernel
菖蒲與姜的同源基因點圖呈現(xiàn)的點非常散亂,不過部分菖蒲染色體對應(yīng)的姜的同源片段數(shù)量顯示大于8條(見圖5)。椰子與姜的點圖顯示,椰子6號染色體對應(yīng)姜的同源片段數(shù)量達到15~22條,再次說明姜基因組在進化過程中經(jīng)歷的多倍化事件至少有4次,甚至可能更多。至于椰子對應(yīng)的姜的同源片段數(shù)量不同,可能是由于椰子受2次多倍化事件的影響,造成染色體基因的缺失。
圖5 姜與菖蒲、椰子基因組間局部同源基因點陣圖Fig.5 Local homologous gene dot map of Zingiberaceae, calamus and coconut genome
以菖蒲為外類群,對姜科下屬植物姜基因組進行比較研究,了解姜科經(jīng)歷的全基因組加倍事件可能多于3次,有可能是4次也可能更多,且姜科下屬植物草果在進化過程中受多次加倍事件產(chǎn)生的重復(fù)基因大量丟失,導(dǎo)致其更為復(fù)雜的基因組結(jié)構(gòu),令人們對姜科基因組的深入挖掘難度增加。隨著測序技術(shù)的不斷更新?lián)Q代,會有更多姜科乃至單子葉下屬植物基因組完成更為精確的測序工作,有了更多精確的物種基因組數(shù)據(jù)做參考,會令姜科下屬植物基因組復(fù)雜性結(jié)構(gòu)的分析與挖掘得到長足進步,結(jié)果更為清晰、準(zhǔn)確。生信分析軟件及算法的開發(fā),可為未來姜科基因組比較分析研究提供更強大的技術(shù)支撐。