趙志新,李春鑫,李雨嬌
(1.商洛學(xué)院 生物醫(yī)藥與食品工程學(xué)院,陜西 商洛 726000;2.河南省農(nóng)業(yè)科學(xué)院 小麥研究所 分子育種研究室,河南 鄭州 450002)
高粱[Sorghumbicolor(L) Moench]為禾本科高粱族高粱屬植物,是一種綜合利用價(jià)值高的糧食、飼料等多用途的農(nóng)作物[1]。高粱適應(yīng)能力強(qiáng),具有較強(qiáng)的抗旱、耐寒、耐鹽堿等特性,在干旱和半干旱農(nóng)業(yè)生產(chǎn)中占有極其重要的地位,因此,從基因組角度研究重復(fù)序列在高粱中的特征及基因調(diào)控機(jī)制對(duì)高粱分子育種及抗性特征分析具有重要的借鑒意義[2]。
串聯(lián)重復(fù)序列(Tandem repeat,TRs),主要指1~200 bp的核心重復(fù)單位的重復(fù)序列,其廣泛存在于真核生物和一些原核生物的基因組中,并表現(xiàn)出種屬、堿基組成等的特異性[3]。在同一物種基因組中,串聯(lián)重復(fù)序列在編碼區(qū)和非編碼區(qū)都有分布,并且在非編碼區(qū)大量存在[4]。隨著計(jì)算技術(shù)的進(jìn)步及高通量數(shù)據(jù)分析的出現(xiàn),重復(fù)序列研究已不僅僅局限于微衛(wèi)星等短重復(fù)序列(通常指1~10 bp),中等重復(fù)序列(>10 bp)也已經(jīng)被廣泛研究,并且研究顯示,這些重復(fù)序列在植物及綠藻的基因轉(zhuǎn)錄及翻譯調(diào)控中扮演著重要的作用[5]。
本研究利用Phytozome數(shù)據(jù)庫(kù),下載高粱全基因組及基因組注解數(shù)據(jù),然后使用Phobos軟件分析1~50 bp重復(fù)單元在基因間和基因內(nèi)的密度和分布特征,以便闡明重復(fù)序列在高粱基因組中的特征及可能的生物學(xué)功能。
從Phytozome數(shù)據(jù)庫(kù)(http//www.Phytozome.net/)下載高粱(Sorghumbicolorv2.1)的全基因組及基因注解數(shù)據(jù)。其全基因組為738.54 Mb,有效基因組為697.58 Mb,這里的有效基因組指測(cè)序中可測(cè)的A、T、G、C 4種核苷酸。
依據(jù)真核基因結(jié)構(gòu)圖(圖1),本研究中每個(gè)基因分為基因內(nèi)區(qū)域[包括5′UTR、CDS(基因編碼區(qū))、Intron(內(nèi)含子)和 3′UTR]和基因間區(qū)域(包括上游基因間隔區(qū)和下游基因間隔區(qū)),主要研究串聯(lián)重復(fù)序列密度及串聯(lián)重復(fù)序列分布[5]特征。
為了搜索完美匹配和不完美匹配的串聯(lián)重復(fù)序列,使用全基因組串聯(lián)重復(fù)序列的搜索工具(Phobos version 3.3.12)[6]。考慮所需處理高粱基因組的計(jì)算資源和執(zhí)行時(shí)間,采用1~50 bp作為重復(fù)單位的大小,檢測(cè)重復(fù)序列的最小長(zhǎng)度被設(shè)定為12 bp。對(duì)于循環(huán)的串聯(lián)重復(fù)序列,按照字母順序只有一個(gè)序列模體被選擇為代表[5],例如AAG、AGA和GAA都是(AAG)n的重復(fù)單元。此外,分別檢測(cè)串聯(lián)重復(fù)序列以及它的反向互補(bǔ)序列(例如,AAG和CTT),這是因?yàn)檎満拓?fù)鏈上的基因涉及到正義和反義轉(zhuǎn)錄[7],因此需要強(qiáng)調(diào)基因定位(正鏈或負(fù)鏈)的重要性,類似的策略已經(jīng)被他人采用[8]。
串聯(lián)重復(fù)序列的密度被定義為每兆堿基對(duì)(Mb)含有的串聯(lián)重復(fù)序列的堿基對(duì)數(shù)(bp/Mb),表示串聯(lián)重復(fù)序列長(zhǎng)度在總檢測(cè)序列長(zhǎng)度中所占的比例。為了研究串聯(lián)重復(fù)序列在不同區(qū)域的分布數(shù)量,首先將所研究的基因內(nèi)和基因間區(qū)域長(zhǎng)度規(guī)定為0~99(即百分化),然后切分為0~9、10~19、……、90~99共10個(gè)子區(qū)域,分別計(jì)算串聯(lián)重復(fù)序列在每一個(gè)子區(qū)域出現(xiàn)的頻數(shù),這樣所有基因間和基因內(nèi)區(qū)域的串聯(lián)重復(fù)序列數(shù)目就具有可比性[5]。
在整個(gè)高粱基因組中(697.58 Mb),5′UTR中的串聯(lián)重復(fù)序列密度最高,為25 655 bp/Mb,其次為UI200(16 761 bp/Mb)和UI500(10 718 bp/Mb),3′UTR中的串聯(lián)重復(fù)序列密度最低,為5 710 bp/Mb,其余則為6 000 bp/Mb左右。5′UTR和UI200中的串聯(lián)重復(fù)序列密度最高,這可能與啟動(dòng)子的保護(hù)和RNA聚合酶對(duì)啟動(dòng)子的識(shí)別有關(guān)(圖2)。
圖2 基因不同區(qū)域串聯(lián)重復(fù)序列密度
全基因組中1~50 bp串聯(lián)重復(fù)序列密度排在前7位的依次是二堿基(1 123 bp/Mb)、三堿基(996 bp/Mb)、六堿基(650 bp/Mb)、二十一堿基(510 bp/Mb)、四堿基(438 bp/Mb)、五堿基(278 bp/Mb)和單堿基(253 bp/Mb),其中除了二十一堿基,其余全是微衛(wèi)星DNA(圖3)。二堿基和三堿基為主要的重復(fù)單元,其密度分別占總密度的17.04%和15.12%。二堿基重復(fù)類別中,密度最大為AT (746 bp/Mb),CG (9 bp/Mb)密度最小。三堿基重復(fù)類別中,重復(fù)密度較大的為ATT (108 bp/Mb)和AAT (107 bp/Mb),密度較小的為GAT (21 bp/Mb)和GGT (20 bp/Mb)。
圖3 高粱基因組中1~50 bp串聯(lián)重復(fù)序列密度
真核基因結(jié)構(gòu)主要包括5′UTR、CDS、Intron和3′UTR等區(qū)域,這些區(qū)域與DNA的轉(zhuǎn)錄(如開(kāi)放閱讀框,ORF)、翻譯密切相關(guān)。
2.2.1 串聯(lián)重復(fù)序列1~50 bp的重復(fù)單元在5′UTR中的密度 如圖4所示,5′UTR中重復(fù)密度從高到低主要為三堿基(8 949 bp/Mb)、二堿基(4 064 bp/Mb)、五堿基(3 897 bp/Mb)、六堿基(3 773 bp/Mb)和四堿基(2 821 bp/Mb),它們占總密度的91.62%。其中三堿基重復(fù)密度最大,占總密度的34.88%,且CCG(3 127 bp/Mb)為最高的重復(fù)模體。在二堿基重復(fù)單元中,AG(1 702 bp/Mb)、CT(1 585 bp/Mb)重復(fù)模體最高,GT(72 bp/Mb)最小??梢?jiàn),在5′UTR中,重復(fù)序列主要為短的2~6 bp的微衛(wèi)星重復(fù),且主要為富含CG的重復(fù)模體。
圖4 5′UTR中不同重復(fù)單元的密度
2.2.2 串聯(lián)重復(fù)序列1~50 bp的重復(fù)單元在CDS中的密度 由圖5知,CDS中重復(fù)序列最高的為三堿基重復(fù)(3 334 bp/Mb),占總重復(fù)序列的53.96%,其次為六堿基重復(fù)(1 599 bp/Mb),占總的25.87%,二者合計(jì)高達(dá)79.83%。在三堿基重復(fù)模體中,CGG(800 bp/Mb)和CCG(673 bp/Mb)最高,而AAT和GTT最低,均為1 bp/Mb。六堿基重復(fù)模體與三堿基重復(fù)類似,最高的為富含CG的CCGGCG (113 bp/Mb)。其余的重復(fù)單元主要為十二堿基(127 bp/Mb)、九堿基(96 bp/Mb)、十八堿基(92 bp/Mb)等,它們均為3 bp的倍數(shù)。由于CDS是蛋白質(zhì)的編碼序列,這可能與三聯(lián)體密碼子的翻譯有關(guān)。
圖5 CDS中不同重復(fù)單元的密度
2.2.3 串聯(lián)重復(fù)序列1~50 bp的重復(fù)單元在Intron中的密度 高粱基因組Intron中,1~50 bp的重復(fù)單元主要是二堿基(1 613 bp/Mb)、單堿基(759 bp/Mb)、三堿基(654 bp/Mb)、四堿基(603 bp/Mb)、五堿基(440 bp/Mb)和六堿基(433 bp/Mb)等微衛(wèi)星DNA(圖6)。其中二堿基占總密度的24.40%,單堿基為11.48%,二者合計(jì)占總密度的35.88%。在二堿基重復(fù)單元中,AT重復(fù)模體密度最高(821 bp/Mb),AG、GT、AC重復(fù)密度相近(200 bp/Mb),CG重復(fù)密度最小(14 bp/Mb)。故可知,Intron中主要為富含AT的微衛(wèi)星序列重復(fù)(1~6 bp),其他長(zhǎng)堿基的重復(fù)單元較少。
圖6 Intron中不同重復(fù)單元的密度
2.2.4 串聯(lián)重復(fù)序列1~50 bp的重復(fù)單元在3′UTR中的密度 3′UTR區(qū)為非翻譯區(qū),與基因序列中5′UTR相對(duì),它含有編碼一段蛋白質(zhì)的終止信號(hào)和Poly(A)信號(hào),這一區(qū)域主要負(fù)責(zé)基因轉(zhuǎn)錄的終止。由圖7知,在3′UTR中,重復(fù)堿基的主要類別是三堿基(1 148 bp/Mb)、二堿基(1 104 bp/Mb)、四堿基(863 bp/Mb)和五堿基(582 bp/Mb),合計(jì)占總密度的64.75%。在三堿基重復(fù)單元中,重復(fù)密度最大為GCT(163 bp/Mb)和GTT(141 bp/Mb),最小為ATC(11 bp/Mb)和ACC(8 bp/Mb);在二堿基重復(fù)單元中,AT(404 bp/Mb)和GT(349 bp/Mb)為優(yōu)勢(shì)重復(fù)堿基,AG(38 bp/Mb)和CG(26 bp/Mb)為弱勢(shì)堿基??梢?jiàn),3′UTR 類似于5′UTR,重復(fù)序列主要為富含GT的2~5 bp的微衛(wèi)星重復(fù)。
圖7 3′UTR中不同重復(fù)單元的密度
基因間序列指基因編碼區(qū)的上游序列和下游序列,它們含有轉(zhuǎn)錄調(diào)節(jié)的元件,如增強(qiáng)子、啟動(dòng)子、弱化子、沉默子等屬于非編碼區(qū),目前對(duì)它們的研究不多,但是在非編碼區(qū)中存在大量重復(fù)序列。
2.3.1 串聯(lián)重復(fù)序列1~50 bp的重復(fù)單元在上游序列中的密度 基因序列的上游區(qū)分為3個(gè)區(qū),UI200(5′UTR之前的200 nt,指1~200 nt)、UI500(5′UTR之前500 nt,指201~700 nt)、UI1000(5′UTR之前1 000 nt,指701~1 700 nt)。該區(qū)域一般含有調(diào)控轉(zhuǎn)錄的元件,如啟動(dòng)子等。
在UI200中,二堿基(3 612 bp/Mb)和三堿基(3 437 bp/Mb)重復(fù)密度占總重復(fù)密度的42.05%。在二堿基重復(fù)單元中,優(yōu)勢(shì)模體為AT (1 170 bp/Mb)和CT (1 075 bp/Mb),弱勢(shì)模體為GC (73 bp/Mb);在三堿基重復(fù)單元中,優(yōu)勢(shì)模體是CCG (627 bp/Mb)和CCT (565 bp/Mb) ,弱勢(shì)模體為AAC (6 bp/Mb)(圖8A)。可知,二堿基重復(fù)主要為富含AT的模體,而三堿基則為富含CG的模體。
在UI500中,二堿基(2 757 bp/Mb)和三堿基(1 395 bp/Mb)重復(fù)密度占總重復(fù)密度的38.74%。在二堿基重復(fù)單元中,AT (1 504 bp/Mb)為優(yōu)勢(shì)模體,而CG(35 bp/Mb)屬于弱勢(shì)模體;在三堿基重復(fù)單元中,ATT (173 bp/Mb )為優(yōu)勢(shì)模體,弱勢(shì)模體是GTT (10 bp/Mb)(圖8B)。可知在UI500中,二堿基和三堿基重復(fù)均為富含AT的模體。
類似于UI500,在UI1000中,二堿基(2 184 bp/Mb)和三堿基(1 153 bp/Mb)重復(fù)密度占總重復(fù)密度的38.59%。在二堿基重復(fù)單元中,優(yōu)勢(shì)模體為AT (1 336 bp/Mb),弱勢(shì)模體為CG (14 bp/Mb);在三堿基重復(fù)單元中,優(yōu)勢(shì)模體為ATT (188 bp/Mb),弱勢(shì)模體為GGT (22 bp/Mb)(圖8C)。可知在UI1000中,二堿基和三堿基重復(fù)均為富含AT的模體。
在基因上游3個(gè)不同區(qū)域中,高重復(fù)密度的單元主要為1~7 bp,屬于微衛(wèi)星序列,其他重復(fù)單元較低。與UI500和UI1000相比, UI200重復(fù)單元的種類較少(只有30種),但密度較大,這或許與UI200和5′UTR位置較近有關(guān)系,此位置主要為啟動(dòng)子的調(diào)控區(qū)域,可能與轉(zhuǎn)錄起始及調(diào)控有關(guān)。
2.3.2 串聯(lián)重復(fù)序列1~50 bp的重復(fù)單元在下游序列中的密度 基因序列的下游區(qū)分為3個(gè)區(qū),DI200(3′UTR之后200 nt,指1~200 nt)、DI500(3′UTR之后500 nt,指201~700 nt)、DI1000(3′UTR之后1 000 nt,指701~1 700 nt)。該區(qū)域一般含有調(diào)控轉(zhuǎn)錄的終止元件,如Poly(A)位點(diǎn)等。
在DI200中,二堿基(856 bp/Mb)和三堿基(684 bp/Mb)重復(fù)密度占總重復(fù)密度的24.41%。在二堿基重復(fù)單元中,優(yōu)勢(shì)模體為AG (293 bp/Mb)和AT (215 bp/Mb),弱勢(shì)模體為AC (25 bp/Mb);在三堿基重復(fù)單元中,優(yōu)勢(shì)模體是ATT (106 bp/Mb)和CGG (100 bp/Mb),弱勢(shì)模體為ATC (5 bp/Mb)和GAT (5 bp/Mb)(圖9A)。可知,二堿基和三堿基重復(fù)沒(méi)有明顯的偏向性。
在DI500中,二堿基(848 bp/Mb)重復(fù)為主要的重復(fù)單元,占總重復(fù)密度的13.29%。在二堿基重復(fù)單元中,AT (295 bp/Mb)為優(yōu)勢(shì)模體,而CG(13 bp/Mb)屬于弱勢(shì)模體(圖9B)??芍赨I500中,二堿基重復(fù)主要為富含AT的模體。
在DI1000中,三堿基(717 bp/Mb)和二堿基(701 bp/Mb)重復(fù)密度占總重復(fù)密度的22.67%。在三堿基重復(fù)單元中,優(yōu)勢(shì)模體為CGG (90 bp/Mb)和CCG (90 bp/Mb),弱勢(shì)模體為GAT (3 bp/Mb);在二堿基重復(fù)單元中,AT (241 bp/Mb)為優(yōu)勢(shì)模體,而CG(25 bp/Mb)屬于弱勢(shì)模體(圖9C)??芍贒I1000中,三堿基為富含CG的模體,而二堿基重復(fù)主要為富含AT的模體。
不同于基因上游區(qū)域,在高粱基因組下游區(qū)域中,雖然1~7 bp的重復(fù)單元密度較高,但其密度的絕對(duì)值(150~850 bp/Mb)遠(yuǎn)小于基因上游區(qū)域(250~3 600 bp/Mb)。與上游區(qū)域相比,下游區(qū)域大于10 bp重復(fù)單元的重復(fù)密度明顯較高。
圖8 基因上游序列不同重復(fù)單元的密度
圖9 基因下游序列不同重復(fù)單元的密度
2.4.1 串聯(lián)重復(fù)序列在基因內(nèi)的分布 圖10顯示1~50 bp串聯(lián)重復(fù)序列在基因內(nèi)不同區(qū)域的分布情況。在5′UTR和CDS中,串聯(lián)重復(fù)序列較均勻地分布于除兩端以外的區(qū)域(>9.83%),兩端分布較低(<9.14%),特別是在5′UTR中。在Intron中,兩端的串聯(lián)重復(fù)序列分布較多(10%左右),而中間60~69部位則最低(9.17%),由于Intron的兩端緊靠著CDS,這可能與Intron的識(shí)別、剪接有關(guān)。與Intron相反,在3′UTR中,重復(fù)序列主要分布于中間,特別是在60~69部位最高(12.84%),兩端則較低(接近9%)。
圖10 串聯(lián)重復(fù)序列頻率在基因內(nèi)的分布
2.4.2 串聯(lián)重復(fù)序列在基因間的分布 在上游基因間隔區(qū)中,如圖11,在UI200、UI500、UI1000中,距離基因5′UTR端越遠(yuǎn),串聯(lián)重復(fù)序列數(shù)量越少。在UI200和UI500中表現(xiàn)尤為明顯,其最大與最小值分別相差2.55倍(UI200, 12.32/4.83)和1.72倍(UI500, 12.62/7.32)。
圖11 串聯(lián)重復(fù)序列頻率在上游基因間隔區(qū)的分布
類似于上游基因間隔區(qū),在下游基因間隔區(qū)內(nèi),距離基因3′UTR端越遠(yuǎn),串聯(lián)重復(fù)序列數(shù)量也越少(圖12)。特別是在3′UTR下游1~700 bp內(nèi)(DI200和DI500),靠近3′UTR端串聯(lián)重復(fù)序列分布較高,遠(yuǎn)離3′UTR端其分布逐漸降低,其最大與最小值相差1.99倍(DI200,13.02/6.54)和1.57倍(DI500,11.63/7.39)。而在DI1000區(qū)域內(nèi),串聯(lián)重復(fù)序列分布逐漸降低的趨勢(shì)則不明顯,可能揭示此區(qū)域與3′UTR轉(zhuǎn)錄終止相關(guān)性已較弱。
圖12 串聯(lián)重復(fù)序列頻率在下游基因間隔區(qū)的分布
在不同區(qū)域微衛(wèi)星重復(fù)單元類別中(1~6 bp),主要是二堿基和三堿基等微衛(wèi)星,占總密度的30%以上,而單堿基重復(fù)單元密度不高,同時(shí)部分長(zhǎng)堿基的重復(fù)單元密度也不低,說(shuō)明高粱基因組中重復(fù)單元的出現(xiàn)不是隨機(jī)的,而是有一定的自然選擇性,這與他人的研究結(jié)果相一致[3,5-6]。
已知重復(fù)序列在5′UTR、UI200和UI500中的密度較高,其余區(qū)域密度差別不大。就區(qū)域基因組大小而言,UI200基因組為2.73 Mb、5′UTR基因組為2.06 Mb,但其微衛(wèi)星(1~6 bp)的重復(fù)密度高達(dá)80%以上,而Intron基因組為43.56 Mb,其微衛(wèi)星重復(fù)密度只有35.88%。顯然微衛(wèi)星重復(fù)密度與基因組大小沒(méi)有明顯關(guān)系,可能與它所在位置的功能有關(guān)[3]。
本研究顯示,高粱基因組中最高和次高的串聯(lián)重復(fù)序列密度在5′UTR和它的直接上游區(qū)域,即UI200區(qū),而這個(gè)區(qū)域通常為啟動(dòng)子區(qū)域。5′UTR被認(rèn)為是串聯(lián)重復(fù)序列的熱點(diǎn)區(qū)域,之前的研究表明,5′UTR中的串聯(lián)重復(fù)序列可參與轉(zhuǎn)錄或翻譯的調(diào)控[5-6,9]。CDS中串聯(lián)重復(fù)序列的密度較低,低密度的重復(fù)序列會(huì)降低蛋白質(zhì)的復(fù)雜性從而增強(qiáng)其保守度,已經(jīng)證實(shí)CDS的突變會(huì)導(dǎo)致蛋白質(zhì)功能改變,功能喪失和蛋白質(zhì)截短[10]。3′UTR和內(nèi)含子中的串聯(lián)重復(fù)序列密度也較低,可能暗示重復(fù)序列在這些區(qū)域保守度高,參與的生物學(xué)功能也可能較少[5]。
從重復(fù)序列在高粱基因內(nèi)及基因間的分布可以看出,重復(fù)序列在整個(gè)基因組中的位置也并非隨機(jī)存在,這與此前研究相一致[3]?;蜷g隔區(qū)的串聯(lián)重復(fù)序列的分布明顯偏向于靠近基因兩端(5′UTR和3′UTR),串聯(lián)重復(fù)序列已經(jīng)被定位到基因和基因調(diào)節(jié)區(qū),并參與轉(zhuǎn)錄和翻譯的調(diào)控[11],本研究顯示,串聯(lián)重復(fù)序列偏向基因調(diào)節(jié)區(qū),也支持了這一觀點(diǎn)。另外,Intron兩端的串聯(lián)重復(fù)序列分布較高,考慮到可能與內(nèi)含子剪接有關(guān)[9],也可對(duì)與其相鄰的CDS起到保護(hù)的作用。
本研究顯示,串聯(lián)重復(fù)序列在基因不同區(qū)域具有顯著的特征差異,并且重復(fù)序列的區(qū)域分布與基因調(diào)控具有緊密的聯(lián)系,同時(shí)本研究將有助于對(duì)串聯(lián)重復(fù)序列進(jìn)化及在基因表達(dá)中調(diào)控作用的理解。但由于計(jì)算資源的局限性(如CPU、內(nèi)存和運(yùn)算時(shí)間),本研究只探究了1~50 bp重復(fù)序列,而對(duì)于更長(zhǎng)的重復(fù)序列(>50 bp)進(jìn)行研究或許能揭示更多潛在的重復(fù)序列功能。