彭長(zhǎng)軍, 牛李麗, 鄧家波, 余建秋, 李靜*
(1. 動(dòng)物資源與生態(tài)環(huán)境教育部重點(diǎn)實(shí)驗(yàn)室,四川大學(xué)生命科學(xué)學(xué)院,成都610065;2. 成都動(dòng)物園,四川省野生動(dòng)物研究所,成都610081)
兩種方法對(duì)大熊貓基因組重復(fù)序列的注釋比較
彭長(zhǎng)軍1, 牛李麗2, 鄧家波2, 余建秋2, 李靜1*
(1. 動(dòng)物資源與生態(tài)環(huán)境教育部重點(diǎn)實(shí)驗(yàn)室,四川大學(xué)生命科學(xué)學(xué)院,成都610065;2. 成都動(dòng)物園,四川省野生動(dòng)物研究所,成都610081)
重復(fù)序列是動(dòng)物基因組的重要組分,對(duì)于基因組結(jié)構(gòu)多樣性、調(diào)節(jié)基因表達(dá)和介導(dǎo)多種遺傳疾病具有重要影響。本研究采用了2種策略:基于序列比對(duì)的RepeatMasker(RM)和從頭預(yù)測(cè)的RepeatScout(RS),對(duì)大熊貓Ailuropodamelanoleura基因組中的重復(fù)序列進(jìn)行鑒定與注釋,詳細(xì)闡明了其轉(zhuǎn)座子元件(TE)的組成、類型、數(shù)量、亞家族、長(zhǎng)度分布、分化率等。比較2種注釋方法的結(jié)果,RM注釋到的TE數(shù)量在絕大部分亞家族中均多于RS,而在某些亞家族中則少于RS;RS注釋到的TE亞家族類型及平均長(zhǎng)度均小于RM。此外,RS構(gòu)建的大熊貓TE一致性序列中,有20%不屬于現(xiàn)有的重復(fù)序列類型,可能包含大熊貓?zhí)赜械腡E類型。研究結(jié)果對(duì)于闡明大熊貓重復(fù)序列的特征及其生物學(xué)功能奠定了重要基礎(chǔ)。
重復(fù)序列;轉(zhuǎn)座子元件;RepeatMasker;RepeatScout;大熊貓
重復(fù)序列是真核動(dòng)物基因組中的重要組成部分,例如人基因組中超過(guò)50%的序列都是重復(fù)序列(Landeretal.,2001),而在狗基因組中重復(fù)序列約占整個(gè)基因組的36.1%(Lietal.,2010)。重復(fù)序列主要分為兩大類:串聯(lián)重復(fù)序列(tendam repeat)和散在重復(fù)序列(interpersed repeat)。其中,串聯(lián)重復(fù)序列包括微衛(wèi)星、小衛(wèi)星序列等;散在重復(fù)序列又稱可移動(dòng)元件,或轉(zhuǎn)座子元件(transposable element,TE)。根據(jù)轉(zhuǎn)座方式不同,TE可分為DNA轉(zhuǎn)座子(DNA transposon)和逆轉(zhuǎn)錄轉(zhuǎn)座子(retrotransposon),前者通過(guò)“剪切-粘貼”的機(jī)制,將DNA從基因組剪切后直接插入基因組中一個(gè)新的座位;后者則先將DNA轉(zhuǎn)錄出一段RNA,RNA經(jīng)反轉(zhuǎn)錄酶重新合成DNA,再插入基因組某個(gè)新的位置,即通過(guò)“拷貝-粘貼”的方式在基因組中進(jìn)行移動(dòng)。常見的反轉(zhuǎn)錄轉(zhuǎn)座子類別有長(zhǎng)末端重復(fù)序列(LTR)、長(zhǎng)散布重復(fù)序列(LINE)、SVA和短散布重復(fù)序列(SINE)等。大量轉(zhuǎn)座子能在基因組中移動(dòng)并進(jìn)行擴(kuò)增,是導(dǎo)致不同動(dòng)物基因組結(jié)構(gòu)多樣性的重要原因;同時(shí)研究還發(fā)現(xiàn)它們也廣泛介導(dǎo)機(jī)體內(nèi)多種生物學(xué)過(guò)程,包括導(dǎo)致基因突變、調(diào)節(jié)基因表達(dá)、導(dǎo)致染色體斷裂、引起mRNA的可變剪切以及多種腫瘤等疾病等(Belancioetal.,2009;Copeland & Jenkins,2010;Lupski,2011;Ray & Batier,2011)。因此,系統(tǒng)研究基因組中的這些可移動(dòng)元件對(duì)于闡明基因組的結(jié)構(gòu)與功能具有重要意義。
然而受限于測(cè)序技術(shù)和組裝技術(shù)等困難,鑒定和注釋基因組中的轉(zhuǎn)座子等重復(fù)序列一直是基因組學(xué)研究的一個(gè)挑戰(zhàn)。由于目前基于二代測(cè)序技術(shù)產(chǎn)生的序列讀長(zhǎng)(reads)較短,而基因組序列采用k-mer(deBruijngraph)算法進(jìn)行組裝,高度相似的重復(fù)序列可能會(huì)被壓縮到一起,從而影響對(duì)后續(xù)重復(fù)序列的識(shí)別。用于識(shí)別不同重復(fù)元件的方法或軟件目前已超過(guò)30種,大體可將它們分為兩大類:1)序列比對(duì)法,基于特定結(jié)構(gòu)來(lái)鑒定重復(fù)序列。該方法需要構(gòu)建重復(fù)序列的文庫(kù),文庫(kù)中包含很多來(lái)自不同物種某一重復(fù)序列的一致性序列(Repbase數(shù)據(jù)庫(kù)),然后通過(guò)識(shí)別與已知重復(fù)序列相似的序列,從而對(duì)其進(jìn)行分類。此方法最經(jīng)典、最流行的軟件是Greedier(Lietal.,2008)和RepeatMasker(RM)(Smitetal.,2016),Greedier在重復(fù)序列鑒定的敏感性上比RM稍高,但是重復(fù)序列的鑒定率只有RM的一半左右。此外,MaskerAid(Bedelletal.,2000)和Censor (Kohanyetal.,2006)亦是基于該原理進(jìn)行鑒定。2)重復(fù)序列的從頭預(yù)測(cè)法(denovo)。該方法是利用重復(fù)序列或轉(zhuǎn)座子自身的序列或結(jié)構(gòu)特征,構(gòu)建從頭預(yù)測(cè)法或軟件(模型)對(duì)序列進(jìn)行識(shí)別,其優(yōu)點(diǎn)在于能夠根據(jù)TE自身的結(jié)構(gòu)特征進(jìn)行預(yù)測(cè),不依賴于已有的轉(zhuǎn)座子數(shù)據(jù)庫(kù),能夠發(fā)現(xiàn)未知的TE。常見的從頭預(yù)測(cè)法有Recon(Bao & Eddy,2002)、RepeatScout(RS)(Priceetal.,2005)、Piler、LTR-finder、ReAS(Lietal.,2005)等。
大熊貓Ailuropodamelanoleura是我國(guó)生物多樣性保護(hù)的旗艦物種,其獨(dú)特生物學(xué)和行為學(xué)特征一直是研究熱點(diǎn)。為闡明其獨(dú)特的遺傳機(jī)制,2010年我國(guó)研究人員公布了一只雌性大熊貓的全基因組序列,發(fā)現(xiàn)大熊貓基因組與其他食肉目Carnivora動(dòng)物相似,為2.25 G,其中約36.2%是由TE構(gòu)成(Lietal.,2010),與狗基因組(36.1%)和貓基因組(32.1%)(Pontiusetal.,2007)中TE的比例相似。然而大熊貓的2個(gè)Can-SINEs亞家族(SINEC_b1和SINEC_b2)的拷貝數(shù)比狗的高2.5倍,而其他一些Can-SINEs亞家族則顯著低于狗,但相關(guān)文章只基于單一方法對(duì)大熊貓的TE做了初步統(tǒng)計(jì),并未詳細(xì)報(bào)道大熊貓基因組各種重復(fù)序列的類型,亞家族的數(shù)量、長(zhǎng)度、密度、分化率等。大熊貓基因組重復(fù)序列的詳細(xì)特征,尤其是那些在大熊貓與狗分化之后才插入大熊貓基因組的TE,它們究竟屬于何種類型,如何塑造大熊貓基因組,以及它們對(duì)大熊貓的生長(zhǎng)發(fā)育、繁殖代謝是否存在影響都不得而知。
對(duì)重復(fù)序列的鑒定與注釋是研究其特征和功能的重要前提。本研究選擇了2種常用的重復(fù)序列研究策略:基于序列比對(duì)的RM和從頭預(yù)測(cè)的RS,分別對(duì)大熊貓基因組中的重復(fù)序列進(jìn)行鑒定與注釋,比較了2種方法的鑒定效果,為深入研究重復(fù)序列對(duì)大熊貓基因組結(jié)構(gòu)和功能的影響提供重要的參考。
1.1 基因組序列的下載
從GiGa(http://gigadb.org/)數(shù)據(jù)庫(kù)下載大熊貓全基因組序列,其組裝水平為scaffold,總的序列(scaffold)數(shù)量為81 469,總長(zhǎng)度為2 299 498 912 bp,N50約1.3 Mbp。
1.2 基于RM注釋大熊貓重復(fù)序列
下載RepeatMasker (4.0.5)(Smitetal.,2016)及其默認(rèn)數(shù)據(jù)庫(kù)Repbase(2015.8.7)(Smitetal.,2016)進(jìn)行本地安裝。選擇crossmatch作為其搜索比對(duì)算法,選擇食肉目作為查詢數(shù)據(jù)庫(kù)類別,設(shè)定閾值為225,選擇-low、-s參數(shù),對(duì)整個(gè)大熊貓基因組序列進(jìn)行重復(fù)序列重注釋。
1.3 基于RS注釋大熊貓重復(fù)序列
下載RepeatScout 1.0.5(http://bix.ucsd.edu/repeatscout/)并進(jìn)行本地安裝。因RS無(wú)法處理大于1 G的序列文件,故將大熊貓基因組的序列分為4個(gè)部分,各部分分別包含490條、489條、805條和79 688條scaffolds。對(duì)過(guò)濾Perl腳本compare-out-to-gff.prl進(jìn)行優(yōu)化,降低循環(huán)次數(shù)以提高效率。選擇k-mer值為17,過(guò)濾閾值為20,構(gòu)建大熊貓重復(fù)序列的一致性序列。以RS重復(fù)序列為查詢庫(kù)、RM作為重復(fù)序列分類工具對(duì)大熊貓基因組進(jìn)行注釋,而后使用本地Perl腳本交叉注釋,得到RS對(duì)重復(fù)序列分類注釋的結(jié)果。
1.4 注釋重復(fù)序列比較
使用本地Perl腳本統(tǒng)計(jì)2種方法重復(fù)序列數(shù)量及分布情況,R軟件統(tǒng)計(jì)主要轉(zhuǎn)座子的長(zhǎng)度分布及數(shù)量,Excel繪圖比較2種方法的差異。
2.1 RS構(gòu)建各種重復(fù)序列一致性序列的注釋
基于現(xiàn)有數(shù)據(jù)庫(kù)對(duì)RS注釋的各種重復(fù)序列進(jìn)行鑒定。RS總計(jì)構(gòu)建出了3 400條重復(fù)序列的一致性序列,其中超過(guò)80%能夠被已知的重復(fù)序列注釋(表1)。在這些被注釋的序列中,LINE占構(gòu)建的一致性序列的比重最大(47.23%),LTR次之(27.87%),Small RNA和SINE較少,占比分別為19.00%和18.36%。而在注釋到的LINE中,絕大部分都是LINE1,只有相對(duì)少的LINE2和L3/CR1。這表明了RS能夠成功構(gòu)建各種主要的重復(fù)類型,尤其是當(dāng)一種重復(fù)序列的結(jié)構(gòu)明顯、數(shù)量眾多時(shí),其構(gòu)建的該類重復(fù)序列的一致性序列也多,如LINE、LTR、SINE、Small RNA等。而DNA轉(zhuǎn)座子在大熊貓基因組中的數(shù)量相對(duì)較少,結(jié)構(gòu)并不明顯,RS構(gòu)建的核心序列也就相對(duì)較少,只有5.40%。此外還有20%重復(fù)序列的一致性序列不能被現(xiàn)有的重復(fù)序列數(shù)據(jù)庫(kù)類型注釋。
表1 RepeatScout構(gòu)建的3 400條大熊貓重復(fù)序列的一致性序列的Repeat Masker注釋結(jié)果統(tǒng)計(jì)Table 1 Statistics of 3 400 consensus sequences of repeat elements built by RepeatScout and annotated by RepeatMasker
2.2 2種方法對(duì)大熊貓重復(fù)序列的注釋統(tǒng)計(jì)
大熊貓總共81 647條scaffolds,采用RM與RS分別注釋到3 474 463個(gè)、2 728 748個(gè)重復(fù)序列,分布于39 064條、25 035條scaffolds上。以RM作為重復(fù)序列分類工具對(duì)RS的結(jié)果進(jìn)行了分類,發(fā)現(xiàn)RS的結(jié)果中能被注釋的已知重復(fù)序列僅1 922 054個(gè)(表2),即有約30%的重復(fù)序列能被RS識(shí)別,但無(wú)法注釋到現(xiàn)有的已知重復(fù)序列類型。由于這部分重復(fù)序列與現(xiàn)有重復(fù)元件不同,主要針對(duì)注釋的已知重復(fù)元件進(jìn)行了比較。
表2 RepeatMasker與RepeatScout注釋大熊貓scaffolds上的重復(fù)序列統(tǒng)計(jì)Table 2 Statistics of repeat elements in giant panda genome scaffolds annotated by RepeatMasker and RepeatScout
RM鑒定大熊貓基因組中數(shù)量最多的重復(fù)元件是LINE,達(dá)到1 368 483個(gè),占總TE的39.46%,LINE元件總長(zhǎng)度占整個(gè)基因組的比例也最高,為21.13%。SINE元件數(shù)量?jī)H次于LINE,共計(jì)1 259 550個(gè),占TE總數(shù)的36.5%,其總長(zhǎng)度占基因組的8.53%,其中包括MIR家族(518 019個(gè))。此外,RM還鑒定出413 355個(gè)LTR元件,380 310個(gè)DNA轉(zhuǎn)座子和34 540個(gè)Small RNAs等(表3)。經(jīng)RS鑒定的已知重復(fù)序列則包括1 018 913個(gè)LINE元件,其數(shù)量與RM鑒定結(jié)果基本相當(dāng);但RS僅鑒定了427 086個(gè)SINEs,遠(yuǎn)遠(yuǎn)少于RM鑒定的結(jié)果(僅為其33.9%),總長(zhǎng)度僅占基因組的2.91%;此外RS注釋了334 194個(gè)LTR元件和139 277個(gè)DNA轉(zhuǎn)座子等(表4)。雖然2種方法均能夠注釋到主要的一些TE類型,但RS注釋到的TE數(shù)量明顯少于RM,尤其是SINE和DNA轉(zhuǎn)座子的數(shù)量差異較大。
表3 RepeatMasker 對(duì)大熊貓基因組重復(fù)序列重注釋結(jié)果統(tǒng)計(jì)Table 3 Statistics of repeat elements in giant panda genome re-annotated by RepeatMasker
表4 以RepeatMasker作為分類工具統(tǒng)計(jì)RepeatScout 注釋的大熊貓基因組重復(fù)序列Table 4 Statistics of repeat elements in giant panda genome annotated by RepeatScout based on RepeatMasker
統(tǒng)計(jì)TE密度最高的前20條大熊貓scaffolds(圖1:A,B),發(fā)現(xiàn)2種方法注釋的結(jié)果差異很大,20條scaffolds各不相同。RS鑒定出的是scaffold2381(2.96/kbp),20條scaffolds的TE平均密度為2.19/kbp;而RM注釋出的是scaffold6473(6.95/kbp),TE平均密度為3.53/kbp。從20條scaffolds的長(zhǎng)度來(lái)看,RS鑒定較長(zhǎng)的scaffold上TE密度較高,18條scaffolds都大于10 000 bp;相反,RM鑒定較短的scaffold上TE的密度高,密度最高的scaffold6473僅長(zhǎng)719 bp,僅2條scaffolds大于10 000 bp。結(jié)果還顯示4種類型的TE在各scaffold上的分布并不均勻。大多數(shù)scaffold上LINE的密度都高于其他類型,但在某些scaffold上,則表現(xiàn)為SINE或LTR元件的富集情況(圖1:A,B)。此外,2種方法注釋的LINE和LTR的密度差距不大,而RM注釋的SINE和DNA轉(zhuǎn)座子的密度分別是RS的3.8倍和5.1倍。
統(tǒng)計(jì)2種方法注釋的大熊貓TE的分化率,即根據(jù)每個(gè)TE序列累積的突變位點(diǎn)計(jì)算其與一致性序列的差異(圖2:A,B)。分化率越大,累積的突變?cè)蕉?,意味著該TE插入基因組的時(shí)間越長(zhǎng),是更古老的轉(zhuǎn)座子。2種方法鑒定TE雖然在總數(shù)上存在差異,但對(duì)4類TE的分化率統(tǒng)計(jì)結(jié)果卻相似,每種類型TE的分化率都有高有低,既有插入時(shí)間長(zhǎng)的,也有新近插入基因組的。然而在分化率<10%的區(qū)域,主要是LINE或SINE逆轉(zhuǎn)座子,大部分的LTR和DNA轉(zhuǎn)座子的分化率都集中分布在>20%的區(qū)域,說(shuō)明新近整合到大熊貓基因組的主要是一些LINE或SINE。
圖1 2種方法注釋轉(zhuǎn)座子元件密度最高的前20條大熊貓scaffolds上轉(zhuǎn)座子元件的分布
圖2 RepeatScout與RepeatMasker注釋大熊貓基因組中各類轉(zhuǎn)座子的分化率
2.3 2種方法注釋大熊貓4種TE亞家族的比較
在Repbase數(shù)據(jù)庫(kù)中,食肉目動(dòng)物的SINE元件包含33個(gè)亞家族,RM在大熊貓基因組中鑒定了所有的33個(gè)亞家族,而RS僅注釋到其中的14個(gè),前者為后者的2.36倍。RM鑒定>100 000個(gè)拷貝的亞家族有5個(gè),其中SINEC1_AME和SINEC1B_AME的數(shù)量均>200 000,占總SINEs的18.9%和17.2%,是數(shù)量最豐富的SINE元件;拷貝數(shù)<1 000的亞家族15個(gè)。相似的,RS鑒定的SINE亞家族中,SINEC1B_AME最多(222 227個(gè)),甚至超過(guò)RM的結(jié)果,占總SINEs的52%,其次為SINEC1_AME,占23.5%。與RM的結(jié)果相比,RS對(duì)SINEC1B_AME(17.2% vs. 52%)及SINEC_B1(2.0% vs. 7.1%)亞家族的鑒定更好,而對(duì)MIRB(15.4% vs. 0.58%)和MIR(11.9% vs. 0.49%)等亞家族的鑒定較差(圖3:A)。
RM在大熊貓基因組中鑒定了LINE元件已知的所有143個(gè)亞家族,而RS僅注釋到其中58個(gè),但二者鑒定的LINEs總數(shù)相差不大。RM鑒定數(shù)量最多的都是L2(L2A、L2C和L2B),三者共占總LINEs超過(guò)23.6%;其次是L1-1_AME亞家族;有47個(gè)LINE亞家族的拷貝數(shù)量都<1 000。相反,RS對(duì)L2的注釋較差,L2A僅有991個(gè),占總數(shù)的0.097%,L2B也只有358個(gè),沒有L2C(而RM鑒定L2C>100 000個(gè));但RS能較好地識(shí)別L1家族,數(shù)量排名前20的都是各種L1的亞家族,其中最多的是L1_CANID2(142 408個(gè)),而RM僅鑒定有9 055個(gè)該亞家族拷貝;在RS識(shí)別的58個(gè)亞家族中,40個(gè)亞家族拷貝數(shù)>1 000,它們都屬于L1家族(圖3:B)。
LTR元件共包含341個(gè)亞家族,是亞家族最豐富的TE類型。2種方法鑒定出的大熊貓基因組中LTR總數(shù)基本相當(dāng),RM鑒定了所有341個(gè)亞家族,而RS僅注釋到其中的120個(gè)。RM鑒定最多的2個(gè)亞家族是MLT1D和MLT1B,前7名的都是MLT1家族的成員。341個(gè)亞家族中,僅有97個(gè)亞家族拷貝數(shù)>1 000,其余都是數(shù)量少的小亞家族。RS鑒定數(shù)量最多的仍然是MLT1B(47 798個(gè))和MLT1D(44 050個(gè)),分別是RM鑒定數(shù)量的3.21倍和2.77倍。然而RS對(duì)某些MLT1亞家族的鑒定效果卻較差,如無(wú)法識(shí)別MLT1K、MLT1L、MLT1T亞家族,而RM鑒定這3個(gè)亞家族的數(shù)量都>10 000。在RS注釋的120個(gè)LTR亞家族中,拷貝數(shù)>1 000的有52個(gè),其余68個(gè)亞家族的拷貝數(shù)都很少(圖3:C)。
RM在大熊貓基因組中鑒定了已知DNA轉(zhuǎn)座子的所有288個(gè)亞家族,而RS僅注釋到其中的28個(gè),僅9.7%的亞家族被成功注釋,是4種TE中比例最低的。RM鑒定最多的亞家族是MER5A(31 040個(gè))和MER5B(21 562個(gè)),拷貝數(shù)<1 000的小亞家族193個(gè)。與RM相比,RS對(duì)某些MER亞家族的鑒定效果好,MER20、MER5A、MER5A1、MER3都超過(guò)10 000個(gè)拷貝,有的比RM的結(jié)果還高。但RS對(duì)某些MER亞家族卻無(wú)法識(shí)別,如MER5B、MER103C拷貝數(shù)都為0,而RM鑒定二者分別有21 562個(gè)、7 717個(gè)拷貝,此外,它也無(wú)法識(shí)別MAMTIP2B亞家族(圖3:D)。
圖3 RepeatMasker與RepeatScout注釋的大熊貓基因組中各種轉(zhuǎn)座子亞家族(數(shù)量最多的前20)的數(shù)量分布
Fig. 3 Copy number of various types of transposable elements subfamilies (the top 20 richest) in giant panda genome annotated by RepeatMasker and RepeatScout
A. SINE, B. LINE, C. LTR, D. DNA轉(zhuǎn)座子。
A. SINE, B. LINE, C. LTR, D. DNA transposon.
圖4 RepeatMasker與RepeatScout注釋大熊貓基因組中4類轉(zhuǎn)座子元件的各亞家族的平均長(zhǎng)度
橫坐標(biāo)表示已注釋的各TE的亞家族,其中平均長(zhǎng)度最長(zhǎng)的亞家族標(biāo)示于圖內(nèi)。
Horizontal ordinate represents the subfamilies of annotated TEs and the longest subfamilies are labeled.
2.4 2種方法注釋4種TE亞家族長(zhǎng)度的比較
為比較2種方法注釋大熊貓4類TE的長(zhǎng)度,統(tǒng)計(jì)了每個(gè)亞家族內(nèi)所有拷貝的平均長(zhǎng)度(可發(fā)郵件向作者索取)??偟膩?lái)說(shuō),2種方法注釋TE的長(zhǎng)度與其本身長(zhǎng)度具有一致性,若這類TE本身很長(zhǎng),則2種方法注釋到其長(zhǎng)度也相對(duì)較長(zhǎng),反之亦然。LINEs平均長(zhǎng)度最長(zhǎng),SINEs最短。同類TE的長(zhǎng)度差異也很大,最長(zhǎng)的LINE亞家族是L1_CANID2(1 238.0 bp),最短為X7D_LINE(65.6 bp)。2種方法均鑒定到SINE元件中平均長(zhǎng)度最長(zhǎng)的是SINEC1B_AME和SINEC1_AME亞家族,而它們也是鑒定數(shù)量最多的SINE亞家族。而2種方法都注釋LTR22_AME亞家族是大熊貓基因組中較長(zhǎng)的LTR逆轉(zhuǎn)座子,但是其拷貝數(shù)卻較少。
RM注釋的各種TE平均長(zhǎng)度均長(zhǎng)于RS,也就是說(shuō)RM注釋的結(jié)果更接近TE的全長(zhǎng)。RS注釋了14個(gè)SINE亞家族、58個(gè)LINE亞家族、120個(gè)LTR亞家族和28個(gè)DNA轉(zhuǎn)座子亞家族的平均長(zhǎng)度分別為96.4 bp、170.5 bp、132.7 bp和119.5 bp;而RM鑒定的同樣的TE亞家族平均長(zhǎng)度分別為133.8 bp、479.8 bp、349.3 bp和252.3 bp(圖4),分別為前者的1.39倍、2.81倍、2.63倍和2.11倍。而對(duì)長(zhǎng)度越完整的轉(zhuǎn)座子的鑒定亦越準(zhǔn)確,如LTR22_AME亞家族,2種方法統(tǒng)計(jì)其平均長(zhǎng)度較接近(443.0 bp和401.3 bp),鑒定其拷貝數(shù)也相似(分別為717和643)。而RS鑒定各MIR亞家族的長(zhǎng)度遠(yuǎn)低于RM(如MIR亞家族長(zhǎng)度僅為后者的50%;MIRB僅為后者的61.1%),因而RS鑒定MIR家族的數(shù)量遠(yuǎn)遠(yuǎn)少于RM。對(duì)L2家族的鑒定結(jié)果亦是如此,RS鑒定L2A、L2B的平均長(zhǎng)度僅為RM的27%、21%,而RM鑒定的數(shù)量為RS的140倍、230倍。
此前關(guān)于食肉目動(dòng)物TE的了解,絕大多數(shù)來(lái)自模式動(dòng)物——狗或貓。比較家犬和貴賓犬基因組發(fā)現(xiàn),兩者包含大量仍然具有活躍轉(zhuǎn)座能力的CanSINE元件(Wang & Kirkness,2005),它們?cè)诓煌蚪M中的轉(zhuǎn)座活動(dòng)可能導(dǎo)致皮膚的不同花紋或某些疾病(Clarketal.,2006;Walters-Conteetal.,2011)。而在貓亞目Feliformia中,SINE元件至少可分為2大類,其中一類在不同貓科Felidae動(dòng)物中也仍然非?;钴S(Walters-Conteetal.,2014)。本研究系統(tǒng)研究了大熊貓基因組中的重復(fù)序列,尤其是其中的TE,詳細(xì)闡明了TE的組成、類型、數(shù)量、亞家族、長(zhǎng)度分布和分化率等信息。大熊貓基因組在TE的組成與類型上與狗和貓相似,都包括4大類TE,即SINE、LINE、LTR和DNA轉(zhuǎn)座子。Li等(2010)曾推測(cè)大熊貓基因組存在約70 Mbp的TE序列,它們的分化率<10%,可能是大熊貓?zhí)禺惖囊恍㏕E。這與本研究結(jié)果一致,2種鑒定方法都注釋了分化率<10%的轉(zhuǎn)座子,它們都只屬于SINE和LINE。深入研究這些仍然活躍的轉(zhuǎn)座元件,將有利于闡明它們對(duì)大熊貓疾病、基因組穩(wěn)定性和多樣性的影響和作用機(jī)制。
由于不同動(dòng)物的TE類型及豐富度差異極大,利用現(xiàn)有的重復(fù)序列注釋方法研究非模式動(dòng)物的重復(fù)序列非常困難。如靈長(zhǎng)目Primates動(dòng)物數(shù)量最大的Alu元件、鳥類中最豐富的CR1元件,在食肉目動(dòng)物中幾乎沒有或極少,因此很難找到一個(gè)統(tǒng)一有效的重復(fù)序列研究方法。同時(shí),現(xiàn)有的重復(fù)序列數(shù)據(jù)庫(kù)也無(wú)法識(shí)別非模式動(dòng)物中尚未被認(rèn)識(shí)的新的重復(fù)類型,所以基于現(xiàn)有數(shù)據(jù)庫(kù)去注釋非模式動(dòng)物時(shí)往往會(huì)存在許多問(wèn)題。另一方面,基于從頭預(yù)測(cè)法的方式對(duì)非模式動(dòng)物重復(fù)序列進(jìn)行注釋,有可能發(fā)現(xiàn)新的TE類型,但這種方法可能存在大量的假陽(yáng)性,即產(chǎn)生一些非TE的序列(Bergman & Jenkins,2007)。基于此,本研究綜合采用了基于數(shù)據(jù)庫(kù)的方法和從頭注釋的方法,更有利于全面地了解大熊貓基因組中轉(zhuǎn)座子的特征。結(jié)果顯示,RM與RS都能鑒定大熊貓基因組中幾種主要的TE類型,但它們?cè)赥E亞家族的類型、數(shù)量和平均長(zhǎng)度上存在明顯差異。RM注釋到的TE數(shù)量在絕大部分亞家族中均多于RS,在某些亞家族中較為接近,而在一些亞家族中則少于RS,而RS注釋的TE的亞家族類型及平均長(zhǎng)度均小于RM。利用RS(Fernandoetal.,2012)僅注釋了大熊貓1條scaffold292上的TE,其結(jié)果也遠(yuǎn)少于RM注釋的數(shù)量,這與本研究結(jié)果類似。這表明了RS所采用的k-mer打斷多序列比對(duì)重構(gòu)重復(fù)序列識(shí)別算法可能存在一定的局限性,難以重構(gòu)出所有的轉(zhuǎn)座子序列。但我們發(fā)現(xiàn)這種算法在對(duì)某些TE亞家族上的識(shí)別能力要強(qiáng)于RM,如結(jié)構(gòu)十分明顯的LINE1、LTR逆轉(zhuǎn)座子,而對(duì)DNA轉(zhuǎn)座子和某些SINE元件則非常差。其次,RS還存在一個(gè)內(nèi)存限制的問(wèn)題,不能夠同時(shí)處理所有大熊貓基因組的序列,這可能也是造成其無(wú)法識(shí)別所有大熊貓轉(zhuǎn)座子的原因。此外,RS有較為嚴(yán)格的對(duì)于重復(fù)序列拷貝數(shù)的閾值要求,低于這個(gè)閾值的序列會(huì)被過(guò)濾,這也可能造成一些低拷貝的TE亞家族被過(guò)濾掉而沒能保留下來(lái)進(jìn)行分類。最后,由于組裝的困難,大熊貓基因組中重復(fù)序列會(huì)產(chǎn)生很多碎片,因而難以被識(shí)別,而從頭預(yù)測(cè)法對(duì)序列結(jié)構(gòu)的完整性及計(jì)算資源的要求又比較高,這可能是導(dǎo)致RS的鑒定不及RM的重要原因。雖然在已知TE類型的鑒定上,RS的表現(xiàn)不及RM,但本研究發(fā)現(xiàn)RS構(gòu)建的大熊貓重復(fù)序列的一致性序列中,有20%并不屬于現(xiàn)有的重復(fù)序列類型,排除部分假陽(yáng)性的結(jié)果,其中也可能包含一些大熊貓?zhí)赜械腡E類型。因此通過(guò)整合多種算法優(yōu)化TE識(shí)別率,深入研究潛在的新的重復(fù)序列,將有可能全面揭示大熊貓基因組在重復(fù)序列上與其他食肉目動(dòng)物的重要差異。
Bao Z, Eddy SR. 2002. Automateddenovoidentification of repeat sequence families in sequenced genomes[J]. Genome Research, 12(8): 1269-1276.
Bedell JA, Korf I, Gish W. 2000. MaskerAid: a performance enhancement to RepeatMasker[J]. Bioinformatics, 16(11): 1040-1041.
Belancio VP, Deininger PL, Roy-Engel AM. 2009. LINE dancing in the human genome: transposable elements and disease[J]. Genome Medicine, 1(10): 97.
Bergman CM, Quesneville H. 2007. Discovering and detecting transposable elements in genome sequences[J]. Briefings in Bioinformatics, 8(6): 382-392.
Clark LA, Wahl JM, Rees CA,etal. 2006. Retrotransposon insertion inSILVis responsible for merle patterning of the domestic dog[J]. Proceedings of the National Academy of Sciences of the United States of America, 103(5): 1376-1381.
Copeland NG, Jenkins NA. 2010. Harnessing transposons for cancer gene discovery[J]. Nature Reviews Cancer, 10(10): 696-706.
Fernando A, Huan J, Blumenstiel JP,etal. 2012. Identification of transposable elements of the giant panda (Ailuropodamelanoleuca) genome[C]// IEEE International Conference-on Bioinformatics and Biomedicine Workshops: IEEE Computer Society: 674-681.
Kohany O, Gentles AJ, Hankus L,etal. 2006. Annotation, submission and screening of repetitive elements in Repbase: RepbaseSubmitter and Censor[J]. BMC Bioinformatics, 7(7): 1-7.
Lander ES, Linton LM, Birren B,etal. 2001. Initial sequencing and analysis of the human genome[J]. Nature, 409(6822): 860-921.
Li R, Fan W, Tian G,etal. 2010. The sequence anddenovoassembly of the giant panda genome[J]. Nature, 463(7279): 311-317.
Li R, Ye J, Li S,etal. 2005. ReAS: recovery of ancestral sequences for transposable elements from the unassembled reads of a whole genome shotgun[J]. PLoS Computational Biology, 1(4): e43. DOI:10.1371/journal.pcbi.0010043.
Li X, Kahveci T, Settles AM. 2008. A novel genome-scale repeat finder geared towards transposons[J]. Bioinformatics, 24(4): 468-476.
Lupski JR. 2011. Retrotransposition and structural variation in the human genome[J]. Cell, 141(7): 1110-1112.
Pontius JU, Mullikin JC, Smith DR,etal. 2007. Initial sequence and comparative analysis of the cat genome[J]. Genome Research, 17(11): 1675-1689.
Price AL, Jones NC, Pevzner PA. 2005.Denovoidentification of repeat families in large genomes[J]. Bioinformatics, 21(Suppl 1): i351-i358.
Ray DA, Batzer MA. 2010. Reading TE leaves: new approaches to the identification of transposable element insertions[J]. Genome Research, 21(6): 813-820.Smit A, Hubley R, Green P. 2016. RepeatMasker website and server[CP/OL]. (2016-9-12)[2016-10-15]. http://www.repeatmasker.org/.
Walters-Conte KB, Johnson DL, Allard MW,etal. 2011. Carnivore-specific SINEs (Can-SINEs): distribution, evolution, and genomic impact[J]. Journal of Heredity, 102(Suppl 1): S2-S10.
Walters-Conte KB, Johnson DL, Johnson WE,etal. 2014. The dynamic proliferation of CanSINEs mirrors the complex evolution of Feliforms[J]. BMC Evolutionary Biology, 14(1): 1-15.
Wang W, Kirkness EF. 2005. Short interspersed elements (SINEs) are a major source of canine genomic diversity[J]. Genome Research, 15(12): 1798-1808.
Annotations of the Repeat Elements inAiluropodamelanoleuraGenome Based on Two Strategies
PENG Changjun1, NIU Lili2, DENG Jiabo2, YU Jianqiu2, LI Jing1*
(1. Key Laboratory of Bio-resources and Eco-environment, Ministry of Education, College of Life and Sciences, Sichuan University,Chengdu 610065, China; 2. Sichuan Wild Animal Research Institute, Chengdu Zoo, Chengdu 610081, China)
Repeat elements, especially the transposable elements (TEs) are very important in the eukaryotic genomes contributing to the variation in genome architecture and being involved in wide ranges of biological processes such as gene mutation or activation and various types of diseases. In the present study, the TE content, type, copy number, subfamily, divergence rate and average length were investigated in the panda genome based on 2 strategies: the library based strategy of RepeatMasker (RM) and thedenovobased strategy of RepeatScout (RS). The 2 strategies were compared and the results showed that the copy number of most TEs annotated by RM were significantly more than that by RS, whereas RM identified less copy number than RS in some TE subfamilies. Moreover, RM successfully identified much more TE subfamilies than RS, and the average length of each type of TEs annotated by RM was longer than that annotated by RS. In addition, we constructed 3 400 consensus sequences of giant panda repeat elements using RS, and 20% of which were different from consensus sequences of those elements in the database, thus might include panda lineage specific repeat elements.
repeat; transposable element; RepeatMasker; RepeatScout;Ailuropodamelanoleura
2016-10-26 接受日期:2016-12-01
成都大熊貓繁育研究基金會(huì)項(xiàng)目(CPF2014-13)
彭長(zhǎng)軍, 男, 碩士研究生, 研究方向:哺乳動(dòng)物基因組遺傳信息分析, E-mail:jj-5380682@163.com
*通信作者Corresponding author, E-mail:ljtjf@126.com
10.11984/j.issn.1000-7083.20160293
R857.3; Q959.838
A
1000-7083(2017)02-0121-10