陳松波,龔 麗,劉海金
(1.東北農(nóng)業(yè)大學(xué)動(dòng)物科學(xué)技術(shù)學(xué)院,哈爾濱 150030;2.中國(guó)水產(chǎn)科學(xué)研究院,北京 100039)
微衛(wèi)星(Microsatellites)也叫簡(jiǎn)單重復(fù)序列(Simple sequence repeat,SSR),是目前穩(wěn)定性和多態(tài)性相對(duì)較高、具共顯性、分布均勻且數(shù)量豐富的一種分子標(biāo)記,被廣泛應(yīng)用于動(dòng)植物的遺傳研究和育種實(shí)踐中。例如構(gòu)建遺傳圖譜[1]、進(jìn)行QTL定位[2]、親緣關(guān)系鑒定[3-4]及遺傳多樣性分析[5-6]等。傳統(tǒng)上,分離SSR標(biāo)記是依賴于對(duì)基因組文庫(kù)的構(gòu)建,采用的是重復(fù)序列探針和陽性克隆測(cè)序來開發(fā)基因座上的特定引物。這種方法雖適用于許多生物,但是由于技術(shù)復(fù)雜,費(fèi)時(shí)費(fèi)力,反而限制了基因組SSR的進(jìn)一步利用。
隨著國(guó)際公共數(shù)據(jù)庫(kù)中基因組DNA序列激增,表達(dá)序列標(biāo)簽(Expressed sequence tag,EST)自1991年起也呈指數(shù)增長(zhǎng)趨勢(shì)。而大多數(shù)表型差異基本上是DNA水平上變化引起的,特別是表達(dá)基因的堿基序列,因此,通過搜索現(xiàn)成的數(shù)據(jù)庫(kù)來發(fā)掘SSR標(biāo)記,極大地縮短了標(biāo)記開發(fā)時(shí)間,同時(shí)節(jié)省了大量經(jīng)費(fèi)。目前從EST中開發(fā)SSR標(biāo)記正成為新標(biāo)記開發(fā)的焦點(diǎn),尤其是在植物上已開展了多個(gè)物種EST-SSR標(biāo)記的開發(fā)及應(yīng)用,如西瓜[7]、白菜[8]、油菜[9]、香菇[10]、柑橘[11]等。自2000年起,也相繼展開了從魚類(如羅非魚[12]),貝類(如海灣扇貝(Argopecten irradians)[13])及蝦類(如中國(guó)對(duì)蝦(Fenneropenaeus chinensis)[14])的EST中開發(fā)SSR標(biāo)記的研究。Serapion等2004年就曾報(bào)道從斑點(diǎn)叉尾(Ictalurus punctatus)數(shù)據(jù)庫(kù)中采用生物信息學(xué)方法開發(fā)EST-SSRs的研究[15]。Yue等從鯉魚部分EST數(shù)據(jù)庫(kù)采集數(shù)據(jù)開發(fā)出一些EST-SSR標(biāo)記,并將這些標(biāo)記應(yīng)用于銀鯽的遺傳性分析[16]。本研究將對(duì)NCBI數(shù)據(jù)庫(kù)中所有牙鲆(Paralichthys olivaceus)EST序列進(jìn)行SSR檢索,并分析ESTSSR分布的頻率及堿基重復(fù)特點(diǎn),為牙鲆ESTSSR的遺傳分布規(guī)律提供一個(gè)基本的認(rèn)識(shí),并為牙鲆EST-SSR標(biāo)記的開發(fā)及應(yīng)用研究提供有價(jià)值的信息。
從 NCBI數(shù)據(jù)庫(kù)(http://www.ncbi.nlm.nih.gov/dbEST)中搜索所有牙鲆的EST序列,搜索結(jié)果均以FASTA格式顯示,并且以文本文件的格式保存,用于生物信息學(xué)分析。
對(duì)檢索到的EST序列采用VectorNTI Contig-Express軟件進(jìn)行重疊群分析和聚類以去除冗余序列,除去5'端或3'端的polyT或polyA,初始裝配參數(shù)為最小重復(fù)堿基數(shù)(Minmatch)為20,最小得分值(Minscore)為40,每一個(gè)聚類需經(jīng)過檢查以確保其準(zhǔn)確度,從而避免由微衛(wèi)星重復(fù)基元和長(zhǎng)字符串引起的假聚類。
在線(http://www.gramene.org/db/searches/ssrtool)對(duì)聚類后的EST進(jìn)行微衛(wèi)星序列搜索。選取重復(fù)次數(shù)在6次及以上的雙堿基重復(fù)序列,5次及以上的三堿基重復(fù)序列,重復(fù)次數(shù)在4次以上的四堿基和五堿基重復(fù)序列,重復(fù)次數(shù)在3次以上的六堿基重復(fù)序列均為完全重復(fù),并對(duì)搜索出的SSR的頻率與長(zhǎng)度進(jìn)行統(tǒng)計(jì)和分析。
本研究共搜索到8 842條牙鲆ESTs序列,這些序列來自其頭、腎、肝臟、脾臟、肌肉、心臟、腦、腸、胃、卵巢、皮膚等多個(gè)組織的cDNA克隆。經(jīng)聚類和組合后,共得到5 927條無冗余EST序列,總長(zhǎng)度為3.72×106bp,平均長(zhǎng)度為627 bp。在線進(jìn)行SSR的搜索結(jié)果表明,這些無冗余的EST序列共發(fā)現(xiàn)分布于390條EST中的471個(gè)SSR,平均7.9 kb出現(xiàn)1個(gè)SSR,出現(xiàn)頻率為7.95%。在390條含有SSR的EST中,只含有1個(gè)SSR的EST有313條,含有2個(gè)SSR的有62條,含有3個(gè)SSR的有13條,含有4個(gè)SSR的有2條。SSR重復(fù)基元類型豐富,包括二堿基序列、三堿基序列、四堿基序列、五堿基序列和六堿基序列。重復(fù)基元含量最多的為二核苷酸重復(fù),共有278個(gè),所占比例達(dá)到全部SSR的59.02%,在全部EST中的出現(xiàn)頻率為4.69%;其次為三核苷酸重復(fù),占全部SSR比例的26.33%,出現(xiàn)頻率為2.09%(見表1)。四核苷酸重復(fù)、五核苷酸重復(fù)和六核苷酸重復(fù)類型很少,合計(jì)占所有類型的14.65%,其中五核苷酸序列重復(fù)類型最少,僅占0.21%。由此可見,在牙鲆EST-SSR中,二核苷酸重復(fù)占主導(dǎo)地位。
所篩選出的EST-SSRs共包括112種重復(fù)基元,其中二核苷酸重復(fù)基元10種,三核苷酸重復(fù)基元38種,四核苷酸重復(fù)基元34種,五核苷酸重復(fù)基元1種,六核苷酸重復(fù)基元29種(見表2)。
二核苷酸重復(fù)基元以AC最多,占二核苷酸重復(fù)基元類型的16.91%,其次是TG、CA、GT、TA、GA,分別占二核苷酸重復(fù)基元類型14.03%、13.67%、12.59%、9.71%和8.63%。三核苷酸重復(fù)基元、四核苷酸重復(fù)基元和六核苷酸重復(fù)基元種類較多,但核苷酸重復(fù)基元類型分布相對(duì)分散,出現(xiàn)頻率較低,所占比例也不高,其中三核苷酸重復(fù)基元GAG、CAG和CTG分別占所有三核苷酸重復(fù)基元類型的7.26%、6.45%和6.45%(見表3)。五核苷酸重復(fù)基元種類最少,僅出現(xiàn)(TTTAT)n一種重復(fù)。
表1 牙鲆EST中SSR出現(xiàn)的頻率Table 1 Occurrence frequency of SSRs in a set of Japanese flounder ESTs
表2 牙鲆EST-SSR的重復(fù)基元Table 2 Repeat motif of EST-SSRs in Japanese flounder
牙鲆的基序長(zhǎng)度主要集中在12~24 bp。18 bp的基序長(zhǎng)度最多,有78個(gè),包括9次重復(fù)的二核苷酸基元、6次重復(fù)的三核苷酸基元和3次重復(fù)的六核苷酸基元。其次是15 bp,數(shù)量為65個(gè),系五次重復(fù)的三核苷酸基元?;蜃铋L(zhǎng)的為132 bp,為二核苷酸基元的66次重復(fù)?;蜷L(zhǎng)度在12~20 bp的 SSR占全部 SSR的 72.4%,20~30 bp的占17.41%,大于30 bp的占10.19%。
Temnykh等研究發(fā)現(xiàn),當(dāng)SSR基序長(zhǎng)度大于或等于20 bp時(shí)多態(tài)性較高,長(zhǎng)度在12~20 bp之間的多態(tài)性中等,而長(zhǎng)度在12 bp以下時(shí)多態(tài)性極低[17]。依照此標(biāo)準(zhǔn)可推測(cè)72.4%的牙鲆ESTSSR具有中等多態(tài)性,17.41%的EST-SSR具有較高多態(tài)性。本研究所得的主要基元是二、三核苷酸重復(fù)基元,均屬于低級(jí)基元,表明牙鲆的ESTSSR大部分具有高多態(tài)性潛能,并具有較高的可用性。
表3 主要二核苷酸和三核苷酸重復(fù)基元發(fā)生頻率Table 3 Frequency of main repeat motif in dinucleotide and trinucleotide
本研究分析了牙鲆EST序列中SSR的分布頻率和重復(fù)基元的特點(diǎn),發(fā)現(xiàn)NCBI數(shù)據(jù)庫(kù)中大約有7.95%的牙鲆EST能夠檢索出SSR,這一比例低于斑節(jié)對(duì)蝦(Penaeus monodon)[18](13.7%),紅旗東方(Fugu rubripes)[19(]11.5%)和斑點(diǎn)叉尾[15](11.2%),但又高于櫛孔扇貝(Chlamys farreri)[20](1.61%)、中國(guó)對(duì)蝦[14(]2.2%)、長(zhǎng)牡蠣(Crassostrea gigas)[21](3.63%)海灣扇貝[22](3.9%)、真鯛(Chrysophrys major)[23](4%)和鯉魚[24](5.55%)。這些差異可能由EST-SSR在水產(chǎn)動(dòng)物中高度的物種特異性引起,也可能是由于用來搜尋SSR的軟件不同,所設(shè)定的參數(shù)不同而造成的。
cDNA文庫(kù)的隨機(jī)序列使得EST中的冗余序列比例較高,為了降低分析數(shù)據(jù)的長(zhǎng)度,應(yīng)消除冗余序列。本研究中,EST-SSRs的平均密度在去除冗余序列之前是11.54 kb,而去除之后,平均每7.9 kb出現(xiàn)1個(gè)SSR。因此,在非冗余EST序列中,SSRs的分布頻率能更準(zhǔn)確地反映其在轉(zhuǎn)錄基因組中的密度。
本研究發(fā)現(xiàn)牙鲆EST-SSR重復(fù)基元以二核苷酸為最多,占所有SSR的59.02%,其次是三核苷酸重復(fù),占所有SSR的26.33%,這與中國(guó)對(duì)蝦[25]的研究結(jié)果相一致,而大多數(shù)植物的EST-SSR都以三核苷酸重復(fù)為主[26-27]。牙鲆二核苷酸重復(fù)中AC為優(yōu)勢(shì)基元,這與鯉魚[24]和斑點(diǎn)叉尾[15]的研究結(jié)果相一致。而在櫛孔扇貝中二核苷酸重復(fù)中出現(xiàn)頻率最高的為GC[20],斑節(jié)對(duì)蝦中出現(xiàn)頻率最高的二核苷酸重復(fù)基元為AT[18],長(zhǎng)牡蠣[21]和美國(guó)黃金鱸[28]中以AG/CT重復(fù)基元的數(shù)量最多。在本研究的二核苷酸重復(fù)中各種類型的均具有,而長(zhǎng)牡蠣中未檢測(cè)出CG重復(fù)[21]。這種不同物種EST-SSR主導(dǎo)類型的差異可能是由于各報(bào)道中所用EST來源和EST數(shù)目不同所致。牙鲆的三核苷酸重復(fù)基元、四核苷酸重復(fù)基元和六核苷酸基元種類繁多,分別為38、34和29種,但是基元分布相對(duì)分散。其中,三核苷酸重復(fù)基元略有優(yōu)勢(shì)的為GAG、CAG和CTG,所占比例僅為三核苷酸重復(fù)基元類型的7.26%、6.45%和6.45%,這說明堿基偏倚性不太明顯。
牙鲆EST-SSR的出現(xiàn)頻率較高,且類型豐富。從多態(tài)性潛能角度考慮,這些EST-SSR也具有較高的可用性。本研究對(duì)牙鲆EST-SSR的遺傳分布特點(diǎn)進(jìn)行了歸納總結(jié),為進(jìn)一步開發(fā)牙鲆ESTSSR標(biāo)記提供了基礎(chǔ)資料。EST-SSR標(biāo)記的開發(fā)成本相對(duì)較低,且具有較高的通用性,因此,在親緣關(guān)系鑒定、群體遺傳學(xué)、比較基因組學(xué)以及功能基因組學(xué)等研究方面都具有重要的利用價(jià)值。
[1]孫效文,梁利群.鯉魚的遺傳連鎖圖譜(初報(bào))[J].中國(guó)水產(chǎn)科學(xué),2000,7(1):1-6.
[2]張研,梁利群,常玉梅,等.鯉魚體長(zhǎng)性狀的QTL定位及其遺傳效應(yīng)分析[J].遺傳,2007,29(10):1243-1248.
[3]胡雪松,李池陶,馬波,等.3個(gè)德國(guó)鏡鯉養(yǎng)殖群體遺傳變異的微衛(wèi)星分析[J].水產(chǎn)學(xué)報(bào),2007,31(5):575-582.
[4]張勇,肖禮華,陳祥,等.用微衛(wèi)星標(biāo)記分析貴州地方雞種的遺傳多樣性及親緣關(guān)系[J].中國(guó)畜牧雜志,2009,45(23):1-6.
[5]盛云燕,欒非時(shí),陳克農(nóng).甜瓜SSR標(biāo)記遺傳多樣性的研究[J].東北農(nóng)業(yè)大學(xué)學(xué)報(bào),2006,37(2):165-170.
[6]楊靜,劉海英,錢春榮,等.黑龍江省水稻品種SSR標(biāo)記遺傳多樣性分析[J].2008,39(6):1-10.
[7]VermaM,AryaL.DevelopmentofEST-SSRsinwatermelon(Citrullus lanatus var.Lanatus)and their transferability to Cucumis spp.[J].Journal of Horticultural Science and Biotechnology,2008,83(6):732-736.
[8]忻雅,崔海瑞,盧美貞,等.白菜EST-SSR信息分析與標(biāo)記的建立[J].園藝學(xué)報(bào),2006,33(3):549-554.
[9]李小白,張明龍,崔海瑞.油菜EST-SSR標(biāo)記的建立[J].分子細(xì)胞生物學(xué)報(bào),2007,40(2):137-144.
[10]林范學(xué),程水明,李安政,等.香菇EST-SSR引物篩選[J].農(nóng)業(yè)生物技術(shù)學(xué)報(bào),2007,15(2):358-359.
[11]Chen C X,Zhou P,Choi Y A,et al.Mining and characterizing microsatellites from citrus ESTs[J].Theor Appl Genet,2006,112:1248-1257.
[12]Yue G H,Orban L.Microsatellites from genes show polymorphism in two related Oreochromis species[J].Mol Ecol Notes,2002,2:99-100.
[13]Wan g L L,Song L S,Xu W,et al.Screening microsatellite markers from EST sequences of bay scallop Argopecten irmdians[J].High Technology Letters,2006,12(11):97-102.
[14]Wang H X,Li F H,Xiang J H.Polymorphic EST-SSR markers and their mode of inheritance in Fenneropenaeus chinensis[J].Aquaculture,2005,249:107-114.
[15]Serapion J,Kucuktas H,Feng J N,et al.Bioinformatic mining of type I microsatellites from expressed equence tags of channel catfish(Ictaluruspunctatus)[J].Mar Biotechnol,2004(6):364-377.
[16]Yue G H,Ho M Y,Orban L,et al.Microsatellites within genes and ESTs of common carp and their applicability in silver crucian carp[J].Aquaculture,2004,234:85-98.
[17]Temnykh S,DeClerck G,Lukashova A,et al.Computational and experimental analysis of microsatellites in rice(Oryza sativa L.):frequency,length variation,transposon associations,and genetic marker potential[J].Genome Research,2001(11):1441-1452.
[18]ManeeruttanarungrojC,PongsomboonS,WuthisuthimethaveeS,etal.Development of polymorphic expressed sequence tag derived microsatellites for the extension of the genetic linkage map of the black tiger shrimp(Penaeus monodon)[J].Anim Genet,2006,37:363-368.
[19]Edwards Y J,Elgar G,Clark M S,et al.The identification and characterization of microsatellites in the compact genome of the Japanese puffer fish,Fugu rubripes:Perspectives in functional and comparative genomic analyses[J].J Mol Biol,1998,278:843-854.
[20]Zhan A B,Bao Z M,Hu X L.Characterization of 95 novel microsatellitemarkersforZhikongscallop Chlamysfarreri usingFIASCO-colony hybridization and EST database mining[J].Fisheries Science,2008,74(3):516-526
[21]Yu H,Li Q.Exploiting EST databases for the development and characterization of EST-SSRs in the pacific oyster(Crassostrea gigas)[J].Journal of Heredity,2008,99(2):208-14
[22]Zhan A B,Bao Z M,Wang X L,et al.Microsatellite markers derived from bay scallop Argopecten irradians expressed sequence tags[J].Fish Sci,2005,71:1341-1346.
[23]Chen S L,Liu Y G,Xu M Y,et al.Isolation and characterization of polymorphic microsatellite loci from an EST library of red sea bream(Chrysophrys major)and cross-species amplification[J].Mol Ecol Notes,2005,5:215-217.
[24]Wang D,Liao X L,Cheng L,et al.Development of novel EST-SSR markers in common carp by data mining from public EST sequences[J].Aquaculture,2007,271:558-574
[25]徐鵬,周令華,田麗萍,等.從中國(guó)對(duì)蝦ESTs中篩選微衛(wèi)星標(biāo)記的研究[J].水產(chǎn)科學(xué),2003,27(3):213-218.
[26]VarshneyRK,GranerA,SorrellsME.Genicmicrosatellitemarkers in plants:features and applications[J].TRENDS in Biotechnology,2005,23(1):48-55.
[27]李永強(qiáng),李宏偉,高麗鋒,等.基于表達(dá)序列標(biāo)簽的微衛(wèi)星標(biāo)記(EST-SSRs)研究進(jìn)展[J].植物遺傳資源學(xué)報(bào),2004,5(1):91-95.
[28]Zhan A,Wang Y,Brown B,et al.Isolation and characterization of novel microsatellite markers for yellow perch(Perca flavescens)[J].Int J Mol Sci,2009,10(1):18-27.