陳贏男 戴曉港 馬秋月 劉海琳 李淑嫻
(南京林業(yè)大學,南京,210037)
單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)是許多物種基因組中最常見的變異形式,具有數(shù)量多、分布廣、突變率低、可穩(wěn)定遺傳等特點,被認為是最具發(fā)展?jié)摿Φ姆肿訕擞洠?-2],在遺傳圖譜構建、數(shù)量性狀定位、分子標記輔助育種等方面有著廣泛的應用[3-5]。如,Hyten 等[6]利用1,536 個SNP 標記構建了一個高密度的大豆數(shù)量性狀遺傳圖;Yu 等[7]利用高密度的SNPs 圖譜成功檢測到與稻米粒型粒重相關的數(shù)量性狀位點。此外,某些位于基因內部的SNP 位點可以直接影響基因的功能[8-9]。Fan 等[10]報道了水稻GS3 基因第二外顯子上C-A 單核苷酸突變導致長粒品種中GS3 蛋白翻譯提前終止。與SNP 相比,插入缺失長度多態(tài)性(insertion deletion length polymorphism,InDel)是基因組中另一較為豐富的多態(tài)性資源[11],InDel 所產(chǎn)生的序列改變更為顯著,故其對基因功能的影響也更大[12]。
隨著測序技術的發(fā)展,轉錄組測序已成為解讀基因組功能元件、揭示基因表達與表型之間內在聯(lián)系的重要手段,同時也成為檢測分子標記的重要數(shù)據(jù)源。基于轉錄組及其它EST 序列開發(fā)的分子標記已被廣泛運用于大豆(Giycine max)、玉米(Zea mays)、楊樹(Populus deltoides)等[13-15]等多個物種的遺傳圖譜構建和遺傳多樣性分析中。
碧桃(Prunus persica)是薔薇科桃屬的觀花木本植物,具有花型豐富、花色艷麗、花香獨特等特點,已被廣泛應用于園林綠化。隨著桃樹[16]基因組測序工作的完成,越來越多轉錄組信息的公布[17-18],桃樹分子標記的開發(fā)也日益受到重視[18]。如曹珂等[19]以桃“紅垂枝”與“白花山碧桃”為親本,構建了一個包含206 個標記(18 個SSR,126 個AFLP、61個SRAP 和1 個形態(tài)學標記)遺傳圖譜,并將雌蕊發(fā)育和單瓣/重瓣性狀進行定位;Verde 等[20]對56 個桃樹品種進行重測序,檢測到1 022 354 個SNP。為了進一步豐富碧桃分子標記類型及數(shù)量,本研究利用454 高通量測序技術對碧桃花瓣組織轉錄組進行測序,并對獲得的數(shù)據(jù)進行SNP/InDel 位點查找和分析。
桃花轉錄組測序材料選自南京市情侶園內一株樹齡約5 a 的碧桃(Prunus persica L.)。于2013年3月盛花期采集花瓣,并用液氮迅速冷凍,置于冰箱中-80 ℃保存?zhèn)溆谩?/p>
RNA 提取與cDNA 合成:采用CTAB 法[21]提取總RNA,樣品中殘留的基因組DNA 利用DNase I(RNase Free)來去除,參照Takara 公司的使用說明進行操作。采用Oligotex mRNA 純化試劑盒(Qiagen)對mRNA 進行純化,然后使用cDNA Synthesis System Kit(Roche)合成cDNA。
cDNA 文庫構建與轉錄組測序:使用Rapid Library Prep Kit(Roche)構建測序文庫,并用Agilent 2100 Bioanalyzer 對文庫質量進行檢測。參照標準的測序試驗流程(Roche),利用454 GS FLX 測序儀(454 Life Sciences)對構建好的cDNA 文庫進行測序,利用軟件Newbler v2.8 software(Roche)進行序列拼裝。
核苷酸變異分析:使用拼接后的序列作為參考序列,利用軟件GS Reference Mapper (Roche Inc.,version 2.8)將原始測序片段與參考序列進行比對,檢測核苷酸變異位點,包括轉換、顛換、插入和缺失。軟件參數(shù)設置及序列篩選標準參考Ma 等[22]的研究方法。
含SNP/InDel 序列的功能注釋:利用Blast2go(http://www.blast2go.org)程序,對含有SNP/In-Del 的重疊群序列進行功能注釋(E <10-5)并獲取GO 編號。利用BGI WEGO(http://wego.genomics.org.cn/cgi-bin/wego/index.pl)將獲得的GO 編號進行功能分類。
采用454 GS FLX 測序平臺對碧桃花瓣組織轉錄組測序共獲得1 556 684 條序列,平均讀長446 bp,共有695.34 Mb 的數(shù)據(jù)量。去除低質量序列后有1 492 289 條序列參與組裝,共得到22 762 個重疊群(≥100 bp)和72 719 個singleton。在所得到的重疊群中,長度大于等于500 bp 的重疊群有14 006 個(61.53%),最大重疊群為14 330 bp,重疊群N50 為1 426 bp,平均重疊群(≥500 bp)大小為1 273 bp。數(shù)據(jù)拼接結果見網(wǎng)址:http://115.29.234.170/。
利用454 newbler GS Mapper 軟件,將原始序列比對到組裝好的轉錄組參考序列上,在2 561 個重疊群中共檢測到9 836 個SNP 位點,平均每2 013 bp就有一個SNP。SNP 位點中,轉換6 152 個(A/G、C/T),顛換3 684 個(A/C、A/T、G/T、G/C)。其中,A/G 突變最多,占總數(shù)的31.83%,C/T 突變其次,占到30.71%;C/G 突變最少,占總數(shù)的8.42%(表1)。統(tǒng)計結果顯示,本實驗所檢測到的SNP 大部分集中于長度在100 ~2 100 bp 范圍內的重疊群上,只有1867 個(18.97%)SNP 位點在長度大于2 100 bp的重疊群上檢測到,這是由于組裝后得到的大于2 100 bp 的重疊群本身就比較少。所以本研究檢測到的SNP 數(shù)據(jù)庫見網(wǎng)址:http://115.29.234.170/。
表1 SNP 分類型統(tǒng)計分析
在933 個重疊群中檢測共出1 550 個InDel 位點,包括1,257 個插入突變和293 個缺失突變。與SNP 位點相比,InDel 位點占所有核苷酸變異位點的13.61%。核苷酸插入和缺失突變的變化范圍分別在1 ~53 bp 和1 ~47 bp,其中單核苷酸插入、缺失占所有InDel 位點的34.71%,小于或等于10 bp 的In-Del 總數(shù)占InDel 總量的83.87%。在插入突變中,有468 個位點為單核苷酸插入;在缺失突變中,檢測到最多的是三核苷酸缺失(78 個),其次為單核苷酸缺失(70 個)。無論是插入還是缺失突變,都基本上呈現(xiàn)出位點數(shù)目隨核苷酸變異長度增加而減少的趨勢(表2)。
表2 InDel 位點數(shù)量隨其長度變化分布
以NCBI nr 數(shù)據(jù)庫基因注釋為參考,將3 159 個含有SNP/InDel 的重疊群序列進行BLAST 比對,共有2 655 條(84.05%)序列被匹配,共有8 417 個SNP 位點匹配到2 655 個注釋基因上。在成功注釋的重疊群中有2 204 個被GO 分類,功能分析發(fā)現(xiàn)有1 300 個重疊群參與分子功能、490 個重疊群參與細胞學組件、681 個重疊群參與生物學途徑(圖1)。
分子標記的快速發(fā)展為觀賞園藝植物研究領域開辟了新的途徑。近年來,分子標記技術在花卉品種鑒別、遺傳圖譜構建、分子標記輔助育種等方面的應用也日益廣泛[23-25]。桃屬植物因其基因組較小(2c = 265 Mb,2n = 16)被視為薔薇科的模式植物[26],桃全基因組測序工作的完成使得大規(guī)模分子標記的開發(fā)成為可能。本文通過對碧桃花瓣組織轉錄組測序,拼接后共得到22 762 個重疊群(≥100 bp),其中2 561 個重疊群上檢測到9 836 個SNP 位點,平均每2 013 bp 有一個SNP,發(fā)生轉換和顛換概率的比值(Ts/Tv)為1.67,大于理論上0.5 的比值[27]。對于實際中Ts/Tv值大于0.5 的現(xiàn)象(又稱“轉換偏差”),一種假說認為是由于一些內在的特征如化學組成、結構差異(嘌呤和嘧啶)[28];一種認為這可能由于進化選擇導致,因為轉換偏差更易于保持所編碼蛋白的原有結構,降低有害突變的發(fā)生[29-30]。
在多數(shù)有關SNP 變異類型的報道中,C/T 所占比例最高,目前人們普遍認同的觀點是CG 二聯(lián)碼的C 常被甲基化,容易脫氨基轉換成T 從而成為突變熱點[31-32]。在碧桃花瓣轉錄組轉換位點中,A/G、C/T 兩種變異類型幾乎相等C/T(1.04:1),但C/T 所占比例與大麥、小麥、辣椒等物種中的SNP 堿基變異類型相似[3,33-34]。在顛換變異類型中,A/T 發(fā)生的頻率最高,C/G 發(fā)生的頻率最小,部分原因可能是由于桃樹基因組本身GC 含量就比較小(37.07%)導致的。
遍布于整個基因組的InDel 頻率僅次于SNP[35],InDel 作為重要的遺傳標記已被廣泛用于作物連鎖圖譜的構建及多樣性研究[36]。本研究在933 個重疊群中檢測出1 550 個InDel 位點,1 bp 長InDel 的比例超過InDel 總量的30%,插入和缺失的數(shù)量都隨著InDel 長度的增加而下降。這種長度與數(shù)量的相關性在許多植物中都有報道[22,28,37]。較長的InDel 可能對生物有不同程度的危害,其比例也相對很少[38]。
隨著碧桃基因組、轉錄組測序研究的不斷深入,其SNP/InDel 資源將更加豐富。本研究中檢測到SNP/InDel 位點將有助于研究核苷酸變異引起的蛋白質功能的變化,同時,這些多態(tài)性位點可以開發(fā)成分子標記應用到基因的圖位克隆及分子標記輔助育種中。
[1] Brooker A J.The essence of SNPs[J].Gene,1999,234(2):177-186.
[2] Gray I C,Campbell D A,Spurr N K:Single nucleotide polymorphisms as tools in human genetics[J].Human Molecular Genetics,2000,9(16):2403-2408.
[3] Chao S,Zhang W,Akhunov E,et al.Analysis of gene-derived SNP marker polymorphism in US wheat (Triticum aestivum L.)cultivars[J].Molecular Breeding,2008,23(1):23-33.
[4] Niu P X,Huang Z,Li C C,et al.Cloning,chromosomal localization,SNP detection and association analysis of the porcine IRS-1 gene[J].Molecular Biology Reports,2009,36(8):2087-2092.
[5] Ren G,Chen H,Zhang L Z,et al.A coding SNP of LHX4 gene is associated with body weight and body length in bovine[J].Molecular Biology Reports,2010,37(1):417-422.
[6] Hyten D L,Choi I Y,Song Q,et al.A high density integrated genetic linkage map of soybean and the development of a 1536 universal soy linkage panel for quantitative trait locus mapping[J].Crop Science,2010,50(3):960-968.
[7] Yu H H,Xie W B,Wang J,et al.Gains in QTL detection using an ultra-high density SNP map based on population sequencing relative to traditional RFLP/SSR markers[J].PLoS ONE,2011,6(3):e17595.
[8] Isshiki M,Morino K,Nakajima M,et al.A naturally occurring functional allele of the rice waxy locus has a GT to TT mutation at the 5’splice site of the first intron[J].The Plant Journal,1998,15(1):133-138.
[9] Abe F,Saito K,Miura K,et al.A single nucleotide polymorphism in the alternative oxidase gene among rice varieties differing in low temperature tolerance[J].FEBS Letters,2002,527(1):181-185.
[10] Fan C,Xing Y,Mao H,et al.GS3,a major QTL for grain length and weight and minor QTL for grain width and thickness in rice,encodes a putative transmembrane protein[J].Theoretical and Applied Genetics,2006,112(6):1164-1171.
[11] Edwards J D,Lee V M,McCouch S R.Sources and predictors of resolvable indel polymorphism assessed using rice as a model[J].Molecular Genetics and Genomics,2004,271(3):298-307.
[12] Petrov D A.Mutational equilibrium model of genome size evolution[J].Theoretical Population Biology,2002,61(4):531-544.
[13] Barbazuk W B,Emrich S J,Chen H D,et al.SNP discovery via 454 transcriptome sequencing[J].The Plant Journal,2007,51(5):910-918.
[14] 張新葉,宋叢文,張亞東,等.楊樹EST-SSR 標記的開發(fā)[J].林業(yè)科學,2009,45(9):53-59.
[15] Shu Y,Li Y,Zhu Z,et al.SNPs discovery and CAPS marker conversion in soybean[J].Molecular Biology Reports,2011,38(3):1841-1846.
[16] Verde I,Abbott A G,Scalabrin S,et al.The high-quality draft genome of peach (Prunus persica)identifies unique patterns of genetic diversity,domestication and genome evolution[J].Nature Genetics,2013,45(5):487-494.
[17] Wang Lu,Zhao Shuang,Gu Chao,et al.Deep RNA-Seq uncovers the peach transcriptome landscape[J].Plant Molecular Biology,2013,83(4/5):365-377.
[18] 李雄偉,賈惠娟,高中山.桃基因組學及全基因組關聯(lián)分析研究進展[J].遺傳,2013,35(10):1167-1178.
[19] 曹珂,王力榮,朱更瑞,等.桃遺傳圖譜的構建及兩個花性狀的分子標記[J].園藝學報,2009,36(2):179-186.
[20] Verde I,Bassil N,Scalabrin S,et al.Development and evaluation of a 9K SNP array for peach by internationally coordinated SNP detection and validation in breeding germplasm[J].PLoS ONE,2012,7(4):e35668.
[21] Liu J,Yin T,Ye N,et al.Transcriptome analysis of the differentially expressed genes in the male and female shrub willows(Salix suchowensis)[J].PloS ONE,2013,8(4):e60181.
[22] Ma Q,F(xiàn)eng K,Yang W,et al.Identification and characterization of nucleotide variations in the genome of Ziziphus jujuba(Rhamnaceae)by next generation sequencing[J].Molecular Biology Reports,2014,41(5):3219-3223.
[23] 侯小改,尹偉倫,李嘉玨,等.部分牡丹品種遺傳多樣性的AFLP 分析[J].中國農業(yè)科學,2006,39(8):1709-1715.
[24] 田曄林,劉克鋒,石愛平,等.一串紅品種遺傳多樣性RAPD分析[J].中國農學通報,2006,22(5):76-78.
[25] 于恒秀,王淼,梁國華,等.ISSR 引物鑒定芍藥栽培品種之間親緣關系的初步研究[J].植物生理學通訊,2006,42(2):271-274.
[26] 徐勇.桃花發(fā)育相關MADS box 基因研究[D].北京:首都師范大學生命科學學院,2007.
[27] 趙輝,李啟寨,李俊,等.相鄰堿基組分與產(chǎn)生SNP 的轉換或顛換在植物基因組中的研究[J].中國科學:C 輯,2006,36(1):1-8.
[28] 唐萍,王強,陳建群.茄科植物葉綠體基因組插入,缺失和核苷酸替代的發(fā)生方式及影響[J].遺傳,2008,30(11):1506-1512.
[29] Li W H,Wu C I,Luo C C.Nonrandomness of point mutation as reflected in nucleotide substitutions in pseudogenes and its evolutionary implications[J].Journal of Molecular Evolution,1984,21(1):58-71.
[30] Wakeley J.The excess of transitions among nucleotide substitutions:new methods of estimating transition bias underscore its significance[J].Trends in Ecology Evolution,1996,11(4):158-162.
[31] Bird A P.DNA methylation and the frequency of CpG in animal DNA[J].Nucleic Acids Research,1980,8(7):1499-1504.
[32] Gruenbaum Y,Naveh Many T,Cedar H,et al.Sequence specificity of methylation in higher plant DNA[J].Nature,1981,292:860-862.
[33] Sato K,Close T J,Bhat P,et al.Single nucleotide polymorphism mapping and alignment of recombinant chromosome substitution lines in barley[J].Plant and Cell Physiology,2011,52(5):728-737.
[34] 劉峰,謝玲玲,弭寶彬,等.辣椒轉錄組SNP 挖掘及多態(tài)性分析[J].園藝學報,2014,41(2):343-348.
[35] 孫寬,張素華,朱如心,等.新一代遺傳標記:InDel 研究進展[J].法醫(yī)學雜志,2013,29(2):134-139.
[36] 張體付,葛敏,韋玉才,等.玉米功能性Insertion/Deletion(In-Del)分子標記的挖掘及其在雜交種純度鑒定中的應用[J].玉米科學,2012,20(2):64-68.
[37] Batley J,Barker G,O’Sullivan H,et al.Mining for single nucleotide polymorphisms and insertions/deletions in maize expressed sequence tag data[J].Plant Physiology,2003,132(1):84-91.
[38] Tenaillon M I,Sawkins M C,Anderson L K,et al.Patterns of diversity and recombination along chromosome 1 of maize (Zea mays ssp.mays L.)[J].Genetics,2002,162(3):1401-1413.