霍愷森 曹清河 王珧 陳艷麗 朱國鵬
摘 ?要Ipomoea littoralis是甘薯的近緣野生種之一,對其全基因組的研究可為甘薯種質資源的創(chuàng)新提供參考,同時為全基因組精細圖譜的繪制打下基礎。本研究通過二代高通量測序技術(Illumina Hiseq 2500),測序深度約為60?,經(jīng)過濾后得到22.45 G數(shù)據(jù),結合生物信息學手段估算基因組大小、雜合率、重復序列和GC含量等基因組特征。預估基因組大小經(jīng)修正后為676.27?Mb。K-mer分析結果得出I.littoralis基因組中重復序列所占比率為60.98%,雜合率為0.81%;初步組裝結果,contigs N50為0.684 kb,總讀長為0.538 Gb,scaffolds N50為12.09 kb,總讀長為0.602?Gb;GC平均深度及含量分布出現(xiàn)分層現(xiàn)象。本研究首次報道I.littoralis的基因組特征信息,為進一步全基因組深度測序提供參考。
關鍵詞 ?甘薯;基因組調查;Ipomoea littoralis;種質資源中圖分類號??S531??????文獻標識碼??A
Genome Survey Analysis of Relative Wild Species Ipomoea Littoralis?in Sweetpotato
HUO?Kaisen1,2, CAO?Qinghe2, WAND?Yao1,?CHEN?Yanli1*,ZHU?Guopeng1
1. College of Horticulture,?Hainan University,?Haikou, Hainan 570228, China; 2. Xuzhou Institute of Agriculture, Xuzhou, Jiangsu 221131, China
Abstract ?Ipomoea littoralisis one of the wild relatives of sweet potato. Its genome-wide research can provide reference for the innovation of sweet potato germplasm resources and for the mapping of the whole genome.This study used a second-generation high-throughput sequencing technology (Illumina Hiseq 2500) with a sequencing depth of approximately 60??and filtered to obtain 22.45 G data. Bioinformatics was used to estimate genome size, heterozygosity, repeat sequence and GC. The predicted genome size was 676.27 Mb. The K-mer analysis showed that the ratio of repeats was 60.98%, and the heterozygosity rate was 0.81%. The contigs N50 was 684 kb after preliminary assembly. The total reading length was 0.538 Gb, scaffolds N50 was 12.09 kb, and the total reading length was 0.602 Gb. The average depth and content distribution of GC were stratified.
Keywords ?sweet?photo; genome survey;Ipomoea littoralis; germplasm resources
DOI10.3969/j.issn.1000-2561.2019.10.012
甘薯[Ipomoea batatas(L.) Lam]是旋花科(Convolvulaceae)甘薯屬(Ipomoea)植物,在亞、非、拉美等熱帶及亞熱帶地區(qū)廣為栽培,是一種重要的糧食、蔬菜、工業(yè)原料作物及新型能源作物[1]。而Ipomoea littoralis作為甘薯的近緣野生種之一,可能攜帶大量的優(yōu)異基因,對甘薯種質資源的創(chuàng)新具有重要意義。植物的基因組反應了生物的全部的、特定的遺傳信息,從根本上決定了遺傳物質的傳遞。基因組含量又稱為C值,是指一個物種單倍體核的DNA含量[2]。同一物種的基因組含量是穩(wěn)定的, 也是各個物種固有的特征參數(shù)[3]。相對于缺乏基因組數(shù)據(jù)的非模式資源植物來看,基因組特征的研究是分子機理研究和植物基因資源開發(fā)的前提[4]。在對基因組大小的檢測技術從復性動力學估算法[5],到脈沖凝膠電泳法[6],到流式細胞法[7],再到現(xiàn)在的高通量測序K-mer估計法[8]。隨著測序成本的降低,令越來越的植物的基因組測序成為可能,目前主要的平臺包括Roche 454,ABI SOLiD以及Illumina HiSeq 2500等,近年來Illumina HiSeq 2500憑借較低的成本已應用于多個物種的測序工作[9]。目前,在番薯屬中已知三裂葉薯(Ipomoeatriloba)、三淺裂野牽牛(Ipomoea trifida)、甘薯(Ipomoea batatas)、馬鞍藤[Ipomoea pes-caprae(L.)]以及日本牽牛(Ipomoea nil)的基因組大小信息,而對于I.littoralis基因組信息未見報道。本研究通過高通量測序技術(Illumina HiSeq 2500),結合K-mer分析法,對I.littoralis的基因組大小及其特征進行評估,填補I.littoralis基因組信息的空白。為后續(xù)全基因組的測序策略以及精細基因圖譜的繪制打下基礎,同時也為近源野生種的基因資源利用提供參考。
1.1材料
實驗材料I.littoralis(2n=2x=30)由國家種質徐州甘薯試管苗庫提供,采集栽種后植株的幼嫩葉片,液氮速凍后超低溫冰箱保存。
1.2方法
1.2.1??基因組DNA的提取及檢測??采用改良CTAB法提取I.littoralis葉片基因組DNA(參照蘇一鈞等[10]),通過紫外分光光度計(NanoDrop)和1%瓊脂糖凝膠電泳檢測基因組DNA質量。
1.2.2??文庫構建及測序??將檢測合格的DNA樣品,通過超聲波破碎儀(Covaris)隨機打斷成長度為250 bp的片段,后經(jīng)末端修復、加A尾、加測序接頭、純化、PCR擴增等步驟完成整個文庫制備。將構建好的文庫委托北京諾禾致源科技股份有限公司,通過Illumina Hiseq 2500平臺進行PE測序,將得到數(shù)據(jù)結果進行過濾,去除低質量的序列獲得有效數(shù)據(jù)用于后續(xù)基因組大小及其他基因組特征的分析。
1.2.3??K-mer統(tǒng)計分析??在得到測序后的有效數(shù)據(jù)后,基于K-mer分析法對基因組的大小、雜合率、重復序列及GC含量等信息進行預估。采用K值為17[11]進行估算分析,通過對數(shù)據(jù)進行17?nt的連續(xù)分割,假設從每條序列中逐堿基取出的所有K-mer能夠遍歷整個基因組,并且K-mer深度頻率分布服從泊松分布。即可通過所有測序數(shù)據(jù)中逐堿基取K-mer,并且統(tǒng)計K-mer頻數(shù)分布,作出K-mer深度分布曲線和深度乘積曲線,從而獲得?K-mer深度估計值。利用公式:基因組大小=K-mer總數(shù)/K-mer期望深度預估基因組大小。
基于貝葉斯模型和K-mer所有的頻率數(shù)和深度屬性,可以得到并且通過迭代來修正,由此反映基因組的雜合率和重復序列的情況。
1.2.4?基因組初步組裝??將所有小片段庫測序得到的reads截斷成更小的序列片段,通過他們之間的重疊關系構建de?Brujin圖;簡化de Brujin圖去掉無法繼續(xù)連接的分支、低覆蓋度的分支,并且利用reads信息化簡重復序列在de Brujin 圖的分叉通路,對于少量的雜合位點,采用隨機選擇策略,合并雜合位點;得到一個簡化后的de Brujin圖,在每個分叉位點將序列截斷,得到了最初的contigs。將所有文庫測序得到的reads比對回初步得到的contigs,利用reads之間的連接關系和插入片段大小信息,將contigs組裝成scaffolds。將有效數(shù)據(jù)與原始序列進行對比,獲得堿基深度后,以10?kb為窗口,在序列上無重復前進,從而繪制GC depth點圖。
2.1測序數(shù)據(jù)統(tǒng)計及K-mer分析預測基因組特征
通過Illumina Hiseq 2500高通量測序平臺對I.littoralis進行測序后,在去除低質量的數(shù)據(jù)后,得到22.45 G,測序覆蓋度為59.87 ?,有效數(shù)據(jù)用于后續(xù)分析及初步組裝。
將22.45?G測序數(shù)據(jù)用于K-mer分析,K值取17,獲得其頻率分布(圖1)。如圖1A,將17-mer的深度作為橫坐標,將出現(xiàn)的頻率作為縱坐標;如圖1B,將17-mer深度作為橫坐標,將各個深度下K-mer種類數(shù)頻率作為縱坐標。如圖1所示17-mer分布曲線在深度為39附近有一處純合峰,即對應橫坐標為K-mer期望深度。
通過公式:基因組大小=K-mer總數(shù)/K-mer期望深度,得出其基因組大小為683.94?Mb,經(jīng)修正后為676.27?Mb。17-mer分布曲線出現(xiàn)較為明顯的拖尾現(xiàn)象。由數(shù)學計算可得,Ipomoea Littoralis雜合率為0.81%,重復序列比例為60.98%。
2.2基因組數(shù)據(jù)初步組裝結果
通過SOAP-denovo軟件對有效數(shù)據(jù)進行denovo組裝,選取K=41得到最佳拼接效果,即N50值最恰當(N50為將reads按照從長到短排列后依次相加,當為總長度一半時最后加上的reads長度)[5]。組裝結果如表1所示,獲得contigs N50為732?bp,其中最大長度為31?860?bp,總長為466?199 686 bp;經(jīng)過進一步組裝后得到Scaffold N50為501 226 bp,最大長度為53 296 bp,總長為521 635 265?bp。如圖2所示,I.littoralis的Contig分布具有1個明顯的峰值,結合17-mer的結果,通過分析判斷出I.littoralis是峰值在27左右的純合峰。
注:在上述統(tǒng)計結果中,只對大于100?bp的scaffold進行統(tǒng)計;contig統(tǒng)計是針對組裝好的長度大于等于100?bp的scaffold內部的contig 進行的統(tǒng)計。
Note: In the above statistical results, only the scaffold larger than 100 bp is counted; the contig statistic is the statistics of the contig inside the scaffold assembled with a length of 100 bp or more.
2.3GC含量及深度分析
通過基因組中堿基組成,鳥嘌呤(G)、腺嘌呤(A)、胞嘧啶(C)、胸腺嘧啶(T)的相對含量,在全基因組尺度上一般用GC含量(GC-content)表示[12]。
對經(jīng)過組裝的Contig進行GC含量的統(tǒng)計,結果如圖3所示,測序不具有明顯的GC偏向,未出現(xiàn)細菌污染的情況,GC含量分布主要集中在40%。其中I.littoralis的GC含量分為低深度區(qū)域和高深度區(qū)域兩個部分,其中低深度區(qū)域約為高深度區(qū)域的一半。這可能由于在組裝過程中,過高的雜合率導致兩條同源染色體單條組裝,導致GC含量出現(xiàn)異常。
2.4基因組大小與其他番薯屬植物比較
甘薯(I.?batatas)基因組預估值為1.58?Gb[13];三淺裂野牽牛(I.?trifida)基因組預估值為526.4?Mb,三裂葉薯(I.?triloba)基因組預估值為495.9?Mb[14],馬鞍藤[I.?pes-caprae(L.)]基因組預估值為1041.65 Mb[15]。本研究預估I.littoralis基因組大小修正后約為676.27 Mb。其中,甘薯基因組大小較大,這可能是由于栽培種甘薯為遺傳背景復雜所導致。而I.littoralis基因組大小略大于三淺裂野牽牛和三裂葉薯;有學者認為,物種的進化包括了DNA含量的增加與減少,強調指出物種進化與DNA含量的關系是復雜的[16]。此外,也有資料明確表示,在相近物種中,進化的物種基因組出現(xiàn)壓縮是自然界常觀察到的現(xiàn)象[17]。Price等[18]認為的在一個種內不同亞種或品種間核DNA值存在不一致的情況,這也為甘薯的物種親緣遠近關系的研究提供了新的思路。
A:Contig 覆蓋深度和長度分布圖;B:Contig 覆蓋深度和數(shù)量分布圖。
A: Contig coverage depth and length profile figure; B: Contigcoverage depth and quantity distribution.
基因組大小又稱DNA C值,是比較和進化基因組學的基礎,通過不同物種基因組大小的比較與分析,對基因組大小的變化規(guī)律具有參考意義。C值大小與染色體體積呈正相關。C值越小則染色體體積越小,細胞核與細胞體積就越小,細胞增殖時間也相對變短,分生組織生長速度便會加快,幼苗生長速度快,競爭能力增強,世代時間有可能縮短,呈現(xiàn)不同的生活周期類型的可能性增大,生態(tài)適應性增大,也就是植物的入侵性越強[19]。也有一些研究表明,通過比較瀕危植物和其非瀕危的近親之間的基因組大小的關系發(fā)現(xiàn),基因組越大的物種,其瀕危程度越高[20]。由此推測,I.littoralis可能具有較強的適應能力。
流式細胞術是目前應用較為廣泛的基因組大小測定方法,在毛竹(Phyllostachys edulis)[21] 、五節(jié)芒(Miscanthus floridulus)[22]等植物中都有應用。隨著高通量測序技術的發(fā)展,為基因組評估與測定提供了更快捷的方法。曹清河等[23]應用二代測序與三代測序相結合的方式完成了Ipomoea trifida的全基因組測序,并完成了精細基因圖譜的繪制。本文采用的二代測序Illumina HiSeq 2500平臺,通過K-mer分析法根據(jù)全基因組測序片段的K-mer深度分布預估該物種基因組大小、雜合率、GC含量等信息。相比傳統(tǒng)的流式細胞術測定基因組大小,高通量測序的方法可獲得更全面準確的基因組信息,進一步了解雜合率、GC含量等基因組信息。
I.littoralisGC含量在30%~47%。而研究表明過高(>65%)或者過低(<25%)的GC含量會造成高通量測序時的測序偏差錯誤,甚至影響拼接數(shù)據(jù)的準確性[24]。通過基因組survey分析有利于選取適合的基因拼接方式,根據(jù)雜合率的大小可將基因組分為微雜合基因組(0.5%≤雜合率<0.8%)、高雜合基因組(雜合率≥0.8%)以及高重復基因組(重復序列比例≥50%)[25],過高的雜合率將會拼接質量產(chǎn)生影響。本研究中I.littoralis的雜合率高達0.81%,屬于高雜合基因組。因此,在組裝過程中可考慮使用WGS(whole-genome shotgun)+Bac-to-Bac和NOVOheter的策略。
參考文獻
[1] 曹清河, 李雪華, 戴習彬, 等. PEG-6000 模擬干旱脅迫對甘薯近緣野生種Ipomoea trifida (Kunth) G. Don 幼苗生理生化指標的影響[J]. 西南農(nóng)業(yè)學報, 2016, 29(11):2536-2541.
[2] 李蔚, 劉莉莎, 李仁, 等. 十字花科蔬菜基因組含量的測定與分析[J]. 植物遺傳資源學報, 2011, 12(1):103-106.
[3] 楊勇, 陳克成, 孫天恩. 對幾種百合科植物基因組大小的評價[J]. 武漢植物學研究, 1996, 14(3): 199-203.
[4] 王雪, 周佳熠, 孫會改, 等. 新疆沙冬青基因組調查測序與基因組大小預測[J]. 植物遺傳資源學報, 2018, 19(1):143-149.
[5] Frenkel N, Roizman B. Herpes vimplex virus: genome sizeand redundancy studied by renaturation kinetics[J]. Journalof Virology, 1971, 8(4): 591-593.
[6] Chen H, Keseler I M, Shimkets L J. Genome size of Myxococcusxanthus determined by pulsed-field gel electrophoresis[J]. Journal of Bacteriology, 1990, 172: 4206-4213.
[7] De Vita R, Cavallo D, Eleuteri P, et al. Flow cytometricapproach to study genome size variation in eurasiatic greentoadsof the Bufo viridis complex[J]. European Journal ofHistochemistry, 1997, 41(s2): 175-176.
[8] Chen W, Hasegawa D, Arumuganathan K, et al. Estimationof the whitefly Bemisia tabaci genome size based on k-merand flow cytometric analyses[J]. Insects, 2015, 6(3):704-715.
[9] Shangguan L, Han J, Kayesh E, et al. Evaluation of genomesequencing quality in selected plant species using expressedsequence tags[J]. PLoS One, 2013, 8(7): e69890.
[10] 蘇一鈞, 王嬌, 戴習彬, 等. 303 份甘薯地方種SSR 遺傳多樣性與群體結構分析[J]. 植物遺傳資源學報, 2018,19(2): 243-251.
[11] Huang S S, Li R Q, Zhang Z H, et al. The genome of thecu-cumber, Cucumis sativus L[J]. Nature Genetics, 2009,41(12): 1275-1281.
[12] 黃族豪, 楊承忠. 動物線粒體基因組GC 含量分析[J]. 四川動物, 2015, 34(1): 107-110.
[13] Srisuwan S, Sihachakr D, Martín J, et al. Change in nuclearDNA content and pollen size with polyploidisation in thesweet potato (Ipomoea batatas, Convolvulaceae) complex[J].Plant Biology, 2019, 21(2): 237-247.
[14] Michigan State University. Sweetpotato genomics resource[EB/OL]. (2016-06-13) [2019-04-12]. http:// sweetpotato.plantbiology.msu.edu/.
[15] 霍愷森, 趙冬蘭, 陳艷麗, 等. 甘薯屬耐鹽植物馬鞍藤基因組大小及特征分析[J]. 植物遺傳資源學報, 2019, 20(3):728-735.
[16] 杜波, 王丁, 張先鋒, 等. 長江江豚基因組大小測定[J]. 動物學報, 2006, 52(4): 731-737.
[17] 王如平, 劉偉, 曹祥榮. 毛冠鹿基因組大小的研究[J].揚州大學學報(農(nóng)業(yè)與生命科學版), 2008, 29(4): 23-25.
[18] Price H J, Chambers K L, Bachmann K. Geographical andeco-logical distribution of genomic DNA content variation inmicroseris douglasii (Asteraceae) [J]. Botanical Gazette,1981, 142(3): 415-420.
[19] 郭水良, 陳國奇, 毛俐慧. DNA C-值與被子植物入侵性關系的數(shù)據(jù)統(tǒng)計分析——以中國境內有分布的539 種被子植物為例[J]. 生態(tài)學報, 2008, 28(8): 3698-3705.
[20] Vinogradov A E. Selfish DNA is maladaptive: evidencefrom the plant Red List[J]. Trends in Genetics, 2003, 19(11):609-614.
[21] 李潞濱, 武靜宇, 胡陶等. 毛竹基因組大小測定[J]. 植物學通報, 2008, 25(5): 574-578.
[22] 鄧果特, 劉清波, 蔣建雄, 等. 五節(jié)芒基因組大小測定[J].植物遺傳資源學報, 2013, 14(2): 339-341, 346.
[23] Wu S, Kin H L, Cao Q H, et al. Genome sequences of two diploidwild relatives of cultivated sweetpotato reveal targets forgenetic improvement[J]. Nature Communications, 2018, 9(1):4580..
[24] Aird D, Ross M G, Chen W S, et al. Analyzing and minimizingPCR amplification bias in Illumina sequencing libraries[J]. Genome Biology, 2011, 12(2): R18.
[25] 伍艷芳, 肖復明, 徐海寧, 等. 樟樹全基因組調查[J]. 植物遺傳資源學報, 2014, 15(1): 149-152.