吉悅娜,夏 栗,曾 霞,張路紅,3,陳韻竹,楊 艷,李培旺,李黨訓(xùn),陳景震
(1.湖南省林業(yè)科學(xué)院省部共建木本油料資源利用國家重點(diǎn)實(shí)驗(yàn)室,湖南 長沙 410004; 2.湖南財政經(jīng)濟(jì)學(xué)院,湖南 長沙 410205; 3.中南林業(yè)科技大學(xué)生命科學(xué)與技術(shù)學(xué)院,湖南 長沙 410004)
木本油料植物泛指富含天然油脂的灌喬木,隨著經(jīng)濟(jì)與科學(xué)技術(shù)的發(fā)展,植物油脂用途不斷拓展,植物油脂市場需要逐步壯大,在國民經(jīng)濟(jì)中起著不可替代的作用[1]。篩選、培育高產(chǎn)、高含油、適性強(qiáng)的木本油料植物資源成為當(dāng)前的研究熱點(diǎn)之一。光皮樹(Swidawilsoniana)為山茱萸科(Cornaceae)梾木屬(Swida)落葉喬木[2]。該樹種抗逆性、生態(tài)適應(yīng)性強(qiáng),果實(shí)含油率較高,且加工性能好,不僅是優(yōu)質(zhì)的木本食用油樹種,亦是品質(zhì)較高的多用途工業(yè)原料油樹種,其嫁接苗3 a后開始掛果,結(jié)果時間長、產(chǎn)量高,豐產(chǎn)期油脂產(chǎn)量可達(dá)1 125~1 500 kg·hm-2[3-6]。目前光皮樹優(yōu)良品種的選育主要采用傳統(tǒng)的自然選種、雜交育種以及倍性育種等手段,個體間樹體生長勢、開花結(jié)果特性、果實(shí)含油率等性狀均存在較明顯差異[7]。由于選育周期長,且缺乏遺傳研究基礎(chǔ),對高產(chǎn)、高含油、高抗等表型優(yōu)異的功能基因的挖掘篩選不足,限制了其優(yōu)良新種質(zhì)的開發(fā)及其推廣應(yīng)用。
簡化基因組測序(reduced representation genome sequencing,RRGS),是利用限制性內(nèi)切酶打斷基因組DNA,對特定片段進(jìn)行高通量測序獲得海量遺傳多態(tài)性標(biāo)簽序列來充分代表目標(biāo)物種全基因組信息的測序策略。其實(shí)驗(yàn)方法步驟簡單,成本低,而且可以不依賴參考基因組就能獲得全基因組范圍內(nèi)的遺傳多態(tài)性標(biāo)簽,因而廣泛應(yīng)用于生態(tài)學(xué)、進(jìn)化學(xué)和基因組學(xué)等領(lǐng)域[8]。單核苷酸多態(tài)性標(biāo)記(simple nucleotide polymorphism,SNP)為第三代分子標(biāo)記最早由 Lander 提出,因其高效、快速、穩(wěn)定、可靠等諸多優(yōu)點(diǎn),在物種遺傳多樣性和進(jìn)化分析、高密度遺傳圖譜的構(gòu)建以及數(shù)量性狀位點(diǎn)(quantitative trait loci,QTL)定位、基因組關(guān)聯(lián)分析等研究領(lǐng)域得到廣泛應(yīng)用[9]。在光皮樹上關(guān)于遺傳圖譜構(gòu)建的研究起步較晚,前期分子水平研究主要集中在ISSR、SSR等分子標(biāo)記開發(fā)上面[10-12],但存在上圖量少、標(biāo)記間遺傳距離較大、基因組覆蓋率低等缺點(diǎn),而SNP標(biāo)記的上圖量遠(yuǎn)遠(yuǎn)超過傳統(tǒng)分子標(biāo)記,圖譜分辨率高、定位精度高[13]。例如,Sun等[14]通過全基因組重測序構(gòu)建了楊樹(Populus)的高密度遺傳圖譜,得出該連鎖圖譜由19個連鎖群(LGs)的5 796個SNP標(biāo)記組成,平均標(biāo)記距離為0.46 cM,確定了數(shù)量性狀位點(diǎn)(QTL),其研究結(jié)果有助于植物育種家培育高生物量基因型楊樹。徐禮羿[15]研究了油茶(Camelliaoleifera)遺傳圖譜,開發(fā)了適用于 327 個茶樹作圖群體基因分型的 SNP 標(biāo)記。King等[16]應(yīng)用來自美洲、非洲和東南亞的多個麻瘋樹(Jatrophacurcas)種質(zhì)進(jìn)行種內(nèi)雜交,構(gòu)建了4個F2作圖群體,隨后SNP標(biāo)記構(gòu)建了連鎖圖譜,有助于麻瘋樹農(nóng)藝性狀的QTL定位及分子輔助育種研究。
近年來,隨著幾代測序技術(shù)、分子標(biāo)記技術(shù)的發(fā)展和一些針對林木作圖策略的提出,林木的遺傳圖譜構(gòu)建研究進(jìn)展迅速。本研究基于課題組前期對光皮樹種質(zhì)資源的大量研究,選取農(nóng)藝性狀差異較大的光皮樹親本及其F1代為原材料,基于全基因組重測序技術(shù)和生物信息學(xué)分析方法對它們進(jìn)行SNP標(biāo)記多態(tài)性分析,構(gòu)建光皮樹高密度遺傳圖譜,旨在為光皮樹多種農(nóng)藝性狀的QTL定位和基因挖掘奠定良好的基礎(chǔ)。
試驗(yàn)材料來源于湖南省林業(yè)科學(xué)院實(shí)驗(yàn)林場光皮樹種質(zhì)資源收集圃,為光皮樹優(yōu)良無性系父本XL-G4和母本XL-G1親本及其雜交的121株F1代幼苗。采集健康幼嫩的葉片,放入液氮罐速凍帶回實(shí)驗(yàn)室,于-60 ℃保存待用。
采用新型DNA 提取試劑盒(天根生化科技(北京)有限公司,試劑盒型號DP320-02)提取DNA,嚴(yán)格按照其使用說明步驟操作。DNA純度檢測采用NanoDrop方法,其OD260/OD280范圍在 1.7~1.9 視為合格。DNA完整性檢測用1%瓊脂糖凝膠電泳,1×TAE緩沖液,電壓5 V·cm-1,電泳時間30 min。
光皮樹DNA測序工作委托上海美吉生物科技醫(yī)藥有限公司完成。采用RAD建庫方式構(gòu)建pair-end文庫,長度范圍在300~500 bp,用Illumina HiSeq PE50進(jìn)行測序。
首先,將樣本的RAD-tag進(jìn)行比較、對照和歸類,按照不同tag的深度信息對其進(jìn)行排序(降序);隨后將各個樣本內(nèi)部的RAD-tag進(jìn)行比對獲取其雜合位點(diǎn)信息,進(jìn)一步將不同樣本之間的RAD-tag進(jìn)行比對搜索個體之間的單堿基差異信息;最后,通過各個樣本的RAD-tag頻數(shù)表和比對表信息,刪除可能來自重復(fù)區(qū)域的結(jié)果,得到高可信度的群體SNP標(biāo)記基因分型結(jié)果,標(biāo)記類型為hk×hk、lm×ll、nn× np,即親本一方純合,一方雜合,或均雜合,并最后對其校正后的數(shù)據(jù)進(jìn)行再次過濾與篩選。
通過SNP標(biāo)記基因分型結(jié)果與統(tǒng)計將所得的標(biāo)記用于構(gòu)建光皮樹SNP遺傳連鎖圖譜。使用軟件Joinmap 4.0對過濾篩選獲得的標(biāo)記進(jìn)行聚類分析,采用LOD=8進(jìn)行分群構(gòu)建父母本的連鎖圖譜,獲得連鎖群。
利用SPSS Statistics 17.0中文軟件進(jìn)行分析。
對測序樣品的DNA質(zhì)量進(jìn)行把控是簡化基因組測序的前提條件,高質(zhì)量的光皮樹DNA為后續(xù)的數(shù)據(jù)分析提供可靠的基礎(chǔ)。使用NanoDrop進(jìn)行光皮樹DNA純度檢測,Qubit對其濃度進(jìn)行檢測。所提取的樣本DNA,OD260/OD280大于1.60,濃度大于10 ng·μL-1,且樣品量大于500 ng,滿足簡化基因組文庫建庫需求。
運(yùn)用統(tǒng)計學(xué)的方法,采用軟件Trimmomatic(http://www.usadellab.org cmsuploads/supplementary/Trimmomatic)對所有測序reads的每個circle進(jìn)行堿基分布和質(zhì)量波動的統(tǒng)計,可以直觀地反映出樣本的測序質(zhì)量和文庫構(gòu)建質(zhì)量。圖1為原始數(shù)據(jù)的堿基組成分布圖,序列的前后位置與測序的引物接頭相連,堿基A、T、G、C在起始端會有所波動,后面趨于穩(wěn)定。該文庫堿基A與堿基T數(shù)量趨于平衡,堿基G與堿基C也相近,說明各堿基在此文庫分布均勻。
原始數(shù)據(jù)reads的堿基質(zhì)量是后續(xù)試驗(yàn)的基礎(chǔ)和保障,堿基質(zhì)量越高說明測序過程中模糊堿基(unkown bases,N)就越少,reads錯誤率越低。堿基的排列(5’-3’端)在0~95之間堿基質(zhì)量值基本上都大于36;堿基的排列(5’-3’端)在95~120之間堿基質(zhì)量值有所下降;堿基排列在125以后又趨于穩(wěn)定,堿基質(zhì)量值在32左右(見圖2)??傮w來看,所有reads堿基的綜合質(zhì)量較高,為后續(xù)試驗(yàn)的準(zhǔn)確性提供了保障。
圖2 堿基質(zhì)量分布圖(PE150)Fig.2 Bases mass distribution (PE150)
對光皮樹進(jìn)行conting denovo組裝。為了保證數(shù)據(jù)分析的可靠性與準(zhǔn)確性,需要對測得的原始數(shù)據(jù)進(jìn)行篩查和過濾,以此來獲取到高質(zhì)量的clean data以保證后續(xù)生信分析的順利開展。通過軟件進(jìn)行數(shù)據(jù)過濾統(tǒng)計,各個樣本總的序列和堿基數(shù)據(jù)均比較大。堿基GC的所占總數(shù)的百分比為:36.22% ~ 37.2%;Q20最大值為98.40%,最小值為97.84%;Q30最大值為95.16%,最小值為93.80%。即過濾篩選后,堿基錯誤率大大降低,質(zhì)量大大得到提高,保證了生物信息分析的準(zhǔn)確性。
為使接下來的SNP分析更具可靠性,做RAD-tag分析時,應(yīng)遵循以下過濾條件對數(shù)據(jù)進(jìn)行篩選和過濾,即RAD-tag序列中不允許存在模糊堿基(N),起始端(5’)非酶切位點(diǎn)(AATTC)起始的序列。建立121個子代單株RAD文庫,子代單株RAD文庫中含有1 177 021 204條原始序列,父本XL-G4含有14 808 894條原始reads,母本XL-G1含有14 219 880條原始reads,PE150(5’-3’端)的reads中在105 bp以后序列堿基的測序質(zhì)量出現(xiàn)較為明顯波動,去除reads中105 bp以后的讀段。隨后根據(jù)相同酶切處RAD-tag測序reads之間的序列全同性(stacks軟件,ustacks程序),將reads進(jìn)行統(tǒng)計并獲得各個樣本RAD-tag的數(shù)目和深度信息,用于評估RAD技術(shù)對于酶切區(qū)域的富集效果。最終原始序列經(jīng)過質(zhì)量控制過濾,子代單株RAD文庫保留1060573106條高質(zhì)量reads,高質(zhì)量reads占有比率90.11%;父本XL-G4有13277760條高質(zhì)量reads,母本XL-G1保留12780718條高質(zhì)量reads,父母本保留高質(zhì)量序列比例分別達(dá)到89.66%和89.88%;最終RAD-tag文庫中高質(zhì)量序列達(dá)到了1 086 631 584條,比率達(dá)到了90.10%,滿足測序文庫中高質(zhì)量序列達(dá)到原始序列80%以上的要求,滿足了RAD文庫的構(gòu)建要求(見表1)。
表1 RAD-tag文庫測序結(jié)果統(tǒng)計Tab.1 Sequencing results of rad tag library樣品原始序列高質(zhì)量序列Q20/%Q30/%比率/%父本14 808 89413 277 76095.5890.7189.66母本14 219 88012 780 71895.5490.6389.88F1子代1 177 021 2041 060 573 10694.7989.8990.11合計1 206 049 9781 086 631 58490.10
對光皮樹無性系雜交的2個親本和121個F1子代進(jìn)行RAD-tag聚類并統(tǒng)計RAD-tag 數(shù)據(jù)顯示,深度值RAD-Tag、Depth>1、Depth>4,Depth>9的最大頻數(shù)值依次為:2133541、740494、528903、341909,最小頻數(shù)值分別為:468570、186751、27824、2925,平均頻數(shù)值為:983331、465442、212989、65226,表現(xiàn)為深度值越大,頻數(shù)值越小(見圖3)。
圖3 Depth>4頻數(shù)統(tǒng)計圖Fig.3 The frequency statistics of Depth>4
在未進(jìn)行校正前得到基因型分類結(jié)果為hk×hk、nn× np、lm×ll的數(shù)量分別是:8707個、23095個、25287個,共57089個。校正后基因型hk×hk、nn× np、lm×ll數(shù)量分別是:8707個、23087個、25277個,此時共有57071個標(biāo)記,hk×hk標(biāo)記無變化,nn× np刪減標(biāo)記8個(nn× np 97、nn× np 285、nn× np 341、nn× np 450、nn× np 575、nn× np 936、nn× np 4336、nn× np 4856),lm×ll刪減標(biāo)記10個(lm×ll 207、lm×ll 266、lm×ll 498、lm×ll 1 245、lm×ll 1427、lm×ll 1578、lm×ll 1992、lm×ll 2083、lm×ll 2705、lm×ll 4112)(見表2)。
表2 SNP標(biāo)記基因分型與校正結(jié)果Tab.2 SNP marker genotyping and correction results基因型校正前數(shù)量校正后數(shù)量校正后結(jié)果(刪除標(biāo)記)hk×hk8 7078 707無刪除標(biāo)記lm×ll25 28725 277lm×ll 207、lm×ll 266、lm×ll 498、lm×ll 1 245、lm×ll 1 427、lm×ll 1 578、lm×ll 1 992、lm×ll 2 083、lm×ll 2 705、lm×ll 4 112nn×np23 09523 087nn×np 97、nn×np 285、nn×np 341、nn×np 450、nn×np 575、nn×np 936、nn×np 4 336、nn×np 4 856合計57 08957 07118
為獲得可信度高的遺傳圖譜可用標(biāo)記,需要對其校正后的數(shù)據(jù)進(jìn)行再次過濾與篩選。過濾與篩選后共剩余標(biāo)記9110個,占過濾前的15.96%。hk×hk、nn×np、lm×ll基因型分別為2490個、3353個、3267個,分別占過濾前的28.59%、14.52%、12.92%。
以過濾篩選后的9110個標(biāo)記進(jìn)行分型,將121個F1子代與篩選過濾后的SNP標(biāo)記tag進(jìn)行比對,通過統(tǒng)計F1子代SNP基因型(hk×hk、nn×np、lm×ll),得到F1子代SNP標(biāo)記基因分型結(jié)果。2490個hk×hk基因型中hh、hk、kk分型數(shù)分別為39942個、79814個、39866個,分別占此基因型總數(shù)的21.08%、42.14%、21.05%。3353個nn×np基因型中nn、np分型數(shù)分別為101124個、105619個,分別占此基因型總數(shù)的40.73%、42.54%。3353個基因型為lm×ll中l(wèi)l、lm分型數(shù)分別為111453個、101382個,分別占此基因型總數(shù)的43.69%、39.74%。分型hh、hk、kk、nn、np、ll、lm、未分型,所占總分型的百分比分別為:5.77%、11.52%、5.75%、14.60%、15.25%、16.09%、14.63%、16.40%。
兩個親本連鎖群內(nèi)SNP標(biāo)記數(shù)為579~1744個,平均連鎖群 991個SNP標(biāo)記,一共有SNP標(biāo)記數(shù)量為8921個(見表3)。其中父本XL-G4 9個連鎖群遺傳距離從74.90到273.75 cM不等,覆蓋圖距為1277.55 cM;母本XL-G1 9個連鎖群遺傳距離從48.25到198.55 cM不等,覆蓋圖距為1011.47 cM;父母本SNP標(biāo)記個數(shù)都是一樣的,都是8921個,但是父本XL-G4平均標(biāo)記距離為0.14 cM,母本XL-G1平均標(biāo)記距離為0.11 cM,表明母本XL-G1連鎖群體標(biāo)記密度明顯高于父本XL-G4連鎖群。光皮樹父本、母本SNP標(biāo)記連鎖圖見圖4和圖5。
表3 光皮樹親本連鎖群中SNP標(biāo)記分離比率統(tǒng)計表Tab.3 Statistical of the separation ratio SNP marker in parent linkage group of S.wilsoniana連鎖群父本母本SNP標(biāo)記數(shù)/個標(biāo)記距離/cM覆蓋圖距/cMSNP標(biāo)記數(shù)/個標(biāo)記距離/cM覆蓋圖距/cMLg11 7440.13226.831 7440.11198.55Lg21 3750.16273.751 3750.14197.48Lg31 1360.11187.011 1360.12136.37Lg41 0350.07120.501 0350.0880.06Lg59330.07117.889330.0982.19Lg68210.0477.128210.19156.91Lg77140.0474.907140.0857.66Lg85840.0595.505840.0848.25Lg95790.06104.065790.0954.00總計8 9210.731 277.558 9210.111 011.47
圖4 光皮樹父本 SNP 標(biāo)記連鎖圖Fig.4 The S.wilsonianamale parent SNP marker linkage map
將兩個親本的分離比率進(jìn)行整合,進(jìn)行綜合遺傳圖譜統(tǒng)計(見表4)。9個連鎖群綜合遺傳距離從93.26到241.02 cM不等,綜合覆蓋圖距為1 260.94 cM,平均每個連鎖群1 091個標(biāo)記;標(biāo)記數(shù)最大的連鎖群是Lg1,標(biāo)記數(shù)為1 744個,標(biāo)記數(shù)最小的連鎖群是Lg9,只有579個;9個連鎖群標(biāo)記距離0.11~0.18 cM不等,平均標(biāo)記距離0.14cM,標(biāo)記距離最大和最小的連鎖群分別是Lg 2和Lg 4,標(biāo)記距離分別為0.18 cM和0.11cM。通過SNP 標(biāo)記數(shù)、標(biāo)記距離和覆蓋圖距3個參數(shù)指標(biāo)進(jìn)行相關(guān)性分析,SNP 標(biāo)記數(shù)與覆蓋圖距呈極顯著正相關(guān),相關(guān)系數(shù)0.907,其中SNP 標(biāo)記數(shù)超過1 000個標(biāo)記的連鎖群包括Lg 1、 Lg 2、Lg 3和Lg 4,覆蓋圖距均超過了110 cM。通過整合后的數(shù)據(jù)構(gòu)建遺傳圖譜連鎖群圖(見圖6)。
表4 光皮樹親本連鎖群中 SNP 標(biāo)記分離比率統(tǒng)計表(整合圖譜)Tab.4 Statistical of the separation ratio SNP marker in parent linkage group of Swida wilsoniana(Inte-grated atlas)連鎖群SNP 標(biāo)記數(shù)/個標(biāo)記距離/cM覆蓋圖距/cMLg11 7440.12216.02Lg21 3750.18241.02Lg31 1360.14159.00Lg41 0350.11116.02Lg59330.14130.66Lg68210.15121.26Lg77140.1389.47Lg85840.1694.23Lg95790.1693.26總計8 9210.141 260.94
圖6 光皮樹親本 SNP 標(biāo)記連鎖圖(整合圖譜)Fig.6 The Swida wilsoniana parental SNP marker linkage map(Integrated atlas)
遺傳連鎖圖譜是研究植物性狀基因定位的重要組成部分,其中作圖群體的構(gòu)建尤為關(guān)鍵。而基于高密度遺傳連鎖圖譜的QTL定位,是數(shù)量性狀遺傳研究的重要方法,標(biāo)記和QTL是連鎖的,也是分子標(biāo)記輔助育種和目的基因分離與克隆的重要前提,對縮短育種周期、有目的性的選育新品種材料等具有重要意義。近年來,遺傳圖譜構(gòu)建和QTL定位研究為不少國內(nèi)外育種專家關(guān)注的重點(diǎn)。在非油料植物的連鎖遺傳圖譜方面,喬東亞等[17]利用SNP標(biāo)記對85份紫薇(Lagerstroemiaindica)種質(zhì)資源進(jìn)行聚類分析,探究其遺傳多樣性,篩選得到了高質(zhì)量的SNP標(biāo)記,并進(jìn)一步通過對SNP分型數(shù)據(jù)進(jìn)行遺傳多樣性分析。Tong等[18]利用 2 545個高質(zhì)量的 SNP 標(biāo)記分屬美洲黑楊(Populusdeltoides)“1-69”和小葉楊(Populussimonii)“L3”兩張高密度連鎖圖,分別為 20 個連鎖群。唐海霞等[19]利用已構(gòu)建的 103 株“冬棗”ד金絲 4 號”F1雜交群體和 145 株“冬棗”ד中寧圓棗”F1雜交群體,采用簡化基因組測序技術(shù),開發(fā)了SNP標(biāo)記,構(gòu)建了棗(Ziziphusjujuba)的高密度集成遺傳連鎖圖譜。史曉暢等[20]以果實(shí)大小和果實(shí)硬度都存在顯著性差異的山楂(Crataeguspinnatifida)品種“山東大綿球”(母本)和“新賓軟籽”(父本)創(chuàng)建雜交群體,選用 130 株雜交 F1 代為作圖群體,采用 RAD 測序技術(shù)開發(fā)的 SNP 標(biāo)記構(gòu)建山楂高密度分子遺傳圖譜。董明亮[21]以華北落葉松(Larixprincipis-rupprechtii)F1代為作圖群體,通過SNP標(biāo)記建立華北落葉松高密度遺傳連鎖圖譜,依據(jù)連續(xù)兩年測得的表型數(shù)據(jù),將QTL定位應(yīng)用于8個重要性狀分析。而在油料植物的連鎖遺傳圖譜相關(guān)研究中,高鳳云等[22]基于亞麻(Linmusitatissimum)植物構(gòu)建的單核苷酸多態(tài)性連鎖遺傳圖譜,采用CIM對13個性狀進(jìn)行QTL定位,結(jié)論得出有20個與粗脂肪及其組成成分相關(guān)的QTL。滕衛(wèi)麗等[23]利用ICIM法作加性數(shù)量性狀座位和數(shù)量性狀座位間上位性互作檢測,獲得81個與大豆(Glycinemax)粒形性狀相關(guān)的QTL。李文楊等[24]利用篩選到的單核苷酸多態(tài)性SNP位點(diǎn)對作圖群體進(jìn)行基因型分析,構(gòu)建了泡桐(Paulowniafortunei)連鎖遺傳圖譜,此研究為泡桐分子育種學(xué)研究奠定了基礎(chǔ)。
本課題研究在構(gòu)建光皮樹F1代群體基礎(chǔ)上,通過多樣性分析進(jìn)行分子標(biāo)記目標(biāo)性狀,目的是在早期目標(biāo)性狀定位之后,實(shí)現(xiàn)對木本油料光皮樹的精準(zhǔn)育種。本研究利用光皮樹雜交F1代幼苗群體構(gòu)建作圖群體,首次定位標(biāo)記出57 089個SNP,通過過濾與篩選后共剩余標(biāo)記9 110個,基本實(shí)現(xiàn)了多態(tài)性分布和密度高的要求。進(jìn)一步通過研究基本構(gòu)建了光皮樹遺傳連鎖圖譜,對F1代幼苗表型性狀進(jìn)行遺傳連鎖標(biāo)記,分布在9個連鎖群中,遺傳距離在93.26~241.02 cM之間,綜合覆蓋圖距為1 260.94 cM,平均每個連鎖群1091個標(biāo)記,Lg1為標(biāo)記數(shù)最大的連鎖群(1 744個),Lg9為標(biāo)記數(shù)最小的連鎖群(579個)。這些 QTLs 簇的區(qū)域是后續(xù)挖掘光皮樹相關(guān)性狀功能基因需要重點(diǎn)關(guān)注的區(qū)域。本研究亦可為往后對光皮樹良種選育、相近木本油料植物遺傳圖譜的構(gòu)建策略制定提供參考。