李文楊,王 娟,趙振利,范國(guó)強(qiáng)
(1.信陽(yáng)農(nóng)林學(xué)院 林學(xué)院,河南 信陽(yáng) 464000;2.河南農(nóng)業(yè)大學(xué) 泡桐研究所,河南 鄭州 450002)
林木生長(zhǎng)緩慢,世代周轉(zhuǎn)慢,遺傳雜合性高,絕大多數(shù)重要的林木經(jīng)濟(jì)性狀為數(shù)量性狀,生長(zhǎng)發(fā)育易受到環(huán)境影響,多數(shù)性狀的遺傳控制機(jī)制還未了解[1],而分子標(biāo)記技術(shù)的出現(xiàn)提高了植物遺傳分析的準(zhǔn)確性和有效性,對(duì)科學(xué)快速地鑒定林木種質(zhì)資源及遺傳多態(tài)性、遺傳圖譜的構(gòu)建、目標(biāo)性狀連鎖標(biāo)記等相關(guān)研究具有重要意義。分子標(biāo)記以 DNA 多態(tài)性作為遺傳標(biāo)記基礎(chǔ),反映 DNA 水平上的遺傳變異,目前已經(jīng)發(fā)展到第3代基于單個(gè)堿基差異的分子標(biāo)記技術(shù),主要是單核苷酸多態(tài)性(Single nucleotide polymorphism,SNP)的標(biāo)記[2]。簡(jiǎn)化基因組測(cè)序技術(shù)中的限制性酶切位點(diǎn)相關(guān) DNA 測(cè)序(Restriction-site associated DNA sequencing,RAD),是利用限制性內(nèi)切酶對(duì)基因組進(jìn)行酶切,并對(duì)酶切后產(chǎn)生的 RAD 標(biāo)記進(jìn)行高通量測(cè)序。由于 RAD 標(biāo)記是全基因組范圍的呈現(xiàn)特異性酶切位點(diǎn)附近的小片段 DNA 標(biāo)簽,代表了整個(gè)基因組的序列特征,因此通過(guò)對(duì)RAD標(biāo)記測(cè)序能夠在大多數(shù)生物中獲得成千上萬(wàn)的 SNP 標(biāo)記,該技術(shù)具有操作簡(jiǎn)單、不受基因組的限制、實(shí)驗(yàn)成本較低等多個(gè)優(yōu)點(diǎn),已廣泛應(yīng)用于植物和動(dòng)物的遺傳學(xué)和基因組學(xué)研究中[3-5]。
遺傳圖譜的構(gòu)建是林木分子育種研究的重要內(nèi)容,以分子標(biāo)記為基礎(chǔ)構(gòu)建遺傳圖譜,是最直接快速獲取植物基因組和遺傳變異信息的方法。目前楊樹Populus alba、桉樹Eucalyptus、落葉松Larix kaempferi、柳樹Salix viminalis等有較高經(jīng)濟(jì)價(jià)值的林木種質(zhì)資源相繼構(gòu)建了自己的遺傳圖譜[6-9]。泡桐Paulownia隸屬于玄參科Scrophulariaceae泡桐屬Paulownia,落葉喬木,原產(chǎn)自中國(guó),已有 2 000 多年的栽培史,目前已廣泛分布于世界各地。泡桐是重要的速生用材和園林綠化樹種,而且因其材質(zhì)輕、易加工、紋理美觀還被廣泛用于建筑、家具及工藝品的制作。目前關(guān)于泡桐的研究大多集中在新品種培育、抗逆性等方面[10-13],而分子遺傳基礎(chǔ)和發(fā)育進(jìn)化方面的研究卻相對(duì)較少,尤其泡桐遺傳連鎖圖譜國(guó)內(nèi)外還未見(jiàn)報(bào)道。本研究利用 RAD-seq 簡(jiǎn)化基因組測(cè)序技術(shù),獲取豐富的 SNP標(biāo)記,構(gòu)建泡桐的高密度遺傳連鎖圖譜,為泡桐比較基因組學(xué)研究、分子標(biāo)記輔助育種和從分子水平上探究泡桐屬植物生長(zhǎng)、發(fā)育、遺傳系統(tǒng)進(jìn)化等提供研究基礎(chǔ)。
采用的試驗(yàn)材料來(lái)自河南農(nóng)業(yè)大學(xué)泡桐試驗(yàn)基地,選用兩種雜交組合:母本毛泡桐Paulownia tomentosa(P1_M2_RA)和父本白花泡桐Paulownia fortunei(P2_B2_RA)雜交,母本白花泡桐(BF1A)和父本毛泡桐 (BM2A)雜交,規(guī)定毛泡桐×白花泡桐為正交。選用4個(gè)親本以及正反交獲得的子一代(F1)群體(正交F1代91株,反交F1代90株)中挑選181株子代個(gè)體作為作圖群體。
1.2.1 DNA的提取
采摘泡桐4個(gè)親本和 181 個(gè)子代個(gè)體的新鮮葉片,提取每個(gè)樣品總 DNA ,提取方法參照 Paterson 等的 CTAB 法[14]。
1.2.2 RAD文庫(kù)構(gòu)建及測(cè)序
用限制性內(nèi)切酶EcoR1消化樣品基因組 DNA,并在酶切片段兩端加 Solexa 接頭 P1 Adapter(P1 接頭包含4 個(gè)部分:與 PCR 擴(kuò)增的前引物結(jié)合的互補(bǔ)序列;與 Illumina 測(cè)序引物結(jié)合的互補(bǔ)序列;用來(lái)對(duì)樣品進(jìn)行跟蹤的 4~5 bp 的 Barcode;相應(yīng)的限制酶切位點(diǎn)),對(duì)連接 P1 接頭的DNA 片段進(jìn)行 pooling,并隨機(jī)打斷,收集長(zhǎng)度在350~550 bp之間的片段;在回收片段兩端加P2 接頭。P2 接頭為分叉的 Y 型接頭,可阻止未連接P1 接頭的片段擴(kuò)增;選擇連接了P1接頭的 RAD tag進(jìn)行擴(kuò)增;1.5%的瓊脂糖凝膠電泳,純化回收350~550 bp DNA后,并稀釋到1 nmol用于測(cè)序,構(gòu)建好的185個(gè)樣品(4個(gè)親本和181個(gè)子代)的RAD測(cè)序文庫(kù)產(chǎn)量和質(zhì)量檢測(cè)合格(所有樣品的測(cè)序數(shù)據(jù)堿基質(zhì)量值通過(guò)Q20和Q30檢測(cè))后,利用Illumina Hiseq2000測(cè)序平臺(tái)進(jìn)行混合測(cè)序,采用pair-end雙端測(cè)序,確定樣本中親本平均的測(cè)序深度為10X,F(xiàn)1代樣品平均測(cè)序深度為0.8-1X,測(cè)序長(zhǎng)度為100 bp。
RAD 數(shù)據(jù)分析參考陳祥平等[15]的方法。先將所有樣本混合測(cè)序的數(shù)據(jù)按 MID barcode 分離開;再對(duì)原始數(shù)據(jù)進(jìn)行質(zhì)量控制(Quality control,QC);接著進(jìn)行 SNP 位點(diǎn)的識(shí)別(SNP Calling)和對(duì) SNP 標(biāo)記進(jìn)行基因型分型(Genotyping),在本階段分析中獲得親本所有可能的 SNP 位點(diǎn),再將子代的 SNP 位點(diǎn)與親本的位點(diǎn)進(jìn)行比對(duì),如果匹配則保留該個(gè)體此位點(diǎn)的 SNP 信息。從親本中確定得到的 SNP 應(yīng)滿足測(cè)序深度(depth)≥8 且≤200 以及質(zhì)量值Q≥20 的條件。
使用 Rainbow 2.02[16]對(duì)親本 RAD 數(shù)據(jù)進(jìn)行拼接,去除小于200 bp的拼接contig,SOAP2.02[17]把親本的RAD reads定位到contig 上,并用 SOAPsnp進(jìn)行 SNP的篩選,過(guò)濾掉測(cè)序深度(depth)大 于200的 序 列。用 Stacks version 0.999 8軟件對(duì)作圖群體進(jìn)行基因型分析[18]。群體 genotype 的過(guò)濾條件為:1)得到的標(biāo)記符合卡方檢驗(yàn)(P<0.01);2)缺失率少于 20%;3)2個(gè)親本的基因型具有多態(tài)性,并且都是純合基因型。
統(tǒng)計(jì)經(jīng)X2檢驗(yàn)(P<0.01)后在子代中符合孟德爾遺傳定律分離的SNP位點(diǎn)數(shù),去除其中相似的位點(diǎn)(100 bp坐標(biāo)內(nèi)只保留一個(gè)位點(diǎn)),最后得到的標(biāo)記用于作圖,做兩點(diǎn)連鎖分析,計(jì)算兩兩標(biāo)記之間的重組率和LOD(Logarithm of odds)值,根據(jù)不同的LOD值進(jìn)行聚類分析,構(gòu)建連鎖群,LOD值的選擇以獲得重組的連鎖群符合泡桐染色體數(shù)目為準(zhǔn),作圖函數(shù)為Kosambi,算法為回歸算法[19]。采用 Joinmap version 4.0軟件,在 PC 計(jì)算機(jī)上進(jìn)行泡桐遺傳圖譜的構(gòu)建。
遺傳圖譜構(gòu)建完成后,對(duì)各個(gè)連鎖群的遺傳數(shù)據(jù)進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)的參數(shù)有標(biāo)記數(shù)、每個(gè)連鎖群的長(zhǎng)度、標(biāo)記間最大和最小圖距及標(biāo)記間平均距離等。根據(jù)Chakravarti 等[20]和Postlethwait 等[21]提出的方法估算基因組長(zhǎng)度,其平均值作為圖譜預(yù)期長(zhǎng)度(Ge)。利用公式估算圖譜的基因組覆蓋度:圖譜的基因覆蓋度(Cof)=圖譜觀測(cè)長(zhǎng)度(Goa)/圖譜期望長(zhǎng)度(Ge)。
原始數(shù)據(jù)為 219.14 Gb,經(jīng)過(guò)數(shù)據(jù)過(guò)濾后共產(chǎn)出有效數(shù)據(jù)201.343 Gb。185 個(gè)樣品的測(cè)序質(zhì)量較高,Q20≥96.49%,GC含量正常。其中,親本平均 reads 數(shù)為 26.405 M,子代的平均 reads 數(shù)為12.23 M。將所有過(guò)濾后所得的RAD tag利用SOAP2軟件與參考序列進(jìn)行序列比對(duì),并統(tǒng)計(jì)比對(duì)信息,結(jié)果發(fā)現(xiàn):親本白花泡桐分別有14 630 584條和21 333 202條雙末端RADtags比對(duì)到基因組,3 183 020條和5 612 901條單末端RADtags被比對(duì)到參考基因組,總共有81%和74.82%的reads比對(duì)到參考基因組序列上;親本毛泡桐分別有11 149 680條和16 259 650條雙末端RADtags以及3 679 989條和3 734 350條單末端RADtags比對(duì)到基因組,總共有69%及75.02%的reads比對(duì)到白花泡桐參考基因組上;在181個(gè)子代中,RADtags比對(duì)到基因組的比對(duì)率都在72%以上,最高比對(duì)率為82.94%。
測(cè)序得到原始數(shù)據(jù)拆分過(guò)濾后,對(duì)泡桐雙親和子代的測(cè)序序列進(jìn)行聚類比對(duì)分析,獲得了每個(gè)單株的標(biāo)記開發(fā)結(jié)果,其中在P1_M2_RA中開發(fā)出126 974個(gè)SNP,其中純合SNP有101 262個(gè),純合率為79.75%;在P2_B2_RA中開發(fā)出117 277個(gè)SNP,其中純合SNP有54 036個(gè),純合率為53.92%;在BF1A中開發(fā)出273 173個(gè)SNP,其中純合SNP有85 011個(gè),純合率為68.88%;在BM2A中開發(fā)出195 414個(gè)SNP,其中純合SNP有65 688個(gè),純合率為33.61%;F1代SNP純合率平均值為47.64%,SNP雜合率平均值為52.36%。利用一致性序列,按照過(guò)濾條件(如堿基的質(zhì)量值大于等于 20、SNPs之間至少5 bp間隔、測(cè)序深度大于等于6、拷貝數(shù)小于等于 1.5),將與參考序列比對(duì)的多態(tài)性位點(diǎn)條挑選出來(lái),得到各個(gè)樣品的SNP信息,再將所有個(gè)體的SNP整合在一起,得到整個(gè)群體高質(zhì)量的基因型,共551 894個(gè)多態(tài)SNP位點(diǎn),最后對(duì)群體基因型進(jìn)行過(guò)濾,獲得 5 015 個(gè)分離位點(diǎn)。
5 015個(gè)標(biāo)記位點(diǎn)中去除相似的位點(diǎn)(100 bp坐標(biāo)內(nèi)只保留一個(gè)位點(diǎn)),最后得到3 785個(gè)標(biāo)記位點(diǎn),使用 joinmap 4.0構(gòu)建遺傳圖譜,并手動(dòng)去除了相似標(biāo)記,最后保留3 545個(gè)標(biāo)記用于作圖,作圖群體個(gè)體數(shù)為178個(gè),以LOD 等于13到20指標(biāo)進(jìn)行聚類分析,所有標(biāo)記位點(diǎn)劃分為20個(gè)連鎖群(部分染色體連鎖遺傳圖見(jiàn)圖1),圖譜總長(zhǎng)度為2 050.77 cM。
以連鎖群為單位,利用Joinmap version 4.0軟件獲得連鎖群內(nèi)標(biāo)記的線性排列,多點(diǎn)分析估算相鄰標(biāo)記間的遺傳距離。由表1可以看出,各個(gè)連鎖群的兩點(diǎn)標(biāo)記間的平均距離變化范圍是0.39~1.55 cM,連鎖圖的平均圖距為0.58 cM。各個(gè)連鎖群上標(biāo)記數(shù)目變化范圍是87~282個(gè)SNP,其中標(biāo)記數(shù)量最多的連鎖群是LG1,標(biāo)記數(shù)量最少的連鎖群是LG20,20個(gè)連鎖群中標(biāo)記密度最大的是2.57個(gè)SNP/cM,位于LG1上。在形成的 20個(gè)連鎖群上連鎖位點(diǎn)覆蓋的遺傳距離從 67.89 cM 至 134.49 cM,平均為 102.54 cM,連鎖群最長(zhǎng)的是LG20,最短的是LG19。每一連鎖群上含有的 SNP連鎖標(biāo)記數(shù)從最少 87個(gè)到最多 282 個(gè)。標(biāo)記間平均間距最大的連鎖群為L(zhǎng)G18,平均間距為1.50 cM。從構(gòu)建的2個(gè)親本遺傳圖譜連鎖群的數(shù)量來(lái)看,F(xiàn)1代連鎖圖包含了20個(gè)連鎖群。
圖1 部分泡桐染色體連鎖遺傳圖Fig.1 Genetic linkage map of Paulownia chromosome
圖譜標(biāo)記數(shù)量和 LOD 值的選取將共同影響基因組大小的估計(jì)。本研究得到的遺傳圖譜的實(shí)際長(zhǎng)度為2 050.77 cM;采用 Postlethwait 等人[21]提出的方法計(jì)算得到的泡桐遺傳連鎖圖譜預(yù)期長(zhǎng)度為2 051.93 cM;根據(jù) Chakravarti等人[20]提出的方法計(jì)算得到的泡桐遺傳連鎖圖譜預(yù)期長(zhǎng)度為2 076.64 cM。2種算法取平均值后最終得到的泡桐遺傳連鎖圖譜預(yù)期長(zhǎng)度為 2 064.29 cM,圖譜覆蓋度為 99.35%。
在利用分子標(biāo)記構(gòu)建連鎖圖譜時(shí),作圖群體的選擇很重要。林木生長(zhǎng)周期長(zhǎng)而且生產(chǎn)上多采用無(wú)性繁殖,所以泡桐的作圖群體的選擇不能像農(nóng)作物作圖中常用的近交系和高世代材料,而且泡桐的基因組比較大,重復(fù)的序列較多,大大限制了泡桐連鎖圖譜的研究發(fā)展。我國(guó)的泡桐遺傳育種研究多圍繞著毛泡桐×白花泡桐(簡(jiǎn)稱毛×白)的雜交育種進(jìn)行的,先后選育出了20多個(gè)優(yōu)良毛×白F1 無(wú)性系,但對(duì)雜交親本及F1無(wú)性系的遺傳學(xué)基礎(chǔ)研究很少。葉金山等[22-23]發(fā)現(xiàn)毛×白正反交具有同等重要的雜交育種意義,毛×白正反交F1 無(wú)性系在樹高、胸徑、材積等性狀的遺傳變異各方面表現(xiàn)完全相同或無(wú)顯著差異,并且毛×白正反交 F1無(wú)性系自然接干性狀的遺傳變異表現(xiàn)完全相同或無(wú)顯著差異。本研究選用毛泡桐和白花泡桐正反交作為親本及雜交F1代建立作圖群體,為探索毛×白正反交 F1 雜種優(yōu)勢(shì)的形成奠定遺傳學(xué)基礎(chǔ)。
表1 泡桐連鎖遺傳圖譜統(tǒng)計(jì)Table 1 Genetic linkage map of Paulownia
泡桐為異花授粉植物,易雜交,不同的雜交組合后代表現(xiàn)出豐富的變異,有利于雜種優(yōu)勢(shì)良種。利用傳統(tǒng)的分子標(biāo)記技術(shù)可以推測(cè)出物種的雜合度,但由于標(biāo)記覆蓋率低,得到的結(jié)果缺乏實(shí)際的應(yīng)用價(jià)值[24]。RAD測(cè)序結(jié)合SNP標(biāo)記開發(fā)技術(shù)能夠全面揭示泡桐的雜合特性,從而更加有效地利用雜種優(yōu)勢(shì)。本研究通過(guò)對(duì)泡桐每個(gè)樣品進(jìn)行SNP比對(duì),發(fā)現(xiàn)白花泡桐SNP純合率均低于毛泡桐,SNP雜合率均高于毛泡桐,4個(gè)親本的SNP純合率平均值為56.67%,SNP雜合率平均值為43.33%;F1代SNP純合率平均值為47.64%,SNP雜合率平均值為52.36%,說(shuō)明以白花泡桐和毛泡桐為親本的雜交配合力較高,子代重組率多由白花泡桐貢獻(xiàn),雜交子代群體中雜合基因型較多。這與我國(guó)林木育種專家研究發(fā)現(xiàn)毛泡桐×白花泡桐的子代具有明顯的雜種優(yōu)勢(shì)的結(jié)果一致,如毛白33的苗高和地徑分別比母本大21.3% ~72.7%和14.3%~ 69.0%,比父本分別大4.9%~49.1%和0~ 41.3%[25];陜桐3號(hào)和陜桐4號(hào)具有速生、材質(zhì)好、抗性強(qiáng)等優(yōu)點(diǎn)[26]。
通常遺傳連鎖框架圖基本要求標(biāo)記間平均距離在 20 cM左右;若要進(jìn)行基因定位,則要求標(biāo)記的平均間隔在 10~20 cM 之間或更??;若要用于 QTL 定位,其平均距離須在 10 cM 以下。王源秀等[27]利用 SSR 和 SRAP分子標(biāo)記技術(shù)構(gòu)建的響葉楊×銀白楊遺傳圖譜中估算楊樹基因組總長(zhǎng)度為2 695.56 cM,圖譜的基因組覆蓋度為93.34%。王磊等[28]以 ‘紅茄梨’和 ‘晚秀梨’雜交 F1 代中已結(jié)果的 81 株單株為試材,構(gòu)建了包含 187個(gè) SSR 標(biāo)記,分布在 18 個(gè)連鎖群上的遺傳連鎖圖譜,圖譜總長(zhǎng)為 964.82 cM,標(biāo)記平均間距為 5.16 cM。林艷等[29]構(gòu)建的加勒比松遺傳圖譜共包含199個(gè)標(biāo)記,總長(zhǎng)度為1 734 cM,標(biāo)記平均間距10.6 cM。劉列釗等[30]構(gòu)建的甘藍(lán)型油菜高密度 SNP 遺傳圖譜中用于 QTL 分析的圖譜包括 2 756 個(gè) SNP 位點(diǎn),覆蓋甘藍(lán)型油菜基因組 1 832.4 cM,標(biāo)記之間平均距離為 0.66 cM。劉凱等[31]構(gòu)建的該圖譜覆蓋小麥21條染色體,有6 244個(gè)標(biāo)記,其中SNP標(biāo)記 6 001 個(gè),DArT 標(biāo)記 216 個(gè),SSR 標(biāo)記 27 個(gè);染色體總長(zhǎng)度為 4 895.29 cM,兩標(biāo)記間平均距離為0.78 cM。本研究利用RAD測(cè)序技術(shù),從毛泡桐和白花泡桐及雜種 F1 181個(gè)子代群體中篩選出551 894個(gè)多態(tài)SNP位點(diǎn),構(gòu)建了一張包含 3 545個(gè)標(biāo)記的泡桐高密度遺傳連鎖圖譜,所有標(biāo)記分布于20個(gè)連鎖群,符合泡桐單倍體的染色體數(shù)目(n=20),圖譜總長(zhǎng)度為2 050.77 cM,標(biāo)記間平均距離為 0.58 cM,圖譜對(duì)泡桐基因組的覆蓋度達(dá)到99.35%。與前人研究的木本植物還是農(nóng)作物的遺傳圖譜相比,作圖群體數(shù)量和使用的標(biāo)記數(shù)量都更豐富,構(gòu)建的遺傳圖譜更精密。
泡桐是我國(guó)特有的重要經(jīng)濟(jì)林樹種,在我國(guó)林木遺傳育種研究中占有重要地位,本研究構(gòu)建的泡桐高密度遺傳圖譜,為今后進(jìn)行泡桐基因組學(xué)、分子標(biāo)記輔助育種等研究提供了一個(gè)好的平臺(tái)。但是,本研究中SNP分子標(biāo)記能否與泡桐的性狀關(guān)聯(lián),能否通過(guò)某一遺傳標(biāo)記性狀的遺傳規(guī)律來(lái)驗(yàn)證構(gòu)建的遺傳圖譜,還需要進(jìn)一步開展目的性狀相關(guān)基因的定位,采用構(gòu)建載體和基因?qū)氲燃夹g(shù)手段,為泡桐種質(zhì)創(chuàng)制與新品種培育提供理論依據(jù)。