杜常健,張 敏,周星魯,張 磊,2,胡建軍,2*
(1.中國林業(yè)科學(xué)研究院林業(yè)研究所,林木遺傳育種國家重點(diǎn)實驗室,國家林業(yè)和草原局林木培育重點(diǎn)實驗室,北京 100091;2.南方現(xiàn)代林業(yè)協(xié)同創(chuàng)新中心,南京林業(yè)大學(xué),江蘇 南京 210037)
楊樹(PopulusL.)具有速生、易繁殖、適應(yīng)性強(qiáng)和生產(chǎn)力高等特性,在木材加工、碳匯造林、制漿造紙和生物燃料等方面發(fā)揮著重要作用[1]。楊樹提供了大量木材,但是楊樹人工林土壤氮素缺乏導(dǎo)致其木材產(chǎn)量受到嚴(yán)重制約[2-4],因此選育高產(chǎn)量的楊樹品種具有重要意義。作物育種的關(guān)鍵步驟是選擇,而常規(guī)育種是以表型選擇為基礎(chǔ)的?;谟H本雜交和后代表型選擇的傳統(tǒng)育種費(fèi)時費(fèi)力,挖掘和公布一個新的品種需要至少10 a 以上的時間?;蚪M選擇(Genomic selection, GS)也被稱為基因組預(yù)測,通過在早期階段淘汰潛力較小的個體來降低育種成本[5-7]?;蚪M選擇現(xiàn)在被廣泛用于數(shù)量性狀的遺傳改良,GS 可以減少植物育種中表型觀察所需的成本和工作量[8]。通過使用詳細(xì)的基因組信息揭示一個基因型的基因優(yōu)勢,可以使農(nóng)業(yè)和林業(yè)生產(chǎn)發(fā)生革命性的變化[9]。
GS 的預(yù)測準(zhǔn)確度影響因素包括群體的大小、群體結(jié)構(gòu)、親緣關(guān)系、分子標(biāo)記、表型的精度、目標(biāo)性狀的遺傳力和統(tǒng)計模型等[10-11]。分子標(biāo)記的數(shù)量和密度影響基因組預(yù)測的準(zhǔn)確度和效率,因此需要足夠的分子標(biāo)記并且選擇適合模型才能得到準(zhǔn)確的育種值[12]。統(tǒng)計模型在GS 研究中具有重要地位,其對表型和基因型數(shù)據(jù)的訓(xùn)練效果決定著標(biāo)記效應(yīng)是否估計準(zhǔn)確,進(jìn)而對后續(xù)的育種計劃產(chǎn)生影響[13]。采用固定和隨機(jī)效應(yīng)的混合線性模型(Mixed linear model,MLM)直接預(yù)測個體的遺傳優(yōu)點(diǎn),被稱為最佳線性無偏預(yù)測(Best Linear Unbiased Prediction,BLUP)。VanRaden 借助BLUP 于2008 年提出了基于G 矩陣的gBLUP(Genomic BLUP)方法[14]。目前gBLUP 已經(jīng)廣泛應(yīng)用于動植物育種研究中,并且因為它的高效、穩(wěn)健等優(yōu)點(diǎn),現(xiàn)在仍飽受青睞。Wang 等人基于gBLUP,壓縮個體分成不同的組構(gòu)建了cBLUP (Compressed BLUP)模型和區(qū)段化標(biāo)記(bin 標(biāo)記)構(gòu)建了sBLUP(SUPER BLUP)模型[15]。
育種計劃的成功取決于對遺傳參數(shù)的精確估計,包括對育種值的可靠預(yù)測[16-17]。育種值是遺傳效應(yīng)對該性狀表型值的加性效應(yīng)[18],它消除了環(huán)境影響,反映了真實的遺傳效應(yīng),提高了選擇的準(zhǔn)確性。通過估算親本和雜交后代的育種值進(jìn)行基因型選擇可以代替表型選擇,從而提高選擇的效率和準(zhǔn)確性。育種值的估算對重要造林樹種的遺傳改良起到了重要作用。有效地建立基因型-表型關(guān)系,以便作出可靠的預(yù)測,指導(dǎo)探索巨大的遺傳選擇空間。對于雜交作物來說尤其如此,因為潛在雜交品種的數(shù)量太高,無法進(jìn)行廣泛的測試。由于GS 在提高動物育種遺傳收益方面取得的巨大成功,因此GS 被引入到植物育種研究的許多方面,如自交系性能預(yù)測、親本選擇和雜交預(yù)測[19-20]。利用GS 對植物的重要的經(jīng)濟(jì)性狀進(jìn)行預(yù)測育種值,加快育種計劃具有重要的意義。目前在楊樹的經(jīng)濟(jì)相關(guān)性狀的全基因組選擇方面的研究十分欠缺,亟須展開基因組選擇相關(guān)的研究工作。
在F1雜交育種中,隨著自交系數(shù)量的增加,需要測試的親本組合數(shù)量呈指數(shù)增長。因此,利用GS 對有雜種優(yōu)勢的F1代進(jìn)行預(yù)選,可以實現(xiàn)高效育種。本研究對高氮和低氮環(huán)境下的地徑、株高和莖生物量等性狀進(jìn)行全基因組選擇研究,利用3 個全基因組選擇模型(gBLUP、sBLUP、cBLUP)和已經(jīng)觀測364 個基因型的表型觀測值(包含2 個親本和362 個雜交F1代)對502 個基因型進(jìn)行預(yù)測育種值,為楊樹遺傳育種工作奠定基礎(chǔ)。
美洲黑楊丹紅楊(Populus deltoides‘Danhong’)具有速生和干形通直等優(yōu)良特性[21-22]。青楊派小葉楊優(yōu)樹通遼1 號楊(Populus simonii‘Tongliao1’)具有抗旱、抗凍和抗病蟲害等特點(diǎn),但是生長緩慢[23-24]。以丹紅楊為母本,通遼1 號楊為父本的F1群體種植于中國林業(yè)科學(xué)研究院試驗田,包括2 個親本和500 個雜交F1代。于2020年4 月采集親本及雜交子代1 年生枝條進(jìn)行扦插繁殖,5 月選擇生長一致的楊樹幼苗移栽大田。田間試驗采用隨機(jī)區(qū)組設(shè)計,設(shè)施氮肥處理(與對照相比定義為高氮條件)和對照為不施氮肥處理(與處理組相比定義為低氮條件)2 個區(qū)組,種植株行距為30 cm × 50 cm。6 月、7 月和8 月在高氮處理區(qū)每株追施尿素(CON2H4,含氮量46.0%)4 g。干旱季節(jié)和雨后需要正常灌溉和除草。試驗設(shè)計了兩個處理條件,3 次生物學(xué)重復(fù),364 個基因型(包括2 個父母和362 個F1代),每次重復(fù)3 株幼苗,共計6 552 棵樹。
11 月份楊樹生長季節(jié)結(jié)束后進(jìn)行所有雜交后代表型測定。地徑:利用電子卡尺在根基部以上5 cm 處,從垂直的兩個方向測定地徑;株高:從莖基部5 cm 處測量苗高;莖生物量:莖砍伐后自然風(fēng)干,稱取莖的質(zhì)量。
兩個環(huán)境中的F1種群的廣義遺傳力(H)計算公式如下:
Vg代表遺傳方差,Ve代表殘差,L代表環(huán)境的個數(shù)。
全基因組重測序數(shù)據(jù)來自于2 個親本和500 個雜交群體[23]。毛果楊(Populus trichocarpaTorr.& Gray)基因組V3.1 作為參考基因組。對SNP(Single Nucleotide Polymorphism, SNP)位點(diǎn)進(jìn)行過濾,以確定標(biāo)記缺失率<10%,次要等位基因頻率(MAF)>5%。為了獲得獨(dú)立的SNP 標(biāo)記,根據(jù)LD 值進(jìn)行過濾,窗口為50 kb,步長為2 個SNP,R2閾值為0.7。最終保留總共1 447 341個高質(zhì)量的SNP 用于GS 分析。通過TASSAL5.0軟件對502 基因型的過濾后的重測序數(shù)據(jù)進(jìn)行主成分分析(Principal component analysis,PCA),利用R 軟件ggplot2 包繪制PCA 的散點(diǎn)分布圖。
統(tǒng)計模型是GS 的核心,極大地影響了基因組預(yù)測的準(zhǔn)確度和效率。利用gBLUP、cBLUP 和sBLUP 模型進(jìn)行GS 分析。通過 R 軟件的GAPIT3包進(jìn)行3 個模型的基因組選擇分析[25]。
gBLUP 模型公式如下:
y是表型向量,X是固定效應(yīng)系數(shù)關(guān)聯(lián)矩陣,b是固定效應(yīng),Z是隨機(jī)加性遺傳效應(yīng)的關(guān)聯(lián)矩陣,g是隨機(jī)加性遺傳效應(yīng),e是殘差向量。
混合模型方程組如下:
其中,k=σ2e/σ2μ,G陣是基因組關(guān)系矩陣,計算模型如下:
其中,m是標(biāo)記數(shù)目,M是個體基因型信息矩陣。Pi是第i 位點(diǎn)的第二等位基因頻率。P矩陣是按照每個位點(diǎn)的第二等位基因頻率減去0.5 然后乘以2 規(guī)則構(gòu)建。
cBLUP[15]由相應(yīng)的全基因組關(guān)聯(lián)分析(Genome-wide association study, GWAS)方法壓縮混合線性模型(Compressed mixed linear model,CMLM)開發(fā)而來。sBLUP[15]由相應(yīng)的SUPER GWAS 方法開發(fā)而來。
育種值的準(zhǔn)確性是基因組預(yù)測育種值(GEBV)和真實的育種值(True Breeding Values,TBV或觀測值)的相關(guān)系數(shù),計算公式為
所有數(shù)據(jù)經(jīng)過excel、R 語言和SPSS 軟件進(jìn)行統(tǒng)計分析和相關(guān)性分析,并且作圖。
前期試驗獲得了2 個親本和500 個雜交F1代的全基因組重測序數(shù)據(jù)[23]。重測序數(shù)據(jù)經(jīng)過過濾后,獲得了1 447 341 個高質(zhì)量的SNPs,均勻分布在19 個染色體上(圖1)。對500 個雜交群體和2 個父母的SNP 數(shù)據(jù)進(jìn)行PCA 分析。結(jié)果可以看出丹紅楊和通遼1 號楊的差異較大,雜交群體可以分為2 個亞群體。一個亞群偏向于丹紅楊,一個亞群偏向于通遼1 號楊(圖2)。
圖1 SNPs 在19 條染色體上的分布Fig.1 Distribution of SNPs on 19 chromosomes
圖2 雜交群體重測序數(shù)據(jù)的主成分分析Fig.2 PCA analysis of resequencing data of a hybrid population
丹紅楊的地徑在高氮和低氮條件下分別比通遼1 號楊提高2.2 倍和2.9 倍。丹紅楊的株高在高氮和低氮條件下分別比通遼1 號楊提高了1.8 倍和2.5 倍。丹紅楊的莖生物量在高氮和低氮條件下分別比通遼1 號楊提高了20 倍和33 倍。結(jié)果說明丹紅楊的生長表型在不同氮環(huán)境下顯著高于通遼1 號楊。在夏皮羅-威爾克檢驗中(表1),雜交群體中3 個性狀的W 檢驗值范圍為0.96~0.99,接近1,說明表型數(shù)據(jù)符合正態(tài)分布。在高氮和低氮環(huán)境下,雜交群體的地徑、株高和莖生物量的變異系數(shù)在0.13~0.42 之間。氮素利用率相關(guān)性狀的變異系數(shù)表明F1群體具有豐富的遺傳變異和選擇潛力。地徑、株高和莖生物量的遺傳力分別為0.72、0.70 和0.70(表1)。
表1 楊樹雜交群體表型性狀觀測值的統(tǒng)計分析Table 1 Statistical analysis of phenotypic traits of poplar hybrid populations
在502 個基因型中包括具有田間測定表型值的364 個基因型和沒有測得表型的138 個基因型。利用cBLUP、gBLUP、sBLUP 模型對雜交群體在高氮條件下的地徑、株高和莖生物量進(jìn)行了全基因組預(yù)測育種值(圖3)。結(jié)果表明cBLUP 模型對地徑、株高和莖生物量的預(yù)測的準(zhǔn)確率分別為0.139、0.012、0.001。gBLUP 模型對地徑、株高和莖生物量的預(yù)測的準(zhǔn)確率分別為0.990、0.987、0.990。sBLUP 模型對地徑、株高和莖生物量的預(yù)測的準(zhǔn)確率分別為0.544、0.803、0.829。結(jié)果說明gBLUP 預(yù)測結(jié)果最準(zhǔn)確接近于1,而cBLUP 預(yù)測結(jié)果的準(zhǔn)確性最低。
圖3 不同模型計算高氮環(huán)境下表型性狀育種值的預(yù)測準(zhǔn)確率比較分析Fig.3 Comparative analysis of prediction accuracy of phenotypic traits breeding value under high nitrogen environment calculated by different models
364 個基因型的觀測值TBV 和cBLUP、gBLUP、sBLUP 計算的地徑的均值分別為17.91、17.94、18.28、18.08;株高的均值分別為292.28、293.75、297.28、293.68;莖生物量的均值分別為144.61、144.61、144.61、144.61(表2)。結(jié)果說明3 個模型計算的育種值的均值和觀測值的均值差異較小。觀測值TBV 和cBLUP、gBLUP、sBLUP 計算的地徑的方差分別為2.96、0.42、2.90、1.76;株高方差分別為69.89、23.05、59.80、40.59;莖生物量的方差分別為58.45、19.49、58.45、42.89(表2)。通過方差的比較分析,可以看出cBLUP 模型計算的方差值遠(yuǎn)小于觀測值的方差值。
表2 高氮環(huán)境下觀測值和育種值的統(tǒng)計分析Table 2 Statistical analysis of observed value and breeding value under a high nitrogen environment
群體試驗在單一環(huán)境下進(jìn)行,受環(huán)境因素影響的表型數(shù)據(jù)不穩(wěn)定,在不同的環(huán)境下鑒定表型性狀的育種值更具有穩(wěn)定性。圖4 所示,cBLUP 模型對低氮條件下的地徑、株高和莖生物量的預(yù)測的準(zhǔn)確率分別為0.108、0.052、0.055;gBLUP 模型預(yù)測的準(zhǔn)確率分別為0.985、0.991、0.990;sBLUP 模型準(zhǔn)確率分別為0.574、0.590、0.777。
圖4 不同模型計算低氮環(huán)境下表型性狀育種值的預(yù)測準(zhǔn)確率比較分析Fig.4 Comparative analysis of prediction accuracy of phenotypic traits breeding value under low nitrogen environment calculated by different models
364 個基因型觀測值TBV 和cBLUP、gBLUP、sBLUP 計算地徑的均值分別為16.23、16.24、15.81、15.98 ; 株高的均值分別為277.54、277.68、273.78、275.49;莖生物量的均值為109.01、109.01、109.01、109.01。結(jié)果說明低氮條件下地徑、株高和莖生物量的育種值和觀測值的均值比較分析發(fā)現(xiàn)差異較?。ū?)。觀測值TBV 和cBLUP、gBLUP、sBLUP 計算的地徑的育種值的方差分別為3.31、0.35、1.92、2.14;株高的方差分別為48.32、2.50、22.32、29.42;莖生物量的方差分別為46.59、2.55、46.59、35.00(表3)。通過方差的比較分析可以看出cBLUP模型計算的方差值較小,gBLUP 和sBLUP 計算的育種值的方差與觀測值的方差較為接近。
表3 低氮環(huán)境下觀測值和育種值的統(tǒng)計分析Table 3 Statistical analysis of observed value and breeding value under a low nitrogen environment
因為gBULP 預(yù)測的育種值準(zhǔn)確率較高,因此利用了雜交群體502 個基因型的莖生物量的育種值進(jìn)行了評價和篩選。根據(jù)高氮和低氮條件下莖生物量的均值把F1代群體劃分為4 種類型(圖5)。低氮高效型(Ⅰ區(qū)域):本區(qū)域F1代的莖生物量在低氮條件下高于均值,在高氮條件下低于均值。雙高效型(Ⅱ區(qū)域):本區(qū)域F1代的莖生物量在低氮和高氮條件下均高于平均值。高氮高效型(Ⅳ區(qū)域):本區(qū)域F1代的莖生物量在低氮條件下低于均值,在高氮條件下高于均值。低氮低效型(Ⅲ區(qū)域):本區(qū)域F1代的莖生物量在低氮和高氮條件下均低于平均值。雙高效型(Ⅱ區(qū)域)包括191 個基因型,均值(莖生物量在低氮條件和高氮條件下的均值)的前20 名包括16-1-16、16-1-194、13-116、13-73、13-481、13-268、13-286、13-566、13-173、13-578、16-1-65、13-242、16-1-189、13-40、13-608、16-1-170、16-1-22、13-237、13-272、13-335。雙高效型中前20 名符合育種目標(biāo)的要求,可作為優(yōu)良遺傳材料保存,進(jìn)一步研究。
圖5 利用莖生物量劃分雜交群體氮利用效率類型Fig.5 The types of nitrogen use efficiency of hybrid populations were divided by stem biomass.
在林業(yè)生產(chǎn)中,為了避免與糧食生產(chǎn)競爭肥沃的土地,經(jīng)常在貧瘠的土地上植樹造林,而且人工林種植和管理較少施肥。因此楊樹人工林的生產(chǎn)力取決于基因型的正確選擇,需要研究高生物量生產(chǎn)的楊樹品種,以便在邊際土壤上種植。本研究利用丹紅楊、通遼1 號楊和雜交群體在田間進(jìn)行了施氮肥試驗,調(diào)查了364 個基因型在低氮和高氮條件下的地徑、株高和莖生物量。丹紅楊的莖生物量在高氮和低氮條件下分別比通遼1 號楊提高了20 倍和33 倍。結(jié)果說明丹紅楊的生長表型在不同氮環(huán)境下顯著高于通遼1 號楊,具有優(yōu)良的生長表型性狀。田間試驗更加貼合實際的木材生產(chǎn)情況,不同的氮肥處理條件下的生長表型性狀的調(diào)查,可以幫助我們選擇優(yōu)良的高氮利用、耐低氮和高生物量生產(chǎn)的基因型,具有指導(dǎo)實際生產(chǎn)的意義。
基因組選擇方法被迅速應(yīng)用于動物育種[26]和植物育種的研究中[27]?;蚪M選擇研究對多年生樹木具有重要的應(yīng)用價值,因為通過使用基因組標(biāo)記來預(yù)測個體的遺傳價值,可以在幼苗階段選擇個體,顯著縮短選育周期,例如在林業(yè)樹木中松樹(Pinus pinasterAit.)[28]、桉樹(Eucalyptusspp.)[29]、油棕(Elaeis guineensisJacq.)[30]。高通量測序技術(shù)的發(fā)展顯著降低了分子標(biāo)記的成本,覆蓋全基因組的高密度分子標(biāo)記使得復(fù)雜性狀的基因組選擇技術(shù)迅速發(fā)展。本研究中我們利用全基因組重測序數(shù)據(jù),獲得了1 447 341 個SNPs 位點(diǎn),覆蓋了整個基因組的遺傳信息,保證了后續(xù)的基因組選擇的需求。GS 利用覆蓋全基因組的高密度SNP 標(biāo)記,結(jié)合表型記錄或系譜記錄對個體育種值進(jìn)行估計,其假定這些標(biāo)記中至少有一個標(biāo)記與所有控制性狀的QTL(Quantitative trait locus)處于連鎖不平衡狀態(tài),這樣使得每個QTL 的效應(yīng)都可以通過SNP 得到反映,將所有標(biāo)記效應(yīng)值累加,獲得基因組估計育種值[31]。木本植物的選育大多基于田間表型選擇,但是田間試驗工作量大且繁瑣和世代時間長,無法對大量雜交群體展開表型調(diào)查。本研究利用364 個基因型的表型觀測值和3 個全基因組選擇模型,對502 個基因型(包括已知表型和未知表型的所有個體)進(jìn)行育種值預(yù)測。對楊樹雜交群體的地徑、株高和莖生物量的觀測值和3 個GS 模型計算的育種值的均值和方差進(jìn)行了分析。群體育種值的均值差異較小,說明整體預(yù)測較差異較??;群體育種值的方差差異較大,說明個體預(yù)測3 個模型差異較大?;蚪M預(yù)測研究結(jié)果可以幫助我們預(yù)測只有基因型數(shù)據(jù)沒有觀測表型值的楊樹基因型個體,減少了田間測試的工作量和成本,提高了育種效率。對cBLUP、gBLUP、sBLUP 三種預(yù)測模型的準(zhǔn)確性結(jié)果進(jìn)行了比較分析。gBLUP 對生長表型性狀預(yù)測結(jié)果最準(zhǔn)確接近于1 。sBLUP 預(yù)測結(jié)果的準(zhǔn)確性范圍是0.5~0.9。cBLUP 預(yù)測結(jié)果的準(zhǔn)確性小于0.2。研究結(jié)果表明gBLUP 模型預(yù)測的結(jié)果較為準(zhǔn)確,cBLUP 預(yù)測的結(jié)果最差?;蚪M最佳線性無偏預(yù)測(gBLUP)在計算速度上具有優(yōu)勢,而且在對極端復(fù)雜性狀的預(yù)測精度上較高,因次適合大范圍應(yīng)用到林木的選育工作中。
我國楊樹優(yōu)良基因型資源的收集、篩選和鑒定工作做得相對較少,這是因為品種的選育需要耗費(fèi)大量的人力與物力。優(yōu)良的種質(zhì)資源是通過大量種質(zhì)資源篩選出來的,需要科學(xué)的評價方法,通過育種值進(jìn)行評價篩選工作更加穩(wěn)定和可靠,具有大范圍推廣的應(yīng)用價值。由于gBLUP 計算的育種值較為準(zhǔn)確,因此本研究選擇了gBLUP 計算的502 個基因型的育種值進(jìn)行了后續(xù)的評價和篩選工作。楊樹是以收獲木材產(chǎn)量為主,因此本研究通過高氮和低氮條件下的莖生物量把F1代群體劃分為4 種類型,包括雙高效型、高氮高效型、低氮高效型和低氮低效型。其中雙高效型屬于高生物量生產(chǎn)的類型,前20 名可以作為優(yōu)良基因型的備選,如16-1-16、16-1-194、13-116、13-73、13-481、13-268、13-286、13-566、13-173、13-578、16-1-65、13-242、16-1-189、13-40、13-608、16-1-170、16-1-22、13-237、13-272、13-335。育種值的預(yù)測和篩選幫助我們實現(xiàn)了早期選擇,基因組選擇的研究結(jié)果具有指導(dǎo)實際生產(chǎn)的意義。全基因組選擇的育種應(yīng)用雖然仍有一些瓶頸,但它必然是智能育種時代非常重要的一項技術(shù),也是未來育種一個重要的方向,它將極大影響未來林木育種的方式和進(jìn)程。
丹紅楊和通遼1 號楊的生長表型性狀差異顯著,雜交群體的生長表型性狀具有豐富的遺傳變異?;蚪M選擇結(jié)果表明gBLUP 模型預(yù)測的結(jié)果較為準(zhǔn)確,cBLUP 預(yù)測的結(jié)果最差。篩選出高生物量生產(chǎn)的優(yōu)良基因型16-1-16、16-1-194、13-116、13-73 、13-481 、13-268 、13-286 、13-566、13-173、13-578、16-1-65、13-242、16-1-189、13-40、13-608、16-1-170、16-1-22、13-237、13-272、13-335。全基因組選擇幫助楊樹育種工作完成了早期選擇,減少了表型測定成本,縮短了育種周期。