焦宇馨 張宇翔 楊文艷 經(jīng)思宇 尹玉琳 劉暢 王欣 徐辰武 徐揚
摘要: 多性狀聯(lián)合全基因組選擇能夠有效利用性狀間的遺傳相關(guān)和環(huán)境相關(guān),有望提高表型預(yù)測的準確性。本研究提出了結(jié)合輔助性狀的全基因組選擇策略,以來源廣泛的342份玉米自交系為試驗材料,對其進行基因分型測序(GBS)并分析其農(nóng)藝性狀,對每個目標性狀均基于輔助性狀及其組合進行預(yù)測,利用五倍交叉驗證法評價其預(yù)測力。結(jié)果表明,利用與目標性狀相關(guān)性較高的輔助性狀可較大程度地提升預(yù)測力,尤其是對于低遺傳力性狀;隨著輔助性狀個數(shù)的增加,預(yù)測力也隨之增加。進一步比較了5種統(tǒng)計模型結(jié)合輔助性狀的全基因組選擇的表型預(yù)測力,總體而言,再生核希爾伯特空間(RKHS)模型和貝葉斯B(BayesB)模型的預(yù)測效果較優(yōu),而極端梯度提升(XGBOOST)模型的預(yù)測效果較差。本研究結(jié)合輔助性狀有效提高了玉米全基因組選擇的預(yù)測準確性,為玉米的全基因組選擇育種提供新的思路和參考。
關(guān)鍵詞: 玉米;全基因組選擇;輔助性狀;預(yù)測力
中圖分類號: S513;Q943 文獻標識碼: A 文章編號: 1000-4440(2023)02-0313-08
Predictability of maize genome-wide selection combined with auxiliary traits
JIAO Yu-xin1,2, ZHANG Yu-xiang 1,2, YANG Wen-yan1,2, JING Si-yu1,2, YIN Yu-lin 1,2, LIU Chang1,2,WANG Xin1, XU Chen-wu1,2, XU Yang1,2
(1.Jiangsu Key Laboratory of Crop Genomics and Molecular Breeding/Key Laboratory of Plant Functional Genomics of the Ministry of Education/ Jiangsu Key Laboratory of Crop Genetics and Physiology, Agricultural College of Yangzhou University, Yangzhou 225009, China;2.Jiangsu Co-innovation Center for Modern Production Technology of Grain Crops, Yangzhou University, Yangzhou 225009, China)
Abstract: Multi-trait genomic selection can use genetic and environmental correlations between traits, which holds great promise to improve the prediction accuracy. This study proposed a genomic prediction strategy using auxiliary traits. A total of 342 maize inbred lines from a diversity panel were used as test materials. Genotyping by sequencing (GBS) was performed and six agronomic traits were measured in the field. Each target trait was predicted based on auxiliary traits and their combinations. The predictability was evaluated using five-fold cross-validation. The results showed that the use of auxiliary traits highly correlated with target traits greatly improved predictability and low-heritability traits could benefit more from auxiliary traits. As the number of auxiliary traits increased, the predictability also increased. We also compared the prediction performance of five different models combined with auxiliary traits. Overall, reproducing kernel Hilbert space (RKHS) model and BayesB model performed well, while extreme gradient boosting (XGBOOST) model performed worst. This study improves the accuracy of genomic prediction and provides new ideas and references for genomic selection breeding of maize.
Key words: maize;genomic selection;auxiliary traits;predictability
玉米是中國最重要的糧食作物之一,為保障國家糧食安全作出重要貢獻?!笆濉币詠?,中國培育了一批優(yōu)良的玉米品種,其豐產(chǎn)性和穩(wěn)產(chǎn)性得到了明顯提升[1]。然而與一些發(fā)達國家相比,中國玉米平均單產(chǎn)偏低,生產(chǎn)成本高,競爭力不強。中國玉米育種仍以常規(guī)技術(shù)為主,存在預(yù)見性差、周期長、效率低等突出問題[2]。隨著高通量測序技術(shù)的不斷發(fā)展,全基因組選擇育種技術(shù)已成為玉米精準育種的重要手段和發(fā)展方向。
全基因組選擇(GS)是根據(jù)訓(xùn)練群體基因型與表型間的關(guān)聯(lián)構(gòu)建統(tǒng)計模型,從而對未知表型的候選群體進行表型預(yù)測和選擇[3]。GS在獲取樣本基因型時就可對其育種值進行評估,能夠大幅提升選擇準確性和育種效率,縮短育種周期,實現(xiàn)從經(jīng)驗育種至精準育種的飛躍[4]。一些發(fā)達國家玉米商業(yè)化育種起步相對較早,全球種業(yè)企業(yè)如科迪華公司等已運用GS技術(shù)提高玉米品種選育效率??频先A公司和先正達公司利用全基因組選擇技術(shù)分別培育的抗旱玉米品種AQUAmax和Artesian已進入市場。國際玉米小麥改良中心在全球玉米育種計劃中納入全基因組選擇[5]。GS技術(shù)雖然為玉米育種提供了新的契機,但是對受環(huán)境影響較大的數(shù)量性狀來說,其預(yù)測準確性仍較低[6-7]。GS方法的改進一直是GS研究的重要課題,也是對品種進行精準選擇的關(guān)鍵。
目前GS通常針對單個性狀進行預(yù)測和選擇,而忽視了多個關(guān)聯(lián)性狀間的遺傳基礎(chǔ)[8]。多性狀聯(lián)合GS不僅能夠獲取性狀間的遺傳相關(guān),還能獲取性狀間的環(huán)境相關(guān),有望提升表型預(yù)測的準確性,尤其是一些低遺傳力的性狀[9-10]。在育種研究中,可能會面臨一些性狀難以測量或觀測成本高昂的問題,可以考慮結(jié)合較易測量的性狀去輔助預(yù)測較難鑒定的性狀。本研究擬以來源廣泛的342份玉米自交系為試驗材料,對其進行基因分型測序(GBS)并分析產(chǎn)量相關(guān)性狀,開展結(jié)合輔助性狀的全基因組選擇研究,利用交叉驗證評估結(jié)合不同輔助性狀的全基因組選擇預(yù)測的效果,進一步比較5種不同統(tǒng)計模型對預(yù)測準確性的影響,以期為提高玉米全基因組選擇的準確性提供技術(shù)支撐。
1 材料與方法
1.1 供試材料與試驗設(shè)計
試驗材料為342份來自熱帶、亞熱帶和溫帶的玉米自交系。試驗材料于2015年、2016年和2017年在海南省江蘇南繁中心種植。田間試驗采用隨機區(qū)組設(shè)計,2次重復(fù),每份材料重復(fù)種植2行,行長3.00 m,行距0.50 m,株距為0.25 m。
1.2 基因型分型與表型鑒定
在玉米成熟期,每份材料隨機選取6株測量株高(PH),并選取6個長勢一致的果穗,測定穗行數(shù)(ERN)、行粒數(shù)(KNR)、穗長(EL)、穗粗(ED)、穗粒質(zhì)量(KW)。利用R語言lme4軟件包,計算3個環(huán)境(2015年、2016年、2017年)下表型數(shù)據(jù)的最佳線性無偏估計值用于后續(xù)分析。性狀廣義遺傳力的計算公式為:H2=σ2g/(σ2g+σ2ε/l),式中,σ2g為遺傳方差;σ2ε為殘差方差;l為環(huán)境個數(shù),方差由R語言lme4軟件包估計。對全部自交系進行基因分型測序(GBS),根據(jù)質(zhì)控標準最小等位基因頻率(MAF)>0.05及缺失率<10%,過濾后獲得108 193個單核苷酸多態(tài)性(SNP)標記用于后續(xù)分析。
1.3 結(jié)合輔助性狀的全基因組選擇預(yù)測模型
本研究所使用的基因組最佳線性無偏預(yù)測(Genomic best linear unbiased prediction,GBLUP)模型如下:
其中,m為全部標記數(shù)目;Zk為n個個體在第k個標記的基因型向量;K為親緣關(guān)系矩陣;φ2為多基因方差,方差組分可由限制性極大似然法估計。
進行輔助性狀的全基因組選擇預(yù)測時,所有輔助性狀的表型值均需要進行標準化和中心化,輔助性狀為某一單一性狀或不同性狀的組合。
1.4 模型比較
本研究進一步比較了5種統(tǒng)計模型進行輔助性狀全基因組選擇預(yù)測的效果,5種統(tǒng)計模型包括基因組最佳線性無偏預(yù)測(Genomic best linear unbiased prediction,GBLUP)模型、再生核希爾伯特空間(Reproducing kernel Hilbert space,RKHS)模型、最小絕對收縮與選擇算子(Least absolute shrinkage and selection operator,LASSO)模型、貝葉斯B(BayesB)模型、極端梯度提升(Extreme gradient boosting, XGBOOST)模型,所有計算運用R語言包predhy實現(xiàn)。其中XGBOOST模型的學習率設(shè)置為0.07,迭代次數(shù)設(shè)置為1 000;RKHS模型采用多核模型,迭代次數(shù)設(shè)置為1 500,老化(BurnIn)設(shè)置為500,其余參數(shù)均采用默認值。
1.5 預(yù)測力評估
本研究基于五倍交叉驗證法評估預(yù)測力,即將樣本隨機劃分為5等份,將4份作為訓(xùn)練集,1份用作驗證集。預(yù)測力采用預(yù)測值與實際觀測值的決定系數(shù)表示。為了避免隨機干擾,重復(fù)交叉驗證過程20次,以預(yù)測力的平均值作為評價預(yù)測準確性的指標。
2 結(jié)果與分析
2.1 農(nóng)藝性狀的描述性統(tǒng)計及相關(guān)分析
對玉米自交系的6個農(nóng)藝性狀[穗行數(shù)(ERN)、行粒數(shù)(KNR)、穗粗(ED)、穗長(EL)、株高(PH)、穗粒質(zhì)量(KW)]進行描述性統(tǒng)計分析,結(jié)果(表1)表明,所有農(nóng)藝性狀在自交系間均有豐富變異,變異系數(shù)都高于0.10,其中KW的變異系數(shù)最高,為0.30,ED的變異系數(shù)最低,為0.11。遺傳力分析結(jié)果表明,6個農(nóng)藝性狀的遺傳力變化范圍為0.33~0.66,其中KNR的遺傳力最低,ERN的遺傳力最高。對6個農(nóng)藝性狀進行相關(guān)分析,表2顯示,除ERN與EL、ED與KNR之間不存在顯著相關(guān)外,其余性狀間均存在顯著正相關(guān),其中KW與KNR的相關(guān)系數(shù)最高,達到0.650。
2.2 結(jié)合輔助性狀的全基因組選擇預(yù)測力
為了研究結(jié)合輔助性狀的玉米全基因組選擇的預(yù)測效果,本研究基于GBLUP模型,對每個目標性狀采用輔助性狀及其組合的全基因選擇的預(yù)測,利用五倍交叉驗證法評價預(yù)測力,并與目標性狀自身全基因組選擇的預(yù)測效果進行比較。結(jié)果(圖1、圖2)表明,大部分輔助性狀及其組合均可提高目標性狀的預(yù)測力。預(yù)測ERN時,單一輔助性狀中,以ED為輔助性狀時預(yù)測力最高,為0.560,以PH為輔助性狀時預(yù)測力最低,僅為0.367;多性狀輔助預(yù)測時,以ED、EL和KNR聯(lián)合輔助時的預(yù)測力最高,為0.590。預(yù)測KNR時,單一輔助性狀中,以KW為輔助性狀時預(yù)測力最高,為0.477,以ED為輔助性狀預(yù)測力最低,僅為0.105;多性狀輔助預(yù)測時,以ERN、ED、EL、PH、KW聯(lián)合輔助時的預(yù)測力最高,為0.683。預(yù)測ED時,單一輔助性狀中,以KW為輔助性狀時預(yù)測力最高,為0.591,以EL為輔助性狀時預(yù)測力最低,為0.377;多性狀輔助預(yù)測時,以ERN、KNR、EL和KW聯(lián)合輔助時的預(yù)測力最高,為0.779。預(yù)測EL時,單一輔助性狀中,以KNR為輔助性狀時預(yù)測力最高,為0.581,以ED為輔助性狀時預(yù)測力最低,為0.280;多性狀輔助預(yù)測時,以ERN、KNR、ED、PH、KW聯(lián)合輔助時的預(yù)測力最高,為0.639。預(yù)測PH時,單一輔助性狀中,以KW為輔助性狀時預(yù)測力最高,為0.449,以ERN為輔助性狀時預(yù)測力最低,為0.394;多性狀輔助預(yù)測時,以KNR、EL和KW聯(lián)合輔助時的預(yù)測力最高,為0.452。預(yù)測KW時,單一輔助性狀中,以KNR為輔助性狀時預(yù)測力最高,為0.625,以PH為輔助性狀時預(yù)測力最低,為0.366;多性狀輔助預(yù)測時,以KNR、ED、EL和PH聯(lián)合輔助時的預(yù)測力最高,為0.848。對于ERN、KNR、ED、EL、PH和KW,與未結(jié)合輔助性狀的目標性狀本身預(yù)測力相比,采取最佳輔助性狀組合預(yù)測時,預(yù)測力分別提高了0.212、0.577、0.373、0.345、0.060和0.526。從結(jié)果中可以發(fā)現(xiàn),基于那些與目標性狀相關(guān)性較高的輔助性狀,可在較大程度上提高預(yù)測力。例如,KW與KNR的相關(guān)系數(shù)最高,基于單一輔助性狀預(yù)測KW時,以KNR為輔助性狀的預(yù)測力最高,而預(yù)測KNR時,以KW為輔助性狀的預(yù)測力最高;ED與KNR不存在顯著相關(guān),基于單一輔助性狀預(yù)測ED時,以KNR為輔助性狀的預(yù)測力低于ED自身預(yù)測力,預(yù)測KNR時,以ED為輔助性狀的預(yù)測力也低于KNR自身預(yù)測力。
2.3 輔助性狀數(shù)目對全基因組選擇預(yù)測力的影響
為了了解輔助性狀數(shù)目對目標性狀全基因組選擇預(yù)測力的影響,本研究評估了采用1至5個輔助性狀全基因組選擇的預(yù)測力,結(jié)果(圖3)表明,對于所有目標性狀,隨著輔助性狀數(shù)目的增加,預(yù)測力提高。對于ERN、KNR、ED、EL、PH和KW,相比目標性狀自身全基因組選擇預(yù)測力,采用1個輔助性狀時,平均預(yù)測力分別提高了12.95%、139.36%、13.74%、32.82%、6.76%和52.53%;采用2個輔助性狀時,平均預(yù)測力分別提高了27.29%、271.27%、35.54%、66.64%、9.98%和93.39%;采用3個輔助性狀時,平均預(yù)測力分別提高了39.22%、387.38%、56.93%、93.96%、11.80%和124.53%;采用4個輔助性狀時,平均預(yù)測力分別提高了47.51%、480.42%、75.60%、111.30%、12.48%和147.44%;采用5個輔助性狀時,平均預(yù)測力分別提高了53.03%、546.76%、91.12%、117.56%、12.63%和163.67%。
2.4 不同GS模型對全基因組選擇預(yù)測力的影響
上述研究結(jié)果表明,采用GBLUP模型結(jié)合輔助性狀全基因組選擇時,對目標性狀預(yù)測力有較大幅度提升,為了探究合適的預(yù)測模型,本研究進一步比較了GBLUP、BayesB、LASSO、RKHS和XGBOOST這5種GS模型對于結(jié)合全部輔助性狀全基因組選擇對目標性狀的預(yù)測力。結(jié)果(圖4)表明,預(yù)測ERN時,BayesB、GBLUP、RKHS模型預(yù)測效果最優(yōu),預(yù)測力分別為0.604、0.596和0.594,LASSO、XGBOOST模型預(yù)測效果較差,預(yù)測力分別為0.510和0.497;預(yù)測KNR時,RKHS模型預(yù)測效果最優(yōu),預(yù)測力為0.714,XGBOOST模型預(yù)測效果較差,預(yù)測力為0.534;預(yù)測ED時,BayesB、RKHS模型預(yù)測效果最優(yōu),預(yù)測力分別為0.795和0.789,XGBOOST模型預(yù)測效果最差,預(yù)測力為0.617;預(yù)測EL時,RKHS、BayesB、GBLUP模型預(yù)測效果最優(yōu),預(yù)測力分別為0.648、0.646和0.637,XGBOOST模型預(yù)測效果最差,預(yù)測力為0.513;預(yù)測PH時,RKHS、BayesB、GBLUP模型預(yù)測效果最優(yōu),預(yù)測力分別為0.472、0.464和0.453,LASSO模型預(yù)測效果最差,預(yù)測力為0.367;預(yù)測KW時,RKHS模型預(yù)測效果最優(yōu),預(yù)測力為0.845,XGBOOST模型預(yù)測效果最差,預(yù)測力為0.756??傮w而言,RKHS模型和BayesB模型的預(yù)測效果較優(yōu),XGBOOST模型的預(yù)測效果較差。
3 討論
本研究開展了結(jié)合輔助性狀的玉米GS預(yù)測力研究,有效提升了全基因組選擇的準確性,主要原因是該策略能夠利用性狀間的相關(guān)性,因此預(yù)測效果與性狀間的相關(guān)性存在一定的關(guān)聯(lián)。利用與目標性狀相關(guān)性較高的輔助性狀可以最大程度地提高全基因組選擇預(yù)測力,利用與目標性狀不相關(guān)的輔助性狀可能反而會降低全基因組選擇對目標性狀的預(yù)測力。在作物育種研究中,一些性狀較難獲取,如產(chǎn)量、抗逆、根系性狀等,如果采用同一群體的其他相關(guān)性狀進行輔助預(yù)測,能夠有效降低育種成本,具有重要的實際應(yīng)用價值。在利用輔助性狀全基因組選擇時,低遺傳力性狀預(yù)測力的提升相比于高遺傳力性狀更為明顯,穗行數(shù)、穗粗和株高的遺傳力均大于0.5,采用全部輔助性狀全基因組選擇預(yù)測時,它們的預(yù)測力提升幅度均小于100%,而行粒數(shù)、穗長和穗粒質(zhì)量的遺傳力均小于0.5,采用全部輔助性狀全基因組選擇預(yù)測時,它們的預(yù)測力提升幅度均大于100%。這可能是因為低遺傳力性狀更易被環(huán)境因素影響,而結(jié)合輔助性狀全基因組選擇時,有效借助了性狀間的相關(guān)環(huán)境信息。
本研究分析了不同輔助性狀數(shù)目和統(tǒng)計模型對預(yù)測力的影響。有研究結(jié)果表明,在多性狀聯(lián)合分析中,輔助性狀數(shù)目達到一定數(shù)量后,繼續(xù)增加的輔助性狀對單個特定性狀預(yù)測力提升的貢獻較低,并且隨著輔助性狀數(shù)目的增加,運算復(fù)雜度會大大增加[11]。在本研究中,盡管個別單一輔助性狀也能較大程度提升預(yù)測力,但總體而言隨著輔助性狀數(shù)目的增加,預(yù)測準確性也隨之增加,采用更多輔助性狀能夠更大幅度提升對目標性狀預(yù)測的準確性。本研究的優(yōu)勢在于將輔助性狀視為固定效應(yīng),因而增加輔助性狀幾乎不影響模型運算效率。在全基因組選擇中,通過獲取更多的相關(guān)表型信息輔助預(yù)測目標性狀,有望進一步提高預(yù)測力。統(tǒng)計模型是影響GS準確性的關(guān)鍵因素[12],本研究比較了GBLUP、BayesB、LASSO、RKHS和XGBOOST這5種GS模型結(jié)合輔助性狀全基因組選擇的預(yù)測效果,整體而言,RKHS模型和BayesB模型的預(yù)測效果較優(yōu),而XGBOOST模型的預(yù)測效果較差。BayesB模型能夠?qū)Υ蟛糠治稽c的效應(yīng)進行壓縮,因此更適于捕獲顯著位點效應(yīng)[13-14]。有研究結(jié)果表明,BayesB模型對基因的數(shù)量較為敏感,當性狀由少數(shù)效應(yīng)較大的基因控制時,預(yù)測力較高,當性狀由許多微效基因控制時,預(yù)測力有所降低[15]。RKHS模型的主要優(yōu)勢是擅于捕獲一些非加性效應(yīng)[16]。XGBOOST是經(jīng)典的機器學習算法,其預(yù)測力較低的原因可能是計算復(fù)雜度較高且調(diào)參數(shù)難度較大,易造成過擬合。
4 結(jié)論
本研究提出了結(jié)合輔助性狀的玉米GS育種新策略,以來源廣泛的342份玉米自交系為試驗材料,對其進行GBS并鑒定6個農(nóng)藝性狀,對每個目標性狀均基于輔助性狀及其組合進行預(yù)測,利用五倍交叉驗證法評價預(yù)測力。結(jié)果表明,利用與目標性狀相關(guān)性較高的輔助性狀可較大程度地提高預(yù)測力;低遺傳力性狀的預(yù)測力提升相比高遺傳力性狀更為明顯;隨著輔助性狀個數(shù)的增加,目標性狀的預(yù)測準確性也隨之增加。本研究進一步比較了5種GS模型結(jié)合輔助性狀的全基因組選擇的預(yù)測力,總體而言,RKHS模型和BayesB模型預(yù)測效果較優(yōu),而XGBOOST模型預(yù)測效果較差。本研究有效提升了玉米表型預(yù)測的準確性,尤其對于一些低遺傳力性狀,研究結(jié)果能為玉米的GS育種提供重要支撐。
參考文獻:
[1] 王振華,劉文國,高世斌,等. 玉米種業(yè)的昨天、今天和明天[J]. 中國畜牧業(yè), 2021(19): 26-32.
[2] 黎 裕,徐辰武,秦 峰,等. 玉米生物育種:現(xiàn)狀與展望[J]. 中國基礎(chǔ)科學, 2022, 24(4): 18-28.
[3] MEUWISSEN T H, HAYES B J, GODDARD M E. Prediction of total genetic value using genome-wide dense marker maps[J]. Genetics, 2001, 157(4): 1819-1829.
[4] XU Y, LIU X, FU J, et al. Enhancing genetic gain through genomic selection: from livestock to plants[J]. Plant Communications, 2020, 1(1). DOI:10.1016/j.xplc.2019.100005.
[5] ZHANG X, P?REZ-RODR?GUEZ P, BURGUE?O J, et al. Rapid cycling genomic selection in a multiparental tropical maize population[J]. G3, 2017, 7(7): 2315-2326.
[6] MILLET E J, KRUIJER W, COUPEL-LEDRU A, et al. Genomic prediction of maize yield across European environmental conditions[J]. Nat Genet, 2019, 51: 952-956.
[7] ALLIER A, TEYSSEDRE S, LEHERMEIER C, et al. Genomic prediction with a maize collaborative panel: identification of genetic resources to enrich elite breeding programs[J]. Theoretical and Applied Genetics, 2020, 133(1): 201-215.
[8] SCUTARI M, HOWELL P, BALDING D J, et al. Multiple quantitative trait analysis using bayesian networks[J]. Genetics, 2014, 198(1): 129-137.
[9] HENDERSON C, QUAAS R. Multiple trait evaluation using relatives records[J]. Journal of Animal Science, 1976, 43(6): 1188-1197.
[10]HAYASHI T, IWATA H. A Bayesian method and its variational approximation for prediction of genomic breeding values in multiple traits[J]. BMC Bioinformatics, 2013, 14. DOI: 10.1186/1471-2105-14-34.
[11]SCHULTHESS A W, WANG Y, MIEDANER T, et al. Multiple-trait- and selection indices-genomic predictions for grain yield and protein content in rye for feeding purposes[J]. Theoretical and Applied Genetics, 2016, 129(2): 273-287.
[12]CROSSA J, PEREZ-RODRIGUEZ P, CUEVAS J, et al. Genomic selection in plant breeding: methods, models, and perspectives[J]. Trends Plant Science, 2017, 22(11): 961-975.
[13]GONZ?LEZ-RECIO O, FORNI S. Genome-wide prediction of discrete traits using Bayesian regressions and machine learning[J]. Genetics Selection Evolution, 2011, 43(1). DOI: 10.1186/1297-9686-43-7.
[14]P?REZ P, CAMPOS G D L. Genome-wide regression and prediction with the BGLR statistical package[J]. Genetics, 2014, 198(2): 483-495.
[15]WANG X, YANG Z F, XU C W. A comparison of genomic selection methods for breeding value prediction[J]. Science Bulletin, 2015, 60(10): 925-935.
[16]DE LOS CAMPOS G, GIANOLA D, ROSA G J, et al. Semi-parametric genomic-enabled prediction of genetic values using reproducing kernel Hilbert spaces methods[J]. Genetics Research, 2010, 92(4): 295-308.
(責任編輯:王 妮)