張樹(shù)馨,范鈞瑋,許雪凌,杜夢(mèng)涵,狄玉潔,劉廣臣*
(1.魯東大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)科學(xué)學(xué)院,山東 煙臺(tái) 264000;2.魯東大學(xué) 信息與電氣工程學(xué)院,山東 煙臺(tái) 264000)
小麥?zhǔn)俏覈?guó)重要的糧食作物之一,是我國(guó)人民主要食用的細(xì)糧。為了國(guó)家農(nóng)業(yè)生產(chǎn)發(fā)展,在中國(guó)現(xiàn)階段面臨人口多,耕地少的問(wèn)題下,挑選出影響小麥性狀的關(guān)鍵基因序列,提高小麥產(chǎn)量,有著重要的實(shí)際意義。
小麥育種關(guān)鍵在于選擇,傳統(tǒng)育種是以親本以及雜交后代的表型為基礎(chǔ),同時(shí)結(jié)合育種材料來(lái)對(duì)優(yōu)良品種進(jìn)行選擇[1]。但是通過(guò)表型選擇耗費(fèi)的周期較長(zhǎng),而且表型受到環(huán)境與基因的共同影響,無(wú)法準(zhǔn)確反映其遺傳特征,選擇過(guò)程存在不穩(wěn)定性。
隨著育種技術(shù)的發(fā)展及大數(shù)據(jù)時(shí)代的到來(lái),人們對(duì)育種的研究不斷深入,研究重點(diǎn)也從表型層面轉(zhuǎn)入到分子層面。全基因組選擇(Genomic Selection,GS)是Meuwissen[2]提出的一種選擇育種方法[2],是指利用覆蓋整個(gè)基因組的遺傳標(biāo)記信息來(lái)對(duì)未知表型的個(gè)體育種值進(jìn)行的估計(jì),其作為一種高效育種方法,通過(guò)早期選擇縮短世代間隔,提高育種值估計(jì)準(zhǔn)確性,加快遺傳進(jìn)展,逐漸替代了傳統(tǒng)育種方式。
現(xiàn)階段用于GS 的研究方法主要有BLUP 法,Bayes法,機(jī)器學(xué)習(xí)等。BLUP 系列模型方面,Henderson 提出基于系譜矩陣(A 矩陣)的BLUP(Best Linear Unbiased Prediction)模型,其通過(guò)對(duì)育種值進(jìn)行估計(jì),明顯提升了遺傳進(jìn)展。VanRaden 提出的基于全基因組標(biāo)記的GBLUP(Genomic Best Linear Unbiased Prediction)模型[3],在大部分情況下,準(zhǔn)確性優(yōu)于傳統(tǒng)BLUP 方法[4]。Zhang[5]提出TABLUP 模型,加入權(quán)重進(jìn)行計(jì)算,從而減少了無(wú)效標(biāo)記所帶來(lái)的影響,增加有效標(biāo)記的重要性。Edwards 等[6]提出GFBLUP(Genomic feature BLUP)模型,將GBLUP 中隨機(jī)效應(yīng)增加到2 個(gè),使模型更加靈活。Bayes 系列模型方面,Meuwissen 等[7]提出BayesA 和BayesB 模型,二者標(biāo)記均服從先驗(yàn)分布。Park 等[8]提出Bayesian LASSO 模型,Bayesian LASSO 準(zhǔn)確性高,但迭代次數(shù)多,耗時(shí)較長(zhǎng)[9]。Verbyla 提出BayesC 模型,在BayesB 模型上對(duì)其中的pi進(jìn)行改進(jìn)。Habier 等[10]在BayesC 基礎(chǔ)上對(duì)pi 進(jìn)一步優(yōu)化,提出BayesCpi,BayesDpi 模型,具有更強(qiáng)的靈敏性。
機(jī)器學(xué)習(xí)(Machine Learning)模型方面,目前支持GS 的機(jī)器學(xué)習(xí)方法主要有隨機(jī)森林(Random Forest,RF)模型[11],支持向量機(jī)(Support Vector Machine,SVM)模型[12]等。與傳統(tǒng)的全基因組選擇方法相比,機(jī)器學(xué)習(xí)算法能夠提高計(jì)算效率,提供較高的預(yù)測(cè)精度。對(duì)于“大p 小n”問(wèn)題,機(jī)器學(xué)習(xí)也可通過(guò)優(yōu)化算法來(lái)解決,整個(gè)過(guò)程計(jì)算效率較高;同時(shí)在選取模型時(shí)運(yùn)用交叉驗(yàn)證,充分利用樣本信息,提高預(yù)測(cè)的準(zhǔn)確性。
本研究所用的小麥基因組數(shù)據(jù)來(lái)源于文獻(xiàn)[13](http://www.isbreeding.net/wheatGS/),所研究的小麥群體一共包含166 份材料。研究了6 個(gè)相關(guān)性狀,分別是籽粒產(chǎn)量(Grain Yield,GY)、抽穗天數(shù)(Heading Date,HD)、株高(Plant Height,PH)、穗長(zhǎng)(Spike Length,SL)、千粒重(Thousand Kerner Weight,TKW)和每平方穗數(shù)(Spike Number,SN)。通過(guò)提取每一個(gè)品系的單株DNA進(jìn)行基因型鑒定,一共獲得81 587 個(gè)SNP 標(biāo)記[13]。
對(duì)上述小麥數(shù)據(jù)集的基因型數(shù)據(jù)進(jìn)行編碼,對(duì)每一個(gè)位點(diǎn)的基因做如下處理:若存在缺失且缺失數(shù)量大于總樣本數(shù)的10%,則將該列刪除;若存在缺失但缺失數(shù)量小于總樣本數(shù)的10%,則以該列眾數(shù)對(duì)缺失基因型信息的位點(diǎn)進(jìn)行替換。
(1)GBLUP 模型。GBLUP 是一種線性混合模型,通過(guò)群體標(biāo)記信息構(gòu)建的親緣關(guān)系矩陣,以及估計(jì)方差組分,對(duì)個(gè)體育種值直接進(jìn)行預(yù)測(cè),又稱為直接法。GBLUP的先驗(yàn)假設(shè)適合由多微效基因控制的性狀,對(duì)于由少數(shù)大效應(yīng)標(biāo)記控制的性狀,預(yù)測(cè)準(zhǔn)確性較差。
(2)BayesA 模型。BayesA 的標(biāo)記效應(yīng)估計(jì)模型如下
式中:y 是表型值;μ 是總體均值;X 是標(biāo)記效應(yīng)的設(shè)計(jì)矩陣;gi是第i 個(gè)標(biāo)記的效應(yīng);gi~N(),其中效應(yīng)方差服從卡方分布;m 是總標(biāo)記的數(shù)量;e 表示殘差向量。
(1)RBF-SVR 模型,SVR(Support Vector Regression)支持向量回歸,是支持向量機(jī)(SVM)的重要應(yīng)用分支。使用SVR 作回歸分析,要找出一個(gè)最佳的條狀區(qū)域,再對(duì)區(qū)域外的點(diǎn)進(jìn)行回歸。與SVM 一樣,需要利用核函數(shù)將低維空間映射到高維空間,這里選擇高斯徑向基函數(shù)(RBF)。
(2)XGBoost 模型,XGBoost(eXtreme Graident Boosting)極致梯度提升,是基于GBDT 的一種算法。XGBoost 進(jìn)行許多優(yōu)化,比如:利用二階泰勒公式展開(kāi),優(yōu)化損失函數(shù),提高計(jì)算精確度;利用正則項(xiàng)簡(jiǎn)化模型,避免過(guò)擬合;采用Blocks 存儲(chǔ)結(jié)構(gòu),可以并行計(jì)算等。
(3)LightGBM 模型,LightGBM(Light Gradient Boosting Machine)是一個(gè)實(shí)現(xiàn)GBDT 算法的框架,可以快速處理海量數(shù)據(jù)。LightGBM 方法采用histogram 算法,占用內(nèi)存低,數(shù)據(jù)分割的復(fù)雜度更低;采用leaf-wise 生長(zhǎng)策略,循環(huán)迭代,同時(shí)引入了一個(gè)閾值進(jìn)行限制,防止過(guò)擬合。
(4)Linear-SVR 模型,Linear-SVR 可以有效捕捉樣本的局部變化趨勢(shì),從而提高模型的預(yù)測(cè)精度。其選取每個(gè)測(cè)試樣本的K 個(gè)相鄰的樣本,對(duì)這K 個(gè)樣本使用SVR進(jìn)行回歸建模,利用所建立的模型對(duì)其進(jìn)行預(yù)測(cè),每個(gè)測(cè)試樣本均執(zhí)行上述步驟,直到所有樣本預(yù)測(cè)完成。
(5)Ridge 模型,嶺回歸是一種用于回歸的線性模型,該模型可以寫(xiě)為
式中:y 是表型值;X 是固定效應(yīng)的設(shè)計(jì)矩陣;β 是標(biāo)記固定效應(yīng)的向量;Z 是隨機(jī)效應(yīng)設(shè)計(jì)的矩陣;μ 是隨機(jī)效應(yīng)的向量;ε 是隨機(jī)殘差。
在基于人工智能算法的小麥全基因組選擇育種模型的訓(xùn)練過(guò)程中,為了提高模型預(yù)測(cè)的準(zhǔn)確性和時(shí)效性,筆者通過(guò)隨機(jī)搜索對(duì)配置的參數(shù)進(jìn)行調(diào)整,在此過(guò)程中,關(guān)注的主要參數(shù)以及對(duì)應(yīng)6 個(gè)性狀采用的參數(shù)最優(yōu)值見(jiàn)表1。
表1 全基因組選擇模型參數(shù)表
本研究評(píng)估了Linear-SVR,RBF-SVR,Ridge,Light-GBM,XGBoost,GBLUP,BayesA 7 個(gè)模型對(duì)小麥基因組預(yù)測(cè)準(zhǔn)確性比較。研究隨機(jī)抽取90%的樣本作為測(cè)試集,10%的樣本作為驗(yàn)證集,同時(shí)考慮到計(jì)算的準(zhǔn)確性及效率,采用十輪十折交叉驗(yàn)證。對(duì)于5 個(gè)機(jī)器學(xué)習(xí)模型及2 個(gè)傳統(tǒng)育種模型對(duì)小麥6 個(gè)性狀的預(yù)測(cè)精度見(jiàn)表2。
表2 多性狀的預(yù)測(cè)表現(xiàn)
從表2 中可看出,6 個(gè)性狀的最佳模型分別為Ridge,GBLUP,Ridge,GBLUP,Ridge,Linear-SVR。其中TKW 的Ridge 模型預(yù)測(cè)準(zhǔn)確性最高,達(dá)到0.693。除去SN 以外,所有性狀的最高預(yù)測(cè)準(zhǔn)確性均達(dá)到0.6 以上。
為積極響應(yīng)國(guó)家號(hào)召保障糧食安全,提高小麥產(chǎn)量,進(jìn)一步提升育種技術(shù),本文通過(guò)冬小麥的6 個(gè)不同性狀對(duì)5 種機(jī)器學(xué)習(xí)模型與2 種傳統(tǒng)模型進(jìn)行了對(duì)比。考慮到不同方法之的間比較,GBLUP 的預(yù)測(cè)準(zhǔn)確性最高,其次為Ridge??紤]到每個(gè)性狀的前3 個(gè)精度,Ridge 的表現(xiàn)優(yōu)于GBLUP,有著更強(qiáng)的穩(wěn)定性;其次傳統(tǒng)育種模型與機(jī)器學(xué)習(xí)模型在不同的性狀上,所呈現(xiàn)出的優(yōu)勢(shì)并不相同,故現(xiàn)階段對(duì)于小麥不同性狀而言并沒(méi)有較為固定的單一模型,不同模型對(duì)不同性狀的預(yù)測(cè)表現(xiàn)具有一定程度差異。