陳棟,王書杰,趙真堅(jiān),姬祥,申琦,余楊,崔晟頔,王俊戈,陳子旸,王金勇,郭宗義,吳平先,唐國慶
研究報(bào)告
基于機(jī)器學(xué)習(xí)的豬生長性狀基因組預(yù)測
陳棟1,2,3,王書杰1,2,3,趙真堅(jiān)1,2,3,姬祥1,2,3,申琦1,2,3,余楊1,2,3,崔晟頔1,2,3,王俊戈1,2,3,陳子旸1,2,3,王金勇4,郭宗義4,吳平先4,唐國慶1,2,3
1. 四川農(nóng)業(yè)大學(xué)動物科技學(xué)院,農(nóng)業(yè)農(nóng)村部畜禽生物組學(xué)重點(diǎn)實(shí)驗(yàn)室,成都 611130 2. 四川農(nóng)業(yè)大學(xué),畜禽遺傳資源發(fā)掘與創(chuàng)新利用四川省重點(diǎn)實(shí)驗(yàn)室,成都 611130 3. 四川農(nóng)業(yè)大學(xué)動物科技學(xué)院,豬禽種業(yè)全國重點(diǎn)實(shí)驗(yàn)室,成都 611130 4. 國家生豬技術(shù)創(chuàng)新中心,重慶 402460
為了比較自動機(jī)器學(xué)習(xí)下不同機(jī)器學(xué)習(xí)模型預(yù)測部分豬生長性狀與全基因組估計(jì)育種值(genomic estimated breeding value,GEBV)的性能,并尋找適合的機(jī)器學(xué)習(xí)模型,以優(yōu)化生豬育種的全基因組評估方法,本研究利用來自多個公司9968頭豬的基因組信息、系譜矩陣、固定效應(yīng)及表型信息通過自動機(jī)器學(xué)習(xí)方法獲取深度學(xué)習(xí)(deep learning,DL)、隨機(jī)森林(random forest,RF)、梯度提升機(jī)(gradient boosting machine,GBM)和極致梯度提升(extreme gradient boosting,XGB)4種機(jī)器學(xué)習(xí)最佳模型。采用10折交叉驗(yàn)證分別對豬達(dá)100 kg校正背膘(correcting backfat to 100 kg,B100)、達(dá)115 kg校正背膘(correcting backfat to 115 kg,B115)、達(dá)100 kg校正日齡(correcting days to 100 kg,D100)、達(dá)115 kg校正日齡(correcting days to 100 kg,D115)的GEBV及其表型進(jìn)行預(yù)測,比較不同機(jī)器學(xué)習(xí)模型應(yīng)用于豬基因組評估的性能。結(jié)果表明:機(jī)器學(xué)習(xí)模型對GEBV的估計(jì)準(zhǔn)確性高于性狀表型;在GEBV預(yù)測中,GBM在B100、B115、D100、D115的預(yù)測準(zhǔn)確性分別為0.683、0.710、0.866、0.871,略高于其他方法;在表型預(yù)測中,對豬B100、B115、D100、D115預(yù)測性能最好的模型依次為GBM(0.547)、DL(0.547)、XGB(0.672、0.670);在模型訓(xùn)練所需時間上,RF遠(yuǎn)高于其他3種模型,GBM與DL居中,XGB所需時間最少。綜上所述,通過自動機(jī)器學(xué)習(xí)獲取的機(jī)器學(xué)習(xí)模型對GEBV預(yù)測的準(zhǔn)確性高于表型;GBM模型總體上表現(xiàn)出最高的預(yù)測準(zhǔn)確性與較短訓(xùn)練時間;XGB能夠利用最短的時間訓(xùn)練準(zhǔn)確性較高的預(yù)測模型;RF模型的訓(xùn)練時間遠(yuǎn)超其他3種模型,且準(zhǔn)確性不足,不適用豬生長性狀表型與GEBV預(yù)測。
基因組估計(jì)育種值;生長性狀;自動機(jī)器學(xué)習(xí);性能比較
生長性狀是動物生產(chǎn)中最重要的經(jīng)濟(jì)性狀,受眾多基因的調(diào)控[1],對養(yǎng)殖業(yè)發(fā)展有著重要的影響[2,3]。全基因組選擇方法通過直接檢測基因信息,利用個體全基因組范圍內(nèi)的單核苷酸多態(tài)性(single nucleo-tide polymorphism,SNP)標(biāo)記數(shù)據(jù)與表型數(shù)據(jù)相結(jié)合,在候選個體的生命早期估計(jì)出可靠性更高的基因組育種值對候選個體進(jìn)行篩選[4,5]。相比于傳統(tǒng)的表型選擇方法,全基因組選擇方法具有更高的預(yù)測準(zhǔn)確性,可以更快地獲得遺傳進(jìn)展[6~8]。
重測序技術(shù)和芯片技術(shù)是獲取基因組信息的兩種方式。測序數(shù)據(jù)比芯片數(shù)據(jù)含有更多的基因信息,但成本偏高。基因型填充[9]方法可以準(zhǔn)確填充測序數(shù)據(jù)的SNP芯片缺失信息[10~12],同時也能夠?qū)Χ嗫畈煌?guī)格的商業(yè)芯片進(jìn)行SNP位點(diǎn)綜合,在節(jié)約成本的基礎(chǔ)上提高育種準(zhǔn)確性。
機(jī)器學(xué)習(xí)是一種高效的數(shù)據(jù)處理方法,在動物遺傳育種領(lǐng)域被廣泛應(yīng)用[13~15]。機(jī)器學(xué)習(xí)可以有效的處理基因組信息中的高維數(shù)據(jù)并建立非線性模型,從而更準(zhǔn)確地預(yù)測動物的遺傳價值[16]。但模型的選擇與參數(shù)的優(yōu)化決定了預(yù)測結(jié)果的準(zhǔn)確性與效率,在機(jī)器學(xué)習(xí)的應(yīng)用上至關(guān)重要。自動機(jī)器學(xué)習(xí)技術(shù)可以針對特定問題自動選擇超參數(shù),實(shí)現(xiàn)模型的優(yōu)化,克服人工選擇和調(diào)參的不足,達(dá)到高效使用機(jī)器學(xué)習(xí)技術(shù)的目的[17]。
本文旨在比較自動機(jī)器學(xué)習(xí)下不同機(jī)器學(xué)習(xí)模型對豬生長性狀的全基因組估計(jì)育種值(genomic estimated breeding value,GEBV)和表型信息的預(yù)測性能,探討自動機(jī)器學(xué)習(xí)在動物遺傳育種中的應(yīng)用價值和前景,找到合適的機(jī)器學(xué)習(xí)模型優(yōu)化全基因組評估方法。通過對比不同機(jī)器學(xué)習(xí)模型的預(yù)測準(zhǔn)確性和模型的訓(xùn)練時長,為豬生長性狀的全基因組評估提供更加準(zhǔn)確和可靠的機(jī)器學(xué)習(xí)方法。
本研究以新希望、鐵騎力士、四川巨星農(nóng)牧、明興等多家公司飼養(yǎng)的9968頭大白豬為研究對象(公7266頭,母2702頭)。收集所有豬只的芯片數(shù)據(jù)、系譜及固定效應(yīng)信息(性別、品系、場、胎次、出生年、測定年);收集達(dá)100 kg校正背膘(correcting backfat to 100 kg,B100)、達(dá)115 kg校正背膘(correcting backfat to 115 kg,B115)表型數(shù)據(jù)7871(公5903頭,母1968頭)條;收集達(dá)100 kg校正日齡(correcting days to 100 kg,D100)、達(dá)115 kg校正日齡(correcting days to 100 kg,D115)表型數(shù)據(jù)7113(公5401頭,母1712頭)條。詳細(xì)數(shù)據(jù)組成見表1。
由于多個公司分別采用不同的商業(yè)芯片,無法進(jìn)行統(tǒng)一評估,于是采用測序數(shù)據(jù)填充的方法對商業(yè)芯片進(jìn)行合并。將4種康普森基因(不同SNP位點(diǎn)數(shù))芯片和紐勤50K芯片數(shù)據(jù)進(jìn)行合并得到位點(diǎn)并集。利用735頭(384頭杜洛克,277頭大白,74頭長白豬)豬的基因組重測序數(shù)據(jù)檢測出28,763,360個高質(zhì)量的SNPs作為芯片填充參考群。篩選商業(yè)芯片并集和填充參考群之間共有的SNP位點(diǎn)。利用Beagle(v5.1)軟件通過填充參考群對每種商業(yè)芯片進(jìn)行填充,根據(jù)共有SNP位點(diǎn)和質(zhì)量控制,獲得9968張含有85,542個SNP位點(diǎn)的高質(zhì)量SNP數(shù)據(jù)集。
通過一步法(single-step genomic best linear unbiased prediction,ssGBLUP)估計(jì)豬各生長性狀的GEBV,模型如下:
其中,為表型值向量;為固定效應(yīng)向量;為基因組育種值向量,服從正太分布N(0,σg2),σg2為加性遺傳方差,為親緣關(guān)系矩陣;和為和對應(yīng)的關(guān)聯(lián)矩陣;為殘差效應(yīng)向量,服從正太分布N(0,σe2),σe2為殘差方差。
ssGBLUP方法通過結(jié)合基于系譜的矩陣和基于基因型的矩陣構(gòu)建親緣關(guān)系矩陣,從而將無基因型的個體與具備基因型個體包含于同一個親緣關(guān)系矩陣:
其中,矩陣中子矩陣11、12、21、22的下標(biāo)1和2分別表示無基因型個體和具基因型個體。矩陣的構(gòu)建方法為:
其中,Z矩陣中的元素0-2、1-2、2-2分別代表基因型AA、AB、BB。為位點(diǎn)的第二個等位基因頻率。
本研究所涉及的機(jī)器學(xué)習(xí)方法均通過H2O.ai平臺實(shí)現(xiàn)(https://docs.h2o.ai/h2o/-latest-stable/h2o- docs/ index.html)。在模型訓(xùn)練過程中,通過10折交叉驗(yàn)證以確保所有樣本數(shù)據(jù)都被預(yù)測且不包括在模型的訓(xùn)練集中。具體方法是將數(shù)據(jù)集劃分為10組,確保每組中的數(shù)據(jù)量盡可能相同并保證每個公司的數(shù)據(jù)在不同分組中的分布大致均勻。此外,在4種機(jī)器學(xué)習(xí)方法中都分別指定標(biāo)簽參數(shù)為GEBV和表型信息,特征參數(shù)為基因型矩陣、系譜矩陣和固定效應(yīng),以進(jìn)行GEBV和表型信息的預(yù)測。
自動機(jī)器學(xué)習(xí)通過自動搜索和選擇模型的最優(yōu)超參數(shù)實(shí)現(xiàn)機(jī)器學(xué)習(xí)的自動化,使得機(jī)器學(xué)習(xí)的應(yīng)用更加高效和便捷[18]。本研究中,指定模型參數(shù)include_algos包含“GBM”、“DRF”、“XGBoot”和“DeepLearning”,利用自動機(jī)器學(xué)習(xí)方法對每一個生長性狀的GEBV與表型都訓(xùn)練了4種機(jī)器學(xué)習(xí)模型。分別指定標(biāo)簽參數(shù)為GEBV和表型信息,特征參數(shù)為基因型矩陣、系譜矩陣和固定效應(yīng)。指定自動機(jī)器學(xué)習(xí)時間為7天,從而在指定時間范圍內(nèi)找到每種方法表現(xiàn)最好的模型參數(shù)。利用所獲得的模型參數(shù)對5種豬生長性狀的GEBV與表型進(jìn)行4種機(jī)器學(xué)習(xí)模型的訓(xùn)練。
1.5.1 GBM模型
梯度提升機(jī)(gradient boosting machine,GBM)[19]是一種基于決策樹的集成學(xué)習(xí)算法,通過迭代的方法完成模型的構(gòu)建。每一次迭代都會訓(xùn)練一個新的分類器,并將其與之前的分類器組合起來[20]。每個新的分類器都會嘗試糾正前一個分類器犯的錯誤[21]。這種迭代過程會一直進(jìn)行下去,直到分類器的錯誤率達(dá)到一個可接受的水平,完成訓(xùn)練。本研究中,豬生長性狀GEBV與表型的GBM預(yù)測模型超參數(shù)見表2 (未列出的超參數(shù)均為默認(rèn)值,下文相同)。
1.5.2 RF模型
隨機(jī)森林(random forest,RF)[22]算法是一種集成學(xué)習(xí)算法,通過將多個決策樹組合成一個模型來提高預(yù)測性能。RF算法的訓(xùn)練過程中,會對原始數(shù)據(jù)進(jìn)行隨機(jī)采樣,以得到多個不同的訓(xùn)練數(shù)據(jù)集。對于每個訓(xùn)練數(shù)據(jù)集,都會構(gòu)建一個獨(dú)立的決策樹,最終將這些決策樹組合成一個隨機(jī)森林。在預(yù)測時,隨機(jī)森林會根據(jù)每個決策樹的預(yù)測結(jié)果,投票決定最終的預(yù)測結(jié)果[23]。該算法能夠處理大規(guī)模數(shù)據(jù)集,并且具有較高的準(zhǔn)確率和穩(wěn)定性[24]。本研究中,豬生長性狀GEBV與表型的RF預(yù)測模型參數(shù)見表3。
1.5.3 XGB模型
極致梯度提升(extreme gradient boosting,XGB)[25]模型是一種監(jiān)督學(xué)習(xí)算法,它通過梯度提升的方法獲取準(zhǔn)確的模型,可用于解決分類和回歸問題[26]。相比GBM,它能夠通過貪心算法找到最優(yōu)的分裂節(jié)點(diǎn)并通過并行處理的方法使得在大數(shù)據(jù)集能夠更快的完成模型訓(xùn)練。本研究中,豬生長性狀GEBV與表型的XGB預(yù)測模型參數(shù)見表4。
表2 GBM模型超參數(shù)表
表3 RF模型超參數(shù)表
1.5.4 DL模型
H2O平臺提供的深度學(xué)習(xí)(deep learning,DL)方法基于多層前饋人工神經(jīng)網(wǎng)絡(luò),相對于機(jī)器學(xué)習(xí),DL能夠更深入的進(jìn)行特征提取,模仿神經(jīng)元的傳導(dǎo)構(gòu)建多層網(wǎng)絡(luò)框架[27]。人工神經(jīng)網(wǎng)絡(luò)中的多層神經(jīng)元[28]通過逐層對初級信號進(jìn)行特征轉(zhuǎn)化,不斷將原空間樣本的特征轉(zhuǎn)化到新的特征空間,自動學(xué)習(xí)得到新的特征進(jìn)而更新權(quán)重,最終獲得表現(xiàn)優(yōu)秀的DL模型。本研究中,豬生長性狀GEBV與表型的DL預(yù)測模型參數(shù)見表5。
本研究使用python3.8.13對實(shí)驗(yàn)結(jié)果進(jìn)行統(tǒng)計(jì)與分析。調(diào)用pandas、numpy、scipy、statistics與sklearn.metrics庫完成對預(yù)測結(jié)果指標(biāo)的計(jì)算,利用matplotlib進(jìn)行結(jié)果可視化展示。
1.7.1 準(zhǔn)確性
本研究中,模型準(zhǔn)確性由機(jī)器學(xué)習(xí)方法預(yù)測的基因組估計(jì)育種值(genome estimated breeding value predicted by the model,MGEBV)與一步法計(jì)算的育種值(genome estimated breeding value calculated by single-step method,SGEBV)之間的相關(guān)系數(shù)()確定,即:
表4 XGB模型超參數(shù)表
表5 DL模型超參數(shù)表
預(yù)測值與實(shí)際值的相關(guān)系數(shù)越高表明模型的準(zhǔn)確性越高。
1.7.2 模型輔助評估指標(biāo)
擬合系數(shù)(R squared,R2)、偏差(BIAS)、均方誤差(mean squared error,MSE)作為模型的輔助評估指標(biāo),用于輔助評估機(jī)器學(xué)習(xí)模型的預(yù)測性能。它們分別可以表現(xiàn)模型解釋變量對于被解釋變量的解釋程度、模型的預(yù)測結(jié)果與真實(shí)結(jié)果的偏離程度以及差異程度。
1.7.3 模型訓(xùn)練時長
全基因組估計(jì)育種值與表型往往需要較為龐大的SNP數(shù)據(jù),還需要大量迭代運(yùn)行以實(shí)現(xiàn)最佳效果。因此,模型訓(xùn)練時長是GEBV與表型估計(jì)應(yīng)用的關(guān)鍵因素之一。本研究從模型開始訓(xùn)練時計(jì)時直至模型完成訓(xùn)練,訓(xùn)練時長越短的方法的實(shí)用性就越高。
2.1.1 模型預(yù)測性能
經(jīng)過十倍交叉驗(yàn)證得到了4種機(jī)器學(xué)習(xí)模型,利用模型對豬B100的GEBV預(yù)測結(jié)果見圖1。4種機(jī)器學(xué)習(xí)模型的預(yù)測準(zhǔn)確性相近,依次為0.683 (GBM)、0.673 (DL)、0.667 (XGB)、0.648 (RF)。4個模型的R2均大于0.4,BIAS在0附近,MSE均在0.3左右,都表明模型具有不錯的預(yù)測性能。
4種機(jī)器學(xué)習(xí)模型在B115的GEBV預(yù)測性能表現(xiàn)上略高于B100,但模型準(zhǔn)確性排名與B100GEBV相同(附圖1)。4種機(jī)器學(xué)習(xí)模型的準(zhǔn)確性結(jié)果依次為0.710 (GBM)、0.702 (DL)、0.694 (XGB)、0.671 (RF)。其中GBM模型的R2值達(dá)到了0.503,MSE也小于其他3種模型。
4種機(jī)器學(xué)習(xí)模型對于D100與D115的GEBV預(yù)測準(zhǔn)確性整體上高于B100與B115。機(jī)器學(xué)習(xí)模型D100GEBV的預(yù)測準(zhǔn)確性依次為0.866(GBM)、0.844 (RF)、0.830 (XGB)、0.824 (DL) (圖2)。其中GBM模型R2值達(dá)到了0.750。由于校正日齡GEBV的數(shù)值遠(yuǎn)大于校正背膘GEBV,所以MSE在20左右,其中GBM模型最小(16.405)。
各機(jī)器學(xué)習(xí)模型對豬D115的GEBV預(yù)測性能與D100GEBV相似,且預(yù)測準(zhǔn)確性均略高于模型對D100GEBV的預(yù)測(附圖2)。準(zhǔn)確性排名依次為0.871 (GBM)、0.849 (RF)、0.835 (XGB)、0.829 (DL)。其中GBM的R2最高為0.759,且MSE最小(21.583)。
這些結(jié)果表明不同模型對不同性狀GEBV的估計(jì)能力各有不同。但相對于其他3種模型,GBM在豬生長性狀的GEBV估計(jì)中表現(xiàn)出了更好的性能。
2.1.2 訓(xùn)練時長
生長性狀GEBV估計(jì)的4種機(jī)器學(xué)習(xí)模型的訓(xùn)練時長對比如圖所示(圖3),在4種機(jī)器學(xué)習(xí)模型中,RF模型訓(xùn)練時長遠(yuǎn)超其他模型,這與郭鵬等[6]的結(jié)果類似。DL模型與GBM模型居中。XGB模型訓(xùn)練所需時長最少,僅需30 min左右。
圖1 4種機(jī)器學(xué)習(xí)B100 GEBV基因組預(yù)測效果
A:DL模型的基因組預(yù)測效果;B:GBM模型的基因組預(yù)測效果;C:RF模型的基因組預(yù)測效果;D:XGB模型的基因組預(yù)測效果。黑色直線為預(yù)測數(shù)據(jù)與GEBV的回歸線,紅色直線為坐標(biāo)軸的對角線=;R2為擬合系數(shù),BIAS為偏差,MSE為均方誤差(下圖同)。
圖2 4種機(jī)器學(xué)習(xí)D100 GEBV基因組預(yù)測效果
A:DL模型的基因組預(yù)測效果;B:GBM模型的基因組預(yù)測效果;C:RF模型的基因組預(yù)測效果;D:XGB模型的基因組預(yù)測效果。
圖3 生長性狀GEBV估計(jì)模型訓(xùn)練時間
2.2.1 模型預(yù)測性能
經(jīng)過十倍交叉驗(yàn)證得到了4種機(jī)器學(xué)習(xí)模型,利用機(jī)器學(xué)習(xí)模型對豬B100表型預(yù)測效果見圖4。其準(zhǔn)確性依次為0.547 (GBM)、0.539 (DL)、0.509 (XGB)、0.426 (RF)。其中GBM對B100表型預(yù)測結(jié)果較為準(zhǔn)確,RF模型R2為–0.022,預(yù)測結(jié)果較差。
4種機(jī)器學(xué)習(xí)模型對于B115的預(yù)測準(zhǔn)確性與B100相似(附圖3),依次為0.547(DL)、0.544(GBM)、0.509(XGB)、0.467(RF)。DL表現(xiàn)出了較好的預(yù)測性能,其R2為0.296,略高于其他模型。MSE為5.612均低于其他模型。
圖5為4種機(jī)器學(xué)習(xí)模型對于D100的預(yù)測結(jié)果。其準(zhǔn)確性依次為0.672 (XGB)、0.599 (GBM)、0.474 (DL)、0.460 (RF)。且XGB模型的R2均遠(yuǎn)高于其他幾種模型,BIAS與MSE也遠(yuǎn)低于其他模型。
圖4 4種機(jī)器學(xué)習(xí)B100表型預(yù)測效果
A:DL模型的基因組預(yù)測效果;B:GBM模型的基因組預(yù)測效果;C:RF模型的基因組預(yù)測效果;D:XGB模型的基因組預(yù)測效果。
圖5 4種機(jī)器學(xué)習(xí)D100表型預(yù)測效果
Fig. 5 Prediction effect of D100 phenotype for four types of machine learning
A:DL模型的基因組預(yù)測效果;B:GBM模型的基因組預(yù)測效果;C:RF模型的基因組預(yù)測效果;D:XGB模型的基因組預(yù)測效果。
在4種機(jī)器學(xué)習(xí)模型對于D115的預(yù)測準(zhǔn)確性排名依次為0.670 (XGB)、0.595 (GBM)、0.473 (RF)、0.387 (DL) (附圖4)。且XGB模型R2高于其他幾種模型,BIAS與MSE也遠(yuǎn)低于其他模型。表明其對于D100與D115表型信息具有更好的預(yù)測性能。
2.2.2 訓(xùn)練時長
生長性狀表型預(yù)測的4種機(jī)器學(xué)習(xí)模型的訓(xùn)練時長對比如圖所示(圖6),4種機(jī)器學(xué)習(xí)模型訓(xùn)練時長均小于GEBV的預(yù)測。其中,RF模型訓(xùn)練時長遠(yuǎn)超其他3種模型。DL模型居中。GBM模型與XGB模型訓(xùn)練所需時長最少。
高通量的基因組學(xué)的研究為全基因組選擇提供了更加豐富的遺傳信息,同時也帶來了更加冗余的信息影響了傳統(tǒng)遺傳算法準(zhǔn)確性的進(jìn)一步提升。而機(jī)器學(xué)習(xí)的高速發(fā)展為全基因組評估提供了新的計(jì)算方法。它讓計(jì)算機(jī)模擬人類的認(rèn)知過程,從數(shù)據(jù)中學(xué)習(xí)并進(jìn)行求解,而非通過明確的編程方法解決問題[29],能夠很好地處理高維數(shù)據(jù)和非線性關(guān)系進(jìn)而完成動物遺傳價值的預(yù)測。
圖6 生長性狀表型預(yù)測模型訓(xùn)練時間
本研究利用自動機(jī)器學(xué)習(xí)方法獲得4種豬生長性狀與基因組估計(jì)育種值的4個機(jī)器學(xué)習(xí)方法的最優(yōu)模型,比較自動機(jī)器學(xué)習(xí)下不同機(jī)器學(xué)習(xí)模型應(yīng)用于豬全基因組評估的能力。
在GEBV的預(yù)測中,機(jī)器學(xué)習(xí)模型對豬B100、B115、D100和D115的GEBV預(yù)測的準(zhǔn)確性較高。說明機(jī)器學(xué)習(xí)模型能夠根據(jù)基因組信息、親緣系譜信息和固定效應(yīng)很好的預(yù)測豬B100、B115、D100和D115的GEBV。其中,GBM模型在B100、B115、D100和D115的GEBV估計(jì)中都表現(xiàn)出了最高的準(zhǔn)確性,與Li等[30]對婆羅門牛育種值預(yù)測的研究結(jié)果表現(xiàn)一致。這表明GBM模型能夠較好的捕捉豬D100、D115、B100和B115的GEBV與基因組信息中的特征,并對GEBV做出較好的估計(jì)。
相比于GEBV,表型信息與基因組信息之間的關(guān)系不夠清晰,所以機(jī)器學(xué)習(xí)模型對相同性狀GEBV的估計(jì)準(zhǔn)確性均低于對表型性狀的預(yù)測。其中機(jī)器學(xué)習(xí)方法對D100和D115的預(yù)測準(zhǔn)確性較好,對B100和B115的預(yù)測準(zhǔn)確性一般。雖然GBM模型在B115、D100、D115表型信息的預(yù)測中未能表現(xiàn)出最好的預(yù)測性能,但其準(zhǔn)確性排名始終位于前列。這表明GBM模型能夠較好處理豬在生長性狀與基因組信息之間的關(guān)系,對表型進(jìn)行較好的預(yù)測。而RF模型無論是在GEBV的估計(jì)或是在表型信息的預(yù)測中,始終表現(xiàn)較差。
此外,在模型訓(xùn)練時長的比較中,RF模型訓(xùn)練時間遠(yuǎn)超其他3種模型。DL與GBM模型訓(xùn)練時間居中。XGB模型訓(xùn)練時間遠(yuǎn)遠(yuǎn)少于其他3種模型。
綜上所述,在利用4種機(jī)器模型對豬生長性狀GEBV與表型的估計(jì)中,GEBV的預(yù)測準(zhǔn)確性均高于表型信息。雖然GBM方法在預(yù)測過程中表現(xiàn)出較高的預(yù)測準(zhǔn)確性與效率,但沒有任何一種機(jī)器學(xué)習(xí)模型能在所有性狀的GEBV與表型預(yù)測中都表現(xiàn)出最好的預(yù)測性能。因此,在具體的育種實(shí)踐中需要育種人員綜合考慮準(zhǔn)確率與時間因素,選擇適當(dāng)?shù)姆椒ǎ拍芨咝У睦脵C(jī)器學(xué)習(xí)方法優(yōu)化全基因選擇的效率。
附加材料見文章電子版www.chinagene.cn。
[1] Wang KJ, Liu YF, Xu Q, Liu CK, Wang J, Ding C, Fang MY. A post-GWAS confirming GPAT3 gene associated with pig growth and a significant SNP influencing its promoter activity., 2017, 48(4): 478–482.
[2] Guo YM, Huang YX, Hou LJ, Ma JW, Chen CY, Ai HS, Huang LS, Ren J. Genome-wide detection of genetic markers associated with growth and fatness in four pig populations using four approaches., 2017, 49(1): 21.
[3] Ding RR, Yang M, Wang XW, Quan JP, Zhuang ZW, Zhou SP, Li SY, Xu Z, Zheng EQ, Cai GY, Liu DW, Huang W, Yang J, Wu ZF. Genetic architecture of feeding behavior and feed efficiency in a Duroc pig population., 2018, 9: 220.
[4] Vanraden PM. Symposium review: How to implement genomic selection., 2020, 103(6): 5291–5301.
[5] Meuwissen THE, Hayes BJ, Goddard ME. Prediction of total genetic value using genome-wide dense marker maps., 2001, 157(4): 1819–1829.
[6] Guo P, Zhang JB, Cao S. Study on Bayesian method and machine learning genome-wide selection of milk production traits in dairy cows., 2023(5): 56–60+64. 郭鵬, 張建斌, 曹晟. 奶牛產(chǎn)奶性狀貝葉斯方法與機(jī)器學(xué)習(xí)全基因組選擇研究. 黑龍江畜牧獸醫(yī), 2023(5): 56–60+64.
[7] Akanno EC, Schenkel FS, Sargolzaei M, Friendship RM, Robinson JAB. Opportunities for genome-wide selection for pig breeding in developing countries., 2013, 91(10): 4617–4627.
[8] Samorè AB, Fontanesi L. Genomic selection in pigs: State of the art and perspectives., 2016, 15: 211–232.
[9] Marchini J, Howie B. Genotype imputation for genome- wide association studies., 2010, 11(7): 499–511.
[10] Das S, Forer L, Sch?nherr S, Sidore C, Locke AE, Kwong A, Vrieze SI, Chew EY, Levy S, Mcgue M, Schlessinger D, Stambolian D, Loh PR, Iacono WG, Swaroop A, Scott LJ, Cucca F, Kronenberg F, Boehnke M, Abecasis GR, Fuchsberger C. Next-generation genotype imputation service and methods., 2016, 48(10): 1284– 1287.
[11] Sollero BP, Howard JT, Spangler ML. The impact of reducing the frequency of animals genotyped at higher density on imputation and prediction accuracies using ssGBLUP1., 2019, 97(7): 2780–2792.
[12] Fernandes Júnior GA, Carvalheiro R, de Oliveira HN, Sargolzaei M, Costilla R, Ventura RV, Fonseca LFS, Neves HHR, Hayes BJ, de Albuquerque LG. Imputation accuracy to whole-genome sequence in Nellore cattle., 2021, 53(1): 27.
[13] Alves AAC, Espigolan R, Bresolin T, Costa RM, Fernandes Júnior GA, Ventura RV, Carvalheiro R, Albuquerque LG. Genome-enabled prediction of reproductive traits in Nellore cattle using parametric models and machine learning methods., 2021, 52(1): 32–46.
[14] Zhao W, Lai XS, Liu DY, Zhang ZY, Ma PP, Wang QS, Zhang Z, Pan YC. Applications of support vector machine in genomic prediction in pig and maize populations., 2020, 11: 598318.
[15] Montesinos López OA, Montesinos López A, Crossa J. Random Forest for Genomic Prediction. In: Multivariate Statistical Machine Learning Methods for Genomic Prediction. Cham: Springer International Publishing, 2022, 633–681.
[16] Liang M. Research on genome-wide selection based on machine learning algorithm[Dissertation]. Chinese Academy of Agricultural Sciences, 2021. 梁忙. 基于機(jī)器學(xué)習(xí)算法的全基因組選擇研究[學(xué)位論文]. 中國農(nóng)業(yè)科學(xué)院, 2021.
[17] Barreiro E, Munteanu CR, Cruz-Monteagudo M, Pazos A, González-Díaz H. Net-Net Auto Machine Learning (AutoML) Prediction of Complex Ecosystems. Scientific reports. 2018;8(1): 12340.
[18] Romero RAA, Deypalan MNY, Mehrotra S, Jungao JT, Sheils NE, Manduchi E, Moore JH. Benchmarking AutoML frameworks for disease prediction using medical claims., 2022, 15(1): 15.
[19] Friedman JH. Greedy function approximation: A gradient boosting machine., 2001, 29(5): 1189–1232.
[20] Natekin A, Knoll A. Gradient boosting machines, a tutorial., 2013, 7: 21.
[21] Abdollahi-Arpanahi R, Gianola D, Pe?agaricano F. Deep learning versus parametric and ensemble methods for genomic prediction of complex phenotypes., 2020, 52(1): 12.
[22] Breiman L. Random Forests., 2001, 45: 5–32.
[23] González-recio O, Forni S. Genome-wide prediction of discrete traits using Bayesian regressions and machine learning., 2011, 43(1): 7.
[24] Wang FY, Wang YC, Ji XK, Wang ZP. Effective macrosomia prediction using random forest algorithm., 2022, 19(6): 3245.
[25] Chen TQ, Guestrin C. XGBoost: a scalable tree boosting system. In: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016, 785–794.
[26] Hou NZ, Li MZ, He L, Xie B, Wang L, Zhang RM, Yu Y, Sun XD, Pan ZS, Wang K. Predicting 30-days mortality for MIMIC-III patients with sepsis-3: a machine learning approach using XGboost., 2020, 18(1): 462.
[27] Tan XF, Li GS. Overview of deep learning development. In: The 15th National Security Geophysics Symposium. 2019. 譚笑楓, 李廣帥. 深度學(xué)習(xí)發(fā)展綜述. 見:第十五屆國家安全地球物理專題研討會. 2019.
[28] Nayeri S, Sargolzaei M, Tulpan D. A review of traditional and machine learning methods applied to animal breeding., 2019, 20(1): 31–46.
[29] Zheye Peng, Zijun Tang, Minzhu Xie. Research progress in machine learning methods for gene-gene interaction detection., 2018, 40(3): 218–226. 彭哲也, 唐紫珺, 謝民主. 機(jī)器學(xué)習(xí)方法在基因交互作用探測中的研究進(jìn)展. 遺傳, 2018, 40(3): 218–226.
[30] Li B, Zhang NX, Wang YG, George AW, Reverter A, Li YT. Genomic prediction of breeding values using a subset of snps identified by three machine learning methods., 2018, 9: 237.
Genomic prediction of pig growth traits based on machine learning
Dong Chen1,2,3, Shujie Wang1,2,3, Zhenjian Zhao1,2,3, Xiang Ji1,2,3, Qi Shen1,2,3, Yang Yu1,2,3, Shengdi Cui1,2,3, Junge Wang1,2,3, Ziyang Chen1,2,3, Jinyong Wang4, Zongyi Guo4, Pingxian Wu4, Guoqing Tang1,2,3
This study aimed to assess and compare the performance of different machine learning models in predicting selected pig growth traits and genomic estimated breeding values (GEBV) using automated machine learning, with the goal of optimizing whole-genome evaluation methods in pig breeding. The research employed genomic information, pedigree matrices, fixed effects, and phenotype data from 9968 pigs across multiple companies to derive four optimal machine learning models: deep learning (DL), random forest (RF), gradient boosting machine (GBM), and extreme gradient boosting (XGB). Through 10-fold cross-validation, predictions were made for GEBV and phenotypes of pigs reaching weight milestones (100 kg and 115 kg) with adjustments for backfat and days to weight. The findings indicated that machine learning models exhibited higher accuracy in predicting GEBV compared to phenotypic traits. Notably, GBM demonstrated superior GEBV prediction accuracy, with values of 0.683, 0.710, 0.866, and 0.871 for B100, B115, D100, and D115, respectively, slightly outperforming other methods. In phenotype prediction, GBM emerged as the best-performing model for pigs with B100, B115, D100, and D115 traits, achieving prediction accuracies of 0.547, followed by DL at 0.547, and then XGB with accuracies of 0.672 and 0.670. In terms of model training time, RF required the most time, while GBM and DL fell in between, and XGB demonstrated the shortest training time. In summary, machine learning models obtained through automated techniques exhibited higher GEBV prediction accuracy compared to phenotypic traits. GBM emerged as the overall top performer in terms of prediction accuracy and training time efficiency, while XGB demonstrated the ability to train accurate prediction models within a short timeframe. RF, on the other hand, had longer training times and insufficient accuracy, rendering it unsuitable for predicting pig growth traits and GEBV.
genomic estimated breeding values; growth traits;automated machine learning; performance comparison
2023-04-26;
2023-08-14;
2023-08-16
國家生豬技術(shù)創(chuàng)新中心先導(dǎo)科技項(xiàng)目(編號:NCTIP-XD/B01),四川省科技廳項(xiàng)目(編號:2020YFN0024, 2021ZDZX0008, 2021YFYZ0030)和四川省豬創(chuàng)新團(tuán)隊(duì)項(xiàng)目(編號:sccxtd-2022-08)資助[Supported by the Strategic Priority Research Program of the National Center of Technology Innovation for Pigs (No. NCTIP-XD/B01), Sichuan Science and Technology Program(Nos.2020YFN0024, 2021ZDZX0008, 2021YFYZ0030), and the Sichuan Innovation Team of Pig(No. sccxtd-2022-08)]
陳棟,碩士,專業(yè)方向:畜牧學(xué)。E-mail: 1123278154@qq.com
唐國慶,博士,教授,博士生導(dǎo)師,研究方向:豬遺傳育種。E-mail: tyq003@163.com
10.16288/j.yczz.23-120
(責(zé)任編委: 趙要風(fēng))