李棉燕,王立賢,趙福平
機器學習在動物基因組選擇中的研究進展
李棉燕,王立賢,趙福平
中國農業(yè)科學院北京畜牧獸醫(yī)研究所/農業(yè)部動物遺傳育種與繁殖(家禽)重點實驗室,北京 100193
基因組選擇是指利用覆蓋在全基因組范圍內的分子標記信息來估計個體育種值。利用基因組信息能夠避免因系譜錯誤帶來的諸多問題,提高選擇準確性并縮短育種世代間隔。根據統(tǒng)計模型的不同,基因組選擇方法可大致分為基于BLUP(best linear unbiased prediction, BLUP)理論的方法、基于貝葉斯理論的方法和其他方法。目前應用較多的是GBLUP及其改進方法ssGBLUP。準確性是基因組選擇模型最常用的評價指標,用來衡量真實值和估計值之間的相似程度。影響準確性的因素可以從模型中體現,大致分為可控因素和不可控因素。傳統(tǒng)基因組選擇方法促進了動物育種的快速發(fā)展,但這些方法目前都面臨著多群體、多組學和計算等諸多挑戰(zhàn),不能捕獲基因組高維數據間的非線性關系。作為人工智能的一個分支,機器學習是最貼近生物掌握自然語言處理能力的一種方式。機器學習從數據中提取特征并自動總結規(guī)律,利用該規(guī)律與新數據進行預測。對于基因組信息,機器學習無需進行分布假設,且所有的標記信息都能夠被考慮進模型當中。相比于傳統(tǒng)的基因組選擇方法,機器學習更容易捕獲基因型之間、表型與環(huán)境之間的復雜關系。因此,機器學習在動物基因組選擇中具有一定的優(yōu)勢。根據訓練期間接受的監(jiān)督數量和監(jiān)督類型,機器學習可分為監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習和強化學習等。它們的主要區(qū)別為輸入的數據是否帶有標簽。目前在動物基因組選擇中應用的機器學習方法均為監(jiān)督學習。監(jiān)督學習可以處理分類和回歸問題,需要向算法提供有標簽的數據和所需的輸出。近年來機器學習在動物基因組選擇中的應用不斷增多,特別是在奶牛和肉牛中發(fā)展較快。本文將機器學習算法劃分為單個算法、集成算法和深度學習3類,綜述其在動物基因組選擇中的研究進展。單個算法中最常用的是KRR和SVR,兩者都是通過核技巧來學習非線性函數,在原始空間中將數據映射到更高維的核空間。目前常用的核函數有線性核、余弦核、高斯核和多項式核等。深度學習又稱為深度神經網絡,由連接神經元的多個層組成。集成學習算法則是指將不同的學習器融合在一起進而得到一個較強的監(jiān)督模型。近十年來,有關機器學習和深度學習的相關文獻呈現了指數型的增長,在基因組選擇方面的應用也在逐漸增多。盡管機器學習在某些方面存在明顯的優(yōu)勢,但其在估計動物復雜性狀基因組育種值時仍面臨諸多挑戰(zhàn)。部分模型的可解釋性低,不利于數據、參數和特征的調整。數據的異質性、稀疏性和異常值也會造成機器學習的數據噪聲。還有過擬合、大標記小樣本和調參等問題。因此,在訓練模型時需要謹慎處理每一個步驟。文章介紹了基因組選擇傳統(tǒng)方法及其面臨的問題、機器學習的概念和分類,探討了機器學習在動物基因組選擇中的研究進展及目前存在的挑戰(zhàn),并給出了一個案例和一些應用的建議,以期為機器學習在動物基因組選擇當中的應用提供一定參考。
機器學習;深度學習;基因組選擇;動物育種
許多重要動物性狀都呈現出了復雜的遺傳機制,這使得個體基因位點的識別變得困難?;蚪M選擇是指利用覆蓋全基因組范圍內的分子標記信息估計個體育種值[1]?;蚪M選擇假設每一個數量性狀基因座(quantitative trait locus, QTL)都與全基因組中至少一個分子標記處于連鎖不平衡狀態(tài),因此可以利用標記效應來解釋遺傳方差[2]。利用基因組信息進行選擇不僅能夠避免因系譜錯誤或丟失造成的問題,而且大幅縮短了育種世代間隔[3]。
統(tǒng)計模型是全基因組選擇的核心,也是影響預測準確性和效率的主要因素。根據算法的不同,可將其分為BLUP(best linear unbiased prediction, BLUP)系列、貝葉斯系列和機器學習。BLUP系列又稱為直接法,把個體作為隨機效應,參考群體和候選群體遺傳信息構建的親緣關系矩陣作為方差協方差矩陣,通過迭代法估計方差組分,進而求解混合模型獲取候選群體的個體估計育種值。貝葉斯系列又稱為間接法,首先在參考群體中估計標記效應,然后結合候選群體的基因型信息將標記效應進行累加,最后獲得候選群體的個體估計育種值。不同方法的選擇準確性會根據不同群體和不同性狀等實際情況而[4-7]異,但后者的GBLUP(genomic best linear unbiased prediction, GBLUP)方法在研究中出現的頻率較高。BLUP系列方法假設所有標記都具有相同的效應,但實際基因組范圍中只有少量標記具有主效應,大部分標記的效應較小。相比于BLUP方法,貝葉斯方法對數據的假設條件更符合數量性狀的遺傳結構,但其采用特定算法估計未知參數時則往往耗時更久。
機器學習是一門人工智能的科學,在經驗中學習并改善具體算法。機器學習不僅在理論和工程上是實現自然語言處理的首選,也是最貼近生物掌握自然語言處理能力的一種方式。機器學習已經被成功應用于多個領域,其廣泛用途已在書籍和文獻中有較多概述[8-10]。機器學習是非參數模型,其算法比線性選擇模型復雜得多。近年來,利用機器學習算法進行生物學相關領域的熱度不斷增高,如人類疾病選擇[11-13]、多組學數據整合[14]、植物育種[15-17]等。相比起傳統(tǒng)的選擇方法,機器學習更容易捕捉基因型之間、表型與環(huán)境之間的復雜關系,在動物基因組選擇中表現出了一定的優(yōu)勢。因此,本文對基因組選擇傳統(tǒng)方法、選擇評價指標、機器學習在動物基因組選擇中的研究進展進行綜述。
統(tǒng)計模型和計算方法是基因組選擇的核心。根據所使用統(tǒng)計模型的不同,基因組選擇方法大致可分為3類:基于BLUP理論的方法、基于貝葉斯理論的方法和其他方法。沒有任何一個方法能在所有情況下都具有絕對優(yōu)勢。目前應用較多的是GBLUP及其改進方法ssGBLUP(single-step genomic best linear unbiased prediction, ssBLUP)。
1.1.1 基于BLUP理論的方法 主要包括RR-BLUP、GBLUP、ssGBLUP等。BLUP把個體作為隨機效應,參考群體和候選群體遺傳信息構建的親緣關系矩陣作為方差協方差矩陣,求解方差組分和混合模型獲得個體的GEBV。
1.1.2 基于貝葉斯理論的方法 主要包括BayesA、BayesB、BayesCπ、BayesR等。貝葉斯系列方法通過估計標記效應間接獲得基因組估計育種值(genomic estimated breeding value, GEBV)。估計過程分為兩步:首先利用參考群個體的表型和全基因組標記基因型信息估計每一個標記的效應值,然后根據候選群中每個位點的標記基因型將標記效應累加獲得個體的GEBV[18]。
1.1.3 其他方法 主要包括RKHS(reproducing kernel Hilbert space, RKHS)、半參數方法和機器學習等。由于此類方法中考慮互作效應以及其他非線性效應,使得模型非常復雜或者計算難度較大。因此,目前研究和應用最多的還是前兩類方法。機器學習方法將在后文做詳細介紹。
1.2.1 準確性評估指標 基因組育種值估計準確性是指基因組估計育種值與真實值之間的相關系數,是估計育種值研究中最常用的評價指標。在模擬研究中已知真實育種值,育種值估計準確性可以直接計算。但是在實際的育種數據研究中真實育種值未知,應用條件復雜,所以出現了不同的準確性評估方法[19],如真實育種值與估計值之間的皮爾遜相關系數、均方根誤差、平均絕對誤差等。
1.2.2 影響因素 從選擇模型中可以體現影響選擇準確性的關鍵因素。這些因素可大致分為可控因素和不可控因素。
(1)可控因素 即估計過程中需要考慮并可以人為調整的因素,如估計方法、群體大小及遺傳關系、標記的數量和密度等。研究表明,隨著遺傳力水平和標記密度的增加,基因組估計育種值的準確性得到提高[20]。有效群體規(guī)模不變時,訓練世代越多,基因組估計育種值的準確性和穩(wěn)定性越好[21]。參考群體越大,選擇準確性也會有所提升[22]。
(2)不可控因素 染色體的長度、影響性狀的基因數和性狀的遺傳力等也會影響選擇準確性。這些因素會因物種而異,所以導致了基因組選擇效果在不同物種、不同群體和不同性狀中的相差較大。這些因素都是客觀存在、不能人為改變的。
機器學習屬于人工智能的一個分支,是一類算法的總稱。機器學習的基本思路是將現實問題轉化為數學問題,機器解決數學問題從而解決現實問題。機器學習最初被定義為:計算機無需明確編程即可獲得學習能力的研究領域[23]。數據、算法和模型是機器學習的三要素。機器學習選取合適的算法,從已有數據中自動歸納總結規(guī)律,利用該規(guī)律的結果(模型)與新數據進行選擇。
根據訓練期間接受的監(jiān)督數量和監(jiān)督類型,可將機器學習分為監(jiān)督學習(supervised learning, SL)、無監(jiān)督學習(unsupervised learning, USL)、半監(jiān)督學習(semi-supervised learning, SSL)和強化學習(reinforcement learning, RL)。這些不同類型最主要的區(qū)別是訓練的樣本是否帶有標簽。所以,在無監(jiān)督學習中的訓練數據是未經標記的,算法會在沒有指導的情況下自動學習。
監(jiān)督學習需要向算法提供有標簽的數據和所需的輸出。即目標變量的數值必須被確定,以便機器學習算法可以發(fā)現特征和目標變量之間的關系。監(jiān)督學習主要處理分類和回歸問題。值得注意的是,在動物基因組選擇中所使用的機器學習均為監(jiān)督學習,如支持向量機回歸(support vector regression, SVR)、核嶺回歸(kernel ridge regression, KRR)、隨機森林(random forest, RF)和決策樹(decision tree, DT)等。
無監(jiān)督學習對于沒有給定標簽的數據進行自動分析,試圖找到隱藏的結構。數據沒有類別信息,也沒有給定的目標值。該方法可以降低數據特征的維度,使用二維或三維圖形更加直觀地展示數據信息。非監(jiān)督學習包括聚類和密度估計,如K-means算法及其一些擴展算法。
半監(jiān)督學習結合了監(jiān)督學習和無監(jiān)督學習的中間類別,輸入的數據部分有標簽,部分沒有?;舅悸肥抢脭祿植忌系哪P图僭O,建立學習器對未標簽樣本進行選擇。半監(jiān)督學習可以處理分類和回歸問題。算法包括一些常用監(jiān)督學習算法的延伸,如支持向量機(support vector machine, SVM)和圖論推理算法等。
強化學習是多學科多領域交叉的一個產物,旨在學習自動決策。該方法普適性強,基于決策進行訓練,算法根據輸出結果(決策)的成功或錯誤來訓練自己,通過大量經驗訓練優(yōu)化后的算法來進行選擇,常見的算法包括Q-Learning和時間差分學習等。
近年來,從數學、統(tǒng)計和計算科學引入的多種機器學習算法推動了生物學領域的快速發(fā)展。在基因組選擇當中常用的機器學習方法包括SVR、KRR、RF和深度學習等。因其算法的特殊性,機器學習可以在不同維度彌補傳統(tǒng)方法的缺陷。不同于傳統(tǒng)方法,機器學習不需要對選擇的變量進行分布假設[24],并且所有的標記信息都能夠被考慮進模型當中。也就是說,那些具有弱效應、高度相關和相互作用的標記物都有機會對模型擬合做出貢獻[4]。同時,機器學習的默認參數通常表現較好,無需進行大幅度調參[25]。
由于數據結構的不同,有時單個算法就能夠起到很好的選擇效果,有時則需要采用集成學習和深度學習。如LIANG等[26]在中國西門塔爾肉牛群體中比較了SVR,KRR,RF,Adaboost.RT和GBLUP等5種基因組選擇方法的準確性,結果表明4種機器學習方法相對于傳統(tǒng)方法GBLUP平均改進了12.8%、14.9%、5.4%和14.4%。在4種機器學習方法中,集成方法Adaboost.RT具有更高的穩(wěn)定性,準確性與KRR相當??傮w而言,機器學習在動物基因組選擇中的應用研究不多,但已經成功應用于多個動物品種,特別是肉牛和奶牛。表1列舉了部分機器學習算法在動物基因組選擇中的應用研究。
圖1展示了在Web of Science網站中搜索“機器學習”“深度學習”“機器學習+基因組選擇”和“深度學習+基因組選擇”等關鍵詞,獲得在2011—2022年之間每一年的相關出版物數量。2022年的查找時間截止為9月6日。折線圖能很好地呈現數據的特點和趨勢??梢?,十年內有關機器學習和深度學習的相關文獻呈現了指數型的增長,在基因組選擇方面的應用也在逐漸增多。
KRR是嶺回歸的核版本,在嶺回歸的基礎上引入了核函數。KRR在原始空間中應用核函數將數據映射到更高維的核空間中,以提供基于正則化最小二乘法的泛化性能[40]。這種方式可以使原始數據分離,從而提高回歸和分類問題的準確性和穩(wěn)定性。目前常用的核函數有線性核、余弦核、高斯核和多項式核等。其中,余弦核捕獲了不同樣本在每個維度向量之間的余弦距離[41]。AN等[24]開發(fā)了一個基于余弦核的KCRR算法用于基因組選擇,并將其中的余弦相似性矩陣代替?zhèn)鹘y(tǒng)G矩陣得到了GBLUP_CS方法。他們利用4個群體的12個具有不同遺傳力和遺傳結構的復雜性狀對比了GBLUP、BayesB、SVR、KCRR和GBLUP_CS,發(fā)現KCRR在選擇準確性和計算效率方面都表現良好,并且GBLUP_CS的運算速度比GBLUP快了20倍。LU等[42]通過整合核函數和線性回歸分類提出了KLRC算法,研究結果表明該算法在人臉識別中具有良好的選擇效果。HE等[31]提出了一種KRRC算法,在兩個合成數據集和一個真實數據集中進行比較發(fā)現其選擇效果比所選的KNN、LRC和KLRC效果好。
表1 機器學習在動物基因組選擇中的應用
RKHS:再生希爾伯特空間;RBFNN:徑向基函數神經網絡;BRNN:貝葉斯正則化神經網絡;LRC:線性回歸分類;KNN :K近鄰;KLRC:核線性回歸分類;ABNN:人工貝葉斯神經網絡;MLP:多層感知機;CNN:卷積神經網絡;BSLMM:貝葉斯稀疏線性混合模型;KAML:親緣校正多位點;KCRR:余弦核嶺回歸;SELF:堆疊集成學習框架
RKHS:Reproducing kernel Hilbert spaces;RBFNN:Radial basis function neural networks;BRNN: Bayesian regularized neural networks;LRC :Linear regression classification;KNN: K nearest neighbor;KLRC:Kernel linear regression classification;ABNN :Artificial Bayesian neural network;MLP :Multilayer perceptron;CNN:Convolutional neural network; BSLMM :Bayesian sparse linear mixed model;KAML Kinship adjusted multi-loci;KCRR:Cosine kernel–based KRR;SELF :Stacking ensemble learning framework
圖2 2011-2022年每年發(fā)表機器學習相關出版物數量
SVR和KRR都通過核技巧來學習非線性函數,兩者的區(qū)別在于損失函數不同。MOSER等[43]利用1 945頭奶牛對非參數化的SVR和參數化的BayesR、rrBLUP和最小二乘回歸對蛋白質百分比和利潤指數進行選擇,結果表明SVR提供了最高的準確性。LONG等[28]使用ε-SVR、最小二乘SVR與BayesLASSO分別選擇了奶牛產奶量和小麥產量,結果表明在奶牛群體中徑向基核函數SVR比線性核函數SVR的性能略好,在小麥中ε-SVR相關性則提高了17.5%。徑向基核函數比線性核函數具有更好的選擇性能,并且在表型可能受到非加性標記效應影響的情況下,其優(yōu)越性更為明顯。與參數化方法一樣,機器學習不同算法的效果會因動物和性狀的數據特征而異。ALVES等[37]對Nellore牛生殖性狀進行基因組選擇,發(fā)現SVR是Nellore牛生殖性狀基因組選擇的合適方法,同時說明SVR模型中的最佳核函數參數是特征依賴的。
受到機器學習算法、單核苷酸多態(tài)性(single nuclear polymorphism, SNP)加權和混合線性模型的啟發(fā),YIN等[36]提出了一種結合交叉驗證、多元回歸和網格搜索的KAML算法,擬將選擇準確性與計算效率相結合。利用模擬和真實數據集進行評估,結果表明KAML算法具有比GBLUP和BayesR更高的選擇準確性。
深度學習靈感源自人類大腦,是機器學習的重要分支。因由連接神經元的多個層組成,故又稱為深度神經網絡[44]。常見的典型深度學習算法有卷積神經網絡(convolutional neural networks, CNN)、循環(huán)神經網絡(Recurrent Neural Network, RNN)和生成對抗網絡(generative Adversarial Networks, GANs)等。深度學習覆蓋范圍廣、適應性好、上限高,但是計算量大,便攜性差,對硬件要求高。其在基因組選擇中的應用在過去十年內逐漸增多,在Web of science網站檢索關鍵詞“深度學習+基因組選擇”可獲得2012—2022年之間深度學習在基因組選擇的相關出版物達到554份。而搜索“機器學習+基因組選擇”在10年內的結果則是高達1 648份。
基于深度學習的人工智能模型如今代表著基因組學研究中進行功能預測的最新技術水平。NOVAKOVSKY等在綜述中回顧了可解釋人工智能這一新興領域的進展,并探討了關于深度學習方法如何用于調控基因組學的應用[45]。CAMACHO等[29]使用RBFNN方法進行基因組選擇發(fā)現其選擇效果與RKHS回歸和BayesLASSO相當,所分析的模擬數據結果表明添加冗余選擇變量可能會對非線性回歸模型的選擇準確性產生不利影響。TUSELL等[30]比較了參數化方法GBLUP、BayesR、BayesLASSO和非參數化方法RKHS回歸、RBFNN、BRNN對豬產仔數性狀的選擇效果,結果表明兩者效果相差不大。WALDMANN等[34]提出了一個ABNN模型,利用模擬和真實的豬數據集進行選擇,結果表明ABNN顯示出比GBLUP和BayesLASSO更好的選擇準確性。ABDOLLAHI等[35]比較了兩種深度學習方法(MLP和CNN)、兩種集成學習方法(RF和GB)和兩種參數方法(GBLUP和BayesB)的選擇性能,發(fā)現MLP和CNN在公牛數據集中的選擇效果最低,這可能是因為相對于參數化方法,深度學習的優(yōu)勢取決于控制性狀的位點數量和樣本大小。目前,深度學習在動植物育種中都取得了一定進展[46-48],更多的應用原理和實例可在MIGUEL等的綜述中進行查看[49]。
集成學習算法是指將不同的學習器融合在一起,得到一個較強的監(jiān)督模型。其基本思想是不同的學習器之間相互糾正錯誤以達到準確性的提升。目前主流的集成學習有Boosting方法、Bagging方法和Stacking算法。Boosting方法以Adaboosting、提升樹和XGBoost為代表,每一次迭代時訓練集的選擇與前面各輪的學習結果有關,且每次是通過更新各個樣本權重的方式來改變數據分布。
Adaboost.RT算法最初由SHRESTHA等[50]開發(fā),在處理回歸問題上非常有優(yōu)勢。LIANG等[26]利用集成了SVR、KRR和RF的集成學習算法Adaboost.RT來選擇中國西門塔爾肉牛胴體重量、活重和眼肌面積3種經濟性狀的GEBV,與單個學習器和GBLUP進行比較后發(fā)現Adaboost.RT的可靠性和穩(wěn)定性比其他方法都高。同時,LIANG等[38]構建了一個堆疊集成學習框架(SELF),通過3個數據集的比較分析發(fā)現SELF在所有方法中幾乎表現得最好。WANG等[39]利用SVR、KRR、RF和Adaboost. R2等4種機器學習回歸方法對中國大白豬群體進行了基因組預測,結果表明基于KRR的Adaboost.R2方法一直表現良好,并且最佳超參數對機器學習方法很有用。因此,集成學習在動物基因組選擇中具有一定的潛力。
除了使用基因型數據進行預測,還有部分研究利用機器學習整合多組學數據以提高動物復雜性狀的選擇準確性。FABIO等[51]使用黑腹果蠅群體200自交系中3個數量性狀的基因組數據、RNA轉錄組數據和表型數據,利用機器學習整合不同的信息來源提高了選擇準確性。FU等[52]提出了一個集成了多組學信息的CNN模型以優(yōu)先考慮目標性狀的候選基因,并提出了包含已發(fā)表的豬多組學數據的ISwine在線知識庫。
選用公共數據庫的荷斯坦奶牛數據集進行不同基因組選擇方法的比較,進行案例分析。由5 024頭公牛組成的德國荷斯坦?;蚪M預測群體用于本研究。所有公牛都用Illumina Bovine SNP50珠芯片進行基因分型[53]。質量控制后,剩下42 551個SNP供以進一步分析。每個公牛都有3個性狀:產奶量(milk yield, MKG)、乳脂百分比(milk fat percentage, FPRO)和體細胞評分(somatic cell score, SCS)。更多關于該群體的詳細信息可在參考文獻[54]中查看。采用間接法BayesB、直接法GBLUP和機器學習的KRR和SVR等4種方法,采用5×5倍交叉驗證獲得GEBV平均值和標準差。評價指標有兩個,第一個是準確性,即真實值與預測值之間的皮爾遜相關系數。第二個是誤差,即真實值與預測值之間的均方根誤差。
得到結果如表2所示,表中評價指標格式為:準確性(均方根誤差)。在性狀MKG當中,4種方法獲得的準確性和誤差都沒有顯著性差異。在性狀FPR中,BayesB方法的準確性為0.860,明顯優(yōu)于其他3種方法,AN等[24]的研究中也得到相似的結果。在性狀SCS中,機器學習方法KRR和SVR的準確性高于BayesB和GBULP,且均方誤也小于它們。本例中僅進行了不同方法性能的比較,對于結果的解讀,仍需進一步的分析,如性狀的遺傳背景和方法的適用情況等。
表2 不同方法對奶牛3個性狀的基因組估計準確性和均方誤比較
corr: Correlation; mse: Mean squared error
盡管機器學習具有很多優(yōu)點,但其在對動物復雜性狀的基因組育種值估計時仍存在一些挑戰(zhàn)。
了解模型處理數據的過程能有助于模型和特征的優(yōu)化??山忉屝允侵溉祟惸軌蚶斫鉀Q策原因的程度,模型可解釋性則指對模型內部機制的理解以及對模型結果的理解[55]。當機器學習模型的可解釋性越高,模型的決策和預測就可以被人理解。一些復雜的模型通常能產生更好的性能,如集成模型和深度學習,但它們的運作原理往往很難被解釋清楚[56]。如果不能清晰地解析模型,改進模型和提高估計準確性也會存在困難。性狀遺傳結構復雜多樣,目前還沒有一種模型能廣泛適用于所有性狀[57]。如何選擇正確的模型并解讀數據分析的過程,是目前研究需要克服的難點之一。
數據噪聲是指一個測量變量中的隨機錯誤或偏差,即數據樣本中對擬合模型有干擾的信息。機器學習的數據噪聲來源于數據的異質性、稀疏性和異常值。常見的噪聲數據處理方法包括分箱、聚類和回歸等。在基因組選擇中,特征受到許多具有微小效應的位點影響時,機器學習往往表現比較糟糕[32]。同時,生物結構、生物環(huán)境和批次效應等都會造成基因組學數據的分布差異。
過擬合是指模型在訓練集上表現好,但是在測試集上表現不好,模型泛化性能差。模型太復雜、數據噪聲、數據量小或數據缺乏代表性等都有可能引起模型過擬合??梢試L試通過以下方法進行改善:(1)增加樣本數或樣本多樣性;(2)剔除噪聲數據或改用對噪聲不敏感的模型;(3)考慮使用加權或標準化指標來衡量機器學習的表現,如標準化余弦相似度;(4)合并代表性不足的樣本[57-58]。在機器學習實際操作中,正則化、提前結束、超參數優(yōu)化等手段都可用來幫助解決過擬合問題。
在基因組選擇問題中,大變量小樣本是指基因型標記數目遠遠大于樣本觀察值。這種現象容易使高維空間包含多余的特征,從而誤導模型的訓練[59]。機器學習算法通過假設映射函數的數據和結構來解決這個問題,但也因此增大了偏差。所以,研究者在訓練模型之前通常采用特征提取和特征選擇等降維方法來減少數據的維空間[60]。該問題又會引起計算機計算和儲存上的困難,因為大多數的機器學習算法都需要大量的內存來運行和保存結果。這可以使用專用的圖形處理單元(graphics processing unit, GPU)和云計算平臺進行改善。
不同模型采用的算法不同,因此擅長處理的數據類型也不同。根據數據結構和數據特征選擇合適的模型極為重要。許多文獻綜述了各種機器學習算法的優(yōu)勢和不足[61-64],以供選擇模型時進行參考。訓練模型時需要選擇合適的超參數,即調參。調參可以權衡模型的偏差和方差,從而提高模型效果及性能。常用的調參方法有手動調參、網格搜索和貝葉斯優(yōu)化等。目前,一些自動化機器學習平臺和工具也可供搜索最佳模型和最佳超參數[65-67]。
由于以上這些挑戰(zhàn),利用機器學習進行選擇時需要謹慎處理每一個環(huán)節(jié)。訓練模型前,一方面需要增加數據的樣本量和多樣性,另一方面則需要盡量剔除造成數據噪聲的因素。訓練時應根據數據結構選擇合適的模型,并不是越復雜越好。默認參數在大多數時候都有較好的表現,但為了獲得更好的選擇效果,調參工作不建議省略。為避免過擬合,訓練結束后應使用交叉驗證來評估模型的選擇準確性。設置隨機種子以便訓練過程能夠被重復。最后,如果出現了極好或者極差的情況,請認真檢查程序,因為這種情況幾乎沒有在文獻中出現過。
經典的基因組選擇方法在生產實踐中發(fā)揮了巨大的效力,但在理論和應用方面仍面臨一些挑戰(zhàn)。由于品種間遺傳背景不同,開展基因組選擇時跨品種預測準確性難以保證。同時,傳統(tǒng)基因組選擇方法僅利用到基因組信息,對于多組學信息的利用并不充分。如何將多組學信息進行整合,以提高選擇準確度也是需要解決的問題。目前,個體分型主要采用芯片技術。而由于標記密度低,導致該技術依賴于基因組連鎖不平衡。測序技術可以解決低密度問題,并且可能實現跨品種預測。所以,測序技術的出現將成為全基因組選擇新時代的轉折點。但是測序技術成本高、速度慢,對計算資源的配置要求較高。因此,如何快速并有效地儲存、處理及分析數據是測序技術應用于全基因組育種的重要挑戰(zhàn)[68]。
目前為止,機器學習在動物基因組選擇中的應用大多數是處理回歸問題,以二元表型的形式完成。研究進展表明,采用機器學習進行動物復雜性狀的基因組選擇,不僅彌補了傳統(tǒng)選擇方法的弊端,還能捕獲數據之間的非線性關系。眾多的優(yōu)勢和功能使機器學習能夠很好選擇動物個體的遺傳價值,這為選擇準確性的提升提供了很好的突破契機。但由于數據噪聲和分布差異等問題,機器學習算法的表現仍不穩(wěn)定。機器學習基于算法實現,算法又依賴于超參數的選擇。一般情況下,默認超參數都能有不錯的表現,所以調參需要謹慎進行。文末給出了一些使用建議,以期有一定的幫助。要將機器學習各類算法的最強作用發(fā)揮在基因組選擇當中,應從套用運算轉為啟發(fā)學習,思考如何開發(fā)在動物品種中具有高準確性和運算速度的選擇方法。
除了利用基因組信息外,機器學習還可以在此基礎上整合轉錄組信息、代謝組信息等,以提高育種值估計的準確性。目前這方面的相關研究很少,但是部分已有的研究表明機器學習在多組學數據的整合中很有優(yōu)勢。隨著高通量測序和各種分子手段的快速發(fā)展,各種組學數據量逐漸龐大起來,如何將這些組學數據進行科學又恰當的整合以提高選擇準確性也成為了目前動物育種工作中值得思考的問題之一。
[1] MEUWISSEN T H E, HAYES B J, GODDARD M E. Prediction of total genetic value using genome-wide dense marker maps. Genetics, 2001, 157(4): 1819-1829.
[2] GODDARD M. Genomic selection: prediction of accuracy and maximisation of long term response. Genetica, 2009, 136(2): 245-257.
[3] WELLER J I, EZRA E, RON M.A perspective on the future of genomic selection in dairy cattle. Journal of Dairy Science, 2017, 100(11): 8633-8644.
[4] HABIER D, FERNANDO R L, KIZILKAYA K, GARRICK D J. Extension of the Bayesian alphabet for genomic selection. BMC Bioinformatics, 2011, 12: 186.
[5] MEHER P K, RUSTGI S, KUMAR A. Performance of Bayesian and BLUP alphabets for genomic prediction: analysis, comparison and results. Heredity, 2022, 128(6): 519-530.
[6] LOPES F B, BALDI F, PASSAFARO T L, BRUNES L C, COSTA M F O, EIFERT E C, NARCISO M G, ROSA G J M, LOBO R B, MAGNABOSCO C U. Genome-enabled prediction of meat and carcass traits using Bayesian regression, single-step genomic best linear unbiased prediction and blending methods in Nelore cattle. Animal, 2021, 15(1): 100006.
[7] GUALDRóN DUARTE J L, GORI A S, HUBIN X, LOURENCO D, CHARLIER C, MISZTAL I, DRUET T. Performances of Adaptive MultiBLUP, Bayesian regressions, and weighted-GBLUP approaches for genomic predictions in Belgian Blue beef cattle. BMC Genomics, 2020, 21(1): 545.
[8] BISHOP C, NASRABADI N. Pattern recognition and machine learning. New York: Springer New York, 2006.
[9] JORDAN M I, MITCHELL T M. Machine learning: trends, perspectives, and prospects. Science, 2015, 349(6245): 255-260.
[10] MURPHY K P. Machine learning: a probabilistic perspective. Cambridge, Mass.: MIT Press, 2012.
[11] ZHANG X H, CHEN S Y, LAI K M, CHEN Z M, WAN J X, XU Y F. Machine learning for the prediction of acute kidney injury in critical care patients with acute cerebrovascular disease. Renal Failure, 2022, 44(1): 43-53.
[12] ARAúJO D C, VELOSO A A, BORGES K B G, DAS GRA?AS CARVALHO M. Prognosing the risk of COVID-19 death through a machine learning-based routine blood panel: a retrospective study in Brazil. International Journal of Medical Informatics, 2022, 165: 104835.
[13] BAE S, SAMUELS J A, FLYNN J T, MITSNEFES M M, FURTH S L, WARADY B A, NG D K. Machine learning-based prediction of masked hypertension among children with chronic kidney disease. Hypertension, 2022, 79(9): 2105-2113.
[14] REEL P S, REEL S, PEARSON E, TRUCCO E, JEFFERSON E. Using machine learning approaches for multi-omics data analysis: a review. Biotechnology Advances, 2021, 49: 107739.
[15] YAN J, WANG X F. Unsupervised and semi-supervised learning: the next frontier in machine learning for plant systems biology. The Plant Journal, 2022, 111(6): 1527-1538.
[16] TU K L, WEN S Z, CHENG Y, XU Y N, PAN T, HOU H N, GU R L, WANG J H, WANG F G, SUN Q. A model for genuineness detection in genetically and phenotypically similar maize variety seeds based on hyperspectral imaging and machine learning. Plant Methods, 2022, 18(1): 81.
[17] ESPOSITO S, RUGGIERI V, TRIPODI P. Editorial: machine learning for big data analysis: applications in plant breeding and genomics. Frontiers in Genetics, 2022, 13: 916462.
[18] ZHANG Z, ZHANG Q, DING X D. Advances in genomic selection in domestic animals. Chinese Science Bulletin, 2011, 56(25): 2655-2663.
[19] DAETWYLER H D, PONG-WONG R, VILLANUEVA B, WOOLLIAMS J A. The impact of genetic architecture on genome-wide evaluation methods. Genetics, 2010, 185(3): 1021-1031.
[20] KARIMI K, SARGOLZAEI M, PLASTOW G S, WANG Z Q, MIAR Y. Opportunities for genomic selection in American mink: a simulation study. PLoS One, 2019, 14(3): e0213873.
[21] MUIR W M. Comparison of genomic and traditional BLUP-estimated breeding value accuracy and selection response under alternative trait and genomic parameters. Journal of Animal Breeding and Genetics = Zeitschrift Fur Tierzuchtung Und Zuchtungsbiologie, 2007, 124(6): 342-355.
[22] SONG H L, ZHANG J X, ZHANG Q, DING X D. Using different single-step strategies to improve the efficiency of genomic prediction on body measurement traits in pig. Frontiers in Genetics, 2018, 9: 730.
[23] SAMUEL A L. Some studies in machine learning using the game of checkers. IBM Journal of Research and Development, 1959, 3(3): 210-229.
[24] AN B X, LIANG M, CHANG T P, DUAN X H, DU L L, XU L Y, ZHANG L P, GAO X, LI J Y, GAO H J. KCRR: a nonlinear machine learning with a modified genomic similarity matrix improved the genomic prediction efficiency. Briefings in Bioinformatics, 2021, 22(6): bbab132.
[25] BREIMAN L. Random forests. Machine Language, 2001, 45(1): 5-32.
[26] LIANG M, MIAO J, WANG X Q, CHANG T P, AN B X, DUAN X H, XU L Y, GAO X, ZHANG L P, LI J Y, GAO H J. Application of ensemble learning to genomic selection in Chinese Simmental beef cattle. Journal of Animal Breeding and Genetics = Zeitschrift Fur Tierzuchtung Und Zuchtungsbiologie, 2021, 138(3): 291-299.
[27] GONZáLEZ-RECIO O, GIANOLA D, LONG N Y, WEIGEL K A, ROSA G J M, AVENDA?O S. Nonparametric methods for incorporating genomic information into genetic evaluations: an application to mortality in broilers. Genetics, 2008, 178(4): 2305-2313.
[28] LONG N Y, GIANOLA D, ROSA G J M, WEIGEL K A. Application of support vector regression to genome-assisted prediction of quantitative traits. TAG Theoretical and Applied Genetics Theoretische Und Angewandte Genetik, 2011, 123(7): 1065-1074.
[29] GONZáLEZ-CAMACHO J M, DE LOS CAMPOS G, PéREZ P, GIANOLA D, CAIRNS J E, MAHUKU G, BABU R, CROSSA J. Genome-enabled prediction of genetic values using radial basis function neural networks. TAG Theoretical and Applied Genetics Theoretische Und Angewandte Genetik, 2012, 125(4): 759-771.
[30] TUSELL L, PéREZ-RODRíGUEZ P, FORNI S, WU X L, GIANOLA D. Genome-enabled methods for predicting litter size in pigs: a comparison. Animal, 2013, 7(11): 1739-1749.
[31] HE J R, DING L X, JIANG L, MA L. Kernel ridge regression classification. 2014 International Joint Conference on Neural Networks (IJCNN). July 6-11, 2014, Beijing, China. IEEE, 2014: 2263-2267.
[32] NADERI S, YIN T, K?NIG S. Random forest estimation of genomic breeding values for disease susceptibility over different disease incidences and genomic architectures in simulated cow calibration groups. Journal of Dairy Science, 2016, 99(9): 7261-7273.
[33] GHAFOURI-KESBI F, RAHIMI-MIANJI G, HONARVAR M, NEJATI- JAVAREMI A. Predictive ability of Random Forests, Boosting, Support Vector Machines and Genomic Best Linear Unbiased Prediction in different scenarios of genomic evaluation. Animal Production Science, 2017, 57(2): 229.
[34] WALDMANN P. Approximate Bayesian neural networks in genomic prediction. Genetics Selection Evolution, 2018, 50(1): 1-9.
[35] ABDOLLAHI-ARPANAHI R, GIANOLA D, PE?AGARICANO F. Deep learning versus parametric and ensemble methods for genomic prediction of complex phenotypes. Genetics, Selection, Evolution, 2020, 52(1): 12.
[36] YIN L L, ZHANG H H, ZHOU X, YUAN X H, ZHAO S H, LI X Y, LIU X L. KAML: improving genomic prediction accuracy of complex traits using machine learning determined parameters. Genome Biology, 2020, 21(1): 146.
[37] ALVES A A C, ESPIGOLAN R, BRESOLIN T, COSTA R M, FERNANDES JúNIOR G A, VENTURA R V, CARVALHEIRO R, ALBUQUERQUE L G. Genome-enabled prediction of reproductive traits in Nellore cattle using parametric models and machine learning methods. Animal Genetics, 2021, 52(1): 32-46.
[38] LIANG M, CHANG T P, AN B X, DUAN X H, DU L L, WANG X Q, MIAO J, XU L Y, GAO X, ZHANG L P, LI J Y, GAO H J. A stacking ensemble learning framework for genomic prediction. Frontiers in Genetics, 2021, 12: 600040.
[39] WANG X, SHI S L, WANG G J, LUO W X, WEI X, QIU A, LUO F, DING X D. Using machine learning to improve the accuracy of genomic prediction of reproduction traits in pigs. Journal of Animal Science and Biotechnology, 2022, 13(1): 60.
[40] SAUNDERS C, GAMMERMAN A, VOVK V. Ridge regression learning algorithm in dual variables. Proceedings of the Fifteenth International Conference on Machine Learning. New York: ACM, 1998: 515-521.
[41] KAR A, BHATTACHARJEE D, BASU D K, NASIPURI M, KUNDU M. Human face recognition using Gabor based kernel entropy component analysis. International Journal of Computer Vision and Image Processing, 2012, 2(3): 1-20.
[42] LU Y W, FANG X Z, XIE B L. Kernel linear regression for face recognition. Neural Computing and Applications, 2014, 24(7/8): 1843-1849.
[43] MOSER G, TIER B, CRUMP R E, KHATKAR M S, RAADSMA H W. A comparison of five methods to predict genomic breeding values of dairy bulls from genome-wide SNP markers. Genetics, Selection, Evolution, 2009, 41(1): 56.
[44] BALKENENDE L, TEUWEN J, MANN R M. Application of deep learning in breast cancer imaging. Seminars in Nuclear Medicine, 2022, 52(5): 584-596.
[45] NOVAKOVSKY G, DEXTER N, LIBBRECHT M W, WASSERMAN W W, MOSTAFAVI S. Obtaining genetics insights from deep learning via explainable artificial intelligence. Nature Reviews Genetics, 2023, 24(2): 125-137.
[46] KHAKI S, WANG L Z. Crop yield prediction using deep neural networks. Frontiers in Plant Science, 2019, 10: 621.
[47] MONTESINOS-LóPEZ O A, MARTíN-VALLEJO J, CROSSA J, GIANOLA D, HERNáNDEZ-SUáREZ C M, MONTESINOS- LóPEZ A, JULIANA P, SINGH R. A benchmarking between deep learning, support vector machine and Bayesian threshold best linear unbiased prediction for predicting ordinal traits in plant breeding. G3 Genes|Genomes|Genetics, 2019, 9(2): 601-618.
[48] MONTESINOS-LóPEZ A, MONTESINOS-LóPEZ O A, GIANOLA D, CROSSA J, HERNáNDEZ-SUáREZ C M. Multi-environment genomic prediction of plant traits using deep learners with dense architecture. G3, 2018, 8(12): 3813-3828.
[49] PéREZ-ENCISO M, ZINGARETTI L M. A guide for using deep learning for complex trait genomic prediction. Genes, 2019, 10(7): 553.
[50] SHRESTHA D L, SOLOMATINE D P. Experiments with AdaBoost. RT, an improved boosting scheme for regression. Neural Computation, 2006, 18(7): 1678-1710.
[51] FABIO M, WEN H, PETER S, CHRISTIAN M, MACKAY TRUDY F C. Leveraging multiple layers of data to predictcomplex traits. G3 (Bethesda, Md), 2020, 10(12): 4599-4613.
[52] FU Y H, XU J Y, TANG Z S, WANG L, YIN D, FAN Y, ZHANG D D, DENG F, ZHANG Y P, ZHANG H H, WANG H Y, XING W H, YIN L L, ZHU S L, ZHU M J, YU M, LI X Y, LIU X L, YUAN X H, ZHAO S H. A gene prioritization method based on a swine multi- omics knowledgebase and a deep learning model. Communications Biology, 2020, 3(1): 502.
[53] MATUKUMALLI L K, LAWLEY C T, SCHNABEL R D, TAYLOR J F, ALLAN M F, HEATON M P, O'CONNELL J, MOORE S S, SMITH T P L, SONSTEGARD T S, VAN TASSELL C P. Development and characterization of a high density SNP genotyping assay for cattle. PLoS One, 2009, 4(4): e5350.
[54] ZHANG Z, ERBE M, HE J L, OBER U, GAO N, ZHANG H, SIMIANER H, LI J Q. Accuracy of whole-genome prediction using a genetic architecture-enhanced variance-covariance matrix. G3, 2015, 5(4): 615-627.
[55] RIBEIRO M T, SINGH S, GUESTRIN C. Model-agnostic interpretability of machine learning. 2016: arXiv: 1606.05386. https://arxiv.org/abs/ 1606.05386.
[56] VELLIDO A, MARTíN-GUERRERO J, LISBOA P. Making machine learning models interpretable. Proceedings of the ESANN, F, 2012.
[57] ZHANG Q X, ZHANG L N, LIU F, LIU X D, LIU X L, ZHAO S H, ZHU M J. A study of genomic selection on porcine hematological traits using GBLUP and penalized regression methods. Acta Veterinaria et Zootechnica Sinica, 2017, 48(12): 2258-2267.
[58] HE H B, BAI Y, GARCIA E A, LI S T. ADASYN: adaptive synthetic sampling approach for imbalanced learning. 2008 IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence). June 1-8, 2008, Hong Kong, China. IEEE, 2008: 1322-1328.
[59] JAMES G, WITTEN D, HASTIE T, TIBSHIRANI R. An introduction to statistical learning: with applications in R. 2nd ed. Berlin: Springer. 2013.
[60] STANCZYK U, JAIN L C. Feature selection for data and pattern recognition preface. Studies-in-Computational-Intelligence, 2015, 584: 355.
[61] AMANCIO D R, COMIN C H, CASANOVA D, TRAVIESO G, BRUNO O M, RODRIGUES F A, DA FONTOURA COSTA L. A systematic comparison of supervised classifiers. PLoS One, 2014, 9(4): e94137.
[62] LóPEZ PINEDA A, YE Y, VISWESWARAN S, COOPER G F, WAGNER M M, TSUI F. Comparison of machine learning classifiers for influenza detection from emergency department free-text reports. Journal of Biomedical Informatics, 2015, 58: 60-69.
[63] SAKR S, ELSHAWI R, AHMED A M, QURESHI W T, BRAWNER C A, KETEYIAN S J, BLAHA M J, AL-MALLAH M H. Comparison of machine learning techniques to predict all-cause mortality using fitness data: the Henry ford exercIse testing (FIT) project. BMC Medical Informatics and Decision Making, 2017, 17(1): 174.
[64] UDDIN S, KHAN A, HOSSAIN M E, ALI MONI M. Comparing different supervised machine learning algorithms for disease prediction. BMC Medical Informatics and Decision Making, 2019, 19(1): 281.
[65] FEURER M, KLEIN A, EGGENSPERGER K, Springenberg J T, Blum M, Hutter F. Efficient and robust automated machine learning. Advances in neural information processing systems, 2015, 28: 2755-2763.
[66] OLSON R S, SIPPER M, CAVA W L, Tartarone S, Vitale S, Fu W, Patryk O, Ryan J U, Holmes J H, Moore J H. A system for accessible artificial intelligence. Genetic programming theory and practice XV. Springer. 2018: 121-134.
[67] WARING J, LINDVALL C, UMETON R. Automated machine learning: review of the state-of-the-art and opportunities for healthcare. Artificial Intelligence in Medicine, 2020, 104: 101822.
[68] YIN L L, MA Y L, XIANG T, ZHU M J, YU M, LI X Y, LIU X L, ZHAO S L. The progress and prospect of genomic selection models. Acta Veterinaria et Zootechnica Sinica, 2019, 50(2): 233-242.
Research Progress on Machine Learning for Genomic Selection in Animals
LI MianYan, WANG LiXian, ZHAO FuPing
Key Laboratory of Animal Genetics Breeding andReproduction (Poultry), Ministry of Agriculture, Institute of Animal Sciences, Chinese Academy of Agricultural Sciences, Beijing 100193
Genomic selection is defined as using the molecular marker information that covered the whole genome to estimate individual’s breeding values. Using genome information can avoid many problems caused by pedigree errors so as to improve selection accuracy and shorten breeding generation intervals. According to different statistical models, methods of estimated genomic breeding value (GEBV) can be divided into based on BLUP (best linear unbiased prediction) theory, based on Bayesian theory and others. At present, GBLUP and its improved method ssGBLUP have been widely employed. Accuracy is the most used evaluation metric for genomic selection models, which is to evaluate the similarity between the true value and the estimated value. The factors that affect the accuracy can be reflected from the model, which can be divided into controllable factors and uncontrollable factors. Traditional genomic selection methods have promoted the rapid development of animal breeding, but these methods are currently facing many challenges such as multi-population, multi-omics, and computing. What’s more, they cannot capture the nonlinear relationship between high-dimensional genomic data. As a branch of artificial intelligence, machine learning is very close to biological mastery of natural language processing. Machine learning extracts features from data and automatically summarizes the rules and use to make predictions for new data. For genomic information, machine learning does not require distribution assumptions, and all marker information can be considered in the model. Compared with traditional genomic selection methods, machine learning can more easily capture complex relationships between genotypes, phenotypes, and the environment. Therefore, machine learning has certain advantages in animal genomic selection. According to the amount and type of supervision received during training, machine learning can be classified into supervised learning, unsupervised learning, semi-supervised learning, and reinforcement learning. The main difference is whether the input data is labeled. The machine learning methods currently applied in animal genomic selection are all supervised learning. Supervised learning can handle both classification and regression problems, requiring the algorithm to be provided with labeled data and the desired output. In recent years, the application of machine learning in animal genomic selection has been increasing, especially in dairy and beef cattle. In this review, machine learning algorithms are divided into three categories: single algorithm, ensemble algorithm and deep learning, and their research progress in animal genomic selection were summarized. The most used single algorithms are KRR and SVR, both of which use kernel tricks to learn nonlinear functions and map data to higher-dimensional kernel spaces in the original space. Currently commonly used kernel functions are linear kernel, cosine kernel, Gaussian kernel, and polynomial kernel. Deep learning, also known as a deep neural network, consists of multiple layers of connected neurons. An ensemble learning algorithm refers to fusing different learners together to obtain a stronger supervised model. In the past decade, the related literature on machine learning and deep learning has shown exponential growth. And its application in genomic selection is also gradually increasing. Although machine learning has obvious advantages in some aspects, it still faces many challenges in estimating the genetic breeding value of complex traits in animals. The interpretability of some models is low, which is not conducive to the adjustment of data, parameters, and features. Data heterogeneity, sparsity, and outliers can also cause data noise for machine learning. There are also problems such as overfitting, large marks and small samples, and parameter adjustment. Therefore, each step needs to be handled carefully while training the model. This paper introduced the traditional methods of genomic selection and the problems they face, the concept and classification of machine learning. We discussed the research progress and current challenges of machine learning in animal genomic selection. A Case and some application suggestions were given to provide a certain reference for the application of machine learning in animal genomic selection.
machine learning; deep learning; genomic selection; animal breeding
10.3864/j.issn.0578-1752.2023.18.015
2022-09-17;
2023-06-28
國家自然科學基金面上項目(32172702)、國家重點研發(fā)計劃(2021YFD130110203)、中國農業(yè)科學院科技創(chuàng)新工程(ASTIP-IAS02)、國家生豬產業(yè)技術體系(CARS-35)
李棉燕,Tel:15305169095;E-mail:mianyanli@outlook.com。王立賢,E-mail:iaswlx@263.net。李棉燕和王立賢為同等貢獻作者。通信作者趙福平,E-mail:zhaofuping@caas.cn
(責任編輯 林鑒非)