摘 要:
為探究活體、無創(chuàng)、簡單、高效的母雞腹脂沉積性狀測定和選育技術(shù)方法,本研究以清遠(yuǎn)麻雞為研究對象,將多體尺性狀選擇法與8種機(jī)器學(xué)習(xí)模型相結(jié)合,分別構(gòu)建不同日齡體尺性狀對母雞腹脂含量的回歸預(yù)測模型和分類預(yù)測模型。利用58~136日齡間各個(gè)日齡的多個(gè)早期體尺性狀結(jié)合機(jī)器學(xué)習(xí)方法,體尺測定日齡對預(yù)測成年清遠(yuǎn)麻母雞腹脂含量的準(zhǔn)確性未表現(xiàn)出明顯差異;進(jìn)行回歸預(yù)測時(shí),RF模型的預(yù)測效果最好,擬合效果R2為0.821~0.861,預(yù)測誤差MAE為6.32~7.27;進(jìn)行分類預(yù)測時(shí),Bagging模型在二分類、三分類中均具有更高的預(yù)測準(zhǔn)確度,二分類準(zhǔn)確度ACC可達(dá)94.54%~100%,三分類準(zhǔn)確度ACC可達(dá)99.58%~100%。本研究基于機(jī)器學(xué)習(xí)建立并優(yōu)化了優(yōu)質(zhì)雞腹脂沉積活體預(yù)測模型,能夠?yàn)閮?yōu)質(zhì)雞腹脂早期活體選育等奠定技術(shù)基礎(chǔ),也為腹脂含量預(yù)測模型構(gòu)建的相關(guān)技術(shù)探索提供參考。
關(guān)鍵詞:
雞;腹脂沉積;早期體尺性狀;機(jī)器學(xué)習(xí);預(yù)測模型
中圖分類號:
S831.2"""" 文獻(xiàn)標(biāo)志碼:A """"文章編號: 0366-6964(2025)02-0548-11
收稿日期:2024-05-27
基金項(xiàng)目:國家科技創(chuàng)新2030—重大項(xiàng)目(2023ZD04064);國家自然科學(xué)基金(32102538);廣東省基礎(chǔ)與應(yīng)用基礎(chǔ)研究基金(2022A1515012014);2023年度廣東省大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(202311847014)
作者簡介:楊苗苗(1999-),女,碩士生,主要從事動(dòng)物遺傳育種與繁殖研究,E-mail:1079278298@qq.com
*通信作者:向 海,主要從事動(dòng)物遺傳育種與繁殖研究,E-mail: xh@fosu.edu.cn
Construction and Optimization of Prediction Models for Abdominal Fat Deposition in Adult Hens based on Early Body Size Traits using Machine Learning
YANG" Miaomiao, XIE" Li, JIAN" Baoyi, LUO" Chaowei, XIE" Zhuojun, ZHU" Piao, ZHOU" Tianri, LI" Hua, XIANG" Hai*
(Guangdong Provincial Key Laboratory of Animal Molecular Design and Precise Breeding, School of Animal Science and Technology, Foshan University, Foshan 528225," China)
Abstract:
In order to investigate a live, non-invasive, simple, and efficient method for the assessment of abdominal fat deposition traits and selection of hens, the present study took Qingyuan partridge chickens as research object and combined the multiple body size trait selection method with eight machine learning models to construct regression prediction models and classification prediction models for the abdominal fat deposition of hens at different days of age. Using multiple early body size traits at various ages between 58 and 136 days of age combined with machine learning methods, the accuracy of body size traits at different ages in predicting abdominal fat content of adult Qingyuan partridge hens did not show significant differences. The RF model had the best prediction effect for regression prediction, with a fitting effect of R2 of 0.821-0.861 and a prediction error MAE of 6.32-7.27. In terms of classification prediction, the Bagging model exhibited superior performance in both binary and tertiary classification. The binary classification accuracy ACC reached 94.54% to 100%, while the tertiary classification accuracy ACC reached 99.58% to 100%. In this study, live prediction models for abdominal fat deposition in high-quality chickens were established and optimized based on machine learning. These models can serve as a technical foundation for early live selection on abdominal fat deposition and breeding of high-quality chickens as well as for the exploration of the related technology for the construction of prediction models for abdominal fat content.
Key words:
chicken; abdominal fat deposition; early body size traits; machine learning; prediction model
*Corresponding author: XIANG Hai, E-mail: xh@fosu.edu.cn
由于人們對雞的生長性狀進(jìn)行了高強(qiáng)度的選育,加之在現(xiàn)代生產(chǎn)中為其供應(yīng)了高能量的飼料和延長了飼養(yǎng)周期,導(dǎo)致雞體內(nèi)脂肪過度沉積,這已成為當(dāng)前優(yōu)質(zhì)雞生產(chǎn)面臨的一個(gè)重要問題。同時(shí),優(yōu)質(zhì)雞生產(chǎn)正面臨著多種挑戰(zhàn),如飼料原料成本上漲[1]、活禽禁售屠宰生鮮上市[2]等,迫切需要降低優(yōu)質(zhì)雞體脂尤其是腹部脂肪沉積,以降低成本并提高效益。然而,現(xiàn)有的腹脂選育方法存在多種問題,如誤差大、耗時(shí)長、操作繁瑣、推廣難度大等[3]。因此,需要一種簡單、方便、高效的腹脂檢測方法。
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,社會(huì)各領(lǐng)域產(chǎn)生的各種數(shù)據(jù)呈爆炸式增長,而機(jī)器學(xué)習(xí)是具有挖掘有用數(shù)據(jù)的新興方法之一,各種機(jī)器學(xué)習(xí)算法已被頻繁地用于畜禽生長的研究中,如Ruchay等[4]使用出生體重、斷奶體重、斷奶日齡、體長、胸圍、肩高、胸深、胸寬和掌骨圍等指標(biāo),運(yùn)用Extra-Trees、LR和Adaboost等17種機(jī)器學(xué)習(xí)模型預(yù)測成年豬的體重,發(fā)現(xiàn)Stacking的效果最優(yōu),平均絕對誤差(MAE)為4.331。Xu等[5]使用農(nóng)場奶牛數(shù)據(jù),包括干奶期、胎次、產(chǎn)奶性狀和體重,基于8種機(jī)器學(xué)習(xí)算法來預(yù)測良好或平均代謝狀態(tài),發(fā)現(xiàn)RF和SVM是預(yù)測代謝狀態(tài)性能最好的2種算法。Chen等[6]利用外部測量和B超測量等指標(biāo),結(jié)合SVM和ANN算法對肉雞的胴體特征進(jìn)行預(yù)測,其準(zhǔn)確性達(dá)到82%~96%。Camacho-Pérez等[7]利用超聲測量和DT、RF、SVM和MLP等機(jī)器學(xué)習(xí)模型,預(yù)測黑腹羊的總胴體骨、總胴體脂肪和總胴體肌肉,發(fā)現(xiàn)RF是最佳預(yù)測模型,其準(zhǔn)確率達(dá)到67%~76%。He等[8]用4種不同組合的預(yù)測指標(biāo),分別為僅日齡、僅采食行為、包括日齡和采食行為、包括日齡、采食行為和采食量,并分別用于Lasso回歸、隨機(jī)森林、長短時(shí)記憶網(wǎng)絡(luò)來估算育肥豬的體重。Tsai等[9]使用機(jī)器學(xué)習(xí)方法,通過不同的訓(xùn)練輸入,獲得的肉雞生長和體重預(yù)測模型的準(zhǔn)確率在 98%~99%。巴桑旺堆等[10]利用牛體尺性狀構(gòu)建預(yù)測體重的機(jī)器學(xué)習(xí)回歸模型,發(fā)現(xiàn)使用高斯過程回歸、支持向量機(jī)的機(jī)器學(xué)習(xí)模型的準(zhǔn)確性(0.91)優(yōu)于一般線性回歸模型(0.71~0.80),同時(shí)發(fā)現(xiàn)機(jī)器學(xué)習(xí)模型的準(zhǔn)確性隨著訓(xùn)練數(shù)據(jù)的增加而增加。
本研究以優(yōu)質(zhì)家禽地方品種清遠(yuǎn)麻雞為試驗(yàn)動(dòng)物,將多體尺性狀選擇法與8種機(jī)器學(xué)習(xí)模型相結(jié)合,分別構(gòu)建不同日齡體尺性狀對成年母雞腹脂含量的回歸預(yù)測模型和分類預(yù)測模型,以期探究肉雞腹脂含量活體預(yù)測的技術(shù)方法以及評估利用早期表型性狀進(jìn)行選擇的準(zhǔn)確性,為實(shí)現(xiàn)活體、無創(chuàng)、簡單、高效的腹脂沉積性狀選育提供技術(shù)參考。
1 材料與方法
1.1 試驗(yàn)群體和數(shù)據(jù)測定
隨機(jī)選取300只0日齡清遠(yuǎn)麻雞母雛佩戴腳環(huán),在廣東某公司飼養(yǎng)場進(jìn)行跟蹤測定,各階段飼養(yǎng)方式及營養(yǎng)水平均按照企業(yè)飼養(yǎng)標(biāo)準(zhǔn)執(zhí)行。期間,分別于58、72、86、104、119和136日齡對每只個(gè)體測定活重和體尺指標(biāo)。數(shù)據(jù)集包含10個(gè)特征變量,分別是體重、冠高、體斜長、龍骨長、脛長、脛圍、腰圍、胸寬、胸深、骨盆寬。
利用早期體尺性狀分別建立對成年清遠(yuǎn)麻母雞腹脂含量的回歸預(yù)測模型和分類預(yù)測模型?;貧w預(yù)測模型中因變量為腹脂重;分類預(yù)測模型包括二分類和三分類;在二分類中因變量為高腹脂組和低腹脂組,腹脂重大于均值的為高腹脂組,小于均值的為低腹脂組;在三分類中因變量為高腹脂組、中腹脂組和低腹脂組,定義腹脂重最大值三分之二以上的為高腹脂組、最大值三分之一以下的為低腹脂組、介于其中的為中腹脂組。
1.2 數(shù)據(jù)預(yù)處理
首先采用sklearn中的MinMaxScaler方法對試驗(yàn)數(shù)據(jù)的特征變量進(jìn)行歸一化處理,使各特征屬性間具有可比性。基于樹模型的特征選擇方法在所有自變量中篩選特征變量,并將排名前五的特征變量用于后續(xù)的回歸預(yù)測和分類預(yù)測任務(wù),以建立和篩選最優(yōu)預(yù)測模型。在分類預(yù)測任務(wù)中,采用了合成少數(shù)過采樣技術(shù)(synthetic minority oversampling technique,SMOTE)方法,以解決腹脂水平不同類別間數(shù)據(jù)不平衡問題。
1.3 交叉驗(yàn)證及參數(shù)調(diào)優(yōu)
為了保證充分利用所有數(shù)據(jù),從有限的數(shù)據(jù)中獲取盡可能多的有效信息,以及在一定程度上減小模型的過擬合,本試驗(yàn)訓(xùn)練過程采用了十折交叉驗(yàn)證。同時(shí)本試驗(yàn)中還結(jié)合網(wǎng)格搜索對算法的超參數(shù)進(jìn)行調(diào)優(yōu),對每個(gè)模型參數(shù)的所有組合進(jìn)行計(jì)算,為每一個(gè)算法計(jì)算出最佳參數(shù)組合。
1.4 模型建立
本試驗(yàn)在回歸預(yù)測任務(wù)中主要運(yùn)用DT[11]、RF[12]、GBDT[13]、XGBoost[14]四種機(jī)器學(xué)習(xí)算法來分別構(gòu)建腹脂重的回歸預(yù)測模型;在分類預(yù)測任務(wù)中主要運(yùn)用KNN[15]、MultinomialNB[16]、SVM[17]、Bagging[18]四種機(jī)器學(xué)習(xí)算法來分別構(gòu)建腹脂沉積水平的分類預(yù)測模型。
1.5 模型評價(jià)指標(biāo)
回歸預(yù)測模型中將決定系數(shù)(R2)和平均絕對誤差(MAE)作為各個(gè)回歸器的評價(jià)指標(biāo),分類任務(wù)中將分類的準(zhǔn)確率(ACC)作為各個(gè)分類器的唯一評價(jià)指標(biāo)[19]。
2 結(jié) 果
2.1 數(shù)據(jù)預(yù)處理
試驗(yàn)雞群表型指標(biāo)統(tǒng)計(jì)分析顯示,在清遠(yuǎn)麻雞58~136日齡階段,其所有體重、體尺表型指標(biāo)(體重、冠高、體斜長、龍骨長、脛長、脛圍、腰圍、胸寬、胸深、骨盆寬)均隨著日齡的增加而有所增加;不同生長時(shí)期的各單項(xiàng)表型指標(biāo)與成年期腹脂重相關(guān)性最高的是體重,其相關(guān)性為0.17~0.38,相關(guān)性隨日齡增加而增大;除此之外,86~136日齡的腰圍與成年期腹脂重相關(guān)性可達(dá)0.21~0.23,其余表型指標(biāo)單項(xiàng)與成年期腹脂重的相關(guān)性均較低(表1)。
2.2 最佳的模型參數(shù)
在構(gòu)建腹脂重回歸預(yù)測模型時(shí),DT算法的關(guān)鍵參數(shù)為max_depth,各個(gè)日齡的預(yù)測模型最優(yōu)參數(shù)均為1;XGBoost、RF和GBDT算法的關(guān)鍵模型參數(shù)為n_estimators,XGBoost算法構(gòu)建58日齡的預(yù)測模型時(shí)最優(yōu)參數(shù)為5,其它日齡均為4;RF算法構(gòu)建86日齡的預(yù)測模型時(shí)最優(yōu)參數(shù)為15,其它日齡均為50;GBDT算法的最優(yōu)參數(shù)均為100(表2)。在構(gòu)建腹脂沉積水平分類預(yù)測模型時(shí),MultinomialNB為基于概率的分類算法,其性能主要依賴于特征的分布和數(shù)據(jù)的質(zhì)量,無需篩選最優(yōu)參數(shù),KNN、Bagging和SVM算法的關(guān)鍵參數(shù)分別為n_neighbors、n_estimators和C(表3)。在二分類中,KNN算法構(gòu)建58日齡的預(yù)測模型最優(yōu)參數(shù)為3,104日齡的為12,其它日齡的均為10;Bagging算法構(gòu)建72日齡的預(yù)測模型最優(yōu)參數(shù)為5,58和86日齡的為50,其它日齡均為20;SVM算法構(gòu)建86日齡的預(yù)測模型最佳參數(shù)為1 000,104和136日齡的為10,其它日齡均為0.01。在三分類中,KNN算法構(gòu)建58日齡的預(yù)測模型最優(yōu)參數(shù)為10,136日齡為3,其它日齡均為12;Bagging算法和SVM算法利用所有日齡表型構(gòu)建預(yù)測模型的最優(yōu)參數(shù)均相同,分別為50和0.01。
2.3 特征選擇
為了更準(zhǔn)確地評估早期體重和各個(gè)體尺數(shù)據(jù)對機(jī)器學(xué)習(xí)模型預(yù)測效果的影響權(quán)重,本研究對清遠(yuǎn)麻母雞58、72、86、104、119、136日齡這6個(gè)日齡階段的10個(gè)表型進(jìn)行了特征重要性分析,并篩選出了在不同機(jī)器學(xué)習(xí)算法中重要性排名前五的特征(表4)。結(jié)果顯示:58日齡的胸寬和骨盆寬為四種機(jī)器學(xué)習(xí)算法構(gòu)建模型的特征變量,胸深和體斜長為DT、RF、GBDT三種模型的特征變量,腰圍、冠高、體重、脛長、脛圍分別為個(gè)別算法構(gòu)建模型的特征變量;72日齡的胸寬、骨盆寬和胸深為四種算法構(gòu)建模型的特征變量,腰圍為DT、RF、GBDT三種模型的特征變量,體重為DT、RF模型的特征變量,龍骨長為GBDT、XGBoost模型的特征變量;86日齡和104日齡的胸寬、骨盆寬、胸深和腰圍均為四種模型的特征變量,體重為86日齡RF、DBDT模型的特征變量,體重和胸深為104日齡DT、RF、GBDT模型的特征變量;119日齡的胸寬、骨盆寬和脛長均為四種模型的特征變量,體重和胸深為DT、RF、GBDT三種模型的特征變量;136日齡的體重、胸寬
和骨盆寬為四種模型的特征變量,胸深為DT、RF、GBDT三種模型的特征變量,體斜長為DT、GBDT模型的特征變量,腰圍為RF、XGBoost模型的特征變量;可見,胸寬、骨盆寬、胸深、腰圍、體重、脛長為預(yù)測腹脂含量最典型的特征變量。
將10個(gè)表型指標(biāo)分別全部輸入四種機(jī)器學(xué)習(xí)模型,XGBoost模型性能在6個(gè)日齡中的綜合表達(dá)效果最好,即作為特征選擇模型最好,R2達(dá)0.760~0.957,MAE為3.301~8.364;DT模型性能最差,R2為0.038~0.121,MAE為16.641~17.197;RF和GBDT模型R2為0.741~0.854,MAE為6.470~8.462(圖1)。
2.4 基于不同特征選擇結(jié)果的回歸模型預(yù)測腹脂含量
將不同機(jī)器學(xué)習(xí)算法篩選重要性排序在前五的特征,分別納入DT、RF、GBDT、XGBoost算法,建立預(yù)測腹脂含量的回歸模型?;诓煌P秃Y選的不同生長日齡的特征變量構(gòu)建成年母雞腹脂含量回歸預(yù)測模型時(shí),RF模型的準(zhǔn)確性均最高,R2均大于0.821,且預(yù)測準(zhǔn)確性隨著日齡增加而逐漸增高,其運(yùn)算時(shí)間為1.98~2.67 s,其中RF模型利用基于DT、XGBoost和GBDT篩選的特征變量進(jìn)行預(yù)測時(shí)準(zhǔn)確性最高;XGBoost和GBDT準(zhǔn)確性次之,其準(zhǔn)確性R2分別為0.680~0.793和0.673~0.776,但GBDT模型運(yùn)算時(shí)間達(dá)5.83~7.34 s,遠(yuǎn)高于其他幾種模型;DT模型運(yùn)算速度最快但準(zhǔn)確性最低,R2均未大于0.121(表5)。
2.5 基于特征選擇結(jié)果的分類模型預(yù)測腹脂含量
鑒于XGBoost模型篩選的136日齡表型指標(biāo)的特征變量在四種算法構(gòu)建的模型中具有普遍更高的準(zhǔn)確性和更少的運(yùn)算時(shí)間消耗(表5),本研究選擇其重要性排序前五的表型指標(biāo)作為分類模型的特
征變量,基于不同機(jī)器學(xué)習(xí)算法分別建立二分類和三分類判別模型,以預(yù)測成年清遠(yuǎn)麻母雞的腹脂沉積水平。結(jié)果顯示,基于58~136日齡的特征表型值構(gòu)建預(yù)測模型進(jìn)行腹脂沉積水平分類判定時(shí),各個(gè)模型進(jìn)行二分類和三分類判定的準(zhǔn)確性無明顯差異;無論進(jìn)行二分類或三分類預(yù)測,Bagging模型的準(zhǔn)確度ACC均可達(dá)94.54%~100%,明顯高于其他模型(51.68%~79.41%),但Bagging模型的運(yùn)算時(shí)間最長,普遍為2 s左右;MultinomialNB模型的運(yùn)算時(shí)間最短為0.04~0.07 s,但其預(yù)測準(zhǔn)確性ACC僅為51.68%~63.45%(表6)。
3 討 論
在現(xiàn)代肉雞腹脂的選育技術(shù)中,特別是關(guān)于如何在活體條件下選育肉雞腹脂含量,吸引了眾多學(xué)者和專家的目光。然而現(xiàn)有技術(shù)中,傳統(tǒng)的直接屠宰[20]選擇雖能有效降低腹脂含量,但優(yōu)秀個(gè)體不能保留,也消耗大量人力物力成本;分子遺傳標(biāo)記[21]目前也存在大量候選基因或位點(diǎn)未能進(jìn)一步驗(yàn)證其在腹脂沉積中的具體功能和作用;血液生化指標(biāo)[22]雖簡單易測,但容易受機(jī)體生理狀態(tài)和其他多種因素的干擾,而由于腹脂在體內(nèi)分布較為廣泛且對聲波的反射性較差,因此超聲波測量技術(shù)[23]目前在腹脂測定的現(xiàn)場應(yīng)用上具有明顯的局限性。
面對當(dāng)前腹脂含量活體測量的技術(shù)困難,本研究采用體尺性狀選擇法和機(jī)器學(xué)習(xí)技術(shù)相結(jié)合的方法,利用機(jī)器學(xué)習(xí)方法有效突破傳統(tǒng)線性回歸中特征與預(yù)測目標(biāo)必須呈線性關(guān)系的局限,在肉雞生長早期利用幾個(gè)體尺指標(biāo)預(yù)測肉雞后期潛在的腹脂含量,這對于實(shí)現(xiàn)活體、無創(chuàng)、成本低的低脂雞品種選
育有著重要的現(xiàn)實(shí)意義。在其他領(lǐng)域上,有學(xué)者利用機(jī)器學(xué)習(xí)方法訓(xùn)練測定的表型測量指標(biāo)來預(yù)測機(jī)體生理機(jī)能指征,發(fā)現(xiàn)集成的機(jī)器學(xué)習(xí)方法比簡單線性回歸方法的預(yù)測效果更優(yōu),如Trakulpanitkit和Tunthanathip[24]通過分析幾個(gè)臨床因素和影像學(xué)參數(shù)與顱內(nèi)壓的關(guān)系,比較了線性、非線性和機(jī)器學(xué)習(xí)模型對顱內(nèi)壓的預(yù)測性能,結(jié)果表明XGBoost和RF等機(jī)器學(xué)習(xí)模型有利于預(yù)測腦積水患者的術(shù)前顱內(nèi)壓和建立預(yù)后;Tzou等[25]基于RT、NB、RF、GBDT和XGBoost等機(jī)器學(xué)習(xí)模型,主要使用年齡、腎小球?yàn)V過率、體重指數(shù)、尿酸和教育水平這5種指標(biāo)去預(yù)測骨折率,其效果優(yōu)于傳統(tǒng)多元線性回歸。Alkutbe等[26]使用機(jī)器學(xué)習(xí)技術(shù),利用身高、體重、身體質(zhì)量指數(shù)預(yù)測兒童的體脂率,結(jié)果顯示,GBDT 機(jī)器學(xué)習(xí)方法的 RMSE(均方根誤差)比線性回歸更小,預(yù)測值與真實(shí)值更加接近。Hussain等[27]基于支持向量回歸和情感人工神經(jīng)網(wǎng)絡(luò)(SVR-EANN)的混合機(jī)器學(xué)習(xí)模型,主要使用年齡、身高、體重、腹圍、腰臀比、性別、身體質(zhì)量指數(shù)這7種指標(biāo)預(yù)測人的體脂率,效果優(yōu)于其他方法。
本研究在機(jī)器學(xué)習(xí)過程中使用交叉驗(yàn)證有效減少模型過擬合,提高了模型的泛化能力,這點(diǎn)在許多機(jī)器學(xué)習(xí)建模研究中都有所體現(xiàn)。如Horvat等[28]比較數(shù)據(jù)單次劃分訓(xùn)練集和測試集方法與數(shù)據(jù)多次劃分的交叉驗(yàn)證方法發(fā)現(xiàn),使用交叉驗(yàn)證后的7種分類機(jī)器學(xué)習(xí)算法具有更好的預(yù)測結(jié)果;Chen等[29]使用交叉驗(yàn)證對CNN模型進(jìn)行訓(xùn)練和評估,降低了測試數(shù)據(jù)集中的平均抽象偏差。Ashri等[30]使用了十折交叉驗(yàn)證技術(shù),有效克服了模型構(gòu)建中的過擬合問題。另外,研究中使用一些機(jī)器學(xué)習(xí)方法都可減少過擬合,包括 Boosting(GBDT、AdaBoost)[31]、Bagging(RF)[32]等方法。隨著在未來肉雞腹脂選育研究和應(yīng)用中獲得更多的數(shù)據(jù)集,本研究構(gòu)建的預(yù)測模型的泛化性和適用性將有望獲得進(jìn)一步增強(qiáng)。
本研究利用四種機(jī)器學(xué)習(xí)模型的重要性排序功能,選擇出了對模型預(yù)測效果影響最大的前五個(gè)指標(biāo)。這種方法既能達(dá)到解決生產(chǎn)應(yīng)用時(shí)指標(biāo)測量繁瑣,有效減少指標(biāo)數(shù)量的目的,同時(shí)也能最大限度保持模型的預(yù)測效果。Hwang等[33]通過DL、RF和SVM等機(jī)器學(xué)習(xí)方法構(gòu)建了孕婦妊娠期腹部皮膚皮下脂肪厚度的預(yù)測模型,在這三種算法中,常見的重要變量是月經(jīng)初潮年齡、孕前體重、孕前體重指數(shù)、胎齡大胎兒和飲酒量。Jeon等[34]也通過LR、SVM、RF和XGBoost等幾種機(jī)器學(xué)習(xí)算法探尋影響直腸癌患者腫瘤復(fù)發(fā)的因素,通過SVM、RF和XGBoost評估時(shí),發(fā)現(xiàn)重要性最高的變量是病理腫瘤分期,而通過LR評估時(shí),病理性腫瘤~淋巴結(jié)轉(zhuǎn)移分期的重要性最高。Marcos-Pasero等[35]使用RF和GBDT兩種機(jī)器學(xué)習(xí)方法,對190多個(gè)包括年齡、性別、遺傳多態(tài)性、生活方式等在內(nèi)的多領(lǐng)域變量進(jìn)行特征重要性排序,篩選出了與兒童肥胖最相關(guān)的變量。本研究發(fā)現(xiàn),將全部表型指標(biāo)分別納入四種模型時(shí),XGBoost模型的綜合性能要優(yōu)于其他三個(gè)模型,R2最高可達(dá)0.957,提示XGBoost模型可作為特征選擇方法。四種特征選擇模型在六個(gè)日齡之間的R2和MAE并沒有表現(xiàn)出明顯差異,而XGBoost模型篩選的136日齡表型指標(biāo)的特征變量在四種算法構(gòu)建的模型中具有普遍更高的準(zhǔn)確性和更少的運(yùn)算時(shí)間消耗,因此本研究最終選擇將XGBoost模型篩選的136日齡表型中重要性排序前五的指標(biāo)作為后續(xù)分類預(yù)測模型的特征變量輸入。鑒于在大規(guī)模育種和生產(chǎn)中對大群體開展過多表型指標(biāo)測定具有明顯的難度,以及人工測量存在不可避免的誤差,通過數(shù)據(jù)挖掘和特征選擇技術(shù),識(shí)別出對腹脂含量預(yù)測最為關(guān)鍵的體尺,有效減少了非必要體尺的測量,對于本研究在生產(chǎn)中的應(yīng)用奠定了重要基礎(chǔ)。盡管如此,現(xiàn)有模型依然需要使用至少五個(gè)體尺指標(biāo),在大群體選育中仍然存在明顯的局限性,后期有必要通過新的特征選擇技術(shù)和更廣泛的機(jī)器學(xué)習(xí)算法進(jìn)一步減少自變量,提高模型在不同條件下的泛化能力和魯棒性,增加模型的實(shí)用性和準(zhǔn)確性,以降低大規(guī)模生產(chǎn)中應(yīng)用的難度。同時(shí),將機(jī)器學(xué)習(xí)與圖像智能識(shí)別或其他表型精準(zhǔn)測定技術(shù)相結(jié)合,或者探究體脂含量新型表征技術(shù),將有望促進(jìn)優(yōu)質(zhì)雞腹脂含量活體測定技術(shù)在現(xiàn)代育種和生產(chǎn)中的落地和推廣。
不同的機(jī)器學(xué)習(xí)方法在計(jì)算上有著不同的理論基礎(chǔ),因此對相同事物的預(yù)測能力存在著明顯差異,這在多項(xiàng)不同領(lǐng)域的研究中均得到證實(shí)。如Li等[36]利用術(shù)前特征去預(yù)測頸動(dòng)脈內(nèi)膜切除術(shù)后的結(jié)果,通過對比XGBoost、RF、NB、SVM、ANN和LR等六個(gè)機(jī)器學(xué)習(xí)方法,發(fā)現(xiàn)術(shù)前階段表現(xiàn)最好的預(yù)測模型是XGBoost。Zhang等[37]使用中國中部地區(qū)331個(gè)水產(chǎn)養(yǎng)殖池塘的監(jiān)測數(shù)據(jù)預(yù)測水產(chǎn)養(yǎng)殖池塘藍(lán)藻豐度,通過對比LASSO和RE兩種機(jī)器學(xué)習(xí)模型發(fā)現(xiàn)LASSO的R2更高。基于每日飼喂數(shù)據(jù),Ollagnier等[38]評估了七種機(jī)器學(xué)習(xí)算法預(yù)測豬咬尾事件的發(fā)生,發(fā)現(xiàn)KNN模型的預(yù)測效果最好。Semakula等[39]在利用體重構(gòu)建綿羊體況評分的分類預(yù)測模型中也有體現(xiàn),他們發(fā)現(xiàn) XGBoost 模型比他們研究中的 RF、KNN、SVM等8種其他機(jī)器學(xué)習(xí)模型對體況評分的預(yù)測效果更好。Ruchay等[40]使用奶牛的體尺性狀預(yù)測其體重,在對比 ET、RF、KNN、GBDT 等多種機(jī)器學(xué)習(xí)方法時(shí),發(fā)現(xiàn) ET 的 R2最高。本研究基于體尺性狀對比不同機(jī)器學(xué)習(xí)方法對腹脂含量預(yù)測效果中的結(jié)果顯示,對腹脂含量進(jìn)行回歸預(yù)測時(shí),RF模型的綜合性能較DT、GBDT、XGBoost模型更勝一籌;對腹脂沉積水平進(jìn)行分類判別預(yù)測時(shí),Bagging模型的表現(xiàn)最好。因此,基于實(shí)際工作需求,應(yīng)對多種機(jī)器學(xué)習(xí)算法進(jìn)行系統(tǒng)性比較,以甄選最優(yōu)模型。
4 結(jié) 論
本研究基于體尺性狀和機(jī)器學(xué)習(xí)方法建立了成年優(yōu)質(zhì)母雞腹脂沉積量的活體回歸預(yù)測和分類預(yù)測模型?;貧w預(yù)測中,RF模型對腹脂沉積量預(yù)測的準(zhǔn)確性最高,R2為0.821~0.861、MAE為6.32~7.27;分類預(yù)測中,Bagging模型準(zhǔn)確性最高,其在二分類預(yù)測中準(zhǔn)確性ACC為94.54%~100%、三分類預(yù)測準(zhǔn)確性ACC為99.58%~100%。本研究為優(yōu)質(zhì)雞腹脂沉積的早期活體測定和選育提供了技術(shù)基礎(chǔ),并為腹脂含量預(yù)測模型構(gòu)建的相關(guān)技術(shù)探索提供參考。
參考文獻(xiàn)(References):
[1] 蔡 艷.畜牧業(yè)發(fā)展的制約因素及其宏觀調(diào)控問題[J].吉林畜牧獸醫(yī),2023,44(1):115-116.
CAI Y.Constraints to livestock development and its macro-control issues[J].Jilin Animal Husbandry and Veterinary Medicine,2023,44(1):115-116.(in Chinese)
[2] 廣東畜牧獸醫(yī)學(xué)會(huì).當(dāng)前黃羽肉雞產(chǎn)業(yè)發(fā)展痛點(diǎn)分析和應(yīng)對思考[J].家禽科學(xué),2022,(2):17-18.
Guangdong Assoication of Animal Husbandry and Veterinary Medicine.Analysis of the current pain points in the development of the yellow-feathered broiler industry and the response to thinking[J].Poultry Science,2022,(2):17-18.(in Chinese)
[3] 冷 麗,張 慧,王宇祥,等.低脂肉雞選育方法研究進(jìn)展[J].中國家禽,2019,41(12):1-4.
LENG L,ZHANG H,WANG Y X,et al.Research progress of lean broiler selection methods[J].China Poultry,2019, 41(12):1-4.(in Chinese)
[4] RUCHAY A,GRITSENKO S,ERMOLOVA E,et al.A comparative study of machine learning methods for predicting live weight of duroc,landrace,and yorkshire pigs[J].Animals (Basel),2022,12(9):1152.
[5] XU W,VAN KNEGSEL A T M,VERVOORT J J M,et al.Prediction of metabolic status of dairy cows in early lactation with on-farm cow data and machine learning algorithms[J].J Dairy Sci,2019,102(11):10186-10201.
[6] CHEN J T,HE P G,JIANG J S,et al.In vivo prediction of abdominal fat and breast muscle in broiler chicken using live body measurements based on machine learning[J].Poult Sci,2023,102(1):102239.
[7] CAMACHO-PREZ E,LUGO-QUINTAL J M,TIRINK C,et al.Predicting carcass tissue composition in blackbelly sheep using ultrasound measurements and machine learning methods[J].Trop Anim Health Prod,2023,55(5):300.
[8] HE Y P,TIEZZI F,HOWARD J,et al.Predicting body weight in growing pigs from feeding behavior data using machine learning algorithms[J].Comput Electron Agric,2021,184:106085.
[9] TSAI I J,SHEN W C,LEE C L,et al.Machine learning in prediction of bladder cancer on clinical laboratory data[J]. Diagnostics (Basel),2022,12(1):203.
[10] 巴桑旺堆,平措占堆,朱彥賓,等.線性模型與機(jī)器學(xué)習(xí)模型對牦牛體重預(yù)測的比較[J].現(xiàn)代農(nóng)業(yè)科技,2019(23):205-206,208.
BASANG W D,PUNTSO Z D,ZHU Y B,et al.Comparison of accuracy of linear model and machine learning model in predication of yak body weight[J].Modern Agricultural Science and Technology,2019(23):205-206,208.(in Chinese)
[11] LOH W Y.Fifty years of classification and regression trees[J].Int Stat Rev,2014,82(3):329-348.
[12] LOUPPE G.Understanding random forests:from theory to practice[J].arXiv:1407.7502,2014.
[13] FRIEDMAN J H.Greedy function approximation:a gradient boosting machine[J].Ann Statist,2001,29(5):1189-1232.
[14] CHEN T Q,GUESTRIN C.XGBoost:a scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.San Francisco:ACM,2016:785-794.
[15] YU X G,YU X P.The research on an adaptive K-nearest neighbors classifier[C]//Proceedings of the 2006 International Conference on Machine Learning and Cybernetics.Dalian:IEEE,2006:1241-1246.
[16] ZHANG H.The optimality of naive Bayes[C]//Proceedings of the 17th International Florida Artificial Intelligence Research Society Conference.Miami Beach:AAAI,2004:562-567.
[17] WINTERS-HILT S,MERAT S.SVM clustering[J].BMC Bioinformatics,2007,8 Suppl 7(Suppl 7):S18.
[18] BREIMAN L.Bagging predictors[J].Mach Learn,1996,24(2):123-140.
[19] RAMAKRISHNAN S.Fundamentals of machine learning for predictive data analytics:algorithms,worked examples,and case studies[J].Comput Rev,2016,57(6):346-346.
[20] 徐振強(qiáng),彭志軍,季從亮,等.優(yōu)質(zhì)型黃羽肉雞腹脂的遺傳選擇[J].中國畜牧雜志,2019,55(2):62-65.
XU Z Q,PENG Z J,JI C L,et al.Genetic selection for abdominal fat in quality-type yellow-feathered broilers[J].Chinese Journal of Animal Science,2019,55(2):62-65.(in Chinese)
[21] LIN W J,REN T H,LI W Y,et al.Novel 61-bp indel of RIN2 is associated with fat and hatching weight traits in chickens[J]. Front Genet,2021,12:672888.
[22] ZHANG H L,XU Z Q,YANG L L,et al.Genetic parameters for the prediction of abdominal fat traits using blood biochemical indicators in broilers[J].Br Poult Sci,2018,59(1):28-33.
[23] 張 蕊,湯青萍,穆春宇,等.超聲波法測量肉鴿胸肌厚度及鴿屠宰、體重、體尺性狀間的相關(guān)分析[J].黑龍江畜牧獸醫(yī), 2019,(22):151-153.
ZHANG R,TANG Q P,MU C Y,et al.Measurement of pectoral muscle thickness in meat pigeons by ultrasonic method and correlation analysis between pigeon slaughter,body weight and body size traits[J].Heilongjiang Animal Science and Veterinary Medicine,2019,(22):151-153.(in Chinese)
[24] TRAKULPANITKIT A,TUNTHANATHIP T.Comparison of intracranial pressure prediction in hydrocephalus patients among linear,non-linear,and machine learning regression models in Thailand[J].Acute Crit Care,2023,38(3):362-370.
[25] TZOU S J,PENG C H,HUANG L Y,et al.Comparison between linear regression and four different machine learning methods in selecting risk factors for osteoporosis in a Chinese female aged cohort[J].J Chin Med Assoc,2023,86(11): 1028-1036.
[26] ALKUTBE R B,ALRUBAN A,ALTURKI H,et al.Fat mass prediction equations and reference ranges for Saudi Arabian children aged 8-12 years using machine technique method[J].PeerJ,2021,9:e10734.
[27] HUSSAIN S A,CAVUS N,SEKEROGLU B.Hybrid machine learning model for body fat percentage prediction based on support vector regression and emotional artificial neural networks[J].Appl Sci,2021,11(21):9797.
[28] HORVAT T,HAVA L,SRPAK D.The impact of selecting a validation method in machine learning on predicting basketball game outcomes[J].Symmetry,2020,12(3):431.
[29] CHEN R Y,ZHAO Y L,YANG Y L,et al.Online estimating weight of white Pekin duck carcass by computer vision[J].Poult Sci,2023,102(2):102348.
[30] ASHRI S E A,EL-GAYAR M M,EL-DAYDAMONY E M.HDPF:Heart disease prediction framework based on hybrid classifiers and genetic algorithm[J].IEEE Access,2021,9:146797-146809.
[31] ESSAM Y,HUANG Y F,BIRIMA A H,et al.Predicting suspended sediment load in peninsular Malaysia using support vector machine and deep learning algorithms[J].Sci Rep,2022,12(1):302.
[32] LIU X Q,WU Q L,PAN W T.Sentiment classification of micro-blog comments based on randomforest algorithm[J]. Concurr Comput Pract Exp,2019,31(10):e4746.
[33] HWANG M S,SONG E,AHN J,et al.Machine learning-based prediction of abdominal subcutaneous fat thickness during pregnancy[J].Metab Syndr Relat Disord,2023,21(9):479-488.
[34] JEON Y,KIM Y J,JEON J,et al.Machine learning based prediction of recurrence after curative resection for rectal cancer[J].PLoS One,2023,18(12):e0290141.
[35] MARCOS-PASERO H,COLMENAREJO G,AGUILAR-AGUILAR E,et al.Ranking of a wide multidomain set of predictor variables of children obesity by machine learning variable importance techniques[J].Sci Rep,2021,11(1):1910.
[36] LI B,BEATON D,EISENBERG N,et al.Using machine learning to predict outcomes following carotid endarterectomy[J].J Vasc Surg,2023,78(4):973-987.e6.
[37] ZHANG M,ZHANG Y G,YU S Y,et al.Two machine learning approaches for predicting cyanobacteria abundance in aquaculture ponds[J].Ecotoxicol Environ Saf,2023,258:114944.
[38] OLLAGNIER C,KASPER C,WALLENBECK A,et al.Machine learning algorithms can predict tail biting outbreaks in pigs using feeding behaviour records[J].PLoS One,2023,18(1):e0252002.
[39] SEMAKULA J,CORNER-THOMAS R A,MORRIS S T,et al.Application of machine learning algorithms to predict body condition score from liveweight records of mature Romney ewes[J].Agriculture,2021,11(2):162.
[40] RUCHAY A,KOBER V,DOROFEEV K,et al.Comparative analysis of machine learning algorithms for predicting live weight of Hereford cows[J].Comput Electron Agric,2022,195:106837.
(編輯 郭云雁)