任行達(dá),梁 璐,李喜陽,王中齊,楊鈺青,劉向東,2*
(1.農(nóng)業(yè)農(nóng)村部豬遺傳育種重點(diǎn)實(shí)驗(yàn)室,華中農(nóng)業(yè)大學(xué)動(dòng)物科學(xué)技術(shù)學(xué)院,湖北武漢 430070;2.農(nóng)業(yè)農(nóng)村部生豬健康養(yǎng)殖重點(diǎn)實(shí)驗(yàn)室,廣西揚(yáng)翔股份有限公司,廣西貴港 537100)
斷奶仔豬數(shù)(Number of Weaned Piglets)是母豬重要的繁殖性狀之一,其直接決定豬場的生產(chǎn)力水平和經(jīng)濟(jì)效益,受遺傳、營養(yǎng)、疾病和環(huán)境等諸多因素影響。劉彬等研究發(fā)現(xiàn)母豬的繁殖性能受胎次、不同的雜交方式、季節(jié)等因素影響。孫亞楠等研究發(fā)現(xiàn)諸如胎次、年齡、品種、飼養(yǎng)管理、營養(yǎng)等均會影響母豬的繁殖性能,且其之間也會有一定程度的相互影響。由此可見,影響斷奶仔豬數(shù)的因素繁多且作用復(fù)雜,傳統(tǒng)的建模方法如線性回歸很難捕捉眾多影響因素之間復(fù)雜的非線性關(guān)系,這也是很多研究的局限所在。然而,隨著大數(shù)據(jù)時(shí)代的到來,機(jī)器學(xué)習(xí)算法為解決此類問題帶來了希望。
機(jī)器學(xué)習(xí)由數(shù)據(jù)驅(qū)動(dòng),可從歷史數(shù)據(jù)中訓(xùn)練模型進(jìn)而對未來數(shù)據(jù)進(jìn)行預(yù)測。機(jī)器學(xué)習(xí)是人工智能的核心,其在農(nóng)牧領(lǐng)域已有諸多的應(yīng)用嘗試。Gorczyca等利用隨機(jī)森林等4種機(jī)器學(xué)習(xí)方法對豬直腸、表皮和皮毛外部溫度進(jìn)行了預(yù)測,并取得了較好的預(yù)測效果。Messad等利用肌肉轉(zhuǎn)錄組數(shù)據(jù),通過梯度增強(qiáng)機(jī)器方法,鑒定出了幾個(gè)可作為豬飼料效率預(yù)測因子的基因。Mollenhorst等根據(jù)農(nóng)場生產(chǎn)管理數(shù)據(jù)如個(gè)體活重、產(chǎn)仔數(shù)等,在屠宰前的3個(gè)月使用梯度增強(qiáng)樹算法對豬肺炎、生長速度和肉類百分比進(jìn)行預(yù)測,為建立育肥豬預(yù)警系統(tǒng)打下了良好基礎(chǔ)。因此,本研究基于收集到的豬場生產(chǎn)數(shù)據(jù),利用邏輯回歸等5種機(jī)器學(xué)習(xí)算法對斷奶仔豬數(shù)進(jìn)行早期預(yù)測,以期為確定母豬選留和調(diào)整哺乳期管理策略提供一定參考依據(jù)。
1.1 數(shù)據(jù)的收集與整理 本研究收集了廣西某規(guī)模化母豬場共13 285頭母豬的生產(chǎn)數(shù)據(jù),包含母豬的配種季節(jié)、分娩季節(jié)、斷奶季節(jié)、斷配間隔、胎次、妊娠天數(shù)、胎間距、分娩窩重、哺乳天數(shù)和斷奶仔豬數(shù)信息,使用Excel 2016軟件刪除異常值后剩余10 623頭母豬數(shù)據(jù)。斷奶仔豬數(shù)為要預(yù)測的目標(biāo)變量,其余變量作為構(gòu)建模型的待選特征。
1.2 描述統(tǒng)計(jì) 使用SPSS 26.0軟件對目標(biāo)變量及非季節(jié)特征進(jìn)行描述統(tǒng)計(jì),檢查數(shù)據(jù)集是否存在缺失值,計(jì)算四分位數(shù)、均值和標(biāo)準(zhǔn)差(表1)。
表1 目標(biāo)變量及非季節(jié)特征描述統(tǒng)計(jì)
1.3 制定分類標(biāo)準(zhǔn) 以上四分位數(shù)為閾值,將斷奶仔豬數(shù)大于或等于14頭的定義為高產(chǎn)母豬,小于14頭的定義為非高產(chǎn)母豬。
1.4 特征選擇 使用R 4.0.3軟件中的ggpubr包進(jìn)行Wilcoxon秩和檢驗(yàn)篩選高低產(chǎn)母豬之間差異顯著的非季節(jié)特征,然后使用R 4.0.3軟件中的Boruta包篩選預(yù)測斷奶仔豬數(shù)的重要特征。<0.05表示差異顯著。
1.5 機(jī)器學(xué)習(xí)算法簡介 邏輯回歸(Logistic Regression,LOG):邏輯回歸是研究離散型因變量與自變量之間關(guān)系的有監(jiān)督機(jī)器學(xué)習(xí)方法,通常應(yīng)用于二分類問題,屬于廣義線性回歸,其優(yōu)點(diǎn)是運(yùn)算速度快,模型可解釋性好;缺點(diǎn)是對多重共線性較為敏感,難以處理數(shù)據(jù)的不平衡問題。本研究使用R軟件的Glm函數(shù)構(gòu)建LOG模型。
支持向量機(jī)(Support Vector Machines,SVM):支持向量機(jī)是應(yīng)用于分類和回歸問題的有監(jiān)督機(jī)器學(xué)習(xí)算法,其核心是利用核函數(shù)尋找一個(gè)能實(shí)現(xiàn)最大分類間隔的最優(yōu)超平面,進(jìn)而求得最優(yōu)解,其優(yōu)點(diǎn)是擅長處理非線性問題,缺點(diǎn)是必須對輸入數(shù)據(jù)進(jìn)行完全標(biāo)記以及解出的模型參數(shù)難以理解。本研究使用R軟件的e1071包構(gòu)建SVM模型。
決策樹(Decision Tree,DT):致力于從無規(guī)則的事物中推理出劃分屬性,以自上而下的方式生成若干葉節(jié)點(diǎn)直至到達(dá)終末節(jié)點(diǎn),可用于分類和回歸問題。其優(yōu)點(diǎn)在于原理規(guī)則較易理解以及結(jié)果呈現(xiàn)更為直觀,缺點(diǎn)是不能很好的處理非結(jié)構(gòu)化數(shù)據(jù)。本研究使用R軟件的tree包構(gòu)建DT模型。
隨機(jī)森林(Random Forest,RF):隨機(jī)森林是包含多棵相互獨(dú)立的決策樹的集合算法,根據(jù)生成的所有決策樹的眾數(shù)來劃分樣本歸屬,其優(yōu)點(diǎn)在于對數(shù)據(jù)集中的噪聲和異常值有較大容忍度,可以判斷出特征的重要程度;缺點(diǎn)在于計(jì)算耗時(shí),對于噪聲較大的數(shù)據(jù)容易過擬合。本研究使用R軟件的Random Forest包構(gòu)建RF模型。
K-近鄰(K-Nearest Neighbour,KNN):K-近鄰是一種基于統(tǒng)計(jì)的可用于分類和回歸問題的算法,其原理可簡單理解為依據(jù)距離樣本最近的k個(gè)其他樣本來計(jì)算樣本歸屬,其優(yōu)點(diǎn)在于易于實(shí)現(xiàn),無需對參數(shù)進(jìn)行估計(jì),缺點(diǎn)是容易導(dǎo)致維數(shù)災(zāi)難。本研究使用R軟件的kknn包構(gòu)建KNN模型。
1.6 模型評價(jià)方法 對根據(jù)分類標(biāo)準(zhǔn)處理后的數(shù)據(jù)集進(jìn)行隨機(jī)拆分,其中70%的數(shù)據(jù)作為訓(xùn)練集來訓(xùn)練模型,30%的數(shù)據(jù)作為驗(yàn)證集來驗(yàn)證模型的性能。采用ROC(Receiver Operating Characteristic)曲線下面積(Area Under Curve,AUC值)評價(jià)模型優(yōu)劣。
2.1 特征選擇 使用Wilcox秩和檢驗(yàn)分析高低產(chǎn)母豬非季節(jié)特征之間的差異(表2)。結(jié)果顯示,在高低產(chǎn)母豬群體之間,其斷配間隔差異顯著(<0.05),胎次、妊娠天數(shù)、胎間距、分娩窩重差異極顯著(<0.01),哺乳天數(shù)差異不顯著(>0.05)。
表2 高低產(chǎn)母豬非季節(jié)特征差異分析
然后使用R 4.0.3軟件中的Boruta包從季節(jié)特征和差異顯著的非季節(jié)特征中篩選預(yù)測斷奶仔豬數(shù)的重要特征。結(jié)果顯示待選的8個(gè)特征都是重要特征,其中分娩窩重特征重要性要遠(yuǎn)遠(yuǎn)大于其他特征(圖1)。
圖1 特征篩選箱線圖
2.2 模型評估 根據(jù)篩選到的重要特征,使用RF、SVM、LOG、DT、KNN 5種機(jī)器學(xué)習(xí)算法對斷奶仔豬數(shù)進(jìn)行分類預(yù)測,預(yù)測結(jié)果(AUC值)如圖2所示。結(jié)果顯示,5種機(jī)器學(xué)習(xí)預(yù)測準(zhǔn)確性(AUC值)在0.846~0.912之間,其中RF、LOG和SVM預(yù)測模型的AUC值均在0.9以上,LOG和RF預(yù)測效果較好(AUC值為0.912和0.910),SVM和DT預(yù)測效果次之(AUC值為0.903和0.876),KNN預(yù)測效果最差(AUC值為0.846),表明機(jī)器學(xué)習(xí)尤其是LOG、RF和SVM對于預(yù)測母豬斷奶仔豬數(shù)有一定的實(shí)用性和準(zhǔn)確性。
圖2 5種模型的ROC曲線圖
2.3 非季節(jié)特征變量相關(guān)分析 為了進(jìn)一步探究特征變量的相互關(guān)系,使用R4.0.3軟件中的psych包分析數(shù)據(jù)集中非季節(jié)變量之間spearman相關(guān)性(圖3)。結(jié)果顯示,分娩窩重與斷奶仔豬數(shù)之間存在較強(qiáng)的正相關(guān)(=0.6),胎間距與斷奶仔豬數(shù)之間存在微弱的正相關(guān)(=0.06),胎次和妊娠天數(shù)與斷奶仔豬數(shù)之間存在微弱負(fù)相關(guān)(=-0.06),而斷配間隔和哺乳天數(shù)與斷奶仔豬數(shù)之間不存在相關(guān)性(=0)。此外,斷配間隔與胎間距、胎次與妊娠天數(shù)、胎間距與妊娠天數(shù)之間都存在一定程度的正相關(guān)(>0.1)。
圖3 非季節(jié)變量相關(guān)性熱圖
本研究在特征篩選之前對非季節(jié)特征進(jìn)行了Wilcox秩和檢驗(yàn),以最大程度發(fā)現(xiàn)重要特征和防止特征冗余,如Oh等在利用微生物組和代謝組數(shù)據(jù)預(yù)測非酒精性脂肪肝硬化時(shí),在特征篩選之前,先使用Wilcox秩和檢驗(yàn)篩選患者與對照組之間差異顯著的微生物和代謝物,防止了冗余特征的出現(xiàn),提高了模型預(yù)測性能,這與本研究結(jié)果相一致。
Boruta(https://cran.r-project.org/web/packages/Boruta/)是基于隨機(jī)森林分類器構(gòu)建的一種特征選擇算法。該算法將特征的相關(guān)性與隨機(jī)森林的相關(guān)性進(jìn)行比較,可以捕獲與結(jié)果變量有關(guān)的所有特征,已被廣泛應(yīng)用于篩選各類重要特征。本研究利用Boruta篩選影響斷奶仔豬數(shù)的重要特征有配種季節(jié)、分娩季節(jié)、斷奶季節(jié)、胎次、胎間距、妊娠天數(shù)、斷配間隔和分娩窩重,而前人利用傳統(tǒng)的分析方法,如單因素方差分析、多因素方差分析等,發(fā)現(xiàn)胎次、斷配間隔、分娩窩重、配種季節(jié)、分娩季節(jié)、斷奶季節(jié)等多種因素都會對母豬斷奶仔豬數(shù)產(chǎn)生一定影響,與本研究結(jié)果相一致。眾多研究表明,胎次對母豬的產(chǎn)仔數(shù)有顯著影響,初胎母豬由于子宮等發(fā)育尚未完全成熟,產(chǎn)仔數(shù)較低,3~6胎母豬逐漸到達(dá)產(chǎn)仔高峰,6胎以后由于母豬年齡過大,各方面機(jī)能下降,產(chǎn)仔數(shù)逐漸降低。Iida等研究發(fā)現(xiàn)斷配間隔在0~6 d的母豬的產(chǎn)仔數(shù)要顯著高于7~12 d的,而斷配間隔往往與母豬在妊娠期和哺乳期的營養(yǎng)狀況有關(guān),合理的營養(yǎng)模式可使母豬在產(chǎn)后加快子宮損傷修復(fù)、斷奶后保持良好的體況,進(jìn)而縮短斷配間隔,發(fā)揮其產(chǎn)仔性能,最終提高斷奶仔豬數(shù)。母豬在不同季節(jié)其卵泡發(fā)育和排卵時(shí)間不同,實(shí)質(zhì)上是由于溫濕度不同導(dǎo)致的,如夏季溫濕度過高會損傷卵泡發(fā)育、降低受孕率以及增加胚胎死亡率,導(dǎo)致總產(chǎn)仔數(shù)降低,進(jìn)而降低斷奶仔豬數(shù)。
此外,本研究基于篩選的重要特征利用LOG等5種機(jī)器學(xué)習(xí)算法擬合的模型的AUC值均在0.84以上,進(jìn)一步驗(yàn)證了所選特征的正確性。在特征選擇中發(fā)現(xiàn)分娩窩重的重要性要遠(yuǎn)遠(yuǎn)大于其他特征,或許是因?yàn)榉置涓C重與斷奶仔豬數(shù)之間的相關(guān)度遠(yuǎn)大于其他特征與斷奶仔豬數(shù)的相關(guān)度。
本研究基于收集到的生產(chǎn)數(shù)據(jù),使用了LOG、RF等5種機(jī)器學(xué)習(xí)算法預(yù)測斷奶仔豬數(shù),模型的AUC值在0.846~0.912之間,其中,LOG、RF和SVM的AUC值均在0.9以上,與之相比,Piles等人使用RF等機(jī)器學(xué)習(xí)算法從轉(zhuǎn)錄組數(shù)據(jù)中識別與豬飼料效率相關(guān)的基因時(shí)其模型AUC值均低于0.85,Mollenhorst等利用機(jī)器學(xué)習(xí)預(yù)測豬胴體性狀時(shí)其模型AUC值只有0.58~0.83,表明機(jī)器學(xué)習(xí)在預(yù)測斷奶仔豬數(shù)等繁殖性能方面擁有巨大潛力。然而本研究仍具有一定局限性,首先是特征數(shù)量仍不夠豐富,沒有納入采食量、溫濕度、品種等可能影響斷奶仔豬數(shù)的因素;其次,本研究群體規(guī)模有限,所得模型是否具有很好的泛化能力和普遍適用性尚有待驗(yàn)證。下一步應(yīng)嘗試擴(kuò)大群體規(guī)模,增加特征變量,進(jìn)一步提高模型預(yù)測性能和泛化能力。
母豬的斷奶仔豬數(shù)高低直接影響豬場的生產(chǎn)水平和經(jīng)濟(jì)效益,分娩前后的早期預(yù)測對管理者決定母豬的淘汰選留以及調(diào)整哺乳期管理策略具有重要的現(xiàn)實(shí)意義。本研究根據(jù)分娩窩重等生產(chǎn)數(shù)據(jù),利用LOG等機(jī)器學(xué)習(xí)算法預(yù)測斷奶仔豬數(shù),取得了較好的預(yù)測性能,這意味著豬場管理者或可在母豬哺乳前期依據(jù)預(yù)測結(jié)果提前制定淘汰計(jì)劃以最大程度節(jié)約成本和提高生產(chǎn)效率。