巴桑旺堆 平措占堆 朱彥賓
摘要 ? ?本研究測定革吉那布地區(qū)102頭2歲齡的牦牛相關(guān)體尺性狀(體高、體長和胸圍)與體重,按不同比例劃分訓(xùn)練集和測試集,利用傳統(tǒng)的一般線性模型方法和機(jī)器學(xué)習(xí)方法(高斯過程回歸、支持向量機(jī))分別構(gòu)建體尺性狀與體重之間的回歸預(yù)測模型,比較線性回歸模型與機(jī)器學(xué)習(xí)模型在利用體尺性狀預(yù)測體重時(shí)的準(zhǔn)確性。結(jié)果表明,隨著訓(xùn)練集數(shù)據(jù)的增加,線性回歸模型的預(yù)測結(jié)果較穩(wěn)定在0.71~0.80之間,而機(jī)器學(xué)習(xí)方法的預(yù)測準(zhǔn)確性最高可達(dá)0.91。在訓(xùn)練集數(shù)據(jù)充足的情況下,相比于一般線性模型的方法,利用機(jī)器學(xué)習(xí)方法進(jìn)行預(yù)測具有更高的準(zhǔn)確性。
關(guān)鍵詞 ? ?牦牛;機(jī)器學(xué)習(xí);線性模型;體重;體尺性狀
中圖分類號 ? ?S823.8+5 ? ? ? ? 文獻(xiàn)標(biāo)識碼 ? ?A
文章編號 ? 1007-5739(2019)23-0205-02 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID)
Abstract ? ?In this study,the body size traits (body height,body length and chest circumference)and body weight of 102 2-year old yaks in Ginnabu area were measured,and the training set and test set were divided according to different proportions,using traditional general linear model methods and machines learning methods(Gaussian process regression,support vector machine)constructed a regression prediction model between body size traits and body weight to compare the accuracy of linear regression models with machine learning models in predicting body weight using body size traits.The results showed that with the increase of training set data,the prediction results of the linear regression model were stable between 0.71 and 0.80,while the prediction accuracy of the machine learning method was up to 0.91.Under the condition of sufficient training set data,machine learning method has higher accuracy than general linear model method.
Key words ? ?yak;machine learning;linear model;body weight;body size trait
體重和體尺性狀是牦牛遺傳育種過程中的重要選育指標(biāo)。體重是決定牦牛產(chǎn)肉性能的主要指標(biāo),體尺性狀可反映牦牛的體軀結(jié)構(gòu)、生產(chǎn)性能、發(fā)育、飼養(yǎng)管理等狀況,是衡量選育效果的重要指標(biāo)。由于牦牛體型較大且存在一定野性,導(dǎo)致直接測定體重較為困難,而體尺性狀的測定相對簡潔準(zhǔn)確。有研究發(fā)現(xiàn),在牦牛的發(fā)育過程中,體尺性狀與體重之間具有十分緊密的相關(guān)性。
窮 達(dá)等[1]研究發(fā)現(xiàn),嘉黎成年母牦牛體重與體長、體高、胸圍、管圍的相關(guān)系數(shù)分別為0.828、0.887、0.807、0.712,且其相關(guān)系數(shù)達(dá)到了極顯著水平(P<0.01),最終得到了3個(gè)估測體重的回歸模型,以用于實(shí)際評估。窮 達(dá)等[2]測定了32組那曲成年母牦牛的體尺和體重?cái)?shù)據(jù),利用Linear過程進(jìn)行相關(guān)分析并建立了最優(yōu)回歸模型。
羅海青等[3]測定了110頭6~10月齡大通牦牛母牛的體重和體尺數(shù)據(jù),利用Pearson和Linear方法分析了體高、體斜長和胸圍3個(gè)指標(biāo)與體重的相關(guān)系數(shù)分別為0.702、0.879、0.977,且經(jīng)矯正后均達(dá)極顯著水平,建立了最優(yōu)回歸方程。
文勇立等[4]采用多元回歸和通徑分析方法分析了67頭麥洼牦公牛和88頭牦母牛的體型性狀對體重的影響,結(jié)果發(fā)現(xiàn),影響牦公牛和牦母牛體重的最主要相關(guān)性狀分別為胸圍和體長,其次為胸寬、體高和管圍等。裴 杰等[5-6]隨機(jī)選取了88頭6~12月齡的大通公牛和247頭8~10月齡的無角牦牛,利用Excel和SPSS軟件構(gòu)建了體尺與體重性狀的多元線性回歸與通徑分析模型,結(jié)果發(fā)現(xiàn),胸圍對牦牛體重的直接影響最大。
文勇立等[7]利用主成分和因子分析方法分析了276頭九龍牦牛的9個(gè)體型線性性狀,結(jié)果發(fā)現(xiàn),牦公牛3個(gè)因子表達(dá)式分值、牦母牛5個(gè)因子表達(dá)式分值的累積方差貢獻(xiàn)率分別高達(dá)86.407%和81.931%,因而此因子表達(dá)式分值可用于牦牛體型的評估。文勇立等[8]利用上述同樣的方法,分析了170頭麥洼牦牛的8個(gè)體型性狀,提取到了累積方差貢獻(xiàn)率達(dá)89.601%的3個(gè)因子,命名了整體結(jié)構(gòu)因子,主要解釋了麥洼牦母牛體形的整體結(jié)構(gòu)信息,具有較高的經(jīng)濟(jì)和選育價(jià)值。孫國強(qiáng)等[9]利用373頭1歲齡牦牛和608頭2歲齡牦牛的體重、體尺指標(biāo)數(shù)據(jù)進(jìn)行研究,結(jié)果表明,對不同年齡的牦牛群體體重影響最大的體型性狀不同,在1歲齡和2歲齡牦牛群體中,管圍和體斜長對體重影響最大,并建立體重與體尺各指標(biāo)的多元線性回歸方程,為牦牛的實(shí)際生產(chǎn)和科研提供了參考。
目前,利用機(jī)器學(xué)習(xí)模型方法分析牦牛體尺指標(biāo)和體重之間相關(guān)性的報(bào)道較少。本研究利用機(jī)器學(xué)習(xí)方法中的高斯回歸和支持向量機(jī)方法預(yù)測體重,并與傳統(tǒng)的線性回歸方法進(jìn)行結(jié)果比較,以期為機(jī)器學(xué)習(xí)方法用于利用體尺指標(biāo)預(yù)測體重的工作提供參考。
1 ? ?材料與方法
1.1 ? ?試驗(yàn)材料
供試牦牛為西藏革吉那布地區(qū)的2歲齡牦牛。
1.2 ? ?測定內(nèi)容與方法
于2018年9—12月對供試的102頭2歲齡牦牛進(jìn)行空腹測定體尺性狀并稱重。測定指標(biāo)為體長、體高、胸圍和體重。體高即從鬐甲最高點(diǎn)至地面的垂直距離;體長即由肩端至坐骨結(jié)節(jié)后端的直線距離;胸圍即由肩胛骨后緣垂直體軸繞胸1周的周長。
1.3 ? ?數(shù)據(jù)分析
利用R語言軟件的kernlab包中的高斯過程回歸與支持向量機(jī)(SVM)進(jìn)行建模,并將預(yù)測結(jié)果與一般線性回歸模型進(jìn)行對比[10]。將102頭牦牛體尺、體重的測定數(shù)據(jù)隨機(jī)分為訓(xùn)練集與預(yù)測集,并以10%為遞增,從總數(shù)據(jù)集分別選20%、30%~90%數(shù)量的數(shù)據(jù)作為訓(xùn)練集,預(yù)測集為總數(shù)據(jù)集除去訓(xùn)練集的剩余部分。以訓(xùn)練集作為機(jī)器學(xué)習(xí)訓(xùn)練部分,分別用一般線性模型、高斯過程回歸與支持向量機(jī)3種方法得到相應(yīng)體尺與體重的模型,然后將模型運(yùn)用到預(yù)測集中得到體重預(yù)測值,最后計(jì)算牦牛體重的預(yù)測值與真實(shí)值之間的相關(guān)系數(shù)。針對不同百分比的訓(xùn)練集,分別構(gòu)建3種模型且每種模型構(gòu)建均重復(fù)5次,將體重的真實(shí)值與預(yù)測值之間相關(guān)系數(shù)的均值作為預(yù)測準(zhǔn)確性的結(jié)果。每個(gè)比例均重復(fù)5次,相關(guān)系數(shù)均值作為當(dāng)前比例下的模型準(zhǔn)確性結(jié)果。
主要模型包括一般線性模型、高斯過程回歸模型和支持向量機(jī)模型。其中,一般線性模型或多元回歸模型是一個(gè)統(tǒng)計(jì)線性模型。一般線性模型中假設(shè)誤差呈多元正態(tài)分布,且在測量之間不相關(guān)。當(dāng)誤差不符合多元正態(tài)分布時(shí),可以放寬假設(shè)來使用廣義線性模型。高斯過程回歸在統(tǒng)計(jì)學(xué)中是一種內(nèi)插方法,其內(nèi)插值由先前協(xié)方差控制的高斯過程建模確定。當(dāng)存在適當(dāng)?shù)南闰?yàn)假設(shè)時(shí),高斯過程回歸能給出中間值的最佳線性無偏預(yù)測。該方法被廣泛應(yīng)用于域空間分析和計(jì)算機(jī)實(shí)驗(yàn)。支持向量機(jī)(SVM)也叫支持向量網(wǎng)絡(luò),其是具有相關(guān)學(xué)習(xí)算法的監(jiān)督學(xué)習(xí)模型,是一種新型的機(jī)器學(xué)習(xí)方法,支持向量機(jī)采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則。分析用于分類和回歸分析的數(shù)據(jù)。
2 ? ?結(jié)果與分析
由表1可知,體重性狀的變異系數(shù)達(dá)13.28%,相對體尺指標(biāo)較大。說明2歲齡革吉那布牦牛個(gè)體體重差異較大,這也說明了體重指標(biāo)具有較高的選育意義。
由表2可知,一般線性回歸模型和機(jī)器學(xué)習(xí)模型方法得到的真實(shí)值與預(yù)測值之間具有一定的相關(guān)性。一般線性回歸相關(guān)性穩(wěn)定在0.71~0.80之間,波動(dòng)較小,而利用機(jī)器學(xué)習(xí)的2種方法進(jìn)行建模預(yù)測的結(jié)果隨著訓(xùn)練集數(shù)據(jù)的增加而逐漸增加。當(dāng)訓(xùn)練集占比小于50%時(shí),線性模型明顯優(yōu)于機(jī)器學(xué)習(xí),但是隨著占比的增加,機(jī)器學(xué)習(xí)方法預(yù)測的相關(guān)性也在明顯提高;當(dāng)訓(xùn)練集占比在50%~60%范圍時(shí),機(jī)器學(xué)習(xí)與線性回歸效果接近;當(dāng)訓(xùn)練集占比大于60%時(shí),機(jī)器學(xué)習(xí)方法的預(yù)測準(zhǔn)確性逐漸優(yōu)于一般線性模型。
3 ? ?結(jié)論與討論
近年來,一些畜禽養(yǎng)殖業(yè)為了獲取更高的利益和提高生產(chǎn)效率而犧牲動(dòng)物福利[11],研究者越來越多地關(guān)注由此帶來的負(fù)面影響。如果將人工智能和機(jī)器視覺的科技技術(shù)結(jié)合到實(shí)際生產(chǎn)中,能夠降低月齡較小的牦牛應(yīng)激水平,這會在提高生產(chǎn)性能、繁殖性能和改善動(dòng)物福利等方面發(fā)揮重要作用。2歲齡的牦牛體型較大、野性較強(qiáng),如果能基于機(jī)器視覺的方法測定體尺指標(biāo),能夠減少直接接觸,降低危險(xiǎn)性。劉衛(wèi)民等[12]結(jié)合攝像機(jī)標(biāo)定、輪廓提取、SIFT特征點(diǎn)匹配等圖像處理技術(shù)將機(jī)器視覺應(yīng)用于奶牛體尺測量,實(shí)現(xiàn)了奶牛體尺的視覺測量。江 杰等[13]利用機(jī)器視覺方法提供了一種新的測量羊的體尺指標(biāo)的途徑,實(shí)現(xiàn)了無接觸式測量體尺指標(biāo),減少了應(yīng)激反應(yīng)和對羊體造成的傷害。張婧婧等[14]首先利用 Matlab得到馬體輪廓,然后在2D圖像上精確定位馬體坐標(biāo),最后利用Matlab GUI工具初步完成系統(tǒng)的仿真測試,并據(jù)此提出了基于線性回歸理論和機(jī)器視覺技術(shù)的馬體尺測量方法,具有測量依據(jù)和借鑒意義。Brandl等[15]與Kyungkoo等[16]利用機(jī)器視覺的方法對豬的體尺指標(biāo)進(jìn)行估計(jì),取得了較好的結(jié)果。Kyungkoo等[16]研究結(jié)果顯示,該機(jī)器視覺方法的決定系數(shù)可達(dá)到0.79。
本研究中傳統(tǒng)的線性模型預(yù)測結(jié)果比較穩(wěn)定且具有一定準(zhǔn)確性,說明了利用牦牛的體尺指標(biāo)進(jìn)行體重預(yù)測具有可行性。機(jī)器學(xué)習(xí)方法在小數(shù)據(jù)量上準(zhǔn)確度相對較低,但是隨著測試數(shù)據(jù)量的增多準(zhǔn)確度會顯著提高。本研究中當(dāng)測試數(shù)據(jù)達(dá)到90%左右時(shí),機(jī)器學(xué)習(xí)模型的結(jié)果明顯優(yōu)于線性模型,在提高體尺性狀預(yù)測體重的準(zhǔn)確性方面具有積極意義??梢灶A(yù)期隨著大規(guī)模養(yǎng)殖以及將來人工智能自動(dòng)采集數(shù)據(jù)技術(shù)的普及,隨著數(shù)據(jù)量的提升,機(jī)器學(xué)習(xí)方法預(yù)測的體重將更準(zhǔn)確。本研究使用的機(jī)器學(xué)習(xí)的模型可為未來開發(fā)新回歸模型提供一定的參考,在大規(guī)模養(yǎng)殖、科學(xué)育種等方面起到一定的協(xié)助和參考作用。
本研究尚存在一些局限性,需在后續(xù)研究中進(jìn)行優(yōu)化。因牦牛數(shù)量和體重體尺測定本身存在一些困難,本研究僅測定了102頭牦牛體高、體長和胸圍3個(gè)體尺性狀對體重進(jìn)行預(yù)測。機(jī)器學(xué)習(xí)方法代碼采用默認(rèn)參數(shù),如果需要更精確的回歸模型,則需要更多的測定數(shù)據(jù)量和體尺性狀,進(jìn)行多次模擬回歸過程,以選擇出最優(yōu)參數(shù),進(jìn)而構(gòu)建最優(yōu)模型。
4 ? ?參考文獻(xiàn)
[1] 窮達(dá),彭措巴姆.西藏嘉黎成年母牦牛體重與體尺指標(biāo)的相關(guān)與回歸分析[J].畜牧與飼料科學(xué),2011,32 (6):11-12.
[2] 窮達(dá),朗巴曲宗.那曲成年母牦牛的體重與體尺指標(biāo)的相關(guān)與回歸分析[J].安徽農(nóng)業(yè)科學(xué),2011,39(16):9715-9716.
[3] 羅海青,趙壽保.大通牦牛體重與體尺指標(biāo)的相關(guān)回歸分析[J].黑龍江動(dòng)物繁殖,2016,24(1):11-12.
[4] 文勇立,林小偉,鐘光輝,等.麥洼牦牛體型線性性狀對體重的影響[J].畜禽業(yè),2002,(8):4-6.
[5] 裴杰,褚敏,包鵬甲,等.大通牦牛體尺與體重性狀的多元線性回歸與通徑分析[J].遺傳育種與繁殖,2017,37(6):9-13.
[6] 裴杰,王宏博,褚敏,等.無角牦牛體尺性狀對體重影響的通徑分析[J].生物技術(shù)通報(bào),2018,34(6):102-108.
[7] 文勇立,鐘光輝,字向東,等.九龍牦牛體型線性性狀研究[J].四川畜牧獸醫(yī),2002,29(5):29-31.
[8] 文勇立,林小偉,鐘光輝,等.麥洼牦牛體型線性性狀的因子分析[J].畜禽業(yè),2002(6):2-3.
[9] 孫國強(qiáng),李九花,郝力壯,等.青海省生長期牦牛體重與體尺指標(biāo)關(guān)系模型的構(gòu)建[J].黑龍江畜牧獸醫(yī),2018(3):225-229.
[10] KARATZOGLOU A,SMOLA A,HORNIK K.Kernlab:kernel-based machine learning lab[EB/OL].(2018-08-10)[2019-04-20].https://cran.r-project.org/web/packages/kernlab/index.html.
[11] 馬珊珊.家畜生態(tài)與動(dòng)物福利在生產(chǎn)中的應(yīng)用[J].飼料廣角,2014,(24):37-40.
[12] 劉衛(wèi)民.基于機(jī)器視覺的奶牛體尺參數(shù)測量研究[D].泰安:山東農(nóng)業(yè)大學(xué),2016.
[13] 江杰,岳偉,曹孟珍.基于機(jī)器視覺的羊體體尺測量方法研究[J].內(nèi)蒙古科技大學(xué)學(xué)報(bào),2015,34(4):322-327.
[14] 張婧婧,李勇偉.基于機(jī)器視覺的馬體尺測量系統(tǒng)設(shè)計(jì)與研究[J].計(jì)算機(jī)測量與控制,2017,25(12):17-20.
[15] BRAND N,JORGENSEN E.Determination of live weight of pigs from dimensions measured using image analysis[J].Computers and Electronics in Agriculture,1996,15(1):57-72.
[16] KYUNGKOO J,SI J K,HYUN W J.Estimating pig weights from images without constraint on posture and illumination[J].Computers and Electr-onics in Agriculture,2018,153:169-176.