劉生智 李春蓉 劉同金 熱娜古麗·熱西提 陳立平,2*
(1塔里木大學(xué)信息工程學(xué)院,新疆阿拉爾843300)(2塔里木大學(xué)現(xiàn)代農(nóng)業(yè)工程重點(diǎn)實(shí)驗(yàn)室,新疆阿拉爾843300)
當(dāng)前,世界各國奶牛養(yǎng)殖業(yè)的信息化、自動(dòng)化和智能化應(yīng)用不斷深化,業(yè)已在動(dòng)物行為學(xué)分析、自動(dòng)飼喂與排污、精細(xì)作業(yè)管理等方面發(fā)揮了巨大作用。以信息與智能技術(shù)為支撐的綠色、高效、精準(zhǔn)養(yǎng)殖,成為現(xiàn)代奶業(yè)發(fā)展的必然趨勢(shì)[1]。
新疆,是我國畜牧業(yè)大區(qū)。然而,受自然氣候、管理水平、飼養(yǎng)條件等因素影響,2015年新疆成奶牛平均單產(chǎn)僅為1.2噸/頭,與全國成奶牛平均單產(chǎn)6噸/頭[2]仍存在巨大差距。鑒于新疆奶牛養(yǎng)殖業(yè)管理粗放、信息技術(shù)支撐不足問題,有針對(duì)性地加強(qiáng)其信息與智能化建設(shè),是實(shí)現(xiàn)精細(xì)管理和提質(zhì)增效的重要途徑。
由于具有信息采集速度快、信息采集量大且無需接觸的技術(shù)優(yōu)勢(shì),計(jì)算機(jī)視覺技術(shù)作為重要的技術(shù)手段,被廣泛地應(yīng)用于諸如人群行為分析、車輛檢測(cè),甚至動(dòng)物行為分析應(yīng)用領(lǐng)域[3-5]。在計(jì)算機(jī)視覺應(yīng)用中,實(shí)時(shí)檢測(cè)奶牛目標(biāo),是進(jìn)一步分析奶牛體格數(shù)據(jù)、行為特征及疾病發(fā)生情況的基礎(chǔ)。
鑒于新疆奶牛養(yǎng)殖業(yè)信息化應(yīng)用現(xiàn)狀,以新疆生產(chǎn)建設(shè)兵團(tuán)第一師10團(tuán)良種奶牛養(yǎng)殖場(chǎng)為圖像采樣點(diǎn),重點(diǎn)研究了YOLO V3模型在奶牛目標(biāo)檢測(cè)中的應(yīng)用,為養(yǎng)殖業(yè)提供快速、有效的智能化視覺分析工具與方法。
深度學(xué)習(xí)(Deep Learning,DL)是一種表示學(xué)習(xí)方法[6],具有強(qiáng)大的數(shù)據(jù)表征能力,通過監(jiān)督或非監(jiān)督學(xué)習(xí)方式,能夠?qū)W到數(shù)據(jù)更高層次的抽象表示[7]。DL在經(jīng)歷兩次發(fā)展低谷(1969~1986,1998~2006)后,Hinton等[8]于2006年提出以深度信念網(wǎng)絡(luò)為代表的DL方法,從此DL進(jìn)入高速發(fā)展時(shí)期。隨后,其在語音識(shí)別、圖像分類等問題上先后取得重大突破[9-10],自此,DL迎來了發(fā)展的爆發(fā)期。
近十年來,DL方法發(fā)展迅速、應(yīng)用廣泛,Hinton團(tuán)隊(duì)于2012年提出的AlexNet在ImageNet取得重大突破,自此卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)成為了物體檢測(cè)的主流方法;當(dāng)前,應(yīng)用較為廣泛的卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)智能檢測(cè)模型可以分為兩類,第一種是以R-CNN系列[11-13]為代表的區(qū)域建議模型,第二種是以YOLO[14-16]系列為代表的無區(qū)域建議模型。尤其,F(xiàn)aster R-CNN、YOLO V3、R-FCNs[17]、FCN[18]等新算法的提出,不斷刷新目標(biāo)智能檢測(cè)的精確率與檢測(cè)效率,大大改善了傳統(tǒng)深度學(xué)習(xí)算法在目標(biāo)識(shí)別與分類應(yīng)用上的性能與效果。
DL方法與計(jì)算機(jī)視覺(Computer Vision,CV)等前沿智能感知與機(jī)器學(xué)習(xí)方法被廣泛應(yīng)用于養(yǎng)殖業(yè)中。為提高奶牛目標(biāo)檢測(cè)的智能化程度,趙凱旋、何東健等[19]采用了基于圖像的卷積神經(jīng)網(wǎng)絡(luò)方法來自動(dòng)提取奶牛體廓生物特征并用于識(shí)別奶牛身份。劉杰鑫[20]等人采用基于混合高斯模型與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法識(shí)別奶牛個(gè)體,實(shí)驗(yàn)表明,該方法用于真實(shí)場(chǎng)景下奶牛個(gè)體的識(shí)別是可行的。由此可見,DL在養(yǎng)殖業(yè)中的應(yīng)用,為真實(shí)、自然、經(jīng)濟(jì)、智能地感知和識(shí)別奶牛身份提供了新方法。
使用NIKON D3100照相機(jī),隨機(jī)采集第一師10團(tuán)良種奶牛養(yǎng)殖場(chǎng)的荷斯坦奶牛圖像,所采集圖像以JPG制式儲(chǔ)存,分辨率為4 608×3 072。圖像采集分為A、B兩個(gè)實(shí)驗(yàn)圖像組,樣本組類別示例如圖1所示。A組圖像針對(duì)單頭奶牛場(chǎng)景采像、B組圖像為針對(duì)群體奶牛采像。A、B兩組各采集圖像50幅,作為驗(yàn)證集,共計(jì)100幅。
圖1 樣本組類別示例
惠普臺(tái)式機(jī)(型號(hào)為HP Pavilion 500 Desktop PC),其配置如下:操作系統(tǒng)為Windows 1064 Bits Enterprise版、CPU為Intel i7-4790,主頻為3.60 GHz、內(nèi)存12 GB、顯卡為NVIDIA GeForce GTX 745,深度學(xué)習(xí)框架為darknet-53。
YOLO是華盛頓大學(xué)的Joseph Redmon和Ali Farhadi等人于2015年提出的一種無區(qū)域建議的目標(biāo)檢測(cè)模型。目前,已發(fā)展至第三代YOLO V3,作為一類全新的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),直接將圖像作為輸入,在輸出層回歸目標(biāo)的位置,真正實(shí)現(xiàn)了End-to-end檢測(cè),檢測(cè)結(jié)果的準(zhǔn)確率和速度達(dá)到了新的高度,整個(gè)檢測(cè)流程如圖2所示。
圖2 YOLO V3檢測(cè)流程圖
為較為正確地驗(yàn)證YOLO V3模型的有效性,本文選取漏檢率(Undetected rate)、平均耗時(shí)(Time)對(duì)算法性能進(jìn)行定量評(píng)價(jià)。通過在該奶牛數(shù)據(jù)集上測(cè)試官方已訓(xùn)練好的權(quán)重文件yolov3.weights,保存每張圖像預(yù)測(cè)結(jié)果,記錄每張圖像預(yù)測(cè)所損耗時(shí)間。漏檢率統(tǒng)計(jì)用到的標(biāo)準(zhǔn)如表1所示。
表1 奶牛統(tǒng)計(jì)量標(biāo)準(zhǔn)
以人工統(tǒng)計(jì)各圖像中牛只的數(shù)量,作為YOLO V3目標(biāo)檢測(cè)結(jié)果的對(duì)照,按照公式1計(jì)算漏檢率。式中:FN、TP分別表示將奶牛樣本分類為非奶牛樣本數(shù)(漏檢)、將奶牛樣本分類為奶牛樣本數(shù)。
3.1.1 不同圖像尺寸檢測(cè)效果對(duì)比
本文增加了不同圖像尺寸的對(duì)比試驗(yàn)?;贛ATLAB中imresize函數(shù),采用默認(rèn)函數(shù)參數(shù)“nearest”,將B實(shí)驗(yàn)組圖像縮放0.5倍、0.25倍、0.1倍得到不同尺寸下的圖像集,基于YOLO V3模型,進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如下表。對(duì)比分析得,縮小圖像尺寸會(huì)使漏檢率增加,影響檢測(cè)效果,且檢測(cè)損耗時(shí)間對(duì)圖像尺寸的變化不敏感。
表2 不同圖像尺寸的檢測(cè)效果對(duì)比表
3.1.2 YOLO V3與YOLO tiny-V2模型性能對(duì)比
用驗(yàn)證集中的100幅圖像進(jìn)行驗(yàn)證,并與YOLO tiny-V2目標(biāo)檢測(cè)模型進(jìn)行對(duì)比。從表3可以得出,YOLO V3相比于YOLO tiny-V2,漏檢率降低了9.85%。在檢測(cè)速度上:YOLO tiny-V2具有明顯的優(yōu)勢(shì)。在實(shí)際應(yīng)用中,盡管該算法時(shí)間復(fù)雜度較高,但實(shí)時(shí)性可以滿足實(shí)際需求。因此相比于YOLO ti-ny-V2,YOLO V3具有更低的漏檢率,具有較好的應(yīng)用前景。
表3 YOLO V3與YOLO tiny-V2模型性能比較
3.1.3 不同閾值檢測(cè)效果對(duì)比
在檢測(cè)過程中,通過設(shè)置閾值可以過濾置信度評(píng)分較低的預(yù)測(cè)框。由此,作者基于YOLO V3模型,以B實(shí)驗(yàn)組為檢測(cè)對(duì)象,將初始閾值0.25增大及縮小,設(shè)置5個(gè)不同閾值進(jìn)行實(shí)驗(yàn),對(duì)比五種不同閾值下的檢測(cè)效果,從而得到最佳閾值。如表4所示,其中目標(biāo)框個(gè)數(shù)表示平均每幅圖像中預(yù)測(cè)框個(gè)數(shù)。閾值偏高或者偏低時(shí),漏檢率均較高,當(dāng)閾值為默認(rèn)值0.25時(shí),可以得到漏檢率較低的檢測(cè)效果。因此,在下一步應(yīng)用YOLO V3模型進(jìn)行目標(biāo)檢測(cè)實(shí)驗(yàn)時(shí),采用默認(rèn)閾值0.25,可得最佳檢測(cè)效果。
表4 不同閾值的檢測(cè)效果對(duì)比表
基于YOLO V3模型,將閾值設(shè)置為0.25,作者對(duì)兩實(shí)驗(yàn)組原始圖像進(jìn)行了奶牛目標(biāo)檢測(cè)實(shí)驗(yàn),檢測(cè)效果示例如下圖所示。
圖3 目標(biāo)檢測(cè)結(jié)果示例
由公式1可計(jì)算出2實(shí)驗(yàn)組漏檢率,平均耗時(shí)可 通過加和求平均的方式得出。檢測(cè)的統(tǒng)計(jì)結(jié)果如下表所示??梢钥闯?,A、B兩組漏檢率指標(biāo)并不理想。這是由于所采用官方權(quán)重文件是通過在COCO數(shù)據(jù)集上訓(xùn)練獲得,YOLO V3可檢測(cè)80個(gè)目標(biāo)類別,奶牛目標(biāo)為其中一類,在生產(chǎn)條件下,由于背景復(fù)雜、光照姿態(tài)變化、奶牛相互遮擋、小目標(biāo)奶牛等因素,部分奶牛目標(biāo)易被分類為馬、狗、羊等目標(biāo),影響漏檢率指標(biāo)。
表5 檢測(cè)結(jié)果
在100幅測(cè)試圖像中,18幅圖像發(fā)生漏檢錯(cuò)誤,圖4為3類典型漏檢錯(cuò)誤。通過對(duì)漏檢錯(cuò)誤分析,可總結(jié)出漏檢主要發(fā)生在以下3類奶牛圖像中:(1)A類為奶牛相互遮擋較為嚴(yán)重的圖像;(2)B類是陰影下奶牛主體顏色接近于地面顏色的圖像;(3)C類是奶牛通過擠奶通道時(shí)相互遮擋的圖像。
針對(duì)A類圖像,在數(shù)據(jù)采集時(shí),可適度提升圖像采集設(shè)備高度,避免奶牛相互遮擋的情況?;蛟黾訄D像采集設(shè)備,獲取多角度同時(shí)拍攝同一場(chǎng)景的多幅圖像,從中挑選實(shí)驗(yàn)可用圖像。針對(duì)B類圖像,可通過提高奶牛圖像對(duì)比度(如實(shí)驗(yàn)數(shù)據(jù)集預(yù)處理過程中加入直方圖均衡操作)來解決。針對(duì)C類圖像,可以融合各類奶牛檢測(cè)數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)訓(xùn)練,改善深度神經(jīng)網(wǎng)絡(luò)對(duì)不同場(chǎng)景、不同尺寸奶牛的檢測(cè)效果,使訓(xùn)練完成的模型在復(fù)雜場(chǎng)景下的適應(yīng)性更強(qiáng)。
在奶牛檢測(cè)應(yīng)用中,由于背景復(fù)雜多樣性、光照變化、姿態(tài)變化、奶牛相互遮擋、小目標(biāo)奶牛等因素的存在,漏檢率仍然達(dá)不到理想的水平。因此,需要提取光流信息、語義信息等更多有用信息,提高特征表達(dá)能力,進(jìn)而提升檢測(cè)效果。
圖4 典型漏檢錯(cuò)誤
通過將YOLO V3模型應(yīng)用于生產(chǎn)條件下的奶牛目標(biāo)檢測(cè),達(dá)到了高效和準(zhǔn)確的視覺目標(biāo)檢測(cè)效果,為奶牛養(yǎng)殖業(yè)的信息化應(yīng)用提供了快捷、有效的工具與方法,但是文中并未涉及目標(biāo)檢測(cè)模型的訓(xùn)練,在今后的研究中,須結(jié)合YOLO V3模型訓(xùn)練僅包含奶牛目標(biāo)的模型,降低目標(biāo)檢測(cè)漏檢率;同時(shí)進(jìn)一步研究奶牛圖像精細(xì)分割方法,為后續(xù)行為分析、身份識(shí)別提供方法支撐。