關(guān)鍵詞安格斯牛;YOLOv8n;剪枝;牛只識(shí)別;面部檢測(cè)模型
安格斯牛是一種因其高品質(zhì)牛肉而廣泛飼養(yǎng)的牛種。隨著對(duì)優(yōu)質(zhì)肉類的市場(chǎng)需求持續(xù)增長(zhǎng),安格斯牛的養(yǎng)殖規(guī)模也在不斷擴(kuò)大[1-2]。為提高養(yǎng)殖效率和肉類品質(zhì),畜牧業(yè)不斷尋求人工智能技術(shù)的創(chuàng)新和應(yīng)用,特別是在牛的面部識(shí)別技術(shù)應(yīng)用方面,以提升管理的精準(zhǔn)性和效率[2-3]。
盡管耳標(biāo)和烙印等傳統(tǒng)的牛只識(shí)別方法已被廣泛使用,但這些方法可能對(duì)動(dòng)物造成身體傷害,且其有效性會(huì)隨著時(shí)間的推移而降低。因此,開發(fā)一種既經(jīng)濟(jì)又人道的識(shí)別方法至關(guān)重要。由于圖像采集設(shè)備成本低且易于使用,國(guó)內(nèi)外許多研究人員已開始將目標(biāo)識(shí)別方法(如SSD和YOLO)應(yīng)用于牲畜和家禽的個(gè)體識(shí)別研究中[4-6]。如Huang等[2]結(jié)合SSD與密集連接卷積網(wǎng)絡(luò)和Inception-v4進(jìn)行奶牛體況評(píng)分,減少識(shí)別信息損失和網(wǎng)絡(luò)參數(shù)。同時(shí),采用改進(jìn)的卡爾曼濾波器和匈牙利濾波器消除誤差,提高準(zhǔn)確性[7-9]。Xu等[10]結(jié)合輕量級(jí)的RetinaFacemobilenet與加性角度邊緣損失(ArcFace),開發(fā)了CattleFaceNet,實(shí)現(xiàn)了對(duì)荷斯坦奶牛的高精度面部識(shí)別。Weng等[11]提出了1種基于雙分支卷積神經(jīng)網(wǎng)絡(luò)(TB-CNN)的牛只面部檢測(cè)模型,通過(guò)分別輸入不同角度的牛臉圖像進(jìn)行特征提取,融合特征后結(jié)合全局平均池化與分類器,實(shí)現(xiàn)個(gè)體牛只的精準(zhǔn)識(shí)別。Zheng等[12]使用YOLOv7在復(fù)雜環(huán)境中識(shí)別荷斯坦奶牛,采用ACmix模塊增強(qiáng)模型注意力,并通過(guò)改進(jìn)的輕量級(jí)SPPCSPC-L模塊降低復(fù)雜度。此外,改進(jìn)的卡爾曼濾波器通過(guò)直接預(yù)測(cè)跟蹤框的寬高,優(yōu)化了ByteTrack算法,實(shí)現(xiàn)更精確的跟蹤與匹配[13]。
目前,常用的目標(biāo)檢測(cè)技術(shù)如SSD和YOLO系列已被應(yīng)用于動(dòng)物識(shí)別中[14-15],雖然大部分研究集中在豬和奶牛等牲畜上,但針對(duì)安格斯牛的研究較少。盡管這些技術(shù)已成熟,但在保持高精度的同時(shí)如何簡(jiǎn)化模型結(jié)構(gòu)以適應(yīng)資源有限的農(nóng)業(yè)環(huán)境仍是挑戰(zhàn)。
為應(yīng)對(duì)這些挑戰(zhàn),本研究設(shè)計(jì)1種改進(jìn)的YO?LOv8n模型[16-17],以安格斯牛在不同生長(zhǎng)階段的面部圖像構(gòu)建數(shù)據(jù)集,通過(guò)結(jié)合增強(qiáng)感受野特征融合單元(ERFFU)和輕量級(jí)卷積檢測(cè)頭(LPCDH),提升安格斯牛面部特征的識(shí)別能力,并采用組泰勒剪枝方法[18],剪除不必要的神經(jīng)元,減少計(jì)算成本和內(nèi)存占用,進(jìn)一步優(yōu)化識(shí)別流程和簡(jiǎn)化模型復(fù)雜度[19-20],旨在實(shí)現(xiàn)安格斯牛高效、精準(zhǔn)的面部識(shí)別,為智能畜牧業(yè)的發(fā)展提供技術(shù)支持。
1 材料與方法
1.1 數(shù)據(jù)采集和數(shù)據(jù)集構(gòu)建
使用佳能800D相機(jī)在新疆生產(chǎn)建設(shè)兵團(tuán)第一師阿拉爾市八團(tuán)露天養(yǎng)殖場(chǎng)收集了200頭安格斯牛的面部圖像,采集時(shí)間為2023年10月5日—2024年5月1日,每月1次。每張圖像分辨率為6000像素×4000像素,采集距離為0.5~2m,模擬真實(shí)面部識(shí)別環(huán)境。如圖1所示,圖像涵蓋牛只在不同姿態(tài)下的正臉和側(cè)臉視圖,采集時(shí)間為上午10:00和下午4:00,以減少光照變化影響。
為應(yīng)對(duì)復(fù)雜環(huán)境中的遮擋問(wèn)題,采取了策略確保數(shù)據(jù)集的多樣性[21-22],最終篩選出11000幅高質(zhì)量面部圖像(正臉5810張,左臉2185張和右臉1990張,遮擋圖像1015張)。所有圖像經(jīng)過(guò)精確標(biāo)注,避免耳標(biāo)信息影響識(shí)別結(jié)果。數(shù)據(jù)集隨機(jī)分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,比例為7∶2∶1,并確保測(cè)試集與訓(xùn)練集采集時(shí)間不同,以增強(qiáng)評(píng)估的準(zhǔn)確性。
1.2 改進(jìn)YOLOv8n安格斯牛面部檢測(cè)模型
YOLOv8模型融合了YOLOv5、YOLOv6和YOLOX的優(yōu)點(diǎn)[23-24],以適應(yīng)不同的應(yīng)用場(chǎng)景。通過(guò)架構(gòu)優(yōu)化,YOLOv8在資源受限環(huán)境中實(shí)現(xiàn)了實(shí)時(shí)識(shí)別和快速部署,并表現(xiàn)出了卓越的性能。
改進(jìn)后的Yolov8n使用640像素×640像素×3通道的安格斯牛圖像作為輸入,訓(xùn)練過(guò)程中通過(guò)Al?bumentations進(jìn)行在線數(shù)據(jù)增強(qiáng)[25]。在模型改進(jìn)方面,為增強(qiáng)特征提取能力,本研究提出了擴(kuò)展感受野特征單元(ERFFU),通過(guò)高效的注意力分配強(qiáng)化空間特征捕捉。檢測(cè)頭部分采用新型輕量級(jí)并行卷積檢測(cè)頭(LPCDH),在提高精度的同時(shí)解決YO?LOv8n檢測(cè)頭參數(shù)過(guò)大的問(wèn)題。此外,引入組泰勒剪枝(groupTaylorppruning)進(jìn)一步減小參數(shù)量和計(jì)算負(fù)擔(dān),使模型更適用于資源受限環(huán)境(圖2)。
1.3 模型改進(jìn)
為更準(zhǔn)確地捕捉安格斯牛的關(guān)鍵面部特征,本研究提出1種擴(kuò)展感受野特征融合單元(ERFFU),結(jié)構(gòu)如圖3所示。該模塊基于ERFBlock進(jìn)行改進(jìn),旨在增強(qiáng)目標(biāo)檢測(cè)模型的性能。具體內(nèi)容如下:假設(shè)輸入特征圖X,輸入圖像通過(guò)卷積層處理得到Y(jié)0,其中,輸入通道數(shù)擴(kuò)展為原始大小的2倍,形成隱藏通道,得到的通道被分成2個(gè)獨(dú)立的部分:Y1和Y2。為了更有效地捕捉更多特征信息,本研究應(yīng)用基礎(chǔ)殘差塊的概念,將Y2的一部分通過(guò)1×1卷積層處理,得到Y(jié)1',然后將其輸入到ERFBlock中,計(jì)算如公式(1)~(3)所示。
ERFBlock的計(jì)算過(guò)程如公式(4)所示。其中,gi×i表示分組卷積,k為積核的大小,Norm是規(guī)范化,F(xiàn)是將注意力圖與變換的感受野空間特征相乘而獲得。具體來(lái)說(shuō),ERFBlock首先對(duì)輸入特征圖Y1'進(jìn)行全局平均池化(AvgPool),以捕捉全局空間信息。為了增強(qiáng)特征的非線性表示能力,ERFBlock通過(guò)ReLU激活和規(guī)范化處理特征圖,并通過(guò)重排列和卷積處理實(shí)現(xiàn)有效的特征融合。最后,模塊將處理后的輸出與另一部分特征融合,通過(guò)卷積得到最終輸出,如公式(5)~(6)所示:
YOLOv8雖然在性能上取得了顯著成效,但其解耦頭部分包含大量參數(shù),這不僅增加了計(jì)算負(fù)擔(dān),也可能導(dǎo)致處理效率的下降。針對(duì)這一挑戰(zhàn),本研究提出1種基于部分卷積的輕量化檢測(cè)頭(light?weightpartialconvolutiondetectionhead,LPCDH)。具體而言,LPCDH結(jié)構(gòu)包含1個(gè)部分卷積層,采用部分卷積(PConv)策略優(yōu)化特征的空間維度融合。假設(shè)輸入特征Xi∈RB×C×H×W,其中,B是批量大?。籆是通道數(shù);H是特征圖的高度;W是特征圖的寬度。將Xi分割為2部分:要進(jìn)行卷積的部分Xi1和不變的部分Xi2。C1是卷積處理的通道數(shù),C2是保持不變的通道數(shù)。對(duì)Xi1進(jìn)行1×1的卷積操作,以保持?jǐn)?shù)據(jù)的空間尺寸。將卷積后的X1'與未處理的X2重新組合,得到最終的輸出Xi'。計(jì)算見公式(7)~(9)。
特征圖經(jīng)過(guò)PConv處理后,通過(guò)卷積層調(diào)整通道數(shù),分別進(jìn)行2個(gè)卷積操作。首先,將通道數(shù)轉(zhuǎn)換為用于邊界框回歸的參數(shù)維度,保留空間信息;然后,將通道數(shù)轉(zhuǎn)換為類別數(shù)量,保留分類信息。最后,將邊界框回歸參數(shù)和類別預(yù)測(cè)結(jié)果在通道維度拼接。改進(jìn)的YOLOv8n使用3個(gè)輕量化檢測(cè)頭(LPCDH)處理不同尺度的特征,推理時(shí)將輸出特征拼接,分割為邊界框回歸參數(shù)(Bbox)和類別預(yù)測(cè)結(jié)果(Cls)。通過(guò)邊界框解碼函數(shù),將Bbox轉(zhuǎn)為實(shí)際坐標(biāo),最終輸出邊界框坐標(biāo)和類別預(yù)測(cè)結(jié)果,如圖4所示。
為了解決因移動(dòng)端算力有限而限制模型實(shí)際應(yīng)用的問(wèn)題,本研究選擇組泰勒剪枝方法對(duì)模型實(shí)現(xiàn)輕量化。組泰勒剪枝是1種通過(guò)估計(jì)每個(gè)神經(jīng)元(或?yàn)V波器)對(duì)最終損失的貢獻(xiàn)來(lái)優(yōu)化神經(jīng)網(wǎng)絡(luò)剪枝的技術(shù)。其核心思想是通過(guò)泰勒展開式對(duì)神經(jīng)元的重要性進(jìn)行近似計(jì)算,并基于此進(jìn)行剪枝。該剪枝方法原理為:使用一階和二階泰勒展開式來(lái)估算濾波器的重要性,定義為移除特定濾波器后對(duì)損失函數(shù)的影響。具體公式如下:
該方法的優(yōu)勢(shì)是具有全局一致性尺度,不需要逐層進(jìn)行敏感性分析;可以應(yīng)用于任何網(wǎng)絡(luò)層,包括具有跳躍連接的層;除了需要提供要剪枝的神經(jīng)元數(shù)量外,其他參數(shù)自動(dòng)優(yōu)化。利用這些優(yōu)勢(shì),組泰勒剪枝方法在保持模型性能的同時(shí),實(shí)現(xiàn)了高效的剪枝,從而顯著減少了計(jì)算成本和內(nèi)存占用??紤]到感受野對(duì)本模型的重要性,將ERFFU層進(jìn)行跳過(guò),并且保留檢測(cè)頭輸出層的完好,使模型的參數(shù)量、計(jì)算量、精度等達(dá)到最佳。圖5為剪枝前后通道變化。
1.4 評(píng)價(jià)指標(biāo)
為了全面評(píng)估模型的性能,選取以下評(píng)價(jià)指標(biāo):召回率(recall,R),精度(precision,P),平均精度均值(meanaverageprecision,PmA),模型內(nèi)存占用量和模型計(jì)算量。在這些評(píng)估指標(biāo)中,用到了以下關(guān)鍵參數(shù):真陽(yáng)性(Pt,即被正確地預(yù)測(cè)為正樣本的實(shí)際正樣本數(shù));假陽(yáng)性(Pf,即被錯(cuò)誤地預(yù)測(cè)為正樣本的實(shí)際負(fù)樣本數(shù));假陰性(Nf,即被錯(cuò)誤地預(yù)測(cè)為負(fù)樣本的實(shí)際正樣本數(shù))。
1.5 訓(xùn)練參數(shù)設(shè)置
所用顯卡是RTX4060,操作系統(tǒng)為Windows10,使用Pytorch深度學(xué)習(xí)框架構(gòu)建模型,CUDA版本是11.8,CuDNN版本是8.7.0。改進(jìn)YOLOv8n選取尺寸為640像素×640像素的圖像作為輸入,迭代周期(epoch)設(shè)置為300,批量大小設(shè)置為4,選擇隨機(jī)梯度下降法作為訓(xùn)練優(yōu)化方法,初始學(xué)習(xí)率為0.01,動(dòng)量因子為0.937,權(quán)重衰減系數(shù)0.0005,早停(earlystopping)設(shè)置為50,目的是當(dāng)模型性能無(wú)法再提升時(shí)停止訓(xùn)練,避免過(guò)擬合并節(jié)省訓(xùn)練時(shí)間。
2 結(jié)果與分析
2.1 不同剪枝方法效果對(duì)比
如圖6所示,從參數(shù)量對(duì)比來(lái)看,組泰勒剪枝在各參數(shù)量下PmA50表現(xiàn)最佳,達(dá)到92.6%。組海森剪枝和組歸一化剪枝在參數(shù)量增加時(shí)也有較高的PmA50,分別為91.8%和91.9%,而LAMP剪枝在參數(shù)量增加時(shí)PmA50提升較小。從計(jì)算量來(lái)看,組泰勒剪枝同樣表現(xiàn)最優(yōu),在計(jì)算量增加時(shí)PmA50達(dá)92.6%。組海森剪枝和組歸一化剪枝的PmA50分別為91.8%和91.9%,但LAMP剪枝在不同計(jì)算量下的PmA50表現(xiàn)相對(duì)較低??傮w而言,組泰勒剪枝在不同參數(shù)量和計(jì)算量下均表現(xiàn)最佳,且能在大幅降低參數(shù)量和計(jì)算量時(shí)保持精度,展現(xiàn)出顯著優(yōu)勢(shì)。組海森剪枝和組歸一化剪枝效果較強(qiáng),而LAMP剪枝雖參數(shù)量和計(jì)算量較低,但PmA50提升有限。因此,組泰勒剪枝在實(shí)際應(yīng)用中具有更高的有效性,特別是在需要平衡精度和計(jì)算效率的場(chǎng)景下。
2.2 不同模型的識(shí)別結(jié)果對(duì)比
在安格斯牛測(cè)試集上,改進(jìn)的YOLOv8n模型在面部識(shí)別任務(wù)中表現(xiàn)優(yōu)于SSD、YOLOv5n、YO?LOv8n、YOLOv8m、YOLOv8s等模型。改進(jìn)后的YOLOv8n模型的召回率為85.1%,PmA50為92.6%,PmA50-95為68.3%,模型大小為2.6MB,計(jì)算量為1.9×109。與原模型相比,召回率提升4.8百分點(diǎn),PmA50提升3.1百分點(diǎn),PmA50-95提升1.7百分點(diǎn),內(nèi)存占用量下降60.6%,計(jì)算量下降80.2%。與其他模型相比,準(zhǔn)確率提高了11.5、3.8、1.8、1.9、5.1、3.9、3.7和2.4百分點(diǎn)。在幀率方面,改進(jìn)后的YOLOv8n達(dá)到了729.4幀/s,遠(yuǎn)超其他模型,驗(yàn)證了其在保持高精度的同時(shí)具備更高的推理速度,適用于實(shí)時(shí)安格斯牛面部識(shí)別。通過(guò)引入ERFFU和LPCDH,本研究有效提升了安格斯牛面部識(shí)別的準(zhǔn)確性和推理速度,證明了該模型的有效性。
圖8展示了使用SSD、YOLOv5n和YOLOv8n等目標(biāo)識(shí)別模型在不同安格斯牛個(gè)體的面部識(shí)別比對(duì)中的性能(其中包括了安格斯牛面部的正臉、左臉、右臉、遮擋的情況)。結(jié)果表明,這些模型在安格斯牛的檢測(cè)任務(wù)中存在漏檢或誤檢現(xiàn)象。由于安格斯牛毛色單一,缺乏明顯的標(biāo)記,且在牧場(chǎng)環(huán)境中容易與背景混淆,增加了檢測(cè)難度。在對(duì)編號(hào)為276008的安格斯牛進(jìn)行檢測(cè)時(shí),SSD、YOLOv5n和YOLOv8n等模型均未能成功識(shí)別,導(dǎo)致漏檢。這可能是因?yàn)閭€(gè)體間視覺差異較小,難以區(qū)分。檢測(cè)編號(hào)為908145的安格斯牛時(shí),SSD、Mamba-YOLO、YOLOv9t和YOLOv5n產(chǎn)生誤檢,而YOLOv8n、YOLOv10n和RT-DETR雖然有檢測(cè)結(jié)果,但置信度顯著低于改進(jìn)后的YOLOv8n模型。這表明改進(jìn)后的YOLOv8n在提高檢測(cè)精度和置信度方面表現(xiàn)突出,尤其適用于視覺特征較為單一且難以區(qū)分的目標(biāo)。
2.3 特征圖可視化測(cè)試
在測(cè)試集上分別應(yīng)用原始YOLOv8n模型和改進(jìn)后YOLOv8n模型,研究提取了不同牛只面部的特征并生成熱力圖(圖8)。結(jié)果顯示,原始模型在識(shí)別安格斯牛面部特征時(shí)有限,僅能捕捉部分區(qū)域,且對(duì)于特征不明顯的牛只,重要特征常未被捕捉。而改進(jìn)后的模型顯著提高了識(shí)別能力,能夠全面準(zhǔn)確地關(guān)注面部特征,尤其在識(shí)別難度較大的牛只上表現(xiàn)尤為突出,增強(qiáng)了模型的實(shí)用性和準(zhǔn)確性。
2.4 改進(jìn)YOLOv8n的消融實(shí)驗(yàn)
采用全面的4折交叉驗(yàn)證消融實(shí)驗(yàn)進(jìn)一步評(píng)估ERFFU和LPCDH模塊對(duì)YOLOv8n模型識(shí)別精度的影響。由表2可見,基準(zhǔn)YOLOv8n模型的PmA50值在88.9%~89.7%,PmA50-95值在65.8%~67.0%。加入ERFFU模塊后,PmA50提高到89.6%~90.2%,PmA50-95提高到67.4%~67.8%,表明有適度但穩(wěn)定的提升。加入LPCDH模塊后,準(zhǔn)確率顯著提升,PmA50值在90.7%~92.1%,PmA50-95值在67.9%~8.5%。當(dāng)ERFFU和LPCDH模塊結(jié)合使用時(shí),準(zhǔn)確率提升最為顯著,PmA50值達(dá)到92.3%~93.2%,PmA50-95值達(dá)到68.1%~68.9%。并且對(duì)改進(jìn)后的模型使用組泰勒剪枝方法,多次驗(yàn)證后都能保證模型在大幅降低占用內(nèi)存空間和計(jì)算量的同時(shí)保證精度的穩(wěn)定。結(jié)果表明,結(jié)合這些模塊具有協(xié)同效應(yīng),顯著提升了模型的性能,驗(yàn)證了所提方法的可行性和有效性。
3 討論
本研究通過(guò)改進(jìn)YOLOv8n模型,顯著提升了安格斯牛面部識(shí)別的精度和處理速度。相比SSD和YOLO系列模型,改進(jìn)后的YOLOv8n在復(fù)雜環(huán)境中的表現(xiàn)更優(yōu),尤其在安格斯牛面部特征識(shí)別方面。采用ERFFU和LPCDH策略優(yōu)化了特征提取,提高了識(shí)別準(zhǔn)確性。同時(shí),運(yùn)用組泰勒剪枝方法,模型的內(nèi)存占用和計(jì)算量大幅降低,使其更適合在資源受限環(huán)境中應(yīng)用。
改進(jìn)后的YOLOv8n模型在幀率方面表現(xiàn)優(yōu)異,達(dá)到了729.4幀/s,顯著高于其他模型。這使得該模型在實(shí)時(shí)處理能力上大大提升。在性能評(píng)估中,改進(jìn)模型在召回率、PmA50和PmA50-95等指標(biāo)上均表現(xiàn)優(yōu)越,準(zhǔn)確率較其他模型有顯著提升,且相比原始YO?LOv8n模型,準(zhǔn)確率提高了3.1百分點(diǎn)。
在與其他研究的對(duì)比中,Wang等[8]使用YO?LOv8n對(duì)荷斯坦奶牛進(jìn)行識(shí)別,并引入了多個(gè)增強(qiáng)模塊(如NWD損失函數(shù)、CIAM和TAM)以提高識(shí)別精度。然而,該方法在計(jì)算量和內(nèi)存占用方面較為龐大,并未對(duì)資源受限環(huán)境進(jìn)行專門優(yōu)化。相比之下,改進(jìn)YOLOv8n通過(guò)ERFFU和LPCDH策略顯著降低了計(jì)算量和內(nèi)存占用,使得其在資源受限環(huán)境下更具優(yōu)勢(shì),同時(shí)保持了較高的識(shí)別精度。
另外,Zheng等[12]在復(fù)雜環(huán)境中使用YOLOv7進(jìn)行荷斯坦奶牛的個(gè)體識(shí)別。該研究采用了ACmix模塊和輕量級(jí)SPPCSPC-L模塊來(lái)優(yōu)化模型的性能。盡管該方法提升了模型的復(fù)雜度處理能力,但在幀率和計(jì)算量的優(yōu)化上仍存在不足。本研究中改進(jìn)后的YOLOv8n在幀率方面表現(xiàn)優(yōu)異,達(dá)到729.4幀/s,遠(yuǎn)超YOLOv7和其他模型,表明改進(jìn)YOLOv8n在實(shí)時(shí)處理能力上有顯著優(yōu)勢(shì)。
盡管識(shí)別精度達(dá)到92.6%,偶爾的漏檢和錯(cuò)檢仍提示有優(yōu)化空間,未來(lái)需進(jìn)一步增強(qiáng)模型的泛化能力,減少數(shù)據(jù)依賴性。