摘要:
在水稻種植過(guò)程中,為實(shí)現(xiàn)人工施肥行為自動(dòng)化的檢測(cè)和識(shí)別,以浙江省寧波市海曙區(qū)數(shù)字農(nóng)業(yè)中心水稻田間的人工施肥行為識(shí)別作為研究目標(biāo),開(kāi)展基于YOLOv8算法的水稻田間人工施肥行為識(shí)別研究。在YOLOv8算法的基礎(chǔ)上增加目標(biāo)檢測(cè)層,保留淺層特征信息,增強(qiáng)網(wǎng)絡(luò)模型對(duì)小尺寸目標(biāo)特征的感知能力;引入全局注意力模塊,增強(qiáng)網(wǎng)絡(luò)模型對(duì)全局特征信息的關(guān)注度。結(jié)果表明,改進(jìn)后的YOLOv8-GS識(shí)別模型mAP值為98.4%,比原YOLOv8模型提高2.4%,每幅圖像檢測(cè)時(shí)間為1.7ms。對(duì)小尺寸目標(biāo)測(cè)試集檢測(cè),mAP值為98.6%,比改進(jìn)前提高3.3%。YOLOv8-GS模型具有高精度、實(shí)時(shí)性、多尺度等優(yōu)點(diǎn),特別是對(duì)小尺寸目標(biāo)具有較強(qiáng)的檢測(cè)和識(shí)別能力。
關(guān)鍵詞:水稻;施肥;行為識(shí)別;YOLOv8;檢測(cè)層;注意力機(jī)制
中圖分類(lèi)號(hào):S282; TP391.41
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):2095-5553 (2025) 01-0220-07
Detection and recognition of artificial fertilization behavior in rice fields
based on improved YOLOv8
Lu Ming1, Yu Xinjie2, Guo Junxian1
(1. "College of Mechanical and Electrical Engineering, Xinjiang Agricultural University, Urumqi, 830052, China;
2. College of Computer and Data Engineering, Ningbo Tech University, Ningbo, 315100, China)
Abstract:
In order to automate the detection and recognition of manual fertilizer application during the rice cultivation process, this study focuses on the recognition of manual fertilizer application in the rice fields at the Digital Agriculture Center in Haishu District, Ningbo City, Zhejiang Province. The research utilizes the YOLOv8 algorithm for behavior recognition and detection of manual fertilizer application in the rice fields. Building upon the YOLOv8 algorithm, a target detection layer is introduced to retain shallow feature information and enhance the perception capability of the network model towards small-sized targets. Additionally, a global attention module is incorporated to improve the emphasis on global feature information by the network model. The research results demonstrate that the improved YOLOv8-GS recognition model achieves an mAP value of 98.4%, exhibiting a 2.4% improvement compared to the original YOLOv8 model. The detection time of each image is 1.7ms. Specifically for the test set featuring small-sized targets, the mAP value reaches 98.6%, indicating a 3.3% improvement from the previous version. These findings validate that the YOLOv8-GS model possesses advantages such as high precision, real-time performance, and multi-scale capabilities, especially for small-size targets with strong detection and recognition ability.
Keywords:
rice; fertilizer application; behavior recognition; YOLOv8; detection layer; attention mechanism
0"引言
中國(guó)糧食作物中水稻的消耗量占60%以上,水稻總產(chǎn)量達(dá)200 000kt以上,種植面積約30 000khm2[1]。自然因素和人為活動(dòng)的影響,導(dǎo)致土壤肥力水平逐年降低,農(nóng)戶為保障水稻穩(wěn)產(chǎn)增產(chǎn),擴(kuò)大化肥使用量,造成水稻貪青晚熟、倒伏減產(chǎn),過(guò)量施用化肥還會(huì)造成土壤理化性能改變[2, 3],造成環(huán)境污染,制約水稻產(chǎn)業(yè)的健康發(fā)展。因此,實(shí)時(shí)、準(zhǔn)確地檢測(cè)水稻田間化肥施用行為,對(duì)化肥施用行為記錄、休肥期管控、精準(zhǔn)化監(jiān)控化肥施用強(qiáng)度、化肥減量增產(chǎn)技術(shù)的應(yīng)用具有重要意義[4]。
隨著機(jī)器視覺(jué)技術(shù)的發(fā)展,已有學(xué)者將機(jī)器視覺(jué)技術(shù)用于行為識(shí)別方法研究,Ghabri等[5]提出了一種基于時(shí)空特征和梯度方向直方圖融合的人體行為識(shí)別方法,分類(lèi)準(zhǔn)確率達(dá)到82.26%,該方法所需數(shù)據(jù)量較大,計(jì)算成本較高。Zheng等[6]提出了一種基于骨架特征的雙流卷積網(wǎng)絡(luò),TOP-1為36.0%、TOP-5為59.1%,改善了骨架關(guān)鍵點(diǎn)坐標(biāo)誤差問(wèn)題。李子茂等[7]通過(guò)Openpose提取關(guān)節(jié)點(diǎn)信息、YOLOv3提取位置和類(lèi)別信息,再通過(guò)特征融合的方式,實(shí)現(xiàn)了部分農(nóng)事行為的識(shí)別,準(zhǔn)確率94.87%。趙守耀等[8]通過(guò)對(duì)蛋雞輪廓特征排列組合,通過(guò)極限學(xué)習(xí)機(jī)訓(xùn)練,成功對(duì)多種蛋雞行為進(jìn)行準(zhǔn)確識(shí)別,最高識(shí)別率97%。以上方法依賴于人體關(guān)鍵點(diǎn)和外觀輪廓特征的提取,如果目標(biāo)尺度過(guò)小、遮擋嚴(yán)重,則無(wú)法提取足夠的特征信息,影響檢測(cè)結(jié)果,算法網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,特征信息參數(shù)較大,識(shí)別速度較慢。
隨著機(jī)器視覺(jué)技術(shù)在農(nóng)業(yè)領(lǐng)域的不斷發(fā)展,郭建軍等[9]通過(guò)在YOLOv4特征金字塔中引入自適應(yīng)空間特征融合模塊,提出了肉鴿的行為檢測(cè)模型,檢測(cè)速度為8.1幀/s,mAP值為91.97%。王政等[10]通過(guò)對(duì)YOLOv5n模型進(jìn)行剪枝操作,提出了一種更為輕量化的奶牛爬跨行為識(shí)別模型,檢測(cè)速度為50.26幀/s,mAP值為97.7%。楊斷利等[11]通過(guò)將Dense Block結(jié)構(gòu)融入YOLOv6-tiny識(shí)別模型中,提升了蛋雞啄羽行為的檢測(cè)精度,mAP值為92.93%。
上述方法雖然能夠?qū)崿F(xiàn)目標(biāo)行為的檢測(cè)和識(shí)別,但隨著YOLO算法迭代發(fā)展,已有檢測(cè)速度更快、識(shí)別精度更高的目標(biāo)行為檢測(cè)和識(shí)別方法。本文對(duì)YOLOv8網(wǎng)絡(luò)通過(guò)增加檢測(cè)層和注意力機(jī)制的方式進(jìn)行改進(jìn),以提升模型的小目標(biāo)檢測(cè)能力,使用寧波市海曙區(qū)古林鎮(zhèn)數(shù)字農(nóng)業(yè)中心的水稻田間網(wǎng)絡(luò)攝像頭進(jìn)行人工施肥行為數(shù)據(jù)的采集,通過(guò)對(duì)網(wǎng)絡(luò)模型進(jìn)行大量訓(xùn)練,提出一種可以實(shí)現(xiàn)水稻田間人工施肥行為高精度、實(shí)時(shí)性檢測(cè)和識(shí)別的網(wǎng)絡(luò)模型。
1"圖像采集與處理
1.1"圖像采集
研究數(shù)據(jù)采集自浙江省寧波市海曙區(qū)數(shù)字農(nóng)業(yè)中心,選取南區(qū)綜合四情監(jiān)測(cè)點(diǎn)網(wǎng)絡(luò)攝像機(jī)(DS-2DF71TPNYW-03-A)、主泵房監(jiān)測(cè)點(diǎn)網(wǎng)絡(luò)攝像機(jī)(DS-2DE72TPNYW-02-A)、大棚外球機(jī)監(jiān)測(cè)點(diǎn)網(wǎng)絡(luò)攝像機(jī)(iDS-2DF8237IXR-A/S1,)三個(gè)水稻田間網(wǎng)絡(luò)攝像機(jī)所記錄的人工施肥視頻數(shù)據(jù),視頻記錄時(shí)間為2023年4—6月。
1.2"圖像處理
將原始視頻數(shù)據(jù)進(jìn)行人工篩選,獲得南區(qū)綜合四情監(jiān)測(cè)點(diǎn)12段、大棚外球機(jī)監(jiān)測(cè)點(diǎn)28段、主泵房監(jiān)測(cè)點(diǎn)36段,合計(jì)時(shí)長(zhǎng)約為19h的視頻數(shù)據(jù),視頻幀率為25幀/s。采用視頻分幀技術(shù),為避免丟失關(guān)鍵信息,以每25幀取1幅圖像的方式獲得67 524幅圖像,圖像分辨率為1 280像素(水平)×720像素(垂直)。由于按照以上方式獲得的圖像數(shù)據(jù)存在大量無(wú)用和低質(zhì)量圖像樣本,相鄰幀的相似度較高,冗余圖像過(guò)多,從而導(dǎo)致樣本分布不均衡、訓(xùn)練時(shí)間增加、模型過(guò)擬合等問(wèn)題,所以先經(jīng)過(guò)人工篩選去除無(wú)用圖像后獲得42 541幅圖像樣本,再通過(guò)結(jié)構(gòu)相似性(Structural Similarity,SSIM)算法[12],將相鄰幀圖像樣本進(jìn)行比較剔除冗余圖像后獲得10 538幅圖像,計(jì)算如式(1)所示。
SSIM(x,y)=(2μxμy+C1)(2σxy+C2)(μx2+μy2+C1)(σx2+σy2+C2)
(1)
式中:
SSIM(x,y)——
圖像x與y相似度指數(shù);
μx——
圖像x的像素平均值;
μy——
圖像y的像素平均值;
σx——
圖像x的像素標(biāo)準(zhǔn)差;
σy——圖像y的像素標(biāo)準(zhǔn)差;
σxy——
圖像x與y的像素協(xié)方差;
C1、C2——任意常數(shù)。
最后通過(guò)峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)算法[13],去除低質(zhì)量圖像樣本后獲得5 267幅圖像,計(jì)算如式(2)和式(3)所示。
MSE=1mn∑m-1i=0∑n-1j=0[I(i,j)-K(i,j)]2
(2)
PSNR=10×log10MAXI2MSE
(3)
式中:
MSE——均方誤差;
mn——大小為m×n的原始圖像;
K——添加噪聲后的圖像;
I(i,j)——真實(shí)圖像;
K(i,j)——待評(píng)價(jià)圖像;
MAXI——圖像最大像素值。
1.3"數(shù)據(jù)集建立
為避免訓(xùn)練集與測(cè)試集圖像樣本出自同一段視頻數(shù)據(jù),將大棚外球機(jī)監(jiān)測(cè)點(diǎn)與主泵房監(jiān)測(cè)點(diǎn)的視頻數(shù)據(jù)作為訓(xùn)練與驗(yàn)證數(shù)據(jù),將南區(qū)綜合四情監(jiān)測(cè)點(diǎn)的視頻數(shù)據(jù)作為測(cè)試數(shù)據(jù)。經(jīng)過(guò)處理后獲得訓(xùn)練集與驗(yàn)證集圖像樣本4 213幅,測(cè)試集圖像樣本1 054幅,將4 213幅圖像隨機(jī)抽取出422幅作為驗(yàn)證集,剩余3 791幅作為訓(xùn)練集,訓(xùn)練集、驗(yàn)證集、測(cè)試集之比約為7∶1∶2。使用LabelImg標(biāo)注工具進(jìn)行標(biāo)注,以人與工具的最小外接矩形作為標(biāo)注框,標(biāo)注標(biāo)簽為“Fertilizer application”,標(biāo)注信息保存為視覺(jué)目標(biāo)分類(lèi)(Visual Object Classes, VOC)格式。
由于水稻田間施肥工作區(qū)域較大,網(wǎng)絡(luò)攝像頭為固定拍攝,獲取的目標(biāo)樣本尺寸差異較大,為驗(yàn)證模型對(duì)不同尺寸目標(biāo)的檢測(cè)能力,按照標(biāo)記目標(biāo)框的像素面積將目標(biāo)劃分為小目標(biāo)(目標(biāo)框面積≤(寬×高)70×90)、中目標(biāo)((寬×高)70×90≤目標(biāo)框面積≤(寬×高)140×300)、大目標(biāo)(目標(biāo)框面積≥(寬×高)140×300),如圖1所示。按照同樣的方式將數(shù)據(jù)集分別劃分為訓(xùn)練集、測(cè)試集、驗(yàn)證集,如表1所示。
2"模型建立與試驗(yàn)
2.1"建模硬件平臺(tái)
建模使用Ubuntu 20.04.4 LTS操作系統(tǒng),處理器型號(hào)為Intel(R) Core(TM) i7-10700F CPU@2.90 GHz,顯卡型號(hào)為NVIDIA GeForce RTX 3090,顯存大小為24 G,內(nèi)存大小為64 G,深度學(xué)習(xí)框架為PyTorch 1.13.1,CUDA 11.6,編程平臺(tái)為PyCharm,所有程序都是由Python3.9.7語(yǔ)言編寫(xiě)并且在相同環(huán)境下運(yùn)行。
2.2"評(píng)價(jià)指標(biāo)
采用精確率P,召回率R,平均精度均值mAP,作為評(píng)價(jià)模型的指標(biāo)。設(shè)定置信度>0.5,正例;置信度≤0.5,反例。計(jì)算如式(4)~式(6)所示。
P=TP(TP+FP)×100%
(4)
R=TP(TP+FP)×100%
(5)
mAP=∑Ci=1AP(C)C×100%
(6)
式中:
TP——正例預(yù)測(cè)為正例的數(shù)量;
FP——負(fù)例預(yù)測(cè)為正例的數(shù)量;
FN——正例預(yù)測(cè)為負(fù)例的數(shù)量;
AP(C)——
類(lèi)別C的平均精確度即P-R曲線下的面積;
C——檢測(cè)類(lèi)別數(shù)量。
研究只有“Fertilizer application”一個(gè)類(lèi)別,故C值為1,由于本文檢測(cè)和識(shí)別任務(wù)實(shí)時(shí)性的需要,故將每幅圖像檢測(cè)所需時(shí)間也作為模型評(píng)價(jià)指標(biāo)之一。
2.3"基于YOLOv8的水稻田間人工施肥行為識(shí)別
2.3.1"YOLOv8網(wǎng)絡(luò)結(jié)構(gòu)
YOLOv8是一個(gè)可同時(shí)兼顧識(shí)別精度和檢測(cè)速度進(jìn)行多尺度目標(biāo)檢測(cè)的輕量級(jí)目標(biāo)檢測(cè)算法[14],網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
YOLOv8的網(wǎng)絡(luò)結(jié)構(gòu)主要由以下四部分組成:(1)輸入端:由馬賽克(Mosaic)數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框計(jì)算、自適應(yīng)灰度填充組成。(2)骨干網(wǎng)絡(luò):由Conv、C2f和SPPF結(jié)構(gòu)組成,其中C2f模塊參考YOLOv5的C3模塊和YOLOv7的ELAN[15]模塊的設(shè)計(jì)思想,通過(guò)增加更多的分支,從而獲得更加豐富的梯度流信息。(3)頸部網(wǎng)絡(luò):采用PAN結(jié)構(gòu)[16],PAN結(jié)構(gòu)的主要優(yōu)勢(shì)在于能夠有效利用不同尺度的特征信息,實(shí)現(xiàn)高效的特征融合,提升目標(biāo)檢測(cè)任務(wù)的性能。(4)頭部網(wǎng)絡(luò):采用解耦頭結(jié)構(gòu),減少參數(shù)數(shù)量和計(jì)算復(fù)雜度,同時(shí)增強(qiáng)模型的泛化能力和魯棒性。損失函數(shù)計(jì)算使用Task-Aligned Assigner正樣本分配策略[17],邊框回歸損失采用CIOU損失函數(shù)和Distribution Focal Loss[18],類(lèi)別分類(lèi)損失使用BCE Loss。
2.3.2"YOLOv8模型訓(xùn)練與檢測(cè)
模型輸入圖像尺寸為640像素×640像素,每批處理圖像為16,初始訓(xùn)練設(shè)置為400輪次,為防止模型過(guò)度擬合訓(xùn)練,patience設(shè)置為25,當(dāng)模型在驗(yàn)證集上連續(xù)25個(gè)輪次中的性能沒(méi)有顯著提升時(shí)提前停止訓(xùn)練,訓(xùn)練過(guò)程中記錄每一個(gè)訓(xùn)練輪次的損失值,損失值變化如圖3所示,損失值在40輪次開(kāi)始趨于穩(wěn)定,表明模型對(duì)數(shù)據(jù)的擬合能力不斷提高,在180輪次左右損失值在0.020附近波動(dòng)并達(dá)成收斂,表明模型達(dá)到了穩(wěn)定狀態(tài)。
訓(xùn)練后獲得的YOLOv8模型在測(cè)試集上檢測(cè),P值為96.3%、R值為94.5%、mAP值為96%,每幅圖像檢測(cè)時(shí)間為2.3ms。
為測(cè)試模型對(duì)不同尺寸目標(biāo)的檢測(cè)能力,又分別在大目標(biāo)、中目標(biāo)、小目標(biāo)三個(gè)測(cè)試集上單獨(dú)檢測(cè),結(jié)果如表2所示。試驗(yàn)結(jié)果表明,YOLOv8模型具有多尺度目標(biāo)檢測(cè)能力,對(duì)三種尺寸的目標(biāo)都有較好的檢測(cè)效果,但是在小尺寸目標(biāo)的數(shù)據(jù)集上檢測(cè)性能偏低。
2.4"基于YOLOv8-GS的水稻田間人工施肥行為識(shí)別
由于田間實(shí)際勞作場(chǎng)景面積較大,受實(shí)際應(yīng)用成本和應(yīng)用環(huán)境限制,不會(huì)在農(nóng)田大量布置網(wǎng)絡(luò)攝像機(jī),導(dǎo)致實(shí)際應(yīng)用時(shí),網(wǎng)絡(luò)攝像機(jī)獲取的數(shù)據(jù)大部分為小尺寸的目標(biāo),為增強(qiáng)模型的小目標(biāo)檢測(cè)能力,對(duì)現(xiàn)有的YOLOv8網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),使得模型更符合實(shí)際應(yīng)用需求。
2.4.1"增加檢測(cè)層
YOLOv8的網(wǎng)絡(luò)下采樣倍數(shù)較大,連續(xù)使用兩個(gè)3×3的卷積核進(jìn)行卷積操作,雖然可以提取更高級(jí)別的語(yǔ)義特征,但也導(dǎo)致較小目標(biāo)在下采樣過(guò)程中難以進(jìn)行有效的特征表示,為提高所建立的YOLOv8模型在小尺寸目標(biāo)上的檢測(cè)性能,在原有網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上,通過(guò)增加檢測(cè)層的方式提高網(wǎng)絡(luò)的感受野,增強(qiáng)網(wǎng)絡(luò)對(duì)小尺寸目標(biāo)特征信息的關(guān)注度,從而提升小尺寸目標(biāo)的檢測(cè)能力。改進(jìn)后的網(wǎng)絡(luò)增加了原特征提取過(guò)程中沒(méi)有進(jìn)行特征融合的160×160的檢測(cè)層,在特征融合過(guò)程中增加1次上采樣次數(shù),將較淺的特征信息與較深特征信息拼接,更多的保留小尺寸目標(biāo)的特征信息,如圖4所示。
2.4.2"增加全局注意力機(jī)制
注意力機(jī)制(Attention Mechanism)在深度學(xué)習(xí)中起重要作用,可以協(xié)助模型對(duì)輸入數(shù)據(jù)的關(guān)鍵信息進(jìn)行加權(quán)關(guān)注,從而提高模型的性能和效果[19],通過(guò)將注意力權(quán)重應(yīng)用在不同的圖像區(qū)域使模型可以更好地理解圖像的上下文信息。
全局注意力機(jī)制(Global Attention Mechanism,GAM)[20]是一種在目標(biāo)檢測(cè)模型中常用的注意力機(jī)制,通過(guò)對(duì)輸入的特征像素區(qū)域進(jìn)行加權(quán)關(guān)注,幫助模型理解全局的上下文信息。在特征融合階段增加GAM模塊,可以將不同層級(jí)的特征進(jìn)行加權(quán)融合,促使模型可以同時(shí)關(guān)注到低級(jí)與高級(jí)特征,從而提高模型對(duì)不同尺度目標(biāo)的檢測(cè)能力,通過(guò)在池化層(SPPF)前增加GAM模塊,可以提高感興趣區(qū)域的分辨率,全局注意力機(jī)制模塊的結(jié)構(gòu)如圖5所示。
GAM通過(guò)以下流程對(duì)輸入特征圖進(jìn)行增加權(quán)重:(1)輸入和特征提取:輸入特征圖像,通道數(shù)為N、長(zhǎng)為L(zhǎng)、寬為W,經(jīng)過(guò)特征提取后可以看作N個(gè)通道上的二維特征矩陣。(2)全局平均池化:對(duì)特征圖進(jìn)行全局平均池化操作,將每一個(gè)通道上的特征按照空間維度(L,W)進(jìn)行平均池化,得到每一個(gè)通道上的一個(gè)標(biāo)量值作為整個(gè)通道的特征。(3)縮放和激活:全局平均池化的結(jié)果進(jìn)行縮放和非線性激活函數(shù)操作。(4)權(quán)重計(jì)算:將縮放和激活后的特征進(jìn)行權(quán)重計(jì)算,得到N個(gè)通道上的權(quán)重向量,用來(lái)表示每一個(gè)通道在全局上的重要性。(5)特征加權(quán):將原始特征圖與計(jì)算得到的權(quán)重進(jìn)行逐通道的點(diǎn)乘操作,獲得加權(quán)后的特征圖。(6)最后將加權(quán)后的特征圖進(jìn)行重塑和融合,使其恢復(fù)到與輸入圖像相同的維度。通過(guò)在增加目標(biāo)檢測(cè)層的網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上引入全局注意力機(jī)制的方式進(jìn)行改進(jìn),使得新網(wǎng)絡(luò)結(jié)構(gòu)更能適應(yīng)研究任務(wù)的需求,對(duì)增加目標(biāo)檢測(cè)層和引入全局注意力機(jī)制的網(wǎng)絡(luò)命名為YOLOV8-GS,網(wǎng)絡(luò)結(jié)構(gòu)如表3所示。
2.4.3"YOLOv8-GS模型訓(xùn)練與檢測(cè)
YOLOv8-GS網(wǎng)絡(luò)使用與YOLOv8相同的參數(shù)設(shè)定進(jìn)行訓(xùn)練,獲得的模型在測(cè)試集上檢測(cè),P值為98.1%,較改進(jìn)前提升1.8%,R值為97.4%,較改進(jìn)前提升2.9%,mAP值為98.4%,較改進(jìn)前提升2.4%,檢測(cè)效果如圖6所示。結(jié)果表明,該網(wǎng)絡(luò)模型可以在含有非施肥人員的復(fù)雜背景下識(shí)別出人工施肥行為。
總計(jì)對(duì)1 054幅測(cè)試集樣本進(jìn)行檢測(cè),以檢出率作為驗(yàn)證模型測(cè)試集檢測(cè)效果的指標(biāo)之一,計(jì)算可得,檢出率為96.77%,每幅圖像檢測(cè)時(shí)間為1.7ms,結(jié)果證明YOLOv8-GS模型能夠?qū)Σ煌叨鹊哪繕?biāo)進(jìn)行快速準(zhǔn)確的識(shí)別和檢測(cè)。
檢出率=檢出目標(biāo)數(shù)量目標(biāo)總數(shù)×100%
3"試驗(yàn)結(jié)果與討論
3.1"消融試驗(yàn)
為驗(yàn)證YOLOv8-GS的改進(jìn)效果,采用消融試驗(yàn)的方式,對(duì)比不同改進(jìn)方式的提升效果。通過(guò)逐步移除檢測(cè)層與GAM的方式來(lái)評(píng)估其對(duì)模型性能影響。通過(guò)試驗(yàn)分析增加目標(biāo)檢測(cè)層和GAM對(duì)模型整體性能的貢獻(xiàn),觀察模型在445幅小尺寸目標(biāo)測(cè)試集上的表現(xiàn)情況,消融試驗(yàn)結(jié)果如表4所示。
試驗(yàn)結(jié)果表明,單獨(dú)增加檢測(cè)層,模型的P值提升1.6%、R值提升1.5%、mAP值提升1.7%,單獨(dú)增加GAM,模型的P值提升1.1%、R值提升2.1%、mAP值提升2.6%,同時(shí)增加目標(biāo)檢測(cè)層和GAM,模型P值提升1.6%、R值提升3.5%、mAP值提升3.3%,試驗(yàn)證明同時(shí)增加檢測(cè)層和GAM對(duì)模型性能提升最大。
3.2"對(duì)比試驗(yàn)
為進(jìn)一步評(píng)價(jià)本文提出的YOLOv8-GS模型在不同尺寸目標(biāo)數(shù)據(jù)集上的檢測(cè)性能是否比其他網(wǎng)絡(luò)更適合本研究檢測(cè)任務(wù)的需求,將YOLOv8-GS、YOLOv7、SSD、Faster R-CNN四種網(wǎng)絡(luò)在大尺寸目標(biāo)、中尺寸目標(biāo)、小尺寸目標(biāo)三個(gè)數(shù)據(jù)集上分別訓(xùn)練并比較其檢測(cè)效果。圖7是不同網(wǎng)絡(luò)模型在不同尺寸目標(biāo)數(shù)據(jù)集上訓(xùn)練時(shí)平均精度均值的變化曲線。
由圖7可以看出,四個(gè)模型在大尺寸目標(biāo)數(shù)據(jù)集上mAP均在前20個(gè)訓(xùn)練輪次快速提升至0.9以上,并在0.95附近波動(dòng)完成收斂,由于大尺寸目標(biāo)數(shù)據(jù)集樣本量較少,導(dǎo)致模型很容易受到噪聲或數(shù)據(jù)分布不均衡等因素的影響,所以模型在初始階段表現(xiàn)出較大的性能波動(dòng)屬于正常現(xiàn)象。Faster R-CNN與SSD得益于更為復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)和更深更底層的特征提取器,使其mAP的收斂速度要優(yōu)于YOLOv8-GS與YOLOv7,但是YOLOv8-GS與YOLOv7的mAP指標(biāo)表現(xiàn)要優(yōu)于Faster R-CNN與SSD;在中尺寸目標(biāo)數(shù)據(jù)集上,隨著數(shù)據(jù)集樣本量的提升,模型訓(xùn)練表現(xiàn)出更好的訓(xùn)練效果,由于SSD使用固定大小的先驗(yàn)框進(jìn)行目標(biāo)匹配和預(yù)測(cè),先驗(yàn)框的大小不再適應(yīng)當(dāng)前目標(biāo)尺度的變化,所以SSD的mAP指標(biāo)表現(xiàn)略低,而其他三個(gè)網(wǎng)絡(luò)則使用更為靈活的錨框和區(qū)域提議機(jī)制,可以更好地適應(yīng)目標(biāo)尺度的變化;在小尺寸目標(biāo)數(shù)據(jù)集上由于特征提取困難、環(huán)境噪聲影響增大導(dǎo)致mAP值波動(dòng)劇烈,此時(shí)YOLOv8-GS的mAP指標(biāo)明顯優(yōu)于其他三個(gè)網(wǎng)絡(luò)。
不同網(wǎng)絡(luò)在大、中、小尺寸目標(biāo)測(cè)試集上的檢測(cè)結(jié)果對(duì)比如表5所示。試驗(yàn)結(jié)果證明,YOLOv8-GS網(wǎng)絡(luò)模型在本研究的多尺度目標(biāo)檢測(cè)任務(wù)中,檢測(cè)效果優(yōu)于YOLOv7、Faster R-CNN和SSD網(wǎng)絡(luò)模型。
4"結(jié)論
1) "提出一種基于YOLOv8改進(jìn)的水稻田間人工施肥行為檢測(cè)模型YOLOv8-GS,P為98.1%、R為97.4%、mAP為98.4%、每幅圖像檢測(cè)時(shí)間1.7ms,在兼顧檢測(cè)速度的同時(shí),擴(kuò)大模型的感受野,增強(qiáng)模型對(duì)不同尺度特征信息的關(guān)注度,實(shí)現(xiàn)水稻田間人工施肥行為的準(zhǔn)確檢測(cè)。
2) "通過(guò)逐步移除目標(biāo)檢測(cè)層和GAM的消融試驗(yàn),驗(yàn)證模型的改進(jìn)性能,證明同時(shí)增加檢測(cè)層和GAM的YOLOv8-GS網(wǎng)絡(luò)模型對(duì)小尺寸目標(biāo)檢測(cè)性能提升最大,mAP為98.6%,比原網(wǎng)絡(luò)提升3.3%。
3) "對(duì)比四個(gè)網(wǎng)絡(luò)模型在不同尺寸目標(biāo)測(cè)試集上的檢測(cè)結(jié)果,在大、中尺寸目標(biāo)任務(wù)中,四個(gè)網(wǎng)絡(luò)模型檢出率與mAP均達(dá)到95%以上,在小尺寸目標(biāo)任務(wù)中YOLOv8-GS的檢出率為92.8%、mAP為98.3%。結(jié)果表明,YOLOv8-GS比Faster R-CNN、SSD、YOLOv7更適合本研究的檢測(cè)任務(wù),為后續(xù)水稻基地應(yīng)用部署化肥施用行為識(shí)別裝備等工作提供依據(jù)。
參"考"文"獻(xiàn)
[1]
鄧毓灝, 鄺美杰, 黑澤文, 等. 水稻間作生產(chǎn)模式的綜合效應(yīng)研究進(jìn)展及展望[J]. 山東農(nóng)業(yè)科學(xué), 2023, 55(6): 1-13.
Deng Yuhao, Kuang Meijie, Hei Zewen, et al. Research progress and prospect of integrated effects of rice intercropping production patterns [J]. Shandong Agricultural Sciences, 2023, 55(6): 1-13.
[2]
黃鉆華, 趙林蓉. 有機(jī)肥替代部分化肥對(duì)水稻產(chǎn)量及土壤質(zhì)量的影響[J]. 農(nóng)業(yè)科技通訊, 2023(3): 104-106, 195.
[3]
劉芳, 劉帥. 化肥施用量對(duì)中國(guó)糧食產(chǎn)量的影響分析[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào), 2021, 42(8): 92-100.
Liu Fang, Liu Shuai. Analysis of the effect of chemical fertilizer application on grain yield in China [J]. Journal of Chinese Agricultural Mechanization, 2021, 42(8): 92-100.
[4]
吳英英. 水稻化肥減量增效施用技術(shù)試驗(yàn)研究[J]. 種子科技, 2023, 41(8): 4-6.
[5]
Ghabri S, Ouarda W, Alimi A M. Towards human behavior recognition based on spatio temporal features and support vector machines [C]. International Conference on Machine Vision, 2017.
[6]
Zheng B, Chen L, Wu M, et al. Skeleton-based action recognition using two-stream graph convolutional network with pose refinement [C]. Chinese Control Conference. IEEE, 2022: 6353-6356.
[7]
李子茂, 余慧, 夏夢(mèng), 等. 基于圖像特征融合的農(nóng)事活動(dòng)行為的識(shí)別[J]. 湖南農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版), 2021, 47(5): 603-608.
Li Zimao, Yu Hui, Xia Meng, et al. Recognition of the agricultural activities based on image feature fusion [J]. Journal of Hunan Agricultural University (Natural Sciences), 2021, 47(5): 603-608.
[8]
趙守耀, 陸輝山, 王福杰, 等. 基于輪廓特征的單只蛋雞行為識(shí)別方法[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào), 2022, 43(2): 143-147.
Zhao Shouyao, Lu Huishan, Wang Fujie, et al. Recognition method of single layer behavior based on contour feature [J]. Journal of Chinese Agricultural Mechanization, 2022, 43(2): 143-147.
[9]
郭建軍, 何國(guó)煌, 徐龍琴, 等. 基于改進(jìn)YOLOv4的肉鴿行為檢測(cè)模型研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2023, 54(4): 347-355.
Guo Jianjun, He Guohuang, Xu Longqin, et al. Pigeon behavior detection model based on improved YOLOv4 [J]. Transactions of the Chinese Society of Agricultural Machinery, 2023, 54(4): 347-355.
[10]
王政, 許興時(shí), 華志新, 等. 融合YOLOv5n與通道剪枝算法的輕量化奶牛發(fā)情行為識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2022, 54(5): 130-140.
Wang Zheng, Xu Xingshi, Hua Zhixin, et al. Lightweight recognition for the oestrus behavior of dairy cows combining YOLOv5n and channel pruning [J]. Transactions of the Chinese Society of Agricultural Engineering, 2022, 54(5): 130-140.
[11]
楊斷利, 王永勝, 陳輝, 等. 基于改進(jìn)YOLO v6-tiny的蛋雞啄羽行為識(shí)別與個(gè)體分類(lèi)[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2023, 38(23): 268-277.
Yang Duanli, Wang Yongsheng, Chen Hui, et al. Feather pecking abnormal behavior identification and individual classification method of laying hens based on improved YOLO v6-tiny [J]. Transactions of the Chinese Society of Agricultural Machinery, 2023, 38(23): 268-277.
[12]
Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment: From error visibility to structural similarity [J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.
[13]
Hore A, Ziou D. Image quality metrics: PSNR vs. SSIM [C]. IEEE International Conference on Pattern Recognition, 2010.
[14]
Zhang C Q, Chen Y S, Liu X D, et al. Research on recyclable waste identification method based on YOLOv8 [J]. Computer Science and Application, 2023, 13(5): 1019-1025.
[15]
Zhang X D, Zeng H, Guo S, et al. Efficient long-range attention network for image super-resolution [C]. European Conference on Computer Vision, 2022.
[16]
Wang W, Xie E, Song X, et al. Efficient and accurate arbitrary-shaped text detection with pixel aggregation network [C]. IEEE/CVF International Conference on Computer Vision, 2019.
[17]
Feng C, Zhong Y, Gao Y, et al. TOOD: Task-aligned one-stage object detection [C]. IEE/CVF International Conference on Computer Vision, 2021.
[18]
袁紅春, 陶磊. 基于改進(jìn)的YOLOv8商業(yè)漁船電子監(jiān)控?cái)?shù)據(jù)中魚(yú)類(lèi)的檢測(cè)與識(shí)別[J]. 大連海洋大學(xué)學(xué)報(bào), 2023, 38(3): 533-542.
Yuan Hongchun, Tao Lei. Detection and identification of fish in electronic monitoring data of commercial fishing vessels based on improved YOLOv8 [J]. Journal of Dalian Fisheries University,2023,38(3):533-542.
[19]
徐誠(chéng)極, 王曉峰, 楊亞?wèn)|. Attention-YOLO:引入注意力機(jī)制的YOLO檢測(cè)算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2019, 55(6): 13-23, 125.
Xu Chengji, Wang Xiaofeng, Yang Yadong. Attention-YOLO: YOLO detection algorithm that introduces attention mechanism [J]. Computer Engineering and Applications, 2019, 55(6): 13-23, 125.
[20]
Liu Y, Shao Z, Hoffmann N. Global attention mechanism: retain information to enhance channel-spatial interactions [J]. arXiv preprint arXiv, 2012.05561, 2021.
中國(guó)農(nóng)機(jī)化學(xué)報(bào)2025年1期