邢潔潔,謝定進(jìn),楊然兵※,張喜瑞,孫文斌,伍世斌
基于YOLOv5s的農(nóng)田垃圾輕量化檢測(cè)方法
邢潔潔1,謝定進(jìn)1,楊然兵1※,張喜瑞1,孫文斌2,伍世斌1
(1. 海南大學(xué)機(jī)電工程學(xué)院,海口 570228;2. 海南大學(xué)信息與通信工程學(xué)院,???570228)
針對(duì)目前垃圾檢測(cè)算法在農(nóng)田復(fù)雜環(huán)境下檢測(cè)精度不高、檢測(cè)效率低,模型復(fù)雜等問題,該研究提出了基于YOLOv5s的農(nóng)田垃圾輕量化檢測(cè)方法。首先,使用輕量級(jí)分類網(wǎng)絡(luò)ShuffleNetV2的構(gòu)建單元作為特征提取網(wǎng)絡(luò),降低模型的計(jì)算量和參數(shù)量,提高運(yùn)行速度,以滿足移動(dòng)端的應(yīng)用要求;其次,為應(yīng)對(duì)模型輕量化后帶來的檢測(cè)精度降低,該文相繼對(duì)ShuffleNetV2的構(gòu)建單元進(jìn)行了卷積核擴(kuò)大化改進(jìn)和激活函數(shù)優(yōu)化,在增加部分計(jì)算量的前提下提高了模型精度;此外,為增強(qiáng)模型在田間環(huán)境下對(duì)目標(biāo)的精準(zhǔn)定位能力,該研究針對(duì)邊界框損失函數(shù)進(jìn)行了優(yōu)化,將CIoU邊界框損失函數(shù)高寬縱橫比的損失項(xiàng)拆分為預(yù)測(cè)框的高寬分別與最小外接框高寬的差值,然后通過不斷迭代減小差值,提高模型的收斂速度和回歸精度。試驗(yàn)結(jié)果顯示,最終的改進(jìn)模型檢測(cè)精度達(dá)到了90.9%,此時(shí)檢測(cè)速度為74 ms/幀,計(jì)算量?jī)H為3.6 GFLOPs,與當(dāng)前主流的目標(biāo)檢測(cè)算法SSD、YOLOv3等相比,不僅具有更優(yōu)越的檢測(cè)精度和推理速度,同時(shí)還大幅減少了計(jì)算量;最后,將改進(jìn)前后的模型部署到Jetson TX1和Raspberry 4B 兩種邊緣計(jì)算設(shè)備上進(jìn)行測(cè)試,測(cè)試結(jié)果表明,改進(jìn)后的YOLOv5s模型在邊緣計(jì)算設(shè)備上的檢測(cè)速度相對(duì)原模型提高了至少20%,同時(shí)保持了較好的檢測(cè)效果,平衡了邊緣計(jì)算設(shè)備對(duì)精度和速度的性能需求,為田間垃圾檢測(cè)任務(wù)提供了參考。
神經(jīng)網(wǎng)絡(luò);垃圾;目標(biāo)檢測(cè);YOLOv5s;輕量化;損失函數(shù);邊緣計(jì)算
在現(xiàn)代農(nóng)業(yè)生產(chǎn)中,地膜、農(nóng)藥等農(nóng)資產(chǎn)品發(fā)揮著重要作用,有效保障了農(nóng)作物的快速生長(zhǎng)[1-2]。但是農(nóng)資產(chǎn)品在使用的同時(shí)會(huì)產(chǎn)生廢棄垃圾,如地膜殘留碎片、農(nóng)藥廢棄瓶、種子包裝袋等。由于使用者處理不科學(xué),隨處丟棄,導(dǎo)致田間地頭積攢了大量的廢棄垃圾,給土壤環(huán)境和水質(zhì)帶來了嚴(yán)重破壞[3-4]。為了遏制農(nóng)田垃圾帶來的生態(tài)破壞,保障農(nóng)業(yè)可持續(xù)發(fā)展,有必要對(duì)農(nóng)田垃圾進(jìn)行智能分揀。目前農(nóng)田垃圾的分揀仍依賴人工,工作強(qiáng)度大、效率低,且存在一定的危險(xiǎn)性。隨著智慧農(nóng)業(yè)和人工智能技術(shù)的快速發(fā)展,農(nóng)田垃圾拾撿智能化勢(shì)在必行。當(dāng)前,農(nóng)田垃圾智能分揀研究仍處于探索階段[5-6],然而,實(shí)現(xiàn)田間復(fù)雜環(huán)境下的垃圾精準(zhǔn)識(shí)別是完成智能化分揀的基礎(chǔ),具有重要的研究意義。
隨著深度學(xué)習(xí)理論的不斷深入發(fā)展以及軟硬件性能的提高,卷積神經(jīng)網(wǎng)絡(luò)被應(yīng)用于諸多領(lǐng)域[7-8]。有關(guān)垃圾檢測(cè)的算法也被相繼提出。Liu等[9]基于YOLOv2網(wǎng)絡(luò)進(jìn)行了輕量化改進(jìn),然后將改進(jìn)模型移植到嵌入式模塊中實(shí)現(xiàn)垃圾的自動(dòng)檢測(cè),該方法相對(duì)傳統(tǒng)的監(jiān)控系統(tǒng),不僅降低了成本,還提高了檢測(cè)精度;Zeng等[10]提出了一種新的高光譜圖像分類網(wǎng)絡(luò)MSCNN(Multi-Scale Convolutional Neural Network,MSCNN),對(duì)高光譜圖像的像素進(jìn)行分類并生成二值垃圾分割圖,最后再通過垃圾分割圖提取垃圾所在的區(qū)域位置和大?。籛ang等[11]在Faster-RCNN上應(yīng)用了一種新的數(shù)據(jù)融合和增強(qiáng)策略,試驗(yàn)結(jié)果表明,經(jīng)過訓(xùn)練后得到的模型具有良好的泛化能力和高精度檢測(cè)能力,能準(zhǔn)確檢測(cè)出城市中的垃圾;Gou等[12]在YOLOv4的特征提取網(wǎng)絡(luò)中加入了CBAM注意力模塊,并引入了焦點(diǎn)函數(shù)Focal loss,解決了原網(wǎng)絡(luò)模型檢測(cè)精度不高,不同數(shù)量的類別性能差異大的問題,最終的試驗(yàn)結(jié)果也驗(yàn)證了所改進(jìn)檢測(cè)器的有效性;Deng等[13]在Mask R-CNN網(wǎng)絡(luò)的基礎(chǔ)上,引入了空洞卷積以及空間通道注意力機(jī)制模塊,提高了模型對(duì)小目標(biāo)的特征提取能力,同時(shí)還在原始網(wǎng)絡(luò)的基礎(chǔ)上優(yōu)化了IoU計(jì)算,提高了實(shí)例分割的準(zhǔn)確性;王子鵬等[14]為解決智能垃圾桶檢測(cè)效率低的難題,將輕量級(jí)分類網(wǎng)絡(luò)MobileNetv3代替掉YOLOv3的主干網(wǎng)絡(luò)Darknet53,并增加空間金字塔池化結(jié)構(gòu)和檢測(cè)輸出層,最終在減小網(wǎng)絡(luò)模型復(fù)雜度的同時(shí)保證了模型檢測(cè)精度。雖然以上研究在垃圾檢測(cè)方面已經(jīng)取得了很大的進(jìn)展,但關(guān)于農(nóng)田環(huán)境下的垃圾檢測(cè)研究較少,本文就現(xiàn)有模型在農(nóng)田復(fù)雜環(huán)境下垃圾檢測(cè)精度不高、檢測(cè)效率低、模型復(fù)雜的問題,開展了關(guān)于農(nóng)田垃圾的輕量化檢測(cè)研究,通過輕量化特征提取網(wǎng)絡(luò)的方式來達(dá)到降低模型復(fù)雜度,提高運(yùn)行速度的目的。此外,為提高田間環(huán)境下的模型檢測(cè)性能,對(duì)檢測(cè)模型的邊界框損失函數(shù)進(jìn)行了優(yōu)化,減小田間檢測(cè)時(shí)的目標(biāo)定位誤差,以此滿足田間復(fù)雜環(huán)境下的垃圾檢測(cè)任務(wù)需求。
本文的檢測(cè)對(duì)象為農(nóng)田常見的地頭垃圾,數(shù)據(jù)集主要由農(nóng)藥廢棄瓶,農(nóng)藥袋和種子包裝袋,地膜殘塊三種類別組成。采集設(shè)備為一臺(tái)HONOR 20Pro,拍攝圖像像素大小為4 000×3 000。拍攝時(shí),為了接近移動(dòng)檢測(cè)平臺(tái)板載相機(jī)的離地面高度,使其獲得與移動(dòng)平臺(tái)板載相機(jī)相同的圖像視野,相機(jī)離地面水平高度為50 cm,共拍攝了1 000張圖片。為了減小計(jì)算負(fù)擔(dān)和適應(yīng)移動(dòng)檢測(cè)平臺(tái)板載相機(jī)的分辨率,這里將采集到的圖像統(tǒng)一處理為640×640像素。部分?jǐn)?shù)據(jù)樣本如圖1所示,采集場(chǎng)景包括晴天、多云、陰天,目標(biāo)半體被泥土掩埋,雜草遮擋等多種不同環(huán)境狀態(tài),盡可能提高訓(xùn)練模型在不同環(huán)境下對(duì)圖像的辨識(shí)能力。
a. 晴天a. Sunb. 雜草遮擋b. Weeds shadec. 泥土掩埋c. Dirt burial
由于大田環(huán)境復(fù)雜,田地垃圾的風(fēng)化程度,目標(biāo)表面被泥土污染程度以及日照強(qiáng)度等干擾因素都會(huì)影響目標(biāo)辨識(shí)度,因此,為提高模型的泛化能力,如圖2所示,從拍攝的圖片中選出了部分樣本進(jìn)行亮度增強(qiáng)、噪點(diǎn)添加以及模糊化處理,提高樣本的多樣性。
圖2 數(shù)據(jù)處理
最終將數(shù)據(jù)集擴(kuò)充到了1 500張,其中80%作為訓(xùn)練集,20%作為驗(yàn)證集。
在移動(dòng)端的檢測(cè)任務(wù)中,檢測(cè)精度和檢測(cè)速度以及模型體積占用內(nèi)存空間的大小是衡量模型是否能應(yīng)用在工程上的重要參考指標(biāo),由文獻(xiàn)[15]可知,YOLOv5s是一種性能優(yōu)異的單階段目標(biāo)檢測(cè)算法,它集成了YOLOv1-YOLOv4算法的優(yōu)點(diǎn),具有檢測(cè)精度高、推理速度快、模型體積占用緩存空間小的特點(diǎn)。目前在目標(biāo)檢測(cè)領(lǐng)域也獲得了廣泛應(yīng)用[16-17],因此,YOLOv5s非常適合作為本次研究的基礎(chǔ)算法,考慮到移動(dòng)端邊緣計(jì)算設(shè)備的計(jì)算能力和內(nèi)存空間的大小,本研究基于YOLOv5s做了進(jìn)一步的適應(yīng)性改進(jìn),優(yōu)化了模型性能。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
注:CBRM表示由卷積層Conv、BN層(Batch Normalization)、Relu激活函數(shù)以及池化層(Maxpool)組成的卷積模塊;CBS表示由Conv、BN以及SiLU激活函數(shù)組成的卷積模塊;S_Block表示輕量級(jí)網(wǎng)絡(luò)單元模塊;s=n表示卷積步長(zhǎng)為n;Concate表示特征圖融合;Upsample表示上采樣;P3、P4、P5表示3個(gè)不同尺度的檢測(cè)頭。
由圖3可知,基于改進(jìn)YOLOv5s的農(nóng)田垃圾檢測(cè)模型網(wǎng)絡(luò)結(jié)構(gòu)分為4部分,即輸入端(Input)、特征提取網(wǎng)絡(luò)(Backbone)、特征融合網(wǎng)絡(luò)(Neck)和檢測(cè)輸出(Prediction Head)端,輸入端保留了原YOLOv5s模型的圖像預(yù)處理方式和錨框生成機(jī)制優(yōu)化策略,包括Mosiac數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框計(jì)算、自適應(yīng)圖片縮放[18];為了降低模型計(jì)算量和參數(shù)量,提高運(yùn)行速度,本文使用輕量級(jí)網(wǎng)絡(luò)單元模塊S_Block進(jìn)行農(nóng)田垃圾的特征提取,該模塊是通過改進(jìn)輕量級(jí)分類網(wǎng)絡(luò)ShuffleNetV2[19]的構(gòu)建單元而得到的特征提取模塊,能在保持檢測(cè)精度的前提下降低模型復(fù)雜度;特征融合網(wǎng)絡(luò)沿用了YOLOv5s的結(jié)構(gòu),通過FPN(Feature Pyramid Networks, FPN)[20]和PAN(Path Aggregation Network, PAN)[21]的組合結(jié)構(gòu),實(shí)現(xiàn)了模型從不同主干對(duì)不同檢測(cè)層的參數(shù)聚合;輸出端設(shè)置了3個(gè)不同尺度的檢測(cè)頭,主要對(duì)不同大小的特征圖進(jìn)行目標(biāo)位置、類別、以及置信度的判斷,并輸出具有目標(biāo)類別和預(yù)測(cè)邊界框標(biāo)記信息的相應(yīng)向量。
2.2.1 特征提取網(wǎng)絡(luò)輕量化
在原YOLOv5s檢測(cè)模型中,其特征提取網(wǎng)絡(luò)使用的是CSP-Darknet53結(jié)構(gòu),該結(jié)構(gòu)通過跨階段連接的方式將基礎(chǔ)層的特征映射合并,加深網(wǎng)絡(luò)的同時(shí)避免了梯度爆炸和梯度消失。然而,雖然深層神經(jīng)網(wǎng)絡(luò)能夠增強(qiáng)模型的特征提取能力,但是,由于邊緣計(jì)算設(shè)備計(jì)算能力有限,基于ARM的移動(dòng)設(shè)備無法承擔(dān)繁重的計(jì)算量,模型復(fù)雜度過大反而會(huì)影響最終的檢測(cè)性能?;诖耍疚膶?duì)YOLOv5s的特征提取網(wǎng)絡(luò)進(jìn)行了輕量化改進(jìn)。如圖4所示,圖中的兩個(gè)網(wǎng)絡(luò)單元是輕量級(jí)分類網(wǎng)絡(luò)ShuffleNetV2的構(gòu)建單元,沿用了ShuffleNetV1[22]的通道混洗(Channel Shuffle)和深度可分離卷積操作,在降低計(jì)算量的同時(shí)提高了檢測(cè)精度。在圖4a的基本單元中,當(dāng)特征圖輸入時(shí),網(wǎng)絡(luò)單元先對(duì)其進(jìn)行等通道劃分,分為兩個(gè)分支,其中一個(gè)分支直接向下傳遞,另一個(gè)分支則依次經(jīng)過3個(gè)步長(zhǎng)為1的卷積,且輸入輸出通道數(shù)相同,降低了內(nèi)存訪問量,其中,兩個(gè)1×1卷積是常規(guī)卷積,3×3卷積是深度可分離卷積的深度卷積(Depthwise Convolution,DWConv),與普通卷積不同,深度可分離卷積由深度卷積和逐點(diǎn)卷積構(gòu)成,深度卷積的每個(gè)卷積核都有對(duì)應(yīng)的輸入輸出通道,計(jì)算量和參數(shù)量是原來的1/(為輸入通道數(shù)),其卷積產(chǎn)生的分組數(shù)量等于輸入通道數(shù)量,而逐點(diǎn)卷積本質(zhì)上為通道的1×1卷積,在深度卷積后使用,彌補(bǔ)DWConv卷積缺少的特征交互過程,因此,相比于常規(guī)卷積,深度可分離卷積的參數(shù)量和計(jì)算成本更低[23-24]。卷積完后,兩個(gè)分支會(huì)進(jìn)行拼接操作,通道數(shù)相加以及特征融合,最后再進(jìn)行通道隨機(jī)化,使得各通道之間的信息相互流通;與基礎(chǔ)單元模塊不同,圖4b的下采樣單元中,取消了通道切分操作,特征圖直接輸入到兩個(gè)步距為2的分支中進(jìn)行高寬降維,輸出后再進(jìn)行拼接操作,此時(shí)特征圖高寬減半,通道數(shù)擴(kuò)增了一倍,加大了網(wǎng)絡(luò)寬度,在不顯著增加計(jì)算量的情況下提高了網(wǎng)絡(luò)的特征提取能力,最后再進(jìn)行通道隨機(jī)化,加強(qiáng)各通道之間的信息融合。
2.2.2 卷積核擴(kuò)大化
特征提取網(wǎng)絡(luò)使用圖4的網(wǎng)絡(luò)單元進(jìn)行重構(gòu)后,由于網(wǎng)絡(luò)深度和卷積數(shù)量的減少,新模型的計(jì)算量和參數(shù)量相對(duì)原模型將會(huì)大幅削減,對(duì)應(yīng)的特征提取能力也會(huì)減弱,這將容易造成特征圖部分細(xì)節(jié)特征丟失,從而影響最終的檢測(cè)精度。在神經(jīng)網(wǎng)絡(luò)中,感受野是影響網(wǎng)絡(luò)性能的重要指標(biāo),更大的感受野可以提取到更多的細(xì)節(jié)特征[25],因此,可通過擴(kuò)大感受野來提高模型的檢測(cè)精度,感受野的反向計(jì)算式如式(1)所示。
式中R是第層卷積層的感受野;R1是第+1層的感受野,S是第層的卷積步長(zhǎng);K是第層的卷積核大小。感受野的大小不僅卷積核大小有關(guān),還與卷積步長(zhǎng)有關(guān),當(dāng)步長(zhǎng)過大時(shí)會(huì)影響卷積層對(duì)細(xì)節(jié)特征的提取,造成部分邊緣特征丟失,因此本文將圖4中網(wǎng)絡(luò)單元的卷積步長(zhǎng)保持不變,將深度卷積(DWConv)的卷積核進(jìn)行擴(kuò)張,即將3×3的卷積核尺寸改為5×5,增大網(wǎng)絡(luò)感受野,使其提取到高層語義信息,提高模型精度。
注:Channel split表示通道切分;BN表示批量歸一化操作;ReLU是激活函數(shù);Conv表示卷積;Concate表示通道相加,特征融合;Stride=2表示使用步長(zhǎng)為2的深度卷積實(shí)現(xiàn)空間下采樣。
Note: Channel split means channel slicing; BN means batch normalization operation; ReLU is the activation function; Conv represents convolution; Concate means channel addition and feature fusion; and Stride=2 means using depth convolution with step size of 2 to realize spatial down sampling.
圖4 ShuffleNetV2構(gòu)建單元
Fig.4 ShuffleNetV2 building block
2.2.3 激活函數(shù)優(yōu)化
在多層神經(jīng)網(wǎng)絡(luò)中,激活函數(shù)承擔(dān)著神經(jīng)元上下節(jié)點(diǎn)間由線性向非線性轉(zhuǎn)化的任務(wù),非線性激活函數(shù)具有較強(qiáng)的網(wǎng)絡(luò)逼近能力,能夠促使深層神經(jīng)網(wǎng)絡(luò)的表達(dá)能力更加強(qiáng)大,由圖4的網(wǎng)絡(luò)單元模塊可知,網(wǎng)絡(luò)中使用了ReLU非線性激活函數(shù),該激活函數(shù)具有加快收斂速度,緩解梯度消失等優(yōu)點(diǎn)[26]。如圖5所示,當(dāng)神經(jīng)元激活值進(jìn)入負(fù)半?yún)^(qū)時(shí),ReLU激活函數(shù)輸出截?cái)酁榱銓?shí)現(xiàn)非線性,此時(shí)梯度為0,容易出現(xiàn)部分神經(jīng)元壞死的現(xiàn)象,從而使網(wǎng)絡(luò)變得稀疏。當(dāng)函數(shù)處于正半?yún)^(qū)時(shí),梯度始終為1,不會(huì)出現(xiàn)梯度飽和、梯度消失的問題。因此該函數(shù)只能靠輸入小于0時(shí)實(shí)現(xiàn)非線性,相比之下,SiLU激活函數(shù)全域不存在單調(diào)增減的情況,該函數(shù)無上界,有下界,具有較好的非線性能力和自穩(wěn)定特性,既保留了ReLU激活函數(shù)的優(yōu)點(diǎn),又能有效提高深層神經(jīng)網(wǎng)絡(luò)的表征能力?;诖耍@里將SiLU激活函數(shù)引入到圖4的網(wǎng)絡(luò)單元中,替換掉ReLU激活函數(shù),提高模型的檢測(cè)精度。
圖5 激活函數(shù)對(duì)比圖
目標(biāo)檢測(cè)任務(wù)中目標(biāo)定位是實(shí)現(xiàn)準(zhǔn)確識(shí)別的關(guān)鍵,需要依賴邊界框回歸模塊來完成定位任務(wù),而邊界框回歸是指使用矩形邊界框去預(yù)測(cè)目標(biāo)在圖像中的位置,然后不斷細(xì)化預(yù)測(cè)邊界框的位置,這個(gè)過程在神經(jīng)網(wǎng)絡(luò)中需要依靠邊界框損失函數(shù)來完成預(yù)測(cè)框位置的修正。在本文的農(nóng)田垃圾檢測(cè)任務(wù)中,由于田間環(huán)境復(fù)雜,在一定程度上會(huì)影響目標(biāo)的定位精度,為解決這一問題,本文研究了邊界框損失函數(shù)對(duì)模型性能的影響,希望通過優(yōu)化邊界框損失函數(shù),減小目標(biāo)定位誤差。
注:ρ表示預(yù)測(cè)框和真實(shí)框中心點(diǎn)坐標(biāo)之間的歐氏距離,b、bgt分別代表預(yù)測(cè)框和真實(shí)框的中心點(diǎn),c代表的是能夠同時(shí)包含預(yù)測(cè)框和真實(shí)框的最小閉包區(qū)域的對(duì)角線距離。
在原YOLOv5s檢測(cè)模型中使用的是CIoU邊界框損失函數(shù),如圖6所示,該損失函數(shù)通過最小化預(yù)測(cè)框和真實(shí)框兩個(gè)中心點(diǎn)的距離來實(shí)現(xiàn)回歸過程,于此同時(shí),為了加快收斂速度,CIoU損失函數(shù)還增加了高寬縱橫比的損失項(xiàng),盡可能的保證預(yù)測(cè)框和真實(shí)框的高寬縱橫比更為接近。具體計(jì)算方法如式(2)~(5)所示:
式中是衡量預(yù)測(cè)框和真實(shí)框高寬比例差值的歸一化參數(shù),值在0到π/4之間,是衡量高寬比例損失和IoU損失的平衡因子。但根據(jù)的定義可知,反應(yīng)的是預(yù)測(cè)框和真實(shí)框縱橫比的差異,預(yù)測(cè)框回歸過程中,一旦預(yù)測(cè)框和真實(shí)框的高寬縱橫比呈現(xiàn)線性比例時(shí),=0,此時(shí)CIoU損失函數(shù)的損失項(xiàng)便不再起作用。除此之外,由于關(guān)于預(yù)測(cè)框的高和寬偏導(dǎo)正負(fù)符號(hào)相反,這將導(dǎo)致預(yù)測(cè)框的高和寬一個(gè)增大,另一個(gè)必然減小,高寬不能同時(shí)增加或減少,抑制了模型的回歸優(yōu)化速度。為促使模型在復(fù)雜的田間環(huán)境下能具有更精準(zhǔn)的目標(biāo)定位能力,針對(duì)上文所提到的問題,本文引入了EIoU[27]邊界框損失函數(shù),在CIoU邊界框損失函數(shù)懲罰項(xiàng)的基礎(chǔ)上將預(yù)測(cè)框和真實(shí)框縱橫比的損失項(xiàng)拆分成預(yù)測(cè)框的高寬分別與最小外接框高寬的差值,通過最小化差值使得模型具有更快的收斂速度,并提高預(yù)測(cè)框的回歸精度。EIoU的損失計(jì)算如式(6)所示:
式中C、C分別表示覆蓋真實(shí)框和預(yù)測(cè)框的最小外接框的高和寬,IoU、L、L分別表示預(yù)測(cè)框和真實(shí)框的重疊損失、中心點(diǎn)距離損失、以及高寬損失。
本文模型均在Window 10操作系統(tǒng)下進(jìn)行訓(xùn)練,主機(jī)CPU為Intel i5-10500,GPU為NVIDIA GTX 3060顯卡,顯卡內(nèi)存大小為12 G,采用Pytorch深度學(xué)習(xí)框架,CUDA版本為11.1。
由于數(shù)據(jù)集較小,為了防止過擬合且加快收斂速度,本文使用預(yù)訓(xùn)練權(quán)重進(jìn)行遷移學(xué)習(xí),并使用隨機(jī)梯度下降法(Stochastic Gradient Descent, SGD)作為優(yōu)化器來對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,加快訓(xùn)練過程。試驗(yàn)初始學(xué)習(xí)率設(shè)為0.001,批量大小為32,權(quán)重衰退系數(shù)設(shè)為0.001,動(dòng)量因子設(shè)為0.95,共迭代300輪。
召回率()表示分類器中正確預(yù)測(cè)數(shù)量占總正例的比例,如式(8)所示:
式中TP表示被正確劃分的正樣本,F(xiàn)P表示被錯(cuò)誤劃分的負(fù)樣本,F(xiàn)N表示被錯(cuò)誤劃分的正樣本。
3.3.1 特征提取網(wǎng)絡(luò)輕量化改進(jìn)結(jié)果分析
本小節(jié)主要對(duì)2.2節(jié)做的輕量化改進(jìn)方法進(jìn)行驗(yàn)證和分析。由于現(xiàn)有模型計(jì)算量和參數(shù)量大,占用芯片內(nèi)存空間,且運(yùn)行效率低下等原因影響了模型在移動(dòng)端的應(yīng)用部署,為使農(nóng)田垃圾檢測(cè)模型能滿足移動(dòng)端應(yīng)用的需要,本次研究基于YOLOv5s做了輕量化改進(jìn)并進(jìn)行了相關(guān)試驗(yàn),試驗(yàn)結(jié)果如表1所示。
表1 主干網(wǎng)絡(luò)輕量化消融對(duì)比試驗(yàn)
注:“×”表示不使用該項(xiàng)改進(jìn)因素,“√”表示使用該項(xiàng)改進(jìn)因素;Version_1表示原YOLOv5s模型的主干網(wǎng)絡(luò)由ShuffleNetV2的網(wǎng)絡(luò)單元重構(gòu)。
Note: “×” means not to use the improvement factor, “√” means to use the improvement factor;Version_1 indicates that the backbone network of the original YOLOv5s model is reconstructed by the network unit of ShuffleNetV2.
根據(jù)表1的消融對(duì)比試驗(yàn)可知,YOLOv5s模型經(jīng)過輕量化改進(jìn)后,計(jì)算量、參數(shù)量以及模型體積都得到了大幅度的降低;同時(shí),由于特征提取網(wǎng)絡(luò)輕量化后,網(wǎng)絡(luò)深度降低,卷積數(shù)量減少,主干網(wǎng)絡(luò)的特征提取能力減弱,最終模型精度降低了3.2%。為恢復(fù)模型精度,該文將輕量級(jí)網(wǎng)絡(luò)單元模塊的卷積核進(jìn)行擴(kuò)張,并引入SiLU激活函數(shù)對(duì)該模塊進(jìn)行優(yōu)化。由表1可知,當(dāng)卷積核尺寸增大為5×5后,檢測(cè)網(wǎng)絡(luò)的感受野增大,特征提取能力增強(qiáng),在增加5.5%計(jì)算量的前提下?lián)Q來了0.6%的精度提升,其增幅較小。分析原因在于,增大感受野后,伴隨著分辨率的降低,較小的目標(biāo)特征提取困難,容易被忽略或誤判為背景,無法得到有效識(shí)別,而稍微大一點(diǎn)的物體就能被檢測(cè)出來,因此獲得了較小的提升;此外,SiLU激活函數(shù)的引用也加強(qiáng)了網(wǎng)絡(luò)的非線性表達(dá)能力,進(jìn)一步提高了模型精度,最終檢測(cè)精度達(dá)到了89.1%,與原YOLOv5s模型差異不大,但此時(shí)模型體積僅為3.31M,相比原YOLOv5s模型減少了占用75.8%的緩存空間,為移動(dòng)端的部署提供了模型選擇。
3.3.2 損失函數(shù)優(yōu)化結(jié)果分析
為了驗(yàn)證EIoU邊界框損失函數(shù)在本文數(shù)據(jù)集中的性能優(yōu)于CIoU,能夠適用于田間復(fù)雜壞境下的垃圾檢測(cè)任務(wù),在經(jīng)過特征提取網(wǎng)絡(luò)輕量化和精度恢復(fù)措施后,本文繼續(xù)對(duì)比了CIoU以及EIoU兩種邊界框損失函數(shù)對(duì)模型性能的影響,所有模型均經(jīng)過300次迭代后,各模型的邊界框損失曲線和檢測(cè)精度曲線如圖7所示。
由圖7可知,在相同的迭代次數(shù)下,CIoU和EIoU的邊界框損失值和檢測(cè)精度值差異較小,他們都是通過最小化預(yù)測(cè)框和真實(shí)框兩個(gè)中心點(diǎn)的距離來為預(yù)測(cè)框提供移動(dòng)方向,并優(yōu)化了預(yù)測(cè)框的重疊損失,中心點(diǎn)距離損失,以及高寬損失,具有較快的預(yù)測(cè)回歸過程;但從圖中曲線來看,EIoU損失函數(shù)具有更高的檢測(cè)精度和更快的收斂速度。分析原因在于EIoU邊界框損失函數(shù)能將預(yù)測(cè)框的高寬同時(shí)放大或縮小,使得預(yù)測(cè)框與真實(shí)框的高寬之差最小,因此其預(yù)測(cè)回歸過程的效果更好。
圖7 邊界框損失曲線和mAP曲線
3.3.3 模型有效性分析
該文研究了模型輕量化和邊界框損失函數(shù)優(yōu)化后對(duì)模型性能的影響,為了驗(yàn)證最終模型的有效性,本文就不同影響因素下分析了模型的各項(xiàng)性能指標(biāo),包括召回率,各個(gè)類別的平均精度AP以及平均精度均值mAP,具體數(shù)據(jù)詳情如表2所示。
從表2中可以看出,本文的最終改進(jìn)模型具有最高的mAP值和召回率,分別達(dá)到了90.9%和90.8%,說明本文的改進(jìn)措施對(duì)模型產(chǎn)生了積極作用,有效提高了識(shí)別精度;從單個(gè)類別的檢測(cè)精度來看,地膜殘塊的平均精度在各個(gè)模型中都處于最高值,分析原因在于這種類別的特征較為明顯,前景和背景色差較大,從而獲得了較好的學(xué)習(xí)效果;其他兩種類別中,廢棄袋在各個(gè)模型中的檢測(cè)精度都較低,分析原因在于廢棄袋邊緣特征較少,且由于目標(biāo)主體表面受到長(zhǎng)時(shí)間的風(fēng)化影響和淤泥污染,特征提取困難,容易將其誤識(shí)別為背景,因此該類別的平均精度較低。然而,在同等條件下,農(nóng)藥廢棄瓶具有更規(guī)則的邊緣特征,且和背景之間具有層次落差,因此農(nóng)藥廢棄瓶的檢測(cè)精度要比廢棄袋略高。綜合上表中各個(gè)模型的綜合檢測(cè)性能可以看出,本文最終的改進(jìn)模型檢測(cè)性能更佳,可滿足實(shí)際檢測(cè)的需求。
表2 模型有效性分析
注:“×”表示不使用該項(xiàng)改進(jìn)因素,“√”表示使用該項(xiàng)改進(jìn)因素;Ours表示本文的最終改進(jìn)版本。下同。
Note: “×” means not to use the improvement factor, “√” means to use the improvement factor; Ours represents the final improved version of this article. Same as below.
為了更加直觀的展示本文最終改進(jìn)算法的有效性,針對(duì)YOLOv5s和本文的最終改進(jìn)模型使用了類激活熱力圖對(duì)輸出層進(jìn)行可視化分析,根據(jù)某一區(qū)域亮度的深淺直觀的了解這一區(qū)域?qū)︻A(yù)測(cè)輸出產(chǎn)生的作用權(quán)重大小。網(wǎng)絡(luò)模型對(duì)圖像中各區(qū)域的響應(yīng)程度如圖8所示。
從圖8可以看出,YOLOv5s模型在復(fù)雜的田間壞境下容易受到圖像背景的干擾,如石塊、雜草等色彩飽和度較高的干擾物,在一定程度上影響了最終的判斷結(jié)果,而本文的最終改進(jìn)模型能夠減輕背景的影響,更多的關(guān)注目標(biāo)主體部分,這將有利于獲得更高的召回率,由此也證明了本文最終改進(jìn)模型的優(yōu)越性。
3.3.4 不同檢測(cè)算法對(duì)比
為了驗(yàn)證YOLOv5s及其改進(jìn)模型相對(duì)其他目標(biāo)檢測(cè)模型的優(yōu)越性,本文研究了目前幾種主流的目標(biāo)檢測(cè)算法在當(dāng)前數(shù)據(jù)集中的性能表現(xiàn),包括單階段目標(biāo)檢測(cè)算法SSD,YOLOv3,以及文獻(xiàn)[30]中基于YOLOv5s和MobileNetv3網(wǎng)絡(luò)組合形成的輕量化改進(jìn)算法,比較結(jié)果如表3所示。
表3 不同檢測(cè)算法性能對(duì)比
由表3可知,雖然SSD相比于其他目標(biāo)檢測(cè)算法,獲得了最快的檢測(cè)速度,但其檢測(cè)精度太低,平均精度均值只有78.9%,無法滿足正常的需求;而在表中的YOLO系列算法中,YOLOv3擁有最大的計(jì)算量和模型體積,嚴(yán)重占用了芯片的計(jì)算資源和緩存空間,不符合移動(dòng)端應(yīng)用部署的條件;YOLOv5s和文獻(xiàn)[30]中基于YOLOv5s的輕量化改進(jìn)算法在各方面的性能指標(biāo)都相差不大,但其綜合性能仍不及本文的最終改進(jìn)算法,本文最終改進(jìn)模型的平均精度均值相對(duì)于基線模型YOLOv5s提高了1.5%,推理速度提高了5.1%,計(jì)算量和模型體積都降低了70%以上,在滿足移動(dòng)端設(shè)備應(yīng)用要求的同時(shí)還節(jié)省了計(jì)算資源和緩存空間。
圖9 多種算法檢測(cè)效果對(duì)比
圖9對(duì)比了表3中幾種目標(biāo)檢測(cè)算法的實(shí)際檢測(cè)效果。從檢測(cè)效果圖中可以看出,本文所改進(jìn)的YOLOv5s模型具有較高的回歸精度和檢測(cè)置信度,且對(duì)圖像的邊緣檢測(cè)能力要強(qiáng)于其他目標(biāo)檢測(cè)算法。綜上所述,本文所提出的檢測(cè)模型在大田環(huán)境下具有更強(qiáng)的適應(yīng)性。
為了進(jìn)一步驗(yàn)證改進(jìn)模型在移動(dòng)端的有效性,本文將YOLOv5s改進(jìn)前后的模型部署到搭載了邊緣計(jì)算設(shè)備的移動(dòng)檢測(cè)平臺(tái)上,并在海南大學(xué)農(nóng)業(yè)試驗(yàn)田內(nèi)進(jìn)行測(cè)試,如圖10所示。該平臺(tái)采用STM32四輪驅(qū)動(dòng)控制,配置有Astra S深度相機(jī),可搭載Jetson、樹莓派等多種邊緣計(jì)算設(shè)備,其中Jetson系列屬于中高端計(jì)算設(shè)備,具備顯卡加速功能,成本較高;樹莓派屬于低端計(jì)算設(shè)備,成本較低,應(yīng)用廣泛。本文選用Raspberry 4B和Jetson TX1兩種常用的邊緣計(jì)算設(shè)備進(jìn)行模型部署與驗(yàn)證,兩種設(shè)備均運(yùn)行Linux系統(tǒng)。為了在移動(dòng)檢測(cè)過程中能獲得較為清晰的圖像,減少雜草,石塊等障礙物的干擾,相機(jī)放置高度離地50cm,拍攝角度設(shè)置為俯視45°,這里的相機(jī)選用的是Astra S深度相機(jī)的RGB攝像模式。
圖10 移動(dòng)檢測(cè)平臺(tái)
表4為YOLOv5s改進(jìn)前后分別在Raspberry 4B和Jetson TX1上的檢測(cè)速度對(duì)比情況,在樹莓派4B上,受限于設(shè)備本身的計(jì)算能力,檢測(cè)速度較慢,但最終改進(jìn)模型的檢測(cè)速度相對(duì)原模型提升了22.1%,提升效果明顯;在Jetson TX1上,檢測(cè)速度較快,改進(jìn)后的模型檢測(cè)速度相對(duì)原模型提升了20.5%,進(jìn)一步增強(qiáng)了Jetson TX1的實(shí)時(shí)性效果。由圖11可知,改進(jìn)后的模型在邊緣計(jì)算設(shè)備上也保持了較好的檢測(cè)效果,與訓(xùn)練結(jié)果保持一致,檢測(cè)置信度較原模型略有提升。
表4 模型在邊緣計(jì)算設(shè)備上的檢測(cè)速度對(duì)比
圖11 模型在邊緣計(jì)算設(shè)備上的檢測(cè)效果對(duì)比
綜上可知,改進(jìn)后的模型部署到Raspberry 4B和Jetson TX1兩種邊緣計(jì)算設(shè)備上檢測(cè)速度均有較大的提升,證明了該輕量化模型在移動(dòng)設(shè)備上具有較好的適應(yīng)性。結(jié)合現(xiàn)場(chǎng)的實(shí)際效果來看,檢測(cè)高效,目標(biāo)識(shí)別精準(zhǔn),可滿足實(shí)際應(yīng)用中準(zhǔn)確性和高效性的要求,具有較好的應(yīng)用價(jià)值。
本文針對(duì)農(nóng)田環(huán)境下垃圾檢測(cè)精度不高、檢測(cè)效率低,模型復(fù)雜等問題,提出了一種基于YOLOv5s的農(nóng)田垃圾輕量化檢測(cè)方法。1)該方法通過引入ShuffleNetV2的構(gòu)建單元作為特征提取網(wǎng)絡(luò)的基本單元,大幅削減了模型的計(jì)算量和參數(shù)量,節(jié)省了計(jì)算資源和緩存空間,提高了檢測(cè)速度;2)為消除模型輕量化后帶來的精度下降,首先,將輕量級(jí)網(wǎng)絡(luò)單元的卷積核進(jìn)行擴(kuò)張,增大網(wǎng)絡(luò)的感受野,增強(qiáng)模型的特征提取能力,其次,利用SiLU激活函數(shù)較好的非線性,提高了深層神經(jīng)網(wǎng)絡(luò)的表征能力,由此恢復(fù)了模型精度。3)由于田間環(huán)境復(fù)雜,為了減小目標(biāo)定位誤差,該文引入了EIoU邊界框損失函數(shù),該函數(shù)基于CIoU將預(yù)測(cè)框和真實(shí)框縱橫比的損失項(xiàng)拆分成預(yù)測(cè)框的寬高分別與最小外接框?qū)捀叩牟钪担ㄟ^不斷迭代減小差值加快模型的收斂,提升回歸精度,最終模型檢測(cè)精度達(dá)90.9%,檢測(cè)速度為74 ms/幀,與其他目標(biāo)檢測(cè)算法相比具有一定的優(yōu)勢(shì);4)為驗(yàn)證改進(jìn)的模型在移動(dòng)端的檢測(cè)效果,將改進(jìn)前后的模型部署到Raspberry 4B和Jetson TX1兩種邊緣計(jì)算設(shè)備上進(jìn)行測(cè)試,測(cè)試結(jié)果表明,最終的改進(jìn)模型具備較好的檢測(cè)效果,檢測(cè)速度相對(duì)原模型也具有較大的提升。雖然本文的研究對(duì)象為農(nóng)田垃圾,但文中所提出的檢測(cè)策略也可應(yīng)用于類似環(huán)境下的目標(biāo)檢測(cè)任務(wù),解決類似的問題。
[1] 陳琦,趙敏娟. 國(guó)內(nèi)外農(nóng)藥對(duì)農(nóng)產(chǎn)品安全的影響及農(nóng)戶安全生產(chǎn)行為評(píng)述[J]. 北方園藝,2012(21):196-202.
Chen Qi, Zhao Minjuan. Review on the influence of pesticides on the safety of agricultural products and the safe production behavior of farmers at home and abroad [J]. Horticulture in North China, 2012(21): 196-202. (in Chinese with English abstract)
[2] 王文軍,俞成乾,張桂娥. 農(nóng)村資源利用與環(huán)境保護(hù)[M]. 北京:中國(guó)農(nóng)業(yè)科學(xué)出版社,2020:161-164.
[3] 馬廷新,張廣東. 馬鈴薯收獲機(jī)增添殘膜回收試驗(yàn)研究[J]. 農(nóng)機(jī)質(zhì)量與監(jiān)督,2019(12):19-18.
Ma Tingxin, Zhang Guangdong. Experimental study on recovery of residual film added to potato harvester[J]. Quality and Supervision of Agricultural Machinery, 2019(12): 19-18. (in Chinese with English abstract)
[4] 翟志強(qiáng),陳學(xué)庚,邱發(fā)松,等. 基于像素塊和機(jī)器學(xué)習(xí)的播前棉田地表殘膜覆蓋率檢測(cè)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(6):140-147.
Zhai Zhiqiang, Chen Xuegeng, Qiu Fasong, et al. Detecting surface residual film coverage rate in pre-sowing cotton fields using pixel block and machine learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(6): 140-147. (in Chinese with English abstract)
[5] Qin B, He J. Research on garbage classification based on convolutional neural network[J]. Wireless Communication Technology, 2019, 28(3): 51-56.
[6] Zhou J, Zhao Y. Application of convolution neural network in image classification and object detection[J]. Computer Engineering and Applications, 2017, 53(13): 34-41.
[7] 孫少杰,吳門新,莊立偉,等. 基于CNN卷積神經(jīng)網(wǎng)絡(luò)和BP神經(jīng)網(wǎng)絡(luò)的冬小麥縣級(jí)產(chǎn)量預(yù)測(cè)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(11):151-160.
Sun Shaojie, Wu Menxin, Zhuang Liwei, et al. Forecasting winter wheat yield at county level using CNN and BP neural networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(11): 151-160. (in Chinese with English abstract)
[8] 張順,龔怡宏,王進(jìn)軍. 深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展及其在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用[J]. 計(jì)算機(jī)學(xué)報(bào),2019,42(3):453-482.
Zhang Shun, Gong Yihong, Wang Jinjun. Development of deep convolution neural network and its application in the field of computer vision[J]. Journal of computer science, 2019, 42(3): 453-482. (in Chinese with English abstract)
[9] Liu Y, Ge Z, Lv G, et al. Research on automatic garbage detection system based on deep learning and narrowband internet of things[C]//Journal of Physics: Conference Series. IOP Publishing, 2018, 1069(1): 012032.
[10] Zeng D, Zhang S, Chen F, et al. Multi-scale CNN based garbage detection of airborne hyperspectral data[J]. IEEE Access, 2019, 7: 104514-104527.
[11] Wang Y, Zhang X. Autonomous garbage detection for intelligent urban management[C]//MATEC Web of Conferences. EDP Sciences, 2018, 232: 01056.
[12] Guo D, Cheng L, Zhang M, et al. Garbage detection and classification based on improved YOLOV4[J]. Journal of Physics: Conference Series. IOP Publishing, 2021, 2024(1): 012023.
[13] Deng H, Ergu D, Liu F, et al. An embeddable algorithm for automatic garbage detection based on complex marine environment[J]. Sensors, 2021, 21(19): 6391.
[14] 王子鵬,張榮芬,劉宇紅,等. 面向邊緣計(jì)算設(shè)備的改進(jìn)型 YOLOv3 垃圾分類檢測(cè)模型[J]. 激光與光電子學(xué)進(jìn)展,2022,59(4):291-300.
Wang Zipeng, Zhang Rongfen, Liu Yuhong, et al. Improved YOLOv3 garbage classification and detection model for edge computing device[J]. Advances in Laser and Optoelectronics, 2022, 59(4): 291-300. (in Chinese with English abstract)
[15] Guo G, Zhang Z. Road damage detection algorithm for improved YOLOv5[J]. Scientific Reports, 2022, 12(1): 1-12.
[16] Yang G, Feng W, Jin J, et al. Face mask recognition system with YOLOV5 based on image recognition[C]//2020 IEEE 6th International Conference on Computer and Communications (ICCC). IEEE, 2020: 1398-1404.
[17] Yan B, Fan P, Lei X, et al. A real-time apple targets detection method for picking robot based on improved YOLOv5[J]. Remote Sensing, 2021, 13(9): 1619.
[18] Luo S, Yu J, Xi Y, et al. Aircraft target detection in remote sensing images based on improved YOLOv5[J]. IEEE Access, 2022, 10: 5184-5192.
[19] Ma N, Zhang X, Zheng H T, et al. ShufflenetV2: Practical guidelines for efficient cnn architecture design[C]// Proceedings of the European Conference on Computer Vision (ECCV). 2018: 116-131.
[20] Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 2117-2125.
[21] Liu S, Qi L, Qin H, et al. Path aggregation network for instance segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 8759-8768.
[22] Zhang X, Zhou X, Lin M, et al. Shufflenet: An extremely efficient convolutional neural network for mobile devices[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 6848-6856.
[23] 孔英會(huì),朱成誠(chéng),車轔轔. 復(fù)雜背景下基于MobileNets的花卉識(shí)別與模型剪枝[J]. 科學(xué)技術(shù)與工程,2018,18(19):84-88.
Kong Yinghui, Zhu Chengcheng, Che Linlin. Flower recognition in complex background and model pruning based on MobileNets[J]. Science Technology and Engineering, 2018, 18(19): 84-88. (in Chinese with English abstract)
[24] 郝琨,王闊,王貝貝. 基于改進(jìn)Mobilenet-YOLOv3的輕量級(jí)水下生物檢測(cè)算法[J]. 浙江大學(xué)學(xué)報(bào)(工學(xué)版),2022,56(8):1622-1632.
Hao Kun, Wang Kuo, Wang Beibei. Lightweight underwater biological detection algorithm based on improved Mobilenet-YOLOv3[J]. Journal of Zhejiang University (Engineering Science), 2022, 56(8): 1622-1632. (in Chinese with English abstract)
[25] Luo W, Li Y, Urtasun R, et al. Understanding the effective receptive field in deep convolutional neural networks[J]. Advances in Neural Information Processing Systems, 2016, 29: 4905-4913.
[26] Glorot X, Bordes A, Bengio Y. Deep sparse rectifier neural networks[C]//Proceedings of the fourteenth international conference on artificial intelligence and statistics. JMLR Workshop and Conference Proceedings, 2011: 315-323.
[27] Zhang Y, Ren W, Zhang Z, et al. Focal and efficient IOU loss for accurate bounding box regression[J]. Neurocomputing, 2022, 506: 146-157.
[28] 李尚平,李向輝,張可,等. 改進(jìn)YOLOv3網(wǎng)絡(luò)提高甘蔗莖節(jié)實(shí)時(shí)動(dòng)態(tài)識(shí)別效率[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(23):185-191.
Li Shangping, Li Xianghui, Zhang Ke, et al. Increasing the real-time dynamic identification rate of sugarcane nodes by improved YOLOv3 network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(23): 185-191. (in Chinese with English abstract)
[29] Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector[C]//European Conference on Computer Vision. Springer, Cham, 2016: 21-37.
[30] Wang C, Wang H, Yu F, et al. A high-precision fast smoky vehicle detection method based on improved Yolov5 network[C]//2021 IEEE International Conference on Artificial Intelligence and Industrial Design (AIID). IEEE, 2021: 255-259.
Lightweight detection method for farmland waste based on YOLOv5s
Xing Jiejie1, Xie Dingjin1, Yang Ranbing1※, Zhang Xirui1, Sun Wenbin2, Wu Shibin1
(1,,570228,; 2.,,570228,)
Farmland waste has been one of the most important influencing factors on the soil environment. It is very necessary to realize an intelligent and efficient picking of farmland wastes, particularly for the high accuracy and efficiency of recognition with the simple models under complex field environments. In this study, a lightweight detection was proposed for the farmland waste under the actual field situation of the equipment using the improved yolov5s, according to the target detection and edge computing. More importantly, Artificial Intelligence (AI) was promoted in the field of smart agriculture. Firstly, some images of common wastes were collected under the complex actual field environment in the farmland. The data enhancement was then performed on the image data for the large-scale farmland wastes datasets without the over-fitting during model training. Secondly, the network unit of the classification network ShuffleNetv2 was selected to reconstruct the feature extraction network of yolov5s. The calculation and parameter amount of the model were significantly reduced to improve the running speed for the cost saving in the chip cache space. Thirdly, the convolution kernel expansion and activation function optimization were performed on the introduced lightweight network unit module, in order to effectively restore the detection accuracy of the model with less amount of model computation and parameters. Finally, the efficient intersection over union (EIoU) bounding box was introduced to reduce the target positioning error of the model in the complex environment. The reason was that there were many interference factors in the process of motion detection under the complex field environment, thus easily leading to the positioning accuracy of the target in the image. In the case of the aspect ratio for the predicted and the real frame in the loss function of complete intersection over union (CIoU), the loss item was divided into the difference between the height/width of the predicted frame and the minimum bounding frame. At the same time, the difference was gradually reduced to speed up the convergence speed and regression accuracy using the proper iteration. The experimental results show that the detection accuracy of the improved model reached 90.9% with a detection speed of 74 ms/frame. Higher detection accuracy and speed of the improved model were achieved to better balance the calculation and parameter amount, compared with the current target detection of SSD and yolov3. A tradeoff was made on the performance requirements of edge computing devices for accuracy and speed. The mobile terminal was selected to verify the application of the improved model. The models before and after the improvement were deployed on the two edge computing devices (JetsonTX1 and Raspberry4B). Compared with the original, the detection speed of the improved model increased by at least 20% on the edge computing devices, indicating an excellent detection performance. The finding can provide a lightweight solution to the detection tasks of field wastes.
neural networks; wastes; target detection; YOLOv5s; lightweight; loss function; edge computing
10.11975/j.issn.1002-6819.2022.19.017
S513; TP391.4
A
1002-6819(2022)-19-0153-09
邢潔潔,謝定進(jìn),楊然兵,等. 基于YOLOv5s的農(nóng)田垃圾輕量化檢測(cè)方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(19):153-161.doi:10.11975/j.issn.1002-6819.2022.19.017 http://www.tcsae.org
Xing Jiejie, Xie Dingjin, Yang Ranbing, et al. Lightweight detection method for farmland waste based on YOLOv5s[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(19): 153-161. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.19.017 http://www.tcsae.org
2022-06-30
2022-09-14
海南省自然科學(xué)基金青年基金項(xiàng)目(520QN233);海南省院士創(chuàng)新平臺(tái)科研專項(xiàng)(YSPTZX202008)
邢潔潔,博士,講師,碩士生導(dǎo)師,研究方向?yàn)橛?jì)算機(jī)技術(shù)在農(nóng)業(yè)工程中的應(yīng)用。Email:584731137@qq.com
楊然兵,博士,教授,博士生導(dǎo)師,研究方向?yàn)橹悄苻r(nóng)業(yè)裝備與農(nóng)業(yè)機(jī)器人。Email:yangranbing@163.com