摘要:
為解決復(fù)雜果園環(huán)境中,因遮擋、重疊導(dǎo)致杏果識(shí)別誤檢率較高、檢測精度較低的問題,提出一種基于改進(jìn)YOLOv8n網(wǎng)絡(luò)模型的杏果檢測算法。該算法采用輕量化模塊MobileViT—XS替換原有骨干網(wǎng)絡(luò),保證特征提取能力,同時(shí)降低模型的參數(shù)量與計(jì)算量,并且將原始的損失函數(shù)CIoU替換為WIoUv3,動(dòng)態(tài)優(yōu)化損失權(quán)重提高模型的檢測精度。為驗(yàn)證改進(jìn)方法的有效性,選取6種主流的目標(biāo)檢測模型、5種骨干網(wǎng)絡(luò)的輕量化改進(jìn)模型以及5種不同的損失函數(shù)進(jìn)行對(duì)比試驗(yàn)。結(jié)果表明,改進(jìn)后的模型相比原始模型在F1、平均精度均值mAP上提升1.25%、1.48%,參數(shù)量、浮點(diǎn)運(yùn)算量、模型大小分別降低28.06%、0.1G、1.48MB。改進(jìn)后的算法能夠精準(zhǔn)、快速地在復(fù)雜的果園環(huán)境中識(shí)別出杏果。
關(guān)鍵詞:杏果;目標(biāo)檢測;復(fù)雜果園環(huán)境;輕量化網(wǎng)絡(luò);YOLOv8算法;損失函數(shù)
中圖分類號(hào):S662.2
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):2095-5553 (2025) 03-0246-08
收稿日期:2023年10月9日" 修回日期:2024年1月18日*
基金項(xiàng)目:新疆自然科學(xué)計(jì)劃(自然科學(xué)基金)聯(lián)合基金項(xiàng)目(2021D01C055)
第一作者:買買提·沙吾提,1976年生,男,維吾爾族,新疆喀什人,博士,副教授;研究方向?yàn)楦珊祬^(qū)資源環(huán)境及農(nóng)業(yè)遙感應(yīng)用。E-mail: korxat@xju.edu.cn
Target detection of apricots in complex orchard environments based on improved YOLOv8
Mamat Sawut1, 2, 3, Aerqing Xilike1
(1. College of Geography and Remote Sensing Sciences, Xinjiang University, Urumqi, 830046, China;
2. Xinjiang Key Laboratory of Oasis Ecology, Xinjiang University, Urumqi, 830046, China; 3. Key Laboratory of
Smart City and Environment Modelling of Higher Education Institute, Xinjiang University, Urumqi, 830046, China)
Abstract:
This study addresses the challenges of high 1 detection rates and low accuracy in apricot recognition within complex orchard environments due to occlusion and overlap. An apricot detection algorithm based on an improved YOLOv8n network model is proposed. The algorithm replaces the original backbone network with the lightweight MobileViT—XS module, maintaining feature extraction capabilities while reducing the number of parameters and computational demands. The original loss function CIoU is substituted with WIoUv3, which dynamically optimizes loss weights and improves detection precision. Comparative experiments are conducted using six mainstream target detection models, five lightweight improved models with backbone networks, and five different loss functions. The results show that the improved model increases the F1 score and mAP by 1.25% and 1.48%, respectively, and reduces parameters, FLOPs, and model size by 28.06%, 0.1G and 1.48MB. This improved algorithm can accurately and quickly detect apricots in complex orchard environments.
Keywords:
apricots; target detection; complex orchard environment; lightweight network; YOLOv8 algorithm; loss function
0 引言
杏(Prunus armeniaca L.)原產(chǎn)自中國的特色果樹,具有食用品質(zhì)特點(diǎn)突出、類型豐富、加工產(chǎn)品多樣等特點(diǎn)。我國杏栽培面積和產(chǎn)量均居世界首位[1]。由于杏果果實(shí)生長較為密集,且果樹的葉片、枝干遮擋嚴(yán)重,杏果生長高度不一,采收的環(huán)節(jié)成為最耗時(shí)耗力的部分[2]。目前對(duì)于果實(shí)的采摘主要依靠人工,采摘機(jī)械化率不足3%,這種傳統(tǒng)的方式消耗了大量的人力物力[2]。隨著科技的發(fā)展,機(jī)器人采摘逐漸取代人工采摘的方式,但采摘同樣需要高精度算法的支持來提升機(jī)器人采摘的效率,未經(jīng)精確識(shí)別而直接對(duì)其進(jìn)行采摘可能會(huì)造成果實(shí)的損傷或者采摘機(jī)器人的損壞[3]。因此,研究具有高精度識(shí)別果實(shí)并且適合部署于采摘機(jī)器人的模型算法,對(duì)于實(shí)現(xiàn)復(fù)雜果園環(huán)境中杏果的精準(zhǔn)識(shí)別具有重要意義。
近年來,國內(nèi)外學(xué)者關(guān)于采摘機(jī)器人的識(shí)別技術(shù)已有大量的研究,技術(shù)發(fā)展歷程主要分為兩個(gè)階段,一是傳統(tǒng)的基于果實(shí)特征的圖像分割方法,二是基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型。傳統(tǒng)的基于果實(shí)紋理、形狀、顏色進(jìn)行特征分析是較為常見的識(shí)別策略,Lin等[4]通過訓(xùn)練顏色和紋理特征的支持向量機(jī)對(duì)所有果實(shí)進(jìn)行識(shí)別檢測,取得了較好的識(shí)別結(jié)果。Liu等[5]提出了一種構(gòu)建Cr—Cb坐標(biāo)多橢圓邊界模型來檢測自然光環(huán)境下柑橘果實(shí)和樹干的方法,發(fā)現(xiàn)太陽光照方向的不同會(huì)影響最終的檢測結(jié)果。廖崴等[6]基于RGB顏色空間進(jìn)行了Otsu閾值分割和濾波處理去除背景對(duì)果實(shí)進(jìn)行快速識(shí)別。以上方法雖然實(shí)現(xiàn)了對(duì)各類果實(shí)的識(shí)別,但只是針對(duì)果實(shí)單一的特征進(jìn)行識(shí)別,在場景復(fù)雜的果園環(huán)境中性能仍然會(huì)受到限制。隨著深度學(xué)習(xí)算法的發(fā)展,因其具有特征自學(xué)習(xí),能夠應(yīng)對(duì)不同光照、遮擋情況下對(duì)果實(shí)的學(xué)習(xí),近年來逐漸應(yīng)用于對(duì)果實(shí)的識(shí)別當(dāng)中。Wan等[7]提出了基于改進(jìn)Faster R—CNN的果實(shí)檢測方法,該方法相對(duì)于傳統(tǒng)方法具有更高的識(shí)別精度。彭紅星等[8]提出一種改進(jìn)的SSD果實(shí)檢測模型,相比于原始模型精度得到了提升,在遮擋面積低于50%的情況下,F(xiàn)1值達(dá)到96.12%。趙輝等[9]提出了一種基于改進(jìn)YOLOv3的果實(shí)識(shí)別方法,改進(jìn)后的模型在多種場景下識(shí)別蘋果取得了較好的結(jié)果。可見,深度學(xué)習(xí)的方法對(duì)復(fù)雜的果園環(huán)境中果實(shí)識(shí)別檢測優(yōu)勢較為顯著。目前,對(duì)于復(fù)雜果園環(huán)境中果實(shí)精準(zhǔn)識(shí)別主要存在以下問題:高精度檢測模型的尺寸較大、參數(shù)量多以及計(jì)算復(fù)雜度較高;而模型較小、參數(shù)量少且計(jì)算量低的模型,其檢測精度較低。如何平衡模型精度與模型大小,設(shè)計(jì)適用于復(fù)雜果園環(huán)境中杏果識(shí)別的模型是當(dāng)前研究的重點(diǎn)。并且杏樹具有二次分枝、三次分枝,骨干枝強(qiáng)壯、喜光并且果實(shí)生長旺盛等特點(diǎn),在這種不同光照環(huán)境,枝干、果實(shí)遮擋的情況下,也增加了精準(zhǔn)識(shí)別杏果的難度。
針對(duì)以上問題,本文設(shè)計(jì)一種適用于在復(fù)雜果園環(huán)境中杏果精準(zhǔn)識(shí)別的改進(jìn)YOLOv8n的輕量級(jí)檢測模型。首先,在自然環(huán)境下果園中采集不同光照環(huán)境(正光、側(cè)光、逆光),不同遮擋情況(枝干遮擋、葉片遮擋、果實(shí)重疊)的杏果圖片,并且在拍攝時(shí)模仿采摘機(jī)器人的采集過程,不斷變化拍攝角度和距離,盡可能還原真實(shí)采摘場景。然后,將YOLOv8n的骨干網(wǎng)絡(luò)替換為輕量級(jí)的網(wǎng)絡(luò)模型MobileViT—XS,降低原始模型的參數(shù)量、GFLOPs以及模型大小,替換原始的損失函數(shù),更換為WIoUv3,更好地處理樣本提升模型邊界框回歸性能以及檢測精度。最后,通過對(duì)比試驗(yàn)驗(yàn)證改進(jìn)YOLOv8n模型在復(fù)雜的果園環(huán)境下對(duì)杏果的精準(zhǔn)識(shí)別效果,為后續(xù)采摘機(jī)器人對(duì)杏果的精準(zhǔn)采摘提供理論支撐。
1 材料與方法
1.1 數(shù)據(jù)集的構(gòu)建
數(shù)據(jù)集拍攝于新疆庫車市阿克吾斯塘鄉(xiāng)英達(dá)里亞河附近,研究對(duì)象為果園中的杏果??紤]實(shí)際采摘任務(wù)中需要在不同距離進(jìn)行識(shí)別果實(shí)并進(jìn)行近距離采摘,設(shè)計(jì)在中距離、近距離兩種拍攝模式下的不同光照環(huán)境、遮擋狀況的拍攝場景。除去重復(fù)和模糊的圖像之后,杏果原始數(shù)據(jù)集共計(jì)491張,使用labelimg對(duì)杏果進(jìn)行人工標(biāo)注,標(biāo)注框選擇杏果的最小外接矩形,標(biāo)注后產(chǎn)生的信息文件為txt類型,該文件存儲(chǔ)了杏果圖像的文件名、標(biāo)注框的位置與種類信息,之后以7∶1.5∶1.5劃分訓(xùn)練集、測試集以及驗(yàn)證集進(jìn)行模型的訓(xùn)練及測試。為減少模型過擬合的現(xiàn)象,提高模型的泛化能力,使用翻轉(zhuǎn)、中心裁剪、對(duì)比度以及亮度變換等數(shù)據(jù)增強(qiáng)[10]的方式對(duì)原始數(shù)據(jù)集進(jìn)行擴(kuò)充至3798張圖像。圖1為不同光照條件以及不同遮擋情況下的杏果圖像。
1.2 YOLOv8n改進(jìn)模型構(gòu)建
1.2.1 YOLOv8模型介紹
YOLOv8是YOLO目標(biāo)檢測模型的最新系列,根據(jù)模型尺寸從小到大包括YOLOv8n、YOLOv8s、YOLOv8m、YOLOv8l、YOLOv8x這5個(gè)版本?;谘芯啃枨螅x擇模型小、精度高的YOLOv8n模型。YOLOv8n模型主要由骨干網(wǎng)絡(luò)(backbone)、頸部網(wǎng)絡(luò)(neck)以及檢測頭(head)3個(gè)部分組成。
骨干網(wǎng)絡(luò)的整體結(jié)構(gòu)包含Conv、C2f、SPPF這3個(gè)部分,Conv模塊主要是對(duì)圖像進(jìn)行卷積、BN和SiLU激活函數(shù)操作,全新的C2f結(jié)構(gòu)使YOLOv8n輕量化的同時(shí)擁有豐富的梯度流信。SPPF又稱空間金字塔池化,能夠?qū)⑷我獯笮〉膱D像轉(zhuǎn)換成固定大小的特征向量。頸部網(wǎng)絡(luò)的主要作用是融合多個(gè)尺度的特征,采用PAnet結(jié)構(gòu),其核心結(jié)構(gòu)由特征金字塔網(wǎng)絡(luò)FPN[11]和路徑聚合網(wǎng)絡(luò)PAN[12]兩部分組成。檢測頭作為最后的預(yù)測部分,根據(jù)不同的特征圖獲取目標(biāo)物體的類別及位置信息。YOLOv8對(duì)比YOLOv5[13]模型的變化主要是將原來的6×6卷積替換為3×3卷積,并且參考YOLOv7—ELAN[14]替換c3模塊為C2f,深度由c3模塊的3、6、9、3調(diào)整為C2f的3、6、6、3,頸部網(wǎng)絡(luò)則刪除了降低維度使用的1×1卷積,檢測頭部分則是將原本的耦合頭改成解耦頭,回歸分支使用Distribution Focal Loss[15]中提出的積分形式表示法,YOLOv8整體結(jié)構(gòu)如圖2所示。
1.2.2 MobileViT模型
MobileViT是一種計(jì)算機(jī)視覺模型,將適用于移動(dòng)設(shè)備的CNN(卷積神經(jīng)網(wǎng)絡(luò))與Transformer相結(jié)合[16]。CNN專注于提取局部信息,但忽略了這些信息之間的相關(guān)性,并且過度使用卷積會(huì)導(dǎo)致目標(biāo)關(guān)鍵信息的丟失;與CNN相比,Transformer的方法在全局特征提取方面表現(xiàn)更好,也更能夠識(shí)別相鄰位置之間的相關(guān)性,從而改善圖像的淺層信息保存方式。然而,由于Transformer的結(jié)構(gòu)較為復(fù)雜,缺乏直接遷移到目標(biāo)檢測的歸納偏差,通常導(dǎo)致算法性能較差。MobileViT共有3組模型配置,分別是MobileViT—S、MobileViT—XS、MobileViT—XXS,其具有CNN高效輕量的特性以及Transformer強(qiáng)大的整體視覺能力,更適用于對(duì)圖像輕量級(jí)的識(shí)別。MobileViT的兩個(gè)核心組件分別是MobileViT模塊和MobileNetV2模塊[17],首先,該網(wǎng)絡(luò)結(jié)構(gòu)通過1×1卷積進(jìn)行升維;然后,通過3×3卷積進(jìn)行深度卷積(DW卷積);最后,通過再1×1卷積降維,其深度可分離卷積的操作使得該組件在保留CNN結(jié)構(gòu)的同時(shí),有效減少其參數(shù)量以及計(jì)算量,MobileNetV2模塊的結(jié)構(gòu)如圖3所示。
MobileViT模塊結(jié)構(gòu)如圖4所示。
MobileViT模塊主要由局部表征模塊、全局表征模塊以及特征融合模塊3個(gè)部分組成。首先,輸入一個(gè)寬為W,高為H,通道數(shù)為C的特征圖,表示為X[H,W,C],通過一個(gè)卷積核大小為n×n的卷積操作提取杏果的圖像特征;然后,通過一個(gè)卷積核大小為1×1的卷積層進(jìn)行通道調(diào)整;接著,依次通過序列展開、Transformer、序列折疊結(jié)構(gòu)進(jìn)行全局特征建模,通過一個(gè)1×1的卷積核將通道調(diào)整為原始大??;最后,與原始的特征圖進(jìn)行拼接,通過n×n的卷積核進(jìn)行特征融合得到最終輸出的杏果特征結(jié)果。
1.2.3 WIoUv3損失函數(shù)
在復(fù)雜的果園環(huán)境中,杏果的檢測任務(wù)中小目標(biāo)檢測也占有一定比例,因此,合理設(shè)計(jì)損失函數(shù)可以顯著提高模型的檢測性能。YOLOv8使用DFL和CIoU[18]來計(jì)算邊界框的回歸損失,但CIoU具有3個(gè)缺點(diǎn):(1)CIoU不考慮難易樣本的平衡。(2)CIoU將縱橫比作為損失函數(shù)的懲罰因素之一,如果實(shí)際邊界框和預(yù)測邊界框的縱橫比相同,但寬度和高度的值不同,懲罰項(xiàng)無法反映這兩個(gè)邊界框之間的真實(shí)差異。(3)CIoU的計(jì)算涉及反三角函數(shù),會(huì)增加模型算力的消耗。CIoU計(jì)算如式(1)所示。
LCIoU=
1-IoU+ρ2(b,bgt)
cw2+ch2+
4π2tan-1wgthgt-tan-1wh
(1)
式中: IoU——
預(yù)測邊界框與實(shí)際邊界框的交集比例;
ρ2(b,bgt)——
實(shí)際邊界框和預(yù)測邊界框的質(zhì)心之間的歐幾里得距離;
h、w——預(yù)測邊界框的高度和寬度;
hgt、wgt——實(shí)際邊界框的高度和寬度;
ch、cw——
由預(yù)測邊界框和實(shí)際邊界框形成的最小外接矩形的高度和寬度。
除CIoU還有幾種主流的損失函數(shù),EIoU[19]在CIoU的基礎(chǔ)上進(jìn)行改進(jìn),通過分別將長度和寬度作為懲罰項(xiàng)處理,反映實(shí)際邊界框與預(yù)測邊界框之間寬度和高度的差異,與CIoU的懲罰項(xiàng)相比更為合理。SIoU[20]首次引入了預(yù)測邊界框和實(shí)際邊界框之間的角度作為懲罰因素,減少回歸的自由度,加速模型的收斂。
雖然幾種主流損失函數(shù)都采用靜態(tài)的聚焦機(jī)制,但WIoU不僅考慮了縱橫比、質(zhì)心距離和重疊區(qū)域,還引入了動(dòng)態(tài)的非單調(diào)聚焦機(jī)制。WIoU采用合理的梯度增益分配策略來評(píng)估錨框的質(zhì)量。目前,主要提出3個(gè)版本的WIoU[21]。WIoUv1設(shè)計(jì)了基于注意力的預(yù)測邊界框損失,而WIoUv2和WIoUv3則添加了聚焦系數(shù)。WIoUv3定義了異常值β來衡量錨框的質(zhì)量,構(gòu)建了一個(gè)基于β的非單調(diào)聚焦因子r,并將其應(yīng)用于WIoUv1中。β為小值表示高質(zhì)量的錨框,因此,會(huì)分配一個(gè)較小的r值,從而減少在較大的損失函數(shù)中高質(zhì)量錨框的權(quán)重。β為大值表示低質(zhì)量的錨框,因此,會(huì)分配一個(gè)較小的梯度增益,從而減少低質(zhì)量錨框產(chǎn)生的有害梯度。WIoUv3采用了合理的梯度增益分配策略,以動(dòng)態(tài)優(yōu)化損失中高質(zhì)量和低質(zhì)量錨框的權(quán)重,使模型關(guān)注平均質(zhì)量樣本,從而提高了模型的整體性能。WIoUv3計(jì)算如式(2)~式(4)所示。式(3)中的δ和α是可以根據(jù)不同模型進(jìn)行調(diào)整的超參數(shù)。
LWIoUv3=r×LWIoUv1
(2)
r=βδαβ-δ
(3)
β=L*IoUG∈0,+∞
(4)
通過比較上述幾種主流損失函數(shù),最終在目標(biāo)邊界框回歸損失中引入了WIoUv3。一方面,WIoUv3考慮了EIoU和SIoU的一些優(yōu)點(diǎn),另一方面,WIoUv3使用了動(dòng)態(tài)的非單調(diào)機(jī)制來評(píng)估錨框的質(zhì)量,使模型更關(guān)注普通質(zhì)量的錨框,提高了模型對(duì)目標(biāo)的定位能力。對(duì)于果園場景中的目標(biāo)檢測任務(wù),高比例的小目標(biāo)識(shí)別增加了檢測的難度,而WIoUv3可以動(dòng)態(tài)優(yōu)化小目標(biāo)的損失權(quán)重,從而提高模型的檢測性能。
1.2.4 改進(jìn)后的輕量化網(wǎng)絡(luò)結(jié)構(gòu)
改進(jìn)后的輕量級(jí)化網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
針對(duì)在復(fù)雜果園環(huán)境中精準(zhǔn)識(shí)別杏果模型的問題,對(duì)原始的YOLOv8n網(wǎng)絡(luò)模型的基礎(chǔ)上進(jìn)行優(yōu)化改進(jìn)。選擇輕量級(jí)的網(wǎng)絡(luò)模型MobileViT 3組模型配置中的MobileViT—XS來替換YOLOv8n的骨干網(wǎng)絡(luò),使其更適用于采摘機(jī)器人的模型部署,同時(shí)采用WIoUv3替換YOLOv8n原始的CIoU損失函數(shù)進(jìn)行損失計(jì)算,提升模型邊界框回歸性能以及檢測精度。
1.3 試驗(yàn)設(shè)備及評(píng)價(jià)指標(biāo)
所用方法基于Python3.8(ubuntu20.04),PyTorch2.0,Cuda11.8實(shí)現(xiàn),硬件測試環(huán)境CPU為Intel(R) Xeon(R) Gold 6330,GPU選用RTX 3090。為測試改進(jìn)模型的檢測性能,使用精確度P、召回率R、F1、mAP、浮點(diǎn)運(yùn)算量FLOPs、模型參數(shù)量、模型大小作為評(píng)估指標(biāo),通常,模型參數(shù)量和FLOPs越小,表示模型所需的計(jì)算資源就越小,對(duì)硬件的性能要求就越低,在低端設(shè)備中的部署就越容易。各評(píng)價(jià)指標(biāo)計(jì)算如式(5)~式(8)所示。
P=TPTP+FF
(5)
R=TPTP+FN
(6)
F1=2×P×RP+R
(7)
IoU=A∩BA∪B
(8)
式中: TP——
被預(yù)測為正樣本,但實(shí)際上是正樣本;
FP——
被預(yù)測為正樣本,但實(shí)際上是負(fù)樣本;
FN——
被預(yù)測為負(fù)樣本,但實(shí)際上是正樣本;
IoU——
交并比,邊界框A與真實(shí)邊界框B之間的交集與并集的比率。
3 結(jié)果與分析
3.1 多種目標(biāo)檢測網(wǎng)絡(luò)模型檢測效果
為評(píng)估原始YOLOv8網(wǎng)絡(luò)模型對(duì)杏果的檢測效果,使用目前目標(biāo)檢測方法中經(jīng)典的網(wǎng)絡(luò)模型EfficientDet、Centernet、Faster R—CNN、Retinanet、SSD、YOLOv5n對(duì)杏果數(shù)據(jù)集進(jìn)行訓(xùn)練和測試,對(duì)比原始YOLOv8n模型的檢測效果,表1為上述7種網(wǎng)絡(luò)模型的性能指標(biāo)。由表1所知,在環(huán)境較為復(fù)雜的果園環(huán)境中,YOLOv8n相比于其他主流模型有更好的識(shí)別結(jié)果,F(xiàn)1比EfficientDet、Centernet、Faster R—CNN、Retinanet、SSD、YOLOv5n高出13.65、3.31、21.94、2.43、36.88、1.93個(gè)百分點(diǎn),平均精度高出16.84、0.32、20.59、3.61、30.91、0.8個(gè)百分點(diǎn)。其中雖然Centernet、Retinanet檢測精度較為良好,但其模型較大,兩階段目標(biāo)檢測模型Fast R—CNN對(duì)杏果的識(shí)別精度低且模型較大,雖然YOLOv5n模型在眾多經(jīng)典的網(wǎng)絡(luò)模型中最小,但其模型的整體精度與YOLOv8n相比有較大差距。因此,原始的YOLOv8n模型綜合表現(xiàn)最好,更適用于在復(fù)雜的果園環(huán)境中杏果的檢測。
3.2 不同輕量化模型的對(duì)比
模型的輕量化是后續(xù)在機(jī)器設(shè)備上部署的關(guān)鍵。因此,對(duì)原始YOLOv8n模型進(jìn)行輕量化改進(jìn),用MobileViT—XS更換其骨干網(wǎng)絡(luò)部分,對(duì)比原模型,改進(jìn)后的YOLOv8n模型參數(shù)量減少約28.06%,F(xiàn)LOPs降低0.1G,模型大小減少1.48MB,F(xiàn)1提高0.7%,mAP提高1.07%。為探討改進(jìn)后的YOLOv8n模型與其他流行輕量級(jí)模型在復(fù)雜環(huán)境中對(duì)杏果的識(shí)別效果,將GhostnetV2、Fasternet、Shufflenet、MobileNetV3逐個(gè)替換YOLOv8骨干網(wǎng)絡(luò),還加入輕量化注意力機(jī)制ECA進(jìn)行性能比較,對(duì)比結(jié)果如表2所示。
由表2可知,Shufflenet模型的輕量化效果最好,參數(shù)量減少約43.06%,F(xiàn)LOPs降低3.2G,模型大小減少2.48MB,但F1卻降低17.01%,mAP下降17.72%,F(xiàn)asternet在參數(shù)量、FLOPs、模型大小方面與Shufflenet相差不大,識(shí)別的效果也好于Shufflenet,但還是沒有在精度上超過原始的YOLOv8n模型,而加入輕量化注意力模塊ECA的方法雖然在精度上相比原始模型有所提升,但參數(shù)量、FLOPS等指標(biāo)并沒有減少,綜合所有指標(biāo)來看,加入MobileViT—XS的輕量化方式更適用于YOLOv8n的改進(jìn),不僅降低計(jì)算資源的需求,而且提升杏果識(shí)別的精度,更加適合在嵌入式設(shè)備的實(shí)時(shí)杏果的識(shí)別,滿足復(fù)雜果園環(huán)境中杏果精準(zhǔn)識(shí)別的需求。
3.3 不同損失函數(shù)的對(duì)比
為分析不同損失函數(shù)的性能表現(xiàn),將YOLOv8n的損失函數(shù)CIoU分別替換為DIoU、GIoU、EIoU、SIoU以及WIoUv3在同一試驗(yàn)條件下進(jìn)行對(duì)比,表3為上述損失函數(shù)的對(duì)比結(jié)果。對(duì)6種損失函數(shù)的性能進(jìn)行分析可知,與原始的CIoU相比,WIoUv3得到最好的精度結(jié)果,F(xiàn)1、mAP分別提升0.55%、0.41%,證明引入WIoUv3的有效性。
3.4 杏果圖像檢測結(jié)果
圖6是在不同光照條件、遮擋情況的場景下原始YOLOv8n與加入MobileViT—XS、引入WIoUv3的改進(jìn)YOLOv8n模型的檢測結(jié)果對(duì)比圖。如圖6所示,紅色為模型的識(shí)別檢測框下方的數(shù)字為識(shí)別的置信度,置信度是用于衡量一個(gè)假設(shè)或預(yù)測的準(zhǔn)確性或可靠性,通常以百分比的形式表示一個(gè)事件或陳述發(fā)生的概率或被認(rèn)為是真實(shí)的程度,藍(lán)框則為兩種模型對(duì)比的高亮區(qū)域??梢钥闯?,兩種模型的檢測效果從全局來看都具有較好表現(xiàn),圖6中出現(xiàn)的杏果基本上都能識(shí)別出來,但也有部分細(xì)節(jié)的細(xì)微差距,如在3種不同光照條件下的側(cè)光條件圖6(b)中,原始的YOLOv8n出現(xiàn)錯(cuò)誤判斷,將樹干旁空白的區(qū)域識(shí)別為杏果(藍(lán)框區(qū)域),而改進(jìn)后的模型沒有出現(xiàn)這種錯(cuò)誤;逆光條件中,原始模型將處于圖中較為模糊遠(yuǎn)距離的密集大量的杏果單獨(dú)識(shí)別為一個(gè),而改進(jìn)后的模型避免了這種錯(cuò)誤,并且在單個(gè)細(xì)微的杏果的識(shí)別當(dāng)中,做出的識(shí)別效果更好,在置信度上有更好的表現(xiàn)情況。在3種遮擋條件下的葉片遮擋圖6(d)中,左上角區(qū)域原圖只有8個(gè)處于陰影葉片遮擋下的杏果,從原始模型密集的檢測框可以看出,并沒有對(duì)杏果得到正確的識(shí)別,而是檢測到杏果不同于其他區(qū)域的顏色,從顏色的角度進(jìn)行識(shí)別從而出現(xiàn)密集檢測框的現(xiàn)象,而改進(jìn)的模型在左上角區(qū)域也有部分杏果沒有得到正確的識(shí)別,但檢測框的表現(xiàn)說明,改進(jìn)后的方法是從全局視覺的角度進(jìn)行分析識(shí)別出杏果的,檢測框更趨近于杏果的實(shí)際大小,在枝干遮擋的對(duì)比圖6(e)中也有效說明在對(duì)于目標(biāo)果實(shí)較小、遮擋程度較高的區(qū)域,改進(jìn)后的模型在杏果識(shí)別的細(xì)節(jié)方面做得更好,果實(shí)重疊的對(duì)比圖6(f)中,兩種模型都具有較好的識(shí)別效果,只有置信度的差別。綜合來看,改進(jìn)后的模型相比于原始模型,在識(shí)別精度上得到提升,降低了模型的參數(shù)量、計(jì)算量以及模型大小,而且在真實(shí)的杏果場景識(shí)別中提升更加精確。
4 結(jié)論
1) 提出一種改進(jìn)輕量化YOLOv8n網(wǎng)絡(luò)模型應(yīng)用于復(fù)雜環(huán)境中杏果的識(shí)別。該網(wǎng)絡(luò)將YOLOv8n原始模型中的骨干網(wǎng)絡(luò)替換為輕量化的MobileViT—XS結(jié)構(gòu)并且將原始的損失函數(shù)CIoU替換為WIoUv3,降低模型的參數(shù)量、FLOPs,檢測精度也得到提升,能夠更輕便快捷地實(shí)施設(shè)備部署識(shí)別杏果。
2) 為驗(yàn)證改進(jìn)YOLOv8n的性能,設(shè)置6種主流經(jīng)典網(wǎng)絡(luò)模型,5種輕量化改進(jìn)模型,5種損失函數(shù)替換,在同種條件下進(jìn)行對(duì)比試驗(yàn)。試驗(yàn)結(jié)果表明,原始的YOLOv8n相比于其他目前主流的原始模型,在檢測精度上效果更好,模型更加精巧;改進(jìn)后的輕量化模型中,MobileViT—XS的輕量化程度以及檢測精度更好;在損失函數(shù)的對(duì)比試驗(yàn)中,WIoUv3在模型檢測精度上也均高于其他損失函數(shù)。
3) 在相同的試驗(yàn)條件下,通過與其他原始模型的對(duì)比可知,改進(jìn)后的YOLOv8n模型在杏果數(shù)據(jù)集上取得較優(yōu)的結(jié)果,對(duì)比原始的YOLOv8n模型,在F1、mAP上提升1.25%、1.48%,參數(shù)量、FLOPs、模型大小分別降低28.06%、0.1G、1.48MB。試驗(yàn)充分證明,所提出的輕量化改進(jìn)方案切實(shí)有效,在檢測精度、模型參數(shù)上均有較好的優(yōu)化結(jié)果。可以將杏果識(shí)別應(yīng)用于農(nóng)業(yè)設(shè)備對(duì)果實(shí)的采摘、打藥等操作當(dāng)中,為其他農(nóng)業(yè)設(shè)備機(jī)器提供精準(zhǔn)識(shí)別、目標(biāo)定位等后續(xù)工作提供理論參考。
參 考 文 獻(xiàn)
[1] 呂春晶, 章秋平, 劉寧,等. 杏果核物理特性與其主要化學(xué)組分的相關(guān)性分析[J].果樹學(xué)報(bào), 2021, 38(10): 1717-1724.
Lü Chunjing, Zhang Qiuping, Liu Ning, et al. Correlations between physical properties and major chemical components of shells in apricot [J]. Journal of Fruit Science, 2021,38(10):1717-1724.
[2] 散鋆龍, 楊會(huì)民, 王學(xué)農(nóng),等. 振動(dòng)方式和頻率對(duì)杏樹振動(dòng)采收響應(yīng)的影響[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2018, 34(8): 10-17.
San Yunlong, Yang Huimin, Wang Xuenong, et al. Effects of vibration mode and frequency on vibration harvesting of apricot trees [J]. Transactions of the Chinese Society of Agricultural Engineering, 2018, 34(8): 10-17.
[3] 閆彬, 樊攀, 王美茸,等. 基于改進(jìn)YOLOv5m的采摘機(jī)器人蘋果采摘方式實(shí)時(shí)識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2022,53(9):28-38,59.
Yan Bin, Fan Pan, Wang Meirong,et al. Real-time apple picking pattern recognition for picking robot based on improved YOLOv5m [J]. Transactions of the Chinese Society for Agricultural Machinery,2022,53(9):28-38,59.
[4] Lin G, Tang Y, Zou X, et al. Fruit detection in natural environment using partial shape matching and probabilistic Hough transform [J]. Precision Agriculture, 2020, 21: 160-177.
[5] Liu T H, Ehsani R, Toudeshki A, et al. Detection of citrus fruit and tree trunks in natural environments using a multi-elliptical boundary model [J]. Computers in Industry, 2018, 99: 9-16.
[6] 廖崴, 鄭立華, 李民贊,等. 基于隨機(jī)森林算法的自然光照條件下綠色蘋果識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2017, 48(S1):86-91.
Liao Wei, Zhen Lihua, Li Minzan, et al. Green apple recognition in natural illumination based on random forest algorithm [J]. Transactions of the Chinese Society for Agricultural Machinery,2017,48(S1):86-91.
[7] Wan S, Goudos S. Faster R—CNN for multi-class fruit detection using a robotic vision system [J]. Computer Networks, 2020, 168: 107036.
[8] 彭紅星, 黃博, 邵園園,等. 自然環(huán)境下多類水果采摘目標(biāo)識(shí)別的通用改進(jìn)SSD模型[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2018,34(16):155-62.
Peng Hongxing, Huang Bo, Shao Yuanyuan,et al. General improved SSD model for picking object recognition of multiple fruits in natural environment [J]. Transactions of the Chinese Society of Agricultural Engineering, 2018, 34(16): 155-162.
[9] 趙輝, 喬艷軍, 王紅君,等. 基于改進(jìn)YOLOv3的果園復(fù)雜環(huán)境下蘋果果實(shí)識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2021, 37(16):127-35.
Zhao Hui, Qiao Yanjun, Wang Hongjun,et al. Apple fruit recognition in complex orchard environment based on improved YOLOv3 [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(16): 127-135.
[10] 趙凱琳, 靳小龍, 王元卓. 小樣本學(xué)習(xí)研究綜述[J]. 軟件學(xué)報(bào),2021,32(2):349-369.
Zhao Kailin, Jin Xiaolong, Wang Yuanzhuo. Survey on few-shot learning [J]. Journal of Software, 2021, 32(2):349-369.
[11] Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 2117-2125.
[12] Liu S, Qi L, Qin H, et al. Path aggregation network for instance segmentation [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 8759-8768.
[13] 彭炫, 周建平, 許燕,等. 改進(jìn)YOLOv5識(shí)別復(fù)雜環(huán)境下棉花頂芽[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2023, 39(16): 191-197.
Peng Xuan, Zhou Jianping, Xu Yan,et al. Cotton top bud recognition method based on YOLOv5-CPP in complex environment [J]. Transactions of the Chinese Society of Agricultural Engineering, 2023, 39(16): 191-197.
[14] 彭書博, 陳兵旗, 李景彬,等. 基于改進(jìn)YOLOv7的果園行間導(dǎo)航線檢測[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2023,39(16)131-138.
Peng Shubo, Chen Bingqi, Li Jingbin, et al. Detection of the navigation line between lines in orchard using improved YOLOv7[J]. Transactions of the Chinese Society of Agricultural Engineering, 2023, 39(16): 131-138.
[15]
Li X, Wang W, Wu L, et al. Generalized focal loss: Learning qualified and distributed bounding boxes for dense object detection [J]. Advances in Neural Information Processing Systems, 2020, 33: 21002-12.
[16] Mehta S, Rastegari M. MobileViT: Light-weight, general-purpose, and mobile-friendly vision transformer [J]. arXiv preprint arXiv:2110.02178, 2021.
[17] Sandler M, Howard A, Zhu M, et al. MobileNetV2: Inverted residuals and linear bottlenecks [C].
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 4510-4520.
[18] Zheng Z, Wang P, Liu W, et al. Distance-IoU loss: Faster and better learning for bounding box regression [C]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 12993-13000.
[19] Zhang Y F, Ren W, Zhang Z, et al. Focal and efficient IoU loss for accurate bounding box regression [J]. Neurocomputing, 2022, 506: 146-157.
[20] Gevorgyan Z. SIoU loss: More powerful learning for bounding box regression [J]. arXiv preprint arXiv:2205.12740, 2022.
[21] Tong Z, Chen Y, Xu Z, et al. Wise-IoU: Bounding box regression loss with dynamic focusing mechanism [J].arXiv preprint arXiv:2301.10051, 2023.