摘要:
為實(shí)現(xiàn)草莓采摘時精準(zhǔn)檢測,同時考慮到嵌入式設(shè)備內(nèi)存小、計算能力低下,而當(dāng)下目標(biāo)檢測模型參數(shù)量和計算量巨大的問題,提出一種基于YOLOv5s的輕量化網(wǎng)絡(luò)模型。首先,對YOLOv5s進(jìn)行輕量化處理,利用深度卷積(DWConv)替換普通卷積,同時用C3Ghost模塊替換原網(wǎng)絡(luò)模型中的C3模塊,降低模型的復(fù)雜度。然后,為增強(qiáng)主干網(wǎng)絡(luò)對特征信息的提取能力,加強(qiáng)輸入特征圖通道間的信息交互,在主干網(wǎng)絡(luò)的C3模塊中融合高效通道注意力(ECA)結(jié)構(gòu),在特征融合網(wǎng)絡(luò)添加無參數(shù)注意力模塊(SimAM),使網(wǎng)絡(luò)聚焦更多的有效特征信息,達(dá)到不增加模型的參數(shù)量,同時又提升模型識別精度的目的。最后,結(jié)合遷移學(xué)習(xí)加快模型收斂速度并進(jìn)一步提升模型檢測精度。結(jié)果表明,輕量化后的網(wǎng)絡(luò)模型體積減小55.8%,計算量減少55.1%,在自制草莓?dāng)?shù)據(jù)集上的平均精度均值mAP@0.75達(dá)到74.9%,比原模型提高3.1%,單張圖片平均推理時間僅6.4ms,能夠?qū)崿F(xiàn)在草莓采摘任務(wù)中的精準(zhǔn)快速檢測,為草莓生產(chǎn)智能化提供支持。
關(guān)鍵詞:草莓目標(biāo)檢測;深度學(xué)習(xí);注意力機(jī)制;輕量化模型;遷移學(xué)習(xí)
中圖分類號:S126; TP391.4
文獻(xiàn)標(biāo)識碼:A
文章編號:2095-5553 (2025) 03-0253-08
收稿日期:2023年9月14日" 修回日期:2023年11月20日*
基金項(xiàng)目:國家自然科學(xué)基金(32202147);中國博士后基金面上項(xiàng)目(2021M690573);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(2572020BF05);陜西省科學(xué)技術(shù)協(xié)會青年人才托舉計劃項(xiàng)目(20220124)
第一作者:郭敬濤,男,1996年生,河南許昌人,碩士研究生;研究方向?yàn)檗r(nóng)林業(yè)智能檢測。E-mail: 17613563953@163.com
通訊作者:劉大洋,男,1990年生,吉林四平人,博士,副教授;研究方向?yàn)檗r(nóng)林業(yè)智能檢測。E-mail: ldy333ldy@163.com
Strawberry target detection method based on transfer learning and lightweight YOLOv5s
Guo Jingtao1, Lü Feng1, Zhang Huiting1, Yang Biao2, Liu Dayang1
(1. College of Computer and Control Engineering, Northeast Forestry University, Harbin, 150040, China;
2. Electronic Information and Electrical Engineering College, Shangluo University, Shangluo, 726000, China)
Abstract:
To achieve the accurate detection of strawberry in agricultural harvesting, a lightweight network model based on YOLOv5s is proposed considering the limited memory and low computational power of embedded devices, as well as the huge parameters and computational demands of current target detection models. First, the YOLOv5s structure is lightweight processed by replacing ordinary convolutions with depthwise convolutions (DWConv) and substituting the C3 module in the original network with the C3Ghost module to reduce the model complexity. Second, to enhance the ability of the backbone network to extract feature information and improve the interaction between channels in the input feature maps, an efficient channel attention (ECA) structure is integrated into the C3 module of the backbone network. Additionally, a parameter-free attention module (SimAM) is added to the feature fusion network, so that the model can focus on more effective feature information without increasing the number of parameters of the model while improving the recognition accuracy. Finally, transfer learning is combined to accelerate the convergence speed of the model and further improve the detection accuracy. The results indicate that the lightweight model reduces network size by 55.8% and computation by 55.1%. The mAP@0.75 tested on a custom strawberry dataset reaches 74.9%, which is 3.1% higher than that of the original model. The average inference time per image is only 6.4 ms. This enables accurate and fast detection in strawberry picking tasks and provides support for the intelligent production of strawberries.
Keywords:
strawberry target detection; deep learning; attention mechanism; lightweight model; transfer learning
0 引言
草莓是目前市場上較為常見的一種水果,因其豐富的營養(yǎng)和低含量的脂肪成分,有“水果皇后”的美譽(yù),加上經(jīng)常食用能夠增強(qiáng)人體的抵抗力,因此備受市場喜愛[1]。根據(jù)國家統(tǒng)計局?jǐn)?shù)據(jù)顯示,2014—2022年,我國草莓種植面積由94.82khm2增長至130.24khm2[2],但目前草莓采摘主要采取人工方式,自動化程度低、勞動強(qiáng)度大、采摘成本高且效率低,因此,研究草莓果實(shí)快速準(zhǔn)確的檢測方法,實(shí)現(xiàn)自動化采摘十分重要。
隨著計算機(jī)視覺技術(shù)和深度學(xué)習(xí)的不斷發(fā)展,尤其是一系列卷積神經(jīng)網(wǎng)絡(luò)模型的提出,將基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)應(yīng)用于農(nóng)業(yè)果實(shí)識別已經(jīng)成為較熱門的研究領(lǐng)域[3-5]。Bargoti等[6]研究了將甜椒的RGB圖像和NIR圖像分別進(jìn)行早期數(shù)據(jù)融合、晚期數(shù)據(jù)融合以及不進(jìn)行數(shù)據(jù)融合情形下在Faster R—CNN模型中的檢測性能,發(fā)現(xiàn)將兩組信息進(jìn)行晚期融合能夠獲得最高的F1值。閆建偉等[7]改進(jìn)Faster R—CNN中感興趣區(qū)域池化為感興趣區(qū)域校準(zhǔn),提高了模型檢測精度,F(xiàn)1值最高達(dá)94.99%。以Faster R—CNN為主要代表的二階段目標(biāo)檢測算法,優(yōu)點(diǎn)是精度高,缺點(diǎn)是檢測速度慢,以YOLO和SSD[8]為代表的單階段算法不需要得到建議框,在速度上有更大的優(yōu)勢,精度上也在逐漸趕上并超過二階段算法。周桂紅等[9]在YOLOv4的特征提取層加入scSE注意力機(jī)制,替換PANet網(wǎng)絡(luò)中的部分卷積為深度可分離卷積,結(jié)合基于閾值的邊界框匹配合并算法,在蘋果全景圖像識別任務(wù)中的平均精度均值mAP達(dá)95.06%,F(xiàn)1值達(dá)96%。Fan等[10]為解決夜間采集的圖像光照不足的問題,提出一種結(jié)合YOLOv5s和暗通道增強(qiáng)的算法,在4種不同成熟度的草莓?dāng)?shù)據(jù)集上訓(xùn)練的mAP可以達(dá)到90%以上。
以上方法在實(shí)際果實(shí)目標(biāo)檢測任務(wù)中已經(jīng)取得較好的效果,但由于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜且計算量大,不利于在嵌入式設(shè)備的部署。因此,對以上深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行輕量化處理具有重要的現(xiàn)實(shí)意義。Fu等[11]提出一種權(quán)重大小為27MB的基于 YOLOv3—tiny模型的DY3TNet網(wǎng)絡(luò),對果園中的獼猴桃進(jìn)行檢測,平均檢測精度達(dá) 90.05%,在GPU設(shè)備上單幅圖像推理時間為34ms,實(shí)現(xiàn)了獼猴桃的快速檢測。孫俊等[12]利用輕量型網(wǎng)絡(luò)GhostNet替換YOLOv4—Tiny模型的特征提取網(wǎng)絡(luò)并添加注意力模塊,并采用高效交并比損失作為邊界框回歸損失函數(shù),最后得到的模型權(quán)重文件大小僅為4.68MB,在測試集上的mAP相較于原模型提高5.77%,每張圖片的平均推理時間為5.63ms。陳仁凡等[13]提出一種基于YOLOv5s的輕量級網(wǎng)絡(luò)模型YOLO—ODM,首先在主干網(wǎng)絡(luò)中引入Shuffle_Block以實(shí)現(xiàn)輕量化,同時在頸部結(jié)構(gòu)中使用全維度動態(tài)卷積模塊提高模型信息提取能力,并進(jìn)一步精簡模型結(jié)構(gòu),最終改進(jìn)后模型的mAP達(dá)97.4%,模型體積為7.79MB,可快速準(zhǔn)確地對溫室環(huán)境下的草莓果實(shí)成熟度進(jìn)行檢測。
上述研究在平衡模型的輕量化與檢測精度上已經(jīng)取得較好的效果,但兩者仍有一定的提升空間,且以往對草莓的研究側(cè)重于對成熟果實(shí)的檢測,缺少對草莓花期到成熟全過程的研究。為此,本文以溫室草莓全生長階段果實(shí)為研究對象,旨在探索低資源占用情況下,在保證檢測速度的同時,提高對草莓果實(shí)的檢測精度,為草莓的自動化生產(chǎn)提供一定的技術(shù)支持。首先,基于YOLOv5s網(wǎng)絡(luò)模型,通過替換普通卷積為深度卷積(DWConv),引入Ghostbottleneck精簡模型的結(jié)構(gòu);然后,在模型特征提取階段融入高效通道注意力(ECA)結(jié)構(gòu),在特征融合網(wǎng)絡(luò)添加無參數(shù)注意力模塊(SimAM);最后,結(jié)合遷移學(xué)習(xí)策略加快模型的收斂速度,同時進(jìn)一步提高模型的檢測精度。
1 材料與方法
1.1 數(shù)據(jù)集采集
數(shù)據(jù)集1為PASCAL VOC挑戰(zhàn)賽的公共數(shù)據(jù)集,包括VOC 2007和VOC 2012,其中標(biāo)注的目標(biāo)包含vehicle、household、animal、person 4個大類,這4個大類又細(xì)分為20個小類,因?yàn)樵摂?shù)據(jù)集目標(biāo)種類比較豐富且圖片數(shù)量適中,其作為大型目標(biāo)檢測比賽使用的專用數(shù)據(jù)集,在做消融試驗(yàn)時更具權(quán)威性,考慮到自身計算資源有限,所以選擇該數(shù)據(jù)集作為預(yù)訓(xùn)練數(shù)據(jù)集。
數(shù)據(jù)集2的草莓圖片一部分采集于河南省許昌市建安區(qū)五女店鎮(zhèn)某草莓種植園,品種為“甜查理”;另一部分采集于陜西省楊凌區(qū)農(nóng)業(yè)創(chuàng)新園內(nèi),品種為“章姬”,兩個品種的草莓如圖1所示。
草莓種植方式為大棚地壟式,拍攝時間為2023年1—2月,這一期間包含草莓各個生長階段的果實(shí),在自然光照條件下拍攝,拍攝設(shè)備為華為P30,拍攝距離在30cm以內(nèi),圖片保存格式為jpg,“甜查理”草莓采集了1158張,“章姬”草莓采集了982張,共計2140張。
1.2 數(shù)據(jù)集構(gòu)建
將數(shù)據(jù)集1中2012 train+val和2007 train+val作為訓(xùn)練集樣本,2007 test作為驗(yàn)證集樣本,劃分后的訓(xùn)練集和驗(yàn)證集的圖片數(shù)量分別為16551張和4952張。
使用LabelImg工具對數(shù)據(jù)集2各個目標(biāo)進(jìn)行標(biāo)注,格式為YOLO,按照生長階段不同,將果實(shí)目標(biāo)分為花期、青果期、白果期、轉(zhuǎn)色期和成熟期,分別對應(yīng)的標(biāo)簽為flower、green_fruit、white_fruit、color-turning和ripe,其中著色面積超過80%則被定義為成熟期。標(biāo)注后的數(shù)據(jù)集按照7∶2∶1隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集、測試集。為擴(kuò)充數(shù)據(jù)集以增強(qiáng)模型的抗干擾能力,采用線上、線下結(jié)合的方式對訓(xùn)練集數(shù)據(jù)進(jìn)行增強(qiáng)??紤]到圖像采集裝置在實(shí)際拍攝過程中可能產(chǎn)生噪聲以及因?yàn)檎饎釉斐蓤D像的模糊等情況,分別對數(shù)據(jù)集進(jìn)行添加高斯噪聲和運(yùn)動模糊兩種線下增強(qiáng)處理。另外考慮到光線的變化和采集角度對圖片的影響,線上增強(qiáng)方式包含HSV增強(qiáng)、0°~180°隨機(jī)旋轉(zhuǎn)、平移、放縮等操作,最終上述處理后的圖片再經(jīng)過Mosaic增強(qiáng),送入網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。數(shù)據(jù)集2各個類別目標(biāo)的基本信息如表1所示。
1.3 訓(xùn)練策略
基于微調(diào)的二階段學(xué)習(xí)策略,訓(xùn)練流程如圖2所示。
先將數(shù)據(jù)集1在不同網(wǎng)絡(luò)模型上訓(xùn)練,迭代次數(shù)設(shè)置為300,batch size設(shè)置為32,初始學(xué)習(xí)率為0.001,使用余弦退火算法動態(tài)調(diào)整學(xué)習(xí)率,權(quán)重衰減率為0.0005,動量為0.937,采用隨機(jī)梯度下降法優(yōu)化參數(shù)。在數(shù)據(jù)集1上進(jìn)行消融試驗(yàn)驗(yàn)證本文改進(jìn)部分的效果后,在數(shù)據(jù)集2上進(jìn)行改進(jìn)模型的對比試驗(yàn)確定模型結(jié)構(gòu),接下來以數(shù)據(jù)集1訓(xùn)練的權(quán)重初始化網(wǎng)絡(luò)參數(shù),在數(shù)據(jù)集2上進(jìn)行參數(shù)遷移和模型微調(diào),迭代次數(shù)設(shè)置為100,其余參數(shù)保持不變。
1.4 試驗(yàn)環(huán)境
試驗(yàn)環(huán)境基于Pytorch深度學(xué)習(xí)框架搭建,在GPU環(huán)境下訓(xùn)練測試,具體試驗(yàn)環(huán)境配置如表2所示。
2 識別方法
2.1 YOLOv5s網(wǎng)絡(luò)介紹
YOLOv5s模型的結(jié)構(gòu)包括輸入端,主干提取網(wǎng)絡(luò)Backbone,瓶頸網(wǎng)絡(luò)Neck和檢測網(wǎng)絡(luò)Detect。輸入端圖片尺寸默認(rèn)為640像素×640像素×3通道。Backbone是由Conv、C3和快速空間金字塔池化模塊(SPPF)構(gòu)成,用于輸入圖片的特征提取,其中Conv模塊是Conv2d()、BatchNorm2d()和SiLU()的組合,簡稱為CBS操作;C3模塊將輸入的特征圖分為兩個分支,分支1經(jīng)過普通卷積Conv操作,分支2經(jīng)過CBS和多個Bottleneck處理,最后將兩路結(jié)果進(jìn)行Concat作為模塊的輸出,殘差結(jié)構(gòu)在深層網(wǎng)絡(luò)中很好地減少了特征圖語義信息的丟失,在Backbone中C3模塊shortcut設(shè)置為True,而Neck中則設(shè)置為False;SPPF模塊通過并列的3個最大池化操作后與未經(jīng)池化操作的通道進(jìn)行Concat拼接,輸出通道變?yōu)檩斎氲?倍,極大地提升模型的感受野范圍,有利于檢測圖像中不同大小的目標(biāo)對象。Neck網(wǎng)絡(luò)采用PANet結(jié)構(gòu),深度卷積神經(jīng)網(wǎng)絡(luò)中,淺層網(wǎng)絡(luò)的特征層包含的細(xì)節(jié)信息豐富但語義信息較少,深層網(wǎng)絡(luò)的特征層細(xì)節(jié)信息不足但語義信息豐富,PANet結(jié)構(gòu)能夠?qū)\層與深層網(wǎng)絡(luò)特征進(jìn)行融合提升檢測的性能。最后將Neck網(wǎng)絡(luò)中引出的3個尺寸的特征預(yù)測層送入Detect模塊進(jìn)行預(yù)測輸出。
2.2 改進(jìn)的YOLOv5s網(wǎng)絡(luò)模型
改進(jìn)后的網(wǎng)絡(luò)模型如圖3所示。(1)利用深度卷積代替普通標(biāo)準(zhǔn)卷積,以減少模型的參數(shù)量和計算量;(2)引入GhostBottleneck替換原C3模塊的Bottleneck,進(jìn)一步實(shí)現(xiàn)模型的輕量化;(3)在模型的Backbone中融合一種輕量型有效通道注意力結(jié)構(gòu)ECA,并與C3模塊相結(jié)合,加強(qiáng)Backbone對特征的提取能力;(4)在模型特征融合網(wǎng)絡(luò)添加SimAM,增強(qiáng)有效信息同時抑制無關(guān)特征的干擾。
2.2.1 利用DWConv代替普通卷積
如圖4所示,對于輸入尺寸為Dx×Dy×Cin的特征圖,在普通卷積中經(jīng)過Cout個3×3的卷積核卷積計算后可以得到尺寸為Dx×Dy×Cout的特征圖的輸出。普通卷積過程將Cout個3×3的卷積核分別與特征圖的每個通道結(jié)合,得到Cout個通道的新特征圖。假設(shè)padding=1,不考慮偏置,使用不同卷積的參數(shù)量P1和計算量C1可以通過式(1)計算。
P1=3×3×Cin×Cout
C1=Dx×Dy×3×3×3×Cout
(1)
DWConv是分組卷積[14]的一種特例,即分組數(shù)和特征圖的輸入通道數(shù)Cin相等,使用Cout個3×3的卷積核與輸入特征圖的每個通道分別進(jìn)行卷積,得到一個輸入通道與輸出通道相等的特征圖。假設(shè)padding=1,不考慮偏置,使用不同卷積的參數(shù)量P2和計算量C2可以通過式(2)計算。
P2=3×3×Cin
C2=Dx×Dy×3×3×3
(2)
DWConv與普通卷積的參數(shù)量與計算量之比為
K=P2P1=C2C2=1Cout
(3)
由式(3)可知,DWConv能夠?qū)⒛P腕w積和計算量壓縮為原來的1/Cout,大大降低了對部署設(shè)備計算能力的要求。
2.2.2 融合Ghostbottleneck的C3模塊
Ghostbottleneck是一個即插即用的模塊,其擁有基于Ghost module[15]搭建的殘差網(wǎng)絡(luò)結(jié)構(gòu),對傳統(tǒng)卷積網(wǎng)絡(luò)計算過程中特征圖冗余的問題進(jìn)行改進(jìn)。在Neck網(wǎng)絡(luò)部分的C3模塊中引入Ghostbottleneck。Ghost module卷積過程如圖5所示,首先,用步長為1的1×1卷積生成部分原始特征圖,同時通道數(shù)減半;再用步長為1的5×5深度卷積逐通道生成原始特征圖的“幻影”特征圖來增加信道,在圖5中表示為φ1,φ2,…,φk等線性操作;最后,將原始特征圖與恒等映射特征圖拼接得到輸出特征圖,Identity代表恒等映射。Ghost module能夠?qū)崿F(xiàn)不改變輸入輸出特征圖通道數(shù)的前提下,大幅度減小模型參數(shù)和計算量。
Ghostbottleneck借鑒ResNet中的殘差瓶頸結(jié)構(gòu),如圖6所示,當(dāng)步長為1時,Ghostbottleneck主要由兩個堆疊的Ghost module組成,第一個Ghost module用作擴(kuò)展層,增加通道數(shù),第二個Ghost module減少通道數(shù),用以和 shortcut的通道數(shù)匹配,進(jìn)而進(jìn)行Add操作。當(dāng)步長為2進(jìn)行下采樣時,在兩個Ghost module之間增加一個步長為2的DWConv,殘差邊為保持與另一路特征圖尺寸和通道數(shù)一致,經(jīng)過DWConv和1×1的普通卷積后與另一路輸出做Add操作。
將GhostBottleneck替換C3模塊中的Bottleneck成為C3Ghost,結(jié)構(gòu)如圖7所示,N代表模型的深度,N越大,結(jié)構(gòu)就越復(fù)雜。
2.2.3 引入ECA結(jié)構(gòu)
在對YOLOv5s模型進(jìn)行輕量化處理后,模型的參數(shù)量和計算量減少,其從輸入的特征圖提取的特征信息也會隨之減少,且由于DWConv只在特征圖的各個通道分別卷積,缺失了通道間的信息交互,將導(dǎo)致識別精度有一定的下降。ECA結(jié)構(gòu)可以獲取跨通道的信息,提升通道間的關(guān)聯(lián)性,且只增加模型少量的參數(shù),就能獲得較大的性能增益。ECA[16]結(jié)構(gòu)如圖8所示,首先,輸入的特征圖經(jīng)過全局平均池化后維度由H×W×C被壓縮為1×1×C;然后,經(jīng)過卷積核大小為k的自適應(yīng)一維卷積實(shí)現(xiàn)跨通道信息的交互,k的大小與通道數(shù)成正比,由式(4)確定。
k=φ(C)=log2Cγ+bγodd
(4)
式中: C——通道數(shù);
||odd——取距離最近的奇數(shù);
γ、b——
常數(shù),設(shè)置為2和1,用于改變通道數(shù)C和卷積核大小和之間的比例。
經(jīng)過跨通道交互后的向量經(jīng)過Sigmoid非線性激活函數(shù),得到每個通道的權(quán)值,再與每個通道相乘,形成最后的輸出。
將ECA結(jié)構(gòu)與Bottleneck結(jié)合嵌入C3模塊中構(gòu)成C3ECA,置于Backbone用于加強(qiáng)對輸入特征圖的特征信息提取能力,ECABottleneck的結(jié)構(gòu)見圖9。
2.2.4 引入SimAM模塊
SimAM[17]是中山大學(xué)在2021年提出的一種概念,能夠不額外增加學(xué)習(xí)參數(shù)的情況下更高效地評估特征權(quán)重,實(shí)現(xiàn)目標(biāo)的精確識別與定位,提高基礎(chǔ)模型的性能。在神經(jīng)科學(xué)中,信息豐富的神經(jīng)元比周圍神經(jīng)元表現(xiàn)出更活躍的狀態(tài),同時對周圍神經(jīng)元產(chǎn)生抑制。以此為基礎(chǔ),每個神經(jīng)元定義能量函數(shù)如式(5)所示。
2.3 評價指標(biāo)
采用的模型評價指標(biāo)有mAP、單張圖片推理時間T、F1值、浮點(diǎn)運(yùn)算數(shù)FLOPs和模型體積。T在本地GPU設(shè)備上用測試集測得。相關(guān)評價指標(biāo)的計算如式(9)~式(13)所示。
3 試驗(yàn)結(jié)果與分析
3.1 消融試驗(yàn)與改進(jìn)模型對比試驗(yàn)
3.1.1 消融試驗(yàn)
為驗(yàn)證改進(jìn)內(nèi)容的有效性,在數(shù)據(jù)集1做相關(guān)消融試驗(yàn),結(jié)果如表3所示。
由表3可知,只對原模型做輕量化后mAP@0.5∶0.95下降4.1%;在Backbone中添加ECA結(jié)構(gòu)后,mAP@0.5∶0.95提高2.1%;在Neck網(wǎng)絡(luò)中添加SimAM模塊后,mAP@0.5∶0.95提高0.3%;同時添加ECA結(jié)構(gòu)和SimAM模塊后,最終本文模型只比原模型的mAP@0.5∶0.95下降1.5%。使用本次試驗(yàn)的模型初始化模型參數(shù),可以在一定程度上優(yōu)化接下來在數(shù)據(jù)集2上的試驗(yàn)結(jié)果。
3.1.2 改進(jìn)模型對比試驗(yàn)
消融試驗(yàn)結(jié)果證明在網(wǎng)絡(luò)模型中加入ECA注意力機(jī)制和SimAM模塊的確能夠提升模型的檢測精度。
根據(jù)兩者在網(wǎng)絡(luò)模型中的不同位置設(shè)計4種不同的模型結(jié)構(gòu),在數(shù)據(jù)集2上做對比試驗(yàn),結(jié)果如表4所示,由于4種結(jié)構(gòu)的mAP@0.5相差不大,不能體現(xiàn)出模型間的差距,所以選取mAP@0.75為評價指標(biāo),從結(jié)果來看,本文模型有最高的mAP@0.75為71.9%,是當(dāng)下條件下最優(yōu)的結(jié)構(gòu)。
3.2 與原YOLOv5s在數(shù)據(jù)集2上的對比試驗(yàn)
在數(shù)據(jù)集2上的試驗(yàn)結(jié)果如表5所示,本文模型和原YOLOv5s相比,模型體積和計算量分別減少55.8%和55.1%,mAP@0.75提高0.1%,推理時間減少3.5ms。使用遷移學(xué)習(xí)策略后,與原模型相比,本文模型的mAP@0.75提升3.1%。圖10為是否使用遷移學(xué)習(xí)時,模型在訓(xùn)練時的各損失值收斂曲線,可以發(fā)現(xiàn)使用遷移學(xué)習(xí)后3個損失值都收斂得更快更小,說明使用遷移學(xué)習(xí)相比于從頭開始訓(xùn)練一個模型,預(yù)訓(xùn)練權(quán)重給網(wǎng)絡(luò)模型提供很好的初始化參數(shù),能夠一定程度上提升模型性能,加快訓(xùn)練時模型收斂速度。
表6為本次研究對草莓果實(shí)5個生長階段檢測的結(jié)果,在不比較模型間的差異時選用mAP@0.5為衡量指標(biāo),5個時期的mAP@0.5和F1值分別為76.3%和72.5%、83.2%和81.5%、78.9%和77.6%、88.6%和84.6%、92.4%和89.4%,總體的mAP@0.5和F1值均大于80%,基本滿足草莓采摘時的精度要求。
3.3 與其他輕量化模型在數(shù)據(jù)集2上的對比試驗(yàn)
為進(jìn)一步驗(yàn)證所提出模型的性能,在數(shù)據(jù)集2上又測試YOLOv5m—Mobilenetv3、YOLOv5l—Shufflenetv2和YOLOv7—tiny幾個輕量化模型,訓(xùn)練迭代次數(shù)均設(shè)置為100,其中YOLOv5m—Mobilenetv3和YOLOv5l—Shufflenetv2這兩個模型是分別在YOLOv5模型基礎(chǔ)上將Backbone替換為Mobilenetv3-Large和Shufflenetv2,又調(diào)整模型的深度和寬度使模型的體積與本文模型體積相近而得到。對比結(jié)果如表7所示,本文模型的各項(xiàng)指標(biāo)均最突出,mAP@0.75為74.9%,比YOLOv5l—Shufflenetv2高出5.9%,F(xiàn)1值最高為81.3%,比YOLOv7—tiny高出1.7%,平均單張圖片推理時間為6.4ms,比YOLOv5m—Mobilenetv3快16.1ms。YOLOv7—tiny是專門為邊緣GPU設(shè)計的一種輕量模型,使用ReLU作為激活函數(shù),但在本次試驗(yàn)中表現(xiàn)出的性能卻不如其他幾個模型。
設(shè)定圖片中草莓目標(biāo)數(shù)目低于5個為稀疏,超過15個為密集,中間區(qū)間為適中,圖11從左向右順序展示了幾種輕量化模型在3種情境的草莓圖片目標(biāo)檢測任務(wù)中的可視化效果。在果實(shí)稀疏時每個模型均無漏檢、錯檢,且本文模型有最高的置信度;在果實(shí)數(shù)量適中時YOLOv5l—Shufflenetv2和YOLOv7—Tiny均出現(xiàn)錯檢(圖中箭頭處有重復(fù)檢測框);在果實(shí)密集時YOLOv5m—Mobilenetv3、YOLOv5l—Shufflenetv2和YOLOv7—Tiny均出現(xiàn)錯檢的情況,由此可以看出,本文模型在實(shí)際草莓目標(biāo)檢測任務(wù)中具有更好的性能。
4 結(jié)論
提出一種基于YOLOv5s的輕量化網(wǎng)絡(luò)模型,用于草莓在機(jī)器采摘過程中的快速準(zhǔn)確檢測,為草莓智能化生產(chǎn)和管理提供相應(yīng)的支持。
1) 利用深度卷積代替普通卷積,引入Ghostbottleneck精簡C3模塊,為加強(qiáng)特征圖通道間的信息交互,在Backbone部分的C3模塊中融合ECA結(jié)構(gòu),在特征融合網(wǎng)絡(luò)加入SimAM模塊,突出有效信息同時抑制無關(guān)信息。
2) 消融試驗(yàn)結(jié)果表明,改進(jìn)模型的體積和計算量得到大幅度減少,但在大型目標(biāo)檢測數(shù)據(jù)集PASCAL VOC上,mAP與原YOLOv5s模型相比略有下降。利用在PASCAL VOC數(shù)據(jù)集上訓(xùn)練的權(quán)重做遷移學(xué)習(xí),加快模型訓(xùn)練時的收斂速度,同時進(jìn)一步提高模型的mAP。在自制草莓?dāng)?shù)據(jù)集上進(jìn)行驗(yàn)證,與原YOLOv5s模型對比,改進(jìn)模型的mAP@0.75提升3.1%,單張圖片推理時間減少3.5ms,與其他輕量化模型相比,在模型體積和FLOPs相近的條件下,此模型識別精度最高、模型體積最小、檢測速度最快。
參 考 文 獻(xiàn)
[1] 張曉慧. 草莓病害研究進(jìn)展[J]. 安徽農(nóng)學(xué)通報, 2018, 24(18): 52-57.
[2] 2023—2029年中國草莓種植與深加工行業(yè)市場現(xiàn)狀調(diào)查及投資方向研究報告[EB/OL]. https://www.chyxx.com/research/1135804.html?bd_vid=8237899329342221593, 2023-08-22.
[3] 王卓, 王健, 王梟雄,等. 基于改進(jìn)YOLOv4的自然環(huán)境蘋果輕量級檢測方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報, 2022, 53(8): 294-302.
Wang Zhuo, Wang Jian, Wang Xiaoxiong, et al. Lightweight real-time apple detection method based on improved YOLOv4[J]. Transactions of the Chinese Society for Agricultural Machinery,2022,53(8):294-302.
[4] 閆彬, 樊攀, 王美茸, 等. 基于改進(jìn)YOLOv5m的采摘機(jī)器人蘋果采摘方式實(shí)時識別[J]. 農(nóng)業(yè)機(jī)械學(xué)報, 2022, 53(9): 28-38,59.
Yan Bin, Fan Pan, Wang Meirong, et al. Real-time apple picking pattern recognition for picking robot based on improved YOLOv5m [J]. Transactions of the Chinese Society for Agricultural Machinery,2022,53(9):28-38,59.
[5] 宋懷波, 王亞男, 王云飛,等. 基于YOLOv5s的自然場景油茶果識別方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報, 2022, 53(7): 234-242.
Song Huaibo, Wang Ya’nan, Wang Yunfei, et al. Camellia oleifera fruit detection in natural scene based on YOLOv5s [J]. Transactions of the Chinese Society for Agricultural Machinery,2022,53(7):234-242.
[6] Bargoti S, Underwood J. Deep fruit detection in orchards [C]. 2017 IEEE International Conference on Robotics and Automation (ICRA), 2017: 3626-3633.
[7] 閆建偉, 趙源, 張樂偉, 等. 改進(jìn)Faster R—CNN自然環(huán)境下識別刺梨果實(shí)[J]. 農(nóng)業(yè)工程學(xué)報, 2019, 35(18): 143-150.
Yan Jianwei, Zhao Yuan, Zhang Lewei, et al. Recognition of rosa roxbunghii in natural environment based on improved Faster R—CNN [J]. Transactions of the Chinese Society of Agricultural Engineering, 2019, 35(18): 143-150.
[8] Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector [C]. Computer Vision-ECCV 2016, 2016: 21-37.
[9] 周桂紅, 馬帥, 梁芳芳. 基于改進(jìn)YOLOv4模型的全景圖像蘋果識別[J]. 農(nóng)業(yè)工程學(xué)報, 2022, 38(21): 159-168.
Zhou Guihong, Ma Shuai, Liang Fangfang. Recognition of the apple in panoramic images based on improved YOLOv4model [J]. Transactions of the Chinese Society of Agricultural Engineering, 2022, 38(21): 159-168.
[10] Fan Y, Zhang S, Feng K, et al. Strawberry maturity recognition algorithm combining dark channel enhancement and YOLOv5[J]. Sensors, 2022, 22(2): 419.
[11] Fu L S, Feng Y L, Wu J Z, et al. Fast and accurate detection of kiwifruit in orchard using improved YOLOv3—tiny model [J]. Precision Agriculture, 2021, 22(3): 754-776.
[12] 孫俊, 陳義德, 周鑫, 等. 快速精準(zhǔn)識別棚內(nèi)草莓的改進(jìn)YOLOv4—Tiny模型[J]. 農(nóng)業(yè)工程學(xué)報, 2022, 38(18): 195-203.
Sun Jun, Chen Yide, Zhou Xin, et al. Fast and accurate recognition of the strawberries in greenhouse based on improved YOLOv4—Tiny model [J]. Transactions of the Chinese Society of Agricultural Engineering, 2022, 38(18): 195-203.
[13] 陳仁凡, 謝知, 林晨. 基于YOLO—ODM的溫室草莓成熟度的快速檢測[J]. 華中農(nóng)業(yè)大學(xué)學(xué)報, 2023, 42(4): 262-269.
[14] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks [J]. Communications of the ACM, 2017, 60(6): 84-90.
[15] Han K, Wang Y, Tian Q, et al. GhostNet: More features from cheap operations [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 1577-1586.
[16] Wang Q, Wu B, Zhu P, et al. ECA—Net: Efficient channel attention for deep convolutional neural networks [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 11531-11539.
[17] Yang L, Zhang RY, Li L, et al. SimAM: A simple, parameter-free attention module for convolutional neural networks [C]. Proceedings of the 38th International Conference on Machine Learning, 2021: 11863-11874.