摘要:
草莓檢測對草莓的自動化采摘具有重要的意義和價值,針對目前草莓模型檢測精度較低、模型占用較大等問題,基于深度學習技術,提出一種改進YOLOv5的目標檢測方法。首先,使用Ghost模塊對YOLOv5主干網絡進行優(yōu)化,降低模型參數量和復雜度;其次,使用坐標注意力模塊CA,提升模型對草莓關鍵特征的關注;然后將YOLOv5中的定位損失替換為SIoU,考慮邊界框回歸之間的向量角度。結果表明,該模型的平均精度均值為94.8%,相較于目前經典的目標檢測模型,檢測能力提升顯著,一張圖片的預測時間為25.2ms,模型大小僅為10.4MB,具有較快的推理速度且模型尺寸較小。為草莓檢測提供更加準確快捷的檢測方法,更為容易地應用到移動式和嵌入式設備中。
關鍵詞:草莓;深度學習;YOLOv5;損失函數;目標檢測
中圖分類號:S668.4; TP391.4
文獻標識碼:A
文章編號:2095-5553 (2025) 01-0213-07
Research of strawberry detection method with improved YOLOv5 model
Peng Yong1, Qiao Yinhu2, Zhang Chunyan2, Yao Jie1, Bao Dianling2
(1. "School of Mechanical Engineering, Anhui Polytechnic University, Wuhu, 241000, China;
2. School of Mechanical Engineering, Anhui Science and Technology University, Fengyang, 233100, China)
Abstract:
Strawberry detection is of great significance and value for automated strawberry picking. In order to address the problems of low detection accuracy and large model occupation of the current strawberry model, this study proposes an improved YOLOv5 object detection method based on deep learning technology. Firstly, the YOLOv5 backbone network is optimized by using Ghost model to reduce the number of model parameters and complexity. Secondly, the coordinate attention module CA is used to improve the model,s focus on key strawberry features. Then the localization loss in YOLOv5 is replaced with SIoU, and the vector angle between the bounding box regressions is considered. The test experimental results show that the average accuracy of the model is 94.8%, compared with the current classical object detection algorithm, the detection ability is improved while the prediction time for a picture is 25.2ms and the model size is only 10.4MB, with faster inference speed and lower model size, the research results can provide a more accurate and faster detection method for strawberry detection, which can be applied to mobile and embedded devices more easily.
Keywords:
strawberry; deep learning; YOLOv5; loss function; object detection
0"引言
中國是世界上最大的草莓生產國和消費國,草莓生產是促進中國農業(yè)經濟的一個重要作物[1]。草莓主要依靠果農手動采摘,成本較高。使用自動化設備進行采摘被認為是解決該問題的可行方案,但需要解決多項技術難題,草莓的準確檢測是核心技術之一[2]。因此,草莓檢測方法的研究對于提高草莓采摘機的智能化和自動化程度具有重要意義和價值[3]。王糧局等[4]對獲得的圖片進行二值化、形態(tài)學處理和去除圖像噪聲,獲得目標草莓域參數,實現(xiàn)X方向視覺伺服定位,得到目標草莓域的采摘參數,最后實現(xiàn)成熟草莓的識別和采摘。張凱良等[5]對圖像進行預處理后,通過獨立區(qū)域的特征值計算,依據特征值去除非草莓目標,并按照權值大小確定采摘順序,判斷出草莓姿態(tài),最后引導機器人動作,完成采摘。然而,上述草莓采摘方法涉及的都是傳統(tǒng)的目標檢測算法,這些算法依賴于人工提取圖像特征,非常耗時,并且易受背景信息干擾,檢測精度不高,難以在復雜的實際環(huán)境中應用[6]。深度學習架構由多個非線性卷積層組成,這些卷積層可以學習比淺層網絡更復雜的特征,從而實現(xiàn)高度復雜的特征抽象,模型直接在數據上學習,而不是手動提取有價值的特征[7]。
基于深度學習的目標檢測模型主要有兩種類型。一種是基于候選區(qū)域的雙階段算法,例如Faster R-CNN[8],Mask R-CNN[9]等;另一種是單階段算法,直接從輸入圖像中回歸目標分類信息、位置信息和置信度信息,例如SSD[10]、RetinaNet[11]、YOLO[12]系列等。閆建偉等[13]基于Faster R-CNN,采用雙線性插值法,通過交替優(yōu)化訓練,將模型的感興趣區(qū)域池化改進為感興趣區(qū)域校準,進而對11種形態(tài)的刺梨果實進行識別,精確率最低為85.63%,最高達95.53%;Chu等[14]通過在標準Mask R-CNN中添加一個抑制分支,抑制原始網絡生成的非蘋果特征,F(xiàn)1分數為90.5%,每幀檢測時間為0.25 s;趙德安等[15]為提高蘋果采摘機器人的工作效率和環(huán)境適應性,使用YOLOv3實現(xiàn)了復雜環(huán)境下蘋果的檢測,mAP為87.71%;Yu等[16]將ResNet50作為Mask R-CNN的主干網絡,結合FPN進行特征提取,對草莓進行檢測,平均準確率為95.78%,表現(xiàn)出更高的普遍性和魯棒性。
基于深度學習的草莓檢測已取得較好的效果,但是仍然存在以下缺點:(1)草莓檢測模型比較復雜,模型參數量較多,訓練和部署時對硬件要求較高;(2)模型在復雜的環(huán)境下,例如遮擋、重疊、體積小,檢測效果不佳,依然具有提升的空間。為解決上述問題,本文提出一種基于改進YOLOv5網絡的草莓檢測模型,為草莓采摘自動化設備提供一定的技術支持。
1"材料與方法
1.1"圖像獲取與圖像標注
草莓圖像為StrawDI團隊收集的不同生長周期的草莓,共3 100張,圖片尺寸為1 008像素×756像素,按照8∶1∶1的比例分為訓練集(2 480幅)、驗證集(310幅)和測試集(310幅)。使用Make Sense工具進行標注,標注類別分為3類,(1)flowering:草莓花,標簽個數為1 100;(2)fruit:未成熟的草莓,標簽個數為10 218;(3)ripe:已經成熟的草莓,標簽個數為4 718。其中,遮擋草莓目標占比為10.30%,重疊草莓目標占比為1.28%。標注時部分示例圖如圖1所示,標注結束后生成YOLO數據格式的.txt文件。
為了使訓練出來的模型效果最佳,增強模型的泛化能力,提升魯棒性,使用Mosaic、隨機縮放平移、隨機調整HSV和隨機水平翻轉4種方式進行數據增強。其中,Mosaic將4張圖片組合成1張圖片;隨機縮放平移將原始圖片縮放到一個標準尺寸并進行平移,自適應填充空白部分;隨機調整圖片的色度、飽和度和明度并進行水平翻轉;組合這些方法,增加樣本數量。
1.2"基于改進YOLOv5s的草莓檢測模型構建
YOLOv5是基于YOLOv4[17]出現(xiàn)的一種新的單階段目標檢測算法,具有訓練和推理速度快,使用靈活性高的特點,主要由主干網絡(Backbone)、頸部網絡(Neck)和預測網絡(Head)三部分組成。主干網絡負責特征提取,首先輸入大小為640像素×640像素的圖片,通過卷積核大小為6×6,步長和填充為2的卷積層,得到320像素×320像素的特征圖,然后通過跨階段網絡CSPDarkNet53[18](Cross Stage Partial)結構,完成對特征圖的通道維度的拆分和拼接。頸部網絡主要由路徑聚合網絡(Path Aggregation Network,PAN)組成,負責對不同大小尺度的特征圖進行融合,從而增加模型對小目標和大目標的檢測能力,最后通過預測網絡實現(xiàn)對目標類別、置信度和邊界框的預測回歸。YOLOv5的損失由三部分組成,分別為分類損失、目標損失和定位損失。分類和目標損失使用的是適合多標簽分類任務的BCE損失函數,如式(1)所示。
Loss(o,t)=
-1n∑iw[i]×[t[i]×log(o[i]+(1-t[i])×log(1-o[i])]
(1)
式中:
n——類別數;
w——權重系數;
t[i]——目標類別,0或者為1;
o[i]——目標類別預測分數。
YOLOv5的定位損失使用的是CIoU損失函數,如式(2)所示。
LCIoU=
1-IoU-ρ2(b,bgt)c2+aν
(2)
式中:
IoU——交并比;
ρ2——兩個中心點的歐式距離;
b、bgt——預測框和真實框的中心點;
c——
包含標注框和真實框的包閉區(qū)域的對角線距離;
a——權重參數;
ν——用來度量長寬比的相似性。
1.2.1"SIoU損失函數
雖然CIoU考慮邊界框回歸時的重疊面積、中心點距離和縱橫比,但是卻忽略真實框與預測框方向不匹配的問題,對檢測精度造成一定損失。SIoU[19]通過考慮邊界框回歸之間的向量角度,對邊界框回歸方向定義懲罰指標,從而提高模型的檢測精度。SIoU損失函數由4部分組成,分別為角度損失、距離損失、形狀損失和交并比損失。角度損失示意圖如圖2所示。角度損失計算如式(3)所示。
Λ=1-2×sin2arcsinx-π4
(3)
x=Chψ=sinα
(4)
ψ=(bgtcx-bcx)2+(bgtcy-bcy)2
(5)
Ch=max(bgtcy,bcy)-min(bgtcy,bcy)
(6)
式中:
Λ——角度損失;
bgtcx、bcx——
真實框和預測框中心點的橫坐標;
bgtcy、bcy——
真實框和預測框中心點的縱坐標;
ψ——真實框與預測框中心點連線距離;
Cw、Ch——
真實框與預測框中心點的橫縱距離。
距離損失主要描述中心點之間的距離,如式(7)所示,它的懲罰代價與角度損失呈正相關,其通過角度損失,重新定義一個距離損失函數,如圖3所示。
Δ=∑t=x,y(1-e-γρt)
(7)
ρx=bgtcx-bcxcw2
(8)
ρy=bgtcy-bcych2
(9)
γ=2-Λ
(10)
式中:
Δ——距離損失;
γ——
隨著角度的增加,被賦予了對距離值的時間優(yōu)先級;
ρx、ρy——
真實框與預測框中心點橫縱距離與最小外接矩形寬和高的相近程度;
cw、ch——
真實框與預測框最小外接矩陣的寬和高。
形狀損失通過考慮預測框和真實框之間的長寬比來定義,如式(11)所示。
Ω=∑t=w,h(1-e-ωt)θ
(11)
ωw=W-WGTmax(W,WGT)
(12)
ωh=H-HGTmax(H,HGT)
(13)
式中:
θ——
控制對形狀損失的關注程度,為避免過于關注形狀損失而降低對預測框的移動,設置范圍為[2,6];
W、WGT——預測框和真實框的寬;
H、HGT——預測框和真實框的高;
ωw、ωh——
兩個邊界框寬度和高度的相對差異;
Ω——形狀損失。
交并比IoU主要是為衡量預測框與真實框之間的重疊程度,如式(14)所示,形狀損失和交并比示意圖如圖4所示。
IoU=B∩BGTB∪BGT
(14)
式中:
B、BGT——預測框和真實框的面積。
所以,SIoU損失函數最終定義如式(15)所示。
SIoU_Loss=1-IoU+Δ+Ω2
(15)
1.2.2"Ghost模型
Ghost[20]是一個輕量化模型,當圖片輸入到卷積神經網絡后,會生成非常多的特征圖,它們之間存在兩兩相似度特別高的特征圖,這時就會產生冗余,而GhostNet網絡是將相似的特征圖認為是彼此的Ghost。對于冗余的特征圖,可以使用計算量更低(Cheap Operations)的操作來代替計算量較多的普通卷積,可以在保證良好檢測效果的情況下,減少模型參數量,降低模型復雜度。
如圖5所示,Ghost模組分為兩個部分,首先通過一個1×1卷積,進行特征整合,生成輸入特征層的特征濃縮,然后進行深度可分離卷積,即Cheap Operations,利用上一步獲得的特征濃縮生成Ghost特征圖,其中,Identity代表恒等變換,a1,a2,…,ak代表Cheap Operations。
1.2.3"CA注意力模塊
由于識別過程中存在草莓遮擋、草莓體積較小等問題,導致模型檢測精度不佳,故在YOLOv5模型中添加坐標注意力機制CA(Coordinate Attention),通過高權重來聚焦草莓特征,用低權重忽略背景信息,達到對草莓特征信息的關注。它是一種輕量級的注意力機制,不僅考慮通道信息,而且考慮方向相關的位置信息。主要通過坐標信息嵌入和坐標注意力生成實現(xiàn)。具體結構如圖6所示。
首先通過坐標信息嵌入模塊,即水平和垂直全局平均池化進行聚合特征,捕捉特征圖沿著一個空間方向的長期依賴關系和另一個空間方向的精確位置信息,有助于網絡更加準確的定位感興趣的目標。坐標注意力生成模塊主要是為有效利用通道間關系和位置信息,從而增強網絡的特征表示,獲取更加關注草莓目標的新權重,詳細原理在文獻[21]中有描述。
1.3"改進草莓檢測模型
相較于YOLOv5s 5.x版本,YOLOv5s 6.x使用普通卷積和SPPF(Fast Spatial Pyramid Pooling Mudule)替換較為耗時的Focus和SPP,擁有更優(yōu)的網絡結構,故使用最新的YOLOv5 6.2版本作為草莓目標檢測模型所使用的基礎網絡,首先將主干網絡中的第二個卷積層使用Ghost卷積,同時將C3模塊中的瓶頸結構(BottleNeck)使用Ghost BottleNecks進行替換,通過使用Ghost卷積和Ghost BottleNecks,減少網絡由于特征提取而造成的參數量過多,降低模型復雜度;將YOLOv5的定位損失由CIoU替換為SIoU,考慮邊界框回歸的向量角度,增加約束;然后在SPPF模塊前加入坐標注意力機制CA,提升模型對草莓的關注能力。改進的草莓檢測模型整體結構如圖7所示。
2"試驗結果與分析
2.1"試驗平臺
基于Python3.8.13、CUDA11.3.1和PyTorch1.11.0搭建深度學習框架,操作系統(tǒng)處理器型號為Intel(R) Xeon(R) W-2255 CPU @ 3.70 GHz,顯卡型號為NVIDIA RTX A4000,顯存大小為16 GB,優(yōu)化器為SGD。其余超參數配置如表1所示。
評估指標主要采用精確率P、召回率R和平均精度均值mAP來評價目標檢測模型的性能,其中,精確率指模型預測正確的正樣本個數除以預測為正樣本的個數;召回率指模型預測正確的正樣本個數除以實際為正樣本的個數。精確率、召回率和平均精度均值計算如式(16)~式(18)所示。
P=TPTP+FP
(16)
R=TPTP+FN
(17)
mAP=∑Ci=1∫10PidRiC
(18)
式中:
C——檢測的類別總數;
TP——
模型將正樣本預測為正樣本的個數;
FP——
模型將負樣本預測為正樣本的個數;
FN——
模型將正樣本預測為負樣本的個數。
2.3"模型訓練
改進模型共訓練300輪次,訓練初期,模型學習效率較高,精確率、召回率和閾值為0.5時的平均精度均值(mAP@0.5)增長較快,模型的定位損失box_loss、目標損失obj_loss和分類損失cls_loss逐漸減小,大約迭代到250次左右,趨于穩(wěn)定。300次迭代后,模型的精確率為91.37%,召回率為88.81%,平均精度均值為92.40%,如圖8所示。
2.4"消融試驗
為驗證改進算法的性能,分別對YOLOv5的主干網絡使用Ghost卷積、SIoU定位損失函數替換和添加坐標注意力機制CA的消融試驗,共5組網絡,同樣使用自制的草莓數據集中的測試集進行測試,試驗結果如表2所示。使用參數量和浮點運算數來衡量模型的復雜度,兩者數值越小,網絡復雜度越低。由表2可以看出,采用Ghost模塊后,相較于YOLOv5,mAP有所降低,但是參數量降低大約27.5%,浮點運算數降低大約32.7%,說明Ghost模塊具有降低模型復雜度,輕量化網絡,較為顯著提升網絡性能的作用。
由表2可以看出,使用坐標注意力機制CA相比于YOLOv5網絡P值上升0.3%,R值上升1.5%,mAP值提升0.8%,雖然參數量和浮點運算數有所增加,但是檢測精度得到提升。說明CA模塊能夠提升模型對草莓的關注,抑制無用特征,有效提高網絡的檢測性能。當使用SIoU作為定位損失函數時,P值雖降低0.2%,但R值提升1.1%,mAP值提升0.1%,說明SIoU損失函數能夠通過考慮邊界框回歸角度,從而增強定位性能,可小幅提升模型的檢測精度。綜合三種方法,改進模型的mAP優(yōu)于YOLOv5基礎網絡,為94.8%,計算時的參數量減少1 732 472,浮點運算數降低4.9 GFLOPs,較為顯著地降低了模型大小和復雜度。
2.5"不同算法對比分析
為評價改進模型的綜合性能,改進YOLOv5模型檢測結果如圖9所示。
圖9曲線下方圍成的面積是每個類別的平均精度AP,草莓花、未成熟的草莓和成熟的草莓的AP值分別為89.3%、96.4%和98.8%,mAP@0.5為94.8%,對草莓花檢測精度較低主要是由于一些未成熟草莓中帶有一兩片未脫落的花瓣,造成干擾,后續(xù)會嘗試增加草莓花圖片數量,提升模型對草莓花特征的學習能力。
從表3可以看出,改進模型具有最高的平均精度均值,為94.8%,比Faster R-CNN、SSD、RetinaNet、YOLOv3和YOLOv5分別高出1.7%、11.1%、2.1%、2.0%、2.3%。
改進模型對單張圖片具有較少的預測時間,比Faster R-CNN、SSD、RetinaNet和YOLOv3分別減少37.3ms、6.0ms、29.7ms和13.4ms,具有較快的檢測速度;在模型大小方面,改進YOLOv5模型比Faster R-CNN、SSD、RetinaNet、YOLOv3和YOLOv5分別少618.6MB、91.6MB、234.6MB、106.6MB和3.3MB。與最新的檢測模型YOLOv6、YOLOv7、YOLOv8和DETR(Detection Transformer)進行對比,改進模型的預測時間較YOLOv8模型快0.5ms,模型占比少11MB,對移動式和嵌入式的硬件要求最低,并且具有最高的平均精度均值。
模型檢測效果如圖10所示??梢钥吹?,SSD、YOLOv5和YOLOv8網絡都出現(xiàn)較多的漏檢現(xiàn)象,同時,在第二張圖片中,SSD和YOLOv5模型檢測框的面積無法較為準確地擬合草莓外表,對上下方遮擋的草莓進行預測時,會將兩個草莓目標錯誤的檢測為一個草莓目標。而改進后的YOLOv5模型不僅減少了漏檢現(xiàn)象,而且預測后的檢測框比較符合遮擋目標,對上下方遮擋的草莓也成功檢測為兩個目標,得到了較為準確的檢測框擬合結果。由表3和圖10的檢測效果對比,證明改進模型擁有較為優(yōu)越的檢測性能。
3"結論
1) "目前大部分草莓目標檢測模型存在檢測精度較低、檢測效果較差和模型復雜度高等問題,基于此,提出一種基于YOLOv5的改進方法,實現(xiàn)對草莓的高效檢測。
2) "為提高模型檢測速度、降低復雜度,將YOLOv5主干網絡中的卷積層替換為Ghost卷積,同時將C3模塊中的瓶頸結構使用Ghost瓶頸結構進行替換;為提高模型對草莓特征的關注,使用坐標注意力模塊CA對網絡模型進行優(yōu)化、并將定位損失函數由CIoU替換為SIoU,提升模型的檢測能力。
3) "將本文方法與Faster-CNN、SSD、RetinaNet、YOLOv3、YOLOv5、YOLOv6、YOLOv7、YOLOv8和DETR模型進行對比試驗。所提的改進YOLOv5算法mAP為94.8%,對單張圖片的預測時間為25.2ms,模型參數量為5 093 472,模型大小為10.4MB。相較于原始模型,mAP提高2.3%,模型參數量降低1 934 248,模型大小減少3.3MB。由于CUDNN對深度可分離卷積沒有針對性地優(yōu)化,導致檢測速度略低于原始模型、改進模型預測后置信度略微降低、草莓花的檢測精度較低等問題,在接下來的研究中,將繼續(xù)考慮草莓種植的實際環(huán)境、擴充數據集、降低模型復雜度、使用更加先進的檢測模型,在保證檢測精度的同時,對模型進行輕量化設計,使其更為容易地部署到移動端和嵌入式設備中。
參"考"文"獻
[1]
張更, 顏志明, 王全智, 等. 我國設施草莓無土栽培技術的研究進展與發(fā)展建議[J]. 江蘇農業(yè)科學, 2019, 47(18): 58-61.
[2]
翟長遠, 付豪, 鄭康, 等. 基于深度學習的大田甘藍在線識別模型建立與試驗[J]. 農業(yè)機械學報, 2022, 53(4): 293-303.
Zhai Changyuan, Fu Hao, Zheng Kang, et al. Establishment and experimental verification of deep learning model for on-line recognition of field cabbage [J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(4): 293-303.
[3]
苗中華, 沈一籌, 王小華, 等. 自然環(huán)境下重疊果實圖像識別算法與試驗[J]. 農業(yè)機械學報, 2016, 47(6): 21-26.
Miao Zhonghua, Shen Yichou, Wang Xiaohua, et al. Image recognition algorithm and experiment of overlapped fruits in natural environment [J]. Transactions of the Chinese Society for Agricultural Machinery, 2016, 47(6): 21-26.
[4]
王糧局, 張立博, 段運紅, 等. 基于視覺伺服的草莓采摘機器人果實定位方法[J]. 農業(yè)工程學報, 2015, 31(22): 25-31.
Wang Liangju, Zhang Libo, Duan Yunhong,et al. Fruit localization for strawberry harvesting robot based on visual servoing [J]. Transactions of the Chinese Society of Agricultural Engineering, 2015, 31(22): 25-31.
[5]
張凱良, 楊麗, 張鐵中. 草莓采摘位置機器視覺與激光輔助定位方法[J]. 農業(yè)機械學報, 2010, 41(4): 151-156.
Zhang Kailiang, Yang Li, Zhang Tiezhong. Object locating method of laser-assisted machine vision for strawberry-harvesting [J]. Transactions of the Chinese Society for Agricultural Machinery, 2010, 41(4): 151-156.
[6]
李震, 洪添勝, 倪慧娜, 等. 用高光譜成像技術檢測柑橘紅蜘蛛為害葉片的色素含量[J]. 農業(yè)工程學報, 2014, 30(6): 124-130.
Li Zhen, Hong Tiansheng, Ni Huina, et al. Pigment content measurement for citrus red mite infected leaf using hyper-spectral imaging technology [J]. Transactions of the Chinese Society of Agricultural Engineering, 2014, 30(6): 124-130.
[7]
Schmidhuber J. Deep learning in neural networks: An overview [J]. Neural Networks, 2015, 61: 85-117.
[8]
Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks [J]. Advances in Neural Information Processing Systems, 2015, 28.
[9]
He K, Gkioxari G, Dollár P, et al. Mask R-CNN [C].Proceedings of the IEEE International Conference on Computer Vision, 2017: 2961-2969.
[10]
Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector [C]. European Conference on Computer Vision, Springer, Cham, 2016: 21-37.
[11]
Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection [C]. Proceedings of the IEEE International Conference on Computer Vision, 2017: 2980-2988.
[12]
Redmon J, Farhadi A. YOLO9000: better, faster, stronger [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 7263-7271.
[13]
閆建偉, 趙源, 張樂偉, 等. 改進Faster-RCNN自然環(huán)境下識別刺梨果實[J]. 農業(yè)工程學報, 2019, 35(18): 143-150.
Yan Jianwei, Zhao Yuan, Zhang Lewei,et al. Recognition of Rosa roxbunghii in natural environment based on improved Faster-RCNN [J]. Transactions of the Chinese Society of Agricultural Engineering, 2019, 35(18): 143-150.
[14]
Chu P, Li Z, Lammers K, et al. Deep learning-based apple detection using a suppression Mask R-CNN [J]. Pattern Recognition Letters, 2021, 147: 206-211.
[15]
趙德安, 吳任迪, 劉曉洋, 等. 基于YOLO深度卷積神經網絡的復雜背景下機器人采摘蘋果定位[J]. 農業(yè)工程學報, 2019, 35(3): 164-173.
Zhao De,an, Wu Rendi, Liu Xiaoyang,et al. Apple positioning based on YOLO deep convolutional neural network for picking robot in complex background [J]. Transactions of the Chinese Society of Agricultural Engineering, 2019, 35(3): 164-173.
[16]
Yu Y, Zhang K, Yang L, et al. Fruit detection for strawberry harvesting robot in non-structural environment based on Mask R-CNN [J]. Computers and Electronics in Agriculture, 2019, 163: 104846.
[17]
Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: Optimal speed and accuracy of object detection [J]. arXiv preprint arXiv, 2004.10934, 2020.
[18]
Wang C Y, Liao H Y M, Wu Y H, et al. CSPNet: A new backbone that can enhance learning capability of CNN [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 2020: 390-391.
[19]
Gevorgyan Z. SIoU Loss: More powerful learning for bounding box regression [J]. arXiv preprint arXiv, 2205.12740, 2022.
[20]
Han K, Wang Y, Tian Q, et al. GhostNet: More features from cheap operations [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 1580-1589.
[21]
Hou Q, Zhou D, Feng J. Coordinate attention for efficient mobile network design [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 13713-13722.