摘要:
為滿足復(fù)雜場景下櫻桃番茄采摘機器人精準識別和定位的需求,提出一種復(fù)雜背景下單果及成簇櫻桃番茄果實的檢測方法,采用注意力機制結(jié)合目標(biāo)檢測算法(Sim—YOLO)來解決番茄采摘多目標(biāo)識別的難點問題。首先,結(jié)合GAN生成對抗網(wǎng)絡(luò)和傳統(tǒng)的圖像增強如mosaic、旋轉(zhuǎn)90°和Hue方法擴充數(shù)據(jù)集,提高模型的泛化能力。其次,對擴充后的番茄圖像在Lab顏色空間下利用K—means聚類算法并結(jié)合Canny算子對其進行邊緣檢測,以初步區(qū)分復(fù)雜背景與檢測目標(biāo)。并在YOLOv5的骨干網(wǎng)絡(luò)中加入SimAM注意力機制,增加算法的特征提取能力,提升果梗在相似顏色背景中的定位精度。試驗結(jié)果表明,Sim—YOLO模型對不同成熟期的溫室櫻桃番茄的平均檢測精確率及召回率分別為84.1%、98.0%,對果實及果梗多目標(biāo)的平均檢測精度為48.9%。果實及果梗多目標(biāo)的檢測精度均高于Faster R—CNN模型、YOLOv2模型和YOLOv3模型。最后,將Sim—YOLO模型通過模型轉(zhuǎn)換部署到邊緣計算設(shè)備,優(yōu)化模型推理過程,減輕嵌入式端邊緣計算壓力,達到25 FPS的檢測速率。
關(guān)鍵詞:櫻桃番茄;復(fù)雜背景;GAN網(wǎng)絡(luò);多目標(biāo)識別;嵌入式端部署
中圖分類號:S641.2; TP391.4
文獻標(biāo)識碼:A
文章編號:2095-5553 (2025) 03-0238-08
收稿日期:2023年11月7日" 修回日期:2023年12月7日*
基金項目:北京高校重點研究培育項目(2021YJPY201);農(nóng)業(yè)裝備技術(shù)全國重點實驗室開放課題基金資助項目(NKL—2023—004);國家重點研發(fā)計劃“政府間國際科技創(chuàng)新合作”專項(SQ2023YFE0101940)
第一作者:張俊寧,男,1980年生,內(nèi)蒙古烏蘭察布人,博士,教授;研究方向為機電測控、機器人模式識別。E-mail: zhangjunning@bistu.edu.cn
Multi-target detection of cherry tomatoes under complex backgrounds based on Sim—YOLO
Zhang Junning1, Yan Ying1, Hu Huan1, Bi Zeyang2, Xing Yu1
(1. School of Mechanical and Electrical Engineering, Beijing Information Science and Technology University,
Beijing, 100192, China; 2. School of Information and Electrical Engineering,
China Agricultural University, Beijing, 100091, China)
Abstract:
To realize precise recognition and localization of cherry tomatoes by picking robots in complex scenes, a detection method for single fruit and clustered cherry tomato fruits under complex backgrounds is proposed. In this study, a Sim—YOLO model, incorporating an attention mechanism with object detection algorithms, is developed to solve the problem of multi-target recognition in tomato picking. First, the dataset is expanded by using GAN combined with traditional augmentation methods, such as mosaic, rotating 90°, and Hue adjustment to improve model generalization. After preprocessing, the expanded tomato images are segmented using K—means clustering and the Canny operator in the Lab color space to distinguish the complex background from the target fruits. The SimAM attention mechanism is then integrated into the YOLOv5 backbone network to enhance the feature extraction of the algorithm and improve the localization accuracy of tomato stems in similarly colored backgrounds. The experimental results show that the accuracy rate and recall rate accuracy of Sim—YOLO model for greenhouse cherry tomatoes at different maturity stages are 84.1% and 98.0%, respectively. For multi-target detection of fruits and stems, the Sim—YOLO model achieved an accuracy of 48.9%, surpassing Faster R—CNN, YOLOv2, and YOLOv3 models. Finally, the Sim—YOLO model is deployed to edge computing devices using model conversion to optimize the inference process and reduce the computational pressure on the embedded edge system, and a detection speed of 25 FPS is achieved.
Keywords:
cherry tomatoes; complex background; GAN; multi-target recognition; embedded edge deployment
0 引言
櫻桃番茄營養(yǎng)豐富、口感甘甜,作為鮮食番茄中經(jīng)濟價值高的重要種植類別,其種植面積逐年增大。當(dāng)前,為提高采摘效率,番茄機器采摘代替人工采摘已經(jīng)成為一種趨勢[1],但是,櫻桃番茄種植存在果實、果莖生長紛雜及采摘環(huán)境錯雜等問題[2],特別是番茄果梗檢測目標(biāo)和枝葉等復(fù)雜背景顏色相近,為彩色圖像中果實及果梗多目標(biāo)物精準識別定位帶來挑戰(zhàn)[3]。
近年來,國內(nèi)外學(xué)者圍繞復(fù)雜背景下采摘機器人番茄果實及果梗的視覺識別開展了一系列研究,以便于成簇果實收獲。Chen等[4]采用雙路徑網(wǎng)絡(luò)為特征提取網(wǎng)絡(luò)改進YOLOv3算法,解決了櫻桃番茄檢測過程中信息丟失及小目標(biāo)語義特征提取不豐富的難題。Wu等[5]采用迭代RELIEF的算法,提出了一種成熟番茄自動識別的雙層策略,對120幅圖像的檢測結(jié)果顯示,該算法的檢測準確率為94.9%。項榮等[6]采用OSTU法及圓擬合方法,提出了基于重疊邊緣的夜間番茄識別方法,試驗結(jié)果表明,有枝葉遮擋時前后位置關(guān)系判斷正確率為90%。Wang等[7]針對番茄幼果與莖葉相似的問題,提出一種改進CBAM注意力機制的Faster R—CNN方法,提高了復(fù)雜背景下番茄幼果的檢測精度。Yan等[8]針對主莖干擾番茄識別定位的問題,提出了基于組合的Mask R—CNN閾值分割方法,由于背景莖、青果的干擾,檢測成功率為42%。Xiang等[9]設(shè)計了一種基于混合聯(lián)合神經(jīng)網(wǎng)絡(luò)的番茄主莖和側(cè)莖的識別方法,結(jié)果表明,番茄植株稈莖的平均識別準確率為57.2%。Kounalakis等[10]利用YOLOv3算法對728幅自制番茄及果梗數(shù)據(jù)圖像進行目標(biāo)檢測,番茄及果梗的識別平均精確率AP分別為81%、72%。但上述方法主要基于果實顏色、形狀及紋理特征進行研究,在光照不均和背景參差不齊環(huán)境下,算法的魯棒性和通用性差,集中于單獨檢測果實或檢測果梗的研究上,針對近距離拍攝的小范圍少量果實圖像進行目標(biāo)識別。而對于復(fù)雜環(huán)境下采集的單果或成簇櫻桃番茄果實目標(biāo)小且分散蓬亂,未系統(tǒng)性地采用單個神經(jīng)網(wǎng)絡(luò)端到端地對果實及果梗多目標(biāo)進行同步檢測,一定程度上制約了算法模型在農(nóng)田采摘現(xiàn)場的實際應(yīng)用。
為實現(xiàn)復(fù)雜背景下單個櫻桃番茄分布零散、成簇櫻桃番茄重疊較大的果實精準識別,首先,本文通過K—means分割算法結(jié)合Canny算子邊緣檢測得到適合番茄數(shù)據(jù)集的先驗框以初步分離番茄果實和背景枝干。然后,在YOLOv5算法主干網(wǎng)絡(luò)中加入注意力機制SimAM (Sim—YOLO)將注意力權(quán)重擴展至三維層面,通過同時標(biāo)注出果實和果梗的位置,提高復(fù)雜背景下算法模型對感興趣區(qū)域的檢測效率,從而實現(xiàn)對番茄果實和果梗多目標(biāo)的精細識別。最后,部署該網(wǎng)絡(luò)模型到邊緣計算設(shè)備Jetson Xavier NX,通過實際工況環(huán)境番茄果實及果梗多目標(biāo)檢測驗證,為基于邊緣計算的設(shè)施環(huán)境機器人采摘作業(yè)提供研究支撐。
1 數(shù)據(jù)樣本采集和預(yù)處理
1.1 樣本采集
在山西省大同市農(nóng)業(yè)高科園溫室大棚拍攝1 177張櫻桃番茄釜山88的果實圖像,分別在白天側(cè)光、順光和逆光條件下采集不同成熟程度(綠熟期、轉(zhuǎn)色期和堅熟期)的番茄果實。采集圖像時,控制攝像頭與溫室番茄之間的有效距離為15~100 cm。利用手機采集分辨率為4 160像素×3 120像素的可見光圖像,圖像保存格式為.jpg。
2023年8月,在北京市西北旺甜圓農(nóng)業(yè)溫室大棚用realsense深度相機拍攝116張普羅旺斯番茄的夜間圖像。采集圖像時,控制深度相機攝像頭與番茄之間的距離為20~60 cm,同時記錄彩色圖像對應(yīng)的深度圖像,圖像保存格式為.tiff。番茄的成熟時期劃分如表1所示。
1.2 基于GAN增強的樣本預(yù)處理
為提高模型泛化能力,結(jié)合GAN生成對抗網(wǎng)絡(luò)和傳統(tǒng)圖像增強方法擴充數(shù)據(jù)集,GAN結(jié)構(gòu)模型如圖1所示。
借助一個“二元極小極大博弈”問題所提供的思路,采用生成對抗網(wǎng)絡(luò)模型GAN優(yōu)化:訓(xùn)練時固定一方(判別器Discriminator,D),更新另一個模型(生成器Generator,G)的參數(shù),交替迭代,使得對方的錯誤最大化。生成器能估測出樣本數(shù)據(jù)的分布,從而生成符合該樣本分布的新數(shù)據(jù)[11],使得Discriminator對Generator的數(shù)據(jù)鑒別結(jié)果的正確率和錯誤率各占50%[12]。設(shè)定初始學(xué)習(xí)率為0.000 2,迭代次數(shù)為200次,載入圖像數(shù)據(jù)時,根據(jù)索引index讀取原始數(shù)據(jù)集的圖片并將圖片展開成一維向量,進而通過三層全連接層輸出判別概率的方式完成生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)的博弈過程。用GAN網(wǎng)絡(luò)的這一過程通過特征生成逼真的圖像,即在潛在空間(向量空間)內(nèi)執(zhí)行算術(shù)運算,將其轉(zhuǎn)換為對應(yīng)特征空間內(nèi)的運算。采用mosaic數(shù)據(jù)增強方法將隨機選取的4張不同照片拼合在一起,以增強圖像數(shù)據(jù)多樣性;通過將圖像順時針/逆時針旋轉(zhuǎn)90°的方法,增加樣本數(shù)據(jù)的位置屬性;通過Hue方法改變圖片中顏色的深淺,以豐富圖像的色調(diào)。
結(jié)合GAN網(wǎng)絡(luò)所提出的數(shù)據(jù)增強擴充算法,用源視圖對生成器進行調(diào)節(jié)[13],既可在一定程度上對訓(xùn)練時的少量數(shù)據(jù)進行擴充,也可通過已有圖像數(shù)據(jù)生成內(nèi)容豐富的增強圖像。通過以上方法,最終擴充數(shù)據(jù)集圖像至3 670張,樣本量中70%用于訓(xùn)練集,20%用于驗證集,10%用于測試集。從不同角度和不同光照條件下拍攝得到的番茄及其莖的效果如圖2所示。
對采集數(shù)據(jù)采用包含.xml文件標(biāo)注信息的可視化對象類(VOC)數(shù)據(jù)格式的數(shù)據(jù)集,將網(wǎng)絡(luò)所使用的番茄圖片存放到一個文件夾中,并獲得相關(guān)的訓(xùn)練集和測試集[14]。采用圖形圖像注釋工具Labelme來手動標(biāo)注圖像中的番茄及其果梗。為保證訓(xùn)練樣本的優(yōu)越性,以.txt格式保存標(biāo)簽[15]。GAN網(wǎng)絡(luò)圖像預(yù)處理借助卷積神經(jīng)網(wǎng)絡(luò)不斷增加層級[16],來學(xué)習(xí)目標(biāo)果實及果梗的顏色、形狀等特征,便于模型后續(xù)可以快速準確地識別出近色背景下的目標(biāo)果實及果梗[17]。
2 目標(biāo)檢測模型優(yōu)化
2.1 K—means聚類算法分割果實與背景
為利用圖像數(shù)據(jù)獲得檢測模型的先驗框從而實現(xiàn)近色背景下番茄果實目標(biāo)與背景枝葉等干擾物的聚類分割,本研究首先分割果實與背景,將采集到的番茄圖像進行Lab顏色空間的選取,繼而利用K—means聚類算法進行番茄圖像的目標(biāo)分割,分割后得到的圖像根據(jù)類別的色彩平均值將其與結(jié)果對應(yīng)。RGB顏色空間需經(jīng)過XYZ的顏色空間轉(zhuǎn)換為Lab空間,從RGB轉(zhuǎn)換為XYZ的關(guān)系如式(1)所示。
聚類可將成員數(shù)據(jù)進行集中管理和分類,是一種重要的數(shù)據(jù)挖掘技術(shù)。K—means聚類算法是一種無監(jiān)督學(xué)習(xí)的算法,通過迭代搜索將單一數(shù)據(jù)劃分為指定的簇[18],使用K個聚類的平均值來表示對應(yīng)類型的樣本,使類內(nèi)的樣本具有較高的相似度,而不同類間的樣本則相似度較低。對于本文的番茄果實及果梗圖像數(shù)據(jù)而言,顏色即像素值相近的像素會形成一類。其具體實現(xiàn)步驟:(1)選取質(zhì)心:根據(jù)采集到的復(fù)雜背景下番茄果實及其果梗的圖像特點,確定代表聚類個數(shù)的K值為4,從樣本點中隨機抽取4個點,分別作為背景地面、番茄、果梗及葉片。(2)所有樣本點歸類:計算所有樣本點到4個質(zhì)心的距離,將其劃分到與其距離最近的簇中心所在簇。(3)重新確定質(zhì)心:根據(jù)果實和果梗及背景類的像素點,重新計算每個聚類的均值,并調(diào)整K個聚類質(zhì)心。(4)循環(huán)更新:重復(fù)步驟2、步驟3,直到質(zhì)心不再變化。樣本距離采用歐氏距離,聚類準則采用最小距離原則。定義聚類中心為4,結(jié)合YOLOv5預(yù)先設(shè)置先驗框進行回歸檢測以提高目標(biāo)識別效率的思路,迭代500次后的效果如圖3所示。
對樣本圖像進行K—means聚類處理后的結(jié)果顯示,通過將相似像素值聚為一類,背景和果實目標(biāo)的分割效果明顯,說明該方法可以對近色背景下的果實目標(biāo)進行有效分割。Canny算子采用高斯低通濾波對圖像進行平滑處理,首先,使用變分法求解泛函得到邊緣檢測濾波器在連續(xù)域中的通用表達式,然后,通過數(shù)值優(yōu)化算法得到不同尺度下特定的最佳算子,在每個邊緣像素梯度方向上進行非極大值抑制,并使用雙閾值處理邊緣以消除噪聲影響。
由于其可以有效消除邊緣的鋸齒形狀并對噪聲有較好的抵抗能力,因而進一步結(jié)合Canny邊緣檢測算子,盡可能多地標(biāo)識出圖像中番茄果實及果梗的實際邊緣,效果如圖4所示。但是對果梗的分割未達到預(yù)期的效果,仍需要結(jié)合卷積神經(jīng)網(wǎng)絡(luò)進行進一步識別。
2.2 注意力機制SimAM的引入
K—means聚類算法處理后的目標(biāo)圖像含有枝葉等冗余信息可能導(dǎo)致后續(xù)識別出錯,為提高模型的干擾抑制能力從而同步檢測番茄和綠色果梗,在特征金字塔網(wǎng)絡(luò)中引入3D無參SimAM注意力機制,相比于帶參注意力機制,可更全面高效地評估特征權(quán)重,增強番茄及果梗特征,減弱綠色枝葉背景的干擾。SimAM建立在視覺神經(jīng)科學(xué)理論的基礎(chǔ)上,有更多信息的神經(jīng)元與其相鄰神經(jīng)元相比表現(xiàn)更加顯著,并會對相鄰神經(jīng)元產(chǎn)生空間抑制現(xiàn)象,在處理視覺相關(guān)任務(wù)時賦予這些帶有更多關(guān)鍵信息的神經(jīng)元以更高權(quán)重。在櫻桃番茄果梗檢測任務(wù)中這些網(wǎng)絡(luò)的神經(jīng)元往往負責(zé)提取出目標(biāo)的關(guān)鍵特征。
不同于SENet、CBAM關(guān)注通過池化、全連接層手工設(shè)計注意力模塊,依據(jù)神經(jīng)科學(xué)理論中的能量函數(shù)評估各處特征的重要性提出的SimAM模塊更具有可解釋性,無需引入額外的可學(xué)習(xí)參數(shù)即可提升基線模型的性能,作為一種3D注意力機制,直接評估各個獨立神經(jīng)元的重要性,在保持運算高效性的同時能夠更全面地對各神經(jīng)元的重要性進行加權(quán)。
SimAM能量函數(shù)的表達如式(4)所示。
2.3 模型構(gòu)建
在YOLOv5的官方代碼中,共給出4種網(wǎng)絡(luò)模型:YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x。YOLOv5包含以下部分:頭部(Detector Head)網(wǎng)絡(luò)、以CSPDarknet53作為主干網(wǎng)絡(luò)的骨干(Backbone)網(wǎng)絡(luò)、使用FPN網(wǎng)絡(luò)在不同特征圖層次上進行檢測的頸部(Neck)網(wǎng)絡(luò)。本文采用的YOLOv5s網(wǎng)絡(luò)是含5個版本YOLO目標(biāo)檢測網(wǎng)絡(luò)系列中深度最小、特征圖的寬度及速度消耗最小的網(wǎng)絡(luò)。
如圖5所示,將SimAM注意力機制加到FPN結(jié)構(gòu)中,為不同尺寸的目標(biāo)提供相應(yīng)尺度的特征表示,通過端到端的方式減少綠色背景對檢測的干擾。
試驗結(jié)合YOLO模型與SimAM注意力機制,通過對傳遞特征的篩選,使殘差融合時保留更加有效的特征,降低特征損失,通過對空間位置特征和通道信息的全面評估對重點神經(jīng)元進行特別關(guān)注,利于后續(xù)的定位與分類,最終實現(xiàn)改善網(wǎng)絡(luò)特征提取能力的同時加快網(wǎng)絡(luò)訓(xùn)練速度。試驗結(jié)果表明,在自然光條件下,模型能夠適應(yīng)不同成熟程度番茄的采摘條件。
3 試驗結(jié)果與分析
3.1 試驗平臺的搭建
本試驗平臺的軟件環(huán)境為基于Windows 10版本、Python3.9.13、Pytorch1.10.0、OpenCV_python-4.6.0搭建的深度學(xué)習(xí)框架。試驗的硬件環(huán)境(GPU)為Intel I9-12900KF,顯卡為NVIDIA GeForce RTX 3090 24 G。采用Resnet101為骨干網(wǎng)絡(luò),最大學(xué)習(xí)率為0.001,編碼器在50步內(nèi)完成一輪遍歷。模型的相關(guān)參數(shù)如表2所示。
3.2 模型的評估指標(biāo)
采用精確率(Precision,P)、召回率(Recall,R)和平均精度mAP作為番茄及果梗目標(biāo)識別的評價指標(biāo)。各指標(biāo)的定義如式(9)~式(11)所示。
P=TPTP+FP
(9)
R=TPTP+FN
(10)
mAP=1C∑Nv=iP(v)ΔR(v)
(11)
式中: TP——
模型將正類預(yù)測為正的樣本數(shù)量;
FP——
模型將負類預(yù)測為正的樣本數(shù)量;
FN——
模型將正類預(yù)測為負的樣本數(shù)量;
C——類別的數(shù)量;
N——引用閾值的數(shù)量;
v——閾值。
3.3 不同模型對比試驗
為驗證Sim—YOLO相比于K—means算法在YOLOv2和YOLOv3中的有效性,對比試驗結(jié)果如圖6所示。Sim—YOLO相比于其他3種模型對綠熟期番茄、轉(zhuǎn)色期番茄和成熟期番茄的平均檢測成功率大約分別高3%、3%和2%。
由圖6可知,YOLOv2、YOLOv3均準確生成了3種不同成熟期的番茄錨框。對比上述兩種采用1-IoU(bboxes,anchors)作為樣本距離的聚類方法,YOLOv5則使用遺傳算法對錨框進行適應(yīng)度評估。Sim—YOLO的番茄識別效果對比Faster R—CNN的識別結(jié)果中存在誤檢的情況,模型的平均檢測精確率達84.1%、召回率達98%,綜合來看其預(yù)測效果更加符合實地場景。
對比試驗的結(jié)果如表3所示,SimAM結(jié)合YOLO模型的檢測速度相比于原始的檢測網(wǎng)絡(luò)YOLOv5提高0.2%,且模型權(quán)重大小相比于分割網(wǎng)絡(luò)Yolact縮小88%。相比于CBAM模型及GAMAttention模型的改進,提出的改進模型通過SimAM注意力機制調(diào)整目標(biāo)與干擾的權(quán)重信息,抑制了綠色背景特征的干擾,增強了番茄目標(biāo)特征的強度,在番茄果梗的小目標(biāo)檢測的特征提取能力和定位能力方面都得到加強,有效改善原始模型在近色背景下小目標(biāo)檢測方面的性能,且具有計算量小的優(yōu)勢。綜合來看,SimAM機制改進YOLO的方法在模型參量、檢測精度提升與運行效率方面得到較好的均衡。
3.4 消融試驗
為進一步驗證改進后YOLOv5模型的合理性,對各項改進進行消融試驗測試,測試結(jié)果如表4所示。通過在YOLOv5原模型的基礎(chǔ)上增加SimAM注意力機制和參數(shù)優(yōu)化,驗證每個改進點是否有效?!啊獭北硎臼褂酶倪M,“-”表示未使用改進。
由表4可知,算法的平均精度較低,分析認為果梗的目標(biāo)尺寸與整簇番茄相比很小,且顏色與背景相似度大,導(dǎo)致識別不良。通過單獨引入注意力機制,CBAM和GAMAttention注意力機制較SimAM注意力機制在精確率方面的提升效果較好,但召回率和平均精度不高。擴充數(shù)據(jù)集后的Sim—YOLO算法模型相比于未擴充數(shù)據(jù)集的SimAM—YOLO泛化性更強。引入SimAM注意力機制并在數(shù)據(jù)增強的基礎(chǔ)上進行試驗驗證,發(fā)現(xiàn)經(jīng)過多次迭代后,Sim—YOLO比原始YOLOv5平均精度均值提升14.5%,在向原始網(wǎng)絡(luò)中添加參數(shù)的同時推斷每一層的3D特征權(quán)重值,提高骨干網(wǎng)絡(luò)特征的信息提取能力。因而選擇精確率及召回率效果提升明顯的Sim—YOLO為本試驗的模型。
3.5 邊緣端部署
為探索研究邊緣計算設(shè)備在農(nóng)業(yè)機器人目標(biāo)識別作業(yè)的可行性和實用性,將Sim—YOLO模型部署到Jetson嵌入式開發(fā)板。
在Jetson Xavier NX開發(fā)板上優(yōu)化并編譯相應(yīng)的YOLOv5模型文件可以減輕算法對移動端控制器的性能需求壓力。Jetson Xavier NX包含384個CUDA核心、48個Tensor Core和2個NVDLA引擎,可以并行運行多個現(xiàn)代神經(jīng)網(wǎng)絡(luò),并同時處理來自多個傳感器的高分辨率數(shù)據(jù)。通過加速計算的CUDA—X加速庫與應(yīng)用程序接口(API),極大地提高人工智能(AI)應(yīng)用開發(fā)的速度。
本文模型的部署過程分為兩步:首先,將文件轉(zhuǎn)為可部署文件,其次,進行基礎(chǔ)環(huán)境的配置,完成模型預(yù)測器的加載。通過設(shè)置輸入將預(yù)測數(shù)據(jù)讀入并作數(shù)據(jù)預(yù)處理進而執(zhí)行predictor,將結(jié)果輸出。部署階段中,部署對象需具有相同的軟件運行環(huán)境并有對應(yīng)的硬件加速支持以滿足實時性好、擴展性強、自動化程度高的系統(tǒng)的要求。
為更充分地驗證Sim—YOLO模型部署到嵌入式端進行番茄及果梗識別的檢測精度,于2023年6月在信息科大實驗室開展了測試。試驗材料選用塑料串番茄為樣本,隨機選取31串番茄串進行攝像頭測試。試驗設(shè)備為自行搭建的基于邊緣計算設(shè)備Jetson Xavier NX的番茄及果梗識別系統(tǒng)裝置。通過在預(yù)測庫中設(shè)置配置文件,確定GPU作前向計算并為其分配顯存、開啟內(nèi)存優(yōu)化和TensorRT加速,對tensorrtx中的YOLOv5文件進行編譯生成YOLOv5可執(zhí)行文件、YOLOv5.engine文件(TensorRT模型)。
把待識別目標(biāo)置于攝像頭前進行實時檢測,程序運行后,會在終端實時顯示待識別定位的圖像,邊緣計算設(shè)備終端顯示識別速度可達25 FPS。由于背景、莖稈等干擾,對31串果實的檢測成功率均值為73.7%,對一幅圖像中所有果梗(含遠端)的檢測成功率均值為48%。對單串近端果實及果梗的檢測平均成功率均值為64.1%。分析認為,存在誤檢等識別不良的原因可能在于細長狀的果梗與誤認為背面的果柄的相似度頗高,且番茄成熟度過高易出現(xiàn)表皮開裂等因素影響檢測效果。識別的靜態(tài)試驗結(jié)果如圖7所示,Sim—YOLO模型部署到邊緣計算設(shè)備整體魯棒性強。
4 結(jié)論
1)" 為實現(xiàn)復(fù)雜環(huán)境下番茄識別及果梗多目標(biāo)定位的同步檢測,提出一個端到端的番茄及果梗檢測框架Sim—YOLO模型。通過K—means聚類算法結(jié)合Canny邊緣檢測算子對番茄果實目標(biāo)與綠色背景進行初步分割,可以有效去除枝葉等背景對目標(biāo)檢測的干擾。通過融合注意力機制SimAM與目標(biāo)檢測網(wǎng)絡(luò)YOLOv5,可以同步實現(xiàn)番茄的識別與果梗的定位。
2) 設(shè)計基于Jetson Xavier NX邊緣端的番茄及果梗識別系統(tǒng)裝置,驗證部署模型在邊緣計算設(shè)備目標(biāo)識別的穩(wěn)定性。試驗結(jié)果顯示,復(fù)雜背景下模型對不同階段番茄的平均檢測精確率和召回率分別為84.1%、98%。
3) 試驗對果實及果梗多目標(biāo)的整體識別成功率較前人的研究有一定提升,但其中對果梗目標(biāo)的識別平均精度不高,分析可知,這主要是由于復(fù)雜環(huán)境下包含遠端檢測對象的模型在推理階段的網(wǎng)絡(luò)結(jié)構(gòu)融合使模型在加速時犧牲一部分精度。未來可考慮進一步針對單串近端果實及果梗模型進行剪枝和量化,使模型檢測更精確。
參 考 文 獻
[1]
Bac C W, Hemming J, Van T B, et al. Performance evaluation of a harvesting robot for sweet pepper [J]. Journal of Field Robotics, 2017, 34(6): 1123-1139.
[2]
閆建偉, 趙源, 張樂偉, 等. 改進Faster—RCNN自然環(huán)境下識別刺梨果實[J]. 農(nóng)業(yè)工程學(xué)報, 2019, 35(18): 143-150.
Yan Jianwei, Zhao Yuan, Zhang Lewei, et al. Recognition of Rosa roxbunghli in natural environment based on improved Faster—RCNN [J]. Transactions of the Chinese Society of Agricultural Engineering, 2019, 35(18): 143-150.
[3] Wang Xinzhong, Han Xu, Mao Hanping. Vision-based detection of tomato main stem in greenhouse with red rope [J]. Transactions of the Chinese Society of Agricultural Engineering, 2012, 28(21): 135-141.
[4] Chen J, Wang Z, Wu J, et al. An improved YOLOv3 based on dual path network for cherry tomatoes detection [J]. Food Process Engineering, 2021, 44(10): e13803.
[5] Wu J, Zhang B, Zhou J, et al. Automatic recognition of ripening tomatoes by combining multi-feature fusion with a bi-layer classification strategy for harvesting robots [J]. Sensors, 2019, 19(3): 612.
[6] 項榮, 段鵬飛. 基于重疊邊緣的夜間重疊番茄識別[J]. 華中科技大學(xué)學(xué)報(自然科學(xué)版), 2019, 47(5): 68-72.
Xiang Rong, Duan Pengfei. Recognition of overlapping tomatoes based on overlapping edges at night [J]. Journal of Huazhong University of Science and Technology (Natural Science Edition), 2019, 47(5): 68-72.
[7] Wang P, Niu T, He D. Tomato young fruits detection method under near color background based on improved Faster R—CNN with attention mechanism [J]. Agriculture, 2021, 11: 1059.
[8] Yan J, Wang P, Wang T, et al. Identification and localization of optimal picking point for truss tomato based on Mask R—CNN and depth threshold segmentation [C]. 2021 IEEE 11th Annual International Conference on CYBER Technology in Automation, Control, and Intelligent Systems (CYBER). IEEE, 2021: 899-903.
[9] Xiang R, Zhang M, Zhang J. Recognition for stems of tomato plants at night based on a hybrid joint neural network [J]. Agriculture, 2022, 12(6): 743.
[10] Kounalakis N, Kalykakis E, Pettas M, et al. Development of a tomato harvesting robot: Peduncle recognition and approaching [C]. 2021 3rd International Congress on Human-Computer Interaction, Optimization and Robotic Applications (HORA). IEEE, 2021: 1-6.
[11] Goodfellow I, Pouget-abadie J, Mirza M, et al. Generative adversarial networks [C]. Advances in Neural Information Processing Systems (NIPS), 2014, 27: 2672-2680.
[12] 李金洪. 深度學(xué)習(xí)之TensorFlow入門、原理與進階實戰(zhàn)[M]. 北京: 機械工業(yè)出版社, 2018.
[13]
Upadhyay U, Sudarshan V P, Awate S P. Uncertainty-aware GAN with adaptive loss for robust MRI image enhancement [J]. IEEE, 2021: 3255-3264.
[14] 陳小毛, 王立成, 張健, 等. 融合YOLOv5與ASFF算法的海產(chǎn)品目標(biāo)檢測算法研究[J]. 無線電工程, 2023, 53(4): 824-830.
Chen Xiaomao, Wang Licheng, Zhang Jian, et al. Research on seafood target detection algorithm based on YOLOv5 and ASFF algorithm [J]. Radio Engineering, 2023, 53(4): 824-830.
[15] Li T, Sun M, He Q, et al. Tomato recognition and location algorithm based on improved YOLOv5 [J]. Computers and Electronics in Agriculture, 2022: 1-11.
[16] Ganguly K. GAN: 實戰(zhàn)生成對抗網(wǎng)絡(luò)[M]. 北京: 電子工業(yè)出版社, 2018.
[17]
Qi H, Zhang Z, Xiao B, et al. Deformable convolutional networks-coco detection and segmentationchallenge 2017 entry [C]. ICCV COCO Challenge Workshop, 2017, 15: 764-773.
[18] Zheng X, Lei Q, Yao R, et al. Image segmentation based on adaptive K—means algorithm [J]. EURASIP Journal on Image and Video Processing, 2018, 2018(1): 68.