關(guān)鍵詞:松科球果;目標(biāo)檢測;目標(biāo)定位;YOLOv5s算法;雙目深度相機(jī) 中圖分類號:S791.24;TP391.4;TP18 文獻(xiàn)標(biāo)識碼:A DOI:10.7525/j.issn.1006-8023.2025.04.015
Abstract:Traditional methods for harvesting pinecone speciesface challenges such as low eficiency,high risks,and uncontrollable costs.To addressreal-time recognition and localization in automated pinecone harvesting,we proposed animproved YOLOv5s-7.0(youonlylookonce)objectdetectionmodeland constructabinoculardepthcamera-based detectionand localization network.To improvetheaccuracyand eficiencyof object detection,theYOLOv5s model was improved byembeddng partial convolutions (PConv)into the neck module's multi-branch stacked structure to enhance sparsefeature processng capability,improve robustness,and reduce feature redundancy incomplex scenarios of pinecones.Aditionally,the simple atention mechanism (SimAM)was integrated at deep backbone layers and backboneneck connections tooptimizethe model’sfeatureextractionabilityand information transmision eficiencyincomplex backgrounds without significantparameter increases.To meet therequirements of efficient detectionand localization,a target detection and real-time localizationcode was developedusing binocular vision principlesand the improved YOLOv5s model,and a pinecone detection and localization system was constructed through depth matching.Based on theconstructed datasetof Pinus sylvestris var.mongolicacones fromthe Greater Khingan Mountains and Pinus koraiensis cones from the Lesser Khingan Mountains,the improved YOLOv5s model achieved a precision of 96.8% ,a recall of 94.0% , and an average precision (AP) of 96. 3% in target detection tasks. The proposed pinecone detection and localization system demonstrated mean absolute errors of ( ).644cm ,0 ?620cm ,and 0.740 cm along the x ,y-,and Z -axes, respectively. Under front,side,and backlighting conditions,the localization success rate reached 93.3% ,while in lowlight environments,it maintained a success rate of 83.3% . Other performance indicators,including field of view,meet the operational requirements for pinecone harvesting.The proposed pinecone detection and localization system provides a reliable solution for real-time target detection and localization problems in mechanized pinecone harvesting.
Keywords:Pinecone;target detection;target localization;YOLOv5s algorithm;binocular depth camera
0 引言
松科球果作為一種重要的林業(yè)資源,因其在食品、醫(yī)藥和化工領(lǐng)域的廣泛應(yīng)用而備受關(guān)注[1]。松科樹種屬于高大喬木,果實(shí)生長于樹梢,在天然紅松林內(nèi)樹高多為 25~30m ,其球果的采摘主要依賴人工,隨著全球林業(yè)資源需求的增長和勞動(dòng)力成本的持續(xù)上升,傳統(tǒng)松塔采摘模式面臨效率低、風(fēng)險(xiǎn)高和成本不可控等嚴(yán)峻挑戰(zhàn),而季節(jié)性勞動(dòng)力短缺進(jìn)一步加劇了松科球果資源的浪費(fèi),不能滿足行業(yè)發(fā)展需要[2],基于此,自動(dòng)化采摘在提高效率、降低人力成本和減少安全風(fēng)險(xiǎn)方面展現(xiàn)出巨大潛力,實(shí)現(xiàn)精準(zhǔn)、快速的松科球果檢測與定位是推動(dòng)自動(dòng)化采摘技術(shù)發(fā)展的關(guān)鍵,也是制約采摘機(jī)器人在實(shí)際采摘中推廣應(yīng)用的主要因素[3]。
在目標(biāo)檢測方面,目前,松果檢測模型主要可以被劃分為兩階段模型與單階段模型2類。兩階段模型的工作流程為先從背景中提取候選區(qū)域,然后對自標(biāo)進(jìn)行分類和定位,盡管這種方法在檢測精度上表現(xiàn)出色,但由于其復(fù)雜的處理步驟,通常無法滿足實(shí)時(shí)檢測的需求[4]。其中,RCNN[5]、Fast RCNN[6]和Faster-RCNN[7]是該類模型的典型代表。程嘉瑜等[8]提出無人機(jī)遙感結(jié)合改進(jìn)Faster-RCNN算法對桃樹進(jìn)行檢測,引入注意力模塊CBAM、使用ROIAlign替代原本池化結(jié)構(gòu)、引人損失函數(shù)FocalLoss這3個(gè)方面對Faster-RCNN算法進(jìn)行優(yōu)化,改進(jìn)后的算法對桃樹檢測平均精度達(dá) 86.46% ,但雙階段模型的實(shí)時(shí)性存在一定缺陷。相較之下,單階段模型則直接從圖像中預(yù)測目標(biāo)的類別和位置,在檢測精度和檢測速度上做出了較優(yōu)的平衡,代表性的模型包括 SSD[9] 、YOLO[10]等。YOLO系列網(wǎng)絡(luò)作為經(jīng)典的單目標(biāo)檢測方法之一,通過不斷地采樣預(yù)測物體的特征來實(shí)現(xiàn)目標(biāo)檢測[1]。周宏威等[12]以YOLOv8為基準(zhǔn)算法,通過采用C2f-GAM(globalattentionmechanism,全局注意力機(jī)制)和動(dòng)態(tài)檢測頭對算法進(jìn)行優(yōu)化,實(shí)現(xiàn)了稍斑螟蟲蛀樹木的檢測,檢測平均精度達(dá) 84.8% ,但在檢測精度與速度的平衡上有所欠缺;趙輝等[13]基于改進(jìn)YOLOv3實(shí)現(xiàn)了果園環(huán)境對蘋果的識別,通過引人殘差模塊Dark-
Net53、空間金字塔池化(spatial pyramid pooling,SPP)模塊和優(yōu)化損失函數(shù)的方法提升模型性能,具有較好的實(shí)時(shí)性能。單階段模型相對于兩階段模型的高效性使其更加適用于需要快速反應(yīng)的實(shí)時(shí)松果檢測任務(wù)。
在目標(biāo)定位方面,近年來,許多學(xué)者利用雙目立體視覺系統(tǒng)進(jìn)行農(nóng)業(yè)作物的空間定位研究[14]。Zhai等[15]基于雙目立體視覺系統(tǒng),結(jié)合秩變換、Harris檢測器和隨機(jī)樣本一致性方法,提出了一種精確的立體匹配方法來定位多行農(nóng)作物的三維位置。劉潔等[基于深度匹配技術(shù)和改進(jìn)的YOLOv4實(shí)現(xiàn)橙果的識別與定位,目標(biāo)果實(shí)在二維、三維的識別成功率分別達(dá)到98.7% 與96. 15% ,具有較高的精度。Li等[7采用基于色差和色差比的分割方法分割被檢測水果包圍盒中的蘋果和背景像素,使用平行極線約束的模板來匹配左右圖像中的蘋果,利用雙目定位原理直接計(jì)算特征點(diǎn)的三維坐標(biāo),實(shí)現(xiàn) 0.51cm 的定位標(biāo)準(zhǔn)差?;陔p目視覺的定位方法雖能實(shí)現(xiàn)作物三維信息提取,但傳統(tǒng)匹配算法易受光照、遮擋干擾,影響定位穩(wěn)定性。盡管單階段檢測模型憑借其高效性在果實(shí)檢測任務(wù)中廣泛應(yīng)用,但對于自然環(huán)境的實(shí)時(shí)采摘來說,對檢測精度和速度的平衡尤其重要。本研究通過優(yōu)化檢測網(wǎng)絡(luò),結(jié)合深度相機(jī)與深度匹配算法增強(qiáng)復(fù)雜環(huán)境下的定位魯棒性,針對松科球果提出實(shí)時(shí)目標(biāo)檢測與定位系統(tǒng)。該系統(tǒng)集成目標(biāo)檢測算法、深度相機(jī)與深度匹配模塊,在保證毫米級定位精度的同時(shí),可動(dòng)態(tài)適配不同采摘場景需求。
松科球果數(shù)據(jù)集構(gòu)建
以2大主要松屬植物紅松和樟子松的球果為研究對象,旨在解決自然環(huán)境中,復(fù)雜、存在遮擋環(huán)境下樟子松、紅松球果的識別與定位問題,為智能松科球果采摘提供基礎(chǔ)。
1. 1 數(shù)據(jù)采集
采集成熟期(9一10月)內(nèi)2種松科球果圖像,為方便圖像收集,選擇種子園(樹木經(jīng)過矮化處理)進(jìn)行采集,其中,樟子松球果圖像采集于大興安嶺地區(qū)加格達(dá)奇區(qū)樟子松種子園 (123°57′29′′E,50°22′1′′N ,海拔 566m ),紅松球果圖像采集于小興安嶺地區(qū),伊春市新青區(qū)的湯林林場紅松種子園( 129°33′22.5 海拔 435m )。
考慮本算法后期的使用需結(jié)合感知設(shè)備部署,拍攝角度最大程度模擬自然環(huán)境下鏡頭可能的采摘視角,果實(shí)目標(biāo)檢測數(shù)據(jù)集的圖片利用IPhone14手機(jī)進(jìn)行采集,圖像保存格式為JPG,圖像分辨率為 3456×
4608像素,距離果實(shí) 0.2~2m ,為保證算法對不同角度果實(shí)識別成功率,單個(gè)果實(shí)選取不同角度多次拍攝,此外圖像還注意以下多種情況的采集:逆光、順光、側(cè)光,果實(shí)被遮擋 10% 及以下、 30%.50%.50% 以上,無果、單果、多果。最終獲得樟子松球果原始圖像738張,紅松球果原始圖像1343張,無果原始圖像61張(原始圖片共計(jì)2142張),圖1展示了相關(guān)圖像示例。
1. 2 數(shù)據(jù)集增強(qiáng)和劃分
使用LabelImg對原始圖像進(jìn)行標(biāo)注,繪制標(biāo)注框?qū)麑?shí)進(jìn)行完全框選,標(biāo)簽為“pinecone”代表目標(biāo)球果,獲得YOLO訓(xùn)練所需的TXT格式文件,部分空集圖像不進(jìn)行標(biāo)注,對應(yīng)的TXT格式文件內(nèi)容為空。同時(shí),為方便后續(xù)進(jìn)行數(shù)據(jù)增強(qiáng)處理,通過Python腳本將數(shù)據(jù)集整理成VOC格式,生成XML格式的聲明文件。將訓(xùn)練集、測試集、驗(yàn)證集通過Python腳本,按照7:2:1的比例進(jìn)行隨機(jī)劃分,格式和分類如圖2所示。
為保證算法的魯棒性、識別準(zhǔn)確率和彌補(bǔ)自然環(huán)境下拍攝的局限性,本試驗(yàn)通過算法對原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)處理,主要采用以下8種方法:添加噪聲、改變亮度、隨機(jī)角度旋轉(zhuǎn)、鏡像、倒置、增加黑框遮擋、曝光、高斯模糊,同時(shí)為拓展算法可用場景,少部分圖像進(jìn)行增加雨、霧處理,圖3展示部分圖像示例。將
2142張?jiān)紙D像編號,取隨機(jī)數(shù)對原始圖像進(jìn)行數(shù)據(jù)增強(qiáng),保證0\~3種數(shù)據(jù)增強(qiáng)生效,0\~2種天氣效果生效,對增強(qiáng)后的圖像進(jìn)行篩選,最終經(jīng)過增強(qiáng)的圖像共2281張,數(shù)據(jù)集全部圖像共計(jì)4423張,最終數(shù)據(jù)集的構(gòu)成與劃分見表1和表2。
2 模型優(yōu)化
YOLOv5作為單階段目標(biāo)檢測算法,其框架主要由3部分組成:骨干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和檢測頭,如圖4所示。骨干網(wǎng)絡(luò)負(fù)責(zé)提取圖像特征,主要作用是將原始輸入圖像轉(zhuǎn)化為多層特征圖,頸部網(wǎng)絡(luò)對骨干網(wǎng)絡(luò)所提取到的深淺層次特征進(jìn)行多尺度特征融合并傳遞給檢測網(wǎng)絡(luò),檢測頭進(jìn)行回歸預(yù)測,完成目標(biāo)特征的檢測與分類[18]。YOLOv5s版本具有檢測精度高、推理速度快和模型體積小的優(yōu)勢,適用于松科球果的實(shí)時(shí)檢測。但在試驗(yàn)中發(fā)現(xiàn)YOLOv5s模型在松科球果被遮擋情況下易誤判,在強(qiáng)光或背光條件下存在特征提取不足和漏檢問題,檢測精度仍有提升空間。在實(shí)際采摘過程中,視覺識別的準(zhǔn)確性和實(shí)時(shí)性對松科球果定位至關(guān)重要。因此,本研究基于YOLOv5s架構(gòu)和松科球果定位需求改進(jìn)網(wǎng)絡(luò),以提升松科球果目標(biāo)檢測性能。
2. 1 部分卷積(PConv)
部分卷積(partialconvolution,PConv)[19]通過減少冗余計(jì)算和內(nèi)存訪問的數(shù)量,可以有效地提取空間特征,工作原理如圖5所示。其核心思想是動(dòng)態(tài)調(diào)整卷積操作,通過引入遮罩(mask)標(biāo)記輸入特征圖中的有效區(qū)域,確保有效信息被充分利用,同時(shí)忽略無效數(shù)據(jù)。
D306. Input/output Filter 色 *Convolution Identity (a)常規(guī)卷積 (b)部分卷積 (a) Convolution (b)Partial convolution
對于可實(shí)際應(yīng)用的模型來說,模型運(yùn)算速度是關(guān)鍵因素之一,為了設(shè)計(jì)快速輕量化的檢測模型,許多研究致力于減少浮點(diǎn)運(yùn)算次數(shù)(FLOPs),F(xiàn)LOPs的減少可能帶來運(yùn)算速度的提升,但是普通的深度卷積(DW-Conv操作對內(nèi)存的頻繁訪問反而使浮點(diǎn)運(yùn)算效率降低、不穩(wěn)定性增加。本試驗(yàn)的檢測目標(biāo)只有松科球果pinecone\"這一類,目標(biāo)松科球果背景為林區(qū)環(huán)境,復(fù)雜且出現(xiàn)遮擋的頻率高,果實(shí)相對稀疏,所以在模型中引人PConv卷積方式,增強(qiáng)對稀疏特征的處理能力,提升對不規(guī)則輸人數(shù)據(jù)的魯棒性,減輕特征信息的冗余問題。將頸部網(wǎng)絡(luò)的堆疊部分替換為PConv形式,具體為FPN和PANet結(jié)構(gòu)中C3模塊中的BottleNeck的常規(guī)卷積替換為部分卷積,減少冗余的特征處理。原結(jié)構(gòu)的C3模塊和引入PConv后新的P-C3模塊結(jié)構(gòu)如圖6所示,在以上改進(jìn)中,尺度和層次2方面均有兼顧,模型魯棒性更強(qiáng),而在卷積較為密集的部分引入PConv幫助模型輕量化提高推理速度,更符合后期設(shè)備的部署需求。
2. 2 注意力模塊SimAM
在檢測過程中,目標(biāo)球果與背景對比度較小,果實(shí)生長林區(qū)環(huán)境復(fù)雜,導(dǎo)致這種背景下的目標(biāo)果實(shí)具有較低的對比度和較弱的表現(xiàn)形式,使其難以被常規(guī)的特征提取方式捕捉,同時(shí)對于采摘設(shè)備來說,輕量、反應(yīng)迅速是關(guān)鍵因素之一。因此在原來的骨干網(wǎng)絡(luò)中引入簡單注意力模塊 SimAM[20] ,這是一種簡潔的注意力模塊,工作原理如圖7所示。SimAM模塊不引人額外的卷積層或全連接層,相比于擠壓和激勵(lì)(squeeze-and-excitation,SE)等注意力模塊,SimAM參數(shù)量更低,在計(jì)算中引人自適應(yīng)調(diào)節(jié)參數(shù),提高網(wǎng)絡(luò)對關(guān)鍵特征的關(guān)注度,在參數(shù)量最小的情況下提高復(fù)雜背景下的檢測能力?;赮OLOv5-7.0網(wǎng)絡(luò),將SimAM嵌入到骨干backbone的深層結(jié)構(gòu)中,SimAM通過動(dòng)態(tài)調(diào)整特征圖中像素的權(quán)重,對深層語義特征進(jìn)行細(xì)粒度的權(quán)重分配,突出目標(biāo)區(qū)域,減弱背景噪聲干擾,同時(shí)在backbone和neck的連接部分引入SimAM,優(yōu)化信息傳遞的有效性。
2.3 改進(jìn)YOLOv5s總框架
通過引人部分卷積構(gòu)成新的P-C3模塊和添加注
X 表示輸人的數(shù)據(jù);C(Channels)表示特征圖的通道數(shù) ;H(Height) 表示特征圖的高度;W(Width)表示特征圖的寬度。
X represents the input data; c (Channels)represents the number ofchannels in the feature map; H 0 Height )representstheheightofthe feature map; and W (Width)represents the width of the feature map.
意力機(jī)制(SimAM)優(yōu)化YOLOv5s模型提高松科球果的檢測能力,改進(jìn)后松科球果檢測模型的總體框架結(jié)構(gòu)如圖8所示。
Conv為卷積層;BN為批量歸一化層;SILU為激活函數(shù)層; SimAM 為引入的注意力模塊;SPPF為空間金字塔池化結(jié)構(gòu);C3為應(yīng)用Bottle-Neck的卷積模塊;P-C3為改進(jìn)后的C3結(jié)構(gòu);Concat為拼接操作模塊;Upsample為上采樣模塊;Conv2d為標(biāo)準(zhǔn)的二維卷積層;Botleneck為瓶頸層;Pconv為部分卷積模塊。
Convrepresentsolutioalleasforatchlae;Ueresesthctiatiofuctiole;sta fortheattouletrodd;eprtstesatialrduce;eprtstoouilouleol neck;P-C3representsteimproedC3structur;Cocatstandsfortocatenatiooperatioodule;Upsaplepresentsteusalingod ule;Conddlslul
圖8改進(jìn)YOLOv5s松科球果檢測模型的總體框架
Fig.8 Overall framework of the improved YOLOv5smodel for pinecone detection
3 深度定位分析
位置,為機(jī)械臂或末端執(zhí)行器的運(yùn)動(dòng)提供精確運(yùn)動(dòng)坐標(biāo)。
3.1測距原理分析與選定
通過對YOLOv5目標(biāo)檢測模型進(jìn)行訓(xùn)練與改進(jìn),可以高準(zhǔn)確率確定目標(biāo)果實(shí)的二維位置信息(即 x 軸和y軸坐標(biāo)),實(shí)現(xiàn)目標(biāo)果實(shí)抓取任務(wù),還需要獲取第3維度(即z軸坐標(biāo)),三維坐標(biāo)確定待采摘果實(shí)的空間由于松科球果形似寶塔,近似于橢球形,且密度較大抓取較牢固,本研究直接將檢測框中心看作等效質(zhì)點(diǎn),視為球果采摘點(diǎn)的二維坐標(biāo)。為獲取三維坐標(biāo),需硬件設(shè)備進(jìn)行感知獲得深度信息,常見的深度信息獲取按照原理有主動(dòng)測距與被動(dòng)測距2種形式,具體情況如下。
1)純視覺方法,屬于被動(dòng)測距,包括非主動(dòng)的單、雙目攝像頭,例如雙目攝像機(jī)仿照人眼設(shè)計(jì),通過視覺差進(jìn)行計(jì)算得到目標(biāo)物體深度,無須主動(dòng)發(fā)射能量,受強(qiáng)光干擾較小,成本相對較低。但是精度依賴相機(jī)標(biāo)定,與低紋理目標(biāo)(如光滑表面)難以匹配,在暗光或無光環(huán)境下無法工作,受到相機(jī)俯仰角限制。
2)主動(dòng)深度相機(jī),屬于主動(dòng)測距,一般通過發(fā)射裝置對待測物體投射光源(固定的紅外光柵或圖案),主動(dòng)增加紋理場景或根據(jù)接收的反饋信息計(jì)算深度,例如雙目深度相機(jī)(也稱RGB-D相機(jī),D指深度depth)或結(jié)構(gòu)光相機(jī),精度較高可達(dá)毫米級,不受光照和物體紋理的影響,響應(yīng)速度較快,適合林區(qū)環(huán)境的采摘作業(yè)。
3)飛行時(shí)間(timeofflight,TOF),屬于主動(dòng)測距,如Kinect3.0深度傳感器相機(jī),通過發(fā)射激光或紅外光測量反射時(shí)間計(jì)算深度。成本較高,不受光照和目標(biāo)物體紋理的影響,但受多重反射的影響較大,部署和使用受到上位機(jī)功率的限制,雖然可達(dá)毫米級精度,但不適用于林區(qū)復(fù)雜環(huán)境。
雙目深度相機(jī)(binoculardepthcamera)因其高精度(毫米級)抗環(huán)境于擾性強(qiáng)、實(shí)時(shí)性高和成本適中的優(yōu)勢更加適用于林區(qū)松科球果采摘任務(wù),相比純雙目視覺,通過主動(dòng)投射散斑圖案增強(qiáng)自標(biāo)特征,解決低紋理匹配問題;相比TOF,成本更低且抗反射干擾更強(qiáng),適合林區(qū)復(fù)雜光照和動(dòng)態(tài)采摘場景,兼顧精度與實(shí)用性,因此本研究采用雙目深度相機(jī)(RealSenseD435)進(jìn)行松科球果的定位。
3.2基于雙目深度相機(jī)的松科球果定位原理
IntelRealSenseD435相機(jī)包括RGB模塊、左成像器、光源發(fā)射器、右成像器,參數(shù)見表3,結(jié)構(gòu)如圖9所示,相機(jī)增加一個(gè)紅外投影儀,使用能覆蓋大視場角的散斑圖案,通過主動(dòng)發(fā)射紅外光并結(jié)合立體視覺技術(shù)來實(shí)現(xiàn)深度測量。假設(shè)目標(biāo)球果三維空間坐標(biāo)為 P (X,Y,Z) ,其在左成像器中的坐標(biāo)為 xL ,在右成像器中的坐標(biāo)為 xR ,則視差 (d) 為
d=xL-xR°
根據(jù)相機(jī)幾何關(guān)系,視差與物體的深度 (Z) 之間關(guān)系為
式中: Z 為目標(biāo)果實(shí)到相機(jī)的深度 ;f 為相機(jī)成像器的焦距; b 為左右2個(gè)相機(jī)之間的基線長度; d 為視差。
表3相機(jī)參數(shù)
在定位過程中,使用改進(jìn)的 YOLOv5s 模型對獲取到的RGB圖像進(jìn)行松科球果的目標(biāo)檢測任務(wù),在RGB圖像中計(jì)算自標(biāo)果實(shí)檢測框的中心坐標(biāo),深度相機(jī)獲取到的深度圖像中的每個(gè)像素包含了到相機(jī)的距離信息,即該像素對應(yīng)物體的深度值,將目標(biāo)果實(shí)深度圖像的像素深度值和目標(biāo)檢測中心的像素坐標(biāo)進(jìn)行匹配,使用函數(shù)轉(zhuǎn)換關(guān)系,將像素點(diǎn)三維坐標(biāo)轉(zhuǎn)換為相機(jī)坐標(biāo)系中的三維坐標(biāo),即自標(biāo)果實(shí)在世界坐標(biāo)系的三維坐標(biāo),定位流程如圖10所示,精確的定位坐標(biāo)是后續(xù)末端執(zhí)行器實(shí)現(xiàn)采摘?jiǎng)幼鞯幕A(chǔ)。
4試驗(yàn)與分析
4.1目標(biāo)檢測性能試驗(yàn)
本試驗(yàn)所采用的硬件配置包括12thGenIntel(R)Core(TM)i7-12700H處理器和NVIDIAGeForceRTX3060LaptopGPU顯卡。軟件環(huán)境則選用64位Windows10操作系統(tǒng),深度學(xué)習(xí)框架為PyTorchversion:1.10.2,Pythonversion:3.6.13。同時(shí),在試驗(yàn)過程中,使用了CUDA11.1作為GPU計(jì)算平臺,輸入圖像的尺寸被調(diào)整至 640×640 像素,批量大小定為14,在訓(xùn)練過程中,初始學(xué)習(xí)率設(shè)置為0.01,最終學(xué)習(xí)率調(diào)整為0.0001,整個(gè)訓(xùn)練周期設(shè)定為150輪。
為全面評價(jià)松科球果檢測算法性能,使用查準(zhǔn)率(precision, P )查全率 Φrecall,R) 、平均精度(meanaver-age precision, mAP ,式中記為 mAP) 作為試驗(yàn)評價(jià)指標(biāo)。由于算法以聯(lián)合定位算法的最終應(yīng)用為目的,為保證檢測效率,對速度指標(biāo)幀率(framespersecond,F(xiàn)PS)進(jìn)行評價(jià),保障算法在實(shí)時(shí)場景中的性能表現(xiàn)。試驗(yàn)評價(jià)指標(biāo)計(jì)算公式為
式中: Tp 為正確檢測的松科球果數(shù)量; Fp 為錯(cuò)誤檢測松科球果的數(shù)量; FN 為沒有檢測到的松科球果數(shù)量; N 為待檢測的松科球果類別數(shù)量; P 為查準(zhǔn)率(精確率),代表準(zhǔn)確檢測松科球果的比例; R 為查全率(召回率),代表準(zhǔn)確檢測所有松科球果的能力; AP 為單一類別檢測精度,代表 P-R 曲線構(gòu)成的區(qū)域面積大小; mAP 為平均檢測精度,代表多個(gè)果實(shí)類別的平均AP(average preci-sion)值,本研究類別只有\(zhòng)"pinecone\"一種目標(biāo),即AP值與mAP值相等。
針對本研究提出的模型優(yōu)化方案,進(jìn)行消融試驗(yàn),結(jié)果見表4。對于PConv的引人,模型平均精度和召回率顯著提升,從結(jié)果來看,平均精度和召回率分別提升了 3.8% 和 6% ,同時(shí)精確率從 89.9% 提升至 92.5% ,檢測模型推理速度由47.5fps提升至58.0fps。數(shù)據(jù)表明,PConv的引入對精度指標(biāo)與速度指標(biāo)同時(shí)具有增益效果。對于注意力模塊SimAM的引入,模型提升淺層特征如目標(biāo)果實(shí)的紋理、邊緣和顏色等的捕捉能力,模型的精確率和召回率提升顯著分別提升了 4.8% 和 4% ,平均精度由原來的 90.7% 提升至 93.8% ,但是在backbone和連接處增加了注意力層,導(dǎo)致檢測速度下降了1.1fps。在有效融合PConv部分卷積模塊與注意力機(jī)制SimAM后,針對松科球果的檢測模型達(dá)到最優(yōu),數(shù)據(jù)指出,模型的精度指標(biāo)精確率升至 96.8% ,召回率達(dá)到 94% ,平均精度提升至 96.3% ,部分卷積PConv的融合彌補(bǔ)了引入注意力機(jī)制(SimAM)導(dǎo)致檢測速度下降的缺陷,檢測速度上升至57.2fps,滿足采摘過程對檢測速度的需求。針對松科球果數(shù)據(jù)集,將優(yōu)化后模型與主流一階段目標(biāo)檢測模型進(jìn)行對比試驗(yàn),結(jié)果見表5,由表5可知優(yōu)化后的Y0LOv5s模型在檢測精度和推理速度上均優(yōu)于其他模型。
4. 2 空間定位性能試驗(yàn)
基于IntelRealSenseD435的定位原理,設(shè)計(jì)并構(gòu)建了適配的松科球果檢測與定位算法網(wǎng)絡(luò)BinYOLO-DP(binocular depth camera-based YOLO detection andpositioning),算法網(wǎng)絡(luò)結(jié)合前文優(yōu)化后的目標(biāo)檢測模型,進(jìn)行綜合定位試驗(yàn)。
為量化檢測坐標(biāo)與真實(shí)坐標(biāo)的偏差,采用平均絕對誤差作為檢測坐標(biāo)與真實(shí)坐標(biāo)的評價(jià)指標(biāo),計(jì)算平均絕對誤差公式為
式中: MAEx,MAEy,MAEz 分別為 x,y,z 軸坐標(biāo)的平均絕對
誤差; xi,yi,zi 為第i個(gè)目標(biāo)球果的真實(shí)坐標(biāo);
為第i個(gè)自標(biāo)球果的測量值坐標(biāo)。
基于python語言編寫代碼,實(shí)現(xiàn)基于IntelRe-alSense相機(jī)和YOLO模型進(jìn)行松科球果的目標(biāo)檢測和深度信息提取,轉(zhuǎn)換為可讀的三維坐標(biāo)。代碼使用OpenCV庫進(jìn)行圖像處理和顯示,使用pyrealsense2庫作為IntelRealSenseSDK的Python接口實(shí)現(xiàn)對深度相機(jī)的訪間,調(diào)用rs2_deproject_pixel_to_point函數(shù)將二維像素坐標(biāo) (ux,uy) 和深度值dis轉(zhuǎn)換為相機(jī)坐標(biāo)系下的三維坐標(biāo) (Φx,y,z) 即世界坐標(biāo),在檢測框上繪制矩形框可視化檢測結(jié)果,通過調(diào)用主函數(shù) run 加載對應(yīng)YOLO模型權(quán)重文件,實(shí)時(shí)處理輸入的圖像或視頻流,并輸出松科球果的檢測結(jié)果及其對應(yīng)的三維坐標(biāo)。為了過濾掉低置信度的誤檢測,確保檢測結(jié)果的準(zhǔn)確性,設(shè)定置信度閾值為0.35,即置信度低于0.35時(shí)不予檢測。
值得一提的是,對于采摘機(jī)器人定位的成功率和誤差,自前尚無國際上統(tǒng)一的絕對標(biāo)準(zhǔn),但在學(xué)術(shù)研究和商業(yè)應(yīng)用中,通常會根據(jù)具體的場景和需求設(shè)定評價(jià)指標(biāo),一般要求采摘成功率 gt;80%~90% ,定位成功率 gt;85%~95% ,位置誤差為 ±(5~20)mm 。例如蘋果、柑橘類[21]果實(shí)的容忍誤差為 ±(15~20)mm ;小果實(shí)如紅花檢測[22要求誤差小于 ±5mm 。因此考慮到目標(biāo)松科果實(shí)大小、試驗(yàn)室環(huán)境及真實(shí)環(huán)境(風(fēng)速一般在 1~2m/s 果實(shí)擺動(dòng)幅度和頻率不高)的情況下,本研究允許視覺和控制系統(tǒng)在 x,y,z 軸的誤差均不超過 ±10mm 。
分別對目標(biāo)果實(shí)進(jìn)行試驗(yàn)室環(huán)境定位試驗(yàn),環(huán)境如圖11所示,調(diào)整相機(jī)對不同的目標(biāo)球果進(jìn)行定位,當(dāng)上位機(jī)顯示含有幀率穩(wěn)定的檢測目標(biāo)時(shí),記錄目標(biāo)球果的檢測坐標(biāo) (x′,y′,z′) ,同時(shí)測量目標(biāo)球果在相機(jī)坐標(biāo)系上的投影 x,y,z 的距離,得到目標(biāo)球果的真實(shí)坐標(biāo) (Φx,y,z) ,BinYOLO-DP系統(tǒng)測量結(jié)果見表6。
將坐標(biāo)信息進(jìn)行可視化,如圖12所示,真實(shí)坐標(biāo)與檢測坐標(biāo)之間距離越近則誤差越小、測量越精準(zhǔn),由表6及可視化后的圖12可知,使用BinYOLO-DP系統(tǒng)的定位模型, x 軸 ??y 軸 ?z 軸的平均絕對誤差分別為0.644,0.620,0.740 ,均小于 10mm 滿足松科球果采摘的定位誤差要求。部分定位結(jié)果展示如圖13所示。
為全面分析模型對深度定位效果,模擬自然環(huán)境下采摘定位情況進(jìn)行試驗(yàn),按照順光、側(cè)光、逆光3種情況對系統(tǒng)進(jìn)行驗(yàn)證。以逆光為例,目標(biāo)球果固定,逆光照射果實(shí),針對同一果實(shí),相機(jī)坐標(biāo)系下系統(tǒng)的 x,y 保持相同,調(diào)整相機(jī),沿相機(jī)坐標(biāo)系z軸方向移動(dòng),當(dāng)上位機(jī)顯示含有穩(wěn)定幀率的檢測目標(biāo)時(shí),記錄檢測深度值,記錄真實(shí)深度值,完成一組試驗(yàn)。換下一目標(biāo)果實(shí)并調(diào)整光源,重復(fù)試驗(yàn)。其中,誤檢(將其他非目標(biāo)部分識別為目標(biāo)球果)、漏檢(未能檢測到目標(biāo))2種情況定義為失敗定位,根據(jù)誤差要求,檢測坐標(biāo)與實(shí)際坐標(biāo)的深度值(即z軸方向坐標(biāo))的誤差超過 10mm 定義為精度不足,基于此,每種情況進(jìn)行20次試驗(yàn),結(jié)果見表7。
為測試特殊環(huán)境下兩定位系統(tǒng)的性能,設(shè)置30組試驗(yàn)室環(huán)境下暗光定位試驗(yàn),試驗(yàn)過程與上述相同的基礎(chǔ)上,不進(jìn)行特殊光照,將試驗(yàn)環(huán)境中主要光源關(guān)閉,此時(shí)環(huán)境光的照度為 5.3lx 。
由表7和表8可知,針對于松科球果不同方向光照下定位,BinYOLO-DP系統(tǒng)的定位成功率達(dá)到 93.3% ,定位失敗為 5% ,精度不足 1.7% ,在暗光下定位成功率為 83.3% ,結(jié)果還表明模型漏檢或誤檢的情況均明顯高于精度不足的情況,這是由于模型的感知設(shè)備主動(dòng)向待測球果發(fā)送散斑圖案,結(jié)合立體視覺技術(shù)來獲得深度,這能保證定位系統(tǒng)在暗光甚至無光的情況下仍能獲取深度信息。
cm
為補(bǔ)充試驗(yàn)的局限性,表9展示了網(wǎng)絡(luò)模型所對應(yīng)感知設(shè)備的其他參數(shù)指標(biāo)以及所需計(jì)算資源指標(biāo)(所在上位機(jī)環(huán)境為 12th GenIntel(R)Core(TM)i5-124OP,PyTorch version:1.1O.2,Python version:3.6.13),根據(jù)表9參數(shù)分析,BinYOLO-DP的深度模塊與RGB模塊視場角分別達(dá)到 87°×58° 和 69°×42° ,顯著超越同類單目設(shè)備(如AstraProPlus的 58.4°× 45.7° 和 66.1°×40.2° ),其廣角設(shè)計(jì)可覆蓋更廣闊的場景范圍,完全滿足林區(qū)空間感知的場景。模型計(jì)算量為16.4GFLOPs,在12代i5移動(dòng)端CPU上支持實(shí)時(shí)推理,(結(jié)合30FPS相機(jī)推算單幀處理時(shí)間 ?33ms 滿足幀率需求。工作溫度范圍 0~40°C ,適配松科球果9—10月采摘需求的環(huán)境部署。此外,基于PyTorch1.10.2與Python3.6.13的軟硬件架構(gòu),確保了算法在主流開發(fā)環(huán)境中的穩(wěn)定運(yùn)行,為實(shí)際應(yīng)用提供可靠基礎(chǔ)。
5結(jié)論
本研究構(gòu)建了松科球果自然環(huán)境數(shù)據(jù)集,提出改進(jìn)松科球果目標(biāo)檢測模型YOLOv5s,在優(yōu)化過程中引入部分卷積PConv和注意力機(jī)制SimAM,平衡檢測精度和檢測速度,結(jié)合改進(jìn)松科球果檢測模型和深度感知設(shè)備雙目深度相機(jī),構(gòu)建松科球果識別和定位系統(tǒng)BinYOLO-DP,通過試驗(yàn)分析,結(jié)果如下。
1)改進(jìn)目標(biāo)檢測模型YOLOv5s基于松科球果數(shù)據(jù)集,檢測精確率達(dá) 96.8% ,召回率和平均精度達(dá)94%.96.3% ,速度指標(biāo)達(dá) 57.2fps ,在檢測精度和檢測速度上均滿足采摘作業(yè)對目標(biāo)果實(shí)的檢測要求。
2)BinYOLO-DP系統(tǒng)的 x 軸 ??y 軸 ?z 軸的平均絕對誤差分別為 0.644,0.620,0.740 ,符合 ±10mm 的誤差要求,不同方向光照情況下定位成功率達(dá) 93.3% /5.3lx 暗光下定位成功率 83.3% ,同時(shí)系統(tǒng)的可定位范圍、工作溫度及檢測速度均滿足松科球果采摘定位需求。
本研究提出的BinYOLO-DP系統(tǒng)有效解決了松科球果的檢測與實(shí)時(shí)定位問題,同時(shí),若擴(kuò)展不同果實(shí)的訓(xùn)練數(shù)據(jù)集,可適配其他果實(shí)定位,推動(dòng)系統(tǒng)向通用化農(nóng)林業(yè)采收場景遷移。未來研究將重點(diǎn)探索定位系統(tǒng)與機(jī)械臂的聯(lián)合控制策略,在完善的定位系統(tǒng)基礎(chǔ)上,構(gòu)建軟硬件協(xié)同的采摘閉環(huán),為實(shí)現(xiàn)林區(qū)松科球果智能自動(dòng)采摘提供高精度、可擴(kuò)展的技術(shù)支持。
參考文獻(xiàn)
[1]吳晨旭,張冬妍,張欖翔,等.基于RT-DETR的林間松 果檢測方法研究[J/OL].林業(yè)科學(xué),1-14[2025-01-07]. WU C X, ZHANG D Y, ZHANG L X,et al. Research on forest pinecone detection method based on RT-DETR[J/ OL].Scientia Silvae Sinicae,1-14[2025-01-07].
[2]王克奇,張維昊,羅澤,等.擊打式松果采摘機(jī)器人設(shè)計(jì) 與試驗(yàn)[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2020,51(8):26-33. WANG KQ,ZHANG WH,LUO Z,et al. Design and experiment of hitting pine cone picking robot[J].Transactions of the Chinese Society for Agricultural Machinery, 2020,51(8) :26-33.
[3]陳青,殷程凱,郭自良,等.蘋果采摘機(jī)器人關(guān)鍵技術(shù)研 究現(xiàn)狀與發(fā)展趨勢[J].農(nóng)業(yè)工程學(xué)報(bào),2023,39(4): 1-15. CHEN Q,YIN C K,GUO Z L,et al. Current status and future development of the key technologies for apple picking robots[J]. Transactions of the Chinese Society of Agricultural Engineering,2023,39(4) :1-15.
[4] TANG Y C,CHEN MY,WANG C L,et al.Recognition and localization methods for vision-based fruit picking robots:A review[J].Frontiers in Plant Science,2020, 11:510.
[5]GIRSHICKR,DONAHUE J,DARRELL T,et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition.June 23-28, 2014,Columbus,OH,USA:IEEE,2014:580-587.
[6] GIRSHICK R. Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision.December 07-13,2016,Santiago,Chile:IEEE,2015:1440-1448.
[7]REN S,HE K,GIRSHICK R,et al.Faster R-CNN: Towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6) :1137-1149.
[8]程喜瑜陣協(xié)全本彤筆其干改講Fte-RCNN網(wǎng)終
的無人機(jī)遙感影像桃樹檢測[J].浙江農(nóng)業(yè)學(xué)報(bào),2024, 36(8):1909-1919. CHENG JY,CHEN MJ,LI T,et al. Detection of peach trees in unmanned aerial vehicle(UAV)images based on improved Faster-RCNN network [J].Acta Agriculturae Zhejiangensis,2024,36(8) :1909-1919.
[9] LIU W,ANGUELOV D,ERHAN D,et al. SSD: Single shot multibox detector[C]//Proceedings of the European Conference on Computer Vision. The Netherlands:Springer Cham,2016:21-37.
[10] REDMON J, DIVVALA S,GIRSHICK R,et al. You only look once:Unified,real-time object detection[Cl//Proceedings of 2O16 IEEE Conference on Computer Vision and Pattern Recognition.June27-30,2016,Las Vegas, NV,USA:IEEE,2016:779-788.
[11]邵延華,張鐸,楚紅雨,等.基于深度學(xué)習(xí)的YOLO目標(biāo)檢 測綜述[J].電子與信息學(xué)報(bào),2022,44(10):3697-3708. SHAOYH,ZHANG D,CHU HY,et al.A review of YOLO object detection based on deep learning[J]. Journal of Electronics amp; Information Technology,2022,44 (10) :3697-3708.
[12]周宏威,紀(jì)皓文,吳羿軒,等.基于YOLOv8算法改進(jìn)模 型檢測梢斑螟蟲蛀樹木[J].森林工程,2025,41(1): 126-137. ZHOUHW,JIHW,WUYX,et al. Improve the detection model of tree decay by dioryctria based onthe YOLOv8[J].Forest Engineering,2025,41(1) :126-137.
[13]趙輝,喬艷軍,王紅君,等.基于改進(jìn)YOLOv3的果園復(fù) 雜環(huán)境下蘋果果實(shí)識別[J].農(nóng)業(yè)工程學(xué)報(bào),2021,37 (16) :127-135. ZHAO H,QIAO Y J, WANG H J,et al. Apple fruit recognition in complex orchard environment based on improved YOLOv3[Jl. Transactions of the Chinese Society of Agricultural Engineering,2021,37(16) :127-135.
[14]曹家樂,李亞利,孫漢卿,等.基于深度學(xué)習(xí)的視覺目 標(biāo)檢測技術(shù)綜述[J].中國圖象圖形學(xué)報(bào),2022,27(6): 1697-1722. CAO JL,LI Y L,SUN H Q,et al. A survey on deep learning based visual object detection[J]. Journal of Image and Graphics,2022,27(6) :1697-1722.
[15] ZHAI Z Q,ZHU Z X,DU Y F,et al. Multi-crop-row detection algorithm based on binocular vision[J].Biosystems Engineering,2016,150:89-103.
[16]劉潔,李燕,肖黎明,等.基于改進(jìn)YOLOv4模型的橙果 識別與定位方法[J].農(nóng)業(yè)工程學(xué)報(bào),2022,38(12): 173-182. LIUJ,LIY,XIAOL M,etal.Recognition and location method oforangebasedon improved YOLOv4 model[J]. Transactions of the Chinese Society of Agricultural Engineering,2022,38(12):173-182.
[17]LITF,F(xiàn)ANGWT,ZHAOGN,etal.Animproved binocularlocalizationmethod forapplebased onfruitdetectionusing deep learning[Jl. Information Processingin Ag riculture,2023,10(2):276-287.
[18] ZHULL,GENG X,LI Z,et al. Improving YOLOv5 with attention mechanism for detecting boulders from planetary images[J].Remote Sensing,2021,13(18):3776.
[19]CHENJR,KAO SH,HE H,et al.Run,don't walk:Chasinghigher FLOPS for faster neural networks[C]//Proceedings of 2O23 IEEE/CVF Conference on Computer Vision and Pattern Recognition. June 17-24,2023,Vancouver, BC,Canada:IEEE,2023:12021-12031.
[20]YANGLX,ZHANGRY,LILD,et al.SimAM:A simple,parameter-freeattention module for convolutional neural networks[C]//International Conference on MachineLearning.July18-24,2021,Vienna,Austria,2021: 11863-11874.
[21]李麗,梁繼元,張?jiān)品澹龋诟倪M(jìn)YOLO ΔV5 的復(fù)雜 環(huán)境下柑橘目標(biāo)精準(zhǔn)檢測與定位方法[J].農(nóng)業(yè)機(jī)械學(xué) 報(bào),2024,55(8):280-290. LIL,LIANGJY,ZHANGYF,etal.Accuratedetection and localization method of citrus targets in complex environments based on improved YOLO v5[Jl.Transactions of theChinese Society for Agricultural Machinery,2024, 55(8):280-290.
[22]郭輝,陳海洋,高國民,等.基于YOLO v5m 的紅花花冠 目標(biāo)檢測與空間定位方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2023,54 (7):272-281. GUOH,CHENHY,GAOGM,etal.Safflowercorolla object detection and spatial positioning methods based on YOLOv5m[Jl.Transactions ofthe Chinese Societyfor AgriculturalMachinery,2023,54(7):272-281.