摘要:
針對(duì)采摘機(jī)器人收獲技術(shù)中的識(shí)別技術(shù)受限于非結(jié)構(gòu)化環(huán)境中復(fù)雜背景干擾的問(wèn)題,采用改進(jìn)模型后處理的研究路線,提出一種改進(jìn)YOLOv5算法。首先將果實(shí)目標(biāo)的中心點(diǎn)距離、預(yù)測(cè)框?qū)捀邔?shí)際差值與面積交并比三者共同考慮為損失項(xiàng),提升預(yù)測(cè)框?qū)嶋H尺寸精度,再利用中心點(diǎn)距離作為懲罰項(xiàng)加權(quán)面積交并比得分,提升密集目標(biāo)的識(shí)別能力,最后通過(guò)設(shè)置輔助訓(xùn)練頭,提供更多的梯度信息以防止過(guò)擬合現(xiàn)象。通過(guò)多種損失函數(shù)損失值對(duì)比與模型改進(jìn)精度對(duì)比試驗(yàn)證明改進(jìn)有效性,部署至機(jī)器人驗(yàn)證可行性。結(jié)果表明,改進(jìn)后的算法模型識(shí)別平均精度95.6%,召回率達(dá)到90.1%,相較于改進(jìn)前全類精度提升0.4個(gè)百分點(diǎn),召回率提升0.4個(gè)百分點(diǎn),滿足采摘機(jī)器人識(shí)別需求。
關(guān)鍵詞:非結(jié)構(gòu)化;番茄果實(shí);目標(biāo)識(shí)別;損失函數(shù)優(yōu)化;YOLOv5算法
中圖分類號(hào):TP249; TP391.4
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):2095-5553 (2024) 04-0205-09
收稿日期:2023年9月25日" 修回日期:2023年11月26日
基金項(xiàng)目:江蘇省現(xiàn)代農(nóng)業(yè)機(jī)械裝備與技術(shù)示范推廣項(xiàng)目(NJ2022-02)
第一作者、通訊作者:張永宏,男,1974年生,山東莒南人,博士,教授;研究方向?yàn)榉较蚰J阶R(shí)別與智能系統(tǒng)。E-mail: zyh@nuist.edu.cn
Target identification and detection for tomato harvesting robot in unstructured environments
Zhang Yonghong1, Li Yuchao1, Dong Tiantian1,Qin Xiayang1, Liu Yunping1, Cao Jingxing2
(1. School of Automation, Nanjing University of Information Science and Technology, Nanjing, 210044, China;
2. Wuxi SIASUN Robot amp; Automation Co, Ltd, Wuxi, 210000, China)
Abstract:
Aiming at the problem that the recognition technology of harvesting robots in crop picking was limited by complex background interference in unstructured environments, especially due to occlusion by foliage and the overlapping of fruits, resulting in lower accuracy in identification, an improved YOLOv5 algorithm was proposed based on the improved research approach involving post-processing of the model. Initially, the centroid distance of fruit targets, the actual difference in predicted box width and height, and the intersection-over-union of areas were collectively considered as loss terms. This was aimed at enhancing the accuracy of predicted box sizes. Furthermore, the centroid distance was utilized as a penalty term weighted by the intersection-over-union score to improve the recognition capability for densely clustered targets. Subsequently, auxiliary training heads were incorporated to provide additional gradient information, thereby preventing overfitting. Through comparative analysis of loss values using multiple loss functions and assessing the model improve mentaccuracy, the effectiveness of the enhancements was experimentally validated. Finally, the deployment onto the robot confirmed the feasibility of the proposed improvements. The results indicated that the improved algorithm model achieved an average accuracy of 95.6%, with a recall rate of 90.1%. Compared to the pre-improvement overall class accuracy, there was an increase of 0.4 percentage points in both accuracy and recall rate, meeting the recognition requirements for harvesting robots.
Keywords:
unstructured; tomato; target recognition; loss function optimization; improved YOLOv5
0 引言
非結(jié)構(gòu)化設(shè)施農(nóng)業(yè)采摘機(jī)器人是指適用于不同設(shè)施農(nóng)業(yè)場(chǎng)景下的采摘機(jī)器人。設(shè)施農(nóng)業(yè)生產(chǎn)環(huán)境相對(duì)整齊[1],不僅為農(nóng)作物提供良好的生長(zhǎng)環(huán)境,也為采摘機(jī)器人提供穩(wěn)定的工作環(huán)境,這一定程度上降低采摘機(jī)器人的開(kāi)發(fā)難度、增強(qiáng)機(jī)器人運(yùn)行時(shí)的穩(wěn)定性[2, 3]。在早期作物識(shí)別試驗(yàn)中,大多采用機(jī)器學(xué)習(xí)的方法[4]。利用數(shù)字圖像處理的方式,采用卷積進(jìn)行濾波特征提取,使用支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)模型,實(shí)現(xiàn)特征的分類,從而達(dá)到識(shí)別的效果[5]。但由于圖像采集環(huán)境因素多變且特征向量選取存在多樣性,導(dǎo)致最終識(shí)別效果通用性與可移植能力較弱[6]。從20世紀(jì)中期開(kāi)始,機(jī)器視覺(jué)不斷發(fā)展,從構(gòu)建三維向量到特征識(shí)別,從淺層神經(jīng)網(wǎng)絡(luò)到深度學(xué)習(xí),人們逐漸拓寬機(jī)器視覺(jué)應(yīng)用領(lǐng)域,提升農(nóng)業(yè)作物識(shí)別任務(wù)的精度[7-10]。
呂志遠(yuǎn)等[11]通過(guò)先分類識(shí)別再進(jìn)行目標(biāo)檢測(cè)的級(jí)聯(lián)網(wǎng)絡(luò),實(shí)現(xiàn)檢測(cè)小目標(biāo)與密集型目標(biāo)的任務(wù),模型mAP達(dá)到92.35%,對(duì)比改進(jìn)前YOLOX網(wǎng)絡(luò)提升2.38個(gè)百分點(diǎn)。李天華等[12]采用HSV色域分割方法,對(duì)成熟番茄識(shí)別精度達(dá)到94.77%,較改進(jìn)前YOLOv4模型提升4.3個(gè)百分點(diǎn)。楊堅(jiān)等[13]采用CBAM注意力模塊與YOLOv4-tiny骨干網(wǎng)絡(luò)結(jié)合,加強(qiáng)全局特征融合,識(shí)別平均精度達(dá)到97.9%,較YOLOv3提升30.9個(gè)百分點(diǎn)。何斌等[14]改進(jìn)YOLOv5的損失函數(shù),通過(guò)使用交并比的目標(biāo)位置損失函數(shù),識(shí)別夜間溫室番茄,綜合平均精度達(dá)到97.6%。朱智惟[15]通過(guò)對(duì)原始YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)與NMS極大值抑制進(jìn)行改進(jìn),增加跨層連接,更好地實(shí)現(xiàn)不同層級(jí)間特征融合,使識(shí)別精度達(dá)到97.62%,相較于改進(jìn)前提升2.38%,抓取絕對(duì)誤差不超過(guò)±3 mm。
現(xiàn)有的機(jī)器視覺(jué)技術(shù)側(cè)重目標(biāo)檢測(cè)中識(shí)別率與識(shí)別精度的提升,但對(duì)于攝像頭放置于機(jī)械手上的識(shí)別采摘實(shí)際應(yīng)用而言,檢測(cè)算法更傾向于提升局部范圍內(nèi)當(dāng)前目標(biāo)檢測(cè)識(shí)別預(yù)選框的精度,即目標(biāo)的坐標(biāo)信息精度[16, 17]。在此需求下,應(yīng)尋找一種面向提升局部畫面,確定目標(biāo)坐標(biāo)信息的高精度模型。
本文以番茄果實(shí)為研究對(duì)象,采用改進(jìn)損失函數(shù)和極大抑制相結(jié)合的方法,提出一種基于YOLOv5的番茄采摘機(jī)器人的果實(shí)目標(biāo)識(shí)別算法。通過(guò)融合中心點(diǎn)距離、預(yù)測(cè)框?qū)捀邔?shí)際差值與面積交并比三類損失值,提升預(yù)測(cè)框?qū)嶋H尺寸精度;再引入中心點(diǎn)距離作為懲罰項(xiàng)加權(quán)面積交并比得分,提升小范圍內(nèi)密集目標(biāo)下模型的極大值抑制能力;最后通過(guò)設(shè)置輔助分類頭,降低模型過(guò)擬合風(fēng)險(xiǎn),提升預(yù)測(cè)框中心點(diǎn)坐標(biāo)精度,為非結(jié)構(gòu)環(huán)境下果實(shí)自動(dòng)化采摘提供可靠的視覺(jué)識(shí)別支持。
1 番茄機(jī)器人系統(tǒng)
1.1 采摘機(jī)器人系統(tǒng)結(jié)構(gòu)
番茄采摘系統(tǒng)的設(shè)計(jì)主要方法:(1)通過(guò)深度學(xué)習(xí)方法研究復(fù)雜環(huán)境下番茄檢測(cè)與識(shí)別。(2)通過(guò)深度相機(jī)確定番茄目標(biāo)位置。(3)通過(guò)遠(yuǎn)程監(jiān)控實(shí)時(shí)返回檢測(cè)畫面及監(jiān)測(cè)數(shù)據(jù)。(4)通過(guò)六自由度機(jī)械臂及末端執(zhí)行器完成采摘任務(wù)。針對(duì)上述需求,所設(shè)計(jì)的番茄識(shí)別定位采摘系統(tǒng)主要包括采摘機(jī)器人、深度相機(jī),通信模塊,控制模塊,機(jī)械臂及末端執(zhí)行器,整體系統(tǒng)結(jié)構(gòu)如圖1所示。
采摘機(jī)器人移動(dòng)平臺(tái)采用四輪差動(dòng)復(fù)合機(jī)器人為載體,安裝避障傳感器和激光雷達(dá),以滿足運(yùn)動(dòng)精度要求。移動(dòng)平臺(tái)搭載六自由度機(jī)械臂完成果實(shí)采摘。深度相機(jī)采用Realsense D435i,由一對(duì)立體紅外傳感器、一個(gè)紅外激光發(fā)射器和一個(gè)彩色相機(jī)組成,其中RGB圖像最大幀分辨率為1920像素×1080像素,幀率30 FPS;深度圖像分辨率為1 280像素×720像素,最大幀率90 FPS,最小深度距離10 cm。本次采摘試驗(yàn)兼顧深度信息與色彩信息,因此設(shè)置設(shè)備參數(shù)為分辨率1 280像素×720像素,幀率30 FPS。采摘機(jī)器人技術(shù)參數(shù)主要如表1所示。
整個(gè)系統(tǒng)通過(guò)深度攝像頭確定番茄位置坐標(biāo),移動(dòng)機(jī)器人運(yùn)動(dòng)至合適位置,工控機(jī)計(jì)算機(jī)械臂各關(guān)節(jié)角度并控制運(yùn)動(dòng),最后由末端執(zhí)行器完成番茄的采摘。同時(shí)通過(guò)遠(yuǎn)程監(jiān)控實(shí)時(shí)返回?cái)z像頭視頻輸出,完成對(duì)采摘過(guò)程的可視化監(jiān)控。攝像頭安裝如圖2所示,采摘機(jī)器人系統(tǒng)如圖3所示。
1.2 目標(biāo)識(shí)別及定位算法
考慮到檢測(cè)需求的實(shí)時(shí)性和快速性,番茄識(shí)別基于YOLOv5算法[18]。YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)分為3部分,用于提取圖像特征的骨干網(wǎng)絡(luò)、用于特征融合的特征金字塔和用于對(duì)金字塔特征檢測(cè)的目標(biāo)檢測(cè)頭[19]。
YOLOv5使用CSPDarknet53作為其主干網(wǎng)絡(luò)[20],頭部采用卷積層和池化層,用于預(yù)測(cè)目標(biāo)的類別、位置和置信度。與YOLOv4相比,YOLOv5的頭部網(wǎng)絡(luò)采用更大的感受野和更小的步幅,可以有效提高檢測(cè)的準(zhǔn)確性。此外采用CIoU(Complete Intersection over Union)損失函數(shù),該函數(shù)不僅考慮目標(biāo)框的位置和大小,還計(jì)算目標(biāo)框的形狀影響,可以更準(zhǔn)確地衡量檢測(cè)結(jié)果的好壞。與其他算法相比,YOLOv5具有速度快、精度高、模型輕量級(jí)等特點(diǎn),適合于實(shí)時(shí)處理和輕量級(jí)部署的場(chǎng)景[21-23]。
2 改進(jìn)YOLOv5算法原理和方法
針對(duì)在非結(jié)構(gòu)化場(chǎng)景中番茄生長(zhǎng)狀態(tài)不一、枝葉遮擋等問(wèn)題,本文主要從網(wǎng)絡(luò)模型后處理角度出發(fā),對(duì)YOLOv5算法進(jìn)行針對(duì)性改進(jìn)。
2.1 多因素?fù)p失優(yōu)化
EIoU[24](Efficient Intersection over Union)是一種改進(jìn)的目標(biāo)檢測(cè)損失函數(shù),是在原有的CIoU損失函數(shù)基礎(chǔ)上進(jìn)一步優(yōu)化而來(lái)。EIoU損失函數(shù)在計(jì)算真實(shí)框GT(Ground Truth)與預(yù)測(cè)框BBox(Bounding Box)之間的差異時(shí),即引入距離懲罰項(xiàng),并且又直接考慮邊界框的寬高與其置信度的真實(shí)差異,避免縱橫比對(duì)模型相似性的有效優(yōu)化,從而更準(zhǔn)確地評(píng)估預(yù)測(cè)框的位置和尺寸,原理如圖4所示,紅色部分為預(yù)測(cè)框,綠色為真實(shí)框,藍(lán)色為最小外接矩形。計(jì)算如式(1)所示。該損失函數(shù)包含重疊損失、中心距損失,寬高損失三部分。
LEIoU
=LIoU+Ldis+Lasp
=1-IoU+ρ2(b,bgt)c2+ρ2(w,wgt)C2w
(1)
式中:
LEIoU——EIoU損失值;
LIoU——
預(yù)測(cè)框與真實(shí)框面積交并比損失;
Ldis——
預(yù)測(cè)框與真實(shí)框中心點(diǎn)距離損失值;
Lasp——預(yù)測(cè)框與真實(shí)框方位損失;
IoU——面積交并比;
ρ(·)——預(yù)測(cè)框與真實(shí)框間歐式距離;
b、w、h——預(yù)測(cè)框的中心點(diǎn)和寬高;
bgt、wgt、hgt——真實(shí)框中心點(diǎn)和寬高;
c、Cw、Ch——
覆蓋預(yù)測(cè)框與真實(shí)框的最小外接框的對(duì)角線長(zhǎng)度、寬度和高度。
在計(jì)算過(guò)程中,首先計(jì)算真實(shí)框與預(yù)測(cè)框之間的交集面積和并集面積之間的比值,再加入真實(shí)框和預(yù)選框中心點(diǎn)之間的歐氏距離作為懲罰項(xiàng),最后考慮真實(shí)框和預(yù)選框之間的中心點(diǎn)位置關(guān)系計(jì)算損失值。因此在模型后續(xù)沿?fù)p失值減小方向優(yōu)化過(guò)程中,預(yù)測(cè)框?qū)⒅饾u與真實(shí)框面積重合,中心點(diǎn)距離縮小,形狀相同。
2.2 多目標(biāo)重疊抑制
非極大值抑制NMS(Non-Maximum Suppression)是目標(biāo)檢測(cè)中常用的一種后處理方法,用于去除與同一真實(shí)框匹配的冗余的預(yù)測(cè)框。傳統(tǒng)NMS方法采用不同預(yù)測(cè)框間面積交并比IoU(Intersection over Union)作為衡量?jī)蓚€(gè)檢測(cè)結(jié)果重疊程度的指標(biāo),即當(dāng)兩個(gè)檢測(cè)框的IoU大于某個(gè)閾值時(shí),將得分較低的框去除。
然而,NMS極大值抑制過(guò)程中,若預(yù)測(cè)框中存在多個(gè)真實(shí)框目標(biāo),則該預(yù)測(cè)框和與不同目標(biāo)真實(shí)框匹配的預(yù)測(cè)框間面積重疊值較大,正確的預(yù)測(cè)框可能會(huì)被NMS錯(cuò)誤抑制。針對(duì)此問(wèn)題,不僅需要考慮目標(biāo)框之間的重疊情況,還需要考慮目標(biāo)框之間的中心點(diǎn)距離,才可以更準(zhǔn)確地選擇最終的檢測(cè)結(jié)果。因此,一組預(yù)測(cè)框中,與置信度最高的預(yù)測(cè)框中心點(diǎn)距離越近,則是冗余框的可能性越大,即引入相鄰框的中心距參數(shù),創(chuàng)建新的影響參數(shù)項(xiàng),提高同一預(yù)選框多目標(biāo)情況下的召回率。在計(jì)算過(guò)程中,首先按照置信度對(duì)所有檢測(cè)結(jié)果進(jìn)行排序,從置信度最高的框開(kāi)始,依次遍歷每個(gè)框,將每個(gè)預(yù)測(cè)框與置信度最大的框?qū)Ρ?,得分CDIoU小于一定閾值的框標(biāo)記為冗余框,并從結(jié)果列表中刪除。將被保留下來(lái)的預(yù)測(cè)框作為新的種子框,繼續(xù)進(jìn)行遍歷和刪除操作,直到處理完畢。這種將DIoU(Distance-IoU)的損失算法替換NMS中原有的IoU損失算法即為DIoU-NMS。數(shù)學(xué)模型如(2)式所示。
Si=
SiCDIoUlt;ε
0CDIoU≥ε
(2)
CDIoU=IoU-d2c12β
式中:
Si——遍歷的第i個(gè)預(yù)選框;
CDIoU——DIoU得分;
ε——去除閾值;
d——不同預(yù)測(cè)框的中心點(diǎn)距離;
c1——
覆蓋相鄰兩預(yù)測(cè)框最小外接矩形的對(duì)角線長(zhǎng)度;
β——控制距離懲罰項(xiàng)的懲罰幅度。
這種方式在面對(duì)具有重疊目標(biāo)的情況下,具有較好的效果,可以有效地減少誤判和漏檢,提高目標(biāo)檢測(cè)的精度和魯棒性。如圖5所示,綠色框?yàn)橹眯哦茸畲蟮念A(yù)測(cè)框,藍(lán)色框?yàn)榭赡艿娜哂囝A(yù)測(cè)框,三種情況下冗余預(yù)測(cè)框與置信度最大的預(yù)測(cè)框面積交并比相同,無(wú)法通過(guò)IoU閾值去除三者中的冗余框,引入中心距項(xiàng)后,IoU得分排序?yàn)锽gt;Agt;C,這時(shí)再合理設(shè)置閾值即可去除冗余預(yù)測(cè)框C,AB則表示所預(yù)測(cè)的物體與綠色預(yù)選框預(yù)測(cè)的物體重合。
2.3 多輸出頭輔助
在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,為了讓中間層學(xué)到更多的信息,從而具有豐富的梯度信息,將網(wǎng)絡(luò)訓(xùn)練得更好,提高模型的精度。本文選擇在頭部網(wǎng)絡(luò)的倒數(shù)第二次和倒數(shù)第三層添加輔助訓(xùn)練頭。這些概率值可以用特定的損失函數(shù)來(lái)計(jì)算分類損失,并且可以在反向傳播中以一定的權(quán)重更新模型參數(shù)與主模型的損失函數(shù)共同訓(xùn)練模型。另外,每個(gè)輔助頭對(duì)應(yīng)一個(gè)不同的特征圖尺寸,并負(fù)責(zé)識(shí)別不同大小的物體。這樣輔助頭可以為模型提供更多的信息,增強(qiáng)模型對(duì)同幅畫面中大小不一的物體檢測(cè)準(zhǔn)確性??偟膩?lái)說(shuō),輔助頭可以提高模型的精度,使得模型更好地適應(yīng)不同的數(shù)據(jù)集和場(chǎng)景。
為了更好地介紹輔助頭技術(shù)路線,將原本的檢測(cè)頭稱為引導(dǎo)頭。引導(dǎo)頭導(dǎo)向標(biāo)簽器是根據(jù)引導(dǎo)頭的預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽進(jìn)行損失計(jì)算,通過(guò)優(yōu)化生成軟標(biāo)簽。由于標(biāo)簽更能代表源數(shù)據(jù)與目標(biāo)數(shù)據(jù)的相關(guān)性,此時(shí)生成的軟標(biāo)簽將作為輔助頭和引導(dǎo)頭后續(xù)的目標(biāo)訓(xùn)練模型。此外,因?yàn)檩o助頭學(xué)習(xí)能力低,為了避免丟失信息,在檢測(cè)任務(wù)中重點(diǎn)提升輔助頭的召回率,引導(dǎo)頭將從召回的結(jié)果中選擇高精度結(jié)果作為輸出結(jié)果。在此過(guò)程中,輔助頭和引導(dǎo)頭的權(quán)重比需要額外注意,本試驗(yàn)設(shè)置成1∶0.25。其損失融合的數(shù)學(xué)模型如式(3)所示。
l=lp+λ×lr
(3)
式中:
l——軟標(biāo)簽最終損失值;
λ——粗標(biāo)簽權(quán)重系數(shù);
lp——細(xì)標(biāo)簽損失值;
lr——粗標(biāo)簽損失值。
根據(jù)改進(jìn)方法,提高YOLOv5算法在實(shí)際應(yīng)用中的魯棒性,更加適合于番茄生長(zhǎng)狀態(tài)不一、枝葉遮擋等復(fù)雜場(chǎng)景下的目標(biāo)檢測(cè)任務(wù),改進(jìn)后整體網(wǎng)絡(luò)模型如圖6所示。
3 試驗(yàn)結(jié)果與分析
3.1 識(shí)別試驗(yàn)準(zhǔn)備
模型訓(xùn)練的數(shù)據(jù)集采用不同遮擋程度、不同識(shí)別角度,不同成熟度的800張的番茄圖像集,使用Labelimg進(jìn)行手動(dòng)標(biāo)注成YOLO所需txt格式的標(biāo)簽,制作而成。之后將數(shù)據(jù)集中的圖像和標(biāo)簽按照8∶2方式隨機(jī)劃分為訓(xùn)練集和驗(yàn)證集。
本試驗(yàn)示意如圖7所示,采摘機(jī)器人依次經(jīng)過(guò)四個(gè)采摘點(diǎn)。擬抓取試驗(yàn)場(chǎng)地如圖8所示,設(shè)置四株番茄樹采摘點(diǎn),田間寬度1.8 m,作物生長(zhǎng)高度0.8~1.5 m,每棵樹上包含遮擋程度不同的目標(biāo)8~15顆,模擬如圖9所示的實(shí)際采摘效果。本試驗(yàn)軟件環(huán)境采用python3.8版本、pytorch1.10.0深度學(xué)習(xí)框架,CUDA10.2版本。超參數(shù)設(shè)置為:預(yù)訓(xùn)練權(quán)重使用yolov5s.pt;最大迭代次數(shù)100次;批次尺寸(batchsize)設(shè)置為16張;學(xué)習(xí)率為0.001。
由于在圖片讀取后,主干網(wǎng)絡(luò)經(jīng)過(guò)focus模塊及一個(gè)卷積操作后又通過(guò)4個(gè)C3模塊由淺到深逐層提取特征圖,每次特征提取操作將圖片寬高尺寸各減小原來(lái)的一半,最小圖像減少至原圖1/32,因此主干網(wǎng)絡(luò)輸入圖像尺寸應(yīng)為32的整數(shù)倍,默認(rèn)為640像素×640像素。通過(guò)長(zhǎng)度寬度等比縮放再填充計(jì)算實(shí)現(xiàn),長(zhǎng)度1 280像素×640像素/1 280像素=640像素,寬度720像素×640像素/1 280像素=360像素,之后寬度由360像素填充至640像素,形成640像素×640像素尺寸的圖片。
同時(shí),為了驗(yàn)證在不同定位精度損失函數(shù)下,損失值的收斂情況。本試驗(yàn)同時(shí)對(duì)比CIoU(Complete Intersection over Union)[25]、SIoU(Scylla Intersection over Union)[26]、GIoU(Generalized Intersection over Union)[27]、EIoU(Efficient Intersection over Union)、Focal EIoU(Focal and Efficient Intersection over Union)、WIoU(Wise Intersection over Union)[28]六種損失函數(shù)在相同數(shù)據(jù)集上的情況,主要對(duì)比參數(shù)為損失值、收斂時(shí)間、召回率與全類平均精度。其中圖10損失值為整體回歸損失值,損失值內(nèi)容包括邊框回歸損失,類別損失與置信度損失,分別代表預(yù)測(cè)框定位精度與預(yù)測(cè)框分類精度。
Loss=Llocalization+LClass+Cprediction
式中:
Loss——總損失值;
Llocalization——定位損失;
LClass——類別損失;
Cprediction——精度損失。
召回率為被精準(zhǔn)識(shí)別出的番茄與全部番茄的數(shù)量比,計(jì)算如式(4)所示。
R=TpTp+Fn
(4)
式中:
R——召回率;
Tp——
標(biāo)簽為番茄的目標(biāo)被識(shí)別成番茄是樣本數(shù)量;
Fn——
標(biāo)簽為番茄的目標(biāo)沒(méi)有別識(shí)別成番茄的樣本數(shù)量。
全類平均精度為模型不同類別上的精度進(jìn)行綜合評(píng)估的指標(biāo),計(jì)算如式(5)所示。
mAP=1m∑m-1i=0
∑n-1j=1
(Rj+1-Rj)×
max[P(Rj+1),P(Rj)]i
(5)
P(R)=TpTp+Fp
式中:
Fp——
將背景識(shí)別為番茄的預(yù)測(cè)框數(shù)量;
P(R)——
在召回率為R的情況下的識(shí)別精度;
Rj——
為對(duì)召回率等距取n個(gè)插值中,第j個(gè)召回率的數(shù)值;
m——數(shù)據(jù)集類別數(shù)量。
3.2 模型訓(xùn)練結(jié)果分析
將不同角度和遮擋程度的番茄按照有無(wú)遮擋和單果多果將數(shù)據(jù)集劃分四類,其模型訓(xùn)練結(jié)果分別如圖11所示,當(dāng)單果無(wú)遮擋時(shí),識(shí)別置信度最高,當(dāng)多果且有遮擋時(shí),識(shí)別置信度最低,即多果有遮擋識(shí)別難度最高。
經(jīng)過(guò)YOLOv5s網(wǎng)絡(luò)模型訓(xùn)練后,不同損失函數(shù)的損失值對(duì)比如圖11所示。由圖可得在整個(gè)迭代過(guò)程中損失值有小幅度波動(dòng),但總體仍呈下降趨勢(shì),說(shuō)明各類損失函數(shù)都可使模型收斂。在前20次迭代過(guò)程中,各類損失函數(shù)中損失值均下降迅速,損失值范圍減小至0.04以下。在后80次迭代過(guò)程中,各損失函數(shù)的損失值下降較為平緩,損失值均縮小至0.035以下。
具體來(lái)看,EIoU最初計(jì)算出的損失值最大,其次是GIoU,而SIoU、CIoU、FocusEIoU三者初始損失值大小相差無(wú)幾均為最小。后續(xù)迭代過(guò)程中EIoU損失值下降最多為0.071,CIoU損失值下降最少為0.04。綜上所述,EIoU在損失計(jì)算過(guò)程中考慮因素較多初始計(jì)算出的損失值最大,同時(shí)收斂性較強(qiáng),損失下降差值最大。
本試驗(yàn)采用檢測(cè)時(shí)間t;召回率Recall;全類平均精度mAP作為采用不同損失函數(shù)模型的主要的評(píng)價(jià)指標(biāo)。其分別代表檢測(cè)單張圖像的平均耗時(shí),實(shí)際目標(biāo)中被認(rèn)為是目標(biāo)概率及被認(rèn)為是目標(biāo)中實(shí)際目標(biāo)的概率。由表2可知,檢測(cè)速度最快為SIoU和FocusEIoU,均為每幅圖9.6 ms,檢測(cè)時(shí)間最慢的為CIoU,為每幅圖11.5 ms。精度最高為EIoU(95.6%)與CIoU、SIoU、GIoU、FocalEIoU、WIoU函數(shù)相比精度提升0.4、0.8、1.4、1、1.4個(gè)百分點(diǎn)。召回率最高為FocusEIoU,但是相較于EIoU其精度卻下降0.9個(gè)百分點(diǎn)。說(shuō)明對(duì)于本試驗(yàn)的數(shù)據(jù)集,雖然FocusEIoU讓精度最高的EIoU的檢測(cè)速度和召回率有一定提升,但代價(jià)卻是降低1個(gè)百分比。因此綜合各方面分析,采用EIoU時(shí),運(yùn)行速度較快且召回率也較高,識(shí)別精度最高,對(duì)于番茄數(shù)據(jù)目標(biāo)預(yù)測(cè)率提高,最終使得精度提高。
之后對(duì)模型的極大值抑制方法進(jìn)行改進(jìn)添加輔助訓(xùn)練頭機(jī)制,改進(jìn)前后識(shí)別效果如圖12所示。
綠色邊框?yàn)樽R(shí)別正確的邊框,藍(lán)色為錯(cuò)誤邊框,紅色為漏檢的邊框。在紅色邊框處,原本番茄的枝葉遮擋率過(guò)高或者果實(shí)重疊無(wú)法識(shí)別,在提取特征數(shù)量不變的情況下,通過(guò)添加輔助訓(xùn)練頭和改進(jìn)損失函數(shù)方式,增強(qiáng)模型的特征分類處理能力,從而提高識(shí)別精度。另外在藍(lán)色部分,其與周圍預(yù)選框交并比值很大,無(wú)法被極大值抑制。使用距離極大值抑制方法(DIoU-NMS)后,引入不同預(yù)選框的中心點(diǎn)距離作為懲罰項(xiàng),降低藍(lán)色邊框得分后便可成功將其抑制。最后,對(duì)比改進(jìn)前后綠色邊框,在改進(jìn)后的邊框面積更小,更加貼合番茄輪廓,在返回番茄中心點(diǎn)坐標(biāo)時(shí)精確度更高,更利于番茄的采摘。
由表3可知,對(duì)比改進(jìn)前后模型的檢測(cè)指標(biāo)可得:由于添加輔助頭訓(xùn)練,單張圖像預(yù)測(cè)時(shí)間增加1.2 ms,召回率提升0.4個(gè)百分點(diǎn),全類精度提升0.4個(gè)百分點(diǎn)??傮w精度上升,模型擁有更好的魯棒性,改進(jìn)后模型精度如圖13所示。
3.3 實(shí)際應(yīng)用結(jié)果分析
為防止模型訓(xùn)練過(guò)程中過(guò)擬合,先將訓(xùn)練好的模型用于識(shí)別實(shí)驗(yàn)室番茄,具體效果如圖14所示,針對(duì)訓(xùn)練過(guò)程中提出的枝葉遮擋與果實(shí)重疊問(wèn)題有較好地處理性。
圖15展示了采摘機(jī)器人試驗(yàn)過(guò)程,上位機(jī)顯示抓取畫面如圖15(a)、圖15(b)所示,左上角顯示識(shí)別信息,左下角顯示機(jī)械臂抓取信息,右側(cè)顯示深度相機(jī)返回圖像信息。其中包含識(shí)別目標(biāo)的三維坐標(biāo)信息,具體坐標(biāo)值再結(jié)合深度相機(jī)內(nèi)置矩陣和像素坐標(biāo)計(jì)算得出,抓取效果如圖15(c)、圖15(d)所示。
3.4 結(jié)果誤差分析
根據(jù)試驗(yàn)結(jié)果,在采摘過(guò)程中存在不完全抓取,抓取不牢的情況,圖16(a)表示抓取部位過(guò)少,果實(shí)彈出末端執(zhí)行器受力范圍,導(dǎo)致抓取失敗,圖16(b)所示雖可正常采摘但是果實(shí)受力點(diǎn)分布不均,導(dǎo)致采摘時(shí)果實(shí)破損。經(jīng)分析誤差產(chǎn)生首先來(lái)源于機(jī)械臂及運(yùn)動(dòng)部分采摘開(kāi)始時(shí),所處的初始位置,機(jī)械臂及深度相機(jī)坐標(biāo)較原始坐標(biāo)有偏差,使得識(shí)別結(jié)果坐標(biāo)轉(zhuǎn)換為采摘坐標(biāo)時(shí)出現(xiàn)偏移。其次算法部署時(shí)識(shí)別幀率不足,在抓取前由風(fēng)吹等因素干擾果實(shí)識(shí)別位置時(shí),抓取坐標(biāo)實(shí)時(shí)更新性差。
4 結(jié)論
本文以非結(jié)構(gòu)化環(huán)境下番茄果實(shí)為研究對(duì)象,對(duì)番茄采摘機(jī)器人目標(biāo)果實(shí)進(jìn)行圖像識(shí)別,提出一種應(yīng)用于番茄采摘機(jī)器人采摘技術(shù)的果實(shí)目標(biāo)識(shí)別與檢測(cè)方法,解決非結(jié)構(gòu)環(huán)境下番茄果實(shí)目標(biāo)識(shí)別精度低的問(wèn)題,有效提高受枝葉遮擋,果實(shí)重疊等因素干擾的果實(shí)目標(biāo)識(shí)別精度。
1) 針對(duì)番茄識(shí)別采摘存在的果實(shí)遮擋及識(shí)別定位不準(zhǔn)的問(wèn)題,本文提出改進(jìn)YOLOv5識(shí)別算法,通過(guò)添加輔助訓(xùn)練頭、改進(jìn)損失函數(shù)與極大抑制方法,讓模型產(chǎn)生的預(yù)測(cè)框更加貼合番茄輪廓,解決成串番茄相互遮擋,預(yù)測(cè)框錯(cuò)誤抑制的問(wèn)題,提高番茄的位置信息精度。對(duì)比改進(jìn)前后模型的性能指標(biāo),改進(jìn)后的模型召回率Recall和全類精度mAP達(dá)到90.1%和95.6%,分別提升0.4和0.4個(gè)百分點(diǎn),可以滿足抓取需求。
2) 對(duì)比多種不同損失函數(shù),采用EIoU損失情況的模型精度與速度綜合屬性最好,與采用CIoU損失的模型相比,檢測(cè)平均速度、召回率與全類平均精度三項(xiàng)指標(biāo)均有明顯增強(qiáng),提高采摘機(jī)器人在工作過(guò)程中的精度與速度。
3) 在實(shí)驗(yàn)室進(jìn)行模擬環(huán)境中機(jī)器人的采摘試驗(yàn),驗(yàn)證改進(jìn)模型能夠應(yīng)用于采摘機(jī)器人并準(zhǔn)確實(shí)現(xiàn)采摘功能的技術(shù)可實(shí)現(xiàn)性,突破設(shè)施環(huán)境中復(fù)雜情況下的部分條件制約,滿足番茄采摘機(jī)器人的采摘識(shí)別需求。
參 考 文 獻(xiàn)
[1] 賈玉琴. 甘肅省設(shè)施農(nóng)業(yè)和蔬菜產(chǎn)業(yè)的發(fā)展現(xiàn)狀、潛力與對(duì)策分析[J]. 中國(guó)瓜菜, 2023, 36(9): 144-150.
Jia Yuqin. Development status, potential and countermeasure analysis of facility agriculture and vegetable industry in Gansu [J]. China Cucurbits and Vegetables, 2023, 36(9): 144-150.
[2] 趙敬, 楊化偉, 劉光輝, 等. 我國(guó)果蔬采摘機(jī)器人技術(shù)發(fā)展現(xiàn)狀及展望[J]. 農(nóng)業(yè)裝備與車輛工程, 2023, 61(7): 23-28.
Zhao Jing, Yang Huawei, Liu Guanghui, et al. Development status and prospects of fruit and vegetable picking robots technology in China[J].Agricultural Equipment amp; Vehicle Engineering, 2023, 61(7): 23-28.
[3] 戴軍. 機(jī)器視覺(jué)技術(shù)在瓜菜檢測(cè)應(yīng)用中的研究進(jìn)展[J]. 中國(guó)瓜菜, 2023, 36(11): 1-9.
Dai Jun. Research progress of machine vision technology in the detection of cucurbits and vegetables [J]. China Cucurbits and Vegetables, 2023, 36(11): 1-9.
[4] 馮俊惠, 李志偉, 戎有麗, 等. 基于改進(jìn)Hough圓變換算法的成熟番茄果實(shí)識(shí)別[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào), 2021, 42(4): 190-196.
Feng Junhui, Li Zhiwei, Rong Youli, et al. Identification of mature tomatoes based on an algorithm of modified circu-lar Hough transform [J]. Journal of Chinese Agricultural Mechanization, 2021, 42(4): 190-196.
[5] 金超杞, 梁喜鳳, 章艷, 等. 基于Matlab的番茄果實(shí)串檢測(cè)提?。跩]. 江蘇農(nóng)業(yè)科學(xué), 2018, 46(8): 209-211.
Jin Chaoqi, Liang Xifeng, Zhang Yan, et al. Tomato fruit string detection and extraction based on Matlab [J] Jiangsu Agricultural Science, 2018, 46 (8): 209-211.
[6] 梁曉婷, 龐琦, 楊一, 等. 基于YOLOv4模型剪枝的番茄缺陷在線檢測(cè)[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2022, 38(6): 283-292.
Liang Xiaoting, Pang Qi, Yang Yi, et al. Online detection of tomato defects based on YOLOv4 model pruning [J]. Transactions of the Chinese Society of Agricultural Engineering, 2022, 38(6): 283-292.
[7] Bhagya C, Shyna A. An overview of deep learning based object detection techniques [C]. 2019 1st International Conference on Innovations in Information and Communication Technology (ICIICT). IEEE, 2019: 1-6.
[8] Jiao L, Zhang F, Liu F, et al. A survey of deep learning-based object detection[J]. IEEE access, 2019, 7: 128837-128868.
[9] Hary C, Mandala S. Object detection analysis study in images based on deep learning algorithm [C]. 2022 International Conference on Data Science and Its Applications (ICoDSA). IEEE, 2022: 226-231.
[10] Zhou Mingzhe. Research advanced in deep learning object detection [C]. 2022 IEEE Conference on Telecommunications, Optics and Computer Science (TOCS), Dalian, China, 2022: 1318-1322.
[11] 呂志遠(yuǎn), 張付杰, 魏曉明, 等. 采用組合增強(qiáng)的YOLOX-ViT協(xié)同識(shí)別溫室內(nèi)番茄花果[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2023, 39(4): 124-134.
Lü Zhiyuan, Zhang Fujie, Wei Xiaoming, et al. Synergistic recognition of tomato flowers and fruits in greenhouse using combination enhancement of YOLOX-ViT [J]. Transactions of the Chinese Society of Agricultural Engineering, 2023, 39(4): 124-134.
[12] 李天華, 孫萌, 丁小明, 等. 基于YOLO v4+HSV的成熟期番茄識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2021, 37(21): 183-190.
Li Tianhua, Sun Meng, Ding Xiaoming, et al. Tomato recognition method at the ripening stage based on YOLO v4 and HSV [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(21): 183-190.
[13] 楊堅(jiān), 錢振, 張燕軍, 等. 采用改進(jìn)YOLOv4-tiny的復(fù)雜環(huán)境下番茄實(shí)時(shí)識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2022, 38(9): 215-221.
Yang Jian, Qian Zhen, Zhang Yanjun, et al. Real-time recognition of tomatoes in complex environments based on improved YOLOv4-tiny [J]. Transactions of the Chinese Society of Agricultural Engineering, 2022, 38(9): 215-221.
[14] 何斌, 張亦博, 龔健林, 等. 基于改進(jìn)YOLO v5的夜間溫室番茄果實(shí)快速識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2022, 53(5): 201-208.
He Bin, Zhang Yibo, Gong Jianlin, et al. Fast recognition of tomato fruit in greenhouse at night based on improved YOLO v5 [J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(5): 201-208.
[15] 朱智惟. 番茄采摘機(jī)器人果實(shí)識(shí)別與定位技術(shù)研究[D]. 合肥: 合肥工業(yè)大學(xué), 2022.
Zhu Zhiwei. Tomato picking robot fruit recognition and positioning technology research [D]. Hefei: Hefei University of Technology, 2022.
[16] 王海楠, 弋景剛, 張秀花. 番茄采摘機(jī)器人識(shí)別與定位技術(shù)研究進(jìn)展[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào), 2020, 41(5): 188-196.
Wang Hainan, Yi Jinggang, Zhang Xiuhua, et al. Research progress on recognition and localization technology of tomato picking robot [J]. Journal of Chinese Agricultural Mechanization, 2020, 41(5): 188-196.
[17] Han W, Hao W, Sun J, et al. Tomatoes maturity detection approach based on YOLOv5 and attention mechanisms [C]. 2022 IEEE 4th International Conference on Civil Aviation Safety and Information Technology (ICCASIT). IEEE, 2022: 1363-1371.
[18] 代國(guó)威, 樊景超, 胡林. 采用天氣增強(qiáng)與八度卷積改進(jìn)YOLOv5的番茄檢測(cè)模型構(gòu)建[J]. 山東農(nóng)業(yè)科學(xué), 2022, 54(11): 138-149.
Dai Guowei, Fan Jingchao, Hu Lin. Improved tomato detection model construction based on YOLOv5 using weather augmentation and octave convolution [J]. Shandong Agricultural Sciences, 2022, 54(11): 138-149.
[19] 郎松, 曹選, 張艷微, 等. 融合改進(jìn)YOLOv5算法的圖像全站儀全自動(dòng)測(cè)量方法[J]. 儀器儀表學(xué)報(bào), 2022, 43(5): 120-127.
Lang Song, Cao Xuan, Zhang Yanwei, et al. Fully automated measurement method of image total station based on the improved YOLOv5 algorithm [J]. Chinese Journal of Scientific Instrument, 2022, 43(5): 120-127.
[20] 彭繼慎, 孫禮鑫, 王凱, 等. 基于模型壓縮的ED-YOLO電力巡檢無(wú)人機(jī)避障目標(biāo)檢測(cè)算法[J]. 儀器儀表學(xué)報(bào), 2021, 42(10): 161-170.
Peng Jishen, Sun Lixin, Wang Kai, et al. ED-YOLO power inspection UAV obstacle avoidance target detection algorithm based on model compression [J]. Chinese Journal of Scientific Instrument, 2021, 42(10): 161-170.
[21] Hao K, Chen G, Zhao L, et al. An insulator defect detection model in aerial images based on multiscale feature pyramid network [J]. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 1-12.
[22] Khalfaoui A, Badri A, Mourabit I E L. Comparative study of YOLOv3 and YOLOv5’s performances for real-time person detection [C]. 2022 2nd International Conference on Innovative Research in Applied Science, Engineering and Technology (IRASET). IEEE, 2022: 1-5.
[23] Li B, Hou Y, Che W. Data augmentation approaches in natural language processing: A survey [J]. Ai Open, 2022, 3: 71-90.
[24] Zhang Y F, Ren W, Zhang Z, et al. Focal and efficient IOU loss for accurate bounding box regression [J]. Neurocomputing, 2022, 506: 146-157.
[25] Zheng Z, Wang P, Ren D, et al. Enhancing geometric factors in model learning and inference for object detection and instance segmentation [J]. IEEE Transactions on Cybernetics, 2021, 52(8): 8574-8586.
[26] Loss G Z S I U. More powerful learning for bounding box regression [J]. arXiv Preprint arXiv: 2205.12740, 2022.
[27] Rezatofighi H, Tsoi N, Gwak J Y, et al. Generalized intersection over union: A metric and a loss for bounding box regression [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 658-666.
[28] Tong Z, Chen Y, Xu Z, et al. Wise-IoU:bounding box regression loss with dynamic focusing mechanism. arXiv 2023[J]. arXiv preprint arXiv:2301.10051.
中國(guó)農(nóng)機(jī)化學(xué)報(bào)2024年4期