收稿日期:2024-08-23
基金項(xiàng)目:安徽省高校自然科學(xué)研究重點(diǎn)項(xiàng)目(KJ2020A0106);安徽省重大科技專項(xiàng)(202103b06020013);安徽省大學(xué)生創(chuàng)新創(chuàng)業(yè)計(jì)劃項(xiàng)目(S202310364126)
作者簡(jiǎn)介:施武(2004-),男,安徽六安人,本科,研究方向?yàn)橛?jì)算機(jī)視覺(jué)。(Tel)15656038325;(E-mail)wshi@stu.ahau.edu.cn
通訊作者:許高建,(E-mail)xugj@ahau.edu.cn
摘要:茶樹(shù)嫩芽茶梗識(shí)別對(duì)實(shí)現(xiàn)茶葉采摘的自動(dòng)化和智能化具有重要意義。然而,現(xiàn)有的目標(biāo)檢測(cè)算法檢測(cè)茶樹(shù)嫩芽茶梗存在精度較低、計(jì)算量大、模型體積龐大等問(wèn)題,限制了其在終端設(shè)備上的部署。因此,本研究基于YOLOv8n-seg模型,提出一種輕量化的茶樹(shù)嫩芽茶梗識(shí)別模型YOLOv8n-seg-VLS,并在以下3個(gè)方面進(jìn)行了改進(jìn):引入VanillaNet輕量化模塊替代原有卷積層,以降低模型的復(fù)雜程度;在頸部引入大型可分離核注意力模塊(LSKA),以降低存儲(chǔ)量和計(jì)算資源消耗;將YOLOv8的損失函數(shù)從中心點(diǎn)與邊界框的重疊聯(lián)合(CIoU)替換為邊界框自身形狀與自身尺度之間的損失(Shape-IoU),從而提高邊界框的定位精度。在采集的茶葉數(shù)據(jù)集上進(jìn)行測(cè)試,結(jié)果表明,改進(jìn)后獲得的YOLOv8n-seg-VLS模型的平均精度值(mAP)方面表現(xiàn)較好,交并比閾值為0.50的平均精度值(mAP0.50)為94.02%,交并比閾值為0.50至0.95的平均精度值(mAP0.50∶0.95)為62.34%;模型的準(zhǔn)確度(P)為90.08%,召回率(R)為89.96%;改進(jìn)模型的每秒傳輸幀數(shù)(FPS)為245.20幀,模型的大小為3.92MB,僅為YOLOv8n-seg大小的57.39%。研究結(jié)果為后續(xù)茶葉智能化采摘裝備的研發(fā)提供了技術(shù)支持。
關(guān)鍵詞:圖像識(shí)別;茶葉采摘;輕量化模型;YOLOv8n-seg;VanillaNet
中圖分類號(hào):TP212;S571.1文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1000-4440(2025)01-0075-12
AlightweightmodelforidentifyingthestalksofteabudsbasedontheimprovedYOLOv8n-seg
SHIWu,YUANWeihao,YANGMengdao,XUGaojian
(SchoolofInformationandArtificialIntelligence,AnhuiAgriculturalUniversity,Hefei230036,China)
Abstract:Identifyingthestalksofteabudsisofgreatsignificanceforachievingautomatedandintelligentteapicking.However,existingobjectdetectionalgorithmsfacesignificantchallengesintermsoflowdetectionaccuracy,highcomputationaldemands,andlargemodelsizes,whichcollectivelylimittheirdeploymentonedgedevices.Toaddressthesechallenges,weproposedalightweightteastalkdetectionmodel,YOLOv8n-seg-VLS,whichwasbasedontheYOLOv8n-segframework.Themodelincorporatedthreesignificantenhancements.First,theVanillaNetlightweightmodulewasintroducedtoreplacetraditionalconvolutionallayers,therebyreducingthemodel’scomplexity.Second,alargeseparablekernelattention(LSKA)modulewasincorporatedintothenecksectionofthenetworktominimizememoryusageandresourceconsumption.Third,thelossfunctionofYOLOv8wasmodifiedfromcenterintersectionoverunion(CIoU)toshape-andscale-awareintersectionoverunion(Shape-IoU),therebyenhancingtheprecisionofboundingboxlocalization.TheexperimentalresultsonacollectedteadatasetdemonstratedthatYOLOv8n-seg-VLSachievedameanaverageprecision(mAP)of94.02%atmAP0.50and62.34%atmAP0.50∶0.95,withaprecisionof90.08%andarecallof89.96%.IncomparisontotheoriginalYOLOv8n-seg,theproposedmodeldemonstratedanimprovementinframerate,reaching245.20framespersecond(FPS).Moreover,themodelsizewas3.92MB,whichwasonly57.39%ofthesizeofYOLOv8n-seg.Theseresultsprovidetechnicalsupportforfurtherdevelopmentofintelligentteaharvestingequipment.
Keywords:imagerecognition;teaharvesting;lightweightmodel;YOLOv8n-seg;VanillaNet
茶葉產(chǎn)業(yè)作為農(nóng)業(yè)經(jīng)濟(jì)的重要組成部分,在推動(dòng)農(nóng)村發(fā)展和扶貧方面發(fā)揮著至關(guān)重要的作用。隨著茶葉產(chǎn)量的提升,采摘難度也相應(yīng)增加。目前,茶樹(shù)嫩芽的采摘主要依賴人工[1],這一過(guò)程既費(fèi)時(shí)又費(fèi)力。盡管手工采摘能夠確保茶芽的高質(zhì)量和高完整率,但其高成本、低效率以及錯(cuò)過(guò)最佳采摘時(shí)機(jī)的問(wèn)題使對(duì)機(jī)械化采摘的研究成為必要。傳統(tǒng)機(jī)械化采摘因識(shí)別精度不高,導(dǎo)致嫩芽完整率偏低。為提升采摘效率和茶芽完整性,集成視覺(jué)識(shí)別和精細(xì)操作的智能采茶機(jī)器人已成為學(xué)術(shù)界和產(chǎn)業(yè)界廣泛關(guān)注的研究熱點(diǎn)[2]。
在智能采茶機(jī)器人系統(tǒng)中,準(zhǔn)確識(shí)別茶葉采摘點(diǎn)是高效且高質(zhì)量采摘的關(guān)鍵。隨著計(jì)算機(jī)視覺(jué)技術(shù)的興起,科研工作者越來(lái)越多地將其應(yīng)用于茶樹(shù)嫩芽的采摘中。計(jì)算機(jī)視覺(jué)技術(shù)在嫩芽采摘中的應(yīng)用主要經(jīng)歷了2個(gè)階段:傳統(tǒng)圖像識(shí)別階段和深度學(xué)習(xí)階段。在傳統(tǒng)圖像識(shí)別階段,裴偉等[3]、邵佩迪等[4]、張博[5]使用閾值分割法直接分割出茶樹(shù)嫩芽整體圖像,并使用最小外包斜矩形的中心點(diǎn)來(lái)替代茶葉的位置。這種方法雖然簡(jiǎn)單,但采摘點(diǎn)可能定位在嫩芽或者空隙中,不宜用于需要精細(xì)定位的采摘末端執(zhí)行器。羅坤等[6]針對(duì)人工采摘困難和專用采摘器缺乏的問(wèn)題,設(shè)計(jì)了低振動(dòng)、準(zhǔn)確采摘的捏切組合式采摘器。以符合茶園嫩梢采摘的要求。龍樟等[7]利用邊緣檢測(cè)的結(jié)果進(jìn)行最小外接矩形提取,結(jié)合骨架化處理找到茶樹(shù)嫩芽的最低采摘點(diǎn),但這種算法在不同尺度的嫩芽的采摘中表現(xiàn)不佳。
有關(guān)深度學(xué)習(xí)的研究也取得了諸多成果。李翰林等[8]提出一種基于實(shí)例分割的YOLOv5s-seg改進(jìn)算法來(lái)實(shí)現(xiàn)野外自然光照環(huán)境下嫩芽輪廓的提取,根據(jù)嫩芽輪廓特征進(jìn)行采摘點(diǎn)的準(zhǔn)確定位。改進(jìn)后的模型mAP0.50(交并比閾值為0.50的平均精度值)和mAP0.50∶0.95(交并比閾值為0.50至0.95的平均精度值)分別提高了8.3個(gè)和7.3個(gè)百分點(diǎn)。呂軍等[9]基于YOLOv5識(shí)別模型,計(jì)算嫩芽圖像的平均灰度值并進(jìn)行亮度自適應(yīng)校正,提升了在不同光照條件下的識(shí)別精度。楊大勇等[10]基于YOLOv8n模型,在主干網(wǎng)絡(luò)中引入動(dòng)態(tài)蛇形卷積,并將頸部的路徑聚合網(wǎng)絡(luò)替換為加權(quán)雙向特征金字塔網(wǎng)絡(luò),提高了模型對(duì)茶葉嫩梢的識(shí)別率。Shuai等[11]使用基于容積擴(kuò)展的上采樣算子(CARAFFE)完成茶芽的上采樣操作,并引入卷積注意力機(jī)制模塊(CBAM),從而在通道和空間2個(gè)維度上提高模型對(duì)茶樹(shù)嫩芽和關(guān)鍵點(diǎn)檢測(cè)的平均精度值(mAP)。Wang等[12]提出了一種基于R-CNN及Mask-RCNN的茶葉采摘點(diǎn)定位方法,通過(guò)殘差網(wǎng)絡(luò)(ResNet)和特征金字塔(FPN)進(jìn)行特征提取,并通過(guò)區(qū)域提議網(wǎng)絡(luò)(RPN)進(jìn)行特征初步分類和候選框回歸訓(xùn)練。Yan等[13]在Mask-R-CNN中擴(kuò)展了掩碼(Mask)分支,通過(guò)計(jì)算多個(gè)連通域的面積來(lái)識(shí)別茶梢的主體部分,通過(guò)計(jì)算主體部分的最小外接矩形來(lái)確定茶梢軸線,進(jìn)而獲得采摘點(diǎn)坐標(biāo)位置。Xu等[14]利用YOLOv8進(jìn)行茶葉檢測(cè),并通過(guò)開(kāi)源計(jì)算機(jī)視覺(jué)庫(kù)(OpenCV)進(jìn)行紅綠藍(lán)-色調(diào)飽和度明度(RGB-HSV)顏色轉(zhuǎn)換得到茶葉輪廓,最后通過(guò)形態(tài)學(xué)算法進(jìn)行關(guān)鍵點(diǎn)選取和定位。
目前,茶樹(shù)嫩芽采摘點(diǎn)的定位方法大多采用傳統(tǒng)圖像處理方法與深度學(xué)習(xí)相結(jié)合,主要存在以下不足:識(shí)別精度低,檢測(cè)速度慢,計(jì)算量大,不利于終端部署等問(wèn)題。然而,準(zhǔn)確識(shí)別茶樹(shù)嫩芽茶梗分割區(qū)域?qū)τ谥悄芑枞~采摘至關(guān)重要。研究結(jié)果表明,可通過(guò)雙目相機(jī)獲取左右圖像,然后利用立體匹配算法計(jì)算深度信息,再通過(guò)對(duì)比茶樹(shù)嫩芽識(shí)別框的二維坐標(biāo)與茶梗分割區(qū)域的坐標(biāo)點(diǎn),逐一對(duì)比得到交界點(diǎn),并結(jié)合深度信息獲得茶葉采摘點(diǎn)的三維坐標(biāo)[15]。這一過(guò)程中,準(zhǔn)確識(shí)別茶梗分割區(qū)域是獲得精確采摘點(diǎn)坐標(biāo)的關(guān)鍵步驟。
鑒于此,本研究擬以茶樹(shù)嫩芽茶梗為研究對(duì)象,設(shè)計(jì)一種基于YOLOv8n-seg的輕量級(jí)茶樹(shù)嫩芽茶梗識(shí)別模型,為智能化采摘提供參考。
1材料與方法
1.1數(shù)據(jù)采集
本研究數(shù)據(jù)集為在安徽省合肥市大陽(yáng)鎮(zhèn)的高科技農(nóng)業(yè)園區(qū)拍攝的4325張茶樹(shù)嫩芽的圖片。拍攝過(guò)程中經(jīng)歷了陰天和晴天,光照條件較為復(fù)雜。由于大多數(shù)茶樹(shù)的形狀被修剪為圓拱形,為了獲取盡可能多的不同形態(tài)和角度的茶樹(shù)嫩芽圖像,本研究選擇從3個(gè)角度進(jìn)行拍攝:茶樹(shù)頂部垂直90°拍攝,茶樹(shù)左側(cè)傾斜45°拍攝,以及茶樹(shù)右側(cè)傾斜45°拍攝。這些角度選擇旨在減少視角依賴并捕捉更多的特征。此外,團(tuán)隊(duì)在順光和逆光條件下進(jìn)行拍攝,同時(shí)也考慮了茶葉間相互遮擋因素。采集到的茶樹(shù)嫩芽圖像如圖1所示。
1.2數(shù)據(jù)集構(gòu)建
1.2.1數(shù)據(jù)標(biāo)注本研究開(kāi)始前剔除與研究無(wú)關(guān)或可能破壞模型訓(xùn)練的嫩芽圖片,剔除前景或背景模糊、無(wú)嫩芽或嫩芽被遮擋的面積超過(guò)50%的圖片。構(gòu)建訓(xùn)練嫩芽茶梗識(shí)別模型所需要的數(shù)據(jù)集(共3725張圖片),然后使用開(kāi)源圖像標(biāo)注工具LabelMe[16]對(duì)圖像中的茶樹(shù)嫩芽梗部進(jìn)行標(biāo)注(圖2),標(biāo)簽命名為“Stem”,將其余部分視為背景,標(biāo)注信息保存至與圖像名稱對(duì)應(yīng)的json文件中,通過(guò)txt文件轉(zhuǎn)換,將json文件轉(zhuǎn)換為模型訓(xùn)練需要的txt文件格式。
1.2.2數(shù)據(jù)增廣考慮到茶園的環(huán)境復(fù)雜多變,茶樹(shù)芽葉的生長(zhǎng)角度呈現(xiàn)多樣性,加之天氣和光照等環(huán)境因素影響,給嫩芽的識(shí)別與定位帶來(lái)挑戰(zhàn)。由于采集的茶樹(shù)嫩芽圖像數(shù)量有限,難以涵蓋所有特征,再加上圖像采集和標(biāo)注過(guò)程既耗時(shí)又費(fèi)力,難以構(gòu)建大規(guī)模的數(shù)據(jù)集,因此需要通過(guò)圖像處理對(duì)數(shù)據(jù)進(jìn)行增強(qiáng),以提高模型的泛化能力。
本研究通過(guò)多種數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)展訓(xùn)練集,以提高模型的多樣性和魯棒性。圖3(a)為未經(jīng)數(shù)據(jù)增廣的原始圖片。如圖3(b)和圖3(c)所示,通過(guò)水平翻轉(zhuǎn)和隨機(jī)旋轉(zhuǎn)來(lái)模擬不同角度下的芽葉特征。如圖3(d)和圖3(e)所示,通過(guò)增強(qiáng)圖像亮度[17]和降低圖像亮度模擬茶園中光照和天氣變換導(dǎo)致的嫩芽顏色變化。如圖3(f)所示,通過(guò)在圖像中增加噪聲[18],模擬采集過(guò)程中不可避免的噪聲干擾,以增強(qiáng)模型在現(xiàn)實(shí)應(yīng)用中的魯棒性。如圖3(g)所示,考慮到茶園環(huán)境中相互遮擋的情況,對(duì)部分嫩芽進(jìn)行隨機(jī)裁剪[19]。此外,如圖3(h)和圖3(i)所示,通過(guò)隨機(jī)改變紅綠藍(lán)(RGB)通道順序和翻轉(zhuǎn)閾值,模擬茶園中光照變化和植被反射特性對(duì)嫩芽顏色和亮度的影響。
1.2.3數(shù)據(jù)集構(gòu)建本研究共計(jì)采集茶樹(shù)嫩芽圖像樣本3725張。根據(jù)1.2.1節(jié)所示的方法,對(duì)圖像中的嫩芽茶梗進(jìn)行標(biāo)注,標(biāo)注完成后,將標(biāo)注后的數(shù)據(jù)集按照比例隨機(jī)劃分為訓(xùn)練集和驗(yàn)證集,訓(xùn)練集的樣本數(shù)量為2600張,驗(yàn)證集的樣本數(shù)量為1125張。
將訓(xùn)練集樣本按照1.2.2節(jié)的方法進(jìn)行數(shù)據(jù)隨機(jī)增廣,得到增廣后的訓(xùn)練集圖像樣本7800張,對(duì)驗(yàn)證集不進(jìn)行數(shù)據(jù)增廣。驗(yàn)證集樣本數(shù)量仍為1125張。
1.2.4基于茶梗識(shí)別的采摘點(diǎn)的計(jì)算關(guān)于茶葉采摘點(diǎn)三維坐標(biāo)的確定過(guò)程,文獻(xiàn)[15]提出了一種基于雙目相機(jī)獲取深度信息的方法,通過(guò)嫩芽識(shí)別框與茶梗識(shí)別框的交界點(diǎn)來(lái)確定精確的采摘位置。具體而言,對(duì)于嫩芽識(shí)別框S中的每一個(gè)頂點(diǎn)P(xi,yi),判斷其是否位于茶梗識(shí)別框T的邊界上(圖4),判斷條件表示為:
P(xi,yi)∈Tboundary,i=1,2,…,n(1)
其中,n表示嫩芽識(shí)別框中的頂點(diǎn)數(shù)量。Tboundary表示茶梗識(shí)別的邊界框。在此基礎(chǔ)上,通過(guò)雙目相機(jī)獲取嫩芽中心區(qū)域的深度信息z。具體表示為:
z=fdepth(xcenter,ycenter)(2)
最終,采摘點(diǎn)的三維坐標(biāo)可確定為(xi,yi,z)。
1.3網(wǎng)絡(luò)模型及輕量化改進(jìn)
本研究使用VanillaNet網(wǎng)絡(luò)結(jié)構(gòu)來(lái)替換YOLOv8n-seg中的骨干特征提取網(wǎng)絡(luò),在保證精度的前提下,減少模型參數(shù)和權(quán)重,并將大型可分離核注意力模塊(LSKA)注意力機(jī)制引入到Y(jié)OLOv8n-seg的特征融合網(wǎng)絡(luò)中來(lái)減少模型的復(fù)雜性,考慮到光照、遮擋、背景等因素的影響,本研究采用Shape-IoU損失函數(shù)來(lái)代替原有的CIoU損失函數(shù),改進(jìn)后的模型結(jié)構(gòu)如圖5所示。
Input表示圖像輸入;Conv表示卷積模塊;VanillanetBlock表示Vanillanet輕量化卷積模塊;C2f表示跨階段特征融合模塊;Upsample表示上采樣操作;Concat表示特征通道拼接操作;C2f_LSKA表示帶LSKA的跨階段特征融合模塊;Segment0、Segment1、Segment2分別表示多尺度分割預(yù)測(cè)層0、1、2;Split表示通道分割模塊;Bottleneck表示一部分通過(guò)一系列的卷積、歸一化和激活操作進(jìn)行處理,最后生成的特征圖與另一部分直接傳遞的特征圖在連接模塊進(jìn)行拼接;Conv2d表示二維卷積層;BatchNorm2d表示二維批量歸一化層;SiLu表示激活函數(shù)。
1.3.1YOLOv8n-seg分割網(wǎng)絡(luò)對(duì)于茶樹(shù)嫩芽茶梗的識(shí)別,考慮到茶樹(shù)嫩芽采摘點(diǎn)的定位需要將茶樹(shù)嫩芽識(shí)別框和茶樹(shù)嫩芽梗部的分割區(qū)域的坐標(biāo)點(diǎn)進(jìn)行對(duì)比,如果采用YOLOv8n模型,結(jié)果如圖6(a)所示,只能識(shí)別出嫩芽茶梗的邊界框,不利于茶樹(shù)嫩芽采摘點(diǎn)的計(jì)算。故本研究采用YOLOv8n-seg算法對(duì)茶梗區(qū)域進(jìn)行識(shí)別[圖6(b)]。YOLOv8n-seg[20-21]是一種高效的實(shí)例分割算法,融合了目標(biāo)檢測(cè)和實(shí)例分割功能。其網(wǎng)絡(luò)結(jié)構(gòu)由輸入層、主干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和分割層組成,每一部分都有其特定的作用。輸入層接收?qǐng)D像數(shù)據(jù),主干網(wǎng)絡(luò)通過(guò)多層卷積和池化提取圖像特征,頸部網(wǎng)絡(luò)整合這些特征以增強(qiáng)模型的理解能力,而分割層則執(zhí)行精細(xì)的像素級(jí)分類和實(shí)例分割。處理過(guò)程分為2個(gè)階段:首先進(jìn)行目標(biāo)檢測(cè),識(shí)別圖像中的目標(biāo)并確定其位置和類別;然后進(jìn)行實(shí)例分割,對(duì)每個(gè)檢測(cè)到的目標(biāo)進(jìn)行像素級(jí)的精確分割。在此基礎(chǔ)上引入YOLOX[22]中的做法,將馬賽克數(shù)據(jù)增強(qiáng)(Mosaic)在訓(xùn)練最后10輪關(guān)閉,從而提高檢測(cè)模型的準(zhǔn)確性。
1.3.2VanillaNet輕量化網(wǎng)絡(luò)由于模型復(fù)雜度的增加,對(duì)訓(xùn)練環(huán)境配置的要求也隨之提高,這不利于終端設(shè)備上的部署,因此本研究在YOLOv8n-seg的骨干特征提取網(wǎng)絡(luò)中引入了VanillaNet[23]網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。VanillaNet由主干、主體和全連接層構(gòu)成。每一個(gè)階段僅用一層卷積模塊就可以構(gòu)建一個(gè)非常簡(jiǎn)單的網(wǎng)絡(luò),適合用于檢測(cè)設(shè)備性能受限的情況。
VanillaNet網(wǎng)絡(luò)在主干部分使用一個(gè)步幅為4的4×4×3×C(C表示輸出特征圖的通道數(shù))卷積層,將3通道輸入圖像映射為C通道特征圖。主體部分包含4個(gè)階段。在階段Ⅰ、階段Ⅱ和階段Ⅲ中,通過(guò)步幅為2的最大池化層進(jìn)行下采樣,并在每個(gè)階段中將通道數(shù)加倍。在階段Ⅳ中,通道數(shù)保持不變,接著進(jìn)行全局平均池化。最后一層為全連接層,用于輸出對(duì)圖像進(jìn)行分類的結(jié)果。為確保計(jì)算量最小化,所有卷積層均采用1×1大小。每個(gè)卷積層后均跟隨批量歸一化(BN)層和激活函數(shù)。這種設(shè)計(jì)在保證網(wǎng)絡(luò)性能的同時(shí),通過(guò)減少模型復(fù)雜度和參數(shù)數(shù)量來(lái)降低模型的整體大小。
1.3.3LSKA注意力機(jī)制本研究通過(guò)引入LSKA模塊[24]來(lái)優(yōu)化模型的特征提取能力,傳統(tǒng)的大內(nèi)核注意力機(jī)制雖然能夠捕捉到更大范圍的上下文信息,但是計(jì)算復(fù)雜度較高,容易導(dǎo)致過(guò)擬合。通過(guò)卷積分解策略,LSKA不僅保留了大內(nèi)核的優(yōu)勢(shì),還顯著減少了計(jì)算量,能夠適應(yīng)不同尺度和形狀的目標(biāo)特征,提高了對(duì)茶樹(shù)嫩芽梗部識(shí)別的準(zhǔn)確性和魯棒性。
LSKA注意力機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示。LSKA將k×k的大卷積核分解成(2d-1)×(2d-1)的深度卷積、k/d×k/d的深度擴(kuò)張卷積和1×1的卷積。將深度卷積和深度擴(kuò)張卷積分解成橫向和縱向2個(gè)層次,最后通過(guò)連接卷積核來(lái)構(gòu)建完整的網(wǎng)絡(luò)架構(gòu)。對(duì)于一個(gè)輸入特征圖FC,其LSKA的輸出如下所示:
Z-C=∑H,WWC(2d-1)×1*∑H,WWC1×(2d-1)×FC(3)
ZC=∑H,WWCkd×1×∑H,WWC1×kd×Z-C(4)
AC=W1×1×ZC(5)
F-C=ACFC(6)
其中“*”和“”分別代表卷積和哈達(dá)瑪積。FC是輸入特征圖,∑H,W表示對(duì)高度(H)和寬度(W)維度求和,WC(2d-1)×1和WC1×(2d-1)分別表示大小為(2d-1)×1和大小為1×(2d-1)的卷積核,Z-C表示中間計(jì)算結(jié)果,WCkd×1和WC1×kd分別表示大小為kd×1和1×kd的卷積核,ZC表示另一個(gè)中間計(jì)算結(jié)果,W1×1表示1×1的卷積核,AC表示注意力權(quán)重圖,F(xiàn)-C為輸出特征圖。
表示哈達(dá)瑪積;d和k表示不同的卷積核大??;Conv表示卷積模塊;DW-Conv表示深度卷積模塊;DW-D-Conv表示深度擴(kuò)張卷積模塊。
1.3.4Shape-IoU損失函數(shù)YOLOv8采用CIoU[25]損失函數(shù)作為邊界框的損失函數(shù),該函數(shù)主要關(guān)注了檢測(cè)框的尺度損失,由于沒(méi)有考慮到真實(shí)框和預(yù)測(cè)框之間的方向,導(dǎo)致模型收斂速度較慢,由于田間茶葉密集相互遮擋,茶樹(shù)嫩芽梗部的識(shí)別變得困難。為了提高識(shí)別效果,本研究采用Shape-IoU[26]損失函數(shù)替換CIoU損失函數(shù),Shape-IoU通過(guò)整合形狀適應(yīng)性損失和尺度適應(yīng)性懲罰來(lái)優(yōu)化邊界框的形狀和尺度,增強(qiáng)模型對(duì)不同尺寸目標(biāo)的適應(yīng)性和精度,特別是對(duì)于像嫩芽茶梗這種精細(xì)和細(xì)長(zhǎng)形狀的目標(biāo)。這一改變不僅解決了CIoU敏感的弱點(diǎn),還提升了模型在處理不同角度和尺寸的茶葉采摘點(diǎn)時(shí)的表現(xiàn),具體公式如下:
IoU=Bpred∩BgtBpred∪Bgt(7)
ww=2×(wgt)s(wgt)s+(hgt)s(8)
hh=2×(hgt)s(wgt)s+(hgt)s(9)
ds=hh×(xc-xgtc)2c2+ww×(yc-ygtc)2c2(10)
Ωs=∑t=w,h(1-e-wt)θ,θ=4(11)
ωw=hh×w-wgtmax(w,wgt)ωh=ww×h-hgtmax(h,hgt)(12)
LShape-IoU=1-fIoU+ds+0.5×Ωs(13)
以上公式中,Bpred表示預(yù)測(cè)的邊界框;Bgt表示真實(shí)的邊界框;IoU表示預(yù)測(cè)邊界框與真實(shí)邊界框的交集與并集的比值;s表示比例因子,其與數(shù)據(jù)集中的目標(biāo)的比例相關(guān);wgt表示真實(shí)框的寬度;hgt表示真實(shí)框的高度;ww和hh分別表示水平和垂直方向的權(quán)重系數(shù);(xc,yc)為預(yù)測(cè)框中心點(diǎn)的坐標(biāo);(xgtc,ygtc)為真實(shí)框中心點(diǎn)的坐標(biāo);c表示用于規(guī)范化的常數(shù);ds表示形狀適應(yīng)性損失;wt表示寬度或者高度的權(quán)重;θ為超參數(shù);Ωs表示尺度適應(yīng)性懲罰;ωw、ωh分別表示寬度和高度的加權(quán)函數(shù);w和h表示預(yù)測(cè)框的寬度和高度;max()為求最大值操作;fIoU為IoU損失函數(shù);LShape-IoU為最終的損失函數(shù)。
如圖9所示,Shape-IoU專注于調(diào)整預(yù)測(cè)的邊界框,使其在形狀和大小上更精確地匹配真實(shí)框。通過(guò)計(jì)算邊界框形狀和尺度的匹配程度,實(shí)現(xiàn)對(duì)邊界框形狀和大小更精細(xì)的調(diào)整。
2結(jié)果與分析
2.1訓(xùn)練環(huán)境和方法
本研究中的模型訓(xùn)練環(huán)境為Ubuntu20.04操作系統(tǒng),內(nèi)存為80GB,顯卡為NVIDIARTX4090(24GB),中央處理器為Intel(R)Xeon(R)Platinum8481C,配備16V中央處理器。使用的軟件環(huán)境包括PyTorch2.0.0深度學(xué)習(xí)框架、Python(版本為3.8),CUDA(版本為11.8)。訓(xùn)練參數(shù)如表1所示。
2.2評(píng)價(jià)指標(biāo)
本研究采用mAP0.50和mAP0.50∶0.95來(lái)衡量模型和掩碼精度,模型大小和每秒傳輸幀數(shù)(FPS)用來(lái)評(píng)估模型的復(fù)雜度。mAP0.50和mAP0.50∶0.95可以用以下公式來(lái)表示:
mAP0.50=1nc∫10P(R)dR(14)
mAP0.50∶0.95=avg(mAPi)(15)
式中,nc表示類別的數(shù)量,dR表示對(duì)R的微分量,i表示一系列從0.50到0.95步長(zhǎng)為0.05的閾值,P表示準(zhǔn)確度,R表示召回率,并且它們滿足:
P=TPTP+FP(16)
R=TPTP+FN(17)
式中,TP代表真陽(yáng)性,即被模型預(yù)測(cè)為正類的樣本;FP代表假陽(yáng)性,即被模型預(yù)測(cè)為正類的負(fù)樣本;FN代表假陰性,即被模型預(yù)測(cè)為負(fù)類的正樣本。
2.3消融試驗(yàn)
由表2可知,同時(shí)進(jìn)行3種算法改進(jìn)的YOLOv8n-seg-VLS模型的mAP0.50為94.02%,mAP0.50∶0.95為62.34%,F(xiàn)PS為1s245.20幀,模型的大小為3.92MB。使用VanillaNet網(wǎng)絡(luò)替換YOLOv8n-seg的骨干特征提取網(wǎng)絡(luò),可以在略微降低mAP0.50、mAP0.50∶0.95、P、R的情況下,提高模型的檢測(cè)速度和減少模型的大小,這是因?yàn)閂anillaNet在每一個(gè)階段使用單層構(gòu)建網(wǎng)絡(luò),同時(shí)保留了特征映射信息,在實(shí)現(xiàn)輕量化的同時(shí)保持了較高的精度。引入LSKA模塊,與原有的YOLOv8n-seg網(wǎng)絡(luò)相比,模型大小有些提升,這主要是因?yàn)長(zhǎng)SKA通過(guò)精簡(jiǎn)附加模塊,降低了存儲(chǔ)需求和計(jì)算資源消耗,從而縮小了模型大?。淮送?,盡管引入Shape-IoU損失函數(shù),在與原YOLOv8n-seg模型結(jié)果對(duì)比上不占優(yōu)勢(shì),但同時(shí)進(jìn)行3種算法改進(jìn)的YOLOv8n-seg-VLS與僅不使用Shape-IoU損失函數(shù)的YOLOv8n-seg-VL的對(duì)比結(jié)果表明,Shape-IoU損失函數(shù)的加入可以有效提高FPS,原因是Shape-IoU損失函數(shù)可以更好地聚焦于普通質(zhì)量的邊界框來(lái)提高模型的總體性能。
由表2可見(jiàn),輕量化改進(jìn)后的模型YOLOv8n-seg-VLS在mAP0.50、mAP0.50∶0.95、P、R指標(biāo)上較YOLOv8n-seg略有下降,這種下降在一定程度上是因?yàn)榫W(wǎng)絡(luò)復(fù)雜度的降低,這在輕量化過(guò)程中難以避免,然而,本研究的重點(diǎn)在于茶樹(shù)嫩芽梗部的識(shí)別,旨在實(shí)現(xiàn)模型的輕量化便于在終端部署,從而提高茶葉采摘點(diǎn)的定位效率,因此mAP0.50、mAP0.50∶0.95、P、R略微降低帶來(lái)的影響甚微。
2.4其他輕量化網(wǎng)絡(luò)對(duì)比
本研究將YOLOv8n-seg-VLS中的VanillaNet輕量化模塊替換為主流輕量化特征提取主干網(wǎng)絡(luò),如MobileNetV3[27]、MobileNetV2[28]、GhostNet[29]、ShuffleNetV2[30],在保證除主干網(wǎng)絡(luò)外其他參數(shù)一致的基礎(chǔ)上,對(duì)比不同主干網(wǎng)絡(luò)對(duì)茶樹(shù)嫩芽梗部的識(shí)別效果。
如表3所示,與MobileNetV3、MobileNetV2、GhostNet和ShuffleNetV2的訓(xùn)練結(jié)果相比,VanillaNet在評(píng)價(jià)指標(biāo)上表現(xiàn)出較大的優(yōu)勢(shì)。VanillaNetmAP0.50較其他網(wǎng)絡(luò)分別提高了3.65個(gè)、8.60個(gè)、7.65個(gè)、9.14個(gè)百分點(diǎn),mAP0.50∶0.95較其他網(wǎng)絡(luò)分別提高了3.46個(gè)、5.67個(gè)、5.22個(gè)、5.85個(gè)百分點(diǎn),P較其他網(wǎng)絡(luò)分別提高了4.40個(gè)、5.76個(gè)、4.64個(gè)、5.79個(gè)百分點(diǎn),R較其他網(wǎng)絡(luò)分別提高了2.09個(gè)、7.22個(gè)、6.18個(gè)、5.98個(gè)百分點(diǎn),F(xiàn)PS較其他網(wǎng)絡(luò)1s分別提高了26.44幀、17.77幀、6.82幀和7.74幀。雖然GhostNet和ShuffleNetV2網(wǎng)絡(luò)的模型大小和VanillaNet幾乎相同,但與Vanillanet網(wǎng)絡(luò)相比,它們的mAP0.50、mAP0.50∶0.95、P、R均較低,導(dǎo)致茶樹(shù)嫩芽梗部的識(shí)別效果不理想,因此,本研究采用VanillaNet網(wǎng)絡(luò)作為YOLOv8n-seg的主干特征提取網(wǎng)絡(luò)。
2.5不同模型對(duì)比試驗(yàn)
將YOLOv8n-seg-VLS與Mask-RCNN[31]、YOLOv5-seg[32]、YOLOv7-seg[33]、YOLOv9-seg[34]進(jìn)行對(duì)比試驗(yàn),試驗(yàn)結(jié)果如表4所示。與其他模型相比,YOLOv8n-seg-VLS在多個(gè)關(guān)鍵指標(biāo)上均取得了優(yōu)勢(shì)。具體而言,YOLOv8n-seg-VLS的mAP0.50和mAP0.50∶0.95分別達(dá)到94.02%和62.34%,超越了包括MaskR-CNN和YOLO系列在內(nèi)的所有對(duì)比模型。同時(shí),YOLOv8n-seg-VLS展現(xiàn)出較高的實(shí)時(shí)性能,以1s245.20幀的處理速度領(lǐng)先其他模型。本模型僅占用3.92MB存儲(chǔ)空間,大幅降低了對(duì)計(jì)算資源的需求。這些結(jié)果充分證明了本研究提出的改進(jìn)策略在平衡檢測(cè)精度、推理效率和模型輕量化方面的有效性,為在資源受限環(huán)境下實(shí)現(xiàn)茶樹(shù)嫩芽梗部的精準(zhǔn)識(shí)別提供了新的可能性。
為了驗(yàn)證YOLOv8n-seg-VLS模型的實(shí)際識(shí)別性能,本研究在相同的試驗(yàn)條件下使用嫩芽圖像對(duì)Mask-R-CNN、YOLOv5s-seg、YOLOv7-seg、YOLOv9c-seg模型進(jìn)行了測(cè)試,識(shí)別結(jié)果如圖10所示,該圖從左至右依次展示了不同模型在茶樹(shù)左側(cè)傾斜45°,茶樹(shù)頂部垂直90°、茶樹(shù)右側(cè)傾斜45°、順光、逆光以及遮擋條件下對(duì)茶樹(shù)嫩芽梗部的識(shí)別效果。
圖10顯示,Mask-R-CNN、YOLOv5s-seg、YOLOv7-seg和YOLOv9c-seg模型在茶樹(shù)嫩芽梗部的識(shí)別上,整體效果不及YOLOv8n-seg-VLS模型。在茶樹(shù)左側(cè)傾斜45°、茶樹(shù)頂部垂直90°以及右側(cè)傾斜45°的條件下,YOLOv8n-seg-VLS模型能夠全面識(shí)別嫩芽梗部區(qū)域,且其置信度高于其他模型。在順光、逆光和遮擋的條件下,YOLOv8n-seg-VLS模型也出現(xiàn)了個(gè)別漏檢現(xiàn)象。這些漏檢可能是由于光照變化導(dǎo)致目標(biāo)特征不夠顯著,或是遮擋物干擾了模型對(duì)目標(biāo)的識(shí)別能力。盡管存在漏檢情況,YOLOv8n-seg-VLS模型在整體識(shí)別性能上仍優(yōu)于其他模型。
3結(jié)論
針對(duì)現(xiàn)有的茶葉智能化采摘研究中茶葉采摘點(diǎn)識(shí)別模型精度差及模型較大的問(wèn)題,本研究提出了一種適用于現(xiàn)代茶園系統(tǒng)中茶樹(shù)嫩芽梗部識(shí)別的模型,實(shí)現(xiàn)了茶樹(shù)不同角度的識(shí)別。本研究提出了一種基于YOLOv8n-seg模型的輕量化茶樹(shù)嫩芽梗部識(shí)別模型YOLOv8n-seg-VLS。通過(guò)引入VanillaNet模塊、LSKA卷積模塊以及Shape-IoU損失函數(shù),顯著提高了模型的檢測(cè)精度和處理速度,同時(shí)有效減少了模型的大小。試驗(yàn)結(jié)果顯示,改進(jìn)獲得的YOLOv8n-seg-VLS模型的mAP0.50、mAP0.50∶0.95、P、R分別為94.02%、62.34%、90.08%、89.96%。改進(jìn)模型的FPS為1s245.20幀,而模型的大小為3.92MB,僅為YOLOv8n-seg的57.39%。
本研究的算法還有一些不足,改進(jìn)后的YOLOv8n-seg-VLS模型的mAP0.50、mAP0.50∶0.95、P、R較原本YOLOv8n-seg模型略有降低,這種精度與模型大小的權(quán)衡是輕量化過(guò)程中不可避免的挑戰(zhàn),反映了在資源受限環(huán)境下平衡模型性能和計(jì)算效率的復(fù)雜性,后續(xù)的研究將優(yōu)化后的模型部署到終端設(shè)備中,并探索更先進(jìn)的輕量化方法,在保持甚至提高模型精度的同時(shí),進(jìn)一步減小模型體積,提高模型在實(shí)際應(yīng)用中的魯棒性和泛化能力,旨在為茶葉智能采摘系統(tǒng)提供更加精確、高效且易于部署的技術(shù)支持,進(jìn)一步推動(dòng)茶葉產(chǎn)業(yè)的智能化和現(xiàn)代化進(jìn)程。
參考文獻(xiàn):
[1]李楊,董春旺,陳建能,等.茶葉智能采摘技術(shù)研究進(jìn)展與展望[J].中國(guó)茶葉,2022,44(7):1-9.
[2]金壽祥,周宏平,姜洪喆,等.采摘機(jī)器人視覺(jué)系統(tǒng)研究進(jìn)展[J].江蘇農(nóng)業(yè)學(xué)報(bào),2023,39(2):582-595.
[3]裴偉,王曉林.基于圖像信息的茶葉二維采摘坐標(biāo)的提取[J].浙江農(nóng)業(yè)學(xué)報(bào),2016,28(3):522-527.
[4]邵佩迪,吳明暉,季亞波,等.茶葉嫩芽機(jī)器視覺(jué)識(shí)別算法研究[J].農(nóng)業(yè)裝備與車(chē)輛工程,2020,58(4):34-36,45.
[5]張博.基于RGB-D的茶葉識(shí)別與定位技術(shù)研究[D].沈陽(yáng):沈陽(yáng)工業(yè)大學(xué),2020.
[6]羅坤,吳正敏,曹成茂,等.茶鮮葉嫩梢捏切組合式采摘器設(shè)計(jì)與試驗(yàn)[J].農(nóng)業(yè)工程學(xué)報(bào),2022,38(13):1-9.
[7]龍樟,姜倩,王健,等.茶葉嫩芽視覺(jué)識(shí)別與采摘點(diǎn)定位方法研究[J].傳感器與微系統(tǒng),2022,41(2):39-41,45.
[8]李翰林,高延峰,熊根良,等.基于實(shí)例分割的大場(chǎng)景下茶葉嫩芽輪廓提取與采摘點(diǎn)定位[J].農(nóng)業(yè)工程學(xué)報(bào),2024,40(15):135-142.
[9]呂軍,方夢(mèng)瑞,姚青,等.基于區(qū)域亮度自適應(yīng)校正的茶葉嫩芽檢測(cè)模型[J].農(nóng)業(yè)工程學(xué)報(bào),2021,37(22):278-285.
[10]楊大勇,黃正櫟,鄭昌賢,等.基于改進(jìn)YOLOv8n的茶葉嫩稍檢測(cè)方法[J].農(nóng)業(yè)工程學(xué)報(bào),2024,40(12):165-173,313.
[11]SHUAILY,MUJ,JIANGXQ,etal.AnimprovedYOLOv5-basedmethodformulti-speciesteashootdetectionandpickingpointlocationincomplexbackgrounds[J].BiosystemsEngineering,2023(231):117-132.
[12]WANGT,ZHANGKM,ZHANGW,etal.TeapickingpointdetectionandlocationbasedonMask-RCNN[J].InformationProcessinginAgriculture,2023,10(2):267-275.
[13]YANLJ,WUKH,LINJ,etal.IdentificationandpickingpointpositioningoftenderteashootsbasedonMR3P-TSmodel[J].FrontiersinPlantScience,2022(13):962391.
[14]XUF,LIB,XUS.AccurateandrapidlocalizationofteabudleafpickingpointbasedonYOLOv8[C]//MENGXF,CHENY,SUOLM,etal.2023ChinaNationalConferenceonBigDataandSocialComputing.Urumqi,China:Springer,2023:261-274.
[15]高洋.基于深度學(xué)習(xí)的茶葉采摘點(diǎn)定位[D].合肥:安徽農(nóng)業(yè)大學(xué),2023.
[16]RUSSELLBC,TORRALBAA,MURPHYKP.LabelMe:adatabaseandweb-basedtoolforimageannotation[J].InternationalJournalofComputerVision,2008,77(1):157-173.
[17]WANGY,LIB,YUANXL.BrightFormer:atransformertobrightentheimage[J].Computersamp;Graphics,2023(110):49-57.
[18]XIAOT,XIAT,YANGY,etal.Learningfrommassivenoisylabeleddataforimageclassification[C]//HORSTB,DAVIDF,CORDELIAS,etal.2015IEEEconferenceoncomputervisionandpatternrecognition.Boston,MA,USA:IEEE,2015:2691-2699.
[19]ZHONGZ,ZHENGL,KANGGL,etal.Randomerasingdataaugmentation[J].ProceedingsoftheAAAIConferenceonArtificialIntelligence,2020,34(7):13001-13008.
[20]YUEX,QIK,NAXY,etal.ImprovedYOLOv8-segnetworkforinstancesegmentationofhealthyanddiseasedtomatoplantsinthegrowthstage[J].Agriculture,2023,13(8):1643.
[21]LIHW,HUANGJZ,GUZN,etal.PositioningofmangopickingpointusinganimprovedYOLOv8architecturewithobjectdetectionandinstancesegmentation[J].BiosystemsEngineering,2024(247):202-220.
[22]GEZ,LIUST,WANGF,etal.YOLOX:exceedingYOLOseriesin2021[EB/OL].(2021-07-18)[2024-08-20].https://doi.org/10.48550/arXiv.2107.08430.
[23]CHENHT,WANGYH,GUOJY,etal.VanillaNet:thepowerofminimalismindeeplearning[EB/OL].(2023-05-23)[2024-08-20].https://doi.org/10.48550/arXiv.2305.12972.
[24]LAUKW,POLM,REHMANYA.Largeseparablekernelattention:rethinkingthelargekernelattentiondesigninCNN[J].ExpertSystemswithApplications,2024(236):121352.
[25]ZHENGZH,WANGP,RENDW,etal.Enhancinggeometricfactorsinmodellearningandinferenceforobjectdetectionandinstancesegmentation[J].IEEETransactionsonCybernetics,2022,52(8):8574-8586.
[26]ZHANGH,ZHANGSJ.Shape-IoU:moreaccuratemetricconsideringboundingboxshapeandscale[EB/OL].(2023-12-29)[2024-08-20].https://doi.org/10.48550/arXiv.2312.17663.
[27]LUJB,YUMM,LIUJY.LightweightstripsteeldefectdetectionalgorithmbasedonimprovedYOLOv7[J].ScientificReports,2024,14(1):13267.
[28]SANDLERM,HOWARDA,ZHUML,etal.MobileNetV2:invertedresidualsandlinearbottlenecks[C]//BROWNMS,MORSEB,PELEGS,etal.2018IEEEConferenceonComputerVisionandPatternRecognition.SaltLakeCity,USA:IEEE,2018:4510-4520.
[29]PAOLETTIME,HAUTJM,PEREIRANS,etal.GhostNetforhyperspectralimageclassification[J].IEEETransactionsonGeoscienceandRemoteSensing,2021,59(12):10378-10393.
[30]MAN,ZHANGX,ZHENGHT,etal.ShuffleNetV2:practicalguidelinesforefficientCNNarchitecturedesign[C]//LINTY,PATTERSONG,RONCHIMR,etal.2018EuropeanConferenceonComputerVision.Munich,Germany:Springer,2018:116-131.
[31]WANGDD,HEDJ.FusionofmaskR-CNNandattentionmechanismforinstancesegmentationofapplesundercomplexbackground[J].ComputersandElectronicsinAgriculture,2022,196:106864.
[32]WANGMJ,LIY,MENGHW,etal.SmalltargetteabuddetectionbasedonimprovedYOLOv5incomplexbackground[J].FrontiersinPlantScience,2024,15:1393138.
[33]WANGCY,BOCHKOVSKIYA,LIAOHY.YOLOv7:trainablebag-of-freebiessetsnewstate-of-the-artforreal-timeobjectdetectors[C]//BROWNMS,LIFF,MORIG,etal.2023IEEE/CVFConferenceonComputerVisionandPatternRecognition.Vancouver,BC,Canada:IEEE,2023:7464-7475.
[34]YER,SHAOGQ,GAOQ,etal.CR-YOLOv9:improvedYOLOv9multi-stagestrawberryfruitmaturitydetectionapplicationintegratedwithCRNET[J].Foods,2024,13(16):2571.
(責(zé)任編輯:陳海霞)