中圖分類號(hào):TP391.4;S57.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-5553(2025)08-0103-09
Abstract:The plucking oftendertea buds is a crucial stage in tea production,and intellgenttea harvesting reliesonadeep learning-basedteabuddetectionalgorithmasatechnical foundation.Toenhance thespeedandaccuracyof teabud detection,this paper proposes an improved detection algorithm TN—YOLOv5s based on the YOLOv5s network model. First,GhostConv,adepthwise separableconvolution fromthe GhostNetnetwork structure,is introduced toreplace the ordinaryconvolution layers in the feature extraction andfusion networksoftheoriginalYOLOv5s model.Second,theCA spatial atention mechanism isaddedattheendof themodel's feature extraction network.Third,theSIoU_Loss is employed as the regresson lossfunction in place of CIoU_Loss.Finally,Soft—NMS is used to replace NMS.The results of the study show that the improved model achieved 7.1% , 5.9% ,and 6.4% higher model precision,recall,and average precision values,respectively,and the weight size decreased from 13.7 MB to 7.48MB compared to the original YOLOv5s algorithmonthecustomteabudsdataset.Furthermore,whencomparedtocurrntmainstreamdetectionalgorithms,the improved model shows beter performancein detectionaccuracy,model size,and detectionspeed.The improvedmodel reducestheleakagedetectionrateof obscuredteabuds,andenable saccurateandrapiddetectionof teabuds indiferent scenarios,providing atechnical foundation for the development of tea-picking robot technology and equipment.
Keywords:tea buds;natural scenes;YOLOv5s;object detection;oclusior
0 引言
茶葉嫩芽采摘是茶葉生產(chǎn)中的重要環(huán)節(jié)之一,高質(zhì)量的采摘對于提升茶葉產(chǎn)量、質(zhì)量和經(jīng)濟(jì)效益具有重要意義[1。長期以來,茶葉生產(chǎn)主要利用春季鮮葉,而產(chǎn)量比春茶高數(shù)倍的夏秋茶因?yàn)椴墒粘杀靖叨淮罅織壊?。提高夏秋茶的全年利用率,讓其產(chǎn)生更高的經(jīng)濟(jì)價(jià)值具有重要意義[2]。實(shí)現(xiàn)對夏秋茶的機(jī)械化采摘是降低采收成本的重要途徑,基于深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)對茶葉嫩芽的檢測是確保機(jī)械化采收質(zhì)量的重要手段。對大多數(shù)茶樹品種而言,夏秋茶嫩芽顏色與老葉顏色接近[3],且其在機(jī)采蓬面上分布密集,嫩芽間存在相互遮擋,上述原因使得夏秋茶茶葉嫩芽檢測難度較大。因此,開展夏秋茶茶葉嫩芽檢測方法的研究對于實(shí)現(xiàn)夏秋茶的機(jī)械化和智能化采摘具有重要的意義。
目前2種茶葉采摘方式:人工采摘和機(jī)械采摘。名優(yōu)茶采用人工采摘,工人能夠根據(jù)茶葉的老嫩程度選擇性采摘茶芽,確保鮮葉的外形和品質(zhì),但其存在采摘效率低、用工成本高甚至用工荒的問題[4。大宗茶的采摘方式多為機(jī)械采摘,其采摘效率雖然較高,但對蓬面上的嫩芽和老葉一刀切,易造成嫩芽的損壞,嫩芽完整度低、含雜質(zhì)高[5]。目前為兼顧采摘質(zhì)量和效率,出現(xiàn)了新型的智能采茶機(jī)器人概念,由于茶葉采摘的復(fù)雜性,其多處于實(shí)驗(yàn)室研究階段。結(jié)合圖像處理與機(jī)器視覺技術(shù),實(shí)現(xiàn)對夏茶茶葉嫩芽的檢測,可為實(shí)現(xiàn)夏茶機(jī)械化和智能化采摘奠定基礎(chǔ),是未來智能采茶機(jī)器人的核心技術(shù)之一。
傳統(tǒng)圖像處理技術(shù)需要手動(dòng)進(jìn)行特征設(shè)計(jì),其過程復(fù)雜且識(shí)別精度較低,難以處理復(fù)雜場景和大規(guī)模數(shù)據(jù)。汪建[6提出一種基于圖像顏色和區(qū)域生長相結(jié)合的茶葉圖像分割算法,其通過在顏色空間上對像素進(jìn)行劃分,并生成種子區(qū)域,然后對種子區(qū)域基于顏色的相似性和區(qū)域的鄰接性進(jìn)行區(qū)域生長,最后結(jié)合顏色距離和邊緣距離進(jìn)行區(qū)域生長和合并來分割出嫩芽。吳雪梅等根據(jù)嫩芽和老葉的 G 和 G-B 分量的顏色信息,利用改進(jìn)的最大方差自動(dòng)取閾法計(jì)算 G 和G 一 ?B 分量的分割閥值,分割出嫩芽。Zhang等8提出一種基于改進(jìn)分水嶺算法的茶芽識(shí)別分割方法,其通過對藍(lán)分量進(jìn)行自適應(yīng)閾值處理,再結(jié)合綠分量獲得新的組合分量灰度圖,最后利用改進(jìn)的分水嶺算法提高嫩芽識(shí)別精度。上述方法雖然能夠?qū)崿F(xiàn)對茶葉嫩芽的識(shí)別,但在田間環(huán)境下,其效果受光照條件和噪聲的影響較大,模型的田間魯棒性和泛化能力較差。
隨著深度學(xué)習(xí)的快速發(fā)展和大量應(yīng)用,其在現(xiàn)代農(nóng)業(yè)中的研究也在增加。Wang等9提出了一種基于區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(R一CNN)的自然場景下茶葉嫩芽識(shí)別方法Mask—RCNN,驗(yàn)證了該檢測方法在復(fù)雜環(huán)境中的通用性和魯棒性。Li等[10]通過對原始嫩芽數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),提高樣本多樣性,然后在YOLOv3模型中加入空間金字塔池化模塊,提出改進(jìn)YOLOv3模型并對茶葉嫩芽進(jìn)行檢測,平均檢測精度達(dá)到 89.61% 。王夢妮等[11]通過在YOLOv5s網(wǎng)絡(luò)模型主干網(wǎng)絡(luò)中替換空洞空間卷積池化金字塔結(jié)構(gòu)ASPP,并在頸部引人雙向特征金字塔網(wǎng)絡(luò)BiFPN和卷積注意力機(jī)制CBAM,提出一種改進(jìn)的YOLOv5s模型,相比原模型,準(zhǔn)確率、召回率和平均精度值分別提高 4.4%.0.5%.4.0% 。
與傳統(tǒng)圖像處理方法相比,基于深度學(xué)習(xí)的自然場景茶葉嫩芽檢測取得良好效果,但仍然存在以下問題:(1)田間茶園場景下茶葉嫩芽目標(biāo)小,生長密集,彼此相互遮擋,嫩芽與老葉之間顏色和形狀相似,導(dǎo)致識(shí)別算法檢測精度低,漏檢和誤檢率高;(2)現(xiàn)有的針對YOLOv5s算法的改進(jìn)措施來提高算法的精度,減少漏檢和誤檢的發(fā)生,往往會(huì)造成改進(jìn)模型參數(shù)量和計(jì)算量成倍增加,造成計(jì)算資源浪費(fèi)且不利于模型部署。針對上述問題,本文以YOLOv5s模型為基礎(chǔ),根據(jù)夏茶茶葉嫩芽檢測存在的難點(diǎn)對原網(wǎng)絡(luò)模型進(jìn)行改進(jìn),將田間拍攝得到的茶葉嫩芽圖像進(jìn)行標(biāo)注,輸入改進(jìn)后的模型,實(shí)現(xiàn)一種輕量化、檢測速度快和漏檢率低的自然場景下的夏茶茶葉嫩芽檢測模型,為智能采茶機(jī)器人的視覺系統(tǒng)提供技術(shù)支持。
1 數(shù)據(jù)集構(gòu)建
1)圖像采集。所用茶葉嫩芽數(shù)據(jù)集原始圖像采集地點(diǎn)為江蘇省句容市茅山茶場,采集對象為龍井43,茶樹單攏栽種且長勢較好、均一。圖像采集設(shè)備為紅米K2Opro手機(jī)和CanonM50MarkI相機(jī),圖像的分辨率分別是4000像素 ×3000 像素和5328像素 ×4000 像素,以JPG格式保存。數(shù)據(jù)采集于2023年6月上旬,拍攝時(shí)間為5:30—18:30。在對茶葉嫩芽進(jìn)行圖像采集時(shí),拍攝設(shè)備與茶樹距離 10~ 50cm ,拍攝角度與豎直向上方向呈 30°~60° 夾角。共采集原始數(shù)據(jù)集圖像1920幅。采集到不同背景復(fù)雜度、拍攝視角高低和嫩芽數(shù)目差異如圖1所示。
2)數(shù)據(jù)預(yù)處理和增強(qiáng)。使用LabelImg圖像標(biāo)注工具,選擇一芽二葉的最小外接矩形作為標(biāo)注框,手動(dòng)對圖像數(shù)據(jù)集進(jìn)行標(biāo)注。自然環(huán)境下,光照強(qiáng)度隨時(shí)間變化而不同,導(dǎo)致同一嫩芽所展現(xiàn)的亮度在不同時(shí)間段有所差異,因此光照強(qiáng)度是影響嫩芽識(shí)別效果的重要因素。所以進(jìn)行嫩芽圖像數(shù)據(jù)集構(gòu)建時(shí),在一天中不同時(shí)間段內(nèi)進(jìn)行拍攝,如圖2所示。
采集數(shù)據(jù)時(shí)沿茶行兩側(cè)移動(dòng)拍攝,拍攝過程中太陽位置和拍攝位置的變化導(dǎo)致茶葉嫩芽圖像整體亮度以及圖像中部分嫩芽的亮度不同,如圖3(a)和圖3(b)所示。在同一茬口處萌發(fā)的嫩芽,經(jīng)過一段時(shí)間的生長,往往分布密集導(dǎo)致相互遮擋,圖3(c)和圖3(d)分別為茶葉嫩芽在無遮擋和相互遮擋條件下的圖像。
圖1不同場景下的茶葉嫩芽圖像Fig.1 Images of tea budsin different scenes
圖2不同時(shí)間段內(nèi)的茶葉嫩芽Fig.2 Tea buds in different time periods
對采集到的數(shù)據(jù)集進(jìn)行篩選,去除背景虛化嚴(yán)重和模糊的圖像,剩余原始圖像的采集信息如表1所示。
表1原始圖像的采集信息
Γab.1 Acquisition information of the original image
在早晨、上午、下午、傍晚采集的圖像數(shù)量分別為513幅、464幅、455幅、489幅;順光和逆光情況下的圖像數(shù)量分別為955幅和966幅;有遮擋和無遮擋情況下的圖像數(shù)量分別為1420幅和500幅。為增強(qiáng)試驗(yàn)數(shù)據(jù)的豐富性,提高模型的泛化能力,對原始圖像數(shù)據(jù)進(jìn)行翻轉(zhuǎn)、鏡像、添加噪聲、放大和縮小以擴(kuò)充數(shù)據(jù)集,增強(qiáng)效果如圖4所示。首先,將原始數(shù)據(jù)集圖像進(jìn)行混合匯總,按6:2:2的比例隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測試集,其數(shù)量分別為1152幅、384幅、384幅。然后對訓(xùn)練集中的每幅圖像采用上述方法隨機(jī)組合進(jìn)行2倍數(shù)據(jù)增強(qiáng),同時(shí)對圖像對應(yīng)的標(biāo)注文件進(jìn)行變換。將增強(qiáng)后的圖像與原始訓(xùn)練集中的圖像匯總得到3456幅圖像數(shù)據(jù)。最終,訓(xùn)練集、測試集和驗(yàn)證集的圖片數(shù)量分別為3456幅、384幅、384幅,使用增強(qiáng)后的數(shù)據(jù)集進(jìn)行模型的訓(xùn)練。
圖4數(shù)據(jù)集增強(qiáng)效果Fig.4Datasetenhancement effects
2嫩芽識(shí)別算法及改進(jìn)
YOLOv5是一種基于深度學(xué)習(xí)的自標(biāo)檢測算法,是YOLO(YOUOnlyLookOnce)系列算法的第五代版本,在更加輕量化的同時(shí)提供更高的檢測精度,自面世以來,憑借著高性能在學(xué)術(shù)界和工業(yè)界都取得不錯(cuò)的成果,且其在茶葉嫩芽識(shí)別任務(wù)中表現(xiàn)出色[12.13]。YOLOv5根據(jù)模型大小可分為5個(gè)不同的版本,分別為YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x,其中YOLOv5s通過采用較小的網(wǎng)絡(luò)深度和特征圖維度來實(shí)現(xiàn)較小的權(quán)重文件和更快的檢測速度[14]。因此,選擇在該模型的基礎(chǔ)上進(jìn)行優(yōu)化,YOLOv5s的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
最終改進(jìn)后模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
自制的夏茶茶葉嫩芽數(shù)據(jù)集場景豐富,檢測目標(biāo)茶葉嫩芽存在相互遮擋、外觀顏色接近和目標(biāo)較小等特點(diǎn),數(shù)據(jù)集較為復(fù)雜。原始的YOLOv5s算法識(shí)別精度低,漏檢和誤檢率高,難以滿足要求。故提出一種改進(jìn)YOLOv5s網(wǎng)絡(luò)模型,主要從4個(gè)方面進(jìn)行改進(jìn)。
2.1 輕量化網(wǎng)絡(luò)GhostNet
在實(shí)際應(yīng)用場景中,目前茶葉嫩芽檢測存在模型參數(shù)量大的問題,雖然能夠達(dá)到檢測要求,但是耗費(fèi)的計(jì)算資源較大,不適合在嵌入式平臺(tái)上部署。為降低模型參數(shù)量,提升檢測速度,引入GhostNet網(wǎng)絡(luò)結(jié)構(gòu)[15],該網(wǎng)絡(luò)在不降低檢測精度的同時(shí),減少模型冗余的參數(shù)量和計(jì)算量,從而提高檢測速度。其核心思想是通過引入“GhostModule\"來減小參數(shù)量和計(jì)算量,其結(jié)構(gòu)如圖7所示。GhostModule可以分為2個(gè)主要部分,第一個(gè)部分:使用 1×1 的卷積獲得輸人特征的必要特征濃縮;第二部分:使用逐層卷積獲取額外的特征圖,然后將獲得的特征圖和 1×1 卷積后的結(jié)果進(jìn)行堆疊,以獲得最終的結(jié)果輸出。
GhostBottlenecks是由GhostModule組成的瓶頸結(jié)構(gòu)。GhostBottlenecks的不同步長如圖8所示,GhostBottlenecks主要由多個(gè)GhostModule組成,第1個(gè)GhostModule作為擴(kuò)展層擴(kuò)大感受野,通過卷積的方式增加通道數(shù),第2個(gè)GhostModule調(diào)整合適的輸出通道數(shù),便于后續(xù)的特征合并。通過短切的方式連接GhostBottleneck的輸人和輸出。步長為2的Ghost Bottleneck 模塊在步長為1的GhostBottleneck中間插入一個(gè)深度卷積,并在每一層后面都應(yīng)用批量歸一化。
圖8GhostBottleneck兩種不同結(jié)構(gòu)Fig.8 Ghost Bottleneck in two different configurations
基于上述,設(shè)計(jì)C3Ghost模塊,在相同數(shù)量的輸入和輸出通道下,C3Ghost模塊是將C3模塊中Bottleneck的Conv模塊替換為Ghost模塊,即使用步長為1的GhostBottleneck結(jié)構(gòu)替代C3模塊中的Bottleneck結(jié)構(gòu)。因此,C3Ghost模塊的參數(shù)量和計(jì)算量更少。將YOLOv5算法主干和頸部網(wǎng)絡(luò)中原本的Conv模塊和C3模塊替換為Ghost模塊和C3Ghost模塊,主干網(wǎng)絡(luò)和頸部網(wǎng)絡(luò)的修改實(shí)現(xiàn)在提取圖片的有效特征和進(jìn)行特征融合的同時(shí),進(jìn)一步降低改進(jìn)后的基準(zhǔn)主干網(wǎng)絡(luò)模型的大小,從而提高茶葉嫩芽檢測網(wǎng)絡(luò)的檢測速度。由Ghost模塊構(gòu)成的C3Ghost模塊結(jié)構(gòu)如圖9所示。
圖9C3模塊和C3Ghost模塊Fig.9 C3 moduleand C3Ghostmodule
2.2 CA注意力機(jī)制
引入注意力機(jī)制CA,其核心作用在于使網(wǎng)絡(luò)關(guān)注到它所更需要關(guān)注的地方,目前已被廣泛使用來加強(qiáng)模型的計(jì)算能力。當(dāng)前有幾種優(yōu)秀的注意力機(jī)制,如SE9通道注意力機(jī)制1CBAM9卷積注意力模塊7和CA9空間注意力機(jī)制18等。在改進(jìn)模型時(shí),CA模塊被添加到骨干網(wǎng)絡(luò)中,以提高捕獲位置信息的能力。
CA將通道注意力分解為2個(gè)并行的一維(2D)特征編碼。也就是說,輸人特征被聚合成垂直和水平2個(gè)獨(dú)立的方向特征圖。然后這2個(gè)特征圖被編碼為2個(gè)注意力圖,一個(gè)用于長期依賴關(guān)系,另一個(gè)用于位置信息。因此CA模塊的操作分為2個(gè)步驟:坐標(biāo)信息嵌入與坐標(biāo)注意力生成。如圖10所示,坐標(biāo)信息嵌人對應(yīng) X 平均池化和 Y 平均池化處理。在此步驟中,輸入每個(gè)通道的特征圖 X 沿水平和垂直方向編碼,分別使用大小和池化內(nèi)核 H×1 和 1×W 。相應(yīng)地,得到感知特征圖,表示為 zh 和 zw 。為生成坐標(biāo)注意力,模型先將 zh 和 zw 進(jìn)行級(jí)聯(lián),使用核大小為 1×1 的F1 共享卷積提取聯(lián)合特征。然后,利用 δ 非線性激活函數(shù)生成中間特征圖 f 水平和垂直方向的空間信息。 f 沿空間維度被切割成兩個(gè)獨(dú)立的張量 fh 與 fw ,利用兩個(gè) 1×1 卷積變換 Fh 和 Fw 將空間維數(shù)轉(zhuǎn)換為與輸入特征張量 X 通道數(shù)相同的張量 gh 和 gw ,如式(2)和式(3)所示。其中注意力權(quán)重 gh 和 gw 在相應(yīng)的兩個(gè)方向上,最終通過特征圖獲得的 xc 與注意力權(quán)重相乘后輸出yc ,如式(4)所示。
2.3損失函數(shù)的改進(jìn)
YOLOv5算法的損失函數(shù)由邊界框回歸損失、類別損失、置信度損失三部分組成,其中常用交并比 IoU 作為損失函數(shù),來描述邊界框回歸損失[19]。針對損失函數(shù)理論的不足,GIoU_Loss、DIoU_Loss、CIoU_Loss相繼被提出來解決邊界框回歸問題,YOLOv5原始模型中選擇CIoU_Loss作為回歸損失函數(shù)。
現(xiàn)有方法匹配真實(shí)框和預(yù)測框之間的交并比IoU、中心點(diǎn)距離和寬高比等,均未考慮真實(shí)框和預(yù)測框之間不匹配的問題。針對以上問題,選用SIoU損失函數(shù)2]替換CIoU損失函數(shù),SIoU和SIoU損失函數(shù)的定義如式(5)和式(6)所示。
式中: -SIoU損失值;
——形狀損失;
—距離損失。
其中, (ω,h) 和 (ωgt,hgt) 分別表示預(yù)測框和真實(shí)框的寬和高, 9的值通過遺傳算法計(jì)算取得,表示對形狀損失的關(guān)注程度,
by)2,c。和cn分別表示最小外接矩形的寬和高, γ 計(jì)算如式(9)所示。
式中: # 預(yù)測框和真實(shí)框的中心點(diǎn)坐標(biāo)。
SIoU損失函數(shù)在CIoU損失函數(shù)的基礎(chǔ)上規(guī)定了預(yù)測框向真實(shí)框靠近的方向,避免可預(yù)測框的游蕩現(xiàn)象,可以進(jìn)一步提高模型的回歸精度,因此,使用SIoU損失函數(shù)計(jì)算回歸損失。
2.4柔性非極大值抑制Soft一NMS算法
使用柔性非極大值抑制算法(Soft—NMS)[21]替換非極大值抑制算法(NMS)算法作為改進(jìn)模型的預(yù)測框過濾算法。自然環(huán)境下茶葉嫩芽間存在遮擋,同一茬口處茶葉嫩芽分布密集,導(dǎo)致被檢測茶葉嫩芽重疊比例較高。如果被檢測物體密集分布,則邊界框之間重疊較大,NMS算法在選擇具有高置信度的邊界框時(shí)會(huì)忽略其他具有較低置信度但仍然有效的邊界框,導(dǎo)致一些被遮擋茶葉嫩芽的邊界框被錯(cuò)誤地抑制或移除,Soft—NMS算法的替換可有效解決上述錯(cuò)誤抑制導(dǎo)致的漏檢問題。
與傳統(tǒng)NMS算法采用類硬閥值來判斷相鄰檢測框是否保留不同,Soft—NMS首先選定一個(gè)分?jǐn)?shù)最高的預(yù)測框作為基準(zhǔn)框,進(jìn)而計(jì)算基準(zhǔn)框與同類別其他預(yù)測框的 IoU ,當(dāng) IoU 值小于人工設(shè)定的閾值時(shí),該預(yù)測框不被抑制;反之,則對該預(yù)測框的置信度使用得分衰減函數(shù)機(jī)制進(jìn)行計(jì)算,而非徹底將其得分直接置為0分[22]。
Soft一NMS的重疊邊界框得分衰減機(jī)制使得抑制效果在重疊區(qū)域內(nèi)平滑過渡,能夠更好地保留被遮擋目標(biāo)的檢測結(jié)果,Soft一NMS計(jì)算如式(1O)所示。
式中: Si —候選框 bi 的置信得分;σ 控制衰減速度的參數(shù);(204號(hào) M ——最大得分框;Nt -IoU閾值,控制是否對得分進(jìn)行衰減。
3模型訓(xùn)練與評(píng)價(jià)指標(biāo)
3.1 試驗(yàn)平臺(tái)
試驗(yàn)環(huán)境為Windows1O操作系統(tǒng),處理器型號(hào)為Intel(R)Core(TM)i5—13600KF CPU @3.5GHz ,系統(tǒng)內(nèi)存為32GB,NVIDIAGeForceRTX3060顯卡,顯存為 12GB 。深度學(xué)習(xí)框架采用PyTorch1.12.1,編程平臺(tái)為PyCharm,編程語言為Python3.8,所有算法均在相同環(huán)境下運(yùn)行。
3.2 模型訓(xùn)練參數(shù)
模型訓(xùn)練時(shí),使用標(biāo)準(zhǔn)的隨機(jī)梯度下降法訓(xùn)練模型,動(dòng)量設(shè)置為0.937,初始學(xué)習(xí)率為0.01,權(quán)重衰減為0.0005??紤]到模型訓(xùn)練時(shí)硬件平臺(tái)的GPU內(nèi)存限制,將輸入圖片大小調(diào)整為640像素 ×640 像素,batchsize設(shè)置為16,訓(xùn)練300個(gè)epoch。
3.3 評(píng)價(jià)指標(biāo)
采用精確率 (P) 、召回率 (R) 、平均精度均值(mAP) 、權(quán)重大?。╓eights)檢測速度 (FPS) 、模型參數(shù)量(Params)等指標(biāo)對模型的性能進(jìn)行評(píng)價(jià)。其中精確率 P 、召回率 R 和平均精度均值 mAP 的計(jì)算如式(11)~式(12)所示。
式中: TP 一 1 被正確檢測出的目標(biāo)數(shù),即實(shí)際為正樣本,檢測也為正樣本;FP 被錯(cuò)誤檢測出的目標(biāo)數(shù),即實(shí)際為負(fù)樣本,被檢測為正樣本;FN- 檢測錯(cuò)誤的目標(biāo)數(shù),即實(shí)際為正樣本,被檢測為負(fù)樣本。
由于本研究僅識(shí)別LJ43標(biāo)簽?zāi)垩?,即分類的類別數(shù) C=1 。因此, mAP 即為平均精度 AP 。
4 結(jié)果與分析
4.1改進(jìn)算法的消融實(shí)驗(yàn)性能對比
為評(píng)估上述改進(jìn)中每一個(gè)關(guān)鍵模塊的有效性,進(jìn)行消融實(shí)驗(yàn),以分析不同模塊對檢測算法性能的影響。以未做任何改進(jìn)的原始YOLOv5s為基準(zhǔn),將原始模型中特征提取網(wǎng)絡(luò)和特征融合網(wǎng)絡(luò)中的普通卷積層替換為深度可分離卷積GhostConv,添加注意力模塊CA,再替換損失函數(shù)SIoU_Loss和柔性非極大抑制Soft—NMS進(jìn)行實(shí)驗(yàn),“ √ ”表示引入該方法,使用4種改進(jìn)方法的模型為TN—YOLOv5s,實(shí)驗(yàn)結(jié)果如表2所示。
為降低模型的參數(shù)量,在原始YOLOv5s引入GhostNet結(jié)構(gòu),即將普通卷積層替換為Ghostconv。由表2可知,通過引入GhostConv模塊來構(gòu)建整個(gè)量化模型,模型參數(shù)量下降 47.53% ,而 mAP 僅下降0.4% ,實(shí)驗(yàn)說明GhostNet結(jié)構(gòu)的引人能夠有效減少模型的參數(shù)量。但模型嫩芽精確率略有降低,主要原因在于引入GhostNet結(jié)構(gòu),簡化模型網(wǎng)絡(luò)結(jié)構(gòu)的同時(shí),損失部分嫩芽特征信息。
為減少部分嫩芽特征損失對模型的影響,在骨干網(wǎng)絡(luò)末端加入CA注意力機(jī)制。由表2可知,相比未添加注意力機(jī)制的YOLOv5s一GC模型,模型參數(shù)量只提升 0.70% ,而 mAP 提升 4.9% 。因此,添加注意力機(jī)制能夠促進(jìn)不同通道嫩芽有效信息的交互和傳遞,抑制無關(guān)信息,提升模型的檢測性能。
為提升模型對小目標(biāo)嫩芽檢測精度,使用SIoU替換CIoU。由表2可知,檢測精確率提高 2.7% ,mAP 值提升 0.8% 。說明SIoU的替換考慮嫩芽預(yù)測框方向匹配問題,能夠更好地優(yōu)化嫩芽預(yù)測框的位置。
表2消融實(shí)驗(yàn)結(jié)果Tab.2 Results of ablation test
GhostConv結(jié)構(gòu)的引入、注意力機(jī)制CA的添加和SIoU的替換使模型的檢測性能得到提升,但當(dāng)目標(biāo)密集分布時(shí),模型存在漏檢問題。主要原因在于YOLOv5s采用NMS作為算法的后處理方法,抑制多余候選框,但對于高密度重疊目標(biāo)存在一次抑制從而發(fā)生漏檢現(xiàn)象。由表2可知,替換柔性非極大抑制Soft一NMS后,模型檢測精確率和召回率分別提高0.7% 、 2.0% , mAP 提升 1.1% 。柔性非極大抑制Soft一NMS減少重復(fù)嫩芽檢測框的影響,有效提高模型對相互遮擋嫩芽的檢測性能。
最終,改進(jìn)后TN—YOLOv5模型的精確率、召回率和 mAP 比原YOLOv5s模型分別高出 7.1% 、5.9%.6.4% 。為更直觀地展示改進(jìn)后模型的性能,圖11為原模型和改進(jìn)后模型的性能曲線對比。通過消融實(shí)驗(yàn)證實(shí)改進(jìn)方法可以改善模型對夏茶茶葉嫩芽的檢測性能。
4.2不同目標(biāo)檢測模型的對比試驗(yàn)
為更全面地驗(yàn)證改進(jìn)后網(wǎng)絡(luò)模型的性能,在同一試驗(yàn)環(huán)境下與一些經(jīng)典的目標(biāo)檢測模型進(jìn)行對比試驗(yàn)。將TN—YOLOv5s 與 Faster R—CNN23]、 SSD[24] YOLOv3[25]、YOLOv4[26]、YOLOv4—Tiny[27]YOLOv8s28算法進(jìn)行試驗(yàn)對比,結(jié)果如表3所示。
表3不同網(wǎng)絡(luò)模型的試驗(yàn)結(jié)果對比 Tab.3 Comparison of experimental results of different network models
由表3可知,TN—YOLOv5s模型相比于其他主流檢測模型,不僅有最小的模型體積,同時(shí)保持最高的檢測精度,推理速度也能夠滿足對茶葉嫩芽的實(shí)時(shí)檢測。TN—YOLOv5s模型相比于雙階段檢測模型FasterR-CNN的平均精度均值高出 31.53% ,相比于單階段目標(biāo)檢測模型SSD、YOLOv3、YOLOv4、YOLOv4—Tiny、YOLOv5s、YOLOv8s的平均精度均值分別高出31.12%.20.55%.16.41%.24.08%.6.4%.3.5%
綜上,TN—YOLOv5s算法在保持輕量化的同時(shí)有著最高的檢測精度,同時(shí)能夠滿足實(shí)時(shí)性的要求,整體表現(xiàn)較為突出,證明改進(jìn)模型對茶葉嫩芽識(shí)別的可
行性和優(yōu)越性。
4.3不同場景下的檢測效果對比分析
為驗(yàn)證TN—YOLOv5s算法在不同場景對茶葉嫩芽檢測的泛化性和魯棒性,更直觀地呈現(xiàn)識(shí)別效果,將原始YOLOv5s模型和TN—YOLOv5s模型在384張測試集上進(jìn)行對比試驗(yàn),隨機(jī)各選擇順逆光、不同時(shí)段和相互遮擋3種情況下不同標(biāo)簽對應(yīng)的1張茶葉圖像進(jìn)行展示。原始YOLOv5s和TN—YOLOv5s模型在順光和逆光條件的茶葉嫩芽檢測效果如圖12所示。
圖12順逆光場景YOLOv5s改進(jìn)前后茶葉嫩芽檢測效果對比
原始YOLOv5s和TN—YOLOv5s模型對一天內(nèi)不同時(shí)段的茶葉嫩芽檢測效果如圖13所示,分別為早晨、上午、下午、傍晚時(shí)間段下的茶葉嫩芽檢測效果。
圖13一天中不同時(shí)段場景YOLOv5s改進(jìn)前后茶葉嫩芽檢測效果對比
Fig.13Comparison of tea budsdetection effectof YOLOv5s before and after improvement in different time of day scenarios
TN—YOLOv5s模型對茶葉嫩芽間相互遮擋導(dǎo)致漏檢的改善效果如圖14所示。
圖14遮擋情況下茶葉嫩芽漏檢情況改善效果圖 Fig.14Improvementeffectof tea budsleakagedetection in the case of shading
由圖14可知,由于茶葉嫩芽目標(biāo)較小,處于的場景較為復(fù)雜,原始YOLOv5s模型對于不同場景下的茶葉嫩芽出現(xiàn)漏檢現(xiàn)象,且檢測出的目標(biāo)置信度略有降低。TN—YOLOv5s模型對茶葉圖像進(jìn)行檢測時(shí)具有更高的置信度分?jǐn)?shù),且出現(xiàn)的茶葉嫩芽目標(biāo)全部被識(shí)別出。
5 結(jié)論
為提高田間自然場景下夏茶茶葉嫩芽檢測的實(shí)時(shí)性和準(zhǔn)確性要求,改進(jìn)YOLOv5s檢測模型。
1)在原始YOLOv5s基礎(chǔ)上引入GhostNet網(wǎng)絡(luò)結(jié)構(gòu),增加CA空間注意力機(jī)制,替換SIoU損失函數(shù),替換Soft—NMS非極大抑制算法,得到優(yōu)化后的TN一YOLOv5s模型。結(jié)果表明,改進(jìn)后TN—YOLOv5s模型的精確率、召回率和平均精度均值分別提高 7.1%.5.9%.6.4% ,模型參數(shù)量降低 47.17% 相比于原模型在保持輕量化的同時(shí)提高檢測精度。
2)將TN—YOLOv5s分別與Faster—RCNN、SSD、YOLOv3、YOLOv4、YOLOv4—tiny、YOLOv5s、YOLOv8s模型進(jìn)行試驗(yàn)對比。結(jié)果表明,改進(jìn)模型的平均精度比其他7種算法分別高出 31.53%.31.12% 20.55%.16.41%.24.08%.6.4%.3.5% ,且模型權(quán)重大小只有 7.48MB ;雖然檢測速度低于YOLOv4—tiny、YOLOv5s和YOLOv8s模型,但仍能滿足對茶葉嫩芽實(shí)時(shí)檢測的要求。
3)驗(yàn)證結(jié)果表明,TN—YOLOv5s模型在順逆光、一天中不同時(shí)間段和遮擋情況下均表現(xiàn)出較好的識(shí)別效果,并明顯改善原始算法因茶葉嫩芽間相互遮擋產(chǎn)生的漏檢情況。說明基于TN一YOLOv5s的夏茶茶葉嫩芽檢測算法具有較好的田間魯棒性。
參考文獻(xiàn)
[1]宋志禹,韓余,丁文芹,等.茶園機(jī)械研究“十三五\"進(jìn)展及“十四五”發(fā)展方向[J].中國茶葉,2021,43(10):26-33.Song Zhiyu,Han Yu,DingWenqing,et al.Tea gardenmachineryresearchprogressduringthel3thFive-Yearplanperiod and development direction in the l4th Five-Yearplanperiod[J].ChinaTea,2021,43(1O):26-33.
[2]王宏亮.夏秋茶茶多酚提取分離、純化及淀粉樣纖維一EGCG水凝膠安全性評(píng)價(jià)[D].南京:南京農(nóng)業(yè)大學(xué),2020.
[3]李亞濤.茶葉采摘機(jī)器人的視覺檢測與定位技術(shù)研究[D].杭州:浙江理工大學(xué),2022.
[4]鄭航,傅童,薛向磊,等.茶葉機(jī)械化采摘技術(shù)研究現(xiàn)狀與展望[J].中國農(nóng)機(jī)化學(xué)報(bào),2023,44(9):28-35.ZhengHang,F(xiàn)u Tong,Xue Xianglei,etal.Researchstatusandprospect ofteamechanizedpickingtechnology[J].JournalofChineseAgriculturalMechanization,2023,44(9):28-35.
[5]羅澤涌,陳建,方晶晶,等.我國丘陵山區(qū)茶園種植機(jī)械化現(xiàn)狀與發(fā)展研究[J].農(nóng)機(jī)化研究,2020,42(2):1—7.
[6]汪建.結(jié)合顏色和區(qū)域生長的茶葉圖像分割算法研究[J].茶葉科學(xué),2011,31(1):72-77.Wang Jian. Segmentation algorithm of tea combined withthe color and region growing[J]. Journal of Tea Science,2011,31(1):72—77.
[7]吳雪梅,張富貴,呂敬堂.基于圖像顏色信息的茶葉嫩葉識(shí)別方法研究[J].茶葉科學(xué),2013,33(6):584—589.
[8] Zhang L,Zou L,Wu C,et al. Method of famous teasprout identification and segmentation based on improvedwatershed algorithm [J]. Computers and Electronics inAgriculture,2021,184:106108.
[9]Wang T,Zhang K,Zhang W,et al. Tea picking pointdetection and location based on Mask—RCNN[J].Information Processing in Agriculture, 2023:10(2):267-275.
[10]Li Y,He L,Jia J,etal.High-efficiency tea shootdetection methodvia a compressed deeplearningmodel [J]. International Journal of Agricultural andBiological Engineering,2022,15(3):159-166.
[11]王夢妮,顧寄南,王化佳,等.基于改進(jìn)YOLOv5s模型的茶葉嫩芽識(shí)別方法[J].農(nóng)業(yè)工程學(xué)報(bào),2023,39(12):150—157.Wang Mengni,Gu Jinan,Wang Huajia,et al. Method foridentifying tea budsbased on improved YOLOv5smodel [J]. Transactions of the Chinese SocietyofAgricultural Engineering,2023,39(12):150—157.
[12]寇雷雷,張紅娜.基于改進(jìn)YOLOv5的蘋果采摘機(jī)器人多目標(biāo)識(shí)別技術(shù)研究[J].中國農(nóng)機(jī)化學(xué)報(bào),2023,44(11):162—168.Kou Leilei,Zhang Hongna. Research on multi-targetrecognition technology of apple picking robot based onimproved YOLOv5[J]. Journal of Chinese AgriculturalMechanization,2023,44(11):162-168.
[13]Gui Z,Chen J,LiY,et al.A lightweight tea buddetection model based on YOLOv5[J]. Computers andElectronics in Agriculture,2023,205:107636.
[14]尚鈺瑩,張倩如,宋懷波.基于YOLOv5s的深度學(xué)習(xí)在自然場景蘋果花朵檢測中的應(yīng)用[J].農(nóng)業(yè)工程學(xué)報(bào),2022,38(9):222-229.Shang Yuying,Zhang Qianru,Song Huaibo. Applicationof deep learning using YOLOv5s to apple flower detectionin natural scenes [J]. Transactions of the Chinese Societyof Agricultural Engineering,2022,38(9): 222-229.
[15]Han K,Wang Y,Tian Q,et al. Ghostnet: More featuresfromcheapoperations[C].ProceedingsoftheRecognition,2020:1580—1589.
[16]Hu J, Shen L, Sun G.Squeeze-and-excitationnetworks [C]. Proceedings of the IEEE Conference onComputerVision and Pattern Recognition, 2018:7132—7141.
[17]Woo S,Park J,Lee J Y,et al. CBAM:Convolutionalblock attention module [C].Proceedings of the EuropeanConference on Computer Vision(ECCV),2018: 3-19.
[18]Hou Q,Zhou D,F(xiàn)eng J,et al.Coordinate attention forefficient mobile network design [C]. 2021 IEEE/CVFConference on Computer Vision and Pattern Recognition(CVPR). IEEE,2021:13708—13717.
[19]李光明,弓皓斌,袁凱.基于輕量化YOLOv5s的花椒簇檢測研究[J].中國農(nóng)機(jī)化學(xué)報(bào),2023,44(4):153—158.Li Guangming,Gong Haobin,Yuan Kai.Research onliightweightpepper cluster detection based onYOLOv5s[J].JournalofChinese AgriculturalMechanization,2023,44(4):153—158.
[20]Gevorgyan Z. SIoU loss:More powerful learning forbounding box regression [J]. arXivpreprintarXiv:2205.12740,2022.
[21]Bodla N,Singh B,Chellappa R,et al.Soft—NMSimproving object detection with one line of code [C].Proceedings of the IEEE International Conference onComputer Vision,2017:5561-5569.
[22]郝鵬飛,劉立群,顧任遠(yuǎn).YOLO—RD—Apple果園異源圖像遮擋果實(shí)檢測模型[J].圖學(xué)學(xué)報(bào),2023,44(3):456—464.Hao Pengfei,Liu Liqun,Gu Renyuan.YOLO—RD—Apple orchard heterogenous image obscured fruit detectionmodel[J]. Journal of Graphics,2023,44(3):456-464.
[23]Ren S,He K,Girshick R,et al. Faster R—CNN:Towards real-time object detection with region proposalnetworks[J]. Advances in Neural Information ProcessingSystems,2015,28.
[24] Liu W,Anguelov D,Erhan D,et al. SSD: Single shotmultibox detector[C]. Computer Vision—ECCV.Springer International Publishing,2O16:21—37.
[25]Redmon J,F(xiàn)arhadi A. YOLOv3:An incrementalimprovement[J]. arXiv preprint arXiv: 1804.02767,2018.
[26]Bochkovskiy A,Wang C Y,Liao H Y M. YOLOv4:Optimal speed and accuracy of object detection [J].arXivpreprint arXiv: 2004.10934,2020.
[27]Jiang Z,Zhao L,Li S,et al. Real-time object detectionmethod based on improved YOLOv4—tiny[J].arXivpreprint arXiv:2011.04244,2020.
[28]Terven J,Cordova-Esparza D.A comprehensive review ofYOLO: From YOLOvl to YOLOv8 and beyond [J].arXiv nrenrint arXiv:2304. 00501.2023.