方夢瑞,呂軍*,阮建云,邊磊,武傳宇,姚青
基于改進YOLOv4-tiny的茶葉嫩芽檢測模型
方夢瑞1,呂軍1*,阮建云2,邊磊2,武傳宇3,姚青1
1. 浙江理工大學信息學院,浙江 杭州 310018;2. 中國農(nóng)業(yè)科學院茶葉研究所,浙江 杭州 310008;3. 浙江理工大學機械與自動控制學院,浙江 杭州 310018
精準檢測茶葉嫩芽是茶葉機械智能采摘的重要前提。針對茶葉大小不一、遮擋造成的小尺度嫩芽特征顯著性弱、漏檢率高等問題,提出一種基于改進YOLOv4-tiny的茶葉嫩芽檢測模型。該模型在頸部網(wǎng)絡(luò)添加52×52的淺層特征層以提高YOLOv4-tiny網(wǎng)絡(luò)對小目標嫩芽的關(guān)注度,通過引入卷積塊注意力機制(Convolutional block attention module,CBAM)以抑制背景噪聲,提高嫩芽特征的顯著性,采用雙向特征金字塔網(wǎng)絡(luò)(Bidirectional feature pyramid network,BiFPN)以融合不同尺度的特征信息,從而提出一個高性能輕量化的茶葉嫩芽檢測模型YOLOv4-tiny-Tea。對同一訓練集與測試集進行模型訓練與性能測試,結(jié)果表明YOLOv4-tiny-Tea模型檢測精確率和召回率分別為97.77%和95.23%,相比改進之前分別提高了5.58個百分點和23.14個百分點。消融試驗驗證了網(wǎng)絡(luò)結(jié)構(gòu)改進對不同尺度嫩芽檢測的有效性,并將改進后的YOLOv4-tiny-Tea模型與3種YOLO系列算法進行對比,發(fā)現(xiàn)改進后的YOLOv4-tiny-Tea模型F1值比YOLOv3、YOLOv4、YOLOv5l模型分別提高了12.11、11.66和6.76個百分點,參數(shù)量僅為3種網(wǎng)絡(luò)模型的13.57%、13.06%和35.05%。試驗結(jié)果表明,YOLOv4-tiny-Tea模型能有效提高不同尺度下嫩芽檢測的精確率,大幅度減少小尺寸或遮擋嫩芽的漏檢情況,在保持輕量化計算成本的基礎(chǔ)上獲得較為明顯的檢測精度,能夠滿足農(nóng)業(yè)機器人的實時檢測和嵌入式開發(fā)的需求,可以為茶葉嫩芽智能采摘方法提供參考。
茶葉;嫩芽檢測;YOLOv4-tiny;注意力機制;雙向特征金字塔
機器視覺等技術(shù)已廣泛應(yīng)用于茶葉嫩芽檢測[1-2]、等級鑒定[3]、病蟲害防治[4]和種類識別[5]等。茶葉智能采摘是茶葉生產(chǎn)智能化、信息化和機械化的重要前提。相比傳統(tǒng)的人工采摘,機械采摘具有成本低、效率高等優(yōu)勢,但機械采摘缺乏選擇性,嫩芽和老葉一刀切,無法保證嫩芽完整性,降低成茶品質(zhì)[6]。因此,需要準確識別與定位茶葉嫩芽,以提高嫩芽采摘的準確率和工作效率。
目前,茶葉嫩芽的檢測方法包括圖像分割定位方法[7]和深度學習方法[8]。圖像分割定位方法是根據(jù)茶葉嫩芽和老葉所呈現(xiàn)的顏色、紋理特征等差異,結(jié)合目標定位算法實現(xiàn)茶葉嫩芽的識別和定位[9-11]。汪建[12]利用茶葉圖像的色調(diào)H和飽和度S分量圖進行初步的嫩芽區(qū)域分割,然后結(jié)合顏色距離和邊緣距離進行嫩芽區(qū)域的生長合并,平均分割精確率為89.8%,平均分割速度為0.58幀·s-1。針對強光和不均勻光照下嫩芽與老葉顏色區(qū)分度低問題,Zhang等[13]對藍分量進行自適應(yīng)閾值處理后,結(jié)合綠分量獲得新的組合分量灰度圖,通過分段線性變換提高目標與背景的對比度后,利用改進的分水嶺算法提高嫩芽識別精度。以上方法的分割精度受嫩芽特征提取影響較大,模型的普適性和魯棒性較差。深度學習模型直接以茶葉圖像為輸入,大大減小了人工特征提取對嫩芽檢測的影響。王子鈺等[14]對比了圖像分割方法和基于SSD、YOLOv3的茶葉嫩芽檢測算法,發(fā)現(xiàn)基于YOLOv3的檢測精度和檢測速度更適合茶葉智能采摘的需求。以單個茶葉圖像為研究對象,孫肖肖等[15]去除了YOLOv3模型中的大尺度預測層,采用中尺度和小尺度進行預測,減少了模型的計算量,提高了檢測速度。Yang等[16]在YOLOv3下采樣部分添加殘差網(wǎng)絡(luò),并利用1×1的卷積運算代替全連接,對驗證集的平均檢測精度達90%以上。自然環(huán)境下茶葉姿態(tài)各異,且受光照影響較大,Li等[17]按照一芽一葉圖像中芽與葉是否有明顯的角度分離進行分類標定,相比單一標定的檢測結(jié)果,基于姿態(tài)分類的YOLOv3模型檢測精度提高1.9個百分點,召回率提高了40.3個百分點。呂軍等[18]采用區(qū)域亮度自適應(yīng)校正方法對高亮度圖像進行預處理,以加強不同光照條件下嫩芽檢測模型的魯棒性。
在實際應(yīng)用場景中,采集的茶葉圖像背景較為復雜,嫩芽尺度不一、密集和遮擋等情況嚴重影響嫩芽檢測的精度和模型的普適性。Karunasena等[19]利用Cascade分類器實現(xiàn)對0~10?mm、10~20?mm、20~30?mm、30~40?mm 4組不同長度的嫩芽檢測,平均檢測精度為55%,其中對小嫩芽(0~10?mm)檢測精度僅為30%。因此,需要研究對不同尺度嫩芽檢測具有高魯棒性的嫩芽檢測模型。本研究選用輕量級、易部署的茶葉嫩芽檢測模型,通過改進網(wǎng)絡(luò)結(jié)構(gòu),以加強不同尺度下茶葉檢測的精度,為茶葉機械智能采摘提供理論依據(jù)。
春茶期間利用數(shù)碼相機采集自然生長的茶樹新梢圖像,共6?580幅,圖像分辨率統(tǒng)一為1?600×1?200。拍攝時間為2020年和2021年的3月中旬至4月上旬,拍攝角度為30°~60°,拍攝距離為30~50?cm,拍攝地點為中國農(nóng)業(yè)科學院茶葉研究所嵊州茶葉綜合實驗基地,茶樹品種為龍井43,2015年種植,單行條栽,茶樹長勢良好。利用目標標注工具LabelImg對采集到的茶葉圖像中一芽一葉和一芽進行人工標記,標記規(guī)范如圖1所示,并按照11∶1隨機劃分成訓練集和測試集,數(shù)據(jù)集信息如表1所示。
為豐富樣本多樣性,模擬自然環(huán)境下茶葉生長狀態(tài),采用水平鏡像和增強對比度的方法對訓練集圖像進行數(shù)據(jù)擴增,擴增后訓練集嫩芽數(shù)量達217?500個,茶葉圖像數(shù)據(jù)增強如圖2所示。
自然環(huán)境下茶葉嫩芽生長密集,生長狀態(tài)大小不一,重疊遮擋等造成嫩芽特征顯著性較弱,現(xiàn)有模型檢測結(jié)果中存在較多小目標漏檢情況。目標檢測模型的部署過于依賴設(shè)備的計算和存儲能力,需要在設(shè)備硬件限制條件下滿足實時檢測的需求[20]。為了提高算法的運行效率,本研究選用了輕量化、易部署的YOLOv4-tiny[21]模型作為基準網(wǎng)絡(luò)。引入卷積塊注意力機制和雙向特征金字塔結(jié)構(gòu)進行多尺度預測,提升模型對小尺度和遮擋目標的檢測性能,并將改進后的模型命名為YOLOv4-tiny-Tea。
表1 茶葉圖像數(shù)據(jù)集
Table1 Tea image dataset
圖2 茶葉圖像數(shù)據(jù)增強結(jié)果
1.2.1 YOLOv4-tiny基準網(wǎng)絡(luò)結(jié)構(gòu)
YOLOv4-tiny網(wǎng)絡(luò)模型是YOLOv4的簡潔版,屬于輕量化模型,在追求精度和速度之間的平衡方面表現(xiàn)良好。YOLOv4-tiny模型結(jié)構(gòu)主要包括以下內(nèi)容:(1)YOLOv4-tiny使用CSPDarknet53-tiny作為主干網(wǎng)絡(luò),該網(wǎng)絡(luò)主要由CBL和CSPBlock結(jié)構(gòu)組成。相比于YOLOv4中CBL和ResBlock組成的主干特征提取網(wǎng)絡(luò)CSPDarknet53,主要變化之一是將CBL中Mish[22]激活函數(shù)替換為Leaky ReLU[23]激活函數(shù),減少模型的權(quán)重參數(shù),提高計算速度;其二是CSPBlock模塊除主干部分繼續(xù)進行原ResBlock模塊中殘差結(jié)構(gòu)(RESn)的堆疊外,另一部分經(jīng)過少量處理直接將兩者結(jié)合,使得梯度流可以在兩條不同的路徑上傳播,增加了梯度信息的相關(guān)性差異。與ResBlock模塊相比,CSPBlock模塊在保持計算量不變的情況下,增強卷積網(wǎng)絡(luò)的學習能力,提高模型的檢測性能。(2)YOLOv4-tiny頸部網(wǎng)絡(luò)采用FPN結(jié)構(gòu),對26×26和13×13兩級有效特征層進行自下向上的單向特征融合。(3)YOLOv4-tiny預測模塊使用k-means聚類算法生成錨框,并引入CIOU[24]代替IOU計算邊界框定位損失,解決了真實框和預測框非重疊情形下梯度消失的問題,使得邊界框的回歸更加穩(wěn)定。
1.2.2 基于注意力機制的多尺度預測
YOLOv4-tiny網(wǎng)絡(luò)只有中尺度(26×26)和小尺度(13×13)兩級預測層,在小目標檢測時易出現(xiàn)較多漏檢情況,不適于尺度變化較大的茶葉嫩芽檢測[25]。本研究采用分而治之的檢測策略,在頸部網(wǎng)絡(luò)添加一級52×52的淺層有效特征層,以提高對小尺度嫩芽的特征提取能力,改善模型對茶葉嫩芽的多尺度檢測性能。
淺層特征層中含有小的感受野,有利于小尺度目標的檢測,但引入低維有效特征信息的同時也會產(chǎn)生大量的背景噪聲,影響模型的整體檢測精度。為了解決這個問題,引入注意力機制增強有效特征信息,抑制背景噪聲。卷積塊注意力機制(Convolutional block attention module,CBAM)[26]是一種高效的注意力機制模塊,可以在不增加大量計算成本的同時,簡便靈活地嵌入到檢測網(wǎng)絡(luò)模型中,進而提升卷積神經(jīng)網(wǎng)絡(luò)的特征表達能力。CBAM模塊是通道注意力機制和空間注意力機制的級聯(lián),具體結(jié)構(gòu)如圖3所示。通道注意力模塊中,采用最大池化和平均池化聚合原始特征圖的空間信息,生成兩個1×1通道特征圖,通道數(shù)為。將通道特征圖輸入含有多層感知器和一個隱藏層的共享網(wǎng)絡(luò),為了減少參數(shù)量,將隱藏層大小設(shè)置為1×1×/,其中是縮減率。將共享網(wǎng)絡(luò)輸出的兩個特征圖疊加并通過Sigmod函數(shù),然后乘以原始特征圖生成通道注意力特征圖??臻g注意力模塊中,對通道注意力圖采用最大池化和平均池化聚合通道信息,得到兩個××1特征圖,將兩個特征圖疊加后通過卷積層和Sigmod函數(shù)得到××1的空間注意力圖。最后,將通道注意力特征圖乘以空間注意力圖生成最終的卷積塊注意力特征圖。
1.2.3 引入BiFPN網(wǎng)絡(luò)結(jié)構(gòu)
原始YOLOv4-tiny網(wǎng)絡(luò)采用FPN結(jié)構(gòu)(圖4-a)進行特征融合,雖然能夠豐富不同尺度特征圖的特征信息,但FPN受單向特征融合的限制,使得多尺度特征信息無法充分利用[27]。茶葉嫩芽分布密集,特征圖中易出現(xiàn)多個大小不同的目標聚集,在不同尺度檢測的有效預測層中,當前尺度的特征信息被標記為正樣本,而其他預測層對應(yīng)的區(qū)域可能被視為背景,干擾模型的預測性能。針對FPN單向特征融合無法充分利用多層有效特征的問題,引入路徑聚合網(wǎng)絡(luò)結(jié)構(gòu)(Path aggregation network,PANet)實現(xiàn)雙向網(wǎng)絡(luò)的特征融合,即在FPN結(jié)構(gòu)中添加了一層自頂向下的聚合路徑,使得多層尺度的特征信息充分融合。為了簡化雙向網(wǎng)絡(luò)結(jié)構(gòu),提升特征融合的性能,移除PANet結(jié)構(gòu)中只有一條輸入邊而沒有特征融合的節(jié)點,并在同一特征尺度上添加橫向連接線,形成雙向特征金字塔網(wǎng)絡(luò)(Bidirectional feature pyramid network,BiFPN)[28],在不增加計算成本的情況下融合更多的特征信息,緩解因網(wǎng)絡(luò)層級過多造成的特征信息丟失。PANet和BiFPN的網(wǎng)絡(luò)結(jié)構(gòu)如圖4-b、4-c所示。
1.2.4 改進YOLOv4-tiny網(wǎng)絡(luò)結(jié)構(gòu)
為更好地平衡模型檢測速度和精度,保留了CSPDarknet53-tiny主干特征提取網(wǎng)絡(luò)和預測網(wǎng)絡(luò),并在此基礎(chǔ)上,在頸部網(wǎng)絡(luò)添加52×52的大尺度特征層,引入CBAM注意力機制和雙向特征金字塔結(jié)構(gòu)對原始的YOLOv4-tiny網(wǎng)絡(luò)進行多尺度預測改進,改進后的YOLOv4-tiny-Tea目標檢測模型如圖5所示。首先,茶葉RGB圖像經(jīng)兩層CBL模塊完成對淺層特征信息的聚合,并將特征維度轉(zhuǎn)化為104×104×64。其次,通過三層CSPBlock結(jié)構(gòu)后得到52×52、26×26、13×13 3種不同尺度的有效特征層,采用CBL模塊對3種不同尺度的預測層進行特征聚合,并通過CBAM注意力機制模塊增強目標特征,抑制冗余的背景噪聲,利用BiFPN雙向特征金字塔提升不同尺度特征信息的融合性能。然后,得到了52×52×54、26×26×54、13×13×54 3個有效特征,其中54由類別數(shù)與置信度之和,再與錨點數(shù)相乘而來。最后,利用預測模塊對有效特征進行多尺度預測。
圖3 CBAM網(wǎng)絡(luò)結(jié)構(gòu)
圖4 3種特征金字塔結(jié)構(gòu)
圖5 YOLOv4-tiny-Tea茶葉嫩芽檢測模型
所有模型都運行在相同的硬件環(huán)境下,CPU型號為Inter(R) Core(TM) i7-9700 CPU @3.00GHz,GPU型號為NVIDIA GTX2080Ti,加速環(huán)境為CUDA10.0 CUDNN7.6.2,操作系統(tǒng)為CentOS 7,在Pytroch和Keras深度學習框架下進行模型的訓練和測試。
不同領(lǐng)域圖像具有共性的底層特征,采用遷移學習網(wǎng)絡(luò)訓練策略,利用卷積層共性特征知識遷移使學習更為穩(wěn)定[29]。在VOC大型基準數(shù)據(jù)集[30]進行訓練,獲得初始收斂權(quán)重,并遷移到Y(jié)OLOv4-tiny-Tea網(wǎng)絡(luò)進行參數(shù)初始化。相較于隨機初始化權(quán)重,使用遷移學習的方法可以加速模型收斂,提高模型的泛化能力。
為了評價茶葉嫩芽檢測模型YOLOv4-tiny-Tea的檢測性能,本研究采用了6種性能指標;精確率(Precision)、召回率(Recall)、F1值、模型大小(Model size)、檢測速度(Detection speed)和精確率-召回率曲線(Precision-Recall curve,PR),所有模型預測測試集樣本均基于置信度0.15。精確率和召回率計算見式(1)和(2),F(xiàn)1值為精確率和召回率的調(diào)和平均,計算見式(3)。模型大小是指存儲模型所需要的內(nèi)存空間,單位為Mb。檢測速度指每秒測試的圖像數(shù)量,單位為幀·s-1。
式中:表示嫩芽被正確預測為嫩芽的數(shù)量,表示非嫩芽被預測為嫩芽的數(shù)量,表示未檢測到嫩芽的數(shù)量,即嫩芽漏檢的數(shù)量。
采用YOLOv4-tiny的預訓練模型,對YOLOv4-tiny-Tea模型進行訓練,訓練損失及驗證損失曲線如圖6所示。從圖中可以看出,訓練和驗證損失函數(shù)能較快下降并趨于穩(wěn)定,表明改進模型的有效性和強學習性。迭代次數(shù)為40時,訓練和驗證損失值較為接近并趨于收斂。訓練損失值在第90次迭代時基本收斂,表明模型已經(jīng)達到飽和狀態(tài),此時模型的檢測性能達到最佳。結(jié)果表明本研究的試驗設(shè)置是合理可行的。
在YOLOv4-tiny網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上,在頸部網(wǎng)絡(luò)中增加52×52的淺層有效特征層(scale@3),以關(guān)注小尺度目標特征,通過CBAM注意力機制降低背景干擾,引入BiFPN網(wǎng)絡(luò)結(jié)構(gòu)融合多尺度特征信息。為驗證本研究提出的YOLOv4-tiny-Tea模型的有效性,設(shè)置了消融試驗[31],即將YOLOv4-tiny-Tea茶葉嫩芽檢測模型中的改進機制逐一刪除并在相同數(shù)據(jù)集進行訓練與測試,以驗證改進機制對嫩芽檢測模型是否具有積極意義,試驗結(jié)果如表2所示。
YOLOv4-tiny網(wǎng)絡(luò)只有中尺度(26×26)和小尺度(13×13)兩種尺度的預測層,無法匹配小尺度嫩芽的檢測尺寸。為了提升模型對小目標嫩芽檢測精度,本文提出添加一層(52×52)的淺層有效特征以關(guān)注小尺度嫩芽的有效特征。由表2可知,通過增加52×52有效特征層scale@3,模型檢測召回率提高了12.85個百分點,F(xiàn)1值提高了6.88個百分點,試驗說明淺層特征層的添加能夠有效減少模型對小目標的漏檢。但模型嫩芽精確率略有降低,主要原因在于添加52×52有效特征層,提高小尺度嫩芽特征的同時,帶來更多的背景噪聲干擾。
為了減少背景噪聲對模型的影響,提出在特征融合前添加CBAM注意力機制。由表2可知,相比未添加注意力機制的YOLOv4-tiny_scale@3模型,添加CBAM注意力機制的模型檢測精確率、召回率分別提高2.29個百分點和7.62個百分點。因此,添加注意力機制能夠增強不同尺度下嫩芽有效特征的顯著性,抑制背景噪聲,提升模型的檢測性能。
圖6 訓練損失和驗證損失曲線
表2 不同改進機制對模型性能的影響
√√90.8484.9487.79123.5 √√√93.1392.5692.84114.9 √√√√97.7795.2396.4876.9
CBAM注意力機制和多尺度預測的引入,小目標的尺度匹配問題得到緩解,模型的檢測性能得到提升,但不同尺度的目標密集分布時,模型存在漏檢問題。主要原因在于YOLOv4-tiny采用單向的上采樣特征融合FPN結(jié)構(gòu),小目標檢測層中的負樣本區(qū)域可能在其他特征層中被預測為正樣本,各有效特征層中存在正負樣本沖突,使得多尺度特征信息不能得到充分的利用。由表2可知,較YOLOv4-tiny_scale@3_CBAM模型而言,引入BiFPN雙向特征金字塔結(jié)構(gòu)的YOLOv4-tiny_scale@3_CBAM_BiFPN模型,模型檢測精確率和召回率分別提高4.64個百分點和2.67個百分點,F(xiàn)1值提高了3.64個百分點。BiFPN雙向特征金字塔結(jié)構(gòu)有效融合了不同層次的嫩芽特征,有效提高了模型對不同尺度嫩芽的檢測性能。
利用YOLOv4-tiny和YOLOv4-tiny-Tea模型對同一測試集茶葉圖像進行測試,檢測結(jié)果如表2和圖7所示。通過測試結(jié)果圖可以看出,兩種目標檢測模型對大尺度嫩芽和無遮擋嫩芽都具有較好的檢測效果,但YOLOv4-tiny模型對小尺度或遮擋嫩芽的檢測結(jié)果中存在較多的漏檢(藍色框標注)和誤檢(橙色框標注),如圖7-a、7-b。由表2可知,YOLOv4-tiny模型嫩芽檢測召回率僅為72.09%,說明YOLOv4-tiny模型未有效學習小尺度嫩芽的特征。對生長密集、狀態(tài)不一的茶葉嫩芽檢測而言,YOLOv4-tiny模型泛化性能較差。通過添加淺層特征層、引入注意力機制和BiFPN雙向特征金字塔結(jié)構(gòu),改進后的YOLOv4-tiny-Tea模型對各尺度的嫩芽檢測表現(xiàn)出較優(yōu)性能,嫩芽檢測精確率和召回率分別為97.77%和95.23%,相較于YOLOv4-tiny模型,YOLOv4-tiny-Tea模型嫩芽檢測精度和召回率分別提高了5.58個百分點和23.14個百分點。由圖7-c、7-d可見,YOLOv4-tiny-Tea模型對小尺度或密集遮擋的嫩芽檢測具有較好的檢測效果。由圖8所示兩個模型PR曲線可見,YOLOv4-tiny-Tea模型PR曲線在YOLOv4-tiny的外側(cè),表明YOLOv4-tiny-Tea模型檢測的準確率更高。
圖7 YOLOv4-tiny改進前后模型的檢測效果圖
圖8 YOLOv4-tiny改進前后模型的PR曲線
為了驗證本研究提出的YOLOv4-tiny-Tea網(wǎng)絡(luò)對茶葉嫩芽檢測的優(yōu)越性,選取了YOLO系列目標檢測算法進行性能比較,其中包括YOLOv3[32]、YOLOv4[33]和YOLOv5l[34]。利用相同的數(shù)據(jù)集進行模型訓練和測試,試驗相關(guān)參數(shù)保持一致,利用精確率、召回率、F1、模型大小和檢測速度對模型整體性能進行評估,結(jié)果如表3所示。本研究提出的YOLOv4-tiny-Tea模型檢測精確率和召回率均高于其他目標檢測算法,檢測精度和召回率分別為97.77%和95.23%,模型大小為31.9?Mb,檢測速度為76.9幀·s-1。對比其他模型中檢測精度最高的YOLOv5l模型,YOLOv4-tiny-Tea檢測精確率和召回率分別提高4.47個百分點和8.83個百分點,檢測速度提高了7.9幀·s-1,模型大小僅占YOLOv5l的35.1%。因此,YOLOv4-tiny-Tea模型在檢測精度、檢測速度以及可移植性上更適用于茶葉嫩芽機械采摘的需求。
為了更加直觀展現(xiàn)本研究提出的YOLOv4-tiny-Tea模型的有效性,基于Grad-CAM[35]技術(shù)對茶葉嫩芽圖像進行了類激活圖可視化,對比結(jié)果如圖9所示。
從圖9可以看出,對于目標尺度較大的嫩芽,YOLOv4-tiny和YOLOv4-tiny-Tea兩個模型都可以精確定位到目標區(qū)域,但YOLOv4-tiny模型對目標區(qū)域關(guān)注度較小。針對小尺度和遮擋目標,YOLOv4-tiny模型只能關(guān)注目標部分區(qū)域或無法關(guān)注目標;YOLOv4-tiny-Tea模型可以較準確地關(guān)注圖像中小目標區(qū)域,且背景干擾較小。由此可見,YOLOv4-tiny-Tea模型中改進機制可以有效抑制背景噪聲,增強目標特征,進一步證明本研究提出的方法具有較強的注意力學習能力,提升模型對茶葉嫩芽的檢測性能。
圖9 不同模型的茶葉嫩芽圖像類激活圖
表3 不同茶葉嫩芽檢測模型的檢測結(jié)果
以易于部署的輕量級YOLOv4-tiny茶葉嫩芽檢測模型為基準網(wǎng)絡(luò),針對該模型對小尺度和遮擋嫩芽存在較多漏檢和誤檢情況,對YOLOv4-tiny網(wǎng)絡(luò)進行改進,以提升模型對不同尺度嫩芽的有效檢測。最終完成改進后的YOLOv4-tiny-Tea嫩芽檢測模型的搭建,并進行了試驗分析和評價。
在YOLOv4-tiny模型的頸部網(wǎng)絡(luò)中添加52×52的淺層特征層,以關(guān)注小目標嫩芽的定位與特征提取,但提高小目標顯著性的同時帶來較多的背景噪聲,引入CBAM注意力機制模塊抑制背景噪聲,以提高嫩芽特征提取的有效性。為緩解多尺度預測的不同尺度特征融合之間的沖突,利用BiFPN雙向特征金字塔結(jié)構(gòu)代替原始模型的FPN結(jié)構(gòu),實現(xiàn)不同尺度特征信息的充分融合。在YOLOv4-tiny網(wǎng)絡(luò)基礎(chǔ)上,通過添加52×52的淺層特征層、引入CBAM注意力機制和BiFPN雙向特征金字塔結(jié)構(gòu),建立了YOLOv4-tiny_scale@3_CBAM_BiFPN模型,并命名為YOLOv4-tiny-Tea網(wǎng)絡(luò)。
通過消融試驗證明了YOLOv4-tiny-Tea嫩芽檢測模型中改進機制的有效性。將改進的目標檢測模型YOLOv4-tiny-Tea與4種經(jīng)典的YOLO系列算法YOLOv3、YOLOv4、YOLOv4-tiny和YOLOv5l進行了對比試驗。結(jié)果表明,改進后的YOLOv4-tiny-Tea模型具有最佳的整體檢測性能,嫩芽檢測精確率和召回率分別為97.77%和95.23%。相比YOLOv4-tiny目標檢測模型,YOLOv4-tiny-Tea模型F1值提高了15.57個百分點。改進的YOLOv4-tiny-Tea模型大小為31.9?Mb,便于部署在采茶機中,檢測速度為76.9幀·s-1,滿足實時采摘的需求。對自然環(huán)境下尺度變化大、生長密集的茶葉嫩芽檢測,本研究提出的目標檢測算法表現(xiàn)出較強的魯棒性,模型易于部署,實現(xiàn)茶芽快速識別并引導采茶機精準定位,為茶葉機械智能化采摘提供理論依據(jù)。
[1] 張浩, 陳勇, 汪巍, 等. 基于主動計算機視覺的茶葉采摘定位技術(shù)[J]. 農(nóng)業(yè)機械學報, 2014, 45(9): 61-65.
Zhang H, Chen Y, Wang W, et al. Positioning method for tea picking using active computer vision [J]. Transactions of the Chinese Society of Agricultural Machinery, 2014, 45(9): 61-65.
[2] Chen Y T, Chen S F. Localizing plucking points of tea leaves using deep convolutional neural networks [J]. Computers and Electronics in Agriculture, 2020, 171: 105298. doi: 10.1016/j.compag.2020.105298.
[3] 張金炎, 曹成茂, 李文寶, 等. 基于多特征融合的茶葉鮮葉等級識別的方法研究[J]. 安徽農(nóng)業(yè)大學學報, 2021, 48(3): 480-487.
Zhang J Y, Cao C M, Li W B, et al. Study on the method of recognition of fresh leaf grade of tea based on multi-featured fusion [J]. Journal of Anhui Agricultural University, 2021, 48(3): 480-487.
[4] Yuwana R S, Fauziah F, Heryana A, et al. Data augmentation using adversarial networks for tea diseases detection [J]. Journal Elektronika dan Telekomunikasi, 2020, 20(1): 29-35.
[5] 劉自強, 周鐵軍, 傅冬, 等. 基于顏色和形狀的鮮茶葉圖像特征提取及在茶樹品種識別中的應(yīng)用[J]. 江蘇農(nóng)業(yè)科學, 2021, 49(12): 168-172.
Liu Z Q, Zhou T J, Fu D, et al. Study on image feature extraction of fresh tea based on color and shape and its application in tea variety recognition [J]. Jiangsu Agricultural Sciences, 2021, 49(12): 168-172.
[6] 毛騰躍, 張雯娟, 帖軍. 基于顯著性檢測和Grabcut算法的茶葉嫩芽圖像分割[J]. 中南民族大學學報(自然科學版), 2021, 40(1): 80-88.
Mao T Y, Zhang W J, Tie J. Image segmentation of tea buds based on salient object detection and Grabcut [J]. Journal of South-Central Minzu University (Natural Science Edition), 2021, 40(1): 80-88.
[7] 姜苗苗, 問美倩, 周宇, 等. 基于顏色因子與圖像融合的茶葉嫩芽檢測方法[J]. 農(nóng)業(yè)裝備與車輛工程, 2020, 58(10): 44-47.
Jiang M M, Wen M Q, Zhou Y, et al. Tea bud detection method based on color factor and image fusion [J]. Agricultural Equipment & Vehicle Engineering, 2020, 58(10): 44-47.
[8] Wang T, Zhang K M, Zhang W, et al. Tea picking point detection and location based on Mask-RCNN [J]. Information Processing in Agriculture, 2021. doi: 10.1016/j.inpa.2021.12.004.
[9] Iswanto B H , Alma A . Texture histogram features for tea leaf identification using visible digital camera [J]. IOP Conference Series: Materials Science and Engineering, 2021, 1098(3): 1098-1104.
[10] 龍樟, 姜倩, 王健, 等. 茶葉嫩芽視覺識別與采摘點定位方法研究[J]. 傳感器與微系統(tǒng), 2022, 41(2): 39-41.
Long Z, Jiang Q, Wang J, et al. Research on method of tea flushes vision recognition and picking point localization [J]. Transducer and Microsystem Technologies, 2022, 41(2): 39-41.
[11] 吳雪梅, 張富貴, 呂敬堂. 基于圖像顏色信息的茶葉嫩葉識別方法研究[J]. 茶葉科學, 2013, 33(6): 584-589.
Wu X M, Zhang F G, Lv J T. Research on recognition of tea tender leaf based on image color information [J]. Journal of Tea Science, 2013, 33(6): 584-589.
[12] 汪建.結(jié)合顏色和區(qū)域生長的茶葉圖像分割算法研究[J]. 茶葉科學, 2011, 31(1): 72-77.
Wang J. Segmentation algorithm of tea combined with the color and region growing [J]. Journal of Tea Science, 2011, 31(1): 72-77.
[13] Zhang L, Zou L, Wu C, et al. Method of famous tea sprout identification and segmentation based on improved watershed algorithm [J]. Computers and Electronics in Agriculture, 2021, 184(1): 106108. doi: 10.1016/j.compag.2021.106108.
[14] 王子鈺, 趙怡巍, 劉振宇.基于SSD算法的茶葉嫩芽檢測研究[J]. 微處理機, 2020, 41(4): 42-48.
Wang Z Y, Zhao Y W, Liu Z Y. Research on tea buds detection based on SSD algorithm [J]. Microprocessors, 2020, 41(4): 42-48.
[15] 孫肖肖, 牟少敏, 許永玉, 等. 基于深度學習的復雜背景下茶葉嫩芽檢測算法[J]. 河北大學學報(自然科學版), 2019, 39(2): 211-216.
Sun X X, Mu S M, Xu Y Y, et al. Detection algorithm of tea tender buds under complex background based on deep learning [J]. Journal of Hebei University (Natural Science Edition), 2019, 39(2): 211-216.
[16] Yang H, Chen L, Chen M, et al. Tender tea shoots recognition and positioning for picking robot using improved YOLO-V3 model [J]. IEEE Access, 2019: 180998-181011.
[17] Li Y T, He L Y, Jia J M, et al. In-field tea shoot detection and 3D localization using an RGB-D camera [J]. Computers and Electronics in Agriculture, 2021, 185: 106149. doi: 10.1016/j.compag.2021.106149.
[18] 呂軍, 方夢瑞, 姚青, 等. 基于區(qū)域亮度自適應(yīng)校正的茶葉嫩芽檢測模型[J]. 農(nóng)業(yè)工程學報, 2021, 37(22): 278-285.
Lyu J, Fang M R, Yao Q, et al. Detection model for tea buds based on region brightness adaptive correction [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(22): 278-285.
[19] Karunasena G, Priyankara H. Tea bud leaf identification by using machine learning and image processing techniques [J]. International Journal of Scientific & Engineering Research, 2020, 11(8): 624-628.
[20] Li X, Pan J, Xie F, et al. Fast and accurate green pepper detection in complex backgrounds via an improved Yolov4-tiny model [J]. Computers and Electronics in Agriculture, 2021, 191: 106503.
[21] Jiang Z, Zhao L, Li S, et al. Real-time object detection method based on improved YOLOv4-tiny [J]. arXiv preprint, 2020, arXiv: 2011.04244. doi: 10.48550/arXiv.2011.04244.
[22] Misra D. Mish: A self regularized non-monotonic activation function [J]. arXiv preprint, 2019, arXiv: 1908.08681. doi: 10.48550/arXiv.1908.08681.
[23] Glorot X, Bordes A, Bengio Y. Deep sparse rectifier neural networks [C]//Proceedings of the fourteenth international conference on artificial intelligence and statistics. JMLR Workshop and Conference Proceedings, 2011: 315-323.
[24] Zheng Z, Wang P, Liu W, et al. Distance-IoU loss: faster and better learning for bounding box regression [C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(7): 12993-13000.
[25] Lin T Y, Dollar P, Girshick R, et al. Feature pyramid networks for object detection [C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2117-2125.
[26] Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module [C]//Proceedings of the European conference on computer vision (ECCV). 2018: 3-19.
[27] Guo C, Fan B, Zhang Q, et al. AugFPN: improving multi-scale feature learning for object detection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 12595-12604.
[28] Syazwany N S, Nam J H, Lee S C. MM-BiFPN: multi-modality fusion network with Bi-FPN for MRI brain tumor segmentation [J]. IEEE Access, 2021: 160708-160720.
[29] 王金鵬, 高凱, 姜洪喆, 等. 基于改進的輕量化卷積神經(jīng)網(wǎng)絡(luò)火龍果檢測方法[J]. 農(nóng)業(yè)工程學報, 2020, 36(20): 218-225.
Wang J P, Gao K, Jiang H Z, et al. Method for detecting dragon fruit based on improved lightweight convolutional neural network [J]. Transactions of the Chinese Society of Agricultural Engineering, 2020, 36(20): 218-225.
[30] Everingham M, Van Gool L, Williams C K I, et al. The pascal visual object classes challenge [J]. International Journal of Computer Vision, 2010, 88(2): 303-338.
[31] 林森, 劉美怡, 陶志勇. 采用注意力機制與改進YOLOv5的水下珍品檢測[J]. 農(nóng)業(yè)工程學報, 2021, 37(18): 307-314.
Lin S, Liu M Y, Tao Z Y. Detection of underwater treasures using attention mechanism and improved YOLOv5 [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(18): 307-314.
[32] Redmon J, Farhadi A. YOLOv3: an incremental improvement [J]. arXiv preprint, 2018, arXiv: 1804.02767. doi.org/10.48550/arXiv.1804.02767.
[33] Bochkovskiy A, Wang C Y, Liao H Y M. Yolov4: optimal speed and accuracy of object detection [J]. arXiv preprint, 2020, arXiv: 2004.10934. doi: 10.48550/arXiv.2004.10934.
[34] Yap M H, Hachiuma R, Alavi A, et al. Deep learning in diabetic foot ulcers detection: a comprehensive evaluation [J]. Computers in Biology and Medicine, 2021, 135: 104596. doi: 10.1016/j.compbiomed.2021.104596.
[35] Selvaraju R R, Cogswell M, Das A, et al. Grad-cam: visual explanations from deep networks via gradient-based localization [C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 618-626.
Tea Buds Detection Model Using Improved YOLOv4-tiny
FANG Mengrui1, Lü Jun1*, RUAN Jianyun2, BIAN Lei2, WU Chuanyu3, YAO Qing1
1. School of Information Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China;2. Tea Research Institute, Chinese Academy of Agricultural Sciences, Hangzhou 310008, China;3. School of Mechanical Engineering and Automation, Zhejiang Sci-Tech University, Hangzhou 310018, China
Precise detection of tea buds is a prerequisite for intelligent mechanical picking of tea. Aiming at the problems of poor salience and high missed detection rate of small-scale buds caused by different sizes of tea leaves and the cover of other tea leaves, this paper proposed a kind of tea buds detection model based on improved YOLOv4-tiny. In this model, a 52×52 shallow feature layer was added in the neck network to promote the attention of YOLOv4-tiny network to small target buds. A convolutional block attention module (CBAM) was introduced to suppress the background noise and improve the salience of buds, and a bidirectional feature pyramid network (BiFPN) was used to integrate characteristic information of different scales, so as to propose the YOLOv4-tiny-Tea, a high performance light weight tea buds detection model. The results of model training and performance testing on the same training set and test set show that for the YOLOv4-tiny-Tea model, the detection precision and recall rate were 97.77% and 95.23% respectively, which were 5.58% and 23.14% higher than those before modification. An ablation experiment verified the effectiveness of the modified network structure in detecting different scales of buds, and a comparison of YOLOv4-tiny-Tea model with three YOLO algorithms found that the F1 value of YOLOv4-tiny-Tea model was 12.11%, 11.66% and 6.76% higher than F1 values of YOLOv3, YOLOv4 and YOLOv5l models respectively. The number of parameters in YOLOv4-tiny-Tea model was merely 13.57%, 13.06% and 35.05% of the three network models. The experimental results demonstrate that the method proposed in this paper effectively improved the detection precision of buds under different scales, greatly reduced the missed detection rate of buds for small size or under shading, and significantly bettered the detection precision based on a lightweight computation overhead. Therefore, the method can meet the needs of agricultural robots for real-time detection and embedded development, thus providing a reference for intelligent tea buds picking.
tea, tea buds detection, YOLOv4-tiny, attention mechanism, bidirectional feature pyramid
S571.1;Q126
A
1000-369X(2022)04-549-12
2022-05-09
2022-06-09
財政部和農(nóng)業(yè)農(nóng)村部:國家現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)技術(shù)體系(CARS-19)、浙江省領(lǐng)雁計劃項目(2022C02052)
方夢瑞,男,碩士研究生,主要從事農(nóng)業(yè)智能信息研究,fmengrui@163.com。*通信作者:lv_jun@zstu.edu.cn