胡根生,吳繼甜,鮑文霞,曾偉輝
基于改進(jìn)YOLOv5網(wǎng)絡(luò)的復(fù)雜背景圖像中茶尺蠖檢測(cè)
胡根生,吳繼甜,鮑文霞※,曾偉輝
(安徽大學(xué)農(nóng)業(yè)生態(tài)大數(shù)據(jù)分析與應(yīng)用技術(shù)國(guó)家地方聯(lián)合工程研究中心,合肥 230601)
茶葉的產(chǎn)量和品質(zhì)深受病蟲(chóng)害的影響。茶尺蠖是一種常見(jiàn)的茶葉害蟲(chóng),精確檢測(cè)茶尺蠖對(duì)茶葉病蟲(chóng)害防治有重要意義。由于茶尺蠖和茶樹(shù)枝、枯死茶葉的顏色、紋理相近,茶尺蠖的體積小、形態(tài)多變、被遮擋等問(wèn)題,現(xiàn)有方法檢測(cè)茶尺蠖的精度不高。該研究提出一種基于深度學(xué)習(xí)的復(fù)雜背景圖像中茶尺蠖檢測(cè)方法,該方法使用YOLOv5為基線網(wǎng)絡(luò),利用卷積核組增強(qiáng)對(duì)茶尺蠖的特征提取,在不增加計(jì)算量的條件下減少?gòu)?fù)雜背景對(duì)茶尺蠖檢測(cè)結(jié)果的干擾;使用注意力模塊關(guān)注茶尺蠖整體,根據(jù)茶尺蠖的大小和形狀自適應(yīng)調(diào)節(jié)感受野,降低因目標(biāo)大小形狀不一導(dǎo)致的漏檢;使用Focal loss損失函數(shù)減少前景和背景的類(lèi)不平衡對(duì)檢測(cè)結(jié)果的影響。試驗(yàn)結(jié)果表明,所提方法用于復(fù)雜背景圖像中茶尺蠖的檢測(cè),可以達(dá)到0.94的召回率,0.96的精確度和92.89%的平均精度均值。與基線網(wǎng)絡(luò)相比,該方法的平均精度均值提高了6.44個(gè)百分點(diǎn)。使用相同的數(shù)據(jù)集和預(yù)處理的對(duì)比分析表明,該方法優(yōu)于SSD、Faster RCNN和YOLOv4等其他經(jīng)典深度學(xué)習(xí)方法,平均精度均值比SSD、Faster RCNN、YOLOv4分別高17.18個(gè)百分點(diǎn)、6.52個(gè)百分點(diǎn)和4.78個(gè)百分點(diǎn)。該方法可實(shí)現(xiàn)對(duì)茶尺蠖的智能檢測(cè),減少人力成本,有助于實(shí)現(xiàn)精準(zhǔn)施藥,提高茶葉的產(chǎn)量和品質(zhì)。
農(nóng)業(yè);算法;目標(biāo)檢測(cè);深度學(xué)習(xí);卷積核組;注意力模塊;茶尺蠖
中國(guó)是茶葉生產(chǎn)和消費(fèi)大國(guó)。近年來(lái)中國(guó)茶葉生產(chǎn)快速發(fā)展,茶葉種植面積擴(kuò)大,茶葉產(chǎn)量不斷增長(zhǎng),在國(guó)民經(jīng)濟(jì)中占有相當(dāng)大的比重[1]。茶葉生長(zhǎng)易受病蟲(chóng)害影響,導(dǎo)致產(chǎn)量和質(zhì)量大幅度下降,給茶農(nóng)造成較大損失[2]。盡早發(fā)現(xiàn)病蟲(chóng)害并采取相應(yīng)的防治措施,對(duì)減少茶葉產(chǎn)量損失、提高茶葉品質(zhì)、減少農(nóng)藥使用和防止環(huán)境污染等有著重要意義。
傳統(tǒng)上對(duì)于茶尺蠖的檢測(cè),主要是請(qǐng)植保專家到茶園進(jìn)行目視判斷。由于大部分茶園地處偏僻,地勢(shì)陡峭,人工檢測(cè)會(huì)耗費(fèi)大量的物力和財(cái)力[3-4]。隨著數(shù)碼相機(jī)和互聯(lián)網(wǎng)的普及,使得研究者開(kāi)發(fā)出自然場(chǎng)景圖像中茶尺蠖蟲(chóng)害的高精確度的自動(dòng)診斷技術(shù),方便茶農(nóng)快捷地診斷茶尺蠖蟲(chóng)害成為可能。隨著計(jì)算機(jī)和人工智能技術(shù)的快速發(fā)展,機(jī)器學(xué)習(xí)已被廣泛應(yīng)用于植物圖像中的病蟲(chóng)害檢測(cè)。在機(jī)器學(xué)習(xí)方法中,害蟲(chóng)檢測(cè)技術(shù)大多基于形狀、顏色和紋理等特征,通過(guò)K最近鄰(K-Nearest Neighbor,KNN)[5]、支持向量機(jī)(Support Vector Machine, SVM)[6-8]和Adaboost等[9]對(duì)害蟲(chóng)進(jìn)行檢測(cè),具有計(jì)算簡(jiǎn)單、參數(shù)量少、抗噪性能好等優(yōu)點(diǎn)。上述傳統(tǒng)機(jī)器學(xué)習(xí)方法需要手工抽取圖像中病蟲(chóng)害的特征,具有主觀性,易受背景信息影響。野外拍攝的茶尺蠖圖像背景復(fù)雜,圖像中的茶樹(shù)枝、枯葉等背景目標(biāo)與茶尺蠖的形狀顏色相近,手工方法難以抽取茶尺蠖的本質(zhì)特征,因而利用傳統(tǒng)機(jī)器學(xué)習(xí)方法檢測(cè)復(fù)雜背景圖像中的茶尺蠖目標(biāo)難以獲得好的檢測(cè)結(jié)果。
深度學(xué)習(xí)方法能夠自動(dòng)地從訓(xùn)練數(shù)據(jù)集中提取目標(biāo)的特征。在深度學(xué)習(xí)方法中,由于卷積神經(jīng)網(wǎng)絡(luò)含有多個(gè)隱含層,能夠?qū)W習(xí)到更加高級(jí)的數(shù)據(jù)特征表示,無(wú)需手動(dòng)設(shè)計(jì)特征,在解決目標(biāo)檢測(cè)等問(wèn)題上有很大的優(yōu) 勢(shì)[10]。常用的目標(biāo)檢測(cè)網(wǎng)絡(luò)有SSD(Single Shot multiBox Detector)[11]、RetinaNet[12]、Faster RCNN(Faster Region with CNN)系列[13-15]和YOLO(You Only Look Once) 系列[16-19]等。研究者使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)害蟲(chóng)進(jìn)行檢 測(cè)[20-24],以Fast RCNN和SSD在害蟲(chóng)檢測(cè)技術(shù)中的應(yīng)用為例[25-26],根據(jù)卷積層提取到的特征向量,分別通過(guò)窗口分類(lèi)和窗口回歸,得到每個(gè)候選區(qū)域中害蟲(chóng)的類(lèi)別以及原始坐標(biāo)。此類(lèi)方法有效地提升了害蟲(chóng)檢測(cè)的準(zhǔn)確率,能夠?qū)οx(chóng)目標(biāo)進(jìn)行定位。由于野外拍攝的茶尺蠖圖像的前景與背景及其相似,前景茶尺蠖的形態(tài)、尺度多變,直接使用上述網(wǎng)絡(luò)檢測(cè)復(fù)雜圖像中的茶尺蠖的準(zhǔn)確率有待進(jìn)一步提高。
YOLO系列目標(biāo)檢測(cè)網(wǎng)絡(luò)是目標(biāo)檢測(cè)網(wǎng)絡(luò)的一個(gè)重要分支,其在農(nóng)業(yè)目標(biāo)檢測(cè)中的應(yīng)用也越來(lái)越廣泛[27-32]。例如張博等[27]將空間金字塔池化與改進(jìn)的YOLOv3深度卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,提出了一種基于空間金字塔池化的深度卷積神經(jīng)網(wǎng)絡(luò)農(nóng)作物害蟲(chóng)種類(lèi)識(shí)別算法,首先對(duì)測(cè)試圖像上的害蟲(chóng)進(jìn)行檢測(cè)定位,然后對(duì)檢測(cè)定位出的害蟲(chóng)進(jìn)行種類(lèi)識(shí)別。Wu等[30]開(kāi)發(fā)了一種基于通道修剪的YOLO v4算法用于自然環(huán)境下的蘋(píng)果花檢測(cè)。結(jié)果表明,該算法對(duì)變化的果樹(shù)品種和光照方向具有較好的魯棒性。Suo等[31]使用YOLOv3和YOLOv4對(duì)多類(lèi)獼猴桃檢測(cè),可以避免被樹(shù)枝或線遮擋的果實(shí)作為可采摘目標(biāo)。YOLOv5不僅擁有比YOLOv3和YOLOv4更快的檢測(cè)速度,并且能夠有效檢測(cè)被遮擋的目標(biāo),通過(guò)調(diào)節(jié)網(wǎng)絡(luò)感受野大小和增強(qiáng)網(wǎng)絡(luò)特征提取能力,可以更準(zhǔn)確的檢測(cè)到復(fù)雜背景中和被遮擋的目標(biāo)。
由于野外自然場(chǎng)景中拍攝的茶尺蠖圖像背景復(fù)雜,茶尺蠖的顏色、紋理與茶樹(shù)桿和枯死茶葉相近,茶尺蠖的體積小、形態(tài)多變、被遮擋,因而準(zhǔn)確檢測(cè)復(fù)雜背景圖像中的茶尺蠖是一大難題。為提高茶尺蠖檢測(cè)的準(zhǔn)確率,本研究提出一種基于改進(jìn)YOLOv5網(wǎng)絡(luò)的復(fù)雜背景圖像中茶尺蠖檢測(cè)方法。
本研究所用的圖像采集于天井山茶園。該茶園位于安徽省省會(huì)合肥市的南部,巢湖之濱。其地理坐標(biāo)為北緯31°14′37″,東經(jīng)117°36′16″,海拔40 m,采集時(shí)間分別為2019年10月和2020年10月,天氣晴朗。圖像采集設(shè)備為佳能EOS 80D手持?jǐn)?shù)碼單反相機(jī),拍攝時(shí)相機(jī)距離茶樹(shù)冠層約0.4 m,圖像大小為6 000×4 000像素,共拍攝了自然場(chǎng)景中茶尺蠖的原始圖像109張。從原始圖像上裁剪出112張大小不一的茶尺蠖圖像,按照6:1:3的比例構(gòu)造訓(xùn)練集、驗(yàn)證集和測(cè)試集,其中訓(xùn)練集有67張圖像,驗(yàn)證集有11張圖像,測(cè)試集有34張圖像。
為了提高小樣本條件下網(wǎng)絡(luò)的泛化性能,防止訓(xùn)練圖像數(shù)量不足導(dǎo)致網(wǎng)絡(luò)過(guò)擬合,本研究對(duì)訓(xùn)練圖像和驗(yàn)證圖像進(jìn)行增廣。增廣方式包括:翻轉(zhuǎn)、改變對(duì)比度和加入高斯噪聲。經(jīng)過(guò)增廣后,訓(xùn)練集共有268張圖像,驗(yàn)證集共有44張圖像,表1給出了增廣前后訓(xùn)練集和測(cè)試集的圖像數(shù)以及圖像中的茶尺蠖數(shù)量。圖1給出了增廣后的茶尺蠖圖像示例。使用Labelimg工具對(duì)圖像進(jìn)行標(biāo)注,生成xml文件,文件中包含了圖像名稱、大小和茶尺蠖在圖像中的位置信息。
表1 增廣前后的數(shù)據(jù)集
圖1 茶尺蠖圖像增廣結(jié)果
由于自然場(chǎng)景圖像中的茶尺蠖呈現(xiàn)灰褐色,茶桿顏色為深褐色。為減小茶桿等復(fù)雜背景對(duì)茶尺蠖檢測(cè)的影響,本研究對(duì)測(cè)試圖像的對(duì)比度進(jìn)行調(diào)節(jié),將圖像的R、G和B三通道的強(qiáng)度值[0.3,1]映射到新圖像的[0,1]中。經(jīng)過(guò)對(duì)比度增強(qiáng)處理后,圖像中的茶桿、茶葉縫隙等背景的顏色變?yōu)楹谏璩唧兜念伾图y理特征與茶桿等背景的區(qū)別更大。
1.2.1YOLOv5網(wǎng)絡(luò)
YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)可分為三部分:骨干網(wǎng)絡(luò)、頸網(wǎng)絡(luò)和預(yù)測(cè)網(wǎng)絡(luò)。在骨干網(wǎng)絡(luò)中,F(xiàn)ocus模塊對(duì)輸入圖像進(jìn)行切片操作,切片后的特征圖通道數(shù)擴(kuò)充了4倍,特征圖經(jīng)過(guò)卷積操作得到二倍下采樣特征圖。卷積單元包括二維卷積、批標(biāo)準(zhǔn)化和SiLu(激活函數(shù))。C3模塊實(shí)現(xiàn)從特征圖上提取特征,通過(guò)調(diào)整C3模塊的寬度和深度,可以獲得參數(shù)量不同的4個(gè)網(wǎng)絡(luò),分別為YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x,對(duì)應(yīng)參數(shù)量分別為7.30×106、2.14×107、4.71×107、8.78×107。由于參數(shù)量越少,實(shí)時(shí)性越好,考慮到農(nóng)業(yè)應(yīng)用的時(shí)效性,本研究使用參數(shù)量最少速度最快的YOLOv5s,圖2給出YOLOv5s的網(wǎng)絡(luò)結(jié)構(gòu)示意圖。SPP模塊通過(guò)不同核大小的池化抽取不同尺度特征,再進(jìn)行疊加進(jìn)行特征融合。
YOLOv5在頸網(wǎng)絡(luò)中使用FPN(Feature Pyramid Networks)結(jié)構(gòu),將頂層特征和底層特征融合,以提高網(wǎng)絡(luò)檢測(cè)不同尺度目標(biāo)的能力。在預(yù)測(cè)網(wǎng)絡(luò)輸出分類(lèi)結(jié)果和目標(biāo)的坐標(biāo)。
注:Focus為切片操作;C3為YOLOv5網(wǎng)絡(luò)中的瓶頸層,其后數(shù)字為C3的個(gè)數(shù);SPP為空間金字塔池化結(jié)構(gòu);20×20×255、40×40×255和80×80×255為預(yù)測(cè)網(wǎng)絡(luò)輸出特征圖的長(zhǎng)、寬和維度。
1.2.2卷積核組
由于茶尺蠖圖像是在野外自然場(chǎng)景中拍攝,圖像中背景復(fù)雜,茶尺蠖和枯死茶葉、茶桿的顏色紋理相近,存在部分茶尺蠖被背景遮擋,YOLOv5骨干網(wǎng)絡(luò)不能提取清晰的特征。為了減少?gòu)?fù)雜背景的影響,本研究通過(guò)增廣訓(xùn)練樣本來(lái)提高網(wǎng)絡(luò)的泛化性,同時(shí)將骨干網(wǎng)絡(luò)中所有的3×3卷積核替換成卷積核組,以增強(qiáng)網(wǎng)絡(luò)對(duì)茶尺蠖的特征提取能力。
卷積核組(convolution kernel group)由3個(gè)并行的3×3、1×3和3×1的卷積核組成,這3個(gè)并行的卷積核對(duì)輸入圖像以相同的步長(zhǎng)進(jìn)行卷積,分別產(chǎn)生大小和通道數(shù)相同的特征圖,對(duì)應(yīng)的特征圖求和后獲得輸出特征圖。3個(gè)并行的卷積核增強(qiáng)了網(wǎng)絡(luò)對(duì)茶尺蠖特征的提取能力。設(shè)是輸入圖像,(1),(2)和(3)分別是3×3,1×3和3×1的卷積核,則
*(1)+*(2)+*(3)=*((1)+(2)+(3))=*(1)
式中為等效的卷積核;*為卷積運(yùn)算。
因而3個(gè)并行的卷積核等效于一個(gè)新的權(quán)重不同的3×3的卷積核,如圖3所示。測(cè)試時(shí)使用訓(xùn)練好的等效卷積核,對(duì)比替換前的3×3卷積核,在不增加額外計(jì)算量的條件下增強(qiáng)了網(wǎng)絡(luò)對(duì)茶尺蠖特征的提取能力。
注BN為批標(biāo)準(zhǔn)化;SiLU為激活函數(shù);Bottleneck為一個(gè)1×1的卷積后接一個(gè)3×3的卷積,其中1×1的卷積將通道數(shù)減半,3×3的卷積將通道數(shù)加倍;N為C3的個(gè)數(shù)。
1.2.3 注意力模塊
由于茶尺蠖的體積小且形態(tài)多變等問(wèn)題對(duì)YOLOv5檢測(cè)算法產(chǎn)生干擾,本研究在YOLOv5s網(wǎng)絡(luò)中添加注意力模塊(attention block)[33],通過(guò)對(duì)輸入特征進(jìn)行加權(quán),強(qiáng)化茶尺蠖目標(biāo)信息,弱化背景信息,以達(dá)到對(duì)茶尺蠖的關(guān)注,減少茶尺蠖體積小和形態(tài)多變的影響。注意力模塊還使用不同大小的卷積核,自適應(yīng)調(diào)節(jié)感受野大小,以適應(yīng)大小、形狀不同的茶尺蠖圖像,有效提取茶尺蠖的全局信息。
1.2.4 Focal loss損失函數(shù)
由于野外拍攝的茶尺蠖圖像的背景復(fù)雜,背景目標(biāo)的類(lèi)別多,為了減小前景和背景的類(lèi)不平衡對(duì)檢測(cè)結(jié)果的影響,本研究將交叉熵?fù)p失函數(shù)替換為Focal loss損失函數(shù)[12]。
Focal loss損失函數(shù)是在交叉熵?fù)p失函數(shù)基礎(chǔ)上進(jìn)行改進(jìn)的,交叉熵?fù)p失函數(shù)為
式中為樣本類(lèi)別的真值;′是經(jīng)過(guò)激活函數(shù)得到的輸出,在0~1之間,表示預(yù)測(cè)前景目標(biāo)的概率。因此對(duì)前景目標(biāo)而言,預(yù)測(cè)概率越小,損失值越大。而對(duì)于背景目標(biāo)而言,預(yù)測(cè)概率越小,損失值越小。如果存在大量的背景目標(biāo),則損失函數(shù)迭代緩慢且可能無(wú)法優(yōu)化至最優(yōu)。Focal loss損失函數(shù)(fl)在交叉熵?fù)p失函數(shù)的基礎(chǔ)上加了因子>0,降低易分類(lèi)目標(biāo)的損失,使得網(wǎng)絡(luò)更關(guān)注于困難的、錯(cuò)分的目標(biāo),減小前景和背景的類(lèi)不平衡對(duì)檢測(cè)結(jié)果的影響。
1.2.5 茶尺蠖檢測(cè)網(wǎng)絡(luò)
本研究所用的茶尺蠖檢測(cè)網(wǎng)絡(luò)以圖2中YOLOv5s作為基線網(wǎng)絡(luò),使用卷積核組替換掉骨干網(wǎng)絡(luò)中所有的3×3卷積核,以增強(qiáng)網(wǎng)絡(luò)對(duì)茶尺蠖的特征提取能力,降低復(fù)雜背景的干擾。在C3模塊中添加可以自適應(yīng)調(diào)節(jié)感受野大小的注意力模塊,以關(guān)注不同尺度的茶尺蠖,提取茶尺蠖完整的信息,減少茶尺蠖大小和形狀不一對(duì)檢測(cè)結(jié)果的影響。使用Focal loss作為損失函數(shù),以此減少前景和背景類(lèi)別不平衡帶來(lái)的影響。改進(jìn)的卷積模塊、C3模塊結(jié)構(gòu)如圖3所示。
1.2.6 參數(shù)設(shè)置與精度評(píng)價(jià)
茶尺蠖檢測(cè)網(wǎng)絡(luò)用pytorch框架搭建,在NVIDIA Tesla V100服務(wù)器上進(jìn)行訓(xùn)練和測(cè)試。圖像大小調(diào)整為640×640像素,批量大?。╞atch size)設(shè)置為16,學(xué)習(xí)率(learning rate)為0.01,訓(xùn)練步數(shù)為1 000。采用Adam優(yōu)化,動(dòng)量(momentum)設(shè)為 0.9,權(quán)重衰減(weight decay)為0.000 5。
本研究使用精度(Precision)、召回率(Recall)、平均精度均值(mean Average Precision,mAP)和檢測(cè)速度作為茶尺蠖檢測(cè)結(jié)果的定量評(píng)價(jià)指標(biāo)。設(shè)置檢測(cè)正確的標(biāo)準(zhǔn)為交并比(Intersection-over-Union,IoU)≥0.5,其中IoU是預(yù)測(cè)邊界框和真實(shí)邊界框之間的重疊率。
將所提方法與SVM、BP神經(jīng)網(wǎng)絡(luò)、AdaBoost等經(jīng)典機(jī)器學(xué)習(xí)方法進(jìn)行對(duì)比,試驗(yàn)過(guò)程設(shè)置如下:增廣后的訓(xùn)練集和驗(yàn)證集圖像被調(diào)整成1 000×1 000大小,每張圖像按照長(zhǎng)寬10等分分成100×100大小的100張圖像.。為了保證背景圖像和害蟲(chóng)圖像數(shù)量的均衡,從10等分后的圖像中挑選出合適的背景圖像2 000張,害蟲(chóng)圖像2 000張,共4 000張圖像進(jìn)行訓(xùn)練,利用訓(xùn)練好的模型對(duì)3 400張(即34張測(cè)試集圖像按照長(zhǎng)寬10等分)測(cè)試圖像進(jìn)行測(cè)試。SVM模型的核函數(shù)選擇核(SVM模型中的參數(shù)),懲罰系數(shù)設(shè)置為200;BP算法的學(xué)習(xí)率為0.01,批量大小為16,權(quán)重衰減為0.000 5,動(dòng)量為0.9,迭代次數(shù)為1 000次;AdaBoost算法的弱分類(lèi)器數(shù)量設(shè)置為20。不同方法的檢測(cè)結(jié)果如表2所示。圖4顯示了不同方法的一些檢測(cè)結(jié)果示例,圖中的小框?yàn)槟P蜋z測(cè)出的目標(biāo),大框?yàn)楦鶕?jù)檢測(cè)結(jié)果手動(dòng)標(biāo)注正確檢測(cè)出的完整茶尺蠖目標(biāo)。從表2和圖4可以看出,由于樣本中存在茶尺蠖被遮擋、大小形狀不一和復(fù)雜背景等問(wèn)題,所以利用人工提取特征的SVM、BP和Adaboost檢測(cè)方法難以精確檢測(cè)出茶尺蠖。3種方法的漏檢測(cè)數(shù)分別為63、49和40,并且有較多的誤檢測(cè)。而本文所提方法僅有9個(gè)漏檢測(cè),檢測(cè)效果優(yōu)于SVM、BP和Adaboost傳統(tǒng)檢測(cè)方法。
表2 本文方法與經(jīng)典機(jī)器學(xué)習(xí)方法的檢測(cè)結(jié)果比較
注:TP、FP和FN分別表示茶尺蠖被正確檢測(cè)、背景目標(biāo)被錯(cuò)誤地檢測(cè)為茶尺蠖和茶尺蠖被誤檢測(cè)為背景目標(biāo)的數(shù)量。SVM為支持向量機(jī);BP代表反向傳播方法。
Note: TP, FP and FN represented the number ofwere correctly detected, background targets incorrectly detected as, and the number ofincorrectly detected as background targets, respectively. SVM is Support Vector Machine; BP is Back Propagation method.
圖4 本文方法和經(jīng)典機(jī)器學(xué)習(xí)方法的檢測(cè)結(jié)果示例
將所提方法與SSD、Faster-RCNN、RetinaNet、YOLO系列等常用目標(biāo)檢測(cè)網(wǎng)絡(luò)方法進(jìn)行對(duì)比。不同的目標(biāo)檢測(cè)網(wǎng)絡(luò)都使用預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練,網(wǎng)絡(luò)的參數(shù)設(shè)置如表3所示。不同網(wǎng)絡(luò)方法的檢測(cè)結(jié)果如表4所示。從表4可以看出,在不使用數(shù)據(jù)增廣和對(duì)比度預(yù)處理的條件下,F(xiàn)aster-RCNN方法的漏檢測(cè)數(shù)為15,而誤檢測(cè)數(shù)達(dá)86,這是由于數(shù)據(jù)集的背景復(fù)雜,F(xiàn)aster-RCNN作為二階段目標(biāo)檢測(cè)網(wǎng)絡(luò),會(huì)產(chǎn)生大量的誤檢測(cè),導(dǎo)致檢測(cè)精度不高。由于數(shù)據(jù)集中茶尺蠖形態(tài)多樣、被遮擋,SSD和RetinaNet方法的漏檢測(cè)數(shù)為39和21,可以看出SSD和RetinaNet方法的檢測(cè)精度不高。YOLO系列方法也存在漏檢測(cè)和誤檢測(cè)多的問(wèn)題。所提方法有較少的漏檢測(cè)和誤檢測(cè)數(shù),、、mAP指標(biāo)值高于上述常用目標(biāo)檢測(cè)網(wǎng)絡(luò)方法,其中mAP比SSD、Faster RCNN、YOLOv4分別高17.18個(gè)百分點(diǎn)、6.52個(gè)百分點(diǎn)和4.78個(gè)百分點(diǎn)。如圖5所示為不同檢測(cè)網(wǎng)絡(luò)的檢測(cè)結(jié)果,各網(wǎng)絡(luò)的茶尺蠖檢測(cè)框和真實(shí)框比較,當(dāng)交并比IoU≥0.5,則認(rèn)定模型檢測(cè)正確,反正則認(rèn)定模型檢測(cè)錯(cuò)誤。與表4和圖5可以看出,在使用數(shù)據(jù)增廣和對(duì)比度預(yù)處理的條件下,不同網(wǎng)絡(luò)方法的檢測(cè)精度都有所提高,但本文方法仍優(yōu)于上述常用目標(biāo)檢測(cè)網(wǎng)絡(luò)方法。
表3 訓(xùn)練不同檢測(cè)網(wǎng)絡(luò)的參數(shù)設(shè)置
圖5 本文方法和常用目標(biāo)檢測(cè)網(wǎng)絡(luò)方法的檢測(cè)結(jié)果示例
消融試驗(yàn)結(jié)果如表5所示。從表5可以看出,對(duì)數(shù)據(jù)進(jìn)行增廣和預(yù)處理,利用卷積核組增強(qiáng)對(duì)茶尺蠖的特征提取,通用注意力模塊關(guān)注茶尺蠖整體,并使用Focal loss損失函數(shù)減少前景和背景的類(lèi)不平衡,提升了模型的檢測(cè)精度、召回率和mAP。
由2.3節(jié)和表5可知,對(duì)數(shù)據(jù)進(jìn)行增廣和預(yù)處理,可提高網(wǎng)絡(luò)泛化性,小幅度提升網(wǎng)絡(luò)檢測(cè)效果。上述條件下,在YOLOv5s網(wǎng)絡(luò)中分別加入卷積核組和注意力模塊,可以看出,都對(duì)召回率提升明顯,這是因?yàn)閿?shù)據(jù)集背景復(fù)雜和茶尺蠖形態(tài)變化大,卷積核組和注意力模塊有效抑制它們的影響。最后通過(guò)替換交叉熵?fù)p失函數(shù)為Focal loss時(shí),降低了因前景和背景類(lèi)別不平衡導(dǎo)致的誤檢測(cè),因而所提方法具有較少的誤檢測(cè)和漏檢測(cè),獲得了好的檢測(cè)結(jié)果。與基線網(wǎng)絡(luò)相比,該方法的平均精度均值提高了6.44個(gè)百分點(diǎn)。
表5 消融試驗(yàn)結(jié)果
圖6給出了數(shù)據(jù)增廣前后本文所用模型的訓(xùn)練和驗(yàn)證損失曲線。由圖6a可知,當(dāng)數(shù)據(jù)無(wú)增廣時(shí),訓(xùn)練損失和驗(yàn)證損失存在較大差異,且驗(yàn)證損失波動(dòng)較大,說(shuō)明模型在訓(xùn)練集上表現(xiàn)較好,但在驗(yàn)證集上表現(xiàn)較差,模型訓(xùn)練出現(xiàn)過(guò)擬合;由圖6b可知,當(dāng)數(shù)據(jù)增廣后,訓(xùn)練損失和測(cè)試損失差異極小,且驗(yàn)證損失波動(dòng)較小,說(shuō)明模型在訓(xùn)練集和驗(yàn)證集上表現(xiàn)都較好。
圖6 訓(xùn)練和驗(yàn)證損失曲線
當(dāng)圖像輸入網(wǎng)絡(luò)提取特征時(shí),特征提取網(wǎng)絡(luò)越深,得到的特征圖越抽象。為了直觀展現(xiàn)卷積核組的效果,本研究對(duì)骨干中第一個(gè)C3×9模塊最后一層的特征圖進(jìn)行可視化,如圖7所示,從圖中可以看出,基線網(wǎng)絡(luò)使用卷積核組后獲取的特征圖中茶尺蠖目標(biāo)變得更加明顯,說(shuō)明了卷積核組增強(qiáng)了網(wǎng)絡(luò)對(duì)茶尺蠖目標(biāo)的特征提取能力。
雖然增廣后的數(shù)據(jù)集數(shù)量依然不是很多,但有研究者也使用較少的數(shù)據(jù)集進(jìn)行試驗(yàn),如Cheng等[21]對(duì)10類(lèi)害蟲(chóng)進(jìn)行識(shí)別,每類(lèi)害蟲(chóng)55張圖像,共550張圖像,其中每類(lèi)中40張圖像用于訓(xùn)練,分類(lèi)準(zhǔn)確率達(dá)到98.67%;Chen等[34]使用382張圖像作為訓(xùn)練集,55張圖像作為測(cè)試集對(duì)麥田螨蟲(chóng)進(jìn)行識(shí)別,可達(dá)到96.4%的準(zhǔn)確率;Hu等[35]使用398張茶葉枯萎病進(jìn)行輕度和重度嚴(yán)重度估計(jì),并將訓(xùn)練集增廣到700張,F(xiàn)aster RCNN用于檢測(cè)病葉,VGG16用于嚴(yán)重程度分析,取得了較好的效果。
為了驗(yàn)證本研究小樣本數(shù)據(jù)量的可靠性,又裁剪153張茶尺蠖圖像,按照6:1:3分成訓(xùn)練集、驗(yàn)證集和測(cè)試集,將訓(xùn)練集和測(cè)試集增廣后加入本研究的數(shù)據(jù)集,獲得636張訓(xùn)練圖像、104張驗(yàn)證圖像和80張測(cè)試圖像,其中測(cè)試圖像中有336個(gè)茶尺蠖樣本,使用本文方法對(duì)兩種數(shù)據(jù)集進(jìn)行試驗(yàn),試驗(yàn)結(jié)果如表6所示,從表6可以看出,當(dāng)數(shù)據(jù)量增長(zhǎng)1.36倍時(shí),檢測(cè)結(jié)果的mAP僅增長(zhǎng)0.09個(gè)百分點(diǎn),說(shuō)明本文小樣本數(shù)據(jù)量滿足本文方法要求。
表6 不同增廣數(shù)據(jù)集試驗(yàn)結(jié)果
由于自然場(chǎng)景中獲取的茶尺蠖圖像的背景復(fù)雜、茶尺蠖大小形狀不一且存在部分遮擋等問(wèn)題,現(xiàn)有方法很難獲得較高的檢測(cè)精度,本研究提出了一種以YOLOv5s為基線網(wǎng)絡(luò)的茶尺蠖檢測(cè)方法。
1)為了減少?gòu)?fù)雜背景的影響,本研究將骨干網(wǎng)絡(luò)中的3×3卷積核替換為卷積核組,通過(guò)特征可視化分析可知,卷積核組增強(qiáng)網(wǎng)絡(luò)的特征提取能力;為了減少茶尺蠖體積小和形態(tài)多變的影響,本研究引入注意力模塊,通過(guò)試驗(yàn)結(jié)果分析可知,注意力可以有效提取茶尺蠖的全局信息;為了減小前景和背景類(lèi)不平衡對(duì)檢測(cè)結(jié)果的影響,本研究將交叉熵?fù)p失函數(shù)替換為Focal loss函數(shù),試驗(yàn)結(jié)果表明,F(xiàn)ocal loss損失函數(shù)更進(jìn)一步減少背景的影響。
2)改進(jìn)的YOLOv5s模型對(duì)茶尺蠖的檢測(cè)可以達(dá)到92.89%的平均精度均值(mean Average Precision,mAP),高于經(jīng)典的機(jī)器學(xué)習(xí)方法和常用的深度學(xué)習(xí)方法。
[1] Li L, Li T, Jiang Y, et al. Alteration of local and systemic amino acids metabolism for the inducible defense in tea plant () in response to leaf herbivory by[J]. Archives of Biochemistry and Biophysics, 2020, 683: 108301.
[2] Wang Y N, Tang L, Hou Y, et al. Differential transcriptome analysis of leaves of tea plant () provides comprehensive insights into the defense responses toattack using RNA-Seq[J]. Functional & Integrative Genomics, 2016, 16(4): 383-398.
[3] Hu G, Wu H, Zhang Y, et al. A low shot learning method for tea leaf’s disease identification[J]. Computers and Electronics in Agriculture, 2019, 163: 104852.
[4] Hu G, Yang X, Zhang Y, et al. Identification of tea leaf diseases by using an improved deep convolutional neural network[J]. Sustainable Computing: Informatics and Systems, 2019, 24: 100353.
[5] Kasinathan T, Singaraju D, Uyyala S R. Insect classification and detection in field crops using modern machine learning techniques[J]. Information Processing in Agriculture, 2021, 8(3): 446-457.
[6] Ebrahimi M A, Khoshtaghaza M H, Minaei S, et al. Vision-based pest detection based on SVM classification method[J]. Computers and Electronics in Agriculture, 2017, 137: 52-58.
[7] Qing Y A, Xian D, Liu Q, et al. Automated counting of rice planthoppers in paddy fields based on image processing[J]. Journal of Integrative Agriculture, 2014, 13(8): 1736-1745.
[8] 潘春華,肖德琴,林探宇,等.基于 SVM 和區(qū)域生長(zhǎng)結(jié)合算法的南方主要蔬菜害蟲(chóng)分類(lèi)識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2018,34(8):192-199.
Pan Chunhua, Xiao Deqin, Lin Tanyu, et al. Classification and recognition for major vegetable pests in Southern China using SVM and region growing algorithm[J].Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(8): 192-199. (in Chinese with English abstract)
[9] Long D, Yan H, Hu H, et al. Research on Image Location Technology of Crop Diseases and Pests Based on Haar-Adaboost[C]//2019 International Conference on Virtual Reality and Intelligent Systems (ICVRIS). Hunan: IEEE, 2019: 163-165.
[10] LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[11] Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector[C]//European Conference on Computer Vision. Cham: Springer, 2016: 21-37.
[12] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE International Conference on Computer Vision. Hawaii: IEEE, 2017: 2980-2988.
[13]Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 580-587.
[14] Girshick R. Fast r-cnn[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 1440-1448.
[15] Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[J]. Advances in Neural Information Processing Systems, 2015, 28: 91-99.
[16] Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Honolulu: IEEE, 2017: 7263-7271.
[17] Redmon J, Farhadi A. YOLOv3: An incremental improvement[Z]. [2021-05-21] , https://arxiv.org/abs/ 1804.02767.
[18] Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: Optimal speed and accuracy of object detection[Z]. https://arxiv.org/abs/2004.10934.
[19] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas:IEEE, 2016: 779-788.
[20] Wang Q J, Zhang S Y, Dong S F, et al. Pest24: A large-scale very small object data set of agricultural pests for multi-target detection[J]. Computers and Electronics in Agriculture, 2020, 175: 105585.
[21] Cheng X, Zhang Y, Chen Y, et al. Pest identification via deep residual learning in complex background[J]. Computers and Electronics in Agriculture, 2017, 141: 351-356.
[22] Yue Y, Cheng X, Zhang D, et al. Deep recursive super resolution network with Laplacian Pyramid for better agricultural pest surveillance and detection[J]. Computers and Electronics in Agriculture, 2018, 150: 26-32.
[23] Muppala C, Guruviah V. Detection of leaf folder and yellow stemborer moths in the paddy field using deep neural network with search and rescue optimization[J]. Information Processing in Agriculture, 2021, 8(2): 350-358.
[24] Wang F, Wang R, Xie C, et al. Fusing multi-scale context-aware information representation for automatic in-field pest detection and recognition[J]. Computers and Electronics in Agriculture, 2020, 169: 105222.
[25] Lyu Z, Jin H, Zhen T, et al. Small object recognition algorithm of grain pests based on SSD feature fusion[J]. IEEE Access, 2021, 9: 43202-43213.
[26] 王林惠,蘭玉彬,劉志壯,等. 便攜式柑橘蟲(chóng)害實(shí)時(shí)檢測(cè)系統(tǒng)的研制與試驗(yàn)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(9):282-288.
Wang Linhui, Lan Yubin, Liu Zhizhuang, et al.Development and experiment of the portable real-time detection system for citrus pests[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2007, 23(6): 175-180. (in Chinese with English abstract)
[27] 張博,張苗輝,陳運(yùn)忠. 基于空間金字塔池化和深度卷積神經(jīng)網(wǎng)絡(luò)的作物害蟲(chóng)識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(19):209-215.
Zhang Bo, Zhang Miaohui, Chen Yunzhong, et al. Crop pest identification based on spatial pyramid pooling and deep convolution neural network[J].Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35 (19): 209-215. (in Chinese with English abstract)
[28] Tian Y, Yang G, Wang Z, et al. Apple detection during different growth stages in orchards using the improved YOLO-V3 model[J]. Computers and Electronics in Agriculture, 2019, 157: 417-426.
[29] Shi R, Li T, Yamaguchi Y. An attribution-based pruning method for real-time mango detection with YOLO network[J]. Computers and Electronics in Agriculture, 2020, 169: 105214.
[30] Wu D, Lv S, Jiang M, et al. Using channel pruning-based YOLO v4 deep learning algorithm for the real-time and accurate detection of apple flowers in natural environments[J]. Computers and Electronics in Agriculture, 2020, 178: 105742.
[31] Suo R, Gao F, Zhou Z, et al. Improved multi-classes kiwifruit detection in orchard to avoid collisions during robotic picking[J]. Computers and Electronics in Agriculture, 2021, 182: 106052.
[32] 王金鵬,高凱,姜洪喆,等. 基于改進(jìn)的輕量化卷積神經(jīng)網(wǎng)絡(luò)火龍果檢測(cè)方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(20):218-225.
Wang Jinpeng, Gao Kai, Jiang Hongzhe, et al. Method for detecting dragon fruit based on improved lightweight convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(20): 218-225. (in Chinese with English abstract)
[33] Li X, Wang W, Hu X, et al. Selective kernel networks[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 510-519.
[34] Chen P, Li W L, Yao S J, et al. Recognition and counting of wheat mites in wheat fields by a three-step deep learning method[J]. Neurocomputing, 2021, 437: 21-30.
[35] Hu G, Wang H, Zhang Y, et al. Detection and severity analysis of tea leaf blight based on deep learning[J]. Computers & Electrical Engineering, 2021, 90: 107023.
Detection ofin complex background images using improved YOLOv5
Hu Gensheng, Wu Jitian, Bao Wenxia※, Zeng Weihui
(230601)
Diseases and pests have posed a great threat to the yield and quality of tea in recent years. Among them, theis one of the most common pests in tea growth. A traditional detection has normally used the appearance of the pests, such as the color, morphology, and texture. But, these are more sensitive to the environments, particularly to the complex background, where the pests appear. A rapid and accurate detection cannot be realized, because: 1) The training samples are taken in different scales, while the pest is normally small in size; 2) The pest with the changeable shape and color may be shielded to obscure during imaging; 3) The color and texture of the pest can be similar to the tree branches and dead leaves of tea. Therefore, it is very necessary to identify and recognize the pest in a complex background in tea production. In this study, a rapid and accurate detection was proposed for thein complex background images using the improved YOLOv5 deep learning. Definitely, the YOLOv5 was taken as the baseline network. A labeling operation was first used to manually label the pest samples in the training and validation images. The data was then enhanced using the flipping, and contrast enhancement, particularly that the Gaussian noise was added to prevent data from overfitting. Meanwhile, the contrast of the test image was adjusted to reduce the influence of complex backgrounds, such as the tea pole on the detection of the scorpion. A convolution kernel group was also used to enhance the feature extraction without increasing the computation load. Furthermore, an attention module was utilized to adaptively adjust the receptive field, thereby enhancing the feature representation, according to the size and shape of the. More importantly, a Focal Loss function was used to reduce the impact of class imbalances between foreground and background during detection. The experimental results show that the convolution kernel group was effectively reduced the interference of complex background to the detection of tea geometrid. The attention module also presented an excellent performance to reduce the missed detection, due to the varying sizes and shapes of targets. Specifically, the best detection was achieved for the images with a complex background, where 0.94 recall, 0.96 precision, and 92.89% mean average precision. The improved accuracy increased by 6.44 percentage points, compared with the original YOLOv5. Moreover, there were 17.18 percentage points higher than the SSD, 6.52 percentage points higher than the Faster-RCNN, and 4.78 percentage points higher than the YOLOv4, compared with the SSD, Faster-RCNN, and YOLOv4. Consequently, the improved YOLOv5 can be widely expected to realize the intelligent monitoring ofpests in the precise pesticide application for the higher yield and quality of tea.
agriculture; algorithm; object detection; deep learning; convolution kernel group; attention module;
10.11975/j.issn.1002-6819.2021.21.022
TP391.4
A
1002-6819(2021)-21-0191-08
胡根生,吳繼甜,鮑文霞,等.基于改進(jìn)YOLOv5網(wǎng)絡(luò)的復(fù)雜背景圖像中茶尺蠖檢測(cè)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(21):191-198.doi:10.11975/j.issn.1002-6819.2021.21.022 http://www.tcsae.org
Hu Gensheng, Wu Jitian, Bao Wenxia, et al. Detection of Ectropis oblique in complex background images using improved YOLOv5[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(21): 191-198. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.21.022 http://www.tcsae.org
2021-06-18
2021-10-08
安徽省高等學(xué)校自然科學(xué)研究重大項(xiàng)目(KJ2020ZD03);農(nóng)業(yè)生態(tài)大數(shù)據(jù)分析與應(yīng)用技術(shù)國(guó)家地方聯(lián)合工程研究中心開(kāi)放課題項(xiàng)目(AE201902)
胡根生,博士,教授,研究方向?yàn)檗r(nóng)業(yè)信息處理與應(yīng)用。Email:hugs2906@sina.com
鮑文霞,博士,副教授,研究方向?yàn)檗r(nóng)業(yè)信息處理與模式識(shí)別。Email:bwxia@ahu.edu.cn