摘要
蟲害是影響農(nóng)作物產(chǎn)量的重要因素之一,害蟲種類的精確識(shí)別已成為農(nóng)業(yè)領(lǐng)域目標(biāo)檢測(cè)的重要研究課題。但由于害蟲樣本存在類間相似,標(biāo)注的害蟲樣本尺度多樣、背景復(fù)雜和類別分布不均勻等問(wèn)題,使害蟲的精準(zhǔn)識(shí)別面臨嚴(yán)峻挑戰(zhàn)。為此,本文提出一種基于YOLOv5改進(jìn)模型的農(nóng)業(yè)害蟲檢測(cè)新方法。首先,引入了一種新型特征金字塔(feature pyramid attention, FPA)模塊,用于替換基準(zhǔn)YOLOv5主干網(wǎng)絡(luò)的空間金字塔池化(spatial pyramid pooling, SPP)模塊。該模塊能夠進(jìn)行不同尺度的特征提取,并將提取的特征拼接作為注意力機(jī)制指導(dǎo)網(wǎng)絡(luò)進(jìn)行細(xì)粒度特征提取。然后,在YOLOv5主干網(wǎng)絡(luò)輸出層的特征提取過(guò)程中插入全局注意力上采樣(global attention upsampling, GAU)模塊,用高級(jí)特征的全局信息來(lái)指導(dǎo)模型從復(fù)雜背景中提取特征,使得模型能夠從低級(jí)特征中更精準(zhǔn)地提取類別定位細(xì)節(jié)特征,進(jìn)而提高模型的識(shí)別精度。本文在IP102害蟲數(shù)據(jù)集上進(jìn)行算法驗(yàn)證,結(jié)果表明,與現(xiàn)有的多尺度注意學(xué)習(xí)網(wǎng)絡(luò)(multiscale attention learning network, MS-ALN)相比準(zhǔn)確率提升了3.21百分點(diǎn)。
關(guān)鍵詞
害蟲識(shí)別;" YOLOv5;" 數(shù)據(jù)增強(qiáng);" 注意力機(jī)制;" 多尺度特征提取
中圖分類號(hào):
TP 391. 41
文獻(xiàn)標(biāo)識(shí)碼:" A
DOI:" 10.16688/j.zwbh.2024089
收稿日期:" 20240221""" 修訂日期:" 20240320
基金項(xiàng)目:
國(guó)家自然科學(xué)基金(31760342)
致" 謝:nbsp; 參加本試驗(yàn)部分工作的還有江代禮、譚翰杰、張能和紀(jì)燁斌等同學(xué),特此一并致謝。
* 通信作者
E-mail:
ssjlb@gxu.edu.cn
#
為并列第一作者
A YOLOv5-based method for agricultural pest detection
LI Zongzhu," SONG Shaojian*," LI Xiuhua
(School of Electrical Engineering, Guangxi University, Nanning" 530004, China)
Abstract
Pest attack is a critical factor that affects agricultural crop yields, and the accurate identification of pest species
has become an important research topic in the field of target detection in agriculture
. However, the accurate identification of pests still face critical challenges due to the issues, such as complex backgrounds, interclass similarities, multiple scales of annotated samples, and uneven distributions among different category samples. Therefore, this paper proposed a new method for detecting crop pests based on an improved YOLOv5 model. First, we introduced a feature pyramid attention (FPA) module to replace the spatial pyramid pooling (SPP) module in the backbone of YOLOv5, which enhances the network performance in extracting features of different scales and
concatenates the extracted features as an attention mechanism to
guide the network to extract fine-grained features. Then, a global attention upsampling (GAU) module was inserted into the output layers of the backbone to guide the model to extract features from complex backgrounds. Experiments conducted on the IP102 dataset showed that the accuracy was improved by 3.21 percent point compared to the multiscale attention learning network (MS-ALN), which achieved state-of-the-art performance on the IP102 dataset.
Key words
pest identification;" YOLOv5 (You Only Look Once version 5);" data augmentation;" attention mechanism;" multi-scale feature extraction
蟲害是造成農(nóng)作物減產(chǎn)、農(nóng)業(yè)重大經(jīng)濟(jì)損失的主要因素之一。全球因害蟲造成的作物損失占總產(chǎn)量的50%~80%[1]。蟲情監(jiān)測(cè)在病蟲害防治和農(nóng)業(yè)管理中發(fā)揮著至關(guān)重要的作用。及時(shí)采取病蟲害預(yù)警和防治措施, 可以顯著減少農(nóng)作物的經(jīng)濟(jì)損失。然而農(nóng)業(yè)害蟲種類繁多, 部分害蟲在外觀上高度相似, 導(dǎo)致只有少數(shù)農(nóng)業(yè)專家能夠正確識(shí)別和區(qū)分它們。因此, 農(nóng)作物害蟲的識(shí)別很大程度上依賴于專業(yè)知識(shí), 這既昂貴又低效[2]。隨著機(jī)器學(xué)習(xí)和害蟲數(shù)據(jù)集的發(fā)展, 基于機(jī)器學(xué)習(xí)的害蟲識(shí)別在智慧農(nóng)業(yè)領(lǐng)域越來(lái)越受到關(guān)注[37]。Wen等[8]使用不變的局部特征模型、全局特征模型和層次組合模型設(shè)計(jì)了1種基于圖像的昆蟲自動(dòng)識(shí)別和分類方法。Larios等[9]改進(jìn)了基于尺度不變特征變換的特征提取策略。Csurka等[10]使用特征袋方法提取果蠅幼蟲的區(qū)域特征, 并將這些區(qū)域表示為尺度不變特征變換向量, 然后使用集成分類算法對(duì)其進(jìn)行分類。Yao等[11]提出了1種利用害蟲和非害蟲圖像之間的顏色差異去除背景的方法。他們提取了156個(gè)特征,包括每種害蟲的顏色、形狀和紋理等, 并使用徑向基核函數(shù)和支持向量機(jī)進(jìn)行建模。這些算法的性能在很大程度上取決于手動(dòng)設(shè)計(jì)的特征提取算法, 既麻煩又耗時(shí)。
近年來(lái), 卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)在模式識(shí)別和機(jī)器學(xué)習(xí)領(lǐng)域取得了快速發(fā)展[1213], 研究人員嘗試將CNN應(yīng)用于害蟲識(shí)別。Dimililer等[14]提出了1種基于兩階段神經(jīng)網(wǎng)絡(luò)的方法。在第一階段, 使用各種圖像處理技術(shù)來(lái)處理害蟲圖像以檢測(cè)其幾何形狀。在下一階段, 在處理后的圖像上訓(xùn)練和測(cè)試反向傳播神經(jīng)網(wǎng)絡(luò)。Ayan等[15]提出了1種包含多個(gè)分支的CNN結(jié)構(gòu)以提高識(shí)別精度。通過(guò)遺傳算法對(duì)不同分支的預(yù)測(cè)概率進(jìn)行加權(quán),根據(jù)加權(quán)結(jié)果在決策時(shí)選擇模型。Tang等[16]提出了基于改善CNN和YOLOv4的實(shí)時(shí)農(nóng)業(yè)害蟲檢測(cè)方法Pest-YOLO。Pest-YOLO將SE注意機(jī)制模塊引入YOLOv4, 并設(shè)計(jì)了跨階段的多次融合方法, 通過(guò)改善特征金字塔網(wǎng)絡(luò)的結(jié)構(gòu)和路徑聚合網(wǎng)絡(luò)來(lái)增強(qiáng)害蟲和其他小物體的特征表達(dá)能力。Wang等[17]提出了1個(gè)具有注意力機(jī)制的三尺度CNN模型(three-scale CNN with attention, TSCNNA), TSCNNA通過(guò)將通道注意力和空間注意力機(jī)制引入CNN來(lái)構(gòu)建用于作物有害生物的檢測(cè)。TSCNNA可以在復(fù)雜背景下提取不同尺寸的害蟲特征, 并豐富CNN的感受野。上述方法采用了CNN的端到端訓(xùn)練, 避免了手動(dòng)特征提取的繁瑣過(guò)程, 但上述模型僅能識(shí)別特定的害蟲類別, 因此所使用的害蟲數(shù)據(jù)集包含類別很少。為了緩解現(xiàn)有害蟲數(shù)據(jù)集樣本量有限和缺乏多樣性的問(wèn)題, Wu等[18]構(gòu)建了用于害蟲識(shí)別的大規(guī)模數(shù)據(jù)集IP102, 目前基于IP102的網(wǎng)絡(luò)設(shè)計(jì)可大致分為兩類: 設(shè)計(jì)基于顯著性的策略網(wǎng)絡(luò);設(shè)計(jì)特定任務(wù)的識(shí)別網(wǎng)絡(luò)。Nanni等[19]提出了一種基于顯著性方法和卷積神經(jīng)網(wǎng)絡(luò)融合的自動(dòng)分類器,使用3種不同的顯著性方法創(chuàng)建不同的圖像以訓(xùn)練不同的卷積神經(jīng)網(wǎng)絡(luò)。Luo等[20]提出了一種顯著性引導(dǎo)的鑒別學(xué)習(xí)網(wǎng)絡(luò), 設(shè)計(jì)了2個(gè)共享參數(shù)的分支:原始分支用于提取粗粒度特征, 而細(xì)粒度分支通過(guò)細(xì)粒度特征挖掘模塊挖掘細(xì)粒度特征, 作為在原始分支中約束特征學(xué)習(xí)的一種方式。Feng等[21]提出了一個(gè)多尺度注意學(xué)習(xí)網(wǎng)絡(luò)(multiscale attention learning network, MS-ALN), 該網(wǎng)絡(luò)通過(guò)遞歸方式定位鑒別區(qū)域, 并在4個(gè)分支中學(xué)習(xí)各區(qū)域的特征。
盡管近年來(lái)對(duì)大規(guī)模害蟲數(shù)據(jù)集的研究不斷取得進(jìn)展, 但最新提出的模型識(shí)別精度仍然較低, 目前基于大規(guī)模數(shù)據(jù)集的害蟲識(shí)別面臨著一些挑戰(zhàn): 1)數(shù)據(jù)集中取樣的多尺度導(dǎo)致樣本的特征提取困難;2)同類別中存在類內(nèi)變異以及不同類別之間特征相似導(dǎo)致模型難以提取到有效特征;3)自然環(huán)境中對(duì)害蟲的取樣存在復(fù)雜背景干擾特征提取;4)樣本分布極不均衡, 部分類別樣本數(shù)量極少, 使模型難以學(xué)習(xí)到類別特征。為了解決上述難點(diǎn), 并提高在大規(guī)模數(shù)據(jù)集上的害蟲識(shí)別精度, 本文提出了一種改進(jìn)的YOLOv5模型并將之應(yīng)用到害蟲的分類檢測(cè)。
1" 材料與方法
1.1" 數(shù)據(jù)集和數(shù)據(jù)處理
1.1.1" IP102農(nóng)業(yè)害蟲數(shù)據(jù)集
IP102害蟲數(shù)據(jù)集在蟲害識(shí)別領(lǐng)域廣泛使用, 數(shù)據(jù)集涵蓋了102類害蟲。IP102按害蟲損害的作物進(jìn)行劃分, 其中包括57類大田作物害蟲和45類經(jīng)濟(jì)作物害蟲, 大田作物害蟲涵括了14類水稻害蟲、13類玉米害蟲、9類小麥害蟲、8類甜菜害蟲和13類苜蓿害蟲, 經(jīng)濟(jì)作物害蟲涵蓋了16類葡萄害蟲、19類柑橘害蟲和10類芒果害蟲。
IP102數(shù)據(jù)集有一個(gè)層次分類系統(tǒng)(圖1), 每個(gè)害蟲類別有對(duì)應(yīng)的作物上級(jí)分類, 而作物也有大田作物或者經(jīng)濟(jì)作物2個(gè)上級(jí)分類。以芒果橫線尾夜蛾Chlumetia transversa為例, 上級(jí)分類為芒果作物害蟲, 芒果作物害蟲的上級(jí)分類是經(jīng)濟(jì)作物害蟲。
1.1.2" 數(shù)據(jù)處理
IP102數(shù)據(jù)集收集了102個(gè)類別的75 222張圖像, 其中約18 983幅圖像標(biāo)注了用于目標(biāo)檢測(cè)的錨框, 并將標(biāo)注的類別名稱簡(jiǎn)化為數(shù)字0~101,對(duì)應(yīng)102個(gè)害蟲類別名。本文對(duì)數(shù)據(jù)集中各類別的樣本數(shù)進(jìn)行統(tǒng)計(jì), 最多的樣本數(shù)為2 975, 最少的樣本數(shù)為13。最多樣本類別和最少樣本類別的樣本比率接近229∶1。通常數(shù)據(jù)呈長(zhǎng)尾分布能夠訓(xùn)練出魯棒性較高的模型, 但是如果單個(gè)類別的樣本數(shù)過(guò)少極易導(dǎo)致由于訓(xùn)練樣本不足而發(fā)生的欠擬合現(xiàn)象, 最終降低整體模型的檢測(cè)精度。為提升模型精度,可通過(guò)數(shù)據(jù)增強(qiáng)方法創(chuàng)建與訓(xùn)練樣本相似的樣本來(lái)提高模型的泛化能力。
本文通過(guò)圖像增強(qiáng)方法對(duì)IP102害蟲數(shù)據(jù)集中的樣本數(shù)量不足的類別進(jìn)行增強(qiáng)。常見(jiàn)的數(shù)據(jù)增強(qiáng)方法包括: 垂直翻轉(zhuǎn)、水平翻轉(zhuǎn)、旋轉(zhuǎn)、平移縮放旋轉(zhuǎn)、隨機(jī)裁剪、隨機(jī)對(duì)比度、隨機(jī)亮度、運(yùn)動(dòng)模糊和高斯模糊等, 其中垂直翻轉(zhuǎn)、水平翻轉(zhuǎn)、旋轉(zhuǎn)、平移縮放旋轉(zhuǎn)是對(duì)圖像進(jìn)行幾何增強(qiáng), 增加不同角度的樣本來(lái)增強(qiáng)模型對(duì)樣本特征的學(xué)習(xí)。隨機(jī)對(duì)比度、隨機(jī)亮度是對(duì)圖像進(jìn)行色彩增強(qiáng), 增加圖像RGB的多樣性使模型能夠?qū)W習(xí)不同場(chǎng)景下的樣本特征。運(yùn)動(dòng)模糊、高斯模糊是對(duì)圖像進(jìn)行模糊處理來(lái)降低圖像的噪聲和減少圖像的細(xì)節(jié)。高斯模糊是用正態(tài)分布來(lái)分配每個(gè)點(diǎn)求取周圍像素平均值的權(quán)重;運(yùn)動(dòng)模糊是使靜態(tài)的影像向某一方向運(yùn)動(dòng), 并將運(yùn)動(dòng)的圖像重疊, 將像素信息縮小后相加。模糊處理后的圖能夠讓模型對(duì)不同品質(zhì)的圖像都能進(jìn)行高效的學(xué)習(xí), 增加模型在低分辨率數(shù)據(jù)庫(kù)、惡劣天氣等場(chǎng)景的應(yīng)用。數(shù)據(jù)增強(qiáng)后的圖片效果如圖2所示。具體方法是將IP102害蟲數(shù)據(jù)集中樣本數(shù)少于50的類別劃為稀缺樣本類別, 將樣本數(shù)大于50少于100的類別劃為少量樣本類別。圖像增強(qiáng)方法選取垂直翻轉(zhuǎn)、平移縮放旋轉(zhuǎn)、中心裁剪、隨機(jī)裁剪、運(yùn)動(dòng)模糊、隨機(jī)對(duì)比度、隨機(jī)亮度、水平和垂直翻轉(zhuǎn)、水平翻轉(zhuǎn)、縮放、旋轉(zhuǎn)和高斯模糊等11種增強(qiáng)方法, 對(duì)稀缺樣本類別隨機(jī)選取10種增強(qiáng)方式進(jìn)行增強(qiáng), 對(duì)少量樣本類別隨機(jī)選取5種增強(qiáng)方式進(jìn)行增強(qiáng), 最終將初始數(shù)據(jù)集從18 983張圖片拓展到28 055張, 增強(qiáng)前后的部分類別樣本數(shù)量分布如圖3所示。
1.2" YOLOv5檢測(cè)算法及改進(jìn)方法
在目標(biāo)檢測(cè)領(lǐng)域, YOLO系列算法具有精度高、檢測(cè)速度快、參數(shù)量少等特點(diǎn)。隨著YOLO算法版本的改變, YOLOv5的檢測(cè)速度在提高精度的基礎(chǔ)上有了很大提高, 而且模型也更小。YOLOv5網(wǎng)絡(luò)模型的高級(jí)特征映射具有更廣泛的接受域, 并側(cè)重于表示抽象語(yǔ)義信息。但農(nóng)業(yè)害蟲檢測(cè)識(shí)別任務(wù)往往存在背景復(fù)雜、尺度多樣、類別相似性等難題, 使得YOLOv5難以取得較好的識(shí)別結(jié)果, 因此本節(jié)將介紹基于YOLOv5基準(zhǔn)模型進(jìn)行的改進(jìn)策略, 使改進(jìn)后的YOLOv5模型在農(nóng)業(yè)害蟲檢測(cè)識(shí)別領(lǐng)域取得更好效果。
1.2.1" YOLOv5檢測(cè)算法
YOLOv5模型主要由Backbone、Neck、Head 3個(gè)部分組成。Backbone可以被稱作YOLOv5的主干特征提取網(wǎng)絡(luò), 輸入的圖片首先會(huì)在主干網(wǎng)絡(luò)中進(jìn)行特征提取, 主干網(wǎng)絡(luò)最終輸出的特征可以被稱作特征層。在主干部分最終獲取3個(gè)特征層進(jìn)行Neck部分網(wǎng)絡(luò)的構(gòu)建, 這3個(gè)特征層被稱為有效特征層。3個(gè)有效特征層會(huì)在Neck部分進(jìn)行特征融合, 以獲得不同尺度的特征信息。Head是YOLOv5的分類器與回歸器, YOLO系列的解耦頭是一樣的, 也就是分類和回歸在一個(gè)1×1卷積里實(shí)現(xiàn)。
Backbone主要由Focus結(jié)構(gòu)、跨階段部分(cross stage partial, CSP)結(jié)構(gòu)和空間金字塔池化(spatial pyramid pooling, SPP)結(jié)構(gòu)組成。如圖4所示, Focus結(jié)構(gòu)主要用于切片操作, 通過(guò)降低計(jì)算復(fù)雜度和網(wǎng)絡(luò)層數(shù)來(lái)提高速度。CSP網(wǎng)絡(luò)通過(guò)將一個(gè)網(wǎng)絡(luò)階段從開(kāi)始到結(jié)束的梯度變化融入特征層中, 解決了其他大型卷積神經(jīng)網(wǎng)絡(luò)框架中梯度信息冗余的問(wèn)題, 減少了模型的參數(shù)和浮點(diǎn)運(yùn)算量, 保證了推理速度和準(zhǔn)確性, 并減小模型尺寸。SPP網(wǎng)絡(luò)通過(guò)融合局部和全局特征豐富了特征層的表達(dá)能力, 這有利于待檢測(cè)圖像中目標(biāo)尺寸差異較大的情況, 并兼容多種尺度的特征。
Neck使用特征金字塔網(wǎng)絡(luò)(feature pyramid network, FPN)和金字塔注意力網(wǎng)絡(luò)(pyramid attention network, PAN)結(jié)構(gòu)來(lái)聚合特征。如圖5所示, FPN通過(guò)向上采樣從上到下傳輸和集成高級(jí)特征信息, 以傳遞強(qiáng)大的語(yǔ)義特征。PAN是一個(gè)自下而上的特征金字塔, 傳達(dá)了強(qiáng)大的定位特征。兩者同時(shí)用于增強(qiáng)網(wǎng)絡(luò)特征融合能力。Head主要用于最終檢測(cè)部分。它在特征層上生成錨框, 并生成帶有類概率、目標(biāo)得分和錨框的最終輸出向量, 其包括錨框的損失函數(shù)和非極大抑制(non maximum suppression, NMS)。將錨框的損失函數(shù)從CIoU (complete intersection of unit)損失改進(jìn)為GIoU (generalized intersection of unit)損失, 有效地解決了錨框重合的問(wèn)題, 提高了預(yù)測(cè)框回歸的速度
和精度。在目標(biāo)檢測(cè)的處理過(guò)程中, YOLOv5使用加權(quán)NMS操作過(guò)濾同目標(biāo)的多個(gè)錨框, 增強(qiáng)了對(duì)多個(gè)目標(biāo)和遮擋目標(biāo)的識(shí)別能力, 獲得了最優(yōu)目標(biāo)檢測(cè)框。
1.2.2" YOLOv5檢測(cè)算法的改進(jìn)
YOLOv5目標(biāo)檢測(cè)網(wǎng)絡(luò)的改進(jìn)主要分為兩部分: 首先, 引入FPA (feature pyramid attention)模塊替換Backbone中的SPP模塊, 以提取多尺度特征, 進(jìn)而解決圖片中樣本尺度各異導(dǎo)致的漏檢問(wèn)題。其次, 在Backbone的3個(gè)特征提取層間插入了GAU (global attention upsampling)模塊, 用高級(jí)特征的全局信息指導(dǎo)低級(jí)特征在復(fù)雜背景中提取細(xì)粒度特征, 以解決害蟲復(fù)雜背景中的漏檢問(wèn)題、害蟲類別相似或種類間變異導(dǎo)致的誤判問(wèn)題。改進(jìn)后的YOLOv5結(jié)構(gòu)如圖6所示。
1.2.2.1" FPA模塊
YOLOv5基準(zhǔn)模型的主干網(wǎng)絡(luò)中SPP模塊主要是為了解決圖像區(qū)域裁剪、縮放操作導(dǎo)致的圖像失真, 以及卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像相關(guān)重復(fù)特征提取的問(wèn)題, 大大提高了產(chǎn)生候選框的速度, 且節(jié)省了計(jì)算成本。在YOLO系列網(wǎng)絡(luò)中SPP模塊僅僅是實(shí)現(xiàn)了對(duì)局部特征和全局特征的提取, 特征層經(jīng)過(guò)局部特征與全局特征相融合后, 豐富了特征層的表達(dá)能力, 有利于待檢測(cè)圖像中目標(biāo)尺寸差異較大的情況。但是, 由于IP102害蟲數(shù)據(jù)集中的害蟲樣本存在復(fù)雜背景、取樣多尺度導(dǎo)致的分類困難問(wèn)題, 僅靠SPP通過(guò)空間并行池化難以充分地提取到有效的多尺度特征, 所以本節(jié)引入了FPA模塊嘗試從網(wǎng)絡(luò)中提取高級(jí)特征, 以提取精確的像素級(jí)注意力, 能夠提取高級(jí)特征并有效地對(duì)小型目標(biāo)進(jìn)行分類。
FPA模塊通過(guò)實(shí)現(xiàn)一個(gè)類似于U形結(jié)構(gòu)的特征金字塔網(wǎng)絡(luò)(圖7), 融合了3個(gè)不同金字塔尺度下的特征。為了更好地從不同的金字塔尺度中提取上下文信息, 本節(jié)在金字塔結(jié)構(gòu)中分別使用3×3、5×5、7×7卷積。由于高級(jí)特征映射的分辨率很小, 因此使用較大的內(nèi)核不會(huì)帶來(lái)太多計(jì)算負(fù)擔(dān)。金字塔結(jié)構(gòu)逐步整合不同尺度的信息,可以更精確地整合上下文特征的相鄰尺度。在經(jīng)過(guò)1×1卷積后, 將來(lái)自CNN的原始特征與金字塔注意力特征相乘。
1.2.2.2" GAU模塊
在目標(biāo)檢測(cè)領(lǐng)域中,將主干網(wǎng)絡(luò)與特征金字塔模塊相結(jié)合可以顯著提升模型的性能,同時(shí)增強(qiáng)模型對(duì)多尺度目標(biāo)特征的表達(dá)能力和
類別信息的提取能力。YOLOv5中主干網(wǎng)絡(luò)有3個(gè)特征層輸出到金字塔模塊,我們希望主干網(wǎng)絡(luò)輸出的特征層能夠?yàn)V除復(fù)雜背景的干擾并更具細(xì)粒度特征,進(jìn)而使得特征層在金字塔模塊中更有效地獲取類別信息。因此,本研究引入了一種有效的解碼器模塊,GAU模塊,它可以提取高級(jí)特征層的全局上下文信息
,指導(dǎo)低級(jí)特征的信息加權(quán),且不會(huì)增加太多計(jì)算負(fù)擔(dān)。
GAU模塊執(zhí)行全局平均池化,以提供全局上下文信息,指導(dǎo)低級(jí)特征層選擇類別細(xì)節(jié)。如圖8所示, 我們對(duì)低級(jí)特征進(jìn)行3×3卷積, 以減少來(lái)自CNN的特征映射通道。從高級(jí)特征層生成的全局上下文信息是通過(guò)1×1卷積和批量歸一化和ReLU非線性, 然后乘以低級(jí)特征層。最后, 用加權(quán)的低級(jí)特征直連高級(jí)特征, 并逐漸上采樣。該模塊讓高級(jí)特征層以簡(jiǎn)單的方式向低級(jí)特征層提供指導(dǎo)信息。
1.3" 試驗(yàn)環(huán)境
本試驗(yàn)在個(gè)人PC機(jī)和python 3.8的軟件環(huán)境上進(jìn)行。采用了第十二代Intel (R) CoreTM i5-12600KF 3.69 GHz CPU、12 GB運(yùn)行內(nèi)存和NVidia GeForce RTX 3 060 GPU (12 GB內(nèi)存)。隨機(jī)選取了IP102增強(qiáng)后數(shù)據(jù)集共28 055張圖片中的90%圖像進(jìn)行模型訓(xùn)練,余下的10%用于模型測(cè)試。
訓(xùn)練模型使用預(yù)訓(xùn)練權(quán)重進(jìn)行凍結(jié)訓(xùn)練,凍結(jié)訓(xùn)練階段批量大小設(shè)置為8,凍結(jié)訓(xùn)練100個(gè)時(shí)期,解凍訓(xùn)練階段批量大小為4,解凍訓(xùn)練100個(gè)時(shí)期。所有訓(xùn)練過(guò)程的最大學(xué)習(xí)率為0.01,最小學(xué)習(xí)率為0.000 1,模型優(yōu)化器選擇隨機(jī)梯度下降優(yōu)化器。
1.4" 評(píng)價(jià)指標(biāo)
樣本被分為正樣本且分配正確表示為TP,樣本被分為負(fù)樣本且分配正確表示為TN,樣本被分為正樣本但分配錯(cuò)誤表示為FP,樣本被分為負(fù)樣本但分配錯(cuò)誤表示為FN。Precision即精度(P),表示被正確分配的正樣本數(shù)占總分配的正樣本數(shù)比例,計(jì)算公式如下:
P=TPTP+FP(1)
Recall即召回率(R), 表示被正確分配的正樣本數(shù)占總正樣本數(shù)的比例, 計(jì)算公式如下:
R=TPTP+FN(2)
F1-score又稱F1分?jǐn)?shù), 是分類問(wèn)題的一個(gè)衡量指標(biāo), 常為多分類問(wèn)題的最終指標(biāo), 它是精度和召回率的調(diào)和平均數(shù), 計(jì)算公式如下:
F1-score=2×R×PR+P(3)
平均精度均值(mAP)是目標(biāo)檢測(cè)種非常重要的評(píng)估指標(biāo), 是對(duì)模型好壞的評(píng)價(jià)標(biāo)準(zhǔn)。計(jì)算mAP值首先需要設(shè)置i組不同的置信度, 在不同置信度閾值下獲得Precision和Recall并繪制PR曲線, 然后使用差值平均準(zhǔn)確率的評(píng)測(cè)方法計(jì)算PR曲線下的面積, 即該類別的平均精度(average precision, AP)值, 最后所有類別的AP值取平均得到模型的mAP值。其計(jì)算公式如下:
AP=1i∑r∈1i,2i…i-1i,1P_interp(r)
mAP=1n∑AP (4)
式中,P_interp(r)為插值精度(interpolated precision),r表示召回率,i是分段數(shù)量。即召回率從0~100%分為了i段,每個(gè)i插值對(duì)應(yīng)的精度(precision)求平均,即為AP值。
2" 結(jié)果與分析
2.1" 數(shù)據(jù)增強(qiáng)對(duì)比試驗(yàn)
為了驗(yàn)證使用增強(qiáng)數(shù)據(jù)集對(duì)模型性能的改進(jìn), 在原始數(shù)據(jù)集和增強(qiáng)數(shù)據(jù)集上對(duì)增強(qiáng)模型進(jìn)行了訓(xùn)練。訓(xùn)練后模型的性能如表1所示。
結(jié)果表明, 在增強(qiáng)數(shù)據(jù)集上進(jìn)行訓(xùn)練時(shí), 模型性能有所提高。準(zhǔn)確率提升10.88百分點(diǎn), F1分?jǐn)?shù)提升32.65百分點(diǎn)。這證實(shí)了增強(qiáng)后的數(shù)據(jù)集在保持長(zhǎng)尾分布的同時(shí)類別樣本比例合適, 使模型能夠?qū)W習(xí)更多類別特定的特征, 從而提高其分類性能。
為了驗(yàn)證數(shù)據(jù)增強(qiáng)能有效提升稀缺類別、少量類別的樣本識(shí)別效果, 我們將稀缺類別、少量類別的驗(yàn)證結(jié)果單獨(dú)劃分呈現(xiàn), 對(duì)比增強(qiáng)前后的試驗(yàn)結(jié)果
(表2)表明, 對(duì)于稀缺類別進(jìn)行數(shù)據(jù)增強(qiáng), 準(zhǔn)確率提升7百分點(diǎn), F1分?jǐn)?shù)提升47.68百分點(diǎn);對(duì)于少量類別進(jìn)行數(shù)據(jù)增強(qiáng), 準(zhǔn)確率提升11.27百分點(diǎn), F1分?jǐn)?shù)提升18.74百分點(diǎn)。數(shù)據(jù)增強(qiáng)對(duì)于稀缺類別、少量類別的準(zhǔn)確率提升較小, 因?yàn)闃颖緮?shù)量的限制, 稀缺類別、少量類別的特征沒(méi)有被模型充分學(xué)習(xí), 其他類別的樣本也不會(huì)被誤識(shí)別為稀缺類別、少量類別。所以增強(qiáng)前的稀缺類別、少量類別精確度會(huì)較高, 數(shù)據(jù)增強(qiáng)對(duì)精確度的提升較小。而數(shù)據(jù)增強(qiáng)對(duì)稀缺類別、少量類別的F1分?jǐn)?shù)提升較大, 稀缺類別的F1分?jǐn)?shù)提升更為突出。這證實(shí)了數(shù)據(jù)增強(qiáng)能夠很好地解決稀缺類別、少量類別的樣本被誤分類的問(wèn)題, 樣本數(shù)量越少的類別提升更多。
2.2" 消融試驗(yàn)
為了證明本文引入的FPA、GAU的有效性, 在IP102數(shù)據(jù)集上進(jìn)行消融試驗(yàn)。識(shí)別結(jié)果如表3所示。
在YOLOv5模型的基礎(chǔ)上單獨(dú)
引入FPA模塊進(jìn)行不同尺度的特征提取, 能夠?qū)⑻崛〉奶卣髌唇幼鳛樽⒁饬C(jī)制指導(dǎo)網(wǎng)絡(luò)進(jìn)行細(xì)粒度特征提取, 與YOLOv5基準(zhǔn)模型相比,mAP值提高了3.84百分點(diǎn), 準(zhǔn)確率提升了5.36百分點(diǎn), F1分?jǐn)?shù)提高了15.07百分點(diǎn)。在YOLOv5模型的基礎(chǔ)上單獨(dú)引入GAU模塊,用高級(jí)特征的全局信息來(lái)指導(dǎo)模型從復(fù)雜背景中提取特征, 使得模型在低級(jí)特征中能夠更精準(zhǔn)地提取類別定位細(xì)節(jié)特征, 進(jìn)而提高模型識(shí)別精度,與YOLOv5基準(zhǔn)模型相比,mAP值提高了0.98百分點(diǎn), 準(zhǔn)確度提升了1.53百分點(diǎn), F1分?jǐn)?shù)提高了6.85百分點(diǎn)。同時(shí)引入FPA模塊與GAU模塊后,與YOLOv5基準(zhǔn)模型相比,模型整體mAP值提高了8.46百分點(diǎn), 準(zhǔn)確率提升了8.5百分點(diǎn), F1分?jǐn)?shù)提高了24.28百分點(diǎn)。模型的識(shí)別性能有顯著提升。
2.3" 性能比較
為了驗(yàn)證本文所提出的改進(jìn)模型在害蟲分類中的有效性,將其與經(jīng)典分類模型以及近年來(lái)提出的典型害蟲分類算法進(jìn)行了橫向的比較。比較結(jié)果如表4所示。
傳統(tǒng)分類模型VGG和ResNet在IP102數(shù)據(jù)集上的分類準(zhǔn)確率低于50%, 很難對(duì)害蟲識(shí)別任務(wù)進(jìn)行精確分類。SGDL-DenseNet方法與MS-ALN都是基于IP102害蟲數(shù)據(jù)集進(jìn)行設(shè)計(jì)的特定任務(wù)網(wǎng)絡(luò), 其中MS-ALN在IP102數(shù)據(jù)集上取得了最好的成績(jī)。本研究基于YOLOv5模型進(jìn)行改進(jìn), 并在IP102上實(shí)現(xiàn)了最先進(jìn)的性能, 準(zhǔn)確率為77.82%, 比MS-ALN高3.21百分點(diǎn)。
為了驗(yàn)證引進(jìn)FPA模塊與GAU模塊的YOLOv5模型能克服害蟲識(shí)別領(lǐng)域的難題, 將改進(jìn)后的YOLOv5模型與替他場(chǎng)景應(yīng)用的改進(jìn)YOLOv5模型在IP102數(shù)據(jù)集上進(jìn)行訓(xùn)練并比較性能。比較結(jié)果如表5所示。
ET-YOLOv5在Focus模塊后加入了CBAM注意力模塊, 并在Neck部分多輸出一個(gè)160×160大小的檢測(cè)層, 希望獲得更多尺度的特征信息。TPH-YOLOv5在Neck部分中的特征融合模塊后都添加了一個(gè)CBAM注意力模塊, 并在下采樣過(guò)程中添加Transformer解碼模塊來(lái)獲得更多語(yǔ)義信息。將改進(jìn)后模型與上述2個(gè)基于YOLOv5改進(jìn)的模型進(jìn)行對(duì)比, 在IP102上取得了出色的識(shí)別效果, 驗(yàn)證了本研究對(duì)YOLOv5模型的改進(jìn)更適用于害蟲自動(dòng)識(shí)別。
2.4" 視覺(jué)分析
對(duì)于一些具有挑戰(zhàn)性的樣本圖像, 例如復(fù)雜背景和多尺度樣本引起的漏檢以及類內(nèi)變異或種類間相似引起的誤分類, 我們比較了YOLOv5和改進(jìn)后模型對(duì)這些樣本的檢測(cè)和分類結(jié)果, 以說(shuō)明所提出的方法能有效解決害蟲自動(dòng)識(shí)別中遇到的問(wèn)題。
FPA使用不同大小的卷積核提取不同尺度的圖像特征,并將其整合為注意力特征乘以原始特征, 使網(wǎng)絡(luò)能夠關(guān)注不同尺度的特征。如圖9所示,由于某些圖像中害蟲的尺度變化很大, 基準(zhǔn)YOLOv5只關(guān)注某些尺度,導(dǎo)致漏檢。與基準(zhǔn)YOLOv5相比, 改進(jìn)后模型即使在尺寸差異很大的情況下也能很好地識(shí)別和檢測(cè)害蟲。這驗(yàn)證了FPA能夠使網(wǎng)絡(luò)提取多個(gè)尺度的特征, 提高不同尺度樣本的檢測(cè)精度。
GAU利用來(lái)自高級(jí)特征的全局信息來(lái)指導(dǎo)較低級(jí)別特征層中的特征提取。高級(jí)特征中細(xì)粒度的類別特定信息可以方便低級(jí)特征層在特征提取時(shí)獲取類別信息, 從而提高模型對(duì)相似類別進(jìn)行分類的準(zhǔn)確性。如圖10所示, 由于類內(nèi)變異或種類間相似性, 基準(zhǔn)YOLOv5在檢測(cè)和分類過(guò)程中會(huì)出現(xiàn)類別誤判。改進(jìn)后的模型可以更有效、更準(zhǔn)確地提取
類別詳細(xì)信息來(lái)識(shí)別害蟲種類。GAU高級(jí)特征中的細(xì)粒度類別信息可以指導(dǎo)低級(jí)特征層中更豐富的
類別信息的提取, 從而提高模型在類內(nèi)變異或種類間相似場(chǎng)景中識(shí)別的準(zhǔn)確性。
此外, GAU可以使用低分辨率的高級(jí)特征來(lái)指導(dǎo)低級(jí)特征層的特征提取, 使它們能夠更多地關(guān)注復(fù)雜背景中的樣本特征信息, 有效地過(guò)濾復(fù)雜背景。如圖11所示, 在一些圖像中, 背景和害蟲非常相似, 導(dǎo)致基準(zhǔn)YOLOv5因害蟲融入環(huán)境而難以識(shí)別和檢測(cè)害蟲, 導(dǎo)致許多漏檢目標(biāo)。與基準(zhǔn)YOLOv5相比, 即使害蟲與背景的相似度很高, 例如混入泥土的幼蟲和融入綠植的蚜蟲, 我們的模型仍然可以很好地定位害蟲。GAU的引入使得來(lái)自高級(jí)特征層的低分辨率圖像信息能夠引導(dǎo)網(wǎng)絡(luò)在較低級(jí)特征層中有效地提取樣本特征, 從而使模型克服由于擬態(tài)或復(fù)雜背景導(dǎo)致的漏檢問(wèn)題。
3" 結(jié)論與討論
本文在基準(zhǔn)YOLOv5模型上引入了一種新型特征金字塔(FPA)模塊和全局注意力上采樣(GAU)模塊,提出一種害蟲識(shí)別檢測(cè)模型。與現(xiàn)有成果相比, 主要貢獻(xiàn)如下: 1)在YOLOv5主干網(wǎng)絡(luò)中引入了FPA模塊, 使網(wǎng)絡(luò)融合了3個(gè)不同金字塔尺度下的特征, 可以更好地從不同的金字塔尺度中提取特征, 有效地增加感受野并對(duì)小對(duì)象進(jìn)行分類;2)在YOLOv5特征提取層中引入了全局注意力上采樣GAU模塊??梢蕴崛「呒?jí)特征的全局信息, 為選擇類別定位細(xì)節(jié)的低級(jí)特征提供指導(dǎo)信息, 進(jìn)而在精確的分辨率細(xì)粒度特征中學(xué)習(xí)類別信息。能夠讓模型更有效地從復(fù)雜背景中提取目標(biāo)害蟲的特征, 提高識(shí)別精度;3)將IP102數(shù)據(jù)集中的102類害蟲根據(jù)樣本數(shù)量進(jìn)行劃分, 進(jìn)行不同程度的數(shù)據(jù)增強(qiáng), 在確保模型魯棒性的條件下, 仍能保證模型對(duì)小樣本種類的檢測(cè)精度。
本文通過(guò)數(shù)據(jù)增強(qiáng)對(duì)IP102數(shù)據(jù)集中的部分類別進(jìn)行樣本擴(kuò)充, 最終在IP102數(shù)據(jù)集上進(jìn)行試驗(yàn)驗(yàn)證, 結(jié)果表明: 1)引入的FPA模塊可以更好地進(jìn)行不同尺度的特征提取, 并將提取到的特征作為注意力機(jī)制以指導(dǎo)網(wǎng)絡(luò)進(jìn)行細(xì)粒度特征提取, 有利于提高模型對(duì)多尺度樣本的檢測(cè)能力;2)插入的GAU模塊用高級(jí)特征的全局信息指導(dǎo)模型從復(fù)雜背景中提取樣本特征, 使模型能夠檢測(cè)到復(fù)雜背景中的目標(biāo)樣本;同時(shí), GAU模塊在低級(jí)特征中能夠更精準(zhǔn)地提取類別細(xì)粒度特征, 有效緩解了類內(nèi)變異和種類間相似性帶來(lái)的誤判問(wèn)題;3)對(duì)樣本數(shù)量過(guò)少的類別進(jìn)行數(shù)據(jù)增強(qiáng)后, 模型對(duì)各類別的學(xué)習(xí)能力更加均衡, 緩解了數(shù)據(jù)集的長(zhǎng)尾分布帶來(lái)的模型檢測(cè)低精度問(wèn)題。此外, 本文還發(fā)現(xiàn),在害蟲識(shí)別的應(yīng)用中仍存在著一些問(wèn)題: 害蟲通常包括幼蟲、成蟲等發(fā)育階段, 不同階段的形態(tài)相差甚遠(yuǎn), 這干擾了模型的特征學(xué)習(xí)并降低了模型識(shí)別的準(zhǔn)確性, 有待于深入研究。
參考文獻(xiàn)
[1]" OERKE E C. Crop losses to pests [J]. The Journal of Agricultural Science, 2006, 144(1): 3143.
[2]" BOLLIS E, PEDRINI H, AVILA S. Weakly supervised learning guided by activation mapping applied to a novel citrus pest benchmark [C]∥Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops, 2020: 7071.
[3]" DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]∥IEEE computer society conference on computer vision and pattern recognition (CVPR′05), 2005: 886893.
[4]" EBRAHIMI M, KHOSHTAGHAZA M H, MINAEI S, et al. Vision-based pest detection based on SVM classification method [J]. Computers and Electronics in Agriculture, 2017, 137: 5258.
[5]" FAITHPRAISE F, BIRCH P, YOUNG R, et al. Automatic plant pest detection and recognition using k-means clustering algorithm and correspondence filters [J]. International Journal of Advanced Biotechnology and Research, 2013, 4(2): 189199.
[6]" LOWE D G. Distinctive image features from scale-invariant keypoints [J]. International Journal of Computer Vision, 2004, 60(2): 91110.
[7]" NANNI L, MANF A, MAGUOLO G, et al. High performing ensemble of convolutional neural networks for insect pest image detection [J/OL]. Ecological Informatics, 2022, 67: 101515. DOI: 10.1016/j.ecoinf.2021.101515.
[8]" WEN Chenglu, GUYER D. Image-based orchard insect automated identification and classification method [J]. Computers and Electronics in Agriculture, 2012, 89: 110115.
[9]" LARIOS N, DENG Hongli, ZHANG Wei, et al. Automated insect identification through concatenated histograms of local appearance features: Feature vector generation and region detection for deformable objects [J]. Machine Vision and Applications, 2007, 19(2): 105123.
[10]CSURKA G, DANCE C, FAN L X, et al. Visual categorization with bags of keypoints [C]∥Workshop on statistical learning in computer vision, ECCV, 2004: 12.
[11]YAO Qing, L Jun, LIU Qingjie, et al. An insect imaging system to automate rice light-trap pest identification [J]. Journal of Integrative Agriculture, 2012, 11(6): 978985.
[12]HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition [C]∥Proceedings of the IEEE conference on computer vision and pattern recognition, 2016: 770778.
[13]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks [C]∥Proceedings of the 25th international conference on neural information processing systems, 2012: 10971105.
[14]DIMILILER K, ZARROUK S. ICSPI: intelligent classification system of pest insects based on image processing and neural arbitration [J]. Applied Engineering in Agriculture, 2017, 33(4): 453460.
[15]AYAN E, ERBAY H, VARIN F. Crop pest classification with a genetic algorithm-based weighted ensemble of deep convolutional neural networks [J/OL]. Computers and Electronics in Agriculture, 2020, 179: 105809. DOI: 10.1016/j.compag.2020.105809.
[16]TANG Zhe, CHEN Zhengyun, QI Fang, et al. Pest-YOLO: deep image mining and multi-feature fusion for real-time agriculture pest detection [C]∥2021 IEEE international conference on data mining (ICDM), 2021: 13481353.
[17]WANG Xuqi, ZHANG Shanwen, WANG Xianfeng, et al. Crop pest detection by three-scale convolutional neural network with attention [J/OL]. PLoS ONE, 2023, 18(6): e0276456. DOI: 10.1371/journal.pone.0276456.
[18]WU Xiaoping, ZHAN Chi, LAI Yukun, et al. IP102: A large-scale benchmark dataset for insect pest recognition [C]∥Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2019: 87878796.
[19]NANNI L, MAGUOLO G, PANCINO F. Insect pest image detection and recognition based on bio-inspired methods [J/OL]. Ecological Informatics, 2020, 57: 101089. DOI: 10.1016/j.ecoinf.2020.101089.
[20]LUO Qiuhong, WAN Li, TIAN Lichao, et al. Saliency guided discriminative learning for insect pest recognition [C]∥2021 international joint conference on neural networks (IJCNN), 2021: 18.
[21]FENG Fuxiang, DONG Hanlin, ZHANG Youmei, et al. MS-ALN: Multiscale attention learning network for pest recognition [J]. IEEE Access, 2022, 10: 4088840898.
[22]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [C]∥3rd international conference on learning representations, 2015.
[23]LI Lina, LIU Minghan, SUN Liyan, et al. ET-YOLOv5s: Toward deep identification of students’ in-class behaviors [J]. IEEE Access, 2022, 10: 4420044211.
[24]ZHU Xingkui, LYU Shuchang, WANG Xu, et al. TPH-YOLOv5: Improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios [C]∥Proceedings of the IEEE/CVF international conference on computer vision, 2021: 27782788.
(責(zé)任編輯:楊明麗)