徐雪環(huán),賈 嵐,李紅丹,賈心語,張博達,周 颶,蒲海波,2*
(1.四川農(nóng)業(yè)大學(xué)信息工程學(xué)院,四川 雅安 625000;2.四川省雅安市數(shù)字農(nóng)業(yè)工程技術(shù)研究中心,四川 雅安 625000)
由于小麥生長周期長,小麥害蟲是影響小麥產(chǎn)量和質(zhì)量的最大因素之一,因此小麥害蟲的治理顯得格外重要[1-3]。精準(zhǔn)防治小麥害蟲的關(guān)鍵在于準(zhǔn)確鑒定昆蟲的種類,從而采取有針對性的防治措施,提高防治效果和經(jīng)濟效益[4-5]。目前小麥害蟲識別主要面臨以下問題:一是部分害蟲體積小,樣本難以采集導(dǎo)致不同類別間存在數(shù)據(jù)不平衡的問題;二是小麥害蟲類間相似性高,不同種類害蟲具有相似的形態(tài)和生態(tài)特征導(dǎo)致類間區(qū)分難度高;三是類內(nèi)差異大,同一類害蟲體型、顏色和形態(tài)具有較大差異。除此之外,現(xiàn)有小麥害蟲數(shù)據(jù)集的圖像分辨率較低,也會影響模型的分類性能。總之,精準(zhǔn)分類小麥害蟲是一項具有挑戰(zhàn)性的任務(wù),需要采用多種技術(shù)手段來解決上述問題[6]。
隨著深度學(xué)習(xí)技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用日益廣泛,小麥害蟲識別的研究通過深度學(xué)習(xí)技術(shù)也取得了進一步的發(fā)展。Chen P.等[7]使用數(shù)碼相機在麥田中拍攝了546 張小麥螨蟲圖像作為數(shù)據(jù)集,采用VGG16、ZFNET等基準(zhǔn)網(wǎng)絡(luò)對小麥螨蟲進行識別和計數(shù);K.Sabanci 等[8]提出AlexNet 卷積模型和BiLSTM 循環(huán)模型的混合網(wǎng)絡(luò)對害蟲損害的小麥籽粒進行識別檢測;K.Thenmozhi等[9]提出了深度卷積模型在NBAIR數(shù)據(jù)集、Xie1、Xie2數(shù)據(jù)集進行測試,分別得到了96.75%、97.47%、95.97%的精度;Xia D.N.等[10]在Xie1數(shù)據(jù)集的基礎(chǔ)上,提出新的蟲害數(shù)據(jù)集MPest,并改進VGG19 卷積網(wǎng)絡(luò)來解決作物害蟲分類問題。但以上研究的數(shù)據(jù)集都存在研究的害蟲種類單一、各個作物的害蟲類別無明顯區(qū)分的問題。對于深度學(xué)習(xí)模型來說,網(wǎng)絡(luò)分類的性能很大程度上取決于數(shù)據(jù)集樣本數(shù)量和質(zhì)量,為此,Wu X.P.等[11]提出了IP102 大型害蟲數(shù)據(jù)集,其中小麥害蟲的種類有9類。但該數(shù)據(jù)集存在類間數(shù)據(jù)嚴(yán)重不平衡、圖像質(zhì)量低等問題,對于害蟲的識別帶來了較大的影響。因此,在小麥害蟲識別的深度學(xué)習(xí)研究中,數(shù)據(jù)集的樣本數(shù)量和質(zhì)量是一個重要的因素,需要加以重視。
隨著深度學(xué)習(xí)網(wǎng)絡(luò)層數(shù)增加,圖像分類任務(wù)需要更多的訓(xùn)練樣本以提高網(wǎng)絡(luò)學(xué)習(xí)特征的能力[12],因此數(shù)據(jù)增廣是提高網(wǎng)絡(luò)分類性能的有效方法。傳統(tǒng)數(shù)據(jù)增廣即在原始數(shù)據(jù)的基礎(chǔ)上進行變形,例如A.A.Alfarisy 等[13]使用旋轉(zhuǎn)、水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)、隨機裁剪的方式擴增害蟲數(shù)據(jù)集;M.Khanramaki 等[14]采用旋轉(zhuǎn)、鏡像、加入高斯噪聲的方式對害蟲數(shù)據(jù)集增強;類似的還有楊紅云等[15]采用平移、翻轉(zhuǎn)和旋轉(zhuǎn)等操作處理水稻害蟲圖像。這些傳統(tǒng)數(shù)據(jù)增廣方法在害蟲數(shù)據(jù)集的擴增方面都取得了顯著的效果。另一方面,使用基于對抗生成網(wǎng)絡(luò)I.GOODFELLOW[16]的數(shù)據(jù)增廣方法生成與原始數(shù)據(jù)極其相似的假圖像[17],來達到數(shù)據(jù)集增廣的目的,但這些樣本并不是真實存在。因此,在害蟲數(shù)據(jù)集的擴增方面,傳統(tǒng)數(shù)據(jù)增廣方法仍然是主流的方法。
低分辨率小麥害蟲圖像由于細(xì)節(jié)少、個體小、類間差異小等因素,對小麥害蟲網(wǎng)絡(luò)的識別具有挑戰(zhàn)性[18],因此獲得高分辨率小麥害蟲圖像作為訓(xùn)練數(shù)據(jù)對于提高整體識別準(zhǔn)確率至關(guān)重要。M.H.Maqsood等[19]利用SRGAN網(wǎng)絡(luò)對小麥病害圖像進行上采樣提高圖像的分辨率,得到了總體測試為83%的精度。Wen J.A.等[20]設(shè)計了一種基于增強超分辨率ESRGAN網(wǎng)絡(luò)的作物病害分類網(wǎng)絡(luò),顯著提高了作物病害分類的準(zhǔn)確性。Zhang Z.等[21]提出一種基于雙生成對抗網(wǎng)絡(luò)(WGAN-GP 網(wǎng)絡(luò)和Real-ERSGAN[22]網(wǎng)絡(luò))的生成高質(zhì)量水稻葉病害圖像的方法,提高模型的識別性能。以上方法都取得了良好的效果,證明了提高圖像的分辨率可以幫助網(wǎng)絡(luò)更好地關(guān)注細(xì)節(jié)信息,從而提高網(wǎng)絡(luò)的識別精度。
近年來,注意力機制已被廣泛應(yīng)用于深度學(xué)習(xí)模型中,以幫助網(wǎng)絡(luò)更好地分辨圖像中的重要區(qū)域,從而提高模型對目標(biāo)的識別準(zhǔn)確度。曾偉輝等[23]在膠囊網(wǎng)絡(luò)上引入CBAM 機制,在復(fù)雜背景下準(zhǔn)確率達到了99.19%。張鵬程等[24]成功將ECA[25]模塊引入到MobileNetV2 模型中,模型的分類準(zhǔn)確率達到了93.63%。Zheng T.F.等[26]在EfficientNet V2 模型中引入CA 坐標(biāo)注意力機制,在IP102 數(shù)據(jù)集上達到94.0%的識別準(zhǔn)確率。S.Janarthan等[27]提出基于雙注意力的輕量級網(wǎng)絡(luò),為識別不同的植物害蟲提供高性能模型。在模型中引入注意力機制的策略有助于加強對重要特征的關(guān)注程度,提高了害蟲等小目標(biāo)的識別精度。
本試驗采用IP102 中的小麥害蟲數(shù)據(jù)集,該數(shù)據(jù)集包含9 種小麥害蟲,共3 418 張圖片。分別為Bird cherry-oat aphid(黍蚜)、Cerodonta denticornis(麥黑斑潛葉蠅)、English grain aphid(麥長管蚜)、Green bug(麥二叉蚜)、Longlegged spider mite(長腿蜘蛛螨)、Penthaleus major(麥圓蜘蛛)、Wheat blossom midge(麥黃吸漿蟲)、Wheat phloeothrips(小麥根皮薊馬)和Wheat sawfly(小麥鋸葉蠅),將數(shù)據(jù)集按照8∶2的比例劃分為訓(xùn)練集和測試集。小麥的各類害蟲示例如圖1。
圖1 IP102中小麥害蟲各類別圖像Figure 1 Images of various categories of wheat pests in IP102
鑒于IP102 數(shù)據(jù)集存在目標(biāo)物不清晰、可識別內(nèi)容過少、背景過于雜亂等原因,圖2 展示了IP102小麥害蟲中難以辨認(rèn)需要被剔除的樣本。圖中可以看到在這些樣本中,小麥害蟲位于密集的小麥植株中,甚至無法被肉眼觀察到,導(dǎo)致小麥害蟲的位置和形態(tài)難以被準(zhǔn)確地識別和標(biāo)注,因此這些樣本引入的誤差和噪聲會對模型的訓(xùn)練和評估產(chǎn)生負(fù)面影響。為確保標(biāo)注數(shù)據(jù)集的質(zhì)量和準(zhǔn)確性,對IP102 小麥害蟲數(shù)據(jù)集進行篩選和剔除[28]。共剔除586張,剩余2 832張小麥害蟲樣本。
圖2 IP102小麥害蟲中難以辨認(rèn)的樣本Figure 2 Samples to be excluded from the IP102 wheat pest dataset
1.2.1 數(shù)據(jù)增廣
在圖3 中,展示了IP102 小麥害蟲數(shù)據(jù)集中各類別的數(shù)量,圖中可直觀地看出IP102 小麥害蟲數(shù)據(jù)集呈長尾分布。其中黍蚜蟲害數(shù)量最多為708張,麥黑斑潛葉蠅蟲害數(shù)量最少為137張。
圖3 IP102小麥數(shù)據(jù)集各類別害蟲數(shù)量Figure 3 Several samples for each pest category in the IP102 wheat dataset
數(shù)據(jù)集的不平衡情況可以通過不平衡率IR(imbalanced ratio)進行判定。不平衡率可以表示為數(shù)量最多類別樣本數(shù)與數(shù)量最少類別樣本數(shù)之比。本文引用了M.Galar等[29]的研究,其判別公式如下:
其中,N{max}表示數(shù)量最多類別的樣本數(shù),N{min}表示數(shù)量最少類別的樣本數(shù),IR 值越大,數(shù)據(jù)集的不平衡程度越高。由公式得出IP102小麥害蟲數(shù)據(jù)集的不平衡率IR 的最大值為5,說明該數(shù)據(jù)集存在著嚴(yán)重不平衡問題。
為了避免分類器的偏見,確保分類器對于各個類別的處理能力相當(dāng),需要對數(shù)據(jù)集進行平衡處理。本文使用傳統(tǒng)數(shù)據(jù)增強對清洗后的數(shù)據(jù)集增廣,增廣方法如旋轉(zhuǎn)、鏡像、平移來增加視角、位置方面的偏差,進而增強模型在不同角度的魯棒性;亮度變換來模擬光照亮度偏差,增強模型在不同光照條件下的魯棒性;高斯噪聲對圖像施加噪聲干擾,提高模型對噪聲干擾和冗余信息的過濾能力。如圖4 展示了麥黑斑潛葉蠅的增廣圖像,第一張圖片為原始圖片,從左往右依次使用亮度變換、鏡像變換、旋轉(zhuǎn)180度和高斯噪聲。
圖4 麥黑斑潛葉蠅增廣圖像示例Figure 4 Example of data augmentation image of Cerodonta denticornis
1.2.2 超分辨率增強
圖片輸入分辨率是影響模型分類效果的重要因素,而原始數(shù)據(jù)集部分圖片分辨率較低,害蟲的特征邊界與背景難以區(qū)分影響分類效果,使用超分辨率數(shù)據(jù)增強方法可以對害蟲特征邊界進行增強。Real-ESRGAN 模型是基于生成對抗網(wǎng)絡(luò)GAN 的超分辨率增強模型,該模型目的是解決真實場景下的圖像模糊的問題。
Real-ESRGAN 模型使用高階退化建模過程來模擬更真實的訓(xùn)練圖像。公式(2)[22]所示為經(jīng)典退化模型,其是高階退化過程的基礎(chǔ)。具體合成低分辨率輸入圖像過程為地面實況圖像y與模糊核k進行卷積操作,卷積后的圖像執(zhí)行具有比例因子r的下采樣操作。接下來進行噪聲添加,最后對低分辨率圖像進行JPEG壓縮。高階退化模型則是通過多次重復(fù)經(jīng)典退化過程來更準(zhǔn)確地模擬真實圖像中的退化現(xiàn)象。如公式(3)所示,階數(shù)(n)表示重復(fù)的次數(shù)。此外,Real-ESRGAN模型還使用sinc濾波器來解決圖像中的振鈴和過沖偽影現(xiàn)象。濾波器的設(shè)計如公式4,其中i和j是濾波器的坐標(biāo),ωc是濾波器的截止頻率,J1是第一類一階貝塞爾函數(shù)。Real-ESRGAN模型通過使用高階退化建模和sinc濾波器來更準(zhǔn)確地模擬真實世界中的圖像退化現(xiàn)象,并提高圖像的質(zhì)量。
Real-ESRGAN 模型生成器結(jié)構(gòu)由卷積層、16個順序連接的殘差密集塊(RRDB)、上采樣以及卷積輸出層構(gòu)成,生成器結(jié)構(gòu)圖5所示。
圖5 Real-ESRGAN模型生成器Figure 5 Real-ESRGAN model generator structure
判別器結(jié)構(gòu)摒棄了ESRGAN中的VGG網(wǎng)絡(luò),選擇帶有光譜歸一化(SN)的U-net模型[30],使得模型可以從像素角度進行判別,實現(xiàn)既能保證圖像整體真實的情況下,還能注重圖像細(xì)節(jié),判別器結(jié)構(gòu)如圖6所示。
圖6 Real-ESRGAN模型判別器(帶SN的U-Net模型)Figure 6 Structure of Real-ESRGAN model discriminator (U-Net model with SN)
在IP102數(shù)據(jù)集中,大約有1/3的圖像分辨率小于200×200,這意味著這些小麥害蟲圖像會被模型自動填充到合適大小,從而無法提供足夠的細(xì)節(jié)信息給深度學(xué)習(xí)模型進行訓(xùn)練[31],導(dǎo)致模型學(xué)習(xí)能力受到限制。本文使用Real-ESRGAN 超分辨率模型對小麥害蟲圖像以×4的比例因子執(zhí)行超分辨率,從而給深度學(xué)習(xí)模型提供更多的小麥害蟲細(xì)節(jié)信息。圖7展示了部分害蟲類別低分辨率和高分辨率圖像對比。增強后的小麥害蟲圖像表現(xiàn)出了更加清晰明顯的邊緣和真實細(xì)致的紋理特點。對于麥二叉蚜、麥圓蜘蛛和小麥據(jù)葉蠅,超分辨率增強后其肢體、觸須的顏色更加鮮艷,與小麥的邊界區(qū)分更清晰明顯。對于長腿蜘蛛螨和麥黃吸漿蟲,其腿部輪廓更真實,紋理更銳利,具有更加真實和細(xì)膩紋理的高分辨率小麥害蟲圖像,有助于提高模型的分類識別能力。
圖7 部分害蟲超分辨率增強前后對比Figure 7 Comparison of partial pests before and after super-resolution enhancement
1.3.1 ECA注意力機制
通道注意力機制是一種用于增強卷積神經(jīng)網(wǎng)絡(luò)特征表達的方法,其目的是使得不同的特征通道擁有不同的權(quán)重,使得網(wǎng)絡(luò)能夠有選擇性地關(guān)注或忽視某些特征。近年來,SENet 在網(wǎng)絡(luò)中引入通道注意力,顯著提高了模型的性能。但研究發(fā)現(xiàn)SENet 的降維操作會對特征的提取產(chǎn)生負(fù)面影響,獲取通道間依賴關(guān)系效率低[32]。ECA注意力機制通過采用一維卷積和自適應(yīng)大小的卷積核來避免降維,為特征圖重新分配權(quán)重,實現(xiàn)模型選擇性強調(diào)重要特征、抑制無用特征。ECA模塊如圖8所示。
圖8 ECA注意力機制結(jié)構(gòu)圖Figure 8 ECA attention mechanism structure
1.3.2 ECA-EffV2模型
本文基于EfficientNetV2 網(wǎng)絡(luò)進行研究,EfficientNetV2 是EfficientNet 的改進版本,其準(zhǔn)確率達到了當(dāng)前的SOTA 水平,具有更快的訓(xùn)練速度和更少的參數(shù)量,是一種快速輕量級的網(wǎng)絡(luò)模型。EfficientNetV2 網(wǎng)絡(luò)主要由卷積、Fuse-MBConv 模塊、MBConv模塊堆疊而成。為了更有效地關(guān)注小麥害蟲特征,本文提出ECA-EffV2 模型,用ECA 模塊替換Fuse-MBConv 和MBConv 卷積中的SE模塊,以增強模型對不同特征的學(xué)習(xí)能力。通過這種方式,ECA-EffV2 可以更好地利用每個通道之間的依賴關(guān)系,提高模型對小麥害蟲特征的感知能力,從而獲得更高的識別準(zhǔn)確率。ECA-EffV2 模型架構(gòu)如圖9所示。
圖9 ECA-EffV2網(wǎng)絡(luò)結(jié)構(gòu)圖Figure 9 ECA-EffV2 network structure
本文的實驗環(huán)境包括Intel(R) Core(TM) i9-10900K CPU @ 3.70 GHz 處理器、16 GB RAM,NVIDIA Quadro RTX 5000顯卡和128 GB內(nèi)存,軟件環(huán)境為Windows操作系統(tǒng),使用PyCharm平臺和Py-Torch 深度學(xué)習(xí)框架進行實驗,模型詳細(xì)參數(shù)設(shè)置如表1所示。
表1 模型詳細(xì)參數(shù)Table 1 Detailed parameters of the model
本文采用準(zhǔn)確度(accuracy)、精確率(precision)、特異性(specificity)、召回率(recall)和F1-Score 作為模型評價指標(biāo)。具體計算公式如下:
其中,TP 表示真正例(true positive)、TN 表示真負(fù)例(true negative)、FP 表示假正例(false positive)、FN表示假負(fù)例(false negative)。
其中,精確率(precision)評估模型預(yù)測為正例中實際為正例的比例,特異性(specificity)評估模型預(yù)測為負(fù)例中實際為負(fù)例的比例,召回率(recall)評估實際為正例中被模型預(yù)測為正例的比例。F1-Score 綜合精確率和召回率的評價指標(biāo)。比較模型在不同評價指標(biāo)下的表現(xiàn),我們可以評估模型的性能和優(yōu)缺點,并指導(dǎo)和支持模型的改進和優(yōu)化。
為了解決IP102小麥害蟲數(shù)據(jù)集存在的類間不平衡問題,首先對小麥害蟲數(shù)據(jù)集進行清洗,再使用傳統(tǒng)數(shù)據(jù)增廣方法進行樣本量擴充,重新整理得到大規(guī)模小麥害蟲數(shù)據(jù)集:IP-AugWheat,共25 176張小麥害蟲樣本,擴充后的各類別數(shù)量如圖10所示。由公式(1)得出,擴充后的小麥害蟲數(shù)據(jù)集的IR值為1,即各類別的樣本數(shù)量相當(dāng),達到了數(shù)據(jù)平衡的狀態(tài)。這樣處理后的數(shù)據(jù)集可以更好地滿足模型訓(xùn)練和測試的需求,提高模型的性能和泛化能力。同時,通過對類別不平衡問題的處理,還可以避免模型對數(shù)量較少的類別進行忽略或誤判的情況,提高模型的整體效果。
圖10 數(shù)據(jù)增廣后各類數(shù)量圖Figure 10 Number of pest categories for IP-AugWheat
為了方便記錄,本文將IP102 小麥害蟲數(shù)據(jù)集記為IP-Wheat。用VGG16[33]、AlexNet[34]、Efficient-Net[35]和EfficientNetV2[36]4 個模型在IP-Wheat 和IPAugWheat上評估,并分別記錄了模型在測試集上的準(zhǔn)確率和參數(shù)量。具體結(jié)果如表2所示,在IPWheat 上,EfficientNetV2 模型的準(zhǔn)確率最高,為72.5%;EfficientNet 模型的準(zhǔn)確率最低,為62.9%。而在IP-AugWheat 上,4 個模型的識別性能均有顯著提升。其中,EfficientNetV2 模型的準(zhǔn)確率達到83.8%,相比原來提升11.3%;AlexNet模型的準(zhǔn)確率達到79.5%,相比原來提升15.1%。實驗結(jié)果表明,數(shù)據(jù)增廣可以有效地提高模型的泛化能力和識別性能。
表2 4個模型在IP-Wheat和IP-AugWheat上的表現(xiàn)Table 2 Performance of the four models on IP-Wheat and IP-AugWheat
由表可見,在2個數(shù)據(jù)集上,EfficientNetV2模型的準(zhǔn)確率均明顯高于其他3 個模型,并且參數(shù)量相對較少,具有更好的性能和效率。本文使用EfficientNetV2模型對IP-Wheat和IP-AugWheat中的各類害蟲進行詳細(xì)評估。在圖11中,展示了小麥各類害蟲數(shù)據(jù)平衡前后的精確率,各類別的精確率都有顯著的提升。而麥黑斑潛葉蠅的精確率卻存在下降現(xiàn)象,由100%降到92.7%,我們認(rèn)為這一現(xiàn)象是由于增廣前麥黑斑潛葉蠅樣本數(shù)量最少,測試集中僅有27張,且麥黑斑潛葉蠅與其他類害蟲特征差異大,區(qū)分較明顯,因此測試精確率較高。經(jīng)過增廣后,在麥黑斑潛葉蠅的測試集數(shù)量達到569張,其他類害蟲的測試數(shù)量也增加的情況下,模型學(xué)習(xí)到各類害蟲的特征更多,出現(xiàn)錯分現(xiàn)象,因此麥黑斑潛葉蠅的精確率降低到92.7%。同樣的,小麥據(jù)葉蠅的精確率也存在下降現(xiàn)象。但總體來說,數(shù)據(jù)平衡后,小麥各類害蟲的分類精確率普遍高于不平衡數(shù)據(jù)集上的精確率。
圖11 數(shù)據(jù)增廣前后各類準(zhǔn)確度對比Figure 11 Comparison of the precision of IP-Wheat and IP-AugWheat for various categories of pests
為了解決小麥害蟲數(shù)據(jù)集存在圖像模糊,害蟲與背景邊界不清晰等問題,采用Real-ESRGAN 模型對IP-AugWheat 進行超分辨率增強,得到高分辨率數(shù)據(jù)集:IP-AugESRWheat。在IP-AugESRWheat上使用VGG16、AlexNet、EfficientNet 和Efficient-NetV2 模型進行分類評估,試驗結(jié)果如圖12所示,直觀地顯示出4 個模型在IP-AugESRWheat 上表現(xiàn)均有較大提升。如EfficientNetV2在IP-AugESRWheat上的分類精度達到了92.2%,相比低分辨率數(shù)據(jù)集提升了9%。VGG16 網(wǎng)絡(luò)在IP-AugESRWheat 上的分類精度達到了89.3%,相比低分辨率數(shù)據(jù)集提升了10.7%。試驗結(jié)果表明,本文提出的基于傳統(tǒng)增廣方法和超分辨率增強方法的圖像處理技術(shù)路線,得到清晰紋理的大規(guī)模高分辨率圖像能夠顯著提升模型分類的性能。
圖12 4個模型在超分辨增強前后的準(zhǔn)確率比較Figure 12 Comparison of accuracy of four models on IP-AugWheat and IP-AugESRWheat
為了提高模型對關(guān)鍵特征的提取能力,減少無效特征的干擾,本文在EfficientNetV2上引入ECA機制?;贕rad-CAM[37]技術(shù),對EfficientNetV2 和ECA-EffV2 模型在小麥害蟲識別任務(wù)中的表現(xiàn)進行可視化分析,如圖13所示,在麥二叉蚜的熱力圖中,EfficientNetV2模型將關(guān)注點集中在蟲的頭部和小麥枝干上,而ECA-EffV2模型將關(guān)注點更多地分配到蟲的整個身體和肢體區(qū)域,表明ECA-EffV2模型對于麥二叉蚜蟲的整體特征具有更高的關(guān)注度。在麥圓蜘蛛和麥黑斑潛葉蠅的熱力圖中,ECAEffV2 模型能夠更全面地關(guān)注到軀體、頭部和肢體等重要特征,而EfficientNetV2模型僅關(guān)注到蟲體的局部區(qū)域,未能捕捉到蟲體的整體特征,這說明在某些情況下,EfficientNetV2模型可能會忽略某些重要特征。在麥黃吸漿蟲的熱力圖中,ECA-EffV2 也能夠準(zhǔn)確地識別麥黃吸漿蟲的輪廓,并將高權(quán)重的注意力精準(zhǔn)地分配到麥黃吸漿蟲的各個部位,而EfficientNetV2模型僅根據(jù)頭部特征來識別害蟲,可能會對類間特征差異小的小麥害蟲識別造成困難。ECA-EffV2 模型相對于EfficientNetV2 模型在小麥害蟲特征區(qū)域識別任務(wù)中具有更好的性能,從而證明了該改進方法的有效性。
圖13 EfficientNetV2與我們的模型熱力圖對比(圖片來自于IP-AugESRWheat數(shù)據(jù)集的麥二叉蚜、麥圓蜘蛛、麥黑斑潛葉蠅和麥黃吸漿蟲)Figure 13 Comparison of EfficientNetV2 and ECA-EffV2 heat maps from the IP-AugESRWheat dataset of English grain aphid,Longlegged spider mite,Cerodonta denticornis,Wheat blossom midge
為了驗證本文提出方法的有效性,比較了增廣方法、超分辨率增強方法和ECA 機制在EfficientnetV2模型性上的各個指標(biāo),具體評估結(jié)果如表3所示??梢钥吹紼CA-EffV2 模型在IP-AugESRWheat中小麥害蟲識別的平均準(zhǔn)確率達到了94.8%,Precision 達到了94.7%,Recall 達到94.8%,Specificity 達到了99.3%,F(xiàn)1_Score達到了94.7%。同時參數(shù)量也得到了較大的優(yōu)化。綜合來看,本文結(jié)合數(shù)據(jù)增廣、超分辨率增強和注意力機制等方法,有效提高了小麥害蟲識別的準(zhǔn)確率和穩(wěn)定性,為小麥害蟲識別提供了技術(shù)支持。
表3 總方法評估Table 3 Total method evaluation
為了進一步分析,我們在圖14 展示了混淆矩陣,橫坐標(biāo)代表小麥各類害蟲的真實標(biāo)簽,縱坐標(biāo)代表小麥各類害蟲的預(yù)測標(biāo)簽。圖14(a)中,麥二叉蚜只有40%的測試圖像被分類正確,32.3%被分錯為麥長管蚜,27.7%被分錯為黍蚜。這是因為黍蚜、麥長管蚜、麥二叉蚜三類小麥害蟲均存在個體小,顏色相似導(dǎo)致類間差異小、極易被錯誤識別。同樣,長腿蜘蛛螨和麥圓蜘蛛也容易被錯分。圖14(b)中,各類害蟲的分類準(zhǔn)確率均有顯著提高,其中麥二叉蚜的測試圖像中識別正確的樣本數(shù)達到92.2%,僅有7.8%被誤分類。圖14(c)中,由于超分辨率增強技術(shù)將小麥害蟲的肢體細(xì)節(jié)更清晰,害蟲類間差異更明顯,可直觀地觀察到各類害蟲被分類正確的個數(shù)都明顯增加。圖14(d)中,ECA 注意力機制的引入能有效地提取到害蟲特征,避免干擾因素的影響,觀察到預(yù)測值密集地分布在對角線上。
圖14 混淆矩陣圖例Figure 14 Example of confusion matrix
我們發(fā)現(xiàn)解決數(shù)據(jù)不平衡和圖像低分辨率問題對小麥害蟲分類任務(wù)十分顯著。不平衡數(shù)據(jù)集導(dǎo)致模型偏差增加,對較少類別進行錯誤分類,本文對IP102 數(shù)據(jù)集中難以標(biāo)注的樣本進行清洗剔除,采用傳統(tǒng)數(shù)據(jù)增廣方法得到真實存在的大規(guī)模小麥害蟲數(shù)據(jù)集:IP-AugWheat,增強模型對害蟲目標(biāo)的魯棒性。在EfficientnetV2模型上達到了83.2%的準(zhǔn)確率,有效地提高了模型的泛化能力和整體預(yù)測性能。低分辨率樣本缺失圖像的細(xì)節(jié)特征,使得模型難以區(qū)分不同類別之間的差異,本文采用Real-ESRGAN超分辨增強方法提高圖像分辨率,得到大規(guī)模、高質(zhì)量的IP-AugESRWheat 小麥害蟲數(shù)據(jù)集。在EfficientnetV2模型上達到了92.2%的準(zhǔn)確率,表明本文提出的通過整合增廣方法和Real-ESRGAN 超分辨率技術(shù),有效地解決了現(xiàn)有小麥害蟲研究方法所面臨的挑戰(zhàn),并取得了顯著的改進,為小麥害蟲識別提供了有效的技術(shù)方案和數(shù)據(jù)支撐。為了抑制無關(guān)特征并加強模型對小麥害蟲本身的關(guān)注度,采用輕量級的ECA 機制,得到高效輕量的ECA-EffV2 模型。該模型在IP-AugESRWheat上分類性能達到了94.8%的準(zhǔn)確率,同時顯著地降低了整體參數(shù)量,為小麥害蟲識別提供了有效的技術(shù)支撐。因此,本文方案對現(xiàn)有小麥害蟲識別研究具有重要的推動作用,同時我們的方法也可以應(yīng)用到玉米、水稻和大豆等田間作物的害蟲識別中。
未來,我們將會有以下方面的工作:首先,我們將采用實地采集、室內(nèi)飼養(yǎng)等方式繼續(xù)收集小麥害蟲數(shù)據(jù)集,尤其是麥黑斑潛葉蠅、麥圓蜘蛛等樣本數(shù)少的種類。采用無監(jiān)督或半監(jiān)督學(xué)習(xí)方式識別小麥害蟲,降低人工標(biāo)注成本。其次,我們將采用蒸餾學(xué)習(xí)、剪枝和量化等方法壓縮模型,將模型部署到移動設(shè)備上,達到真正通過深度學(xué)習(xí)技術(shù)助力農(nóng)業(yè)高效、智能、可持續(xù)發(fā)展。
四川農(nóng)業(yè)大學(xué)學(xué)報2023年6期