摘 要:新疆是中國重要的林果產(chǎn)業(yè)基地,特色林果業(yè)是區(qū)域經(jīng)濟(jì)發(fā)展的重要組成部分。為預(yù)防果樹病害制約林果業(yè)發(fā)展,設(shè)計一款歸一化注意力(normalization-based attention module,NAM)輕量級深度卷積神經(jīng)網(wǎng)絡(luò)(MobileNet-V2)果樹葉片分類及病害識別模型。其中融入輕量型的歸一化注意力機(jī)制,提高模型對特征信息的敏感度,使模型關(guān)注顯著性特征。同時,將L1正則化(L1 regularization或losso)添加到損失函數(shù)中,對權(quán)重進(jìn)行稀疏性懲罰,抑制非顯著性權(quán)重。試驗(yàn)結(jié)果表明,在葉片分類中,模型對自構(gòu)建植物葉片病害識別數(shù)據(jù)集(Plant Village)、混合數(shù)據(jù)集的分類結(jié)果均表現(xiàn)良好,準(zhǔn)確率分別達(dá)到97. 05%、98. 73%、94. 91%,具有較好的泛化能力。在病害識別中,MobileNet-V2 NAM模型實(shí)現(xiàn)94. 55%的識別準(zhǔn)確率,高于深度卷積神經(jīng)網(wǎng)絡(luò)(AlexNet)、視覺幾何群網(wǎng)絡(luò)(VGG16)經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)模型,且模型參數(shù)量只有3. 56 M。MobileNet-V2 NAM在具有良好準(zhǔn)確率同時保持了較低的模型參數(shù)量,為深度學(xué)習(xí)模型嵌入到移動設(shè)備提供技術(shù)支持。
關(guān)鍵詞:新疆; 果樹分類; 病害識別; 歸一化注意力輕量級深度卷積神經(jīng)網(wǎng)絡(luò)(MobileNet-V2 NAM); 歸一化注意力機(jī)制
中圖分類號:S436. 611 文獻(xiàn)標(biāo)識碼:A DOI:10. 7525/j. issn. 1006-8023. 2025. 02. 007
0 引言
20世紀(jì)90年代以來,隨著中國農(nóng)業(yè)產(chǎn)業(yè)結(jié)構(gòu)調(diào)整,林果產(chǎn)業(yè)迅速發(fā)展,逐漸成為農(nóng)村經(jīng)濟(jì)增長、農(nóng)民脫貧致富的支柱性產(chǎn)業(yè)。新疆作為中國林果業(yè)主要產(chǎn)區(qū)之一,經(jīng)過不斷優(yōu)化樹種結(jié)構(gòu)和區(qū)域布局,已經(jīng)具有大基地、大產(chǎn)業(yè)的發(fā)展態(tài)勢[1]。但隨著林果業(yè)種植結(jié)構(gòu)不斷更新,病害侵襲情況也日益嚴(yán)重,傳統(tǒng)林果業(yè)分類和病害識別依賴于專家的知識及經(jīng)驗(yàn)進(jìn)行診斷,而在新疆種植地區(qū),由于地域遼闊和交通成本等多重限制因素,農(nóng)民與植保專家之間的溝通存在障礙[2]。
近年來,隨著人工智能技術(shù)的迅猛發(fā)展,科研人員開始采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)進(jìn)行圖像處理,包括圖像分類、目標(biāo)識別和語義分割等技術(shù),以實(shí)現(xiàn)對林果的分類和病害的檢測,做到早發(fā)現(xiàn)早干預(yù),解決病害造成的果樹健康和產(chǎn)量等問題[3]。Ferentinos[4]針對植物葉片病害識別(PlantVillage)數(shù)據(jù)集中25種植物的58種疾病,訓(xùn)練了幾種模型體系,最佳性能達(dá)到99. 53%,為相應(yīng)植物病害識別預(yù)警提供支持。Liu等[5]提出一種基于深度卷積神經(jīng)網(wǎng)絡(luò)(AlexNet)的新型病害檢測模型。其調(diào)整卷積核大小,以卷積層代替全連接層,并且應(yīng)用含并行連接的網(wǎng)絡(luò)(GoogLeNet)的Inception模塊提升了模型的特征提取能力。Khan等[6]通過混合方法增強(qiáng)輸入圖像的對比度;之后基于相關(guān)系數(shù)的分割,將病害區(qū)域與背景進(jìn)行分離;最后利用VGG16和AlexNet預(yù)訓(xùn)練模型對6種病害進(jìn)行特征提取,且嵌入并行特征融合步驟來優(yōu)化提取的特征,分類準(zhǔn)確率達(dá)到98. 60%。任守綱等[7]為解決病害識別過程中特征提取具有不確定性的問題,設(shè)計了一種反卷積引導(dǎo)的視覺幾何組網(wǎng)絡(luò)(Visual Geometry Group Network,VGGNet)模型,對PlantVillage數(shù)據(jù)集中的10類番茄葉部病害圖像進(jìn)識別,準(zhǔn)確率可達(dá)99. 19%。上述研究對卷積神經(jīng)網(wǎng)絡(luò)做出訓(xùn)練和改進(jìn),在農(nóng)作物病害識別方面取得了良好的成果,但其應(yīng)用的數(shù)據(jù)大多為試驗(yàn)室內(nèi)采集的簡單背景數(shù)據(jù),無法真實(shí)反映自然環(huán)境下的特征表現(xiàn),使模型難以區(qū)分特征信息與冗余背景,并且,上述研究所用模型皆為經(jīng)典重量級模型,難以嵌入移動設(shè)備。因此,大量學(xué)者以自然環(huán)境為背景,同時致力于平衡模型的參數(shù)大小和識別準(zhǔn)確率。劉陽等[8]改進(jìn)了輕量級卷積神經(jīng)網(wǎng)絡(luò)SqueezeNet,通過刪除模型中的后3個fire模塊、修改fire模塊5的參數(shù)、將fire模塊里expand層中1×1和3×3的卷積核數(shù)目的比例進(jìn)行調(diào)整等方法,獲得5種新型檢測模型,并運(yùn)用遷移學(xué)習(xí)和隨機(jī)梯度下降算法進(jìn)行訓(xùn)練,其中最優(yōu)模型參數(shù)內(nèi)存為0. 62 MB,運(yùn)算量為111 MFLOPs,平均準(zhǔn)確率為98. 13%,使模型體積和模型性能具有較好的平衡性。Bi等[9]使用輕量級深度卷積神經(jīng)網(wǎng)絡(luò)(MobileNet)模型來識別蘋果葉斑病和銹病,其識別準(zhǔn)確率與復(fù)雜的CNN模型相近,但計算成本大大降低,易于部署在移動設(shè)備上。王美華等[10]提出一種新的注意力模塊,改進(jìn)的卷積塊注意力模塊(Improved Convolutional Block AttentionModule,I_CBAM)技術(shù)被集成到MoblieNet-V2架構(gòu)中,實(shí)現(xiàn)了通道注意力和空間注意力的并行處理,有效解決了傳統(tǒng)串行處理方式中2種注意力機(jī)制相互影響的問題。這種改進(jìn)使得模型的識別精度得到了顯著提升。Chen等[11]在預(yù)訓(xùn)練的MobileNet-V2中融入了基于位置的軟注意機(jī)制,在雜亂的背景條件下,提高了模型對微小病變特征的識別能力。
上述研究基于復(fù)雜背景數(shù)據(jù),突破了試驗(yàn)內(nèi)簡單環(huán)境的限制,且融入了注意力機(jī)制,賦予模型針對敏感區(qū)域識別的能力。但其應(yīng)用的注意力機(jī)制側(cè)重于捕捉顯著特征,缺乏對權(quán)重影響因素的考慮,因此上述模型的識別性能仍有提升空間。本研究區(qū)別于壓縮和激勵網(wǎng)絡(luò)(Squeeze-and-Excitation,SE)和卷積塊注意力模塊(Convolutional Block AttentionModule,CBAM)模塊,使用批量歸一化的尺度因子,通過其標(biāo)準(zhǔn)差來表示權(quán)重的重要性,利用權(quán)重的重要性來評估注意力,進(jìn)一步抑制不重要的通道或像素。將L1正則化(L1 regularzation或lasso)添加到損失函數(shù)中,降低模型的復(fù)雜度,平衡了模型的參數(shù)量與性能,為模型部署在移動設(shè)備中提供思路。
1 材料與方法
1. 1 試驗(yàn)數(shù)據(jù)
本項(xiàng)研究的數(shù)據(jù)采集自塔里木盆地內(nèi)的渭干河流域,該地區(qū)是渭干河與庫車河交匯形成的三角洲綠洲地帶。這一區(qū)域具有溫帶大陸性干旱的氣候特征,陽光資源豐富,晝夜溫差顯著,為高品質(zhì)林果產(chǎn)業(yè)的發(fā)展提供了理想的條件[12]。試驗(yàn)采集簡單背景與復(fù)雜背景2種數(shù)據(jù)類型,采集時間為2021年5月27日至5月30日,采集設(shè)備為佳能EOS 1300D數(shù)碼相機(jī),分辨率為3 456×2 304。簡單背景數(shù)據(jù)通過野外采摘葉片,并置于試驗(yàn)室內(nèi)可控環(huán)境下拍攝,拍攝高度20~50 cm,攝像頭與葉片平行拍攝,共包括6種健康葉片,其中,杏樹為265張、棗樹為255張、桑樹為285張、桃樹為278張、梨樹為250張、核桃為330 張,共計1 663 張圖像用于果樹分類試驗(yàn)。復(fù)雜背景數(shù)據(jù)在果園內(nèi)直接拍攝,共包括2種果樹的健康與病害葉片,其中,核桃病害葉片68張、核桃健康葉片138張、梨樹病害葉片68張、梨樹健康葉片94張,共計368張圖像,用于果樹病害識別試驗(yàn)。同時,為了驗(yàn)證模型的泛化能力,本試驗(yàn)引入Plant Village中3類果樹健康葉片圖像,其中,蘋果健康葉片為2 219張、藍(lán)莓健康葉片為2 568張、櫻桃健康葉片為2 275張,共計7 062張,進(jìn)行對比試驗(yàn)。部分果樹葉片圖像如圖1所示。
樣本數(shù)量少會導(dǎo)致模型過擬合和特征提取困難等消極影響[13],為了滿足訓(xùn)練要求,將收集的果樹圖像進(jìn)行數(shù)據(jù)增強(qiáng),保證數(shù)據(jù)多樣性。采用水平翻轉(zhuǎn)、亮度變換[14]、添加噪聲、伽馬變換和對比度變換[15]等方式,將數(shù)據(jù)擴(kuò)充到原來的11倍。簡單背景圖像擴(kuò)充為18 293張,其中,杏樹為2 915張、棗樹為2 805張、桑樹為3 135張、桃樹為3 058張、梨樹為2 750張、核桃為3 630張。復(fù)雜背景圖像擴(kuò)充為4 048張,其中,核桃病害葉片748張、核桃健康葉片1 531張、梨樹病害葉片748張、梨樹健康葉片1 021張。由于Plant Village數(shù)據(jù)量充足,未對其進(jìn)行圖像擴(kuò)充操作。最后將處理后的圖像按照8∶1∶1的比例分為訓(xùn)練集、驗(yàn)證集和測試集進(jìn)行試驗(yàn)。
1. 2 構(gòu)建歸一化注意力輕量級深度卷積神經(jīng)網(wǎng)絡(luò)(MobileNet-V2 NAM)
本研究設(shè)計一款歸一化注意力(normalizationbasedattention module,NAM)輕量級深度卷積神經(jīng)網(wǎng)絡(luò)(MobileNet-V2)果樹葉片分類及病害識別模型。由于果樹病害特征多樣化,且表面形式受背景環(huán)境影響。為真實(shí)反映病害在自然環(huán)境下的表現(xiàn)形式,驗(yàn)證模型在復(fù)雜環(huán)境下的適用性,本試驗(yàn)選擇新疆地區(qū)大面積種植的核桃及庫爾勒香梨構(gòu)建復(fù)雜背景數(shù)據(jù)集,對其進(jìn)行病害識別,并與不同注意力機(jī)制和經(jīng)典CNN 模型(包括AlexNet[16],VGG16[17],ResNet50[18])的識別結(jié)果比較,驗(yàn)證模型的病害識別效果。
1. 2. 1 MobileNet-V2模型
2018 年,一種新型輕量級卷積神經(jīng)網(wǎng)絡(luò)MobileNet-V2[19]被提出,其具有更少的參數(shù)量、更小的計算量和更高的精度。該新型輕量級卷積神經(jīng)網(wǎng)絡(luò)提出倒殘差模塊(inverted residuals),通過先升維后降維的方式,解決了深層卷積(depthwise convolu‐tion)因不能改變通道數(shù)而使特征提取受限的問題。最后,其將逐點(diǎn)卷積(pointwise convolution)降維后的非線性激活函數(shù)(ReLU6)替換成線性激活函數(shù)(Linear),防止造成特征信息的損失。但是,當(dāng)面對背景復(fù)雜和病斑特征豐富等特點(diǎn)的數(shù)據(jù)時,MobileNet-V2存在注意力分散,模型無法集中于感興趣區(qū)域等問題。因此,本試驗(yàn)針對MobileNet-V2存在的問題,設(shè)計一款輕量級葉片分類及病害識別模型MobileNet-V2 NAM,模型框架如圖2所示。
1. 2. 2 歸一化注意力機(jī)制
注意力機(jī)制是近年來提高模型性能的熱門技術(shù)之一[20],能使模型聚焦感興趣區(qū)域,提高模型對特征信息的關(guān)注度,減少冗余背景產(chǎn)生的影響。目前,SENet[21]是在通道維度上進(jìn)行注意力操作,建立特征圖通道之間的依賴關(guān)系,但位置信息在空間結(jié)構(gòu)中難以保留。卷積塊注意力模塊(Convolutional Block AttentionModule,CBAM)[22]是通過通道與空間維度依次推斷注意力。然而,這些工作忽略了訓(xùn)練中來自調(diào)優(yōu)權(quán)重的信息,導(dǎo)致模型無法有效地突出特征信息。歸一化注意力(normalization-based attention module,NAM)[23]是通過利用模型訓(xùn)練權(quán)重的方差度量(variancemeasurement)來突出感興趣信息,提高模型注意力,區(qū)別感興趣區(qū)域與冗余背景,從而得到圖像中最需要注意的區(qū)域,最終獲得更高效的模型。該注意力采用CBAM的模塊集成功能,將通道注意力模塊與空間注意力模塊集成,并嵌入到特征提取層末端。
在通道注意力模塊中,使用批量歸一化(BatchNormalization,BN,式中記為BN)中的尺度因子[24]借助其度量通道的方差展示其重要性。計算公式為
式中:xin 為輸入特征;σB 為mini-batch B的標(biāo)準(zhǔn)差;? 為保證數(shù)值穩(wěn)定性而添加到σ2B 一個常數(shù);μB 為mini-batch B的均值;δ 和β 分別為可訓(xùn)練的仿射變換參數(shù)(scale和shift)。
通道注意子模塊如圖3(a)所示。計算公式為
Mc = sigmoid(Wγ (BN(F1 )))。(2)
式中:Mc為通道注意力模塊通過sigmoid激活函數(shù)輸出特征;F1為衡量模型性能的指標(biāo);γ 為通道注意力的尺度因子;Wγ 為γ 的權(quán)重,其權(quán)重計算公式為
式中:i 表示當(dāng)前正在考慮的γ 的索引;j 表示在求和操作中正在遍歷的所有γ 的索引。
而在空間注意力模塊中,用BN的尺度因子來度量像素的重要性,即為像素歸一化??臻g注意力模塊如圖3(b)所示。計算公式為
Ms = sigmoid(Wλ (BNs (F2 )))。(4)
式中:Ms為空間注意力模塊的輸出特征;F2為衡量模型性能的指標(biāo);λ 為空間注意力模塊中的尺度因子;Wλ為λ 的權(quán)重。其權(quán)重計算公式為
本研究采用測試集圖像構(gòu)建Grad-CAM 熱力圖[25],直觀地展示不同注意力的識別效果,是一種基于CNN的網(wǎng)絡(luò)生成可視化技術(shù),能夠?qū)δP偷淖R別結(jié)果進(jìn)行有效的解釋。
1. 2. 3 L1正則化
正則化是防止模型過擬合的有效方法,他不僅加快了模型的訓(xùn)練速度,而且提高了泛化能力[26]。L1正則化[27]通過稀疏化技術(shù)對模型參數(shù)進(jìn)行了處理,生成了一個稀疏矩陣,這有助于進(jìn)行特征篩選,保留關(guān)鍵特征,從而增強(qiáng)了模型的泛化能力。作為損失函數(shù)的一部分,這種稀疏化操作對損失函數(shù)中的參數(shù)施加了約束,減少了模型的復(fù)雜性,有助于避免過擬合現(xiàn)象的發(fā)生。L1正則化后的新?lián)p失函數(shù)(L1)計算公式為
式中:(x,y)為輸入和輸出;W 為訓(xùn)練權(quán)重;γ 和λ 是通道與注意力模塊中的尺度因子;l (·) 為CNN的訓(xùn)練損失;g (·)為L1正則化懲罰函數(shù);r 為平衡g (γ)和g (λ)的參數(shù)。
1. 3 環(huán)境配置和超參數(shù)設(shè)置
本試驗(yàn)在Windows10(64位)系統(tǒng)環(huán)境下操作,GPU 為NVIDIA Tesla K80,內(nèi)存為8 G,CUDA 版本為CUDA11. 1,搭載的處理器為3×Xeon E5-2678 v3。應(yīng)用開源深度學(xué)習(xí)框架Ptorch1. 9. 1開發(fā)環(huán)境,使用Python3. 7. 10 編程語言實(shí)現(xiàn)。試驗(yàn)批處理大?。˙atch-size)為32,迭代次數(shù)設(shè)為200。所有的訓(xùn)練模型采用Adam優(yōu)化器,學(xué)習(xí)率為0. 000 1。
1. 4 模型評價指標(biāo)
本研究采用準(zhǔn)確率(Accuracy,式中記為Accuracy)、精度(Precision,式中記為Precision)、召回率(Recall,式中記為Recall)、綜合指標(biāo)F1 值(F1-Score,式中記為F1)作為模型的評價指標(biāo),各指標(biāo)表達(dá)式為
式中:TP為正確分類的正樣本數(shù)量;TN為正確分類的負(fù)樣本數(shù)量;FP為錯誤分類的正樣本的數(shù)量;FN 為錯誤分類的負(fù)樣本數(shù)量。
同時,為了更好地評價改進(jìn)模型的運(yùn)行成本,本研究應(yīng)用模型參數(shù)量指標(biāo)進(jìn)行評估,而在本研究選用“Param”(參數(shù))而不是“FLOPs”(每秒浮點(diǎn)運(yùn)算次數(shù)),2個指標(biāo)都是衡量機(jī)器學(xué)習(xí)模型不同方面的2個指標(biāo),其中參數(shù)的數(shù)量可以直觀地反映模型的復(fù)雜度和容量。參數(shù)越多,模型的表達(dá)能力通常越強(qiáng)。而FLOPs是模型在推理時的計算量,有助于評估模型的推理速度和硬件需求。為了更加注重與傾向于模型的遷移學(xué)習(xí),借助參數(shù)量來適應(yīng)用的不同的任務(wù)和數(shù)據(jù)集,而且參數(shù)量有助于評估模型的存儲和部署成本[28]。
2 結(jié)果與分析
2. 1 葉片分類結(jié)果分析
為充分驗(yàn)證模型的泛化能力,試驗(yàn)構(gòu)建了3種數(shù)據(jù)集,包括自構(gòu)建數(shù)據(jù)集,Plant Village數(shù)據(jù)集以及兩者混合數(shù)據(jù)集,并且對不同數(shù)據(jù)集進(jìn)行訓(xùn)練。試驗(yàn)結(jié)果見表1,對于自構(gòu)建數(shù)據(jù)集,模型分類準(zhǔn)確率達(dá)到97. 05%,且各類指標(biāo)都具有良好的表現(xiàn),雖然相較于Plant Village數(shù)據(jù)集分類準(zhǔn)確率有所降低,但是在分類數(shù)量增加1倍的情況下依然保持優(yōu)秀的分類結(jié)果。對于Plant Village數(shù)據(jù)集,模型的分類效果最好,分類準(zhǔn)確率達(dá)到98. 73%,這是由于公開數(shù)據(jù)集制作過程專業(yè)化,圖像質(zhì)量高且果樹葉片的特征明顯,從而便于模型提取特征。同時,因?yàn)閿?shù)據(jù)集中類別較少,只進(jìn)行3分類操作,模型分類難度低,使其具有較高的分類準(zhǔn)確性。然而,試驗(yàn)將2類數(shù)據(jù)集混合后,模型對所得的9類別混合數(shù)據(jù)集進(jìn)行訓(xùn)練,其分類準(zhǔn)確率降低為94. 91%,試驗(yàn)采用混淆矩陣可視化方法詳細(xì)表明3 類數(shù)據(jù)集的預(yù)測結(jié)果。
混淆矩陣是總結(jié)模型分類和預(yù)測結(jié)果的矩陣表。每行代表類別的真實(shí)數(shù)據(jù),每列代表類別的預(yù)測數(shù)據(jù)。矩陣內(nèi)容如圖4所示。圖4(a)和圖4(b)中,由于樣本類別較少,特征差異明顯,分類難度較小,使模型表現(xiàn)出良好的分類效果。圖4(c)中,模型在預(yù)測香梨時,將12張圖像錯誤分類為蘋果,在預(yù)測蘋果時,將16張圖像錯誤分類為香梨,使得模型整體分類準(zhǔn)確率降低。觀察圖像發(fā)現(xiàn),香梨與蘋果葉片的形狀、紋理等方面相似,葉片都為卵形,葉緣呈鋸齒狀。所以,模型在學(xué)習(xí)過程中需要分辨更復(fù)雜的特征,對正確分類造成了阻力,導(dǎo)致準(zhǔn)確率降低。其次,由于混合數(shù)據(jù)集類別數(shù)量為Plant Village數(shù)據(jù)集的3倍,導(dǎo)致分類難度加大,準(zhǔn)確率有所下降,但是其仍具有較為優(yōu)秀的結(jié)果。綜合3種數(shù)據(jù)集分類結(jié)果表明,MobileNet-V2 NAM模型在不同數(shù)據(jù)類別的情況下都具有較好的分類效果,最低分類準(zhǔn)確率也達(dá)到94. 91%,模型具有良好的泛化能力。
2. 2 病害識別結(jié)果分析
2. 2. 1 與經(jīng)典CNN模型的識別結(jié)果比較
本試驗(yàn)將MobileNet-V2 NAM(MobileNet-V2normalization-based attention module)模型與經(jīng)典CNN模型進(jìn)行比較后的識別結(jié)果見表2,MobileNet-V2 NAM模型對香梨病葉的F1值優(yōu)于核桃病葉,原因是與核桃病葉相比,香梨病葉的特征信息更為突出,其葉片上多為大面積的褐色斑點(diǎn)以及葉片邊緣蜷曲枯黃。而就健康葉片而言,核桃的F1值要優(yōu)于香梨0. 51%,這是由于核桃葉片面積大,且葉部脈絡(luò)粗壯清晰,加之香梨表面滯塵較多,導(dǎo)致模型更適于識別核桃健康葉片。模型準(zhǔn)確率方面,本試驗(yàn)?zāi)P兔黠@優(yōu)于AlexNet和VGG16模型,優(yōu)于表現(xiàn)較差的AlexNet 7. 17%。而ResNet50 網(wǎng)絡(luò)層數(shù)深,在本試驗(yàn)中具有良好的識別能力,與MobileNet-V2NAM 相比,ResNet50優(yōu)于其0. 25%,但深層網(wǎng)絡(luò)耗費(fèi)了大量的計算資源,較難應(yīng)用于移動設(shè)備。因此,在硬件條件允許的情況下,ResNet50適合計算機(jī)端運(yùn)行,而MobileNet-V2 NAM模型參數(shù)量小,模型結(jié)構(gòu)簡單,更適合移動終端運(yùn)行。
2. 2. 2 不同注意力機(jī)制的識別結(jié)果比較
為了驗(yàn)證NAM 注意力的優(yōu)勢,試驗(yàn)在相同條件下,將改進(jìn)模型中NAM 注意力分別替換為SE(Squeeze-and-Excitation) 和CBAM (ConvolutionalBlock Attention Module),并應(yīng)用到測試集上,各模型的識別結(jié)果、參數(shù)數(shù)量見表3。其中,與其他兩類注意力模塊對比,本研究融入NAM注意力機(jī)制后仍保持較低的模型參數(shù)量,且MobileNet-V2 NAM模型的識別準(zhǔn)確率達(dá)到94. 55%,高于其余兩類注意力模塊。同時,3類注意力模塊預(yù)測健康葉片的精確率普遍大于病害葉片,表明葉片的病害特征復(fù)雜,提取難度大,準(zhǔn)確識別具有挑戰(zhàn)性。但是MobileNet-V2 對病葉識別的精確率大于90%,最高可達(dá)93. 33%,高于其余兩類注意力機(jī)制的病葉識別精確率,兩者識別結(jié)果均未超過90%,由此表明MobileNet-V2 NAM模型正確識別病害樣本數(shù)量增加,NAM注意力機(jī)制可以使模型更好地發(fā)現(xiàn)圖像中的病害區(qū)域,減少冗余背景對識別結(jié)果的影響。
借助Grad-CAM 的熱力圖展示結(jié)果,如圖5 所示,圖5中P 表示不同注意力機(jī)制對病害類別的判斷概率。
由圖5可知,NAM在4類圖像中均表現(xiàn)良好,判斷概率最高可達(dá)100%,表明模型關(guān)注于大面積受害區(qū)域,且局部特征關(guān)注度高,對一些微小斑點(diǎn)也有識別。圖5(c)為梨樹缺素癥病葉,特征表現(xiàn)為葉片瘦小,顏色淡黃,NAM能良好地關(guān)注到病害區(qū)域,并將其與冗余背景區(qū)分。而CBAM與SE錯誤地將背景葉片和土壤作為感興趣區(qū)域,模型判斷概率為62. 83%和47. 65%,這是由于CBAM與SE缺乏對權(quán)重信息重要性的關(guān)注,缺素病顏色表現(xiàn)與土壤背景相似,使模型關(guān)注于背景環(huán)境,導(dǎo)致判斷錯誤。圖5(b)中NAM與CBAM均表現(xiàn)良好,模型關(guān)注于病害區(qū)域,判斷概率為99. 23%和99. 57%,而SE下降為82. 31%,原因是葉片上存在雨后滯塵,顏色與形狀與病斑相似,SE注意力模塊錯誤地將滯塵識別為病斑,使得模型判斷率下降。結(jié)果表明,NAM注意力模塊可以更好地提升模型性能,關(guān)注圖像中的病害區(qū)域,減少背景環(huán)境中滯塵、樹枝與土壤等因素對識別效果的影響。
3 結(jié)論與討論
及時有效的病害防治可以降低對果樹的損害,利用移動設(shè)備現(xiàn)場拍攝病葉并自動識別診斷已是林果業(yè)植保的發(fā)展趨勢。雖然現(xiàn)有的經(jīng)典CNN模型具有良好的識別精度,但其結(jié)構(gòu)復(fù)雜、參數(shù)量大、計算成本高,較難嵌入至移動設(shè)備中。本研究以平衡模型參數(shù)大小和識別準(zhǔn)確率為目標(biāo),使用Mo‐bileNet-V2為基礎(chǔ)網(wǎng)絡(luò)骨架,添加NAM注意力機(jī)制,使模型集中注意于葉片病害區(qū)域,同時避免添加SE、CBAM模塊時使用的全連接層和卷積層而造成參數(shù)冗余。同時,將L1正則化添加到損失函數(shù)中,進(jìn)行權(quán)重稀疏性懲罰,防止模型過擬合。在果樹分類中,3 種數(shù)據(jù)集的平均分類準(zhǔn)確率分別為97. 05%、98. 73%、94. 91%(表1),模型具有良好的泛化能力。在病害識別中,獲得了一種準(zhǔn)確率為94. 55%,參數(shù)大小為3. 56M 的輕量級CNN 模型。與經(jīng)典模型進(jìn)行比較,準(zhǔn)確率最高提升7. 17%,相較RseNet50模型準(zhǔn)確率降低0. 25%,但改進(jìn)模型擁有更小的參數(shù)量,使模型在參數(shù)量與準(zhǔn)確率之間具有更好的平衡性,適合嵌入到移動設(shè)備中,為果農(nóng)即時識別果樹病葉提供技術(shù)支持。
Bi等[9]使用標(biāo)準(zhǔn)的MobileNet模型進(jìn)行蘋果葉片病害識別,表現(xiàn)出良好的效果。而Chen 等[11]在MobileNetV2基礎(chǔ)上引入注意力機(jī)制,提高了識別性能,尤其在多種作物病害數(shù)據(jù)集上表現(xiàn)更佳。展現(xiàn)了MobileNetV2的輕量級的能力,也說明了注意力機(jī)制增強(qiáng)了識別能力。
在對比并訓(xùn)練的AlexNet、ResNet50 和Mobile‐NetV2模型上,該研究的結(jié)果也剛好驗(yàn)證了Mobile‐NetV2模型更適合輕量化葉片的識別[29]。
此外,樣本質(zhì)量會影響識別效果,新疆特色氣候條件產(chǎn)生獨(dú)特的葉片滯塵紋理,模型對其適應(yīng)性值得討論。本研究團(tuán)隊(duì)計劃面向新疆特色環(huán)境來設(shè)計模型結(jié)構(gòu),使其更適應(yīng)于復(fù)雜的果樹種植環(huán)境。同時,本研究是基于健康與非健康葉片組成的病害數(shù)據(jù)集,未來可針對具體病害類別展開研究,并且,可以通過采集多類樹種的葉片圖像構(gòu)建數(shù)據(jù)集,豐富地域果樹數(shù)據(jù)類別。在模型性能方面,未來可應(yīng)用不同的壓縮技術(shù)對模型進(jìn)行優(yōu)化,通過提高學(xué)習(xí)速度,降低模型參數(shù)量,進(jìn)一步解決模型使用成本問題。
【參 考 文 獻(xiàn)】
[1] 胡東宇,黃力平,高健,等. 促進(jìn)新疆林果業(yè)機(jī)械化發(fā)展的對策研究[J]. 中國農(nóng)機(jī)化學(xué)報,2021,42(4):211-216,222.
HU D Y,HUANG L P,GAO J,et al. Study on the countermeasuresfor promoting the development of forestry andfruit industry mechanization in Xinjiang[J]. Journal of ChineseAgricultural Mechanization,2021,42(4):211-216,222.
[2] BAO W,YANG X,LIANG D,et al. Lightweight convolutionalneural network model for field wheat ear diseaseidentification[J]. Computers and Electronics in Agriculture,2021,189:106367.
[3] PICON A,SEITZ M,ALVAREZ-GILA A,et al. Crop conditionalconvolutional neural networks for massive multi-cropplant disease classification over cell phone acquired imagestaken on real field conditions[J]. Computers and Electronicsin Agriculture,2019,167:105093.
[4] FERENTINOS K P. Deep learning models for plant diseasedetection and diagnosis[J]. Computers and Electronics inAgriculture,2018,145:311-318.
[5] LIU B,ZHANG Y,HE D J,et al. Identification of appleleaf diseases based on deep convolutional neural networks[J]. Symmetry,2017,10(1):11.
[6] KHAN M A,AKRAM T,SHARIF M,et al. CCDF:Automaticsystem for segmentation and recognition of fruit cropsdiseases based on correlation coefficient and deep CNN features[J]. Computers and Electronics in Agriculture,2018,155:220-236.
[7] 任守綱,賈馥瑋,顧興健,等. 反卷積引導(dǎo)的番茄葉部病害識別及病斑分割模型[J]. 農(nóng)業(yè)工程學(xué)報,2020,36(12):186-195.
REN S G,JIA F W,GU X J,et al. Recognition and segmentationmodel of tomato leaf diseases based on deconvolution-guiding[J]. Transactions of the Chinese Society of AgriculturalEngineering,2020,36(12):186-195.
[8] 劉陽,高國琴. 采用改進(jìn)的SqueezeNet模型識別多類葉片病害[J]. 農(nóng)業(yè)工程學(xué)報,2021,37(2):187-195.
LIU Y,GAO G Q. Identification of multiple leaf diseasesusing improved SqueezeNet model[J]. Transactions of theChinese Society of Agricultural Engineering,2021,37(2):187-195.
[9] BI C,WANG J,DUAN Y,et al. MobileNet based apple leafdiseases identification[J]. Mobile Networks and Applications,2020,27:172-180.
[10] 王美華,吳振鑫,周祖光. 基于注意力改進(jìn)CBAM的農(nóng)作物病蟲害細(xì)粒度識別研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報,2021,52(4):239-247.
WANG M H,WU Z X,ZHOU Z G. Fine-grained identificationresearch of crop pests and diseases based on improvedCBAM via attention[J]. Transactions of the ChineseSociety for Agricultural Machinery,2021,52(4):239-247.
[11] CHEN J,ZHANG D,SUZAUDDOLA M,et al. Identifyingcrop diseases using attention embedded MobileNet-V2model[J]. Applied Soft Computing,2021,113:107901.
[12] 馬依拉·熱合曼,買買提·沙吾提,尼格拉·塔什甫拉提,等. 基于遙感與GIS的渭庫綠洲生態(tài)系統(tǒng)服務(wù)價值時空變化研究[J]. 生態(tài)學(xué)報,2018,38(16):5938-5951.
MAYILA R,MAMAT S,NIGELA T,et al. The ecosystemservice value spatial-temporal changes in the Ugan-kuqaRiver Delta Oasis based on RS and GIS[J]. Acta EcologicaSinica,2018,38(16):5938-5951.
[13] 何軍紅,溫觀發(fā),黎長鑫. 優(yōu)化Faster R-CNN算法的小樣本缺陷檢測研究[J]. 工業(yè)儀表與自動化裝置,2024(5):94-101.
HE J H,WEN G F,LI C X. Research on small sample defectdetection based on optimized Faster R-CNN algorithm[J]. Industrial Instrumentation amp; Automation,2024(5):94-101.
[14] 尹唱唱,趙猛,王曉涵,等. 青島市大氣顆粒物SEM圖像數(shù)據(jù)集[J]. 中國科學(xué)數(shù)據(jù)(中英文網(wǎng)絡(luò)版),2024,9(2):366-374.
YIN C C,ZHAO M,WANG X H,et al. A dataset of SEMimages of atmospheric particles in Qingdao[J]. China ScientificData,2024,9(2):366-374.
[15] 吳樹賢. 基于深度學(xué)習(xí)的醫(yī)學(xué)影像腫瘤分割算法研究[D]. 廣州:廣州大學(xué),2024.
WU S X. Research on medical imaging tumor segmentationalgorithm based on deep learning[D]. Guangzhou:Guangzhou University,2024.
[16] KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNetclassification with deep convolutional neural networks[J].Communications of ACM,2017,60(6):84-90.
[17] SIMONYAN K,ZISSERMAN A. Very deep convolutionalnetworks for large-scale image recognition[J]. arXiv preprintarXiv:1409. 1556,2014.
[18] HE K,ZHANG X,REN S,et al. Deep residual learningfor image recognition[C]//Proceedings of 2016 IEEE Conferenceon Computer Vision and Pattern Recognition. LasVegas,NV,USA. IEEE,2016:770-778.
[19] SANDLER M,HOWARD A,ZHU M,et al. Mobilenetv2:Inverted residuals and linear bottlenecks[C]//Proceedingsof 2018 IEEE/CVF Conference on Computer Visionand Pattern Recognition. Salt Lake City,UT,USA. IEEE,2018:4510-4520.
[20] WANG F,JIANG M,QIAN C,et al. Residual attentionnetwork for image classification[C]//Proceedings of 2017IEEE Conference on Computer Vision and Pattern Recognition.Hololulu,HI,USA,IEEE,2017:3156-3164.
[21] HU J,SHEN L,SUN G. Squeeze-and-excitation networks[C]//Proceedings of 2018 IEEE/CVF Conference on ComputerVision and Pattern Recognition. Las Vegas,NV,USA. IEEE,2018:7132-7141.
[22] WOO S,PARK J,LEE J Y,et al. CBAM:Convolutionalblock attention module[C]//Proceedings of the EuropeanConference on Computer Vision (ECCV). Munich,Germany.2018:3-19.
[23] LIU Y,SHAO Z,TENG Y,et al. NAM:Normalizationbasedattention module[J]. arXiv preprint arXiv:2111.12419,2021.
[24] IOFFE S,SZEGEDY C. Batch normalization:Acceleratingdeep network training by reducing internal covariateshift[C]//Proceedings of the 32nd International Conferenceon Machine Learning. Lille France. PMLR,2015:448-456.
[25] SELVARAJU R R,COGSWELL M,DAS A,et al. Grad-CAM:Visual explanations from deep networks via gradient-based localization[C]//Proceedings of 2017 IEEE InternationalConference on Computer Vision. Venice,Italy.IEEE,2017:618-626.
[26] WANG H,LONG H,WANG A,et al. Deep learning andregularization algorithms for malicious code classification[J]. IEEE Access,2021,9:91512-91523.
[27] LIU Z,LI J,SHEN Z,et al. Learning efficient convolutionalnetworks through network slimming[C]//Proceedingsof 2017 IEEE International Conference on ComputerVision. Venice,Italy. IEEE,2017:2736-2744.
[28] SAINI R,JHA N K,DAS B,et al. ULSAM:Ultra-lightweightsubspace attention module for compact convolutionalneural networks[C]//Proceedings of 2020 IEEEWinter Conference on Applications of Computer Vision.Snowmass,CO,USA. IEEE,2020:1627-1636.
[29] 李婷婷,王晴晴,唐琦,等. 深度學(xué)習(xí)下的小樣本玉米葉片病害識別研究[J]. 新一代信息技術(shù),2023,6(24):1-5.
LI T T,WANG Q Q,TANG Q,et al. Study on the recognitionof maize leaf disease based on deep learning withsmall sample size[J]. New Generation of InformationTechnology,2023,6(24):1-5.
基金項(xiàng)目:新疆自然科學(xué)計劃項(xiàng)目(2021D01C055);新疆大學(xué)國家級大學(xué)生創(chuàng)新訓(xùn)練計劃項(xiàng)目(202310755002)。