關鍵詞:玉米病害;圖像識別;卷積;注意力機制; ResNet18 模型; AC-SK-ResNet 模型中圖分類號:S126;TP391.41 文獻標志碼:A 文章編號:1002-1302(2025)10-0214-C
玉米作為我國重要的糧食作物,其種植面積廣、產量高,在糧食增產中起著巨大作用[1]。近年來,我國玉米種植面積不斷擴大,玉米病害對玉米的質量、產量都有很大影響,也影響著人們的生活和經濟[2]。病害的識別和防治是保證作物質量、產量的重要手段,隨著人工智能技術的發(fā)展,能夠及時有效地識別玉米葉片病害顯得尤為重要[3]
傳統(tǒng)采用肉眼觀察法識別玉米葉片病害,較多依靠農技人員的個人經驗[4],并且這種方法的主觀判斷影響較大,識別方式有局限性,效率不高。隨著機器學習的發(fā)展,現(xiàn)代農業(yè)的智能化發(fā)展有了很多新途徑[5]。曾鵬滔等針對農田環(huán)境下玉米病害圖像復雜等問題,通過添加卷積塊注意力模塊(convolutional blockattention module,CBAM),替換激活函數(shù)對殘差網(wǎng)絡進行改進[6。熊夢園等對殘差網(wǎng)絡添加CBAM注意力機制、FPN特征金字塔網(wǎng)絡,并采用遷移學習的方式,結果顯示,這種模式對玉米葉片病害的識別準確率達到 97.6%[7] 。李恩霖等基于卷積神經網(wǎng)絡進行改進,設計的DenseNet121網(wǎng)絡可以精確識別3種玉米病害[8]。黃英來等通過調整網(wǎng)絡的卷積層、替換卷積函數(shù)和調整殘差網(wǎng)絡結構的方式改進卷積神經網(wǎng)絡,并采用遷移學習的方式提高了玉米葉片病害識別的準確率[9]
本研究的對象為玉米葉片數(shù)據(jù)集,由于大斑病的病斑在葉片上所占區(qū)域相對較小,因此對模型處理局部信息的能力有較高要求?;野卟『痛蟀卟∮胁糠窒嗨疲“哒既~片的面積適中,需要模型具有處理局部信息、全局信息的能力,銹病的病斑面積較大,要求模型具有較強的獲取全局信息的能力。針對ResNet18網(wǎng)絡對玉米葉片病斑特征差異識別不明顯、模型參數(shù)較多、模型體積大的問題,通過改進殘差連接、高階殘差結構可以提取更微小的病斑特征。添加可選擇卷積核注意力機制后可以增強網(wǎng)絡對玉米病斑區(qū)域的關注。引入非對稱卷積可以捕捉到不規(guī)則病斑的邊緣特征,進一步優(yōu)化模型。本研究擬提出一種基于改進ResNet18(AC-SK-ResNet的玉米葉片病害識別模型,研究不同注意力機制、不同學習率、不同數(shù)據(jù)集大小對模型性能的影響,并將改進的模型和其他網(wǎng)絡模型進行對比,評價改進模型的優(yōu)越性。
1數(shù)據(jù)集的獲取及預處理
1.1 玉米葉片病害數(shù)據(jù)集
本研究中的玉米葉片病害圖片來自Plant-Village 公共數(shù)據(jù)集[10],圖片包括4種葉片數(shù)據(jù),分別是玉米健康葉片、大斑病葉片、灰斑病葉片和銹病葉片,共4354張。取數(shù)據(jù)集中的 60% 作為訓練集, 40% 作為測試集。試驗時間為2023年6月至2024年4月,試驗地點為江蘇省無錫學院實驗室。
1.2 圖像預處理
玉米病害的發(fā)生受到很多因素的影響,在自然條件下,玉米病害葉片較難大量采集,由于本研究收集的玉米葉片數(shù)量較少,為了保證樣本的充足性,對數(shù)據(jù)訓練集進行數(shù)據(jù)增強操作(圖1)[11]
在自然條件下,收集葉片病害數(shù)據(jù)受到拍攝角度、天氣、光照或者葉片上灰塵等因素的影響,因此本研究基于幾何變換和圖像操作的數(shù)據(jù)增強方法,其中數(shù)據(jù)增強的操作有高斯模糊,即對葉片進行水平翻轉,可以得到不同角度的葉片圖像。椒鹽噪聲操作即給葉片圖像加黑胡椒、白鹽樣式的椒鹽噪聲。隨機水平翻轉消除視角偏差,放大圖片為了模仿近距離拍照情景,使卷積神經網(wǎng)絡可以學習病斑紋理的尺度不變特征。數(shù)據(jù)增強操作如圖2所示。
由于由1張圖片擴充得到的多張圖片存在較高相似度,因此要在劃分訓練集、測試集后,對訓練集進行數(shù)據(jù)增強,以增加訓練集的數(shù)量、質量,盡可能模仿自然條件下的拍攝效果。將原始圖像按照1:4 的比例進行擴充,擴充后的玉米病害圖像由4354張擴充為21770張。
2 模型的構建
2.1 ResNet18模型
常見的特征提取網(wǎng)絡主要有2種類型,一種是由多個卷積層堆積的多層網(wǎng)絡,以VGG網(wǎng)絡為代表。另一種就是含有殘差結構的ResNet網(wǎng)絡系列[12]。VGG 網(wǎng)絡體積大于ResNet 網(wǎng)絡,參數(shù)量最多,訓練時間較長。
ResNet18是ResNet系列中的1個輕量級版本,它在保持較好性能的同時,具有相對較少的參數(shù)、計算量,這使得ResNet18在資源有限的環(huán)境中更容易部署和運行。對于玉米葉片病害的識別任務而言,輕量級的模型可以減少計算資源的需求,提高處理速度,從而更好地滿足實際應用。因此,本研究選用ResNet18作為玉米葉片病害識別的原始模型。
2.2 ResNetl8模型的改進
為了解決模型準確率較低、體積較大的問題,對ResNet18網(wǎng)絡結構進行優(yōu)化。由于玉米葉片病斑像素占葉片像素的比例相對較少,特征信息容易在深層網(wǎng)絡中丟失,因此采用高階殘差模塊代替普通殘差模塊,使網(wǎng)絡可以保留葉片病害的原始特征,將經過卷積的底層特征和經過多次卷積后得到的高級細節(jié)特征一起提取出來。
引入SK注意力機制,通過自適應地調整不同尺度的卷積核權重,能夠幫助網(wǎng)絡更加專注于高階殘差結構提取的葉片病斑區(qū)域,從而提升病斑提取的準確性和效率。
在主干網(wǎng)絡最后的殘差塊部分,引入非對稱卷積核替代標準卷積核,能夠更好地適應圖像的局部特性,尤其是病斑的邊緣或角落,在保持提取特征的精度相當?shù)那闆r下,降低參數(shù)量、計算量。由于非對稱卷積通過使用不同大小的卷積核進行特征提取,可以更靈活地適應數(shù)據(jù)分布,因此將其放在網(wǎng)絡的最后階段,這有助于模型更精確地捕捉圖像中的關鍵特征。
由于ResNet18參數(shù)較多、體積較大,因此本研究減少了ResNet18的通道數(shù)、卷積層數(shù),使本研究模型具有更少的參數(shù),改進的ResNet18(AC-SK-ResNet)只有13個卷積層和1個非對稱卷積層。
在ResNet18的基本殘差結構的連續(xù)卷積層中,先后使用ReLU激活函數(shù)、SELU激活函數(shù),解決訓練過程中神經元失活過多的問題,減少神經元失活對網(wǎng)絡準確率的影響,保留更多神經元,增強上一層信號的關鍵性,從而保證網(wǎng)絡的特征提取能力。用Adam優(yōu)化算法代替SGD優(yōu)化算法,改進后的網(wǎng)絡結構模型見圖3。
2.2.1高階殘差的構建由圖4可知,高階殘差塊的內部有3個卷積層并且包含1個殘差結構,從而能夠捕獲更豐富的特征信息。神經網(wǎng)絡在改變深度時,往往會出現(xiàn)梯度消失或梯度爆炸的問題,導致網(wǎng)絡難以訓練。高階殘差通過引入2次跳躍連接,允許梯度直接回流到較淺的層,從而有效地緩解了上述問題,這使研究者可以訓練不同深度的網(wǎng)絡,并且在訓練過程中網(wǎng)絡更容易收斂,同時可以加速訓練過程,并減少過擬合的風險,保持穩(wěn)定的性能。
玉米葉片病害在不同病害種類之間有一定的相似性,更多體現(xiàn)在底層細小病斑的區(qū)別上。玉米灰斑病葉片和銹病葉片都具有很多近黃色小斑點,如果底層特征提取不充分,容易致使模型判斷失誤。因此,在玉米葉片病害識別過程中要考慮更多相似的底層特征,提高病害識別的準確率。2.2.2非對稱卷積添加非對稱卷積(asymmetricconvolution,AC)[13]將原始的 3×3 卷積分解,分成3×3.1×3 和 3×1 這3個分支,然后將這3個分支的輸出求和,如圖5所示。
非對稱卷積將單分支卷積分成了多個分支卷積,強化了卷積核的骨架權重,增加了特征提取的多樣性和空間特征提取能力,并且3個分支卷積核包含之前的 3×3 卷積核,因而能保持提取特征的精度不低于之前提取的特征信息。
由于玉米葉片病斑圖像中存在大量不規(guī)則特征,非對稱卷積有提升翻轉、旋轉圖像魯棒性的作用,能夠更好地捕捉并強調這些特征,從而提高模型的識別能力。
在網(wǎng)絡的最后階段,上述優(yōu)化能夠更直接地影響模型的輸出,從而實現(xiàn)對玉米葉片病害識別精度的提升。
2.2.3引入注意力模塊引入注意力機制,可以使模型更加關注玉米葉片病斑區(qū)域。擠壓激勵網(wǎng)絡(squeeze-and-excitation networks,SE)[14]、置換注意力(shuffle attention,SA)[15]、卷積塊注意力模塊(convolutional block atention module,CBAM)[16]、高效通道注意力(efficient channel attention,ECA)[17]、通道注意力(channelattention,CA)[18]等注意力機制都是神經網(wǎng)絡中常用的輕量化注意力機制,本研究分別引人這些注意力機制來驗證選擇性內核(selective kernel,SK)[19]注意力機制的優(yōu)越性(圖6)。
SK注意力機制有1個選擇性的內核單元的構建塊,通過自適應地調整不同尺度的卷積核權重,可以使網(wǎng)絡更好地適應高階殘差結構提取的不同大小、形狀的病斑特征,提高識別的魯棒性。
2.2.4激活函數(shù)ReLU激活函數(shù)能夠將輸入的非線性特征進行非線性變換,增強神經網(wǎng)絡的擬合能力。對于玉米葉片病害識別任務而言,這種非線性變換有助于模型更好地捕捉葉片上的細微病變特征。SELU激活函數(shù)引入了自標準化機制,當輸入為負時呈指數(shù)增長,當輸入為正時呈線性增長,進一步增強了網(wǎng)絡的非線性處理能力。
在玉米葉片病害識別任務中,在深層網(wǎng)絡使用SELU激活函數(shù)可以穩(wěn)定訓練過程,提高模型的收斂速度和性能。
因此,在不同的網(wǎng)絡結構中應采用不同的激活函數(shù)。SELU激活函數(shù)如公式(1)所示,其中 λ= 1.050 700 987, α=1.673 263 242 ;ReLU激活函數(shù)如公式(2)所示。圖7為SELU激活函數(shù)和ReLU
激活函數(shù)對比結果。
2.3 評價指標
對網(wǎng)絡的改進策略通??紤]對網(wǎng)絡的加深或加寬,對卷積層空間信息、通道信息進行改進,以及增加網(wǎng)絡模塊或者改變不同模塊之間的連接方式。一般而言,上述操作都會增加模型的計算量和體積。因此,為了驗證改進模型的性能,采用一系列評價指標對模型的性能進行評價,如查準率(Precision, P )、查全率( Recall,R) 1 ?F1 分數(shù)、準確率(Accuracy)、模型體積等[20]
式中:真正例(truepositives, TP )表示預測為正例,實際也為正例;假正例(1positives, FP 表示預測為正例,實際為負例;假負例(1negatives, 表示預測為負例,實際為正例;真負例(truenegatives,TN)表示預測為負例,實際也是負例。TP,TN 都表示預測正確, FP,F(xiàn)N 都表示預測錯誤,總樣本數(shù)為 TP+TN+FP+FN 。此外,可以通過Loss曲線、準確率曲線來判斷模型是否擬合。
3結果與分析
在無擴充數(shù)據(jù)集上,采用不同注意力機制和不同學習率進行多組試驗,對比模型的準確率、損失值,并分析這些因素對模型性能的影響,同時研究擴充數(shù)據(jù)集對模型性能的影響。
3.1基于AC-SK-ResNet的病害識別
訓練的每個批次包含8張圖片,改進模型使用Adam優(yōu)化算法,初始學習率設置為0.0001,訓練輪次都為50次, 的超參數(shù)設置見表1。
本研究模型AC-SK-ResNet是在ResNet18的基礎上改進的,由圖8、圖9可知,本研究模型的訓練識別準確率高于原始模型ResNet18,達到
98.7% ,升高了1.9百分點。AC-SK-ResNet訓練曲線的準確率高,損失值更小。
由圖9可知,在測試集中,ResNet18模型對大斑病的識別準確率差,改進模型對于局部信息的獲取能力更強,因此對于大斑病葉片的識別準確率更高。
3.2不同注意力機制對模型性能的影響
為了研究注意力機制對模型的影響,驗證SK注意力機制的優(yōu)勢,在無擴充數(shù)據(jù)集上,將學習率設置為0.OOO1,分別引人SE、SK、SA、CBAM、ECA、
CA注意力模塊,訓練輪次為50次,其他超參數(shù)相同。
由表2可知,SK注意力機制增加的效果優(yōu)于其他注意力機制,因為SK注意力機制通過選擇性地應用不同尺度的卷積核,從而在不同層級上捕捉多尺度特征。由于玉米葉片病害可能表現(xiàn)為不同的大小和形狀,因此能夠捕捉多尺度特征對于模型的準確識別至關重要。
模型在測試集上的準確率曲線和損失值曲線見圖10。對比3種注意力機制下的Loss曲線和準確率曲線發(fā)現(xiàn),曲線均在40輪之后趨于收斂。引入SE、SK、SA、CBAM、ECA、CA注意力機制后,準確率分別提高了 1.0,1.6,1.1,1.2,1.7,1.8 百分點,表明引入注意力機制有利于玉米葉片病害的識別。引人注意力機制會增加一些參數(shù)量,但是模型的性能也有了提高。
3.3不同學習率對模型性能的影響
學習率的作用在于決定模型參數(shù)更新的步長,如果學習率設置得太高,容易導致搜索最優(yōu)解過程中震蕩過大而錯過最優(yōu)解,導致模型不收斂;如果學習率設置得太低,會導致模型收斂慢或者無法學習,從而導致準確率很低。
將學習率分別設置為0.01、0.001和0.0001,訓練50輪次,圖11為不同學習率模型測試混淆矩陣,表3為不同學習率下的模型識別性能,當學習率為0.0001時,4種葉片類別的識別準確率最高。
3.4數(shù)據(jù)擴充對模型性能的影響
在擴充數(shù)據(jù)集上,將學習率設置為0.0001,訓練輪次為50次,其他超參數(shù)相同。
由圖12可知,在擴充數(shù)據(jù)集訓練的準確率曲線更加穩(wěn)定,初始準確率就很高,未擴充數(shù)據(jù)集出現(xiàn)較小振蕩。在擴充數(shù)據(jù)集訓練的損失曲線更加平穩(wěn),初始損失很低,未擴充數(shù)據(jù)集的損失明顯高于擴充數(shù)據(jù)集。
數(shù)據(jù)增強通過對圖片進行數(shù)據(jù)變換、數(shù)據(jù)處理,在不改變圖片語義信息的情況下,生成多樣化的圖片樣本,達到數(shù)據(jù)擴充的效果,可以使模型更好地理解數(shù)據(jù)的變化情況,提高模型的識別準確率。此外,模仿自然界的干擾信息,對數(shù)據(jù)增加噪聲,可以提升模型的魯棒性。
3.5不同識別模型的識別效果對比
為了驗證本研究改進模型的可靠性,在無擴充數(shù)據(jù)集上,將學習率設置0.0001,訓練輪次為50次,其他超參數(shù)相同,與其他殘差網(wǎng)絡模型進行對比試驗。圖13為不同模型準確率的對比結果。
表4為不同模型精度和參數(shù)量對比結果,可以看出 AC-SK-ResNet 模型的準確率最高,達到98.7% ,與ResNet101相比提升了2.8百分點。AC-SK-ResNet的模型體積為10.25M,與ResNet18、ResNet34、ResNet101相比,分別減少了34.34、72.90、
4結論
為了實現(xiàn)玉米葉片病害精準識別,本研究基于深度學習的卷積神經網(wǎng)絡改進模型,主要結論如下:
(1)在識別玉米葉片數(shù)據(jù)集的過程中,基于改進ResNet18網(wǎng)絡模型,建立了AC-SK-ResNet玉米葉片病害識別模型,針對玉米葉片病斑細小、相似度高的特征,主要從殘差結構、卷積層和注意力機制來改進。引入非對稱卷積和注意力機制,在網(wǎng)絡的淺層用高階殘差代替普通殘差結構,使模型的精度提升了3.1百分點,模型體積減少了 77.01% 。
(2)試驗設置在其他超參數(shù)相同的情況下,對比不同學習率、注意力機制、數(shù)據(jù)集對模型性能的影響。試驗結果表明,當學習率為0.0001時,引入SK注意力機制的模型性能最優(yōu),模型的精度為98.7% 。同時擴充數(shù)據(jù)集會提升模型的準確率。
(3)本研究模型改進提升了模型精度并且大大減少了模型體積,模型體積為 10.25M ,對比其他殘差網(wǎng)絡的玉米葉片識別模型性能,說明針對玉米葉片病斑的特征,多次下采樣會造成小病斑的語義信息丟失,會影響識別準確率。AC-SK-ResNet在精準度和模型體積方面都有明顯優(yōu)勢。
參考文獻:
[1]王曉鳴,晉齊鳴,石潔,等.玉米病害發(fā)生現(xiàn)狀與推廣品種抗性 對未來病害發(fā)展的影響[J].植物病理學報,2006,36(1):1- 11.
[2]張娣.我國玉米病害現(xiàn)狀及防治措施[J].南方農機,2017,48 (17) :57,59.
[3]Miller S A,Beed F D,Harmon CL.Plant disease diagnostic capabilities and networks[J].Annual Review of Phytopathology, 2009,47:15-38.
[4]喬岳.深度卷積神經網(wǎng)絡在玉米葉片病害識別中的應用研究
[5]許良鳳,徐小兵,胡敏,等.基于多分類器融合的玉米葉部病害 識別[J].農業(yè)工程學報,2015,31(14):194-201,315.
[6]曾鵬滔,撒金海,劉嘉.基于改進 ResNet18的玉米葉片病害識 別方法[J].內蒙古農業(yè)大學學報(自然科學版),2023,44(6): 60-67.
[7]熊夢園,詹煒,桂連友,等.基于ResNet模型的玉米葉片病害 檢測與識別[J].江蘇農業(yè)科學,2023,51(8):164-170.
[8]李恩霖,謝秋菊,蘇中濱,等.基于深度學習的玉米葉片病斑識別 方法研究[J].智慧農業(yè)導刊,2021,1(10):1-10.
[9]黃英來,艾昕.改進殘差網(wǎng)絡在玉米葉片病害圖像的分類研究 [J].計算機工程與應用,2021,57(23):178-184.
[10]Dahiya S,Gulati T,Gupta D.Performance analysis of deep learning architectures for plant leaves disease detection[J].Measurement: Sensors,2022,24:100581.
[11]YadavD,Akanksha,YadavAK.A novel convolutional neural network based model for recognition and classification of apple leaf diseases[J]. Traitement Du Signal,2020,37(6):1093-1101.
[12]He K M,Zhang X Y,Ren SQ,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas:IEEE,2016:770 -778.
[13]DingXH,Guo YC,DingGG,et al.ACNet:strengthening the kernel skeletons for powerful CNN via asymmetric convolution blocks [C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).Seoul,Korea(South):IEEE,2019:1911-1920.
[14]Hu J,Shen L,Sun G. Squeeze-and-excitation networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,Salt Lake City,UT,USA:IEEE,2018:7132-7141.
[15]Zhang Q L, Yang Y B. SA- net: shuffle attention for deep convolutional neural networks[C]//ICASSP 2021 - 2021 IEEE International Conference onAcoustics, Speechand Signal Processing. Toronto,ON,Canada:IEEE,2021:2235-2239.
[16]Woo S,Park J,LeeJY,etal.CBAM:convolutional block attention module[C]// Computer Vision -ECCV 2018.Cham:Springer International Publishing,2018:3-19.
[17]WangQL,WuBG,ZhuPF,etal.ECA-net:efficient channel attention for deep convolutional neural networks[C]//2O20 IEEE/ CVFConference on Computer Vision and Pattern Recognition. Seattle,WA,USA:IEEE,2020:11531-11539.
[18]Hou Q B,Zhou D Q,F(xiàn)eng JS. Coordinate attention for efficient mobile network design[C]//2021 IEEE/CVF Conferenceon Computer Vision and Pattern Recognition. Nashville,TN,USA: IEEE,2021:13708-13717.
[19]LiX,WangWH,Hu XL,etal.Selective kernel networks[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Long Beach,CA,USA:IEEE,2019:510-519.
[20]周志華.機器學習[M].北京:清華大學出版社,2016