賈 璐 葉中華
(中國(guó)農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院, 北京 100083)
葡萄是世界上最重要的果樹(shù)樹(shù)種之一,它是一種廣泛種植在世界各地的作物,并且具有豐富的營(yíng)養(yǎng)價(jià)值、藥用價(jià)值和經(jīng)濟(jì)價(jià)值等。然而,每年包括葡萄在內(nèi)的農(nóng)作物由于病害侵襲,對(duì)其產(chǎn)量造成了嚴(yán)重的損失。最近研究發(fā)現(xiàn),植物病害是造成世界各地農(nóng)作物產(chǎn)量下降的主要原因之一,這對(duì)全球糧食安全也造成了嚴(yán)重的威脅[1-3]。此外,傳統(tǒng)的農(nóng)作物病害識(shí)別方法大多依靠人工觀察和經(jīng)驗(yàn)判斷或者在實(shí)驗(yàn)室依賴特定的實(shí)驗(yàn)分析來(lái)識(shí)別病害的類別,非常低效并且操作復(fù)雜,難以滿足實(shí)際農(nóng)業(yè)生產(chǎn)的需求。因此研究農(nóng)作物病害的智能識(shí)別,具有重要意義。
隨著人工智能技術(shù)的飛速發(fā)展,許多研究人員使用機(jī)器視覺(jué)和圖像處理的方法來(lái)識(shí)別農(nóng)作物病害[4-7]。傳統(tǒng)的機(jī)器視覺(jué)和圖像處理的病害識(shí)別方法是從顏色、形狀、紋理和小波特征或組合中提取外部特征[8-11],然后利用分類器對(duì)提取的特征進(jìn)行分類。最后,實(shí)現(xiàn)農(nóng)作物病害的分類。其中常用的分類器包括支持向量機(jī)[12-13]、貝葉斯[14]、主成分分析[15]、隨機(jī)森林[16-17]和決策樹(shù)[18]等。例如,MAJUMDAR等[5]首先采用模糊c-means聚類算法來(lái)提取小麥葉片的病害特征,然后利用人工神經(jīng)網(wǎng)絡(luò)(ANN)對(duì)提取的病害特征進(jìn)行分類,最終實(shí)現(xiàn)對(duì)小麥病害的識(shí)別。PANTAZI等[6]采用局部二值模式(LBPs)進(jìn)行病害特征的提取,并實(shí)現(xiàn)了對(duì)不同作物病害的自動(dòng)識(shí)別。張燕等[19]將農(nóng)作物的顏色紋理等特征結(jié)合支持向量機(jī)(SVM)提出了一種有效的病害識(shí)別模型。然而,這些研究大都是實(shí)驗(yàn)室環(huán)境下進(jìn)行的,采集的病害圖像數(shù)據(jù)噪聲較少,這與自然環(huán)境下的病害圖像差距較大,難以滿足實(shí)際農(nóng)業(yè)生產(chǎn)的需求。
近年來(lái),深度學(xué)習(xí)方法被應(yīng)用到各個(gè)領(lǐng)域,并且取得了較大的進(jìn)展,其中卷積神經(jīng)網(wǎng)絡(luò)(CNNs)在圖像識(shí)別領(lǐng)域取得了顯著的效果。目前有許多研究者已經(jīng)提出了一系列經(jīng)典的CNN模型,比如AlexNet[20]、VGG[21]、ResNet[22]和DenseNet[23]等。同時(shí),隨著移動(dòng)設(shè)備的普及,一些學(xué)者也提出了一些輕量級(jí)CNN模型,比如MobileNetV1[24]、MobileNetV2[25]、ShufftNetV1[26]、ShufftNetV2[27]和GhostNet[28]等。此外,許多研究者已將深度學(xué)習(xí)應(yīng)用到農(nóng)作物病蟲(chóng)害識(shí)別領(lǐng)域。MOHANTY等[29]訓(xùn)練了一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)模型,用來(lái)識(shí)別14種作物的26種病害,在測(cè)試集上的準(zhǔn)確率達(dá)到99.35%。LU等[30]提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的模型,并且基于自然環(huán)境下采集的水稻病害數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),在10倍交叉驗(yàn)證策略下,提出的模型準(zhǔn)確率達(dá)到95.48%。PRIYADHARSHINI等[31]提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的玉米葉片病害識(shí)別模型,然后使用公開(kāi)數(shù)據(jù)集PlantVillage中的玉米葉片圖像進(jìn)行實(shí)驗(yàn),最終模型在測(cè)試集上的識(shí)別準(zhǔn)確率達(dá)到97.89%。ZHANG等[32]對(duì)AlexNet模型進(jìn)行改進(jìn),提出了一種新的植物病害識(shí)別模型GPDCNN,并且在黃瓜病害數(shù)據(jù)集上展開(kāi)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明該模型可以有效識(shí)別黃瓜病害。CHEN等[33]改進(jìn)了DenseNet模型,并設(shè)計(jì)了一個(gè)新的玉米病害識(shí)別模型Mobile-DANet,在其自建數(shù)據(jù)集上的平均準(zhǔn)確率為95.86%。李書(shū)琴等[34]設(shè)計(jì)了一種輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)模型Scale-Down ResNet,該模型對(duì)植物病害葉片具有較好的識(shí)別效果。以上深度學(xué)習(xí)模型,雖然在植物病害識(shí)別領(lǐng)域已經(jīng)取得了一定的進(jìn)展,但是經(jīng)典的CNN模型依然存在模型參數(shù)量和計(jì)算量較大的問(wèn)題,輕量級(jí)的CNN模型雖然參數(shù)量和計(jì)算量大幅降低,但是當(dāng)應(yīng)對(duì)自然狀態(tài)下復(fù)雜背景的病害圖像時(shí),其識(shí)別準(zhǔn)確率仍有待進(jìn)一步提高。上述研究大多在實(shí)驗(yàn)室環(huán)境下進(jìn)行,或者是專業(yè)人員為了研究而專門(mén)拍攝,并不是在實(shí)際生產(chǎn)中拍攝,所以采集到的病害圖像噪聲較小,與在自然復(fù)雜環(huán)境中拍攝的病害圖像有較大差距,難以滿足實(shí)際農(nóng)業(yè)生產(chǎn)的需要。
為解決上述問(wèn)題,本文提出一種新的網(wǎng)絡(luò)模型MANet,用于自動(dòng)識(shí)別自然狀態(tài)下的葡萄病害圖像,如白腐病、褐斑病和霜霉病。在該模型中嵌入倒殘差模塊[25]來(lái)構(gòu)建網(wǎng)絡(luò),以降低模型參數(shù)量和計(jì)算成本。同時(shí),提出一種多尺度特征融合模塊(Multi-scale convolution, MConv),可以提取病害圖像多尺度的特征并進(jìn)行融合,提高模型對(duì)不同病害的識(shí)別準(zhǔn)確率。此外,在MANet中嵌入注意力機(jī)制SENet[35]模塊,以增強(qiáng)模型在復(fù)雜背景的圖像中提取關(guān)鍵病害特征的能力,并抑制其他無(wú)關(guān)信息。
本文使用2個(gè)植物病害數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),一個(gè)是本文構(gòu)建的復(fù)雜背景葡萄病害數(shù)據(jù)集(命名為Grape_Complex),另一個(gè)是公開(kāi)的PlantVillage數(shù)據(jù)集(http:∥www.plantvillage.org)。
PlantVillage是一個(gè)公開(kāi)的農(nóng)作物病害數(shù)據(jù)集,共有54 305幅圖像,包含13種作物,涉及26類作物病害葉片和12類健康葉片,共計(jì)38種類別[36]。這個(gè)數(shù)據(jù)集中的圖像是由專業(yè)人士出于科學(xué)研究目的而拍攝的,因此其病害圖像的背景比較簡(jiǎn)單。實(shí)驗(yàn)中,按照比例8∶2將圖像隨機(jī)分成訓(xùn)練集和測(cè)試集。同時(shí)將數(shù)據(jù)集中的原始圖像歸一化為3×224×224,使其適應(yīng)模型的輸入。PlantVillage數(shù)據(jù)集中的部分樣本圖像如圖1所示。
圖1 PlantVillage數(shù)據(jù)集中的部分樣本圖像
Grape_Complex數(shù)據(jù)集包括3種病害(白腐病、褐斑病、霜霉病)和健康葉片,數(shù)據(jù)主要來(lái)源于農(nóng)管家在線農(nóng)技問(wèn)答平臺(tái)(http:∥www.laodao.so/)。農(nóng)管家是一種為農(nóng)民在實(shí)際生產(chǎn)中提供交流的在線農(nóng)技問(wèn)答平臺(tái),其中問(wèn)答板塊主要是農(nóng)民在種植農(nóng)作物過(guò)程中遇到的各種作物病害、蟲(chóng)害等問(wèn)題,農(nóng)民提出問(wèn)題后會(huì)有相關(guān)的專家進(jìn)行解答?;诖?收集該在線農(nóng)技問(wèn)答平臺(tái)的相關(guān)數(shù)據(jù),然后根據(jù)專家領(lǐng)域的知識(shí)對(duì)圖像標(biāo)記病害類別,并保存為JPG格式。Grape_Complex數(shù)據(jù)集中的各類別樣本示例如圖2所示。明顯可以看出,這些圖像是農(nóng)民在實(shí)際生產(chǎn)中拍攝的,比為科學(xué)研究目的而去專門(mén)拍攝的圖像背景更加復(fù)雜。本研究收集的病害圖像數(shù)據(jù)更加符合實(shí)際農(nóng)業(yè)生產(chǎn)的情況。最終,Grape_Complex數(shù)據(jù)集共收集2 022幅圖像,包括548幅白腐病圖像,717幅褐斑病圖像,414幅霜霉病圖像,343幅健康圖像。
圖2 Grape_Complex數(shù)據(jù)集中的樣本圖像
由于收集的Grape_Complex數(shù)據(jù)集中的圖像分辨率和尺寸不同,首先將圖像尺寸調(diào)整為3×224×224,以適應(yīng)模型的輸入尺寸,然后,將數(shù)據(jù)集按照比例8∶2分為訓(xùn)練集和測(cè)試集。其中訓(xùn)練集有1 616幅圖像,包括438幅白腐病圖像、573幅褐斑病圖像、331幅霜霉病圖像以及274幅健康圖像。測(cè)試集有406幅圖像,包括110幅白腐病圖像、144幅褐斑病圖像、83幅霜霉病圖像以及69幅健康圖像。由以上統(tǒng)計(jì)可以發(fā)現(xiàn),自建數(shù)據(jù)集中樣本分布存在不平衡的現(xiàn)象,這種不平衡的訓(xùn)練數(shù)據(jù)會(huì)干擾到深度學(xué)習(xí)模型的識(shí)別效果[37-39],所以本文對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng),擴(kuò)充訓(xùn)練樣本的數(shù)量,以增加訓(xùn)練圖像中樣本的多樣性,防止模型出現(xiàn)過(guò)擬合現(xiàn)象,同時(shí)使模型對(duì)自然狀態(tài)下的病害圖像具有較強(qiáng)的泛化能力。本文主要通過(guò)隨機(jī)旋轉(zhuǎn)、水平翻轉(zhuǎn)和垂直翻轉(zhuǎn)來(lái)擴(kuò)充訓(xùn)練樣本的數(shù)量。數(shù)據(jù)增強(qiáng)后的樣本分布如表1所示。
表1 Grape_Complex數(shù)據(jù)集數(shù)據(jù)增強(qiáng)后的樣本分布
葡萄葉片病害識(shí)別的總體流程如圖3所示。首先進(jìn)行病害圖像數(shù)據(jù)的收集,并通過(guò)人工方式剔除無(wú)法使用的圖像。其次對(duì)構(gòu)建的數(shù)據(jù)集進(jìn)行預(yù)處理操作。然后按照比例8∶2將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,并且通過(guò)隨機(jī)旋轉(zhuǎn)、水平或者垂直翻轉(zhuǎn)等方式對(duì)原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)擴(kuò)充,這樣原有數(shù)據(jù)的多樣性得以增加,使得最終訓(xùn)練得到模型的泛化能力更強(qiáng)。最后用數(shù)據(jù)增強(qiáng)過(guò)的數(shù)據(jù)集訓(xùn)練MANet模型,保存訓(xùn)練過(guò)程中性能最佳的模型權(quán)重?;谝陨嫌?xùn)練的MANet模型用測(cè)試集中的圖像進(jìn)行測(cè)試,得到測(cè)試樣本的預(yù)測(cè)類別,以實(shí)現(xiàn)葡萄葉片病害的識(shí)別。
圖3 葡萄葉片病害識(shí)別的整體流程
1.4.1模型結(jié)構(gòu)
本研究提出了一種對(duì)葡萄葉片病害具有更高識(shí)別準(zhǔn)確率的CNN模型,將其命名為MANet。MANet模型的整體結(jié)構(gòu)如圖4所示。從圖4可看出,MANet模型主要由多尺度特征融合模塊(Multi-scale convolution,MConv)、最大池化層、SENet-InvertedResidual模塊(由SENet模塊和倒殘差模塊[25]交替連接構(gòu)成)、注意力機(jī)制模塊、自適應(yīng)平均池化層和全連接層組成。MANet首先利用一個(gè)多尺度特征融合MConv模塊來(lái)提取病害多尺度的特征信息,獲得圖像的豐富特征表示。其次,連接一個(gè)最大池化層用于降低圖像的尺寸,然后,在最大池化層后將SENet和倒殘差模塊交替連接,用少量參數(shù)增加網(wǎng)絡(luò)的深度,從而提高模型的非線性表示能力。同時(shí),在MANet中加入了注意力機(jī)制SENet模塊,使其能夠更加關(guān)注圖像中葡萄葉片的病害區(qū)域,從而減少圖像中復(fù)雜背景產(chǎn)生的噪聲對(duì)識(shí)別效果的影響。自適應(yīng)平均池化層主要起到降低特征圖的空間維度的作用,并在一定程度上增加模型的感受野。最后通過(guò)一個(gè)分類器模塊使用全連接層和Softmax函數(shù)來(lái)實(shí)現(xiàn)病害的分類。
圖4 MANet模型結(jié)構(gòu)
1.4.2多尺度特征融合模塊
由于在自然狀態(tài)下采集的葡萄葉片病害圖像往往包含較多噪聲,并且圖像背景較為復(fù)雜,所以這使得病害識(shí)別難度更大。為此,本文提出了一種多尺度特征融合模塊(Multi-scale convolution,MConv),在不同感受野和多尺度空間下盡可能多地提取病害的關(guān)鍵特征。MConv模塊結(jié)構(gòu)如圖5所示。在該模塊中,輸入特征圖經(jīng)過(guò)卷積核大小分別為1×1、3×3、5×5和7×7的卷積層進(jìn)行并行處理,以獲取病害圖像更加豐富的特征信息。然后將各個(gè)支路卷積得到的特征圖合并為一個(gè)新的特征圖,并利用一個(gè)1×1的卷積對(duì)新的特征圖進(jìn)行特征融合。綜上所述,本文提出的MConv模塊可以捕獲多尺度的病害信息,從而使得對(duì)于復(fù)雜背景的病害圖像,獲得更有辨別力的病害特征信息,有助于更加準(zhǔn)確地識(shí)別葡萄葉片病害。
圖5 MConv模塊結(jié)構(gòu)
1.4.3倒殘差結(jié)構(gòu)模塊
本文提出的MANet中使用倒殘差結(jié)構(gòu)[25]來(lái)減少模型的參數(shù)量,其主要亮點(diǎn)在于深度可分卷積。倒殘差模塊結(jié)構(gòu)如圖6所示。從圖6中可以看出,倒殘差模塊主要由普通卷積、Depthwise convolution和Pointwise convolution組成。當(dāng)輸入特征圖進(jìn)入倒殘差結(jié)構(gòu)時(shí),首先由卷積核大小為1×1的普通卷積進(jìn)行升維操作,然后Depthwise convolution提取特征圖的深度特征,并且特征圖的通道數(shù)不會(huì)發(fā)生改變,最后由Pointwise convolution對(duì)特征圖進(jìn)行降維操作。同時(shí)當(dāng)Depthwise convolution的步長(zhǎng)為1時(shí),即輸入輸出特征圖的形狀一致,則通過(guò)ShortCut支路將Pointwise convolution的輸出特征圖和輸入特征圖進(jìn)行相加操作,得到倒殘差模塊最終的輸出特征圖,如圖6a所示。當(dāng)Depthwise convolution中的步長(zhǎng)為2時(shí),倒殘差模塊沒(méi)有ShortCut支路,Depthwise convolution在提取深度特征的同時(shí)進(jìn)行下采樣操作,擴(kuò)大網(wǎng)絡(luò)的感受野,最終倒殘差模塊輸出特征圖的空間維度H和W都將減半,如圖6b所示。
圖6 倒殘差模塊結(jié)構(gòu)
與普通卷積相比,使用深度可分卷積可以大大減少模型的參數(shù)量和成本。普通卷積和深度可分卷積的卷積操作如圖7所示。在圖7a中假設(shè)輸入特征圖的寬和高都為D,通道數(shù)為M,卷積核大小為K×K,輸出特征圖的通道數(shù)為N,則普通卷積的參數(shù)量為K2MND2。同理在圖7b中深度可分卷積的參數(shù)量為K2MD2+MND2。由此可計(jì)算深度可分卷積與普通卷積參數(shù)量的比值為
圖7 普通卷積和深度可分卷積的卷積過(guò)程比較
(1)
綜上所述,本文在提出的模型中嵌入倒殘差結(jié)構(gòu),這不僅大大減少了模型參數(shù)量和成本,而且在一定程度上增加了網(wǎng)絡(luò)的深度,提高了模型的非線性表示能力。
1.4.4Squeeze-and-Excitation Networks模塊
本文提出的MANet中嵌入了注意力機(jī)制模塊(Squeeze-and-Excitation Networks,SENet),使其能夠關(guān)注圖像中的葡萄葉片病害區(qū)域,并減少?gòu)?fù)雜背景對(duì)病害識(shí)別的影響。SENet是一種通道注意力機(jī)制,通過(guò)網(wǎng)絡(luò)學(xué)習(xí)得到不同通道特征的重要程度,并且按照不同的重要程度依次為不同的通道賦予不同的權(quán)重,通道的特征重要程度越高被賦予的權(quán)重越大,通道的特征重要程度越小被賦予的權(quán)重越小。SENet模塊主要分為壓縮、激勵(lì)和重構(gòu)3個(gè)步驟,其中前兩個(gè)是最為關(guān)鍵的步驟。SENet模塊的結(jié)構(gòu)如圖8所示。
圖8 SENet模塊結(jié)構(gòu)
在圖8中X表示輸入特征圖,Ftr表示特征圖X到特征圖U的變換過(guò)程,即Ftr:X→U,X∈RC1×H1×W1,U∈RC×H×W,其中C1、H1和W1分別表示特征圖X的通道數(shù)、高度和寬度;同理對(duì)于特征圖U,C、H和W分別表示通道數(shù)、高度和寬度。卷積核為K=[k1,k2,…,kc],其中k1表示第1個(gè)卷積核,kc表示第c個(gè)卷積核,由此可得輸出特征圖為U=[u1,u2,…,uc],其中uc的計(jì)算公式為
(2)
式中uc——第c個(gè)通道的特征圖
kc——第c個(gè)卷積核
C1——特征圖X的通道數(shù)
i——計(jì)數(shù)變量
xi——第i個(gè)特征圖
在圖8中,Fsq表示SENet的壓縮操作,它通過(guò)一個(gè)全局的平均池化層將每個(gè)通道上整個(gè)空間的信息壓縮編碼成一個(gè)全局特征。如圖8所示,具有C個(gè)通道的特征圖U,將其每個(gè)通道H×W的空間維度壓縮為1×1的全局特征。Fsq操作結(jié)束后得到shape為C×1×1的特征圖,具體的計(jì)算公式為
(3)
式中zc——第c個(gè)通道的特征圖
Fsq(uc)——壓縮操作
i、j——計(jì)數(shù)變量
在圖8中Fex表示SENet的激勵(lì)操作,主要作用是學(xué)習(xí)到特征圖各個(gè)通道之間的關(guān)系,并且根據(jù)每個(gè)通道不同的重要程度為其賦予不同的權(quán)重。Fex操作的具體實(shí)現(xiàn)過(guò)程為將Fsq操作得到的所有全局特征傳入兩個(gè)全連接層,并且在兩個(gè)全連接層后分別用ReLU和Sigmoid激活函數(shù)進(jìn)行激活,從而使得模型學(xué)習(xí)到特征圖每個(gè)通道的重要程度。Fsq操作的具體計(jì)算公式為
s=Fex(z,W)=σ(g(z,W))=σ(W2ReLU(W1z))
(4)
式中s——權(quán)重W1、W2——權(quán)重
Fex(z,W)——激勵(lì)操作
z——特征圖σ——激活函數(shù)
Fscale表示重構(gòu)操作,即將SENet預(yù)測(cè)出的通道特征權(quán)重加權(quán)到特征圖的每個(gè)通道空間上,得出一個(gè)新的特征圖U1。Fscale的具體計(jì)算公式為
U1=Fscale(uc,sc)=scuc
(5)
式中Fscale(uc,sc)——重構(gòu)操作
sc——特征圖中第c個(gè)通道的權(quán)重
在式(5)中Fscale(uc,sc)表示在特征映射之間的通道運(yùn)算,其中uc∈RH×W。綜上所述,SENet模塊具有很強(qiáng)的移植性,可以靈活地嵌入到各種圖像識(shí)別的深度學(xué)習(xí)模型中,并且在很大程度上提升了模型的性能。
本研究實(shí)驗(yàn)平臺(tái)的硬件環(huán)境為Windows 10企業(yè)版64位操作系統(tǒng),處理器為Intel(R)Xeon(R)Silver 4210R,RAM為128 GB,顯卡為NVIDIA GeForce RTX 3090,顯存為24 GB。同時(shí)使用Python語(yǔ)言進(jìn)行編程,選用深度學(xué)習(xí)框架Pytorch 1.7.1進(jìn)行模型的搭建和訓(xùn)練。
綜合考慮模型的訓(xùn)練效果,本文對(duì)模型超參數(shù)進(jìn)行以下設(shè)置:模型在訓(xùn)練和測(cè)試時(shí)采用批處理的方式,每批數(shù)據(jù)包含32幅圖像,即批訓(xùn)練數(shù)據(jù)量的大小設(shè)置為32。模型訓(xùn)練的迭代總次數(shù)(Epoch)設(shè)置為100,采用隨機(jī)梯度下降(Stochastic gradient descent, SGD)優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.01,動(dòng)量設(shè)置為0.9,同時(shí)在訓(xùn)練過(guò)程中,學(xué)習(xí)率采用自適應(yīng)動(dòng)態(tài)調(diào)整的策略,它會(huì)隨著驗(yàn)證集的準(zhǔn)確率而變化,損失函數(shù)使用交叉熵?fù)p失。最后,為了避免模型出現(xiàn)過(guò)擬合現(xiàn)象,在訓(xùn)練過(guò)程中使用EarlyStopping策略。
本研究中,使用平均識(shí)別準(zhǔn)確率和F1值來(lái)綜合評(píng)價(jià)模型的識(shí)別效果。同時(shí)為了進(jìn)一步評(píng)價(jià)各個(gè)深度學(xué)習(xí)模型的性能,在實(shí)驗(yàn)中還計(jì)算每個(gè)模型的參數(shù)量以及模型的浮點(diǎn)運(yùn)算量(Floating point operations,FLOPs)。模型參數(shù)量決定各個(gè)模型的尺寸,也影響模型推斷時(shí)對(duì)內(nèi)存的消耗。模型浮點(diǎn)運(yùn)算量用于評(píng)價(jià)各個(gè)模型的計(jì)算復(fù)雜性。
在本實(shí)驗(yàn)中,將不同注意力機(jī)制SENet模塊和CBAM[40](Convolutional block attention module, CBAM)模塊分別嵌入MANet,具體實(shí)驗(yàn)結(jié)果如表2所示。MANet_CBAM表示在MANet中采用CBAM注意力機(jī)制,MANet_SENet表示在MANet中采用SENet注意力機(jī)制。從表2中可以看出,當(dāng)向MANet中添加SENet注意力機(jī)制模塊時(shí),模型表現(xiàn)效果更好,平均識(shí)別準(zhǔn)確率為87.93%,高于MANet_CBAM模型0.74個(gè)百分點(diǎn),所以本研究選擇將SENet模塊嵌入到MANet中來(lái)建立模型。同時(shí)為了驗(yàn)證MANet模型的MConv模塊、倒殘差模塊和注意力機(jī)制SENet模塊的有效性,在自建Grape_Complex數(shù)據(jù)集展開(kāi)了實(shí)驗(yàn)。消融實(shí)驗(yàn)結(jié)果如表3所示,MANet的平均識(shí)別準(zhǔn)確率比Base、Base_SE、Base_MConv分別高5.17、3.45、0.5個(gè)百分點(diǎn)。其中Base表示只有倒殘差結(jié)構(gòu)而沒(méi)有MConv和SENet模塊的基準(zhǔn)模型,Base_SE表示向基準(zhǔn)模型加入SENet模塊,Base_MConv表示向基準(zhǔn)模型加入MConv模塊,MANet為本文提出的新模型,此時(shí)向基準(zhǔn)模型中同時(shí)加入SENet和MConv模塊。
表2 不同注意力機(jī)制的實(shí)驗(yàn)結(jié)果
表3 消融實(shí)驗(yàn)結(jié)果
從表3中可以發(fā)現(xiàn),當(dāng)向基準(zhǔn)模型中分別單獨(dú)引入SENet和MConv模塊時(shí),模型在訓(xùn)練集和測(cè)試集上平均識(shí)別準(zhǔn)確率都得到了明顯提升。這是因?yàn)楫?dāng)在模型中加入SENet時(shí),模型在幾乎不增加網(wǎng)絡(luò)開(kāi)銷的情況下,可以更加專注于葡萄葉片的病害部分信息,抑制其他無(wú)關(guān)信息的干擾。當(dāng)在模型中加入MConv模塊時(shí),模型可以提取葡萄葉片多尺度的病害信息,并進(jìn)行融合,從而使模型的性能得到了進(jìn)一步的提升。同時(shí),用Grad-CAM[41]對(duì)每個(gè)模型識(shí)別病害的結(jié)果進(jìn)行了可視化,如圖9所示。可以發(fā)現(xiàn)圖9b、9c可能關(guān)注了與病害無(wú)關(guān)的區(qū)域,同時(shí)也忽略了一些有用的信息。當(dāng)加入SENet模塊時(shí),模型可以更加專注于病害區(qū)域,如圖9d所示。與其他基準(zhǔn)模型相比,所提出的MANet模型可以準(zhǔn)確地關(guān)注病害區(qū)域,而很少關(guān)注不相關(guān)的復(fù)雜背景(圖9e),從而獲得比其他模型更高的病害識(shí)別精度。綜上所述,本文提出的MANet模型,當(dāng)在基準(zhǔn)模型中同時(shí)引入SENet和MConv模塊時(shí),模型性能表現(xiàn)最佳。
圖9 不同模型識(shí)別效果的可視化
為了測(cè)試MANet模型在自然復(fù)雜環(huán)境下識(shí)別病害圖像的效果,本實(shí)驗(yàn)選擇了一些先進(jìn)的模型作為對(duì)比,包括AlexNet[20]、VGG16[21]、ResNet50[22]、MobileNetV1[24]、MobileNetV2[25]、MobileNetV3[42]、ShuffleNetV2[27]、GhostNet[28]和Swin Transformer[43]。Grape_Complex數(shù)據(jù)集的預(yù)處理、數(shù)據(jù)增強(qiáng)方法和數(shù)據(jù)集的分布與1.2節(jié)一致。不同算法的識(shí)別效果如表4所示??傮w來(lái)看,通過(guò)與這些模型的比較,MANet的識(shí)別表現(xiàn)最好,它達(dá)到了最高的平均識(shí)別準(zhǔn)確率。MANet的平均識(shí)別準(zhǔn)確率和參數(shù)量分別為87.93%和2.20×106。除了MobileNetV3和ShuffleNetV2之外,MANet的參數(shù)量比其他模型少。MANet模型的缺點(diǎn)是浮點(diǎn)運(yùn)算量為5.2×108,略高于MobileNetV2、MobileNetV3、ShuffNetV2和GhostNet。然而,與MobileNetV2、MobileNetV3、ShuffleNetV2和GhostNet相比,MANet的平均識(shí)別準(zhǔn)確率分別高4.68、3.45、10.10、5.17個(gè)百分點(diǎn)。除了這4個(gè)模型外,MANet模型的浮點(diǎn)運(yùn)算量最小,準(zhǔn)確率最高。
表4 不同模型基于Grape_Complex數(shù)據(jù)集的識(shí)別效果
不同模型對(duì)每種病害的F1值如表5所示。與其他模型相比,MANet對(duì)每種病害都有相對(duì)較高的F1值。白腐病的病害特征較為明顯,各個(gè)模型識(shí)別效果都比較好,但是褐斑病和霜霉病的識(shí)別效果要略微差一些,這是因?yàn)樽越〝?shù)據(jù)集是自然狀態(tài)下收集的圖像,其背景較為復(fù)雜,這也增加了識(shí)別的難度。同時(shí)褐斑病和霜霉病在發(fā)病早期時(shí),其病斑極其微小,即使人眼也很難辨別,所以模型容易將其誤判為健康類別。而且褐斑病在發(fā)病晚期時(shí),其枯葉病斑較大,模型也容易將其誤判為白腐病。MobileNetV1和ShuffleNetV2模型對(duì)葡萄葉片褐斑病和霜霉病的F1值相對(duì)較低,這可能是因?yàn)槟P湾e(cuò)誤地將圖像背景判斷為識(shí)別目標(biāo),從而造成了干擾。MANet對(duì)葡萄葉片褐斑病和霜霉病的F1值分別為85.83%和85.87%,高于MobileNetV1和ShuffleNetV2。綜上所述,與這些模型相比,雖然MANet的參數(shù)量和浮點(diǎn)運(yùn)算量略高于一些輕量級(jí)的模型,但它取得了最高的平均識(shí)別準(zhǔn)確率,模型識(shí)別效果也優(yōu)于上述對(duì)比模型。
為了進(jìn)一步評(píng)估MANet的魯棒性,本研究還在公開(kāi)農(nóng)作物病害數(shù)據(jù)集PlantVillage上對(duì)其進(jìn)行了測(cè)試。與2.5節(jié)類似,選擇一些模型進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示。與這些模型相比,MANet在測(cè)試集的平均識(shí)別準(zhǔn)確率最高,達(dá)到99.65%。實(shí)驗(yàn)結(jié)果表明,本文設(shè)計(jì)的MANet模型具有良好的魯棒性,在公共農(nóng)作物病害PlantVillage數(shù)據(jù)集上也表現(xiàn)出較好的識(shí)別效果。
表6 不同模型基于PlantVillage數(shù)據(jù)集的識(shí)別效果
(1)提出了一種新的網(wǎng)絡(luò)模型MANet,其模型的參數(shù)量和浮點(diǎn)運(yùn)算量相對(duì)較小,并且對(duì)葡萄葉片病害具有更高的識(shí)別準(zhǔn)確率。在MANet中嵌入倒殘差模塊來(lái)構(gòu)建網(wǎng)絡(luò),這極大降低了模型參數(shù)量和計(jì)算成本。同時(shí),在模型中采用設(shè)計(jì)的MConv模塊來(lái)提取病害圖像多尺度的特征并進(jìn)行融合,提高了模型對(duì)不同病害的識(shí)別準(zhǔn)確率。此外,在MANet中嵌入注意力機(jī)制SENet模塊,增強(qiáng)了模型在復(fù)雜背景的圖像中提取關(guān)鍵病害特征的能力,并抑制其他無(wú)關(guān)信息,從而使得模型的平均識(shí)別準(zhǔn)確率得到進(jìn)一步的提高。
(2)為了驗(yàn)證該模型的有效性,在自建Grape_Complex數(shù)據(jù)集和PlantVillage數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,MANet的平均識(shí)別準(zhǔn)確率為87.93%,明顯高于經(jīng)典CNN模型,如ResNet50、AlexNet、VGG16,以及輕量級(jí)CNN模型,如MobileNetV1、MobileNetV2、MobileNetV3、ShuffleNetV2和GhostNet等。此外,為了進(jìn)一步證明模型的魯棒性,還在公開(kāi)農(nóng)作物病害數(shù)據(jù)集PlantVillage上進(jìn)行了測(cè)試,實(shí)驗(yàn)結(jié)果表明,本文提出的模型在這個(gè)數(shù)據(jù)集上仍然取得了較好的識(shí)別效果。然而,與一些輕量級(jí)模型相比,MANet的不足之處在于模型的浮點(diǎn)運(yùn)算量略高。