尚遠(yuǎn)航,余游江 ,吳剛,2*
(1塔里木大學(xué)信息工程學(xué)院,新疆 阿拉爾 843300)
(2新疆維吾爾自治區(qū)教育廳普通高等學(xué)校現(xiàn)代農(nóng)業(yè)工程重點實驗室,新疆 阿拉爾 843300)
新疆地區(qū)日照時間長,可耕種地面積廣,適合機械化規(guī)?;姆N植經(jīng)濟作物,是我國主要的水果蔬菜產(chǎn)地之一。然而,植物生長環(huán)境復(fù)雜多樣,植物自身的免疫系統(tǒng)對生長環(huán)境的適應(yīng)能力有限,從而使得植物病害種類日益增多,在規(guī)?;N植時更容易導(dǎo)致發(fā)病率高且難以防治。目前,植物病害是導(dǎo)致新疆農(nóng)產(chǎn)品產(chǎn)量減少和品質(zhì)下降的主要因素之一[1]。經(jīng)過大量的研究發(fā)現(xiàn),植物大部分病害主要發(fā)生在植物葉片上,通過對植物葉片的觀察即可判斷出植物的病害類型[2]。傳統(tǒng)的植物病害判斷方法主要依靠專家人工肉眼觀測,這種方法費時費力[3],而且許多植物病害在早期病斑面積較小,使用人工手段難以發(fā)現(xiàn)。因此在第一時間正確識別植物病害癥狀,是有效控制病害蔓延,將病害造成的損失降到最低的關(guān)鍵一步。如何使機器代替人識別作物病害,已成為21世紀(jì)農(nóng)業(yè)自動化領(lǐng)域新的研究方向。
目前使用計算機視覺技術(shù)對農(nóng)業(yè)生產(chǎn)進行智能化管控,已經(jīng)成為許多國家農(nóng)業(yè)發(fā)展的主要趨勢。其中計算機視覺技術(shù)也是實現(xiàn)對不同類型的植物病害快速識別的有效手段之一。我國的植物病害分類的相關(guān)研究與國外相比起步較晚。張開興等[4]使用BP神經(jīng)網(wǎng)絡(luò)算法對玉米6類病害葉片進行分類識別,通過對葉片病害圖像的分割,及形狀特征的提取,實驗結(jié)果顯示,對玉米6類病害葉片的識別準(zhǔn)確率達(dá)93.4%。蔣豐千等[5]以自然環(huán)境下采集到的生姜病害圖片為基礎(chǔ),使用卷積神經(jīng)網(wǎng)絡(luò)及輪廓分割等預(yù)處理方法相結(jié)合,對炭疽病、姜瘟病、根結(jié)線蟲病和白星病進行分類識別研究,最終對生姜的4類病害的識別準(zhǔn)確率達(dá)96%。劉婷婷等[6]在水稻紋枯病的研究中,使用傳統(tǒng)SVM識別方法與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法,對水稻的單一病害進行識別,最終達(dá)到95%的識別準(zhǔn)確率。李就好等[7]對自然環(huán)境下的苦瓜葉片病害圖像進行研究,使用Fatester R-CNN為基礎(chǔ)網(wǎng)絡(luò)模型,ResNet50網(wǎng)絡(luò)為特征提取層,對苦瓜健康葉片、白粉病、灰斑病、蔓枯病、斑點病的平均精確率分別為 89.24%、81.48%、83.31%、88.62% 和89.28%。李丹[8]使用殘差神經(jīng)網(wǎng)絡(luò)與遷移學(xué)習(xí)相結(jié)合的方式,對黃瓜的靶斑病、炭疽病、灰霉病、白粉病和褐斑病5種黃瓜葉片病害圖像進行分類識別,最終識別精度達(dá)98%。MA J等[9]人針對黃瓜病害的識別問題,構(gòu)建了一種深度卷積神經(jīng)網(wǎng)絡(luò)模型,并采用數(shù)據(jù)增強方法來擴充數(shù)據(jù)集,在對黃瓜炭疽病、霜霉病、白粉病和葉斑病四種病害識別的準(zhǔn)確率達(dá)到了93.4%。RANGARAJANAK等[10]人采用 AlexNet和VGG-16模型,通過分析圖像數(shù)量和超參數(shù)對模型的影響,進而對番茄葉片的病害圖片進行識別。IQBAL Z等[11]人針對柑橘類農(nóng)作物(檸檬、橘子、葡萄柚和酸橙等)病害識別的問題進行了研究。ZHU X等[12]人針對植物種類識別的問題,提出了一種改進的深度卷積神經(jīng)網(wǎng)絡(luò),使用InceptionV2網(wǎng)絡(luò)獲得了更高的識別精度。
綜上所述,目前國內(nèi)外對于植物病害研究存在一些問題:(1)多數(shù)研究針對單一作物的病害識別精度較高,然而在多種作物及多種病害的分類識別卻鮮有涉及;(2)現(xiàn)有多分類植物病害識別方法存在準(zhǔn)確率不高的問題,無法作為智慧農(nóng)業(yè)的識別依據(jù)。為了解決這些問題,本實驗在現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)模型上進行優(yōu)化,通過增加混合注意力機制,提高現(xiàn)有模型的準(zhǔn)確率,以期為我國在植物病害分類識別提供一種新方法。
近年來在圖像分類識別領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)有很好的效果。與傳統(tǒng)的分類方法相比更為優(yōu)秀,識別率更高,在卷積神經(jīng)網(wǎng)絡(luò)上發(fā)展出一批優(yōu)秀的深層神經(jīng)網(wǎng)絡(luò),主要代表有AlexNet[13]、VGG[14]、GoogleNet[15]、ResNet[16]等,這些網(wǎng)絡(luò)與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)相比識別率更高。然而,深度神經(jīng)網(wǎng)絡(luò)有兩個很嚴(yán)重的問題:梯度消失和梯度爆炸。隨著神經(jīng)網(wǎng)絡(luò)的層數(shù)增加,準(zhǔn)確率在不斷的提高,但是問題也在加重。為了解決這兩個問題,殘差網(wǎng)絡(luò)可以通過旁路的輸入x來避免層數(shù)帶來的問題。其中,ResNet50是一種優(yōu)秀的、計算負(fù)擔(dān)小的殘差網(wǎng)絡(luò)模型。在ResNet50網(wǎng)絡(luò)模型中,最為重要的模塊就是殘差學(xué)習(xí)單元,其獨特的設(shè)計結(jié)構(gòu)解決了深層神經(jīng)網(wǎng)絡(luò)容易出現(xiàn)的梯度消失和梯度爆炸問題。其單元結(jié)構(gòu)如圖1所示。
圖1 ResNet殘差結(jié)構(gòu)
其結(jié)構(gòu)的輸入為x,期望輸出是F(x),擬合函數(shù)為F(x)+X。該單元彌補了在圖像信息處理過程中的信息扭曲、損失等不足,極大的提高了網(wǎng)絡(luò)的學(xué)習(xí)能力。雖然殘差網(wǎng)絡(luò)能夠有效解決梯度增加所帶來的一系列的問題,例如梯度消失、梯度爆炸等,但是如果要進一步的提高訓(xùn)練模型的準(zhǔn)確率,增加網(wǎng)絡(luò)深度的同時,網(wǎng)絡(luò)的寬度與復(fù)雜度也會增加,這會提高模型訓(xùn)練的所需要的顯存,增加模型訓(xùn)練的難度,從而無法獲得較高分類準(zhǔn)確率的模型。
近幾年,一種新型的深度學(xué)習(xí)模型在各個領(lǐng)域被廣泛關(guān)注,基于注意力的深度學(xué)習(xí)模型對圖像識別分類的問題有著理想的處理效果。深度學(xué)習(xí)的注意力模塊仿照了人類的注意力機制,人類接觸一幅圖片時,會首先快速瀏覽整幅圖片,尋找重點區(qū)域,之后將注意力投入重點區(qū)域,以獲取更多詳細(xì)信息,減少無用信息的干擾。人類的注意力機制如圖2所示。
圖2 人類的注意力機制
2018年WOO S等[17]人提出了一種注意力機制的神經(jīng)網(wǎng)絡(luò)模型。魏祥坡等[18]人基于這一思想,使用單一注意力殘差網(wǎng)絡(luò)解決了高光譜圖像分類問題。但是該神經(jīng)網(wǎng)絡(luò)模型只從圖像的通道維度去提取特征,無法獲得更詳細(xì)的圖像特征。為了解決這一問題,本實驗提出一種混合注意力機制的殘差網(wǎng)絡(luò)模型,通過從通道維度以及空間維度這兩個維度進行混合,以串行結(jié)構(gòu)加入深度殘差網(wǎng)絡(luò),使網(wǎng)絡(luò)盡可能獲取足夠的圖像特征,進一步提高圖像分類問題的準(zhǔn)確率。該網(wǎng)絡(luò)的混合注意力的模型如圖3所示。該模型由兩條通路組成,下方的通路為殘差網(wǎng)絡(luò)卷積過程,上方的通路分別為通道注意力模塊和空間注意力模塊,作用為增加網(wǎng)絡(luò)對于圖片局部的關(guān)注。每次當(dāng)特征圖通過通道注意力模塊時,會與Resnet的卷積輸出相乘,并將其結(jié)果作為空間注意力模塊的輸入特征圖,然后再進行下一次ResNet卷積的過程,以獲得空間注意力特征圖。最后再次將兩個分支融合即可獲得不同注意力域下的結(jié)果。
1.2.1 通道注意力模塊
在圖像分類識別領(lǐng)域中,現(xiàn)有的基于深度學(xué)習(xí)的方法,大都將圖像的所有通道特征統(tǒng)一處理,因此網(wǎng)絡(luò)不能從每個通道的不同的重要性進行自適應(yīng)的學(xué)習(xí),降低了圖像分類識別的準(zhǔn)確率。通道注意力模塊的設(shè)計結(jié)構(gòu)如圖4所示。利用不同通道之間的依賴性,提出通道注意力模塊,使網(wǎng)絡(luò)能夠提升細(xì)節(jié)部分的注意力,以提高分類的準(zhǔn)確率。
圖4 通道注意力模塊
將輸入的特征圖分別進行最大池化及平均池化,并將結(jié)果分別送入兩次共享參數(shù)神經(jīng)網(wǎng)絡(luò),之后分別使用對位相乘、相加后的結(jié)果通過Sigmoid激活函數(shù),獲得通道注意力特征圖。
通道注意力特征圖計算公式
1.2.2 空間注意力模塊
與通道注意力模塊不同之處,在于空間注意力模塊是通過特征圖的空間維度信息進行特征提取,能夠?qū)νǖ雷⒁饬δK進行補充,加強網(wǎng)絡(luò)對特征圖像細(xì)節(jié)部分的提取,提高網(wǎng)絡(luò)的學(xué)習(xí)力,增強網(wǎng)絡(luò)的識別率??臻g注意力模塊如圖5所示。
圖5 空間注意力模塊
空間注意力模塊與通道注意力模塊極為相似,其主要區(qū)別在于對特征圖進行池化處理的方式不同,通道注意力是沿著通道維度,空間注意力是沿著空間維度。首先使用來自于上一次通道注意力的特征圖,對輸入的特征圖進行最大池化,其結(jié)果再進行平均池化。池化后獲得兩個二維的特征圖,將其按照通道維度拼接,拼接后通過卷積層對特征圖卷積,再使用Sigmoid函數(shù)激活,最終得到空間注意力特征圖。
空間注意力特征圖計算公式
為了驗證該方法對于植物病害多分類識別問題的有效性,本實驗使用Plant Village公開數(shù)據(jù)集[19]。數(shù)據(jù)集圖片如圖6所示。該數(shù)據(jù)集隸屬于賓夕法尼亞州州立大學(xué),其官方網(wǎng)站提供了大量各類植物病害圖片以方便有關(guān)學(xué)者的研究工作。
圖6 實驗數(shù)據(jù)集圖片
實驗中的數(shù)據(jù)集共有60個類別名稱,代表60類病害,包含10種作物,42 719張圖片(表1)。其中包含訓(xùn)練集、驗證集、測試集,各數(shù)據(jù)集分別含有32 768張、4 992張、4 959張圖片。
續(xù)表1
將訓(xùn)練數(shù)據(jù)集所有圖片按照標(biāo)簽分類,如圖7所示,發(fā)現(xiàn)訓(xùn)練集中第44、45類標(biāo)簽中訓(xùn)練集圖像數(shù)量過低,為了提升模型的準(zhǔn)確率,將這兩類的圖像剔除。
圖7 訓(xùn)練集圖片分布圖
本實驗數(shù)據(jù)集圖像尺寸大小不一,在多次的模型訓(xùn)練中發(fā)現(xiàn)將訓(xùn)練集圖像預(yù)處理為224像素×224像素的大小時,模型的準(zhǔn)確率最高,之后在此基礎(chǔ)上對圖像進行數(shù)據(jù)增強操作。
在機器學(xué)習(xí)中,數(shù)據(jù)增強是提高準(zhǔn)確率的關(guān)鍵操作,本實驗在模型訓(xùn)練中使用高斯噪聲、亮度變化、左右翻轉(zhuǎn)、上下反轉(zhuǎn)、色彩抖動、銳度變化對圖像進行預(yù)處理。
本實驗環(huán)境如表2實驗環(huán)境所示。
表2 實驗環(huán)境
為了提高模型的準(zhǔn)確率,深度神經(jīng)網(wǎng)絡(luò)在不斷的發(fā)展。隨著神經(jīng)網(wǎng)絡(luò)的不斷加深、加寬,隨之而來出現(xiàn)了以下問題:
(1)因為模型訓(xùn)練需要的數(shù)據(jù)量過大,難以實際應(yīng)用;
(2)網(wǎng)絡(luò)參數(shù)越來越多,模型訓(xùn)練時間過長;
(3)梯度消失;
(4)模型難以優(yōu)化;
因為7×7與3×3的卷積核會使訓(xùn)練中的模型參數(shù)過于龐大,為了保障降低訓(xùn)練規(guī)模的同時,不損失模型的精度,因此本實驗的網(wǎng)絡(luò)結(jié)構(gòu)在每一個單元(Block)的初始與結(jié)尾使用1×1的卷積核來降低模型的每一次通過單元后參數(shù),通道維數(shù)。本實驗中的網(wǎng)絡(luò)結(jié)構(gòu)如表3所示。
表3 混合注意力機制的殘差網(wǎng)絡(luò)結(jié)構(gòu)中每層的具體參數(shù)
本實驗中網(wǎng)絡(luò)模型的第一層使用了7×7的大卷積核,其目的是為了更好的保留了較多的圖片的細(xì)節(jié),避免了圖像特征信息的丟失。蘋果健康葉片訓(xùn)練模型的第一層特征提取圖如圖8所示。
圖8 特征提取示例
本實驗中使用的網(wǎng)絡(luò)為混合注意力機制的殘差神經(jīng)網(wǎng)絡(luò)模型,其主要目的是提取訓(xùn)練圖片中具有代表性的特征向量。在訓(xùn)練的階段,每個特征向量在空間中以點的形式高斯分布。本實驗著重于對特征點的分類,其主要原理是計算不同特征點的距離,并根據(jù)距離對每一個點進行分類,以達(dá)到對圖片分類識別的目的。
因交叉熵?fù)p失函數(shù)能計算不同圖片間的距離,更好的完成多分類任務(wù),而本實驗使用的圖片數(shù)據(jù)每個類別相互獨立且排斥,一幅圖片只屬于一個類,所以使用交叉熵?fù)p失函數(shù)作為神經(jīng)網(wǎng)絡(luò)的損失函數(shù)。本實驗使用Sigmoid函數(shù)作為激活函數(shù),使用隨機梯度下降優(yōu)化方法g1=?θr-1f(θr-1))。
機器學(xué)習(xí)的模型訓(xùn)練中,學(xué)習(xí)率能夠影響模型的訓(xùn)練速度以及準(zhǔn)確率。學(xué)習(xí)率Δθt=-η×gt,其中θ是待學(xué)習(xí)的參數(shù),gt是下降梯度。學(xué)習(xí)率決定了權(quán)重的更新速度,為了能加快模型的收斂速度及提升模型精度,實驗中使用動態(tài)學(xué)習(xí)率及動態(tài)動量對訓(xùn)練參數(shù)優(yōu)化。
本實驗數(shù)據(jù)集在數(shù)據(jù)清洗后共有58個類,其中訓(xùn)練集的圖像不同類之間的數(shù)目差距過大,為了避免圖像數(shù)目較多的類過大的影響模型的準(zhǔn)確率,所以在模型訓(xùn)練時加入懲罰性權(quán)重,以提高其對分類結(jié)果的影響。對訓(xùn)練集中每一個大于1 000張圖片的類,將其權(quán)重值設(shè)為50,其余所有類權(quán)重值設(shè)置為1。經(jīng)過實驗測試,使用懲罰性權(quán)重能夠大幅度提高實驗結(jié)果的準(zhǔn)確率。
為了驗證本實驗方法的有效性,在實驗中,將基于注意力機制的植物病害分類識別方法與ResNet34、ResNet50、DenseNet121方法進行對比。以上代碼均取自作者的官方代碼,在同一超參數(shù)下進行訓(xùn)練測試,以保證實驗測試結(jié)果的可靠性(表4)。
表4 各網(wǎng)絡(luò)訓(xùn)練參數(shù)
在本實驗中應(yīng)用訓(xùn)練集準(zhǔn)確率、驗證集準(zhǔn)確率、測試集準(zhǔn)確率、驗證集Loss、模型規(guī)模來評估模型。其中測試集準(zhǔn)確率為機器學(xué)習(xí)中評價模型優(yōu)劣的最重要的指標(biāo)。準(zhǔn)確率公式如下:
其中N(C)是正確識別的個數(shù),N(t)是總個數(shù)。
本實驗均在Pytorch深度學(xué)習(xí)框架下完成,使用統(tǒng)一的超參數(shù)(表4)進行模型訓(xùn)練。本實驗所提出的混合注意力機制的植物病害識別方法與ResNet50卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練結(jié)果分別如圖9、圖10所示。
圖9 ResNet50檢測方法
從圖9、圖10顯示的結(jié)果可以看出,本實驗所使用的方法與ResNet50卷積神經(jīng)網(wǎng)絡(luò)均隨著批次次數(shù)的增加,準(zhǔn)確率在不斷的上升,誤差曲線逐步下降。ResNet50神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率曲線在15個批次時,逐漸趨于平緩,并最終穩(wěn)定在88.21%。本實驗所使用的方法在15個批次時準(zhǔn)確率就已大幅度超越ResNet50神經(jīng)網(wǎng)絡(luò),準(zhǔn)確率曲線在第25個批次時趨于穩(wěn)定。通過上述的對比可以看出本實驗所使用的模型在準(zhǔn)確率高于ResNet50神經(jīng)網(wǎng)絡(luò)。
在統(tǒng)一超參數(shù)下,本實驗與ResNet34、ResNet50、DenseNet121使用相同預(yù)處理后的數(shù)據(jù)集進行實驗。
表5是本次實驗的結(jié)果,由表中數(shù)據(jù)可知,ResNet34的識別準(zhǔn)確率較差,其網(wǎng)絡(luò)層數(shù)過低,無法有效對模型進行訓(xùn)練。ResNet50與ResNet34相比,ResNet34在每一個單元使用的是3×3~3×3的卷積核,而非ResNet50改進后的1×1~3×3~1×1小卷積核,在使用小卷積核后網(wǎng)絡(luò)對特征圖的特征的提取并不會降低,也能在增加網(wǎng)絡(luò)的深度的同時,避免因為大卷積核而帶來的參數(shù)過大的問題。實驗結(jié)果也證明了這一點,ResNet50無論是訓(xùn)練集、驗證集、測試集在準(zhǔn)確率上均超越ResNet34。
表5 植物病害分類識別準(zhǔn)確率
而網(wǎng)絡(luò)層數(shù)更深的Densenet121較ResNet50相比,雖然網(wǎng)絡(luò)的深度以及寬度增加了,但是準(zhǔn)確率提升并不高,其原因在于DenseNet121的網(wǎng)絡(luò)結(jié)構(gòu)中的大卷積核會造成在模型訓(xùn)練過程中的參數(shù)遠(yuǎn)大于ResNet50,大幅度影響模型的訓(xùn)練時間,且網(wǎng)絡(luò)層數(shù)的加深,會造成模型的學(xué)習(xí)逐漸停滯,無法獲得更高的準(zhǔn)確率。
本實驗所使用的方法在圖像預(yù)處理階段使用多種數(shù)據(jù)增強的方法,以提升圖像的特征信息。在模型訓(xùn)練階段使用小卷積核來降低模型訓(xùn)練過程中的參數(shù),同時對樣本量較大的分類使用懲罰性權(quán)重值,提升模型對于大樣本量的分類的注意力。本實驗在ResNet50方法的基礎(chǔ)上增加了通道注意力以及空間注意力模塊,使模型能夠在植物病害圖片的細(xì)節(jié)部分能夠給予更多的注意力,進一步提升網(wǎng)絡(luò)的學(xué)習(xí)能力,最終的實驗結(jié)果表明在添加注意力模塊后的模型準(zhǔn)確率較現(xiàn)有算法有所提升。
本實驗針對現(xiàn)有農(nóng)作物病害多分類識別時準(zhǔn)確率不高的問題,結(jié)合深度學(xué)習(xí)在圖像識別領(lǐng)域的優(yōu)異表現(xiàn),提出了一種提高植物病害識別能力的新方法,基于混合注意力機制深度殘差網(wǎng)絡(luò)。該網(wǎng)絡(luò)是基于現(xiàn)有的殘差網(wǎng)絡(luò),增加通道注意力與空間注意力兩個模塊,以提高對病害圖片的注意力。對數(shù)據(jù)集使用多種圖像預(yù)處理方法,歸一化圖像尺寸,在模型的訓(xùn)練階段使用懲罰性的權(quán)重值,最終訓(xùn)練后的模型對植物病害分類識別準(zhǔn)確率達(dá)到92.08%。為了驗證其有效性,分別與現(xiàn)有的方法ResNet34、ResNet50、DenseNet12進行對比實驗,使用相同的數(shù)據(jù)集、超參數(shù)。通過實驗證明,基于混合注意力機制的植物病害識別方法的準(zhǔn)確率較現(xiàn)有方法有明顯提升,一定程度上解決了多分類植物病害識別準(zhǔn)確率不高的問題,但仍需要進行以下探索。
第一,模型訓(xùn)練速度的優(yōu)化,在模型訓(xùn)練速度方面,是否可以使用更加先進的并行處理方式,減少模型的訓(xùn)練時長。
第二,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,實時采集植物病害圖像及視頻已經(jīng)實際應(yīng)用,在后續(xù)的研究中可以考慮接入視頻從而提供實時預(yù)警,減少農(nóng)戶的經(jīng)濟損失。