鮑文霞,吳德釗,胡根生,梁 棟,王 年,楊先軍
基于輕量型殘差網(wǎng)絡的自然場景水稻害蟲識別
鮑文霞1,吳德釗1,胡根生1,梁 棟1,王 年1※,楊先軍2
(1. 安徽大學農(nóng)業(yè)生態(tài)大數(shù)據(jù)分析與應用技術(shù)國家地方聯(lián)合工程研究中心,合肥 230601;2. 中國科學院合肥物質(zhì)科學研究院,合肥 230031)
準確識別水稻害蟲對水稻及時采取防護和治理具有重要意義。該研究以自然場景中水稻害蟲圖像為研究對象,針對水稻害蟲圖像的顏色紋理與背景相近以及同類害蟲個體間形態(tài)差異較大等特點,設(shè)計了一個由特征提取、全局優(yōu)化以及局部優(yōu)化模塊構(gòu)成的輕量型殘差網(wǎng)絡(Light Weight Residual Network,LW-ResNet)用于水稻害蟲識別。在特征提取模塊通過增加卷積層數(shù)以及分支數(shù)對殘差塊進行改進,有效提取自然場景中水稻害蟲圖像的深層全局特征并使用全局優(yōu)化模塊進行優(yōu)化;局部優(yōu)化模塊通過設(shè)計輕量型注意力子模塊關(guān)注害蟲的局部判別性特征。LW-ResNet網(wǎng)絡在特征提取模塊減少了殘差塊的數(shù)量,在注意力子模塊中采用深度可分離卷積減少了浮點運算量,從而實現(xiàn)了模型的輕量化。試驗結(jié)果表明,所設(shè)計的LW-ResNet網(wǎng)絡在13類水稻害蟲圖像的測試數(shù)據(jù)集上達到了92.5%的識別準確率,高于VGG16、ResNet、AlexNet等經(jīng)典卷積神經(jīng)網(wǎng)絡模型,并且LW-ResNet網(wǎng)絡的參數(shù)量僅為1.62×106個,浮點運算量僅為0.34×109次,低于MobileNetV3輕量級卷積神經(jīng)網(wǎng)絡模型。該研究成果可用于移動端水稻害蟲的自動識別。
農(nóng)作物;模型;圖像識別;水稻害蟲;注意力機制;深度可分離卷積
害蟲的準確識別對于農(nóng)作物的保護和管理至關(guān)重要[1],一旦農(nóng)作物被害蟲感染,必須采取及時有效的措施防止害蟲傳播[2],自然場景中害蟲不同生長時期形態(tài)紋理等變化較大[3],借助于專家的專業(yè)知識或農(nóng)民的經(jīng)驗等傳統(tǒng)識別方法存在效率低、成本大、易受視覺主觀性影響等問題,無法滿足現(xiàn)代農(nóng)業(yè)生產(chǎn)中實際需求[4-6]。
隨著計算機技術(shù)的發(fā)展,研究人員開始使用機器學習和圖像處理的方法識別作物病蟲害。Liu 等[7]通過提取小麥蚜蟲的方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征并送入支持向量機中去訓練,在簡單背景下實現(xiàn)了小麥蚜蟲的自動識別和計數(shù),平均精度可達到75.8%。Hafiz等[8]提取害蟲的顏色直方圖和形狀特征送入貝葉斯網(wǎng)絡中去分類,在簡單背景下實現(xiàn)了4 類小樣本害蟲的有效識別。這些基于傳統(tǒng)機器學習的方法通過人工的方式設(shè)計病蟲害圖像的顏色、紋理、邊緣梯度等特征,然而在水稻害蟲圖像中,害蟲的顏色和紋理與水稻莖、稈、葉片等背景的顏色和紋理相似,因此這些方法在對于自然場景中的害蟲容易產(chǎn)生誤識別。
近年來,隨著AlexNet[9]、VGG[10]以及ResNet[11]等深度卷積神經(jīng)網(wǎng)絡卷積神經(jīng)網(wǎng)絡(Convolutional Neural network,CNN)模型的提出,目標識別效果取得明顯改善[12],借助深度學習技術(shù)對病蟲害識別可以更好地滿足農(nóng)業(yè)發(fā)展需要。鮑文霞等[13]利用多路卷積神經(jīng)網(wǎng)絡識別小麥赤霉病,精度可達98%以上??捉ɡ诘萚14]基于多流融合網(wǎng)絡(Multi-stream Gaussian Probability Fusion Network,MPFN)對181類水稻害蟲圖像進行細粒度識別,既有效區(qū)分了類間微小差異,又可容忍類內(nèi)差異干擾,取得了93.18%的準確率。Li等[15]結(jié)合多種預處理方法去除害蟲的自然背景,利用微調(diào)的GoogleNet網(wǎng)絡模型識別10類農(nóng)作物害蟲,相比ResNet-101模型準確率提高6.22%。Liu 等[16]通過全局區(qū)域?qū)Ρ确椒ㄓ嬎泔@著性圖,進而定位到稻田環(huán)境下的害蟲目標,通過深度卷積神經(jīng)網(wǎng)絡(Deep Convolutional Neural Network,DCNN)對12類稻田害蟲進行識別,取得了95.1%的平均準確率。Nanni 等[17]提出一種基于顯著性方法和卷積神經(jīng)網(wǎng)絡融合的自動分類器對10類害蟲進行識別,取得了92.43%的識別精度?;贑NN的方法通過提取農(nóng)作物病蟲害圖像的深層特征,在一定程度上提高了病蟲害的識別準確率,但水稻害蟲在不同的生長時期形態(tài)差異較大,并且不同類害蟲形態(tài)紋理等相近,因此,為了能夠準確識別水稻害蟲,需要在深層特征基礎(chǔ)上進一步利用視覺注意力機制選擇對識別目標更關(guān)鍵的信息。深度學習中的注意力機制從本質(zhì)上和人類的選擇性視覺注意力機制類似,能夠以無監(jiān)督的方式來自動定位目標判別性區(qū)域[18-20],例如,SE-Net[18]中使用多層感知機(Multi Layer Perceptron,MLP),通過壓縮和激勵操作對特征圖進行全局信息集成和自適應校準。卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)[19]利用空間和通道的特征相關(guān)性來提高CNN的性能。Non-local[20]是一種自注意力機制的泛化形式,利用其對長范圍的依賴,提升視頻識別的性能。Zeng等[21]把Non-local模塊插入到CNN中獲取局部區(qū)域信息來提升模型識別農(nóng)作物葉片病害的性能,但是通過引入額外的網(wǎng)絡結(jié)構(gòu),模型在訓練和推理階段需要較高的計算量和參數(shù)量。王美華等[22]把改進的CBAM注意力機制嵌入到MoblieNet-V2、LeNet等CNN中對病蟲害進行細粒度識別,使得CNN的準確率都有一定的提升。
針對自然場景中水稻害蟲圖像在顏色紋理上與背景相近、同類害蟲受生長時期以及拍攝角度等影響形態(tài)差異較大、以及現(xiàn)有卷積神經(jīng)網(wǎng)絡模型參數(shù)量大等問題,本研究提出一種輕量型殘差網(wǎng)絡用于自然場景水稻害蟲的識別,以期提高自然場景中水稻害蟲識別準確率的同時減小模型的參數(shù)量和浮點運算量,以滿足現(xiàn)代農(nóng)業(yè)生產(chǎn)中實際需求。
本研究收集的水稻害蟲數(shù)據(jù)主要從佐治亞州大學等機構(gòu)設(shè)立的網(wǎng)址(https://www.insectimages.org/index.cfm)下載,經(jīng)過對害蟲數(shù)據(jù)的整理,該原始數(shù)據(jù)集包含常見的13種水稻害蟲,總共1 413幅圖像,其中部分害蟲圖像存在顏色紋理與背景較相近以及同類害蟲在形態(tài)、視角等方面差異較大等特點。由于該數(shù)據(jù)集水稻害蟲圖像尺寸不統(tǒng)一,為方便之后的試驗,對圖像進行統(tǒng)一裁剪并調(diào)整為224像素×224像素×3通道。
自然場景中水稻害蟲識別的算法流程包括:1)數(shù)據(jù)光照預處理。將水稻害蟲圖像變換到HSV空間,對分量進行Gamma變換[23]增強圖像的對比度;2)數(shù)據(jù)擴充并按約9∶1比例劃分為訓練集和測試集;3)LW-ResNet模型構(gòu)建。LW-ResNet模型由特征提取、全局優(yōu)化以及局部優(yōu)化模塊構(gòu)成,在特征提取模塊通過疊加5個改進殘差塊獲取水稻害蟲圖像的深層全局特征,全局優(yōu)化模塊中通過1個卷積層對深層全局特征進一步進行優(yōu)化,局部優(yōu)化模塊中引入輕量型注意力子模塊,輕量型注意力子模塊中主要由深度可分離卷積、全局平均池化和全局最大池化構(gòu)成,突出水稻害蟲的局部關(guān)鍵特征;4)在訓練階段,利用水稻害蟲訓練集數(shù)據(jù)聯(lián)合全局優(yōu)化模塊和局部優(yōu)化模塊的損失函數(shù)共同優(yōu)化網(wǎng)絡模型;5)在測試階段,為了降低浮點運算量,將去除LW-ResNet中全局優(yōu)化模塊的模型輸出作為水稻害蟲識別結(jié)果。
1.2.1 數(shù)據(jù)光照預處理
由于光照強度的變化,圖像中水稻害蟲特征與害蟲原有的特征呈現(xiàn)出差異,進而影響卷積神經(jīng)網(wǎng)絡對水稻害蟲特征提取效果。為了緩解光照變化造成的負面影響,對水稻害蟲圖像使用Gamma變換進行預處理。Gamma變換定義為
V=Vgamma(1)
式中V、V以及gamma分別表示已轉(zhuǎn)換的灰度數(shù)據(jù)、原始灰度數(shù)據(jù)以及校正系數(shù)。
Gamma變換只能實現(xiàn)灰度圖像增強,但在RGB顏色空間圖像中,每個像素樣本是一個包含、和這3個通道的特征向量。因0≤V≤1,0≤V≤1,直接把RGB顏色空間圖像作為Gamma變換的輸入將會改變圖像原有的像素特征,故先把RGB顏色空間圖像轉(zhuǎn)換到HSV顏色空間中,因其分量表示色彩明亮程度,范圍從0到1,歸一化后作為原始數(shù)據(jù)V;然后進行Gamma變換得到V,作為已轉(zhuǎn)換的分量;最后再把HSV空間圖像映射回RGB空間圖像。V的均值和方差反映了圖像的亮暗程度[24],gamma根據(jù)圖像亮暗程度在0.2~2.2范圍內(nèi)取值對圖像進行變換。
1.2.2 數(shù)據(jù)擴充
為了保證數(shù)據(jù)樣本的均衡性,本研究采用不同比例對不同類別水稻害蟲圖像進行擴充,對于水稻害蟲圖像差異大的類別擴充的數(shù)量多一些,而對于害蟲圖像差異小一些的類別擴充的數(shù)量少一些。最終訓練集圖像數(shù)據(jù)總共有4 380幅圖像,測試集有492幅圖像,擴充后的害蟲種類和數(shù)目如表1所示。
表1 水稻害蟲數(shù)據(jù)分布
1.2.3 基于LW-ResNet的水稻害蟲識別模型
在深度學習中,深度CNN是很難訓練的,因為存在梯度消失和爆炸的問題,于是He等[11]提出了殘差塊結(jié)構(gòu),通過跳躍連接的方式可以從網(wǎng)絡中某一層獲取激活,然后迅速反饋給另外一層,甚至是神經(jīng)網(wǎng)絡的更深層。利用殘差塊搭建的經(jīng)典殘差網(wǎng)絡有ResNet-18、ResNet-34等。但是原始殘差塊分支數(shù)少,特征提取和表達能力有限,需要多個殘差塊疊加才能提取圖像的深層信息。Ren等[25]驗證了在殘差塊的基礎(chǔ)上通過增加分支數(shù)和卷積層數(shù)可以增強特征的提取和表達能力。因此,為了準確識別自然場景中水稻害蟲并且減小模型的參數(shù),本研究通過改進殘差網(wǎng)絡和引入注意力機制設(shè)計了一個輕量型殘差網(wǎng)絡模型LW-ResNet,其結(jié)構(gòu)如圖2所示。該模型包含特征提取模塊、全局優(yōu)化模塊和局部優(yōu)化模塊3部分。特征提取模塊主要由改進殘差塊搭建,改進殘差塊采用多分支結(jié)構(gòu)用于獲取自然場景中水稻害蟲圖像的深層全局特征,同時降低網(wǎng)絡的深度;全局優(yōu)化模塊中通過卷積層優(yōu)化深層全局特征,然后經(jīng)過全局平均池化層、全連接層以及損失函數(shù)優(yōu)化;局部優(yōu)化模塊中使用輕量型注意力子模塊以無監(jiān)督的形式學習目標的局部判別性特征,輕量型注意力子模塊中對特征進行聚集和擴張操作,有助于保留特征的空間位置信息,然后經(jīng)過全局平均池化層、全連接層,損失函數(shù)后輸出類別概率。
1)特征提取模塊
為了提升水稻害蟲圖像特征提取的能力,本研究通過添加分支和卷積層的方式對原始殘差塊進行改進,如圖3所示,改進后的殘差塊有3個分支,并且每個分支特征提取能力不同。特征圖首先經(jīng)過1×1的卷積層進行升維操作,特征通道數(shù)增大2倍,隨后被劃分為2組相同通道的特征,其中1組特征被送入卷積核大小為3×3的3個卷積層捕捉特征的長距離關(guān)系依賴,增強了特征提取能力,同時相比于感受野更大的卷積核,降低了卷積層參數(shù)量,與另1組特征融合增強了特征的多尺度表達能力,因逐像素相加操作傾向于改變特征,為了不破壞特征表達,對最左邊分支中使用了卷積核大小為3×3的卷積層。因此改進殘差塊相比原始殘差塊特征學習能力更強。
注:Conv代表卷積操作;2個整數(shù)的乘積代表卷積核大小,BN代表批處理歸一化,ReLu代表激活函數(shù),并在分支內(nèi)部使用BN-ReLu-Conv的卷積順序以減少梯度消失[25]。U表示逐像素相乘,⊕表示逐像素相加,?表示特征融合。
為了提取自然場中水稻害蟲深層全局特征的同時讓模型盡可能的輕量,本研究主要使用5個改進殘差塊搭建特征提取模塊,結(jié)構(gòu)如圖4所示。224×224(像素)尺寸的輸入圖像進入第一個卷積層后,尺寸變?yōu)?12×112,通道變?yōu)?,然后依次進入改進殘差塊和最大池化層,特征通道數(shù)依次增大2倍,尺寸依次縮小二分之一,最后輸出的深層全局特征圖尺寸為7×7,通道數(shù)為256。
2)局部優(yōu)化模塊
由于水稻害蟲圖像的顏色紋理與背景相近,獲取的深層全局特征存在一定的特征冗余,并且同類害蟲不同個體間形態(tài)差異大,會影響模型識別性能。注意力機制是一種能夠強化重要信息和抑制不重要信息的方法,故在局部優(yōu)化模塊中采用了輕量型注意力子模塊獲取局部判別性特征。本研究設(shè)計的輕量型注意力子模塊如圖5所示。
為了讓輕量型注意力子模塊在訓練和推理階段以較小的計算量和參數(shù)量獲取到自然場景中水稻害蟲的局部判別性特征。注意力子模塊中使用深度可分離卷積,其由深度卷積和點卷積兩部分組成。深度卷積減少了通道范圍內(nèi)的冗余度,打破了輸入與輸出特征之間的完全連接模式,深層全局特征圖首先經(jīng)過卷積核大小為1×1的深度卷積,生成了特征圖,如公式(2 )所示。
式中1×1表示卷積核大小為1×1的深度卷積,深層全局特征圖經(jīng)過深度卷積后,生成優(yōu)化后的深層全局特征圖特征圖的不同通道特征之間缺少通信,會降低網(wǎng)絡的特征提取能力,點卷積有效利用了不同通道在相同空間位置上信息的相關(guān)性,如公式(3)所示。
注:Softmax和Expand分別代表激活函數(shù)和擴張函數(shù)。代表輸出的局部判別性特征。
3)損失函數(shù)
全局優(yōu)化模塊和局部優(yōu)化模塊使用的都是交叉熵損失函數(shù),如下所示:
模型最終聯(lián)合全局優(yōu)化模塊的L值和局部優(yōu)化模塊的L值優(yōu)化網(wǎng)絡模型,實現(xiàn)網(wǎng)絡模型的快速收斂。
本研究采用準確率(Accuracy)、精度(Precision)以及召回率(Recall)[27]指標來衡量LW-ResNet模型的識別性能,為了更好地評價本研究LW-ResNet模型和使用的輕量型注意力機制模型的開銷,通過參數(shù)量和浮點運算量[27]指標與其他注意力機制和卷積神經(jīng)網(wǎng)絡進行對比,參數(shù)量和浮點運算量常用來衡量算法和模型的復雜度[28]。
為了驗證特征提取模塊中改進殘差塊數(shù)量和輕量型注意力子模塊對LW-ResNet模型識別性能的影響,在不添加和添加輕量型注意力子模塊兩種條件下,分別采用不同數(shù)量的改進殘差塊進行水稻害蟲識別試驗,對比識別結(jié)果如表2所示。
表2 不同殘差塊數(shù)量驗證試驗結(jié)果
通過表2可以得出,在相同試驗條件下,5個改進殘差塊搭建特征提取模塊取得的識別結(jié)果優(yōu)于4個和6個的情形,因此為了保證模型識別性能的同時,模型更輕量,選取具有5個改進殘差塊的殘差網(wǎng)絡。并且當嵌入輕量型注意力子模塊后,模型的識別結(jié)果在準確度、精度以及召回率上都有明顯提升。
Grad-Cam[29]技術(shù)能夠以熱力圖的方式呈現(xiàn)圖像中每個位置與所屬類別的相似程度,熱力圖色條值越大越相似。圖6給出了大稻緣蝽、稻棘緣蝽以及稻縱卷葉螟中的3幅圖像及其類激活特征熱力圖。由于特征提取模塊是由改進殘差塊搭建的,其特征提取和表達能力更強,可以看出,第一個殘差塊更關(guān)注于背景區(qū)域特征,隨著改進殘差塊的疊加逐漸關(guān)注害蟲目標區(qū)域。從深層全局特征可以看出,由于特征提取模塊越深層的特征越與全局信息相關(guān),所以深層全局特征經(jīng)過輕量型注意力子模塊后可以更好地學習全局信息,以便于定位到局部判別性特征,但對于自然場景中的水稻害蟲,深層全局特征可能缺少目標的整體結(jié)構(gòu)特征,經(jīng)過輕量型注意力模塊后,不能很好地生成的局部判別性特征,將需要后續(xù)全局優(yōu)化模塊進行優(yōu)化。
為了進一步驗證本研究設(shè)計的輕量型注意力機制子模塊的優(yōu)勢,在相同的試驗條件下,在設(shè)計的網(wǎng)絡模型LW-ResNet中,將所設(shè)計的輕量型注意力機制子模塊替換成超輕量型注意力機制模型ULSAM[28]以及CBAM、BAM[30]、Non-local 這3種經(jīng)典的注意力機制模型進行對比試驗。得到網(wǎng)絡模型的識別結(jié)果和各注意力機制的參數(shù)數(shù)量和浮點運算量,如表3所示。
從表3可以看出,與其他注意力機制對比,本研究的注意力機制和ULSAM的參數(shù)量和浮點運算量最低,性能最好。其中ULSAM是超輕量級注意力機制,當分支數(shù)=4時,使用ULSAM性能反而降低,是因為對于自然場景中水稻害蟲數(shù)據(jù),其多尺度、多頻率特點會讓網(wǎng)絡關(guān)注到自然場景,對識別結(jié)果會產(chǎn)生消極影響。本研究使用的輕量型注意力機制與ULSAM(=1)相比,通過基于通道的平均池化和最大池化融合操作,在保證性能的同時,比ULSAM的開銷更低。
為了驗證全局優(yōu)化模塊對LW-ResNet模型性能的影響,在不添加和添加全局優(yōu)化模塊兩種條件下,分別對 LW-ResNet模型進行水稻害蟲識別試驗,對比識別結(jié)果如表4所示。
表3 不同注意力機制性能驗證試驗結(jié)果
注:代表ULSAM注意力機制的分支數(shù)。FLOPs代表浮點運算數(shù)。
Note:represents the branch number of ULSAM attention mechanism. FLOPs represents floating point operations.
表4 全局優(yōu)化模塊性能驗證試驗結(jié)果
從表4可知,本研究LW-ResNet模型利用全局優(yōu)化模塊和局部優(yōu)化模塊的損失函數(shù)共同優(yōu)化網(wǎng)絡模型時的識別結(jié)果優(yōu)于去除全局優(yōu)化模塊的識別結(jié)果。引入全局優(yōu)化模塊后,深層全局特征和局部判別性特征的熱力圖如圖7所示,圖7a為黑尾葉蟬、稻棘緣春以及大稻緣蝽3類水稻害蟲的圖像,圖7b和圖7c分別是對應的深層全局特征和局部判別性特征,從圖可以看出對于不同場景中的水稻害蟲,深層全局特征都有一定全局結(jié)構(gòu)特征,有助于局部優(yōu)化模塊學習到水稻害蟲的局部判別性特征,緩解因同類害蟲之間的形態(tài)差異導致的誤判,進一步提升了模型識別性能。
為進一步驗證所設(shè)計的模型識別自然場景中水稻害蟲的效果,在相同的試驗條件下,利用本研究構(gòu)建的水稻害蟲圖像數(shù)據(jù)集,將所設(shè)計的LW-ResNet模型與VGG-16、ResNet-34、ResNet-18、AlexNet這4種經(jīng)典卷積神經(jīng)網(wǎng)絡以及輕量型網(wǎng)絡MobileNetV3(small)[31]進行對比識別試驗,識別結(jié)果和模型的復雜度分別如表5所示。
表5 不同CNN參數(shù)量和浮點運算數(shù)對比
從表5可以看出,不同層數(shù)、不同結(jié)構(gòu)的CNN對水稻害蟲的識別效果不一樣,本研究LW-ResNet的識別準確率要高于其他模型的準確率。VGG-16模型識別準確率僅次于本研究的模型,但因其全連接層存在大量的參數(shù),浮點運算量過大,從表中可以看出,該模型參數(shù)量和浮點運算量是最大的,不利于移動端的應用。MobileNetV3(small)輕量型卷積神經(jīng)網(wǎng)絡的參數(shù)量和浮點運算量不僅略多于本研究的LW-ResNet模型,而且因其網(wǎng)絡結(jié)構(gòu)是通過逆殘差結(jié)構(gòu)搭建,相比于本研究的改進殘差塊特征提取和表達能力有限,使得準確率相比與LW-ResNet模型低了4.8個百分點??偟膩碚f,本研究LW-ResNet模型在保證模型性能的同時,參數(shù)量和浮點運算量不僅低于其他常用CNN,也低于輕量型卷積神經(jīng)網(wǎng)絡,因此該模型可應用于移動端的水稻害蟲識別。
為了分析LW-ResNet模型對不同類別水稻害蟲識別的效果,圖8給了LW-ResNet模型在測試集上識別結(jié)果的混淆矩陣,采用標準化矩陣和非標準化矩陣來表示。標準化混淆矩陣對角線代表著每類的準確率,如圖8a所示;非標準化混淆矩陣對角線代表著每類被正確分類的數(shù)量,如圖8b所示。標簽0到12分別代表著13類水稻害蟲,它們具體是:0(稻赤斑沫蟬)、1(二化螟)、2(大稻緣蝽)、3(稻縱卷葉螟)、4(稻鐵甲)、5(二星蝽)、6(灰飛虱)、7(稻棘緣蝽)、8(黑尾葉蟬)、9(稻綠蝽)、10(稻黑蝽)、11(大螟)、12(白背飛虱)。
試驗結(jié)果表明,LW-ResNet模型在大部分水稻害蟲上都取得了比較好的識別結(jié)果(例如白背飛虱、稻縱卷葉螟、稻黑蝽等),而標簽2(大稻緣蝽)、標簽8(黑尾葉蟬)以及標簽7(稻棘緣春)的識別準確率稍低,是因為這3類害蟲在圖像背景、形態(tài)以及拍攝視覺等方面差異都較大,相對其他類別害蟲圖像更難識別并且大稻緣蝽與稻棘緣蝽在紋理和形態(tài)上非常相近,因此易互相被誤識別。黑尾葉蟬除了形態(tài)上差異較大并且顏色和紋理與背景很相似,因此較其他類別圖像識別率稍低。
本研究根據(jù)自然場景中水稻害蟲圖像的特點,設(shè)計了一個LW-ResNet模型用于水稻害蟲的識別。該模型通過對殘差塊進行改進并設(shè)計輕量型注意力子模塊,從而獲取水稻害蟲圖像深層全局特征和局部判別性特征,提高模型的識別性能同時減少參數(shù)量。通過對13類水稻害蟲圖像進行對比試驗,LW-ResNet模型取得了92.5%的識別準確度,優(yōu)于VGG-16、ResNet-34以及AlexNet等經(jīng)典卷積神經(jīng)網(wǎng)絡;模型參數(shù)量為1.62×106、浮點運算量為0.34×109,低于輕量型卷積神經(jīng)網(wǎng)絡MobileNetV3(small)。研究結(jié)果可以應用到水稻害蟲智能識別系統(tǒng)中。在今后的研究中,將針對水稻害蟲擴大其種類,以及水稻害蟲的類間相似性、類內(nèi)差異性等問題,進一步優(yōu)化模型,以提高對自然場景中水稻害蟲識別的適用性。
[1] Bao W X, Qiu X, Liang D, et al. Recognition insect images at the order level based on elliptic metric learning[J]. American Society of Agricultural and Biological Engineers, 2021, 37(1): 163-170.
[2] 鮑文霞,邱翔,胡根生,等. 基于橢圓型度量學習空間變換的水稻蟲害識別[J]. 華南理工大學學報,2020,48(10):136-144.
Bao Wenxia, Qiu Xiang, Hu Gensheng, et al. Rice pest identification based on elliptic metric learning space transformation[J]. Journal of South China University of Technology, 2020, 48(10): 136-144. (in Chinese with English abstract)
[3] Jensen H G, Jacobsen L B, Pedersen S M, et al. Socioecomomic impact of widespread adoption of precision farming and controlled traffic in Denmark[J]. Precision Agriculture, 2012, 13(6): 661-677.
[4] Lim S, Kim S, Park S, et al. Development of Application for Forest Insect Classification using CNN[C]. //2018 15thInternational Conference on Control, Automation, Robotics and Vision (ICARCV). Singapore: IEEE, 2018.
[5] 邊柯橙,楊海軍,路永華,等. 深度學習在農(nóng)業(yè)病蟲害檢測識別中的應用綜述[J]. 軟件導刊. 2021,20(3):26-33.
Bian Kecheng, Yang Haijun, Lu Yonghua, et al. Overview of the application of deep learning in the detection and identification of pests and diseases in agriculture[J]. Software Guide. 2021, 20(3): 26-33. (in Chinese with English abstract)
[6] 田杰,韓冬,胡秋霞,等. 基于PCA和高斯混合模型的小麥病害彩色圖像分割[J]. 農(nóng)業(yè)機械學報,2014,45(7):267-271.
Tian Jie, Han Dong, Hu Qiuxia, et al. Color image segmentation of wheat diseases based on PCA and Gaussian mixture model[J]. Transactions of the Chinese Society for Agricultural Machinery, 2014, 45(7): 267-271. (in Chinese with English abstract)
[7] Liu T, Chen W, Wu W, et al. Detection of aphids in wheat fields using a computer vision technique[J]. Biosystems Engineering, 2016, 141(2): 82-93.
[8] Hafiz G A U, Qaisar A, Fatima G. Insect classfication using image processing and bayesian network[J]. Journal of Entomology and Zoology Studies, 2017, 5(6): 1079-1082.
[9] Krizhevsky A, Sutskever I, Hinton G. ImageNet classification with deep convolutional neural networks[J]. Advances in neural information processing systems, 2012, 25(2): 84-90.
[10] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014, 18(2): 1409-1556.
[11] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]. // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE Computer Society, 2016.
[12] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(1): 436-444.
[13] 鮑文霞,孫慶,胡根生,等. 基于多路卷積神經(jīng)網(wǎng)絡的大田小麥赤霉病圖像識別[J]. 農(nóng)業(yè)工程學報,2020,36(11):174-181.
Bao Wenxia, Sun Qing, Hu Gensheng, et al. Field wheat head blight image recognition based on multi-channel convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transaction of the CSAE), 2020, 36(11): 174-181. (in Chinese with English abstract)
[14] 孔建磊,金學波,陶治,等. 基于多流高斯概率融合網(wǎng)絡的病蟲害細粒度識別[J]. 農(nóng)業(yè)工程學報,2020,36(13):148-157.
Kong Jianlei, Jin Xuebo, Tao Zhi, et al. Fine-grained recognition of pests and diseases based on multi-stream Gaussian probability fusion network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transaction of the CSAE), 2020, 36(13): 148-157. (in Chinese with English abstract)
[15] Li Y, Wang H, Dang L M, et al. Crop pest recognition in natural scenes using convolutional neural networks[J]. Computers and Electronics in Agriculture, 2020, 169(1): 302-310.
[16] Liu Z, Gao J, Yang G, et al. Localization and classification of paddy field pests using a saliency map and deep convolutional neural network[J]. Scientific Reports(Sci Rep), 2016, 6(1): 1-9.
[17] Nanni L, Maguolo G, Pancino F. Insect pest image detection and recognition based on bio-inspired methods[J]. Ecological Informatics, 2020, 57(1): 2-14.
[18] Jie H, Li S, Gang S, et al. Squeeze-and-Excitation Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 42(8): 2011-2023.
[19] Woo S, Park J, Lee J Y, et al. CBAM: Convolutional block attention module[C]. European Conference on Computer Vision, Munich, Germany: Springer, 2018.
[20] Wang X, Girshick R, Gupta A, et al. Non-local neural networks[J]. Computer Science, 2017, 1711(2): 7794-7803.
[21] Zeng W, Li M. Crop leaf disease recognition based on Self-Attention convolutional neural network[J]. Computers and Electronics in Agriculture, 2020, 172(1): 4-14.
[22] 王美華,吳振鑫,周祖光. 基于注意力改進CBAM的農(nóng)作物病蟲害細粒度識別研究[J]. 農(nóng)業(yè)機械學報,2021,52(4):239-247.
Wang Meihua, Wu Zhenxin, Zhou Zuguang. Research on fine-grained recognition of agricultural diseases and insect pests based on improved CBAM of attention[J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(4): 239-247. (in Chinese with English abstract)
[23] Gonzalez, R C, Woods. Digital image processing[J]. Beijing: Electronic Industry Press, 2005: 175-207.
[24] 陸濤. 基于統(tǒng)計特征分類耦合自適應Gamma校正的圖像增強算法[J]. 電子測量與儀器學報,2020,34(6):154-162.
Lu Tao. Image enhancement algorithm based on statistical feature classification coupled with adaptive Gamma correction[J]. Journal of Electronic Measurement and Instrument, 2020, 34(6): 154-162. (in Chinese with English abstract)
[25] Ren F, Liu W, Wu G. Feature reuse residual networks for insect pest recognition[J]. IEEE Access, 2019, 7(1): 122758-122768.
[26] Loshchilov I, Hutter F. SGDR: Stochastic gradient descent with warm restarts[C]. Toulon, France: OpenReview.net, 2016.
[27] 周志華. 機器學習[M],北京:清華大學出版社,2016:230-245.
[28] Saini R, Jha N K, Das B, et al. ULSAM: Ultra-lightweight subspace attention module for compact convolutional neural networks[C]. IEEE Winter Conference on Applications of Computer Vision (WACV). Snowmass. CO. USA, IEEE, 2020, 12(4): 1616-1625.
[29] Selvaraju R R, Cogswell M, Das A, et al. Grad-CAM: Visual Explanations from deep networks via gradient-based localization[J]. International Journal of Computer Vision, 2020, 128(2): 336-359.
[30] Park J, Woo S, Lee J Y, et al. BAM: Bottleneck attention module[C]. Newcastle, UK:British Machine Vision Conference (BMVA). 2018.
[31] Howard A, Sandler M, Chen B, et al. Searching for MobileNetV3[C]. Seoul, Korea (South): IEEE. 2019.
Rice pest identification in natural scene based on lightweight residual network
Bao Wenxia1, Wu Dezhao1, Hu Gensheng1, Liang Dong1,Wang Nian1※, Yang Xianjun2
(1.-,,230601,; 2.,,230031,)
Accurate identification of rice pests is of great significance for timely protection and management of rice. However, the rice pests are similar with the background in the color and texture, and the morphology of the pests varies greatly during different growth stages. Therefore, it is difficult to accurately identify the rice pests in natural scenes. In this paper, the Light Weight Residual Network (LW-ResNet) composed of feature extraction, global optimization and local optimization modules was designed to improve the ability to identify rice pests in natural scene images. Firstly, in order to reduce the influence of complex background and enhance the feature extraction and expression capabilities of the residual network, the residual block is improved to constitute the feature extraction module. The improved residual block increases the number of convolutional layers and branches of the original residual block, which can effectively extract the deep global features of rice pest images. Secondly, the deep global features are further optimized through the convolutional layers in the global optimization module. Finally, in order to obtain the local discriminative characteristics of rice pest images to distinguish the morphological differences between similar pests, the lightweight attention sub-module constitutes the local optimization module. The light weight attention sub-module uses depth separable convolution to reduce the redundancy of channel features and realize the aggregation of different channel characteristics, so it can highlight the local key features of rice pests. Because the improvement of the residual block in the feature extraction module reduces the number of residual blocks, and the use of deep separable convolution in the attention sub-module and the channel-based global average pooling and global maximum pooling encoding operations reduce floating point operations, the LW-ResNet network has achieved lighter weight. In the HSV space, Gamma transform is used to preprocess the v component of rice pest images and then proceed to the data expansion. After the expansion, there are 4 380 images in the training set and 492 images in the test set. In order to verify the rationality and effectiveness of the method in this paper, in the training phase, the cosine learning rate decay strategy was used to train the network model. By analyzing the number of the improved residual blocks in the feature extraction module, the lightweight attention sub-module in the local optimization module, and the global optimization module, the rationality of the method in this paper was verified. In the testing phase, the LW-ResNet network model achieves a identification accuracy of 92.5% on the test data set of 13 types of rice pest images. The identification accuracy of the LW-ResNet network model is higher than that of classic convolutional neural network models such as VGG16, ResNet, and AlexNet. The parameter amount of the LW-ResNet model is 1.62×106, and the amount of floating-point operations is 0.34×109. The number of parameters and floating-point operations of the LW-ResNet model are both lower than those of MobileNetV3, which verified the effectiveness of the method in this paper. The LW-ResNet network model has achieved light weight and a good identification effect, so it can be used for rice pest identification on the mobile terminal.
crops; models; image identification; rice pest; attention mechanism; deep separable convolution
鮑文霞,吳德釗,胡根生,等. 基于輕量型殘差網(wǎng)絡的自然場景水稻害蟲識別[J]. 農(nóng)業(yè)工程學報,2021,37(16):145-152.doi:10.11975/j.issn.1002-6819.2021.16.018 http://www.tcsae.org
Bao Wenxia, Wu Dezhao, Hu Gensheng, et al. Rice pest identification in natural scene based on lightweight residual network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(16): 145-152. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.16.018 http://www.tcsae.org
2021-06-19
2021-08-13
國家自然科學基金(41771463;61672032)
鮑文霞,副教授,碩士生導師,研究方向為農(nóng)業(yè)與生態(tài)視覺分析與模式識別。Email:bwxia@ahu.edu.cn
王年,教授,博士生導師,研究方向為農(nóng)業(yè)大數(shù)據(jù)分析。Email:wn_xlb@ahu.edu.cn
10.11975/j.issn.1002-6819.2021.16.018
TP;S24
A
1002-6819(2021)-16-0145-08