于 明 李若曦 閻 剛 王 巖 王建春 李 揚
(1.河北工業(yè)大學(xué)人工智能學(xué)院, 天津 300401; 2.河北工業(yè)大學(xué)電子信息工程學(xué)院, 天津 300401;3.天津商業(yè)大學(xué)信息工程學(xué)院, 天津 300401; 4.天津市農(nóng)業(yè)科學(xué)院, 天津 300190)
為了減輕農(nóng)作物病害的損失,大量化學(xué)藥物被用于病害防治[1]。但由于對病害的判斷不及時且不準確,導(dǎo)致了化學(xué)藥劑的濫用,也對生態(tài)環(huán)境和食品安全造成了巨大影響。因此,開展精準的基于圖形圖像的農(nóng)作物病害識別刻不容緩。
傳統(tǒng)方法通過機器學(xué)習(xí)相關(guān)模型手動提取病斑區(qū)域的顏色、形狀、紋理、邊緣等特征后進行分類[2-5]。但傳統(tǒng)機器學(xué)習(xí)模型需要針對不同作物的病害人工設(shè)計特征提取方法,不僅設(shè)計的過程復(fù)雜,還容易受到光線、拍攝角度、背景等因素的干擾,而且模型的泛化能力弱,難以遷移到其他類型的識別任務(wù)中去。
為解決以上問題,研究人員借助了深度學(xué)習(xí)方法[6-9]。目前病害識別主要基于AlexNet[10]、VGG16[11]、GoogLeNet[12]、ResNet50[13]等模型。宋余慶等[14]為了解決各種病害區(qū)域大小不一的問題,提出多層次增強高效空間金字塔卷積深度學(xué)習(xí)模型,提取病害圖像高層語義特征。由于農(nóng)作物病害表征多樣,蒲秀夫等[15]采用多尺度卷積核提取特征,解決了特征多樣性不足的問題。
葉片病斑的顏色特征和形態(tài)特征是病害識別的重要依據(jù),因此設(shè)計顏色掩膜網(wǎng)絡(luò)(Color mask network,CMN)針對葉片病斑顏色特征進行學(xué)習(xí);然后將所設(shè)計的通道自適應(yīng)自注意力機制嵌入ResNet50,得到融合通道自適應(yīng)的自注意力網(wǎng)絡(luò)(Channel adaptive self-attention network, CASAN)自適應(yīng)得到病斑的全局、位置和通道上下文信息;最后針對農(nóng)作物病害識別中病害類別易混淆的問題,將CMN和CASAN結(jié)合為融合顏色掩膜網(wǎng)絡(luò)和自注意力機制的雙流網(wǎng)絡(luò)FCMSAN,同時提取病斑的顏色特征、全局空間特征和通道特征,旨在提升農(nóng)作物病蟲害細粒度識別效果。
本文提出的FCMSAN整體框架如圖1所示。其中CMN的網(wǎng)絡(luò)結(jié)構(gòu)為堆疊的卷積神經(jīng)網(wǎng)絡(luò),可以抑制非病斑顏色區(qū)域的特征,提取病斑顏色區(qū)域的特征。CASAN在ResNet50中引入所設(shè)計的通道自適應(yīng)自注意力機制,能夠建立葉片病害的長距離依賴,同時提取葉片病害的位置特征,從而獲得全局范圍內(nèi)病斑特征的空間信息。另外,在自注意力機制中加入的通道自適應(yīng),能夠獲取重要的通道維度信息。最后,將雙流特征輸入到特征轉(zhuǎn)換融合模塊(TFL)中進行融合,得到預(yù)測的病害類別。
圖1 FCMSAN整體框架圖Fig.1 Framework of FCMSAN
注意力機制能夠捕捉到關(guān)鍵信息,近年來,已被成功應(yīng)用于病害識別任務(wù)中。金曉芙[16]提出Inception-v3+Att+Salie方法,通過在網(wǎng)絡(luò)中加入注意力機制可以更好關(guān)注細節(jié),在病害的細粒度分類上取得更好的結(jié)果。王美華等[17]提出I_CBAM (Improved convolutional block attention module) 將CBAM[18]中兩個注意力模塊的串行連接方式改為并行連接方式,來解決CBAM在病害識別中表現(xiàn)不穩(wěn)定等問題。自注意力機制是對注意力機制的改進,減少了模型對外部信息的依賴,更加關(guān)注捕獲特征的內(nèi)在聯(lián)系,針對特征間的相關(guān)性建模,在全局范圍內(nèi)根據(jù)特征的重要程度分配權(quán)重,從而有效提高模型效率。目前,自注意力機制主要有多頭自注意力(MHSA)[19],以及Non-Local[20]、SA-axial[21]、CA[22]、ViT[23]等模型,這些模型提出用不同形式的自注意力機制(局部、全局、矢量、軸向等)來替換主干網(wǎng)絡(luò)中的部分卷積,在各類視覺任務(wù)中取得了較好的結(jié)果。但是這些自注意力機制模型主要針對空間信息建模,無法自適應(yīng)學(xué)習(xí)來自不同通道間的特征信息。
顏色掩模網(wǎng)絡(luò)CMN的輸入為構(gòu)建掩膜提取病斑顏色特征后的殘差RES圖,該過程如圖2所示。先將原始RGB圖像轉(zhuǎn)換到HSV顏色空間,查得HSV顏色空間中表示綠色的數(shù)值范圍,利用二值化操作將綠色置0,構(gòu)建掩膜Mask圖像
圖2 RES圖像構(gòu)建過程Fig.2 Process of constructing RES
(1)
最后將掩膜Mask圖像和原始RGB圖像作像素與操作,得到RES圖。
經(jīng)7×7卷積核對RES圖進行卷積,提取局部特征。然后對由基礎(chǔ)模塊堆疊而成的卷積塊進行卷積操作?;A(chǔ)模塊每堆疊若干次后,通過2×2最大池化層進行下采樣,進一步縮小圖像的分辨率,得到高層低分辨率的特征。
融合通道自適應(yīng)的自注意力網(wǎng)絡(luò)(CASAN)將CMN的最后兩個堆疊的基礎(chǔ)模塊中的3×3卷積替換為CASA模塊。CASA模塊的結(jié)構(gòu)如圖3所示。
圖3 CASA結(jié)構(gòu)圖Fig.3 Structure diagram of CASA
CASAN提取3類特征:全局上下文信息、位置上下文信息和通道上下文信息。給定輸入特征X∈RH×W×d,將X輸入4個權(quán)重矩陣WQ∈R1×1×d、WK∈R1×1×d、WV∈R1×1×d、WC∈R1×1×d,分別獲得查詢矩陣q∈RH×W×d、鍵矩陣k∈RH×W×d、值矩陣v∈RH×W×d和通道矩陣c∈RH×W×d,計算式為
q=WQ(X)
(2)
k=WK(X)
(3)
v=WV(X)
(4)
c=WC(X)
(5)
1.2.1全局上下文信息
將查詢矩陣q∈RH×W×d與矩陣kT∈Rd×H×W相乘,得到全局語義信息Q為
Q=q?kT
(6)
可以得到矩陣特征與鍵矩陣的關(guān)系,捕獲特征圖任意兩點間的長程距離依賴,從而獲取到全局信息。
1.2.2位置上下文信息
分別對特征圖的高度H和寬度W歸一化,得到Rh∈RH×1×d、Rw∈R1×W×d,將Rh和Rw在元素級相加,得到位置信息p為
p=Rh⊕Rw
(7)
式中 ⊕——元素相加運算符
然后將查詢矩陣q∈RH×W×d和矩陣pT∈RH×W×d相乘,得到位置信息P為
P=q?pT
(8)
式中 ?——矩陣相乘運算符
該過程通過在空間維度設(shè)置可訓(xùn)練參數(shù),獲取在高度H和寬度W上與特征相關(guān)的二維坐標。通過這種方式將提取到的特征賦予相應(yīng)的位置信息,極大豐富了特征在空間上的語義。將提取到的全局上下文信息Q與位置上下文信息P相加,通過softmax函數(shù)后與值矩陣v相乘,得到結(jié)合全局內(nèi)容信息與位置信息的空間注意力特征FS∈RH×W×d,FS為
FS=softmax(Q⊕P)?v
(9)
1.2.3通道上下文信息
將通道矩陣c輸入平均池化層,經(jīng)批次正則化加快模型的訓(xùn)練速度。通過全連接層1(fc1)、激活函數(shù)ReLU和全連接層2(fc2)進行非線性映射,得到通道注意力特征FC∈Rd×1×1。該過程使得模型自適應(yīng)不同通道特征。最后,得到通道上下文信息Z為
(10)
式中 ⊙——元素相乘運算符
為增強特征的傳播和表達能力,如圖1所示,將CMN的輸出fm1、fm2、fm3、fm4與CASAN的輸出f1、f2、f3、f4進行特征融合。將fm1與f1輸入到TFL中,先進行元素相加,再輸入到兩個卷積核為3×3、步長為1、填充為1的卷積層,通過步長為2的2×2最大池化層下采樣,得到F1。然后將fm2與f2輸入到TFL中進行相同的操作,再與F1相加得到F2。與獲取F2的過程類似,將fm3與f3輸入TFL中,再加上F2得到F3,將fm4與f4輸入TFL中,再加上F3得到F4。
最后,將F4輸入到全連接層中,得到61類葉片病害的分類結(jié)果。
實驗所用的數(shù)據(jù)集為AI Challenger 2018[24],共包含31 721幅訓(xùn)練集圖像和4 540幅驗證集圖像。有蘋果、草莓、櫻桃等10個物種,36類不同病害,每種病害分為健康、一般和嚴重3個等級,共61類病害,標簽為0~60。表1為該數(shù)據(jù)集部分分類標簽。圖4為數(shù)據(jù)集中部分病害圖像。
表1 AI Challenger 數(shù)據(jù)集部分分類標簽Tab.1 Labels for AI Challenger
圖4 AI Challenger數(shù)據(jù)集部分圖像示例Fig.4 Some samples of AI Challenger
服務(wù)器操作系統(tǒng)為Windows 10,處理器為Intel(R) Xeon(R) Silver 4210 CPU@2.20 GHz 2.19 GHz (2核處理器),運行內(nèi)存128 GB,GPU為NVIDIA GTX2080Ti。
實驗參數(shù)設(shè)置:輸入圖像尺寸為256像素×256像素,每次訓(xùn)練樣本數(shù)為16,共訓(xùn)練1 982次,進行40次迭代,使用交叉熵損失函數(shù)與Adam優(yōu)化器,初始學(xué)習(xí)率為0.000 3,動量因子為0.9,每迭代15次,學(xué)習(xí)率衰減一次,衰減因子取0.1。
在實驗中引入Top-k準確率,用來計算預(yù)測結(jié)果中概率最大的前k個結(jié)果,包含正確標簽的占比。準確率(Accuracy)是預(yù)測正確的樣本數(shù)占總樣本個數(shù)的比例。
由于AI Challenger 2018數(shù)據(jù)集類別分布不均衡,如柑橘黃龍病圖像為3 627幅,番茄健康類別圖像為1 028幅,蘋果黑心病圖像361幅,而西紅柿瘡痂病圖像只有2幅。因此引入精確率、召回率、F1值對本文方法的識別性能進行全面評估[25]。
2.4.1單雙流網(wǎng)絡(luò)性能比較
為驗證本文方法對于病害識別的有效性,將2個單流網(wǎng)絡(luò)CMN、 CASAN與雙流網(wǎng)絡(luò)FCMSAN進行實驗對比,如表2所示,表中的準確率、召回率、F1值均為所有類別的算術(shù)平均值。從實驗結(jié)果可以看出, FCMSAN在各項評價指標上的結(jié)果都優(yōu)于CMN和CASAN。在Top-1 準確率上,F(xiàn)CMSAN相較于CMN和CASAN,分別提升了2.31、0.35個百分點;在F1值上,F(xiàn)CMSAN比CMN和CASAN分別提升了3.47、0.61個百分點。單流網(wǎng)絡(luò)與雙流網(wǎng)絡(luò)在每個子類上的識別準確率對比如圖5所示??梢钥闯?,CMN在某些子類的識別準確率相較CASAN更高, FCMSAN在這些分類上的識別準確率均較高;同樣CASAN也可以在某些子類上提升識別準確率。CMN和CASAN在識別病害類別時能夠相互補充,因此得到的融合網(wǎng)絡(luò)FCMSAN的識別性能最優(yōu)。
表2 單雙流網(wǎng)絡(luò)性能對比Tab.2 Comparison of single network with double stream networks %
圖5 單雙流網(wǎng)絡(luò)在每個子類上的識別準確率Fig.5 Precision of single and dual networks on each subclass
2.4.2基礎(chǔ)模塊堆疊數(shù)的消融實驗
FCMSAN的單流網(wǎng)絡(luò)結(jié)構(gòu)基于ResNet50,由堆疊若干基礎(chǔ)模塊后下采樣,重復(fù)4次構(gòu)成。表3堆疊數(shù)量中,每個數(shù)字代表堆疊的基礎(chǔ)模塊數(shù)量,[3,4,6,3]即為ResNet50原有的堆疊結(jié)構(gòu)。保留前兩次的堆疊參數(shù),對后兩次的數(shù)量進行調(diào)整。實驗結(jié)果顯示,當FCMSAN的基礎(chǔ)模塊堆疊數(shù)為[3,4,5,2]時,模型的各項指標均達到最高,能夠獲得最好的識別性能。
表3 基礎(chǔ)模塊堆疊數(shù)量不同時的識別效果Tab.3 Comparison of basic blocks with different stacked numbers %
2.4.3模塊輸入數(shù)的消融實驗
對特征轉(zhuǎn)換融合模塊輸入數(shù)進行消融實驗,結(jié)果如表4所示。將CMN輸出的fm1、fm2、fm3、fm4與CASAN輸出的f1、f2、f3、f4對應(yīng),輸入數(shù)表示從后向前選取的數(shù)量,可以看出,當融合模塊的輸入數(shù)為3,即選擇fm2、fm3、fm4與f2、f3、f4作為TFL的輸入時,模型的Top-1 準確率與F1值最高,因此選擇此模塊的輸入數(shù)。
表4 融合模塊輸入數(shù)不同時的識別效果Tab.4 Comparison of fusion module with different inputs %
2.4.4通道自適應(yīng)自注意力機制的性能分析
為了驗證所提出的自注意力機制的性能,將經(jīng)典自注意力機制CBAM[12]、SA[26]、CA[16]、Non-Local[14]和CASA分別嵌入到ResNet50的conv4_x與conv5_x之間,實驗結(jié)果如表5所示。可以看出, CASA在病害識別任務(wù)上的各項指標優(yōu)于其他注意力機制,與全局建模感受野的自注意力機制Non-Local相比,CASA的Top-1 準確率提升了0.57個百分點;與軸向建模的自注意力機制CA相比,CASA的Top-1 準確率提升了0.27個百分點;比通道建模的注意力機制CBAM與SA的Top-1 準確率高0.23、0.35個百分點。實驗證明,CASA可以注意到特征間的關(guān)系,將更多權(quán)重賦給重要特征,從而提高模型的識別性能。為進一步探究CASA的有效性,本文利用激活熱圖(Grad-CAM)[27]對不同模型進行可視化分析比較,如圖6所示。對比分析輸入圖像,可知第1行、第3行的病害呈圓形斑點,大量分布在葉片中;第2行病害以斑狀分布在各處,但是以最上方邊緣處、正中偏右處最為嚴重;第4行病害以塊狀體現(xiàn)在葉片左上邊緣。通過熱力激活圖可以看出,與CBAM、SA、CA、Non-Local等模型相比, CASA模型對葉片的病害區(qū)域定位更加準確、廣泛。說明CASA模型能夠有效提取病害特征。
表5 各種注意力機制對比Tab.5 Comparison results of different attention mechanisms %
圖6 各注意力機制熱力激活圖對比Fig.6 Comparison of thermal activation diagrams with different attention mechanisms
2.4.5與其他方法對比
將本文方法與其他方法進行比較,結(jié)果如表6所示。可以看出,F(xiàn)CMSAN的各項指標均表現(xiàn)良好。
表6 與其他方法識別性能對比Tab.6 Comparison recognition performance with other methods %
其中Top-1準確率達到87.97%,分別比AlexNet[10]、VGG16[11]、GoogLeNet[12]、ResNet50[13]、Inception-v3+Att+Salie[16]和I_CBAM[17]提升2.61、2.52、1.32、0.91、0.49、0.99個百分點;F1值分別比AlexNet、VGG16、GoogLeNet、ResNet50提高3.1、2.96、1.43、1.19個百分點,證明在樣本分布不均衡情況下,F(xiàn)CMSAN對各類病害的識別具有較好的效果。
本文提出的方法具有較高的識別準確性,進一步對圖像病害識別檢測效率進行對比實驗,如表7所示,可以看出本文方法的檢測時間略長于基線模型的檢測時間。這是因為FCMSAN集成了雙流網(wǎng)絡(luò),模型參數(shù)更大;且CASA模塊在提取到更豐富的病害特征的同時,也引入了更大的計算量,使得FCMSAN的檢測速度較基線網(wǎng)絡(luò)在可接受的范圍內(nèi)有所下降。
表7 與其他方法檢測速度對比Tab.7 Comparison detection speed with other methods ms
針對當前植物葉片病害細粒度分類粗糙、識別準確率低等問題,提出基于顏色掩膜與通道自適應(yīng)自注意力機制的病害識別網(wǎng)絡(luò)。該網(wǎng)絡(luò)能夠根據(jù)葉片顏色變化、病斑范圍與病斑間的位置關(guān)系,有效學(xué)習(xí)葉片病害顏色特征和位置特征。在公開數(shù)據(jù)集上進行大量實驗證明了FCMSAN網(wǎng)絡(luò)的有效性,對病害識別達到了較好的效果。