中圖分類號:S436.421;TP391.41 文獻標(biāo)識碼:A 文章編號:2095-5553(2025)08-0112-10
Abstract:Inresponse to the lowdetection acuracyand high miss rateofcucumberdiseases caused by factors suchas leaf blockage and overlap incomplex background environments,a cucumber disease detectionalgorithm called FSA EMAFPN—YOLOX is proposed.The FasterNet Block module is introduced in the feature extraction network,anda dual-branch structure attentionmechanism is embedded to suppressbackground noise,efectively solving theproblemof featureinformation losscaused by leaf blockage and overlap,andreducing the missrate.Inthe feature fusionstage,the EMA—AFPN feature fusion module is designed to reduce the lossof disease feature information.The SIoU bounding boxregression loss function is used toredefine the angle penaltymetric,which improves the training speedand bounding boxpredictionaccuracyofthemodel.TheVariFocalLossis introducedtosolvetheproblemof imbalanceddistributionof positiveandnegativesamples,enhancing themodel'slearmingof positive targetobjects,anditsfocusonthedisease area. Theresults showed that comparedwith the original YOLOX algorithm,the average acuracy of the improved YOLOX algorithm increased by 4.89% and the recall rate increased by 6.53% ,which significantly improved the detection effect of cucumber leaf disease under complex background. Keywords:facility cucumber;disease detection;attention mechanism;YOLOX;SIoU loss
0 引言
植物病害嚴(yán)重影響農(nóng)業(yè)產(chǎn)量和質(zhì)量,成為全球農(nóng)業(yè)發(fā)展的焦點問題。植物病害造成的損失至少占全球糧食產(chǎn)量的 10% ,給農(nóng)民造成巨大的經(jīng)濟損失[1]。黃瓜是我國主要的溫室蔬菜之一,約占世界總種植面積的60% ,其生長階段往往受到各種病害的侵襲,例如霜霉病、細(xì)菌性角斑病等。一般來說,農(nóng)民根據(jù)農(nóng)業(yè)經(jīng)驗或農(nóng)業(yè)專家的指導(dǎo)來診斷病害,但傳統(tǒng)方法主觀、費力、耗時。隨著農(nóng)業(yè)信息化的迅速發(fā)展,通過機器識別蔬菜作物病害可以有效地幫助農(nóng)民實現(xiàn)自動化的病害診斷。
傳統(tǒng)蔬菜病害檢測方法是利用機器學(xué)習(xí)提取圖像特征進行病害識別。張建華等3利用Gabor小波對蜜柚葉部病害紋理特征提取,通過最優(yōu)二叉樹支持向量機對病害進行分類,黃斑病、炭疽病、瘡痂病、煤煙病識別準(zhǔn)確率均達到 90% 以上。馬浚誠等4利用決策樹模型提取葉片病斑,構(gòu)建基于徑向基核函數(shù)的SVM分類器,對黃瓜葉片霜霉病識別率達到 90% 。黨滿意等[5利用機器視覺技術(shù)對受到晚疫病害的馬鈴薯葉片特征信息進行提取,有效提高晚疫病的識別精度。上述研究主要利用機器學(xué)習(xí)模型提取病害特征信息,并成功用于患病植物的精確識別。然而,這些算法通常需要手動提取特征,這是一個操作困難且耗時的過程。此外,選擇的方法不同可能會決定所提取特征的質(zhì)量,這意味著在很大程度上依賴于所選的特征,這可能會影響分類性能。
隨著深度學(xué)習(xí)的研究發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(CNN)[6.7]算法不斷被應(yīng)用于各種蔬菜病害的檢測任務(wù),自動從圖像中學(xué)習(xí)和提取特征。這種方法不僅減少了手動特征提取的需求,而且能提高分類的準(zhǔn)確性和效率。然而,植物病害圖像中復(fù)雜的背景以及與病害無關(guān)特征都會對診斷結(jié)果產(chǎn)生負(fù)面影響,導(dǎo)致模型性能下降。為減輕背景對病害檢測的影響,文斌等[8根據(jù)YOLOv3結(jié)合注意力特征金字塔和雙瓶頸層對三七葉片進行病害檢測,復(fù)雜環(huán)境下也能有較強的魯棒性。Liang等9發(fā)現(xiàn)通過引人注意力機制,模型可以更加準(zhǔn)確地關(guān)注感興趣的區(qū)域,可以有效克服復(fù)雜背景干擾問題。Zhao等引人CBAM注意力模塊,更好地從復(fù)雜背景中捕捉草莓病害特征。然而,這些注意力機制只考慮通道或空間信息,未考慮遠(yuǎn)距離依賴信息。利用坐標(biāo)注意力結(jié)構(gòu)[11]、Transformer結(jié)構(gòu)[12],增強全局特征信息的提取,有效提取復(fù)雜環(huán)境下目標(biāo)病害特征,提升了目標(biāo)檢測精度。為解決小目標(biāo)病害檢測問題,通過構(gòu)建多特征融合網(wǎng)絡(luò)[13],更多地保留病害的特征信息,提高病害檢測精度。
上述研究在植物病害檢測取得良好效果,但在實際檢測過程中,復(fù)雜背景下的黃瓜葉片病害密集,葉片之間存在遮擋、重疊等情況,且不同的病害類別癥狀相似,容易出現(xiàn)病害漏檢和錯檢。現(xiàn)有的算法在特征融合階段和多注意力交互過程中會存在信息丟失問題,并且在提高檢測精度的同時極大地增加模型尺寸和檢測時間,難以得到大規(guī)模推廣應(yīng)用。
針對以上問題,本文以黃瓜葉片病害為主要研究對象,在YOLOX網(wǎng)絡(luò)模型的基礎(chǔ)上改進模型結(jié)構(gòu),從主干網(wǎng)絡(luò)、特征融合模塊、頭部損失函數(shù)3個方面探究改進模塊對黃瓜病害識別率的影響。
1數(shù)據(jù)采集與預(yù)處理
1.1 數(shù)據(jù)采集
黃瓜葉片常見的病害有霜霉病、細(xì)菌性角斑病等。為更好地進行病害檢測試驗,于北京市小湯山國家精準(zhǔn)農(nóng)業(yè)科研示范基地對患有霜霉病、細(xì)菌性角斑病以及無病害的黃瓜葉片進行多方位、多角度、多種距離拍攝,共采集7580張患病及無病害的黃瓜葉片圖像。由于黃瓜細(xì)菌角斑病和霜霉病葉片正面與背面的特征差異較大,因此,該數(shù)據(jù)集主要包含6個類別,分別為霜霉病葉片正面、細(xì)菌性角斑病葉片正面、健康葉片正面、霜霉病葉片背面、細(xì)菌性角斑病葉片背面、健康葉片背面。每個類別的樣本展示如圖1所示。
圖1部分?jǐn)?shù)據(jù)集展示Fig.1 Partial data set presentation
從圖1可以看出,患有霜霉病的葉片正面呈現(xiàn)多角形黃色霉菌斑點,背面呈現(xiàn)灰褐色霉層;患有細(xì)菌性角斑病的葉片正面呈現(xiàn)圓形或不規(guī)則形黃斑點,背面呈水漬狀小斑點。霜霉病和細(xì)菌性角斑病在發(fā)病前期特征較為接近,在自然環(huán)境拍攝中,圖像中包含雜草、土壤等背景復(fù)雜區(qū)域,存在病害密集和重疊現(xiàn)象,進一步增大檢測難度。
1.2 數(shù)據(jù)預(yù)處理
為提高黃瓜病害檢測算法的泛化能力,保證病害樣本圖像的多樣性,對采集到的黃瓜病害圖像進行數(shù)據(jù)增強操作,包括鏡像、旋轉(zhuǎn)、亮度調(diào)整等,如圖2所示,圖像增強前后病害樣本數(shù)量如表1所示。通過對采集到的黃瓜病害圖片進行整理和分類,使用LabelImg圖像標(biāo)注工具對圖像中的病害進行標(biāo)記,最后將黃瓜病害數(shù)據(jù)集按8:1:1的比例劃分為訓(xùn)練集、驗證集和測試集。
圖2黃瓜病害數(shù)據(jù)增強Fig.2 Enhancement of cucumber disease data
表1黃瓜葉片病害數(shù)據(jù)集構(gòu)成 Tab.1 Data set composition of cucumber leaf disease 張
2改進YOLOX的黃瓜病害檢測算法
針對黃瓜病害檢測中存在的背景復(fù)雜,葉片遮擋、重疊導(dǎo)致的漏檢和錯檢問題,在原YOLOX14模型的基礎(chǔ)上構(gòu)建FSA一EMAFPN—YOLOX黃瓜病害檢測算法。
為使特征提取網(wǎng)絡(luò)減少葉片遮擋、重疊對檢測影響,算法引入FasterNetBlock模塊來替換YOLOX中CSP網(wǎng)絡(luò)中部分殘差模塊殘差單元的卷積層。此外,為加強對黃瓜病害的特征提取能力,添加雙分支結(jié)構(gòu)注意力CloBlock,捕獲全局空間與局部特征信息,抑制背景噪聲,提高對密集病害的檢測精度。在特征融合模塊中,重新設(shè)計一種多尺度注意力自適應(yīng)空間融合的漸近特征金字塔網(wǎng)絡(luò)EMA一AFPN來替換原YOLOX的特征金字塔(FPN),進行淺、深層細(xì)節(jié)信息和高級語義信息的交互融合時,在自適應(yīng)融合時添加EMA注意力模塊,更多地保留黃瓜葉片邊緣特征,減少特征信息的損失。在回歸任務(wù)的損失函數(shù)中考慮真實方框和預(yù)測框的矢量角,重新定義角度懲罰指標(biāo),以提高模型的訓(xùn)練速度和檢測精度;在預(yù)測框判斷目標(biāo)時,引入VariFocalLoss作為置信度預(yù)測損失函數(shù),解決正負(fù)樣本分布不均衡問題,增加模型對正樣本目標(biāo)的學(xué)習(xí),更好地關(guān)注病害區(qū)域。
2.1FSA一EMAFPN一YOLOX網(wǎng)絡(luò)架構(gòu)
FSA一EMAFPN—YOLOX模型結(jié)構(gòu)如圖3所示,主要由Backbone、EMA一AFPN、Head組成。特征提取網(wǎng)絡(luò)Backbone包括Focus、Conv、CSP、CSP_Faster、CSP_Faster_Clo以及SPP結(jié)構(gòu)。其中Focus從圖片中每隔一個像素獲取4個獨立的特征層,將4個獨立的特征層進行堆疊;Conv包含1個卷積(Convolution)、1個BN(BatchNormalization)層和1個SiLU激活函數(shù)層;CSP由Conv以及一系列ResUnit殘差單元組成;CSP_Faster是將CSP網(wǎng)絡(luò)中部分殘差模塊殘差單元的卷積層替換為FasterNetBlock模塊;CSP_Faster_Clo是在主干網(wǎng)的末端,其提取的特征圖分辨率較低,包含更多的語義信息,通過添加Clo注意力可以在保留局部信息的同時捕獲全局信息和大量上下文信息;SPP為空間金字塔池化,采用3種不同大小的池化核進行最大池化,增大算法中輸入特征圖的感受野。
FSA—EMAFPN—YOLOX算法利用特征提取網(wǎng)絡(luò)獲取3個特征圖 {C1,C2,C3} ,將輸人的黃瓜病害圖片輸出到多尺度注意力自適應(yīng)空間融合的漸近特征金字塔網(wǎng)絡(luò)EMA一AFPN中。
在多尺度注意力自適應(yīng)空間融合的漸近特征金字塔網(wǎng)絡(luò)EMA一AFPN中,將相鄰的特征進行融合,減少語義差距。使用 1×1 卷積和雙線性插值方法對特征進行上采樣,使用不同的卷積核和步長執(zhí)行下采樣。EMA—ASFF是在特征融合過程中利用ASFF為不同層級的特征分配不同的空間權(quán)重,添加EMA注意力,解決不同特征尺度之間的不一致性。通過保存另一個空間方向的精確位置信息,從而提高注意力生成特征的尺度不變性,增強關(guān)鍵層級的重要性,減輕來自不同黃瓜葉片密集病害的目標(biāo)下特征信息的丟失,增強FSA—EMAFPN—YOLOX算法多尺度特征融合能力。Head層經(jīng)過EMA一AFPN對 {C1,C2,C3} 特征進行上、下采樣后的多尺度特征融合,輸出 {P1,P2,P3} 進入3個YOLOHead檢測頭。每個檢測頭包含回歸參數(shù)、判斷物體的置信度參數(shù)和類別參數(shù)。通過這些參數(shù),F(xiàn)SA—EMAFPN—YOLOX算法生成最終預(yù)測框。
2.2 改進主干網(wǎng)絡(luò)
一般情況下,在特征提取的過程中,由于光照、拍攝角度不同,采集的黃瓜葉片圖像背景復(fù)雜程度不同,葉片之間存在重疊、遮擋問題,為病害精準(zhǔn)識別帶來困難。原YOLOX的CSP模塊起重要作用,但是由于CSP結(jié)構(gòu)中包含多個卷積層,需要進行大量的卷積計算,因而在資源受限的環(huán)境中,模型的推理速度會受到影響。
因此,引入FasterNetBlock[15]對模型中CSP模塊進行改進,將CSP結(jié)構(gòu)中的殘差單元的卷積層替換為FasterNetBlock,從而得到CSP_Faster模塊,結(jié)構(gòu)如圖4所示。同時,將改進后的CSP_Faster模塊分別替換主干網(wǎng)絡(luò)中自下而上路徑中的3個CSP模塊。
圖4CSP_Faster模塊Fig.4 CSP_Fastermodule
改進后的CSP_Faster模塊可以降低模型的計算負(fù)載,解決CSP結(jié)構(gòu)計算不足問題。此外,F(xiàn)asterNetBlock中的Partial卷積(PConv)通過減少冗余計算和內(nèi)存訪問,可以更有效地提取空間特征,利用特征圖中的冗余,并系統(tǒng)地僅在部分輸入通道上應(yīng)用卷積,而不會影響其余通道,而且當(dāng)Partial卷積在處理一個卷積窗口時,對于那些缺失或者無效的數(shù)據(jù)點,Partial卷積不會對其進行卷積計算,這就導(dǎo)致卷積核的實際作用區(qū)域與卷積窗口內(nèi)數(shù)據(jù)的完整性和分布情況有關(guān)。通過這種方式,Partial卷積能夠有效地提取和利用剩余的有效信息,從而能夠較好地處理遮擋和缺失的圖像問題,進一步提高模型的效率和性能。
2.3雙分支結(jié)構(gòu)注意力
在自然環(huán)境下采集的圖像中包含雜草、土壤等復(fù)雜背景,為增強模型對病害的特征提取能力,使用雙分支注意力CloBlock[16]增加網(wǎng)絡(luò)對目標(biāo)特征的關(guān)注程度,通過對全局和局部雙分支注意力交互操作,使得每個位置的特征可以與這個特征圖進行交互。這樣,每個位置都可以感知到全局特征信息,從而能夠從大鄰域中收集相關(guān)特征。同時,利用共享權(quán)重和上下文感知權(quán)重,將當(dāng)前位置的特征與其周圍的特征進行建模,可以幫助模型捕捉更加豐富的上下文信息,即當(dāng)前位置特征與其周圍位置之間的關(guān)系,模型可以更好地關(guān)聯(lián)和整合大鄰域的特征。
如圖5所示,全局分支中,首先對 K 和 V 進行下采樣,然后對 Q,K 和 V 進行標(biāo)準(zhǔn)的注意力操作,以捕捉全局信息,具體如式(1)所示。
Xglobal=Attention(Qg,Pool(Kg),Pool(Vg)) (1)
式中: Qg,Kg,Vg —全局分支下的查詢向量 Q 、鍵向量 K 和值向量 V :
Xglobal CloBlock注意力的全局信息。
局部分支結(jié)合自注意力機制和卷積運算模塊,先應(yīng)用線性變換輸入特征獲得 Q,K 和 V ,如式(2)所示。其中 V 通過深度卷積的共享權(quán)重 Vs 如式(3)所示,使用上下文感知權(quán)重來增強局部特征,有效地融合共享權(quán)重和上下文感知權(quán)重,以聚合高頻的局部信息。同時,將卷積應(yīng)用于 Q 和 K 以聚合局部信息,然后計算Q 和 K 的矩陣乘積并對結(jié)果進行非線性變換,生成[一1,1]的上下文感知權(quán)重,如式(4)所示。
式中: Xin 輸入的特征向量;
——向量 Q 鍵向量 K 和值向量 V 分別與深度可分離卷積聚合的局部信息;
d —token的通道數(shù)量;
Xlocal? ——Clo Block 注意力的局部信息。
圖5CloBlock模塊Fig.5Clo Blockmodule
添加雙分支結(jié)構(gòu)注意力,在多個尺度上提取特征時能夠捕捉病害全局空間和局部特征信息,從而更好地對黃瓜病害目標(biāo)上下文建模,增加骨干網(wǎng)絡(luò)的感受野,為特征融合網(wǎng)絡(luò)提供更多不同尺度的空間和語義信息,進一步提高模型的表達能力。
2.4注意力改進的漸近特征金字塔網(wǎng)絡(luò)
在特征融合階段,原YOLOX算法采用經(jīng)典的自上而下和自下而上的特征金字塔網(wǎng)絡(luò),金字塔頂部的高層級特征需要通過多個中間尺度傳播,并在與底部的低層級特征融合之前與這些尺度的特征相互作用,在這個過程中,來自高層級特征的語義信息可能會丟失。金字塔底層的低層級特征與高層級特征融合交互過程中,來自低層級特征的詳細(xì)信息丟失,從而減少對黃瓜葉片淺層邊緣小目標(biāo)和區(qū)域密集目標(biāo)的特征描述,導(dǎo)致模型特征融合不充分。針對上述問題,在特征融合階段重新設(shè)計一種多尺度注意力自適應(yīng)空間融合的漸近特征金字塔網(wǎng)絡(luò)EMA一AFPN,如圖6所示。
在特征融合過程中,采用一種漸近特征金字塔網(wǎng)絡(luò)(AFPN)[17]。為解決主干網(wǎng)絡(luò)所提取的3種不同特征尺度之間的不一致性,減少特征融合過程中的信息損失。利用注意力機制改進ASFF[18]策略來進行特征融合,通過EMA[19注意力模塊,模型可以自適應(yīng)地調(diào)整融合高低層級特征空間權(quán)重,不降低通道維度的情況下,每個子網(wǎng)絡(luò)可以進行局部的跨通道交互以及融合子網(wǎng)絡(luò)的輸出特征圖,為高級特征圖產(chǎn)生更好的像素級關(guān)注,有效減少特征融合過程中的信息丟失。
EMA注意力利用3條平行路線來提取分組特征圖的注意力權(quán)重描述符,如圖7所示。
注: c 表示通道數(shù),描述特征圖的通道維度; H 表示輸入圖像的高; W 表示輸入圖像的寬; G 表示分組數(shù)。
首先,對于任何給定的輸入特征圖X∈RC×H×W,EMA將 X 劃分為跨通道維度方向的 G 個子特征,則X=[X0,Xi,…XG-1] ,以學(xué)習(xí)不同的語義。利用 (1,W) (H,1) 的池化核將特征圖分割并壓縮,產(chǎn)生2個獨立方向感知注意力特征圖,使用共享的 1×1 卷積將拼接帶有方向的特征圖生成維度不變的特征圖。然后,采用2個非線性的激活函數(shù)將特征圖在水平和垂直的向量擬合線性卷積,再聚合每一組內(nèi)的2個通道級注意映射,實現(xiàn)2條平行路由之間不同的跨通道交互特征。通過3×3 卷積捕獲局部跨通道交互,以擴大特征空間。為在不同空間維度上實現(xiàn)更豐富的特征聚合,采用跨空間信息聚合方法,利用二維全局平均池對3條平行路線輸出中的全局空間信息進行編碼,將最小分支的輸出直接在通道特征經(jīng)過共有的激活函數(shù)之前轉(zhuǎn)換為對應(yīng)的維數(shù)形狀。最后,將每一組內(nèi)輸出特征圖被計算生成的空間注意權(quán)重值聚合,經(jīng)過激活函數(shù)捕獲像素的成對關(guān)系,并突出顯示所有像素的全局上下文。
2.5邊界框回歸損失函數(shù)
YOLOX使用IoU損失[20]作為邊界框回歸損失函數(shù),如式(5)所示。
式中: LIoU 一YOLOX網(wǎng)絡(luò)損失計算結(jié)果;
b —真實框;
bgt 二 預(yù)測框。
IoU 主要計算2個邊界框之間的交并比,但是在模型的初始訓(xùn)練階段,大多數(shù)的預(yù)測框與真實框是不相交的,真實框和預(yù)測框的比值為1,梯度為0,無法優(yōu)化參數(shù),而且由于未考慮真實框和預(yù)測框之間不匹配的方向問題,預(yù)測框可能會在訓(xùn)練過程中不斷地在周圍移動,生成更差的模型。這種情況下,模型很難正確學(xué)習(xí)到準(zhǔn)確的目標(biāo)位置,SIoU損失函數(shù)21]可以有效解決上述問題,充分考慮到期望回歸之間向量的角度,即重新定義角度懲罰度量,通過添加的角度損失有效減少損失的總自由度,讓預(yù)測框更快地移動到最近的軸,提高訓(xùn)練的速度和推理的準(zhǔn)確性。SIoU損失函數(shù)由IoU損失、角度損失、距離損失和形狀損失4個部分組成。角度損失、距離損失和形狀損失計算如式(6)~式(8)所示。
其中
式中:
一 一角度損失值;
σ —真實框和預(yù)測框中心點的距離; 中 一真實框和預(yù)測框最小外接矩形的寬和高;
一 -距離損失值;γ——距離值;(204號 (bcxgt,bcygt) 一真實邊界框的中心點坐標(biāo);(bcx,bcy) ——預(yù)測邊界框的中心點坐標(biāo);
——形狀損失值;w,h ——真實框?qū)捄透撸?img alt="" src="https://cimg.fx361.com/images/2025/0820/ipx6o3TXVt2CSQwXQLn32V.webp"/> —預(yù)測框的寬和高;θ? ——控制對形狀損失的關(guān)注程度。
最終損失函數(shù)SIoU定義如式(9)所示。
(9)
式中: LSIoU 改進YOLOX模型的損失計算結(jié)果。
2.6 VariFocalLoss
正確使用損失函數(shù)可以幫助提高模型的訓(xùn)練效果,原YOLOX模型直接對正負(fù)樣本不平衡的錨框進行分類時,使用交叉熵?fù)p失函數(shù)[22]計算置信度損失。然而,黃瓜葉片病害檢測中,由于復(fù)雜背景的影響,正負(fù)樣本分布不均衡,模型在訓(xùn)練時偏向背景特征,從而降低對目標(biāo)的關(guān)注度,使模型無法充分捕捉到所有類別的特征,檢測精度低。因此,將置信度預(yù)測損失函數(shù)替換為VariFocalLoss[23],如式(1O)所示,通過 因子縮放損失,對于難分類的樣本, ?γ 因子會增大其權(quán)重,使模型更加關(guān)注這些樣本,減少模型在訓(xùn)練中背景特征的權(quán)重,從而提升黃瓜葉片病害檢測準(zhǔn)確率。
式中: P 預(yù)測分類得分;
q (2 目標(biāo)分?jǐn)?shù);
α 比例因子;
(204 ?γ 一 縮放因子。
3 試驗研究
3.1 試驗設(shè)置
試驗在Ubuntu18.04操作系統(tǒng)下完成,服務(wù)器的CPU型號為Intel(R)Core(TM)i9—9820XCPU @ 3.30GHz ,GPU型號為GeForceRTX2080Ti,顯存為11GB,4顯卡并行訓(xùn)練,并通過CUDA10.2對GPU進行加速。
3.2 評價指標(biāo)
為驗證FSA—EMAFPN—YOLOX模型的有效性,試驗使用參數(shù)量(Params)評估模型的大小,平均精度均值 (mAP) 、目標(biāo)召回率 (R) 和檢測速度 (FPS) 評估模型的檢測性能, mAP 和 R 計算如式 (11)~ 式(13)所示。
式中: AP 平均精度;TP 正確檢測的黃瓜病害數(shù)量;FP 錯誤檢測病害的數(shù)量;FN (2號 漏檢的病害數(shù)量;i 病害種類;N? 一黃瓜病害的種類總數(shù)。
3.3 模型訓(xùn)練
每個模型訓(xùn)練的Epoch設(shè)置為20O輪,其中前50輪為凍結(jié)訓(xùn)練,即只進行前向推理,對模型進行微調(diào),在訓(xùn)練的初期,由于凍結(jié)主干網(wǎng)絡(luò)參數(shù),模型可學(xué)習(xí)參數(shù)較少,學(xué)習(xí)效果較差,損失函數(shù)較大。后150輪為解凍訓(xùn)練,隨著模型訓(xùn)練進入解凍訓(xùn)練,主干網(wǎng)絡(luò)參數(shù)被激活,對網(wǎng)絡(luò)的所有參數(shù)進行調(diào)整,學(xué)習(xí)效果好。優(yōu)化器使用隨機梯度下降法(SGD),初始學(xué)習(xí)率為0.01,動量為0.937,并采用余弦退火學(xué)習(xí)策略,動態(tài)調(diào)整學(xué)習(xí)率。模型訓(xùn)練過程的Loss曲線如圖8所示。隨著訓(xùn)練次數(shù)不斷增加,模型逐漸趨向收斂。相比于原模型的Loss曲線,改進后的模型收斂速度更快,改進前與改進后模型損失分別在損失值為1.59和3.10時收斂,表明所提出的損失函數(shù)及參數(shù)設(shè)置合理,在復(fù)雜場景下,有效提升模型的訓(xùn)練速度和對病害的識別精度。
圖8損失曲線Fig. 8 Loss curve
3.4 消融實驗
在自制的黃瓜病害數(shù)據(jù)集上對不同改進模塊進行訓(xùn)練和評估,不同改進模塊對原YOLOX模型的影響如表2所示。
表2不同改進模塊的消融實驗Tab.2Ablation experimentswithdifferent improvementmodule
實驗1表示原模型(YOLOX),未對模型優(yōu)化。實驗2表示在主干網(wǎng)絡(luò)中引人FasterNetBlock模塊進行特征提取。實驗3表示在特征提取網(wǎng)絡(luò)中添加雙分支機構(gòu)的CloBlock注意力。實驗4表示在頸部網(wǎng)絡(luò)采用設(shè)計的注意力改進的漸近特征金字塔網(wǎng)絡(luò)替換原來的特征金字塔網(wǎng)絡(luò)。實驗5表示分別使用SIoU和VariFocalLoss損失函數(shù)替換原來的邊界框回歸損失函數(shù)和分類置信度損失函數(shù)。實驗6表示在基礎(chǔ)模型網(wǎng)絡(luò)中添加上述所有改進方法。
對改進策略進行試驗分析,可以看出,加入不同改進模塊使原模型的識別精度均有提高。主干網(wǎng)絡(luò)分別使用FasterNetBlock 和Clo Block 模塊, mAP 分別提高 0.37%.0.66% ,召回率分別提高 0.22%.1.02% ,加入FasterNetBlock使得參數(shù)量降低 6.8M,F(xiàn)PS 提高
6f/s ,這表明在減少模型參數(shù)量的同時有效提高模型對目標(biāo)的感受野,并且雙分支結(jié)構(gòu)的CloBlock注意力捕獲全局和局部特征信息,增加對目標(biāo)邊緣信息的特征提取能力。在頸部網(wǎng)絡(luò)使用EMA一AFPN模塊后, mAP 提高 1.88% ,召回率提高 2.76% ,這表明改進模塊在一定程度上改善原模型特征融合不充分的問題,在多尺度特征信息進行融合時,保留更多的淺層細(xì)節(jié)特征和深層語義特征信息,從而顯著提升模型的整體性能。替換頭部損失函數(shù)后,使用SIoU損失函數(shù)對回歸任務(wù)進行優(yōu)化,并將VariFocalLoss作為置信度預(yù)測函數(shù),平均精度均值提高0.92% ,召回率提高 1.78% ,這表明模型提升預(yù)測框的定位準(zhǔn)確率和增加對前景正樣本目標(biāo)的學(xué)習(xí),減少復(fù)雜背景對正樣本的檢測干擾,幫助模型更好地處理難以分類的樣本,并提高模型在目標(biāo)檢測任務(wù)中的性能。
3.5 對比試驗
為進一步驗證FSA—EMAFPN—YOLOX模型的有效性,比較不同高性能模型在病害檢測的準(zhǔn)確性,評估不同版本YOLO的在病害檢測任務(wù)上的性能,分別與FasterR—CNN、SSD、YOLOv3、YOLOv5以及YOLOv7進行對比,結(jié)果如表3所示。
表3不同高性能模型病害檢測結(jié)果對比試驗 Tab.3 Comparative experiments on disease detection results of different high performance models
由表3可知,F(xiàn)SA一EMAFPN—YOLOX算法平均精度均值為 95.81% ,檢測速度為 76f/s ,相比于FasterR—CNN、SSD、YOLOv3、YOLOv5、YOLOv7,F(xiàn)SA一EMAFPN—YOLOX算法的平均精度均值分別提高 6.95%.9.03%.8.63%.5.44%.2.85% ,并且在檢測速度方面也分別高出 58f/s,48f/s,25f/s8f/s,12f/s 。基于YOLOX提出的改進算法具有更高的檢測精度和檢測速度,相比主流網(wǎng)絡(luò)模型仍具備較高的識別率和檢測實時性。部署到移動端,更能滿足黃瓜病害檢測的需求。
3.6 模型檢測效果
圖9為原模型與改進模型在黃瓜病害檢測效果對比。圖9(a)中,隨機在黃瓜病害測試數(shù)據(jù)集中選取背景復(fù)雜度較低的圖片,可以發(fā)現(xiàn),改進后的模型檢測出細(xì)菌性角斑病的置信度為 99% ,高于原模型的 93% ,霜霉病置信度分別為 94%.92% ,高于原模型的87%.78% ,表明改進后模型檢測學(xué)習(xí)病害特征的語義信息更多,從而驗證檢測模型的特征提取模塊和多尺度漸近特征融合模塊更加優(yōu)秀。圖9(b)為黃瓜葉片在互相遮擋時存在病害重疊的情況,原模型在檢測重疊病害時會出現(xiàn)漏檢情況,而改進模型則明顯減少重疊病害的漏檢率,說明引入多注意力機制可以顯著增加模型對病害的關(guān)注度。圖9(c)為密集病害中存在小目標(biāo)病害和邊緣病害目標(biāo),原模型檢測時會出現(xiàn)漏檢和錯檢情況,而改進后的模型能將錯檢和漏檢的小目標(biāo)準(zhǔn)確識別,具有更強的檢測性能。提出的改進模型顯著提高原模型對病害的檢測性能,并且在密集目標(biāo)場景以及重疊目標(biāo)場景下具有更好的識別率。
圖9模型檢測效果展示
Fig.9Model detection effect display
4結(jié)論
針對自然環(huán)境下黃瓜病害檢測中存在的病害圖像背景復(fù)雜和病害密集且重疊問題,提出多尺度注意力特征漸近融合算法FSA—EMAFPN—YOLOX,通過試驗驗證所提算法的有效性。
1)為減少冗余計算和內(nèi)存訪問,能夠較好地處理葉片遮擋和缺失的圖像問題,在原YOLOX算法的CSP模塊引人特征提取速度更快的FasterNetBlock模塊,用于替換殘差單元的卷積層。
2)添加雙分支結(jié)構(gòu)注意力,增強模型對全局和局部特征的表達能力,減少雜草、土壤等復(fù)雜背景對病害檢測的干擾,提高模型對密集病害的檢測精度。
3)在特征融合階段重新設(shè)計一種注意力改進漸近特征金字塔網(wǎng)絡(luò)EMA一AFPN,提高不同層間特征信息的利用率,減少信息損失,增加邊緣目標(biāo)的細(xì)節(jié)信息。
4)使用SIoU改進定位損失函數(shù),VarFocalLoss置信度損失函數(shù)降低模型對背景無用信息的學(xué)習(xí),提升目標(biāo)的檢測率和模型收斂速度。試驗結(jié)果表明,F(xiàn)SA一EMAFPN—YOLOX算法的平均精度均值為95.81% ,召回率為 90.09% 。相較于原YOLOX算法,F(xiàn)SA一EMAFPN—YOLOX算法的平均精度均值提高 4.89% ,召回率提高 6.53% ;相比于YOLOv5、YOLOv7網(wǎng)絡(luò)模型,平均精度均值分別提升 5.44% 、2.85% ,檢測速度分別提高 8f/s,12f/s ,表明在自然環(huán)境下的黃瓜病害檢測中,F(xiàn)SA一EMAFPN—YOLOX算法具有更高的檢測精度,能夠有效對復(fù)雜背景下的黃瓜病害進行識別,可以滿足實時檢測需求。
試驗還存在一定改進空間,數(shù)據(jù)集中黃瓜病害種類較少,模型參數(shù)依然存在優(yōu)化空間。在今后的工作中,需要增加病害種類來完善黃瓜病害數(shù)據(jù)集,提高病害識別的適用性。研究如何利用剪枝壓縮FSA一EMAFPN一YOLOX算法,減少模型參數(shù),并將其部署在實際的設(shè)施黃瓜場景中進行病害檢測。
參考文獻
[1]Mutka A M,Bart R S. Image-based phenotyping of plant disease symptoms[J].Frontiers in Plant Science,2015, 5: 734.
[2]呂盛坪,李燈輝,洗榮亨.深度學(xué)習(xí)在我國農(nóng)業(yè)中的應(yīng)用 研究現(xiàn)狀[J].計算機工程與應(yīng)用,2019,55(20): 24—33,51.
[3]張建華,孔繁濤,李哲敏,等.基于最優(yōu)二叉樹支持向量 機的蜜柚葉部病害識別[J].農(nóng)業(yè)工程學(xué)報,2014, 30(19):222—231. Zhang Jianhua,Kong Fantao,Li Zhemin, etal. Recognition of honey pomelo leaf diseases based on optimal binary tree support vector machine[J]. Transactions of the Chinese Society of Agricultural Engineering,2014, 30(19):222-231.
[4]馬浚誠,溫皓杰,李鑫星,等.基于圖像處理的溫室黃瓜 霜霉病診斷系統(tǒng)[J].農(nóng)業(yè)機械學(xué)報,2017,48(2): 195—202. Ma Juncheng,Wen Haojie,Li Xinxing,et al. Downy mildew diagnosissystem for greenhouse cucumbers based onimage processing [J].Transactions of the Chinese Society for Agricultural Machinery, 2Ol7, 48(2): 195-202.
[5]黨滿意,孟慶魁,谷芳,等.基于機器視覺的馬鈴薯晚疫 病快速識別[J].農(nóng)業(yè)工程學(xué)報,2020,36(2):193—200. Dang Manyi,Meng Qingkui,Gu Fang,et al. Rapid recognition ofpotato late blight basedon machine vision[J].Transactions of the Chinese Society of Agricultural Engineering,2020,36(2):193-200.
[6]吳華瑞.基于深度殘差網(wǎng)絡(luò)的番茄葉片病害識別方 法[J].智慧農(nóng)業(yè),2019,1(4):42—49.
[7]Liu C,Zhu H,Guo W,et al.EFDet:An efficient detection method for cucumber disease under natural complex environments [J]. Computers and Electronics in Agriculture,2021,189:106378.
[8]文斌,曹仁軒,楊啟良,等.改進YOLOv3算法檢測三七 葉片病害[J].農(nóng)業(yè)工程學(xué)報,2022,38(3):164—172. Wen Bin,Cao Renxuan, Yang Qiliang,et al. Detecting leaf disease for Panax notoginseng using an improved YOLOv3 algorithm [J].Transactions of the Chinese Society of Agricultural Engineering,2022,38(3):164—172.
[9]Liang Z,Chen G,Li Z,et al. Event-based object detection with lightweight spatial attention mechanism[C]. IEEE International Conference on AdvancedRoboticsand Mechatronics(ICARM). IEEE,2021:498-503.
[10] Zhao S,Liu J,Wu S. Multiple disease detection method for greenhouse-cultivated strawberry based on multiscale feature fusion Faster R—CNN[J]. Computers and Electronics in Agriculture,2022,199:107176.
[11] Li S, Zhang S, Xue J, et al. Lightweight target detection for the field flat jujube based on improved YOLOv5[J]. Computers and Electronics in Agriculture,2O22,202: 107391.
[12]Li X,Chen X,Yang J,et al. Transformer helps identify kiwifruit diseases in complex natural environments [J]. Computers and Electronics in Agriculture,2O22,200: 107258.
[13] ZhangK,Wu Q,Chen Y.Detecting soybean leaf disease from synthetic image using multi-feature fusion Faster RCNN [J]. Computers and Electronics in Agriculture, 2021,183:106064.
[14] Ge Z,Liu S,Wang F,et al. YOLOX: Exceeding YOLO Series in 2021[J].arXiv preprint arXiv:2107.08430, 2021.
[15] Chen J,Kao S,He H,et al. Run,don't walk:Chasing higherFLOPSforfasterneuralnetworks[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 12021—12031.
[16]Fan Q,Huang H,Guan J,et al.Rethinking local perception in lightweight vision transformer [J].a(chǎn)rXiv preprint arXiv:2303.17803,2023.
[17]Yang G,Lei J, Zhu Z,et al. AFPN:Asymptotic feature pyramidnetwork forobject detection [C].IEEE InternationalConferenceonSystems,Man,and Cybernetics(SMC). IEEE,2023: 2184—2189.
[18]Liu S,Huang D,WangY. Learning spatial fusionfor single-shot object detection [J]. arXiv preprint arXiv: 1911.09516,2019.
[19]Ouyang D,He S,Zhang G,et al. Eficient multi-scale attention module with cross-spatial learning [C]. ICASSP 2023—2023 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP). IEEE,2023: 1-5.
[20]Zheng Z,Wang P,Liu W,et al.Distance—IoU loss: Fasterandbetterlearningforboundingbox regression [C]. Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(7):12993—13000.
[21]Gevorgyan Z. SIoU loss:More powerful learning for bounding box regression[J].arXiv preprint arXiv:2205. 12740,2022.
[22] Wang Y,Ma X, Chen Z, et al. Symmetric cross entropyforrobust learning with noisy labels[C].Proceedings ofthe IEEE/CVF International Conference on ComputerVision,2019:322-330.
[23]Li C,Cao Y,Peng Y. Research on automatic drivingtarget detection based on YOLOv5s [C].Journal ofPhysics:Conference Series.IOP Publishing,2022,2171(1):012047.