中圖分類號:S126;TP391.41 文獻標志碼:A 文章編號:1002-1302(2025)10-0222-11
番茄與水稻是世界上重要的經(jīng)濟作物和糧食作物,因其豐富的營養(yǎng)價值受到人們的喜愛。番茄外觀各異,有圓形、橢圓形、扁圓形等多個品種。成熟的番茄有紅色、黃色和橙色等顏色,口感酸甜,含有豐富的維生素C等營養(yǎng)物質(zhì),有助于增強人的免疫力、促進消化和維持心血管健康。水稻是世界上最重要的糧食作物之一,是人們主要的食物來源,其種植歷史悠久,最初起源于亞洲地區(qū),主要生長在溫暖而潮濕的地區(qū)。新疆伊犁地區(qū)廣泛種植番茄和水稻,但是,由于近年來番茄和水稻頻繁地遭遇病蟲害的影響,導致其產(chǎn)量下降,給農(nóng)業(yè)生產(chǎn)帶來了極大的損失。因此,保障蕃茄和水稻的健康成長顯得極為重要,通常番茄和水稻植株的病狀首先顯現(xiàn)在葉片上,因此,及時準確地在早期就檢測出是哪種疾病非常重要。在過去,人們主要依靠農(nóng)民的個人經(jīng)驗來判斷,但是,這種方法效率低、受主觀影響大。隨著深度學習技術(shù)的應(yīng)用,現(xiàn)代農(nóng)業(yè)呈飛躍式發(fā)展。
近年來,科學研究者對農(nóng)作物病害檢測做出了深入的研究。孫哲等提出了基于FasterR-CNN模型的農(nóng)作物檢測方法,其平均精度達到了91.73%[1-2] 。張領(lǐng)先等提出了基于OpenCV 的番茄葉片自動標注算法和改進YOLOv5的番茄病害檢測模型,結(jié)合自動訓練和評估的同時引人專家審查校正機制提高了模型的性能和可靠性[3]。劉天真等提出基于改進YOLO v4 的果實分類識別模型,通過采用經(jīng)過優(yōu)化的CSP結(jié)構(gòu)結(jié)合CBAM卷積注意力機制增強了模型的特征提取能力,這一改進有效降低了果實分類過程中的誤判率;研究還引入Softmax交叉熵損失函數(shù)取代傳統(tǒng)的Sigmoid二元交叉熵損失函數(shù),同時采用EIoU損失函數(shù)替換CIoU損失函數(shù)以用于邊界框回歸損失,這些改進不僅減少了分類中的誤判,還提高了預測框的定位精度,試驗得出改進后的模型查準率均值達到81.86% 4]。馬曉等提出基于改進ConvNext玉米葉片病害分類模型,通過隨機遮擋等方法增加了病害數(shù)據(jù)集的多樣性,該方法提高了模型在面對干擾時的性能且提高了模型的魯棒性,改進后的方法平均分類準確率達到了 91.77%[5] 。Ebrahimi 等通過將圖像處理技術(shù)與支持向量機結(jié)合起來檢測可能存在于植物中的寄生蟲,結(jié)果表明,平均誤差小于2.25% [6]。Yan 等提出了一種基于VGG16 的改進模型來檢測蘋果病害類型,通過使用全局平均池化層替代全連接層以減少參數(shù)數(shù)量,同時采用遷移學習策略以避免長時間訓練,結(jié)果表明,模型參數(shù)減少 89% ,識別準確率提高 6.3% ,訓練時間減少0.56%[7] 。Yang 等提出 K 均值聚類分割,技術(shù)對病變區(qū)域進行分割然后對特征向量進行主成分分析,結(jié)果表明,識別準確率達到 93.3%[8] 。姜國權(quán)等采用在YOLOv5模型第17層之后對特征圖進行上采樣,在第20層將網(wǎng)絡(luò)提取到的特征圖與Backbone網(wǎng)絡(luò)中的第2層特征圖進行融合操作,檢測準確率達到 。王鵬新等通過結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和Transformer網(wǎng)絡(luò)各自的優(yōu)勢構(gòu)建了CNN-Transformer模型來估測關(guān)中平原冬小麥產(chǎn)量,試驗結(jié)果表明,該方法有更高的估測精度[0]
農(nóng)作物植株病害檢測是計算機視覺研究領(lǐng)域中一個重要的研究方向,眾多學者已在此領(lǐng)域深耕多年,但是在實際應(yīng)用中仍面臨一些挑戰(zhàn),如模型在空間上信息交流不足、局部特征檢測不足和背景噪聲導致的低分類準確性。因此,本研究旨在提出一種方法應(yīng)用感受野增強模塊、頻域?qū)?、CutMix數(shù)據(jù)增強算法、高斯濾波和邊緣檢測等技術(shù),然后使用SwinTransformer模型來實現(xiàn)植株病害檢測。在這項研究中,深度學習、感受野增強模塊、頻域?qū)雍蛨D像處理技術(shù)應(yīng)用于植株病害檢測,能夠取得較高的分類準確率,并具有良好的實際應(yīng)用潛力。
1模型的構(gòu)建
1.1模型基本原理
VisionTransformer(ViT)通過借鑒CNN模型中一些優(yōu)秀的架構(gòu)設(shè)計,在圖像分類任務(wù)中展現(xiàn)了優(yōu)秀的性能[11-12]。Swin Transformer 是對 ViT模型的改進和優(yōu)化,其設(shè)計了滑動窗口的方法,讓模型能夠?qū)W習到不同窗口的信息,在節(jié)省計算量的同時能夠關(guān)注全局和局部的信息,SwinTransformer網(wǎng)絡(luò)架構(gòu)如圖1所示[13]
SwinTransformer與卷積神經(jīng)網(wǎng)絡(luò)采用類似的層次化結(jié)構(gòu),對圖像進行4倍下采樣和8倍下采樣等,模型將特征圖劃分為幾個不相交的窗口,且Multi-HeadSelf-Attention(MSA)只在窗口中進行,相較于ViT模型SwinTransformer可以大大降低計算量。該方法雖然可以降低計算量,但是也會隔絕不同窗口之間的信息傳遞,因此,提出ShiftedWindowsMulti-Head Self-Attention(SW-MSA)的方法來解決信息不能跨窗口傳遞的問題。
植物病害圖像輸入到區(qū)塊分割模塊中分為不同的塊,每 4×4 相鄰的像素為1個Patch。輸入為RGB圖片則每個Patch就有16個像素,每個像素有R,G,B 共3個值,則展平后為48。通過區(qū)塊分割模塊后植物病害圖像由 [H,W,3] 變?yōu)? 之后,通過線性嵌入模塊對每個像素做線性變換,則植物病害圖像由
效
之后,通過4個階段構(gòu)建不同大小的特征圖,最后通過LayerNorm層、全局池化層以及全連接層得到最終分類結(jié)果。
SwinTransformerBlocks引入W-MSA模塊和SW-MSA模塊來減少計算量,與傳統(tǒng)的MSA模塊相比,計算量之差如公式(1)和(2)所示。
式中: h 表示特征圖的高度; w 表示特征圖的寬度; C (9)所示。
表示特征圖的深度; M 代表每個窗口的大小。
1.2 CutMix算法
深度學習網(wǎng)絡(luò)在許多分類檢測任務(wù)中表現(xiàn)優(yōu)秀,但是深度學習網(wǎng)絡(luò)需要大量的訓練數(shù)據(jù)才能夠避免網(wǎng)絡(luò)過擬合。在許多場景中獲取這些訓練數(shù)據(jù)是異常困難的,例如獲得大量病害植株需要動用大量的人力物力來標注,數(shù)據(jù)增強的存在就是為了解決這個問題,數(shù)據(jù)增強技術(shù)可以提高訓練數(shù)據(jù)的大小和質(zhì)量。傳統(tǒng)的數(shù)據(jù)增強方式包括幾何變換、顏色變換、旋轉(zhuǎn)、反射變換、加入噪聲、混合圖像、移動、縮放變換和翻轉(zhuǎn)變換等等,然而這些方法往往不能充分提取圖像的局部特征和全局信息,從而導致模型性能下降。因此,本研究使用CutMix數(shù)據(jù)增強技術(shù),CutMix的原理:(1)在2張隨機選取的圖像中剪切1個矩形區(qū)域并交換剪切區(qū)域生成新的訓練數(shù)據(jù);(2)將2張原始圖像的標簽按照矩形剪切區(qū)域的面積加權(quán)平均來分配[14]。具體如公式(3)和公式(4)所示。
式中: xA 和 xB 是2個不同的訓練樣本; yA 和 yB 是對應(yīng)的標簽; M∈{0,1}H×W ,為一個二進制的掩碼; ? 為逐像素相乘; λ~β(α,α) , α=1 。
為了對二進制掩碼進行采樣,本研究首先對邊界框 B=(rx,ry,rw,rh) 采樣,表示 xA 和 xB 上的裁剪區(qū)域。掩碼 M 的橫縱與原始圖像成比例,邊界框采樣公式如公式(5)公式(6)所示。
1.3 邊緣檢測
本研究使用高斯濾波技術(shù)對圖像進行平滑處理,該技術(shù)通過對圖像進行加權(quán)平均,每個像素點的值都是本身和相鄰像素經(jīng)過加權(quán)平均得到的,由此來減少噪聲。高斯濾波公式如公式(7)所示。
式中: x 和 y 是相對中心的偏移量; μ 和 v 是高斯函數(shù)的中心位置; σ 控制高斯分布寬度即模糊程度
在邊緣檢測中,邊緣的方向和梯度的方向相互垂直,邊緣檢測算子返回水平方向的 Gx 和垂直方向的 Gy 。梯度的幅度 G 和方向 θ 如公式(8)公式
獲得圖像梯度的幅度和方向后,本研究通過梯度的幅度和方向?qū)D像邊緣進行非極大值抑制來去除大部分的非邊緣點。由于植物病害圖像有很多的噪聲,導致完成非極大值抑制后的圖像中同時存在強邊緣和弱邊緣,弱邊緣可能是真實圖像邊緣產(chǎn)生的也有可能是噪聲產(chǎn)生的,如高斯噪聲、泊松噪聲和椒鹽噪聲等。為了有效屏蔽噪聲產(chǎn)生的弱邊緣對真實邊緣的影響,本研究設(shè)置了2個閾值,一個為高閾值,一個為低閾值,當圖像中邊緣像素的梯度幅值大于高閾值時,則認為是強邊緣小于低閾值,則抑制當前邊緣像素。
本研究使用圖像融合公式將原始圖像與邊緣圖像進行融合。具體如公式(10)所示。
輸出 O=α× 初始圖像 +β×? 邊緣圖像。(10)式中: α 和 β 是融合的權(quán)重參數(shù),用于控制邊緣強度。之后使用CLAHE(contrastlimitedadaptivehistogramequalization)算法來增強植物病害圖像細節(jié)的同時抑制背景噪音。最后應(yīng)用HSV色彩空間調(diào)節(jié),通過改變色調(diào)亮度和飽和度來調(diào)整圖像的明亮程度。采用輪廓檢測技術(shù)來處理葉片輪廓的邊緣來凸顯大物體的輪廓。通過計算輪廓的面積過濾掉小于特定閾值的輪廓。
1.4改進的Swin Transformer
在SwinTransformer模型中由于減少計算量的需求采用滑動窗口模式,通過將窗口水平向右側(cè)再垂直向下側(cè)滑動,在水平和垂直方向提取不同的特征來增進信息在相鄰窗口之間的傳遞。但是,在空間中還存在著大量的信息不能很好地交流。因此,本研究提出在模型前插人感受野增強模塊來提升SwinTransformer模型的信息交流能力。
在神經(jīng)網(wǎng)絡(luò)中,卷積核的大小決定著感受野的大小,本研究設(shè)計3條并行分支的感受野增強模塊。該模塊首先將輸入向量進行重新投影形成多維空間映射。其中,3條支路中的 1×1 卷積的作用是減少通道數(shù),每一個分支的空洞卷積擴張率 (r) 是1、3、5。感受野 F 的計算公式如公式(11)所示:
F=(r-1)(k-1)+k
式中: F 為空洞卷積卷積核尺寸; ?r 為擴張率,為常規(guī)卷積卷積核尺寸。通過每個分支的空洞卷積后分別獲得 3×3、7×7 和 11×11 大小的感受野,利用空洞卷積來擴大感受野并不會降低特征分辨率,且可以使模型獲得更豐富的上下文信息。具體公式如公式(12)公式(13)、公式(14)所示。
X1=DConvr=1{Conk=1[Conk=1(X)]};
X2=DConvr=3{Conk=3[Conk=1(X)]}
X3=DConvr=5{Conk=3[Conk=1(X)]}
式中: X 為輸人特征,通過每個分支之后對輸出的特征進行拼接,隨后通過Relu函數(shù)輸人模型中。感受野增強模塊如圖2所示。
研究發(fā)現(xiàn),頻域?qū)雍投囝^注意力層都對模型至關(guān)重要。頻域?qū)拥淖饔檬遣蹲綀D像中的不同頻率成分來理解局部的頻率[15]。頻域混合模塊結(jié)構(gòu)如圖3所示。
首先給定1個長度為 N 個復數(shù)的序列 x[n] ,其中 n?N-1 ,一維離散傅里葉變換將序列轉(zhuǎn)換到頻域中,公式如式(15)所示。
式中 ?j 為虛數(shù)單位。
離散傅里葉變換是一種“一對一”的映射。對于確定的離散傅里葉變換 X[k] ,可以利用逆離散傅里葉變換來重建原始的信號 x[n] ,具體如公式(16)所示。
將一維的信號擴展為二維信號,給定二維信號x[m,n],0?m?M-1,0?n?N-1 ,二維離散傅里葉變換公式如公式(17)所示。
模型將 H×W 的非重疊圖像塊作為模型的輸入,將每個圖像塊轉(zhuǎn)換為向量,每個向量包含 D 個特征。首先進行傅里葉變換將 x∈RH×W×D 轉(zhuǎn)換到頻域,如公式(18)所示。
X=F[?x]∈CH×W×Do
式中: F[θ?θ] 表示二維傅里葉變換; X 代表 x 的頻譜。本研究通過一個可學習的濾波器 K∈CH×W×D 乘X 來調(diào)制頻譜,如公式(19)所示。
式中: ? 是哈達瑪積; K 為濾波器。最后通過逆傅里葉變換將調(diào)制后的頻譜 轉(zhuǎn)換回空間域并更新向量,公式如式(20)所示。
本研究利用頻域?qū)觼聿蹲街参锊『D像的不同頻率成分以理解局部的頻率。該網(wǎng)絡(luò)包括傅里葉變換層、加權(quán)門控層和逆傅里葉層。本研究使用1個可學習的權(quán)重參數(shù)來確定每個頻率的權(quán)重來獲取植物病害圖像中的線條和邊緣,權(quán)重參數(shù)通過反向傳播技術(shù)更新。注意力層的缺點是不能準確地捕捉局部的特征,頻域?qū)拥娜秉c是不能準確理解全局特征,本研究在窗口運用頻域?qū)硬蹲骄植康奶卣髦?,通過注意力層捕捉窗口的全局特征,最后通過感受野增強模塊和滑動窗口解決窗口之間信息交流不足的問題。
頻域混合模塊結(jié)構(gòu)中先通過頻域?qū)釉偻ㄟ^多頭注意力層,連續(xù)頻域混合模塊的計算如公式(21)公式(22)公式(23)公式(24)公式(25)、公式(26)所示。
式中: 和 x 分別表示FFT模塊、(S)W-MSA模塊和MLP模塊的輸出特征; LN 表示Layer Norm 。
本研究設(shè)計4個模塊來解決SwinTransformer對番茄和水稻病害檢測存在的問題:(1)感受野增強模塊來解決SwinTransformer模型的一些缺陷,該模塊可以抑制無效特征增強有效參數(shù)提高上下文之間的交流。(2)頻域?qū)觼斫鉀QSwinTransformer模型中多頭注意力層不能準確捕捉植物病害圖像局部特征的問題,通過將植物病害圖像轉(zhuǎn)換到頻域用可學習的權(quán)重參數(shù)來確定圖像每個頻率分量的權(quán)重來獲得植物病害圖像的細節(jié)特征。(3)CutMix數(shù)據(jù)增強算法嵌入SwinTransformer模型。由于植物病害圖像標注費時、費力,但是深度學習網(wǎng)絡(luò)需要大量的訓練數(shù)據(jù)才能避免網(wǎng)絡(luò)過擬合,CutMix數(shù)據(jù)增強的存在就是為了解決這個問題,數(shù)據(jù)增強技術(shù)可以提高訓練數(shù)據(jù)的大小和質(zhì)量,使擴增的圖像樣本接近真實分布,來提高檢測的精度。(4)本研究通過遷移學習方法,將預先訓練好的模型參數(shù)應(yīng)用于植物病害圖像檢測任務(wù)中。這種方法不僅減少了模型對大量數(shù)據(jù)的依賴,還大大縮短了訓練周期,并顯著提高了模型檢測的準確度。基于改進的SwinTransformer模型結(jié)構(gòu)圖如圖4所示。
2 結(jié)果與分析
2.1 數(shù)據(jù)來源
本研究使用AIChallenger2018和RiceLeafDiseaseImageSamples這2種植物病害數(shù)據(jù)集。AIChallenger2018數(shù)據(jù)集以“物種病害程度”的方式劃分,數(shù)據(jù)集包含10類植物、27種植物病害類型和61種不同病害程度的病害圖像。植物病害圖像的屬性存在JSON文件里,該文件中包含圖像編號和病害類別2個屬性,本研究使用腳本將蕃茄病害相關(guān)的圖片從數(shù)據(jù)集中篩選出來[16]。部分番茄病害圖片如圖5所示。
將選取的番茄病害數(shù)據(jù)集中的輕微病害和嚴重病害進行合并,通過處理數(shù)據(jù)集本研究最終得到12948張包含不同病害類別的番茄圖像,其中有9種病害類型和1種健康類型。數(shù)據(jù)集的詳細病害類別及每個類別的數(shù)量如表1所示。通過表1發(fā)現(xiàn),訓練數(shù)據(jù)中每類樣本分布不均勻,為了解決此問題,本研究使用旋轉(zhuǎn)、縮放、CutMix、亮度調(diào)整、翻轉(zhuǎn)和加人噪聲等數(shù)據(jù)增強技術(shù)來增強訓練樣本的多樣性,解決數(shù)據(jù)不平衡導致的模型性能下降的問題。
RiceLeafDiseaseImageSamples數(shù)據(jù)集中的水稻病害圖片采用尼康DSLR-D5600的 18~55mm 鏡頭拍攝,共采集5932張4類水稻病害圖像,包括水稻東格魯病、水稻褐斑病、水稻細菌性條斑病和水稻枯萎病[17]。本研究統(tǒng)一將水稻病害圖像調(diào)整為224像素 ×224 像素,每類水稻病害中隨機抽取
200張圖像作為測試集使用,部分水稻病害圖像如圖6所示。
本研究使用的水稻病害數(shù)據(jù)集中每個類別的具體數(shù)量如表2所示。本研究使用旋轉(zhuǎn)、縮放、CutMix、亮度調(diào)整、翻轉(zhuǎn)和加入噪聲等數(shù)據(jù)增強技術(shù)來增強訓練樣本的多樣性,解決了數(shù)據(jù)不平衡導致的模型性能下降的問題
2.2 試驗環(huán)境
本試驗操作系統(tǒng)為Ubuntu20.04,顯卡為NVIDIAGeForceRTX3070,使用CUDA 11.6及Pytorch1.13.1深度學習框架搭建模型。將CutMix數(shù)據(jù)增強算法、高斯濾波、邊緣檢測、顏色增強等技術(shù)嵌人模型中,訓練時對數(shù)據(jù)集進行數(shù)據(jù)增強處理,然后將處理之后的數(shù)據(jù)輸入模型進行訓練。采用遷移學習技術(shù)提升模型訓練的效率。本研究中模型訓練100個周期,批處理大?。╞atchsize)為16,使用AdamW優(yōu)化器,學習率為0.0001,為抑制過擬合權(quán)重衰減設(shè)置為0.0005。試驗時間為2023年9月至2024年2月,試驗地點為伊犁師范大學。
2.3 評估指標
在對比試驗中,本研究主要使用準確率、精確度、召回率和 F1 分數(shù)作為評估指標,來對比和判斷本研究改進后方法的有效性。
準確率(Accuracy)通常被用作衡量分類模型性能的主要指標。它反映了模型正確識別的樣本數(shù)與總樣本數(shù)的比例,用以衡量模型的精準度。通常情況下,模型的準確率越高,其性能越佳。準確率公式如公式(27)所示。
精確度(Precision)表示預測為正的樣本中有多少是真正的正樣本。精確度公式如公式(28)所示。
召回率(Recall)表示預測為正的樣本占全部實際為正的樣本的比例。召回率公式如公式(29)所示。
F1 分數(shù)作為綜合指標,能平衡精確度和召回率的影響,較為全面地評價一個分類器, F1 分數(shù)越大,說明模型質(zhì)量更高。 F1 分數(shù)計算方法如公式(30)所示。
2.4試驗結(jié)果與分析
本研究使用Pytorch框架構(gòu)建了VGG16[18-19]ViT[20] 、GoogLeNet[21 -22]、 ResNet[23] 、AlexNet[24]MobileNet v2[25] 、MobileViT[26]和 Swin Transformer共8個模型,并使用AIChallenger2018番茄病害數(shù)據(jù)集和RiceLeafDiseaseImageSamples水稻病害數(shù)據(jù)集分別進行訓練和測試,試驗中使用的優(yōu)化器和超參數(shù)保持一致。試驗結(jié)果表明,改進的SwinTransformer在番茄病害數(shù)據(jù)集和水稻病害數(shù)據(jù)集上都比傳統(tǒng)SwinTransformer模型和其他模型要好,模型具有更好的性能。在AIChallenger2018番茄病害數(shù)據(jù)集和RiceLeafDiseaseImageSamples水稻病害數(shù)據(jù)集上的試驗結(jié)果分別如表3和表4所示。
試驗結(jié)果表明,本研究改進的SwinTransformer在番茄病害數(shù)據(jù)集和水稻病害數(shù)據(jù)集的準確率分別為 98.61% 和 100.00% ,比傳統(tǒng)SwinTransformer分別高出1.36百分點和0.12百分點,在番茄病害數(shù)據(jù)集中比VGG16、AlexNet、GoogLeNet、ResNet、MobileNet Δv2 、ViT、MobileViT這7個模型高出1.10、2.11、1.39、0.77、5.51、2.13、0.59百分點。在水稻病害數(shù)據(jù)集中比VGG16、AlexNet、GoogLeNet、ResNet、MobileNetV2、ViT、MobileViT這7個模型高出 2.38,3,12,2.12,0.5,5.13,0.17,0.12 百分點。相較于經(jīng)典模型,本研究改進的SwinTransformer在準確率上表現(xiàn)最優(yōu)。
與基線模型比較精確度、召回率、 F1 分數(shù)3個指標,本研究改進的SwinTransformer在番茄病害數(shù)據(jù)集上分別為 96.14%.97.70%.96.83% ,比傳統(tǒng)SwinTransformer高出 3.05.2.11.2.93 百分點。在水稻病害數(shù)據(jù)集上分別為 100% 、 100% 、 100% ,比傳統(tǒng)Swin Transformer高出 0.12,0.12,0.13 百分點,說明本研究改進的SwinTransformer模型性能更好,在番茄和水稻病害檢測中更加有效。
本試驗還比較了使用不同數(shù)據(jù)增強算法的效果。在番茄病害數(shù)據(jù)集上使用CutMix數(shù)據(jù)增強算法比不使用該算法的模型在準確率、精確度、召回率和 F1 分數(shù)上分別提升 0.31,0.48,1.17,0.75 百分點。說明該數(shù)據(jù)增強算法可以在模型訓練階段防止模型過擬合提高模型的泛化能力。
本試驗分別繪制了番茄病害數(shù)據(jù)集和水稻病害數(shù)據(jù)集的多分類混淆矩陣,具體如圖7至圖14所示,通過觀察混淆矩陣可以了解到改進的Swin
Transformer在不同類別之間的分類情況。改進的SwinTransformer較傳統(tǒng)的SwinTransformer漏報率和誤報率更低,總體上有更好的分類效果。番茄病害數(shù)據(jù)集混淆矩陣如圖7、圖8、圖9和圖10所示,水稻病害數(shù)據(jù)集混淆矩陣如圖11、圖12、圖13和圖14所示。
本研究繪制了2個數(shù)據(jù)集的訓練準確率曲線和損失曲線評估模型的訓練和泛化性能,具體見圖15、圖16、圖17、圖18。可以看出,本研究改進的SwinTransformer檢測的準確率和收斂速度明顯優(yōu)于傳統(tǒng)SwinTransformer模型,且模型的波動幅度比傳統(tǒng)SwinTransformer模型更小,由曲線可得出,本研究改進的SwinTransformer性能更好。從圖中可以看到,加入CutMix數(shù)據(jù)增強算法的模型曲線更加穩(wěn)定,損失曲線低于傳統(tǒng)SwinTransformer模型。試驗結(jié)果表明,模型中加入該數(shù)據(jù)增強算法可以大大提高模型的泛化能力和準確率。番茄病害數(shù)據(jù)集準確率曲線和損失曲線見圖15和圖16,水稻病害數(shù)據(jù)集準確率曲線和損失曲線見圖17和圖18。
3結(jié)論
在植株病害檢測中,深度學習方法已經(jīng)得到了廣泛應(yīng)用并展現(xiàn)出卓越的效果。然而,在植株病害檢測的過程中尤其是在提取圖像特征時,這些方法仍面臨一些局限性。因此,本研究提出了一種新的病害檢測方法,即使用改進的SwinTransformer模型。首先,使用CutMix數(shù)據(jù)增強算法和邊緣檢測等技術(shù)對數(shù)據(jù)進行處理。然后,使用感受野增強模塊解決模型空間中存在的大量信息不能很好交流的問題。最后,使用頻域?qū)觼斫鉀Q注意力層不能準確捕捉局部特征的問題。試驗過程中,將改進的SwinTransformer網(wǎng)絡(luò)模型與其他常見的經(jīng)典CNN網(wǎng)絡(luò)模型進行了對比分析,結(jié)果顯示,傳統(tǒng)的SwinTransformer在番茄病害數(shù)據(jù)集和水稻病害數(shù)據(jù)集準確率分別為 97.25% 和99. 88% ,改進的SwinTransformer在番茄病害數(shù)據(jù)集和水稻病害數(shù)據(jù)集準確率分別為 98.61% 和 100% 。結(jié)果表明,本研究首次提出的改進的SwinTransformer有更好的性能。
在對比分析中,本研究觀察到改進的SwinTransformer在精確度和 F1 分數(shù)上也表現(xiàn)出優(yōu)勢。這表明本研究的改進方法在植株病害檢測任務(wù)中有效。然而,本研究也注意到仍然存在一些不足之處,可能是由數(shù)據(jù)集的特點或模型的局限性所致,所以接下來的任務(wù)是進一步改進模型和優(yōu)化算法,進一步提高分類的準確性。
參考文獻:
[1]孫哲,張春龍,葛魯鎮(zhèn),等.基于FasterR-CNN的田間西蘭花幼苗圖像檢測方法[J].農(nóng)業(yè)機械學報,2019,50(7):216-221.
[2]KrizhevskyA,SutskeverI,HintonGE.ImageNetclassificationwithdeep convolutional neural networks[J].Communications of theACM,2017,60(6) :84-90.
[3]張領(lǐng)先,景嘉平,李淑菲,等.基于圖像自動標注與改進YOLO Δv5 的番茄病害識別系統(tǒng)[J].農(nóng)業(yè)機械學報,2023,54(11):198-207.
[4]劉天真,苑迎春,滕桂法,等.基于改進YOLOv4的自然場景下冬棗果實分類識別[J].江蘇農(nóng)業(yè)科學,2024,52(1):163-172.
[5]馬曉,邢雪,武青海.基于改進ConvNext的復雜背景下玉米葉片病害分類[J].江蘇農(nóng)業(yè)科學,2023,51(19):190-197.
[6]EbrahimiMA,KhoshtaghazaMH,MinaeiS,etal.Vision-basedpest detection based on SVM classification method[J].ComputersandElectronicsinAgriculture,2017,137:52-58.
[7]Yan Q,YangB H,WangWY,et al.Apple leaf diseasesrecognitionbased on an improved convolutional neural network[J].Sensors,2020,20(12) :3535.
[8]Yang T,Liu C.Recognition system for leaf diseases of ophiopogonjaponicus based onPCA-SVM[J].Plant Diseases and Pests,2020,11(2):9-13.
[9]姜國權(quán),楊正元,霍占強,等.基于改進YOLO Δv5 網(wǎng)絡(luò)的疏果前蘋果檢測方法[J].江蘇農(nóng)業(yè)科學,20,51(14):205-215.
[10]王鵬新,杜江莉,張悅,等.基于遙感多參數(shù)和CNN-Transformer的冬小麥單產(chǎn)估測[J].農(nóng)業(yè)機械學報,2024,55(3):173 -182.
[11]孫劍明,畢振宇,牛連?。谔卣魅诤蟃ransformer的EfficientNetv2網(wǎng)絡(luò)對馬鈴薯葉片病害的識別[J].江蘇農(nóng)業(yè)科學,2024,52(8) :166-176.
[12]Tolstikhin IO,HoulsbyN,Kolesnikov A,et al. Mlp-mixer:anall-mlp architecture for vision[J].Advances inNeuralInformation Processing Systems,2021,34:24261-24272.
[13]項劍文,陳泯融,楊百冰.結(jié)合Swin及多尺度特征融合的細粒度圖像分類[J]:計算機工程與應(yīng)用,2023,59(20):147-157.
[14]夕隊從,工矢珊,字煩,守:基了亞有仕信總的rICuMIx奴據(jù)增強算法在醫(yī)學影像上的應(yīng)用[J].智能科學與技術(shù)學報,2023,5(1) :58-68.
[15]Rao Y,Zhao W,Zhu Z,et al. Global filter networks for imageclassification[J].Advances in Neural Information ProcessingSystems,2021,34:980-993.
[16] Zhou CJ,Zhou SH,Xing JG,etal.Tomato leaf diseaseidentification byrestructured deep residual dense network[J].IEEEAccess,2021,9:28822-28831.
[17]SethyPK,BarpandaNK,RathAK,etal.Deepfeaturebased riceleaf diseaseidentification using support vector machine[J].Computersand Electronicsin Agriculture,2020,175:105527.
[18]Liu Z H,Wu JZ,F(xiàn)u L S,et al.Improved kiwifruit detectionusingpre- trained VGG16 with RGB and NIR information fusion[J].IEEEAccess,2019,8:2327-2336.
[19]楊非凡,徐偉誠,陳盛德,等.融合FocalLoss與典型卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的水稻病害圖像分類[J].江蘇農(nóng)業(yè)科學,2023,51(14) :198 -204.
[20]孫露露,劉建平,王健,等.細粒度圖像分類上VisionTransformer的發(fā)展綜述[J].計算機工程與應(yīng)用,2024,60(10):30-46.
[21]薛勇,王立揚,張瑜,等.基于GoogLeNet 深度遷移學習的蘋果缺陷檢測方法[J].農(nóng)業(yè)機械學報,2020,51(7):30-35.
[22]萬軍杰,祁力鈞,盧中奧,等.基于遷移學習的GoogLeNet果園病蟲害識別與分級[J].中國農(nóng)業(yè)大學學報,2021,26(11):209-221.
[23]姜紅花,楊祥海,丁睿柔,等.基于改進ResNet18的蘋果葉部病害多分類算法研究[J].農(nóng)業(yè)機械學報,2023,54(4):295-30.
[24]江順,黃紅星,莫里楠,等.基于改進AlexNet的嶺南水稻蟲害識別方法研究[J].江蘇農(nóng)業(yè)科學,2023,51(23):187-195.
[25]嚴春滿,張翔,王青朋.基于改進MobileNet v2 的人臉表情識別[J].計算機工程與科學,2023,45(6):1071-1078.
[26]武錦龍,吳虹麒,李浩,等.基于改進DeepLab v3 + 的蕎麥苗期無人機遙感圖像分割識別方法研究[J]:農(nóng)業(yè)機械學報,2024,55(5) :186-195.