中圖分類號(hào):TP391.4 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2096-9902(2025)14-0033-04
Abstract:Inrecentyears,climatechangeandchangesinagriculturalactivitieshaveincreasedthefrequencyandseverityof plantdiseases,havingamajorimpactonfoodproductionandqualitysafety.Therefore,toensurefoodsecurity,timelyand accuratedetectionanddiagnosisofplantdiseasesarecrucial.Thispaperdesignsatreediseaseleafclassficationmodelbased ontheimprovedSwin-Transformer,whichoptimizesfeaturesbyintegratingdual-pathatentionmechanisms.Atthefeature processinglevel,amulti-levelprocesingstructureicludinglayerandardzatiodaptivepolingndfullonecdasif isdesiged.ThiscompositearchitecturemaintainsteadvantagesofTransfomersglobalmodelingandsignificantlyimprovesthe eficiencyofcapturingfine-grainedpathologicalfeaturesthroughanatention-guidedfeatureenhancementmechanism.The proposed model achieves greater accuracy than previous convolution and visual transformer-based models.
Keywords:deeplearning;atentionmechanism;convolutional neural network;plantdiseaserecognition;smartagriculture
植物病害是導(dǎo)致糧食產(chǎn)量與質(zhì)量降低的重要因素??焖?、準(zhǔn)確地檢測(cè)植物病害不僅能保證農(nóng)作物的產(chǎn)量和質(zhì)量,還能增加經(jīng)濟(jì)效益。隨著人工智能技術(shù)的發(fā)展,CNNs在農(nóng)作物病害檢測(cè)方面表現(xiàn)優(yōu)秀。Too等專注于微調(diào)一系列CNN架構(gòu),用于基于圖像的植物病害識(shí)別,但處理樣本多樣性問(wèn)題仍然具有挑戰(zhàn)性,手動(dòng)選擇大量樣本是一項(xiàng)耗時(shí)的工作。為此,Barbedo等利用基于CNN的模型對(duì)大量樣本進(jìn)行了標(biāo)注,選擇單個(gè)病斑代替整片作物葉片進(jìn)行識(shí)別。然而,準(zhǔn)確地提取病斑較為困難,因?yàn)椴“叩耐庥^多種多樣。
受到自然語(yǔ)言處理領(lǐng)域的Transformer模型以及在圖像處理領(lǐng)域的一些先前工作,如VisionTrans一former(ViT)的啟發(fā),針對(duì)上述問(wèn)題,2021年,微軟研究團(tuán)隊(duì)提出了一種包含滑窗操作,具有層級(jí)設(shè)計(jì)的Swin-Transformer模型4。該模型通過(guò)引入窗口劃分策略構(gòu)建層級(jí)化特征金字塔,創(chuàng)新性地將圖像劃分為可動(dòng)態(tài)調(diào)整的局部窗口,并在相鄰層級(jí)間建立注意力傳播機(jī)制,理論上實(shí)現(xiàn)了多尺度特征的有效融合。相比之下,卷積神經(jīng)網(wǎng)絡(luò)(CNN)通過(guò)利用高度相關(guān)的空間子采樣、局部感受野和共享權(quán)重來(lái)有效建模這些局部特征。
Swin-Transformer中的注意力機(jī)制可能對(duì)于小樣本訓(xùn)練效率不高,尤其是在訓(xùn)練樣本不足時(shí),Swin-Transformer學(xué)習(xí)到的特征表達(dá)受限。解決這些問(wèn)題需要改進(jìn)Swin-Transformer的圖像塊分割策略,以更好地捕捉圖像的局部結(jié)構(gòu),并且優(yōu)化其注意力機(jī)制,以提高在小樣本訓(xùn)練情況下的特征學(xué)習(xí)效率。He等7提出了一種新的遙感圖像語(yǔ)義分割框架(ST-UNet),成功地將Swin-Transformer嵌入到經(jīng)典的基于CNN的UNet中,在ISPRSVaihingen和Potsdam數(shù)據(jù)集上取得了顯著的性能提升。
本文將Transformer與注意力機(jī)制相結(jié)合,以分層式Swin-Transformer為骨干網(wǎng)絡(luò),在保留其窗口化自注意力優(yōu)勢(shì)的基礎(chǔ)上,創(chuàng)新性地在PatchMerging層集成注意力機(jī)制。通過(guò)引入通道注意力映射與空間特征重加權(quán)模塊的級(jí)聯(lián)結(jié)構(gòu),實(shí)現(xiàn)局部-全局特征的協(xié)同優(yōu)化,有效緩解傳統(tǒng)Transformer架構(gòu)在細(xì)粒度病理特征提取中的表征瓶頸。
1數(shù)據(jù)和方法
1.1圖像數(shù)據(jù)集
為了設(shè)計(jì)出合適的植物病害識(shí)別方法,設(shè)計(jì)出的模型在公共數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試。所有這些圖像是從各種患病和健康的葉子中收集的,屬于2個(gè)不同的數(shù)據(jù)集。本文采用的基準(zhǔn)數(shù)據(jù)集PlantVillage涵蓋14個(gè)植物種屬的38個(gè)病理類別,共包含54305幅標(biāo)準(zhǔn)化葉片樣本圖像。該數(shù)據(jù)集所有樣本均在受控實(shí)驗(yàn)環(huán)境下采集,像素尺寸統(tǒng)一為 256×256 ,保證了輸入數(shù)據(jù)空間一致性。第二個(gè)數(shù)據(jù)集是PlantDoc,其圖像是使用手機(jī)攝像頭在田間拍攝的。該數(shù)據(jù)集包含2598幅圖像,涵蓋13個(gè)植物類別和27種病害。數(shù)據(jù)集中的圖像按 80% 用于訓(xùn)練集,其余 20% 用于測(cè)試集。
1.2模型
1.2.1 Swin-Transformer模型
本文針對(duì)標(biāo)準(zhǔn)Transformer架構(gòu)在視覺(jué)任務(wù)中的計(jì)算瓶頸問(wèn)題,采用窗口化自注意力機(jī)制進(jìn)行優(yōu)化。傳統(tǒng)Transformer的全局自注意力運(yùn)算具有O (n2) 量級(jí)的二次方復(fù)雜度,而Swin-Transformer通過(guò)創(chuàng)新的窗口劃分策略將復(fù)雜度有效降低至線性水平8?;诖擞?jì)算效率優(yōu)勢(shì),本架構(gòu)選用Swin-Transformer作為核心特征提取器,其層級(jí)化設(shè)計(jì)包含4個(gè)漸進(jìn)式特征抽象階段(圖1)。每個(gè)處理階段由特征降維模塊與注意力運(yùn)算單元構(gòu)成級(jí)聯(lián)結(jié)構(gòu)。特別在特征降維模塊中引入注意力引導(dǎo)機(jī)制,通過(guò)動(dòng)態(tài)特征選擇策略強(qiáng)化多尺度病理表征能力,這種設(shè)計(jì)使模型在維持計(jì)算效率的同時(shí),能自適應(yīng)聚焦于不同粒度的病害判別特征。
1.2.2 CBAM注意力機(jī)制
本文引人的卷積注意力優(yōu)化模塊(CBAM)突破了傳統(tǒng)單維度注意力機(jī)制的局限,構(gòu)建了通道-空間雙域協(xié)同的注意力學(xué)習(xí)框架。如圖2所示的結(jié)構(gòu)示意圖,該模塊通過(guò)多模態(tài)特征統(tǒng)計(jì)量融合機(jī)制實(shí)現(xiàn)跨維度特征重標(biāo)定。在通道注意力子模塊中,采用全局平均池化(GAP)與全局最大池化(GMP)雙路并行架構(gòu),分別提取特征圖的通道級(jí)統(tǒng)計(jì)描述符。這2個(gè)互補(bǔ)的統(tǒng)計(jì)表征通過(guò)共享參數(shù)的多層感知機(jī)(MLP)進(jìn)行非線性映射,經(jīng)Sigmoid函數(shù)激活后生成通道注意力權(quán)重矩陣。
圖2 CBAM網(wǎng)絡(luò)框架
在空間注意力子模塊中,通過(guò)沿通道維度的雙模態(tài)壓縮操作生成空間顯著性圖譜:首先對(duì)特征圖分別執(zhí)行通道維度的GAP與GMP,獲得2個(gè)空間維保持的二維特征映射;隨后通過(guò)通道拼接與 7×7 卷積核的空間卷積操作生成空間注意力權(quán)重,其計(jì)算過(guò)程可表述為
式中: Fsavg 為對(duì) F′ 沿通道維度執(zhí)行平均池化, Fsmax 為對(duì)F′ 沿通道維度執(zhí)行最大池化。
1.2.3 嵌入注意力機(jī)制的Swin-Transformer模型
本文構(gòu)建了一種融合多尺度注意力引導(dǎo)的層級(jí)式視覺(jué)Transformer架構(gòu),專用于解決果樹(shù)葉片病理特征識(shí)別難題。如圖3所示的系統(tǒng)框架,該模型創(chuàng)新性地將通道-空間雙域注意力機(jī)制整合至分層特征提取流程中。
圖3模型具體結(jié)構(gòu)
在該模型中,輸入圖像首先經(jīng)PatchPartition塊處理,將原始圖像離散化為 4×4 的非重疊圖像塊,每個(gè)圖像塊通過(guò)線性投影變換映射為高維特征向量。隨后,特征流依次經(jīng)過(guò)4個(gè)層級(jí)化處理階段,其中前2個(gè)階段采用標(biāo)準(zhǔn)SwinTransformerBlock進(jìn)行基礎(chǔ)特征提取。在分類頭設(shè)計(jì)方面,提出多級(jí)特征后處理架構(gòu):層標(biāo)準(zhǔn)化模塊通過(guò)特征分布?xì)w一化提升訓(xùn)練穩(wěn)定性;全局自適應(yīng)平均池化層實(shí)現(xiàn)空間維度壓縮,將特征圖轉(zhuǎn)化為全局描述向量;全連接層完成高維特征到類別空間的非線性映射;Softmax函數(shù)輸出多類別概率分布。該架構(gòu)的優(yōu)化策略在于:通過(guò)Transformer的窗口化自注意力捕獲長(zhǎng)程上下文依賴,借助混合注意力機(jī)制強(qiáng)化局部病理特征表達(dá),最終通過(guò)層級(jí)式特征融合實(shí)現(xiàn)跨尺度特征互補(bǔ),在復(fù)雜農(nóng)業(yè)場(chǎng)景下展現(xiàn)出更優(yōu)的細(xì)粒度分類能力。
2 實(shí)驗(yàn)結(jié)果與分析
2.1 評(píng)估指標(biāo)
本文采用多維度評(píng)估體系來(lái)克服傳統(tǒng)分類指標(biāo)在類別分布偏斜時(shí)的局限性。針對(duì)樣本不平衡導(dǎo)致的模型評(píng)估偏差問(wèn)題,構(gòu)建了基于混淆矩陣的四元評(píng)價(jià)指標(biāo)系統(tǒng),包含:查準(zhǔn)率(Precision)查全率(Recall)和F1調(diào)和均值(F1-Score),其數(shù)學(xué)定義如下
2.2 實(shí)驗(yàn)表現(xiàn)
該部分的主要目的是驗(yàn)證嵌入注意力機(jī)制的Swin-Transformer模型在植物疾病識(shí)別方面的成功,并將其與最先進(jìn)的架構(gòu)結(jié)果進(jìn)行比較。所有實(shí)驗(yàn)都在上述2個(gè)數(shù)據(jù)集上實(shí)施。PlantVillage的每個(gè)類別的召回率、精確率和F1分?jǐn)?shù)見(jiàn)表1。平均值分別為0.9990、0.9991和0.9990,模型在PlantDoc這個(gè)數(shù)據(jù)集上獲得的結(jié)果見(jiàn)表2。通過(guò)觀察表格數(shù)據(jù),我們發(fā)現(xiàn)所提出的嵌入注意力機(jī)制的Swin-Transformer模型在PlantVillage和PlantDoc數(shù)據(jù)集上幾乎沒(méi)有誤報(bào)和漏報(bào)。
表1PlantVillage的實(shí)驗(yàn)表現(xiàn)結(jié)果
3結(jié)論
通過(guò)將嵌入注意力機(jī)制與Swin-Transformer模型相結(jié)合,實(shí)現(xiàn)了在植物疾病識(shí)別方面的進(jìn)一步發(fā)展。本研究的創(chuàng)新之處在于利用注意力機(jī)制來(lái)增強(qiáng)模型對(duì)于植物病害的關(guān)注,使其能夠更有效地捕捉關(guān)鍵信息并做出準(zhǔn)確的分類。在實(shí)驗(yàn)中,本模型在多個(gè)數(shù)據(jù)集上都取得了優(yōu)異的性能,驗(yàn)證了其在真實(shí)場(chǎng)景中的可行性和可靠性。同時(shí),本研究還為植物保護(hù)領(lǐng)域的進(jìn)一步發(fā)展提供了有益的啟示。通過(guò)結(jié)合深度學(xué)習(xí)和注意力機(jī)制,為解決農(nóng)業(yè)領(lǐng)域的重要問(wèn)題提供了新的思路和方法。相信未來(lái),這種創(chuàng)新的模型架構(gòu)和方法將為農(nóng)民提供更多有效的工具,幫助他們及時(shí)發(fā)現(xiàn)和應(yīng)對(duì)植物病害,最大程度地保護(hù)農(nóng)作物的健康和產(chǎn)量,并為未來(lái)的研究和實(shí)踐提供了有價(jià)值的參考,期待著將這一創(chuàng)新推廣到更廣泛的農(nóng)業(yè)應(yīng)用中,為農(nóng)業(yè)生產(chǎn)的可持續(xù)發(fā)展作出更大的貢獻(xiàn)。
表2PlantDoc的實(shí)驗(yàn)表現(xiàn)結(jié)果
參考文獻(xiàn):
[1]張福鎖,王激清,張衛(wèi)峰,等.中國(guó)主要糧食作物肥料利用率現(xiàn)狀與提高途徑[J].土壤學(xué)報(bào),2008(5):915-924.
[2] TOO E C,YUJIAN L,NJUKI S,et al.A comparativestudyof fine-tuning deep learning modelsfor plant diseaseidentification [J]. Computers and Electronics in Agriculture,2019(161) :272-279.
[3] BARBEDO JG A.Plant disease identificationfromindividual lesionsandspotsusing deep learning [J].Biosystems engineering,2019(180):96-107.
[4] LIU Z, LIN Y, CAO Y, et al. Swin transformer:Hierarchical vision transformer using shifted windows [C]//Proceedings of the IEEE/CVF international conferenceoncomputer vision.2021:10012-10022.
[5]周飛燕,金林鵬,董軍.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2017,40(6):1229-1251.
[6]田永林,王雨桐,王建功,等.視覺(jué)Transformer研究的關(guān)鍵問(wèn)題:現(xiàn)狀及展望[J].自動(dòng)化學(xué)報(bào),2022,48(4):957-979.
[7]HE X,ZHOU Y,ZHAO J, et al.Swin transformerembeddingUNetforremotesensingimagesemanticsegmentation [J]. IEEE Transactions on GeoscienceandRemote Sensing,2022(60):1-15.
[8]劉擁民,劉翰林,石婷婷,等.一種優(yōu)化的 Swin Transformer番茄葉片病害識(shí)別方法[J].中國(guó)農(nóng)業(yè)大學(xué)學(xué)報(bào),2023,28(4):80-90.
[9]王美華,吳振鑫,周祖光.基于注意力改進(jìn)CBAM的農(nóng)作物病蟲(chóng)害細(xì)粒度識(shí)別研究[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2021,52(4):239-247.
[6] YAN Q,ZHANG X,LI M,et al. Global climate changepromotes aboveground growth and high-latitude species dis-tribution in medicinal plants:Insights from thegenusPanax[J]. Journal of Cleaner Production,2O24,478:143863.
[7]鄢興龍,蕭鳳回,文國(guó)松,等.云南三七野生近緣種種質(zhì)資源的考察與采集[J].云南農(nóng)業(yè)大學(xué)學(xué)報(bào),2006(4):419-423.
[8]黃天衛(wèi).三七與屏邊三七間作栽培對(duì)三七生長(zhǎng)的影響研究[J].人參研究,2022,34(4):30-31.
[9]陳少容,向維,李良波,等.廣西田七產(chǎn)業(yè)發(fā)展的困境與對(duì)策[J].廣西科學(xué)院學(xué)報(bào),2022,38(3):267-275.
[10] ZHIXIA D,JIE W,XIANGXIAO M,et al.PredictingtheGlobal Potential Distribution of Four Endangered PanaxSpecies in Middle-and Low-Latitude Regions of China'bytheGeographic Information System for Global MedicinalPlants(GMPGIS)[J].Molecules,2017,22(10).
[11]MEROW C,SMITH M J,Silander Jr J A.A practicalguide to MaxEnt for modeling species‘distributions:whatit does,and why inputs and settings matter [J]. Ecogra-phy,2013,36(10):1058-1069.