摘要:
為提高產(chǎn)地環(huán)境下木薯葉部病害自動識別的準確性,解決病害圖像低對比度和數(shù)據(jù)長尾分布問題,建立一種深度學習模型SwinTFCC用于木薯葉部病害識別。該模型采用Swin Transformer作為骨干網(wǎng)絡,借助Swin Transformer的自注意力機制和層級結構關注局部與全局特征,使其對復雜背景病害識別具有魯棒性;將最后一層特征輸入特征簇壓縮模塊,以映射稀疏特征簇為稠密特征簇,減少長尾分布中樣本少的類別稀疏特征簇跨越?jīng)Q策邊界導致分類錯誤情況;并采用遷移學習在木薯葉部病害圖像數(shù)據(jù)集上進行訓練,以提升木薯葉部病害識別性能。試驗結果表明,模型的F1值達到90.74%,較其他主流模型提升8.04%~19.3%。所采用的方法在小規(guī)模不平衡數(shù)據(jù)集上取得較好效果,驗證模型的有效性,為木薯葉部病害自動精準識別提供技術支撐。
關鍵詞:木薯葉部;病害識別;圖像識別;遷移學習;不平衡數(shù)據(jù)
中圖分類號:S435.33; TP391.4
文獻標識碼:A
文章編號:2095-5553 (2025) 03-0101-08
收稿日期:2023年10月9日" 修回日期:2024年1月2日*
基金項目:中央級公益性科研院所基本科研業(yè)務費專項(1630072023005);海南省自然科學基金青年基金項目(323QN300)
第一作者:王丹陽,女,1993年生,海南澄邁人,碩士,研究實習員;研究方向為病蟲害智能識別。E-mail: danyang.wang@catas.cn
通訊作者:黃貴修,男,1968年生,廣西賀州人,博士,研究員;研究方向為熱帶作物病害監(jiān)控與抗病育種。E-mail: hgxiu@vip.163.com
Cassava leaf disease image recognition method for imbalanced data
Wang Danyang1, Liang Weihong1, Li Yuping1, Huang Guixiu1," 2
(1. Institute of Scientific and Technical Information, Chinese Academy of Tropical Agricultural Sciences/Key
Laboratory of Practical Research on Tropical Crops Information Technology in Hainan, Haikou, 571101, China;
2. Environment and Plant Protection Institute, Chinese Academy of Tropical Agricultural Sciences, Haikou, 571101, China)
Abstract:
To improve the accuracy of automatic cassava leaf disease recognition in production environments and address issues such as low-contrast disease images and long-tail data distribution, this paper proposes a deep learning model, SwinTFCC, for the recognition of cassava leaf diseases. This model employs the Swin Transformer as the backbone network, utilizing its self-attention mechanism and hierarchical structure to focus on local and global features for robust disease recognition in complex backgrounds. The features from the last layer are then input into a feature cluster compression module to map sparse feature clusters into dense ones, reducing classification errors caused by sparse feature clusters of underrepresented classes crossing decision boundaries in the long-tailed distribution. The model is trained on a cassava leaf disease image dataset using transfer learning to enhance recognition performance. The experimental results indicate that the proposed model achieves an F1 score of 90.74%, improving by 8.04% to 19.3% compared with other mainstream models. In this study, the method performs well on a small-scale imbalanced dataset, confirming the model’s effectiveness and providing technical support for the automatic and precise recognition of cassava leaf diseases.
Keywords:
cassava leaf; disease recognition; image recognition; transfer learning; imbalanced data
0 引言
聯(lián)合國糧食及農(nóng)業(yè)組織發(fā)布的《2023年世界糧食安全和營養(yǎng)狀況》報告稱,2022年全世界估計有6.91~7.83億人面臨饑餓;到2030年,全世界預計近6億人長期食物不足[1]。木薯起源于熱帶美洲,是世界三大薯類作物之一,也是世界重要糧食作物和饑荒作物,對維護世界糧食安全起著重要作用[2]。然而木薯生長過程中易受病害的影響,從而造成作物的產(chǎn)量減少并嚴重威脅糧食安全。因此,對病害進行監(jiān)測和識別可以盡早發(fā)現(xiàn)病害,減少損失。傳統(tǒng)作物病害識別主要依賴專家與經(jīng)驗,主觀性強,需要專業(yè)人員定期進行田間檢查。隨著種植規(guī)?;?,定期人工檢查對病害進行識別成本不可估量,病害自動精準識別具有重要意義。
在植物發(fā)生病害時,葉片會呈現(xiàn)特定的特征,如葉片顏色、形狀會產(chǎn)生相應變化。研究者嘗試設計特征提取器,提取與病害相關的顏色、形狀、紋理和小波等特征,并通過支持向量機[3," 4]、K近鄰(KNN)[5," 6]、貝葉斯[7]和決策樹[8]等分類器對提取的特征進行病害分類。雖然這些方法能夠降低植物病害識別耗費的成本,但是對專業(yè)領域知識和工程技能要求較高,且植物病害復雜多樣化,特征設計難度較高,從而使得植物病害識別效果不佳。深度學習方法可以直接從數(shù)據(jù)中自動學習特征,避免人工特征局限性,提高模型準確率。近年來,研究者將卷積神經(jīng)網(wǎng)絡(CNN)應用于作物病害圖像識別以提高病害識別準確率。如Sladojevic等[9]通過仿射、投影、旋轉等數(shù)據(jù)增強技術增加數(shù)據(jù)集數(shù)量,采用CaffeNet網(wǎng)絡和遷移學習微調最后全連接層的方式對15個類別植物病害和健康葉片圖像進行分類。Agarwal等[10]提出一種輕量級CNN模型識別番茄9種葉部病害和1種健康葉片圖像,在PlantVillage數(shù)據(jù)集上準確率達到98.7%。Wu等[11]將在大規(guī)模圖像數(shù)據(jù)集ImageNet上預訓練的ResNet101模型的結構和知識遷移到水果葉病識別領域。
但上述方法主要基于實驗室單一背景下,實際應用中泛化性不強。實際種植環(huán)境中,因光線變化、葉片相互遮擋、病斑相似性高以及土壤雜草環(huán)境背景復雜等因素對病害識別造成干擾,導致基于實驗室單一背景下的研究方法在實際應用中識別效果不佳。因此,為增強實際種植環(huán)境中病害識別性能,研究者嘗試對復雜背景下病害識別進行研究。衛(wèi)雅娜等[12]提出一種基于注意力機制與EfficientNet的輕量化水稻病害識別方法。Haque等[13]通過旋轉和亮度增強方法生成圖像以解決樣本不平衡問題,并使用Inception—v3對田間玉米患病圖像進行分類。
隨著Transformer的提出,因其強大的特征提取能力和可并行性被廣泛應用,各種視覺Transformer和其變體模型被提出。研究者嘗試采用視覺Transformer模型解決復雜自然環(huán)境下植物病害識別問題。如Li等[14]提出了基于空間卷積自注意力的Transformer模型以實現(xiàn)草莓多類別病害精確快速識別,在其構建的草莓病害數(shù)據(jù)集上識別準確率達到99.10%。雖然各種視覺Transformer模型在植物病害識別領域已經(jīng)有一定的研究,但是復雜自然背景下圖像局部特征和全局特征提取融合還存在局限性。同時,各類病害發(fā)生的概率不一,導致部分病害類別數(shù)據(jù)難以采集,因此,病害圖像數(shù)據(jù)集還存在類別數(shù)據(jù)不平衡問題。
為解決復雜背景下不平衡類別數(shù)據(jù)木薯葉部病害識別問題,本文基于Swin Transformer模型,引入特征簇壓縮模塊,建立SwinTFCC模型。在模型訓練過程中采用遷移學習策略進行微調。同時,將該模型用于木薯葉部病害識別測試,并與其他主流圖像識別模型對比,驗證該模型的有效性。
1 相關工作
1.1 視覺Transformer
Transformer因其高并行性和長距離依賴建模能力在自然語言處理領域取得了顯著的成效。受此啟發(fā),一些研究者嘗試將Transformer應用于視覺領域。Vision Transformer (ViT)[15]是一項開創(chuàng)性的工作,它將圖像直接分成不重疊的圖像塊序列應用Transformer架構對圖像進行分類。與卷積神經(jīng)網(wǎng)絡相比,它在圖像分類方面實現(xiàn)了較好的速度和精度的平衡。因此,一系列ViT變體被提出來以提升視覺任務的性能[16," 17]。同時為進一步提升模型性能和降低模型的復雜度,Liu等[18]提出Swin Transformer模型通過引入移位窗口自注意力機制降低計算成本和信息交互損失,并利用層級結構關注局部和全局信息以提高模型性能。
1.2 長尾分布圖像識別
長尾分布是一種偏態(tài)分布,指數(shù)據(jù)集中某幾個類別(樣本量多)的數(shù)據(jù)占比較大,而多數(shù)類別(樣本量少)的數(shù)據(jù)代表性不足。實際場景中收集到的數(shù)據(jù)集往往遵循長尾分布,從而使得訓練的網(wǎng)絡模型對樣本量多的類別產(chǎn)生偏向,造成樣本量不足的類別識別準確率較低。長尾分布圖像識別常用解決方法包括重采樣、重加權和改進網(wǎng)絡結構等。
重采樣方法是通過不同采樣策略保持訓練數(shù)據(jù)集類別平衡,常用方法包括過采樣[19]、欠采樣[20]和類平衡抽樣[21]等。但這些方法均存在一些弊端,例如過采樣會造成模型過擬合,欠采樣會降低模型性能,而類平衡抽樣方法未能改變數(shù)據(jù)分布的根本缺陷,還會被采樣數(shù)據(jù)中的非代表性數(shù)據(jù)影響。
重加權方法則嘗試對不同類別分配不同權重,以增加樣本少類別的權重。Lin等[22]通過向標準交叉熵損失函數(shù)添加權重因子調節(jié)難分類和易分類樣本對總損失的貢獻。Szegedy等[23]提出一種通過估計標簽丟失的邊緣化效應來正則化分類器層的策略。但這些方法會損失樣本數(shù)多類別的精度。
除上述兩種方法外,研究者嘗試改進網(wǎng)絡模型結構提升模型在長尾分布數(shù)據(jù)上的性能。Li等[24]在訓練過程中使用特征簇模塊壓縮骨干網(wǎng)絡特征簇來增加特征密度降低跨越?jīng)Q策邊界概率。
1.3 植物病害識別
基于深度學習的植物病害識別方法是近年來的研究熱點,部分工作采用CNN模型對病害進行分類,但是卷積操作只能捕獲局部信息,不能建立全局長距離依賴,無法很好獲取更多上下文信息。目前大量研究探索如何融合局部和全局信息提升對圖像的理解能力,部分研究開始嘗試將這些方法引入植物病害識別領域以提升模型性能。例如,Li等[25]提出一種基于Vision Transformer和卷積神經(jīng)網(wǎng)絡的病害識別模型ConvViT識別復雜自然環(huán)境中獼猴桃病害。Wang等[26]使用改進的Swin Transformer在小樣本數(shù)據(jù)集上識別黃瓜葉病。但之前研究方法或使用重疊補丁嵌入可能會導致特征冗余或生成圖像時難以保證生成圖像的質量和與真實樣本的差異性,在處理復雜背景下植物病害精準識別的多尺度特征融合問題和長尾分布數(shù)據(jù)時存在一定局限性,導致在推廣和應用時受到限制。
本文主要關注復雜背景下不平衡數(shù)據(jù)木薯葉部病害識別問題。Liu等[18]提出Swin Transformer模型通過設計層級結構在不同層級上捕獲不同尺度圖像信息進行多尺度特征融合,且其自注意力機制根據(jù)輸入數(shù)據(jù)中不同位置之間的相關性來分配不同權重幫助模型關注與任務相關的圖像區(qū)域,在處理復雜背景圖像方面表現(xiàn)出色。因此,在該方法基礎上研究復雜背景下木薯葉部病害識別問題,并針對木薯葉部病害數(shù)據(jù)類別長尾分布特點,提出面向不平衡數(shù)據(jù)的木薯葉部病害識別方法。
2 模型方法
模型總體框架如圖1所示,主要由Swin Transformer骨干網(wǎng)絡、特征簇壓縮模塊和線性分類器3部分組成。首先采用Swin Transformer骨干網(wǎng)絡提取圖像特征,然后使用特征簇壓縮模塊將少樣本類別稀疏特征簇壓縮成稠密特征簇,最后采用線性分類器對壓縮后的特征進行分類,并使用遷移學習進行訓練。與傳統(tǒng)識別方法相比,面向不平衡數(shù)據(jù)的木薯葉部病害識別方法在3個方面進行優(yōu)化。
1)" 采用Swin Transformer為骨干網(wǎng)絡,借助其自注意力機制和層級結構在不同層次上融合全局和局部信息有效提取復雜背景下病害圖像特征。
2)" 增加特征簇壓縮模塊,將長尾分布中少樣本類別稀疏特征簇壓縮成稠密特征簇,減少樣本類別跨越?jīng)Q策邊界情況,降低分類錯誤。
3)" 采用遷移學習進行訓練,將預先在大規(guī)模數(shù)據(jù)集上進行預訓練的模型在木薯葉部病害數(shù)據(jù)集上進行微調。該方式有助于保留在大規(guī)模數(shù)據(jù)集上學到的通用特征,同時適應小規(guī)模木薯葉部圖像病害數(shù)據(jù)集。通過遷移學習,模型可以更好地泛化到長尾分布數(shù)據(jù)的少樣本類別,提高整體識別性能。
2.1 骨干網(wǎng)絡
Swin Transformer[18]作為一種視覺任務通用骨干網(wǎng)絡,該網(wǎng)絡模型首先通過圖像塊分割(Patch Partion)模塊將RGB圖像分割成相同大小不重疊的圖像塊。然后分4個階段對圖像塊進行處理。第一個階段包含線性嵌入模塊和Swin Transformer模塊,剩下3個階段均由圖像塊合并(Patch Merging)模塊和Swin Transformer模塊組成。這4個階段構成一種層級關系,每個階段處理后圖像塊大小變成上一階段的一半,通道數(shù)變?yōu)樯弦浑A段的2倍。經(jīng)過4個階段可以提取不同尺度的特征,有助于模型更好地捕獲圖像中的局部和全局信息。其中,Swin Transformer模塊由歸一化(LN)層、窗口多頭自注意力模塊(W—MSA)和移動窗口多頭自注意力模塊(SW—MSA)、殘差連接和多層感知機(MLP)組成,如圖2所示。W—MSA模塊的思想為將圖像劃分為不重合的窗口,每個窗口包含多個圖像塊,在局部窗口內計算自注意力。該方法減少了整個網(wǎng)絡的計算復雜度,但是單獨進行局部窗口注意力計算無法提取圖像高級語義信息。為解決此問題,SW—MSA模塊采用窗口移動的方法對特征圖信息進行循環(huán)移位,使不重疊的各個窗口進行信息交互,進而增大感受野以捕獲全局語義信息。
2.2 特征簇壓縮模塊
深度神經(jīng)網(wǎng)絡可以將樣本映射為密集的特征簇,但在長尾分布數(shù)據(jù)集上深度網(wǎng)絡模型會將樣本少的類別映射為稀疏簇,影響模型整體的性能。而特征簇壓縮(FCC)[24]是一種通過增強特征的類內聚合度進而提升模型在長尾分布數(shù)據(jù)集上性能的方法。具體地,特征簇壓縮方法將骨干網(wǎng)絡特征乘以特定的縮放因子,以建立原始特征和被乘特征之間的線性壓縮關系。在模型訓練過程中,將被乘特征映射成稠密特征簇,而這種壓縮關系迫使原始特征被映射成更緊密的簇,減少因越過決策邊界而導致錯誤分類情況。令骨干網(wǎng)絡特征最后一層特征為fO,將每個類別的原始特征fiO乘以特定的縮放因子τ(τgt;1),并將相乘后的特征輸入分類器來進行分類。該操作定義如式(1)所示。
fiM=fiO×τi
(1)
式中: fiM、fiO——
第i類壓縮特征和原始特征。
對于縮放因子τ,采用等差壓縮策略來控制每個類別的壓縮程度,定義如式(2)所示。
τi=1+γ×(1-i/C)
(2)
式中: γ——縮放超參數(shù),γgt;0;
C——類別數(shù)量;
i——類索引,i∈[0,C)。
3 試驗結果與分析
3.1 試驗數(shù)據(jù)集
馬凱雷雷大學人工智能(AI)實驗室在Kaggle網(wǎng)站上提供木薯葉部病害圖像數(shù)據(jù)集,該數(shù)據(jù)集包含的大多數(shù)圖像由農(nóng)民實地拍攝,并由農(nóng)業(yè)領域專家合作標注。數(shù)據(jù)集包括5類21 397幅木薯葉片圖像,其中木薯細菌性枯萎病(CBB)圖像1 087幅,木薯褐條?。–BSD)圖像2 189幅,木薯綠斑駁?。–GM)圖像2 386幅,木薯花葉?。–MD)圖像13 158幅,健康葉片(Healthy)圖像2 577幅,該數(shù)據(jù)集中典型的樣例圖像如圖3所示。試驗過程中,將數(shù)據(jù)按9∶1劃分出10%測試集,再將剩下90%的數(shù)據(jù)按9∶1分成訓練集和驗證集。表1展示數(shù)據(jù)集中各類別病害圖像訓練集、驗證集和測試集分布的統(tǒng)計信息。
3.2 試驗設置和評價指標
試驗環(huán)境硬件配置主要包括CPU為Intel(R) Core(TM) i9-10900K CPU @3.70 GHz,GPU為NVIDIA GeForce RTX 3090。軟件配置包括操作系統(tǒng)為Ubuntu 18.04.5 LTS,CUDA版本為11.8,深度學習框架為torch 1.13.1+cu117,語言為Python Vision 3.9.17。建立的模型在公開代碼Swin Transformer[18]基礎上實現(xiàn)。為驗證建立的模型性能,使用主流圖像分類模型ResNet50、EfficientNetB0、ViT[15]、SwinT[18]進行對比試驗,SwinTFCC預訓練模型使用timm庫swin_base_patch4_window7_224。試驗將所有圖像尺寸設置為224像素×224像素,Epoch設置為100,模型優(yōu)化器為Adamw,權重衰減為10-8,Batch size為32,不使用預訓練模型時初始學習率設為0.001,使用預訓練模型時初始學習率設為0.000 1,γ為0.85,從第35個Epoch開始使用特征簇模塊進行壓縮,模型使用交叉熵損失進行訓練。圖像數(shù)據(jù)集預處理包括裁剪、顏色抖動和CutMix。
為客觀評價木薯葉部病害識別效果,采用準確率Accuracy和F1值作為評估模型指標。準確率是預測正確的病害圖像數(shù)量占所有病害圖像的比例,F(xiàn)1值是精確率Precision和召回率Recall的調和平均值。除了準確率和F1值外,還結合模型參數(shù)Params、計算量FLOPs和推理時間比較模型性能。準確率、精確率、召回率和F1值的計算如式(3)~式(6)所示。
Accuracy=TP+TNTP+TN+FP+FN
(3)
Precision=TPTP+FP
(4)
Recall=TPTP+FN
(5)
F1=2×Precision×RecallPrecision+Recall
(6)
式中: TN——真負樣本;
FN——假負樣本;
FP——假正樣本;
TP——真正樣本。
3.3 試驗結果與分析
為客觀評估模型效果,基于本研究建立的模型和近幾年主流分類模型在木薯葉部病害圖像數(shù)據(jù)集上進行試驗,圖4為各模型訓練過程中損失值變化曲線。由圖4可以看出,隨著迭代次數(shù)增加,訓練集和驗證集損失下降至一個相對穩(wěn)定區(qū)域內波動。在驗證集損失曲線中,其他對比模型在接近100個Epoch時還存在較小波動,而建立的模型在第80個Epoch后相對平滑,說明本研究建立的模型可以提取有效特征,在提升識別性能同時節(jié)約訓練時間。
試驗模型準確率和F1值如表2所示。顯然,所提出的方法實現(xiàn)試驗模型中最高準確率和F1值,其測試集準確率和F1值分別達到90.75%、90.74%??梢钥吹礁黝悇eF1值均有明顯提升,測試集中樣本量最少的細菌性枯萎?。–BB)的F1值提升14.42%~22.13%。這是因為在訓練過程中使用預訓練模型和引入特征簇壓縮模塊。遷移學習通過利用源領域的知識和特征,在處理長尾分布數(shù)據(jù)時可以提供更好的性能,減輕數(shù)據(jù)稀缺和類別數(shù)據(jù)不平衡帶來的挑戰(zhàn)。特征簇壓縮模塊將少樣本類別稀疏特征壓縮為稠密特征以減少樣本類別錯誤分類概率。因此,所提出的方法可以適應復雜背景下不平衡數(shù)據(jù)木薯葉部病害圖像的實際應用。
為更直觀地觀察模型識別效果,使用Grad—CAM可視化病害識別過程,熱力圖中顯示紅色越深說明模型對該區(qū)域關注越多。圖5展示各模型對3個樣本的識別結果,其中標簽為細菌性枯萎?。–BB)的病害圖像中木薯葉片在陽光照射下出現(xiàn)反光情況或處于陰影下紋理信息模糊,且褐色病斑和土壤雜草較為相似增加了識別難度;標簽為健康葉片(Healthy)和木薯綠斑駁?。–GM)的圖像中由于葉片上存在雨水或處于發(fā)病初期病害癥狀不明顯,造成識別困難。這3個樣本在其他模型均識別錯誤的情況下,本研究建立的模型可以對其進行正確分類。整體來看,該模型可以更好地聚焦于木薯病害區(qū)域,有效改善復雜背景下木薯葉部病害圖像識別效果。
為進一步分析SwinTFCC模型在木薯葉部各類病害圖像中的表現(xiàn),圖6繪制該模型在測試集上預測結果的混淆矩陣。每行數(shù)據(jù)之和表示該類別真實標簽數(shù)量,每列之和代表該類預測標簽數(shù)量,對角線代表各個類別預測正確的數(shù)量。從圖6可以看出,樣本量最多的花葉病(CMD)分類效果最好,而健康葉片(Healthy)最易被分類為其他類別。因此,對健康葉片錯誤分類圖像進行分析,發(fā)現(xiàn)除極少圖像是由于分辨率較低造成識別錯誤外,大部分圖像是由于標簽錯誤導致分類錯誤。圖7為真實標簽為健康葉片,但SwinTFCC模型預測錯誤案例。從圖7可以看出,圖中真實標簽為健康葉片的圖像實際是病害圖像。說明數(shù)據(jù)集中存在噪聲數(shù)據(jù),而本研究建立的模型可以將其準確識別出來,表明它對標簽噪聲有一定的容忍度,而不容易受到噪聲數(shù)據(jù)的干擾,驗證模型具有較強的魯棒性。
同時,為比較不同模型的資源消耗情況,對于輸入尺寸為224像素×224像素圖像的模型參數(shù)量和計算量進行統(tǒng)計,并用模型識別圖像1 000次,計算圖像平均推理時間,具體的數(shù)據(jù)如表3所示。可以看出,改進的SwinTFCC模型與SwinT模型相比,在提高性能的同時參數(shù)量、計算量和推理時間沒有明顯變化。
結果表明,對于復雜背景下不平衡木薯病害圖像識別問題,改進的SwinTFCC模型可以從復雜背景中提取有效特征,降低不平衡類別數(shù)據(jù)分布中樣本少的類別特征跨越?jīng)Q策邊界概率,且使用遷移學習進行訓練可將預訓練模型中學習到的通用特征泛化到木薯病害識別問題中,在一定程度上提升病害識別性能。
3.4 消融試驗
為驗證所提出模塊的有效性,對預訓練模型和特征簇壓縮模塊進行消融試驗,試驗結果如表4所示??梢钥闯?,在使用預訓練模型時,模型準確率和F1值分別提升10.24%、11.06%,說明在訓練數(shù)據(jù)量較少時,預訓練模型在大規(guī)模數(shù)據(jù)集上學習到豐富的特征表示和知識,可以泛化到稀有類別,有助于提升小規(guī)模數(shù)據(jù)訓練模型性能。在使用特征簇壓縮模塊時,準確率和F1值分別提升0.47%、0.45%。試驗結果表明,所提出模塊在復雜背景下不平衡數(shù)據(jù)木薯葉部病害識別中展現(xiàn)出良好識別性能,驗證模塊的有效性。
4 結論
針對實際種植場景下植物病害圖像背景復雜特征提取困難和樣本不平衡問題,提出一種面向不平衡數(shù)據(jù)的木薯葉部病害識別方法。該方法以Swin Transformer為骨干網(wǎng)絡,多尺度學習復雜背景圖像特征。將骨干網(wǎng)絡提取的最后一層特征輸入特征簇壓縮模塊,通過將少樣本類別稀疏特征簇映射為密集特征簇,降低少樣本特征跨越?jīng)Q策邊界概率以減少不平衡數(shù)據(jù)錯誤分類。最后對壓縮后的特征進行分類,并使用遷移學習進行訓練。在Kaggle網(wǎng)站公開木薯葉部病害圖像數(shù)據(jù)集上各項試驗結果驗證該方法的有效性。
1)" 使用改進的Swin Transformer模型在小規(guī)模不平衡木薯葉部病害圖像數(shù)據(jù)集上準確率和F1值分別達到90.75%、90.74%,可以對復雜背景下不平衡木薯葉部病害圖像進行有效識別,該方法為不平衡木薯葉部病害識別提供新的思路。
2)" 使用特征簇壓縮模塊和遷移學習進行訓練的模型F1值分別提升0.45%、11.06%。表明在處理長尾分布數(shù)據(jù)時,將少樣本類別稀疏特征映射為稠密特征簇和預訓練模型學習到的通用特征在一定程度上可以提升模型性能。
參 考 文 獻
[1] FAO.The state of food security and nutrition in the world 2023 [R]. Rome: FAO, 2023.
[2] 李叢希, 譚硯文. 新冠肺炎疫情下世界木薯產(chǎn)業(yè)發(fā)展趨勢、挑戰(zhàn)及對中國的啟示[J]. 農(nóng)業(yè)展望, 2022, 18(10): 26-32.
Li Congxi, Tan Yanwen.Development trends, challenges and enlightenment to China of the world cassava industry under the COVID-19 pandemic [J]. Agricultural Outlook, 2022, 18(10): 26-32.
[3] 胡敏, 陳紅波, 許良鳳, 等.基于顏色和紋理特征的黃瓜病害識別算法[J]. 電子測量與儀器學報, 2015, 29(7): 970-977.
Hu Min, Chen Hongbo, Xu Liangfeng, et al. Cucumber disease recognition algorithm based on color and texture features [J]. Journal of Electronic Measurement and Instrumentation, 2015, 29(7): 970-977.
[4] 胡維煒, 張武, 劉連忠.基于Variance—SFFS的小麥葉部病害圖像識別[J]. 湖南農(nóng)業(yè)大學學報(自然科學版), 2018, 44(2): 225-228.
Hu Weiwei, Zhang Wu, Liu Lianzhong. Identification of wheat leaf diseases based on Variance—SFFS algorithm [J]. Journal of Hunan Agricultural University (Natural Sciences), 2018, 44(2): 225-228.
[5] Parikh A, Raval M S, Parmar C, et al. Disease detection and severity estimation in cotton plant from unconstrained images [C]. 2016 IEEE International Conference on Data Science and Advanced Analytics (DSAA), 2016: 594-601.
[6] Suresha M, Shreekanth K, Thirumalesh B. Recognition of diseases in paddy leaves using kNN classifier [C]. 2017 2nd International Conference for Convergence in Technology (I2CT), 2017: 663-666.
[7] 翟治芬, 徐哲, 周新群, 等. 基于樸素貝葉斯分類器的棉花盲椿象危害等級識別[J]. 農(nóng)業(yè)工程學報, 2015, 31(1): 204-211.
Zhai Zhifen, Xu Zhe, Zhou Xinqun, et al. Recognition of hazard grade for cotton blind stinkbug based on Naive Bayesian classifier [J]. Transactions of the Chinese Society of Agricultural Engineering, 2015, 31(1): 204-211.
[8] Xiao T, Liu H, Cheng Y. Corn disease identification based on improved GBDT method [C]. 2019 6th International Conference on Information Science and Control Engineering (ICISCE), 2019: 215-219.
[9]
Sladojevic S, Arsenovic M, Anderla A, et al. Deep neural networks based recognition of plant diseases by leaf image classification [J]. Computational Intelligence and Neuroscience, 2016.
[10] Agarwal M, Gupta S K, Biswas K.Development of Efficient CNN model for tomato crop disease identification [J]. Sustainable Computing: Informatics and Systems, 2020, 28: 100407.
[11] Wu Zhao, Jiang Feng, Cao Rui. Research on recognition method of leaf diseases of woody fruit plants based on transfer learning [J]. Scientific Reports, 2022, 12(1): 15385.
[12] 衛(wèi)雅娜, 王志彬, 喬曉軍, 等. 基于注意力機制與EfficientNet的輕量化水稻病害識別方法[J]. 中國農(nóng)機化學報, 2022, 43(11): 172-181.
Wei Yana, Wang Zhibin, Qiao Xiaojun, et al. Lightweight rice disease identification method based on attention mechanism and EfficientNet [J]. Journal of Chinese Agricultural Mechanization, 2022, 43(11): 172-181.
[13] Haque M A, Marwaha S, Deb C K, et al.Deep learning-based approach for identification of diseases of maize crop [J]. Scientific Reports, 2022, 12(1): 6334.
[14] Li Gaoqiang, Jiao Lin, Chen Peng, et al. Spatial convolutional self-attention-based transformer module for strawberry disease identification under complex background [J]. Computers and Electronics in Agriculture, 2023, 212: 108121.
[15] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: Transformers for image recognition at scale [C]. International Conference on Learning Representations, 2021.
[16] Han Kai, Xiao An, Wu Enhua, et al. Transformer in transformer [J]. Advances in Neural Information Processing Systems, 2021, 34: 15908-15919.
[17] Touvron H, Cord M, Douze M, et al. Training data-efficient image transformers amp; distillation through attention [C]. Proceedings of the 38th International Conference on Machine Learning. PMLR, 2021: 10347-10357.
[18] Liu Z, Lin Y, Cao Y, et al. Swin Transformer: Hierarchical vision transformer using shifted windows [C]. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 2021: 9992-10002.
[19] Chawla N V, Japkowicz N, Kotcz A. Special issue on learning from imbalanced data sets [J]. ACM SIGKDD Explorations Newsletter, 2004, 6(1): 1-6.
[20] Mani I, Zhang I. Knn approach to unbalanced data distributions: A case study involving information extraction [C]. Proceedings of Workshop on Learning from Imbalanced Datasets, 2003: 1-7.
[21] Kang B, Xie S, Rohrbach M, et al. Decoupling representation and classifier for long-tailed recognition [J]. arXiv:1910.09217, 2019.
[22] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327.
[23] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 2818-2826.
[24] Li Jian, Meng Ziyao, Shi Daqian, et al. FCC: Feature clusters compression for long-tailed visual recognition [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 24080-24089.
[25] Li X, Chen X, Yang J, et al. Transformer helps identify kiwifruit diseases in complex natural environments [J]. Computers and Electronics in Agriculture, 2022, 200: 107258.
[26] Wang Fengyi, Rao Yuan, Luo Qing, et al. Practical cucumber leaf disease recognition using improved Swin Transformer and small sample size [J]. Computers and Electronics in Agriculture, 2022, 199: 107163.