中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.7535/hbkd.2025yx04004
Corn-associated weed detection model based on WAAP-YOLO
MENG Zhiyong,JIA Yawei, ZHANG Xiuqing, NI Yongjing, ZHANG Ming,WU Qi, WU Chenxi (School of Information Science and Engineering,Hebei University of Science and Technology, Shijiazhuang,HebeiO50ol8,China)
Abstract:Toaddress the challenges of corn-associated weed detection,such as diverse shapes,dense occusion,complex backgrounds and scale variation,animproved object detection model,WAAP-YOLO,was proposed.First,the backbone was improved byreplacing someconvolutions with wavelet poling convolutions,effectively avoiding aliasingartifacts.Second,an agregatedatentionmechanism wasintroduced toconstructtheC2f-AA module,improving the model'sabilitytoextractwed featuresincomplexbackgrounds.Finall,ASF-P2-Netwas proposed toreplace theoriginal neck network,incorporating the P2 detection head through the scale sequence fusion module,reducing model complexityand significantly improving small object detection performance. Experimental results show that the WAAP-YOLO detection algorithm achieves 97.2% mAP @ (2 0.5, 85.8% mAP@0.5:0.95 ,94. 0% Fl score,and a parameter count of 2.1×106 ,outperforming common object detection models such as YOLOv5s,YOLOv8n,and YOLOvlOn.The proposed model can significantly enhance cornfield weed recognitionacuracy,which providessomereferenceforadvancing theintellgent and sustainable developmentof the
agricultural industry.
Keywords:computer neural networks;weed recognition;wavelet pooling;attention mechanism; multi-scale fusio
玉米作為全球三大糧食作物之一,其產(chǎn)量至關(guān)重要,而雜草是限制其產(chǎn)量的主要因素之一[1]。當(dāng)前的除草方式包括:人工除草[2],雖精準(zhǔn)但速度慢;化學(xué)除草[3],高效便捷但易污染環(huán)境;機(jī)械除草,環(huán)保但效率較低。在農(nóng)業(yè)生產(chǎn)中,如何準(zhǔn)確區(qū)分作物與雜草是個(gè)關(guān)鍵問(wèn)題。深度學(xué)習(xí)憑借其高準(zhǔn)確性和良好的泛化能力,為智慧農(nóng)業(yè)中的雜草管理提供了高效、環(huán)保的解決方案,既提升作業(yè)效率,又有助于保護(hù)農(nóng)業(yè)生態(tài)[4]。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)[5以強(qiáng)大的自學(xué)習(xí)和自適應(yīng)能力逐漸走進(jìn)大眾的視野。毛銳等[6]基于Faster-RCNN構(gòu)建了小麥的病害識(shí)別檢測(cè)模型,其中在主干網(wǎng)絡(luò)通過(guò)卷積核改進(jìn)以及下采樣延遲等方法進(jìn)行優(yōu)化,有效提高了模型精度。YANG等[基于 SSD 模型對(duì)實(shí)木表面缺陷進(jìn)行優(yōu)化改進(jìn),將 SSD網(wǎng)絡(luò)中的VGG部分替換為ResNet,改進(jìn)后的SSD模型對(duì)實(shí)木表面缺陷的平均檢測(cè)準(zhǔn)確率達(dá)到 89.7% 。盡管以Faster-RCNN為代表的二階段目標(biāo)檢測(cè)算法可以提高模型精度,但因?yàn)闄z測(cè)環(huán)節(jié)分為2個(gè)階段,速度較慢,影響了農(nóng)業(yè)智能部署的效率。
因此,為了兼顧檢測(cè)速度和精度,一階段目標(biāo)檢測(cè)算法逐漸受到關(guān)注,YOLO(you only look once)系列算法以其高效和實(shí)時(shí)性受到了廣泛關(guān)注。WU等[8基于YOLOv4構(gòu)建了一個(gè)新的主干網(wǎng),通過(guò)引人多分支結(jié)構(gòu)并結(jié)合擴(kuò)張卷積等方法,將小目標(biāo)雜草的AP值提高了 15.1% . mAP 提高了 4.2% 。LI等基于YOLOv7構(gòu)建了一個(gè)名為YOLOv7-FWeed 的雜草檢測(cè)模型,此模型使用F-ReLU和 MaxPool多頭自我注意模塊提高了雜草識(shí)別的準(zhǔn)確性。以上研究通過(guò)優(yōu)化基準(zhǔn)模型提高了特定雜草目標(biāo)的檢測(cè)精度,但面對(duì)樣本尺度多樣、種類繁多、密集遮擋和背景復(fù)雜等問(wèn)題,檢測(cè)仍存在挑戰(zhàn)。
YOLOv8憑借C2f模塊的多尺度特征融合能力、解耦檢測(cè)頭與空間通道注意力機(jī)制的協(xié)同優(yōu)化,以及高分辨率特征保留技術(shù),在應(yīng)對(duì)玉米雜草樣本多樣性、植株遮擋和復(fù)雜背景干擾等難題時(shí)展現(xiàn)出顯著優(yōu)勢(shì)?;诖?,本文提出了一種針對(duì)玉米雜草檢測(cè)的WAAP-YOLO模型,主干網(wǎng)絡(luò)中將部分卷積替換為小波池化卷積,以避免混疊偽影的問(wèn)題,提升圖像細(xì)節(jié)的保留和準(zhǔn)確性;將C2f 模塊融合了聚合注意力機(jī)制(aggrega-ted attention),對(duì)玉米雜草的特征信息進(jìn)行細(xì)節(jié)提取,進(jìn)一步增強(qiáng)模型在復(fù)雜背景下對(duì)雜草的識(shí)別能力;提出ASF-P2-Net對(duì)Neck網(wǎng)絡(luò)進(jìn)行改進(jìn),引人注意力尺度序列融合框架(ASF),并通過(guò)尺度序列特征融合模塊(SSFF)增加P2檢測(cè)頭(Detect),顯著增強(qiáng)對(duì)細(xì)小雜草的檢測(cè)。
1 相關(guān)工作
1.1 YOLOv8模型
YOLOv8是目前YOLO系列中較為先進(jìn)的模型,在YOLOv5的基礎(chǔ)上構(gòu)建,進(jìn)一步提升了識(shí)別的準(zhǔn)確性,基于縮放系數(shù)分為 N/S/M/L/X 尺度的不同大小的模型,用于滿足不同場(chǎng)景需求。
YOLOv8模型的構(gòu)架包括輸入層、主干網(wǎng)絡(luò)、Neck網(wǎng)絡(luò)和頭部網(wǎng)絡(luò)。輸人層對(duì)輸人至網(wǎng)絡(luò)的圖像進(jìn)行預(yù)處理,通過(guò)自適應(yīng)縮放提高圖像處理速度[10]。主干網(wǎng)絡(luò)主要由Conv、C2f 和 SPPF 模塊組成。其中,SPPF 通過(guò)連續(xù)3次最大池化操作捕捉多尺度物體信息,提升目標(biāo)檢測(cè)的準(zhǔn)確性[11]。Neck部分包含路徑聚合網(wǎng)絡(luò)(path aggregation network,PAN)[12]和特征金字塔網(wǎng)絡(luò)(Feature pyramid network,F(xiàn)PN)[13]結(jié)構(gòu),用于多尺度特征融合,使特征融合更加豐富。頭部網(wǎng)絡(luò)采用主流解耦head結(jié)構(gòu),完成圖像目標(biāo)檢測(cè)和分類任務(wù),進(jìn)而實(shí)現(xiàn)目標(biāo)檢測(cè)框位置和目標(biāo)類別的輸出。
1.2玉米雜草圖像采集
本文選取自然環(huán)境中常見(jiàn)的4種玉米雜草圖像,分別為藍(lán)草、藜草、刺薊、莎草,圖像采集設(shè)備為佳能Power ShotSX600HS相機(jī)。圖片數(shù)據(jù)采集涵蓋了上午、中午和下午等不同時(shí)間段,以及多種天氣狀況。玉米雜草數(shù)據(jù)集包括1200張藍(lán)草圖像、1200張藜草圖像、1200張刺薊圖像、1200張莎草圖像以及1200張玉米圖像,全部為JPG格式,雜草數(shù)據(jù)集圖片示例如圖1所示。上述采集方案充分考慮了樣本特征的多樣性和豐富性,同時(shí)確保了不同類型樣本數(shù)量的均衡分布。
1.3 數(shù)據(jù)集建立
將雜草與玉米圖片按照 8:2 劃分為訓(xùn)練集和驗(yàn)證集,將數(shù)據(jù)集在labelImg軟件上進(jìn)行標(biāo)注,并提取出每個(gè)標(biāo)注點(diǎn)周圍的像素點(diǎn)作為注釋文件,存儲(chǔ)為.txt文件以獲取圖像中雜草的位置。
2 網(wǎng)絡(luò)主干改進(jìn)
玉米雜草檢測(cè)因生存環(huán)境和生長(zhǎng)特性面臨諸多挑戰(zhàn):雜草結(jié)構(gòu)特征多樣,紋理復(fù)雜,增加檢測(cè)難度;雜草生長(zhǎng)于泥濘草地且存在遮擋,背景復(fù)雜,易導(dǎo)致錯(cuò)檢和漏檢;雜草種類繁多且部分個(gè)體細(xì)小分散,難以識(shí)別。
本研究以YOLOv8n為基準(zhǔn)模型進(jìn)行下列改進(jìn),構(gòu)建一種適用于玉米雜草的檢測(cè)模型WAAP-YOLO:1)將模型主干網(wǎng)絡(luò)中部分卷積替換為小波池化卷積,特征分辨率減半,在保持檢測(cè)精度的同時(shí)避免嚴(yán)重的混疊偽影現(xiàn)象;2)引人聚合注意力機(jī)制,提升特征提取能力,降低干擾因素影響,使其更適用于玉米雜草檢測(cè);3)改進(jìn)模型的Neck部分,以ASF實(shí)現(xiàn)創(chuàng)新的多尺度特征融合,并引入P2檢測(cè)頭,有效增強(qiáng)網(wǎng)絡(luò)對(duì)小目標(biāo)的檢測(cè)能力。改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
2.1 Backbone改進(jìn)
2.1.1小波池化卷積
在自然環(huán)境中對(duì)玉米雜草進(jìn)行檢測(cè)時(shí),玉米雜草形態(tài)各異,其中豐富的紋理會(huì)影響檢測(cè)效果。傳統(tǒng)的YOLOv8n使用普通跨步長(zhǎng)卷積對(duì)輸入的特征進(jìn)行下采樣時(shí),未考慮奈奎斯特采樣定理(Nyquist),從而產(chǎn)生嚴(yán)重的混疊現(xiàn)象[14],導(dǎo)致細(xì)節(jié)特征因信息丟失而被忽略。為解決這一問(wèn)題,將小波池化[15]思想融人Conv,形成小波池化卷積(WaveLP-Conv),其結(jié)構(gòu)如圖3所示。
Conv BatchNorm2d SiLU Wavelet pooling
小波池化模型主要原理為離散小波變換[16](discrete wavelet transform,DWT)。它首先采用小波池化技術(shù)將特征分解為高頻細(xì)節(jié)子帶和低頻近似子帶,通過(guò)保留低頻近似子帶,丟棄高頻細(xì)節(jié)子帶,進(jìn)行反向離散小波變換處理,來(lái)解決下采樣過(guò)程中可能存在的頻率混疊問(wèn)題。在此改進(jìn)中,第3層的更換使特征圖從更淺層開始保留更多的低頻信息,并在下采樣過(guò)程中減少對(duì)特征細(xì)節(jié)的破壞。第5層和第7層則在進(jìn)一步的下采樣過(guò)程中持續(xù)保留特征圖中的重要細(xì)節(jié)信息,即使在較深的特征圖中,也能保持一定的圖像結(jié)構(gòu)和邊緣信息。
2.1.2 聚合注意力機(jī)制
玉米田間雜草檢測(cè)面臨復(fù)雜背景干擾及與作物交錯(cuò)生長(zhǎng)引發(fā)的誤檢、漏檢難題,為進(jìn)一步降低圖像中其他干擾因素的影響,提升模型對(duì)雜草有效特征的提取能力,在C2f模塊中添加聚合像素聚合注意力機(jī)制(aggregated attention,AA)[17]。
AA原理為通過(guò)計(jì)算特征圖中的不同通道和空間位置的注意力權(quán)重,自動(dòng)調(diào)整各個(gè)特征的貢獻(xiàn)度,增強(qiáng)模型對(duì)有效信息的選擇能力,在復(fù)雜背景任務(wù)中表現(xiàn)更佳。具體而言,AA首先生成多樣化的親和矩陣,在單個(gè)注意力層內(nèi)融合位置相關(guān)性和對(duì)象相關(guān)性以提升特征提取能力;隨后,計(jì)算查詢(Query,Q)與位置嵌入后的鍵( Key,K+PE) 的相關(guān)性得分,強(qiáng)化模型對(duì)玉米與雜草空間拓?fù)潢P(guān)系的感知能力;同時(shí),引入可學(xué)習(xí)查詢嵌入(QE),通過(guò)端到端訓(xùn)練學(xué)習(xí)雜草形態(tài)先驗(yàn)知識(shí),增強(qiáng)查詢向量 的語(yǔ)義判別性。計(jì)算公式為
將注意力權(quán)重拆分為位置相關(guān)權(quán)重和對(duì)象相關(guān)權(quán)重,優(yōu)化玉米與雜草交錯(cuò)區(qū)域的邊界回歸,通過(guò)通道權(quán)重優(yōu)化抑制土壤背景干擾;然后分別與查詢向量 T 結(jié)合,通過(guò)加權(quán)聚合得到最終輸出。計(jì)算公式為
Y=Wpos?T+Wobj?T
基于AA能夠在復(fù)雜場(chǎng)景中有效增強(qiáng)對(duì)關(guān)鍵特征的選擇能力的特點(diǎn),本文在YOLOv8n主干網(wǎng)絡(luò)的第6層和第8層C2f模塊中引人AA,將C2f替換為C2f_AA模塊,結(jié)構(gòu)如圖4所示,進(jìn)一步增強(qiáng)模型對(duì)雜草特征的提取能力,減少圖像中干擾因素的影響,有效解決雜草的誤檢和漏檢問(wèn)題。
2.2 Neck改進(jìn)
玉米雜草種類多樣、個(gè)體微小且分散,傳統(tǒng) YOLOv8n 的語(yǔ)義與空間信息融合機(jī)制未優(yōu)化,多尺度特征互補(bǔ)性不足,且檢測(cè)頭僅覆蓋P3—P5層(P3層:用于檢測(cè)大小在 8×8 以上的目標(biāo);P4層:用于檢測(cè)大小在16×16 以上的目標(biāo);P5層:用于檢測(cè)大小在 32×32 以上的目標(biāo)),導(dǎo)致小目標(biāo)檢測(cè)性能差,高分辨率場(chǎng)景下細(xì)粒度特征難以捕捉。針對(duì)上述問(wèn)題,本文設(shè)計(jì)了一種多尺度特征融合網(wǎng)絡(luò)ASF-P2-Net(見(jiàn)圖5),在Neck部分引人注意力尺度序列融合框架[18],實(shí)現(xiàn)創(chuàng)新的多尺度特征融合,并通過(guò)尺度序列特征融合模塊增加 P2檢測(cè)頭,實(shí)現(xiàn)低分辨率與高分辨率特征的平衡融合。
ASF由尺度序列特征融合(SSFF)模塊和三重特征編碼器(TFE)模塊組成,結(jié)合通道和位置注意力機(jī)制(CPAM對(duì)兩者特征信息進(jìn)行融合,從而顯著提升實(shí)例分割的準(zhǔn)確性。
2.2.1 SSFF模塊
SSFF 是將檢測(cè)頭捕獲的不同空間尺度覆蓋各種大小和形狀的雜草類型的特征圖進(jìn)行跨尺度融合。由于高分辨率特征圖級(jí)別P3包含對(duì)小目標(biāo)檢測(cè)和分割至關(guān)重要的信息,所以此模塊基于P3級(jí)別設(shè)計(jì)。SSFF結(jié)構(gòu)如圖6所示。
圖6中3D Conv表示將3個(gè)維度的數(shù)據(jù)進(jìn)行拼接;BN(batch normalization)用于對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,提高模型的泛化能力;SiLU為平滑函數(shù),在整個(gè)定義域內(nèi)都有導(dǎo)數(shù),利于模型優(yōu)化。
2.2.2 三重特征編碼器(TFE)模塊
TFE通過(guò)分離大、中、小尺寸特征,進(jìn)而強(qiáng)化大尺寸特征細(xì)節(jié),提升對(duì)細(xì)節(jié)特征的捕捉能力,其結(jié)構(gòu)如圖7所示。
對(duì)于大尺寸特征圖,通過(guò)卷積模塊減少通道至1C,并結(jié)合最大池化和平均池化實(shí)現(xiàn)下采樣,保留高分辨率特征和細(xì)節(jié)多樣性。小尺寸特征圖則通過(guò)卷積調(diào)整通道,并采用最近鄰插值法上采樣,保留局部特征,避免小目標(biāo)特征丟失。最終,將調(diào)整后的大、中、小尺寸特征圖通過(guò)卷積處理并在通道維度上融合。
2.2.3 CPAM
CPAM用于提取SSFF和TFE通道中包含有代表性特征的信息,以集成詳細(xì)特征信息和多尺度特征信息。輸入1(TFE)為通道注意網(wǎng)絡(luò),包含TFE的詳細(xì)特征。在不對(duì)通道維數(shù)進(jìn)行降低的情況下,使用大小為 K 的1D卷積來(lái)實(shí)現(xiàn)局部跨通道交互的捕捉。接著,將通道注意力機(jī)制的輸出與輸入2(SSFF)的特征圖輸入到位置注意力網(wǎng)絡(luò)中,用于提取雜草圖像的關(guān)鍵位置信息。位置注意力機(jī)制將輸入特征圖按寬度和高度分割,分別進(jìn)行編碼后再合并生成最終輸出。
3實(shí)驗(yàn)結(jié)果與分析
3.1 模型評(píng)價(jià)指標(biāo)
為評(píng)估本模型在檢測(cè)雜草數(shù)據(jù)集上的有效性,采用以下指標(biāo)來(lái)檢測(cè)性能。這些指標(biāo)能夠反映模型在不同層面的表現(xiàn),包括檢測(cè)的準(zhǔn)確性、綜合性能以及計(jì)算效率。相關(guān)計(jì)算公式如式(3)—(7)所示。
式中:TP(true positive)為正確預(yù)測(cè)的正例個(gè)數(shù);FP(1 positive)為錯(cuò)誤預(yù)測(cè)的正例個(gè)數(shù);FN(1 nega-tive)為劃分為負(fù)例的正例個(gè)數(shù)。
式中: N 為類別數(shù)量,本文中 N=5 ;AP是指 P 和 R 的統(tǒng)合; mAP 是所有目標(biāo)種類AP的平均值。實(shí)驗(yàn)中使用IOU閾值為0.5時(shí)的均值平均精度,即 mAP@0.5 評(píng)估標(biāo)準(zhǔn)。
F1是精確率和召回率的調(diào)和平均,用于評(píng)估模型的綜合性能。
3.2 實(shí)驗(yàn)條件
實(shí)驗(yàn)運(yùn)行環(huán)境如下:CPU采用 AMD EPYC 7352 24-Core Processor,GPU 采用 RTX 4090,顯存為24 GB,軟件環(huán)境為Python3.9版本、PyTorch 2.0.1版本和CUDA11.8版本。批處理大小batch size設(shè)置為16,學(xué)習(xí)率設(shè)置為0.01,優(yōu)化器 SGD的動(dòng)量設(shè)置為0.937,數(shù)據(jù)增強(qiáng)采用Mosaic,輸人圖像的分辨率設(shè)置為 640×640 ,所有模型總共訓(xùn)練200個(gè)epoch。
3.3不同注意力機(jī)制性能對(duì)比實(shí)驗(yàn)
為研究引人 AA 的合理性,選取代表性注意力機(jī)制 CBAM[19](convolutional block attention module)、EMA[2o](efficient multi-scale attention) CA[21] (coord attention)進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果見(jiàn)表1。
由表1可知:當(dāng)引人AA后,模型的 mAP@0.5 較原模型提升了0.8個(gè)百分點(diǎn),模型的參數(shù)量降低了0.6×106 ;引入EMA和CA后, mAP@0.5 出現(xiàn)了不同程度的降低,各自降低0.3個(gè)和0.2個(gè)百分點(diǎn);引入CBAM后, mAP@0.5 提升了0.2個(gè)百分點(diǎn),但是在 mAP@0.5:0.95 中,降低了0.5個(gè)百分點(diǎn)。
與AA模型相比,CBAM模型雖然融合了通道和空間維度的注意力機(jī)制,增強(qiáng)了對(duì)局部特征的捕捉能力,但它在處理長(zhǎng)距離特征關(guān)聯(lián)方面存在局限,在協(xié)調(diào)玉米伴生雜草局部特征與葉片整體上存在缺陷。
EMA模型僅通過(guò)調(diào)制特征通道來(lái)捕捉局部特征的重要性,在捕捉全局上下文信息時(shí)有一定限制條件。CA模型能聚焦與目標(biāo)相關(guān)的區(qū)域,減少背景噪聲的影響,但是在復(fù)雜背景中可能無(wú)法穩(wěn)定提取有效的雜草目標(biāo)。綜上可知,引人AA后在減小參數(shù)量的同時(shí)提升了提取特征能力,表明引人AA對(duì)玉米雜草檢測(cè)是有效的。
3.4 模塊消融實(shí)驗(yàn)
為研究引人WaveLP-Conv模塊(A)、C2f-AA模塊(B)和ASF-P2-Net模塊(C)對(duì)所建立的玉米雜草模型檢測(cè)性能的影響,在此數(shù)據(jù)集上進(jìn)行測(cè)驗(yàn)與分析以評(píng)估優(yōu)化效果和開展消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。
實(shí)驗(yàn)表明,在Yolov8n模型中加人A模塊后, mAP@0.5 提升0.6個(gè)百分點(diǎn),F(xiàn)1提升2個(gè)百分點(diǎn),同時(shí)模型的參數(shù)量減少了 0.6×106 。即WaveLP-Conv模塊提升了提取目標(biāo)位置的清晰程度,通過(guò)特征融合增強(qiáng)了目標(biāo)語(yǔ)義表征能力,在提高模型檢測(cè)精度的同時(shí),也能有效減少模型參數(shù)量,展現(xiàn)出顯著的優(yōu)勢(shì)。
引進(jìn)B和C模塊時(shí), mAP@0.5 提升了1個(gè)百分點(diǎn),模型參數(shù)量降低了 0.7×106 。即C2f-AA模塊和ASF-P2-Net的加入能夠帶來(lái)精度的提升,自動(dòng)識(shí)別圖像中重要的區(qū)域,進(jìn)一步對(duì)玉米雜草的特征信息進(jìn)行細(xì)節(jié)提取,幫助模型進(jìn)行更深層的特征提取。
加入全部模塊,相較于加入B和 C,mAP(?0.5 提升0.7個(gè)百分點(diǎn), mAP@0.5:0.95 提升0.6個(gè)百分點(diǎn),F(xiàn)1提升1個(gè)百分點(diǎn),參數(shù)量降低 0.2×106 。
綜上,消融實(shí)驗(yàn)結(jié)果表明,3個(gè)模塊的引入使WAAP-YOLO模型達(dá)到了最優(yōu)的檢測(cè)性能, mAP@0.5 提升1.7個(gè)百分點(diǎn), mAP@0.5:0.95 提升1.3個(gè)百分點(diǎn),F(xiàn)1提升3個(gè)百分點(diǎn),參數(shù)量降低 0.9×106 。所引入的模塊有效提高了模型的檢測(cè)能力,減小了參數(shù)量,充分發(fā)揮了各個(gè)模塊的功能。
3.5 主流模型性能對(duì)比實(shí)驗(yàn)
為研究WAAP-YOLO模型與其他模型對(duì)于玉米伴生雜草檢測(cè)性能的差異,選取了主流目標(biāo)檢測(cè)模型展開性能對(duì)比實(shí)驗(yàn),包括:MobileNetV3-SSD,其將MobileNetV3作為主干網(wǎng)絡(luò)與SSD的多尺度檢測(cè)框架相結(jié)合;ShufleNetv2-Faster-RCNN模型,其將 ShuffleNetV2作為主干網(wǎng)絡(luò)用于特征提取與Faster-RCNN融合;YOLO 系列——YOLOv5s、YOLOv8n、YOLOv10n、YOLOv10s。實(shí)驗(yàn)結(jié)果如表3所示。
由表3可知,與其他模型相比,WAAP-YOLO在精度、F1值和參數(shù)量上均有顯著改進(jìn)。與Mobile-NetV3-SSD、ShufleNetV2-Faster-RCNN、YOLOv5s、YOLOv8n、YOLOv10n 和 YOLOv10s 相 比,其mAP@0.5 分別提升了 6,5,5,1,5,2,1,7,3,1,2,3 個(gè)百分點(diǎn);F1分別提高了8、8、7、3、4、3個(gè)百分點(diǎn);同時(shí),參數(shù)量減少了 4.7×106?5.3×106?5.1×106?0.9×106?0.5×106 和 5.1×106 。從最終結(jié)果可以看出,WAAP-YOLO模型對(duì)于此玉米伴生雜草數(shù)據(jù)集各方面的性能較其他模型更加適用。為了驗(yàn)證各模型的實(shí)際檢測(cè)效果,選擇單獨(dú)拍攝的每類雜草各一張圖片進(jìn)行檢測(cè),可視化結(jié)果如圖8所示。
由圖8可知:在藍(lán)草的檢測(cè)中,檢測(cè)效果最好的為WAAP-YOLO,而 ShuffleNetV2-Faster-RCNN和MobileNetV3-SSD的檢測(cè)均低于 70.00% ,檢測(cè)效果欠佳;在藜草的檢測(cè)中,YOLOvl0s、YOLOv8n、Mo-bileNetV3-SSD 存在目標(biāo)漏檢,另外 ShufleNetV2-Faster-RCNN 模型將小目標(biāo)玉米幼苗錯(cuò)誤的檢測(cè)為藜草,造成誤檢;在刺薊檢測(cè)中,YOLOv8n 漏掉小目標(biāo)刺薊雜草;在莎草的檢測(cè)中,YOLOv1Os、YOLOv10n、YOLOv5s、ShufleNetV2-Faster-RCNN和 MobileNetV3-SSD均出現(xiàn)漏檢,這是由于莎草葉片狹長(zhǎng),容易與玉米特征混淆,增大了檢測(cè)難度。上述檢測(cè)過(guò)程中出現(xiàn)的漏檢和錯(cuò)檢問(wèn)題,主要是由于各個(gè)模型在處理復(fù)雜背景中的雜草目標(biāo)特征提取時(shí)能力有限,進(jìn)一步說(shuō)明引入注意力機(jī)制的必要性。
綜上所述,在玉米伴生雜草圖片檢測(cè)和識(shí)別任務(wù)中,相較于其他6種模型,WAAP-YOLO在可良好檢測(cè)玉米伴生雜草的同時(shí)減小了模型參數(shù)量,沒(méi)有出現(xiàn)漏檢或者誤檢的情況,在4種雜草上保持較為優(yōu)秀的檢測(cè)精度,還使其能夠捕捉到更多特征細(xì)節(jié),從而高效地檢測(cè)玉米伴生雜草。
4結(jié)語(yǔ)
所提WAAP-YOLO目標(biāo)檢測(cè)算法模型使用一種不同環(huán)境條件以及多雜草類別的數(shù)據(jù)集,針對(duì)玉米伴生雜草中的易遮擋、背景復(fù)雜、尺度不一等問(wèn)題進(jìn)行了改進(jìn),克服了YOLOv8n識(shí)別準(zhǔn)確率低、模型參數(shù)量大、小目標(biāo)誤檢漏檢等局限性,實(shí)驗(yàn)驗(yàn)證了其有效性。主要結(jié)論如下。
1)將主干部分中的卷積部分替換為小波池化卷積,將特征分辨率減半,在保持檢測(cè)精度的同時(shí)避免嚴(yán)重的混疊偽影現(xiàn)象,對(duì)提高特征提取的質(zhì)量起到關(guān)鍵作用。
2)在主干模型中引入聚合注意力機(jī)制,構(gòu)建C2f-AA模塊替換主干網(wǎng)絡(luò)中的C2f模塊,增強(qiáng)了模型對(duì)雜草特征的提取能力,進(jìn)一步提升了模型精確度;以ASF-P2-Net替換原始Neck 網(wǎng)絡(luò),降低了模型復(fù)雜度,通過(guò)調(diào)整和整合不同尺度的特征增強(qiáng)對(duì)復(fù)雜場(chǎng)景的應(yīng)用,并通過(guò)尺度序列融合模塊引人P2檢測(cè)頭,對(duì)小目標(biāo)模型檢測(cè)更加有效。模型的 mAP@0.5 指標(biāo)、 mAP@0.5:0.95 指標(biāo)、F1、參數(shù)量分別為 97.2%.85.8% 、94.0%.2.1×106 ,能夠?qū)τ衩纂s草進(jìn)行精確識(shí)別。
本文方法的核心優(yōu)勢(shì)在于其對(duì)多尺度目標(biāo)檢測(cè)的良好適應(yīng)性,特別適用于目標(biāo)尺度差異顯著、存在復(fù)雜遮擋以及分布密集的場(chǎng)景,如植物病蟲害檢測(cè)、植物雜草檢測(cè)。
本文計(jì)算復(fù)雜度較高,限制了其在實(shí)際應(yīng)用中的推廣。未來(lái)可以進(jìn)一步優(yōu)化模型,使其更加輕量化,減少計(jì)算量,從而適應(yīng)嵌入式設(shè)備等低資源環(huán)境中的部署需求,為玉米雜草檢測(cè)在實(shí)際農(nóng)業(yè)場(chǎng)景中的應(yīng)用提供更加高效且可行的解決方案。
參考文獻(xiàn)/References:
[1]張金夢(mèng),張倩,王明,等.卷積神經(jīng)網(wǎng)絡(luò)及其在田間雜草管理中應(yīng)用的研究進(jìn)展[J].蔬菜,2024(7):28-36. ZHANGJinmeng,ZHANGQian,WANG Ming,etalResearchprogessonconvolutionalneuralnetworksandtheiraplicationiweed management of field[J].Vegetables,2024(7):28-36.
[2]李雪峰,施晨輝,宋名果,等.基于Yolov4 模型的玉米幼苗與雜草識(shí)別檢測(cè)[J].熱帶農(nóng)業(yè)工程,2023,47(1):1-6. LI Xuefeng,SHChenhui,ONG MingguoetaldentificationanddetectionofmaizeseedlingsandweedsbasedonYlov4neto]. TropicalAgriculturalEngineering,2O23,47(1):1-6.
[3]武志坤,張偉,元立強(qiáng),等.基于改進(jìn)YOLO v5 的豆田雜草分布研究[J].農(nóng)機(jī)化研究,2025,47(4):77-82. WUZhikun,ZHANG Wei,QILiqiang,etal.Distributionofweds insoybeafieldsbasedonimprovedYOLOv5[J]JournalofAgricultural Mechanization Research,2025,47(4):77-82.
[4]唐伯青,趙大勇,熊鋒,等.基于視覺(jué)自注意力模型的苗期玉米與雜草檢測(cè)方法[J].南京農(nóng)業(yè)大學(xué)學(xué)報(bào),2024,47(4):772-781. TANGBoqing,ZHAODayong,XONGFengetal.Detectionmethodofmaizeandwedsatseedlingstagebasedonvisualself-attion model[J].Journal of Nanjing AgriculturalUniversity,2024,47(4):772-781.
[5]張永強(qiáng),李勝男,張子強(qiáng),等.R-YOLO軌道人員目標(biāo)檢測(cè)模型[J].河北科技大學(xué)學(xué)報(bào),2023,44(6):580-588. ZHANG Yongqiang,LISengnan,ZHANG Ziqiang,etal.R-YLOorbitalpersonneltargetdetectionmodelJ]JournalofHbeiUniver sity of Science and Technology,2023,44(6):580-588.
[6]毛銳,張宇晨,王澤璽,等.利用改進(jìn)Faster-RCNN識(shí)別小麥條銹病和黃矮病[J].農(nóng)業(yè)工程學(xué)報(bào),2022,38(17):176-185. MAO Rui,ZHANG Yuchen,WANG Zexi,etal.Recognizing stripe rust andyellowdwarfof wheatusing improvedFaster-RCNN[J]. Transactions of the Chinese Society of Agricultural Engineering,2022,38(17):176-185.
[7]YANGYutu,WANGHonghong,JIANGDng,etal.SurfacedetectionofsolidooddefectsbasedonSDimproved withResNet]For ests,2021. DOI:10.3390/f12101419.
[8]WU Haoyu,WANGYongshang,ZHAOPengfei,et al.Smalltarget wed-detectionmodelbasedonYOLO-V4withimprovedbackbone and neck structures[J].Precision Agriculture,2023,24(6):2149-2170.
[9]LIJinyang,ZHANG Wei,ZHOU Hongetal.Weed detection insoybean fieldsusing improvedYOLOv7andevaluating herbicidereduc tion efficacy[J].FrontiersinPlant Science,2024.DOI:10.3389/fpls.2023.1284338.
[10]LIULizhao,LIPinrui,WANGDahan,etalAwindturbinedamagedetectionalgorithmdesignedbasedonYOLOv8J].Aliedoft Computing,2024.DOI:10.1016/j.asoc.2024.111364.
[11]SOLIMANIF,CARDELICCHIOA,DIMAUROG,etal.Optimizing tomatoplant phenotyping detection:Bosting YOLOv8architec ture to tackle datacomplexityJ].Computersand Electronics in Agriculture,2024.DOI:10.1016/j.compag.2024.108728.
[12]LIUShu,QLuQIHaifangetal.PathagegationnetorkforistancesegmentatioC]/18IEEE/CVFConferencenCoputer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:8759-8768.
[13]LINTY,DOLLAR P,GIRSHICK R,etal.Feature pyramid networks forobject detection[C]/2017 IEEEConferenceonComputer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,20l7:936-944.
[14]GRBINKIJ,KEUPERJKEUPER.lisinganddversarialobustgeneralizationofNsJ].achineLearng,2): 3925-3951.
[15]WILLIAMST,IR.WaveletpolingforconvolutioalnuralntworksC]/InterationalConferenceonLearingRepresentatios. Vancouver:ICLR,2018:1-12.
[16]王美仙,郭威艷,高磊.基于離散小波變換特征的農(nóng)產(chǎn)品葉片表面農(nóng)藥殘留檢測(cè)方法[J].農(nóng)業(yè)工程,2024,14(6):112-117. WANGMeixian,GUO Weiyan,GAOLei.Amethodfordetecting pesticideresidues onsurfaceofagricultural products leaves basedon discrete wavelet transform features[J].Agricultural Engineering,2O24,14(6):112-117.
[17]SHIDaiTransNeXt:RobustfovealvisualperceptionforvisiontransformersC]/2024IEEE/CVFConferenceonComputerVisionand Pattern Recognition(CVPR).Seattle:IEEE,2024:17773-17783.
[18]KANG M,TINGCM,TINGFF,et al.ASF-YOLO:Anovel YOLOmodel withatentional scale sequencefusionforcelistance segmentation[J].Image and Vision Computing,2024.DOI:10.1016/j.imavis.2024.105057.
[19]WOO,ARKJLEEJY,etalBACouoalboaentiomoduleC/mputerVsiCCV18ampringer8-19.
[20]OUYANDan,HESu,ZAGuongetal.ffentmultisaleaentiomodlewitosspatiallearingCEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).Rhodes Island:IEEE,2023:1-5.
[21]HOUQibinZHOUDaquanFENGJiashiCoordinateatentionforffcent mbile networkdesignC/021IEE/CVFConferenceon Computer Vision and Pattern Recognition(CVPR).Nashville:IEEE,2021:137o8-13717.