摘要:針對現(xiàn)有的語義分割網(wǎng)絡(luò)在復(fù)雜光照條件下識別實時性差、對雜草與作物重疊區(qū)域易誤分類的問題,以甜菜和雜草作為識別對象,提出融合頻率特征的實時分割網(wǎng)絡(luò)FA—BiSeNetV2。首先,以BiSeNetV2模型中的語義分支為出發(fā)點,在各聚集擴(kuò)展層后加入二維離散余弦變化層提取出不同層次的頻率特征;其次,對頻率特征采用自適應(yīng)頻率處理模塊以解析場景數(shù)據(jù)分布,將處理后的各階段頻率特征加權(quán)求和得到多層次頻率特征;最后,采用多尺度空間頻率融合模塊對聚合層特征和多層次頻率特征從全局和局部兩個方面進(jìn)行融合,實現(xiàn)空間特征重構(gòu)。在公開數(shù)據(jù)集RoniRob的試驗結(jié)果表明,F(xiàn)A—BiSeNetV2模型的平均交并比達(dá)87.12%,平均像素精度為93.04%,相比BiSeNetV2模型,分別提高4.71%、6.87%,參數(shù)量僅為3.138 M。
關(guān)鍵詞:甜菜;雜草識別;頻率特征;語義分割;輕量化;實時分割
中圖分類號:S451; TP391" " " 文獻(xiàn)標(biāo)識碼:A" " " 文章編號:2095?5553 (2025) 04?0101?07
Research on the identification method of sugar beet and weeds
based on a modified BiSeNetV2 algorithm
Xiang Xinjian, Xiao Jiale, Tang Hui, Hu Haibin, Zhang Yingchao, Yuan Tianshun
(Zhejiang University of Science and Technology, Hangzhou, 310023, China)
Abstract: In response to the challenges faced by existing semantic segmentation networks, which were struggled with real?time recognition in complex lighting conditions and tended to misclassify weed and crops in overlapping regions, a real?time segmentation network called FA—BiSeNetV2 was proposed, which integrated frequency features for the recognition of sugar beets and weeds. Taking the semantic branch of the BiSeNetV2 model as the starting point, this approach achieved frequency feature extraction at different levels by adding 2D discrete cosine transform layers after each gather and expansion layer. The extracted frequency features were then subjected to an adaptive frequency processing module to analyze the distribution of scene data. This approach also involved combining the processed frequency features from various stages through weighted summation to obtain multi?level frequency features. Finally, a multi?scale spatial frequency fusion module was introduced to merge features from aggregation layers and multi?level frequency features, achieving spatial feature reconstruction from global and local perspectives. The experiments results of RoniRob in the publicly available dataset showed that the mean intersection over of FA—BiSeNetV2 model was 87.12% and the mean pixel accuracy was 93.04%, which were higher than the BiSeNetV2 model by 4.71% and 6.87%, respectively, the FA—BiSeNetV2 model was highly efficient with only 3.138 M parameters.
Keywords: sugar beet; weed recognition; frequency feature; semantic segmentation; lightweighting; real?time segmentaton
0 引言
雜草與作物爭奪生長資源,對農(nóng)業(yè)生產(chǎn)有著嚴(yán)重危害[1],檢測并根除雜草對保證作物健康生長起重要作用。目前主要的除草方式有4種:預(yù)防除草、生物除草、機(jī)械除草、化學(xué)除草[2],這4種傳統(tǒng)除草方式操作對象是整個農(nóng)田區(qū)域,但對無雜草區(qū)域進(jìn)行操作時會增加生產(chǎn)成本,也會造成藥物殘留從而影響環(huán)境[3],靶向除草技術(shù)通過精準(zhǔn)識別雜草區(qū)域進(jìn)行除草操作可以有效提高農(nóng)業(yè)經(jīng)濟(jì)效益[4]。近年來,隨著圖像語義分割的不斷發(fā)展[5],其在作物雜草識別領(lǐng)域取得很好的效果[6]。Milioto等[7]通過RGB圖像數(shù)據(jù)實時識別甜菜和雜草,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的語義分割方法,將初始圖像與提取的傳統(tǒng)圖像特征按通道疊加后傳入模型進(jìn)行訓(xùn)練,在復(fù)雜環(huán)境下達(dá)到較好的泛化效果。孫俊等[8]將增強(qiáng)的RGB圖像與近紅外圖像結(jié)合作為輸入,構(gòu)建一種基于深度可分離卷積的輕量級甜菜雜草識別模型。Khan等[9]提出一種基于級聯(lián)編解碼網(wǎng)絡(luò)的語義分割模型CED—Net,通過級聯(lián)訓(xùn)練4個小型網(wǎng)絡(luò)來獲得精細(xì)程度不同的雜草預(yù)測圖和作物預(yù)測圖,將這些預(yù)測組合起來產(chǎn)生最終結(jié)果。Yang等[10]為解決多尺度、復(fù)雜背景條件下的雜草分割任務(wù),采用多個非對稱條帶卷積核對特征進(jìn)行提取,提出一種基于多尺度特征卷積注意力網(wǎng)絡(luò)MSFAC—Net。王璨等[11]提出基于移位窗口Transformer網(wǎng)絡(luò)的玉米田間雜草識別方法,利用形態(tài)學(xué)方法獲取包括雜草在內(nèi)所有植物區(qū)域的分割掩碼,單獨將幼苗期玉米圖像作為對象人工生成標(biāo)簽并放入深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練,從分割掩碼中剔除玉米幼苗預(yù)測結(jié)果,通過一系列形態(tài)學(xué)優(yōu)化掩碼后得到雜草分割圖。
上述雜草識別算法較好地實現(xiàn)了雜草和作物區(qū)域分割,但在弱光或亮度變化不均勻環(huán)境下,模型僅通過RGB圖像難以利用紋理等細(xì)節(jié)信息對雜草和作物分割識別,特別是對于重疊區(qū)域易將作物像素分類成雜草像素造成分割精度下降,若額外增加紅外圖像則會導(dǎo)致成本上升。針對以上問題,本文構(gòu)建頻率分支來降低光照敏感程度進(jìn)一步加強(qiáng)圖像紋理和結(jié)構(gòu)信息的提取,從BiSeNetV2的語義分支引出頻率信息來指導(dǎo)聚合層空間特征重構(gòu),建立模型FA—BiSeNetV2,為后續(xù)復(fù)雜光照條件下的智能除草設(shè)備的研發(fā)提供理論依據(jù)。
1 BiSeNetV2模型概述
BiSeNetV2[12]繼承了BiSeNet[13]的雙邊網(wǎng)絡(luò)結(jié)構(gòu),將低層次細(xì)節(jié)特征與高層次的語義特征相結(jié)合以獲取實時、精準(zhǔn)的分割結(jié)果。如圖1所示,BiSeNetV2中細(xì)節(jié)分支采用不同參數(shù)的卷積塊來捕獲尺寸大、通道層數(shù)少的特征用作豐富空間信息,語義分支旨在捕獲具有較大的接受域的高級語義特征。
語義分支的第一部分使用起始塊對輸入數(shù)據(jù)降采樣實現(xiàn)基本的初始特征處理;第二部分構(gòu)建輕量化結(jié)構(gòu)的聚集擴(kuò)展層將特征逐步擴(kuò)展到更高通道維度來獲取復(fù)雜的語義信息;第三部分利用上下文嵌入塊來獲取高級語義進(jìn)一步增大感受野;最后BiSeNetV2引入雙邊引導(dǎo)聚合層在不同尺度上利用語義分支上下文信息指導(dǎo)細(xì)節(jié)分支特征響應(yīng),將此處獲取到的融合淺層空間信息和深層語義信息的特征輸出解碼頭中以達(dá)到分割效果?;谏疃缺O(jiān)督理論,模型在語義分支加入一系列輔助解碼頭用作訓(xùn)練階段增強(qiáng)特征表征能力。
2 FA—BiSeNetV2網(wǎng)絡(luò)搭建
BiSeNetV2的構(gòu)建較為依賴基于像素強(qiáng)度的上下文信息,在不均勻照明條件下不一定可靠。不同光照條件的圖像在整體頻率分布下存在不同,另外圖像對曝光不足或過度的局部區(qū)域在高頻分布存在較大的差異[14]。在BiSeNetV2基礎(chǔ)上,設(shè)計多層次頻率分支和空間頻率融合分支來動態(tài)調(diào)整各頻率分量從而指導(dǎo)空間域中的通道響應(yīng),以達(dá)到通過空間和頻率信息對上下文特征的提取。
2.1 多層次頻率分支
2.1.1 二維離散余弦變化層
2.1.2 自適應(yīng)頻率處理層
由于復(fù)雜光照條件下圖像頻率分布更加離散[14],多變的頻率分布會導(dǎo)致模型對場景無法正確解析從而影響性能,對提取的頻率特征進(jìn)行自適應(yīng)變化以應(yīng)對多變數(shù)據(jù)分布顯得尤為重要。受自適應(yīng)加權(quán)融合[17]啟發(fā),提出自適應(yīng)頻率處理層,如圖2所示,包含4個部分,第一部分為殘差分支,即各聚集擴(kuò)展層語義特征處理后的多譜頻率特征[Vmfreq];第二部分采用最大池化層(Max Pooling)突出并保留頻率特征中主要的頻率分量,有助于模型關(guān)注數(shù)據(jù)中的重要頻率信息;第三部分采用平均池化層(Average Pooling)來減少高頻噪聲的影響并保證整體頻率特征趨勢;第四部分采用分組卷積(Group Convolution)在保證較低參數(shù)量的同時通過分組方式學(xué)習(xí)適當(dāng)?shù)念l率特征表出,實現(xiàn)對復(fù)雜頻率分布區(qū)域較好的適應(yīng)效果。對上述4個部分處理后的頻率特征利用可學(xué)習(xí)參數(shù)先進(jìn)行加權(quán)求和,再通過3×3大小的卷積核進(jìn)行卷積操作(Conv)將頻率特征輸出通道數(shù)轉(zhuǎn)化為128,最后使用[Softmax]激活函數(shù)進(jìn)一步提取頻率特征并正則化處理避免過擬合,得到各層自適應(yīng)頻率特征[fmf∈R128×8×8],如式(5)所示。
2.1.3 多層次頻率融合
2.2 空間頻率融合分支
2.2.1 多尺度空間頻率融合層
采用學(xué)到的頻率特征來引導(dǎo)網(wǎng)絡(luò)對夜間場景進(jìn)行空間上下文特征建模,有助于網(wǎng)絡(luò)模型正確理解場景光照[14]。頻率特征全局、局部通道上下文信息分別作用于捕獲整體頻率分布和局部頻率特性,受多尺度空間注意力[18]啟發(fā),提出多尺度空間頻率融合層(MS—SFF),從不同尺度角度對兩個不同域的特征進(jìn)行融合,其空間域采用雙邊引導(dǎo)聚合層輸出特征[fb∈R128×16×16]。本文預(yù)先對多層次頻率特征[ff]利用雙線性插值擴(kuò)展尺寸至與[fb]相同,再對[ff]和[fb]采用3×3大小且填充為1的卷積操作將兩者通道數(shù)調(diào)節(jié)至128,過程如圖1所示。
2.2.2 空間特征重構(gòu)
2.3 損失函數(shù)
采用交叉熵?fù)p失函數(shù)用作像素級分類,通過計算每個像素分類損失,激勵模型更好地完成分割任務(wù)。交叉熵?fù)p失LCE計算如式(11)所示。
2.4 評價指標(biāo)
3 試驗與分析
3.1 數(shù)據(jù)集和試驗環(huán)境
采用的甜菜與雜草圖像均來自公開數(shù)據(jù)集BoniRob[20],此數(shù)據(jù)集于2016年在德國波恩附近一個甜菜農(nóng)場拍攝,圖像分辨率為1 296像素×966像素,有甜菜、雜草、背景3個類別。選取2 173張RGB圖像及對應(yīng)標(biāo)簽制作成PASCAL VOC 2012格式的甜菜和雜草數(shù)據(jù)集,其中訓(xùn)練集1 492張圖片,驗證集373張圖片,測試集308張圖片,測試集均采用弱光條件下的圖像以驗證模型魯棒性。
試驗環(huán)境:Ubuntu 18.04.6LTS64位系統(tǒng),搭載GPU型號為GTX2080Ti,Python版本為3.8,CUDA版本為11.6,基于Pytorch框架實現(xiàn)。模型采用帶權(quán)重衰減的自適應(yīng)矩估計算法(AdamW)進(jìn)行優(yōu)化,學(xué)習(xí)率為0.001,動量和權(quán)重衰減系數(shù)分別設(shè)置為0.9和0.000 5。采用多學(xué)習(xí)率調(diào)整策略的方法,首先對前500個迭代次數(shù)(Iterations)使用線性學(xué)習(xí)率調(diào)整策略(LinearLR)進(jìn)行預(yù)熱,將學(xué)習(xí)率從較小的值提高到正常值,結(jié)束后此策略后續(xù)不再生效;然后使用多步學(xué)習(xí)率調(diào)整策略(MultiStepLR)對學(xué)習(xí)率進(jìn)行自動調(diào)整直至訓(xùn)練結(jié)束,批處理大小設(shè)置為8,訓(xùn)練輪次(Epoch)設(shè)置為320,預(yù)處理階段將圖像隨機(jī)裁剪至512像素×512像素大小后輸入模型進(jìn)行訓(xùn)練。
3.2 不同頻率分量數(shù)對比試驗
為驗證各聚合擴(kuò)展層輸出的語義特征采用不同頻率分量數(shù)進(jìn)行轉(zhuǎn)化時對試驗效果的影響。根據(jù)語義特征通道數(shù)量選擇不同頻率個數(shù)搭配進(jìn)行對比,分別為(2,2,2)、(4,4,4)、(8,8,8)、(16,16,16)、(2,4,8)、(4,8,16),其中括號內(nèi)第一個數(shù)字表示第一個擴(kuò)展聚合層轉(zhuǎn)化中采用的頻率分量個數(shù),依此類推分別表示第二個和第三個。如表1所示,各層頻率分量個數(shù)為(2,4,8)時取得最佳精度,相較于配置為(8,8,8)在mIoU和mPA上分別提升0.8%、1.58%。
3.3 分割頭不同輸出通道數(shù)對比試驗
為研究分割頭使用不同輸出通道數(shù)對模型分割精度和參數(shù)量、計算量的影響,進(jìn)行對比試驗,其中原本的BiSeNetV2模型采用的FCN分割頭輸出通道數(shù)為1 024。以平均交并比、參數(shù)量、計算量作為評價指標(biāo),如表2所示,通過對模型FA—BiSeNetV2分別采用輸出通道數(shù)為640、720、1 024的FCN分割頭進(jìn)行對比分析。試驗結(jié)果可得,對比mIoU,F(xiàn)CN分割頭取輸出通道數(shù)為640時比通道數(shù)為720和1 024時分別高0.67%和0.66%,Param和FLOPS方面,分別降低0.093 M、0.379 G和0.445 M、1.82 G,因此,試驗配置輸出通道數(shù)選取640具有更好的分割效果。進(jìn)一步分析說明,針對本文分割任務(wù)降低輸出通道數(shù)可以引導(dǎo)模型學(xué)習(xí)更緊湊的特征表示,有助于減少冗余信息,提高模型的泛化能力,而輸出通道數(shù)過高時,模型可能會記住過多訓(xùn)練集的細(xì)節(jié),從而導(dǎo)致泛化性減弱。
3.4 消融試驗
為分析所提出的改進(jìn)方法對BiSeNetV2性能的影響,分別對二維離散余弦變化層、自適應(yīng)頻率處理層、多尺度空間頻率融合層進(jìn)行消融試驗。每組試驗使用相同的訓(xùn)練參數(shù),各改進(jìn)方法試驗效果如表3所示,“√”表示模型中采用了此改進(jìn)方法,“×”表示模型中未采用此改進(jìn)方法。BiSeNetV2—A使用二維離散余弦變化層,mIoU和mPA分別提升3.96%、5.97%,BiSeNetV2—B在BiSeNetV2—A的基礎(chǔ)上,加入自適應(yīng)頻率處理層,mIoU和mPA分別提升0.24%、0.44%,BiSeNetV2—C即為本文方法,在BiSeNetV2—B的基礎(chǔ)上加入多尺度空間頻率融合層,mIoU和mPA分別提升0.51%、0.46%,對比BiSeNetV2提升4.71%、6.87%。
3.5 對比試驗
為驗證模型的性能,以mIoU和mPA作為評測標(biāo)準(zhǔn)時,F(xiàn)A—BiSeNetV2模型的mIoU和mPA比最新架構(gòu)模型Segformer分別高1.77%、3.26%。相比于CGNet、Fast—SCNN、STDC2、MobileNetV3等輕量化網(wǎng)絡(luò),F(xiàn)A—BiSeNetV2網(wǎng)絡(luò)的mIoU和mPA分別提高9.37%、6.91%、5.22%、2.92%和10.91%、8.95%、6.38%、4.95%,結(jié)果如表4所示。
在參數(shù)量和計算量方面,F(xiàn)A—BiSeNetV2相比于主流輕量化模型STDC2、MobileNetV3、Segformer,Param分別降低9.163 M、0.144 M、0.578 M,F(xiàn)LOPs比STDC2小0.362 G,比MobileNetV3、Segformer高2.69 G、3.497 G,本文模型參數(shù)量和計算量相對于CGNet、Fast—SCNN較高,但綜合分割精度,本文兼顧3個評價指標(biāo)實現(xiàn)較好的平衡。性能對比結(jié)果表明,F(xiàn)A—BiSeNetV2模型在保證參數(shù)量和計算量都較小的條件下實現(xiàn)分割精度提升,具備實時分割能力。圖4為不同模型在弱光且具有重疊情況下的對比效果圖。
部分模型如CGNet、Fast—SCNN、STDC2、MobileNetV3難以在此環(huán)境下進(jìn)行正確的識別,易誤將甜菜區(qū)域分割成雜草區(qū)域,從Segformer分割效果圖分析得出甜菜幼苗區(qū)域中有較多的孔洞狀雜草區(qū)域,其模型受噪聲干擾較為嚴(yán)重。FA—BiSeNetV2識別效果圖表明,本文模型可在復(fù)雜光照條件下將重疊區(qū)域較為準(zhǔn)確地識別出雜草區(qū)域和甜菜區(qū)域,可以為后續(xù)的靶向除草工作提供理論參考。
4 結(jié)論
1) 根據(jù)數(shù)據(jù)集特點,提出一種融合頻率特征的甜菜雜草語義分割網(wǎng)絡(luò)FA—BiSeNetV2。通過消融試驗驗證頻率特征指導(dǎo)空間特征重構(gòu)的有效性,相比于BiSeNetV2模型,本模型mIoU和mPA分別高出4.71%和6.87%。
2) 融入自適應(yīng)頻率處理模塊以適應(yīng)不同頻率分布,為后續(xù)開發(fā)應(yīng)對不同季節(jié)、不同光照下的雜草識別模型提供一種場景適應(yīng)策略。
3) 提出一種多尺度空間頻率融合模塊,從局部和全局兩個方面利用頻率信息融合空間和頻率特征來重構(gòu)空間上下文信息,進(jìn)一步緩解頻率和空間特征融合不充分問題。
4) 根據(jù)訓(xùn)練任務(wù)特點,為增強(qiáng)泛化能力、減少冗余信息,重新調(diào)整解碼頭輸出通道數(shù)以達(dá)到較好的實時效果和分割精度,給后續(xù)雜草識別模型提出一種減小模型規(guī)模和降低計算代價的方式。
參 考 文 獻(xiàn)
[ 1 ] Hasan A S M M, Sohel F, Diepeveen D, et al. A survey of deep learning techniques for weed detection from images [J]. Computers and Electronics in Agriculture, 2021, 184(3): 1680-1699.
[ 2 ] Xu K, Shu L, Xie Q, et al. Precision weed detection in wheat fields for agriculture 4.0: A survey of enabling technologies, methods, and research challenges [J]. Computers and Electronics in Agriculture, 2023, 212: 108106.
[ 3 ] 付豪, 趙學(xué)觀, 翟長遠(yuǎn), 等. 基于深度學(xué)習(xí)的雜草識別方法研究進(jìn)展[J]. 中國農(nóng)機(jī)化學(xué)報, 2023, 44(5): 198-207.
Fu Hao, Zhao Xueguan, Zhai Changyuan, et al. Research progress on weed recognition method based on deep learning technology [J]. Journal of Chinese Agricultural Mechanization, 2023, 44(5): 198-207.
[ 4 ] Balaska V, Adamidou Z, Vryzas Z, et al. Sustainable crop protection via robotics and artificial intelligence solutions [J]. Machines, 2023, 11(8): 774.
[ 5 ] Xu J, Xiong Z, Bhattacharyya S P, et al. PIDNet: A real?time semantic segmentation network inspired by PID controllers [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 19529-19539.
[ 6 ] Cai Y, Zeng F, Xiao J, et al. Attention?aided semantic segmentation network for weed identification in pineapple field [J]. Computers and Electronics in Agriculture, 2023, 210: 107881.
[ 7 ] Milioto A, Lottes P, Stachniss C, et al. Real?time semantic segmentation of crop and weed for precision agriculture robots leveraging background knowledge in CNNs [C]. IEEE International Conference on Robotics and Automation (ICRA), 2018: 2229-2235.
[ 8 ] 孫俊, 譚文軍, 武小紅, 等. 多通道深度可分離卷積模型實時識別復(fù)雜背景下甜菜與雜草[J]. 農(nóng)業(yè)工程學(xué)報, 2019, 35(12): 184-190.
Sun Jun, Tan Wenjun, Wu Xiaohong, et al. Real?time recognition of sugar beet and weeds in complex backgrounds using multi?channel depth?wise separable convolution model [J]. Transactions of the Chinese Society of Agricultural Engineering, 2019, 35(12): 184-190.
[ 9 ] Khan A, Ilyas T, Umraiz M, et al. Ced?net: Crops and weeds segmentation for smart farming using a small cascaded encoder?decoder architecture [J]. Electronics, 2020, 9(10): 1602.
[10] Yang Q, Ye Y, Gu L, et al. MSFCA—Net: A multi?scale feature convolutional attention network for segmenting crops and weeds in the field [J]. Agriculture, 2023, 13(6): 1176.
[11] 王璨, 武新慧, 張燕青, 等. 基于移位窗口Transformer網(wǎng)絡(luò)的玉米田間場景下雜草識別[J]. 農(nóng)業(yè)工程學(xué)報, 2022, 38(15): 133-142.
Wang Can, Wu Xinhui, Zhang Yanqing, et al. Recognizing weeds in maize fields using shifted window Transformer network [J]. Transactions of the Chinese Society of Agricultural Engineering, 2022, 38(15): 133-142.
[12] Yu C, Gao C, Wang J, et al. Bisenet v2: Bilateral network with guided aggregation for real?time semantic segmentation [J]. International Journal of Computer Vision, 2021, 129: 3051-3068.
[13] Yu C, Wang J, Peng C, et al. Bisenet: Bilateral segmentation network for real?time semantic segmentation [C]. Proceedings of the European Conference on Computer Vision (ECCV), 2018: 325-341.
[14] Xie Z F, Wang S, Xu K, et al. Boosting night?time scene parsing with learnable frequency [J]. IEEE Transactions on Image Processing, 2023: 3560-3569.
[15] Wallace G K. The JPEG still picture compression standard [J]. Communications of the ACM, 1991, 34(4): 30-44.
[16] Qin Z, Zhang P, Wu F, et al. Fcanet: Frequency channel attention networks [C]. Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 783-792.
[17] 許棟, 楊關(guān), 劉小明, 等. 基于自適應(yīng)特征融合與轉(zhuǎn)換的小樣本圖像分類[J]. 計算機(jī)工程與應(yīng)用, 2022, 58(24): 223-232.
[18] Dai Y, Gieseke F, Oehmcke S, et al. Attentional feature fusion [C]. Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2021: 3560-3569.
[19] Berman M, Triki A R, Blaschko M B, et al. The lovász?softmax loss: A tractable surrogate for the optimization of the intersection?over?union measure in neural networks [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 4413-442.
[20] Chebrolu N, Lottes P, Schaefer A, et al. Agricultural robot dataset for plant classification, localization and mapping on sugar beet fields [J]. The International Journal of Robotics Research, 2017, 36(10): 1045-1052.