摘" 要: 針對復(fù)雜環(huán)境下棉田雜草檢測與識別困難等問題,提出一種改進(jìn)YOLOv5的棉田雜草檢測算法——CST?YOLOv5。首先,通過數(shù)據(jù)增強算法解決棉田雜草樣本分布不均勻?qū)е碌哪P陀?xùn)練效果不充分問題;其次,考慮到通道信息和方向位置信息,在主干網(wǎng)絡(luò)中加入了坐標(biāo)注意力機制;最后,在頸部網(wǎng)絡(luò)中將Swin Transformer Block引入C3模塊,得到新的C3STR模塊,以保留全局上下文信息和多尺度特征。實驗結(jié)果表明,CST?YOLOv5模型的mAP值達(dá)到95.1%,F(xiàn)1值達(dá)到90.4%,比原YOLOv5模型提高了4.8%、3.2%。所設(shè)計算法具有良好的魯棒性,能精確識別多類雜草。
關(guān)鍵詞: 雜草檢測; YOLOv5; 深度學(xué)習(xí); 目標(biāo)檢測; 注意力機制; 棉花保護(hù)
中圖分類號: TN911.23?34; TP391" " " " " " "文獻(xiàn)標(biāo)識碼: A" " " " " " " " " " " " 文章編號: 1004?373X(2024)24?0060?08
Improved YOLOv5 detection of weeds in cotton fields
YANG Mingxuan, CHEN Lin
(College of Computer Science, Yangtze University, Jingzhou 434000, China)
Abstract: In allusion to the difficulty of detecting and identifying weeds in cotton fields in complex environments, a cotton field weed detection algorithm CST?YOLOv5 is proposed to improve YOLOv5. The data enhancement algorithm is used to solve the problem of insufficient model training effect due to the unbalanced distribution of weed samples in cotton fields. A coordinate attention mechanism is added to the backbone network by considering channel information and direction location information. The Swin Transformer Block is introduced into the C3 module in the neck network to obtain a new C3STR module to preserve global context information and multi?scale features. The experimental results show that the mAP value of the CST?YOLOv5 model can reach 95.1%, and the F1 value can reach 90.4%, which are respectively increased by 4.8% and 3.2% compared with the original YOLOv5 model. It verifies that the designed algorithm has good robustness and can accurately identify many types of weeds.
Keywords: weed detection; YOLOv5; deep learning; target detection; attention mechanism; cotton protect
0" 引" 言
隨著世界人口的快速增長,對農(nóng)產(chǎn)品的需求也日益增加。雜草野蠻生長搶奪了棉花在田地的生長空間和生存資源,棉花植株在生長繁育的過程中受到了阻礙,這嚴(yán)重影響了棉花的質(zhì)量。而精準(zhǔn)化農(nóng)業(yè)或智慧農(nóng)業(yè)可以提供緩解這些問題的策略[1]。
現(xiàn)有的除草方式有人工除草、機械除草和化學(xué)除草。傳統(tǒng)的人工除草不僅消耗大量的人力物力,而且效率低。機械除草是農(nóng)田除草的一種有效方法,但粗略、大面積的除草方式會在去除雜草的同時損害農(nóng)作物?;瘜W(xué)除草具有良好的除草效果,而且已經(jīng)成為國內(nèi)外農(nóng)田除草的主要方式,但是過量、不精準(zhǔn)的化學(xué)除草方式會損害農(nóng)田土壤質(zhì)量,對生態(tài)環(huán)境造成危害[2]。所以為了提高農(nóng)藥噴灑的精準(zhǔn)程度,減少不必要的作物損害,基于雜草檢測的農(nóng)藥精確除草研究十分重要[3]。
近年來,人工智能技術(shù)不斷發(fā)展,深度學(xué)習(xí)廣泛應(yīng)用于各種目標(biāo)檢測領(lǐng)域,有著重大的研究意義。文獻(xiàn)[4]針對數(shù)據(jù)集偏小、訓(xùn)練容易過擬合的問題,使用數(shù)據(jù)增強提升水稻病蟲害的泛化能力和魯棒性。文獻(xiàn)[5]針對復(fù)雜農(nóng)田多種目標(biāo)雜草檢測精度低、模型參數(shù)量大、檢測速度慢等問題,融合Ghost輕量化卷積模塊,在特征融合模塊添加NAM注意力機制來降低輕量化帶來的精度損失,改進(jìn)后的網(wǎng)絡(luò)模型體積為6.23 MB,平均精度提升至97.8%,但其網(wǎng)絡(luò)模型過于復(fù)雜。文獻(xiàn)[6]針對復(fù)雜環(huán)境下農(nóng)作物和雜草相互遮擋而難以識別、檢測精度低、參數(shù)量大等問題,使用MobileNetv2輕量化網(wǎng)絡(luò),提出一種多分支感受野級聯(lián)融合結(jié)構(gòu)ASPP,融合通道和空間雙域注意力機制模塊。文獻(xiàn)[7]中改進(jìn)后的網(wǎng)絡(luò)模型體積為11.15 MB,平均精度提升至95.67%,但其雜草檢測種類單一。文獻(xiàn)[8]針對SSD[9]模型參數(shù)量大、甜菜雜草識別精度低等問題,提出一種多尺度融合模塊和特征增強的雜草檢測方法,但檢測速度并不突出。文獻(xiàn)[10]針對田間玉米雜草檢測精度低等問題,選用YOLOv4?tiny[11]模型進(jìn)行檢測和識別,但檢測目標(biāo)過于單一。
以上目標(biāo)檢測[12]的網(wǎng)絡(luò)模型均已應(yīng)用于各種領(lǐng)域,但檢測精度還有提升的空間,針對網(wǎng)絡(luò)模型復(fù)雜還可以進(jìn)一步簡化,模型的泛化能力和魯棒性還有待增強,雜草識別的種類可以繼續(xù)豐富。因此,本文采用YOLOv5模型進(jìn)行棉田雜草精確識別,設(shè)計一種CST?YOLOv5網(wǎng)絡(luò)模型。首先通過數(shù)據(jù)增強提升模型的泛化能力和魯棒性;其次在主干網(wǎng)絡(luò)中引入坐標(biāo)注意力(Coordinate Attention, CA)[13]機制;最后在頸部引入內(nèi)嵌了Swin Transformers Block[14]的C3STR模塊,以提高設(shè)計模型的檢測精度。
1" 材料和方法
1.1" 數(shù)據(jù)采集
數(shù)據(jù)集是經(jīng)過專業(yè)人員辨認(rèn)并分類的15類棉田雜草,有的種類數(shù)量很少,本文為了使得訓(xùn)練時數(shù)據(jù)樣本達(dá)到均衡,選取其中數(shù)量較多的6類雜草,一共4 257張雜草圖像。所用數(shù)據(jù)集具體雜草種類和數(shù)量如表1所示。
數(shù)據(jù)集中圖像分辨率最高為4 000×6 000,通過Python腳本將其等比例縮放至600×800像素,使用LabelImg軟件手動標(biāo)注,如圖1所示。圖1中的標(biāo)注格式為VOC格式,保存為.xml文件。YOLOv5中訓(xùn)練的圖像是.txt格式,其中object?class是目標(biāo)的類別標(biāo)簽,x和y是目標(biāo)的中心坐標(biāo),w和h是目標(biāo)的寬度和高度。因此,采用Python腳本將.xml格式轉(zhuǎn)換為.txt格式,并按照8∶1∶1的比例將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集、測試集。
1.2" YOLOv5網(wǎng)絡(luò)模型
YOLO[15]已經(jīng)成為機器人、無人駕駛和視頻監(jiān)控主要的實時檢測模型。YOLOv5[16]模型主要由三個部分構(gòu)成,即主干網(wǎng)絡(luò)(Backbone)、頸部(Neck)網(wǎng)絡(luò)和頭部(Head)輸出層。原始YOLOv5網(wǎng)絡(luò)模型結(jié)構(gòu)如圖2所示。
圖2中Backbone部分包含CBS模塊、C3模塊和空間池化金字塔(SPPF)模塊;頸部網(wǎng)絡(luò)對特征圖進(jìn)行自頂向下的上采樣,通過PANet和FPN對提取的特征進(jìn)行融合,組成的模塊包含CBS模塊、C3_2_X模塊、Upsample模塊和Concat模塊等;Head輸出層主要利用之前提取的特征進(jìn)行預(yù)測。YOLOv5通過非極大值抑制(Non?Maximum Suppression, NMS)來篩選生成的候選框,其原理為:當(dāng)兩個物體太近時,另一個物體的預(yù)測框很可能被過濾掉,NMS可以加強對目標(biāo)框的選擇,避免檢測目標(biāo)因距離近而被漏檢、錯檢。YOLOv5采用CIoU作為目標(biāo)框的損失函數(shù),公式如下所示:
[LCIoU=1-IoU+ρ2(b,bgt)c2+αv] (1)
[v=4π2arctanwgthgt-arctanwh2] (2)
[α=v1-IoU+v] (3)
式中:[ρ2(b,bgt)]表示目標(biāo)框和預(yù)測框之間中心點的歐氏距離;[c2]表示最小包圍框?qū)蔷€的距離;[v]和[α]為長寬比權(quán)重參數(shù),用來控制真實框和預(yù)測框之間的大小。相較于GIoU只使用包圍框計算損失,DIoU通過優(yōu)化包圍框間的距離來解決GIoU存在的問題,而CIoU在DIoU的基礎(chǔ)上考慮了真實框和預(yù)測框之間的長寬比。
1.3" 改進(jìn)CST?YOLOv5網(wǎng)絡(luò)模型
由于初始數(shù)據(jù)集不夠大,圖像中標(biāo)簽樣本分布不均勻,改進(jìn)的CST?YOLOv5算法使用在線的Mosaic和Mixup數(shù)據(jù)增強算法來解決樣本分布不均衡導(dǎo)致模型的訓(xùn)練效果不充分、檢測精度低等問題,將坐標(biāo)注意力(CA)機制引入主干網(wǎng)絡(luò)中,增強主干網(wǎng)絡(luò)特征提取和小目標(biāo)精度檢測的能力。在頸部網(wǎng)絡(luò)中將原有的C3_2_X模塊替換為嵌入了Swin Transformer Block的C3STR模塊,增大感受野,提升模型的特征提取能力。本文改進(jìn)后的CST?YOLOv5網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3所示。
1.3.1" 數(shù)據(jù)增強
數(shù)據(jù)增強主要是對數(shù)據(jù)集進(jìn)行擴充,已被廣泛應(yīng)用于機器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域。通常的數(shù)據(jù)增強方法有平移、旋轉(zhuǎn)、縮放、裁剪、翻轉(zhuǎn)、扭曲、合成、增加噪聲和變換圖像顏色通道等。本文應(yīng)用的Mosaic和Mixup數(shù)據(jù)增強算法可以將多張圖像進(jìn)行拼接,使得單張圖像擁有更多特征,從而達(dá)到訓(xùn)練效果;同時能夠在一張圖像上顯示多張圖像的目標(biāo)框,使得生成后的圖像目標(biāo)縮小。再結(jié)合CA機制,能夠有效地加強網(wǎng)絡(luò)模型對小目標(biāo)的訓(xùn)練與識別,這極大地提升了模型的泛化能力。因此,對本文所采用的實驗數(shù)據(jù)集進(jìn)行在線Mosaic和Mixup數(shù)據(jù)增強。
Mosaic數(shù)據(jù)增強的原理是從數(shù)據(jù)集中隨機讀取4張圖像,然后將圖像和目標(biāo)框一起拼接成一張圖像,這樣一張圖像就擁有了4張圖像的待檢測物體,使得背景冗余信息有所減少,且生成后的圖像尺寸縮小后自然地形成了小目標(biāo),能夠極大地豐富數(shù)據(jù)集和提高模型的識別能力。
Mixup數(shù)據(jù)增強的原理是將2張不同的圖像拼接在一起構(gòu)成一張?zhí)摂M的圖像,該圖像同時具有2張圖像的目標(biāo)框,增強了模型的魯棒性。Mixup數(shù)據(jù)增強的公式如下所示:
[x=λxi+(1-λ)xjy=λyi+(1-λ)yj] (4)
式中:[(xi,yi)]和[(xj,yj)]是從數(shù)據(jù)集中隨機抽取的樣本;[λ∈[0,1]],本文實驗中[λ]取值為0.1時再結(jié)合Mosaic數(shù)據(jù)增強的效果最好。
在YOLOv5模型實驗訓(xùn)練過程中,會根據(jù)每一輪的Batchsize大小進(jìn)行Mosaic和Mixup數(shù)據(jù)增強,然后將增強后的圖像輸入到網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。圖像增強后的效果圖如圖4所示。
數(shù)據(jù)增強擴增了數(shù)據(jù)集數(shù)量,同時增強了網(wǎng)絡(luò)模型的魯棒性和泛化能力。圖4a)是Mosaic通過隨機讀取數(shù)據(jù)集中的4張雜草圖像進(jìn)行拼接得到的。在圖4b)中,Mixup將2張雜草圖像拼接成一張?zhí)摂M的雜草圖像。兩種數(shù)據(jù)增強方法都擴增了圖像中檢測目標(biāo)的數(shù)量,使得模型訓(xùn)練更加充分,具有抗過擬合的能力。最后,經(jīng)過實驗得到當(dāng)Mosaic取值為0.9,Mixup取值為0.1時,模型的整體mAP提高了2.1%,網(wǎng)絡(luò)模型可以達(dá)到良好的訓(xùn)練效果。
1.3.2" 坐標(biāo)注意力機制
注意力機制已經(jīng)在圖像和自然語言處理上取得了重大進(jìn)展,可以靈活地運用于各種網(wǎng)絡(luò)模型的下游任務(wù)改造[17]。深度學(xué)習(xí)網(wǎng)絡(luò)模型參數(shù)的累加可以用來在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程中提高模型的特征表達(dá)能力,但這往往會使得計算量龐大,難以捕捉有效特征。通過坐標(biāo)注意力機制能夠使模型減少對無用信息的關(guān)注,從而提高任務(wù)效率和準(zhǔn)確性。
本文旨在對棉花田地里的雜草精準(zhǔn)定位并識別其種類,為提高模型學(xué)習(xí)特征的能力,將坐標(biāo)注意力機制引入到主干網(wǎng)絡(luò)末端。各種注意力機制mAP值的比較結(jié)果如表2所示,其中坐標(biāo)注意力機制是最新穎、靈活的注意力機制。坐標(biāo)注意力機制結(jié)構(gòu)如圖5所示。
CA機制可以更好地捕捉通道關(guān)系和具有精確位置信息的長距離依賴關(guān)系,解決了現(xiàn)有注意力機制的問題,如CBMA、SENet對通道的處理一般采用全局最大或全局平均池化所導(dǎo)致的特征圖空間信息損失。CA機制計算復(fù)雜度低,幾乎不需要額外的計算開銷,是輕量級的注意力機制。
具體來說,CA機制是給定一個包含特征層Batchsize和輸入維度為[(C,H,W)]的[X],它分為兩個并行的特征層來對水平方向的池化核[(H,1)]和垂直方向上的池化核[(1,W)]進(jìn)行編碼。第[c]個通道在高度[h]處的輸出可以用公式(5)表示。
[zhc(h)=1W0≤ilt;Wxc(h,i)] (5)
同理,在第[c]個通道寬度為[w]的輸出可以用公式(6)表示:
[zwc(w)=1H0≤ilt;Hxc(j,w)] (6)
通過對輸入進(jìn)行兩次特征聚合,得到兩個方向上的特征映射,根據(jù)公式(5)、公式(6)生成的特征映射將它們Concat成一個更大的特征映射,然后傳遞給一個共享的[1×1]卷積轉(zhuǎn)換函數(shù)[F1],如公式(7)所示。
[f=δ(F1(zh,zw))] (7)
式中:[(zh,zw)]表示沿著空間維度的拼接操作;[δ]是一個非線性激活函數(shù);[f∈RC/r×(W+H)]是一個中間特征映射,用來對水平方向和垂直方向上的空間信息進(jìn)行編碼。[f]沿著空間維度被分成兩個獨立張量[f∈RC/r×W]和[f∈RC/r×H],再使用兩個[1×1]卷積轉(zhuǎn)換函數(shù)[Fh]和[Fw]將[fh]和[fw]分別轉(zhuǎn)換為與輸入X具有相同通道數(shù)的張量,可以表示為:
[gh=σ(Fh(fh))gw=σ(Fw(fw))] (8)
最后,坐標(biāo)注意力機制的計算公式如下:
[yc(i,j)=xc(i,j)·ghc(i)·gwc(i)] (9)
式中:[gh]和[gw]是用來被擴展并分別用作注意力權(quán)重;[xc(i,j)]是輸入張量中位置[(i,j)]處的值。通過將輸入張量[xc(i,j)]與權(quán)重注意力[ghc(i)]和[gwc(i)]進(jìn)行逐項相乘,得到輸出[yc(i,j)]。在每個[(i,j)]處,通過將輸入值與對應(yīng)位置的注意力權(quán)重相乘,獲得到加權(quán)的輸出值。
雖然坐標(biāo)注意力機制利用注意力權(quán)重來調(diào)整輸入的權(quán)重分布,從而得到更具關(guān)注度的輸出,但是缺乏Neck對關(guān)注信息的進(jìn)一步特征融合,所以本文對Neck進(jìn)行改進(jìn),以加強其特征提取的能力。
1.3.3" Swin Transformer Block的C3STR模塊
Transformer在NLP領(lǐng)域應(yīng)用廣泛,近年來逐漸地遷移至計算機視覺領(lǐng)域,在圖像分類、目標(biāo)檢測、語義分割、實例分割等各種下游任務(wù)中都取得了很好的效果。實驗結(jié)果證實,將Swin Transformer應(yīng)用于雜草檢測網(wǎng)絡(luò)模型可以提高檢測精度。
在實際應(yīng)用中,檢測目標(biāo)的大小往往是不固定的,C3模塊在面對不同尺度的目標(biāo)時,特征圖感知范圍小,同時C3模塊參數(shù)量大,這嚴(yán)重影響了模型的訓(xùn)練和檢測速度,尤其是在輸入圖像分辨率較高的情況下。因此,本文將C3模塊中原有的Bottleneck塊替換為Swin Transformer Block,得到C3STR模塊,將C3STR引入Neck層,將Neck層中的C3_2_X模塊替換成C3STR。C3STR結(jié)構(gòu)圖如圖6所示。
具體來說,因為Swin Transformer構(gòu)建了一個類似于CNN層次化的特征圖,相較于Vision Transformer的圖像尺寸和計算復(fù)雜度成平方復(fù)雜度,Swin Transformer的圖像尺寸和計算復(fù)雜度成線性復(fù)雜度,在大大降低了模型的計算復(fù)雜度的同時,還增大了模型的感受野并提高了提取特征的能力。圖6顯示了2個連續(xù)的Swin Transformer模塊。W?MSA是傳統(tǒng)的多頭自注意力模塊,公式為:
[Q=fQ(X)," K=fK(X)," V=fV(X)] (10)
[Attention(Q,K,V)=SoftmaxQTKdV] (11)
式中:[X]是輸入的特征圖;[fQ(?)]、[fK(?)]、[fV(?)]是線性變換函數(shù);[d]是通道維度;[Q]、[K]、[V]分別代表[Query]、[Key]、[Value]。通過計算[Q]和[K]之間的點積,除以[d],再用[Softmax]函數(shù)將得分轉(zhuǎn)換為對應(yīng)的值和權(quán)重,即得到注意力權(quán)重。
SW?MSA為W?MSA增加了移動窗口,W?MSA將特征圖均勻地分成4個局部窗口,每個窗口獨立運行,它們之間沒有信息共享,這導(dǎo)致W?MSA在劃分時失去了全局的感知域,每個窗口只接收到局部的特征圖信息,限制了模型提取特征的能力。SW?MSA中允許窗口移動,使得部分窗口可以接收來自上層多個窗口的信息,并減少感受野的損失。此外,移動窗口設(shè)計提供了不同窗口之間的連接,顯著增強了建模能力。
總之,這種基于移動窗口的自注意力模塊可以使得Swin Transformer捕獲圖像塊之間的遠(yuǎn)程依賴關(guān)系,擴大了特征圖的感知范圍,減少了對疑似物體的誤檢,在不增加計算量的情況下可以顯著提升模型的整體精度。
2" 結(jié)果與分析
2.1" 實驗平臺
本文的實驗環(huán)境為項目組提供的服務(wù)器,操作系統(tǒng)為Windows 11,處理器為Intel[?] Xeon[?] Gold 6330 CPU @2.00 GHz,內(nèi)存為160 GB,顯卡為RTX3090,顯存為24 GB,具體實驗環(huán)境配置參數(shù)信息如表3所示。
2.2" 評價指標(biāo)
為了評估改進(jìn)后的CST?YOLOv5模型在雜草檢測、精確率P和召回率R方面的有效性,使用mAP(mean Average Precision)和F1作為評估指標(biāo),公式如下:
[P=TPTP+FP] (12)
[R=TPTP+FN]" (13)
[mAP=1Ni=1NAPi]" " (14)
[F1=2×P×RP+R]" (15)
式中:TP表示模型將正樣本正確地預(yù)測為正樣本的個數(shù);FP表示將負(fù)樣本錯誤預(yù)測為正樣本的個數(shù);FN表示將正樣本錯誤地預(yù)測為負(fù)樣本的個數(shù)。mAP是一種用于評估目標(biāo)檢測網(wǎng)絡(luò)準(zhǔn)確性的指標(biāo),采用P?R曲線(Precision?Recall curve)來計算AP(Average Precision)的值,AP代表在所有可能的召回率下獲得的精確率的平均值。當(dāng)IoU閾值設(shè)定為0.5時,mAP@0.5值越高,代表模型的性能越好。
P和R的結(jié)果被綜合考慮來計算F1分?jǐn)?shù)。F1分?jǐn)?shù)能夠衡量模型的整體性能和魯棒性,其值隨著精確率和召回率的增加而增加,反之亦然。如果模型具有高精確率但召回率較低,則不能單純地將其視為有效模型。因此,F(xiàn)1分?jǐn)?shù)越高,代表模型的魯棒性越好。
2.3" 實驗結(jié)果
實驗結(jié)果表明:本文模型提高了所有雜草種類的檢測精度,當(dāng)雜草可以很容易地與周圍的環(huán)境區(qū)分開時,檢測精度較高;但因為有的雜草上面沾了泥土,當(dāng)雜草與背景中的泥土相似時,檢測精度會稍低。改進(jìn)后的網(wǎng)絡(luò)模型做出了有效的改進(jìn)與提升,與原模型的mAP對比如圖7所示。
實驗過程中,Carpetweed種類雜草與Purslane種類雜草外形非常相似,葉片均呈圓弧狀,且貼近于地面,兩個種類看起來很容易混淆,僅僅是葉片尺寸大小有細(xì)微差別,本文引入內(nèi)嵌了Swin Transformer Block的C3STR模塊,提高了模型的感受野和提取特征的能力,其分層結(jié)構(gòu)和滑動窗口機制可以獲得特征圖多尺度、全局的語義信息,在面對難以區(qū)分的兩種雜草類別時具有良好的效果。
表4為YOLOv5模型的消融實驗結(jié)果,通過融合的各個模塊對比能夠有效證實本文針對原模型的改進(jìn)的有效性。
為進(jìn)一步分析改進(jìn)的CST?YOLOv5雜草檢測算法的性能,選擇SSD、Faster RCNN、YOLOv7、YOLOv8和YOLOv5等算法進(jìn)行對比實驗,結(jié)果如表5所示。由表5可以看出本文算法的mAP是最高的,并且權(quán)重文件大小比原YOLOv5還小4.2 MB,有助于智能除草設(shè)備部署并實時檢測。棉田雜草檢測結(jié)果如圖8所示。
3" 結(jié)" 論
針對當(dāng)前雜草檢測和識別的研究模型參數(shù)量大、網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、雜草種類單一、數(shù)據(jù)樣本稀缺等問題,本文使用YOLOv5模型進(jìn)行棉田雜草檢測,提出了一種改進(jìn)的網(wǎng)絡(luò)模型CST?YOLOv5。改進(jìn)后的網(wǎng)絡(luò)模型使用數(shù)據(jù)增強算法增強模型的泛化能力,在不增加網(wǎng)絡(luò)模型復(fù)雜度的情況下提高了模型的整體檢測精度。將坐標(biāo)注意力機制引入到主干網(wǎng)絡(luò)末端,通過增強模型對雜草葉片形狀的關(guān)注,更好地捕捉通道關(guān)系和具有精確位置信息的長距離依賴關(guān)系,解決了現(xiàn)有注意力機制只考慮通道或只考慮位置信息的問題,提高了小目標(biāo)的準(zhǔn)確率和模型學(xué)習(xí)特征的能力。在Neck部位引入內(nèi)嵌Swin Transformer Block的C3STR模塊替換原有的C3模塊,在不增大計算量和權(quán)重文件大小的同時,使模型能夠捕獲更多的全局特征并增加感受野;使用滑動窗口劃分特征圖,使得模型能夠捕捉更多的全局多尺度特征,解決了類似雜草間難以辨別和復(fù)雜背景下雜草被泥沙遮擋而導(dǎo)致的原模型錯檢、漏檢的問題。
此外,本文應(yīng)用Mosaic和Mixup數(shù)據(jù)增強算法將多張圖像進(jìn)行拼接,從而達(dá)到單張圖像擁有更多特征可以訓(xùn)練的效果,提升了模型的泛化能力和魯棒性。本文模型mAP達(dá)到95.1%,F(xiàn)1分?jǐn)?shù)達(dá)到90.4%,權(quán)重文件大小縮減至10.2 MB。改進(jìn)后的CST?YOLOv5模型在自然環(huán)境下可以更準(zhǔn)確地檢測和識別田間雜草,有效推動了農(nóng)業(yè)智能化發(fā)展,并增強了對棉花作物的保護(hù)。下一步的研究方向是將改進(jìn)算法部署在機器人或者無人機等智能設(shè)備上,使得農(nóng)田棉花除草得到更加廣泛的應(yīng)用。
注:本文通訊作者為陳琳。
參考文獻(xiàn)
[1] 陳鏡宇,郭志軍,金鑫,等.基于激光掃描雷達(dá)的智能割草機器人障礙物檢測[J].現(xiàn)代電子技術(shù),2022,45(18):177?181.
[2] 彭明霞,夏俊芳,彭輝.融合FPN的Faster R?CNN復(fù)雜背景下棉田雜草高效識別方法[J].農(nóng)業(yè)工程學(xué)報,2019,35(20):202?209.
[3] 姜紅花,張傳銀,張昭,等.基于Mask R?CNN的玉米田間雜草檢測方法[J].農(nóng)業(yè)機械學(xué)報,2020,51(6):220?228.
[4] 劉擁民,胡魁,聶佳偉,等.基于MSDB?ResNet的水稻病蟲害識別[J].華南農(nóng)業(yè)大學(xué)學(xué)報,2023,44(6):978?985.
[5] 冀汶莉,劉洲,邢?;?基于YOLOv5的農(nóng)田雜草識別輕量化方法研究[J].農(nóng)業(yè)機械學(xué)報,2024,55(1):212?222.
[6] 曹英麗,趙雨薇,楊璐璐,等.基于改進(jìn)DeepLabv3+的水稻田間雜草識別方法[J].農(nóng)業(yè)機械學(xué)報,2023,54(12):242?252.
[7] LIU Z, LIN Y, CAO Y, et al. Swintrans former: hierarchical vision transformer using shifted windows [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. [S.l.]: IEEE, 2021: 10012?10022.
[8] 亢潔,劉港,郭國法.基于多尺度融合模塊和特征增強的雜草檢測方法[J].農(nóng)業(yè)機械學(xué)報,2022,53(4):254?260.
[9] 焦雙健,劉東,王超.基于改進(jìn)SSD的鐵路障礙物檢測研究[J].現(xiàn)代電子技術(shù),2023,46(2):57?64.
[10] 劉莫塵,高甜甜,馬宗旭,等.基于MSRCR?YOLOv4?tiny的田間玉米雜草檢測模型[J].農(nóng)業(yè)機械學(xué)報,2022,53(2):246?255.
[11] LI X, PAN J, XIE F, et al. Fast and accurate green pepper detection in complex backgrounds via an improved Yolov4?tiny model [J]. Computers and electronics in agriculture, 2021, 191: 106503.
[12] ZHU D, DU B, ZHANG L. Target dictionary construction?based sparse representation hyperspectral target detection methods [J]. IEEE journal of selected topics in applied earth observations and remote sensing, 2019, 12(4): 1254?1264.
[13] HOU Q, ZHOU D, FENG J. Coordinate attention for efficient mobile network design [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2021: 13713?13722.
[14] LIU Z, LIN Y, CAO Y, et al. Swin transformer: hierarchical vision transformer using shifted windows [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. [S.l.]: IEEE, 2021:10012?10022.
[15] 韓錕棟,張濤,彭玻,等.基于改進(jìn)YOLOv5的安全帽檢測算法[J].現(xiàn)代電子技術(shù),2024,47(5):85?92.
[16] 周浩,唐昀超,鄒湘軍,等.復(fù)雜野外環(huán)境下油茶果快速魯棒檢測算法[J].現(xiàn)代電子技術(shù),2022,45(15):73?79.
[17] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]// Proceedings of the European Conference on Computer Vision (ECCV). [S.l.]: Springer, 2018: 3?19.
作者簡介:楊明軒(1998—),男,湖北武漢人,碩士研究生,主要研究方向為目標(biāo)檢測。
陳" 琳(1972—),男,湖北荊州人,博士研究生,教授,主要研究方向為計算機視覺與目標(biāo)檢測。