摘要:農(nóng)田場景下對農(nóng)作物和雜草的精確定位是靶向噴施除草劑和機械智能除草等技術(shù)的基礎(chǔ),針對現(xiàn)有算法易受目標間相互遮擋、目標形變、環(huán)境光照變化等不利因素影響的問題,提出一種基于雙分支神經(jīng)網(wǎng)絡(luò)的農(nóng)田場景語義分割算法,實現(xiàn)對農(nóng)作物和雜草的像素級分類進而獲取農(nóng)作物和雜草的位置信息。首先,設(shè)計基于ResNeSt網(wǎng)絡(luò)結(jié)構(gòu)的骨干網(wǎng)絡(luò)對圖像進行特征提??;然后,設(shè)計并行的由細節(jié)分支和語義上下文分支組成的雙分支神經(jīng)網(wǎng)絡(luò),分別用于提取圖像細節(jié)信息和圖像語義上下文類別信息,并引入注意力機制以更好的提取上下文特征,提升語義分割的性能;接著,使用雙分支特征融合模塊對上述細節(jié)分支和語義上下文分支輸出的特征進行融合;最后,通過語義分割頭模塊輸出對農(nóng)作物和雜草的語義分割結(jié)果。在自建數(shù)據(jù)集上的試驗表明,所提出的算法能夠?qū)r(nóng)作物和雜草進行像素級的準確分割,[mIoU]值達到93.8%,能夠滿足智能除草和除草劑靶向噴施的實際應(yīng)用需求。
關(guān)鍵詞:語義分割;神經(jīng)網(wǎng)絡(luò);深度學習;農(nóng)田場景;智能除草
中圖分類號:S511" " " 文獻標識碼:A" " " 文章編號:2095?5553 (2024) 10?0199?07
Dual branches deep neural network for semantic segmentation in agricultural scenes
Shao Huanzheng1, Li Cuicui1, Liu Qifu1, Yu Jinhui1, Liu Shiming2, Zhang Haihua3
(1. Luohe Food Engineering Vocational University, Luohe, 462000, China; 2. School of Information and Engineering, Zhengzhou University, Zhengzhou, 450001, China; 3.China Academy of Space Technology (Xi'an), Xi'an, 710100, China)
Abstract: Accurate localization of crops and weeds in agricultural field scenes is the foundation for targeted spraying of herbicides and mechanical intelligent weeding. To address the issues of mutual occlusion between targets and target deformation that existing algorithms are susceptible to, a semantic segmentation algorithm was proposed for agricultural field scenes based on a dual?branch neural network. This algorithm achieves pixel?level classification of crops and weeds, thereby obtaining their precise location information. Firstly, we designed a backbone network based on the ResNeSt architecture to extract features from input images. Then, we proposed a parallel dual?branch neural network consisting of a detail branch and a semantic context branch. The detail branch focuses on extracting fine?grained information from images, while the semantic context branch captures high?level semantic contextual information. Attention mechanisms were introduced to better extract contextual features and enhance the performance of semantic segmentation. Next, we performed effective feature fusion using a dual?branch feature fusion module to combine the features extracted from the detail branch and the semantic context branch. Finally, the semantic segmentation head module outputs the semantic segmentation results for crops and weeds. Experimental results on our self?built dataset demonstrate that the proposed semantic segmentation algorithm for agricultural field scenes achieves pixel?level accurate segmentation of crops and weeds, with an [mIoU] (mean Intersection over Union) value of 93.8%. This algorithm meets the practical application requirements of intelligent weeding and targeted herbicide spraying.
Keywords: semantic segmentation; neural network; deep learning; agricultural scene; intelligent weeding
0 引言
農(nóng)田場景中的雜草會擠占農(nóng)作物的生長空間[1],并和農(nóng)作物競爭光照、水分、肥料等生長元素[2],此外,雜草會作為病蟲害傳播的中間載體,對農(nóng)業(yè)生產(chǎn)帶來負面影響[3]。據(jù)有關(guān)統(tǒng)計,每年雜草會導致不低于15%的農(nóng)作物產(chǎn)量損失[4],由此,對農(nóng)業(yè)場景中的農(nóng)作物和雜草進行精確定位[5],并在此基礎(chǔ)上進行除草劑的精準靶向噴施及機械智能除草成為農(nóng)業(yè)自動化等智慧農(nóng)業(yè)領(lǐng)域的研究熱點問題[6]。
傳統(tǒng)的雜草及農(nóng)作物定位通常采用人工觀察識別的方法,但是這種方法效率低下,耗時費力。近年來,隨著深度學習技術(shù)及人工智能技術(shù)的飛速發(fā)展,其在智能農(nóng)業(yè)領(lǐng)域也得到了越來越廣泛地應(yīng)用并不斷突破傳統(tǒng)方法的瓶頸。Pulido等[7]通過設(shè)計一種融合主成分分析(Principal Component Analysis, PCA)和支持向量機(Support Vector Machine, SVM)的目標檢測算法來對圖像中的蔬菜作物與雜草進行區(qū)分。張新明等[8]通過設(shè)計一種概率神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)了對玉米和雜草的識別。樊湘鵬等[9]通過對基于Faster R-CNN的深度學習目標檢測算法進行改進,實現(xiàn)了對棉花苗體和雜草的檢測與定位,并取得了優(yōu)異的性能。王璨等[10]通過設(shè)計一種基于雙注意力機制的語義分割算法完成了對田間苗期玉米和雜草的識別與分割。Huang等[11]利用遙感圖像和全卷積神經(jīng)網(wǎng)絡(luò)對農(nóng)田的雜草區(qū)域進行分割,并以出色的性能成功應(yīng)用于對雜草的檢測。
上述算法雖然在農(nóng)作物及雜草定位方面取得了一定的成果和進步,但仍面臨一些挑戰(zhàn)和局限性。具體來說,這些算法在不同環(huán)境條件下的適應(yīng)性和魯棒性有待提高,而且在雜草與作物生長密集或特征相似的情況下,檢測精確度還不夠理想。綜上所述,基于深度學習的農(nóng)作物及雜草的定位方法可以分為以目標檢測算法為基準和以語義分割算法為基準的兩種類別。
針對目標檢測技術(shù),得益于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的提出和廣泛使用,基于深度學習的目標檢測算法近年來得到了快速的發(fā)展。其中,R-CNN(Region?based Convolutional Neural Networks)[12]是早期基于深度學習的目標檢測算法,該算法通過選擇性搜索(Selective Search)提取候選區(qū)域,然后對每個候選區(qū)域進行卷積神經(jīng)網(wǎng)絡(luò)特征提取和目標分類。R-CNN的后續(xù)改進包括Fast R-CNN[13]和Faster R-CNN[14],其通過引入共享卷積特征和候選區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network)來提高檢測速度和準確性。YOLO(You Only Look Once)[15]是近來非常流行的一種目標檢測算法,其核心思想是將目標檢測任務(wù)轉(zhuǎn)化為回歸問題,該算法將輸入圖像分成網(wǎng)格,并為每個網(wǎng)格預(yù)測目標的邊界框和類別概率。一系列以YOLO算法為基準的改進版本[16, 17]被相繼提出,這些改進算法通過使用更深的網(wǎng)絡(luò)結(jié)構(gòu)、引入多尺度預(yù)測和使用特征金字塔網(wǎng)絡(luò)等技術(shù)來不斷提高目標檢測的性能。SSD[18]同樣是一種單階段目標檢測算法,可以在一次前向傳遞中同時進行目標的定位和分類,該算法使用多個不同尺度的特征圖來檢測不同大小的目標。但是,針對農(nóng)作物與雜草的檢測定位問題,考慮到農(nóng)作物與雜草相互遮擋,且待檢測的農(nóng)作物和雜草均存在容易形變的問題,這對于基于邊界框的目標檢測算法來說是一個非常大的挑戰(zhàn),因此,目標檢測算法并不能很好的適用于對農(nóng)作物和雜草的檢測。
不同于目標檢測技術(shù),圖像語義分割任務(wù)旨在將圖像中的每個像素標記為相應(yīng)的語義類別,這種特性更加適用于解決對農(nóng)作物和雜草的精確定位問題?;谏疃葘W習的圖像語義分割算法在過去幾年取得了顯著的進展,成為該領(lǐng)域的主流方法。其中,全卷積神經(jīng)網(wǎng)絡(luò)FCN(Fully Convolutional Network)[19]是基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像語義分割算法的開創(chuàng)性工作,該算法通過將全連接層替換為卷積層,實現(xiàn)了端到端的像素級預(yù)測。U-Net[20]圖像語義分割算法具有U形的網(wǎng)絡(luò)結(jié)構(gòu),其通過將編碼器和解碼器相連接,利用低級特征和高級特征進行信息傳遞和上采樣,從而實現(xiàn)準確的像素級分割。DeepLab是一系列基于深度學習的圖像語義分割算法,包括DeepLabV1[21]、DeepLabV2[22]、DeepLabV3[23]和DeepLabV3+[24]幾個版本。DeepLab通過引入空洞卷積(Dilated Convolution)和空間金字塔池化(Spatial Pyramid Pooling)等技術(shù)來增大感受野并提高分割性能。最新版本的DeepLabv3+引入了解碼器模塊和多尺度預(yù)測來進一步提升分割結(jié)果的質(zhì)量。
本文以農(nóng)田場景下的農(nóng)作物和雜草的精確定位為目標,設(shè)計一種基于深度學習的圖像語義分割算法,并使用雙分支網(wǎng)絡(luò)結(jié)構(gòu),分別提取輸入圖像的細節(jié)特征和語義上下文特征,并對雙分支網(wǎng)絡(luò)提取到的特征進行高效融合,以提升語義分割算法的性能,從而提高對農(nóng)作物和雜草的定位準確率,為智慧農(nóng)業(yè)領(lǐng)域的機械智能除草和除草劑靶向噴施等需求提供理論和技術(shù)支撐。
1 材料與方法
本文通過設(shè)計基于雙分支深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的圖像語義分割算法完成對農(nóng)田場景下農(nóng)作物和雜草的精確識別和定位。所提出的基于雙分支深度神經(jīng)網(wǎng)絡(luò)的農(nóng)田場景語義分割算法如圖1所示,其中,輸入圖像經(jīng)過藍色虛線框內(nèi)部的骨干網(wǎng)絡(luò)完成對圖像的初步的特征提取,繼而拆分為雙分支網(wǎng)絡(luò)結(jié)構(gòu),即由粉色虛線框表示的細節(jié)分支和由黃色虛線框表示的語義上下文分支,然后通過特征融合模塊對上述兩個分支輸出的特征進行有效融合,并輸入語義分割頭模塊輸出最終的語義分割結(jié)果,圖中各特征圖旁的數(shù)字表示其相對于輸入圖像分辨率大小的比值。
1.1 骨干網(wǎng)絡(luò)
本文所提出的農(nóng)田場景圖像語義分割算法首先通過設(shè)計卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)作為骨干網(wǎng)絡(luò)對輸入圖像進行處理從而高效地提取圖像特征。卷積神經(jīng)網(wǎng)絡(luò)是一類以卷積核作為掩膜且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Networks),相較于傳統(tǒng)的手工設(shè)計的特征提取器而言,卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)具備更高效的捕捉圖像中的局部和全局信息的能力,使其能夠更好地適應(yīng)復雜的場景。卷積神經(jīng)網(wǎng)絡(luò)的獨特之處在于其能夠通過卷積層和池化層的組合,有效地從圖像中提取出有意義的特征。卷積層通過局部感知和權(quán)值共享的方式,能夠捕捉到圖像中的局部特征,從而保留了圖像的空間結(jié)構(gòu)信息。而池化層則通過降采樣的方式,進一步減少了特征的維度,提高了計算效率,并保留了主要的特征信息??偟膩碚f,由于神經(jīng)網(wǎng)絡(luò)具有更加出色的特征提取能力,目前已經(jīng)成為深度學習領(lǐng)域最為常用的特征提取器。
然而,僅通過簡單地堆疊卷積層來增加神經(jīng)網(wǎng)絡(luò)的深度會導致梯度消失和梯度爆炸等問題,這些問題會導致網(wǎng)絡(luò)難以通過訓練得到最優(yōu)解。此外,普通卷積操作的感受野有限,且網(wǎng)絡(luò)結(jié)構(gòu)缺乏跨通道之間的交互作用,這會導致在遮擋、光照多變等復雜條件下算法的魯棒性不足,無法完全勝任本文所研究的農(nóng)作物和雜草的語義分割任務(wù)。
針對上述問題,借鑒ResNeSt[25]網(wǎng)絡(luò)結(jié)構(gòu)作為本文算法的骨干網(wǎng)絡(luò)對輸入圖像進行特征提取。ResNeSt網(wǎng)絡(luò)在經(jīng)典的殘差網(wǎng)絡(luò)(ResNet)[26]的基礎(chǔ)上進行了升級和改進。與ResNet相同,ResNeSt網(wǎng)絡(luò)通過使用殘差連接結(jié)構(gòu)來達到避免產(chǎn)生梯度消失和梯度爆炸的目的。與ResNet相比,ResNeSt網(wǎng)絡(luò)的優(yōu)勢在于其在不需要額外增加計算量的情況下,可以更好地完成對圖像的特征提取任務(wù)。ResNeSt算法提出了如圖2所示的Spilt?Attention block,該模塊首先將輸入的圖像特征分為[K]組,不同的組用cardinal 1~cardinal k表示;然后,將每個cardinal拆分成[R]個,每一個表示為split 1~split r;同時,ResNeSt引入了通道注意力機制,其通過對不同的通道賦予不同的權(quán)重因子以對各個特征通道的重要程度進行建模。此外,傳統(tǒng)的ResNet殘差網(wǎng)絡(luò)使用帶步長的3×3卷積來減少特征的空間維度,但這種處理方式會損失很多的空間信息,而這些空間信息對于農(nóng)作物與雜草分割任務(wù)來說是至關(guān)重要的,ResNeSt則使用核大小為3×3的平均池化來達到減少特征圖空間維度的目的,這可以在一定程度上解決空間信息丟失的問題。綜上所述,ResNeSt網(wǎng)絡(luò)能夠很好的用于本文的農(nóng)田場景語義分割任務(wù),使用其作為骨干網(wǎng)絡(luò)可以有效地對輸入圖像進行特征提取。
1.2 細節(jié)分支
在進行圖像語義分割特別是對于精細的任務(wù)如本文所研究的農(nóng)作物與雜草的識別與分割時,高分辨率特征圖所包含的豐富的圖像細節(jié)信息和低分辨率特征圖所包含的語義上下文信息對于準確分割圖像中的農(nóng)作物和雜草都具有至關(guān)重要的作用。因此,在上述骨干網(wǎng)絡(luò)提取到的圖像淺層特征的基礎(chǔ)上,本文算法通過設(shè)計細節(jié)分支,以進一步提取圖像的細節(jié)信息,從而確保在語義分割過程中對農(nóng)作物和雜草細節(jié)部分的分割精度得到有效保障。如圖1所示,上述細節(jié)分支通過連續(xù)使用步長為1的卷積操作、批歸一化操作(Batch Normalization, BN)和ReLU激活函數(shù)來提取足量的圖像細節(jié)信息,同時保持特征圖分辨率為輸入圖像的1/8,以增強網(wǎng)絡(luò)對細節(jié)特征的表達能力。其中,批歸一化操作旨在通過調(diào)整每個特征圖的縮放和偏移來規(guī)范化特征的分布,有助于減少內(nèi)部協(xié)變量偏移,提高整個網(wǎng)絡(luò)的訓練穩(wěn)定性,加快收斂速度,并提高分割的準確性。ReLU激活函數(shù)能夠有效地增強網(wǎng)絡(luò)對于圖像細節(jié)的表示能力,同時還能提高模型的泛化能力。
1.3 語義上下文分支
本文算法通過設(shè)計與上述細節(jié)分支平行的語義上下文分支來進一步增強網(wǎng)絡(luò)對深層語義特征的提取能力,從而提升算法在目標相互遮擋、光照及目標形變等復雜情況下的準確性和魯棒性。與上述細節(jié)分支不同,語義上下文分支用于提取抽象的圖像語義上下文類別信息,有利于算法對圖像像素進行正確的分類。本文算法的語義上下文分支通過連續(xù)對特征圖進行下采樣操作來逐步增大網(wǎng)絡(luò)的感受野,通過使用三次步長為2的卷積操作、批歸一化操作和ReLU激活函數(shù),將特征圖的空間大小降為輸入圖像分辨率的1/64,如前文所述,此類低分辨率特征圖包含了圖像的語義上下文信息,這對于區(qū)分圖像中不同的類別,尤其是在復雜場景下的語義類別具有重要的作用。
此外,本文算法引入了注意力機制以更好的提取上下文特征,從而進一步優(yōu)化圖像語義分割的準確性。注意力機制(Attention Mechanism)源自人類視覺中的注意力焦點理論,即人類視覺在處理信息時能夠自然地聚焦于某些關(guān)鍵部位,而忽視不相關(guān)的背景信息。類似地,引入注意力機制的深度學習模型具備了集中注意力的能力,它通過為輸入特征圖中各個部分賦予不同的權(quán)重因子,使得模型能夠聚焦在圖像中最具有判別性的區(qū)域。具體來說,本文算法所使用的注意力機制通過一系列學習得到的權(quán)重對特征圖進行加權(quán),突出對當前語義分割任務(wù)更重要的特征,同時抑制那些不太相關(guān)的信息。該機制有助于模型在處理圖像時對關(guān)鍵的特征或是潛在有用的區(qū)域給予更多的關(guān)注,加強模型對這些區(qū)域的處理效果。在農(nóng)作物和雜草的分割中,意味著模型能夠更傾向于關(guān)注那些在視覺上可能對區(qū)分語義類別有重要貢獻的特征,如葉子的形狀、邊緣的紋理等,從而達到提高模型的感知能力,使網(wǎng)絡(luò)模型的特征表達能力得到增強的目的。
本文算法設(shè)計的注意力機制如圖3所示,其主要由空間注意力機制和通道注意力機制兩部分組成。其中,空間注意力機制旨在通過動態(tài)地選擇圖像中的重要區(qū)域或位置來增強模型的感知能力,通過學習不同位置的相關(guān)性和重要性來自適應(yīng)地分配注意力,捕捉到圖像中的空間結(jié)構(gòu)信息,達到提高模型對圖像不同區(qū)域的關(guān)注能力,從而提升模型的性能的目的。相應(yīng)的,通道注意力機制旨在通過動態(tài)地調(diào)整不同通道的權(quán)重來增強模型對特定通道的關(guān)注,通過學習通道之間的相關(guān)性和重要性來自適應(yīng)地分配注意力,達到提高模型對不同通道表示的利用效率的目的。
針對空間注意力機制,定義上述語義上下文分支提取到的特征圖為[A∈RC×H×W],則有
[Sji=exp(Bi?Cj)i=1Nexp(Bi?Cj)] (1)
[Pj=αi=1N(SjiDi)+Aj] (2)
[B]、[C]和[D]均由特征圖[A]經(jīng)過卷積和形變操作得到,[S∈R(H×W)×(H×W)]表示計算得到的權(quán)重圖,并被用于得到[P∈RC×H×W],即經(jīng)過空間注意力機制優(yōu)化后的特征圖。由此可得空間維度的全局上下文信息。針對通道注意力機制,有
[Xji=exp(Ai?Aj)i=1Cexp(Ai?Aj)] (3)
[Cj=βi=1C(XjiAi)+Aj] (4)
其中,[X∈RC×C]表示根據(jù)各特征通道的相似性得到的權(quán)重圖,并被用于得到[C∈RC×H×W],即經(jīng)過通道注意力機制優(yōu)化后的特征圖。由此,即可在通道維度對特征進行增強。
1.4 雙分支特征融合
在上述基礎(chǔ)上,本文算法對由細節(jié)分支提取到的空間細節(jié)特征和由語義分支提取到的語義上下文特征進行有效融合?;谏鲜鲭p分支特征的互補性,使用如圖4所示的雙向融合的雙分支特征融合網(wǎng)絡(luò)。首先對語義分支輸出的特征進行卷積操作和上采樣操作,以提高其空間分辨率,并與經(jīng)過卷積操作的細節(jié)分支輸出的特征圖進行點乘運算,由此實現(xiàn)細節(jié)信息和語義信息的交互。同時,對細節(jié)分支輸出的特征進行兩次步長為2的卷積操作,進一步提取特征的同時實現(xiàn)對特征圖的降采樣,并與經(jīng)過卷積操作的語義分支輸出的特征圖進行點乘運算,由此實現(xiàn)語義信息和細節(jié)信息的交互。最后,將此交互特征進行上采樣操作,并與前述交互后的細節(jié)分支特征進行相加操作,通過添加卷積層、批歸一化層和ReLU激活函數(shù),得到最終的融合后的特征。通過該設(shè)計,能夠?qū)⒓毠?jié)分支提取到的豐富的空間細節(jié)信息和語義分支提取到的語義上下文信息相融合,實現(xiàn)特征的互補和增強。這樣的雙向融合機制可以有效地促進模型對圖像信息的全面理解,為語義分割任務(wù)的準確性和魯棒性帶來顯著提升。
1.5 語義分割頭
網(wǎng)絡(luò)的最后,本文算法通過添加語義分割頭結(jié)構(gòu)對融合后的特征進行雙線性插值上采樣操作并輸出最終的語義分割結(jié)果,實現(xiàn)對農(nóng)作物與雜草的識別與分割。本文算法所設(shè)計的語義分割頭示意圖如圖5所示,其中定義雙通道特征融合后得到的特征圖維度為[H×W×C],卷積及上采樣操作后,得到的特征圖維度為[8H×8W×N],即特征圖空間大小還原為輸入圖像的分辨率,[N]表示數(shù)據(jù)集定義的語義類別,本文中取值為3,分別對應(yīng)雜草、農(nóng)作物和背景區(qū)域三種語義類別。
2 試驗結(jié)果與分析
2.1 圖像數(shù)據(jù)集
本文使用自行構(gòu)建的農(nóng)作物及雜草數(shù)據(jù)集完成對所提出的算法模型的訓練和性能的評估。該數(shù)據(jù)集采集了多樣化的光照、背景及生長條件的自然條件下的農(nóng)田場景的RGB圖像,并對農(nóng)作物及雜草兩種語義類別進行了手動像素級標注,生成對應(yīng)的標簽圖像,最終構(gòu)成農(nóng)作物及雜草數(shù)據(jù)集。數(shù)據(jù)集共包含1 200張進行了精確標注的圖像,每張圖像的分辨率均為1 280像素×720像素。將600張圖像作為訓練集,使算法模型能夠在大量的樣本中學習到農(nóng)作物和雜草的特征;100張圖像用作驗證集,在模型訓練過程中進行參數(shù)調(diào)優(yōu)和性能驗證;剩余的500張圖像則構(gòu)成測試集,用于評估模型在未知數(shù)據(jù)上的泛化能力和實際效果。部分采集圖像及標注圖像如圖6所示。其中,綠色像素區(qū)域表示農(nóng)作物語義類別,青色像素區(qū)域表示雜草語義類別。
2.2 試驗平臺及參數(shù)設(shè)置
本文試驗基于Linux 18.04系統(tǒng),NVIDIA GTX 1080Ti GPU,使用Pytorch 1.10.0深度學習框架進行算法網(wǎng)絡(luò)結(jié)構(gòu)的搭建、訓練及測試,使用CUDA和cuDNN對網(wǎng)絡(luò)模型進行加速。本文使用小批量隨即梯度下降(mini?batch SGD)作為優(yōu)化器進行網(wǎng)絡(luò)模型的訓練,設(shè)置初始學習率為0.025,momentum為0.9。采用“poly”策略,使學習率按照迭代次數(shù)依次衰減。采用隨即旋轉(zhuǎn)、水平翻轉(zhuǎn)、隨即剪裁等方法進行數(shù)據(jù)增強。
2.3 消融試驗
使用平均交并比(intersection?over?union, [mIoU])作為衡量指標評價所提出算法的語義分割準確性,平均交并比是圖像語義分割領(lǐng)域常用的評價標準,其定義如式(5)、式(6)所示。
[IoU=piij=0kpij+j=0kpji-pii] (5)
[mIoU=i=0kIoUik+1] (6)
式中: [k+1]——數(shù)據(jù)集定義的語義類別總數(shù);
i——真實值;
[pij]——將i預(yù)測為j,為假負;
[pji]——將j預(yù)測為i,為假正;
[pii]——將i預(yù)測為i,為真正;
j——預(yù)測值。
為驗證本文提出的算法所使用或提出的骨干網(wǎng)絡(luò)、細節(jié)分支、語義上下文分支、注意力機制等模塊的有效性,在自行構(gòu)建的數(shù)據(jù)集上進行大量的消融試驗,消融試驗結(jié)果如表1~表3所示。由表1~表3可知,本文算法所選擇使用的ResNeSt骨干網(wǎng)絡(luò)相比較ResNet具有更好的特征提取能力,其語義分割[mIoU]值提升了2.1%。本文算法設(shè)計的雙分支結(jié)構(gòu),即細節(jié)分支和語義上下文分支能分別提取圖像的細節(jié)特征和語義特征,上述兩個分支對于提升算法的總體語義分割性能均有著重要的作用,當同時使用雙分支結(jié)構(gòu)時,其語義分割[mIoU]值可以達到93.8%,相比較僅使用細節(jié)分支或僅使用語義上下文分支分別提升了11.3%和8.7%。在語義上下文分支引入的注意力機制可以顯著提升算法的語義分割性能,其中,空間注意力機制可以使算法的[mIoU]值提升1.5%,通道注意力機制可以使算法的[mIoU]值提升2.2%,同時使用空間注意力機制和通道注意力機制可以使算法的[mIoU]值提升3.6%。
2.4 定性試驗
為了可視化的顯示本文算法的有效性,在自行構(gòu)建的農(nóng)作物及雜草數(shù)據(jù)集進行定性試驗,試驗結(jié)果如圖7所示。圖7中第1、第3、第5列為部分輸入圖像,第2、第4、第6列為對應(yīng)的本文算法的語義分割結(jié)果。
本文所提出的基于雙分支深度神經(jīng)網(wǎng)絡(luò)的農(nóng)田場景語義分割算法能夠很好地實現(xiàn)圖像語義分割任務(wù),算法在目標間相互遮擋、目標形變、環(huán)境光照變化等不利因素的影響下均能保證極佳的分割性能,可以實現(xiàn)對農(nóng)田場景下的農(nóng)作物和雜草的像素級精確定位。
2.5 定量試驗
為更好地說明本文提出的算法的有效性,復現(xiàn)了部分當下流行的擁有出色圖像語義分割性能的算法,并在所構(gòu)建的數(shù)據(jù)集下與文本算法進行對比,如表4所示?;陔p分支深度神經(jīng)網(wǎng)絡(luò)的農(nóng)田場景語義分割算法相較于現(xiàn)有算法擁有更好的語義分割準確性和實時性。本文算法在所構(gòu)建數(shù)據(jù)集下的準確性達到了93.8%的[mIoU],算法模型的平均推理時間僅為115 ms,相較于現(xiàn)有算法均取得了顯著提升,可以實現(xiàn)農(nóng)田場景下對農(nóng)作物和雜草的精確定位,滿足實際應(yīng)用需求。
3 結(jié)論
1) 提出一種基于雙分支深度神經(jīng)網(wǎng)絡(luò)的農(nóng)田場景語義分割算法,旨在實現(xiàn)對農(nóng)田場景下的農(nóng)作物和雜草的精準語義分割。
2) 本文算法使用自行構(gòu)建的農(nóng)作物及雜草數(shù)據(jù)集進行大量試驗。試驗結(jié)果表明,本文提出的農(nóng)田場景語義分割算法能夠在目標間相互遮擋、目標形變、環(huán)境光照變化等不利因素影響下保證算法的準確性和魯棒性,其分割的[mIoU]值可以達到93.8%,相比較FCN、UNet、DeepLab、DeepLabV3+、BiSeNet等現(xiàn)有流行算法,本文算法能夠更好地完成對農(nóng)作物和雜草的精確定位。
3) 在農(nóng)作物及雜草數(shù)據(jù)集上的分割速度對比試驗表明,本文算法以115 ms的平均推理時間,相較于現(xiàn)有流行算法在實時性方面取得顯著提升。
參 考 文 獻
[ 1 ] 鄧向武, 梁松, 齊龍, 等. 基于 DeepLabV3+ 的稻田苗期雜草語義分割方法研究[J]. 中國農(nóng)機化學報, 2023, 44(4): 174-180.
Deng Xiangwu, Liang Song, Qi Long, et al. Method study on semantic segmentation of weeds at seedling stage in paddy fields based on DeepLabV3+ model [J]. Journal of Chinese Agricultural Mechanization, 2023, 44(4): 174-180.
[ 2 ] 姜紅花, 王鵬飛, 張昭, 等. 基于卷積網(wǎng)絡(luò)和哈希碼的玉米田間雜草快速識別方法[J]. 農(nóng)業(yè)機械學報, 2018, 49(11): 30-38.
[ 3 ] 張樂, 金秀, 傅雷揚, 等. 基于 Faster R-CNN 深度網(wǎng)絡(luò)的油菜田間雜草識別方法[J]. 激光與光電子學進展, 2020, 57(2): 304-312.
[ 4 ] 劉成良, 林洪振, 李彥明, 等. 農(nóng)業(yè)裝備智能控制技術(shù)研究現(xiàn)狀與發(fā)展趨勢分析[J]. 農(nóng)業(yè)機械學報, 2020, 51(1): 1-18.
[ 5 ] 孫君亮, 閆銀發(fā), 李法德, 等. 智能除草機器人的研究進展與分析[J]. 中國農(nóng)機化學報, 2019, 40(11): 73-80.
Sun Junliang, Yan Yinfa, Li Fade, et al. Research progress and analysis of intelligent weeding robot [J]. Journal of Chinese Agricultural Mechanization, 2019, 40(11): 73-80.
[ 6 ] 馬志艷, 張徐康, 楊光友. 基于改進 Mask R-CNN 的水稻莖稈雜質(zhì)分割方法研究[J]. 中國農(nóng)機化學報, 2021, 42(6): 145-150.
Ma Zhiyan, Zhang Xukang, Yang Guangyou. Research on segmentation method of rice stem impurities based on improved Mask R-CNN [J]. Journal of Chinese Agricultural Mechanization, 2021, 42(6): 145-150.
[ 7 ] Pulido C, Solaque L, Velasco N. Weed recognition by SVM texture feature classification in outdoor vegetable crop images [J]. Ingeniería e Investigación, 2017, 37(1): 68-74.
[ 8 ] 張新明, 涂強, 馮夢清. 基于改進概率神經(jīng)網(wǎng)絡(luò)的玉米與雜草識別[J]. 山西大學學報(自然科學版), 2015, 38(3): 432-438.
[ 9 ] 樊湘鵬, 周建平, 許燕, 等. 基于優(yōu)化 Faster R-CNN 的棉花苗期雜草識別與定位[J]. 農(nóng)業(yè)機械學報, 2021, 52(5): 26-34.
[10] 王璨, 武新慧, 張燕青, 等. 基于雙注意力語義分割網(wǎng)絡(luò)的田間苗期玉米識別與分割[J]. 農(nóng)業(yè)工程學報, 2021, 37(9): 211-221.
[11] Huang H, Deng J, Lan Y, et al. Accurate weed mapping and prescription map generation based on fully convolutional networks using UAV imagery [J]. Sensors, 2018, 18(10): 3299.
[12] Girshick R, Donahue J, Darrell T, et al. Region?based convolutional networks for accurate object detection and segmentation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(1): 142-158.
[13] Girshick R. Fast R-CNN [C]. Proceedings of the IEEE International Conference on Computer Vision, 2015: 1440-1448.
[14] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real?time object detection with region proposal networks [J]. Advances in Neural Information Processing Systems, 2015, 28.
[15] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real?time object detection [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 779-788.
[16] Li C, Li L, Jiang H, et al. YOLOv6: A single?stage object detection framework for industrial applications [J]. arXiv Preprint arXiv: 2209. 02976, 2022.
[17] Wang C, Bochkovskiy A, Liao H. YOLOv7: Trainable bag?of?freebies sets new state?of?the?art for real?time object detectors [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 7464-7475.
[18] Wei L, Dragomir A, Dumitru E, et al, SSD: Single shot multibox detector [J]. Proceedings of the European Conference on Computer Vision (ECCV), 2016: 21-37.
[19] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 3431-3440.
[20] Ronneberger O, Fischer P, Brox T. U-Net: Convolutional networks for biomedical image segmentation [C]. International Conference on Medical Image Computing and Computer?Assisted Intervention, 2015.
[21] Chen L C, Papandreou G, Kokkinos I, et al. Semantic image segmentation with deep convolutional nets and fully connected crfs [J]. arXiv Preprint arXiv: 1412. 7062, 2014.
[22] Chen L C, Papandreou G, Kokkinos I, et al. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(4): 834-848.
[23] Chen L C, Papandreou G, Schroff F, et al. Rethinking atrous convolution for semantic image segmentation [J]. arXiv Preprint arXiv: 1706. 05587, 2017.
[24] Chen L C, Zhu Y, Papandreou G, et al. Encoder?decoder with atrous separable convolution for semantic image segmentation [C]. Proceedings of the European Conference on Computer Vision (ECCV), 2018: 801-818.
[25] Zhang H, Wu C, Zhang Z, et al. ResNeSt: Split?attention networks [J]. arXiv Preprint arXiv: 2004. 08955, 2020.
[26] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.
[27] Yu C, Wang J, Peng C, et al. BiseNet: Bilateral segmentation network for real?time semantic segmentation [C]. Proceedings of the European Conference on Computer Vision (ECCV), 2018: 325-341.