王 璨,武新慧,張燕青,王文俊
(山西農(nóng)業(yè)大學(xué)農(nóng)業(yè)工程學(xué)院,太谷 030801)
除草是幼苗期作物田間管理的必要工作。為減少人工成本,當(dāng)前大田除草作業(yè)以大面積噴灑除草劑為主[1-4]。這種化學(xué)防治方法易導(dǎo)致農(nóng)業(yè)面源污染,影響田間土壤和水體環(huán)境,作物農(nóng)藥殘留問題同樣無法避免[5-7]。另外,由于化學(xué)成分的使用限制,新除草劑的研發(fā)難以跟上雜草的抗藥性[8-9]。因此以減少除草劑使用為目標(biāo)的除草農(nóng)機(jī)裝備被廣泛研究[10-11],主要工作方式有對(duì)靶噴藥、機(jī)械除草和電擊除草[12-14]等。在當(dāng)前農(nóng)業(yè)發(fā)展階段,以信息感知、自動(dòng)導(dǎo)航、精準(zhǔn)作業(yè)和智能管理為特點(diǎn)的各類智能農(nóng)機(jī)裝備是組建無人農(nóng)場的重要支撐[15]。智能田間除草設(shè)備要完成無人化的精準(zhǔn)除草,必須以目標(biāo)信息的智能精準(zhǔn)感知為前提[16],其所要解決的關(guān)鍵問題是實(shí)現(xiàn)田間作物和雜草的準(zhǔn)確識(shí)別與分割。
作物雜草識(shí)別廣泛采用機(jī)器視覺的圖像識(shí)別方式[17-19]。在最新研究中,以基于深度學(xué)習(xí)的目標(biāo)檢測方法為主,常用結(jié)構(gòu)包括YOLOv3、Faster R-CNN和SSD等[20-24]。這類方法通過深度卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,再通過不同手段確定包含單個(gè)作物植株或雜草目標(biāo)的全部檢測框坐標(biāo)及大小,并給出框內(nèi)目標(biāo)的所屬類別以及置信度,從而實(shí)現(xiàn)對(duì)圖像中各目標(biāo)類別與位置的識(shí)別預(yù)測。作物雜草識(shí)別不同于果實(shí)識(shí)別和畜禽識(shí)別等其他農(nóng)業(yè)圖像識(shí)別[25-26],將其作為目標(biāo)檢測任務(wù)來研究存在以下問題:1)圖像中待識(shí)別目標(biāo)除作物外并不固定,這是由于雜草種類的多樣化以及位置分布的隨機(jī)性所決定的。目標(biāo)檢測方法須檢測出作物和全部雜草才能達(dá)到識(shí)別效果。這就要求在數(shù)據(jù)集中對(duì)全部雜草目標(biāo)進(jìn)行標(biāo)注且雜草種類應(yīng)盡可能全面。2)人類視覺在進(jìn)行作物與雜草識(shí)別時(shí),只需確定哪些目標(biāo)為作物即可判斷其余為雜草,雜草種類和數(shù)量并不重要。目標(biāo)檢測方法若只對(duì)作物進(jìn)行檢測,則由于作物形態(tài)的不規(guī)則,得到的檢測框中會(huì)包含較大面積背景,處于這部分背景內(nèi)的雜草目標(biāo)將不會(huì)被區(qū)分。3)在場景較為復(fù)雜的田間圖像中,作物與雜草間通常會(huì)出現(xiàn)不同程度的交疊現(xiàn)象,尤其在兩者距離很近或深入交疊的情況下,目標(biāo)檢測方法所形成的作物與雜草檢測框也會(huì)出現(xiàn)大面積重疊,難以準(zhǔn)確分割不同目標(biāo)的區(qū)域邊界。
為解決上述問題,本文將作物雜草識(shí)別作為語義分割任務(wù)進(jìn)行研究?;谏疃葘W(xué)習(xí)的語義分割方法是當(dāng)前計(jì)算機(jī)視覺領(lǐng)域?qū)崿F(xiàn)場景完整理解的重要手段[27-28],特點(diǎn)是能夠根據(jù)圖像內(nèi)容對(duì)每個(gè)像素進(jìn)行密集預(yù)測,推斷像素類別來完成細(xì)?;评韀29-30],具有相同標(biāo)記類別的像素共同組成其所在目標(biāo)區(qū)域,同目標(biāo)檢測方法相比,不但能識(shí)別目標(biāo)類別與位置,還可精確獲得目標(biāo)的形態(tài)邊界,實(shí)現(xiàn)目標(biāo)區(qū)域的精細(xì)分割。
基于此,本文提出基于雙注意力語義分割網(wǎng)絡(luò)的幼苗期田間玉米識(shí)別方法。首先建立幼苗期玉米語義分割模型,目標(biāo)是玉米像素同其他所有像素的二分類,實(shí)現(xiàn)玉米區(qū)域的邊界分割。在確定玉米像素區(qū)域的基礎(chǔ)上,圖像中的其余綠色像素即可通過本文提出的圖像形態(tài)學(xué)處理方法判定為雜草,進(jìn)而實(shí)現(xiàn)雜草的有效識(shí)別。本文方法有以下2個(gè)特點(diǎn):1)該方法在識(shí)別過程中不需考慮雜草及其種類,可減少分類類別對(duì)識(shí)別精度的影響,降低圖像標(biāo)注量。2)通過像素級(jí)的識(shí)別結(jié)合形態(tài)學(xué)處理,可準(zhǔn)確識(shí)別玉米和雜草的形態(tài)區(qū)域,解決作物與雜草交疊時(shí)檢測框重疊帶來的檢測目標(biāo)無法精確分割的問題。在復(fù)雜田間場景圖像數(shù)據(jù)集上對(duì)本文方法進(jìn)行試驗(yàn),以期實(shí)現(xiàn)更精準(zhǔn)的作物雜草識(shí)別與分割,為智能除草裝備研發(fā)提供技術(shù)支撐。
本研究以幼苗期玉米的田間場景為研究對(duì)象,采集圖像用于本文語義分割模型的訓(xùn)練、調(diào)整和測試。
為保證樣本圖像的代表性與多樣性,綜合考慮環(huán)境差異、光線差異以及玉米幼苗不同生長階段確定采集方案。從多處不同的實(shí)際田間環(huán)境中采集圖像,地點(diǎn)分布于山西省晉中市太谷區(qū)內(nèi)多個(gè)村莊的玉米田。一般情況下,玉米苗后除草劑的使用期在2~5葉期,因此選擇尚未進(jìn)行人工除草或噴灑除草劑的地塊,在2~5葉期間進(jìn)行3次圖像采集,每次圖像采集均在3個(gè)不同時(shí)間段下完成,代表實(shí)際應(yīng)用時(shí)可能的作物生長階段以及光線條件。圖像采集設(shè)備為Mi 10Pro手機(jī),采用垂直俯視方式拍攝,設(shè)備距地面高度在50~60 cm之間隨機(jī)變化,使獲取的圖像具有不同尺度。圖像的原始分辨率為2 266像素×2 266像素,保存為jpg格式。共采集幼苗期玉米田間圖像1 000張。
在所采集的大部分圖像中,玉米幼苗同雜草、土壤和秸稈等復(fù)雜背景共存,至少包含1個(gè)完整或局部的玉米目標(biāo)。此外,圖像中玉米幼苗和雜草的相對(duì)分布位置完全隨機(jī),涵蓋玉米雜草存在交疊的各類復(fù)雜情況,盡可能保證識(shí)別分割難度與實(shí)際應(yīng)用情況相同。
將圖像分辨率調(diào)整為512像素×512像素,在保證語義分割效果的前提下加快模型推理速度。除此以外不進(jìn)行任何圖像處理操作,旨在盡可能減少圖像輸入模型前的各種預(yù)處理環(huán)節(jié),使模型學(xué)習(xí)并獲得從原始圖像進(jìn)行分割的能力,保證分割過程簡單且有效。
采用labelme(v4.5.6)工具對(duì)全部圖像進(jìn)行手工精確標(biāo)注。標(biāo)注模式為多邊形(Ploygons),僅對(duì)圖像中的玉米目標(biāo)區(qū)域進(jìn)行標(biāo)注,其他區(qū)域全部歸為背景。生成的標(biāo)簽圖像(Label)中玉米幼苗像素值為1,背景像素值為0,標(biāo)記配色為玉米幼苗RGB=[128, 0, 0],背景RGB= [0, 0, 0],標(biāo)簽以png格式保存。標(biāo)注如圖1所示。
按照PASCAL VOC 2012格式制作數(shù)據(jù)集。考慮數(shù)據(jù)集的隨機(jī)均勻分布,按照70%、20%和10%的比例隨機(jī)打亂并劃分圖像,分別作為模型的訓(xùn)練集(700幅)、驗(yàn)證集(200幅)和測試集(100幅),各集合之間相互獨(dú)立,無重復(fù)圖像樣本。
本研究選擇6種達(dá)到當(dāng)前最高水平(State Of The Art,SOTA)的深度學(xué)習(xí)語義分割模型,DANet、PSANet、DeepLabv3+、ANN、GCNet以及ENCNet[31-36]。其中DANet通過自注意機(jī)制來自適應(yīng)集成局部特征的全局上下文信息,提高場景分割任務(wù)中特征表達(dá)的判別能力;PSANet網(wǎng)絡(luò)從信息流的角度構(gòu)建自適應(yīng)的雙向注意力機(jī)制,對(duì)圖中目標(biāo)的位置和類別信息較為敏感;DeepLabv3+在空洞全卷積網(wǎng)絡(luò)的基礎(chǔ)上引入編碼器-解碼器結(jié)構(gòu),融合多尺度特征信息,提升分割邊界的準(zhǔn)確度;ANN采用非對(duì)稱的金字塔非局部模塊來替代傳統(tǒng)的非局部網(wǎng)絡(luò),在保持分割性能的同時(shí)降低了計(jì)算復(fù)雜度;GCNet結(jié)合經(jīng)典SENet與非局部網(wǎng)絡(luò)的結(jié)構(gòu)優(yōu)點(diǎn),能夠?qū)θ稚舷挛年P(guān)系有效建模,同時(shí)保持網(wǎng)絡(luò)的輕量化;ENCNet引入上下文編碼模塊捕獲全局語義信息,同時(shí)突出與場景相關(guān)聯(lián)的類別信息。基于本文所建立的幼苗期玉米語義分割數(shù)據(jù)集,在相同的平臺(tái)與配置下對(duì)6種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行對(duì)比分析,根據(jù)網(wǎng)絡(luò)在訓(xùn)練、驗(yàn)證與測試中的綜合表現(xiàn)確定采用DANet網(wǎng)絡(luò)架構(gòu)。
雙重注意力網(wǎng)絡(luò)(Dual Attention Network,DANet)在經(jīng)典FCN網(wǎng)絡(luò)的基礎(chǔ)上增加了2種注意力模塊,分別構(gòu)建特征圖不同維度上的大范圍語義關(guān)系。雙重注意力機(jī)制的結(jié)合能夠生成更具判別能力的特征表達(dá),從而取得更好的像素級(jí)推理效果。在DANet基礎(chǔ)上作進(jìn)一步調(diào)整,建立具有準(zhǔn)確性和快速性的幼苗期玉米語義分割模型。主要改進(jìn)之處包括:主干網(wǎng)絡(luò)、注意力機(jī)制、模型架構(gòu)和損失函數(shù)4部分。
1.4.1 主干網(wǎng)絡(luò)
主干網(wǎng)絡(luò)負(fù)責(zé)模型的特征提取任務(wù),對(duì)于語義分割結(jié)果具有重要影響。研究表明,深層次的網(wǎng)絡(luò)結(jié)構(gòu)能夠獲取更抽象的特征分層表達(dá),具有更高的分割精度。
考慮圖像中幼苗期玉米與雜草的類間相似性和目標(biāo)交疊問題,在語義分割上存在一定難度。為保證分割精度,本文采用ResNet-101作為主干網(wǎng)絡(luò),并通過結(jié)構(gòu)調(diào)整降低計(jì)算量。資料顯示在ResNet結(jié)構(gòu)中,卷積的計(jì)算量與核的寬度或高度成二次方關(guān)系[37],7×7卷積的計(jì)算量是3×3卷積的5.4倍。由此對(duì)ResNet-101作如圖2所示的調(diào)整:將網(wǎng)絡(luò)輸入干(Input Stem)中的7×7卷積替換為3個(gè)3×3卷積,其中第1及第2層卷積的輸出通道數(shù)均為32,步長s=2,最后1層卷積的輸出通道數(shù)為64;移除原網(wǎng)絡(luò)中的下采樣操作,并在最后2個(gè)殘差網(wǎng)絡(luò)塊中使用空洞卷積,使最終特征映射大小為輸入圖像的1/8,保留更多細(xì)節(jié)且不增加額外參數(shù)。調(diào)整后的主干網(wǎng)絡(luò)記為ResNet-101-C。
1.4.2 注意力機(jī)制
在特征圖的位置維度中引入遞歸交叉注意力(Recurrent Criss-Cross Attention,RCCA)機(jī)制,計(jì)算特征圖中每個(gè)像素與其所在十字路徑中像素的關(guān)系,通過2次循環(huán)間接獲得每個(gè)像素與全部像素的上下文信息,降低空間注意力圖的復(fù)雜度[38],減少計(jì)算量。RCCA結(jié)構(gòu)如圖3所示。
輸入特征圖F∈RC×H×W,分別經(jīng)3個(gè)帶有1×1濾波器組的卷積層后生成3個(gè)特征圖F1、F2和F3∈RC×H×W( RC×H×W表示特征矩陣的維度)。對(duì)于F1空間維度上的每一個(gè)位置p均可獲取向量F1pC∈R。同時(shí)提取F2中與p同行或同列位置所對(duì)應(yīng)的向量組成集合Xp∈R(H+W-1)×C,其中第i個(gè)元素向量Xi,p∈RC。定義生成注意力矩陣元素的操作如下:
其中di,p表示F1p與Xi,p的相關(guān)度。計(jì)算i∈(1,…,H+W-1)和p∈(1,…,H×W)時(shí)的全部元素,再經(jīng)Softmax層生成空間注意力圖A∈R(H+W-1)×(H×W)。同理,對(duì)F3空間維度中的每個(gè)位置p,可得向量F3p∈RC和集合Yp∈R(H+W-1)×C,其中Yp從F3提取。定義聚合操作如下:
其中Fp' 為輸出特征圖F'∈RC×W×H在位置p的特征向量,Ai,p是A在通道i和位置p處的標(biāo)量值,Yi,p為Yp中第i個(gè)向量,F(xiàn)p是F在位置p的特征向量。該操作根據(jù)空間注意力圖將上下文信息添加到特征圖中以增強(qiáng)像素級(jí)特征表達(dá)。以 'F作為輸入,再循環(huán)執(zhí)行1次上述操作,最終輸出特征映射 ''F。由此得到所有像素的完整上下文信息并生成新特征。
在特征的通道維度上,采用通道注意力模塊(Channel Attention Module,CAM)構(gòu)建各通道間的大范圍語義依賴關(guān)系,提高特征的可判別性,結(jié)構(gòu)如圖4所示。
將輸入特征圖F∈RC×H×W重構(gòu)為E∈RC×N。對(duì)E、ET應(yīng)用矩陣乘法再經(jīng)Softmax層生成通道注意力圖B∈RC×C:
其中bj,k表示第k通道對(duì)第j通道的影響,Ek、Ej為E的第k行和第j行。計(jì)算特征圖 '=EBE并變換維度為RC×H×W,經(jīng)下式生成最終輸出特征圖E''∈RC×H×W:
1.4.3 模型結(jié)構(gòu)
本文采用編碼器-解碼器(Encoder-Decoder)結(jié)構(gòu)[39]建立幼苗期玉米語義分割模型,如圖5所示。
其中編碼器負(fù)責(zé)提取高層次語義特征,采用上文改進(jìn)的ResNet-101-C作為主干網(wǎng)絡(luò)建立特征映射。解碼器部分為雙注意力頭(DA head),通過RCCA與CAM機(jī)制同步構(gòu)建特征在空間與通道維度上的大范圍語義依賴關(guān)系,并通過多個(gè)帶有3×3濾波器組的卷積層逐步重構(gòu)特征信息,以此獲得更強(qiáng)的目標(biāo)邊緣判別能力。最后通過帶有卷積和雙線性插值上采樣的分割層生成預(yù)測結(jié)果。此外,本文在編碼器-解碼器的基礎(chǔ)上增加全卷積頭(FCN head)作為輔助器[40],結(jié)合主干網(wǎng)絡(luò)低層特征進(jìn)行優(yōu)化,通過衡量分割結(jié)果指導(dǎo)低層特征的訓(xùn)練。綜合高層特征重構(gòu)與低層特征優(yōu)化,提高模型的推理能力。
1.4.4 損失函數(shù)
為使模型各部分均達(dá)到最佳訓(xùn)練效果,將損失函數(shù)分為4項(xiàng):1)分割損失Lossseg,評(píng)估模型輸出與真實(shí)值(Ground Truth)之間的不一致程度,衡量模型整體推理能力;2)RCCA損失Lossrcca,評(píng)估單以RCCA模塊重構(gòu)特征的預(yù)測結(jié)果與真實(shí)值的不一致程度,驅(qū)動(dòng)RCCA學(xué)習(xí)特征空間維度的大范圍上下文信息;3)CAM損失Losscam,評(píng)估單以CAM重構(gòu)特征的預(yù)測結(jié)果與真實(shí)值的不匹配,引導(dǎo)CAM構(gòu)建特征通道間的語義依賴關(guān)系;4)輔助損失Lossaux,評(píng)估輔助器的預(yù)測結(jié)果與真實(shí)值的不一致程度,優(yōu)化特征提取結(jié)果。
各項(xiàng)損失采用二元交叉熵(Binary Cross Entropy Loss,BCE)損失函數(shù)進(jìn)行計(jì)算,相應(yīng)的預(yù)測結(jié)果經(jīng)過Sigmoid輸出后參與計(jì)算,以更好地適應(yīng)二分類問題。模型的總體損失函數(shù)Loss為
1.5.1 試驗(yàn)平臺(tái)
試驗(yàn)平臺(tái)主要硬件配置為:AMD R5 3600X CPU 主頻3.8 GHz,64 GB內(nèi)存,Nvidia RTX 2080Ti GPU 顯存11 GB。運(yùn)行環(huán)境為Ubuntu 20.04操作系統(tǒng),Python 3.8.5版本語言,Pytorch 1.6深度學(xué)習(xí)框架,配備CUDA 10.2并行計(jì)算架構(gòu),cuDNN 8.0.4深層神經(jīng)網(wǎng)絡(luò)GPU加速庫以及OpenCV 4.5.1計(jì)算機(jī)視覺庫。
1.5.2 訓(xùn)練策略
使用遷移學(xué)習(xí)方法訓(xùn)練模型。主干網(wǎng)絡(luò)先經(jīng)ImageNet大型數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,使特征提取網(wǎng)絡(luò)達(dá)到一個(gè)相對(duì)最優(yōu)的參數(shù)空間。再將主干網(wǎng)絡(luò)連同解碼器、輔助器在本文數(shù)據(jù)集上進(jìn)行微調(diào)(Fine-tune),從而達(dá)到對(duì)于特定場景更好的預(yù)測分割效果。
為避免小樣本量可能引起的模型過擬合與欠擬合問題,本文在數(shù)據(jù)輸入管道(Pipeline)中進(jìn)行數(shù)據(jù)增強(qiáng)操作,包括尺寸變換、隨機(jī)裁剪、隨機(jī)翻轉(zhuǎn)和歸一化。訓(xùn)練時(shí)通過增加迭代次數(shù)間接擴(kuò)展數(shù)據(jù)量。綜合考慮計(jì)算資源與學(xué)習(xí)效率,設(shè)置每批次訓(xùn)練圖像為2幅,迭代次數(shù)為20 000。
采用頭部學(xué)習(xí)率大于主干網(wǎng)絡(luò)學(xué)習(xí)率的學(xué)習(xí)策略,使模型更快收斂并保證性能穩(wěn)定。優(yōu)化方法采用隨機(jī)梯度下降(Stochastic Gradient Descent, SGD),初始學(xué)習(xí)率設(shè)為0.0025,動(dòng)量因子(Momentum)為0.9,權(quán)重衰減系數(shù)(Decay)為0.0005。主干網(wǎng)絡(luò)學(xué)習(xí)率lr的更新計(jì)算方法如下:
其中l(wèi)r0為初始學(xué)習(xí)率,iter為當(dāng)前迭代次數(shù),itermax為總迭代次數(shù),學(xué)習(xí)率更新下限為10-5。在此基礎(chǔ)上,解碼器與輔助器的學(xué)習(xí)率均設(shè)為10×lr。
1.5.3 評(píng)價(jià)指標(biāo)
為量化分析模型性能,本文采用語義分割的標(biāo)準(zhǔn)化評(píng)價(jià)指標(biāo)衡量模型在驗(yàn)證集與測試集的表現(xiàn),主要包括平均交并比(Mean Intersection Over Union,mIoU)和平均像素識(shí)別準(zhǔn)確率(Mean Pixel Accuracy,mPA)。
mIoU用于評(píng)價(jià)模型總體目標(biāo)區(qū)域的分割準(zhǔn)確度,是預(yù)測區(qū)域與真實(shí)區(qū)域在像素層面的交集和并集之比,反映兩者之間的重合程度,定義如式(7)所示。
其中TP表示預(yù)測正確的玉米像素?cái)?shù)量,F(xiàn)P是將背景預(yù)測為玉米的像素?cái)?shù)量,TN為預(yù)測正確的背景像素?cái)?shù)量,F(xiàn)N是將玉米預(yù)測為背景的像素?cái)?shù)量。
mPA表示2個(gè)預(yù)測類別的平均像素識(shí)別準(zhǔn)確率,是評(píng)價(jià)模型像素預(yù)測精度的主要指標(biāo),表示全部類別中正確預(yù)測的像素平均比例,定義如式(8)所示。
上述各項(xiàng)指標(biāo)的計(jì)算元素均通過被測圖像集中全部像素的混淆矩陣統(tǒng)計(jì)結(jié)果進(jìn)行計(jì)算,在保證測試樣本量的條件下具備統(tǒng)計(jì)意義,可基本排除隨機(jī)因素影響。此外,采用每秒幀數(shù)(幀/s)評(píng)估模型的分割速度。
在實(shí)現(xiàn)幼苗期玉米語義分割的基礎(chǔ)上,本文進(jìn)一步以圖像形態(tài)學(xué)處理方法完成雜草識(shí)別與分割,流程如圖6所示。
首先通過歸一化的超綠特征法對(duì)圖像進(jìn)行灰度化處理,增強(qiáng)圖像綠色區(qū)域并弱化背景。然后采用最大類間方差法(Otsu)對(duì)灰度圖像進(jìn)行二值化,再經(jīng)過面積濾波去除小噪聲干擾,獲得包含玉米幼苗和雜草目標(biāo)的綠色區(qū)域與包含土壤、秸稈等其他非綠色區(qū)域的二值分割。同時(shí),對(duì)本文語義分割模型所生成的玉米預(yù)測分割圖進(jìn)行輕度膨脹以修正邊界,使分割完全覆蓋玉米幼苗區(qū)域。通過取反操作后和綠色區(qū)域二值分割圖進(jìn)行與運(yùn)算,消除綠色區(qū)域中的玉米目標(biāo),余下區(qū)域則可全部判定為雜草。最終得到雜草分割圖,標(biāo)記配色RGB=[0, 128, 0]。
在相同的平臺(tái)配置條件下,建立DANet、PSANet、DeepLabv3+、ANN、GCNet和ENCNet,在幼苗期玉米語義分割數(shù)據(jù)集上進(jìn)行訓(xùn)練、驗(yàn)證和測試。各網(wǎng)絡(luò)架構(gòu)在訓(xùn)練過程中的損失函數(shù)變化曲線如圖7所示。
由圖7可知,各網(wǎng)絡(luò)架構(gòu)對(duì)于幼苗期玉米語義分割數(shù)據(jù)集均能達(dá)到良好的訓(xùn)練過程。損失函數(shù)值的變化情況基本相同。在訓(xùn)練初期損失快速降低,中期平穩(wěn)小幅減少,后期基本趨于穩(wěn)定,網(wǎng)絡(luò)收斂。最終迭代時(shí),DANet的損失值最小,為0.023。
在訓(xùn)練過程中,每2 000次迭代對(duì)網(wǎng)絡(luò)性能進(jìn)行1次驗(yàn)證。各網(wǎng)絡(luò)架構(gòu)的驗(yàn)證集表現(xiàn)如圖8所示。
由圖8可知,各網(wǎng)絡(luò)架構(gòu)在訓(xùn)練過程中的驗(yàn)證集mIoU整體呈上升趨勢,說明網(wǎng)絡(luò)泛化性能均隨迭代逐漸增強(qiáng)。PSANet、DeepLabv3+和GCNet的mIoU存在較大波動(dòng),說明網(wǎng)絡(luò)訓(xùn)練后并不能保證對(duì)于驗(yàn)證集的區(qū)域分割效果,易出現(xiàn)過擬合導(dǎo)致泛化能力不穩(wěn)定。ANN與DANet在中后期表現(xiàn)相似。約10 000次迭代后,DANet的驗(yàn)證集mIoU基本保持線性上升,且始終大于其他網(wǎng)絡(luò),完成最終迭代時(shí)為92.73%。DANet的mPA在約12 000次迭代后始終大于其他網(wǎng)絡(luò),完成最終迭代時(shí)為96.88%。對(duì)比分析表明,DANet架構(gòu)表現(xiàn)最佳,具有最高的mIoU和mPA,能夠保證良好的泛化能力。
對(duì)訓(xùn)練后的各網(wǎng)絡(luò)架構(gòu)在測試集上進(jìn)行測試,結(jié)果如表1所示。
表1 不同網(wǎng)絡(luò)在測試集上的性能對(duì)比 Table 1 Performance comparison of different networks in test set
由表1可知,各網(wǎng)絡(luò)對(duì)測試集的整體性能和預(yù)測精度方面,DANet表現(xiàn)最佳,mIoU為92.80%,相對(duì)于PSANet、DeepLabv3+、ANN、GCNet和ENCNet分別提高1.90%、1.38%、0.52%、1.16%和0.34%,平均提高1.06%;mPA為94.66%,相對(duì)于PSANet、DeepLabv3+、ANN、GCNet和ENCNet分別提高1.61%、0.83%、0.39%、0.58%和0.72%,平均提高0.83%。在分割的快速性方面,不同網(wǎng)絡(luò)間差異較小,平均分割速率為15.18幀/s。要實(shí)現(xiàn)精確的像素級(jí)語義分割,網(wǎng)絡(luò)結(jié)構(gòu)通常更為復(fù)雜,影響分割速度。DANet的雙注意力結(jié)構(gòu)可有效提高網(wǎng)絡(luò)性能,但快速性處于平均水平。綜合分析各網(wǎng)絡(luò)架構(gòu)的訓(xùn)練、驗(yàn)證和測試表現(xiàn),選擇DANet作為原始網(wǎng)絡(luò)架構(gòu)。
在DANet基礎(chǔ)上,改進(jìn)并建立幼苗期玉米語義分割模型。按照設(shè)定策略進(jìn)行訓(xùn)練,學(xué)習(xí)效果如圖9所示。
由圖9可知,總體損失Loss通過學(xué)習(xí)快速降低,后平穩(wěn)減少并最終達(dá)到收斂,說明改進(jìn)損失函數(shù)所引入的Lossseg、Lossrcca、Losscam以及Lossaux能夠?yàn)榭傮w損失提供有效的懲罰項(xiàng)且無額外干擾,涵蓋模型的各主要部分,使模型在整體上快速收斂。在訓(xùn)練初期各損失項(xiàng)以極快的速度下降到較低水平,說明模型各部分能夠迅速進(jìn)入全局最優(yōu)解范圍。原因在于本文改進(jìn)后的學(xué)習(xí)策略能夠使各網(wǎng)絡(luò)頭在優(yōu)化過程中快速跳出局部最優(yōu)解,中后期學(xué)習(xí)率衰減使損失值趨于平穩(wěn),保證訓(xùn)練結(jié)果的穩(wěn)定性。模型最終Loss值為0.046,其中衡量模型輸出性能的Lossseg值為0.013,比原始網(wǎng)絡(luò)架構(gòu)的損失值約降低0.01。表明本文模型具有很好的收斂效果。
在訓(xùn)練過程中,每2 000次迭代對(duì)本文模型進(jìn)行1次驗(yàn)證集測試。考察模型整體分割性能以及預(yù)測精度的變化情況,并與原始網(wǎng)絡(luò)表現(xiàn)進(jìn)行對(duì)比,結(jié)果如圖10所示。
幼苗期玉米語義分割模型的平均交并比在整個(gè)訓(xùn)練過程中均高于原始網(wǎng)絡(luò),曲線變化趨勢基本保持一致。初次驗(yàn)證時(shí)mIoU為91.75%,相對(duì)于原始網(wǎng)絡(luò)提高了1.92%。終止迭代時(shí)mIoU為93.98%,相對(duì)于原始網(wǎng)絡(luò)提高了1.35%,表明本文模型的總體性能在訓(xùn)練過程中優(yōu)于原始網(wǎng)絡(luò),對(duì)于驗(yàn)證集數(shù)據(jù)具有更好的區(qū)域分割表現(xiàn)。這是由于模型在雙重注意力基礎(chǔ)上進(jìn)一步采用了編碼器-解碼器結(jié)構(gòu),通過分割結(jié)果優(yōu)化不同尺度特征,進(jìn)而達(dá)到更好的效果。
幼苗期玉米語義分割模型在初次驗(yàn)證時(shí)mPA為94.64%,同原始網(wǎng)絡(luò)相比提高1.26%。訓(xùn)練中期mPA出現(xiàn)低于原始網(wǎng)絡(luò)的現(xiàn)象,可能是由于引入遞歸交叉注意力所致。在構(gòu)建特征空間維度的大范圍上下文關(guān)系時(shí),特征圖中每一位置并未全部參與計(jì)算,而是通過2次交叉間接計(jì)算出全部像素間的上下文信息。雖有效降低了空間注意力圖的維度,但參數(shù)量的減少也導(dǎo)致部分像素識(shí)別精度降低,需更多迭代達(dá)到平衡。訓(xùn)練后期本文模型的mPA均高于原始網(wǎng)絡(luò),終止迭代時(shí)為97.48%,相對(duì)于原始網(wǎng)絡(luò)提高了0.62%。表明經(jīng)過充分訓(xùn)練的玉米語義分割模型在驗(yàn)證集上的像素預(yù)測精度優(yōu)于原始網(wǎng)絡(luò),提升幅度較小。
綜合上述分析可知,幼苗期玉米語義分割模型的性能能夠通過學(xué)習(xí)獲得更大的提升,在整個(gè)訓(xùn)練過程中,模型的總體表現(xiàn)優(yōu)于原始網(wǎng)絡(luò),說明相關(guān)改進(jìn)可對(duì)模型產(chǎn)生良性影響,在整體分割性能方面有一定程度的提高,對(duì)于像素預(yù)測精度的提高較小。
為考察幼苗期玉米語義分割模型的實(shí)際泛化能力,在訓(xùn)練完成后通過測試集數(shù)據(jù)對(duì)模型進(jìn)行測試,同時(shí)與原始網(wǎng)絡(luò)進(jìn)行對(duì)比,結(jié)果如表2所示。
表2 幼苗期玉米語義分割模型的測試集測試結(jié)果 Table 2 Test results in test set of semantic segmentation model for seeding stage maize
由表2可知,本文模型在測試集上達(dá)到了更好的整體性能,mIoU為94.16%,相比于原始網(wǎng)絡(luò)提高1.47%,表明本文模型對(duì)于圖像中各類別區(qū)域的分割結(jié)果更準(zhǔn)確,在目標(biāo)整體預(yù)測性能方面具有更強(qiáng)的實(shí)際泛化能力。本文模型的mPA為95.68%,相比于原始網(wǎng)絡(luò)提高了1.08%,說明本文模型對(duì)于圖像中各類別像素的預(yù)測結(jié)果更準(zhǔn)確,在像素識(shí)別的精確性上具有更好的實(shí)際泛化能力。在分割速率方面,本文模型可達(dá)15.9幀/s,相比于原始網(wǎng)絡(luò)提高了4.61%,在保證推理準(zhǔn)確性的前提下快速性有所加強(qiáng)。上述結(jié)果表明,本文模型在保有原始網(wǎng)絡(luò)架構(gòu)性能的基礎(chǔ)上,對(duì)于目標(biāo)區(qū)域分割準(zhǔn)確性、像素識(shí)別精度和分割快速性方面的表現(xiàn)均有所提升,具有更好的實(shí)際泛化能力。
基于幼苗期玉米語義分割模型對(duì)測試集圖像進(jìn)行推理,考察復(fù)雜圖像背景中幼苗期玉米目標(biāo)的識(shí)別與分割效果。將分割圖可視化在原始圖像上,對(duì)分割效果同原始圖像以及真實(shí)值進(jìn)行對(duì)比,部分結(jié)果如圖11所示。
在圖11中,圖像1的原始圖像包含幼苗期玉米和與其形態(tài)差異較大的雜草,兩者的顏色較為相似且存在葉片深入交疊的情況。圖像2的原始圖像中包含葉片彎曲的幼苗期玉米,同玉米形態(tài)相似以及不相似的多種雜草。玉米和多個(gè)雜草目標(biāo)間存在交疊,此外還帶有秸稈和枯枝等干擾目標(biāo)。圖像3的原始圖像中包含較多同幼苗期玉米葉片形態(tài)相似的雜草,且與玉米葉片存在交疊。圖像4的原始圖像中包含3個(gè)幼苗期玉米目標(biāo),其中2個(gè)出現(xiàn)深度交疊現(xiàn)象,植株中心位置基本一致,并與另外1個(gè)目標(biāo)間存在葉片交疊,背景帶有雜草和秸稈等干擾目標(biāo)。圖像5的原始圖像中包含大量同幼苗期玉米形態(tài)相似的雜草以及其他種類的雜草目標(biāo)。圖像6、圖像7和圖像8代表更為復(fù)雜的幼苗期玉米田間環(huán)境,原始圖像中存在大面積形態(tài)各異的雜草以及秸稈、枯枝和石塊等背景目標(biāo)。其中圖像6包含3個(gè)大小不同的玉米目標(biāo),圖像7含有較大的玉米目標(biāo),圖像8則含有較小的玉米目標(biāo),均與雜草存在不同程度的交疊。
根據(jù)圖11中各圖像分割圖與真實(shí)值的對(duì)比可知,本文模型能夠?qū)?fù)雜田間圖像中的幼苗期玉米目標(biāo)進(jìn)行準(zhǔn)確的識(shí)別與分割,其分割結(jié)果與真實(shí)值基本相同。主要差異體現(xiàn)在:模型對(duì)于同幼苗期玉米形態(tài)相似的雜草局部區(qū)域內(nèi)像素存在一定幾率的錯(cuò)誤預(yù)測,出現(xiàn)將背景像素識(shí)別為玉米的現(xiàn)象,導(dǎo)致分割圖的準(zhǔn)確性降低。該類錯(cuò)誤主要出現(xiàn)在背景更為復(fù)雜且包含大量同幼苗期玉米形態(tài)相似雜草的田間圖像中,如圖像5的分割圖中所示。而對(duì)于背景組成較為簡單的田間圖像,即使包含較多同幼苗期玉米形態(tài)相似的雜草,也不會(huì)出現(xiàn)這類錯(cuò)誤識(shí)別和分割,如圖像2和圖像3的分割圖中所示。次要差異表現(xiàn)在:背景組成復(fù)雜的田間圖像中,模型對(duì)于幼苗期玉米葉片尖端和局部邊界像素可能產(chǎn)生少量的錯(cuò)誤預(yù)測,出現(xiàn)將玉米像素識(shí)別為背景的現(xiàn)象,如圖像7和圖像8中所示。由于幼苗期玉米葉片邊界在田間圖像中所表現(xiàn)出的隨機(jī)性和不規(guī)則性,該類錯(cuò)誤在語義分割中通常難以避免。雖然導(dǎo)致模型性能指標(biāo)的降低,但只對(duì)幼苗期玉米分割的區(qū)域整體效果造成輕微影響,在雜草分割前可通過圖像形態(tài)學(xué)處理對(duì)這類錯(cuò)誤進(jìn)行修正。
在本文模型所生成的玉米分割圖基礎(chǔ)上,根據(jù)1.6節(jié)方法實(shí)現(xiàn)幼苗期玉米復(fù)雜田間圖像中雜草區(qū)域的識(shí)別與分割,部分結(jié)果如圖12所示。
作物與雜草識(shí)別的難點(diǎn)在于,當(dāng)圖像背景組成較為復(fù)雜或幼苗期玉米與雜草之間存在深入交疊時(shí),準(zhǔn)確的目標(biāo)識(shí)別和精確的邊界分割難以實(shí)現(xiàn),這是當(dāng)前研究中常用的目標(biāo)框檢測方法難以解決的關(guān)鍵性問題。由圖12可知,本文方法能夠在識(shí)別幼苗期玉米目標(biāo)的基礎(chǔ)上有效識(shí)別出背景中的雜草區(qū)域,同時(shí)獲得兩者的區(qū)域邊界。通過對(duì)比原始圖像和雜草分割圖可以看出,對(duì)于復(fù)雜圖像背景,雜草區(qū)域的識(shí)別與分割結(jié)果較為準(zhǔn)確,且玉米區(qū)域被完整的保留。對(duì)于圖中一些很小的雜草,仍然可以分割出其所在區(qū)域。因此在保證幼苗期玉米語義分割模型性能的前提下,該方法可實(shí)現(xiàn)有效的雜草識(shí)別與分割。
本文方法與當(dāng)前作物雜草識(shí)別研究中常用的目標(biāo)檢測類方法相比,其優(yōu)勢主要體現(xiàn)在對(duì)目標(biāo)交疊問題的處理以及識(shí)別目標(biāo)類別的簡化,兩者在識(shí)別效果上的差異示例如圖13所示。
在圖13a中,不限定目標(biāo)檢測方法,假設(shè)對(duì)于各目標(biāo)均可達(dá)到完美識(shí)別,所生成的檢測框如圖中所示??梢钥闯?,識(shí)別結(jié)果為雜草的檢測框2與識(shí)別結(jié)果為玉米幼苗的檢測框1在接近中心位置處幾乎完全重疊 。在這種情況下,目標(biāo)檢測方法無法進(jìn)一步分割目標(biāo)區(qū)域,此時(shí)若對(duì)檢測框2中的雜草進(jìn)行除草操作將不可避免的破壞玉米幼苗。若不對(duì)檢測框1所在區(qū)域進(jìn)行除草,則與該區(qū)域存在交疊的檢測框3、4、5中的雜草將在不同程度上被保留。由圖13b可知,本文方法能夠從形態(tài)邊界上完整的識(shí)別并保留玉米目標(biāo),分割后的雜草區(qū)域同玉米幼苗區(qū)域之間不存在交疊,在除草過程中互不影響。因此本文方法可對(duì)大部分帶有目標(biāo)交疊的復(fù)雜田間圖像進(jìn)行處理,識(shí)別與分割的精細(xì)程度符合智能除草裝備的實(shí)際應(yīng)用需求。此外,本文方法僅對(duì)玉米幼苗進(jìn)行識(shí)別,而目標(biāo)檢測方法須識(shí)別出作物和全部雜草才能達(dá)到識(shí)別效果。
本文方法同語義分割類方法相比,其優(yōu)勢在于圖像標(biāo)注量的減少,兩者在標(biāo)簽上的差異示例如圖14所示。若要實(shí)現(xiàn)玉米與雜草識(shí)別,在訓(xùn)練語義分割模型的數(shù)據(jù)集中必須對(duì)玉米幼苗和各種雜草目標(biāo)進(jìn)行人工標(biāo)注,如圖14b中所示,包含的玉米和雜草目標(biāo)均需描繪其形態(tài)邊界并加注類別標(biāo)簽。本文方法所建模型僅對(duì)玉米幼苗進(jìn)行識(shí)別,因此在構(gòu)建數(shù)據(jù)集時(shí)只描繪玉米的形態(tài)區(qū)域并加注類別標(biāo)簽,如圖14c所示。對(duì)比圖14b和圖14c可知,需要人工標(biāo)注的區(qū)域數(shù)量有效減少。
經(jīng)測算,對(duì)于本文數(shù)據(jù)集,標(biāo)注玉米幼苗和雜草的單張圖像平均耗時(shí)約為3 min,而只標(biāo)注玉米幼苗的單張圖像平均耗時(shí)約為1 min,標(biāo)注量減少約2/3。
本文同彭明霞等[21]和孟慶寬等[23]的研究相比,充分考慮了目標(biāo)交疊情況下的作物與雜草分割問題,能夠?qū)崿F(xiàn)復(fù)雜田間圖像的精細(xì)化識(shí)別與分割;與Khan等[41]提出的作物與雜草分割方法相比,平均交并比提高了12.85%;與之前的研究[42]相比,平均像素識(shí)別準(zhǔn)確率提高了2.43%,識(shí)別單張圖像耗時(shí)從0.72 s縮短為0.06 s??傮w而言,本文方法在當(dāng)前作物與雜草識(shí)別的相關(guān)研究中具有一定的優(yōu)勢。
為解決復(fù)雜田間圖像中作物雜草交疊等現(xiàn)象所帶來的識(shí)別與分割困難問題,探索具有更強(qiáng)實(shí)用性的作物雜草識(shí)別新方法,本研究提出了基于雙重注意力語義分割網(wǎng)絡(luò)的田間幼苗期玉米識(shí)別方法,在識(shí)別目標(biāo)的同時(shí),獲得玉米與雜草的區(qū)域分割。
1)對(duì)6種語義分割網(wǎng)絡(luò)進(jìn)行對(duì)比分析,確定模型的原始架構(gòu)。結(jié)果表明,雙注意力網(wǎng)絡(luò)架構(gòu)對(duì)于本文數(shù)據(jù)集的訓(xùn)練、驗(yàn)證和測試均具有最佳表現(xiàn),能夠?qū)τ酌缙谟衩滋镩g圖像進(jìn)行像素級(jí)的預(yù)測分割。在驗(yàn)證集上,迭代終止時(shí)平均交并比mIoU和平均像素識(shí)別準(zhǔn)確率mPA分別為92.73%和96.88%。在測試集上,mIoU和mPA分別為92.8%和94.66%,預(yù)測分割速率為15.2幀/s。
2)在原始網(wǎng)絡(luò)架構(gòu)基礎(chǔ)上,根據(jù)本文改進(jìn)方法建立幼苗期玉米語義分割模型,實(shí)現(xiàn)對(duì)圖像中玉米幼苗的有效識(shí)別與分割。主要改進(jìn)包括主干網(wǎng)絡(luò)、注意力機(jī)制、模型組織結(jié)構(gòu)、損失函數(shù)以及學(xué)習(xí)策略。驗(yàn)證結(jié)果表明,在整個(gè)訓(xùn)練過程中,模型的總體性能優(yōu)于原始網(wǎng)絡(luò)。終止迭代時(shí)mIoU和mPA分別為93.98%和97.48%,相比于原網(wǎng)絡(luò)提高了1.35%和0.62%。測試結(jié)果表明,模型在區(qū)域分割準(zhǔn)確性、像素識(shí)別預(yù)測精度和分割快速性方面均有所提升,具有更好的實(shí)際泛化能力。測試集mIoU、mPA分別為94.16%和95.68%,相比于原網(wǎng)絡(luò)分別提高了1.47%和1.08%,預(yù)測分割速率可達(dá)15.9幀/s,提高了4.61%。圖像分割結(jié)果表明,通過本文方法建立的玉米語義分割模型能夠?qū)?fù)雜田間圖像中的玉米目標(biāo)進(jìn)行準(zhǔn)確識(shí)別與精細(xì)分割。
3)同現(xiàn)有識(shí)別方法相比,本文方法充分考慮了作物雜草交疊情況下的區(qū)域分割問題,將識(shí)別模型的分類目標(biāo)從多分類減少為2分類,同時(shí)圖像標(biāo)注量降低約2/3,同之前的研究相比,平均像素識(shí)別準(zhǔn)確率提高了2.43%,識(shí)別單張圖像耗時(shí)縮短為0.06 s。不足之處在于識(shí)別與分割速度在同類研究中不具備明顯優(yōu)勢,在今后的研究中將進(jìn)一步改進(jìn)模型結(jié)構(gòu),提高方法的實(shí)時(shí)性,同時(shí)進(jìn)一步擴(kuò)大作物種類,構(gòu)建通用化的作物雜草識(shí)別方法,為智能化除草裝備提供支持。