張宏鳴 付振宇 韓文霆 陽 光 牛當(dāng)當(dāng) 周新宇
(1.西北農(nóng)林科技大學(xué)信息工程學(xué)院, 陜西楊凌 712100; 2.西北農(nóng)林科技大學(xué)機(jī)械與電子工程學(xué)院, 陜西楊凌 712100;3.赤峰市生態(tài)環(huán)境局克什克騰旗分局, 赤峰 025350)
玉米是我國種植面積廣、產(chǎn)量大的作物之一,為我國糧食安全提供了重要保障[1]。玉米產(chǎn)量在很大程度上與幼苗管理過程相關(guān),幼苗株數(shù)信息是幼苗管理的重要指標(biāo),通過獲取幼苗株數(shù)信息可確定不同品種玉米的出苗率、種植密度與行間距,為缺苗補(bǔ)種提供依據(jù),進(jìn)而可提高玉米產(chǎn)量[2-4]。
研究者針對植株數(shù)量的獲取進(jìn)行了諸多研究。一些研究通過定制設(shè)備放置于田間來獲取數(shù)據(jù)[5-8],但不易滿足設(shè)備的使用條件,或設(shè)備需與植物近距離接觸,從而對植物造成損害。近年來,無人機(jī)在農(nóng)業(yè)領(lǐng)域得到廣泛應(yīng)用,使數(shù)據(jù)獲取變得方便快捷[9-10]。無人機(jī)可搭載不同類型的傳感器,采集可見光、多光譜、高光譜和雷達(dá)點(diǎn)云等數(shù)據(jù)??梢姽庀鄼C(jī)成本低、使用方便,是最廣泛使用的影像采集設(shè)備。通過無人機(jī)搭載可見光相機(jī)來采集植物正射影像,可用于植物株數(shù)的獲取。
在株數(shù)獲取方法研究上,研究者利用圖像分割和目標(biāo)檢測等方法對不同植物株數(shù)的獲取進(jìn)行了諸多嘗試。圖像分割法利用植物色彩信息[11-12]、植物表型[13-14]、植被指數(shù)[15-17]作為株數(shù)提取的主要特征。由于植物生長環(huán)境的復(fù)雜性,通常采集的數(shù)據(jù)易受到光照、拍攝角度和位置等因素影響[18],使植物色彩和形態(tài)特征容易受到干擾,進(jìn)而影響特征匹配效果。利用多特征融合[19]或基于深度學(xué)習(xí)U-Net[20]等模型,雖然能夠較好地避免環(huán)境噪聲的影響、獲取植物區(qū)域掩膜和邊緣信息,但由于沒有獲取植物坐標(biāo),使進(jìn)一步提取幼苗株數(shù)變得困難。目標(biāo)檢測方法可解決上述問題,常見的株數(shù)獲取目標(biāo)檢測模型有RCNN[21-23]、SSD[24]等。農(nóng)情監(jiān)測的實(shí)時性和實(shí)用性需求的不斷提高,使目前株數(shù)獲取模型難以滿足要求。MobileNet[25-26]是目前最成熟的輕量特征提取網(wǎng)絡(luò),其復(fù)雜度低、易于部署,適合作為幼苗株數(shù)提取的檢測模型的特征提取器。此外,相較于RCNN和SSD模型,YOLO[27]擁有較好的全局感受野,利用網(wǎng)格劃分、錨框匹配和多語義融合檢測機(jī)制,能夠有效改善檢測過程感受野受限的問題,從而實(shí)現(xiàn)目標(biāo)的快速檢測。
基于此,本文提出一種基于特征增強(qiáng)機(jī)制的YOLO幼苗檢測模型(FE-YOLO),針對幼苗這類小目標(biāo)漏檢率較高的問題,利用玉米幼苗的特點(diǎn),使用多種特征增強(qiáng)機(jī)制對檢測模型進(jìn)行改進(jìn),以期能夠快速準(zhǔn)確提取幼苗株數(shù)信息,為玉米早期管理決策提供信息支持。
實(shí)驗(yàn)區(qū)位于內(nèi)蒙古自治區(qū)鄂爾多斯市達(dá)拉特旗昭君鎮(zhèn)(圖1),中心地理坐標(biāo)為(40°25′N,109°56′E)。種植作物為玉米,該地區(qū)干燥少雨,冬寒夏熱,晝夜溫差大,太陽能、風(fēng)能資源充裕,適合作物種植與培育。
實(shí)驗(yàn)采集設(shè)備為大疆精靈4 Pro型無人機(jī),拍攝數(shù)據(jù)為幼苗正射影像。為盡可能消除陰影的影響[28],選取數(shù)據(jù)拍攝時間為12:00—14:00,相機(jī)像素為2 000萬,拍攝高度50 m,地面采樣距離1.37像素/cm。
1.2.1數(shù)據(jù)集構(gòu)建
本次實(shí)驗(yàn)采集幼苗可見光正射影像共892幅,由于采集單幅影像尺寸較大,幼苗密集且占像素區(qū)域較小,無法對圖像直接縮放后檢測,需對采集圖像進(jìn)行切片以保證網(wǎng)絡(luò)訓(xùn)練和檢測速度。
根據(jù)實(shí)驗(yàn)采集幼苗數(shù)據(jù),將幼苗類型劃分為少葉型(3葉及以內(nèi))和多葉型(3葉以上),兩種類型幼苗如圖2所示。
對切片圖像進(jìn)行篩選,剔除模糊和畸變的圖像,隨機(jī)選取切片圖像500幅作為數(shù)據(jù)集,將400幅作為訓(xùn)練集,100幅作為測試集。為學(xué)習(xí)更復(fù)雜幼苗特征,將訓(xùn)練集的少葉、多葉圖像比例設(shè)為2∶3。使用LabelImg軟件進(jìn)行數(shù)據(jù)標(biāo)注,按照VOC格式構(gòu)建數(shù)據(jù)集。由于戶外拍攝環(huán)境復(fù)雜,需要對數(shù)據(jù)進(jìn)行增強(qiáng)處理[29]。
1.2.2數(shù)據(jù)集分析
根據(jù)數(shù)據(jù)標(biāo)注情況,選取2 000株幼苗進(jìn)行統(tǒng)計(jì),得到幼苗邊界框面積分布情況如圖3所示。
從圖3中可看出,幼苗邊界框面積為150~900像素的苗數(shù)約占樣本總數(shù)的95%,進(jìn)一步計(jì)算可得出每株幼苗像素?cái)?shù)平均約占單幅圖像總像素?cái)?shù)的0.33%,面積和邊長分別為439.13像素和20.96像素,數(shù)據(jù)集大部分幼苗屬于較難識別的小目標(biāo)。
本文旨在利用目標(biāo)檢測技術(shù)對幼苗進(jìn)行檢測,進(jìn)而估算幼苗種植密度,幼苗檢測技術(shù)路線見圖4,主要研究內(nèi)容如下:
(1)幼苗數(shù)據(jù)集構(gòu)建與分析。通過無人機(jī)搭載可見光相機(jī)采集幼苗正射影像,對數(shù)據(jù)進(jìn)行預(yù)處理,分析數(shù)據(jù)特點(diǎn),構(gòu)建用于實(shí)驗(yàn)訓(xùn)練的幼苗目標(biāo)檢測數(shù)據(jù)集。
(2)幼苗目標(biāo)檢測模型構(gòu)建與優(yōu)化。根據(jù)數(shù)據(jù)集特點(diǎn),構(gòu)建用于幼苗株數(shù)獲取的目標(biāo)檢測網(wǎng)絡(luò)模型,并從特征提取網(wǎng)絡(luò)、特征增強(qiáng)和檢測器等方面對模型整體進(jìn)行改進(jìn),提高模型的檢測精度。
(3)實(shí)驗(yàn)結(jié)果評估。將FE-YOLO模型與YOLO v3、MobileNet v2模型進(jìn)行對比,比較不同模型精度和復(fù)雜度,評估不同方法的特點(diǎn)。
1.4.1特征提取網(wǎng)絡(luò)
MobileNet是目前較為成熟的輕量特征提取網(wǎng)絡(luò),該網(wǎng)絡(luò)采用深度可分離卷積將常規(guī)卷積分為深度(DepthWise,DW)卷積和逐點(diǎn)(PointWise,PW)卷積,提升運(yùn)算速度同時實(shí)現(xiàn)卷積參數(shù)大幅壓縮,在降低模型復(fù)雜度的同時保證精度和提升網(wǎng)絡(luò)的訓(xùn)練及推理速度。MobileNet v3在MobileNet v2網(wǎng)絡(luò)瓶頸層增加了壓縮激活模塊,并利用網(wǎng)絡(luò)結(jié)構(gòu)搜索技術(shù)改進(jìn)部分瓶頸層卷積核尺寸。
雖然MobileNet v3網(wǎng)絡(luò)的瓶頸層能夠利用壓縮激活模塊[30]實(shí)現(xiàn)通道注意力的特征增強(qiáng),但由于該模塊對特征改善細(xì)粒度不足,擁有較大運(yùn)算量且特征改善效果有限,因此本實(shí)驗(yàn)將壓縮激活模塊去除,在瓶頸層卷積塊使用激活函數(shù)。
θ(x)=fMHP(x)
(1)
(2)
式中xc——通道c對應(yīng)特征圖
K——超參數(shù)方程個數(shù)
C——卷積通道個數(shù)
k——超參數(shù)方程編號
c——卷積通道編號
由于通道和空間位置特征不同,經(jīng)過適配器改變的動態(tài)激活函數(shù)能夠?qū)崿F(xiàn)不同通道和空間特征的增強(qiáng)處理,適配器結(jié)構(gòu)如圖5所示。
從圖5可知,動態(tài)激活模塊參數(shù)適配器分為2部分,分別為通道參數(shù)適配器和空間參數(shù)適配器。2種適配器根據(jù)作用方式可將動態(tài)激活函數(shù)分為3類:①通道和空間共享卷積的動態(tài)激活模塊類型A。②空間共享,通道獨(dú)立的動態(tài)激活模塊類型B。③通道和空間獨(dú)立的動態(tài)激活模塊類型C。3類模塊激活效果見圖6。
動態(tài)激活函數(shù)類型A適用范圍較為廣泛,所有通道使用同一激活函數(shù)且最少額外參數(shù),特征改善效果較為有限。類型B適用于特征提取網(wǎng)絡(luò),類型C適用于特征提取網(wǎng)絡(luò)和檢測器。
為充分壓縮動態(tài)激活函數(shù)參數(shù)并保持足夠特征改善粒度,根據(jù)文獻(xiàn)[31]的實(shí)驗(yàn)結(jié)果,使用公式
(3)
由類型B的動態(tài)激活函數(shù)對瓶頸層進(jìn)行改進(jìn)。由于瓶頸層第2個PW卷積會對特征進(jìn)行壓縮,使用其非線性激活函數(shù)會使其壓縮信息丟失,綜合上述分析與實(shí)驗(yàn)對比,選擇對擴(kuò)張層中的PW層和DW層進(jìn)行改進(jìn),改進(jìn)后模塊如圖7所示。
1.4.2特征增強(qiáng)模塊
語義增強(qiáng)模塊是ThunderNet[32]中用于增強(qiáng)上下文語義特征的模塊,其核心思想是將Stage 3卷積層輸出信息向下卷積獲取更加抽象信息,并將多個抽象特征調(diào)整大小之后融合從而實(shí)現(xiàn)語義增強(qiáng)。類似地,TridentNet[33]中將不同感受野進(jìn)行并行處理后進(jìn)行合并,能夠?qū)崿F(xiàn)多個感受野和不同語義的融合,提升網(wǎng)絡(luò)檢測效果。
在本實(shí)驗(yàn)場景中,玉米使用播種機(jī)進(jìn)行播種,幼苗在拍攝正射影像的二維平面內(nèi)具有良好位置特性,且幼苗平均面積和邊長較小,在大部分特征提取網(wǎng)絡(luò)下采樣卷積過程會導(dǎo)致幼苗紋理和輪廓等信息丟失從而導(dǎo)致檢測效果不佳,鑒于此,本文利用卷積神經(jīng)網(wǎng)絡(luò)不同分辨率特征圖Ci,調(diào)整為相同分辨率后將深層抽象語義信息和淺層形態(tài)特征相互融合,之后利用空間注意力模塊[34](Spatial attention module,SAM)增強(qiáng)空間位置特征,組成特征增強(qiáng)模塊(Feature enhancement module,F(xiàn)EM)最終實(shí)現(xiàn)多特征增強(qiáng)。語義增強(qiáng)模塊和空間注意力模塊如圖8、9所示。
1.4.3基于改進(jìn)的YOLO目標(biāo)檢測網(wǎng)絡(luò)
根據(jù)實(shí)驗(yàn)設(shè)計(jì),選取YOLO檢測器作為模型檢測器,YOLO檢測器利用網(wǎng)格單元檢測目標(biāo),首先每個檢測層將圖像劃分為M×M單元格,之后不同檢測頭使用預(yù)設(shè)錨框?qū)γ總€單元格進(jìn)行檢測。對于每個單元格,設(shè)定單元格位置為(Cx,Cy),單元格內(nèi)邊界框的位置為(tx,ty,tw,th),其中(tx,ty)是該目標(biāo)相對網(wǎng)格左上角的相對坐標(biāo),(tw,th)為邊界框?qū)捀邔τ阱^框預(yù)定的寬高(Pw,Ph)的縮放因子,邊界框坐標(biāo)信息和寬、高計(jì)算式為
bx=σ(tx)+Cx
(4)
by=σ(ty)+Cy
(5)
bw=Pwetw
(6)
bh=Pheth
(7)
式中σ(·)——錨框映射邊界框的坐標(biāo)函數(shù)
bx、by——預(yù)測邊界框坐標(biāo)
bw、bh——預(yù)測邊界框的寬、高
基于目標(biāo)檢測任務(wù)的特點(diǎn),本次實(shí)驗(yàn)使用邊界框、置信度與分類損失的和作為損失函數(shù),損失函數(shù)L計(jì)算式為
(8)
式中N——檢測邊界框個數(shù)
i——網(wǎng)格編號
j——邊界框編號
實(shí)驗(yàn)中發(fā)現(xiàn),輕量特征提取網(wǎng)絡(luò)對于幼苗邊界框精準(zhǔn)度較低,經(jīng)過不同邊界框損失函數(shù)實(shí)驗(yàn)測試[35-37],選取含有邊界框近似度的損失函數(shù)LCIOU,定義為
LCIOU=1-RIOU+RCIOU
(9)
(10)
(11)
(12)
式中b——預(yù)測邊界框bgt——真實(shí)邊界框
l——b與bgt最小閉包對角線長度
α——權(quán)重系數(shù)v——長寬相似比
ρ2(b,bgt)——b與bgt的歐氏距離
RIOU——交并比
w、h——b的寬、高
wgt、hgt——bgt的寬、高
根據(jù)上述描述,使用基于改進(jìn)的MobileNet網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),以YOLO作為檢測器,融合了多特征增強(qiáng)機(jī)制的幼苗檢測模型FE-YOLO(Feature enhancement YOLO)網(wǎng)絡(luò)結(jié)構(gòu)如圖10所示。
1.4.4模型精度評價
模型精度評價分為指標(biāo)對比和可視化對比2部分。首先對目標(biāo)檢測模型的指標(biāo)進(jìn)行比較,對比模型檢測精度和復(fù)雜度。之后對檢測效果進(jìn)行可視化對比,對比幼苗漏檢和錯檢情況,最后利用特征可視化技術(shù)對本文提出的特征改進(jìn)效果進(jìn)行驗(yàn)證。
目標(biāo)檢測模型評價指標(biāo)為精確率P和召回率R,根據(jù)目標(biāo)檢測任務(wù)的特點(diǎn),需要引入交并比(Intersection over union,IOU)以度量預(yù)測框與真實(shí)框相似程度。
為度量精確率和召回率實(shí)際檢測中綜合表現(xiàn),使用平均檢測精度(Mean average precision,mAP)作為模型效果的綜合評估指標(biāo),mAP是指每個類別檢測精度的平均值,由于本文是單類別目標(biāo)檢測,因此mAP為幼苗PR曲線的面積。同時為了度量精確率和召回率的平衡表現(xiàn),引入F1指數(shù)進(jìn)行度量。
為進(jìn)一步細(xì)化分析,選取FE-YOLO和YOLO v3進(jìn)行多方面對比,對比內(nèi)容如下:
(1)幼苗檢測效果對比。設(shè)定置信度閾值使網(wǎng)絡(luò)輸出高于置信度閾值的目標(biāo),統(tǒng)計(jì)漏檢和錯檢測株數(shù),對比幼苗目標(biāo)檢測效果。對多葉型和少葉型的幼苗檢測召回率進(jìn)行對比,評估模型對復(fù)雜幼苗特征的適應(yīng)性。
(2)模型復(fù)雜度比較。對網(wǎng)絡(luò)模型的參數(shù)量(Params)、每秒10億次的浮點(diǎn)運(yùn)算次數(shù)(Giga floating-point operations per second,GFLOPS)和每幅影像的平均推理時間(ms)作為模型復(fù)雜度評估參數(shù),參數(shù)越少,模型所需計(jì)算資源越少,計(jì)算量和推理時間越低,說明模型的計(jì)算復(fù)雜度越小,更適用于邊緣設(shè)備的部署。
(3)特征可視化對比。使用基于梯度的類激活熱力圖方法[38]獲取網(wǎng)絡(luò)輸出特征的響應(yīng),通過對比幼苗和背景區(qū)域的特征,可直觀了解不同模型關(guān)注特征的情況。
種植密度是指單位面積種植的植物的株數(shù),受人群計(jì)數(shù)方法的啟發(fā),可利用類似思路估算幼苗的種植密度。人群計(jì)數(shù)中的密度估計(jì)方法通常可分為檢測法和回歸法[39]。檢測法通過輔助方法獲取單位面積內(nèi)目標(biāo)數(shù)量從而估算密度,而回歸法則是通過建立目標(biāo)數(shù)量與密度的映射模型從而估算密度。前者適合遮擋少且面積易于獲得的場景,后者適合對象密集的復(fù)雜場景。
由于本實(shí)驗(yàn)采集數(shù)據(jù)為幼苗正射影像,可近似認(rèn)為從無遮擋的二維平面進(jìn)行計(jì)數(shù)和密度估算,采用檢測法估算幼苗的種植密度較為合適。該方法利用地面采樣距離和選取像素區(qū)域首先計(jì)算出區(qū)域面積S,然后根據(jù)選區(qū)識別的幼苗株數(shù)Ne估算幼苗種植密度Re。
(13)
2.1.1模型檢測結(jié)果對比
對不同方法進(jìn)行實(shí)驗(yàn),得到不同模型檢測的P、R、mAP、F1指數(shù)如表1所示。
表1 不同模型效果對比Tab.1 Result evaluation of different models %
由表1可知,F(xiàn)E-YOLO模型的召回率、mAP和F1指數(shù)最高,其中召回率比YOLO v3模型高3.05個百分點(diǎn),達(dá)到了91.54%,且FE-YOLO模型的精確率和召回率相對于原網(wǎng)絡(luò)MobileNet v2模型分別高3.88、3.73個百分比,F(xiàn)E-YOLO模型比YOLO v3模型的精確率低0.22個百分點(diǎn),但考慮幼苗邊界框準(zhǔn)確率差異對幼苗株數(shù)獲取影響較小,該部分差距可以忽略不計(jì)。
設(shè)定置信度閾值為0.3,使網(wǎng)絡(luò)只檢測高于置信度的幼苗目標(biāo),對比YOLO v3和FE-YOLO對幼苗識別效果(圖11)。
從圖11b、11d虛線圍出區(qū)域?qū)Ρ瓤梢钥闯?,YOLO v3模型會對粘連和較小幼苗存在錯誤的識別,而FE-YOLO模型有更好的檢測效果。但由于網(wǎng)絡(luò)的特征容量有限,使得FE-YOLO模型在幼苗邊界框的定位精確率這方面有待提高(圖11a、11c中實(shí)線框部分)。
針對上述描述兩種情況,對FE-YOLO模型和YOLO v3模型的漏檢測和錯誤檢測株數(shù)進(jìn)行統(tǒng)計(jì),得到結(jié)果如表2所示。
表2 不同模型錯誤檢測株數(shù)Tab.2 Error detection by different models 株
從表2可以看出,F(xiàn)E-YOLO模型兩種檢測情況均優(yōu)于YOLO v3模型,其中FE-YOLO模型的漏檢株數(shù)僅為YOLO v3的65.31%,相對于YOLO v3模型誤檢率減少了25.53%。
對測試集中不同類型幼苗檢測進(jìn)行對比,對比少葉型和多葉型幼苗的召回率,以評估網(wǎng)絡(luò)對復(fù)雜特征的適應(yīng)性(表3)。
表3 不同類型幼苗召回率對比Tab.3 Recall rate of different types seedlings %
從表3可以看出,YOLO v3和FE-YOLO模型對于少葉型幼苗識別效果較好,由于多葉型幼苗葉片多且葉片面積較大,導(dǎo)致幼苗重疊,陰影干擾加劇,使得兩個模型對多葉幼苗檢測效果變差,但FE-YOLO模型對多葉幼苗識別的召回率比YOLO v3模型高2.89個百分點(diǎn),說明FE-YOLO模型對復(fù)雜的多葉幼苗特征有較好的適應(yīng)性。
2.1.2模型復(fù)雜度對比
對FE-YOLO和YOLO v3模型的參數(shù)、計(jì)算量和推理時間進(jìn)行統(tǒng)計(jì),結(jié)果如表4所示。
表4 不同模型復(fù)雜度對比Tab.4 Complexity evaluation of different models
FE-YOLO模型GFLOPS和推理時間分別為YOLO v3的7.91%和33.76%。說明本文改進(jìn)網(wǎng)絡(luò)不僅能夠提升檢測精度,還能保證網(wǎng)絡(luò)的檢測速度,在邊緣設(shè)備的部署具有很高可行性。
2.1.3模型特征可視化對比
對YOLO v3和FE-YOLO模型的特征提取網(wǎng)絡(luò)輸出特征進(jìn)行可視化,結(jié)果見圖12。圖中亮度較高部分表示網(wǎng)絡(luò)越注意該區(qū)域特征,越暗則表示該網(wǎng)絡(luò)對于該區(qū)域響應(yīng)程度越低。
選取幼苗區(qū)域(實(shí)線框標(biāo)出)進(jìn)行對比(圖12),可以看出FE-YOLO模型對于幼苗目標(biāo)的響應(yīng)區(qū)域相比YOLO v3模型更加集中,通過幼苗部分區(qū)域可加以區(qū)分。對比虛線框標(biāo)出的背景區(qū)域,發(fā)現(xiàn)YOLO v3模型會對噴灌機(jī)輪印進(jìn)行響應(yīng),此外FE-YOLO模型的背景區(qū)域較YOLO模型更深,可見FE-YOLO對背景區(qū)域給予更少的關(guān)注。
通過上述對比可知,F(xiàn)E-YOLO模型可顯著地關(guān)注幼苗區(qū)域并能抑制背景區(qū)域,從而獲得更高的幼苗檢測召回率。
按照幼苗種植密度估算公式,選擇對應(yīng)區(qū)域后對檢測的幼苗完成選區(qū)的密度估算,結(jié)果如圖13所示。從圖13可以看出,該方法可以針對選區(qū)估算幼苗種植密度,給幼苗管理提供有效支持。
(1)提出的基于多種特征增強(qiáng)改進(jìn)的FE-YOLO模型比YOLO v3模型的召回率提升3.05個百分點(diǎn),少葉型和多葉型幼苗召回率比YOLO v3分別提高1.03、2.89個百分點(diǎn),說明FE-YOLO模型能夠有效改善幼苗小目標(biāo)召回率低的問題,實(shí)現(xiàn)玉米幼苗的準(zhǔn)確檢測。
(2)FE-YOLO模型具有較快的推理速度,參數(shù)量僅為YOLO v3模型的16.17%,比常規(guī)模型的計(jì)算需求和復(fù)雜度更低,適合在邊緣設(shè)備部署,進(jìn)而實(shí)現(xiàn)幼苗株數(shù)的實(shí)時監(jiān)測與播種質(zhì)量的快速評估,具有一定的應(yīng)用價值。