杜小強(qiáng) 李卓林 馬锃宏 楊振華 王大帥
(1.浙江理工大學(xué)機(jī)械工程學(xué)院,杭州 310018;2.浙江省種植裝備技術(shù)重點(diǎn)實(shí)驗(yàn)室,杭州 310018;3.龍泉市菇源自動(dòng)化設(shè)備有限公司,龍泉 323700;4.中國科學(xué)院深圳先進(jìn)技術(shù)研究院,深圳 518055;5.廣東省機(jī)器人與智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,深圳 518055)
隨著機(jī)器人技術(shù)和人工智能的快速發(fā)展,植保無人機(jī)逐漸成為我國農(nóng)業(yè)航空產(chǎn)業(yè)的重要組成部分[1]。但是我國農(nóng)田非結(jié)構(gòu)化特點(diǎn)突出,隨機(jī)離散化分布的障礙物(樹木、電線桿、建筑、人、電線塔等)對(duì)無人機(jī)飛行安全構(gòu)成嚴(yán)重威脅[2]。準(zhǔn)確識(shí)別障礙物是無人機(jī)進(jìn)行避障和路徑規(guī)劃的前提,對(duì)保證無人機(jī)作業(yè)效率和飛行安全至關(guān)重要。
傳統(tǒng)的無人機(jī)障礙物檢測方法是利用距離探測傳感器,如激光雷達(dá)[3]、微波傳感器[4]、超聲波傳感器[5]等,感知障礙物的存在。但是,這類方法會(huì)受到傳感器性能和環(huán)境的限制,只能獲取有限的距離和輪廓[2]。雖然現(xiàn)今已有研究證明能夠通過激光傳感器或深度相機(jī)等獲得的點(diǎn)云直接識(shí)別障礙物類別[6],但是由于點(diǎn)云數(shù)據(jù)的稀疏性,感知障礙物的類別精度較低[7]。為了在RGB空間對(duì)障礙物進(jìn)行描述,部分研究人員還研究了基于機(jī)器學(xué)習(xí)算法和單目相機(jī)的目標(biāo)感知方法,但此類方法依賴于人工選取圖像特征,計(jì)算耗時(shí)較長,難以滿足無人機(jī)高動(dòng)態(tài)、高實(shí)時(shí)性作業(yè)的要求。
近年來,隨著人工智能的迅速發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法在計(jì)算機(jī)視覺領(lǐng)域展現(xiàn)出強(qiáng)大的性能。隨著精準(zhǔn)農(nóng)業(yè)的發(fā)展,人工智能在其他領(lǐng)域的發(fā)展成果開始遷移到農(nóng)業(yè)領(lǐng)域[8-14]。但是深層神經(jīng)網(wǎng)絡(luò)計(jì)算量大,模型運(yùn)行速度慢;又由于我國農(nóng)田環(huán)境復(fù)雜,非結(jié)構(gòu)化特點(diǎn)突出,隨機(jī)離散化分布的障礙物會(huì)導(dǎo)致障礙物檢測困難,直接將Mask R-CNN應(yīng)用于非結(jié)構(gòu)化農(nóng)田環(huán)境下的障礙物檢測,會(huì)導(dǎo)致模型的精度下降。
MNIH等[15]最早提出注意力機(jī)制。將注意力機(jī)制與神經(jīng)網(wǎng)絡(luò)結(jié)合,將有利于從空間域、通道域深度挖掘圖像信息的特征,進(jìn)而提高神經(jīng)網(wǎng)絡(luò)模型的檢測精度和速度。黃林生等[16]將多尺度卷積結(jié)構(gòu)和注意力機(jī)制結(jié)合,提出一種農(nóng)作物病害識(shí)別模型。熊俊濤等[17]在Deeplab V3網(wǎng)絡(luò)的基礎(chǔ)上引入稠密特征傳遞方法和注意力模塊,實(shí)現(xiàn)在復(fù)雜野外環(huán)境中為智能疏花提供視覺支持,并且該模型具有較強(qiáng)的魯棒性和識(shí)別率。注意力機(jī)制的引入,增強(qiáng)了有用特征的權(quán)重,減弱了無用特征的影響,進(jìn)一步提高了特征提取能力,提高了模型的魯棒性。
標(biāo)準(zhǔn)卷積的常規(guī)采樣難以適應(yīng)目標(biāo)的形狀變化[18],為此,DAI等[19]提出可變形卷積,替代傳統(tǒng)的標(biāo)準(zhǔn)卷積,通過對(duì)卷積核中每個(gè)采樣點(diǎn)位置增加可學(xué)習(xí)的偏移量,從而增加空間采樣位置,可變形卷積核的大小和位置可以根據(jù)圖像內(nèi)容發(fā)生自適應(yīng)的變化,從而提高目標(biāo)檢測的精度。SUN等[20]通過將RGB圖像與近紅外圖像融合,并引入可變形卷積對(duì)R-FCN模型進(jìn)行改進(jìn),解決自然環(huán)境中的復(fù)雜背景和夜間光線不足造成甜菜幼苗和雜草識(shí)別困難的問題??勺冃尉矸e的引入提高了網(wǎng)絡(luò)對(duì)圖形幾何變形的適應(yīng)能力,進(jìn)而提高模型的特征提取能力。
我國非結(jié)構(gòu)化農(nóng)田環(huán)境中隨機(jī)離散分布的障礙物對(duì)植保無人機(jī)的飛行安全和作業(yè)效率有直接影響。傳統(tǒng)圖像識(shí)別方法依賴人工提取特征,計(jì)算耗時(shí)較長,難以適應(yīng)非結(jié)構(gòu)化田間復(fù)雜環(huán)境下的實(shí)時(shí)作業(yè)要求。深度學(xué)習(xí)算法雖然在圖像分類、目標(biāo)檢測和圖像分割等領(lǐng)域應(yīng)用廣泛,但在農(nóng)田障礙物檢測中的應(yīng)用尚有不足。
本文基于空間注意力機(jī)制和可變形卷積對(duì)Mask R-CNN模型進(jìn)行優(yōu)化,解決現(xiàn)有的深度學(xué)習(xí)模型對(duì)田間障礙物的檢測精度低、魯棒性較差等問題。
在文獻(xiàn)[21]的研究基礎(chǔ)上,通過無人機(jī)航拍、手持相機(jī)拍攝和網(wǎng)絡(luò)搜索等方法,采集多環(huán)境、多場景、多視角下的田間典型障礙物圖像信息,對(duì)文中數(shù)據(jù)集進(jìn)行補(bǔ)充,包括樹木、電線桿、建筑、電線塔、無人機(jī)、人共6類障礙物,一共6 000幅圖像。同時(shí),為了減少計(jì)算量,降低模型訓(xùn)練時(shí)間,將原圖像調(diào)整為416像素×416像素。隨后,用Labelme圖像標(biāo)注工具標(biāo)注出障礙物圖像輪廓,共標(biāo)注目標(biāo)11 578個(gè),制作成COCO格式的數(shù)據(jù)集。在數(shù)據(jù)集中隨機(jī)選取4 800幅圖像作為訓(xùn)練集,600幅圖像作為驗(yàn)證集,600幅圖像作為測試集,比例為8∶1∶1。圖1為6類障礙物圖像。
圖1 田間障礙物圖像示例
Mask R-CNN是一種先進(jìn)的實(shí)例分割算法,具有目標(biāo)檢測和實(shí)例分割兩大功能,能夠精確地檢測目標(biāo)并準(zhǔn)確地分割目標(biāo),在性能上超過了Faster R-CNN,是一種綜合性能優(yōu)異的實(shí)例分割算法。Mask R-CNN是一個(gè)兩階段的框架,第1階段是通過主干網(wǎng)絡(luò)(殘差神經(jīng)網(wǎng)絡(luò)(ResNet)和特征金字塔網(wǎng)絡(luò)(Feature pyramid network, FPN))提取圖像特征,并通過區(qū)域生成網(wǎng)絡(luò)生成感興趣區(qū)域;第2階段用于分類提議區(qū)域并生成邊界框和掩膜。
針對(duì)非結(jié)構(gòu)化農(nóng)田障礙物的特點(diǎn),對(duì)現(xiàn)有的Mask R-CNN實(shí)例分割網(wǎng)絡(luò)進(jìn)行改進(jìn),構(gòu)建一種適用于田間障礙物圖像檢測和分割的網(wǎng)絡(luò)。本文主要對(duì)主干網(wǎng)絡(luò)做出以下改進(jìn):在ResNet網(wǎng)絡(luò)的階段2、階段3、階段5加入空間注意力機(jī)制和可變形卷積。
在計(jì)算機(jī)圖像視覺里,卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)越深,能獲取到的信息就越多,特征也就越豐富。但是隨著網(wǎng)絡(luò)層數(shù)的不斷加深,就會(huì)出現(xiàn)梯度消失或梯度爆炸的問題[22],導(dǎo)致優(yōu)化效果更差,測試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的準(zhǔn)確率降低。針對(duì)這個(gè)問題,對(duì)輸入層和中間層進(jìn)行歸一化操作,這可以使得具有數(shù)十層的網(wǎng)絡(luò)能夠開始用反向傳播進(jìn)行隨機(jī)梯度下降(SGD),從而讓網(wǎng)絡(luò)達(dá)到收斂。然而當(dāng)更深層次網(wǎng)絡(luò)開始收斂時(shí),出現(xiàn)網(wǎng)絡(luò)退化問題,增加層數(shù)卻導(dǎo)致更大的誤差。為解決這個(gè)問題,HE等[23]提出了殘差網(wǎng)絡(luò)。殘差網(wǎng)絡(luò)的核心在于ResNet殘差塊結(jié)構(gòu)。
ResNet殘差塊使用Shortcut connection(捷徑連接)的連接方式進(jìn)行Identity mapping(恒等映射),將輸入x與經(jīng)過堆疊的權(quán)重層得到的F(x)進(jìn)行跨層連接,既不增加額外參數(shù),也不會(huì)增加計(jì)算復(fù)雜性。當(dāng)x和F維度相同時(shí)有
y=F(x,{Wi})+x
(1)
其中
F=W2σ(W1x)
(2)
式中x、y——?dú)埐顗K輸入、輸出向量
F(x,{Wi})——要學(xué)習(xí)的殘差映射
σ——ReLU函數(shù)
Wi——權(quán)重
當(dāng)x和F的維度不相同時(shí),需要對(duì)輸入x進(jìn)行線性映射來匹配維度,即
y=F(x,{Wi})+Wsx
(3)
式中Ws——線性映射函數(shù)
對(duì)于更深層次的網(wǎng)絡(luò),為了減少訓(xùn)練時(shí)間,將ResNet的瓶頸(Bottleneck)架構(gòu)設(shè)計(jì)成3層堆棧,如圖2所示,這3層分別是1×1、3×3和1×1卷積,第1個(gè)1×1卷積將256維的通道降到64維,再通過另一個(gè)1×1卷積將維度還原,既保持了精度,又減少了計(jì)算量。神經(jīng)網(wǎng)絡(luò)層數(shù)越多,對(duì)于原始數(shù)據(jù)的映射越多,可以得到更深層次的信息,但是模型訓(xùn)練時(shí)間也會(huì)越長,對(duì)應(yīng)的權(quán)重文件也越大,不利于模型在移動(dòng)終端的部署。
圖2 瓶頸結(jié)構(gòu)
注意力機(jī)制最早由MNIH等[15]提出并引入圖像分類領(lǐng)域,視覺注意力機(jī)制體現(xiàn)了人類視覺系統(tǒng)主動(dòng)選擇關(guān)注對(duì)象并加以集中處理的視覺特性,該特性能有效提升圖像內(nèi)容篩選、目標(biāo)檢索等圖像處理能力。從人工智能角度看,注意力機(jī)制是機(jī)器學(xué)習(xí)中的一種數(shù)據(jù)處理方法,本質(zhì)是利用相關(guān)特征圖學(xué)習(xí)權(quán)重分布,再用學(xué)到的權(quán)重施加在原特征圖之上,最后進(jìn)行加權(quán)求和以快速提取稀疏數(shù)據(jù)的重要特征[24]。
在Transformer attention[25]的最新版本中,注意權(quán)重被表示為4個(gè)注意因子(ε1、ε2、ε3、ε4)的總和,這4個(gè)注意因子所涉及的依賴關(guān)系的性質(zhì)各不相同。ε1對(duì)于查詢和關(guān)鍵內(nèi)容更敏感;ε2更關(guān)注查詢內(nèi)容和相對(duì)位置;ε3僅僅關(guān)注關(guān)鍵內(nèi)容;ε4僅僅關(guān)注相對(duì)位置。ZHU等[26]對(duì)當(dāng)前空間注意機(jī)制進(jìn)行深入研究,通過分析不同注意因子的不同組合對(duì)于不同領(lǐng)域(圖像目標(biāo)檢測、圖像語義分割、神經(jīng)機(jī)器翻譯)的效果,得出注意因子為ε3(Key content only)的空間注意力機(jī)制,比4個(gè)注意因子(ε1、ε2、ε3、ε4)總和的空間注意力機(jī)制在圖像方面的精度和效率更佳。
目標(biāo)檢測模型的3大組件(backbone、neck、head)中,backbone(本文采用ResNet網(wǎng)絡(luò))的主要作用是特征提取,另外ResNet網(wǎng)絡(luò)由5個(gè)階段組成,其中階段2~5都由瓶頸層組成,瓶頸層的主要作用是進(jìn)行特征提取。因此本文將在ResNet網(wǎng)絡(luò)的階段2~5的瓶頸層中串聯(lián)插入一個(gè)空間注意力模塊,如圖3所示,增強(qiáng)有用信息,抑制噪聲等干擾元素的權(quán)重。并且繼續(xù)探索在ResNet不同的階段中加入空間注意力機(jī)制對(duì)于田間障礙物實(shí)例分割模型魯棒性的影響。
圖3 加入空間注意力機(jī)制模塊的殘差塊結(jié)構(gòu)
由于非結(jié)構(gòu)化田間障礙物形態(tài)各異,面積大小不一,這給障礙物識(shí)別任務(wù)帶來了很大的困難,而且以往的卷積神經(jīng)網(wǎng)絡(luò)對(duì)整體特征的提取是依靠其固定的卷積結(jié)構(gòu),對(duì)于形態(tài)各異的目標(biāo)特征提取的適應(yīng)、調(diào)節(jié)能力較弱,目標(biāo)識(shí)別能力不強(qiáng),泛化能力差。實(shí)際上,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)的卷積核通常是固定尺寸、固定大小(3×3、5×5),難以自適應(yīng)目標(biāo)的形狀變化[18]。為了解決限制傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)識(shí)別能力的這一難題,DAI等[19]提出了一種可變形卷積網(wǎng)絡(luò),替代傳統(tǒng)的標(biāo)準(zhǔn)卷積,經(jīng)研究表明,通過可變形卷積網(wǎng)絡(luò)增加可訓(xùn)練的偏移量,從而適應(yīng)目標(biāo)形狀的變化,有利于提高目標(biāo)檢測的魯棒性[27-29]。
二維卷積的操作步驟為:①在輸入特征圖x上使用規(guī)則網(wǎng)格R進(jìn)行采樣。②用ω加權(quán)的采樣值進(jìn)行求和。一個(gè)3×3的卷積為
R={(-1,-1),(-1,0),…,(0,1),(1,1)}
(4)
對(duì)于標(biāo)準(zhǔn)的卷積過程,輸出特征圖y中每個(gè)位置y(P0)的計(jì)算公式為
(5)
式中Pn——R中所有采樣位置
P0——輸入特征圖中每個(gè)位置
可變形卷積過程公式為
(6)
式中 ΔPn——采樣點(diǎn)偏移量
可見,可變形卷積就是在傳統(tǒng)的卷積操作上加入了一個(gè)采樣點(diǎn)的偏移量ΔPn,以調(diào)整關(guān)鍵元素的采樣位置,如圖4所示。可變形卷積只為神經(jīng)網(wǎng)絡(luò)模型增加少量的參數(shù)和計(jì)算,但是大大提高了目標(biāo)檢測的精度[30]。
圖4 卷積核大小為3×3的正常卷積核可變形卷積的采樣方式
本文利用可變形卷積替代ResNet網(wǎng)絡(luò)瓶頸層中的3×3卷積,與空間注意力機(jī)制共同改進(jìn)ResNet網(wǎng)絡(luò),改進(jìn)得到的基于空間注意力機(jī)制和可變形卷積的實(shí)例分割網(wǎng)絡(luò)模型(ResNet-50+SA+DCN(2,3,5))整體結(jié)構(gòu)如圖5所示。
圖5 利用可變形卷積和空間注意力機(jī)制改進(jìn)的Mask R-CNN實(shí)例分割網(wǎng)絡(luò)
試驗(yàn)選用的處理器為Intel(R)Core(TM)i7-10700K,主頻3.8 GHz,8核,16 MB緩存;64 GB內(nèi)存;NVIDIA GeForce RTX2080TI(11GB)GPU用于加速計(jì)算。操作系統(tǒng)是Ubuntu 20.04,編程語言選用Python,選擇PyTorch深度學(xué)習(xí)框架實(shí)現(xiàn)網(wǎng)絡(luò)模型的搭建、訓(xùn)練和調(diào)試。
考慮模型訓(xùn)練效果以及試驗(yàn)條件,本文模型采用遷移學(xué)習(xí),主干網(wǎng)絡(luò)采用ImageNet預(yù)訓(xùn)練的ResNet-50網(wǎng)絡(luò)作為初始輸入權(quán)重。模型訓(xùn)練的周期為24,每個(gè)周期迭代的次數(shù)為2 400;設(shè)置學(xué)習(xí)率為0.002 5,采用線性增加策略動(dòng)態(tài)調(diào)整學(xué)習(xí)率,初始學(xué)習(xí)率為2.4×10-4,當(dāng)?shù)螖?shù)為500時(shí),學(xué)習(xí)率調(diào)整為預(yù)設(shè)置的2.5×10-3;動(dòng)量因子為0.9,權(quán)重衰減系數(shù)為0.000 1,優(yōu)化算法為隨機(jī)梯度下降(SGD),損失函數(shù)為對(duì)數(shù)交叉熵?fù)p失(Cross entropy loss)。
3.2.1主干網(wǎng)絡(luò)選擇分析
Mask R-CNN模型的主干網(wǎng)絡(luò)選擇ResNet-50、ResNet-101,通過平均精度均值(mAP)、參數(shù)量、推斷時(shí)間和損失值對(duì)比,確定適合非結(jié)構(gòu)化田間障礙物實(shí)例分割的主干網(wǎng)絡(luò)深度。試驗(yàn)中,控制其他條件不變,只改變主干網(wǎng)絡(luò)的深度,兩個(gè)不同深度模型的性能對(duì)比如圖6所示。
圖6 ResNet-50和ResNet-101的損失值曲線
圖6中ResNet-50和ResNet-101的損失值均隨著迭代次數(shù)的增加逐漸下降并收斂,最終趨于穩(wěn)定。2個(gè)網(wǎng)絡(luò)的損失曲線相差不大,基本重合,模型訓(xùn)練的總損失分別約為0.2和0.18,一定程度上說明了2個(gè)模型具有相似的性能。此外通過表1的mAP比較,可以看出ResNet-101的mAP略微高于ResNet-50,但是相差不大,僅為2個(gè)百分點(diǎn)左右,但是ResNet-101模型參數(shù)量遠(yuǎn)高于ResNet-50,約為6.276×107;推斷時(shí)間也比ResNet-50長??紤]到非結(jié)構(gòu)化障礙物識(shí)別模型將用于無人機(jī),且無人機(jī)檢測需要實(shí)時(shí)性強(qiáng),機(jī)載端內(nèi)存有限,考慮到ResNet-101網(wǎng)絡(luò)對(duì)本文研究的非結(jié)構(gòu)化農(nóng)田障礙物分割提取任務(wù)有較大的冗余,降低網(wǎng)絡(luò)深度對(duì)模型的性能影響不大,但是能提高模型的運(yùn)算速度。綜上所述,選擇ResNet-50最為合適。
本文以ResNet-50為主干網(wǎng)絡(luò)構(gòu)建Mask R-CNN實(shí)例分割模型,并用空間注意力機(jī)制和可變形卷積對(duì)主干網(wǎng)絡(luò)進(jìn)行改進(jìn)。確認(rèn)模型深度為ResNet-50后,分析利用空間注意力機(jī)制和可變形卷積改進(jìn)模型的有效性。首先利用空間注意力機(jī)制對(duì)Mask R-CNN進(jìn)行改進(jìn),與原網(wǎng)絡(luò)性能進(jìn)行比較。主要從mAP、AP50、AP75、APS、APM、APL、參數(shù)量和推斷時(shí)間進(jìn)行性能分析。增加注意力機(jī)制模型的測試結(jié)果如表1、2所示。表1中,mAP指的是交并比從0.5開始,間隔0.05一直取值到0.95然后求得的平均值;AP50指交并比為0.5時(shí)的平均精度;AP75指交并比為0.75時(shí)的平均精度;APS、APM、APL分別對(duì)應(yīng)面積小于322像素(小目標(biāo)物體)、面積大于322像素小于962像素(中等目標(biāo)物體),面積大于962像素(大目標(biāo)物體)測試平均精度。
3.2.2改進(jìn)后的網(wǎng)絡(luò)性能分析
由表1可知,加入空間注意力機(jī)制后的模型(ResNet-50+SA)比原模型在各項(xiàng)性能上都有了不同程度的提升。從Bbox來看,ResNet-50+SA模型比改進(jìn)前模型的mAP高5.8個(gè)百分點(diǎn),特別是小面積物體的平均精度(APS),提高20.1個(gè)百分點(diǎn);從Mask來看,改進(jìn)后比改進(jìn)前模型的mAP提高4.3個(gè)百分點(diǎn),APS提升比較顯著,為18個(gè)百分點(diǎn);另外改進(jìn)后模型的參數(shù)量僅增加8.6%。
從表2可知,不論是Bbox還是Mask,加入空間注意力機(jī)制后的模型比Mask R-CNN模型性能都有提升,其中電線桿的特征是細(xì)長,屬于小面積目標(biāo)。這種小面積目標(biāo)的平均精度(AP)從40.1%、27.5%提升到53.6%、33.1%,分別提高13.5、5.6個(gè)百分點(diǎn)。
表2 不同模型各個(gè)類別的AP值對(duì)比
從APS和電線桿AP可知,空間注意力機(jī)制提高了模型對(duì)于細(xì)小物體特征的提取能力??臻g注意力機(jī)制的引入可以在獲得較高AP值的基礎(chǔ)上,使模型參數(shù)量增長較少。
在加入空間注意力機(jī)制的基礎(chǔ)上,將瓶頸層的3×3卷積調(diào)整為可變形卷積,兩者結(jié)合共同改進(jìn)Mask R-CNN,為了進(jìn)一步優(yōu)化ResNet-50+SA +DCN模型的性能,本文從ResNet階段2~5的組合((2,3)、(2,4)、(2,5)、(3,4)、(3,5)、(4,5)、(2,3,4)、(2,3,5)、(3,4,5)、(2,3,4,5))中分別引入2個(gè)模塊,并對(duì)這些組合進(jìn)行遍歷,分析試驗(yàn)在不同階段組合中引入空間注意力模塊和可變形卷積模塊對(duì)于模型的影響。其中,(2,3)是從ResNet的階段2、階段3引入2個(gè)模塊;(3,4,5)是從ResNet的階段3、階段4、階段5引入2個(gè)模塊;(2,3,4,5)是從ResNet的階段2、階段3、階段4、階段5引入2個(gè)模塊,以此類推。測試結(jié)果如表1、2所示。
從表1、2可知,不論從ResNet的哪個(gè)階段引入可變形卷積,ResNet-50+SA+DCN模型的綜合性能都比僅引入空間注意力機(jī)制的ResNet-50+SA模型性能更優(yōu)。從ResNet的2個(gè)階段引入空間注意力機(jī)制和可變形卷積分析,ResNet-50+SA+DCN(4,5)模型比其他模型的權(quán)重文件更大;從ResNet的3個(gè)階段引入空間注意力機(jī)制和可變形卷積分析,ResNet-50+SA+DCN(3,4,5)模型比其他模型的權(quán)重文件更大。由此可知,在ResNet的前階段引入空間注意力機(jī)制和可變形卷積,能夠加強(qiáng)網(wǎng)絡(luò)前階段對(duì)重點(diǎn)特征信息的提取能力和提升網(wǎng)絡(luò)對(duì)不同尺寸的目標(biāo)適應(yīng)能力,減少網(wǎng)絡(luò)后階段需要處理的數(shù)據(jù)量,從而減少模型的參數(shù)量。從ResNet的全部4個(gè)階段進(jìn)行改進(jìn)對(duì)網(wǎng)絡(luò)性能提升不大,但是2個(gè)模塊的引入帶來的參數(shù)量會(huì)增加網(wǎng)絡(luò)的負(fù)荷,導(dǎo)致模型的參數(shù)量偏大。
從總體的mAP值和各類別的AP值、參數(shù)量、推斷時(shí)間進(jìn)行分析,由表1、2可知,從3個(gè)階段((3,4,5)、(2,3,5))引入空間注意力機(jī)制和可變形卷積模塊比其他模型的綜合性能更優(yōu)。此外對(duì)比ResNet-50+SA+DCN(2,3,5)和ResNet-50+SA+DCN(3,4,5)兩個(gè)模型,ResNet-50+SA+DCN(2,3,5)模型的參數(shù)量更小,速度更快;而且ResNet-50+SA+DCN(2,3,5)模型在Mask上的mAP更高,而且模型的參數(shù)量比ResNet-50僅增長6.6%,比ResNet-50+SA的參數(shù)量更少。
由表1分析可知,從Bbox來看,本文提出的ResNet-50+SA+DCN(2,3,5)模型在mAP上比YOLACT高5.9個(gè)百分點(diǎn),比PointRend高1.5個(gè)百分點(diǎn)。從Mask來看,ResNet-50+SA+DCN(2,3,5)在mAP上比YOLACT高2.3個(gè)百分點(diǎn),比SOLO高15.3個(gè)百分點(diǎn),但是比PointRend低3.5個(gè)百分點(diǎn);另外,ResNet-50+SA+DCN(2,3,5)的APS比YOLACT高14.9個(gè)百分點(diǎn),比SOLO高25.5個(gè)百分點(diǎn),比PointRend高2.8個(gè)百分點(diǎn)。從參數(shù)量來看,SOLO模型的參數(shù)量最少,比ResNet-50+SA+DCN(2,3,5)少1.056×107,其中PointRend的參數(shù)量最多,比ResNet-50+SA+DCN(2,3,5)多9.10×106;在推斷時(shí)間方面,ResNet-50+SA+DCN(2,3,5)的推斷時(shí)間比YOLACT少4.4 ms,比SOLO少1.3 ms,比PointRend少3.2 ms。
從表2分析可知,從Bbox的AP值來看,ResNet-50+SA+DCN(2,3,5)比PointRend、YOLACT、SOLO模型的性能都更加優(yōu)異,但是從Mask的AP值來看,PointRend模型的性能更為優(yōu)異。PointRend模型利用計(jì)算機(jī)圖像渲染技術(shù)提高了Mask的AP值,但是在參數(shù)量、推斷時(shí)間、Bbox方面的性能低于本文提出的ResNet-50+SA+DCN(2,3,5)模型。
綜上所述,本文將在ResNet的階段2、階段3、階段5引入空間注意力機(jī)制模塊和可變形卷積模塊,構(gòu)建適用于非結(jié)構(gòu)化農(nóng)田障礙物識(shí)別模型ResNet-50+SA+DCN(2,3,5),模型資源開銷低,為后期將目標(biāo)識(shí)別與分割模型移入內(nèi)存有限的無人機(jī)設(shè)備提供了可能。
3.2.3不同模型輸出結(jié)果分析
為了更直觀地解釋引入空間注意力機(jī)制和可變形卷積對(duì)Mask R-CNN模型性能的提升,通過圖像輸出結(jié)果對(duì)不同模型進(jìn)行分析。
如圖7b所示,目標(biāo)人物的頭部沒有完全識(shí)別,加入空間注意力機(jī)制后,模型識(shí)別效果(圖7c、7d)比Mask R-CNN模型的識(shí)別(圖7b)更準(zhǔn)確;其次圖7c目標(biāo)手部還沒有完全覆蓋,加入可變形卷積模塊后(圖7d),目標(biāo)的輪廓分割效果最好,網(wǎng)絡(luò)提取的特征更好地覆蓋在目標(biāo)對(duì)象區(qū)域。如圖8c、8d所示,加入空間注意力模塊后的模型特征提取能力更強(qiáng),可以識(shí)別到更多的物體。此外,加入可變形卷積后模型ResNet-50+SA+DCN能夠識(shí)別到更遠(yuǎn)處的物體(圖8d)。但是對(duì)于較遠(yuǎn)處被阻擋的目標(biāo)還是會(huì)出現(xiàn)無法識(shí)別的情況。
圖7 不同模型的輸出結(jié)果(人)
圖8 不同模型的輸出結(jié)果(電線桿與建筑)
綜上所述,ResNet-50+SA和ResNet-50+SA+DCN模型提取的特征更好地覆蓋在目標(biāo)對(duì)象區(qū)域,說明在現(xiàn)有的Mask R-CNN模型加入空間注意力機(jī)制模塊可以增強(qiáng)有用信息,提高網(wǎng)絡(luò)模型的特征提取能力;而加入可變形卷積模塊可以使模型增大感受野,提高模型對(duì)目標(biāo)不同尺寸的適應(yīng)能力,進(jìn)一步說明了本文對(duì)網(wǎng)絡(luò)的改進(jìn)是有效的,可以為無人機(jī)障礙物識(shí)別提供視覺支持。
(1)為了建立適用于無人機(jī)田間障礙物識(shí)別的網(wǎng)絡(luò)模型,本文以空間注意力機(jī)制和可變形卷積改進(jìn)ResNet特征提取網(wǎng)絡(luò),進(jìn)而優(yōu)化Mask R-CNN實(shí)例分割模型,可以實(shí)現(xiàn)非結(jié)構(gòu)化農(nóng)田障礙物的識(shí)別與分割。
(2)為了提高利用空間注意力機(jī)制和可變形卷積改進(jìn)Mask R-CNN模型的有效性,分析從ResNet的階段2~5中的不同組合中引入2個(gè)模塊對(duì)于模型性能的影響,最終確定在ResNet的階段2、階段3、階段5引入2個(gè)模塊的性能最優(yōu),ResNet-50+SA+DCN(2,3,5)模型的Bbox和Mask的mAP值分別為71.3%、62.3%,與僅加入空間注意力機(jī)制的模型相比,Bbox和Mask的mAP值分別提高1.0、1.1個(gè)百分點(diǎn),參數(shù)量和推斷時(shí)間也有了相應(yīng)的優(yōu)化。
(3)與YOLACT、SOLO、PointRend模型相比,ResNet-50+SA+DCN(2,3,5)在Bbox上的mAP更高,推斷時(shí)間更短,實(shí)時(shí)性更好;另外,與Mask R-CNN模型相比,本文模型在小面積目標(biāo)的檢測方面,性能更加優(yōu)異。因此,ResNet-50+SA+DCN(2,3,5)模型在非結(jié)構(gòu)化田間障礙物識(shí)別與分割任務(wù)中具有優(yōu)異的表現(xiàn),并且在控制模型檢測速度的情況下,用很小的資源開銷明顯提升了模型檢測準(zhǔn)確率,較好地平衡了模型復(fù)雜度和識(shí)別精度,充分證明了ResNet-50+SA+DCN(2,3,5)模型在非結(jié)構(gòu)化農(nóng)田障礙物識(shí)別與分割上的優(yōu)越性。