饒秀勤,朱逸航,張延寧,楊海濤,張小敏,林洋洋,耿金鳳,應(yīng)義斌
基于語義分割的作物壟間導(dǎo)航路徑識(shí)別
饒秀勤1,2,朱逸航1,2,張延寧1,2,楊海濤3,張小敏1,2,林洋洋1,2,耿金鳳1,4,5,應(yīng)義斌1,2
(1. 浙江大學(xué)生物系統(tǒng)工程與食品科學(xué)學(xué)院,杭州 310058;2. 農(nóng)業(yè)農(nóng)村部農(nóng)產(chǎn)品產(chǎn)地處理裝備重點(diǎn)實(shí)驗(yàn)室,杭州 310058;3. 浙江大學(xué)數(shù)學(xué)科學(xué)學(xué)院,杭州 310058;4. 棗莊學(xué)院機(jī)電工程學(xué)院,棗莊 277101;5. 新多集團(tuán)有限公司,永康 321300)
針對目前農(nóng)作物壟間導(dǎo)航路徑識(shí)別目前存在準(zhǔn)確性、實(shí)時(shí)性差、通用性弱及深度學(xué)習(xí)模型解釋困難等問題,該研究在Unet模型的基礎(chǔ)上進(jìn)行剪枝與優(yōu)化,提出了保留Unet模型特征跳躍連接優(yōu)勢的Fast-Unet模型,并以模型所識(shí)別的導(dǎo)航路徑為基礎(chǔ),通過最小二乘法回歸生成壟間導(dǎo)航線與偏航角。該研究首先在棉花壟間導(dǎo)航路徑數(shù)據(jù)集上進(jìn)行模型訓(xùn)練,隨后將訓(xùn)練的模型遷移至玉米、甘蔗等小樣本數(shù)據(jù)集進(jìn)行導(dǎo)航路徑識(shí)別,通過使用梯度加權(quán)類激活映射法對模型識(shí)別過程與遷移學(xué)習(xí)過程進(jìn)行解釋,對各模型識(shí)別結(jié)果進(jìn)行可視化對比。Fast-Unet模型對棉花、玉米、甘蔗導(dǎo)航路徑提取精度指標(biāo)平均交并比分別為0.791、0.881和0.940。模型推理速度為Unet的6.48倍,在單核CPU上處理RGB圖像的推理速度為64.67幀/s,滿足農(nóng)作物導(dǎo)航路徑識(shí)別的實(shí)時(shí)性需求。研究結(jié)果可為田間智能農(nóng)業(yè)裝備的導(dǎo)航設(shè)備研制提供技術(shù)與理論基礎(chǔ)。
圖像處理;導(dǎo)航;路徑識(shí)別;語義分割;遷移學(xué)習(xí);深度學(xué)習(xí)
智能農(nóng)業(yè)裝備在田間作業(yè)時(shí)的導(dǎo)航路徑控制是農(nóng)業(yè)向智能化方向發(fā)展過程中至關(guān)重要的一環(huán)[1]。目前智能農(nóng)機(jī)田間路徑導(dǎo)航以衛(wèi)星定位系統(tǒng)導(dǎo)航和機(jī)器視覺導(dǎo)航為主[2]?;谛l(wèi)星定位系統(tǒng)的導(dǎo)航技術(shù)精度有限[3],多適用于大田路徑規(guī)劃場景。機(jī)器視覺技術(shù)可以識(shí)別田壟間導(dǎo)航路徑,解決田間種植行間距窄、田間先遣路徑難以保持穩(wěn)定等情況,解決農(nóng)機(jī)易產(chǎn)生壓苗的問題[4-6],為智能農(nóng)業(yè)裝備提供實(shí)時(shí)導(dǎo)航信息[7]。但目前基于機(jī)器視覺的導(dǎo)航方案依舊面臨田間光照環(huán)境多變和田間路況復(fù)雜的挑戰(zhàn)[8-12]。通常情況下,傳統(tǒng)機(jī)器視覺方法只能在特定作物、特定環(huán)境下有效,泛化能力較弱。此外,農(nóng)機(jī)在行進(jìn)中需要實(shí)時(shí)進(jìn)行路徑調(diào)整,對圖像數(shù)據(jù)進(jìn)行實(shí)時(shí)處理也是機(jī)器視覺導(dǎo)航的另一大挑戰(zhàn)[13-15]。
近年來,深度學(xué)習(xí)在機(jī)器視覺領(lǐng)域發(fā)展迅速[16],其中的卷積神經(jīng)網(wǎng)絡(luò)算法更是被廣泛應(yīng)用于各類農(nóng)業(yè)視覺任務(wù)場景[17-19],并取得較好的效果。而在結(jié)構(gòu)化道路識(shí)別方面,卷積神經(jīng)網(wǎng)絡(luò)已被廣泛應(yīng)用于結(jié)構(gòu)化道路下的汽車自動(dòng)駕駛[20]。同時(shí),使用基于深度學(xué)習(xí)的機(jī)器視覺技術(shù)可以避免因人為選擇圖像特征而產(chǎn)生的局限性[10],提高機(jī)器視覺算法的精確性與魯棒性。
已有學(xué)者在基于深度學(xué)習(xí)算法的非結(jié)構(gòu)化道路識(shí)別與導(dǎo)航領(lǐng)域開展研究,如Lin等[21]實(shí)現(xiàn)了一種基于深度學(xué)習(xí)的像素級(jí)道路檢測和機(jī)器人導(dǎo)航控制方案。宋廣虎等[22]使用全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)[23]在葡萄種植園中檢測行間道路并實(shí)現(xiàn)精確導(dǎo)航。李云伍等[24]使用FCN實(shí)現(xiàn)了丘陵山區(qū)田間道路場景的語義分割,平均交并比(MIoU)達(dá)到0.732。Lin等[13]在FCN的基礎(chǔ)上提出并利用Enet對茶葉種植場景的茶行輪廓進(jìn)行語義分割,MIoU達(dá)到0.734,為騎式采茶機(jī)提供實(shí)時(shí)導(dǎo)航。Badrinarayanan等提出的基于FCN的SegNet[25]進(jìn)一步提高了自動(dòng)駕駛的圖像語義分割識(shí)別精度。
但目前基于語義分割的田壟間道路識(shí)別方法依舊存在以下幾個(gè)問題:一是在深度學(xué)習(xí)語義分割算法帶來的高精度的同時(shí),需要考慮與計(jì)算資源的高算力需求之間的平衡問題;二是現(xiàn)有研究大多關(guān)注于單一作物壟間場景的導(dǎo)航路徑識(shí)別,缺乏一種相對通用的方法;三是基于深度學(xué)習(xí)語義分割算法在作物壟間導(dǎo)航路徑識(shí)別過程中不能得到較好的解釋。
針對上述問題,本研究基于卷積神經(jīng)網(wǎng)絡(luò)建立基于Unet[26]的實(shí)時(shí)棉花壟間圖像語義分割模型,并對模型進(jìn)行剪枝與優(yōu)化,提出Fast-Unet模型,在棉花壟間導(dǎo)航路徑識(shí)別的基礎(chǔ)上進(jìn)行小樣本遷移學(xué)習(xí),檢驗(yàn)所建模型對玉米及甘蔗的壟間導(dǎo)航路徑識(shí)別性能,并提取導(dǎo)航線,檢驗(yàn)導(dǎo)航偏航角,以解決單一作物壟間導(dǎo)航路徑識(shí)別泛化性差的問題。此外,本研究通過梯度加權(quán)類激活映射法[27](Gradient-weighted Class Activation Mapping,Grad-CAM)解釋本文算法的末端分類規(guī)則及遷移學(xué)習(xí)優(yōu)勢的合理性,為模型產(chǎn)生的偏差與效果提供解釋,以解決深度學(xué)習(xí)語義分割算法可解釋性較弱的問題。
本研究從復(fù)雜場景出發(fā),以作物生長高度與姿態(tài)為依據(jù)選取3種作物代表常見的大田壟間導(dǎo)航場景。中等高度常見作物以棉花為代表;相對高大的直立作物以玉米為代表,相對低矮的作物以幼苗期的甘蔗為代表。如圖1所示,本研究所選取的作物均在導(dǎo)航路徑上方存在交錯(cuò)葉片,增加了導(dǎo)航路徑的識(shí)別場景復(fù)雜度。
本文使用Vision Datum公司的Mars2000-50gc相機(jī),分別于2020年7月在安徽省安慶市望江縣棉花試驗(yàn)田中采集盛蕾期棉花圖像數(shù)據(jù),棉花品種為中棉所63號(hào);2021年5月在山東省棗莊市薛城區(qū)采集穗期玉米圖像數(shù)據(jù),玉米品種為農(nóng)大108;2020年10月在廣西省北海市合浦縣采集青皮甘蔗幼苗期圖像數(shù)據(jù)。在采集時(shí)相機(jī)安裝于移動(dòng)平臺(tái)上,在移動(dòng)平臺(tái)移動(dòng)時(shí)對當(dāng)前的作物壟間圖像進(jìn)行連續(xù)采集。試驗(yàn)先選取800幅分辨率為1 900×1 180的棉花壟間導(dǎo)航路徑圖片并進(jìn)行標(biāo)注,生成棉花數(shù)據(jù)集;采集相同像素的玉米壟間圖片100幅,甘蔗壟間圖像100幅,分別生成玉米數(shù)據(jù)集與甘蔗數(shù)據(jù)集。圖像示例如圖1所示。
棉花壟間導(dǎo)航路徑數(shù)據(jù)集按4∶1劃分為訓(xùn)練集和驗(yàn)證集,訓(xùn)練集共640幅圖像,驗(yàn)證集共160幅圖像。
用于遷移學(xué)習(xí)的玉米壟間導(dǎo)航路徑與甘蔗導(dǎo)航路徑數(shù)據(jù)集按1∶1劃分為訓(xùn)練集和驗(yàn)證集,訓(xùn)練集50幅圖像,驗(yàn)證集50幅圖像。
為了擴(kuò)增數(shù)據(jù)集,本文在模型訓(xùn)練過程中采用原始輸入圖像隨機(jī)旋轉(zhuǎn)90°、水平或者垂直翻轉(zhuǎn)、調(diào)整圖像色相飽和度明度(Hue,Saturation,Value,HSV)等方法進(jìn)行隨機(jī)數(shù)據(jù)增強(qiáng),以提高模型的魯棒性和準(zhǔn)確性。在每次迭代訓(xùn)練讀取圖片數(shù)據(jù)時(shí),原始圖像按順序執(zhí)行上述步驟。每個(gè)步驟會(huì)有50%的概率觸發(fā)變化。HSV隨機(jī)變換限制在一定范圍內(nèi),色調(diào)(H)的變換范圍小于20°,飽和度(S)的變換范圍小于30%,明度(V)的變換范圍小于20%。
隨機(jī)旋轉(zhuǎn)和翻轉(zhuǎn)圖像為數(shù)據(jù)集中各類作物壟間導(dǎo)航路徑的方向確認(rèn)提供保障,圖像HSV隨機(jī)調(diào)整為模型適應(yīng)不均勻的自然光照環(huán)境提供了保障。
在語義分割任務(wù)中,一般從模型推理速度,模型參數(shù)數(shù)量和精度3個(gè)方面進(jìn)行考量。推理速度代表模型的實(shí)時(shí)性水平,模型參數(shù)量代表模型對計(jì)算機(jī)的內(nèi)存占用水平,精度估算選取平均交并比(Mean Intersection-over- Union,MIoU)。
推理速度本文采用每秒處理幀數(shù)(Frames Per Second,F(xiàn)PS)表示,為排除計(jì)算機(jī)硬盤讀寫速度對算法性能的干擾,本文在計(jì)算推理速度時(shí)排除所有數(shù)據(jù)集讀取時(shí)間與圖像加載時(shí)間,僅計(jì)算圖像從輸入模型到輸出的時(shí)間。
模型參數(shù)數(shù)量使用算法在運(yùn)行時(shí)實(shí)際占用計(jì)算機(jī)內(nèi)存資源數(shù)值。
MIoU是在語義分割任務(wù)中的一種標(biāo)準(zhǔn)度量,真實(shí)值與預(yù)測值2個(gè)集合的交集和并集之比,計(jì)算公式如下:
基于深度學(xué)習(xí)的語義分割算法對圖像進(jìn)行像素級(jí)的分類。輸入圖片進(jìn)行深度神經(jīng)網(wǎng)絡(luò)處理時(shí)被卷積層和池化層編碼[28]。編碼器的輸出經(jīng)過解碼器進(jìn)行解碼,生成輸出圖像。解碼器由雙線性差值或反卷積進(jìn)行上采樣生成,增加高階特征的分辨率,確保輸出圖像大小與輸入圖像相同,并對每個(gè)像素的類別進(jìn)行預(yù)測。
FCN、SegNet和Unet作為編碼-解碼框架下的經(jīng)典模型,具有準(zhǔn)確度高的特點(diǎn),但其運(yùn)算量大,運(yùn)行相對緩慢。針對該問題,本文在Unet的基礎(chǔ)上進(jìn)行剪枝與優(yōu)化,提出Fast-Unet模型。
傳統(tǒng)的FCN在圖像語義分割中各尺度特征間的聯(lián)系有限,Unet解決了該問題,但Unet網(wǎng)絡(luò)運(yùn)行效率不高,因此本文在Unet基礎(chǔ)上提出了Fast-Unet模型。Unet網(wǎng)絡(luò)通過跳躍連接將網(wǎng)絡(luò)下采樣時(shí)的高分辨率信息與上采樣時(shí)的低分辨率信息使用特征疊加的方式整合,以豐富采樣信息,提高分割精度。
為滿足智能農(nóng)機(jī)導(dǎo)航路徑識(shí)別的實(shí)時(shí)性需求,本文對Unet結(jié)構(gòu)進(jìn)行優(yōu)化。考慮到作物壟間導(dǎo)航路徑的分類任務(wù)與城市場景分類任務(wù)相比較為簡單,縮減75%卷積核數(shù)量與前向傳遞推導(dǎo)過程中的特征圖數(shù)量,F(xiàn)ast-Unet模型參數(shù)的減少為路徑識(shí)別的實(shí)時(shí)性提供了保障。
為了進(jìn)一步加快運(yùn)行速度,本文將Unet及FCN中常用的反卷積上采樣操作替換為雙線性插值法,在保持精度水平基本不變的前提下,降低模型運(yùn)算量。Fast-Unet的網(wǎng)絡(luò)架構(gòu)如圖3所示。
遷移學(xué)習(xí)是深度學(xué)習(xí)模型運(yùn)用已有知識(shí)對新知識(shí)進(jìn)行學(xué)習(xí)的過程,其核心是尋找已有知識(shí)和新知識(shí)之間的相似性[29]。在遷移學(xué)習(xí)中,已有知識(shí)稱為源域,本文源域是棉花壟間導(dǎo)航路徑識(shí)別數(shù)據(jù)集的特征空間,目標(biāo)域是玉米與甘蔗壟間導(dǎo)航路徑數(shù)據(jù)集的特征空間。源域與目標(biāo)域不同但是有一定的關(guān)聯(lián)。
本文基于模型遷移,假設(shè)源域與目標(biāo)域可以共享一些模型參數(shù),將源域的特征空間上學(xué)習(xí)到的模型應(yīng)用于目標(biāo)域的特征空間上,再根據(jù)目標(biāo)域?qū)W習(xí)新的模型。
為了更好地理解本文所提出的Fast-Unet模型,并對其語義分割的視覺任務(wù)進(jìn)行可視化解釋,采用Grad-CAM方法,在沒有注意力機(jī)制的基礎(chǔ)上對圖像位置進(jìn)行判別,并且不需要修改網(wǎng)絡(luò)結(jié)構(gòu)與重新訓(xùn)練。
Grad-CAM使用流入最后一個(gè)卷積層的梯度信息為每個(gè)神經(jīng)元分配權(quán)重,并基于特定的關(guān)注進(jìn)行決策。本文只解釋輸出層的決策內(nèi)容。
對作物壟間導(dǎo)航路徑識(shí)別后,進(jìn)一步基于已有路徑提取壟間道路導(dǎo)航線。由于玉米與甘蔗的壟間導(dǎo)航路徑基本為直線,因此可以求取其偏航角。
首先,深度學(xué)習(xí)語義分割模型對壟間導(dǎo)航路徑進(jìn)行分割,生成由壟間導(dǎo)航路徑與背景所構(gòu)成的二值化圖像,如圖4b所示。選取二值化圖像中的最大連通區(qū)域作為壟間導(dǎo)航路徑,并使用Canny算子提取最大聯(lián)通區(qū)域的邊界,如圖4c所示。隨后,將邊界上的點(diǎn)求中值,生成路徑中心線散點(diǎn)圖,如圖4d所示。最后,將中心線散點(diǎn)圖以圖像長寬為坐標(biāo)軸進(jìn)行一元一次方程的最小二乘回歸,求出導(dǎo)航線方程,如圖4e所示。偏航角為回歸函數(shù)斜率系數(shù)倒數(shù)的反正切函數(shù)值,計(jì)算公式如下:
本文將由標(biāo)記數(shù)據(jù)回歸生成的導(dǎo)航線作為真值,與預(yù)測數(shù)據(jù)回歸生成的預(yù)測值進(jìn)行對比,計(jì)算偏航角的平均差距與偏航線位置的平均差異。
平均偏航角的計(jì)算公式為:
試驗(yàn)中模型訓(xùn)練的計(jì)算機(jī)處理器為Intel(R)Xeon(R)Gold 6147M,基準(zhǔn)頻率為2.50 GHz,圖形處理器(GPU)為NVIDIA TITAN RTX,內(nèi)存為256 GB,操作系統(tǒng)為Ubuntu 18.04.1。
為模擬實(shí)際場景,測試模型的計(jì)算機(jī)處理器為Intel(R)Core(R)i5-4258UM,基準(zhǔn)頻率為2.40 GHz的CPU的單一核心,無獨(dú)立GPU,內(nèi)存為8 GB,操作系統(tǒng)為macOS。
本文作物壟間導(dǎo)航路徑識(shí)別訓(xùn)練時(shí)所采用的超參數(shù)為:迭代次數(shù)(Epochs)為100次,最小批處理大?。∕iniBatch Size)為32張圖片。采用學(xué)習(xí)率衰減訓(xùn)練策略中的學(xué)習(xí)率調(diào)整策略,學(xué)習(xí)率分布如表1所示。
表1 學(xué)習(xí)率調(diào)整策略
田壟間導(dǎo)航路徑識(shí)別任務(wù)明確,與常規(guī)語義分割物體識(shí)別任務(wù)差異較大,同時(shí)棉花導(dǎo)航路徑數(shù)據(jù)充足,因此棉花數(shù)據(jù)集在訓(xùn)練時(shí)并沒有使用遷移學(xué)習(xí)。對玉米及甘蔗數(shù)據(jù)集進(jìn)行遷移學(xué)習(xí)訓(xùn)練時(shí),將在棉花數(shù)據(jù)集上通過直接訓(xùn)練得到的最佳模型參數(shù)作為新模型的初始訓(xùn)練參數(shù),其余訓(xùn)練參數(shù)和學(xué)習(xí)率策略與原始訓(xùn)練保持一致。
使用BCEDiceLoss作為訓(xùn)練的損失函數(shù)。該損失函數(shù)由Dice Loss和二分類交叉熵?fù)p失(Binary Cross Entropy Loss,BCELoss)按權(quán)重加權(quán)計(jì)算,具體公式如下:
DiceLoss從全局出發(fā)判斷預(yù)測圖的分類效果,而BCELoss從細(xì)節(jié)出發(fā)判斷每個(gè)像素點(diǎn)分類效果。本文對作物壟間導(dǎo)航路徑的識(shí)別需要注重全局判斷的準(zhǔn)確性,并兼顧細(xì)節(jié),所以在BCEDiceLoss的計(jì)算中賦予DiceLoss更高的權(quán)重,本文設(shè)=0.5。
訓(xùn)練過程中FCN模型、SegNet模型、Unet模型以及本文Fast-Unet模型的損失函數(shù)曲線,如圖5所示。
由圖5可以看出,訓(xùn)練集的損失函數(shù)隨著迭代次數(shù)的增加而下降。觀察模型在驗(yàn)證集上的損失計(jì)算可以發(fā)現(xiàn),在迭代次數(shù)達(dá)到30次左右時(shí),3個(gè)模型的驗(yàn)證集損失函數(shù)值已基本保持不變,繼續(xù)下調(diào)學(xué)習(xí)率也不能對模型產(chǎn)生明顯的改善。本文Fast-Unet模型的表現(xiàn)介于Unet和FCN模型之間。
分別對FCN、SegNet、Unet及Fast-Unet模型的最后一層卷積層進(jìn)行可視化,以棉花田壟間導(dǎo)航路徑識(shí)別為例得到如圖6所示的結(jié)果。
觀察模型的CAM圖發(fā)現(xiàn)3種模型,對于作物壟間道路的關(guān)注區(qū)域有所不同。從圖6d中觀察到FCN的關(guān)注區(qū)域集中于局部,各個(gè)尺度特征間的聯(lián)系有限,對全圖像尺度特征識(shí)別存在明顯缺陷。從圖6c和圖6e中觀察到SegNet和Unet的關(guān)注區(qū)域已將作物壟間導(dǎo)航路徑進(jìn)行覆蓋,更多聚焦在導(dǎo)航路徑周邊的作物上。可以判斷SegNet和Unet在識(shí)別時(shí)受較多深層尺度信息的干擾。網(wǎng)絡(luò)結(jié)構(gòu)在多次下采樣后讀取的信息更關(guān)注于圖像的大尺寸特征,而SegNet與Unet的網(wǎng)絡(luò)結(jié)構(gòu)在下采樣后保留了數(shù)倍于Fast-Unet的特征圖。本研究所用的數(shù)據(jù)集較小,輸入圖像尺寸小,當(dāng)模型存在大量深層特征圖時(shí)更容易發(fā)生偏向于大尺寸特征的過擬合。從圖6f中可以觀察到,本文Fast-Unet模型更關(guān)注于作物壟間導(dǎo)航路徑內(nèi)的特征,該優(yōu)勢來源于對Unet的結(jié)構(gòu)優(yōu)化,去除了大量的特征圖,僅保留了最重要的特征提取器,因此對特征的讀取也更接近圖6b的人工標(biāo)簽及圖6a的路徑彎曲特征。
為了驗(yàn)證模型在多種作物壟間導(dǎo)航路徑的識(shí)別與分割,以場景最為復(fù)雜的棉花壟間導(dǎo)航路徑數(shù)據(jù)集作為源域,向場景相對簡單的玉米與甘蔗導(dǎo)航路徑數(shù)據(jù)集的目標(biāo)域上遷移。遷移學(xué)習(xí)時(shí)訓(xùn)練的Fast-Unet的損失數(shù)如圖 7所示。
由圖7中可以觀察到,不論是玉米導(dǎo)航路徑還是甘蔗導(dǎo)航路徑,遷移學(xué)習(xí)過程的初始損失值都遠(yuǎn)低于非遷移學(xué)習(xí)過程的初始損失值,并且遷移學(xué)習(xí)中訓(xùn)練集與驗(yàn)證集的損失值差距小于非遷移數(shù)據(jù)集。此外,在使用遷移學(xué)習(xí)的過程中,模型損失函數(shù)在第30次迭代前基本收斂。
在非遷移學(xué)習(xí)情況下,驗(yàn)證集的損失函數(shù)值在第70次迭代后才開始快速下降,而第70次迭代時(shí)模型的訓(xùn)練學(xué)習(xí)率調(diào)整降至最低的0.000 1。低學(xué)習(xí)率訓(xùn)練的主要目的是對模型進(jìn)行微調(diào),進(jìn)一步改進(jìn)其性能。而在非遷移學(xué)習(xí)的環(huán)境中,最低學(xué)習(xí)率的步驟卻起到了降低損失函數(shù)值的主導(dǎo)作用。本文遷移學(xué)習(xí)所用的目標(biāo)域數(shù)據(jù)集較小,該現(xiàn)象很可能是源于模型對數(shù)據(jù)中非關(guān)鍵特征產(chǎn)生過擬合現(xiàn)象。本文對各模型識(shí)別過程使用Grad-CAM,對識(shí)別特征進(jìn)行可視化,進(jìn)而繼續(xù)解釋模型的關(guān)注重點(diǎn)。
從可視化結(jié)果(圖8)可以發(fā)現(xiàn),遷移學(xué)習(xí)模型與直接訓(xùn)練模型的最終關(guān)注點(diǎn)存在較大的差異。首先從圖8f和圖8h觀察到,基于遷移學(xué)習(xí)的方法擁有較大的激活區(qū)域,且激活的區(qū)域基本與識(shí)別的主干道路匹配,從甘蔗導(dǎo)航路徑Grad-CAM(圖8h)中可以觀察到,周邊的壟間導(dǎo)航路徑也同樣被關(guān)注,代表本文模型的輸出結(jié)果是先識(shí)別出所有的導(dǎo)航路徑后再進(jìn)行選擇需要輸出的部分。而從圖8e和圖8g中可以觀察到,直接由小樣本訓(xùn)練產(chǎn)生的模型則關(guān)注圖像的中下部位,玉米壟間路徑識(shí)別的強(qiáng)度較高,模型有過擬合可能,甘蔗導(dǎo)航路徑識(shí)別的總體信號(hào)則偏弱,模型對關(guān)鍵信息提取不足。
對預(yù)測結(jié)果的二值化圖進(jìn)行觀察發(fā)現(xiàn),圖8f相較于圖8e與圖8b的標(biāo)簽更接近,圖8h相較于圖8g與標(biāo)注的道路數(shù)據(jù)真值更為相似。更適合作為導(dǎo)航路徑。
以棉花棉花壟間導(dǎo)航路徑數(shù)據(jù)集以96×96(像素)的RGB圖片作為輸入,試驗(yàn)結(jié)果如表2所示。可以看出,Unet網(wǎng)絡(luò)在精度、推理速度、模型參數(shù)量3個(gè)方面相較于FCN具有一定的優(yōu)勢。Unet網(wǎng)絡(luò)的平均交并比、推理速度分別為0.805、9.98幀/s,相對于FCN模型分別提高4.14%和34.50%;Unet網(wǎng)絡(luò)的模型參數(shù)量為7.85×106,相較于FCN網(wǎng)絡(luò)減少了60.95%。
本文Fast-Unet模型在精度上高于FCN但是略低于Unet,而模型參數(shù)量僅為Unet網(wǎng)絡(luò)的6.24%。在單個(gè)CPU核上的推理速度是Unet網(wǎng)絡(luò)的6.48倍。
表2 模型性能對比
基于棉花壟間導(dǎo)航路徑數(shù)據(jù)集訓(xùn)練的Fast-Unet模型遷移學(xué)習(xí)后在玉米和甘蔗數(shù)據(jù)集的模型精度表現(xiàn)如下表 3所示。
表3 Fast-Unet遷移學(xué)習(xí)MIoU結(jié)果比較
甘蔗與玉米導(dǎo)航路徑數(shù)據(jù)集在使用遷移學(xué)習(xí)方法訓(xùn)練所得模型的MIoU都優(yōu)于非遷移學(xué)習(xí)訓(xùn)練模型。在SegNet、FCN、Unet網(wǎng)絡(luò)中,甘蔗導(dǎo)航路徑遷移學(xué)習(xí)的MIoU相較非遷移學(xué)習(xí)分別提升214.97%、435.63%、275.38%;玉米導(dǎo)航路徑遷移學(xué)習(xí)的MIoU相較非遷移學(xué)習(xí)分別提升56.64%、21.05%、10.16%。在遷移學(xué)習(xí)后,本文Fast-Unet模型和Unet模型的MIoU仍處于類似水平。在識(shí)別難度相對較低的甘蔗導(dǎo)航路徑場景中,F(xiàn)ast-Unet在遷移學(xué)習(xí)與非遷移學(xué)習(xí)中都取得了更高M(jìn)IoU,相較于Unet分別提升了0.43%、38.77%。
棉花田壟間的導(dǎo)航因?yàn)榇嬖谛鼍皟?nèi)道路曲折的問題,不適宜使用最小二乘回歸方法生成導(dǎo)航的回歸線并計(jì)算偏航角,針對此類情況,直接選取生成路徑的中線。甘蔗與玉米的導(dǎo)航線提取結(jié)果具體如表4所示。
表4 各種模型對不同作物條件下的偏航角統(tǒng)計(jì)
從表4可以看出,Unet與Fast-Unet的導(dǎo)航性能基本沒有差異,導(dǎo)航線的精度表現(xiàn)與導(dǎo)航路徑的MIoU的結(jié)果類似。Unet與Fast-Unet模型在甘蔗和玉米田的偏航角平均僅相差0.066、0.003。
此外,本文的甘蔗導(dǎo)航路徑識(shí)別因?yàn)樽陨硖卣髅黠@,所以相較于玉米導(dǎo)航路徑識(shí)別精度更高。而大部分作物壟間導(dǎo)航路徑的識(shí)別難度在甘蔗導(dǎo)航路徑識(shí)別與玉米導(dǎo)航路徑識(shí)別之間,因此可以推斷本文提出的Fast-Unet模型在遷移學(xué)習(xí)的條件下能夠準(zhǔn)確識(shí)別其他類別作物的導(dǎo)航路徑并計(jì)算偏航角。
本研究針對智能農(nóng)業(yè)裝備在田壟間作業(yè)的導(dǎo)航問題,在語義分割算法Unet的基礎(chǔ)上通過剪枝與優(yōu)化模型結(jié)構(gòu)提出了Fast-Unet模型。并通過遷移學(xué)習(xí)實(shí)現(xiàn)在棉花、甘蔗以及玉米3種作物在田間自然光照及作物遮擋道路條件下的壟間導(dǎo)航路徑的有效識(shí)別。主要結(jié)論如下:
1)本研究在Unet的基礎(chǔ)上提出了Fast-Unet模型,模型對棉花、玉米、甘蔗導(dǎo)航路徑識(shí)別精度MIoU分別為0.791、0.881和0.940,在保證精度的前提下,F(xiàn)ast-Unet模型的參數(shù)數(shù)量為Unet的6.24%,推理速度為Unet的6.48倍,單核CPU的處理速度為64.47 幀/s,滿足嵌入式環(huán)境下的實(shí)時(shí)性需求。
2)使用遷移學(xué)習(xí)將在大樣本棉花數(shù)據(jù)集上訓(xùn)練完成的模型遷移至甘蔗和玉米的小樣本數(shù)據(jù)集。驗(yàn)證通過小樣本遷移學(xué)習(xí)進(jìn)行拓展作物適用范圍的可行性,提出了壟間導(dǎo)航路徑識(shí)別的通用方法。
3)采用Grad-CAM方法對研究過程中的模型差異及是否使用遷移學(xué)習(xí)進(jìn)行可視化解釋,討論了不同模型架構(gòu)在進(jìn)行導(dǎo)航路徑識(shí)別時(shí)的差異來源。從激活區(qū)域的位置與強(qiáng)度出發(fā)進(jìn)一步解釋了模型的關(guān)注點(diǎn),驗(yàn)證了Fast-Unet設(shè)計(jì)思路的合理性。通過Grad-CAM解決了深度學(xué)習(xí)語義分割算法在作物壟間導(dǎo)航路徑識(shí)別過程中難以得到較好解釋的問題。
4)通過Canny邊緣檢測從模型識(shí)別的導(dǎo)航路徑中提取出導(dǎo)航路徑中線,作為農(nóng)機(jī)導(dǎo)航線。對于甘蔗及玉米等導(dǎo)航路徑以直線為主的場景,將農(nóng)機(jī)導(dǎo)航線通過最小二乘法回歸即可計(jì)算出農(nóng)機(jī)在田間移動(dòng)時(shí)所需的偏航角。
[1] 張漫,季宇寒,李世超,等. 農(nóng)業(yè)機(jī)械導(dǎo)航技術(shù)研究進(jìn)展[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2020,51(4):1-18.
Zhang Man, Ji Yuhan, Li Shichao, et al. Research progress of agricultural machinery navigation technology[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(4): 1-18. (in Chinese with English abstract)
[2] 胡靜濤,高雷,白曉平,等. 農(nóng)業(yè)機(jī)械自動(dòng)導(dǎo)航技術(shù)研究進(jìn)展[J]. 農(nóng)業(yè)工程學(xué)報(bào),2015,31(10):1-10.
Hu Jingtao, Gao Lei, Bai Xiaoping, et al. Review of research on automatic guidance of agricultural vehicles[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(10): 1-10. (in Chinese with English abstract)
[3] Gao X, Li J, Fan L. Review of wheeled mobile robots' navigation problems and application prospects in agriculture[J]. IEEE Access, 2018, 6: 49248-68.
[4] 張雄楚. 棉花鋪膜播種作業(yè)拖拉機(jī)視覺導(dǎo)航路徑檢測與控制算法研究[D]. 石河子;石河子大學(xué),2019.
Zhang Xiongchu. Study on the Visual Navigation Path Detection and Control Algorithm of the Tractor in Cotton Film-Spreading Operation[D]. Shihezi: Shihezi University, 2019. (in Chinese with English abstract)
[5] 孟慶寬,張漫,仇瑞承,等. 基于改進(jìn)遺傳算法的農(nóng)機(jī)具視覺導(dǎo)航線檢測[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2014,45(10):39-46.
Meng Qingkuan, Zhang Man, Qiu Ruicheng, et al. Navigation line detection for farm machinery based on Improved genetic algorithm[J]. Transactions of the Chinese Society for Agricultural Machinery, 2014, 45(10): 39-46. (in Chinese with English abstract)
[6] 宮金良,王祥祥,張彥斐,等. 基于邊緣檢測和區(qū)域定位的玉米根莖導(dǎo)航線提取方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2020,51(10):26-33.
Gong Jinliang, Wang Xiangxiang, Zhang Yanfei, et al. Extraction method of corn rhizome navigation lines based on edge detection and area localization[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(10): 26-33. (in Chinese with English abstract)
[7] 張雄楚,陳兵旗,李景彬,等. 紅棗收獲機(jī)視覺導(dǎo)航路徑檢測[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(13):133-40.
Zhang Xiongchu, Chen Bingqi, Li Jingbin, et al. Path detection of visual navigation for jujube harvesters[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(13): 133-40. (in Chinese with English abstract)
[8] 劉路,潘艷娟,陳志健,等. 高遮擋環(huán)境下玉米植保機(jī)器人作物行間導(dǎo)航研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2020,51(10):18-24.
Liu Lu, Pan Yanjuan, Chen Zhijian, et al. Inter-rows navigation method for corn crop protection vehicles under high occlusion environment[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(10): 18-24. (in Chinese with English abstract)
[9] 宋懷波,何東健,辛湘俊. 基于機(jī)器視覺的非結(jié)構(gòu)化道路檢測與障礙物識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2011,27(6):225-230.
Song Huaibo, He Dongjian, Xin Xiangjun. Unstructured road detection and obstacle recognition algorithm based on machine vision[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2011, 27(6): 225-230. (in Chinese with English abstract)
[10] 趙立明,葉川,張毅,等. 非結(jié)構(gòu)化環(huán)境下機(jī)器人視覺導(dǎo)航的路徑識(shí)別方法[J]. 光學(xué)學(xué)報(bào),2018,38(8):267-276.
Zhao Liming, Ye Chuan, Zhang Yi, et al. Path recognition method of robot vision navigation in unstructured environments[J]. Acta Optica Sinica, 2018, 38(8): 267-276. (in Chinese with English abstract)
[11] 呂艷鵬,潘玉田. 基于BP神經(jīng)網(wǎng)絡(luò)的非結(jié)構(gòu)化道路識(shí)別[J]. 機(jī)械工程與自動(dòng)化,2014(3):178-180.
Lv Yanpeng, Pan Yutian. Unstructured road detection based on BP neural network[J]. Mechanical Engineering & Automation, 2014(3): 178-180. (in Chinese with English abstract)
[12] 韓樹豐,何勇,方慧. 農(nóng)機(jī)自動(dòng)導(dǎo)航及無人駕駛車輛的發(fā)展綜述[J]. 浙江大學(xué)學(xué)報(bào):農(nóng)業(yè)與生命科學(xué)版,2018,44(4):381-391,515.
Han Shufeng, He Yong, Fang Hui. Recent development in automatic guidance and autonomous vehicle for agriculture: A review[J]. Journal of Zhejiang University: Agriculture & Life Sciences, 2018, 44(4): 381-391, 515. (in English with Chinese abstract)
[13] Lin Y, Chen S. Development of navigation system for tea field machine using semantic segmentation[J]. IFAC PapersOnLine, 2019, 52(30): 108-113.
[14] 李云伍,徐俊杰,王銘楓,等. 丘陵山區(qū)田間道路自主行駛轉(zhuǎn)運(yùn)車及其視覺導(dǎo)航系統(tǒng)研制[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(1):52-61.
Li Yunwu, Yu Junjie, Wang Mingfeng, et al. Development of autonomous driving transfer trolley on field roads and its visual navigation system for hilly areas[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(1): 52-61. (in Chinese with English abstract)
[15] 楊洋,張博立,查家翼,等. 玉米行間導(dǎo)航線實(shí)時(shí)提取[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(12):162-171.
Yang Yang, Zhang Boli, Zha Jiayi, et al. Real-time extraction of navigation line between corn rows[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(12): 162-171. (in Chinese with English abstract)
[16] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436.
[17] Saleem M, Potgieter J, Arif K. Automation in agriculture by machine and deep learning techniques: a review of recent developments[J]. Precision Agriculture, 2021, 22(6), 2253-2091.
[18] Kamilaris A, Prenafeta-boldú F. A review of the use of convolutional neural networks in agriculture[J]. The Journal of Agricultural Science, 2018, 156(3): 312-322.
[19] 鐘昌源,胡澤林,李淼,等. 基于分組注意力模塊的實(shí)時(shí)農(nóng)作物病害葉片語義分割模型[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(4):208-215.
Zhong Changyuan, Hu Zelin, Li Miao, et al. Real-time semantic segmentation model for crop disease leaves using group attention module[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(4): 208-215. (in Chinese with English abstract)
[20] 張新鈺,高洪波,趙建輝,等. 基于深度學(xué)習(xí)的自動(dòng)駕駛技術(shù)綜述[J]. 清華大學(xué)學(xué)報(bào):自然科學(xué)版,2018,58(4):438-444.
Zhang Xinyu, Gao Hongbo, Zhao Jianhui, et al. Overview of deep learning intelligent driving methods[J]. Journal of Tsinghua University: Science and Technology, 2018, 58(4): 438-444. (in Chinese with English abstract)
[21] Lin J, Wang W, HuangS, et al. Learning based semantic segmentation for robot navigation in outdoor environment[C]// Proceedings of the Joint World Congress of International Fuzzy Systems Association & International Conference on Soft Computing & Intelligent Systems, F, 2017.
[22] 宋廣虎,馮全,海洋,等. 采用深度學(xué)習(xí)法優(yōu)化的葡萄園行間路徑檢測[J]. 林業(yè)機(jī)械與木工設(shè)備,2019,47(7):24-28.
Song Guanghu, Feng Quan, Hai Yang, et al. Vineyard inter-row path detection based on deep learning[J]. Forestry Machinery & Woodworking Equipment, 2019, 47 (7): 24-28. (in Chinese with English abstract)
[23] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(4): 640-651.
[24] 李云伍,徐俊杰,劉得雄,等. 基于改進(jìn)空洞卷積神經(jīng)網(wǎng)絡(luò)的丘陵山區(qū)田間道路場景識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(7):150-159.
Li Yunwu, Xu Junjie, Liu Dexiong, et al. Field road scene recognition in hilly regions based on improved dilated convolutional networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(7): 150-159. (in Chinese with English abstract)
[25] Badrinarayanan V, Kendall A, Cipolla R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(12): 2481-2495.
[26] Ronneberger O, Fischer P, Brox T. U-net: convolutional networks for biomedical image segmentation[J]. Springer International Publishing, 2015, 9351: 234-241.
[27] Selvarajur R, Cogswell M, Das A, et al. Grad-CAM: Visual explanations from deep networks via gradient-based localization[J]. International Journal of Computer Vision, 2020, 128(2): 336-359.
[28] 胡濤,李衛(wèi)華,秦先祥. 圖像語義分割方法綜述[J]. 測控技術(shù),2019,38(7):8-12.
Hu Tao, Li Weihua, Qin Xianxiang. A review on image semantic segmentation[J]. Measurement & Control Technology, 2019, 38(7): 8-12. (in Chinese with English abstract)
[29] Bosilj P, Aptoula E, Duckett T, et al. Transfer learning between crop types for semantic segmentation of crops versus weeds in precision agriculture[J]. Journal of Field Robotics, 2020, 37(1): 7-19.
Navigation path recognition between crop ridges based on semantic segmentation
Rao Xiuqin1,2, Zhu Yihang1,2, Zhang Yanning1,2, Yang Haitao3, Zhang Xiaomin1,2, Lin Yangyang1,2, Geng Jinfeng1,4,5, Ying Yibin1,2
(1.,,310058,; 2.,,310058,; 3.,,310058,; 4.,,277101,; 5..,.,321300,)
A navigation path has been widely considered as one of the most important sub-tasks of intelligent agricultural equipment in field operations. However, there are still some challenges remaining on the recognition of current navigation paths between crop ridges, including the accuracy, real-time performance, generalization, and difficulty in the interpretation of deep learning models. In this research, a new Fast-Unet model was proposed to accurately and rapidly recognize the navigation path between crop ridges using semantic segmentation. The jump connection of the Unet model was also retained to generate the navigation line and yaw angle using the least square regression. Specifically, a cotton dataset of inter-ridge navigation path consisted of 800 images, 640 of which was set as the training set, 160 of that as the validation set. Subsequently, two datasets of 100 images each were constructed for the navigation paths of sugarcane and cotton ridges, which were divided into 50 images in the training set, and 50 images in the verification set. The training strategy was selected as the data augmentation and learning rate adjustment. The training order was ranked as the corn first, and then the sugarcane dataset. The Mean Intersection over Union (MIoU) was utilized as the accuracy indicator of the Fast-Unet model, which was 0.791 for cotton, 0.881 for maize, and 0.940 for sugarcane. Furthermore, the least-squares regression was selected to calculate the navigation path of maize and sugarcane with good linearity between the ridges. Additionally, the navigation line was selected to further calculate the yaw angle. The mean difference between the predicted yaw angle of maize and sugarcane navigation path and the labeled were 0.999° and 0.376° under the Fast-Unet model, respectively. In terms of real-time performance, the inference speed of the Fast-Unet model was 6.48 times higher than that of Unet. The inference speed was 64.67 frames per second to process the RGB image data on a single-core CPU, while the number of parameters of the Fast-Unet model was 6.24% of that of Unet model. Correspondingly, the computing devices were deployed with weak computing power, thereby performing real-time calculations. A gradient weighted class activation mapping(Grad-CAM) was also used to visually represent the final feature extraction of model recognition and transfer learning. More importantly, the special features were highlighted on the navigation path between crop ridges in the optimized Fast-Unet structure, concurrently to remove a large number of redundant feature maps, while retaining only the most crucial feature extractors. The transfer learning also presented a larger activation area than the direct training, where the activated area matched the main road to be identified. In summary, the improved model can be fully realized the real-time recognition of maize navigation path. The finding can also provide technical and theoretical support to the development of navigation equipment for intelligent agricultural machinery in the field.
image processing; navigation; path recognition; semantic segmentation; transfer learning; deep learning
饒秀勤,朱逸航,張延寧,等. 基于語義分割的作物壟間導(dǎo)航路徑識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(20):179-186.doi:10.11975/j.issn.1002-6819.2021.20.020 http://www.tcsae.org
Rao Xiuqin, Zhu Yihang, Zhang Yanning, et al. Navigation path recognition between crop ridges based on semantic segmentation[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(20): 179-186. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.20.020 http://www.tcsae.org
2021-06-10
2021-08-05
國家重點(diǎn)研發(fā)計(jì)劃(2017YFD0700901)
饒秀勤,博士,教授,博士生導(dǎo)師,研究方向?yàn)橹悄苻r(nóng)業(yè)裝備。Email:xqrao@zju.edu.cn
10.11975/j.issn.1002-6819.2021.20.020
S24
A
1002-6819(2021)-20-0179-08