彭明霞,夏俊芳,彭 輝
融合FPN的Faster R-CNN復(fù)雜背景下棉田雜草高效識別方法
彭明霞1,夏俊芳2※,彭 輝1
(1. 華中農(nóng)業(yè)大學(xué)信息學(xué)院,武漢 430070; 2. 華中農(nóng)業(yè)大學(xué)工學(xué)院,武漢 430070)
為實現(xiàn)田間條件下快速、準(zhǔn)確識別棉花與雜草,該文以自然光照下田間棉花與雜草為研究對象,采用垂直向下拍攝的方式獲取棉花雜草視頻,按1幀/s的速率從視頻中提取圖像,在人工去除冗余度過多的圖片后,建立1 000幅圖片的數(shù)據(jù)集。對比了Faster R-CNN和YOLOv32種典型卷積神經(jīng)網(wǎng)絡(luò),將Faster R-CNN卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型引入到棉花雜草圖像識別中,并提出一種結(jié)構(gòu)優(yōu)化的方法,使之適用于復(fù)雜背景下的棉田雜草識別。該文選用殘差卷積網(wǎng)絡(luò)提取圖像特征,Max-pooling 為下采樣方法,RPN網(wǎng)絡(luò)中引入特征金字塔網(wǎng)絡(luò)生成目標(biāo)候選框,對卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進行優(yōu)化。在使用700幅圖片進行訓(xùn)練后,通過200 幅田間棉花雜草圖像識別測試,結(jié)果表明:該方法的平均目標(biāo)識別準(zhǔn)確率達95.5%,識別單幅圖像的平均耗時為1.51 s,采用GPU 硬件加速后識別單幅圖像的平均耗時縮短為0.09 s。優(yōu)化后的Faster R-CNN卷積神經(jīng)網(wǎng)絡(luò)相對于YOLOv3平均正確率MAP高0.3以上。特別是對于小目標(biāo)對象,其平均正確率之差接近0.6。所提方法對復(fù)雜背景下棉花雜草有較好的檢測效果,可為精確除草提供參考。
棉花;卷積神經(jīng)網(wǎng)絡(luò);機器視覺;深度學(xué)習(xí);圖像識別;雜草識別;Faster R-CNN
棉花是中國重要的經(jīng)濟作物之一,其生長過程常會遭遇病、蟲和雜草危害等生物逆境。雜草會與棉花競爭營養(yǎng)、水分、光照和生長發(fā)育空間,并且傳播病蟲害,常年造成的損失達到14%~16%,嚴(yán)重影響棉花的優(yōu)質(zhì)、高效生產(chǎn)[1]。及時有效地去除棉花幼苗期雜草是保證棉花高產(chǎn)穩(wěn)產(chǎn)的一項重要措施,目前采用的除草方法有人工除草、機械除草和化學(xué)除草?;瘜W(xué)除草由于其高效性,已成為國內(nèi)外田間除草的主要方式,但會對生態(tài)環(huán)境造成危害。2013年農(nóng)業(yè)部明確了通過技術(shù)手段和管理方式來治理農(nóng)業(yè)面源污染[2],實現(xiàn)農(nóng)業(yè)的可持續(xù)發(fā)展。在技術(shù)上,研究人員針對粗放噴灑所引起的浪費和殘留問題提出了變量噴藥的概念,并進行了相關(guān)的試驗和研究[3]。變量噴藥是基于精準(zhǔn)農(nóng)業(yè)發(fā)展起來的一種技術(shù),根據(jù)雜草在田間的位置、種類和密度,對除草劑噴灑的時機和劑量進行變量調(diào)節(jié),從而達到減少除草劑用量,提高雜草去除率的效果[4]。要實現(xiàn)變量噴藥,需要解決的一個關(guān)鍵問題是如何實現(xiàn)作物和雜草的實時精確識別。
早期的雜草識別研究主要從圖像中提取顏色、紋理和形態(tài)等特征,根據(jù)作物和雜草在圖像中的不同特征對各類目標(biāo)進行區(qū)分[5-8]。這些方法準(zhǔn)確率較低,雖然基本實現(xiàn)了作物與雜草的識別,但難以實際應(yīng)用。
隨著機器學(xué)習(xí)技術(shù)的發(fā)展,一些具有數(shù)據(jù)學(xué)習(xí)能力的網(wǎng)絡(luò)模型被引入到雜草識別研究中。如神經(jīng)網(wǎng)絡(luò)、遺傳算法、決策樹和支持向量機等。該類方法先對圖像進行預(yù)處理,從背景中分離出目標(biāo)作物和雜草,以向量的形式記錄顏色、紋理、形態(tài)、光譜等特征,然后選擇適當(dāng)?shù)姆诸惼鬟M行訓(xùn)練及檢測[9-14]。特征的選取和圖像的預(yù)處理效果決定了這類方法的識別效果,在雜草與作物密集分布、強光及陰影等情況下,準(zhǔn)確率仍然不高。
相比上述方法,近幾年興起的深度學(xué)習(xí)方法對圖像具有極強的數(shù)據(jù)表達能力。深度學(xué)習(xí)已在人體行為識別以及農(nóng)作物果實識別和雜草識別等方面,獲得了較好的效果。傅隆生等[15]基于卷積神經(jīng)網(wǎng)絡(luò)的田間多簇獼猴桃圖像識別方法表明,卷積神經(jīng)網(wǎng)絡(luò)在田間果實識別方面具有良好的應(yīng)用前景。基于卷積神經(jīng)網(wǎng)絡(luò)、哈希碼以及多尺度分層特征識別玉米雜草等證明了CNN(convolutional neural networks)在田間雜草圖像識別上的有效性[16-17];熊俊濤等[18]利用深度卷積網(wǎng)絡(luò)對自然環(huán)境下綠色柑橘進行有效識別;王生生等[19]提出一種以小批量數(shù)據(jù)作為輸入的輕量和積網(wǎng)絡(luò),結(jié)合均值聚類算法應(yīng)用于無人機圖像中的雜草識別,取得了良好的效果。以上研究的開展為CNN 應(yīng)用于田間作物雜草識別提供了參考和可行性依據(jù),同時也表明CNN 在圖像識別中可以克服傳統(tǒng)方法的不足。
棉花與其他作物的田間雜草種類不同,植株形態(tài)具有明顯差異,實驗室測試結(jié)果表明,現(xiàn)有方法應(yīng)用于棉田雜草時效果并不理想。目前尚未有CNN網(wǎng)絡(luò)用于棉花田間雜草識別的相關(guān)報導(dǎo)。本文以2~5葉期棉花和雜草為研究對象,提出基于Faster R-CNN模型的棉花雜草識別算法。該研究依賴于目標(biāo)檢測的深度學(xué)習(xí)框架,在采集大量棉花田間樣本圖像的基礎(chǔ)上,通過建立深度卷積網(wǎng)絡(luò)ResNet50對復(fù)雜背景下的棉田雜草進行特征提取,避免人為主觀選取目標(biāo)特征影響識別結(jié)果。然后在ImageNet預(yù)訓(xùn)練的多層卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上進行參數(shù)微調(diào),生成棉花和雜草的目標(biāo)識別模型,最后利用訓(xùn)練后的模型對棉花雜草圖像進行測試,對每張圖像上的雜草和棉花目標(biāo)標(biāo)注類別、具體位置以及置信度,從而建立一個基于Faster R-CNN的棉田雜草圖像識別系統(tǒng),以實現(xiàn)自然光照環(huán)境下背景較為復(fù)雜的棉田雜草快速有效識別。
該研究以棉花及其伴生雜草作為研究對象進行識別試驗,并分析棉田雜草識別系統(tǒng)性能。圖像采集工作于2015 年6 月在華中農(nóng)業(yè)大學(xué)試驗田中完成,采集設(shè)備為普通相機,主要參數(shù)為:CCD傳感器,最大分辨率1 920×1 080 像素,幀率25幀/s,USB3.0 接口。相機距地面80 cm,采用垂直方式采集視頻圖像。當(dāng)棉花幼苗處于2~5葉期間進行4次圖像采集,所采集的樣本圖像為幼苗期棉花及此階段常見的伴生雜草,包括馬齒莧、馬唐、馬蘭、牛筋草、反枝莧、香附子和藎草等。每次圖像采集均在晴天、陰天不同光線狀態(tài)下進行,代表田間除草作業(yè)時可能的環(huán)境條件。初始采集到的原始視頻圖像分辨率為1 920×1 080像素。本文建立的樣本集均從真實棉田環(huán)境中采集,棉花及雜草生長位置復(fù)雜,采集的大部分圖像中包含復(fù)雜背景、棉花和雜草的多個目標(biāo),這與實際應(yīng)用情況相同,如圖1所示。
a. 晴天a. Sunnyb. 陰天b. Cloudy
按1幀/s的間隔從采集的視頻中提取出5 000幅靜態(tài)圖像。為使訓(xùn)練集樣本圖像多樣化,避免圖像冗余,盡量減少過擬合,加強模型的穩(wěn)定性,人工對靜態(tài)圖像進行篩選,建立一個1 000幅圖片的樣本集。
由于卷積殘差網(wǎng)絡(luò)ResNet50能夠自動從不同尺寸圖像中提取特征,所以樣本圖像可直接用于本文方法的訓(xùn)練與測試,不需要進行縮放等預(yù)處理操作。直接采用LabelImg按照PASCAL VOC2007的格式手工標(biāo)注圖片中的棉花和雜草目標(biāo),獲得每幅樣本圖像的標(biāo)簽矩陣,在實際使用時根據(jù)不同框架支持的標(biāo)注格式進行轉(zhuǎn)換。
將全部圖像樣本分成訓(xùn)練集、驗證集和測試集。其中訓(xùn)練集700張照片,測試集200張,驗證集100張。這幾個集合中的圖片互不重疊,訓(xùn)練集用于訓(xùn)練模型參數(shù),測試集用于訓(xùn)練完成后評估模型對樣本的泛化誤差,驗證集用于訓(xùn)練過程中對模型的超參數(shù)進行調(diào)優(yōu)。
試驗完成后,采用深度學(xué)習(xí)在目標(biāo)識別領(lǐng)域應(yīng)用典型評測指標(biāo)來衡量模型檢測器性能。涉及到的指標(biāo)有平均準(zhǔn)確率AP、平均召回率AR、精度損失曲線(F值曲線)、檢測時間等。
目標(biāo)檢測模型分為兩類。一類是將物體識別和物體定位分2個步驟完成,這一類的典型代表是R-CNN, Fast R-CNN, FasterR-CNN家族。該類框架識別錯誤率低,漏識率也低,且可以滿足實時檢測場景。另一類典型代表是YOLO(you only look once),SSD(single shot multibox detector),YOLOv2,YOLOv3[20-23]等將物體分類和物體定位在一個步驟中完成。YOLO直接在輸出層回歸目標(biāo)的位置和所屬類別,可實現(xiàn)45幀/s的運算速度。盡管這些方法識別速度很快,但是準(zhǔn)確率比Faster R-CNN要低。因此本文選取Faster R-CNN模型框架進行棉花雜草圖像的識別。
目前Faster R-CNN[24]在目標(biāo)檢測領(lǐng)域被廣泛應(yīng)用于車輛識別和人體姿態(tài)行為監(jiān)測等方面。本文對其重要結(jié)構(gòu)參數(shù)和訓(xùn)練策略進行優(yōu)化,獲得適合棉花雜草圖像識別的模型架構(gòu)。試驗?zāi)康氖窃趫D像中識別出棉花與雜草、標(biāo)定其在圖像上的位置并給出類別置信度的預(yù)測。
Faster R-CNN主要由候選區(qū)域的深度全卷積網(wǎng)路RPN(region proposal network)和快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Fast R-CNN)2個模塊組成?;贔aster R-CNN的棉花雜草識別檢測由以下4個部分組成:棉花雜草候選區(qū)域生成、棉花雜草特征提取、棉花雜草分類和邊框回歸。圖2為本文Faster R-CNN算法原理圖。
首先,對于任意大小的棉花雜草圖像將其歸一化大小為1 000×600像素。然后,通過CNN中的卷積層和池化層產(chǎn)生特征映射圖(feature map)。本研究中,為了提高圖像中雜草和棉花目標(biāo)識別精度,沒有選取VGG16網(wǎng)絡(luò)作為基礎(chǔ)特征網(wǎng)絡(luò)提取圖像特征。在目標(biāo)檢測、圖像分割、視頻分析和識別等其他領(lǐng)域,將Faster-RCNN中的VGG16替換成殘差網(wǎng)絡(luò)(ResNet)可以提高系統(tǒng)性能。PASCAL VOC2007數(shù)據(jù)集上,通過將VGG16替換成ResNet101,MAP從73.2%提高到76.4%,PASACAL VOC 2012上從70.4%提高到73.8%[25]。由于棉花雜草圖像中目標(biāo)類別和數(shù)量不是很多,故選取ResNet50網(wǎng)絡(luò)提取圖像特征。在所有Feature Map上通過候選區(qū)域生成網(wǎng)絡(luò)RPN和FPN(feature pyramid networks)網(wǎng)絡(luò)提取前景目標(biāo)候選區(qū)域(region of interest,ROI)和區(qū)域得分,得分最高的區(qū)域作為最終的棉花和雜草候選區(qū)域。
圖2 Faster R-CNN的算法原理圖
任意一個目標(biāo)候選區(qū)域經(jīng)過ROIAlign層映射到Feature Map的相應(yīng)位置上,并對該區(qū)域下采樣成7×7大小的特征圖,然后對每個輸入的特征圖通過全連接層提取成7×7×256維度的特征向量。最后將這個特征向量輸入到2個同級的輸出層:一個是分類層,判斷目標(biāo)是否是棉花或雜草;另一個是邊界回歸層,主要對ROI邊框位置和大小進行微調(diào)。
在整個過程中,使用的Feature Map根據(jù)物體尺寸的不同而改變。物體尺寸較大時,采用高層的特征(C4, C5),而物體尺寸較小時則采用底層的特征(C1, C2)。
1.3.2 候選區(qū)域的深度全卷積網(wǎng)絡(luò)RPN
1)RPN(region proposal network)
RPN是一個全卷積網(wǎng)絡(luò),經(jīng)過端到端的訓(xùn)練,生成高質(zhì)量的棉花雜草前景目標(biāo)候選框,同時完成棉花雜草在每個位置的目標(biāo)邊界以及目標(biāo)分?jǐn)?shù)預(yù)測,該網(wǎng)絡(luò)與棉花雜草檢測網(wǎng)絡(luò)共享圖像的卷積特征?;赗esNet50的殘差網(wǎng)絡(luò)和Faster R-CNN模型共享C2到C5的卷積層。
2)FPN(feature pyramid network)
2017年Lin等[26]提出的特征金字塔網(wǎng)絡(luò)算法大大提高了目標(biāo)檢測精度。FPN算法同時利用低層特征高分辨率和高層特征的高語義信息,通過融合這些不同層的特征達到預(yù)測的效果。為了提高棉花雜草圖像中目標(biāo)檢測的精度,本文在RPN網(wǎng)絡(luò)中采用FPN融合不同層的特征生成感興趣的目標(biāo)候選框。FPN把特征圖設(shè)計成多尺度的金字塔結(jié)構(gòu),每一層金字塔應(yīng)用單一尺度的錨(anchor),對應(yīng)ResNet50每一層金字塔{P2, P3, P4, P5, P6}分別對應(yīng)的anchor尺度為{32×32, 64×64, 128×128, 256×256, 512×512},使用3種比例{1:2, 1:1, 2:1},共用15種類型的Anchor對棉花雜草圖像中的目標(biāo)對象和背景進行預(yù)測,生成感興趣的目標(biāo)(棉花,雜草)候選框。RPN框架如圖3所示。
圖3 RPN框架
3)RoI Align模塊
實際棉田雜草圖像中存在大量目標(biāo)偏小的雜草,為了提高棉花和雜草目標(biāo)的識別精度,本文沒有采用FasterR-CNN原文中使用的ROI Pooling。ROI Pooling根據(jù)輸入的image,將ROI映射到feature map對應(yīng)的位置;將映射后的區(qū)域劃分為相同大小的sections,其數(shù)量和輸出的維度相同。對每個section進行max pooling操作;在此過程中經(jīng)過2次量化操作。該量化操作使得候選框和最開始回歸出來的位置有一定的偏差,這個偏差會影響檢測準(zhǔn)確度。本文采用ROI Align取消量化操作,使用雙線性內(nèi)插的方法獲得坐標(biāo)為浮點數(shù)的像素點上的圖像數(shù)值,解決ROI Pooling操作中2次量化造成的區(qū)域不匹配的問題[27]。
RPN的結(jié)果輸入ROI Align層,映射成7×7的特征。然后所有輸出經(jīng)過2個全連接層(Fully-connected Layer),再經(jīng)分類層和邊界回歸層得到最終結(jié)果。分類層給出候選區(qū)域中的物體是棉花和雜草的概率,邊界回歸層給出棉花和雜草候選區(qū)域的坐標(biāo)。
本文利用Pytorch以及香港中文大學(xué)提供的mmdetection開源框架,在Ubuntu16.04系統(tǒng)下進行試驗。試驗所用機器的配置為:處理器為Intel(R) Core(TM) i7-7700K,主頻4.20GHz,硬盤8T,內(nèi)存32G,顯卡NVIDIA TITAN Xp (12GB)。所用軟件環(huán)境為:ubuntu16.04,Pytorch1.0.0,Python3.6。
2.2.1 模型訓(xùn)練
首先配置mmdetection的運行環(huán)境,并將篩選出來的棉花雜草圖像數(shù)據(jù)按照PASCAL VOC2007標(biāo)準(zhǔn)進行標(biāo)注和存儲。在訓(xùn)練模型和優(yōu)化參數(shù)之前,選擇模型訓(xùn)練方式,并修改相應(yīng)配置文件。
Faster R-CNN的訓(xùn)練方式主要有2種:交替訓(xùn)練和近似聯(lián)合訓(xùn)練。交替訓(xùn)練方式訓(xùn)練2個網(wǎng)絡(luò),一個是RPN,一個是Fast-RCNN,總計2個階段,每個階段各訓(xùn)練1次RPN和Fast-RCNN。近似聯(lián)合訓(xùn)練過程中僅訓(xùn)練1個權(quán)重網(wǎng)絡(luò),需要的顯存略少,該訓(xùn)練方式比交替訓(xùn)練法節(jié)約25%~50%訓(xùn)練時間,而2 種訓(xùn)練方式精度相近[24],所以選取近似聯(lián)合訓(xùn)練方式。
本文訓(xùn)練的棉花雜草圖像數(shù)據(jù)集不是很大,所以選擇隨機梯度下降法對Faster R-CNN以端對端的聯(lián)合方式進行訓(xùn)練,用均值為0、標(biāo)準(zhǔn)差為0.01的高斯分布隨機初始化所有新加入層的權(quán)重,其余層用預(yù)訓(xùn)練好的ImageNet分類模型的參數(shù)初始化。設(shè)置學(xué)習(xí)率為0.005,動量為0.9,權(quán)值的衰減系數(shù)為0.000 1,epoch為1 500,迭代次數(shù)為550 000次,每迭代一個epoch保存一次模型,最終選取精度最高的模型。在此過程中,使用驗證集中的圖片對訓(xùn)練效果進行評估并進行參數(shù)調(diào)優(yōu)。系統(tǒng)的超參數(shù)學(xué)習(xí)率采用熱身策略[28-30],即一開始用比較小的學(xué)習(xí)率,慢慢增大學(xué)習(xí)率。這種方法可以獲得很高的準(zhǔn)確率,又可避免模型訓(xùn)練不收斂。訓(xùn)練時學(xué)習(xí)率從初始的0.001 99逐漸增大,采用線性增加策略,迭代500次后,增加到0.005。
2.2.2 非極大值抑制算法
非極大值抑制[31](non-maximum suppression,NMS)是一種去除非極大值的算法,可以去掉目標(biāo)檢測任務(wù)的重復(fù)檢測框,找到最佳目標(biāo)檢測位置。Faster R-CNN訓(xùn)練過程中,利用NMS算法對生成的大量棉花和雜草候選框進行后處理,去除冗余候選框,得到最具代表性的結(jié)果,以加快目標(biāo)檢測的效率和提高檢測精度。
RPN利用 Anchor Target Creator訓(xùn)練自身的同時,還提供RoIs(region of interests)給檢測部分RoI Head作為訓(xùn)練樣本。只有當(dāng)棉花和雜草的候選框和真實目標(biāo)的實際包圍框的邊框重疊度(intersection over union, IoU)最大或者大于0.7的候選框標(biāo)記為正樣本。如果一個候選框和實際包圍框的IoU值小于0.3,該候選框標(biāo)記為負(fù)樣本(背景)。一幅棉花雜草圖像RPN網(wǎng)絡(luò)得到大約2萬個錨,利用NMS算法選出概率最大的2 000個RoIs,由分別對應(yīng)feature map不同大小的區(qū)域。利用Proposal Target Creator 挑選出128個RoIs, 然后使用ROI Align 將這些不同尺寸的區(qū)域全部池化到同一個尺度(7×7)上。
2.2.3 損失函數(shù)
本文檢測對象類型有3類,分別為棉花、雜草和背景。Faster R-CNN的損失函數(shù)由分類損失和回歸損失組成。對于分類部分直接利用交叉熵?fù)p失,對于邊框位置回歸損失采用Smooth_L1Loss。對于每一個區(qū)域候選框其損失函數(shù)為
式中是一個小批量數(shù)據(jù)中的候選框索引,p是候選框作為目標(biāo)的預(yù)測概率,如果候選框為正樣本,真實標(biāo)簽p=1,如果候選框為負(fù)樣本,則p=0。為平衡權(quán)重歸一化值,默認(rèn)情況下,設(shè)置=10。t={t,t,t,t}表示預(yù)測邊界框4個參數(shù)化坐標(biāo)的向量,t是與正樣本相關(guān)的真實邊界框的向量。N為訓(xùn)練過程中mini-batch數(shù)量。N為候選框數(shù)量。L為回歸損失函數(shù)。L是兩個類別上的對數(shù)損失:
回歸損失函數(shù)L為
其中smooth函數(shù)定義如下:
式中為邊框預(yù)測的誤差,參數(shù)用來控制平滑的區(qū)域,本文取值為3。
采用上文描述的Faster R-CNN結(jié)構(gòu),使用700幅訓(xùn)練集樣本數(shù)據(jù)進行訓(xùn)練,對上述訓(xùn)練集進行1 500次迭代。訓(xùn)練700幅圖像,耗時30 h,其訓(xùn)練精度損失曲線如圖4所示。
圖4 訓(xùn)練損失曲線
結(jié)果表明,隨著迭代次數(shù)不斷增加,訓(xùn)練集產(chǎn)生的精度損失逐漸降低,當(dāng)?shù)? 000次后,精度損失降至4%,說明模型訓(xùn)練效果良好。訓(xùn)練損失基本收斂到穩(wěn)定值,表明Faster R-CNN達到預(yù)期訓(xùn)練效果。
為了驗證模型的可靠性與穩(wěn)定性,在訓(xùn)練完成后,對測試集的200幅田間棉花雜草圖像進行識別。選用平均正確率MAP(mean average precision),平均召回率(average recall),平均準(zhǔn)確率AP(average precision)作為試驗結(jié)果有效性的評價指標(biāo),使用平均處理時間評價識別的速度。
識別結(jié)果如表1所示。識別對象分為棉花和雜草2種類別,當(dāng)IoU閾值取典型值0.5時,2種類別的平均正確率為0.955。單幅圖像的平均處理時間為1.51 s。
由表1可知,棉花的平均召回率與平均準(zhǔn)確率指標(biāo)均高于雜草,其原因主要有:一是棉花在圖像中目標(biāo)尺度通常大于雜草;二是棉田中雜草種類繁多,樣本標(biāo)注沒有對各類雜草類別進行分別標(biāo)注,雜草特征呈現(xiàn)多樣性,棉花特征相對單一;三是自然光照下實際農(nóng)田環(huán)境復(fù)雜,株間雜草容易因遮擋未被識別;四是田間背景環(huán)境和雜草相似時,難以識別。
表1 棉花雜草識別結(jié)果
在試驗中發(fā)現(xiàn),遮擋和背景相似度是影響雜草識別的主要原因。如圖5a所示,圓圈中的雜草由于部分被棉花葉片遮擋導(dǎo)致未正確識別。如圖5b所示,方框中的雜草由于目標(biāo)很小且隱藏在與背景相似的環(huán)境下導(dǎo)致無法正確識別。而影響棉花識別的主要因素則是陽光直射。如圖5c所示,圓圈中標(biāo)識的棉花由于陽光直射時形成強烈反光,導(dǎo)致該區(qū)域未能正確識別。
圖5 棉花及雜草識別效果圖
為了提高小尺寸雜草的識別精度,本文沒有采用FasterR-CNN原文中使用的ROI Pooling,而是使用了ROI Align(表1)。表2給出了使用ROI Pooling,IoU閾值取0.5時的識別結(jié)果。
表2 使用ROI Pooling棉花雜草識別結(jié)果
和表1中的數(shù)據(jù)進行比較后可以發(fā)現(xiàn),使用ROI Pooling的方式對棉花這種大尺度的目標(biāo)影響較小,但對于雜草這種尺度變化較大的目標(biāo)識別率較低。
為了驗證FasterR-CNN模型與YOLOv3模型的效果差異,本文選取相同樣本數(shù)據(jù)集分別用YOLOv3和Faster R-CNN進行模型訓(xùn)練,YOLOv3同樣使用ImageNet數(shù)據(jù)集初始化網(wǎng)絡(luò)參數(shù),最后使用評價指標(biāo)AP,AR和值對比測試效果。
AP和AR兩個指標(biāo)評測的核心是實際真實對象和預(yù)測對象之間的相似性度量。在進行目標(biāo)對象檢測時,借助IoU定義真實對象與預(yù)測對象之間的匹配度,通過計算繪制PR(precision-recall) 精度召回曲線。表3給出了YOLOv3和Faster R-CNN相同樣本數(shù)據(jù)集下的檢測結(jié)果,圖6a給出了棉花在2種模型下的精度召回曲線,圖6b給出了雜草在2種模型下的精度召回曲線。
圖6 棉花和雜草的精度召回曲線
平均準(zhǔn)確率AP衡量的是模型在所有目標(biāo)類別上的性能,分析表3到表5的數(shù)據(jù)可以發(fā)現(xiàn),F(xiàn)aster R-CNN相對于YOLOv3來說,當(dāng)IoU取值為0.5:0.95,0.5和0.75時,平均準(zhǔn)確率AP高出0.3以上。特別是對于小目標(biāo)對象,其平均準(zhǔn)確率之差接近0.6。平均召回率AR是在每幅圖像中檢測到固定目標(biāo)的召回率,在目標(biāo)類別和IoU域內(nèi)上取平均值。Faster R-CNN性能優(yōu)于YOLOv3模型。
表3 在參數(shù) area= all, max Dets=100時AP值比較
表4 在參數(shù) max Dets=100, IoU=0.50:0.95時AP值比較
表5 在參數(shù) max Dets=100, IoU=0.50:0.95時AR值比較
在表3~表5中,area指被檢測對象的圖像面積,當(dāng)此值為all時表示統(tǒng)計時不區(qū)分圖像面積。max Dets為每個圖像的最大檢測閾值。
精度召回曲線圖直觀顯示出學(xué)習(xí)器在樣本總體上的查全率和查準(zhǔn)率。在進行比較時,當(dāng)一個學(xué)習(xí)器的P-R曲線完全被另一個學(xué)習(xí)器的曲線完全“包住”,就說明后者的性能優(yōu)于前者。觀察圖6的精度召回曲線可以發(fā)現(xiàn),F(xiàn)aster R-CNN的精度召回曲線可以完全包圍YOLOv3的精度召回曲線。仔細(xì)觀察發(fā)現(xiàn)當(dāng)召回率為0.6時,此時,F(xiàn)aster R-CNN中的棉花和雜草的精度達到99%以上,而YOLOv3中雜草識別的精度下降到50%,棉花識別精度接近95%。隨著召回率的增加,F(xiàn)aster R-CNN模型中準(zhǔn)確率一直維持在一個很高的水平,而性能比較差YOLOv3模型需要損失較大精度才能換來召回率的提高。
準(zhǔn)確率和召回率指標(biāo)在某些情況下出現(xiàn)矛盾情況,所以需要綜合考慮。為此,本文選用值進行衡量。值是和加權(quán)調(diào)和平均,計算公式為
迭代次數(shù)與F值的關(guān)系曲線如圖7所示。
觀察圖7可知,F(xiàn)aster R-CNN方法的值曲線始終處于上方,說明FasterR-CNN試驗方法比較理想。
綜上所述,試驗結(jié)果證明了Faster R-CNN模型對復(fù)雜環(huán)境下棉田雜草圖像檢測的有效性,該方法對于雜草和棉花的識別效果優(yōu)于YOLOv3模型,尤其在識別尺度較小的雜草目標(biāo)對象時Faster R-CNN模型性能遠(yuǎn)超YOLOv3模型。
選取相同的700幅樣本圖像分別用YOLOv3和FasterR-CNN進行模型訓(xùn)練,再用200幅測試圖像進行識別測試,表6給出2種模型的運行時間比較,從表中數(shù)據(jù)可知,YOLOv3的訓(xùn)練時長要高于Faster R-CNN,但識別速度并沒有明顯差異。
表6 Faster R-CNN與YOLOv3運行時間比較
本研究將Faster R-CNN和YOLOv3引入到棉田雜草的識別中,比較了2種方法的優(yōu)劣,并對Faster R-CNN的關(guān)鍵參數(shù)進行了優(yōu)化,使之更適合復(fù)雜背景下的棉田雜草識別。
1)建立ResNet50網(wǎng)絡(luò)模型從原始圖像中提取棉花和雜草特征。該模型不依賴于圖像預(yù)處理和數(shù)據(jù)轉(zhuǎn)換,可通過學(xué)習(xí)自主提取棉花和雜草的特征表達,與人工設(shè)計提取的多種特征相比,能更準(zhǔn)確地反映出棉花與雜草圖像的有效識別信息。試驗結(jié)果表明,該方法的平均目標(biāo)識別準(zhǔn)確率達95.5%,具有優(yōu)秀的實際泛化性能,獲得了穩(wěn)定的高識別準(zhǔn)確率。
2)本文提出的改進Faster R-CNN識別棉田雜草方法,與YOLOv3相比更適用于復(fù)雜背景下的棉田雜草識別,試驗結(jié)果表明平均正確率MAP高出0.3以上。特別是對于小目標(biāo)對象,其平均正確率之差接近0.6。
3)基于FasterR-CNN模型識別棉田雜草方法識別方法具有較強的實時性。試驗結(jié)果表明,使用CPU識別一幀圖像僅需1.51 s。采用GPU硬件代替CPU運算還可進一步提升本文方法的實時性,識別單幅圖像的平均耗時僅為0.09 s。
本研究提出的FasterR-CNN模型識別棉田雜草方法能夠獲得較高的準(zhǔn)確率和實時性,可為變量噴藥等精準(zhǔn)農(nóng)業(yè)技術(shù)提供有益的參考。不足之處在于Faster R-CNN模型所需的訓(xùn)練時間較長,訓(xùn)練需要在GPU顯存大于8G的條件下訓(xùn)練數(shù)據(jù)。但訓(xùn)練好后不影響實際測試的識別速度。在下一步的研究工作中還需要在識別雜草的基礎(chǔ)上進一步識別確定雜草的種類。
[1] 張樹珍. 棉田雜草的發(fā)生與防治措施[J]. 現(xiàn)代農(nóng)業(yè)科技,2017(7):136-139.
[2] 楊林章,馮彥房,施衛(wèi)明,等. 我國農(nóng)業(yè)面源污染治理技術(shù)研究進展[J]. 中國生態(tài)農(nóng)業(yè)學(xué)報,2013,21(1):96-101.
Yang Linzhang, Feng Yanfang, Shi Weiming, et al. Review of the advances and development trends in agricultural non-pointsource pollution control in China[J]. Chinese Journal of Eco-Agriculture, 2013, 21(1): 96-101. (in Chinese with English abstract)
[3] 牛叢,徐麗明,馬帥,等. 變量噴藥技術(shù)的應(yīng)用現(xiàn)狀與發(fā)展[J]. 農(nóng)業(yè)裝備與車輛工程,2018,56(12):1-4.
Niu Cong, Xu Liming, Ma Shuai, et al. Application and development of variable spray technology[J]. Agricultural Equipment & Vehicle Engineering, 2018, 56(12): 1-4. (in Chinese with English abstract)
[4] 尹東富,陳樹人,毛罕平,等. 基于模糊控制的棉田變量對靶噴藥除草系統(tǒng)設(shè)計[J]. 農(nóng)業(yè)機械學(xué)報,2011,42(4):179-183.
Yin Dongfu, Chen Shuren, Mao Hanping, et al. Weed control system for variable target spraying based on fuzzycontrol[J]. Transactions of the Chinese Society for Agricultural Machinery, 2011, 42(4): 179-183. (in Chinese with English abstract)
[5] Bakhshipour A, Jafari A, Nassiri S M, et al. Weedsegmentation using texture features extracted from wavelet sub-images[J]. Biosystems Engineering, 2017, 157: 1-12.
[6] 張小龍,謝正春,張念生,等. 豌豆苗期田間雜草識別與變量噴灑控制系統(tǒng)[J]. 農(nóng)業(yè)機械學(xué)報,2012,43(11):220-225,73.
Zhang Xiaolong, Xie Zhengchun, Zhang Niansheng, et al. Weed recognition from pea seedling images and variablespraying control system[J]. Transactions of the Chinese Society for Agricultural Machinery, 2012, 43(11): 220-225, 73. (in Chinese with English abstract)
[7] 李先鋒,朱偉興,紀(jì)濱,等. 基于圖像處理和蟻群優(yōu)化的形狀特征選擇與雜草識別[J]. 農(nóng)業(yè)工程學(xué)報,2010,26(10):178-182.
Li Xianfeng, Zhu Weixing, Ji Bin, et al. Shape featureselection and weed recognition based on image processingand ant colony optimization[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2010, 26(10): 178-182. (in Chinese with English abstract)
[8] Zheng Y, Zhu Q, Huang M, et al. Maize and weedclassification using color indices with support vector datadescription in outdoor fields[J]. Computers and Electronics in Agriculture, 2017, 141: 215-222.
[9] 李穎,張立福,嚴(yán)薇,等. 地面成像光譜數(shù)據(jù)的田間雜草識別[J]. 遙感學(xué)報,2013,17(4):863-871.
Li Ying, Zhang Lifu, Yan Wei, et al. Weed identification using imaging spectrometer data[J]. Journal of Remote Sensing, 2013, 17(4): 863-871. (in Chinese with English abstract)
[10] 趙鵬,韋興竹. 基于多特征融合的田間雜草分類識別[J].農(nóng)業(yè)機械學(xué)報,2014,45(3):275-281.
Zhao Peng, Wei Xingzhu. Weed recognition in agricultural field using multiple feature fusions[J]. Transactions of the Chinese Society for Agricultural Machinery, 2014, 45(3): 275-281. (in Chinese with English abstract)
[11] 何東健,喬永亮,李攀,等. 基于SVM-DS多特征融合的雜草識別[J]. 農(nóng)業(yè)機械學(xué)報,2013,44(2):182-187.
He Dongjian, Qiao Yongliang, Li Pan, et al. Weed recognition based on SVM-DS multi-feature fusion[J]. Transactions of the Chinese Society for Agricultural Machinery, 2013, 44(2): 182-187. (in Chinese with English abstract)
[12] 朱鳳武,楊建姣,齊跡. 基于遺傳算法的田間生物環(huán)境系統(tǒng)的研究[J]. 中國農(nóng)機化學(xué)報,2016,37(12):157-160.
Zhu Fengwu, Yang Jianjiao, Qi Ji. Study of field biological environment system based on genetic algorithm[J]. Journal of Chinese Agricultural Mechanization, 2016, 37(12): 157-161. (in Chinese with English abstract)
[13] 權(quán)龍哲,肖云瀚,王建宇,等. 智能除草裝備苗草模式識別方法研究[J]. 東北農(nóng)業(yè)大學(xué)學(xué)報,2018,49(9): 79-87.
Quan Longzhe, Xiao Yunhan, Wang Jianyu, et al. Study on pattern recognition method of intelligent weeding equipment[J]. Journal of Northeast Agricultural University, 2018, 49(9): 79-87. (in Chinese with English abstract)
[14] 吳蘭蘭,徐愷,熊利榮. 基于視覺注意模型的苗期油菜田間雜草檢測[J]. 華中農(nóng)業(yè)大學(xué)學(xué)報,2018,37(2):96-102.
Wu Lanlan, Xu Kai, Xiong Lirong. Detecting weed in seedling rapeseed oil field based on visual-attention model[J]. Journal of Huazhong Agricultural University, 2018, 37(2): 96-102. (in Chinese with English abstract)
[15] 傅隆生,馮亞利,Elkamil Tola,等. 基于卷積神經(jīng)網(wǎng)絡(luò)的田間多簇獼猴桃圖像識別方法[J]. 農(nóng)業(yè)工程學(xué)報,2018,34(2):205-211.
Fu Longsheng, Feng Yali, Elkamil Tola, et al. Image recognition method of multi-cluster kiwifruit infield based on convolutional neural networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(2): 205-211. (in Chinese with English abstract)
[16] 王璨,武新慧,李志偉. 基于卷積神經(jīng)網(wǎng)絡(luò)提取多尺度分層特征識別玉米雜草[J]. 農(nóng)業(yè)工程學(xué)報,2018,34(5):144-151.
Wang Can, Wu Xinhui, Li Zhiwei. Recognition of maize and weed based on multi-scale hierarchical features extracted byconvolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(5): 144-151. (in Chinese with English abstract)
[17] 姜紅花,王鵬飛,張昭,等. 基于卷積網(wǎng)絡(luò)和哈希碼的玉米田間雜草快速識別方法[J]. 農(nóng)業(yè)機械學(xué)報,2018,49(11):30-38.
Jiang Honghua, Wang Pengfei, Zhang Zhao, et al. Fast identification of field weeds based on deep convolutional network and binary hash code[J]. Transactions of the Chinese Society for Agricultural Machinery, 2018, 49(11): 30-38. (in Chinese with English abstract)
[18] 熊俊濤,劉振湯,林越,等. 自然環(huán)境下綠色柑橘視覺檢測技術(shù)研究[J]. 農(nóng)業(yè)機械學(xué)報,2018,49(4):45-52.
Xiong Juntao, Liu Zhentang, Lin Yue, et al.Visual detection technology of green citrus under natural environment[J]. Transactions of the Chinese Society for Agricultural Machinery, 2018, 49(4): 45-52. (in Chinese with English abstract)
[19] 王生生,王順,張航,等. 基于輕量和積網(wǎng)絡(luò)及無人機遙感圖像的大豆田雜草識別[J]. 農(nóng)業(yè)工程學(xué)報,2019,35(6):81-89.
Wang Shengsheng, Wang Shun, Zhang Hang, et al. Soybean field weed recognition based on light sum-productnetworks and UAV remote sensing images[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactionsof the CSAE), 2019, 35(6): 81-89. (in Chinese with English abstract)
[20] Liu Wei, Anguelov Dragomir, Erhan Dumitru, et al. SSD: single shot multibox detector[C]. Computer Vision ECCV 2016, Springer, Cham, 2016(C): 21-37.
[21] Redmon, Joseph. You only look once: unified, real-time object detection[C]. IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 2016: 779-788.
[22] Redmon, Joseph. YOLO9000: Better, Faster, Stronger[J]. arXiv, 2016,1612.08242.
[23] Joseph Redmon, Ali Farhadi. YOLOv3: An incremental improvement[J]. arXiv, 2018,1804.02767.
[24] He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]. IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 2016: 770-778.
[25] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149.
[26] Lin T, Dollar P, Girshick R, et al. Feature pyramid networks for object detection[C]. IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, Hawaii, USA, 2017: 936-944.
[27] He Kaiming, Gkioxari Georgia, Dollar Piotr, et al. Mask R-CNN[C]. IEEE International Conference on Computer Vision, Venice, Italy, 2017: 2980-2988.
[28] Yang You, Igor Gitman, Boris Ginsburg. Large batch training of convolutional networks[J]. arXiv, 2017, 1708.03888.
[29] Yang You, Zhao Zhang, Cho-Jui Hsieh, et al. ImageNet Training in Minutes[J]. arXiv, 2018,1709.05011.
[30] Chao Peng, Tete Xiao, Zeming Li, et al. MegDet: A large mini-batch object detector[C]. IEEE Conference on Computer Vision and Pattern Recognition, UTAH, USA, 2018: 6181-6189.
[31] Jan Hosang, Rodrigo Benenson, BerntSchiele. Learning non-maximum suppression[C]. IEEE Conference on Computer Visionand Pattern Recognition. HI, USA, 2017: 6469-6477.
Efficient recognition of cotton and weed in field based on Faster R-CNN by integrating FPN
Peng Mingxia1, Xia Junfang2※, Peng Hui1
(1.4300070; 2.4300070)
Cotton (Gossypium hirsutum) is one of the most important cash crops in China, The timely and effective removal of weeds in cotton seedling stage is an important measure to ensure high and stable yield of cotton. Nowadays, weed recognition based on machine vision is widely used. The fast and effective recognition of crop and weed in the field under natural illumination is one of the key technologies for the development of intelligent mechanization weeding pattern. In the one hand, cotton and weeds have similar color feature in the field. Feature presentation of the natural property of target is difficult to be obtained by the hand-engineered feature extractor. The spatial consistency of the obtained features is not good, and the real-time performance of recognition system is reduced for the complex feature extraction algorithm. On the other hand, the effect of image preprocessing has important influence on recognition results. In order to solve the main problems in the current research, we explored the way to improve the recognition accuracy, stability and real-time performance, and a recognition method of crop and weed based on Faster R-CNN.In this paper, cotton seedling at 2-5 leaves stages and weeding during the same stage were used as research objects under natural illumination. Weed identification from digital images taken under natural illumination at field level is still challenging in agricultural image processing applications, though a lot of research has been conducted related to this topic. To address this problem, images including cottons and weeds were taken vertically from top to bottom. A method based on Faster R-CNN convolutional neural network was proposed to identify weeds from cotton plants more accurately and quickly. The residual network was used to extract image features, with ReLU as the activation function and Max-pooling as the down-sampling method. In the region of proposal network, feature pyramid network was introduced to generate target candidate frame, and Softmax regression classifier was utilized to optimize the CNN network. The proposed methodology was implemented on 200 digital images taken under natural illumination. The experimental results demonstrated that, the average accuracy of weed identification reached 95.5%, and the average time for individual weed plant identification was 1.51 s, which was reduced to 0.09 s by using GPU. To test the efficiency of the proposed methodology, YOLOv3method was also carried out on the same training and test datasets. The weed identification results were assessed by mean average precision and average precision. The experimental results showed that better performance was achieved by using our proposed methodology, and better identification accuracy was reached as well. This indicated that the proposed method had a good effect on weed detection under natural illumination, and it will greatly promote the development of precise weed control.
cotton; convolutional neural network; machine vision; deep learning; image recognition; weed recognition; Faster R-CNN
彭明霞,夏俊芳,彭 輝. 融合FPN的Faster R-CNN復(fù)雜背景下棉田雜草高效識別方法[J]. 農(nóng)業(yè)工程學(xué)報,2019,35(20):202-209.doi:10.11975/j.issn.1002-6819.2019.20.025 http://www.tcsae.org
Peng Mingxia, Xia Junfang, Peng Hui. Efficient recognition of cotton and weed in field based on Faster R-CNN by integrating FPN [J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(20): 202-209. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2019.20.025 http://www.tcsae.org
2019-04-17
2019-09-24
國家重點專項項目(2017YFD0301303);公益性行業(yè)(農(nóng)業(yè))科研專項項目(201503136)
彭明霞,博士生,主要從事農(nóng)業(yè)信息技術(shù)集應(yīng)用研究。Email:skymingxia@mail.hzau.edu.cn
夏俊芳,教授,博士生導(dǎo)師,主要從事農(nóng)業(yè)精細(xì)農(nóng)業(yè)裝備和機械設(shè)計技術(shù)。Email:xjf@mai.hzau.edu.cn
10.11975/j.issn.1002-6819.2019.20.025
TP274; TP391.41
A
1002-6819(2019)-20-0202-08