梁喜鳳,章鑫宇,王永維
·農(nóng)業(yè)信息與電氣技術(shù)·
基于改進(jìn)Mask R-CNN的番茄側(cè)枝修剪點(diǎn)識(shí)別方法
梁喜鳳1,章鑫宇1,王永維2
(1. 中國(guó)計(jì)量大學(xué)機(jī)電工程學(xué)院,杭州 310018; 2. 浙江大學(xué)生物系統(tǒng)工程與食品科學(xué)學(xué)院,杭州 310058)
為解決番茄枝葉修剪機(jī)器人無(wú)法準(zhǔn)確識(shí)別番茄側(cè)枝修剪點(diǎn)的問(wèn)題,提出基于改進(jìn)Mask R-CNN模型的番茄側(cè)枝修剪點(diǎn)的識(shí)別方法。將Mask R-CNN的主干網(wǎng)絡(luò)ResNet50替換為MobileNetv3-Large來(lái)降低模型復(fù)雜度和提升運(yùn)行速度,并對(duì)部分特征圖添加ECA(Efficient Channel Attention)注意力機(jī)制,以提升模型精度;通過(guò)改進(jìn)的Mask R-CNN模型預(yù)測(cè)番茄側(cè)枝與主枝的分割掩膜和邊框位置;針對(duì)部分單根枝條被分割成多段掩膜的問(wèn)題,通過(guò)掩膜邊界框?qū)捀弑葏^(qū)分側(cè)枝和主枝,分析同一枝條相鄰掩膜約束條件,然后將符合約束條件的掩膜進(jìn)行合并連接;根據(jù)修剪點(diǎn)在主枝附近的特點(diǎn)確定修剪點(diǎn)所在端,確定靠近修剪端端點(diǎn)的中心點(diǎn)作為側(cè)枝的修剪點(diǎn)。試驗(yàn)結(jié)果表明,改進(jìn)的Mask R-CNN模型平均分割圖片時(shí)間為0.319 s,召回率和精確率分別為91.2%和88.6%,掩膜平均合并成功率為86.2%,修剪點(diǎn)識(shí)別平均準(zhǔn)確率為82.9%。該研究為番茄枝葉修剪機(jī)器人的研發(fā)提供參考。
模型;圖像識(shí)別;目標(biāo)檢測(cè);Mask R-CNN;側(cè)枝;主枝;修剪點(diǎn)
番茄是世界上栽培最為普遍的果蔬之一,中國(guó)是世界上番茄生產(chǎn)總量最多國(guó)家之一[1-2]。枝葉修剪是番茄種植過(guò)程中的重要環(huán)節(jié),及時(shí)修剪枝葉可以改善植株通透性,降低病害率和提高番茄經(jīng)濟(jì)效益[3]。由于葉子生長(zhǎng)在側(cè)枝上,目前番茄枝葉修剪主要通過(guò)人工割斷或掰斷側(cè)枝實(shí)現(xiàn),這樣不僅增加了人工成本,在割斷或掰斷過(guò)程中還會(huì)造成番茄植株的損傷[4-5]。規(guī)?;N植的番茄植株間的行距較為寬闊,適合枝葉修剪自動(dòng)化作業(yè)[6]。因此,研發(fā)番茄枝葉修剪機(jī)器人代替人工摘葉是可行且有必要的,而要實(shí)現(xiàn)番茄枝葉修剪自動(dòng)化作業(yè),番茄側(cè)枝、主枝的檢測(cè)與修剪點(diǎn)的識(shí)別十分重要。
目前,學(xué)者們?cè)谥仓曛l自動(dòng)化修剪和果蔬采摘方面進(jìn)行了相關(guān)研究。荷蘭Priva公司在2017年發(fā)布了一款番茄枝葉修剪機(jī)器人,可實(shí)現(xiàn)番茄枝葉自動(dòng)化修剪[7]。寧政通等[8]通過(guò)改進(jìn)Mask R-CNN對(duì)葡萄果梗進(jìn)行識(shí)別與分割,葡萄果梗的識(shí)別平均精確率為88%。嚴(yán)亞飛[9]為了解決枸杞枝條自然環(huán)境下識(shí)別干擾多的問(wèn)題,采用k-means聚類(lèi)分割法識(shí)別出枸杞枝條。韋錦等[10]采用DA2-YOLOv4模型識(shí)別綠籬,檢測(cè)速度為83.1幀/s,平均精確率為98.5%。Peng等[11]采用DeepLab v3+分割荔枝枝條,模型分割的平均交并比為76.5%。Zhang等[12]采用R-CNN檢測(cè)蘋(píng)果分支,平均召回率與準(zhǔn)確率分別為91.5%和85.5%。Qi等[13]采用TC-YOLO模型檢測(cè)茶菊花,檢測(cè)平均精度為92.49%,檢測(cè)速度為47.23幀/s,該算法在復(fù)雜和非結(jié)構(gòu)化環(huán)境下仍表現(xiàn)出較高魯棒性。馬志艷等[14]采用改進(jìn)的Mask R-CNN模型分割莖稈雜質(zhì),分割識(shí)別準(zhǔn)確度可達(dá)91.12%,平均處理時(shí)間為3.57 s。Palacios等[15]結(jié)合VGG19與Segnet對(duì)葡萄花穗進(jìn)行檢測(cè)與分割,F(xiàn)1分?jǐn)?shù)分別為0.93和0.73。Afonso等[16]建立了基于Mask R-CNN的成熟番茄和未成熟番茄識(shí)別模型,識(shí)別準(zhǔn)確率分別為95%和94%。陳鋒軍等[17]采用改進(jìn)的EfficientDet 模型檢測(cè)油橄欖果實(shí)的成熟度,精確率和召回率分別為92.89%和93.59%。Liang等[18]采用YoloV3與U-Net相結(jié)合的方法檢測(cè)與分割夜間環(huán)境下的荔枝與果梗,試驗(yàn)表明精確度與魯棒性較高。
上述研究表明,植株枝條自動(dòng)化修剪和果蔬采摘領(lǐng)域已經(jīng)有了一定的進(jìn)展,而番茄側(cè)枝修剪點(diǎn)識(shí)別方面的研究較少且以傳統(tǒng)圖像處理方法為主。傳統(tǒng)圖像處理方法和卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)方法是常見(jiàn)的目標(biāo)識(shí)別方法,由于番茄植株側(cè)枝、主枝、葉片與未成熟果實(shí)顏色相近,采用基于閾值特征的傳統(tǒng)圖像處理方法無(wú)法進(jìn)行有效區(qū)分和分割,而卷積神經(jīng)網(wǎng)絡(luò)模型可以基于目標(biāo)的顏色、形態(tài)和紋理特征檢測(cè)出番茄植株的主枝和側(cè)枝。
本文以規(guī)?;N植的番茄植株為研究對(duì)象,為解決傳統(tǒng)圖像處理方法難以將枝條從近色背景中有效分割的問(wèn)題和保證不同環(huán)境下識(shí)別的魯棒性,采用MobileNetv3-Large替換Mask R-CNN模型的主干網(wǎng)絡(luò),并引入ECA(Efficient Channel Attention)注意力機(jī)制,以此建立了一種基于改進(jìn)Mask R-CNN的番茄主枝與側(cè)枝的檢測(cè)分割模型,利用同一枝條相鄰掩膜約束合并被分割成多段掩膜的單根枝條,通過(guò)側(cè)枝修剪點(diǎn)在主枝附近的特點(diǎn)識(shí)別修剪點(diǎn),為番茄枝葉修剪機(jī)器人修剪點(diǎn)的識(shí)別提供技術(shù)支持。
圖像數(shù)據(jù)采集于杭州傳化來(lái)春農(nóng)場(chǎng),在2022年4-7月期間拍攝晴天和陰天條件下番茄植株枝條800張圖片,采樣距離為300~600 mm,圖片尺寸調(diào)整為960×704像素。為了提升模型的泛化能力和魯棒性,通過(guò)鏡像、平移、添加高斯噪聲的方式進(jìn)行數(shù)據(jù)增強(qiáng),最終得到3 200張圖片,隨機(jī)選擇1 000張圖片作為數(shù)據(jù)集,其中800張為訓(xùn)練集,200張為測(cè)試集。
番茄植株整株枝條形態(tài)不一,將植株上的所有枝條視作一個(gè)整體進(jìn)行標(biāo)記不利于神經(jīng)網(wǎng)絡(luò)提取枝條的形狀特征,所以本文采用如圖1所示的分段標(biāo)記方式進(jìn)行標(biāo)注,即將每根枝條視作一個(gè)單獨(dú)的標(biāo)記目標(biāo)。由于側(cè)枝是修剪作業(yè)對(duì)象,主枝是作為后續(xù)修剪點(diǎn)識(shí)別的輔助對(duì)象,所以選擇側(cè)枝和主枝作為標(biāo)記訓(xùn)練對(duì)象,類(lèi)別均為branch(側(cè)枝與主枝后續(xù)可通過(guò)邊界框?qū)捀弑葏^(qū)分)。圖 1a中番茄植株有3個(gè)標(biāo)記對(duì)象,包括1個(gè)主枝和2個(gè)側(cè)枝,分段標(biāo)記后生成了與枝條對(duì)應(yīng)的3段標(biāo)記掩碼,如圖1b。
圖1 標(biāo)記側(cè)枝和主枝
Mask R-CNN[19]是何凱明提出的一種實(shí)例分割網(wǎng)絡(luò),可用于目標(biāo)檢測(cè)與分割,但該網(wǎng)絡(luò)參數(shù)過(guò)多、計(jì)算量大,因此本文提出了一種基于MobileNetv3-Large骨干網(wǎng)絡(luò)和ECA注意力機(jī)制的改進(jìn)Mask R-CNN模型,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
注:C2-C5代表MobileNetv3-Large網(wǎng)絡(luò)特征圖;P2-P5代表經(jīng)特征金字塔網(wǎng)絡(luò)FPN特征融合后的特征圖;GAP代表全局平均池化;C代表通道數(shù);H代表高度,W代表寬度,單位為像素。
首先將數(shù)據(jù)增強(qiáng)后的數(shù)據(jù)集輸入到改進(jìn)的Mask R-CNN網(wǎng)絡(luò)中,采用MobileNetv3-Large網(wǎng)絡(luò)對(duì)輸入的圖像進(jìn)行特征提取,獲取特征圖C2、C3、C4、C5,然后將C3和C4輸入到ECA注意力模塊中進(jìn)行特征加強(qiáng),并與特征圖C2、C5輸入到特征金字塔網(wǎng)絡(luò)FPN中對(duì)提取的枝條特征進(jìn)行融合,區(qū)域建議網(wǎng)絡(luò)RPN(Region Proposal Network)分別采用卷積核大小為1×1的卷積層對(duì)興趣區(qū)域進(jìn)行分類(lèi)和回歸,獲得枝條的初步候選區(qū)域,不同尺寸的候選區(qū)域特征層通過(guò)興趣區(qū)域?qū)R調(diào)整到相同尺寸,最后輸入到頭部網(wǎng)絡(luò)中,全連接層用于檢測(cè)側(cè)枝與主枝的種類(lèi)與邊界框回歸,全卷積網(wǎng)絡(luò)用于檢測(cè)側(cè)枝與主枝的掩膜。
1.2.1 主干網(wǎng)絡(luò)MobileNetv3-Large
考慮枝葉修剪機(jī)器人在移動(dòng)端場(chǎng)景中工作,本文采用MobileNetv3-Large替代原始Mask R-CNN模型骨干網(wǎng)絡(luò)ResNet50來(lái)降低模型復(fù)雜度,提升運(yùn)行速度。
MobileNetv3-Large是谷歌提出的輕量神經(jīng)網(wǎng)絡(luò)模型,基本單元是深度可分離卷積,通過(guò)兩個(gè)超參數(shù)(寬度因子和分辨率因子)來(lái)調(diào)節(jié)網(wǎng)絡(luò)速度和準(zhǔn)確度[20-21]。該網(wǎng)絡(luò)使用1個(gè)3×3的標(biāo)準(zhǔn)卷積和多個(gè)bneck層進(jìn)行特征提取,使用1×1的卷積代替全連接層,最后通過(guò)最大池化層完成分類(lèi),MobileNetV3-Large結(jié)構(gòu)如表1所示。
表1 MobileNetV3-Large結(jié)構(gòu)
注:Conv2d為普通卷積層,pool為池化層,benck為瓶頸層,exp size代表膨脹系數(shù),#out代表輸出特征圖的通道數(shù),SE表示是否引入注意力模塊,NL表示激活函數(shù)的類(lèi)型,HS代表h-swish激活函數(shù),RE代表ReLU激活函數(shù),NBN為無(wú)批標(biāo)準(zhǔn)化,表示步長(zhǎng),表示目標(biāo)類(lèi)別數(shù)目。
Note: Conv2d is ordinary convolution layer, pool is pooling layer, benck is bottleneck layer, exp size represents expansion factor, #out represents channel of output feature maps, SE represents whether there is a Squeeze-And-Excite in that block, NL represents the type of nonlinearity,HS represents h-swish, RE represents ReLU, NBN represents no batch normalization,represents stride,represents number of target category .
bneck層繼承了MobileNet V1中的深度可分離卷積與MobileNet V2[22]中的具有線性瓶頸的逆殘差結(jié)構(gòu),部分bneck塊引入SE(Squeeze-And-Excite)[23]注意力機(jī)制。為了減少運(yùn)算量和提升運(yùn)行速度,使用h-swish代替激活函數(shù)swish,使用h-sigmoid代替激活函數(shù)sigmoid,h-sigmoid、h-swish的計(jì)算公式如下:
式中為輸入張量,ReLU6為激活函數(shù)ReLU6。
1.2.2 ECA注意力機(jī)制
為了保證模型復(fù)雜度降低的同時(shí)仍具有較高的精度,引入ECA注意力機(jī)制對(duì)MobileNetv3-Large提取的特征圖C3、C4中枝條特征進(jìn)行加強(qiáng)。
ECA是Wang等[24]在2020年提出的一種輕量級(jí)通道注意力機(jī)制,能夠有效捕捉局部跨通道交互信息。ECA原理如圖2中ECA具體結(jié)構(gòu)部分,該機(jī)制不進(jìn)行降維操作,直接進(jìn)行全局平均池化,然后通過(guò)自適應(yīng)選擇的尺寸為的快速一維卷積來(lái)進(jìn)行局部跨通道連接,之后使用sigmoid函數(shù)獲得每個(gè)通道權(quán)重,將原始輸入特征與通道權(quán)重結(jié)合獲得具有通道注意力的特征,其中的取值表示為
將圖片輸入到改進(jìn)的Mask R-CNN模型中進(jìn)行預(yù)測(cè),部分圖片的預(yù)測(cè)結(jié)果中出現(xiàn)一根枝條被分割成多段掩膜的情況,這會(huì)對(duì)后續(xù)枝條修剪點(diǎn)的識(shí)別產(chǎn)生干擾,因此需要將屬于同一枝條的多個(gè)掩膜合并為一個(gè)掩膜。
為了將屬于同一枝條的多個(gè)掩膜合并為一個(gè)掩膜,本文選取測(cè)試集中被分割成多段掩膜的單根枝條進(jìn)行分析,確定同一枝條相鄰掩膜約束條件。
1)同一枝條相鄰掩膜重疊約束條件
同一枝條相鄰的兩個(gè)掩膜間存在重疊區(qū)域。因此,對(duì)于任意兩個(gè)掩膜A與B,若屬于同一枝條相鄰掩膜,需要滿(mǎn)足約束條件:存在重疊區(qū)域,該條件等價(jià)為
式中、為像素點(diǎn)坐標(biāo),(,)為掩膜A二值圖象在(,)處像素值,(,)為掩膜B二值圖象在(,)處像素值。
2)同一枝條相鄰掩膜極點(diǎn)約束條件
將被分割成多段的側(cè)枝和主枝上的掩膜簡(jiǎn)化為圖3,側(cè)枝和主枝上相鄰掩膜極點(diǎn)約束條件有所不同,需要分開(kāi)討論。
注:MA1與MB1為一側(cè)枝上的兩個(gè)相鄰掩膜,L1、R1分別為MA1的左右極點(diǎn),L2、R2分別為MB1的左右極點(diǎn),V1為MA1與MB1重疊區(qū)域;MA2與MB2為一主枝上的兩個(gè)相鄰掩膜,T1、B1分別為MA2的上下極點(diǎn),T2、B2分別為MB2的上下極點(diǎn),V2為MA2與MB2重疊區(qū)域。
對(duì)于側(cè)枝,由圖3觀察確定了同一枝條相鄰掩膜滿(mǎn)足極點(diǎn)約束條件:
1=2(4)
式中1為L(zhǎng)1、R1、L2、R2在重疊區(qū)域V1上的個(gè)數(shù)。
對(duì)于主枝,同理確定了同一枝條相鄰掩膜滿(mǎn)足極點(diǎn)約束條件:
2=2(5)
式中2為T(mén)1、B1、T2、B2在重疊區(qū)域V2上的個(gè)數(shù)。
基于同一枝條相鄰掩膜約束條件,本文提出了一種同一枝條掩膜合并算法,其合并過(guò)程如圖4所示,具體步驟如下:
圖4 同一枝條掩膜合并過(guò)程
1)將圖片輸入模型中,獲取枝條邊界框、掩膜二值圖相關(guān)信息,計(jì)算每個(gè)掩膜邊框?qū)捀弑龋缓髮?duì)掩膜進(jìn)行分類(lèi),通過(guò)對(duì)側(cè)枝與主枝掩膜邊界框進(jìn)行統(tǒng)計(jì),結(jié)果如圖5所示,所以確定分類(lèi)依據(jù)為:當(dāng)≥0.6,掩膜為偏水平掩膜(側(cè)枝掩膜);當(dāng)<0.6,掩膜為偏豎直掩膜(主枝掩膜)。寬高比表示為
式中1、1為邊界框左上角頂點(diǎn)坐標(biāo),2、2為邊界框右下角頂點(diǎn)坐標(biāo)。
2)合并被分割多次的側(cè)枝掩膜:將側(cè)枝掩膜兩兩組合且不重復(fù),根據(jù)式(3)初步篩選出符合重疊約束條件的組合及獲取重疊區(qū)域,利用Opencv[25]查找初步篩選出的組合內(nèi)每張掩膜圖的輪廓并獲取左右極點(diǎn)坐標(biāo),計(jì)算4個(gè)極點(diǎn)在重疊區(qū)域內(nèi)的個(gè)數(shù),根據(jù)式(4)篩選出符合極點(diǎn)約束的掩膜組合并進(jìn)行掩膜合并,掩膜合并表示為
式中merge為合并后掩膜,為合并前同一枝條上掩膜個(gè)數(shù),mask為合并前同一枝條上第個(gè)掩膜。
3)為合并后的側(cè)枝掩膜生成新邊界框,設(shè)合并前同一枝條上的第(=1,2,…,)個(gè)掩膜邊界框的左上角頂點(diǎn)坐標(biāo)、右下角頂點(diǎn)坐標(biāo)分別為x1、y1、x2、y2,則新邊界框生成方式表示為
圖5 主枝與側(cè)枝寬高比
式中new1、new1、new2、new2依次為新邊界框的左上角頂點(diǎn)橫縱坐標(biāo)、右下角頂點(diǎn)橫縱坐標(biāo)。
4)合并被分割多次的主枝掩膜和生成新邊界框,主枝掩膜合并實(shí)現(xiàn)方式與步驟2)類(lèi)似,但是計(jì)算對(duì)象為初步篩選出的組合內(nèi)掩膜上下極點(diǎn)在重疊區(qū)域中的個(gè)數(shù),然后對(duì)滿(mǎn)足式(5)的掩膜組合并進(jìn)行掩膜合并。主枝新邊界框生成式同上式(8)。
為確定修剪點(diǎn)的坐標(biāo)位置,本文提出了一種基于主枝輔助的修剪點(diǎn)識(shí)別方法,首先根據(jù)側(cè)枝修剪點(diǎn)靠近主枝的特點(diǎn)確定修剪點(diǎn)在側(cè)枝的左端還是右端,然后在修剪點(diǎn)所在端進(jìn)行修剪點(diǎn)坐標(biāo)的計(jì)算。
=[1–70,2+70](9)
式中1、2分別為主枝掩膜的邊界框Box3左上角頂點(diǎn)、右下角頂點(diǎn)橫坐標(biāo)。
注:Mask1、Mask2為側(cè)枝的分割掩膜,Edge1、Edge2分別為對(duì)應(yīng)邊緣,Box1、Box2分別為對(duì)應(yīng)邊界框,J1、J2分別為對(duì)應(yīng)修剪點(diǎn);D1、E1為Mask1的左右端點(diǎn),D2、E2為Mask2的左右端點(diǎn); S1、S2為邊緣Edge1上的2個(gè)邊緣點(diǎn),位于D1左側(cè)且水平方向上與D1間距15像素;S3、S4為邊緣Edge2上的2個(gè)邊緣點(diǎn),位于E2右側(cè)且水平方向與E2間距距離15像素。
修剪點(diǎn)具體位置的確定。若修剪點(diǎn)在側(cè)枝掩膜右端,如圖6中點(diǎn)J1,修剪點(diǎn)坐標(biāo)計(jì)算式為
式中0、0為修剪點(diǎn)J1的坐標(biāo),1、1為邊緣點(diǎn)S1坐標(biāo),2、2為邊緣點(diǎn)S2坐標(biāo)。
若修剪點(diǎn)在側(cè)枝掩膜左端,如圖6中點(diǎn)J2,修剪點(diǎn)坐標(biāo)計(jì)算式為
式中3、3為修剪點(diǎn)J2的坐標(biāo),4、4為邊緣點(diǎn)S3坐標(biāo),5、5為邊緣點(diǎn)S4坐標(biāo)。
根據(jù)上面原理,基于主枝輔助的修剪點(diǎn)識(shí)別過(guò)程如圖7所示,具體步驟如下:
圖7 修剪點(diǎn)識(shí)別過(guò)程
首先,按照式(9)計(jì)算主枝附近修剪點(diǎn)橫坐標(biāo)可能存在的范圍;然后,對(duì)每個(gè)側(cè)枝掩膜二值圖進(jìn)行邊緣提?。ㄟ吘墳楹谏?,按列獲取側(cè)枝輪廓邊緣點(diǎn)坐標(biāo),第1個(gè)邊緣點(diǎn)為側(cè)枝左端端點(diǎn),最后1個(gè)邊緣點(diǎn)為側(cè)枝右端端點(diǎn),其中邊緣點(diǎn)坐標(biāo)滿(mǎn)足式(12)。
(,)=0(12)
式中(,)表示掩膜邊緣圖中坐標(biāo)為(,)像素點(diǎn)的像素值。
本文試驗(yàn)環(huán)境為:Intel i7 10875H的CPU,NVIDIA GeForce RTX 2060的GPU,運(yùn)行內(nèi)存為16GB; 軟件環(huán)境為Windows10,深度學(xué)習(xí)框架Tensorflow1.16。模型訓(xùn)練方式為遷移學(xué)習(xí),訓(xùn)練初始學(xué)習(xí)率為0.001,權(quán)值衰減系數(shù)為0.000 1,動(dòng)量因子為0.9,共訓(xùn)練200個(gè)epoch。
采用以ResNet50為主干的原始Mask R-CNN模型、以MobileNetv3-Large為主干的Mask R-CNN+模型和基于MobileNetv3-Large并添加ECA注意力機(jī)制的改進(jìn)Mask R-CNN模型進(jìn)行對(duì)比試驗(yàn),評(píng)價(jià)模型對(duì)主枝與側(cè)枝識(shí)別效果的指標(biāo)主要包括召回率(,%)和精確率(,%),各評(píng)價(jià)指標(biāo)計(jì)算為
式中TP表示正樣本預(yù)測(cè)為正的個(gè)數(shù),F(xiàn)P表示負(fù)樣本預(yù)測(cè)為正的個(gè)數(shù),F(xiàn)N表示正樣本預(yù)測(cè)為負(fù)的個(gè)數(shù),TN表示負(fù)樣本預(yù)測(cè)為負(fù)的個(gè)數(shù)。
模型運(yùn)行速度用單張圖片平均分割時(shí)間表示,最終得到不同模型下的側(cè)枝和主枝檢測(cè)分割效果和對(duì)比結(jié)果如表2和圖8所示。
表2 不同模型檢測(cè)對(duì)比結(jié)果
圖8 不同模型檢測(cè)分割
由表2和圖8可知,原始Mask R-CNN的召回率、精確率和平均分割時(shí)間分別為87.9%、93.3%和0.357s,主干網(wǎng)絡(luò)MobileNetv3-Large參數(shù)量?jī)H為ResNet50的21.1%,以MobileNetv3-Large為主干的Mask R-CNN+模型相比于以ResNet50為主干的原始Mask R-CNN模型召回率、精確率和平均分割時(shí)間分別下降2.1、7.7個(gè)百分點(diǎn)和0.053 s,說(shuō)明僅將原始Mask R-CNN模型主干ResNet50替換為MobileNetv3-Large可以降低模型參數(shù)和提升模型的運(yùn)行速度,但是模型召回率和精確率均有下降會(huì)影響枝條檢測(cè);在改進(jìn)主干網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)一步添加ECA注意力機(jī)制最終得到改進(jìn)Mask R-CNN模型,改進(jìn)Mask R-CNN模型相比于Mask R-CNN+模型召回率、精確率和平均分割時(shí)間分別增加5.4、3.0個(gè)百分點(diǎn)和0.015 s,說(shuō)明ECA注意力機(jī)制的添加可以改善Mask R-CNN+模型僅改進(jìn)主干網(wǎng)絡(luò)造成的召回率和精確率下降的問(wèn)題。改進(jìn)Mask R-CNN的召回率、精確率和平均分割時(shí)間分別為91.2%、88.6%和0.319 s。與原始Mask R-CNN相比,改進(jìn)Mask R-CNN模型平均分割時(shí)間降低了0.038 s,召回率提高3.3個(gè)百分點(diǎn)。召回率的提升使改進(jìn)Mask R-CNN模型較原始Mask R-CNN檢測(cè)出更多的側(cè)枝,降低枝條漏識(shí)別情況的發(fā)生,平均分割時(shí)間的降低使模型能更快檢測(cè)枝條??傮w上,與原始Mask R-CNN相比,改進(jìn)Mask R-CNN在降低模型參數(shù)和速度提升的同時(shí)對(duì)枝條仍具備較好的檢測(cè)性能,能夠更快、更多檢測(cè)到枝條。
為評(píng)估單根枝條是否合并成功,即單根枝條分割掩膜數(shù)量是否為1。本文隨機(jī)選取被模型分割成多段掩膜的側(cè)枝和主枝,采用同一枝條掩膜合并算法合并掩膜,合并結(jié)果和效果如表3和圖9。
表3 同一枝條掩膜合并結(jié)果
注:1、2、3分別表示合并前枝條掩膜、合并后枝條掩膜和合并后僅有1個(gè)掩膜的枝條總數(shù)。
Note:1,2,3are total number of branch masks before merging, branch masks after merging and branches with only one mask after merging.
圖9 掩膜合并前后對(duì)比
由表3可知,利用掩膜合并算法對(duì)被分割成多段掩膜的側(cè)枝和主枝進(jìn)行合并,側(cè)枝、主枝掩膜合并成功率分別為81.3%和92.3%,側(cè)枝合并成功率比主枝合并成功率低主要是因?yàn)閭?cè)枝的形態(tài)更具多樣性,其曲狀特征更明顯。側(cè)枝與主枝掩膜平均合并成功率為86.2%,由圖9可知,采用同一枝條掩膜合并算法合并效果較好,可有效避免后續(xù)修剪點(diǎn)識(shí)別時(shí)單根枝條因被分割成多段掩膜而造成的存在多個(gè)修剪點(diǎn)的情況。
機(jī)器人末端執(zhí)行器修剪作業(yè)方式如圖10a,考慮到機(jī)器人末端執(zhí)行器的尺寸和容錯(cuò)性,確定了修剪點(diǎn)是否識(shí)別準(zhǔn)確的評(píng)價(jià)標(biāo)準(zhǔn):1)修剪點(diǎn)在側(cè)枝上;2)修剪點(diǎn)水平方向上距離主枝95像素以?xún)?nèi)。滿(mǎn)足以上2個(gè)標(biāo)準(zhǔn)的修剪點(diǎn)視為識(shí)別準(zhǔn)確,以圖10b為例,Z3識(shí)別準(zhǔn)確,Z1、Z2識(shí)別錯(cuò)誤。
注:Z1、Z2和Z3為側(cè)枝修剪點(diǎn)。 Note: Z1, Z2 and Z3 are lateral branch pruning points.
隨機(jī)選取測(cè)試集中圖片進(jìn)行修剪點(diǎn)識(shí)別,結(jié)果如表4和圖11。
表4 側(cè)枝修剪點(diǎn)識(shí)別結(jié)果
由表4和圖11可知,晴天和陰天條件下修剪點(diǎn)識(shí)別成功率分別為87.3%和76.7%,修剪點(diǎn)未能成功識(shí)別主要原因?yàn)椋?)部分側(cè)枝分割掩膜與側(cè)枝發(fā)生偏移,導(dǎo)致識(shí)別出的修剪點(diǎn)不在側(cè)枝上,見(jiàn)圖11b中樣例1與樣例4;2)背景中的其余目標(biāo)誤識(shí)別為側(cè)枝,導(dǎo)致修剪點(diǎn)在欄線等其余目標(biāo)中,見(jiàn)圖11b中樣例2;3)側(cè)枝遮擋過(guò)于嚴(yán)重,導(dǎo)致側(cè)枝被誤判不在主枝附近而無(wú)法識(shí)別,見(jiàn)圖11b中樣例3;4)被分割成多段掩膜的側(cè)枝掩膜合并失敗,導(dǎo)致單根側(cè)枝有多個(gè)修剪點(diǎn),見(jiàn)圖11b中樣例2;針對(duì)修剪點(diǎn)識(shí)別失敗的情況在未來(lái)可進(jìn)一步研究。
陰天條件下修剪點(diǎn)平均識(shí)別成功率較晴天低,這是因?yàn)殛幪鞐l件下受光照強(qiáng)度影響枝條特征不明顯,針對(duì)光照較弱時(shí)識(shí)別成功率下降的問(wèn)題未來(lái)可從光源選擇、算法改進(jìn)等角度進(jìn)一步研究;晴天和陰天條件下修剪點(diǎn)平均識(shí)別成功率為82.9%,可為番茄植株的側(cè)枝修剪自動(dòng)化作業(yè)提供技術(shù)依據(jù)。
注:紅點(diǎn)為修剪點(diǎn),紅色框代表識(shí)別失敗。
本文基于MobileNetv3-Large和ECA注意力機(jī)制提出了一種用于枝條檢測(cè)分割的改進(jìn)Mask R-CNN的模型,以保證模型降低復(fù)雜度的同時(shí)具有較好的檢測(cè)性能;采用同一枝條掩膜合并算法以解決部分單根枝條被分割成多段掩膜的問(wèn)題,最后提出一種基于主枝輔助的修剪點(diǎn)識(shí)別方法確定修剪點(diǎn)坐標(biāo)。
1)原始Mask R-CNN的召回率、精確率和平均分割時(shí)間分別為87.9%、93.3%和0.357 s,改進(jìn)Mask R-CNN的召回率、精確率和平均分割時(shí)間分別為91.2%、88.6%和0.319 s,表明改進(jìn)Mask R-CNN在速度提升的同時(shí)對(duì)枝條仍具備較好的檢測(cè)性能,實(shí)現(xiàn)更快、更多的檢測(cè)枝條。
2)采用同一枝條掩膜合并算法合并被分割多次的主枝與側(cè)枝,由于側(cè)枝形態(tài)曲狀特征更明顯,主枝合并成功率高于側(cè)枝,側(cè)枝與主枝平均合并成功率為86.2%,表明該合并算法可有效解決部分枝條被多次分割的情況。
3)采用基于主枝輔助的修剪點(diǎn)識(shí)別方法,先確定修剪點(diǎn)所在端,然后確定靠近修剪端端點(diǎn)的中心點(diǎn)作為側(cè)枝的修剪點(diǎn)。對(duì)晴天和陰天條件下的圖片進(jìn)行修剪點(diǎn)識(shí)別測(cè)試,陰天條件下修剪點(diǎn)平均識(shí)別成功率較晴天低,修剪點(diǎn)平均識(shí)別準(zhǔn)確率為82.9%,可為番茄枝葉修剪機(jī)器人研發(fā)提供技術(shù)依據(jù),針對(duì)光照較弱時(shí)識(shí)別成功率下降以及修剪點(diǎn)識(shí)別失敗的問(wèn)題在未來(lái)可進(jìn)一步研究。
[1] 龍潔花,趙春江,林森,等. 改進(jìn)Mask R-CNN的溫室環(huán)境下不同成熟度番茄果實(shí)分割方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(18):100-108.
Long Jiehua, Zhao Chunjiang, Lin Sen, et al. Segmentation method of the tomato fruits with different maturities under greenhouse environment based on improved Mask R-CNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(18): 100-108. (in Chinese with English abstract)
[2] Li Z, Miao F, Yang Z, et al. Factors affecting human hand grasp type in tomato fruit -picking: A statistical investigation for ergonomic development of harvesting robot[J]. Computers and Electronics in Agriculture, 2019, 157: 90-97.
[3] 王慧茹,閆思華,高艷明,等. 不同整枝方式對(duì)櫻桃番茄果實(shí)商品性、營(yíng)養(yǎng)品質(zhì)及產(chǎn)量的影響[J]. 浙江大學(xué)學(xué)報(bào)(農(nóng)業(yè)與生命科學(xué)版),2021,47(3):347-353.
Wang Huiru, Yan Sihua, Gao Yanming, et al. Effects of different pruning patterns on fruit commodity, nutritional quality and yield of cherry tomato[J]. Journal of Zhejiang University (Agric. & Life Sci.), 2021, 47(3): 347-353. (in Chinese with English abstract)
[4] 楊銘濤,梁喜鳳. 番茄枝葉裁剪機(jī)械臂設(shè)計(jì)與運(yùn)動(dòng)學(xué)分析[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào),2021,42(4):8-14.
Yang Mingtao, Liang Xifeng. Design and kinematics analysis of a tomato branch and leaf cutting manipulator[J]. Journal of Chinese Agricultural Mechanization, 2021, 42(4): 8-14. (in Chinese with English abstract)
[5] 李天華,孫萌,丁小明,等. 基于YOLO v4+HSV的成熟期番茄識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(21):183-190.
Li Tianhua, Sun Meng, Ding Xiaoming, et al. Tomato recognition method at the ripening stage based on YOLO v4 and HSV[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(21): 183-190. (in Chinese with English abstract)
[6] 王海楠,弋景剛,張秀花. 番茄采摘機(jī)器人識(shí)別與定位技術(shù)研究進(jìn)展[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào),2020,41(5) :188-196.
Wang Hainan, Yi Jinggang, Zhang Xiuhua. Research process on recognition and localization technology of tomato picking robot[J]. Journal of Chinese Agricultural Mechanization, 2020, 41(5): 188-196. (in Chinese with English abstract)
[7] Priva. World's first fully automated leaf-cutting robot for tomato crops[EB/OL]. (2021-09-16) [2022-10-28]. https://www.priva.com/blog/horticulture/worlds-first-fully- automated-leaf-cutting-robot.
[8] 寧政通,羅陸鋒,廖嘉欣,等. 基于深度學(xué)習(xí)的葡萄果梗識(shí)別與最優(yōu)采摘定位[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(9):222-229.
Ning Zhengtong, Luo Lufeng, Liao Jiaxin, et al. Recognition and the optimal picking point location of grape stems based on deep learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(9): 222-229. (in Chinese with English abstract)
[9] 嚴(yán)亞飛. 智能枸杞采摘機(jī)器人枝條識(shí)別與定位關(guān)鍵技術(shù)研究[D]. 合肥:合肥工業(yè)大學(xué),2019.
Yan Yafei. Research on the Key Technology of Branch Recognition and Location of Intelligent Chinese Wolfberry Picking Robot[D]. Hefei: Hefei University of Technology, 2019. (in Chinese with English abstract)
[10] 韋錦,李正強(qiáng),許恩永,等. 基于DA2-YOLOv4算法綠籬識(shí)別研究[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào),2022,43(9):122-130.
Wei Jin, Li Zhengqiang, Xu Enyong, et al. Research on hedge recognition based on DA2-YOLOv4 algorithm[J]. Journal of Chinese Agricultural Mechanization, 2022, 43(9): 122-130. (in Chinese with English abstract)
[11] Peng H X, Xue C, Shao Y Y, et al. Semantic segmentation of litchi branches using DeepLab v3+ model[J]. IEEE Access, 2020, 8: 164546-164555.
[12] Zhang Q, Zhang X, Zhang J, et al. Branch detection for apple trees trained in fruiting wall architecture using depth features and regions-convolutional neural network (R-CNN)[J]. Computers and Electronics in Agriculture, 2018, 155: 386-393.
[13] Qi C, Gao J F, Pearson S, et al. Tea chrysanthemum detection under unstructured environments using the TC-YOLO model[J].Expert Systems with Applications, 2022, 193: 116473.
[14] 馬志艷,張徐康,楊光友. 基于改進(jìn)Mask R-CNN的水稻莖稈雜質(zhì)分割方法研究[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào),2021,42(6):145-150.
Ma Zhiyan, Zhang Xukang, Yang Guangyou. Research on segmentation method of rice stem impurities based on improved Mask R-CNN[J]. Journal of Chinese Agricultural Mechanization, 2021, 42(6): 145-150. (in Chinese with English abstract)
[15] Palacios F, Bueno G, Salido J, et al. Automated grapevine flower detection and quantification method based on computer vision and deep learning from on-the-go imaging using a mobile sensing platform under field conditions[J]. Computers and Electronics in Agriculture, 2020, 178: 105796.
[16] Afonso M, Fonteijn H, Fiorentin F S, et al. Tomato fruit detection and counting in greenhouses using deep learning[J]. Frontiers in Plant Science, 2020, 11: 571299-571310.
[17] 陳鋒軍,張新偉,朱學(xué)巖,等. 基于改進(jìn)EfficientDet的油橄欖果實(shí)成熟度檢測(cè)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(13): 158-166.
Chen Fengjun, Zhang Xinwei, Zhu Xueyan, et al. Detection of the olive fruit maturity based on improved EfficientDet[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(13): 158-166. (in Chinese with English abstract)
[18] Liang C, Xiong J, Zheng Z, et al. A visual detection method for nighttime litchi fruits and fruiting stems[J]. Computers and Electronics in Agriculture, 2020, 169: 105192.
[19] He K M, Gkioxari G, Dollar P, et al. Mask R-CNN[C]//Proceedings of 2017 Conference on Computer Vision (ICCV). Venice: IEEE, 2017: 2980-2988.
[20] Howard A G, Zhu M, Chen B, et al. MobileNets: Efficient convo-liutional neural networks for mobile vision applications[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii: IEEE, 2017: 1704-1712.
[21] Howard A, Sandler M, Chu G, et al. Searching for mobilenetv3[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Seoul, Korea (South): IEEE, 2019: 1314-1324.
[22] Sandler M, Howard A, Zhu M, et al. MobileNetV2: Inverted residuals and linear bottlenecks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 4510-4520.
[23] Huang G, Liu Z, Laurens V, et al. Densely connected convolutional networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Maryland, USA: IEEE, 2017: 3641-3647.
[24] Wang Q, Wu B, Zhu P, et al. ECA-Net: Efficient channel attention for deep convolutional neural networks[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Virtual, USA: IEEE, 2020: 11531-11539.
[25] 李立宗. OpenCV輕松入門(mén):面向Python[M]. 北京:電子工業(yè)出版社,2019.
Recognition method for the pruning points of tomato lateral branches using improved Mask R-CNN
Liang Xifeng1, Zhang Xinyu1, Wang Yongwei2
(1.,,310018; 2.,,310058,)
Branch and leaf pruning has been one of the most important links in the process of tomato planting for reducing the disease rate and increasing economic benefits. However, the manual pruning of tomato branches and leaves cannot fully meet large-scale production in recent years, due to the time-consuming and labor-intensive task. An accurate and rapid identification of the pruning position can be greatly contributed to the automatic operation of tomato branch and leaf pruning. In this study, a Recognition method was proposed for the pruning point of the tomato lateral branch using an improved Mask R-CNN. Firstly, the backbone network of ResNet50 in the original Mask R-CNN was replaced with the MobileNetv3-Large to reduce the model complexity. Efficient Channel Attention was added to the feature map C3 and C4, in order to focus more on the features of the lateral and main branch rather than other features. Then, the tomato lateral and main branches were predicted using the improved Mask R-CNN. Three steps were selected to avoid some single branches taken as multiple masks. The lateral and main branch masks were first distinguished by the aspect ratio of the bounding boxes. The overlap and pole constraints were then analyzed for the adjacent masks that belonged to the same branch. The masks with similar constraints were finally merged and joined in the images. The pruning point of the lateral branch was only positioned at one of the two ends of the lateral branch. The lateral pruning point identification was proposed with the help of the main branch, in order to determine the coordinate of the lateral pruning point. The range near the main branch was first determined. And then the branch pruning end was determined by estimating which one of the lateral branch left and right endpoints was in the range. The center point close to the endpoint of the pruning end was finally determined as the pruning point of the lateral branch. The original and improved Mask R-CNN were also compared to verify the detection performance of the lateral and main branches. The recall rate and precision of the original Mask R-CNN were 87.9% and 93.3%, respectively, whereas, the recall rate and precision of the improved Mask R-CNN were 91.2% and 88.6%, respectively. The number of backbone network parameters in the improved Mask R-CNN was only 21.1% of that in the original one. The average segmentation time of the improved Mask R-CNN decreased by 0.038 s than before. The results showed that the backbone network of MobileNetv3-Large reduced the model parameters with the high speed in the improved Mask R-CNN. More branches were recognized, particularly when adding the Efficient Channel Attention mechanism into the feature map C3 and C4. Lateral and main branches that were divided into multiple masks were selected randomly to verify the performance of merging masks. The merging success rate of lateral branch masks was lower than that of the main branch masks, due to the more outstanding curved shape of the lateral branch. The average success rate of merging masks was 86.2%, indicating the excellent performance of merging masks. The presence of multiple pruning points was effectively reduced, where the single branch was normally taken as the multiple masks. Some images were selected randomly in the test set to verify the recognition accuracy for the pruning point of the lateral branch. The result showed that the recognition success rate on sunny days was higher than that on cloudy. The average recognition success rate was 82.9%,which fully met the requirements of lateral branch pruning. This finding can provide the technical support for the tomato branch and leaf pruning automatically.
model; image recognition; target detection; Mask R-CNN; lateral branch; main branch; pruning point
10.11975/j.issn.1002-6819.2022.23.012
TP391.41
A
1002-6819(2022)-23-0112-10
梁喜鳳,章鑫宇,王永維. 基于改進(jìn)Mask R-CNN的番茄側(cè)枝修剪點(diǎn)識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(23):112-121.doi:10.11975/j.issn.1002-6819.2022.23.012 http://www.tcsae.org
Liang Xifeng, Zhang Xinyu, Wang Yongwei. Recognition method for the pruning points of tomato lateral branches using improved Mask R-CNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(23): 112-121. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.23.012 http://www.tcsae.org
2022-09-16
2022-11-11
國(guó)家自然科學(xué)基金資助項(xiàng)目(31971796)
梁喜鳳,博士,教授,研究方向?yàn)檗r(nóng)業(yè)機(jī)器人。Email:lxfcjlu@163.com