呂繼東, 王藝潔, 夏正旺, 馬正華
(常州大學(xué) 微電子與控制工程學(xué)院, 江蘇 常州 213164)
國(guó)內(nèi)經(jīng)濟(jì)的蓬勃發(fā)展,給人們提供了越來(lái)越多的就業(yè)機(jī)會(huì),但是卻導(dǎo)致從事農(nóng)業(yè)領(lǐng)域的人員不斷減少,人工勞動(dòng)成本的增加,給果樹(shù)種植業(yè)帶來(lái)很多不利的影響。因此,開(kāi)發(fā)具有視覺(jué)功能的智能采摘機(jī)器人,有助于降低人工生產(chǎn)成本,提高勞動(dòng)生產(chǎn)率,保證果實(shí)的適時(shí)采收,具有極大的應(yīng)用價(jià)值和現(xiàn)實(shí)意義[1-2]。
視覺(jué)系統(tǒng)是果蔬采摘機(jī)器人的重要組成部分[3],是保證果蔬采摘機(jī)器人在采摘任務(wù)過(guò)程中能夠快速識(shí)別和準(zhǔn)確定位目標(biāo)的關(guān)鍵子系統(tǒng)之一。劉繼展[4]詳細(xì)闡述了目前國(guó)內(nèi)外溫室采摘機(jī)器人視覺(jué)技術(shù)的發(fā)展現(xiàn)狀及遇到的困境,發(fā)現(xiàn)許多國(guó)家已經(jīng)研制出溫室環(huán)境采摘機(jī)器人,但是這些采摘機(jī)器人在非結(jié)構(gòu)化環(huán)境中采摘效果并不理想。項(xiàng)榮等[5]對(duì)采摘機(jī)器人中常用的目標(biāo)快速識(shí)別與定位方法進(jìn)行了總結(jié)分析,果蔬的識(shí)別定位受自然環(huán)境因素的影響很大,如光照變化、枝葉遮擋等,都是急需解決的關(guān)鍵難題。
與傳統(tǒng)的圖像目標(biāo)識(shí)別算法相比,人工神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域中展現(xiàn)出了巨大的優(yōu)勢(shì),并引起了研究人員的廣泛關(guān)注。例如,傅隆生等[6]使用LeNet網(wǎng)絡(luò)模型來(lái)進(jìn)行田間多簇獼猴桃的識(shí)別,相比于傳統(tǒng)的果實(shí)目標(biāo)識(shí)別方法,識(shí)別率提升了5.37%,表明卷積神經(jīng)網(wǎng)絡(luò)在田間果蔬識(shí)別方面具有巨大的優(yōu)勢(shì)。薛月菊等[7]采用改進(jìn)的帶密集連接Tiny-yolo-dense的YOLOv2網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)特征的復(fù)用和融合,提高了檢測(cè)的精度。雖然至今還沒(méi)有完全理想的深度神經(jīng)檢測(cè)網(wǎng)絡(luò),但是在一定程度上表明它在果蔬目標(biāo)檢測(cè)領(lǐng)域具有廣泛的應(yīng)用前景[8-9]。
基于改進(jìn)的Mask R-CNN神經(jīng)網(wǎng)絡(luò)模型對(duì)不同光照角度下多種顏色蘋果的識(shí)別展開(kāi)研究。Mask R-CNN網(wǎng)絡(luò)能夠同時(shí)對(duì)輸入圖像進(jìn)行目標(biāo)檢測(cè)與分割,比單獨(dú)進(jìn)行目標(biāo)檢測(cè)的網(wǎng)絡(luò)模型具有更高的識(shí)別性能。同時(shí),在采集數(shù)據(jù)時(shí)綜合考慮蘋果目標(biāo)的生長(zhǎng)階段、光線強(qiáng)度、光照角度等因素,構(gòu)建了一個(gè)具有廣泛代表性的數(shù)據(jù)集。
深度神經(jīng)網(wǎng)絡(luò)模型是一類可以從低級(jí)特征構(gòu)建出高級(jí)特征來(lái)學(xué)習(xí)特征層次結(jié)構(gòu)的多層網(wǎng)絡(luò)模型,通過(guò)對(duì)海量訓(xùn)練數(shù)據(jù)的周期迭代來(lái)學(xué)習(xí)更有用的特征,提升深度網(wǎng)絡(luò)模型的分類或預(yù)測(cè)的準(zhǔn)確性。因此,深度模型是手段,特征學(xué)習(xí)是目的。
文章的方法建立在Mask R-CNN[10]網(wǎng)絡(luò)架構(gòu)之上,它是Faster R-CNN在實(shí)例分割領(lǐng)域的擴(kuò)展,下面分別對(duì)這2種架構(gòu)進(jìn)行簡(jiǎn)要的介紹。
Faster R-CNN的架構(gòu)主要分為3大部分:共享的卷積層-backbone、候選區(qū)域生成網(wǎng)絡(luò)-RPN(Region Proposal Network)和候選區(qū)域分類網(wǎng)絡(luò)-classifier,如圖1所示。輸入的圖片首先通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,將得到的Feature maps送入RPN網(wǎng)絡(luò),RPN網(wǎng)絡(luò)生成待檢測(cè)區(qū)域(Regions of Interest, RoI),RoI Pooling Layer根據(jù)RPN網(wǎng)絡(luò)的輸出在Feature map上面選取每個(gè)RoI對(duì)應(yīng)的特征,并固定維度值。最后通過(guò)全連接層(FC Layer)對(duì)目標(biāo)框進(jìn)行分類,最后輸出物體的類別和位置。Faster R-CNN真正實(shí)現(xiàn)了端到端(end-to-end)的訓(xùn)練。
圖1 Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Faster R-CNN network structure diagram
Mask R-CNN和Faster R-CNN最大的差別是多出1條掩碼分支,它在每個(gè)感興趣區(qū)域加上了1個(gè)用于預(yù)測(cè)分割掩碼的分層,稱為掩碼層(Mask Branch),該分支與目標(biāo)分類和檢測(cè)回歸的分支并行執(zhí)行。Mask R-CNN不僅能夠有效地檢測(cè)圖像中的目標(biāo),同時(shí)為每個(gè)實(shí)例生成一個(gè)高質(zhì)量的分割掩碼(Segmentation Mask),如圖2所示。與Faster R-CNN相比,掩碼層只是給整個(gè)系統(tǒng)增加了一小部分的計(jì)算量,但卻能同時(shí)得到目標(biāo)檢測(cè)和實(shí)例分割的結(jié)果。應(yīng)用到采摘機(jī)器人中,不僅可以識(shí)別出當(dāng)前圖像中的目標(biāo)果實(shí),并且可以得到精確的位置信息,這是采摘機(jī)器人執(zhí)行采摘?jiǎng)幼魉璧年P(guān)鍵信息參數(shù)。
圖2 用于實(shí)例分割的Mask R-CNN框架
Faster R-CNN中的RoI Pooling在運(yùn)行過(guò)程中,存在著兩次量化,又稱為取整操作。這樣的操作會(huì)降低檢測(cè)目標(biāo)位置的準(zhǔn)確性,對(duì)單純的目標(biāo)分類影響不大,但是對(duì)于像素級(jí)圖像分割就會(huì)存在很多問(wèn)題。因此,Mask R-CNN中使用RoI Align代替原先的RoI Pooling,它不再進(jìn)行直接的取整操作,而是保留經(jīng)過(guò)網(wǎng)絡(luò)層壓縮之后存在的浮點(diǎn)數(shù),并用雙線性插值算法取代Faster R-CNN中的第2次量化,這樣就可以得到更加精確的位置信息。
深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練離不開(kāi)數(shù)據(jù)集的支撐,本次實(shí)驗(yàn)采用的原始數(shù)據(jù)通過(guò)自行拍攝和網(wǎng)絡(luò)圖片爬蟲(chóng)兩種方式獲得。數(shù)據(jù)集中包括順光、逆光、側(cè)光和LED照明4種不同光照情況下的紅色蘋果、黃色蘋果、紅綠相間的蘋果以及綠色蘋果等多種種類蘋果數(shù)據(jù),如圖3所示。
(a) 順光
(e) 紅色
數(shù)據(jù)集中包含不同光照條件下各種顏色蘋果圖片100幅,合計(jì)1 600張。為減少后續(xù)實(shí)驗(yàn)運(yùn)行時(shí)間,首先將1 600張?jiān)紙D片通過(guò)雙線性插值算法縮放為512×384像素,然后對(duì)圖像進(jìn)行人工標(biāo)注。本次實(shí)驗(yàn)采用python版本的Labelme,為實(shí)現(xiàn)圖像分割操作,在標(biāo)注時(shí)采用“多邊形”選項(xiàng)進(jìn)行標(biāo)注,需完全擬合蘋果輪廓,屬于1個(gè)物體的蘋果目標(biāo)給予1個(gè)標(biāo)簽位。對(duì)所有種類的蘋果,只設(shè)置apple 1個(gè)標(biāo)簽。圖像標(biāo)注后,隨機(jī)選取不同光照和顏色共320張圖像作為測(cè)試集,其余1 280張圖像作為訓(xùn)練集用于網(wǎng)絡(luò)的訓(xùn)練。
由于光照條件的不確定因素,導(dǎo)致圖像采集時(shí)光照條件十分復(fù)雜,為了提高訓(xùn)練模型的泛化能力,對(duì)1 280張訓(xùn)練集圖片進(jìn)行了圖像亮度增強(qiáng)及減弱、色度增強(qiáng)及減弱、對(duì)比度增強(qiáng)及減弱、銳度增強(qiáng)及減弱8種處理。其中,圖像的亮度、色度和對(duì)比度均增強(qiáng)為原始圖像的1.5倍,銳度增強(qiáng)為原始圖像的3倍,亮度、色度、對(duì)比度和銳度分別減弱為原始圖像的50%,50%,50%和10%。此外,為了模擬設(shè)備在圖像采集過(guò)程中可能產(chǎn)生的噪聲,對(duì)原始圖像添加了方差為0.01的高斯噪聲。圖像擴(kuò)增后,原始標(biāo)注仍然有效。為了更好的檢測(cè)模型的擬合能力,同時(shí)更貼近真實(shí)的非結(jié)構(gòu)化作業(yè)環(huán)境,對(duì)320張測(cè)試集樣本采用不同的樣本增強(qiáng)策略,隨機(jī)組合顏色抖動(dòng)、左右翻轉(zhuǎn)、隨機(jī)裁切以及隨機(jī)噪聲4種策略中的2種對(duì)每張圖進(jìn)行變換擴(kuò)充樣本,訓(xùn)練集與測(cè)試集之間無(wú)重疊。
Mask R-CNN的主干網(wǎng)絡(luò) (backbone)即特征提取網(wǎng)絡(luò),主要用于提取整個(gè)圖像上的特征,主干網(wǎng)絡(luò)性能的好壞會(huì)直接影響網(wǎng)絡(luò)后續(xù)的檢測(cè)與分割效果。Mask R-CNN的主干網(wǎng)絡(luò)有多種網(wǎng)絡(luò)結(jié)構(gòu)可以進(jìn)行選擇,深度殘差網(wǎng)絡(luò)(Residual Neural Network, ResNet)能很好的解決神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程的梯度消失問(wèn)題。本次實(shí)驗(yàn)選取常用的2種殘差網(wǎng)絡(luò)模型ResNet50和ResNet101[11]分別作為Mask R-CNN的主干網(wǎng)絡(luò)。
深度神經(jīng)網(wǎng)絡(luò)模型是一類可以從低級(jí)原始特征中自動(dòng)學(xué)習(xí)抽象出高級(jí)語(yǔ)義特征的多層網(wǎng)絡(luò)模型。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[12]通過(guò)訓(xùn)練濾波器和局部鄰域池化操作交替作用于原始輸入數(shù)據(jù),其間會(huì)輸出一系列抽象、復(fù)雜的特征[13]。卷積層的主要作用是進(jìn)行特征提取,卷積層中的每個(gè)神經(jīng)元分別連接到上一層的局部感受野提取特征。卷積神經(jīng)網(wǎng)絡(luò)中卷積操作示意圖如圖4所示,中間紅色矩陣為3×3的卷積核,計(jì)算方式為卷積核對(duì)應(yīng)位置的數(shù)據(jù)與局部感受野對(duì)應(yīng)位置的數(shù)據(jù)進(jìn)行相乘求和操作。卷積核會(huì)在原始數(shù)據(jù)上執(zhí)行滑動(dòng)窗口操作,大部分情況下,步長(zhǎng)都設(shè)置為1。ResNet采用跳連的方式,去掉了CNN中常用的池化操作,是一種減輕網(wǎng)絡(luò)訓(xùn)練負(fù)擔(dān)的殘差學(xué)習(xí)框架,在一定程度上避免了網(wǎng)絡(luò)訓(xùn)練過(guò)程中的梯度彌散、梯度爆炸等問(wèn)題。然而,本文的主要目標(biāo)是對(duì)輸入數(shù)據(jù)中的蘋果進(jìn)行識(shí)別,針對(duì)成簇的蘋果和比較密集的蘋果,ResNet可能會(huì)受限于神經(jīng)元感受野大小,對(duì)蘋果目標(biāo)的輪廓特征等并不能進(jìn)行有效的學(xué)習(xí),在網(wǎng)絡(luò)后續(xù)進(jìn)行像素級(jí)分割時(shí)會(huì)出現(xiàn)邊界混亂的情況(即距離特別近的一簇蘋果容易被識(shí)別為1個(gè)蘋果)。增大神經(jīng)元的感受野在深度學(xué)習(xí)中通常又是通過(guò)池化操作或增大卷積核尺寸來(lái)實(shí)現(xiàn), 但是在ResNet中執(zhí)行池化操作會(huì)造成信息的損失,增大卷積核尺寸又會(huì)增加訓(xùn)練參數(shù),兩者都不是特別有效的方式。所以文中采用Dilated Convolutions(膨脹卷積或叫空洞卷積)[14]對(duì)ResNet50和ResNet101的殘差學(xué)習(xí)模塊進(jìn)行改造,這樣既可以增大神經(jīng)元的感受野,還可以避免空間信息的丟失。膨脹卷積操作是在原始卷積操作的基礎(chǔ)上增加了一個(gè)膨脹系數(shù)r,能將卷積核擴(kuò)張到膨脹系數(shù)所約束的尺度中。單個(gè)神經(jīng)元在不同膨脹系數(shù)下的感受野如圖5所示。
圖4 卷積神經(jīng)網(wǎng)絡(luò)卷積操作Fig.4 Convolutional neural network convolution operation
(a) r=1
于是,可以得到有效卷積核的高和寬分別如式(1)、式(2)所示:
Ch=fh+(fh-1)×(r-1)
(1)
Cw=fw+(fw-1)×(r-1)
(2)
式中:fh為原卷積核的高;fw為原卷積核的寬。
本文將res2層b模塊中卷積核為3×3大小的卷積層改造為空洞卷積層,如圖6所示,采用的膨脹系數(shù)為{1,2,3}的排列[15],下文詳細(xì)討論分析網(wǎng)絡(luò)改進(jìn)前后的性能。
圖6 帶膨脹卷積的ResNet網(wǎng)絡(luò)模塊Fig.6 ResNet network module with dilated convolution
為了驗(yàn)證文中所提方法在蘋果識(shí)別中的性能優(yōu)勢(shì),需要同時(shí)考慮準(zhǔn)確率和召回率,故用F1值對(duì)網(wǎng)絡(luò)識(shí)別結(jié)果進(jìn)行評(píng)價(jià)。
(3)
(4)
(5)
式中:λpre為準(zhǔn)確率;λrec為召回率;TP為算法識(shí)別正確的蘋果區(qū)域的像素點(diǎn)個(gè)數(shù);FP為算法將背景區(qū)域像素點(diǎn)誤識(shí)別為蘋果的像素點(diǎn)個(gè)數(shù);FN為算法將蘋果區(qū)域的像素點(diǎn)誤分為背景的像素點(diǎn)個(gè)數(shù)。
Mask R-CNN的損失函數(shù)主要包括3部分,見(jiàn)式(6)。
L=Lcls+Lbox+LM
(6)
式中:Lcls和Lbox與Faster R-CNN中的相同,分別是利用全連接預(yù)測(cè)出的每個(gè)RoI所屬類別和最小外接矩形框的損失函數(shù);LM為Mask損失函數(shù)。
本文使用隨機(jī)梯度下降法對(duì)網(wǎng)絡(luò)以端到端的方式進(jìn)行訓(xùn)練,為了提高訓(xùn)練效率,使用在線難例挖掘(online hard example mining, OHEM)策略,網(wǎng)絡(luò)的初始學(xué)習(xí)率設(shè)置為0.001,權(quán)重衰減設(shè)置為0.000 1,動(dòng)量因子設(shè)置為0.9。實(shí)驗(yàn)在采用自己制作的數(shù)據(jù)集進(jìn)行訓(xùn)練前,分別將原始Mask R-CNN與改進(jìn)的Mask R-CNN網(wǎng)絡(luò)模型在COCO2017數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。
實(shí)驗(yàn)采用相同的訓(xùn)練集測(cè)試集對(duì)比分析對(duì)改進(jìn)前后的Mask R-CNN性能差異,并繪制2個(gè)網(wǎng)絡(luò)模型的loss曲線,如圖7所示。由圖7可以看出,改進(jìn)Mask R-CNN的收斂速度要比原始Mask R-CNN網(wǎng)絡(luò)快。當(dāng)?shù)芷谶_(dá)到5次時(shí),改進(jìn)Mask R-CNN網(wǎng)絡(luò)基本趨于收斂,原始Mask R-CNN網(wǎng)絡(luò)模型則要迭代到27次左右,模型才趨于收斂。改進(jìn)Mask R-CNN的損失值最終趨近于0,要低于原始Mask R-CNN網(wǎng)絡(luò)。
圖7 改進(jìn)前后loss函數(shù)曲線圖Fig.7 Loss function curve before and afterimprovement
4種網(wǎng)絡(luò)模型訓(xùn)練過(guò)程的準(zhǔn)確率-召回率曲線如圖8所示。引入AUC(Area Under Curve)曲線下面積用于量化對(duì)比不同網(wǎng)絡(luò)模型的泛化性能。AUC值可以直觀的反映學(xué)習(xí)器性能的優(yōu)劣,由圖8可以看出,改進(jìn)前后的Mask R-CNN的AUC值均可達(dá)到了0.90以上,但改進(jìn)后的Mask R-CNN網(wǎng)絡(luò)算法的AUC值提高了0.05左右。
圖8 準(zhǔn)確率-召回率曲線Fig.8 Precision-recall curve
為了更好地對(duì)比不同網(wǎng)絡(luò)模型特征提取的差異,將特征提取的部分結(jié)果進(jìn)行可視化操作。由于高層特征圖的維度較低,顯示的特征較少,圖9給出了根據(jù)最終權(quán)重模型得到的輸入RoIAlign模塊的特征二值化可視化結(jié)果。每一行第1列為原圖,中間為可視化結(jié)果,右邊為識(shí)別結(jié)果。對(duì)比分析可以發(fā)現(xiàn),4種網(wǎng)絡(luò)模型都對(duì)蘋果的邊緣特征比較敏感,而改進(jìn)Mask R-CNN網(wǎng)絡(luò)模型提取的邊緣特征較原始Mask R-CNN亮度要亮。
(a) Mask R-CNN(ResNet50)
(c) Mask R-CNN(ResNet50+Dilation2)
為了驗(yàn)證本文改進(jìn)Mask R-CNN算法模型對(duì)不同屬性蘋果目標(biāo)的識(shí)別性能,進(jìn)一步統(tǒng)計(jì)分析了5種不同網(wǎng)絡(luò)模型在測(cè)試集不同類型圖片上的識(shí)別結(jié)果。YOLO v3網(wǎng)絡(luò)因在目標(biāo)檢測(cè)領(lǐng)域具有較快的運(yùn)行速度和較高的準(zhǔn)確率,許多科研工作者將其應(yīng)用于水果自動(dòng)采摘領(lǐng)域。本文將原始Mask R-CNN算法和改進(jìn)Mask R-CNN算法與YOLO v3目標(biāo)檢測(cè)網(wǎng)絡(luò)進(jìn)行對(duì)比。
針對(duì)不同光照條件和不同顏色的蘋果,5種不同網(wǎng)絡(luò)模型的具體識(shí)別性能結(jié)果見(jiàn)表1和表2。
表1 不同網(wǎng)絡(luò)模型在不同光照角度下的識(shí)別性能
表2 不同網(wǎng)絡(luò)模型對(duì)不同顏色蘋果的識(shí)別性能
由表1和表2可知,基于Mask R-CNN框架的多種網(wǎng)絡(luò)模型在多種場(chǎng)景下的識(shí)別效果均優(yōu)于YOLO v3網(wǎng)絡(luò),這主要是因?yàn)镸ask R-CNN網(wǎng)絡(luò)能夠同時(shí)對(duì)輸入的圖像進(jìn)行目標(biāo)檢測(cè)與分割操作,比單獨(dú)進(jìn)行目標(biāo)檢測(cè)的網(wǎng)絡(luò)模型具有更好的檢測(cè)效果。同時(shí),容易發(fā)現(xiàn)5種網(wǎng)絡(luò)模型對(duì)順光和紅色蘋果的識(shí)別效果最好,對(duì)逆光和黃色的識(shí)別效果最差,這可能是因?yàn)榧t色蘋果與綠葉等背景色差比較大,順光的情況下蘋果輪廓比較清晰;黃色蘋果因?yàn)轭伾容^淡,在逆光的情況下色差不明顯等原因造成的。在識(shí)別速度方面,YOLO v3達(dá)到了每幀20.18 ms;對(duì)基于Mask R-CNN框架的網(wǎng)絡(luò)模型,主干網(wǎng)絡(luò)是ResNet101的網(wǎng)絡(luò)模型比對(duì)應(yīng)的ResNet50網(wǎng)絡(luò)模型檢測(cè)速度平均慢10 ms左右,膨脹改造后的網(wǎng)絡(luò)模型比對(duì)應(yīng)的Mask R-CNN網(wǎng)絡(luò)模型速度平均慢2 ms左右。在識(shí)別性能方面,膨脹卷積改造后的網(wǎng)絡(luò)模型要比原始的Mask R-CNN網(wǎng)絡(luò)模型F1高2%左右,說(shuō)明膨脹卷積結(jié)構(gòu)有助于提升模型的識(shí)別性能。
不同類型蘋果在不同網(wǎng)絡(luò)模型結(jié)構(gòu)下的識(shí)別效果如圖10所示。圖10中,每一行最左邊的圖為待識(shí)別的原圖,第2張到第6張分別代表網(wǎng)絡(luò)模型YOLO v3, Mask R-CNN (ResNet50), Mask R-CNN (ResNet101), Mask R-CNN (Dilation+ResNet50)和Mask R-CNN (Dilation+ResNet101)的識(shí)別效果圖。從圖10可以看出,紅色蘋果與背景色差大,輪廓清晰,易識(shí)別;黃色、綠色蘋果顏色與背景色差小,識(shí)別難度有所增加;紅綠相間的蘋果識(shí)別難度介于兩者之間。此外,蘋果在順光、側(cè)光和LED燈等光照條件下紋理清楚,表面光照強(qiáng)度均勻,識(shí)別難度?。辉谀婀馇闆r下,蘋果邊緣輪廓模糊,識(shí)別難度大。觀察逆光黃色蘋果的識(shí)別結(jié)果可以發(fā)現(xiàn),從識(shí)別數(shù)量上可以看到,Mask R-CNN (ResNet50)和Mask R-CNN (ResNet101)網(wǎng)絡(luò)模型均未識(shí)別出右上角的蘋果,改進(jìn)后的Mask R-CNN模型較好的識(shí)別出圖片中右上角的蘋果,這說(shuō)明膨脹卷積有助于提取更加抽象有效的特征。
(a) 順光紅色蘋果
(b) 逆光黃色蘋果
(c) 側(cè)光紅綠相間蘋果
(d) LED照明綠色蘋果
小目標(biāo)檢測(cè)一直是深度學(xué)習(xí)領(lǐng)域亟待解決的一大難題。因?yàn)樾∧繕?biāo)常常成簇聚集在一起,目前主流的目標(biāo)檢測(cè)模型難以進(jìn)行有效地分辨,常會(huì)出現(xiàn)漏識(shí)的情形。在蘋果采摘環(huán)節(jié),也存在著大小成簇目標(biāo)聚集的情況,攝像頭距離蘋果的遠(yuǎn)近不同,采集到的圖像中蘋果目標(biāo)大小也不相同,識(shí)別難度也全不相同。針對(duì)大小目標(biāo)的情形,由于本文神經(jīng)網(wǎng)絡(luò)模型輸入圖片的大小固定為512×384像素,根據(jù)圖片中待識(shí)別目標(biāo)距離的遠(yuǎn)近劃分大小目標(biāo)。分析發(fā)現(xiàn),距離較近的蘋果目標(biāo),表現(xiàn)出目標(biāo)數(shù)量少,尺寸大的特征,因此,根據(jù)圖片中蘋果數(shù)量的多少劃分大中小蘋果目標(biāo)。實(shí)驗(yàn)中將測(cè)試集圖片共劃分成3個(gè)等級(jí),大目標(biāo)(圖片中包含1~2個(gè)蘋果)、中等目標(biāo)(圖片中包含3~5個(gè)蘋果)、小目標(biāo)(圖片中蘋果數(shù)量超過(guò)5個(gè)),待識(shí)別蘋果數(shù)量越多,識(shí)別難度越大。5個(gè)不同的網(wǎng)絡(luò)模型具體識(shí)別性能對(duì)比如圖11所示。圖11中不同網(wǎng)絡(luò)編號(hào)對(duì)應(yīng)的不同網(wǎng)絡(luò)模型具體為:編號(hào)1對(duì)應(yīng)的網(wǎng)絡(luò)模型是YOLO v3;編號(hào)2對(duì)應(yīng)的網(wǎng)絡(luò)模型是主干網(wǎng)絡(luò)為ResNet50的Mask R-CNN網(wǎng)絡(luò);編號(hào)3對(duì)應(yīng)的是主干網(wǎng)絡(luò)為ResNet101的Mask R-CNN網(wǎng)絡(luò);編號(hào)4對(duì)應(yīng)的是主干網(wǎng)絡(luò)為ResNet50的膨脹卷積Mask R-CNN 網(wǎng)絡(luò)模型;編號(hào)5對(duì)應(yīng)的是主干網(wǎng)絡(luò)為ResNet101的膨脹卷積Mask R-CNN 網(wǎng)絡(luò)模型。
圖11 不同大小目標(biāo)識(shí)別性能結(jié)果Fig.11 Recognition results of large and small object
由圖12容易看出,5種不同網(wǎng)絡(luò)模型針對(duì)大目標(biāo)的識(shí)別效果都特別好,識(shí)別性能F1值都在0.95以上。在對(duì)小目標(biāo)進(jìn)行識(shí)別時(shí),YOLO v3的識(shí)別性能只有0.84左右。針對(duì)小目標(biāo),識(shí)別性能最好的是5號(hào)網(wǎng)絡(luò),F(xiàn)1值接近0.95。4號(hào)網(wǎng)絡(luò)和5號(hào)網(wǎng)絡(luò)模型識(shí)別性能比較接近。5種網(wǎng)絡(luò)模型針對(duì)不同大小蘋果的識(shí)別效果如圖12所示。圖12中,每一行最左邊的圖為待識(shí)別的原圖,第2張到第6張分別代表編號(hào)為1~5網(wǎng)絡(luò)模型的識(shí)別效果圖。在識(shí)別結(jié)果中也可以看出,大目標(biāo)和中等目標(biāo)均未出現(xiàn)漏識(shí)的情況;觀察小目標(biāo)識(shí)別效果圖可以發(fā)現(xiàn),雖然紅色蘋果與背景色差大,由于蘋果遮擋嚴(yán)重,待識(shí)別目標(biāo)輪廓模糊等原因,使得許多蘋果出現(xiàn)了漏識(shí);對(duì)比可以發(fā)現(xiàn),改進(jìn)的Mask R-CNN取得了最好的識(shí)別效果。
(a) 大目標(biāo)
(b) 中等目標(biāo)
(c) 小目標(biāo)
以自然場(chǎng)景下果園蘋果果實(shí)的識(shí)別為研究對(duì)象,研究結(jié)果發(fā)現(xiàn),與原始Mask R-CNN網(wǎng)絡(luò)相比,針對(duì)不同光照角度、不同顏色以及不同大小的蘋果,基于膨脹卷積改進(jìn)的Mask R-CNN網(wǎng)絡(luò)在多種情形下的識(shí)別性能均有提升。主干網(wǎng)絡(luò)為ResNet50或者ResNet101時(shí),經(jīng)過(guò)膨脹卷積改進(jìn)過(guò)的Mask R-CNN網(wǎng)絡(luò)不僅收斂速度快,而且網(wǎng)絡(luò)的損失值也有所降低。這證明了本文的網(wǎng)絡(luò)模型優(yōu)化策略是可行的。采用包含膨脹卷積結(jié)構(gòu)的ResNet代替原始的特征提取網(wǎng)絡(luò)ResNet網(wǎng)絡(luò),不同光照角度、不同顏色蘋果的F1值提升2%左右,加快了模型的收斂速度。針對(duì)不同大小蘋果的識(shí)別,與經(jīng)典Mask R-CNN相比,改進(jìn)Mask R-CNN的識(shí)別效果與原始Mask R-CNN相比,改進(jìn)Mask R-CNN的F1值提升了4.93%。