鄭 凱,方 春,袁思邈,馮 創(chuàng),李國(guó)坤
山東理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 淄博255049
21 世紀(jì)以來(lái),我國(guó)經(jīng)濟(jì)高速發(fā)展,從溫飽堪憂到現(xiàn)在豐年有余,農(nóng)業(yè)的發(fā)展實(shí)現(xiàn)了重大飛躍。北方地區(qū)因光照充足、四季分明等優(yōu)越的地理因素,溫室種植技術(shù)得以廣泛推廣。通過(guò)調(diào)查發(fā)現(xiàn),一方面當(dāng)前的溫室種植管理中瓜果自然授粉已經(jīng)行不通,大部分采用涂抹激素的方式實(shí)現(xiàn)坐果、膨果。另一方面溫室種植管理仍采用人力為主的種植方式,在摘果、摸茬、驅(qū)蟲(chóng)、授粉等精細(xì)工作中一直采用人的視覺(jué)。長(zhǎng)時(shí)間的用眼工作容易形成視覺(jué)疲勞,對(duì)農(nóng)民的身體也會(huì)造成巨大傷害。在茄子溫室種植過(guò)程中,常常因種植數(shù)量大、天氣溫度影響、技術(shù)與經(jīng)驗(yàn)不足等原因?qū)е率诜壑芷诎芽夭坏轿唬率瑰e(cuò)過(guò)最佳授粉時(shí)期,造成坐果難、坐果畸形、爛果等問(wèn)題,直接導(dǎo)致減產(chǎn),使農(nóng)民經(jīng)濟(jì)效益遭受損失[1-2]。因此,將基于深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)技術(shù)應(yīng)用于茄子的種植管理,使其與自動(dòng)授粉機(jī)器人或農(nóng)作物生長(zhǎng)管理系統(tǒng)對(duì)接,能有效調(diào)控茄花授粉周期,為農(nóng)民提供更高效的茄花授粉方案,利于規(guī)避天氣、溫度、人為等因素導(dǎo)致的管理問(wèn)題,使果實(shí)品質(zhì)得到提升,使產(chǎn)量得到提高,使農(nóng)民增收。
目前基于深度學(xué)習(xí)的智能信息處理技術(shù)在農(nóng)業(yè)中的應(yīng)用主要分為三個(gè)部分:產(chǎn)前、產(chǎn)中和產(chǎn)后[3]。在產(chǎn)前工作中主要應(yīng)用于農(nóng)作物選種,如去雜質(zhì)、質(zhì)量精選等。王潤(rùn)濤等以正常豆、灰斑豆、霉變豆、蟲(chóng)蝕豆為研究對(duì)象,通過(guò)動(dòng)態(tài)閾值分割算法,使豆粒與背景分離,并提取形狀、顏色、紋理等多個(gè)特征參數(shù)進(jìn)行測(cè)試,并采用BP神經(jīng)網(wǎng)絡(luò)建立分類模型,使分類精度達(dá)到了98%,取得了良好效果[4]。Nie等使用近紅外高光譜成像技術(shù)與深度學(xué)習(xí)相結(jié)合,將其用于秋葵和絲瓜混雜種子的分類,經(jīng)過(guò)優(yōu)化并與其他學(xué)習(xí)模型比較后,使分類精度提高到了95%以上[5]。在產(chǎn)中主要應(yīng)用于雜草識(shí)別、植物生長(zhǎng)檢測(cè)、果實(shí)采摘、病蟲(chóng)害識(shí)別等。Espejo-Garcia 等通過(guò)使用Xception 模型并結(jié)合深度對(duì)抗網(wǎng)絡(luò)擴(kuò)充數(shù)據(jù)集,完成了對(duì)番茄等顏色分明的茄科植物內(nèi)的雜草識(shí)別任務(wù),獲得了99.07%的識(shí)別準(zhǔn)確度,為實(shí)現(xiàn)自動(dòng)雜草控制提供了技術(shù)支持[6]。Ferentinos 等利用深度學(xué)習(xí)的方法,通過(guò)對(duì)健康和病株葉片圖像建立卷積神經(jīng)網(wǎng)絡(luò)模型,經(jīng)過(guò)訓(xùn)練后達(dá)到了99.53%的識(shí)別成功率[7]。在產(chǎn)后應(yīng)用主要為:農(nóng)產(chǎn)品質(zhì)量檢測(cè)、農(nóng)產(chǎn)品成熟度分析等。畢智健等將采集到的番茄RGB圖像,進(jìn)行去除背景、濾波去噪、轉(zhuǎn)換成HIS 顏色模型和HSV 顏色模型,然后獲取R、G、B、H、S、V、I各顏色分量的均值,最后運(yùn)用SPSS(statistical product and service solutions)軟件進(jìn)行判別篩選組合特征分量,通過(guò)判別分析后,半熟番茄判別率達(dá)到94.74%,成熟番茄達(dá)到了76.67%,完熟番茄達(dá)到了90%[8]。Han等通過(guò)建立人工神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)了對(duì)梨圖像的特征提取自動(dòng)化,針對(duì)梨表面斑點(diǎn)對(duì)缺陷檢測(cè)的影響,提出了一種基于V分量動(dòng)態(tài)閾值的斑點(diǎn)去除方法。最終該模型在630張梨圖像的識(shí)別率達(dá)到了90.3%[9]。
國(guó)內(nèi)外針對(duì)作物花卉器官識(shí)別研究也取得了一定進(jìn)展。例如Feng等提出了一種基于VGG16模型和Adma深度學(xué)習(xí)優(yōu)化算法的花朵識(shí)別方法,并通過(guò)遷移學(xué)習(xí)方法加速網(wǎng)絡(luò)收斂。在30類花卉數(shù)據(jù)集上的識(shí)別準(zhǔn)確率為98.99%[10]。岳有軍等發(fā)明了一種花蕾判別方法,首先使用中值濾波對(duì)圖像進(jìn)行預(yù)處理,其次計(jì)算SURF關(guān)鍵點(diǎn)并形成直方圖,最后將直方圖形成特征向量利用支持向量機(jī)進(jìn)行花蕾判別[11]。以上方法雖然能對(duì)花朵類別進(jìn)行有效識(shí)別,但存在特征提取困難、操作復(fù)雜,識(shí)別效率低、獲得信息簡(jiǎn)單等不足。本文使用的Mask R-CNN不僅能夠識(shí)別花朵,辨別花期,而且能夠輸出目標(biāo)在圖像中的位置,預(yù)測(cè)屬于目標(biāo)物的像素,并將其從背景中分割出來(lái),覆上一層掩膜。這為后期應(yīng)用于機(jī)器人自動(dòng)授粉,實(shí)現(xiàn)授粉周期管理,預(yù)測(cè)果實(shí)產(chǎn)量提供了技術(shù)支持。
綜上所述,國(guó)內(nèi)外眾多研究人員已經(jīng)將與深度學(xué)習(xí)相結(jié)合的計(jì)算機(jī)視覺(jué)技術(shù)應(yīng)用到農(nóng)業(yè)生產(chǎn)的各個(gè)環(huán)節(jié),并取得了良好的效果,但對(duì)農(nóng)作物花期識(shí)別及自動(dòng)授粉環(huán)節(jié)研究甚少。且隨著深度學(xué)習(xí)技術(shù)的應(yīng)用,研究數(shù)據(jù)的數(shù)據(jù)量向巨量的方向發(fā)展,數(shù)據(jù)復(fù)雜度向更復(fù)雜、更多元化方向發(fā)展,單任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)已經(jīng)逐漸不再引人矚目,取而代之的是集成、復(fù)雜、一石多鳥(niǎo)的多任務(wù)網(wǎng)絡(luò)模型[12-13]。
在同一茄子種植大棚中,利用獨(dú)立于PC 的攝像設(shè)備,采集大量處于不同生長(zhǎng)時(shí)期(花苞期、盛開(kāi)期未授粉、盛開(kāi)期已授粉)、不同光照、不同角度、不同背景下的茄花圖像作為數(shù)據(jù)集,以模擬復(fù)雜的真實(shí)環(huán)境提高模型魯棒性;使用VIA標(biāo)注工具經(jīng)過(guò)人工標(biāo)注的方式完成數(shù)據(jù)集的標(biāo)注工作。共獲得圖像4 000張,其中3 200張作為訓(xùn)練集,800張用于驗(yàn)證集。三類不同花期的茄花標(biāo)注情況如圖1所示,茄花在人工授粉后會(huì)在花柄處有紅色標(biāo)記,茄花數(shù)據(jù)集構(gòu)成如表1所示。
圖1 三類不同花期的茄花標(biāo)注情況Fig.1 Three types of eggplant flowers in different flowering periods
表1 茄花數(shù)據(jù)集結(jié)構(gòu)Table 1 Eggplant flower data set structure
本研究擬采用Mask R-CNN[14]模型作為基線模型。其是“兩步法”家族最新成果,相對(duì)于Faster R-CNN主要有兩個(gè)改進(jìn)方面,一是將ROI pooling 改進(jìn)為ROI Align,采用雙線性插值法改變了ROI pooling layer 因兩次量化無(wú)法將feature map 與原像素精準(zhǔn)對(duì)齊的問(wèn)題,滿足了圖像語(yǔ)義分割像素級(jí)要求。二是添加圖像分割分支,將分割結(jié)果以掩膜形式輸出,能夠同時(shí)支持目標(biāo)檢測(cè)與目標(biāo)分割。此模型為2018年計(jì)算機(jī)視覺(jué)領(lǐng)域的重要成果,滿足了現(xiàn)階段高集成度、高復(fù)雜度及多任務(wù)的要求。Mask R-CNN模型結(jié)構(gòu)如圖2所示。
由圖2 可知,Mask R-CNN 模型分為三部分,第一部分為特征提取網(wǎng)絡(luò),可使用ResNet50或ResNet101作為主干網(wǎng)絡(luò),原網(wǎng)絡(luò)為適應(yīng)COCO數(shù)據(jù)集小目標(biāo)物居多的特征,引入了特征金字塔結(jié)構(gòu)(feature pyramid networks,F(xiàn)PN),增加了對(duì)小目標(biāo)物的檢測(cè)精度;第二部分為候選區(qū)域生成網(wǎng)絡(luò)(region proposal networks,RPN),依靠一個(gè)在共享特征圖上滑動(dòng)的窗口,為每個(gè)位置生成9種預(yù)先設(shè)置好長(zhǎng)寬比與面積的目標(biāo)框(anchor)。這9種初始anchor 包含三種面積(128×128、256×256、512×512),每種面積又包含三種長(zhǎng)寬比(1∶1、1∶2、2∶1);第三部分為分類網(wǎng)絡(luò),此部分有三個(gè)任務(wù),一是完成對(duì)目標(biāo)的分類,二是完成對(duì)邊界框的定位,三是完成對(duì)目標(biāo)像素的分割。因此,損失函數(shù)包括分類損失、邊界框定位損失和掩膜預(yù)測(cè)損失,Mask R-CNN 模型總損失如公式(1)所示:
分類損失Lcls如公式(2)所示:
其中,p表示屬于k類的背景和概率,通常由全連接層利用Softmax計(jì)算得出。u對(duì)應(yīng)于真實(shí)類別。
邊界框定位損失Lbbox如公式(3)所示:
掩膜預(yù)測(cè)損失Lmask如公式(4)所示:
其中,m為掩膜像素?cái)?shù)量,為像素所屬的真實(shí)類別標(biāo)簽,p(mi)是對(duì)像素mi的預(yù)測(cè)概率。
圖像分割實(shí)質(zhì)上是一種基于像素級(jí)的操作,需要對(duì)圖像中每一個(gè)像素點(diǎn)進(jìn)行判斷,目標(biāo)像素的完整與否會(huì)對(duì)分割結(jié)果產(chǎn)生巨大影響[15-16];同時(shí),目標(biāo)分割過(guò)程中不止要考慮到每個(gè)像素本身,還需要結(jié)合局部甚至全局信息。目前,大多數(shù)的圖像分割算法在特征提取過(guò)程中通常使用池化層與卷積層相結(jié)合的方法,通過(guò)下采樣達(dá)到增加感受野(receptive filed)的效果,但一次次卷積造成特征圖不斷縮小,最后利用上采樣還原圖像尺寸,在特征圖先縮小再放大的過(guò)程中丟失了巨量信息。因此,提出使用空洞卷積代替普通卷積的方法,在不改變特征圖尺寸的前提下,擴(kuò)大感受野,使模型對(duì)大目標(biāo)物有更好的識(shí)別與分割效果。
空洞卷積[17]實(shí)質(zhì)上是在普通卷積的基礎(chǔ)上引入了一個(gè)稱為“擴(kuò)張率(dilation rate)”的超參數(shù),該參數(shù)代表了像卷積核中填充空洞的數(shù)量,因此擴(kuò)張率又叫空洞數(shù)。當(dāng)dilation rate 分別等于1、2 且卷積核大小為3×3時(shí),二維空洞卷積填充示意如圖3所示。
圖3 二維空洞卷積填充示意圖Fig.3 Schematic diagram of two-dimensional dilated convolution filling
由圖3 可以看出,當(dāng)dilation rate=1 時(shí),此時(shí)空洞卷積即為普通卷積,特征圖(Feature Map)中每一像素的感受野為3;當(dāng)dilation rate=2 時(shí),填充空洞數(shù)為1,卷積核尺寸被擴(kuò)充為5×5,此時(shí)特征圖中每個(gè)像素的感受野為5。但特征圖總的感受野并不是每層感受野簡(jiǎn)單的相加,而是隨著卷積次數(shù)的增加呈指數(shù)式增長(zhǎng)。當(dāng)前層感受野計(jì)算公式如公式(5)所示:
RFi+1表示當(dāng)前層的感受野,RFi表示上一層的感受野,Si表示之前所有層步長(zhǎng)的乘積(不包括本層),Si公式如公式(6)所示:
假設(shè)多次疊加卷積核尺寸為3×3,dilation rate=2的卷積層,則會(huì)出現(xiàn)如圖4 所示的網(wǎng)格現(xiàn)象,稱之為網(wǎng)格效應(yīng)(gridding effect)。
圖4 網(wǎng)格效應(yīng)示意圖Fig.4 Schematic diagram of grid effect
由圖4 可以看出空洞卷積具有兩個(gè)潛在問(wèn)題。一是多次疊加多個(gè)具有相同空洞率的卷積核會(huì)造成網(wǎng)格效應(yīng),即格網(wǎng)中有一些像素自始至終都沒(méi)有參與運(yùn)算,不起任何作用,這對(duì)于像素級(jí)別的預(yù)測(cè)任務(wù)是致命的。二是使用大的dilation rate 雖然獲得了更大的感受野,但是對(duì)于一些小目標(biāo)物是不友好的,因?yàn)樗鼈儽旧聿⒉恍枰^大的感受野。混合空洞卷積(hybrid dilated convolution,HDC)的提出很好地解決了以上兩個(gè)問(wèn)題,即混合使用多個(gè)不同空洞率的空洞卷積核?;旌峡斩绰实氖褂脩?yīng)符合以下三個(gè)原則:
(1)疊加卷積的dilation rate 不能有大于1 的公約數(shù)。比如[2,4,6],否則依然會(huì)出現(xiàn)網(wǎng)格效應(yīng)。
(2)應(yīng)將dilation rate設(shè)計(jì)成鋸齒狀結(jié)構(gòu),例如[1,2,5,1,2,5]循環(huán)結(jié)構(gòu)。
(3)兩個(gè)非0像素點(diǎn)之間最大距離需要滿足公式(7):
其中,ri是i層的dilation rate 而Mi是在i層的最大dilation rate,若假設(shè)共有m層,則Mm=rm,假設(shè)使用k×k尺寸的卷積核則應(yīng)滿足M2≤k,這樣可以用dilation rate=1 來(lái)覆蓋所有像素。使用不同空洞率卷積覆蓋所有像素的過(guò)程示意圖如圖5所示。
圖5 混合空洞率卷積填充示意圖Fig.5 Schematic diagram of mixed hole rate convolution filling
Mask R-CNN 使用深度殘差網(wǎng)絡(luò)(ResNet)作為特征提取的主干網(wǎng)絡(luò),ResNet的出現(xiàn)是為了解決隨著網(wǎng)絡(luò)深度的增加而出現(xiàn)的梯度消失或梯度爆炸的問(wèn)題,其實(shí)現(xiàn)過(guò)程類似于電路中的“短路”,通過(guò)短路機(jī)制加入了殘差單元,更改了網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)目的,原本學(xué)習(xí)的是通過(guò)圖像X卷積得到的圖像特征H(X),現(xiàn)在學(xué)習(xí)的是圖像與特征的殘差H(X)-X;其網(wǎng)絡(luò)深度是通過(guò)疊加殘差塊的方法實(shí)現(xiàn)的,因此只需在殘差塊中將標(biāo)準(zhǔn)卷積替換為混合空洞卷積即可?;緣K融合HDC 示意如圖6所示。
圖6 基本塊融合HDCFig.6 Basic block fusion HDC
由圖6 可以看出,每一個(gè)殘差塊由三層卷積構(gòu)成,卷積核大小分別是1×1、3×3和1×1,空洞卷積使用會(huì)帶來(lái)一定的計(jì)算量,為防止計(jì)算量過(guò)度增加影響模型運(yùn)行效率,實(shí)驗(yàn)中將3×3 尺寸卷積層替換為混合空洞卷積,以達(dá)到準(zhǔn)確率和效率之間的平衡。
本文研究實(shí)驗(yàn)環(huán)境如表2所示。
表2 實(shí)驗(yàn)環(huán)境Table 2 Experimental environment
目標(biāo)檢測(cè)任務(wù)的主要評(píng)價(jià)指標(biāo)為AP(average precision)與mAP(mean average precision)。AP指某一類別目標(biāo)的預(yù)測(cè)準(zhǔn)確度,由查準(zhǔn)率P(precision)與查全率R(recall)得出,如公式(8)所示;mIOU(mean intersectionover-union)如公式(9)所示,為每一類別交并比(intersectionover-union,IOU)值相加求平均,反映了整個(gè)模型的目標(biāo)分割準(zhǔn)確度。因此mAP與mIOU是基于全局的評(píng)價(jià)。
pij表示真實(shí)值為i,被預(yù)測(cè)為j的數(shù)量,k+1 是類別個(gè)數(shù)。pii是真正例的數(shù)量。pij、pji則分別表示假正和假負(fù)的數(shù)量。
3.1.1 基線模型選擇
Mask R-CNN目前可供選擇的主干網(wǎng)絡(luò)有ResNet101和ResNet50兩種,兩者的不同主要表現(xiàn)在網(wǎng)絡(luò)深度,網(wǎng)絡(luò)的深度決定著網(wǎng)絡(luò)參數(shù)的復(fù)雜度,網(wǎng)絡(luò)參數(shù)的增加會(huì)帶來(lái)更大的計(jì)算量。因此,需要為網(wǎng)絡(luò)選擇合適的特征提取網(wǎng)絡(luò),以達(dá)到模型訓(xùn)練和性能的平衡。擁有不同主干網(wǎng)絡(luò)的Mask R-CNN模型經(jīng)過(guò)100個(gè)Epoch在測(cè)試集與驗(yàn)證集下的損失圖像如圖7 所示,定量分析結(jié)果如表3所示。
圖7 不同主干網(wǎng)絡(luò)下的損失Fig.7 Losses under different backbone networks
表3 不同主干網(wǎng)絡(luò)的定性分析結(jié)果Table 3 Qualitative analysis results of different backbone networks
由圖7可知,在100個(gè)Epoch時(shí)模型達(dá)到擬合狀態(tài),且兩模型最終的網(wǎng)絡(luò)損失相差不大,但ResNet50 在訓(xùn)練集與驗(yàn)證集上擁有更低的損失值,說(shuō)明以其作為主干網(wǎng)絡(luò)的性能要好于ResNet101;從圖中還可以看出在訓(xùn)練集上的損失遠(yuǎn)小于驗(yàn)證集損失,說(shuō)明網(wǎng)絡(luò)出現(xiàn)了嚴(yán)重的過(guò)擬合現(xiàn)象。
mAPx指所有類別目標(biāo)預(yù)測(cè)平均準(zhǔn)確度,x代表不同的IOU 閾值,通過(guò)表3 可以看出在IOU=50 時(shí)mAP 均取得最大值,兩模型表現(xiàn)相差無(wú)幾,但ResNet50作為主干網(wǎng)絡(luò)時(shí)目標(biāo)分割精度略高。綜合考慮模型復(fù)雜度與模型表現(xiàn),選用基于ResNet50 的Mask R-CNN 網(wǎng)絡(luò)作為基線網(wǎng)絡(luò)較為合適。其他分支網(wǎng)絡(luò)損失如圖8所示。
圖8 分支網(wǎng)絡(luò)損失Fig.8 Branch network loss
由圖8 看出模型大約在80 次Epoch 各分支處于穩(wěn)定擬合狀態(tài);在訓(xùn)練集上的損失小于驗(yàn)證集損失且目標(biāo)框定位分支尤為明顯,驗(yàn)證了之前出現(xiàn)過(guò)擬合的假設(shè)。
3.1.2 基線模型分析
使用基線模型Mask R-CNN50 在測(cè)試集中進(jìn)行定性分析結(jié)果如圖9 所示。圖9 中(a)表示標(biāo)記的真實(shí)樣本,(b)為手動(dòng)分割的真實(shí)掩膜,(c)為Mask R-CNN50的預(yù)測(cè)結(jié)果,(d)為預(yù)測(cè)掩膜。通過(guò)對(duì)比大目標(biāo)物小目標(biāo)物(相對(duì)于整個(gè)圖像)的分割掩膜,發(fā)現(xiàn)該基線模型對(duì)小目標(biāo)物的分割效果好于較大目標(biāo)物,對(duì)大目標(biāo)物預(yù)測(cè)分割形成的掩膜與目標(biāo)的真實(shí)掩膜有一定差距,細(xì)節(jié)處理不夠好,甚至出現(xiàn)誤分割的情況,如最后一行,將部分花柄誤分割為花苞。
圖9 定性分析結(jié)果Fig.9 Qualitative analysis results
對(duì)數(shù)據(jù)集中三類別目標(biāo)物的定量分析如表4 所示。表4 中數(shù)據(jù)指標(biāo)可以看出基線模型對(duì)小目標(biāo)物的檢測(cè)準(zhǔn)確度與分割精確度均好于較大目標(biāo),這可能得益于FPN(特征金字塔網(wǎng)絡(luò))結(jié)構(gòu),通過(guò)將上采樣與下采樣過(guò)程中各層特征相融合的方式加強(qiáng)了對(duì)小目標(biāo)物的特征提取能力,使得對(duì)小目標(biāo)物具有較高的檢測(cè)精度,但對(duì)像素級(jí)的圖像分割沒(méi)有助益。
表4 三類目標(biāo)物的定量分析Table 4 Quantitative analysis of three types of targets
為驗(yàn)證改進(jìn)模型的有效性,在相同數(shù)據(jù)集下,對(duì)HDC-Mask R-CNN 模型進(jìn)行訓(xùn)練,使模型保持相同的初始參數(shù),同樣進(jìn)行100個(gè)Epoch訓(xùn)練,使其與基線模型進(jìn)行對(duì)比分析結(jié)果如表5所示。每個(gè)類別對(duì)應(yīng)的P-R曲線如圖10所示。
圖10 對(duì)應(yīng)類別的P-R曲線Fig.10 P-R curve of corresponding category
表5 HDC-Mask R-CNN與基線模型對(duì)比結(jié)果Table 5 Comparison results of HDC-Mask R-CNN and baseline model
從表5 可以得知,融合混合空洞卷積算法的HDCMask R-CNN50 模型相較于基線模型Mask R-CNN50模型在目標(biāo)檢測(cè)平均精度mAP 上提升了0.4%,平均交并比mIOU提升了2.2%,通過(guò)對(duì)比每個(gè)類別的IOU值發(fā)現(xiàn),新模型對(duì)大目標(biāo)物分割精度提升較為明顯,且小目標(biāo)物的分割精度也沒(méi)有因模型改動(dòng)而受到影響。圖10P-R 曲線反映了在交并比閾值為0.5 時(shí),每類目標(biāo)的識(shí)別精度,AP即曲線下面積,其數(shù)值越接近于1,表明目標(biāo)識(shí)別越精確??梢钥闯龈倪M(jìn)后的模型對(duì)三類目標(biāo)均有較高的識(shí)別準(zhǔn)確率。對(duì)兩模型進(jìn)行定性分析如圖11所示。
從圖11 對(duì)比可以看出,原模型在檢測(cè)過(guò)程中出現(xiàn)了目標(biāo)分割不準(zhǔn)確(對(duì)比第一行第四列與第一行第六列掩膜)、分割細(xì)節(jié)缺失、漏分割(如第三行)等問(wèn)題,改進(jìn)后的模型明顯改善了上述問(wèn)題,目標(biāo)分割更精確,有效改善了誤分割、重復(fù)分割等現(xiàn)象。實(shí)驗(yàn)證明改進(jìn)的模型在處理大目標(biāo)物分割精度問(wèn)題上有了明顯提高。
圖11 改進(jìn)模型與原模型預(yù)測(cè)結(jié)果定性分析比較Fig.11 Qualitative analysis and comparison between improved model and original model
Mask R-CNN 模型與Fast R-CNN[18]模型及Faster R-CNN[19]模型同屬“兩步法”家族,即物體的分類問(wèn)題與物體的區(qū)域回歸問(wèn)題是分兩步實(shí)現(xiàn)的。Mask R-CNN模型是在Faster R-CNN 基礎(chǔ)上改進(jìn)而來(lái),為滿足圖像分割的像素級(jí)精度要求提出使用雙線性插值法代替Pooling 操作,并且添加了掩膜預(yù)測(cè)分支。DeepMask[20]同樣應(yīng)用了VGG 模型作為特征提取的主要模塊,擁有前景語(yǔ)義分割與前景實(shí)例分割兩條分支;SegNet[21]思路與全卷積網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)十分相似,其使用VGG16的前13層卷積網(wǎng)絡(luò)作為特征提取器,使用Softmax 分類器以獨(dú)立的為每個(gè)像素產(chǎn)生類概率。使各個(gè)模型在本文數(shù)據(jù)集上進(jìn)行訓(xùn)練并進(jìn)行定量分析,結(jié)果如表6所示。
通過(guò)對(duì)比表6 中不同模型在不同閾值下的mAP 可以得知,融合空洞卷積的HDC-Mask R-CNN50 實(shí)例分割算法有著良好表現(xiàn),對(duì)比mIOU 值可知,改進(jìn)的模型在分割精度方面與原模型相比有所提升,并好于其他分割模型。綜上所述,經(jīng)過(guò)實(shí)驗(yàn)數(shù)據(jù)證明本文提出的融合空洞卷積的Mask R-CNN 模型在應(yīng)對(duì)茄花花期識(shí)別任務(wù)上更具優(yōu)勢(shì)。
表6 各個(gè)模型的定量分析Table 6 Quantitative analysis of each model
為模擬正常溫室種植條件下模型的識(shí)別情況,在天氣良好,光照強(qiáng)度適宜時(shí)從溫室攝取角度正常、目標(biāo)無(wú)遮擋的數(shù)張圖像作為實(shí)驗(yàn)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),正常環(huán)境條件下識(shí)別效果如圖12所示。
圖12 正常環(huán)境條件下識(shí)別效果Fig.12 Recognition effect under normal environmental conditions
從圖12 中可以看出,改進(jìn)的模型在保持良好的目標(biāo)識(shí)別效果前提下,對(duì)目標(biāo)物的分割更加精準(zhǔn),對(duì)大目標(biāo)物更注重邊角等細(xì)節(jié)的分割,減少了誤分割及漏檢現(xiàn)象。在本文識(shí)別任務(wù)中表現(xiàn)出了良好效果,達(dá)到了任務(wù)要求。
為分析改進(jìn)后模型對(duì)大小目標(biāo)物的識(shí)別與分割情況,從獨(dú)立于訓(xùn)練集的數(shù)據(jù)集中隨機(jī)選取數(shù)張小目標(biāo)物(目標(biāo)在圖像中的相對(duì)尺寸)和大目標(biāo)物圖像作為實(shí)驗(yàn)對(duì)象,模型預(yù)測(cè)結(jié)果如圖13所示。
圖13 大目標(biāo)物與小目標(biāo)物識(shí)別效果Fig.13 Recognition effect of large target and small target
通過(guò)對(duì)比圖13中原圖真實(shí)掩膜與模型預(yù)測(cè)掩膜可以看出,無(wú)論是對(duì)大目標(biāo)物還是小目標(biāo)物,模型皆表現(xiàn)良好,出現(xiàn)原模型中錯(cuò)分割、重復(fù)識(shí)別分割、漏分割的現(xiàn)象大幅降低,在大目標(biāo)物識(shí)別中通過(guò)對(duì)比原圖像掩膜發(fā)現(xiàn),在分割細(xì)節(jié),分割完整度等方面提升明顯。實(shí)驗(yàn)證明,改進(jìn)后模型對(duì)大目標(biāo)物具有良好的分割效果。
綜合以上分析,融合混合空洞卷積的HDC-Mask R-CNN50 算法,一方面在目標(biāo)分割的邊緣處理上相較于原始的Mask R-CNN算法有了明顯提升,更注意細(xì)節(jié)的處理。另一方面能夠充分考慮全局信息,減少誤檢和漏檢,提升了對(duì)較大目標(biāo)物分割的準(zhǔn)確度與精細(xì)度。
因COCO 數(shù)據(jù)集中不包含與花朵相關(guān)目標(biāo)物,所以,本文在進(jìn)行試驗(yàn)時(shí)并未使用在COCO訓(xùn)練集上預(yù)訓(xùn)練網(wǎng)絡(luò)得到的參數(shù)作為本文網(wǎng)絡(luò)的初始化參數(shù),而是在本文數(shù)據(jù)集上從新訓(xùn)練網(wǎng)絡(luò),但數(shù)據(jù)樣本不足、模型訓(xùn)練時(shí)間長(zhǎng)等原因,造成模型在訓(xùn)練集上表現(xiàn)過(guò)于良好,在驗(yàn)證集上缺少泛化能力,即出現(xiàn)了嚴(yán)重過(guò)擬合現(xiàn)象。因此,提出使用遷移學(xué)習(xí)的方法[22-23],先在含有1 800 張報(bào)春花圖片的數(shù)據(jù)集(來(lái)源于網(wǎng)絡(luò))上進(jìn)行預(yù)訓(xùn)練,目的是增強(qiáng)模型泛化能力,然后將預(yù)訓(xùn)練得到的參數(shù)作為本文網(wǎng)絡(luò)特征提取的初始化參數(shù)繼續(xù)在茄花數(shù)據(jù)集進(jìn)行訓(xùn)練,縮減了重新訓(xùn)練模型的時(shí)間,使模型擬合速度得到提升。使用遷移學(xué)習(xí)的Pre_HDC-MaskRCNN模型在訓(xùn)練集與驗(yàn)證集上的損失如圖14所示。
圖14 遷移學(xué)習(xí)模型損失Fig.14 Transfer learning model loss
由圖14 可以看出,經(jīng)過(guò)遷移學(xué)習(xí)的Pre_HDCMaskRCNN模型在訓(xùn)練一開(kāi)始就有著較低的損失值,且在訓(xùn)練集與測(cè)試集上的損失差值明顯小于重新訓(xùn)練的模型,證明過(guò)擬合現(xiàn)象大為改善,提高了在驗(yàn)證集上的泛化能力;從圖中還可以看出預(yù)訓(xùn)練模型在40個(gè)Epoch左右接近擬合狀態(tài),極大提升了模型訓(xùn)練速度。
首先,本文在Mask R-CNN基礎(chǔ)上提出使用混合空洞卷積的方法,擴(kuò)大了特征圖感受野,解決了對(duì)大目標(biāo)物誤檢、漏檢的問(wèn)題,提高了分割精度,在本文背景任務(wù)中保持較高目標(biāo)識(shí)別準(zhǔn)確率的同時(shí),將目標(biāo)實(shí)例分割準(zhǔn)確率提升了2.2 個(gè)百分點(diǎn),mAP 值達(dá)到了0.962,mIOU值達(dá)到了0.715,模型綜合性能好于其他目標(biāo)檢測(cè)模型。最后,使用遷移學(xué)習(xí)的方法,使過(guò)擬合現(xiàn)象得到改善,提高了模型泛化能力,加快了模型擬合速度。
將HDC-Mask R-CNN50模型應(yīng)用于茄花花期識(shí)別任務(wù),解決了傳統(tǒng)計(jì)算機(jī)視覺(jué)方法易受環(huán)境影響、操作難度大等問(wèn)題,為自動(dòng)化農(nóng)業(yè)進(jìn)一步發(fā)展提供了可行方案,其應(yīng)用有利于解放勞動(dòng)力,幫助農(nóng)民管控授粉周期,提高經(jīng)濟(jì)效益。未來(lái)還可應(yīng)用于智能授粉機(jī)器人或推廣到病蟲(chóng)害識(shí)別、植物生長(zhǎng)周期管控等其他領(lǐng)域。