姜海燕 徐 燦 陳 堯 成永康
(1.南京農(nóng)業(yè)大學(xué)信息科技學(xué)院, 南京 210095; 2.南京農(nóng)業(yè)大學(xué)國(guó)家信息農(nóng)業(yè)工程技術(shù)中心, 南京 210095)
自動(dòng)、準(zhǔn)確地預(yù)估產(chǎn)量是水稻科學(xué)生產(chǎn)的重要環(huán)節(jié)。研究表明[1-2],單位面積穗粒數(shù)是與產(chǎn)量最密切相關(guān)的農(nóng)學(xué)性狀。在水稻栽培或育種研究中,穗粒數(shù)一般通過(guò)結(jié)實(shí)率和穗數(shù)估算獲得,因此,快速、準(zhǔn)確地獲取水稻穗數(shù)對(duì)智能測(cè)產(chǎn)意義重大。在實(shí)際應(yīng)用中,水稻穗數(shù)的獲取主要依靠人工統(tǒng)計(jì),費(fèi)時(shí)、費(fèi)力。近年來(lái),隨著農(nóng)業(yè)信息技術(shù)的發(fā)展,圖像分析技術(shù)在植物葉片[3-6]和水果果實(shí)[7-9]的自動(dòng)計(jì)數(shù)上取得成功,被認(rèn)為是人工計(jì)數(shù)的有效替代方法。
田間水稻稻穗自動(dòng)計(jì)數(shù)的關(guān)鍵是復(fù)雜場(chǎng)景下的稻穗識(shí)別?,F(xiàn)有方法主要包括基于顏色或紋理的分割計(jì)數(shù)法和基于候選區(qū)域的分類(lèi)計(jì)數(shù)法兩類(lèi)。基于顏色或紋理的分割計(jì)數(shù)法主要通過(guò)抽取穗的顏色特征[10-12]或紋理特征[13],實(shí)現(xiàn)穗的分割并計(jì)數(shù)。ZHOU等[14]融合小麥的顏色、紋理和邊緣特征,并訓(xùn)練雙支持向量機(jī)模型,分割小麥麥穗;FERNANDEZ-GALLEGO等[15]使用濾波器去除土壤、葉片等無(wú)關(guān)噪聲,計(jì)算局部峰值,實(shí)現(xiàn)麥穗的分割。穗分割方法計(jì)算簡(jiǎn)單、處理速度快,但是對(duì)光照敏感,分割效果和計(jì)數(shù)精度也容易受場(chǎng)景復(fù)雜度的影響?;诤蜻x區(qū)域的分類(lèi)計(jì)數(shù)法[16-18]首先生成穗的候選區(qū)域,然后對(duì)候選區(qū)域進(jìn)行分類(lèi)(穗或背景)并計(jì)數(shù)。常用的候選區(qū)域生成方法基于顏色或紋理特征,如LI等[19]基于Laws紋理能量生成穗部候選區(qū)域,訓(xùn)練BP神經(jīng)網(wǎng)絡(luò),對(duì)候選區(qū)域分類(lèi)并計(jì)算穗數(shù)。此外,一些研究嘗試在生成候選區(qū)域時(shí)更充分利用物體的邊界信息,將相似的像素點(diǎn)聚類(lèi)生成超像素,進(jìn)一步提高候選區(qū)域的精度。XIONG等[20]使用簡(jiǎn)單線性迭代聚類(lèi)生成超像素,為田間水稻圖像生成稻穗候選區(qū)域;OLSEN等[21]基于田間高粱圖像生成不同尺度的超像素,并訓(xùn)練線性回歸模型,實(shí)現(xiàn)計(jì)數(shù)。候選區(qū)域的生成是候選區(qū)域分類(lèi)法的關(guān)鍵,當(dāng)葉片貼近或粘連稻穗時(shí),很難生成只包含穗或葉的高質(zhì)量候選區(qū)域,含有噪聲的候選區(qū)域影響分類(lèi)器的分類(lèi)性能,抑制最終的計(jì)數(shù)準(zhǔn)確率。
最新的研究將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)應(yīng)用于田間禾本科作物的穗識(shí)別與計(jì)數(shù)。張領(lǐng)先等[22]利用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練冬小麥識(shí)別模型,實(shí)現(xiàn)對(duì)麥穗、葉片和陰影的準(zhǔn)確識(shí)別。ALKHUDAYDI等[23]基于全卷積網(wǎng)絡(luò)實(shí)現(xiàn)了像素水平的田間麥穗識(shí)別與計(jì)數(shù)方法;MADEC等[24]使用基于快速區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(Faster regions with convolutional neural networks,F(xiàn)aster R-CNN)方法估算小麥的穗密度,并取得91%的計(jì)數(shù)準(zhǔn)確率。田間水稻的稻穗尺寸小,在卷積神經(jīng)網(wǎng)絡(luò)抽取的深層特征中,有限的稻穗信息損失嚴(yán)重;稻穗因自重下垂,高種植密度下葉片與稻穗貼合更緊密,葉片對(duì)稻穗的局部遮擋使得稻穗特征中混入葉片噪聲,進(jìn)一步制約了稻穗識(shí)別準(zhǔn)確率和計(jì)數(shù)精度。目前,針對(duì)遮擋稻穗自動(dòng)計(jì)數(shù)的研究鮮有報(bào)道。
針對(duì)存在大量葉片遮擋的成熟期田間水稻稻穗,提出一種基于生成特征金字塔的稻穗檢測(cè)(Generative feature pyramid for panicle detection,GFP-PD)方法。首先,針對(duì)小尺寸稻穗在特征學(xué)習(xí)時(shí)的特征損失問(wèn)題,量化分析稻穗尺寸與感受野大小的關(guān)系,通過(guò)選擇合適的特征學(xué)習(xí)網(wǎng)絡(luò)減少稻穗信息損失;其次,通過(guò)構(gòu)造并融合多尺度特征金字塔來(lái)增強(qiáng)稻穗特征。然后,針對(duì)稻穗特征中葉片遮擋帶來(lái)的噪聲,基于生成對(duì)抗網(wǎng)絡(luò)設(shè)計(jì)遮擋修復(fù)模塊OSIM,優(yōu)化遮擋稻穗的特征質(zhì)量。
本研究選擇Faster R-CNN[25]作為基礎(chǔ)框架,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。Faster R-CNN結(jié)合相關(guān)檢測(cè)算法[26-28]的優(yōu)點(diǎn),將特征學(xué)習(xí)、候選區(qū)域生成、目標(biāo)分類(lèi)及位置框回歸4個(gè)關(guān)鍵環(huán)節(jié)集成于一個(gè)端到端網(wǎng)絡(luò)。對(duì)于輸入的原始圖像,F(xiàn)aster R-CNN首先利用卷積神經(jīng)網(wǎng)絡(luò)提取特征圖(Feature map)。候選區(qū)域生成網(wǎng)絡(luò)(Region proposal network,RPN) 復(fù)用最深卷積層上提取的特征圖,使用尺寸為3×3的滑動(dòng)窗口遍歷該特征圖,以每個(gè)錨點(diǎn)(滑動(dòng)窗口中心)為中心,設(shè)計(jì)不同的長(zhǎng)寬比生成多尺度候選區(qū)域。
圖1 Faster R-CNN算法結(jié)構(gòu)示意圖Fig.1 Structure diagram of Faster R-CNN algorithm
目標(biāo)分類(lèi)和位置框回歸由一組級(jí)聯(lián)的全卷積網(wǎng)絡(luò)實(shí)現(xiàn),輸入生成的候選區(qū)域,計(jì)算待檢測(cè)目標(biāo)的類(lèi)別概率實(shí)現(xiàn)分類(lèi),同時(shí)計(jì)算待檢測(cè)目標(biāo)最小外接矩形的中心點(diǎn)坐標(biāo)、寬和高實(shí)現(xiàn)目標(biāo)定位。Faster R-CNN算法在具體應(yīng)用時(shí),檢測(cè)精度易被影響。首先,若特征圖的目標(biāo)信息較少,RPN生成的候選區(qū)域可能無(wú)法覆蓋所有待檢測(cè)目標(biāo),導(dǎo)致部分目標(biāo)被漏檢;其次,若某候選區(qū)域?qū)?yīng)的特征中含有噪聲,噪聲將直接影響類(lèi)別概率的計(jì)算結(jié)果,導(dǎo)致部分目標(biāo)被錯(cuò)檢。
對(duì)于本文研究對(duì)象,田間場(chǎng)景中含有大量無(wú)關(guān)的水稻葉片且部分稻穗被葉片遮擋。隨機(jī)抽取200個(gè)稻穗進(jìn)行統(tǒng)計(jì),單個(gè)稻穗平均尺寸(長(zhǎng)×寬)約為260像素×180像素,長(zhǎng)、寬均不足原始圖像的十分之一,稻穗面積僅占原始圖像的0.38%。當(dāng)直接應(yīng)用Faster R-CNN算法檢測(cè)稻穗時(shí),存在以下兩個(gè)主要問(wèn)題:首先,小尺寸稻穗有限的原始信息在特征學(xué)習(xí)時(shí)不斷損失,網(wǎng)絡(luò)深層的特征圖可能僅保留極少量目標(biāo)信息,這導(dǎo)致映射特征圖上的特征點(diǎn)所生成的候選區(qū)域并不能覆蓋圖像中的全部稻穗,大量小尺寸稻穗被漏檢。其次,葉片遮擋不僅導(dǎo)致有限的稻穗原始信息進(jìn)一步損失,而且使得稻穗的原始數(shù)據(jù)空間混入噪聲。在特征學(xué)習(xí)的過(guò)程中,原始的局部葉片噪聲將逐步傳遞給具有全局語(yǔ)義性的最終特征,這將直接導(dǎo)致稻穗特征質(zhì)量下降,影響最終的稻穗識(shí)別和計(jì)數(shù)精度。
針對(duì)小尺寸稻穗的特征損失問(wèn)題,首先,通過(guò)量化稻穗尺寸與網(wǎng)絡(luò)感受野間的關(guān)系,選擇適合的特征學(xué)習(xí)網(wǎng)絡(luò);其次,構(gòu)建特征金字塔獲取多尺度稻穗特征。針對(duì)稻穗特征含有的遮擋噪聲,設(shè)計(jì)生成對(duì)抗式的修復(fù)模塊為特征金字塔的每一層特征構(gòu)建有效的優(yōu)化映射,其目的是將含葉片噪聲的稻穗特征擬合為真實(shí)的稻穗特征。GFP-PD算法融合優(yōu)化后的特征金字塔實(shí)現(xiàn)稻穗特征的有效增強(qiáng),如圖2所示,主要包括基于感受野分析的特征學(xué)習(xí)網(wǎng)絡(luò)選擇、基于生成對(duì)抗網(wǎng)絡(luò)的特征修復(fù)、基于特征金字塔的特征融合和基于Faster R-CNN算法的檢測(cè)4個(gè)主要環(huán)節(jié)。其中,Conv3_64表示64通道且卷積核尺寸為3×3的卷積計(jì)算,以此類(lèi)推;pool/2表示窗口尺寸為2×2的最大池化計(jì)算;Cls+Reg表示計(jì)算類(lèi)別和計(jì)算位置框。
圖2 GFP-PD算法框架示意圖Fig.2 Structure diagram of GFP-PD algorithm
特征學(xué)習(xí)網(wǎng)絡(luò)將輸入圖像的原始信息進(jìn)行迭代,抽象為特征圖,同一網(wǎng)絡(luò)不同卷積層對(duì)應(yīng)特征圖的語(yǔ)義信息和空間信息各不相同;而不同的特征學(xué)習(xí)網(wǎng)絡(luò)因其結(jié)構(gòu)不同,輸出的特征圖也存在差異。特征圖上任一像素點(diǎn)所對(duì)應(yīng)輸入圖像的區(qū)域被描述為感受野(Receptive field),卷積層感受野的計(jì)算公式為
SRF(t)=(SRF(t-1)-1)Ns(t)+Sf(t)
(1)
式中SRF(t)——第t層卷積層感受野尺寸
Ns(t)——第t層卷積的步長(zhǎng)
Sf(t)——第t層卷積濾波器尺寸
感受野區(qū)域內(nèi)圖像的信息直接影響學(xué)習(xí)到的特征質(zhì)量。相較于待檢測(cè)目標(biāo),感受野過(guò)大,特征中混入無(wú)關(guān)噪聲;感受野過(guò)小,特征不能充分描述待檢測(cè)目標(biāo)。因此,總是希望特征學(xué)習(xí)網(wǎng)絡(luò)的感受野與稻穗尺寸盡可能相近。理想情況下,GFP-PD特征學(xué)習(xí)網(wǎng)絡(luò)的感受野和待檢測(cè)目標(biāo)的尺寸關(guān)系為
(2)
式中Sobj(hobj,wobj)——待檢測(cè)目標(biāo)尺寸
hobj——待檢測(cè)目標(biāo)外接矩形長(zhǎng)度
wobj——待檢測(cè)目標(biāo)外接矩形寬度
根據(jù)式(1)計(jì)算卷積神經(jīng)網(wǎng)絡(luò)Alex-Net[29]、ZF-Net[30]、VGG16-Net[31]和Google-Net[32]的感受野,不同網(wǎng)絡(luò)的最后一層卷積層對(duì)應(yīng)的感受野尺寸如表1所示。VGG16-Net最后一層特征對(duì)應(yīng)的感受野為212像素×212像素,相較于其他網(wǎng)絡(luò)更接近稻穗尺寸,因此選擇去除分類(lèi)層的VGG16-Net作為GFP-PD的特征學(xué)習(xí)網(wǎng)絡(luò)。
表1 不同卷積神經(jīng)網(wǎng)絡(luò)的感受野尺寸Tab.1 Size of receptive field of different networks
一般來(lái)說(shuō),一個(gè)成功的檢測(cè)器總是基于優(yōu)秀的物體特征表示和足夠規(guī)模的數(shù)據(jù)學(xué)習(xí)。葉片對(duì)稻穗的遮擋使得稻穗特征中混入葉片噪聲,影響最終的稻穗識(shí)別準(zhǔn)確率和計(jì)數(shù)精度。為此,GFP-PD算法基于生成對(duì)抗網(wǎng)絡(luò)設(shè)計(jì)OSIM來(lái)優(yōu)化田間稻穗的特征表達(dá),其核心思想是不斷為遮擋噪聲生成新的值并對(duì)抗式地使含有遮擋噪聲的稻穗特征逐漸逼近真實(shí)稻穗特征。如圖3所示,OSIM的網(wǎng)絡(luò)結(jié)構(gòu)由生成器、局部判別器和全局判別器共同構(gòu)成。生成器為遮擋區(qū)域生成新特征值,局部判別器比較修復(fù)后遮擋區(qū)域與對(duì)應(yīng)真實(shí)區(qū)域的差異,而全局判別器比較修復(fù)后整幅圖像與對(duì)應(yīng)真實(shí)圖像的差異。生成器與兩個(gè)判別器進(jìn)行迭代,直至兩個(gè)判別器無(wú)法確定生成的新特征是否是真實(shí)稻穗特征為止。
圖3 OSIM網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.3 Structure diagram of OSIM
1.4.1生成器
生成器被抽象為對(duì)遮擋特征的編碼和解碼過(guò)程。對(duì)于輸入的含有葉片遮擋的稻穗圖像,生成器通過(guò)編碼網(wǎng)絡(luò)學(xué)習(xí)圖像特征并為其生成新特征。編碼網(wǎng)絡(luò)選擇VGG16-Net的Conv1層到pool2層作為基礎(chǔ)結(jié)構(gòu),并在其后增加兩個(gè)全連接層將填充后的新特征圖傳遞到解碼網(wǎng)絡(luò)。為保證遮擋稻穗特征的修復(fù)精度,解碼網(wǎng)絡(luò)通過(guò)反卷積將生成的新特征解碼為圖像,送入判別器與真實(shí)圖像進(jìn)行比較。解碼網(wǎng)絡(luò)的結(jié)構(gòu)與編碼網(wǎng)絡(luò)對(duì)稱,不同之處僅在于使用解碼網(wǎng)絡(luò)un-pooling層替代編碼網(wǎng)絡(luò)中的pooling層。
1.4.2局部與全局判別器
生成器可以保證生成特征和真實(shí)特征最終的值相差較小,但是生成特征并不一定能夠有效地表示其對(duì)應(yīng)的輸入圖像。不僅希望生成的稻穗特征與真實(shí)稻穗在內(nèi)容上相似,而且能夠有效地描述稻穗與圖像中其他稻穗的結(jié)構(gòu)關(guān)系。因此,分別為OSIM設(shè)計(jì)一個(gè)二分類(lèi)的局部判別器和全局判別器。局部判別器與全局判別器采用相同的網(wǎng)絡(luò)結(jié)構(gòu),選擇VGG16-Net的Conv1到pool2層作為基礎(chǔ)結(jié)構(gòu)并增加一個(gè)sigmoid分類(lèi)層。局部判別器將生成器的注意力集中在遮擋區(qū)域的內(nèi)部細(xì)節(jié),引導(dǎo)修復(fù)后的遮擋區(qū)域在內(nèi)容上與真實(shí)區(qū)域相似,而全局判別器則引導(dǎo)修復(fù)后的遮擋區(qū)域在結(jié)構(gòu)上與其周?chē)鷧^(qū)域相近。
1.4.3損失函數(shù)
5.2 防治方法:①農(nóng)業(yè)防治:深翻土壤,消滅越冬蛹;及時(shí)打杈掐尖,結(jié)合整枝把嫩葉、嫩枝上的卵及幼蟲(chóng)一起帶走燒毀或深埋,可有效地減少卵量;摘除蟲(chóng)果,減少幼蟲(chóng)轉(zhuǎn)株危害。②生物防治:在棉鈴蟲(chóng)產(chǎn)卵始、盛末期釋放赤眼蜂,每畝冬暖大棚放蜂1.5萬(wàn)頭,每次放蜂間隔期為3~5天,連續(xù)3~4次。③藥劑防治:應(yīng)掌握在百株卵量達(dá)20~30粒時(shí)開(kāi)始用藥,尤其在半數(shù)卵變黑時(shí)為好,可選用90%敵百蟲(chóng)可濕性粉劑1000倍液,或50%辛硫磷乳油1000倍液,或2.5%溴氰菊酯乳油3000倍液,或40%菊馬乳油2000~3000倍液噴霧。
為保證生成的新特征與真實(shí)稻穗特征在內(nèi)容上相似,使用歐氏距離來(lái)度量生成特征與真實(shí)特征之間的差異,生成器損失函數(shù)LG計(jì)算公式為
(3)
式中M——特征圖上的像素點(diǎn)數(shù)量
xi——稻穗的真實(shí)特征值
x′i——遮擋處生成的新特征值
局部判別器和全局判別器擁有相同的損失函數(shù),計(jì)算公式為
(4)
式中LLocalD——局部判別器損失函數(shù)
LGlobalD——全局判別器損失函數(shù)
Ex~Pdata(x)——真實(shí)數(shù)據(jù)分布
Ez~Pz(z)——遮擋噪聲分布
G(z)——噪聲生成的數(shù)據(jù)值
OSIM的損失函數(shù)L由生成器和判別器共同構(gòu)成,其計(jì)算公式為
L=LG+LLocalD+LGlobalD
(5)
不同卷積層上輸出特征圖的語(yǔ)義信息和空間信息各不相同,低層卷積特征保留目標(biāo)較多的空間和細(xì)節(jié)信息,而高層卷積特征具有較好的語(yǔ)義性。為進(jìn)一步豐富稻穗特征,GFP-PD算法參考特征金字塔網(wǎng)絡(luò)(Feature pyramid networks,F(xiàn)PN)的結(jié)構(gòu)[33],抽取稻穗的多尺度特征并使用OSIM模塊進(jìn)行優(yōu)化,按由深到淺的順序融合高語(yǔ)義信息的深層特征和高細(xì)節(jié)信息的淺層特征,使得稻穗特征在具有較好語(yǔ)義性的同時(shí)保留更多的空間信息。
特征融合時(shí),對(duì)深層特征進(jìn)行2倍上采樣后與前一層特征進(jìn)行橫向連接(Lateral connections)。使用RPN分別對(duì)每一層融合后的新特征生成候選區(qū)域并進(jìn)行檢測(cè)。橫向連接的計(jì)算公式為
Fk=Sk-1A1×1+f(Sk) (k=1,2,…,n)
(6)
式中Sk-1——第k-1層輸出的特征矩陣
Sk——第k層輸出的特征矩陣
A1×1——1×1卷積核
f——基于最鄰近插值的2倍上采樣函數(shù)
Fk——第k-1層和k層融合后的特征矩陣
圖4 基于GFP-PD算法的稻穗檢測(cè)與計(jì)數(shù)流程圖Fig.4 Flow chart of panicle detection and counting based on GFP-PD
GFP-PD算法基于Faster R-CNN算法檢測(cè)目標(biāo),實(shí)現(xiàn)目標(biāo)分類(lèi)和目標(biāo)定位。對(duì)于OSIM優(yōu)化的稻穗特征,GFP-PD算法利用候選區(qū)域生成網(wǎng)絡(luò)生成候選區(qū)域,使用尺寸為3×3的卷積核遍歷(滑動(dòng)步長(zhǎng)為1)優(yōu)化后的特征圖。設(shè)計(jì)1∶1、2∶1、1∶2共3種不同尺度的長(zhǎng)寬比,以特征圖上的每個(gè)像素點(diǎn)(錨點(diǎn))為中心生成9個(gè)大小不同的預(yù)測(cè)框。檢測(cè)模塊的損失函數(shù)由類(lèi)別損失和位置回歸損失共同構(gòu)成,損失函數(shù)為
(7)
其中
(8)
(9)
式中L——檢測(cè)模塊的整體損失函數(shù)
Lcls——用于分類(lèi)的對(duì)數(shù)損失函數(shù)
Lreg——用于定位的魯棒回歸損失函數(shù)
i——錨點(diǎn)編號(hào)
Pi——錨點(diǎn)i被預(yù)測(cè)為目標(biāo)的概率
ti——生成的預(yù)測(cè)框左上頂點(diǎn)和右下頂點(diǎn)坐標(biāo)組成的4維向量
Ncls——訓(xùn)練時(shí)的批尺寸(Mini-batch size)
Nreg——產(chǎn)生的候選區(qū)域數(shù)量
λ——分類(lèi)損失和回歸損失的平衡系數(shù)
基于GFP-PD算法訓(xùn)練稻穗檢測(cè)模型,流程如圖4所示,主要包括5個(gè)步驟:原始圖像采集;訓(xùn)練數(shù)據(jù)集構(gòu)建;OSIM修復(fù)模型訓(xùn)練;稻穗檢測(cè)模型訓(xùn)練;稻穗計(jì)數(shù)。
水稻圖像于2017年10—11月采集于江蘇省南京市六合區(qū)艾津水稻生產(chǎn)基地(32°16′44″N,118°51′10″E,海拔4 m),供試水稻品種為南粳46,每穴3~5苗,株間距30 cm,行間距12 cm。使用佳能EOS 70D型數(shù)碼相機(jī)在水稻植株側(cè)上方60 cm處,進(jìn)行隨意角度拍攝,共采集圖像267幅,圖像分辨率均為4 032像素×3 024像素。如圖5所示,單幅圖像中包含大量水稻稻穗與葉片,統(tǒng)計(jì)后稻穗平均尺寸約260像素×180像素,絕大部分稻穗局部被葉片遮擋。
圖5 不同角度下獲取的田間水稻圖像Fig.5 Rice images taken from different angles
對(duì)于原始的田間水稻圖像,隨機(jī)選取130幅作為訓(xùn)練集,57幅作為驗(yàn)證集,將剩余80幅作為測(cè)試集。訓(xùn)練集、驗(yàn)證集與測(cè)試集在圖像樣本空間上沒(méi)有交集,基于劃分后的數(shù)據(jù)集分別構(gòu)造OSIM訓(xùn)練數(shù)據(jù)集、水稻訓(xùn)練集和水稻測(cè)試集。
(1)OSIM訓(xùn)練數(shù)據(jù)集構(gòu)建:基于OSIM的特征修復(fù)模型的損失在含有葉片遮擋的稻穗圖像和未遮擋時(shí)的稻穗圖像間傳遞,實(shí)際數(shù)據(jù)采集過(guò)程中,獲得同一場(chǎng)景的含有葉片遮擋的稻穗圖像和其對(duì)應(yīng)未遮擋時(shí)的圖像是困難的。因此本研究中,人工從劃分后的水稻訓(xùn)練集和測(cè)試集圖像中篩選未遮擋稻穗圖像982幅,圖像尺寸為128像素×128像素。通過(guò)隨機(jī)丟棄部分像素來(lái)模擬葉片遮擋,構(gòu)造的OSIM訓(xùn)練數(shù)據(jù)集部分樣本如圖6所示。
圖6 OSIM訓(xùn)練數(shù)據(jù)集示例Fig.6 Examples of train data for OSIM
(2)水稻訓(xùn)練集構(gòu)建:本研究中單幅圖像尺寸為4 032像素×3 024像素,直接使用原圖訓(xùn)練模型時(shí)導(dǎo)致硬件負(fù)載過(guò)高且耗時(shí)增加,因此按長(zhǎng)、寬分別二等分切割訓(xùn)練集和驗(yàn)證集圖像。切割后圖像尺寸為2 016像素×1 512像素,平均稻穗尺寸為260像素×180像素,單個(gè)稻穗約占切割圖像的1.54%,稻穗相對(duì)于圖像依然為小目標(biāo)。利用開(kāi)源標(biāo)注工具LabelImg對(duì)切割后的訓(xùn)練集和驗(yàn)證集圖像進(jìn)行人工標(biāo)注,將樣本中的稻穗通過(guò)最小外接矩形標(biāo)出,記錄最小外接矩形的左上、右下頂點(diǎn)坐標(biāo),標(biāo)注最小外接矩形框的類(lèi)別標(biāo)簽為稻穗。切割后的圖像和對(duì)應(yīng)稻穗標(biāo)注文件共同組成水稻訓(xùn)練集。
(3)水稻測(cè)試集構(gòu)建:將測(cè)試集圖像按長(zhǎng)、寬分別二等分切割組成水稻測(cè)試集。
OSIM被設(shè)計(jì)為一個(gè)獨(dú)立的插件嵌入到GFP-PD中,為含有遮擋噪聲的特征和真實(shí)稻穗特征構(gòu)建一個(gè)有效映射。因此,OSIM特征優(yōu)化模型被獨(dú)立訓(xùn)練。OSIM的訓(xùn)練采用課程策略[33](Curriculum strategy)和隨機(jī)梯度下降法(Stochastic gradient descent,SGD),整個(gè)過(guò)程包括3個(gè)階段。首先,利用LG訓(xùn)練遮擋區(qū)域并獲得初步模糊內(nèi)容;其次,利用LLocalD提高修復(fù)區(qū)域內(nèi)容的真實(shí)度;最后,利用LGlobalD調(diào)整修復(fù)區(qū)域與待檢測(cè)目標(biāo)的結(jié)構(gòu)。隨機(jī)生成特征修復(fù)模型的初始化參數(shù),為了提高訓(xùn)練的有效性和效率,訓(xùn)練中后一階段的模型總是以前一階段的模型為基礎(chǔ)微調(diào)(Fine turning)獲得。
使用水稻訓(xùn)練集作為稻穗檢測(cè)模型的輸入數(shù)據(jù),將通過(guò)特征學(xué)習(xí)網(wǎng)絡(luò)獲得的稻穗特征首先輸入2.3節(jié)訓(xùn)練的OSIM特征修復(fù)模型,修復(fù)后的特征被輸入RPN生成候選區(qū)域并進(jìn)行識(shí)別和定位,使用隨機(jī)梯度下降法和交替優(yōu)化法(Alternating optimization)訓(xùn)練稻穗檢測(cè)模型。稻穗計(jì)數(shù)時(shí),將測(cè)試圖像輸入稻穗檢測(cè)模型,在稻穗識(shí)別和定位的基礎(chǔ)上統(tǒng)計(jì)稻穗數(shù)量。
處理平臺(tái)為AMAX的PSC-HB1X深度學(xué)習(xí)工作站,處理器為Inter E5-2600 v3,主頻為2.1 GHz,內(nèi)存為128 GB,硬盤(pán)容量為1 TB,GeForce GTX Titan X顯卡。運(yùn)行環(huán)境為Ubuntu 16.0.4、Caffe和Python 2.7。
選用查全率Pc、正確率Pt作為模型性能的評(píng)價(jià)指標(biāo),其中查全率是指檢測(cè)正確的穗數(shù)與實(shí)際穗數(shù)的比值;正確率是指檢測(cè)正確的穗數(shù)與識(shí)別為稻穗的目標(biāo)數(shù)量的比值。計(jì)算公式為
(10)
(11)
式中Ncor——模型檢測(cè)正確的穗數(shù)
Nerr——模型檢測(cè)錯(cuò)誤的穗數(shù)
Nreal——測(cè)試圖像中實(shí)際含有穗數(shù)
Ndect——檢測(cè)結(jié)果為稻穗的目標(biāo)數(shù)量
為了比較GFP-PD算法和其他算法對(duì)田間稻穗的計(jì)數(shù)精度,使用2.2節(jié)構(gòu)建的水稻測(cè)試集作為測(cè)試數(shù)據(jù),選擇LMM[15]、Panicle-SEG[20]和Faster R-CNN[24]作為比較對(duì)象,4種方法的平均查全率和正確率如表2所示。由表2可知,對(duì)于水稻測(cè)試數(shù)據(jù)集,本文方法性能最優(yōu),平均查全率和平均正確率分別為90.82%和99.05%,較Faster R-CNN算法提高了16.69、5.15個(gè)百分點(diǎn)。Faster R-CNN算法和GFP-PD算法對(duì)田間水稻的檢測(cè)效果如圖7所示,檢測(cè)結(jié)果表明,相同測(cè)試場(chǎng)景下GFP-PD明顯優(yōu)于Faster R-CNN對(duì)稻穗的查全率。對(duì)于圖7中第3列的測(cè)試圖像,GFP-PD算法能夠準(zhǔn)確地檢測(cè)到圖像中下部的一些微小稻穗,而Faster R-CNN卻無(wú)法感知,這直接驗(yàn)證了2.1節(jié)中關(guān)于應(yīng)用Faster R-CNN算法檢測(cè)尺寸小數(shù)量多稻穗效果不佳的假設(shè)。
表2 GFP-PD與其他算法對(duì)測(cè)試圖像的計(jì)數(shù)性能比較Tab.2 Performance comparison of GFP-PD and other approaches on testing images %
LMM與Panicle-SEG的計(jì)數(shù)精度相近,平均查全率均能夠達(dá)到82%以上,和平均正確率95%以上,但較GFP-PD算法的查全率和正確率均分別降低約8、4個(gè)百分點(diǎn)。原因可能是對(duì)于基于顏色特征的分割算法LMM,水稻稻穗與葉片較小麥貼合的更為緊密,這可能抑制LMM算法中濾波器對(duì)葉片等無(wú)關(guān)背景的去除性能,也提高了通過(guò)計(jì)算局部峰值來(lái)分割稻穗的難度。而對(duì)于Panicle-SEG算法,一方面可能是訓(xùn)練數(shù)據(jù)分布不同,Panicle-SEG算法訓(xùn)練數(shù)據(jù)覆蓋了中國(guó)主要的水稻品種,但與本文水稻品種相似的建模數(shù)據(jù)可能相對(duì)不足;另一方面,Panicle-SEG算法構(gòu)建模型的圖像從小區(qū)正上方獲取,而本文應(yīng)用場(chǎng)景中葉片遮擋嚴(yán)重,這可能對(duì)Panicle-SEG算法中聚類(lèi)生成候選區(qū)域的精度產(chǎn)生巨大干擾。
圖7 Faster R-CNN算法與GFP-PD算法檢測(cè)效果對(duì)比Fig.7 Comparison of detection effects between Faster R-CNN and GFP-PD algorithms
為進(jìn)一步量化基于感受野分析的特征學(xué)習(xí)網(wǎng)絡(luò)選擇和基于特征金字塔的特征增強(qiáng)對(duì)稻穗計(jì)數(shù)精度的提升,選擇感受野差異顯著的ZF網(wǎng)絡(luò)(Zeilerfergus net)和VGG16網(wǎng)絡(luò)(Visual geometry group net)并構(gòu)造特征金字塔,分別訓(xùn)練稻穗檢測(cè)模型。使用2.2節(jié)劃分的水稻測(cè)試集作為測(cè)試數(shù)據(jù),結(jié)果如表3所示。
表3 網(wǎng)絡(luò)選擇和特征金字塔構(gòu)造的性能分析Tab.3 Performance analysis of selecting network and constructing feature pyramid on test dataset %
由表3可知,基于ZF網(wǎng)絡(luò)的Faster R-CNN的平均查全率和正確率分別為71.03%和92.29%,相較于基于ZF網(wǎng)絡(luò)的VGG16網(wǎng)絡(luò)分別降低了3.09、1.56個(gè)百分點(diǎn)。類(lèi)似的,對(duì)于構(gòu)造特征金字塔后的Faster R-CNN算法,VGG16網(wǎng)絡(luò)的平均查全率和正確率較ZF網(wǎng)絡(luò)也分別提高了3.75、1.20個(gè)百分點(diǎn)。使用VGG16作為特征學(xué)習(xí)網(wǎng)絡(luò)的平均檢測(cè)結(jié)果均優(yōu)于ZF,這說(shuō)明據(jù)式(1)選擇特征學(xué)習(xí)網(wǎng)絡(luò)能夠提升計(jì)數(shù)結(jié)果。分析感受野和稻穗尺寸選擇VGG16網(wǎng)絡(luò)后,構(gòu)造特征金字塔的Faster R-CNN算法的平均正確率與Faster R-CNN算法相近,但平均查全率為87.10%,較Faster R-CNN算法提高12.98個(gè)百分點(diǎn),這表明構(gòu)造特征金字塔提取并融合稻穗的多尺度特征,能夠有效增強(qiáng)小尺寸稻穗的特征,從而進(jìn)一步顯著提升稻穗計(jì)數(shù)的查全率。
為了驗(yàn)證OSIM模塊對(duì)遮擋場(chǎng)景處理的有效性,對(duì)于圖6b所示的遮擋模擬圖像,使用反卷積將優(yōu)化后的特征上采樣到輸入圖像的相同尺寸,修復(fù)后的圖像如圖8所示。視覺(jué)結(jié)果顯示,通過(guò)訓(xùn)練OSIM特征修復(fù)模型,可以有效降低遮擋噪聲對(duì)目標(biāo)特征的影響;同時(shí),修復(fù)后的噪聲一定程度上補(bǔ)充了損失的稻穗原始信息,更為準(zhǔn)確地描述和表示輸入的遮擋稻穗場(chǎng)景。
GFP-PD算法對(duì)遮擋稻穗的檢測(cè)效果如圖9所示,綠框表示圖像中真實(shí)存在的遮擋稻穗,紅框表示GFP-PD算法檢測(cè)到的稻穗。結(jié)果表明,GFP-PD算法能夠有效地識(shí)別局部被葉片遮擋的稻穗,但是稻穗位置的預(yù)測(cè)仍然存在一定偏差。為了進(jìn)一步定量分析OSIM對(duì)GFP-PD算法計(jì)數(shù)精度的提升程度,組合Faster R-CNN算法和OSIM特征修復(fù)模塊分別訓(xùn)練稻穗檢測(cè)計(jì)數(shù)模型,對(duì)于水稻測(cè)試集,實(shí)驗(yàn)結(jié)果如表4所示。
圖8 基于OSIM修復(fù)后的稻穗特征反卷積效果示意圖Fig.8 Visual effect diagram of panicle feature repaired based on OSIM
圖9 GFP-PD算法對(duì)局部被葉片遮擋稻穗的檢測(cè)效果Fig.9 Detecting effect of GFP-PD for panicles occluded by leaves locally
表4 基于OSIM的特征修復(fù)對(duì)計(jì)數(shù)模型性能的提升分析Tab.4 Performance analysis of feature optimization based on OSIM on 2017 test dataset %
由表4可知,對(duì)于VGG16網(wǎng)絡(luò),基于OSIM訓(xùn)練的稻穗計(jì)數(shù)模型對(duì)稻穗的識(shí)別正確率達(dá)97.34%,比Faster R-CNN提高了3.49個(gè)百分點(diǎn)。OSIM修復(fù)模塊優(yōu)化稻穗特征后稻穗識(shí)別的正確率上升,這一趨勢(shì)在構(gòu)造特征金字塔后也同樣明顯。構(gòu)造特征金字塔后的Faster R-CNN算法對(duì)水稻測(cè)試集的識(shí)別正確率僅為93.87%,較OSIM特征優(yōu)化后的正確率下降了5.18個(gè)百分點(diǎn)。正確率的變化驗(yàn)證了1.2節(jié)中含有噪聲的稻穗特征將抑制稻穗識(shí)別正確率的假設(shè),表明基于生成對(duì)抗網(wǎng)絡(luò)的OSIM特征修復(fù)模塊能夠去除稻穗特征中的噪聲,有效地提高了田間遮擋條件下成熟期水稻稻穗的特征質(zhì)量,進(jìn)而提升其計(jì)數(shù)精度。
對(duì)田間水稻圖像計(jì)數(shù)時(shí),發(fā)現(xiàn)水稻測(cè)試集中有些子圖中穗和葉清晰,而有些子圖中穗和葉模糊且有部分穗人眼難以識(shí)別,稱之為清晰子圖和模糊子圖。模型對(duì)于同一圖像的不同局部的計(jì)數(shù)精度偏差明顯,為了進(jìn)一步探究算法和模型的應(yīng)用邊界,基于GFP-PD算法訓(xùn)練稻穗計(jì)數(shù)模型,對(duì)水稻測(cè)試集的清晰子圖和模糊子圖的計(jì)數(shù)結(jié)果如表5所示。
表5 GFP-PD算法對(duì)不同清晰度測(cè)試圖像的計(jì)數(shù)結(jié)果比較Tab.5 Results of GFP-PD for images with different definitions %
由表5可知GFP-PD算法對(duì)清晰子圖的查全率為96.99%,比模糊子圖高11.54個(gè)百分點(diǎn);對(duì)清晰子圖的稻穗識(shí)別正確率比模糊子圖提高0.51個(gè)百分點(diǎn)。GFP-PD算法對(duì)清晰子圖的計(jì)數(shù)精度明顯優(yōu)于模糊子圖,稻穗檢測(cè)模型對(duì)模糊稻穗并不敏感。如圖10所示,GFP-PD算法能夠準(zhǔn)確地識(shí)別清晰子圖中的絕大部分稻穗,但是對(duì)于模糊子圖上半部邊緣附近的稻穗存在明顯漏檢。由圖10可知,清晰子圖主要對(duì)應(yīng)于原始圖像的中下部分,在獲取時(shí)處于相機(jī)焦點(diǎn)附近;而模糊子圖主要對(duì)應(yīng)原始未分割圖像的上半部分邊緣,在獲取時(shí)處于相機(jī)焦點(diǎn)以外。模糊子圖的稻穗原始信息進(jìn)一步減少,雖然構(gòu)造特征金字塔一定程度上增強(qiáng)了稻穗特征,但基于融合后特征圖生成的候選區(qū)域仍然不能有效覆蓋圖像中所有的稻穗,這影響了本文稻穗計(jì)數(shù)模型最終的計(jì)數(shù)查全率。
圖10 GFP-PD算法對(duì)不同清晰度子圖的檢測(cè)效果Fig.10 Detecting effects of GFP-PD algorithm for panicles with different definitions
基于感受野分析選擇特征學(xué)習(xí)網(wǎng)絡(luò)和基于特征金字塔提取并融合多尺度稻穗特征,有利于提升田間小尺寸稻穗的檢測(cè)和計(jì)數(shù)精度;基于OSIM的特征修復(fù),有利于提升田間稻穗特征的質(zhì)量,顯著提高了稻穗識(shí)別的正確率;基于GFP-PD算法訓(xùn)練稻穗檢測(cè)模型,可以有效識(shí)別局部被葉片遮擋的田間稻穗并自動(dòng)預(yù)測(cè)稻穗的位置。進(jìn)一步分析計(jì)數(shù)結(jié)果發(fā)現(xiàn),抑制計(jì)數(shù)精度的另一個(gè)主要因素是存在部分區(qū)域重疊的稻穗。如圖11所示,稻穗檢測(cè)模型易將粘連的稻穗識(shí)別為一個(gè)稻穗或?qū)⒅丿B稻穗的部分誤識(shí)為一個(gè)完整的稻穗。
對(duì)于GFP-PD算法而言,構(gòu)建OSIM修復(fù)模型雖然能夠提高稻穗特征質(zhì)量,但是消耗額外的計(jì)算量。在實(shí)際的應(yīng)用中,還需要進(jìn)一步考慮水稻品種(亞種)、圖像采集裝置、光照條件、成像高度等因素變化的影響。對(duì)于形態(tài)差異明顯的不同品種水稻稻穗,下一步將嘗試對(duì)特征提取網(wǎng)絡(luò)和候選區(qū)域建議網(wǎng)絡(luò)進(jìn)行優(yōu)化,提取稻穗與葉更細(xì)粒度的可分性特征來(lái)提高分類(lèi)和計(jì)數(shù)的精度。
圖11 GFP-PD算法對(duì)粘連或重疊稻穗的檢測(cè)效果Fig.11 Detecting effects of GFP-PD algorithm for overlapping panicles
(1)GFP-PD算法選擇最佳特征學(xué)習(xí)網(wǎng)絡(luò)并構(gòu)建特征金字塔,顯著提高了田間小尺寸稻穗的查全率。對(duì)于構(gòu)造特征金字塔后的Faster R-CNN算法,基于VGG16網(wǎng)絡(luò)的稻穗平均查全率和識(shí)別正確率分別為87.10%和93.87%,比ZF網(wǎng)絡(luò)分別提高了3.75、1.20個(gè)百分點(diǎn);而對(duì)于Faster R-CNN算法,基于VGG16網(wǎng)絡(luò)的平均查全率和識(shí)別正確率比ZF網(wǎng)絡(luò)也分別提高了3.09、1.56百分點(diǎn)。
(2)設(shè)計(jì)并訓(xùn)練OSIM能夠有效去除稻穗特征中的葉片噪聲,顯著提高了局部被葉片遮擋的稻穗的識(shí)別正確率。對(duì)于基于VGG16網(wǎng)絡(luò)的Faster R-CNN方法,使用OSIM修復(fù)模型優(yōu)化稻穗特征前后,對(duì)水稻測(cè)試集的識(shí)別正確率分別為93.85%和97.34%;當(dāng)構(gòu)造特征金字塔時(shí),使用OSIM修復(fù)模型優(yōu)化稻穗特征后,識(shí)別正確率由93.87%提高為99.05%,對(duì)遮擋稻穗的識(shí)別正確率提高了5.18個(gè)百分點(diǎn)。
(3)GFP-PD 算法能夠有效檢測(cè)局部被葉片遮擋的田間小尺寸稻穗,并對(duì)其計(jì)數(shù)。稻穗計(jì)數(shù)模型的平均查全率和識(shí)別正確率分別為90.82%和99.05%,比Faster R-CNN算法結(jié)果分別提高了16.69、5.15個(gè)百分點(diǎn)。但GFP-PD算法對(duì)清晰稻穗的查全率較模糊稻穗提高11.54個(gè)百分點(diǎn),樣本清晰度是制約GFP-PD算法檢測(cè)精度的主要因素。