王 璨,武新慧,李志偉
除草是作物處于幼苗階段所必須及時(shí)進(jìn)行的工作,是保證農(nóng)作物高產(chǎn)的必要條件[1]。目前,人工除草的原始方式已被基本淘汰,進(jìn)而廣泛采用大面積噴灑除草劑的化學(xué)除草方法[2],其優(yōu)點(diǎn)是實(shí)施成本低且適用于各類(lèi)農(nóng)田地形。最大的缺點(diǎn)在于除草劑消耗量大,在使用過(guò)程中必然影響大量非標(biāo)靶生物[3],破壞農(nóng)田生物環(huán)境平衡[4],殘留除草劑也會(huì)威脅人類(lèi)健康。在2015年,農(nóng)業(yè)部明確了“雙減”的目標(biāo)來(lái)治理農(nóng)業(yè)面源污染[5],即通過(guò)技術(shù)手段和管理方式減少農(nóng)業(yè)中化肥和農(nóng)藥的使用,實(shí)現(xiàn)農(nóng)業(yè)的可持續(xù)發(fā)展。在此基礎(chǔ)上,不依賴于除草劑的智能化機(jī)械除草設(shè)備被廣泛研究[6]。其所要解決的關(guān)鍵問(wèn)題在于如何實(shí)現(xiàn)作物和雜草的精確識(shí)別以及達(dá)到實(shí)時(shí)性要求的識(shí)別速度。因此,研究精確、快速的作物雜草識(shí)別方法具有重要意義。
當(dāng)前雜草識(shí)別研究中,被廣泛采用與采納的是基于機(jī)器視覺(jué)的識(shí)別方法。以往學(xué)者研究中所采用的主要方法是根據(jù)作物和雜草在圖像中所呈現(xiàn)出的不同特征表達(dá)來(lái)對(duì)各類(lèi)目標(biāo)進(jìn)行區(qū)分,所提取的圖像特征包括:顏色、紋理和形態(tài)等[7-10]。該類(lèi)方法能夠基本實(shí)現(xiàn)作物與雜草的有效識(shí)別,但識(shí)別準(zhǔn)確率偏低,無(wú)法達(dá)到實(shí)際應(yīng)用的需要。隨著機(jī)器學(xué)習(xí)方法的發(fā)展,神經(jīng)網(wǎng)絡(luò)和SVM(support vector machine)等具有數(shù)據(jù)學(xué)習(xí)能力的數(shù)學(xué)網(wǎng)絡(luò)模型被應(yīng)用于雜草識(shí)別的研究中,在識(shí)別準(zhǔn)確率方面取得了重要的突破[11-14]。主要方法是將提取到的圖像特征記錄為數(shù)據(jù)向量的形式,利用這些數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,訓(xùn)練后的模型能夠?qū)Σ煌奶卣鲾?shù)據(jù)進(jìn)行分類(lèi),實(shí)現(xiàn)作物與雜草的識(shí)別。該類(lèi)方法能夠達(dá)到較高的識(shí)別準(zhǔn)確率,不足之處在于識(shí)別效果依賴于人工設(shè)計(jì)特征的好壞,而且對(duì)于圖像的預(yù)處理有一定程度的要求,因此在實(shí)際應(yīng)用中識(shí)別效果并不穩(wěn)定。在后續(xù)的雜草識(shí)別研究中,主要以新型圖像特征的發(fā)掘和提取為主,基于多類(lèi)圖像特征的融合與機(jī)器學(xué)習(xí)算法[15-19],達(dá)到提高識(shí)別準(zhǔn)確率與穩(wěn)定性的目的。筆者研究團(tuán)隊(duì)在該方面也進(jìn)行了探索[20],采用雙目視覺(jué)技術(shù)提取圖像目標(biāo)的高度特征,利用融合高度、形態(tài)和紋理特征的SVM模型識(shí)別作物與雜草,獲得了較為穩(wěn)定的高識(shí)別準(zhǔn)確率。不足之處在于特征提取方法復(fù)雜,實(shí)時(shí)性較弱??偨Y(jié)他人的研究可以發(fā)現(xiàn),自然且多樣化的特征表達(dá)能夠提高識(shí)別模型的準(zhǔn)確率和穩(wěn)定性,但依然存在以下兩個(gè)主要問(wèn)題。一方面,人工設(shè)計(jì)的特征提取器難以獲得最接近目標(biāo)自然屬性的特征表達(dá),所得特征的識(shí)別能力有限。另一方面,圖像的預(yù)處理效果對(duì)識(shí)別結(jié)果存在重要影響,尤其是作物與雜草交疊的分割處理,對(duì)于交疊程度較大的目標(biāo),常難以分割或在不影響其各自特征表達(dá)的情況下進(jìn)行分割,造成實(shí)際識(shí)別準(zhǔn)確率和穩(wěn)定性的降低。
為解決上述兩方面問(wèn)題,本文以玉米和雜草為研究對(duì)象,提出了基于多尺度分層特征的玉米雜草識(shí)別方法。該研究依賴于深度學(xué)習(xí)算法,首先建立多尺度卷積神經(jīng)網(wǎng)絡(luò)模型從圖像的多個(gè)尺度中提取分層特征作為依據(jù),對(duì)圖像中各像素目標(biāo)進(jìn)行識(shí)別,再利用超像素方法[21]產(chǎn)生原圖像的過(guò)分割,由每個(gè)超像素內(nèi)全部像素的平均類(lèi)別確定該超像素的類(lèi)別,再將相同類(lèi)別的相鄰超像素合并,實(shí)現(xiàn)圖像中玉米和雜草目標(biāo)的識(shí)別與分割。該方法將卷積神經(jīng)網(wǎng)絡(luò)與超像素分割相結(jié)合,先識(shí)別像素目標(biāo),進(jìn)而識(shí)別出玉米和雜草目標(biāo),有以下兩個(gè)特點(diǎn):1)卷積神經(jīng)網(wǎng)絡(luò)提取的多尺度分層特征表達(dá)能實(shí)現(xiàn)像素目標(biāo)的分類(lèi)識(shí)別。2)通過(guò)像素目標(biāo)的類(lèi)別確定每個(gè)超像素的類(lèi)別,再合并相同類(lèi)別的超像素,完成目標(biāo)物的識(shí)別與分割,能夠有效避免目標(biāo)交疊所帶來(lái)的問(wèn)題,取得更穩(wěn)定的識(shí)別效果。本文對(duì)所提出的方法進(jìn)行試驗(yàn)研究,以期在識(shí)別準(zhǔn)確率、穩(wěn)定性和實(shí)時(shí)性上獲得提升,為智能化機(jī)械除草的發(fā)展提供參考。
該研究以玉米及其伴生雜草作為研究對(duì)象進(jìn)行識(shí)別試驗(yàn),并分析系統(tǒng)性能。圖像采集工作于2017年7月在山西農(nóng)業(yè)大學(xué)試驗(yàn)田中完成,采集設(shè)備為工業(yè)數(shù)字相機(jī)(MV- VDM120SC,維視圖像,中國(guó)),主要參數(shù)為:CCD傳感器,最大分辨率 1 280×960像素,幀率 30 幀/s,USB3.0接口。相機(jī)距地面60 cm,采用垂直方式采集圖像。當(dāng)玉米幼苗處于2~5葉期間進(jìn)行4次圖像采集,所采集的樣本圖像為幼苗期玉米及 6種常見(jiàn)的伴生雜草,包括馬齒莧、馬唐、藜、牛筋草、反枝莧和畫(huà)眉草。每次圖像采集均在 3種不同光線狀態(tài)下進(jìn)行,代表除草時(shí)可能的環(huán)境條件。初始采集到的原圖像大小為 640×480像素,為加快建模進(jìn)程、提高識(shí)別效率,將圖像大小壓縮為320× 240像素。利用這些圖像建立圖像庫(kù),共包含圖像 550幅。樣本圖像從真實(shí)田間環(huán)境中采集,玉米及雜草生長(zhǎng)位置復(fù)雜,大部分圖像中包含多個(gè)目標(biāo),這與實(shí)際應(yīng)用情況相同。由于多尺度卷積神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)從圖像的各局部提取特征,所以樣本圖像可直接用于本文方法的訓(xùn)練與測(cè)試。為了更均勻地抽取訓(xùn)練集與測(cè)試集,將含有玉米目標(biāo)的圖像記為玉米樣本,其他圖像記為雜草樣本。得到玉米樣本圖像 260幅,各類(lèi)雜草樣本圖像290幅。
對(duì)每幅樣本圖像中各像素所處位置的目標(biāo)類(lèi)別進(jìn)行標(biāo)記,獲得每幅樣本圖像的標(biāo)簽矩陣,用于模型的訓(xùn)練和測(cè)試。采用 5折交叉驗(yàn)證法對(duì)識(shí)別模型的性能進(jìn)行評(píng)估。首先將全部圖像樣本分成 5個(gè)子樣本集,每個(gè)子樣本集包含樣本圖像110幅,其中玉米樣本圖像52幅,雜草樣本圖像58幅,均從圖像庫(kù)中隨機(jī)且不重復(fù)地抽取。每個(gè)子樣本集(110幅圖像)作為測(cè)試集1次,其余4個(gè)子樣本集合并在一起(共 440幅圖像)組成訓(xùn)練集。用于訓(xùn)練的示例樣本圖像如圖 1所示。在試驗(yàn)中對(duì)訓(xùn)練集圖像進(jìn)行水平翻轉(zhuǎn)處理,將訓(xùn)練集樣本量擴(kuò)展為原來(lái)的1倍。更多的樣本參與訓(xùn)練能夠減少過(guò)擬合、加強(qiáng)模型的穩(wěn)定性[22-23]。試驗(yàn)完成后,計(jì)算識(shí)別準(zhǔn)確率和系統(tǒng)運(yùn)行時(shí)間,求取平均值與標(biāo)準(zhǔn)差,用以衡量模型性能。
在已有相關(guān)研究中,以多特征融合建模的識(shí)別方法為主,其中融合高度與圖像特征的支持向量機(jī)模型表現(xiàn)優(yōu)秀[20],因此利用該方法進(jìn)行對(duì)比試驗(yàn),進(jìn)一步來(lái)驗(yàn)證基于卷積神經(jīng)網(wǎng)絡(luò)提取多尺度分層特征的識(shí)別方法在目標(biāo)識(shí)別準(zhǔn)確率、系統(tǒng)穩(wěn)定性和運(yùn)算實(shí)時(shí)性方面的表現(xiàn)。
多尺度分層特征是一種在尺度空間中具有不變性和一致性的場(chǎng)景級(jí)特征,允許將較大的圖像環(huán)境(可以和整個(gè)場(chǎng)景一樣大)應(yīng)用到局部識(shí)別決策中,包含適當(dāng)居中且縮放的目標(biāo)及分層的自然屬性,為預(yù)測(cè)潛在的目標(biāo)類(lèi)別提供了良好的基礎(chǔ)。
1.2.1 卷積神經(jīng)網(wǎng)絡(luò)提取特征
在視覺(jué)分析中,像素組成邊緣片段,邊緣片段組成圖案,圖案組成物體,物體組成場(chǎng)景[24]。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)提供了一種簡(jiǎn)單的框架來(lái)學(xué)習(xí)這樣的視覺(jué)層次特征[25-29]。
在本研究中,為了實(shí)現(xiàn)圖像中每一個(gè)像素目標(biāo)的類(lèi)別預(yù)測(cè),本文結(jié)合CNN與多尺度方法,即將CNN網(wǎng)絡(luò)權(quán)值復(fù)制到尺度空間的多個(gè)尺度中。
給定一個(gè)輸入圖像I,對(duì)其進(jìn)行快速局部拉普拉斯濾波[30],以增強(qiáng)目標(biāo)圖像的細(xì)節(jié),如圖 2所示。構(gòu)造該圖像的多尺度金字塔其中X1與原圖像I在同一尺度中,擁有相同的尺寸。本文所構(gòu)建的多尺度金字塔為高斯金字塔,通過(guò)Burt等提出的方法[31-32]進(jìn)行計(jì)算,所得每層圖像面積為上層圖像的1/4,圖像分辨率的縮小比例為2。
圖2 多尺度圖像金字塔Fig.2 Multi-scale image pyramid
經(jīng)過(guò)標(biāo)準(zhǔn)化處理[33],使多尺度金字塔中每幅圖像的局部鄰域具有0均值和單位標(biāo)準(zhǔn)差。再給定CNN模型fs,設(shè)其內(nèi)部參數(shù)為 θs,則卷積神經(jīng)網(wǎng)絡(luò)由對(duì)應(yīng)每個(gè)尺度圖像的CNN模型組合而成,所有模型參數(shù)跨尺度共享,即
式中θ0是模型的初始參數(shù)。
在尺度s下,對(duì)于具有L個(gè)階段的多尺度卷積神經(jīng)網(wǎng)絡(luò)fs存在
式中WL是第L階段的權(quán)值矩陣,HL–1為第L–1階段的輸出,且有H0= Xs。中間各隱藏階段l的輸出可以表示為
式中pool函數(shù)表示池化操作,采用最大池化方法[34-35],tanh為激活函數(shù)[36],Wl和bl分別為該階段的權(quán)值矩陣和偏置參數(shù)向量。Wl和bl共同構(gòu)成了CNN模型的可訓(xùn)練參數(shù) θs。
最終,將全部N個(gè)CNN模型的輸出特征圖進(jìn)行上采樣,統(tǒng)一尺寸并組合在一起,以生成3維特征矩陣F。此時(shí),F(xiàn)可以被視為多尺度的場(chǎng)景級(jí)分層圖像描述符,表示如下
其中 u是上采樣函數(shù)。本文設(shè)置 N=3,則特征提取過(guò)程如圖3所示。
圖3 多尺度分層特征提取Fig.3 Multi-scale hierarchical feature extraction
在整個(gè)尺度空間上實(shí)施完全的權(quán)值共享能夠自然迫使網(wǎng)絡(luò)學(xué)習(xí)具有尺度不變性的特征,同時(shí)減少網(wǎng)絡(luò)過(guò)擬合的可能。共同參與訓(xùn)練模型fs(Xs; θs)的尺度越多,所得的特征表達(dá)效果越好。
1.2.2 利用多尺度分層特征識(shí)別像素目標(biāo)
在模型中加入線性分類(lèi)器對(duì)多尺度分層特征進(jìn)行學(xué)習(xí),從而對(duì)圖像中的每個(gè)像素目標(biāo)產(chǎn)生正確的分類(lèi)預(yù)測(cè)。通過(guò)訓(xùn)練網(wǎng)絡(luò)參數(shù) θs來(lái)達(dá)到這一目標(biāo),采用有監(jiān)督的訓(xùn)練方式,主要方法是使用多類(lèi)別交叉熵?fù)p失函數(shù)[37],使預(yù)測(cè)類(lèi)別和實(shí)際類(lèi)別間的偏差最小化。
設(shè)?ic為線性分類(lèi)器對(duì)于像素 i所屬類(lèi)別的標(biāo)準(zhǔn)化預(yù)測(cè)向量。為了計(jì)算損失函數(shù),本文利用softmax函數(shù)[38-39]計(jì)算像素i屬于類(lèi)別a的標(biāo)準(zhǔn)化預(yù)測(cè)概率分布,?iac
式中w是僅用于學(xué)習(xí)特征的臨時(shí)權(quán)值矩陣,在模型訓(xùn)練完成后將不再使用,F(xiàn)i表示像素i所在位置對(duì)應(yīng)的多尺度分層特征表達(dá)向量。為了學(xué)習(xí)具有最大判別能力的特征,定義像素目標(biāo)i屬于類(lèi)別a的實(shí)際概率 ci,a是在目標(biāo)向量上的分布,與結(jié)果的標(biāo)準(zhǔn)化預(yù)測(cè)向量相對(duì)應(yīng),當(dāng)像素 i的類(lèi)別為a時(shí), ci,a= 1,其他目標(biāo)類(lèi)別下則為0。預(yù)測(cè)類(lèi)別分布c?i,a和實(shí)際類(lèi)別分布ci,a之間的多類(lèi)別交叉熵E用于衡量它們之間的偏差程度
因此對(duì)于整幅圖像來(lái)說(shuō),其損失函數(shù)可以表示為
通過(guò)最小化損失函數(shù)和反向傳播算法(backpropagation,BP)來(lái)調(diào)整網(wǎng)絡(luò)內(nèi)部參數(shù)[40-41],實(shí)現(xiàn)對(duì)提取特征的學(xué)習(xí),獲得具有最大像素識(shí)別能力的多尺度分層特征表達(dá)。為了獲得更好的識(shí)別效果,在參數(shù) θs訓(xùn)練完成后,使用多層感知器進(jìn)行識(shí)別。
多尺度卷積神經(jīng)網(wǎng)絡(luò)能夠?yàn)閳D像中的每一個(gè)像素目標(biāo)進(jìn)行類(lèi)別預(yù)測(cè),但從每個(gè)像素的鄰域中獨(dú)立地預(yù)測(cè)該像素目標(biāo)的類(lèi)別會(huì)在目標(biāo)邊界處產(chǎn)生一定的干擾預(yù)測(cè),無(wú)法為圖像中各目標(biāo)物體提供準(zhǔn)確的邊界劃分。
本文利用超像素方法對(duì)原圖像進(jìn)行精細(xì)過(guò)分割,其中每個(gè)分割塊(即超像素)是由具有相似紋理、顏色和亮度等特征的相鄰像素點(diǎn)構(gòu)成的不規(guī)則像素塊。這些超像素能夠組成圖像中的各目標(biāo)物體,且擁有準(zhǔn)確的原始邊界。本文通過(guò)對(duì)每個(gè)超像素區(qū)域強(qiáng)制分配單一的類(lèi)別預(yù)測(cè),再將相同類(lèi)別的超像素進(jìn)行區(qū)域合并,能夠有效識(shí)別圖像中的目標(biāo)物體,同時(shí)生成準(zhǔn)確的邊界。
在本文中,采用簡(jiǎn)單線性迭代聚類(lèi)算法(simple linear iterative clustering,SLIC)實(shí)現(xiàn)超像素分割[21]。該方法首先在原圖像中均勻初始化聚類(lèi)中心,通過(guò)像素在 Lab顏色空間中梯度的變化調(diào)整聚類(lèi)中心,計(jì)算像素與聚類(lèi)中心間距離,然后設(shè)定距離度量規(guī)則,以此對(duì)像素進(jìn)行局部聚類(lèi),從而生成超像素。
為獲得精細(xì)的過(guò)分割,本文設(shè)置超像素個(gè)數(shù)為200,迭代次數(shù)為 5,算法完成后誤差收斂且分割結(jié)果不再變化。利用MATLAB軟件實(shí)現(xiàn)該方法,獲得的超像素分割效果如圖4所示。
圖4 超像素分割效果Fig.4 Effect of superpixels segmentation
本文采用超像素方法能夠獲得包含圖像目標(biāo)邊界的準(zhǔn)確過(guò)分割,通過(guò)上文所述的方法能夠確定各超像素的類(lèi)別,再將同類(lèi)別的相鄰超像素合并,在識(shí)別目標(biāo)物的同時(shí)產(chǎn)生正確的圖像分割。該方法能夠有效避免圖像中不同識(shí)別目標(biāo)相互交疊所帶來(lái)的問(wèn)題,減少了圖像的預(yù)處理要求。
本文的識(shí)別流程如圖 5所示。通過(guò)上文所述方法進(jìn)行超像素分割,產(chǎn)生原始圖像的一個(gè)過(guò)分割。利用提取的多尺度分層特征對(duì)圖像中的每個(gè)像素進(jìn)行分類(lèi),通過(guò)計(jì)算超像素內(nèi)部所有像素的平均類(lèi)別分布來(lái)為每個(gè)超像素目標(biāo)生成類(lèi)別預(yù)測(cè)。再融合具有相同類(lèi)別的相鄰超像素,以獲得最終的目標(biāo)類(lèi)別預(yù)測(cè)與圖像分割,實(shí)現(xiàn)作物和雜草的快速有效識(shí)別。
圖5 玉米雜草識(shí)別流程圖Fig.5 Flow chart of recognition of maize and weed
對(duì)于像素分類(lèi),采用多層感知器(multi-layer perceptron,MLP)[42-44]對(duì)圖像中像素的類(lèi)別進(jìn)行預(yù)測(cè),本文使用的MLP是一個(gè)2層神經(jīng)網(wǎng)絡(luò),其輸入是所提取的多尺度分層特征矩陣F。根據(jù)上文所述方法訓(xùn)練分類(lèi)器MLP,獲得每個(gè)像素目標(biāo)的預(yù)測(cè)類(lèi)別分布然后計(jì)算每個(gè)超像素目標(biāo)k內(nèi)部所有像素的平均類(lèi)別分布
式中S(k)是超像素k內(nèi)部所包含的像素個(gè)數(shù)。利用argmax函數(shù)產(chǎn)生超像素k的最終類(lèi)別預(yù)測(cè)如下
最后將具有相同類(lèi)別的相鄰超像素區(qū)域進(jìn)行合并,得到圖像的標(biāo)簽矩陣,實(shí)現(xiàn)識(shí)別與分割。
原始圖像在輸入到多尺度卷積神經(jīng)網(wǎng)絡(luò)前需轉(zhuǎn)換到Y(jié)UV顏色空間中,圖像的各通道分量如圖6所示。
構(gòu)建上文所述的多尺度高斯金字塔 Xs。Xs中每個(gè)尺度圖像的Y、U和V通道分別獨(dú)立地進(jìn)行局部z-score標(biāo)準(zhǔn)化,使其中每個(gè)15×15的局部塊具有0均值和單位標(biāo)準(zhǔn)差。因此多尺度卷積神經(jīng)網(wǎng)絡(luò)包含 3個(gè)相同結(jié)構(gòu)的CNN網(wǎng)絡(luò),分別對(duì)應(yīng)Xs的3個(gè)不同尺度圖像作為輸入。在本次試驗(yàn)中,設(shè)置CNN網(wǎng)絡(luò)的結(jié)構(gòu)由3個(gè)階段組成。前2個(gè)階段均由濾波器組、非線性激活函數(shù)tanh和池化操作構(gòu)成,最后一個(gè)階段僅包含濾波器組。其中,濾波器組含有的卷積核大小均為7×7,池化操作采用2×2最大池化方法。以上參數(shù)設(shè)定通過(guò)網(wǎng)格搜索算法選取[45],此處不再詳細(xì)表述。CNN網(wǎng)絡(luò)第1階段的濾波器組包含16個(gè)卷積核,其中8個(gè)與輸入圖像的Y通道相連,8個(gè)與U和V通道相連,將原始圖像轉(zhuǎn)換成16維特征圖;第2階段的濾波器組包含64個(gè)卷積核,與網(wǎng)絡(luò)上一階段的輸出特征圖采用局部連接方式,其中每個(gè)卷積核與隨機(jī)選擇的8張?zhí)卣鲌D相連,將16維特征圖轉(zhuǎn)換成64維特征圖;第三階段的濾波器組包含 256個(gè)卷積核,其中每個(gè)卷積核與上階段隨機(jī)選擇的32張?zhí)卣鲌D相連,將64維特征圖轉(zhuǎn)換成256維特征圖。所建立的CNN網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。
圖6 圖像的Y、U、V通道分量Fig.6 Y, U and V channels component of image
圖7 CNN網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)圖Fig.7 Structure diagram of convolutional neural network
多尺度卷積神經(jīng)網(wǎng)絡(luò)將其內(nèi)部3個(gè)上述結(jié)構(gòu)的CNN網(wǎng)絡(luò)輸出進(jìn)行上采樣并組合,生成768維特征圖F,實(shí)現(xiàn)原始圖像的多尺度分層特征提取。采用隨機(jī)梯度下降法對(duì)3個(gè)不同尺度的CNN網(wǎng)絡(luò)同時(shí)進(jìn)行訓(xùn)練。網(wǎng)絡(luò)的濾波器權(quán)值參數(shù)隨機(jī)初始化,偏置參數(shù)為全 0初始化,網(wǎng)絡(luò)的操作窗口大小設(shè)定為46×46。通過(guò)網(wǎng)格搜索算法確定最佳學(xué)習(xí)率為0.01,利用L2范數(shù)正則化避免網(wǎng)絡(luò)過(guò)擬合,參數(shù)為10-5。
在完成多尺度分層特征的提取后,輸入分類(lèi)器MLP,實(shí)現(xiàn)對(duì)圖像中各像素目標(biāo)所屬類(lèi)別的預(yù)測(cè)。用實(shí)際情況驗(yàn)證測(cè)試集識(shí)別結(jié)果得到多尺度分層特征對(duì)于像素目標(biāo)類(lèi)別的識(shí)別準(zhǔn)確率,結(jié)果如表1所示。
由表 1可知,利用多尺度分層特征能夠識(shí)別圖像中各像素目標(biāo)所屬的類(lèi)別,且達(dá)到了較高的識(shí)別準(zhǔn)確率,而這對(duì)于傳統(tǒng)的淺層機(jī)器學(xué)習(xí)及神經(jīng)網(wǎng)絡(luò)方法來(lái)說(shuō)是很難完成的。在本研究的 5次試驗(yàn)中,對(duì)像素的最大識(shí)別準(zhǔn)確率為95.74%,最小識(shí)別準(zhǔn)確率為90.35%,平均識(shí)別準(zhǔn)確率達(dá)93.41%,均保持在較高水平。這是因?yàn)槎喑叨确謱犹卣靼瑘D像內(nèi)部的形態(tài)、紋理和場(chǎng)景等全方位的信息,是一種高層次的抽象特征,能夠更好的表達(dá)圖像中各目標(biāo)的自然屬性。此外,本文中對(duì)應(yīng)不同尺度圖像的CNN網(wǎng)絡(luò)結(jié)構(gòu)完全相同,當(dāng)輸入圖像的大小隨著尺度的降低而減小時(shí),網(wǎng)絡(luò)在該圖像中的局部特征提取范圍將逐漸增大。所以通過(guò)本文方法,能夠從原圖像的各個(gè)局部提取范圍由小到大的分層特征。對(duì)于原圖像中的每個(gè)像素來(lái)說(shuō),這樣的多尺度分層特征可以對(duì)它所屬的類(lèi)別進(jìn)行判斷,實(shí)現(xiàn)像素目標(biāo)的精確識(shí)別。
表1 像素目標(biāo)識(shí)別結(jié)果Table 1 Recognition results of target of pixel
觀察表 1中的數(shù)據(jù)可以發(fā)現(xiàn),像素識(shí)別準(zhǔn)確率的最大值與最小值間相差 5.39個(gè)百分點(diǎn),差距較大。5次試驗(yàn)的像素識(shí)別準(zhǔn)確率標(biāo)準(zhǔn)差為1.95%,該值較大,識(shí)別效果不夠穩(wěn)定。這是因?yàn)楸狙芯吭谇捌趫D像預(yù)處理過(guò)程中沒(méi)有人為對(duì)圖像中的目標(biāo)進(jìn)行劃分,所以對(duì)處于交疊邊界位置的像素可能出現(xiàn)誤判。由此可知單獨(dú)利用多尺度分層特征進(jìn)行識(shí)別無(wú)法獲得目標(biāo)的準(zhǔn)確邊界。因此需將其與超像素分割相結(jié)合,能夠有效改善這一不足。
根據(jù)上文提出的算法與識(shí)別過(guò)程建立玉米與雜草識(shí)別系統(tǒng),獲得最終的目標(biāo)識(shí)別結(jié)果。為了驗(yàn)證該識(shí)別系統(tǒng)的實(shí)際泛化性能,采用設(shè)計(jì)好的測(cè)試集樣本對(duì)系統(tǒng)進(jìn)行測(cè)試。同時(shí),利用融合高度、形態(tài)與紋理特征的支持向量機(jī)識(shí)別方法進(jìn)行對(duì)比試驗(yàn),同樣采用 5折交叉驗(yàn)證法。記錄 2種方法在相同的樣本訓(xùn)練后對(duì)圖像中玉米與雜草目標(biāo)的識(shí)別準(zhǔn)確率,統(tǒng)計(jì)系統(tǒng)平均識(shí)別 1幅圖像所需的時(shí)間,結(jié)果如表2所示。
表2 玉米雜草識(shí)別結(jié)果分析Table 2 Analysis of recognition results of maize and weed
由表 2可知,本文提出的基于卷積神經(jīng)網(wǎng)絡(luò)提取多尺度分層特征識(shí)別玉米雜草的方法獲得了較高的準(zhǔn)確率。在 5次試驗(yàn)中,本文方法取得的最大目標(biāo)識(shí)別準(zhǔn)確率為99.32%,最小為98.18%,兩者相差1.14個(gè)百分點(diǎn),平均目標(biāo)識(shí)別準(zhǔn)確率達(dá)98.92%。對(duì)比試驗(yàn)取得的最大目標(biāo)識(shí)別準(zhǔn)確率為 99.53%,最小為 97.61%,兩者相差 1.92個(gè)百分點(diǎn),平均目標(biāo)識(shí)別準(zhǔn)確率為98.36%。由此可知本文方法的最大識(shí)別準(zhǔn)確率與最小識(shí)別準(zhǔn)確率間的差距較小,且能達(dá)到更高的平均目標(biāo)識(shí)別準(zhǔn)確率,與之前研究[20]中提出的方法相比,提高了0.56個(gè)百分點(diǎn)。
本文方法的優(yōu)勢(shì)在于其識(shí)別效果的穩(wěn)定性。根據(jù)表 2中的數(shù)據(jù)可知,本文方法的目標(biāo)識(shí)別準(zhǔn)確率標(biāo)準(zhǔn)差為0.55%,小于對(duì)比方法的1.05%。說(shuō)明本文方法的目標(biāo)識(shí)別準(zhǔn)確率數(shù)據(jù)具有更小的空間離散度,變化程度更小。因此具有更強(qiáng)的識(shí)別穩(wěn)定性,在實(shí)際泛化性能上表現(xiàn)更為突出。
另一項(xiàng)優(yōu)勢(shì)在于識(shí)別系統(tǒng)的實(shí)時(shí)性。觀察表 2中 2種方法的耗時(shí)數(shù)據(jù)可知,本文方法在每次試驗(yàn)中平均識(shí)別單幅圖像所需的時(shí)間均遠(yuǎn)小于對(duì)比方法,5次試驗(yàn)的平均耗時(shí)為1.68 s,同對(duì)比方法相比減少了1.58 s,具有更強(qiáng)的實(shí)時(shí)性。此外本文方法的單幅圖像耗時(shí)數(shù)據(jù)擁有很小的標(biāo)準(zhǔn)差,說(shuō)明系統(tǒng)耗時(shí)穩(wěn)定,運(yùn)行可靠。
以上試驗(yàn)結(jié)果通過(guò)Intel Core i7 6600 CPU處理器運(yùn)算后獲得。由于卷積神經(jīng)網(wǎng)絡(luò)是一種深度學(xué)習(xí)結(jié)構(gòu),因此可以利用GPU處理器實(shí)現(xiàn)算法的硬件加速。采用英偉達(dá)GTX 1060 GPU代替CPU對(duì)本文方法進(jìn)行運(yùn)算,其識(shí)別單幅圖像的耗時(shí)數(shù)據(jù)如表 2中所示??梢钥闯?,利用GPU執(zhí)行本文提出的算法能夠有效提升識(shí)別速度。平均識(shí)別1幅圖像(320×240像素)所需的時(shí)間僅為0.72 s,能夠進(jìn)一步增強(qiáng)實(shí)時(shí)性,實(shí)現(xiàn)作物與雜草的高速識(shí)別。
根據(jù)本文方法對(duì)圖像進(jìn)行識(shí)別后可以得到標(biāo)簽矩陣,利用矩陣中每個(gè)元素的類(lèi)別標(biāo)簽將圖像中相應(yīng)位置的像素標(biāo)記為不同的顏色,其中淺綠色代表玉米,深綠色代表雜草,棕色代表背景。從而在原圖像中生成具有不同顏色標(biāo)記的各目標(biāo)區(qū)域,最終獲得的玉米與雜草分割識(shí)別結(jié)果如圖 8中所示。目前雜草識(shí)別研究的難點(diǎn)在于,當(dāng)雜草與作物距離很近或存在較大程度的葉片交疊時(shí),要準(zhǔn)確地識(shí)別和分割不同目標(biāo)是困難的。圖8可以看出,本文方法能夠?qū)Τ霈F(xiàn)上述情況的玉米和雜草目標(biāo)進(jìn)行有效的區(qū)分識(shí)別,同時(shí)獲得各目標(biāo)的邊界分割。通過(guò)與原始圖像的對(duì)比可知,目標(biāo)識(shí)別與邊界分割結(jié)果準(zhǔn)確。
圖8 玉米與雜草圖像的識(shí)別結(jié)果Fig.8 Recognition results of maize and weed image
為進(jìn)一步提高作物與雜草識(shí)別的準(zhǔn)確率、穩(wěn)定性與實(shí)時(shí)性,探索具有更強(qiáng)實(shí)際應(yīng)用能力的雜草識(shí)別新方法以推動(dòng)智能化機(jī)械除草方式的發(fā)展,本研究提出了基于卷積神經(jīng)網(wǎng)絡(luò)提取多尺度分層特征識(shí)別玉米雜草的方法。
1)利用深度學(xué)習(xí)結(jié)構(gòu)建立多尺度卷積神經(jīng)網(wǎng)絡(luò)模型,用以從原始圖像的高斯金字塔中提取多尺度分層特征作為識(shí)別依據(jù)。該模型能夠直接對(duì)圖像數(shù)據(jù)進(jìn)行處理分析,不依賴于前期圖像預(yù)處理和數(shù)據(jù)轉(zhuǎn)換過(guò)程,在最大程度上獲取圖像中可用的內(nèi)部信息。通過(guò)模型學(xué)習(xí)自主提取的多尺度分層特征表達(dá),與人工設(shè)計(jì)提取的多種特征相比,更能反映圖像內(nèi)部復(fù)雜的自然屬性與交互關(guān)系,包含更全面有效的識(shí)別信息。能夠?qū)崿F(xiàn)像素級(jí)的精確識(shí)別,具有很強(qiáng)的空間一致性,其像素平均識(shí)別準(zhǔn)確率達(dá)93.41%。
2)根據(jù)本文提出的基于卷積神經(jīng)網(wǎng)絡(luò)提取多尺度分層特征識(shí)別玉米雜草的方法,能夠在識(shí)別目標(biāo)區(qū)域的同時(shí)產(chǎn)生準(zhǔn)確的圖像分割,有效避免目標(biāo)交疊所帶來(lái)的問(wèn)題,減少了圖像處理難度,加快識(shí)別進(jìn)程,取得更精確和更穩(wěn)定的識(shí)別效果。試驗(yàn)結(jié)果表明,該方法的平均目標(biāo)識(shí)別準(zhǔn)確率達(dá)98.92%,標(biāo)準(zhǔn)差為0.55%,具有優(yōu)秀的實(shí)際泛化性能,獲得了穩(wěn)定的高識(shí)別準(zhǔn)確率。相比于融合高度與圖像特征的支持向量機(jī)方法,目標(biāo)識(shí)別準(zhǔn)率提高了0.56個(gè)百分點(diǎn),標(biāo)準(zhǔn)差也降低,穩(wěn)定性得到了提升。
3)多尺度分層特征學(xué)習(xí)與超像素分割相結(jié)合的識(shí)別方法具有較強(qiáng)的實(shí)時(shí)性。試驗(yàn)結(jié)果表明,該方法識(shí)別單幅圖像的平均耗時(shí)為1.68 s,相比于融合高度與圖像特征的支持向量機(jī)方法減少了1.58 s。采用GPU硬件代替CPU運(yùn)算還可進(jìn)一步提升本文方法的實(shí)時(shí)性,識(shí)別單幅圖像的平均耗時(shí)僅為0.72 s。
因此,本研究提出的多尺度分層特征學(xué)習(xí)與超像素分割相結(jié)合的識(shí)別方法是有效的,能夠獲得較高的識(shí)別準(zhǔn)確率、穩(wěn)定性和實(shí)時(shí)性,為智能化機(jī)械除草提供有益的參考。不足之處在于特征提取模型所需的訓(xùn)練時(shí)間較長(zhǎng),但這并不影響在實(shí)際測(cè)試中的識(shí)別速度,在下一步的研究工作中可通過(guò)優(yōu)化模型結(jié)構(gòu)加以改進(jìn)。
[1] 范德耀,姚青,楊保軍,等. 田間雜草識(shí)別與除草技術(shù)智能化研究進(jìn)展[J]. 中國(guó)農(nóng)業(yè)科學(xué),2010,43(9):1823-1833.Fan Deyao, Yao Qing, Yang Baojun, et al. Progress in research on intelligentization of field weed recognition and weed control technology[J]. Scientia Agricultura Sinica, 2010,43(9): 1823-1833. (in Chinese with English abstract)
[2] 謝志堅(jiān),李海藍(lán),徐昌旭,等. 兩種除草劑的土壤生態(tài)效應(yīng)及其對(duì)后茬作物生長(zhǎng)的影響[J]. 土壤學(xué)報(bào),2014,51(4):880-887.Xie Zhijian, Li Hailan, Xu Changxu, et al. Effects of two kinds of herbicides on paddy soil ecology and growth of succeeding crops[J]. Acta Pedologica Sinica, 2014, 51(4):880-887. (in Chinese with English abstract)
[3] 王兆振,畢亞玲,叢聰,等. 除草劑對(duì)作物的藥害研究[J].農(nóng)藥科學(xué)與管理,2013,34(5):68-73.Wang Zhaozhen, Bi Yaling, Cong Cong,et al. Studied on phytotoxicity of herbicides on crops[J]. Pesticide Science and Administration, 2013, 34(5): 68-73. (in Chinese with English abstract)
[4] 齊月,李俊生,閆冰,等. 化學(xué)除草劑對(duì)農(nóng)田生態(tài)系統(tǒng)野生植物多樣性的影響[J]. 生物多樣性,2016,24(2):228-236.Qi Yue, Li Junsheng, Yan Bing, et al. Impact of herbicides on wild plant diversity in agro-ecosystems: A review[J]. Biodiversity Science, 2016, 24(2): 228-236. (in Chinese with English abstract)
[5] 楊林章,馮彥房,施衛(wèi)明,等. 我國(guó)農(nóng)業(yè)面源污染治理技術(shù)研究進(jìn)展[J]. 中國(guó)生態(tài)農(nóng)業(yè)學(xué)報(bào),2013,21(1):96-101.Yang Linzhang, Feng Yanfang, Shi Weiming, et al. Review of the advances and development trends in agricultural non-point source pollution control in China[J]. Chinese Journal of Eco-Agriculture, 2013, 21(1): 96-101. (in Chinese with English abstract)
[6] 陳子文,張春龍,李南,等. 智能高效株間鋤草機(jī)器人研究進(jìn)展與分析[J]. 農(nóng)業(yè)工程學(xué)報(bào),2015,31(5):1-8.Chen Ziwen, Zhang Chunlong, Li Nan, et al. Study review and analysis of high performance intra-row weeding robot[J].Transactions of the Chinese Society of Agricultural Engineering(Transactions of the CSAE), 2015, 31(5): 1-8. (in Chinese with English abstract)
[7] Bakhshipour A, Jafari A, Nassiri S M, et al. Weed segmentation using texture features extracted from wavelet sub-images[J]. Biosystems Engineering, 2017, 157: 1-12.
[8] 張小龍,謝正春,張念生,等. 豌豆苗期田間雜草識(shí)別與變量噴灑控制系統(tǒng)[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2012,43(11):220-225, 73.Zhang Xiaolong, Xie Zhengchun, Zhang Niansheng, et al.Weed recognition from pea seedling images and variable spraying control system[J]. Transactions of the Chinese Society for Agricultural Machinery, 2012, 43(11): 220-225,73. (in Chinese with English abstract)
[9] 李先鋒,朱偉興,紀(jì)濱,等. 基于圖像處理和蟻群優(yōu)化的形狀特征選擇與雜草識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2010,26(10):178-182.Li Xianfeng, Zhu Weixing, Ji Bin, et al. Shape feature selection and weed recognition based on image processing and ant colony optimization[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2010, 26(10): 178-182. (in Chinese with English abstract)
[10] Zheng Y, Zhu Q, Huang M, et al. Maize and weed classification using color indices with support vector data description in outdoor fields[J]. Computers and Electronics in Agriculture, 2017, 141: 215-222.
[11] 趙鵬,韋興竹. 基于多特征融合的田間雜草分類(lèi)識(shí)別[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2014,45(3):275-281.Zhao Peng, Wei Xingzhu. Weed recognition in agricultural field using multiple feature fusions[J]. Transactions of the Chinese Society for Agricultural Machinery, 2014, 45(3): 275-281. (in Chinese with English abstract)
[12] Sadgrove E J, Falzon G, Miron D, et al. Fast object detection in pastoral landscapes using a colour feature extreme learning machine[J]. Computers and Electronics in Agriculture, 2017,139: 204-212.
[13] 李慧,祁力鈞,張建華,等. 基于PCA-SVM的棉花出苗期雜草類(lèi)型識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2012,43(9):184-189, 196.Li Hui, Qi Lijun, Zhang Jianhua, et al. Recognition of weed during cotton emergence based on principal component analysis and support vector machine[J]. Transactions of the Chinese Society for Agricultural Machinery, 2012, 43(9):184-189, 196. (in Chinese with English abstract)
[14] Tang J L, Wang D, Zhang Z G, et al. Weed identification based on K-means feature learning combined with convolutional neural network[J]. Computers and Electronics in Agriculture, 2017, 135: 63-70.
[15] 趙川源,何東健,喬永亮. 基于多光譜圖像和數(shù)據(jù)挖掘的多特征雜草識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2013,29(2):192-198.Zhao Chuanyuan, He Dongjian, Qiao Yongliang. Identification method of multi-feature weed based on multi-spectral images and data mining[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2013,29(2): 192-198. (in Chinese with English abstract)
[16] Strothmann W, Ruckelshausen A, Hertzberg J, et al. Plant classification with in-field-labeling for crop/weed discrimination using spectral features and 3D surface features from a multi-wavelength laser line profile system[J]. Computers and Electronics in Agriculture, 2017, 134: 79-93.
[17] Pérez-Ortiz M, Pe?a J M, Gutiérrez P A, et al. Selecting patterns and features for between-and within-crop-row weed mapping using UAV-imagery[J]. Expert Systems with Applications, 2016, 47: 85-94.
[18] Murugan D, Prema P. A novel angular texture pattern (ATP)extraction method for crop and weed discrimination using curvelet transformation[J]. ELCVIA: Electronic Letters on Computer Vision and Image Analysis, 2016, 15(1): 27-59.[19] Potena C, Nardi D, Pretto A. Fast and accurate crop and weed identification with summarized train sets for precision agriculture[C]//International Conference on Intelligent Autonomous Systems. Springer, Cham, 2016: 105-121.
[20] 王璨,李志偉. 利用融合高度與單目圖像特征的支持向量機(jī)模型識(shí)別雜草[J]. 農(nóng)業(yè)工程學(xué)報(bào),2016,32(15):165-174.Wang Can, Li Zhiwei. Weed recognition using SVM model with fusion height and monocular image features[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(15): 165-174. (in Chinese with English abstract)
[21] Achanta R, Shaji A, Smith K, et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2012, 34(11): 2274-2282.
[22] Simard P Y, Steinkraus D, Platt J C. Best practices for convolutional neural networks applied to visual document analysis[C]//ICDAR. 2003: 958-962.
[23] Cire?an D, Meier U, Masci J, et al. A committee of neural networks for traffic sign classification[C]//Neural Networks(IJCNN), The 2011 International Joint Conference on. IEEE,2011: 1918-1921.
[24] LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature,2015, 521(7553): 436-444.
[25] Kavukcuoglu K, Sermanet P, Boureau Y L, et al. Learning convolutional feature hierarchies for visual recognition[C]//Advances in Neural Information Processing Systems. 2010:1090-1098.
[26] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014: 580-587.
[27] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems. 2012: 1097-1105.
[28] Tompson J, Goroshin R, Jain A, et al. Efficient object localization using convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 648-656.
[29] LeCun Y, Bengio Y. Convolutional networks for images,speech, and time series[J]. The Handbook of Brain Theory and Neural Networks, 1995, 3361(10): 1995.
[30] Paris S, Hasinoff S W, Kautz J. Local Laplacian filters:edge-aware image processing with a Laplacian pyramid[J].ACM Trans. Graph., 2011, 30(4): 68: 1-68, 12.
[31] Burt P, Adelson E. The Laplacian pyramid as a compact image code[J]. IEEE Transactions on Communications, 1983,31(4): 532-540.
[32] Burt P J. Fast filter transform for image processing[J].Computer Graphics and Image Processing, 1981, 16(1): 20-51.
[33] Pei S C, Lin C N. Image normalization for pattern recognition[J]. Image and Vision Computing, 1995, 13(10):711-723.
[34] Boureau Y L, Ponce J, LeCun Y. A theoretical analysis of feature pooling in visual recognition[C]//Proceedings of the 27th International Conference on Machine Learning (ICML-10).2010: 111-118.
[35] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 1-9.
[36] LeCun Y A, Bottou L, Orr G B, et al. Efficient backprop[M]//Neural Networks: Tricks of the trade. Springer Berlin Heidelberg,2012: 9-48.
[37] De Boer P T, Kroese D P, Mannor S, et al. A tutorial on the cross-entropy method[J]. Annals of Operations Research,2005, 134(1): 19-67.
[38] Bishop C M. Pattern Recognition and Machine Learning[M].Berlin: Springer, 2006.
[39] Graves A, Mohamed A, Hinton G. Speech recognition with deep recurrent neural networks[C]//Acoustics, Speech and Signal Processing (icassp), 2013 IEEE international conference on. IEEE, 2013: 6645-6649.
[40] LeCun Y, Boser B E, Denker J S, et al. Handwritten digit recognition with a back-propagation network[C]//Advances in Neural Information Processing Systems. 1990: 396-404.
[41] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE,1998, 86(11): 2278-2324.
[42] Ruck D W, Rogers S K, Kabrisky M, et al. The multilayer perceptron as an approximation to a Bayes optimal discriminant function[J]. IEEE Transactions on Neural Networks, 1990,1(4): 296-298.
[43] Gardner M W, Dorling S R. Artificial neural networks (the multilayer perceptron): A review of applications in the atmospheric sciences[J]. Atmospheric Environment, 1998,32(14): 2627-2636.
[44] Haykin S S. Neural Networks and Learning Machines[M].Upper Saddle River: Pearson, 2009.
[45] Bergstra J, Bengio Y. Random search for hyper-parameter optimimazation[J]. Journal of Machine Learning Research,2012, 13(2):281-305