王志彬 王開義 王書鋒 王曉鋒 潘守慧
(1.北京農(nóng)業(yè)信息技術(shù)研究中心, 北京 100097; 2.農(nóng)業(yè)部農(nóng)業(yè)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室, 北京 100097;3.北京工業(yè)大學(xué)信息學(xué)部, 北京 100124)
基于動(dòng)態(tài)集成的黃瓜葉部病害識(shí)別方法
王志彬1,2王開義1,2王書鋒1,2王曉鋒1,3潘守慧1,2
(1.北京農(nóng)業(yè)信息技術(shù)研究中心, 北京 100097; 2.農(nóng)業(yè)部農(nóng)業(yè)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室, 北京 100097;3.北京工業(yè)大學(xué)信息學(xué)部, 北京 100124)
對(duì)作物病害類型的準(zhǔn)確識(shí)別是病害防治的前提。為提高病害識(shí)別的準(zhǔn)確度,以黃瓜葉部病害識(shí)別為例,提出一種基于動(dòng)態(tài)集成的作物葉部病害種類的識(shí)別方法。首先利用圖像分塊策略提取病害圖像的75維顏色統(tǒng)計(jì)特征,然后采用不一致度量方法對(duì)構(gòu)建的10個(gè)BP神經(jīng)網(wǎng)絡(luò)單分類器進(jìn)行差異性度量,并按照差異性大小進(jìn)行排序,最后根據(jù)分類器的可信度,動(dòng)態(tài)選擇差異性大的分類器子集對(duì)病害圖像進(jìn)行集成識(shí)別。在由512幅白粉病、霜霉病、灰霉病和正常葉片4類黃瓜葉片組織圖像構(gòu)成的測(cè)試集上,所提方法的識(shí)別錯(cuò)誤率為3.32%,分別比BP神經(jīng)網(wǎng)絡(luò)、SVM、Bagging、AdaBoost算法降低了1.37個(gè)百分點(diǎn)、1.56個(gè)百分點(diǎn)、1.76個(gè)百分點(diǎn)、0.78個(gè)百分點(diǎn)。試驗(yàn)結(jié)果表明:所提方法能夠?qū)崿F(xiàn)黃瓜葉部病害種類的準(zhǔn)確識(shí)別,可為其它作物病害的識(shí)別提供借鑒。
黃瓜; 葉部病害; 圖像識(shí)別; 集成學(xué)習(xí); 差異性度量; 動(dòng)態(tài)選擇
近年來,我國(guó)蔬菜產(chǎn)業(yè)得到穩(wěn)步發(fā)展,播種面積呈逐年遞增。據(jù)聯(lián)合國(guó)糧農(nóng)組織統(tǒng)計(jì),我國(guó)蔬菜播種面積和產(chǎn)量分別占世界的43%和49%,均居世界第一[1]。在蔬菜生產(chǎn)過程中,病害是制約蔬菜高產(chǎn)、優(yōu)質(zhì)、高效益的重要因素,一般可造成蔬菜產(chǎn)量損失的10%~30%,病害嚴(yán)重時(shí)損失可達(dá)60%~70%甚至絕產(chǎn)[2-3]。因此,快速準(zhǔn)確地識(shí)別作物病害,采取有效的防治措施,對(duì)確保蔬菜產(chǎn)量和質(zhì)量具有十分重要的社會(huì)意義和經(jīng)濟(jì)價(jià)值。
傳統(tǒng)的病害識(shí)別方法主要依靠植保專家的個(gè)人經(jīng)驗(yàn)和病理學(xué)分析,存在實(shí)時(shí)性差、工作效率低、識(shí)別結(jié)果主觀性強(qiáng)等問題,且往往會(huì)耽誤病害防治,易造成農(nóng)藥的誤用、濫用,缺乏科學(xué)合理的病害防治方法[4-5]。隨著農(nóng)業(yè)信息化進(jìn)程的推進(jìn),基于機(jī)器視覺的作物病害識(shí)別方法能夠顯著克服上述問題,成為該領(lǐng)域當(dāng)前研究的熱點(diǎn)[6-9]。該方法采用機(jī)器視覺和圖像分析技術(shù)在獲取病害葉片圖像的同時(shí)可將病害種類、危害程度和防治方法同步顯示給用戶,實(shí)現(xiàn)作物病害的無損檢測(cè)、快速診斷。目前,常用于作物病害圖像識(shí)別的方法主要包括Fisher法、D-S證據(jù)論法、分類規(guī)則法、神經(jīng)網(wǎng)絡(luò)法和支持向量機(jī)(Support vector machine, SVM)法等。
文獻(xiàn)[10-20]對(duì)作物病害診斷時(shí),大多采用單一分類器進(jìn)行識(shí)別,這需要選取最優(yōu)的單一特征或特征組合,同時(shí)設(shè)計(jì)出最優(yōu)的單分類器才能取得最佳的識(shí)別效果。在實(shí)際應(yīng)用中,存在最優(yōu)特征集和最優(yōu)分類器難以獲取的問題,且識(shí)別算法極易受到參數(shù)、訓(xùn)練集等因素的影響,算法缺乏足夠的穩(wěn)健性。為此,研究者提出基于集成學(xué)習(xí)的病害識(shí)別方法,利用多個(gè)單分類器集成的方式來實(shí)現(xiàn)作物病害的識(shí)別,以獲得更好的識(shí)別效果[21-23]。但是,該方法存在集成規(guī)模難以確定的問題,且多采用靜態(tài)的集成方式,未能充分利用各個(gè)單分類器之間的互補(bǔ)性去除冗余實(shí)現(xiàn)最優(yōu)集成識(shí)別。
本文以黃瓜白粉病、霜霉病、灰霉病3種病害為研究對(duì)象,提出一種基于動(dòng)態(tài)集成的作物葉部病害種類的識(shí)別方法,以期為實(shí)現(xiàn)田間作物病害的準(zhǔn)確識(shí)別提供新的技術(shù)和方法。
試驗(yàn)選取黃瓜的3種常見病害:白粉病、霜霉病、灰霉病,和黃瓜的健康葉片圖像進(jìn)行識(shí)別。根據(jù)病情發(fā)展,可將病害分為發(fā)病初期、發(fā)病中期和發(fā)病晚期3個(gè)階段。由于發(fā)病初期病癥往往難以察覺而發(fā)病晚期則存在葉片枯死的問題,因此,本文采用葉部病癥明顯的發(fā)病中期圖像進(jìn)行試驗(yàn)。
采用的黃瓜葉片圖像由2個(gè)途徑獲取。一是在大田開放環(huán)境下,采用人工手持?jǐn)?shù)碼相機(jī)(SONY DSC-W35)拍攝方法收集了北京市小湯山國(guó)家精準(zhǔn)農(nóng)業(yè)研究示范基地的黃瓜病害葉片圖像。在拍攝圖像時(shí),相機(jī)設(shè)置為微距模式,自動(dòng)調(diào)節(jié)焦距和光圈,自動(dòng)白平衡,關(guān)閉閃光燈。選擇表面潔凈的黃瓜葉片并在光照適中的晴天進(jìn)行圖像采集,避免光照直射和避開刮風(fēng)、降雨的天氣。二是從公共網(wǎng)站 (中國(guó)農(nóng)業(yè)網(wǎng), http:∥www.agronet.com.cn/)[24]上收集黃瓜葉片圖像。在植保專家的指導(dǎo)下,主要收集黃瓜白粉病、霜霉病、灰霉病3種病害中期的葉片圖像和黃瓜健康葉片圖像,并對(duì)病害的準(zhǔn)確性和唯一性進(jìn)行判別。部分黃瓜葉片圖像如圖1所示。
圖1 黃瓜葉片圖像Fig.1 Images of cucumber leaf
采用上述2種方式進(jìn)行樣本圖像的收集,較容易獲得不同地點(diǎn)、不同季節(jié)、不同生長(zhǎng)時(shí)期的黃瓜葉片圖像,以有效地驗(yàn)證本文算法。
葉部病害識(shí)別時(shí),經(jīng)常采用的特征有顏色、形狀、紋理等[10,25]。各種特征中,以顏色信息最為直觀和有效。作物染病后,健康葉片和病斑的顏色往往存在一定的差異。目前,已有多種識(shí)別算法據(jù)此實(shí)現(xiàn)病害種類的準(zhǔn)確識(shí)別,而且對(duì)于部分顏色類似的病斑也有較好的識(shí)別效果[26-28]。根據(jù)黃瓜白粉病、霜霉病、灰霉病和健康葉片圖像的特點(diǎn)[3],本文在RGB顏色空間上,利用分塊圖像的紅色(R)、綠色(G)、藍(lán)色(B)3個(gè)顏色分量的統(tǒng)計(jì)信息,構(gòu)建病害識(shí)別算法的有效特征集,進(jìn)而實(shí)現(xiàn)病害特征的定量化、數(shù)字化表示。特征提取方法如下[29]:
首先,沿圖像水平方向和垂直方向進(jìn)行均勻劃分,分成M×N個(gè)大小相等的子圖像。經(jīng)過圖像劃分后,圖像I可以用集合表示為
I={I11,I12,…,IMN}
(1)
其中,元素Iij(i=1,2,…,M;j=1,2,…,N)是圖像I經(jīng)過劃分后得到的每一個(gè)子圖像。
然后,對(duì)任意子圖像Iij,利用該圖像在R、G、B顏色通道上的顏色值和的平均值作為其顏色特征。假設(shè)Iij高為m像素,寬為n像素,則其顏色特征計(jì)算公式為
(2)
式中rlz——Iij中像素點(diǎn)(l,z)在R顏色通道上的顏色值
glz——Iij中像素點(diǎn)(l,z)在G顏色通道上的顏色值
blz——Iij中像素點(diǎn)(l,z)在B顏色通道上的顏色值
子圖像Iij就可以表示為一個(gè)三元向量
(3)
最后,經(jīng)過子圖像劃分和特征提取,圖像I可以表示為
(4)
式中AI——圖像I的特征矩陣
根據(jù)特征矩陣AI,圖像I可以表示為特征向量
VI=(v1,v2,…,vM)
(5)
其中,元素vi對(duì)應(yīng)式(4)中矩陣的第i行。VI即為所提取的作物葉部病害特征向量。
上述特征提取方法能夠兼顧圖像的整體和局部特性,從而可以更準(zhǔn)確地表示葉片不同組織之間的特征差異。
在對(duì)作物葉部病害識(shí)別時(shí),采用集成學(xué)習(xí)技術(shù)能夠獲得更好的識(shí)別效果[30-32]。但在實(shí)際應(yīng)用中,作物葉部病害識(shí)別是一個(gè)實(shí)時(shí)性過程。在該過程中,不但要保證識(shí)別的準(zhǔn)確性,而且要保證識(shí)別結(jié)果的可靠性。若在集成系統(tǒng)中,采用全部的分類器對(duì)葉部病害組織進(jìn)行識(shí)別,必然會(huì)影響系統(tǒng)的識(shí)別性能,缺乏識(shí)別的針對(duì)性,且對(duì)識(shí)別結(jié)果的可靠性缺少評(píng)估。為此,將動(dòng)態(tài)選擇集成[33]應(yīng)用到病害識(shí)別中,設(shè)計(jì)了一種基于分類器動(dòng)態(tài)選擇集成的作物葉部病害識(shí)別方法,該方法主要包括2部分:分類器排序;分類器的動(dòng)態(tài)選擇集成。
1.3.1分類器排序
分類器的差異性是保證集成系統(tǒng)具有較高識(shí)別率和泛化能力的關(guān)鍵,是分類器動(dòng)態(tài)選擇的重要依據(jù)?,F(xiàn)有的差異性度量方法主要分為2大類:成對(duì)差異性度量方法和非成對(duì)差異性度量方法[34]。其中,成對(duì)差異性度量方法中的不一致度量為常采用的度量方法。
不一致度量表示2個(gè)分類器cq、ck在識(shí)別N個(gè)樣本時(shí),識(shí)別不一致時(shí)的樣本實(shí)例占整個(gè)測(cè)試實(shí)例的比例,計(jì)算公式為
(6)
式中 N01——分類器cq識(shí)別錯(cuò)誤、分類器ck識(shí)別正確時(shí)樣本所占比重
N10——分類器cq識(shí)別正確、分類器ck識(shí)別錯(cuò)誤時(shí)樣本所占比重
N11——分類器cq、ck均識(shí)別正確時(shí)樣本所占比重
N00——分類器cq、ck均識(shí)別錯(cuò)誤時(shí)樣本所占比重
F的取值范圍為[0,1],F(xiàn)越大,分類器間的差異性越大。推廣到L個(gè)分類器,則不一致度量計(jì)算公式為
(7)
式中 Fqk——分類器cq、ck之間不一致度量值
根據(jù)上述差異性度量公式,本文將分類器的選擇與差異性的度量進(jìn)行結(jié)合,實(shí)現(xiàn)分類器子集按照差異性進(jìn)行排序。分類器排序算法流程圖如圖2所示。
圖2 分類器排序算法流程圖Fig.2 Flow chart of classifier sorting
按照該排序算法可以保證在對(duì)病害圖像識(shí)別時(shí),當(dāng)需要n個(gè)分類器時(shí),序列P中的前n個(gè)分類器的組合就是互補(bǔ)性最強(qiáng)的分類器子集;當(dāng)只需要1個(gè)分類器時(shí),選擇的是所有分類器中識(shí)別率最高的分類器。
1.3.2動(dòng)態(tài)選擇集成
所采用的動(dòng)態(tài)選擇集成方法能夠針對(duì)不同的待識(shí)別樣本,挑選出不同數(shù)目的分類器進(jìn)行集成識(shí)別,從而有效地提高系統(tǒng)的識(shí)別性能。當(dāng)一個(gè)或少數(shù)幾個(gè)分類器就能滿足識(shí)別可信度要求時(shí),則無需選擇更多的分類器;否則依次添加分類器,直至所有分類器都入選;若所有分類器都已入選,仍不能滿足識(shí)別可信度要求時(shí),則將每次集成時(shí)的識(shí)別結(jié)果進(jìn)行投票,得票最多的類別即為識(shí)別結(jié)果,算法流程圖如圖3所示。
圖3 分類器動(dòng)態(tài)選擇集成算法流程圖Fig.3 Flow chart of dynamic selective ensemble of classifiers
在圖3中,yd是第d個(gè)參與集成的分類器的輸出結(jié)果,Y=(o1,o2,…,oω)T,ω為類別數(shù),其中每一維分量o表達(dá)了該分量所對(duì)應(yīng)類別在集成后的可信度,Smax為各分量中的最大值,所對(duì)應(yīng)的類別即為識(shí)別結(jié)果,θ為系統(tǒng)識(shí)別結(jié)果的可信度,其取值范圍為[0,1],Q為候選分類器的個(gè)數(shù)。
按照上述算法,對(duì)作物葉部病害識(shí)別過程為:首先根據(jù)識(shí)別精度的需要設(shè)定初始可信度閾值θ0,然后根據(jù)分類器排序結(jié)果P選取第1個(gè)分類器對(duì)葉部病害圖像樣本x進(jìn)行識(shí)別,當(dāng)識(shí)別結(jié)果滿足可信度的要求時(shí),則輸出識(shí)別結(jié)果R,無需集成其它分類器;否則依次選入w(w≥2)個(gè)分類器,并對(duì)入選的分類器進(jìn)行集成,保存集成識(shí)別結(jié)果Rw,當(dāng)滿足輸出條件Smax≥wθ時(shí),輸出識(shí)別結(jié)果R;若所有分類器都已選入仍不滿足輸出條件,則對(duì)每次集成時(shí)的識(shí)別結(jié)果Rw進(jìn)行投票,得票最多的類別即為該葉部病害圖像樣本的最終識(shí)別結(jié)果。
在Matlab 2011環(huán)境下,通過編程實(shí)現(xiàn)本文所提的病害識(shí)別算法,并以實(shí)際黃瓜葉片圖像為測(cè)試對(duì)象進(jìn)行試驗(yàn)驗(yàn)證。試驗(yàn)中所采用的計(jì)算機(jī)配置為:Intel Pentium 4 CPU 3.0 GHz 中央處理器,2 GB內(nèi)存,Windows XP操作系統(tǒng)。
試驗(yàn)用到的圖像全部來源于所建立的黃瓜葉片圖像庫(kù)。在植保專家的指導(dǎo)下,從不同黃瓜葉片上截取部分典型組織圖像,構(gòu)成樣本集。該樣本集包括3部分:訓(xùn)練集、測(cè)試集和驗(yàn)證集,共2 443幅圖像。其中,訓(xùn)練集包含1 721幅圖像,測(cè)試集包含512幅圖像,驗(yàn)證集包含210幅圖像。樣本集具體構(gòu)成如表1所示。試驗(yàn)中,將黃瓜葉部組織圖像分為4類:白粉病、霜霉病、灰霉病和正常葉片,采用75維的顏色特征。
表1 黃瓜葉部病害樣本集Tab.1 Sample sets of cucumber leaf diseases
本文采用3層BP神經(jīng)網(wǎng)絡(luò)作為單分類器對(duì)黃瓜葉片組織圖像進(jìn)行識(shí)別。其中,BP神經(jīng)網(wǎng)絡(luò)采用75-5-4三層結(jié)構(gòu),學(xué)習(xí)速率為0.5,慣性系數(shù)設(shè)為0.8,目標(biāo)誤差為0.001,迭代次數(shù)設(shè)置為500,輸出層的神經(jīng)元采用S型變換函數(shù)將輸出結(jié)果轉(zhuǎn)換為[0,1]上的可信度。
為構(gòu)建更多的單分類器,通過重采樣技術(shù)對(duì)訓(xùn)練集有放回地抽取,為每個(gè)單分類器都構(gòu)建一個(gè)跟訓(xùn)練集同樣大小但各不相同的訓(xùn)練集,從而訓(xùn)練出不同的單分類器。本文隨機(jī)產(chǎn)生10個(gè)BP單分類器,其識(shí)別錯(cuò)誤率如表2所示。
表2 各單分類器在測(cè)試集上的識(shí)別錯(cuò)誤率Tab.2 Recognition error rate of individual classifiers for test set
由表2可知,利用重采樣技術(shù)獲得的10個(gè)BP神經(jīng)網(wǎng)絡(luò)單分類器各不相同,性能最高的BP神經(jīng)網(wǎng)絡(luò)在測(cè)試集上的識(shí)別錯(cuò)誤率為4.69%,識(shí)別錯(cuò)誤率最高為25.59%,平均識(shí)別錯(cuò)誤率為10.51%。
在單分類器設(shè)計(jì)完成后,采用驗(yàn)證樣本集對(duì)上述單分類器進(jìn)行差異性度量和排序,其結(jié)果如表3所示。
表3 分類器排序結(jié)果Tab.3 Ranking results of classifier sorting
按照表3的排序結(jié)果,在測(cè)試樣本集上,采用動(dòng)態(tài)選擇集成算法對(duì)黃瓜葉部病害圖像進(jìn)行識(shí)別,并與常用的病害識(shí)別算法SVM、經(jīng)典集成學(xué)習(xí)算法Bagging、AdaBoost進(jìn)行對(duì)比試驗(yàn)。試驗(yàn)結(jié)果如表4所示。
表4 各算法識(shí)別性能對(duì)比Tab.4 Recognition performances comparison of different methods
在表4中,SVM采用運(yùn)算復(fù)雜度小、穩(wěn)定性高的徑向基函數(shù)(Radial basis function, RBF) 作為核函數(shù),并通過試驗(yàn)確定懲罰因子C=30,核函數(shù)g=5;Bagging算法和AdaBoost算法則均采用BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)作為單分類器,分別產(chǎn)生10個(gè)單分類器并對(duì)其進(jìn)行線性集成。本文采用的動(dòng)態(tài)選擇集成算法的可信度閾值設(shè)置為θ0=0.6。
由表4可以看出,本文提出的病害識(shí)別算法在測(cè)試集上的識(shí)別錯(cuò)誤率為3.32%,分別比BP神經(jīng)網(wǎng)絡(luò)、SVM、Bagging、AdaBoost算法降低了1.37個(gè)百分點(diǎn)、1.56個(gè)百分點(diǎn)、1.76個(gè)百分點(diǎn)、0.78個(gè)百分點(diǎn)。所提算法具有更好的識(shí)別效果,其原因?yàn)椋涸趯?duì)病害葉片圖像進(jìn)行識(shí)別時(shí),本文采用動(dòng)態(tài)集成的方式,即針對(duì)每一病害葉片圖像,均動(dòng)態(tài)選擇出性能最優(yōu)的分類器或組合進(jìn)行識(shí)別(參與集成的分類器個(gè)數(shù)不同),這樣的識(shí)別更有針對(duì)性,獲得了更好的識(shí)別效果。但是,該算法存在耗時(shí)較長(zhǎng)的問題。Bagging算法與BP神經(jīng)網(wǎng)絡(luò)識(shí)別性能最優(yōu)的C5相比,Bagging算法對(duì)產(chǎn)生的10個(gè)單分類器進(jìn)行線性集成,但識(shí)別結(jié)果未能達(dá)到最優(yōu),則進(jìn)一步說明產(chǎn)生的多分類器之間存在冗余,直接對(duì)所有分類器進(jìn)行集成,會(huì)融合一些無效的決策而影響最終的識(shí)別結(jié)果。AdaBoost與Bagging算法相比,AdaBoost算法識(shí)別性能更優(yōu),錯(cuò)誤率降低了0.98個(gè)百分點(diǎn),其原因在于:AdaBoost對(duì)產(chǎn)生的分類器進(jìn)行加權(quán)集成,即差異性大的分類器其集成權(quán)值更高,從而獲得更高的識(shí)別性能。此外,本文所提算法在初始可信度為0.6時(shí),對(duì)每一樣本進(jìn)行識(shí)別時(shí),平均集成分類器個(gè)數(shù)為1.041個(gè),這說明在此可信度下,大部分樣本的識(shí)別精度均已滿足可信度的要求,只有少數(shù)難以識(shí)別的樣本需進(jìn)行動(dòng)態(tài)選擇集成,因此所提算法結(jié)構(gòu)更靈活、識(shí)別更有針對(duì)性。
可信度是影響算法識(shí)別性能的重要參數(shù),為研究其與識(shí)別錯(cuò)誤率、算法耗時(shí)之間的關(guān)系,本文進(jìn)行了3種可信度情況下的算法性能測(cè)試,試驗(yàn)結(jié)果如表5所示。
由表5可以看出,算法的初始可信度越大,參與集成的分類器個(gè)數(shù)越多,算法的耗時(shí)越大,算法的識(shí)別錯(cuò)誤率越高,但識(shí)別結(jié)果越可靠。改變初始可信度會(huì)影響算法識(shí)別性能的原因在于: 改變初始可信度閾值,會(huì)影響算法識(shí)別結(jié)果的可靠性。當(dāng)對(duì)算法識(shí)別的可靠性要求越高時(shí),單一分類器的識(shí)別結(jié)果若不能滿足該識(shí)別精度要求時(shí),必然要求參與集成的分類器個(gè)數(shù)增加,從而增加算法的執(zhí)行時(shí)間,且識(shí)別可靠性要求高,易導(dǎo)致算法識(shí)別精度的降低;反之亦然。所以在實(shí)際應(yīng)用中,應(yīng)根據(jù)應(yīng)用場(chǎng)景對(duì)識(shí)別結(jié)果可靠性設(shè)置合適的初始可信度,以兼顧識(shí)別精度和效率。
表5 初始可信度對(duì)算法性能的影響Tab.5 Influences of initial confidence on algorithm performance
此外,顏色是區(qū)分作物病害種類的一個(gè)重要特征。傳統(tǒng)人工診斷方法由于病害診斷標(biāo)準(zhǔn)含糊不清,加之人眼分辨顏色的能力有限,有時(shí)會(huì)妨礙對(duì)病害的判斷。但是,通過顏色特征提取病害圖像后,能夠?qū)Σ『μ卣鬟M(jìn)行數(shù)字化、精細(xì)化、定量化的描述,從而有利于實(shí)現(xiàn)病害種類的準(zhǔn)確識(shí)別。本文在RGB顏色空間上,利用分塊圖像的R、G、B3個(gè)顏色分量的統(tǒng)計(jì)信息,構(gòu)建了75維有效特征向量集,取得較好的識(shí)別效果。隨著多特征融合技術(shù)的發(fā)展,利用多特征實(shí)現(xiàn)作物病害的準(zhǔn)確識(shí)別已得到越來越多研究者的關(guān)注[12,19,35]。但是,在病害識(shí)別時(shí),選擇何種特征以及采用何種融合方法更能表達(dá)作物病害信息,仍需要進(jìn)一步的研究。此外,在算法實(shí)際應(yīng)用時(shí),田間光照強(qiáng)度的不均特別是光照直射,會(huì)影響算法的識(shí)別性能[22,25,36],如何克服光照影響,提高算法的魯棒性也將是本文算法改進(jìn)的一個(gè)重要方向。
(1)在512幅由白粉病、霜霉病、灰霉病和正常葉片4類黃瓜葉片組織圖像構(gòu)成的測(cè)試集上,所提出的識(shí)別算法的識(shí)別錯(cuò)誤率為3.32%,分別比BP神經(jīng)網(wǎng)絡(luò)、SVM、Bagging、AdaBoost算法降低了1.37個(gè)百分點(diǎn)、1.56個(gè)百分點(diǎn)、1.76個(gè)百分點(diǎn)、0.78個(gè)百分點(diǎn)。
(2)在病害識(shí)別時(shí),采用Bagging算法比10個(gè)BP單分類器均值的識(shí)別錯(cuò)誤率低5.43個(gè)百分點(diǎn),而AdaBoost算法比Bagging算法識(shí)別錯(cuò)誤率降低了0.98個(gè)百分點(diǎn),集成多個(gè)分類器通常能夠獲得更好的識(shí)別效果,且分類器之間差異性越大,集成識(shí)別效果越明顯。
(3)所采用的特征提取方法能夠很好的表達(dá)黃瓜葉部不同病害組織的顏色特征,且計(jì)算簡(jiǎn)單、實(shí)用性高。
(4)算法在可信度為0.6、0.95、1時(shí),算法平均參與集成分類器個(gè)數(shù)依次為:1.041、1.932、10個(gè);算法的平均耗時(shí)為0.544、0.611、0.926 s;算法的識(shí)別錯(cuò)誤率為:3.32%、5.08%、5.27%,算法的可信度越大,參與集成的分類器個(gè)數(shù)越多,算法的耗時(shí)越大,算法的識(shí)別錯(cuò)誤率越高,但識(shí)別結(jié)果越可靠。
1 李寶聚. 蔬菜主要病害2013年發(fā)生概況及2014年發(fā)生趨勢(shì)[J]. 中國(guó)蔬菜, 2014(2): 5-8.
2 騰葳, 柳琪, 郭棟梁. 我國(guó)蔬菜病蟲害的基本概況及對(duì)蔬菜安全質(zhì)量的影響分析[J]. 食品研究與開發(fā), 2003, 24(5): 3-5.
3 王恒亮, 倪云霞, 李好海, 等. 蔬菜病蟲害診治原色圖鑒[M]. 北京: 中國(guó)農(nóng)業(yè)科學(xué)技術(shù)出版社, 2013: 110-177.
4 SANKARAN S, MISHRA A, EHSANI R, et al. A review of advanced techniques for detecting plant diseases[J]. Computers and Electronics in Agriculture, 2010, 72(1): 1-13.
5 劉君, 王振中, 李寶聚, 等. 基于圖像處理的作物病害自動(dòng)識(shí)別系統(tǒng)的研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2012, 48(13): 154-158.
6 賴軍臣, 李少昆, 明博, 等. 作物病害機(jī)器視覺診斷研究進(jìn)展[J]. 中國(guó)農(nóng)業(yè)科學(xué), 2009, 42(4): 1215-1221. LAI Junchen, LI Shaokun, MING Bo, et al. Advances in research on computer-vision diagnosis of crop diseases[J]. Scientia Agricultura Sinica, 2009, 42(4): 1215-1221. (in Chinese)
7 DIAO Z, ZHAO C, WU G, et al. Review of application of mathematical morphology in crop disease recognition[C]∥Computer and Computing Technologies in Agriculture, 2008, 2: 981-990.
8 BARBEDO J G A. Digital image processing techniques for detecting, quantifying and classifying plant diseases[J]. SpringerPlus, 2013,2:660.
9 BARBEDO J G A. A review on the main challenges in automatic plant disease identification based on visible range images[J]. Biosystems Engineering, 2016, 144: 52-60.
10 賈建楠, 吉海彥. 基于病斑形狀和神經(jīng)網(wǎng)絡(luò)的黃瓜病害識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2013, 29(增刊): 115-121. JIA Jiannan, JI Haiyan. Recognition for cucumber disease based on leaf spot shape and neural network[J]. Transactions of the CSAE, 2013, 29(Supp.): 115-121. (in Chinese)
11 PHADIKAR S, SIL J, DAS A K. Rice diseases classification using feature selection and rule generation techniques[J]. Computers and Electronics in Agriculture, 2013, 90: 76-85.
12 王獻(xiàn)鋒, 張善文, 王震, 等. 基于葉片圖像和環(huán)境信息的黃瓜病害識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2014, 30(14): 148-153. WANG Xianfeng, ZHANG Shanwen, WANG Zhen, et al. Recognition of cucumber diseases based on leaf image and environmental information[J]. Transactions of the CSAE, 2014, 30(14): 148-153. (in Chinese)
13 田凱, 張連寬, 熊美東, 等. 基于葉片病斑特征的茄子褐紋病識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2016, 32(增刊): 184-189. TIAN Kai, ZHANG Liankuan, XIONG Meidong, et al. Recognition of phomopsis vexans in solanum melongena based on leaf disease spot features[J]. Transactions of the CSAE, 2016, 32(Supp.): 184-189. (in Chinese)
14 BARBEDO J G A, KOENIGKAN L V, SANTOS T T. Identifying multiple plant diseases using digital image processing[J]. Biosystems Engineering, 2016, 147: 104-116.
15 HU M, BU X, SUN X, et al. Rape plant disease recogniton method of multi-feature fusion based on D-S evidence theory[J]. Mathematical and Computational Applications, 2017, 22(18): 1-7.
16 霍迎秋, 唐晶磊, 尹秀珍, 等. 基于壓縮感知理論的蘋果病害識(shí)別方法[J/OL]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2013, 44(10): 227-232. http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20131036&journal_id=jcsam.DOI:10.6041/j.issn.1000-1298.2013.10.036. HUO Yingqiu, TANG Jinglei, YIN Xiuzhen, et al. Apple disease recogniton based on compressive sensing[J/OL]. Transactions of the Chinese Society for Agricultural Machinery, 2013, 44(10): 227-232. (in Chinese)
17 葉海建, 郎睿, 劉成啟, 等. 基于視覺顯著性圖的黃瓜霜霉病識(shí)別方法[J/OL]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2016, 47(5): 270-274. http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20160536&journal_id=jcsam. DOI:10.6041/j.issn.1000-1298.2016.05.036. YE Haijian, LANG Rui, LIU Chengqi, et al. Recogniton of cucumber downy mildew disease based on visual saliency map[J/OL]. Transactions of the Chinese Society for Agricultural Machinery, 2016, 47(5): 270-274. (in Chinese)
18 CAMARGO A, SMITH J S. Image pattern classification for the identification of disease causing agents in plants[J]. Computers and Electronics in Agriculture, 2009, 66(2): 121-125.
19 馬浚誠(chéng), 溫皓杰, 李鑫星, 等. 基于圖像處理的溫室黃瓜霜霉病診斷系統(tǒng)[J/OL]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2017, 48(2): 195-202. http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20170226&journal_id=jcsam.DOI:10.6041/j.issn.1000-1298.2017.02.026. MA Juncheng, WEN Haojie, LI Xinxing, et al. Downy mildew diagnosis system for greenhouse cucumbers based on image processing[J/OL]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(2): 195-202. (in Chinese)
20 張建華, 孔繁淘, 李哲敏, 等. 基于最優(yōu)二叉樹支持向量機(jī)的蜜柚葉部病害識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2014, 30(19): 222-231. ZHANG Jianhua, KONG Fantao, LI Zhemin, et al. Recogniton of honey pomelo leaf diseases based on optimal binary tree support vector machine[J]. Transactions of the CSAE, 2014, 30(19): 222-231. (in Chinese)
21 TIAN Y, ZHAO C, LU S, et al. Multiple classifier combination for recogniton of wheat leaf diseases[J]. Intelligent Automation and Soft Computing, 2011, 17(5): 519-529.
22 許良鳳, 徐小兵, 胡敏, 等. 基于多分類器融合的玉米葉部病害識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2015, 31(14): 194-201. XU Liangfeng, XU Xiaobing, HU Min, et al. Corn leaf disease identificaiton based on multiple classifiers fusion[J]. Transactions of the CSAE, 2015, 31(14): 194-201. (in Chinese)
23 馬曉丹, 關(guān)海鷗, 祁廣云, 等. 基于改進(jìn)級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)的大豆葉部病害診斷模型[J/OL]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2017, 48(1): 163-168. http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20170121&journal_id=jcsam.DOI:10.6041/j.issn.1000-1298.2017.01.021. MA Xiaodan, GUAN Haiou, QI Guangyun, et al. Diagnosis model of soybean leaf diseases based on improved cascade neural network[J/OL]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(1): 163-168. (in Chinese)
24 MA J, LI X, WEN H, et al. A key frame extraction method for processing greenhouse vegetables production monitoring video[J]. Computers and Electronics in Agriculture, 2015, 111: 92-102.
25 耿長(zhǎng)興, 張俊雄, 曹崢勇, 等. 基于色度和紋理的黃瓜霜霉病識(shí)別與特征提取[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2011, 42(3): 170-174. GENG Changxing, ZHANG Junxiong, CAO Zhengyong, et al. Recognition and features extraction of cucumber downy mildew based on color and textue[J]. Transactions of the Chinese Society for Agricultural Machinery, 2011, 42(3): 170-174. (in Chinese)
26 岑喆鑫, 李寶聚, 石延霞, 等. 基于彩色圖像顏色統(tǒng)計(jì)特征的黃瓜炭疽病和褐斑病的識(shí)別研究[J]. 園藝學(xué)報(bào), 2007, 34(6): 1425-1430. CEN Zhexin, LI Baoju, SHI Yanxia, et al. Discrimination of cucumber anthracnose and cucumber brown speck base on color image statistical characteristics[J]. Acta Horticulturae Sinica, 2007, 34(6): 1425-1430. (in Chinese)
27 李旺, 唐少先, 陳榮. 基于顏色特征和支持向量機(jī)的黃瓜葉部病害識(shí)別[J]. 農(nóng)機(jī)化研究, 2014,36(1):73-75.
28 田有文, 張長(zhǎng)水, 李成華. 基于支持向量機(jī)和色度矩的植物病害識(shí)別研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2004, 35(3): 95-98. TIAN Youwen, ZHANG Changshui, LI Chenghua. Study on plant disease recognition using support vector machine and chromaticity moments[J]. Transactions of the Chinese Society for Agricultural Machinery, 2004, 35(3): 95-98. (in Chinese)
29 SHEN H, HAO H, WEI L, et al. An image based classification method for cataract[C]∥2008 International Symposium on Computer Science and Computational Technology, 2008: 583-586.
30 張春霞, 張講社. 選擇性集成學(xué)習(xí)算法綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2011, 34(8): 1399-1410. ZHANG Chunxia, ZHANG Jiangshe. A survey of selective ensemble learning algorithms[J]. Chinese Journal of Computers, 2011, 34(8): 1399-1410. (in Chinese)
31 YIN X, HUANG K, HAO H, et al. A novel classifier ensemble method with sparsity and diversity[J]. Neurocomputing, 2014, 134:214-221.
32 KRAWCZYK B, MINKU L L, GAMA J, et al. Ensemble learning for data stream analysis: a survey[J]. Information Fusion, 2017, 37: 132-156.
33 YAN Y, YIN X, WANG Z, et al. Sorting-based dynamic classifier ensemble selection[C]∥12th International Conference on Document Analysis and Recognition, 2013: 673-677.
34 楊春, 殷緒成, 郝紅衛(wèi), 等. 基于差異性的分類器集成: 有效性分析及優(yōu)化集成[J]. 自動(dòng)化學(xué)報(bào), 2014, 40(4): 660-674. YANG Chun, YIN Xucheng, HAO Hongwei, et al. Classifier ensemble with diversity: effectiveness analysis and ensemble optimization[J]. Acta Automatica Sinica, 2014, 40(4): 660-674. (in Chinese)
35 ZHANG S, WU X, YOU Z, et al. Leaf image based cucumber disease recognition using sparse representation classification[J]. Computers and Electronics in Agriculture, 2017, 134: 135-141.
36 OUYANG C, LI D, WANG J, et al. The research of the strawberry disease identification based on image processing and pattern recognition[C]∥6th International Conference on Computer and Computing Technologies in Agriculture, 2012: 69-77.
RecognitionMethodofCucumberLeafDiseaseswithDynamicEnsembleLearning
WANG Zhibin1,2WANG Kaiyi1,2WANG Shufeng1,2WANG Xiaofeng1,3PAN Shouhui1,2
(1.BeijingResearchCenterforInformationTechnologyinAgriculture,Beijing100097,China2.KeyLaboratoryofAgri-informatics,MinistryofAgriculture,Beijing100097,China3.FacultyofInformationTechnology,BeijingUniversityofTechnology,Beijing100124,China)
Crop disease is one of the most important influencing factors for agricultural high yield and high quality. Accurate classification of diseases is a key and basic step for early disease monitoring, diagnostics and prevention. The optimal individual classifier design is currently the common limitation in most crop disease recognition methods based images. To improve the accuracy and stability of disease identification, a disease recognition method of cucumber leaf images via dynamic ensemble learning was proposed. The approach consisted of three major stages. Firstly, totally 75-dimension color features of leaf image were extracted with image block processing. Secondly, a disagreement approach was used to measure the diversity among 10 classifiers of neural networks with an ensemble technique, where the classifiers were ordered according to the diversity. Finally, with the confidence of classifiers, a classifier subset was dynamically selected and integrated to identify the images of crop leaf diseases. To verify the effectiveness of the proposed method, classification experiments were performed on images of four kinds of cucumber leaf tissues, including 512 samples composed of powdery milder, downy mildew, gray mold and normal leaf. The experimental results showed that the recognition error rate of the proposed method was 3.32%, compared with those of BP neural network, SVM, Bagging and AdaBoost methods, it was reduced by 1.37 percentage point, 1.56 percentage point, 1.76 percentage point and 0.78 percentage point, respectively. The proposed method identified the diseases accurately from cucumber leaf images. Moreover, the method was feasible and effective, and it can also be utilized and modified for the classification of other crop diseases.
cucumber; leaf diseases; image recognition; ensemble learning; diversity measure; dynamic selection
S431.9; TP391.4
A
1000-1298(2017)09-0046-07
10.6041/j.issn.1000-1298.2017.09.006
2017-03-27
2017-07-13
國(guó)家自然科學(xué)基金項(xiàng)目(61403035、71301011)和北京市自然科學(xué)基金項(xiàng)目(9152009)
王志彬(1983—),男,助理研究員,博士,主要從事作物病蟲害圖像識(shí)別技術(shù)研究,E-mail: wangzb@nercita.org.cn
王開義(1974—),男,研究員,博士,主要從事農(nóng)業(yè)信息化技術(shù)研究,E-mail: wangky@nercita.org.cn