張鑠,謝裕睿,董建娥
(西南林業(yè)大學(xué)大數(shù)據(jù)與智能工程學(xué)院,昆明 650224)
在實(shí)際生活中,通常植物病害初期的外觀人們無法用準(zhǔn)確的用數(shù)值進(jìn)行描述,所以分析植物病害時(shí)憑借以往經(jīng)驗(yàn)和知識(shí)時(shí)常產(chǎn)生偏差。因有多種不同種類的植物病害致病病原物,所以會(huì)出現(xiàn)各不相同的病斑紋理,故根據(jù)不同病害顯示的不同紋理特征,利用計(jì)算機(jī)圖像處理和機(jī)器學(xué)習(xí)識(shí)別技術(shù)對(duì)上述特征進(jìn)行識(shí)別,此類技術(shù)是對(duì)植物病害進(jìn)行自動(dòng)檢測(cè)和遠(yuǎn)程診斷的重要手段[1]。
為了準(zhǔn)確且快速地識(shí)別出植物葉片病害,同時(shí)兼顧葉片因素及不同算法的運(yùn)算時(shí)間、識(shí)別準(zhǔn)確率,本文分別在圖像的HSI和Lab顏色空間采用K-means分割算法進(jìn)行切割,提取出病害圖像中共13維的紋理特征作為分類依據(jù),分類器選用SVM將所提取的圖像紋理特征數(shù)據(jù)進(jìn)行識(shí)別。
為了突出病害葉片和正常葉片的對(duì)比效果,首先需增強(qiáng)原始圖像的對(duì)比度。按照一定要求,突出某些需要檢測(cè)的特征同時(shí)若原圖像不清晰則使圖像變清晰,令圖像質(zhì)量提升、充足信息量,改良預(yù)讀和識(shí)別的圖像效果[2]。通過增強(qiáng)對(duì)比度,病害區(qū)域和正常區(qū)域可以很容易被區(qū)分,對(duì)比效果如圖1所示。
圖1 增強(qiáng)對(duì)比度效果
圖像二值化處理的主要目的是將圖像中各點(diǎn)的灰度值設(shè)為0或255,即令圖像整體明顯的轉(zhuǎn)化除黑白效果。而特定物體是指全部灰度大于或等于閾值的像素,其灰度值通常被設(shè)為255,否則將這些像素點(diǎn)表示灰度值為0的背景或例外的物體區(qū)域,排除在物體區(qū)域之外[3]。
本文中獲得最優(yōu)閾值的方法為最大類間差分法,最大類間差分法(Otsu)也被稱為大津法,其基本概念是選取可把圖像分割成兩組的最大的某一灰度值處的類間方差,具有很強(qiáng)的自適應(yīng)性[4]。若將圖像的大小設(shè)為m×n,最大類間差分法具體算法如下,公式的參數(shù)意義如表1所示。
表1 最大類間差分法公式參數(shù)的含義
將式(5)代入式(6),得到等價(jià)公式:
使用遍歷的方式可得的閾值T,即為令類間方差最大的閾值,將圖像進(jìn)行二值化后,病害與正常葉片的顏色不同被區(qū)分開來,結(jié)果如圖2所示。
圖2 圖像二值化效果
Lab顏色空間是CIE(國(guó)際照明委員會(huì))制定的一種由三個(gè)通道組成的色彩模式,其中一個(gè)通道是明度(即亮度),記為L(zhǎng),另外兩個(gè)是色彩通道,用a和b來表示[5]。圖3展示某個(gè)植物病害葉片于Lab色彩空間中的三個(gè)通道處理結(jié)果。
圖3 植物病害葉片在Lab顏色空間中的處理結(jié)果
K-means是一種基于距離的經(jīng)典非層次聚類算法,在對(duì)誤差函數(shù)最小化的同時(shí)按照預(yù)計(jì)類數(shù)K劃分?jǐn)?shù)據(jù),將間距作為對(duì)其相似性進(jìn)行評(píng)價(jià)的指標(biāo),可認(rèn)為對(duì)象之間間距越近,兩者之間相似度就越高。通常將特征空間劃分K個(gè)聚類的方法是K均值法,令x=(x1,x2,…,xn)為n維特征空間中一點(diǎn),g(x)為x處特征值,則K-means算法的主要步驟有以下4步[6]:
(1)選取數(shù)據(jù)中K個(gè)對(duì)象作為初始聚類中心:μ1(1),μ2(1),…,μx。
(2)計(jì)算各聚類對(duì)象到聚類中心的距離,進(jìn)行第i次迭代計(jì)算時(shí),將每一個(gè)特征點(diǎn)歸于K類中的某一類,既:x∈Ql(i)。如果:
Ql(i)代表第i次迭代后屬于第l類的特征點(diǎn)集合。式(8)的意義即每個(gè)特征點(diǎn)均值最靠近它的類。
(3)再次計(jì)算每個(gè)聚類中心,第i次迭代以后,更新每一個(gè)類的均值μl(i+1):
式中,N l是Ql(i)中的特征點(diǎn)個(gè)數(shù)。
(4)計(jì)算標(biāo)準(zhǔn)測(cè)度函數(shù),如果達(dá)到迭代次數(shù)的最大值,立刻停止;否則,繼續(xù)操作,如果對(duì)所有的j=1,2,…,K,有μ1(i+1)=μ1(i),則算法結(jié)束;否則,將式(9)進(jìn)行迭代。
Lab對(duì)顏色定位精確、均勻,較RGB等顏色模式更符合于人眼對(duì)自然界顏色的感知。利用K-means算法將圖像初步分割,單是依據(jù)圖像的顏色信息,將顏色相近的像素點(diǎn)歸為同一簇,無需對(duì)圖像進(jìn)行精確地分割[7]。
圖4 Lab彩色圖分割結(jié)果
基于Lab對(duì)圖像的分割,病斑在圖像中被較好地分割出來,為之后提取病斑的特征做好了鋪墊。
本文主要提取分割出的病斑方面的13維特征:對(duì)比度、相關(guān)性、同質(zhì)性、平均值、標(biāo)準(zhǔn)差、近似熵、方差、逆差距、偏斜、峰值、平均值、平滑度、能量。
灰度共生矩陣(grey-level co-occurrence ma?trix,GLCM)以統(tǒng)計(jì)形式表現(xiàn)影像中的局部或整個(gè)區(qū)域一定間距內(nèi)兩象元或相鄰象元呈現(xiàn)某種關(guān)系的矩陣,亦可為特定間距內(nèi)兩象元灰度的關(guān)系矩陣[8]。該矩陣中的元素值代表灰度級(jí)之間聯(lián)合條件概率密度,即在給定空間距離d和方向時(shí),把i作為灰度始點(diǎn),灰度級(jí)呈現(xiàn)j的概率。
假定有一副圖像,大小為m×n,若該圖像灰度級(jí)為N,那么灰度共生矩陣應(yīng)具備如下條件:
其中S是圖像具有特定位置關(guān)系的像素對(duì)的集合,Cout表示滿足此位置條件,兩點(diǎn)的灰度值分別為i、j點(diǎn)的數(shù)量。
(1)Correlation(相關(guān)性)。
自相關(guān)反應(yīng)了圖像紋理的一致性,取值范圍應(yīng)在[-1,1]?;叶纫恢碌膱D像,相關(guān)性為NaN。
(2)Homogeneity(同質(zhì)性)。
同質(zhì)性是局部灰度均勻性的一種衡量標(biāo)準(zhǔn),當(dāng)其取值較大時(shí),表明圖像局部的灰度均勻。
(3)Energy(能量)。
能量表示圖像灰度分布是否均勻、紋理粗還是細(xì),取值范圍為[0,1],若圖像灰度一致,能量為1。
(4)Entropy(近似熵)。
近似熵體現(xiàn)圖像紋理的復(fù)雜度。
(5)Contrast(對(duì)比度)。
對(duì)比度反映圖像中局部灰度變化總量,值域?yàn)椋?,(GLC M行數(shù)-1)2]?;叶纫恢碌膱D像,對(duì)比度為0。
(6)IDM(逆差距)。
圖像紋理同質(zhì)性由逆差矩體現(xiàn),即度量圖像紋理的局部變化量。
灰度直方圖作為圖像的重要特征之一,是一種統(tǒng)計(jì)特征,表現(xiàn)圖像關(guān)于灰度級(jí)分布的函數(shù)[9]。
(1)Mean(平均值)。
紋理的規(guī)則度用均值反映,紋理若混亂無序、不便描述,則值較小,反之值較大。
1)Standard-Deviation(標(biāo)準(zhǔn)差)
2)Variance(方差)
如樣本值與均值偏差的數(shù)值,均可用方差、標(biāo)準(zhǔn)差反映。
(1)Smoothness(平滑度)。
其中sum表示圖象矩陣的和,平滑度反應(yīng)一幅圖像灰度的均勻性,取值范圍為[0,1],代表平滑程度。
(2)RMS(均方根)。
均方根體現(xiàn)已知圖像與退化圖像二者誤差大小。
(3)Skewness(偏斜)。
偏斜反映對(duì)圖像構(gòu)成的分布的對(duì)稱性狀況。
(4)Kurtosis(峰值)。
體現(xiàn)圖像構(gòu)成的突兀或平坦分布稱為峰值。
對(duì)SVM算法常見的解釋是尋找一條位于二維空間中可以分開兩類的分割線,如圖5所示,四條不同顏色的分割線都可以把一類和二類劃開,可見有許多函數(shù)可以達(dá)到分類的要求,必須使用“分類間隔”指標(biāo)來量化分類效果。
圖5 SVM分類原理
由于在現(xiàn)實(shí)生活中存在的大多問題都為非線性,若存在一個(gè)向量其維數(shù)無限增加時(shí)就可以將其表示為一個(gè)實(shí)函數(shù)。假設(shè)有一樣本空間X,此時(shí)引入一非線性映射N,把X通過N映射到新的特征空間形成N(x),將可積分函數(shù)N(x)乘上一個(gè)新的二元函數(shù)K(x,y),再作積分形成一個(gè)新的函數(shù)實(shí)現(xiàn)輸出,這個(gè)變換過程中的二元函數(shù)K(x,y)被稱為積分變換的核函數(shù)[10]。K(x,y)函數(shù)是對(duì)稱連續(xù)函數(shù),根據(jù)Mercer定理,K(x,y)為Mercer核函數(shù),可將其展開成一致收斂的函數(shù)項(xiàng)級(jí)數(shù):
上式中λi,φi(x)分別對(duì)應(yīng)核K(x,y)的特征值和特征函數(shù),而λi,φi(x)的數(shù)量可以取有限多個(gè)或是無限多個(gè)。對(duì)特征空間做非線性升維映射構(gòu)造,最終可得到一個(gè)關(guān)于最優(yōu)超平面決策函數(shù):
上式中a*i和b*作為兩個(gè)因子來決定最優(yōu)劃分超平面,所謂支持向量即為最優(yōu)劃分超平面的樣本點(diǎn)。從上述式中不難發(fā)現(xiàn)當(dāng)支持向量X i;與其支持的強(qiáng)度a*i和閾值b*全部被確定時(shí),使用核函數(shù)進(jìn)行運(yùn)算,便能獲得原樣本空間關(guān)于非線性劃分的輸出,由此可見,在實(shí)際計(jì)算中使用此種方式時(shí)顯式表達(dá)式并不需完全求出,從而避免了因升維而導(dǎo)致的復(fù)雜計(jì)算[11]。
本文對(duì)灰疽病、褐斑病、細(xì)菌性疫病及鏈格孢鏈菌四種植物病害進(jìn)行識(shí)別,采用共437幅健康或病害圖片的13維特征作為精確性數(shù)據(jù),將提取得到的13維特征作為測(cè)試集,放入SVM分類器中開始分類,分類的結(jié)果以標(biāo)簽形式顯示,再根據(jù)標(biāo)簽顯示不同疾病,完成對(duì)植物葉片病害的識(shí)別,平均識(shí)別率可達(dá)90.67%,測(cè)試效果如表2。
表2 植物病害識(shí)別測(cè)試結(jié)果統(tǒng)計(jì)
有別于傳統(tǒng)的病害分析和診斷方法,本文采用圖像處理方式和機(jī)器學(xué)習(xí)方法改進(jìn)對(duì)植物病害加以鑒別,實(shí)驗(yàn)表明本文方法能夠有效判斷灰疽病、褐斑病、細(xì)菌性疫病及鏈格孢鏈菌四種病害,識(shí)別結(jié)果可為大眾提供判斷病害的參考。下一步工作是增加可識(shí)別病害種類,提高分割與識(shí)別的準(zhǔn)確度,達(dá)到實(shí)用需求。