陸楷煜 夏春蕾 戴曙光 靖浩翔 馬玉文 彭鑠期 盛旭陽
摘 要:利用模式識別領(lǐng)域的特征融合方法進(jìn)行植物葉片識別,植物葉片對植物種類分辨與認(rèn)知具有重大作用,其紋理、形狀是分辨植物種類的一個極佳指標(biāo)。以植物葉片為研究對象,提取葉片的LBP紋理特征、HOG紋理特征以及形狀特征,設(shè)計(jì)多特征融合模型,基于ECOC-SVM多分類器對UCI數(shù)據(jù)集32種640張植物葉片圖像進(jìn)行訓(xùn)練、分類。實(shí)驗(yàn)結(jié)果表明,基于多特征融合模型訓(xùn)練的ECOC-SVM對數(shù)據(jù)集中的葉片有很好的描述能力,識別率達(dá)92%,識別效果較好。
關(guān)鍵詞:模式識別;植物葉片識別;SVM;人工智能
DOI:10. 11907/rjdk. 201184
中圖分類號:TP319文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2020)010-0071-05
Abstract:In recent years, as an important field of artificial intelligence, pattern recognition has developed rapidly. Plant leaves play an important role in identifying and recognizing plant species. At the same time, the texture and shape of plant leaves are very good indicators to distinguish plant species. This paper takes plant leaves as the research object, extracts LBP texture feature, HOG texture feature and shape feature of leaves, designs multi-feature fusion model, and uses ECOC-SVM multi-classifier to 640 plants of 32 species in UCI dataset Leaf images for training and classification. The experimental results show that the ECOC-SVM based on the multi-feature fusion model has a good description ability for the leaves in the data set with a higher recognition rate of 92%. The model has a better recognition effect.
Key Words:pattern recognition; plant leaves; multi-features; SVM
0 引言
模式識別是人工智能技術(shù)應(yīng)用的重要方向,特征融合方法作為模式識別領(lǐng)域的一種主要方法,對植物葉片識別具有關(guān)鍵作用[1]。傳統(tǒng)植物分類方法通過人工實(shí)地去采集植物葉片樣本,并對樣本進(jìn)行手工測量以取得植物各類相關(guān)數(shù)據(jù)。這種方法會消耗相當(dāng)大的人力與物力,人為分辨植物外觀具有主觀性,對于識別準(zhǔn)確率有很大影響。因此,通過計(jì)算機(jī)模式識別實(shí)現(xiàn)植物種類自動識別,并建立相應(yīng)數(shù)據(jù)庫,可以大大提高識別效率,也比人工操作準(zhǔn)確率更高[2]。
植物葉片具有多樣性,往往通過識別葉片就可以辨別植物種類,葉片保存周期也較長,在利用模式識別對植物進(jìn)行分類時,大多使用其葉片作為研究對象[3-5]。目前,國內(nèi)外研究植物葉片分類的方法主要有:提取其顏色、紋理、形狀等特征[6-8]。2013年,Charles等[9]提出采用密度估算方法,在小規(guī)模和特征提取不完整條件下的識別率達(dá)91%;劉念等[10]通過提取LBP、灰度共生矩陣、Hu不變矩等特征,使用深度信念網(wǎng)絡(luò),對植物葉片進(jìn)行識別;王麗君等[11]基于葉片圖像多特征融合的觀葉植物種類識別系統(tǒng),通過對50種植物進(jìn)行訓(xùn)練比較,識別率達(dá)91.41%。
本文將植物葉片的HOG、LBP紋理特征與Hu矩形狀特征進(jìn)行線性融合,設(shè)計(jì)了一種基于圖像紋理和形狀的融合特征模型對植物葉片進(jìn)行描述,并使用ECOC-SVM進(jìn)行訓(xùn)練、分類,實(shí)驗(yàn)所用數(shù)據(jù)集主要取自UCI 數(shù)據(jù)庫。
1 特征提取方法
1.1 紋理特征提取
植物葉片的紋理特征體現(xiàn)了葉片的結(jié)構(gòu)信息,不同的葉片有著不同的紋理特征,本文采用HOG與圓形LBP算子作為葉片的紋理特征信息。
1.1.1 HOG特征
HOG特征提供一個圖像區(qū)域的密度冗余描述[12],本文對于植物葉片的HOG特征提取步驟如下:
Step1:對圖像進(jìn)行預(yù)處理,標(biāo)準(zhǔn)化Gamma空間和顏色空間。
Step2:計(jì)算圖像梯度。根據(jù)式(1)—式(4)計(jì)算圖像每一像素的梯度幅值和方向,圖像梯度圖反映了紋理變化情況,即紋理細(xì)節(jié)變化越大,梯度幅值也越大。梯度圖剔除了圖像中的不相關(guān)信息,如沒有變換的背景色等,如圖1所示,梯度幅值圖凸顯了該葉片紋理。
Step3:將圖像分成若干個連通區(qū)域,稱為細(xì)胞(cell),并為每個胞元構(gòu)建梯度直方圖。本文采用的分塊方式是以2×2個細(xì)胞單元為一個分塊(block)對圖像進(jìn)行掃描,每個細(xì)胞單元為8×8個像素,梯度方向被平均分為9個方向。
Step4:將多個細(xì)胞單元(cell)組合成更大分塊(block)后,HOG描述符就變成了由各區(qū)間所有細(xì)胞單元的直方圖成分所組成的一個向量,即歸一化后的描述向量。最后完成對所有塊的HOG特征提取,將這些特征向量作為訓(xùn)練分類依據(jù)。
基于上述步驟,提取樣本庫中其中一張植物葉片圖像HOG特征,HOG特征提取可視化效果如圖2所示,cell大小設(shè)為8?8像素,每個分塊中有4個cell。
可以發(fā)現(xiàn),HOG特征清晰地捕捉了該植物葉片的整體外形及葉脈,即描述了其紋理特征。
1.1.2 旋轉(zhuǎn)不變模式下的圓形LBP算子特征提取
LBP(Local Binary Pattern,局部二值模式)是一種用來描述圖像局部紋理特征的算子[13-14],它反映了圖像中每個像素點(diǎn)與其周圍像素點(diǎn)的關(guān)系。將其一中心像素點(diǎn)作為閾值,將相鄰8個像素點(diǎn)的灰度值與其作比較,若周圍灰度值大于中心點(diǎn),則將該像素點(diǎn)的位置標(biāo)記為1,否則為0,這樣就可產(chǎn)生一組8位二進(jìn)制數(shù),即為該中心點(diǎn)的LBP值。這個值反映了該點(diǎn)的紋理信息,如圖3所示,順時針取值得到該中心點(diǎn)的LBP值。
根據(jù)上述特征提取過程,生成LBP算子的數(shù)學(xué)表達(dá)式如式(5)和式(6)所示。
其中,(xc,yc)為中心點(diǎn)位置,ic為該中心點(diǎn)灰度值,ip為相鄰像素點(diǎn)的灰度值,s(x)為符號函數(shù)。
很明顯,傳統(tǒng)LBP算子具有一定局限性,例如只有固定的半徑范圍,當(dāng)樣本圖片發(fā)生平移或旋轉(zhuǎn)時,收集到的特征值會產(chǎn)生很大差異,極大地影響了識別準(zhǔn)確率。樹葉圖像在采集過程中往往存在旋轉(zhuǎn)、平移等非線性因素,因此本文采用旋轉(zhuǎn)不變模式下的圓形LBP算子,以適應(yīng)圖像旋轉(zhuǎn)以及不同尺度的紋理特征[15]。
其基本思想為不斷旋轉(zhuǎn)圓形領(lǐng)域得到一系列初始定義的LBP值,取其最小值作為該領(lǐng)域的LBP值,數(shù)學(xué)表達(dá)式如式(7)所示。
式(7)中,ROR(LBPK,R,i)為旋轉(zhuǎn)函數(shù),表示從中心像素點(diǎn)正上方像素點(diǎn)開始,依次逆時針旋轉(zhuǎn)過程。
1.2 幾何特征提取
葉片幾何特征也是分辨其種類的重要指標(biāo)之一,將本文提取葉片的Hu不變矩作為葉片識別的幾何特征依據(jù)。Hu不變矩已廣泛應(yīng)用于圖像識別、工業(yè)質(zhì)檢等領(lǐng)域[16]。
將圖像看作給定二維連續(xù)函數(shù)f(x,y),在黎曼積分意義下,其(p+q)階矩定義如式(8)所示。
式(8)中,[ρ(x,y)]為密度分布函數(shù),函數(shù)區(qū)間為[0,255]。相應(yīng)的(p+q)階中心矩定義如式(9)所示。
根據(jù)上述理論,構(gòu)造7個矩不變量,計(jì)算公式如式(11)—式(17)所示。
綜上,根據(jù)式(11)-式(17)可得出圖片Hu不變矩的7個特征值[17]。
2 融合糾錯輸出編碼(ECOC)的支持向量機(jī)(SVM)識別模型
支持向量機(jī)(SupportVectorMachines,SVM)在解決小樣本、高維模式識別中有著不錯效果。
支持向量機(jī)(SVM)基本概念如下:以二維樣本空間為例,如圖4所示,c1和c2是兩類需要區(qū)分的樣本,g(x)=wx+b為一個線性函數(shù),將c1和c2區(qū)分開。而在一個三維樣本空間中,就是找出一個最優(yōu)“分割平面”,推廣至多維空間,支持向量機(jī)需要找出一個最優(yōu)“超平面”作為數(shù)據(jù)分類器[18-19]。
植物葉片分類一般為多分類問題,本文將該問題“分而治之”。糾錯輸出編碼的原理源于通信領(lǐng)域中的信號傳輸問題,在信號傳輸過程中,為避免受到噪聲影響,在編碼過程中設(shè)計(jì)冗余編碼,這樣可以在解碼過程中產(chǎn)生誤碼時有糾錯能力。將該編碼原理引申到識別領(lǐng)域中,即為克服單個分類器帶來的誤差,往往設(shè)計(jì)多個二分類器[20-21]。
ECOC多分類問題可分為3步:編碼、訓(xùn)練、解碼,然后將多分類問題拆分為若干個二分類問題。ECOC-SVM多分類模型框架如圖5所示。
(1)編碼階段。采用三元編碼矩陣作為ECOC的多分類框架,三元碼表示為{-1,0,+1},采用一對一的編碼方式,編碼矩陣的每一行代表某一類,每一列代表樣本的一種二分類。碼元“+1”代表一類,“-1”代表另一類,“0”代表無關(guān)類,即在形成的二分類中被忽略(不參與訓(xùn)練),如圖6所示為“一對一”(OVO)樣本種類為4種的分類器示意圖,其中C1-C4代表樣本種類的碼字,共4類樣本數(shù)據(jù),則有6個分類器,f1-f6為二類分類器,碼元“1”,“-1”,“0”分別用白色、黑色、灰色表示。
(2)訓(xùn)練階段。例如對圖6中的f3分類器進(jìn)行訓(xùn)練,C1和C4的編碼為“-1”和“1”,C2和C3的編碼均為“0”,則在該分類器中C2、C3不參與訓(xùn)練,依此編碼規(guī)則對所有二類分類器進(jìn)行訓(xùn)練,得到編碼矩陣。
(3)解碼階段。對測試數(shù)據(jù)集通過(2)中的分類器進(jìn)行預(yù)測,將預(yù)測結(jié)果記為一組編碼,與每個類別的原始編碼序列進(jìn)行比較,并計(jì)算兩者之間的距離,最后返回距離最小的類別即為預(yù)測模型中的植物葉片類型。
3 算法實(shí)現(xiàn)
3.1 數(shù)據(jù)來源及樣本選擇
實(shí)驗(yàn)數(shù)據(jù)包含32種不同的植物品種(見圖7),植物種類學(xué)名、種類編號如表1示。
在640張圖片數(shù)據(jù)集的各種類植物葉片樣本中隨機(jī)抽取5個作為測試樣本,其余15個作為訓(xùn)練樣本。
3.2 特征提取
為了提高識別效率,首先將所有樣本圖片進(jìn)行預(yù)處理(大小約束、標(biāo)準(zhǔn)化Gamma空間、灰度化)。為了便于比較,特征量需要保持一致,因此將輸入葉片圖像大小設(shè)定為128?256。紋理、幾何特征與顏色無關(guān),因此將彩色圖像轉(zhuǎn)化為灰度圖像,剔除無關(guān)信息。為了降低圖像局部光照不均勻性,降低噪聲干擾,進(jìn)行Gamma校正,取[γ=12],校正后樣本如圖8所示。
根據(jù)上文所述特征提取方法,提取每張樣本圖片的HOG、LBP、Hu不變矩特征,分別記為[f1]、[ f2]、[ f3],合并這3類特征,記為[F=[f1, f2, f3]]。
3.3 預(yù)測模型訓(xùn)練及實(shí)驗(yàn)結(jié)果
隨機(jī)抽取5個作為待預(yù)測樣本測試預(yù)測模型識別率,剩余15個作為訓(xùn)練樣本,重復(fù)運(yùn)行50次,分析準(zhǔn)確性。本文采用的數(shù)據(jù)集共有32種植物葉片,用上文所述ECOC-SVM方法,需要496個二類分類器。以分類器一為例,將白紙扇定為正樣本(+1),菠蘿蜜定為負(fù)樣本(-1),剩余30個樣本定為無關(guān)項(xiàng)(0),依此編碼規(guī)則對496個二類分類器進(jìn)行訓(xùn)練,得到編碼矩陣部分如表2所示。
在MATLAB環(huán)境下編寫特征提取算法和預(yù)測訓(xùn)練模型程序。各類植物葉片平均分類結(jié)果準(zhǔn)確率如表3所示,整體識別率為92.11%。
為了研究不同特征組合的識別性能,實(shí)驗(yàn)中將不同組合特征的識別率進(jìn)行了對比,整體識別率結(jié)果如表4所示。
從表3、表4數(shù)據(jù)中可以得出以下結(jié)論:①任意兩種特征組合的識別率均高于單一特征識別率,將紋理特征與描述形狀特征的Hu不變矩結(jié)合起來,可以有效提高植物葉片識別率;②HOG、LBP、Hu矩多特征融合識別率的標(biāo)準(zhǔn)差約為1.51,對于識別各類植物葉片有較好穩(wěn)定性。
4 結(jié)語
本文針對植物葉片分類識別問題,基于ECOC-SVM多分類算法提取植物葉片圖像形狀、紋理特征作為主要識別特征,建立識別模型進(jìn)行分類識別,比較了不同特征組合下的識別率。在HOG、LBP、Hu矩多特征融合下的識別方法具有較好魯棒性,下一步工作將重點(diǎn)提高識別速度,改進(jìn)特征提取方法,提升效率。
參考文獻(xiàn):
[1] 張寧,劉文萍. 基于圖像分析的植物葉片識別技術(shù)綜述[J]. 計(jì)算機(jī)應(yīng)用研究,2011,28(11):4001-4007.
[2] 郭澤方. 圖像物體檢測深度學(xué)習(xí)算法綜述[J]. 機(jī)械工程與自動化,2019(11):220-222.
[3] 楊澤靜,張征,鄭伯川. 基于局部模糊聚類的植物葉脈提取[J]. 西華師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,39(3):325-330.
[4] 趙瑞,祈春節(jié),段凌鳳. 基于BP神經(jīng)網(wǎng)絡(luò)的水稻卷葉識別[J]. 南方農(nóng)業(yè)學(xué)報(bào),2018, 49(10):2103-2109.
[5] 孫俊,曹文君,毛罕平. 基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的多種植物葉片病害識別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2017,33(19):209-215.
[6] 宣旭峰,王美麗,張建峰. 基于HSV彩色空間與直方圖信息的植物葉脈FFCM算法提取[J]. 計(jì)算機(jī)應(yīng)用研究,2018,35(9):307-310.
[7] KEBAPCI H,YANIKOGLU B,UNAL G.Plant image retrieval using color, shape and texture features[J].? Computer Journal,2011,54(9):1475-1490.
[8] BAMA B S,BALLI S M,RAJU S,et al.Content based leaf image retrieval (CBLIR) using shape, color and texture features[J]. Indian Journal of Computer Science & Engineering, 2011,2(2):202-211.
[9] MALLAH C,COPE J,ORWELL J.Plant leaf classification using probabilistic integration of shape, texture and margin features [EB/OL]. http://actapress.com/Abstract.aspx?paperId=455022.
[10] 劉念,闞江明. 基于多特征融合和深度信念網(wǎng)絡(luò)的植物葉片識別[J]. 北京林業(yè)大學(xué)學(xué)報(bào), 2016,38(3):110-119.
[11] 王麗君,淮永建,彭月橙. 基于葉片圖像多特征融合的觀葉植物種類識別[J]. 北京林業(yè)大學(xué)學(xué)報(bào), 2015,37(1):96-104.
[12] DALALN,TRIGGSB.Histograms of oriented gradients for human detection[J]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2005(1):886-893.
[13] 王玲. 基于LBP的特征提取研究[D]. 北京: 北京交通大學(xué),2009.
[14] 趙珊,于虎. 基于梯度和局部多值模式的圖像紋理特征提取[J]. 測控技術(shù),2017,36(8):6-10.
[15] 蓋健. 基于旋轉(zhuǎn)不變LBP的圖像集人臉識別算法[D]. 長春:吉林大學(xué),2015.
[16] 張鴻峰,李婉琪,曾昭君,等. Hu不變矩在圖像識別中的應(yīng)用于實(shí)現(xiàn)[J]. 科技資訊,2014,12(30):5-8.
[17] 李洋,李岳陽,羅海馳,等. 基于形狀特征的植物葉片在線識別方法[J]. 計(jì)算機(jī)工程與應(yīng)用,2017,53(2):162-165,171.
[18] 鄭一力,鐘剛亮,王強(qiáng). 基于多特征降維的植物葉片識別方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2017,48(3):30-37.
[19] 馬娜,李艷文,徐苗. 基于改進(jìn)SVM算法的植物葉片分類研究[J]. 山西農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2018, 38(11):33-38.
[20] 肖亮. 基于支持向量機(jī)的圖像分類研究[D]. 上海:同濟(jì)大學(xué),2006.
[21] DIETTERICH T G,BAKIRI G.Solving multiclass learning problems via error-correcting output codes[J]. Journal of Artificial Intelligence Research,1995,2(1):263-286.
(責(zé)任編輯:孫 娟)