劉自強(qiáng) 周鐵軍 傅冬和 彭華
摘要:對(duì)鮮茶葉顏色、形狀特征進(jìn)行提取,運(yùn)用計(jì)算機(jī)視覺(jué)、圖像處理技術(shù)識(shí)別茶葉品種。先用數(shù)碼相機(jī)收集茶葉圖像,然后對(duì)圖像格式進(jìn)行轉(zhuǎn)換和預(yù)處理,再運(yùn)用 HSI 模型提取茶葉顏色特征參數(shù)并采用二值化后圖像提取茶葉形狀特征參數(shù),針對(duì)每一類(lèi)特征,用6種分類(lèi)器訓(xùn)練建模,并比較各模型的預(yù)測(cè)精度。結(jié)果表明,其中SVMKM和隨機(jī)森林以2類(lèi)特征建模,運(yùn)用十折交叉驗(yàn)證,獨(dú)立預(yù)測(cè)分類(lèi)這2種方法的精確度達(dá)到89.5%。說(shuō)明本研究運(yùn)用的方法能成功識(shí)別出茶葉品種。
關(guān)鍵詞:圖像處理;圖像特征提取;特征篩選;機(jī)器學(xué)習(xí);品種識(shí)別;鮮茶葉
中圖分類(lèi)號(hào):TP391.41 文獻(xiàn)標(biāo)志碼: A
文章編號(hào):1002-1302(2021)12-0168-05
收稿日期:2020-09-03
基金項(xiàng)目:湖南省教育廳科學(xué)研究項(xiàng)目(編號(hào):17C0589)。
作者簡(jiǎn)介:劉自強(qiáng)(1988—),男,湖南衡陽(yáng)人,碩士,講師,主要從事生物信息處理研究。E-mail:362791767@qq.com。
隨著茶葉加工工藝的提高,研究者更加注重茶葉加工和商品茶制作,逐漸忽視茶樹(shù)栽培與茶樹(shù)品種研究,不利茶樹(shù)優(yōu)良品種保護(hù)。而人工識(shí)別是以感官評(píng)價(jià)為主,這使得茶葉識(shí)別存有一定的誤差,為了提高茶葉評(píng)定的準(zhǔn)確性,利用計(jì)算機(jī)技術(shù)來(lái)識(shí)別茶葉成為一種新的選擇[1]。
近年來(lái),計(jì)算機(jī)科學(xué)技術(shù)快速發(fā)展,圖像處理技術(shù)在諸多領(lǐng)域已有廣泛應(yīng)用?,F(xiàn)階段已有研究者利用數(shù)字圖像處理技術(shù)對(duì)成品茶葉或植物葉片提取顏色、形狀等特征,來(lái)識(shí)別茶葉品種。本研究通過(guò)提取多種鮮茶葉圖像中的顏色、形狀等有效特征參數(shù),對(duì)鮮茶葉種類(lèi)進(jìn)行精準(zhǔn)識(shí)別,并通過(guò)此方法來(lái)分辨茶樹(shù)品種,這對(duì)茶樹(shù)名優(yōu)品種的發(fā)展保護(hù)及茶樹(shù)品種的認(rèn)知具有重大現(xiàn)實(shí)意義。
1 茶葉采樣及圖像處理
1.1 茶葉采樣
分別摘取碧香早、福豐、福云6號(hào)、紅芽佛手、尖波黃、金萱、茗豐、平云6號(hào)、香紀(jì)翠和政和大白等10種茶樹(shù)品種的鮮茶葉片。另外,每個(gè)品種再摘取5張成熟葉,用于研究識(shí)別其他需要。
光源箱內(nèi)開(kāi)啟白光源,相機(jī)型號(hào)為Nikon 1 J1,拍攝分辨率為1 900×1 700,光圈為F5.6,曝光時(shí)間為1/30 s,鏡頭距白板10 cm,具體操作如圖1所示。
根據(jù)如上方法,在2 h內(nèi)采集10種不同品種的100張鮮茶葉圖像,每類(lèi)鮮茶葉圖像如圖2所示(每種只列出1張)。
1.2 茶葉的圖像處理
拍攝的圖像光照和設(shè)備硬件等因素的影響,存在光照、陰影、邊界等問(wèn)題,會(huì)導(dǎo)致重影、邊緣模糊、噪聲等,須對(duì)其進(jìn)行預(yù)處理,以提高特征提取精度。對(duì)所采集的圖像去除無(wú)關(guān)信息,恢復(fù)有效信息,增強(qiáng)相關(guān)信息的可檢測(cè)性。預(yù)處理的過(guò)程包括圖像灰度化、圖像分割、去除小孔洞及清除邊界附近對(duì)象等。為提高圖像的清晰度和圖像分析準(zhǔn)確度,對(duì)圖像進(jìn)行中值濾波去噪和直方圖均衡等預(yù)處理。鮮茶葉圖像經(jīng)過(guò)預(yù)處理,一方面通過(guò)圖像格式的轉(zhuǎn)換,對(duì)得到的HSI圖像提取出顏色特征參數(shù),另一方面通過(guò)圖像的二值化處理,得到茶葉的形狀和輪廓圖,提取其形狀特征參數(shù)[2-5]。
鮮茶葉圖像預(yù)處理步驟如下:第1步,對(duì)鮮茶葉圖像經(jīng)過(guò)B通道灰度化處理;第2步,對(duì)灰度化后的圖像做二值化處理,用Otsu算法自動(dòng)確定分割閾值,使目標(biāo)與背景分離;第3步,對(duì)分割后的茶葉圖像先閉運(yùn)算處理后開(kāi)運(yùn)算處理,再去除目標(biāo)圖像外不相關(guān)目標(biāo);第4步,清除邊界附近對(duì)象及區(qū)域外目標(biāo)操作處理,得到最終預(yù)處理后圖像。
對(duì)所有樣本的鮮茶葉圖像用相同方法進(jìn)行預(yù)處理,以提取到準(zhǔn)確的特征參數(shù)。具體流程及示例如圖3所示。
2 茶葉顏色和形狀特征的提取
2.1 顏色特征提取方法
提取10種不同品種共100幅原始鮮茶葉圖像的R(紅)G(綠)B(藍(lán))、H(色調(diào))I(亮度)S(飽和度)、L*(亮度)a*(從紅色到綠色的光譜變化值)b*(從黃色到藍(lán)色的光譜變化值)分量值特征,對(duì)每個(gè)品種鮮茶葉的RGB、HIS 分量特征參數(shù)求平均值,結(jié)果見(jiàn)表1。由表1可知,各顏色分量特征的平均值有所差異,可利用不同品種的顏色差異做進(jìn)一步分
析處理[6]。
2.2 形狀特征提取方法
2.2.1 重心 預(yù)處理后的二值圖像質(zhì)量分布均勻,質(zhì)心就是目標(biāo)圖像的重心。重心到茶葉目標(biāo)圖像邊界最遠(yuǎn)距離稱(chēng)為最長(zhǎng)半徑,重心到邊界最近距離稱(chēng)為最短半徑,如圖4所示。
2.2.2 面積、周長(zhǎng) 面積是目標(biāo)圖像區(qū)域尺寸的度量,常用統(tǒng)計(jì)目標(biāo)區(qū)域中像素點(diǎn)數(shù)的方法來(lái)計(jì)算。因像素點(diǎn)統(tǒng)計(jì)區(qū)域不盡相同,可分為投影面積、凸多邊形面積、填充面積(圖5)。周長(zhǎng)是目標(biāo)圖像區(qū)域邊緣長(zhǎng)度。圓形度是周長(zhǎng)2/面積的值,用來(lái)形容目標(biāo)圖像邊緣復(fù)雜程度,而圓形性是4π×面積/周長(zhǎng)2的值[7]。
2.2.3 最小外接矩形、長(zhǎng)軸和短軸 包含目標(biāo)圖像且面積最小的矩形,稱(chēng)為最小外接矩形(MER,圖6-a);最小面積矩形與周長(zhǎng)的比值稱(chēng)為偏心率;以目標(biāo)圖像邊界點(diǎn)間最長(zhǎng)距離為外接矩形主軸,得到的矩形稱(chēng)之為主軸法外接矩形(MAR,圖6-b)[8]。通常以主軸法得到的外接矩形的長(zhǎng)稱(chēng)為長(zhǎng)軸,寬稱(chēng)為短軸,長(zhǎng)軸與短軸的比值稱(chēng)為伸長(zhǎng)率,可將細(xì)長(zhǎng)茶葉與方形或圓形的茶葉區(qū)分開(kāi)來(lái)[9]。
2.2.4 最大內(nèi)切圓半徑 最大內(nèi)切圓是目標(biāo)圖像內(nèi)所能包含的最大面積的圓(圖7)。
本試驗(yàn)主要測(cè)定的形狀特征有投影面積、凸多邊形面積、填充面積、周長(zhǎng)、長(zhǎng)軸、短軸、等價(jià)直徑、最長(zhǎng)半徑、最短半徑、內(nèi)切圓半徑、偏心率、實(shí)度、伸展度、最短長(zhǎng)半徑比、圓形度、短長(zhǎng)軸比、面積周長(zhǎng)比等19個(gè)。在Matlab軟件中,可利用regionprops函數(shù)的Area、MajorAxisLength、MinorAxisLength、Eccentricity、EquivDiameter等命令實(shí)現(xiàn)參數(shù)測(cè)定[10]。
茶葉圖像經(jīng)預(yù)處理后,顏色、形狀特征由軟件處理(湖南農(nóng)業(yè)大學(xué)農(nóng)業(yè)信息研究所研發(fā)的農(nóng)作物數(shù)字圖像分析系統(tǒng)V2.0)獲得。對(duì)形狀特征參數(shù)求平均值,部分特征平均值如表2所示。
3 特征參數(shù)分析及篩選
3.1 茶樹(shù)品種間特征參數(shù)差異性分析
利用單因素多水平方差分析(ANOVA)方法,對(duì)10個(gè)茶樹(shù)品種鮮茶葉圖像的31個(gè)特征參數(shù)分別進(jìn)行顯著性水平分析[11]。因?yàn)橛?0種茶樹(shù),所以自由度取值9。以周長(zhǎng)特征為例, 用Matlab軟件算出的P值為3.513 4×10-24,遠(yuǎn)小于上述臨界值。對(duì)于周長(zhǎng)特征,顯然各品種間差異極顯著[12]。
利用此方法,對(duì)10個(gè)樣本品種的31個(gè)初始特征參數(shù)做單因素方差分析,結(jié)果見(jiàn)表3。
3.2 有效特征篩選
當(dāng)樣本數(shù)量相對(duì)較少,特征數(shù)量相對(duì)較大時(shí),容易產(chǎn)生過(guò)擬合風(fēng)險(xiǎn)。用以上方法提取大量鮮茶葉圖像特征參數(shù)后,由于茶葉樣本數(shù)據(jù)間存在大量相關(guān)性,信息冗余,特征維數(shù)大,在機(jī)器識(shí)別過(guò)程中,會(huì)降低識(shí)別精度。因此,需對(duì)數(shù)據(jù)進(jìn)行特征篩選,去除與目標(biāo)值無(wú)關(guān)且?guī)?lái)噪聲干擾的特征量,以利于在后續(xù)機(jī)器識(shí)別建模時(shí),縮短訓(xùn)練時(shí)間,提高識(shí)別精度。
通過(guò)多輪末尾淘汰對(duì)特征因子進(jìn)行篩選,對(duì)所有特征用libsvm經(jīng)10次交叉驗(yàn)證建立模型可得初始分類(lèi)精度,依次剔除每一特征,并以剩余特征利用libsvm經(jīng)10次交叉驗(yàn)證建立分類(lèi)模型。在第1輪的31個(gè)分類(lèi)模型中找出最高的分類(lèi)精度,如果該精度小于所有特征建模時(shí)所得的分類(lèi)精度,說(shuō)明所有特征均對(duì)建模有利,不能刪除,應(yīng)該保留;如果該精度大于原始精度,說(shuō)明刪除該特征后,有助于模型精度的提高,則該特征應(yīng)刪除并進(jìn)入下一輪汰選;重復(fù)以上過(guò)程,直至某輪次刪除某特征后,所有模型的最高分類(lèi)精度小于上輪的最高分類(lèi)精度;此時(shí)上輪次的最高精度即為該整個(gè)過(guò)程中模型的最高精度,其所對(duì)應(yīng)的特征均應(yīng)保留,汰選終止。
經(jīng)過(guò)多輪汰洗后,保留27個(gè)特征參數(shù):(1)顏色特征。圖像顏色的R、G、B、L*、a*、b*分量特征。(2)形狀特征。填充面積、周長(zhǎng)、長(zhǎng)軸、短軸、等效直徑、最長(zhǎng)半徑、最短半徑、偏心率、伸展度、最短長(zhǎng)半徑比、圓形度、短長(zhǎng)軸比、面積周長(zhǎng)比。
4 分析及討論
4.1 結(jié)果
數(shù)據(jù)經(jīng)歸一化處理后,對(duì)100個(gè)鮮茶葉圖像樣本集數(shù)據(jù)采用K-折交叉驗(yàn)證方法(K取值為10),分別應(yīng)用SVMKM、RF、NBC、Fisher、KNN和ELM算法進(jìn)行建模分類(lèi)識(shí)別[13],得出識(shí)別結(jié)果,比較分析各分類(lèi)器的識(shí)別精度,并對(duì)顏色、形狀特征分別建模識(shí)別,對(duì)結(jié)果進(jìn)行比較分析,說(shuō)明其特征的有效性。
通過(guò)檢驗(yàn),各分類(lèi)器的識(shí)別精度都最高,數(shù)據(jù)集的泛化能力也最強(qiáng)[14]。針對(duì)所得到的鮮茶葉圖像樣本數(shù)據(jù)的樣本小、種類(lèi)多等特點(diǎn),通過(guò)6種分類(lèi)器從顏色、形狀特征識(shí)別中得出結(jié)果,結(jié)果(表4)表明,通過(guò)圖像處理方法,提取鮮茶葉片圖像的顏色、形狀特征[15],建立分類(lèi)識(shí)別模型,能達(dá)到89.5%的識(shí)別精度。鮮茶葉葉片與茶樹(shù)品種存在對(duì)應(yīng)關(guān)系,利用圖像處理方法分類(lèi)識(shí)別不同品種鮮茶葉,同時(shí)也識(shí)別了鮮茶葉所屬的茶樹(shù)品種。
4.2 結(jié)論與討論
本研究采用圖像處理技術(shù)實(shí)現(xiàn)了茶葉顏色、形狀特征參數(shù)提取等功能,建立了茶葉品種識(shí)別模型,對(duì)不同茶葉進(jìn)行鑒別,預(yù)測(cè)準(zhǔn)確率達(dá)到了89.5%,表明圖像處理技術(shù)對(duì)識(shí)別茶葉品種是一種可行的方法。為了提高檢測(cè)的準(zhǔn)確性,可進(jìn)一步提取茶葉的紋理、分形特征等信息并加以判別,從而更精準(zhǔn)識(shí)別茶葉品種。
本研究利用圖像處理技術(shù)解決了茶葉品種識(shí)別問(wèn)題,且識(shí)別率較高、精確。根據(jù)目前圖像處理技術(shù)的發(fā)展及在諸多領(lǐng)域的應(yīng)用進(jìn)展,圖像處理技術(shù)在農(nóng)作物實(shí)時(shí)、無(wú)損、快速在線營(yíng)養(yǎng)檢測(cè)與病蟲(chóng)害防治方面有很長(zhǎng)遠(yuǎn)的發(fā)展前景[16]?,F(xiàn)今,食品安全問(wèn)題也日益突出,非破壞性無(wú)損檢測(cè)技術(shù)在農(nóng)作物營(yíng)養(yǎng)檢測(cè)與病蟲(chóng)害防治中越來(lái)越受到重視。隨著農(nóng)作物圖像處理技術(shù)發(fā)展,且分析處理能力逐漸提高,采用圖像處理技術(shù)與相關(guān)專(zhuān)家的見(jiàn)解相結(jié)合方法,可及時(shí)掌握作物營(yíng)養(yǎng)與病蟲(chóng)害信息,采取相應(yīng)措施,對(duì)農(nóng)作物生長(zhǎng)能起到良好的促進(jìn)作用[17],食物安全問(wèn)題也能較好較快地解決。
參考文獻(xiàn):
[1]汪 建,杜世平. 基于顏色和形狀的茶葉計(jì)算機(jī)識(shí)別研究[J]. 茶葉科學(xué),2008,28(6):420-424.
[2]楊福增,楊亮亮,田艷娜,等. 基于顏色和形狀特征的茶葉嫩芽識(shí)別方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2009,40(增刊1):119-123.
[3]陸江鋒,單春芳,洪小龍,等. 基于數(shù)字圖像的茶葉形狀特征提取及不同茶葉鑒別研究[J]. 茶葉科學(xué),2010,30(6):453-457.
[4]唐 敏,劉 英,費(fèi)葉琦,等. 圖像處理技術(shù)在現(xiàn)代林果采摘中的應(yīng)用[J]. 林業(yè)機(jī)械與木工設(shè)備,2020,48(4):4-7.
[5]張俊峰. 基于統(tǒng)計(jì)形狀特征的茶葉梗分離與識(shí)別[D]. 合肥:安徽大學(xué),2012.
[6]陳怡群,常 春,肖宏儒,等. 人工神經(jīng)網(wǎng)絡(luò)技術(shù)在鮮茶葉分選中的應(yīng)用[J]. 農(nóng)業(yè)網(wǎng)絡(luò)信息,2010(7):37-40,43.
[7]李清光,李曉鐘,周惠明. 茶葉品種與產(chǎn)地識(shí)別技術(shù)研究進(jìn)展[J]. 食品科學(xué),2011,32(13):341-344.
[8]陳全勝,趙杰文,蔡健榮,等. 支持向量機(jī)在機(jī)器視覺(jué)識(shí)別茶葉中的應(yīng)用研究[J]. 儀器儀表學(xué)報(bào),2006,27(12):1704-1706.
[9]Pandolfi C,Mugnai S,Azzarello E,et al. Artificial neural networks as a tool for plant identification:a case study on Vietnamese tea accessions[J]. Euphytica,2009,166(3):411-421.
[10]Mugnai S,Pandolfi C,Azzarello E,et al. Camellia japonica L. genotypes identified by an artificial neural network based on phyllometric and fractal parameters[J]. Plant Systematics and Evolution,2008,270(1/2):95-108.
[11]Pandolfi C,Messina G,Mugnai G,et al. Discrimination and identification of morphotypes of Banksia integrifolia (Proteaceae) by an Artificial Neural Network (ANN),based on morphological and fractal parameters of leaves and flowers[J]. Taxon, 2009,58(3):925-933.
[12]李國(guó)正,王振曉,楊 杰,等. 基于SVM的特征篩選方法及其若干應(yīng)用[J]. 計(jì)算機(jī)與應(yīng)用化學(xué),2002,19(6):703-705.
[13]郭金鑫,陳 瑋. 基于HOG多特征融合與隨機(jī)森林的人臉識(shí)別[J]. 計(jì)算機(jī)科學(xué),2013,40(10):279-282,317.
[14]李錦衛(wèi). 基于計(jì)算機(jī)視覺(jué)的水稻、油菜葉色-氮營(yíng)養(yǎng)診斷機(jī)理與建模[D]. 長(zhǎng)沙:湖南農(nóng)業(yè)大學(xué),2010.
[15]Pham B T,Prakash I. Evaluation and comparison of LogitBoost Ensemble,F(xiàn)ishers Linear Discriminant Analysis,logistic regression and support vector machines methods for landslide susceptibility mapping[J]. Geocarto International,2019,34(3):316-333.
[16]刁智華,袁萬(wàn)賓,刁春迎,等. 病害特征在作物病害識(shí)別中的應(yīng)用研究綜述[J]. 江蘇農(nóng)業(yè)科學(xué),2019,47(5):71-74.
[17]張 浩,李和平,葉 娟. 小麥籽粒外觀形態(tài)特征測(cè)定技術(shù)研究[J]. 糧食與飼料工業(yè),2013(3):7-9.