劉自強 周鐵軍 傅冬和 彭華
摘要:對鮮茶葉顏色、形狀特征進行提取,運用計算機視覺、圖像處理技術(shù)識別茶葉品種。先用數(shù)碼相機收集茶葉圖像,然后對圖像格式進行轉(zhuǎn)換和預(yù)處理,再運用 HSI 模型提取茶葉顏色特征參數(shù)并采用二值化后圖像提取茶葉形狀特征參數(shù),針對每一類特征,用6種分類器訓練建模,并比較各模型的預(yù)測精度。結(jié)果表明,其中SVMKM和隨機森林以2類特征建模,運用十折交叉驗證,獨立預(yù)測分類這2種方法的精確度達到89.5%。說明本研究運用的方法能成功識別出茶葉品種。
關(guān)鍵詞:圖像處理;圖像特征提取;特征篩選;機器學習;品種識別;鮮茶葉
中圖分類號:TP391.41 文獻標志碼: A
文章編號:1002-1302(2021)12-0168-05
收稿日期:2020-09-03
基金項目:湖南省教育廳科學研究項目(編號:17C0589)。
作者簡介:劉自強(1988—),男,湖南衡陽人,碩士,講師,主要從事生物信息處理研究。E-mail:362791767@qq.com。
隨著茶葉加工工藝的提高,研究者更加注重茶葉加工和商品茶制作,逐漸忽視茶樹栽培與茶樹品種研究,不利茶樹優(yōu)良品種保護。而人工識別是以感官評價為主,這使得茶葉識別存有一定的誤差,為了提高茶葉評定的準確性,利用計算機技術(shù)來識別茶葉成為一種新的選擇[1]。
近年來,計算機科學技術(shù)快速發(fā)展,圖像處理技術(shù)在諸多領(lǐng)域已有廣泛應(yīng)用?,F(xiàn)階段已有研究者利用數(shù)字圖像處理技術(shù)對成品茶葉或植物葉片提取顏色、形狀等特征,來識別茶葉品種。本研究通過提取多種鮮茶葉圖像中的顏色、形狀等有效特征參數(shù),對鮮茶葉種類進行精準識別,并通過此方法來分辨茶樹品種,這對茶樹名優(yōu)品種的發(fā)展保護及茶樹品種的認知具有重大現(xiàn)實意義。
1 茶葉采樣及圖像處理
1.1 茶葉采樣
分別摘取碧香早、福豐、福云6號、紅芽佛手、尖波黃、金萱、茗豐、平云6號、香紀翠和政和大白等10種茶樹品種的鮮茶葉片。另外,每個品種再摘取5張成熟葉,用于研究識別其他需要。
光源箱內(nèi)開啟白光源,相機型號為Nikon 1 J1,拍攝分辨率為1 900×1 700,光圈為F5.6,曝光時間為1/30 s,鏡頭距白板10 cm,具體操作如圖1所示。
根據(jù)如上方法,在2 h內(nèi)采集10種不同品種的100張鮮茶葉圖像,每類鮮茶葉圖像如圖2所示(每種只列出1張)。
1.2 茶葉的圖像處理
拍攝的圖像光照和設(shè)備硬件等因素的影響,存在光照、陰影、邊界等問題,會導致重影、邊緣模糊、噪聲等,須對其進行預(yù)處理,以提高特征提取精度。對所采集的圖像去除無關(guān)信息,恢復(fù)有效信息,增強相關(guān)信息的可檢測性。預(yù)處理的過程包括圖像灰度化、圖像分割、去除小孔洞及清除邊界附近對象等。為提高圖像的清晰度和圖像分析準確度,對圖像進行中值濾波去噪和直方圖均衡等預(yù)處理。鮮茶葉圖像經(jīng)過預(yù)處理,一方面通過圖像格式的轉(zhuǎn)換,對得到的HSI圖像提取出顏色特征參數(shù),另一方面通過圖像的二值化處理,得到茶葉的形狀和輪廓圖,提取其形狀特征參數(shù)[2-5]。
鮮茶葉圖像預(yù)處理步驟如下:第1步,對鮮茶葉圖像經(jīng)過B通道灰度化處理;第2步,對灰度化后的圖像做二值化處理,用Otsu算法自動確定分割閾值,使目標與背景分離;第3步,對分割后的茶葉圖像先閉運算處理后開運算處理,再去除目標圖像外不相關(guān)目標;第4步,清除邊界附近對象及區(qū)域外目標操作處理,得到最終預(yù)處理后圖像。
對所有樣本的鮮茶葉圖像用相同方法進行預(yù)處理,以提取到準確的特征參數(shù)。具體流程及示例如圖3所示。
2 茶葉顏色和形狀特征的提取
2.1 顏色特征提取方法
提取10種不同品種共100幅原始鮮茶葉圖像的R(紅)G(綠)B(藍)、H(色調(diào))I(亮度)S(飽和度)、L*(亮度)a*(從紅色到綠色的光譜變化值)b*(從黃色到藍色的光譜變化值)分量值特征,對每個品種鮮茶葉的RGB、HIS 分量特征參數(shù)求平均值,結(jié)果見表1。由表1可知,各顏色分量特征的平均值有所差異,可利用不同品種的顏色差異做進一步分
析處理[6]。
2.2 形狀特征提取方法
2.2.1 重心 預(yù)處理后的二值圖像質(zhì)量分布均勻,質(zhì)心就是目標圖像的重心。重心到茶葉目標圖像邊界最遠距離稱為最長半徑,重心到邊界最近距離稱為最短半徑,如圖4所示。
2.2.2 面積、周長 面積是目標圖像區(qū)域尺寸的度量,常用統(tǒng)計目標區(qū)域中像素點數(shù)的方法來計算。因像素點統(tǒng)計區(qū)域不盡相同,可分為投影面積、凸多邊形面積、填充面積(圖5)。周長是目標圖像區(qū)域邊緣長度。圓形度是周長2/面積的值,用來形容目標圖像邊緣復(fù)雜程度,而圓形性是4π×面積/周長2的值[7]。
2.2.3 最小外接矩形、長軸和短軸 包含目標圖像且面積最小的矩形,稱為最小外接矩形(MER,圖6-a);最小面積矩形與周長的比值稱為偏心率;以目標圖像邊界點間最長距離為外接矩形主軸,得到的矩形稱之為主軸法外接矩形(MAR,圖6-b)[8]。通常以主軸法得到的外接矩形的長稱為長軸,寬稱為短軸,長軸與短軸的比值稱為伸長率,可將細長茶葉與方形或圓形的茶葉區(qū)分開來[9]。
2.2.4 最大內(nèi)切圓半徑 最大內(nèi)切圓是目標圖像內(nèi)所能包含的最大面積的圓(圖7)。
本試驗主要測定的形狀特征有投影面積、凸多邊形面積、填充面積、周長、長軸、短軸、等價直徑、最長半徑、最短半徑、內(nèi)切圓半徑、偏心率、實度、伸展度、最短長半徑比、圓形度、短長軸比、面積周長比等19個。在Matlab軟件中,可利用regionprops函數(shù)的Area、MajorAxisLength、MinorAxisLength、Eccentricity、EquivDiameter等命令實現(xiàn)參數(shù)測定[10]。
茶葉圖像經(jīng)預(yù)處理后,顏色、形狀特征由軟件處理(湖南農(nóng)業(yè)大學農(nóng)業(yè)信息研究所研發(fā)的農(nóng)作物數(shù)字圖像分析系統(tǒng)V2.0)獲得。對形狀特征參數(shù)求平均值,部分特征平均值如表2所示。
3 特征參數(shù)分析及篩選
3.1 茶樹品種間特征參數(shù)差異性分析
利用單因素多水平方差分析(ANOVA)方法,對10個茶樹品種鮮茶葉圖像的31個特征參數(shù)分別進行顯著性水平分析[11]。因為有10種茶樹,所以自由度取值9。以周長特征為例, 用Matlab軟件算出的P值為3.513 4×10-24,遠小于上述臨界值。對于周長特征,顯然各品種間差異極顯著[12]。
利用此方法,對10個樣本品種的31個初始特征參數(shù)做單因素方差分析,結(jié)果見表3。
3.2 有效特征篩選
當樣本數(shù)量相對較少,特征數(shù)量相對較大時,容易產(chǎn)生過擬合風險。用以上方法提取大量鮮茶葉圖像特征參數(shù)后,由于茶葉樣本數(shù)據(jù)間存在大量相關(guān)性,信息冗余,特征維數(shù)大,在機器識別過程中,會降低識別精度。因此,需對數(shù)據(jù)進行特征篩選,去除與目標值無關(guān)且?guī)碓肼暩蓴_的特征量,以利于在后續(xù)機器識別建模時,縮短訓練時間,提高識別精度。
通過多輪末尾淘汰對特征因子進行篩選,對所有特征用libsvm經(jīng)10次交叉驗證建立模型可得初始分類精度,依次剔除每一特征,并以剩余特征利用libsvm經(jīng)10次交叉驗證建立分類模型。在第1輪的31個分類模型中找出最高的分類精度,如果該精度小于所有特征建模時所得的分類精度,說明所有特征均對建模有利,不能刪除,應(yīng)該保留;如果該精度大于原始精度,說明刪除該特征后,有助于模型精度的提高,則該特征應(yīng)刪除并進入下一輪汰選;重復(fù)以上過程,直至某輪次刪除某特征后,所有模型的最高分類精度小于上輪的最高分類精度;此時上輪次的最高精度即為該整個過程中模型的最高精度,其所對應(yīng)的特征均應(yīng)保留,汰選終止。
經(jīng)過多輪汰洗后,保留27個特征參數(shù):(1)顏色特征。圖像顏色的R、G、B、L*、a*、b*分量特征。(2)形狀特征。填充面積、周長、長軸、短軸、等效直徑、最長半徑、最短半徑、偏心率、伸展度、最短長半徑比、圓形度、短長軸比、面積周長比。
4 分析及討論
4.1 結(jié)果
數(shù)據(jù)經(jīng)歸一化處理后,對100個鮮茶葉圖像樣本集數(shù)據(jù)采用K-折交叉驗證方法(K取值為10),分別應(yīng)用SVMKM、RF、NBC、Fisher、KNN和ELM算法進行建模分類識別[13],得出識別結(jié)果,比較分析各分類器的識別精度,并對顏色、形狀特征分別建模識別,對結(jié)果進行比較分析,說明其特征的有效性。
通過檢驗,各分類器的識別精度都最高,數(shù)據(jù)集的泛化能力也最強[14]。針對所得到的鮮茶葉圖像樣本數(shù)據(jù)的樣本小、種類多等特點,通過6種分類器從顏色、形狀特征識別中得出結(jié)果,結(jié)果(表4)表明,通過圖像處理方法,提取鮮茶葉片圖像的顏色、形狀特征[15],建立分類識別模型,能達到89.5%的識別精度。鮮茶葉葉片與茶樹品種存在對應(yīng)關(guān)系,利用圖像處理方法分類識別不同品種鮮茶葉,同時也識別了鮮茶葉所屬的茶樹品種。
4.2 結(jié)論與討論
本研究采用圖像處理技術(shù)實現(xiàn)了茶葉顏色、形狀特征參數(shù)提取等功能,建立了茶葉品種識別模型,對不同茶葉進行鑒別,預(yù)測準確率達到了89.5%,表明圖像處理技術(shù)對識別茶葉品種是一種可行的方法。為了提高檢測的準確性,可進一步提取茶葉的紋理、分形特征等信息并加以判別,從而更精準識別茶葉品種。
本研究利用圖像處理技術(shù)解決了茶葉品種識別問題,且識別率較高、精確。根據(jù)目前圖像處理技術(shù)的發(fā)展及在諸多領(lǐng)域的應(yīng)用進展,圖像處理技術(shù)在農(nóng)作物實時、無損、快速在線營養(yǎng)檢測與病蟲害防治方面有很長遠的發(fā)展前景[16]?,F(xiàn)今,食品安全問題也日益突出,非破壞性無損檢測技術(shù)在農(nóng)作物營養(yǎng)檢測與病蟲害防治中越來越受到重視。隨著農(nóng)作物圖像處理技術(shù)發(fā)展,且分析處理能力逐漸提高,采用圖像處理技術(shù)與相關(guān)專家的見解相結(jié)合方法,可及時掌握作物營養(yǎng)與病蟲害信息,采取相應(yīng)措施,對農(nóng)作物生長能起到良好的促進作用[17],食物安全問題也能較好較快地解決。
參考文獻:
[1]汪 建,杜世平. 基于顏色和形狀的茶葉計算機識別研究[J]. 茶葉科學,2008,28(6):420-424.
[2]楊福增,楊亮亮,田艷娜,等. 基于顏色和形狀特征的茶葉嫩芽識別方法[J]. 農(nóng)業(yè)機械學報,2009,40(增刊1):119-123.
[3]陸江鋒,單春芳,洪小龍,等. 基于數(shù)字圖像的茶葉形狀特征提取及不同茶葉鑒別研究[J]. 茶葉科學,2010,30(6):453-457.
[4]唐 敏,劉 英,費葉琦,等. 圖像處理技術(shù)在現(xiàn)代林果采摘中的應(yīng)用[J]. 林業(yè)機械與木工設(shè)備,2020,48(4):4-7.
[5]張俊峰. 基于統(tǒng)計形狀特征的茶葉梗分離與識別[D]. 合肥:安徽大學,2012.
[6]陳怡群,常 春,肖宏儒,等. 人工神經(jīng)網(wǎng)絡(luò)技術(shù)在鮮茶葉分選中的應(yīng)用[J]. 農(nóng)業(yè)網(wǎng)絡(luò)信息,2010(7):37-40,43.
[7]李清光,李曉鐘,周惠明. 茶葉品種與產(chǎn)地識別技術(shù)研究進展[J]. 食品科學,2011,32(13):341-344.
[8]陳全勝,趙杰文,蔡健榮,等. 支持向量機在機器視覺識別茶葉中的應(yīng)用研究[J]. 儀器儀表學報,2006,27(12):1704-1706.
[9]Pandolfi C,Mugnai S,Azzarello E,et al. Artificial neural networks as a tool for plant identification:a case study on Vietnamese tea accessions[J]. Euphytica,2009,166(3):411-421.
[10]Mugnai S,Pandolfi C,Azzarello E,et al. Camellia japonica L. genotypes identified by an artificial neural network based on phyllometric and fractal parameters[J]. Plant Systematics and Evolution,2008,270(1/2):95-108.
[11]Pandolfi C,Messina G,Mugnai G,et al. Discrimination and identification of morphotypes of Banksia integrifolia (Proteaceae) by an Artificial Neural Network (ANN),based on morphological and fractal parameters of leaves and flowers[J]. Taxon, 2009,58(3):925-933.
[12]李國正,王振曉,楊 杰,等. 基于SVM的特征篩選方法及其若干應(yīng)用[J]. 計算機與應(yīng)用化學,2002,19(6):703-705.
[13]郭金鑫,陳 瑋. 基于HOG多特征融合與隨機森林的人臉識別[J]. 計算機科學,2013,40(10):279-282,317.
[14]李錦衛(wèi). 基于計算機視覺的水稻、油菜葉色-氮營養(yǎng)診斷機理與建模[D]. 長沙:湖南農(nóng)業(yè)大學,2010.
[15]Pham B T,Prakash I. Evaluation and comparison of LogitBoost Ensemble,F(xiàn)ishers Linear Discriminant Analysis,logistic regression and support vector machines methods for landslide susceptibility mapping[J]. Geocarto International,2019,34(3):316-333.
[16]刁智華,袁萬賓,刁春迎,等. 病害特征在作物病害識別中的應(yīng)用研究綜述[J]. 江蘇農(nóng)業(yè)科學,2019,47(5):71-74.
[17]張 浩,李和平,葉 娟. 小麥籽粒外觀形態(tài)特征測定技術(shù)研究[J]. 糧食與飼料工業(yè),2013(3):7-9.