袁銀 黃稚清 丁釋豐 劉永金 馮志堅
摘要 植物識別是利用植物的前提。隨著圖像處理與識別技術(shù)的迅速發(fā)展,植物種類識別App應(yīng)運(yùn)而生。雖然這些App能夠識別植物,但存在一些誤差,導(dǎo)致識別結(jié)果不夠準(zhǔn)確。為了解產(chǎn)生誤差的可能原因,本文以花伴侶作為識別App,通過不同的取樣方法,探討植物標(biāo)本取樣因素對識別率的影響。測試結(jié)果表明,基于大數(shù)據(jù)分析的標(biāo)本取樣,以全株局部含花的樣本識別效果最佳,不同植物器官的樣本照片在識別上存在顯著差異,不同拍攝設(shè)備、不同背景條件下拍攝的植物樣本照片識別效果也有一定差異。
關(guān)鍵詞 植物識別;植物器官識別;取樣方法;大數(shù)據(jù);深度學(xué)習(xí)算法
中圖分類號 Q948.3 文獻(xiàn)標(biāo)識碼 A 文章編號 1007-5739(2018)03-0149-03
Abstract Plant identification is the precondition for plant application.As the rapid development of image processing and image identification,identification Apps for plants appeared. Though plant species can be identified by these Apps,it still has some errors.These errors account for inaccurate results. In order to find the possible causes of these errors,this paper using Hua Banlv as the chosen identification App,the effect of sampling factors on the identification ratio was discussed through different sampling methods. Based on the big data analysis of specimen sampling,test results indicated that the samples using the whole plant with flowers had the highest identification ratio.Meanwhile,various specimen photos of different plant organs differentiated from each other.There were also some differences in the recognition ratio of the plant sample photos taken under different shooting equipment and different background colors.
Key words plant identification;plant organ identification;sampling method;big data;deep learning algorithm
植物識別是利用植物的基礎(chǔ)。隨著計算機(jī)處理能力的迅猛發(fā)展,圖像處理與模式識別等技術(shù)在各個領(lǐng)域得到了廣泛應(yīng)用。近年來,隨著移動終端攝影技術(shù)的發(fā)展以及移動互聯(lián)網(wǎng)的推動,植物種類識別App開發(fā)應(yīng)用正逐步興起,為專業(yè)人士和植物愛好者提供了極大的便利。目前上線運(yùn)行的植物識別App能在一定程度上解決植物識別問題,但也存在識別誤差。造成誤差的原因可能是數(shù)據(jù)原始樣本不足或樣本自身錯誤,也可能是移動終端獲取的樣本差異導(dǎo)致誤差產(chǎn)生。為了解移動終端取樣方式對植物識別的影響,本文通過不同取樣方法,探討植物標(biāo)本照片取樣因素對識別準(zhǔn)確率的影響。
1 研究方法
以vivo X9、HUAWEI榮耀暢玩4X和iPhone 6這3種移動終端作為攝影設(shè)備,選取紫薇、龍船花、大花蘆莉?yàn)樽R別對象,每組樣本數(shù)為30個,以花伴侶為識別App平臺?;ò閭H是一款以中國植物圖像庫海量植物分類圖片為基礎(chǔ),基于深度學(xué)習(xí)開發(fā)的植物識別應(yīng)用。選取植物的全株、葉局部、果局部、花果枝局部等特征并拍攝8 730張圖像,應(yīng)用花伴侶平臺識別處理,以平臺得出的可信度指標(biāo)作為對該樣本的識別率。利用SPSS統(tǒng)計軟件進(jìn)行結(jié)果分析。
2 結(jié)果與分析
2.1 不同植物種類識別率的差異
對8 730個標(biāo)本圖像進(jìn)行識別,獲得的平均識別率為36.02%。由表1可知,對大花蘆莉的平均識別率為35.29%,對紫薇的平均識別率為27.66%,對龍船花的平均識別率為47.56%。3種植物的平均識別率極小值均為0;大花蘆莉和龍船花的平均識別率極大值為100%,紫薇的平均識別率極大值為99%。
通過方差分析(表2)可知,P=0.000<0.01。結(jié)果表明,平臺對不同植物的平均識別率有極顯著差異。紫薇的平均識別率為27.66%,低于龍船花和大花蘆莉的平均識別率?;ò閭H平臺在對紫薇識別時,常將其識別為南紫薇、福建紫薇、大葉紫薇等其他同屬植物,這些植物的外觀形態(tài)與紫薇有相似之處;識別龍船花時,常將其識別為神秘果、山杜英、尖齒臭荊莉等花形或葉形相似的種類。
2.2 不同取樣部位識別率的差異
由表3可知,選用不同植物器官圖像,其平均識別率有所不同。其中,選用植物全株時,其平均識別率最高,為66.38%;選用植物葉枝時,其平均識別率最低,為4.69%;其他器官的平均識別率依次為花枝63.88%、花果枝47.97%、花器官39.40%、果枝9.15%。所有植物器官的平均識別率極小值均為0;花枝、植物全株、花器官的平均識別率極大值均為100%,而葉枝的平均識別率極大值為87%,果枝為91%,花果枝為97%。
通過方差分析(表4)可知,P=0.000<0.01。結(jié)果表明,采用不同器官用以植物識別,其識別率差異極顯著。在本次測試中,花枝的識別準(zhǔn)確率為63.88%,花果枝識別準(zhǔn)確率為47.97%,花器官識別準(zhǔn)確率為39.40%。由此可見,使用植物的花或含花部分作標(biāo)本進(jìn)行識別,其識別率較使用植物的果實(shí)或葉片識別準(zhǔn)確率更高。選用花器官進(jìn)行識別時準(zhǔn)確率低于選用花枝和花果枝,可能是因?yàn)榛ㄆ鞴贈]有反應(yīng)植物花的花序、著生方式等特點(diǎn)。
2.3 不同移動終端設(shè)備識別率的差異
由表5可知,使用vivo X9拍攝植物標(biāo)本進(jìn)行識別時其平均識別率最高,為38.23%;使用iPhone 6拍攝植物標(biāo)本進(jìn)行識別時平均識別率最低,為33.98%;使用HUAWEI榮耀暢玩4X拍攝植物標(biāo)本進(jìn)行識別時,平均識別率為36.33%。使用3種不同移動終端設(shè)備進(jìn)行識別時平均識別率極小值均為0,極大值均為100%。
通過方差分析(表6)可知,P=0.000<0.01,結(jié)果表明,使用不同移動終端設(shè)備進(jìn)行植物識別,其識別率差異極顯著。
2.4 不同標(biāo)本背景顏色對識別率的影響
由表7可知,使用不同顏色作標(biāo)本背景時,其平均識別率依次為綠色40.48%、白色35.39%、黑色32.30%。使用3種不同顏色作背景進(jìn)行識別時,其平均識別率極小值均為0,極大值均為100%。
通過方差分析(表8)可知,P=0.000<0.01,結(jié)果表明,使用不同顏色作背景進(jìn)行植物識別,其識別率差異極顯著。
3 結(jié)論與討論
3.1 植物種類的識別率分析
本研究中,平臺對供試種類平均識別率均低于50%,均不能準(zhǔn)確識別。筆者認(rèn)為,平臺系統(tǒng)對植物種類識別出現(xiàn)差異有兩方面原因。一方面是由于平臺系統(tǒng)的訓(xùn)練樣本信息存在差異。如果所有種類均將海量的樣品訓(xùn)練后存儲于數(shù)據(jù)庫中,則用戶只要上傳照片與庫中比對就能準(zhǔn)確地認(rèn)出相應(yīng)的種類。僅靠植物信息庫現(xiàn)有標(biāo)本照片庫的取樣訓(xùn)練,存在種類間在訓(xùn)練樣品數(shù)量上不均衡的情況。有些訓(xùn)練樣本是具花葉的樣本,缺少果實(shí),而有的為僅有花的樣本等,因而出現(xiàn)不同種類的識別率差異。另一方面,有些植物種類的形態(tài)在照片信息特征上異常突顯,容易認(rèn)別。相反有些種類的特征不突出,區(qū)分度較差,不容易識別。除目前的圖像要素的認(rèn)知方式識別種類外,丁維龍等[1]提出用C/S架構(gòu)的識別體系對基于樹形結(jié)構(gòu)相似度來識別植物,在試驗(yàn)的條件下依據(jù)植物外觀輪廓識別植物種類準(zhǔn)確率達(dá)到85%。因此,今后對植物識別的平臺系統(tǒng),可更深層面分析植物圖像內(nèi)在的規(guī)律,開發(fā)出更有效更準(zhǔn)確的識別系統(tǒng)。
3.2 取樣部位對識別的影響
本研究結(jié)果表明,不同取樣照片對識別率的影響較大,以全株照片作樣本的識別率最高。由此可以看出,目前在庫的樣本是以植物圖像庫中植物學(xué)家和植物愛好者的專業(yè)角度取樣的,即照片取景包含有花有葉的植物枝條??蛻舳说挠脩羧羰褂萌昃植孔鳂颖荆渥R別率就高;僅有葉、僅有花或果的樣本,其識別率就低。因此,在以現(xiàn)有植物圖像庫為基礎(chǔ)的識別平臺上進(jìn)行植物鑒定,應(yīng)以植物全株局部的花果枝為樣本,識別時可匹配的信息更多,準(zhǔn)確率也會提高。Takeshi Saitoh通過對植物花的外觀形狀特點(diǎn)進(jìn)行分析,并使用人工交互的NC方法識別植物,能夠達(dá)到91%的準(zhǔn)確率;George Navy通過基于植物花朵的交互式識別,準(zhǔn)確率也達(dá)到了85%[2]??梢?,花在植物識別準(zhǔn)確率方面具有較高的可靠性。果實(shí)在植物分類識別中具有很好的分類意義,但本研究中果實(shí)樣本的識別率并不高,這可能是與果實(shí)特征在不同時期有較大的變異、不同成熟期的果實(shí)在色與形上都有很大的差異有關(guān)。同時,可能平臺植物圖像庫中大多數(shù)植物的果實(shí)樣本圖片亦較少。
使用植物的葉片進(jìn)行識別的研究較多,從2007年開始我國在這方面的研究逐步發(fā)展起來,主要應(yīng)用了移動中值中心超球分類器(MMC)、農(nóng)業(yè)生物特征識別系統(tǒng)—植物葉片識別系統(tǒng)(BSA-RSPL)、克隆選擇算法融合KNN分類器、向量機(jī)算法系統(tǒng)等多種研究方法[3]?;ò閭H平臺本身是一款基于深度開發(fā)學(xué)習(xí)的軟件。在張帥[3]的研究中,采用了深度開發(fā)學(xué)習(xí)中的植物識別深度卷積神經(jīng)網(wǎng)絡(luò)模型,通過不斷訓(xùn)練模型,在單一背景下葉片識別平均準(zhǔn)確率可高達(dá)90.49%。但在本研究中葉樣本的識別率很低,可能是平臺系統(tǒng)庫中葉樣本的數(shù)量不足,加之植物葉片在拍攝為照片后,就丟失了葉片大小這一容易識別的特征,在區(qū)分種類上造成一定難度。
3.3 取樣設(shè)備與識別率
本次測試中使用的3種移動終端vivo、HUAWEI、iPhone是我國主流手機(jī)品牌,其測試結(jié)果對于花伴侶平臺鑒定識別準(zhǔn)確性具有參考價值[4]。
vivo X9后置攝像頭1 600萬像素,HUAWEI榮耀暢玩4X后置攝像頭1 300萬像素,iPhone 6后置攝像頭1 200萬像素。手機(jī)相機(jī)的像素越高,其圖像分辨率越大[5]。從測試結(jié)果可以猜測移動終端像素越高,植物種類識別率越高。因此,在拍攝時如果條件允許,可以使用像素高的手機(jī)或者數(shù)碼相機(jī),以利于鑒別。此外,設(shè)備相機(jī)鏡頭的好壞及拍攝時環(huán)境亮度的調(diào)節(jié)對照片樣本的質(zhì)量也有影響。建議拍攝前清潔鏡頭、拍攝時給予適當(dāng)?shù)墓庹铡?/p>
3.4 不同標(biāo)本的背景顏色與識別率
在張帥的葉片識別系統(tǒng)構(gòu)建中,在識別前對植物圖片進(jìn)行處理,依次經(jīng)過灰度化處理、圖片梯度化、標(biāo)記目標(biāo)與背景、分割結(jié)果的過程。最后分割結(jié)果時背景被處理成了白色,植物形態(tài)處理成了深色。在單一背景下識別準(zhǔn)確率可高達(dá)90.49%[3]。在本次測試中,并未對圖片進(jìn)行預(yù)處理,均直接采用原圖,因而不同背景色下識別率均未達(dá)到上述試驗(yàn)中這么高。實(shí)際上,日常使用花伴侶時很多時候并不進(jìn)行圖片處理。但如果有條件,在應(yīng)用識別平臺之前先對圖片做一些預(yù)處理,可以提高識別率。
此外,本次試驗(yàn)使用的都是純色背景,而更多情況下拍攝植物是在自然狀態(tài)下拍攝,背景不一定是純色。張帥的試驗(yàn)中也測試了普通背景下的植物識別率,僅為33.80%[3],遠(yuǎn)遠(yuǎn)低于純色背景下的識別率。因此,花伴侶的開發(fā)方可以考慮進(jìn)一步提升復(fù)雜背景下的識別率。
3.5 結(jié)論
運(yùn)用花伴侶識別平臺對不同取樣方式拍攝的植物照片識別的結(jié)果表明,在基于大數(shù)據(jù)平臺的植物樣本取樣方法中,以全株局部含花的樣本的識別效果最佳;不同植物器官的樣本照片在識別上存在顯著性差異;不同拍攝設(shè)備、不同背景條件下拍得植物樣本照片的識別效果也有一定差異[6]。建議以帶花具葉的標(biāo)本照片作為大數(shù)據(jù)識別平臺的首選樣本進(jìn)行種類識別。同時建議平臺數(shù)據(jù)庫補(bǔ)充照片以吻合自然界植物特征,完善識別算法。
4 參考文獻(xiàn)
[1] 丁維龍,吳水生,陳琦,等.基于樹形結(jié)構(gòu)相似度的植物種類識別系統(tǒng)[J].中南大學(xué)學(xué)報(自然科學(xué)版),2013(增刊2):244-249.
[2] 裴勇.基于數(shù)字圖像的花卉種類識別技術(shù)研究[D].北京:北京林業(yè)大學(xué),2011.
[3] 張帥.基于深度學(xué)習(xí)的植物葉片識別算法研究[D].北京:北京林業(yè)大學(xué),2016.
[4] 李穎.十大主流手機(jī)品牌售后服務(wù)測評[J].中國質(zhì)量萬里行,2015(12):76-78.
[5] 史斐翡,郭根生.如何正確看待數(shù)碼相機(jī)的高像素[J].影像技術(shù),2008(2):19-21.
[6] 李正宏.瀕危植物取樣策略研究[D].杭州:浙江大學(xué),2005.