仇 譽(yù),韓俊英,封成智,陳永衛(wèi)
(甘肅農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院,甘肅 蘭州 733070)
蘋果是世界上僅次于柑橘的第二大水果,其種植生產(chǎn)遍布于全世界。目前,種植蘋果已成為許多國家主要的農(nóng)事活動,約有80多個國家和地區(qū)都種植生產(chǎn)蘋果[1]。蘋果產(chǎn)業(yè)作為中國最具代表性的勞動密集型優(yōu)勢產(chǎn)業(yè),多年來在促進(jìn)農(nóng)民收入增長和區(qū)域經(jīng)濟(jì)發(fā)展等方面起到了重要作用。蘋果產(chǎn)業(yè)也在我國的水果產(chǎn)業(yè)中一直占據(jù)著非常重要的地位,其很強(qiáng)的市場競爭力,對于果農(nóng)增加收益以及農(nóng)業(yè)產(chǎn)業(yè)結(jié)構(gòu)的改善都具有重要意義[2-3]。隨著蘋果種質(zhì)資源的不斷創(chuàng)新豐富,如何有效、簡單、準(zhǔn)確識別蘋果品種成為了一個不斷引起各界關(guān)注的熱點(diǎn)問題。文獻(xiàn)[4]指出基于深度學(xué)習(xí)的圖像識別技術(shù)可以與人類專家的識別能力相媲美,甚至超過專家的識別能力。因此本文擬提出一種基于計算機(jī)視覺技術(shù)的蘋果果樹栽培品種識別方法,包括前期數(shù)據(jù)采集、模型設(shè)計訓(xùn)練驗(yàn)證等過程,要求有較高的識別率,可以為蘋果產(chǎn)業(yè)的生產(chǎn)研究提供力所能及的幫助。
近年來,以深度學(xué)習(xí)為基礎(chǔ)的圖像分類成為了計算機(jī)視覺技術(shù)方面的一個重要課題,特別是在大規(guī)模圖像分類任務(wù)中有良好表現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)[5],已經(jīng)發(fā)展成為計算機(jī)模式識別任務(wù)中最好的分類方法之一,它的適用范圍廣泛,還能夠自動提取圖像低級特征并進(jìn)一步學(xué)習(xí)高級特征,現(xiàn)已被廣泛應(yīng)用于圖像分類、圖像分割、目標(biāo)識別和物體定位等領(lǐng)域[6-8]。薄琪葦[9]以卷積神經(jīng)網(wǎng)絡(luò)算法為基礎(chǔ)構(gòu)建了一個植物葉片識別模型,并選取15種葉片圖像進(jìn)行實(shí)驗(yàn)。他根據(jù)葉片圖像的特點(diǎn),對模型參數(shù)及結(jié)構(gòu)有針對性地進(jìn)行調(diào)整,從實(shí)驗(yàn)結(jié)果來看,平均識別率能達(dá)到93.7%。林君宇等人[10]針對10種常見觀賞花卉,提供了一個圖像數(shù)據(jù)集,其中包含4種花卉的共16種葉部病癥,設(shè)計實(shí)現(xiàn)了以卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的分類模型,實(shí)驗(yàn)結(jié)果表明,病癥識別準(zhǔn)確率達(dá)到88.2%。袁培森等人[11]運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)技術(shù)獲取菊花的特征信息,實(shí)驗(yàn)表明,平均識別率可以達(dá)到95%左右,部分達(dá)到98%,系統(tǒng)識別精度明顯提升。Backes等人[12]采用復(fù)雜網(wǎng)絡(luò)算法對不同分辨率以及存在噪聲的葉片圖像進(jìn)行識別,取得了不錯的識別效果。Krizhevsky等人[13]使用卷積神經(jīng)網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集上的識別取得了突破性進(jìn)展。Mohanty等人[14]訓(xùn)練了一個深度卷積神經(jīng)網(wǎng)絡(luò),并對其進(jìn)行了遷移學(xué)習(xí),將植物葉片病害進(jìn)行分類識別,最終的識別精度為99.35%。Carpentier等人[15]建立了一個包含23000張樹干圖片的數(shù)據(jù)庫,在ResNet18和ResNet34上進(jìn)行訓(xùn)練,識別精度達(dá)到了93.88%。
本文以甘肅省平?jīng)鍪徐o寧縣果樹果品研究所蘋果良種苗木繁育基地作為研究基地,將14個蘋果果樹品種做為研究對象,基于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練識別分類模型,對蘋果栽培品種識別分類問題進(jìn)行研究。以在大規(guī)模圖像分類任務(wù)中有良好表現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),調(diào)試其各項(xiàng)參數(shù)結(jié)構(gòu)尋求最優(yōu)的蘋果栽培品種識別分類模型,以期為現(xiàn)代蘋果種植及科研提供幫助。
所有實(shí)驗(yàn)數(shù)據(jù)集用到的原始葉片圖像均采用數(shù)碼相機(jī)拍攝,實(shí)驗(yàn)所用電腦為Thinkpad E440,使用PyCharm軟件集成開發(fā),訓(xùn)練模型基于Tensorflow框架實(shí)現(xiàn),所有代碼均使用Python語言編寫。詳細(xì)的參數(shù)配置如表1所示。
表1 軟硬件環(huán)境介紹
卷積神經(jīng)網(wǎng)絡(luò)[16-17]是受人體神經(jīng)系統(tǒng)啟發(fā)而創(chuàng)造的一種多層感知模型,具有良好的容錯能力、并行處理能力和自學(xué)習(xí)能力。經(jīng)典的CNN由輸入層、卷積層、池化層(也稱下采樣層)、全連接層及輸出層組成,如圖1所示。
圖1 卷積神經(jīng)網(wǎng)絡(luò)典型結(jié)構(gòu)
以LeNet-5為例,這是典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通常會交替設(shè)置若干個卷積層和池化層,依此類推。因?yàn)樵诰矸e層中輸出特征面的每個神經(jīng)元都和它的輸入進(jìn)行局部連接,并且根據(jù)匹配的連接權(quán)值與局部輸入進(jìn)行加權(quán)求和,最終再加上偏置值計算出該神經(jīng)元的輸入值,這個過程就近似于卷積過程,CNN也由此而得名[18-20]。
1.3.1 圖像采集
自2008年開始,中國蘋果產(chǎn)業(yè)發(fā)展速度開始增快。從區(qū)域變化來看,環(huán)渤海灣優(yōu)勢區(qū)面積和產(chǎn)量逐漸下降,黃土高原優(yōu)勢區(qū)持續(xù)快速增長,其中,甘肅和陜西發(fā)展較快,且向高海拔地區(qū)擴(kuò)張。甘肅已成為最具發(fā)展?jié)摿蛢?yōu)勢的新興蘋果產(chǎn)區(qū)(如甘肅靜寧、莊浪、慶陽等地)[2-3]。
靜寧地區(qū)目前是我國西北黃土高原第二大蘋果產(chǎn)區(qū),平均海拔1600 m。本文實(shí)驗(yàn)所使用的數(shù)據(jù)集葉片圖像是于2018年7月15日至8月20日期間,在甘肅省平?jīng)鍪徐o寧縣果樹果品研究所蘋果良種苗木繁育基地內(nèi)(35°28′N,104°44′E)采集。該研究所內(nèi)蘋果品種齊全,管理專業(yè)化,符合本文實(shí)驗(yàn)的實(shí)驗(yàn)要求。
筆者共在該研究所基地內(nèi)選取蘋果果樹品種14種進(jìn)行實(shí)驗(yàn)。在采集蘋果果樹葉片圖像的過程中,首先選取每個品種的蘋果果樹10棵左右,選取果樹的樹齡、樹勢、長勢都存在差異。在這37天的采集期中,有晴天12天,陰天16天,小雨1天,中雨1天,大雨1天,多云5天,霧天1天,涵蓋了大部分天氣狀況。每天在所選取果樹的樹冠東、西、南、北4個方向的外圍(距樹干大于1 m)和內(nèi)膛(距樹干小于0.5 m)處隨機(jī)采摘無損傷、無病蟲害的成熟葉片,每個品種約采摘100片,保證數(shù)據(jù)的全面性。然后在室外自然光下以白色A4紙作為背景,用尼康B700數(shù)碼相機(jī)拍攝葉片圖像,分辨率為300 dpi,類型為24位真彩色。共拍攝14個品種的果樹葉片圖像14394張。
采集葉片圖像詳細(xì)信息見表2,用阿拉伯?dāng)?shù)字1~14依次給14個蘋果品種編號,用字母a~n依次作為其代碼。
表2 葉片圖像采集詳細(xì)信息
14個品種的蘋果果樹葉片彼此相似,形狀都近似橢圓。葉片前端都比較尖銳,邊緣都是鋸齒狀,長約4.5 cm~10 cm,寬約3 cm ~5.5 cm。顏色用肉眼看都為綠色。非常高的相似性也導(dǎo)致了利用葉片圖像對蘋果果樹品種進(jìn)行分類具有很高的難度。葉片圖像示例見圖2,為了方便展示,本文將葉片圖像縮放到統(tǒng)一大小,品種名稱以表2中的代碼表示。
圖2 葉片圖像示例
1.3.2 數(shù)據(jù)集劃分
本文將每個品種的葉片圖像隨機(jī)取出5%作為測試集。剩下的95%,隨機(jī)取出其中80%作為訓(xùn)練集,20%作為驗(yàn)證集。統(tǒng)計數(shù)據(jù)如表3所示。
表3 各數(shù)據(jù)集數(shù)據(jù)統(tǒng)計
1.3.3 蘋果栽培品種識別分類模型構(gòu)建
模型構(gòu)建方面,為了得到識別分類效果最好的模型,本文在數(shù)據(jù)集上進(jìn)行了大量測試,包括對學(xué)習(xí)率、卷積層層數(shù)、卷積核數(shù)量、卷積核大小、全連接層隱含節(jié)點(diǎn)等的調(diào)整。具體步驟如下:
1)保持學(xué)習(xí)率為0.0001,卷積核大小為3×3,全連接層隱含節(jié)點(diǎn)為512、256,Batch為32。只對卷積層層數(shù)和卷積核的數(shù)量進(jìn)行調(diào)整,得到該條件下的最優(yōu)模型,詳細(xì)參數(shù)見表4。使用測試集中的“2001”果樹品種葉片作為測試對象,可以明顯看到在該條件下model6在所有模型中有著最好的識別精度。
表4 識別分類模型類別及測試精度1
2)用上述測試精度最高的model6繼續(xù)進(jìn)行實(shí)驗(yàn)。保持卷積層層數(shù)、卷積核數(shù)量、卷積核大小、全連接層隱含節(jié)點(diǎn)等參數(shù)不變,調(diào)整學(xué)習(xí)率,得到該條件下的最優(yōu)模型。如表5所示,當(dāng)Learning rate=0.0004時,模型具有最好的識別精度。
表5 識別分類模型類別及測試精度2
3)使用上一步驟中得到的識別精度最高的model2模型,調(diào)整全連接層隱含節(jié)點(diǎn)繼續(xù)進(jìn)行實(shí)驗(yàn),如表6所示,當(dāng)fc1、fc2分別為1024、512時,模型具有最好的識別精度。
表6 識別分類模型類別及測試精度3
4)使用步驟3中測試精度最好的model4模型,調(diào)整batch大小獲得最優(yōu)解,如表7所示,當(dāng)batch=64時,模型具有最好的識別精度。
表7 識別分類模型類別及測試精度4
經(jīng)過反復(fù)測試,最終采用的蘋果栽培品種識別分類模型為步驟4中的model4,整體學(xué)習(xí)率learning_rate=0.0004,每次迭代輸入的圖片數(shù)據(jù)batch=64。
本文實(shí)驗(yàn)中最終采用的模型訓(xùn)練程序架構(gòu)如圖3所示。由1個輸入層、5個卷積層、5個池化層、3個全連接層、2個Dropout層、1個輸出層組成。
圖3 程序架構(gòu)
本文將所有卷積層的卷積核大小都設(shè)置為3×3,strides=[1,1,1,1],padding="SAME",用以逐步提取葉片圖像的特征,保證葉片圖像的主要特征不會因?yàn)榫矸e核大小過大或者strides過大而丟失。每個卷積層都調(diào)用Tensorflow的ReLU[21]激活函數(shù)進(jìn)行激勵計算。并且在每個卷積層后的池化層都調(diào)用Tensorflow的max_pool函數(shù)進(jìn)行池化計算,設(shè)置ksize=[1,2,2,1],strides=[1,2,2,1],padding="VALID"。3個全連接層分別有隱藏節(jié)點(diǎn)1024個和512個。也使用ReLU函數(shù)作為激活函數(shù),并且每層都采用Dropout[22]層,隨機(jī)舍棄50%的神經(jīng)元來減少過擬合和欠擬合的程度,保存模型最好的預(yù)測效率。
最終確定的蘋果栽培品種識別分類模型精度及損失演化曲線如圖4所示,該模型大約經(jīng)過10次迭代以后開始收斂,經(jīng)過30次迭代后收斂效果良好,最終達(dá)到最佳的識別分類性能。
圖4 模型訓(xùn)練精度及損失演化曲線
從演化曲線上可以看出,該模型具有很好的學(xué)習(xí)能力,因?yàn)樵谇?0次迭代過程中,其準(zhǔn)確率上升較快,損失下降也較快,在10次迭代以后,訓(xùn)練準(zhǔn)確率總體上呈現(xiàn)出相對穩(wěn)定的上升趨勢。而且,在整個收斂過程中,精度波動上升,而損失持續(xù)波動下降,說明模型具有持續(xù)學(xué)習(xí)的能力,不會陷入局部最優(yōu)。此外,在整個訓(xùn)練過程中,訓(xùn)練精度略高于驗(yàn)證精度,訓(xùn)練損失略低于驗(yàn)證損失,說明該模型能夠成功避免過擬合問題。
本文實(shí)驗(yàn)由于樣本數(shù)據(jù)集有限,為了保證識別分類模型的可靠性和穩(wěn)定性,所以本文首先通過10折倍交叉驗(yàn)證法來評估該模型的性能,然后使用獨(dú)立測試集測試該模型的泛化性能。
在10折交叉驗(yàn)證法中,除去獨(dú)立測試集的樣本數(shù)據(jù)集被隨機(jī)分為10個互斥的子集。依次用其中1個作為驗(yàn)證集,其他作為訓(xùn)練集,整體交叉驗(yàn)證過程就會重復(fù)10次,用10次驗(yàn)證結(jié)果的平均值作為最終結(jié)果,評價模型性能,防止出現(xiàn)過擬合現(xiàn)象。本文實(shí)驗(yàn)10折交叉驗(yàn)證的整體實(shí)驗(yàn)數(shù)據(jù)及結(jié)果統(tǒng)計如表8所示,表中的行表示蘋果果樹品種,列表示驗(yàn)證次數(shù),表中的數(shù)據(jù)為x/y形式,y代表驗(yàn)證集的數(shù)量,x代表驗(yàn)證正確的圖片數(shù)量。以實(shí)驗(yàn)次數(shù)來看,在10次交叉驗(yàn)證中,最高驗(yàn)證精度可以達(dá)到97.35%,最低為95.98%,平均驗(yàn)證精度為96.69%,平均誤差為0.0331,驗(yàn)證精度方差為1.37281E-5,標(biāo)準(zhǔn)差為0.00371。以每個果樹品種來看,“富士美滿”品種相較于其他品種識別特征不明顯,所以它的識別精度最低,只有90.77%,表中以粗體黑色標(biāo)識。“艾達(dá)紅”和“紅肉優(yōu)系”相較于其他果樹品種有著突出的獨(dú)特識別特征,其識別精度可以達(dá)到99.59%?!?001”品種有著99.28%的識別準(zhǔn)確率,其他品種的識別準(zhǔn)確率處在94%~99%之間。
表8 10折交叉驗(yàn)證實(shí)驗(yàn)結(jié)果統(tǒng)計
一般而言,通過未知數(shù)據(jù)集測試學(xué)習(xí)模型的準(zhǔn)確性進(jìn)而評估模型的泛化性能是更加穩(wěn)定可靠且有說服力的。本文實(shí)驗(yàn)使用獨(dú)立未知測試集測試學(xué)習(xí)模型的識別結(jié)果混淆矩陣如表9所示,行代表蘋果果樹品種,列代表對應(yīng)品種通過識別分類模型分析得到的歸屬品種。各品種名稱都以表2中的代碼表示。各品種測試識別正確的圖片數(shù)量以粗體標(biāo)識。根據(jù)實(shí)驗(yàn)結(jié)果來看,與10折交叉驗(yàn)證實(shí)驗(yàn)類似,“艾達(dá)紅”品種的測試識別準(zhǔn)確率最高,達(dá)到100%全部識別準(zhǔn)確(品種c)?!案皇棵罎M”品種的測試識別準(zhǔn)確率最低,只有82.69%(品種d)??傮w平均測試精度為90.49%,平均測試誤差為0.0951,測試精度方差為0.00273,測試精度標(biāo)準(zhǔn)差為0.05227。
表9 獨(dú)立測試集測試結(jié)果統(tǒng)計
在本文實(shí)驗(yàn)中,利用CNN卷積神經(jīng)網(wǎng)絡(luò)對蘋果果樹品種進(jìn)行了識別分類,相對于傳統(tǒng)的需要人工設(shè)定提取圖片特征的分類識別方法,有著比較滿意的識別分類效果,獨(dú)立未知測試集的測試精度為90.49%。
然而深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的模型性能非常依賴訓(xùn)練數(shù)據(jù)集的大小與豐富度,而本文實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)集數(shù)據(jù)量還是不足,所以本文實(shí)驗(yàn)現(xiàn)階段仍然存在一定問題。要想更好符合實(shí)際情況,而且還要保證準(zhǔn)確性高,則需要更多樣化的數(shù)據(jù)集做訓(xùn)練。不但要增加現(xiàn)有每一個品種的圖像數(shù)量,還需增加更多的蘋果果樹品種,并涵蓋更加豐富的拍攝條件,例如拍攝設(shè)備、光照強(qiáng)度的多樣化[23]。并且筆者會繼續(xù)改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),優(yōu)化識別分類效果,包括嘗試引入多輸入[24]、遷移學(xué)習(xí)[25]、半監(jiān)督學(xué)習(xí)[26]等方式。值得借鑒的是,Long等人[27]改進(jìn)了深度網(wǎng)絡(luò)結(jié)構(gòu),通過在網(wǎng)絡(luò)中加入概率分布適配層,進(jìn)一步提高深度遷移學(xué)習(xí)網(wǎng)絡(luò)對于大數(shù)據(jù)的泛化能力。
本文提供了一個包含14個蘋果果樹品種的葉片圖像數(shù)據(jù)集,該數(shù)據(jù)集包含使用1481片各品種果樹葉片拍攝而成的圖片共14394張;進(jìn)而設(shè)計并實(shí)現(xiàn)了基于卷積神經(jīng)網(wǎng)絡(luò)的蘋果栽培品種識別分類模型,該模型訓(xùn)練集訓(xùn)練精度可以達(dá)到99.88%,驗(yàn)證集驗(yàn)證精度為92.86%,獨(dú)立未知測試集的測試精度為90.49%。實(shí)驗(yàn)表明,本文提出的基于卷積神經(jīng)網(wǎng)絡(luò)的蘋果栽培品種識別分類模型具有比較不錯的識別效果,這對于解決田間果園、科研實(shí)驗(yàn)等實(shí)際場景的問題有著深遠(yuǎn)的意義。隨著深度學(xué)習(xí)技術(shù)研究的推進(jìn),未來與植物表型各種具體問題相結(jié)合的解決方案會不斷增多,將會出現(xiàn)更多具有影響力的基于深度學(xué)習(xí)的植物表型工作和成果。