許寶陽(yáng),高延峰
(201620 上海市 上海工程技術(shù)大學(xué) 上海市大型構(gòu)件智能制造機(jī)器人技術(shù)協(xié)同創(chuàng)新中心)
目前,我國(guó)茶葉采摘方式仍以人工手采為主,機(jī)械采摘為輔。但人工手采茶葉面臨著采摘時(shí)間長(zhǎng)、效率低下、人工費(fèi)用高等問題。而當(dāng)前市場(chǎng)上的機(jī)械化采茶大部分采用一刀切的方式,切除下來的茶葉嫩芽老葉混雜,采摘目的性低,茶葉完整度低,可用度低,浪費(fèi)大量原材料,一定程度上也造成經(jīng)濟(jì)損失?;诖?,研究一種識(shí)別度高、魯棒性強(qiáng)的智能化茶葉嫩芽識(shí)別技術(shù),實(shí)現(xiàn)采茶機(jī)器人智能化就顯得尤為重要。
茶葉采摘技術(shù)的高低決定了茶葉品質(zhì)的好壞,因此茶葉采摘比一般農(nóng)作物采摘困難較大。隨著人工智能的興起,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)也逐漸走進(jìn)人們的視野。能夠?qū)Σ枞~精確識(shí)別與分類是實(shí)現(xiàn)茶葉精細(xì)化采摘的基礎(chǔ),目標(biāo)檢測(cè)技術(shù)的發(fā)展讓該領(lǐng)域也取得了優(yōu)秀的成果。在國(guó)內(nèi),許高建等[1]對(duì)相同特征提取的不同網(wǎng)絡(luò)模型進(jìn)行對(duì)比,最后模型識(shí)別效果良好;邵明[2]以龍井茶為研究對(duì)象,利用視覺技術(shù)中的算法,實(shí)現(xiàn)茶葉嫩芽的自動(dòng)檢測(cè)與分類識(shí)別;王琨等[3]通過增減卷積核進(jìn)一步優(yōu)化經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)算法來識(shí)別茶葉狀態(tài),利用圖片訓(xùn)練網(wǎng)絡(luò)最終能正確識(shí)別;張樂等[4]利用多種深度網(wǎng)絡(luò)對(duì)油菜田間雜草進(jìn)行識(shí)別,最后采用最優(yōu)模型的目標(biāo)識(shí)別精確度達(dá)到83.90%;邵佩迪等[5]對(duì)茶葉嫩芽進(jìn)行濾波去噪、圖像分割手段,利用半全局匹配算法SGBM 獲得茶葉嫩芽的三維坐標(biāo),對(duì)機(jī)器人的研發(fā)具有一定借鑒意義;李頎等[6]利用了深度學(xué)習(xí)SSD_MobileNet 卷積神經(jīng)網(wǎng)絡(luò)對(duì)番茄主要器官檢測(cè),頗具成效。在國(guó)外,Qian 等[7]提出了一種基于VGG16 的改進(jìn)模型來識(shí)別蘋果葉病害,最后的葉片分類準(zhǔn)確率達(dá)到99.01%,與經(jīng)典VGG16模型相比,準(zhǔn)確率有效提高;Antonio 等[8]采用光譜法和質(zhì)譜法測(cè)量各國(guó)茶葉中的微量金屬,以此為依據(jù),利用主成分分析、聚類分析、線性判別分析等技術(shù)實(shí)現(xiàn)茶葉分類;Mukilan 等[9]設(shè)計(jì)了基于黑寡婦優(yōu)化的深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型從視頻幀中檢測(cè)出人和物體,并對(duì)其性能進(jìn)行分析評(píng)價(jià)等。
現(xiàn)有文獻(xiàn)多是用網(wǎng)絡(luò)模型對(duì)茶葉進(jìn)行單一識(shí)別,缺乏識(shí)別針對(duì)性。另外,相比傳統(tǒng)目標(biāo)檢測(cè)存在穩(wěn)定性差、識(shí)別窗口選擇冗余、沒有針對(duì)性等多個(gè)主要問題。深度學(xué)習(xí)適應(yīng)性強(qiáng),魯棒性高,可移植性好,覆蓋范圍廣,因此本文在對(duì)比分析多個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)模型性能基礎(chǔ)之上,采用最優(yōu)模型對(duì)茶葉嫩芽進(jìn)行多維度識(shí)別,同時(shí)根據(jù)影響識(shí)別因素進(jìn)行分類比較,得出最佳結(jié)論,為后面的實(shí)現(xiàn)現(xiàn)代化智能化采茶機(jī)器人技術(shù)產(chǎn)業(yè)化提供技術(shù)參考。
為了保證數(shù)據(jù)有效性,本研究所用到的圖片均在茶園實(shí)地拍攝,拍攝使用的是高清相機(jī),照片像素均為4 032×3 024,為了減少內(nèi)存消耗,統(tǒng)一將圖片縮小為640×480。經(jīng)過篩選最終保留可用圖片,按照最佳經(jīng)驗(yàn)分配比8∶2,訓(xùn)練集圖片達(dá)到 5 014 張,測(cè)試集圖片達(dá)到1 250 張。
為了避免出現(xiàn)訓(xùn)練過擬合現(xiàn)象,需要獲得足夠多的樣本??紤]到后期需要分類對(duì)比,故從茶葉的遠(yuǎn)近景、姿態(tài)、環(huán)境和角度多維度拍攝,如圖1(a)—圖1(d)所示。對(duì)圖像中的茶葉嫩芽進(jìn)行標(biāo)注是實(shí)現(xiàn)嫩芽識(shí)別的關(guān)鍵步驟。本實(shí)驗(yàn)中用的標(biāo)注軟件是labellmg,標(biāo)注文件以XML 形式保存,文件內(nèi)包含了所標(biāo)注的嫩葉目標(biāo)名稱和位置等信息。
在自然環(huán)境下,戶外茶葉易受到惡劣環(huán)境破壞,導(dǎo)致茶葉嫩芽折斷或損壞,這為識(shí)別帶來了一定的困難。同時(shí),圖片的拍攝好壞不僅受到氣象的影響,也受到茶葉本身及周圍的影響。茶葉具有季節(jié)性,一旦錯(cuò)過最佳時(shí)期,嫩芽顏色就會(huì)逐漸變深,與周圍老葉相似,此時(shí)也為識(shí)別增加難度,如圖1(e)—圖1(f)所示。
圖1 茶葉嫩芽圖像集Fig.1 Image set of tea buds
以SSD VGG-16 模型和Faster R-CNN ResNet-50 模型為對(duì)象,構(gòu)建適合茶葉嫩芽檢測(cè)識(shí)別的深度學(xué)習(xí)網(wǎng)絡(luò)模型。構(gòu)建的SSD 模型和Faster R-CNN 模型分別如圖2 和圖3 所示。
圖2 SSD 深度網(wǎng)絡(luò)模型結(jié)構(gòu)圖Fig.2 SSD deep network model structure diagram
圖3 Faster R-CNN 深度網(wǎng)絡(luò)模型結(jié)構(gòu)圖Fig.3 Faster R-CNN deep network model structure diagram
SSD 模型是在VGG16 的基礎(chǔ)之上增加新的卷積層來實(shí)現(xiàn)多尺度特征圖像檢測(cè)[10]。原始圖片大小為640×480×3,其中640×480為像素,3為通道數(shù)。一般情況下,所構(gòu)建的模型輸入有300×300×3 和512×512×3 兩種,這里以300×300×3 為例。圖片輸入時(shí)會(huì)自動(dòng)縮放到300×300×3,接著從新增的卷積層中提取特征圖,每個(gè)特征圖還會(huì)產(chǎn)生不同數(shù)目的先驗(yàn)框,最后一共生成8 732 個(gè)先驗(yàn)框,另外還需要對(duì)特征圖進(jìn)行卷積和非極大值抑制得到最后的檢測(cè)結(jié)果。
Faster R-CNN 是 在R-CNN 和Fast R-CNN 的基礎(chǔ)之上演變而來。R-CNN 算法在運(yùn)行時(shí)速度慢,效率低,這是因?yàn)樵撍惴〞?huì)多次重復(fù)提取相同的特征,從而占用大量?jī)?nèi)存。Fast R-CNN 是將整張圖一次提取,雖然能提高目標(biāo)檢測(cè)的速度,但該算法仍然有因選擇性搜索所有候選框而導(dǎo)致耗時(shí)的痛點(diǎn),而Faster R-CNN 是在Fast R-CNN 基礎(chǔ)之上構(gòu)建一個(gè)小的網(wǎng)絡(luò),稱之為區(qū)域預(yù)測(cè)網(wǎng)絡(luò)RPN,直接生成預(yù)測(cè)區(qū)域來得到目標(biāo)候選框,可以極大地提升運(yùn)行速度和檢測(cè)精度[10]。
對(duì)所構(gòu)建的網(wǎng)絡(luò)模型性能進(jìn)行了分析。圖4 是2 個(gè)網(wǎng)絡(luò)模型在訓(xùn)練過程中的Loss 值變化情況。從圖4 可知,2 種模型初始時(shí)loss 值都比較大,隨著迭代次數(shù)增加,Loss 值呈現(xiàn)下降趨勢(shì)。相比Faster R-CNN 模型,SSD 模型Loss 初始值為18.573,后續(xù)Loss 值在5.0~7.5 之間波動(dòng),波動(dòng)明顯較大。
圖4 整體損失對(duì)比圖Fig.4 Comparison of total loss
Faster R-CNN 模型Loss 初始值為1.631,后續(xù)Loss 值在0.1~0.5 之間波動(dòng)。在迭代12 000 次左右時(shí),兩模型都出現(xiàn)較大干擾,SSD 模型之后始終處在波動(dòng)狀態(tài),這也說明了該模型魯棒性較弱,不太適用于茶葉嫩芽的識(shí)別。而Faster R-CNN 模型能夠很好地克服干擾,迅速調(diào)整訓(xùn)練權(quán)重,使模型逐漸收斂,最終收斂達(dá)到0.108 左右。
損失函數(shù)曲線是體現(xiàn)模型性能優(yōu)劣的指標(biāo)之一,但loss 值與識(shí)別率和精準(zhǔn)率并沒有直接對(duì)應(yīng)關(guān)系,故在本節(jié)實(shí)驗(yàn)中,分別提取迭代10 000 次,20 000 次和30 000 次的模型來識(shí)別茶葉嫩芽,分別計(jì)算識(shí)別率、精確率和置信度,結(jié)果如圖5 所示。由圖5 可知,隨著迭代次數(shù)的增加,SSD 模型識(shí)別率始終處在23%左右,精確率隨著次數(shù)增加卻下降了10%左右,置信度雖有所提高但最高也只達(dá)到75.00%。相比SSD 模型,F(xiàn)aster R-CNN 模型的識(shí)別率都在80%~86%,精確率和置信度都隨迭代次數(shù)的增加而提高,精確率從83.33%提高至87.30%,置信度從76.30%提高至87.65%。識(shí)別率和精確率是選擇模型的首要判斷因素,而置信度在實(shí)際操作可根據(jù)自身需求設(shè)置閾值,保留合格置信度即可。前文提到,SSD 模型對(duì)圖片進(jìn)行自動(dòng)縮放會(huì)影響精度,對(duì)圖片分割成多個(gè)方形圖形,有可能導(dǎo)致目標(biāo)特征被分割到多個(gè)圖中,這也會(huì)影響精度,故本實(shí)驗(yàn)最終選擇Faster R-CNN 模型來進(jìn)行茶葉嫩芽的識(shí)別。
圖5 不同迭代次數(shù)下的識(shí)別率、精確率和置信度Fig.5 Recognition rate,accuracy rate and confidence under different iteration times
將測(cè)試集圖片按嫩芽個(gè)數(shù)分為單株和多株。定義圖中有1 個(gè)嫩芽的為單株,如圖6(a)所示;嫩芽個(gè)數(shù)大于1 個(gè)的為多株,如圖6(b)所示。經(jīng)測(cè)試計(jì)算后識(shí)別結(jié)果如表1 所示。從表1 看出,2 組的精確率和置信度相差不多,但單株的識(shí)別率比多株的識(shí)別率高16.47%,召回率提高了10.34%。
表1 單株與多株識(shí)別結(jié)果統(tǒng)計(jì)Tab.1 Statistics of single plant and multiple plants recognition results
圖6 茶葉嫩芽的單株與多株Fig.6 Single plant and multiple plants of tea-buds
一般來說,精確率代表正確識(shí)別芽數(shù)與可識(shí)別芽數(shù)之間的比例關(guān)系,召回率代表正確識(shí)別芽數(shù)與嫩芽總數(shù)之間比例關(guān)系。單株識(shí)別率和召回率較高是因?yàn)閱沃甏蠖辔挥趫D片中心,清晰度高,識(shí)別度高,而多株圖片中,相機(jī)定焦功能受限,有部分嫩芽位于焦距之外或圖片邊緣導(dǎo)致模糊現(xiàn)象,如圖6(b)中嫩芽1 要比嫩芽2 更清楚更明顯,因此多株識(shí)別率和召回率較低。
雖然茶葉長(zhǎng)勢(shì)姿態(tài)千奇百怪,但最常見的是一芽一葉和一芽?jī)扇~這2 種姿態(tài),現(xiàn)將測(cè)試集圖片按嫩芽形態(tài)分為一芽一葉和一芽?jī)扇~。中間的嫩芽芯被一片嫩葉包裹的是一芽一葉,如圖7(a)所示;中間的嫩芽芯被左右兩片嫩葉包裹的是一芽?jī)扇~,如圖7(b)所示。為了多角度測(cè)試該網(wǎng)絡(luò)模型的識(shí)別性能,本節(jié)實(shí)驗(yàn)將分別從整體集、單株集和多株集計(jì)算4 項(xiàng)指標(biāo)。經(jīng)測(cè)試計(jì)算后,結(jié)果如表2 所示,表格類別中“一”表示一芽一葉,“二”表示一芽?jī)扇~,。
圖7 茶葉嫩芽的不同形態(tài)Fig.7 Different forms of tea-buds
從表2 得出,在整體集中,兩組的識(shí)別率和置信度都相差不大,但一芽一葉的精確率和召回率都偏高。在單株集中,有部分一芽一葉出現(xiàn)遮擋情況,故識(shí)別率稍低,但可識(shí)別嫩芽特征明顯,精確率能達(dá)到100%,而一芽?jī)扇~的嫩葉有不集中現(xiàn)象,導(dǎo)致模型錯(cuò)誤分類,精確率較低。在多株集中,嫩芽分布較散,多數(shù)出現(xiàn)邊緣嫩芽模糊情況,以至于多株集平均識(shí)別率都低于其他兩集,這也是上節(jié)實(shí)驗(yàn)多株識(shí)別率低于單株識(shí)別率的主要原因。其中一芽一葉的識(shí)別率比一芽?jī)扇~識(shí)別率高21.49%,因?yàn)橐谎績(jī)扇~的數(shù)量較多,模糊嫩芽也會(huì)稍多,故識(shí)別率偏低,而一芽一葉精確率低是因?yàn)槟P蛥^(qū)分一葉和兩葉界限不十分明確,有時(shí)會(huì)因?yàn)槟垩扛浇伾珳\的葉子或嫩茶枝誤識(shí)別為兩葉,從而導(dǎo)致精確率不及一芽?jī)扇~。
表2 一芽一葉和一芽?jī)扇~的識(shí)別結(jié)果統(tǒng)計(jì)Tab.2 Statistics of recognition results of one bud-one leaf and one bud-two leaves
將測(cè)試集圖片按嫩芽環(huán)境不同分為正常、昏暗和明亮。正常模擬晴天環(huán)境,昏暗模擬陰天環(huán)境,明亮模擬光線較強(qiáng)環(huán)境。正常拍攝亮度值為1.0,昏暗情況亮度值為0.6,明亮情況亮度值為1.4,亮度變化值均在40%,如圖8 所示。經(jīng)測(cè)試計(jì)算后,結(jié)果如表3 所示。從表中看出,三組的精確率接近,但明亮環(huán)境和昏暗環(huán)境的識(shí)別率和召回率遠(yuǎn)低于正常環(huán)境下的識(shí)別率和召回率,可見天氣環(huán)境對(duì)茶葉嫩芽識(shí)別影響較大。昏暗的置信度較高是因?yàn)閷?duì)于無法識(shí)別的嫩芽均不進(jìn)行標(biāo)注置信度,而正常環(huán)境下有處于邊緣的嫩芽被識(shí)別,此時(shí)置信度較低,導(dǎo)致平均置信度較低。
圖8 茶葉嫩芽的不同環(huán)境Fig.8 Different environments of tea-buds
表3 不同環(huán)境下的識(shí)別結(jié)果統(tǒng)計(jì)Tab.3 Statistics of recognition results in different environments
將測(cè)試集圖片按嫩芽拍攝角度分為0°、45°和90°3 組,如圖9 所示。經(jīng)測(cè)試計(jì)算,結(jié)果如表4 所示。
圖9 茶葉嫩芽的不同拍攝角度Fig.9 Different shooting angles of tea-buds
表4 不同角度下識(shí)別結(jié)果統(tǒng)計(jì)Tab.4 Statistics of recognition results from different angles
從表4 看出,45°拍攝對(duì)茶葉嫩芽的精確率、召回率和置信度都比較高,而識(shí)別率卻比90°的識(shí)別率略低。這是因?yàn)椴枞~嫩芽多長(zhǎng)在茶樹枝的頂端,45°拍攝時(shí)茶葉相互遮擋較多,識(shí)別難度偏大,而90°拍攝遮擋物較少,故識(shí)別率稍高。0°和90°拍攝的精確率、召回率和置信度較低,這是因?yàn)?°拍攝嫩芽多為“1”字狀,90°拍攝嫩芽多為點(diǎn)狀或橫條狀,能夠獲取的特征不如45°拍攝明顯,故各項(xiàng)指標(biāo)不如45°拍攝指標(biāo)。
從上述分類實(shí)驗(yàn)結(jié)果得知,該模型對(duì)不同情況下的茶葉嫩芽均識(shí)別良好,尤其是在晴天且45°下拍攝對(duì)單株的茶葉嫩芽識(shí)別效果最好。本實(shí)驗(yàn)圖像處理標(biāo)注時(shí),用“yi”表示一芽一葉,用“l(fā)iang”表示一芽?jī)扇~。具體的茶葉嫩芽識(shí)別結(jié)果如圖10所示。后續(xù)采茶機(jī)器人若不需要將茶葉分類,識(shí)別率參考意義較大,若將茶葉分類采摘,識(shí)別率和精確率參考意義較大。本研究實(shí)驗(yàn)對(duì)后續(xù)采茶機(jī)器人能夠?qū)崿F(xiàn)精細(xì)化采摘提供一定幫助。
圖10 茶葉嫩芽識(shí)別結(jié)果Fig.10 Identification results of tea buds
(1)本文首先用不同模型迭代不同次數(shù)相互比較得出,選用迭代次數(shù)為30 000 次的Faster R-CNN ResNet50 模型識(shí)別茶葉嫩芽效果最佳。該模型最終識(shí)別率為82.82%,精確率為87.30%,召回率為72.29%,置信度為87.65%。
(2)本文著重對(duì)比了不同個(gè)數(shù)、不同形態(tài)、不同環(huán)境和不同拍攝角度下的茶葉嫩芽各項(xiàng)指標(biāo),通過實(shí)驗(yàn)結(jié)果表明:?jiǎn)沃曜R(shí)別優(yōu)于多株識(shí)別,光照環(huán)境對(duì)嫩芽識(shí)別影響較大,45°拍攝嫩芽特征最為明顯,識(shí)別效果最佳。
(3)本文通過對(duì)比得出最佳識(shí)別效果也為后續(xù)能夠?qū)崿F(xiàn)現(xiàn)代智能采茶機(jī)器人精細(xì)化采摘提供一定借鑒意義。
(4)本文實(shí)驗(yàn)也有不足之處,實(shí)際采茶可能會(huì)出現(xiàn)多霧多雨天氣,給嫩芽識(shí)別增加難度,所以需更多大量復(fù)雜的樣本數(shù)據(jù)來增強(qiáng)模型的普適性。