孫道宗 丁 鄭 劉錦源 劉 歡 謝家興 王衛(wèi)星
(1.華南農(nóng)業(yè)大學(xué)電子工程學(xué)院(人工智能學(xué)院),廣州 510642;2.廣東省農(nóng)情信息監(jiān)測(cè)工程技術(shù)研究中心,廣州 510642)
據(jù)中國(guó)農(nóng)業(yè)科學(xué)院茶葉研究所數(shù)據(jù)統(tǒng)計(jì),茶葉飲品已經(jīng)成為消費(fèi)量?jī)H次于水的一類世界性飲品[1]。中國(guó)是世界茶樹的原產(chǎn)地[2],是茶葉生產(chǎn)國(guó)和消費(fèi)國(guó)[3],亦是茶葉出口大國(guó)。國(guó)際茶葉委員會(huì)[4]統(tǒng)計(jì)顯示,2019年中國(guó)茶葉產(chǎn)量為2.799×106t,居世界第一,出口3.67×105t,居世界第二。在長(zhǎng)期制茶過程中,我國(guó)產(chǎn)生了眾多茶葉品種,其中一些品種是同一種茶樹的不同變種,外觀差異極小,使茶葉的分類識(shí)別復(fù)雜化,傳統(tǒng)的感官審評(píng)方法采用的審評(píng)術(shù)語并不完善[5]。因此,目前對(duì)于茶葉的分類識(shí)別主要依賴于專業(yè)人員的觀察和對(duì)成品茶的品鑒來分類,流程復(fù)雜,需要較高人力成本,同時(shí)還存在較大的主觀因素影響,導(dǎo)致一致性差、差錯(cuò)率高、量化難[6];尋找一種可以高效無損地識(shí)別茶樹葉片種類的方法是我國(guó)茶產(chǎn)業(yè)發(fā)展需要解決的重要問題之一[7]。
在茶葉生產(chǎn)領(lǐng)域,光譜學(xué)、數(shù)字圖像處理等技術(shù)的研究和應(yīng)用逐漸增多。CHEN等[8]利用VGG-16模型和自編碼網(wǎng)絡(luò)獲取多光譜特征實(shí)現(xiàn)對(duì)新鮮茶芽成熟度的估計(jì)。徐向君等[9]基于激光誘導(dǎo)擊穿光譜(Laser-induced breakdown spectroscopy, LIBS)技術(shù),結(jié)合主成分分析提取特征量并利用支持向量機(jī)進(jìn)行建模。陳輝煌等[10]采集9種鮮茶葉數(shù)據(jù),通過預(yù)處理計(jì)算24種光譜指數(shù),用SVM-RFE選擇特征,最后將線性SVM和隨機(jī)森林分類效果進(jìn)行比較。通過光譜獲取特征雖然可以用于分類,但是存在局限性,如相關(guān)儀器及操作繁瑣復(fù)雜、成本較高等,不利于在農(nóng)業(yè)領(lǐng)域推廣應(yīng)用。因此具有精度高、效率高、無需接觸且成本較低等優(yōu)點(diǎn)的機(jī)器視覺技術(shù)被逐漸應(yīng)用于農(nóng)產(chǎn)品分類識(shí)別中[11],成為農(nóng)業(yè)分類識(shí)別的熱門研究方向。方敏等[12]利用數(shù)字圖像處理技術(shù)將提取的茶葉圖像頻譜特征作為支持向量機(jī)的輸入,建立茶葉種類自動(dòng)識(shí)別模型。孫麗萍等[13]將樹木葉片的特征融合后作為分類依據(jù),采用深度信念網(wǎng)絡(luò)進(jìn)行訓(xùn)練、識(shí)別和分類。上述方法雖然結(jié)果精度不低,但是需要人為提取特征,只支持有限參數(shù)量,設(shè)計(jì)的模型在魯棒性方面不理想,在大數(shù)據(jù)時(shí)代,人工提取數(shù)據(jù)特征的方式已逐漸被取代[14]。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks, CNN)作為圖像分類算法的重要分支,具有識(shí)別精度高、檢測(cè)速度快等優(yōu)點(diǎn),并自動(dòng)提取和學(xué)習(xí)特征,近年來在各個(gè)領(lǐng)域的分類、檢測(cè)等方面廣泛應(yīng)用。文獻(xiàn)[15-19]采用的深度學(xué)習(xí)模型雖然在各自研究領(lǐng)域的分類效果顯著,但是存在網(wǎng)絡(luò)模型結(jié)構(gòu)復(fù)雜、參數(shù)龐大、運(yùn)算量要求高等不足,受限于內(nèi)存開銷小、計(jì)算資源有限等問題,不利于實(shí)際應(yīng)用。而且目前卷積神經(jīng)網(wǎng)絡(luò)用于茶葉分類的研究主要集中于熟茶的分類和鮮葉的芽葉品級(jí)分選[20],對(duì)于鮮葉種類的識(shí)別較少。本文將在前人研究的基礎(chǔ)上進(jìn)一步探索茶樹葉片識(shí)別卷積網(wǎng)絡(luò)模型的輕量化研究?;赟queezeNet卷積神經(jīng)網(wǎng)絡(luò),通過對(duì)網(wǎng)絡(luò)架構(gòu)進(jìn)行分析,結(jié)合改進(jìn)和優(yōu)化步驟構(gòu)建一個(gè)能夠區(qū)分6種茶樹葉片的深度學(xué)習(xí)模型,旨在開發(fā)一種高效、精確、客觀、輕量的鑒別模型,實(shí)現(xiàn)對(duì)復(fù)雜背景和環(huán)境下茶樹葉片的分類,實(shí)現(xiàn)多人多設(shè)備實(shí)時(shí)使用,同時(shí)應(yīng)用于資源受限的嵌入式實(shí)時(shí)系統(tǒng)。
于2021年6—10月對(duì)廣東省廣州市柯木塱農(nóng)業(yè)技術(shù)推廣中心種植的6種成熟茶樹,分別在白天光照充足和陰雨天氣的環(huán)境條件下使用iPhone11手機(jī)自帶相機(jī)拍攝復(fù)雜背景下的茶樹葉片圖像,主攝像頭為索尼IMX503型(1 200萬像素)。
拍攝的數(shù)據(jù)集由鐵觀音、黃枝香、英紅九號(hào)、老仙翁、雞籠刊和鴨屎香6種不同茶樹葉片所構(gòu)成,其中每個(gè)種類的圖像包含茶樹單片成熟葉片、芽葉和多葉片樹枝,各個(gè)種類的圖像為200幅。該數(shù)據(jù)集茶樹葉片包括不同亮度、背景、角度圖像,較好地還原了茶樹葉片在種植環(huán)境中的實(shí)際場(chǎng)景,能更好地訓(xùn)練模型和證明模型的泛化能力,具有更強(qiáng)的適用性。
1.2.1數(shù)據(jù)預(yù)處理
深度學(xué)習(xí)屬于監(jiān)督學(xué)習(xí),與傳統(tǒng)計(jì)算機(jī)視覺方法不同,是使用卷積神經(jīng)網(wǎng)絡(luò)通過數(shù)據(jù)驅(qū)動(dòng)使模型自動(dòng)學(xué)習(xí)特征,不需要借助人工手段提取和篩選特征。由于卷積神經(jīng)網(wǎng)絡(luò)包含大量參數(shù),所以存在過擬合的風(fēng)險(xiǎn)。因此,對(duì)于卷積神經(jīng)網(wǎng)絡(luò)需要提供大量的樣本數(shù)據(jù)進(jìn)行訓(xùn)練,避免網(wǎng)絡(luò)出現(xiàn)過擬合問題。由于本研究所獲取的原始數(shù)據(jù)集只有1 200幅圖像,無法滿足卷積網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)要求,為了避免出現(xiàn)過擬合問題,提高網(wǎng)絡(luò)模型的魯棒性,本文對(duì)現(xiàn)有數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)來擴(kuò)大訓(xùn)練數(shù)據(jù)集。
將數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),增強(qiáng)方法包括水平鏡像翻轉(zhuǎn)、隨機(jī)旋轉(zhuǎn)、增加高斯噪聲和改變圖像對(duì)比度等。將增強(qiáng)后數(shù)據(jù)集按4∶1的比例劃分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集每種茶樹葉片圖像數(shù)量為800幅,剩余圖像為測(cè)試集。經(jīng)過劃分后的訓(xùn)練集圖像數(shù)量達(dá)到4 800幅。圖1為不同茶樹葉片增強(qiáng)前后的圖像對(duì)比,從左到右的4幅圖像分別進(jìn)行了水平鏡像翻轉(zhuǎn)、改變圖像對(duì)比度、增加高斯噪聲、隨機(jī)旋轉(zhuǎn)處理。
圖1 數(shù)據(jù)增強(qiáng)前后對(duì)比
1.2.2經(jīng)典SqueezeNet模型
近年來硬件的快速升級(jí),推動(dòng)了深度學(xué)習(xí)的蓬勃發(fā)展,研究者對(duì)卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)不斷增加,同時(shí)殘差網(wǎng)絡(luò)等技術(shù)的出現(xiàn)更是讓卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)進(jìn)一步上升,從經(jīng)典的7層卷積神經(jīng)網(wǎng)絡(luò)AlexNet逐漸發(fā)展到現(xiàn)在152層的ResNet網(wǎng)絡(luò),甚至出現(xiàn)上千層的復(fù)雜網(wǎng)絡(luò),網(wǎng)絡(luò)的識(shí)別、檢測(cè)性能確實(shí)得到了顯著提高,但是效率卻受到影響[21]。在效率上,過于復(fù)雜的網(wǎng)絡(luò)所包含的參數(shù)量過大,在模型的預(yù)測(cè)計(jì)算中導(dǎo)致計(jì)算緩慢,這些問題會(huì)導(dǎo)致所研究的網(wǎng)絡(luò)無法被廣泛應(yīng)用到資源有限的實(shí)際環(huán)境中。當(dāng)前存在兩種研究方向解決網(wǎng)絡(luò)復(fù)雜化的問題,一是對(duì)復(fù)雜模型的簡(jiǎn)化,主要是將訓(xùn)練好的模型進(jìn)行壓縮,減少模型所包含的參數(shù),從而解決內(nèi)存和計(jì)算速度的問題;二是通過設(shè)計(jì)更高效的“網(wǎng)絡(luò)計(jì)算方式”從而使網(wǎng)絡(luò)參數(shù)減少的同時(shí)不過多損失網(wǎng)絡(luò)性能,本文所改進(jìn)的網(wǎng)絡(luò)模型SqueezeNet就是通過設(shè)計(jì)高效計(jì)算方式而創(chuàng)造出輕量級(jí)卷積網(wǎng)絡(luò),該試驗(yàn)在經(jīng)典SqueezeNet模型基礎(chǔ)上進(jìn)行改進(jìn),以實(shí)現(xiàn)網(wǎng)絡(luò)模型輕量化的同時(shí)保證茶樹葉片分類的準(zhǔn)確度。
SqueezeNet模型是2016年由IANDOLA等[22]提出的一個(gè)輕量型網(wǎng)絡(luò)模型,能在保證識(shí)別精度的同時(shí),將原始的AlexNet參數(shù)壓縮至原來的1/50左右,使模型內(nèi)存占用量只有4.8 MB。Fire模塊是SqueezeNet模型的核心構(gòu)件,如圖2所示,該模塊由一個(gè)Squeeze層和一個(gè)Expand層構(gòu)成,其中C和S分別表示Squeeze層的輸入和輸出通道數(shù),E1和E2分別表示Expand層中1×1和3×3卷積核的輸出通道數(shù)。
圖2 Fire模塊結(jié)構(gòu)
由圖2可知,Squeeze層通過1×1的卷積核對(duì)輸入張量進(jìn)行壓縮,把輸入通道數(shù)從C減小到S,目的就是通過降低通道數(shù)減少網(wǎng)絡(luò)的計(jì)算量;Expand層包含1×1和3×3兩種卷積核,分別將Squeeze層輸入的S通道數(shù)擴(kuò)張成E1和E2,然后將2種卷積核卷積所得特征圖進(jìn)行拼接,最終輸出通道數(shù)為E1+E2的特征圖。
為引入非線性并使深度學(xué)習(xí)模型產(chǎn)生強(qiáng)大的表示能力,模型中在每個(gè)卷積層后都添加了線性整流函數(shù)(Rectified linear unit, ReLU)。為了避免網(wǎng)絡(luò)過擬合,對(duì)全連接層引入了隨機(jī)失活(Dropout),即在網(wǎng)絡(luò)前向傳播時(shí),讓部分神經(jīng)元的激活值以一定的概率停止工作,這樣可以使模型泛化性更強(qiáng)。
1.2.3SqueezeNet模型改進(jìn)設(shè)計(jì)
1.2.3.1批歸一化算法
由于輸入每個(gè)批次的圖像數(shù)據(jù)可能存在分布廣泛、隨機(jī)性大的問題,導(dǎo)致訓(xùn)練出現(xiàn)波動(dòng)大和收斂慢,因此在網(wǎng)絡(luò)中添加批歸一化(Batch normalization, BN)[23]處理,算法過程如下[24]:首先計(jì)算每個(gè)批次n個(gè)樣本的均值μ與方差σ,然后再將數(shù)據(jù)歸一化,得到均值為0、方差為1的數(shù)據(jù)。為避免數(shù)據(jù)歸一化破壞特征分布,需要通過重構(gòu)變換來恢復(fù)原始的特征分布。
(1)
yi=γii+βi
(2)
(3)
βi=E[xi]
(4)
xi——樣本值
yi——尺度變換和偏移后樣本值
γi——尺度變換值βi——偏移值
Var——方差函數(shù)
E——均值函數(shù)
可以發(fā)現(xiàn)當(dāng)式(3)、(4)成立時(shí),重構(gòu)變換能夠完全復(fù)原原始數(shù)據(jù)。通過對(duì)Fire模塊的Squeeze層和Expand層的輸出進(jìn)行批歸一化處理,實(shí)現(xiàn)對(duì)SqueezeNet的改進(jìn)。
1.2.3.2深度可分離卷積
通過采用深度可分離卷積操作替代標(biāo)準(zhǔn)卷積操作,既能保證模型的性能,同時(shí)還可以大幅降低網(wǎng)絡(luò)的參數(shù)量。因此,深度可分離卷積的出現(xiàn),對(duì)研究輕量型卷積網(wǎng)絡(luò)具有里程碑意義[25]。深度可分離卷積就是將標(biāo)準(zhǔn)卷積操作劃分為逐通道卷積和逐點(diǎn)卷積[26]。
標(biāo)準(zhǔn)卷積操作如圖3所示,由于上一層一般具有多個(gè)通道,因此在卷積時(shí)一個(gè)濾波器必須具有對(duì)應(yīng)通道數(shù)的卷積核,因此一次卷積操作是多個(gè)卷積核與上一層對(duì)應(yīng)通道的特征圖進(jìn)行卷積后再相加;若同時(shí)需要得到多個(gè)通道的特征圖,則需要對(duì)應(yīng)該通道數(shù)的濾波器。
圖3 標(biāo)準(zhǔn)卷積
由圖4可知,深度可分離卷積就是將需要卷積操作的特征圖拆分通道數(shù),然后進(jìn)行單通道卷積再堆疊(逐通道卷積),然后將所得特征圖用與上一層通道數(shù)相同的1×1卷積核組成的濾波器進(jìn)行卷積,濾波器數(shù)與生成特征圖通道數(shù)相同(逐點(diǎn)卷積)。該試驗(yàn)將SqueezeNet模型中Fire模塊Exapnd層的3×3標(biāo)準(zhǔn)卷積核替換為深度可分離卷積,降低網(wǎng)絡(luò)的參數(shù)量,以實(shí)現(xiàn)網(wǎng)絡(luò)輕量化的目標(biāo)。
圖4 深度可分離卷積
1.2.3.3注意力機(jī)制
由于該試驗(yàn)的主要研究方向是基于卷積神經(jīng)網(wǎng)絡(luò)的多品種茶樹葉片分類,茶樹葉片圖像在獲取深層特征時(shí)會(huì)存在一定的特征冗余,同時(shí)受限于模型規(guī)模和復(fù)雜背景的限制和影響,因此模型的分類性能會(huì)受到影響。因此試驗(yàn)嘗試將注意力機(jī)制[27]引入到網(wǎng)絡(luò)中,實(shí)現(xiàn)對(duì)特征信息進(jìn)行選擇。注意力機(jī)制模仿人的視覺注意力模式,每次只關(guān)注與當(dāng)前任務(wù)最相關(guān)的目標(biāo)信息,能夠強(qiáng)化重要信息和抑制非重要信息,同時(shí)注意力機(jī)制可以緩解卷積神經(jīng)網(wǎng)絡(luò)傳統(tǒng)卷積操作的局部感受野因缺乏全局信息層次的理解能力而導(dǎo)致特征差異性的問題,提升網(wǎng)絡(luò)的特征提取能力。
Fire模塊中引入的注意力模塊如圖5所示,通過將通道注意力和空間注意力串行組成,其中通道注意力機(jī)制主要聚焦于有意義的特征,而空間注意力主要聚焦于輸入圖像有效信息豐富的部分,特征提取器提取的特征向量先輸入通道注意力模塊,根據(jù)各通道的重要程度得到通道權(quán)重矩陣并將矩陣輸入空間注意力模塊,獲得空間權(quán)重矩陣,再經(jīng)過訓(xùn)練后,注意力模塊可以從輸入特征圖中“裁剪”出特征信息更精細(xì)的特征圖以提升分類性能,最終改進(jìn)的Fire模塊如圖6所示。
圖5 注意力模塊
圖6 改進(jìn)Fire模塊結(jié)構(gòu)
試驗(yàn)平臺(tái)由計(jì)算機(jī)硬件和開發(fā)平臺(tái)兩部分組成。計(jì)算機(jī)硬件配置為AMD銳龍5800H CPU,16 GB內(nèi)存,RTX3060顯卡。開發(fā)平臺(tái)為Windows 10 操作系統(tǒng)上的Pytorch深度學(xué)習(xí)框架,編程語言為Python。
采用批量訓(xùn)練的方法將訓(xùn)練集與測(cè)試集分為多個(gè)批次(Batch size),通過對(duì)比后選擇每個(gè)批次訓(xùn)練8幅圖像。遍歷一次訓(xùn)練集中的所有圖像作為一次迭代(Epoch),經(jīng)試驗(yàn)后可知模型迭代130次網(wǎng)絡(luò)損失值已經(jīng)收斂至平穩(wěn)階段,因此將迭代次數(shù)設(shè)置為130。采用隨機(jī)梯度下降(Stochastic gradient descent, SGD)算法優(yōu)化模型,通過比較后選擇設(shè)置學(xué)習(xí)率為固定學(xué)習(xí)率0.01,為防止過擬合將權(quán)值衰減(Weight decay)設(shè)置為1×10-5。
因?yàn)楸疚难芯磕康闹皇菍?shí)現(xiàn)模型的輕量化,所以模型將參數(shù)量和浮點(diǎn)運(yùn)算量作為模型的評(píng)價(jià)指標(biāo)之一,試驗(yàn)統(tǒng)一采用開源的Python包thop計(jì)算改進(jìn)模型和對(duì)比模型輸入單幅圖像的參數(shù)量和浮點(diǎn)運(yùn)算量。測(cè)試集的分類速度也是衡量模型性能的指標(biāo),用平均單幅圖像分類消耗時(shí)間作為分類速度指標(biāo)。該試驗(yàn)通過計(jì)算各模型在測(cè)試集的分類時(shí)間來比較模型的分類效率。
此外,衡量模型性能的指標(biāo)還包括準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1值(F1 score)。
試驗(yàn)屬于單變量試驗(yàn),改進(jìn)模型的訓(xùn)練均在同一平臺(tái)環(huán)境下完成,在訓(xùn)練完成后通過對(duì)比模型在測(cè)試集的準(zhǔn)確率和參數(shù)量對(duì)改進(jìn)效果進(jìn)行分析。
圖7為SqueezeNet模型和改進(jìn)后模型在訓(xùn)練集上的損失值和在測(cè)試集上的準(zhǔn)確率隨迭代次數(shù)變化曲線,其中損失值每20個(gè)迭代周期輸出一次,準(zhǔn)確率每1個(gè)迭代周期輸出一次。SqueezeNet_bn是增加批歸一化處理后的改進(jìn)模型,SqueezeNet_bn_dw是將第1次改進(jìn)模型中Fire模塊的3×3標(biāo)準(zhǔn)卷積替換為深度可分離卷積后的改進(jìn)模型,SqueezeNet_a_bn_dw是在每個(gè)Fire模塊中引入注意力機(jī)制后的最終改進(jìn)模型。從圖7可以看出,SqueezeNet模型從訓(xùn)練開始在訓(xùn)練集上的損失值出現(xiàn)較大波動(dòng),并且損失值的收斂速度最慢,這是由于不同批次茶樹葉片圖像的數(shù)據(jù)分布差異較大,每一個(gè)批次訓(xùn)練都需要大幅調(diào)整參數(shù),之后損失值下降速度相較于改進(jìn)后模型也較慢,反映在測(cè)試集上的準(zhǔn)確率也在初始時(shí)出現(xiàn)較大波動(dòng),迭代130次后準(zhǔn)確率只有82.8%,低于改進(jìn)后的3個(gè)模型。
圖7 訓(xùn)練集損失值和測(cè)試集準(zhǔn)確率變化曲線
由圖7可知,通過增加批歸一化處理,使得每個(gè)批次的圖像數(shù)據(jù)分布統(tǒng)一,改進(jìn)模型SqueezeNet_bn在訓(xùn)練集上的損失值相較于原始模型沒有顯著波動(dòng),并且逐漸收斂,經(jīng)過130次的迭代訓(xùn)練已經(jīng)下降至0.16左右,測(cè)試集的準(zhǔn)確率曲線在60個(gè)迭代周期后基本穩(wěn)定在改進(jìn)模型中的最高值,最終準(zhǔn)確率達(dá)到86.0%,相較于原始網(wǎng)絡(luò),茶樹葉片分類效果顯著提升。
為了研究模型的輕量化,將Fire模塊中Expand層的3×3卷積核替換成深度可分離卷積,在確保精度的前提下,實(shí)現(xiàn)網(wǎng)絡(luò)的進(jìn)一步輕量化??梢詮膱D中看出,第2次改進(jìn)的模型在6種茶樹葉片的分類訓(xùn)練中損失值和準(zhǔn)確率的變化和未替換深度可分離卷積的模型相似,深度可分離卷積可以保證在該模型性能沒有顯著變化的前提下實(shí)現(xiàn)模型參數(shù)的下降。為了保證模型分類性能的進(jìn)一步提升,試驗(yàn)對(duì)模型進(jìn)行了第3次改進(jìn),引入注意力機(jī)制,從圖7中可以發(fā)現(xiàn)添加注意力機(jī)制后模型在訓(xùn)練集上的損失值收斂速度優(yōu)于原始模型SqueezeNet和第2次改進(jìn)模型SqueezeNet_bn_dw,僅次于第1次改進(jìn)模型SqueezeNet_bn,同時(shí)在測(cè)試集的分類準(zhǔn)確率上相較于第2次改進(jìn)模型有一定提升。
從表1可以看出,經(jīng)過130次迭代訓(xùn)練后的改進(jìn)模型SqueezeNet_a_bn_dw在測(cè)試集的準(zhǔn)確率為90.5%,為4種模型中最高,相較于原始模型SqueezeNet,測(cè)試集準(zhǔn)確率提升7.7個(gè)百分點(diǎn),參數(shù)量減少3.56×105;而相較于第2次改進(jìn)模型SqueezeNet_bn_dw,測(cè)試集準(zhǔn)確率提升3.7個(gè)百分點(diǎn),參數(shù)量?jī)H增加1.23×105,實(shí)際分類速度也與改進(jìn)前基本相同,在沒有明顯提升模型部署資源需求的同時(shí)提升了輕量化模型的性能。由表1可知,SqueezeNet_a_bn_dw模型的綜合性能優(yōu)于對(duì)比模型。
表1 改進(jìn)模型效果對(duì)比
表2為改進(jìn)模型(SqueezeNet_a_bn_dw)和4種經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型在6種茶樹葉片數(shù)據(jù)集上經(jīng)過130次迭代訓(xùn)練后的分類效果對(duì)比,訓(xùn)練軟硬件平臺(tái)和超參數(shù)選取均保持一致。從表2中可以看出,同樣是輕量化網(wǎng)絡(luò)的MobilenetV3_Small[28],分類效果和輕量化表現(xiàn)都明顯優(yōu)于未改進(jìn)的SqueezeNet網(wǎng)絡(luò),但是相較于SqueezeNet_a_bn_dw模型在分類準(zhǔn)確率和參數(shù)量上都存在差距,其在測(cè)試集上的準(zhǔn)確率僅有86.9%,在實(shí)際分類速度方面也明顯慢于SqueezeNet_a_bn_dw模型。ShuffleNetV2[29]同樣也是為在移動(dòng)設(shè)備上運(yùn)行而設(shè)計(jì)的輕量化網(wǎng)絡(luò),其表現(xiàn)同樣優(yōu)于SqueezeNet,但是落后于SqueezeNet_a_bn_dw,僅在測(cè)試集的平均分類速度上有極小的領(lǐng)先。經(jīng)典網(wǎng)絡(luò)AlexNet[30]的效果一般,在測(cè)試集的準(zhǔn)確率為88.4%,參數(shù)量高達(dá)5.702 8×107,測(cè)試集的分類速度為0.099 s/幅,在實(shí)際茶樹葉片分類應(yīng)用中準(zhǔn)確率、模型參數(shù)量和分類速度均不及ResNet18[31]和SqueezeNet_a_bn_dw。ResNet18在測(cè)試集準(zhǔn)確率上最高,達(dá)到92.3%,高于改進(jìn)模型1.8個(gè)百分點(diǎn),但是本試驗(yàn)所研究的SqueezeNet_a_bn_dw所需參數(shù)量?jī)H有3.69×105,遠(yuǎn)低于ResNet18的1.117 2×107,測(cè)試集平均分類速度也僅為0.109 s/幅,綜合準(zhǔn)確率、模型大小和分類速度3個(gè)指標(biāo)來看,SqueezeNet_a_bn_dw模型在實(shí)際部署和應(yīng)用中優(yōu)于ResNet18模型。
表2 不同模型效果對(duì)比
對(duì)網(wǎng)絡(luò)模型在測(cè)試集上的識(shí)別結(jié)果進(jìn)行混淆矩陣分析,如圖8所示。從圖8可以看出,預(yù)測(cè)分類的最大值都在對(duì)角線上,可以驗(yàn)證改進(jìn)模型對(duì)茶樹葉片分類可行性。根據(jù)混淆矩陣可以計(jì)算出改進(jìn)模型在各品種茶樹葉片的準(zhǔn)確率、召回率和F1值3個(gè)指標(biāo),如表3所示。
圖8 測(cè)試集混淆矩陣
由表3可知,本文模型在茶樹葉片測(cè)試集上的準(zhǔn)確率、召回率和F1值都比較高。但是從準(zhǔn)確率可以發(fā)現(xiàn),模型將其它品種茶樹葉片識(shí)別為英紅九號(hào)和老仙翁的可能性相對(duì)明顯。此外,對(duì)鴨屎香的分類效果存在一定偏差,召回率較低,從圖8可知,本文模型將鴨屎香圖像誤分為雞籠刊和英紅九號(hào)較多,該現(xiàn)象可能是由于鴨屎香與雞籠刊、英紅九號(hào)的特征如顏色、紋理和形狀等出現(xiàn)了混淆,也可能是由拍攝、光照以及復(fù)雜背景的影響造成。雖然存在一定的誤分類問題,但是模型測(cè)試集的整體分類準(zhǔn)確率達(dá)到90.5%,且各類茶樹葉片分類結(jié)果的F1值保持在90%左右,說明模型分類性能較好,能夠適用于復(fù)雜背景下多品種茶樹葉片分類識(shí)別。
表3 茶樹葉片分類測(cè)試試驗(yàn)結(jié)果
類激活圖(Class activation map, CAM)有助于分析卷積神經(jīng)網(wǎng)絡(luò)做出最終分類決策的依據(jù),反映圖像不同位置對(duì)該類別的權(quán)重。圖9以鐵觀音(上圖)和老仙翁(下圖)圖像為例,通過類激活熱力圖可視化比較注意力機(jī)制的改進(jìn)效果。
圖9 熱力圖
圖9分別展示了SqueezeNet_bn_dw和SqueezeNet_a_bn_dw模型在最后一層卷積層的決策依據(jù),通過比較可以發(fā)現(xiàn),未添加注意力機(jī)制的模型在對(duì)鐵觀音和老仙翁的分類決策中受到較嚴(yán)重的背景影響,尤其對(duì)鐵觀音圖像中葉片的有效特征提取效果極差,對(duì)主要葉片幾乎沒有關(guān)注。而通過引入注意力模塊,模型對(duì)圖像有效信息的提取更加準(zhǔn)確,受到復(fù)雜背景信息的影響更小,決策影響重心都與中心葉片明顯關(guān)聯(lián),顯著提升模型的決策可行性,與改進(jìn)目的和試驗(yàn)結(jié)果相符合。
(1)在單次驗(yàn)證方法下,選用包含復(fù)雜背景和天氣環(huán)境的茶樹葉片圖像數(shù)據(jù)集,經(jīng)過數(shù)據(jù)增強(qiáng)后對(duì)改進(jìn)SqueezeNet模型進(jìn)行訓(xùn)練,通過比較確定超參數(shù),學(xué)習(xí)率為0.01、批量大小為8;對(duì)茶樹葉片的分類準(zhǔn)確率可達(dá)到90.5%,相比經(jīng)典SqueezeNet模型提高7.7個(gè)百分點(diǎn),模型參數(shù)量下降到3.69×105,比經(jīng)典SqueezeNet模型減少49.1%,同時(shí)改進(jìn)后模型的計(jì)算量減少59.2%。
(2)通過和其他經(jīng)典網(wǎng)絡(luò)對(duì)比,AlexNet和ResNet18在本文試驗(yàn)條件下分類準(zhǔn)確率分別為88.4%和92.3%,測(cè)試集分類速度分別為0.099 s/幅和0.183 s/幅,參數(shù)量分別為5.702 8×107和1.117 2×107,比較分析可以得到本文模型基本與其他經(jīng)典高精度網(wǎng)絡(luò)保持同一水平的情況下,對(duì)參數(shù)內(nèi)存的需求有顯著優(yōu)勢(shì);同為經(jīng)典輕量化模型的MobilenetV3_Small和ShuffleNetv2,在參數(shù)量和茶樹葉片的分類準(zhǔn)確率兩個(gè)標(biāo)準(zhǔn)下均明顯優(yōu)于經(jīng)典SqueezeNet,但是不及改進(jìn)后的SqueezeNet_a_bn_dw模型。
(3)改進(jìn)SqueezeNet模型較好地平衡了參數(shù)內(nèi)存需求、網(wǎng)絡(luò)準(zhǔn)確率和分類速度3個(gè)指標(biāo),在大幅減少模型參數(shù)內(nèi)存要求和模型計(jì)算量的同時(shí)使模型的性能提升到了一個(gè)較高的水平,這有利于將卷積神經(jīng)網(wǎng)絡(luò)模型部署在移動(dòng)終端等嵌入式資源受限設(shè)備上,有助于實(shí)現(xiàn)對(duì)茶樹葉片的實(shí)時(shí)準(zhǔn)確識(shí)別,為茶樹種類的識(shí)別提供了一個(gè)簡(jiǎn)潔高效的方法,也為深度學(xué)習(xí)在茶葉領(lǐng)域的進(jìn)一步應(yīng)用奠定了基礎(chǔ)。