馬 睿, 王 佳, 趙 威, 郭宏杰, 馬德新,2
(青島農(nóng)業(yè)大學(xué)動(dòng)漫與傳媒學(xué)院1,青島 266109)(青島農(nóng)業(yè)大學(xué)智慧農(nóng)業(yè)研究院2,青島 266109)
玉米(ZeamaysL.)是禾本科的一年生草本植物,是世界重要的糧食作物,廣泛分布于中國(guó)、美國(guó)、巴西等國(guó)家。同時(shí),玉米是畜牧業(yè)、養(yǎng)殖業(yè)重要的飼料來源,是眾多行業(yè)中不可或缺的原材料之一。品種純度是種子質(zhì)量檢測(cè)的一個(gè)重要指標(biāo)。由于玉米種子的形態(tài)特征和視覺上的相似性,很難憑借肉眼識(shí)別,從而耗費(fèi)大量的人力和時(shí)間進(jìn)行鑒別。
近年來,計(jì)算機(jī)視覺技術(shù)在農(nóng)業(yè)領(lǐng)域得到了廣泛的應(yīng)用。楊杭等[1]運(yùn)用Wilk-lambda逐步判別法進(jìn)行波段選擇并建立判別模型,對(duì)玉米籽粒交叉驗(yàn)證平均識(shí)別精度為91.6%。程洪等[2]利用支持向量機(jī)(SVM)算法對(duì)玉米籽粒圖像進(jìn)行訓(xùn)練,識(shí)別率達(dá)到92.3% 。Moges[3]提出混合CNN和HOG特征用SVM分類器進(jìn)行訓(xùn)練,準(zhǔn)確率為99%。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)重要分支,與傳統(tǒng)機(jī)器學(xué)習(xí)相比,深度學(xué)習(xí)減少了人工提取特征的不完備性,具有更強(qiáng)的客觀性。與手工設(shè)計(jì)的特征提取方法相比,基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)可以從輸入數(shù)據(jù)中自動(dòng)提取復(fù)雜特征。Keling Tu等[4]使用VGG16網(wǎng)絡(luò)進(jìn)行遷移學(xué)習(xí),檢測(cè)玉米品種“京科968”的真實(shí)性,結(jié)果表明,最佳檢測(cè)精度超過99%。
Keya等[5]為了識(shí)別種子的圖像,使用了CNN算法,訓(xùn)練精度為87%~89%,驗(yàn)證精度為90%~93%。Zhou等[6]提出了一種CNN重塑像素光譜圖像的方法,并建立了訓(xùn)練模型,結(jié)果顯示,對(duì)于6個(gè)品種的普通玉米種子,測(cè)試識(shí)別胚面和非胚面的準(zhǔn)確性分別為93.33%和95.56%,對(duì)于6個(gè)品種的甜玉米種子,胚面和非胚面的測(cè)試準(zhǔn)確率分別為97.78%和98.15%。Kurtulmus[7]利用多種深度學(xué)習(xí)方法識(shí)別4個(gè)品種的葵花籽,其中GoogleNet實(shí)現(xiàn)了最高分類精度達(dá)95%。
隨著遷移學(xué)習(xí)[8](Transfer Learning)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的發(fā)展,不同于VGG16[9]等網(wǎng)絡(luò)的龐大參數(shù),越來越深層的輕量化神經(jīng)網(wǎng)絡(luò)被研究和關(guān)注,如DenseNet[10],NASNet[5],MobileNetV2[11],SqueezeNet[12],Xception[13],用于更方便的部署在移動(dòng)端。
Moyazzoma等[14]使用MobileNetV2網(wǎng)絡(luò)分類農(nóng)作物疾病,得到90.38%的驗(yàn)證準(zhǔn)確率。Khan等[15]對(duì)嚴(yán)重影響柑橘類水果產(chǎn)量和質(zhì)量的6種不同的柑橘類疾病進(jìn)行分類,使用SqueezeNet和MobileNetV2,通過使用鯨魚優(yōu)化算法進(jìn)行優(yōu)化,最終SqueezeNet模型優(yōu)于MobileNetV2,達(dá)到了96%的準(zhǔn)確率。Mia等[16]提出了基于CNN的遷移學(xué)習(xí)方法, MobileNetV2的準(zhǔn)確率最高,達(dá)到93.23%。馮曉等[17]使用 MobileNetV2,構(gòu)建玉米籽粒圖像進(jìn)行品種識(shí)別,結(jié)果表明,玉米籽粒雙面特征建模的識(shí)別準(zhǔn)確率達(dá)99.83%,優(yōu)于單面特征建模及識(shí)別。Elfatimi等[18]使用MobileNetV2模型進(jìn)行訓(xùn)練,提出的模型在豆葉訓(xùn)練數(shù)據(jù)集上的分類平均準(zhǔn)確率超過了97%,在測(cè)試數(shù)據(jù)上的分類平均準(zhǔn)確率超過了92%。Zhang等[19]提出了一種基于雙路徑卷積神經(jīng)網(wǎng)絡(luò)結(jié)合了VGG-16和Resnet-50的優(yōu)點(diǎn),平均分類精度為97.23%。Chakraborty等[20]基于MobileNetV2網(wǎng)絡(luò),在Kaggle數(shù)據(jù)集上測(cè)試了所提模型的性能,它在訓(xùn)練數(shù)據(jù)中達(dá)到了最高的準(zhǔn)確率99.46%,在驗(yàn)證集中達(dá)到了99.61%。Hamid等[21]研究使用MobileNetV2對(duì)14種不同類別的種子進(jìn)行分類。結(jié)果表明,訓(xùn)練和測(cè)試集的準(zhǔn)確率分別為98%和95%。
本研究以MobileNetV2為基準(zhǔn)模型,探索在遷移學(xué)習(xí)時(shí)對(duì)MobileNetV2的微調(diào)方法,以提高基準(zhǔn)模型的準(zhǔn)確率與泛化能力,提出MobileNetV2-2D-8模型,為玉米種質(zhì)資源數(shù)字化保護(hù)提供技術(shù)參考。
研究選取11種玉米種子,包括奧玉116、鄭單958、小金黃、京粘1號(hào)、科諾58、鐵研、登海605、立原、錦玉118、蕓玉、BT506(山東農(nóng)科院提供)。在實(shí)驗(yàn)室自然光照條件下,搭建拍照操作臺(tái),選用EOS 80D型數(shù)碼相機(jī)垂直對(duì)多粒玉米種子圖像進(jìn)行拍攝,以黑色絨布為背景,玉米種子擺放見圖1。
圖1 多粒玉米籽粒圖像
使用單粒種子圖像對(duì)玉米籽粒進(jìn)行分類識(shí)別,因此需要將單粒玉米種子籽粒圖像分割出來,具體操作流程如圖2所示。
圖2 玉米籽粒分割
建立玉米胚面與非胚面雙面混合數(shù)據(jù)集[17]。將原始數(shù)據(jù)集按照7∶2∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。詳細(xì)情況如表1所示。
表1 玉米籽粒(雙面混合)數(shù)據(jù)集
許多卷積神經(jīng)網(wǎng)絡(luò)模型(CNNs)如NASNet、DenseNet121、MobileNetV2、Xception 已在ImageNet等大型數(shù)據(jù)集上訓(xùn)練以用于圖像識(shí)別。在遷移學(xué)習(xí)時(shí),這些模型不需要從頭開始訓(xùn)練。預(yù)訓(xùn)練的模型可以輔助網(wǎng)絡(luò)泛化,加快收斂速度。因此遷移學(xué)習(xí)被廣泛用于提高模式識(shí)別和計(jì)算機(jī)視覺領(lǐng)域中若干任務(wù)的準(zhǔn)確性。圖3為遷移學(xué)習(xí)算法流程圖。
圖3 基于遷移學(xué)習(xí)的玉米籽粒圖像識(shí)別算法流程圖
MobileNetV2利用殘差結(jié)構(gòu)取代了原始的卷積堆疊方式,提出了Inverted ResidualBlock結(jié)構(gòu);然后采用Depthwise Convolution先升維,后降維的方法,執(zhí)行了擴(kuò)張→卷積特征提取→壓縮的過程。
在深度學(xué)習(xí)中,全連接層可以整合特征用于分類或者回歸。隨著全連接層數(shù)或者維度的加深,模型的非線性表達(dá)能力會(huì)得到一定提升,學(xué)習(xí)能力得以加強(qiáng),準(zhǔn)確率得到一定提高。基于遷移學(xué)習(xí),提出了MobileNetV2-2D-8玉米籽粒圖像分類模型,模型架構(gòu)如圖4所示。
采用準(zhǔn)確率(Accuracy),精確率(Precision),召回率(Recall),F1-score作為模型性能評(píng)價(jià)指標(biāo)。
Accuracy為所有被正確識(shí)別的樣本數(shù)占總樣本數(shù)的比例。Precision是衡量模型正確預(yù)測(cè)能力的指標(biāo),代表了預(yù)測(cè)正確的樣本數(shù)量占總體的比例。Recall又被稱為召回率,表示在真實(shí)樣本中,被正確預(yù)測(cè)的樣本數(shù)量占總樣本的比例。F1-Score是結(jié)合Precision和Recall的綜合指標(biāo),取值為Precision和Recall的調(diào)和平均數(shù),其取值范圍是0~1,為模型的最優(yōu)輸出,0為模型的最差輸出。
(1)
(2)
(3)
(4)
式中:TP為實(shí)際為正被預(yù)測(cè)為正的樣本數(shù)量;FP為實(shí)際為負(fù)但被預(yù)測(cè)為正的樣本數(shù)量;FN為實(shí)際為正但被預(yù)測(cè)為負(fù)的樣本數(shù)量;TN為實(shí)際為負(fù)被預(yù)測(cè)為負(fù)的樣本數(shù)量。
玉米籽粒識(shí)別模型的訓(xùn)練與測(cè)試均在Colab平臺(tái)下完成。軟件環(huán)境:keras 2.1.2;TensorFlow 2.6.0;Python3.7。實(shí)驗(yàn)具體參數(shù)配置如表2所示。
表2 實(shí)驗(yàn)詳細(xì)參數(shù)
從實(shí)驗(yàn)結(jié)果可以看出(表3),未微調(diào)的MobileNetV2取得了最好分類效果,準(zhǔn)確率達(dá)到0.948 7。因此研究選擇未微調(diào)的MobileNetV2為基準(zhǔn)模型(將此操作規(guī)定為處理A)。
表3 未微調(diào)模型對(duì)玉米籽粒圖像分類準(zhǔn)確率
基于MobileNetV2的玉米籽粒分類模型遷移學(xué)習(xí),探討dropout層取值和全連接層維度與數(shù)量對(duì)模型性能的影響,以期獲得最高準(zhǔn)確率模型。
3.2.1 全連接層探討分析
在深度學(xué)習(xí)中,全連接層可以整合已提取的特征用于之后的分類或回歸。圖4為全連接層的數(shù)量和維度對(duì)玉米籽粒圖像分類模型的影響。
從圖5中可以看出,隨著全連接層數(shù)或者維度加深,模型的準(zhǔn)確率得到了一定程度的提升。當(dāng)全連接層數(shù)為2且維度為2 048時(shí),模型取得最高準(zhǔn)確率0.966 2(將此操作規(guī)定為處理B)。這說明在添加全連接層后,模型的非線性表達(dá)能力得到一定提升,學(xué)習(xí)能力得以加強(qiáng)。隨著全連接層數(shù)量和維度的增加,模型的性能出現(xiàn)了一定的下降,這是因?yàn)樵黾尤B接層數(shù)量和維度,可能導(dǎo)致模型參數(shù)增多,運(yùn)算效率降低,并有過擬合趨勢(shì)。
3.2.2 dropout層探討分析
過擬合是深度神經(jīng)網(wǎng)絡(luò)的一個(gè)嚴(yán)重問題。dropout是一種解決這個(gè)問題的技術(shù)。其關(guān)鍵思想是在訓(xùn)練過程中從神經(jīng)網(wǎng)絡(luò)中隨機(jī)刪除單元(連同其連接)[22]。
以2層全連接層為初始連接層數(shù)量,研究dropout在MobileNetV2遷移學(xué)習(xí)分類模型的最優(yōu)值。圖6為2層全連接層下dropout取值對(duì)模型分類的影響。
圖6 2層全連接層下dropout取值對(duì)模型分類的影響
隨著dropout取值的增加,模型準(zhǔn)確率呈先上升后下降的趨勢(shì),說明dropout可以有效防止模型的過擬合并對(duì)泛化能力進(jìn)行提升。當(dāng)dropout>0.3時(shí),準(zhǔn)確率呈現(xiàn)下降趨勢(shì),這是因?yàn)閬G掉過多信息,必要信息不足導(dǎo)致模型性能下降。因此選擇0.3作為模型的最優(yōu)參數(shù)。當(dāng)dropout取值為0.3,全連接層維度為1 024時(shí),模型準(zhǔn)確率為0.964 1,優(yōu)于其他模型(將此操作規(guī)定為處理C)。
3.2.3 解凍部分骨干網(wǎng)絡(luò)參與訓(xùn)練
對(duì)MobileNetV2模型進(jìn)行微調(diào),對(duì)預(yù)訓(xùn)練模型的頂部8層進(jìn)行解凍,以便使訓(xùn)練得到的特征與當(dāng)前任務(wù)更加接近。
D、 E、 F處理對(duì)基準(zhǔn)模型解凍頂部8層,其他操作分別與A、B、C處理保持一致。
對(duì)基準(zhǔn)模型進(jìn)行解凍后,D、E、F處理的準(zhǔn)確率高于A、B、C處理。當(dāng)基準(zhǔn)模型解凍后并添加全連接層,準(zhǔn)確率較未添加全連接層略有提高,在E處理時(shí)準(zhǔn)確率達(dá)到最高,為0.979 5。
基于遷移學(xué)習(xí),使用訓(xùn)練好的MobileNetV2模型,其已擁有較好的對(duì)神經(jīng)網(wǎng)絡(luò)淺層基礎(chǔ)特征和深層抽象特征的提取能力。通過上述實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),當(dāng)全連接層為2,維度為2 048,并解凍模型后8層,使用Flatten層進(jìn)行一維化處理訓(xùn)練時(shí)最優(yōu),準(zhǔn)確率為0.979 5,優(yōu)于基準(zhǔn)模型未微調(diào)的MobileNetV2模型的準(zhǔn)確率0.948 7。將此模型命名為MobileNetV2-2D-8。
為了分析所提出模型MobileNetV2-2D-8在具體類別中的識(shí)別性能,識(shí)別結(jié)果具體如表4所示。
表4 模型在具體玉米籽粒圖像類被的分類效果
從不同類別分類結(jié)果可以看出,具體的玉米籽粒圖像11分類中,提出的基于MobileNetV2-2D-8的玉米籽粒分類模型F1-score均超過0.95,在奧玉116、BT506、立原的分類識(shí)別中準(zhǔn)確率達(dá)到100%,說明提出的模型在細(xì)粒度下具有較好的泛化性能,能夠出色的處理分類任務(wù)。
本研究將卷積神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)技術(shù)運(yùn)用到玉米籽粒圖像的識(shí)別中,采用遷移學(xué)習(xí)方法對(duì)MobileNetV2模型進(jìn)行微調(diào)改進(jìn),通過實(shí)驗(yàn)發(fā)現(xiàn)增加一定數(shù)量的全連接層以及增大一定的全連接層維度,可以有效提升玉米籽粒模型的分類性能。本研究提出的MobileNetV2-2D-8模型,為玉米種質(zhì)資源智能化與數(shù)字化保護(hù)提供了方法支撐。
本研究中的數(shù)據(jù)集數(shù)量有限,只提出了對(duì)11種玉米種子的分類,在未來的工作中可以嘗試將數(shù)據(jù)集擴(kuò)充,收集更多的種子進(jìn)行分類識(shí)別與保護(hù)。同時(shí),數(shù)據(jù)集制作時(shí)對(duì)單粒玉米籽粒切割也較為繁瑣,因此將進(jìn)一步探索目標(biāo)檢測(cè)算法在玉米籽粒識(shí)別中的應(yīng)用,提高玉米籽粒識(shí)別效率,并部署在小程序、APP或Jetson Nano等移動(dòng)端便攜設(shè)備中,以應(yīng)用在更加復(fù)雜的實(shí)際生產(chǎn)場(chǎng)景中。