張萬枝 曾 祥 劉樹峰 穆桂脂 張弘毅 郭壯壯
(1.山東農(nóng)業(yè)大學(xué)機械與電子工程學(xué)院,泰安 271018; 2.山東省農(nóng)業(yè)裝備智能化工程實驗室,泰安 271018)
我國年均馬鈴薯種植面積為6.0×106hm2以上,總產(chǎn)量位居世界第一,是第一生產(chǎn)大國,但并不是生產(chǎn)強國[1-3]。我國與美國、荷蘭等發(fā)達(dá)國家相比,馬鈴薯種植機械化水平偏低。國內(nèi)傳統(tǒng)的切塊作業(yè)方式仍然處于人工切塊,存在耗時耗力、效率低下和出苗率難以保證等問題,為提高種植機械化水平,智能切塊取代人工切塊將顯得尤為重要,而馬鈴薯種薯芽眼檢測是實現(xiàn)智能切塊的前提。
為實現(xiàn)馬鈴薯種薯芽眼檢測,國內(nèi)部分學(xué)者通過傳統(tǒng)視覺技術(shù)進(jìn)行了相關(guān)研究。田海韜等[4]在彩色和灰度空間中分割出芽眼,再將二者結(jié)合進(jìn)行數(shù)學(xué)形態(tài)學(xué)處理得到芽眼標(biāo)記結(jié)果。李玉華等[5]基于色飽和度三維幾何特征進(jìn)行馬鈴薯芽眼檢測。呂釗欽等[6]基于Gabor特征進(jìn)行馬鈴薯圖像濾波處理,剔除馬鈴薯邊界連通區(qū)域進(jìn)行芽眼區(qū)域提取,完成芽眼的檢測。張金敏等[7]提出使用局部二值模式(LBP)提取特征結(jié)合支持向量機(SVM)進(jìn)行分類,完成對馬鈴薯芽眼檢測。YANG等[8]在多光譜圖像中結(jié)合監(jiān)督多閾值分割模型和Canny邊緣檢測器,完成馬鈴薯芽眼檢測。以上傳統(tǒng)視覺檢測是基于顏色、紋理、形狀和其他手動標(biāo)注的特征進(jìn)行訓(xùn)練,雖然訓(xùn)練模型簡單,但模型的泛化性和普適性較差,不利于在不同環(huán)境的實際應(yīng)用。
近年來隨著深度學(xué)習(xí)快速發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)在農(nóng)業(yè)工程領(lǐng)域也得到了廣泛的應(yīng)用[9-12]。該技術(shù)主要分為基于候選框的雙階段目標(biāo)檢測算法和更快檢測速度的單階段目標(biāo)檢測算法。雙階段目標(biāo)算法最具有代表的是R-CNN系列,其中包括R-CNN、Fast R-CNN、Faster R-CNN和R-FCN[13-16]。XI等[17]提出基于改進(jìn)Faster R-CNN雙階段的馬鈴薯芽眼檢測算法,對發(fā)芽馬鈴薯芽眼檢測精度可達(dá)96.32%。楊森等[18]利用遷移學(xué)習(xí)和復(fù)合特征字典方法對Faster R-CNN訓(xùn)練,檢測馬鈴薯病害葉片的斑塊區(qū)域。雙階段目標(biāo)檢測算法先生成一系列樣本候選框,再根據(jù)生成的候選框區(qū)域進(jìn)行目標(biāo)分類和回歸,檢測精度較優(yōu),但這也帶來檢測時間長的弊端,不適用于農(nóng)業(yè)工程實時檢測。單階段目標(biāo)檢測算法與雙階段檢測算法相比,候選框和檢測同時進(jìn)行,且兼顧檢測速度和精度。此類最具有代表的是YOLO系列算法[19-22]。陳志偉等[23]采用YOLO v3單階段目標(biāo)檢測算法對馬鈴薯種薯芽眼檢測,并使用圖像數(shù)據(jù)增強和遷移學(xué)習(xí)思想的方法。王相友等[24]針對馬鈴薯中土塊石塊檢測問題對YOLO v4模型進(jìn)行通道剪枝達(dá)到輕量化的目的。史方青等[25]使用YOLO v3網(wǎng)絡(luò)模型將多個遮擋、機械損傷、蟲眼的芽眼及雜質(zhì)的樣本加入數(shù)據(jù)集中,實現(xiàn)對種薯芽眼的檢測。
目前基于深度學(xué)習(xí)的芽眼目標(biāo)檢測雖然取得了一定進(jìn)展,但針對馬鈴薯種薯芽眼特征一般僅使用YOLO系列原始模型,未區(qū)別于一般檢測物體特征展開研究。由于馬鈴薯種薯芽眼隨機分布在表面,與整體背景較為相似,不易進(jìn)行檢測,同時種薯芽眼位于表面凹陷處,對于凹陷區(qū)域較淺的芽眼經(jīng)過多次下采樣后會造成特征信息丟失,在特征融合處效果較差。YOLO系列原始模型并未針對以上種薯芽眼特征存在的問題進(jìn)行具體分析,為實現(xiàn)種薯芽眼精準(zhǔn)高效檢測,本文提出一種基于改進(jìn)YOLO v5s的馬鈴薯種薯芽眼檢測方法。馬鈴薯種薯芽眼與馬鈴薯整體背景較為相似,為抑制除芽眼外的馬鈴薯背景,使用CBAM卷積注意力機制去除冗余特征,增強有用信息,使其對芽眼特征信息更加關(guān)注;馬鈴薯種薯芽眼特征融合效果差,使用加權(quán)雙向特征金字塔網(wǎng)絡(luò)BiFPN,引入骨干原始特征信息,同時為不同尺度特征圖賦予不同權(quán)重,使得馬鈴薯種薯芽眼多尺度特征融合更加合理;引入解耦頭,將檢測頭中分類問題和回歸任務(wù)分開計算,加快模型的收斂速度,以進(jìn)一步提升馬鈴薯芽眼檢測性能。
YOLO v5網(wǎng)絡(luò)根據(jù)模型深度倍數(shù)(Depth_Multiple)和層通道倍數(shù)(Width_Multiple)分為n、s、m、l和x 5種版本,同時模型的復(fù)雜度也依次增加,在犧牲檢測速度的情況下提高檢測精度??紤]到農(nóng)業(yè)工程應(yīng)用以實時檢測為主,本文選擇基于改進(jìn)的YOLO v5s進(jìn)行馬鈴薯芽眼檢測。YOLO v5s網(wǎng)絡(luò)模型分為4部分:輸入端(Input)、骨干網(wǎng)絡(luò)(Backbone)、頸部網(wǎng)絡(luò)(Neck)、預(yù)測端(Prediction Head)。輸入端通過Mosaic數(shù)據(jù)增加、自適應(yīng)錨框計算和自適應(yīng)圖像縮放,以此來達(dá)到豐富背景信息,計算最佳錨點框以及原圖縮放到統(tǒng)一標(biāo)準(zhǔn)尺寸的目的。骨干網(wǎng)絡(luò)由CBS、Bottleneck CSP和SPPF組成,在最新的版本中使用6×6的Conv卷積模塊替換了Focus切片操作,使用串行的SPPF替換了并行的SPP,減少計算量,在相同的精度條件下提高檢測速度。頸部網(wǎng)絡(luò)采用FPN+PAN結(jié)構(gòu),FPN傳遞高層的語義特征到低層特征中,增強語義信息利于分類,添加自底向上的PAN彌補并加強了位置信息。預(yù)測端將頸部網(wǎng)絡(luò)輸出的3個特征圖作為網(wǎng)絡(luò)的輸出,維度分別為80×80、40×40和20×20,分別用于檢測小目標(biāo)、中目標(biāo)和大目標(biāo)。
本文首先針對馬鈴薯種薯芽眼與背景相似的問題,在檢測頭前端引入CBAM注意力機制,實現(xiàn)抑制背景的干擾,更加突出種薯芽眼的特征。其次將FPN+PAN特征融合更換為更加有效的多尺度特征融合方法BiFPN,解決特征信息融合尺度不一致問題。最后把傳統(tǒng)耦合頭替換為解耦頭,使得模型收斂速度更快,提升模型整體性能。改進(jìn)后的YOLO v5s芽眼檢測整體網(wǎng)絡(luò)架構(gòu)如圖1所示。
圖1 改進(jìn)后YOLO v5s整體網(wǎng)絡(luò)架構(gòu)
為了從復(fù)雜的特征信息中獲取芽眼關(guān)鍵特征信息,并考慮到芽眼與馬鈴薯整體較為相似的特性,本文引入了卷積注意力機制(Convolutional block attention module,CBAM)[26]進(jìn)行強化芽眼目標(biāo)信息,抑制背景信息。CBAM結(jié)合了特征通道和特征空間2個維度的注意力機制,分別負(fù)責(zé)尋找重要信息和確定重要信息位置,兩者結(jié)合對特征信息進(jìn)行權(quán)重分配,將有限的計算資源分配給重要的目標(biāo),其模塊結(jié)構(gòu)如圖2所示,圖中H為輸入圖像高度,W為輸入圖像寬度,C為特征通道數(shù)。
圖2 CBAM注意力模塊結(jié)構(gòu)
輸入特征圖F首先經(jīng)過通道注意力模塊,分別進(jìn)行2個并行的全局最大池化(Global max pooling,GMP)和全局平均池化(Global average pooling,GAP),得到2個C×1×1的特征圖,然后將其分別送入共享的2層全連接層MLP中,激活函數(shù)為ReLU,得到卷積輸出的2個一維矢量進(jìn)行element-wise的加和操作,最后使用Sigmoid激活,計算式為
(1)
式中MC——通道注意力模塊特征圖
σ——Sigmoid激活函數(shù)
Favg——平均池化特征圖
Fmax——最大池化特征圖
Wi——輸入的共享權(quán)重
經(jīng)通道注意力模塊處理后的特征圖與輸入特征圖F相乘,得到特征圖F′作為空間注意力模塊的輸入,首先通過基于通道注意力模塊的池化處理,得到2個1×H×W的特征圖再進(jìn)行相加,然后將經(jīng)過7×7 Conv卷積以及Sigmoid激活函數(shù)生成的特征圖MS與特征圖F′相乘,計算式為
(2)
為了提升經(jīng)下采樣得到不同種薯芽眼特征圖的融合能力,本文將YOLO v5的Neck網(wǎng)絡(luò)中的FPN+PAN特征融合更換為加權(quán)雙向特征金字塔網(wǎng)絡(luò)(Bidirectional feature pyramid network,BiFPN),BiFPN的主要貢獻(xiàn)為:高效的雙向跨尺度連接和帶權(quán)重的特征融合機制。
PANet雖然提供自底向上的特征融合層,加強了位置信息,但輸入是經(jīng)FPN結(jié)構(gòu)處理的特征信息,缺乏骨干網(wǎng)絡(luò)提取到的特征中的原始特征信息。為解決該問題,BiFPN在同一層中的原始輸入節(jié)點和輸出節(jié)點之間添加了一條額外的特征融合邊,旨在不增加太多成本的情況下融合更多的原始特征,同時刪除了只有一條輸入邊且沒有特征融合的節(jié)點,從而簡化特征融合網(wǎng)絡(luò),其結(jié)構(gòu)如圖3所示。
圖3 不同特征金字塔結(jié)構(gòu)
傳統(tǒng)的特征融合只是簡單地將不同的特征圖相加,并未考慮到不同分辨率的特征圖對融合輸入時貢獻(xiàn)度也有所不同,因此簡單地對其相加并不是最佳操作。為了解決這一問題,BiFPN引入快速歸一化特征融合機制,對不同尺度的芽眼特征賦予不同的權(quán)重,其計算式為
(3)
其中,wi表示輸入特征Ii對應(yīng)一個可學(xué)習(xí)的權(quán)重,為了保證wi≥0,在每個wi前采用ReLU激活函數(shù),并將初始學(xué)習(xí)率ε設(shè)置為0.001以此來避免數(shù)值不穩(wěn)定。P4層的2個特征融合過程計算式為
(4)
(5)
Resize——上采樣或下采樣操作
Conv()——卷積
為了解決種薯芽眼分類問題和回歸任務(wù)的沖突,加快模型的收斂速度,提高模型的整體性能,本文將YOLO v5中Head耦合頭替換為Decoupled Head解耦頭結(jié)構(gòu)。SONG等[27]提出目標(biāo)檢測算法的分類問題和回歸任務(wù)是互斥的關(guān)系,即分類和回歸的關(guān)注點不同,分類更加關(guān)注目標(biāo)的紋理內(nèi)容,回歸更加關(guān)注目標(biāo)的邊緣信息。原始YOLO v5的檢測頭為耦合頭,將分類問題和回歸任務(wù)合并在一起計算,分類和回歸分支共享參數(shù)。但這會存在一個問題,若網(wǎng)絡(luò)模型過分關(guān)注分類的信息,則更加明顯的馬鈴薯種薯芽眼特征響應(yīng)值會很高,只框選出芽眼明顯部分,對定位造成很大影響,導(dǎo)致芽眼檢測位置不準(zhǔn)確,同時也會引起訓(xùn)練過程中收斂速度較慢的問題。為解決該問題,引入Decoupled Head解耦頭結(jié)構(gòu)可以將分類問題和回歸任務(wù)分開計算,使二者關(guān)注目標(biāo)更加明確,加快收斂速度。
YOLOX在檢測頭上使用Anchor-free的解耦頭對分類和回歸分支解耦計算,同時新增2個額外的3×3 CBS卷積模塊,雖提升了檢測精度,但在一定程度上增加了模型復(fù)雜度。為此本文在YOLOX基礎(chǔ)上進(jìn)行了精簡設(shè)計,如圖4所示,刪除了1×1Conv 降維卷積,采用檢測頭的維度由主干和頸部的寬度系數(shù)共同縮放,并刪除了2個分支中額外一個3×3 CBS卷積模塊。刪除這2部分的目的是因為過多卷積層會造成計算量增加以及部分信息丟失,同時為每個CBS模塊添加殘差邊,旨在降低網(wǎng)絡(luò)優(yōu)化難度,并在不增加成本的情況下提高檢測頭性能。
圖4 改進(jìn)后的Decoupled Head
數(shù)據(jù)集采集地點為山東省滕州市其祥馬鈴薯種植合作社,樣本種薯品種為“荷蘭15號”和“中薯3號”。種薯采集樣本的品質(zhì)會對芽眼的檢測造成重要影響,因此選擇無病害、干腐、病斑、蟲眼等儲存狀況良好的馬鈴薯種薯作為采集樣本。采集后的數(shù)據(jù)集經(jīng)人工剔除冗余、像素質(zhì)量差的圖像,共931幅種薯圖像。為避免數(shù)據(jù)集樣本過少影響其模型訓(xùn)練效果和泛化性能,本文采用翻轉(zhuǎn)、旋轉(zhuǎn)、改變亮度和添加噪聲的方式進(jìn)行數(shù)據(jù)擴充,經(jīng)過擴充及處理后的數(shù)據(jù)集總共3 936幅圖像,部分樣本圖像如圖5所示。利用LabelImg軟件對馬鈴薯種薯圖像中芽眼進(jìn)行標(biāo)注,標(biāo)注后的數(shù)據(jù)集按9∶1的比例劃分為訓(xùn)練集(3 542幅)和驗證集(394幅)。
試驗過程在Win 11操作系統(tǒng)下進(jìn)行,處理器型號為12th Gen Intel(R) Core(TM) i7-12700K 3.60 GHz,顯卡型號為Nvidia GeForce RTX 3080Ti。深度學(xué)習(xí)框架為Pytorch,編程平臺為PyCharm,軟件環(huán)境為CUDA 11.6和CuDNN 8.0.5版本,所用編程語言為Python 3.8。
為提高算法性能,減少過擬合,訓(xùn)練采用的批量大小(batch size)為16,初始學(xué)習(xí)率設(shè)置為0.01,動量設(shè)置為0.937,訓(xùn)練總輪數(shù)設(shè)置為200,后續(xù)不同算法對比試驗中也將保持統(tǒng)一變量。
為了通過檢測結(jié)果來評價改進(jìn)后YOLO v5s模型的性能,選用準(zhǔn)確率(Precision,P)、召回率(Recall,R)、平均精度均值(Mean average precision,mAP)和幀率(Frames per second,FPS)作為評價指標(biāo)。
YOLO v5s、YOLO v5m、YOLO v5l和YOLO v5x的4個版本在速度和精度之間提供了不同的權(quán)衡,以適應(yīng)不同的計算能力和實時性的需求,為了選擇合適的版本作為基線模型,進(jìn)行了不同版本的YOLO v5對比試驗,試驗結(jié)果如表1所示。
表1 YOLO v5不同版本性能比較
可以看出,YOLO v5各版本模型的平均精度均值相差并不大的情況下,在參數(shù)量(Parames)和浮點運算數(shù)(GFLOPs)方面,其他3個版本模型比YOLO v5s模型增加3~13倍,同時也引起FPS降低和權(quán)重文件增大,綜合性能不如YOLO v5s模型。分析其模型復(fù)雜度增加但平均精度均值并未有明顯提升的原因可能是芽眼目標(biāo)較為單一,當(dāng)使用m、l和x版本模型時,由于網(wǎng)絡(luò)所含殘差結(jié)構(gòu)的個數(shù)和卷積核的個數(shù)不斷增加,對芽眼特征提取操作次數(shù)也越多,造成芽眼特征信息丟失,使得檢測精度并未有大幅度提升。
綜上所述,本研究所使用的馬鈴薯種薯芽眼數(shù)據(jù)集相對較小,目標(biāo)樣本較單調(diào),因此使用較淺層的網(wǎng)絡(luò)即可充分提取特征,同時考慮后續(xù)在實際應(yīng)用中需要對模型進(jìn)行邊緣端部署等原因,選用復(fù)雜度較低且具有較高檢測精度的YOLO v5s模型作為基線模型進(jìn)行改進(jìn)。
為了評價改進(jìn)后的解耦頭與YOLOX解耦頭在YOLO v5s模型中的性能優(yōu)劣,分別單獨加入YOLO v5s模型中進(jìn)行試驗,結(jié)果如表2所示??梢钥闯?改進(jìn)后解耦頭的參數(shù)量相較于YOLOX解耦頭參數(shù)量(Parames)有所下降,并且浮點運算數(shù)(GFLOPs)減少約50%,說明刪除1×1 Conv降維卷積和一個3×3 CBS卷積模塊后可降低計算量的有效性;同時改進(jìn)解耦頭在計算量下降的情況下,為每個CBS模塊添加殘差邊使得平均精度均值仍然有0.4個百分點的提升,這進(jìn)一步說明本文解耦頭有著更優(yōu)的性能。
表2 不同解耦頭性能比較
改進(jìn)前后平均精度均值曲線如圖6所示。由圖6 可以看出,使用改進(jìn)后的解耦頭代替原模型耦合頭能達(dá)到收斂速度更快、性能更好的效果。
圖6 改進(jìn)前后mAP曲線對比
為實現(xiàn)馬鈴薯種薯芽眼精準(zhǔn)高效檢測,本文基于原始YOLO v5s模型,提出更有效的網(wǎng)絡(luò)模型:加入卷積注意力模塊CBAM,引入BiFPN特征融合結(jié)構(gòu),更換解耦頭,并分別進(jìn)行4組消融試驗驗證,試驗結(jié)果如表3所示。
表3 消融試驗結(jié)果
從表3中可知,加入CBAM注意力機制后,檢測模型的mAP提高2.4個百分點,表明加入CBAM后模型能夠更加準(zhǔn)確地檢測種薯芽眼信息;引入BiFPN特征融合結(jié)構(gòu),能夠融合更多主干網(wǎng)絡(luò)提取的原始特征并且讓特征融合更加合理,mAP較原始模型提高1.6個百分點;將YOLO v5s原始模型的耦合頭替換為改進(jìn)后的解耦頭,mAP提高2.4個百分點,表明替換解耦頭能夠解決種薯芽眼特征在分類問題和回歸任務(wù)的沖突,這不僅使得模型加快收斂速度,而且還提高了整體檢測性能。本文提出的改進(jìn)模型,準(zhǔn)確率達(dá)到93.3%,較原始模型增長0.9個百分點,同時召回率增加1.7個百分點,mAP提升3.2個百分點。以上數(shù)據(jù)說明了與YOLO v5s相比,本文模型有更強的特征提取能力和多尺度融合性能,在馬鈴薯種薯芽眼檢測上有更好的表現(xiàn)。
為了更加直觀地展示本文模型與YOLO v5s原始模型對馬鈴薯種薯芽眼特征的關(guān)注程度不同,文中使用Grad-CAM[28]中類激活熱力圖分別對2個模型輸出層進(jìn)行可視化分析,即通過類激活熱力圖中某一區(qū)域的亮度來表示該區(qū)域在預(yù)測輸出過程所占的權(quán)重,顏色鮮亮區(qū)域面積越大,表示預(yù)測輸出關(guān)注度越高,反之亦然。2個模型的類激活熱力圖如圖7所示,可以看出本文模型對馬鈴薯種薯芽眼的特征預(yù)測輸出權(quán)重分配更高,對于不顯眼的馬鈴薯種薯芽眼也能得到更多關(guān)注,避免造成漏檢;而且本文模型相較于原始模型在同一處的馬鈴薯種薯芽眼檢測置信度更高,具有更好的魯棒性。通過類激活熱力圖可以看出本文模型更適合馬鈴薯種薯芽眼特征檢測。
圖7 類激活熱力圖
為了驗證本文所提出模型的有效性,將本文改進(jìn)后的YOLO v5s模型與其他主流檢測模型進(jìn)行對比試驗,所有模型均在同一數(shù)據(jù)集和同一訓(xùn)練設(shè)備下采用控制變量原則進(jìn)行試驗,結(jié)果如表4所示。
表4 改進(jìn)模型與其他檢測模型對比
由表4可以看出,與YOLO其他系列原始模型相比,YOLO v5s原始模型綜合性能要優(yōu)于其他系列模型,證明了本文選擇YOLO v5s作為基線模型的可行性。在針對馬鈴薯種薯芽眼檢測,改進(jìn)YOLO v5s模型準(zhǔn)確率最優(yōu),與Faster R-CNN、YOLO v3、YOLO v6、YOLOX和YOLO v7等模型相比,mAP分別提高8.4、3.1、9.0、12.9、4.4個百分點,并且在模型內(nèi)存占用量和幀率上也具有較大優(yōu)勢。召回率對比中,改進(jìn)YOLO v5s模型略低于YOLO v3模型,主要是因為準(zhǔn)確率和召回率存在一定的此消彼長關(guān)系,當(dāng)模型降低了對芽眼檢測要求,芽眼漏檢數(shù)量將會減少,代表著預(yù)測出了更多的種薯芽眼,但這也會增加芽眼檢測錯誤數(shù)量。由于本文模型加入高效解耦頭,導(dǎo)致模型內(nèi)存占用量與原始模型相比由13.6 MB 增加到25.8 MB、檢測幀率由35.7 f/s降至32.4 f/s,但由于在種薯芽眼檢測中更加注重準(zhǔn)確率的提升,且?guī)实穆晕⑾陆挡⒉挥绊憣嶋H應(yīng)用,因此本文模型在兼顧準(zhǔn)確率和召回率情況下,仍能保證最高平均精度均值和較高的幀率,綜合性能最優(yōu)。
為了評估本文所提出改進(jìn)YOLO v5s模型在實際種薯自動切塊芽眼檢測的性能,在自制的馬鈴薯種薯自動切塊裝置進(jìn)行試驗,如圖8所示。將種薯放置在CCD相機下,經(jīng)相機采集到種薯圖像后,傳輸給計算機中改進(jìn)的YOLO v5s模型進(jìn)行芽眼檢測,便于下一步根據(jù)檢測到的種薯芽眼位置,通過切刀決策方法控制切刀運動實現(xiàn)種薯切塊。從種薯表面檢測出芽眼是自動切塊的重要前提,同時考慮到種薯圖像受拍攝設(shè)備及環(huán)境影響,且實際應(yīng)用中希望檢測得到更多的種薯芽眼,相較于準(zhǔn)確率,召回率能更好地反映本文模型的性能。因此在試驗結(jié)果中主要對召回率進(jìn)行計算,并將置信度閾值設(shè)置為0.35。
圖8 馬鈴薯種薯自動切塊裝置
試驗結(jié)果如表5所示??梢钥闯?3種不同品種的種薯進(jìn)行實際檢測應(yīng)用中,改進(jìn)YOLO v5s模型漏檢數(shù)明顯下降,不同種薯品種的平均召回率達(dá)到91.5%,相較于原始模型提高17.5個百分點,說明了本文模型在實際種薯自動切塊芽眼檢測中擁有更強的多尺度性能以及對芽眼具有更多的關(guān)注度,能夠降低漏檢率,從而保證后續(xù)切刀根據(jù)芽眼位置做出姿態(tài)調(diào)整的精準(zhǔn)性,避免切傷芽眼造成種薯浪費。
表5 馬鈴薯種薯芽眼檢測結(jié)果統(tǒng)計
圖9分別為荷蘭15號、尤金885和中薯3號3種品種種薯的漏檢與誤檢情況??梢钥闯?YOLO v5s原始模型存在不同程度的漏檢現(xiàn)象(圖中橢圓形所示),即使較為明顯的芽眼特征也未被檢測出,其原因是因為種薯芽眼特征在種薯表面不明顯,在通過主干網(wǎng)絡(luò)下采樣以及FPN結(jié)構(gòu)上采樣過程后會造成特征信息丟失,導(dǎo)致在檢測頭處因特征信息不足引起漏檢。而本文所提出的改進(jìn)YOLO v5s模型能夠有效避免該問題,并且能夠檢測到種薯邊緣部分較小區(qū)域芽眼,漏檢率較低。同時不同品種檢測過程中YOLO v5s原始模型也存在主要以下3種誤檢情況:圖9a原始模型將種薯表面的破損表皮誤檢為芽眼;圖9b原始模型將種薯表面的裂痕誤檢為芽眼;圖9c原始模型將種薯表面存在的泥土誤檢為芽眼。使用改進(jìn)后的YOLO v5s模型進(jìn)行檢測可有效改善上述誤檢情況,降低誤檢率。
圖9 實際應(yīng)用檢測結(jié)果對比
通過將本文所提模型應(yīng)用到實際種薯自動切塊裝置中,與原始模型相比能夠檢測到更多芽眼,并且能夠有效避免誤檢情況的發(fā)生,這說明位于檢測頭前端的CBAM注意力機制增加了對芽眼特征的權(quán)重分配,能夠從相似背景下檢測出芽眼;BiFPN中增添額外的特征融合邊,引入了更多下采樣過程中的原始特征信息,豐富了芽眼特征信息,同時帶權(quán)重的特征融合機制也為芽眼特征分配到更多的權(quán)重,避免了特征信息的丟失;改進(jìn)的解耦頭能夠解決分類和回歸的沖突,分別更好地關(guān)注了芽眼目標(biāo)的紋理內(nèi)容和邊緣信息。綜上可知,本文提出的改進(jìn)YOLO v5s模型能夠更好地應(yīng)用于實際種薯自動切塊芽眼檢測。
(1)為實現(xiàn)種薯芽眼精準(zhǔn)高效檢測,本文提出一種基于改進(jìn)YOLO v5s的馬鈴薯種薯芽眼檢測方法。首先通過加入CBAM注意力機制,加強對馬鈴薯種薯芽眼圖像的特征學(xué)習(xí)和特征提取,同時弱化與芽眼相似的馬鈴薯種薯表面背景對檢測結(jié)果的影響;其次引入加權(quán)雙向特征金字塔BiFPN增加經(jīng)骨干網(wǎng)絡(luò)提取的種薯芽眼原始信息,為不同尺度特征圖賦予不同權(quán)重,使得多尺度特征融合更加合理;最后替換為改進(jìn)的高效解耦頭Decoupled Head區(qū)分回歸和分類,加快模型收斂速度,進(jìn)一步提升馬鈴薯種薯芽眼檢測性能。
(2)試驗結(jié)果表明,改進(jìn)YOLO v5s模型準(zhǔn)確率、召回率和平均精度均值分別為93.3%、93.4%和95.2%;相比原始YOLO v5s模型,平均精度均值提高3.2個百分點,準(zhǔn)確率和召回率分別提高0.9、1.7個百分點;不同模型對比分析表明,改進(jìn)YOLO v5s模型與Faster R-CNN、YOLO v3、YOLO v6、YOLOX和YOLO v7等模型相比有著較大優(yōu)勢,平均精度均值分別提高8.4、3.1、9.0、12.9、4.4個百分點。
(3)在種薯自動切塊芽眼檢測試驗中,改進(jìn)YOLO v5s模型平均召回率為91.5%,相比原始YOLO v5s模型提高17.5個百分點,本文提出的改進(jìn)YOLO v5s模型能夠更好地應(yīng)用于實際種薯自動切塊芽眼檢測。