王昱潭,薛君蕊
改進SSD的靈武長棗圖像輕量化目標檢測方法
王昱潭,薛君蕊
(寧夏大學機械工程學院,銀川 750021)
針對加載預訓練模型的傳統(tǒng)SSD(Single Shot MultiBox Detector)模型不能更改網(wǎng)絡結構,設備內(nèi)存資源有限時便無法使用的問題,該研究提出一種不使用預訓練模型也能達到較高檢測精度的靈武長棗圖像輕量化目標檢測方法。首先,建立靈武長棗目標檢測數(shù)據(jù)集。其次,以提出的改進DenseNet網(wǎng)絡為主干網(wǎng)絡,并將Inception模塊替換SSD模型中的前3個額外層,同時結合多級融合結構,得到改進SSD模型。然后,通過對比試驗證明改進DenseNet網(wǎng)絡和改進SSD模型的有效性。在靈武長棗數(shù)據(jù)集上的試驗結果表明,不加載預訓練模型的情況下,改進SSD模型的平均準確率(mAP,mean Average Precision)為96.60%,檢測速度為28.05幀/s,參數(shù)量為1.99×106,比SSD模型和SSD模型(預訓練)的mAP分別高出2.02個百分點和0.05個百分點,網(wǎng)絡結構參數(shù)量比SSD模型少11.14×106,滿足輕量化網(wǎng)絡的要求。即使在不加載預訓練模型的情況下,改進SSD模型也能夠很好地完成靈武長棗圖像的目標檢測任務,研究結果也可為其他無法加載預訓練模型的目標檢測任務提供新方法和新思路。
圖像處理;目標檢測;靈武長棗;預訓練模型;SSD模型;DenseNet網(wǎng)絡;Inception模塊
靈武長棗又名馬牙棗,個大飽滿,果實呈橢圓狀,果肉酸甜可口,富含多種礦物質和維生素,是寧夏回族自治區(qū)一種重要的經(jīng)濟林果。目前,限制靈武長棗采摘效率的因素主要有以下幾點:1)采摘期較短且較為集中,僅有20 d左右;2)保鮮期較短,僅有15 d左右;3)人工采摘主要借助梯子完成,存在采摘效率低和勞動強度大等問題[1-4]。因此,實現(xiàn)靈武長棗的自動化采摘,對于提高采摘效率并進一步發(fā)展靈武長棗產(chǎn)業(yè)有重要的意義,而具有高識別率的視覺系統(tǒng)是靈武長棗自動化采摘機器人的核心部分。
隨著計算機視覺技術的發(fā)展和計算機硬件性能的不斷提升,基于深度學習的目標檢測算法已被廣泛使用到多個領域之中[5-10]。目前典型的目標檢測算法主要有兩種,一種是基于候選區(qū)域的檢測方法,如R-CNN(Region-based Convolutional Neural Network)[11]、Fast R-CNN(Fast Region-based Convolutional Neural Network)[12]和Faster R-CNN(Faster Region-based Convolutional Neural Network)[13]等,另一種是基于回歸的檢測方法,如YOLO(You Only Look Once)系列[14-17]和SSD(Single Shot MultiBox Detector)系列[18-20]等。盡管基于候選區(qū)域的檢測方法檢測精度較高,但存在計算復雜度高和檢測速度慢等問題,而基于回歸的檢測方法能夠兼顧準確率和檢測速度,可滿足自然條件下農(nóng)業(yè)采摘機器人實時檢測的要求。
為實現(xiàn)智能化果實采收,基于深度學習的圖像識別方法在水果檢測中逐步興起,國內(nèi)外學者對此進行了大量研究[21-25]。彭紅星等[21]提出了一種基于改進SSD的水果檢測方法,以SSD目標檢測模型為基本框架,采用ResNet-101為主干網(wǎng)絡提取水果圖像中的特征,并采用遷移學習的方法提高檢測精度,在蘋果、荔枝、臍橙和皇帝柑4種水果構成的數(shù)據(jù)集上取得89.53%的平均檢測精度。李國進等[22]提出了一種基于改進YOLOv3的芒果圖像檢測方法,以SE-ResNet50作為主干網(wǎng)絡以增強對圖像中小目標的檢測,又采用多級特征融合的方法提高目標檢測速度和精度,在自制的芒果圖像數(shù)據(jù)集上達到94.91%的平均精度,檢測速度為85幀/s。Gao等[23]將自然狀態(tài)下的蘋果分為未遮光、葉片遮光、枝或絲遮光和果實遮光四類,提出了一種基于Faster R-CNN的多類蘋果檢測方法,檢測平均精度為87.9%,平均檢測一幅圖像需0.241 s。
對于靈武長棗圖像的識別問題,部分學者也做了一些研究工作[26-31],但都是基于表面全紅的靈武長棗而言的,這些方法并不能夠很好地識別表面存在綠色部分的靈武長棗。而基于深度學習的方法可以通過構建包含不同成熟度靈武長棗圖像的數(shù)據(jù)集來克服這一問題。朱超偉[31]提出一種基于Faster R-CNN的靈武長棗圖像檢測方法,通過在RPN(Region Proposal Network)網(wǎng)絡中使用雙層損失函數(shù)提高網(wǎng)絡模型的檢測精度,試驗結果表明改進后的檢測方法可達92.96%的精準率,檢測速度為0.581 6 s/幅,總體而言,該方法精度仍不夠高且檢測速度較慢。
除此之外,由于加載預訓練模型具有使模型初始化性能較高和加快模型的收斂速度等優(yōu)點,目前所使用的目標檢測方法幾乎均需加載預訓練模型。然而采用預先訓練好的網(wǎng)絡模型存在以下問題[19]:1)無法更改網(wǎng)絡結構,靈活性較差,設備內(nèi)存資源有限時可能無法使用;2)ImageNet數(shù)據(jù)集與要訓練的數(shù)據(jù)集間可能存在較大差異,訓練效果不一定很好?;谝陨蠁栴},本研究嘗試以SSD模型為基本框架,提出一種在不加載預訓練模型的情況下也能達到較好效果的靈武長棗圖像輕量化目標檢測方法,為實現(xiàn)靈武長棗的智能化采收提供視覺技術支持。
本研究中的靈武長棗圖像采集于寧夏回族自治區(qū)靈武市紹偉農(nóng)牧專業(yè)合作社(106°20′E,38°08′N)。為滿足靈武長棗圖像數(shù)據(jù)集的多樣性,在各個天氣狀態(tài)下采用不同型號的手機采集不同成熟度的靈武長棗圖像,分辨率大小包括3 016像素×4 032像素、4 068像素×3 456像素和2 448像素×3 264像素,共1 000張,以JPG格式儲存。所使用手機型號分別為HUAWEI TRT-AL00A、vivo Y79A和Xiaomi 2014501,每部手機采集的圖像數(shù)分別為400張、300張和300張。同時為滿足SSD目標檢測網(wǎng)絡輸入圖像尺寸要求,在輸入目標檢測網(wǎng)絡前,將靈武長棗圖像統(tǒng)一縮放為300像素×300像素,并采用隨機裁剪、隨機垂直或水平翻轉、隨機調(diào)整亮度、隨機調(diào)整對比度和隨機調(diào)整飽和度的方法進行數(shù)據(jù)增強,增強后數(shù)據(jù)量為5 000張。本研究采用PASCAL VOC數(shù)據(jù)集格式,使用Labelimg軟件標注靈武長棗圖像,手工標注靈武長棗檢測框,設定靈武長棗的標簽為jujube,將標注好的圖像以xml格式儲存在標簽文件夾下。數(shù)據(jù)集按照7:3的比例隨機劃分為訓練集和測試集,即訓練圖像3 500張,測試圖像1 500張。
1.2.1 主干網(wǎng)絡
1)CBAM模塊
CBAM(Convolutional Block Attention Module)模塊是一種簡單有效的卷積注意力模塊[32],如圖1所示,包括通道注意力模塊和空間注意力模塊兩部分,可無縫集成到任何卷積神經(jīng)網(wǎng)絡模型中。在給定一個中間特征圖的情況下,CBAM模塊沿著通道和空間兩個相互獨立的維度依次生成注意力映射,再將注意力映射與輸入特征圖相乘以細化自適應特征。
2)改進DenseNet網(wǎng)絡結構
傳統(tǒng)SSD模型通常以VGG16[32]網(wǎng)絡或ResNet50[33]網(wǎng)絡為主干網(wǎng)絡,為更好地提取靈武長棗圖像中豐富的特征,達到在不加載預訓練模型的情況下也能獲得較好檢測效果的目的,本研究在傳統(tǒng)SSD模型的基礎之上,采用具有密集連接的卷積神經(jīng)網(wǎng)絡DenseNet[34]作為主干網(wǎng)絡。卷積神經(jīng)網(wǎng)絡的每一層和下一層之間通常只有一個直接連接,為加強對特征圖的重復利用,DenseNet采用前饋的方式將每一層網(wǎng)絡間相互連接,即對于每一層網(wǎng)絡,所有前一層的特征圖被用作該層的輸入,而該層的特征圖又被用作所有后續(xù)層的輸入,加強了特征傳播。
為保證主干網(wǎng)絡特征提取效果的同時具有較為簡潔的網(wǎng)絡結構,本研究對DenseNet網(wǎng)絡進行了一定改進。改進后的DenseNet網(wǎng)絡結構如圖2所示,一是該網(wǎng)絡結構只使用了兩個Dense Block,且密集塊內(nèi)的卷積組個數(shù)分別為6和8,而非原網(wǎng)絡結構中的6和12,后續(xù)試驗部分會證明該卷積組個數(shù)選取的有效性。二是在Dense Block中的卷積組最后加入了CBAM 模塊,通過使用注意力機制增強表現(xiàn)力,關注重要的特征并抑制不重要的特征。三是將最后一個1×1卷積的步長由2改為1,即輸出特征圖大小由19像素×19像素變?yōu)?8像素×38像素,滿足SSD目標檢測框架輸入特征圖寬和高為38像素×38像素的要求。
1.2.2 改進SSD模型結構
GoogLeNet[35]提出的Inception模塊是一個十分有效的多尺度模塊,如圖3所示,該模塊由不同大小尺度的卷積并聯(lián)而成,在拓寬網(wǎng)絡寬度的同時增加了網(wǎng)絡對尺度的適應性。然而,由于Inception模塊中引入了多個卷積,計算量較大,故在Inception模塊中使用組數(shù)為32的分組卷積,降低運算過程中產(chǎn)生的計算量,以提高整個網(wǎng)絡模型的運算速度。
為進一步提高目標檢測效果,本研究對SSD模型進行了一定改進,改進后的SSD模型結構如圖4所示,與原SSD模型相比,主要作了以下兩點改進:一是將前3個額外層中的卷積塊替換為Inception模塊,利用模塊中的多尺度結構拓寬網(wǎng)絡寬度,進一步提取靈武長棗圖像中的多尺度信息;二是將各額外層的輸出結果經(jīng)卷積操作后與下一額外層的輸出結果相加后再輸出,實現(xiàn)不同層之間的特征融合,以更進一步增強對靈武長棗圖像中特征信息的提取。
如圖4所示,將300像素×300像素×3通道的靈武長棗RGB圖像輸入到改進SSD模型中,經(jīng)主干網(wǎng)絡提取特征后得到38像素×38像素×192通道的特征圖1,又經(jīng)3個特征提取模塊并分別與上級特征融合后,得到19像素×19像素×512通道的特征圖2、10像素×10像素×512通道的特征圖3和5像素×5像素×256通道的特征圖4,再經(jīng)兩個連續(xù)卷積塊并分別與上級特征融合后,得到3像素×3像素×256通道的特征圖5和1像素×1像素×256通道的特征圖6,在得到的6個特征圖上以每個像素點為中心構建不同尺度大小的邊界框,再分別進行檢測和分類,又經(jīng)非極大值抑制算法抑制掉部分重疊或不正確的邊界框,最終得到目標檢測結果。
試驗使用的軟件為Python 3.6.13和深度學習框架PyTorch 1.6.0。工作站運行內(nèi)存為64 G,CPU型號為至強Xeon-金牌5118,配備Nvidia TitanX GPU,操作系統(tǒng)為Ubuntu 16.04,CUDA版本為10.0.130,CUDNN版本為7.6.4。
網(wǎng)絡訓練時學習率設置為0.000 25,批量設置為4,在加載預訓練模型的情況下,模型收斂速度較快,訓練迭代次數(shù)設置為1 000次,在不加載預訓練模型的情況下,模型收斂速度較慢,訓練迭代次數(shù)為10 000次,均使用SGD(Stochastic Gradient Descent)算法優(yōu)化。
本研究選用平均準確率AP(Average Precision)、平均召回率AR(Average Recall)、網(wǎng)絡參數(shù)量和檢測速度對改進SSD網(wǎng)絡的性能進行評價。其中,以召回率Recall和準確率Precision為橫、縱坐標構成P-R曲線,整個P-R曲線下的面積即為AP,準確率是指檢測為正樣本的目標中實際為正樣本的比例,召回率是指測試集中所有正樣本中被正確識別為正樣本的比例。本研究采用PSACAL VOC[18]數(shù)據(jù)集提供的評價指標mAP(mean Average Precision)來評價網(wǎng)絡性能,即交并比IoU等于0.5時的平均準確率AP。AR是指交并比IoU在0.5~0.95之間,每隔0.05的步長對靈武長棗圖像中目標的召回率計算一次,最終取平均值。分割速度是指網(wǎng)絡模型每秒計算的圖像幀數(shù)。準確率、召回率和平均準確率的計算公式如下:
式中TP表示正確檢測的檢測框數(shù),F(xiàn)P表示誤檢測的檢測框數(shù),F(xiàn)N表示漏檢測的檢測框數(shù),()表示P-R曲線。
將改進SSD模型主干網(wǎng)絡改進DenseNet中的卷積組數(shù)改為6和12,為SSD1模型。去掉改進SSD模型主干網(wǎng)絡改進DenseNet中的CBAM模塊,為SSD2模型。各組試驗訓練過程中平均準確率mAP和訓練損失Loss的變化如圖5所示。
如圖5所示,當?shù)螖?shù)達到8 000次時,SSD1模型、SSD2模型和改進SSD模型的損失值基本收斂,平均準確率在小范圍內(nèi)波動,基本趨于平穩(wěn),表明此時模型已經(jīng)達到了較好的訓練效果。與改進SSD模型相比,SSD1模型的主干網(wǎng)絡使用了較多的卷積組,在訓練初始,SSD1模型的訓練效果略優(yōu)于改進SSD模型,隨著迭代次數(shù)的增加,當模型趨于穩(wěn)定時,改進SSD模型的平均準確率要略高于SSD1模型,表明主干網(wǎng)絡的結構并非越復雜越好,冗余結構反而可能會使準確率下降。改進SSD模型的主干網(wǎng)絡中使用了CBAM注意力模塊,模型穩(wěn)定時,改進SSD模型的平均準確率高于SSD1模型,且曲線波動更小,表明CBAM模塊在改進SSD模型中的有效性。
如圖6所示,從測試集中隨機挑選5張圖像用于對比檢測結果,檢測結果如圖7所示,各項評價指標結果如表1所示。其中,圖7中置信度是指該目標的類別為靈武長棗的概率。表1中“IoU: 0.5:0.95”表示并比IoU在0.5~0.95之間,每隔0.05的步長計算一次平均準確率,最終取均值?!癆rea: S M L”表示每張圖像中目標尺度分別為小于32像素×32像素、介于32像素×32像素至96像素×96像素之間和大于96像素×96像素?!?1”表示圖像中沒有該尺寸大小的目標?!癉ets: 1 10 100”表示每張圖像中最多提取1、10或100個目標。
從圖7中可以看出,各模型均較好地完成了靈武長棗圖像的檢測任務??傮w而言,SSD1模型對部分棗的檢測效果略差,如③號棗的置信度僅有94.91%,比改進SSD模型低5.02個百分點,且并未檢測出④號和⑤號兩顆較小棗,而SSD2模型僅是對于部分棗檢測的置信度略低于改進SSD模型,如①號棗和⑤號棗的置信度分別較改進SSD模型低1.74個百分點和7.55個百分點。
表1 改進DenseNet網(wǎng)絡對比試驗評價指標結果
如表1所示,在3種不同的IoU值(0.5:0.95, 0.5, 0.75)下,改進SSD模型的平均準確率AP分別比SSD1模型高1.29個百分點、0.89個百分點和0.77個百分點,比SSD2模型高0.22個百分點、0.11個百分點和1.08個百分點。在不同的提取目標數(shù)(1、10、100)下,改進SSD模型的平均召回率AR分別比SSD1模型高0.09個百分點和1.01個百分點,比SSD2模型高0.05個百分點和0.88個百分點。分析改進SSD模型的AP和AR高于SSD1模型的原因,可能是由于在SSD1模型中,密集塊中過多的卷積組使網(wǎng)絡結構產(chǎn)生冗余,反而導致精確度下降。以上試驗結果表明6和8的卷積組個數(shù)以及CBAM模塊在改進SSD模型中的有效性。
去掉改進SSD模型額外層的Inception模塊,為SSD3模型。將改進SSD模型額外層的Inception模塊替換為如圖8所示的殘差模塊,為SSD4模型。去掉改進SSD模型中的多級融合部分,為SSD5模型。各組試驗訓練過程中平均準確率mAP和訓練損失Loss的變化如圖9所示,目標檢測結果如圖10所示,各項評價指標結果如表2所示。
如圖9所示,當?shù)螖?shù)達到8 000次時,各模型的損失值均基本收斂,平均準確率均趨于平穩(wěn),模型均達到了較好的訓練效果。SSD3模型、SSD4模型和SSD5模型的平均準確率均略低于改進SSD模型,表明改進SSD模型中所使用的Inception模塊和多級融合的有效性。
從圖10中可以看出,SSD3模型和SSD4模型對于①號棗檢測的置信度較低,分別僅有93.89%和94.34%,對于②號棗檢測的置信度也較低,分別僅有89.28%和94.79%,但SSD3模型對于圖像2中其他棗的檢測效果要優(yōu)于改進SSD模型。與SSD3模型相比,改進SSD模型使用Inception模塊,因此對圖像中多尺度信息提取的能力更強,如對于④號棗和⑤號棗而言,改進SSD模型檢測的置信度比SSD3模型分別高23.89個百分點和28.17個百分點。改進SSD模型對于④號棗檢測效果略差于SSD4模型和SSD5模型,但對于⑤號棗檢測的置信度分別比這兩種模型高出33.52個百分點和24.00個百分點。各模型對于圖像3和圖像5中各棗的檢測效果均較好,置信度均達到了99.50%以上。
如表2所示,在3種不同的IoU值下,改進SSD模型的平均準確率AP分別比SSD3模型高0.32個百分點、0.26個百分點和0.19個百分點,比SSD4模型高0.80個百分點、0.34個百分點和0.25個百分點,比SSD5模型高0.16個百分點、0.10個百分點和0.12個百分點。當圖像提取目標數(shù)為1時,改進SSD模型的平均召回率AR分別比SSD3模型低0.13個百分點,比SSD4模型高0.13個百分點,比SSD5模型低0.31個百分點,表明僅提取圖像中1個目標時,SSD3模型和SSD5模型的性能要優(yōu)于改進SSD模型。當圖像提取目標數(shù)為10時,改進SSD模型的召回率AR均高于其他模型。改進SSD模型檢測速度最慢,僅有28.05幀/s,但參數(shù)量少于其他模型。以上試驗結果表明Inception模塊和多級融合在改進SSD模型中的有效性。
SSD模型、SSD模型(預訓練)和改進SSD模型在試驗訓練過程中平均準確率mAP和訓練損失Loss的變化如圖11所示,目標檢測結果如圖12所示,各項評價指標結果如表3所示。
如圖11所示,當各模型的損失值收斂后,SSD模型比改進SSD模型的平均準確率低約2.5個百分點,且平均準確率變化曲線波動較大,模型穩(wěn)定性較差。SSD模型(預訓練)由于加載了預訓練模型,收斂速度很快,平均準確率變化曲線很快趨于平穩(wěn),但平均準確率與改進SSD模型相差不大。訓練結果表明,盡管預訓練可以加快收斂速度,但只要訓練時間足夠,并結合有效的目標檢測網(wǎng)絡結構,即使不加載預訓練模型也達到較好的訓練效果。
從圖12中可以看出,SSD模型(預訓練)和改進SSD模型對圖像中各棗的檢測效果均較好,除②號棗、④號棗和⑤號棗外,對各棗檢測的置信度均達到了99%以上。相較而言,SSD模型的檢測效果較差,如對于①號棗的置信度僅有83.06%,直接未檢測出④號棗,且對其他各棗的檢測精度基本均低于SSD模型(預訓練)和改進SSD模型。
由于改進DenseNet網(wǎng)絡相較ResNet50網(wǎng)絡而言結構更為密集,且改進SSD模型中所使用的Inception模塊和多級融合有助于提取圖像中豐富的多尺度特征并融合多級信息,因此改進SSD模型的性能要優(yōu)于SSD模型。如表3所示,在3種不同的IoU值下(0.5∶0.95、0.5、0.75),改進SSD模型的平均準確率AP分別比SSD模型高2.63個百分點、2.02個百分點和2.19個百分點。在不同的提取目標數(shù)下,改進SSD模型的平均召回率AR分別比SSD模型高0.35個百分點和2.65個百分點。SSD模型(預訓練)和改進SSD模型的平均準確率AP和平均召回率AR的各指標值相差不大,盡管SSD模型(預訓練)的速度比改進SSD模型高10.72幀/s,但網(wǎng)絡結構參數(shù)量比改進SSD模型多11.14×106。
表3 是否加載預訓練模型對比試驗評價指標結果
由于靈武長棗采摘機器人實際作業(yè)環(huán)境較為復雜,一定程度上限制了采摘速度,且設備內(nèi)存資源有限,因此對于視覺識別系統(tǒng)而言,需盡量滿足在一定的檢測速度下,具有更為輕量化的網(wǎng)絡結構和更高的檢測精度的要求,而本研究提出的改進SSD模型恰好滿足以上要求。
1)針對加載預訓練模型的傳統(tǒng)SSD模型不能更改網(wǎng)絡結構,設備內(nèi)存資源有限時便無法使用這一問題,本研究提出一種不使用預訓練模型也能達到較高檢測精度的靈武長棗圖像輕量化目標檢測方法,為靈武長棗智能化采摘提供了技術支持。
2)在靈武長棗數(shù)據(jù)集上的試驗結果表明,改進SSD模型的平均準確率mAP為96.60%,檢測速度為28.05幀/s,參數(shù)量為1.99×106,比SSD模型和SSD模型(預訓練)的平均準確率mAP分別高出2.02個百分點和0.05個百分點,網(wǎng)絡結構參數(shù)量比SSD模型少11.14×106,滿足輕量化網(wǎng)絡的要求。
3)對于其他加載預訓練模型后訓練效果仍不一定很好的目標檢測任務,例如與ImageNet數(shù)據(jù)集相差較大的醫(yī)學圖像和多光譜圖像的檢測,本研究提出的改進SSD模型可為其提供新方法和新思路。
本研究提出的基于改進SSD的靈武長棗圖像目標檢測方法解決了傳統(tǒng)SSD模型無法改變網(wǎng)絡結構這一問題,滿足了靈武長棗智能采摘機器人實際作業(yè)的要求,同時能夠布署到資源有限的設備中,且在不加載預訓練模型的情況下,針對靈武長棗目標檢測任務也能達到較好的檢測效果。除此之外,改進SSD模型也可為其他目標檢測任務提供新方法和新思路。
[1] 謝志強,夏湛河,楊勇. 靈武長棗產(chǎn)業(yè)發(fā)展存在的問題及對策[J]. 現(xiàn)代農(nóng)業(yè)科技,2019(13):87,90.
[2] 朱峰,康自俊. 靈武長棗產(chǎn)業(yè)發(fā)展狀況探析[J]. 現(xiàn)代農(nóng)業(yè)科技,2018(21):90,93.
[3] 朱麗燕. 寧夏靈武長棗產(chǎn)業(yè)發(fā)展的對策建議[J]. 時代經(jīng)貿(mào),2020(28):36-37.
[4] 伍梅霞,唐文林,張宏霞. 靈武長棗產(chǎn)業(yè)發(fā)展中存在的問題及轉型升級的思路與對策[J]. 山西果樹,2019(4):30-32.
[5] 李磊,徐國偉,李文婧,等. 基于深度學習的艦船目標檢測算法與硬件加速[J]. 計算機應用,2021,41(S1):162-166.
[6] 楊蜀秦,劉楊啟航,王振,等. 基于融合坐標信息的改進 YOLO V4 模型識別奶牛面部[J]. 農(nóng)業(yè)工程學報,2021,37(15):129-135.
Yang Shuqin, Liu Yangqihang, Wang Zhen, et al. Improved YOLO V4 model for face recognition of diary cow by fusing coordinate information[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(15): 129-135. (in Chinese with English abstract)
[7] 蔡舒平,孫仲鳴,劉慧,等. 基于改進型 YOLOv4 的果園障礙物實時檢測方法[J]. 農(nóng)業(yè)工程學報,2021,37(2):36-43.
Cai Shuping, Sun Zhongming, Liu Hui, et al. Real-time detection methodology for obstacles in orchards using improved YOLOv4[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(2): 36-43. (in Chinese with English abstract)
[8] 燕紅文,劉振宇,崔清亮,等. 基于特征金字塔注意力與深度卷積網(wǎng)絡的多目標生豬檢測[J]. 農(nóng)業(yè)工程學報,2020,36(11):193-202.
Yan Hongwen, Liu Zhenyu, Cui Qingliang, et al. Multi-target detection based on feature pyramid attention and deep convolution network for pigs[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(11): 193-202. (in Chinese with English abstract)
[9] 易詩,李欣榮,吳志娟,等. 基于紅外熱成像與改進 YOLOV3的夜間野兔監(jiān)測方法[J]. 農(nóng)業(yè)工程學報,2019,35(19):223-229.
Yi Shi, Li Xinrong, Wu Zhijuan, et al. Night hare detection method based on infrared thermal imaging and improved YOLOV3[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(19): 223-229. (in Chinese with English abstract)
[10] 胡志偉,楊華,婁甜田. 采用雙重注意力特征金字塔網(wǎng)絡檢測群養(yǎng)生豬[J]. 農(nóng)業(yè)工程學報,2021,37(5):166-174.
Hu Zhiwei, Yang Hua, Lou Tiantian. Instance detection of group breeding pigs using a pyramid network with dual attention feature[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(5): 166-174. (in Chinese with English abstract)
[11] Ross G, Jeff D, Trevor D, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Columbus: IEEE, 2014: 580-587.
[12] Girshick R. Fast R-CNN[J]. eprint arXiv, 2015, 1504.08083v2
[13] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-Time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[14] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas: IEEE, 2016: 779-788.
[15] Redmon J, Farhadi A. YOLO9000: Better, faster, stronger[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Hawaii: IEEE, 2017, 6517-6525.
[16] Redmon J, Farhadi A. YOLOv3: An incremental improvement[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Salt Lake: IEEE, 2018.
[17] Bochkovskiy A, Wang C, Hong Y. YOLOv4: Optimal speed and accuracy of object detection[C]//2020 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Seattle: IEEE, 2020.
[18] Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multiBox detector[C]// 2016 European Conference on Computer Vision. Springer: Cham, 2016.
[19] Shen Z, Liu Z, Li J, et al. DSOD: Learning deeply supervised object detectors from scratch[C]// 2017 IEEE International Conference on Computer Vision (ICCV), Italy: IEEE, 2017, 1937-1945.
[20] He K, Girshick R, Dollar P. Rethinking imageNet pre-training[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul: IEEE, 2019, 4917-4926.
[21] 彭紅星,黃博,邵園園,等. 自然環(huán)境下多類水果采摘目標識別的通用改進SSD模型[J]. 農(nóng)業(yè)工程學報,2018,34(16):155-162.
Peng Hongxing, Huang Bo, Shao Yuanyuan, et al. General improved SSD model for picking object recognition of multiple fruits in natural environment[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(16): 155-162. (in Chinese with English abstract)
[22] 李國進,黃曉潔,李修華. 基于改進YOLOv3的樹上成熟芒果檢測方法[J]. 沈陽農(nóng)業(yè)大學學報,2021,52(1):70-78.
Li Guojin, Huang Xiaojie, Li Xiuhua. Detection method of tree-ripe mango based on improved YOLOv3[J]. Journal of Shenyang Aricultural University, 2021, 52(1): 70-78. (in Chinese with English abstract)
[23] Gao F, Fu L, Zhang X, et al. Multi-class fruit-on-plant detection for apple in SNAP system using Faster R-CNN[J]. Computers and Electronics in Agriculture, 2020, 176: 105634. (in Chinese with English abstract)
[24] 熊俊濤,鄭鎮(zhèn)輝,梁嘉恩,等. 基于改進YOLO v3網(wǎng)絡的夜間環(huán)境柑橘識別方法[J]. 農(nóng)業(yè)機械學報,2020,51(4):199-206.
Xiong Juntao, Zheng Zhenhui, Liang Jiaen, et al. Citrus detection method in night environment based on improved YOLO v3 network[J]. Transactions of The Chinese Society for Agricultural Machinery, 2020, 51(4): 199-206. (in Chinese with English abstract)
[25] Fu L, Majeed Y, Zhang X, et al. Faster R-CNN-based apple detection in dense-foliage fruiting-wall trees using RGB and depth features for robotic harvesting[J]. Biosystems Engineering, 2020, 197: 245-256.
[26] Wang Y, Dai Y, Xue J, et al. Research of segmentation method on color image of Lingwu long jujubes based on the maximum entropy[J]. Eurasip Journal on Image & Video Processing, 2017, 2017(1): 34-43.
[27] Dai Y, Wang Y, Xue J, et al. Research of segmentation method on image of Lingwu long jujubes based on a new extraction model of hue[J]. IEEE Sensors Journal, 2017, 17(18): 6029-6036.
[28] 劉向南,王昱潭,趙琛,等. 基于分水嶺算法的靈武長棗圖像分割方法研究[J]. 計算機工程與應用,2018,54(15):169-175.
Liu Xiangnan, Wang Yutan, Zhao Chen, et al. Research on image segmentation method of Lingwu long jujubes based on watershed[J]. Computer Engineering and Applications, 2018, 54(15): 169-175. (in Chinese with English abstract)
[29] 趙琛,王昱潭,朱超偉. 基于幾何特征的靈武長棗圖像分割算法[J]. 計算機工程與應用,2019,55(15):204-212.
Zhao Chen, Wang Yutan, Zhu Chaowei. Lingwu long jujubes image segmentation algorithm based on geometric features[J]. Computer Engineering and Applications, 2019, 55(15): 204-212. (in Chinese with English abstract)
[30] 王昱潭. 基于機器視覺的靈武長棗定位與成熟度判別方法研究[D]. 北京:北京林業(yè)大學,2014.
Wang Yutan. Research on Methods of Lingwu long jujubes’ Localization and Maturity Recognition Based on Machine Vision[D]. Beijing: Beijing Forestry University, 2014. (in Chinese with English abstract)
[31] 朱超偉. 靈武長棗圖像識別系統(tǒng)的開發(fā)[D]. 銀川:寧夏大學,2020.
Zhu Chaowei. Development of Image Recognition System of Lingwu Long Jujubes[D]. Yinchuan: Ningxia University, 2020. (in Chinese with English abstract)
[32] Kaeen S, Andrew Z. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. preprint arXiv, 2014,1409.1556.
[33] He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[J]. preprint arXiv, 2015,1512.03385.
[34] Huang G, Liu Z, Laurens V, et al. Densely Connected Convolutional Networks[C]// 2016 IEEE Computer Society. Las Vegas: IEEE, 2016.
[35] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston: IEEE, 2015: 1-9.
Lightweight object detection method for Lingwu long jujube images based on improved SSD
Wang Yutan, Xue Junrui
(750021,)
The complex working environment of picking robots has limited the picking speed and equipment memory resources in the intelligent harvesting of Lingwu long jujubes. Therefore, it is necessary to meet the requirements of lighter network structure and higher detection accuracy, particularly for the visual recognition system. A pre-train model has widely been loaded almost all the object detection at present, due to high initialization performance and convergence speed. However, two challenges are still remained: 1) The network structure cannot be changed on the limited memory resources of the device; 2) There may be great differences between the ImageNet dataset and the dataset to be trained, leading to the low training effect. Taking the SSD model as the basic framework, this research aims to propose a lightweight object detection for the images of Lingwu long jujubes. The excellent performance was achieved without loading the pre-train model. Firstly, data augmentation is performed on the collected 1 000 images to obtain 5 000 images. Data augmentation operations include random cropping, random vertical or horizontal flipping, random brightness adjustment, random contrast adjustment, and random saturation adjustment. Secondly, the Lingwu long jujube dataset was established, including 3 500 training images and 1 500 test images. The resolution of images consisted of 3 016×4 032, 4 068×3 456, and 2 448×3 264. The models of smartphones for image acquisition included HUAWEI TRT-AL00A, Vivo Y79A, and Xiaomi 2014501. The images were uniformly scaled to the resolution of 300×300, in order to meet the input requirements of image size in the SSD object detection. Data augmentation included random cropping, random vertical or horizontal flipping, as well as random adjustment of brightness, contrast, and saturation. The format of the PASCAL VOC dataset was also adopted. Labelling software was used to label the images, and then the marked images were stored in the label folder in XML format. Secondly, the improved DenseNet was utilized the Convolutional Block Attention Modules and two dense blocks with convolution groups of 6 and 8. Taking the improved DenseNet as the backbone network, the improved SSD model was obtained to combine with the multi-level fusion structure, where the first three additional layers were replaced in the SSD model with the Inception module. In the improved SSD model without loading the pre-train model, the mAP was 96.60%, the detection speed was 28.05 frames/s, and the number of parameters was 1.99×106, particularly 2.02 percentage points and 0.05 percentage points higher than that of the SSD and SSD model (pre-train), respectively. Correspondingly, the parameter of the improved SSD model was 11.14×106lower than the SSD model, fully meeting the requirements of the lightweight network without loading the pre-train model. This finding can provide a strong visual technical support for the intelligent harvesting of Lingwu long jujubes, even medical and multispectral images detection tasks.
images processing; object detection; Lingwu long jujubes; pre-train model; SSD model; DenseNet; Inception module
王昱潭,薛君蕊. 改進SSD的靈武長棗圖像輕量化目標檢測方法[J]. 農(nóng)業(yè)工程學報,2021,37(19):173-182.doi:10.11975/j.issn.1002-6819.2021.19.020 http://www.tcsae.org
Wang Yutan, Xue Junrui. Lightweight object detection method for Lingwu long jujube images based on improved SSD[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(19): 173-182. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.19.020 http://www.tcsae.org
2021-08-10
2021-09-14
國家自然科學基金(No.31660239)
王昱潭,教授,研究方向為圖像處理和農(nóng)業(yè)裝備自動化與智能化。Email:wang_yt1108@163.com
10.11975/j.issn.1002-6819.2021.19.020
TP391
A
1002-6819(2021)-19-0173-10