孫 俊,宮東見,姚坤杉,蘆 兵,戴春霞,武小紅
基于通道特征金字塔的田間葡萄實時語義分割方法
孫 俊,宮東見,姚坤杉,蘆 兵,戴春霞,武小紅
(江蘇大學(xué)電氣信息工程學(xué)院,鎮(zhèn)江 212013)
復(fù)雜環(huán)境下葡萄的快速檢測識別是智能采摘的關(guān)鍵步驟,為解決目前葡萄識別精度低和實時性差的問題,該研究提出一種輕量級葡萄實時語義分割模型(Grape Real-time Semantic Segmentation Model,GRSM)。首先,利用通道特征金字塔(Channel-wise Feature Pyramid,CFP)模塊進行特征提取,該模塊通過1′3和3′1空洞卷積的跳躍連接,在減少模型參數(shù)量的同時提取葡萄圖像的多尺度特征和上下文信息;然后,采用池化卷積融合結(jié)構(gòu)完成下采樣,增加可訓(xùn)練參數(shù)以減少信息損失;最后,利用跳躍連接融合多種特征恢復(fù)圖像細節(jié)。試驗結(jié)果表明:該研究所提出的模型在田間葡萄測試集上達到了78.8%的平均交并比,平均像素準確率為90.3%,處理速度達到68.56幀/s,網(wǎng)絡(luò)結(jié)構(gòu)大小僅為4.88 M。該模型具有較高分割識別精度和較好實時性,能滿足葡萄采摘機器人對視覺識別系統(tǒng)的要求,為葡萄的智能化采摘提供了理論基礎(chǔ)。
機器視覺;圖像識別;語義分割;實時性;葡萄;CFP
近年來,中國葡萄栽培面積和生產(chǎn)規(guī)模逐漸擴大[1],其中采摘作為葡萄產(chǎn)業(yè)的關(guān)鍵步驟。目前的采摘方式還是以人工為主,費時費力,不能滿足葡萄產(chǎn)業(yè)的發(fā)展速度。因此,為了推進葡萄產(chǎn)業(yè)的蓬勃高效發(fā)展,實現(xiàn)自動化和智能化采摘已成為當前的首要任務(wù)。運用機器視覺算法可以快速準確地分割識別田園場景下的葡萄,這為實現(xiàn)采摘葡萄的智能化提供了技術(shù)保障,對葡萄產(chǎn)業(yè)的發(fā)展具有重要的現(xiàn)實意義。
針對葡萄圖像的分割識別問題,不同的分割識別算法在國內(nèi)外相繼被提出。劉平等[2]提取自然環(huán)境下貼疊葡萄在H顏色空間下的葡萄串區(qū)域,利用中心點與拐點的斜率關(guān)系和Chan-Vese模型對葡萄串進行識別。田銳等[3]對收集到的葡萄圖像先進行預(yù)處理,然后利用RGB顏色樣本值進行圖像分割,以完成對紫色和紅色葡萄的檢測識別。Rodrigo等[4]采用定向梯度直方圖和局部二進制模式獲取葡萄的形狀描述,并通過支持向量分類器對葡萄進行分類和檢測。盡管以上葡萄圖像分割方法都取得了較好的分割效果,但是依賴復(fù)雜的特征提取步驟和嚴格的環(huán)境限制,在實際應(yīng)用中分割識別效果不太理想。
如今,數(shù)字成像設(shè)備應(yīng)用在農(nóng)業(yè)的各個領(lǐng)域,其中,卷積神經(jīng)網(wǎng)絡(luò)能將原始圖像直接輸入,避免了復(fù)雜的特征提取過程,能有效的從大量樣本中學(xué)習(xí)到相應(yīng)的特征,使得對圖像的處理達到了接近人力的水平。因此,數(shù)字成像設(shè)備結(jié)合卷積神經(jīng)網(wǎng)絡(luò)進行農(nóng)作物分析是一種很有前途的替代方法。于是,圖像分類[5-6]、目標檢測[7-8]和圖像分割[9-10]得到了廣泛應(yīng)用。賈偉寬等[11]提出一種基于SOLO(Segmenting Objects by Locations)的綠色果實優(yōu)化分割算法,通過分離注意力網(wǎng)絡(luò)(Split-Attention Networks,ResNeSt)和特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN)的組合來提取綠色果實的多尺度特征,SOLO分割算法優(yōu)化后在測試集上達到96.16%的精確率,每張圖片的處理速度為0.14 s。薛君蕊等[12]提出了一種基于改進FCN-8s(Fully Convolutional Networks for Semantic Segmentation)的圖像分割方法,該方法達到的棗類交并比為93.50%,分割速度為16.20 幀/s。Tian等[13]采用密集網(wǎng)絡(luò)對YOLOv3算法進行改進,來檢測不同時期的蘋果,改進后算法的F1分數(shù)為81.7%、圖像的平均檢測時間為0.304 s。上述文獻中關(guān)于果蔬圖像的識別方法,主要針對個體較大且形狀規(guī)范的果實。由于葡萄是簇生水果且其輪廓不規(guī)則,使得葡萄的識別和定位算法成為難題。寧政通等[14]利用掩模區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Mask Regions with Convolutional Neural Network,Mask R-CNN)和閾值分割對果梗進行分段式提取,最后利用區(qū)域生長算法來尋找最終采摘點。試驗結(jié)果顯示:葡萄果梗的檢測精確率為88%,單幅圖像平均耗時為4.90 s。但該研究對于葡萄的識別僅考慮果梗采摘點,未能考慮真實環(huán)境下莖稈、葉子等部分的影響。此外,上述文獻中所提出的網(wǎng)絡(luò)結(jié)構(gòu)相對復(fù)雜,模型參數(shù)量大,在果園有限的硬件配置條件下不能很好地平衡精度與實時性之間的關(guān)系,導(dǎo)致整個智能采摘過程效率低下。
因此,本文在性能、模型大小和推理速度實現(xiàn)良好權(quán)衡的前提下,提出一種適用于葡萄分割識別的輕量級實時語義分割模型(Grape Real-time Semantic Segmentation Model,GRSM)。該研究首先利用Labelme標注工具構(gòu)建田間葡萄數(shù)據(jù)集。然后,利用通道特征金字塔模塊進行特征提取,并采用池化卷積融合結(jié)構(gòu)進行下采樣。最后,經(jīng)過試驗得出模型在保證高分割精度的前提下能達到實時性的作業(yè)需求。
本文數(shù)據(jù)集由A和B兩部分組成。數(shù)據(jù)集A為公開的田間釀酒葡萄實例分割數(shù)據(jù)集(Wine Grape Instance Segmentation Dataset,WGISD)[15],拍攝地點位于巴西圣保羅的瓜斯帕里酒莊,采集設(shè)備為Canon EOS REBEL T3i DSLR 型相機(日本)和Motorola Z2 Play 型智能手機(巴西);拍攝于2017年4月27日和2018年4月27日期間,共采集到300張修剪時期、光照條件和成熟度各不相同的葡萄圖像。為保證模型的學(xué)習(xí)效果和增強模型在復(fù)雜田間環(huán)境下的魯棒性,對數(shù)據(jù)集A采用隨機增強方式(亮度變換、隨機翻轉(zhuǎn)裁剪、噪音處理)進行擴充,最終共獲得1 200張圖片。按照70%、20%、10%的比例作為模型的訓(xùn)練集(840張)、驗證集(240張)、測試集(120張)。
此外,為驗證模型在不同環(huán)境下的泛化能力,還采集了田間葡萄圖像進行驗證,數(shù)據(jù)集B采集于江蘇省鎮(zhèn)江市京口區(qū)玫瑰葡萄園,品種為陽光玫瑰。采集設(shè)備為華為榮耀30手機,數(shù)據(jù)采集時間為2022年7月9-10日,共采集到165張葡萄圖片,圖像分辨率為3 648×2 736(像素)。
本文采用Labelme軟件對圖像進行手工精細標注,采用多邊形(Ploygons)標注模式,并將所有的標注信息保存相應(yīng)的json文件中,然后對json文件使用labelme_json_to_dataset命令將數(shù)據(jù)標簽轉(zhuǎn)換為標注圖。數(shù)據(jù)集樣例如圖1所示,標注分為四類對象,包括背景、葉子、葡萄、莖稈,對應(yīng)的顏色是黑色、綠色、紅色、黃色。由于原始圖片像素過大,對于網(wǎng)絡(luò)架構(gòu)及其硬件設(shè)施要求較高,因此,本文將圖像分辨率調(diào)整至512×512(像素)。
a. 原圖a. Original imageb. 標注圖像b. Label image
為保障葡萄智能采摘系統(tǒng)高效運行,視覺模型的搭建應(yīng)綜合考慮目標分割的準確性和實時性。本文提出如圖2所示的GRSM葡萄實時語義分割模型,主要包括編碼器(Encoding)和解碼器(Decoding)2個部分。首先,使用3個3×3卷積進行初始特征提取,其中第一個卷積的步長為2。其次,利用通道特征金字塔(Channel-wise Feature Pyramid,CFP)進行特征提取。然后,整個模型采用池化卷積融合的下采樣方法,3次下采樣后的輸出為輸入圖像大小的1/8。并在第一個、第二個下采樣和最后的上采樣卷積之前,使用跳躍連接注入平均池化(Ave-pooling)后的圖像,為分割網(wǎng)絡(luò)提供額外的特征信息。模型在編碼階段會獲取到圖像的多層語義信息。其中高層特征圖F3具有豐富語義信息,但是缺乏空間信息。低級特征圖(F1、F2)擁有豐富的空間信息,但是缺少深層語義信息。針對上述特征信息的差異性,本文在解碼階段利用跳躍連接恢復(fù)特征圖大小。首先高層特征圖F3通過雙線性差值進行上采樣,然后與特征圖F2在通道上融合,并利用3×3卷積對融合后的信息再進行特征提取,重復(fù)上述操作直到恢復(fù)到原圖分辨率,最后,使用1×1卷積來激活最終的特征映射并生成分割圖。跳躍連接可以保留編碼部分中不同特征層信息,可以更好提升效率和精度。為了充分考慮局部特征以及全局特征,本模型對CFP-block模塊的重復(fù)次數(shù)分別設(shè)置為1=2和2=6,相對應(yīng)的空洞率分別是KCFP-1=[2, 2]和KCFP-2=[3, 4, 7, 8, 13, 16]。由于PReLU在淺層網(wǎng)絡(luò)中比ReLU具有更好的性能,因此本網(wǎng)絡(luò)采用PReLU[16]激活函數(shù)。
1.3.1 通道特征金字塔的構(gòu)建
為了有效提取不同尺寸和不同位置的葡萄特征,需要不同大小的卷積核來感知不同的感受野。Szegedy等[17]提出了一種包含1×1、3×3和5×5卷積核的并行結(jié)構(gòu),以獲得多尺度特征映射。然而,大卷積的引入帶來了巨大的計算成本,因此,Inception-v3[18]利用因子分解來減少參數(shù)數(shù)量和計算成本。分解操作包括兩部分:分解成更小的卷積核或者用不對稱卷積替代,具體結(jié)構(gòu)如圖3a所示。本文為進一步降低模型參數(shù)量,以達到對田間葡萄實時分割識別的目的,在MultiRes-block[19]上引入Inception-v3中因子分解的思想,構(gòu)建如圖3b所示的FP-module(Feature Pyramid-module)特征提取塊。FP-module結(jié)構(gòu)由3個block塊在單一通道上通過跳躍連接構(gòu)成,并且每一個block都是通過1×3和3×1不對稱空洞卷積組成,F(xiàn)P-module通過對每個block提取的特征進行跳躍相加取得3×3、5×5和7×7多尺度特征提取效果。而且,由于block應(yīng)用了空洞卷積,在相同參數(shù)的情況下能獲得更加豐富的上下文信。此外,引入因子分解可以在參數(shù)量減少的同時達到輕量化模型的目的。
本文在FP-module的多尺度特征提取特性基礎(chǔ)上,提出了通道特征金字塔CFP-block。如圖4所示,它由個不同空洞率的FP-module并行構(gòu)成,不同空洞率的設(shè)置方法的有效性將在試驗部分詳細論述。首先利用1×1卷積把輸入特征的通道數(shù)從降低為傳遞給FP-module。然后FP-module把不同block提取的結(jié)果在通道上進行跳躍融合。由于FP-module里面不對稱卷積增加了網(wǎng)絡(luò)的深度,在訓(xùn)練過程中容易出現(xiàn)梯度消失現(xiàn)象,這將使得訓(xùn)練變得困難。簡單的融合方法會引入一些不需要的網(wǎng)格效應(yīng),這些效應(yīng)會極大地影響分割生成圖的精度和質(zhì)量。所以本文利用求和操作逐步組合不同F(xiàn)P-module的特征映射,然后將它們連接起來以構(gòu)建最終的分層特征映射。為達到輕量化模型的目的,同時有效提取局部和全局特征的特征。本文對CFP-block中FP-module的數(shù)量設(shè)置為4,其中CFP-block中卷積空洞率設(shè)置為r。并且將CFP-block中第一個和第四個FP-module通道的空洞率設(shè)置為1和r。對于第二個和第三個通道,將空洞率設(shè)置為r/4和r/2(如果r/4,r/2不為整數(shù)時,空洞率采用向下取整的方式),此時模型可以學(xué)習(xí)到中等尺寸特征。當r/4小于1,設(shè)置該通道的空洞率為1。(例如:對于輸入=32的通道數(shù),設(shè)置為4,CFP-block的空洞率r設(shè)置為16的情況下,則每個FP-module的通道數(shù)為32/4=8,第一個到第四個FP-module的空洞率分別為1,4,8,16。其中每個FP-module里面通道數(shù)相應(yīng)分配為2,2,4)。通道特征金字塔通過FP-module獲得多尺度特征提取能力的同時,參數(shù)量大幅度減少。在保證語義分割準確率的前提下達到實時性要求。
注:A1為3×3平均池化,步長為2。B1為3×3卷積,步長為2。C1為3×3卷積,步長為1。D1為池化卷積融合結(jié)構(gòu)。E1為FP-module 結(jié)構(gòu)(2×E1和6×E2分別形成CFP-block1和CFP-block2)。F1、F2、F3為不同特征層。G1為1×1卷積,步長為1。H1為不同特征層的融合。
圖3 多尺度特征提取模塊
1.3.2 池化卷積融合結(jié)構(gòu)
圖像分割網(wǎng)絡(luò)常使用最大池化減少特征圖大小,以達到減少計算量的目的。最大池化通過選取整個區(qū)域的最大值來擴大感受野。因此,最大池化舍棄3/4的像素值,導(dǎo)致模型的可訓(xùn)練參數(shù)大幅度減少,對應(yīng)特征的位置信息也被忽略,這在圖像分割中損失了空間信息。本文為最大化提取圖像中的語義特征,采用池化卷融合結(jié)構(gòu)進行下采樣。如圖5所示,輸入特征圖在主支路利用最大池化(Max-pooling)進行下采樣,利用補零填充(Padding)控制輸出尺寸大小,在輔助分支,首先利用1×1卷積降低通道數(shù),然后利用步長為2的3×3卷積進行信息提取,最后利用1×1卷積調(diào)整通道數(shù),并利用正則化(Regularizer)防止過擬合現(xiàn)象的產(chǎn)生。主支路中最大池化關(guān)注明顯特征的提取,輔助分支卷積的操作則更利于整體特征重建,將得到的結(jié)果在特征通道層進行融合。池化卷積融合結(jié)構(gòu)能有效解決了模型下采樣過程中圖像信息損失嚴重的問題,進一步提高模型對田間葡萄的特征學(xué)習(xí)能力。
注:q表示CFP-block中FP-module的個數(shù)。Concatentation表示特征信息融合。Add表示特征信息相加。rq為每個FP-module對應(yīng)的空洞率。
圖5 池化卷積融合結(jié)構(gòu)
本文試驗的系統(tǒng)環(huán)境為Ubuntu 18.04 LTS 64位,采用單張的GTX2080Ti GPU顯卡對模型進行訓(xùn)練和測試,深度學(xué)習(xí)框為Pytorch 1.6版本,運算平臺為CUDA 9.1。計算機搭載Intel Core i7-10700K @3.80 GHz八核,內(nèi)存為32 GB的處理器。
本文模型的性能評價主要采用平均像素準確率(Mean Pixel Accuracy,MPA)、平均交并比(Mean Intersection over Union,MIoU),每秒處理視頻圖像的幀數(shù)(Frames Per Second,F(xiàn)PS),各評價指標計算公式如下:
FPS=N/(3)
式中是目標類別數(shù),p是正確分類的像素數(shù),p是類被誤判斷為類的像素數(shù),p是類被誤判斷為類的像素數(shù),N是視頻幀數(shù),是消耗時間s。
本文采用隨機梯度下降法(Stochastic Gradient Descent,SGD)用于權(quán)重調(diào)整,此外,還使用了poly學(xué)習(xí)策略,公式如下:
式中l(wèi)rbase是初始學(xué)習(xí)率; iter是當前迭代次數(shù);totaliter是最大迭代次數(shù);Lr是動態(tài)學(xué)習(xí)率;power采用默認值0.9。訓(xùn)練時初始學(xué)習(xí)率設(shè)為0.000 1。每一批次迭代的樣本數(shù)量為4,采用交叉熵損失函數(shù)(Cross Entropy),公式如下:
圖6 損失值變化曲線
本文在模型學(xué)習(xí)的過程中,記錄每個Epoch中的訓(xùn)練損失和驗證損失數(shù)值,并利用matplotlib繪制了圖6所示的損失值變化曲線,圖中表明隨著模型迭代次數(shù)的增加,損失值不斷降低、動態(tài)變化量減小。當模型迭代次數(shù)超過300次時,曲線就基本趨于平穩(wěn),當?shù)螖?shù)到400次時,曲線就已到達了平衡狀態(tài),表明此時模型完成了收斂。
本文通過對CFP-block的重復(fù)次數(shù)和空洞率進行了如下對比試驗,在分割精度與參數(shù)量進行權(quán)衡的前提下探索最優(yōu)模型。1和2分別代表模型中CFP-block1和CFP-block2重復(fù)的次數(shù),在輸入圖片的分辨率為512×512時,試驗效果如表1所示。
表1 不同參數(shù)下模型效果對比
GRSM-V1:最淺的模型,1和2分別取1和2,對應(yīng)空洞率分別是[4]和[8, 16]。
GRSM-V2:在GRSM-V1的基礎(chǔ)上增加局部信息,H和H分別設(shè)置為1和3。對應(yīng)的空洞率分別是[2]和[4,8,16]。
GRSM-V3:進一步探究模型的性能,對GRSM-V2中CFP-block的重復(fù)次數(shù)增加一倍,因此1和2分別設(shè)置為2和6,對應(yīng)空洞率為[2, 2]和[4, 4, 8, 8, 16, 16]。
GRSM-V4:在GRSM-V3的基礎(chǔ)上,對2的6個空洞率進行調(diào)整,由于空洞率相同或具有等比時,感受野在會出現(xiàn)“棋盤效應(yīng)”,這會導(dǎo)致特征信息混亂,并丟失大量細節(jié)信息。因此本文在不改變?nèi)魏螀?shù)量的情況下,對原有等比的偶數(shù)空洞率[4,4,8,8,16,16]變換為互質(zhì)的[3,4,7,8,13,16]。
由表1指標可以看出,模型在下采樣次數(shù)一定的時候。隨著局部信息的不斷增強,分割指標MIoU從GRSM-V1的76.0%上升到GRSM-V3中78.4%,此時模型可以達到68.56幀/的實時分割效率。由GRSM-V3到GRSM-V4的變化可以看出,在參數(shù)量大小都是在4.88M,實時性不變的情況下,空洞率從[4, 4, 8, 8, 16, 16] 變換為互質(zhì)的[3, 4, 7, 8, 13, 16]時,模型分割精度MIoU上升了0.4個百分點,于是選擇GRSM-V4作為本文的最優(yōu)模型進行試驗。
為驗證本文提出的方法對田間葡萄分割的優(yōu)勢,本文模型GRSM與DeeplabV3+[20]、UNet[21]、SegNet[22]、BiSeNet[23]、DFANet[24]、ENet[25]的分割效果如圖7所示。從平均像素準確率(MPA)、平均交并比(MIoU)、幀率(FPS)、以及模型大小與語義分割模型DeeplabV3+、UNet、SegNet、Inception-V3、MobileNet-v3[26]、BiSeNet、DFANet、ENet)進行比較,GRSM相對其他模型的各評價指標結(jié)果如表2所示。
由圖7預(yù)測結(jié)果可以看出,大多數(shù)模型都完成了對圖像中莖稈、葉子和葡萄的分割任務(wù)。但是實時性分割模型(BiSenet、DFANet、ENet)對葡萄莖稈難以清楚區(qū)分,識別的目標區(qū)域也相對模糊。這與模型本身的特點有關(guān),即過于追求實時性導(dǎo)致精度幅度下降。對于經(jīng)典語義分割模型(UNet、DeeplabV3+、SegNet)而言,DeeplabV3+能把圖像中的各個不同尺寸目標識別出來,但是DeeplabV3+為獲取更多的全局特征,采用過多的下采樣和更大的空洞率設(shè)置,空洞率過大的設(shè)置導(dǎo)致局部特征的提取難度增加,以至于葡萄圖像邊緣細節(jié)信息提取不足。UNet雖然在邊緣細節(jié)識別效果好,但是對一些小型莖稈不能清晰地識別出來,這與網(wǎng)絡(luò)采用單一大小的3×3卷積導(dǎo)致全局感受野不足有關(guān),導(dǎo)致對小目標葡萄的分割效果欠佳。SegNet采用了最大池化索引的方式保留圖像信息,因此分割效果得到了一定的提升,但是巨大的參數(shù)量導(dǎo)致難以在移動端應(yīng)用。因此本研究提出的GRSM模型對葡萄圖像中多尺度目標的分割效果相對較好而且能滿足實時性的要求。
圖7 不同模型預(yù)測結(jié)果
表2 不同網(wǎng)絡(luò)在葡萄測試集上的預(yù)測結(jié)果
由表2可以得出,本文提出的模型在葡萄測試集中分割速度為68.56 幀/s同時分割精度MIoU為78.8%。由于GRSM中利用不對稱卷積1×3和3×1的跳躍連接,導(dǎo)致模型深度增加,低于常見實時語義分割模型(BiSeNet、DFANet、ENet)的速度。但在精確度方面,本網(wǎng)絡(luò)相比較于代表性的實時語義分割模型(BiSeNet、DFANet、ENet),分割精度MIoU分別提升了7.9、5.7和10.5個百分點。與以MobilieNet-V3和Inceptio-V3為編碼器的輕量型模型相比,本模型的精度分別提升了1.2和8.8個百分點,這充分證明本文提出的模型與實時性和輕量型模型對比在分割精度上具有巨大的優(yōu)勢。與經(jīng)典語義分割模型(Deeplabv3+、SegNet、UNet)相比,本文網(wǎng)絡(luò)的MIoU分別下降了2.3、2.0和3.7個百分點,但是模型大小分別為上述網(wǎng)絡(luò)的12.3%、4.1%和7.4%,而且滿足了實時性的要求。因此,本文所提出的模型很好的平衡了實時性與精度之間的關(guān)系,在農(nóng)業(yè)領(lǐng)域?qū)τ谄咸训姆指钭R別具有很強的競爭力。
為進一步驗證模型在實際應(yīng)用中的泛化性,本文依據(jù)上述試驗討論結(jié)果,選擇GRSM作為測試模型,在數(shù)據(jù)集B上開展跨庫評估試驗。該模型在數(shù)據(jù)集B上取得平均像素準確率(MPA)為88.1%,平均交并比(MIoU)為76.6%。圖8展示了試驗的部分預(yù)測結(jié)果,由圖可以看出,雖然田間環(huán)境發(fā)生了一定差異性變化,但本文提出的模型依然能準確識別葡萄、莖稈等重要部分,證明了本模型具有良好的泛化能力。
圖8 不同光照下的葡萄分割效果
復(fù)雜環(huán)境下葡萄的快速檢測識別是智能采摘的關(guān)鍵步驟。針對當前模型存在識別精度和實時性難以達到平衡的問題,本文提出一種實時性的輕量級語義分割模型GRSM。
1)模型GRSM在編碼利用通道特征金字塔模塊進行多尺度提取,該模塊在大幅度減少模型參數(shù)量的同時獲得了更大的感受野。為減少模型下采樣過程中圖像信息損失嚴重的問題,采用池化卷積融合結(jié)構(gòu)來完成下采樣。不同特征圖之間采用跳躍連接的方式進行融合,跳躍連接可以保留編碼部分中不同特征層信息,還能進一步恢復(fù)圖像的細節(jié)信息。
2)葡萄測試集上的試驗結(jié)果表明。GRSM模型的平均交并比MioU為78.8%,平均像素準確率MPA達到了90.3%,幀頻為68.56幀/s,模型結(jié)構(gòu)大小僅為4.88 M,因此,本文提出模型的分割識別精度較高、實時性較好。在農(nóng)業(yè)領(lǐng)域?qū)τ谄咸训姆指钭R別具有很強的競爭力。此外,本模型在不同的數(shù)據(jù)集上具有較好的泛化能力,可為后續(xù)的果園智能采摘下的視覺系統(tǒng)提供理論依據(jù)。
[1] 孔慶山,劉崇懷,潘興,等. 國內(nèi)外鮮食葡萄發(fā)展現(xiàn)狀、趨勢、問題與對策[J]. 中國農(nóng)業(yè)信息快訊,2002,7:3-6.
[2] 劉平,朱衍俊,張同勛,等. 自然環(huán)境下貼疊葡萄串的識別與圖像分割算法[J]. 農(nóng)業(yè)工程學(xué)報,2020,36(6):161-169.
Liu Ping, Zhu Yanjun, Zhang Tongxun, et al. Algorithm for recognition and image segmentation of overlapping grape cluster in natural environment[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(6): 161-169. (in Chinese with English abstract)
[3] 田銳,郭艷玲. 基于機器視覺的葡萄自動識別技術(shù)[J]. 東北林業(yè)大學(xué)學(xué)報,2008,36(11):95-97.
Tian Rui, Guo Yanling. Automatic grape recognition technology based on machine vision [J]. Journal of Northeast Forestry University, 2008, 36 (11): 95-97. (in Chinese with English abstract)
[4] Rodrigo P, Miguel T, Fernando A C, et al. A pattern recognition strategy for visual grape bunch detection in vineyards[J]. Computers and Electronics in Agriculture, 2018, 151: 136-149.
[5] Chang L, Yu C, Yan L, et al. Deep learning-based food image recognition for computer-aided dietary assessment[C]// Wuhan: International Conference on Inclusive Smart Cities and Digital Health, 2016.
[6] 孫俊,譚文軍,毛罕平,等. 基于改進卷積神經(jīng)網(wǎng)絡(luò)的多種植物葉片病害識別[J]. 農(nóng)業(yè)工程學(xué)報,2017,33(19):209-215.
Sun Jun, Tan Wenjun, Mao Hanping, el at. Recognition of multiple plant leaf diseases based on improved convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(19): 209-215. (in Chinese with English abstract)
[7] 趙德安,吳任迪,劉曉洋,等. 基于YOLO深度卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜背景下機器人采摘蘋果定位[J]. 農(nóng)業(yè)工程學(xué)報,2019,35(3):164-173.
Zhao De'an, Wu Rendi, Liu Xiaoyang, et al. Robot picking apple location under complex background based on Yolo deep convolution neural network[J]. Transactions of the Chinese Society of Agricultural Engineering(Transactions of the CSAE), 2019, 35(3): 164-173. (in Chinese with English abstract)
[8] 李就好,林樂堅,田凱,等. 改進Faster R-CNN的田間苦瓜葉部病害檢測[J]. 農(nóng)業(yè)工程學(xué)報,2020,36(12):179-185.
Li Jiuhao, Lin Lejian, Tian Kai, et al. Detection of balsam pear leaf diseases in the field by improved Faster R-CNN [J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(12): 179-185. (in Chinese with English abstract)
[9] 孫俊,譚文軍,武小紅,等. 多通道深度可分離卷積模型實時識別復(fù)雜背景下甜菜與雜草[J]. 農(nóng)業(yè)工程學(xué)報,2019,35(12):184-190.
Sun Jun, Tan Wenjun, Wu Xiaohong, et al. Real time recognition of sugarbeet and weeds under complex background by multi-channel depth separable convolution model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(12): 184-190. (in Chinese with English abstract)
[10] 李云伍,徐俊杰,劉得雄,等. 基于改進空洞卷積神經(jīng)網(wǎng)絡(luò)的丘陵山區(qū)田間道路場景識別[J]. 農(nóng)業(yè)工程學(xué)報,2019,35(7):150-159.
Li Yunwu, Xu Junjie, Liu Dexiong, et al. Field road scene recognition in hilly regions based on improved dilated convolutional networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(7): 150-159. (in Chinese with English abstract)
[11] 賈偉寬,李倩雯,張中華,等. 復(fù)雜環(huán)境下柿子和蘋果綠色果實的優(yōu)化SOLO分割算法[J]. 農(nóng)業(yè)工程學(xué)報,2021,37(18):121-127.
Jia Weikuan, Li Qianwen, Zhang Zhonghua, et al. Optimal solo segmentation algorithm of persimmon and apple green fruits in complex environment[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37 (18): 121-127. (in Chinese with English abstract)
[12] 薛君蕊,王昱潭,曲愛麗,等. 基于改進FCN-8s的靈武長棗圖像分割方法[J]. 農(nóng)業(yè)工程學(xué)報,2021,37(5):191-197.
Xue Junrui, Wang Yutan, Qu Aili, et al. Image segmentation method for Lingwu long jujubes based on improved FCN-8s[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(5): 191-197. (in Chinese with English abstract)
[13] Tian Y, Yang G, Wang Z, et al. Apple detection during different growth stages in orchards using the improved YOLO-V3 model[J]. Computers and Electronics in Agriculture, 2019, 157: 417-426.
[14] 寧政通,羅陸鋒,廖嘉欣,等. 基于深度學(xué)習(xí)的葡萄果梗識別與最優(yōu)采摘定位[J]. 農(nóng)業(yè)工程學(xué)報,2021,37(9):222-229.
Ning Zhengtong, Luo Lufeng, Liao Jiaxin, et al. Grape stem recognition and optimal picking location based on deep learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(9): 222-229. (in Chinese with English abstract)
[15] Santos T, De Souza L, Dos Santos A, et al. Embrapa wine grape instance segmentation dataset-Embrapa WGISD[EB/OL]. [2022-03-10]. https://doi.org/10.5281/zenodo.3361736.
[16] He K M, Zhang X, Sun J, et al. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification[C]//Santiago: Proceedings of the IEEE International Conference on Computer Vision, 2015: 1026-1034.
[17] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//Boston: Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition: IEEE, 2015: 1-9.
[18] Szegedy C, Vanhoucke V, Ioffe S, et al. Re-thinking the inception architecture for computer vision[C]//Las Vegas: Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition: IEEE, 2016: 2818-2826.
[19] Ibtehaz N, Rahman M. S, Multiresunet: Rethinking the u-net architecture for multimodal biomedical image segmentation[J]. Neural Networks, 2020, 121: 74-78.
[20] Chen L C, Zhu Y, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Munich: Computer Vision and Pattern Recognition, IEEE, 2018: 4040-4048.
[21] Ronneberger O, Fischer P, Brox T. U-Net: Convolutional networks for biomedical image segmentation[C]//Munich: International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, 2015: 234-241.
[22] Badrinarayanan V, Kendall A, Cipolla R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2418-2495.
[23] Yu C Q, Wang J B, Peng C, et al. BiSeNet: Bilateral segmentation network for real-time semantic segmentation[C]//Salt Lake City: IEEE Conference on Computer Vision and Pattern Recognition, 2018.
[24] Li H C, Xiong P F, Fan H Q, et al. DFANet: Deep feature aggregation for real-time semantic segmentation[C]// Long Beach: IEEE Conference on Computer Vision and Pattern Recognition. 2019.
[25] Paszke A, Chaurasia A, Kim S, et al. ENet: A deep neural network architecture for real-time semantic segmentation. [EB/OL]. (2016-06-07)[2022-03-10].https://doi.org/10.48550/ arXiv.1606.02147.
[26] Howard A, Sandler M, Chu G, et al. Searching for mobilenetv3[C]//Seoul: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). 2019.
Real-time semantic segmentation method for field grapes based on channel feature pyramid
Sun Jun, Gong Dongjian, Yao Kunshan, Lu Bing, Dai Chunxia, Wu Xiaohong
(,212013,)
Automated and intelligent harvesting has been one of the most important steps for urgent task in the grape industry. However, the current models of fruit recognition have posed a great balance between accuracy and real-time performance. In this study, a lightweight and real-time semantic segmentation model was proposed for field grape harvesting using a channel feature pyramid. Firstly, a publicly available dataset of field grape instance segmentation was used as the experimental object. A total of 300 grape images were collected with the different pruning periods, lighting conditions, and maturity levels. The LabelMe annotation tool was used to build the field grape dataset. Four types of objects were annotated, including the background, leaves, grapes, and stems. The dataset was then expanded using random enhancement, resulting in a total of 1200 images. Since the original images were too large in pixels to be trained directly, the image resolution was uniformly compressed to 512×512 (pixels) for better training efficiency of the network model. Secondly, the convolutional kernels of different sizes were arranged in the perceptual fields, due to the huge differences in the grape size and location. The channel feature pyramid module was then utilized for the feature extraction. The 3×3, 5×5, and 7×7 multi-scale feature extraction datasets were then achieved for the jumping connections of 1×3 and 3×1 null convolutions in a single channel. As such, the multi-scale and contextual features were effectively extracted from the grape images. At the same time, the model parameters were reduced to increase the trainable ones for less information loss. The convolutional fusion structure was pooled during down-sampling, instead of the traditional maximum pooling structure. The jump joints were employed in the decoding part, in order to fuse information from different feature layers for the recovery of image details. Finally, the improved model was tested on a grape test set. The experimental results showed that the Mean Intersection over Union (MIoU) was 78.8%, The Mean Pixel Accuracy (MPA) was 90.3%, and the real-time processing speed was 68.56 frames/s. The model size was only 4.88 MB. The accuracies of Mean IoU were improved by 7.9, 5.7, and 10.5 percentage points in the real-time semantic segmentation networks, respectively, compared with the BiSeNet, ENet, and DFAnet. The accuracies of the improved model increased by 1.2 and 8.8 percentage points, respectively, compared with lightweight networks using mobilienetv3 and inception as encoders. Therefore, the proposed network presented a significant advantage over the real-time and lightweight networks, in terms of segmentation accuracy. The mean IoUs of the semantic segmentation network was reduced by 2.3, 2.0, and 3.7 percentage points, respectively, but the model sizes were 12.3%, 4.1%, and 7.4%, respectively, compared with the classical networks, Deeplabv3+, SegNet, and UNet. The real-time requirement fully met the tradeoff between real-time and accuracy. The improved model can be expected to serve as the segmentation recognition of field grapes in smart agriculture. The finding can also provide technical support for the visual recognition systems in the grape-picking robots.
machine vision; image recognition; semantic segmentation; real-time; grape; CFP
10.11975/j.issn.1002-6819.2022.17.016
S126
A
1002-6819(2022)-17-0150-08
孫俊,宮東見,姚坤杉,等. 基于通道特征金字塔的田間葡萄實時語義分割方法[J]. 農(nóng)業(yè)工程學(xué)報,2022,38(17):150-157.doi:10.11975/j.issn.1002-6819.2022.17.016 http://www.tcsae.org
Sun Jun, Gong Dongjian, Yao Kunshan, et al.Real-time semantic segmentation method for field grapes based on channel feature pyramid[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(17): 150-157. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.17.016 http://www.tcsae.org
2022-03-10
2022-07-22
江蘇大學(xué)農(nóng)業(yè)裝備學(xué)部項目(NZXB20210210);江蘇高校優(yōu)勢學(xué)科建設(shè)工程(三期)資助項目(PAPD-2018-87)
孫俊,博士,教授,博士生導(dǎo)師,研究方向為計算機技術(shù)在農(nóng)業(yè)工程中的應(yīng)用。Email:sun2000jun@ujs.edu.cn
中國農(nóng)業(yè)工程學(xué)會會員:孫?。‥041200652S)