王 楷,韓 笑,朱華吉,繆祎晟,吳華瑞,3,4
(1.江蘇大學(xué) 計(jì)算機(jī)科學(xué)與通信工程學(xué)院,江蘇 鎮(zhèn)江 212013;2.國家農(nóng)業(yè)信息化工程技術(shù)研究中心,北京 100097;3.北京市農(nóng)林科學(xué)院信息技術(shù)研究中心,北京 100097;4.農(nóng)業(yè)農(nóng)村部數(shù)字鄉(xiāng)村技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100097)
甘藍(lán)工廠化育苗多采用人工方式進(jìn)行溫室管理,人力成本和時間成本較高。隨著智能農(nóng)業(yè)裝備的普及,基于計(jì)算機(jī)視覺[1-2]的作物長勢分析方法得到了快速發(fā)展。在此過程中對穴盤內(nèi)的幼苗個體進(jìn)行準(zhǔn)確分割是一項(xiàng)重要步驟。高效的苗株分割算法可為全周期、多階段的溫室自動化育苗系統(tǒng)提供苗期識別[3]、表型參數(shù)[4]等長勢信息,進(jìn)而提高分段式苗期管理的效率和成苗質(zhì)量。此外,苗株分割算法在病害檢測[5-6]、質(zhì)量分級[7-8]等領(lǐng)域均有很好的應(yīng)用前景。
傳統(tǒng)苗株分割算法[9]通過提取紋理、形狀、色彩[10-12]等淺層特征區(qū)分苗株本體和背景。由于穴盤內(nèi)存在砂巖、雜草等背景干擾,傳統(tǒng)算法難以保證分割效果。深度學(xué)習(xí)算法[13-15]能夠提取圖像深層特征,在對苗株等具有復(fù)雜視覺信息的個體執(zhí)行分割任務(wù)時更具優(yōu)勢。
目前,針對果蔬植株的深度學(xué)習(xí)分割算法已取得較多研究成果。應(yīng)用在農(nóng)業(yè)中的分割算法主要有語義分割和實(shí)例分割算法兩大類。文獻(xiàn)[16]使用融合注意力機(jī)制的輕量級語義分割模型分割白菜幼苗,準(zhǔn)確率為99.2%。文獻(xiàn)[17]基于UNet 分割算法,在其SE-ResNet 主干網(wǎng)絡(luò)中設(shè)計(jì)了短跳連接結(jié)構(gòu),在對高噪聲背景的水稻根系圖像分割測試中的平均交并比為87.4%。上述文獻(xiàn)采用語義分割算法實(shí)現(xiàn)了苗株像素級的掩碼分割,擁有較少的參數(shù)量,便于部署。此類算法適用于同類作物的群體檢測,但無法區(qū)分同類別中的個體,不利于精細(xì)化長勢分析的實(shí)現(xiàn)。實(shí)例分割算法可實(shí)現(xiàn)對不同實(shí)例個體的精準(zhǔn)識別,文獻(xiàn)[18]采用MASK-RCNN 植物分割模型對不同品種的植物莖葉進(jìn)行分割,平均識別精度為70%以上。文獻(xiàn)[19]提出一種多尺度特征融合和密集連接網(wǎng)絡(luò),實(shí)現(xiàn)了對黃花梨疏果期植株的準(zhǔn)確分割,在測試集上.其平均局域重合度(MIoU)為77.97%。文獻(xiàn)[18-19]采用的雙階段實(shí)例分割算法具有較高的檢測精度,但其“先檢測,后分割”的方式影響了模型的計(jì)算速度。農(nóng)業(yè)自動化巡檢等實(shí)時檢測測的需求使得單階段實(shí)例分割算法投入應(yīng)用。文獻(xiàn)[20]基于SOLOv2 單階段分割算法提出一種改進(jìn)的番茄穴盤苗分割算法,實(shí)驗(yàn)結(jié)果表明該算法在交并比為0.5 的情況下,平均準(zhǔn)確率為88.5%,能夠?qū)崿F(xiàn)番茄苗的實(shí)時分割。文獻(xiàn)[21]在YOLACT++網(wǎng)絡(luò)中加入改進(jìn)的Res2Net 模塊,將碧根果的分級準(zhǔn)確率提升至98.5%,平均檢測幀率為21.6 幀/s。單階段的實(shí)例分割算法的檢測速率具有較大優(yōu)勢,但在復(fù)雜背景下的農(nóng)業(yè)應(yīng)用場景中,實(shí)例個體邊緣處的分割精度有待提高。
上述算法的分割對象均為單品種或多品種苗株,尚未實(shí)現(xiàn)對同品種不同苗期的苗株進(jìn)行分割。在苗株間距較近且葉片存在相互遮擋時,算法的分割效果會下降。在穴盤育苗的過程中,種苗的自遮擋面積會隨著種苗生長逐漸增大,導(dǎo)致苗株分割更加困難。針對上述問題,本文基于YOLACT[22]實(shí)例分割算法進(jìn)行改進(jìn),利用遞歸特征金字塔(Recursive Feature Pyramid,RFP)結(jié)構(gòu)[23]增強(qiáng)YOLACT 目標(biāo)檢測模型在圖像邊緣處的分割能力。針對甘藍(lán)育苗早期苗株大小和形狀變化較大,常規(guī)卷積核難以提取完整苗株特征的問題,引入包含空洞卷積的空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)結(jié)構(gòu)[24],通過改變卷積核的尺寸提高感受野,加強(qiáng)多尺度目標(biāo)的識別能力。最后,使用ResNeXt[25]作為主干網(wǎng)絡(luò),在降低模型參數(shù)的同時進(jìn)一步加快收斂速度。
本次育苗實(shí)驗(yàn)于國家農(nóng)業(yè)信息化工程技術(shù)研究中心精準(zhǔn)農(nóng)業(yè)試驗(yàn)基地甘藍(lán)育苗溫室開展,選用的甘藍(lán)品種為中甘-21。育苗時間從2021 年10 月持續(xù)至2021 年11 月,日間溫室環(huán)境溫度保持在15~25 ℃之間。不同苗期的甘藍(lán)種苗所需光照、溫度、水肥條件不同,實(shí)驗(yàn)過程中根據(jù)種苗所處苗期采取的對應(yīng)管理措施[26]見表1。甘藍(lán)在出苗期2~3 天內(nèi)不需要額外的光照和水肥管理,因此本文未對出苗期甘藍(lán)苗進(jìn)行分割識別。實(shí)驗(yàn)采集了同一批次播種的甘藍(lán)30 天育苗周期內(nèi)的圖像數(shù)據(jù),共計(jì)12 000 張JPG 格式的圖片,分辨率為1 024×1 024 像素。使用俯視視角采集距離穴盤高度為10~15 cm 的單株種苗圖像,包括甘藍(lán)子葉平展期、真葉生長期、成苗期和煉苗期4 個生長期。圖1 為部分甘藍(lán)種苗數(shù)據(jù)集中的圖像樣本。
圖1 甘藍(lán)苗數(shù)據(jù)集Fig.1 Cabbage seedlings data set
表1 甘藍(lán)苗期形態(tài)特征及管理措施Table 1 Morphological characteristics and management measures of cabbage in seedling stage
為加快模型訓(xùn)練速度,減輕GPU 訓(xùn)練壓力,本文將圖像分辨率等比例縮放到550×550 像素。訓(xùn)練集和測試集的劃分比例為4∶1。
本次實(shí)驗(yàn)使用Labelme 軟件標(biāo)注甘藍(lán)苗期的圖像,采用人工方式標(biāo)注俯視視角下甘藍(lán)苗株的邊緣區(qū)域,標(biāo)注區(qū)域包含甘藍(lán)苗株的真葉和子葉。部分標(biāo)注后的圖像樣本見圖2。表2 為各苗期對應(yīng)的標(biāo)注圖像數(shù)量,共計(jì)標(biāo)注15 724 個樣本。
圖2 標(biāo)注后圖像樣本Fig.2 Annotated image sample
表2 訓(xùn)練集和測試集標(biāo)注數(shù)量Table 2 Annotation number of training set and testing set 單位:個
不同于MASK-RCNN[27]等采用重定位的兩階段(two-stage)實(shí)例分割算法,YOLACT 算法是一種單階段(one-stage)實(shí)例分割算法,其將分割任務(wù)分為原型掩碼分支和目標(biāo)檢測分支,通過將兩者進(jìn)行線性組合的方式來計(jì)算分割結(jié)果,具有良好的實(shí)時分割性能。本文基于YOLACT 研究YOLACT-RFX 算法,該算法引入遞歸特征金字塔(RFP)結(jié)構(gòu)和ResNeXt 主干網(wǎng)絡(luò)加強(qiáng)對穴盤內(nèi)密集種植的甘藍(lán)苗株邊緣處的特征提取能力,同時利用ASPP 結(jié)構(gòu)加強(qiáng)多尺度甘藍(lán)幼苗特征提取性能。YOLACT-RFX 算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。在特征金字塔(FPN)結(jié)構(gòu)中,底層的特征語義信息較少,但是目標(biāo)位置信息準(zhǔn)確;高層的特征語義信息豐富,但是目標(biāo)位置信息較為匱乏。YOLACT 算法將主干網(wǎng)絡(luò)的C3~C5 層作為輸出向量,對底層特征信息提取不充分。穴盤中的甘藍(lán)苗種植密集,在育苗后期,苗株個體間的相互遮擋現(xiàn)象增加,使得葉片邊緣處分割難度加大。因此,為提高算法對苗株葉片邊緣的位置特征提取性能,本文將ResNeXt 主干網(wǎng)絡(luò)中的C2~C5 共4 層向量作為輸出,結(jié)合遞歸特征金字塔(RFP)結(jié)構(gòu)完成特征提取,并采用并行方式進(jìn)行原型掩碼生成和實(shí)例掩碼系數(shù)預(yù)測2 個任務(wù)。掩碼生成模塊提取RFP 結(jié)構(gòu)中的P2 層數(shù)據(jù),該層擁有更多的紋理、形狀等低級語義信息,便于提高葉片邊緣處的分割質(zhì)量。
圖3 YOLACT-RFX 算法結(jié)構(gòu)Fig.3 Structure of YOLACT-RFX algorithm
實(shí)例掩碼系數(shù)預(yù)測模塊充分利用遞歸特征金字塔結(jié)構(gòu)中P2~P6 共5 層網(wǎng)絡(luò)中的語義信息,在甘藍(lán)苗株特征圖的每個像素點(diǎn)上生成錨定框,計(jì)算生成3 類輸出:苗期類別置信度C、邊界框位置偏移系數(shù)4和苗株個體分割掩碼的置信度系數(shù)K,每個錨定框生成的系數(shù)為4+C+K。
將原型掩碼分支和掩碼系數(shù)分支進(jìn)行線性組合后可得到實(shí)例分割掩碼。Concat 模塊使用矩陣乘法的運(yùn)算方式,經(jīng)過Sigmoid 函數(shù)運(yùn)算后輸出甘藍(lán)苗分割掩碼。計(jì)算方式如式(1)所示:
其中:P是一個h×w×k維度的原型掩碼矩陣;C是k×n維度的掩碼預(yù)測系數(shù)矩陣,n代表經(jīng)過Fast-NMS 算法篩選出的掩碼矩陣個數(shù)。
YOLACT-RFX 算法的損失函數(shù)Loss 由分類損失(Lcls)、邊界框回歸損失(Lbox)和掩碼損失(Lmask)3 部分組成,表達(dá)式如下:
其中:掩碼損失Lmask使用二進(jìn)制交叉熵(Binary Cross Entropy,BCE)函數(shù)計(jì)算線性組合后的實(shí)例掩膜M和真實(shí)掩膜Mgt,其表達(dá)式如式(3)所示。
1.3.1 融合遞歸反饋機(jī)制的特征金字塔結(jié)構(gòu)
進(jìn)入成苗期后的甘藍(lán)苗真葉生長迅速,穴盤相鄰孔位間距較近,會出現(xiàn)苗葉之間的相互干擾和遮擋的現(xiàn)象。常規(guī)特征金字塔結(jié)構(gòu)在面對復(fù)雜場景時的分割效果難以保證,本文使用加入主干網(wǎng)絡(luò)反饋機(jī)制的遞歸特征金字塔結(jié)構(gòu),將特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN)中額外的反饋連接加入自下而上的骨干網(wǎng)絡(luò)中,遞歸式增強(qiáng)FPN 網(wǎng)絡(luò)的表征能力。反饋連接將直接接收來自探測器的梯度特征,并帶回到自下而上的主干網(wǎng)絡(luò)中,從而提高分割精度。該結(jié)構(gòu)同時強(qiáng)化了底層目標(biāo)位置信息和高層語義信息的提取能力,使模型在育苗進(jìn)入成苗期和煉苗期后具有更強(qiáng)的苗株定位能力和邊緣葉片的識別分割能力。RFP 的結(jié)構(gòu)如圖4所示。
圖4 FPN 與RFP 網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Structures of FPN and RFP network
在FPN 網(wǎng)絡(luò)中,對于?i=1,2,…,S,輸出特征層fi推算方法如式(4)所示:
其中:Bi表示自下而上主干的第i級;Fi表示第i次自上而下的FPN 運(yùn)算。融合FPN 的主干輸出一組特征映射{fi|i=1,2,…,S},S表示級數(shù)。加入反饋連接之后的遞歸特征金字塔網(wǎng)絡(luò)輸出特征層fi的推算公式如式(5)所示:
其中:Ri表示在將特征轉(zhuǎn)換連接回自下而上主干之前的特征轉(zhuǎn)換,這使得RFP 成為遞歸操作。將RFP結(jié)構(gòu)展開到一個順序網(wǎng)絡(luò):
其中:i是T展開迭代的次數(shù);上標(biāo)t表示特征網(wǎng)絡(luò)在展開步驟T處的操作。本文設(shè)置迭代次數(shù)T=2。RFP 結(jié)構(gòu)的實(shí)現(xiàn)通過包含空洞空間卷積池化金字塔(ASPP)結(jié)構(gòu)的FPN 模塊一起來執(zhí)行遞歸計(jì)算,RFP的展開結(jié)構(gòu)如圖5 所示。
圖5 RFP 網(wǎng)絡(luò)的展開結(jié)構(gòu)Fig.5 Expanded structure of RFP network
1.3.2 空洞空間金字塔池化結(jié)構(gòu)
甘藍(lán)育苗過程中苗株個體的尺寸變化較大,使用常規(guī)的3×3 卷積難以提取完整的苗株空間信息。在YOLACT 網(wǎng)絡(luò)中,對不同尺度目標(biāo)的檢測性能依賴于FPN 結(jié)構(gòu),在固定倍率縮放下的特征提取能力有限。水肥供給和光照條件的變化導(dǎo)致甘藍(lán)苗株的生長具有一定的隨機(jī)性,同一苗期內(nèi)種苗的生長方向、株寬尺寸等也會存在差異。因此,需要根據(jù)其生長特性,強(qiáng)化多尺度目標(biāo)的檢測能力??斩淳矸e[28]通過在標(biāo)準(zhǔn)卷積的基礎(chǔ)上加入不同倍率的間隔,實(shí)現(xiàn)增大網(wǎng)絡(luò)感受野、增強(qiáng)捕獲多尺度上下文信息的效果??斩纯臻g金字塔池化結(jié)構(gòu)使用了具有不同采樣率的多個并行空洞卷積層。將每個采樣率提取的特征在單獨(dú)的分支中進(jìn)一步處理,融合后輸出特征。該模塊通過不同的空洞率構(gòu)建不同感受野的卷積核,用來獲取多尺度物體信息。ASPP 模型的結(jié)構(gòu)如圖6 所示。ASPP 模塊由不同卷積率的空洞卷積分支和一個平均池化分支組成,每一個分支都壓縮為輸入通道的1/4,最后共同進(jìn)入到Concat 模塊,合并擴(kuò)大通道數(shù)后輸出特征向量。本文數(shù)據(jù)集中的甘藍(lán)苗株多為中、大尺寸的目標(biāo),故選取了較大的空洞卷積倍率,4 個空洞卷積倍率分別為1、6、12、1。
圖6 ASPP 模塊的結(jié)構(gòu)Fig.6 Structure of ASPP module
1.3.3 ResNeXt 主干網(wǎng)絡(luò)
為減少主干模型參數(shù)和匹配遞歸特征金字塔結(jié)構(gòu),YOLACT-RFX 算法使 用ResNeXt-101 網(wǎng)絡(luò)作 為主干特征提取網(wǎng)絡(luò)。ResNeXt 網(wǎng)絡(luò)采用了分組卷積的思想,相較于原始YOLACT 模型中的ResNet 網(wǎng)絡(luò),ResNeXt 網(wǎng)絡(luò)擁有更少的參數(shù)量和更高的精度[29]。
ResNeXt 網(wǎng)絡(luò)的特征提取模塊分為4 個階段,每個階段由1×1 和3×3 的卷積模塊組成。ResNeXt-101對應(yīng)的4 個特征 提取層 的個數(shù) 分別為3、4、23、3。ResNeXt-101 網(wǎng)絡(luò)的參數(shù)見表3。
表3 ResNeXt-101 網(wǎng)絡(luò)參數(shù)Table 3 ResNeXt-101 network parameters
在二級遞歸特征金字塔結(jié)構(gòu)中,主干網(wǎng)絡(luò)需要將當(dāng)前特征層x和前一級金字塔網(wǎng)絡(luò)中計(jì)算得出的遞歸特征向量R(f)同時作為輸入。因此,本文在主干網(wǎng)絡(luò)的4 層特征提取模塊中各添加一條RFP 特征反饋輸入通路,該通路采用了1×1 的卷積塊,并將初始權(quán)值設(shè)置為0,從而確保在前向特征金字塔結(jié)構(gòu)中加載特征向量時保持參數(shù)一致。改進(jìn)后的ResNeXt主干網(wǎng)絡(luò)如圖7 所示。
圖7 ResNeXt 主干網(wǎng)絡(luò)的改進(jìn)Fig.7 ResNeXt backbone improvements
本文實(shí)驗(yàn)使用基于Windows 11 操作系統(tǒng)的計(jì)算 機(jī),CPU 為Intel i5-11400F,GPU 為NVIDIA GeForce RTX 3060。實(shí)驗(yàn)采用的深度學(xué)習(xí)框架為PyTorch 1.11,編程語言為Python 3.7。
模型訓(xùn)練時采用隨機(jī)梯度下降法,初始學(xué)習(xí)率設(shè)置為0.000 1,梯度更新值設(shè)置為0.9,權(quán)重衰減項(xiàng)設(shè)為0.000 5,實(shí)驗(yàn)訓(xùn)練次數(shù)Epoch 設(shè)置為60 輪,學(xué)習(xí)率分別在第20、42、49 和52 輪次線性下降。
實(shí)驗(yàn)設(shè)定閾值IoU=0.50,利用平均精度(Average Precision,AP),平均召回率(Average Recall,AR)和各類平均精度(mean Average Precision,mAP)評價算法性能,其表達(dá)式如下:
其中:TP 是True Positives的簡寫,F(xiàn)P是False Positives的簡寫,F(xiàn)N 是False Negatives 的簡寫,TTP、FFP、FFN是根據(jù)Ground Truth 的預(yù)測結(jié)果。
2.3.1 算法性能分析
為驗(yàn)證遞歸特征金字塔結(jié)構(gòu)(RFP)和ResNeXt骨干網(wǎng)絡(luò)架構(gòu)的有效性,將YOLACT 算法、引入遞歸特征金字塔結(jié)構(gòu)的YOLACT-RF 算法和基于改進(jìn)ResNeXt 主干網(wǎng)絡(luò)的YOLACT-RFX 算法進(jìn)行對比。從收斂速度、檢測精度和分割精度3 個方面比較模型性能,結(jié)果如圖8 所示。
圖8 訓(xùn)練損失曲線Fig.8 Training loss curve
由圖8 可知,遞歸特征金字塔結(jié)構(gòu)的引入有效地加速了模型收斂,同時也使模型的總損失值降低至1.82。在進(jìn)一步融合ResNeXt 主干網(wǎng)絡(luò)后,YOLACT-RFX 算法的收斂速度得到加強(qiáng),在迭代80 000 次后實(shí)現(xiàn)了模型收斂。將甘藍(lán)苗株測試圖像分別輸入到Y(jié)OLACT、YOLACT-RF 和YOLACT-RFX 3 種算法中,計(jì)算交并比IoU=0.50 時的檢測平均精度(bbox_mAP)和分割平均精度(segm_mAP)。圖9所示為檢測平均精度和分割平均精度的訓(xùn)練曲線。
圖9 檢測平均精度和分割平均精度訓(xùn)練曲線Fig.9 Training curves of detection and segmentation mean precision
由圖9 可知,在采用相同的特征提取網(wǎng)絡(luò)ResNet-101 時,使用遞歸特征金字塔結(jié)構(gòu)的YOLACT-RF 算法的目標(biāo)檢測平均精度和分割平均精度分別為0.827 和0.823,相較于YOACT 算法分別提升1% 和1.5%。使用ResNeXt-101 主干網(wǎng)絡(luò)后YOLACT-RFX 算法的性能進(jìn)一步提高,目標(biāo)檢測平均精度為0.851,分割平均精度為0.841,對比YOLACT 算法分別提升了3.4%和3.6%。實(shí)驗(yàn)結(jié)果證明遞歸特征金字塔結(jié)構(gòu)和ResNeXt 主干網(wǎng)絡(luò)的使用可以有效提升算法精度。上述算法在各苗期內(nèi)的分割平均準(zhǔn)確率見表4,表中加粗?jǐn)?shù)字表示該組數(shù)據(jù)最大值。如表4 所示,相較于原始YOLACT 算法,YOLACT-RFX 算法在4 個甘藍(lán)苗期內(nèi)的平均準(zhǔn)確率均有明顯提升。其中,子葉平展期提升了3.7 個百分點(diǎn),煉苗期提升了9.4 個百分點(diǎn)。成苗期和煉苗期時的甘藍(lán)苗株間的交錯遮擋現(xiàn)象較多,YOLACT-RFX算法顯著提高了對育苗后期苗株的識別分割能力。
表4 不同苗期的分割性能對比Table 4 Comparison of segmentation performance in different seedling stages %
甘藍(lán)苗在生長過程的尺寸變化較大,且在同一苗期內(nèi),苗株個體間的的尺寸和形狀也存在差異。實(shí)驗(yàn)評估了上述算法在不同尺度樣本中的分割性能。使用AP_S、AP_M、AP_L 表示小、中、大3 個尺度樣本的平均準(zhǔn)確率,使用AR_S、AR_M、AR_L 表示小、中、大3 個尺度的平均召回率,數(shù)據(jù)見表5,表中加粗?jǐn)?shù)字表示該組數(shù)據(jù)最大值。
表5 不同樣本尺度的分割性能對比Table 5 Comparison of segmentation performance at different sample scales
在甘藍(lán)育苗的后期,穴盤內(nèi)的白色珍珠巖顆粒會隨著基質(zhì)濕度的增加變?yōu)榫G色。由于顏色與甘藍(lán)苗葉片相近,分割任務(wù)難度會進(jìn)一步增大??斩纯臻g池化金字塔(ASPP)結(jié)構(gòu)的引入加強(qiáng)了YOLACTRFX 算法對中、大尺度目標(biāo)的檢測能力,使YOLACT-RFX 算法對成苗期和煉苗期內(nèi)的甘藍(lán)苗的識別性能更強(qiáng)。由表5 可知,YOLACT-RFX 算法在3 種尺度上的平均準(zhǔn)確率均優(yōu)于YOLACT 算法,提高了2.5~12.3 個百分點(diǎn),在平均召回率方面對比YOLACT 算法提升了 0.5~12.5 個百分 點(diǎn)。YOLACT-RFX 算法訓(xùn)練迭代1 次的平均時間為0.68 s,相較于原始YOLACT 算法提升了約4 個百分點(diǎn),對比YOLACT-RF 算法提升了約7 個百分點(diǎn),ResNeXt 骨干網(wǎng)絡(luò)的使用加速了模型收斂,使改進(jìn)后的算法擁有較快的平均訓(xùn)練速度。
2.3.2 不同分割算法的性能對比
為驗(yàn)證YOLACT-RFX 算法的性能,本文引入多種主流實(shí)例分割算法進(jìn)行對比實(shí)驗(yàn),包括采用無錨框設(shè)計(jì)的快速實(shí)例分割算法SOLO[30],兩階段實(shí)例分割算法MASK-RCNN 和多階段實(shí)例分割算法QueryInst[31]。在閾值IoU=0.5 時對比 上述算 法的各類平均精度(mAP),平均召回率(Average Recall)以及平均檢測幀率(Frames Per Second,F(xiàn)PS)3 項(xiàng)指標(biāo),數(shù)據(jù)見表6,表中加粗?jǐn)?shù)字表示該組數(shù)據(jù)最大值。
表6 不同算法的分割性能對比Table 6 Comparison of segmentation performance of different algorithms
由表6 可知,YOLACT-RFX 算法的各類平均精度為84.4%,相較于表6 中對比算法高出2.5~22 個百分點(diǎn)。SOLO 算法的分割平均幀率為18.7 幀/s,擁有最好的實(shí)時性能,但各類平均精度僅為62.4%,分割精度較差。由于遞歸特征金字塔結(jié)構(gòu)的引入,YOLACT-RFX 的平均幀率下降為13.8 幀/s,但相較于MASK-RCNN 等兩階段分割算法仍然具有良好的實(shí)時分割性能。
本文針對表6 中5 種算法進(jìn)行了分割可視化。圖10 為甘藍(lán)苗數(shù)據(jù)集的分割結(jié)果。在甘藍(lán)育苗早期,YOLACT 算法會受到穴盤、顏色相近的砂巖、標(biāo)簽等背景的影響。從圖10(b)中可以看出,YOLACT算法出現(xiàn)將標(biāo)簽、穴盤邊緣等物體錯識別為甘藍(lán)苗的情況,本文中的YOLACT-RFX 算法識別正確。SOLO 算法的分割速度較快,但生成的掩碼質(zhì)量不佳,由圖10(c)可知,苗株的莖葉部分和葉片邊緣部分有欠分割的現(xiàn)象。在進(jìn)入成苗期和煉苗期之后,由于苗盤孔位間距較窄,苗株之間的相互遮擋情況變多,苗株分割的難度也會增大。圖10(b)中YOLACT 算法容易受到相鄰苗株的影響,存在誤分割的現(xiàn) 象,而 圖10(d)中 的MASK-RCNN 算法和圖10(e)中的QueryInst 算法出現(xiàn)了苗期識別錯誤的問題。遞歸式特征金字塔結(jié)構(gòu)可有效提高葉片邊緣區(qū)域的分割精度,本文YOLACT-RFX 算法在面對復(fù)雜環(huán)境時有著更高的苗期識別率,且在莖葉區(qū)域和葉片遮擋區(qū)域的分割效果更好。因此,本文YOLACT-RFX 算法更適用于甘藍(lán)工廠化育苗場景中的高精度分割任務(wù)。
圖10 不同算法的甘藍(lán)苗株分割結(jié)果對比Fig.10 Comparison of segmentation results of cabbage seedlings by different algorithms
甘藍(lán)育苗過程中背景復(fù)雜、苗株間相互遮擋嚴(yán)重等因素導(dǎo)致難以對甘藍(lán)苗株進(jìn)行分割,本文以YOLACT 算法為基礎(chǔ),通過引入遞歸特征金字塔結(jié)構(gòu)和ResNeXt 特征提取網(wǎng)絡(luò)提高算法對莖葉遮擋區(qū)域的分割,引入空洞空間金字塔池化結(jié)構(gòu)提高對不同苗期,不同大小尺度的苗株的分割性能。改進(jìn)后的YOLACT-RFX 算法在交并比為0.5 下的各類平均精度和平均召回率分別為84.4%和92.7%,相較于YOLACT 算法提升了3.6、3.9 個百分點(diǎn)。在4 個苗期的甘藍(lán)種苗分割測試中,YOLACT-RFX 算法的平均分割精度最高提升了9.4 個百分點(diǎn),滿足甘藍(lán)工廠化育苗中的高精度分割要求,為溫室自動化甘藍(lán)苗期管理奠定了基礎(chǔ)。甘藍(lán)苗葉心處真葉的位置較為隱蔽,在單視角觀測的情況下難以進(jìn)行精確的識別分割,下一步考慮采用多視角觀測的方式,提高甘藍(lán)苗期識別的準(zhǔn)確率和分割質(zhì)量。