張睿萍,寧 芊,2,雷印杰,陳炳才
(1.四川大學(xué)電子信息學(xué)院,四川 成都 610065;2.新疆師范大學(xué)物理與電子工程學(xué)院,新疆 烏魯木齊 830054;3.大連理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)
近年來(lái),隨著我國(guó)經(jīng)濟(jì)水平的高速發(fā)展,人們的消費(fèi)水平不斷提高,相應(yīng)地,垃圾的大量產(chǎn)出、垃圾的隨意丟棄、垃圾的簡(jiǎn)單堆放與處理,也導(dǎo)致很多問(wèn)題產(chǎn)生[1]。比如破壞良好的生活環(huán)境,污染水源、土壤、空氣等環(huán)境,導(dǎo)致蚊蟲(chóng)、細(xì)菌大量孳生,增加傳染病發(fā)生的概率等。實(shí)行垃圾分類(lèi),可以改善人們的生活環(huán)境,減少垃圾對(duì)環(huán)境的污染,從而有利于保障人們的健康、經(jīng)濟(jì)的可持續(xù)發(fā)展。推行垃圾分類(lèi)勢(shì)在必行,智能化的垃圾分類(lèi)可以幫助人們有效地進(jìn)行垃圾分類(lèi)和回收利用,提高垃圾回收的效率[2]。
本文基于深度學(xué)習(xí)技術(shù)和圖像檢測(cè)技術(shù),對(duì)生活垃圾的檢測(cè)與分類(lèi)進(jìn)行了研究,本文主要工作包括:(1) 針對(duì)垃圾分類(lèi)的人工預(yù)處理難題,提高生活垃圾檢測(cè)的有效性和準(zhǔn)確性,提出了改進(jìn)的基于掩碼的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)Mask R-CNN(Mask Region-based Convolutional Neural Network)算法[3];(2) 為了解決垃圾圖像特征提取的難題,提出了基于ResNeXt101[4]的垃圾圖像特征提取方法;(3) 與傳統(tǒng)Faster R-CNN 算法[5]和YOLOv3算法[6]進(jìn)行實(shí)驗(yàn)對(duì)比,分析相關(guān)目標(biāo)檢測(cè)算法應(yīng)用于生活垃圾的檢測(cè)性能。
物體檢測(cè)作為計(jì)算機(jī)視覺(jué)中目標(biāo)檢測(cè)的一個(gè)重要分支,許多的研究者以此為研究方向,應(yīng)用了大量?jī)?yōu)秀算法和網(wǎng)絡(luò)模型結(jié)構(gòu),解決了目標(biāo)識(shí)別[7]和圖像分類(lèi)等[8]現(xiàn)實(shí)問(wèn)題。相比于單純的目標(biāo)識(shí)別或圖像分類(lèi),實(shí)例分割綜合了目標(biāo)檢測(cè)和語(yǔ)義分割,更接近人眼對(duì)物體的觀察,更適用于垃圾檢測(cè)。2012年,AlexNet憑借卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)[9]結(jié)構(gòu)摘得ImageNet視覺(jué)識(shí)別挑戰(zhàn)賽的桂冠。至此,基于滑動(dòng)窗口或特征點(diǎn)匹配等的傳統(tǒng)方法被淘汰,開(kāi)創(chuàng)了基于深度神經(jīng)網(wǎng)絡(luò)的圖像檢測(cè)的新時(shí)代[10]。
近年來(lái),隨著卷積神經(jīng)網(wǎng)絡(luò)CNN的發(fā)展,物體分類(lèi)和檢測(cè)方法也得到飛速發(fā)展。2014年,Girshick等[11]提出的基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)算法R-CNN(Regions with CNN features)[11],極大地提高了物體分類(lèi)和檢測(cè)的精度。R-CNN首先產(chǎn)生候選窗口,進(jìn)行特征提取后利用支持向量機(jī)完成分類(lèi),最后進(jìn)行窗口回歸。然而,R-CNN算法檢測(cè)效率低下,且占用內(nèi)存大。因此,快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)Fast R-CNN(Fast Regions with CNN features)[12]應(yīng)運(yùn)而生。Fast R-CNN將圖像輸入網(wǎng)絡(luò)后,一方面對(duì)候選窗口進(jìn)行映射,提高了物體檢測(cè)的速度,另一方面通過(guò)自適應(yīng)池化對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化來(lái)提升檢測(cè)的準(zhǔn)確率。但由于Fast R-CNN對(duì)于候選框的特征提取采用的是選擇性搜索,導(dǎo)致其實(shí)時(shí)性不強(qiáng)。2016年,Ren等[5]提出了新的更快速的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)Faster R-CNN(Faster Regions with CNN features)。在結(jié)構(gòu)上,F(xiàn)aster R-CNN將特征提取、邊框回歸和生成掩碼整合在一個(gè)網(wǎng)絡(luò)中,使得綜合性能有較大提高,在檢測(cè)速度方面尤為明顯。
經(jīng)過(guò)R-CNN、Fast R-CNN和Faster R-CNN的積淀,基于掩碼的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)Mask R-CNN不僅能夠找到圖像中的目標(biāo)物體,還能對(duì)其進(jìn)行精確的分割。Mask R-CNN具有如下特點(diǎn):(1)Faster R-CNN中每個(gè)候選框使用全卷積網(wǎng)絡(luò)FCN(Fully Convolutional Network)[13]進(jìn)行語(yǔ)義分割。Mask R-CNN具有強(qiáng)大的語(yǔ)義分割分支,實(shí)現(xiàn)了掩碼和類(lèi)別預(yù)測(cè)關(guān)系的解耦,掩碼分支只進(jìn)行語(yǔ)義分割,類(lèi)別預(yù)測(cè)的任務(wù)交給另一個(gè)分支。(2)引入了新的區(qū)域特征聚集方式RoIAlign代替Faster R-CNN中的RoIPooling,盡管對(duì)于邊框的影響不大,但極大地提升了掩碼的精度,使用RoIAlign后掩碼的精度從10%提高到了50%[5]。
基于眾多可應(yīng)用于生活垃圾檢測(cè)的算法,Mask R-CNN超過(guò)了當(dāng)時(shí)所有的端對(duì)端的網(wǎng)絡(luò)模型,實(shí)現(xiàn)了像素級(jí)別的檢測(cè),可以精確識(shí)別出復(fù)雜物體的輪廓。本文的實(shí)際應(yīng)用場(chǎng)景中包含僅具有局部特征的物體,不同形變的物體等,而Mask R-CNN相比較于其他算法具有更好的檢測(cè)效果。所以,選擇Mask R-CNN作為本文的算法。
語(yǔ)義分割和目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域2個(gè)非常經(jīng)典的應(yīng)用。FCN是語(yǔ)義分割的代表性算法,F(xiàn)aster R-CNN是目標(biāo)檢測(cè)的代表性算法。Mask R-CNN結(jié)合FCN和Faster R-CNN,使其兼?zhèn)湔Z(yǔ)義分割和目標(biāo)檢測(cè)2個(gè)功能并提高了模型的精度。
本文將ResNeXt101作為特征提取網(wǎng)絡(luò),利用Mask R-CNN提取全局和局部特征,并分析了Mask R-CNN應(yīng)用于垃圾檢測(cè)任務(wù)的適用性和有效性。Mask R-CNN算法框架如圖 1所示,對(duì)預(yù)處理后的圖像進(jìn)行特征提取,生成對(duì)應(yīng)的特征圖(Feature Map),從特征圖中獲取的多個(gè)候選框感興趣區(qū)域ROI(Region of Interest)并經(jīng)區(qū)域建議網(wǎng)絡(luò)RPN(Region Proposal Network)[5]進(jìn)行二值分類(lèi)和邊框回歸,對(duì)過(guò)濾掉的部分候選框進(jìn)行RoIAlign操作,最后將多個(gè)候選框進(jìn)行N分類(lèi)、邊框回歸和掩碼生成。
Figure 1 Framework of Mask R-CNN algorithm圖1 Mask R-CNN算法框架圖
3.2.1 特征提取網(wǎng)絡(luò)
目前Mask R-CNN算法所采用的特征提取主干網(wǎng)絡(luò)為深度殘差網(wǎng)絡(luò)ResNet(deep Residual Network)[14]。盡管殘差學(xué)習(xí)解決了深度網(wǎng)絡(luò)的退化問(wèn)題,但是由于ResNet使用了太多的超參數(shù)和計(jì)算過(guò)程,難以將其直接應(yīng)用到新的數(shù)據(jù)集上。
本文以ResNeXt101作為主干網(wǎng)絡(luò)進(jìn)行特征提取。ResNeXt利用ResNet規(guī)則的殘差塊,引入變量基數(shù)來(lái)控制分組的數(shù)量[4],即通過(guò)改變每個(gè)分支產(chǎn)生特征圖的通道數(shù)n(n>1),以達(dá)到2種不同卷積方式的平衡,并結(jié)合分組卷積壓縮模型參數(shù),在不增加模型復(fù)雜度和參數(shù)數(shù)量的情況下提高了模型的性能。
Figure 2 Comparison of ResNet and ResNeXt infrastructures圖2 ResNet與ResNeXt基礎(chǔ)結(jié)構(gòu)對(duì)比圖
相比于圖2a中傳統(tǒng)的ResNet結(jié)構(gòu),圖2b中的ResNeXt結(jié)合了ResNet和Inception[15]的優(yōu)勢(shì),引入分解-變換-合并的結(jié)構(gòu),每一個(gè)分組采用相同的拓?fù)浣Y(jié)構(gòu),此時(shí)Inception表示如式(1)所示:
(1)
其中,x為輸入特征;C為Inception的基數(shù)(Cardinality);Ti(·)是任意變換,一般由連續(xù)的卷積組成。ResNeXt提出介于普通卷積和深度可分離卷積的策略,不需要確定ResNet中較多超參數(shù)和人工設(shè)計(jì)復(fù)雜的Inception結(jié)構(gòu)細(xì)節(jié),完整的ResNeXt表示如式(2)所示:
(2)
以ResNeXt101作為主干網(wǎng)絡(luò)進(jìn)行特征提取避免了設(shè)置太多的超參數(shù)。ResNeXt101中每一組C個(gè)不同的分支可進(jìn)行相同的簡(jiǎn)單變換[16,17],本文采用分組數(shù)量為32、每一組的通道數(shù)為8的分組結(jié)構(gòu),其具體配置如表1所示。由表1中FLOPs項(xiàng)可知,ResNeXt101(32×8d)的計(jì)算力為16.54×109,與ResNet101(7.87×109)相比提升了2.1倍。
在卷積神經(jīng)網(wǎng)絡(luò)中,經(jīng)過(guò)多次卷積操作之后,獲取到的特征通常擁有較大的感受野[10],比較適合檢測(cè)大目標(biāo),檢測(cè)小目標(biāo)的能力較差。因此,為了克服該困難,本文將ResNeXt模型與特征金字塔模型FPN(Feature Pyramid Network)[18]融合。FPN網(wǎng)絡(luò)模型合并了卷積過(guò)程中深層的強(qiáng)語(yǔ)義特征和低層的大量幾何信息,使其兼?zhèn)鋸?qiáng)空間信息和語(yǔ)義信息,滿足更嚴(yán)格的檢測(cè)需求,在檢測(cè)時(shí)間幾乎不變的情況下可以提升檢測(cè)的精度。
FPN通過(guò)自底向上、自頂向下和橫向連接將各個(gè)層級(jí)的特征進(jìn)行融合。自底向上是簡(jiǎn)單的特征提取過(guò)程;自頂向下是從最高層開(kāi)始進(jìn)行上采樣。FPN使用最近鄰上采樣以減少訓(xùn)練參數(shù),減少計(jì)算量。如圖3所示,基于上述思想,為了保證多尺度信息的融合,F(xiàn)PN將從ResNeXt網(wǎng)絡(luò)自底向上生成的特征圖(Conv1~Conv5)輸出為尺寸不同但深度相同的4種特征圖(M2~M5),這些新的特征融合了ResNeXt中不同卷積層的結(jié)果,最終采用3×3的卷積核來(lái)消除不同層之間的混疊效應(yīng),并輸出一組新的用于預(yù)測(cè)物體邊緣、類(lèi)別和掩碼的特征P2,P3,P4和P5。
Table 1 ResNeXt101(32×8d) configuration表1 ResNeXt101(32×8d)配置
Figure 3 Connection diagram of FPN and ResNeXt圖3 FPN與ResNeXt連接示意圖
3.2.2 訓(xùn)練網(wǎng)絡(luò)
本文使用labelme圖像標(biāo)注工具對(duì)每一幅待訓(xùn)練圖像中的目標(biāo)進(jìn)行標(biāo)注,以獲取圖像中目標(biāo)的信息,包含每個(gè)目標(biāo)的分類(lèi)標(biāo)簽、邊框和掩碼。
根據(jù)區(qū)域建議框和真實(shí)樣本的邊框重疊比例判斷樣本的正負(fù)。計(jì)算的區(qū)域建議框與真實(shí)樣本的IoU[19],當(dāng)IoU大于0.5時(shí)為正樣本(即前景),當(dāng)IoU小于0.5時(shí)為負(fù)樣本(即背景)。最后輸出目標(biāo)候選框和對(duì)應(yīng)的類(lèi)別、邊框和掩碼。
訓(xùn)練時(shí),對(duì)輸入圖像通過(guò)卷積操作進(jìn)行特征融合,如圖4b所示。FPN生成的各層特征圖輸入?yún)^(qū)域建議網(wǎng)絡(luò)。由RPN獲取類(lèi)別、邊框和后續(xù)用于修正位置和大小的分類(lèi)得分。此時(shí)生成的錨框數(shù)量巨大,會(huì)造成大量的重疊,導(dǎo)致同一目標(biāo)具有多個(gè)檢測(cè)結(jié)果。為了節(jié)約資源,提高訓(xùn)練效率,本文對(duì)RPN中每個(gè)錨框的前景得分進(jìn)行排序和篩選,保存指定數(shù)量的得分較高的錨框,并進(jìn)行非極大值抑制NMS(Non-Maximum Suppression)[20],對(duì)每個(gè)目標(biāo)只保留一個(gè)最合適的錨框進(jìn)行輸出。
Figure 4 Comparison of the improved Mask R-CNN with Mask R-CNN圖4 Mask R-CNN算法結(jié)構(gòu)改進(jìn)對(duì)比圖
利用篩選所得的錨框在特征圖中將相應(yīng)區(qū)域池化為固定尺寸,以便進(jìn)行后續(xù)的分類(lèi)和邊框回歸操作。由于預(yù)選框的位置通常是由模型回歸得到的,一般為浮點(diǎn)數(shù),RoIAlign采用雙線性?xún)?nèi)插法克服了原始的RoIPooling中取整和邊界量化操作帶來(lái)的區(qū)域不匹配問(wèn)題,保證映射的特征圖大小與原始圖像對(duì)應(yīng)區(qū)域的大小相同。
在訓(xùn)練過(guò)程中,生成掩碼分支和分類(lèi)分支是同時(shí)工作的,目標(biāo)檢測(cè)層根據(jù)分類(lèi)分支獲取到的多個(gè)候選框所預(yù)測(cè)的類(lèi)別標(biāo)簽來(lái)選擇輸出對(duì)應(yīng)的掩碼。
損失函數(shù)的定義基于Mask R-CNN模型在生活垃圾檢測(cè)上應(yīng)用的任務(wù),即垃圾的檢測(cè)定位框、垃圾的分類(lèi)和垃圾的分割,因此損失函數(shù)由定位損失、分類(lèi)損失、區(qū)域建議網(wǎng)絡(luò)損失和分割損失4部分組成,其定義如式(3)所示:
L=Lbox+Lclc+Lmask+Lrpn
(3)
其中,Lbox為定位損失,Lclc為分類(lèi)損失,Lmask為分割損失,Lrpn則為區(qū)域建議網(wǎng)絡(luò)損失。
(1)定位損失函數(shù)。
RPN輸出的特征圖中,每一個(gè)點(diǎn)經(jīng)過(guò)卷積操作生成的錨框均對(duì)應(yīng)一個(gè)前景分?jǐn)?shù)和背景分?jǐn)?shù),以及每個(gè)錨框?qū)?yīng)的坐標(biāo)修正值。為了得到更加精確的錨框位置,本文采用SmoothL1Loss進(jìn)行訓(xùn)練,每一個(gè)檢測(cè)目標(biāo)在候選區(qū)域中的定位損失函數(shù)的具體描述如式(4)所示:
(4)
(5)
(2)分類(lèi)損失函數(shù)。
在RoIAlign 層之后,分類(lèi)損失函數(shù)主要用于對(duì)提取的候選框的類(lèi)別進(jìn)行修正。候選框邊框修正針對(duì)非背景的候選框進(jìn)行,對(duì)于類(lèi)別標(biāo)簽為背景的候選框,則不進(jìn)行候選框邊框修正的參數(shù)訓(xùn)練。對(duì)于分類(lèi)器和候選框邊框修正的訓(xùn)練,每一個(gè)檢測(cè)目標(biāo)在候選區(qū)域中的分類(lèi)損失函數(shù)的具體描述如式(6)所示:
(6)
(3)區(qū)域建議網(wǎng)絡(luò)損失函數(shù)。
在進(jìn)行RPN訓(xùn)練時(shí),區(qū)域建議損失函數(shù)對(duì)128個(gè)隨機(jī)抽取的正樣本進(jìn)行訓(xùn)練。區(qū)域建議網(wǎng)絡(luò)損失定義如式(7)所示:
L({pi},{ti})=
(7)
其中,Lreg等同于式(4)中的Lbox;參數(shù)λ,Ncls,Nreg用于保證RPN在訓(xùn)練過(guò)程中平衡分類(lèi)與定位2種損失。
(4)分割損失函數(shù)。
分割損失函數(shù)Lmask對(duì)于每一個(gè)感興趣區(qū)域中的每一個(gè)類(lèi)別,掩碼分支都定義一個(gè)K×m×m維度的輸出,表示K個(gè)不同的分類(lèi)在m×m的區(qū)域上可生成一個(gè)掩碼。如果檢測(cè)得到感興趣區(qū)域?qū)儆谀骋粋€(gè)分類(lèi),則將該類(lèi)的相對(duì)熵誤差作為誤差值進(jìn)行后續(xù)計(jì)算,使得網(wǎng)絡(luò)只需要區(qū)別在這個(gè)類(lèi)當(dāng)中的不同小類(lèi)。最后可以通過(guò)與閾值0.5比較輸出二值掩碼,避免了類(lèi)間的競(jìng)爭(zhēng)。分割損失函數(shù)的具體描述如式(8)所示:
(1-yi)*log(1-sigmoid(xi))]
(8)
其中,1k表示當(dāng)?shù)趉個(gè)通道對(duì)應(yīng)目標(biāo)的真實(shí)類(lèi)別時(shí)為1,否則為0;yi表示當(dāng)前位置的掩碼的標(biāo)簽值;sigmoid(xi)表示當(dāng)前位置的輸出值xi經(jīng)過(guò)sigmoid函數(shù)變換后的結(jié)果。
3.2.3 預(yù)測(cè)模型
預(yù)測(cè)網(wǎng)絡(luò)與訓(xùn)練網(wǎng)絡(luò)不同的是,訓(xùn)練網(wǎng)絡(luò)的掩碼分支和分類(lèi)分支是并行的,而預(yù)測(cè)模型是對(duì)輸入圖像進(jìn)行分類(lèi)后再進(jìn)行掩碼預(yù)測(cè)。
預(yù)測(cè)網(wǎng)絡(luò)同樣以ResNeXt101為主干網(wǎng)絡(luò),在經(jīng)過(guò)一次特征融合后,F(xiàn)PN 生成的各層特征輸入RPN后對(duì)生成的每個(gè)錨框進(jìn)行二分類(lèi),判斷其為前景或背景,并對(duì)其位置進(jìn)行回歸。由于生成的錨框數(shù)量大,重疊部分多,因此需要通過(guò)建議區(qū)域進(jìn)行篩選,選擇合適的錨框進(jìn)行后續(xù)檢測(cè):首先對(duì)RPN 中每個(gè)錨框的前景得分進(jìn)行排序篩選,然后進(jìn)行非極大值抑制。對(duì)篩選出來(lái)的錨框,先進(jìn)行RoIAlign,映射成與原始圖像對(duì)應(yīng)區(qū)域大小相同的特征圖,再對(duì)每一個(gè)感興趣區(qū)域進(jìn)行分類(lèi)、回歸和掩碼分割[21]。
3.3.1 數(shù)據(jù)集
目前,垃圾分類(lèi)研究還沒(méi)有公共的數(shù)據(jù)集可用,為了對(duì)所提模型的有效性進(jìn)行驗(yàn)證,本文構(gòu)建了自有數(shù)據(jù)集。在長(zhǎng)達(dá)30天的時(shí)間內(nèi),觀察15位志愿者的生活垃圾情況,記錄和統(tǒng)計(jì)垃圾數(shù)量和類(lèi)別,選取統(tǒng)計(jì)結(jié)果最高的5類(lèi)生活垃圾相關(guān)信息作為本次實(shí)驗(yàn)的垃圾檢測(cè)與分類(lèi)標(biāo)準(zhǔn),5個(gè)類(lèi)別依次為:紙、塑料、紙板、玻璃和金屬。通過(guò)網(wǎng)絡(luò)采集獲取總數(shù)據(jù)集的90%,并自制10%的數(shù)據(jù)集作為補(bǔ)充。數(shù)據(jù)集中包含圖像2 000幅,尺寸為512×384,格式為JPG。
使用labelme圖像轉(zhuǎn)換工具對(duì)所有圖像進(jìn)行人工標(biāo)注并生成獨(dú)立的JSON結(jié)構(gòu)體類(lèi)型文件。依據(jù)COCO數(shù)據(jù)集的格式,將所有獨(dú)立的JSON文件合并為一個(gè)JSON文件,由images、categories和annotations共3部分組成,包含所有的圖像信息[22]。
由于實(shí)驗(yàn)數(shù)據(jù)有限,如果將所有的數(shù)據(jù)都用于訓(xùn)練模型將會(huì)導(dǎo)致模型過(guò)擬合。本文采用10折交叉驗(yàn)證以有效地減小模型方差,提升有限數(shù)據(jù)下訓(xùn)練和評(píng)估模型的能力。本文將2 000幅垃圾圖像分為10份,每次取其中9份組成訓(xùn)練集,1份用作測(cè)試集,最終將循環(huán)后的所有評(píng)估結(jié)果取平均。
3.3.2 不同模型性能對(duì)比
本文實(shí)驗(yàn)選取ResNeXt101作為特征提取網(wǎng)絡(luò),學(xué)習(xí)率設(shè)置為0.000 1,對(duì)比了基于ResNet101進(jìn)行特征提取主干網(wǎng)絡(luò)的Mask R-CNN在垃圾檢測(cè)應(yīng)用上的不同表現(xiàn)。
為了量化實(shí)驗(yàn)結(jié)果,本文采用均值平均精度mAP(mean Average Precision)[23]作為垃圾檢測(cè)性能的評(píng)價(jià)指標(biāo)。為了能更好地對(duì)本文模型的性能進(jìn)行評(píng)估,本文選取的生活垃圾圖像不僅包含完整目標(biāo)的圖像(實(shí)驗(yàn)1),也選取了具有局部特征和劇烈形變的生活垃圾圖像(實(shí)驗(yàn)2)作為訓(xùn)練和測(cè)試樣本。
實(shí)驗(yàn)結(jié)果如表2所示,表2數(shù)據(jù)顯示:基于改進(jìn)的Mask R-CNN算法的所有類(lèi)別的平均分類(lèi)精度高達(dá)91.1%。
Table 2 Classification accuracy of garbage categories from different perspectives
在光線良好的情況下,如表2中實(shí)驗(yàn)1結(jié)果所示,完整而清晰的目標(biāo)檢測(cè)效果最好,平均分類(lèi)精度高達(dá)94.02%;在實(shí)驗(yàn)2只具有局部特征的情況下,平均分類(lèi)精度可達(dá)88.17%。由于玻璃和塑料在只有局部特征下大多形狀與顏色相似,容易將白色玻璃瓶分類(lèi)為塑料,效果較差,但對(duì)于其他3類(lèi)垃圾(紙、硬紙板和金屬),盡管拍攝物體在不同程度上發(fā)生形變,但分類(lèi)效果依舊良好。表2結(jié)果說(shuō)明本文算法可以出色地完成垃圾檢測(cè)任務(wù)。改進(jìn)后的Mask R-CNN應(yīng)用于生活垃圾多分類(lèi)檢測(cè)的結(jié)果如圖5所示。從圖5中可以看出,對(duì)于多分類(lèi)場(chǎng)景該模型依然可以取得很好的識(shí)別效果。
Figure 5 Detection results of domestic garbage multi-classification圖5 生活垃圾多分類(lèi)檢測(cè)結(jié)果
本實(shí)驗(yàn)使用ResNeXt,采用32×8d分組卷積結(jié)構(gòu)作為特征提取主干網(wǎng)絡(luò)的Mask R-CNN,與傳統(tǒng)ResNet主干網(wǎng)絡(luò)相比,算法平均分類(lèi)精度提升了2.35%,由原來(lái)的88.75%提升至91.10%。同時(shí),本文實(shí)驗(yàn)對(duì)比了其他目標(biāo)檢測(cè)算法應(yīng)用于生活垃圾檢測(cè)的效果,不同模型下的性能比較如表3所示。從表3可以看出,F(xiàn)aster R-CNN算法識(shí)別精度較低,為81.73%;YOLOv3算法盡管在時(shí)間上遠(yuǎn)小于其他算法,但其檢測(cè)精度最低,僅為74.13%;基于改進(jìn)Mask R-CNN的算法相較于傳統(tǒng)Faster R-CNN算法與YOLOv3算法,分類(lèi)精度分別提升了9.37%和16.97%。這表明了本文所提模型在垃圾檢測(cè)任務(wù)中的可行性與有效性,尤其是檢測(cè)目標(biāo)與背景邊界線較為模糊時(shí),分類(lèi)精度和分割精確度均表現(xiàn)優(yōu)異。
Table 3 Performance comparison among different models
本文針對(duì)人工分揀垃圾效率低下的問(wèn)題,提出了一種基于改進(jìn)Mask R-CNN的算法。對(duì)比了ResNeXt101與ResNet對(duì)生活垃圾檢測(cè)模型性能的影響,選取經(jīng)過(guò)優(yōu)化的ResNeXt101模型進(jìn)行特征提取,進(jìn)一步提高了分類(lèi)的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果顯示,與傳統(tǒng)的Mask R-CNN模型相比,本文模型的mAP提升了2.35%;相較于傳統(tǒng)Faster R-CNN算法與YOLOv3算法,mAP分別提升了9.37%和16.97%。這表明了所提模型在垃圾檢測(cè)任務(wù)中的可行性與有效性。
本文模型仍存在一些需要進(jìn)一步改進(jìn)的問(wèn)題,如檢測(cè)時(shí)間較長(zhǎng);在光線充足的情況下,對(duì)于圖像中特征相似的不同類(lèi)別的目標(biāo)分類(lèi)結(jié)果較差,且實(shí)際垃圾分類(lèi)中垃圾之間堆疊情況嚴(yán)重。在未來(lái)的工作中,將創(chuàng)建類(lèi)別更豐富、規(guī)模更大的數(shù)據(jù)集進(jìn)行訓(xùn)練,以滿足實(shí)際應(yīng)用場(chǎng)景的需求;對(duì)于嚴(yán)重遮擋的對(duì)象后續(xù)采用具有雙層卷積網(wǎng)絡(luò)的BCNet[24]實(shí)現(xiàn)遮擋物之間的解耦;探索并結(jié)合傳送帶和機(jī)械臂等硬件系統(tǒng),創(chuàng)建一個(gè)完整可用的垃圾分類(lèi)與分揀系統(tǒng)。