摘要: 針對(duì)建筑固廢在線識(shí)別中因相似特征導(dǎo)致的RGB識(shí)別準(zhǔn)確率不高的問(wèn)題,搭建雙相機(jī)采集實(shí)驗(yàn)臺(tái),同步采集彩色圖像和深度圖像,提出一種基于彩色圖像和深度圖像的多模態(tài)融合與深度特征增強(qiáng)網(wǎng)絡(luò)(DFENet).DFENet能夠有效融合固廢的彩色圖像特征和深度圖像特征。通過(guò)設(shè)計(jì)深度特征加強(qiáng)融合模塊PFPD平衡并加強(qiáng)深度特征,顯著提升了網(wǎng)絡(luò)的識(shí)別精度。實(shí)驗(yàn)結(jié)果表明:與RGB+FPN(特征金字塔網(wǎng)絡(luò))方式相比,PFPD方式在IoU=0.50上的識(shí)別精度從92.4%提高至94.7%,在IoU=0.75上的識(shí)別精度從90.8%提升至92.8%;與實(shí)例分割網(wǎng)絡(luò)(Mask R-CNN)相比,DFEnet識(shí)別精度從86.4%提高至89.2%;提出的方法有效地提高了固體廢棄物識(shí)別的目標(biāo)檢測(cè)和實(shí)例分割模型識(shí)別精度。
關(guān)鍵詞: 固廢分選; 深度加強(qiáng); RGB-D圖像; 特征融合; 實(shí)例分割
中圖分類號(hào): TP 183; TP 249文獻(xiàn)標(biāo)志碼: A ""文章編號(hào): 1000-5013(2025)02-0133-09
Solid Waste Detection Network With RGB-D Multimodal Fusion and Deep Feature Enhancement
ZHAO Yinhao, LIU Bingchen, YANG Jianhong, FANG Huaiying
(College of Mechanical Engineering and Automation, Huaqiao University, Xiamen 361021, China)
Abstract: Aiming at the problem of low accuracy of RGB recognition due to similar features in online construction identification of solid waste, a dual-camera collection experimental platform is established to collect color images and depth images simultaneously. A multimodal fusion and depth feature enhancement network (DFENet) based on color image and depth image is proposed. DFENet can effectively fuse the color" and depth image features of solid waste. By designing a deep feature strengthening fusion module (PFPD), the network balances and enhances depth features, significantly improving recognition accuracy. Experimental results show that compared with RGB+FPN (feature pyramid network) method, the recognition precision of PFPD method increases" from 92.4% to 94.7% at IoU=0.50, and from 90.8% to 92.8% at IoU=0.75. Compared with the instance segmentation network (Mask R-CNN), the recognition precision of DFENet" improvs from 86.4% to 89.2%. The proposed method can effectively improve the recognition precision of object detection and instance segmentation models for solid waste identification.
Keywords: solid waste sorting; depth enhancement; RGB-D image; feature fusion; instance segmentation
智能化分選在固廢資源化利用中起到重要作用,非法處理固廢會(huì)對(duì)環(huán)境造成破壞[1],分選的關(guān)鍵技術(shù)在于固廢在線識(shí)別,現(xiàn)有的分選系統(tǒng)大多采用破碎、圓盤篩網(wǎng)、磁鼓、人工挑選等多級(jí)傳統(tǒng)建筑固廢分選[2-3],但傳統(tǒng)機(jī)械結(jié)構(gòu)分選的純度低,效率無(wú)法得到保障,人工撿拾需要投入大量人力,浪費(fèi)勞動(dòng)力的同時(shí)也難以滿足工業(yè)自動(dòng)化的需求。
隨著計(jì)算機(jī)視覺(jué)和人工智能技術(shù)的快速發(fā)展,將相機(jī)采集的RGB圖像輸入神經(jīng)網(wǎng)絡(luò),可以對(duì)圖像中的每個(gè)物體進(jìn)行目標(biāo)檢測(cè)[4-5],其中,端到端的單階段目標(biāo)檢測(cè)有YOLO系列方法(代表)[6-7]、Segment Anything方法[8]和Transformer方法[9]。通過(guò)語(yǔ)義分割[10]劃分出輪廓,提出基于顏色特征[11]、MobileNet[12]、pix2pix、殘差神經(jīng)網(wǎng)[13]、YOLOv8[14]的固廢分選方法。但真實(shí)工況通常比較復(fù)雜,如對(duì)于破碎后具有相近顏色、紋理、大小的磚塊和混凝土,被砂漿包裹的磚塊等,RGB圖像無(wú)法做到有效地區(qū)分[15],Segment Anything方法及Transformer方法識(shí)別精度較高但推理速度慢,無(wú)法滿足在線實(shí)時(shí)檢測(cè)需求。
多模態(tài)融合的方法得到越來(lái)越多的關(guān)注,熱圖像可以補(bǔ)充RGB的圖像特征,以提高RGB-T語(yǔ)義分割性能[16],近紅外技術(shù)(NIR)解決了復(fù)雜工況缺乏紋理信息和照明不足的問(wèn)題[17],高光譜成像技術(shù)可以有效地獲得物體的光譜和空間信息的特點(diǎn)[18]。在固廢分選領(lǐng)域,利用彩色攝像頭和激光輪廓掃描儀采集RGB圖像和深度圖像[19],實(shí)例分割網(wǎng)絡(luò)(Mask R-CNN)采用不同的方式融合RGB和深度圖像,提高固廢檢測(cè)的性能。利用非對(duì)稱多尺度特征融合網(wǎng)絡(luò)(AMFFNet),融合固廢RGB 譜信息[20]、固廢檢測(cè)網(wǎng)絡(luò)[21]、固廢視覺(jué)檢測(cè)方法識(shí)別混凝土和灰磚[22],分別對(duì)建筑固廢的RGB圖像和深度圖像做圖像處理,都有效提高建筑固廢檢測(cè)識(shí)別精度,但是存在RGB特征與深度特征不平衡的問(wèn)題,雙主干網(wǎng)絡(luò)將RGB圖像與深度圖像進(jìn)行融合[23],使網(wǎng)絡(luò)以相同的權(quán)重融合兩種特征,并在網(wǎng)絡(luò)中嵌入注意力機(jī)制輔助平橫特征[24-25]。基于此,本文對(duì)RGB-D多模態(tài)融合與深度特征增強(qiáng)的固廢檢測(cè)網(wǎng)絡(luò)進(jìn)行研究。
1 數(shù)據(jù)與實(shí)驗(yàn)方法
1.1 實(shí)驗(yàn)臺(tái)搭建與數(shù)據(jù)采集
雙相機(jī)采集系統(tǒng)原理圖,如圖1所示。采集系統(tǒng)包括一個(gè) RGB 成像模塊和一個(gè)高度成像模塊。RGB 成像模塊由彩色線陣相機(jī)和發(fā)光二極管(LED)光源組成,用于采集物體的彩色圖像,得到豐富的顏色和紋理信息。高度成像模塊為激光輪廓掃描儀,掃描儀包含一個(gè)激光發(fā)射器和兩個(gè)單色相機(jī),用于采集物體的深度圖像,得到形狀信息和深度信息,穹頂光源照明安裝在穹頂邊緣,指向正上方,使光線從穹頂?shù)那娣瓷涑鋈?,從而產(chǎn)生均勻反射。抓取模塊包括分揀機(jī)器人和抓取模組,用于接收檢測(cè)信息并實(shí)時(shí)分揀傳送帶上的物料。
對(duì)黑色橡膠、木頭、混凝土和磚塊4類常見的固廢進(jìn)行實(shí)驗(yàn),其中,1 038張RGB圖像和深度圖像作為訓(xùn)練集,455張彩色圖像和深度圖像作為測(cè)試集,深度圖像與RGB圖像均標(biāo)定并對(duì)齊。數(shù)據(jù)集部分樣本,如圖2所示。
1.2 固廢檢測(cè)算法
建筑固廢多級(jí)破碎后,由皮帶傳輸,建筑固廢表面通常被砂漿、粉塵覆蓋,顏色特征退化嚴(yán)重,破碎完的建筑固廢變得不規(guī)則,形狀特征無(wú)法有效提取。同時(shí),建筑固廢在皮帶上也會(huì)存在堆疊的情況,導(dǎo)致模型會(huì)將粘連的同類物體識(shí)別為一個(gè)物體。
4類材料中混凝土與磚塊同為灰色,在顏色尺度上有相似的特征,會(huì)在一定程度上影響分類的準(zhǔn)確度;黑色橡膠與傳送皮帶也同樣具有相似的特征,而傳統(tǒng)的RGB分割算法主要針對(duì)顏色和輪廓信息進(jìn)行提取,因此,難以得到有效的識(shí)別結(jié)果。針對(duì)上述問(wèn)題,提出RGB-D多模態(tài)融合與深度特征加強(qiáng)的檢測(cè)網(wǎng)絡(luò)DFENet。
1) 特征融合模塊。使用雙通道卷積神經(jīng)網(wǎng)絡(luò)分別提取RGB通道的顏色、紋理等特征和深度通道的深度、邊緣等特征,通過(guò)對(duì)應(yīng)元素疊加的方式融合RGB通道和深度通道的特征。
2) 注意力機(jī)制嵌入模塊。使用注意力機(jī)制嵌入卷積神經(jīng)網(wǎng)絡(luò),使網(wǎng)絡(luò)更加關(guān)注有用的特征,抑制冗余信息,減小特征信息的損失,得到特征信息含量更高的信息。
3) 深度特征加強(qiáng)融合模塊PFPD。通過(guò)自上而下的左邊特征金字塔網(wǎng)絡(luò)(L-FPN)網(wǎng)絡(luò)提取更多的語(yǔ)義信息,再次融合深度特征信息后輸入自下而上的右邊特征金字塔網(wǎng)絡(luò)(R-FPN)網(wǎng)絡(luò),從而更好地利用不同特征層之間的信息,恢復(fù)頂層損失的深度特征信息。
檢測(cè)頭階段,將特征圖中的候選感興趣區(qū)域(ROI)送入RPN網(wǎng)絡(luò)進(jìn)行過(guò)濾,對(duì)剩下的ROI區(qū)域進(jìn)行ROIAlign操作。
1.2.1 特征融合模塊 DEFNet網(wǎng)絡(luò)結(jié)構(gòu)圖,如圖3所示。圖3中:CDepthi(i=1、2、3、4)表示為提取到的特征圖。RGB圖像和深度圖像分別使用對(duì)稱ResNet進(jìn)行特征提取,RGB分支圖像為三通道輸入,圖像尺寸為960 px×1 024 px,提取到的特征圖表示為CRGBi(i=1、2、3、4),每一層輸出的特征圖大小依次為64、128、256、512。
深度分支圖像為單通道輸入,圖像尺寸為960 px×1 024 px,為了保證提取對(duì)稱特征并融合,需要將ResNet第一層卷積修改為單通道,每一層輸出的特征圖大小與RGB輸出的尺寸相同,依次為64、128、256、512。將最后一個(gè)特征層的大小平衡在7 px×7 px,對(duì)輸入的RGB和深度分支圖像進(jìn)行預(yù)處理,歸一化再裁剪,尺寸為224 px×224 px,將其作為第一層卷積的輸入。
特征融合部分使用ReLU激活函數(shù)和最大池化層,ReLu激活函數(shù)可以有效避免梯度爆炸和梯度消失的問(wèn)題,最大池化層對(duì)RGB和深度進(jìn)行下采樣,并選擇分辨率更高的特征,更好地保留RGB紋理特征。
ReLu激活函數(shù)表示為
Output=max(0,wTherx+b)。
(1)
式(1)中:x為上一層輸入的網(wǎng)絡(luò)的輸入;wTher為權(quán)重;b為添加到輸入加權(quán)總和中的偏置。
通過(guò)Element-wiseAdd的方式進(jìn)行一次融合,將特征圖對(duì)應(yīng)元素相加,融合后的特征圖作為后續(xù)L-FPN的輸入,即
Ti=[CRGBiCDepthi], "i=1、2、3、4。
(2)
式(2)中:Ti表示通過(guò)一次Element-wiseAdd融合后的特征圖。
ResNet[26]的核心思想是引入了殘差連接和殘差函數(shù),通過(guò)這種方式解決了深層網(wǎng)絡(luò)訓(xùn)練過(guò)程中的梯度消失和梯度爆炸問(wèn)題。殘差連接通過(guò)將輸入特征與網(wǎng)絡(luò)的輸出進(jìn)行直接相加,使網(wǎng)絡(luò)可以更容易地學(xué)習(xí)殘差,從而優(yōu)化模型的性能。
y=F(x,{Wi})+Wsx。
(3)
殘差函數(shù)的公式為
F=W2σ(W1x)。
(4)
式(3),(4)中:x,y分別為輸入和輸出;F(x,{Wi})為需要進(jìn)行殘差學(xué)習(xí)的函數(shù);Ws為輸入x的維度。
1.2.2 注意力機(jī)制嵌入模塊 三通道的RGB固廢圖像包含的信息更多,每個(gè)通道可以獨(dú)立控制圖像中相應(yīng)顏色的強(qiáng)度,而單通道的深度圖像包含的信息少,只記錄像素的亮度信息,再將亮度信息轉(zhuǎn)化為實(shí)際的深度。RGB圖像特征豐富但存在大量冗余,深度圖特征單一但存在噪聲,因此,需要將注意力機(jī)制嵌入RseNet中,使特征提取網(wǎng)絡(luò)能更好地提取有效特征,排除冗余,加強(qiáng)各層特征之間的聯(lián)系,幫助模型集中于圖像中更重要的部分,從而提高特征提取的效率和準(zhǔn)確性。
將RGB圖像特征定義為inputRGBi∈Rc×h×w(i={1、2、3、4、5}),其中,c表示通道數(shù),h和w分別表示特征圖的高度和寬度。將input輸入至注意力機(jī)制嵌入模塊,尺寸為(h,1)和(1,w)的池化核分別沿水平坐標(biāo)和垂直坐標(biāo)兩個(gè)方向?qū)νǖ肋M(jìn)行編碼,從而得到Xwc(w)和Xhc(h),即
Xwc(w)=1h∑0≤jlt;hinputRGBc(j,w),
(5)
Xhc(h)=1w∑0≤ilt;winputRGBc(h,i)。
(6)
XRGBi,1對(duì)RGB特征寬度方向和高度方向分別進(jìn)行池化操作并沿著空間方向聚合,對(duì)信息在水平方向和垂直方向進(jìn)行拼接,即
XRGBi,1=(AvePooling(Xwc(w)),AvePooling(Xhc(h)))。
(7)
式(7)中:AvePooling為平均池化,表示該窗口的特征;XRGBi為經(jīng)過(guò)平均池化后的特征,使用一個(gè)共享的1×1的共享卷積層F進(jìn)行變換,即
XRGBi,2=F(XRGBi,1)。
(8)
在原始RGB特征圖上進(jìn)行g(shù)h和gw的乘法加權(quán)計(jì)算,輸出為
OutputRGBc(i,j)=XRGBi(i,j)×ghc(i)×gwc(j)。
(9)
首先,通過(guò)全局平均池化對(duì)每個(gè)通道上的特征進(jìn)行平均池化操作,將特征圖的空間維度降為1×1,得到每個(gè)通道的全局特征表示。然后,通過(guò)全連接層將全局平均池化后的特征輸入到一個(gè)全連接層中,通過(guò)學(xué)習(xí)每個(gè)通道的權(quán)重系數(shù)確定每個(gè)通道的重要性。
1.2.3 深度特征加強(qiáng)融合模塊PFPD 深度特征加強(qiáng)的方式采用對(duì)淺層卷積與深層卷積一次融合后,再進(jìn)行深度特征加強(qiáng),以充分融合位置信息與高度特征,避免一次自上而下的特征金字塔,從而失去整體位置和深度之間的聯(lián)系。將L-FPN的輸出特征圖Ti與深度圖像特征CDepthi進(jìn)行聚合,二次融合,即
Di=[CDepthi,Ti], "i=1、2、3、4。
(10)
深度特征加強(qiáng)融合模塊PFPD,如圖4所示。L-FPN從較低分辨率的特征圖開始,采用雙線性差值算法進(jìn)行上采樣,在原有圖像特征圖像素的基礎(chǔ)上,在像素之間插入新的像素,將主干網(wǎng)絡(luò)提取的特征圖Ti(i=1、2、3、4)尺寸擴(kuò)大為原來(lái)2倍,再依次與前一特征圖相加完成,用于整合不同尺度的RGB與深度特征。L-FPN從上而下把包含固廢位置和深度等信息的下層特征與包含固廢語(yǔ)義信息的上層特征進(jìn)行融合,不同尺度特征圖都包含豐富的信息。R-FPN的輸入Di(i=1、2、3、4)使用尺寸為3×3,步長(zhǎng)為2的卷積層進(jìn)行下采樣操作,將特征圖縮小為原尺寸的1/2,再依次與前一圖相加后完成自下而上R-FPN部分,該部分充分利用深度加強(qiáng)融合后的特征,減少了下層特征信息的傳遞損失。
2 實(shí)驗(yàn)結(jié)果和分析
2.1 實(shí)驗(yàn)參數(shù)
訓(xùn)練采用隨機(jī)梯度下降(SGD),動(dòng)量參數(shù)設(shè)置為0.9,偏置b設(shè)置為0,一共訓(xùn)練100輪,初始學(xué)習(xí)率參數(shù)設(shè)置為0.004,每迭代30次,學(xué)習(xí)率下降為初始學(xué)習(xí)率的1/10,訓(xùn)練損失穩(wěn)步下降。使用COCO2014數(shù)據(jù)集對(duì)提取特征部分的網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,得到預(yù)訓(xùn)練權(quán)重。在經(jīng)過(guò)非極大值抑制(NMS)結(jié)構(gòu)之后,保留1 000個(gè)RoI區(qū)域,選擇前景分割過(guò)程中得分最高的100個(gè)實(shí)例進(jìn)行分割,實(shí)驗(yàn)評(píng)價(jià)指標(biāo)選用平均識(shí)別精度 (PA) 對(duì)分割結(jié)果進(jìn)行定量的判定,表示對(duì)每一類識(shí)別的正確的數(shù)量與該類總量之比。PA、識(shí)別精度(P)與召回率(R)之間的關(guān)系,即
PA=∫10P·Rdr,P=TPTP+FP,R=TPTP+FN。
(11)
式(11)中:TP為預(yù)測(cè)與實(shí)際標(biāo)簽相同的正樣本數(shù)量;FP為預(yù)測(cè)與實(shí)際標(biāo)簽不同的負(fù)樣本數(shù)量;FN為以實(shí)際為背景但預(yù)測(cè)為標(biāo)簽的負(fù)樣本數(shù)量??紤]不同的閾值(IoU)對(duì)實(shí)驗(yàn)結(jié)果的影響,選用 0.50、0.75 的IoU閾值進(jìn)行比較。
2.2 基線目標(biāo)檢測(cè)模型
為了選擇目標(biāo)檢測(cè)基線模型,選擇雙階段目標(biāo)檢測(cè)網(wǎng)絡(luò)Faster R-CNN、Mask R-CNN[27],以及單階段目標(biāo)檢測(cè)網(wǎng)絡(luò)YOLOv5、YOLOv8和Co-DETR進(jìn)行對(duì)比。目標(biāo)檢測(cè)網(wǎng)絡(luò)識(shí)別精度與推理時(shí)間(t)對(duì)比,如表1所示。
由表1可知:為了能夠準(zhǔn)確定位建筑固廢,確保后續(xù)執(zhí)行機(jī)構(gòu)能夠進(jìn)行抓取和氣吹,需要得到目標(biāo)固廢的掩膜和具有較快的檢測(cè)速度以滿足實(shí)時(shí)性,因此,目標(biāo)檢測(cè)網(wǎng)絡(luò)選擇Mask R-CNN作為對(duì)比。
2.3 注意力機(jī)制對(duì)比實(shí)驗(yàn)
在不同主干網(wǎng)絡(luò)中分別加入通道注意力機(jī)制模塊和注意力機(jī)制嵌入模塊,以強(qiáng)化模型對(duì)于特征和位置的關(guān)注,將注意力機(jī)制嵌入模塊主干網(wǎng)絡(luò)中,對(duì)提取的RGB圖像特征圖和深度圖像特征圖分別編碼形成對(duì)通道、位置和方向感知敏感的注意力圖。不同模式識(shí)別精度比較,如表2所示。
由表2可知:注意力機(jī)制嵌入模塊在不同主干網(wǎng)絡(luò)上的檢測(cè)識(shí)別精度都高于通道注意力機(jī)制模塊,通道注意力機(jī)制模塊只關(guān)注通道之間的聯(lián)系,特征相互分離,位置信息忽略。注意力機(jī)制嵌入模塊能更好地關(guān)注三通道RGB圖像特征和單通道深度特征之間的聯(lián)系,沿空間方向捕獲特征之間遠(yuǎn)程依賴關(guān)系,并保留精確的位置關(guān)系。
不同注意力機(jī)制熱圖,如圖5所示。由圖5可知:4種單類物體工況下,注意力機(jī)制嵌入模塊能更加聚焦在目標(biāo)物體區(qū)域,對(duì)非感興趣區(qū)域抑制能力更強(qiáng),通道注意力機(jī)制模塊關(guān)注的范圍卻更加廣泛,無(wú)法有效的針對(duì)目標(biāo)物體;對(duì)于混合類,目標(biāo)物體種類多,工況更加復(fù)雜,通道注意力機(jī)制模塊僅能重點(diǎn)聚焦一部分感興趣區(qū)域,而注意力機(jī)制嵌入模塊會(huì)對(duì)感興趣區(qū)域分區(qū)域進(jìn)行關(guān)注,形成多個(gè)熱點(diǎn)區(qū)域。
ResNeXt101[28]的特征提取能力強(qiáng)于ResNet101,因此,網(wǎng)絡(luò)本身更加關(guān)注細(xì)節(jié)特征,而深度圖像僅為單通道灰度圖,但加入注意力機(jī)制嵌入模塊后精準(zhǔn)無(wú)法聚焦,對(duì)于深度圖像特征無(wú)法起到很好的提取作用,因此使用注意力機(jī)制嵌入模塊融合ResNet101在特征提取效果上有很好的效果。
2.4 有效性實(shí)驗(yàn)
為了驗(yàn)證特征融合與PFPD的有效性,使用MaskR-CNN輸入僅為三通道RGB圖像(作為基準(zhǔn)),采用ResNet101作為主干網(wǎng)絡(luò),分別驗(yàn)證了RGB-D早期融合(RGB-D E)、RGB-D中期融合(RGB-D M)、PFPD的性能。不同融合方式的識(shí)別精度比較,如表3所示。
由表3可知:與RGB+FPN(特征金字塔網(wǎng)絡(luò))方式相比,PFPD方式在IoU=0.50上的識(shí)別精度從92.4%提高至94.7%,在IoU=0.75上的識(shí)別精度從90.8%提升至92.8%;相比于僅使用RGB+FPN融合方式,采用PFPD的PIoU=0.50,PIoU=0.75都有提高,這說(shuō)明深度信息可以作為RGB特征的補(bǔ)充信息,起到有效作用;RGB-D E+FPN融合方式是將RGB圖像與深度圖像先進(jìn)行拼接,再輸入網(wǎng)絡(luò),過(guò)早的融合特征信息使特征提取網(wǎng)絡(luò)不能區(qū)分兩種信息之間的差別,識(shí)別精度低于RGB-D M+FPN融合方式,而PFPD的PIoU=0.50,PIoU=0.75都高于RGB-D E+FPN、RGB-D M+FPN融合方式,這個(gè)是因?yàn)閱瓮ǖ郎疃葓D像特征信息少于三通道RGB圖像特征信息,而RGB-D M+FPN融合方式對(duì)于RGB特征和深度特征使用相同的權(quán)重,因此,只采用一次融合的方式不能有效利用深度特征。PFPD可以更有效地將底層的特征和高層的特征融合起來(lái),在保留高層特征的語(yǔ)義信息的同時(shí),保留低層特征的物體位置信息,有效提升目標(biāo)檢測(cè)識(shí)別和定位精度。
2.5 消融實(shí)驗(yàn)
將DFENet嵌入通用網(wǎng)絡(luò)Mask R-CNN中,并使用不同深度的主干網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測(cè)和實(shí)例分割,以評(píng)價(jià)其通用性和有效性。分別使用ResNet50、ResNet101、ResNeXt50和ResNeXt101作為主干網(wǎng)絡(luò)。主干網(wǎng)絡(luò)識(shí)別精度比較,結(jié)果如表4所示。
由表4可知:對(duì)于ResNet50,DFENe的PA比Mask R-CNN提高1.7%,PIoU=0.50比Mask R-CNN提高2.7%,PIoU=0.75比Mask R-CNN提高1.3%;隨著網(wǎng)絡(luò)層數(shù)的加深,提取特征能力加強(qiáng),對(duì)于ResNet101,DFENet比Mask R-CNN的PA提高0.3%,PIoU=0.50,PIoU=0.75比Mask R-CNN分別提高2.3%和2.0%。
4類固廢檢測(cè)結(jié)果熱力圖,如圖6所示。圖6中:列表示真實(shí)類別標(biāo)簽;行表示預(yù)測(cè)類別標(biāo)簽。由圖6(a)可知:混凝土(0.89)和磚塊(0.92)的檢測(cè)識(shí)別精度較低,主要原因是將混凝土誤識(shí)別為磚塊,黑色橡膠類的識(shí)別結(jié)果中,將黑色橡膠誤識(shí)別為背景,說(shuō)明只使用RGB作為輸入,在特征提取階段,無(wú)法區(qū)分有相似紋理的信息,從而在后續(xù)識(shí)別階段出現(xiàn)誤識(shí)別。由圖6(b)可知:DFENet融合了深度信息并對(duì)深度特征進(jìn)行加強(qiáng),可以有效避免與背景誤識(shí)別的情況,在混凝土類中,識(shí)別精度有所提高,磚塊的誤識(shí)別率也有所下降。
實(shí)例分割平均識(shí)別精度可以有效地顯示模型對(duì)每一類物體的分割情況,實(shí)例分割平均識(shí)別精度比較,如表5所示。由表5可知:與Mask R-CNN相比,DFEnet識(shí)別精度從86.4%提高至89.2%;相比于MaskR-CNN,DFENet在與黑色傳送帶有相同顏色特征的黑色橡膠平均識(shí)別精度提高1.3%,在有相似顏色形狀特征的混凝土和磚塊平均識(shí)別精度都提高2.8%,木頭類平均識(shí)別精度提高1.9%;相比YOLOv8,DFENet在黑色橡膠的平均識(shí)別精度有減少0.8%,但其他三類固廢提高0.2%~4.0%。這證明了DFENet能夠很好地融合RGB特征和深度特征的優(yōu)點(diǎn),對(duì)于輪廓的劃分更加的精細(xì)和準(zhǔn)確,更有利于固廢識(shí)別檢測(cè)。
2.6 可視化結(jié)果
網(wǎng)絡(luò)檢測(cè)結(jié)果,如圖7所示。圖7(a)中:第1~3列分別為RGB圖像、深度圖像、真實(shí)標(biāo)簽(GT),第4~7列分別為DFENet的檢測(cè)結(jié)果、Mask R-CNN的檢測(cè)結(jié)果、RGB-D E和RGB-D M的檢測(cè)結(jié)果。
由圖7(a)可知:第1~3行均存在木頭與磚塊堆疊的情況,Mask R-CNN會(huì)只識(shí)別為一個(gè)物體或誤識(shí)別成多個(gè)物體,無(wú)法有效區(qū)分被遮擋部分;第4行RGB-D M將木頭誤識(shí)別為磚塊,說(shuō)明RGB-D中期融合的方式對(duì)于深度特征提取能力不夠;第5行Mask R-CNN將空皮帶誤識(shí)別成黑色橡膠,而采用RGB-D融合的方法均能避免該類情況發(fā)生;相比于RGB輸入的Mask R-CNN,融合深度信息能有效避免漏檢、誤檢的問(wèn)題,黑色橡膠與深色傳送帶之間的區(qū)分,對(duì)于堆疊的情況,DFENet也能有效區(qū)分不同的物體。由圖7(b)可知:對(duì)于堆疊、粘連情況,DFENet可以有效識(shí)別并分割。
綜上所述,DFENet可以在實(shí)驗(yàn)測(cè)試集中更加準(zhǔn)確地進(jìn)行目標(biāo)檢測(cè)和實(shí)例分割,其檢測(cè)結(jié)果優(yōu)于基準(zhǔn)Mask R-CNN網(wǎng)絡(luò)。
3 結(jié)論
1) 通過(guò)提出DFENet,在特征提取網(wǎng)絡(luò)中加入了注意力機(jī)制嵌入模塊以增加特征提取能力,PFPD先用自下而上的結(jié)構(gòu),融合RGB圖像和深度圖像的特征,深度特征加強(qiáng)融合后自上而下進(jìn)行多尺度特征融合,DFENet融合方式顯著提升了固廢目標(biāo)檢測(cè)的性能,相較于傳統(tǒng)的單模態(tài)方法,DFENet能使目標(biāo)檢測(cè)識(shí)別精度提高0.3%,PIoU=0.50,PIoU=0.75分別提高2.3%和2.0%。這證明了融合RGB和深度信息對(duì)于改善目標(biāo)檢測(cè)的效果具有顯著的積極影響。
2) 在實(shí)例分割任務(wù)上也取得了顯著的改進(jìn),通過(guò)融合RGB圖像和深度圖像信息,能夠更好地捕捉目標(biāo)的邊界和細(xì)節(jié)信息,提高了實(shí)例分割的準(zhǔn)確性和魯棒性,并且相較于單模態(tài)方法,在實(shí)例分割任務(wù)中表現(xiàn)出更好的性能,DFENet在單類實(shí)例分割識(shí)別精度上最高提高2.8%。
模型不足之處在于實(shí)驗(yàn)室工況存在少量污染、大量堆疊等情況,在運(yùn)用于真實(shí)工況任務(wù)中會(huì)表現(xiàn)不穩(wěn)定,有較高的誤識(shí)別率。下一步將針對(duì)不同工況進(jìn)行研究,提高模型的泛化能力。參考文獻(xiàn):
[1] FRATERNALI P,MORANDINI L,GONZLEZ S L H.Solid waste detection, monitoring and mapping in remote sensing images: A survey[J].Waste Management,2024,189:88-102.DOI:10.1016/j.wasman.2024.08.003.
[2] BONIFAZI G,SERRANTI S.Recycling technologies[C]∥Encyclopedia of Sustainability Science and Technology.New York: Springer,2019:1-57.DOI:10.1007/978-1-4939-2493-6_116-4.
[3] JANK A,MLLER W,SCHNEIDER I,et al.Waste separation press: A mechanical pretreatment option for organic waste from source separation[J].Waste Management,2015,39:71-77.DOI:10.1016/j.wasman.2015.02.024.
[4] ROSS T Y,DOLLR G.Focal loss for dense object detection[C]∥Proceedings of the IEEE International Conference on Computer Vision.Piscataway: IEEE Press,2017:2980-2988.DOI:10.1109/ICCV.2017.324.
[5] LIN T Y,DOLLR P,GIRSHICK R,et al.Feature pyramid networks for object detection[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press,2017:2117-2125.DOI:10.1109/CVPR.2017.106.
[6] WANG C Y,YEH I H,LIAO H Y M.Yolov9: Learning what you want to learn using programmable gradient information[C]∥European Conference on Computer Vision.Cham:Springer,2025:1-21.DOI:10.1007/978-3-031-72751-1_1.
[7] WANG C Y,BOCHKOVSKIY A,LIAO H Y M.YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press,2023:7464-7475.
[8] KIRILLOV A,MINTUN E,RAVI N,et al.Segment anything[C]∥Proceedings of the IEEE/CVF International Conference on Computer Vision.Piscataway:IEEE Press,2023:4015-4026.DOI:10.48550/arXiv.2304.02643.
[9] ZONG Zhuofan,SONG Guanglu,LIN Yu.Detrs with collaborative hybrid assignments training[C]∥Proceedings of the IEEE/CVF International Conference on Computer Vision.Piscataway: IEEE Press,2023:6748-6758.DOI:10.48550/arXiv.2211.12860.
[10] LONG J,SHELHAMER E,DARRELL T.Fully convolutional networks for semantic segmentation[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press,2015:3431-3440.DOI:10.1109/TPAMI.2016.2572683.
[11] 鄭龍海,袁祖強(qiáng),殷晨波,等.基于機(jī)器視覺(jué)的建筑垃圾自動(dòng)分類系統(tǒng)研究[J].機(jī)械工程與自動(dòng)化,2019(6):16-18.DOI:10.3969/j.issn.1672-6413.2019.06.006.
[12] XU Xiong,ZHAO Beibei,TONG Xiaohua,et al.A data augmentation strategy combining a modified pix2pix model and the copy-paste operator for solid waste detection with remote sensing images[J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2022,15:8484-8491.DOI:10.1109/JSTARS.2022.3209967.
[13] DAVIS P,AZIZ F,NEWAZ M T,et al.The classification of construction waste material using a deep convolutional neural network[J].Automation in Construction,2021,122:103481.DOI:10.1016/j.autcon.2020.103481.
[14] LI Pan,XU Jiayin,LIU Shenbo.Solid waste detection using enhanced YOLOv8 lightweight convolutional neural networks[J].Mathematics,2024,12(14):2185.DOI:10.3390/math12142185.
[15] LU Weisheng,CHEN Junjie,XUE Fan.Using computer vision to recognize composition of construction waste mixtures: A semantic segmentation approach[J].Resources, Conservation and Recycling,2022,178:106022.DOI:10.1016/j.resconrec.2021.106022.
[16] DENG Fuqin,F(xiàn)ENG Hua,LIANG Mingjian,et al.FEANet: Feature-enhanced attention network for RGB-thermal real-time semantic segmentation[C]∥2021 IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway: IEEE Press,2021:4467-4473.DOI:10.1109/IROS51168.2021.9636084.
[17] XIAO Wen,YANG Jianhong,F(xiàn)ANG Huaiying,et al.A robust classification algorithm for separation of construction waste using NIR hyperspectral system[J].Waste Management,2019,90:1-9.DOI:10.1016/j.wasman.2019.04.036.
[18] LU Bing,DAO P D,LIU Jianggui,et al.Recent advances of hyperspectral imaging technology and applications in agriculture[J].Remote Sensing,2020,12(16):2659.DOI:10.3390/rs12162659.
[19] LI Jiantao,F(xiàn)ANG Huaiying,F(xiàn)AN Lulu,et al.RGB-D fusion models for construction and demolition waste detection[J].Waste Management,2022,139:96-104.DOI:10.1016/j.wasman.2021.12.021.
[20] CAI Zhenxing,F(xiàn)ANG Huaiying,JIANG Fengfeng,et al.AMFFNet: Asymmetric multi-scale feature fusion network of RGB-NIR for solid waste detection[J].IEEE Transactions on Instrumentation and Measurement,2023,72:1-10.DOI:10.1109/TIM.2023.3300445.
[21] LI Yangke,ZHANG Xinman.Multi-scale context fusion network for urban solid waste detection in remote sensing images[J].Remote Sensing,2024,16(19):3595.DOI:10.3390/rs16193595.
[22] ZHUANG Jiangteng,F(xiàn)ANG Huaiying,XIAO Wen,et al.Recognition of concrete and gray brick based on color and texture features[J].Journal of Testing and Evaluation,2019,47(4):3224-3237.DOI:10.1520/JTE20180523.
[23] HU Xinxin,YANG Kailun,F(xiàn)EI Lei,et al.Acnet: Attention based network to exploit complementary features for rgbd semantic segmentation[C]∥IEEE International Conference on Image Processing.Piscataway: IEEE Press,2019:1440-1444.DOI:10.1109/ICIP.2019.8803025.
[24] HE Kaiming,GKIOXARI G,DOLLR P,et al.Mask R-CNN[C]∥Proceedings of the IEEE International Conference on Computer Xision.Piscataway: IEEE Press,2017:2961-2969.DOI:10.1109/ICCV.2017.322.
[25] HU Jie,SHEN Li,SUN Gang.Squeeze-and-excitation networks[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press,2018:7132-7141.DOI:10.1109/CVPR.2018.00745.
[26] HOU Qibin,ZHOU Daquan,F(xiàn)ENG Jiashi.Coordinate attention for efficient mobile network design[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press,2021:13713-13722.DOI:10.1109/CVPR46437.2021.01350.
[27] MA Wanqi,CHEN Hong,ZHANG Wenkang,et al.DSYOLO-trash: An attention mechanism-integrated and object tracking algorithm for solid waste detection[J].Waste Management,2024,178:46-56.DOI:10.1016/j.wasman.2024.02.014.
[28] XIE S,GIRSHICK R,DOLLR P,et al.Aggregated residual transformations for deep neural networks[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press,2017:1492-1500.DOI:10.1109/CVPR.2017.634.
(責(zé)任編輯: 陳志賢 ""英文審校: 陳婧)
收稿日期: 2024-10-30
通信作者: 房懷英(1978-),女,教授,博士,主要從事固廢分選機(jī)器人開發(fā)等的研究。E-mail:happen@hqu.edu.cn。
基金項(xiàng)目: 福建省高效產(chǎn)學(xué)合作項(xiàng)目 (2024H6010); 福建省科技計(jì)劃項(xiàng)目 (2023Y3006); 第6批福建省泉州市引進(jìn)高層次人才團(tuán)隊(duì)項(xiàng)目(2023CT003)
https:∥hdxb.hqu.edu.cn/