摘要:針對(duì)現(xiàn)有顯著性檢測(cè)模型無(wú)法有效地協(xié)同花椒枝干彩色圖像和深度圖像特征,建立基于注意力的RGB-D圖像花椒枝干顯著性檢測(cè)模型。由兩個(gè)單流卷積網(wǎng)絡(luò)分別提取彩色和深度圖像特征;設(shè)計(jì)基于空間和通道注意力機(jī)制的跨模態(tài)融合模塊,用于融合多尺度的彩色流和深度流特征;研發(fā)多尺度監(jiān)督機(jī)制,用于緩解由于采用最近鄰域上采樣的解碼方式導(dǎo)致邊緣預(yù)測(cè)不準(zhǔn)確的問(wèn)題。實(shí)驗(yàn)結(jié)果表明:該方法的平均精確度、平均召回率、綜合評(píng)價(jià)指標(biāo)和平均絕對(duì)誤差均優(yōu)于對(duì)比顯著性目標(biāo)檢測(cè)方法。
關(guān)鍵詞:花椒自動(dòng)化采摘;圖像處理;RGB-D顯著性目標(biāo)檢測(cè);跨模態(tài)融合;注意力機(jī)制;多尺寸監(jiān)督
中圖分類號(hào):TP391.41文獻(xiàn)標(biāo)志碼: A文章編號(hào):1671-5276(2024)06-0211-07
Abstract:To address the inability of existing saliency detection models to utilize the features of pepper branch color images and depth images effectively, an attention-based RGB-D image pepper branch saliency detection model is proposed. Color and depth image features are extracted separately by two single-stream convolutional networks. A cross-modal fusion module based on spatial and channel attention mechanisms is designed to fuse multi-scale color stream and depth stream features. A multi-scale supervision mechanism is developed to alleviate the inaccurate edge prediction caused by the use of nearest-neighbor upsampling decoding. Experimental results show that the average accuracy, average recall rate, comprehensive evaluation index and average absolute error of the proposed method are all superior to the compared salient object detection methods.
Keywords:automated pepper harvesting; picture processing; RGB-D significance target detection; cross-mode fusion; attention mechanism; multi-dimension supervision
0引言
花椒是四川省重要經(jīng)濟(jì)作物,提升花椒采摘的自動(dòng)化水平對(duì)于我國(guó)西部鄉(xiāng)村振興具有重要意義。得益于近些年來(lái)計(jì)算機(jī)軟硬件的發(fā)展,基于視覺(jué)的采摘機(jī)器人被廣泛地應(yīng)用于蘋果、柑橘和葡萄的自動(dòng)化采摘。作為智能采摘機(jī)器人[1]的重要組成部分,視覺(jué)系統(tǒng)通常被設(shè)計(jì)用于識(shí)別并定位果實(shí)位置,從而引導(dǎo)機(jī)械部分完成采摘。不同于蘋果、柑橘等的采摘,簇狀花椒的采摘點(diǎn)無(wú)法直接被觀測(cè)到,而采摘點(diǎn)的估計(jì)需要利用枝干和花椒簇的交點(diǎn)來(lái)確定。
如圖1所示,考慮到機(jī)械臂的運(yùn)動(dòng)空間及復(fù)雜采摘場(chǎng)景中的干擾物(枝條、葉子等),合理的花椒采摘規(guī)劃應(yīng)為采摘明顯的近景花椒,忽略遠(yuǎn)景花椒。由于近景花椒一般位于前景中較粗的主枝干上,因此前景主枝干的提取是花椒采摘點(diǎn)估計(jì)的重要前提。
花椒前景的主枝干提取任務(wù)是一種顯著性目標(biāo)檢測(cè)[2](salient object detection, SOD)問(wèn)題,旨在實(shí)現(xiàn)圖像場(chǎng)景中感興趣區(qū)域的快速提取并過(guò)濾背景噪聲的干擾。文獻(xiàn)[3]提出了一種RGB-SOD算法用于農(nóng)田中的昆蟲(chóng)檢測(cè)并取得了良好的效果,但易受到復(fù)雜環(huán)境的干擾,無(wú)法有效用于具有低對(duì)比度、相似前景與背景、復(fù)雜背景等特點(diǎn)的花椒主枝干提取。為了實(shí)現(xiàn)復(fù)雜農(nóng)業(yè)場(chǎng)景中SOD,文獻(xiàn)[4]提出了雙流主干網(wǎng)絡(luò)用于同時(shí)提取柑橘圖像的彩色和深度特征,提供具有魯棒性的顯著性線索。文獻(xiàn)[5]以跳層結(jié)構(gòu)為基礎(chǔ)提取跨模態(tài)間的多層次互補(bǔ)信息。為了更好地獲取跨模態(tài)間的互補(bǔ)信息用于顯著性推理,文獻(xiàn)[6]提出了一種流體金字塔結(jié)構(gòu)用于引導(dǎo)深度圖像和彩色圖像的信息融合。復(fù)雜的農(nóng)作環(huán)境中采集到的彩色圖像和深度圖像中跨模態(tài)信息往往是非耦合的(圖1),采集到的花椒深度圖像中還包含了與前景相似的噪聲,而現(xiàn)有的一些研究表明線性的跨模態(tài)融合方法無(wú)法有效地抑制相似噪聲的干擾,從而影響最終的識(shí)別結(jié)果。為了抑制深度圖像中的噪聲對(duì)顯著推理造成的影響,文獻(xiàn)[7]利用邊緣一致性、區(qū)域不確定性和模型方差來(lái)評(píng)估深度圖質(zhì)量,并以此指導(dǎo)深度圖與彩色圖的選擇性融合。然而,該方法依賴手動(dòng)設(shè)計(jì)的質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn),無(wú)法應(yīng)對(duì)花椒采摘場(chǎng)景中的各種復(fù)雜背景的干擾。
針對(duì)相似前景與背景、復(fù)雜背景中的花椒枝干提取問(wèn)題,本文提出基于注意力機(jī)制[8]和多尺度監(jiān)督[9]的花椒主枝干顯著性檢測(cè)模型。模型的編碼器采用主流的雙分支主干網(wǎng)絡(luò)來(lái)提取彩色圖像特征和深度圖像特征。此外,在多個(gè)尺度上,本文提出特征融合增強(qiáng)模塊(feature fusion enhancement module,F(xiàn)FEM)并將其嵌入到兩個(gè)分支網(wǎng)絡(luò)中,利用空間與通道注意力模式來(lái)實(shí)現(xiàn)跨模態(tài)特征的判別融合。在多尺度分割標(biāo)簽的監(jiān)督下,特征融合增強(qiáng)模塊能夠自動(dòng)學(xué)習(xí)空間權(quán)值圖和通道權(quán)值向量。本文方法如下。
1)針對(duì)復(fù)雜的農(nóng)作環(huán)境中花椒主枝干的檢測(cè)問(wèn)題,提出一種基于跨模態(tài)特征融合的RGB-D花椒枝干圖像顯著性檢測(cè)模型。
2)所提模型在多個(gè)編碼層級(jí)采用通道權(quán)值向量調(diào)整彩色和深度圖像的串聯(lián)特征,并計(jì)算調(diào)整后特征的空間權(quán)值圖,提取主枝干的形狀特征并抑制背景噪聲。
3)采用多尺度監(jiān)督的方式來(lái)緩解上采樣過(guò)程中的邊緣信息丟失,提高模型對(duì)主枝干的分割效果。
1所提模型
1.1網(wǎng)絡(luò)結(jié)構(gòu)
花椒主枝干的精確提取是預(yù)測(cè)花椒采摘點(diǎn)的重要前提。為了在復(fù)雜農(nóng)作環(huán)境下完成花椒主枝干的精確提取,本文提出了一種跨模態(tài)的枝干顯著性檢測(cè)模型,如圖2所示。模型采用花椒彩色和深度圖像兩種輸入信息,由兩個(gè)單流卷積網(wǎng)絡(luò)獲取多尺度的編碼特征。單流卷積網(wǎng)絡(luò)采用類似Unet編碼器架構(gòu),通過(guò)連續(xù)地組合卷積編碼層(包括卷積層、批歸一化層、線性整流層和最大池化層)來(lái)編碼彩色圖像和深度圖像特征。為了有效地利用彩色和深度編碼特征,提出特征融合增強(qiáng)模塊用于實(shí)現(xiàn)跨模態(tài)特征的判別融合并剔除特征中相似背景的噪聲干擾。該模塊借鑒了注意力機(jī)制聚焦于感興趣區(qū)域的特性,通過(guò)在線性融合過(guò)程中嵌入非線性注意力單元來(lái)改善融合后特征的顯著性表達(dá)。在上采樣過(guò)程中,一個(gè)反向的解碼網(wǎng)絡(luò)被用于解碼圖像特征,非線性注意力單元被嵌入到網(wǎng)絡(luò)的每一層級(jí)來(lái)進(jìn)一步精煉特征表示。最終,通過(guò)多級(jí)監(jiān)督的方式,顯著性推理模塊完成最終的預(yù)測(cè)輸出。
1.2基于注意力的跨模態(tài)融合模塊
彩色花椒圖像中主枝干的提取會(huì)受到相似前景枝干的干擾。因此,為準(zhǔn)確地區(qū)分主枝干還需要深度圖像提供額外的顯著性線索。然而,復(fù)雜的農(nóng)作環(huán)境易導(dǎo)致深度圖的深度線索缺失,使得深度圖像中枝干與附近葉子、花椒等對(duì)象融為一體。從低質(zhì)量的深度圖像中分辨出目標(biāo)枝干仍然需要借助顏色、紋理等外觀信息。因此,本文設(shè)計(jì)了跨模態(tài)融合模塊來(lái)同時(shí)提取彩色模態(tài)和深度模態(tài)中包含的與主枝干相關(guān)的編碼信息。為了減少彩色模態(tài)和深度模態(tài)中與顯著性目標(biāo)相似的背景信息對(duì)主枝干提取的干擾,本文在融合模塊中嵌入注意力機(jī)制來(lái)精煉融合后的編碼特征。
單一層級(jí)跨模態(tài)融合模塊的結(jié)構(gòu)如圖3所示。該模塊首先接收來(lái)自同層級(jí)的彩色模態(tài)和深度模態(tài)特征XRGBi∈RCi×(H/2i)×(W/2i)和XDEPi∈RCi×(H/2i)×(W/2i),其中參數(shù)C、H、W和i分別表示編碼特征的通道數(shù)量、尺度和層級(jí)系數(shù),R表示實(shí)數(shù)空間。
針對(duì)雙模態(tài)的特征,首先采用拼接操作聚合跨模態(tài)特征,并采用卷積操作對(duì)聚合特征進(jìn)行非線性映射:
式中:Conv3×3表示采用3×3尺寸的卷積核進(jìn)行步長(zhǎng)為1的標(biāo)準(zhǔn)卷積操作;BN(·)和ReLU(·)分別代表批歸一化和線性整流操作。
對(duì)于聚合后的跨模態(tài)特征Ffusion,分別采用通道注意模塊和空間激活模塊來(lái)計(jì)算該特征的通道權(quán)值圖和空間權(quán)值圖。最終,融合模塊的編碼輸出將表示為輸入編碼在權(quán)值圖上的加權(quán)映射。具體的計(jì)算過(guò)程如下:
式中:CAM表示通道注意力模塊;表示對(duì)應(yīng)元素相乘;通道權(quán)值圖FCAM∈RCi×(H/2i)×(W/2i)。
式中:SAM表示空間注意力模塊;空間權(quán)值圖FSAM∈RCi×(H/2i)×(W/2i);模塊最終輸出的編碼特征XRGB′i∈RCi×(H/2i)×(W/2i)。
通道注意力通過(guò)自適應(yīng)地計(jì)算輸入特征通道權(quán)值圖來(lái)為判別力強(qiáng)的重要通道賦予較高權(quán)值,從高維冗余的特征圖中選擇對(duì)顯著性表達(dá)更加有利的特征表示??臻g注意力機(jī)制通過(guò)自適應(yīng)計(jì)算來(lái)增強(qiáng)顯著性區(qū)域的特征表示。由于顯著性區(qū)域被賦予更高的空間權(quán)值,多模態(tài)特征中與主枝干相似的背景噪聲能夠被更好地抑制。
1.3通道注意機(jī)制和空間激活機(jī)制
卷積網(wǎng)絡(luò)輸出的中間層特征中包含反映不同內(nèi)容的通道,例如彩色模態(tài)中枝干的主要形狀、細(xì)節(jié)輪廓、語(yǔ)義信息,深度模態(tài)中主枝干與背景的深度差異性、目標(biāo)的深度輪廓等。在主枝干的顯著性檢測(cè)中,特征圖中背景的細(xì)節(jié)輪廓信息會(huì)干擾顯著性目標(biāo)的檢測(cè),造成分割結(jié)果中出現(xiàn)與主枝干結(jié)構(gòu)相似的背景枝干,甚至花椒和葉子等背景對(duì)象。因此,對(duì)多通道編碼特征進(jìn)行差異化關(guān)注,可以增強(qiáng)其中與顯著性預(yù)測(cè)相關(guān)的特征表達(dá),起到抑制多模態(tài)特征中背景信息的干擾作用,有利于前景主枝干提取。因此在跨模態(tài)融合模塊每個(gè)層級(jí)中,通道注意機(jī)制被嵌入用于引導(dǎo)網(wǎng)絡(luò)對(duì)融合后的跨模態(tài)編碼特征中與顯著性預(yù)測(cè)相關(guān)的通道,進(jìn)行重點(diǎn)關(guān)注,其結(jié)構(gòu)如圖4所示。
首先,對(duì)輸入的串聯(lián)特征Ffusion進(jìn)行轉(zhuǎn)置:
式中Permute(·)表示轉(zhuǎn)置操作,轉(zhuǎn)置后的編碼特征FTfusion∈R(H/2i)×(W/2i)×Ci。
然后,采用包含一個(gè)隱含層的多層感知機(jī)對(duì)轉(zhuǎn)置特征進(jìn)行非線性映射:
式中MLP由兩個(gè)全連接層與一個(gè)ReLU激活函數(shù)層組成。與CBAM[10]類似,本文在MLP進(jìn)行特征映射時(shí),采用reduction為r的調(diào)節(jié)通道衰減系數(shù)。MLP輸出的編碼FT∈R(H/2i)×(W/2i)×Ci。
隨后,采用轉(zhuǎn)置操作還原編碼特征的維度,同時(shí)采用Sigmoid激活函數(shù)將還原后的特征映射到[0,1]并獲得最終的通道權(quán)值圖FCAM:
式中σ表示Sigmoid函數(shù)。
編碼特征中的二維圖反映了不同內(nèi)容的語(yǔ)義激活,二維圖特定的權(quán)值圖能夠引導(dǎo)網(wǎng)絡(luò)增強(qiáng)相應(yīng)區(qū)域的語(yǔ)義響應(yīng),從而抑制非感興趣區(qū)域特征的表達(dá)。本文進(jìn)一步嵌入空間激活機(jī)制到模態(tài)融合模塊中。空間注意力機(jī)制依據(jù)顯著性監(jiān)督來(lái)自適應(yīng)計(jì)算有利于枝干預(yù)測(cè)的二維權(quán)值圖,從而引導(dǎo)枝干顯著性特征的表達(dá)。
在空間激活機(jī)制中(圖5),對(duì)輸入的編碼特征采用7×7的卷積操作,獲取更大的感受野,使網(wǎng)絡(luò)能夠更加有效地利用上下文空間信息。同時(shí),為減少較大卷積核帶來(lái)的計(jì)算負(fù)擔(dān),上述卷積操作采用了reduction為r的可調(diào)節(jié)通道衰減系數(shù):
式中:FM為卷積后的編碼特征;Convr7×7表示采用7×7卷積核和通道衰減系數(shù)r的卷積操作。
隨后采用7×7卷積核和通道衰減系數(shù)1/r的卷積操作將該特征映射到與輸入特征相同的特征空間:
最后采用Sigmoid激活函數(shù)將編碼特征中的特征值映射到[0,1]以得到最終的空間權(quán)值圖FSAM:
FSAM中每個(gè)特征點(diǎn)的取值范圍是[0,1],某個(gè)位置的權(quán)值較大則表明此處的特征被增強(qiáng),否則被削弱。通過(guò)訓(xùn)練階段優(yōu)化卷積核參數(shù),F(xiàn)SAM能夠自適應(yīng)地根據(jù)彩色特征XRGBi和深度特征XDEPi為分割目標(biāo)區(qū)域賦予較大特征權(quán)值,增強(qiáng)前景主枝干區(qū)域的特征,抑制遠(yuǎn)景枝干的干擾。因此,融合跨模態(tài)特征的空間權(quán)值圖FSAM能夠引導(dǎo)模型更加關(guān)注特征圖中的局部重要區(qū)域。
1.4顯著性推理
特征解碼階段采用鄰域插值的上采樣操作會(huì)丟失目標(biāo)邊緣輪廓的部分特征,使得分割結(jié)果中物體的邊緣較為粗糙[11]。然而花椒采摘點(diǎn)的估計(jì)需要精確的枝干邊緣作為依據(jù)。因此,采用多尺度監(jiān)督的方式來(lái)減少上采樣過(guò)程中邊緣信息的丟失,如圖6所示。在特征解碼階段,本文采用與Skip-Unet類似的解碼網(wǎng)絡(luò),通過(guò)采用階梯式的最近鄰域上采樣層和卷積激活操作來(lái)對(duì)融合后的跨模態(tài)特征編碼進(jìn)行最終的解碼映射。在上采樣過(guò)程中,跳躍連接被用于從編碼器中獲取部分特征映射來(lái)提升解碼器的特征豐度,緩解因注意力機(jī)制而丟失的部分編碼特征。
在上采樣過(guò)程中的每一個(gè)層級(jí),對(duì)應(yīng)尺度的真實(shí)標(biāo)簽值GT,i被依次用于監(jiān)督特征解碼過(guò)程,以損失計(jì)算的方法來(lái)引導(dǎo)枝干特征的顯著表達(dá)。其中,不同尺度的真實(shí)標(biāo)簽值通過(guò)下采樣真實(shí)標(biāo)簽圖獲得。
2實(shí)驗(yàn)結(jié)果與分析
2.1實(shí)驗(yàn)設(shè)置
1)數(shù)據(jù)集
實(shí)驗(yàn)采用的花椒圖像采集于四川省冕寧縣,品種為紅花椒,處于盛果采摘期(2021年7月2日—7月6日),果實(shí)的顏色以紅色為主。采用Intel RealSence D435i深度相機(jī)采集花椒的彩色和深度圖像,并將二者尺寸進(jìn)行對(duì)齊。表1詳細(xì)地列出了圖像數(shù)據(jù)集的信息。為了保證數(shù)據(jù)的多樣性,采集的圖像涵蓋了3種天氣條件(晴天、多云、雨后)和一天中的兩個(gè)時(shí)間段(上午和下午),如圖7所示。從5棵不同大小的花椒樹(shù)上總共收集了1 725張彩色圖像和對(duì)應(yīng)的深度圖,其中1 042張彩色圖像被標(biāo)記用于識(shí)別算法的訓(xùn)練和驗(yàn)證。其中,70%(721)的標(biāo)記圖像被用作訓(xùn)練數(shù)據(jù),剩余30%(321)的標(biāo)記圖像被用于實(shí)驗(yàn)驗(yàn)證,以測(cè)試識(shí)別算法的擬合性能。此外,剩余683張未標(biāo)記的圖像則被用來(lái)測(cè)試算法的識(shí)別效果。在數(shù)據(jù)標(biāo)注方面,LabelMe軟件被用于手動(dòng)標(biāo)注主枝干的分割掩碼。
2)模型參數(shù)
實(shí)驗(yàn)框架基于PyTorch1.2框架搭建,訓(xùn)練階段采用Adam優(yōu)化器來(lái)訓(xùn)練網(wǎng)絡(luò),選取學(xué)習(xí)率、批量、迭代次數(shù)和通道衰減系數(shù)r分別設(shè)置為0.001、6、800和16。測(cè)試階段,將模型預(yù)測(cè)概率大于0.7的像素作為分割目標(biāo)。所有實(shí)驗(yàn)環(huán)境均采用Ubantu 18.04的設(shè)備環(huán)境,顯卡為NVIDIA GeForce RTX 3090。
3)評(píng)價(jià)指標(biāo)
為更好地評(píng)估模型的綜合性能,采用平均精確度P、平均召回率R、Fmeasure和平均絕對(duì)誤差(mean absolute error,MAE)作為評(píng)價(jià)指標(biāo)。如表2所示,模型檢測(cè)結(jié)果的定義主要分為真陽(yáng)性(true positive,TP)、假陽(yáng)性(1 positive,F(xiàn)P)、真陰性(true negative,TN)、假陰性(1 negative,F(xiàn)N)4種情況。
Fmeasure是對(duì)精確度和召回率的整體表現(xiàn)評(píng)估,計(jì)算公式如下:
式中β2是一個(gè)超參數(shù),通常取0.3。P、R、Fmeasure數(shù)值越大,顯著性目標(biāo)檢測(cè)效果越好。
MAE值用于評(píng)估顯著預(yù)測(cè)圖和真值圖之間的平均絕對(duì)差值,代表顯著性檢測(cè)的整體效果:
式中:N和M分別為圖像的長(zhǎng)和寬;S(x,y)和G(x,y)分別為(x,y)處的顯著預(yù)測(cè)值和真值。MAE值越小,表明模型預(yù)測(cè)的結(jié)果與真實(shí)標(biāo)注圖間差異越小,因此枝干的分割性能越好。
2.2對(duì)比實(shí)驗(yàn)
為測(cè)試本文模型的性能,本文采用主流的顯著性模型進(jìn)行對(duì)比,包括全局上下文感知漸進(jìn)聚合顯著性目標(biāo)檢測(cè)網(wǎng)絡(luò)(global context-aware progressive aggregation network for salient object detection,GCPANet)[12]、金字塔特征注意力顯著性檢測(cè)網(wǎng)絡(luò)(pyramid feature attention network for saliency detection,PFAN)[13]、基于CNN的跨視圖轉(zhuǎn)移和多視圖融合RGB-D顯著性檢測(cè)網(wǎng)絡(luò)(CNNs-based RGB-D saliency detection via cross-view transfer and multiview fusion,MV-CNN)[14]、基于分層動(dòng)態(tài)濾波RGB-D顯著性檢測(cè)網(wǎng)絡(luò)(hierarchical dynamic filtering network for RGB-D salient object detection,HDFNet)[15]。指標(biāo)結(jié)果定量比較如表3所示。
從表3中可以看出:本文模型取得了最佳的顯著性檢測(cè)效果,其中P、R、Fmeasure和MAE指標(biāo)分別為0.852 3、0.862 5、0.854 6和0.041 2。與MV-CNN網(wǎng)絡(luò)相比,指標(biāo)性能分別提升了0.95、1.79、1.14和0.14個(gè)百分點(diǎn)。相比于其他的3種網(wǎng)絡(luò),指標(biāo)性能分別有1.53~3.51、1.89~3.93、1.94~3.61和1.16~2.15個(gè)百分點(diǎn)的提升。此外,為了清晰地觀察實(shí)驗(yàn)結(jié)果,本文繪制了各個(gè)模型的P-R曲線。如圖8所示,P-R曲線表明本文模型優(yōu)于MV-CNN模型,同時(shí)明顯優(yōu)于HDFNet、GCPANet和PFAN模型。
為了更直觀地分析結(jié)果,本文進(jìn)一步展示了各個(gè)模型檢測(cè)的可視化結(jié)果,如圖9所示。
從圖9中可以看出,本文模型能夠在雜亂背景、前景和不易區(qū)分背景、多個(gè)對(duì)象等復(fù)雜場(chǎng)景中,準(zhǔn)確檢測(cè)到顯著花椒枝干區(qū)域。如第一、第二行圖片中存在較多與前景主枝干類似的背景枝干,但本文模型能夠充分抑制背景枝干噪聲,將前景主枝干識(shí)別出來(lái)。第三行圖片中前景區(qū)域存在多個(gè)枝干對(duì)象,本文模型仍能夠?qū)⑶熬爸髦Ω勺R(shí)別出來(lái)。這表明本文模型能夠有效過(guò)濾冗余信息,準(zhǔn)確地輸出識(shí)別結(jié)果。
2.3消融實(shí)驗(yàn)
為測(cè)試本文所提不同模塊對(duì)模型顯著性檢測(cè)的影響,設(shè)置以下模型進(jìn)行對(duì)比實(shí)驗(yàn):A,基礎(chǔ)模型,經(jīng)典的U-Net單模態(tài)骨干網(wǎng)絡(luò)模型;B,雙編碼器模型,在U-Net模型的基礎(chǔ)上,增加另一編碼器通道提取深度圖像特征,兩通道在編碼階段結(jié)束后特征直接拼接進(jìn)入解碼階段;C,跨模態(tài)多尺度特征融合模型,該模型同樣采用雙通道提取圖像特征,并在編碼階段的5個(gè)層次分別加入特征融合模塊進(jìn)行特征融合,融合后的特征進(jìn)入彩色圖像通道繼續(xù)編碼;D,多尺度監(jiān)督模型,在U-Net模型的基礎(chǔ)上,在解碼階段進(jìn)行多尺度監(jiān)督;E,本文模型,同時(shí)采用跨模態(tài)多尺度特征融合模塊和多尺度監(jiān)督模塊。上述模型的檢測(cè)性能如表4所示。
從表4中可以看出:模型B由于未采用特征融合模塊對(duì)深度圖像和彩色圖像進(jìn)行特征融合,導(dǎo)致被冗余的深度信息干擾,評(píng)價(jià)指標(biāo)反而差于基礎(chǔ)模型;模型C在引入多尺度特征融合增強(qiáng)模塊后,評(píng)價(jià)指標(biāo)得到了明顯的提升;模型D的多尺度監(jiān)督模塊也促進(jìn)了模型的評(píng)估性能。多尺度特征融合增強(qiáng)模塊和多尺度監(jiān)督模塊的聯(lián)合使用和僅使用單個(gè)模塊相比,指標(biāo)性能分別有0.96~2.38、2.22~3.19、1.25~2.56和0.70~1.24個(gè)百分點(diǎn)的提升。此外,本文繪制了5種模型檢測(cè)的P-R曲線,如圖10所示。從中可以看出,使用多尺度特征融合增強(qiáng)模塊和多尺度監(jiān)督模塊后模型的檢測(cè)曲線能夠?qū)⑵渌€完全包住,這證明了其性能優(yōu)于其他幾種檢測(cè)模型。
為了更加直觀地反映出多尺度特征融合增強(qiáng)模塊和多尺度監(jiān)督模塊對(duì)顯著性檢測(cè)的影響,本文對(duì)這幾個(gè)模型的部分檢測(cè)結(jié)果進(jìn)行了可視化,如圖11所示。從圖11中可以看出:模型B增加了預(yù)測(cè)圖的噪聲數(shù)量,帶來(lái)了負(fù)面效果;模型C又極大程度上抑制了噪聲,這定性地證明了多尺度特征融合增強(qiáng)模塊的作用;使用模型D的多尺度監(jiān)督模塊后,模型提取邊緣信息的能力更強(qiáng);同時(shí)本文模型使用了多尺度特征融合增強(qiáng)模塊和多尺度監(jiān)督模塊,可以得到輪廓清晰且無(wú)噪聲的前景主枝干預(yù)測(cè)圖。
3結(jié)語(yǔ)
針對(duì)現(xiàn)有顯著性目標(biāo)檢測(cè)模型難以準(zhǔn)確定位復(fù)雜場(chǎng)景下花椒枝干的問(wèn)題,本文提出跨模態(tài)特征融合的RGB-D花椒圖像顯著性檢測(cè)模型。本文方法首先采用雙分支主干網(wǎng)絡(luò)來(lái)提取彩色圖像特征和深度圖像特征,并利用注意力機(jī)制來(lái)引導(dǎo)這兩個(gè)模態(tài)特征的融合;最后引入多尺度監(jiān)督方法用于提升模型對(duì)于顯著性枝干邊緣的檢測(cè)性能。實(shí)驗(yàn)結(jié)果表明:本文模型的各項(xiàng)評(píng)估指標(biāo)均優(yōu)于其他顯著性目標(biāo)檢測(cè)模型,能夠得到更加精確的枝干檢測(cè)結(jié)果。
參考文獻(xiàn):
[1] 楊前,劉興科,羅建橋,等. 基于多任務(wù)上下文增強(qiáng)的花椒檢測(cè)模型[J]. 機(jī)械制造與自動(dòng)化,2023,52(1):113-118,149.
[2] LIU J J,HOU Q B,LIU Z A,et al. PoolNet+:exploring the potential of pooling for salient object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2023,45(1):887-904.
[3] 黃世國(guó),洪銘淋,張飛萍,等. 基于F~3Net顯著性目標(biāo)檢測(cè)的蝴蝶圖像前背景自動(dòng)分割[J]. 昆蟲(chóng)學(xué)報(bào),2021,64(5):611-617.
[4] SUN Q X,CHAI X J,ZENG Z K,et al. Noise-tolerant RGB-D feature fusion network for outdoor fruit detection[J]. Computers and Electronics in Agriculture,2022,198:107034.
[5] 陳曦濤,訾玲玲,張雪曼. 采用跳層卷積神經(jīng)網(wǎng)絡(luò)的RGB-D圖像顯著性檢測(cè)[J]. 計(jì)算機(jī)工程與應(yīng)用,2022,58(2):252-258.
[6] LIU Z Y,LIU J W,ZUO X,et al. Multi-scale iterative refinement network for RGB-D salient object detection[J]. Engineering Applications of Artificial Intelligence,2021,106:104473.
[7] WANG X H,LI S,CHEN C,et al. Depth quality-aware selective saliency fusion for RGB-D image salient object detection[J]. Neurocomputing,2021,432:44-56.
[8] NIU Z Y,ZHONG G Q,YU H. A review on the attention mechanism of deep learning[J]. Neurocomputing,2021,452:48-62.
[9] WANG N,CUI Z G,SU Y Z,et al. Multiscale supervision-guided context aggregation network for single image dehazing[J]. IEEE Signal Processing Letters,2021,29:70-74.
[10] WOO S,PARK J,LEE J Y,et al. CBAM:convolutional block attention module[C]//European Conference on Computer Vision. Cham:Springer,2018:3-19.
[11] YU J,YAO J H,ZHANG J,et al. SPRNet:single-pixel reconstruction for one-stage instance segmentation[J]. IEEE Transactions on Cybernetics,2021,51(4):1731-1742.
[12] CHEN Z Y,XU Q Q,CONG R M,et al. Global context-aware progressive aggregation network for salient object detection[J]. Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(7):10599-10606.
[13] ZHAO T,WU X Q. Pyramid feature attention network for saliency detection[C]//2019IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach,CA,USA: IEEE,2019:3080-3089.
[14] HAN J W,CHEN H,LIU N,et al. CNNs-based RGB-D saliency detection via cross-view transfer and multiview fusion[J]. IEEE Transactions on Cybernetics,2018,48(11):3171-3183.
[15] PANG Y W,ZHANG L H,ZHAO X Q,et al. Hierarchical dynamic filtering network for RGB-D salient object detection[C]//Vedaldi A,Bischof H,Brox T,et al. European Conference on Computer Vision. Cham:Springer,2020:235-252.
收稿日期:20230407
基金項(xiàng)目:四川省科技計(jì)劃重點(diǎn)研發(fā)項(xiàng)目(2021YFN0020)
第一作者簡(jiǎn)介:李節(jié)(1997—),男,四川達(dá)州人,碩士研究生,研究方向?yàn)閳D像處理、機(jī)器視覺(jué),lijie295195@163.com。
DOI:10.19344/j.cnki.issn1671-5276.2024.06.042