石玉誠,吳 云,龍慧云
貴州大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽550025
顯著性目標(biāo)檢測旨在模擬人類視覺系統(tǒng)檢測出吸引人類注意力的物體或區(qū)域,顯著性目標(biāo)檢測在許多計算機(jī)視覺任務(wù)中有著廣泛的應(yīng)用。例如,圖像分類[1]、語義分割[2]、行人檢測[3]、圖像檢索[4]、圖像壓縮[5]、視覺跟蹤[6]等。隨著深度傳感器設(shè)備的普及,深度圖的采集變得更加便利,推動了RGB-D 顯著性目標(biāo)檢測的研究。針對該研究,主要存在以下問題,顯著性檢測是將圖像中顯著的區(qū)域檢測出來,如何有效定位邊緣清晰的顯著區(qū)域是本文待解決的關(guān)鍵問題。此外,與RGB 圖像相比,RGB-D 圖像包含有顏色信息和深度信息,深度圖作為RGB 的互補(bǔ)信息,包含豐富的空間結(jié)構(gòu)以及形狀信息,為顯著性目標(biāo)檢測提供了更加豐富的信息,利用該信息有助于理解復(fù)雜的場景。但是,RGB和Depth屬于不同模態(tài),如何有效融合RGB和Depth信息是本文待解決的關(guān)鍵問題。
針對上述問題,早期的一些方法采用早期融合策略,Qu 等人[7]將手工RGB 和Depth 特征串聯(lián)輸入到網(wǎng)絡(luò)中。Fan 等人[8]和Liu 等人[9]將深度圖作為第四通道,與RGB 一起輸入到網(wǎng)絡(luò)模型中,采用單流網(wǎng)絡(luò)模型架構(gòu)進(jìn)行學(xué)習(xí)。由于二者模態(tài)上存在差異,這種融合方式往往達(dá)不到好的效果。研究者們開始采用結(jié)果融合的方式[10-11]。采用雙流網(wǎng)絡(luò)模型架構(gòu),每個網(wǎng)絡(luò)分別生成顯著圖,最后通過相乘、相加或者卷積運(yùn)算生成最終的顯著圖。Wang 等人[12]采用結(jié)果融合策略,學(xué)習(xí)交換映射,自適應(yīng)融合RGB 和Depth。由于兩種數(shù)據(jù)在不同網(wǎng)絡(luò)中進(jìn)行特征提取,交互有限,這樣的融合策略很難達(dá)到好的效果。因此,很多基于中間融合策略的方法被提出。例如,Chen等人[13]提出了一種多尺度多路徑融合網(wǎng)絡(luò),改進(jìn)了傳統(tǒng)的單融合路徑。Li 等人[14]提出深度特征加權(quán)組合模塊(cross-modal depth-weighted combination,CDC),在每個層次上通過深度特征來增強(qiáng)RGB 特征,并提出一個信息轉(zhuǎn)換模塊,以交互式和自適應(yīng)的方式融合高層的RGB 和Depth 特征。該方法雖然通過CDC 模塊對RGB 和Depth 特征進(jìn)行了一定的交互,但是模態(tài)交互有限,無法挖掘到更加復(fù)雜多模態(tài)交互特征,這樣會導(dǎo)致后期融合得到的高層RGB 和Depth 特征有限。Fan等人[15]提出二分支主干策略網(wǎng)絡(luò)(bifurcated backbone strategy network,BBSNet),兩個網(wǎng)絡(luò)分別對兩種信息進(jìn)行提取,使用相加對RGB 和Depth 特征進(jìn)行融合。然后,采用二分支主干策略,把多尺度特征分為教師特征和學(xué)生特征,利用教師特征對學(xué)生特征進(jìn)行指導(dǎo)學(xué)習(xí)。但是該網(wǎng)絡(luò)前期模態(tài)融合簡單,這樣會導(dǎo)致提取得到的教師特征和學(xué)生特征不豐富,影響最終的檢測效果。
針對上述存在的問題,本文提出一個跨模態(tài)特征融合模塊,采用雙流網(wǎng)絡(luò)結(jié)構(gòu),將特征提取網(wǎng)絡(luò)分為六部分,每部分采用跨模態(tài)特征模塊對RGB 和Depth 特征進(jìn)行充分融合,以獲得更具共性和互補(bǔ)性的模態(tài)融合特征。該模塊借鑒CDC 模塊的Depth 特征對RGB 特征進(jìn)行加權(quán)的思想,以突出顯著區(qū)域與非顯著區(qū)域的對比度。之后,將Depth 特征和增強(qiáng)的RGB 特征進(jìn)行相乘、相加以及級聯(lián)卷積運(yùn)算,以完成二者之間的模態(tài)交互,創(chuàng)新性地引入注意力機(jī)制,使得網(wǎng)絡(luò)關(guān)注有用的模態(tài)融合特征,提高融合穩(wěn)定性。最后,加上一個殘差連接分支,將原始RGB 特征與模態(tài)融合特征進(jìn)行融合,有效避免低質(zhì)量的深度圖對模態(tài)融合特征造成的影響。
針對定位顯著區(qū)域以及顯著區(qū)域邊緣模糊問題,受到Fan 等人[15]二分支主干策略的啟發(fā),高級語義特征具有豐富的語義特征有助于定位顯著區(qū)域,底層特征具有豐富的細(xì)節(jié)信息,有助于改善顯著區(qū)域邊緣模糊問題。因此,提出一種高級語義修復(fù)策略,用于解決顯著區(qū)域定位以及邊緣模糊問題。
本文的工作不同于二分支主干策略,該策略將網(wǎng)絡(luò)的后三層特征用于提取教師特征,將網(wǎng)絡(luò)的前三層用于提取學(xué)生特征,利用教師特征對學(xué)生特征進(jìn)行指導(dǎo)學(xué)習(xí)。本文將上述跨模態(tài)特征融合模塊提取的模態(tài)融合特征的后三層用于提取高級語義信息,同樣經(jīng)過全局上下文模塊(global contextual module,GCM)[15]對后三層特征進(jìn)行進(jìn)一步提取,本文采用拼接融合運(yùn)算,具有更小的參數(shù)量和計算量,而二分支主干策略對提取后的特征進(jìn)行不同層次的模態(tài)交互運(yùn)算,增加了參數(shù)量和計算量。此外,本文的修復(fù)策略與二分支主干策略不同,本文采用U-Net[16]的網(wǎng)絡(luò)結(jié)構(gòu),從網(wǎng)絡(luò)的頂層向下融合,每一層經(jīng)過上采樣之后與下一層進(jìn)行通道維度上的拼接融合。最后,前三層底層特征在融合前后采用高級語義特征修復(fù),這樣能充分利用高級語義特征對底層特征進(jìn)行指導(dǎo)。本文的貢獻(xiàn)如下:
(1)為了充分挖掘RGB 與Depth 的跨模態(tài)特征,本文提出一個跨模態(tài)特征融合模塊,自適應(yīng)地融合多模態(tài)特征,能夠提取深度圖中有效的信息,突出融合特征的共性和互補(bǔ)性,并降低融合的模糊度。
(2)為了提高顯著區(qū)域的完整性以及邊緣模糊問題,提出一種高級語義修復(fù)的策略,有助于準(zhǔn)確檢測出顯著區(qū)域并提高邊緣清晰度。
(3)實(shí)驗(yàn)結(jié)果表明,本文方法在五個公開的數(shù)據(jù)集上均達(dá)到了優(yōu)秀的效果,達(dá)到了較為先進(jìn)的性能。
基于RGB-D 顯著性目標(biāo)檢測,主要分為深度學(xué)習(xí)和傳統(tǒng)方法。傳統(tǒng)的方法主要利用對比的知識,通過計算顏色、邊緣、紋理的對比得到圖像中的顯著區(qū)域。由于手工特征的局限性,效果往往不好。隨著深度學(xué)習(xí)的不斷發(fā)展,人們開始使用深度學(xué)習(xí)的方法進(jìn)行顯著性檢測任務(wù)。Chen 等人[13]提出了一種多尺度多路徑融合網(wǎng)絡(luò),改進(jìn)了傳統(tǒng)的單融合路徑。Wang 等人[12]提出一個顯著性融合模塊,通過學(xué)習(xí)一個開關(guān)映射來自適應(yīng)融合RGB 顯著性預(yù)測。Li等人[17]提出一種交叉模態(tài)加權(quán)策略,以鼓勵RGB 和深度通道之間的互動,提出三種深度交互模塊,分別用來處理低、中、高層的跨模態(tài)融合特征。Li 等人[14]提出深度特征加權(quán)組合模塊,在每個層次上通過深度特征來增強(qiáng)RGB 特征,并提出一個信息轉(zhuǎn)換模塊,以交互式和自適應(yīng)的方式融合高層的RGB 和Depth特征。Fan 等人[15]提出一種二分支主干策略,使用相加對RGB 和Depth 特征進(jìn)行融合。然后,把多尺度特征分為教師特征和學(xué)生特征,利用教師特征對學(xué)生特征進(jìn)行指導(dǎo)學(xué)習(xí)。Li 等人[18]提出了一種注意力引導(dǎo)的融合網(wǎng)絡(luò),通過注意力引導(dǎo)機(jī)制逐步融合RGB 圖像和深度圖像中的跨模態(tài)、跨層次的互補(bǔ)性,對RGB-D 圖像中的互補(bǔ)特征進(jìn)行聯(lián)合提取,并以密集交織的方式進(jìn)行層次化融合。Fu 等人[19]采用一個共享網(wǎng)絡(luò)同時對RGB 和Depth 進(jìn)行特征提取,并提出聯(lián)合學(xué)習(xí)和密集合作融合模塊,進(jìn)行顯著性檢測。Chen 等人[20]針對編碼階段的預(yù)融合和解碼階段的深度融合,提出了編碼器和解碼器的漸進(jìn)融合策略,有效利用了兩種模式的相互作用,提高了檢測精度。Li等人[21]提出分層交互模塊,該模塊利用RGB 特征過濾掉Depth 特征中的干擾信息,然后使用過濾后的Depth 特征依次對RGB 特征進(jìn)行增強(qiáng),RGB 與Depth的交互分層進(jìn)行。Jin 等人[22]提出一種新的互補(bǔ)深度網(wǎng)絡(luò)來更好地利用顯著的Depth 特征。
本文方法與上述方法不同,首先提出一個跨模態(tài)特征融合模塊用來逐層提取豐富的跨模態(tài)融合特征。之后,基于該模塊提取的融合特征,提出一種高級語義修復(fù)策略,將后三層融合特征用于提取高級語義信息,以U-Net[16]的網(wǎng)絡(luò)結(jié)構(gòu),逐步向下融合,之后利用高級語義特征對前三層低層特征進(jìn)行修復(fù),從而檢測出邊緣清晰定位準(zhǔn)確的顯著圖。
針對跨模態(tài)融合問題、顯著區(qū)域不完整以及邊緣模糊問題,本文提出的解決方法,將在本章進(jìn)行介紹。首先介紹網(wǎng)絡(luò)的整體架構(gòu),接著闡述跨模態(tài)特征融合模塊以及高級語義修復(fù)策略的主要思路以及具體實(shí)施過程。最后,介紹優(yōu)化網(wǎng)絡(luò)模型所使用的損失函數(shù)。
本文提出的基于高級語義修復(fù)策略的跨模態(tài)融合RGB-D 顯著性目標(biāo)檢測網(wǎng)絡(luò)的架構(gòu)如圖1 所示,將該網(wǎng)絡(luò)命名為SRMFNet(advanced semantic repair strategy for cross-modal fusion salient detection network)。
該網(wǎng)絡(luò)架構(gòu)以EfficientNet-b0[23]為主干網(wǎng)絡(luò),構(gòu)建雙流網(wǎng)絡(luò)結(jié)構(gòu),分別用來提取RGB 和Depth 特征。Conv1~Conv6 表示EfficientNet-b0[23]的不同層,作為側(cè)輸出。每個側(cè)輸出經(jīng)過跨模態(tài)特征融合模塊進(jìn)行特征融合,最終得到不同層次的模態(tài)融合特征。模態(tài)融合特征Slid4~Slid6 用于提取高級語義特征,并生成圖1 所示的顯著圖Salient map 1。之后采用U-Net[16]網(wǎng)絡(luò)結(jié)構(gòu),從網(wǎng)絡(luò)的頂層向下融合,每一層經(jīng)過上采樣之后與下一層進(jìn)行通道維度上的拼接融合,Slid1~Slid3 在融合前后采用高級語義特征修復(fù),最終生成圖1 所示的顯著圖Salient map 2。
圖1 高級語義修復(fù)策略的跨模態(tài)融合網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Cross-modal fusion network architecture for advanced semantic repair strategies
由于RGB 和Depth 特征模態(tài)之間存在差異,深度圖主要關(guān)注物體間空間距離,而RGB 主要負(fù)責(zé)捕獲顏色和紋理信息,簡單的融合操作,無法提取到復(fù)雜的多模態(tài)交互特征。受到信息轉(zhuǎn)換網(wǎng)絡(luò)(information conversion network,ICNet)[14]的CDC 模塊的啟發(fā),深度特征可作為注意圖對RGB 特征進(jìn)行加權(quán)。本文借鑒該思想,首先利用深度特征計算得到深度注意圖,然后利用深度注意圖對RGB 特征進(jìn)行加權(quán),以獲得增強(qiáng)的RGB 特征,以增強(qiáng)顯著區(qū)域與非顯著區(qū)域的對比度,避免顯著目標(biāo)丟失。將增強(qiáng)后的RGB 特征與Depth 特征進(jìn)行相乘、相加以及級聯(lián)卷積運(yùn)算,充分挖掘模態(tài)交互特征,突顯它們之間的共性和互補(bǔ)性。之后將三個融合操作結(jié)果進(jìn)行通道維度上的拼接,得到跨模態(tài)融合特征輸出??紤]到不是所有的模態(tài)融合特征都是有效的,因此,引入通道和空間注意力機(jī)制[24],使得網(wǎng)絡(luò)能更加關(guān)注有用的模態(tài)融合特征,進(jìn)而提高模態(tài)融合的穩(wěn)定性。最后,考慮到低質(zhì)量的深度特征對融合特征的影響,因此,加入一個殘差邊,將原始的RGB 特征與模態(tài)融合特征進(jìn)行相加。即使深度圖的質(zhì)量不好,也能利用RGB 信息進(jìn)行后續(xù)的特征提取,能有效避免了低質(zhì)量的深度圖對融合特征造成的影響。
本文的跨模態(tài)特征融合模塊如圖2 所示,主要有兩個分支,一個模態(tài)融合分支,一個殘差連接分支。假設(shè),Srgb、Sd分別表示RGB 和Depth 特征提取網(wǎng)絡(luò)的側(cè)輸出,具體操作如下所示:
圖2 跨模態(tài)特征融合模塊Fig.2 Cross-modal feature fusion module
(1)Depth 特征經(jīng)過1×1 卷積運(yùn)算,把通道數(shù)降為1,使用Sigmoid 激活函數(shù)生成Depth 特征注意圖,對RGB 特征進(jìn)行加權(quán),得到增強(qiáng)后的RGB 特征,具體過程可表示為:
其中,Re表示增強(qiáng)后的RGB 特征;S(·)表示Sigmoid激活函數(shù);Conv1-1(·)表示卷積核大小為1×1,通道數(shù)為1 的卷積;⊙表示逐像素相乘。
(2)將增強(qiáng)后的RGB 特征與Depth 特征進(jìn)行相乘、相加以及級聯(lián)卷積運(yùn)算。然后將三個支路的結(jié)果進(jìn)行通道維度上的拼接,具體過程可表示為:
^
(3)為了保證跨模態(tài)融合的穩(wěn)定性,在融合之后引入一個串聯(lián)的通道和空間注意力[24]。具體操作如下:
其中,x代表輸入的特征圖;Mout1、Mout2表示經(jīng)過感知器特征提取的輸出;S(·)表示Sigmoid 激活函數(shù);M(·) 表示三層感知機(jī);Max(·) 表示全局最大池化;Avg(·)表示全局平均池化;⊙表示逐像素相乘操作??臻g注意力的具體操作為:
其中,x代表輸入的特征圖;S(·)表示Sigmoid 激活函數(shù);Conv(·)表示卷積運(yùn)算;Cat(·)表示通道維度上的拼接;Max(·)表示全局最大池化;Avg(·)表示全局平均池化;⊙表示逐像素相乘;⊕表示逐像素相加。
(4)為了避免低質(zhì)量的深度圖對融合特征的影響,加入一個殘差邊,與模態(tài)融合后的特征進(jìn)行相加融合。具體操作如下所示:
其中,F(xiàn)out表示跨模態(tài)特征融合輸出;Fcat表示跨模態(tài)融合分支輸出;Srgb表示原始的RGB 特征。
基于上述跨模態(tài)特征提取模塊提取到的多層次模態(tài)融合特征,本文提出一種高級語義修復(fù)策略,提高顯著區(qū)域定位準(zhǔn)確度以及邊緣清晰度。受到二分支主干策略網(wǎng)絡(luò)[15]的啟發(fā),高層特征具有較豐富的語義特征,能夠有效定位顯著區(qū)域,低層特征包含著豐富的細(xì)節(jié)信息,能夠有效改善顯著區(qū)域邊緣模糊問題。利用高級語義信息定位顯著區(qū)域,底層特征用于修復(fù)顯著區(qū)域邊緣,從而使得網(wǎng)絡(luò)能檢測出顯著區(qū)域完整且邊緣清晰的顯著圖。
本文的高級語義修復(fù)策略,首先利用模態(tài)融合特征Slid4~Slid6 提取高級語義信息。為了進(jìn)一步提取全局信息,引入BBSNet[15]的GCM 模塊,如圖3 所示,該模塊由四個并行分支組成,每個分支都采用一個1×1 卷積,將輸入特征通道降低到32,對于k∈{2,3,4}分支,采用卷積核為2k-1 的卷積操作,緊接著進(jìn)行卷積核為3、膨脹率為2k-1 的卷積運(yùn)算。然后將四個分支的輸出進(jìn)行通道上的拼接,最后與最初的輸入進(jìn)行殘差連接。
圖3 全局上下文提取模塊Fig.3 Global context extraction module
與BBSNet[15]提取教師特征不同,本文將GCM 模塊提取到的三個分支特征,直接進(jìn)行通道維度上的拼接融合,沒有進(jìn)行不同層次的模態(tài)交互運(yùn)算,大大減小了計算量和參數(shù)量。具體操作如下所示:
其中,Conv(·)表示卷積運(yùn)算;Cat(·)表示通道維度上的拼接;GCM(·)表示全局上下文提取操作;Fhs表示高級語義特征輸出。
本文的修復(fù)策略如圖1 所示,采用U-Net[16]的網(wǎng)絡(luò)結(jié)構(gòu),自頂向下融合的過程中,需要將每一層的特征圖分辨率上采樣到下一層特征圖的分辨率大小,然后進(jìn)行通道上的拼接。當(dāng)融合到Slid1、Slid2、Slid3時,融合之前使用具有高級語義信息的注意圖,對Slid1、Slid2、Slid3 進(jìn)行相乘操作。融合之后再進(jìn)行同樣的修復(fù)操作,具體操作如下所示:
其中,F(xiàn)outi_j表示不同層的融合輸出,i∈{5,4,3,2},j∈{6,5,4,3};Slidk表示不同層次的跨模態(tài)融合特征,k∈{1,2,3,4,5,6};Fhs表示具有高級語義的特征輸出;⊙表示逐像素相乘;S(·)表示Sigmoid 激活函數(shù);Up(·)表示兩倍上采樣;Cat(·) 表示通道維度上的拼接;Conv(·)表示卷積運(yùn)算。
假設(shè)W、H為輸入圖片的寬和高,則對應(yīng)的網(wǎng)絡(luò)輸出的初始顯著圖S1∈[0,1]W×H×1,最終的顯著圖S2∈[0,1]W×H×1,其對應(yīng)的標(biāo)簽G∈[0,1]W×H×1??倱p失計算公式如下所示:
Lce表示二值交叉熵?fù)p失函數(shù),具體計算公式如下:
其中,S表示預(yù)測的顯著圖,G表示對比標(biāo)簽。
本文模型基于PyTorch[25]框架實(shí)現(xiàn),在一塊2080Ti GPU 上進(jìn)行訓(xùn)練。使用ImageNet[26]上的預(yù)訓(xùn)練權(quán)重來初始化本文的主干網(wǎng)絡(luò)EfficientNet-b0[23]的參數(shù)。兩個特征提取網(wǎng)絡(luò)之間不共享權(quán)重。使用Adam 優(yōu)化器[27]進(jìn)行端到端的訓(xùn)練。初始學(xué)習(xí)率設(shè)為1E-4 并且每隔40 輪調(diào)整至原來的10%。使用二值交叉熵?fù)p失函數(shù)作為監(jiān)督。所有訓(xùn)練和測試的圖像尺寸大小統(tǒng)一設(shè)置為352×352。為了避免過擬合,提高模型的魯棒性,在訓(xùn)練階段采用隨機(jī)翻轉(zhuǎn)、旋轉(zhuǎn)和裁剪等數(shù)據(jù)增強(qiáng)策略對訓(xùn)練數(shù)據(jù)進(jìn)行增強(qiáng)。訓(xùn)練批次大小設(shè)置為10,訓(xùn)練模型120 輪大約需要4 h,得到最終的模型。
為了評估本文的網(wǎng)絡(luò)性能,本文在7 個數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。
NJU2K[28]總共有1 985 張圖片,立體圖像來自互聯(lián)網(wǎng)和3D 電影,照片使用Fuji W3 照相機(jī)拍攝,其中訓(xùn)練集1 400 張,驗(yàn)證集100 張,測試集485 張。
NLPR[29]總共有1 000 張圖片,由Kinect 在11 個場景下拍攝得到,其中訓(xùn)練集650 張,驗(yàn)證集50 張,測試集300 張。
STERE[30]共有1 000張立體圖片,從互聯(lián)網(wǎng)下載得到。
SIP[8]共有1 000張圖片,由一部智能手機(jī)拍攝得到。
DES[31]總共135 張室外圖像,由Microsoft Kinect拍攝得到。
LFSD[32]總共100 張圖片,由Lytro 相機(jī)拍攝得到。
SSD[33]總共80 張圖片,從三部立體電影中挑選得到。參照文獻(xiàn)[34-35] 的訓(xùn)練策略,使用1 485 張NJU2K 的圖像和700 張NLPR 的圖像用于訓(xùn)練,其余樣本用于測試,為了公平比較,本文將在該數(shù)據(jù)集訓(xùn)練的模型應(yīng)用于其他測試數(shù)據(jù)上。
為了評估本文方法,使用5 個廣泛使用的評價指標(biāo):MAE、S-measure、E-measure、F-measure、P-R曲線。
(1)平均絕對誤差(MAE),顯著圖與真值圖逐像素之間絕對誤差的均值,計算公式如下所示:
其中,m和n分別表示圖像的寬和高;pij表示顯著性概率結(jié)果;yij表示真值。MAE值越小表示模型性能越好。
(2)S-measure比較結(jié)構(gòu)相似信息,其中so為物體結(jié)構(gòu)相似性,sr為區(qū)域結(jié)構(gòu)相似性,α為平衡參數(shù),取值為0.5。計算公式如下所示:
(3)E-measure 增強(qiáng)匹配指標(biāo),基于認(rèn)知視覺的研究來獲取圖像層次的統(tǒng)計信息及其局部像素匹配信息。
其中,P為二值化的顯著預(yù)測圖,G為Ground Truth。
通過設(shè)置閾值得到二值化的顯著預(yù)測圖P,通過上式計算得到一對Precision、Recall。閾值取值為0~255,不同的閾值,對應(yīng)不同的P-R 對,總共有256個P-R對。以P為縱坐標(biāo),R為橫坐標(biāo),構(gòu)成P-R曲線。
(5)F-measure
β2一般取值為0.3,每一對P-R,都可計算出一個Fβ,本文選取最大值作為評價指標(biāo)。評價代碼采用的是http://dpfan.net/d3netbenchmark/中提供的matlab 版本。
3.4.1 實(shí)驗(yàn)過程分析
圖4 所示為模型在訓(xùn)練階段的Loss 變化曲線和驗(yàn)證階段的MAE 變化曲線。由曲線的趨勢可以看出,模型在20 個Epoch 迭代以內(nèi)訓(xùn)練損失以及驗(yàn)證集上的MAE 指標(biāo)迅速下降,模型快速收斂,且在訓(xùn)練過程中未出現(xiàn)大幅度的抖動,比較平緩。隨著迭代次數(shù)的增加,損失和MAE 指標(biāo)不斷降低,表明了本文提出的模型訓(xùn)練更加穩(wěn)健。
圖4 訓(xùn)練的Loss變化曲線和驗(yàn)證的MAE 變化曲線Fig.4 Loss change curve of training and MAE change curve of verification
3.4.2 結(jié)果對比
表1 展示了本文在7 個數(shù)據(jù)集上4 個評價指標(biāo)MAE (M)、max S-measure (Sα)、max E-measure (Eξ)和max F-measure(Fβ)上的對比結(jié)果。表2 詳細(xì)地列出了不同方法的模型大小,在這些先進(jìn)的方法中,本文方法模型最小,比第二小的模型節(jié)省了24.6%的參數(shù)量。圖5 和圖6 展示了P-R 曲線和F-measure 曲線,本文方法用紅線表示。這些方法所有的顯著圖都是由論文作者提供,或者根據(jù)他們提供的代碼計算得到。
表1 不同方法的評測結(jié)果Table 1 Evaluation results of different methods
表2 不同方法的模型大小Table 2 Model size of different methods
如表1 所示,↑(↓)表示越高(低)越好。每行最好的結(jié)果用加粗表示,次優(yōu)的結(jié)果用下劃線表示,每個方法的下標(biāo)表示出版年份。本文方法在四個評價指標(biāo)、五個數(shù)據(jù)集上都取得了最好的結(jié)果。在SSD、LFSD 數(shù)據(jù)集上本文方法在Sα、Fβ、Eξ指標(biāo)上處于次優(yōu),MAE 指標(biāo)排在第三。
如圖5 和圖6 所示,展示了不同算法的P-R 曲線和F-measure 曲線??梢钥吹?,在NJU2K、NLPR、STERE、DES、SIP 五個數(shù)據(jù)集上,本文方法的曲線明顯高于其他方法。在LFSD 這個數(shù)據(jù)集上,本文曲線與先進(jìn)算法基本持平。在SSD 數(shù)據(jù)集上,略低于先進(jìn)算法。通過詳細(xì)的定量比較可以看出,本文方法在精度和模型大小上都有明顯的優(yōu)勢。
圖5 不同算法在7 個數(shù)據(jù)集上的P-R 曲線Fig.5 P-R curves of different algorithms on 7 datasets
圖6 不同算法在7 個數(shù)據(jù)集上的F-measure曲線Fig.6 F-measures of different algorithms on 7 datasets
3.4.3 視覺對比
圖7 展示了本文方法和一些先進(jìn)方法生成的顯著圖的視覺對比。將這些圖像主要分為(a)簡單場景、(b)小物體、(c)多物體、(d)復(fù)雜背景和(e)低對比度場景。
圖7 本文方法和一些先進(jìn)方法的視覺對比Fig.7 Visual comparison between method presented in this paper and some advanced methods
(a)圖展示兩個簡單場景的圖像。很多算法不能將椅子完整地檢測出來,本文提出的高級語義修復(fù)策略能有效提高檢測的準(zhǔn)確度,完整地將椅子檢測出來。
(b)圖展示了三個小物體圖像。如第一行的人,很多算法能把人作為顯著性對象檢測出來,但是都不能把人雙腿之間的間隔檢測出來,然而本文方法仍然能夠準(zhǔn)確地檢測出來,第二行的小貓、第三行的蝴蝶圖像,本文方法依然能將蝴蝶的腳這樣的細(xì)節(jié)部分檢測出來。
(c)圖展示兩個包含多個物體的圖像。本文方法能夠檢測出所有的顯著目標(biāo),并且能夠很好地把它們分割出來。可以看出(c)圖中第一行的深度圖像沒有清晰的信息,本文方法也能夠?qū)⑺酗@著物體檢測出來。
(d)圖展示的是兩張具有復(fù)雜背景的圖像。盡管(d)圖中第一行的深度圖質(zhì)量很差,但是本文方法受益于跨模態(tài)特征融合模塊,不受低質(zhì)量深度圖的影響,能夠自適應(yīng)地融合Depth 特征中有效信息。很多方法受到復(fù)雜背景的影響,把背景作為顯著物體的一部分,不能準(zhǔn)確檢測出來,本文采用了高級語義修復(fù)策略,準(zhǔn)確地將顯著物體檢測出來。
(e)圖展示了兩張低對比度的圖像,本文方法能夠抑制背景的干擾并從深度圖中提取有用的信息,尤其是最后一行,深度圖提供的信息,蘑菇的下面部分的深度信息質(zhì)量差,前景信息與背景信息分離很不明顯。很多算法不能將蘑菇的下面部分檢測出來,本文算法不被質(zhì)量較差的深度特征影響,提取有用的深度特征,有效融合RGB 和Depth 特征,能夠精準(zhǔn)地將顯著物體檢測出來。
本文以EfficientNet-b0[23]為主干網(wǎng)絡(luò),將RGB 和Depth 相加融合的網(wǎng)絡(luò)作為基線,分析各個模塊的貢獻(xiàn)。所有模型都是用相同的超參數(shù)和訓(xùn)練集進(jìn)行訓(xùn)練。為了證明它們的泛化能力,本文在7 個數(shù)據(jù)集上展示實(shí)驗(yàn)結(jié)果。
(1)高級語義修復(fù)策略的有效性
本文在基線網(wǎng)絡(luò)的基礎(chǔ)上加上高級語義修復(fù)策略,從表3 中數(shù)據(jù)顯示以及圖8 展示,使用Baseline 網(wǎng)絡(luò)生成的顯著圖不能將顯著物體完整檢測出來,而使用高級語義修復(fù)策略能有效定位顯著區(qū)域并提高邊緣清晰度,該方法有效提升了網(wǎng)絡(luò)的性能。
表3 高級語義修復(fù)策略消融結(jié)果對比Table 3 Comparison of ablation results of advanced semantic repair strategies
(2)跨模態(tài)特征融合的有效性
本文在上個消融實(shí)驗(yàn)的基礎(chǔ)上加上跨模態(tài)特征融合模塊,通過表4 中數(shù)據(jù)顯示以及圖8 展示,由于本文使用跨模態(tài)融合模塊,能有效利用深度圖所提供的細(xì)節(jié)信息,抑制干擾信息,共同檢測出圖像中的顯著區(qū)域。從表格中的結(jié)果對比可以看出,本文所提出的跨模態(tài)特征融合模塊能有效提高網(wǎng)絡(luò)的性能。
圖8 模塊消融視覺對比Fig.8 Visual contrast of module ablation
表4 跨模態(tài)特征融合模塊消融結(jié)果對比Table 4 Comparison of ablation results of cross-modal feature fusion modules
(3)本文跨模態(tài)特征融合模塊與深度特征加權(quán)組合模塊消融對比
從表5 的數(shù)據(jù)顯示,本文提出的跨模態(tài)特征融合模塊能有效融合RGB 和Depth 特征,模態(tài)交互分支能提取到更具共性和互補(bǔ)性的融合特征,引入的注意力機(jī)制能更加關(guān)注有用的融合特征,加入的殘差連接分支,能避免低質(zhì)量的深度圖對融合特征的影響,提高網(wǎng)絡(luò)的性能。從表中數(shù)據(jù)可以看出,本文提出的模塊具有更大的優(yōu)勢。
表5 跨模態(tài)特征融合模塊與CDC 模塊結(jié)果對比Table 5 Comparison of results between cross-modal feature fusion module and CDC module
(4)本文高級語義特征提取與BBSNet 教師特征提取消融對比
從表6 的數(shù)據(jù)中顯示,本文提取高級語義特征的方法得到的結(jié)果更好。相較于BBSNet[15]提取教師特征的方法,本文方法需要更少的參數(shù)量和計算量,具有更大的優(yōu)勢。
表6 高級語義特征提取與BBSNet教師特征提取對比Table 6 Comparison of advanced semantic feature extraction and BBSNet teacher feature extraction
(5)不同主干網(wǎng)絡(luò)的性能測試
不同主干網(wǎng)絡(luò)結(jié)果對比如表7所示?,F(xiàn)有的RGBD 顯著目標(biāo)檢測模型主要采用VGG(visual geometry group)[38]、ResNet(residual network)[39]系列網(wǎng)絡(luò)作為主干網(wǎng)絡(luò),本文采用EfficientNet-b0[23]作為主干網(wǎng)絡(luò),主要考慮為了節(jié)省參數(shù)量,構(gòu)建輕量級的RGB-D 顯著性目標(biāo)檢測模型。為了證明本文方法的擴(kuò)展性,表7展示了不同主干網(wǎng)絡(luò)在4 個評價指標(biāo)、7 個數(shù)據(jù)集上的max S-measure、max F-measure、max E-measure 以及MAE 上的對比結(jié)果。結(jié)果顯示,盡管本文方法使用其他主干網(wǎng)絡(luò),仍然能超過很多先進(jìn)算法。表8 展示不同主干網(wǎng)絡(luò)的模型大小。數(shù)據(jù)顯示,盡管本文使用了不同的主干網(wǎng)絡(luò),本文方法在模型大小上還是較小的。
表7 不同主干網(wǎng)絡(luò)結(jié)果對比Table 7 Comparison of results from different backbone networks
表8 不同主干網(wǎng)絡(luò)模型大小對比Table 8 Comparison of model sizes of different backbone networks
本文提出基于高級語義修復(fù)策略的跨模態(tài)特征融合的RGB-D 顯著目標(biāo)檢測方法,該方法受益于跨模態(tài)特征融合模塊、高級語義修復(fù)策略的網(wǎng)絡(luò)框架??缒B(tài)特征融合模塊有效地將RGB 和Depth 特征進(jìn)行自適應(yīng)的融合,不會受到低質(zhì)量深度圖的影響,能有效地從深度圖中提取到深度信息,進(jìn)而輔助RGB 特征進(jìn)行顯著性特征提取。利用高級語義特征能夠有效定位顯著區(qū)域,低層特征具有豐富細(xì)節(jié)信息,聯(lián)合底層特征,從而檢測出邊緣清晰、顯著區(qū)域完整的顯著圖。本文方法在五個數(shù)據(jù)集上均達(dá)到了較為先進(jìn)的性能。此外,本文方法同樣也可適用于目標(biāo)檢測、語義分割、圖像分類等方面的研究。