劉譯善,孫 涵
(南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院/人工智能學(xué)院/軟件學(xué)院,江蘇 南京 211100)
顯著性目標(biāo)檢測(cè)旨在模擬人類視覺注意系統(tǒng),檢測(cè)場(chǎng)景中最為顯著的物體。作為計(jì)算機(jī)視覺任務(wù)中非常重要的預(yù)處理步驟之一,在立體匹配[1]、圖像理解[2]、動(dòng)作識(shí)別[3]、視頻檢測(cè)及分割[4]、語義分割[5]、醫(yī)學(xué)圖像分割[6]、目標(biāo)跟蹤[7]、行人重識(shí)別[8]、偽裝目標(biāo)檢測(cè)[9]、圖像檢索[10]等領(lǐng)域中發(fā)揮著非常重要的作用[11-12]。早期基于RGB圖像的顯著性目標(biāo)檢測(cè)在面對(duì)復(fù)雜背景、 光照變化等挑戰(zhàn)性因素時(shí)難以取得理想效果,隨著Microsoft Kinect等深度傳感器的廣泛使用,研究人員將深度圖像引入,在檢測(cè)中起到了較好地區(qū)分前景和背景的作用。但在跨模態(tài)特征融合、邊界細(xì)化等問題上還需進(jìn)一步探索。近幾年,越來越多的研究工作采用中期融合策略實(shí)現(xiàn)跨模態(tài)特征融合,以此提升檢測(cè)模型性能[13-15],考慮到只對(duì)邊界進(jìn)行增強(qiáng)容易導(dǎo)致檢測(cè)的顯著目標(biāo)不完整,只對(duì)語義進(jìn)行增強(qiáng)則會(huì)導(dǎo)致邊界不準(zhǔn)確。受文獻(xiàn)[16-20]等相關(guān)工作的啟發(fā),該文提出一種基于特征增強(qiáng)的網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)增強(qiáng)語義和邊界,以此獲得邊界清晰、完整的顯著目標(biāo),設(shè)計(jì)模塊單獨(dú)捕捉邊界信息的同時(shí)引入門控機(jī)制,選擇丟棄或者保留引入了邊界信息的顯著圖,以避免當(dāng)邊界信息捕捉效果不佳時(shí)破壞顯著圖質(zhì)量的情況。首先特征融合增強(qiáng)模塊(FFEM)交叉融合后通過混合注意力提取跨模態(tài)特征,提升模型對(duì)高層語義信息的捕捉。然后,考慮到深度信息有更明確的邊界特征[21],通過邊界特征增強(qiáng)模塊(BFEM)對(duì)包含豐富細(xì)節(jié)信息的底層特征進(jìn)行提取,為了避免噪聲的引入,進(jìn)一步設(shè)計(jì)門控,對(duì)低質(zhì)量邊界信息進(jìn)行舍棄。最后通過混合增強(qiáng)損失對(duì)模型進(jìn)行優(yōu)化。所提出的模型在五個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),與當(dāng)前主流的RGB-D顯著性目標(biāo)檢測(cè)方法進(jìn)行對(duì)比,達(dá)到了良好的檢測(cè)效果。
傳統(tǒng)RGB-D顯著性目標(biāo)檢測(cè)研究工作依賴于手工提取的特征。2012年,首個(gè)RGB-D顯著性目標(biāo)檢測(cè)模型DM[22]將深度先驗(yàn)集成到顯著性檢測(cè)模型中,并提出了從2D和3D場(chǎng)景中收集的包含600張圖像的NUS-3D數(shù)據(jù)集。此后各類研究方法陸續(xù)出現(xiàn),如基于對(duì)比度[23-24]、形狀[25]等手工特征,通過馬爾可夫隨機(jī)場(chǎng)[26]、高斯差分[27]和圖知識(shí)[28]等方式進(jìn)行建模的檢測(cè)模型。除此之外,一些研究還嘗試將傳統(tǒng)方法組合來集成RGB和深度特征,如隨機(jī)森林回歸器[29]、角密度[30]等。但受到低水平顯著性線索的限制,傳統(tǒng)方法在復(fù)雜場(chǎng)景下的泛化性能較弱。隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用,RGB-D顯著性目標(biāo)檢測(cè)也取得突破進(jìn)展。
2017年,Qu等人[31]首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到RGB-D顯著性目標(biāo)檢測(cè)模型中,將傳統(tǒng)方法基于超像素的拉普拉斯傳播框架與訓(xùn)練后的CNN相結(jié)合,通過利用輸入圖像的內(nèi)在結(jié)構(gòu)來提取空間一致的顯著圖。早期基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法簡單使用全連接層[32-33],容易破壞數(shù)據(jù)的空間結(jié)構(gòu)信息。目前更多的研究方法使用全卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)[34-36],能夠緩解這一問題。根據(jù)跨模態(tài)特征融合階段的不同,常常將相關(guān)研究方法分為早期融合[36]、中期融合[37-38]和后期融合[39]三個(gè)類別,中期融合是對(duì)另外兩者的補(bǔ)足,能夠從兩種模態(tài)中學(xué)習(xí)高層語義,因此也是最常用的特征融合策略。盡管RGB-D顯著性目標(biāo)檢測(cè)當(dāng)前已經(jīng)取得了突破性進(jìn)展[16,31,34,39-41],但仍在以下兩個(gè)方面存在一定的提升空間。
一是顯著物體檢測(cè)的完整性。目前已有方法無法在有效進(jìn)行跨模態(tài)特征提取和融合的同時(shí)捕捉兩種模態(tài)的相互作用,且鮮有檢測(cè)模型明確利用兩種模態(tài)的特異性,導(dǎo)致最終顯著圖不能夠完整、正確地描述顯著目標(biāo)。該文設(shè)計(jì)的FFEM模塊通過交叉融合和混合注意力,在利用跨模態(tài)特征互補(bǔ)性的同時(shí)充分利用了二者的相關(guān)性,消融實(shí)驗(yàn)部分驗(yàn)證了該模塊的有效性。
二是顯著物體的邊界清晰度。當(dāng)前研究大多集中在區(qū)域精度上不在邊界質(zhì)量上,且通過一個(gè)步驟同時(shí)捕捉圖片的語義信息和邊界細(xì)節(jié),導(dǎo)致最終顯著圖邊界模糊。針對(duì)這一問題,該文設(shè)計(jì)的BFEM模塊對(duì)邊界特征進(jìn)行單獨(dú)提取和增強(qiáng),設(shè)計(jì)門控避免低質(zhì)量信息干擾。除此之外,顯著性目標(biāo)檢測(cè)方法中常用的損失函數(shù)交叉熵?fù)p失在判別邊界像素點(diǎn)時(shí),通常置信度都比較低,容易導(dǎo)致邊界模糊。通過對(duì)區(qū)域和邊界進(jìn)行約束,以獲得最終最優(yōu)的檢測(cè)結(jié)果。相關(guān)設(shè)計(jì)同樣在消融實(shí)驗(yàn)部分驗(yàn)證了其有效性。
該文提出的FENet網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,采用端到端的模型。首先,使用兩個(gè)ResNet-50殘差網(wǎng)絡(luò)分別提取RGB信息流和深度信息流的特征,表示為ri(i=0,1,…,4)和di(i=0,1,…,4);然后,由特征融合增強(qiáng)模塊FFEM實(shí)現(xiàn)不同尺度的跨模態(tài)特征的逐級(jí)融合,同時(shí)充分利用跨模態(tài)特征的差異性對(duì)強(qiáng)化后的跨模態(tài)特征進(jìn)行信息補(bǔ)充和完善;最后,通過邊界特征增強(qiáng)模塊BFEM, 從前三層淺層特征中獲取更精確的邊界信息,通過門控來抑制低質(zhì)量深度圖信息的影響,以生成最終高質(zhì)量的顯著圖。所設(shè)計(jì)的特征融合增強(qiáng)模塊FFEM和邊界特征增強(qiáng)模塊BFEM在2.1和2.2兩個(gè)小節(jié)進(jìn)行詳細(xì)介紹。
圖1 FENet網(wǎng)絡(luò)框架示意圖
目前已有方法融合RGB和深度信息流特征時(shí),在考慮二者相關(guān)性的同時(shí)常常容易忽略差異性,導(dǎo)致融合過程中容易丟失細(xì)節(jié)信息。該文設(shè)計(jì)的FFEM模塊充分利用跨模態(tài)特征相關(guān)性進(jìn)行特征自增強(qiáng),即RGB和深度信息流特征通過交叉相乘和混合注意力,在互補(bǔ)特征的引導(dǎo)下進(jìn)行自增強(qiáng),再通過原始特征信息的補(bǔ)充完善特征,將自增強(qiáng)后跨模態(tài)特征拼接融合后通過3×3卷積進(jìn)行特征提取,跨模態(tài)特征逐級(jí)融合以不斷強(qiáng)化特征信息,如圖2所示。
圖2 特征融合增強(qiáng)模塊結(jié)構(gòu)
具體來說,首先通過1×1的卷積對(duì)通道進(jìn)行壓縮,之后采用跨模態(tài)特征兩兩交叉相乘的方式放大RGB和深度特征的相關(guān)性,抑制不相關(guān)特征,進(jìn)而達(dá)到突出顯著特征的目的。如下公式所示,Conv(·)表示卷積操作:
Fr=Conv1×1(ri)?Conv1×1(di)
(1)
Fr=Conv1×1(di)?Conv1×1(ri)
(2)
通過混合使用空間注意力(SA)和通道注意力(CA),同時(shí)在空間維度和通道維度增強(qiáng)特征表達(dá);之后跳躍連接原始跨模態(tài)特征,并與上一層的融合特征Fi-1拼接,以實(shí)現(xiàn)特征的逐級(jí)增強(qiáng),公式如下所示:
(3)
(4)
(5)
為了進(jìn)一步利用跨模態(tài)特征的差異性,彌補(bǔ)原始跨模態(tài)特征在融合過程中的損耗,將ri和di進(jìn)行補(bǔ)充,公式如下所示:
(6)
將細(xì)節(jié)特征分開提取,針對(duì)淺層的低級(jí)特征設(shè)計(jì)了邊界特征增強(qiáng)模塊BFEM,以提取清晰邊界特征,如圖3所示。
考慮到高級(jí)語義特征能夠準(zhǔn)確定位圖片中顯著目標(biāo)的位置,而深度圖邊緣更突出,因此提取深度圖(d0、d1、d2)的細(xì)節(jié)特征。
圖3 邊界特征增強(qiáng)模塊結(jié)構(gòu)
不同層級(jí)的深度圖特征二倍上采樣后兩兩相加,與空洞卷積提取的多尺度特征進(jìn)行相乘,增強(qiáng)邊界的細(xì)節(jié)特征。兩兩增強(qiáng)后的細(xì)節(jié)特征相加后送入3×3卷積獲取融合后的高質(zhì)量顯著區(qū)域。公式如下:
Fe=Conv3×3(DConv(Fi)?
((d0,d1)⊕(d0,d1,d2)))
(7)
在過往的研究工作中發(fā)現(xiàn),底層特征往往包含一定的噪聲,為避免噪聲干擾,本模塊還設(shè)計(jì)了門控SDU,將本模塊獲得的顯著圖S與前序階段獲得的顯著圖SM和真值圖對(duì)比,計(jì)算各自的MAE值完成比較,取得分高者作為最終的顯著性目標(biāo)檢測(cè)圖輸出。
該網(wǎng)絡(luò)結(jié)構(gòu)的損失函數(shù)由兩部分構(gòu)成,結(jié)構(gòu)損失和邊界損失。二元交叉熵(BCE)是應(yīng)用最廣泛的損失函數(shù),但BCE損失獨(dú)立計(jì)算每個(gè)像素的損失,忽略圖像全局結(jié)構(gòu),同時(shí)在背景占優(yōu)勢(shì)的圖片中,前景像素的損失會(huì)被稀釋。因此,針對(duì)高級(jí)感受野提取的區(qū)域顯著性將更關(guān)注于困難像素點(diǎn)的二進(jìn)制交叉熵?fù)p失BCE和全局結(jié)構(gòu)的加權(quán)交并比損失IoU相結(jié)合,即:
Lr=Lwbce+LwIoU
(8)
為了進(jìn)一步增強(qiáng)對(duì)邊緣的監(jiān)管力度,對(duì)邊緣附近區(qū)域進(jìn)行了約束和優(yōu)化。公式如下:
(9)
(10)
其中,H、W分別表示圖片的高和寬,Le表示邊緣增強(qiáng)損失,P(·)表示具有5×5滑動(dòng)窗口的平均池化操作,通過e來獲取真值圖輪廓附近局部區(qū)域,以達(dá)到優(yōu)化顯著物體輪廓的目的。S為獲得的顯著圖,G為真值圖。綜上,總的損失函數(shù)L為:
L=Lr+Le
(11)
在NJU2k[27]、NLPR[42]、DES[23]、STERE[43]、SIP[16]五個(gè)公開的RGB-D數(shù)據(jù)集上驗(yàn)證模型的有效性。其中選擇NJU2K的1 485個(gè)樣本和NLPR的700個(gè)樣本作為訓(xùn)練數(shù)據(jù)集,NJU2K和NLPR剩余800個(gè)樣本以及DES、STERE、SIP五個(gè)數(shù)據(jù)集的樣本作為測(cè)試集。實(shí)驗(yàn)過程中采用F指標(biāo)[44]、平均絕對(duì)誤差[45]、S指標(biāo)[46]和E指標(biāo)[47]進(jìn)行評(píng)估。F指標(biāo)對(duì)準(zhǔn)確度和完整度進(jìn)行綜合判斷,計(jì)算公式如下:
(12)
其中,β2根據(jù)很多顯著性目標(biāo)檢測(cè)工作經(jīng)驗(yàn)設(shè)置為0.3,Precision為正確率,Recall為召回率。平均絕對(duì)誤差(MAE)用來評(píng)估顯著圖S和真值圖G之間的逐像素平均絕對(duì)誤差,計(jì)算公式如下:
(13)
其中,W和H分別表示顯著圖的寬和高,S(x,y)為模型檢測(cè)得到的顯著圖,G(x,y)為真值圖。MAE的值越小,模型的性能越好。S指標(biāo)用來評(píng)估區(qū)域感知(Sr)和目標(biāo)感知(So)之間的結(jié)構(gòu)相似性,定義為:
Sα=αS0+(1-α)Sr
(14)
其中,α是取自區(qū)間[0,1]的平衡參數(shù),在文中設(shè)置為0.5。E指標(biāo)在認(rèn)知視覺研究的基礎(chǔ)上提出,用于獲取圖像級(jí)統(tǒng)計(jì)信息和局部像素匹配信息,計(jì)算公式如下:
(15)
其中,φFM表示增強(qiáng)對(duì)角矩陣[47]。
所提出的模型基于PyTorch網(wǎng)絡(luò)框架,主干網(wǎng)絡(luò)Res2Net-50[48]在ImageNet[49]上進(jìn)行預(yù)訓(xùn)練。GPU為NVIDIA TITAN XP,顯存大小為12 GB。訓(xùn)練過程中學(xué)習(xí)率設(shè)置為1e-4,迭代次數(shù)200。訓(xùn)練階段通過隨機(jī)翻轉(zhuǎn)、旋轉(zhuǎn)等策略進(jìn)行數(shù)據(jù)增強(qiáng),測(cè)試階段最終輸出的顯著圖重新調(diào)整到原來的大小。
將所提出的方法與多種顯著性目標(biāo)檢測(cè)方法,即基于深度方法的DMRA[50]、ICNet[41]、HDFNet[40]、UC-Net[51]、D3Net[16]、DQSP[52]、DSA2F[53]、SPSN[54],進(jìn)行比較。表1列出了上述方法在五個(gè)數(shù)據(jù)集上F指標(biāo)、平均絕對(duì)誤差、S指標(biāo)和E指標(biāo)的對(duì)比情況。其中F指標(biāo)、S指標(biāo)和E指標(biāo)數(shù)值越大表示模型性能越好,MAE則是數(shù)值越小表示模型性能越好。從對(duì)比結(jié)果可以看出,FENet模型在五個(gè)數(shù)據(jù)集上均取得了較好的檢測(cè)結(jié)果,尤其在圖片場(chǎng)景多以日常真實(shí)場(chǎng)景為主的NLPR和STERE數(shù)據(jù)集上,相較于其他基于深度學(xué)習(xí)的方法,F指標(biāo)均提升了近1%,模型的泛化性能得到加強(qiáng)。在MAE和E指標(biāo)上,總體也得到了提升,雖然在DES和SIP兩個(gè)數(shù)據(jù)集上的結(jié)果要略低于UCNet模型和SPSN模型,但FENet模型在這兩個(gè)數(shù)據(jù)集上的F指標(biāo)和S指標(biāo)分別更高于兩個(gè)模型,這也契合在設(shè)計(jì)該模型時(shí)更聚焦于跨模態(tài)特征相關(guān)性、特異性進(jìn)而提升檢測(cè)結(jié)果完整性的探索,達(dá)到最終顯著圖在準(zhǔn)確度和完整度上的綜合判斷。
表1 FENet模型與不同深度方法基準(zhǔn)測(cè)試結(jié)果對(duì)比
續(xù)表1
基于深度學(xué)習(xí)方法的可視化結(jié)果對(duì)比如圖4所示,對(duì)比第1、3行結(jié)果可以看到,在圖片背景中存在干擾,如第1行的背景凹陷部分以及第3行人的左側(cè)與背景中的樹木銜接部分容易被誤判為顯著目標(biāo)的一部分,FENet模型相較于另外幾個(gè)模型能夠盡可能避免背景干擾,同時(shí)完整、準(zhǔn)確地切割出顯著目標(biāo);對(duì)比第2行結(jié)果可以看到,當(dāng)面對(duì)顯著目標(biāo)中包含容易漏檢的細(xì)小部分情況時(shí),如圖中蝴蝶的各個(gè)觸角,相較于其他模型漏檢觸角、邊界模糊等的問題,文中模型能夠以較為清晰的邊界較好地檢測(cè)出顯著目標(biāo);對(duì)比第4、6行可以看到,當(dāng)面對(duì)光照和陰影變化等情況時(shí),相較于其他模型對(duì)于顯著目標(biāo)內(nèi)部檢測(cè)不完整、陰影部分未完整檢測(cè)出的情況,文中模型在檢測(cè)的完整度和清晰度上要高于其他模型;對(duì)比第5行可以看到,當(dāng)面對(duì)多個(gè)顯著目標(biāo)時(shí),雖然圖中存在多檢測(cè)了背景中部分人影的情況,但實(shí)際的兩個(gè)顯著目標(biāo),文中模型相較于其他模型能夠更完整地檢測(cè)出來??梢钥闯?該文所設(shè)計(jì)的分層增強(qiáng)語義和邊界特征的FENet模型在顯著目標(biāo)的完整性和邊界清晰度上取得了較為理想的效果。
圖4 FENet網(wǎng)絡(luò)與前沿的RGB-D顯著性目標(biāo)檢測(cè)模型的可視化比較
為驗(yàn)證文中相應(yīng)模塊設(shè)計(jì)的有效性,進(jìn)行了消融實(shí)驗(yàn),相關(guān)數(shù)據(jù)對(duì)比見表2。比較第1、2行可以看出,FFEM模塊增強(qiáng)了模型的性能,在四個(gè)指標(biāo)上均有了不同幅度的提升,其中在F指標(biāo)和E指標(biāo)上提升了0.5%左右,在DES數(shù)據(jù)集上結(jié)構(gòu)相似性指標(biāo)也有了1%的提升;比較第2、3行可以看出,BFEM模塊的加入后在兩個(gè)數(shù)據(jù)集的F指標(biāo)和E指標(biāo)上均提升了0.5%左右;比較第3、4行可以看到混合損失函數(shù)的使用在兩個(gè)數(shù)據(jù)集上的四個(gè)指標(biāo)上給模型性能帶來了不同程度的提升,更契合預(yù)期。
表2 FENet模型在STERE和DES數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)的結(jié)果對(duì)比
提出了一種RGB-D顯著性目標(biāo)檢測(cè)框架,該框架通過特征融合增強(qiáng)模塊和邊界特征增強(qiáng)模塊分別對(duì)高級(jí)語義信息和底層細(xì)節(jié)信息進(jìn)行處理。實(shí)驗(yàn)結(jié)果表明,該框架是可行的,在主流的五個(gè)數(shù)據(jù)集上相較于前沿的方法取得了不錯(cuò)的效果,所設(shè)計(jì)的模塊也通過消融實(shí)驗(yàn)進(jìn)行了驗(yàn)證。