王安志,任春洪,何淋艷,楊元英,歐衛(wèi)華
(貴州師范大學(xué) 大數(shù)據(jù)與計算機(jī)科學(xué)學(xué)院,貴陽 550025)
顯著性目標(biāo)檢測(Salient Object Detection,SOD)旨在快速檢測和分割圖像中最吸引人注意的目標(biāo)對象。在過去十年中,其作為一項(xiàng)重要的計算機(jī)視覺任務(wù),在目標(biāo)分割、視覺跟蹤、行人重識別以及偽裝目標(biāo)檢測[1]等方面進(jìn)行了成功的應(yīng)用,引起了人們的廣泛關(guān)注。傳統(tǒng)顯著性目標(biāo)檢測方法的RGB 圖像只包含像素的顏色和強(qiáng)度,但光場圖像除了包含像素的顏色和強(qiáng)度信息外,還包含所有入射光的方向。入射光方向指示了場景中物體的三維幾何信息。目前,包括Lytro 和Raytrix 在內(nèi)的商用微透鏡陣列光場相機(jī)越來越流行,光場信息也被用于包括深度估計[2-3]、超分辨率[4]等多個視覺任務(wù),為算法提供更豐富的視覺信息,顯著提升算法的性能。根據(jù)輸入圖像的類型(如RGB 圖像、RGB-D 圖像和光場圖像),現(xiàn)有SOD 算法大致可分為二維、三維和四維的SOD 算法這三大類。大多數(shù)方法都屬于第一類,關(guān)于后兩類方法的研究還較少。作為主流的二維顯著性檢測算法[5-7]已經(jīng)取得了顯著的進(jìn)步,這得益于深度學(xué)習(xí)技術(shù)尤其是卷積神經(jīng)網(wǎng)絡(luò)(CNN)的不斷進(jìn)展[8-10]。但當(dāng)遇到挑戰(zhàn)性真實(shí)場景圖像時,這些方法通常表現(xiàn)不佳,甚至失效,其原因主要有兩點(diǎn):傳統(tǒng)二維SOD 算法對先驗(yàn)知識的依賴性;RGB 圖像缺乏三維信息。由于深度信息有助于理解顯著性目標(biāo)的上下文信息和提高SOD的精度,三維SOD算法[11-12]也逐漸引起了學(xué)者的關(guān)注。然而,深度估計本身是一項(xiàng)極具挑戰(zhàn)的課題,低質(zhì)量的深度圖將嚴(yán)重影響三維RGB-D SOD 算法的性能。
近年來,隨著Lytro 和Raytrix 等光場相機(jī)的普及,光場信息相對容易獲得。光場圖像包含豐富的視覺信息,由全聚焦圖像、焦堆棧序列和深度圖組成,其中焦堆棧包含了豐富的三維幾何和外觀信息。因其獨(dú)特的視覺特性,四維光場SOD[13-15]具有良好的發(fā)展前景。然而,現(xiàn)有光場SOD 算法大多基于手工設(shè)計的特征來實(shí)現(xiàn)顯著性目標(biāo)的檢測,包括對比度、紋理特征、物體完整性、聚焦性先驗(yàn)等。由于高維光場數(shù)據(jù)比二維RGB 圖像更難處理,導(dǎo)致面向光場圖像的SOD 方法研究仍較少,基于CNN 的光場SOD 算法僅有MoLF[16]和DLLF[13]等極少數(shù)的模型。
面向四維光場圖像的基于CNN 的SOD 框架具有重要的研究意義和實(shí)用價值。為了將CNN 框架應(yīng)用于光場SOD,本文提出一種用于光場SOD 的端到端的多模態(tài)多級特征聚合檢測算法。該算法包括兩個并行的CNN 子網(wǎng)絡(luò),分別從焦堆棧序列、全聚焦圖像和深度圖中提取多級多尺度的視覺特征,并利用不同模態(tài)間視覺特征的互補(bǔ)性,構(gòu)建多模態(tài)特征聚合模塊,以實(shí)現(xiàn)更精準(zhǔn)的顯著性目標(biāo)檢測。
本文主要介紹二維RGB[17]、三維RGB-D、四維光場SOD 這三類方法。上述方法又可分為傳統(tǒng)的方法和基于深度學(xué)習(xí)的方法。前者主要基于手工設(shè)計的特征,不能滿足挑戰(zhàn)性場景下的顯著性檢測需求,本文主要討論基于深度學(xué)習(xí)的SOD 算法。
隨著CNN的發(fā)展,大量基于CNN的SOD 算法被提出。這些算法主要結(jié)合后處理步驟[18]、上下文特征[19-20]、注意機(jī)制[9,20-23]和循環(huán)細(xì)化模型[10,24]。文獻(xiàn)[25]提出一種端到端深度對比度網(wǎng)絡(luò),其能產(chǎn)生像素級顯著圖,然后通過全連接的條件隨機(jī)場后處理步驟進(jìn)一步改善顯著圖。文獻(xiàn)[5]構(gòu)建一個HED架構(gòu),在該架構(gòu)的跳層結(jié)構(gòu)中引入了短連接。文獻(xiàn)[26]提出一種通用的聚合多級卷積網(wǎng)絡(luò),該框架將多級特征組合起來預(yù)測顯著圖。隨后,DENG 等提出一種帶有殘差精煉模塊的遞歸殘差網(wǎng)絡(luò),殘差精煉模塊用于學(xué)習(xí)中間預(yù)測結(jié)果的互補(bǔ)性顯著性信息。文獻(xiàn)[12]創(chuàng)建一個雙分支的SOD 網(wǎng)絡(luò),同時預(yù)測顯著性目標(biāo)的輪廓和顯著圖。文獻(xiàn)[20]提出一種像素級的上下文注意網(wǎng)絡(luò)來學(xué)習(xí)上下文特征,以生成包括全局和局部特征的顯著圖。
綜上所述,CNN 可以自動提取多級視覺特征,并直接學(xué)習(xí)圖像到顯著圖的映射,但基于CNN 的SOD 方法面對挑戰(zhàn)性的復(fù)雜場景仍表現(xiàn)不佳,而將現(xiàn)有基于CNN 的二維SOD 模型[27]直接應(yīng)用于光場圖像也并不可取。因此,有必要開展基于CNN 的光場SOD 研究。
QU等[28]設(shè)計一種基于CNN的RGB-D SOD 算法自動學(xué)習(xí)交互機(jī)制,并利用手工設(shè)計的特征訓(xùn)練基于CNN的SOD模型。CHEN等[29-31]利用多級特征互補(bǔ)性和跨模態(tài)特征互補(bǔ)性,設(shè)計了一個多路的多尺度融合網(wǎng)絡(luò)來預(yù)測顯著圖。CHEN等[31]還提出一種三流的注意力融合網(wǎng)絡(luò)來提取RGB-D 特征,并引入通道注意機(jī)制自適應(yīng)地選擇互補(bǔ)的視覺特征。ZHU等[32]提出一個獨(dú)立的編碼器網(wǎng)絡(luò)來處理深度線索,并利用基于RGB的先驗(yàn)?zāi)P椭笇?dǎo)模型的學(xué)習(xí)過程。WANG等[33]提出一種雙流CNN 自適應(yīng)融合框架,將RGB模態(tài)和深度模態(tài)產(chǎn)生的顯著圖進(jìn)行后融合。PIAO等[34]提出深度誘導(dǎo)的多尺度遞歸注意力網(wǎng)絡(luò),該網(wǎng)絡(luò)包括一個深度精煉模塊,用于提取并融合互補(bǔ)的RGB 和深度特征、深度誘導(dǎo)的多尺度加權(quán)模塊,以及一個遞歸的注意力模塊,以粗到細(xì)的方式生成更準(zhǔn)確的顯著性預(yù)測結(jié)果。
目前,只有較少的SOD 算法設(shè)計光場圖像,大部分方法都基于手工設(shè)計的特征。盡管如此,這些方法在一些復(fù)雜場景上表現(xiàn)出了較好的效果。LI等[35]的工作顯示了利用光場圖像進(jìn)行顯著性檢測的實(shí)用性,首先估計聚焦性和物體完整性線索,然后將其與對比度線索結(jié)合以檢測顯著性目標(biāo)對象,他們還建立了光場顯著性數(shù)據(jù)集LFSD。隨后,LI等[36]提出一種加權(quán)稀疏編碼框架來處理不同類型的輸入(RGB圖像、RGB-D圖像和光場圖像)。ZHANG等[37]引入位置先驗(yàn)、背景先驗(yàn)和深度線索,擴(kuò)展了基于顏色對比度的SOD方法來實(shí)現(xiàn)四維光場SOD。隨后,ZHANG等[38]集成了多種源自光場的視覺特征和先驗(yàn),提出一種集成的計算方案來檢測顯著性目標(biāo),并構(gòu)建一個基準(zhǔn)數(shù)據(jù)集HFUTLytro。WANG等[13]提出一種雙流的融合框架,以焦堆棧和全聚焦圖像為輸入,并使用對抗樣本來幫助訓(xùn)練深度網(wǎng)絡(luò)。ZHANG等[16]提出一種面向記憶的光場SOD網(wǎng)絡(luò),利用Mo-SFM 模塊的特征融合機(jī)制和Mo-FIM 模塊的特征集成機(jī)制,能夠準(zhǔn)確預(yù)測顯著性目標(biāo)。另外還引入了一個新的光場數(shù)據(jù)集DUTLF-FS。李等[39]提出一種基于聚焦度和傳播機(jī)制的光場圖像顯著性檢測方法,使用高斯濾波器對焦堆棧圖像的聚焦度信息進(jìn)行衡量,確定前景圖像和背景圖像。圖1 給出了相關(guān)的實(shí)例,與二維和三維的SOD 算法相比,得益于光場圖像豐富的視覺信息,四維光場顯著性檢測方法在挑戰(zhàn)性場景上具有更好的檢測性能。然而,現(xiàn)有四維光場SOD 算法仍然沒有充分考慮所有的光場輸入信息以及光場視覺特征之間的互補(bǔ)性,導(dǎo)致多模態(tài)融合不充分,檢測性能仍不夠理想。
圖1 不同SOD 算法的實(shí)例結(jié)果Fig.1 Smaple results of different SOD algorithms
本文構(gòu)建一個雙流編解碼器網(wǎng)絡(luò)架構(gòu),并提出端到端的多模態(tài)多級特性聚合檢測算法,算法總體架構(gòu)如圖2 所示。雙流子網(wǎng)絡(luò)采用相互獨(dú)立且相同的網(wǎng)絡(luò)結(jié)構(gòu),分別進(jìn)行多級特征融合。這些來自不同模態(tài)的多級聚合特征被進(jìn)一步融合生成預(yù)測顯著圖。和其他基于CNN 的SOD 模型[40-41]類似,本文提出網(wǎng)絡(luò)也使用ResNet-50 作為編碼器,用于提取多級特征。和PCA[29]和TANet[31]相同,添加一個15×15 的卷積層作為第6 個卷積塊,提取全局上下文特征。
圖2 本文算法的整體流程Fig.2 Overall procedure of the proposed algorithm
上分支子網(wǎng)絡(luò)以全聚焦圖像和焦堆棧為輸入,下分支以深度圖為輸入,將全聚焦圖像的RGB 三通道和焦堆棧的每個切片通道進(jìn)行連接輸入上分支網(wǎng)絡(luò)。如文獻(xiàn)[29,31]將深度圖編碼成三通道的HHA表示并送入下分支網(wǎng)絡(luò)。如圖2 所示,采用ResNet-50 基網(wǎng)絡(luò)提取多級特征。與原始模型不同,借鑒EGNet[42]的做法,在每條邊路徑上插入3 個卷積層,以獲得更具判別性和魯棒性的上下文特征,其中在每個卷積層后添加一個ReLU 層以保證網(wǎng)絡(luò)的非線性能力。為了簡潔起見,將這些卷積層和ReLU 層組合表示為圖2 中的一個conv 模塊。高級特征包含抽象的語義信息,有助于定位顯著目標(biāo)和去除噪聲,而低層特征可以提供邊緣、紋理等更詳細(xì)的空間結(jié)構(gòu)細(xì)節(jié),但包含部分背景噪聲,這兩級視覺特征是互補(bǔ)的[40-41]。此外,全局上下文信息有助于從全局角度檢測更完整、更準(zhǔn)確的顯著對象。因此,引入一個多級特征聚合模塊,將這三級特征有效聚合以得到更具判別性的聚合特征。多個多級特征聚合模塊從上到下串聯(lián),自頂向下逐步聚合和精煉多級特征,其主要過程如式(1)~式(5)所示:
其中:conv(·)為普通卷積;Up(·)為上采樣運(yùn)算;ReLU(·)為ReLU 激活函數(shù);conv3 為3×3 標(biāo)準(zhǔn)卷積層;⊙為逐元素相乘運(yùn)算;Concat(·)為拼接。多級特征聚合模塊接收通過卷積塊的特征和從鄰近上層多級特征聚合模塊的輸出特征為卷積塊i提取的特征。最上層多級特征聚合模塊以通過卷積塊的輸出特征和卷積塊6 的輸出特征為輸入。通過這種自上而下的監(jiān)督方式,多級特征逐漸被聚合和精煉。不同于之前(例如:PoolNet,BASNet)的拼接或直接相加的聚合方式,本文采用更有效的直接相乘運(yùn)算方式來增強(qiáng)檢測響應(yīng)并抑制背景噪聲,如圖3 所示。
圖3 多級特征聚合模塊的網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of multi-level feature aggregation module
為了充分利用不同模態(tài)間特征的互補(bǔ)性信息,與文獻(xiàn)[29,31]類似,本文設(shè)計一種跨模態(tài)特征融合模塊,該模塊可以有效地捕獲跨模態(tài)特征和多級特征之間的互補(bǔ)性。如圖2 所示,將多個多模態(tài)特征融合模塊放置于雙流子網(wǎng)絡(luò)成對的多級特征聚合模塊之間,自頂向下進(jìn)行級聯(lián),進(jìn)一步對不同模態(tài)間的多級特征進(jìn)行精煉和融合,并生成最終的顯著預(yù)測圖。為了充分獲取多模式互補(bǔ)信息,跨模態(tài)殘差連接和互補(bǔ)性監(jiān)督信息同時被用來進(jìn)一步提升不同模態(tài)的特征互補(bǔ)性。第i級由1×1 卷積層挑選出的深度特征,與另一個支流網(wǎng)絡(luò)中殘差連接得到的特征進(jìn)行逐元素相加。增強(qiáng)的特征′作為兩個1×1 卷積層的輸入,減少訓(xùn)練過程中計算量。過程描述如式(6)所示:
優(yōu)化器的選擇影響神經(jīng)網(wǎng)絡(luò)訓(xùn)練的檢測精度和可靠性?,F(xiàn)有方法通常采用SGD、Adam 等優(yōu)化器。實(shí)驗(yàn)結(jié)果表明,SGD 具有較好的泛化能力,但收斂速度慢、訓(xùn)練不穩(wěn)定,需要仔細(xì)調(diào)參;Adam 無需仔細(xì)調(diào)參即可達(dá)到較好的效果,但很難得到最佳效果,且泛化性不夠理想。本文引入了更強(qiáng)壯的AdaBelief[44]優(yōu)化器,類似于Adam,無需細(xì)心調(diào)參便能得到更好的效果,其定義如下:
其中:α為學(xué)習(xí)率;mt為指數(shù)移動。
為了評估所提算法的性能,在現(xiàn)有的光場顯著性檢測基準(zhǔn)數(shù)據(jù)集DUTLF-FS[13,16]和HFUT-Lytro[38]上進(jìn)行實(shí)驗(yàn)對比。性能評估度量除了采用權(quán)威的準(zhǔn)確度-召回率曲線(PRC)、F-measure(Fβ)、加權(quán)F-measure(WFβ)[44]和平均絕對誤差(MAE)[45]外,還采用了結(jié)構(gòu)相似性指標(biāo)(Sm)[46]和增強(qiáng)匹配指標(biāo)(Em)[47]共計6 個指標(biāo)全面評估所提出算法的性能。本文提出的算法基于深度學(xué)習(xí)框架PyTorch實(shí)現(xiàn),在Nvidia GTX 3090 GPU上進(jìn)行訓(xùn)練。
本文在權(quán)威的光場顯著性檢測數(shù)據(jù)集DUTLF-FS和HFUT-Lytro上進(jìn)行了消融實(shí)驗(yàn),并采用F?、MAE、Em和Sm 這4 個廣泛使用的評價指標(biāo)對算法中的多級特征聚合模塊(CFAS)和跨模態(tài)特征融合模塊(RD-Fuse)進(jìn)行有效性驗(yàn)證。表1 所示為在DUTLF-FS 和HFUTLytro 兩個數(shù)據(jù)集上的測試結(jié)果。其中,√為添加模塊,在HFUT-Lytro 中,基網(wǎng)絡(luò)(第1 行)在MAE 評價指標(biāo)為0.122;第2行是在基模型基礎(chǔ)上添加CFAS模塊的結(jié)果,其MAE 指標(biāo)降低到0.095;第3 行是在基模型基礎(chǔ)上使用RD-Fuse 得到的結(jié)果,其MAE 指標(biāo)降低到0.106;第4 行為同時組合CFAS 模塊和RD-Fuse 模塊的結(jié)果,其MAE 評價指標(biāo)進(jìn)一步降低到0.083。上述結(jié)果表明,CFAS 模塊和RD-Fuse 模塊對檢測性能均有提升,且是相容的。
表1 CFAS 和RD-Fuse 模塊的測試結(jié)果Table 1 Test results of CFAS and RD-Fuse modules
為全面評估所提出算法的性能,與目前主流顯著性目標(biāo)檢測方法MOLF[16]、AFNet[33]、DMRA[34]、LFS[35]、WSC[36]、DILF[37]、F3Net[41]、CPD[48]這8種先進(jìn)的二維、三維和四維SOD 算法進(jìn)行了定量的實(shí)驗(yàn)對比。為保證實(shí)驗(yàn)對比的公平性,所有對比算法的顯著圖或由作者直接提供,或由作者官方源代碼生成。如圖4 所示,本文算法精度基本都超過其他主流算法。觀察圖5 可以看出,本文算法的灰色矩形條高度最低,即MAE 誤差最?。欢谏匦螚l值最高,即WFβ指標(biāo)更具有優(yōu)勢。從圖6 的PRF 值可知,本文算法也明顯優(yōu)于其他算法,原因是本文采用的多級特征聚合模塊在確保較高的召回率下能獲得更好精度和Fβ值結(jié)果。
圖4 在DUTFFS-FS 數(shù)據(jù)集上的PR 曲線Fig.4 PR curves on DUTFFS-FS dataset
圖5 在DUTFFS-FS 數(shù)據(jù)集上的WFβ 和MAE值Fig.5 WFβ and MAE values on DUTFFS-FS dataset
圖6 在DUTFFS-FS 數(shù)據(jù)集上的精度、召回率和Fβ值Fig.6 Precision,recall,and Fβ values on DUTFS-FS dataset
圖7~圖9 分別給出了在另一個數(shù)據(jù)集HFUT-Lytro上的PR 曲線、WFβ和MAE 值以及PRF 值,結(jié)果表明本文算法的性能更優(yōu)。
圖7 在HFUT-Lytro 數(shù)據(jù)集上的PR 曲線Fig.7 PR curves on HFUT-Lytro dataset
圖8 在HFUT-Lytro 數(shù)據(jù)集上的WFβ 和MAE值Fig.8 WFβ and MAE values on HFUT-Lytro dataset
圖9 在HFUT-Lytro 數(shù)據(jù)集上的精度、召回率、Fβ值Fig.9 Precision,recall rate and Fβ value on HFUT-Lytro
圖10 所示為不同SOD 算法視覺對比,給出5 個具有代表性的樣本實(shí)例。第1 行為前/背景顏色相似的情況,F(xiàn)3Net 檢測完全失效;在第2 行~第4 行為背景雜亂的情形,F(xiàn)3Net 檢測出現(xiàn)部分噪聲未完全抑制,其雖然也采用多級特征聚合方式,但由于CNN網(wǎng)絡(luò)提取特征有限,僅依靠CNN 的SOD 方法并不能達(dá)到特別好的效果??傮w來看,本文算法可以在前/背景相似、背景雜亂等挑戰(zhàn)性場景圖像上能更有效地抑制背景,精確地檢測出完整的顯著性目標(biāo)對象,這主要得益于CNN 強(qiáng)大的特征表示能力以及光場豐富的視覺特征。
圖10 不同SOD 算法的視覺對比Fig.10 Visual comparison of different SOD algorithms
本文提出一種多模態(tài)多級特征聚合網(wǎng)絡(luò)算法來檢測顯著性目標(biāo)對象。利用光場圖像單模態(tài)內(nèi)的多級多尺度特征和不同模態(tài)間互補(bǔ)的多模態(tài)多級特征,檢測各類挑戰(zhàn)性場景中的顯著性目標(biāo),并在DUTLF-FS、HFUT-Lytro光場基準(zhǔn)數(shù)據(jù)集上與8種目前先進(jìn)的二維、三維和四維SOD 算法進(jìn)行綜合的性能對比。實(shí)驗(yàn)結(jié)果表明,該算法在各個權(quán)威性能評價指標(biāo)上均取得了更好的結(jié)果。由于光場圖像豐富的視覺信息有助于解決復(fù)雜自然場景下的顯著性目標(biāo)檢測問題,因此下一步將挖掘光場中更豐富的視覺信息與特征,以更精準(zhǔn)地檢測出完整的顯著性目標(biāo)對象。