高 悅,戴 蒙,張 晴
上海應用技術(shù)大學 計算機科學與信息工程學院,上海 201418
顯著性目標檢測旨在對場景中最吸引人的目標進行識別和定位,在計算機視覺任務中得到了廣泛的應用,如視覺跟蹤[1]、圖像分割[2]、視頻檢測與分割[3]和圖像檢索[4]。
得益于全卷積神經(jīng)網(wǎng)絡[5]的出現(xiàn),基于深度學習的顯著性目標檢測方法取得了巨大的進步。然而,大多數(shù)工作集中在RGB圖像上[6-7],當處理復雜或低對比度的場景時,基于RGB的顯著性檢測方法并不能很好地預測顯著圖。隨著深度傳感器的出現(xiàn),深度圖被廣泛應用于顯著性檢測。作為RGB圖像的補充線索,深度圖包含豐富的幾何信息和結(jié)構(gòu)信息,能夠直觀地描述顯著物體的形狀和位置,進一步提高了檢測性能。因此,許多工作[8-9]提出將RGB圖像和深度圖結(jié)合,從而解決基于RGB的顯著性檢測方法在復雜場景中檢測效果不佳的問題。然而,現(xiàn)有的RGB-D顯著性檢測方法雖然取得了突出成績,但仍有很大的改進空間。
深度圖可以為RGB-D顯著性檢測提供有用的補充信息,但由于深度傳感器的限制,在很多情況下深度圖的質(zhì)量較低,會給網(wǎng)絡引入冗余特征,污染檢測結(jié)果。圖1展示了不同質(zhì)量深度圖的例子,自頂向下依次為高質(zhì)量、一般質(zhì)量以及低質(zhì)量的深度圖??梢悦黠@看出,高質(zhì)量的深度圖邊界清晰,定位精確。一般質(zhì)量的深度圖可以大致定位顯著目標,但是邊界模糊。低質(zhì)量的深度圖不能提供有用的信息,甚至會在多模態(tài)特征交互中給RGB特征帶來負面影響,從而影響顯著性檢測的性能。為了解決上述問題,現(xiàn)有的一些方法被提了出來。例如,Ji等人[10]設計了一個深度校準模塊來校正不可靠的原始深度圖的潛在噪聲。Zhang等人[11]提出了一種高效的DQFM過程來過濾跨模態(tài)融合中的深度特征。
圖1 不同質(zhì)量的深度圖Fig.1 Depth maps of different qualities
與上述方法不同,本文設計了一種多模態(tài)特征交互模型,著重于減少不可靠的深度圖的負面影響,并探索高效的跨模態(tài)交互。為此,提出了一個特征交互模塊,其包含三個子模塊:全局特征采集子模塊、深度特征精煉子模塊和多模態(tài)特征交互子模塊。首先,全局特征采集子模塊用于去除骨干網(wǎng)絡提取到的特征的冗余信息,并采用多級卷積組合操作實現(xiàn)全局信息采集。然后,考慮到低質(zhì)量深度圖的負面影響,提出深度特征精煉子模塊來對深度特征進行細化。最后,設計了多模態(tài)特征交互子模塊,利用RGB特征和深度特征相互指導的方式,充分融合多模態(tài)特征。與其他十二種近兩年的先進方法進行比較,本文模型的定量比較結(jié)果和定性比較結(jié)果都具有優(yōu)越性。
目前的RGB-D顯著性目標檢測方法大致可以分為兩類:傳統(tǒng)方法和基于深度學習的方法。傳統(tǒng)方法主要通過手工制作的特征區(qū)分圖像中的顯著物體,如局部對比度、全局對比度和背景先驗等。Zhang等人[12]設計了一種基于區(qū)域?qū)Ρ鹊膸в猩疃染€索的顯著目標檢測模型。Song等人[13]將整個圖像分割成若干大小不一的超像素進而提高分割的質(zhì)量。Ren等人[14]探索了用于顯著性檢測的方向先驗和背景先驗。雖然傳統(tǒng)方法取得了良好的性能,但手工生成的特征泛化能力有限,缺乏高層語義信息的引導,不足以對顯著目標進行準確檢測。
深度學習的快速發(fā)展使得卷積神經(jīng)網(wǎng)絡在許多計算機視覺任務中展示出了極大的優(yōu)勢。考慮到傳統(tǒng)方法的局限性,近年來,基于深度學習的方法提高了模型的表達能力和檢測能力,逐漸成為RGB-D顯著性檢測的主流趨勢。RGB-D顯著性檢測方法主要采用兩種結(jié)構(gòu)實現(xiàn)顯著性預測:單流結(jié)構(gòu)和雙流結(jié)構(gòu)。單流結(jié)構(gòu)主要依賴于網(wǎng)絡架構(gòu),不能有效地探索網(wǎng)絡的跨模態(tài)交互。雙流結(jié)構(gòu)被廣泛使用,用于獲取RGB特征和深度特征之間的相關(guān)性。如Zhang等人[15]采用了一種用于RGB-D顯著性檢測的雙流結(jié)構(gòu),該結(jié)構(gòu)同時考慮了RGB特征和深度特征的局部和全局互補。Pang等人[16]通過密集連接結(jié)構(gòu)將RGB特征和深度特征相結(jié)合,生成動態(tài)濾波器,然后引導RGB流進行解碼。然而這些方法只關(guān)注融合高層特征,忽略了低層次特征的互補信息。與之不同,Zhang等人[17]采用自頂向下的方式結(jié)合跨模態(tài)和跨層次特征,從而細化顯著圖。Liu等人[18]設計一種殘差融合模型,將深度特征融合到RGB流中,然后利用跨模態(tài)和跨層次的特征生成更準確的結(jié)果。但是,這些方法采用簡單的操作對RGB特征和深度特征進行融合,忽略了模態(tài)之間的差異以及低質(zhì)量深度圖的負面影響。
與上述方法不同,本文設計了有效的特征交互模塊,過濾深度圖的噪聲和冗余信息,促進多模態(tài)特征的交互,準確地突出了RGB圖像中的顯著目標。然后,將經(jīng)過特征交互后的融合特征逐層融合到解碼器中,實現(xiàn)了多層次特征融合。
圖2展示了本文提出的用于RGB-D顯著目標檢測的特征交互網(wǎng)絡。在特征編碼階段,采用兩個獨立的VGG-16骨干網(wǎng)絡[19]分別提取RGB特征和深度特征,即(i=1,2,…,5)和(i=1,2,…,5),然后分別將其輸送到相同層次的特征交互模塊(FIM)中,順序執(zhí)行全局特征采集、深度特征精煉以及多模態(tài)特征交互操作。
圖2 網(wǎng)絡結(jié)構(gòu)圖Fig.2 Architecture of proposed network
首先,在FIM中,全局特征采集子模塊(GFC)用于去除骨干網(wǎng)絡所提取到的RGB特征和深度特征的冗余信息,并分別采用可分離卷積及膨脹卷積實現(xiàn)全局信息的采集。其次,考慮到低質(zhì)量深度圖會給網(wǎng)絡帶來負面影響,因此,提出一個深度特征精煉子模塊(DFR),用于對深度特征進行精煉。最后,設計了一種新型的多模態(tài)特征交互子模塊(MFI),其選用殘差網(wǎng)絡結(jié)構(gòu),利用RGB特征和深度特征相互指導的方式,充分融合多模態(tài)特征。在特征解碼階段,經(jīng)過特征交互后獲取的多模態(tài)融合特征(i=1,2,…,5)會逐層整合到解碼器中,以實現(xiàn)多層次特征融合,并獲取最終的顯著性結(jié)果。為了更好地優(yōu)化整個網(wǎng)絡,采用混合損失函數(shù)獲取網(wǎng)絡不同層次的顯著結(jié)果圖,計算子損失函數(shù),并根據(jù)該層次對最終顯著目標預測結(jié)果的影響程度,給予該層次的損失函數(shù)以不同的權(quán)重。
圖3展示了本文所提出的特征交互模塊。在這一部分,將詳細介紹提出的特征交互模塊。2.2.1小節(jié)將對用于全局信息采集的GFC子模塊進行敘述。關(guān)于DFR子模塊的介紹將在2.2.2小節(jié)中進行。最后,在2.2.3小節(jié)中對MFI子模塊的內(nèi)容和原理進行分析。
圖3 特征交互模塊Fig.3 Feature interaction module
2.2.1 全局特征采集子模塊
為了更好地融合多模態(tài)特征,不同于以往直接采用簡單的連接方式,例如級聯(lián)、對應元素點乘、相加或僅將深度特征作為RGB特征的補充進行融合多模態(tài)特征。在編碼網(wǎng)絡中,本文在整合特征互補性之前,在特征交互模塊中設計了一個用于去除特征融合、增強特征表述能力的全局特征采集子模塊。
首先,每一層提取到的RGB特征和深度特征會先經(jīng)過GFC中的通道注意力模塊(channel attention,CA),其基于注意力機制[20],旨在獲取輸入特征和中的有效特征。與文獻[20]中的注意力操作不同,本文僅采用一個全局最大池化操作來獲取特征中最關(guān)鍵的信息,有效地降低了模塊的復雜性。具體來說,輸入的RGB特征和深度特征都將先經(jīng)過全局最大池化操作,得到通道特征。接著將其送入兩層共享的神經(jīng)網(wǎng)絡中,對輸出的特征進行sigmoid激活操作得到通道權(quán)重向量。然后將通道權(quán)重向量與輸入的RGB特征和深度特征進行元素相乘操作,以增強原始特征中所包含的關(guān)于顯著目標的重要通道的權(quán)重。通道注意力計算公式如下:
式中,σ代表sigmoid激活函數(shù),GMPs(?)表示空間全局最大池化操作,MLP(?)表示兩層共享的神經(jīng)網(wǎng)絡,F(xiàn)表示輸入特征。
其次,為了從多角度提取輸入特征的上下文信息,將去除特征冗余后的RGB特征和深度特征分別送入由普通卷積、多尺度可分離卷積及多比率膨脹卷積組成的卷積組合中。其中,普通卷積旨在降低原始輸入特征的通道數(shù),多尺度可分離卷積則是在降低模塊參數(shù)、提高網(wǎng)絡效率的同時多維度提取輸入特征中包含的重要信息,多比率膨脹卷積旨在擴大卷積感受野,提取輸入特征的上下文信息。具體如圖3所示,在GFC中,四層卷積組合的卷積核大小及膨脹率可以表示為:{k=1;k=3,r=3;k=5,r=5;k=7,r=7},其中,k代表普通/可分離卷積的卷積核大小,r代表膨脹卷積的膨脹率。因此,在GFC模塊中,通過結(jié)合用于重要通道選擇的CA操作,用于全局信息采集的多級卷積組合操作,以及用于保留每層原始信息的殘差結(jié)構(gòu),GFC模塊實現(xiàn)了提高特征感受野的同時,控制了模型參數(shù)量,減少了輸入特征的冗余信息和背景噪聲的干擾。以輸入特征為例,其計算公式可以表示為:
式中,代表第i層輸入的深度特征,代表第i層的GFC模塊中的第j層的卷積組合中的1×1卷積核,其由Conv1×1,BN(batch normalization)及ReLU激活函數(shù)組合而成。代表可分離卷積(separable convolution,Sep),代表膨脹卷積(dilated convolution,Dil)。[,]表示級聯(lián),?表示元素相乘,表示GFC模塊的輸出深度特征。
2.2.2 深度特征精煉子模塊
由于深度傳感器的限制,深度圖在很多情況下質(zhì)量很低,若不加區(qū)分地融合RGB特征和深度特征,則會將冗余的特征和噪聲引入網(wǎng)絡,影響最終的顯著結(jié)果。為此,本文在特征交互模塊中提出了用于對深度特征進行精煉的DFR子模塊。
如圖3所示,經(jīng)過全局特征采集后的RGB特征會順序經(jīng)過通道注意力模塊CA和空間注意力模塊SA(spatial attention),其中CA用于對RGB特征中的重要通道進行選擇,SA則用于對RGB特征中的重要內(nèi)容進行選擇。SA對通過CA增強后的特征僅計算沿通道方向上的所有元素的最大值,即提取空間上矩陣元素的權(quán)重,計算公式如下:
式中,GMPc(?)表示通道全局最大池化操作,conv(?)表示卷積核為7×7的卷積操作。
式中,表示GFC模塊的輸出RGB特征,f代表中間輸出結(jié)果。
2.2.3 多模態(tài)特征交互子模塊
RGB圖像包含了關(guān)于顯著目標的顏色、紋理等信息,深度圖像則包含了豐富的空間信息,兩者相互補充。因此,尋找一種合理的多模態(tài)特征交互的方式至關(guān)重要。本文在特征交互模塊中設計了新型的MFI子模塊,其選用殘差網(wǎng)絡結(jié)構(gòu),利用RGB特征和深度特征相互指導的方式,充分整合了多模態(tài)特征的互補性。
如圖3所示,精煉后的RGB特征和深度特征輸入到FI子模塊中。其中,F(xiàn)Idr代表采用深度特征指導RGB特征,F(xiàn)Ird代表采用RGB特征精煉深度特征,兩者均基于空間注意力機制最大程度模擬人類視覺機制,且網(wǎng)絡結(jié)構(gòu)對稱。以深度特征指導RGB特征操作為例,通過空間注意力操作計算深度特征的空間注意力圖,然后將空間注意力圖與RGB特征進行元素相乘,從而實現(xiàn)多模態(tài)特征之間的信息補充,這是第一次多模態(tài)特征交互。接著,為了在多模態(tài)特征交互的同時考慮到原本的輸入特征信息,第一次多模態(tài)特征交互后的特征將通過殘差連接和原本的輸入特征進行元素相乘操作。最后,采用級聯(lián)的方式完成最終的多模態(tài)特征融合,獲取最終整個特征交互模塊的輸出結(jié)果。計算公式如下所示:
式中,f1和f2為中間輸出,代表特征交互模塊的最終輸出特征。
與編碼網(wǎng)絡關(guān)聯(lián),解碼網(wǎng)絡用于對最終顯著目標檢測結(jié)果進行推理,被表示為Decoder,其包含了兩個或三個卷積層和一個反卷積層,其中反卷積層用來逐步恢復分辨率。Decoder接收來自相同層次的特征交互模塊和上一層的特征塊進行漸進式推理。此外,為了保證每層的輸出特征能準確反映出顯著目標,對每層Decoder的輸出進行3×3卷積運算,獲取每一層的預測結(jié)果Ri,并分別計算其與真值圖之間的損失。
本文采用混合損失函數(shù)來監(jiān)督網(wǎng)絡每一層的預測結(jié)果,其由兩部分組合而成:BCE(binary cross-entrop)損失函數(shù)[21]及IOU(intersection-over-union)損失函數(shù)[22]。其中BCE損失函數(shù)是顯著性檢測任務中最經(jīng)典的損失函數(shù),用于獨立計算每個像素的損失。IOU損失函數(shù)則關(guān)注的是全局結(jié)構(gòu),使顯著目標具有清晰的邊界。BCE及IOU損失函數(shù)計算公式如下所示:
式中,Ri為第i層解碼網(wǎng)絡的預測結(jié)果,G代表真值圖,代表第i層解碼網(wǎng)絡的預測結(jié)果與真值圖之間的IOU損失值,代表BCE損失值。
本文總體損失函數(shù)表示為:
式中,Li代表第i層損失函數(shù),其由共同組成,L代表總體損失函數(shù)。此外,隨著網(wǎng)絡的進程,不同層次解碼網(wǎng)絡生成的預測顯著圖包含關(guān)于顯著目標的信息不同,因此對最終結(jié)果圖的貢獻不同,本文給與不同層次損失函數(shù)以不同的權(quán)重。wi為第i層損失函數(shù)的權(quán)重,對應i={5 ,4,3,2,1},其分別為wi={0.1,0.3,0.5,0.7,1}。
數(shù)據(jù)集:為了評估模型的性能,本文在五個公共的RGB-D數(shù)據(jù)集上進行了實驗,包括NLPR[23],SIP[24],NJU2K[25],DES[26]和STERE[27]。其中,NLPR由1 000組圖像組成,圖像包括室內(nèi)和室外場景,通常用于評估模型識別多個顯著對象的能力。NJU2K是包含1 985組圖像的最大RGB-D數(shù)據(jù)集,這些圖像來自互聯(lián)網(wǎng)、3D電影和立體圖像。SIP數(shù)據(jù)集包括929組來自各種戶外場景的具有挑戰(zhàn)性場景的圖像,這些圖像關(guān)注現(xiàn)實場景中的突出人物。DES數(shù)據(jù)集是一個小規(guī)模數(shù)據(jù)集,采集了135組簡單的室內(nèi)圖像。STERE是立體圖像數(shù)據(jù)集,由1 000組從互聯(lián)網(wǎng)上下載的立體圖像組成。
評估指標:為了驗證本文模型的有效性,本文采用了六個指標評估模型的性能,包括PR曲線、F-measure(F),平均F-measure(avgF),加權(quán)weighted F-measure(ωF),平均絕對誤差(MAE),E-measure(E)。
PR曲線使用一系列從0到255的固定閾值對預測圖進行二值化,然后計算準精確度和召回率以繪制精確度-召回率曲線。精確度對應于正確檢測到的顯著像素的百分比,召回率是檢測到的顯著像素相對于顯著像素真實值的分數(shù)。
F-measure是一種綜合性能衡量標準,同時考慮了精確度和召回率,表示為:
式中,Pre代表精確率,Rec代表召回率,β控制著Pre和Rec的權(quán)衡,β2設置為0.3[28]。avgF定義為利用PR曲線的準確率和召回率計算得到的平均F測度值。
weighted F-measure定義了一個加權(quán)精度和一個加權(quán)召回率,遵循F-measure的形式,用來改進現(xiàn)有的Fmeasure測度,表示為:
MAE用來計算模型的顯著圖和真值圖之間的平均絕對誤差,表示為:
式中,W和H分別表示圖像的寬度和高度,S和G分別是預測的顯著圖和真值圖。
E-measure基于人類視覺系統(tǒng)的認知特性,利用局部像素值和圖像級平均值來評估二進制顯著圖。表示為:
式中,ξ代表增強對齊矩陣。
本文采用Pytorch框架實現(xiàn)提出的模型,使用單個NVIDIA GTX 2080 TI GPU對模型進行訓練和測試。網(wǎng)絡的輸入圖像統(tǒng)一調(diào)整為352×352的尺寸,使用1 485張NJU2K的圖像和700張NLPR的圖像進行訓練,所有的訓練圖像采用隨機翻轉(zhuǎn)、旋轉(zhuǎn)和邊界裁剪的方式進行數(shù)據(jù)增強,以使模型具有魯棒性。在實驗中,使用Adam優(yōu)化模型,初始的學習率設置為1E-4,每經(jīng)過60輪訓練,學習率減小為原來的十分之一,模型一共訓練了200個epoch并保存最優(yōu)的模型進行測試。
為了充分證明本文所提出模型的有效性,本文將其與2種傳統(tǒng)方法和10種基于深度學習的方法進行比較,包括MDSF[13],SE[29],CFIDNet[30],BiANet[17],cmSalGAN[31],CoNet[32],D3Net[24],ASIFNet[33],DFNet[34],GANet[35],MobileSal[36],JSM[37]。為了進行公平比較,所有比較方法的結(jié)果圖都由作者提供或通過運行其發(fā)布的代碼獲得。
定量比較:表1展示了本文所提出的模型與其他10種方法在5個公開數(shù)據(jù)集上的四個評估指標的定量評估結(jié)果,其中“↑”代表指標越大越好,“↓”代表指標越小越好??梢钥闯?,本文模型在NLPR、SIP和NJU2K這三個數(shù)據(jù)集上的四個評估指標上均優(yōu)于其他對比方法,說明本文模型在對復雜場景和人物的檢測上效果優(yōu)異。在STERE數(shù)據(jù)集上,僅ωF和E處于第二名,均比第一名低了0.001。在DES數(shù)據(jù)集上,各項指標都處于前三名。為了更直觀地對比,圖4和圖5分別展示了PR曲線和F-measure曲線。通過曲線可以觀察出,相較于其他對比方法,本文的模型獲得了更好的結(jié)果,生成的曲線大部分領(lǐng)先于其他模型??傊?,定量結(jié)果充分證明了本文所提出模型的有效性和優(yōu)越性。
圖4 與其他先進方法的PR曲線對比Fig.4 Compared with other advanced methods in terms of PR curves
圖5 與其他先進方法的F-measure曲線對比Fig.5 Compared with other advanced methods in terms of F-measure curves
視覺比較:為了進一步證明本文模型具有更顯著的優(yōu)勢,圖6展示了一些具有代表性的視覺對比結(jié)果圖,圖像場景分別包括大物體、小物體、多個物體、前景和背景之間具有低對比度以及復雜的背景結(jié)構(gòu)??梢杂^察出,本文的方法可以生成更精確、更完整的顯著圖,整體呈現(xiàn)出更好的檢測效果。例如,第1行和第2行分別為大物體和小物體的場景,本文方法表現(xiàn)最好,尤其在第一行,其他的方法如BiANet、cmSalGAN和D3Net無法準確分割顯著目標,而本文方法能有效地抑制干擾。第3行是多個物體的場景,除了本文的方法之外,其他的方法都無法準確檢測顯著目標。第4行和第5行,展示了低對比度的場景,前景和背景之間的對比度很低,但本文方法依舊可以將顯著目標和背景區(qū)分開。第6行是復雜的場景,由于復雜背景的影響,其他方法生成的顯著圖大多比較粗糙,本文的方法能有效抑制背景干擾,生成邊界清晰、結(jié)構(gòu)完整的可靠顯著圖。
圖6 與其他先進方法的視覺對比結(jié)果Fig.6 Visual comparison results with other advanced methods
為了證明本文模型各個模塊的有效性,分別移除了GFC模塊、DFR模塊、MFI模塊、FIM模塊、BCE損失函數(shù)、IOU損失函數(shù)和深度監(jiān)督,在NLPR、SIP和NJU2K這三個具有代表性的數(shù)據(jù)集上進行消融實驗。為了公平比較,本文在消融實驗中遵循相同的實驗設置,沒有調(diào)整任何參數(shù)。實驗結(jié)果如表2和圖7所示。
表2 在三個數(shù)據(jù)集上的消融實驗Table 2 Ablation experiments on three datasets
圖7 消融實驗視覺對比結(jié)果Fig.7 Visual comparison results of ablation experiments
從表2的定量對比結(jié)果可以看出,去除所提出模型的各個模塊后,三個數(shù)據(jù)集上的各個指標數(shù)據(jù)都有明顯下降,充分證明了該模型的有效性。此外,根據(jù)圖7的定性比較結(jié)果,可以看出本文模型的表現(xiàn)最好,生成了令人滿意的顯著圖。例如,在第1和第3行,其他的方法錯誤地將背景作為顯著目標,而本文模型可以成功地消除背景干擾,準確識別顯著對象。在第2行中,除了本文模型,其他的方法生成的顯著圖都很粗糙,不能準確檢測顯著目標。
本文針對低質(zhì)量深度圖的問題提出了一種用于RGB-D顯著性目標檢測的多模態(tài)特征交互模型,該模型采用編碼-解碼的網(wǎng)絡結(jié)構(gòu)。首先,設計了特征交互模塊,有效地過濾了深度圖的噪聲和冗余信息,促進多模態(tài)特征的交互。然后,將經(jīng)過特征交互后的融合特征逐層融合到解碼器中,實現(xiàn)了多層次特征融合。最后,采用一種新型損失函數(shù),更好地訓練整個網(wǎng)絡從而達到網(wǎng)絡的最優(yōu)化。實驗表明,本文提出的方法與近兩年基于RGB-D的顯著性檢測方法在五個公開數(shù)據(jù)集上進行比較,檢測性能更加優(yōu)異,取得了杰出的實驗效果。