陳小偉 張 晴
(上海應(yīng)用技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與信息工程學(xué)院 上海 201418)
顯著物體檢測(cè)(Salient Object Detection,SOD)旨在從視覺(jué)場(chǎng)景中自動(dòng)檢測(cè)和分割出最引人注目的物體,其檢測(cè)結(jié)果通常用灰度圖表示,每個(gè)像素的灰度值表示該像素屬于顯著物體的概率。顯著物體檢測(cè)可廣泛應(yīng)用于各種計(jì)算機(jī)視覺(jué)應(yīng)用任務(wù)以大幅度降低其處理復(fù)雜度,包括圖像編輯[1]、行人再識(shí)別[2]、視覺(jué)追蹤[3]和圖像分割[4]等。
由于基于手工選擇特征的傳統(tǒng)的顯著物體檢測(cè)方法[5-6]主要采用中低層特征和各種先驗(yàn)性假設(shè)(對(duì)比度、背景、邊界等)進(jìn)行顯著性計(jì)算。最常用的對(duì)比度方法基于顯著性區(qū)域與背景的顏色特征具有較大差異這一假設(shè)。傳統(tǒng)的顯著物體檢測(cè)方法面對(duì)簡(jiǎn)單場(chǎng)景時(shí)檢測(cè)效果良好,但是由于該類(lèi)方法僅關(guān)注中低層特征,缺乏對(duì)高層語(yǔ)義信息的表示和學(xué)習(xí)能力,因此在面對(duì)復(fù)雜場(chǎng)景時(shí)往往不能取得令人滿(mǎn)意的檢測(cè)效果。
卷積神經(jīng)網(wǎng)絡(luò)由于其強(qiáng)大的特征表征和學(xué)習(xí)能力,被廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)任務(wù),取得了令人矚目的成績(jī)?;诰矸e神經(jīng)網(wǎng)絡(luò)的顯著物體檢測(cè)方法[7-9]能提取圖像不同層級(jí)的特征,淺層卷積層組得到的特征富含中低級(jí)特征,但缺乏全局信息,而深層卷積層組得到的特征包含豐富語(yǔ)義特征,但缺乏細(xì)節(jié)信息。因此,如何從卷積神經(jīng)網(wǎng)絡(luò)中提取不同層級(jí)的特征,以及如何有效融合這些不同層級(jí)的特征,是關(guān)鍵且具有挑戰(zhàn)性的問(wèn)題。
現(xiàn)有顯著性檢測(cè)模型一般采用多尺度特征方法提取全局特征,然而這些方法僅僅針對(duì)同一層級(jí)特征的不同尺度進(jìn)行建模,再簡(jiǎn)單融合這些多尺度特征,各個(gè)尺度特征之間缺乏交互。針對(duì)此不足,本文提出全局特征信息感知模塊(Global Information Perception Module,GIPM),對(duì)同層級(jí)特征的各個(gè)尺度進(jìn)行建模,利用各尺度特征之間得到的交互信息進(jìn)行多尺度特征更新,有效表示和提取顯著物體的語(yǔ)義特征,從而獲得目標(biāo)物體的位置信息。
此外,骨干網(wǎng)絡(luò)的淺層側(cè)輸出具有豐富且雜亂的低層級(jí)特征,而顯著物體檢測(cè)只需針對(duì)特定區(qū)域的細(xì)節(jié)特征進(jìn)行學(xué)習(xí),因此,常用的逐層融合結(jié)構(gòu)容易引入噪聲。針對(duì)此不足,本文提出顯著特征更新模塊(Saliency Feature Refinement Module,SFRM),利用全局信息直接引導(dǎo)局部特征,聚焦目標(biāo)區(qū)域?qū)W習(xí)有用的細(xì)節(jié)信息,從而得到具有精確輪廓信息的顯著物體檢測(cè)結(jié)果。本文工作的主要貢獻(xiàn)有:
1) 提出一種新的卷積神經(jīng)網(wǎng)絡(luò)用于顯著物體檢測(cè),實(shí)現(xiàn)端到端的像素級(jí)預(yù)測(cè),利用全局特征感知和局部信息更新,獲得具有辨識(shí)力的顯著性特征,從而提升模型的檢測(cè)性能。
2) 提出全局特征感知模塊和局部特征更新模塊,利用多尺度的全局特征引導(dǎo)網(wǎng)絡(luò)的每個(gè)側(cè)輸出聚焦學(xué)習(xí)有用區(qū)域的細(xì)節(jié)特征。
近年來(lái),深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺(jué)的各類(lèi)任務(wù)中得到了廣泛的應(yīng)用,大幅度提升了算法模型性能。基于深度學(xué)習(xí)技術(shù)的顯著物體檢測(cè)模型能提取圖像的高層語(yǔ)義信息,因此突破了傳統(tǒng)模型的性能瓶頸,大大提升了檢測(cè)性能?;谏疃葘W(xué)習(xí)的顯著物體檢測(cè)算法可以分為兩類(lèi):區(qū)域級(jí)預(yù)測(cè)模型[10-11]以及像素級(jí)預(yù)測(cè)模型[12-14]。
區(qū)域級(jí)預(yù)測(cè)模型以區(qū)域?yàn)榛締挝?通過(guò)深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)其深度特征,位于同一區(qū)域內(nèi)的所有像素享有同樣的顯著性值。Li等[10]利用全卷積層整合從一系列區(qū)域中提取多尺度特征。在文獻(xiàn)[11]中,研究人員采用兩個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)以獲取圖像區(qū)域的全局和局部特征。這些區(qū)域級(jí)預(yù)測(cè)模型較傳統(tǒng)方法提升了檢測(cè)性能,然而,由于其不能有效表示圖像的全局語(yǔ)義信息,因此在面對(duì)低對(duì)比度、背景雜亂等復(fù)雜場(chǎng)景時(shí),檢測(cè)準(zhǔn)確率較低。另外,這類(lèi)方法依賴(lài)區(qū)域分割技術(shù),必須多次運(yùn)行網(wǎng)絡(luò)才能計(jì)算圖像中所有區(qū)域的顯著性值,因此其算法非常耗時(shí),實(shí)用性較低。
像素級(jí)預(yù)測(cè)模型利用全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)端到端的預(yù)測(cè),提取和融合從骨干網(wǎng)絡(luò)不同邊側(cè)輸出的多層級(jí)多尺度特征。Liu等[15]提出基于池化的全局引導(dǎo)模塊和特征整合模塊,利用高層語(yǔ)義特征逐步更新多層級(jí)顯著性圖。Wei等[16]設(shè)計(jì)了交叉特征模塊以融合多層級(jí)特征,探索特征間的互補(bǔ)性。Pang等[17]提出相鄰層級(jí)多尺度特征的融合方式。Zhao等[18]設(shè)計(jì)了一種新型的門(mén)控雙分支結(jié)構(gòu),促進(jìn)不同層次特征之間的協(xié)作以提高整個(gè)網(wǎng)絡(luò)的可分辨性。Wu等[19]旨在通過(guò)疊加交叉細(xì)化單元(CRU)同時(shí)細(xì)化顯著目標(biāo)檢測(cè)和邊緣檢測(cè)的多層次特征。文獻(xiàn)[20]通過(guò)漸進(jìn)式上下文感知的特征交織整合模塊有效集成多層級(jí)特征。盡管這些方法極大提高了檢測(cè)性能,但是在邊界細(xì)節(jié)和分割質(zhì)量上仍存在一定的提升空間。
本文基于特征金字塔(Feature Pyramid Network,FPN)結(jié)構(gòu)構(gòu)建網(wǎng)絡(luò)模型,自頂向下逐層級(jí)連接深層特征和淺層特征,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。主要包括兩個(gè)部分:全局信息感知模塊(Global Information Perception Module,GIPM)和顯著特征更新模塊(Saliency Feature Refinement Module,SFRM)。首先,采用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)ResNet-50作為骨干網(wǎng)絡(luò)生成多層級(jí)多尺度的側(cè)邊輸出粗糙特征;然后,在每個(gè)側(cè)邊采用一個(gè)卷積層組提升粗糙特征的顯著性表達(dá)能力,每側(cè)的卷積層組均由3個(gè)3×3的卷積層組成;其次,采用全局信息感知模塊GIPM產(chǎn)生全局語(yǔ)義特征,定位顯著物體區(qū)域;最后,利用顯著特征更新模塊SFRM融合全局特征和側(cè)邊輸出特征,得到最終的具有精確輪廓信息的顯著物體預(yù)測(cè)結(jié)果。
圖1 本文網(wǎng)絡(luò)結(jié)構(gòu)模型
全局特征具有豐富的語(yǔ)義信息,能定位出顯著物體的位置,在顯著物體檢測(cè)中具有十分重要的作用。在不同的視覺(jué)場(chǎng)景中,顯著物體具有不同的尺度,因此良好的顯著物體檢測(cè)模型需要具有獲取全局特征的多尺度信息的能力。為了更好表征具有全局上下文信息的多尺度語(yǔ)義特征,本文設(shè)計(jì)全局信息感知模塊GIPM,其詳細(xì)結(jié)構(gòu)如圖2所示。
圖2 全局信息感知模塊GIPM細(xì)節(jié)
(1)
卷積神經(jīng)網(wǎng)絡(luò)淺層輸出特征包含豐富的圖像細(xì)節(jié)特征,而其深層輸出特征包含豐富的全局語(yǔ)義信息。雖然常用的FPN網(wǎng)絡(luò)結(jié)構(gòu),能逐漸將深層特征與淺層特征相結(jié)合,采用由粗至細(xì)的方式更新側(cè)輸出的顯著圖,但是這種逐層連接的更新方式會(huì)造成全局信息的損失。為了使淺層網(wǎng)絡(luò)聚焦于有用區(qū)域的細(xì)節(jié)特征學(xué)習(xí),提升網(wǎng)絡(luò)學(xué)習(xí)效果,本文提出顯著特征更新模塊SFRM,其結(jié)構(gòu)細(xì)節(jié)如圖3所示。
圖3 顯著特征更新模塊SFRM細(xì)節(jié)
SFRM首先將深層輸出的全局特征直接與淺層特征相融合,接著通過(guò)空間位置權(quán)重的計(jì)算,突出顯著特征中重要的空間信息,從而提高側(cè)輸出在顯著區(qū)域上的細(xì)節(jié)學(xué)習(xí)能力。其過(guò)程可以表示為:
(2)
(3)
(4)
式中:Avg(·)和Max(·)分別是平均值和最大值計(jì)算。
顯著物體檢測(cè)中常用二元交叉熵(Binary Cross Entropy,BCE)作為損失函數(shù)。然而,BCE強(qiáng)調(diào)的是像素之間的差異,忽略了全局結(jié)構(gòu)信息間的不同,因此,本文模型引入IoU計(jì)算預(yù)測(cè)顯著圖和真值圖之間的圖像級(jí)差異。整個(gè)網(wǎng)絡(luò)的損失函數(shù)可表示為:
(5)
本模型基于PyTorch實(shí)現(xiàn),訓(xùn)練和測(cè)試是在具有一塊NVIDIA GTX TITAN GPU的臺(tái)式計(jì)算機(jī)上進(jìn)行。使用具有10 553幅圖像的DUTS-TR數(shù)據(jù)集訓(xùn)練,通過(guò)隨機(jī)水平翻轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng)。使用Adam作為優(yōu)化算子,學(xué)習(xí)率設(shè)置為5E-3,權(quán)重衰減為5E-4,批大小為8,一共訓(xùn)練60期。本文模型為端到端模型,不需要任何的預(yù)處理以及其他操作。
在ECSSD、DUT-OMRON、PASCAL-S和DUTS-TE基本數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)以驗(yàn)證本文模型的有效性。這些數(shù)據(jù)集均具有像素級(jí)標(biāo)簽。ECSSD包含1 000幅復(fù)雜圖像。DUT-OMRON包括5 168幅背景相對(duì)復(fù)雜的圖像。PASCAL-S包含850幅從PASCAL-VOC數(shù)據(jù)集中選擇的真實(shí)世界圖像。DUTS-TE包含5 109幅包含一個(gè)或多個(gè)具有雜亂背景的顯著物體的圖像。
本文采用6個(gè)普遍認(rèn)可的評(píng)價(jià)指標(biāo)對(duì)模型性能進(jìn)行評(píng)估,包括:準(zhǔn)確率-召回率(Precision-Recall,PR)曲線、平均F值(avgFβ)、平均絕對(duì)誤差(Mean Absolute Error,MAE)和S值(Sm)。
PR曲線:在0~255區(qū)間內(nèi),用固定閾值對(duì)顯著圖計(jì)算其準(zhǔn)確率-召回率值對(duì),用于形成PR曲線。
F值:F值是準(zhǔn)確率和召回率的綜合評(píng)價(jià)指標(biāo),計(jì)算方法為:
(6)
式中:β是平衡參數(shù);P為準(zhǔn)確率;R為召回率。β2通常設(shè)置為0.3以提高準(zhǔn)確率權(quán)重。
MAE:用于衡量真值圖和預(yù)測(cè)顯著性圖之間的平均像素誤差。
(7)
式中:S表示預(yù)測(cè)顯著性圖;G表示真值圖;H和W分別表示像素的高和寬。
S值:通過(guò)結(jié)合區(qū)域感知結(jié)構(gòu)相似性So和對(duì)象感知結(jié)構(gòu)相似性Sr來(lái)衡量顯著性圖質(zhì)量,計(jì)算公式為:
Sm=αSo+(1-α)Sr
(8)
式中:通常設(shè)α=0.5。
為了證明本文模型的有效性,將其與12種近三年具有代表性的基于深度學(xué)習(xí)模型進(jìn)行了比較,其中包括:CPD[7]、BANet[14]、PoolNet[15]、EGNet[12]、SCRN[19]、F3Net[16]、ITSD[13]、GateNet[18]、MINet[17]、GCPA[20]、DNA[8]和SUCA[9]。為了比較的公平性,使用作者提供的顯著性圖進(jìn)行比較。
3.2.1 定性評(píng)估
圖4是本文模型與具有代表性算法生成的顯著圖的視覺(jué)比較。通過(guò)對(duì)比可知,本文模型在各種復(fù)雜場(chǎng)景(低對(duì)比度、目標(biāo)接觸圖像邊界、多目標(biāo)、背景雜亂等)中能夠一致高亮顯著區(qū)域,并有效抑制背景聲,效果明顯優(yōu)于其他模型。
圖4 本文模型與其他模型生成顯著圖的視覺(jué)對(duì)比
3.2.2 定量評(píng)估
圖5至圖8分別是本文算法與12種主流算法的PR曲線比較,可以看到,本文方法幾乎在4個(gè)基準(zhǔn)數(shù)據(jù)集上均優(yōu)于其他方法。此外,將本文模型與12種主流算法就avgFβ、EMA和Sm得分進(jìn)行比較,結(jié)果如表1和表2所示,其中:加粗表示最佳性能;下劃線表示次佳性能;“-”表示作者沒(méi)有提供該算法的顯著圖??芍?1) 本文方法的MAE指標(biāo)在DUT-OMRON數(shù)據(jù)集上位列第三;2) 本文方法的S值指標(biāo)在ECSSD數(shù)據(jù)集上位列第二;3) 除此以外,本文方法的各項(xiàng)指標(biāo)在各基準(zhǔn)數(shù)據(jù)上均優(yōu)于主流算法。說(shuō)明本文模型能處理各種復(fù)雜場(chǎng)景,具有優(yōu)越性。
圖7 不同方法在PASCAL-S數(shù)據(jù)集上的PR曲線比較
圖8 不同方法在DUTS-TE數(shù)據(jù)集上的PR曲線比較
表1 不同方法在ECSSD和DUT-OMRON數(shù)據(jù)集上的性能對(duì)比結(jié)果
表2 不同方法在PASCAL-S和DUTS-TE數(shù)據(jù)集上的性能對(duì)比結(jié)果
3.3.1 不同模塊性能分析
為了驗(yàn)證不同模塊對(duì)本文模型的影響,構(gòu)建了不同的網(wǎng)絡(luò),并在DUT-OMRON和DUTS-TE數(shù)據(jù)集上進(jìn)行了不同模塊的消融實(shí)驗(yàn)。主要考慮以下模型:1) w/o_G:將本文模型中的GIPM用一個(gè)卷積降維操作取代;2) w/o_S:從本文模型中去掉SFRM模型。
采用Sm、avgFβ和EMA指標(biāo)定量分析模塊性能,如表3所示,可以看出,本文模塊GIPM和SFRM均能有效提升模型的檢測(cè)性能。
表3 不同模塊的性能比較
3.3.2 GIPM模塊有效性分析
本文設(shè)計(jì)了GIPM模塊提取圖像的全局特征,為了驗(yàn)證該模塊的有效性,本節(jié)進(jìn)行了全局特征提取模塊的消融實(shí)驗(yàn),用流行的全局特征提取模塊取代GIPM模塊,包括ASPP、PPM、Inception和RBF,實(shí)驗(yàn)結(jié)果如表4所示。
表4 GIPM與其他全局特征提取模塊的性能比較
可以看出采用GIPM的模型性能最佳,說(shuō)明本文所提的GIPM模型可以較好提取全局語(yǔ)義信息,精確定位顯著目標(biāo)所在區(qū)域。
本文提出一種基于特征感知和更新的顯著物體檢測(cè)模型,首先采用GIPM模型提取全局語(yǔ)義特征,充分挖掘全局特征的多尺度信息,同時(shí)直接融合全局語(yǔ)義信息和局部細(xì)節(jié)特征,根據(jù)顯著物體的大致定位進(jìn)行細(xì)節(jié)特征的進(jìn)一步學(xué)習(xí),并對(duì)融合后的特征進(jìn)行空間位置加權(quán)操作,以進(jìn)一步聚焦有用區(qū)域的局部細(xì)節(jié)學(xué)習(xí)。在ECSSD、DUT-OMRON、PASCAL和DUTS-TE這4個(gè)公開(kāi)的基準(zhǔn)數(shù)據(jù)集上進(jìn)行充分實(shí)驗(yàn)和比較,結(jié)果表明本文模型具有良好的檢測(cè)性能。本文所提網(wǎng)絡(luò)模型體積較小,可移植性較高。在今后的研究中,將考慮研究引入深度信息的基于RGB-D的顯著物體檢測(cè)模型,研究如何提取和融合RGB和depth特征,豐富圖像細(xì)節(jié)特征,以獲得更完整的顯著物體。