王 明,崔 冬,李 剛,*,顧廣華
(1.燕山大學(xué) 信息科學(xué)與工程學(xué)院,河北 秦皇島 066004;2.河北省信息傳輸與信號(hào)處理重點(diǎn)實(shí)驗(yàn)室,河北 秦皇島 066004)
圖像顯著性檢測(cè)就是將視覺系統(tǒng)中人眼感興趣的區(qū)域準(zhǔn)確地提取出來。近年來,隨著計(jì)算機(jī)視覺領(lǐng)域的發(fā)展,顯著性檢測(cè)也得到了廣泛的研究。顯著性檢測(cè)方法主要分為兩種類型:自下而上的顯著性檢測(cè)和自上而下的顯著性檢測(cè)。前者由目標(biāo)驅(qū)動(dòng),需要具體的先驗(yàn)知識(shí)。后者需要數(shù)據(jù)驅(qū)動(dòng),不需要任何先驗(yàn)知識(shí)。
早期的顯著性檢測(cè)研究大多通過生物啟發(fā)模型來解決。Itti等[1]提出一種基于生物學(xué)啟發(fā)的視覺模型的中心——周圍環(huán)繞算子,來進(jìn)行顯著性檢測(cè)。Zhai等[2]使用全局對(duì)比度來優(yōu)化局部對(duì)比度中顯著性區(qū)域不連續(xù)的問題,通過計(jì)算整個(gè)圖像的全局對(duì)比度得到圖像的顯著性值。Li等[3]利用多尺度全卷積網(wǎng)絡(luò)模型將高級(jí)語義信息和超像素特征結(jié)合起來,并用全連接條件隨機(jī)場(chǎng)CRF[4]進(jìn)行優(yōu)化。Goferman等[5]根據(jù)局部對(duì)比度的不同并結(jié)合上下文區(qū)域的聯(lián)系,得到最后的顯著圖。這些利用局部對(duì)比度的方法,一般會(huì)使圖像邊緣產(chǎn)生極大的顯著值,而不能凸出顯著的目標(biāo)。Cheng等[6-7]提出了基于區(qū)域?qū)Ρ榷鹊娘@著性檢測(cè)算法,利用全局和局部對(duì)比度差異,結(jié)合圖像上下文的特征對(duì)比,能夠較完整地檢測(cè)出顯著目標(biāo),但計(jì)算效率較低。Yang等[8]根據(jù)流形排序方法計(jì)算圖像邊界和其他區(qū)域的相關(guān)性,由距離的遠(yuǎn)近判斷相關(guān)性的大小得到每個(gè)區(qū)域的顯著值。Li等[9]提出了一種基于標(biāo)簽傳播(Label Propagation,LP)的顯著性檢測(cè)方法,這種方法能準(zhǔn)確檢測(cè)出前景區(qū)域,并在圖片細(xì)節(jié)部分得到有效的保留,但是在復(fù)雜背景下,會(huì)影響到顯著區(qū)域的檢測(cè)。Liu等[10]提出在條件隨機(jī)場(chǎng)框架中學(xué)習(xí)顯著特征的線性融合權(quán)重。Wang等[11-12]提出了一種判別區(qū)域特征整合(Discriminative Regional Feature Integration,DRFI)方法,能自動(dòng)整合高維區(qū)域顯著特征并選擇判別模型。這種方法可以有效地檢測(cè)出圖像的顯著區(qū)域,并在復(fù)雜場(chǎng)景下有著良好的效果,但是存在較大的背景噪聲。為了解決這一問題,本文采用一種指數(shù)融合函數(shù)[13],將判別區(qū)域特征圖和標(biāo)簽傳播顯著圖融合得到最終融合顯著圖。本文方法不僅抑制了背景噪聲,還保留了圖片細(xì)節(jié)信息,使得復(fù)雜場(chǎng)景下的顯著圖檢測(cè)更加準(zhǔn)確。
本文算法框圖如圖1所示。首先對(duì)圖像進(jìn)行預(yù)處理,利用簡(jiǎn)單線性迭代聚類算法(Simple Linear Iterative Clustering,SLIC)[14]對(duì)圖片進(jìn)行超像素分割,分割成N個(gè)區(qū)域,將分割的超像素塊稱為節(jié)點(diǎn)或區(qū)域;然后利用超像素的平均顏色特征計(jì)算相似度得到相似度矩陣,提取一部分邊界超像素定義為背景標(biāo)簽,利用已得到的相似度矩陣和標(biāo)記的背景區(qū)域通過標(biāo)簽傳播方法檢測(cè)未標(biāo)記區(qū)域的顯著性,得到標(biāo)簽傳播顯著圖。同時(shí),提取超像素的背景區(qū)域特征,通過隨機(jī)森林進(jìn)行訓(xùn)練得到回歸模型,將特征映射為顯著值,得到判別區(qū)域特征顯著圖。最后,通過指數(shù)函數(shù)將二者融合得到融合顯著圖。
圖1 顯著性目標(biāo)檢測(cè)算法框圖
Fig.1 Salient object detection framework
(1)
圖像背景的識(shí)別取決于整個(gè)圖像的上下文,具有相似外觀的圖像區(qū)域可能屬于一張圖片的背景卻屬于另外圖片的前景區(qū)域,所以,提取偽背景區(qū)域并計(jì)算每個(gè)區(qū)域的背景描述符。偽背景區(qū)域Q定義為圖像的寬度為15像素的窄邊界區(qū)域。
(2)
除了區(qū)域?qū)Ρ戎?,還考慮了區(qū)域的通用屬性,區(qū)域背景先驗(yàn)描述器表示一個(gè)混合特征集,包括外觀和幾何特征。這兩個(gè)特征是獨(dú)立于每個(gè)區(qū)域提取的,如圖像標(biāo)注中的特征提取算法[15]。外觀特征描述區(qū)域中顏色和紋理的分布,可以表征顯著對(duì)象和背景的共同屬性。最后,獲得一個(gè)包括顏色、紋理、形狀等35維的區(qū)域?qū)傩悦枋龇?/p>
將圖像I的多層分割結(jié)果L=(L1,L2,…,LM)與相應(yīng)的真值圖進(jìn)行匹配,得到超像素對(duì)應(yīng)的標(biāo)簽,通過隨機(jī)森林對(duì)圖像特征向量與標(biāo)簽進(jìn)行訓(xùn)練,得到回歸模型a=f(X),從而將特征向量映射為顯著值a。對(duì)于每個(gè)級(jí)別的顯著圖,將超像素區(qū)域的顯著性值分配給其包含的像素,生成M級(jí)顯著圖(SA1,SA2,…,SAM),然后將它們?nèi)诤显谝黄鸬玫阶罱K的顯著圖SA=g(SA1,SA2,…,SAM),其中g(shù)(·)是一個(gè)線性組合器,如式(3)所示:
(3)
ηm表示權(quán)重,通過最小二乘估計(jì)學(xué)習(xí)權(quán)重,使損失函數(shù)最小化。
通過任意兩個(gè)超像素節(jié)點(diǎn)平均特征值的距離來定義兩個(gè)超像素節(jié)點(diǎn)的相似性,相似度wij定義為
(4)
其中,i,j為兩個(gè)超像素的序號(hào),B為邊界節(jié)點(diǎn)集合,bi和bj分別表示兩個(gè)超像素的平均特征向量,ε為權(quán)值參數(shù),Γ(i)表示超像素i的相鄰區(qū)域的集合。
F=D-1·W,
(5)
得到相似度矩陣F之后,利用背景邊界標(biāo)簽估計(jì)其他超像素區(qū)域的顯著性值。給定一個(gè)數(shù)據(jù)集R={r1,…,rl,rl+1,…,rN}∈RΛ×N,前l(fā)個(gè)數(shù)據(jù)已經(jīng)被標(biāo)記,Λ是數(shù)據(jù)的特征維度,定義一個(gè)函數(shù)V=[Vr1,Vr2,…,VrN]T,使得V:R→[0,1]∈RN×1,相似度V(ri)滿足:
(6)
其中,F(xiàn)ij是相似度矩陣F中的元素,t是遞歸步數(shù),t初始值設(shè)為0。每一個(gè)超像素區(qū)域的顯著值SB(ri)定義為
(7)
Alexe等[16]提出了一種類物體性(objectness)的概念,它是一種基于底層先驗(yàn)計(jì)算給定圖像窗口的類物體性得分的方法,表示的含義是窗口中包含目標(biāo)的可能性。這里使用多尺度顯著性,顏色對(duì)比度,邊緣密度作為先驗(yàn)。設(shè)Pu為第u個(gè)矩形框包含目標(biāo)的概率值,像素p包含目標(biāo)的概率值O(p)定義為
(8)
(9)
其中,ni表示超像素ri中包含的像素個(gè)數(shù),超像素區(qū)域顯著值SO(ri)定義為
(10)
最后,為了消除SLIC算法的分割誤差,將像素級(jí)顯著性Sp定義為其周圍超像素區(qū)域顯著性SB(ri)和SC(ri)的加權(quán)線性組合:
k2‖zp-zi‖)]SB/C(ri)
(11)
SC(ri)=αSB(ri)+βSO(ri),
(12)
其中,cp、ci、zp、zi是像素p和i的顏色和坐標(biāo)向量,G表示超像素區(qū)域ri的直接鄰居的數(shù)量,k1和k2是控制顏色和位置的參數(shù),α和β分別為SB(ri)和SC(ri)的權(quán)重參數(shù)。
由上面模塊可獲得兩個(gè)先驗(yàn)顯著圖:其中判別區(qū)域特征顯著圖可以更好地突出目標(biāo),同時(shí)會(huì)存在一些背景噪聲;標(biāo)簽傳播顯著圖可以更好地抑制背景噪聲。二者能夠互為補(bǔ)充,本文采用一種指數(shù)融合方法,融合兩張先驗(yàn)顯著圖得到最終顯著圖
S=SA{1-exp(-λSp)}
(13)
其中,SA為判別區(qū)域特征顯著圖,Sp為標(biāo)簽傳播顯著圖,λ為權(quán)值系數(shù),將其設(shè)置為6。從圖2中可以看出,融合后的顯著圖不僅準(zhǔn)確地檢測(cè)出了突出的顯著目標(biāo),而且有效地抑制了背景噪聲。
圖2 融合顯著圖與初始顯著圖的對(duì)比
Fig.2 Contrast between the fusion saliency map and the initial saliency map
本文在兩個(gè)公開數(shù)據(jù)集MSRA-1000和DUT-OMRON上進(jìn)行了實(shí)驗(yàn)。MSRA-1000數(shù)據(jù)集包含1 000張圖片,圖片目標(biāo)相對(duì)簡(jiǎn)單,目標(biāo)較為單一。DUT-OMRON數(shù)據(jù)集包含5 166張圖片,圖片數(shù)量較多,背景更加復(fù)雜,具有一定難度。兩個(gè)數(shù)據(jù)庫都具有相應(yīng)人工標(biāo)注的真值圖。
為了更好評(píng)估算法的優(yōu)越性,本文利用準(zhǔn)確率、召回率和F-measure柱狀圖來衡量檢測(cè)效果。首先采用固定閾值分割的方法計(jì)算準(zhǔn)確率-召回率(P-R)曲線圖,將待檢測(cè)的顯著圖量化至[0,255],設(shè)定閾值對(duì)顯著圖進(jìn)行二值化,將二值化的結(jié)果同真值圖進(jìn)行對(duì)比,得到待測(cè)圖像的準(zhǔn)確率和召回率,根據(jù)這些結(jié)果,畫出P-R曲線圖。另外,通過自適應(yīng)閾值進(jìn)一步評(píng)測(cè)顯著結(jié)果,將閾值設(shè)為顯著圖像素均值的二倍。經(jīng)過二值分割后,將得到所有圖片的平均準(zhǔn)確率和召回率,F(xiàn)-measure值計(jì)算式為
(14)
式中,P為準(zhǔn)確率,R為召回率,根據(jù)實(shí)驗(yàn)經(jīng)驗(yàn),本文設(shè)μ2=0.3。
為了驗(yàn)證本文方法的有效性和可靠性,本文方法與其他6種顯著性算法進(jìn)行比較,分別是LPS算法[9]、DRFI算法[11]、BFS算法[13]、BM算法[17]、SF算法[18]、GR算法[19]。比較結(jié)果如圖3所示。
圖3 MSRA-1000中7種算法的顯著圖對(duì)比
Fig.3 Comparison of seven algorithm saliency maps in MSRA-1000
圖3為7種算法在MSRA-1000數(shù)據(jù)庫中部分圖片顯著圖,MSRA-1000數(shù)據(jù)庫目標(biāo)較為單一,對(duì)于顯著性檢測(cè)相對(duì)簡(jiǎn)單。從對(duì)比圖中可以看出SF方法和BFS方法沒有完整有效地突出顯著目標(biāo),效果比較模糊。GR方法和LPS方法可以清楚地看出顯著目標(biāo),但是輪廓不夠清晰。BM方法和DRFI方法能夠突出顯著目標(biāo),但背景噪聲較大。本文方法能將顯著目標(biāo)很好凸顯出來,并有效抑制了背景區(qū)域。
圖4為7種算法在DUT-OMRON數(shù)據(jù)庫中部分圖片顯著圖,DUT-OMRON數(shù)據(jù)庫具有更大的挑戰(zhàn)性。從圖4可以看出,SF方法、GR方法、BFS方法和LPS方法的顯著區(qū)域凸出不明顯,檢測(cè)結(jié)果較為模糊,BM方法和DRFI方法存在較大的背景噪聲,本文方法的檢測(cè)結(jié)果更加準(zhǔn)確,也說明了本文方法在復(fù)雜背景下有著良好的效果。
圖5是7種算法在MSRA-1000數(shù)據(jù)庫上的準(zhǔn)確率-召回率曲線圖。由圖5可知,BM算法、SF算法、LPS算法和BFS算法的準(zhǔn)確率和召回率偏低,因?yàn)镾F算法和LPS算法檢測(cè)到的顯著區(qū)域不明顯,顯著目標(biāo)不夠突出。BM算法和BFS算法雖然能檢測(cè)出顯著區(qū)域,但是包含了大量的背景噪聲。DRFI算法的P-R曲線較高,顯著目標(biāo)突出,但是有較大的背景干擾。本文算法顯著目標(biāo)突出,背景干擾較小,從圖5中可以看出,本文算法效果要優(yōu)于其他算法。
圖4 DUT-OMRON中7種算法顯著圖對(duì)比
Fig.4 Comparison of seven algorithm saliency maps in DUT-OMRON
圖5 7種算法在MSRA-1000數(shù)據(jù)庫上的P-R曲線圖
Fig.5 P-R Curves of the seven algorithms on the MSRA-1000 database
圖6展示了7種算法的準(zhǔn)確率、召回率和F-measure值。從圖6中可以看出結(jié)果較好的是GR算法,LPS算法,DRFI算法和本文算法。本文算法準(zhǔn)確率、召回率及F-measure值均優(yōu)于LPS算法;GR算法準(zhǔn)確率與本文算法持平,但其召回率與F-measure值低于本文算法;雖然DRFI算法召回率高于本文算法,但其準(zhǔn)確率與F-measure值低于本文算法。本文算法的準(zhǔn)確率為0.928 4,召回率為0.893 6,F(xiàn)-measure值為0.920 1,由圖6中可以看出本文算法的F-measure值要優(yōu)于其他6種算法,充分體現(xiàn)了本文算法的有效性。
圖7是7種算法在DUT-OMRON數(shù)據(jù)庫上的準(zhǔn)確率-召回率曲線圖。與MSRA-1000數(shù)據(jù)庫相比,DUT-OMRON數(shù)據(jù)庫的圖片更加復(fù)雜,并且數(shù)量更多。從圖7可以看出,當(dāng)召回率低于0.9時(shí),本文的準(zhǔn)確率要高于其他算法,當(dāng)召回率高于0.9時(shí),本文算法準(zhǔn)確率低于DRFI算法。
圖6 7種算法在MSRA-1000數(shù)據(jù)庫上的性能對(duì)比
Fig.6 Performance comparison of the seven algorithms on MSRA-1000 database
圖8是7種算法在DUT-OMRON數(shù)據(jù)庫上的準(zhǔn)確率、召回率和F-measure值。圖8中本文算法的F-measure值是最高的,達(dá)到了0.622 6,F(xiàn)-measure值有較大優(yōu)勢(shì)。本文算法的準(zhǔn)確率僅低于GR算法,高于其他5種算法。本文算法召回率低于DRFI算法,但是高于其他5種算法。雖然本文算法的準(zhǔn)確率與召回率都不是最好的,但是F-measure值最高,整體上說明了本文算法的有效性。
圖7 7種算法在DUT-OMRON數(shù)據(jù)庫上的P-R曲線圖
Fig.7 P-R curves of the seven algorithms on the DUT-OMRON database
圖8 7種算法在DUT-OMRON數(shù)據(jù)庫上的性能對(duì)比
Fig.8 Performance comparison of the seven algorithms on DUT-OMRON database
本文提出了一種融合判別區(qū)域特征和標(biāo)簽傳播的顯著性目標(biāo)檢測(cè)方法,判別區(qū)域特征充分考慮了區(qū)域之間的對(duì)比度、背景和特征屬性,而標(biāo)簽傳播則傾向于鄰居之間的傳播和優(yōu)化,本文結(jié)合了區(qū)域?qū)Ρ群蜆?biāo)簽傳播的優(yōu)勢(shì),融合二者得到最終顯著圖。實(shí)驗(yàn)結(jié)果表明,本文算法與其他方法相比,既有效的抑制了背景,又突出了顯著區(qū)域,整體性能優(yōu)于其他顯著性目標(biāo)算法。