成培瑞,王建立,王 斌,李正煒,吳元昊
(1.中國科學(xué)院 長春光學(xué)精密機(jī)械與物理研究所,吉林 長春 130033;
2.中國科學(xué)院大學(xué),北京 100049)
?
基于多尺度區(qū)域?qū)Ρ鹊娘@著目標(biāo)識別
成培瑞1,2,王建立1*,王斌1,李正煒1,吳元昊1
(1.中國科學(xué)院 長春光學(xué)精密機(jī)械與物理研究所,吉林 長春 130033;
2.中國科學(xué)院大學(xué),北京 100049)
摘要:為了對圖像中的顯著目標(biāo)進(jìn)行更精確的識別,提出一種新的基于多尺度區(qū)域?qū)Ρ鹊囊曈X顯著性計算模型。首先基于多尺度思想將圖像分別分割為不同數(shù)目的超像素,對超像素內(nèi)的像素顏色值取平均以生成抽象化圖像;然后根據(jù)顯著特征的稀少性及顯著特征的聚集性,計算單一尺度下超像素顏色特征的顯著性值;最后通過取各尺度超像素顯著度的平均值來融合多尺度顯著圖,得到最終的視覺顯著圖。實驗表明,以MSRA圖庫中的1 000張隨機(jī)自然圖片為例,該模型較現(xiàn)有較好的區(qū)域?qū)Ρ饶P?,顯著目標(biāo)識別的精確率提高了14.8%,F(xiàn)-Measure值提高了9.2%。與現(xiàn)有的算法相比,該模型提高了算法對顯著目標(biāo)大小的適應(yīng)性,減少了背景對顯著目標(biāo)識別的干擾,具有更好的一致性,能更好地識別顯著目標(biāo)。
關(guān)鍵詞:顯著目標(biāo)識別;視覺顯著性計算模型;多尺度
Salient object detection based on multi-scale region contrast
1引言
顯著目標(biāo)識別是視覺顯著性的一個重要應(yīng)用。視覺顯著性反映了場景中的目標(biāo)對人類視覺注意力的吸引能力。通過建立視覺顯著性計算模型可以對這種能力進(jìn)行量化估計,并用灰度圖像表示出來。視覺顯著性廣泛應(yīng)用于視覺計算的各種領(lǐng)域,包括顯著目標(biāo)識別[1-3]、視頻分析[4]、遙感圖像處理[5-6]、圖像壓縮[7]等。
1998年,Itti等人[8]提出了基于顏色、方向、亮度特征的多尺度側(cè)抑制計算模型,成為了視覺顯著性計算模型的通用結(jié)構(gòu)。之后的許多模型均基于這個框架結(jié)構(gòu)建立,如Harel等人[9]提出的基于馬爾科夫隨機(jī)鏈的計算模型等。上述模型都是基于局部對比的計算模型,能有效地檢測出目標(biāo)像素與周圍像素的特征差異大小,使得在邊緣附近的像素顯著性較大。但算法僅考慮了局部對比,未考慮全局的結(jié)構(gòu)、布局等因素,容易檢測到局部顯著區(qū)域,而不能描述完整的顯著目標(biāo)。由于基于局部對比模型的局限性,基于全局對比的計算模型被提出來,主要包括Hou等人[10]提出的光譜殘差模型和R.achanta等人[11]提出的頻率域調(diào)制模型?;谌謱Ρ鹊乃惴▍?shù)少且計算簡單,充分考慮了全局的布局等因素,但由于算法缺乏局部對比機(jī)制,導(dǎo)致得到的顯著性目標(biāo)表示的一致性較差。本文綜合考慮了局部對比與全局對比兩方面因素,采用以空間距離為權(quán)值的顏色距離來表示顯著性,并利用圖像中顏色的分布性來以全局的角度定義目標(biāo)整體,解決了片面考慮所帶來的問題。
對人類視覺系統(tǒng)的研究表明,人眼會自動地將屬性相似且距離相近的像素點看做一個整體進(jìn)行處理。因此,近些年視覺顯著性計算模型的研究越來越偏向區(qū)域化,如Bruce等人[12]提出的基于區(qū)域自信息量的計算模型等。這些模型能均勻地突出物體而非突出邊緣,且能保持物體輪廓及邊緣特性,所以得到的顯著性目標(biāo)表示的一致性較好。尤其Cheng等人[13]提出了基于區(qū)域?qū)Ρ鹊挠嬎隳P蚏C(Region Contrast),是目前較好的區(qū)域?qū)Ρ饶P?,其采用GB(Graph-Based)分割算法將圖像分割成多個區(qū)域,并對每塊區(qū)域內(nèi)的像素顏色進(jìn)行直方圖統(tǒng)計,以空間距離為權(quán)值計算直方圖間的不相似性。該模型以直方圖對比計算顯著性,有效地降低了計算量,且采用空間距離作權(quán)值,結(jié)合了局部對比與全局對比的因素,提高了識別精確率,但由于該模型采用的分割算法分割出的區(qū)域較大,涉及到空間距離的表達(dá)會不精確,從而影響識別的精確率。因此本文采用SLIC(Simple Linear Iterative Clustering)算法[14]將圖像抽象為多個超像素,每個超像素大小相似且適中,并且基于多尺度的思想,選擇分割成不同的超像素個數(shù),以實現(xiàn)多尺度分析的目的,從而更好地處理不同大小的顯著目標(biāo)的情況。實驗證明,本文提出的顯著性計算模型相較于現(xiàn)有的一些模型,提高了顯著目標(biāo)識別的精確率,為進(jìn)一步的目標(biāo)分析提供了良好的基礎(chǔ)。
2算法描述
本文采用SLIC算法抽象化圖像,通過把具有相似顏色且距離相近的像素聚類,形成視覺上均勻的區(qū)域,生成超像素。SLIC算法利用K-means聚類在Lab顏色空間上分割圖像,生成緊湊且邊界清晰的超像素。設(shè)定抽象化圖像分為3個尺度,所包含的超像素個數(shù)為Nk={100,400,1000},如圖1所示,并定義第k個尺度中的第i個超像素在Lab顏色空間上的顏色為Cik,空間位置為Pik,其中超像素的顏色由其內(nèi)部所有像素的顏色平均值表示,空間位置取超像素的中心來表示。
圖1 不同尺度下的抽象化圖像Fig.1 Multi-scales abstract images
根據(jù)context-aware[15]提出的準(zhǔn)則:(1)具有不同顏色的區(qū)域?qū)?yīng)顯著性值高,均勻的區(qū)域顯著性值低;(2)經(jīng)常出現(xiàn)的特征應(yīng)當(dāng)被抑制;(3)顯著的像素應(yīng)當(dāng)聚集在一塊,而不是遍布整幅圖像。本文計算單一尺度下的超像素顯著性值,下面以圖2為例,取Nk=400,圖2為一張測試圖的原圖。
圖2 原圖Fig.2 Origin image
首先,由準(zhǔn)則(2)可以看出,當(dāng)某個超像素與其他的超像素的顏色差異較大時,則該超像素的稀少性高。由準(zhǔn)則(1)可以看出,空間距離也能影響超像素顏色特征的稀少性,超像素之間的空間距離越近,則其顏色差異對稀少性的影響越大。反之,當(dāng)超像素之間的空間距離較大時,即使其顏色差異較大,對稀少性的影響也不大。
基于上述分析,本文采用以超像素間空間距離作為權(quán)值的加權(quán)顏色距離之和來表示超像素的稀少性。定義dcolor(i,j)為第i個超像素與第j個超像素在Lab顏色空間上的歐式距離,并對其歸一化。dposition(i,j)為兩個超像素的空間位置的歐式距離,并對其歸一化。定義
(1)
圖3 R值對應(yīng)的顯著圖Fig.3 Saliency map with value R
上述是通過準(zhǔn)則(1)、(2)的特征性質(zhì)推出的一種稀少性計算方法,而由準(zhǔn)則(3)可以看出,當(dāng)某種顏色遍布在整幅圖像時,則表現(xiàn)為該顏色的超像素空間分散性較高,而當(dāng)某種顏色的超像素都聚集在某個區(qū)域,在圖像的其他區(qū)域基本沒有時,則這些超像素的空間分散性較低。
基于上述分析,本文選擇超像素與其他的與其顏色相近的超像素的空間距離之和來表示空間分散性。首先要選出與第i個超像素顏色相近的超像素,采用高斯低通濾波,定義
(2)
(3)
當(dāng)超像素間顏色相近時,H(i,j)近似為1,即由超像素間的空間距離來表示空間分散性,而當(dāng)超像素間的顏色距離較大時,H(i,j)近似為0,其空間距離對超像素的空間分散性基本沒有影響。由式(3)可以看出,Dik越大,則表明第i個超像素所具有的顏色在整幅圖像中分布越廣泛,空間分散性越高,如圖4所示。
在分別計算得到每個尺度下的Rik與Dik的值后,定義Sik表示第k個尺度下第i個超像素的顯著性,如圖5所示。
圖5 融合后的顯著圖Fig.5 Fused saliency map
根據(jù)上述分析,Sik應(yīng)與Rik成正比,而與Dik成反比,且若某個超像素的Dik值較大時,即該超像素的顏色在整幅圖像中分布廣泛,則即使它在局部較為顯著,在整幅圖像上看,也是不具備高顯著性的,故定義
(4)
式中,σk為第k個尺度下的參數(shù),不同尺度下σk也不同。當(dāng)Nk取400時,超像素面積都比較小,即超像素內(nèi)包含的像素數(shù)較少,其平均顏色與其內(nèi)各個像素的顏色差異較小,故超像素的Dik值能較好地反映出像素顏色的分布廣泛性,故σk取值偏小。而當(dāng)Nk取100時,超像素面積較大,即超像素內(nèi)包含的像素數(shù)較多,則其平均顏色與其內(nèi)各個像素的顏色差異較大,計算出的Dik值不能有效地反映實際像素顏色的分布情況,故σk取值應(yīng)偏大。經(jīng)過實驗,本文分別在Nk取100、400、1 000時,σk分別取0.5、0.2、0.1。
在單獨計算出每個尺度的所有Sik值后,將每個尺度的顯著值均歸一化到[0,255],并將其以灰度圖形式表達(dá),如圖3所示。圖6中(a)、(b)和(c)分別對應(yīng)圖1(a)在Nk={100,400,1 000}時的顯著圖。
圖6 各尺度下的顯著圖及最終顯著圖Fig.6 Saliency maps of variety scale and final saliency map
在求得各尺度的顯著圖后,需將各尺度顯著圖融合以得到最終的顯著圖。由于要識別的顯著目標(biāo)大小未知,在沒有先驗知識的情況下并不能確定哪一個尺度下的顯著值能更好地識別顯著目標(biāo),故本文選擇求取各尺度顯著值的平均值作為最終顯著值。
首先分別將各尺度的顯著值Sik分配到超像素內(nèi)的各個像素,并歸一化到[0,1],然后3個尺度下對應(yīng)像素的顯著值相加求平均值,最后將求得的最終顯著值重新歸一化到[0,255],并以灰度圖像表示,如圖6(d)所示。
3實驗分析
本文在MSRA公開圖像庫中隨機(jī)選取1 000張自然圖片及其人工標(biāo)注圖作為圖像測試集。
圖7 6種算法的顯著圖及人工標(biāo)注圖1Fig.7 Saliency maps obtained by using six different algorithms and human annotated image 1
圖8 6種算法的顯著圖及人工標(biāo)注圖2Fig.8 Saliency maps obtained by using six different algorithms and human annotated image 2
圖9 6種算法的顯著圖及人工標(biāo)注圖3Fig.9 Saliency maps obtained by using six different algorithms and human annotated image 3
圖10 6種算法的顯著圖及人工標(biāo)注圖4Fig.10 Saliency maps obtained by using six different algorithms and human annotated image 4
圖11 6種算法的顯著圖及人工標(biāo)注圖5Fig.11 Saliency maps obtained by using six different algorithms and human annotated image 5
為了評價本文提出的顯著目標(biāo)識別的優(yōu)劣,比較Itti[4]算法(用IT標(biāo)識)、Harel[5]算法(用GB標(biāo)識)、Context-aware[11]算法(用CA標(biāo)識)、頻域調(diào)制算法[7](用FT標(biāo)識)、區(qū)域?qū)Ρ人惴╗9](用RC標(biāo)識)與本文算法,用這些算法對圖像測試集內(nèi)的圖像進(jìn)行處理,得到顯著圖,如圖7至圖11所示。由圖7至圖11可以看出,本文算法較其它5種算法在顯著目標(biāo)識別上表現(xiàn)更加優(yōu)異。IT算法僅能標(biāo)識出顯著目標(biāo)的位置,且經(jīng)常會標(biāo)識出無意義的背景區(qū)域,甚至檢測不到顯著目標(biāo),如圖7所示。GB算法能標(biāo)識出顯著目標(biāo)的位置,但僅標(biāo)識顯著目標(biāo)的邊緣,難以通過GB算法的顯著圖得到顯著目標(biāo)的整體信息。CA算法較GB算法有了明顯提高,但依然僅突出顯著目標(biāo)的邊緣,整體信息較少,且容易受背景干擾目標(biāo)的影響,如圖9所示。FT算法能完整的標(biāo)識出顯著目標(biāo)的整體信息,但對于背景的干擾不能有效排除,如圖8所示。RC算法能突出顯著目標(biāo),但易將背景中的干擾目標(biāo)標(biāo)識為顯著目標(biāo),如圖10所示。本文算法相較于其他算法表現(xiàn)更好,能完整地標(biāo)識出顯著目標(biāo),且能有效排除背景的干擾,如圖11所示。
F-Measure是分類算法中常用的算法評價方法之一,在很多視覺顯著性研究工作中作為評價模型的目標(biāo)檢測準(zhǔn)確率的方法之一。
F-Measure是精確率P(Precision Ratio)和召回率R(Recall Ratio)的調(diào)和平均數(shù),其計算過程如下:
(5)
(6)
(7)
式中,α是一個實數(shù)參數(shù),其越大,表明精確率相對于召回率在評價體系中越重要;True positive表示模型檢測到的真目標(biāo)數(shù);false positive表示模型檢測到的假目標(biāo)數(shù);false negative表示模型未檢測到的真目標(biāo)數(shù)。精確率表明該模型進(jìn)行顯著目標(biāo)識別的準(zhǔn)確性,而召回率則表明該模型進(jìn)行顯著目標(biāo)識別的全面性。
通過對圖像測試集進(jìn)行處理計算,并與人工標(biāo)注圖對比,得到各類算法的平均精確率P和召回率R,并根據(jù)式(5)計算F-Measure值。精確率和召回率以及F-Measure值常用來作為目標(biāo)識別效果的測量。本文取α=0.3,得到最后的結(jié)果,如表1所示。
表1 6種算法的平均精確率、召回率及F-Measure值
由表1可以看出,IT算法的精確率、召回率及F-Measure值均遠(yuǎn)小于其他幾個算法。GB、CA、FT算法的結(jié)果較為接近,但精確率僅有50%左右。RC算法的精確率、召回率及F-Measure值明顯提高。本文算法精確率相較于RC算法提高了14.8%,召回率相較于RC算法降低了8.0%,總的來說,F(xiàn)-Measure值較RC算法提高了9.2%。分析召回率較低的原因:由圖7至圖11可以看出,在本文算法的顯著圖上,顯著目標(biāo)上的細(xì)節(jié)也有所體現(xiàn),而給定的人工標(biāo)注圖只標(biāo)注出顯著目標(biāo)的整體,對目標(biāo)上的細(xì)節(jié)并沒有任何標(biāo)注,導(dǎo)致本文算法標(biāo)識出的顯著目標(biāo)上的細(xì)節(jié)反而降低了算法的召回率,而RC算法對細(xì)節(jié)并沒有很多體現(xiàn),故其查全率會較高。如圖11所示,警示牌上的字和符號在本文算法的顯著圖上有所體現(xiàn),RC算法的顯著圖中細(xì)節(jié)體現(xiàn)較少,而人工標(biāo)注圖上并沒有任何體現(xiàn)。
通過上述主觀評價和客觀實驗可以看出,本文算法在處理視覺場景時,相較于其他算法有更好的效果。
由于IT算法是基于局部對比的計算模型,所以其不能排除背景中局部顯著目標(biāo)的干擾,在顯著圖中一些背景區(qū)域被標(biāo)記為顯著區(qū)域,在處理雜亂的背景時,背景中的紋理或邊緣在局部對比中甚至?xí)蕊@著目標(biāo)更加顯著,所以其準(zhǔn)確率較低。GB和CA算法同樣是基于局部對比的改進(jìn)模型,所以其僅能突出顯著目標(biāo)的邊緣,不能完整地表達(dá)顯著目標(biāo),故其查準(zhǔn)率和查全率并不能達(dá)到要求。FT算法是基于全局對比的計算模型,其能完整地表達(dá)顯著目標(biāo),但由于缺乏局部對比,其并不能有效地排除背景的干擾,故其查準(zhǔn)率和查全率與GB、CA算法相近。RC算法是基于FT算法提出的改進(jìn)模型,同時考慮了全局對比和局部對比,故其既能完整地表達(dá)顯著目標(biāo),又相對能排除復(fù)雜背景的干擾,所以其查準(zhǔn)率和查全率相較于前幾個算法有明顯提高。但RC算法僅用稀少性作為顯著性的判別依據(jù),且其采用的圖像分割的區(qū)域面積較大,并不適用于顯著目標(biāo)較小時的顯著目標(biāo)檢測。本文算法在RC算法的基礎(chǔ)上,采用超像素分割方法作為改進(jìn), 并融合多尺度對比,通過融合超像素顏色特征的稀少性與空間分散性來計算顯著值, 使本文算法更廣泛地適用于各種場景下的顯著目標(biāo)識別,故本文算法的顯著圖更接近于人工標(biāo)注圖,精確率及F-Measure值較RC算法也更高。
4結(jié)論
本文提出一種基于多尺度區(qū)域?qū)Ρ鹊娘@著目標(biāo)識別計算模型。本模型采用多尺度超像素抽象化圖像,在單一尺度下以超像素為單位通過融合其稀少性及空間分散性進(jìn)行顯著性計算,最后融合多尺度顯著圖得到最終的視覺顯著圖。通過與其他幾個計算模型的對比,可以看出本文的模型能夠更加準(zhǔn)確地標(biāo)識出顯著目標(biāo),且包含更多的目標(biāo)信息,得到的顯著圖在視覺上有更好的顯示效果。其精確率較RC算法提高了14.8%,F(xiàn)-Measure值提高了9.2%。下一步會嘗試降低算法復(fù)雜度,提高算法的實時性。
參考文獻(xiàn):
[1]敖歡歡,俞能海,李衛(wèi)海.基于區(qū)域特征的圖像顯著性建模[J].中國科學(xué)技術(shù)大學(xué)學(xué)報,2013,43(10):837-842.
AO H H,YU N H,LI W H. A saliency model based on region features[J].J.UniversityofScienceandTechnologyofChina,2013,43(10): 837-842.(in Chinese)
[2]CHEN D,WU C. Object-based multi-feature competitive model for visual saliency detection[C]. Proceedings of the 2nd Internation Conference on Intelligent Systems Design and Engineering Applications. Chinese Association for Artificial Intelligent,Sanya,2012:1079-1082.
[3]邵楓,姜求平,蔣剛毅,等.基于顯著性分析的立體圖像視覺舒適度預(yù)測[J].光學(xué) 精密工程,2014,22(6):1631-1638.
SHAO F,JIANG Q P,JIANG G Y,etal.. Prediction of visual discomfort of stereoscopic images based on saliency analysis[J].Opt.PrecisionEng.,2014,22(6):1631-1638.(in Chinese)
[4]趙宏偉,陳霄,劉萍萍,等.視覺顯著目標(biāo)的自適應(yīng)分割[J].光學(xué) 精密工程,2013,21(2):531-548.
ZHAO H W,CHEN X,LIU P P,etal.. Adaptive segmentation for visual salient object[J].Opt.PrecisionEng.,2013,21(2):531-548.(in Chinese)
[5]曾文靜,萬磊,張鐵棟,等.復(fù)雜海空背景下弱小目標(biāo)的快速自動檢測[J].光學(xué) 精密工程,2012,20(2):196-205.
ZHEN W J,WAN L,ZHANG T D,etal.. Fast detection of weak targets in complex sea-sky background[J].Opt.PrecisionEng.,2012,20(2):196-205.(in Chinese)
[6]賈松敏,徐濤,董政胤,等.采用脈沖耦合神經(jīng)網(wǎng)絡(luò)的改進(jìn)顯著性區(qū)域提取方法[J].光學(xué) 精密工程,2015,23(3):819-826.
JIA S M,XU T,DONG ZH Y,etal.. Improved salience region extraction algorithm with PCNN[J].Opt.PrecisionEng.,2015,23(3):819-826.(in Chinese)
[7]王源源,黃大慶.無人機(jī)偵察圖像壓縮[J].光學(xué) 精密工程,2014,22(5):1363-1370.
WANG Y Y,HUANG D Q. Compression for UAV reconnaissance images[J].Opt.PrecisionEng.,2014,22(5):1363-1370.(in Chinese)
[8]ITTI L,KOCH C,NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J].IEEETransactiononPatternAnalysisandMachineIntelligence,1998,20(11):1254-1259.
[9]HAREL J,KOCH C,PERONA P. Graph-based visual saliency[C]. Proceedings of Neural Information Processing Systems. Vancouver BC:Neural Information Processing System Foundation Press,2007:545-552.
[10]HOU X,ZHANG L. Saliency detection: a spectral residual approach[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society Press,2007:1-8.
[11]ACHANTA R,HEMAMI S,ESTRADA F,etal.. Frequency-tuned salient region detection[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society Press,2009:1597-1604.
[12]BRUCE N,TSOTSOS J K. Saliency based on information maximization[C]. Proceedings of In Advances in Neural Information Processing Systems. Vancouver BC: Neural Information Processing System Foundation Press,2006:155-162.
[13]CHENG M,MITRA N,HUANG X,etal.. Global Contrast Based Salient Region Detection[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2015,37(3):569-582.
[14]ACHANTA R,SHAJI A,SMITH K,etal.. SLIC superpixels compared to state-of-the-art superpixel method[J].J.LatexClassFiles,2012,6(1):1-8.
[15]GOFERMAN S,ZELNIK-MANOR L,TAL A. Context-aware saliency detection[J].IEEETransactiononPatternAnalysisandMachineIntelligence,2012,34(10):1915-1926.
成培瑞(1990—),男,山東東營人,碩士研究生,主要從事計算機(jī)視覺方面的研究。E-mail:cpr@mail.ustc.edu.cn
王建立(1971—),男,山東曲阜人,研究員,博士生導(dǎo)師,主要從事地基大型光電設(shè)備總體技術(shù)方面的研究。E-mail:wangjianli@ciomp.ac.cn
CHENG Pei-rui1,2, WANG Jian-li1*, WANG Bin1, LI Zheng-wei1, WU Yuan-hao1
(1.ChangchunInstituteofOptics,FineMechanicsandPhysics,
ChineseAcademyofSciences,Changchun130033,China;
2.UniversityofChineseAcademyofSciences,Beijing100049,China)
*Correspondingauthor,E-mail:wangjianli@ciomp.ac.cn
Abstract:A novel visual saliency computing model is proposed based on multi-scale region contrast to perform more accurate detection on salient object. Firstly, the image is divided into different number of super-pixels based on multi-scale method, and the values of pixels in every super-pixel are averaged to create abstract image. Secondly, based on scarcity and aggregation, both of which are the characters of saliency, the color's saliency of super-pixel is computed in single scale. By averaging the salient images in every scale, the multi-scale salient images are fused and the final visual salient image is obtained in the end. The simulation result shows that with 1 000 random nature images in the MSRA Libraries, the model improves the precision ratio of salient object detection by 14.8% and F-Measure value by 9.2%, compared with current well-performed region contrast model. The model improves the adaptability of the size of salient objects, and reduces the disturbance of background. It performs better consistency and has better ability to recognize salient object in comparison with current algorithms.
Key words:salient object detection;visual saliency computing model;multi-scale
作者簡介:
中圖分類號:TP391.41
文獻(xiàn)標(biāo)識碼:A
doi:10.3788/CO.20160901.0097