趙永彬 李巍 剛毅凝 王鷗 郝躍冬 劉銘堅(jiān)
摘 ? 要:顯著性目標(biāo)檢測成為計(jì)算機(jī)視覺領(lǐng)域中的研究熱點(diǎn)問題之一,但目前的方法在面對前景和背景對比度不強(qiáng)及復(fù)雜背景的圖像時(shí),較難取得好的檢測效果。融合多尺度超像素分割方法,提出一種在背景信息相對復(fù)雜的場景中基于Faster R-CNN的顯著性目標(biāo)檢測方法。首先對圖像進(jìn)行多尺度超像素分割,同時(shí)利用Faster R-CNN對圖像進(jìn)行目標(biāo)檢測,根據(jù)似物性特點(diǎn)對超像素進(jìn)行顯著性篩選,得到初始目標(biāo)位置特征后進(jìn)行顯著性檢測及優(yōu)化,最后使用元胞自動機(jī)方法對多尺度超像素顯著性圖進(jìn)行融合。通過在特定類數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),與已有典型顯著性檢測進(jìn)行對比分析,驗(yàn)證了本文方法在背景復(fù)雜的圖像中可提升顯著性目標(biāo)檢測的精度。
關(guān)鍵詞:視覺顯著性;目標(biāo)檢測;元胞自動機(jī);超像素分割
中圖分類號:TP393 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A
Salient Object Detection Based on Faster R-CNN
ZHAO Yong-bin1,LI Wei1,GANG Yi-ning1,WANG Ou1,HAO Yue-dong2,LIU Ming-jian3?覮
(1.State Grid Liaoning Electric Power Supply Co.,LTD,Shenyang,Liaoning 110004,China;
2. Nari Group Corporation(State Grid Electric Power Research Institute),Nanjng,Jiangsu 211100,China;
3.College of Computer Science and Technology,Nanjing University of Aeronautics
and Astronautics,Nanjing,Jiangsu 211106,China)
Abstract: Saliency detection becomes an important topic in computer vision. However,most of existing approaches often ?fail when the contrast between foreground and background is similar or in complex background. We propose a salient object detection based on Faster R-CNN. It extracts the salient object in the background with relatively complex information by combining multi-scale superpixel segmentation. Firstly,we segment the input image using multi-scale superpixel segmentation and detect the object by Faster R-CNN. Secondly,according to the objectness of the object,the salient superpixels are selected and obtain the original position of the object,and the salient map is highlighted and optimized. Lastly,we use Multi-layer Cellular Automata(MCA) to fuse the multi-scale superpixel salient maps and gain the final salient maps. We evaluate the proposed approach on specific dataset and compare with the state-of-art method,which prove our approach can improve the salient object detection accuracy with the complex background and clutter scene.
Key words: visual saliency;object detection;cellular Automata;superpixel segmentation
顯著性檢測的目的是識別圖像中最吸引人注意的區(qū)域,近些年成為計(jì)算機(jī)視覺領(lǐng)域中非常具有代表的問題。隨著信息化技術(shù)的快速發(fā)展,我們沉浸在大量的數(shù)字媒體數(shù)據(jù)當(dāng)中。如何利用有限的時(shí)間和精力從大量的數(shù)據(jù)中篩選出有用的信息具有重要的研究意義。在圖像檢索[1]、圖像分割[2]、圖像分類[3]和目標(biāo)識別[4]等領(lǐng)域應(yīng)用廣泛。
截止目前,已有大量的顯著性檢測方法被提出,并取得顯著效果。顯著性檢測主要可以分為自底向上和自頂向下這兩種模型,前者主要基于一些圖像的底層特征(如顏色、亮度、方向等)和先驗(yàn)信息(如緊湊度、唯一性、背景等),而后者主要通過對圖像中有代表性的特征進(jìn)行標(biāo)注、訓(xùn)練再檢測。自頂向下的顯著性對象檢測與對象檢測相關(guān),其目標(biāo)是自動定位指定類別的對象所在位置。
早期的方法都是屬于基于圖像屬性對比度特征的顯著檢測,大多算法依賴于圖像的屬性特征,如Itti等[5]使用中心-周邊算子,在高斯金字塔結(jié)構(gòu)中計(jì)算各尺度的底層特征以實(shí)現(xiàn)跨尺度對比計(jì)算顯著性。受這些思想的啟發(fā),人們提出了大量的延伸算法。Achanta[6]提出了基于頻域的顯著性區(qū)域檢測方法;Cheng[7]提出基于全局對比度的計(jì)算顯著性區(qū)域的方法;Goferman[8]提出的上下文認(rèn)知算法,引入上下文認(rèn)知思想,融合不同尺度下的局部特征圖,生成顯著圖。Liu[9]提出學(xué)習(xí)條件隨機(jī)場模型,利用模型將從局部、區(qū)域和全局3 個(gè)層面獲取的特征映射圖進(jìn)行融合得到顯著圖;Achanta[10]將Itti等人的特征圖進(jìn)行歸一化來突出圖像的顯著部分。
近來一些新的方法開始使用圖像的邊界先驗(yàn)知識來引導(dǎo)顯著性檢測。Wei[11]假定圖像邊界接觸的圖像塊都是背景,Jiang[12]將與圖像邊界的對比度作為學(xué)習(xí)的特征;這些方法都是健壯的,因?yàn)樗鼈兠枋隽藞D像關(guān)于邊界的空間布局,這種特征對圖像有一個(gè)直觀的兒何描述,即使圖像內(nèi)容發(fā)生變化也有很好的穩(wěn)定性,這種獨(dú)特的優(yōu)勢是之前提出的算法中所沒有的,可以用來加強(qiáng)傳統(tǒng)對比度方法的計(jì)算。但是在面對復(fù)雜場景圖像時(shí)候,該方法往往會出現(xiàn)誤檢情況。
還有一類方法通過物體的似物性(Objectness)來提升顯著性檢測效果,通過“目標(biāo)在哪兒”、“背景在哪兒”的檢測框架,融合顏色區(qū)別性特征、邊界先驗(yàn)以及objectness特征。實(shí)現(xiàn)對比度特征與邊界先驗(yàn)知識的互相彌補(bǔ),同時(shí)使用objectness特征來保持檢測到的顯著區(qū)域的準(zhǔn)確性。
近些年,深度學(xué)習(xí)因其可對原始數(shù)據(jù)進(jìn)行更高層次、更抽象的表達(dá),而在各個(gè)領(lǐng)域引起了廣泛的應(yīng)用和成功[13]。深度學(xué)習(xí)的網(wǎng)絡(luò)模型主要包括卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和深度信念網(wǎng)絡(luò)(Deep Belief Network DBN)等。CNN方法比傳統(tǒng)算法具有更強(qiáng)的泛化能力。由于CNN僅適用于特征學(xué)習(xí),許多研究者再次基礎(chǔ)上進(jìn)一步改進(jìn),使深度學(xué)習(xí)用于目標(biāo)檢測。具有代表性的工作是2015年Girshick[14]等人提出的Fast RCNN,通過將候選區(qū)域映射到CNN的最后一層特征圖上,一張圖片只需要提取一次特征,大大提高了目標(biāo)檢測速度和精度;接著,Ren[15]進(jìn)一步提出了Faster-RCNN,通過區(qū)域生成網(wǎng)絡(luò)與Fast RCNN共享特征提取網(wǎng)絡(luò)以及位置精修的策略,進(jìn)一步提高了目標(biāo)檢測的效率和精度。
因此,針對上述問題,融合超像素分割方法,提出了一種基于Faster R-CNN的顯著性目標(biāo)檢測方法。首先對圖像進(jìn)行多尺度分割,利用Faster R-CNN產(chǎn)生的可能目標(biāo)去提取超像素中存在的對象來建立似物圖,然后利用前景連通將前景比重分配到超像素中,利用顯著性最優(yōu)化技術(shù)去結(jié)合我們的前景和背景比重來獲得圓滑和準(zhǔn)確的顯著圖,再利用多層元胞自動機(jī)進(jìn)行融合,獲得最終顯著圖。
1 ? 基于Faster R-CNN的顯著性目標(biāo)檢測
方法
1.1 ? 使用Faster R-CNN進(jìn)行目標(biāo)檢測
Faster R-CNN是一目標(biāo)檢測及分類的方法。通過對深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,使得該方法可以對特定類目標(biāo)進(jìn)行檢測以及分類,該方法的簡單網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域權(quán)威的數(shù)據(jù)集PASCAL VOC上準(zhǔn)確率為59.9%,而復(fù)雜網(wǎng)絡(luò)的準(zhǔn)確則為78.8%。本文利用訓(xùn)練好的Faster R-CNN來對輸入的圖像進(jìn)行目標(biāo)檢測,然后提取這個(gè)區(qū)域框進(jìn)行存儲,目標(biāo)檢測的結(jié)果如圖1所示,獲得可能性目標(biāo)的窗口和該窗口為目標(biāo)的可能性分?jǐn)?shù)。
1.2 ? 多尺度超像素分割
超像素是指具有相似紋理、顏色、亮度等特征的相鄰像素構(gòu)成的有一定視覺意義的不規(guī)則像素塊,可降低了圖像后處理的復(fù)雜度,所以通常作為分割算法的預(yù)處理步驟。常用的超像素生成算法有分水嶺和SLIC兩種分割算法。SLIC是基于顏色和距離相似性度量的一種梯度下降算法,具有思想簡潔,分割數(shù)量易于控制的特點(diǎn),能夠得到形狀較為規(guī)則大小相對均勻的分割結(jié)果。本文采取SLIC算法對輸入圖像進(jìn)行超像素分割,這是為了獲取形狀規(guī)則大小均勻的分割結(jié)果。本文根據(jù)經(jīng)驗(yàn)限制每個(gè)超像素中像素的個(gè)數(shù)從每個(gè)超像素單位包含100個(gè)像素,到500個(gè)像素之間,每個(gè)尺度按100個(gè)像素遞增。
假定有N個(gè)分割尺度,在當(dāng)前某一分割尺度下得到的超像素集用Supi = {Spki}Nki=1表示,其中,Nk表示在第k分割尺度下的超像素個(gè)數(shù)。Spki表示第k分割尺度下第i個(gè)超像素。
1.3 ? 顯著性計(jì)算
1.3.1 ? 計(jì)算目標(biāo)似物性
利用Faster R-CNN,通過對其進(jìn)行特定類目標(biāo)檢測訓(xùn)練,可以有效的將圖像中的特定類目標(biāo)檢測出來,再利用其特性將可能目標(biāo)提取出來。然后,開始生成似物圖。Faster R-CNN的檢測率很高,但在極端情況下會檢測不到特定類目標(biāo),若Faster R-CNN檢測不到目標(biāo)時(shí)則將整幅圖像作為目標(biāo)進(jìn)行處理。
目標(biāo)似物性分?jǐn)?shù)說明這個(gè)窗口含有目標(biāo)的可能性,利用可能目標(biāo)來獲得像素級的似物性分?jǐn)?shù),該分?jǐn)?shù)用來說明該像素為目標(biāo)其中一部分的可能性,像素級的似物性分?jǐn)?shù)定義為[20]:
pixObj(p) = ?Ni=1siGi(x,y) ? (1)
其中si為Faster R-CNN檢測出的目標(biāo)窗口i 中是否包含像素p,Gi為與窗口等維度的高斯濾波窗口,x,y是像素p在某個(gè)檢測窗口中的相對坐標(biāo),N為Faster R-CNN檢測出的可能目標(biāo)窗口的個(gè)數(shù)。
超像素區(qū)域中所有像素的似物性分?jǐn)?shù)的總和即為當(dāng)前超像素區(qū)域的似物性分?jǐn)?shù),定義為: