東野長(zhǎng)磊 萬(wàn)文鑫
摘 要:為了解決計(jì)算機(jī)視覺(jué)模擬人眼的視覺(jué)機(jī)制,顯著性目標(biāo)檢測(cè)DSS( Deeply Supervised Salient)在某個(gè)場(chǎng)景中人眼首先觀察到的目標(biāo)?;诰矸e神經(jīng)網(wǎng)絡(luò)和圖像前背景分離算法,通過(guò)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練得到顯著性的粗粒度圖,然后將得到的粗粒度圖通過(guò)圖像前背景分離得到顯著性的細(xì)粒度圖,即最終的顯著性目標(biāo)圖?;诰矸e神經(jīng)網(wǎng)絡(luò)( Convolutional neural network)和圖像前背景分離(image matting)方法進(jìn)行實(shí)驗(yàn),結(jié)果表明,在廣泛測(cè)試的顯著性目標(biāo)數(shù)據(jù)集上得到的測(cè)試結(jié)果F值與MAE分別是0.96和0.03,說(shuō)明基于卷積神經(jīng)網(wǎng)絡(luò)和圖像前背景分離的顯著性目標(biāo)檢測(cè)方法能夠有效檢測(cè)圖像中顯著性目標(biāo),在準(zhǔn)確率和細(xì)節(jié)方面效果很好。
關(guān)鍵詞:顯著性目標(biāo)檢測(cè);計(jì)算機(jī)視覺(jué);卷積神經(jīng)網(wǎng)絡(luò);圖像前背景分離
DOI: 10. 11907/rjdk.192566
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類號(hào):TP317.4
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1672-7800(2020)001-0271-04
O 引言
顯著性檢測(cè)的目標(biāo)是識(shí)別圖像中視覺(jué)上最顯著的目標(biāo)或者區(qū)域,然后將它們從背景中分割出來(lái)。與語(yǔ)義分割等其它類分割任務(wù)不同,顯著性目標(biāo)檢測(cè)更關(guān)注的是少數(shù)有趣、有吸引力的對(duì)象,所以顯著性檢測(cè)通常作為各種計(jì)算機(jī)視覺(jué)應(yīng)用程序的第一步,例如圖像分割[1-2]、目標(biāo)識(shí)別[3-4]、弱監(jiān)督分割[5-6]、視覺(jué)跟蹤[7-8]和動(dòng)作識(shí)別[9-10]等。
早期的顯著性目標(biāo)檢測(cè)方法主要受人眼視覺(jué)注意模型[11]認(rèn)知研究的啟發(fā),其中對(duì)比度在顯著性檢測(cè)中起著重要作用?;谶@一啟發(fā),手工設(shè)計(jì)特征的顯著性計(jì)算算法取得很大進(jìn)展,這些算法主要利用圖像的全局對(duì)比度或局部對(duì)比度。然而,由于這些傳統(tǒng)算法的特性是基于先驗(yàn)知識(shí),因此它們不能在全部場(chǎng)景下使用。盡管嘗試不同的算法來(lái)結(jié)合這些特性,但是得到的顯著性圖仍不能讓人滿意,特別是在各種復(fù)雜場(chǎng)景情況下。
與使用手工特征的傳統(tǒng)方法相比,卷積神經(jīng)網(wǎng)絡(luò)成功突破了傳統(tǒng)目標(biāo)檢測(cè)局限,性能有了很大提高。
He等[12]利用層次對(duì)比特征提出了一種超像素卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)。對(duì)于每個(gè)超像素尺度,使用兩個(gè)對(duì)比度序列輸入到卷積網(wǎng)絡(luò)中以構(gòu)建更高級(jí)的特征,最后學(xué)習(xí)不同的權(quán)重將多尺度顯著性圖融合在一起,得到最終的顯著性圖;Li等[13]提出利用深度卷積神經(jīng)網(wǎng)絡(luò)的多尺度特征提取顯著性圖,通過(guò)將不同層次的圖像拼接輸入到網(wǎng)絡(luò)中,聚合得到多個(gè)特征,然后使用一組全連接層判斷每個(gè)分割區(qū)域是否為顯著性目標(biāo)區(qū)域;Wang等[14]將局部估計(jì)和全局搜索相結(jié)合,預(yù)測(cè)顯著性映射。神經(jīng)網(wǎng)絡(luò)首先用于學(xué)習(xí)局部特性,為每個(gè)像素提供一個(gè)顯著值。然后將局部顯著性映射、全局對(duì)比度和幾何信息融合在一起作為輸入,輸入到另一個(gè)神經(jīng)網(wǎng)絡(luò)中,以預(yù)測(cè)每個(gè)區(qū)域的顯著性得分;Zhao等[15]提出一個(gè)用于顯著目標(biāo)檢測(cè)的神經(jīng)網(wǎng)絡(luò)框架,設(shè)計(jì)兩個(gè)不同的神經(jīng)網(wǎng)絡(luò)分別獲取全局信息和上下文信息,最后通過(guò)一個(gè)回歸量來(lái)確定最終顯著性目標(biāo);Lee等[16]考慮從神經(jīng)網(wǎng)絡(luò)中提取高級(jí)特征和低級(jí)特征,利用全連接層將不同的特征結(jié)合起來(lái)估計(jì)每個(gè)區(qū)域的顯著性;Liu等[17]設(shè)計(jì)了一個(gè)兩階段的神經(jīng)網(wǎng)絡(luò),首先生成一個(gè)粗粒度顯著性圖,然后生成一個(gè)遞歸神經(jīng)網(wǎng)絡(luò),分層漸進(jìn)地細(xì)化粗粒度顯著性圖的細(xì)節(jié)。
以上方法存在顯著性目標(biāo)邊界丟失、邊緣細(xì)節(jié)模糊的問(wèn)題,本文通過(guò)前背景分離方法,改進(jìn)了顯著性目標(biāo)邊界不明確的問(wèn)題。
1 研究基礎(chǔ)
本文主要基于卷積神經(jīng)網(wǎng)絡(luò)的顯著性目標(biāo)檢測(cè)和圖像前背景分離方法,實(shí)現(xiàn)對(duì)顯著性目標(biāo)的檢測(cè),改善了顯著性目標(biāo)的邊緣細(xì)節(jié)丟失,以及邊緣細(xì)節(jié)模糊的問(wèn)題。
1.1 顯著性目標(biāo)檢測(cè)模型
一個(gè)好的顯著性目標(biāo)檢測(cè)網(wǎng)絡(luò)應(yīng)該足夠深,這樣才能學(xué)習(xí)到多層次特征。此外,它應(yīng)該有多個(gè)跳躍結(jié)構(gòu),以便能夠從不同尺度學(xué)習(xí)更多的內(nèi)在特征。DSS的神經(jīng)網(wǎng)絡(luò)模型[18]使用VCGnet作為預(yù)訓(xùn)練模型,如圖1所示。在每個(gè)階段最后的卷積層添加了側(cè)輸出層(見(jiàn)表1)以及多個(gè)短連接結(jié)構(gòu)(見(jiàn)圖2)來(lái)學(xué)習(xí)不同尺度特征。表1中,(n,kxk)中的n和k分別表示通道數(shù)和卷積核大小,Layer表示側(cè)輸出連接在哪一層,1,2,3表示每個(gè)側(cè)輸出有3個(gè)層,前兩層為卷積層,最后一層為RELU層。通過(guò)融合不同尺度的特征得到最終的顯著性圖。
1.2 圖像前背景分離
圖像前背景分離[19]即從圖像中提取前景對(duì)象,求解式(1)中圖像前景F和背景B的最佳線性組合。
I= aF+(1- a)B
(1)
其中ac∈[0,1],定義了每個(gè)像素的不透明度。將輸入的圖像分為3個(gè)不重疊的部分:①已知的前景區(qū)域;②已知的背景區(qū)域;③未知區(qū)域。首先擴(kuò)展圖像的已知區(qū)域部分,檢測(cè)未知區(qū)域中的像素屬于前景區(qū)域還是背景區(qū)域,然后將剩余的未知區(qū)域中的像素匹配樣本對(duì)確定最終的a值以分離圖像的前背景。通過(guò)圖像前背景分離算法得到的前背景目標(biāo)可以很好地保留邊緣細(xì)節(jié)信息。
2 本文方法
基于卷積神經(jīng)網(wǎng)絡(luò)的顯著性目標(biāo)檢測(cè)模型和圖像的前背景分離相結(jié)合,既可以得到圖像顯著性區(qū)域的明確位置,又可以豐富顯著性目標(biāo)的邊緣信息。
2.1 基于DSS的顯著性檢測(cè)模型改進(jìn)
DSS的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)從功能上分為兩個(gè)階段:①顯著性定位階段;②細(xì)節(jié)細(xì)化階段。顯著性定位階段主要是定位圖像中最顯著的區(qū)域。對(duì)于細(xì)節(jié)細(xì)化階段,DSS引入了自頂向下的方法,即從較深的側(cè)輸出層到較淺的層之間的一系列短連接。之所以這樣考慮,是因?yàn)樵谳^深的側(cè)輸出層幫助下,較低的側(cè)輸出層既可以準(zhǔn)確預(yù)測(cè)顯著性目標(biāo),又可以從較深的側(cè)輸出層中豐富細(xì)節(jié),從而得到具有邊緣豐富細(xì)節(jié)的顯著性圖。DSS網(wǎng)絡(luò)結(jié)構(gòu)中通過(guò)多個(gè)短連接將各個(gè)階段的側(cè)輸出結(jié)合起來(lái),得到效果更好的顯著性圖,見(jiàn)圖3。
DSS網(wǎng)絡(luò)結(jié)構(gòu)采用了許多方法來(lái)提升最后短連接的性能。隨著短連接數(shù)量的增加,最終顯著性圖的效果得到了提升,但是最終得到的顯著性圖仍然存在邊緣細(xì)節(jié)丟失的問(wèn)題。相對(duì)于使用多個(gè)短連接來(lái)學(xué)習(xí)不同層次的內(nèi)部特征以豐富最終的顯著性圖,本文只保留部分短連接以確保較深層側(cè)輸出能夠正確找到顯著性目標(biāo)位置,通過(guò)更加簡(jiǎn)單的方法豐富顯著性圖的細(xì)節(jié)特征。本文融合各個(gè)側(cè)輸出層結(jié)果作為粗粒度顯著圖,如圖4所示。
本文將所有網(wǎng)絡(luò)的參數(shù)集合用W表示。假設(shè)該卷積神經(jīng)網(wǎng)絡(luò)共有M個(gè)邊輸出,每個(gè)邊輸出的權(quán)重表示為w:(w(1),w(2)…w(M)),邊輸出的損失和融合輸出的損失分別如式(2)、式(3)所示。
(3)雖然采樣過(guò)程考慮了局部像素之間的相似性,但是還會(huì)產(chǎn)生目標(biāo)邊界不連續(xù)的情況,因此通過(guò)高斯濾波確保邊界的平滑性。
該算法通過(guò)對(duì)顯著性目標(biāo)邊緣未知部分的像素進(jìn)行計(jì)算,排除未知區(qū)域像素,將未知區(qū)域像素明確地分為顯著性區(qū)域和非顯著性區(qū)域兩部分,細(xì)化粗粒度的顯著性圖,得到具有豐富邊緣細(xì)節(jié)的最終顯著性圖。
3 實(shí)驗(yàn)結(jié)果與分析
將本文算法與傳統(tǒng)方法、基于卷積神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行比較。使用的數(shù)據(jù)集為ECSSD、MSRA-IOK( MSRA-B和MSRAlOK數(shù)據(jù)集有很大的重疊,所以使用較大的數(shù)據(jù)集)和PASCALS三個(gè)數(shù)據(jù)集。將數(shù)據(jù)集分為訓(xùn)練集、測(cè)試集和驗(yàn)證集3部分,其比例為6:1:3,測(cè)試集中的數(shù)據(jù)和訓(xùn)練集不重合,所有用于測(cè)試的數(shù)據(jù)并沒(méi)有經(jīng)過(guò)訓(xùn)練。
3.1 實(shí)驗(yàn)設(shè)置
測(cè)試實(shí)驗(yàn)在Windowsl0的系統(tǒng)平臺(tái)下進(jìn)行,計(jì)算機(jī)配置為CPU, Inter Core i7-7700HQ@2.80G Hz, GPU為NVID-IA CTX 1050ti,初始學(xué)習(xí)率為0.000 1。為了客觀評(píng)價(jià)算法的有效性,本文采用兩個(gè)常用的顯著性目標(biāo)檢測(cè)指標(biāo)進(jìn)行衡量:F值( F-measure)和平均絕對(duì)誤差(MAE),公式分別如式(5)和式(6)所示,其中在計(jì)算F值時(shí),控制參數(shù)β2取默認(rèn)值0.3。
3.2 主觀對(duì)比
第1和第3幅圖像來(lái)自PASCALS數(shù)據(jù)集,第2和第6幅圖像來(lái)自ECSSD數(shù)據(jù)集,第4和第5幅圖像來(lái)自MS-RA-10K數(shù)據(jù)集。
實(shí)驗(yàn)結(jié)果如圖5所示。
通過(guò)與GroudTruth圖像對(duì)比可發(fā)現(xiàn),本文所提算法在邊緣提取細(xì)節(jié)上優(yōu)于傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。
分別用兩項(xiàng)測(cè)試指標(biāo)繪制直線圖以更直觀地感受不同算法的性能指標(biāo)。從不同數(shù)據(jù)集中隨機(jī)選取圖像進(jìn)行比較,見(jiàn)圖6、圖7。從結(jié)果可以看出,本文算法相對(duì)于其它算法結(jié)果更好,性能更優(yōu)。
4 結(jié)語(yǔ)
本文提出的基于CNN和圖像前后背景分離的顯著性目標(biāo)檢測(cè)方法,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)定位圖像中顯著性目標(biāo)區(qū)域,得到粗粒度的顯著性圖,采用圖像前背景分離算法對(duì)粗粒度顯著性圖進(jìn)行邊緣細(xì)化,相比于通過(guò)增加神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)細(xì)化顯著性圖,既減少了神經(jīng)網(wǎng)絡(luò)的復(fù)雜度,又得到了性能更加優(yōu)異的顯著性圖。但在對(duì)粗粒度顯著性圖的邊緣細(xì)化階段還存在邊緣細(xì)節(jié)丟失情況,今后將繼續(xù)優(yōu)化顯著性目標(biāo)的邊緣細(xì)化效果。
參考文獻(xiàn):
[1]侯春萍,楊陽(yáng),徐金辰,等.一種基于圖像分割的自然場(chǎng)景文本位置檢測(cè)方法:CN110059539A[P].2019-02-27.
[2] 鄺輝宇,吳俊君.基于深度學(xué)習(xí)的圖像語(yǔ)義分割技術(shù)研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(19):12-21,42.
[3] 于坤林基于計(jì)算機(jī)視覺(jué)的無(wú)人機(jī)目標(biāo)識(shí)別技術(shù)研究[J].長(zhǎng)沙航空職業(yè)技術(shù)學(xué)院學(xué)報(bào),2018,18( 4):47-50.
[4]劉硯菊,李云功,宋建輝,等,基于邊界標(biāo)記的形狀上下文目標(biāo)識(shí)別算法[J].沈陽(yáng)理工大學(xué)學(xué)報(bào),2018.37(6):49-55.
[5]WEI Y, LIANC X, CHEN Y, et al. STC:a simple to complex frame-work for weakly-supervised semantic segmentation[J].IEEE transac-tions on pattern analvsis and machine intelligence, 2016, 39( 11):2314-2320.
[6] 熊昌鎮(zhèn),智慧.多模型集成的弱監(jiān)督語(yǔ)義分割算法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2019, 31(5):800-807.
[7]王天琪,賀乃寶,高倩,等.一種用于跟蹤不連續(xù)運(yùn)動(dòng)目標(biāo)的視覺(jué)伺服方案[J].人工智能與機(jī)器人研究,2019.8(3):118-125.
[8] 陳思萌,鄧雨.基于粒子濾波的視覺(jué)目標(biāo)跟蹤算法[J].計(jì)算機(jī)科學(xué)與應(yīng)用,2018. 8(5):619-626.
[9]ABDULMUNEM A, LAI Y-K, SUN X.Saliency guided local and glob-al descriptors for effective action recognition[J]. Computational Visu-al Media. 2016.2(1):97-106.
[10] 張輝.高強(qiáng)度運(yùn)動(dòng)下的人體動(dòng)作圖像識(shí)別方法研究[J].計(jì)算機(jī)仿真,2019. 36(9):469-472.
[11]ITTI L,KOCH C.Computational modelling of visual attention [J].Nature reviews neuroscience, 2001.2(3):194-220.
[12] HE S,LAU R W, LIU W, et al. Supercnn:a superpixelwise convo-lutional neural network for salient object detection [J]. Internationaljournal of computer vision, 2015,1 15(3):330-344.
[13]11 G,YU Y.Visual saliency based on multiscale deep features[C].Proceedings of the IEEE conference on computer vision and patternrecognition, 2015: 5455-5463.
[14]WANG L,LU H. RLrAN X, et al. Deep networks for saliencv detec-tion via local estimation and global search [C]. Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition,2015:3183-3192.
[15] ZHAO R. OUYANG W,LI H,et al. Saliencv detection bv multi-con-text deep learning[C].Proceedings of the IEEE Conference on Com-puter Vision and Pattern Recognition, 2015: 1265-1274
[16]LEE G,TAI Y W, KIM J.Deep saliency with encoded low level dis-tance map and high level features[C].Proceedings of the IEEE Con-ference on Computer Vision and Pattern Recognition, 2016: 660-668.
[17]LIU N, HAN J.Dhsnet: deep hierarchical saliencv network for sa-lient object detection [C]. Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition, 2016: 678-686.
[18]HOU Q,CHENGMM,HU X, et al. Deeply supervised salient objectdetection with short connections[C].Proceedings of the IEEE Confer-ence on Computer Vision and Pattern Recognition, 2017: 3203-3212
[19]GASTAL E S,OLIVEIRA M M. Shared sampling for real-time alphamatting[C].Computer Graphics Forum, 2010: 575-584.
[20]WANC J, JIANC H, YUAN Z,et al. Salient object detection:a dis-criminative regional feature integration approach [J]. InternationalJournal of Computer Vision. 2017. 123(2):251-268.
[21]11 X, ZHAO L, WEI L,et al. Deepsaliencv: multi-task deep neu-ral network model for salient object detection [J]. IEEE Transactionson Image Processing, 2016, 25(8):3919-3930
[22]LIU N,HAN J,YANC M H. Picanet: learning pixel-wise contextualattention for saliency detection[C].Proceedings of the IEEE Confer-ence on Computer Vision and Pattern Recognition, 201 8: 3089-3098
(責(zé)任編輯:杜能鋼)
作者簡(jiǎn)介:東野長(zhǎng)磊(1979-),男,博士,山東科技大學(xué)計(jì)算機(jī)學(xué)院講師、碩士生導(dǎo)師,研究方向?yàn)獒t(yī)學(xué)圖像分割;萬(wàn)文鑫(1995-),男,山東科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院碩士研究生,研究方向?yàn)閳D像顯著性檢測(cè)。本文通訊作者:東野長(zhǎng)磊。