任艷楠 劉 琚,2 元 輝,2 顧凌晨
(1. 山東大學(xué)信息科學(xué)與工程學(xué)院,山東濟(jì)南 250100;2.山東大學(xué)蘇州研究院,江蘇蘇州 215021)
近年來,隨著三維視頻資源需求的快速增長(zhǎng),如何將已有的二維圖像重建為三維圖像顯得尤為重要[1,19-20]。重建三維圖像首先需要獲得場(chǎng)景的深度信息,因此,從二維圖像的結(jié)構(gòu)信息中推測(cè)出場(chǎng)景的深度信息是產(chǎn)生三維視頻的重要途徑。這些二維視頻普遍都沒有原始的深度數(shù)據(jù)或者三維信息。然而,人類視覺系統(tǒng)對(duì)于實(shí)際場(chǎng)景對(duì)象之間的距離遠(yuǎn)近具有相對(duì)性的認(rèn)知特點(diǎn),通過分析場(chǎng)景圖片中各個(gè)對(duì)象的特點(diǎn)并結(jié)合深度因素信息,然后分配合適的深度數(shù)據(jù)以獲得場(chǎng)景的深度圖。這些深度數(shù)據(jù)雖然不精確,但在二維轉(zhuǎn)換為三維視頻圖像時(shí),也可以有效呈現(xiàn)場(chǎng)景的三維效果。
當(dāng)圖像具有一定的深度線索時(shí),例如聚焦、去霧、線性透視和遮擋等,就可以從該圖像中估算出深度信息[2-5],但該研究只適應(yīng)于具有強(qiáng)烈深度因素的場(chǎng)景。有些深度估計(jì)算法先建立深度圖像和對(duì)應(yīng)彩色圖像的圖像庫(kù),然后利用建模優(yōu)化算法獲得深度圖[6,7,9],此類型算法有了更為靈活的應(yīng)用空間。近年來,采用深度學(xué)習(xí)的算法[8]也可以產(chǎn)生不同室外場(chǎng)景結(jié)構(gòu)的深度圖,但這些算法都需要有較大的計(jì)算量。
在常見的室外人工場(chǎng)景視圖中,由于建筑設(shè)計(jì)時(shí)所具有的幾何特性及拍攝角度限制,圖像中的某些對(duì)象區(qū)域保留了非常明顯的幾何特征,依據(jù)這些幾何特征,也可以估算出場(chǎng)景的深度信息。D.Hoiem[10]指出,在忽略場(chǎng)景的細(xì)節(jié)時(shí),圖像的整體會(huì)呈現(xiàn)出統(tǒng)一的幾何結(jié)構(gòu)。在文獻(xiàn)[11]中,作者將常見的視頻場(chǎng)景歸納為有限類型,并用一些典型的三維幾何結(jié)構(gòu)來代表一般場(chǎng)景。文獻(xiàn)[12]將室外三維場(chǎng)景結(jié)構(gòu)進(jìn)一步描述為幾何場(chǎng)景分類問題,將常見的幾何場(chǎng)景歸納為12類,并設(shè)定了每種類型的標(biāo)準(zhǔn)深度分布圖。進(jìn)一步,文獻(xiàn)[13]將這個(gè)標(biāo)準(zhǔn)深度分布圖作為初始深度圖,然后結(jié)合圖像分割術(shù)獲得了輸入圖像的深度圖。
大部分的室外場(chǎng)景包含天空、地面以及建筑物三個(gè)部分。從已經(jīng)獲得的深度圖來分析,天空區(qū)域距離最遠(yuǎn),其深度值可以視為一個(gè)恒定值;地面的深度則是由近及遠(yuǎn)變化;而對(duì)于垂直于地面的建筑物,它們的深度值可以通過參考建筑物與地面交點(diǎn)的深度值獲得。由于天空、地面、建筑物這三者具有完全不同的深度特征,所以可以將此類圖像分割為三個(gè)不同的區(qū)域,每個(gè)區(qū)域內(nèi)部的深度值變化規(guī)律保持一致。
由此,本文提出了一種基于幾何復(fù)雜度的圖像分割和深度生成算法。首先定義4種場(chǎng)景類型,通過分析圖像的幾何結(jié)構(gòu),即用圖像中主要線段的角度統(tǒng)計(jì)分布直方圖,來判斷輸入圖像的場(chǎng)景類型;然后依據(jù)場(chǎng)景類型,將輸入的單幅圖像分割成有限的幾個(gè)區(qū)域,進(jìn)而估計(jì)出場(chǎng)景的深度信息。
文獻(xiàn)[12]考慮到了人工建筑的幾何特性,忽略了場(chǎng)景中的人物等細(xì)節(jié)對(duì)象,提出了兩種深度輪廓模型,即橫坐標(biāo)深度輪廓建模(Abscissa Depth Profile Model, ADPM)和縱坐標(biāo)深度輪廓建模(Ordinate Depth Profile Model, ODPM),前者可以得到水平、左、右和中四種幾何結(jié)構(gòu),后者得到上、中、下三種結(jié)構(gòu)類型,綜合可以將場(chǎng)景幾何類型進(jìn)一步細(xì)分為了12種。本文著重于研究室外人工建筑物場(chǎng)景,采用了ADPM的四種結(jié)構(gòu)類型,如圖1所示。
在圖1中,前兩行是場(chǎng)景實(shí)例,包含了天空、地面和人工建筑物。在這四種幾何類型中,天空和地面區(qū)域深度特征一致,幾何特性也一樣,而建筑物的幾何特征有所區(qū)別。從圖中可以看到,(a)列的建筑物處于地面的遠(yuǎn)端,建筑物整體深度值恒定不變;(b)和(c)中的建筑物沿著地面向左或者向右延伸,此時(shí)建筑物整體的深度值跟隨著地面發(fā)生一致變化,(d)中建筑物的左右兩側(cè)分別沿著地面聚焦于中間區(qū)域,左右兩側(cè)的深度沿著地面向中間區(qū)域發(fā)生一致變化。由此可以看出,建筑物在場(chǎng)景中的幾何結(jié)構(gòu)特征決定了整個(gè)場(chǎng)景的幾何類型,因而在圖1的第三行的場(chǎng)景的幾何結(jié)構(gòu)圖中只顯示了建筑物的幾何特點(diǎn)。
一般來說,圖片中的人工建筑存在很多線段。眾多的線段會(huì)呈現(xiàn)出了不同的方向角度特點(diǎn)。因此,場(chǎng)景中主要線段的方向角度可以有效地體現(xiàn)出場(chǎng)景的幾何特性和深度特點(diǎn)。
(1)
由此,可以采用極坐標(biāo)的形式給出圖像中線段的角度統(tǒng)計(jì)分布,如圖2所示。其中,第一行的圖像分別對(duì)應(yīng)了四種不同類型的幾何場(chǎng)景,第二行是每幅圖像中的線段角度統(tǒng)計(jì)分布圖, 其中藍(lán)色線為角度統(tǒng)計(jì)分布。
圖1 常見場(chǎng)景幾何結(jié)構(gòu)Fig.1 Geometric structures of main outdoor scenes
圖2 角度統(tǒng)計(jì)分布圖Fig.2 Angle statistical distribution maps
從圖2可以看出,具有第一類型特點(diǎn)的場(chǎng)景,圖中提取的線段主要是水平線,角度主要分布趨近于0°和179°;具有第二類型特點(diǎn)的場(chǎng)景,圖中提取的線段角度集中在[90°, 179°];相應(yīng)地,具有第三類型特點(diǎn)的場(chǎng)景,線段的角度分布主要集中在[0°, 90°];具有第四類型特點(diǎn)的場(chǎng)景,其線段的角度分布在上述兩個(gè)區(qū)間都有。由此可以看到,四種不同的深度類型圖所具有的線段角度統(tǒng)計(jì)分布也是不一樣的,因此可以有效地表現(xiàn)出圖像的場(chǎng)景結(jié)構(gòu)。
在確定了輸入圖像的幾何類型后,我們提出基于幾何復(fù)雜度的圖像分割,即依據(jù)圖像的幾何類型將輸入圖像分割成天空、建筑物和地面三個(gè)區(qū)域,每個(gè)區(qū)域具有一致的深度分布;然后再將這個(gè)結(jié)果應(yīng)用于深度生成算法中,結(jié)合標(biāo)準(zhǔn)的場(chǎng)景深度圖,進(jìn)而獲得高質(zhì)量深度圖。
圖像分割技術(shù)指將目標(biāo)圖像分割成一些子區(qū)域的算法。起初,圖像分割方法通常將圖像分成許多小的區(qū)域,區(qū)域內(nèi)的像素點(diǎn)包含相似的顏色特征,而區(qū)域間存在較大的顏色差異,代表算法有meanshift聚類[15],分水嶺算法[16],水平集[17]等;后來借助于半監(jiān)督方法[18]或者建模識(shí)別算法,這些分割的小區(qū)域通過區(qū)域融合技術(shù),被進(jìn)一步有目地融合在一起,將輸入圖像分割成有限的幾個(gè)區(qū)域,每個(gè)區(qū)域代表了有實(shí)際意義的語(yǔ)義目標(biāo)對(duì)象;與[18]相似,本文在確定了輸入圖像的幾何類型后,將這些分割的小區(qū)域進(jìn)一步融合成三個(gè)大的區(qū)域,分別對(duì)應(yīng)天空、建筑物和地面三個(gè)部分,由此獲得基于幾何復(fù)雜度的圖像分割結(jié)果。具體的過程如圖3所示。
在應(yīng)用幾何復(fù)雜度的圖像分割時(shí),首先采用meanshift算法將輸入圖像分割成許多小區(qū)域,并將所有的區(qū)域組成的集合定義為Sr,其中的第n個(gè)區(qū)域表示為rn∈Sr,n≤N,而N是輸入圖像所包含的小區(qū)域的總數(shù)目。
利用前面場(chǎng)景分類算法的結(jié)果,采用Hough方法產(chǎn)生的有效線段和圖像中的先驗(yàn)知識(shí),我們可以獲得一些區(qū)域的初始標(biāo)記,即基于以下準(zhǔn)則獲得初始標(biāo)記圖。
圖3 系統(tǒng)流程圖Fig.3 Flowchart of the proposed system
1)由場(chǎng)景類型選取有效線段,將包含了該線段的區(qū)域被標(biāo)記為建筑物區(qū)域;當(dāng)圖像的場(chǎng)景結(jié)構(gòu)被判斷為類型1時(shí),則主要提取角度趨近于水平的線段;屬于類型2時(shí),則主要提取角度在[20°, 70°]的線段;屬于類型3時(shí),則主要提取角度在[120°, 160°]的線段;屬于類型4時(shí),提取角度在兩個(gè)區(qū)間的線段;一般來說,主要提取角度頻繁出現(xiàn)的線段;確定所需要的有效線段后,將線段端點(diǎn)所在的區(qū)域設(shè)定為“建筑物”;
2)依據(jù)以下先驗(yàn)知識(shí)來標(biāo)記出“天空”和“地面”區(qū)域,即圖像的上部一般都是天空,下部區(qū)域一般都是地面,所以設(shè)定圖像上部邊緣包含最多像點(diǎn)的區(qū)域標(biāo)記為“天空”,設(shè)定圖像下部邊緣包含最多像點(diǎn)的區(qū)域標(biāo)記為“地面”。
當(dāng)融合不同的區(qū)域時(shí),定義每個(gè)區(qū)域的RGB顏色空間的直方圖作為其特征向量。像點(diǎn)包含了RGB三個(gè)顏色分量,且其灰度值均在[0, 255]之間,將其統(tǒng)一量化為16個(gè)灰度等級(jí),然后再將三個(gè)顏色分量連接起來,則將此三個(gè)顏色值融合為一個(gè)值,其范圍則為0~4096,并將其視為該像點(diǎn)的像素值。此時(shí)再計(jì)算該區(qū)域的像點(diǎn)直方圖向量作為該區(qū)間的特征向量。
對(duì)于未標(biāo)定區(qū)域rj,其相鄰區(qū)域集定義為SNi。當(dāng)其中的某個(gè)鄰域滿足如下公式(2)時(shí),從SNi中得到與rj最為相似的rK,
(2)
其中ρ(rj,ri)為巴氏系數(shù)[21],vj和vi分別是rj和ri的特征向量,上標(biāo)m代表了該特征向量的第m個(gè)分量。巴氏系數(shù)定義度量不同區(qū)域之間的距離,該系數(shù)值越大,說明兩者越相似。
然后再將rj和rK融合成一個(gè)新區(qū)域,重新計(jì)算該區(qū)域的特征向量,設(shè)置該區(qū)域的標(biāo)記,并重新設(shè)置區(qū)域集以及區(qū)域的鄰域集,重復(fù)執(zhí)行該過程,一直到所有的區(qū)域被標(biāo)記完畢,由此獲得最后的標(biāo)記圖,結(jié)果如下圖4中所示。其中,第一行是四種類型的輸入圖像,第二行是它們所對(duì)應(yīng)的基于幾何復(fù)雜度的圖像分割結(jié)果,其中青綠色區(qū)域代表天空部分,黃色區(qū)域代表了圖像中的主要建筑物部分,而深藍(lán)色代表了地面區(qū)域。與輸入圖相比,基于幾何復(fù)雜度的分割算法將原圖像有效地分割為了三個(gè)區(qū)域,即天空、建筑物和地面。
在獲得了基于幾何復(fù)雜度的圖像分割結(jié)果后,根據(jù)每個(gè)區(qū)域的幾何特點(diǎn)來分配合適的深度值,進(jìn)而獲得體現(xiàn)整體幾何特點(diǎn)的深度圖,定義為Dg。同時(shí),考慮到圖像歸屬的幾何類型有著標(biāo)準(zhǔn)的場(chǎng)景深度圖,結(jié)合顏色分割結(jié)果,為每個(gè)小區(qū)域分配深度值,由此獲得體現(xiàn)細(xì)節(jié)的深度圖,定義為Dr,綜合兩者的結(jié)果生成最后的深度圖。
在輸入圖像被自動(dòng)分割成天空、建筑物和地面三個(gè)區(qū)域,每個(gè)區(qū)域具有一致的深度分布;此時(shí),設(shè)定標(biāo)記為天空區(qū)域的深度值為固定深度值;標(biāo)記地面區(qū)域,采取由近及遠(yuǎn)的原則設(shè)定深度;對(duì)于標(biāo)記為建筑物的區(qū)域,像點(diǎn)的深度值為在該像點(diǎn)具有同一列坐標(biāo)的距離該像點(diǎn)最近的標(biāo)記為地面的像點(diǎn)的深度值,由此獲得深度圖Dg。
在判斷出輸入圖像的幾何類型時(shí),我們引用了4種ADPM幾何場(chǎng)景,其標(biāo)準(zhǔn)化深度圖如下圖5所示。
假設(shè)輸入圖像I屬于場(chǎng)景類型c,c∈{1,2,3,4},則其對(duì)應(yīng)的標(biāo)準(zhǔn)深度圖為Dc,用meanshift算法將輸入圖像分割成的每個(gè)區(qū)域rn∈Sr中,任一個(gè)像點(diǎn)pk∈rn,k≤N(rn),其中N(rn)是rn中的像素?cái)?shù)目,則可根據(jù)公式(3)計(jì)算獲得rn中像素pk的深度值,也就是該區(qū)域中每個(gè)像素的深度值,由此可以得到保留細(xì)節(jié)的深度圖Dr;
(3)
綜合上述兩個(gè)深度圖Dr和Dg來獲得最后的深度圖D如下式(4)所示,并采用聯(lián)合濾波器平滑保留細(xì)節(jié)。
(4)
圖4 基于幾何復(fù)雜度的圖像分割Fig.4 Image segmentation based on geometric complex
圖5 標(biāo)準(zhǔn)深度圖Fig.5 Standard depth maps
圖6 基于幾何復(fù)雜度的圖像分割和深度生成Fig.6 Image segmentation and depth generation based on geometric complex
為說明提出算法的有效性,我們和算法[13]做了比較。兩種算法都是全自動(dòng)深度估計(jì)算法,圖6中顯示了比較結(jié)果。其中,(a)列是輸入圖像,(b)列是圖像分割結(jié)果,(c)列是依據(jù)算法[13]獲得的深度圖,(d)列是本算法獲得的深度圖。在(b)列的圖像分割結(jié)果中,青綠色區(qū)域代表天空部分,黃色區(qū)域代表了圖像中的主要建筑物部分,而深藍(lán)色代表了地面區(qū)域。從(c)列和(d)列可以看到,算法[13]考慮了12個(gè)場(chǎng)景分類,雖保留了建筑物等紋理對(duì)象的深度細(xì)節(jié),但當(dāng)該區(qū)域占有足夠大的圖像面積且位于深度一致變化區(qū)域,該假設(shè)會(huì)產(chǎn)生較大的誤差,且可能導(dǎo)致相鄰區(qū)域間的深度值變化不連續(xù)性,本算法保留深度圖足夠細(xì)節(jié),同時(shí)加強(qiáng)了圖像中相鄰區(qū)域的深度變化的連續(xù)性,獲得的深度圖質(zhì)量更高。
本文提出了一種應(yīng)用于室外場(chǎng)景的基于幾何復(fù)雜度的圖像分割和深度生成算法。文中關(guān)注的大部分室外場(chǎng)景主要包含天空、地面以及建筑物三個(gè)部分,具有各自不同的深度特點(diǎn)。首先,通過圖像中主要線段的角度統(tǒng)計(jì)分布將室外人工場(chǎng)景的幾何結(jié)構(gòu)規(guī)劃為四種類型;然后,利用meanshift分割算法將輸入圖像分割成許多小的區(qū)域,并依據(jù)場(chǎng)景幾何結(jié)構(gòu)類型將這些小的區(qū)域融合成為天空、人工建筑和地面三個(gè)大的區(qū)域,最后依據(jù)此分割結(jié)果得到圖像的幾何結(jié)構(gòu)深度圖。實(shí)驗(yàn)結(jié)果表明與已有算法相比,提出的方法簡(jiǎn)化了場(chǎng)景的分類過程;保留足夠細(xì)節(jié),同時(shí)加強(qiáng)了圖像中相鄰區(qū)域的深度變化的連續(xù)性,提高了深度圖的質(zhì)量。對(duì)于復(fù)雜的室外場(chǎng)景或者室內(nèi)場(chǎng)景,當(dāng)可以提取主要線段的角度統(tǒng)計(jì)分布實(shí)現(xiàn)幾何結(jié)構(gòu)規(guī)劃時(shí),亦可采用本算法實(shí)現(xiàn)相關(guān)場(chǎng)景的基于幾何復(fù)雜度的圖像分割并獲得有效的深度圖,否則無法適用于本算法。
[1] Fehn C. Depth-image-based rendering (DIBR), compression and transmission for a new approach on 3d-tv[J]. Proc. SPIE 5291,Stereoscopic Displays and Virtual Reality Systems XI. San Jose,CA,USA: SPIE,2004: 93-104.
[2] Guo G, Zhang N, Huo L, et al. 2d to 3d conversion based on edge defocus and segmentation[C]∥IEEE International Conf. on Acoustics, Speech and Signal Processing (ICASSP), Las Vegas, NV, USA, 2008: 2181-2184.
[3] He K, Sun J, Tang X. Single Image Haze Removal Using Dark Channel Prior[C]∥IEEE International Conf. on Computer Vision and Pattern Recognition (CVPR), Miami, FL, USA, 2009: 1956-1963.
[4] Palou G, Salembier P. Occlusion-based depth ordering on monocular images with binary partition tree[C]∥IEEE International Conf. on Acoustics, Speech and Signal Processing (ICASSP), Prague, Czech Republic, 2011:1993-1996.
[5] Palou G, Salembier P. From local occlusion cues to global monocular depth estimation[C]∥IEEE International Conf. on Acoustics, Speech and Signal Processing (ICASSP), Kyoto, Japan, 2012: 793-796.
[6] Saxena A, Sun M, Ng A Y. Make3D: learning 3D scene structure from a singlestill image[J]. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2009, 31(5): 824- 840.
[7] Mohaghegh H, Karimi N, Reza Soroushmehr S M, et al. Single image depth estimation using joint local-global features[C]∥IEEE International Conf. on Pattern Recognition (ICPR), Cancun, Mexico, 2016:27-732.
[8] Mancini M, Costante G, Valigi P, et al. Toward domain independence for learning-based monocular depth estimation[J]. IEEE Robotics and Automation Letters, 2017, 2(3): 1778-1785.
[9] Martínez-Usó A, Latorre-Carmona P, Sotoca J M, et al. Depth estimation in integral imaging based on a maximum voting strategy[J]. Journal of Display Technology, 2016, 12(12):1715-1723.
[10] Hoiem D, Efros A A, Hebert M. Geometric context from a single image[C]∥IEEE International Conf. on Computer Vision (ICCV), Beijing, China, 2005:654- 661.
[11] Nedovic V, Smeulders A.W.M, Redert A, et al. Depth information by stage classification[C]∥IEEE International Conf. on Computer Vision (ICCV), Rio de Janeiro, Brazil, 2007:1- 8.
[12] Jung C, Kim C. Real-time estimation of 3D scene geometry from a single image[J]. Pattern Recognition, 2012, 45(9): 3256-3269.
[13] Lee H, Jung C, Kim C. Depth map estimation based on geometric scene categorization[C]∥IEEE The 19th Korea-Japan Joint Workshop on Frontiers of Computer Vision, Incheon, South Korea, 2013:170-173.
[14] Rafael C, Woods R E. Digital Image Processing[M]. 3rd ed. Prentice Hall, Upper Saddle River, 2008.
[15] Comaniciu D, Meer P. Mean shift: a robust approach toward feature space analysis[J]. IEEE Trans.on Pattern Analysis and Machine Intelligence, 2002, 24(5): 603- 619.
[16] Vincent L, Soille P. Watersheds in digital spaces: an efficient algorithm based on immersion simulations[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 1991,13(6):583-598.
[17] Sumengen B. Variational image segmentation and curve evolution on natural images[D]. Barbara Santa: University of California, 2004.
[18] Ning J, Zhang L, Zhang D, et al. Interactive image segmentation by maximal similarity based region merging[J]. Pattern Recognition, 2010, 43:445- 456.
[19] 鄔芙瓊,安平,李賀建, 等. 實(shí)時(shí)3DV系統(tǒng)中面向虛擬視繪制的快速深度編碼[J]. 信號(hào)處理, 2012, 28(4):565-571.
Wu Fuqiong, An Ping, Li Hejian, et al. Fast Depth Coding for Virtual View Synthesis in Real Time 3DV System[J]. Signal Processing, 2012, 28(4):565-571.(in Chinese)
[20] 陳坤斌,劉海旭,李學(xué)明. 構(gòu)造全局背景的虛擬視點(diǎn)合成算法[J]. 信號(hào)處理,2013,29(10):1307-1314.
Chen Kunbin, Liu Haixu, Li Xueming. Virtual View Synthesis Using Generated Global Background[J]. Journal of Signal Processing, 2013, 29(10):1307-1314.(in Chinese)
[21] Kailath T. The divergence and Bhattacharyya distance measures in signal selection[J]. IEEE Transactions on Communications Technology, 1967, 15(1):52- 60.