于海鵬,魏 濤
(河南工程學院計算機科學與工程系,河南鄭州450007)
立體成像和三維重建已經成為人們所關注的一個熱點。對于立體成像,首先需要提取出二維圖像的第三維信息,即深度估計。因此,從單張圖片有效地估計出深度信息是計算機視覺領域的一項重要研究內容。傳統(tǒng)的深度估計方法主要集中于基于雙目視差的方法[1,2],基于相機運動的方法[3,4]和基于變焦[5]或散焦[6]的方法等。這些方法往往需要一個或兩個圖像采集設備來拍攝相同場景的兩張或多張圖像。而且無一例外的,它們都需要事先知道圖像采集設備的參數(shù),知道圖像是由什么型號的設備拍攝得到,然后通過復雜的空間幾何關系或者圖像中的點擴散函數(shù)得到圖像的深度信息。而在實際情況中,往往只有圖像而沒有圖像采集設備的任何參數(shù)。因此,在沒有相機參數(shù)而僅用單張圖片的來估計場景深度的方法具有更廣泛的實際應用意義。最近,陸等人[7]提出一種針對單張圖片獲取深度信息的算法,該算法是一種基于Markov隨機場模型對圖像建模來獲取圖像深度信息。但在模型的建立過程中對圖像進行的分割方法仍有一定的改進,采用不同的分割方法也會導致得到的深度信息不同。提出了一種針對單張圖像的場景深度估計算法,中心思想是建立在不同圖像中具有相同語義,即不同圖像中相似的物體,假設它們具有相似的深度信息。利用Make3D[8]數(shù)據(jù)集,該數(shù)據(jù)集是利用三維激光測距儀(SICK LMS-291)得到的一組場景圖及其相對應的深度圖,在該數(shù)據(jù)集中利用全局GIST[9]特征進行全局匹配,并利用稠密SIFT[11]特征進行局部匹配,查詢到與測試圖最相似的K張圖像,然后通過提出的前提假設,將相似圖片及其深度圖利用SIFT流[12]變形得到測試圖的深度圖。
GIST一種宏觀的全局特征描述符,利用自然度、開放度、粗糙度、擴張度和崎嶇度等物種語義詞匯來描述自然場景。GIST特征是通過多種尺度多個方向的Gabor濾波器組對圖像濾波后得到的輪廓信息。其中Gabor濾波器的表達式為
式中:x和y——圖像像素坐標位置,σx和σy——x和y方向Gaussian因子的方差,f0——濾波器中心頻率,φ——該諧波因子的相位差。利用Gabor濾波器對圖像進行特征提取的實質就是將一組Gabor小波函數(shù)基與圖像進行卷積操作。從而對輸入的圖像用一種魯棒的全局特征來表示[12]。
SIFT算法是在基于圖像的特征尺度在不同的尺度空間上查找關鍵點,首先通過高斯卷積核來實現(xiàn)圖像的尺度變換,建立多尺度空間,尺度空間使用高斯金字塔表示。然后檢測尺度空間的關鍵點,關鍵點則是由尺度空間的局部極值點組成的,這些極值點的初步探查是通過尺度空間中各相鄰兩層圖像之間比較來完成的。為了尋找尺度空間中的極值點,每個像素點都要與相鄰的所有點進行比較,在尺度空間的中間層的檢測點與同尺度的8個相鄰點和上下相鄰尺度對應的9×2個點比較,確保在尺度空間和二維圖像空間都檢測到極值點[14]。如果它比圖像域和尺度域的相鄰點都大或者比它們都小,則認為該點是極值點。然后將這些檢測到的粗略的極值點的邊緣響應點以及低對比度的關鍵點刪除,這樣可以得到更為精確的特征點用于后續(xù)的匹配操作,增強匹配的準確性。
為了使得特征點的描述符具有旋轉不變性等特點,需要首先利用圖像的局部特征來給每一個檢測出的關鍵點在一定的領域內分配一個基準方向,使用圖像梯度的方法求取局部結構的穩(wěn)定方向。該基準方向通過在完成關鍵點的梯度計算后,使用直方圖統(tǒng)計鄰域內像素的梯度和方向,以直方圖中最大值作為該關鍵點的穩(wěn)定方向。再為每個關鍵點建立一個特征描述符,用一組向量將這個關鍵點描述出來,使其不隨光照和視角等變化而改變[15]。將特征點的鄰域劃分成16個4×4像素大小的子塊,然后計算每個子塊在360度中平分的8個方向上的梯度直方圖,最后將每個特征點表示為一個128維特征向量[16]。
SIFT特征是一種稀疏特征描述符,是在圖像中檢測極值點并提取出特征。而稠密SIFT則是取消檢測圖像中的極值點。即對圖像中每個像素點的領域分成16個4×4像素大小子塊,然后得到其SIFT特征。這種對每個像素求得的SIFT描述稱為稠密SIFT描述符[17]。
與光流相似,定義一個目標函數(shù)來估計兩圖像之間的SIFT流。SIFT流的計算過程為:首先提取圖像每一個像素的SIFT描述符,即稠密SIFT描述符,然后對相鄰幀圖像計算圖片中點的運動流場。SIFT流能量方程函數(shù)定義為
其中w(p)=(u(p),v(p))是圖像P點的流矢量,si(p)代表圖像i在像素p點的SIFT描述符,ξ是像素p點的領域。相對于傳統(tǒng)光流技術,SIFT流對尺度、旋轉和仿射變換等具有更強的魯棒性。
無參數(shù)深度估計算法分為3個階段,工作流程如圖1所示。
圖1 無參數(shù)深度估計流程
首先給定輸入圖片后,在RGB-D數(shù)據(jù)集中查詢到與輸入圖片最相似的K張圖片。然后,利用SIFT流將查詢到的圖片及其對應的深度圖變形到輸入圖片更加一致。最后,通過輸入圖片,變形圖片以及變形后的深度圖構造能量函數(shù)并最小化來得到最后的深度圖。
為了找到與輸入圖片最相似的K張圖片,通過GIST特征及稠密SIFT特征的共同作用來查找相似圖片。對輸入圖片與數(shù)據(jù)集中每張圖片通過計算下式得到相似值
初到廣州的五建迅速瞄準和服務華南市場。但與此同時,五建面臨著依賴傳統(tǒng)工程建設項目、效益增長方式單一、市場投資領域變化、生產方式轉變、資源環(huán)境和生產要素制約以及勞動力成本上升等問題。眼見傳統(tǒng)工程建設的路越來越窄,未來如何生存已經成為不得不思考的問題?!拔覀兦逍训卣J識到,只有加快企業(yè)轉型升級步伐,開發(fā)新的效益增長領域,企業(yè)才能煥發(fā)出新的生機和活力。”五建黨委書記蔣德軍說。
其中G1、G2和S1、S2分別代表兩張圖片的GIST特征和稠密SIFT特征,將前K個取得最小值的圖片作為最相似的圖片,稱為候選圖片,并將它們的深度圖作為候選深度圖。
通過計算出的候選圖片與輸入圖片具有最相似的特征空間,因此理論上這些圖片與輸入圖片在場景級別上或是物體級別上具有更一致的語義信息。假設基于相同語義的物體具有相似的深度估計,為了得到更準確的估計,更希望相似圖片與輸入圖片在像素級別上具有更一致的語義信息,通過SIFT流的變形方法可以實現(xiàn)。
首先將輸入圖片與每張候選圖片計算出SIFT流,通過SIFT流得到相應的變形函數(shù)。再將每張候選圖片通過各自的變形函數(shù)即SIFT流的逆向變形,變形到與輸入圖片在像素級別上具有更一致的語義信息。另外,每張候選圖片的深度圖也同樣以相同變形函數(shù)變形。
根據(jù)假設,具有相同語義的場景、物體和像素具有相似的深度信息。因此,每張變形后的候選圖片與輸入圖片具有大致相等的深度信息。但這些候選圖片必然會包含一些不準確的信息。而且由于候選圖片經過變形后會導致對應的深度信息在空間上不夠光滑,需要將K張候選圖片的深度信息綜合考慮,優(yōu)化如下能量函數(shù),得到輸入圖片的深度圖,并使得深度圖滿足空間光滑性
式中:D——深度,i——圖像的像素,I——輸入圖片。該目標函數(shù)包括3項:數(shù)據(jù)項Ed(Di),空間光滑項Es(Di)以及先驗項Ep(Di)。
數(shù)據(jù)項Ed(Di)用來控制輸入圖片的深度與變形后的候選圖片深度的相似程度,相似程度用來測量,ξ=10-4,(x)值越小則越相似。數(shù)據(jù)項定義為
S代表稠密SIFT特征。數(shù)據(jù)項中第一項使得輸入圖片的深度信息與變形后的候選圖片深度信息盡量保持一致。第二項使得輸入圖片的深度圖與變形后的候選圖片深度圖的梯度保持一致。
空間光滑項Es(Di)使得輸入圖片的深度信息在圖像的光滑區(qū)域也保持光滑性。即使得輸入圖像與其深度圖的梯度信息保持一致
其中權重為
能量函數(shù)中還包括了輸入圖片深度圖的先驗信息。先驗信息根據(jù)查詢到的K張相似圖片的深度信息得到
式中:ρ——輸入圖片深度圖的先驗信息,通過計算K張候選圖片深度圖的平均值得到
通過迭代重加權的優(yōu)化方法可以得到能量函數(shù)的最小值。
RGB-D數(shù)據(jù)集來自Make3D數(shù)據(jù)中。數(shù)據(jù)集中包括534張分辨率為2272×1704的圖像。采用其中400張作為訓練集,134張作為測試集。實驗參數(shù)設置為:K=7,α=10,β=0.5,γ=10。實驗結果如圖2所示。
圖2 場景圖及不同方法估計的深度
在圖2中,圖2(a)(上)為Make3D數(shù)據(jù)集中134張測試集中的場景圖,圖2(b)(中)為由Make3D方法得到的深度圖,圖2(c)(下)為改進算法得到的深度結果圖。深度圖中黑色為最近,白色為最遠。通過計算得到的深度圖像與真實深度值的相對誤差來比較深度圖像估計的準確性,計算公式為
其中D代表估計深度,DT代表真實深度。與圖2對應的相對誤差數(shù)值比較見表1。
表1 三幅圖片的Make3D和改建算法相對誤差
從表1中可以看出,通過與Make3D的方法進行比較,平均相對誤差降低了12.03%,改進的算法得到的深度圖可以更好的反應場景的真實深度,比如圖中的樹葉部分等一些細小的特征區(qū)域。實驗中僅使用了Make3D數(shù)據(jù)集中的400張作為訓練集。理論上,如果使訓練集更加完善,使訓練集中包含更多的場景信息,改進的算法會得到更準確的深度估計。
提出了一種無參數(shù)的場景圖片深度估計算法,在RGBD數(shù)據(jù)集的基礎上,基于相同語義的物體具有相似深度信息的假設,在數(shù)據(jù)集中查詢到與輸入圖片最相似的K張圖片,通過變形使相似圖片與輸入圖片具有更相似的結構信息,最后通過最小化能量函數(shù)得到最終的圖像深度圖。由于不需要任何圖像采集設備的參數(shù)以及空間幾何關系,所以在其它基于雙目視差或運動視差等方法失效的情況下,依然可以有效地計算得到場景深度信息。經過實驗證明,該方法可以有效地估計場景的深度圖,改進算法的無參數(shù)特性在相機參數(shù)及空間幾何關系未知的情況下仍能有效計算場景深度信息,比Make3D算法的平均相對誤差降低了12.03%,具有更廣泛的實際應用價值。
[1]WANG Jian,WANG Yuanqing.A monocular stereo vision algorithm based on bifocal imaging[J].Robot,2007,29(1):41-44(in Chinese).[王劍,王元慶.基于雙焦成像的單眼立體視覺算法[J].機器人,2007,29(1):41-44.]
[2]WANG Chuanyu,ZHAO Ming,YAN Jianhe,et al.Three-dimensional reconstruction of maize leaves based on binocular stereovision system[J].Transactions of The Chinese Society of Agricultural Engineering,2010,6(4):198-202(in Chinese).[王傳宇,趙明,閻建河.基于雙目立體視覺技術的玉米葉片三維重建[J].農業(yè)工程學報,2010,6(4):198-202.]
[3]WANG Aihong,WANG Qionghua,LI Dahai,et al.Relation-ship between stereo depth and parallax image captured in stereoscopic display[J].Optics and Precision Engineering,2009,17(2):433-437(in Chinese).[王愛紅,王瓊華,李大海,等.立體顯示中立體深度與視差圖獲取的關系[J].光學精密工程,2009,17(2):433-437.]
[4]JIANG Taiping,WANG Shuai,ZHAN Tao.Generation technique research of depth information based on motion estimation[J].Computer Technology and Development,2010,20(10):94-97(in Chinese).[姜太平,王帥,占濤.基于運動估計的深度信息生成技術研究[J].計算機技術與發(fā)展,2010,20(10):94-97.]
[5]WANG Haiyang,LI Li,JIN Ning,et al.Design of MWIR continuous zoom optical system with large zoom range[J].Infrared and Laser Engineering,2013,42(2):398-402(in Chinese).[王海洋,李力,金寧,等.大變倍比中波紅外連續(xù)變焦光學系統(tǒng)設計[J].紅外與激光工程,2013,42(2):398-402.]
[6]FAN Chongyi,HUANG Xiaotao.Moving target detection based on multiple azimuth resolution images in low frequency SAR[J].Journal of Electronics &Information Technology,2012,34(5):1057-1064(in Chinese).[范崇祎,黃曉濤.基于多方位分辨率圖像的低頻SAR地面運動目標檢測方法[J].電子與信息學報,2012,34(5):1057-1064.]
[7]LU Zhenjie,SONG Jin.Scene depth estimation for single digital image in multi-scaled space[J].Computer Technology and Development,2013,23(1):51-53(in Chinese).[陸振杰,宋進.單幅數(shù)字圖像多尺度空間下的場景深度估計[J].計算機技術與發(fā)展,2013,23(1):51-53.]
[8]Saxena A,Sun M,Ng A.Make3D:Learning 3D scene structure from a single still image[J].IEEE TPAMI,2009(31):824-840.
[9]QIAN Pengjiang,WANG Shitong,DENG Zhaohong.Fast kernel density estimate theorem and scaling up graph-based relaxed clustering method[J].Acta Automatica Sinica,2011,37(12):1422-1434(in Chinese).[錢鵬江,王士同,鄧趙紅.快速核密度估計定理和大規(guī)模圖論松弛聚類方法[J].自動化學報,2011,37(12):1422-1434.]
[10]LI Peihua,ZHAO Nannan,YU Haiyang.Appearance modeling using dense SIFT features for object tracking[J].Journal of Natural Science of Heilongjiang University,2011,28(4):571-576(in Chinese).[李培華,趙楠楠,于海洋.使用稠密SIFT特征表達目標的跟蹤方法[J].黑龍江大學自然科學學報,2011,28(4):571-576.]
[11]CHEN Hailin,WU Xiuqing,HU Junhua,et al.Densityguided tree-structured kernel for image object classification[J].Journal of Image and Graphics,2009,14(12):2545-2551(in Chinese).[陳海林,吳秀清,胡俊華,等.基于密度導向的樹型結構核的圖像目標分類[J].中國圖象圖形學報,2009,14(12):2545-2551.]
[12]Pechaud M,Vanzetta.Sift-based sequence registration and flow-based cortical vessel segmentation applied to high resolu-tion optical imaging data[C]//5th IEEE International Symposium on Biomedical Imaging:From Nano to Macro,2008:720-723.
[13]SONG Dan,TANG Linbo,ZHAO Baojun.SIFT mismatching points eliminating algorithm based on region overlapping kernel weighted Hu moment[J].Systems Engineering and Electronics,2013(4):870-875(in Chinese).[宋丹,唐林波,趙保軍.基于區(qū)域重疊核加權Hu矩的SIFT誤匹配點剔除算法[J].系統(tǒng)工程與電子技術,2013(4):870-875.]
[14]Liu C,Yuen J,Torralba A.SIFT flow:Dense correspondence across scenesand its applications[J].IEEE TPAMI,2011(33):978-994.
[15]LAN Jianliang,DING Youdong,HUANG Dongjin,et al.Depth estimation of single image based on multi-scale texture energy measure[J].Computer Engineering and Design,2011,32(1):224-227(in Chinese).[藍建梁,丁友東,黃東晉.基于多尺度紋理能量測度的單幅圖像深度估計[J].計算機工程與設計,2011,32(1):224-227.]
[16]YU Jiangde,WANG Xijie,YU Zhengtao.Semantic role labeling based on maximum entropy model[J].Microelectronics &Computer,2010(8):173-176(in Chinese).[于江德,王希杰,余正濤.基于最大熵模型的語義角色標注[J].微電子學與計算機,2010(8):173-176.]
[17]TANG Yonghong,LIU Xudong.An anomaly detection method based on mixed attribute dataset[J].Science Technology and Engineering,2013,13(7):1832-1835(in Chinese).[唐永紅,劉緒棟.一種基于混合屬性數(shù)據(jù)集的異常檢測方法[J].科學技術與工程,2013,13(7):1832-1835.]