陳婷婷,張立志,趙志杰,孫華東,金雪松
(哈爾濱商業(yè)大學計算機與信息工程學院,哈爾濱150028)
三維視頻能夠給觀眾帶來身臨其境的感覺,受到越來越多的關注和青睞,自2010年以來,三維顯示設備迅速普及[1].三維顯示離不開三維顯示內容的制作,傳統(tǒng)的二維片源不適用于三維顯示,需要制作滿足三維顯示的內容.三維顯示內容的制作主要有21種方法:一種是利用專用的視頻采集設備來獲取[2],但是這種方法價格昂貴.另一種方法是通過深度信息的獲取把二維片源轉換成適合三維顯示的內容,由于大量傳統(tǒng)的二維片源的存在,使得二維圖像深度信息提取的研究具有重大意義.
研究者在分析人類生理和心理視覺的基礎上,尋找許多深度線索.深度線索的獲取方法大體可分為兩類,即多目視覺線索和單目視覺線索.多目深度線索取自用多路相機拍攝的多幅場景圖像或用單路相機拍攝的動態(tài)多幅場景圖像,而單目深度線索取自單幅圖像.場景深度是指在空間上場景對象與圖像物理成像焦平面的實際距離[3].二維場景圖像的紋理變化、紋理梯度能給人們提供良好的深度感知線索,通過比較一紋理區(qū)域在不同尺度下的位置、大小、方向,估算出紋理區(qū)域的相對位置關系,進而可得到相應紋理區(qū)域的場景深度.Knorr等提出了利用圖像紋理梯度線索提取深度的方法[4],該方法采用了KLT和E-矩陣對圖像進行跟蹤與分割,通過自校準、稀疏映射、密集映射等方法實現深度估計.由于線索單一,雖然室外場景的轉換得到了較好的重建質量,但是對室內場景圖像效果較差.Malik[5],Saxena[6-7]等人,根據景物對象在不同深度上存在著紋理及陰影差異,通過建立馬爾科夫隨機場(markov random field-MRF)模型,監(jiān)督學習方法訓練參數,進而估計場景圖像深度.該方法有相對理想的效果,但建模時需要大量的訓練樣本,訓練過程較復雜.
基于對紋理漸變特征及優(yōu)化算法的研究,提出了一種基于MRF的多尺度紋理特征深度估計方法.該方法利用MRF局部區(qū)域之間的依賴約束關系,以及Laws濾波器所獲取的二維場景圖像多尺度紋理能量信息,來描述二維場景圖像深度信息.
紋理一般指人們所觀察到圖像中像素的灰度變化規(guī)律,習慣上把圖像中這種局部不規(guī)則的,而在宏觀上有規(guī)律的特性稱之為紋理.在數字圖像分析中將描述這種灰度變化規(guī)律的數字特征稱為圖像的紋理特征[8].
Laws濾波器作為一種典型的紋理分析手段,在圖像紋理能量測度方面有著廣泛的應用.它能夠從圖像邊緣、梯度、點等方面有效的分析二維場景圖像的紋理特征.
對于Laws濾波模板的選擇,Laws進行了深入的研究.他定義了一維濾波模板后,通過卷積形成一系列一維、二維濾波模板,用于檢測和度量紋理的結構信息[9].本方法通過一維基礎濾波模板卷積成5階Laws模板,5階Laws模版向量如下:
模板中,L1表示邊緣特征,L2表示灰度特征,L3表示點特征,L4表示漣漪特征,L5表示波特征.把這5個模板分別作為行向量與列向量互相卷積,可以合成25個階二維的Laws濾波器模板1≤p≤5,1≤q≤5,下例是L1與L4卷積合成的濾波器模版:
其中:將圖像分成固定大小的宏塊B,(x,y)∈B表示塊內的像素點的位置,I(x,y)表示該位置像素值,用Laws濾波器對每一宏塊進行卷積,可獲得任一宏塊B的紋理能量特征E.
該紋理能量特征值反映了宏塊在邊緣、梯度、點方面的特征,由于宏塊在不同尺度下呈現不同的紋理能量值,可以根據紋理能量值的變化,來估計宏塊的深度信息.
二維場景圖像是三維場景在二維平面上的投影.因此,在二維成像過程中會丟失三維信息.局部紋理特征并不能夠完全正確估計場景對象某一宏塊的深度值,有必要引入其他的局部特征或全局特征.不同對象在不同尺度表現出的分辨率不同,如藍天在不同尺度表現出的分辨率相同,而具有紋理的草地就表現出不同的分辨率.同一對象在不同尺度的相對大小不同,鄰域關系也不同.同一景物對象,在近處就表現的尺度大些,在遠處就表現的尺度小些,如圖1所示.
圖1 多尺度圖像的能量測度
尺度空間的思想最早于1962年提出,到20世紀80年代,尺度空間方法逐漸得到關注并進入快速發(fā)展階段[3].把多尺度空間思想應用到圖像的紋理能量分析中,可以用來估計二維場景圖像的深度信息.如圖2所示,每一宏塊的上、下、左、右四個相鄰的宏塊紋理能量均作為該宏塊的紋理能量信息特征,用來約束相鄰宏塊之間深度的依賴關系.
圖2 宏塊多尺度特征
MRF理論提供了直接的方法以概率來描述圖像像素具有的空間相關特性,MRF與Gibbs分布等價性的提出極大地推廣了其在數字圖像處理中的應用.隨機場X的Gibbs分布可描述為式(2)所示[3].
其中:Z是歸一化常數,U(x)是能量函數,是基團的能量的總和.
Vc(x)的取值取決于基團c的勢函數.T是溫度常量,較高的溫度將使得所有配置的概率趨向于相等,使吉布斯分布趨近均勻分布.相反,較低的溫度將使吉布斯分布函數向峰值收縮,因而溫度常量可以用來控制曲線的形狀.
二維MRF能夠很好的表現圖像中像素之間的空間關系.我們可以把二維場景圖像看成一個二維MRF.對于任一宏塊,都有相鄰或間接相聯系的宏塊與之依賴約束.這樣,每一個獨立的宏塊都可以用一組與之相關聯的鄰域系統(tǒng)來表示.表示的過程即是建立MRF模型的過程.
對于任意二維場景圖像,我們把它分成M×N大小的宏塊B.
B={(i,j)|1≤i≤M,1≤j≤N}
鄰域系統(tǒng)可分為一階、二階、多階鄰域系統(tǒng).本實驗主要采用一階、二階鄰域系統(tǒng),如圖3所示.其中符號1表示當前宏塊,符號0則為當前宏塊的鄰域系統(tǒng).
圖3 一、二階鄰域系統(tǒng)
基團是宏塊B的子集,它可以表示成單點基團、雙點基團等,其數量是由鄰域系統(tǒng)的階數所決定的,一階鄰域系統(tǒng)的基團如圖4所示.
圖4 一階鄰域系統(tǒng)的基團
二維場景圖像中,每一宏塊的紋理能量值都與紋理基元有關.實驗表明,紋理能量統(tǒng)計特性與尺度的關系如圖5所示[10].當所選尺度較小時,即在a、b尺度范圍內,遠處所能捕捉到的紋理能量信息多于近處所能捕捉到的紋理能量信息.隨著尺度的增加,遠、近處所能捕捉到的紋理能量都在增加,但是,近處的紋理能量信息增加速度較快,而遠處紋理信息逐漸達到最大值狀態(tài).在b、c尺度范圍內,遠、近處的紋理能量均達到了最大值.隨著尺度的進一步增大,在c、d尺度范圍內,遠、近處的紋理能量信息均處于減少狀態(tài),逐漸趨近于零.
2.3.1 深度更新開關函數
為了更好的描述多尺度紋理能量與深度信息之間的關系,本文定義了一個開關函數,稱為深度更新開關函數,用此開關函數來描述不同尺度紋理能量對深度值的影響.Es表示任一宏塊B在第s個尺度的紋理能量值,E*s表示該宏塊在第s個尺度鄰域紋理能量值的均值.本算法中對每個宏塊提取了5個尺度的紋理能量,按遠、近處紋理能量統(tǒng)計特性,如圖5所示,可將開關函數分為以下三種情況:
1)若 Es≤Es+1,1≤s≤4
且E*s≤Es+1,1≤s≤4,則說明該塊在 a、b 尺度區(qū)間,則:
2)若max(E*s)和max(Es)各自所在的尺度分別為s*和sE,則:
3)若 Es≥Es+1,1≤s≤4
且 Es≥Es+1,1≤s≤4,則說明該塊在 c、d 尺度區(qū)間,則:
2.3.2 深度更新準則
為有效地估計深度信息,在紋理能量的基礎上,不僅設計了深度更新開關函數,還設計了如式(3)所示的深度更新準則.
深度更新準則對圖像深度按宏塊進行更新,式中d*是該宏塊的鄰域深度值的均值,λ為深度更新調整幅度因子,f控制是否對深度值進行更新,圖像每個宏塊的深度信息從初始值d(0)開始迭代,d(n+1)是宏塊經過迭代后更新的深度值.
2.3.3 深度估算迭代步驟
1)深度值初始化
每個圖像宏塊深度初始值d(0)的選取,影響迭代算法的收斂速度,深度初始值采用本課題前期階段的研究結果,即將最小二乘方法得到的實驗結果作為深度初始值[11-12].該最小二乘方法根據紋理特征矢量Ω與宏塊真實深度d之間的關系訓練參數矢量θ,參數矢量θ表示圖像每一紋理對深度影響的不同權值的組合.
深度信息可由參數矢量θ與紋理特征矢量Ω按公式(5)運算獲得,把公式(5)運算的結果作為本迭代算法的宏塊深度初始值d(0).
2)深度更新
任一宏塊深度值按照深度更新準則公式(3)來調整宏塊深度值d(n),所得d(n+1)的值作為d(n)的深度更新值.
3)迭代終止判決
迭代過程中每一宏塊的深度值不斷更新,整幅圖像所有宏塊深度信息更新結果構成整幅圖像更新的深度信息.整幅圖像深度信息經過更新所得到的深度圖像表示為是深度更新第次所得到的深度圖像中第行第列宏塊的深度值.整幅圖像經過每次迭代后,判斷是否滿足式(6)的收斂判決條件.如不滿足返回步驟2繼續(xù)迭代,如滿足式(6),則迭代終止.迭代終止后,獲得的整幅圖像深度信息,即為深度信息最終估計結果.
式(6)中的為判斷深度信息調整是否達到穩(wěn)定狀態(tài)的閾值.
為驗證方法的有效性,本文選取康奈爾大學的二維場景圖像及真實深度圖像作為樣本訓練集.樣本中二維場景圖像包括人造環(huán)境(樓房,街道等),自然環(huán)境(森林,灌木叢等).其中以400幅二維場景圖像為訓練樣本集,像素是1 704×2 272,另133幅1 704×2 272的二維場景圖像作為測試樣本集.本實驗以Matlab.2011b作為實驗平臺.見圖6.
圖6 實驗結果
實驗中,宏塊的大小會影響實驗結果,宏塊過小,不僅會失去深度值的統(tǒng)計特性,而且會延長訓練時間.宏塊過大,雖然會提高訓練速度,但是深度值的統(tǒng)計特性不明顯.因此,我們把每幅圖像分成像素的固定宏塊.實驗中,公式(3)中λ選取0.05,公式(6)中ε設定為1,實驗結果如圖6所示,原始圖像(A)包括樓房,樹木,天空等.(B)組圖像是激光掃描設備得到的二維場景圖像的真實深度圖像.(C)組圖像是本實驗二維場景圖像深度圖.實驗中的深度范圍是在0~81 m,對于深度遠于81 m的深度都記為81 m.
在本方法中,提出了一種基于MRF模型與多尺度紋理特征的單幅圖像深度信息估計方法.采用Laws濾波器對二維場景圖像提取多尺度紋理能量信息,根據紋理能量信息的統(tǒng)計特性構建MRF,通過迭代算法獲得二維場景圖像的深度信息.
實驗結果證明,本方法對于紋理輪廓明顯或者圖像中深度差異較大的二維場景圖像,能夠得到較好的實驗結果.但是,對于紋理輪廓不明顯或者圖像中深度差異較小的二維場景圖像,效果并不理想.在未來的研究中,可以針對這個問題,在提取深度特征方面,嘗試提取其他特征,或者針對不同的特征按不同權值采用融合策略進行分配,以提高深度信息估計效果.
[1]KARSCH K,LIU C,KAN S B.Depth Extraction from Video U-sing Non-parametric Sampling[C]//European Conference on Computer Vision,2012.
[2]CHAOCHUNG C,CHENGTE L,POSUN H.A block-based 2D-to-3D conversion system with bilateral Filte[C]//International Consumer Electronics,Las Vegas,NV,USE,2009:1-4.
[3]張蓓蕾,孫韶媛.基于馬爾科夫場理論的單目圖像深度估計[D].上海:東華大學,2010.
[4]KNORR S,IMRE E.OZKALAYCI B,et al.A modular scheme for 2D/3D conversion of TV broadcast[C]//3D Data Processing,Visualizati,and Transmission,Third International Symposium,2006:703-710.
[5]MALIK J,ROSENHOLTZ R.Computing local surface orientation and shape from texture for curved surface[J].Intermation Journal of Computer Vision,1997,23(2):149-168.
[6]SAXENA A,SCHULTE J,ANDREW Y N.Learning 3-D scene structure from a single still image[C]//IEEE Tractions on PAMI,2009:824 -840.
[7]SAXENA A,SCHULTE J,ANDREW Y N.-MRF:capturing spatial and semantic structure in the parameters for scene understanding[C]//Neural Information Processing Systems Conference 2011.
[8]謝世明,胡茂林.紋理的特征提取與分類研究[D].合肥:安徽大學,2006.
[9]葛 亮,朱慶生,傅思思.Laws紋理模板在立體匹配中的應用[J].光學學報,2009,29(9):2507-2508.
[10]藍建梁,丁友東,黃東晉.基于多尺度紋理能量測度的單幅圖像深度估計[J].計算機工程與設計,2011,32(1):224-227,231.
[11]ZHANG L Z,CHEN T T.The image depth estimation based on multi-scale texture features and least-square method[C]//International Conference on Signal Processing,2012.
[12]周慶欣,吳玉東,范紅霞,等.加權Markov鏈權重計算及應用[J].哈爾濱商業(yè)大學學報:自然科學版,2014,30(6):740-743.