吳 遷,金雪松,趙志杰,孫華東,田 芹
(哈爾濱商業(yè)大學(xué)計算機(jī)與信息工程學(xué)院,哈爾濱150028)
由于3D視頻播放內(nèi)容脫離顯示設(shè)備屏幕的束縛,讓觀看者產(chǎn)生震撼的真實感和臨場感,所以3D視頻日益受到人們的青睞.同時,由于受到立體攝像機(jī)拍攝成本和立體資源匱乏等問題的限制,2D視頻到3D視頻轉(zhuǎn)換技術(shù)得到廣泛關(guān)注.目前,由于利用單一深度線索或深度提取方式局限性較大,研究者普遍采用多種深度線索獲取二維視頻深度,以提高視頻深度提取效果.
目前利用多深度線索獲取二維視頻深度方式大體上可分為機(jī)器學(xué)習(xí)、判斷機(jī)制、深度圖重疊和分配權(quán)重方式.文獻(xiàn)[1]提出了結(jié)合運(yùn)動視差、紋理、霧度、邊緣、相對高度、尖銳度和遮擋線索來獲取深度信息.該方法首先提取各線索特征,然后利用得到的特征集和視頻幀的真實深度訓(xùn)練隨機(jī)樹模型.隨機(jī)樹模型確定后,未知視頻的深度信息就可通過其宏塊的特征進(jìn)行預(yù)測.文獻(xiàn)[2]提出了深度線索判斷機(jī)制.該方法首先檢測消失點(diǎn),若檢測到即利用線性透視線索生成深度圖.然后計算圖像的紋理能量來判斷是否包含散焦區(qū)域,若包含則采用聚散焦線索生成深度信息.對于未檢測到線性透視和聚散焦線索的視頻幀,將常見場景深度模型和顯著圖結(jié)合生成視頻幀的深度圖.文獻(xiàn)[3]和文獻(xiàn)[4]利用運(yùn)動檢測方法區(qū)分視頻幀的前景和背景,進(jìn)而利用不同線索獲取深度信息.該方法中前景區(qū)域采用運(yùn)動線索,背景區(qū)域采用線性透視線索,最后將前后背景深度圖重疊得到最終深度圖.文獻(xiàn)[5-7]采用為多條深度線索分配權(quán)重方式獲取視頻幀深度信息.其中文獻(xiàn)[6]利用光流法、暗通道先驗及小波變換分別獲得運(yùn)動、霧度和聚散焦線索的深度圖,并對三種線索采用線性相加的融合方式.為了獲得更好的深度提取效果,提出了基于信息融合的二維視頻深度提取方法.通過計算背景和運(yùn)動區(qū)域的信息熵,然后利用模式識別中的Neyman Pearson準(zhǔn)則確定視頻幀的運(yùn)動區(qū)域.針對該區(qū)域,在幀內(nèi)深度信息獲取的基礎(chǔ)上,融合幀間深度信息.
首先對輸入二維視頻的相鄰兩幀做運(yùn)動估計,獲得運(yùn)動矢量,生成初始深度圖;然后利用幀間像素匹配準(zhǔn)則調(diào)整各像素的深度值;最后濾波去噪獲得最終的深度圖.利用運(yùn)動線索提取視頻幀的深度信息主要流程如圖1所示.
圖1 運(yùn)動線索提取視頻幀深度信息的主要流程
通過采用基于變宏塊技術(shù)的運(yùn)動估計方法得到運(yùn)動矢量,其中宏塊包括16×16、16×8、8×16、8×8、8×4、4×8及4×4七種.然后將七種運(yùn)動矢量按照每個宏塊4×4大小的方式存儲,再利用公式 (1)[8]生 成 初 始 深 度 圖. 其 中是運(yùn)動矢量的模.λ是深度調(diào)整系數(shù).通過調(diào)節(jié)λ來調(diào)整深度圖的深度大小,取.Max(MV)為提取運(yùn)動矢量場中運(yùn)動矢量的最大值.
其中:每一個宏塊內(nèi)部的所有像素的深度值是用同一個運(yùn)動矢量生成的,這將會導(dǎo)致生成的深度圖邊緣部分出現(xiàn)鋸齒效應(yīng).為了獲得效果更好的深度圖,根據(jù)運(yùn)動估計后幀間像素的匹配關(guān)系,采用像素匹配算法來調(diào)整初始深度圖.將得到的宏塊級深度圖進(jìn)一步處理,生成像素級的深度圖,以提高深度圖質(zhì)量.
最后對深度圖進(jìn)行濾波,采用膨脹腐蝕算法實現(xiàn)深度圖濾波處理.通過腐蝕操作,可以對噪聲塊四周進(jìn)行腐蝕;從而消除整個噪聲塊,獲得幀間深度信息.
利用Laws濾波器對訓(xùn)練圖像中每一個宏塊提取多尺度一階鄰域的深度特征,并采用馬爾可夫隨機(jī)場模型獲得參數(shù)θ和真實深度特征之間的關(guān)系,以獲得測試序列的深度信息.
首先將訓(xùn)練圖像分成固定大小宏塊,并對每一個宏塊定義如圖2所示的多尺度一階鄰域關(guān)系圖.同時為了獲得該宏塊在豎直方向的約束關(guān)系,將宏塊所在的列分成相等的4部分以構(gòu)成4個列宏塊.這樣,對于目標(biāo)宏塊,就獲得19個與其有空間約束關(guān)系的宏塊來表示其特征.然后將圖像轉(zhuǎn)換到Y(jié)UV色彩空間,利用9個Laws濾波器對Y通道濾波求得紋理變化信息;采用6個方向偵測器獲得紋理梯度信息;采用Laws的第一個模板求取U、V通道的均值.將上述17個濾波器Fn(x,y)(n=1,…,17)與圖像I(x,y)卷積并求其能量.公式(2)中,k=1時為絕對能量,k=2時為平方能量和.這樣,每一個宏塊i獲得34維特征向量,對于每個目標(biāo)宏塊i就獲得了34×19=646維特征向量.
獲得圖像的多維深度特征后,本文利用Saxena的訓(xùn)練模型[9]如公式(3)所示.
其中p(d|x;θ,σ)是后驗概率,Z是歸一化常量,xi是目標(biāo)宏塊i的多維特征.di是訓(xùn)練圖像中塊i的真實深度,θr和σr是模型的參數(shù).因為攝像機(jī)水平放置,則圖像各行統(tǒng)計特性不同,為此圖像中每一行用不同(θr,σ1r,σ2r).式(3)中最小時P最大,本文用最小二乘法訓(xùn)練模型中主要參數(shù)θr.為此得到圖像深度特征和真實深度之間關(guān)系如公式(4)所示.
估計測試序列的深度信息,可以考慮成多維深度特征和參數(shù)θr的非線性結(jié)合,如式(5)所示.
圖2 多尺度一階鄰域關(guān)系圖
由于幀間深度提取方法只能獲得視頻幀中運(yùn)動區(qū)域的深度信息,對于沒有任何運(yùn)動發(fā)生的背景區(qū)域,幀間深度提取方法估計效果不理想.這是因為背景部分沒有運(yùn)動,即運(yùn)動矢量為0.同時視頻幀背景區(qū)域,采用幀內(nèi)信息可以得到較好的估計;對于運(yùn)動部分,幀內(nèi)信息的深度估計則有偏差.這是因為幀內(nèi)信息獲取過程中沒有考慮視頻幀時間連續(xù)性,而幀間信息可以很好的彌補(bǔ)這一缺陷.由于信息熵可以很好的反映圖像信息量,通過計算背景和運(yùn)動區(qū)域的信息熵,利用模式識別中的Neyman Pearson準(zhǔn)則確定視頻幀的運(yùn)動區(qū)域;對于背景區(qū)域采用幀內(nèi)信息估計,對于運(yùn)動區(qū)域采用幀內(nèi)幀間信息融合的方式進(jìn)行估計.
熵作為狀態(tài)的函數(shù),在信息論中是一個隨機(jī)變量的不確性度量.由于隨機(jī)事件中不確定性的大小可以用概率分布函數(shù)來描述,設(shè)可能出現(xiàn)結(jié)果的概率分布 p=(p1,p2,…pn),它們滿足:
作為隨機(jī)試驗X先驗的不確定性,即信息熵函數(shù)如式(7)所示[10].
針對存在運(yùn)動物體的視頻序列,相鄰視頻幀的背景部分大多是沒有變化的.可將測試序列相鄰視頻幀做差求信息熵,如圖3所示,信息熵能夠明顯的反映圖像的背景和運(yùn)動信息.紅色表示圖像中熵值大的區(qū)域,藍(lán)色表示熵值小的區(qū)域.豎坐標(biāo)是熵值,橫縱坐標(biāo)是圖像長寬.
圖3 lovebird序列視頻幀信息熵分布圖
通過對視頻序列的視頻幀進(jìn)行分析統(tǒng)計,發(fā)現(xiàn)視頻幀的信息熵可以反映圖像的信息;即運(yùn)動區(qū)域的熵值較大,背景區(qū)域熵值較小.由于圖像的信息熵是一個不確定性事件,熵值大的區(qū)域不一定是運(yùn)動區(qū)域,反之,熵值小的區(qū)域也不一定是背景區(qū)域.為此,本文對測試序列視頻幀進(jìn)行手動分割,分別統(tǒng)計背景區(qū)域和運(yùn)動區(qū)域的信息熵.發(fā)現(xiàn)圖像熵值分布是一個不確定性事件,同時背景和運(yùn)動區(qū)域的熵值是符合近似高斯分布的.Poznan_Street序列熵值分布圖如圖4所示.
將背景區(qū)域和運(yùn)動區(qū)域作為兩類樣本,利用模式識別中的統(tǒng)計決策方法進(jìn)行分類.同一視頻序列的熵值分布是近似的,因此利用統(tǒng)計決策方法首先確定兩類樣本的最優(yōu)分界面,然后應(yīng)用到測試視頻序列中.由于背景區(qū)域和運(yùn)動區(qū)域兩類樣本的先驗概率不確定,因此,利用模式識別中Neyman Pearson決策進(jìn)行兩類樣本的分類.
圖4 Poznan_Street序列視頻幀背景和運(yùn)動區(qū)域熵值分布圖
H0、H1分別表示表示背景區(qū)域樣本及運(yùn)動區(qū)域樣本,pH0(ω)為背景區(qū)域的熵值分布函數(shù),pH1(w)為運(yùn)動區(qū)域的熵值分布函數(shù).似然比為T(w)為檢測閾值.背景樣本決策為運(yùn)動樣本的錯誤率為第一類錯誤率β1,運(yùn)動樣本決策為背景樣本的錯誤率為第二類錯誤率 β2.基于Neyman -Pearson 準(zhǔn)則[11-12]的閾值選取是在給定第二類錯誤率β2情況下,使檢測概率最大,從而獲得相應(yīng)的閾值t,如式(8)所示.
確定分類閾值后,對測試序列計算信息熵并獲得視頻幀中的運(yùn)動區(qū)域,即將幀間幀內(nèi)信息融合的區(qū)域.為了彌補(bǔ)幀內(nèi)深度信息對運(yùn)動區(qū)域估計的偏差,對圖像中運(yùn)動區(qū)域采用幀間幀內(nèi)信息融合方法提取深度,融合后深度d如式(9)所示.
其中:λ為幀內(nèi)深度信息所占比例,1-λ為幀間信息所占比例.d1為幀內(nèi)深度信息,d2為幀間深度信息.本文通過實驗選取合適的比例系數(shù)λ.
本文采用Poznan_Street(Poznan University of Technology)、Lovebird1(ETRI/MPEG Korea Forum)、Kendo和 Balloons(Nagoya University)作為實驗序列.分別利用以上四個序列前100幀,共400幀作為訓(xùn)練集.分別利用lovebird1和Poznan_Street序列后100幀,共200幀作為測試集.對于測試集首先采用laws濾波器提取深度特征,然后利用馬爾可夫隨機(jī)場模型訓(xùn)練獲得幀內(nèi)深度信息.對于幀間深度信息,采用基于塊匹配的運(yùn)動估計算法獲得.
通過計算背景和運(yùn)動區(qū)域的信息熵,利用Neyman Pearson準(zhǔn)則確定測試序列的運(yùn)動區(qū)域背景區(qū)域,測試序列視頻幀的實驗結(jié)果如圖5所示.白色部分為運(yùn)動區(qū)域,黑色部分為背景區(qū)域.本文提出的方法能夠很好地檢測出兩個測試序列中的運(yùn)動區(qū)域.
然后對背景部分采用幀內(nèi)深度信息,對運(yùn)動部分采用幀間幀內(nèi)深度信息融合,得到實驗結(jié)果如圖6所示.
圖5 lovebird及Poznan_Street序列運(yùn)動區(qū)域檢測圖
最后,將提出方法得到的深度圖與真實深度進(jìn)行比較.通過計算幀內(nèi)深度信息和真實深度、幀間幀內(nèi)融合后深度信息和真實深度的RPSN,客觀的進(jìn)行比較.實驗結(jié)果顯示,提出的方法能夠?qū)⑸疃葓D質(zhì)量平均提高0.6 dB.實驗結(jié)果證實了方法的有效性.
為了獲得更好的深度提取效果,提出了基于幀間幀內(nèi)信息融合的方法.通過計算背景和運(yùn)動區(qū)域的信息熵,利用模式識別中的Neyman Pearson準(zhǔn)則確定測試序列的運(yùn)動區(qū)域和背景區(qū)域.在幀內(nèi)深度信息獲得的基礎(chǔ)上,通過對運(yùn)動區(qū)域結(jié)合幀間信息,以獲得更好地深度提取效果.實驗結(jié)果采用客觀方式評價,證實了方法的有效性.
[1]POURAZAD M T,NASIOPOULOS P,BASHASHATI A.Random forests-based 2D -to-3D video conversion[C]//Athens:17th IEEE International Conference on Electronics,Circuits and Systems(ICECS),2010.
[2]JI P,WANG L,LI D X,et al.An automatic 2D to 3D conversion algorithm using multi- depth cues[C]//Shanghai:International Conference on Audio,Language and Image Processing(ICALIP),2012.
[3]HUANG X J,WANG L H.A depth extraction method based on motion and geometry for 2D to 3D conversion[C]//Nanchang:Third International Symposium on Intelligent Information Technology Application,2009.
[4]TSUBAKI I,SHIMENO A,TSUKUBA T.2D to 3D conversion based on tracking both vanishing point and objects[C]//The 1st IEEE Global Conference on Consumer Electronics,2012.
[5]ZHANG Z B,WANG Y Z,JIANG T T,et al.Visual pertinent 2D-to3D video conversion by multi-cue fusion[C]//18th IEEE International Conference on Image Processing,2011.
[6]ZHANG Z,ZHOU C,XIN B,et al.An interactive system of stereoscopic video conversion[C]//Proceedings of the 20th ACM international conference on Multimedia,New York.2012.
[7]LAI Y K,LAI Y F,CHEN Y C.An effective hybrid depthperception algorithm for 2D-to-3D conversion in 3D display systems[C]//IEEE International Conference on Consumer Electronics(ICCE),Las Vegas,2012.
[8]IDESES I A,YAROSLAVSKY L P,F(xiàn)ISHBAIN B,et al.3D from Compressed 2D Video[J].Proc.SPIE,2007,6490:64901C -1.
[9]SAXENA A,SUN M,NG A Y.Learning 3-D scene structure from a single still image[C]//IEEE Tractions on PAMI,Rio de Janeiro:2009.
[10]張繼國,SINGH V P.信息熵——理論與應(yīng)用[M].北京:中國水利水電出版社,2012.
[11]張學(xué)工.模式識別[M].3版.北京:清華大學(xué)出版社,2010.
[12]隋玉敏.高標(biāo)清混合視頻監(jiān)控系統(tǒng)的設(shè)計與實施[J].哈爾濱商業(yè)大學(xué)學(xué)報:自然科學(xué)版,2014,30(1):93-96,108.