姚孟奇 張維忠 王靖
摘要: 針對(duì)深度視頻出現(xiàn)的許多空洞,提出一種基于張量的深度視頻空洞修復(fù)算法。首先運(yùn)用加權(quán)移動(dòng)平均機(jī)制對(duì)原始深度視頻進(jìn)行處理,得到預(yù)處理視頻,然后根據(jù)背景張量的低秩性和運(yùn)動(dòng)目標(biāo)的稀疏性,利用低秩張量恢復(fù)的方法重建張量的低秩部分和稀疏部分,實(shí)現(xiàn)背景與運(yùn)動(dòng)目標(biāo)的分離。同時(shí),針對(duì)分離出來的運(yùn)動(dòng)目標(biāo)部分,利用相似塊匹配構(gòu)造一個(gè)四階張量,根據(jù)視頻張量的低秩性和噪聲像素的稀疏性,再次利用張量恢復(fù)重建四階張量的低秩部分和稀疏部分,去除噪聲并修復(fù)視頻空洞,采用張量表征深度視頻,利用分塊處理,解決基于幀處理的傳統(tǒng)方法丟失數(shù)據(jù)信息問題,保持視頻數(shù)據(jù)的空間結(jié)構(gòu),在相同實(shí)驗(yàn)環(huán)境下,采用3個(gè)視頻進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果表明,本方法可以很好地去除噪聲,修補(bǔ)孔洞,并且基本可以還原視頻的紋理結(jié)構(gòu),保持邊緣,達(dá)到視頻增強(qiáng)的效果,顯著提高了深度視頻的質(zhì)量,魯棒性強(qiáng)。該研究對(duì)實(shí)時(shí)獲取外界信息具有重要意義。
關(guān)鍵詞: 深度視頻; 張量; 張量恢復(fù); Kinect
中圖分類號(hào): TP391.41; TP391.75文獻(xiàn)標(biāo)識(shí)碼: A
收稿日期: 20170519; 修回日期: 20170823
基金項(xiàng)目: 國家自然科學(xué)基金資助項(xiàng)目(61I70106,61305045);山東省科技發(fā)展計(jì)劃資助項(xiàng)目(2014GGX101048)
作者簡(jiǎn)介: 姚孟奇(1992),女,碩士研究生,主要從事計(jì)算機(jī)視覺研究。
通訊作者: 張維忠(1963),男,山東昌邑人,教授,博士,主要從事計(jì)算機(jī)視覺、模式識(shí)別、圖像處理方面的研究。Email: zhangwz_01@aliyun.com隨著深度傳感技術(shù)的發(fā)展,深度數(shù)據(jù)越來越多的應(yīng)用于計(jì)算機(jī)視覺、圖形圖像、虛擬現(xiàn)實(shí)等研究和應(yīng)用領(lǐng)域中,市場(chǎng)對(duì)深度視覺技術(shù)的需求也趨于井噴狀態(tài)。視頻作為人類活動(dòng)中常用的信息載體,包含了物體的大量信息,成為人類實(shí)時(shí)獲取外界信息的重要途徑。但由于設(shè)備本身的缺陷、采集源、光線等原因,常常會(huì)產(chǎn)生空洞和噪聲。目前,主流深度相機(jī)主要采用結(jié)構(gòu)光和飛行時(shí)間法(time of flight,TOF)技術(shù)。2010年下半年,微軟推出第1代基于結(jié)構(gòu)光的深度傳感器設(shè)備——Kinect;2014年10月,又推出了基于TOF的第2代Kinect。由于其價(jià)格低廉,具備同時(shí)捕捉彩色數(shù)據(jù)和深度數(shù)據(jù)的功能而得到廣泛關(guān)注。但是Kinect獲取的深度視頻質(zhì)量較差,Kinect V2的深度傳感器分辨率僅為512×424,在光滑物體表面和遮擋區(qū)域由于深度信息缺失會(huì)產(chǎn)生空洞[1],且同一區(qū)域不同時(shí)間的深度值會(huì)產(chǎn)生變化。對(duì)于單幅深度圖像的處理常用矩陣方法,而對(duì)空洞修復(fù)的研究也很多。S. Matyunin等人[2]利用幀間運(yùn)動(dòng)補(bǔ)償和中值濾波對(duì)空洞進(jìn)行修復(fù),由于沒有考慮邊界問題,當(dāng)空洞區(qū)域較大時(shí)會(huì)出現(xiàn)深度修復(fù)錯(cuò)誤問題;K.R.Vi jayanagar等人[3]在前者的基礎(chǔ)上,采用各向異性擴(kuò)散上采樣和圖像濾波結(jié)合的方法,修正邊界對(duì)齊問題,但效果并不明顯;隨后又出現(xiàn)了濾波器方法[4],利用彩色圖像作為引導(dǎo)信息修復(fù)方法[5],深度網(wǎng)絡(luò)卷積去噪修復(fù)方法[6]和一系列保持邊緣的方法[7]。對(duì)于二維視頻,傳統(tǒng)的去噪和修復(fù)大都基于幀序列,利用時(shí)域、空域信息,結(jié)合各種濾波方式進(jìn)行去噪和修復(fù)。唐權(quán)華等人[8]提出的時(shí)空聯(lián)合視頻去噪方法,同時(shí)利用信號(hào)的時(shí)域和空域相關(guān)性進(jìn)行視頻去噪,解決了傳統(tǒng)濾波器在去噪能力與模糊程度之間存在的矛盾。將雙域?yàn)V波和三維塊匹配算法結(jié)合[911],利用時(shí)空頻域相關(guān)性進(jìn)行去噪。為了改進(jìn)對(duì)視頻紋理和細(xì)節(jié)的恢復(fù),陸續(xù)有學(xué)者將運(yùn)動(dòng)補(bǔ)償、光流法引入視頻去噪[1213],充分利用了相鄰幀之間的自相似性和冗余性。由于連續(xù)多幀圖像會(huì)有很多冗余信息,給處理帶來很大麻煩,且單幀處理再組合的方式,忽略了其視頻內(nèi)在的結(jié)構(gòu)信息,增強(qiáng)后的視頻容易出現(xiàn)閃爍不連續(xù)的情況。基于此,本文利用張量[14]表征深度視頻數(shù)據(jù),將通道、時(shí)間、空間維度一次性完整表達(dá),保證了視頻內(nèi)部結(jié)構(gòu)的完整性。該研究對(duì)實(shí)時(shí)獲取外界信息具有重要意義。
1基于張量的深度視頻增強(qiáng)算法
1.1加權(quán)移動(dòng)平均機(jī)制
Kinect采集視頻時(shí),即使在同一個(gè)場(chǎng)景的同一個(gè)像素位置,其對(duì)應(yīng)的深度值也在不斷變化,這是由隨機(jī)噪聲引起的閃動(dòng)效應(yīng)。為了避免這種效應(yīng),采取如下加權(quán)移動(dòng)平均機(jī)制[15]:
1)用一個(gè)隊(duì)列表示離散的數(shù)據(jù)集,存儲(chǔ)當(dāng)前深度視頻的前N幀。
2)根據(jù)時(shí)間軸給這N幀賦權(quán)值,距離時(shí)間越近的幀權(quán)值越小。
3)新的深度幀為隊(duì)列中的深度幀加權(quán)平均得到。
在這個(gè)過程中,可以調(diào)整權(quán)值參數(shù)和N的大小,以達(dá)到最佳效果。
1.2低秩張量恢復(fù)模型
低秩張量恢復(fù)[16]也稱高階魯棒主成分分析(higherorder robust principle component analysis, highorder RPCA),能夠自動(dòng)識(shí)別矩陣中被損壞的元素,并恢復(fù)原始數(shù)據(jù)。具體描述為:將原始數(shù)據(jù)張量D分解為低秩張量L和稀疏張量S之和,即
D=L+S(1)
則張量恢復(fù)可用如下優(yōu)化問題來表示,即
minL,S Trank(L)+λ∑Ni=1‖Si‖1s.t. D=L+S(2)
其中,D,L,S∈RI1×I2×…×IN;Trank(L)表示張量L的Tucker秩。
將上述張量恢復(fù)問題轉(zhuǎn)化為凸優(yōu)化問題,即
minLi,Si∑Ni=1‖Li‖*+λ∑Ni=1‖Si‖1s.t. D=L+S(3)
其中,Li,Si分別表示張量的第i階模式(因?yàn)闃?gòu)建的張量是四階,故i取1~4)的展開矩陣;λ為固定常量。針對(duì)式(2)中的優(yōu)化問題,典型的求解方法[17]包括加速近端梯度(accelerated proximal gradient,APG)算法和增廣拉格朗日乘子法(augmented lagrange multiplier,ALM)。鑒于ALM算法的精度高且收斂速度快,本文采用ALM算法來解決此優(yōu)化問題,將其推廣到張量。根據(jù)式(2),構(gòu)造增廣拉格朗日函數(shù)為
L(Li,Si,Yi,μi)=∑Ni=1‖Li‖*+λ∑Ni=1‖Si‖1+∑Ni=112μi‖Li+Si-Di‖22-
其中,Yi是拉格朗日乘子;μi>0是懲罰因子。通過交替迭代,反復(fù)估算Li和Si,直到收斂,最終得到原始數(shù)據(jù)的低秩部分和稀疏部分。
1.3相似塊匹配
視頻的幀與幀之間有極大的相似性,所以原始視頻構(gòu)成的張量有很強(qiáng)的低秩性[18]。對(duì)當(dāng)前幀中的運(yùn)動(dòng)物體,如果場(chǎng)景沒有切換,則與之相似的部分應(yīng)該在其前后兩幀中。對(duì)每幀圖像設(shè)置一個(gè)大小為的α×α圖像塊bi,j為參考?jí)K,以此參考?jí)K為中心設(shè)置一個(gè)窗口B(i,j)=lf(α×α),其中,l為正整數(shù),f為原始視頻幀數(shù)。參考?jí)K的相似度匹配準(zhǔn)則用均方誤差函數(shù)(mean square error,MSE)[13]表示,即
MSE=1N2∑N-1i=0∑N-1j=0(Cij-Rij)2(5)
其中,N=α×α表示圖像塊bi,j的大??;Cij和Rij分別為當(dāng)前待檢測(cè)幀和參考幀的像素值。MSE值越小,表示兩個(gè)塊匹配越準(zhǔn)確。在B(i,j)中尋找與參考?jí)K相似的圖像塊bx,y,將其坐標(biāo)放在以下集合中
Ωi,j=x,y|T=MSEx,y≤t, x,y∈Β(i,j)(6)
式中,t為閾值。實(shí)驗(yàn)可根據(jù)實(shí)驗(yàn)環(huán)境多次測(cè)試確定,當(dāng)MSE值小于等于閾值時(shí),可以斷定測(cè)試塊和參考?jí)K是相似塊,并加入Ωi,j集合。取前n個(gè)最相似的塊定義為一個(gè)張量,即
PΩi,j=(DΩi,j(1),bΩi,j(2),…,bΩi,j(n))(7)
式中,bΩi,j(k)表示第k個(gè)相似塊。
對(duì)用Kinect V2獲取的色彩視頻進(jìn)行分塊,根據(jù)Registration原理[19],對(duì)深度圖和彩色圖進(jìn)行配準(zhǔn),并根據(jù)相似塊中彩色視頻的幀數(shù)和塊位置,挑出相對(duì)應(yīng)幀的深度圖中的相對(duì)塊的位置,組成張量DΩi,j,把張量DΩi,j帶入式(1),得對(duì)于塊的張量恢復(fù)模型為
minLΩi,j,SΩi,jTrank(LΩi,j)+λ‖SΩi,j‖s.t DΩi,j=LΩi,j+SΩi,j(8)
與式(1)的解法相同,得到干凈無噪的LΩi,j塊和SΩi,j噪聲。將處理過的塊重組,即可得到去噪并修復(fù)的增強(qiáng)視頻。
2實(shí)驗(yàn)及分析
2.1實(shí)驗(yàn)設(shè)置
本實(shí)驗(yàn)使用3個(gè)視頻進(jìn)行測(cè)試,測(cè)試視頻的彩色圖像幀如圖1所示。由圖1a可以看出,背景和運(yùn)動(dòng)目標(biāo)(手和書)比較簡(jiǎn)單;由圖1b可以看出,背景和運(yùn)動(dòng)目標(biāo)(純色T恤人)相對(duì)復(fù)雜,但運(yùn)動(dòng)目標(biāo)距離攝像頭遠(yuǎn),紋理比較少;由圖1c可以看出,背景比較散亂復(fù)雜,且運(yùn)動(dòng)目標(biāo)(穿紅T恤拿東西的人)紋理比較多。
2.2參數(shù)設(shè)置
為了使算法達(dá)到最佳效果,本文算法的參數(shù)設(shè)置均為經(jīng)驗(yàn)設(shè)置。確定輸入的視頻幀為120幀,相似塊個(gè)數(shù)為30,塊的大小為6×6,最大迭代次數(shù)為180,容忍閾值ε1=10-5,ε2=5×10-8。為了凸現(xiàn)本文實(shí)驗(yàn)方法的優(yōu)越性,用峰值信噪比(peak signaltonoise ratio,PSNR)[20]作為衡量去噪后視頻圖像幀的質(zhì)量指標(biāo)。將本文實(shí)驗(yàn)方法與VBM3D和RPCA方法的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,3種方法處理后的PSNR值如表1所示。
2.3實(shí)驗(yàn)結(jié)果
由表1可以看出,在相同實(shí)驗(yàn)環(huán)境下,本文研究的方法測(cè)試視頻的效果均優(yōu)于其他方法。利用本文算法去除背景的運(yùn)動(dòng)目標(biāo)增強(qiáng)后的結(jié)果如圖2所示。
圖2利用本文算法去除背景的運(yùn)動(dòng)目標(biāo)增強(qiáng)后結(jié)果其中,圖2a為原始視頻a中深度視頻幀截圖;圖2b為原始視頻b中深度視頻幀截圖;圖2c為原始視頻c中深度視頻幀截圖;圖2d為視頻a去除背景后用本文方法增強(qiáng)的結(jié)果;圖2e為視頻b去除背景后用本文方法增強(qiáng)的結(jié)果;圖2f為視頻c去除背景后用本文方法增強(qiáng)的結(jié)果。由圖2可以看出,利用本文算法對(duì)去除背景后的運(yùn)動(dòng)目標(biāo)進(jìn)行增強(qiáng)的效果很明顯,噪聲基本去除,邊緣保持較好。
用本文方法對(duì)深度視頻增強(qiáng)結(jié)果如圖3所示。圖3a為原始視頻a中深度視頻幀截圖;圖3b為原始視頻b中深度視頻幀截圖;圖3c為原始視頻幀c中深度視頻幀截圖;圖3d為用本文方法對(duì)視頻a增強(qiáng)結(jié)果視頻幀截圖;圖3e為用本文方法對(duì)視頻b增強(qiáng)結(jié)果視頻幀截圖,圖3f為用本文方法對(duì)視頻c增強(qiáng)結(jié)果視頻幀截圖。由圖3可以看出,本方法可以很好地去除噪聲,修補(bǔ)孔洞,可以還原視頻的紋理結(jié)構(gòu),保持邊緣,達(dá)到視頻增強(qiáng)的效果。
3結(jié)束語
結(jié)合張量恢復(fù)模型和視頻分塊思想,本文提出了一種基于張量的深度視頻增強(qiáng)方法。將視頻分成前景部分和背景部分,背景部分不作處理,只對(duì)前景部分進(jìn)行增強(qiáng)和去噪,減少了后期處理的工作量,提高了效率。把前景視頻圖像幀分成若干個(gè)小塊,利用相似塊匹配構(gòu)造張量表征視頻數(shù)據(jù),把視頻增強(qiáng)問題轉(zhuǎn)化成一個(gè)求張量恢復(fù)的問題。實(shí)驗(yàn)結(jié)果表明,本文方法在對(duì)深度視頻的處理上,明顯優(yōu)于傳統(tǒng)方法,在保持原始視頻紋理信息的基礎(chǔ)上,更能有效地去除干擾噪聲。但是本文算法中的參數(shù)是多次實(shí)驗(yàn)得到的經(jīng)驗(yàn)值,不能自適應(yīng)設(shè)置,下一步會(huì)對(duì)動(dòng)態(tài)背景的深度視頻增強(qiáng)進(jìn)行研究,并進(jìn)一步研究算法中參數(shù)的自適應(yīng)選擇。
參考文獻(xiàn):
[1]呂朝輝, 沈縈華, 李精華. 基于Kinect的深度圖像修復(fù)方法[J]. 吉林大學(xué)學(xué)報(bào): 工學(xué)版, 2016, 46(5): 16971703.
[2]Matyunin S, Vatolin D, Berdnikov Y, et al. Temporal Filtering for Depth Maps Generated by Kinect Depth Camera[C]∥3D TV Coferenece: The True VisionCapture, Transmission and Display of 3D Video. Antalya, Turkey: IEEE, 2011, 47(10): 14.
[3]Vijayanagar K R, Loghman M, Kim J. Refinement of Depth Maps Generated by LowCost Depth Sensors[C]∥ Soc Design Conference. Jeju Island, South Korea: IEEE, 2013: 355358.
[4]Lin X, Yuan F, Cheng E. Kinect Depth Image Enhancement with Adaptive Joint MultiLateral Discrete Filters[J]. Journal of Difference Equations and Applications, 2016, 44(3): 117.
[5]Liu J Y, Gong X J, Liu J L. Guided Inpainting and Filtering for Kinect Depth Maps[C]∥IEEE International Conference on Pattern Recognition. Tsukuba, Japan: IEEE, 2012: 20552058.
[6]Zhang X, Wu R Y. Fast Depth Image Denoising and Enhancement Using a Deep Convolutional Network[C]∥IEEE International Conference on Acoustics, Speech and Signal Processing. Shanghai, China: IEEE, 2016: 24992503.
[7]Xie J, Feris R S, Sun M T. EdgeGuided Single Depth Image Super Resolution[J]. IEEE Transactions on Image Processing, 2016, 25(1): 428438.
[8]唐權(quán)華, 雷金娥, 周艷, 等. 一種時(shí)空聯(lián)合的視頻去噪方法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2010, 46(6): 163165.
[9]肖進(jìn)勝, 李文昊, 姜紅, 等. 基于雙域?yàn)V波的三維塊匹配視頻去噪算法[J]. 通信學(xué)報(bào), 2015, 36(9): 9197.
[10]肖進(jìn)勝, 姜紅, 彭紅, 等. 一種改進(jìn)的三維塊匹配視頻去噪算法[J]. 四川大學(xué)學(xué)報(bào): 工程科學(xué)版, 2014, 46(4): 8186.
[11]Chen D Y, Ju C C, Ho C T. Method and apparatus for image denoising with threedimensional blockmatching, US9123103[P]. 2015.
[12]Buades A, Lisani J L, Miladinovc M. PatchBased Video Denoising with Optical Flow Estimation[J]. Transactions Image Proces, 2016, 25(6): 25732586.
[13]Wen B, Ravishankar S, Bresler Y. Video Denoising by Online 3D Sparsifying Transform Learning[C]∥IEEE International Conference on Image Processing. Quebec City, QC, Canada: IEEE, 2015: 118122.
[14]陳代斌, 楊曉梅. 基于低秩張量恢復(fù)的視頻塊效應(yīng)處理[J]. 計(jì)算機(jī)科學(xué), 2016, 43(9): 280283.
[15]彭義剛, 索津莉, 戴瓊海, 等. 從壓縮傳感到低秩矩陣恢復(fù): 理論與應(yīng)用[J]. 自動(dòng)化學(xué)報(bào), 2013, 39(7): 981994.
[16]柳欣, 鐘必能, 張茂勝, 等. 基于張量低秩恢復(fù)和塊稀疏表示的運(yùn)動(dòng)顯著性目標(biāo)提取[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2014, 26(10): 17531763.
[17]Dabov K, Foi A, Egiazarian K. Video Denoising by Sparse 3D TransformDomain Collaborative Filtering[C]∥Signal Processing Conference, European. Poznan, Poland: IEEE, 2008: 145149.
[18]何富多, 胡燕祝. Kinect彩色相機(jī)與深度相機(jī)的標(biāo)定與配準(zhǔn)[D]. 北京: 北京農(nóng)業(yè)大學(xué), 2015.
[19]Wang Z Y, Hu J H, Wang S Z, et al. Trilateral Donstrained Sparse Representation for Kinect Depth hole Filling[J]. Pattern Recognition Letters, 2015, 65(C): 95102.
[20]楊嘉琛, 侯春萍, 沈麗麗, 等. 基于PSNR立體圖像質(zhì)量客觀評(píng)價(jià)方法[J]. 天津大學(xué)學(xué)報(bào): 自然科學(xué)與工程技術(shù)版, 2008, 41(12): 14481452.