摘 要: 為了滿(mǎn)足實(shí)時(shí)性要求嚴(yán)格的應(yīng)用場(chǎng)合,分布式視頻編碼系統(tǒng)中通常采用外推技術(shù)生成邊信息。提出了一種基于自適應(yīng)三維遞歸搜索(3D Recursive Search,3DRS)運(yùn)動(dòng)估計(jì)的邊信息外推方法,采用自適應(yīng)3DRS算法生成運(yùn)動(dòng)矢量場(chǎng)。最后,對(duì)不同的邊信息生成方法進(jìn)行仿真,仿真結(jié)果表明,所提出的方法提高了邊信息的質(zhì)量。
關(guān)鍵詞: 分布式視頻編碼; 邊信息; 外推; 3DRS
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2014)09-21-03
Side information extrapolation based on 3DRS
Di Jinhong1, Liu Yi2
(1. Department of Electronic and Communication Engineering, Zhengzhou Institute of Aeronautical Industry Management, Zhengzhou, Henan 450015, China; 2. School of Information Engineering, Beijing Institute of Fashion Technology)
Abstract: To meet the demand of low-delay and real-time in some applications, side information extrapolation is adopted in distributed video coding. A side information extrapolation algorithm based on self-adaptive 3D recursive search motion estimation is presented in this paper. A self-adaptive 3D recursive search motion estimation algorithm is used to estimate motion field between two reference frames. The computer simulations are implemented for different side information generation methods. The results demonstrate that the proposed method can significantly improve the quality of side information.
Key words: distributed video coding; side information; extrapolation; 3DRS
0 引言
隨著網(wǎng)絡(luò)技術(shù)、無(wú)線通信技術(shù)和計(jì)算機(jī)技術(shù)的飛速發(fā)展,近年來(lái)涌現(xiàn)出許多具有嶄新特點(diǎn)的多媒體應(yīng)用設(shè)備,如無(wú)線視頻傳感器監(jiān)控網(wǎng)絡(luò)、移動(dòng)攝像手機(jī)和便攜式攝像機(jī)等[1]。它們?cè)诖鎯?chǔ)容量、計(jì)算能力和功率資源等方面都受到很大的限制,這些應(yīng)用場(chǎng)景的視頻編碼具有不同于傳統(tǒng)視頻壓縮編碼的特點(diǎn)[2]:編碼設(shè)備簡(jiǎn)單并且能量受限,而解碼設(shè)備一般無(wú)能量限制并且具有較強(qiáng)的計(jì)算能力。因此編碼復(fù)雜度較高的傳統(tǒng)混合編碼技術(shù)H.264及HEVC不再適用新應(yīng)用的需求。一種新的視頻編碼框架——分布式視頻編碼(Distributed Video Coding,DVC)引起人們的廣泛關(guān)注,它為以上應(yīng)用場(chǎng)合提供了很好的解決方案。DVC突破了傳統(tǒng)視頻編碼的束縛,將耗時(shí)耗功率的運(yùn)動(dòng)估計(jì)/補(bǔ)償從編碼端移到解碼端,采用“幀內(nèi)編碼+幀間解碼”技術(shù),有效降低了編碼復(fù)雜度。此外DVC系統(tǒng)結(jié)構(gòu)還具有抗傳輸誤碼的優(yōu)點(diǎn)。
分布式視頻編碼系統(tǒng)中,邊信息是關(guān)鍵技術(shù)之一。邊信息可以看作是原始WZ幀的信息與虛擬信道噪聲的疊加。邊信息的質(zhì)量越高,解碼所需的校驗(yàn)位就越少,解碼出的WZ幀質(zhì)量就越好。因此邊信息的質(zhì)量是影響DVC系統(tǒng)的率失真性能的重要因素之一。文獻(xiàn)[3]提出發(fā)送Hash碼到解碼端用于輔助生成邊信息,以提高邊信息的質(zhì)量。但是需要通過(guò)信道傳輸額外的數(shù)據(jù),增加了編碼端的復(fù)雜度。J. Ascenso等[4]提出了基于去噪濾波器的邊信息迭代算法。在解碼端產(chǎn)生多個(gè)邊信息,去噪濾波器采用統(tǒng)計(jì)學(xué)習(xí)的方法,自適應(yīng)地選擇已經(jīng)生成的邊信息幀,進(jìn)而得到新的邊信息的增強(qiáng)幀。M. O. Akinola等[5]提出了一種高階分段軌跡的時(shí)域內(nèi)插算法(Higher-Order Piecewise Temporal Trajectory Interpolation, HOPTTI)產(chǎn)生邊信息。仿真結(jié)果表明,與現(xiàn)有的時(shí)域內(nèi)插算法相比,新算法取得了較好的邊信息質(zhì)量,特別是對(duì)于非線性運(yùn)動(dòng)的視頻序列,改善更為明顯。在隨后的研究中,又將自適應(yīng)重疊塊運(yùn)動(dòng)補(bǔ)償(Adaptive overlapped block motion compensation, AOBMC)算法與HOPTTI相結(jié)合,進(jìn)一步提高邊信息的質(zhì)量,PSNR值改善高達(dá)3.6dB[6]。以上邊信息生成技術(shù)都是基于運(yùn)動(dòng)補(bǔ)償?shù)膬?nèi)插算法,但是內(nèi)插的方法是非順序解碼,會(huì)造成結(jié)構(gòu)上的延遲。同時(shí),對(duì)于時(shí)延要求比較嚴(yán)格的應(yīng)用場(chǎng)合,這類(lèi)方法都受到限制。運(yùn)動(dòng)補(bǔ)償外推法用已經(jīng)解碼的關(guān)鍵幀進(jìn)行運(yùn)動(dòng)估計(jì),沒(méi)有用到當(dāng)前WZ幀之后的視頻幀,因此降低了時(shí)延。本文提出了一種基于自適應(yīng)3DRS的邊信息外推方法,有效地提升邊信息外推的質(zhì)量的同時(shí)也保證了低延遲特性。
1 邊信息外推技術(shù)
本文提出一種基于自適應(yīng)3DRS運(yùn)動(dòng)估計(jì)的邊信息外推生成方法。如圖1所示,邊信息產(chǎn)生模型分為四個(gè)子模塊:自適應(yīng)3DRS運(yùn)動(dòng)估計(jì),運(yùn)動(dòng)域平滑、運(yùn)動(dòng)投影、處理重疊和未覆蓋區(qū)域。
邊信息生成過(guò)程:首先利用前兩個(gè)已解碼的幀Xn-1和Xn-2,通過(guò)3DRS運(yùn)動(dòng)估計(jì)構(gòu)建一個(gè)運(yùn)動(dòng)矢量場(chǎng),具體算法后面將給出;其次,進(jìn)行運(yùn)動(dòng)矢量場(chǎng)平滑,其目的是對(duì)上一步生成運(yùn)動(dòng)矢量場(chǎng)施加光滑性約束,來(lái)增加運(yùn)動(dòng)預(yù)測(cè)的魯棒性,這里采用加權(quán)中值濾波器實(shí)現(xiàn);然后,使用從參考幀得到的運(yùn)動(dòng)矢量預(yù)測(cè)當(dāng)前幀的運(yùn)動(dòng)場(chǎng);最后利用當(dāng)前幀的運(yùn)動(dòng)矢量場(chǎng)來(lái)產(chǎn)生邊信息。這種情況下運(yùn)動(dòng)補(bǔ)償后會(huì)出現(xiàn)重疊區(qū)域和未覆蓋區(qū)域,需要做進(jìn)一步的處理。重疊區(qū)域意味著對(duì)于一幀的同一位置有多個(gè)估計(jì)值,因此,需要確定一個(gè)惟一值。這里取多個(gè)預(yù)測(cè)值的平均值作為最后的估計(jì)值。對(duì)于未覆蓋區(qū)域,取周?chē)A(yù)測(cè)像素的平均值來(lái)填充未覆蓋區(qū)域。
本文提出的自適應(yīng)3DRS運(yùn)動(dòng)估計(jì)算法,與全搜索運(yùn)動(dòng)估計(jì)相比,可以得到一個(gè)更接近于真實(shí)運(yùn)動(dòng)場(chǎng)的運(yùn)動(dòng)矢量。3DRS算法也屬于塊匹配運(yùn)動(dòng)估計(jì)算法[7],與一般的塊匹配算法不同,3DRS算法認(rèn)為運(yùn)動(dòng)矢量在時(shí)間和空間上存在一致性。3DRS基于以下兩個(gè)假設(shè):①物體的尺寸大于宏塊的尺寸;②物體運(yùn)動(dòng)的連續(xù)性。這里采用的自適應(yīng)3DRS運(yùn)動(dòng)估計(jì)算法,是將原來(lái)的7個(gè)預(yù)測(cè)矢量減少到5個(gè)(即將初始預(yù)測(cè)集中塊的個(gè)數(shù)減少為5),并且這5個(gè)預(yù)測(cè)矢量與當(dāng)前塊的運(yùn)動(dòng)更為接近。從而在不降低運(yùn)動(dòng)估計(jì)質(zhì)量的前提下,減少了計(jì)算復(fù)雜度。
在已解碼的幀Xn-1和Xn-2之間進(jìn)行前向遞歸搜索,具有最小SAD值的參考?jí)K對(duì)應(yīng)的運(yùn)動(dòng)矢量即為當(dāng)前預(yù)測(cè)塊的前向運(yùn)動(dòng)矢量Vf。在進(jìn)行遞歸搜索時(shí),設(shè)Xn-1為當(dāng)前預(yù)測(cè)幀,Xn-2為參考幀,F(xiàn)1和F2為參考幀Xn-2中的初始參考?jí)K。F3、F4、F5和F6為當(dāng)前幀Xn-1中的初始參考?jí)K。此6個(gè)候選預(yù)測(cè)參考?jí)K的位置如圖2所示,其具體遞歸搜索過(guò)程如下。
⑴ 計(jì)算初始參考?jí)KF1以及4個(gè)鄰塊與當(dāng)前預(yù)測(cè)塊的絕對(duì)誤差和(SAD),計(jì)算公式如下:
將SAD值最小的塊作為新的參考?jí)K并標(biāo)為F1,重復(fù)上述過(guò)程直到F1位置不變。
⑵ 對(duì)其他5個(gè)候選參考?jí)KF2、F3、F4、F5和F6分別如⑴中所述,進(jìn)行SAD值計(jì)算,找到新的參考?jí)K位置,此時(shí)認(rèn)為6個(gè)候選預(yù)測(cè)分支都已聚合。
⑶ 在所有的分支都收斂后,獲得6個(gè)分支的最小SAD值的塊的運(yùn)動(dòng)矢量,此時(shí),編碼端只需要計(jì)算一個(gè)來(lái)自解碼端的候選運(yùn)動(dòng)矢量,具有最小SAD值的參考?jí)K對(duì)應(yīng)的運(yùn)動(dòng)矢量即為當(dāng)前預(yù)測(cè)塊的前向運(yùn)動(dòng)矢量Vf。
2 仿真結(jié)果及分析
仿真測(cè)試序列為QCIF格式的Hall、Mother-daughter、Carphone和Foreman序列;選取100幀進(jìn)行實(shí)驗(yàn);每組圖片(GOP)的數(shù)目是2,偶數(shù)幀為關(guān)鍵幀,奇數(shù)幀為WZ幀。實(shí)驗(yàn)過(guò)程中,只有每一幀的亮度分量被用來(lái)計(jì)算峰值信噪比PSNR。在DVC系統(tǒng)中,影響系統(tǒng)性能的因素有很多,為了考察算法本身的性能,這里假定外推用到的參考幀關(guān)鍵幀都能無(wú)失真重建。將本文提出的算法與Natario等[8]提出的算法以及文獻(xiàn)[9]的內(nèi)插算法作了比較。表1給出了三種算法的PSNR值。
從表1可以看出,使用3DRS算法進(jìn)行運(yùn)動(dòng)估計(jì),對(duì)所有測(cè)試序列,邊信息的PSNR值都有了不同程度的提高;相比普通外推生成的邊信息,這種方法進(jìn)一步縮小了與內(nèi)插的差距,提升了邊信息質(zhì)量。
從原理上講,3DRS算法可以更好地利用空時(shí)域相關(guān)性進(jìn)行遞歸搜索尋找匹配塊。由于它在兩個(gè)方向上收斂,可以更好地適應(yīng)快速運(yùn)動(dòng)的物體,提高運(yùn)動(dòng)估計(jì)的精度,同時(shí)也能保證良好的魯棒性。它每一次預(yù)測(cè)都會(huì)利用前面已經(jīng)得到的空時(shí)域預(yù)測(cè)值,從而使生成的矢量場(chǎng)在外推后不容易產(chǎn)生塊效應(yīng)。對(duì)于運(yùn)動(dòng)相對(duì)靜止的序列Hall,使用3DRS算法的對(duì)邊信息質(zhì)量的提升較小,這是由于靜止或均勻物體特征不容易捕捉造成的;對(duì)于細(xì)節(jié)豐富、局部小運(yùn)動(dòng)多的序列Foreman和Carphone,使用3DRS外推的效果仍然好于一般的外推,這說(shuō)明3DRS算法對(duì)局部小運(yùn)動(dòng)的估計(jì)精度要比Natario算法高。
選用Carphone第38幀的邊信息進(jìn)行直觀分析,如圖3所示。如圖3(c)所示,3DRS算法生成的邊信息幀對(duì)人的五官等細(xì)節(jié)部位的恢復(fù)效果欠佳,有種模糊感。對(duì)于圖3(b)Natario算法得到的邊信息幀,不僅人的五官不清晰,在人的衣服、車(chē)后窗等地方甚至出現(xiàn)了明顯的塊效應(yīng)。因此在直觀效果上,使用3DRS算法生成的邊信息幀更優(yōu)。
3 結(jié)束語(yǔ)
邊信息在分布式視頻編碼中起著非常重要的作用,邊信息的質(zhì)量直接影響DVC系統(tǒng)的率失真性能。本文提出了基于3DRS算法的邊信息外推方法,采用自適應(yīng)3DRS運(yùn)動(dòng)估計(jì)算法提高運(yùn)動(dòng)矢量的準(zhǔn)確度,進(jìn)而提高了邊信息的質(zhì)量。因此,運(yùn)動(dòng)估計(jì)算法本身也是DVC技術(shù)的一個(gè)研究重點(diǎn)。
參考文獻(xiàn):
[1] F. Pereira, L. Torres, C. Gullemot, et al. Distributed video coding:
selecting the most promising application scenarios. Elsevier Journal Signal Processing: Image Communication,2008.23(1):339-352
[2] 宗曉飛.信源網(wǎng)絡(luò)聯(lián)合編碼關(guān)鍵技術(shù)研究及應(yīng)用[D].北京郵電大學(xué),
2009.
[3] N. Deligiannis, M. Jacobs, F. Verbist, et al. Efficient hash-driven
Wyner-Ziv video coding for visual sensors. IEEE International Conference on Distributed Smart Cameras, ICDSC2011,2011:1-6
[4] J. Ascenso, C. Brites, and F. Pereira. A denoising approach for
iterative side information creation in distributed video coding. IEEE International Conference on Image Processing, ICIP2011, Brussels, Belgium,2011:3513-3516
[5] M. O. Akinola, L. S. Dooley, and P. K. C. Wong. Wyner-Ziv side
information generation using a higher order piecewise trajectory temporal interpolation algorithm. International Conference on Graphic and Image Processing, Manila, Philippines, Dec,2010.
[6] M. O. Akinola, L. S. Dooley, P. K. C. Wong. Improved side
information generation using adaptive overlapped block motion compensation and higher-order interpolation. International Conference on Systems. Signals and Image Processing,2011:1-4
[7] W. J. Chien, J. K. Lina, and P. A. Glen. Distributed video coding
with 3-D recursive search block matching. IEEE International Symposium on Circuits and Systems, Puerto Rico, August 2006.
[8] L. Natario, C. Brites, J. Ascenso, et al. Extrapolating side
information for low-delay pixel-domain distributed video coding. International Workshop on Very Low Bit rate Video Coding, Sardinia, Italy, Sept. 2005:16-21
[9] A. Aaron, S. Rane, E. Setton, et al. Transform-domain
Wyner-Ziv codec for video. SPIE Conference on Visual Communications and Image Processing,2004:520-528