胡育濤,錢 慧,余 輪
(福州大學 物理與信息工程學院,福建 福州350002)
傳統(tǒng)視頻編解碼算法(MPEG,H.26x)的復雜度集中在編碼端,編碼端的復雜度是解碼端的5~10倍,適合一些編碼端有較強運算能力的場合。但是這種編碼器因其編碼端的高復雜度很難適用于無線傳感器網絡,如移動視頻攝像等使用小型、低功耗的便攜設備中。分布式視頻編碼(DVC)[1]技術是為了適應低復雜的編碼而出現的視頻編碼框架,它利用視頻信號的時間、空間相關性,結合Slepian-Wolf[2]無損編碼理論和Wyner-Ziv[3]有損編碼理論,把復雜的運動估計、運動補償技術從編碼端轉移到解碼端。
然而,目前大多數的DVC采用DCT變換編碼的方法壓縮信息。該種方法通常對非關鍵幀進行DCT變換,然后利用邊信息和非關鍵幀之間的相關關系壓縮視頻信號的DCT系數。該種處理方法在對視頻信號進行變換后再拋棄冗余數據,因此DCT變換環(huán)節(jié)存在大量的信號處理冗余。
近幾年來,以“邊變換邊壓縮”為思想的壓縮感知(Compressive Sensing,CS)[4-5]理論越來越受到人們的關注,是當前信號處理領域的一個研究熱點。壓縮感知理論認為[6]:只要信號是可壓縮的或是在某個變換域是稀疏的,此時可以利用測量矩陣將此高維信號投影到低維空間上,然后利用這些少量的投影值使用求解算法重構出原始信號。壓縮感知的顯著特點是把變換與壓縮有效地結合起來,從而降低編碼端的復雜度,提高編碼效率。
2009年Baron等人提出了分布式壓縮感知的概念(DCS)[7],它把壓縮感知理論擴展到分布式相關信源編碼中。分布式壓縮感知與傳統(tǒng)壓縮感知不同,它是建立在信號集“聯(lián)合稀疏(Joint Sparity Model,JSM)”的假設之上,利用信號間的相關性進行編解碼。在視頻序列中,同一場景的視頻圖像之間具有較強的相關性,可以把它們看作是一種特殊的相關信源,Thong T.Do提出的DISCOS[8]和Kang提出的DCVS都屬于分布式視頻壓縮感知(Distributed Compressive Video Sensing)[9],所不同的是Thong T.Do對關鍵幀采用幀內編碼,非關鍵幀采用CS編碼,而Kang則是兩種幀都采用了CS編碼。同時,使用當前幀與參考幀差值的稀疏性進行殘差重構[10],也可以使重構質量有所提高。
假設長度為N的信號x∈RN,在某個正交基Ψ(如小波基、DCT基)下是稀疏或是可壓縮的,則x可表示為x=ΨTθ,其中θ是信號x在正交基下的變換系數,如果θ大于0的個數為K,若K≤N,則稱θ為K稀疏。如果存在一個與Ψ不相關的測量矩陣Φ(M×N),那么根據式(1)可得到x的測量值y。編碼見式(1)
解碼見式(2)
式中:y是1個M×1的向量(M?N),可定義測量率MR=M/N。
解碼端根據接收到的測量值y,根據式(2)解l0范數優(yōu)化問題得到重構系數θ,其中求解l0范數優(yōu)化問題的本質是一個NP難的問題,計算復雜,求解較難,因此Donoho[4]將此問題用l1范數進行求解,求解方法有貪婪追蹤法(OMP[11])、梯度投影法(GPRS[12])等,然后根據求得的θ反變換后得到原始信號X。同時S.Mun等使用平滑投影LandWeber算法(Smoothed Projected LandWeber,SPL)[13]取得較好的效果。
分布式壓縮感知(DCS)理論建立在信號群的“聯(lián)合稀疏”的概念上,其主要思想是在編碼端利用聯(lián)合稀疏模型對每個信號進行獨立觀測和編碼,取得較少的觀測數量,而在解碼端利用各個信號間的相關性進行聯(lián)合解碼。Baron在DCS中定義了3種不同的聯(lián)合稀疏模型[7],分別適用于3種不同場合,其中JSM-3更適合視頻信號。
針對JSM-3的描述如下
式中:zC=ΨθC代表公共部分;zUj=ΨθUj代表了每個信號的特有部分。在這里,信號的公共部分不一定在基Ψ上稀疏,而特有部分在基Ψ上稀疏的,因此,在解碼時需要利用它們之間的共有公共部分壓縮信息,然后進行聯(lián)合解碼,如果兩個信號之間的相關性越強,那么聯(lián)合重構出的效果也會越好。本文通過構建兩個相關性很強的視頻信號用以重構原始的視頻信號。
邊信息產生方法有直接平均值、前向運動估計、后向運動估計,雙向運動估計等。本文產生邊信息的方法是運動補償內插法[14],它在內插過程中,利用前后相鄰(Xi-1,Xi+1)已解碼圖像,通過一系列的操作使運動矢量盡可能接近運動目標的真實運動軌跡,使產生的邊信息(Yi)更接近目標幀。
本文對視頻信號采用基于塊的CS測量,塊大小為32×32,采用獨立同分布的高斯隨機矩陣ΦB作為測量矩陣,分別用前一幀、后一幀、平均值、運動補償內插[14]作為邊信息得到各個塊的殘差重構,其重構信號的PSNR如圖1所示。雖然運動補償內插法生成的邊信息與原始視頻信號相似性更高,但從圖中可以看出此方法的邊信息重構的效果在有些塊上會比其他方法的邊信息重構的效果差,為此在編碼端利用簡單的“塊相似性判斷”決定每個塊使用哪種方法生成邊信息,從而提高重構質量。通過對運動補償內插產生的邊信息進行優(yōu)化,這樣能使優(yōu)化后的邊信息與原始視頻幀的相關性更強,使它們之間的差值更加稀疏,從而使重構的效果更好。
圖1 foreman.cif的第2幀,CS塊采樣率MR=50%,不同方法的邊信息得到各個塊的重構效果比較
通過上面的分析,本文提出一種新的基于邊信息的分布式視頻壓縮感知的殘差重構方案,如圖2所示。
2.3.1 編碼端
依據DVC的基本思想,對關鍵幀采用傳統(tǒng)的幀內編碼,而非關鍵幀采用基于塊的CS測量得到測量值yj。其中在“塊相似性判斷”部分,對相鄰視頻塊間進行簡單的相似性判斷,即對當前非關鍵的第i幀的第j塊(xi,j)與前(xi-1,j)、后(xi+1,j)幀的相應塊及其平均值((xi-1,j+xi+1,j)/2)分別進行差值運算,設定一個閾值T,根據3個差值中是否存在最小值小于T,發(fā)送一個標志位作為解碼端邊信息的優(yōu)化,在本文中定義標志位flag的值為[0,1,2,3 ]分別表示與xi,j最相似的塊不存在或者是xi-1,j,xi+1,j,(xi-1,j+xi+1,j)/2。
圖2 基于邊信息的分布式視頻壓縮感知的殘差重構框架
2.3.2 解碼端
根據收到的標志位(flag)對運動補償內插法產生的邊信息進行優(yōu)化,優(yōu)化方法為
式中:x'i-1,j,x'i+1,j分別表示當前預測幀塊通過幀內解碼的前、后幀塊,這樣就得到了優(yōu)化后的預測幀,它與原始幀有更好的相關性。
對優(yōu)化后的邊信息進行基于塊的測量,對于第i幀的第j塊有測量值,因此,可以得到隨機投影域的殘差yri,j,即
式中:xri,j表示原始視頻幀塊xi,j與預測塊之間的差值;yi,j為所接收到的測量值,但是在這里xi,j是未知的。最后利用SPL算法得到重構的預測差值xri,這樣就得到了對原始幀的估計,即
具體的解碼算法步驟為:
1)根據已解碼的關鍵幀,利用運動補償內插法生成初始邊信息;
2)利用式(4)進行邊信息優(yōu)化;
3)對每個塊j有
5)利用SPL算法得到重構的預測差值xr;
為了驗證本文所提出的壓縮編碼方法對邊信息的處理能力,本文選取視頻測試序列運動細節(jié)較多的foreman.cif和運動細節(jié)較少的coastguard.cif各100幀,視頻圖像組GOP=2,其中關鍵幀為奇幀,非關鍵幀為偶幀,選擇塊的大小為32×32,對于測量矩陣采用獨立同分布的高斯隨機矩陣ΦB,使用DCT作為CS的變換基,CS的重構方法為SPL算法,使用峰值信噪比(PSNR)來衡量重構的視頻質量。圖3顯示了本文方法與DISCOS[8]和DCVS[9]的方法得出的不同觀測率下恢復的非關鍵幀性能的比較,從圖中可以看出本文提出的方法在運動細節(jié)較為豐富的foreman.cif中較之DISCOS重構質量有所下降但對于DCVS方法卻有很大的提高,在運動細節(jié)較少的coastguard.cif上性能比DISCOS的質量提高了4~6 dB,這是因為在foreman.cif中得到的邊信息與非關鍵幀的相關性較低,而coastguard.cif中它們之間的相關性較高。
圖3 本文方法與DISCOS,DCVS的方法進行性能對比
本文提出了一種基于邊信息的分布式視頻壓縮感知的殘差重構方案,利用邊信息與原始幀之間殘差值的稀疏性來降低采樣率,并使用一種簡單、有效的殘差重構方法。實驗證明該方法對運動細節(jié)較少的視頻有較大的提高。在后面的研究中,如何進行觀測值的量化和編碼將是重點。
[1]GRIOD B,ARON A,RANE S.Distributed video coding[J].Proceedings of the IEEE,2005,93(1):71-83.
[2]SLEPIAN J D,WOLF J K.Noiseless coding of correlated information sources[J].IEEE Trans.Information Theory,1973,19(4):471-480.
[3]WYNER A D.Recent results in the shannon theory[J].IEEE Trans.Information Theory,1974,20(1):2-10.
[4]DONOHO D L.Compressive sensing[J].IEEE Trans.Information Theory,2006,52(4):1289-1306.
[5]CANDES E,ROMBERG J,TAO T.Robust uncertainty principles:exact signal reconstruction from highly incomplete frequency information[J].IEEE Trans.Information Theory,2006,52(2):489-509.
[6]石光明,劉丹華,高大化,等.壓縮感知理論及研究進展[J].電子學報,2009,37(5):1070-1081.
[7]BARON D,WAKIN M B,DUARTE M,et al.Distributed compressed sensing[EB/OL].[2012-10-02].http://dsp.rice.edu/publications/distributed-compressed-sensing.
[8]DO T T,CHEN Y,NGUYEN D T,et al.Distributed compressed video sensing[C]//Proc.CISS 2009.[S.l.]:IEEE Press,2009:1393-1396.
[9]KANG L W,LU C S.Distributed compressive video sensing[C]//Proc.ICASSP 2009.Washington DC:IEEE Computer Society,2009:1169-1172.
[10]朱向軍,馮志林,王潔,等.運動補償預測殘差稀疏重構的壓縮視頻傳感[J].電視技術,2012,36(9):7-9.
[11]TROPP J,GILBERT A.Signal recovery from random measurements via orthogonal matching pursuit[J].IEEE Trans.Information Theory,2007,53(12):4655-4666.
[12]FIQUEIREDO M A T,NOWAK R D.Gradient projection for sparse reconstruction:application to compressed sensing and other inverse problems[J].IEEE Journal of Selected Topics in Signal Processing,2007,1(4):586-597.
[13]MUN S,FOWLER J E.Block compressed sensing of images using directional transforms[C]//Proc.DCC 2010.[S.l.]:IEEE Press,2009:3021-3024.
[14]ASCENSO J,BRITES C,PEREIRA F.Improving frame interpolation with spatial motion smoothing for pixel domain distributed video coding[C]//Proc.5th EURASIP Conference on Speech and Image Processing,Multimedia Communications and Services.[S.l.]:Slovak Republic,2005:21-26.