戴越越,曹雪情,陳 瑞,楊 潔,曹雪虹
(1.南京郵電大學 通信與信息工程學院,江蘇 南京 210003;2.南京工程學院 通信工程學院,江蘇 南京 211167)
基于分類加權邊信息的DVCS重建算法
戴越越1,曹雪情1,陳 瑞2,楊 潔2,曹雪虹2
(1.南京郵電大學 通信與信息工程學院,江蘇 南京 210003;2.南京工程學院 通信工程學院,江蘇 南京 211167)
現有的分塊視頻壓縮感知在獲取邊信息時,通常對所有圖像塊均采用固定權值邊信息合成方法,該方法忽略了不同圖像塊之間相關度不同的問題。針對這一問題,根據貝葉斯壓縮感知和運動估計理論,提出了一種基于塊的分類加權邊信息生成方案的分布式視頻解碼方法。在解碼端利用相鄰關鍵幀中不同塊的相關度差異,對相鄰關鍵幀進行基于塊的分類加權運動估計,生成邊信息,進而完成非關鍵幀的重構??紤]到加權系數的大小取決于相鄰關鍵幀對應塊的相關度,所采用的重建算法是基于TSW-CS模型的貝葉斯壓縮感知重構算法。分別采用固定權值邊信息生成方法和分類加權邊信息生成方法對不同視頻序列進行了實驗對比,實驗結果表明,采用分類加權邊信息方法生成的視頻重建PSNR值比固定權值邊信息生成方法平均提高了0.2~0.5 dB,所采用的解碼方法可有效地提高視頻壓縮感知重構質量。
邊信息;運動估計;貝葉斯壓縮感知;小波樹;分布式視頻編碼
近年來,為了解決大數據量的圖像視頻類多媒體信號在無線網絡中的實時傳輸問題,分布式視頻編碼(Distributed Video Coding,DVC)[1-3]受到了普遍關注。它在編碼端對信源進行獨立編碼,在解碼端利用視頻序列的相關性進行聯合解碼,將編碼的運算復雜度從編碼端移到解碼端。目前,這種低復雜度視頻編碼已經適用于一些新興的應用,例如視頻會議、移動設備和無線傳感器網絡(Wireless Sensor Network,WSN)[4]等。傳統(tǒng)的分布式視頻編碼是基于信道編碼的,對于單幅圖像的編碼仍需要大量計算。近年來,壓縮感知(Compressed Sensing,CS)理論的提出打破了Nyquist采樣定理的瓶頸,將采樣和壓縮合并處理,在接收端通過最優(yōu)化算法重構原信號,可以極大地降低編碼端的復雜度[4-5]。因此,將壓縮感知理論引入分布式視頻編碼中,形成了一些新的分布式視頻壓縮感知(Distributed Video Compressed Sensing,DVCS)編解碼方案[6-12]。這些方案主要分為兩類,第一類方案的特點是將視頻分為關鍵幀和CS幀,關鍵幀采用傳統(tǒng)視頻編解碼方案,而非關鍵幀采用壓縮感知的方法,簡化了編碼端的復雜度。并且在解碼過程中,非關鍵幀的重建利用了關鍵幀重建之后的圖片來訓練字典。典型的框架有Thong T. Do等提出的一種分布式視頻壓縮感知結[6]和Josep Prades-Nebot等提出的基于壓縮感知的框架[7]。相比第一類方案,第二類方案在其基礎上進行改進,與第一類方案不同的是,該類方案在對關鍵幀編碼時也采用壓縮感知方法,相比非關鍵幀,關鍵幀采用更高的采樣率進行采樣,然后進行稀疏重建。這樣可以減少關鍵幀的數據傳輸,也進一步簡化了編碼端的復雜度。比較典型的框架有Kang L W等提出的分布式視頻壓縮感知框架[8]。在此基礎上,又出現了許多改進框架。例如,文獻[9]在邊信息生成方面進行了改進,利用邊信息生成了字典,再利用字典去重建非關鍵幀,取得了不錯的重建效果,但是沒有充分利用視頻序列的相關性。文獻[10]提出了更高效的重建算法:基于塊平滑投影的Landweber迭代重構算法。文獻[11]在文獻[8]的基礎上提出根據視頻非局部相似性生成正則化項,并以此正則項作為邊信息,融合到重建算法中。此方法能夠有效去除邊緣與紋理區(qū)域的模糊以及塊效應現象。文獻[12]對字典學習進行了研究,提出了子空間解析字典學習算法。文獻[8]提出的框架幾乎將所有的計算負擔都轉移到了解碼端,在解碼端再結合壓縮感知重構算法與連續(xù)幀之間的統(tǒng)計相關性來重建視頻數據。
雖然文獻[8]提出的框架在解碼端利用了幀間相關性提升重構質量,但沒有考慮到視頻序列相鄰關鍵幀的不同區(qū)域內幀間相關性的不同的問題。鑒于該框架對幀間相關性的利用不足,提出了一種基于塊的分類加權邊信息生成(Classified Weighted Side Information,CWSI)方案的分布式視頻解碼方法。與文獻[8]提出的框架相比,該方法更充分地利用了相鄰關鍵幀的幀間相關性,提升了視頻幀的重構質量。
由于一次處理一幅圖像的運算量較大,為了降低運算強度,通常采用基于塊的分布式壓縮感知視頻編碼框架。在此框架中,視頻序列首先被拆成關鍵幀和非關鍵幀,然后分別對關鍵幀和非關鍵幀進行稀疏表示,接著進行基于塊的壓縮感知測量。其中,關鍵幀采用較高的采樣率,非關鍵幀采用較低的采樣率。DVCS框架中的主要模塊包括稀疏表示、測量矩陣的設計和重建算法三部分。
1.1 稀疏表示
信號的稀疏表示是壓縮感知處理過程的必要條件,否則就無法對采樣后的信號進行重建。稀疏表示可采用的稀疏基有很多,常見的有離散余弦變換基、快速傅里葉變換基、離散小波變換基、Curvelet基、冗余字典等。由于離散小波變換(Discrete Wavelet Transform,DWT)在圖像壓縮領域的廣泛應用,壓縮感知領域普遍采用小波基進行稀疏表示。小波變換系數不但具有稀疏性,且各層系數之間以及每一層內都有較強的相關性。在小波樹結構中,左上角為低頻尺度系數;其他部分為高頻系數。低頻系數為顯著系數,包含圖像的絕大部分信息且值較大。而高頻系數大多幅值很小,包含的是與圖像細節(jié)相關的信息。
文獻[13]中提出了貪婪樹和最優(yōu)樹兩種小波樹,并在非線性逼近中應用它們。其中,貪婪樹的核心是若父系數較大,則可以得出其子系數也較大,因此在選擇較大的系數時也包括了其所有父系數。當小波系數符合由樹根向下依次遞減時,貪婪數逼近可以快速找到準確的估計值。若不滿足依次遞減時,當選擇了離根部較遠的某個孤立的大系數時,同樣選擇了其所有父系數,然而這些父系數可能較小,因此逼近誤差就會較大,此時就可采用最優(yōu)樹逼近方法。最優(yōu)樹逼近是借助最優(yōu)算法找到最優(yōu)的子樹,然后將最優(yōu)子樹中的系數放入估計值中的一種方法。通過小波基的樹結構特性和層級間相關性可以定義稀疏度為K的樹結構稀疏信號,如式(1)所示:
(1)
1.2 重構算法
壓縮感知理論中最核心的內容是重構算法。重構算法的核心是怎樣從低維信號中最大程度地恢復出理想的高維信號。傳統(tǒng)的壓縮感知重構算法只利用了一維信號或圖像在某些正交基下可以實現稀疏的特性,然而它們通過小波分解得到的系數除稀疏性之外,還存在著一些互相關聯的結構。所采用的CS重構算法就是一種基于小波樹結構特性的貝葉斯壓縮感知重構(TSW-BCS)算法[14]。實驗表明,該重構算法可以有效利用小波系數之間的關聯性和結構特征,提升信號的壓縮度和重構精度。在小波系數中,低頻系數的值基本較大,包含了圖像的絕大部分能量,而且相鄰的系數間包含較高的相關性;而高頻系數值大多較小,但因為其代表圖像細節(jié)的相關信息,若直接舍棄會導致圖像重構后細節(jié)信息的缺失。針對上述小波系數不同部位的特征不同,采用不同的CS重構算法對低頻系數和高頻系數進行處理。其中,對小波變換的低頻系數通過求解式(2)所示的目標函數實現尺度系數的恢復:
s.t. ‖ΦLXL‖≤ξ
(2)
其中,XL和YL分別為小波尺度系數和測量值;ξ為噪聲分量;ΦL為測量矩陣;S為4×4系數塊的數量;R[·]為在方向模型基礎上進行層內系數預測的殘差。
對于高頻系數的重建,結合CS理論和貝葉斯模型,提出一種基于回歸模型的方法,將確定的先驗分布賦予未知的權值參數,從而限制小波系數的稀疏性。
假設XL∈R,L為小波稀疏的層數。在考慮噪聲的情況下,壓縮采樣數據可以表示為:
YL=φLXL+ωL
(3)
為了限制XL的稀疏性,假設其由高斯混合密度函數產生,則XL滿足如下分布:
(4)
其中,R(s)為協(xié)方差矩陣,且有高斯混合參數s構成的隨機向量s=[s1,s2,…,sn]確定。
(5)
上述方法可以獲得未知參數的一個高概率模型,進而實現MMSE意義下的小波系數的恢復。然后利用求解得到的尺度系數和高頻系數進行小波反變換實現圖像的精確重構。
2.1 框架描述
上述DCVS框架中,為了提高解碼端非關鍵幀的恢復質量,在重建非關鍵幀時加入了邊信息。對于邊信息的獲取,可以利用KSVD訓練字典生成邊信息或對已解碼的關鍵幀做運動估計,進行時域內插求取邊信息。因此,需要研究通過運動估計獲取邊信息的方法。傳統(tǒng)方法是對前后兩個關鍵幀的重構值分別作前向運動估計和后向運動估計,然后按某一固定權值相加(通常為1/2)合成邊信息重構非關鍵幀。然而視頻中不同的運動目標可能以不同的方式運動,因此不同區(qū)域的幀間相關性并不相同。當前后幀的幀間相關性較差時,前向運動估計結果與當前幀有較大差異,無法準確預測當前幀,此時后向運動估計預測結果更適合生成邊信息。而普通的邊信息生成方案只是按照固定權值合成邊信息,沒有充分利用幀間相關性。因此,根據視頻幀不同塊間的幀間相關性的不同,提出一種基于不同塊的分類加權邊信息分布式視頻編碼框架(Classified Weighted Side Information for DVCS,CWSI-DVCS),如圖1所示。
圖1 基于塊的分類加權邊信息DVCS框架
首先在編碼端分別對前后兩個關鍵幀和當前非關鍵幀做小波基稀疏和基于塊的采樣測量,關鍵幀進行高采樣,非關鍵幀進行低采樣。然后在解碼端先對前后兩個關鍵幀采用TSW-BCS重構算法進行重構。接著利用前后兩幀對應塊之間的差值能量將當前幀的塊分為3類:近似不變塊、緩慢變化塊、快速變化塊。最后對相鄰兩個關鍵幀的對應塊分別作前向和后向運動估計,再根據該塊所屬類別采用不同的加權方案生成邊信息,從而對當前幀塊進行重構。
2.2 分類判決準則
(6)
但是,不同種類視頻的亮度和對比度都有較大差異,從而導致對應的殘差能量也存在較大差別,以此作為分類判決準則導致閾值的選擇會過于依賴視頻本身,從而影響分類判決算法的通用性,因此考慮采用殘差與前一關鍵幀的參考塊的能量比值作為判決準則。
(7)
2.3 非關鍵幀重構
非關鍵幀的重構利用分類加權運動估計獲取邊信息,然后利用邊信息和當前幀測量值對當前幀進行殘差重構,最后合并邊信息和殘差重構結果獲得當前幀重構結果。
(8)
如果當前幀的預測值和當前幀的實際值越相近,兩者的殘差也就越小、越稀疏,其在非關鍵幀測量矩陣下的采樣也越小,因此殘差的重建效果也越好。非關鍵幀最終的重建結果為:
(9)
其中,xrec為非關鍵幀的重建結果;rrec為殘差的重建結果。
(10)
其中,α為權值。
如圖1所示,非關鍵幀重建的主要流程為,首先對相鄰的兩個關鍵幀的重建結果進行分類判決,然后分別對相鄰關鍵幀做前向和后向運動估計,再根據式(10)得到非關鍵幀的參考邊信息(SI)。根據SI和非關鍵幀的采樣信息,進行非關鍵幀的殘差解碼。非關鍵幀的重建算法如下所述:
輸入:y,ΦS,xt-1,xt+1
(2)根據xt-1和xt+1的分類判決結果,由式(10)得到非關鍵幀的預測邊信息;
(3)計算測量值y和SI在測量域的殘差:
r=y-TSW_CS_Encoder(SI,Φs)
(4)對殘差r進行基于TSW-CS的重建:
計算關鍵幀的重建結果:
采用MHFP軟件包中的3組標準視頻序列(Foreman,News,Akiyo)測試分類加權邊信息方法的性能。實驗中對分類加權邊信息生成方法和固定權值邊信息生成方法進行了對比。重構算法則采用TSW-BCS算法(基于小波樹結構的貝葉斯壓縮感知重構算法)。實驗中對關鍵幀和非關鍵幀的測量和重構都是基于塊的(16×16)。并將第一幀作為參考幀,其中,關鍵幀和非關鍵幀的采樣率分別為0.7和0.3。分類判據閾值分別為:T1=0.003,T2=0.015。
對上述視頻序列截取前120幀分別進行仿真實驗,不同序列非關鍵幀重建后的PSNR曲線見圖2。
(a)Akio序列
(b)News序列
(c)Foreman序列
從圖2可以看出,在其他條件相同的情況下,基于塊的分類加權自適應邊信息生成方法比固定權值邊信息生成方法的PSNR值平均提高0.2~0.5dB。對于Akio、News序列,其視頻序列運動強度較低,相鄰幀之間相關性較強,從圖2(a)、(b)可以看出提升效果較明顯,而對于Foreman序列,其視頻序列的運動強度相對較高,相鄰幀之間的幀間相關性較弱,雖然采用后向運動估計的加權系數較高,但提升效果仍然相對稍差,甚至有一些幀的PSNR值要略低于固定權值邊信息生成方法。另外由于實驗中采用的是分塊采樣、分塊重建,所以重建后的視頻幀會有塊效應。這種塊效應可以通過濾波和后處理來消除。
表1列出了CS幀采樣率從0.1到0.5時不同實驗視頻序列重建后的平均PSNR值。
表1 視頻序列重建質量PSNR值
從表1可以看到,CWSI-TSW-CS算法相比于SI-TSW-CS算法,視頻重建質量提高了0.2~0.5dB。當采樣率達到0.3后,提高采樣率對重建后的PSNR值的改善作用不明顯。這是由于在殘差重建中,最后視頻的重建效果是由邊信息和重建的殘差兩者之和決定的,而在低采樣率時殘差重建的效果相對較差,因此邊信息的好壞對最后的重建結果影響相對較大。實際采樣時,建議把CS幀采樣率設置為0.3,就可以滿足一般需求,而且需要傳輸的數據比較少。
為了解決現有視頻壓縮感知方法在解碼端獲取邊信息時不同圖像塊之間的相關度不同的問題,在分析重構過程中的運動估計邊信息提取方法的基礎上,提出了一種基于塊的分類加權自適應邊信息生成方案。將視頻幀分塊,根據不同塊間的前后兩幀的幀間相關性的不同采用不同的邊信息生成方案。根據不同視頻場景自適應地調整邊信息生成方案,比固定權值邊信息生成方法提高了非關鍵幀重構質量。實驗結果表明,該算法可以根據不同的視頻場景自適應調整邊信息生成方法,進一步提升了視頻幀的幀間相關性的利用率,從而實現了更高的重構質量。如果要在實時傳輸的場景下應用,還需要改進重建算法或者設計相應的硬件。
[1]LeiTCW,TsengFS.Studyfordistributedvideocodingarchitectures[C]//Internationalsymposiumoncomputer,consumerandcontrol.[s.l.]:IEEE,2014:380-383.
[2]VijayanagarKR,KimJ,LeeY,etal.Lowcomplexitydistributedvideocoding[J].JournalofVisualCommunicationandImageRepresentation,2014,25(2):361-372.
[3]SkorupaJ,SlowackJ,MysS,etal.Efficientlow-delaydistributedvideocoding[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2012,22(4):530-544.
[4]FornasierM,RauhutH.Compressivesensing[M]//Handbookofmathematicalmethodsinimaging.[s.l.]:Springer,2011.
[5] 焦李成,楊淑媛,劉 芳,等.壓縮感知回顧與展望[J].電子學報,2011,39(7):1651-1662.
[6]DoTT,ChenY,NguyenDT,etal.Distributedcompressedvideosensing[C]//16thIEEEinternationalconferenceonimageprocessing.[s.l.]:IEEE,2009:1393-1396.
[7]Prades-NebotJ,MaY,HuangT.Distributedvideocodingusingcompressivesampling[C]//Picturecodingsymposium.[s.l.]:IEEE,2009:1-4.
[8]KangLW,LuCS.Distributedcompressivevideosensing[C]//Internationalconferenceonacoustics,speechandsignalprocessing.[s.l.]:IEEE,2009:1169-1172.
[9]ChenHW,KangLW,LuCS.Dictionarylearning-baseddistributedcompressivevideosensing[C]//Picturecodingsymposium.[s.l.]:IEEE,2010:210-213.
[10]MunS,FowlerJE.Blockcompressedsensingofimagesusingdirectionaltransforms[C]//16thIEEEinternationalconferenceonimageprocessing.[s.l.]:IEEE,2009:3021-3024.
[11] 武明虎,李 然,陳 瑞,等.利用視頻非局部相似性的分布式壓縮感知重構[J].信號處理,2015,31(2):136-144.
[12] 練秋生,王小娜,石保順,等.基于多重解析字典學習和觀測矩陣優(yōu)化的壓縮感知[J].計算機學報,2015,38(6):1162-1171.
[13]YoninaCE,HelmutB.Block-sparsity:coherenceandefficientrecovery[C]//IEEEinternationalconferenceonacoustics,speechandsignalprocessing.Taipei,China:IEEE,2009:2885-2888.
[14]HeLH,CarinL.ExploitingstructureinwaveletbasedBayesiancompressivesensing[J].IEEETransactionsonSignalProcessing,2009,57(9):3488-3497.
[15] 練秋生,田 天,陳書貞,等.基于變采樣率的多假設預測分塊視頻壓縮感知[J].電子與信息學報,2013,35(1):203-208.
[16] 劉艷紅.分布式視頻編碼中基于塊的運動補償插值邊信息估計算法研究[D].西安:西安電子科技大學,2010.
Reconstruction Algorithm with Classified Weighted Side Information forDistributed Video Compressive Sensing
DAI Yue-yue1,CAO Xue-qing1,CHEN Rui2,YANG Jie2,CAO Xue-hong2
(1.College of Telecommunications and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China;2.College of Communication Engineering,Nanjing Institute of Technology,Nanjing 211167,China)
For most of those existing block-based compressed sensing of video,the fixed weight side information generation method is usually utilized for all blocks,which underestimates the problem of the difference of correlation between different blocks.To address this issue,a classified weighted side information generation method with block for distributed video decoding has been proposed according to the Bayesian compressive sensing and motion estimation theory.In the decoding side,the different correlations of neighboring key-frames has been used to generate side information by taking classified weighted motion estimation with block to different block of key-frame,then the reconstruction of the non-key-frame is completed.Considering that weighting coefficient depends on the size of the adjacent frames relevance,the Bayesian compressive sensing reconstruction algorithm is adopted based on TSW-CS model.Fixed weight side information generation method and the proposed method are used in experiments for comparison with various video sequences.The experimental results show that the PSNR of reconstructed video of proposed side information generation method has been averagely improved 0.2~0.5 dB,higher than fixed weight method.The restructure quality of video compression sensing has been effectively improved by proposed algorithm.
side information;motion estimation;Bayesian compressive sensing;wavelet tree;distributed video coding
2016-06-08
2016-09-22 網絡出版時間:2017-03-13
國家自然科學基金資助項目(61471162);江蘇省自然科學基金(BK20141389);南京工程學院科研基金(QKJA201304)
戴越越(1992-),男,碩士研究生,研究方向為分布式視頻編碼;陳 瑞,博士,副教授,研究方向為無線多媒體通信;楊 潔,碩士,副教授,研究方向為無線通信;曹雪虹,博士生導師,研究方向為無線通信中的智能信號處理。
http://kns.cnki.net/kcms/detail/61.1450.tp.20170313.1546.048.html
TP919.81
A
1673-629X(2017)05-0087-05
10.3969/j.issn.1673-629X.2017.05.019