王鳳隨,王冠凌,瞿成明,趙 發(fā)
(安徽工程大學(xué)電氣工程學(xué)院,安徽蕪湖241000)
基于宏塊多相關(guān)性的多視點(diǎn)視頻編碼方法
王鳳隨,王冠凌,瞿成明,趙 發(fā)
(安徽工程大學(xué)電氣工程學(xué)院,安徽蕪湖241000)
為降低多視點(diǎn)視頻編碼(MVC)中過高的計(jì)算量,提出基于宏塊多相關(guān)性的多視點(diǎn)視頻編碼視間預(yù)測與Direct模式提前終止算法。分析MVC參考模型(JMVC)中時(shí)域預(yù)測和視間預(yù)測的特點(diǎn)及Direct模式的分布情況?;诋?dāng)前宏塊的時(shí)間和視點(diǎn)之間率失真代價(jià)的大小關(guān)系判斷是否進(jìn)行視間預(yù)測。利用先前已編碼宏塊的編碼模式信息確定是否跳過Direct模式。實(shí)驗(yàn)結(jié)果表明,同JMVC的全搜索算法相比,該算法能降低編碼的計(jì)算復(fù)雜度,平均可達(dá)75.62%,同時(shí)保持幾乎相同的編碼率失真性能。
多視點(diǎn)視頻編碼;多相關(guān)性;運(yùn)動(dòng)補(bǔ)償;視間預(yù)測;提前終止;率失真代價(jià)
多視點(diǎn)視頻編碼(Multi-view Video Coding, MVC)利用不同視點(diǎn)的視頻數(shù)據(jù)為用戶呈現(xiàn)豐富的立體視覺信息,是實(shí)現(xiàn)3D視頻的一種實(shí)用編碼技術(shù),被廣泛應(yīng)用于三維電視(Three Dimensional TV, 3DTV)、自由視點(diǎn)電視(Free viewpoint TV,FTV)等諸多領(lǐng)域[1-2]。近年來,已提出了基于H.264/AVC的MVC編碼方案[3],并提供了公共的MVC研究平臺(tái)——多視點(diǎn)視頻編碼(Joint Multi-view Video Coding,JMVC)[4]測試軟件。由于MVC增加了視點(diǎn)間預(yù)測及采用了眾多的新技術(shù),使得編碼效率提高的同時(shí),也需要消耗相當(dāng)大的編碼時(shí)間,已經(jīng)成為阻礙MVC實(shí)際應(yīng)用的瓶頸。
為減少M(fèi)VC的計(jì)算量,國內(nèi)外研究學(xué)者做了大量的工作,現(xiàn)有算法可分為4種類型:(1)通過確定一個(gè)閾值進(jìn)行模式選擇的提前終止,以達(dá)到節(jié)省編碼時(shí)間的目的[5-8]。(2)通過確定運(yùn)動(dòng)估計(jì)的參考方向[9]或者加速運(yùn)動(dòng)估計(jì)和視差估計(jì)的搜索實(shí)現(xiàn)計(jì)算量的降低[10]。(3)通過對(duì)當(dāng)前宏塊(Marcoblock, MB)和相鄰視角處于同一位置宏塊進(jìn)行相似性分析來實(shí)現(xiàn)復(fù)雜度的減少[11-13]。(4)類型是通過聯(lián)合運(yùn)用參考方向、搜索范圍和宏塊復(fù)雜度達(dá)到編碼時(shí)間的減少[14-16]。
上文提及的各種算法能夠不同程度地使MVC的計(jì)算復(fù)雜度得到有效的降低,然而算法在時(shí)間節(jié)省和編碼圖像質(zhì)量方面仍然需要進(jìn)一步改善。上述算法中,在時(shí)間節(jié)省方面越高的算法,編碼視頻圖像質(zhì)量就越差;而具有較好的峰值信噪比(Peak Signalto-Noise Ratio,PSNR)和較高的壓縮率的算法,通常都需要消耗更多的編碼時(shí)間。此外,上述方法主要考慮了視點(diǎn)之間的相關(guān)性信息,當(dāng)視差矢量定位不準(zhǔn)或不同視點(diǎn)之間存在遮擋時(shí),算法的整體性能就會(huì)受到嚴(yán)重的影響。
本文基于先前的研究工作[17-18],通過分析JMVC中的時(shí)間相關(guān)性和視間相關(guān)性以及Direct模式的分布情況,提出視間預(yù)測選擇準(zhǔn)則和Direct模式提前終止策略。
2.1 時(shí)域預(yù)測與視間預(yù)測
MVC采用圖像組(Group of Pictures,GOP)的幀編碼結(jié)構(gòu)——分層B幀(Hierarchical B Picture, HBP)預(yù)測結(jié)構(gòu)。視點(diǎn)編碼結(jié)構(gòu)可劃分成2個(gè)部分:僅進(jìn)行時(shí)域方向預(yù)測的主視點(diǎn)和同時(shí)進(jìn)行時(shí)域和視點(diǎn)間預(yù)測的輔視點(diǎn)。因此,處于輔視點(diǎn)中的宏塊有2種類型的預(yù)測:(1)與H.264/AVC類似,稱為運(yùn)動(dòng)補(bǔ)償預(yù)測(Motion Compensation Prediction,MCP); (2)視差補(bǔ)償預(yù)測(Disparity Compensation Prediction,DCP)。DCP是多視點(diǎn)視頻不同于單視點(diǎn)視頻的最顯著特征之一,也是引起計(jì)算復(fù)雜度增大的重要因素之一。MVC在進(jìn)行塊匹配搜索時(shí),首先需要判別預(yù)測方向,通過比較時(shí)間方向和視點(diǎn)方向所有預(yù)測模式的率失真代價(jià)(Rate Distortion cost,RD cost)的大小來確定最佳預(yù)測方向。由于MVC的模式數(shù)目眾多,且計(jì)算RD cost的過程又十分耗時(shí),因此預(yù)測方向的判斷過程是十分耗時(shí)的。而實(shí)際的情況是,在進(jìn)行復(fù)雜的方向判斷之后,大部分情況下MCP經(jīng)常被選作最佳預(yù)測,在拍攝視頻數(shù)據(jù)沒有進(jìn)行校準(zhǔn)時(shí)尤為突出。在JMVC中,DCP和MCP實(shí)際上是公用同一模塊,因此兩者的計(jì)算量也大致相同。然而,視點(diǎn)方向卻很少被選用,這樣每次預(yù)測都進(jìn)行檢查勢必耗費(fèi)大量不必要的編碼時(shí)間。如果能夠通過某種方法,可以提前確定當(dāng)前塊的預(yù)測方向,那么大量不必要的DCP過程就可以直接跳過,從而大大降低MVC的編碼時(shí)間。
基于上述分析和多視點(diǎn)視頻自身的特點(diǎn),通過對(duì)JMVC8.0的實(shí)驗(yàn)統(tǒng)計(jì)分析發(fā)現(xiàn),MVC在進(jìn)行方向預(yù)測時(shí),若當(dāng)前宏塊的幀間16×16分塊選用視點(diǎn)方向預(yù)測,那么該宏塊的其他模式分塊(如16× 8塊、8×16塊、8×8塊等)最終選用視點(diǎn)方向預(yù)測的可能性極大。這說明幀間各模式的預(yù)測方向具有很強(qiáng)的相關(guān)性。為了驗(yàn)證這一觀點(diǎn),圖1給出了各圖像順序計(jì)數(shù)(Picture Order Count,POC)上的統(tǒng)計(jì)結(jié)果。圖中縱坐標(biāo)表示僅幀間16×16塊選擇視點(diǎn)方向預(yù)測占所有模式遍歷后選擇視點(diǎn)方向預(yù)測的百分比。
圖1 幀間分塊在所有選用視間預(yù)測中的比例
從圖1不難看出,幀間16×16塊選擇視點(diǎn)方向預(yù)測在所有模式遍歷后選擇視點(diǎn)方向預(yù)測中所占的比例非常高,平均可達(dá)88%。因此,在進(jìn)行預(yù)測方向判斷時(shí),可以用幀間16×16塊視間預(yù)測結(jié)果作為其他分割模式是否進(jìn)行視間預(yù)測的判別依據(jù)。
2.2 Direct模式分布情況
一般而言,較大的宏塊分割模式(如16×16塊)通常適合編碼運(yùn)動(dòng)緩慢的同質(zhì)區(qū)域;而小的宏塊分割模式(如8×8塊)通常用于編碼具有快速運(yùn)動(dòng)的復(fù)雜區(qū)域。Direct模式是一種特殊的16×16塊分割模式,直覺上,Direct模式在運(yùn)動(dòng)緩慢的均勻區(qū)域應(yīng)該占有很高的比例[17],而這樣的區(qū)域在自然視頻中也是出現(xiàn)最多的情況。換言之,Direct模式成為最佳模式的可能性非常高。為了證實(shí)此觀察,通過實(shí)驗(yàn)得到了MVC的最優(yōu)模式的統(tǒng)計(jì)分布情況,如表1所示。實(shí)驗(yàn)參數(shù)設(shè)置如下:(1)GOP=12;(2)量化參數(shù)(QP)=32;(3)啟用率失真優(yōu)化(Rate Distortion Optimization,RDO)技術(shù);(4)搜索范圍:±64。
表1 MVC最優(yōu)模式分布情況%
從表1容易看出,Direct模式在所有模式中被選為最優(yōu)模式的比例最高,平均可達(dá)81.46%,對(duì)于那些運(yùn)動(dòng)緩慢的均勻區(qū)域所占比例更高,如序列“Exit”。需要說明的是,Direct模式不需要進(jìn)行復(fù)雜的MCP和DCP過程,具有很小的計(jì)算量,而其他模式需要進(jìn)行MCP/DCP檢查過程,計(jì)算復(fù)雜度極高。因此,設(shè)計(jì)一種能夠提前確定Direct模式是否為最優(yōu)模式的算法是十分有必要的。
3.1 視點(diǎn)方向預(yù)測
根據(jù)2.1節(jié)的分析,視點(diǎn)方向的提前判別可通過inter16×16模式是否選擇視間預(yù)測而確定。為此,首先要得到當(dāng)前宏塊的inter16×16模式的預(yù)測方向,由于預(yù)測方向的確定是通過比較時(shí)間方向和視點(diǎn)方向上的RD cost實(shí)現(xiàn)的,因此必須得到inter 16×16模式在這2個(gè)方向上的RD cost值。如圖2所示,考慮到當(dāng)前宏塊與相鄰宏塊的時(shí)間相關(guān)性和視點(diǎn)間相關(guān)性,inter16×16模式的時(shí)域RD cost值JT和視間RD cost值JV可分別利用已編碼塊的模式信息確定。鑒于當(dāng)前宏塊和前向及后向參考幀都有很強(qiáng)的相關(guān)性,JT可通過計(jì)算前向參考幀RD cost值JT-1和后向參考幀RD cost值JT+1兩者的平均值而得到,如下式所示:
類似地,JV也可通過計(jì)算前向視點(diǎn)RD cost值JV-1和后向視點(diǎn)RD cost值JV+1的平均值而獲得,如下式所示:
在式(1)和式(2)中,JT-1,JT+1,JV-1和JV+1可通過下式計(jì)算而得:
表2 宏塊MBi的加權(quán)因子
圖2 當(dāng)前宏塊的時(shí)間和視點(diǎn)間相鄰宏塊
3.2 Direct模式提前終止
通過2.2節(jié)的分析可知,Direct模式在現(xiàn)實(shí)的視頻序列中最有可能被選作最佳模式。為此,本文利用當(dāng)前宏塊的時(shí)間和視點(diǎn)間的相關(guān)性計(jì)算對(duì)應(yīng)的時(shí)域閾值ThT和視間閾值ThV。與JT類似,時(shí)域閾值ThT為前向時(shí)域閾值ThT-1和后向時(shí)域閾值ThT+1的均值;視間閾值ThV與JV類似,通過前向視間閾值ThV-1和后向視間閾值ThV+1的平均值計(jì)算得到。ThT-1,ThT+1,ThV-1和ThV+1通過式(4)計(jì)算:
通過式(4)可分別計(jì)算出時(shí)域閾值ThT和視間閾值ThV。若當(dāng)前宏塊僅進(jìn)行時(shí)域預(yù)測,則只需要計(jì)算時(shí)域閾值ThT,此時(shí)的自適應(yīng)閾值Th就等于ThT;若當(dāng)前宏塊同時(shí)進(jìn)行時(shí)間和視點(diǎn)間預(yù)測,此時(shí)的自適應(yīng)閾值Th為時(shí)域閾值ThT和視間閾值ThV的平均。在算法實(shí)現(xiàn)中,首先計(jì)算當(dāng)前宏塊Direct模式的RD cost值RDcost(Direct),如果RDcost(Direct)<Th,那么Direct模式將直接被選為最優(yōu)模式,模式選擇過程提前終止。
3.3 算法步驟
綜上所述,本文算法步驟可描述如下:
(1)檢查當(dāng)前宏塊是否處于關(guān)鍵幀上,若是,進(jìn)入步驟(6),否則,進(jìn)入步驟(2)。
(2)計(jì)算當(dāng)前宏塊的幀間16×16模式的時(shí)域RD cost值JT,視間RD cost值JV和Direct模式的RD cost值RDcost(Direct)。
(3)如果JT<JV,那么當(dāng)前宏塊的其他模式分塊的視間預(yù)測過程跳過,僅進(jìn)行時(shí)域預(yù)測,同時(shí)計(jì)算時(shí)域閾值ThT,Th=ThT,進(jìn)入步驟(5)。否則,進(jìn)入步驟(4)。
(4)計(jì)算時(shí)域閾值ThT和視間閾值ThV,Th= (ThT+ThV)/2。
(5)如果RDcost(Direct)<Th,那么Direct模式將直接被選為最優(yōu)模式,模式選擇過程提前終止。否則,進(jìn)入步驟(6)。
(6)進(jìn)行全搜索模式,檢查所有預(yù)測模式以確定其最佳模式。
為驗(yàn)證本文算法的有效性,采用JMVC8.0作為實(shí)驗(yàn)平臺(tái),分別測試了不同分辨率、不同紋理背景的7個(gè)MVC標(biāo)準(zhǔn)測試序列。實(shí)驗(yàn)中參數(shù)設(shè)置如下: (1)HBP結(jié)構(gòu);(2)GOP=12;(3)QP=24,28,32, 36;(4)啟用RDO和基于上下文的自適應(yīng)算術(shù)編碼(Context-Adaptive Binary Arithmetic Coding,CABAC)技術(shù);(5)搜索范圍:±64。
為了與現(xiàn)有算法相比較,表3給出了本文算法、文獻(xiàn)[7]算法和文獻(xiàn)[17]算法的結(jié)果對(duì)比。其中,參數(shù)△T表示編碼時(shí)間的節(jié)省率;△B代表碼率的變化;△PSNR表示峰值信噪比的變化?!?”表示增加,“-”表示減少。
表3 算法性能比較
表3表明本文算法能夠有效地降低MVC的編碼計(jì)算復(fù)雜度,平均可節(jié)省75.62%的編碼時(shí)間,編碼率失真性能幾乎保持不變,PSNR值僅降低了0.04 dB,而編碼比特率卻下降了0.97%。同文獻(xiàn)[7]算法相比,本文算法減少了13.46%的計(jì)算量,PSNR值提高了0.04 dB,比特率減少了0.09%。同文獻(xiàn)[17]算法相比,本文算法得到了更加顯著的計(jì)算復(fù)雜度的降低,同時(shí)保持基本不變的編碼效率。
為更好地說明算法的率失真性能和時(shí)間節(jié)省率,圖3給出了Uli測試序列的RD曲線圖。從圖中不難看出,本文算法的率失真性能與JMVC幾乎相同。圖4為本文算法與現(xiàn)有2種算法在時(shí)間節(jié)省率上的對(duì)比。容易看出,本文算法對(duì)于不同類型的測試序列都能夠更加有效地降低編碼時(shí)間。
圖3 測試序列Uli的RD曲線
圖4 3種方法的時(shí)間節(jié)省率比較
同文獻(xiàn)[7]算法和文獻(xiàn)[17]算法相比,文獻(xiàn)[7]算法僅利用當(dāng)前宏塊的空間、時(shí)間及視點(diǎn)之間相關(guān)性的簡單混合來計(jì)算自適應(yīng)閾值,而文獻(xiàn)[17]算法通過分別計(jì)算3種類型相關(guān)性對(duì)應(yīng)的各自閾值,自適應(yīng)閾值為三者的中值。這2種算法都未考慮到視點(diǎn)方向預(yù)測的復(fù)雜度,本文算法綜合考慮了視間預(yù)測提前判別與Direct模式的提前終止,同時(shí)充分利用了當(dāng)前宏塊的多種相關(guān)性信息,取得了優(yōu)于文獻(xiàn)[7]算法和文獻(xiàn)[17]算法的編碼性能。
本文提出一種有效的多視點(diǎn)視頻編碼方案,通過視間預(yù)測方向的預(yù)先判別和Direct模式的提前終止,使得編碼計(jì)算量大大降低。算法首先利用幀間各模式預(yù)測方向的相關(guān)性,通過幀間16×16模式的預(yù)測結(jié)果作為其他模式是否選擇視點(diǎn)方向預(yù)測的依據(jù),然后分別利用當(dāng)前宏塊的時(shí)間和視點(diǎn)之間的相關(guān)性計(jì)算得到視間預(yù)測提前判別和Direct模式提前終止的條件,這樣使得不必要的視間預(yù)測和模式選擇過程提前結(jié)束,從而有效地減少了編碼時(shí)間。實(shí)驗(yàn)結(jié)果表明,本文算法比JMVC中全搜索算法和現(xiàn)有算法顯著降低了編碼計(jì)算復(fù)雜度,同時(shí)保持了較好的編碼圖像質(zhì)量。
[1] Muller K,Merkle P,Wiegend T.3-D Video Representation Using Depth Maps[J].Proceedings of the IEEE, 2011,99(4):643-656.
[2] Tanimoto M,Tehrani M P,Fujii T,et al.FTV for 3-D Spatial Communication[J].Proceedings of the IEEE, 2012,100(4):905-917.
[3] Vetro A,Wiegand T,Sullivan G J.Overview of the Stereo and Multiview Video Coding Extensions of the H.264/MPEG-4 AVC Standard[J].Proceedings of the IEEE,2011,99(4):626-642.
[4] Pandit P,Vetro A,Chen Y.Joint Multiview Video Model(JMVM)8.0[R].Joint Video Team,Technique Report:JVT-AA207,2008.
[5] Shen Liquan,Liu Zhi,Yan Tao,et al.Early SKIP Mode Decision for MVC Using Inter-view Correlation[J]. Signal Processing:Image Communication,2010,25(2): 88-93.
[6] Kuo Tien-Ying,Lai Yun-Yang,Lo Yi-Chung.Fast Mode Decision for Non-anchor Picture in Multi-view Video Coding[C]//Proceedings of IEEE International SymposiumonBroadbandMultimediaSystemsand Broadcasting.Piscataway,USA:IEEE Press,2010:1-5.
[7] Zeng Huangqian,MaKaikuang,CaiCanhui.Modecorrelation-based Early Termination Mode Decision for Multi-view Video Coding[C]//Proceedings of International Conference on Image Processing.Piscataway, USA:IEEE Press,2010:3406-3408.
[8] Lee Pei-Jun,Lin Ho-Ju,Kuo Kuei-Ting.Faster Mode Determination Algorithm Using Mode Correlation for Multi-view Video Coding[J].IET Signal Processing, 2014,8(5):565-578.
[9] Zhang Yun,Kwong S,Jiang Gangyi,et al.Efficient Multi-reference Frame Selection Algorithm for Hierarchical B Pictures in Multiview Video Coding[J].IEEE Transactions on Broadcasting,2011,57(1):15-23.
[10] Khattak S,Hamzaoui R,Ahmad S,et al.Fast Encoding Techniques for Multiview Video Coding[J].Signal Processing:ImageCommunication,2013,28(6): 569-580.
[11] Zhang Qiuwen,AnPing,ZhangYan,etal.Low Complexity Multiview Video Plus Depth Coding[J]. IEEE TransactionsonConsumerElectronics,2011, 57(4):1857-1865.
[12] Zhu Wei,Tian Xiang,Zhou Fan,et al.Fast Inter Mode DecisionBasedonTexturalSegmentationand Correlations for Multiview Video Coding[J].IEEE Transactions on Consumer Electronics,2010,56(3): 1696-1704.
[13] Shen Liquan,Liu Zhi,Liu Suxing,etal.Selective DisparityEstimationandVariableSizeMotion Estimation Based on Motion Homogeneity for Multiview Coding[J].IEEE Transactions on Broadcasting, 2009,55(4):761-766.
[14] Ding Lifu,TsungPei-Kuei,ChienShao-Yi,etal. Content-aware PredictionAlgorithmwithInter-view Mode Decision for Multiview Video Coding[J].IEEE Transactions on Multimedia,2008,10(8):1553-1564.
[15] Shen Liquan,Liu Zhi,An Ping,et al.Low-complexity Mode Decision for MVC[J].IEEE Transactions on Circuits and Systems for Video Technology,2011, 21(6):837-843.
[16] Lai Yi,Lan Xuguang,Li Xiangwei,et al.An Efficient Region of Interest Support in Scalable Multi-view Video Coding[J].IEEE Transactions on Consumer Electronics,2011,57(3):1271-1279.
[17] Wang Fengsui,Zeng Huanqiang,Shen Qinghong,et al. Efficient Early Direct Mode Decision for Multi-view Video Coding[J].Signal Processing:Image Communication,2013,28(7):736-744.
[18] 王鳳隨,沈慶宏,都思丹.多視點(diǎn)視頻編碼快速幀間模式選擇算法[J].計(jì)算機(jī)應(yīng)用,2014,34(1):167-170.
編輯 顧逸斐
Multi-view Video Coding Method Based on Macroblock Multi-correlation
WANG Fengsui,WANG Guanling,QU Chengming,ZHAO Fa
(College of Electrical Engineering,Anhui Polytechnic University,Wuhu 241000,China)
In order to reduce greatly computational complexity in Multi-view Video Coding(MVC),an inter-view prediction and Direct mode early termination algorithm based on macroblock multi-correlation for multi-view video coding is proposed.The characteristics for time domain and inter-view domain prediction and the distribution for Direct mode in the Joint Multi-view Video Coding(JMVC)are analyzed in the proposed algorithm.Comparing the ratedistortion cost between the time and inter-view domain determines whether the current macroblock predicted between inter views.Using the coding mode information of the previously encoded macroblock determines whether it skips Direct mode.Experimental results demonstrate that the proposed method is able to significantly reduce the computational load by 75.62%on average,while keeping almost the same rate-distortion performance,compared with the full mode decision in JMVC.
Multi-view Video Coding(MVC);multi-correlation;motion compensation;inter-view prediction;early termination;rate-distortion cost
王鳳隨,王冠凌,瞿成明,等.基于宏塊多相關(guān)性的多視點(diǎn)視頻編碼方法[J].計(jì)算機(jī)工程,2015, 41(2):258-262,267.
英文引用格式:Wang Fengsui,Wang Guanling,Qu Chengming,et al.Multi-view Video Coding Method Based on Macroblock Multi-correlation[J].Computer Engineering,2015,41(2):258-262,267.
1000-3428(2015)02-0258-05
:A
:TN919.8
10.3969/j.issn.1000-3428.2015.02.049
安徽工程大學(xué)引進(jìn)人才科研啟動(dòng)基金資助項(xiàng)目(2014YQQ006);安徽高校省級(jí)自然科學(xué)研究基金資助重點(diǎn)項(xiàng)目(KJ20 13A042)。
王鳳隨(1981-),男,講師、博士,主研方向:圖像與視頻信號(hào)處理,計(jì)算機(jī)視覺;王冠凌、瞿成明,副教授、碩士;趙 發(fā),講師、碩士。
2014-08-28
:2014-09-24E-mail:fswang@ahpu.edu.cn