班俊碩,賴惠成,林憲峰,楊 敏,董九玲
(新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)
?
基于改進(jìn)SSIM的HEVC率失真優(yōu)化
班俊碩,賴惠成,林憲峰,楊敏,董九玲
(新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)
HEVC繼承了傳統(tǒng)的客觀率失真模型,主要采用均方誤差、平方誤差和或絕對誤差和等客觀評價(jià)方法作為失真測度。然而,這些方法并不能得到很好的主觀視覺感知質(zhì)量。為了進(jìn)一步解決HEVC的計(jì)算復(fù)雜度,提出了將結(jié)構(gòu)相似度(Structural Similarity,SSIM)引入到HEVC的率失真代價(jià)函數(shù)中。該方法使用失真測度均方誤差對SSIM進(jìn)行改進(jìn),將改進(jìn)后的SSIM對率失真代價(jià)函數(shù)進(jìn)行優(yōu)化,求解出拉格朗日乘子,從而實(shí)現(xiàn)率失真性能的提升。實(shí)驗(yàn)結(jié)果表明,該方法與HEVC參考測試模型相比,在全I(xiàn)幀(All Intra,AI)配置下,率失真性能平均提高了2.6%,同時(shí)可以獲得很好的編碼質(zhì)量,以及可忽略的編碼時(shí)間增長。
高效視頻編碼(HEVC);率失真;結(jié)構(gòu)相似度;拉格朗日乘子
H.265/HEVC(High Efficiency Video Coding)是由ITU-T視頻編碼專家組聯(lián)合ISO/IEC運(yùn)動圖像專家組于2013年1月共同提出的下一代視頻壓縮標(biāo)準(zhǔn)。和上一代H.264/AVC視頻壓縮標(biāo)準(zhǔn)相比,在相同重建視頻質(zhì)量的條件下,降低大約50%的比特率,但是卻大大提升了運(yùn)算復(fù)雜度。和H.264的宏塊編碼方式相比,HEVC采用遞歸分塊樹形編碼單元方式,編碼單元最大尺寸為64×64,最小尺寸為8×8,而預(yù)測方向也從H.264的9種擴(kuò)展到了35種[1]。這些在幀內(nèi)預(yù)測等方面的改進(jìn)在改善壓縮性能的同時(shí),也大幅增加了相應(yīng)編碼計(jì)算的復(fù)雜度。
視頻壓縮編碼旨在降低碼率的同時(shí),盡可能滿足對高視覺質(zhì)量的追求,目前基于率失真優(yōu)化(Rate Distortion Optimization,RDO)技術(shù)依然是視頻編碼中研究的熱點(diǎn)。而HEVC中率失真優(yōu)化技術(shù)依然采用傳統(tǒng)的客觀評價(jià)方法,如均方誤差、平方誤差和或絕對誤差和等,這些方法都是客觀上的失真準(zhǔn)則,不能體現(xiàn)出主觀質(zhì)量。結(jié)構(gòu)相似度(SSIM)計(jì)算復(fù)雜度低,符合人眼主觀視覺特性,已被許多研究者引入到視頻圖像的失真度量中。Huang等[2]將SSIM應(yīng)用到H.264的RDO中提出一種預(yù)測拉格朗日乘子的方法,采用1-SSIM改寫失真度量函數(shù),并劃分關(guān)鍵幀和采用梯度下降法,從而求出拉格朗日乘子。Yeo等[3]對SSIM取倒數(shù),結(jié)合SSE對RDO進(jìn)行深度優(yōu)化,在H.264/AVC上取得了比較好的效果。陳云善等[4]提出將SSIM加入代價(jià)函數(shù),通過大量的實(shí)驗(yàn)得出經(jīng)驗(yàn)參數(shù)。雖然該方法節(jié)省碼率效果比較明顯,但是由于是曲線擬合得到的經(jīng)驗(yàn)公式需要大量實(shí)驗(yàn)才能得出數(shù)據(jù),不適合視頻內(nèi)容變化比較大的場合和實(shí)時(shí)編碼。Qi等[5]提出根據(jù)當(dāng)前CTB(Coding Tree Block)和其相鄰的CTBs分別從空間和時(shí)間上計(jì)算運(yùn)動向量的方差,將兩者進(jìn)行合成并利用閾值選擇出最佳值,同時(shí)結(jié)合SSIM求出的拉格朗日乘子對RDO進(jìn)行優(yōu)化。楊春玲等[6]在H.264幀內(nèi)模式選擇時(shí)首先找到SSIM和碼率之間的近似關(guān)系,然后提出結(jié)合SSE作為失真測度的率失真代價(jià)優(yōu)化方法。Rehman等[7]在前人研究的基礎(chǔ)上將SSIM應(yīng)用到DCT變換域,對SSIM指標(biāo)分解為DC和AC殘差系數(shù),再對兩者進(jìn)行歸一化,最后效率提高并不是很顯著。朱天之等[8]根據(jù)HEVC編碼樹形結(jié)構(gòu)使用SSIM計(jì)算失真度,得出碼率、失真度和量化參數(shù)之間的關(guān)系,根據(jù)數(shù)學(xué)推導(dǎo)和統(tǒng)計(jì)分析,最終得到拉格朗日乘子。
綜上所述,本文將SSIM作為失真度量引入到HEVC的RDO中,用失真測度MSE對SSIM進(jìn)一步優(yōu)化改進(jìn),最后將優(yōu)化后的SSIM結(jié)合SSE共同作用于代價(jià)函數(shù),求解出拉格朗日乘子。實(shí)驗(yàn)結(jié)果表明,本文所提方法能夠在視頻圖像質(zhì)量改善的情況下有效地提高編碼效率和改善率失真性能。
視頻編碼的主要目的就是在保證一定視頻質(zhì)量的條件下盡量減少編碼比特率,或是在一定編碼比特率限制條件下盡量地減小編碼失真。基于率失真理論的編碼參數(shù)優(yōu)化方法被稱為率失真優(yōu)化,在視頻編碼中為保證編碼器的編碼效率通常采用率失真優(yōu)化技術(shù)。HEVC視頻編碼率失真處理和H.264相似,同樣采用傳統(tǒng)的率失真優(yōu)化,其RDO可以表示為
minDs.t.R≤RC
(1)
式中:D表示視頻圖像的編碼失真;R表示視頻圖像編碼需要的比特?cái)?shù);RC表示編碼所允許的限定碼率。該式為限定性約束問題,即在限定的碼率下,使失真度達(dá)到最小值。
為了解決上述最小化問題,視頻編碼中通常的解決途徑是采用拉格朗日優(yōu)化方法。因此上述的限定性優(yōu)化問題,通過引入拉格朗日乘子λ,可以轉(zhuǎn)化為非約束性問題
minJ=D+λ×R
(2)
式中:J表示率失真代價(jià);D表示視頻圖像的編碼失真;λ表示拉格朗日乘子;R表示視頻圖像編碼需要的比特?cái)?shù)。所以視頻編碼的優(yōu)化目標(biāo)轉(zhuǎn)化為最小化J。而λ為優(yōu)化目標(biāo)的調(diào)整因子,當(dāng)λ有最優(yōu)解時(shí)則J達(dá)到最小值。目前已有研究者提出直接根據(jù)限定碼率預(yù)測出λ的取值,并應(yīng)用到HEVC的碼率控制算法中[9]。
結(jié)構(gòu)相似度(SSIM)是Wang等[10]提出衡量兩幅圖像之間相似性的一種質(zhì)量評價(jià)指標(biāo)。傳統(tǒng)的視頻質(zhì)量客觀評價(jià)和失真測量都是基于誤差求和的方法,而SSIM從亮度、對比度和結(jié)構(gòu)信息3個(gè)方面綜合考慮更符合人類視覺系統(tǒng)。SSIM的公式如下
SSIM(x,y)=l(x,y)·c(x,y)·s(x,y)=
(3)
式中:x和y表示要進(jìn)行比較的兩幅圖像;l(x,y),c(x,y),s(x,y)分別表示亮度、對比度和結(jié)構(gòu)信息;μx和μy分別表示x和y的均值;σx和σy分別表示兩者的方差;σxy表示兩者的協(xié)方差;而c1和c2是為了避免分母趨近0而導(dǎo)致不穩(wěn)定設(shè)定的小常數(shù)。由文獻(xiàn)[10]可知默認(rèn)的c1=(k1L)2和c2=(k2L)2,其中k1=0.01,k2=0.03,L表示隨圖像變化的像素值,通常定義為L=2bitdepth-1。SSIM值的范圍為:0≤SSIM(x,y)≤1。0表示兩幅圖像不相關(guān),越接近于1表示兩幅圖像在主觀質(zhì)量上越相似。由于SSIM的低計(jì)算復(fù)雜度和更符合人類視覺感知系統(tǒng),使其廣泛用于編碼視頻的主觀質(zhì)量評價(jià)[11]。
結(jié)合以上研究結(jié)果,本文將原始圖像定為x,重建圖像定義為y,則重建圖像和原始圖像的失真模型可以用式(4)表示
y=x+e
(4)
式中:e表示重建圖像和原圖像相比有損量化的失真值。則均方誤差(MSE)可以用式(5)表示
(5)
式中:N是圖像中像素的數(shù)量;yi表示重建圖像中第i個(gè)元素所在圖像塊區(qū)域;xi表示原始圖像中第i個(gè)元素所在圖像塊區(qū)域。為了利用MSE對SSIM進(jìn)行優(yōu)化,該式又可以被改寫為
(6)
式中:σx和σy分別表示重建圖像y和原始圖像x的方差;μx和μy分別表示兩者的均值;σxy表示兩者的協(xié)方差。
很容易驗(yàn)證在高分辨率和大量數(shù)據(jù)下失真e的值通常很小,可以忽略不計(jì)。故原始圖像x和重建圖像y的均值有如下近似
μy≈μx
(7)
將式(6)、(7)代入式(3)可以獲得SSIM的近似式
(8)
當(dāng)圖像的數(shù)據(jù)比較大時(shí),又0≤SSIM(x,y)≤1,下面基于SSIM定義一個(gè)失真度量公式
(9)
式中:MSE為原始圖像x和重建圖像y的均方誤差;σxy表示兩者的協(xié)方差;c2為很小的常數(shù)。
當(dāng)選擇SSE作為失真測度時(shí),率失真代價(jià)函數(shù)定義如下
JSSE=SSE+λSSE×R=N·MSE+λSSE×R
(10)
式中:SSE表示平方誤差和;λSSE表示SSE作為失真測度時(shí)的拉格朗日乘子;N表示圖像中像素的數(shù)量;MSE表示均方誤差;R表示視頻圖像編碼需要的比特?cái)?shù)。
將SSIM引入RDO,式(10)可以被改寫為
(11)
則優(yōu)化目標(biāo)轉(zhuǎn)化為
J=DSSE+(2σxy+c2)·λSSIM×R
(12)
式中:DSSE表示當(dāng)SSE作為失真測度時(shí)的編碼失真;σxy表示協(xié)方差;c2為小常數(shù);R為視頻圖像編碼需要的比特?cái)?shù)。為確定λSSIM,本文需要引入率失真模型。目前率失真在視頻編碼中采用的都是對數(shù)模型[12],對于一幀視頻圖像的每個(gè)編碼塊有式(13)
(13)
式中:α是一個(gè)比例常數(shù);σ2表示編碼位移幀差(DFD)。對式(12)用拉格朗日乘數(shù)法求解λSSIM的最優(yōu)值,得到
(14)
(15)
根據(jù)式(11)、(14)和(15)可以得出率失真優(yōu)化拉格朗日乘子
(16)
為了驗(yàn)證本文算法的效果,采用官方給出的HEVC參考測試模型HM13.0[14]進(jìn)行測試分析,所有不同分辨率的測試視頻序列均來自標(biāo)準(zhǔn)測試視頻序列。對HM13.0的配置[15]為:全I(xiàn)幀編碼;測試的量化參數(shù)設(shè)置為固定QP;CTU的最大尺寸為64×64、深度為4。實(shí)驗(yàn)結(jié)果如表1所示,采用BD-PSNR和BD-SSIM來衡量本文算法的率失真性能,ΔT表示編碼時(shí)間。
表1本文算法與HM測試模型對比結(jié)果
%
視頻序列BD-PSNRBD-SSIMΔTTraffic0.3-1.3102ParkScene0.6-2.4101Kimono0.4-1.7100BQSquare0.5-2.3100BasketballDrive0.4-1.9100BQMall0.9-3.7101BasketballDrill0.3-2.6100RaceHorses0.7-2.4100FourPeople1.1-4.4100Johnny0.5-3.1100平均0.6-2.6100
從表1可以看出,本文所提算法的率失真性能提升最高為4.4%,最低為1.3%,平均增加了2.6%,同時(shí)BD-PSNR只有很小的損失。其中Traffic序列由于車輛在移動,導(dǎo)致運(yùn)動相對劇烈,同時(shí)整幀的紋理也比較復(fù)雜,因而其率失真性能最差。而FourPeople序列運(yùn)動相對平緩,紋理相對簡單,所以率失真性能最好。本文算法對于所有測試序列HEVC的編碼時(shí)間只有個(gè)別微小的增長,平均編碼時(shí)間的增長是可以忽略的。
以HM13.0作為對比,圖1給出了BQSquare和Johnny兩個(gè)序列的率失真曲線圖。從圖中的曲線可以看出本文提出算法的率失真性能優(yōu)于HM13.0。
圖1 本文算法和HM測試模型率失真性能比較
針對HEVC中客觀的率失真優(yōu)化準(zhǔn)則不能夠得到最佳視頻圖像主觀感知質(zhì)量的問題,同時(shí)為提升率失真性能,本文提出一種基于改進(jìn)SSIM的HEVC率失真優(yōu)化算法。該方法利用失真測度均方誤差(MSE)對SSIM進(jìn)行改進(jìn),將改進(jìn)后的SSIM對率失真代價(jià)函數(shù)進(jìn)行優(yōu)化,求解出拉格朗日乘子。實(shí)驗(yàn)結(jié)果表明,本文算法能夠改善視頻主觀質(zhì)量,提高編碼效率,同時(shí)率失真性能平均增加了2.6%。下一步的研究重點(diǎn)是繼續(xù)深入研究本文算法將其應(yīng)用到HEVC模式選擇和幀間編碼RDO中,進(jìn)一步提高HEVC的編碼質(zhì)量和編碼效率。
[1]SULLIVAN G J, OHM J, HAN W J, et al. Overview of the High Efficiency Video Coding (HEVC) standard[J].IEEE transactions on circuits & systems for video technology,2012,22(12):1649-1668.
[2]HUANG Y H, OU T S, SU P Y, et al. Perceptual rate-distortion optimization using structural similarity index as quality metric[J].IEEE transactions on circuits & systems for video technology,2010,20(11):1614-1624.
[3]YEO C, TAN H L, TAN Y H. On rate distortion optimization using SSIM[J].IEEE transactions on circuits & systems for video technology, 2013, 23(7):1170-1181.
[4]陳云善,高慧斌,蘇宛新,等.結(jié)構(gòu)相似度在AVS幀間模式選擇中的應(yīng)用[J].光電子·激光,2011(3):435-439.
[5]QI J,LI X,SU F,et al. Efficient rate-distortion optimization for HEVC using SSIM and motion homogeneity[C]//Proc. 2013 Picture Coding Symposium (PCS).[S.l.]:IEEE,2013: 217-220.
[6]楊春玲,肖冬琴.基于SSE和SSIM的H.264幀內(nèi)預(yù)測模式選擇改進(jìn)算法[J].電子與信息學(xué)報(bào),2011(2):289-294.
[7]REHMAN A, WANG Z.SSIM-inspired perceptual video coding for HEVC[C]//Proc. IEEE International Conference on Multimedia and Expo. Melbourne: IEEE Computer Society, 2012:497-502.
[8]朱天之,郁梅,蔣剛毅,等.基于SSIM的HEVC幀內(nèi)編碼率失真優(yōu)化[J].光電子·激光,2014(12):2362-2370.
[9]LI B,LI H,LI L, et al. Rate control by R-lambda model for HEVC[C]//Proc. Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 11th Meeting. Shanghai:ITU, 2012:10-19.
[10]WANG Z, ALAN C B, HAMID R S, et al. Image quality assessment: from error visibility to structural similarity[J].IEEE transactions on image processing,2004,13(4):600-612.
[11]張瑋,宋利,楊小康.基于視頻編碼增益的視頻質(zhì)量評價(jià)算法性能研究[J].電視技術(shù),2014,38(15): 44- 48.
[12]SULLIVAN G J, WIEGAND T. Rate-distortion optimization for video compression[J].Signal processing magazine,1998,15(6):74-90.
[13]WIEGAND T, SCHWARZ H, JOCH A, et al. Rate-constrained coder control and comparison of video coding standards[J].IEEE transactions on circuits & systems for video technology,2003, 13(7):688-703.
[14]MCCANN K, BROSS B, SUGIMOTO K, et al. High Efficiency Video Coding(HEVC)test model 13(HM13)encoder description[C]//Proc. Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11 15th Meeting. Geneva, Switzerland:ITU,2013:1-39.
[15]BOSSEN F. Common test conditions and software reference configurations[C]//Proc. Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11 12th Meeting. Geneva, Switzerland: ITU,2013:1-4.
班俊碩(1988— ),碩士生,主要研究方向?yàn)橐曨l編碼;
賴惠成(1963— ),教授,主要研究方向?yàn)閳D像處理及視頻信號編解碼等;
林憲峰(1990— ),碩士生,主要研究方向?yàn)橐曨l質(zhì)量評價(jià);
楊敏(1990— ),碩士生,主要研究方向?yàn)閳D像處理;
董九玲(1986— ),女,碩士生,主要研究方向?yàn)閳D像處理。
責(zé)任編輯:時(shí)雯
Rate distortion optimization based on improved SSIM for HEVC
BAN Junshuo,LAI Huicheng,LIN Xianfeng,YANG Min,DONG Jiuling
(CollegeofInformationScienceandEngineering,XinjiangUniversity,Urumqi830046,China)
Objective appraisal method, such as mean square error(MSE), sum of the squared errors(SSE)or sum of absolute difference(SAD), is adopted by HEVC, which inherits conventional objective rate distortion model. However, these methods fail to achieve high consistency with subjective visual perception. In order to reduce the computational complexity of HEVC, in this paper, SSIM is considered as rate distortion cost function of HEVC. MSE is introduced into SSIM, so that a new rate distortion cost function can get. This problem can be solved by Lagrangian multiplier method. Experimental results show that compared our proposed algorithm with HM13.0 in AI configuration, the performance of rate distortion is average improved about 2.6%, as well as getting better coding quality. In addition, no significant runtime increases in the encoding process.
HEVC; rate distortion; structural similarity; lagrange multiplier
TN919.8
ADOI:10.16280/j.videoe.2016.07.003
國家自然科學(xué)基金項(xiàng)目(61561048);新疆維吾爾自治區(qū)科學(xué)基金項(xiàng)目(2015211C257)
2016-01-28
文獻(xiàn)引用格式:班俊碩,賴惠成,林憲峰,等.基于改進(jìn)SSIM的HEVC率失真優(yōu)化[J].電視技術(shù),2016,40(7):11-14.
BAN J S,LAI H C,LIN X F,et al.Rate distortion optimization based on improved SSIM for HEVC[J].Video engineering,2016,40(7):11-14.