鄭明魁 蘇凱雄 王衛(wèi)星 楊秀芝 蘭誠棟
?
基于視覺感知的高效視頻編碼標準幀內(nèi)量化矩陣優(yōu)化方法
鄭明魁 蘇凱雄*王衛(wèi)星 楊秀芝 蘭誠棟
(福州大學物理與信息工程學院福州350108)
該文使用一種基于離散余弦變換(DCT)的調(diào)制傳遞函數(shù)(MTF)改進高效視頻編碼標準(HEVC)幀內(nèi)量化矩陣,并在計算過程中采用一種新的空間頻率計算方法。HEVC整數(shù)DCT變換是在DCT變換的基礎上經(jīng)過伸縮擴展以及微調(diào)后得到的,與DCT變換有所區(qū)別,因此針對這種差別進一步優(yōu)化校正量化矩陣。仿真過程中設計一種基于結(jié)構(gòu)相似性(SSIM)的Bjontegaard比特率差值(BDBR)方法來測試量化矩陣的編碼性能,結(jié)果表明在相同的視頻質(zhì)量下,該文設計的量化矩陣能進一步降低碼率。該方法在編碼過程中只需要簡單地改變量化矩陣,沒有影響編碼模型的算法結(jié)構(gòu),也不會增加編碼的復雜度。
高效視頻編碼標準;視覺感知;調(diào)制傳遞函數(shù);量化矩陣
與H.264/AVC相比,新一代高效視頻編碼標準(High Efficiency Video Coding, HEVC)在相同的視覺質(zhì)量下能使比特率降低一半[1,2]。HEVC仍然采用混合編碼框架,在正交變換環(huán)節(jié),它對預測殘差采用四叉樹狀的多尺寸整數(shù)離散余弦變換(Discrete Cosine Transform, DCT),變換尺寸可以為32×32, 16×16, 8×8等[3];此外,對有些4×4的幀內(nèi)預測亮度分量則可以采用離散正弦變換(Discrete Sine Transform, DST)[4,5]。正交變換后的殘差系數(shù)主要采用均勻量化的方法[3],同一變換塊中的不同頻率系數(shù)使用相同的量化步長。實際上,人眼對不同頻率分量的敏感度是不同的,因此HEVC同時支持并提供了一種基于視覺感知特性的量化矩陣[6],通過這個缺省的量化矩陣使得不同系數(shù)可以用不同的量化步長進行量化。
視覺感知特性的量化矩陣設計主要基于調(diào)制傳遞函數(shù)(Modulation Transfer Function, MTF)進行,MTF體現(xiàn)了人眼對不同空間頻率的敏感程度。目前有多個文獻提出了不同的MTF模型,Mannos等人[7]最早將MTF特性用于圖像編碼,但所提出的MTF函數(shù)主要面向離散傅里葉變換(Discrete Fourier Transform, DFT); Daly[8]則在此基礎上對MTF函數(shù)進行微調(diào),該模型被延續(xù)到HEVC量化矩陣的設計[6]。因此HEVC缺省量化矩陣所采用的感知模型實際上最初是針對DFT變換的。人眼對DFT系數(shù)與DCT系數(shù)的頻率感知不完全相同,因此使用基于DFT變換的MTF函數(shù)設計DCT系數(shù)的量化矩陣,具有一定的局限性。此外,HEVC視頻編碼采用的是整數(shù)DCT變換,需要將生成的DCT量化矩陣經(jīng)過校正后才能用于整數(shù)DCT系數(shù)的量化,而HEVC則沒有經(jīng)過調(diào)整就直接將其用于量化,這也是該缺省量化矩陣的另一個局限性。
本文使用一種基于DCT變換的MTF函數(shù)設計HEVC幀內(nèi)量化矩陣;在MTF函數(shù)中提出一種新的空間頻率計算方法;此外,HEVC視頻編碼采用的是整數(shù)DCT變換,這種變換是在DCT變換的基礎上對各個基矢量進行伸縮擴展以及微調(diào)后形成的,與DCT變換還有所區(qū)別,因此本文還對所設計的量化矩陣進行校正處理,以適應HEVC整數(shù)DCT變換的特點。由于峰值信噪比(Peak Signal to Noise Ratio, PSNR)在評價視頻質(zhì)量時沒有體現(xiàn)人眼的感知特性,本文在仿真時設計了一種基于結(jié)構(gòu)相似性(Structural SIMilarity, SSIM)的Bjontegaard比特率差值(Bjontegaard Delta Bit Rate, BDBR)方法來測試量化矩陣的編碼性能。最后的仿真和分析結(jié)果表明,本文所提出的基于視覺感知特性優(yōu)化的幀內(nèi)量化矩陣與HEVC缺省矩陣相比,在相同的視頻質(zhì)量下進一步降低了碼率。
調(diào)制傳遞函數(shù)MTF體現(xiàn)了人眼對不同空間頻率的敏感度。Mannos和Sakrison最早將MTF特性用于圖像編碼,其模型如式(1)所示[7]。
文獻[9]將文獻[8]的Daly模型用于設計靜止圖像編碼標準JPEG的量化矩陣,獲得了較好的視覺質(zhì)量與壓縮效果。JCTVC-G880提案則進一步將這個量化矩陣作為HEVC的缺省幀內(nèi)量化矩陣[6]。實際上由以上的分析可知式(2)模型最初的設計是針對基于DFT變換的圖像編碼,并被延續(xù)到HEVC的缺省量化矩陣的設計。對于同一圖像信號,DFT系數(shù)與DCT系數(shù)是不同的,但人眼接收到的圖像信息卻完全相同,因此人眼對DFT系數(shù)與DCT系數(shù)的頻率感知不應該完全相同,也不能簡單的使用基于DFT變換的MTF函數(shù)設計DCT的量化矩陣。
許多視頻圖像編碼標準都采用DCT變換,Nill將人眼視覺感知特性與DCT變換相結(jié)合,通過利用加權(quán)函數(shù),提出了一種基于DCT變換的MTF函數(shù)(Nill模型)[10]。Nill模型函數(shù)在緩解圖像的方塊效應方面有一定的改善[11],對于2維的圖像,其調(diào)制傳遞函數(shù)表達式如式(5)所示[10]。
由于HEVC采用了整數(shù)DCT變換去除像素空間域的相關性,而Nill模型更能體現(xiàn)人眼在DCT變換域的視覺特性,基于這種分析,本文結(jié)合該模型用式(6)來表示人眼對不同頻率DCT系數(shù)的響應并將其用于設計量化矩陣。
將文獻[9]基于Daly模型的人眼頻率響應曲線與本文采用Nill模型得到的人眼頻率響應曲線進行對比,如圖2所示。橫坐標為空間頻率,縱坐標體現(xiàn)了人眼對不同空間頻率的敏感度。從曲線上可以看出,實際上人眼對DCT系數(shù)與DFT系數(shù)在低頻位置的視覺感知響應非常相似,但是在中頻位置,人眼對DCT系數(shù)相對更敏感一些,而高頻則衰減的更多。
圖1 1 mm圖像在距離dis處觀察到的周期數(shù)和夾角示意圖
圖2 文獻[9]與本文的人眼頻率響應曲線對比
圖3 HEVC及本文提出的DCT幀內(nèi)量化矩陣
0000-1-1-2-2 0000-1-2-2-1 00-1-2-2-2-2-1 00-2-2-2-1-10 -1-1-2-2-2024 -1-2-2-104710 -2-2-2-1271320 -2-1-104102034
圖5 歸一化后的HEVC整數(shù)DCT與DCT 8×8變換矩陣對比
對于4×4 HEVC整數(shù)DCT幀內(nèi)量化矩陣,也是采用類似的計算方法,獲得的4×4幀內(nèi)量化矩陣如圖6(b)所示。由圖6可知,實際上4×4的HEVC量化矩陣內(nèi)嵌于8×8矩陣內(nèi),16×16以及32×32的整數(shù)DCT量化矩陣之間也存在這種內(nèi)嵌關系。HEVC為了節(jié)省數(shù)據(jù)量,16×16以及32×32的幀內(nèi)量化矩陣由8×8幀內(nèi)量化矩陣插值得到,每2×2或者4×4的子塊都共用8×8量化矩陣對應位置上的量化步長。
為了仿真本文設計的幀內(nèi)量化矩陣的性能,將HEVC設置成幀內(nèi)編碼模式。本文使用HEVC參考軟件HM 10.0作為測試平臺,并分別設置QP值為22, 27, 32, 37[13],對幾種常見的不同分辨率的測試序列進行仿真驗證,如表1所示。
不同測試序列進行編碼后的壓縮碼率與視頻質(zhì)量對比如表1前兩列所示。為了進一步分析對比,本文對不同QP下生成的碼率和視頻質(zhì)量進行曲線擬合,繪制碼率-結(jié)構(gòu)相似性(Rate-Structural Similarity, R-SSIM)曲線。如圖8所示,分別為RaceHorses序列與BQSquare測試序列使用HEVC缺省量化矩陣以及本文方法編碼后對應的R-SSIM曲線。由圖8可知,在相同的碼率下,本文所提出的量化矩陣能獲得更高的質(zhì)量;而在相同的視頻質(zhì)量下,本文的方法能更有效的壓縮視頻,獲得更低的碼率。
分析其性能改善的原因,主要是由于本文的量化矩陣更符合HEVC整數(shù)DCT系數(shù)的頻率感知特性。本文方法對低頻分量的量化與缺省矩陣一樣,但中頻系數(shù)的步長要低于缺省矩陣,由于人眼對中頻也有一定的敏感度,同時視頻圖像在中頻位置的能量分布也相對較多,因此中頻系數(shù)量化步長的減少有利于避免能量的損失,減少量化誤差的引入,對提高視頻圖像的質(zhì)量具有積極影響。此外,高頻系數(shù)量化步長的增加則提高了圖像的壓縮率,通常情況下DCT的高頻系數(shù)都較小,圖像能量較少分布在該區(qū)域,人眼對其敏感度也低,因此在高頻位置增加量化步長對圖像的質(zhì)量影響不大,同時進一步提高了壓縮率。正是由于中頻與高頻量化步長的同步調(diào)整,使得本文提出的量化矩陣具有更好的視頻質(zhì)量與壓縮性能。
對于Flower測試序列,基于SSIM的BDBR值為-3.55%,即本文提出的量化矩陣與HEVC缺省量化矩陣相比,在相同圖像質(zhì)量下能平均減少3.55%的碼率。其他測試視頻平均碼率減少的情況如表1最后一列所示,由表中可知不同測試序列的碼率都得到改善。對于某些序列,如BQTerrace與Foreman序列,在QP為37時,使用本文量化矩陣得到的比特率會稍大一些,其主要原因是由于當量化步長較大時大多數(shù)高頻系數(shù)被量化為零,而本文量化矩陣對應的中頻系數(shù)量化步長相對較小,因此獲得的比特率稍大一些,但這也同時增強了圖像質(zhì)量。綜合比特率與圖像質(zhì)量這兩個因素,這兩個序列在相同質(zhì)量下比特率還是分別減少了2.07% 與1.19%。不同分辨率的測試序列在相同視頻質(zhì)量下平均的碼率減少值為2.03%。
圖7 RaceHorses測試序列不同量化矩陣幀內(nèi)編碼重構(gòu)視頻對比
圖8 幀內(nèi)編碼RaceHorses序列與BQSquare序列的R-SSIM曲線
表1不同序列在不同量化矩陣進行幀內(nèi)編碼時的對比
測試序列QP比特率(kbps)SSIM基于SSIM的BDBR (%) 缺省矩陣本文方法缺省矩陣本文方法 BQTerrace1920×1080600幀221740781618460.963070.95852-2.07 2776269735920.910590.91002 3239833394600.881410.88146 3721518215490.845050.84529 RaceHorses832×480300幀2215217145660.974350.97306-1.22 27912587480.955840.95411 32512049630.921970.92050 37255025280.857260.85750 BQSquare416×240600幀2213134123690.974340.97012-2.13 27822178100.936670.93422 32505948240.889300.88731 37300528800.836470.83374 Foreman352×288300幀22374335780.975560.97416-1.19 27217020900.951150.94989 32118311550.913410.91271 376086100.861090.86162 Flower352×288250幀22816077630.992450.99105-3.55 27588654610.983400.98071 32394736270.961930.95814 37241022670.915400.91219
本文使用一種基于DCT變換的MTF函數(shù)來改進HEVC的幀內(nèi)量化矩陣,在計算過程中使用一種新的空間頻率計算方法。并在此基礎上,進一步對其進行校正調(diào)整,以符合整數(shù)DCT變換的特點。在分析編碼性能時,使用SSIM進行視頻質(zhì)量評價,并設計一種基于SSIM的BDBR方法測試量化矩陣的性能改善情況。仿真結(jié)果表明,本文方法更適用于HEVC的變換系數(shù),在相同的視頻質(zhì)量下,本文提出的量化矩陣能平均降低比特率2.03%左右。由于在編碼過程中只需要簡單地改變量化矩陣,并不要改變編碼模型的結(jié)構(gòu),也沒有增加編碼復雜度,卻可以因此降低碼率,這對于每個比特都彌足珍貴的視頻編碼方法研究具有一定的參考價值。本文所設計的量化矩陣不僅可以用于HEVC編碼標準,經(jīng)過適當調(diào)整也可以作為H.264/AVC, AVS2或者其他基于DCT變換的視頻編碼標準的參考量化矩陣。此外,本文設計的是幀內(nèi)量化矩陣,在后續(xù)的工作中可以將其推廣到幀間量化矩陣,以進一步提高HEVC的編碼效率。
[1] Sullivan G J, Ohm J, Han Woo-jin,. Overview of the High Efficiency Video Coding (HEVC) standard[J]., 2012, 22(12): 1649-1668.
[2] Ohm J and Sullivan G J. High efficiency video coding: the next frontier invideo compression[J]., 2013, 30(1): 152-158
et al.IEEE Journal of Selected Topics in Signal Processing
[3] Saxena A and Fernandes F C. Mode dependent DCT/DST for intra prediction in block-based image/video coding[C]. Proceedings of the 2011 18th IEEE International Conference on Image Processing (ICIP), Brussels, Belgium, 2011: 1685-1688.
[4] Yeo Chuo-hao, Tan Yih-han, Li Zheng-guo,. Mode dependent transforms for coding directional intra prediction residuals[J].2012, 22(4): 545-554.
[5] Haoqe M, Tabatabai A, and Morigami Y. HVS model based default quantization matrices[C].JCTVC-G880, 7th The Joint Collaborative Team on Video Coding Meeting, Geneva, Switzerland, 2011: 1-14.
[6] Mannos J L and Sakrison D J. The effect of a visual fidelity criterion on the encoding of images[J]., 1974, 20(4): 525-536.
[7] Daly S. Subroutine for the generation of a two dimensional human visual contrast sensitivity function[R]. Eastman Kodak, 1987.
[8] Wang Ching-yang, Lee Shiuh-ming, and Chang Long-wen. Designing JPEG quantization tables based on human visual system[J]., 2001, 16(5): 501-506.
[9] Nill N B. A visual model weighted cosine transform for image compression and quality assessment[J].1985, 33(6): 551-557.
[10] Chitprasert B and Rao K R.Human visual weighted progressive image transmission[J].1990, 38(7): 1040-1044.
[11] Sullivan J, Ray L, and Miller R. Design of minimum visual modulation halftone patterns[J].1991, 21(1): 33-38.
[12] Bossen F. Common test conditions and software reference configurations[C]. JCTVC-J1100, 10th The Joint Collaborative Team on Video Coding Meeting, Stockholm, Sweden, 2012: 1-3.
[13] Wang Zhou, Bovik A C, Sheikh H R,. Image quality assessment: from error measurement to structural similarity[J].,2004, 13(4): 600-612.
[14] Bjontegaard G. Calculation of average PSNR differences between RD-curves[C]. VCEG-M33, 13th Video Coding Experts Group Meeting, Austin, USA, 2001: 1-4.
鄭明魁: 男,1976 年生,講師,博士生,研究方向為多媒體通信與視頻編碼.
蘇凱雄: 男,1959 年生,教授,博士生導師,研究方向為多媒體通信、數(shù)字電視廣播.
王衛(wèi)星: 男,1959 年生,教授,博士生導師,研究方向為圖像處理與融合.
An Improved Intra Quantization Matrix for High EfficiencyVideo Coding Based on Visual Perception
Zheng Ming-kui Su Kai-xiong Wang Wei-xing Yang Xiu-zhi Lan Cheng-dong
(,,350108,)
A Discrete Cosine Transform (DCT) based Modulation Transfer Function (MTF) is used to improve the intra quantization matrix for the High Efficiency Video Coding (HEVC) standard. A new method is used to calculate the spatial frequency in the calculation process. The integer DCT for the HEVC is achieved by scaling and hand-tuning the DCT matrix. Due to difference between these two transforms, the quantization matrices are optimized. The experimental results show that the proposed HEVC intra quantization matrix based on the visual perception can reduce more bit rate at the similar video quality by using a Structural SIMilarity (SSIM) based Bjontegaard Delta Bit Rate (BDBR) performance evaluation. Since only the quantization matrices are changed in the encoding process, the proposed algorithm does not affect the structure of the encoding algorithm and does not add the coding complexity.
High Efficiency Video Coding(HEVC); Visual perception; Modulation Transfer Function (MTF); Quantization matrix
TN919.8
A
1009-5896(2014)12-2861-08
10.3724/SP.J.1146.2014.00318
蘇凱雄 skx@fzu.edu.cn
2014-03-10收到,2014-06-09改回
國家自然科學基金(61170147),福建省高校產(chǎn)學合作重大項目(2012H6012)和福建省自然科學基金(2013J01234)資助課題