,,
(1.天格科技(杭州)有限公司,浙江 杭州 310015;2.浙江工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,浙江 杭州 310023)
碼率控制是視頻編碼中至關(guān)重要的模塊,根據(jù)目標(biāo)比特率來調(diào)整編碼器輸出的實(shí)際比特率,避免視頻編碼幀輸出過大或過小,影響到解碼器的設(shè)計(jì)和網(wǎng)絡(luò)傳輸.多種碼率控制算法已在視頻編碼標(biāo)準(zhǔn)發(fā)展過程被提出,例如MPEG-2測(cè)試模型TM5和MPEG-4驗(yàn)證模型(VM)8,H.264/AVC中的JVT-N046.H.265中也提出了一些新的碼率控制算法.例如HM6推薦的碼率控制算法,基于二次R-Q模型[1]和二次像素為基礎(chǔ)的統(tǒng)一的速率量化(URQ)模型[2],Li等[3]提出了一種線性的R-λ模型,基于速率控制算法λ模型,由于基于線性R-λ模型的碼率控制算法其優(yōu)異的壓縮性能,此碼率控制算法已成為H.265參考軟件(HM)推薦的碼率控制算法.因其LCU級(jí)比特分配是基于已編碼幀同一位置的LCU平均絕對(duì)差(MAD),導(dǎo)致LCU層的比特分配不是最優(yōu).現(xiàn)有碼率控制方法都沒有考慮人類視覺系統(tǒng)的特點(diǎn),存在一個(gè)區(qū)域有很高的平均絕對(duì)差值,但這區(qū)域并不會(huì)受到人類視覺系統(tǒng)的關(guān)注.筆者提出的算法主要思想是如何在視頻幀內(nèi)分配有限的位資源,以達(dá)到讓人感興趣區(qū)域的視頻質(zhì)量更好,即感興趣區(qū)域在此碼率控制算法下,使主觀視覺質(zhì)量可以得到提高.基于感興趣區(qū)域視頻編碼的碼率控制算法已受到研究者的關(guān)注.Liu等[4]考慮到在視頻通話中的人臉檢測(cè)方案,提出了一種基于感興趣區(qū)域的比特分配技術(shù).Li等[5]提出一種H.264/AVC改進(jìn)的碼率控制算法,分多個(gè)優(yōu)先級(jí)別來得到感興趣區(qū)域,能更好地控制感興趣區(qū)域塊視頻質(zhì)量,同時(shí)通過位再分配過程來約束視頻幀其他部分視頻質(zhì)量變化過程.還有像進(jìn)行精準(zhǔn)比特率控制的[6]、增加壓縮比的[7],然而,這些算法都是基于H.264/AVC編碼器設(shè)計(jì)的,H.265在編碼結(jié)構(gòu)和算法設(shè)計(jì)上與H.264存在差異,這些改進(jìn)的碼率控制算法不能直接應(yīng)用過來,所以在H.265R-λ模型碼率控制算法基礎(chǔ)上,將已在H.264/AVC上應(yīng)用的改進(jìn)碼率控制算法[8]結(jié)合進(jìn)來,提升了筆者的改進(jìn)算法.
為了產(chǎn)生所需的空間域上的顯著圖,筆者采用著名的基于圖(GB)的顯著圖模型[11],利用與Itti模型相同的特征提取方法[12].該算法特征通道參數(shù)通常采用顏色、強(qiáng)度、方向和對(duì)比度,在實(shí)驗(yàn)中所有通道的加權(quán)因子都采用這些參數(shù),有關(guān)特征提取更詳細(xì)的說明參考文獻(xiàn)[11].假設(shè)一個(gè)特征映射產(chǎn)生,其表達(dá)式為M:[n]2→R,下一步是操作在M域上活化區(qū)域或顯著圖,基于圖(GB)的顯著圖模型引入了一個(gè)馬爾可夫隨機(jī)過程.對(duì)于特征映射中的兩個(gè)節(jié)點(diǎn)p和q,它們的差異性可以定義為
d(p‖q)
(1)
A點(diǎn)一個(gè)完全連接的有向圖GA可以通過連接M域中的每個(gè)節(jié)點(diǎn)與所有其他n-1節(jié)點(diǎn)得到.有向圖GA邊緣節(jié)點(diǎn)到節(jié)點(diǎn)q和q加權(quán)重表達(dá)式wA(p,q)為
wA(p,q)d(p||q)·F(px-qx,py-qy)
(2)
式中:F(a,b)分別為節(jié)點(diǎn)P和Q的坐標(biāo);σ為自由參數(shù).
在相反方向的邊緣節(jié)點(diǎn)也具有相同權(quán)重值.在GA馬爾可夫鏈可以通過規(guī)范各節(jié)點(diǎn)出境邊的權(quán)重繪制節(jié)點(diǎn)和狀態(tài)之間的一個(gè)等價(jià)定義,和邊權(quán)值和轉(zhuǎn)移概率.這條鏈的平均分布,從長(zhǎng)遠(yuǎn)來看反映隨機(jī)游走在各個(gè)節(jié)點(diǎn)或狀態(tài)下的時(shí)間分量,相比周圍節(jié)點(diǎn),在這個(gè)節(jié)點(diǎn)上會(huì)自然有較高的積累,因?yàn)檗D(zhuǎn)移到這樣的子圖概念就高,不可能轉(zhuǎn)移到具有相似的M值節(jié)點(diǎn)上,此結(jié)果是一個(gè)來自兩兩比較有用的衡量.
在獲得所有激活圖后,它們應(yīng)該在加性組合之前進(jìn)行歸一化處理.通過另一個(gè)馬爾可夫算法進(jìn)行規(guī)范化過程如下:假設(shè)有一個(gè)激活圖A:[n]2→R,一個(gè)完全連接的有向圖GN可以通過連接在與所有其他N-1個(gè)節(jié)點(diǎn)每個(gè)節(jié)點(diǎn)構(gòu)造.對(duì)于在A域的二個(gè)節(jié)點(diǎn)p和q,其邊加權(quán)函數(shù)表達(dá)式為
wN(p,q)A(p)·F(px-qx,py-qy)
(3)
式中A(p)為節(jié)點(diǎn)p的激活值.通過計(jì)算的馬爾可夫鏈平均分布,得到歸一化的激活圖.圖1為視頻圖像,圖2為圖1對(duì)應(yīng)的空間域的顯著圖.
圖1 原始視頻Fig.1 The original figure
圖2 空間域上視頻顯著圖產(chǎn)生Fig.2 Video on significant figure in the spatial domain
通常情況下,移動(dòng)的物體是觀眾極大的興趣點(diǎn).運(yùn)動(dòng)矢量(MV)是時(shí)域顯著圖中一重要的特征參數(shù),因?yàn)樗梢员硎疚矬w的運(yùn)動(dòng)強(qiáng)度.它是基于塊匹配提取的,在前面的幀中搜索的最佳匹配塊,由于平均絕對(duì)差(MAD)相對(duì)較低的計(jì)算復(fù)雜度,故作為算法和自適應(yīng)十字模式搜索(ARPS)的搜索算法[13].塊大小設(shè)置為16×16,搜索范圍為7,MV的幅度M可以表示其塊的運(yùn)動(dòng)強(qiáng)度.視頻序列中有2種情況:物體在移動(dòng),背景相對(duì)靜止;背景在運(yùn)動(dòng),物體相對(duì)靜止.在第2種情況下,運(yùn)動(dòng)向量的大小是不能夠代表它的塊的顯著特性.圖3為時(shí)域中視頻顯著圖.
圖3 時(shí)域中顯著圖Fig.3 Significant figure in time domain
為了獲得時(shí)空顯著圖SF,基于相干規(guī)范融合方法[13-14]結(jié)合了空域和時(shí)域的顯著圖,即
SF=SmSpθ1Sm+θ2Sp+θ3
(4)
式中:θ1,θ2,θ3分別為加權(quán)因子,根據(jù)經(jīng)驗(yàn)分別設(shè)置為0.5,0.3,0.5.給時(shí)域顯著圖選擇較大的加權(quán)因子,因?yàn)橐苿?dòng)的物體總是更吸引人的眼睛.前2個(gè)參數(shù)是通過時(shí)空域顯著圖來提升像素獨(dú)立屬性,第3參數(shù)是通過空域顯著圖來對(duì)時(shí)域顯著圖進(jìn)行加權(quán),反之亦然,可以根據(jù)顯著圖來確定感興趣區(qū)域.每一幀的LCU顯著特性可以通過計(jì)算得到,即
(5)
式中:ws(i)為第i個(gè)LCU顯著圖的加權(quán)值;SF(i,m,n)與坐標(biāo)(m,n)的值對(duì)應(yīng)的幀中的第i個(gè)LCU的顯著圖,m和n分別為該塊的寬度和高度.通過計(jì)算一個(gè)視頻幀中所有的ws(i),然后從大到小進(jìn)行排序,選定一個(gè)閾值T,LCU的ws(i)大于T將被設(shè)定為感興趣區(qū)域,小于T將被認(rèn)為非感興趣區(qū)域.
算法中,針對(duì)ROI和NROI數(shù)據(jù)位分配是獨(dú)立去決策的,ROI和NROI各自有目標(biāo)位.需要注意的是設(shè)定幀目標(biāo)比特位與HM10一致,然后根據(jù)質(zhì)量因子K將幀的目標(biāo)比特?cái)?shù)分成2部分,質(zhì)量因子K為ROI和NROI所需比特?cái)?shù)的比值.ROI和NROI目標(biāo)比特?cái)?shù)表達(dá)式分別為
T=TROI+TNROI
(6)
TROI=K·TNROI
(7)
式中:T,TROI,TNROI分別為當(dāng)前幀;下標(biāo)ROI和NROI為各自的目標(biāo)比特位.設(shè)定目標(biāo)比特位后,λROI,λNROI,QPROI,QPNROI能通過文獻(xiàn)[3]中式(1,2)來計(jì)算.為了保證時(shí)域上的質(zhì)量穩(wěn)定,參數(shù)λ和QP需要限定在一個(gè)較小的范圍,λ取值范圍為
(8)
(9)
QP的取值范圍為
QPXlastSameLevel-3≤QPXcurrPic≤QPXlastSameLevel+3
(10)
QPXlastPic-10≤QPXcurrPic≤QPXlastPic+10
(11)
式中:X為ROI或NROI;下標(biāo)currPic,lastPic,lastSameLevel分別為當(dāng)前幀相關(guān)參數(shù)、上一幀編碼參數(shù)以及同當(dāng)前幀同一層次的前編碼幀.
在LCU層級(jí)的碼率控制,每個(gè)LCU的目標(biāo)比特位設(shè)定應(yīng)該與當(dāng)前LCU顯著度值成正比例,其表達(dá)式為
(12)
(13)
QPXcurrPic-2≤QPcurrLCU≤QPXcurrPic+2
(14)
式中:X為ROI或NROI,依賴于當(dāng)前LCU分類;currLCU為當(dāng)前LCU相應(yīng)的參數(shù),LCU的λ和QP值也應(yīng)該由鄰近的LCU在空間域平滑進(jìn)行約束.如果當(dāng)前LCU及其左相鄰LCU,屬于同一類型,或者最后的編碼LCU單元,其ROI或NROI的λ和QP值修正式為
(15)
QPlastLCU-1≤QPcurrLCU≤QPlastLCU+1
(16)
式中l(wèi)astLCU代表著與前一個(gè)編碼LCU相關(guān)的參數(shù).
通過上述方法獲取ROI和NROI的λ和QP后,將這2個(gè)參數(shù)代入H.265碼率控制算法模型中,它可以分為2部分:第1部分是位分配,第2部分是根據(jù)已分配的位來調(diào)整編碼參數(shù).第2部分涉及R-λ模型,即
λ=α·Rβ
(17)
式中:α,β分別為與視頻源相關(guān)的參數(shù);R為目標(biāo)設(shè)碼率.λ為拉格朗日算子,它在率失真優(yōu)化(RDO)過程中起到非常重要的作用.這樣針對(duì)視頻ROI和NROI區(qū)域得到最佳視覺體驗(yàn)上的碼率控制參數(shù),在不增加視頻量化的位數(shù)的提升下極大的提升了視頻的視覺質(zhì)量.
為了評(píng)估改進(jìn)算法的性能,筆者在HM10標(biāo)準(zhǔn)
工程中驗(yàn)證提出的改進(jìn)碼率控制算法.選取JCT-3V中3種不同的分辨率頻序列對(duì)改進(jìn)碼率控制算法的效果進(jìn)行評(píng)估,所有的序列都是選用“隨機(jī)存取編碼(RA)”進(jìn)行編碼.將筆者提出的改進(jìn)算法與HM10碼率控制[6]進(jìn)行比較.每一幀的ROI和NROI碼率目標(biāo)比設(shè)為3.通過失配誤差來研究比特位不匹配的準(zhǔn)確度,其表達(dá)式為
(18)
式中:Rtarget,Ractual分別為測(cè)試編碼序列的目標(biāo)碼率和實(shí)際碼率值.
表1顯示了不同序列在不同目標(biāo)比特率的實(shí)驗(yàn)結(jié)果,與HM10比較,該算法在比特率波動(dòng)為0~1%情況下,在感興趣區(qū)域(ROI)視頻質(zhì)量提升的1.15~1.5 db,付出的代價(jià)是非感興趣區(qū)域(NROI)視頻質(zhì)量有0.76~1.49 db損失.表1中序列1為Kimono序列,序列2為ParkScene序列,序列3為PeopleOnStreet序列;PA為筆者提出的改進(jìn)算法.
表1 測(cè)試對(duì)比數(shù)據(jù)Table 1 Test data to compare
圖4為2個(gè)序列在HM10.0固定QP,HM10.0碼率控制和改進(jìn)碼率控制算法下的主觀視覺測(cè)試的比較結(jié)果.DMOS為10次客觀測(cè)試平均MOS值,較低的值代表更好的視覺質(zhì)量.首先,這2個(gè)序列是固定的QP分別設(shè)置為32,38,40,42,46,它們的輸出比特率設(shè)置作為在HM10.0碼率控制算法的測(cè)試目標(biāo)比特率.如圖3,4所示,筆者提出的算法在同行碼率情況下能得到更好的視覺質(zhì)量.改進(jìn)算法主要思想是感興趣區(qū)域分配更多的比特位,非感興趣區(qū)域分配少一點(diǎn)比特位,特別是在低碼率情況下,能大大提升整個(gè)視頻的主觀視覺質(zhì)量.在高碼率的情況下,3種算法均能提供非常良好的主觀質(zhì)量,人類的眼睛很難大致區(qū)分它們之間的區(qū)別.
圖4 2種測(cè)試序列視覺評(píng)估曲線Fig.4 Two kinds of test sequence visual evaluation curves
提出了一種感興趣區(qū)域的H.265改進(jìn)碼率控制算法.基于每幀的時(shí)空域線索來檢測(cè)出顯著圖,根據(jù)顯著圖來區(qū)分感興趣和非感興趣區(qū)域,并單獨(dú)對(duì)感興趣區(qū)域和非感興趣區(qū)域進(jìn)行比特位分配.經(jīng)過計(jì)算每個(gè)LCU的λ和QP值,進(jìn)行編碼.興趣區(qū)域檢測(cè)的H.265碼率控制方法在編碼序列的整體主觀視覺質(zhì)量上比HM10標(biāo)準(zhǔn)中自帶的碼率控制算法有了很大的提高.實(shí)驗(yàn)結(jié)果也表明:該算法可以使輸出比特率達(dá)到目標(biāo)值,同時(shí)有效地提升了視頻幀的興趣區(qū)域峰值信噪比(PSNR),因此編碼序列的整體主觀視覺質(zhì)量相比HM10標(biāo)準(zhǔn)中自帶的碼率控制算法大大提高.
本文得到了財(cái)政部2015年度文化產(chǎn)業(yè)發(fā)展專項(xiàng)資金項(xiàng)目的資助.
參考文獻(xiàn):
[1] KANG J W, KIM C S. On DCT coefficient distribution in video coding using quad-tree structured partition[C]//Signal and Information Processing Association Summit and Conference. Cambodia: IEEE,2014:1-4.
[2] CHOI J A, HO Y S. Implicit line-based intra 16×16 prediction for H.264/AVC high-quality video coding[J]. Circuits, systems, and signal processing,2012,31(5):1829-1845.
[3] LI B, LI H, LI L, et al. Domain rate control algorithm for high efficiency video coding[J]. IEEE transactions on image processing a publication of the IEEE signal processing society,2014,23(9):3841-3854.
[4] LIU Y, LI Z G, SOH Y C. Region-of-interest based resource allocation for conversational video communication of H.264/AVC[J]. IEEE transactions on circuits & systems for video technology,2008,18(1):134-139.
[5] LI F, LI N. Region-of-interest based rate control algorithm for
H.264/AVC video coding[J]. Multimedia tools and applications,2016,75(8):1-24.
[6] 周駿華,石旭剛,宋瑋.一種基于運(yùn)動(dòng)復(fù)雜度的新的H.264碼率控制跳幀算法[J].浙江工業(yè)大學(xué)學(xué)報(bào),2006,34(6):672-675.
[7] 周志立,阮秀凱.基于H.264的碼率控制的改進(jìn)方法研究[J].浙江工業(yè)大學(xué)學(xué)報(bào),2008,36(5):519-522.
[8] PRATIKC, NARENDRA P, KANUP. Region of interest based image compression[J]. International journal of innovative research in computer and communication engineering,2014,2(1):2743-2754.
[9] MEDDEB M, CAGNAZZO M, PESQUET-POPESCU B. ROI-based rate control using tiles for an HEVC encoded video stream over a lossy network[C]//IEEE International Conference on Image Processing. Quebec City: IEEE,2015:1389-1393.
[10] ITTI L, KOCH C, NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE transactions on pattern analysis & machine intelligence,1998,20(11):1254-1259.
[11] LASMAR N E, BERTHOUMIEU Y. Gaussian copula multivariate modeling for texture image retrieval using wavelet transforms[J]. IEEE transactions on image processing a publication of the IEEE signal processing society,2014,23(5):2246-61.
[12] BAI LIXUN, SONG LI, XIE RONG, et al. Saliency based rate control scheme for high efficiency video coding[C]// Signal and Information Processing Association Annual Summit and Conference(APSIPA).UK: Cambridge University Press,2016:10-15
[13] LEE S H, KANG J W, KIM C S. Compressed domain video saliency detection using global and local spatiotemporal features[J]. Journal of visual communication & image representation,2016,35:169-183.
[14] CHAMARET C, CHEVET J C, MEUR O L. Spatio-temporal combination of saliency maps and eye-tracking assessment of different strategies[C]//IEEE International Conference on Image Processing. Hong Kong: IEEE Xplore,2010:1077-1080.