摘" 要: 作為HEVC標(biāo)準(zhǔn)中最基礎(chǔ)、最重要的技術(shù)之一,幀內(nèi)預(yù)測對(duì)實(shí)現(xiàn)視頻編碼的高速、高質(zhì)量和高壓縮率具有重要的作用。文中針對(duì)幀內(nèi)預(yù)測復(fù)雜性問題進(jìn)行研究,提出一種基于深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法,通過學(xué)習(xí)來預(yù)測CTU的劃分,從而減少HEVC幀內(nèi)編碼的復(fù)雜性。通過建立一個(gè)大規(guī)模的CTU劃分?jǐn)?shù)據(jù)庫,并利用CNN的能力學(xué)習(xí)各種CTU劃分模式,能夠準(zhǔn)確地預(yù)測CTU的劃分,從而避免了傳統(tǒng)的窮舉搜索,實(shí)現(xiàn)了HEVC編碼復(fù)雜性的顯著降低,提高了編碼效率。實(shí)驗(yàn)結(jié)果表明,提出的方法在測試序列和圖像上分別將幀內(nèi)編碼時(shí)間減少了62.25%和69.06%,與其他最先進(jìn)的方法相比,比特率分別僅增加了2.12%和1.13%,達(dá)到了優(yōu)化的目的。
關(guān)鍵詞: 高效視頻編碼; 幀內(nèi)預(yù)測編碼; 卷積神經(jīng)網(wǎng)絡(luò); 深度學(xué)習(xí); 編碼單元; 深度決策; 編碼塊分割
中圖分類號(hào): TN919.81?34" " " " " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " " " " "文章編號(hào): 1004?373X(2024)11?0069?09
HEVC intra?frame prediction algorithm optimization based on CNN
LI Xuan, LENG Yuxin
(College of Electronic and Information Engineering, Shenyang Aerospace University, Shenyang 110136, China)
Abstract: As one of the most fundamental and crucial technologies in the HEVC (high efficiency video coding) standard, intra?frame prediction plays a crucial role in achieving high speed, high quality and high compression efficiency in video coding. This paper addresses the complexity issue of intra?frame prediction and proposes a method based on deep convolutional neural networks (CNNs) to predict CTU (coding tree unit) partition by learning, thereby reducing the complexity of HEVC intra?frame coding. By establishing a large?scale CTU partition database and using the learning capability of CNN to study various CTU partition patterns, the CTU partition is predicted accurately, so as to avoid the traditional exhaustive searches, reduce the complexity of HEVC encoding significantly and improve the coding efficiency. Experimental results demonstrate that the proposed method reduces intra?frame coding time by 62.25% and 69.06% for the test sequences and the images, respectively. In comparison with the other advanced methods, its bitrate increases by only 2.12% and 1.13%, which achieves the purpose of optimization.
Keywords: HEVC; intra?frame predictive coding; CNN; deep leaning; coding unit; depth decision; coding block segmentation
0" 引" 言
最新的高效視頻編碼(High Efficiency Video Coding, HEVC)標(biāo)準(zhǔn)[1]采用了多種先進(jìn)的視頻編碼技術(shù),如編碼樹單元(Coding Tree Unit, CTU)分割等,與其前身H.264/高級(jí)視頻編碼(Advanced Video Coding, AVC)標(biāo)準(zhǔn)相比,HEVC在相似的視頻質(zhì)量下降低了近50%的比特率。然而,這些技術(shù)導(dǎo)致了HEVC的極高編碼復(fù)雜性,其編碼時(shí)間[2]比H.264/AVC高出9%~502%,使其在實(shí)時(shí)應(yīng)用中難以實(shí)現(xiàn)。因此,降低HEVC的編碼復(fù)雜度顯得十分迫切。近些年,涌現(xiàn)了許多關(guān)于HEVC復(fù)雜度降低的有效方法。盡管大多數(shù)方法研究重點(diǎn)在于幀間預(yù)測模式[3?13],但由于HEVC的幀內(nèi)預(yù)測復(fù)雜度[14]比H.264/AVC高出3.2倍,因此減少幀內(nèi)預(yù)測的編碼復(fù)雜度同樣重要。由于在HEVC中,編碼樹單元(CTU)分割占據(jù)了編碼復(fù)雜性的最大比例(在參考軟件HM[15]中占比80%),大多數(shù)現(xiàn)有的HEVC幀內(nèi)預(yù)測復(fù)雜性降低工作旨在通過簡化CTU分割過程來減少復(fù)雜性[16?21]。
目前,用于降低HEVC復(fù)雜性的方法可以大致分為兩類:啟發(fā)式方法和基于學(xué)習(xí)的方法。啟發(fā)式方法即對(duì)編碼過程中的一些中間特征進(jìn)行適當(dāng)探索,以在檢查所有分割可能性之前提前確定CTU分割。具體而言,文獻(xiàn)[16]基于完整和低復(fù)雜度的RD成本,利用貝葉斯決策規(guī)則提出了一種CU分割和修剪方法;文獻(xiàn)[17]提出了一種根據(jù)每個(gè)CU中高頻關(guān)鍵點(diǎn)的數(shù)量來決定是否拆分CU的方法。除了降低CU分割的復(fù)雜性外,還提出了一些方法來降低預(yù)測單元(Prediction Unit, PU)分割的復(fù)雜度。例如,文獻(xiàn)[18]提出了一種根據(jù)視頻幀內(nèi)容自適應(yīng)地將較小的PU組合成較大的PU的快速PU尺寸決策方法。
盡管啟發(fā)式方法在降低HEVC復(fù)雜性方面是有效的,但其缺點(diǎn)在于必須人工開發(fā)用于確定CTU分割的標(biāo)準(zhǔn)。而在多個(gè)中間特征之間找到相關(guān)性很復(fù)雜,這使得理想的RD性能難以實(shí)現(xiàn)。為解決這一問題,出現(xiàn)了具有從大量數(shù)據(jù)中學(xué)習(xí)和構(gòu)建最優(yōu)模型能力的基于深度學(xué)習(xí)的方法。例如,對(duì)于幀內(nèi)模式的HEVC編碼,文獻(xiàn)[19]將CU分割過程建模為具有邏輯回歸的二元分類問題。文獻(xiàn)[20]使用支持向量機(jī)(SVM)進(jìn)行分類,通過使用經(jīng)過良好訓(xùn)練的分類模型代替暴力窮舉式搜索,可以顯著減少CTU分割的計(jì)算時(shí)間。對(duì)于幀內(nèi)模式的HEVC編碼,文獻(xiàn)[12]提出三種早期終止方案,采用數(shù)據(jù)挖掘技術(shù)簡化了最佳CTU結(jié)構(gòu)的決策。文獻(xiàn)[13]提出了一種CU深度決策方法,采用SVM的聯(lián)合分類器,在編碼復(fù)雜性和RD性能之間進(jìn)行權(quán)衡。在最新的研究中[21]已經(jīng)開發(fā)了一種CNN方法來預(yù)測CTU結(jié)構(gòu)。然而,文獻(xiàn)[21]中的CNN架構(gòu)較淺,因?yàn)樗话謩e具有6和16個(gè)3×3卷積核的兩個(gè)卷積層,這種較淺的架構(gòu)可以在訓(xùn)練數(shù)據(jù)不足時(shí)避免過度擬合,但它無法學(xué)習(xí)到足夠的特征來準(zhǔn)確預(yù)測CTU的分割方式。
本文提出了一種深度CNN方法,旨在通過學(xué)習(xí)來進(jìn)行CTU分割,以替代傳統(tǒng)的窮舉式搜索,從而有效降低HEVC幀內(nèi)編碼的復(fù)雜性。為此,本文首先建立了一個(gè)大規(guī)模的數(shù)據(jù)庫,包含2 000個(gè)HEVC編碼圖像,以不同QP下的CTU分割為分析對(duì)象。通過利用數(shù)據(jù)庫中充足的訓(xùn)練數(shù)據(jù),CNN的架構(gòu)能夠更深入地學(xué)習(xí),進(jìn)一步熟練處理各種CTU分割模式所需的廣泛參數(shù)。因此,本文設(shè)計(jì)了一種新的適應(yīng)HEVC的CTU特性的CNN架構(gòu),其中根據(jù)所有可能CU的大小選擇各種不同大小的卷積核。此外,本文深層CNN中卷積核的步長滿足CTU的分割,其中卷積允許無重疊。與文獻(xiàn)[21]的淺層CNN架構(gòu)不同,本文的CNN架構(gòu)中嵌入了大量的參數(shù)(包括卷積核和全連接層),因此能夠囊括HEVC幀內(nèi)模式編碼中各種分區(qū)模式,從而能夠準(zhǔn)確預(yù)測CTU分割。相較于文獻(xiàn)[21]的淺層結(jié)構(gòu),該方法能夠更好地處理從64×64到32×32的分割預(yù)測,因此在降低編碼復(fù)雜性方面相比文獻(xiàn)[21]更為高效。通過避免對(duì)CTU進(jìn)行最優(yōu)分區(qū)的暴力搜索,本文提出的方法在顯著降低HEVC幀內(nèi)模式編碼復(fù)雜性方面表現(xiàn)出有效性和高效性。
1" CTU分區(qū)數(shù)據(jù)庫
1.1" CTU分區(qū)概述
CTU分區(qū)結(jié)構(gòu)[1]是HEVC標(biāo)準(zhǔn)的主要改進(jìn)之一。CTU的默認(rèn)大小為64×64像素,也是標(biāo)準(zhǔn)HEVC中允許的最大大小。CTU四叉樹結(jié)構(gòu)如圖1所示,CTU可以包含單個(gè)CU,也可以根據(jù)四叉樹結(jié)構(gòu)遞歸地分割成多個(gè)較小的CU。CU的最小大小通常在編碼之前配置,默認(rèn)為8×8。因此,CTU中CU的大小各異,范圍從64×64到8×8,深度從0~3。
每個(gè)CTU中CU的數(shù)量和大小是通過一種窮舉式率失真優(yōu)化(RDO)搜索確定的,包括自上而下的檢查過程和自下而上的比較過程。圖2分別說明了父CU與其子CU之間的RD成本檢查和比較。在檢查過程中,編碼器檢查整個(gè)CTU的RD成本,然后檢查其子CU,直到達(dá)到最小CU大小。
在圖2中,父CU的RD成本表示為[Rp],其子CU的RD成本表示為[Rs,m],其中[m∈1,2,3,4]是每個(gè)子CU的索引。當(dāng)父CU未分割時(shí),拆分標(biāo)志的RD成本包含在[Rp]中;當(dāng)分割時(shí),還需要額外考慮將拆分標(biāo)志編碼為“true”的成本,表示為[Rsft]。隨后,基于RD成本的比較過程用于確定父CU是否應(yīng)分割。如圖2所示,如果[Rsft+m=14Rs,mlt;Rp],則需要分割父CU,否則不分割。完成整個(gè)RDO搜索后,選擇具有最小RD成本的CTU分區(qū)。
RDO搜索耗時(shí)主要?dú)w因于暴力遞歸檢索過程。在64×64的CTU中,有85個(gè)可能的CU,分別為1個(gè)64×64、4個(gè)32×32、42個(gè)16×16和43個(gè)8×8。為了檢查每個(gè)CU的RD成本。在標(biāo)準(zhǔn)HEVC幀內(nèi)編碼中,必須對(duì)所有85個(gè)可能的CU進(jìn)行預(yù)編碼,因此占用了極大部分的編碼時(shí)間。然而,在最終的CTU分區(qū)中,只選擇了部分CU,從1(如果64×64的CU未分割)~64(如果整個(gè)CTU分割為8×8的CU)。因此,在整個(gè)CTU不分割的情況下,通過CTU分區(qū)預(yù)測最多可以避免84(即85-1)個(gè)CU的預(yù)編碼。當(dāng)CTU中所有CU的大小為8×8時(shí),通過CTU分區(qū)預(yù)測可以節(jié)省至少21(即85-64)個(gè)CU的預(yù)編碼。
1.2" 數(shù)據(jù)庫建立
本文建立了一個(gè)大規(guī)模的數(shù)據(jù)庫,用于對(duì)HEVC幀內(nèi)模式的CTU分區(qū),即CPIH數(shù)據(jù)庫。數(shù)據(jù)庫1是CTU分區(qū)模式的第一個(gè)數(shù)據(jù)庫。首先,從Raw Images Dataset(RAISE)[22]中選擇了分辨率為4 928×3 264的2 000張圖像。這2 000張圖像被隨機(jī)分為訓(xùn)練集(1 700張圖像)、驗(yàn)證集(100張圖像)和測試集(200張圖像)。此外,每個(gè)集合均平均分為四個(gè)子集:一個(gè)子集具有原始分辨率,另外三個(gè)子集被降采樣為2 880×1 920、1 536×1 024和768×512。因此,CPIH數(shù)據(jù)庫包含不同分辨率的圖像,這確保了學(xué)習(xí)預(yù)測CTU分區(qū)所需的充足和多樣化的訓(xùn)練數(shù)據(jù)。接下來,所有圖像都由HEVC參考軟件HM[15]進(jìn)行編碼,本文選取了四個(gè)QP∈{22,27,32,37}進(jìn)行編碼,使用配置文件encoder intra main.cfg在常規(guī)測試條件下進(jìn)行[23]。編碼后獲取所有CU的指示分割(=1)和不分割(=0)的二進(jìn)制標(biāo)簽,每個(gè)CU及其相應(yīng)的二進(jìn)制標(biāo)簽可以看作是數(shù)據(jù)庫中的一個(gè)樣本。最后得到CPIH數(shù)據(jù)庫,根據(jù)QP和CU大小,其包含12個(gè)子數(shù)據(jù)庫,并允許對(duì)具有3種不同大小的CU(64×64、32×32和16×16)進(jìn)行分割。
表1顯示了CPIH數(shù)據(jù)庫中12個(gè)子數(shù)據(jù)庫中分割和非分割CU的數(shù)量。共收集了110 405 784個(gè)樣本,確保了訓(xùn)練數(shù)據(jù)的充足性。其中分割和非分割CU的百分比分別為49.2%和50.8%。
2" 研究方法
2.1" 三級(jí)CU分類器
根據(jù)HEVC中的CTU分割結(jié)構(gòu),最多支持四種不同的CU尺寸,即64×64、32×32、16×16和8×8,分別對(duì)應(yīng)于CU深度0、1、2和3。其中,尺寸大于等于16×16的CU可以是分割的,也可以是非分割的。三級(jí)CU分類器結(jié)構(gòu)如圖3所示。整體CTU分割可以被看作是三級(jí)的二元分類器[Sl3l=1]的組合,其中[l∈1,2,3]代表是否將父CU分割成較小CU的三個(gè)決策級(jí)別。[l=1]表示決策64×64 CU是否分割成32×32 CU;[l=2]表示決策32×32 CU是否分割成16×16 CU;[l=3]表示16×16 CU是否分割成8×8 CU。給定一個(gè)CTU,假設(shè)深度為0、1、2和3的亮度CU分別表示為[U]、[Ui]、[Ui,j]和[Ui,j,k],其中下標(biāo)[i,j,k∈1,2,3,4]是從[U]、[Ui]和[Ui,j]分割出的子CU的索引。對(duì)于尺寸大于等于16×16的CU,二元分類器[Sl]產(chǎn)生輸出[yl],表示此CU分割[yl=1]或不分割[yl=0],在圖3中用帶有兩個(gè)分支的向下箭頭表示。具體而言,對(duì)于16×16 CU,只有2種模式:分割和非分割;對(duì)于32×32 CU,有24種分割模式,因?yàn)楸仨殯Q定是否分割其四個(gè)16×16 CU,加上非分割模式,分割模式的總數(shù)為24+1=17;對(duì)于64×64 CU,存在174種分割模式,因此CTU分割模式的總數(shù)為174+1=83 522。
在HEVC中,如第1.1節(jié)所述,分類器[Sl3l=1]是通過耗時(shí)的RDO過程獲得的,實(shí)際上,它們可以通過機(jī)器學(xué)習(xí)以更快的速度進(jìn)行預(yù)測。然而,由于CTU分割模式較多(共83 522個(gè)),直接通過多類分類進(jìn)行預(yù)測非常棘手。相反,對(duì)于每個(gè)決策級(jí)別[l∈1,2,3],采用單獨(dú)的二元分類器來預(yù)測給定輸入[U]、[Ui]或[Ui,j]的二元分類[yl]。
從數(shù)學(xué)上講,本文的三級(jí)CU分類器存在一個(gè)預(yù)測函數(shù):
[yl=SlU," " " " " l=1SlUi," " " " "l=2, i∈1,2,3,4SlUi,j," " " "l=3, i,j∈1,2,3,4 ] (1)
式中[yl]表示預(yù)測的[yl]。在接下來的內(nèi)容中,本文專注于設(shè)計(jì)一種深度CNN方法,用于學(xué)習(xí)式(1)的三級(jí)CU分類器。通過省略原始HEVC標(biāo)準(zhǔn)中的多余RD成本,顯著降低了編碼復(fù)雜性。
2.2" 深度CNN結(jié)構(gòu)
本文提出了一種適應(yīng)于HEVC中CTU分割的深度CNN結(jié)構(gòu),用于學(xué)習(xí)式(1)的三級(jí)CU分類器。該結(jié)構(gòu)包括一個(gè)輸入層、三個(gè)卷積層、一個(gè)連接層和三個(gè)全連接層。通過共享統(tǒng)一的深度CNN結(jié)構(gòu),學(xué)習(xí)三個(gè)獨(dú)立的CNN模型,以獲得三個(gè)級(jí)別的分類器[Sl3l=1]。三個(gè)獨(dú)立CNN模型之間唯一的區(qū)別是第一個(gè)卷積層的卷積核大小,與不同尺寸CU的[U]、[Ui]和[Ui,j]有關(guān)。圖4中展示了有關(guān)統(tǒng)一深度CNN結(jié)構(gòu)的更多詳細(xì)信息。圖中[wl]是輸入CU的寬度,即[U]為64,[Ui]為32,[Ui,j]為16。CNN的輸入是亮度CU,即[U]、[Ui]和[Ui,j],大小為[wl×wl]。[Kp?qwk×wk×nf]表示[nf]個(gè)卷積濾波器,其核大小為[wk×wk],位于第[p]層的第[q]個(gè)分支。每個(gè)過濾器的步幅相當(dāng)于核大小[wk]的寬度,這意味著所有的卷積都是不重疊的。經(jīng)過卷積后,[Cp?qwf×wf×nf]表示大小為[wf×wf]的[nf]個(gè)特征映射,[Cctnf]表示具有[nf]個(gè)特征的連接層,[Fmnf]表示具有[nf]個(gè)特征的第[m]個(gè)全連接層。具體來說,本文提出的CNN結(jié)構(gòu)中各個(gè)層的具體描述如下。
1) 輸入層。輸入層是[U]、[Ui]或[Ui,j]的亮度CU,對(duì)應(yīng)于分類器[S1U]、[S2Ui]和[S3Ui,j]。因此,一個(gè)CNN模型的輸入是[wl×wl]矩陣,其中[wl∈64,32,16]等于分類器[Sl]的[U]、[Ui]或[Ui,j]的寬度,且輸入矩陣的所有元素都被歸一化為[0,1]。
2) 卷積層。對(duì)于第一卷積層,本文并行應(yīng)用三個(gè)分支的濾波器[C1?1]、[C1?2]和[C1?3],核大小分別為[wl8×wl8]、[wl4×wl4]和[wl2×wl2],以提取CU分割的低級(jí)特征。步長設(shè)置為與這些濾波器的大小相同,以避免卷積重疊。第一卷積層的設(shè)計(jì)符合CTU分區(qū)的所有可能非重疊CU的不同大小,在第一卷積層之后,通過使用非重疊的2×2卷積核進(jìn)行卷積,將特征圖縮小一半,直到最終特征圖尺寸達(dá)到2×2大小。
3) 其他層。從最后一個(gè)卷積層產(chǎn)生的所有特征圖被串聯(lián)在一起,然后通過串聯(lián)層轉(zhuǎn)換成一個(gè)向量。接下來,串聯(lián)向量中的所有特征通過三個(gè)全連接層流動(dòng),包括兩個(gè)隱藏層和一個(gè)輸出層。在第二個(gè)全連接層和輸出層之間,在CNN訓(xùn)練過程中,以50%的概率隨機(jī)丟棄特征[24]。所有卷積層和隱藏全連接層都使用修正線性單元(ReLU)進(jìn)行激活。輸出層使用sigmoid函數(shù)進(jìn)行激活,而是否分割的目標(biāo)輸出[yl]為二進(jìn)制數(shù)。
圖4中CNN結(jié)構(gòu)的具體配置如表2所示。對(duì)于CNN模型的分類,即[S1U]、[S2Ui]和[S3Ui,j],總共有1 384 464、1 160 208、1 104 144個(gè)可訓(xùn)練參數(shù)。因此,相對(duì)于文獻(xiàn)[21]中僅有1 224個(gè)可訓(xùn)練參數(shù)而可能導(dǎo)致欠擬合的問題,本文的CNN結(jié)構(gòu)提供了更優(yōu)的學(xué)習(xí)能力。
在本文提出的方法中,CNN使用大小為[R]的批次進(jìn)行訓(xùn)練,真值分類標(biāo)簽和預(yù)測輸出的集合分別表示為[yrlRr=1]和[yrlRr=1],其中[yrl]表示第[r]個(gè)訓(xùn)練樣本的真實(shí)值,[yrl]是其對(duì)應(yīng)的預(yù)測值??紤]到[Sl]是一個(gè)二元分類器,其損失函數(shù)[Ll]基于以下交叉熵:
[Ll=-1Rr=1Ryrllogyrl+1-yrllog1-yrl] (2)
在訓(xùn)練過程中,使用實(shí)施帶動(dòng)量的隨機(jī)梯度下降算法的優(yōu)化器來最小化[Ll]。
3" 實(shí)驗(yàn)結(jié)果與分析
本文通過與兩種最先進(jìn)的方法進(jìn)行比較來評(píng)估性能,即基于SVM的方法[13]和最新的CNN方法[21]。三種方法均在HEVC參考軟件HM[15]上實(shí)施。在HM中,使用配置文件encoder intra main.cfg[23]應(yīng)用全幀內(nèi)(AI)模式,選擇了四個(gè)QP值∈{22,27,32,37}來壓縮圖像或視頻,其他參數(shù)保持默認(rèn)設(shè)置。圖像在不同QP下的分割示例如圖5所示。
在實(shí)驗(yàn)中,測試了CPIH數(shù)據(jù)庫訓(xùn)練集的200張圖像,以及聯(lián)合視頻編碼團(tuán)隊(duì)(JCT?VC)標(biāo)準(zhǔn)測試集[14]的18個(gè)視頻序列。Bj?ntegaard delta比特率(BD?BR)、BD?PSNR(Bj?ntegaard delta PSNR)[25]和Δ[T]用于評(píng)估復(fù)雜性降低的性能,其中,Δ[T]表示復(fù)雜性降低方法相對(duì)于原始HM的編碼時(shí)間節(jié)省率。
該方法在4個(gè)QP值(22,27,32,37)上為3個(gè)分類器[Sl3l=1]訓(xùn)練了12個(gè)深度CNN模型。在訓(xùn)練模型時(shí),通過CPIH驗(yàn)證集調(diào)整了超參數(shù)。因此,用于訓(xùn)練的批次大小為64,優(yōu)化器的動(dòng)量設(shè)置為0.9。
此外,分類器[S1]的初始學(xué)習(xí)率為10-5,[S2]和[S3]為10-4,并且在每1 000個(gè)時(shí)期指數(shù)級(jí)別減少1%。總共為每個(gè)模型訓(xùn)練了500 000個(gè)時(shí)期。
首先,本文比較了三種方法的復(fù)雜度降低情況。表3和表4列出了編碼復(fù)雜度降低的結(jié)果,以相對(duì)于原始HM復(fù)雜度降低率的百分比表示。
從表3、表4可以看出,本文提出的深度CNN方法在四個(gè)QP上均為大多數(shù)序列節(jié)省了更多時(shí)間。平均而言,本文方法(-60.91%、-63.33%和-67.20%)在QP=27、32和37時(shí)優(yōu)于其他兩種方法(對(duì)于文獻(xiàn)[13]的-57.98%、-55.59%和-57.87%;對(duì)于文獻(xiàn)[21]的-60.23%、-62.62%和-65.04%),復(fù)雜度降低。由于文獻(xiàn)[21]需要在從64×64到32×32的分割上進(jìn)行RDO搜索,本算法消耗的時(shí)間比其他CNN方法更少。當(dāng)QP增加時(shí),本文方法與其他兩種方法之間的時(shí)間節(jié)省差距變得更大。此外,從表4中可以看出,與文獻(xiàn)[13]和文獻(xiàn)[21]相比,此方法能夠平均減少對(duì)來自CPIH數(shù)據(jù)庫的測試集的所有圖像進(jìn)行編碼的時(shí)間。然而,對(duì)于在高比特率下編碼的低分辨率圖像,此方法可能比文獻(xiàn)[13]的計(jì)算復(fù)雜度更高,如表3所示。原因是在分辨率低、碼率高的情況下,CTU更喜歡使用尺寸小的CU。總的來說,本文方法能夠提高HEVC幀內(nèi)預(yù)測編碼的時(shí)間效率。
本文以BD?BR和BD?PSNR為指標(biāo),與其他兩種方法進(jìn)行RD性能比較。表3和表4以原始HM為錨點(diǎn),顯示了三種方法的BD?BR增加和BD?PSNR降低??梢钥闯?,本文的深度CNN方法的BD?BR增量在視頻方面平均為2.12%,在圖像方面為1.13%,明顯優(yōu)于文獻(xiàn)[21](視頻方面為6.47%,圖像方面為2.62%)和文獻(xiàn)[13](視頻方面為15.73%,圖像方面為7.22%)。此外,本文的方法在視頻和圖像方面分別產(chǎn)生了0.1 dB和0.08 dB的PSNR降級(jí),優(yōu)于文獻(xiàn)[13]和文獻(xiàn)[21]。因此,本文方法在這三種方法中表現(xiàn)最佳。
4" 結(jié)" 論
本文提出一種深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)方法,利用CU的圖像紋理,通過學(xué)習(xí)預(yù)測最優(yōu)CTU劃分,取代傳統(tǒng)的暴力窮舉式RDO搜索,以減少幀內(nèi)HEVC編碼的復(fù)雜性。此外,建立了一個(gè)大規(guī)模的CPIH數(shù)據(jù)庫,其中包含多樣化的CTU劃分模式,用于CNN的訓(xùn)練。與HEVC官方模型HM相比,本文方法在JCT?VC標(biāo)準(zhǔn)測試序列和CPIH測試圖像上分別降低了62.25%和69.06%的編碼時(shí)間,BD?BR分別為2.12%和1.13%,可以忽略不計(jì),達(dá)到了優(yōu)化的目的。
注:本文通訊作者為冷雨馨。
參考文獻(xiàn)
[1] SULLIVAN G J, OHM J R, HAN W J, et al. Overview of the high efficiency video coding (HEVC) standard [J]. IEEE transactions on circuits and systems for video technology, 2012, 22(12): 1649?1668.
[2] CORREA G, ASSUNCAO P, AGOSTINI L. Performance and computational complexity assessment of high?efficiency video encoders [J]. IEEE transactions on circuits and systems for video technology, 2012, 22(2): 1899?1909.
[3] LENG J, SUN L, IKENAGA T, et al. Content based hierarchical fast coding unit decision algorithm for HEVC [C]// 2011 International Conference on Multimedia and Signal Processing. New York: IEEE, 2011: 56?59.
[4] SHEN X, YU L, CHEN J. Fast coding unit size selection for HEVC based on Bayesian decision rule [C]// Conference on Picture Coding Symposium. New York: IEEE, 2012: 453?456.
[5] XIONG J, LI H, WU Q. A fast HEVC inter CU selection method based on pyramid motion divergence [J]. IEEE transactions on multimedia, 2014, 16(2): 559?564.
[6] YOO H M, SUH J W. Fast coding unit decision algorithm based on inter and intra prediction unit termination for HEVC [C]// IEEE International Conference on Consumer Electronics. New York: IEEE, 2013: 300?301.
[7] CHOI K, JANG E S. Early TU decision method for fast video encoding in high efficiency video coding [J]. Electronics letters, 2012, 48(12): 689?691.
[8] VANNE J, VIITANEN M, HAMALAINEN T D. Efficient mode decision schemes for HEVC inter prediction [J]. IEEE transactions on circuits and systems for video technology, 2014, 24(9): 1579?1593.
[9] MIYAZAWA K, MURAKAMI T, MINEZAWA A, et al. Complexity reduction of in?loop filtering for compressed image restoration in HEVC [C]// Conference on Picture Coding Symposium. New York: IEEE, 2012: 413?416.
[10] SHANABLEH T, PEIXOTO E, IZQUIERDO E. MPEG?2 to HEVC video transcoding with content?based modeling [J]. IEEE transactions on circuits and systems for video technology, 2013, 23(7): 1191?1196.
[11] PEIXOTO E, SHANABLEH T, IZQUIERDO E. H.264/AVC to HEVC video transcoder based on dynamic thresholding and content modeling [J]. IEEE transactions on circuits and systems for video technology, 2014, 24(1): 99?112.
[12] CORREA G, ASSUNCAO P A, AGOSTINI L V, et al. Fast HEVC encoding decisions using data mining [J]. IEEE transactions on circuits and systems for video technology, 2015, 25(4): 660?673.
[13] ZHANG Y, KWONG S, WANG X, et al. Machine learning?based coding unit depth decisions for flexible complexity allocation in high efficiency video coding [J]. IEEE transactions on image processing, 2015, 24(7): 2225?2238.
[14] VANNE J, VIITANEN M, HAMALAINEN T D, et al. Comparative rate?distortion?complexity analysis of HEVC and AVC video codecs [J]. IEEE transactions on circuits and systems for video technology, 2012, 22(12): 1885?1898.
[15] JCT?VC. HM software [EB/OL]. [2016?11?05]. https://hevc.hhi.fraunhofer.de/svn/svn_HEVCSoftware/ tags/HM?12.0/.
[16] CHO S, KIM M. Fast CU splitting and pruning for suboptimal CU partitioning in HEVC intra coding [J]. IEEE transactions on circuits and systems for video, 2013, 23(9): 1555?1564.
[17] KIM N, JEON S, SHIM H J, et al. Adaptive keypoint?based CU depth decision for HEVC intra coding [C]// IEEE International Symposium on Broadband Multimedia Systems and Broadcasting. New York: IEEE, 2016: 1?3.
[18] KHAN M U K, SHAFIQUE M, HENKEL J. An adaptive complexity reduction scheme with fast prediction unit decision for HEVC intra encoding [C]// IEEE International Conference on Image Processing. New York: IEEE, 2013: 1578?1582.
[19] HU Q, SHI Z, ZHANG X. Fast HEVC intra mode decision based on logistic regression classification [C]// IEEE International Symposium on Broadband Multimedia Systems and Broadcasting. New York: IEEE, 2016: 1?4.
[20] LIU D, LIU X, LI Y. Fast CU size decisions for HEVC intra frame coding based on support vector machines [J]. IEEE 14th International Conference on Dependable, Autonomic and Secure Computing. New York: IEEE, 2016: 594?597.
[21] LIU Z, YU X, CHEN S. CNN oriented fast HEVC intra CU mode decision [J]. IEEE International Symposium on Circuits and Systems. New York: IEEE, 2016: 2270?2273.
[22] DANG NGUYEN D T, PASQUINI C, CONOTTER V, et al. RAISE: A raw images dataset for digital image forensics [J]. Proceedings of the 6th ACM Multimedia Systems Conference. [S.l.: s.n.], 2015: 219?224.
[23] BOSSEN F. Common test conditions and software reference configurations [C]// Joint Collaborative Team on Video Coding (JCT?VC). [S.l.: s.n.], 2013: 1?12.
[24] HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co?adaptation of feature detectors [J]. Computer science, 2012, 3(4): 212?223.
[25] BJONTEGAARD G. Calculation of average PSNR difference between RD?curves [EB/OL]. [2001?01?01]. https://www.researchgate.net/publication/244455155.
作者簡介:李" 軒(1967—),男,吉林東豐人,博士,教授,碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)閳D像與視頻處理、電磁兼容等。
冷雨馨(1999—),女,遼寧大連人,碩士研究生,研究方向?yàn)橐曨l編碼。