Fast coding algorithm based on predictive partition convolutional neural network for 36O-degree video
Xiang Hai,Chen Fen ↑ ,Qin Yiqing,LiXu,Peng Zongju (SchoolofElectricalamp;ElectronicEnginering,Chongqing UniversityofTechnology,Chongqing 40oo54,China)
Abstract:Inorder tosolve theproblem of excessive complexityof360-degree video basedonequirectangularprojection (ERP)of versatile videocoding(VVC),thispaperproposedafast CU partitionalgorithmbasedonpredictivepartitionconvolutionaleuralnetwork(PP-CNN).Firstly,this paperanalyzed thepartition characteristicsofCUsof ERP360-degree video indierentlatituderegionsandintroducedthelatitudefeatureinthisproposedalgorithm.Secondly,thealgorithmestablished 360-degree videodatasetwiththecharacteristicsoflatitudeandquantizationparameters.Then,this methoddesignedalightweightPP-CNN model topredicttheedgedivision informationofCUs.Next,thealgorithm basedontheoutputof PP-CNN modeldevelopedadual-thresholdCUfastpartitiondecisionschemetoremoveredundantpartitionpaterns.Finaly,thispaper designed threedecisionmodes,fast,balancedandperformanceaccording totheneeds ofcoding scenarios.Theextensive experimental results show that the proposed algorithm is able to shorten the coding time by 39.31%~61.95% on average under the full intra-frame coding configuration at the BDBR increases by only 0.37%~1 43% compared with the official testbed VTM-14.O-36olib13.1,indicatingthatthealgorithmcanrealizefastercoding speedunderthepremiseof guaranteeingcoding performance.
Keywords:ERP36O-degreevideo;latitude;CUpartition;PP-CNN
0 引言
隨著通信技術(shù)和多媒體技術(shù)的快速發(fā)展,超高清視頻逐漸成為人們主流的觀看選擇。全景超高清視頻的分辨率在4K及以上,由3D相機(jī)拍攝的多方位視頻拼接融合而成,能給予用戶(hù)沉浸式的觀看體驗(yàn),但其海量的數(shù)據(jù)給傳輸和存儲(chǔ)帶來(lái)了巨大挑戰(zhàn)。上一代高效視頻編碼(highefficiencyvideocoding,HEVC)[1]已無(wú)法滿(mǎn)足當(dāng)前超高清視頻的壓縮需求,聯(lián)合視頻探索小組(jointvideoexplorationteam,JVET)提出了多功能視頻編碼(versatilevideo coding,VVC)[2]。VVC引人了嵌套多類(lèi)樹(shù)的四叉樹(shù)(quad-treeplusmulti-typetree,QTMTT)劃分技術(shù)和多參考行幀內(nèi)預(yù)測(cè)等新編碼技術(shù),使編碼效率相較于HEVC 標(biāo)準(zhǔn)提升了 50% ,但代價(jià)是急劇上升的編碼復(fù)雜度[3,4]其中,VVC采用的QTMTT劃分技術(shù)通過(guò)深度優(yōu)先遍歷方式來(lái)確定編碼單元(codingunit,CU)的大小,這一過(guò)程消耗了 80% 以上的編碼時(shí)間[5]。因此,優(yōu)化CU的QTMTT劃分技術(shù)對(duì)于降低VVC的編碼復(fù)雜度至關(guān)重要。為了壓縮球形的全景視頻,JVET在VVC上擴(kuò)展了360lib工具[],通過(guò)一定的投影格式將全景視頻轉(zhuǎn)換為平面視頻再進(jìn)行編碼。等距柱狀投影(equirectangularprojection,ERP)能完整呈現(xiàn)球面上的所有點(diǎn),且較易實(shí)現(xiàn),是全景視頻最常用的投影格式。但是,通過(guò)ERP格式轉(zhuǎn)換后的全景圖像在不同緯度區(qū)域的采樣密度存在差異,越靠近兩極區(qū)域的圖像拉升失真越嚴(yán)重。全景視頻在赤道區(qū)域紋理細(xì)節(jié)豐富,而靠近兩極區(qū)域內(nèi)容平坦。所以,在不同的緯度區(qū)域,全景視頻的CU劃分特點(diǎn)有較大差異。超高清全景視頻編碼耗時(shí)長(zhǎng),播放實(shí)時(shí)性差,影響用戶(hù)的觀看體驗(yàn)。因此,結(jié)合全京視頻的CU劉分特性術(shù)降低編嶼發(fā)余皮具有里妥息義。
近年來(lái),為了降低VVC中CU劃分的編碼復(fù)雜度,相關(guān)工作者進(jìn)行了大量的研究。陳燕輝等人[]提出了一種基于CU子塊方向特性與空間復(fù)雜度的快速劃分算法,先利用CU整體的紋理復(fù)雜度判斷是否提前終止劃分,然后根據(jù)在不同劃分方向的特性差異判斷劃分方向,最后利用CU中間區(qū)域與邊緣區(qū)域的復(fù)雜度差異特征決策是否跳過(guò)三叉樹(shù)劃分。Zhang等人[8]根據(jù)水平和垂直方向上相鄰子CU的相似性來(lái)確定是否跳過(guò)不必要的劃分模式。Zhao等人[9]提出一種基于邊緣特征的快速劃分算法,比較水平和垂直邊緣的特征值從而跳過(guò)一個(gè)方向的劃分測(cè)試。Wang等人[o]設(shè)計(jì)了兩個(gè)極端隨機(jī)樹(shù)模型,第一個(gè)模型判斷CU是否劃分和劃分的方向,當(dāng)CU被判定為水平和垂直劃分時(shí),使用第二個(gè)模型選擇二叉樹(shù)和三叉樹(shù)劃分。Chen等人[11]設(shè)計(jì)了一個(gè)非對(duì)稱(chēng)內(nèi)核卷積神經(jīng)網(wǎng)絡(luò)(convo-lutional neural network,CNN)提取CU的紋理特征,并根據(jù)模型輸出設(shè)計(jì)了可調(diào)節(jié)閾值的決策方案以平衡編碼性能和編碼復(fù)雜度。 Wu 等人[12]提出全卷積網(wǎng)絡(luò)框架推理CU的層次網(wǎng)格圖,并采用雙閾值的決策方案預(yù)測(cè)當(dāng)前CU及子CU的劃分模式。Li等人[13]提出了一種具有早期退出機(jī)制的多階段退出CNN模型來(lái)確定CU劃分模式,并綜合劃分模式數(shù)量和率失真成本,設(shè)計(jì)了自適應(yīng)的損失函數(shù),開(kāi)發(fā)的多閾值決策方案在降低編碼復(fù)雜度的同時(shí)權(quán)衡了編碼性能。Tissier等人[14]利用CNN預(yù)測(cè) 64×64 CU內(nèi)每個(gè) 4×4 邊緣的劃分概率向量,并根據(jù)模型輸出使用決策樹(shù)模型預(yù)測(cè)了每個(gè)CU的劃分模式。文獻(xiàn)[11\~14]在保證編碼性能的同時(shí)極大地降低了編碼復(fù)雜度,但是他們提出的CNN模型較為復(fù)雜,模型的部署較為困難。針對(duì)普通視頻的快速CU 劃分方法[7\~14]未能考慮到全景視頻編碼時(shí)投影轉(zhuǎn)換對(duì)CU劃分的影響,因此不能直接應(yīng)用于全景視頻。為降低全景視頻CU劃分的復(fù)雜度,Shu等人[15]引入緯度預(yù)處理以提前終止兩極區(qū)域CU的劃分,并使用支持向量機(jī)預(yù)測(cè)CU的劃分模式,從而降低全景視頻的編碼復(fù)雜度。Zhang等人[16]根據(jù)全景視頻等距柱狀投影的特點(diǎn),引入經(jīng)驗(yàn)變異函數(shù)來(lái)衡量CU在水平和垂直方向的差異,從而跳過(guò)某個(gè)方向的劃分。文獻(xiàn)[15,16]僅對(duì)CU劃分方向進(jìn)行預(yù)測(cè),未對(duì)四叉樹(shù)劃分及同一方向的二叉樹(shù)和三叉樹(shù)劃分進(jìn)行決策,編碼復(fù)雜度仍有降低的空間。Xie等人[17]將手工提取CU的特征信息送入支持向量機(jī)以預(yù)測(cè)CU是否劃分和劃分方向,從而減少CU測(cè)試的劃分模式。文獻(xiàn)[15,17]使用第一幀的CU信息訓(xùn)練SVM模型,數(shù)據(jù)樣本不夠豐富,模型的魯棒性有提升空間,且此方法影響第一幀的編碼速度。文獻(xiàn)[15\~17]僅對(duì)部分CU的劃分類(lèi)型進(jìn)行預(yù)測(cè),其他CU的編碼復(fù)雜度依舊較高,且使用手工提取的特征對(duì)于視頻的紋理復(fù)雜性來(lái)說(shuō)普適性低,沒(méi)有充分挖掘CU 的特征信息,雖然提升了編碼速度,但未能保障編碼性能。
為解決全景視頻編碼復(fù)雜度高的問(wèn)題,本文針對(duì)上述全景快速算法使用手工提取特征的缺陷,并結(jié)合ERP全景視頻不同緯度區(qū)域的CU劃分情況差異大的特點(diǎn),提出利用深度學(xué)習(xí)加快全景視頻的編碼速度。首先,分析了ERP全景視頻中緯度變化對(duì)CU劃分的影響,并將緯度作為本文算法使用的重要特征,建立了具有緯度和量化參數(shù)特性的全景數(shù)據(jù)集。其次,針對(duì)傳統(tǒng)方法使用手工提取特征的不足,并考慮到模型部署的問(wèn)題,設(shè)計(jì)了輕量化的PP-CNN模型來(lái)充分挖掘CU特征信息。然后,為更大程度上降低編碼復(fù)雜度且同時(shí)保障編碼性能,開(kāi)發(fā)了可雙閾值調(diào)節(jié)的CU快速劃分決策方案,包含劃分模式粗略篩選和劃分方向模式?jīng)Q策,對(duì) 32×32 及以下所有尺寸CU的QTMTT劃分模式進(jìn)行決策。最后,根據(jù)不同的編碼應(yīng)用場(chǎng)景需要,調(diào)節(jié)CU劃分決策方案的雙閾值,設(shè)置了快速、均衡和性能三種決策模式。
1 ERP全景視頻CU劃分分析
1.1基于QTMTT的CU劃分模式
QTMTT劃分技術(shù)包含了四叉樹(shù)(quadtree,QT)、水平二叉樹(shù)(horizontal binarytree,HBT)、水平三叉樹(shù)(horizontal ter-narytree,HTT)垂直二叉樹(shù)(verticalbinarytree,VBT)和垂直三叉樹(shù)(verticalternarytree,VTT)共五種劃分模式。在VVC中,完成的劃分模式列表為QTMTT劃分模式和INTRA模式的集合 QT,HBT,VBT,HTT,VTT,INTRA丨。其中,INTRA是幀內(nèi)預(yù)測(cè)模式,若CU執(zhí)行該模式,意味著不再繼續(xù)向下劃分。QT劃分將CU均勻地分為四個(gè)正方形子CU,HBT劃分在水平方向?qū)U均勻地分為兩半,HTT劃分從水平方向?qū)U按 1:2:1 的比例分為三個(gè)子CU。不同尺寸CU允許的劃分模式如表1所示,其中 W 是CU的寬, ,H 是CU的高。塊劃分從 128×128 編碼樹(shù)單元開(kāi)始,最大劃分深度為6,最小的亮度CU尺寸為 4×4 。CU劃分是一個(gè)深度優(yōu)先遍歷的過(guò)程,編碼器測(cè)試的劃分模式數(shù)量隨著劃分深度的增加而急劇上升。
32×32 CU的劃分結(jié)構(gòu)可轉(zhuǎn)換為其內(nèi)部64個(gè)尺寸為 4×4 CU的邊緣劃分情況,本文使用 1×112 的邊緣劃分向量 E= (20 (e0,e1,e2 ,…, e110 , e111 )來(lái)描述,如圖1所示。其中, ek 表示32×32 CU的最優(yōu)劃分樹(shù)結(jié)構(gòu)中第 k 個(gè)長(zhǎng)度為4的邊緣劃分情況, ek 為1表示存在劃分,否則 ek 等于0。另外, E 中前56個(gè)向量值代表 32×32 CU內(nèi)水平 4×4 CU的邊緣劃分情況,后56個(gè)向量值代表垂直邊緣劃分情況。
1.2全景視頻的CU劃分特性
經(jīng)ERP格式處理后的全景視頻,隨著緯度增加,圖像水平過(guò)采樣越嚴(yán)重,造成的拉伸失真越大。ERP全景視頻編碼結(jié)束后CU的劃分結(jié)果如圖2所示。由圖2可知,隨著緯度增加,圖像紋理情況越簡(jiǎn)單,CU傾向于簡(jiǎn)單劃分;越靠近赤道區(qū)域,圖像紋理細(xì)節(jié)越豐富,CU劃分得越來(lái)越精細(xì)。因此,基于VVC的ERP全景視頻在不同緯度區(qū)域CU的劃分情況存在較大的差異。
為驗(yàn)證上述結(jié)論的一般性,本文以128個(gè)像素的長(zhǎng)度對(duì)經(jīng)度/緯度進(jìn)行分級(jí),實(shí)驗(yàn)統(tǒng)計(jì)全景測(cè)試序列在不同緯度/經(jīng)度區(qū)域的CU數(shù)量,實(shí)驗(yàn)結(jié)果如圖3所示。由實(shí)驗(yàn)結(jié)果可知,CU數(shù)量隨緯度劇烈變化,在赤道區(qū)域附近的CU數(shù)量遠(yuǎn)高于兩極區(qū)域,且CU的數(shù)量從赤道區(qū)域到兩極區(qū)域間整體呈下降趨勢(shì)。在不同經(jīng)度下,CU數(shù)量變化幅度較小,保持平穩(wěn)態(tài)勢(shì)。另外,CU的劃分狀況在不同量化參數(shù)(quantizationparameter,QP)下保持相同變化趨勢(shì)。因此,全景視頻CU的劃分主要受緯度變化的影響,緯度將作為重要特征被用于CU快速劃分算法中。
2全景視頻CU快速劃分算法
2.1PP-CNN模型預(yù)測(cè)邊緣劃分概率
2.1.1全景數(shù)據(jù)集制作
為增強(qiáng)PP-CNN模型的泛化能力,本文利用文獻(xiàn)[18]提供的全景視頻制作訓(xùn)練集,而測(cè)試集由JVET提供的全景測(cè)試序列生成。文獻(xiàn)[18]提供了600個(gè)全景視頻序列,本文僅使用了其中的42個(gè)無(wú)損參考序列。這些全景視頻序列涵蓋了多種分辨率,涉及的場(chǎng)景紋理信息十分豐富。上述全景序列通過(guò)參考平臺(tái)VTM14.0和Lib36013.1,在全幀下,以QP值為22、27、32和37下編碼生成數(shù)據(jù)集。樣本數(shù)據(jù)為 32×32 亮度CU的像素值,樣本標(biāo)簽是該 32×32 亮度CU的劃分結(jié)構(gòu)轉(zhuǎn)換后的E ,同時(shí)還記錄了該樣本所處的緯度級(jí)別和QP。為了防止PP-CNN模型過(guò)擬合,本文算法均衡了不同QP和不同緯度級(jí)別下樣本的數(shù)量。
2.1.2 PP-CNN模型
受VGG16在圖像分類(lèi)上具有優(yōu)異性能的啟發(fā),并考慮到編碼復(fù)雜度和硬件資源受限,本文設(shè)計(jì)了輕量化的PP-CNN模型,如圖4所示。白色的長(zhǎng)方體是大小為 3×3 且步長(zhǎng)為 1×1 的卷積層、批歸一化層和ReLU非線(xiàn)性激活函數(shù)組成的卷積模塊,黃色的長(zhǎng)方體是大小為2、步長(zhǎng)為2的最大池化層,青色的長(zhǎng)方體是全連接層,錠色的塊是CU的QP和緯度級(jí)別組成的外部特征(見(jiàn)電子版)。輸人數(shù)據(jù)為 32×32 的亮度CU。為了提取更深層次和更加抽象的特征,輸入數(shù)據(jù)首先經(jīng)過(guò)三個(gè)連續(xù)的卷積塊,其中批歸一化層能加速訓(xùn)練和提高模型的穩(wěn)定性。為了減少模型的編碼復(fù)雜度,上一階段輸出的特征圖通過(guò)最大池化層進(jìn)行下采樣。經(jīng)過(guò)三次上述兩階段的操作后,輸出的特征圖進(jìn)入到全連接層。在全連接層中,將外部特征QP和緯度級(jí)別值與前面輸出特征圖按通道連接到一起。外部特征QP和緯度級(jí)別是 32×32 亮度CU編碼時(shí)的關(guān)鍵信息,能夠使模型學(xué)習(xí)到更全面的信息,從而提升模型的性能。經(jīng)過(guò)三次全連接處理,輸出數(shù)據(jù)經(jīng)過(guò)二分類(lèi)激活損失函數(shù)sigmoid處理后得到112個(gè)取值為[0,1]的邊緣劃分概率向量 P=(p0) , p1 , p2 ,.,p110,p111 )。其中, pk 表示 32×32 CU中第 k 個(gè)長(zhǎng)度為4的邊緣的劃分概率。
在PP-CNN模型的訓(xùn)練中,利用均方差損失函數(shù) LMSE 優(yōu)化性能,計(jì)算方法如下:
其中: xi 是預(yù)測(cè)值; yi 表示真實(shí)值; n 是樣本總數(shù)。
2.2CU快速劃分決策方案
本文設(shè)計(jì)了CU快速劃分決策方案,跳過(guò)冗余的劃分模式以降低VVC全景視頻的編碼復(fù)雜度,決策方案如圖5所示。首先,利用PP-CNN模型預(yù)測(cè) 32×32 CU的邊緣劃分概率 P ,再由此計(jì)算出CU的QTMTT劃分模式的概率。在本文中,用集合 s 表示CU的劃分模式列表,在進(jìn)入新的CU時(shí),將集合 s 更新為 G 預(yù)測(cè)CU的劃分模式分為兩個(gè)階段,逐步去除 s 中的冗余元素。在第一階段中,對(duì)CU劃分模式進(jìn)行粗略篩選,去除集合 s 中劃分可能性小的模式。在第二階段中,利用相異方向劃分決策在 s 中將MTT中一個(gè)方向的劃分模式去除。最后,利用 s 控制CU劃分模式列表,從而跳過(guò)冗余的劃分模式。
2.2.1QTMTT劃分模式概率的計(jì)算方法
本文將QT、HBT、VBT、HTT和VTT劃分模式的概率表示為 P0T?PHBT?PVBT?PHTT 和 Pvrr ,其大小等于CU的劃分模式對(duì)應(yīng)在 P 中 4×4 邊緣劃分概率的平均值。 PHBT 的計(jì)算方法為
其中: a 和 b 是CU左上頂點(diǎn)在全景圖像中的橫坐標(biāo)和縱坐標(biāo);h 和 w 是CU的高和寬; i 為HBT劃分線(xiàn)在 P 的起始索引值; j 是 i 的偏移值 Δ,j 的個(gè)數(shù)是HBT劃分線(xiàn)包含的 4×4 邊緣的個(gè)
數(shù)。 P?VBT 的計(jì)算原理與 PHBT 相似。 PHTT 的計(jì)算方法如下:
其中: i1 和 i2 分別為HTT的兩條劃分線(xiàn)在 P 中的起始索引值。Pvrr 的計(jì)算方法與 PHTT 相似。QT劃分概率 PQT 等于 PHBT 和PvBT 的平均值。此外,本文將VVC禁止的劃分模式的概率置 0
2.2.2劃分模式粗略篩選
劃分模式概率值大小反映了CU是否存在該劃分模式可能性的強(qiáng)弱,而劃分可能性極低的模式是冗余的測(cè)試。因此,本文算法設(shè)置閾值 T1 對(duì)劃分模式粗略篩選,將概率值較小的劃分模式從 s 集合中去除,具體方法如式(4)所示。將 PQT 、PHBT?PvBT?PHTT 和 Pvrr 都與 T?1 進(jìn)行比較,若其概率值大于 T?1 ,表明CU有極大的可能性進(jìn)行該類(lèi)型的劃分,便保留該類(lèi)型的劃分模式;若某劃分概率小于 T?1 ,表明CU執(zhí)行該類(lèi)型劃分的可能性極低,便從 s 中去掉該類(lèi)型的劃分模式。
S={S-{S-1}SifQn?T1n=1,2,3,4,5
其中: Q1,Q2,Q3,Q4 和 Qs 表示 P0T?PHBT?PVBT?PHTT 和 PvTT ;元素 ST1、ST2、ST3、ST4 和 ST5 代表QT、HBT、VBT、HTT和VTT劃分模式。
2.2.3相異方向劃分決策
為了保障編碼性能,在劃分模式粗略篩選中需設(shè)置較小的T1 值,致使CU仍需測(cè)試較多的冗余劃分模式。MTT包含了水平和垂直兩個(gè)方向的劃分,每個(gè)方向下有BT和TT兩種劃分模式。若減少M(fèi)TT中一個(gè)方向的劃分,能夠極大地降低編碼復(fù)雜度。CU的劃分方向與其紋理特性有極強(qiáng)的相關(guān)性,水平紋理更強(qiáng)的CU通常進(jìn)行水平方向的劃分,垂直紋理的CU通常選擇垂直方向的劃分。因此,本文設(shè)計(jì)了相異方向劃分決策方案,在水平和垂直兩方向上僅保留劃分概率大的方向的劃分模式,從而降低編碼復(fù)雜度。本文將水平劃分概率定義為PH ,計(jì)算方法如下:
將垂直劃分概率定義為 Pv ,由 PVBT 和 Pvrr 計(jì)算得到,計(jì)算原理與 PH 相同。將 PH 和 Pv 的差異定義為 Rdiff ,計(jì)算方法如下:
其中: max(Σ) 是求最大值的運(yùn)算符, min(Σ) 是求最小值的運(yùn)算符。 Rdiff 越大,CU在水平和垂直方向上的紋理差異越明顯,從而越傾向某個(gè)方向進(jìn)行劃分。為平衡編碼性能和編碼復(fù)雜度,本文設(shè)置了特征閾值 T2(T2gt;1) 。本文將集合 G 去除VBT和VTT劃分模式的水平集合定義為 GH ΣH,GH={INTRA ,QT,HBT, ;將集合 G 去除HBT和HTT劃分模式的垂直集合定義為Gv
INTRA,QT,VBT,VTT}。利用相異方向決策的原理如式(7)所示。
當(dāng) Rdiff?T2 時(shí),進(jìn)行相異方向劃分決策,從集合 s 中除去劃分概率較小方向上的BT和TT劃分模式;否則,不進(jìn)行相異方向劃分決策,保持 s 不變。
3 實(shí)驗(yàn)及分析
3.1 PP-CNN模型
PP-CNN模型使用PyTorch深度學(xué)習(xí)框架搭建,訓(xùn)練和測(cè)試迭代100輪,樣本批次大小為1024;使用Adam優(yōu)化器優(yōu)化模型權(quán)重,初始學(xué)習(xí)率為0.001,衰減率為0.98,衰減步長(zhǎng)為1。PP-CNN模型的參數(shù)以及使用的設(shè)備配置如表2所示,訓(xùn)練和測(cè)試在Windows10系統(tǒng)上進(jìn)行,GPU為NVIDIAGeForceRTX4090,處理器的配置為 Core TMi9 -13900K @ 3.00GHz 經(jīng)計(jì)算,PP-CNN網(wǎng)絡(luò)的參數(shù)大小為0.61Mb,推理速度為366.81frames/s。
本文針對(duì)PP-CNN模型的全連接層是否加入QP和緯度層級(jí)的外部特征進(jìn)行了消融實(shí)驗(yàn),在測(cè)試集上的效果如圖6所示。由圖可知,隨著訓(xùn)練迭代次數(shù)的變化,模型精度逐漸增加,損失值逐漸下降,曲線(xiàn)最終都趨于收斂。另外,加入外部特征相比于不加入,極大地提升了模型的預(yù)測(cè)精度,這表明給PP-CNN模型加入外部特征有助于更深入學(xué)習(xí)和提取CU的特征信息。
3.2CU快速劃分決策方案
降低VVC編碼復(fù)雜度的實(shí)驗(yàn)在VTM14.0-360lib13.1上完成的,所使用的計(jì)算機(jī)配置為Windows10和(TM)i5-12500H 使用JVET提供的標(biāo)準(zhǔn)全景測(cè)試序列,在全幀內(nèi)下,以22、27、32、37四個(gè)QP測(cè)試了序列的前64幀。本文通過(guò)BjontegaardReltabitrate(BDBR)和編碼時(shí)間節(jié)?。╡ncodingtimesaving,ETS)來(lái)評(píng)估算法的整體性能。BDBR表示改進(jìn)算法相比于原始算法在相同的重建質(zhì)量下編碼所消耗碼率的變化率,BDBR為負(fù)值時(shí),代表編碼性能上升,BDBR為正值時(shí),則反之。ETS衡量編碼復(fù)雜度的下降程度,計(jì)算方法如下:
其中: Toi 是原始平臺(tái)的的編碼時(shí)間; Tpro 是本文提出算法的編碼時(shí)間; QPi 為量化參數(shù)。為驗(yàn)證CU快速劃分決策方案中劃分模式粗略篩選和相異方向劃分決策方法的有效性,并探究閥值 T1 和 T2 對(duì)編碼性能和編碼復(fù)雜度的影響,本文設(shè)計(jì)了兩種方法的獨(dú)立實(shí)驗(yàn)以及融合實(shí)驗(yàn)在ArieralCity序列上觀察其性能,實(shí)驗(yàn)結(jié)果如圖7所示。圖中,階段1表示劃分模式粗略篩選,階段2是相異方向劃分決策, T 表示閾值 T?1 和 T2 的變化范圍, Ti=T/10 , T?2=T?° 圖7(a)是獨(dú)立實(shí)驗(yàn)的結(jié)果,在劃分模式粗略篩選中,損失的編碼性能與降低的編碼復(fù)雜度隨著T?1 的增加而增大,在相異方向劃分決策中,損失的編碼性能與降低的編碼復(fù)雜度隨著 T2 的增加而下降,表明了兩種方法都能有效調(diào)節(jié)編碼性能和編碼復(fù)雜度。圖7(b)是融合的實(shí)驗(yàn)結(jié)果,在降低相同的編碼復(fù)雜度的條件下,融合后的方法損失的編碼性能小于劃分模式粗略篩選。實(shí)驗(yàn)表明,兩種方法融合的決策準(zhǔn)確率更高,能夠在降低編碼復(fù)雜度的同時(shí)更有效降低損失的編碼性能。
為滿(mǎn)足全景視頻在不同場(chǎng)景的需求,本文設(shè)計(jì)了快速、均衡和性能三種決策模式。快速?zèng)Q策模式具有最快的編碼速度,但編碼對(duì)視頻編碼性能影響較大,可應(yīng)用于對(duì)時(shí)間要求較高而不關(guān)注圖像質(zhì)量的場(chǎng)景。性能決策模式損失的編碼性能最小,可應(yīng)用于追求觀看體驗(yàn)較高的場(chǎng)景。均衡決策模式有良好的編碼速度,損失的編碼性能有限。根據(jù)圖7所做的相關(guān)實(shí)驗(yàn)設(shè)置了快速、均衡和性能三種決策模式的具體參數(shù),如表3所示。
為衡量本文設(shè)計(jì)的劃分決策方案的性能,對(duì)所提出的均衡決策模式的決策準(zhǔn)確率進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果如表4所示。由表可知,在不同分辨率下的平均決策準(zhǔn)確率大于 90.31% ,在不同深度下的平均決策準(zhǔn)確率大于 84.28% ,總的決策準(zhǔn)確率為91.55% ,這表明了本文提出的劃分決策方案能夠有效地預(yù)測(cè)CU的劃分模式,從而較為準(zhǔn)確地跳過(guò)不必要的劃分模式。另外,深度為1時(shí)CU的尺寸為 64×64 ,在此深度下各分辨率序列的預(yù)測(cè)準(zhǔn)確率超過(guò) 95.36% ,表明所提算法對(duì) 64×64 CU劃分結(jié)果影響極小。
為進(jìn)一步體現(xiàn)本文算法的先進(jìn)性,表5展示了與其他算法的性能對(duì)比。由表可知,快速?zèng)Q策模式節(jié)省了 61.95% 的編碼時(shí)間,引起的編碼性能損失增加了 1.43% ;性能模式僅僅略微損失編碼性能,BDBR為 0.37% ,節(jié)省了 39.31% 的編碼時(shí)間;相較于快速和性能決策模式,均衡決策模式在保障編碼性能和降低編碼復(fù)雜度間折中,能節(jié)省 49.46% 的編碼時(shí)間,僅僅造成了 0.74% 的編碼性能損失。相比于其他全景序列,Gaslamp、Harbor和Broadway的編碼性能損失較大,其原因是這個(gè)全景視頻包含運(yùn)動(dòng)程度較劇烈的物體,難以準(zhǔn)確地預(yù)測(cè)CU的劃分模式。文獻(xiàn)[8]是針對(duì)普通視頻的快速算法,本文將其復(fù)現(xiàn)至全景視頻編碼中,與之相比,本文的快速?zèng)Q策模式降低了更多的編碼復(fù)雜度,同時(shí)損失的編碼性能也更小。文獻(xiàn)[16,17]是全景視頻快速編碼算法,本文的性能決策模式與文獻(xiàn)[16]相比、快速?zèng)Q策模式與文獻(xiàn)[17]相比,本文方法在降低編碼復(fù)雜度和控制編碼性能損失上都更優(yōu)異,并且在不同分辨率序列上,本文方法的魯棒性都更好。因此,本文算法在更大程度上降低編碼復(fù)雜度的同時(shí)能更有效地控制編碼性能損失。
為分析本文方法的率失真性能,圖8展示了本文算法提出的快速、均衡和性能三種決策模式與原始平臺(tái)VTM14.0在Harbor上的率失真曲線(xiàn)。由圖可知,使用性能模式?jīng)Q策方案和原始平臺(tái)VTM14.0方法編碼后的率失真曲線(xiàn)幾乎重合,本文在降低編碼復(fù)雜度的同時(shí)保障了全景視頻的編碼性能。另外,從局部放大圖可知,相較于性能模式,本文在均衡和快速?zèng)Q策模式下與原始平臺(tái)方法的率失真曲線(xiàn)差異稍大,所造成的編碼性能損失更明顯,但節(jié)省的編碼時(shí)間更多。
為評(píng)估本文算法對(duì)全景視頻主觀質(zhì)量的影響,本文對(duì)原始方法、快速模式算法與文獻(xiàn)[8進(jìn)行了對(duì)比,在QP為22下編碼了全景視頻ArieralCity的第一幀圖像,結(jié)果如圖9所示。由圖可知,兩種方法編碼后的圖像質(zhì)量幾乎與原始方法一致,本文的快速模式編碼所需的比特?cái)?shù)相較于文獻(xiàn)[8]更小。另外,所提快速模式在對(duì)圖像質(zhì)量影響較小的情況下,降低了超過(guò)60.00% 的計(jì)算復(fù)雜度,這表明本文的快速模式具有良好的性能。
本文統(tǒng)計(jì)了所提均衡模式算法消耗的時(shí)間占全景視頻編碼時(shí)間的比例,實(shí)驗(yàn)結(jié)果如圖10所示。由圖可知,所提均衡模式方法在不同分辨率全景視頻編碼中的耗時(shí)占比小于3.50% ,對(duì)編碼平臺(tái)的編碼復(fù)雜度影響極小。對(duì)于同一全景視頻,不同QP下加載模型推理的次數(shù)和消耗的時(shí)間相同。由于QP越大全景編碼時(shí)間越短,所以編碼耗時(shí)占比隨著QP增大而增加。此外,本文對(duì)文獻(xiàn)[8]方法消耗的編碼時(shí)間進(jìn)行統(tǒng)計(jì),結(jié)果顯示其方法耗時(shí)對(duì)全景視頻編碼的復(fù)雜度幾乎無(wú)影響。雖然均衡模式在加載深度學(xué)習(xí)模型和進(jìn)行推理花費(fèi)了計(jì)算資源,但這也使得均衡模式的編碼性能比文獻(xiàn)[8]更優(yōu)異。
4結(jié)束語(yǔ)
針對(duì)VVC全景視頻編碼復(fù)雜度高的問(wèn)題,提出了一種基于深度學(xué)習(xí)的CU快速劃分方法。首先,分析了ERP全景視頻在不同緯度區(qū)域CU的劃分特點(diǎn),并將緯度信息作為重要特征融入本文算法中。其次,設(shè)計(jì)了輕量化PP-CNN模型,以預(yù)測(cè)32×32 CU的劃分邊緣概率。最后,開(kāi)發(fā)了包含劃分模式粗略篩選和相異方向劃分決策的CU快速劃分方案,通過(guò)調(diào)節(jié)雙閾值可平衡編碼性能和復(fù)雜度,并據(jù)此開(kāi)發(fā)了快速、均衡和性能三種決策模式滿(mǎn)足不同的編碼場(chǎng)景需要。經(jīng)實(shí)驗(yàn)驗(yàn)證,本文方法能夠有效降低編碼復(fù)雜度并保證編碼性能。由于實(shí)驗(yàn)條件限制,未能將算法落地到實(shí)際應(yīng)用中。所以,下一步將該算法部署到移動(dòng)設(shè)備上,并根據(jù)設(shè)備的功耗限制和硬件支持能力對(duì)算法進(jìn)行調(diào)優(yōu),使移動(dòng)設(shè)備能夠在保障全景視頻質(zhì)量的前提下盡可能地加快編碼速度。
參考文獻(xiàn):
[1]SullivanGJ,OhmJR,HanWJ,etal.Overviewofthehigh efficiency video coding(HEVC)standard[J]. IEEE Trans on Circuits and Systems for Video Technology,2012,22(12):1649- 1668.
[2]Bross B,Wang Yekui,Ye Yan,etal.Overview of the versatile video coding(VVC)standard and itsapplications[J].IEEETranson Circuits and Systems for Video Technology,2021,31(10): 3736-3764.
[3]BrossB,Chen Jianle,OhmJR,et al.Developmentsin international videocodingstandardizationafterAVC,withanoverviewofversatile videocoding(VVC)[J].Proceedingsofthe IEEE,2021,109 (9):1463-1493.
[4]Cui Jing,Zhang Tao,Gu Chenchen,et al.Gradient based early termination ofCUpartitionin VVC intracoding[C]//ProcofData CompressIon UonIerence. rIscataway,NJ:IEEE rress,ZUZU:IU5- 11Z.
[5]Pakdaman F,Adelimanesh MA,Gabbouj M,et al.Complexity analysis of next generation VVC encoding and decoding [C]//Proc of IEEE International Conference on Image Processing. Piscataway,NJ: IEEE Press,2020:3134-3138.
[6]360lib[S/OL].https://jvet.hhi.fraunhofer.de/svn/svn_360Lib/ trunk.
[7]陳燕輝,李強(qiáng),董陽(yáng),等.基于CU特征差異的VVC 幀內(nèi)快速劃 分算法[J].計(jì)算機(jī)應(yīng)用研究,2024,41(3):939-943.(Chen Yanhui,Li Qiang,Dong Yang,et al. Intra-frameFAST division algorithm of VVC based on CU feature difference[J]. Application Research of Computers,2024,41(3):939-943.)
[8].Zhang Shasha,Zhang Ronghui,Jing Xiaojun.A fast multi-type-tree split decision algorithmof intra coding unit in VVC[C]//Proc of IEEE International Symposium on Broadband Multimedia Systems and Broadcasting.Piscataway,NJ:IEEE Press,2022:1-5.
[9]Zhao Shuai,Shang Xiwu,Wang Guozhong,et al.A fast algorithm for intra-frame versatile video coding based on edge features [J].Sensors,2023,23(13):6244.
[10]Wang Kaijie,Liang Hong,Zhang Saiping,et al. Fast CU partition method based on extra trees for VVC intra coding[C]//Proc of IEEE International Conference on Visual Communications and Image Processing. Piscataway,NJ:IEEE Press,2022:1-5.
[11] Chen Zhibo, Shi Jun,Li Weiping. Learned fast HEVC intra coding [J].IEEE Trans on Image Processing,2020,29 :5431-5446.
[12]Wu Shilin,Shi Jun,Chen Zhibo.HG-FCN: hierarchical grid fully convolutional network for fast VVC intra coding[J]. IEEE Trans on Circuits and Systems for Video Technology,2022,32(8): 5638-5649.
[13] Li Tianyi, Xu Mai, Tang Runzhi,et al.DeepQTMT:a deep learning approach for fast QTMT-based CU partition of intra-mode VVC[J]. IEEETrans on Image Processing,2021,30:5377-5390.
[14]Tissier A,Hamidouche W,Mdalsi SB D,et al. Machine learning based efficient QT-MTT partitioning scheme for VVC intra encoders [J].IEEE Trans on Circuits and Systems for Video Technology,2023,33(8): 4279-4293.
[15] Shu Zhengjie,Peng Zongju,Jiang Gangyi,et al.Fast intra partition and mode prediction for equirectangular projection 36O-degree video coding[J].IET Image Processing,2023,17(2): 558-569.
[16] Zhang Mengmeng,Hou Yan,Liu Zhi.Anearly CU partition mode decisionalgorithm in VVCbased on variogram for virtual reality 360 degree videos[J]. EURASIP Joumal on Image and Video Processing,2023,2023(1):9.
[17]Xie Kaiying,Chen Fen,Peng Zongju,et al.Fast CU partition for 360-degree video based on multi-stage complexity classification [C]//Proc of the 18th IEEE Conference on Industrial Electronics and Applications.Piscataway,NJ:IEEE Press,2023:1725-1729.
[18]Li Chen,Xu Mai,Du Xinzhe,etal.Bridge the gap between VQA andhuman behavior on omnidirectional video:a large-scale dataset and a deep learning model[C]// Proc of the 26th ACM International Conference on Multimedia.New York:ACM Press,2018:932-940.