劉 暢 賈克斌 劉鵬宇
(北京工業(yè)大學(xué)信息學(xué)部 北京 100124)
(先進(jìn)信息網(wǎng)絡(luò)北京實(shí)驗(yàn)室 北京 100124)
(計(jì)算智能與智能系統(tǒng)北京市重點(diǎn)實(shí)驗(yàn)室 北京 100124)
隨著多媒體信息技術(shù)的飛速發(fā)展,視頻電視也在不斷更新。一方面,視頻電視由標(biāo)清向高清甚至全高清發(fā)展,可支持的像素個(gè)數(shù)越來(lái)越多;另一方面,視頻電視由平面2維向3維甚至自由視點(diǎn)發(fā)展,可支持的視點(diǎn)個(gè)數(shù)越來(lái)越多。從標(biāo)清到全高清、從平面到立體,視頻技術(shù)歷經(jīng)數(shù)次革新,已闊步邁向超高清時(shí)代。伴隨新一代信息通信技術(shù)的升級(jí),獨(dú)具大帶寬、廣連接、低時(shí)延的第5代移動(dòng)通信技術(shù)(5th Generation mobile communication technology, 5G)[1]無(wú)疑為視頻應(yīng)用搭建起“高速車道”。
在這一背景下,傳統(tǒng)的2維(Two Dimensional,2D)[2]視頻已難以滿足新時(shí)代人民群眾對(duì)美好視聽(tīng)的新需求,具備大視角、高畫質(zhì)以及畫面包圍感的沉浸式視頻應(yīng)用而生,其主要包括立體視頻、多視點(diǎn)視頻[3]、360°平面視頻、虛擬現(xiàn)實(shí) (Virtual Reality, VR)以及增強(qiáng)現(xiàn)實(shí)(Augmented Reality, AR)等。其中,作為多媒體信息產(chǎn)業(yè)的熱點(diǎn)之一,多視點(diǎn)視頻依托視頻技術(shù)的全面突破,集“交互性”和“臨場(chǎng)感”特質(zhì)于一身,顛覆了傳統(tǒng)視覺(jué)體驗(yàn),成為學(xué)術(shù)界和工業(yè)界關(guān)注的新焦點(diǎn)。然而,多視點(diǎn)視頻的出現(xiàn)是一把雙刃劍,它在為人們帶來(lái)更具感染力和沉浸感的視覺(jué)盛宴的同時(shí),也使得數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng),帶寬開(kāi)銷激增。一直以來(lái),尋求帶寬成本與高品質(zhì)視覺(jué)體驗(yàn)的平衡是視頻編碼技術(shù)的永恒主題。為降低因視點(diǎn)個(gè)數(shù)增多帶來(lái)的數(shù)據(jù)量的增加,需采用更有效的視頻編碼方案。
面對(duì)視頻編碼技術(shù)的新要求,3維高效視頻編碼(Three Dimensional-High Efficiency Video Coding, 3D-HEVC)[4]標(biāo)準(zhǔn)應(yīng)運(yùn)而生。它的發(fā)展歷程主要有兩個(gè)關(guān)鍵時(shí)間點(diǎn)。第一,2012年7月,運(yùn)動(dòng)圖片專家組(Motion Picture Expert Group, MPEG)和視頻編碼專家組(Video Coding Expert Group,VCEG)合作組成3維視頻聯(lián)合編碼組(Joint Collaborative Team on Three dimensional Video,JCT-3V),共同開(kāi)發(fā)下一代3維視頻編碼標(biāo)準(zhǔn)。第二,2015年2月,3D-HEVC國(guó)際標(biāo)準(zhǔn)正式發(fā)布。截至目前,3D-HEVC是最新的3維(Three Dimensional, 3D)視頻編碼標(biāo)準(zhǔn)。3D-HEVC采用的視頻編碼格式是多視點(diǎn)紋理加深度(Multiview Video plus Depth, MVD)[5]。MVD由2~3個(gè)視點(diǎn)的紋理圖及其對(duì)應(yīng)的深度圖組成,其采用基于深度圖像的繪制(Depth Image-Based Rendering, DIBR)[6]技術(shù)實(shí)現(xiàn)任意虛擬視點(diǎn)的合成,通過(guò)減少視點(diǎn)數(shù)量來(lái)降低待編碼視頻的數(shù)據(jù)量。MVD視頻格式的出現(xiàn)緩解了因視點(diǎn)數(shù)增加導(dǎo)致數(shù)據(jù)量激增的問(wèn)題,是目前最為有效的3D視頻編碼格式。
與高效視頻編碼(High Efficiency Video Coding, HEVC)[7]標(biāo)準(zhǔn)相比,3D-HEVC引入了深度圖。與紋理圖不同,深度圖表示物體與相機(jī)的距離。為區(qū)別于紋理圖的特征,3D-HEVC提供了眾多復(fù)雜的深度圖編碼技術(shù),導(dǎo)致3D-HEVC編碼復(fù)雜度提升,深度圖編碼復(fù)雜度可達(dá)紋理圖的3~4倍。其中,深度圖編碼單元(Coding Unit,CU)劃分的復(fù)雜度占深度圖編碼復(fù)雜度的90%以上,這成為阻礙3D-HEVC在實(shí)際應(yīng)用領(lǐng)域推廣使用的一個(gè)關(guān)鍵問(wèn)題。因此,面對(duì)新形勢(shì)、新挑戰(zhàn),為解決上述問(wèn)題,眾多國(guó)內(nèi)外學(xué)者從加快深度圖編碼方面展開(kāi)研究。
目前,針對(duì)深度圖的快速編碼可分為3類,分別為基于啟發(fā)式的方法[8–10]、基于機(jī)器學(xué)習(xí)的方法[11–13]以及基于深度學(xué)習(xí)的方法[14–16]。其中,基于啟發(fā)式的方法大多是基于閾值、率失真代價(jià)(Rate Distortion cost, RD-cost)或時(shí)間/空間/視點(diǎn)間相關(guān)性提出的。但該類方法依賴人為制定決策規(guī)則,對(duì)于各具特點(diǎn)的視頻序列,單一或不全面的特征提取方法導(dǎo)致算法魯棒性差。進(jìn)一步,有學(xué)者利用機(jī)器學(xué)習(xí)方法來(lái)加速深度圖編碼,早期研究方法主要是基于決策樹(shù),通過(guò)構(gòu)建靜態(tài)決策樹(shù),利用數(shù)據(jù)挖掘提取視頻特征。但該類方法依賴手工提取特征,獲取的是底層簡(jiǎn)單的物理特征,特征表征能力較差。近年來(lái),隨著深度學(xué)習(xí)技術(shù)的進(jìn)步和普及,一些學(xué)者將其應(yīng)用到不同的視頻編碼領(lǐng)域中,包括前一代視頻編碼標(biāo)準(zhǔn)H E V C,新一代視頻編碼標(biāo)準(zhǔn)VVC(Versatile Video Coding)以及HEVC的擴(kuò)展標(biāo)準(zhǔn)3D-HEVC。針對(duì)3D-HEVC而言,文獻(xiàn)[17]利用整體嵌套的邊緣檢測(cè)(Holistically nested Edge Detection, HED)網(wǎng)絡(luò)檢測(cè)深度圖的邊緣,通過(guò)基于深度學(xué)習(xí)網(wǎng)絡(luò)的邊緣檢測(cè)對(duì)3D-HEVC深度圖進(jìn)行幀內(nèi)快速預(yù)測(cè)編碼,然而文獻(xiàn)[17]采用的HED網(wǎng)絡(luò)是基于復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)的視覺(jué)幾何群網(wǎng)絡(luò)(Visual Geometry Group network, VGG-16)[18],算法性能對(duì)硬件依賴性較強(qiáng),并且這種利用網(wǎng)絡(luò)實(shí)現(xiàn)預(yù)測(cè)編碼方法的本質(zhì)是對(duì)四叉樹(shù)進(jìn)行剪枝操作,仍需進(jìn)行傳統(tǒng)的率失真優(yōu)化(Rate Distortion Optimization,RDO)計(jì)算。
針對(duì)上述方法存在的不足,本文基于網(wǎng)絡(luò)的深度特征表達(dá)與學(xué)習(xí),提出一種基于深度學(xué)習(xí)的CU劃分結(jié)構(gòu)快速預(yù)測(cè)方案,通過(guò)直接預(yù)測(cè)深度圖幀內(nèi)編碼模式下CU的劃分結(jié)構(gòu)來(lái)降低CU劃分的復(fù)雜度,進(jìn)而降低3D-HEVC的編碼復(fù)雜度,對(duì)比實(shí)驗(yàn)結(jié)果證明了本文算法的有效性。
一個(gè)完整的3D-HEVC測(cè)試序列包含3個(gè)視點(diǎn),鑒于3個(gè)視點(diǎn)取自同一時(shí)刻、不同位置,故不同位置的視點(diǎn)因視角差異而具有輕微的內(nèi)容差異性。圖1以Kendo測(cè)試序列[19]為例,展示了3D-HEVC的編碼結(jié)構(gòu)。圖1的3個(gè)視點(diǎn)分別為視點(diǎn)0、視點(diǎn)1和視點(diǎn)2。其中視點(diǎn)0為獨(dú)立視點(diǎn),其余兩個(gè)視點(diǎn)為非獨(dú)立視點(diǎn)。與HEVC不同,3D-HEVC的編碼結(jié)構(gòu)包含紋理圖及其對(duì)應(yīng)的深度圖。如圖1所示,每個(gè)視點(diǎn)都包含紋理圖及其對(duì)應(yīng)的深度圖。
圖1 3D-HEVC編碼結(jié)構(gòu)
區(qū)別于紋理圖,深度圖具有大面積的平滑區(qū)域和顯著的邊緣。為準(zhǔn)確地編碼深度圖的邊緣,3DHEVC引入了深度圖編碼技術(shù),但新技術(shù)的引入也帶來(lái)編碼復(fù)雜度的增加。圖2展示了6個(gè)標(biāo)準(zhǔn)測(cè)試序列的編碼時(shí)間統(tǒng)計(jì)結(jié)果。如圖2所示,深度圖的編碼時(shí)間占總編碼時(shí)間的80%以上。因此,有必要降低3D-HEVC中深度圖的編碼時(shí)間。
圖2 6個(gè)標(biāo)準(zhǔn)測(cè)試序列的編碼時(shí)間統(tǒng)計(jì)
在3D-HEVC深度圖中,每幀圖像會(huì)被分割成若干個(gè)非重疊的編碼樹(shù)單元(Coding Tree Unit, CTU),每個(gè)CTU既可以包含單個(gè)CU,也可以依據(jù)四叉樹(shù)結(jié)構(gòu)迭代劃分為幾個(gè)較小尺寸的CU。CU的尺寸可以為64×64, 32×32, 16×16, 8×8,對(duì)應(yīng)的CTU深度分別為0, 1, 2, 3。圖3展示了深度圖中的CTU及其對(duì)應(yīng)的四叉樹(shù)劃分結(jié)構(gòu)。值得注意的是,通過(guò)迭代計(jì)算才能獲得CTU的最佳劃分結(jié)構(gòu)。而CTU的四叉樹(shù)劃分不僅包括自上而下的RD-cost計(jì)算過(guò)程,還包括自下而上的RD-cost比較過(guò)程。針對(duì)自上而下的計(jì)算過(guò)程而言,如圖3所示,按照“深度=0、深度=1、深度=2、深度=3”的順序依次計(jì)算當(dāng)前深度下所有編碼單元的RD-cost?;诖?,再進(jìn)行自下而上的比較過(guò)程。若“RD-cost(深度=n)> RD-cost(深度=n+1), n=0, 1, 2”,則“深度=n”的編碼單元需要?jiǎng)澐?,反之,則不需要?jiǎng)澐帧?/p>
圖3 深度圖中CTU的四叉樹(shù)劃分過(guò)程
據(jù)統(tǒng)計(jì),深度圖編碼單元?jiǎng)澐值膹?fù)雜度占深度圖編碼復(fù)雜度的90%以上[20]。對(duì)于一個(gè)64×64大小的CTU,采用全遍歷模式,完成編碼共需要進(jìn)行85次CU運(yùn)算,1935次殘差變換絕對(duì)值和(Sum of Absolute Transformed Difference, SATD)代價(jià)運(yùn)算和至少2623次RD-cost運(yùn)算。因此,有必要降低3D-HEVC中深度圖編碼單元?jiǎng)澐值膹?fù)雜度。
圖4展示了編碼后深度圖中CTU的劃分結(jié)構(gòu)以及編碼單元紋理復(fù)雜度和編碼單元深度之間的關(guān)系。從圖4可看出,在簡(jiǎn)單、光滑的紋理區(qū)域,編碼深度通常為0和1;在復(fù)雜、粗糙的紋理區(qū)域,編碼深度通常為2和3。
圖4 編碼單元紋理復(fù)雜度和編碼單元深度之間的關(guān)系
此外,本文還進(jìn)一步統(tǒng)計(jì)了編碼單元?jiǎng)澐稚疃群土炕瘏?shù)(Quantization Parameter, QP)之間的關(guān)系。如表1所示,初步實(shí)驗(yàn)結(jié)果表明,采用較小QP值編碼后的視頻序列傾向于使用大深度、小尺寸CU,采用較大QP值編碼后的視頻序列傾向于使用小深度、大尺寸CU。其中,QP可以反映編碼壓縮的情況,QP與量化步長(zhǎng)Qstep之間的關(guān)系如式(1)所示
表1 編碼單元深度和QP的關(guān)系(%)
QP越大,Qstep的值越大,量化程度越粗糙,圖像失真的情況越嚴(yán)重。相反,QP越小,Qstep的值越小,量化程度越細(xì)膩,圖像失真的情況越輕微。
基于上述分析發(fā)現(xiàn),如果能直接預(yù)測(cè)編碼單元的劃分結(jié)構(gòu),合理跳過(guò)或提前終止某些非必要深度下的率失真代價(jià)計(jì)算過(guò)程,即通過(guò)紋理分析直接確定當(dāng)前深度圖CTU的劃分結(jié)構(gòu),可以有效地降低編碼時(shí)間。因此,如何將深度學(xué)習(xí)與3D-HEVC編碼框架結(jié)合,通過(guò)網(wǎng)絡(luò)自動(dòng)分析CU的紋理復(fù)雜度,確定當(dāng)前編碼單元的劃分結(jié)構(gòu),對(duì)于解決CU劃分復(fù)雜度過(guò)高這一問(wèn)題具有重要的參考意義。
數(shù)據(jù)驅(qū)動(dòng)深度模型,數(shù)據(jù)集的種類和數(shù)量會(huì)對(duì)深度模型的性能產(chǎn)生巨大影響??紤]到目前不存在由深度圖構(gòu)成的數(shù)據(jù)集,為保證實(shí)驗(yàn)的準(zhǔn)確性,本文從標(biāo)準(zhǔn)測(cè)試視頻序列中選擇了6個(gè)不同內(nèi)容的視頻序列,用于構(gòu)建數(shù)據(jù)集。其中,包含3個(gè)分辨率為1024×768的視頻序列以及3個(gè)分辨率為1920×1088的視頻序列。此外,鑒于不同位置的視點(diǎn)具有內(nèi)容差異性,本文選擇獨(dú)立視點(diǎn)對(duì)應(yīng)的深度圖來(lái)構(gòu)建數(shù)據(jù)集。
表2展示了本文構(gòu)建的數(shù)據(jù)集。如表2所示,訓(xùn)練集由視頻序列Kendo的前300幀以及GT_Fly的前250幀組成;驗(yàn)證集由視頻序列Balloons的后10幀以及Poznan_Hall2的后10幀組成;測(cè)試集由視頻序列Newspaper的后20幀以及Undo_Dancer的后20幀組成。然后,所有的視頻幀均在3D-HEVC的測(cè)試平臺(tái)HTM16.0[21]下進(jìn)行編碼。編碼后,可獲得所有編碼單元的劃分結(jié)構(gòu)和劃分深度。將每個(gè)編碼單元及其對(duì)應(yīng)的劃分深度(0~3)作為一個(gè)訓(xùn)練樣本。在本文構(gòu)建的數(shù)據(jù)集中,共包含206160個(gè)樣本。表3給出了一個(gè)樣本的具體組成形式。
表2 本文構(gòu)建的數(shù)據(jù)集
為直接預(yù)測(cè)深度圖中編碼單元的劃分結(jié)構(gòu),本文構(gòu)建了如圖5所示的基于多分支網(wǎng)絡(luò)的深度模型(Multi Branch CNN, MB-CNN)。該模型包含3個(gè)通道,自上向下依次對(duì)應(yīng)“深度=0”(尺寸為64×64),“深度=1”(尺寸為32×32),“深度=2”(尺寸為16×16)。模型的輸入為獨(dú)立視點(diǎn)對(duì)應(yīng)深度圖中的CTU,尺寸為64×64。模型的輸出表示當(dāng)前深度CU向下劃分的概率值。此外,該模型中,小深度、大尺寸CU的劃分與否直接決定下一深度CU的劃分。下面對(duì)模型的結(jié)構(gòu)進(jìn)行詳細(xì)介紹。
圖5 MB-CNN模型架構(gòu)圖
MB-CNN模型由3個(gè)預(yù)處理模塊、3組卷積層、4個(gè)合并層以及3組全連接層組成。具體而言,為了讓模型的輸出形式與表3的最終劃分結(jié)構(gòu)相一致,需要對(duì)輸入模型的編碼單元進(jìn)行預(yù)處理操作。模塊A、模塊B和模塊C均為模型的預(yù)處理模塊,經(jīng)3個(gè)預(yù)處理模塊處理后的編碼單元大小分別為16×16,32×32和64×64,輸入模型的CTU按照模塊A、模塊B和模塊C的順序逐通道進(jìn)行預(yù)處理。此外,為減少特征維度和干擾信息,模型的預(yù)處理模塊均采用了平均池化。為從預(yù)處理后的CTU中提取邊緣特征,卷積層采用的激活函數(shù)是線性整流函數(shù)(Rectified Linear Unit, ReLU),可用式(2)來(lái)表示
表3 訓(xùn)練樣本的組成形式
其中,Cm表示預(yù)處理模塊后的卷積層,M為卷積層的總層數(shù),m表示當(dāng)前處理的是第幾層,n表示當(dāng)前處理的是第幾個(gè)CTU,Wm為 權(quán)值矩陣,Bm為偏置量。
模型中預(yù)處理模塊后的卷積操作只是對(duì)預(yù)處理后的CTU進(jìn)行逐層特征變換,自動(dòng)學(xué)習(xí)各個(gè)通道的層次化特征,但其并未考慮到通道間及卷積層間特征的相關(guān)性。鑒于此,第2組卷積層和第3組卷積層處理后的特征會(huì)先送入到合并層,再經(jīng)全連接層來(lái)學(xué)習(xí)不同通道、不同層級(jí)特征之間的相關(guān)性。通過(guò)3.1節(jié)的表1可看出,QP對(duì)CU深度的選擇具有重要影響,因此,本文在模型的第2組全連接層中引入QP這一外部特征。此外,考慮到模型的輸出是二分類問(wèn)題,即用0和1表示CU是否劃分。因此,模型最后一層采用的激活函數(shù)是sigmoid。
在訓(xùn)練MB-CNN時(shí),考慮到其是一個(gè)端到端的模型,故可對(duì)模型中的各個(gè)模塊進(jìn)行聯(lián)合訓(xùn)練。為了更好地訓(xùn)練MB-CNN,通過(guò)整合預(yù)測(cè)CU是否劃分的先驗(yàn)信息以及模型輸出的二值化信息,考慮到二值交叉熵?fù)p失函數(shù)常用于分類問(wèn)題中,而本文所提模型本質(zhì)上就是一個(gè)二分類問(wèn)題,故本文將二值交叉熵?fù)p失函數(shù)作為MB-CNN模型的損失函數(shù),用于本文MB-CNN模型的協(xié)同訓(xùn)練。損失函數(shù)L定義為
圖6展示了本文提出的基于多分支網(wǎng)絡(luò)的深度圖幀內(nèi)編碼單元快速劃分算法流程圖。首先,讀取待編碼視頻序列,并在編碼獨(dú)立視點(diǎn)對(duì)應(yīng)的深度圖時(shí)調(diào)用MB-CNN模型;其次,讀取待編碼CTU,并利用MB-CNN模型預(yù)測(cè)CTU的劃分結(jié)構(gòu);最后,獲得最優(yōu)的CTU劃分結(jié)構(gòu)。值得注意的是,在編碼過(guò)程中,MB-CNN模型的運(yùn)行只占用了0.5%的編碼時(shí)間,進(jìn)一步證明了利用MB-CNN實(shí)現(xiàn)CTU劃分結(jié)構(gòu)快速預(yù)測(cè)的可行性。
圖6 深度圖幀內(nèi)編碼單元快速劃分流程圖
4.1.1 訓(xùn)練環(huán)境
為了驗(yàn)證所提MB-CNN模型的性能,需要先訓(xùn)練提出的MB-CNN模型。模型的訓(xùn)練對(duì)實(shí)驗(yàn)環(huán)境要求較高,需要較強(qiáng)的數(shù)據(jù)處理能力以提升訓(xùn)練速度。本文訓(xùn)練模型使用的硬件環(huán)境及軟件環(huán)境如表4所示。
表4 實(shí)驗(yàn)環(huán)境
在模型的訓(xùn)練過(guò)程中,原始輸入CTU的尺寸為64×64,“深度=0”、“深度=1”、“深度=2”通道預(yù)處理后CTU的尺寸分別為64×64, 32×32,16×16。批尺寸設(shè)為64,迭代次數(shù)設(shè)為10000,初始學(xué)習(xí)率設(shè)為0.01。值得注意的是,固定的學(xué)習(xí)率顯得笨拙,太小的學(xué)習(xí)率收斂速度慢,學(xué)習(xí)率太大可能得不到最優(yōu)解。因此,在MB-CNN模型的訓(xùn)練中,選擇動(dòng)態(tài)設(shè)置學(xué)習(xí)率,即初始學(xué)習(xí)率設(shè)為0.01,隨著學(xué)習(xí)次數(shù)的增加,每4000次迭代,學(xué)習(xí)率以0.1的速度衰減。
4.1.2 編碼配置
為了驗(yàn)證提出的基于多分支網(wǎng)絡(luò)的深度圖幀內(nèi)編碼單元快速劃分算法的性能,采用全幀內(nèi)(All Intra-frame, AI)編碼模式在3D-HEVC測(cè)試平臺(tái)HTM16.0上進(jìn)行測(cè)試。編譯軟件為Visual Studio 2010,配置文件為baseCfg_3view+depth_AllIntra。具體編碼配置如表5所示。
表5 編碼參數(shù)配置
本文實(shí)驗(yàn)采用的標(biāo)準(zhǔn)測(cè)試序列及其具體參數(shù)如表6所示。值得注意的是,MB-CNN模型的訓(xùn)練集來(lái)自標(biāo)準(zhǔn)測(cè)試序列Kendo和GT_Fly,與本文實(shí)驗(yàn)的標(biāo)準(zhǔn)測(cè)試序列并無(wú)交叉。
表6 標(biāo)準(zhǔn)測(cè)試序列及其參數(shù)
本文實(shí)驗(yàn)以3D-HEVC測(cè)試模型HTM16.0為基準(zhǔn),通過(guò)式(4)對(duì)編碼時(shí)間的節(jié)省情況進(jìn)行度量
4.2.1 訓(xùn)練性能評(píng)價(jià)
模型的訓(xùn)練性能直接決定了本文所提基于多分支網(wǎng)絡(luò)的深度圖幀內(nèi)編碼單元快速劃分算法的可行性。圖8展示了MB-CNN模型在訓(xùn)練集下預(yù)測(cè)CU尺寸的準(zhǔn)確率。可以看出,隨著迭代次數(shù)的增加,CU尺寸的預(yù)測(cè)準(zhǔn)確率逐漸增高,并在迭代次數(shù)為5000時(shí)趨于穩(wěn)定。此外,從圖8可以發(fā)現(xiàn),MB-CNN模型對(duì)尺寸為64×64(“深度=0”)的CU有較高的預(yù)測(cè)準(zhǔn)確率,最高時(shí)可達(dá)到92.18%。這是由于在模型設(shè)計(jì)過(guò)程中,小深度、大尺寸CU的劃分與否直接決定了下一深度CU的劃分,所以模型更加關(guān)注小深度、大尺寸CU的劃分預(yù)測(cè)。但也正是由于其深度小,對(duì)于表征矢量的長(zhǎng)度需求低,因此預(yù)測(cè)難度較小,預(yù)測(cè)準(zhǔn)確率就會(huì)高。模型較高的預(yù)測(cè)準(zhǔn)確率也使得本文提出的算法在率失真性能上有較好的表現(xiàn)。
圖8 不同迭代次數(shù)下不同尺寸CU的預(yù)測(cè)準(zhǔn)確率
4.2.2 客觀性能評(píng)價(jià)
與HTM16.0相比,在AI配置下,本文提出的基于多分支網(wǎng)絡(luò)的深度圖幀內(nèi)編碼單元快速劃分算法的編碼復(fù)雜度與率失真性能分別如表7、表8所示。同時(shí),表7也給出了參考文獻(xiàn)[10]中的算法、參考文獻(xiàn)[12]中的算法、參考文獻(xiàn)[16]中的算法與HTM16.0的性能比較結(jié)果。所有實(shí)驗(yàn)結(jié)果均在本文實(shí)驗(yàn)環(huán)境以及編碼參數(shù)配置下得出。
為了證明本文算法的普適性,采用了4個(gè)沒(méi)有出現(xiàn)在訓(xùn)練集中的序列進(jìn)行測(cè)試。如表7和表8所示,與HTM16.0相比,本文算法可以在BDBR(synth PSNR /total bitrate)僅增加5.9%的情況下,平均節(jié)省37.4%的編碼時(shí)間。特別是,對(duì)于背景基本不變、前景變化緩慢的序列而言,如Newspaper視頻序列,會(huì)節(jié)省更多的編碼時(shí)間,Newspaper序列的時(shí)間節(jié)省率達(dá)到了45.3%。
表7 本文算法、參考文獻(xiàn)算法與HTM16.0的時(shí)間節(jié)省比較(%)
表8 本文算法與HTM16.0的率失真性能比較(%)
為了進(jìn)一步評(píng)估本文算法的性能,分別與文獻(xiàn)[10,12,16]進(jìn)行對(duì)比實(shí)驗(yàn)。在率失真性能損失較小的情況下,本文算法較參考文獻(xiàn)[10,12,16]分別節(jié)省了11.9%, 12.1%和2.4%的編碼時(shí)間。
4.2.3 主觀質(zhì)量評(píng)價(jià)
為證明本文所提算法能在降低編碼復(fù)雜度的同時(shí),保證編碼后的合成視點(diǎn)質(zhì)量基本不變。圖9以Poznan_Hall2視頻序列為例,展示了本文算法與原始HTM16.0方法在編碼后合成視點(diǎn)主觀質(zhì)量上的對(duì)比。
從圖9可看出,與HTM16.0相比,本文算法在主觀上并不會(huì)造成合成視點(diǎn)質(zhì)量的明顯下降,進(jìn)一步證明本文算法能在保證合成視點(diǎn)質(zhì)量基本不變的前提下,降低3D-HEVC的編碼復(fù)雜度。
圖7 合成視點(diǎn)PSNR的計(jì)算過(guò)程示意圖
圖9 Poznan_Hall2視頻序列在合成視點(diǎn)0.25上的主觀質(zhì)量對(duì)比
本文針對(duì)3D-HEVC中深度圖幀內(nèi)編碼單元的四叉樹(shù)劃分復(fù)雜度過(guò)高的問(wèn)題,提出一種基于多分支網(wǎng)絡(luò)的深度圖幀內(nèi)編碼單元快速劃分算法,以降低3D-HEVC的編碼復(fù)雜度,節(jié)省編碼時(shí)間。通過(guò)分析編碼單元紋理復(fù)雜度和編碼單元深度之間的關(guān)系,本文所提算法嘗試在不進(jìn)行率失真代價(jià)計(jì)算的前提下直接預(yù)測(cè)CTU的劃分結(jié)構(gòu)。首先,構(gòu)建了由獨(dú)立視點(diǎn)對(duì)應(yīng)深度圖中的CTU組成的數(shù)據(jù)集。其次,提出MB-CNN模型,利用構(gòu)建的數(shù)據(jù)集對(duì)其進(jìn)行訓(xùn)練,以實(shí)現(xiàn)原始輸入CTU的自動(dòng)分析,直接預(yù)測(cè)CTU的劃分結(jié)構(gòu)。最后,將MB-CNN模型嵌入到3D-HEVC的測(cè)試平臺(tái)HTM16.0中,以確定深度圖中最優(yōu)的CTU劃分結(jié)構(gòu)。當(dāng)利用本文提出算法替代耗時(shí)的RDO全遍歷搜索時(shí),該算法成功克服了已有算法中依賴人工統(tǒng)計(jì)信息來(lái)預(yù)測(cè)編碼單元?jiǎng)澐稚疃鹊娜毕?。?shí)驗(yàn)結(jié)果表明,與HTM16.0相比,本文所提算法可在BDBR僅增加5.9%、合成視點(diǎn)質(zhì)量基本不變的前提下,平均降低37.4%的編碼復(fù)雜度。