孟昭旭 朱宏宣
(1.北京電影學(xué)院中國(guó)電影高新技術(shù)研究院,北京 100088)(2.北京電影學(xué)院影視技術(shù)系,北京 100088)
近年來,電影、電視、互聯(lián)網(wǎng)視頻尤其是用戶生產(chǎn)內(nèi)容快速增長(zhǎng),視頻技術(shù)指標(biāo)不斷提升,網(wǎng)絡(luò)流媒體平臺(tái)開始支持4K、8 K、HDR片源,視頻數(shù)據(jù)量呈指數(shù)式上升,而存儲(chǔ)技術(shù)的發(fā)展和存儲(chǔ)媒介容量的增長(zhǎng)卻遠(yuǎn)遠(yuǎn)滯后,因此,更高的壓縮率成為了存儲(chǔ)海量視頻內(nèi)容的必然選擇。在這種情況下,新一代視頻編碼VVC、AV1和AVS3應(yīng)運(yùn)而生,其壓縮效率相較于目前廣泛使用的視頻編碼AVC和HEVC有較大的提升。
為了量化新一代視頻編碼的壓縮效果,需要對(duì)畫面質(zhì)量進(jìn)行評(píng)價(jià),其方法可以分為主觀評(píng)價(jià)和客觀指標(biāo)評(píng)價(jià)兩種方式。主觀評(píng)價(jià)是衡量視頻質(zhì)量最準(zhǔn)確的方法,因?yàn)槿藢?duì)視頻質(zhì)量的感知是主觀的??陀^指標(biāo)評(píng)價(jià)快速便捷,只要確定了客觀指標(biāo)的計(jì)算公式,即可自動(dòng)化批量評(píng)價(jià)視頻,但是客觀指標(biāo)評(píng)價(jià)結(jié)果與主觀評(píng)價(jià)結(jié)果并不完全相符,存在一定的差異。近年來,出現(xiàn)了一些更符合人類視覺特征的客觀評(píng)價(jià)指標(biāo),例如VMAF,其評(píng)價(jià)結(jié)果更接近主觀結(jié)果。
針對(duì)主客觀評(píng)價(jià)結(jié)果差異的問題,本文在應(yīng)用新一代視頻編碼進(jìn)行壓縮測(cè)試的基礎(chǔ)上,對(duì)各視頻編碼在不同碼率下的壓縮畫面進(jìn)行主客觀評(píng)價(jià)結(jié)果的對(duì)比實(shí)驗(yàn),探究客觀指標(biāo)評(píng)價(jià)結(jié)果的準(zhǔn)確性。本次測(cè)試共涉及五種視頻編碼:AVC(H.264)、HEVC(H.265)、VVC(H.266)、AV1、AVS3。其中,AVC仍是目前使用最廣泛的視頻編碼,HEVC是當(dāng)下性能表現(xiàn)優(yōu)異,已經(jīng)得到成熟應(yīng)用的視頻編碼。因此,選取AVC和HEVC作為對(duì)照組,新一代視頻編碼VVC、AV1和AVS3作為實(shí)驗(yàn)組。
AVC,即Advanced Video Coding,高級(jí)視頻編碼,也被稱作ITU-T H.264或MPEG-4 Part 10,由聯(lián)合視頻組(JVT)在2003年確立第一版標(biāo)準(zhǔn)。AVC編碼與之前的編碼相比,壓縮率大大提升,同時(shí)編解碼復(fù)雜度控制得較好,編解碼速度較快,這使得AVC編碼迅速普及。由于其廣泛的平臺(tái)支持性,截至2020年,AVC編碼依然是視頻行業(yè)中使用率最高的編碼。
HEVC,即High Efficiency Video Coding,高效視頻編碼,也被稱作ITU-T H.265或MPEGH Part 2,由視頻編碼聯(lián)合協(xié)作組(JCT-VC)于2013年標(biāo)準(zhǔn)化。HEVC在同等視頻質(zhì)量下的壓縮率比AVC提高25~50%,是當(dāng)前性能較強(qiáng)的視頻編碼。但是,與AVC相比,HEVC的授權(quán)費(fèi)不僅更貴,而且混亂,與HEVC相關(guān)的專利由多個(gè)專利池負(fù)責(zé)收費(fèi),這也導(dǎo)致HEVC至今為止都沒能像AVC編碼一樣普及。
VVC,即Versatile Video Codec,多功能視頻編碼,也被稱為ITU-T H.266或MPEG-I Part 3,由聯(lián)合視頻專家組(JVET)于2020年7月發(fā)布了第一版標(biāo)準(zhǔn)。VVC在相同的視頻感知質(zhì)量下可以比HEVC提高50%的壓縮率。VVC在制定的過程中充分地考慮了視頻的高技術(shù)指標(biāo)趨勢(shì)并進(jìn)行了針對(duì)性的優(yōu)化,如8 K高分辨率、12bit高位深、PQ和HLG高動(dòng)態(tài)范圍曲線、Rec.2020寬色域、全景視頻、3D視頻等。因此對(duì)于高技術(shù)指標(biāo)的視頻,VVC能表現(xiàn)出更優(yōu)異的壓縮性能。
AV1視頻編碼是由開放媒體聯(lián)盟(Alliance for Open Media)開發(fā)的開源、免費(fèi)的視頻編碼,于2018年發(fā)布了第一版標(biāo)準(zhǔn)。開放媒體聯(lián)盟是一個(gè)非盈利組織,成員包括谷歌、微軟、蘋果、英偉達(dá)等互聯(lián)網(wǎng)和芯片企業(yè),旨在開發(fā)無版權(quán)的音視頻編碼標(biāo)準(zhǔn),以滿足網(wǎng)絡(luò)視頻壓縮和傳輸?shù)拈_放標(biāo)準(zhǔn)需求。AV1編碼繼承于谷歌的開源免費(fèi)編碼VP8和VP9,與它們相比,AV1具有更高的壓縮率。由于其開源免費(fèi),性能優(yōu)良,AV1正在取得越來越廣泛的應(yīng)用。
AVS,即Audio Video coding Standard,音視頻編碼標(biāo)準(zhǔn),由我國(guó)的數(shù)字音視頻編解碼技術(shù)標(biāo)準(zhǔn)工作組負(fù)責(zé)開發(fā)制定。工作組制定的AVS1、AVS2兩代編碼,已分別于2006年和2016年被頒布為國(guó)家標(biāo)準(zhǔn)。目前AVS標(biāo)準(zhǔn)廣泛應(yīng)用于我國(guó)的廣播電視領(lǐng)域,正在進(jìn)軍互聯(lián)網(wǎng)視頻領(lǐng)域和監(jiān)控領(lǐng)域。2019年3月,數(shù)字音視頻編解碼技術(shù)標(biāo)準(zhǔn)工作組完成了AVS3基準(zhǔn)檔草案,性能超過AVS2編碼30%左右。目前,由北京大學(xué)深圳研究生院團(tuán)隊(duì)開發(fā)的AVS3編解碼器“天樞”u AVS3e和“天璇”u AVS3d已經(jīng)開源發(fā)布。其中,“天樞”編碼速度與AVS3標(biāo)準(zhǔn)參考軟件相比有數(shù)十倍的提升。
MOS,即Mean Opinion Score,平均意見分,其分?jǐn)?shù)范圍一般是1~5分。由于MOS評(píng)判的環(huán)境不一,比如顯示器大小、觀看距離、環(huán)境亮度等不同,所以每個(gè)MOS測(cè)量結(jié)果都需要標(biāo)注測(cè)試時(shí)的具體環(huán)境參數(shù),同時(shí)不建議直接使用不同測(cè)試環(huán)境下得到的MOS分進(jìn)行橫向?qū)Ρ?。由于需要人工參與并標(biāo)準(zhǔn)化測(cè)試場(chǎng)景,所以進(jìn)行MOS評(píng)價(jià)費(fèi)時(shí)費(fèi)力,不方便大規(guī)模部署,應(yīng)用范圍受限。
PSNR,即Peak Signal-to-Noise Ratio,峰值信噪比,指的是信號(hào)的最大可能功率與噪聲功率之比。PSNR公式如(1)所示,單位是dB:
式(1)中:MAX=2-1,n為圖像的位深度。MSE為均方誤差,即原始圖像與壓縮圖像每個(gè)像素誤差的平方和的平均值。
PSNR是用來評(píng)估有損壓縮質(zhì)量的最常用的指標(biāo)之一。一般情況下,PSNR的值越高,壓縮畫面的質(zhì)量越好。如果對(duì)8bit位深的圖像進(jìn)行壓縮,PSNR的值一般在30dB至50dB之間;如果是無損壓縮,那么MSE為0,PSNR的值為無限大。PSNR的局限性在于只考慮了每個(gè)像素之間的絕對(duì)差別,但人眼并不是逐個(gè)像素去觀看畫面的,因此并不符合人眼的視覺感知特點(diǎn),這意味著即使是相同PSNR的兩段壓縮視頻,也有可能呈現(xiàn)出不同的主觀質(zhì)量。
SSIM,即Structural Similarity Index Measure,結(jié)構(gòu)相似性指數(shù)。它由德州奧斯汀大學(xué)的Zhou Wang等人于2004年開發(fā)。SSIM指標(biāo)設(shè)計(jì)的初衷是提升對(duì)圖像主觀質(zhì)量預(yù)測(cè)的準(zhǔn)確度。SSIM主要評(píng)價(jià)人類可感知到的圖像差別。給定圖像x和圖像y,SSIM的公式如下:
SSIM的值在0和1之間,一般情況下,其值越高,壓縮畫面的質(zhì)量越好。由于考慮到了畫面中亮度、對(duì)比度和結(jié)構(gòu)特征,SSIM在一定程度上更符合人類的主觀感知。
VMAF,即Video Multimethod Assessment Fusion,視頻多方法評(píng)估融合,是由Netflix公司開發(fā)的一種基于機(jī)器學(xué)習(xí)的視頻客觀評(píng)價(jià)指標(biāo)。Netflix為了解決海量流媒體的質(zhì)量控制問題,開發(fā)了VMAF指標(biāo),其預(yù)測(cè)視頻主觀質(zhì)量的準(zhǔn)確度高于PSNR和SSIM等傳統(tǒng)指標(biāo)。
VMAF的原理是提取視頻的空域和時(shí)域特征,特征提取過程中會(huì)考慮到人類視覺特點(diǎn)如對(duì)比度掩蔽效應(yīng)和亮度掩蔽效應(yīng)。然后召集測(cè)試者在特定測(cè)試環(huán)境下對(duì)視頻質(zhì)量進(jìn)行主觀評(píng)價(jià)得到MOS分。最后通過支持向量機(jī)(SVM)將這些特征值和MOS分?jǐn)?shù)擬合得到VMAF模型。VMAF分值范圍在0到100之間,分值越高,代表壓縮畫面的質(zhì)量越好,一般來說,75分以上有較好的觀感。
VMAF依然存在局限性。對(duì)于不同觀看媒介上的同一段視頻,比如手機(jī)和電視,其主觀感受是不同的,所以針對(duì)不同的觀看媒介需要訓(xùn)練不同的VMAF模型,比較繁瑣。另外,VMAF和PSNR、SSIM一樣,是一種完全參考評(píng)價(jià)指標(biāo)(Full-reference),VMAF分?jǐn)?shù)是相對(duì)于原始參考視頻而言的,不代表絕對(duì)質(zhì)量,即VMAF分?jǐn)?shù)只適用于對(duì)比同一視頻源所產(chǎn)生的壓縮視頻的質(zhì)量,而不適用于橫向?qū)Ρ炔煌曨l源所產(chǎn)生的壓縮視頻的質(zhì)量。
實(shí)驗(yàn)主要分為客觀測(cè)試和主觀測(cè)試兩部分。5種視頻編碼均參與PSNR、SSIM、VMAF客觀指標(biāo)測(cè)試,但是由于AVC編碼在實(shí)驗(yàn)所要求的低碼率下必然存在明顯瑕疵和畫面崩壞,不具備主觀測(cè)試意義,因此AVC編碼不參與主觀測(cè)試。
表1 五段測(cè)試參考序列的信息
圖1 測(cè)試序列截圖:依次為風(fēng)景、特寫、肖像、運(yùn)動(dòng)物體、運(yùn)動(dòng)人物
測(cè)試參考序列來自于各品牌攝影機(jī)官網(wǎng)示例素材和網(wǎng)絡(luò)無版權(quán)素材,均為攝影機(jī)RA W格式文件。選取有代表性的片段導(dǎo)入達(dá)芬奇軟件中進(jìn)行剪輯和處理,將內(nèi)容相似的若干個(gè)鏡頭組合為一段測(cè)試參考序列,最終組合成5段測(cè)試參考序列:風(fēng)景、特寫、肖像、運(yùn)動(dòng)物體、運(yùn)動(dòng)人物,以求盡可能模擬視頻中可能出現(xiàn)的各種內(nèi)容。最終,將這5段參考序列輸出為25幀率、1920×1080分辨率、8bit位深、ST1886 EOTF和Rec.709色域的I420像素格式的無壓縮YUV文件,作為最高質(zhì)量源參考文件。
將5段參考序列的YUV源文件分別使用5種編碼壓縮至0.1、0.2、0.5、1、2、5 Mbps 6檔碼率,得到150個(gè)壓縮視頻文件。接著用相應(yīng)的解碼器解碼這些文件,得到150個(gè)解碼重建后的YUV文件。
上述過程中使用符合對(duì)應(yīng)編碼標(biāo)準(zhǔn)的開源編解碼器進(jìn)行編解碼。AVC、HEVC、VVC、AV1、AVS3使用的編解碼器分別為x264、x265、VVen C/VVde C、ao m-av1、u AVS3e/u AVS3d。其中x264、x265編解碼器可直接通過FFmpeg調(diào)用,新一代視頻編碼的編解碼器VVen C/VVdeC、ao mav1、u AVS3e/u AVS3d可下載源碼并編譯后使用。
表2 編碼測(cè)試片段使用的命令示例
客觀指標(biāo)的計(jì)算是通過逐一對(duì)比測(cè)試參考序列的源YUV文件和各個(gè)碼率解碼重建后的YUV文件完成的。其中,PSNR和SSIM指標(biāo)的計(jì)算可以通過調(diào)用FFmpeg中的Co mplex Filter模塊進(jìn)行,VMAF評(píng)價(jià)指標(biāo)已開源,可下載并編譯后使用,本次測(cè)試中使用的VMAF模型版本為0.6.1。
圖2 客觀測(cè)試數(shù)據(jù)(局部)
主觀測(cè)試使用的顯示設(shè)備為OLED電視,電視機(jī)對(duì)角線約127厘米,分辨率3840×2160,亮度100尼特,EOTF設(shè)置為ST1886,色域設(shè)置為Rec709。待測(cè)試畫面分辨率為1920×1080,恰好能在電視機(jī)上以像素點(diǎn)一一對(duì)應(yīng)的方式顯示4組畫面。將AV1、AVS3、VVC、HEVC編碼壓縮重建的視頻隨機(jī)分配到畫面左上、右上、左下、右下4個(gè)不同位置,對(duì)5段測(cè)試序列分別使用5種不同的分配順序,并將分配順序記錄下來。
邀請(qǐng)10位測(cè)試者,每位測(cè)試者單獨(dú)進(jìn)行測(cè)試。測(cè)試者采用坐姿,距離電視機(jī)1.5米,水平視角約47度。每位測(cè)試者需觀看風(fēng)景、特寫、肖像、運(yùn)動(dòng)物體、運(yùn)動(dòng)人物5段測(cè)試序列,每段測(cè)試序列有6種碼率,共30段視頻,每段視頻的左上、右上、左下、右下4個(gè)位置分別對(duì)應(yīng)某一種編碼。測(cè)試者每觀看完某一測(cè)試序列的某一碼率后,立刻對(duì)4個(gè)不同位置的畫面進(jìn)行主觀質(zhì)量分(1~5)評(píng)價(jià),并將結(jié)果記錄在表格中,記錄完成后再觀看下一段視頻,這一過程重復(fù)進(jìn)行直至觀看完30段視頻。測(cè)試者在測(cè)試時(shí)并不清楚不同畫面位置所對(duì)應(yīng)的編碼,因此更能保證測(cè)試結(jié)果的準(zhǔn)確性。
測(cè)試結(jié)束后收集10張主觀質(zhì)量評(píng)分表。根據(jù)事先記錄的畫面分配順序,將表格中左上、右上、左下、右下四個(gè)畫面位置還原為對(duì)應(yīng)的視頻編碼,然后計(jì)算每種編碼在每段測(cè)試序列的每種碼率下的得分,最后將得分歸一化至0~100。
圖3 主觀測(cè)試環(huán)境和主觀評(píng)測(cè)表(局部)
由于篇幅所限,不再單獨(dú)展示每段測(cè)試序列的結(jié)果,而是取5段測(cè)試序列結(jié)果的平均值作為最終的客觀指標(biāo)測(cè)試結(jié)果和主觀質(zhì)量評(píng)價(jià)結(jié)果。
從圖4可以看出,主觀和客觀評(píng)測(cè)均顯示在任何壓縮碼率下,新一代視頻編碼的畫面質(zhì)量都優(yōu)于HEVC,更明顯優(yōu)于AVC,而且碼率越低這種優(yōu)勢(shì)越明顯。在小于0.2 Mbps的超低碼率下,AV1、AVS3、VVC編碼的客觀得分雖然稍有差距,但主觀感受上三種編碼畫面均有可分辨的瑕疵,只是瑕疵具有不同的特點(diǎn);當(dāng)碼率升至1 Mbps以上時(shí),AV1、AVS3、VVC壓縮編碼之間的差距就變得極小,在主觀上幾乎無法區(qū)分,此時(shí)只能分辨出HEVC編碼的畫質(zhì)更差一些;如果畫面中運(yùn)動(dòng)內(nèi)容較少,比如在觀看肖像、風(fēng)景測(cè)試序列時(shí),就更難分出差別。值得一提的是,當(dāng)畫面中存在劇烈運(yùn)動(dòng)且在0.1 Mbps的極低碼率下,HEVC出現(xiàn)了畫面崩壞的現(xiàn)象,AV1、AVS3、VVC雖然也會(huì)觀察到明顯的塊狀效應(yīng)和模糊,但至少保證了畫面質(zhì)量在“可觀看”的范圍內(nèi),這也更加體現(xiàn)了新一代壓縮編碼的優(yōu)勢(shì),在超低碼率下能保證更好的觀感。
圖4 五段測(cè)試序列測(cè)試結(jié)果平均值
圖5 PSNR、SSIM、VMAF與主觀評(píng)價(jià)分的關(guān)系
對(duì)PSNR、SSIM測(cè)試結(jié)果進(jìn)行歸一化處理,得到3種客觀指標(biāo)測(cè)試結(jié)果與主觀評(píng)價(jià)結(jié)果關(guān)系的散點(diǎn)圖。如果客觀指標(biāo)測(cè)試結(jié)果與主觀評(píng)價(jià)結(jié)果完全一致,那么所有的點(diǎn)都會(huì)落在直線y=x上。在此規(guī)定指標(biāo)D,其值為散點(diǎn)圖中的每個(gè)點(diǎn)到直線y=x的距離的平方和。D值越小,說明客觀評(píng)價(jià)與主觀評(píng)價(jià)的一致性越高。經(jīng)計(jì)算,PSNR、SSIM、VMAF的D值分別為725.8、616.1、195.6。由此得出在本次實(shí)驗(yàn)中VMAF指標(biāo)的評(píng)測(cè)結(jié)果與主觀評(píng)價(jià)結(jié)果的一致性程度更高,優(yōu)于PSNR和SSIM,能夠在一定程度上更好地預(yù)測(cè)視頻的主觀質(zhì)量。
本文應(yīng)用新一代視頻編碼進(jìn)行視頻壓縮,并在此基礎(chǔ)上對(duì)壓縮畫面進(jìn)行主客觀評(píng)價(jià),探究評(píng)價(jià)結(jié)果的一致性。本次實(shí)驗(yàn)過程中也有可改進(jìn)之處,例如在主觀實(shí)驗(yàn)中如何布局主觀評(píng)分表才能更方便測(cè)試者快速進(jìn)行打分,如何設(shè)置測(cè)試序列時(shí)長(zhǎng)和鏡頭切換速度才能使測(cè)試者既有時(shí)間充分記憶對(duì)比畫面內(nèi)容又能保證其注意力不會(huì)下降。在今后的實(shí)驗(yàn)中,將會(huì)基于測(cè)試者的反饋進(jìn)行改進(jìn)。
新一代視頻編碼與現(xiàn)有視頻編碼相比,壓縮效率和質(zhì)量得到了明顯提升,主觀和客觀評(píng)測(cè)都印證了這一點(diǎn)。相信在不久的將來,新一代視頻編碼會(huì)在電影、電視、互聯(lián)網(wǎng)視頻中得到廣泛的應(yīng)用,屆時(shí)我們就能以更小的存儲(chǔ)代價(jià)和更窄的帶寬需求觀看到質(zhì)量更高的畫面內(nèi)容。另外,隨著VMAF等基于人類視覺特征和機(jī)器學(xué)習(xí)的新型客觀指標(biāo)的完善和推廣,在批量控制視頻質(zhì)量、權(quán)衡碼率和畫質(zhì)的關(guān)系時(shí),客觀評(píng)價(jià)指標(biāo)將成為越來越有力的工具。