楊文兵 邱天 張志鵬 施博凱 張明威
收稿日期:2023-08-31
基金項(xiàng)目:2021年江門(mén)市創(chuàng)新實(shí)踐博士后課題研究資助項(xiàng)目(JMBSH2021B04);廣東省重點(diǎn)領(lǐng)域研發(fā)計(jì)劃(2020B0101030002)
DOI:10.19850/j.cnki.2096-4706.2024.07.017
摘? 要:互聯(lián)網(wǎng)時(shí)代充斥著海量的質(zhì)量參差不齊的視頻,低質(zhì)量的視頻極大地削弱人的視覺(jué)感官體驗(yàn)同時(shí)對(duì)儲(chǔ)存設(shè)備造成極大壓力,進(jìn)行視頻質(zhì)量評(píng)價(jià)(VQA)勢(shì)在必行。深度學(xué)習(xí)理論的發(fā)展為視頻質(zhì)量評(píng)價(jià)提供了新的思路,首先簡(jiǎn)單介紹視頻質(zhì)量評(píng)價(jià)理論知識(shí)和傳統(tǒng)的評(píng)價(jià)方法,其次對(duì)基于深度學(xué)習(xí)的評(píng)價(jià)模型進(jìn)行神經(jīng)網(wǎng)絡(luò)分類(lèi)——2D-CNN和3D-CNN,并分析模型的優(yōu)缺點(diǎn),再次在公開(kāi)數(shù)據(jù)集上分析經(jīng)典模型的性能表現(xiàn),最后對(duì)該領(lǐng)域存在的缺點(diǎn)和不足進(jìn)行總結(jié),并展望未來(lái)的發(fā)展趨勢(shì)。研究表明:公開(kāi)的數(shù)據(jù)集仍不充足;無(wú)參考的評(píng)價(jià)方法最具發(fā)展?jié)摿?,但其在公開(kāi)數(shù)據(jù)集上的性能表現(xiàn)一般,仍有很大的提升空間。
關(guān)鍵詞:深度學(xué)習(xí);視頻質(zhì)量評(píng)價(jià);2D-CNN;3D-CNN
中圖分類(lèi)號(hào):TP391.4;TP18? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2024)07-0073-09
Literature Summary of Video Quality Assessment Methods Based on Deep Learning
YANG Wenbing, QIU Tian, ZHANG Zhipeng, SHI Bokai, ZHANG Mingwei
(Joint Laboratory of Digital Optical Chip of Wuyi University and Institute of Semiconductor Research, Chinese Academy of Sciences, Jiangmen? 529020, China)
Abstract: The Internet era is full of a large number of videos with uneven quality. Low quality videos greatly weaken people's visual and sensory experience and cause great pressure on storage equipment. Therefore, Video Quality Assessment (VQA) is imperative. The development of Deep Learning theory provides a new idea for video quality evaluation, which is of great significance to video quality evaluation. Firstly, the theoretical knowledge of video quality evaluation and traditional evaluation methods are briefly introduced, and then the evaluation models based on Deep Learning are classified by neural network (2D-CNN and 3D-CNN), and the advantages and disadvantages of the models are analyzed. Then the performance of the classical models is analyzed on the open data set. Finally, the defects and deficiencies in this field are summarized, and the future development trend is forecasted. The research shows that the open data set is still insufficient, and the evaluation method without reference has the most potential for development, but its performance on the open data set is average, and there is still a lot of room for improvement.
Keywords: Deep Learning; VQA; 2D-CNN; 3D-CNN
0? 引? 言
視頻在拍攝、壓縮及傳輸過(guò)程中,不可避免地會(huì)出現(xiàn)失真問(wèn)題。這些失真問(wèn)題極有可能會(huì)導(dǎo)致重要信息缺失從而造成難以估量的損失。比如人臉識(shí)別身份核驗(yàn)時(shí),攝像頭采集的圖片像素過(guò)低導(dǎo)致采集圖像錯(cuò)誤從而識(shí)別失敗;氣象衛(wèi)星拍攝的氣象圖傳輸過(guò)程中失真,導(dǎo)致氣象預(yù)測(cè)不準(zhǔn)。在監(jiān)控系統(tǒng)中,視頻質(zhì)量評(píng)價(jià)(video quality assessment, VQA)可以預(yù)測(cè)設(shè)備狀態(tài),從而及時(shí)對(duì)存在問(wèn)題的設(shè)備進(jìn)行維修或更換,在網(wǎng)絡(luò)直播過(guò)程中,通過(guò)視頻質(zhì)量評(píng)價(jià),可以改善終端用戶(hù)體驗(yàn)[1]。視頻質(zhì)量評(píng)價(jià)已經(jīng)成為小紅書(shū)、Soul、抖音等視頻播放平臺(tái)必不可少的一個(gè)環(huán)節(jié),這些平臺(tái)相繼進(jìn)行評(píng)價(jià)算法研究和系統(tǒng)開(kāi)發(fā)。
基于人工特征的傳統(tǒng)的VQA方法已經(jīng)不適應(yīng)規(guī)模龐大的視頻數(shù)據(jù)質(zhì)量評(píng)價(jià),同時(shí),種類(lèi)繁多、場(chǎng)景復(fù)雜、來(lái)源多變的視頻需要不同的模型進(jìn)行視頻質(zhì)量評(píng)價(jià),以確保結(jié)果的準(zhǔn)確性。本文對(duì)近年來(lái)國(guó)內(nèi)外富有影響力的VQA方法及模型進(jìn)行剖析,總結(jié)其算法原理及優(yōu)缺點(diǎn),為VQA的研究提供一定的參考資料。
簡(jiǎn)言之,本文的貢獻(xiàn)在于:1)系統(tǒng)總結(jié)了近年來(lái)基于深度學(xué)習(xí)的VQA經(jīng)典模型,并分析其評(píng)價(jià)原理和算法性能。2)在典型的公開(kāi)數(shù)據(jù)集上進(jìn)行對(duì)比,在單一數(shù)據(jù)集上找到近年來(lái)性能最好的算法。3)深入研究經(jīng)典模型的優(yōu)缺點(diǎn),對(duì)VQA的發(fā)展現(xiàn)狀的和發(fā)展趨勢(shì)進(jìn)行展望。
1? 評(píng)價(jià)方法概述
評(píng)價(jià)方法可分為主觀評(píng)價(jià)和客觀評(píng)價(jià),主觀評(píng)價(jià)主要依據(jù)一定條件下的人為打分,主觀平均得分(mean opinion score, MOS)或主觀平均得分差異(Differential Mean Opinion Score, DMOS)即為主觀評(píng)價(jià)結(jié)果,客觀評(píng)價(jià)主要依靠計(jì)算機(jī)算法進(jìn)行計(jì)算,最后獲得的質(zhì)量分?jǐn)?shù)即為評(píng)價(jià)結(jié)果??陀^評(píng)價(jià)方法分三種類(lèi)型:全參考(Full Reference, FR)、半?yún)⒖迹≧educed Reference, RR)和無(wú)參考(No Reference, NR)。FR需要獲取完整參考視頻;RR僅需部分參考視頻;而NR則不需要,只需要待評(píng)價(jià)視頻。
在實(shí)際情況中,獲取原始視頻再進(jìn)行質(zhì)量評(píng)價(jià)需要大量的經(jīng)濟(jì)和時(shí)間成本,而無(wú)參考的評(píng)價(jià)方法省去這一環(huán)節(jié)從而可以大大降低評(píng)價(jià)過(guò)程中的經(jīng)濟(jì)和時(shí)間成本,因而在VQA領(lǐng)域,無(wú)參考的評(píng)價(jià)方法具有很大潛力和優(yōu)勢(shì)。
1.1? 主觀評(píng)價(jià)
主觀評(píng)價(jià)結(jié)果取決于觀察者肉眼主觀感受。因此評(píng)價(jià)結(jié)果不確定性較高,具體表現(xiàn)在:受試者對(duì)質(zhì)量較好/差的視覺(jué)信號(hào)的評(píng)價(jià)一致性較高,而對(duì)于質(zhì)量一般的視覺(jué)信號(hào)的評(píng)價(jià)一致性相對(duì)較低[2]。根據(jù)ITU-R BT.500 [3]的建議,通常使用如表1所示的方法進(jìn)行主觀評(píng)價(jià)。DSIS代表雙刺激損傷標(biāo)度法、DSCQS代表雙刺激連續(xù)質(zhì)量標(biāo)度法、SSCQE代表單刺激連續(xù)質(zhì)量評(píng)價(jià)法、SDSCE代表同時(shí)雙刺激連續(xù)質(zhì)量評(píng)價(jià)法。評(píng)價(jià)基本流程是讓觀察者在一定時(shí)間內(nèi)連續(xù)觀看多個(gè)測(cè)試序列,其中包括了原始參考視頻和失真視頻。然后讓觀察者對(duì)視頻序列的質(zhì)量進(jìn)行評(píng)分,最后使用平MOS或DMOS來(lái)表示最終的質(zhì)量得分,判斷視頻質(zhì)量。
1.2? 客觀評(píng)價(jià)
視頻質(zhì)量主觀評(píng)價(jià)方法由于其低效率和高成本已經(jīng)不再適用于當(dāng)前的眾多視頻質(zhì)量評(píng)價(jià)場(chǎng)景,比如監(jiān)控場(chǎng)景和網(wǎng)絡(luò)視頻播放場(chǎng)景。主觀評(píng)價(jià)結(jié)果受多因素影響,如觀測(cè)場(chǎng)地環(huán)境、觀看時(shí)長(zhǎng)、個(gè)人身體及情緒狀況和視頻播放順序。同時(shí)時(shí)間掩蔽效應(yīng)[4]極易影響人類(lèi)視覺(jué)系統(tǒng),從而使評(píng)價(jià)結(jié)果出現(xiàn)偏差。因此,在實(shí)際情況中需要一種客觀的、易于實(shí)現(xiàn)的視頻客觀質(zhì)量評(píng)價(jià)方法。如圖1所示,在視頻質(zhì)量客觀評(píng)價(jià)方法中,全參考評(píng)價(jià)方法高度依賴(lài)原視頻(參考視頻),需要在像素級(jí)上將待評(píng)價(jià)視頻和其對(duì)應(yīng)的原視頻進(jìn)行像素比對(duì)從而獲得評(píng)價(jià)結(jié)果,評(píng)價(jià)結(jié)果極有可能和主觀評(píng)價(jià)結(jié)果不同;半?yún)⒖嫉囊曨l質(zhì)量評(píng)價(jià)方法部分依賴(lài)原始視頻(參考視頻),通過(guò)視頻特征提取、特征比對(duì)進(jìn)行評(píng)價(jià);而無(wú)參考的評(píng)價(jià)方法,完全不需要原視頻進(jìn)行模型訓(xùn)練,直接調(diào)用訓(xùn)練好的模型就能得到評(píng)價(jià)結(jié)果。
2? 傳統(tǒng)的評(píng)價(jià)算法
傳統(tǒng)客觀評(píng)價(jià)方法是通過(guò)使用計(jì)算機(jī)算法對(duì)視頻進(jìn)行自動(dòng)分析和評(píng)估,對(duì)同一段測(cè)試序列,主客觀評(píng)價(jià)結(jié)果要一致??梢詮念A(yù)測(cè)的單調(diào)性、一致性、穩(wěn)定性和準(zhǔn)確性來(lái)衡量評(píng)價(jià)算法本身的優(yōu)劣[5]。傳統(tǒng)評(píng)價(jià)算法的原理、區(qū)別和經(jīng)典模型如表2所示。
最初的全參考評(píng)估方法采用(PSNR)峰值信噪比-均方差(MSE)[10]和ST-MAD [7]方法,在像素級(jí)上進(jìn)行像素比對(duì),最后得出質(zhì)量評(píng)價(jià)結(jié)果,一般直接使用參考視頻和待評(píng)價(jià)視頻同一幀相同坐標(biāo)上的像素差的平方根作為依據(jù),這能直接反應(yīng)視頻質(zhì)量的波動(dòng)情況。這類(lèi)方法計(jì)算過(guò)程簡(jiǎn)單,能夠一定程度反應(yīng)圖像質(zhì)量狀況,因此至今仍然被廣泛應(yīng)用。但其未充分考慮人眼視覺(jué)特性,評(píng)價(jià)結(jié)果往往與主觀評(píng)價(jià)結(jié)果不相符。其后,部分學(xué)者充分考慮人眼視覺(jué)特性(human visual system, HVS)算法進(jìn)行改進(jìn),仿人眼特性的算法在一定程度上提升了算法的準(zhǔn)確性。文獻(xiàn)[11]提出了支持向量機(jī)(Support Vector Machine, SVM)的算法,算法效果仍不理想。MOVIE [6]算法的提出使得基于全參考的評(píng)價(jià)方法在性能上提升了一大截,成為全參考評(píng)價(jià)的經(jīng)典算法。但絕大多數(shù)情況下,參考視頻很難獲得,這大大降低了該算法的實(shí)用性。基于結(jié)構(gòu)相似性(Structural Similarity, SSIM)IQA [8]方法是里程碑式的最經(jīng)典方法之一,它極大提升了算法的準(zhǔn)確性。該方法不再把圖像中像素信息改變作為研究的重點(diǎn),而是將評(píng)價(jià)重心轉(zhuǎn)移到基于結(jié)構(gòu)信息的主觀感知上來(lái),使得客觀評(píng)價(jià)結(jié)果更貼近相同條件下的主觀評(píng)價(jià)結(jié)果,極大地提高了評(píng)價(jià)算法準(zhǔn)確度和一致性。最初的無(wú)參考方法主要用于評(píng)價(jià)壓縮編碼失真視頻,其設(shè)計(jì)難度較大。針對(duì)H264壓縮失真視頻,Brandao等人[9]提出了一種無(wú)參考評(píng)價(jià)方法,利用最大似然估計(jì)和線性預(yù)測(cè)結(jié)合來(lái)進(jìn)行參數(shù)估計(jì),最后獲得預(yù)測(cè)質(zhì)量。
3? 基于深度學(xué)習(xí)的評(píng)價(jià)算法
視頻是由多幅連續(xù)圖像構(gòu)成,包含了圖像的運(yùn)動(dòng)信息。人眼識(shí)別的頻率有限,單位時(shí)間內(nèi)看到的圖像數(shù)目超過(guò)25張/秒時(shí)會(huì)給人一種畫(huà)面在運(yùn)動(dòng)的感覺(jué),最初的視頻質(zhì)量評(píng)價(jià)方法大多源自圖片質(zhì)量評(píng)價(jià)方法。
2006年發(fā)表的文獻(xiàn)[12]開(kāi)創(chuàng)性地將深度學(xué)習(xí)應(yīng)用到客觀評(píng)價(jià)上來(lái),這是卷積神經(jīng)網(wǎng)絡(luò)和視頻質(zhì)量評(píng)價(jià)方法的首次結(jié)合,該方法有效解決了單刺激連續(xù)質(zhì)量評(píng)估方法的預(yù)測(cè)問(wèn)題。2014年,文獻(xiàn)[13]提出了將CNN與無(wú)參考圖像質(zhì)量評(píng)價(jià)相結(jié)合,這些算法推動(dòng)了圖像視頻質(zhì)量評(píng)價(jià)算法進(jìn)步?;趫D像和視頻之間的聯(lián)系的2D-CNN(Two-Dimensional Convolutional Neural Network, 2D-CNN)主要是將視頻的每一幀獨(dú)立開(kāi)來(lái)作為輸入,這忽略各幀之間的關(guān)聯(lián)信息,難以捕獲時(shí)間信息[1]。3D-CNN以連續(xù)多幀作為輸入,這些圖片之間保持了連續(xù)性和連貫性,具有了時(shí)域信息,這能夠提取到更具表達(dá)性的特征。表3是2D-CNN和3D-CNN的區(qū)別。
由表3可知,3D-CNN能夠捕獲視頻中的空間和時(shí)間的特征信息,相比于2D-CNN,其更適合進(jìn)行視頻質(zhì)量評(píng)價(jià)分析處理。
而2D-CNN由于其自身缺陷,需要人為引入遷移學(xué)習(xí)和其他時(shí)空特征提取技術(shù)才能使之適合視頻質(zhì)量評(píng)價(jià)。在基于深度學(xué)習(xí)的視頻質(zhì)量評(píng)價(jià)方面,根據(jù)有無(wú)參考視頻,分為全參考和半?yún)⒖?,相比于傳統(tǒng)客觀評(píng)價(jià)方法缺少了半?yún)⒖嫉念?lèi)型;根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)模型大致可分為采用基于2D-CNN的方法和基于3D-CNN的方法。
3.1? 全參考評(píng)價(jià)方法
全參考視頻評(píng)價(jià)方法要求必須獲取完整的原始參考視頻與失真視頻,圖2是FR-VQA流程圖。評(píng)價(jià)過(guò)程依次為:預(yù)處理、特征提取、特征融合和回歸模型。預(yù)處理即對(duì)輸入的視頻數(shù)據(jù)的分辨率和時(shí)長(zhǎng)進(jìn)行歸一化處理,同時(shí)設(shè)定輸入格式,2D-CNN以一幀圖像作為輸入,3D-CNN以連續(xù)幾秒的視頻塊作為輸入。特征提取過(guò)程則是利用卷積運(yùn)算提取視頻特征。特征融合時(shí)采用級(jí)聯(lián)的方式將參考視頻特征和失真視頻特征進(jìn)行融合;最后以融合后的時(shí)空特征和原始參考視頻的MOS作為回歸模型的輸入,最后得到失真視頻的質(zhì)量分?jǐn)?shù)。
客觀評(píng)價(jià)得到的結(jié)果極易與主觀打分不一致,因此在評(píng)價(jià)模型中很有必要引入人類(lèi)視覺(jué)系統(tǒng)。如表4所示,Kim等人于2018年提出一種評(píng)估算法(Deep VQA)[14],該算法引入卷積神經(jīng)聚合網(wǎng)絡(luò)和注意力機(jī)制[15,16],一定程度上提高了模型評(píng)估的準(zhǔn)確性。鑒于2D-CNN難以保留時(shí)域信息,Xu等人提出一種基于3D-CNN的評(píng)價(jià)方法C3DVQA [17],該方法使用3D卷積計(jì)算時(shí)空特征,模擬人類(lèi)視覺(jué)系統(tǒng),成功捕獲了時(shí)域信息,提高了模型性能。在深度學(xué)習(xí)領(lǐng)域,充足數(shù)據(jù)集一直是進(jìn)行模型訓(xùn)練的一個(gè)先決條件。為了解決參考視頻樣本不足這個(gè)問(wèn)題,Zhang等人[18]于2020年提出一種基于特征遷移學(xué)習(xí)的全參考評(píng)價(jià)模型,該模型在一個(gè)特定特征空間中進(jìn)行失真視頻預(yù)處理轉(zhuǎn)移,用特征遷移的方法豐富失真樣本,有效解決了因訓(xùn)練樣本不充足的問(wèn)題,提升了預(yù)測(cè)的準(zhǔn)確性。而Li [19]等人首次評(píng)估復(fù)雜場(chǎng)景下的人體運(yùn)動(dòng)質(zhì)量的模型,該模型主要依靠參考視頻和失真視頻特征圖的局部相似度進(jìn)行評(píng)價(jià)。由于未充分考慮運(yùn)動(dòng)過(guò)程中的不確定性,該模型評(píng)估效果一般。
全參考的視頻質(zhì)量評(píng)價(jià)方法極度依賴(lài)參考視頻,而參考視頻的獲取成本很高,同時(shí)用于訓(xùn)練模型的公開(kāi)規(guī)范的數(shù)據(jù)集不充足,這些原因?qū)е略谡鎸?shí)場(chǎng)景下,基于深度學(xué)習(xí)的全參考視頻質(zhì)量評(píng)價(jià)方式不太適用于現(xiàn)實(shí)場(chǎng)景下的視頻質(zhì)量評(píng)價(jià)。
3.2? 無(wú)參考評(píng)價(jià)方法
無(wú)參考方法不需要原始視頻,通過(guò)失真視頻的自身特征就能預(yù)測(cè)質(zhì)量分?jǐn)?shù)。無(wú)參考方法最具實(shí)用價(jià)值,有著非常廣泛的應(yīng)用范圍。圖3是基于深度學(xué)習(xí)的無(wú)參考方法的一般化流程圖。
專(zhuān)家學(xué)者對(duì)無(wú)參考評(píng)價(jià)模型提出兩點(diǎn)要求:一是普適于任意類(lèi)型的失真,二是預(yù)測(cè)結(jié)果與人類(lèi)主觀視覺(jué)的感知一致。表5列舉了無(wú)參考評(píng)價(jià)經(jīng)典算法,這些算法建立在解決前面算法遇到的困境基礎(chǔ)上,算法的性能逐步穩(wěn)定提升。SACONVA [20]算法將視頻分塊之后提取特征,符合人類(lèi)視覺(jué)感知習(xí)慣,但樣本數(shù)據(jù)少、標(biāo)簽亂等問(wèn)題影響了算法性能。文獻(xiàn)[21-25]中提出的算法均旨在將視頻時(shí)空特征融合使得評(píng)價(jià)結(jié)果更貼近現(xiàn)實(shí),部分算法考慮人類(lèi)視覺(jué)效應(yīng),但是基于2D-CNN的算法需要手動(dòng)提取時(shí)間運(yùn)動(dòng)特征,在此過(guò)程中會(huì)丟失重要信息。LSTM [26]算法具有記憶功能,能保存評(píng)價(jià)預(yù)測(cè)結(jié)果,使得該算法在真實(shí)數(shù)據(jù)集上表現(xiàn)良好。
3.3? 基于2D-CNN的方法
基于2D-CNN(二維卷積神經(jīng)網(wǎng)絡(luò))的視頻質(zhì)量評(píng)價(jià)方法主要是利用卷積神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)視頻內(nèi)容的特征,并根據(jù)這些特征來(lái)評(píng)估視頻的質(zhì)量。其基本流程為:1)數(shù)據(jù)準(zhǔn)備:收集包含不同質(zhì)量的視頻樣本,包括原始高質(zhì)量視頻和壓縮、降噪等處理后的低質(zhì)量視頻。2)數(shù)據(jù)預(yù)處理:對(duì)視頻樣本進(jìn)行預(yù)處理,包括圖像幀提取、尺寸調(diào)整等。3)特征提?。菏褂?D-CNN模型來(lái)學(xué)習(xí)視頻的特征表示。4)特征融合:將提取的特征融合成一個(gè)視頻級(jí)別的特征表示。5)質(zhì)量評(píng)估:將視頻的特征表示映射到對(duì)應(yīng)的質(zhì)量評(píng)分。6)模型訓(xùn)練和優(yōu)化:使用訓(xùn)練集進(jìn)行模型訓(xùn)練,并通過(guò)交叉驗(yàn)證等方法進(jìn)行模型優(yōu)化和參數(shù)調(diào)整。7)模型評(píng)估。
其網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)點(diǎn)為:1)2D-CNN模型在學(xué)習(xí)視頻特征表示方面表現(xiàn)出色。2)能夠?qū)W習(xí)輸入特征與視頻質(zhì)量之間的復(fù)雜非線性關(guān)系。3)支持無(wú)參考評(píng)價(jià)。4)模型可以利用幀序列的時(shí)空關(guān)系,捕捉到視頻中的動(dòng)作和運(yùn)動(dòng)信息,從而更好地反映視頻質(zhì)量的感知。
其缺陷在于其數(shù)據(jù)需求量大、訓(xùn)練復(fù)雜度高、光照和噪聲敏感,光照變化和噪聲可能會(huì)對(duì)評(píng)價(jià)結(jié)果產(chǎn)生一定影響。最大的問(wèn)題是,在進(jìn)行二維解算時(shí)會(huì)造成時(shí)域信息丟失。文獻(xiàn)[25,27]用循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)解決時(shí)序問(wèn)題,通過(guò)充分利用時(shí)間信息提取特征來(lái)提高模型性能,在自然失真視頻數(shù)據(jù)集取得較好的預(yù)測(cè)效果?;?D-CNN的評(píng)價(jià)方法主要有:1)V-BLIINDS [28](Video BLIINDS),該模型通過(guò)卷積和池化層來(lái)提取視頻的特征表示,然后將這些特征傳遞給全連接層進(jìn)行質(zhì)量評(píng)分預(yù)測(cè)。2)VMAF [29](Video Multimethod Assessment Fusion),它使用多個(gè)基于2D-CNN的模型來(lái)預(yù)測(cè)視頻的質(zhì)量,然后將多個(gè)模型的評(píng)分進(jìn)行融合得到最終的質(zhì)量評(píng)分。
3)P-Net(Perceptual Net)[30],它通過(guò)學(xué)習(xí)來(lái)捕捉視頻中的感知失真,并將其與主觀質(zhì)量評(píng)分進(jìn)行關(guān)聯(lián)。4)VGG-QA [31],其在訓(xùn)練階段使用主觀質(zhì)量評(píng)分和視頻幀之間的誤差作為損失函數(shù)進(jìn)行優(yōu)化。目前通過(guò)手動(dòng)提取時(shí)域特征能夠有效改善2D卷積上時(shí)域信息丟失問(wèn)題,但數(shù)據(jù)預(yù)處理很復(fù)雜,效率不高。
3.4? 基于3D-CNN的方法
3D-CNN不需要手動(dòng)加入時(shí)域特征就能效捕捉視頻對(duì)象的時(shí)空信息,其更適合于視頻質(zhì)量評(píng)價(jià)。3D-CNN的輸入多了一個(gè)時(shí)間維度,這個(gè)維度是視頻上的連續(xù)幀或立體圖像中的不同切片。
如表6所示,基于3D-CNN的評(píng)價(jià)方法主要有:視頻多任務(wù)端到端優(yōu)化的深度神經(jīng)網(wǎng)絡(luò)(Video Multi-Task End-to-End Optimized Neural Network, V-MEON)[32],
Hou等人提出的一種三維深度卷積神經(jīng)網(wǎng)絡(luò)[33],Yang等人提出的基于3D-CNN的立體視頻質(zhì)量評(píng)估(Stereoscopic Video Quality Assessment, SVQA)框架[34],Yang等人提出的針對(duì)VR視頻的基于3D-CNN的端到端網(wǎng)絡(luò)框架[35],R-C3D [36]等。
這些方法利用3D-CNN模型的時(shí)空建模和自動(dòng)特征提取能力,并結(jié)合其他方法或技術(shù),能夠較好地評(píng)估視頻質(zhì)量。它們能夠捕捉視頻的動(dòng)態(tài)特征、提供準(zhǔn)確的評(píng)估結(jié)果,并具有較好的細(xì)粒度性能和魯棒性。然而,具體選擇哪種方法還需根據(jù)具體任務(wù)和數(shù)據(jù)情況進(jìn)行綜合考慮。
4? 評(píng)價(jià)數(shù)據(jù)集
在基于傳統(tǒng)評(píng)價(jià)方法的評(píng)價(jià)過(guò)程中,這些公開(kāi)統(tǒng)一、失真類(lèi)型多樣的數(shù)據(jù)集用來(lái)驗(yàn)證算法的性能;在基于深度學(xué)習(xí)的評(píng)價(jià)模型中,這些數(shù)據(jù)集用來(lái)訓(xùn)練模型和驗(yàn)證算法的性能。這些數(shù)據(jù)集包括合成失真數(shù)據(jù)集LIVE VQA [37],CSIQ [38],VCD2014 [39],LIVE-Q [40],真實(shí)失真數(shù)據(jù)集KonIQ-1k [28],YouTube UGC [41]等。這些真實(shí)失真的數(shù)據(jù)庫(kù)更加人性化,提供圖像信息,方便科研人員統(tǒng)計(jì)分析。下文中提到的算法均采用表7所示的數(shù)據(jù)集來(lái)驗(yàn)證其算法的優(yōu)越性和可靠程度。
5? 算法評(píng)價(jià)指標(biāo)
對(duì)于如何評(píng)價(jià)一個(gè)視頻質(zhì)量評(píng)價(jià)算法的性能,視頻質(zhì)量專(zhuān)家組(Video Quality Experts Group)建議[42]從單調(diào)性、準(zhǔn)確性、一致性[43]三方面進(jìn)行考慮??陀^評(píng)價(jià)模型的指標(biāo)是基于客觀模型輸出的預(yù)測(cè)質(zhì)量分?jǐn)?shù)與主觀質(zhì)量分?jǐn)?shù)間的單調(diào)性、準(zhǔn)確性和一致性。本文提到的算法也用這些指標(biāo)評(píng)價(jià)算法優(yōu)劣和準(zhǔn)確性,常用的評(píng)價(jià)指標(biāo)有以下幾個(gè)。
5.1? 皮爾森線性相關(guān)系數(shù)
皮爾森線性相關(guān)系數(shù)(Pearson Linear Correlation Coefficient, PLCC)[44],表示客觀預(yù)測(cè)值和主觀打分之間的線性相關(guān)性,如式(1):
(1)
其中,N表示失真視頻的數(shù)量,Ci表示第i個(gè)視頻的主觀評(píng)價(jià)分?jǐn)?shù),Di表示第i個(gè)視頻的質(zhì)量預(yù)測(cè)分?jǐn)?shù); 表示主觀打分值均值; 表示客觀預(yù)測(cè)值均值。PLCC表示模型評(píng)價(jià)結(jié)果的準(zhǔn)確性,PLCC值越趨近于1,預(yù)測(cè)結(jié)果越準(zhǔn)確;反之則預(yù)測(cè)越不準(zhǔn)確。
5.2? 斯皮爾曼秩序相關(guān)系數(shù)
斯皮爾曼秩序相關(guān)系數(shù)(Spearman Rank Order Correlation Coefficient, SROCC)[45]是非線性指標(biāo),其根據(jù)原始數(shù)據(jù)的排序位置進(jìn)行計(jì)算,如式(2):
(2)
其中,Di表示兩個(gè)變量的秩次;N表示變量的數(shù)量。SROCC表示模型預(yù)測(cè)值與主觀打分的靠近趨勢(shì),也能反映變量單調(diào)變化情況,SROCC取值[-1,1],值越接近于1說(shuō)明預(yù)測(cè)分?jǐn)?shù)與主觀打分相關(guān)正相關(guān)性越高。
5.3? 均方根誤差
均方根誤差(Root Mean Square Error, RMSE)表示模型預(yù)測(cè)分?jǐn)?shù)與主觀質(zhì)量分?jǐn)?shù)的差異大小,如式(3):
(3)
其中,Ci表示模型預(yù)測(cè)值,Di表示真實(shí)值(主觀打分值均值),RMSE用來(lái)衡量預(yù)測(cè)可靠性、算法的穩(wěn)定性,其值越小越好。
6? 模型性能分析
6.1? 傳統(tǒng)模型性能分析
如前面章節(jié)所述,選用PLCC和SROCC分別衡量算法的相關(guān)性和單調(diào)性。表8中數(shù)據(jù)由各自論文提供。無(wú)固定名稱(chēng)算法以其第一作者名字代替,值保留小數(shù)點(diǎn)后三位,性能最好的算法數(shù)值用加粗標(biāo)出。對(duì)于傳統(tǒng)方法,公開(kāi)的評(píng)價(jià)數(shù)據(jù)集中視頻失真類(lèi)型均為人為失真類(lèi)型,故傳統(tǒng)方法大多以人為失真數(shù)據(jù)集LIVE-VQA為實(shí)驗(yàn)標(biāo)準(zhǔn)數(shù)據(jù)集。表中,Wireless和IP等代表不同的失真類(lèi)型的視頻。
Wireless表示基于H.264壓縮失真;IP表示無(wú)線網(wǎng)絡(luò)傳輸錯(cuò)誤失真;MPEG-2表示MPEG-2壓縮失真類(lèi)型;H.264表示H.264壓縮失真類(lèi)型;ALL表示在整個(gè)LIVE-VQA數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn),—表示數(shù)據(jù)缺失。
如表8所示,基于運(yùn)動(dòng)信息的全參考方法MOVIE和ST-MAD中,ST-MAD模型在失真類(lèi)型為IP的數(shù)據(jù)集上表現(xiàn)較差,SROCC和PLCC均不到0.800;MOVIE模型僅在Wireless失真數(shù)據(jù)集上表現(xiàn)較好,兩個(gè)指標(biāo)均在0.800以上。在整個(gè)數(shù)據(jù)集上這兩個(gè)算法SROCC和PLCC都達(dá)到0.780以上。這表明運(yùn)動(dòng)信息是有效的,但效果仍然不理想。而基于結(jié)構(gòu)相似性的SSIM算法是半?yún)⒖冀?jīng)典算法,其在整個(gè)數(shù)據(jù)集上性能優(yōu)越,SROCC和PLCC分別達(dá)到了0.934和0.865。
6.2? 基于深度學(xué)習(xí)的模型性能分析
自然失真的數(shù)據(jù)集更符合現(xiàn)實(shí)環(huán)境,而在此基礎(chǔ)上進(jìn)行質(zhì)量評(píng)價(jià)更加具有挑戰(zhàn)性。如表9所示,與傳統(tǒng)的典型算法還有無(wú)參考的基于深度學(xué)習(xí)算法相比,加入3D卷積的全參考型C3DVQA算法在整體上有最好的評(píng)估效果,在LIVE和CSIQ數(shù)據(jù)庫(kù)上的PLCC值和SROCC值都達(dá)到0.900以上的評(píng)估值,這是非??捎^的;同時(shí),全參考的評(píng)價(jià)方法整體上性能表現(xiàn)比無(wú)參考的評(píng)價(jià)方法優(yōu)越,無(wú)參考的評(píng)價(jià)方法面臨的最大的問(wèn)題就是,在真實(shí)失真的數(shù)據(jù)集上性能表現(xiàn)較差。2D卷積的無(wú)參考型算法大都表現(xiàn)均勻良好,但是性能不算突出,這歸功于2D-CNN優(yōu)秀的特征提取能力,但評(píng)估效果都未有達(dá)到0.900以上的,遠(yuǎn)低于全參考型模型。而無(wú)參考的3D-CNN算法表現(xiàn)不盡如人意,PLCC僅有0.785,和全參考的3D-CNN相差較多。
6.3? 近年來(lái)優(yōu)秀的算法
表10分別為近5年來(lái)(2018—2023)VQA在典型的真實(shí)失真的數(shù)據(jù)集KoNViD-1K、LIVE-VQC、YouTube-UGC上最好的性能表現(xiàn)。
由表10可知,DOVER(end-to-end)算法在3個(gè)真實(shí)失真的數(shù)據(jù)集上均取得了最好的性能表現(xiàn),PLCC值在0.900左右上下浮動(dòng)。
7? 結(jié)? 論
基于深度學(xué)習(xí)的評(píng)價(jià)模型在訓(xùn)練過(guò)程中需要大量的訓(xùn)練和預(yù)測(cè)視頻數(shù)據(jù),然而目前規(guī)范性的公開(kāi)視頻數(shù)據(jù)集還不足以支撐模型訓(xùn)練。另一方面,自制視頻數(shù)據(jù)集代價(jià)高昂,難以達(dá)到。樣本數(shù)據(jù)集不充足導(dǎo)致評(píng)估效果不佳。大多模型采用遷移學(xué)習(xí),通過(guò)特征遷移,以圖像特征豐富視頻特征,或以遷移模型提高評(píng)估能力。
實(shí)踐證明,基于深度學(xué)習(xí)的視頻質(zhì)量評(píng)價(jià)方法比傳統(tǒng)的方法更高效、精確,已經(jīng)成為VQA研究人員的主要研究方向。對(duì)于視頻分析而言,3D-CNN比2D-CNN更適合于視頻質(zhì)量分析。3D-CNN適用于復(fù)雜的立體視頻、全方位視頻以及VR視頻,同時(shí)消耗資源較少。
VQA的研究還有許多問(wèn)題,需要進(jìn)一步解決,具體如下:1)工業(yè)界統(tǒng)一的需要評(píng)價(jià)標(biāo)準(zhǔn)和方法。視頻質(zhì)量評(píng)價(jià)是視頻編解碼領(lǐng)域一個(gè)至關(guān)重要的課題,同時(shí)具有極其重要的現(xiàn)實(shí)意義。隨著深度學(xué)習(xí)的快速發(fā)展,越來(lái)越多的學(xué)者提出了各種算法模型進(jìn)行視頻質(zhì)量評(píng)價(jià),理論發(fā)展的目的是應(yīng)用于實(shí)踐。因此,提出一個(gè)學(xué)者們公認(rèn)的統(tǒng)一的高效的、準(zhǔn)確率高的算法;一些統(tǒng)一的合理的評(píng)價(jià)指標(biāo)是視頻質(zhì)量評(píng)價(jià)算法研究的必然趨勢(shì)。2)擴(kuò)大現(xiàn)有公共數(shù)據(jù)庫(kù)是必然趨勢(shì)。就目前而言,現(xiàn)存的用于視頻質(zhì)量評(píng)價(jià)的統(tǒng)一的公共數(shù)據(jù)庫(kù)數(shù)量稀少,并且每一個(gè)數(shù)據(jù)庫(kù)中現(xiàn)存的視頻數(shù)據(jù)量較少,完全不能滿(mǎn)足深度學(xué)習(xí)數(shù)據(jù)集的要求,擴(kuò)大公共數(shù)據(jù)庫(kù)是必然趨勢(shì)。3)NR-VQA是必然趨勢(shì)。無(wú)參考的方法不需要原視頻作為對(duì)照,這極大地簡(jiǎn)化了評(píng)價(jià)的過(guò)程,同時(shí)基于深度學(xué)習(xí)的視頻質(zhì)量評(píng)價(jià)方法能夠完美契合無(wú)參考的評(píng)價(jià)方法,NR-VQA是必然趨勢(shì),提升無(wú)參考評(píng)價(jià)模型在真實(shí)失真的數(shù)據(jù)集上的性能是當(dāng)務(wù)之急。4)音視頻加字幕聯(lián)合評(píng)價(jià)是重要方向。在一段高質(zhì)量視頻里面,音頻、視頻還有字幕是和諧地組合在一起的,聲音和視頻同步也是視頻質(zhì)量的基本要求。因此視頻質(zhì)量評(píng)價(jià)的過(guò)程中,除了評(píng)價(jià)視頻每一幀的圖像質(zhì)量,音視頻聯(lián)合評(píng)價(jià)也是一個(gè)極其重要的方向。
參考文獻(xiàn):
[1] 程茹秋,余燁,石岱宗,等.圖像與視頻質(zhì)量評(píng)價(jià)綜述 [J].中國(guó)圖象圖形學(xué)報(bào),2022,27(5):1410-1429.
[2] ZHANG W X,MA K D,ZHAI G T,et al. Uncertainty-Aware Blind Image Quality Assessment in the Laboratory and Wild [J].IEEE Transactions on Image Processing,2021,30:3474-3486.
[3] 國(guó)家廣播電影電視總局標(biāo)準(zhǔn)化規(guī)劃研究所.數(shù)字電視圖像質(zhì)量主觀評(píng)價(jià)方法:GY/T 134-1998 [S].北京:國(guó)家廣播電影電視總局標(biāo)準(zhǔn)化規(guī)劃研究所,1998.
[4] SUCHOW J W,ALVAREZ G A. Motion Silences Awareness of Visual Change [J].Current Biology,2011,21(2):140-143.
[5] 譚婭婭,孔廣黔.基于深度學(xué)習(xí)的視頻質(zhì)量評(píng)價(jià)研究綜述 [J].計(jì)算機(jī)科學(xué)與探索,2021,15(3):423-437.
[6] SESHADRINATHAN K,BOVIK A C. Motion Tuned Spatio-Temporal Quality Assessment of Natural Videos [J].IEEE Transactions on Image Processing,2010,19(2):335-350.
[7] VU P V,VU C T,CHANDLER D M. A Spatiotemporal Most-Apparent-Distortion Model for Video Quality Assessment [C]//2011 18th IEEE International Conference on Image Processing.Brussels:IEEE,2011:2505-2508.
[8] TAGLIASACCHI M,VALENZISE G,NACCARI M,et al. A Reduced-Reference Structural Similarity Approximation for Videos Corrupted by Channel Errors [J].Multimedia Tools and Applications,2010,48(3):471-492.
[9] BRAND?O T,QUELUZ T R M P. No-Reference Quality Assessment of H.264/AVC Encoded Video [J].IEEE Transactions on Circuits and Systems for Video Technology,2010,20(11):1437-1447.
[10] QIAN J S,WU D,LI L D,et al. Image Quality Assessment Based on Multi-Scale Representation of Structure [J].Digital Signal Processing,2014,33:125-133.
[11] MOORTHY A K,BOVIK A C. A Two-Step Framework for Constructing Blind Image Quality Indices [J].IEEE Signal Processing Letters,2010,17(5):513-516.
[12] CALLET P L,VIARD-GAUDIN C,BARBA D. A Convolutional Neural Network Approach for Objective Video Quality Assessment [J].IEEE Transactions on Neural Networks,2006,17(5):1316-1327.
[13] KANG L,YE P,LI Y,et al. Convolutional Neural Networks for No-Reference Image Quality Assessment [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:1733-1740.
[14] KIM W,KIM J,AHN S,et al. Deep Video Quality Assessor: From Spatio-Temporal Visual Sensitivity to a Convolutional Neural Aggregation Network [C]//Computer Vision – ECCV 2018: 15th European Conference.Munich:Springer-Verlag,2018:224-241.
[15] VINYALS O,BENGIO S,KUDLUR M. Order Matters: Sequence to Sequence for Sets [J/OL]. arXiv:1511.06391 [stat.ML].(2016-02-23)[2023-08-20].https://arxiv.org/abs/1511.06391.
[16] YANG J L,REN P R,ZHANG D Q,et al. Neural Aggregation Network for Video Face Recognition [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:5216-5225.
[17] XU M N,CHEN J M,WANG H Q,et al. C3DVQA: Full-Reference Video Quality Assessment with 3D Convolutional Neural Network [C]//2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).Barcelona:IEEE,2020:4447-4451.
[18] ZHANG Y,GAO X B,HE L H,et al. Objective Video Quality Assessment Combining Transfer Learning With CNN [J].IEEE Transactions on Neural Networks and Learning Systems,2020,31(8):2716-2730.
[19] LI Y D,HE H M,ZHANG Z X. Human Motion Quality Assessment Toward Sophisticated Sports Scenes Based on Deeply-Learned 3D CNN Model [J/OL].Journal of Visual Communication and Image Representation,2020,71:102702[2023-08-20].https://doi.org/10.1016/j.jvcir.2019.102702.
[20] LI Y M,PO L M,CHEUNG C H,et al. No-Reference Video Quality Assessment With 3D Shearlet Transform and Convolutional Neural Networks [J].lEEE Transactions on Circuits and Systems for Video Technology,2016,26(6):1044-1057.
[21] WANG C F,SU L,HUANG Q M. CNN-MR for No Reference Video Quality Assessment [C]//2017 4th International Conference on Information Science and Control Engineering (ICISCE).Changsha:IEEE,2017:224-228.
[22] AHN S,LEE S. Deep Blind Video Quality Assessment Based on Temporal Human Perception [C]//2018 25th IEEE International Conference on Image Processing (ICIP).Athens:IEEE,2018:619-623.
[23] VARGA D. No-Reference Video Quality Assessment Based on the Temporal Pooling of Deep Features [J].Neural Processing Letters,2019,50(3):2595-2608.
[24] LOMOTIN K,MAKAROV I. Automated Image and Video Quality Assessment for Computational Video Editing [C]//International Conference on Analysis of Images,Social Networks and Texts.[S.I.]:Springer,2020:243-256.
[25] LI D Q,JIANG T T,JIANG M. Quality Assessment of In-the-Wild Videos [C]//Proceedings of the 27th ACM International Conference on Multimedia.Nice:ACM,2019:2351-2359.
[26] VARGA D,SZIR?NYI T. No-Reference Video Quality Assessment Via Pretrained CNN and LSTM Networks [J].Signal,Image and Video Processing,2019,13:1569-1576.
[27] HOSU V,HAHN F,JENADELEH M,et al. The Konstanz Natural Video Database (KoNViD-1k) [C]//2017 Ninth International Conference on Quality of Multimedia Experience (QoMEX).Erfurt:IEEE,2017:1-6.
[28] SAAD M A,BOVIK A C,CHARRIER C. Blind Prediction of Natural Video Quality [J].IEEE Transactions on Image Processing,2014,23(3):1352-1365.
[29] DASGUPTA I,SHANNIGRAHI S,ZINK M. A Hybrid NDN-IP Architecture for Live Video Streaming: From Host-Based toContent-Based Delivery to Improve QoE [J].International journal of semantic computing,2022,16(2):163-187.
[30] CHRYSOS G G,MOSCHOGLOU S,BOURITSAS G,et al. P–nets: Deep Polynomial Neural Networks [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Seattle:IEEE,2020:7323-7333.
[31] HU X L,AN Z L,YANG C G,et al. DRNet: Dissect and Reconstruct the Convolutional Neural Network via Interpretable Manners [J/OL]. arXiv:1911.08691 [cs.CV].(2020-02-26)[2023-08-20].https://arxiv.org/abs/1911.08691.
[32] LIU W T,DUAN M Z F,WANG Z. End-to-End Blind Quality Assessment of Compressed Videos Using Deep Neural Networks [C]//Proceedings of the 26th ACM international conference on Multimedia.Seoul:ACM,2018:546-554.
[33] HOU R,ZHAO Y H,HU Y,et al. No-Reference Video Quality Evaluation by a Deep Transfer CNN Architecture [J/OL].Image Communication,2020,83(C):115782[2023-07-26].https://doi.org/10.1016/j.image.2020.115782.
[34] YANG J C,ZHU Y H,MA C F,et al. Stereoscopic Video Quality Assessment Based on 3D Convolutional Neural Networks [J].Neurocomputing,2018,309:83-93.
[35] YANG J C,LIU T L,JIANG B,et al. 3D Panoramic Virtual Reality Video Quality Assessment Based on 3D Convolutional Neural Networks [J].IEEE Access,2018,6:38669-38682.
[36] 桑農(nóng),張士偉,馬百騰,等.一種基于R-C3D網(wǎng)絡(luò)的端到端視頻時(shí)序行為檢測(cè)方法:CN110738129A [P].2022-08-05.
[37] SESHADRINATHAN K,SOUNDARARAJAN R,BOVIK A C,et al. Study of Subjective and Objective Quality Assessment of Video [J].IEEE Transactions on Image Processing,2010,19(6):1427-1441.
[38] VU P V,CHANDLER D M. ViS3: An Algorithm for Video Quality Assessment Via Analysis of Spatial and Spatiotemporal Slices [J/OL].Journal of Electronic Imaging,2014,23(1):013016[2023-06-28].https://doi.org/10.1117/1.JEI.23.1.013016.
[39] NUUTINEN M,VIRTANEN T,VAAHTERANOKSA M,et al. CVD2014—A Database for Evaluating No-Reference Video Quality Assessment Algorithms [J].IEEE Transactions on Image Processing,2016,25(7):3073-3086.
[40] GHADIYARAM D,PAN J,BOVIK A C,et al. In-Capture Mobile Video Distortions: A Study of Subjective Behavior and Objective Algorithms [J].IEEE Transactions on Circuits and Systems for Video Technology,2018,28(9):2061-2077.
[41] WANG Y L,INGUVA S,ADSUMILLI B. YouTube UGC Dataset for Video Compression Research [C]//2019 IEEE 21st International Workshop on Multimedia Signal Processing (MMSP).Kuala Lumpur:IEEE,2019:1-5.
[42] 郭繼昌,李重儀,郭春樂(lè),等. 水下圖像增強(qiáng)和復(fù)原方法研究進(jìn)展 [J].中國(guó)圖象圖形學(xué)報(bào),2017,22(3):273-287.
[43] 肖毅.基于多特征的水下視頻客觀質(zhì)量評(píng)價(jià)方法研究 [D].上海:上海海洋大學(xué),2022.
[44] PEARSON K. VII. Note on Regression and Inheritance in the Case of Two Parents [J].Proceedings of the Royal Society of London,1895,58:240-242.
[45] YANG J C,LIN Y C,GAO Z Q,et al. Quality Index for Stereoscopic Images by Separately Evaluating Adding and Subtracting [J/OL]. PLOS ONE,2015,10(12):e0145800[2024-09-26].https://europepmc.org/backend/ptpmcrender.fcgi?accid=PMC4699220&blobtype=pdf.
[46] XU J T,YE P,LIU Y,et al. No-Reference Video Quality Assessment Via Feature Learning [C]//2014 IEEE International Conference on Image Processing (ICIP).Paris:IEEE,2014:491-495.
[47] ZHANG Y,GAO X B,HE L H,et al. Blind Video Quality Assessment With Weakly Supervised Learning and Resampling Strategy [J].IEEE Transactions on Circuits and Systems for Video Technology,2019,29(8):2244-2255.
[48] TU Z Z,YU X X,WANG Y L,et al. RAPIQUE: Rapid and Accurate Video Quality Prediction of User Generated Content [J].IEEE Open Journal of Signal Processing,2021:425-440.
[49] LI B W,ZHANG W X,TIAN M,et al. Blindly Assess Quality of In-the-Wild Videos via Quality-Aware Pre-Training and Motion Perception [J].IEEE Transactions on Circuits and Systems for Video Technology,2022,32(9):5944-5958.
[50] SUN W,MIN X K,LU W,et al. A Deep Learning based No-reference Quality Assessment Model for UGC Videos [C]//Proceedings of the 30th ACM International Conference on Multimedia.Lisboa Portugal:ACM,2022:856-865.
[51] WU H N,CHEN C F,HOU J W,et al. FAST-VQA: Efficient End-to-End Video Quality Assessment with Fragment Sampling [J/OL].ArXiv:2207.02595 [cs.CV].(2022-07-06)[2023-07-12].https://doi.org/10.48550/arXiv.2207.02595.
[52] WU H N,ZHANG E,LIAO L,et al. Exploring Video Quality Assessment on User Generated Contents from Aesthetic and Technical Perspectives 2023 IEEE/CVF International Conference on Computer Vision (ICCV) [C]//2023 IEEE/CVF International Conference on Computer Vision(ICCV).Paris:IEEE,2023:20087-20097.
作者簡(jiǎn)介:楊文兵(1993—),男,漢族,江蘇揚(yáng)州人,碩士研究生,主要研究方向:視頻質(zhì)量評(píng)價(jià)和視頻編解碼;通訊作者:邱天(1977—),男,漢族,河南周口人,副教授,博士,主要研究方向:圖像處理、集成電路設(shè)計(jì)及智能設(shè)備等。