曹玉東,劉海燕,賈 旭,李曉會
遼寧工業(yè)大學(xué) 電子與信息工程學(xué)院,遼寧 錦州 121001
圖像質(zhì)量評價是圖像處理和計算機(jī)視覺領(lǐng)域的一個研究熱點(diǎn)問題之一。數(shù)字圖像在獲取、壓縮存儲、傳輸過程中受到諸多因素的干擾,造成失真或降質(zhì),從而影響人類的視覺體驗(yàn)或者圖像的后處理效果[1]。只有對圖像質(zhì)量做出正確評價,才能確定后續(xù)的增強(qiáng)或控制方法。另外,數(shù)字圖像處理算法性能優(yōu)劣的分析和數(shù)字圖像處理系統(tǒng)的性能評估都需要對圖像質(zhì)量做出評價。
根據(jù)是否有人的參與,可以分為圖像主觀質(zhì)量評測和圖像客觀質(zhì)量評測。主觀質(zhì)量評測依靠人的主觀感覺評判圖像的質(zhì)量,由于不同的人對圖像質(zhì)量的感知會有不同,普遍的做法是多人對失真圖像做評價,然后取平均值??陀^圖像質(zhì)量評測需要利用計算機(jī)建立數(shù)學(xué)模型,然后計算并輸出數(shù)字化的測量結(jié)果,要求客觀圖像質(zhì)量評測結(jié)果與主觀質(zhì)量分?jǐn)?shù)保持高度的一致性,因此客觀評測方法需要充分結(jié)合人類視覺系統(tǒng)(Human Vision System,HVS)的特性。近年來,隨著生物科學(xué)、解剖學(xué)、神經(jīng)心理學(xué)等學(xué)科的發(fā)展,人類對視覺系統(tǒng)的認(rèn)識逐步深入。
采用人工方法對失真圖像的質(zhì)量進(jìn)行主觀評測具有效率低、成本高的特點(diǎn),難以實(shí)現(xiàn)準(zhǔn)確和實(shí)時的質(zhì)量評估,因此研究客觀圖像質(zhì)量評價算法是必然的趨勢。隨著人工智能的發(fā)展,為利用計算機(jī)模擬人類視覺系統(tǒng)的感知過程提供了可能。
早期的圖像質(zhì)量評價算法關(guān)注特定的失真類型,例如壓縮失真、塊狀效應(yīng)失真和圖像模糊度等。從知網(wǎng)的檢索結(jié)果看,國內(nèi)作者更關(guān)注針對某一特殊應(yīng)用領(lǐng)域的圖像質(zhì)量評價方法,例如醫(yī)療圖像、水下圖像、立體圖像、焊道圖像、汽車抗暈光圖像、紅外或射線圖像的質(zhì)量評價。如果不使用公開的數(shù)據(jù)集,則不便在不同的算法之間做性能比較。由于實(shí)際應(yīng)用中圖像失真的多樣性,面向非特定失真的圖像質(zhì)量評測方法具有廣泛的實(shí)用性。參考文獻(xiàn)[1-3]綜述了常見的圖像質(zhì)量評測算法。
2012年,在ImageNet圖像處理分類比賽中,Alex設(shè)計的卷積神經(jīng)網(wǎng)絡(luò)AlexNet奪得冠軍,深度學(xué)習(xí)開始受到高度關(guān)注。隨著深度學(xué)習(xí)技術(shù)在圖像質(zhì)量評價(Image Quality Assessment,IQA)中的大量應(yīng)用,有必要重新梳理和總結(jié)IQA算法。本文介紹衡量指標(biāo)、常用數(shù)據(jù)集及評價方法的分類,并對IQA方法進(jìn)行梳理和總結(jié),然后對數(shù)據(jù)增強(qiáng)方法進(jìn)行分析和說明,最后對未來研究進(jìn)行展望。
對于性能較好的IQA算法而言,其質(zhì)量評測分?jǐn)?shù)會與主觀質(zhì)量分?jǐn)?shù)保持高度一致,根據(jù)視頻質(zhì)量專家組VQEG的報告[4],國際上通用的圖像質(zhì)量評測性能評價指標(biāo)主要包括3種:斯頗曼秩相關(guān)系數(shù)(Spearman Rank Order Correlation Coefficient,SROCC)、皮爾森線性相關(guān)系數(shù)(Pearson Linear Correlation Coefficient,PLCC)和均方誤差(Root Mean Squared Error,RMSE)。其中SROCC和PLCC被多數(shù)文獻(xiàn)采用。
SROCC用來描述兩組數(shù)據(jù)的等級相關(guān)性,取值范圍為0~1,性能值等于1時,表明兩組數(shù)據(jù)完全一致。PLCC描述兩組數(shù)據(jù)的線性相關(guān)系數(shù),其取值范圍為-1~1。當(dāng)PLCC的值為零時,表示2組數(shù)據(jù)完全不相關(guān);當(dāng)PLCC值為1或-1時,表明兩組數(shù)據(jù)完全相關(guān)。如果模型附加某些非線性變換,會造成PLCC性能變好,但是SROCC性能不會被影響,因此SROCC被認(rèn)為是最好的非線性相關(guān)指標(biāo)。均方誤差(Root Mean Squared Error,RMSE)用于衡量兩組數(shù)據(jù)之間的絕對誤差,即衡量算法預(yù)測的準(zhǔn)確性,均方誤差越接近于0,表明算法的性能越好。
上述3個性能評價指標(biāo)分別衡量圖像質(zhì)量客觀評測算法的單調(diào)性、線性相關(guān)性以及誤差值。此外,有少數(shù)文獻(xiàn)使用Kendall秩相關(guān)系數(shù)(Kendall Rank Order Correlation Coefficient,KROCC)或離出率作為評價指標(biāo)[1],或者使用散點(diǎn)圖對IQA算法做定性評價[3],不再贅述。
評價IQA算法的性能,需要在公開的數(shù)據(jù)集上與其他算法做比較或測試,在不同的數(shù)據(jù)集上驗(yàn)證算法的泛化性能。為此,國際上的一些圖像研究機(jī)構(gòu)建立了各種圖像質(zhì)量評測數(shù)據(jù)集,相關(guān)介紹參見表1,主要工作是為數(shù)據(jù)集中的失真圖像標(biāo)定主觀質(zhì)量分?jǐn)?shù),供算法訓(xùn)練和測試使用。不同的數(shù)據(jù)集之間的區(qū)別主要是理想?yún)⒖紙D的數(shù)量、評分標(biāo)準(zhǔn)、失真圖像的失真類型和數(shù)量等。人工評價結(jié)果具有主觀性,IQA數(shù)據(jù)集的標(biāo)定會受到觀察員的觀測動機(jī)、觀測環(huán)境和知識背景的影響。為了避免受到這些因素影響,采用多人評價,然后取平均值的方法。常見數(shù)據(jù)集的標(biāo)定值分為平均主觀分?jǐn)?shù)(Mean Opinion Score,MOS)或者平均主觀分?jǐn)?shù)差(Difference Mean Opinion Score,DMOS)兩種。標(biāo)定數(shù)值的范圍因數(shù)據(jù)集的不同而異。MOS的值越小,圖像的失真越嚴(yán)重,圖像的質(zhì)量越差;DMOS的數(shù)值越大,圖像的失真越嚴(yán)重,圖像的質(zhì)量就越差。綜合性能較好且引用率較高的數(shù)據(jù)集為LIVE、TID2008、TID2013和CSIQ等4個IQA數(shù)據(jù)集。2017年Ma等公開Waterloo Exploration數(shù)據(jù)集[5],該數(shù)據(jù)集包含94 880幅失真圖像,4 744幅未失真圖像,更適合基于深度學(xué)習(xí)的IQA算法做訓(xùn)練和測試,但目前使用不多。表1總結(jié)了常用的IQA數(shù)據(jù)集,分別介紹如下。
表1 常用的公開IQA數(shù)據(jù)集Table 1 Public frequently-used IQA datasets
(1)LIVE數(shù)據(jù)集
LIVE數(shù)據(jù)集[6-7]包含29幅彩色的理想?yún)⒖紙D,總計779幅不同失真程度的圖像。失真類型包括5種:白噪聲失真、JPEG、JPEG2000、高斯模糊和快速衰落。161名觀察員對每幅失真圖像進(jìn)行主觀評分,然后依據(jù)每幅圖像的所有得分計算DMOS值,取值范圍是0~100。
(2)TID2008數(shù)據(jù)集
TID2008數(shù)據(jù)集[8]包含25幅理想?yún)⒖紙D,17種失真類型??傆嬘?種不同程度失真的1 700幅失真圖像。其標(biāo)注值采用MOS,其取值范圍是0~9。
(3)TID2013數(shù)據(jù)集
TID2013數(shù)據(jù)集[9-10]在TID2008的基礎(chǔ)上,增加了7種失真類型,每種類型包括125幅失真圖像。失真圖像采自圖像的獲取、傳輸和校準(zhǔn)等不同環(huán)節(jié),失真類型多,每種失真類型包含的圖像數(shù)量少。TID2013是測試難度較大的數(shù)據(jù)集,從現(xiàn)有文獻(xiàn)資料看,多數(shù)基于深度學(xué)習(xí)技術(shù)的IQA算法都主要選擇該數(shù)據(jù)集做訓(xùn)練和測試。該數(shù)據(jù)集同TID2008一樣,采用MOS標(biāo)注失真圖像,其取值范圍是0~9。
(4)CSIQ數(shù)據(jù)集
CSIQ數(shù)據(jù)集[11]包含30幅未失真的理想?yún)⒖紙D像、6種失真類型,總計866幅失真圖像。6種失真類型為高斯模糊、全局對比度衰減、JPEG壓縮、JPEG2000壓縮、高斯有色噪聲和高斯加性噪聲。其質(zhì)量標(biāo)定分?jǐn)?shù)采用DMOS,取值范圍是0~1。
(5)Waterloo Exploration數(shù)據(jù)集
Waterloo Exploration數(shù)據(jù)集[5]是由Ma公開發(fā)布的數(shù)據(jù)集,同LIVE或TID2013相比,失真圖像的內(nèi)容更豐富。該數(shù)據(jù)集的失真類型為JPEG壓縮、JP2K壓縮、高斯模糊和白噪聲失真,每種失真類型包括5個失真級別。該數(shù)據(jù)集沒有采用MOS或DMOS值標(biāo)注失真圖像,而是提出了3個新測度:參考圖/失真圖像的可分辨性測試(pristine/distorted image discriminability test,D-test)、按列表排序的一致性測試(listwise ranking consistency test,L-test)和逐對一致性測試(pairwise preference consistency test,P-test)。
(6)KADID-10k數(shù)據(jù)集
KADID-10k[12]數(shù)據(jù)集是由德國康斯坦茨大學(xué)計算機(jī)與信息科學(xué)系發(fā)布的數(shù)據(jù)集。首先在Pixabay.com下載645 706幅尺寸大于1 500×1 200的圖像,然后將這些圖像縮放為512×384大小,最后挑選81幅高質(zhì)量圖像作為參考圖像。該數(shù)據(jù)集共有25種失真類型,10 125幅失真圖像,采用DMOS作為標(biāo)注值,由于失真類型豐富,適用于基于深度學(xué)習(xí)的IQA算法。
(7)KonIQ-10k數(shù)據(jù)集
KonIQ-10k數(shù)據(jù)集[13]主要通過公共多媒體數(shù)據(jù)庫YFCC100M選擇失真圖像,經(jīng)過2階段進(jìn)行過濾,最終得到包含10 073幅失真圖像的數(shù)據(jù)集。適用于基于深度學(xué)習(xí)的IQA模型,該數(shù)據(jù)集為真實(shí)的失真類型,采用MOS標(biāo)注失真圖像,取值范圍是1~100。
其他IQA數(shù)據(jù)集的詳細(xì)介紹可參閱文獻(xiàn)[3],不再贅述。
根據(jù)圖像視覺信息處理過程的不同,可以把IQA算法分為兩類:基于自下而上(Bottom-up)和基于自上而下(Top-down)的IQA模型。Bottom-up模型采集底層圖像信息作為輸入,通過數(shù)學(xué)模型模擬HVS,實(shí)現(xiàn)逐步抽象的過程。2018年,姚旺等[14]將多通道網(wǎng)絡(luò)引入到FR-IQA算法中,獲取理想?yún)⒖紙D像和失真圖像的梯度差異圖,并將梯度差異圖和失真圖像同時輸入到多通道網(wǎng)絡(luò)中學(xué)習(xí)質(zhì)量分?jǐn)?shù)。Top-down模型在視覺信息處理過程中融入人類的先驗(yàn)知識。Wang等[15]假設(shè)失真會改變圖像的結(jié)構(gòu)化特征,提出了結(jié)構(gòu)相似度(Structural Similarity Index Metric,SSIM)算法。SSIM算法從亮度、對比度和結(jié)構(gòu)信息3方面計算失真圖和理想?yún)⒖紙D之間的局部結(jié)構(gòu)相似性,根據(jù)相似程度判斷失真圖像的質(zhì)量。在IQA算法的發(fā)展進(jìn)程中,SSIM算法[15]的提出具有里程碑的意義,隨后一些學(xué)者提出了改進(jìn)算法:MSSIM[16]、FSIM[17]、IW-SSIM[18]等。信息保真度準(zhǔn)則(Information Fidelity Criterion,IFC)[19]和視覺信息保真度(Visual Information Fidelity,VIF)[20]從信息論的角度考慮圖像的失真特性,通過比較參考圖和失真圖的差異獲取失真圖像的質(zhì)量。
根據(jù)是否有參考信息,數(shù)字圖像質(zhì)量評價方法可以分為3類:全參考圖像質(zhì)量評測(Full-Reference Image Quality Assessment,F(xiàn)R-IQA)、半?yún)⒖紙D像質(zhì)量評測(Reduced-Reference Image Quality Assessment,RRIQA)和無參考的圖像質(zhì)量評測(No-Reference Image Quality Assessment,NR-IQA)。
(1)全參考圖像質(zhì)量評測
對圖像質(zhì)量評價算法的研究始于FR-IQA,該類方法利用失真圖像和理想?yún)⒖紙D像之間的差異評測失真圖像的質(zhì)量。2019年,國內(nèi)學(xué)者王同罕等[21]提取失真圖像的梯度特征,用于全參考圖像質(zhì)量評價,在LIVE數(shù)據(jù)集將SROCC性能提高到96%。介紹FF-IQA的參考文獻(xiàn)較多,讀者可以進(jìn)一步參閱其他文獻(xiàn)。
(2)半?yún)⒖紙D像質(zhì)量評測
RR-IQA方法利用先驗(yàn)知識提取理想?yún)⒖紙D像的少量特征信息,與失真圖像的特征信息進(jìn)行對比,完成對失真圖像的質(zhì)量評估。由于傳輸?shù)臄?shù)據(jù)量小,處理相對靈活,主要應(yīng)用在實(shí)時傳輸系統(tǒng)中。
(3)無參考圖像質(zhì)量評測
NR-IQA方法是指在完全沒有參考圖像的情況下對一幅失真圖像質(zhì)量做評測,在實(shí)踐中應(yīng)用較多。根據(jù)特征獲取方法的不同,NR-IQA算法被分為基于分析模型的方法和基于學(xué)習(xí)的方法,基于深度學(xué)習(xí)的IQA方法屬于后一種。
表2分析和歸納了典型的IQA算法,其中文獻(xiàn)[14]和DIQaM是全參考IQA算法,其余皆為無參考IQA算法。2012年,Ye等[22]提出CORNIA算法,通過非監(jiān)督特征學(xué)習(xí)獲造碼本字典,在LIVE數(shù)據(jù)集上的SROCC性能達(dá)到96%。2020年,Liu等[23]提出SNP-NIQE算法,從結(jié)構(gòu)性、自然性和感知性等3個方面提取失真圖像的自然統(tǒng)計特性,結(jié)合無監(jiān)督學(xué)習(xí)進(jìn)行圖像質(zhì)量評估,將在TID2013數(shù)據(jù)集上的SROCC性能提升至90%。不足之處是該模型采用常見的失真類型進(jìn)行訓(xùn)練,模型的泛化性能不足。Zhu[29]采用多個異質(zhì)傳感器采集圖像信息,通過逐像素處理,得到融合圖像作為參考圖像,該方法在TID2013數(shù)據(jù)集上的性能不理想,表明該融合方法有一定的局限性。文獻(xiàn)[30-33]介紹了更多的此類IQA方法,可供讀者參考。
傳統(tǒng)機(jī)器學(xué)習(xí)方法假設(shè)失真會改變圖像的某些統(tǒng)計特性,該類算法把失真圖像特征提取和質(zhì)量分?jǐn)?shù)回歸過程分開處理,難以準(zhǔn)確描述HVS的感知過程。在基于學(xué)習(xí)的IQA方法中,可以使用神經(jīng)網(wǎng)絡(luò)或者碼本等方法提取特征。隨著海量圖像的出現(xiàn)和算力的提高,深度神經(jīng)網(wǎng)絡(luò)開始應(yīng)用于圖像質(zhì)量評測中。目前,在基于深度學(xué)習(xí)技術(shù)的IQA方法中,應(yīng)用較多的圖像特征描述形式多為通過自動學(xué)習(xí)方式獲取的特征圖。表3總結(jié)和歸納了9個典型的圖像質(zhì)量評價算法的性能。
表2 典型算法分析Table 2 Analysis of typical algorithms
表3 IQA算法性能比較Table 3 Performance comparison of IQA algorithms
深度神經(jīng)網(wǎng)絡(luò)的最大優(yōu)點(diǎn)是把圖像特征提取和回歸過程整合在一個優(yōu)化框架內(nèi),真正實(shí)現(xiàn)端到端的學(xué)習(xí)?;谏疃葘W(xué)習(xí)的IQA方法正在逐漸成為主流的圖像質(zhì)量評價算法。在傳統(tǒng)的算法中,特征提取需要依賴設(shè)計人員的經(jīng)驗(yàn),構(gòu)建過程比較復(fù)雜。深度神經(jīng)網(wǎng)絡(luò)通過數(shù)據(jù)驅(qū)動,學(xué)習(xí)圖像特征,對圖像的描述更準(zhǔn)確。
在深度學(xué)習(xí)領(lǐng)域有不同類型的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[36]和變換器(Transformer)[37]等。CNN和GAN常用在圖像質(zhì)量評價算法中,RNN網(wǎng)絡(luò)模型多用于對視頻的質(zhì)量評價,Transformer首先在自然語言處理領(lǐng)域取得成功,近幾年,開始應(yīng)用到計算機(jī)視覺領(lǐng)域[38]。
CNN是一種前饋神經(jīng)網(wǎng)絡(luò),通常由卷積層、池化層和全連接層構(gòu)成。卷積層和池化層抽取降維的特征圖,全連接層回歸質(zhì)量分?jǐn)?shù)。CNN成功的關(guān)鍵是引入了歸納偏置(inductive bias),采用卷積核權(quán)值共享的方式減少網(wǎng)絡(luò)參數(shù)的數(shù)量。
基于卷積神經(jīng)網(wǎng)絡(luò)的IQA模型的常見架構(gòu)如圖1所示,由多個卷積層提取圖像特征,然后由全連接層回歸失真圖像的質(zhì)量分?jǐn)?shù)。2014年,Kang等[39]提出IQA-CNN(Convolutional Neural Networks for no-reference Image Quality Assessment),網(wǎng)絡(luò)架構(gòu)與圖1類似,包括1個卷積層(含最大池化和最小池化)和2個全連接層。為降低過擬合風(fēng)險,該文作者將數(shù)據(jù)集圖像分割為若干圖像塊訓(xùn)練模型。Kang等隨后提出IQA-CNN++[24],符號“++”代表兩個任務(wù):失真類型辨別和圖像質(zhì)量分?jǐn)?shù)預(yù)測。IQA-CNN++在LIVE數(shù)據(jù)集上的SROCC和PLCC性能達(dá)到95%,在TID2008數(shù)據(jù)庫上的SROCC性能為88%,PLCC性能為87%,但該模型的訓(xùn)練集規(guī)模太小,影響了實(shí)驗(yàn)結(jié)果的準(zhǔn)確性。2017年,Hou等[40]提出了DLIQA(Deep Learning for blind Image Quality Assessment),首先提取失真圖像的統(tǒng)計性特征(Natural Scene Statistics feature,NSS)[41],然后使用深度分類模型(Deep Belief Net,DBN)[42]把NSS特征映射為5個質(zhì)量等級,最后把標(biāo)記了質(zhì)量等級的失真圖像映射為質(zhì)量分?jǐn)?shù)。DLIQA在LIVE數(shù)據(jù)集上的SROCC和PLCC性能達(dá)到93%。2017年,Liu等[43]提出RankIQA(Ranking for no-reference Image Quality Assessment),使用失真圖像集的質(zhì)量排序數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),然后基于遷移學(xué)習(xí)技術(shù)訓(xùn)練更深的網(wǎng)絡(luò)。RankIQA模型可以通過生成圖像增加訓(xùn)練數(shù)據(jù),在TID2013的SROCC性能為78.0%。2018年,姚旺等[14]提出DeepFR圖像質(zhì)量評價算法,結(jié)合人眼的視覺特性對失真圖像的梯度進(jìn)行加權(quán)優(yōu)化,然后提取出符合視覺特性的視覺感知圖。該算法是用8個卷積層來提取特征圖,3個最大池提取局部較強(qiáng)特征,2個全連接層做非線性回歸。該算法在LIVE和TID2008數(shù)據(jù)集上的SROCC和PLCC性能均達(dá)到98%以上。其局限性在于人類視覺系統(tǒng)十分復(fù)雜,目前還沒有定量的方法對人眼視覺的心理特征進(jìn)行描述,該方向有待研究。同年,Bosse等[25]提出無參考的深度圖像質(zhì)量評價算法(DIQaM-NR)和加權(quán)的無參考的深度圖像質(zhì)量評價算法(WaDIQaM-NR),兩種方法都采用相同的網(wǎng)絡(luò)結(jié)構(gòu):包括10個卷積層和5個池化層,使用ReLU做激活函數(shù),區(qū)別在于后者采用了加權(quán)思想。文獻(xiàn)[25]把圖像分割為若干圖像塊,再通過平均求和或者加權(quán)求和的方式獲取整幅失真圖的質(zhì)量分?jǐn)?shù)。圖像分割會導(dǎo)致失真區(qū)域被人為割裂,使得該方法的準(zhǔn)確率受到了限制。DIQaM-NR在LIVE數(shù)據(jù)集上的SROCC性能為97.2%,PLCC性能為96%;在TID2013上的SROCC性能為85.5%,PLCC性能為83.5%。2018年,Ma等[44]提出了端到端的多任務(wù)優(yōu)化網(wǎng)絡(luò)MEON(Multi-task End-to-end Optimized Network),Multi-task是指失真類型識別和質(zhì)量分?jǐn)?shù)預(yù)測。為了進(jìn)一步提升性能,Ma設(shè)計了GDN(Generalized Divisive Normalization)取代ReLU激活函數(shù)。MEON在TID2013數(shù)據(jù)集上的SROCC性能值為91%。2019年,Kim等[26]提出DIQA(Deep Image Quality Assessor),將NR-IQA訓(xùn)練分為兩個階段:在第1階段,利用CNN網(wǎng)絡(luò)學(xué)習(xí)和預(yù)測客觀誤差圖,客觀誤差圖可以由理想的參考圖和失真圖的差生成,作為訓(xùn)練數(shù)據(jù)使用,客觀誤差圖和主觀分?jǐn)?shù)存在關(guān)聯(lián);在第2階段,利用客觀誤差圖學(xué)習(xí)預(yù)測主觀得分。另外還融合了兩個簡單的手工特征,以進(jìn)一步提高模型精度。該模型的訓(xùn)練過程比較復(fù)雜,模型的擴(kuò)展性比較差,模型的預(yù)測與主觀感知結(jié)果的一致性不好。DIQA在LIVE數(shù)據(jù)集上的SROCC和PLCC性能達(dá)到96%。2019年,高方遠(yuǎn)等[27]提出VI-IQA(Vgg and Inception Net for IQA),該算法融合了深度神經(jīng)網(wǎng)和感知視覺特性,在TID2013數(shù)據(jù)集上的SROCC值達(dá)到81.1%,PLCC值達(dá)到84%。2020年,Ma等[35]采用深度學(xué)習(xí)技術(shù),對經(jīng)過卷積層提取的圖像特征進(jìn)行融合,再輸入到全連接層,獲取失真圖像的質(zhì)量分?jǐn)?shù)。該方法在LIVE數(shù)據(jù)集上的SROCC性能為95.8%,PLCC性能為96.9%,該模型的不足就是無法準(zhǔn)確地反映人在觀察失真圖像時的感受。
圖1 基于卷積神經(jīng)網(wǎng)絡(luò)的IQA模型總體框架Fig.1 Framework of CNN based IQA model
基于深度學(xué)習(xí)技術(shù)的IQA模型通常比較復(fù)雜,需要較強(qiáng)的算力和海量的訓(xùn)練數(shù)據(jù),在某種程度上制約了該類算法的應(yīng)用。2020年,曹玉東等[34]設(shè)計了并行小規(guī)模卷積網(wǎng)絡(luò)(Parallel Small CNN based image quality assessment algorithm,PSCNN),用于無參考圖像質(zhì)量評測。該模型的每路卷積子網(wǎng)絡(luò)采取相同的結(jié)構(gòu),4路小規(guī)模卷積網(wǎng)的輸入為不同尺度的輸入圖像,目的是學(xué)習(xí)更豐富的失真特征信息。PSCNN算法為了提高模型精度,分成兩個階段優(yōu)化模型的參數(shù),在LIVE數(shù)據(jù)集上的SROCC的性能為96%,PLCC的性能為97%。為驗(yàn)證該算法的泛化性能,在LIVE上訓(xùn)練,在TID2008上測試,SROCC性能指標(biāo)達(dá)到93%。
生成對抗網(wǎng)絡(luò)是一種由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)組成的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)之間的不斷博弈學(xué)習(xí)產(chǎn)生更好的輸出。如果NR-IQA方法能生成模擬的參考圖,會從根源上解決NR-IQA無法模擬HVS進(jìn)行比較的問題。
GAN-IQA利用生成對抗網(wǎng)絡(luò)生成模擬的參考圖,其訓(xùn)練過程如圖2所示。GAN網(wǎng)絡(luò)通過對抗學(xué)習(xí)同時訓(xùn)練兩個模型:生成模型和判別模型,訓(xùn)練過程中,生成模型利用添加了隨機(jī)噪聲的輸入圖像,生成模擬的參考圖,試圖欺騙判別模型;相反,被訓(xùn)練過的判別模型試圖辨別出模擬參考圖和理想?yún)⒖紙D。當(dāng)判別模型無法分辨理想?yún)⒖紙D和模擬參考圖的真假時,訓(xùn)練取得成功。測試或?qū)嶋H應(yīng)用時,把1幅待測失真圖輸入訓(xùn)練過的GAN模型后,會自動輸出模擬參考圖,把模擬參考圖和待測失真圖輸入回歸模型,就可以像FF-IQA那樣模擬人類視覺的比較過程,評判失真圖像的質(zhì)量分?jǐn)?shù)。自生成對抗網(wǎng)絡(luò)誕生以來,相關(guān)研究人員積極拓展其應(yīng)用。2018年,Lin等[28]提出H-IQA(Hallucinated IQA),設(shè)計的網(wǎng)絡(luò)架構(gòu)包括3部分:生成網(wǎng)絡(luò)、判別網(wǎng)絡(luò)和質(zhì)量回歸網(wǎng)絡(luò)。質(zhì)量回歸網(wǎng)絡(luò)的輸入是失真圖、差值圖,最終輸出失真圖的質(zhì)量預(yù)測分?jǐn)?shù)。為了生成逼真的模擬參考圖,該文作者重新設(shè)計了感知損失函數(shù)(quality-aware perceptual loss)。為提高圖像的特征表達(dá)能力,在回歸網(wǎng)絡(luò)中融入了生成網(wǎng)絡(luò)從失真圖像中抽取的高級特征。H-IQA在LIVE數(shù)據(jù)集上的SROCC和PLCC性能為98%,在TID2013數(shù)據(jù)集上的SROCC性能為87%。同年,Ren等[45]提出RAN4IQA(Restorative Adversarial Net for Image Quality Assessment),通過逐級串接殘差塊(Residual Block)構(gòu)成生成模型和判別模型,每個殘差塊的結(jié)構(gòu)相同,主要包括歸一化、卷積和ReLU激活等操作。卷積核的大小為3×3,數(shù)量是64。判別模型的結(jié)構(gòu)類似VGG,設(shè)計的損失函數(shù)包括感知損失和對抗損失兩部分??梢钥闯龌趯咕W(wǎng)絡(luò)的IQA算法性能通常好于表3中列出的其他基于深度學(xué)習(xí)技術(shù)的IQA方法。
圖2 GAN-IQA模型的訓(xùn)練示意圖Fig.2 Schematic diagram of training of GAN-IQA model
2020年,曹玉東等[46]在深入研究了深度對抗神經(jīng)網(wǎng)絡(luò)之后,提出基于增強(qiáng)型對抗學(xué)習(xí)的IQA算法(Enhanced Adversarial Learning based Image Quality Assessment,EAL-IQA),其實(shí)現(xiàn)過程如圖3所示。傳統(tǒng)的GAN用1個判別網(wǎng)絡(luò)輸出判別結(jié)果,改進(jìn)后的GAN網(wǎng)絡(luò)結(jié)構(gòu)增加了1個判別網(wǎng)絡(luò),實(shí)現(xiàn)增強(qiáng)型對抗學(xué)習(xí)。在訓(xùn)練階段,添加了隨機(jī)噪聲的輸入圖像經(jīng)過生成網(wǎng)絡(luò)G以后,輸出仿真圖(模擬參考圖),將該模擬參考圖和理想?yún)⒖紙D輸入判別網(wǎng)絡(luò)D1,判別網(wǎng)絡(luò)D1根據(jù)二者的相似程度輸出二值化的判別結(jié)果,該判別結(jié)果會反饋給生成網(wǎng)絡(luò)G,如果判別結(jié)果是模擬參考圖和理想?yún)⒖紙D不相似,則不斷重復(fù)上述過程,直到判別網(wǎng)絡(luò)難以分辨模擬參考圖和理想?yún)⒖紙D的真假為止。增加的判別網(wǎng)絡(luò)D2提高了對抗學(xué)習(xí)強(qiáng)度,提升了模擬參考圖的可靠性。增強(qiáng)部分的對抗損失函數(shù)為:
圖3 基于增強(qiáng)對抗學(xué)習(xí)的IQA框架圖Fig.3 Framework of IQA with enhanced adversarial learning
EAL-IQA在LIVE上的SROCC和PLCC性 能 值 為96%;在TID2013上的SROCC性能值為89%,PLCC性能值為90%。通常GAN-IQA的性能比較高,但是模型的訓(xùn)練過程比較復(fù)雜。
依據(jù)現(xiàn)有的文獻(xiàn),還沒有任何1種算法能夠在TID2013的每1種失真類型上都領(lǐng)先于其他IQA算法,因此設(shè)計通用型的IQA算法是未來的工作重點(diǎn)。
CNN的inductive bias縮小了模型的感受野,不能對長期依賴性編碼。在自然語言處理領(lǐng)域提出的變換器(Transformer)方法彌補(bǔ)了CNN的不足。
Transformer是一種由編碼器(encoder)和解碼器(decoder)構(gòu)成的深度圖神經(jīng)網(wǎng)絡(luò)。2020年,You等[47]首次將Transformer應(yīng)用于IQA領(lǐng)域?;赥ransformer的NR-IQA的流程如圖4所示,主要包括3個步驟:提取圖像特征、對特征做變換、采用多層感知器頭(MLP Head)預(yù)測圖像質(zhì)量。
圖4 基于Transformer的NR-IQA評測流程圖Fig.4 Flow chart of NR-IQA with Transformer
Transformer可進(jìn)行并行化的處理,通過注意力機(jī)制關(guān)注重點(diǎn)區(qū)域。與CNN相比,Transformer能夠捕獲長距離的特征,更容易獲取全局信息。TRIQ(Transformer for Image Quality assessment)[47]采用自適應(yīng)編碼器處理不同分辨率的圖像,將卷積神經(jīng)網(wǎng)絡(luò)提取的特征圖作為淺層Transformer編碼器的輸入,然后通過MLP Head預(yù)測感知圖像質(zhì)量。TRIQ在組合測試集上的PLCC、SROCC與RMSE的性能分別為88.4%、86.8%和28.0%。2021年,Cheon等[48]提出IQT(Image Quality Transformer)。該模型采用Adam優(yōu)化器,MSE損失函數(shù),transformer的編碼器和解碼器層數(shù)為2層。IQT在NTIRE 2021感知圖像質(zhì)量評價挑戰(zhàn)賽(perceptual image quality assessment challenge)[49]上獲得第1名的好成績。該算法在LIVE上的SROCC性能達(dá)到97%;在CSIQ上的SROCC性能達(dá)到94%以上;在TID2013上的SROCC性能達(dá)到89%以上。
Ramachandran等[50]提出用獨(dú)立的注意力層構(gòu)建完全注意力視覺模型,以此取代感受野受限的卷積。2020年,Cordonnier等[51]分析了自我注意與卷積層的關(guān)系,得出的結(jié)論是自我注意力層可以學(xué)習(xí)類似于卷積層的行為,代替任何卷積層,為自注意力機(jī)制在圖像質(zhì)量評價領(lǐng)域的應(yīng)用奠定了堅實(shí)的基礎(chǔ)。
基于深度學(xué)習(xí)的IQA算法需要大規(guī)模的訓(xùn)練數(shù)據(jù),否則容易導(dǎo)致模型過擬合。現(xiàn)有的IQA數(shù)據(jù)集規(guī)模偏小,創(chuàng)建帶有人工標(biāo)注的大型IQA數(shù)據(jù)集的成本是非常昂貴的,研究各種數(shù)據(jù)集擴(kuò)充方法是必要的。文獻(xiàn)[25]采用分割訓(xùn)練圖像為若干圖像塊的辦法實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)。2012年,Ye等[22]利用真實(shí)世界中無標(biāo)簽的失真圖像來擴(kuò)充IQA數(shù)據(jù)集,建立了非監(jiān)督失真圖像特征學(xué)習(xí)。2014年,Ye等[52]又提出1種OF-IQA(Opinion Free IQA)模型:BLISS(Blind Learning of Image Quality using Synthetic Scores),使用CORNIA[22]作為基礎(chǔ)模型,融合FSIM、FSIMC[17]、IW-SSIM(Information content Weighted SSIM)[18]、VIF[20]、GMSD[54]等全參考算法的綜合度量結(jié)果作為失真圖像的標(biāo)注分?jǐn)?shù),再折合為DMOS值。其中,F(xiàn)SIMC在FSIM中融入了顏色信息;IW-SSIM在SSIM基礎(chǔ)上加權(quán)了一些信息內(nèi)容,是SSIM的增強(qiáng)版。BLISS算法在3 300幅flickr圖像數(shù)據(jù)集上完成訓(xùn)練,在LIVE和TID2008上的測試結(jié)果超過了NIQE[54]和QAC等[55]兩 種OF-BIQA模 型。2017年,Gao等[56]在Image Net數(shù)據(jù)集上預(yù)訓(xùn)練Deep Sim模型,然后再應(yīng)用到其他數(shù)據(jù)集上,通過計算理想?yún)⒖紙D和失真圖像的局部相似性獲取整幅圖像的質(zhì)量分?jǐn)?shù)。2017年,Ma等[57]提出一種構(gòu)造訓(xùn)練數(shù)據(jù)的方法:dipIQ,構(gòu)造的數(shù)據(jù)被簡稱為DIP(quality-Discriminable Image Pairs)。然后利用“可靠”的FR-IQA模型標(biāo)注大量的圖像數(shù)據(jù)作為模型訓(xùn)練數(shù)據(jù),利用RankNet模型構(gòu)建OU-BIQA(Opinion-Unaware BIQA)模型,即訓(xùn)練過程中不需要帶主觀質(zhì)量分?jǐn)?shù)標(biāo)記的失真圖像。該方法在LIVE數(shù)據(jù)集上的SROCC和PLCC性能為95%。OF-BIQA與OU-BIQA基本同義,與之對應(yīng),模型如果使用了標(biāo)記MOS值的訓(xùn)練數(shù)據(jù),被稱為OA-BIQA(Opinion-Aware BIQA)模型。2017年,Kim等[58]提出一種OF-BIQA算法,簡稱為BIECON,使用經(jīng)典的FF-IQA算法獲取圖像塊的質(zhì)量分?jǐn)?shù),以此充當(dāng)失真圖像的標(biāo)簽值,再利用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)有監(jiān)督學(xué)習(xí)。
數(shù)據(jù)增強(qiáng)不增加網(wǎng)絡(luò)模型的計算復(fù)雜度,在不實(shí)質(zhì)性增加數(shù)據(jù)的前提下,讓有限的數(shù)據(jù)產(chǎn)生相當(dāng)于更多數(shù)據(jù)的價值。數(shù)據(jù)增強(qiáng)可分為無監(jiān)督的數(shù)據(jù)增強(qiáng)和有監(jiān)督的數(shù)據(jù)增強(qiáng)兩種方法,從發(fā)展趨勢看,無監(jiān)督增強(qiáng)將是解決數(shù)據(jù)不足問題的最好方法,遷移學(xué)習(xí)是解決該類問題的過渡辦法。2017年,馮天鵬博士[59]提出通過遷移學(xué)習(xí)來解決數(shù)據(jù)量不足的問題,并在聯(lián)合遷移學(xué)習(xí)中應(yīng)用了稀疏表示法。
自然界的圖像豐富多彩、千差萬別,很難準(zhǔn)確描述。傳統(tǒng)的IQA方法需要人工設(shè)計失真圖像特征,嚴(yán)重依賴設(shè)計者的知識水平?;趯W(xué)習(xí)的特征提取會受數(shù)據(jù)集的規(guī)模和數(shù)據(jù)分布的影響,在特定的小規(guī)模數(shù)據(jù)集上訓(xùn)練的模型難免存在偏差,限制其在真正的實(shí)踐環(huán)境中推廣和應(yīng)用?;谏疃葘W(xué)習(xí)技術(shù)的IQA模型取得了更好的性能,但是對海量標(biāo)記數(shù)據(jù)的需求提高了模型的訓(xùn)練成本。
下一步的研究趨勢可能包括:
(1)基于深度學(xué)習(xí)技術(shù)的IQA方法存在訓(xùn)練集數(shù)據(jù)不足的問題,目前最大數(shù)據(jù)集僅含幾千幅圖像?,F(xiàn)有的Deep learning-based IQA算法過度依賴有標(biāo)簽的數(shù)據(jù)集,雖然已有很多免主觀分?jǐn)?shù)模型提出,從本質(zhì)上講,還沒有完全脫離對標(biāo)注數(shù)據(jù)或有監(jiān)督IQA算法的依賴。遷移學(xué)習(xí)是解決該問題的過渡方法,研究和探索半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)在IQA中的應(yīng)用,會減輕或擺脫對標(biāo)注型數(shù)據(jù)集的依賴,最終避免數(shù)據(jù)集帶來的偏見。這將是未來的研究方向之一。
(2)從應(yīng)用角度看,發(fā)展專用IQA算法具備現(xiàn)實(shí)性和實(shí)用性,目前還沒有任何1種通用型的IQA算法能勝任所有圖像評測任務(wù)。探索通用的IQA模型也是未來的研究方向。
(3)人對圖像質(zhì)量的主觀評價可以依據(jù)規(guī)則和邏輯推理,如何讓數(shù)據(jù)驅(qū)動的Deep IQA模型融合主觀先驗(yàn)知識,增加邏輯推理過程,提高深度學(xué)習(xí)模型的可解釋性和泛化性,需要做進(jìn)一步研究。
(4)從發(fā)展趨勢看,基于深度學(xué)習(xí)的GAN-IQA方法更具有研究價值。該類方法部分模擬了人類的視覺比較過程,從而使NR-IQA方法具備FR-IQA的優(yōu)勢,但是如何提高模擬參考圖的可靠性是該類算法需要關(guān)注的問題。
(5)基于深度學(xué)習(xí)的IQA算法將圖像特征提取和質(zhì)量分?jǐn)?shù)回歸統(tǒng)一在一個框架內(nèi)完成,但模型的復(fù)雜度高,如果部署到移動終端,需要簡化基于深度學(xué)習(xí)的IQA模型。