劉 海,楊 環(huán),潘振寬,黃寶香,侯國(guó)家
(青島大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,山東青島 266100)
隨著手機(jī)、平板等越來越多的移動(dòng)電子設(shè)備出現(xiàn)在人們的日常生活中,數(shù)字圖像現(xiàn)在已是無處不在,人們對(duì)數(shù)字圖像質(zhì)量的要求越來越高,因此圖像質(zhì)量評(píng)價(jià)技術(shù)應(yīng)運(yùn)而生[1]。圖像質(zhì)量評(píng)價(jià)可分為主觀評(píng)價(jià)和客觀評(píng)價(jià)兩類,主觀評(píng)價(jià)是指人們根據(jù)對(duì)圖像的主觀視覺感受做出的定性評(píng)價(jià),而圖像的客觀評(píng)價(jià)是通過算法或模型來模擬人眼視覺系統(tǒng),從而得到圖像的感知質(zhì)量分?jǐn)?shù)。客觀評(píng)價(jià)相比主觀評(píng)價(jià)具有處理數(shù)據(jù)量大和結(jié)果可重現(xiàn)等特點(diǎn)。
根據(jù)對(duì)參考圖像的依賴程度,圖像客觀質(zhì)量評(píng)價(jià)又可分為全參考圖像質(zhì)量評(píng)價(jià)(FR-IQA)、半?yún)⒖紙D像質(zhì)量評(píng)價(jià)(RR-IQA)和無參考圖像質(zhì)量評(píng)價(jià)(NR-IQA)。全參考圖像質(zhì)量評(píng)價(jià)是在獲取到參考圖像的前提下,將失真圖像與參考圖像進(jìn)行相似度對(duì)比,并計(jì)算出最終質(zhì)量分?jǐn)?shù)。在全參考圖像質(zhì)量評(píng)價(jià)中,均方誤差(Mean Square Error,MSE)和峰值信噪比(Peak Signal to Noise Ratio,PSNR)是較先用來評(píng)估圖像質(zhì)量的標(biāo)準(zhǔn)[2]。但是隨著人眼視覺系統(tǒng)的深入研究,更多的評(píng)價(jià)算法被相繼提出,最典型的算法有結(jié)構(gòu)相似性(Structural Similarity,SSIM)[3]和基于視覺顯著性的索引(Visual-Saliency-based Index,VSI)[4]等算法,SSIM 算法通過計(jì)算圖像的亮度、對(duì)比度和結(jié)構(gòu)的相似度,并將其相結(jié)合而得到最終質(zhì)量分?jǐn)?shù)。然后,研究人員在SSIM 算法的基礎(chǔ)上又提出了G-SSIM[5]、MS-SSIM[6]和3-SSIM[7]等算法。VSI 算法則是通過比較兩幅圖像的顯著性相似度來評(píng)價(jià)圖像的失真程度。因?yàn)槭褂玫搅藚⒖紙D像的全部信息作為輔助對(duì)比,所以通常全參考圖像質(zhì)量評(píng)價(jià)準(zhǔn)確性較好。而半?yún)⒖紙D像質(zhì)量評(píng)價(jià)是根據(jù)參考圖像的部分信息來進(jìn)行失真圖像的質(zhì)量評(píng)估,這些信息可以是圖像的灰度直方圖、變換域的參數(shù)以及圖像熵等統(tǒng)計(jì)信息。文獻(xiàn)[8]提出一種基于離散余弦變換(DCT)系數(shù)分布的半?yún)⒖紙D像質(zhì)量評(píng)價(jià)。無參考圖像質(zhì)量評(píng)價(jià)則完全擺脫了參考圖像的約束,解決了現(xiàn)實(shí)應(yīng)用中無法獲取參考圖像的問題,實(shí)際應(yīng)用能力更強(qiáng)。然而,研究人員對(duì)人眼視覺系統(tǒng)的生理學(xué)和心理學(xué)研究發(fā)現(xiàn),人眼在評(píng)價(jià)圖像的失真程度時(shí),往往需要一個(gè)未失真的圖像作為參考對(duì)比,從而量化視覺感知的差異[9],這也是目前無參考圖像質(zhì)量評(píng)價(jià)面臨的一個(gè)重大挑戰(zhàn)。為解決該問題,傳統(tǒng)的無參考圖像質(zhì)量評(píng)價(jià)算法是從圖像中提取可反映失真信息的特征,然后使用回歸模型進(jìn)行回歸學(xué)習(xí),從而得到圖像質(zhì)量的預(yù)測(cè)分?jǐn)?shù)。該算法的性能主要依賴于手工特征的設(shè)計(jì)提取,而這種特征無法有效表達(dá)圖像質(zhì)量評(píng)價(jià)中的失真類型(如JEPG、JEPG2K 和白色噪聲等)和圖像內(nèi)容(如人、動(dòng)物和植物等)的多樣性和靈活性。近年來,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在計(jì)算機(jī)視覺方面應(yīng)用較為廣泛,研究人員希望通過CNN 中強(qiáng)大的特征表達(dá)能力進(jìn)行無參考圖像質(zhì)量評(píng)價(jià)。公開數(shù)據(jù)集的樣本有限性在很大程度上限制了CNN 在無參考圖像質(zhì)量評(píng)價(jià)模型中的應(yīng)用,還有研究人員將ImageNet 上經(jīng)過預(yù)訓(xùn)練模型的一般圖像特征遷移至圖像質(zhì)量評(píng)價(jià)中[10],但圖像分類與圖像質(zhì)量評(píng)價(jià)之間較低的相關(guān)性以及相似性降低了遷移學(xué)習(xí)的有效性。
在無參考圖像質(zhì)量評(píng)價(jià)中,為彌補(bǔ)視覺感知差異圖像的缺失,可通過使用最新的圖像超分辨重建技術(shù)從失真圖像中修復(fù)得到偽參考圖像,從而進(jìn)一步獲得感知差異圖像。由于圖像修復(fù)是基于只有一種或某種特定失真的假設(shè),但圖像的失真通常不止一種且存在多種失真,因此利用這種方式進(jìn)行無參考圖像質(zhì)量評(píng)價(jià)是不可取的。為此,本文提出使用生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)生成視覺感知差異圖像并用于無參考圖像質(zhì)量評(píng)價(jià)。在生成網(wǎng)絡(luò)中,利用失真圖像產(chǎn)生相應(yīng)的感知差異圖像,并使用判別網(wǎng)絡(luò)對(duì)生成的感知差異圖像進(jìn)行區(qū)分。通過引入梯度特征差異圖的GMAP[11]作為感知差異圖像的真實(shí)值,能夠有效表達(dá)感知失真[12]。使用感知差異圖像指導(dǎo)質(zhì)量評(píng)價(jià)回歸網(wǎng)絡(luò)的學(xué)習(xí),并且除了從失真圖像和GMAP 學(xué)習(xí)一些感知差異特征之外,網(wǎng)絡(luò)還引入了特定的損失函數(shù),這些損失函數(shù)可滿足人眼視覺系統(tǒng)中的感知特性,也可有效表達(dá)視覺感知特征。
無參考圖像質(zhì)量評(píng)價(jià)算法因缺乏參考圖像信息,而只能使用失真圖像來提取感知失真特征。NR-IQA 算法根據(jù)特征提取可分為基于自然場(chǎng)景統(tǒng)計(jì)(NSS)特征和基于特征學(xué)習(xí)的方法兩類。自然場(chǎng)景統(tǒng)計(jì)特征可通過多種方式表達(dá),比如文獻(xiàn)[13]根據(jù)圖像失真造成的信息損失來計(jì)算空間域中不同子集的區(qū)域性交互信息,并預(yù)測(cè)圖像的質(zhì)量分?jǐn)?shù)。文獻(xiàn)[14]分別從非監(jiān)督學(xué)習(xí)的結(jié)構(gòu)信息、自然信息和感知信息3 個(gè)方面來提取統(tǒng)計(jì)特征。文獻(xiàn)[15]提出圖像失真會(huì)引起小波變換的子帶系數(shù)變化,并采用Daubechies 小波變換的廣義高斯分布和系數(shù)作為失真圖像特征。文獻(xiàn)[16]提出圖像的失真程度和離散余弦變換系數(shù)密切相關(guān),利用提取DCT 域中的統(tǒng)計(jì)特征來預(yù)測(cè)質(zhì)量分?jǐn)?shù)。
除了以上提取自然場(chǎng)景統(tǒng)計(jì)特征方法外,通過深度學(xué)習(xí)來表達(dá)特征也取得了顯著進(jìn)展。文獻(xiàn)[17]提出利用淺層CNN 對(duì)圖像質(zhì)量進(jìn)行評(píng)價(jià),且將該方法改進(jìn)為多任務(wù)性網(wǎng)絡(luò),以學(xué)習(xí)圖像的失真類型和質(zhì)量評(píng)價(jià)。文獻(xiàn)[18]采用CNN 提取特征,利用SVR回歸質(zhì)量分?jǐn)?shù)方法計(jì)算圖像的預(yù)測(cè)分?jǐn)?shù)。文獻(xiàn)[19]使用預(yù)訓(xùn)練的ResNet 網(wǎng)絡(luò)提取特征,并根據(jù)特定數(shù)據(jù)集中的失真類型和預(yù)測(cè)分?jǐn)?shù)對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào),以獲取學(xué)習(xí)失真圖像的概率。文獻(xiàn)[20]采用FR-IQA方法在分割圖像塊上生成的質(zhì)量分?jǐn)?shù)作為訓(xùn)練真實(shí)值,并將其用于預(yù)訓(xùn)練模型。
本文通過生成缺少視覺感知差異的信息來模擬HVS 在無參考圖像質(zhì)量評(píng)價(jià)中的應(yīng)用。根據(jù)梯度差異圖像的先驗(yàn)知識(shí),使得本文模型比其他方法具有更好的靈活性和可行性。
生成對(duì)抗網(wǎng)絡(luò)及其各種變體廣泛應(yīng)用于圖像的超分辨率重建和語(yǔ)義分割等方面[21],關(guān)鍵思想是同時(shí)訓(xùn)練生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)。在訓(xùn)練過程中,生成網(wǎng)絡(luò)是通過使用生成結(jié)果來欺騙判別網(wǎng)絡(luò),判別網(wǎng)絡(luò)是判斷生成網(wǎng)絡(luò)的結(jié)果是否真實(shí),則這2 個(gè)網(wǎng)絡(luò)構(gòu)成一個(gè)動(dòng)態(tài)的博弈過程。在理想的訓(xùn)練狀態(tài)下,生成網(wǎng)絡(luò)可產(chǎn)生以假亂真的結(jié)果,而對(duì)于判別網(wǎng)絡(luò)而言,它難以判斷生成網(wǎng)絡(luò)的結(jié)果究竟是否真實(shí),從而得到一個(gè)生成對(duì)抗網(wǎng)絡(luò)模型,用來生成理想的結(jié)果。
本文中輸入的圖像具有各種失真類型和失真級(jí)別,使得模型的穩(wěn)定性至關(guān)重要,并且圖像質(zhì)量回歸網(wǎng)絡(luò)的性能與生成網(wǎng)絡(luò)輸出的結(jié)果緊密相關(guān)。采用特定的損失統(tǒng)計(jì)函數(shù)進(jìn)行穩(wěn)定的生成對(duì)抗訓(xùn)練,以進(jìn)行更為準(zhǔn)確的圖像質(zhì)量評(píng)價(jià)。
本節(jié)將具體介紹本文所提無參考圖像質(zhì)量評(píng)價(jià)模型。該模型的總體框架如圖1 所示,其中虛線部分僅用于模型訓(xùn)練。從圖1 可以看出,本文模型主要是由感知差異生成網(wǎng)絡(luò)G、感知差異判別網(wǎng)絡(luò)D以及質(zhì)量評(píng)價(jià)網(wǎng)絡(luò)A 這3 個(gè)部分組成,并將其命名為GDA-NR-IQA。模型使用生成網(wǎng)絡(luò)G 生成視覺感知差異圖像并作為失真圖像的輔助信息,判別網(wǎng)絡(luò)D 借助GMAP 的先驗(yàn)知識(shí),采用相應(yīng)的對(duì)抗式訓(xùn)練來幫助感知差異生成網(wǎng)絡(luò)G 生成更為合格的結(jié)果,并抑制不良結(jié)果對(duì)A 造成的負(fù)面影響。將感知差異圖像與失真圖像一起輸入到質(zhì)量評(píng)價(jià)網(wǎng)絡(luò)A中,學(xué)習(xí)圖像中更多的感知失真,以達(dá)到準(zhǔn)確評(píng)價(jià)圖像質(zhì)量分?jǐn)?shù)的目的。本文針對(duì)不同的網(wǎng)絡(luò)定義了相對(duì)應(yīng)的損失函數(shù),以提高模型的準(zhǔn)確性和魯棒性。
圖1 GDA-NR-IQA 模型的總體框架Fig.1 The overall framework of GDA-NR-IQA model
視覺感知差異生成對(duì)抗網(wǎng)絡(luò)依靠生成感知差異圖像來彌補(bǔ)NR-IQA 中感知失真差異的缺陷,具體結(jié)構(gòu)如圖2 所示。生成網(wǎng)絡(luò)G 以失真圖像產(chǎn)生感知差異圖像并用來進(jìn)行質(zhì)量評(píng)價(jià),且生成的感知差異圖像與真實(shí)視覺感知差異圖像越接近,則最終的質(zhì)量評(píng)價(jià)網(wǎng)絡(luò)性能越好。判別網(wǎng)絡(luò)D 是判斷生成結(jié)果與真實(shí)結(jié)果的接近程度,使用GMAP 模擬人眼的真實(shí)視覺感知差異。
圖2 視覺感知差異網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of the visual perception difference network
圖像梯度是一種圖像質(zhì)量評(píng)價(jià)中經(jīng)常使用的特征,因?yàn)樗捎行Й@取HVS 非常敏感的圖像局部結(jié)構(gòu)。本文采用梯度差異圖像作為輔助訓(xùn)練,使生成網(wǎng)絡(luò)G 能夠更好地生成感知差異圖像。為了降低噪聲對(duì)圖像質(zhì)量評(píng)價(jià)結(jié)果的影響,實(shí)驗(yàn)使用Prewitt 梯度算子提取圖像的梯度特征,該算子濾波器沿水平方向h(x)和垂直方向v(x)的矩陣可分別定義為:
對(duì)于給定的參考圖像r和失真圖像d,其梯度圖像可表示為:
其中,?表示卷積操作。
梯度差異圖像可定義為:
其中,ε是避免分母為0 的常數(shù),并使得系統(tǒng)保持穩(wěn)定。
生成網(wǎng)絡(luò)G 由3 個(gè)卷積層和7 個(gè)殘差單元組成,而每個(gè)殘差單元中都有2 個(gè)卷積層,2 個(gè)卷積層之間使用ReLU 激活函數(shù)并進(jìn)行批標(biāo)準(zhǔn)化(Batch Normal,BN)處理。每個(gè)殘差單元都將輸入與輸出相結(jié)合,并作為下一個(gè)單元的輸入。判別網(wǎng)絡(luò)D 是一個(gè)6 層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),使用網(wǎng)絡(luò)G 的輸出結(jié)果和GMAP 作為輸入,采用4 個(gè)卷積層和2 個(gè)全連接層區(qū)分生成的感知差異圖像與GMAP。
生成網(wǎng)絡(luò)G 是為了使得網(wǎng)絡(luò)輸出結(jié)果更接近于真實(shí)視覺差異,這主要體現(xiàn)在像素等級(jí)和視覺等級(jí)2 個(gè)方面。當(dāng)給定一組失真圖像di{i=1,2,…,N}與梯度差異圖gi{i=1,2,…,N}時(shí),生成網(wǎng)絡(luò)G 需滿足以下關(guān)系式:
其中,Lp表示輸出結(jié)果與真實(shí)值之間像素級(jí)別的差距,實(shí)驗(yàn)采用MSE 方法進(jìn)行計(jì)算,Lv則表示輸出結(jié)果與真實(shí)值之間視覺等級(jí)的差距。
基于深度學(xué)習(xí)的圖像質(zhì)量評(píng)價(jià)方法主要是通過對(duì)圖像的失真信息進(jìn)行學(xué)習(xí),使得網(wǎng)絡(luò)能夠給出與人類主觀評(píng)分相一致的結(jié)果。人類對(duì)失真圖像的觀察更依靠于視覺上的感知差異,雖然可以利用GMAP 模擬人眼感知特性,但是由于它不能完全模擬人類的視覺感知特性,對(duì)失真特性存在一定的限制。為解決該問題,本文將特定的損失函數(shù)運(yùn)用到網(wǎng)絡(luò)G 中,以提升IQA 模型的整體性能。因?yàn)榕袆e網(wǎng)絡(luò)是針對(duì)判別任務(wù)進(jìn)行訓(xùn)練的,所以每一個(gè)卷積層的特征圖都包含有不同級(jí)別的細(xì)節(jié)信息。將判別網(wǎng)絡(luò)中的特征圖表示為生成感知差異與GMAP 在視覺等級(jí)上的差距,從而保證了輸出結(jié)果與真實(shí)結(jié)果之間的相似性。Lv可表示為:
其中,φj表示判別網(wǎng)絡(luò)D 中第j個(gè)卷積層的特征圖,H和W分別表示特征圖的長(zhǎng)和寬,M表示特征圖的個(gè)數(shù)。
為確保生成網(wǎng)絡(luò)產(chǎn)生合理的感知差異圖像,特別是針對(duì)不同的失真類型和失真級(jí)別,本文在模型中引入了對(duì)抗訓(xùn)練機(jī)制。根據(jù)生成對(duì)抗網(wǎng)絡(luò)的理論,生成網(wǎng)絡(luò)G 產(chǎn)生可以欺騙判別網(wǎng)絡(luò)D 的感知差異圖像。然而,判別網(wǎng)絡(luò)D 通過訓(xùn)練可用來區(qū)分生成的感知差異圖像與真實(shí)差異圖像。因?yàn)槟P偷淖罱K目標(biāo)是通過生成的視覺感知差異圖像來提升質(zhì)量評(píng)價(jià)深度回歸網(wǎng)絡(luò)A 的性能,所以可以使用網(wǎng)絡(luò)A的預(yù)測(cè)結(jié)果來解決上述問題。如果網(wǎng)絡(luò)G 產(chǎn)生的感知差異圖像可以提升網(wǎng)絡(luò)A 的精度,則將產(chǎn)生的結(jié)果圖像定義為真,否則定義為假,即網(wǎng)絡(luò)D 使用網(wǎng)絡(luò)A 的結(jié)果來抑制網(wǎng)絡(luò)G 生成具有負(fù)面影響的感知差異圖。網(wǎng)絡(luò)D 的優(yōu)化函數(shù)可以表示為:
其中,RFi表示根據(jù)網(wǎng)絡(luò)A 的預(yù)測(cè)結(jié)果決定的真假值,且其可定義為如式(8)所示:
其中,si表示失真圖像di的質(zhì)量分?jǐn)?shù)真實(shí)值,pi表示失真圖像di通過生成網(wǎng)絡(luò)G 生成的視覺感知差異圖。
生成網(wǎng)絡(luò)G 最終可被優(yōu)化為通過生成對(duì)網(wǎng)絡(luò)A有利的合格感知差異圖像來欺騙判別網(wǎng)絡(luò)D,則網(wǎng)絡(luò)G 的對(duì)抗損失函數(shù)和損失函數(shù)分別如式(9)和式(10)所示,即生成網(wǎng)絡(luò)G 與判別網(wǎng)絡(luò)D 是通過相互制約以及相互加強(qiáng)的方式而訓(xùn)練出來的。
圖3 給出了訓(xùn)練好的生成網(wǎng)絡(luò)產(chǎn)生的視覺感知差異圖像與其他圖像之間的對(duì)比效果。從圖3 可以看出,在特定失真的情況下,該模型能夠較好掌握?qǐng)D像的失真特性,并對(duì)質(zhì)量評(píng)價(jià)網(wǎng)絡(luò)起到促進(jìn)作用。
圖3 視覺感知差異圖像與其他圖像的對(duì)比效果Fig.3 Comparison effect of visual perception difference images and other images
在圖像質(zhì)量評(píng)價(jià)網(wǎng)絡(luò)A 中,使用失真圖像和學(xué)習(xí)到的感知差異圖像作為輸入,并對(duì)質(zhì)量分?jǐn)?shù)進(jìn)行深度學(xué)習(xí)回歸。失真圖像的失真程度是人類主觀評(píng)價(jià)的重要依據(jù),而感知差異圖像則作為輔助過程對(duì)最終評(píng)價(jià)結(jié)果產(chǎn)生顯著影響。圖像質(zhì)量評(píng)價(jià)網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示,它由特征提取、特征融合以及特征回歸3 個(gè)部分組成。在該網(wǎng)絡(luò)中,特征提取通過4 個(gè)卷積單元來實(shí)現(xiàn),且每個(gè)卷積單元中包含2 個(gè)卷積層,而2 個(gè)卷積層之間使用ReLU 激活函數(shù),在2 個(gè)卷積層之后存在一個(gè)最大池化層。這樣可以得到感知差異圖像的特征fp和失真圖像的特征fd這2 個(gè)高維特征向量,融合層將這2 個(gè)特征進(jìn)行融合連接并作為全連接層的輸入,則融合特征可表示為:
其中,f表示融合后的特征向量,融合前、后每個(gè)特征向量分別為512 維和1 024 維。通過3 個(gè)全連接層組成的回歸網(wǎng)絡(luò)得到失真圖像的預(yù)測(cè)分?jǐn)?shù)。為了使預(yù)測(cè)的圖像分?jǐn)?shù)與主觀評(píng)分之間具有線性關(guān)系,本文將圖像質(zhì)量評(píng)價(jià)網(wǎng)絡(luò)A 的最終損失函數(shù)定義為:
其中,dt和pt分別表示第t個(gè)輸入網(wǎng)絡(luò)的失真圖像和感知差異圖像,st表示對(duì)應(yīng)圖像的主觀評(píng)價(jià)分?jǐn)?shù),F(xiàn)(·)表示非線性函數(shù),T表示每批次輸入的圖像總數(shù)量。
圖4 圖像質(zhì)量評(píng)價(jià)網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of image quality assessment
本文將失真圖像和相應(yīng)的參考圖像隨機(jī)裁剪為256×256,通過將計(jì)算失真圖像和參考圖像之間的GMAP 作為視覺感知差異生成對(duì)抗網(wǎng)絡(luò)訓(xùn)練集數(shù)據(jù)的一部分。在生成網(wǎng)絡(luò)中,通過使用7 個(gè)殘差單元來生成感知差異圖像。在判別網(wǎng)絡(luò)中,采用6 層卷積神經(jīng)網(wǎng)絡(luò)判別生成的感知差異圖像,并將失真圖像與生成的感知差異圖像通過雙卷積神經(jīng)網(wǎng)絡(luò)回歸出圖像的質(zhì)量預(yù)測(cè)分?jǐn)?shù)。算法1 列出了基于生成感知差異的無參考圖像質(zhì)量評(píng)價(jià)模型(GDA-NR-IQA)的訓(xùn)練過程。
算法1基于生成感知差異的無參考圖像質(zhì)量評(píng)價(jià)
輸入失真圖像d
輸出失真圖像的預(yù)測(cè)質(zhì)量分?jǐn)?shù)s
步驟1通過失真圖像d與參考圖像r計(jì)算得出梯度差異圖像的GMAP。
步驟2將失真圖像d與GMAP 輸入生成對(duì)抗網(wǎng)絡(luò)中,對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以生成感知差異圖像p。
步驟3將失真圖像d與生成的感知差異圖像p輸入質(zhì)量評(píng)價(jià)網(wǎng)絡(luò)中并對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
步驟4將失真圖像d輸入訓(xùn)練好的生成對(duì)抗網(wǎng)絡(luò),以獲取感知差異的圖像。
步驟5將失真圖像d與生成的感知差異圖像p同時(shí)輸入質(zhì)量評(píng)價(jià)網(wǎng)絡(luò),得到圖像質(zhì)量的預(yù)測(cè)分?jǐn)?shù)s。
針對(duì)訓(xùn)練時(shí)網(wǎng)絡(luò)模型的優(yōu)化算法,本文采用自適應(yīng)矩估計(jì)(ADAM)算法來代替?zhèn)鹘y(tǒng)的隨機(jī)梯度下降法(SGD)。參數(shù)設(shè)置為α=0.003、β1=0.5、β2=0.999,網(wǎng)絡(luò)中的權(quán)值都是以0 為中心、標(biāo)準(zhǔn)差為0.02的正態(tài)分布初始化的。實(shí)驗(yàn)是基于TID2013 數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練,其中訓(xùn)練集所占的比重為0.8,測(cè)試集的比重為0.2。
在實(shí)驗(yàn)中,模型使用MATLAB 中的Caffe 工具開發(fā),利用包含2.50 GHz CPU 和GTX1080 GPU 的服務(wù)器訓(xùn)練模型,其中GPU 用于加快模型的處理速度。本文在TID2013 數(shù)據(jù)庫(kù)上進(jìn)行模型訓(xùn)練時(shí)大約花費(fèi)15 h,在測(cè)試階段中,每個(gè)圖像的平均處理時(shí)間約為0.2 s。
為了驗(yàn)證本文模型的性能,實(shí)驗(yàn)在TID2013[22]數(shù)據(jù)庫(kù)上訓(xùn)練模型,并在LIVE[23]、CSIQ[24]和TID2008[25]數(shù)據(jù)庫(kù)上進(jìn)行驗(yàn)證。LIVE 數(shù)據(jù)庫(kù)中含779 幅失真圖像,分別來自于29 幅參考圖像的5 種不同失真。CSIQ 數(shù)據(jù)庫(kù)中含有866 幅失真圖像,分別來自于30 幅參考圖像的6 種不同失真。TID2008 數(shù)據(jù)庫(kù)則是將25 幅參考圖像通過17 種不同的失真類型,4 種不同的失真級(jí)別共獲得了1 700(25×17×4)幅失真圖像。TID2013 數(shù)據(jù)庫(kù)在此基礎(chǔ)上增加了7 種失真類型和1 種失真級(jí)別,從而獲得了3 000 幅失真圖像。該數(shù)據(jù)庫(kù)的主觀評(píng)分是由971 位觀察者給出524 340 個(gè)數(shù)據(jù)統(tǒng)計(jì)而得出。
實(shí)驗(yàn)使用以下3 個(gè)評(píng)價(jià)指標(biāo)對(duì)本文模型的準(zhǔn)確性進(jìn)行評(píng)估:斯皮爾曼等級(jí)相關(guān)系數(shù)(Spearman Rank Order Correlation Coeficient,SROCC)、皮爾遜線性相關(guān)系數(shù)(Pearson Linear Correlation Coeffi cient,PLCC)和均方根誤差(Root Mean Squared Error,RMSE)。本文通過計(jì)算預(yù)測(cè)分?jǐn)?shù)值與主觀分?jǐn)?shù)值之間的SROCC、PLCC 和RMSE 來比較各類算法的準(zhǔn)確性,SROCC 和PLCC 的范圍為[0,1],且其值越高,則表示算法的準(zhǔn)確度越高,而RMSE 越低則表示算法預(yù)測(cè)的得分與主觀分?jǐn)?shù)之間的差異越小。
為了研究模型中關(guān)鍵部分的有效性,本文在TID2008 數(shù)據(jù)庫(kù)上進(jìn)行基于不同損失函數(shù)的消融實(shí)驗(yàn)。實(shí)驗(yàn)將采用不同損失函數(shù)生成的感知差異圖像和失真圖像輸入至同一圖像質(zhì)量評(píng)價(jià)網(wǎng)絡(luò)中,用SROCC、PLCC 以及RMSE 值來體現(xiàn)不同損失函數(shù)對(duì)GDA-NR-IQA 性能的影響,結(jié)果如表1 所示。其中,Lp和Lv表示僅使用像素等級(jí)差異或視覺等級(jí)差異作為損失函數(shù),La表示相應(yīng)的對(duì)抗損失函數(shù),接下來將三者結(jié)合起來(Lp+Lv+La)進(jìn)行模型訓(xùn)練。從表1 可以看出,Lv和La可以顯著提高網(wǎng)絡(luò)的整體精度,Lv和La的加入均可縮小預(yù)測(cè)分?jǐn)?shù)與主觀評(píng)價(jià)分?jǐn)?shù)之間的差距。Lp+La的方式可使模型更好地學(xué)習(xí)到感知失真差異信息,而Lv的加入可使生成的感知差異圖像更符合人類感知特性,并且Lp+Lv+La使得模型的SROCC 和PLCC 值達(dá)到最高,這說明本文提出的損失函數(shù)對(duì)模型的有效性以及評(píng)價(jià)能力均有顯著提升。
表1 不同損失函數(shù)在TID2008 數(shù)據(jù)庫(kù)上的結(jié)果對(duì)比Table 1 Comparison of the results of different loss functions on TID2008 database
深度學(xué)習(xí)在人臉識(shí)別、機(jī)器翻譯等各項(xiàng)任務(wù)中取得顯著效果,這是因?yàn)樽銐蛏畹木W(wǎng)絡(luò)深度起到關(guān)鍵作用,一定的網(wǎng)絡(luò)深度可以產(chǎn)生更好的非線性表達(dá)能力,并且可以學(xué)習(xí)到復(fù)雜性更高的細(xì)節(jié)圖像特征。本文模型使用具有7 個(gè)殘差單元網(wǎng)絡(luò)生成圖像的感知差異圖像,并采用不同網(wǎng)絡(luò)深度在CSIQ 數(shù)據(jù)庫(kù)上進(jìn)行圖像質(zhì)量評(píng)價(jià)性能對(duì)比,結(jié)果如圖5 所示。從圖5 可以看出,網(wǎng)絡(luò)深度的加深可有效提升模型性能以及對(duì)失真圖像的評(píng)價(jià)能力,但是當(dāng)殘差單元數(shù)量達(dá)到7 個(gè)后,網(wǎng)絡(luò)深度的加深對(duì)性能影響不顯著,且還會(huì)引起更為復(fù)雜的網(wǎng)絡(luò)優(yōu)化問題以及增加網(wǎng)絡(luò)參數(shù)量和模型時(shí)間復(fù)雜度。因此,本文選擇使用7 個(gè)殘差單元來構(gòu)建生成網(wǎng)絡(luò)。
圖5 殘差單元數(shù)量對(duì)本文模型性能的影響Fig.5 Effect of the number of residual units on the performance of the proposed model
在現(xiàn)實(shí)應(yīng)用中,失真圖像通常不僅只有一種失真,而是多種失真結(jié)果之間相互產(chǎn)生影響造成的。不同的失真類型都有其獨(dú)特特點(diǎn),為研究GDA-NR-IQA在不同失真類型下的精度問題,將提出的本文模型與BRISQUE[26]、CORNIA[27]、CNN[17]、SOM[28]和BIECON[20]這5 種具有代表性的NR-IQA 模型在LIVE 數(shù)據(jù)庫(kù)中進(jìn)行基于不同失真類型的實(shí)驗(yàn)對(duì)比,結(jié)果如表2 所示。其中,最優(yōu)結(jié)果加粗表示。從表2可以看出,除了快速衰落失真(FF)外,針對(duì)其他4 種失真,GDA-NR-IQA 比其他模型的準(zhǔn)確性高,這也說明本文模型具有良好的優(yōu)越性。同時(shí),在LIVE 數(shù)據(jù)庫(kù)中的整體性能表明,GDA-NR-IQA 在多重失真的情況下還能通過有效生成感知差異圖像對(duì)失真圖像的質(zhì)量分?jǐn)?shù)進(jìn)行預(yù)測(cè)。
表2 6 種模型在不同失真類型下的性能對(duì)比Table 2 Performance comparison of six models under different distortion types
為進(jìn)一步驗(yàn)證GDA-NR-IQA 的有效性,在LIVE、TID2008 和TID2013 這3 種主流圖像質(zhì)量評(píng)價(jià)數(shù)據(jù)庫(kù)中,實(shí)驗(yàn)對(duì)本文模型與PSNR、IFC、SSIM 和VSI 這4 種FR-IQA 模型以及DIIVINE[29]、BRISQUE、CNN、SOM、CORNIA 和BIECON 這6 種代表性NR-IQA 模型進(jìn)行對(duì)比分析,結(jié)果如表3所示。其中,最優(yōu)結(jié)果加粗表示。從表3 可以看出,GDA-NR-IQA 在3 種數(shù)據(jù)集上的結(jié)果優(yōu)于其他模型。從表中還可以看出,本文模型在LIVE數(shù)據(jù)庫(kù)中評(píng)價(jià)結(jié)果的提升效果并不明顯,而在TID2008與TID2013 數(shù)據(jù)集中相比其他模型提升了1 個(gè)百分點(diǎn)以上,這主要是因?yàn)長(zhǎng)IVE 數(shù)據(jù)庫(kù)具有較少的失真圖像數(shù)據(jù)量,在計(jì)算預(yù)測(cè)分?jǐn)?shù)與主觀評(píng)分之間的相關(guān)性時(shí),由于測(cè)試樣本過少使得模型的提升效果不顯著,且該模型在后兩種數(shù)據(jù)庫(kù)中的評(píng)價(jià)結(jié)果則能更好地反映出模型整體性能的優(yōu)越性。而針對(duì)本文提出的模型,發(fā)現(xiàn)其在TID2008 和TID2013 數(shù)據(jù)庫(kù)中的相關(guān)性結(jié)果相比于LIVE 數(shù)據(jù)庫(kù)都出現(xiàn)了明顯下降,這主要是因?yàn)榍皟煞N數(shù)據(jù)庫(kù)的失真類型和失真圖像的數(shù)量均遠(yuǎn)大于LIVE 數(shù)據(jù)庫(kù),而GDA-NR-IQA 在TID2013數(shù)據(jù)庫(kù)中SROCC和PLCC也分別達(dá)到了0.918和0.925,相比于其他評(píng)價(jià)模型也提升了1.5 個(gè)百分點(diǎn)以上,這表明GDA-NR-IQA 在更加復(fù)雜的失真類型和更大的失真數(shù)據(jù)量下,也能夠獲得良好的精度。
表3 不同模型在3 種數(shù)據(jù)庫(kù)上的性能對(duì)比Table 3 Performance comparison of different models on three databases
本文提出一種基于生成視覺感知差異的無參考圖像質(zhì)量評(píng)價(jià)方法。采用失真圖像和GMAP 構(gòu)造一個(gè)生成網(wǎng)絡(luò)并生成合理的視覺感知差異圖像,利用構(gòu)造的判別網(wǎng)絡(luò)對(duì)生成的感知差異圖像和GMAP進(jìn)行區(qū)分,并結(jié)合使用特定的損失函數(shù)通過逆向?qū)W習(xí)的方式增強(qiáng)生成圖像的合理性,以彌補(bǔ)無參考圖像質(zhì)量評(píng)價(jià)算法中視覺感知失真差異的缺失。實(shí)驗(yàn)結(jié)果表明,本文模型在生成感知差異圖像能力方面取得了顯著效果,且與人眼主觀評(píng)分具有較高的一致性。由于本文模型僅考慮了人眼的視覺差異特性,因此下一步將對(duì)加入更多人眼視覺特性的人眼視覺系統(tǒng)進(jìn)行研究,以得到通用性更強(qiáng)且預(yù)測(cè)精度更高的模型。