張婷悅,張凱兵
(西安工程大學(xué) 電子信息學(xué)院,陜西 西安 710048)
圖像分辨率是評(píng)價(jià)圖像的重要指標(biāo)。一般而言,圖像分辨率越高,所承載的信息越豐富,視覺(jué)質(zhì)量越高。圖像超分辨是一種有效提高圖像分辨率的技術(shù),該技術(shù)能突破成像設(shè)備物理分辨率的限制,生成具有豐富更多細(xì)節(jié)的超分辨圖像[1]。因此,如何評(píng)價(jià)超分辨圖像質(zhì)量,進(jìn)而優(yōu)化超分辨重建算法,對(duì)研究圖像超分辨技術(shù)尤為重要[2-3]。
根據(jù)評(píng)價(jià)主體的不同,圖像質(zhì)量評(píng)價(jià)(image quality assessment, IQA)方法可分為主觀質(zhì)量評(píng)價(jià)和客觀質(zhì)量評(píng)價(jià)。主觀質(zhì)量評(píng)價(jià)在規(guī)定實(shí)驗(yàn)情境下對(duì)多位觀測(cè)者給出的質(zhì)量評(píng)分進(jìn)行處理,將MOS作為超分辨圖像的質(zhì)量。該方法可信度高,但費(fèi)時(shí)費(fèi)力,一般不能在圖像超分辨重建系統(tǒng)中直接應(yīng)用[4]。客觀質(zhì)量評(píng)價(jià)方法通過(guò)設(shè)計(jì)計(jì)算模型對(duì)超分辨圖像質(zhì)量進(jìn)行自動(dòng)評(píng)價(jià)。根據(jù)評(píng)價(jià)過(guò)程中所用到的原始圖像信息的多少,大體分為全參考型(full-reference, FR)、部分參考型(reduced-reference, RR)和無(wú)參考型(no-reference, NR)[5]3種類(lèi)型。峰值信噪比(peak signal to noise ratio, PSNR)和結(jié)構(gòu)相似性(structural similarity, SSIM)[6]是廣泛應(yīng)用于評(píng)價(jià)超分辨圖像的質(zhì)量,不過(guò)這2種指標(biāo)在評(píng)價(jià)超分辨圖像質(zhì)量時(shí),沒(méi)有考慮超分辨圖像的自然度,評(píng)價(jià)結(jié)果與人類(lèi)主觀感知質(zhì)量的一致性較差[7]。由于FR-IQA和RR-IQA在評(píng)價(jià)超分辨圖像質(zhì)量時(shí),均需要原始圖像或原始圖像的部分信息,然而,在實(shí)際中原始高分辨圖像難以獲得,使得FR-IQA和RR-IQA方法不適合用于評(píng)價(jià)超分辨圖像的質(zhì)量。
相比之下,NR-IQA方法在評(píng)價(jià)圖像質(zhì)量時(shí),不需要原始圖像作為參考。LIU等提出了空間光譜熵質(zhì)量(spatial-spectral entropy-based quality, SSEQ)方法[8],該方法提取失真圖像中的局部空間和光譜熵特征度量圖像失真程度,使用支持向量回歸預(yù)測(cè)圖像質(zhì)量分?jǐn)?shù)。SAAD等提出BLIINDS-Ⅱ方法[9],利用多元高斯分布模型對(duì)從失真圖像中提取到的離散余弦變換(discrete cosine transform, DCT)統(tǒng)計(jì)域特征進(jìn)行擬合,利用建立的分布模型預(yù)測(cè)圖像質(zhì)量分?jǐn)?shù)。KANG等提出了一個(gè)5層的卷積網(wǎng)絡(luò)模型預(yù)測(cè)圖像的失真程度[10]。盡管上述方法在自然圖像數(shù)據(jù)庫(kù)上能有效地反映出圖像的失真程度,然而,利用自然圖像質(zhì)量評(píng)價(jià)方法并不能適用于超分辨圖像的質(zhì)量評(píng)價(jià)。相比于自然圖像的失真,超分辨圖像的失真呈多樣化,不同超分辨算法生成的超分辨圖像包含不同類(lèi)型的失真。針對(duì)超分辨圖像,MA等提出了一種基于隨機(jī)森林回歸和脊回歸的2層超分辨圖像質(zhì)量評(píng)價(jià)模型[11]。BARE等根據(jù)殘差網(wǎng)絡(luò)的特性[12],構(gòu)建了一種基于跨連接的超分辨圖像質(zhì)量評(píng)價(jià)方法。文獻(xiàn)[13]在AlexNet基礎(chǔ)上[14],構(gòu)建了一個(gè)基于紋理特征和結(jié)構(gòu)特征的雙流網(wǎng)絡(luò),實(shí)現(xiàn)超分辨圖像質(zhì)量評(píng)價(jià)。在大量的訓(xùn)練樣本可用的情況下,基于深度學(xué)習(xí)的IQA方法能取得很好的評(píng)價(jià)性能。然而,在訓(xùn)練樣本不足的情況下,基于深度學(xué)習(xí)的質(zhì)量評(píng)價(jià)模型容易導(dǎo)致過(guò)擬合。
由于人類(lèi)視覺(jué)感知系統(tǒng)具有稀疏性,人眼在評(píng)價(jià)圖像質(zhì)量時(shí),并不考慮圖像的全部信息,而是根據(jù)某些區(qū)域的退化程度來(lái)判斷圖像質(zhì)量的好壞,基于人類(lèi)視覺(jué)系統(tǒng)的上述特性,本文提出了一種基于稀疏表示的NR-SRIQA方法。在訓(xùn)練階段,該方法從超分辨圖像中提取影響圖像質(zhì)量變化的感知統(tǒng)計(jì)特征表征圖像質(zhì)量,利用超分辨圖像訓(xùn)練集特征和MOS構(gòu)成超完備字典。在評(píng)價(jià)圖像質(zhì)量時(shí),將測(cè)試集中超分辨圖像的感知特征表示為超完備字典中少數(shù)基原子的稀疏線性組合,利用得到的稀疏表示系數(shù)對(duì)相關(guān)原子的MOS進(jìn)行加權(quán)求和,即為測(cè)試集中超分辨圖像的預(yù)測(cè)分?jǐn)?shù)。
人類(lèi)視覺(jué)系統(tǒng)對(duì)于圖像信息感知具有稀疏性[15]。本文利用稀疏表示模型建立超分辨圖像的質(zhì)量評(píng)價(jià)模型。
基于稀疏表示的超分辨圖像質(zhì)量評(píng)價(jià)方法首先構(gòu)造由超分辨圖像的視覺(jué)感知特征和MOS主觀質(zhì)量分?jǐn)?shù)構(gòu)成的超完備字典[16]:
M=[m1,m2,…,mi,…,mk]
(1)
D=[x1,x2,…,xi,…,xk]
(2)
式中:M為訓(xùn)練集圖像對(duì)應(yīng)的MOS;mi∈R為第i幅超分辨圖像的主觀質(zhì)量分?jǐn)?shù);k為原子的總個(gè)數(shù);D為提取訓(xùn)練集圖像特征構(gòu)造得到的超完備字典;xi∈Rn是字典D中的第i個(gè)原子,對(duì)應(yīng)于訓(xùn)練集中第i幅圖像的視覺(jué)統(tǒng)計(jì)特征?;谛盘?hào)的稀疏表示理論,可以用字典中基原子的稀疏線性組合重構(gòu)測(cè)試圖像的特征,其代價(jià)目標(biāo)函數(shù)表示為
(3)
式中:y為測(cè)試圖像的視覺(jué)統(tǒng)計(jì)特征;DαT為字典與稀疏表示系數(shù)重構(gòu)的特征;λ為用于平衡重構(gòu)誤差與稀疏度的正則化參數(shù);‖·‖1為l1范數(shù)。通過(guò)求解滿(mǎn)足式(3)的稀疏表示系數(shù)α,利用稀疏表示系數(shù)對(duì)M進(jìn)行線性加權(quán),即可得到測(cè)試圖像的預(yù)測(cè)質(zhì)量分?jǐn)?shù)為
S=Mα
(4)
式中:S為測(cè)試圖像的預(yù)測(cè)質(zhì)量分?jǐn)?shù)。
本文提出的超分辨圖像質(zhì)量評(píng)價(jià)方法的總體框架如圖1所示。
圖 1 基于稀疏表示的無(wú)參考型超分辨圖像 質(zhì)量評(píng)價(jià)方法的總體框架Fig.1 Framework of NR-SRIQA based on sparse representation
由圖1,本文方法分為訓(xùn)練和測(cè)試2個(gè)階段。在學(xué)習(xí)過(guò)程中,將數(shù)據(jù)庫(kù)中的圖像進(jìn)行隨機(jī)劃分,將80%的圖像用作訓(xùn)練,20%的圖像用作測(cè)試。
在訓(xùn)練階段,首先提取訓(xùn)練集中超分辨圖像的視覺(jué)感知統(tǒng)計(jì)特征,分別將提取的視覺(jué)統(tǒng)計(jì)特征和對(duì)應(yīng)的主觀質(zhì)量構(gòu)成超完備字典D和M,且D中的每個(gè)列向量對(duì)應(yīng)從訓(xùn)練集中提取的超分辨圖像視覺(jué)統(tǒng)計(jì)特征。
在測(cè)試階段,任意給定一幅測(cè)試圖像,首先提取視覺(jué)感知特征向量y,然后求解其關(guān)于D的稀疏表示系數(shù)α,利用得到的稀疏表示系數(shù)對(duì)M進(jìn)行稀疏線性組合,即為測(cè)試圖像的預(yù)測(cè)分?jǐn)?shù)。通過(guò)分析測(cè)試集圖像的預(yù)測(cè)分?jǐn)?shù)與MOS之間的誤差,調(diào)整模型參數(shù)λ,使建立的超分辨圖像質(zhì)量評(píng)價(jià)模型的預(yù)測(cè)效果達(dá)到最優(yōu)。
提取能有效反映超分辨圖像質(zhì)量的視覺(jué)感知統(tǒng)計(jì)特征,是建立與人類(lèi)視覺(jué)感知質(zhì)量具有較好一致性的質(zhì)量評(píng)價(jià)模型的首要關(guān)鍵問(wèn)題。為有效表征超分辨圖像質(zhì)量,本文選取局部頻域特征和全局頻域特征進(jìn)行融合,以構(gòu)造超完備字典。
局部頻域特征f1:將超分辨圖像從空間域轉(zhuǎn)換到DCT域,通過(guò)廣義高斯分布擬合DCT系數(shù),表示為
(5)
全局頻域特征f2:采用高斯尺度混合模型(Gaussian scale mixture,GSM)擬合鄰域小波帶的小波系數(shù),用于描述自然圖像的邊緣和聯(lián)合統(tǒng)計(jì)特征[17],從而構(gòu)成45維的全局頻域特征f2。
對(duì)局部頻域特征和全局頻域特征按如式(6)進(jìn)行特征融合,用于表征超分辨圖像的質(zhì)量,即:
F=[f1f2]
(6)
通過(guò)融合局部頻域特征和全局頻域特征表示超分辨圖像的質(zhì)量,有利于獲得與人眼感知質(zhì)量具有更好一致性的質(zhì)量評(píng)價(jià)模型。在基于稀疏表示的超分辨質(zhì)量評(píng)價(jià)模型中,正則參數(shù)λ的大小影響稀疏表示解向量中非零元素的個(gè)數(shù),從而對(duì)質(zhì)量預(yù)測(cè)模型的精度具有一定的影響。如果λ過(guò)大,α中非零元素較少,則建立的質(zhì)量評(píng)價(jià)模型預(yù)測(cè)的質(zhì)量分?jǐn)?shù)與實(shí)際MOS相差較大;反之,中非零元素較多,會(huì)導(dǎo)致模型過(guò)擬合,而且會(huì)增加質(zhì)量評(píng)價(jià)模型的計(jì)算復(fù)雜度。經(jīng)過(guò)參數(shù)選擇實(shí)驗(yàn),本文選定正則參數(shù)λ為0.01。
本文使用文獻(xiàn)[11]建立的超分辨圖像數(shù)據(jù)庫(kù)和文獻(xiàn)[4]建立的超分辨圖像質(zhì)量評(píng)價(jià)數(shù)據(jù)庫(kù)(quality assessment database for SRIs, QADS)驗(yàn)證所提出的NR-SRIQA方法的有效性,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行比較和分析。
文獻(xiàn)[11]的超分辨圖像數(shù)據(jù)庫(kù)從伯克利分割數(shù)據(jù)庫(kù)(Berkeley segmentation dataset, BSD200)[18]中選取30幅具有代表性的高分辨率圖像,通過(guò)下采樣和模糊運(yùn)算將原始圖像退化為低分辨圖像,利用Yang13[19]、Yang10[20]、Dong[21]、SRCNN[22]、BP[23]、Glasner[24]、Tim13[25]、雙立法插值和Shan[26]9種超分辨算法,6種不同的放大因子(2、3、4、5、6、8)和6種不同高斯核(0.8、1.0、1.2、1.6、1.8、2.0),生成1 620幅超分辨圖像。對(duì)生成的超分辨圖像進(jìn)行主觀質(zhì)量評(píng)價(jià)實(shí)驗(yàn)。在一個(gè)高分辨率的播放器上每次同時(shí)播放同一幅低分辨圖像(利用9種不同的超分辨算法生成的超分辨圖像),受試者被要求基于視覺(jué)偏好給出[0,10]的分?jǐn)?shù)。每幅圖像收集50個(gè)分?jǐn)?shù),去掉10個(gè)離群值求剩余40個(gè)分?jǐn)?shù)的均值,作為對(duì)應(yīng)超分辨圖像的MOS值。
QADS的原始圖像來(lái)源于多損失圖像數(shù)據(jù)庫(kù)(multiply distorted image database, MDID)[27],從該數(shù)據(jù)庫(kù)中選擇具有較大范圍空間信息和色彩信息的20幅高分辨率圖像進(jìn)行實(shí)驗(yàn)。所有參考圖像分辨率為504×384。對(duì)高分辨率圖像, 分別使用3種不同的尺度因子k(k=2,3,4)進(jìn)行雙立方下采樣得到對(duì)應(yīng)的低分辨率圖像,使用21種超分辨算法(包括4種基于插值的方法,11種基于字典的方法和6種基于深度學(xué)習(xí)的方法)生成超分辨圖像。對(duì)生成的超分辨圖像裁剪為500×380的分辨率。QADS共980幅超分辨圖像,由100個(gè)受試者參與主觀實(shí)驗(yàn),去掉主觀質(zhì)量評(píng)分的離群值后平均得到MOS值。
準(zhǔn)確性指標(biāo):使用均方根誤差(root squared error, RMSE)計(jì)算MOS和算法預(yù)測(cè)分?jǐn)?shù)之間的均方根誤差,該值越小,則代表預(yù)測(cè)的質(zhì)量越準(zhǔn)確[4]。
相關(guān)性指標(biāo):使用皮爾遜線性相關(guān)系數(shù)(Pearson linear correlation coefficient, PLCC)計(jì)算預(yù)測(cè)分?jǐn)?shù)和MOS之間的相關(guān)性,該值越大就表明質(zhì)量評(píng)價(jià)算法的性能越好。
單調(diào)性的指標(biāo):Spearman秩相關(guān)系數(shù)(Spearman′s rank ordered correlation coefficient, SROCC)分別將預(yù)測(cè)分?jǐn)?shù)和MOS按照升序排列,通過(guò)分析圖像在2個(gè)數(shù)據(jù)集中序號(hào)之間的關(guān)系來(lái)評(píng)價(jià)超分辨圖像質(zhì)量評(píng)價(jià)方法的性能。而Kendall秩相關(guān)系數(shù)(Kendall rank ordered correlation coefficient, KROCC)通過(guò)對(duì)比2個(gè)數(shù)據(jù)集中序號(hào)一致的圖像數(shù)量和序號(hào)不一致的圖像數(shù)量之間的相關(guān)性來(lái)評(píng)價(jià)預(yù)測(cè)分?jǐn)?shù)與MOS之間的單調(diào)性,從而度量超分辨圖像質(zhì)量評(píng)價(jià)算法的性能。SROCC和KROCC 2種指標(biāo)值的范圍為[0, 1],它們的值越大,則表明質(zhì)量評(píng)價(jià)算法的性能越好。
為驗(yàn)證融合局部頻域特征和全局頻域特征對(duì)超分辨質(zhì)量評(píng)價(jià)的有效性,分別將融合特征和單獨(dú)使用局部頻域特征和全局頻域特構(gòu)造3個(gè)不同的超完備字典。表1給出了3種特征在超分辨圖像數(shù)據(jù)庫(kù)上實(shí)驗(yàn)對(duì)比結(jié)果。
表 1 特征融合實(shí)驗(yàn)Tab.1 Experiment of feature fusion
由表1的對(duì)比結(jié)果可以看出,與全局頻域特征相比,局部頻域特征具有較好的性能,而將局部頻域特征和全局頻域特征進(jìn)行融合后獲得的性能優(yōu)于單個(gè)特征構(gòu)造超完備字典建立評(píng)價(jià)模型的性能,能獲得與人類(lèi)視覺(jué)感知質(zhì)量一致性更高的評(píng)價(jià)結(jié)果。
為進(jìn)一步驗(yàn)證基于稀疏表示的超分辨圖像質(zhì)量評(píng)價(jià)方法的有效性,使用文獻(xiàn)[11]和QADS 2個(gè)超分辨質(zhì)量評(píng)價(jià)數(shù)據(jù)庫(kù)進(jìn)行對(duì)比實(shí)驗(yàn),對(duì)比方法包括2種FR-IQA方法SSIM、FSIM[28]和3種NR-IQA方法SSEQ、BLIINDS-Ⅱ、文獻(xiàn)[11]方法。其中SSIM方法是文獻(xiàn)[6]提出的圖像結(jié)構(gòu)相似性評(píng)價(jià)方法,該方法綜合考慮了原始圖像和失真圖像之間的亮度、對(duì)比度以及局部結(jié)構(gòu)3方面的相似度來(lái)量化失真圖像的質(zhì)量分?jǐn)?shù)。文獻(xiàn)[28]在SSIM的基礎(chǔ)上,將失真圖像分塊,提取塊的相位一致性和梯度特征信息并計(jì)算相似度,使用相位信息加權(quán)塊圖像的相似度計(jì)算整體圖像的質(zhì)量分?jǐn)?shù)。SSIM、FSIM直接對(duì)超分辨圖像和原始圖像進(jìn)行計(jì)算,將預(yù)測(cè)的分?jǐn)?shù)歸一化后計(jì)算評(píng)價(jià)指標(biāo)。
SSEQ、BLIINDS-Ⅱ、文獻(xiàn)[11]方法以及本文方法使用五倍交叉[5]。五倍交叉驗(yàn)證將數(shù)據(jù)集均勻分成5份,分別使用其中4份作為訓(xùn)練集,剩余1份作為測(cè)試集。循環(huán)5次后,樣本中的每個(gè)數(shù)據(jù)都被預(yù)測(cè)了1次,最終可以得到整個(gè)數(shù)據(jù)庫(kù)的預(yù)測(cè)結(jié)果。表2給出了在超分辨圖像數(shù)據(jù)庫(kù)上的對(duì)比實(shí)驗(yàn)結(jié)果,表3給出了在QADS上的對(duì)比實(shí)驗(yàn)結(jié)果。
表 2 文獻(xiàn)[11]超分辨圖像數(shù)據(jù)庫(kù)上的質(zhì)量評(píng)價(jià) 算法的性能比較Tab.2 Comparative result of different IQA methods on the super-resolution image database of reference[11]
表 3 QADS上質(zhì)量評(píng)價(jià)算法的性能比較Tab.3 Comparative result of different IQA methods on the QADS
從表2和表3的實(shí)驗(yàn)結(jié)果可以看出,相比于FR-IQA方法,NR-IQA方法均能獲得更優(yōu)的評(píng)價(jià)效果。這是由于FR-IQA方法只考慮了參考圖像和超分辨圖像之間的相似性度量,忽略了與人類(lèi)主觀感知的一致性因素。在另外4種NR-IQA方法中,除在RMSE指標(biāo)上略低于文獻(xiàn)[11]方法外,本文提出的基于稀疏表示的NR-SRIQA方法的性能均優(yōu)于其他方法。而且相比文獻(xiàn)[11]方法,本文方法在性能指標(biāo)上具有明顯的優(yōu)勢(shì)。需要注意的是,QADS的主觀質(zhì)量分?jǐn)?shù)在[0, 1]之間,為便于比較,將MOS值放大到[0, 10]。由于QADS中的樣本數(shù)量較少、樣本類(lèi)型復(fù)雜,對(duì)本文方法的正則參數(shù)進(jìn)行微調(diào),λ選為0.011。在表3中,盡管本文方法性能有所下降,仍具有一定的優(yōu)勢(shì)。在相關(guān)性和單調(diào)性的指標(biāo)上都高于文獻(xiàn)[11]方法。
為定性分析不同質(zhì)量評(píng)價(jià)模型的預(yù)測(cè)分?jǐn)?shù)與主觀分?jǐn)?shù)之間的一致性,圖2和圖3分別給出了這6種方法在文獻(xiàn)[11]超分辨圖像數(shù)據(jù)庫(kù)和QADS上的散點(diǎn)圖。
(a)SSIM (b)FSIM (c)SSEQ
(d)BLIINDS-Ⅱ (e)文獻(xiàn)[11]方法 (f)本文方法圖 2 超分辨圖像數(shù)據(jù)集上質(zhì)量評(píng)價(jià)算法預(yù)測(cè)圖像質(zhì)量的散點(diǎn)圖Fig.2 Scatter plot of image quality predicted by quality evaluation algorithm on the super-resolution image database
(a)SSIM (b)FSIM (c)SSEQ
(d)BLIINDS-Ⅱ (e)文獻(xiàn)[11]方法 (f)本文方法圖 3 QADS上質(zhì)量評(píng)價(jià)算法預(yù)測(cè)圖像質(zhì)量的散點(diǎn)圖Fig.3 Scatter plot of image quality predicted by quality evaluation algorithm on QADS
在圖2和圖3的散點(diǎn)圖中,藍(lán)色點(diǎn)代表樣本點(diǎn),橫軸是超分辨圖像的主觀質(zhì)量分?jǐn)?shù),即MOS值,縱軸代表不同IQA算法預(yù)測(cè)的質(zhì)量分?jǐn)?shù)。散點(diǎn)圖中紅色直線反映了樣本點(diǎn)的線性擬合情況,如果預(yù)測(cè)分?jǐn)?shù)和MOS越一致,則樣本點(diǎn)越靠近擬合直線y=x。從圖2結(jié)果可以看出,相比于FR-IQA方法,基于NR-IQA的方法(如圖2(c)~(f))中樣本點(diǎn)更靠近擬合直線,預(yù)測(cè)的質(zhì)量分?jǐn)?shù)與MOS的一致性更好。而在所有對(duì)比結(jié)果中,本文方法的散點(diǎn)圖2(f)和圖3(f)中的樣本點(diǎn)分布最靠近擬合直線,離群點(diǎn)明顯少于其他方法。對(duì)比圖3和圖2得出,在QADS上,各種方法的性能均會(huì)有所下降,但本文方法的結(jié)果仍?xún)?yōu)于其他方法。上述2個(gè)不同的超分辨圖像質(zhì)量評(píng)價(jià)數(shù)據(jù)庫(kù)上的對(duì)比結(jié)果可以明顯看出,基于稀疏表示的NR-SRIQA模型所獲得的質(zhì)量分?jǐn)?shù)與人類(lèi)視覺(jué)感知質(zhì)量一致性最好,在總體性能上均優(yōu)于其他方法。
針對(duì)NR-SRIQA任務(wù),提出了一種基于稀疏表示的NR-SRIQA方法。該方法通過(guò)建立超分辨圖像的視覺(jué)感知特征與其MOS一一對(duì)應(yīng)的超完備字典,將測(cè)試超分辨圖像的視覺(jué)統(tǒng)計(jì)特征表示為該字典中基原子的稀疏線性組合,利用獲得的稀疏表示系數(shù)與相關(guān)字典原子的線性組合預(yù)測(cè)超分辨圖像的質(zhì)量。實(shí)驗(yàn)結(jié)果表明,本文提出的方法能獲得與人類(lèi)視覺(jué)感知質(zhì)量較好的一致性。在未來(lái)的研究中,該方法可以考慮對(duì)2個(gè)方面加以改進(jìn):一是利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)超分辨圖像中更符合人眼稀疏特性的視覺(jué)特征構(gòu)建超完備字典;二是增加數(shù)據(jù)庫(kù)的樣本數(shù)量和類(lèi)型,提升超完備字典中基原子的表征能力,以提高模型的泛化能力。