聞武 左凌軒
摘要:圖像質(zhì)量評(píng)價(jià)是圖像處理與計(jì)算機(jī)視覺(jué)一個(gè)重要研究方向,近年來(lái)雖然出現(xiàn)了許多不同的基于人類視覺(jué)系統(tǒng)的評(píng)價(jià)方法,如SSIM,IFC,VSNR等。這些算法都提高了評(píng)價(jià)準(zhǔn)確率但仍留有較大可以提升的空間,而且他們大多只針對(duì)圖像的灰度信息,簡(jiǎn)單地將彩色信息丟棄,而人眼會(huì)根據(jù)圖像的灰度和色彩兩個(gè)方面去識(shí)別和評(píng)價(jià)圖像。為了滿足人眼視覺(jué)感受需要自然化歸一化處理圖像,并且通過(guò)色彩等多個(gè)尺度提取圖像顯著特征,賦予合適的權(quán)重來(lái)重新計(jì)算圖像的結(jié)構(gòu)相似性,最終做出更精確的圖像質(zhì)量評(píng)價(jià)。
關(guān)鍵詞:彩色圖像質(zhì)量評(píng)價(jià);視覺(jué)感知;自然化;顯著特征;結(jié)構(gòu)相似性
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)02-0186-03
1引言 (IQA簡(jiǎn)介)
數(shù)字圖像在圖像采集、分析、傳輸、處理和重建的過(guò)程中,非常容易發(fā)生不同程度不同類型的扭曲和失真,導(dǎo)致圖像的視覺(jué)質(zhì)量降低。而為了保持、控制和增強(qiáng)圖像質(zhì)量,在圖像的采集、管理、傳輸和處理過(guò)程中,判斷圖像失真程度、識(shí)別和量化圖像質(zhì)量等級(jí)就顯得尤為重要。經(jīng)過(guò)40多年的發(fā)展,圖像質(zhì)量評(píng)價(jià)技術(shù)得到了充分的發(fā)展,國(guó)際上也出現(xiàn)了一批成熟的評(píng)價(jià)標(biāo)準(zhǔn)與評(píng)價(jià)算法。圖像質(zhì)量評(píng)價(jià)方法分為主觀評(píng)價(jià)方法與客觀評(píng)價(jià)方法。
1.1 圖像質(zhì)量主觀評(píng)價(jià)
在大多數(shù)圖像處理應(yīng)用程序中,人類是最終接受者,所以最可靠的IQA方法應(yīng)該是主觀評(píng)價(jià)方法。針對(duì)數(shù)字圖像的主觀評(píng)價(jià)法在國(guó)際電信聯(lián)盟(ITU)給出過(guò)中定義[1] 。根據(jù)定義,主觀評(píng)價(jià)有四種評(píng)價(jià)方式:雙刺激損傷分級(jí)法、雙刺激連續(xù)質(zhì)量分級(jí)法、單刺激分級(jí)法和單刺激連續(xù)質(zhì)量分級(jí)法。
單刺激和雙刺激的主要區(qū)別在于評(píng)價(jià)者是獨(dú)立對(duì)圖像進(jìn)行評(píng)價(jià)而不存在想要的參照物,雙刺激方法中評(píng)價(jià)人員將原始圖像與多個(gè)待評(píng)價(jià)的圖像組成‘圖像對(duì),并且先讓評(píng)價(jià)人員觀看無(wú)失真圖像,形成一個(gè)參考基準(zhǔn),然后在對(duì)失真圖像進(jìn)行展示,在對(duì)比之后,評(píng)價(jià)人員根據(jù)待評(píng)價(jià)失真圖像的主觀感受給出圖像質(zhì)量等級(jí)。連續(xù)質(zhì)量分級(jí)則是將多組原始圖像和待評(píng)價(jià)圖像給評(píng)價(jià)人員觀看,但與直接分級(jí)不同的是,原始圖像和待評(píng)價(jià)圖像顯示的順序是隨機(jī)的,并且一起對(duì)顯示的兩張圖像都要進(jìn)行評(píng)分,該方法采用連續(xù)分?jǐn)?shù)表示,使用百分制。
目前,采用大量的觀測(cè)人員進(jìn)行DSCQS方法評(píng)分所得出的“平均意見(jiàn)分”(Mean Option Score,簡(jiǎn)稱MOS)方法被認(rèn)為是最佳的IQA方法。然而MOS方法的花銷成本大同時(shí)速度太慢,難以實(shí)際應(yīng)用。
1.2 圖像質(zhì)量客觀評(píng)價(jià)
與主觀評(píng)價(jià)相對(duì)應(yīng)的圖像質(zhì)量客觀評(píng)價(jià)方法,其本質(zhì)就是一套根據(jù)人眼的主觀視覺(jué)系統(tǒng)(HVS)的高效的圖像質(zhì)量自動(dòng)評(píng)價(jià)系統(tǒng)??陀^評(píng)價(jià)方法根據(jù)評(píng)價(jià)系統(tǒng)是否有參考對(duì)象分為全參考圖像質(zhì)量評(píng)價(jià)(能獲取參考圖像的全部信息,簡(jiǎn)稱FR),參考圖像質(zhì)量評(píng)價(jià)(只能獲取參考圖像的部分信息,簡(jiǎn)稱RR),無(wú)參考圖像質(zhì)量評(píng)價(jià)系統(tǒng)(簡(jiǎn)稱NR)。目前FR-IQA方法已經(jīng)日臻完善,RR-IQA和NR-IQA的研究熱度持續(xù)上升,然而FR和RR都需要獲取待測(cè)圖像的對(duì)比圖像的全部或者部分信息,這一點(diǎn)在實(shí)際應(yīng)用中經(jīng)常無(wú)法實(shí)現(xiàn),也是IQA領(lǐng)域當(dāng)前研究的熱點(diǎn),目前的NR-IQA根據(jù)適用范圍大致分為兩類:針對(duì)特定失真類型的算法,通用型算法。前者在使用時(shí)需要預(yù)先知道圖像的失真類型,諸如模糊、噪聲、壓縮等,適用范圍受到了限制,但失真特征易于定義和提取,但適用范圍受到了限制,通用型NR-IQA的研究受到更多的重視。
在過(guò)去四十多年,圖像質(zhì)量評(píng)價(jià)(IQA)得到了快速的發(fā)展。而在研究初期,為了減少模型設(shè)計(jì)的復(fù)雜度,大部分的IQA算法都只針對(duì)灰度圖像進(jìn)行評(píng)價(jià),而對(duì)于彩色圖像,他們主要有兩種處理方法:把原彩色圖像轉(zhuǎn)換到灰度尺度運(yùn)算,或者將圖像分解為R、G、B三個(gè)通道,將原圖像變?yōu)槿ǖ阑叶葓D像進(jìn)行評(píng)價(jià)。而隨著人們對(duì)圖像質(zhì)量評(píng)價(jià)精確性的要求逐漸變高,色彩這個(gè)重要的圖像質(zhì)量評(píng)價(jià)指標(biāo)開(kāi)始被越來(lái)越多的研究人員重視,并提出一系列新的針對(duì)彩色圖像的質(zhì)量評(píng)價(jià)算法。
2 基于彩色圖像中的灰度信息評(píng)價(jià)
人作為圖像信息的主要接受載體,研究人眼的視覺(jué)原理可以對(duì)建立圖像質(zhì)量客觀評(píng)價(jià)模型有重要意義。目前研究發(fā)現(xiàn),物體成像主要在視網(wǎng)膜上,視網(wǎng)膜結(jié)構(gòu)如下圖所示。
從圖1中,我們知道光線通過(guò)瞳孔晶狀體,將光線匯聚在視網(wǎng)膜上。視網(wǎng)膜中含有兩種視覺(jué)細(xì)胞,分別是負(fù)責(zé)感受光亮度強(qiáng)弱柱狀細(xì)胞——視桿細(xì)胞、感受光的色彩的錐狀細(xì)胞——視錐細(xì)胞。光線通過(guò)兩種光感細(xì)胞將圖像的完整信息傳遞給大腦。而在視網(wǎng)膜中,視感細(xì)胞數(shù)量遠(yuǎn)多于視錐細(xì)胞,人眼對(duì)亮度的敏感程度也大于對(duì)色彩的敏感程度。而且,只計(jì)算灰度信息會(huì)減少整個(gè)評(píng)價(jià)模型的復(fù)雜度,提高計(jì)算效率。因而出現(xiàn)了大量的只利用彩色圖像灰度信息的質(zhì)量評(píng)價(jià)算法。
最經(jīng)典的有參考圖像質(zhì)量評(píng)價(jià)方法是MSE和PNSR[2],他們通過(guò)直接計(jì)算失真圖像與參考圖像的像素歐氏距離來(lái)評(píng)價(jià)他們的相似性。這兩種方法計(jì)算簡(jiǎn)單,效率極高,但是沒(méi)有結(jié)合人眼的視覺(jué)特性,不能很好地與人眼的主觀感受保持一致。而結(jié)構(gòu)相似性(Structural Similarity, SSIM)[3]方法從亮度,對(duì)比度和結(jié)構(gòu)相似度三個(gè)方面對(duì)比參考圖像與失真圖像,得到了很好的結(jié)果。IFC(Information Fidelity Criterion)[4]則以兩幅圖的共同信息的多少作為失真圖像的判斷依據(jù)。NQM(Noise Quality Metric)[5]從噪聲的角度評(píng)價(jià)失真程度,以此給出質(zhì)量評(píng)分。VSNR(Visual Signal-to-Noise Ratio)[6]則是基于視覺(jué)閾值特性提出的針對(duì)自然場(chǎng)景的質(zhì)量評(píng)價(jià)方法。
而無(wú)參考質(zhì)量質(zhì)量評(píng)價(jià)現(xiàn)階段有兩種常見(jiàn)模型:即兩階段框架模型和全局框架模型。兩階段模型從圖像的小波域的統(tǒng)計(jì)特性出發(fā),提取圖像的統(tǒng)計(jì)特征,之后利用分類器判斷圖像的失真類型,最后使用回歸模型估算圖像的質(zhì)量。而全局框架圖像質(zhì)量評(píng)價(jià)方法通過(guò)分析待測(cè)圖像在空域或者時(shí)域的統(tǒng)計(jì)特性,建立統(tǒng)計(jì)特征和主觀評(píng)價(jià)之間的映射,進(jìn)而估算圖像質(zhì)量。
不過(guò),值得探究的就是作為圖像質(zhì)量評(píng)價(jià)本身這類問(wèn)題就屬于人眼主觀感受,但是尚未有一個(gè)合理的視覺(jué)感知方法能夠與之結(jié)合起來(lái)。本文就是探索在圖像顯著性感知的基礎(chǔ)上,對(duì)色彩圖像進(jìn)行結(jié)構(gòu)相似性評(píng)價(jià)。
3 視覺(jué)感知的色彩圖像質(zhì)量評(píng)價(jià)
在失真圖像和參考圖像提取結(jié)構(gòu)性特征之前,本文加入了一種稱為自然圖像自然化預(yù)處理的過(guò)程。這樣能夠更加符合現(xiàn)實(shí)場(chǎng)景。再則引入?yún)⒖紙D像的視覺(jué)顯著性特征,結(jié)合SSIM評(píng)價(jià)方式,最后加權(quán)評(píng)估得出最后的失真圖像評(píng)分。
3.1 自然化歸一化圖像
我們將圖像進(jìn)行自然化歸一化處理,使其更符合人眼的視覺(jué)感知。即對(duì)于一副M*N的圖像, I(i, j)表示該圖像的每一個(gè)像素點(diǎn)的值,歸一化處理方法如下式所示:
[I(i,j)=I(i,j)-μ(i,j)σ(i,j)] (1)
公式中:
[μ(i,j)=k=-KKl=-LLω(k,l)I(i+k,j+l)] (2)
[σ(i,j)=k=-KKl=-LLω(i,j)[I(i+k,j+l)-μ(i,j)]2] (3)
[ω(k,l)]是中心對(duì)稱的高斯加權(quán)函數(shù),我們?nèi)?K=L=3。
3.2 SSIM簡(jiǎn)介
王周認(rèn)為待評(píng)價(jià)的圖像與原圖像相似度越高,其質(zhì)量越高,而這種相似度需要從圖像像素間提取出結(jié)構(gòu)特征。人眼視覺(jué)系統(tǒng)的主要功能就是從圖像中提取結(jié)構(gòu)信息。為了更符合人眼的視覺(jué)感受,王周提出了結(jié)構(gòu)相似性理論,即SSIM,具體公式如下所示:
公式中x、y分別指代原圖像和待測(cè)圖像,C1、C2、C3均為常量參數(shù)。在一個(gè)滑動(dòng)窗口內(nèi),[μ]為圖像的像素均值表示亮度,[σ]代表了標(biāo)準(zhǔn)差指代對(duì)比度。對(duì)應(yīng)的[l(x,y)]、[c(x,y)]、[s(x,y)]分別指代了亮度對(duì)比度和結(jié)構(gòu)三個(gè)方面的相似性。最終得到的質(zhì)量評(píng)分為:
[SSIM(x,y)=lα(x,y)cβ(x,y)sγ(x,y)] (5)
其中[α,β,γ>0] ,而且[α+β+γ=1]。通過(guò)上面公式,我們對(duì)于特定的點(diǎn)I(i, j)我們都有了一個(gè)結(jié)構(gòu)相似度估值。
3.3 基于圖算法的顯著特征提取[7][8]
在日常生活中我們?cè)谟^看一副圖像時(shí),只會(huì)看圖像中的一部分區(qū)域而不是全圖?;谶@中人眼的視覺(jué)特性,我們選用了基于圖算法的顯著區(qū)域提取算法,用來(lái)對(duì)圖像的各個(gè)區(qū)域的重要性進(jìn)行評(píng)分。這種模型先對(duì)所要評(píng)測(cè)的圖像從9個(gè)尺度進(jìn)行非均勻的采樣,通過(guò)高斯金字塔和中心邊緣算子進(jìn)行局部的視覺(jué)反差計(jì)算,找到圖像的亮度顏色和朝向特征。接著通過(guò)多尺度的圖像合并和歸一化得到上述三個(gè)特征的顯著圖,最后將顯著圖進(jìn)行線性融合得到最終能夠的視覺(jué)顯著特征圖。
3.4 權(quán)重設(shè)置與圖像得分
通過(guò)顯著區(qū)域設(shè)置重新計(jì)算各像素權(quán)重,最后權(quán)重與SSIM的值相乘得到圖像最終質(zhì)量得分S。
[S=w(x,y)*SSIM(x,y)] (7)
我們通過(guò)生成的顯著特征圖可以看出,Gbvs方法將整個(gè)彩色圖像中的彩色像素點(diǎn)都?xì)w一化到了0-1的范圍內(nèi),需要額外注意的是,特征圖數(shù)值較高的部分為凸顯的重點(diǎn)區(qū)域,而數(shù)值較低并不是結(jié)構(gòu)性無(wú)關(guān)的區(qū)域,直接將特征圖數(shù)值作為權(quán)重會(huì)導(dǎo)致評(píng)價(jià)結(jié)果誤差變大。通過(guò)多次實(shí)驗(yàn)我們選擇了0.7這個(gè)數(shù)值作為圖像權(quán)重值閾值,當(dāng)特征圖數(shù)值超過(guò)0.7時(shí),我們使用該數(shù)值,其他情況則直接使用0.7代替。
4 實(shí)驗(yàn)
為了驗(yàn)證本文提出的基于視覺(jué)感知的評(píng)價(jià)方法有效性,我們選擇了在圖像質(zhì)量評(píng)價(jià)領(lǐng)域比較成熟的圖像數(shù)據(jù)庫(kù)LIVE[9]以及CSIQ[10]。在我們常見(jiàn)和假設(shè)的多種失真類型下主要有JPEG壓縮,模糊,隨機(jī)噪聲,快速退化等,而其中JPEG壓縮對(duì)圖像結(jié)構(gòu)信息的破壞時(shí)最明顯的,本文把采用的數(shù)據(jù)庫(kù)中的JPEG壓縮失真圖片單獨(dú)抽出作為試驗(yàn)樣本。
4.1 實(shí)驗(yàn)結(jié)果
現(xiàn)有的評(píng)估IQA算法的性能好壞的指標(biāo)主要分為IQA 算法性能評(píng)價(jià)指標(biāo)主要分為斯皮爾曼秩相關(guān)系數(shù)(Spearman rank order correlation coefficient, SROCC)、皮爾遜線性相關(guān)系數(shù)(Pearson linear correlation coefficient, PLCC)。其中SROCC用來(lái)衡量IQA算法預(yù)測(cè)結(jié)果的單調(diào)性,值越高則單調(diào)性越好。PLCC則需要先對(duì)IQA算法預(yù)測(cè)的客觀質(zhì)量評(píng)價(jià)分與MOS進(jìn)行函數(shù)擬合,我們使用5參數(shù)logistic函數(shù)擬合。他們的表達(dá)形式如下:
[f(x)=β112-1exp(β2(x-β3))+β4x+β5] (8)
通過(guò)把預(yù)測(cè)值和數(shù)據(jù)庫(kù)中對(duì)應(yīng)的DMOS值在得到擬合函數(shù)后,可以利用擬合函數(shù)并以輸入的客觀質(zhì)量評(píng)價(jià)作為自變量來(lái)得到對(duì)應(yīng)的因變量,也就是預(yù)測(cè) MOS值。PLCC用來(lái)衡量客觀質(zhì)量評(píng)價(jià)分與主觀質(zhì)量評(píng)價(jià)分之間的線性度。PLCC值越高則線性度越好,即算法越優(yōu)秀。我們通過(guò)計(jì)算得到了以下兩張表
4.2 實(shí)驗(yàn)分析
表1和表2分別是有6種圖像質(zhì)量評(píng)價(jià)算法所對(duì)應(yīng)的SROCC系數(shù)與PLCC系數(shù)。我們可以發(fā)現(xiàn),本文提出的方法不僅更符合人眼對(duì)圖像的認(rèn)知,相比其他幾個(gè)質(zhì)量評(píng)價(jià)算法在準(zhǔn)確度上有更好的性能。圖3是本文算法的數(shù)據(jù)散點(diǎn)圖與擬合曲線,橫軸為我們的預(yù)測(cè)值,縱軸為主觀意見(jiàn)分。我們能很直觀的發(fā)現(xiàn)我們提出的方法與主觀質(zhì)量評(píng)價(jià)保持了非常好的一致性。不過(guò)從表3我們能發(fā)現(xiàn),因?yàn)樵黾恿祟~外的圖像顯著區(qū)域處理操作,整個(gè)系統(tǒng)的耗時(shí)較高,但精確度的提高十分顯著,與其他算法或多或少存在嚴(yán)重偏離擬合曲線的點(diǎn),本文的單調(diào)性和線性度都很好。
5 結(jié)束語(yǔ)
本文基于圖像視覺(jué)顯著圖和結(jié)構(gòu)相似度提出一種新的全參考彩色圖像質(zhì)量的評(píng)價(jià)算法,在LIVE和CSQI兩個(gè)權(quán)威數(shù)據(jù)庫(kù)上實(shí)驗(yàn),驗(yàn)證本文方法的有效性。從實(shí)驗(yàn)結(jié)果可以看出我們提出的方法可以在壓縮圖像失真條件下更準(zhǔn)確的評(píng)價(jià)圖像質(zhì)量。不過(guò)我們也發(fā)現(xiàn),引入額外的計(jì)算會(huì)使整個(gè)評(píng)價(jià)系統(tǒng)的開(kāi)銷變大,時(shí)間消耗過(guò)多,如何在滿足精確度情況下快速實(shí)現(xiàn)是將來(lái)的工作方向。
參考文獻(xiàn):
[1]Rec. ITU-R BT.500-11. Methodology for the subjective assessment of the quality of television pictures[S] .
[2]WANG Z, Bovik A C, A universal image quality index[J]. IEEE Signal Processing Letters, 2002, 9 (3): 81-84.
[3]WANG Z, Bovik A C, Sheikh H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4):600 - 612.
[4]Sheikh H R, Bovik A C, De Veciana G. An information fidelity criterion for image quality assessment using natural scene statistics[J]. IEEE Transactions on Image Processing, 2005, 14(12):2117-2128.
[5]Damera-Venkata N, Kite T D, Geisler W S, et al. Image quality assessment based on a degradation model[J]. IEEE Transactions on Image Processing, 2000, 9(4):636-650.
[6]Chandler D M, Hemami S S. VSNR: A Wavelet-Based Visual Signal-to-Noise Ratio for Natural Images[J]. IEEE Transactions on Image Processing, 2007, 16(9):2284-2298.
[7]J. Harel, C. Koch, and P. Perona, Graph-Based Visual Saliency [C], advances in Neural Information Processing Systems (NIPS) , MIT Press, 2007, 545-552
[8]X. Hou, J. Harel, and C. Koch, Image Signature: Highlighting Sparse Salient Regions[J]. IEEE Trans. Pattern Anal. Mach. Intell, 2012,34(1): 194-201.
[9]Sheikh H R, Wang Z, Cormack L, Bovik A C. LIVE Image Quality Assessment Database Release 2 [DB/OL], available: http://live.ece.utexas.edu/research/quality, 2006
[10]Larson E C, Chandler D M. Categorical subjective image quality CSIQ database [DB/OL], available: http://vision.okstate.edu/csiq/,2009.