王 闖, 王永芳, 練俊杰
(上海大學(xué)通信與信息工程學(xué)院, 上海 200444)
人眼的感知能力是有限的, 當(dāng)圖像信號的失真程度沒有超過某一個閾值時, 人眼是察覺不到原始信號與重建信號之間的差異的, 該值被稱為恰可察覺失真(just noticeable distortion,JND)閾值, 可以用來表示圖像中的視覺冗余程度. 近年來, JND 模型已被被廣泛應(yīng)用于視頻圖像編碼[1]、數(shù)字水印[2]、圖像增強[3]、質(zhì)量評估[4]等方面.
傳統(tǒng)的JND 模型主要分為2 大類: 像素域JND 模型和變換域JND 模型. Yang 等[5]考慮到背景亮度掩蔽效應(yīng)和對比掩蔽效應(yīng), 提出了非線性疊加掩蔽模型(nonlinear additivity model for masking, NAMM); Liu 等[6]考慮了紋理和邊緣各自的掩蔽作用, 將圖像分解為紋理圖像和結(jié)構(gòu)圖像, 分別計算各自的紋理掩蔽效應(yīng)和邊緣掩蔽效應(yīng); Wu 等[7]利用人眼對不規(guī)則內(nèi)容不敏感的特性, 將圖像分為有序部分和無序部分, 并基于自由能原理對無序內(nèi)容進行了JND 閾值估計. 考慮到模式復(fù)雜度與掩蔽效應(yīng)之間有較大的相關(guān)性, Wu 等[8]將其作為空間掩蔽效應(yīng)的另一個因素, 改進對比掩蔽效應(yīng); Zeng 等[9]將圖像進一步分為結(jié)構(gòu)圖像、有序紋理圖像和無序紋理圖像, 分別估計各個部分的JND 閾值, 同時還引入了顯著性模型.
由于視頻圖像的壓縮通常在離散余弦變換(discrete cosine transform, DCT)域上進行, 因此變換域JND 模型以DCT 域JND 模型為主. Wei 等[10]考慮到空間敏感度函數(shù)效應(yīng)、背景亮度掩蔽效應(yīng)、紋理掩蔽效應(yīng)和時域掩蔽效應(yīng), 提出了經(jīng)典的DCT 域JND 模型. Wan 等[11]提出了基于方向選擇性原理的JND 模型, 根據(jù)方向規(guī)律性和頻率紋理能量對DCT 塊進行分類,改進對比度掩蔽效應(yīng); Wang 等[12]將無序隱藏效應(yīng)引入到DCT 域中, 根據(jù)每個變換塊的無序性來估計JND 閾值; Wang 等[13]考慮到視覺注意力機制和中心凹效應(yīng), 建立了自適應(yīng)加權(quán)模型并運用到JND 模型中.
近年來, 結(jié)合深度學(xué)習(xí)的JND 模型被提出. Ki 等[14]提出了基于學(xué)習(xí)的恰可察覺量化失真(just noticeable quantization distortion, JNQD)模型, 利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)進行訓(xùn)練, 針對不同的量化參數(shù)(quantizer parameter, QP)值調(diào)整JND閾值; Liu 等[15]提出了基于深度學(xué)習(xí)的圖像級JND 模型, 利用圖像之間的相關(guān)性對JND 閾值進行預(yù)測.
JND 閾值不僅與圖像的背景亮度、對比度有關(guān), 還與顏色特征、局部結(jié)構(gòu)有關(guān). 上述模型雖然在原有模型的基礎(chǔ)上提高了JND 閾值估計的準(zhǔn)確性, 但是沒有充分考慮到圖像的顏色特征和結(jié)構(gòu)特征. 針對上述問題, 本工作提出了一種基于顏色復(fù)雜度和結(jié)構(gòu)張量的JND 模型.首先, 將輸入圖像轉(zhuǎn)換到LAB 顏色空間, 利用三通道上的像素信息計算各個區(qū)域的顏色復(fù)雜度, 并轉(zhuǎn)換為與人眼視覺敏感度相關(guān)的權(quán)值, 與對比掩蔽模型結(jié)合以提升模型的準(zhǔn)確性; 然后,將利用顏色復(fù)雜度調(diào)制的對比掩蔽模型與亮度掩蔽模型疊加, 得到基于顏色復(fù)雜度JND(color complexity based JND, CJND)的模型. 此外, 由于結(jié)構(gòu)張量矩陣和特征值能夠描述局部區(qū)域不同的結(jié)構(gòu)特征[16-18], 故建立了基于張量的結(jié)構(gòu)特征的調(diào)制因子. 最后, 將CJND 模型和基于張量結(jié)構(gòu)特征的調(diào)制因子結(jié)合, 得到本工作所提出的基于顏色復(fù)雜度和結(jié)構(gòu)張量JND(color complexity and structure tensor based JND, CSJND)模型.
本工作提出的CSJND 模型如圖1 所示. 首先, 將圖像從RGB 顏色空間轉(zhuǎn)換到LAB 顏色空間, 然后分別計算亮度掩蔽模型、對比掩蔽模型和顏色復(fù)雜度, 將基于顏色復(fù)雜度的視覺加權(quán)系數(shù)和對比掩蔽模型結(jié)合, 再與亮度掩蔽模型疊加; 同時, 計算圖像的結(jié)構(gòu)張量矩陣的特征值λ2, 建立結(jié)構(gòu)特征的調(diào)制因子; 最后, 將二者結(jié)合建立CSJND 模型, 定義如下:
式中: CJND 為基于顏色復(fù)雜度的JND 模型;FST為基于張量的結(jié)構(gòu)特征的調(diào)制因子.
CJND 模型由亮度掩蔽模型、對比掩蔽模型和顏色復(fù)雜度構(gòu)成(見圖1). 顏色復(fù)雜度可以反映局部區(qū)域的顏色變化信息, 描述人眼對各區(qū)域的視覺敏感程度[19]. 將顏色復(fù)雜度和對比掩蔽模型進行加權(quán), 再與亮度掩蔽模型結(jié)合, 其計算公式為
圖1 本工作提出的CSJND 模型框架Fig.1 Framework of proposed CSJND model
式中: (x,y)為像素點坐標(biāo); LA 為亮度掩蔽模型; VM 為顏色復(fù)雜度調(diào)制的對比掩蔽模型;α為控制參數(shù), 取值為0.3, 與文獻[5]中保持一致.
1.1.1 顏色復(fù)雜度視覺權(quán)值
顏色是圖像視覺最直觀的感知特征之一, 顏色復(fù)雜度可以描述局部區(qū)域顏色的變化強度[19]. 顏色復(fù)雜度越大, 局部區(qū)域顏色的變化就越劇烈, 人眼對該區(qū)域中像素值變化的敏感度越低, 該區(qū)域?qū)υ肼暤难诒文芰σ簿驮綇奫20]. 區(qū)域中顏色的變化往往也伴隨著紋理的變化, 但是相比于紋理特征, 顏色特征的計算基于三通道, 保留了更多的圖像信息.
顏色復(fù)雜度的計算在更加符合人類視覺感知特性的LAB 顏色空間進行[21], 利用歐氏距離來表示像素點間的差異性[22]:
式中:c(i,j)為(i,j)處的像素值;N為區(qū)域內(nèi)像素點的總個數(shù);Ω(x,y)為以像素點(x,y)為中心的鄰近區(qū)域. 像素點(x,y)處的顏色復(fù)雜度為[22]
圖2(a)為實驗原始圖像PartyScene, 顏色復(fù)雜度的計算結(jié)果如圖2(b)所示. 圖2(b)中, 高亮區(qū)域中的像素值比較大, 表示原圖對應(yīng)區(qū)域的顏色復(fù)雜度比較大. 可見, 實驗輸出符合預(yù)期效果, 顏色復(fù)雜度越大, 原圖對應(yīng)區(qū)域內(nèi)顏色變化越劇烈;顏色復(fù)雜度越小, 原圖對應(yīng)區(qū)域內(nèi)顏色變化越平緩.
圖2 輸入圖像顏色復(fù)雜度Fig.2 Color complexity of input image
顏色復(fù)雜度能夠反映出圖像特征的變化. 圖3 展示了輸入圖像顏色復(fù)雜度與模式復(fù)雜度的對比情況. 圖3(a)中, 顏色從左到右逐漸變化, 亮度從上到下逐漸變暗, 紋理特征并不顯著.對于具有類似特征的區(qū)域, 雖然紋理特征并不顯著, 但是相關(guān)區(qū)域確實存在特征變化的情況;當(dāng)只考慮單一通道上像素值的變化時(見圖3(b)), 大部分區(qū)域像素值為0; 當(dāng)使用顏色復(fù)雜度時(見圖3(c)), 圖中的像素值非0, 與原始圖像的區(qū)域特征保持一致. 因此, 只考慮紋理特征并不能完全反映出各區(qū)域?qū)υ肼暤难诒文芰? 相比之下, 顏色復(fù)雜度能夠反映出各個位置上的變化, 彌補了因特征不明顯而導(dǎo)致的掩蔽作用不充分的缺陷, 進一步提升了模型的準(zhǔn)確性.
圖3 輸入圖像顏色復(fù)雜度與模式復(fù)雜度的對比Fig.3 Comparison between color complexity and pattern complexity of input image
顏色復(fù)雜度與視覺感受相關(guān), 顏色變化劇烈的區(qū)域擁有較多的視覺冗余信息, 但是顏色復(fù)雜度并不能與對比掩蔽模型直接相加或相乘, 缺乏相關(guān)的理論依據(jù), 還會導(dǎo)致計算得到的JND 閾值過大或過小. 為了計算顏色復(fù)雜度輸出值與對應(yīng)區(qū)域視覺敏感度之間的關(guān)系, 在多次實驗的基礎(chǔ)上對輸出數(shù)據(jù)進行了擬合分析, 用以計算像素點(x,y)處的視覺權(quán)值Ch(x,y):
式中:h(x,y)為像素點(x,y)處的顏色復(fù)雜度;c1、c2、c3為控制參數(shù), 通過實驗結(jié)果選取主觀質(zhì)量最佳時的參數(shù)值, 分別取值為1.50、1.00 和0.75.
1.1.2 顏色調(diào)制的對比掩蔽模型
對比掩蔽效應(yīng)是人眼視覺特性中的一個重要現(xiàn)象, 是指一種視覺成分在存在另一種視覺成分情況下的視覺可見性的下降[5], 是由像素的空間關(guān)系決定的, 在亮度分量上建立對比掩蔽模型:
式中:β為控制參數(shù), 取值為0.117, 與文獻[5]中保持一致;G(x,y)為像素坐標(biāo)(x,y)處的最大加權(quán)平均梯度值:
式中:I(x,y)為(x,y)處的像素值;gk(i,j)為4 種不同方向的高通濾波器; gradk為梯度值.
W(x,y)為像素坐標(biāo)(x,y)處的邊緣加權(quán)因子, 由邊緣檢測圖和高斯低通濾波器計算得到[5]:
式中:L為輸入圖像通過Canny 邊緣檢測器后的圖像;h為高斯低通濾波器[5].
在局部區(qū)域內(nèi), 顏色復(fù)雜度越大視覺冗余信息就越多, 該區(qū)域?qū)υ肼暤娜萑棠芰σ苍綇姡环粗? 則該區(qū)域?qū)υ肼暤娜萑棠芰驮饺鮗20]. 因此, 顏色復(fù)雜度與視覺敏感度具有很大的相關(guān)性, 可以用來衡量人眼的敏感度, 而原有的對比掩蔽模型未充分考慮顏色復(fù)雜度信息. 改進后的對比掩蔽模型記為VM(x,y):
式中: CM(x,y)為對比掩蔽模型;Ch(x,y)為基于顏色復(fù)雜度的視覺權(quán)重.
1.1.3 亮度掩蔽模型
亮度掩蔽效應(yīng)是指人類視覺系統(tǒng)對于不同背景亮度呈現(xiàn)出不同的敏感度, 在較亮或較暗背景下的敏感度較低[5]. 背景亮度掩蔽模型LA 的表達式為
式中: bg(x,y)為像素點(x,y)處的平均背景亮度, 可由周圍像素(5×5 鄰域)的亮度值計算得到:
式中:I(x,y)為(x,y)處的像素值;B(x,y)為加權(quán)低通濾波器.
結(jié)構(gòu)張量是由原來的圖像梯度關(guān)系轉(zhuǎn)變而來的一個新的結(jié)構(gòu)關(guān)系, 并且保留了更多的結(jié)構(gòu)信息, 包括像素的方向和強度[16-18], 可以利用結(jié)構(gòu)張量來求取與鄰域像素相關(guān)性差的點. 結(jié)構(gòu)張量可以表示為如下的2×2 矩陣形式:
式中:gσ為高斯卷積核;Gx和Gy分別為圖像在x、y方向上梯度.
對于Tσ, 計算矩陣的特征值矩陣λ1和λ2, 其大小與輸入圖像大小相等:
式中:Tij表示為結(jié)構(gòu)張量矩陣中的元素.
對于每一個像素, 能夠計算出各自的特征值λ1和λ2(λ1≥λ2), 并且滿足如下性質(zhì)[16]: 在平滑區(qū)域,λ1≈λ2≈0; 在邊緣區(qū)域,λ1>>λ2≈0; 在角點區(qū)域,λ1>>gλ2>>0. 因此, 可以借助像素點對應(yīng)的特征值λ1和λ2的特點, 來區(qū)分圖像中的角點、邊緣和平滑區(qū)域.
通過上述分析可知, 特征值矩陣λ2中元素值遠大于0 的位置, 對應(yīng)輸入圖像中的角點區(qū)域. 因此, 可以根據(jù)λ2將角點區(qū)域與其他區(qū)域進行區(qū)分. 圖像中角點區(qū)域中的像素沒有主導(dǎo)的梯度方向, 與周圍像素的相關(guān)性較弱[16], 呈現(xiàn)出更大的無序結(jié)構(gòu)特征, 可視為無序紋理區(qū)域.無序紋理區(qū)域包含更多的不確定性信息[23], 擁有較大的視覺冗余.
本工作采用特征值矩陣λ2來計算結(jié)構(gòu)張量的調(diào)制因子, 如果直接使用特征值矩陣λ2, 則難以區(qū)分脈沖噪聲和點狀目標(biāo)[24], 同時也容易產(chǎn)生過大的失真. 為了去除脈沖噪聲的影響, 本工作進行了中值濾波操作[25]. 無序紋理區(qū)域擁有較大的視覺冗余, 人眼對該區(qū)域的像素值變化不敏感, 對噪聲的容忍能力也就越強. 根據(jù)以上分析, 調(diào)制因子數(shù)值不應(yīng)小于1, 計算過程如下:
式中:CT為λ2經(jīng)過中值濾波后的輸出結(jié)果;FST為所求的結(jié)構(gòu)張量的調(diào)制因子;CT,max和CT,min分別為CT中的最大值和最小值; med{·}為中值濾波;W5×5為5×5 的濾波器.
圖4 為結(jié)構(gòu)張量示意圖(對應(yīng)式(18)中的歸一化部分, 即前半部分), 反映了區(qū)域的結(jié)構(gòu)特征, 圖中高亮區(qū)域為角點區(qū)域, 與周圍像素相關(guān)性較弱, 結(jié)構(gòu)無序程度較大, 能夠容忍更多的噪聲. 對于平滑區(qū)域和邊緣區(qū)域, 調(diào)制因子的數(shù)值較小.
圖4 PartyScene 結(jié)構(gòu)張量Fig.4 Structural tensor of the PartyScene
由此可見, 可以利用基于張量的結(jié)構(gòu)特征來確定無序紋理區(qū)域, 像素點之間的相關(guān)性較弱, 人眼對該區(qū)域中的噪聲不敏感, 而且數(shù)值的大小能夠反映結(jié)構(gòu)無序程度的高低, 用以去除視覺冗余.
為了測試JND 模型的性能, 需要在JND 模型的引導(dǎo)下將噪聲添加到原始圖像中, 在主觀感知質(zhì)量相同的前提下標(biāo)準(zhǔn)峰值信噪比(peak signal to noise ratio, PSNR)值更小, 或是在PSNR 值相同的前提下主觀感知質(zhì)量更高, 說明該模型能夠準(zhǔn)確地計算出更多的視覺冗余, 模型性能也就更好. 噪聲添加方式為
式中:F表示為輸入圖像; ^F表示為注入JND 噪聲的輸出圖像;ε為噪聲等級控制參數(shù);rand(x,y)表示隨機地選取+1 或-1.
為了證明顏色復(fù)雜度、結(jié)構(gòu)張量對提出模型性能的提高都有著不可忽視的貢獻度, 接下來通過控制變量進行實驗驗證(見圖5).
從圖5 中可以看出, 4 幅圖像的視覺主觀質(zhì)量相等或相近, 人眼無法察覺出它們之間的差別, 但是原始JND 模型取得最大的PSNR 值, 本模型取得最小的PSNR 值, 比前3 組分別低2.80、1.55 和1.47 dB. 只使用顏色復(fù)雜度或結(jié)構(gòu)張量的JND 模型, PSNR 值相比于原始JND模型明顯降低, 相比于CSJND 模型卻明顯增加. 實驗結(jié)果證明了二者的使用有助于去除視覺冗余.
圖5 顏色復(fù)雜度和結(jié)構(gòu)張量的調(diào)制作用的證明Fig.5 Verification of modulation effects of color complexity and structural tensors
對于提出的JND 模型, 同時考慮顏色復(fù)雜度和結(jié)構(gòu)張量這2 種因素, 在顏色變化劇烈、結(jié)構(gòu)雜亂無序的區(qū)域引導(dǎo)更多的噪聲, 噪聲分配較為合理, 更加符合人類視覺系統(tǒng)的特點, 在保證主觀感知質(zhì)量的同時容忍大量噪聲.
為了進一步驗證本模型的性能, 選取3 種已有的JND 模型進行對比, 分別為模型Liu2010[6]、模型Wu2013[7]和模型Wu2017[8]. 通過以上JND 模型分別向輸入圖像注入不同等級的噪聲, 使各個受污染圖像的主觀感知質(zhì)量盡量保持相同或相近.
在主觀感知質(zhì)量相同的前提下, 如果處理后的受污染圖像的PSNR 值更小, 則說明該模型能夠有效去除更多的視覺冗余, 相比于其他模型更加符合人眼的視覺特性. 如圖6 所示, 在上述JND 模型的引導(dǎo)下生成4 幅失真圖像. 可以看出, 這些失真圖像的主觀感知質(zhì)量相同, 通過人眼無法察覺出差異. 但是, 在相同主觀感知質(zhì)量下, 本模型的失真圖像取得最小的PSNR 值,比前3 種參考模型分別低1.96、1.22 和0.51 dB. 根據(jù)實驗結(jié)果可以初步判斷, 本模型更加符合人眼的視覺特性.
圖7 為不同JND 模型在局部區(qū)域的對比情況, 圖中面部區(qū)域在上, 墻壁區(qū)域在下. 圖7 從圖6 中選取2 個具有代表性的局部區(qū)域進行更加細致的對比, 分別是人臉區(qū)域和墻壁區(qū)域. 從人眼較為敏感的面部區(qū)域中可以看出, 各圖像的主觀感知質(zhì)量相同, 驗證了實驗結(jié)果的客觀性和可靠性; 圖中的墻壁區(qū)域紋理結(jié)構(gòu)比較規(guī)則簡單, 人眼能夠較容易地察覺出該區(qū)域中失真的存在: 圖7(a)、(b)和(d)的主觀感知質(zhì)量相同, 但是圖(c)中卻產(chǎn)生人眼容易察覺的失真. 因此,本模型在主觀感知質(zhì)量相同, 甚至某些局部區(qū)域感知質(zhì)量更好的前提下, 能獲得更低的PSNR值. 實驗結(jié)果證明, 本模型能夠有效去除更多的視覺冗余, 更加符合人眼的視覺特征.
圖7 不同JND 模型在局部區(qū)域的對比Fig.7 Comparison of different JND models on local patches
模型性能與主觀感知質(zhì)量密切相關(guān). 為進一步驗證本模型的性能, 選取7 幅較為經(jīng)典的圖像進行實驗, 這些圖像包括BlowingBubbles、BQSquare、BasketballDrill、BQMall、PartyScene、RaceHorses 和Newspaper, 記錄下評價PSNR 和平均主觀評分(mean opinion score, MOS). 本實驗邀請了18 人對處理后的圖像進行主觀質(zhì)量打分(打分范圍為1~5, 分數(shù)越高表示主觀質(zhì)量越好), 其中12 人為圖像研究者, 其余6 人沒有圖像研究經(jīng)歷. 為了保證打分結(jié)果的可靠性和可信性, 在主觀打分之前這些人員都經(jīng)過相關(guān)的培訓(xùn)過程. 打分結(jié)果如表1所示.
表1 圖像質(zhì)量比較Table 1 Comparison of image quality
表1 給出了客觀評價指標(biāo)PSNR 值和主觀質(zhì)量分數(shù)MOS. 從表中可以看出, 通過4 種JND 模型生成的受污染圖像的主觀感知質(zhì)量, MOS 值均保持在4.16 以上. 相比于其他3 種模型, 本模型取得了最小的平均PSNR 值, 比模型Liu2010 低1.759 dB, 比模型Wu2013 低0.937 dB, 比模型Wu2017 低0.801 dB. 同時, 經(jīng)過本模型處理的圖像的主觀感知質(zhì)量不低于其他3 種模型, 和模型Wu2017 的平均質(zhì)量分數(shù)相近, 比模型Liu2010 和Wu2013 的略高. 可見, 在主觀感知質(zhì)量相同或較高的前提下, 本模型的PSNR 值更低. 實驗結(jié)果證明, 本模型能夠更加有效地去除大量的視覺冗余信息, 更加符合人眼視覺特征.
本工作提出了一種基于顏色復(fù)雜度和結(jié)構(gòu)張量的JND 模型, 對顏色信息和結(jié)構(gòu)信息有更充分的利用. 首先, 利用顏色復(fù)雜度計算各區(qū)域中顏色變化對視覺的掩蔽效果, 使用得到的視覺權(quán)值改進對比掩蔽模型, 以提升模型的準(zhǔn)確性; 然后, 通過NAMM 模型與亮度掩蔽模型進行疊加, 得到了基于顏色復(fù)雜度的CJND 模型. 同時, 通過結(jié)構(gòu)張量矩陣和特征值計算調(diào)制因子, 計算結(jié)構(gòu)不規(guī)則區(qū)域的位置和強度, 并與CJND 模型結(jié)合, 最后得到基于顏色復(fù)雜度和結(jié)構(gòu)張量的CSJND 模型. 實驗結(jié)果表明: 相比于其他3 種JND 模型, 本模型在主觀感知質(zhì)量相同的前提下PSNR 值明顯降低; 本模型能夠有效去除更多的視覺冗余, 更加符合人眼的視覺特征.