馮潔麗,何小海,任 超,陳洪剛,王新歡
(四川大學 電子信息學院,四川 成都 610065)
在信息爆炸的時代,有損壓縮因具有較高的壓縮率而被廣泛應用于圖像和視頻編碼,以節(jié)省帶寬和存儲空間。常見的有損編碼方法有JPEG[1], WebP[2]等。在低比特率下,實現(xiàn)JPEG圖像的過程中產(chǎn)生的塊效應嚴重影響圖像主觀和客觀評價,減少圖像壓縮效應成為經(jīng)典的計算機視覺問題。
去壓縮效應算法主要可以分為2類:基于重建的算法和基于學習的算法。在基于重建的方法中,數(shù)據(jù)項和先驗項是最大后驗概率框架的2部分。數(shù)據(jù)項表示壓縮圖像與原始圖像之間的數(shù)據(jù)保真度;先驗項代表用以約束的各種圖像先驗信息。典型的先驗模型包括塊相似性[3]、低秩先驗[4]和自相似性模型先驗[5]等。
基于學習的圖像去壓縮效應算法包括傳統(tǒng)學習和深度學習2種。Chang等[6]提出了一種基于稀疏表示和字典學習的 JPEG 圖像去壓縮效應的方法。人工智能時代的到來,基于卷積神經(jīng)網(wǎng)絡的去壓縮效應取得了不錯的效果。Dong等[7]通過引入特征增強層提升單圖超分辨率重建網(wǎng)絡[8],后來用于JPEG壓縮效應去除。Tai等[9]結合長、短跳躍連接和門單元,構建了MemNet網(wǎng)絡,在多種圖像復原任務中均取得了較好的效果。Chen 等[10]基于寬激活殘差模塊(Wide-activated Residual Block,WARB)[11],構建了一種多尺度殘差塊密集連接深度CNN,共享參數(shù)的同時取得了良好的去塊效應結果。近段時間,還有一些圖像復原工作[12-13]致力于提升壓縮圖像的感知質(zhì)量,使得生成的圖像具有更豐富的細節(jié)??傊?,基于深度學習的壓縮效應抑制方法較傳統(tǒng)方法更有效。
借鑒多路網(wǎng)絡[14]的發(fā)展成果,本文提出了一種新的基于雙路增強殘差塊連接的圖像去塊效應網(wǎng)絡,更好地恢復JPEG圖像視覺觀感。主要創(chuàng)新點如下:① 本文網(wǎng)絡是DPEB模塊采用殘差連接和密集連接2種方式組成的雙路網(wǎng)絡結構,可以有效節(jié)省參數(shù)量和內(nèi)存開銷。② 將多尺度特征學習引入WARB模塊,提出一種新的網(wǎng)絡結構——雙路單元(Dual Path Unit,DPU),對特征圖進行全方面提取,實現(xiàn)特征融合降維,強化多個尺度的圖像特征。③ DPERBN方法中的局部和全局殘差學習在避免梯度爆炸同時加快網(wǎng)絡收斂,在主流數(shù)據(jù)集上的拓展和消融實驗證明該方法對多種壓縮率的JPEG圖像的有效性。
本文提出了一種基于雙路增強殘差塊連接的圖像去塊效應網(wǎng)絡,整體框架如圖1所示。
圖1 DPERBN整體框架Fig.1 Overall architecture of DPERBN
它是由特征提取塊(Feature Extraction Block,F(xiàn)EB)、雙路增強塊和特征融合重建層組成,主要分為淺層特征提取、全局特征非線性映射和殘差圖像重建3個部分。X和Fr分別表示JPEG壓縮圖像和輸出的去塊效應圖像,用2個卷積層FEB從網(wǎng)絡輸入X中提取底層特征,其過程可表示為:
F0=HFEB(X),
(1)
式中,X為輸入圖像;HFEB為淺層初始特征提取;F0為特征提取后輸出的特征圖。完成特征提取后,假如采用D個雙路增強塊 (Dual Path Enhanced Block,DPEB) 學習非線性映射關系,其映射過程為:
Gi=fDPEB,i(fDPEB,i-1(…fDPEB,1(F0)…)),i=1,2,…,D,
(2)
式中,Gi為經(jīng)過第i個DPEB后的輸出特征圖;fDPEB,i為第i個DPEB函數(shù)。利用特征融合塊(Feature Integration Block,F(xiàn)IB)集成所有DPEB和FEB輸出的豐富層次特征圖。
H=fFIB(G-1,[G1,G2,…,GD]),
(3)
式中,G-1為第一個卷積層FEB的輸出;fFIB為特征融合函數(shù);H為FIB的輸出。完成非線性映射后,用一個重建層將64張?zhí)卣鲌D重建為殘差圖像,最后將輸入圖像與加入通道注意力提取到殘差圖像相加,得到去除壓縮效應的結果圖像,其過程可表示為:
Fr=Hrec(H)+G-1,
(4)
式中,Hrec為由特征圖重建殘差圖像過程,Hrec(H)為殘差圖像;Fr為最后輸出的去壓縮圖像。本文所有殘差塊都采用3×3卷積核,主通道數(shù)為64。
圖2 第d個DPEB塊的結構Fig.2 Structure of the dth DPEB block
圖3 第c個DPU的結構Fig.3 Structure of the cth DPU block
(5)
(6)
(7)
輸入特征的密集部分與新學到的密集特征合并以形成密集支路:
(8)
特征圖的2路被用作當前DPEB中下一個DPU的輸入或者當這個DPU是目前DPEB中最后一個DPU時作為TU塊的輸入。ReLU函數(shù)能自適應地學習矯正線性單元的參數(shù),使網(wǎng)絡訓練更容易且更快收斂。
圖4 TU 的結構Fig.4 Structure of TU
在DPEB中,每一個密集支路的DPU的輸入與特征圖的密集部分的輸出相連接,即前一個DPEB密集部分的輸出為下一個DPEB中第一個DPU的密集部分的輸入。假設第一個DPU的輸入特征圖有Gr個殘差支路特征和Gd個密集支路特征,每個DPU的密集支路的增長率是K,經(jīng)過第d個DPEB的第C個DPU后,可以得到Gr殘差支路特征和(Gd+C×K)密集支路特征作為第(d+1)個DPEB的輸入。為了使計算復雜度在可控范圍內(nèi)搭建更深的網(wǎng)絡,在每個DPEB的尾部引入過渡塊,將當前DPEB的(Gr+Gd+C×K)輸出特征變換為(Gr+Gd)特征作為下一個DPEB中第一個DPU的輸入。每個TU將DPEB中最后一個DPU的輸出特征圖作為輸入,并將它分為殘差支路和密集支路。
在第d個DPEB中的TU的函數(shù)表示如下:
(9)
(10)
在FIB里,首先將所有DPEB的輸出按順序連接起來以使用所有DPEB塊學習到豐富的層次特征:
(11)
(12)
式(12)為全局平均池化,Z為池化后的輸出特征。
H=fHFIB(G-1,Z)=s(Wu(Re(Wd(Z))))+G-1,
(13)
式中,Wd和Wu為通道注意力中下采樣和上采樣的權重;Re(·)為ReLU激活函數(shù);s(·)為Sigmoid激活函數(shù);H為FIB的輸出。
(14)
為此,還需要訓練網(wǎng)絡參數(shù)Θ,由式(14)可知,優(yōu)化參數(shù)需要最小化輸出的重建圖像與殘差圖像之間的損失函數(shù)來得到[15]。全局殘差常用MSE作為損失函數(shù)來實現(xiàn)網(wǎng)絡的訓練,表達式如下:
(15)
式中,N(·)為網(wǎng)絡的輸出;Θ為網(wǎng)絡參數(shù);K為每批次的訓練樣本數(shù)。
本文使用800張經(jīng)過旋轉(zhuǎn)和翻轉(zhuǎn)以實現(xiàn)數(shù)據(jù)增強后的DIV2K數(shù)據(jù)集作訓練集。在模型開始訓練前進行裁剪,并以40 pixel為步長,選取60×60的范圍進行JPEG壓縮,作為網(wǎng)絡的輸入。驗證集采用Urban100[15],測試集采用Classic5[16]和LIVE1[17]。需要說明的是,本文訓練和測試的所有實驗僅在圖像YCbCr 色彩空間的亮度分量Y生成的灰度圖像上進行。對于三通道圖像,先應用色彩空間轉(zhuǎn)換公式轉(zhuǎn)換到YCbCr空間,再對Y通道灰度圖像進行處理。
本實驗訓練過程采用pytorch深度學習框架,每批次的訓練樣本數(shù)設置為64,硬件設備電腦的CPU為Intel(R) Core(TM)i7-4770K 3.50 GHz,內(nèi)存為16 GB。深度學習使用的開發(fā)環(huán)境為Pycharm2019,GPU為NVIDIA GeForce RTX2080ti。使用ADAM算法進行訓練過程的網(wǎng)絡優(yōu)化。由于雙路策略和殘差學習的引入,在實驗時能更快使網(wǎng)絡收斂。網(wǎng)絡的初始學習率設置為0.000 1,訓練過程中逐漸降低學習率。
為驗證本文所提出的算法對JPEG圖像的去壓縮效應能力,本文與算法TNRD[18],DnCNN-3[19],MemNet[9],DPW-SDNet[20],RNAN[21]進行了效果對比。使用Matlab 2017a的JPEG編碼器對驗證集進行了壓縮質(zhì)量因子(Quality Factor,QF)為10,20,30,40的JPEG圖像壓縮,以驗證本文算法對不同壓縮率下的JPEG圖像去壓縮的能力。峰值信噪比(Peak Signal to Noise Ratio,PSNR)、結構相似度索引(Structure Similarity Index,SSIM)和PSNR-B[22]常作為圖像復原領域的客觀評價指標來驗證實驗的有效性。PSNR是比較待測評圖像和真實圖像之間的相似度的指標,單位為dB,數(shù)值越大表示失真越小。SSIM依照圖像像素之間的相互關系構建了結構相似性,綜合分析待測評圖像與真實圖像的亮度、對比度以及結構因素的質(zhì)量評價指標,更符合人眼的視覺感知,所以這個指標數(shù)值越高,表示待測評圖像質(zhì)量越好。
表1和表2展示了不同算法的JPEG圖像的去壓縮效應結果。
表1 不同方法在 Classic5 數(shù)據(jù)集上的平均 PSNR(dB)/SSIM/PSNR-B(dB)結果Tab.1 Average PSNR(dB)/SSIM/PSNR-B(dB)results of different methods on Classic5 dataset
表2 不同方法在 LIVE1 數(shù)據(jù)集上的平均 PSNR(dB)/SSIM/PSNR-B(dB)結果Tab.2 Average PSNR(dB)/SSIM/PSNR-B(dB) results of different methods on LIVE1 dataset
由表1可以看出,在QF=10,20,30,40時,提出的算法在Classic5數(shù)據(jù)集上比目前最先進的算法之一的RNAN取得了更高的客觀評價指標,但RNAN具有上百層網(wǎng)絡,網(wǎng)絡較深,參數(shù)量較大。與同樣是雙路網(wǎng)絡,且網(wǎng)絡層數(shù)相當?shù)腄PW-SDNet相比,恢復圖像的平均PSNR值分別高出0.24,0.18,0.19,0.22 dB,但在參數(shù)量上卻減少一半。
同樣地,在表2中,與其他3種經(jīng)典算法相比,本文的算法在PSNR,SSIM和PSNR-B上獲得了更高的客觀評價指標,且在參數(shù)量上也取得較大優(yōu)勢。綜上,本文算法在不同種類、不同壓縮率的JPEG壓縮圖像數(shù)據(jù)集上,去壓縮效應效果相較于對比算法,具有明顯的優(yōu)勢,重建出圖像的PSNR值和SSIM值都有不錯的提升。為了便于展示,本文將YCbCr空間下的去壓縮圖進行局部區(qū)域放大,以便與視覺效果對比。圖5、圖6為本文對QF=10,20的2張不同數(shù)據(jù)集的圖像Monarch和Barbara去壓縮效應的結果對比。從圖中可以看出,JPEG壓縮圖像存在嚴重的壓縮塊狀偽影,主觀視覺效果最差。前4種對比算法重建的圖像對塊效應和壓縮噪聲有一定抑制,但對于壓縮受損嚴重的細節(jié)部分也修復得不夠完整。而DPERBN能相對完整地去除JPEG圖像中的塊狀網(wǎng)格,重建圖像Monarch具有更清晰的輪廓,更逼真的效果,Barbara的部分線條更規(guī)整,與原圖保持較高的相似度,獲得了更好的視覺效果。
(a) 原圖
(b) JPEG
(c) TNRD
(d) DnCNN
(e) MemNet
(f) DPW-SDNet
(g) RNAN
(h) DPERBN圖5 不同方法在QF=10時對圖像 Monarch 的去塊效應視覺效果比較Fig.5 Comparison of deblocking visual effect of different methods on image Monarch at QF=10
(a) 原圖
(b) JPEG
(c) TNRD
(d) DnCNN
(e) MemNet
(f) DPW-SDNet
(g) RNAN
(h) DPERBN圖6 不同方法在QF=20時對圖像 Barbara 的去塊效應視覺效果比較Fig.6 Comparison of deblocking visual effect of different methods on image Barbara at QF=20
為了驗證提出的網(wǎng)絡結構DPERBN的有效性,本文基于WARB,MWRB[23]和DPEB 模塊,將 DPERBN結構改為單路殘差連接,單路密集連接,在相同的條件下重新訓練網(wǎng)絡。表 3 給出了不同網(wǎng)絡結構在 Urban100數(shù)據(jù)集上當QF=40時的結果。
表3 不同網(wǎng)絡結構在Urban100數(shù)據(jù)集上當QF=40 時的去塊效應結果PSNRTab.3 Deblocking PSNR results of different network structures on Urban100 dataset at QF=40 單位:dB
由表3可以看出:① 密集支路和殘差支路中DPEB的PSNR值高于WARB和MWRB,驗證了多尺度特征學習的有效性;② 殘差支路同一模塊恢復圖像的PSNR值高于密集支路,驗證了局部殘差及全局殘差學習的有效性;③ 雙路連接時DPEB的PSNR值高于WARB和MWRB,且高于只有單一密集支路和單一殘差支路時的去塊效應結果,驗證了雙路連接策略的有效性。
在實際工作中,為了節(jié)省容量和降低帶寬,通常對Web圖像進行下采樣和壓縮,往往會引入一定的壓縮偽影,影響后續(xù)的處理分析。為了測試該方法應用在真實網(wǎng)絡圖像上的效果,從Internet上下載了一張彩色的JPEG圖像。由于互聯(lián)網(wǎng)的圖像是無參考圖像,所以僅以主觀視覺質(zhì)量作為評價標準。將DPERBN網(wǎng)絡中的DPEB模塊替換為WARB和MWRB,在真實網(wǎng)絡圖像的Y通道上進行驗證,將圖像轉(zhuǎn)換回RGB圖像,效果如圖7所示。由圖7可以看出,本文網(wǎng)絡恢復出的圖像達到了最好的主觀效果,DPERBN使帳篷的細節(jié)輪廓和線條更清晰,消除了振鈴效應和壓縮噪聲,呈現(xiàn)出更豐富的視覺體驗。
(a) 原圖大圖
(b) 原圖小圖
(c) WARB
(d) MWRB
針對JPEG壓縮圖像存在的壓縮效應問題,本文提出了一種基于雙路增強殘差塊連接的圖像去塊效應網(wǎng)絡,以去除JPEG圖像中的壓縮噪聲,恢復圖像細節(jié)信息。本文與經(jīng)典的去壓縮效應算法TNRD,DnCNN,MemNet,DPW-SDNet,STRRN以及RNAN進行了主觀與客觀上的對比。經(jīng)實驗證明,本文提出的算法在應用于不同壓縮率YCbCr的Y通道灰度圖像上,具有不錯的重建效果。在應用于網(wǎng)絡JPEG圖像的復原上,也取得了更好的視覺效果。在未來的工作中,將研究更先進的圖像去塊效應技術,進一步減少去塊網(wǎng)絡的參數(shù)量以及生成模型的大小?,F(xiàn)階段的圖像去塊主要是針對圖像Y分量來進行處理的,在下一步研究中,將會研究三通道YCbCr壓縮圖像及不同種類的網(wǎng)絡圖像的去塊效應算法以更好地應對實際應用的需要。