陳書(shū)貞 曹世鵬 崔美玥 練秋生
(燕山大學(xué)信息科學(xué)與工程學(xué)院 秦皇島 066004)
(河北省信息傳輸與信號(hào)處理重點(diǎn)實(shí)驗(yàn)室 秦皇島 066004)
拍攝圖像時(shí),相機(jī)與物體的相對(duì)運(yùn)動(dòng)往往會(huì)造成圖像模糊,嚴(yán)重影響圖像在實(shí)際生活中的應(yīng)用效果。圖像去模糊作為一種改善圖像質(zhì)量的方式,廣泛應(yīng)用于醫(yī)學(xué)圖像、交通監(jiān)控等領(lǐng)域。圖像去模糊是圖像處理中典型的病態(tài)反問(wèn)題,旨在從模糊圖像中恢復(fù)出相應(yīng)的清晰圖像。近年來(lái),這項(xiàng)技術(shù)受到廣泛的關(guān)注和研究,但由于現(xiàn)實(shí)場(chǎng)景中模糊核的復(fù)雜多變性,從真實(shí)模糊圖像中恢復(fù)清晰圖像仍具有挑戰(zhàn)性。
圖像去模糊過(guò)程可看作從解空間中尋找最優(yōu)解的過(guò)程,傳統(tǒng)方法利用不同的自然圖像先驗(yàn)(如L0-范數(shù)梯度先驗(yàn)[1])約束解空間,通過(guò)最大后驗(yàn)估計(jì)模型的迭代尋找最優(yōu)解。然而傳統(tǒng)方法中采用的迭代優(yōu)化方式計(jì)算繁瑣,實(shí)時(shí)性差;且過(guò)于簡(jiǎn)單的模糊模型假設(shè)會(huì)導(dǎo)致模糊核的不準(zhǔn)確估計(jì),降低算法性能。近年來(lái),隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)廣泛地應(yīng)用于圖像去模糊領(lǐng)域。根據(jù)圖像塊信息,Sun等人[2]利用CNN預(yù)測(cè)圖像的局部模糊核,通過(guò)非盲解卷積去除非均勻運(yùn)動(dòng)模糊。Gong等人[3]利用全卷積網(wǎng)絡(luò)估計(jì)模糊圖像的運(yùn)動(dòng)場(chǎng),從估計(jì)的運(yùn)動(dòng)場(chǎng)中恢復(fù)清晰圖像。Nah等人[4]提出一種端到端(無(wú)核估計(jì))的圖像處理方法,該方法遵循由粗到精的思想,逐步恢復(fù)清晰圖像。Kupyn等人[5]采用帶有梯度懲罰和感知損失的Wasserstein GAN(Wasserstein Generative Adversarial Networks)去除運(yùn)動(dòng)模糊,恢復(fù)更多的紋理信息。Kupyn等人[6]進(jìn)一步改進(jìn)網(wǎng)絡(luò),將特征金字塔網(wǎng)絡(luò)作為DeblurGAN-v2(Deblurring Generative Adversarial Networks Version 2)的核心構(gòu)建塊,此網(wǎng)絡(luò)可與各種骨干網(wǎng)絡(luò)配合使用,在性能和效率之間取得平衡。Tao等人[7]提出尺度遞歸的思想,利用不同尺度的圖像共同訓(xùn)練網(wǎng)絡(luò),實(shí)現(xiàn)網(wǎng)絡(luò)參數(shù)共享,運(yùn)動(dòng)去模糊效果顯著。梁曉萍等人[8]利用頭腦風(fēng)暴優(yōu)化算法自動(dòng)搜尋BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)更佳的初始權(quán)值和閾值,提升網(wǎng)絡(luò)性能。
近期的研究主要從改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)、引入多尺度和增大感受野等角度改善圖像重建算法的性能。Tao等人[7]引入網(wǎng)絡(luò)參數(shù)共享機(jī)制,在減少參數(shù)的同時(shí)獲得更好的效果。Ronneberger等人[9]提出一種編-解碼結(jié)構(gòu)的網(wǎng)絡(luò)(Unet網(wǎng)絡(luò)),充分利用上下文信息,在圖像語(yǔ)義分割中獲得較好的性能。Nah等人[4]將多尺度應(yīng)用到去模糊網(wǎng)絡(luò)中,逐漸去除不同程度的模糊。Chen等人[10]將平滑的擴(kuò)張卷積嵌入到網(wǎng)絡(luò)中,在保持參數(shù)量不變的情況下,通過(guò)增大感受野提高區(qū)域性能,但隨著網(wǎng)絡(luò)深度的增加,擴(kuò)張卷積僅考慮使用棋盤(pán)格模式對(duì)位置進(jìn)行稀疏采樣,從而導(dǎo)致部分信息丟失[11]。Jin等人[12]采用重采樣卷積操作確保網(wǎng)絡(luò)的第1層就具有大的感受野,但是隨著圖像尺寸的增加,網(wǎng)絡(luò)的效率大幅降低,且沒(méi)有增加圖像特征的稀疏性。
受上述研究的啟發(fā),本文提出一種基于深度多級(jí)小波變換的圖像盲去模糊算法,在小波域下學(xué)習(xí)模糊圖像和清晰圖像4個(gè)子帶之間的映射關(guān)系,以端到端的方式實(shí)現(xiàn)動(dòng)態(tài)場(chǎng)景去模糊。本文的工作如下:(1) 將小波變換嵌入到編碼階段以減少特征圖的尺寸,確保網(wǎng)絡(luò)具有大的感受野。在解碼階段采用小波逆變換,將低分辨率特征圖上采樣為高分辨率特征圖,可有效地避免池化層造成的圖像信息損失[11]。此外,圖像在小波域中具有稀疏性,網(wǎng)絡(luò)學(xué)習(xí)稀疏特征到稀疏特征的映射[13],可有效地提高網(wǎng)絡(luò)的學(xué)習(xí)效率。(2) 利用多尺度擴(kuò)張稠密塊(Multi-scale Dilated Dense Block, MDDB),在保證參數(shù)不變的前提下提取圖像的多尺度深層特征,同時(shí)通過(guò)稠密連接消除擴(kuò)張卷積引起的網(wǎng)格偽影。引入的多尺度結(jié)構(gòu)提高了網(wǎng)絡(luò)對(duì)模糊程度的魯棒性,使恢復(fù)的圖像更加清晰。(3) 編-解碼結(jié)構(gòu)之間的跳躍連接通過(guò)增加信息流的傳遞來(lái)融合網(wǎng)絡(luò)淺層和深層的特征。本文提出的特征融合塊(Feature Fusion Block, FFB)引入了動(dòng)態(tài)選擇機(jī)制[14],允許每個(gè)神經(jīng)元根據(jù)輸入信息自適應(yīng)地調(diào)整淺層特征與深層特征之間的比重,提高特征融合的有效性。(4) 圖像在小波域與空間域具有不同的表示方式,與小波域相比,圖像在空間域內(nèi)含有更加精細(xì)的圖像細(xì)節(jié)信息。為補(bǔ)充小波域忽略的圖像細(xì)節(jié)信息,本文提出空間域重建模塊(Spatial Domain Reconstruction Module, SDRM),在空間域內(nèi)學(xué)習(xí)模糊圖像與清晰圖像之間的映射關(guān)系,進(jìn)一步提高重構(gòu)圖像的質(zhì)量。
本文的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,在該網(wǎng)絡(luò)中,首先利用模塊A在小波域中去除模糊圖像中的模糊,小波系數(shù)的稀疏性可簡(jiǎn)化去模糊過(guò)程,同時(shí)通過(guò)增大感受野來(lái)提高大模糊核導(dǎo)致的運(yùn)動(dòng)模糊的魯棒性;然后利用模塊B在空間域重建圖像,得到去模糊圖像。
本文采用MDDB提取圖像的多尺度特征,同時(shí)進(jìn)一步增大網(wǎng)絡(luò)的感受野,提升網(wǎng)絡(luò)性能。如圖2所示,MDDB由一個(gè)卷積層和3個(gè)多尺度擴(kuò)張塊組成。卷積層減少特征圖的通道數(shù),多尺度擴(kuò)張塊提取圖像的多尺度特征。每個(gè)多尺度擴(kuò)張塊利用4個(gè)大小不同的濾波器提取不同尺度的特征,采用級(jí)聯(lián)操作融合多尺度信息,并使用大小為1×1的濾波器以解決特征級(jí)聯(lián)引起的參數(shù)過(guò)多的問(wèn)題。為減少網(wǎng)絡(luò)的計(jì)算量,本文采用擴(kuò)張率( s)分別為1,2, 3和4的擴(kuò)張卷積[10]代替普通卷積以獲取大尺度特征。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)
圖2 多尺度擴(kuò)張稠密塊
其中, fms為 MDDB提取的深層特征,h0表示多尺度擴(kuò)張稠密塊中卷積層的輸出。
圖3 特征融合塊
模塊A是具有對(duì)稱(chēng)編-解碼結(jié)構(gòu)的小波域重建模塊,編碼階段包括3個(gè)編碼模塊(Encoder Module,EM),每個(gè)EM均由卷積層和3個(gè)殘差塊[19]堆疊而成。EM中引入的小波變換將圖像尺寸降為原來(lái)的1/4,利用卷積層改變特征圖的通道數(shù),通過(guò)殘差塊提取豐富且稀疏的圖像特征。
解碼階段包括3個(gè)解碼模塊(Decoder Module, DM),DM的結(jié)構(gòu)與EM的完全對(duì)稱(chēng)。利用小波變換的可逆性,在增加圖像分辨率的同時(shí)保留了圖像的細(xì)節(jié)信息。
模塊B是一個(gè)空間域重建模塊,在空間域?qū)W習(xí)圖像特征,獲取小波域忽略的更精細(xì)的圖像細(xì)節(jié)信息。模塊B由卷積層和殘差塊堆疊而成,首先通過(guò)卷積層提取圖像的淺層特征,然后利用殘差塊提取更豐富的特征,最后通過(guò)卷積層在空間域重建去模糊圖像。
本文采用的訓(xùn)練集是GoPro訓(xùn)練集[3],從GoPro訓(xùn)練集中隨機(jī)選取圖像,并隨機(jī)裁剪成320×320×3的圖像塊,batch size設(shè)為24。為提高模型的魯棒性,利用隨機(jī)旋轉(zhuǎn)、隨機(jī)上下翻轉(zhuǎn)、添加加性高斯噪聲進(jìn)行數(shù)據(jù)擴(kuò)充處理,其中旋轉(zhuǎn)角度為0°, 90°,180°, 270°,噪聲的均值為0,標(biāo)準(zhǔn)差為(0, 5)。此外,本文利用小尺度的模糊核與訓(xùn)練樣本的卷積來(lái)增強(qiáng)訓(xùn)練樣本的多樣性。測(cè)試集是GoPro測(cè)試集、DVD測(cè)試集[18]和真實(shí)模糊圖像[20]。在訓(xùn)練過(guò)程中,本文使用 l2范數(shù)損失函數(shù)來(lái)優(yōu)化網(wǎng)絡(luò),網(wǎng)絡(luò)的優(yōu)化方法為Adam,所有實(shí)驗(yàn)在Pytorch深度學(xué)習(xí)框架下進(jìn)行訓(xùn)練,在Inter Core i7-8700 CPU,主頻3.2 GHz,內(nèi)存64 GB,顯卡NVIDIA QUADRO RTX 5000平臺(tái)下完成。
值得注意的是,本文采用模塊化訓(xùn)練方法獲取網(wǎng)絡(luò)模型,在保證其他模塊參數(shù)不變的前提下,逐一訓(xùn)練網(wǎng)絡(luò)的各個(gè)模塊。首先在不添加多尺度擴(kuò)張稠密塊(MDDB),特征融合模塊(FFB)和空間域重建模塊(Spatial Domain Reconstruction Module,SDRM)的情況下訓(xùn)練網(wǎng)絡(luò)其他模塊,初始學(xué)習(xí)率為1e-4,當(dāng)網(wǎng)絡(luò)訓(xùn)練趨于穩(wěn)定時(shí)調(diào)整學(xué)習(xí)率為5e-5,再次趨于穩(wěn)定時(shí)調(diào)整學(xué)習(xí)率為5e-6;然后分別將MDDB, FFB和SDRM添加到網(wǎng)絡(luò)中進(jìn)行單獨(dú)訓(xùn)練,訓(xùn)練周期為1300 epochs,初始學(xué)習(xí)率設(shè)置為1e-4,分別在400 epochs和900 epochs調(diào)整學(xué)習(xí)率為5e-5和5e-6;最后統(tǒng)一訓(xùn)練網(wǎng)絡(luò)中的所有模塊,微調(diào)網(wǎng)絡(luò)參數(shù),訓(xùn)練周期和學(xué)習(xí)率調(diào)整策略與多尺度模塊的相同。
為說(shuō)明算法的性能,本文與近年來(lái)提出的去模糊算法進(jìn)行比較,如DeblurGAN-v2[6]、SRN[7]等,分別在GoPro測(cè)試集、DVD測(cè)試集進(jìn)行測(cè)試,采用峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)和結(jié)構(gòu)相似度(Structural SIMilarity index, SSIM)作為評(píng)價(jià)指標(biāo)。GoPro測(cè)試集包含1111個(gè)模糊-清晰圖像對(duì),主要由相機(jī)的抖動(dòng)和物體的運(yùn)動(dòng)造成,可以有效地模擬動(dòng)態(tài)場(chǎng)景下真實(shí)的運(yùn)動(dòng)模糊。DVD測(cè)試集由多種設(shè)備(如iPhone6s, GoPro)收集,包括1496對(duì)模糊-清晰圖像,所涉及的動(dòng)態(tài)場(chǎng)景與GoPro測(cè)試集的不同。GoPro, DVD測(cè)試集上的實(shí)驗(yàn)對(duì)比結(jié)果分別如表1,表2,表3所示,GoPro測(cè)試集、DVD測(cè)試集、真實(shí)模糊圖像上的視覺(jué)對(duì)比結(jié)果分別如圖4,圖5所示。
由表1,表2可以看出,與Tao等人[7]得到的結(jié)果相比,本文的PSNR提高1.13 dB, SSIM提高0.018,運(yùn)行時(shí)間減少0.41 s。在重構(gòu)圖像的質(zhì)量方面,本文算法明顯優(yōu)于其他算法;在算法的重構(gòu)效率方面,本文算法同樣優(yōu)于其他算法(除Kupyn等人[6]提出的DeblurGAN-v2外)。由表3可以看出,本文算法在不同場(chǎng)景下具有更強(qiáng)的魯棒性。
表1 各算法在GoPro測(cè)試數(shù)據(jù)集上的定量評(píng)估
表2 各算法在GoPro測(cè)試數(shù)據(jù)集上的運(yùn)行時(shí)間(s)
表3 文獻(xiàn)[7]與本文算法在DVD測(cè)試數(shù)據(jù)集上的定量評(píng)估
本文還在GoPro測(cè)試集、DVD測(cè)試集和真實(shí)的模糊圖像上與各個(gè)算法進(jìn)行視覺(jué)比較。在GoPro測(cè)試集上的視覺(jué)對(duì)比結(jié)果如圖4所示,在大的非均勻運(yùn)動(dòng)模糊的情況下,本文算法在GoPro測(cè)試集上恢復(fù)出結(jié)果具有更加清晰的條紋和邊緣,如在第2行和第6行的紅色框中重建了清晰的臉部輪廓和數(shù)字形狀,沒(méi)有嚴(yán)重的顏色偽跡和圖像失真。在DVD測(cè)試集和真實(shí)的模糊圖像上的視覺(jué)對(duì)比結(jié)果如圖5所示,相比于Tao等人[7]得到的去模糊圖像,本文算法恢復(fù)的圖像的局部模糊更少,顏色更加逼真,結(jié)構(gòu)更加清晰。
為評(píng)價(jià)各個(gè)模塊的有效性,本文在GoPro測(cè)試集上進(jìn)行對(duì)比試驗(yàn),采用W-MS, W-FF, W-SDR,W-C3和W-B這5個(gè)基準(zhǔn)模型說(shuō)明多尺度擴(kuò)張稠密塊(MDDB),特征融合模塊(FFB)和空間域重建模塊(SDRM)對(duì)網(wǎng)絡(luò)性能的影響。W-MS, W-FF和W-SDR分別表示只包含MDDB, FFB和SDRM的網(wǎng)絡(luò)模型,W-C3表示用3個(gè)卷積層代替MDDB的網(wǎng)絡(luò)模型,其網(wǎng)絡(luò)深度與W-MS的相同,W-B表示不引入3種模塊的網(wǎng)絡(luò)模型。各模塊的對(duì)比結(jié)果如表4所示。
由表4可得,在不引入MDDB, FFB和SDRM的情況下,PSNR可達(dá)到30.98 dB,這說(shuō)明將小波變換嵌入到編-解碼結(jié)構(gòu)中可有效地提升網(wǎng)絡(luò)的性能。其原因主要包括以下3個(gè)方面:⑴將小波變換嵌入到編-解碼結(jié)構(gòu)中會(huì)增大網(wǎng)絡(luò)的感受野,可有效地利用圖像的上下文信息產(chǎn)生邊緣更加清晰的結(jié)果,同時(shí)小波變換的可逆性避免了圖像信息的丟失。⑵圖像在小波域具有稀疏性,利用小波變換進(jìn)行下采樣增強(qiáng)了圖像特征的稀疏性,提高網(wǎng)絡(luò)的學(xué)習(xí)能力。⑶小波變換在小波子帶中提供的垂直、水平和對(duì)角線邊緣信息,可用于學(xué)習(xí)圖像的輪廓和細(xì)節(jié)特征。MDDB, FFB和SDRM的引入使平均PSNR分別提高0.12 dB, 0.11 dB和0.15 dB,平均SSIM均提高0.001,使網(wǎng)絡(luò)獲得高質(zhì)量的重構(gòu)圖像。
圖4 各個(gè)算法在GoPro測(cè)試集上的恢復(fù)結(jié)果對(duì)比
圖5 文獻(xiàn)[7]與本文算法在DVD數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上的恢復(fù)結(jié)果對(duì)比
本文分別采用整體訓(xùn)練和模塊化訓(xùn)練的方式訓(xùn)練網(wǎng)絡(luò),對(duì)比了這兩種訓(xùn)練方法對(duì)網(wǎng)絡(luò)性能的影響。GoPro測(cè)試集上的定量結(jié)果如表5所示,相比于整體訓(xùn)練的網(wǎng)絡(luò),模塊化訓(xùn)練的網(wǎng)絡(luò)的PSNR提高0.34 dB, SSIM提高0.003。對(duì)于本文算法來(lái)說(shuō),模塊化訓(xùn)練可以使網(wǎng)絡(luò)各個(gè)模塊分別達(dá)到最優(yōu)以確保網(wǎng)絡(luò)整體產(chǎn)生更好的結(jié)果,對(duì)網(wǎng)絡(luò)的性能起到積極的推動(dòng)作用。
表4 各基準(zhǔn)模型在GoPro測(cè)試集上的定量結(jié)果
表5 兩種訓(xùn)練方法在GoPro測(cè)試集上的定量對(duì)比
本文提出一種基于深度多級(jí)小波變換的圖像盲去模糊算法,通過(guò)正/逆小波變換實(shí)現(xiàn)上采樣/下采樣操作,在增大網(wǎng)絡(luò)感受野的同時(shí)利用圖像在小波域中的稀疏性,降低了映射的復(fù)雜程度。為了在小波域重建高質(zhì)量圖像,本文通過(guò)多尺度擴(kuò)張稠密塊引入多尺度結(jié)構(gòu),實(shí)現(xiàn)了多尺度深層特征的提取與重用。同時(shí),本文還利用特征融合塊自適應(yīng)地選擇編-解碼的特征進(jìn)行有效的特征融合。由于圖像在小波域和空間域的表示方式存在差異,本文采用空間域重建模塊融合這兩種不同的特征表示以進(jìn)一步提高重構(gòu)圖像的質(zhì)量。在訓(xùn)練時(shí),采用模塊化訓(xùn)練的方式進(jìn)一步提高網(wǎng)絡(luò)的性能。GoPro測(cè)試集和DVD測(cè)試集上的實(shí)驗(yàn)結(jié)果表明,本文方法恢復(fù)的圖像具有更好的視覺(jué)效果,并且在不同場(chǎng)景下具有更強(qiáng)的魯棒性。