王晨卿,荊 濤,劉云鵬,陳 頌,蔣曉瑜,閆興鵬
(陸軍裝甲兵學(xué)院 信息通信系,北京 100072)
圖像去模糊技術(shù)是圖像處理和計(jì)算機(jī)視覺(jué)領(lǐng)域內(nèi)的研究熱點(diǎn)。在相機(jī)拍攝過(guò)程中,由于相機(jī)抖動(dòng)旋轉(zhuǎn)、目標(biāo)物體相對(duì)位移或鏡頭失焦等因素的影響,會(huì)導(dǎo)致所拍攝圖像產(chǎn)生模糊。傳統(tǒng)的去模糊算法首先根據(jù)先驗(yàn)約束[1-4]估計(jì)模糊核,然后再通過(guò)反卷積復(fù)原圖像,其缺點(diǎn)在于泛化能力差且計(jì)算過(guò)程復(fù)雜。近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)被應(yīng)用到圖像去模糊領(lǐng)域,并以其固有的多尺度特征提取能力取得了良好效果[5,6]。Nah等[7]以分層網(wǎng)絡(luò)級(jí)聯(lián)作為多尺度特征表達(dá)方式的CNN能以由粗到細(xì)的策略逐步地恢復(fù)出清晰圖像,然而這種方式會(huì)導(dǎo)致模型的參數(shù)量和計(jì)算時(shí)間增加。Kupyn等[8]使用生成對(duì)抗網(wǎng)絡(luò)以端到端方式進(jìn)行去模糊處理并提升了運(yùn)行速度,然而由于其扁平化的網(wǎng)絡(luò)結(jié)構(gòu)導(dǎo)致了處理效果不佳。
針對(duì)現(xiàn)有的去模糊方法中效果不佳和處理速度慢等問(wèn)題,本文提出一種端到端方式的多尺度條件生成對(duì)抗網(wǎng)絡(luò)模型,用以高效地處理復(fù)雜場(chǎng)景下的非均勻模糊問(wèn)題。首先構(gòu)造了一種多尺度殘差模塊,增強(qiáng)網(wǎng)絡(luò)的多尺度特征提取能力,同時(shí)減少網(wǎng)絡(luò)參數(shù)量,并以多尺度殘差塊為主體構(gòu)造生成器網(wǎng)絡(luò);添加全局和局部跳躍連接的結(jié)構(gòu),以提高網(wǎng)絡(luò)的學(xué)習(xí)效率和多尺度特征的自適應(yīng)表達(dá)能力。其次引入PatchGAN[9]鑒別器網(wǎng)絡(luò)結(jié)構(gòu)提升局部圖像特征提取和表征,并加速網(wǎng)絡(luò)收斂。
傳統(tǒng)的生成對(duì)抗網(wǎng)絡(luò)模型如圖1(a)所示,生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)由一個(gè)生成器G(Generator)和一個(gè)鑒別器D(Discriminator)組成,訓(xùn)練的過(guò)程就是兩者進(jìn)行動(dòng)態(tài)地“零和博弈”。網(wǎng)絡(luò)訓(xùn)練時(shí)輸入隨機(jī)噪聲z到生成器G,G通過(guò)不斷地學(xué)習(xí)真實(shí)數(shù)據(jù)x的分布,使生成的數(shù)據(jù)G(z)盡量接近于真實(shí)數(shù)據(jù)x的分布。而鑒別器D的任務(wù)是把真實(shí)數(shù)據(jù)x與生成數(shù)據(jù)G(z)盡量區(qū)分開(kāi)。模型最終的目的是鑒別器D無(wú)法區(qū)分生成數(shù)據(jù)G(z)的真假。傳統(tǒng)GAN的損失函數(shù)可以表示為
Ez~Pz[log(1-D(G(z)))]
(1)
其中,x,z分別為輸入的真實(shí)數(shù)據(jù)和隨機(jī)噪聲,Pr和Pz分別表示真實(shí)數(shù)據(jù)分布和隨機(jī)噪聲分布,E[*]表示數(shù)學(xué)期望。對(duì)抗過(guò)程中交替更新生成器G和鑒別器D,直到二者達(dá)到納什均衡,即D(G(z))=0.5。
然而傳統(tǒng)的GAN作為一種無(wú)監(jiān)督學(xué)習(xí)模型,不需要預(yù)先假設(shè)數(shù)據(jù)分布模型,其生成過(guò)程過(guò)于自由,因此對(duì)于較復(fù)雜的數(shù)據(jù)或高分辨率的圖像信息,傳統(tǒng)的GAN變得不在生成器和鑒別器中引入約束條件y,為生成特定條件下的數(shù)據(jù)提供方向上的指導(dǎo),y可以是標(biāo)簽或圖像可控。針對(duì)這種情況,CGAN[10]被提出并廣泛應(yīng)用于圖像翻譯、圖像修復(fù)和超分辨率重建等領(lǐng)域,其通過(guò)在生成器和鑒別器中引入約束條件y,為生成特定條件下的數(shù)據(jù)提供方向上的指導(dǎo),其中y可以是標(biāo)簽或圖像等任意輔助信息。因此將傳統(tǒng)的GAN由無(wú)監(jiān)督學(xué)習(xí)方式轉(zhuǎn)變?yōu)楸O(jiān)督學(xué)習(xí),更有利于生成符合條件的數(shù)據(jù)。CGAN的模型框架如圖1(b)所示,其目標(biāo)函數(shù)可以表示為
圖1 生成對(duì)抗網(wǎng)絡(luò)的基本框架
Ez~Pz[log(1-D(G(z|y)))]
(2)
在計(jì)算機(jī)視覺(jué)處理任務(wù)中,表達(dá)多尺度特征需要用不同大小的感受野來(lái)提取不同尺度下的特征信息。而CNN因其固有的特征提取能力,能夠以堆疊卷積層的方式由粗到細(xì)地提取到圖像的多尺度特征。通過(guò)增加CNN網(wǎng)絡(luò)層的深度和寬度來(lái)提取更加豐富和抽象化的圖像特征信息,該種策略已經(jīng)被廣泛應(yīng)用并且取得了良好的效果,如AlexNet[11]和VGGNet[12]等。然而,通過(guò)簡(jiǎn)單地堆疊網(wǎng)絡(luò)層或者以多層網(wǎng)絡(luò)級(jí)聯(lián)的方式進(jìn)行多尺度特征提取,不僅會(huì)造成運(yùn)行時(shí)間和內(nèi)存的增加以及模型的過(guò)擬合,同時(shí),冗余的網(wǎng)絡(luò)層會(huì)導(dǎo)致傳輸過(guò)程中的特征丟失。
為了有效地增強(qiáng)CNN的多尺度特征提取能力,ResNet[13]通過(guò)學(xué)習(xí)殘差的方式解決了深層CNN中的網(wǎng)絡(luò)退化問(wèn)題,因此可以使用深層殘差網(wǎng)絡(luò)來(lái)提高多尺度特征提取能力。GoogLeNet[14]通過(guò)并行使用多個(gè)不同內(nèi)核大小的卷積層提取到不同尺度的圖像特征,而后進(jìn)行級(jí)聯(lián)拼接實(shí)現(xiàn)多尺度特征的融合。DenseNet[15]在任意兩個(gè)網(wǎng)絡(luò)層之間添加跳躍連接,使當(dāng)前層的特征信息能夠傳遞給后續(xù)所有的網(wǎng)絡(luò)層,實(shí)現(xiàn)了多尺度特征的復(fù)用,然而其能力受到計(jì)算量的約束。Res2Net[16]基于ResNet中的bottleneck模塊,將中間的3×3卷積層改進(jìn)為分級(jí)連接的較小卷積塊,增加了網(wǎng)絡(luò)層的感受野范圍;并通過(guò)將特征通道數(shù)均分為L(zhǎng)組,在更為精細(xì)的層次上提升了多尺度表達(dá)能力,同時(shí)減小了參數(shù)量。相關(guān)網(wǎng)絡(luò)的模型結(jié)構(gòu)如圖2所示。
圖2 多尺度網(wǎng)絡(luò)模型的結(jié)構(gòu)對(duì)比
為更好地還原清晰圖像的邊緣結(jié)構(gòu)和紋理細(xì)節(jié),提升網(wǎng)絡(luò)的去模糊效果,本文提出一種有效的多尺度殘差模塊MSR2B(multi-scale Res2Net block),以充分提取不同比例的特征信息。MSR2B的結(jié)構(gòu)如圖3所示,以輸入特征分組數(shù)L=4為例進(jìn)行說(shuō)明。該模塊由PartA和PartB兩部分組成,其中PartA基于Res2Net模型的分級(jí)殘差連接方式,PartB并行使用了兩組不同內(nèi)核大小的卷積核,最后通過(guò)拼接操作(concatenation operation)融合特征圖。PartA和PartB能夠以不同的策略提取到多尺度特征,將兩者結(jié)合產(chǎn)生了更好的效果。
圖3 多尺度殘差模塊MSR2B的結(jié)構(gòu)(特征通道分組L=4時(shí))
(3)
在PartB中,構(gòu)造了一個(gè)并行的雙分支結(jié)構(gòu),其中包含兩個(gè)不同內(nèi)核大小的卷積層:3×3卷積和5×5卷積。將ti(2≤i≤L)處的特征圖經(jīng)過(guò)拼接(concat)后經(jīng)雙分支卷積處理,以自適應(yīng)地提取不同尺度的圖像特征。PartB的功能可以表示為
(4)
(5)
(6)
Cn=Cn-1+Wout
(7)
在MSR2B中刪除了傳統(tǒng)殘差網(wǎng)絡(luò)中的批歸一化(batch normalization,BN)層,因?yàn)锽N層占用了過(guò)多的計(jì)算內(nèi)存,并且在去模糊任務(wù)中添加BN層會(huì)弱化圖像本身的細(xì)節(jié)信息并帶來(lái)偽影和棋盤效應(yīng),并且增加了模型復(fù)雜度,限制了網(wǎng)絡(luò)的泛化能力[17]。MSR2B通過(guò)在單個(gè)塊內(nèi)進(jìn)行分級(jí)連接和并行卷積再融合的殘差網(wǎng)絡(luò)結(jié)構(gòu)不僅可以增強(qiáng)多尺度特征的提取能力,而且相比于傳統(tǒng)的bottleneck模塊帶來(lái)的計(jì)算復(fù)雜度也可以忽略。
本文的生成器網(wǎng)絡(luò)以MSR2B殘差模塊為主體結(jié)構(gòu),如圖4所示。生成器網(wǎng)絡(luò)包含一個(gè)步長(zhǎng)為1,卷積核尺寸為7×7的常規(guī)卷積層。兩個(gè)步長(zhǎng)為2,卷積核尺寸為3×3的跨步卷積層,可以對(duì)圖像進(jìn)行下采樣并擴(kuò)展通道數(shù)量。然后堆疊了9個(gè)多尺度殘差塊MSR2B用以充分提取多尺度圖像特征。最后包含了兩個(gè)步長(zhǎng)為2、卷積核尺寸分別為3×3的轉(zhuǎn)置卷積層和一個(gè)步長(zhǎng)為1、卷積核尺寸為7×7的常規(guī)卷積層,用來(lái)對(duì)圖像進(jìn)行上采樣并恢復(fù)特征通道數(shù)量。除最后一層卷積外的常規(guī)卷積和轉(zhuǎn)置卷積后都跟隨ReLU激活函數(shù)以增強(qiáng)網(wǎng)絡(luò)的非線性表征能力,最后一層卷積后添加tanh激活函數(shù)。
為了進(jìn)一步增強(qiáng)網(wǎng)絡(luò)的特征學(xué)習(xí)能力,在生成器網(wǎng)絡(luò)中添加了全局跳躍連接和局部跳躍連接。局部跳躍連接的作用表現(xiàn)在:一方面為了防止特征信息隨著網(wǎng)絡(luò)深度的增加而逐漸丟失,另一方面為了充分利用各個(gè)MSR2B模塊的不同輸出特征,因此將各個(gè)MSR2B的輸出都發(fā)送至網(wǎng)絡(luò)末端進(jìn)行特征融合,并在殘差網(wǎng)絡(luò)末端添加一個(gè)1×1大小的瓶頸卷積,其作用是自適應(yīng)地提取多尺度特征并解決特征融合帶來(lái)的冗余信息,同時(shí)減小網(wǎng)絡(luò)的計(jì)算復(fù)雜度。其次通過(guò)添加全局跳躍連接,可以提高網(wǎng)絡(luò)對(duì)圖像特征信息的復(fù)用,并降低模糊圖像到生成圖像之間端到端學(xué)習(xí)的復(fù)雜度。
GAN常用的鑒別器大多為二分類器,是將圖像經(jīng)過(guò)多個(gè)卷積層和全連接層后得到的標(biāo)量值直接作為判別的結(jié)果輸出,是對(duì)整張圖像的真實(shí)性做出的判斷。本文采用PatchGAN鑒別器網(wǎng)絡(luò),通過(guò)假設(shè)一張圖像內(nèi)的多個(gè)圖像塊(patch)之間的像素是互相獨(dú)立的,然后對(duì)每個(gè)圖像塊進(jìn)行鑒別,并取所有圖像塊的鑒別結(jié)果的平均值作為輸出結(jié)果。相比于傳統(tǒng)的二分類器,PatchGAN更加關(guān)注圖像中的局部高頻信息,能夠表達(dá)更為精確的整體差異;并且由于PatchGAN是對(duì)小尺寸的圖像塊而非整張圖像進(jìn)行處理,加速了訓(xùn)練過(guò)程中的網(wǎng)絡(luò)收斂。如圖4所示,本文中的鑒別網(wǎng)絡(luò)包含5個(gè)卷積層,前4層卷積大小依次為4×4×64、4×4×128、4×4×256和4×4×512,且步長(zhǎng)均為2,其后連接BN層和斜率α=0.2的LeakyReLU激活函數(shù)層。最后一層卷積大小為4×4×1,步長(zhǎng)為1,其后連接Sigmod激活函數(shù)層。本文中鑒別器的輸入為來(lái)自生成器的輸出圖像和對(duì)應(yīng)的清晰圖像(約束條件y),且每個(gè)patch的大小均為70pixel×70pixel。
圖4 本文去模糊條件生成對(duì)抗網(wǎng)絡(luò)的結(jié)構(gòu)
本文采用的損失函數(shù)由對(duì)抗損失和內(nèi)容損失兩部分組成??偟膿p失函數(shù)表示為
Ltotal=Ladv+λLpers
(8)
(1)對(duì)抗損失。傳統(tǒng)的GAN在訓(xùn)練過(guò)程中存在著模式崩塌和不易收斂等問(wèn)題,Arjovsky等指出這些問(wèn)題是由于傳統(tǒng)的GAN采用JS散度(jensen shannon divergence)和KL散度(kullback leibler divergence)作為優(yōu)化策略而導(dǎo)致的,并提出WGAN網(wǎng)絡(luò),使用Wasserstein距離衡量真實(shí)樣本分布與生成樣本分布之間的距離替代傳統(tǒng)策略來(lái)優(yōu)化網(wǎng)絡(luò)[18]。然而WGAN會(huì)通過(guò)剪切權(quán)重的方式來(lái)強(qiáng)制滿足Lipschitz約束,從而導(dǎo)致梯度消失或梯度爆炸等問(wèn)題。為進(jìn)一步解決此問(wèn)題,WGAN-GP使用了梯度懲罰的方式替代權(quán)重剪切,并且獲得了更好的性能[19]。WGAN-GP的損失函數(shù)表示為
(9)
(2)內(nèi)容損失。為了更好地恢復(fù)模糊圖像的細(xì)節(jié)特征,本文使用感知損失Lpers[20]替代傳統(tǒng)的L1或L2損失函數(shù)來(lái)定義網(wǎng)絡(luò)訓(xùn)練的內(nèi)容損失,用以改善生成圖像和清晰圖像之間的內(nèi)容一致性。Lpers定義為清晰圖像經(jīng)過(guò)卷積后得到的特征矩陣與生成圖像經(jīng)過(guò)卷積后的特征矩陣之間的歐式距離,可以表示為
(10)
其中,R、G(B)分別表示清晰圖像和生成圖像,φi,j表示在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的VGG19網(wǎng)絡(luò)中第i個(gè)池化層前的第j個(gè)卷積層輸出的特征圖,wi,j和hi,j表示特征圖的維度,由于較低層的特征圖相對(duì)于深層的特征圖著重于表達(dá)圖像的紋理特征,故這里選擇i=j=3。感知損失函數(shù)Lpers有助于網(wǎng)絡(luò)生成真實(shí)性更強(qiáng)的圖像。
GOPRO數(shù)據(jù)集由Nah等[7]提出,通過(guò)使用GoPro4 Hero Black高速相機(jī)以240 fps的幀率拍攝多個(gè)場(chǎng)景的視頻,并對(duì)視頻中的連續(xù)幀求平均來(lái)生成模糊圖像,這些模糊圖像較好地模擬了復(fù)雜相機(jī)抖動(dòng)、散焦和物體相對(duì)位移等真實(shí)的非均勻模糊場(chǎng)景。GOPRO數(shù)據(jù)集中包括3214個(gè)清晰-模糊圖像對(duì),選取其中2103對(duì)作為訓(xùn)練集,另外1111對(duì)作為測(cè)試集。
K?hler數(shù)據(jù)集是K?hler等[21]通過(guò)記錄和回放6D相機(jī)的運(yùn)動(dòng)軌跡得到的。K?hler數(shù)據(jù)集作為評(píng)價(jià)非均勻去模糊算法的標(biāo)準(zhǔn)數(shù)據(jù)集,其中包含了4張清晰圖像,且每張清晰圖像分別對(duì)應(yīng)了12張不同模糊核的模糊圖像,但由于該數(shù)據(jù)集內(nèi)容較小,只能用作測(cè)試集使用。
實(shí)驗(yàn)中使用PyTorch深度學(xué)習(xí)框架,在裝有Intel i7-6900K CPU和單塊Nvidia Titan X GPU的工作站上進(jìn)行網(wǎng)絡(luò)模型的訓(xùn)練。訓(xùn)練中采用自適應(yīng)估計(jì)矩陣(adaptive moment estimation,Adam)算法進(jìn)行優(yōu)化,其中首次估計(jì)的指數(shù)衰減率β1=0.5,第二次估計(jì)的指數(shù)衰減率β2=0.999,參數(shù)ε=10-8。交替更新生成網(wǎng)絡(luò)和鑒別網(wǎng)絡(luò),即每更新1次生成器需要對(duì)鑒別器進(jìn)行5次優(yōu)化更新,經(jīng)過(guò)300個(gè)epoch后模型收斂,前200個(gè)epoch的初始學(xué)習(xí)率設(shè)置為1×10-4,在后100個(gè)epoch的學(xué)習(xí)率線性衰減至1×10-7。感知損失函數(shù)的權(quán)重因子設(shè)置為λ=100,實(shí)驗(yàn)過(guò)程中將batchsize設(shè)為2。并將隨機(jī)裁剪得到的256×256像素大小的圖像數(shù)據(jù)作為訓(xùn)練輸入。
為準(zhǔn)確評(píng)估圖像的去模糊效果,并評(píng)價(jià)本文所提出的去模糊多尺度生成對(duì)抗網(wǎng)絡(luò)方法的有效性,采用峰值信噪比(peak signal to noise ratio,PSNR)和結(jié)構(gòu)相似性(structural similarity,SSIM)作為客觀評(píng)價(jià)標(biāo)準(zhǔn)。PSNR反映了對(duì)應(yīng)像素點(diǎn)之間的差異程度,評(píng)價(jià)結(jié)果以dB(分貝)為單位表示,其值越高表明圖像越清晰;SSIM從亮度、對(duì)比度和結(jié)構(gòu)3個(gè)方面來(lái)衡量圖像的相似度,取值范圍是[0,1],其值越接近于1表明圖像質(zhì)量越高。
首先分析了MSR2B模塊中特征通道分組數(shù)L的大小對(duì)于網(wǎng)絡(luò)性能的影響。由于在本文的生成網(wǎng)絡(luò)中,MSR2B模塊的輸入和輸出特征通道數(shù)均為256,為了使模塊內(nèi)的通道數(shù)能夠均分,設(shè)計(jì)了L=1,L=2和L=4這3種參數(shù)下的多尺度殘差模塊MSR2B,并在GOPRO數(shù)據(jù)集下進(jìn)行訓(xùn)練,保持了相同的實(shí)驗(yàn)參數(shù)??陀^評(píng)價(jià)結(jié)果見(jiàn)表1,可以看出隨著L的增大,網(wǎng)絡(luò)層獲取的感受野范圍越來(lái)越大,提取到的多尺度特征越來(lái)越精細(xì),PSNR和SSIM也隨之增大,并在L=4時(shí)表現(xiàn)出最佳性能。圖5所示為不同尺度L下的網(wǎng)絡(luò)去模糊效果,結(jié)果表明,隨著特征分組的增加,網(wǎng)絡(luò)的去模糊性能隨之提升,可以恢復(fù)出更多的細(xì)節(jié)紋理和圖形結(jié)構(gòu)信息。盡管可以通過(guò)繼續(xù)增大塊內(nèi)特征通道分組數(shù)L來(lái)提高特征提取能力,但是隨著L的增加,圖像的特征會(huì)被已有的感受野完全覆蓋,模塊的性能提升將會(huì)受限且復(fù)雜度會(huì)隨之增大,為了平衡網(wǎng)絡(luò)的計(jì)算復(fù)雜度和性能,本文最終選擇使用L=4時(shí)的MSR2B作為多尺度殘差模塊的基準(zhǔn)結(jié)構(gòu)。
表1 不同尺度下MSR2B的性能比較
圖5 不同尺度下MSR2B的去模糊效果對(duì)比
其次驗(yàn)證了基準(zhǔn)模塊MSR2B(L=4)的數(shù)量k對(duì)于網(wǎng)絡(luò)去模糊性能的影響。如圖6所示,從圖中可以看出,一開(kāi)始隨著MSR2B模塊的增加,網(wǎng)絡(luò)的去模糊效果快速提升,然而繼續(xù)增加MSR2B模塊的數(shù)量會(huì)導(dǎo)致網(wǎng)絡(luò)的參數(shù)量增大并且性能提升的效率不明顯。因此為了平衡網(wǎng)絡(luò)的計(jì)算復(fù)雜度和去模糊性能,最終選擇使用MSR2B模塊的數(shù)量為k=9。
圖6 不同數(shù)量的MSR2B對(duì)網(wǎng)絡(luò)性能的影響
最后為了驗(yàn)證本文提出的多尺度殘差模塊MSR2B的有效性,將該模塊與殘差模塊ResNet和Res2 Net在生成網(wǎng)絡(luò)中的特征提取能力進(jìn)行了比較。在本文的生成器主干網(wǎng)絡(luò)結(jié)構(gòu)中,分別使用經(jīng)典的ResNet殘差模塊和Res2Net(L=4)殘差模塊替換掉MSR2B(L=4)基準(zhǔn)殘差模塊,并且為了公平比較,在保持其它實(shí)驗(yàn)參數(shù)固定的條件下進(jìn)行了訓(xùn)練。以這3種模塊為主干特征提取結(jié)構(gòu)的條件生成對(duì)抗網(wǎng)絡(luò)在GOPRO數(shù)據(jù)集上的測(cè)試結(jié)果見(jiàn)表2,視覺(jué)效果對(duì)比如圖7所示,從中可以得出,本文提出的多尺度殘差模塊MSR2B在圖像去模糊任務(wù)中非常有效。從客觀評(píng)價(jià)結(jié)果上看,MSR2B模塊相較于傳統(tǒng)的ResNet模塊提升較大,在測(cè)試集上的平均PSNR和SSIM分別提高了1.02 dB和0.01;相較于Res2Net(L=4)模塊也有進(jìn)一步地提高,在測(cè)試集上的平均PSNR和SSIM分別提高了0.26 dB和0.002。從視覺(jué)效果對(duì)比上看,使用ResNet模塊的去模糊網(wǎng)絡(luò)可以從嚴(yán)重模糊中恢復(fù)出圖形結(jié)構(gòu),但是字符仍然不夠清晰,人眼無(wú)法識(shí)別出圖中的有效信息;使用Res2Net(L=4)模塊的網(wǎng)絡(luò)由于增強(qiáng)了多尺度特征提取能力,因此能恢復(fù)出較清晰的圖像,但部分字符仍存在扭曲失真;MSR2B模塊網(wǎng)絡(luò)的多尺度特征表達(dá)能力進(jìn)一步提升,恢復(fù)出了更豐富的圖像紋理和細(xì)節(jié)信息,字符的邊緣結(jié)構(gòu)更加清晰。
表2 不同殘差模塊之間的性能比較
圖7 不同殘差模塊的去模糊效果對(duì)比
將本文的多尺度生成對(duì)抗網(wǎng)絡(luò)與其它先進(jìn)的方法在GOPRO和K?hler評(píng)估數(shù)據(jù)集上的結(jié)果進(jìn)行對(duì)比,對(duì)比的方法包括:Pan等[4]提出的通過(guò)去除圖像邊緣的離群值來(lái)估計(jì)模糊核的傳統(tǒng)盲去模糊方法;Sun等[22]使用CNN估計(jì)模糊核,并結(jié)合反卷積恢復(fù)圖像的過(guò)渡方法;Nah等[7]使用基于分層級(jí)聯(lián)網(wǎng)絡(luò)的多尺度CNN,以端到端的方式進(jìn)行去模糊的方法;以及Kupyn等[8]基于圖像翻譯思想而提出的條件生成對(duì)抗網(wǎng)絡(luò),采用深層殘差網(wǎng)絡(luò)進(jìn)行不同尺度的特征提取,并以端到端的方式進(jìn)行盲圖像去模糊的方法。實(shí)驗(yàn)結(jié)果通過(guò)其發(fā)布的帶有默認(rèn)參數(shù)的官方代碼實(shí)現(xiàn)或直接從其論文中得出。
表3中顯示了不同方法在GOPRO和K?hler評(píng)估數(shù)據(jù)集上的客觀評(píng)價(jià)結(jié)果,其中本文的去模糊方法在兩個(gè)數(shù)據(jù)集上均達(dá)到了最佳PSNR和SSIM值。其中在GOPRO數(shù)據(jù)集上,相比于Nah等的多尺度級(jí)聯(lián)網(wǎng)絡(luò),PSNR提高了0.2 dB,SSIM提高了0.05;相比于Kupyn等的方法在運(yùn)行時(shí)間上減少了24%。在K?hler數(shù)據(jù)集上PSNR和SSIM相比于Kupyn等的生成對(duì)抗網(wǎng)絡(luò),分別提高了2.0%和2.5%。圖8顯示了本文和其它方法在GOPRO數(shù)據(jù)集上的去模糊視覺(jué)結(jié)果對(duì)比,從中可以看出,Nah等和Kupyn等的方法都取得了不錯(cuò)的去模糊效果,但是仍未能很好地恢復(fù)圖像的紋理和細(xì)節(jié)特征,如圖中標(biāo)識(shí)牌的顏色、窗戶的框架輪廓和廣告牌上的文字等,本文方法則可以對(duì)其進(jìn)行較好地恢復(fù);在K?hler數(shù)據(jù)集上的視覺(jué)效果對(duì)比如圖9所示,本文方法相比于Nah的方法能更為清晰地恢復(fù)圖像,相比于Kupyn等的方法減少了圖像中的偽影,并且顯示出了良好的泛化能力。綜上所述,本文方法可以更清晰、更真實(shí)地還原圖像的邊緣結(jié)構(gòu)和紋理信息,同時(shí)處理速度更優(yōu)。
表3 不同方法在測(cè)試集上的客觀評(píng)價(jià)結(jié)果
圖8 在GOPRO數(shù)據(jù)集上的視覺(jué)效果對(duì)比
圖9 在K?hler數(shù)據(jù)集上的視覺(jué)效果對(duì)比
本文提出一種基于多尺度條件生成對(duì)抗網(wǎng)絡(luò)的端到端圖像去模糊方法,用以解決現(xiàn)有的方法中去模糊效果不佳和處理速度慢等問(wèn)題。在生成器網(wǎng)絡(luò)中,本文提出一種多尺度殘差模塊MSR2B作為主干特征提取結(jié)構(gòu),該模塊通過(guò)擴(kuò)展模塊內(nèi)部的精細(xì)感受野范圍來(lái)表達(dá)多尺度特征;并進(jìn)一步添加全局和局部的跳躍連接,來(lái)融合多尺度信息并提升網(wǎng)絡(luò)的自適應(yīng)特征表達(dá)能力。通過(guò)PatchGAN判別網(wǎng)絡(luò)來(lái)表征和提取局部細(xì)節(jié)特征,并加速網(wǎng)絡(luò)收斂。實(shí)驗(yàn)結(jié)果表明,本文提出的方法相比于以分層級(jí)聯(lián)和加深深度作為多尺度策略的方法,去模糊效果更好并且運(yùn)行速度更快。