彭晏飛,孟 欣,李泳欣,劉藍(lán)兮
(遼寧工程技術(shù)大學(xué)電子與信息工程學(xué)院,遼寧 葫蘆島 125100)
圖像超分辨率SR(Super-Resolution)重建技術(shù)旨在將給定的低分辨率LR(Low-Resolution)圖像經(jīng)過一系列過程恢復(fù)出其對(duì)應(yīng)的高分辨率HR(High-Resolution)圖像,是一種底層的計(jì)算機(jī)視覺任務(wù),被廣泛應(yīng)用于衛(wèi)星遙感[1]、人臉識(shí)別[2]和醫(yī)學(xué)成像[3]等領(lǐng)域。早期,圖像SR重建分為基于插值[4]的方法、基于重建[5]的方法和基于學(xué)習(xí)[6]的方法,主要依賴約束項(xiàng)的構(gòu)造以及圖像之間配準(zhǔn)的精確度實(shí)現(xiàn)重建效果,因此難以恢復(fù)出HR圖像原本的細(xì)節(jié)信息。隨著深度學(xué)習(xí)的迅速發(fā)展,傳統(tǒng)SR重建方法中的瓶頸問題迎刃而解。目前,基于卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)的方法已經(jīng)成為主流。Dong等人[7]最先將CNN應(yīng)用于圖像SR重建問題中,提出了具有里程碑式意義的SRCNN(Super-Resolution Convolutional Neural Network),僅使用3個(gè)卷積層就實(shí)現(xiàn)了從LR圖像到HR圖像的重建過程。受這一開創(chuàng)性工作的啟發(fā),Kim等人[8]提出了具有深層網(wǎng)絡(luò)的VDSR(Super_Resolution using Very Deep convolutional network),首次將殘差學(xué)習(xí)[9]應(yīng)用于圖像SR重建問題中,實(shí)驗(yàn)結(jié)果表明該網(wǎng)絡(luò)取得了更好的重建效果。同年,Kim等人[10]在VDSR的基礎(chǔ)上進(jìn)行改進(jìn),提出了DRCN(Deeply Recursive Convolutional Network),該網(wǎng)絡(luò)使用16個(gè)遞歸層,通過遞歸監(jiān)督和跳躍連接的方法提高了模型的性能。由于將經(jīng)過插值的LR圖像作為輸入增加了計(jì)算復(fù)雜度,因此Shi等人[11]提出了ESPCN(Efficient Sub-Pixel Convolutional Neural network),直接將LR圖像作為輸入,采用亞像素卷積層代替反卷積層實(shí)現(xiàn)上采樣過程,大大縮短了模型的運(yùn)行時(shí)間。近年來,注意力機(jī)制被廣泛應(yīng)用于圖像SR重建模型中,Zhang等人[12]將通道注意力集成到殘差塊中,提出了RCAN(Residual Channel Attention Network),注重特征通道之間的相互依賴性,提高了網(wǎng)絡(luò)的表達(dá)能力。通道注意力機(jī)制只是在通道層面選擇感興趣的特征,忽略了空間中的位置信息,而位置信息是視覺任務(wù)中捕獲目標(biāo)結(jié)構(gòu)的關(guān)鍵,因此造成了位置特征利用不充分的問題。
上述方法都是采用最小化均方誤差MSE(Mean Square Error)的優(yōu)化思想,雖然在峰值信噪比PSNR(Peak Signal-to-Noise Ratio)上取得了較優(yōu)的結(jié)果,但是生成的圖像往往過于平滑和模糊。Goodfellow等人[13]提出的生成式對(duì)抗網(wǎng)絡(luò)GAN(Generative Adversarial Network),將SR重建技術(shù)推向了一個(gè)新的高度,有效緩解了重建圖像的平滑和模糊問題。Ledig等人[14]提出了SRGAN(Super-Resolution Generative Adversarial Network),首次將GAN應(yīng)用于SR任務(wù),通過生成器和判別器的相互迭代訓(xùn)練實(shí)現(xiàn)圖像的重建。隨后,Wang等人[15]對(duì)SRGAN進(jìn)行改進(jìn),提出了ESRGAN(Enhanced Super-Resolution Generative Adversarial Network),將殘差塊中的批量歸一化BN(Batch Normalization)層去掉,使用殘差中嵌入殘差的結(jié)構(gòu)構(gòu)建生成器,使得重建圖像具有豐富的紋理細(xì)節(jié)。Li等人[16]提出了用于高質(zhì)量圖像SR重建的Beby-GAN,采用區(qū)域感知的對(duì)抗學(xué)習(xí)策略,使重建圖像具有更豐富和更合理的紋理。以上網(wǎng)絡(luò)均使用了經(jīng)典的VGG(Visual Geometry Group)式判別器,其輸出是對(duì)圖像整體結(jié)構(gòu)進(jìn)行真假判斷,沒有對(duì)局部紋理進(jìn)行細(xì)致的判斷,因此重建圖像的紋理細(xì)節(jié)不夠逼真。Yan等人[17]提出了FASRGAN,使用了類U-Net(U-shape Network)判別器,并將判別器的其中一個(gè)輸出作為細(xì)粒度注意力反饋給生成器,提升了重建圖像的紋理逼真程度。由于U-Net判別器對(duì)復(fù)雜的訓(xùn)練輸出具有更強(qiáng)的鑒別能力,Wang等人[18]將其應(yīng)用于盲SR任務(wù)中,重建出了清晰且真實(shí)的圖像。但是,GAN模型仍然面臨著因不易收斂和梯度消失而導(dǎo)致的訓(xùn)練不穩(wěn)定問題。
針對(duì)SR重建的現(xiàn)有問題,本文提出了結(jié)合坐標(biāo)注意力和生成式對(duì)抗網(wǎng)絡(luò)的圖像超分辨率重建模型。將坐標(biāo)注意力CA(Coordinate Attention)[19]嵌入到殘差塊中作為構(gòu)建生成器的基本單元,可以將通道注意力分解為2個(gè)一維特征編碼過程,分別沿通道和空間產(chǎn)生注意力特征圖,增強(qiáng)模型對(duì)特征信息的利用率。引入高級(jí)視覺任務(wù)中的隨機(jī)失活層(Dropout)正則化,調(diào)節(jié)其加入網(wǎng)絡(luò)的方式,并應(yīng)用于SR重建任務(wù)中,防止過擬合并提高模型的泛化能力。將GAN模型中經(jīng)典的VGG式判別器改為U-Net式判別器,對(duì)局部紋理產(chǎn)生精確的梯度反饋,以生成清晰且逼真的SR圖像。并在相匹配的分辨率之間加入跳躍連接,彌補(bǔ)連續(xù)下采樣和上采樣造成的細(xì)節(jié)損失。最后在判別器中加入譜歸一化SN(Spectral Normalization)操作,以穩(wěn)定GAN的訓(xùn)練。通過以上方法充分挖掘特征信息,使重建圖像的局部紋理細(xì)節(jié)更加逼真,進(jìn)一步提升圖像的視覺效果。
通道注意力廣泛應(yīng)用于SR重建任務(wù)中,對(duì)重要通道即高頻特征賦予更大的權(quán)重,對(duì)圖像質(zhì)量提升幅度較小的通道賦予低權(quán)重,從而提升模型的性能。但是,通道注意力忽略了對(duì)生成空間選擇性注意映射很重要的位置信息,使得特征圖中局部空間層面上的信息沒有被合理利用。而CA機(jī)制將位置信息嵌入到通道注意力中,可以捕獲方向感知、位置感知和跨通道的信息。
CA機(jī)制的實(shí)現(xiàn)包括2個(gè)部分。第1部分是坐標(biāo)信息的嵌入,對(duì)輸入X(設(shè)其高度為H,寬度為W,通道數(shù)為C)使用池化核的2個(gè)空間范圍(H,1)和(1,W)分別沿水平和垂直方向?qū)γ總€(gè)通道進(jìn)行編碼,池化后的特征圖的高度為h(0≤h≤H),寬度為w(0≤w≤W),因此,第c(0≤c≤C)個(gè)通道在高度為h時(shí)的輸出可表示為式(1),同樣地,第c個(gè)通道在寬度為w時(shí)的輸出可表示為式(2):
(1)
(2)
其中,xc(h,i) 表示輸入特征圖中通道為c,坐標(biāo)為(h,i)的分量;xc(j,w)表示輸入特征圖中通道為c,坐標(biāo)為(j,w)的分量。
以上編碼過程分別沿著2個(gè)空間方向聚合特征,得到一對(duì)方向感知特征圖。第2部分是坐標(biāo)注意力的生成,將聚合的特征映射進(jìn)行級(jí)聯(lián),并將其送入共享的1×1卷積變換函數(shù)F1(·)中,得到編碼水平和垂直2個(gè)方向空間信息的中間特征f:
f=δ(F1([zh,zw]))
(3)
其中,zh表示沿X軸方向平均池化后的輸出,zw表示沿Y軸方向平均池化后的輸出,δ(·)表示h-swish激活函數(shù)。
接著沿空間維度將f分成2個(gè)單獨(dú)的張量fh和fw,再利用2個(gè)1×1卷積Fh(·)和Fw(·)分別將其通道數(shù)轉(zhuǎn)換成與輸入X相同的通道數(shù),經(jīng)過Sigmoid函數(shù)激活之后分別得到特征圖在高度和寬度方向的注意力權(quán)重gh和gw。該過程可以表示如式(4)和式(5)所示:
gh=σ(Fh(fh))
(4)
gw=σ(Fw(fw))
(5)
最后在原始特征圖上通過乘法加權(quán)計(jì)算,最終得到在寬度和高度方向上帶有注意力權(quán)重的特征圖。由于本文設(shè)計(jì)的殘差塊去除了BN層,因此也將CA中的BN層去掉,修改后的CA機(jī)制結(jié)構(gòu)如圖1所示,圖中r表示通道的縮減因子。首先對(duì)輸入特征圖分別沿X軸和Y軸方向進(jìn)行平均池化;然后將2個(gè)方向的特征圖拼接在一起,并輸入卷積模塊進(jìn)行降維(Concat+Conv2d);再經(jīng)過非線性層(Nonlinear)編碼2個(gè)方向的空間信息;接著進(jìn)行分離(Split),通過卷積(Con2d)調(diào)整2個(gè)方向特征向量的通道數(shù);最后與原輸入加權(quán)計(jì)算(Re-weight),得到注意力權(quán)重。將CA嵌入到每個(gè)殘差塊中,使得模型可以捕獲輸入特征圖沿一個(gè)空間方向的長程依賴關(guān)系,更加精準(zhǔn)地識(shí)別圖像中感興趣的部分。
Figure 1 Structure of coordinate attention圖1 坐標(biāo)注意力結(jié)構(gòu)
在高級(jí)計(jì)算機(jī)視覺任務(wù)中,Dropout可以有效降低模型過擬合的風(fēng)險(xiǎn),但在SR重建這種底層視覺任務(wù)中會(huì)造成輸出圖像的部分像素缺失。不過,Kong等人[20]通過研究證明了只要將Dropout加入網(wǎng)絡(luò)的方式進(jìn)行調(diào)整,便可以應(yīng)用于SR重建任務(wù)中,并且有益于提升模型的性能。Dropout的影響主要取決于其在網(wǎng)絡(luò)中的位置、維度和概率。(1)Dropout在網(wǎng)絡(luò)中的位置。Hinton等人[21]將Dropout應(yīng)用于分類任務(wù)輸出之前的完全連接層,類似地,在回歸任務(wù)中可以應(yīng)用于輸出前的卷積層,因此本文將其應(yīng)用于生成器網(wǎng)絡(luò)輸出前的卷積層。(2)Dropout的維度。在卷積層中可以應(yīng)用在元素或通道2個(gè)維度上,Dropout元素維度是指在所有的特征圖上隨機(jī)丟棄元素,這會(huì)造成生成圖像的像素缺失問題。Dropout通道維度是指隨機(jī)丟棄一個(gè)通道,使得PSNR值不再依賴于特定的通道,可提高通道的表達(dá)能力。因此,本文選擇在通道維度應(yīng)用Dropout。(3)Dropout的概率決定了元素或通道被丟棄的概率。在分類網(wǎng)絡(luò)中可以選擇高達(dá)50%的失活概率,由于SR網(wǎng)絡(luò)抵抗信息干擾的魯棒性要差于分類網(wǎng)絡(luò)的,所以過高的概率可能會(huì)丟失部分像素,降低SR網(wǎng)絡(luò)的性能。Kong等人[20]還指出,當(dāng)Dropout的概率為10%,20%和30%時(shí),更有利于SR網(wǎng)絡(luò)性能的提升,本文通過實(shí)驗(yàn)最終選擇使用20%的Dropout概率。
GAN面臨的挑戰(zhàn)之一是判別器難以生成同時(shí)具有全局形狀和局部紋理的真實(shí)圖像。SR重建中常用的VGG式判別器如圖2所示,其中,ISR表示生成器重建出的圖像,IHR表示真實(shí)的高分辨率圖像。該判別器的輸出是基于圖像全局形狀的二分類結(jié)果,通過一個(gè)單一的數(shù)值來區(qū)分真假圖像,因此只是以粗略的方式向生成器提供反饋。而U-Net模型是一個(gè)編碼-解碼的結(jié)構(gòu)。Sch?nfeld等人[22]提出了U-Net GAN,其中編碼器對(duì)圖像整體結(jié)構(gòu)進(jìn)行判斷,解碼器對(duì)圖像進(jìn)行像素級(jí)決策,同時(shí)輸出圖像的全局和局部判定,如圖3所示。這一結(jié)構(gòu)的判別器具有更強(qiáng)的鑒別能力,使得設(shè)計(jì)欺騙判別器的生成器任務(wù)更具挑戰(zhàn)性,從而提高生成圖像的質(zhì)量。受該文獻(xiàn)啟發(fā),本文使用U-Net式判別器,不再是對(duì)圖像的全局樣式進(jìn)行二分類判斷,而是輸出一幅特征圖,即對(duì)每個(gè)像素進(jìn)行分類,每個(gè)像素均輸出一個(gè)真實(shí)數(shù)值,可以向生成器提供一種細(xì)粒度的反饋,以此來更新生成器。這樣,判別器可以對(duì)局部紋理產(chǎn)生精確的梯度反饋,更好地保留局部細(xì)節(jié),使生成的SR圖像盡可能地接近HR圖像。
Figure 2 Structure of VGG discriminator圖2 VGG式判別器結(jié)構(gòu)圖
Figure 3 Structure of U-Net GAN圖3 U-Net GAN結(jié)構(gòu)
基于GAN的SR重建模型增強(qiáng)了生成圖像的真實(shí)感,但是GAN也面臨著訓(xùn)練不穩(wěn)定的問題。這是由于當(dāng)判別器非常準(zhǔn)確時(shí),生成數(shù)據(jù)和真實(shí)數(shù)據(jù)分布很難有所重疊,導(dǎo)致生成模型的損失函數(shù)幾乎沒有梯度,即二者難以同時(shí)達(dá)到收斂,造成了GAN訓(xùn)練不穩(wěn)定的結(jié)果。Arjovsky等人[23]提出了WGAN(Wasserstein Generative Adversarial Network),用Wasserstein距離代替JS(Jensen-Shannon)散度,平衡了生成器和判別器的訓(xùn)練程度,有效提高了GAN訓(xùn)練的穩(wěn)定性。WGAN雖然性能優(yōu)越,但是留下了難以解決的1-Lipschitz問題。針對(duì)這一問題,Miyato等人[24]提出了SNGAN(Spectral Normalization for Generative Adversarial Network),對(duì)判別器中的參數(shù)進(jìn)行歸一化處理,將每層的參數(shù)矩陣除以自身的最大奇異值,最大限度地保存了判別器權(quán)值矩陣的信息,使得映射函數(shù)滿足了Lipschitz約束。SN使判別器滿足Lipschitz連續(xù)性,限制了函數(shù)變化的劇烈程度,同時(shí)可以防止訓(xùn)練過程中出現(xiàn)模式坍塌現(xiàn)象,從而使模型更穩(wěn)定。因此,本文引入SN操作,在判別器的卷積層中使用SN層代替?zhèn)鹘y(tǒng)的BN層,增強(qiáng)GAN在訓(xùn)練過程中的穩(wěn)定性。
Figure 4 Structure of the proposed model圖4 本文模型結(jié)構(gòu)
本文模型以生成式對(duì)抗網(wǎng)絡(luò)為框架,結(jié)構(gòu)如圖4所示。生成器(其輸入為低分辨率圖像ILR)是以殘差塊為基本單元構(gòu)建的,同時(shí)在殘差塊中加入CA機(jī)制,充分聚合通道和空間2個(gè)方向的特征。并且在上采樣操作后引入了Dropout,以增強(qiáng)模型的泛化能力。判別器以U-Net結(jié)構(gòu)進(jìn)行構(gòu)造,增強(qiáng)對(duì)局部紋理的判斷能力。同時(shí)在判別器中加入譜歸一化,以穩(wěn)定GAN的訓(xùn)練。在損失函數(shù)方面,利用VGG19網(wǎng)絡(luò)激活前的多層特征加權(quán)求和計(jì)算感知損失,使用Charbonnier損失函數(shù)[25]作為內(nèi)容損失,并加入GAN特有的對(duì)抗損失,三者共同構(gòu)成生成損失,使得重建圖像具有精確的紋理細(xì)節(jié)。
由于BN層容易引起偽影,并且增加了計(jì)算復(fù)雜度,所以本文在殘差塊的設(shè)計(jì)中未使用BN層。本文提出的坐標(biāo)注意力殘差塊如圖5所示,具體來說,該模塊包含了3個(gè)卷積層和1個(gè)注意力層,卷積核的大小均為3×3,通道數(shù)分別為128,256和64,在第3個(gè)卷積層后設(shè)計(jì)CA,確保網(wǎng)絡(luò)提取更精細(xì)的特征信息。
Figure 5 Structure of coordinate attention residual block圖5 坐標(biāo)注意力殘差塊結(jié)構(gòu)
Figure 6 Structure of generator圖6 生成器結(jié)構(gòu)
生成器的網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。首先使用一個(gè)卷積層提取輸入圖像的邊緣特征,然后將其輸入到坐標(biāo)注意力殘差模塊中,同時(shí)關(guān)注通道信息和位置信息,更全面地提取特征。生成器的上采樣模塊,由2個(gè)亞像素卷積層構(gòu)成,完成圖像像素的擴(kuò)充。在最后一個(gè)卷積層前加入Dropout正則化,并將經(jīng)過雙線性插值法處理的輸入圖像與最后一個(gè)卷積層的輸出相加,得到最終的輸出。生成器的激活函數(shù)均使用LeakyReLU函數(shù)。該激活函數(shù)通過引入小的斜率避免神經(jīng)元的“死亡”,同時(shí)解決了梯度方向的鋸齒問題,使得模型能夠更快地收斂。
U-Net式判別器是一個(gè)下采樣-上采樣的結(jié)構(gòu),如圖7所示。其中,n表示通道數(shù),k×k表示卷積核的尺寸,s表示步長。首先,第1個(gè)卷積層采用64個(gè)3×3的卷積核對(duì)輸入圖像進(jìn)行特征提取,然后下采樣部分(Downsampling)分別使用128,256和512個(gè)步長為2,尺寸為4×4的卷積核,實(shí)現(xiàn)通道數(shù)量的增加以及特征圖空間的減小,從而提高網(wǎng)絡(luò)的表達(dá)能力。判別器的上采樣部分使用雙線性插值法進(jìn)行漸進(jìn)式上采樣,逐漸擴(kuò)展特征圖的空間大小。為彌補(bǔ)連續(xù)下采樣和上采樣造成的細(xì)節(jié)損失,下采樣部分的各層級(jí)特征圖與經(jīng)過上采樣獲得的特征圖通過跳躍連接的方式進(jìn)行特征融合,并在卷積層后加入SN層,穩(wěn)定訓(xùn)練過程。網(wǎng)絡(luò)的末端包括3個(gè)卷積層,最后一個(gè)卷積層的通道數(shù)為1,以得到一幅與輸入圖像大小相同的灰度圖,圖中每個(gè)像素均輸出一個(gè)真實(shí)數(shù)值,以對(duì)局部紋理產(chǎn)生精確的梯度反饋。特征圖中顏色較亮部分意味著輸入圖像的相應(yīng)像素更接近于HR圖像的,對(duì)應(yīng)于像素的鑒別置信度為真,而較暗部分的鑒別置信度為假。
Figure 7 Structure of U-Net discriminator圖7 U-Net式判別器結(jié)構(gòu)
損失函數(shù)的選取對(duì)模型的訓(xùn)練影響很大,選擇合適的損失函數(shù)可以使模型正確且快速地收斂。本文采用多種損失函數(shù)相結(jié)合的策略,在預(yù)訓(xùn)練和訓(xùn)練時(shí)分別使用不同的損失函數(shù),使模型朝著正確的方向收斂,以獲得具有豐富紋理的重建圖像。
3.3.1 內(nèi)容損失
傳統(tǒng)的圖像SR重建方法大多是基于L2損失函數(shù)計(jì)算損失,雖然獲得了較高的PSNR值,但重建圖像過于平滑,缺乏紋理細(xì)節(jié)。而L1損失函數(shù)能加快模型的收斂速度,使重建的圖像具有相對(duì)清晰的邊緣。所以,本文模型在預(yù)訓(xùn)練時(shí),采用L1損失函數(shù)和L2損失函數(shù)相結(jié)合的策略,在保證獲取較高PSNR值的同時(shí)減輕平滑現(xiàn)象。L1損失函數(shù)和L2損失函數(shù)定義分別如式(6)和式(7)所示:
(6)
(7)
其中,G(ILR)表示生成器重建的圖像,IHR表示真實(shí)的HR圖像。
在訓(xùn)練過程中使用Charbonnier損失函數(shù)作為內(nèi)容損失,可以規(guī)避異常點(diǎn),有效抑制偽影現(xiàn)象,具有更好的魯棒性。Charbonnier損失函數(shù)定義如式(8)所示:
LC=∑(ρ(IHR-G(ILR)))
(8)
3.3.2 感知損失
本文使用預(yù)訓(xùn)練的VGG網(wǎng)絡(luò)提取特征,使用ReLU激活層之前的特征作為計(jì)算感知損失的依據(jù)。提取VGG19網(wǎng)絡(luò)conv1-2、conv2-2、conv3-4、conv4-4和conv5-4層特征進(jìn)行計(jì)算,使得重建圖像具有更多的細(xì)節(jié)信息。對(duì)淺層特征賦予低權(quán)重,深層特征賦予高權(quán)重,加權(quán)求和作為最終的感知損失。感知損失定義如式(9)所示:
(9)
3.3.3 對(duì)抗損失
本文在損失函數(shù)的計(jì)算中加入了GAN特有的對(duì)抗損失,基于U-Net GAN的思想,判別器的損失定義為所有像素的平均決策,像素級(jí)別的損失計(jì)算可以使重構(gòu)圖像的紋理細(xì)節(jié)更加精確。判別器損失函數(shù)定義如式(10)所示:
(10)
其中,[D(IHR)]i,j和[D(G(ILR))]i,j表示判別器在像素(i,j)處的決策。
相應(yīng)地,生成器的優(yōu)化目標(biāo)如式(11)所示:
(11)
3.3.4 預(yù)訓(xùn)練損失與訓(xùn)練損失
本文的預(yù)訓(xùn)練損失和訓(xùn)練損失是根據(jù)上述損失函數(shù)構(gòu)建的。
預(yù)訓(xùn)練部分只針對(duì)生成器進(jìn)行訓(xùn)練,其損失定義如式(12)所示:
Lpre=L1+L2
(12)
訓(xùn)練部分包括生成器和判別器2個(gè)部分,判別器的損失函數(shù)計(jì)算如式(10)所示,生成器的總損失定義如式(13)所示:
L=γ1LC+Lpercep+γ2LG
(13)
其中,γ1=0.01,γ2=0.005,LC、Lpercep和LG分別表示上文提到的Charbonnier損失、感知損失和生成器損失。
本文實(shí)驗(yàn)在NVIDIA?GeForce?RTX 2080 GPU,內(nèi)存為43 GB的主機(jī)上進(jìn)行,使用Windows 10操作系統(tǒng),以PyTorch作為深度學(xué)習(xí)框架,編程語言為 Python。實(shí)驗(yàn)使用DIV2K(DIVerse 2K resolution image dataset)[26]中800幅HR圖像和對(duì)應(yīng)的經(jīng)過雙三次插值處理的LR圖像作為訓(xùn)練數(shù)據(jù)集,該數(shù)據(jù)集中圖像紋理豐富,適合作為訓(xùn)練數(shù)據(jù)集。測試集為2個(gè)廣泛使用的標(biāo)準(zhǔn)數(shù)據(jù)集Set5和Set14。實(shí)驗(yàn)使用PSNR和結(jié)構(gòu)相似性SSIM(Structure SIMilarity)作為評(píng)價(jià)指標(biāo)。PSNR用于衡量2幅圖像間的差異,其值越大,表示2幅圖像越接近。SSIM用于衡量2幅圖像相似性,可以較好地反映人眼的主觀感受,其值越大,表示2幅圖像越相似。
訓(xùn)練過程中每個(gè)批次處理16個(gè)大小為128×128的圖像塊,訓(xùn)練分為2個(gè)階段:首先使用式(12)定義的損失函數(shù)訓(xùn)練一個(gè)面向PSNR的模型,預(yù)訓(xùn)練共迭代2.5×105次,初始學(xué)習(xí)率為2×10-4,每5×104次學(xué)習(xí)率衰減為原先的一半;然后將經(jīng)過預(yù)訓(xùn)練的模型作為初始生成器,根據(jù)式(13)定義的損失函數(shù)來訓(xùn)練生成器,生成器的初始學(xué)習(xí)率為10-4,判別器采用和生成器不同的學(xué)習(xí)率,初始值設(shè)為4×10-4,共迭代3×105次,每5×104次學(xué)習(xí)率減半。訓(xùn)練時(shí)生成器損失函數(shù)的參數(shù)設(shè)置為γ1=0.01,γ2=0.005。實(shí)驗(yàn)過程均使用Adam優(yōu)化器,設(shè)置參數(shù)為β1=0.9,β2=0.99,ε=10-7。
生成器是基于坐標(biāo)注意力殘差塊實(shí)現(xiàn)的,為了驗(yàn)證其作用,本節(jié)在預(yù)訓(xùn)練模型中進(jìn)行實(shí)驗(yàn),比較PSNR值的變化。由表1可以看出,坐標(biāo)注意力殘差塊數(shù)量由8增至16時(shí),PSNR值在Set5測試集和Set14測試集上分別提高了0.13 dB和0.12 dB;由16增至24時(shí),PSNR值在Set5測試集上沒有增加,在Set14測試集上提升了0.02 dB,但此時(shí)參數(shù)量過于龐大。因此,本文最終使用16個(gè)坐標(biāo)注意力殘差塊來構(gòu)建生成器,在保證獲得較高PSNR值的同時(shí)網(wǎng)絡(luò)參數(shù)量不會(huì)過于龐大。
為了驗(yàn)證Dropout可以提高SR網(wǎng)絡(luò)的性能,本節(jié)在預(yù)訓(xùn)練模型中,分別對(duì)不使用Dropout和使用較小Dropout丟棄概率的情況進(jìn)行實(shí)驗(yàn),所得結(jié)果如表2所示。在Set5測試集上,PSNR值隨Dropout丟棄概率的增加而增加。在Set14測試集上,當(dāng)Dropout丟棄概率為10%和20%時(shí),PSNR值均比未使用Dropout結(jié)構(gòu)的模型提高了0.01 dB;當(dāng)丟棄概率增加為30%時(shí),PSNR值較未使用Dropout結(jié)構(gòu)的模型降低了0.02 dB??梢钥闯?Dropout的引入并不會(huì)破壞網(wǎng)絡(luò),并且有益于模型性能的提升,因此可以在生成器中加入了Dropout正則化。此外,在3種Dropout丟棄概率中,使用20%丟棄概率取得的平均PSNR值高于使用10%和30%丟棄概率的,因此本文最終選用了20%的Dropout概率。
Table 1 Variation of PSNR with the number of coordinate attention residual blocks表1 PSNR值隨坐標(biāo)注意力殘差塊數(shù)量的變化情況
Table 2 Variation of PSNR with Dropout probability表2 PSNR值隨Dropout概率的變化情況
本文將SR重建模型中常用的VGG式判別器改為U-Net結(jié)構(gòu)的判別器。為了驗(yàn)證其有效性,本節(jié)在保證生成器結(jié)構(gòu)相同的情況下,計(jì)算平均PSNR值,所得結(jié)果如表3所示??梢钥闯?在Set5和Set14測試集上,U-Net式判別器較VGG式判別器得到的PSNR值分別提高了0.33 dB和0.46 dB。
Table 3 Variation of PSNR with discriminator structure表3 PSNR值隨判別器結(jié)構(gòu)的變化情況 dB
本文選取了Set14測試集中的“l(fā)enna”圖像進(jìn)行對(duì)比,并放大局部細(xì)節(jié),如圖8所示。可以看出,U-Net式判別器使得重建圖像的局部形狀更接近真實(shí)HR圖像的,線條走勢與HR圖像的基本相同,細(xì)節(jié)部分恢復(fù)得更加清晰,在主觀視覺上驗(yàn)證了U-Net式判別器的有效性。
Figure 8 Reconstruction images comparison of image “l(fā)enna” in Set14 test set圖8 Set14測試集中圖像“l(fā)enna”重建對(duì)比圖
模型訓(xùn)練完成后,本節(jié)在數(shù)據(jù)集Set5和Set14上將本文模型分別與經(jīng)典的SR重建模型(Bicubic、SRCNN和ESPCN)、基于GAN的模型(SRGAN和ESRGAN)以及使用類U-Net式判別器的 FASRGAN模型進(jìn)行實(shí)驗(yàn)比較。平均PSNR和SSIM值分別如表4和表5所示,其中加粗?jǐn)?shù)據(jù)表示最優(yōu)結(jié)果。從表4和表5可知,基于插值的Bicubic模型性能低于其他基于學(xué)習(xí)的模型(SRCNN、ESPCN、SRGAN、ESRGAN和FASRGAN)的。由表4可知,本文模型的PSNR值比SRCNN的平均提高1.82 dB,比ESPCN的平均提高1.84 dB,比SRGAN的平均提高1.87 dB,比 ESRGAN的平均提高1.14 dB,比 FASRGAN的平均提高1.44 dB。由表5可知,本文模型的SSIM值比SRCNN的平均提高0.035 4,比ESPCN的平均提高0.041 9,比 SRGAN的平均提高0.022 5,比ESRGAN的平均提高0.033 3,比FASRGAN的平均提高0.037 1。綜上,當(dāng)圖像放大因子為 4 時(shí),本文模型在PSNR和SSIM評(píng)價(jià)指標(biāo)上均取得了較優(yōu)的結(jié)果,表明了本文模型的有效性。
本文從Set5和Set14測試集上選取了部分細(xì)節(jié)豐富的重建圖像,與其他模型的可視化對(duì)比如圖9~圖11所示??梢钥闯?Bicubic模型重建的圖像非常模糊,鋸齒狀嚴(yán)重;SRCNN和ESPCN模型較Bicubic有所改進(jìn),但重建出的圖像仍較為模糊和平滑;SRGAN模型重建的圖像減輕了模糊程度,但出現(xiàn)了偽影問題,視覺效果沒有得到明顯提升;而ESRGAN、FASRGAN和本文模型重建的圖像明顯更加清晰,恢復(fù)出了更多的紋理細(xì)節(jié),具有良好的視覺效果。不過,ESRGAN和FASRGAN模型生成的部分紋理是HR圖像中不存在的,而本文模型是基于像素進(jìn)行鑒別的,一定程度上避免了生成不真實(shí)的紋理。觀察圖9的局部放大處不難發(fā)現(xiàn),本文模型恢復(fù)出了ESRGAN和FASRGAN模型未能恢復(fù)出的線條,局部紋理與HR圖像的最為相似。從圖11可以看出,本文模型重建的圖像更為清晰,鼻梁處沒有多余的線條,五官輪廓更接近于HR圖像的。這些實(shí)驗(yàn)結(jié)果在主觀視覺上表明了本文模型的有效性,說明其可以恢復(fù)出清晰且逼真的SR圖像。
Figure 9 Reconstruction comparison of image “monarch” in Set14 test set圖9 Set14測試集中圖像“monarch”重建對(duì)比圖
Table 4 Comparison of average PNSR of each super-resolution reconstruction model
Table 5 Comparison of average SSIM of each super-resolution reconstruction model表5 各超分辨率重建模型平均SSIM 值對(duì)比
Figure 10 Reconstruction images comparison of image “baby” in Set5 test set圖10 Set5測試集中圖像“baby”重建對(duì)比圖
Figure 11 Reconstruction images comparison of image “comic” in Set14 test set圖11 Set14測試集上圖像“comic”重建對(duì)比圖
本文提出的結(jié)合坐標(biāo)注意力與生成式對(duì)抗網(wǎng)絡(luò)的圖像超分辨率重建模型利用了空間中的位置信息,對(duì)局部紋理進(jìn)行了細(xì)粒度的判斷,穩(wěn)定了GAN的訓(xùn)練過程。通過將坐標(biāo)注意力嵌入到殘差塊中,捕獲了跨通道的信息,充分地利用了特征信息。在生成器引入高級(jí)視覺任務(wù)中的Dropout正則化,有效提升了模型性能。利用U-Net式判別器實(shí)現(xiàn)了像素級(jí)的鑒別過程,更專注于局部紋理。在判別器中引入譜歸一化操作,使訓(xùn)練過程更加穩(wěn)定。在損失函數(shù)方面結(jié)合了內(nèi)容損失、感知損失和對(duì)抗損失,使得重建圖像具有真實(shí)的細(xì)節(jié)和清晰的輪廓。實(shí)驗(yàn)結(jié)果表明,本文模型在PSNR和SSIM評(píng)價(jià)指標(biāo)上均取得了較好的結(jié)果,在基準(zhǔn)測試集Set5和Set14上取得的峰值信噪比平均提高了1.75 dB,結(jié)構(gòu)相似性平均提高了0.038,生成的SR圖像更接近于真實(shí)圖像,具有良好的視覺效果。