王永強(qiáng),李 雪,范迎迎,錢育蓉,4+
(1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2.新疆大學(xué) 軟件學(xué)院, 新疆 烏魯木齊 830046;3.新疆大學(xué) 新疆維吾爾自治區(qū)信號檢測與處理重點(diǎn)實(shí)驗(yàn)室, 新疆 烏魯木齊 830046;4.新疆大學(xué) 軟件工程重點(diǎn)實(shí)驗(yàn)室,新疆 烏魯木齊 830046)
單圖像超分辨率重建(single image super-resolution,SISR)是用單個(gè)低分辨率圖像重建高分辨率圖像的任務(wù),近年來在計(jì)算機(jī)視覺領(lǐng)域受到了廣泛的關(guān)注,主要應(yīng)用領(lǐng)域有視頻監(jiān)控[1]、生物特征識別[2]等。基于深度學(xué)習(xí)的SISR方法因其出色的重建性能而備受關(guān)注,最初Dong等[3]引入了淺層卷積神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)圖像超分辨率重建技術(shù)。Kim等[4]為了取得更加卓越的重建性能,開始增加網(wǎng)絡(luò)的深度和參數(shù)量。Tai等[5]以前饋的方式采用遞歸結(jié)構(gòu),其在不影響性能的前提下有效減少網(wǎng)絡(luò)參數(shù),如DRCN[6]和DRRN[5]。受益于遞歸結(jié)構(gòu)的反饋連接能夠提供強(qiáng)大的早期重建能力,Li等提出一種具有反饋機(jī)制的超分辨率網(wǎng)絡(luò)GMFN[6]。然而,上述介紹的模型均是面向非GAN的模型,這類工作主要集中在最小化均方重建誤差,盡管重建的(super-resolution,SR)超分辨率圖像具有較高的峰值信噪比,但是其通常缺乏高頻細(xì)節(jié),使得重建任務(wù)在視覺感知質(zhì)量上仍存在很大進(jìn)步空間。為了獲得感知質(zhì)量較好的圖像,生成對抗網(wǎng)絡(luò)(GAN)被引入到圖像超分重建中,如SRGAN[7]、SFTGAN[8]、EnhancedNet[9]、NatSR[26]、ESRGAN[27],然而現(xiàn)有面向GAN的SISR模型大多存在如下問題:
(1)現(xiàn)有基于GAN的SISR模型都是以前饋方式共享信息。然而,前饋方式使網(wǎng)絡(luò)的先前層不能從后層訪問有用信息;
(2)盡管基于GAN的SISR模型可以重建逼真度較高的SR圖像,但SR圖像會出現(xiàn)幾何失真以及尖銳的邊緣;
(3)現(xiàn)有的SISR模型忽略了在處理圖像高頻信息時(shí)反饋機(jī)制和GAN網(wǎng)絡(luò)具有優(yōu)勢互補(bǔ)的特點(diǎn)。
基于上述問題,本文提出了一種基于反饋機(jī)制的超分辨率生成對抗網(wǎng)絡(luò)GFSRGAN。與現(xiàn)有模型對比,改進(jìn)后的模型能恢復(fù)出更逼真自然的紋理。
最近的許多研究方法采用不同種類的跳躍連接來改善圖像SR的性能。這些網(wǎng)絡(luò)結(jié)構(gòu)[5,12,13]中的跳躍連接都是以自下而上的方式使用特征信息,使得網(wǎng)絡(luò)的后層只能接收先前層的信息,由于接收域較小的限制,導(dǎo)致缺少足夠的上下文信息,進(jìn)一步限制了網(wǎng)絡(luò)的重建性能。為了解決這個(gè)問題,Li等[7]提出一種通過反饋機(jī)制實(shí)現(xiàn)了低分辨率圖像重建高分辨率圖像的任務(wù)的超分辨率反饋網(wǎng)絡(luò)(GMFN)。GMFN可以迭代多次,其中,每一個(gè)迭代都計(jì)算一次損失迫使網(wǎng)絡(luò)每次迭代都重建圖像,每次迭代完成后將子網(wǎng)絡(luò)的輸出,即粗糙的SR圖像信息,與低分辨率(low-resolution,LR)圖像一起作為下一次迭代的輸入,將高級信息運(yùn)回到下一次重建任務(wù)中,起到完善低層信息的作用。
GMFN是一種具有反饋連接的遞歸結(jié)構(gòu),這種結(jié)構(gòu)提供了強(qiáng)大的早期重建能力,并且僅需要很少的參數(shù)。但GMFN在特征提取過程中,LR原始特征通道圖被平等對待,在此過程會浪費(fèi)不必要的計(jì)算去獲得低頻特征,使得網(wǎng)絡(luò)缺乏跨特征通道的判別性學(xué)習(xí)能力,最終阻礙了網(wǎng)絡(luò)的表示能力。并且GMFN網(wǎng)絡(luò)的目標(biāo)主要集中在最小均方誤差重構(gòu)上,雖然網(wǎng)絡(luò)生成的SR圖像在客觀指標(biāo)PSNR、SSIM上取得了較好的結(jié)果,但其SR圖像通常缺少高頻細(xì)節(jié),較為模糊。
反饋機(jī)制使網(wǎng)絡(luò)直接使用上一次迭代輸出的結(jié)果以更新當(dāng)前網(wǎng)絡(luò)的權(quán)值,反饋機(jī)制在SR中的工作原理如圖1(a)所示,反饋網(wǎng)絡(luò)使用循環(huán)結(jié)構(gòu)去實(shí)現(xiàn)迭代的過程,并且將損失函數(shù)應(yīng)用于每一次迭代,在每次迭代開始前都提供前一個(gè)SR圖像信息,用于完善每次迭代的淺層信息。與反饋網(wǎng)絡(luò)不同,前饋網(wǎng)絡(luò)只將損失函數(shù)用于最后一次迭代中,這就導(dǎo)致了網(wǎng)絡(luò)的先前的層不能從后層訪問有用的信息,工作原理如圖1(b)所示。近些年,許多網(wǎng)絡(luò)架構(gòu)已經(jīng)采用反饋機(jī)制來完成各種視覺任務(wù)[14]。對于圖像SR模型,反饋機(jī)制的加入使得性能更加優(yōu)秀。大量研究工作[7,15,16]表明,反饋機(jī)制具有優(yōu)秀的重建性能。
圖1 遞歸結(jié)構(gòu)中反饋機(jī)制和前饋機(jī)制在SR中的工作原理
注意力機(jī)制已經(jīng)廣泛的應(yīng)用到計(jì)算機(jī)視覺相關(guān)領(lǐng)域[17,18],范圍從圖像理解,到圖像超分任務(wù)[19]。神經(jīng)網(wǎng)絡(luò)中的注意力機(jī)制是在計(jì)算能力有限的情況下,將計(jì)算資源分配給更重要的任務(wù),以減小處理高維輸入數(shù)據(jù)的負(fù)擔(dān)。另外它能讓網(wǎng)絡(luò)更專注于找到輸入數(shù)據(jù)中與當(dāng)前輸出相關(guān)的有用信息,從而提高輸出的質(zhì)量。如Wang等[18]提出了一種殘差注意網(wǎng)絡(luò)用于圖像分類,該殘差注意網(wǎng)絡(luò)具有一個(gè)集群和掩碼注意機(jī)制。Hu等[17]提出了擠壓-激勵(SE)塊來建立通道關(guān)系的模型,圖像分類性能得到了顯著改善。
本實(shí)驗(yàn)的單圖像超分辨率重建旨在恢復(fù)豐富的高頻特征,同時(shí)保持內(nèi)容的一致性。本部分將重點(diǎn)介紹本文所提到的GFSRGAN模型和訓(xùn)練使用的損失函數(shù)。
GFSRGAN模型主要由生成器和鑒別器(VGG128)組成。該模型以具有通道注意力機(jī)制的反饋網(wǎng)絡(luò)作為生成器。其次使用RaLSGAN[20]損失引導(dǎo)判別器判斷“一幅圖像是否比另一幅更真實(shí)”,而不是“一幅圖像是真實(shí)的還是假的”,最后通過融合對抗損失、感知損失、內(nèi)容損失作為生成器的損失函數(shù)。
圖2 GFSRGAN生成器結(jié)構(gòu)
(1)
(2)
(3)
其中,fRB表示重建塊的函數(shù)。第t次迭代的輸出圖像可由下式表示
(4)
其中,fUP表示上采樣操作,本實(shí)驗(yàn)用的是雙線性上采樣。
CAFB塊的結(jié)構(gòu)如圖3所示,反饋塊是由6組上采樣下采樣投影組和一個(gè)殘差通道注意力塊RCAB組成,投影組之間有密集的跳躍連接。每個(gè)投影組包括一個(gè)上采樣層和下采樣層。為了降低計(jì)算量在每個(gè)投影組中的上采樣層前和下采樣層前用1*1卷積。每個(gè)投影組中上采樣層及下采樣層的卷積核尺寸為8,步數(shù)為4,卷積核數(shù)量為64,pading 為2。
圖3 注意力機(jī)制的反饋塊(CAFB)
為了使網(wǎng)絡(luò)專注更多特征信息,利用通道之間的相互依賴性,在投影組后側(cè)加入一個(gè)殘差通道注意力塊RCAB。如圖4所示,從殘差注意力塊RCAB中第二個(gè)卷積層中輸出的通道特征圖X=[x1,…,xc,…,xC] 作為通道注意力的輸入(xC代表第C個(gè)通道特征圖。C的值是根據(jù)殘差注意力塊RCAB中第二個(gè)卷積層中的卷積核的數(shù)量相同,本文第二個(gè)卷積層中的卷積核的數(shù)量為64,卷積層輸出的通道特征圖數(shù)量也為64,因此本文中C=64),其中每個(gè)特征圖的尺寸為W×H,利用全局平均池化將通道特征圖X轉(zhuǎn)化為通道描述符Z,由此獲得了1×1×C的特征圖。Z的第c個(gè)通道的描述符zc公式為
(5)
其中,HGP(·) 表示全局平均池化函數(shù),xc(i,j) 是第c個(gè)特征圖上 (i,j) 坐標(biāo)的像素值。為了使從全局協(xié)方差匯總的信息充分利用特征的相互依賴性,采用了sigmoid函數(shù)來作為門控制函數(shù),S是被sigmoid函數(shù)激活后的通道權(quán)重,其公式如下
S=f(GUσ(GD(z)))
(6)
(7)
圖4 殘差通道注意力模塊(RCAB)
本文采用了類似ESRGAN[10]的損失函數(shù),其中在對抗損失部分略微不同,本文的對抗損失使用RaLSGAN[20]。GFSRGAN中生成器的損失包含3部分:像素?fù)p失Lpix、 VGG感知損失Lpercer、 對抗損失Ladv。 其中像素?fù)p失Lpix, 目的是使SR圖像與LR圖像之間的低頻信息保持一致性,其使用L1損失作為模型的像素?fù)p失。VGG感知損失Lpercer目的是鼓勵網(wǎng)絡(luò)恢復(fù)高頻內(nèi)容。對抗損失Ladv目的是充分恢復(fù)出低分辨率圖像中缺失的高頻部分,引導(dǎo)生成器恢復(fù)更細(xì)膩的紋理。
ISR=G(ILR)
(8)
像素?fù)p失是計(jì)算SR圖像ISR與真實(shí)高分辨率圖像IHR之間的曼哈頓距離,如式(9)所示
(9)
其中,K表示數(shù)據(jù)集。VGG感知損失的定義請參考文獻(xiàn)[10],其公式如式(10)所示
(10)
(11)
(12)
(13)
E[·] 代表對最小批次的數(shù)據(jù)求平均值的操作。GFSRGAN的生成器損失包括像素?fù)p失Lpix、 VGG感知損失Lpercer和對抗損失Ladv, 如式(14)所示
LG=λLpix+Lpercer+ηLadv
(14)
其中,在LG損失函數(shù)中λ=5×10-3,η=1×10-2,給定的兩個(gè)λ,η固定值源于ESRGAN[10]中的經(jīng)驗(yàn)值。
GFSRGAN的判別損失函數(shù)包含兩個(gè)部分:如等式(15)所示,真實(shí)損失LReal用于激勵真實(shí)圖像比假圖像更真實(shí)。如式(16)所示,假損失LFake用于鼓勵假圖像比真實(shí)圖像更假
(15)
(16)
判別器的損失函數(shù)如式(17)所示
LD=LReal+LFake
(17)
實(shí)驗(yàn)的訓(xùn)練過程分為兩個(gè)階段。第一階段,使用L1損失訓(xùn)練一個(gè)面向失真的模型,初始學(xué)習(xí)率設(shè)置為2×10-4,并且每2×105批次訓(xùn)練后學(xué)習(xí)率減半。第二階段是基于GAN的訓(xùn)練,對面向PSNR的模型進(jìn)行充分訓(xùn)練后,生成器使用預(yù)先訓(xùn)練好的面向PSNR的模型的參數(shù)進(jìn)行初始化,使用像素?fù)p失Lpix、 VGG感知損失Lpercer、對抗損失Ladv進(jìn)行訓(xùn)練。實(shí)驗(yàn)采用預(yù)訓(xùn)練VGG19網(wǎng)絡(luò)用于計(jì)算感知損失中的特征距離。生成器與判別器初始學(xué)習(xí)率均設(shè)置為1×10-4,并分別在[50k,100k,200k,300k] 迭代次數(shù)時(shí),學(xué)習(xí)率減半。
在基于GAN的方法上,訓(xùn)練過程分成兩個(gè)部分的策略有助于生成器生成的圖片在視覺上獲得更逼真的效果。這種策略可以避免生成器的局部最優(yōu),并且使判別器能夠注意到更多的紋理細(xì)節(jié)[15]。本實(shí)驗(yàn)使用Adam作為模型的優(yōu)化器,其中β1=0.9,β2=0.999。生成器和判別器網(wǎng)絡(luò)交替更新,直至模型收斂。全部的模型實(shí)驗(yàn)環(huán)境見表1。
表1 實(shí)驗(yàn)環(huán)境的配置參數(shù)
本實(shí)驗(yàn)以DIV2K[21]和Filckr2K[22]為訓(xùn)練數(shù)據(jù)集。DIV2K數(shù)據(jù)集包含1000個(gè)超清圖像,其包含訓(xùn)練圖像800個(gè),驗(yàn)證圖像100個(gè),測試圖像100個(gè)。Flickr2K[22]數(shù)據(jù)集包含了2650張2 K的高分辨率圖像,這些圖像均是由Flickr網(wǎng)站搜集而來。為了全面的評估本文所提出的方法,在實(shí)驗(yàn)中采用Set5[23]、Set14[24]、BSD100[28]和Urban100[26]這4個(gè)通用測試集進(jìn)行測試。實(shí)驗(yàn)中,低分辨率和高分辨率圖像之間的比例系數(shù)為4。
為了量化實(shí)驗(yàn)重建出的圖像效果,本文采用了4種廣泛使用的圖像評估指標(biāo):峰值信噪比(peak signal to noise ratio,PSNR[27])、結(jié)構(gòu)相似度(structural similarity index method,SSIM[27])、2018PIRM-SR的評價(jià)方法感知質(zhì)量(perceptual index,PI[28])、學(xué)習(xí)感知圖像Patch相似度(learned perceptual image patch similarity,LPIPS[29])度量。前兩種評價(jià)指標(biāo)測量兩幅圖像的失真程度和結(jié)構(gòu)相似性度,兩個(gè)圖像之間的PSNR值(單位:dB)越高,重建后的圖像相對于原始參考圖像的失真度越小,SSIM值越接近1,兩幅圖像的結(jié)構(gòu)越相似。后兩種評估方法則用于在真實(shí)圖像和重建圖像之間度量感知相似性距離,指標(biāo)越低感知質(zhì)量越好,重建圖像越逼真自然。
3.3.1 消融實(shí)驗(yàn)
此部分的消融實(shí)驗(yàn)旨在研究GFSRGAN模型中的殘差通道注意力模塊和RaLSGAN對抗損失函數(shù)模塊發(fā)揮的效果,實(shí)驗(yàn)逐步修改基線GMFN模型,共分為5組不同的實(shí)驗(yàn)。如圖5所示,0列分別代表注意力機(jī)制模塊(RCAB),對抗損失(GAN)。第1組實(shí)驗(yàn)表示使用DIV2K和Flickr2K兩個(gè)數(shù)據(jù)集訓(xùn)練的基線GMFN模型,基線GMFN模型即沒有加入注意力機(jī)制模塊(RCAB),也沒有加入對抗損失(GAN)。圖中的√表示在基線模型基礎(chǔ)上加入該部分,×表示在基線模型基礎(chǔ)上不加入該部分。圖片下方數(shù)字表示LPIPS指標(biāo),此指標(biāo)值越低,重建的圖片感知質(zhì)量越好,消融研究的詳細(xì)討論如下。
第2組實(shí)驗(yàn)在第1組基線GMFN模型實(shí)驗(yàn)基礎(chǔ)上僅引入殘差通道注意力機(jī)制(RCAB),實(shí)驗(yàn)結(jié)果表明,第2組的LPIPS值較第1組的值平均下降了0.0147,實(shí)驗(yàn)結(jié)果圖片的視覺質(zhì)量有輕微提升。第3組和第4組實(shí)驗(yàn)分別在引入標(biāo)準(zhǔn)對抗損失的基礎(chǔ)上,前者不使用RCAB,后者使用RCAB,實(shí)驗(yàn)結(jié)果表明第4組的LPIPS值較第3組的值平均下降了0.0370,第4組得到的實(shí)驗(yàn)圖片在毛線紋理,辣椒花萼邊緣,建筑結(jié)構(gòu)方向等圖像細(xì)節(jié)方面更細(xì)膩立體,清晰自然。實(shí)驗(yàn)進(jìn)一步說明了殘差通道注意力機(jī)制的優(yōu)化效果,且與標(biāo)準(zhǔn)對抗損失的聯(lián)合使用,優(yōu)化效果更加明顯。
第4組、第5組實(shí)驗(yàn)分別在引入殘差通道注意力機(jī)制的網(wǎng)絡(luò)基礎(chǔ)上,前者使用StandardGAN損失,后者使用本文的RaLSGAN損失,實(shí)驗(yàn)結(jié)果表明第5組的LPIPS值較第4組的值平均下降了0.0312。從實(shí)驗(yàn)結(jié)果的圖和LPIPS值均表明,使用RaLSGAN損失有助于產(chǎn)生更加清晰的邊緣和更豐富的紋理,在圖像銳度和細(xì)粒度方面處理的更加自然,實(shí)驗(yàn)驗(yàn)證,相比于傳統(tǒng)的StandardGAN損失,RaLSGAN損失函數(shù)獲得更好的視覺感知質(zhì)量。
圖5 消融實(shí)驗(yàn)
對比第1組基線模型GMFN的實(shí)驗(yàn)和第5組本文提出的模型,結(jié)果表明第5組的LPIPS值較第1組的值平均下降了0.1827,重建圖像的感知性能大幅提升,并且實(shí)驗(yàn)圖片表明,在視覺效果優(yōu)化效果突出。由此說明了殘差通道注意力機(jī)制與RaLSGAN損失函數(shù)具有顯著的加成效果,有助于生成器恢復(fù)更逼真的圖像紋理細(xì)節(jié)。
3.3.2 模型參數(shù)量對比
本實(shí)驗(yàn)中選取近幾年以基于GAN的超分辨率模型EnhanceNet[9]、SRGAN[8]、ESRGAN[10]、NatSR[11]以及面向失真的基線模型GMFN作為對比,網(wǎng)絡(luò)參數(shù)和感知效果(LPIPS)的比較結(jié)果在圖6中給出。圖中的LPIPS指標(biāo)數(shù)據(jù)是在比例因子為4的Set5數(shù)據(jù)集的評測結(jié)果。從圖中分析可知GFSRGAN與基線模型GMFN在網(wǎng)絡(luò)參數(shù)相差不多的情況下GFSRGAN在感知質(zhì)量上獲得了較大的提升;與模型ESRGAN相比,GFSRGAN減少了原有50.51%的參數(shù)量,但獲得了更好的感知效果。在參數(shù)量小于10 000 K的模型中,GFSRGAN取得了最佳效果,與EnhanceNet、SRGAN和SFTGAN相比,GFSRGAN可以較好平衡參數(shù)數(shù)量和感知質(zhì)量。綜上,GFSRGAN模型在不大幅增加參數(shù)的條件下使得感知質(zhì)量獲得了較高的提升。
圖6 以基于GAN的超分辨率模型參數(shù)量-LPIPS關(guān)系
3.3.3 與現(xiàn)有方法對比
對本文所提模型進(jìn)行實(shí)驗(yàn)分析,選取面向失真的基線GMFN模型及近幾年來以基于GAN的超分辨率模型SRGAN[8]、EnhanceNet[9]、NatSR[11]進(jìn)行對比。各模型在不同測試集上重建圖像的PSNR、SSIM、LPIPS和PI值見表2,各模型重建圖像的局部放大圖如圖7所示。
表2 與現(xiàn)有方法比較的結(jié)果
圖7 不同模型的生成圖像放大圖比較
定量分析:表2中最好的結(jié)果字體被加粗,從表2中的評價(jià)指標(biāo)可以看出,基線模型GMFN[7]的PSNR和SSIM值是其它SR模型中最好的,因?yàn)镚MFN[7]模型是一個(gè)面向失真的模型,其僅通過測量SR圖像與HR圖像之間像素級距離的均方誤差(MSE)進(jìn)行優(yōu)化。因此,這種方法通??梢垣@得較高的PSNR和SSIM值,但其生成的圖像較為模糊。與基于GAN模型SRGAN[8]、EnhanceNet[9]、NatSR[11]相比,GFSRGAN在所有測試數(shù)據(jù)集中都達(dá)到了最佳的PSNR、SSIM、PI和LPIPS效果。因此,實(shí)驗(yàn)結(jié)果表明,本文方法GFSRGAN可以在獲得良好的感知質(zhì)量的同時(shí)獲得較小的失真。
定性分析:圖7可視化的展示了部分圖像在現(xiàn)有基于GAN和面向失真的GMFN模型上的運(yùn)行結(jié)果,與基于GAN的SRGAN、EnhanceNet、NatSR、SFTGAN模型相比,GFSRGAN重建的圖像在細(xì)節(jié)和銳度方面都優(yōu)于對比模型。如第1張圖中,GFSRGAN能產(chǎn)生更清晰自然的狒狒胡須,第2張結(jié)果圖中,GFSRGAN可以更加準(zhǔn)確的推斷窗戶的內(nèi)部結(jié)構(gòu)。在其它行中,與其它SR方法相比,GFSRGAN重建圖像沒有嚴(yán)重的變形,取得了最佳的視覺效果。與基線GMFN模型相比,GFSRGAN重建的圖像清晰度更高,紋理細(xì)節(jié)更逼真。
以上結(jié)果分析表明,與現(xiàn)有基于GAN的模型比較,GFSRGAN能重建出更良好視覺效果和失真程度較低的超分辨率圖像。
本文基于GMFN提出一種具有反饋和注意力機(jī)制的圖像超分辨率對抗網(wǎng)絡(luò)(GFSRGAN)。首先,該模型利用反饋網(wǎng)絡(luò)作為生成器,其網(wǎng)絡(luò)的深層信息能重新傳回淺層,進(jìn)而增強(qiáng)淺層信息的表達(dá),緩解了SR圖像高頻率信息丟失的問題。其次,生成器中帶有注意機(jī)制的反饋塊(CAFB)能夠有效地處理反饋信息流,并通過考慮特征圖通道之間的相互依賴性自適應(yīng)地調(diào)整通道特性。最后,利用RaLSGAN損失來引導(dǎo)判別器判斷一幅圖像是否比另一幅更真實(shí),從而使生成器恢復(fù)更細(xì)膩的紋理。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的面向基于GAN的模型相比,GFSRGAN的網(wǎng)絡(luò)結(jié)構(gòu)在較少的模型參數(shù)的條件下,能準(zhǔn)確地恢復(fù)重建圖像的逼真紋理。本模型目前只適合SISR問題,后續(xù)將進(jìn)一步研究如何將模型運(yùn)用到多圖像重建和視頻重建中。