范文卓,吳 濤,許俊平,李慶慶,張建林,李美惠,魏宇星
(1.中國科學(xué)院大學(xué) 電子電氣與通信工程學(xué)院,北京 101408;2.中國科學(xué)院光電技術(shù)研究所 光束控制重點(diǎn)實(shí)驗(yàn)室,成都 610207)
圖像分辨率是評(píng)價(jià)圖像質(zhì)量的重要指標(biāo)之一。圖像超分辨率重建(Super-Resolution Reconstruction,SRR)是指對(duì)低分辨率(Low-Resolution,LR)圖像重建得到高分辨率(High-Resolution,HR)圖像的過程,是計(jì)算機(jī)視覺領(lǐng)域內(nèi)的研究熱點(diǎn),被廣泛應(yīng)用于醫(yī)學(xué)診斷、遙感圖像處理、目標(biāo)檢測(cè)、目標(biāo)識(shí)別等領(lǐng)域。例如,文獻(xiàn)[1-2]已經(jīng)證實(shí)圖像超分辨率重建算法對(duì)小目標(biāo)檢測(cè)有用;LI 等[3]將圖像超分辨率重建應(yīng)用在高光譜圖像分析上,實(shí)現(xiàn)了高光譜圖像的異常檢測(cè)和更低的虛警率。
圖像超分辨率重建的方法主要分為基于插值的方法、基于重建的方法和基于學(xué)習(xí)的方法這3 類?;诓逯档姆椒ū容^簡單,但重建效果有待提高?;谥亟ǖ姆椒ㄓ休^為穩(wěn)定的或者唯一的圖像解,但該方法需要足夠的先驗(yàn)知識(shí),且重建速度慢?;趯W(xué)習(xí)的方法主要是學(xué)習(xí)低分辨率圖像到高分辨率圖像的映射關(guān)系,該方法重建效果好且計(jì)算速度快,其中基于深度學(xué)習(xí)的圖像超分辨率重建方法已經(jīng)成為目前的研究熱點(diǎn),并涌現(xiàn)出許多經(jīng)典的算法。
YOON 等[4]提出一個(gè)用于單幅圖像超分辨率重建的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型SRCNN,該網(wǎng)絡(luò)模型的重建效果比插值方法重建得到的圖像效果好,但SRCNN 只能進(jìn)行低倍率的超分辨率重建,且訓(xùn)練速度慢。DONG 等[5]對(duì)SRCNN 網(wǎng)絡(luò)訓(xùn)練速度慢的問題進(jìn)行了改進(jìn),提出FSRCNN,改進(jìn)之處包括3 點(diǎn):直接從LR 圖像中進(jìn)行學(xué)習(xí),不需要預(yù)處理,采用反卷積層代替雙三次插值,減少計(jì)算復(fù)雜度;改變卷積核的大??;改變輸入的特征維數(shù)。這些改進(jìn)使FSRCNN 網(wǎng)絡(luò)在保證與SRCNN 網(wǎng)絡(luò)精度不變的情況下,提高了網(wǎng)絡(luò)的訓(xùn)練速度。SHI 等[6]提出一種基于亞像素重排的高效的亞像素 卷積神 經(jīng)網(wǎng)絡(luò)(Efficient Sub-Pixel Convolutional Neural Network,ESPCN),該網(wǎng)絡(luò)雖然可以通過靈活調(diào)整特征通道的數(shù)目快速實(shí)現(xiàn)不同尺度的放大,但只能進(jìn)行整數(shù)倍放大,靈活性較差。KIM 等[7]提出超深度卷積網(wǎng)絡(luò)(VDSR)模型,將殘差模型用于圖像超分辨率重建網(wǎng)絡(luò)。LIM 等[8]提出面向單圖像超分辨率的增強(qiáng)深度殘差網(wǎng)絡(luò)(EDSR),通過去除批處理歸一化(Batch Normalization,BN)層提高網(wǎng)絡(luò)性能。ZHANG 等[9]提出稠密殘差網(wǎng)絡(luò)(Residual Dense Network,RDN),該網(wǎng)絡(luò)模型采用稠密殘差連接的方法來提升網(wǎng)絡(luò)性能,使重建效果得到提升。通過搭建生成對(duì)抗網(wǎng)絡(luò)來完成圖像超分辨率圖像重建也是研究熱點(diǎn)之一。斯捷等[10]以離焦圖像為切入點(diǎn),采用生成對(duì)抗網(wǎng)絡(luò)進(jìn)行圖像超分辨率重建。姜玉寧等[11]則針對(duì)傳統(tǒng)算法訓(xùn)練困難以及生成圖像存在偽影的問題,采用生成對(duì)抗網(wǎng)絡(luò)來生成高質(zhì)量圖像。CHEN 等[12]提出一個(gè)全新的編解碼框架,即局部隱式圖像函數(shù)(Local Implicit Image Function,LIIF)框架,基于隱式神經(jīng)表示對(duì)圖像進(jìn)行超分辨率重建,能夠進(jìn)行任意倍數(shù)放大。KONG等[13]將分類與超分組合到統(tǒng)一框架中,提出一種將圖像復(fù)雜度分類與圖像超分辨率相結(jié)合的圖像處理方案,在不降低超分性能的情況下,該方案最高可以節(jié)省50%的計(jì)算量。柳聰?shù)龋?4]采用深度可分離卷積的方法提取圖像特征,該方法可以減少網(wǎng)絡(luò)參數(shù)量,使網(wǎng)絡(luò)輕量化。
雖然上述基于CNN 的圖像超分辨率重建算法已經(jīng)取得了良好的效果,但是依然存在3 個(gè)問題:僅在一個(gè)固定的分辨率尺度上對(duì)輸入圖像進(jìn)行特征提?。煌ㄟ^殘差連接增加網(wǎng)絡(luò)深度以提高模型的性能,導(dǎo)致網(wǎng)絡(luò)訓(xùn)練難度增大;網(wǎng)絡(luò)泛化性能低,網(wǎng)絡(luò)只能對(duì)訓(xùn)練過的尺度因子進(jìn)行重建,無法采用其他未訓(xùn)練過的尺度因子進(jìn)行重建。
受LIIF 框架能夠?qū)D像進(jìn)行任意尺度的超分辨率重建以及壓縮與激勵(lì)網(wǎng)絡(luò)(Squeeze-and-Excitation Network,SENet)[15]中通道注意力機(jī)制的啟發(fā),本文提出一種基于多分辨率特征融合網(wǎng)絡(luò)的圖像超分辨率重建網(wǎng)絡(luò)結(jié)構(gòu)。通過并行多個(gè)分辨率的分支,在保持高分辨率特征圖的網(wǎng)絡(luò)上不斷與其他分辨率分支進(jìn)行信息交互,使網(wǎng)絡(luò)具有強(qiáng)語義信息和精準(zhǔn)的位置信息。使用壓縮激勵(lì)模塊和注意力機(jī)制搭建一個(gè)雙重注意力模塊,使網(wǎng)絡(luò)可以學(xué)習(xí)使用全局信息來選擇性地強(qiáng)調(diào)重要特征。利用LIIF 基本框架,使算法具有對(duì)圖像進(jìn)行連續(xù)放大的能力。在公開數(shù)據(jù)集上對(duì)本文算法進(jìn)行大量實(shí)驗(yàn),通過對(duì)比實(shí)驗(yàn)證明所提算法的有效性和先進(jìn)性。
隱式神經(jīng)表示(Implicit Neural Representations,INR)函數(shù)是一種對(duì)信號(hào)進(jìn)行參數(shù)化的新方法。傳統(tǒng)的信號(hào)表示通常是離散的,例如,音頻信號(hào)是離散的幅度樣本,圖像是離散的像素網(wǎng)格,3D 形狀通常被參數(shù)化為體素、點(diǎn)云或網(wǎng)格。相反,隱式神經(jīng)表示將信號(hào)參數(shù)化為連續(xù)函數(shù),它將信號(hào)的域,例如圖像的像素坐標(biāo)映射到該坐標(biāo)對(duì)應(yīng)的特征,如圖像的RGB 值[16-17]。這些函數(shù)通常在分析上并不易于處理,因?yàn)椴豢赡軐⒆匀粓D像參數(shù)化為具體的數(shù)學(xué)函數(shù)。因此,本文考慮用連續(xù)函數(shù)表示這些信號(hào),將其輸入到網(wǎng)格坐標(biāo)并返回相應(yīng)的特征。以圖像為例,定義一個(gè)函數(shù):
該函數(shù)的作用是將二維映射到三維,即將輸入圖像的二維坐標(biāo)(x,y)進(jìn)行映射,得到RGB 值。因此,隱式神經(jīng)表示函數(shù)通過神經(jīng)網(wǎng)絡(luò)擬合或?qū)W習(xí)圖像函數(shù)的表達(dá),得到該函數(shù)的近似函數(shù)。值得注意的是,該表示函數(shù)與信號(hào)分辨率無關(guān),是實(shí)現(xiàn)任意尺度超分辨率重建的關(guān)鍵。
基于隱式神經(jīng)網(wǎng)絡(luò)的編解碼結(jié)構(gòu)將圖像表示為一個(gè)連續(xù)函數(shù),以圖像坐標(biāo)和坐標(biāo)周圍的二維深度特征作為輸入,預(yù)測(cè)給定坐標(biāo)的RGB 值并作為輸出。由于坐標(biāo)是連續(xù)的,該網(wǎng)絡(luò)可以以任意尺度進(jìn)行超分辨率重建。該網(wǎng)絡(luò)結(jié)構(gòu)并不是為每個(gè)對(duì)象單獨(dú)設(shè)置一個(gè)解碼函數(shù),而是基于編碼器的方法來預(yù)測(cè)不同對(duì)象的潛在編碼,同時(shí)將潛在編碼作為坐標(biāo)的附加輸入,然后所有對(duì)象共享一個(gè)解碼函數(shù)。其中解碼函數(shù)fθ(θ為參數(shù))被參數(shù)化為多層感知器,其形式如下:
其中:S為預(yù)測(cè)的信號(hào),如圖像的RGB 值;z*為LR 特征圖中的特征向量,且z*∈?C×H×W;x為預(yù)測(cè)的RGB 值在圖像域中對(duì)應(yīng)的坐標(biāo)。
ESPCN、EDSR、RDN 等方法是在網(wǎng)絡(luò)末端對(duì)特征圖進(jìn)行上采樣,這些方法必須針對(duì)每個(gè)尺度因子設(shè)計(jì)一個(gè)特定的上采樣模塊,并且儲(chǔ)存相應(yīng)的權(quán)重。超分辨率重建算法訓(xùn)練時(shí)采用的尺度通常是2、3、4,但這3 個(gè)尺度并不能完全滿足實(shí)際需要,且并不能往外拓展到其他尺度。這些缺點(diǎn)限制了單張圖像超分辨率方法在現(xiàn)實(shí)中的使用。而任意尺度的超分辨率重建算法在實(shí)用性和便捷性上都優(yōu)于現(xiàn)在的單幅圖像超分辨重建算法。
MetaSR[18]是基于CNN 的任 意尺度超分辨率算法,不再需要為每一個(gè)尺度因子存儲(chǔ)相應(yīng)的特征權(quán)重。其中Meta-Upscale 模塊使用最近鄰規(guī)則將SR 像素映射到LR 域。在訓(xùn)練過程中,所有映射值都乘以基于比例和坐標(biāo)的動(dòng)態(tài)學(xué)習(xí)權(quán)重。然后,通過帶有一些額外卷積層的Meta-Upscale 模塊生成輸出圖像。
LIIF 為一種基于隱式神經(jīng)表示的圖像超分辨率重建算法,該算法首先采用一般的特征提取網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征提取,然后對(duì)特征圖進(jìn)行編碼,解碼器由多層感知器構(gòu)成,使用坐標(biāo)、單元大小和LR 特征作為輸入來計(jì)算RGB 值。該算法最主要的作用是提供一種重建效果好,且能對(duì)圖像進(jìn)行連續(xù)放大的圖像超分辨率網(wǎng)絡(luò)框架。
注意力機(jī)制的基本思想是讓網(wǎng)絡(luò)能夠?qū)W會(huì)關(guān)注重點(diǎn)信息,忽略無關(guān)信息。注意力機(jī)制最先應(yīng)用在遞歸神經(jīng)網(wǎng)絡(luò),主要作用是對(duì)輸入語句進(jìn)行編碼。在卷積神經(jīng)網(wǎng)絡(luò)中,注意力機(jī)制能獲取特征圖中的重要信息。SENet通過學(xué)習(xí)Feature map 中每個(gè)通道的權(quán)重,并根據(jù)學(xué)習(xí)到的權(quán)重更新原始數(shù)據(jù),使網(wǎng)絡(luò)能提取到高質(zhì)量的特征圖。卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)[19]認(rèn)為特征圖不僅在通道域中含有豐富的注意力信息,在空間域上也含有大量的注意力信息,所以CBAM通過串行空間和通道兩個(gè)模塊來獲取更為準(zhǔn)確的注意力信息。雙重注意力網(wǎng)絡(luò)(Dual Attention Network,DANet)[20]與CBAM 的基本思想一致,但是DANet 通過并行空間和通道兩個(gè)模塊來獲取注意力信息。
卷積神經(jīng)網(wǎng)絡(luò)建立在卷積運(yùn)算的基礎(chǔ)上,通過在局部感受野中將空間和通道信息融合來提取信息特征,而卷積運(yùn)算沒有考慮全局信息,只注重局部信息。為提高網(wǎng)絡(luò)的表示能力,HU 等[15]提出壓縮和激勵(lì)(Squeeze-and-Excitation,SE)模塊,使用全局信息顯式建模通道之間的相互依賴性,自適應(yīng)地重新校準(zhǔn)通道特征響應(yīng),增強(qiáng)網(wǎng)絡(luò)的表示能力。SE 模塊的結(jié)構(gòu)如圖1 所示,其主要由壓縮和激勵(lì)兩部分構(gòu)成。壓縮主要是通過全局平均池化(Global Average Pooling,GAP)獲得特征映射的每個(gè)通道的全局信息嵌入,使得到的特征向量具有全局性。激勵(lì)是通過具有全局性的特征向量學(xué)習(xí)每個(gè)通道中特征向量的權(quán)重。文獻(xiàn)[15]已證明SE 模塊足夠簡單、靈活,能快速有效地學(xué)習(xí)到重要特征。
圖1 SE 模塊Fig.1 SE module
本文提出基于多分辨率特征融合的任意尺度圖像超分辨率重建(MFSR)算法,MFSR 算法的整體框架如圖2所示,主要包含兩部分,即圖像特征提取階段(編碼階段)和圖像重建階段(解碼階段)。在編碼階段,將LR圖像輸入到由多分辨率特征融合模塊構(gòu)成的編碼器并進(jìn)行特征提取,得到與之相應(yīng)的特征圖Yo。在解碼階段,解碼器由多層感知機(jī)構(gòu)成,包含4層隱藏層,將特征向量z*、z*在圖像域中對(duì)應(yīng)的坐標(biāo)v*以及HR圖像中的坐標(biāo)x輸入到fθ,對(duì)其進(jìn)行解碼,得到坐標(biāo)x對(duì)應(yīng)的RGB 值,輸出重建圖像,如式(3)所示:
圖2 MFSR 算法結(jié)構(gòu)Fig.2 Structure of MFSR algorithm
損失函數(shù)采用L1 Loss,網(wǎng)絡(luò)的損失值可由SR圖像和HR 圖像得到。
本文采用多分辨率特征融合模塊(Multi-Resolution Feature Fusion Module,MRFM)作為編碼器的主要結(jié)構(gòu)。多分辨率特征融合模塊的結(jié)構(gòu)如圖3 所示,其中:y方向?qū)?yīng)特征圖的分辨率,主要包括3 個(gè)并行處理不同分辨率特征的子網(wǎng)絡(luò),每個(gè)子網(wǎng)絡(luò)的參數(shù)設(shè)置除輸入的特征圖尺度外其他都一樣;x方向?qū)?yīng)網(wǎng)絡(luò)的深度;子網(wǎng)絡(luò)主要由多個(gè)殘差模塊(RBG)和雙重注意力模塊組成。其中RBG 模塊由4 個(gè)殘差模塊構(gòu)成。
圖3 多分辨率特征融合模塊Fig.3 Multi-resolution feature fusion module
如圖3 所示,MRFM 主要由3 個(gè)子網(wǎng)絡(luò)組成。輸入圖像經(jīng)過一層卷積后得到特征圖X2,為淺層特征,此卷積的目的是對(duì)特征進(jìn)行粗提取并改變輸入圖像的維度。將X2上采樣到原分辨率的2 倍,即X1,并輸入到第1 個(gè)子網(wǎng)絡(luò),提取高分辨率的深層特征;將X2輸入到第2 個(gè)子網(wǎng)絡(luò),提取原分辨率的深層特征;將X2下采樣2 倍,得到X3,并輸入到第3 個(gè)子網(wǎng)絡(luò),提取低分辨率的深層特征。每個(gè)子網(wǎng)絡(luò)可以分為4 個(gè)階段,每個(gè)子網(wǎng)絡(luò)的每個(gè)階段輸出的特征圖通過上采樣或者下采樣得到與其他子網(wǎng)絡(luò)相同的分辨率,然后將其相加后作為雙重注意力模塊(Double Attention Block,DAB)的輸入。DAB 模塊對(duì)輸入特征圖計(jì)算各通道權(quán)重并完成自注意力計(jì)算,輸出最終的特征圖。例如在第1 個(gè)子網(wǎng)絡(luò)的第2 階段(stage 2),將第1 個(gè)子網(wǎng)絡(luò)的輸出及第2 個(gè)子網(wǎng)絡(luò)的輸出進(jìn)行上采樣2 倍,將第3 個(gè)子網(wǎng)絡(luò)的輸出進(jìn)行上采樣4 倍并將以上輸出相加作為第1 個(gè)子網(wǎng)絡(luò)的第3 階段(stage 3)的輸入。表達(dá)式如下:
其中:D 表示DAB 模塊;M 表示RBG 模塊;Yij表示在尺度i(i=1,2,3)下第j(j=2,3,4)階段的輸出。最后將3個(gè)子網(wǎng)絡(luò)輸出的特征圖相加得編碼器輸出Yo,表達(dá)式如下:
由圖3 可知,多分辨特征融合模塊在進(jìn)行重復(fù)的多分辨率特征融合,每個(gè)從高到低的分辨率表示均需要重復(fù)與其他并行的子網(wǎng)絡(luò)進(jìn)行信息交互與融合,從而得到信息豐富的特征圖。該模塊不僅使用多尺度特征融合,而且利用DAB 模塊對(duì)融合后的特征圖進(jìn)行信息篩選,突出重要特征。
卷積神經(jīng)網(wǎng)絡(luò)能很好地提取到圖像的低頻信息,而高頻信息的提取則相對(duì)困難,但是高頻信息包含了圖像豐富的細(xì)節(jié)信息。本文利用SE 模塊和注意力機(jī)制搭建一個(gè)新的模塊,即雙重注意力模塊,如圖4所示。使用SE模塊對(duì)輸入的特征向量Fi進(jìn)行第1次計(jì)算,將得到的特征向量Fs作為軟掩膜并與輸入的特征向量相乘得到Fa,突出特征向量中的重要特征,抑制不重要特征。最后將Fa與Fi通過跳連連接,構(gòu)成殘差結(jié)構(gòu)。該模型可以表示為:
圖4 雙重注意力模塊Fig.4 Double attention block
其中:Fi和Fo分別表示輸入和輸出的特征圖。
在多分辨率特征融合模塊中使用上采樣和下采樣完成多分辨率特征交互(Multi-resolution Feature Interaction,MFI),如圖3 所示。通過使不同分辨率特征圖在每一個(gè)階段進(jìn)行特征提取并與其他分辨率的特征圖進(jìn)行特征融合,使輸入到下一階段的特征圖含有更豐富的特征信息。
本文實(shí)驗(yàn)的軟件環(huán)境為Ubuntu20.04、PyTorch1.7.1、Python3.8.8,硬件配置為Intel?XeonTMPlatinum 8163 CPU和GeForce RTX 3090 GPU。
訓(xùn)練數(shù) 據(jù)集選擇由DIV2K[21]和Flick2K[22]組 合而成的DF2K,該數(shù)據(jù)集包含2 450 張高分辨率圖像,驗(yàn)證數(shù)據(jù)集為DIV2K 數(shù)據(jù)集中的100 張高分辨率圖像,基準(zhǔn)測(cè) 試數(shù)據(jù)集為Set5[23]、Set14[24]、B100[25]、Urban100[26]。
本文利用雙三次插值對(duì)訓(xùn)練數(shù)據(jù)集的圖像進(jìn)行下采樣,生成尺度因子為2、3、4 的LR 圖像,對(duì)LR 圖像隨機(jī)裁剪出48×48 個(gè)圖像塊,將圖像塊輸入到編碼器中進(jìn)行編碼。解碼器為5層多層感知器,激活函數(shù)為ReLU,隱藏層維數(shù)為256;訓(xùn)練輪數(shù)為1 000 epoch;初始學(xué)習(xí)率為1×10-4,每200 個(gè)epoch 后學(xué)習(xí)率衰減1/2;優(yōu)化器采用Adam,batch size 為32,損失函數(shù)是L1 Loss。消融實(shí)驗(yàn)的訓(xùn)練參數(shù)設(shè)置與預(yù)訓(xùn)練時(shí)的參數(shù)設(shè)置保持一致。
評(píng)價(jià)指標(biāo)采用峰值信噪比(Peak Signal-to-Noise Ratio,PSNR),用于衡量重建后的SR 圖像(ISR)和HR 圖像(IHR)之間的差異,差異越小,PSNR 值越大,SR 圖像越接近HR 圖像,重建效果越好。PSNR值的表達(dá)式如式(10)所示:
為驗(yàn)證本文算法的優(yōu)越性,將其與其他經(jīng)典算法進(jìn)行對(duì)比。對(duì)比算 法包括SRCNN[4]、VDSR[7]、EDSR[8]、RDN[9]、RCAN-mini[27]和EDSR-liif[12]。
如表1 所示,每個(gè)測(cè)試數(shù)據(jù)集的尺度包括訓(xùn)練時(shí)已見尺度因子為2、3、4,未見尺度因子為6、8,已見尺度因子指在訓(xùn)練過程中已經(jīng)參與過訓(xùn)練的尺度因子,未見尺度因子指在訓(xùn)練過程中未參與過訓(xùn)練的尺度因子。結(jié)果如表1 所示,表中加粗?jǐn)?shù)字表示該組數(shù)據(jù)最大值,“—”表示相應(yīng)算法未對(duì)該尺度因子進(jìn)行測(cè)試??梢钥闯?,本文MFSR 算法在已見尺度因子及未見尺度因子上均取得了優(yōu)異的性能表現(xiàn)。以測(cè)試集Urban100 為例,當(dāng)尺度因子分別為2、3、6、8 時(shí),與對(duì)比算法中的最高值相比,本文算法分別高0.24、0.09、0.34、0.13 dB。當(dāng)尺度因子為4 時(shí),本文算法比對(duì)比算法中的最高值低0.25 dB。在其他測(cè)試集上,本文算法整體上比對(duì)比算法性能更好。
表1 不同算法的PSNR 值對(duì)比 Table 1 Comparison of PSNR values of different algorithms 單位:dB
不同算法的參數(shù)量及PSNR 值對(duì)比如圖5 所示,其中PSNR 值是在Set5 數(shù)據(jù)集,尺度因子為×2 下測(cè)得的結(jié)果??梢钥闯?,本文算法的參數(shù)量相比其他主流算法更具優(yōu)勢(shì),本文算法的參數(shù)量僅為0.72×106,相比EDSR 算法,參數(shù)量相差了60 倍。此外,本文算法的重建效果比其他算法均要好,且參數(shù)量較少,意味著網(wǎng)絡(luò)容易達(dá)到輕量化。
圖5 不同算法的PSNR 值及參數(shù)量對(duì)比Fig.5 PSNR values and parameters comparison among different algorithms
除了在基準(zhǔn)數(shù)據(jù)集上進(jìn)行量化指標(biāo)的測(cè)試與對(duì)比之外,本文還對(duì)重建后的圖像進(jìn)行定性分析。本文選取Set5 中的3 張高分辨率圖像baby、bird 和butterfly。對(duì)尺度因子為2 的baby 進(jìn)行不同算法的重建效果對(duì)比,效果如圖6 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版,圖7、圖8 同)??梢钥闯?,本文算法不模糊,睫毛邊緣清楚,且由于尺度因子較小,主觀感受的差距并不是很大。對(duì)尺度因子為3的bird 進(jìn)行不同算法的重建效果對(duì)比,效果如圖7 所示。由圖7 可知,本文算法的重建圖像清晰,無結(jié)構(gòu)失真,無顏色失真。對(duì)尺度因子為4 的butterfly 進(jìn)行不同算法的重建效果對(duì)比,效果如圖8 所示,可以看出,在該尺度因子下,不同算法的重建圖像質(zhì)量差距很大,本文算法的圖像紋理清晰,無偽影。通過以上對(duì)比發(fā)現(xiàn),本文算法能很好地對(duì)輸入的低分辨率圖像進(jìn)行重建,且不產(chǎn)生偽影,輪廓邊緣清楚。
圖6 尺度因子為2 時(shí)各算法的重建結(jié)果對(duì)比Fig.6 Comparison of the reconstruction results of different algorithms with a scaling factor of 2
圖7 尺度因子為3 時(shí)各算法的重建結(jié)果對(duì)比Fig.7 Comparison of the reconstruction results of different algorithms with a scaling factor of 3
圖8 尺度因子為4 時(shí)各算法的重建結(jié)果對(duì)比Fig.8 Comparison of the reconstruction results of different algorithms with a scaling factor of 4
編碼器利用DAB 模塊和MFI 模塊來獲取高質(zhì)量的特征圖。為驗(yàn)證DAB 模塊及MFI 模塊的有效性,本文進(jìn)行了3 次消融實(shí)驗(yàn),分別是有關(guān)DAB 模塊作用的消融實(shí)驗(yàn)MFSR(-DAB,+MFI),有關(guān)MFI 模塊的消融實(shí)驗(yàn)MFSR(+DAB,-MFI),以及DAB 和MFI 模塊兩者共同作用的消融實(shí)驗(yàn)MFSR(-DAB,-MFI),其中“-”表示無該模塊,“+”表示有該模塊。消融實(shí)驗(yàn)?zāi)P偷男阅芘c原模型的性能對(duì)比結(jié)果如表2 所示。其中:括號(hào)內(nèi)的數(shù)據(jù)代表與未做消融實(shí)驗(yàn)的模型的差距δ,目的是研究去除模塊后模型是否受到影響;δ是消融實(shí)驗(yàn)重建圖像的PSNR 值(Pa)與原模型重建圖像的PSNR 值(Ps)的差值,其表達(dá)式如式(11)所 示;測(cè)試數(shù) 據(jù)集為Set5、Set14、B100、Urban100;測(cè)試時(shí)的尺度因子分為兩類,一類是訓(xùn)練時(shí)已見尺度因子2、3、4,另一類是訓(xùn)練時(shí)未見尺度因子6、8。
表2 不同尺度因子下的消融實(shí)驗(yàn)結(jié)果(PSNR 值)Table 2 Results of ablation experiments under different scale factor(sPSNR value)單位:dB
由表2 可得到如下結(jié)論:
1)DAB 模塊對(duì)網(wǎng)絡(luò)性能的影響,即MFSR(-DAB,+MFI)。通過消融實(shí)驗(yàn)可發(fā)現(xiàn),在訓(xùn)練時(shí)已見尺度因子上,測(cè)試結(jié)果均有小幅度的下降,最大值為0.12 dB,但是在訓(xùn)練時(shí)未見尺度因子上,在Set5[24]進(jìn)行測(cè)試時(shí)PSNR 值沒有下降,反 而在6 上有0.04 dB 的提升,但是在其他更復(fù)雜的測(cè)試數(shù)據(jù)集上進(jìn)行測(cè)試時(shí)的PSNR 值均有下降。這說明DAB 模塊對(duì)網(wǎng)絡(luò)整體性能有一定程度上的影響。
2)MFI 模塊對(duì)網(wǎng)絡(luò)性能的影響,即MFSR(+DAB,-MFI)。通過消融實(shí)驗(yàn)可以發(fā)現(xiàn),無論是在訓(xùn)練時(shí)已見尺度因子上,還是在未見尺度因子上,測(cè)試結(jié)果均有所下降,下降的最大值為0.11 dB,但一些數(shù)據(jù)集的PSNR 值沒有變化,可見多分辨率信息交互有一定作用。MFI 模塊使網(wǎng)絡(luò)不同分辨率的特征信息能夠進(jìn)行交流,使每一個(gè)子網(wǎng)絡(luò)的特征信息更加豐富,以滿足后續(xù)重建高質(zhì)量圖像的需求。
3)DAB 模塊和MFI 模塊對(duì)網(wǎng)絡(luò)性能的共同影響,即MFSR(-DAB,-MFI)。為進(jìn)一步探討DAB 模塊和多分辨率之間信息交互的作用,去除原網(wǎng)絡(luò)中的DAB 模塊以及不同分辨率之間信息交互,僅保留多分辨率子網(wǎng)絡(luò)。從表2 中可以發(fā)現(xiàn),MFSR(-DAB,-MFI)與MFSR 在各個(gè)尺度因子上的測(cè)試結(jié)果相比均有所下降,且比MFSR(-DAB,+MFI)和MFSR(+DAB,-MFI)下降更多,δ為0.18 dB。由結(jié)果可知,DAB 模塊和MFI 模塊是相輔相成的,能夠提取到富含語義信息的特征,同時(shí)也提取更重要的特征,使網(wǎng)絡(luò)能重建出高質(zhì)量圖像。
為進(jìn)一步分析MFSR 網(wǎng)絡(luò)中各結(jié)構(gòu)的作用,將DAB 模塊、MF 模塊以及多分辨率網(wǎng)絡(luò)去除,僅保留其中一條原分辨率的子網(wǎng)絡(luò),MFSR 網(wǎng)絡(luò)將退化成EDSR-liif,測(cè)試結(jié)果如表1 所示。此時(shí)在標(biāo)準(zhǔn)數(shù)據(jù)集上的測(cè)試結(jié)果將大幅下降,δ最大值為1.06 dB。這說明具有DAB 模塊、MFI 模塊以及多個(gè)分辨率子網(wǎng)絡(luò)的MFSN 特征提取網(wǎng)絡(luò)能夠很好地提取輸入圖像的特征,為后面的圖像重建打下堅(jiān)實(shí)的基礎(chǔ),使其能夠重建出高質(zhì)量的圖像
本文基于多分辨率特征融合提出一種用于圖像超分辨率重建的算法。該算法不僅保留了原算法可以對(duì)圖像進(jìn)行任意尺度超分重建的優(yōu)點(diǎn),而且通過搭建一個(gè)多分辨率特征交互的特征提取網(wǎng)絡(luò),增加特征提取能力,解決了原有算法重建時(shí)高頻信息缺失的問題。在特征提取網(wǎng)絡(luò)中增加雙重注意力模塊,對(duì)不同分辨率的特征圖進(jìn)行融合,提取出圖像的重要特征,提高模型對(duì)高頻特征的捕捉能力。實(shí)驗(yàn)結(jié)果表明,該算法在大幅減少模型參數(shù)量的同時(shí)能保證重建質(zhì)量,可實(shí)現(xiàn)任意尺度的圖像超分辨率重建。但本文算法在對(duì)圖像進(jìn)行重建時(shí)實(shí)時(shí)性有待提高,因此下一步需要在保證重建圖像質(zhì)量的前提下,通過進(jìn)一步壓縮模型大小,采用更加高效的注意力模塊等方法優(yōu)化算法,使圖像超分辨率重建算法能達(dá)到實(shí)時(shí)重建的目的。