陳純毅,吳欣怡,胡小娟,于海洋
(長(zhǎng)春理工大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院, 吉林 長(zhǎng)春 130022)
傳統(tǒng)光學(xué)成像系統(tǒng)使用多組光學(xué)透鏡將光線折射聚焦到傳感器上,由此建立目標(biāo)場(chǎng)景和傳感器像素之間的對(duì)應(yīng)關(guān)系,傳感器將光信號(hào)轉(zhuǎn)換為電信號(hào),再經(jīng)過(guò)數(shù)字化處理得到最終圖像。在此過(guò)程中,成像分辨率與信息量不可避免地受到光學(xué)衍射極限、探測(cè)器離散采樣、成像系統(tǒng)空間帶寬積等若干物理因素的影響[1]。受制作工藝和成本限制,從硬件方面提高圖像的分辨率很難突破,因此圖像超分辨率重建技術(shù)得到了廣泛關(guān)注[2-3]。
圖像超分辨率重建是指由低分辨率(Low Resolution, LR)圖像或圖像序列重建高分辨率(High Resolution, HR)圖像[4]。其中,單幅圖像超分辨率重建技術(shù)已被廣泛應(yīng)用于高光譜成像[5-6]、醫(yī)學(xué)影像[7-9]、衛(wèi)星遙感[10-11]、人臉識(shí)別[12-13]等領(lǐng)域。
圖像超分辨重建的最主要目的是增加數(shù)字圖像的像素?cái)?shù),盡可能重建圖片中的高頻信息,獲得邊緣紋理清晰可見(jiàn),顏色保真的圖像。目前,單幅圖像超分辨率重建(Single Image Super- Resolution,SISR)的傳統(tǒng)方法主要分為三類,分別是:基于插值的方法[14]、基于重建的方法和基于淺層學(xué)習(xí)的方法?;诓逯档姆椒ㄊ歉鶕?jù)LR 圖像像素的排列關(guān)系就近選擇性質(zhì)相同的像素值進(jìn)行重建。常見(jiàn)的插值算法如雙三次插值法(Bicubic),目前大部分情況將其用于預(yù)先上采樣模型的數(shù)據(jù)預(yù)處理。雖然計(jì)算簡(jiǎn)單但是損失較多,重建圖像邊緣通常會(huì)產(chǎn)生鋸齒偽影,效果不好?;谥亟ǖ姆椒ㄊ紫纫獦?gòu)建退化模型,通過(guò)退化模型逆推重建圖像。基于淺層學(xué)習(xí)的方法是從大量的LRHR 圖像樣本中學(xué)習(xí)圖像對(duì)之間的聯(lián)系,根據(jù)學(xué)到的變換對(duì)低分辨率圖像進(jìn)行重建。
近幾年,卷積神經(jīng)網(wǎng)絡(luò)與超分辨率重建任務(wù)結(jié)合更加常見(jiàn)[15-16]。2014 年,Dong 等人[17]受傳統(tǒng)稀疏編碼學(xué)習(xí)的啟發(fā),構(gòu)建了由圖像特征提取表示層、非線性映射層及重建層構(gòu)成的超分辨率卷積神經(jīng)網(wǎng)絡(luò)(Super-Resolution Convolutional Neural Network, SRCNN),其輸入是經(jīng)雙三次插值放大到目標(biāo)尺寸的LR 圖像,因此訓(xùn)練速度較慢。為了加快訓(xùn)練速度,Dong 等人[18]提出了對(duì)SRCNN的改進(jìn)模型,即快速超分辨率卷積神經(jīng)網(wǎng)絡(luò)(Fast Super-Resolution Convolutional Neural Network,FSRCNN),其使用反卷積進(jìn)行上采樣操作,并置于網(wǎng)絡(luò)末端。網(wǎng)絡(luò)內(nèi)部則采用尺寸較小的卷積層,輸入小尺寸圖像塊,降低了計(jì)算復(fù)雜度,提升了重建質(zhì)量。Kim 等人[19]構(gòu)建了一個(gè)20 層深度的卷積網(wǎng)絡(luò)VDSR(Super-resolution using Very Deep Convolutional Network),證明了加深網(wǎng)絡(luò)和全局殘差學(xué)習(xí)對(duì)超分辨率重建任務(wù)有效,并且在訓(xùn)練時(shí)使用梯度裁剪策略解決了加深網(wǎng)絡(luò)帶來(lái)的梯度問(wèn)題。為了減輕訓(xùn)練深層網(wǎng)絡(luò)的難度,Tai 等人[20]提出深度遞歸殘差網(wǎng)絡(luò)(Deep Recursive Residual Network, DRRN),DRRN 引入了局部殘差學(xué)習(xí),每運(yùn)行幾層就進(jìn)行一次殘差學(xué)習(xí),最后的輸出進(jìn)行全局殘差學(xué)習(xí),同時(shí)用遞歸學(xué)習(xí)控制模型的參數(shù)量。Shi 等人[21]提出的高效亞像素卷積神經(jīng)網(wǎng)絡(luò)(Efficient Sub-Pixel Convolutional Neural Network, ESPCN),使用亞像素卷積對(duì)圖像放大,節(jié)約了重建成本的同時(shí)也增強(qiáng)了網(wǎng)絡(luò)對(duì)復(fù)雜映射的學(xué)習(xí)能力。Zhang 等人[22]將稠密連接網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)相結(jié)合,提出了稠密殘差網(wǎng)絡(luò)(Residual Dense Network, RDN),該模型充分利用淺層特征,但因?yàn)閰?shù)量過(guò)大,無(wú)法投入實(shí)際應(yīng)用。Lim 等人[23]提出增強(qiáng)深度殘差(Enhanced Deep Super-Resolution, EDSR)網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn),為了減少計(jì)算量,移除殘差模塊中不必要的歸一化層和激活函數(shù)層,之后的很多研究也省去了歸一化層。Zhang等人[24]提出的RCAN(Residual Channel Attention Network)網(wǎng)絡(luò)首次在圖像超分任務(wù)中加入通道注意力機(jī)制,并用殘差嵌套結(jié)構(gòu)加深網(wǎng)絡(luò)。Li 等人[25]提出的多尺度殘差網(wǎng)絡(luò)(Multi-Scale Residual Network, MSRN)使用兩種不同大小的卷積核交叉串聯(lián)對(duì)輸入圖像進(jìn)行反復(fù)的特征信息提取,網(wǎng)絡(luò)收斂速度快,重建效果好。Zhao 等人[26]利用像素注意力機(jī)制構(gòu)建了高效的圖像超分辨率重建網(wǎng)絡(luò)PAN(Pixel Attention Network)提升了重建性能。提升重建性能不僅可以通過(guò)網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn),還可以從訓(xùn)練策略上入手。Wang 等人[27]采用邊緣增強(qiáng)的梯度損失訓(xùn)練邊緣增強(qiáng)特征蒸餾網(wǎng)絡(luò)(Edgeenhanced Feature Distillation Network, EFDN),基于重參數(shù)化法構(gòu)建邊緣增強(qiáng)的多樣化分支塊,提取了更多的高頻特征。
在上述模型中SRCNN[17]、FSRCNN[18]和ESPCN[21]屬于淺層網(wǎng)絡(luò)模型,后兩者均屬于后置上采樣模型,分別在網(wǎng)絡(luò)末端使用反卷積和亞像素卷積對(duì)圖像上采樣重建,與使用插值算法進(jìn)行預(yù)先上采樣的模型相比效果明顯更好。三種模型使用的卷積層數(shù)都較少,因此在重建比例較大時(shí)效果雖然優(yōu)于傳統(tǒng)模型但依舊不理想。VDSR[19]、DRRN[20]、RDN[22]及EDSR[23]均屬于利用了殘差學(xué)習(xí)的深層模型,前三者使用梯度裁剪抑制深層網(wǎng)絡(luò)容易出現(xiàn)的梯度問(wèn)題,EDSR[23]去掉了歸一化層,簡(jiǎn)化了網(wǎng)絡(luò)結(jié)構(gòu),并且使用單一模型解決多尺度縮放的問(wèn)題。但上述模型仍有不足,首先,網(wǎng)絡(luò)模型計(jì)算量依然很大,其次,忽視了特征通道重要性的差異,對(duì)不同類型的信息都采用相同的處理方式,導(dǎo)致其重建性能受限。RCAN[24]和PAN[26]采用不同的注意力機(jī)制分別挖掘不同特征通道和不同像素之間的聯(lián)系,以提升重建性能,但模型中的卷積核大小單一,對(duì)多尺度特征利用不充分,并且其組內(nèi)各模塊采用串聯(lián)的方式,中間層特征未得到利用。MSRN[25]和EFDN[27]對(duì)網(wǎng)絡(luò)中的層次特征和圖像的多尺度特征加以利用。從計(jì)算復(fù)雜度上考慮,MSRN[25]參數(shù)量多于EFDN[27]。以訓(xùn)練難度衡量,EFDN[27]使用高級(jí)的調(diào)優(yōu)策略,訓(xùn)練過(guò)程更復(fù)雜,但重建效果更好。
針對(duì)上述單幅圖像超分辨率重建算法中出現(xiàn)的特征提取尺度單一、特征通道處理方式不靈活、特征復(fù)用不充分、深層網(wǎng)絡(luò)訓(xùn)練難等問(wèn)題。本文提出了基于多尺度殘差網(wǎng)絡(luò)的SISR 方法,對(duì)現(xiàn)有的多尺度殘差網(wǎng)絡(luò)進(jìn)行改進(jìn),主要工作如下:(1)為了緩解單一尺度卷積造成的特征豐富度缺失,采用沙漏狀的多尺度特征提取單元,加入通道注意力機(jī)制,根據(jù)學(xué)習(xí)權(quán)重篩選特征通道,靈活處理通道信息,提升模型計(jì)算效率;(2)將局部殘差學(xué)習(xí)和全局殘差學(xué)習(xí)相結(jié)合,提高了信息流傳播的效率,引入淺層特征和多級(jí)層次特征加強(qiáng)監(jiān)督;(3)使用多路分支的級(jí)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu),擴(kuò)寬網(wǎng)絡(luò)寬度,充分利用圖像的上下文信息,提升重建圖像的質(zhì)量。
本文提出的多尺度注意力殘差網(wǎng)絡(luò)(Multi-Scale Attention Residual Network, MSARN)結(jié)構(gòu)如圖1 所示。該網(wǎng)絡(luò)結(jié)構(gòu)包括淺層特征提取模塊、多尺度特征提取模塊(Multi-Scale Feature Extraction Block,MSFEB)、殘差分支(Residual Branch,RB)和特征融合重建層(Feature Fusion Reconstruction Layer,F(xiàn)FRL)。網(wǎng)絡(luò)輸入為低分辨率圖像塊ILR,輸出為超分辨率重建結(jié)果ISR。
圖1 多尺度注意力殘差網(wǎng)絡(luò)Fig.1 Multi-scale attention residual network
圖像的淺層特征與原始輸入相比包含更多的像素點(diǎn)信息。由單層卷積生成的低層特征映射可以捕獲輸入圖像的細(xì)節(jié)。淺層特征提取選用大小為3×3,輸出通道數(shù)為64 的卷積層,為保證輸入輸出大小一致padding=1。淺層特征提取可表示為:
其中,HSF(·)表示卷積操作,F(xiàn)0是提取出的淺層特征,即多尺度特征提取模塊和殘差分支的輸入。
多尺度特征提取模塊由多個(gè)沙漏狀的多尺度特征提取單元(Multi-Scale Feature Extraction Unit,MSFEU)組成,圖2 為多尺度特征提取單元結(jié)構(gòu)。
圖2 多尺度特征提取單元Fig.2 Multi-scale feature extraction unit
圖像的多尺度特征由3 個(gè)分支提取,每個(gè)分支分為兩級(jí),包含不同數(shù)目的卷積層,每個(gè)卷積層后默認(rèn)添加Leaky ReLU 激活層。設(shè)Mn-1為前一單元的輸出,第一級(jí)3 條分支得到的結(jié)果可表示為:
其中,F(xiàn)i,j代表第i級(jí)第j條分支的輸出結(jié)果,r(·)表示Leaky ReLU 激活函數(shù),“*”表示卷積運(yùn)算,W表示對(duì)應(yīng)卷積層的權(quán)重,W下標(biāo)是對(duì)應(yīng)的卷積核大小,上標(biāo)對(duì)應(yīng)所屬級(jí)數(shù)和從上到下的序號(hào)。
第一級(jí)的結(jié)果兩兩分組輸入到下一級(jí)中交叉級(jí)聯(lián),繼續(xù)提取深層特征。三條分支提取到的深層特征在通道維度上級(jí)聯(lián),再由Fusion 層融合得到更豐富的特征描述。第二級(jí)多特征提取結(jié)果可表達(dá)為:
其中,F(xiàn)LF表示融合得到的多尺度特征,Concat(·)表示特征按通道級(jí)聯(lián)。Fusion(·)代表卷積核大小為1×1 的卷積操作,作用是將輸出特征的通道數(shù)調(diào)整為64。
多尺度特征經(jīng)過(guò)通道注意力模塊過(guò)濾,重新計(jì)算調(diào)整權(quán)重,加上局部殘差得到多特征提取單元的最終輸出。通道注意力模塊包含全局平均池化層,代表激勵(lì)操作的兩層卷積和ReLU 激活函數(shù)以及Sigmoid 激活層。每個(gè)二維的特征圖經(jīng)全局平均池化轉(zhuǎn)換為單個(gè)實(shí)數(shù),每一個(gè)實(shí)數(shù)可以代表其對(duì)應(yīng)的特征通道的全局信息。將所有實(shí)數(shù)向量化,由此得到1×1×C 的實(shí)數(shù)列,即特征通道描述符。使用大小為1×1 的卷積核提取跨通道的交互信息,第一層卷積作用是降維,降維壓縮比例為16。經(jīng)ReLU 激活后再用大小為1×1 的卷積核進(jìn)行升維,還原至原始特征維度。使用Sigmoid(·)函數(shù)將卷積學(xué)習(xí)到的通道相關(guān)權(quán)重歸一化,分別與對(duì)應(yīng)的特征通道相乘,得到加權(quán)校正后的特征通道。再通過(guò)跳躍連接引入前一單元的輸出,得到多尺度特征提取單元的最終輸出。設(shè)第n個(gè)多尺度特征提取單元的輸出為Mn,則輸出結(jié)果可以表達(dá)為:
其中 ?表示元素對(duì)應(yīng)位置相乘,Pool(·)代表全局平均池化(Global Average Pooling, GAP)。C(·)代表兩個(gè)卷積核大小為1×1 的卷積層和卷積層之間的ReLU 激活函數(shù)。
殘差分支包含兩個(gè)分支。第一個(gè)分支直接將ILR上采樣重建輸入到網(wǎng)絡(luò)后端,第二個(gè)分支由兩個(gè)卷積層組構(gòu)成,輸入F0經(jīng)過(guò)第一組卷積得到F1,經(jīng)過(guò)第二組卷積得到F2,作為重建的參考輸入到網(wǎng)絡(luò)的后端。以G1(·)和G2(·)分別代表兩組卷積操作,則F1和F2公式如下:
圖3 為特征融合重建層結(jié)構(gòu)。若原始輸入的放縮因子scale 為s,輸入圖像大小為H×W×C,在上采樣之前通過(guò)卷積層將圖像通道數(shù)目調(diào)整為s2C,輸入到PixShuffle(s)中可得到大小為sH×sW×C的圖像。放大比例為2 的分支PixShuffle(2)的輸入通道數(shù)為4C,放大比例為3 的分支PixShuffle(3)的輸入通道數(shù)調(diào)整為9C,放大比例為4 的分支第一個(gè)PixShuffle(2)的輸入通道數(shù)為4C,第二個(gè)PixShuffle(2)的輸入通道數(shù)為16C。
圖3 特征融合重建層Fig.3 Feature fusion reconstruction layer
3 個(gè)分支的特征融合重建層公式如下:
其中Mi(i=1,···,n,n為模塊數(shù))是各個(gè)多尺度特征提取單元的輸出。將淺層特征和各層次特征按通道維度級(jí)聯(lián),再采用卷積核大小為1×1 進(jìn)行一次融合卷積,得到的結(jié)果再加上殘差分支得到的F2。3 條分支結(jié)果通過(guò)特征融合重建層進(jìn)行上采樣重建。REk(k=1, 2, 3,k為分支序號(hào))代表特征重建層的重建函數(shù),可根據(jù)縮放因子自適應(yīng)選擇分支。3 個(gè)重建層的輸出相加得到最終的重建圖像。
選用DIV2K 數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)集包含800 張圖片。為了增強(qiáng)數(shù)據(jù),訓(xùn)練集所有圖像裁剪成48×48 的小塊,隨機(jī)進(jìn)行水平翻轉(zhuǎn)和垂直翻轉(zhuǎn)、放縮因子分別為2, 3, 4,下采樣的比例分別為0.5,0.7, 1,旋轉(zhuǎn)角度分別為0°, 90°, 180°, 270°。訓(xùn)練后的模型在4 個(gè)國(guó)際公共標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集Set5、Set14、BSD100、Urban100 上進(jìn)行測(cè)試。與其他方法一樣,實(shí)驗(yàn)結(jié)果統(tǒng)一從RGB 轉(zhuǎn)換到Y(jié)Cb-Cr 顏色空間,評(píng)價(jià)指標(biāo)只在Y通道上計(jì)算。
實(shí)驗(yàn)環(huán)境操作系統(tǒng)為Windows10,CPU 為i7-8700@3.20 GHz,GPU 為NVIDIA Quadro P4000,使用Pytorch 框架,Cuda 版本為10.2。
網(wǎng)絡(luò)中多尺度特征提取單元個(gè)數(shù)為7 個(gè),每個(gè)MSFEU 的輸出通道數(shù)目均為64。綜合考慮計(jì)算成本與實(shí)際效果,MSFEU 三條分支的卷積核都為較小的卷積核,在各分支中使用1×1 的卷積降維,減少參數(shù)量,降低計(jì)算難度,具體參數(shù)如表1所示。所有Fusion 層卷積大小均為1×1,輸出通道數(shù)均為64。殘差分支的參數(shù)如圖1 所示。
表1 多尺度特征提取單元參數(shù)Tab.1 Parameters of the multi-scale feature extraction units
網(wǎng)絡(luò)中采用邊界補(bǔ)零方式保證各層之間的輸入輸出大小一致, 3×3 的卷積層默認(rèn)padding=1,1×1 的卷積層默認(rèn)padding=0。初始學(xué)習(xí)率為10-4,每200 代衰減一半。mini-batch=16,即每次隨機(jī)裁剪選取16 組大小為48×48 的LR-HR 子圖對(duì)作為輸入。優(yōu)化器選用ADAM,β1=0.9,β2=0.999,ε=10-8,梯度裁剪范圍為[-0.4, 0.4],損失函數(shù)使用Charbonnier 損失[28],公式如下:
其中σ是一個(gè)常數(shù),可以保證loss 函數(shù)在零點(diǎn)可導(dǎo)且穩(wěn)定,實(shí)驗(yàn)中設(shè)置σ=10-3。ISR為網(wǎng)絡(luò)的重建結(jié)果,IHR為參考圖像,上標(biāo)q的取值范圍為[1,···,K]代表圖像對(duì)序號(hào)。
客觀評(píng)價(jià)指標(biāo)選擇峰值信噪比(Peak Signal to Noise Ratio,PSNR)和結(jié)構(gòu)相似度(Structural Similarity,SSIM)。其中,SSIM 用于衡量場(chǎng)景中的結(jié)構(gòu)信息失真程度,用PSNR 衡量像素間的誤差。兩個(gè)指標(biāo)都未考慮到人眼的視覺(jué)特性,經(jīng)常出現(xiàn)指標(biāo)不理想但視覺(jué)效果卻很好的情況。因此,選取多種先進(jìn)算法和本文模型獲得的重建圖像進(jìn)行對(duì)比,用以展示主觀視覺(jué)效果。
3.4.1 網(wǎng)絡(luò)結(jié)構(gòu)消融實(shí)驗(yàn)
為了驗(yàn)證多尺度特征提取模塊、殘差分支和特征融合重建層和通道注意力機(jī)制的有效性,分別構(gòu)建不同的模型進(jìn)行實(shí)驗(yàn)。
為驗(yàn)證多尺度特征提取模塊的有效性,將網(wǎng)絡(luò)中的特征融合重建層去掉,得到模型MSARNFFRL-。使用雙三次插值將其放大到目標(biāo)尺寸的小型數(shù)據(jù)集訓(xùn)練。將多尺度特征提取模塊中的MSFEU 替換為簡(jiǎn)單3×3 卷積和ReLU 激活層,得到MSARNSC,替換后的多尺度特征提取模塊結(jié)構(gòu)如圖4(a)所示。將網(wǎng)絡(luò)中的MSFEU 分別替換為圖4 (b)的Inception 塊[29](Inception Block, IB)和 圖4 (c)的密集塊(Dense Block,DB)得到MSARNIB和MSARNDB。
圖4 用于比較的模塊Fig.4 Modules for comparison
驗(yàn)證實(shí)驗(yàn)在放大倍數(shù)為4 的Set14 數(shù)據(jù)集上進(jìn)行,各消融實(shí)驗(yàn)?zāi)P偷腜SNR、SSIM 和平均處理時(shí)間如表2 所示。
表2 不同模塊的有效性驗(yàn)證Tab.2 Validation of different modules
從表2 可以看出以MSARNFFRL-為基準(zhǔn),將網(wǎng)絡(luò)中的MSFEU 換為簡(jiǎn)單的3×3 卷積層后的PSNR為27.62 dB,換成密集塊的PSNR 為27.67 dB,改為Inception 塊后得到的PSNR 為27.78 dB。從結(jié)果可以看出,MSARNFFRL-的PSNR 較其余三者分別提升了0.64 dB,0.59 dB 和0.48dB,SSIM 指標(biāo)也有所提升。其中,MSARNSC由于使用單一尺寸的卷積核,難以檢測(cè)不同尺度的圖像特征,因此,指標(biāo)最低。密集塊的計(jì)算復(fù)雜度最高,花費(fèi)時(shí)間最多。Inception 塊與MSFEU 相比缺少通道間相關(guān)性的學(xué)習(xí),雖然平均處理時(shí)間短,但是指標(biāo)均低于MSFEU。
通過(guò)表2 中MSARNFFRL-和完整模型MSARN的對(duì)比也可以驗(yàn)證特征融合重建層的有效性。MSARNFFRL-使用雙三次插值對(duì)圖像上采樣后再輸入到網(wǎng)絡(luò)中,完整模型MSARN 使用亞像素卷積在網(wǎng)絡(luò)后端上采樣。使用插值算法上采樣會(huì)在圖像中引入模糊,影響重建質(zhì)量。而且MSARNFFRL-的輸入為放大到目標(biāo)尺寸的圖像,計(jì)算量比輸入小尺寸LR 圖像的完整模型更大,因此平均運(yùn)行時(shí)間更長(zhǎng)。
為驗(yàn)證殘差分支和MSFEU 中注意力機(jī)制的有效性,訓(xùn)練集不進(jìn)行插值放大處理,保留特征融合重建層,分別訓(xùn)練完整模型MSARN、去掉殘差分支的模型MSARNRB-、去掉MSFEU 中通道注意力的模型MSARNCA-。在放縮因子為4 的Set14測(cè)試集上驗(yàn)證PSNR 和SSIM,指標(biāo)對(duì)比如表3所示。
表3 殘差分支與通道注意力有效性驗(yàn)證Tab.3 Validation of residual branch and channel attention
通道注意力模塊對(duì)不同特征通道進(jìn)行篩選,抑制關(guān)聯(lián)性弱的無(wú)關(guān)通道,強(qiáng)化與特征相關(guān)的通道。與去掉通道注意力的MSARNCA-相比,完整網(wǎng)絡(luò)模型的PSNR 和SSIM 分別提高了0.29 dB和0.003 9,上述結(jié)果可以證明通道注意力模塊的有效性。同時(shí)從結(jié)果可以看出完整模型MSARN的PSNR 和SSIM 指標(biāo)均高于MSARNRB-,PSNR提高了0.25%,SSIM 提高了0.49%,由此證明多支路的殘差學(xué)習(xí)更有利于結(jié)構(gòu)信息的重建和保持。
為驗(yàn)證Charbonnier 損失的有效性,分別使用Charbonnier 損失和L2 損失在小型訓(xùn)練集上迭代100 代,在Set5 和Set14 數(shù)據(jù)集上進(jìn)行測(cè)試。不同損失函數(shù)訓(xùn)練的MSARN 模型PSNR 值如表4 所示,可以看出使用Charbonnier 損失訓(xùn)練的模型PSNR 值更高。
表4 不同損失函數(shù)的PSNR 比較Tab.4 PSNR comparison of different loss functions
3.4.2 客觀定量分析
將本文模型與其他先進(jìn)方法做對(duì)比,PSNR與SSIM 如表5 所示。粗體標(biāo)注為最優(yōu)值,下劃線標(biāo)注為次優(yōu)值。對(duì)比方法包括:Bicubic[14]、SRCNN[17]、VDSR[19]、DRRN[20]、IDN[30]、MSRN[25]、PAN[26]和EFDN[27],其中EFDN 模型未提供放大倍數(shù)為3 的訓(xùn)練模型。由表5 數(shù)據(jù)可以看出,本文的網(wǎng)絡(luò)模型的大部分客觀評(píng)價(jià)指標(biāo)均較原始方法有所提升。由表5 可知,在放大比例為4 的BSD100數(shù)據(jù)集上與2018 年ECCV上發(fā)表的MSRN 相比,本文模型的PSNR 和SSIM分別提升0.18 dB 和0.013 7,在其他放大比例上的評(píng)價(jià)指標(biāo)也更高;與2020 年在ECCV 提出的PAN 模型相比,放大比例為3 時(shí)在紋理結(jié)構(gòu)細(xì)節(jié)較多的Urban100 數(shù)據(jù)集上,PSNR 平均提升0.28 dB,SSIM 平均提升0.009 6;與2022 年發(fā)表在NTIRE 上的最新算法EFDN 相比,在放大4 倍的Urban100 數(shù)據(jù)集上PSNR 和SSIM 平均提升了0.21 dB 和0.005 1。指標(biāo)提升充分說(shuō)明本文的MSARN 模型可以有效提高重建性能。
表5 不同超分辨率模型重建PSNR/SSIM 比較Tab.5 PSNR/SSIM comparison of different super-resolution models
3.4.3 主觀視覺(jué)效果對(duì)比
為了更直觀地展示MSARN 的視覺(jué)效果,對(duì)比算法選用Bicubic[14]、SRCNN[17]、VDSR[19]、DRRN[20]、RCAN[24]、IDN[30]、MSRN[25]、PAN[26]和EFDN[27]。圖5~圖7 是各算法重建圖像的對(duì)比圖。
圖5 Set14 數(shù)據(jù)集中“zebra”3×的視覺(jué)效果圖Fig.5 Comparison of the results of "zebra" 3× in the Set14 dataset
圖5 為Set14 數(shù)據(jù)集中 “Zebra”放大3 倍的重建視覺(jué)效果對(duì)比。SRCNN、VDSR 和DRRN都是使用雙三次插值進(jìn)行前置上采樣的模型,重建圖像細(xì)節(jié)上偽影較多。IDN 使用反卷積進(jìn)行上采樣,最終結(jié)果也引入了雙三次插值的圖像,視覺(jué)效果也不佳。RCAN、MSRN、PAN 重建圖像的右上角比較模糊,而MSARN 重建圖像的斑馬條紋更清晰,更接近參考圖像。
圖6 和圖7 分別為B100 數(shù)據(jù)集中的“148026”和Urban100 數(shù)據(jù)集中的“img012”放大4 倍的重建效果對(duì)比??梢灾庇^地看出圖6 中本文重建圖像斜紋較少,圖7 中本文結(jié)果的大樓外側(cè)條紋和窗戶沒(méi)有出現(xiàn)變形,準(zhǔn)確重建出了較直且清晰的線條形狀。與其他算法相比MSARN 的重建圖像與原圖相似度更大,輪廓更清晰。
圖6 B100 數(shù)據(jù)集中“148 026”放大倍數(shù)為4×的結(jié)果對(duì)比Fig.6 Comparison of the results of "148 026" 4× in the B100 dataset
圖7 Urban100 數(shù)據(jù)集中“img012”放大倍數(shù)4×的結(jié)果對(duì)比Fig.7 Comparison of the results of "img012" 4× in the Urban100 dataset
以上實(shí)驗(yàn)結(jié)果表明,MSARN 達(dá)到了提升重建效果的目的,能更清晰準(zhǔn)確地重建出細(xì)膩的細(xì)節(jié)紋理,重建結(jié)果還原度更高。
3.4.4 參數(shù)量分析
圖8 為各個(gè)算法在放縮因子為4 的Set5 數(shù)據(jù)集上的性能與參數(shù)量的對(duì)比結(jié)果。參與比較的模 型 有:SRCNN[17]、VDSR[19]、DRRN[20]、IDN[30]、MSRN[25]、PAN[26]和EFDN[27]。由圖8 可以看出本文提出的模型參數(shù)量?jī)H有的MSRN 的一半,而PSNR 值提高了1.4%,綜合權(quán)衡參數(shù)量和性能,本文網(wǎng)絡(luò)模型結(jié)果也是優(yōu)于其他模型的。
圖8 不同模型在Set5(×4)上的PSNR 以及參數(shù)量Fig.8 PSNR and parameters of different models on the Set5(×4) dataset
本文針對(duì)單幅圖像超分辨率重建問(wèn)題提出了多尺度特征提取和通道注意力結(jié)合的超分辨率模型MSARN。模型使用多個(gè)分支提取了圖像的多尺度特征,使用通道注意力為各個(gè)特征通道賦予不同權(quán)重,過(guò)濾了冗余信息,加強(qiáng)了高頻信息的流通。此外,模型中引入了特征融合和全局特征融合,提升了模型的特征學(xué)習(xí)能力和適用性。實(shí)驗(yàn)結(jié)果顯示本文的網(wǎng)絡(luò)結(jié)構(gòu)在Set5 數(shù)據(jù)集上4 倍重建結(jié)果的PSNR 指標(biāo)提升了0.39 dB,SSIM 指標(biāo)提升至0.899 2,重建圖像細(xì)節(jié)更接近真實(shí)圖像,主觀視覺(jué)效果更好。參數(shù)量比MSRN模型減少一半,卻獲得了更優(yōu)質(zhì)的重建結(jié)果。未來(lái)工作主要分為兩個(gè)方向:一是將網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)一步輕量化,精簡(jiǎn)網(wǎng)絡(luò)結(jié)構(gòu),加快訓(xùn)練速度,提升重建算法的性能;二是將網(wǎng)絡(luò)模型擴(kuò)展到其他領(lǐng)域的圖像超分辨率重建任務(wù)中,如深度圖像的超分辨率重建,使模型學(xué)習(xí)尺度特征之外的其他特征。