陳新宇, 方金生*
(1.閩南師范大學計算機學院,福建 漳州 363000;2.閩南師范大學數(shù)據(jù)科學與智能應用福建省高校重點實驗室,福建 漳州 363000)
圖像超分辨率(super-resolution, SR)重建技術是將低分辨率(low-resolution, LR)圖像恢復為相應的高分辨率(high-resolution, HR)圖像,因此SR重建是一個具有挑戰(zhàn)性的不適定問題[1].近年來,隨著硬件技術和卷積神經(jīng)網(wǎng)絡(convolutional neural network, CNN)的發(fā)展,基于CNN 的SR 重建算法已成為最流行的策略,并出現(xiàn)諸多性能優(yōu)異的算法[2].
作為開創(chuàng)性的SR重建工作,SRCNN[3]僅用三個卷積層實現(xiàn)LR圖像到HR圖像的直接映射,其性能已經(jīng)遠超過傳統(tǒng)的超分辨率圖像重建方法.隨后的研究表明,采用更深或更復雜的網(wǎng)絡可實現(xiàn)更好的性能[4-5],但這些網(wǎng)絡的參數(shù)和計算量大,難以部署于移動設備端.因此,設計輕量級的網(wǎng)絡模型是當前的研究熱點之一.為優(yōu)化網(wǎng)絡結構和減少參數(shù)量,CARN (cascading residual network)[6]引入級聯(lián)殘差網(wǎng)絡的概念,通過級聯(lián)多個殘差塊以增加網(wǎng)絡的深度,更好地捕獲圖像細節(jié)和紋理.IMDN (information multi-distillation network)[7]通過信息蒸餾方法,有效地將不同尺度和級別的信息融合到一個輕量級的模型中,并獲得較高網(wǎng)絡性能.MCSN (multi-scale channel attention super-resolution network)[8]引入通道攪亂注意力模塊,有效地促進通道之間信息的流動,提高網(wǎng)絡在通道維度的特征選擇能力.這些模型有效地降低模型的復雜度,但仍未取得令人滿意的網(wǎng)絡性能.為此,提出一種輕量級的多注意力融合網(wǎng)絡模型(multi-attention fusion network,MAFN),有效地提高圖像超分辨率重建結果.主要貢獻如下
1)提出一種多注意力融合網(wǎng)絡MAFN(multi-attention fusion network),有效地平衡網(wǎng)絡性能和參數(shù)量與計算消耗的問題;在5個公共數(shù)據(jù)上的測試結果表明MAFN的性能優(yōu)于其他的對比網(wǎng)絡.
2)提出一種高效的多尺度卷積注意力模塊MCAB(muti-scale convolution and attention block),該模塊融合多尺度卷積模塊、非線性自由激活模塊(nonlinear activation free block, NFAB)、通道注意力(channel attention,CA)模塊和增強空間注意力(enhanced spatial attention,ESA)模塊,有效地提高網(wǎng)絡對特征的學習能力,增強網(wǎng)絡對高頻細節(jié)特征的關注,從而提高圖像SR的性能.
為節(jié)省計算資源,輕量級超分辨率網(wǎng)絡受到廣泛關注.Hui等[7]提出的IMDN 使用多重蒸餾模塊及對比感知通道注意力機制聚合各卷積層的蒸餾信息.Liu等[9]提出的RFDN在IMDN基礎上進一步優(yōu)化通道蒸餾操作,有效地提高網(wǎng)絡性能,同時獲得AIM 2020年的圖像超分辨率比賽冠軍.Lan等[10]提出的MADNet (multi-scale attention dense network)使用密集的輕量級網(wǎng)絡來增強多尺度的特征表示和學習.Li等[11]進行卷積核可視化后,觀察到很多卷積核呈現(xiàn)相似的特征分布,因而提出藍圖卷積模塊減少特征的重復提取.Gendy等[12]提出BSPAN (balanced spatial feature distillation and pyramid attention network),可權衡不同通道和注意力機制提取特征的沖突,利用平衡的空間特征蒸餾塊作主干,實現(xiàn)高性能的圖像超分辨率重建.Sun等[13]提出的ShuffleMixer允許模塊間的信息交流和特征混洗,以減少可學習特性的數(shù)量,能夠在資源受限的環(huán)境下適應不同任務和數(shù)據(jù)集.Zhao 等[14]提出LIRDN (lightweight inverse separable residual information distillation network),該方法利用逆可分離復原淺殘差單元逐步提取蒸餾信息,增加蒸餾層間的通道信息流動,在確保結構輕量化的同時獲得更多樣化的通道特征信息.
注意力機制可認為是一種模擬人眼視覺機制的方法,其通過圖像特征信息動態(tài)調(diào)整權重系數(shù),有效地幫助網(wǎng)絡選擇性地關注有用的信息,目前已經(jīng)廣泛應用于計算機視覺任務中.Woo 等[15]提出CBAM(convolutional block attention module),分別利用特征間的通道和空間關系來生成對應的通道和空間注意力映射,提高網(wǎng)絡的特征表示能力.Liu等[9]提出一種增強的空間注意力模塊,利用局部的空間信息計算注意力權重,使局部的重要信息得到更多的關注.Gao 等[16]引入多路注意力模塊,用于提取不同維度的特征信息,以豐富特征的表征能力.為避免圖像超分辨率網(wǎng)絡不斷的加深和拓寬,F(xiàn)eng等[17]通過在網(wǎng)絡的首尾添加雙注意力機制來區(qū)分深度網(wǎng)絡中的后傳遞特征,獲得更好的高頻重建信息.Wang等[18]提出一種自適應注意力,通過淺層部分的大核卷積注意力取得更多的原始信息,保證深層網(wǎng)絡的特征提取.因此,高效的注意力結構對提高超分重建網(wǎng)絡的性能至關重要,致力于設計用于輕量級網(wǎng)絡的注意力模塊,以獲得更優(yōu)的重建結果.
提出的MAFN 網(wǎng)絡結構如圖1所示,主要由淺層特征提取模塊(shallow feature extraction,SFE)、若干個多尺度卷積注意力模塊(MCAB)和圖像上采樣重建模塊(sub-pixel)三部分組成.與其他經(jīng)典SR網(wǎng)絡一樣,MAFN的SFE采用3×3卷積層從LR圖像中提取淺層特征I0,豐富輸入的特征信息;然后通過一系列堆疊的MCAB 對I0進行深層特征提取,MCAB 利用支路殘差多尺度卷積模塊獲得不同視野的圖像特征,然后再通過NAFB、CA 和ESA 模塊關注通道和空間中重要的特征,并分別采用卷積核大小為1×1 和3×3 融合深層特征;最后由上采樣重建模塊重建SR結果.
圖1 MAFN的網(wǎng)絡結構Fig.1 Network architecture of the MAFN
因此,對于輸入的LR圖像,經(jīng)過SFE提取得到的淺層特征I0,可表示為
式(1)中:C3×3表示3×3 卷積操作;淺層特征F0經(jīng)由k個MCAB 逐步提取特征,并將每個MCAB 的輸出特征進行融合,再分別進行1×1卷積和3×3卷積操作,最后與原淺層特征I0相加,上述過程可表示為
式(2)中:C1×1表示1×1卷積操作;Ik,F(xiàn)cat(·)分別為第k個MCAB的輸出特征和融合函數(shù).
在圖像重建部分,常見的重建方法主要有雙三次插值法、轉置卷積法及亞像素卷積法(sub-pixel)[2].采用亞像素卷積法,sub-pixel模塊通過一個3×3卷積和亞像素混洗層對輸出特征進行上采樣操作,得到網(wǎng)絡最終輸出的SR圖像,該過程可表示為
式(3)中:Fup(·)表示sub-pixel函數(shù).
為優(yōu)化所提出的MAFN,采用LOSS函數(shù),具體如下
由圖2 所示,MCAB 由一個支路殘差多尺度卷積模塊(BRMB)、一系列的非線性自由激活模塊(nonlinear activation free block,NAFB)及級聯(lián)式的通道注意力模塊(CA)和增強空間注意力模塊(ESA)組成.與Inception[19]不同,BRMB 簡化Inception 模塊,即采用1×1 卷積、單3×3 卷積和雙3×3 卷積(兩個3×3 卷積等價于一個5×5卷積)三個不同的通道,實現(xiàn)在不同尺度的視野下對特征進行提取,豐富圖像的特征信息;同時,單3×3 卷積和雙3×3 卷積通道分別增加殘差連接,以增強原始特征信息更好地向后傳遞,同時可防止梯度因網(wǎng)絡加深而消失的問題.輸入特征經(jīng)過BRMB后得到的特征IBRMB可以表示為
圖2 非線性自由激活模塊和級聯(lián)式注意力模塊的結構Fig.2 Structures of nonlinear activation free block and cascading attention block
式(5)中:Iin為BRMB輸入特征;C1×1和C3×3分別表示1×1和3×3卷積操作.
非線性自由激活模塊(NAFB)[20]如圖2第一行所示,由層歸一化層(layerNorm)、點卷積層和深度卷積層、SimpleGate模塊和簡單通道注意力(simplified channel attention,SCA)構成.SCA包含平均池化層、1×1卷積層和Sigmoid層組成,可通過簡單的網(wǎng)絡層有效地引導網(wǎng)絡關注重要的特征信息;SimpleGate模塊是將輸入特征分成兩等分的通道并點乘,相比于采用卷積操作降通道數(shù),SimpleGate 可大大減少計算成本.NAFB的運算過程可以表示為
上式中:FLN(·)表示歸一化函數(shù);FD3×3(·)表示3×3 深度可分離卷積函數(shù);FSimple(·),F(xiàn)SCA(·)分別為通道融合和簡單通道注意力函數(shù).
如圖2 的第三行所示,由NAFB 獲得的特征經(jīng)過級聯(lián)式通道注意力(CA)和增強空間注意力(ESA)進一步提取重要信息.CA 采用平均池化和最大池化提取圖像通道特征,然后結合ESA 模塊,ESA 更多關注局部空間信息,可以更好地提取高頻信息.因此,MCAB的輸出特征Iout表示為
式中:FCA(·)和FESA(·)分別表示CA和ESA函數(shù).
算法使用DIV2K[21]數(shù)據(jù)集作為訓練集,該數(shù)據(jù)集包含800幅高質(zhì)量訓練圖像和100幅驗證圖像;使用5 個基準數(shù)據(jù)集作為測試集,即Set5[22]、Set14[23]、BSD100[24]、Urban100[25]和Manga109[26].采用峰值信噪比(PSNR)和結構相似性(SSIM)作為度量來評價各算法的重建結果.
網(wǎng)絡的訓練輸入是由LR 圖像隨機裁剪為大小48×48 的圖像塊,批數(shù)據(jù)量設置為8;使用Adam 優(yōu)化器,超參數(shù)為β1=0.9,β2=0.999;初始學習速率設置為5×10-4,每經(jīng)過400 個訓練輪次學習率減少為原來的一半,總共1 000個訓練輪次;通道數(shù)為50.
1)MCAB 數(shù)量對網(wǎng)絡性能的影響.如表1 所示,隨著MCAB 數(shù)量地增加,網(wǎng)絡性能也隨之提升,當數(shù)量從1 增加到5 時,PSNR 值顯著增加且參數(shù)量也隨之增長;當數(shù)量為6 時,PSNR 反而下降.由于MCAB數(shù)量為5 時,PSNR 值僅比數(shù)量為4 時增加0.03,而網(wǎng)絡參數(shù)量增加165 K.因此,為權衡網(wǎng)絡性能和參數(shù)量,采用4個MCAB的模型.
表1 在×4采樣率下MCAB的不同數(shù)量在Set14數(shù)據(jù)集中的網(wǎng)絡性能Tab.1 Network performance with different numbers of MCAB on Set14 ×4 dataset
2)BRMB對網(wǎng)絡性能的影響.為驗證的BRMB對網(wǎng)絡的影響,本實驗將BRMB與原始的Inception進行比較,結果如表2 所示,BRMB 在Urban100 測試集上得到優(yōu)于原始Inception 模塊的SR 性能,同時參數(shù)量減少40 K.由此可見,提出的BRMB簡化模塊結構,可有效地減少參數(shù)數(shù)量,且提高網(wǎng)絡性能.
表2 在×2采樣率下不同的BRMB模塊數(shù)在Urban100數(shù)據(jù)集中的網(wǎng)絡性能Tab.2 Network performance with different numbers of BRMB on Urban100 ×2 dataset
3)NFAB 對網(wǎng)絡性能的影響.為更好地平衡MCAB 中各模塊數(shù)量和網(wǎng)絡性能,本實驗驗證MCAB 中NAFB數(shù)量對網(wǎng)絡性能的影響,如表3所示.當采用2個NAFB時,PSNR值較沒有采用NAFB時增加0.18,可見NAFB 可明顯提升網(wǎng)絡性能,隨著NAFB 數(shù)量的進一步增加,PSNR 值也近似于線性提高,當NAFB數(shù)量大于4 時,增加量變緩,增量僅為0.03 dB.因此,為更好地平衡網(wǎng)絡參數(shù)量和性能,本模型中的每個MCAB中采用4個NAFB模塊.
表3 在×3采樣率下NAFB的不同數(shù)量在Urban100數(shù)據(jù)集下的網(wǎng)絡性能Tab.3 Network performance with different numbers of NAFB on Urban 100 ×3 dataset
4)注意力機制對圖像超分辨率性能的影響.驗證不同的注意力模塊對網(wǎng)絡性能的影響,結果如表4所示.以未添加任何注意力機制模塊為基礎網(wǎng)絡(Base),然后在基礎網(wǎng)絡中分別采用1 個CA、1 個ESA、以及1 個級聯(lián)的CA 和ESA 進行實驗.從表4 可知,采用級聯(lián)式的CA 和ESA,在B100 數(shù)據(jù)集中取得最優(yōu)的PSNR值.由此證明級聯(lián)式的CA和ESA可以有效地提升網(wǎng)絡性能.
表4 3倍采樣率下不同的注意力模塊在BSD100數(shù)據(jù)集中的網(wǎng)絡性能Tab.4 Network performance with different attention modules on BSD 100 ×3 dataset
為驗證MAFN 的性能,在5 個數(shù)據(jù)集上將MAFN 與IMDN[7]、RFDN[9]、MADNet[10]、GLADSR[27]、SMSR[28]、ShuffleMixer[13]、SR-LAM[17]和AAFFEN[18]等主流輕量級SR 重建方法進行比較,結果如表5 所示.在×2、×3和×4圖像下采樣的情況下,提出的MAFN在五個數(shù)據(jù)集下的指標均優(yōu)于比較算法,其中,AAFFEN在Urban 100×2、Manga109×2 與BSD100×3 上的SSIM 值以及BSD100×3 與BSD100×4 的PSNR 值優(yōu)于MAFN,但其參數(shù)量比MAFN高約260 K.與參數(shù)量和計算量小于MAFN的模型,如ShuffleMixer、SR-LAM等相比,MAFN可獲得0.10~0.30 dB的提升.綜上所述,提出的MAFN更好地權衡網(wǎng)絡性能和網(wǎng)絡模型.
表5 在2、3、4倍采樣率下比較5個數(shù)據(jù)集上不同輕量級模型的定量指標Tab.5 Quantitative comparison of different lightweight models on five datasets with ×2, ×3, ×4 scaling factors.
圖3 展示MAFN 與其他主流網(wǎng)絡在Urban100×4 數(shù)據(jù)集中的主觀視覺效果比較.從放大圖示可看出,由MAFN 網(wǎng)絡重建的SR 圖像中的線條和條紋邊緣更為清晰,較其他網(wǎng)絡更接近真實圖像,由此說明MAFN 能夠更好地得到邊緣信息,以及較好地抑制偽影.尤其在image076 中,MAFN 可更為完整地重建邊緣信息,進一步證明其在圖像超分辨率重建中的有效性.
圖3 不同算法對Urban100數(shù)據(jù)集中image067、image076、image093的4倍重建結果Fig.3 SR results of comparsion methods on image067, image076, image093 of Urban100 ×4 dataset
提出一種用于圖像超分辨率重建的輕量型多注意力融合網(wǎng)絡模型(MAFN).本模型使用多個多尺度卷積注意力模塊作為主干網(wǎng)絡進行圖像特征提取,通過支路殘差多尺度卷積塊獲取不同的特征提取視野,利用非線性自由激活模塊、通道注意力和空間注意力機制使模型能夠更好地關注重要信息,提高模型的特征學習能力以獲得更優(yōu)的重建性能.實驗結果表明,網(wǎng)絡更好地平衡網(wǎng)絡性能和模型規(guī)模,在5個測試數(shù)據(jù)集上,其綜合性能優(yōu)于其它的比較算法.