李俊珠, 鄭 華,2,3,4, 雷 帥, 陳清俊, 潘 浩
1(福建師范大學 光電與信息工程學院, 福州 350007)
2(福建師范大學 醫(yī)學光電科學與技術教育部重點實驗室, 福州 350007)
3(福建師范大學 福建省光子技術重點實驗室, 福州 350007)
4(福建師范大學 福建省光電傳感應用工程技術研究中心, 福州 350007)
圖像作為一種重要的信息傳遞方式, 圖像的恢復和復原一直是人們關注的重點領域. 圖像超分辨重建技術在移動數(shù)據(jù)的傳輸、衛(wèi)星遙感成像、小目標檢測以及視頻監(jiān)控等領域都有著廣泛的應用和重要的研究意義. 在現(xiàn)實生活中, 由于硬件設備條件的原因會導致拍攝出許多低像素的圖像. 例如移動數(shù)據(jù)傳輸?shù)倪^程中, 由于設備本身成像的限制以及傳輸速度的要求, 低分辨率圖像的傳輸可以節(jié)約網(wǎng)絡移動通信的帶寬, 再由用戶自己決定是否進行圖像超分辨的重建, 如此既滿足了用戶的需求又加快了圖像的傳輸速率.
隨著現(xiàn)代技術的發(fā)展, 越來越多的人參與圖像超分辨率的研究. 在圖像的超分辨重建算法受到廣泛地關注之后, 陸續(xù)有研究人員提出了基于插值的超分辨率重建方法, 基于重建的超分辨率重建方法, 基于深度學習的超分辨率重建方法. 其中基于插值的方法雖然重建速度快且算法比較簡單, 但是容易丟失高頻信息,適合小倍數(shù)圖像的重建; 基于重建的方法相對前者要好, 但是從常規(guī)來說, 加深網(wǎng)絡的深度的確能夠提高重建精度, 但是隨著卷積神經(jīng)網(wǎng)絡深度的增加, 也面臨著計算復雜度加深和內存消耗的問題. 單圖像超分辨率重建的目的就是把分辨率低的圖像通過一些技術方法恢復出與之相對應的高分辨率圖像, 這是個沒有唯一解的問題. 如何在不增加網(wǎng)絡參數(shù)量的同時還能提高重建圖像的精度, 這是很多研究者都在思索的問題[1-5].
本文所提出的圖像超分辨率算法, 使用多尺度殘差模塊充分利用低分辨率圖像本身的特征, 再分別用兩個、3 個3×3 的卷積替代5×5、7×7 的卷積來減小參數(shù)量. 在模塊中也引入了通道注意力機制, 它可以自適應地學習特征權重, 賦予高頻信息更大的權重, 使網(wǎng)絡更注重傳遞有效的特征信息, 增強網(wǎng)絡的學習能力.通過實驗證明, 本文結合不同大小的卷積核以及注意力殘差機制構建的單圖像超分辨率重建網(wǎng)絡, 在精度上和視覺效果上都取得了一定的提升.
目前, 深度學習的快速發(fā)展使得圖像超分辨率領域得到了重大的突破. SRCNN[1]運用卷積神經(jīng)網(wǎng)絡來學習低分辨率到高分辨率圖像之間的映射關系, 而FSRCNN[2]在網(wǎng)絡重建部分加入反卷積層的方式來替代Bicubic 插值下采樣, 有效的提升了網(wǎng)絡的訓練速度. 但由于FSRCNN 算法卷積層數(shù)較少, 且相鄰的卷積之間缺乏相關性, 重建效果不是很理想. VDSR[3]通過對網(wǎng)絡層數(shù)的加深, 增大了網(wǎng)絡層的感受野, 還利用殘差學習的方式加速網(wǎng)絡收斂的速度. SRDenseNet[4]的稠密塊結構將每一層的特征都傳遞給后面的每一層,特征的重復利用能夠減輕梯度消失且加強了特征的傳播. RCAN[5]網(wǎng)絡將通道注意力機制(channel attention,CA)[6]引入, 讓網(wǎng)絡自適應地學習特征信息的權重, 賦予高頻有效信息更大的權重, 提升了神經(jīng)網(wǎng)絡的表達能力. MemNet[7]利用遞歸單元的內存塊建立長期記憶,以及使用門控單元控制不同的網(wǎng)絡模塊在輸出的權重,自適應地形成長期持續(xù)的記憶. IDN[8]提出的信息蒸餾塊包含了增強單元和壓縮單元, 對低分辨率圖像的輪廓增強輸入并將特征像素映射壓縮. MSRN[9]使用3 種不同大小的卷積核, 對初始輸入的低分辨率圖像進行反復的特征信息提取, 提高網(wǎng)絡重建的性能和加快網(wǎng)絡收斂的速度. MWRN[10]使用多窗口殘差網(wǎng)絡改變了卷積核大小, 使得網(wǎng)絡性能和參數(shù)量也有了一定的提升. TTSR[11]鼓勵低分辨率圖像和參考圖像進行聯(lián)合學習, 通過CA 機制調整通道的特征來傳遞圖像的紋理特征.
由于卷積神經(jīng)網(wǎng)絡有著十分強大的非線性表達能力, 它在圖像超分辨率領域近10 年來得到廣泛的應用.為了使得網(wǎng)絡給予高頻有效信息更多關注, 忽略與網(wǎng)絡數(shù)據(jù)中無關的信息, 注意力機制重新被應用在計算機視覺領域. 自2018 年Hu 等人在SENet[6]中提出CA機制之后, 就被廣泛應用于深度學習的網(wǎng)絡中, 雖然增加了一些參數(shù)量, 但是性能卻有了比較大的提升.
圖1 左側是由C個通道, 大小均為H×W的特征圖組成, 假設特征圖組X=[X1,X2,···,Xi,···,XC]. 在壓縮(squeeze)操作中, 對每一通道輸入首先進行全局平均池化(global average pooling, GAP), 每一個通道得到一個特征標量, 那么C個通道進行操作之后就得到C個特征標量, 如式(1)所示[6].
圖1 通道注意力機制示意圖
經(jīng)過GAP 操作之后引入門結構機制, 使用兩個全連接層為每個通道形成相應的權重系數(shù), 先將C個通道壓縮成C/r個通道, 再恢復成C個通道, 兩個全連接層中的瓶頸結構可以降低模型的復雜度, 如式(2)[6]:
由于網(wǎng)絡深度和層數(shù)增加可以提升圖像重建的效果, 但是網(wǎng)絡深度的增加會使得網(wǎng)絡難以訓練且很難收斂. 針對特征復用不足且參數(shù)量過大的問題, 本文提出基于多尺度注意力殘差的圖像超分辨率重建算法.
如圖2 所示, 多尺度注意力殘差網(wǎng)絡的單圖像超分辨率主要包括淺層特征提取、深層特征提取、特征融合、特征重建4 個方面. 首先經(jīng)過Bicubic 插值得到低分辨率圖像(LR), 在我們對ILR進行淺層的特征提取時, 要先經(jīng)過一個3×3 的卷積層提取淺層的圖像特征,再使用激活函數(shù)ReLU 增強網(wǎng)絡的非線性表達. 淺層
圖2 MCRN 模型網(wǎng)絡框架
本文提出了多尺度注意力殘差模塊(multi-scale attention residual block, MCRB), 每個模塊在殘差塊的基礎上使用3 個通道自適應檢測尺度不同的特征圖像,再對3 層卷積層提取的特征進行特征融合, 盡可能的提取初始的特征圖像, 加強了特征復用. 模塊的卷積后面加入了激活函數(shù)ReLU, 以增強每個模塊的非線性表達能力. 通道注意力機制的引入使得網(wǎng)絡對高頻有效信息賦予更大的權重, 對低頻無效的信息進行忽略.
在不降低模型性能的前提下, 用兩個3×3 的卷積核代替一個5×5 的卷積核, 3 個3×3 的卷積核代替一個7×7 的卷積. 如圖3 所示, 一個像素經(jīng)過兩個3×3 的卷積核之后會產(chǎn)生5×5 個與之相關聯(lián)的像素點. 用小尺寸卷積核堆疊的卷積層來替代大卷積核的卷積層,不僅能夠維持感受野大小不變, 且每個卷積層中含有的激活函數(shù)也能增強網(wǎng)絡的非線性表達能力.
圖3 兩個 3×3 代替 5×5 示意圖
如圖4 所示, 在MCRB 模塊中, 讓輸入特征通過3 層有差別大小的卷積層來進行特征提取, 之后再把3 層特征融合, 并通過一個1×1 的卷積核和通道注意力機制分別進行特征過濾和不同權重的賦予, 最后在該過程中加入跳躍連接. 它的具體表示方法如式(7):
圖4 MCRB 模塊工作原理
在網(wǎng)絡中, 如果只是一味的加深網(wǎng)絡的深度和寬度, 會使得網(wǎng)絡重建的性能有一定的提升, 但同時也增加了大量的參數(shù)量, 使得訓練時間大幅增加, 模型難以收斂. 本文提出的MCRB 模塊, 使用3 級卷積層對特征圖進行特征提取, 充分復用原始特征和加強網(wǎng)絡的非線性表達能力. 再對每一層卷積提取的信息進行特征融合, 引入注意力機制對網(wǎng)絡的特征權重進行賦值,增強高頻有效信息的傳播, 過濾掉低頻無效的信息.
本文的訓練集是采用圖像超分辨率算法常用高質量的圖像數(shù)據(jù)集DIV2K, 它包含1 000 張高質量圖像數(shù)據(jù)集中的前800 張作為我們實驗的訓練集, 另外200 張分別作為驗證集和測試集. 實驗測試集還包括Set5[12]、Set14[13]、B100[14]、Urban100[15]、Manga109[16].
實驗環(huán)境基于Ubuntu 16.04 系統(tǒng), Python 3.8 深度學習開源框架PyTorch 1.8.1、NIVIDIA 1080Ti、CUDA Version 10.1 上完成. 在訓練的每個批次中, 隨機地選擇16 個LR 色塊, 它的輸入圖像剪裁塊的大小為48×48, 采用損失函數(shù)、ADAM 優(yōu)化器[17]進行優(yōu)化.我們將學習率的初始值設置為Lr=1E-4, 每200 個epoch 就減半, 模型訓練完成1 000 個epoch 大概需要36 h.
對于重建的效果數(shù)值上, 本文主要采用峰值信噪比(PSNR)和結構相似度(SSIM)[18]來作為評估網(wǎng)絡重建的性能.
(1)PSNR
PSNR主要是通過誤差敏感對圖像進行評估, 若一個HR 圖像的大小為m×n, 重建得到的圖像為S, 則PSNR的定義如式(8):
在本文實驗中, 我們與目前一些主流的、效果較好的網(wǎng)絡模型進行對比, 包括 SRCNN、LapSRN[19]、DRRN[20]、MSRN. 分別在數(shù)據(jù)集Set5、Set14、B100、Urban100、Manga109 上進行測試. 在測試數(shù)據(jù)時, 我們將原始的RGB 通道的圖像轉換到YCrCb通道的色彩空間上, 對Y 通道進行PSNR和SSIM的數(shù)值計算.
表1 是實驗測試的結果, 從表中可以看出在放大倍數(shù)為4 的時候測試集Manga109PSNR的值為30.98 dB, 相比MSRN 增加0.41 dB. 從客觀的評價指標上可以看出, 本文提出的方法優(yōu)于目前一些較好的網(wǎng)絡. 本文在MSRN 的基礎上增加了一條Bicubic 插值上采樣的路徑, 用小卷積核3×3 代替較大的5×5 和7×7 卷積核, 并引入了注意力機制, 在控制網(wǎng)絡參數(shù)量的同時獲取更多的特征, 從而使得SR 性能提升.
表1 不同方法的PSNR 和SSIM 的對比
圖5、圖6 展示了數(shù)據(jù)集Set5、Set14 在×4 放大倍數(shù)下的視覺重建效果圖, 左側部分是原始的高清圖像, 右側是SR 重建圖像針對左側局部區(qū)域放大的對比展示圖. 通過放大細節(jié)圖, 我們可以看出, 僅通過Bicubic 插值法對圖像進行×4 倍采樣的圖像十分模糊,睫毛細節(jié)和書本的紋路也難以觀察到. 在圖5 中睫毛的高頻信息更豐富. 對于圖6 的重建, 我們放大了書架上橫放的書本, 其他一些經(jīng)典算法的SR 重建使得書本紋路紊亂, 而本文算法重建細節(jié)效果比較好, 圖像更光滑和清晰.
圖5 數(shù)據(jù)集Set5 中圖像“baby”重建對比圖
圖6 數(shù)據(jù)集Set14 中圖像“barbara”重建對比圖
本文展示的MCRN 網(wǎng)絡模型使用了多尺度注意力殘差模塊來對圖像進行重建. 通過實驗表明, 評價指標PSNR和SSIM都有所提升, 圖像視覺的細節(jié)重建效果較好. 隨著多尺度注意力殘差模塊數(shù)量的增加, 評價指標PSNR也會增加, 當殘差塊為24 的時候,PSNR達到32.50 dB 且參數(shù)量也只有5.8 M. 由圖7 可見, 在12-24 個殘差塊的這個區(qū)間, 性能增加的最多. 所以本文選擇了24 個殘差塊對圖像進行重建, 它平均重建一張圖片需要0.25 s.
圖7 Set5 在×4 倍不同MCRB 數(shù)量性能對比
本文提出多尺度注意力殘差網(wǎng)絡主要用3 個不同大小的卷積層進行特征提取再進行融合, 以多個小卷積核替代大卷積核并引入注意力機制. 在控制參數(shù)量的同時取得不錯的重建效果, 不僅有效地緩解了梯度消失和梯度爆炸的問題, 網(wǎng)絡模塊的非線性表達能力也得到了增強. 注意力機制的引入, 使得通道賦予不同的權重, 有利于高頻有效信息的傳播和過濾掉網(wǎng)絡中冗余的部分. 此外本文用Bicubic 插值直接給重建圖像提供低頻信息, 此操作對網(wǎng)絡前期訓練優(yōu)化迭代的穩(wěn)定有益. 我們通過實驗可以看出網(wǎng)絡整體性能的提升,也驗證了網(wǎng)絡的有效性.