李方玗,賈曉芬,2,趙佰亭,汪 星
1(安徽理工大學 電氣與信息工程學院,安徽 淮南 232001) 2(安徽理工大學 省部共建深部煤礦采動響應與災害防控國家重點實驗室,安徽 淮南 232001)
單幅圖像超分辨率重建(Single Image super-Resolution,SISR)技術是指將給定的一幅低分辨率(Low-Resolution,LR)圖像通過特定算法恢復成相應的高分辨率(High-Resolution,HR)圖像,旨在克服或補償由于圖像采集系統(tǒng)或采集環(huán)境本身限制,導致的成像圖像質量低下、感興趣區(qū)域不顯著等問題,目前已廣泛應用于醫(yī)學影像[1]、人臉識別[2]、衛(wèi)星遙感[3]、公共安防[4]等多個領域.
傳統(tǒng)的圖像超分辨率重建算法主要依靠基本的數(shù)字圖像處理技術進行重建,包括基于插值,基于重建,基于學習.基于插值的算法通過對LR圖像的相鄰像素點插值得到重建圖像,但它丟失較多的高頻信息,重建后的圖像視覺效果不佳;基于重建的算法以原圖像退化模型為基礎,結合未知重建后圖像的先驗知識來約束重建結果,計算過程復雜;基于學習的算法是對大量LR圖像和對應的HR圖像之間的映射關系的學習,需構造大量訓練集,其過程較為費時.
傳統(tǒng)的方法計算復雜且不能有效恢復圖像的原始信息,近年來,隨著深度學習在圖像超分辨率重建中的廣泛應用并逐漸取得了較好的結果,受到越來越多研究人員的關注.Dong等[5]于2014年首次將卷積神經網絡應用于超分辨率重建,提出的SRCNN利用3個卷積層以像素映射的方式生成重建的圖像,但計算成本高且收斂速度慢.Dong等[6]在此基礎上于2016年提出FSRCNN,其中內部采用了更小的卷積層,并在網絡末端通過反卷積層放大尺寸,提升速度的同時性能略有提高;同年,Shi等[7]提出的高效的亞像素卷積神經網絡ESPCN在重建模塊使用重新排列后的亞像素層實現(xiàn)上采樣操作,重建效率有明顯的提升.以上超分辨率重建模型比較輕量但重建效果有待提高,于是人們開始通過增加網絡深度來提高模型性能:Kim等[8]提出20層的深層網絡VDSR,它利用殘差學習[9]的思想加快網絡訓練的收斂速度,重建效果比起之前的網絡有很大的提升;2018年,Ahn等[10]提出一種在ResNet上實現(xiàn)級聯(lián)機制的架構CARN,其中間部分基于ResNet,網絡的全局和局部使用級聯(lián)機制以更好融合各層網絡的特征,性能大幅度提升但參數(shù)量激增;2020年,Zhao等[11]提出像素注意力的超分辨率重建網絡(PAN),通過引入輕量的像素注意力機制來提升網絡的重建性能;同年Tian等[12]提出的CFSRCNN利用特征提取模塊學習長短路徑特征,通過將網絡淺層的信息擴展到深層來融合學習到的特征,其參數(shù)略少于CARN,但PSNR也有所降低.以上方法通過增加網絡層數(shù)使模型性能得到提升,但隨之激增的參數(shù)量導致訓練難度大幅度增加,有些模型降參后重建效果卻不達預期,可見參數(shù)和性能很難達到很好的平衡.
綜上,早期CNN超分辨率重建網絡雖輕量但性能不佳,追求重建效果而增加網絡深度的網絡盡管性能有所提升,但龐大的參數(shù)量導致訓練的時間復雜度增大,同時特征信息在深層次網絡傳遞過程中的丟失也會影響重建效果.為此作者提出一種高效多注意力特征融合網絡(EMAFFN).它采用漸進式融合的連接方式結合通道隨機混合(C shuffle)操作,由淺及深逐步提取并融合提取到的特征信息;同時采用高效多注意力塊從通道和空間兩個維度學習,自適應的對特征信息賦予不同權重,保證對LR圖像中有效特征的充分提取.再設計多尺度感受野塊RFB_x進一步增強提取到的有效特征,以此加強特征傳遞、緩解信息丟失,保留深層次特征,使重建后的圖像保留更多的高頻細節(jié).
圖1 高效多注意力特征融合網絡EMAFFN結構Fig.1 Efficient multi-attention feature fusion network EMAFFN structure
圖1即為高效多注意力特征融合網絡(EMAFFN)的結構,它主要包括特征提取模塊和重建模塊這兩個部分.特征提取模塊分為淺層特征提取模塊和深層特征提取模塊,淺層特征提取模塊為一個3*3卷積層,對輸入的LR圖像在低維空間進行初始特征提取,有效減少其計算量;深層特征提取模塊包含n個漸進式特征融合塊(PFFB),PFFB采用漸進式融合的連接方式逐步提取圖像的深層次特征信息以加強特征傳遞,同時結合其內部的高效多注意力塊(EMAB)對提取到的特征信息進行加權使網絡更多的關注高頻信息;重建模塊由多尺度感受野塊RFB_x、一個3*3卷積和一個亞像素卷積層組成,RFB_x塊的多分支結構對PFFB塊提取的特征進一步增強,并融合多尺度的特征信息來提升模型的重建性能,隨后將LR圖像的雙三次上采樣結果與亞像素卷積層上采樣結果進行疊加得到重建后的圖像.具體來說:
x0=fIFE(ILR)
(1)
xn+1=fPFFBn(…fPFFB1(fPFFB0(x0))…)
(2)
xe=fRFB_x(xn+1)
(3)
ISR=fP(xe)+fup(ILR)
(4)
其中,ILR是輸入的LR圖像,fIFE為一個3*3大小的卷積操作,x0即提取到的初始特征;fPFFBi為第i個漸進式特征融合塊的映射函數(shù),i=0,1,…,n.使用RFB_x對經過n個PFFB塊提取到的深層特征xn+1進行增強,fRFB_x即為此過程,xe為增強結果;fP是對增強結果進行3*3卷積和亞像素卷積操作,fup是將輸入的LR圖像進行雙三次上采樣操作,最后得到輸出結果SR圖像ISR.
首先利用3*3卷積提取輸入圖像的淺層特征信息,再將這些信息送入n個串聯(lián)的漸進式特征融合塊(PFFB)逐步提取圖像的深層次特征.
2.2.1 漸進式特征融合塊
為解決超分辨率重建模型由于網絡過深導致低層次信息在傳輸時丟失的問題,受啟發(fā)于MAFFSRN[13],設計圖2的漸進式特征融合塊(PFFB),它通過多次通道隨機混合(C shuffle),實現(xiàn)對EMAB塊中卷積層結果的“信息交互”,將輸出的通道進行重新分組,然后混合不同通道的信息,解決卷積層之間的信息流通不暢,不增加計算量的同時使通道充分融合.PFFB中采用4個高效多注意力塊(EMAB)層層遞進,逐步提取圖像的深層次信息.對每個經EMAB塊提取到的特征進行C shuffle,隨后連接相鄰兩個經C shuffle處理的特征再次進行C shuffle以提高網絡的泛化能力,使用1*1卷積移除冗余信息,產生的結果與下一個經C shuffle操作的信息進行特征融合.在PFFB內的EMAB塊間重復此操作,逐步收集局部信息并進行特征融合,加強特征傳遞,有助于提升重建圖像的精度.最后采用殘差學習將輸入特征xi與融合后的特征疊加得到第i個PFFB塊的輸出特征xi+1,最大限度的利用了LR圖像信息來緩解特征在傳遞過程中的丟失.
圖2 漸進式特征融合塊PFFB的結構Fig.2 Progressive feature fusion block PFFB structure
綜上,PFFB通過“漸進式”特征融合的連接方式,加強特征提取并對提取到的多層信息進行融合,方便每一層充分利用前面層數(shù)學習到的所有特征,使有限的特征實現(xiàn)更好的傳遞和重用.
2.2.2 高效多注意力塊
注意力機制根據(jù)不同特征信息的重要性來分配權重,以強化網絡中的關鍵信息、弱化無用信息[14],可分為空間注意力[15]和通道注意力[16]等.為有效提取圖像的特征信息,利用增強空間注意力(ESA)[17]和高效通道注意力(ECA)[18]提出了圖3高效多注意力塊(EMAB),它充分利用通道和空間的特征信息逐步對圖像的淺層特征去噪,使網絡側重于關注圖像中高頻細節(jié),有助于增強重建后圖像的紋理細節(jié)信息.空間注意力分支受啟發(fā)于ESA,在兩個3*3卷積核后使用1*1卷積層縮減通道尺寸,通過步長為2的步長卷積擴大感受野并結合2*2的最大池化層進一步降低網絡的空間維數(shù).之后使用空洞卷積層進一步聚合感受野的上下文信息,降低內存的同時提升網絡性能,將得到的特征進行上采樣操作恢復空間維度,并通過1*1卷積恢復通道維度.另外,在圖3中所示的3個卷積層后加入激活函數(shù)Frelu[19]來加快收斂速度防止梯度爆炸;在通道注意力分支采用高效注意力塊ECA,它避免了SE-Net[20]中維度縮減帶來的問題,通道注意力由快速的一維卷積生成,通過通道維數(shù)的非線性映射自適應確定內部卷積核的尺寸.該一維卷積可以高效實現(xiàn)局部跨通道交互,通過捕獲局部跨通道的信息,完成其間的相互交流,學習有效的通道注意力.ECA塊輕量高效,它的加入使得網絡性能提高的同時也不會增加模型復雜度.
圖3 高效多注意力塊EMAB的結構Fig.3 Efficient multi-attention block EMAB structure
人類視覺系統(tǒng)中,群體感受野(pRF)的規(guī)模隨著視網膜定位圖中離心率而增加,它能夠強調靠近中心區(qū)域的重要性,受此啟發(fā)感受野塊RFB被提出[21].它模擬人類視覺感受野來增強從輕量CNN模型中學習到的深度特征,其結構主要包括兩部分:多分支卷積層和空洞卷積層.多分支卷積層模擬多種尺寸的pRF增強了網絡的特征提取能力,空洞卷積層再現(xiàn)pRF大小與離心率之間的關系增強了感受野.
在RFB塊中,不同尺寸的卷積核如1*1、3*3、5*5對應于不同大小的感受野,其中較大的卷積核會使得模型復雜度增加,因此對RFB的結構進行微調得到RFB_x,如圖4:將RFB塊結構內部的5*5卷積層使用3*3卷積層替代,同時3*3卷積層被1*3和3*1卷積替代,這種微調有效減少了參數(shù)量和時間復雜度,同時能夠提取到更加精細的特征.本文算法在n個PFFB塊之后加入RFB_x來增強提取到的深層次特征,多尺度的融合特征并重建,保留了深度豐富的特征、恢復了圖像細節(jié).具體來說,將第n個PFFB塊的輸出特征xn+1作為RFB-x塊的輸入,使用不同大小的多分支卷積層進行多尺度特征提取,同時引入不同空洞率的空洞卷積[22],空洞卷積的空洞率越大則采樣點離中心點越遠,感受野就越大,有助于在更大的區(qū)域捕獲信息以生成效果更好的特征圖,同時不增加參數(shù)量.最后連接多個分支的輸出以多尺度的融合不同特征.
圖4 RFB_x結構Fig.4 RFB_x structure
之后將RFB_x塊輸出的特征xe進行3*3卷積并通過亞像素卷積層放大,同時對輸入LR特征進行雙三次上采樣,并將LR圖像的雙三次上采樣結果與亞像素卷積層上采樣結果進行疊加得到重建后的圖像.
(5)
其中,k表示訓練集中的第k對LR-HR圖像,k∈[1,N]且k∈Z,N取800,θ={wk,bk}為模型的學習參數(shù),HSR即本文模型.通過不斷訓練優(yōu)化模型參數(shù)使L(θ)達到最小值,使得重建后的圖像盡可能接近于真實圖像.
本文實驗應用Pytorch-1.7的深度學習框架,在windows10,3090Ti平臺上完成.網絡經過1000個epochs的訓練,初始學習率參數(shù)設置為2e-4,每經過200個epochs學習率將衰減為原來的0.5倍,批量大小設置為16,采用L1損失函數(shù)和AdamP優(yōu)化器來訓練模型.
采用超分辨率重建的公共數(shù)據(jù)集DIV2K[24]作為訓練數(shù)據(jù)集,它包括1000張分辨率為2K的高質量圖像,選用其中的800張HR圖像進行雙三次下采樣得到LR圖像,使用構成的LR-HR圖像對來訓練本文模型.在測試階段,采用SR重建中廣泛使用的基準數(shù)據(jù)集:Set5[25],Set14[26],BSD100[27],Urban100[28].實驗使用峰值信噪比(PSNR)和結構相似性(SSIM)這兩個參數(shù)作為本算法重建性能的客觀衡量標準.PSNR和SSIM這兩個指標越高,說明圖像失真程度越小,圖像質量越好.
3.2.1 確定漸進式特征融合塊(PFFB)的數(shù)量
為驗證EMAFFN中PFFB塊個數(shù)對網絡重建性能的影響,分別對包含7、8、9個PFFB塊的模型訓練1000個epochs,在Set5測試集上得到放大系數(shù)為2倍的PSNR和SSIM值,實驗結果如表1所示.可見,隨著PFFB塊的增加,重建效果均有所提升.其中,使用8個PFFB塊較7個的網絡PSNR值提升了0.14dB;使用9個PFFB塊比使用8個的網絡PSNR值提升0.04dB,重建效果不顯著,且因參數(shù)量過多導致時間復雜度增加,故最終確定選用8個PFFB塊作為本文網絡的特征提取模塊.
表1 特征提取模塊數(shù)量選取Table 1 Number of feature extraction modules selected
3.2.2 驗證注意力機制EMAB及多尺度感受野塊RFB_x的有效性
為充分驗證EMAFFN模型中所加注意力塊及多尺度感受野塊的有效性,分別對實驗1,2,3,4中的模型訓練1000個epochs,并使用測試數(shù)據(jù)集Set5進行放大系數(shù)為2的測試.如表2所示,實驗1中的模型是將EMAFFN網絡中EMAB塊和RFB_x塊使用3*3卷積替代,實驗2和實驗3分別是將EMAFFN網絡中的EMAB塊、RFB_x塊使用3*3卷積替代,實驗4為EMAFFN.較實驗1而言,實驗2在普通卷積構成的PFFB及RFB_x作用下PSNR和SSIM分別提升了0.13dB和0.0004,實驗3在由EMAB塊構成的PFFB作用下,PSNR和SSIM分別提升了0.34dB和0.0010.實驗1與實驗4相比,本文算法的PSNR提升了0.52dB,SSIM提升了0.0027;綜上,EMAFFN模型中的EMAB塊和RFB_x塊是有效的,均有助于提升網絡的重建性能,有較好的重建效果.
表2 注意力機制及多尺度感受野塊的有效性驗證Table 2 Validation of attention mechanism and multi-scale perceptual wild blocks
表3 不同算法在測試集上的PSNR和SSIM值Table 3 PSNR and SSIM values for different algorithms on the test set
實驗針對低分辨率圖像的2,3,4倍進行超分辨率重建,將EMAFFN在公開數(shù)據(jù)集上與傳統(tǒng)的Bicubic算法和以下幾個超分辨率重建網絡SRCNN[5],FSRCNN[6],ESPCN[7],VDSR[8],CARN[10],PAN[11],CFSRCNN[12]進行對比,并從定性和定量兩個方面對結果進行分析.
3.3.1 客觀定量分析
表3列出了EMAFFN與其它算法在4個基準數(shù)據(jù)集上放大2,3,4倍測試的PSNR和SSIM值,其中加粗的數(shù)字為當前表格中的最優(yōu)值,斜體數(shù)字表示次優(yōu)值.除了在部分數(shù)據(jù)集上PAN模型的PSNR和SSIM值略高于EMAFFN以外,與其它網絡比較EMAFFN均取得最優(yōu)值.其中,EMAFFN的PSNR平均值最高達到37.93dB,SSIM最優(yōu)達到0.9609.實驗表明,EMAFFN優(yōu)于當前主流的CNN超分辨率重建算法,重建效果優(yōu)勢較明顯.
3.3.2 主觀視覺效果
為了更加直觀地感受EMAFFN的重建效果,選用數(shù)據(jù)集B100和Urban100中的圖像,展示出不同算法在放大因子為×2、×3、×4時的重建視覺效果對比,將圖像中紋理細節(jié)豐富的區(qū)域用矩形框標記并放大,如圖5、圖6和圖7所示.能夠觀察到,3幅圖中的SRCNN和FSRCNN的重建圖像較模糊,視覺效果不佳;相對來說,VDSR和CARN的視覺效果很大程度上優(yōu)于SRCNN和FSRCNN,尤其在低放大系數(shù)下效果較好,如圖5所示.但在放大因子為3和4的時候同樣出現(xiàn)邊緣模糊,局部細節(jié)失真較為嚴重;PAN和CFSRCNN重建后的圖像視覺效果良好,但對比來說,EMAFFN在更大程度上恢復出圖像的邊緣輪廓和紋理細節(jié),比如圖6中3倍放大系數(shù)下EMAFFN重建出最為清晰的橋面紋理,圖7中4倍放大系數(shù)下,EMAFFN幾乎準確的恢復出條紋形狀,對比其他算法來說重建后的邊緣輪廓最為清晰.
圖5 放大因子×2時不同模型的視覺效果圖Fig.5 Visual effects of different algorithms with scale factor×2
圖6 放大因子×3時不同模型的視覺效果圖Fig.6 Visual effects of different algorithms with scale factor×3
圖7 放大因子×4時不同模型的視覺效果圖Fig.7 Visual effects of different algorithms with scale factor×4
因此,EMAFFN算法的重建效果的優(yōu)勢較為明顯,重建后的圖像恢復了較多的高頻信息,更接近于原始圖像.
本文提出的高效多注意力特征融合網絡能夠充分利用圖像特征、降低參數(shù)量,它的漸進式特征融合塊的連接方式能夠緩解特征在傳遞過程中丟失的問題,同時其內部的高效輕量化的注意力塊能從空間和通道維度加強網絡對重要特征的判別能力,幫助恢復重建后圖像的更多高頻信息.在重建模塊通過RFB_x進行多尺度特征融合能夠有效保留深層次特征,將LR圖像的雙三次上采樣結果與亞像素卷積層上采樣結果進行疊加有助于提高重建圖像的質量.實驗結果表明,EMAFFN在Set5數(shù)據(jù)集上的平均PSNR值最高達到37.93dB,SSIM達到了0.9609,重建后的圖像恢復了更多的高頻信息,紋理細節(jié)豐富,更接近于原始圖像.