梁 超, 黃洪全, 陳延明
(廣西大學(xué) 電氣工程學(xué)院,廣西 南寧 530004)
超分辨率圖像重建(super resolution image reconstruction,SRIR)的目的是將已有的低分辨率(low-resolution,LR)圖像轉(zhuǎn)換成高分辨率(high-resolution,HR )圖像,使其具有高頻紋理細(xì)節(jié)和邊緣結(jié)構(gòu)[1]。然而,許多HR圖像可以降采樣為相同的LR圖像,這就造成了一張LR圖像對(duì)應(yīng)多張HR圖像,形成了一個(gè)不適定問題[2]。為了解決這個(gè)問題,目前已經(jīng)提出了許多基于學(xué)習(xí)的方法來學(xué)習(xí)LR圖像和HR圖像之間的映射[3,4],例如SRCNN[5],VDSR[6],FSRCNN[7],ESPCN[8]等。
針對(duì)重建模型在網(wǎng)絡(luò)結(jié)構(gòu)的層數(shù)越來越深,計(jì)算量大,不能靈活處理高頻和低頻的信息的問題,本文提出了一種基于注意力和多尺寸卷積的圖像超分辨率算法。其中包含多尺寸殘差塊,對(duì)同一張?zhí)卣鲌D進(jìn)行多尺寸卷積融合處理;改進(jìn)的通道注意力模塊,達(dá)到充分利用信息的作用;壓縮模塊調(diào)整特征圖的通道數(shù),從而減少整體的計(jì)算量。
模型結(jié)構(gòu)如圖1,特征提取模塊提取淺層特征,若干個(gè)級(jí)聯(lián)的多尺寸殘差塊對(duì)特征進(jìn)行融合加強(qiáng),其中多次利用跳躍連接,把圖像細(xì)節(jié)由前面的卷積層直接傳遞到后面的卷積層,獲得更豐富的信息。流程如下:
圖1 模型流程示意
訓(xùn)練數(shù)據(jù)插值下采樣得到輸入數(shù)據(jù),然后通過特征提取模塊初步提取特征值,有
B0=f(x)
(1)
式中f()為特征提取的兩個(gè)卷積層,B0為提取的特征,也是之后的輸入。下一部分由若干多尺寸殘差塊疊加組成,即
Bk=Ek(Bk-1),k=1,…,n
(2)
式中Ek為第k個(gè)多尺寸殘差塊,Bk和Bk-1分別為第k個(gè)多尺寸殘差塊的輸出與輸入。最后一個(gè)多尺寸殘差塊輸出通過跳躍鏈接和前幾次的輸出進(jìn)行全局特征融合,即
Bn=concat(En(Bn-1),En-1(Bn-2),…,E2(B1))
(3)
采用亞像素卷積層作為上采樣層得到超分辨率圖片,即
y=SP(fcom(Bn)+B0)+SP(x)
(4)
式中SP(·)分別為亞像素卷積層,fcom(·)為壓縮模塊。
如圖2所示,描述的是多尺寸殘差塊結(jié)構(gòu)。表示為
圖2 多尺寸殘差塊結(jié)構(gòu)
(Bl+1,A)=fattfcomp(concat((Bl,A)1,(Bl,A)2,
(Bl,A)3))
(5)
式中fcomp(·)為壓縮模塊(帶有LReLU的1×1卷積層);fatt(·)為注意力模塊;(Bl,A)1,(Bl,A)2,(Bl,A)3為三種尺寸卷積處理輸出。(Bl+1,A)為最后輸出。注意一點(diǎn),壓縮后的輸出通道數(shù)應(yīng)與原特征圖的輸出通道數(shù)保持一致。
多尺寸殘差塊有四大特點(diǎn):
第一,去除BN(batch normalization)層。受到文獻(xiàn)[9]方法的啟發(fā),在提出的多尺寸殘差塊上去除批量歸一化層,利用激活函數(shù)LRelu。BN對(duì)超分辨率消極影響可以分兩點(diǎn):1)BN層在訓(xùn)練時(shí),即通過最小批次數(shù)據(jù)上的均值和方差對(duì)這批數(shù)據(jù)進(jìn)行歸一化,在測(cè)試時(shí),BN層將使用整個(gè)測(cè)試集數(shù)據(jù)的均值和方差。當(dāng)測(cè)試集的數(shù)據(jù)量與訓(xùn)練最小批次差距過大時(shí),BN層就會(huì)傾向產(chǎn)生不好的效果,而且會(huì)影響到整個(gè)模型的性能。2)在超分辨重建中圖像顏色的恢復(fù)是很重要的一部分,但是超分辨率網(wǎng)絡(luò)引入BN層將會(huì)對(duì)圖像上的顏色進(jìn)行歸一化處理,最終重建圖像的顏色將不會(huì)貼近原有顏色,從而降低重建圖像質(zhì)量。
第二,對(duì)同一特征圖進(jìn)行不同尺寸(3×3,5×5,7×7)的卷積處理,而且利用兩次3×3卷積和三次3×3卷積替代大尺寸的5×5卷積和7×7卷積。因?yàn)槎询B小尺寸卷積的參數(shù)量要小于單獨(dú)的大尺寸卷積,所以在保證感受野一樣的同時(shí),減少了模型參數(shù)計(jì)算量。例如用兩個(gè)堆疊的3×3卷積代替5×5卷積,在計(jì)算參數(shù)方面,5×5卷積的參數(shù)個(gè)數(shù)為26×(5×5+1)個(gè),兩個(gè)級(jí)聯(lián)的3×3卷積個(gè)數(shù)為20×(3×3+1+3×3+1)個(gè),可以明顯發(fā)現(xiàn)兩個(gè)級(jí)聯(lián)的3×3卷積的參數(shù)個(gè)數(shù)更少。
第三,針對(duì)在融合特征的時(shí)候,使得通道數(shù)過大的缺點(diǎn),設(shè)計(jì)一個(gè)壓縮模塊進(jìn)行降維(1×1卷積),減少計(jì)算量。
第四,通道注意力模型。采用像素均方差和GAP混合的方法來替換單純的全局平均池化,其結(jié)構(gòu)如圖3所示。設(shè)輸入為X=[x1,…,xc,…,xC],第c個(gè)特征圖的大小為H×W,具體如式(6)
圖3 通道注意力模型
Zc=HGC(xc)
(6)
受到殘差通道注意力網(wǎng)絡(luò)(residual channel attention network,RCAN)的啟發(fā),在全局平局池化和像素均方差后加入門控單元,實(shí)現(xiàn)自適應(yīng)地調(diào)整通道特征。門控單元的計(jì)算如下
s=f(W2δ(W1Zc))
(7)
式中f()為Sigmoid 函數(shù);δ()為RELU激活函數(shù);W1,W2為第一層和第二層卷積,對(duì)應(yīng)的都是全連接操作,只是兩層的維度各不相同,其中W1的維度是C/r,r為縮放因子,而W2的維度是C;最后經(jīng)過Sigmoid函數(shù)得到權(quán)重值,在與原輸入特征圖相乘,得到新的特征圖,有
xnew=s·xc
(8)
上采樣模塊采用的是ESPCN(efficient sub-pixel convolutional neural network)提到的亞像素卷積層,亞像素卷積層能夠有效地減少計(jì)算量,且提升一定的重建性能。如圖4所示,其結(jié)構(gòu)是2倍放大。亞像素卷積層的重建過程是將特征圖像中每個(gè)像素r2的通道重新排列成一個(gè)r×r的區(qū)域,對(duì)應(yīng)高分辨率圖像中一個(gè)r×r大小的子塊,從而大小為H×W×r2的特征圖像被重新排列成rH×rW×1的HR圖像。
圖4 2倍放大示意圖
利用DIV2K數(shù)據(jù)集充當(dāng)訓(xùn)練集和驗(yàn)證集。DIV2K數(shù)據(jù)集是一種高質(zhì)量的圖像數(shù)據(jù)集,包含800張訓(xùn)練圖像,100張驗(yàn)證圖像。為了充分利用訓(xùn)練數(shù)據(jù),對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行旋轉(zhuǎn)、縮放、翻轉(zhuǎn)來加強(qiáng)。在訓(xùn)練集中LR圖像與HR圖像是成對(duì)存在的,為了獲得DIV2K訓(xùn)練集中的對(duì)應(yīng)的LR圖像,利用MATLAB R2017a中使用縮放因子為(2倍和4倍)的雙三次插值對(duì)HR圖像進(jìn)行縮小。測(cè)試集選用的是Set5、Set14、BSD100和Urban100四個(gè)數(shù)據(jù)集。到此,數(shù)據(jù)集準(zhǔn)備完畢。
(9)
重建出的HR圖像需要轉(zhuǎn)換成YCbCr色彩模式,只在YCbCr 空間計(jì)算Y通道進(jìn)行對(duì)比,得到峰值信噪比(peak signal to noise ratio,PSNR)和結(jié)構(gòu)相似性(structural similarity,SSIM)。
激活函數(shù)應(yīng)用的是LReLU,利用Adam優(yōu)化,mini-batch大小為16,初始學(xué)習(xí)率是0.000 2,每迭代訓(xùn)練2 000次學(xué)習(xí)率降為原來的50 %,總共迭代20 000次。在遠(yuǎn)程服務(wù)器上用一塊2080TI GPU訓(xùn)練,其中采用深度學(xué)習(xí)框架TensorFlow1.13.1,Ubuntu18.04操作系統(tǒng)。
本文將提出的新模型與目前6種超分辨率模型進(jìn)行對(duì)比。首先是殘差模塊的選擇,在圖5中顯示擁有8重、12重、24重多尺寸殘差模塊的2倍重建訓(xùn)練驗(yàn)證集PSNR曲線,隨著多尺寸殘差模塊的增多,訓(xùn)練效果也在不斷的上升,最高可以達(dá)到35.83 dB,但是訓(xùn)練的時(shí)間也在增多。例如12重的模型訓(xùn)練好需要15 h,24重的模型訓(xùn)練需要2天左右,更多的重?cái)?shù)需要的訓(xùn)練時(shí)間更是成倍增加。根據(jù)表1所記錄下的不同重?cái)?shù)模型的參數(shù)量與實(shí)時(shí)重建速度,不只是訓(xùn)練時(shí)間的增加,計(jì)算量也是成倍增加,所以,在實(shí)際應(yīng)用中需要根據(jù)實(shí)際場(chǎng)景進(jìn)行對(duì)多尺寸殘差塊的選擇。隨后所有的測(cè)試都是基于24重多尺寸殘差模塊進(jìn)行測(cè)試。
圖5 不同重?cái)?shù)模型驗(yàn)證集的PSNR曲線
表1 不同重?cái)?shù)模型驗(yàn)證集的參數(shù)與實(shí)時(shí)速度
表2為4類測(cè)試集在不同方法下分別放大2倍和4倍的評(píng)估指標(biāo),其中加粗的表示效果最好,加下劃線的表示效果第二好。很明顯,在2倍尺度下和4倍尺度下本文提出的方法都表現(xiàn)出了較為明顯的優(yōu)勢(shì),較好的改善了圖像的重建質(zhì)量。
表2 測(cè)試集上與流行SR算法在2倍和4倍的指標(biāo)對(duì)比(PSNR:db)
將未改進(jìn)的注意模塊和改進(jìn)的注意力模塊放到同一個(gè)模型中進(jìn)行比較,記錄PSNR和SSIM變化,結(jié)果如表3所示,本文改進(jìn)的通道注意力有一定效果的提升。
表3 在Set5上2倍超分辨率重建的方法比較
圖6(a)為5種方法關(guān)于Set5測(cè)試集中女人(women)圖像的4倍重建效果,可以明顯發(fā)現(xiàn)其余四種方法的效果圖的眼部未能夠清晰重建,眼珠和眼白已經(jīng)混合到一起,但是本文的效果圖擁有較為完整的眼部。圖6(b)為各種模型在2倍重建的實(shí)驗(yàn)效果,可以清晰發(fā)現(xiàn)本文方法在數(shù)字細(xì)節(jié)和線條結(jié)構(gòu)方面,比其他的模型有明顯增強(qiáng)。
圖6 本文方法和其他算法在不同數(shù)據(jù)集和不同分辨率重建結(jié)果
本文提出了基于注意力和多尺寸卷積的單圖像超分辨率算法,主要利用新的通道注意力模塊和多尺寸殘差塊,先從網(wǎng)絡(luò)的寬度上進(jìn)行擴(kuò)展,使模型能快速、充分地利用每層信息,然后通過注意力通道靈活運(yùn)用特征圖上的高低、頻信息,最終達(dá)到能夠擁有優(yōu)秀的重建效果。實(shí)驗(yàn)結(jié)果表明:本文的方法比目前流行的方法擁有更不錯(cuò)的重建效果。接下來,將研究把訓(xùn)練圖片不僅僅只是采用插值下采樣,而是各種退化模型使訓(xùn)練圖片更加接近實(shí)際生活。