魏一銘, 徐 巖, 王匯豐, 韋春苗
(蘭州交通大學(xué)電子與信息工程學(xué)院,蘭州 730000)
圖像的超分辨率重建是指將所獲取的低分辨率(LR)圖像通過算法重建出對(duì)應(yīng)的高分辨率(HR)圖像的過程[1]。一般而言,HR圖像相較于LR圖像,其圖像本身細(xì)節(jié)部分更清晰且所包含的高頻細(xì)節(jié)信息更加完善。然而,即使是使用高質(zhì)量的硬件設(shè)備采集所需圖像,也會(huì)因?yàn)橥饨绛h(huán)境、網(wǎng)絡(luò)傳輸介質(zhì)等問題導(dǎo)致采集圖像在輸出端的分辨率降低。隨著圖像在公共安全、醫(yī)療圖像處理、遙感成像等多個(gè)領(lǐng)域所需質(zhì)量的進(jìn)一步提升,圖像超分辨率重建技術(shù)得到了目前圖像處理領(lǐng)域研究者廣泛的關(guān)注[2]。
圖像超分辨率重建在20世紀(jì)由HARRIS等提出,目前,圖像超分辨率重建的方法主要有傳統(tǒng)方法和深度學(xué)習(xí)的方法,傳統(tǒng)方法包括插值法、重構(gòu)法和機(jī)器學(xué)習(xí)法[3]。BLU等[4]提出的雙線性插值法是較早提出來的圖像超分辨率重建的方法,主要通過對(duì)已知區(qū)域圖像信息進(jìn)行雙線性函數(shù)計(jì)算,得到相鄰近圖像區(qū)域的信息。雖然該方法效率高、復(fù)雜度低,但是其重建結(jié)果對(duì)圖像細(xì)節(jié)復(fù)原效果較差,邊緣區(qū)域有著明顯的模糊。IRANI等[5]提出迭代反向投影法,主要是將重建圖像與真實(shí)圖像的誤差進(jìn)行反向投影并逐步迭代改善重構(gòu)圖像。重構(gòu)類的方法由于在其計(jì)算圖像退化模型中所需較大的計(jì)算量,容易導(dǎo)致出現(xiàn)重構(gòu)圖像時(shí)間過長(zhǎng)的問題。基于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,例如基于稀疏表示[6]、近鄰嵌入[7]等取得了一定的效果,但是容易導(dǎo)致圖像邊緣鋸齒,效果仍不能讓人滿意。
隨著深度學(xué)習(xí)的快速發(fā)展,CHEN等[8]首次將深度學(xué)習(xí)用于圖像超分辨率重建,提出了一種卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率重建方法(SRCNN),該模型網(wǎng)絡(luò)簡(jiǎn)單,性能優(yōu)于傳統(tǒng)算法,但是淺層網(wǎng)絡(luò)模型對(duì)圖像的信息提取能力不強(qiáng),網(wǎng)絡(luò)模型還值得優(yōu)化。KIM等[9]在SRCNN方法的基礎(chǔ)上引入殘差思想,提出了深層超分辨率網(wǎng)絡(luò)模型(VDSR),深層次的網(wǎng)絡(luò)模型加大了卷積神經(jīng)網(wǎng)絡(luò)的感受野,增強(qiáng)了對(duì)圖像信息的學(xué)習(xí)能力,不足之處在于深層網(wǎng)絡(luò)的梯度消失問題仍然存在。SNU CV Lab 團(tuán)隊(duì)[10]為了加快運(yùn)行速度,在深層殘差網(wǎng)絡(luò)基礎(chǔ)上進(jìn)行了改變,取消了批歸一化層,提出了增強(qiáng)的深度圖像超分辨率網(wǎng)絡(luò)模型(EDSR),該模型雖然縮短了網(wǎng)絡(luò)運(yùn)行時(shí)間,但是在圖像重構(gòu)的精度上提升不大。TONG等[11]提出的密集連接網(wǎng)絡(luò)(SR DenseNet)將密集塊結(jié)構(gòu)應(yīng)用于超分辨率問題,由多個(gè)密集塊密集連接逐級(jí)學(xué)習(xí)圖像特征,密集塊相較于一般網(wǎng)絡(luò)模型具有更好性能的同時(shí),也存在影響其網(wǎng)絡(luò)運(yùn)行速度的問題。
針對(duì)以上問題,本文提出了基于多尺度與殘差網(wǎng)絡(luò)的圖像超分辨重建算法。該算法使用多尺度卷積神經(jīng)網(wǎng)絡(luò)充分捕捉圖像信息,利用密集連接網(wǎng)絡(luò)在保持原有卷積數(shù)目不變的情況下提高網(wǎng)絡(luò)模型對(duì)圖像特征信息的提取能力。為了解決深層網(wǎng)絡(luò)的信息丟失問題,在網(wǎng)絡(luò)模型中加入了多重殘差網(wǎng)絡(luò)對(duì)丟失信息進(jìn)行進(jìn)一步補(bǔ)充,增強(qiáng)對(duì)圖像細(xì)節(jié)信息的學(xué)習(xí)能力,得到了良好的效果。
本文算法主要由多尺度密集連接網(wǎng)絡(luò)、多尺度輔助殘差網(wǎng)絡(luò)、自適應(yīng)殘差網(wǎng)絡(luò)等幾個(gè)部分組成,具體網(wǎng)絡(luò)如圖1所示。本文網(wǎng)絡(luò)模型在雙三插值提取低分辨率圖像特征的前提下,使用不同大小的卷積核密集連接對(duì)圖像信息進(jìn)行多尺度、多層次的學(xué)習(xí);對(duì)于深層網(wǎng)絡(luò)模型導(dǎo)致的圖像信息丟失和梯度消失的問題,加入了多尺度輔助殘差網(wǎng)絡(luò)進(jìn)行信息補(bǔ)償,引入自適應(yīng)殘差網(wǎng)絡(luò)等形成多殘差網(wǎng)絡(luò)模型提高整體模型的收斂速度,改善重構(gòu)結(jié)果。在網(wǎng)絡(luò)模型末端使用自適應(yīng)顏色復(fù)原模塊補(bǔ)償深層網(wǎng)絡(luò)導(dǎo)致的顏色失真,保留圖像原有顏色信息特征。
圖1 多尺度與殘差網(wǎng)絡(luò)超分辨率重建網(wǎng)絡(luò)模型Fig.1 Super-Resolution reconstruction network model of multi-scale and residual network
當(dāng)前多尺度網(wǎng)絡(luò)模型大多只使用了不同的卷積核,對(duì)于其網(wǎng)絡(luò)連接方式并沒有過多的改變。本文的多尺度信息提取網(wǎng)絡(luò)在使用多尺度卷積核的前提下,在多尺度卷積核中建立了密集連接。其目的是通過不同大小卷積核提取特征的同時(shí),融合不同層次提取的圖像信息,獲取更加豐富的圖像特征,具體網(wǎng)絡(luò)模型如圖2所示。
圖2 多尺度密集連接模塊結(jié)構(gòu)Fig.2 Structure of multi-scale dense connection module
輸入的初始特征圖由兩部分3×3,5×5,3×3卷積核密集連接提取特征,第一部分3層卷積層除初始輸入通道為3,其他卷積層的輸出通道均設(shè)為32通道;第二部分第一層3×3卷積的輸入通道分別由初始輸入通道、第一部分第一層卷積層和第一部分第二層卷積層的輸出通道融合而成,共99通道;第二部分第一層輸入99通道特征圖經(jīng)3×3卷積核進(jìn)一步提取后整理輸出為64通道。第二部分第二層5×5卷積層與第三層3×3卷積層的輸入和輸出通道均不變。由于密集連接的特性,兩部分的密集連接后輸出特征通道將擴(kuò)展到較高數(shù)目的291通道。為了降低網(wǎng)絡(luò)復(fù)雜度,高性能地提取輸入圖像特征信息。本文在多尺度密集連接網(wǎng)絡(luò)最后設(shè)置了由3個(gè)大小分別為7×7,5×5,1×1的卷積核構(gòu)成的第三部分,特征整合網(wǎng)絡(luò)。該網(wǎng)絡(luò)整合前面多層卷積所提取的圖像特征;逐次將輸出特征通道降為128通道、64通道和3通道。具體公式為
F1,i=f(W1,i*F1,i-1+B1,i)i=1,2,3
(1)
F1,0=ILR
(2)
F2,i=f(W2,i*F2,i-1+B2,i)i=1,2,3
(3)
F2,0=FC(F1,0F1,1F1,2F1,3)
(4)
F3,i=f(W3,i*F3,i-1+B3,i)i=1,2,3
(5)
F3,0=FC(F1,0,F1,1,F1,2,F2,1,F2,2,F2,3)
(6)
式中:F1,i表示多尺度密集連接網(wǎng)絡(luò)第一部分的第i層卷積提取的特征;W1,i和B1,i表示第一部分第i層卷積層的權(quán)重和偏置;本文中全網(wǎng)絡(luò)模型的卷積層均未采用偏置,所以B恒為0;*表示卷積操作;F1,0表示多尺度密集連接網(wǎng)絡(luò)第一部分的輸入特征;ILR表示低分辨率圖像特征;F2,i表示多尺度密集連接網(wǎng)絡(luò)第二部分的第i層提取的特征;W2,i和B2,i表示第二部分第i層卷積層的權(quán)重和偏置;F2,0表示多尺度密集連接網(wǎng)絡(luò)第二部分的輸入特征;FC為特征融合操作;F3,i表示多尺度密集連接網(wǎng)絡(luò)第三部分的第i層提取的特征;W3,i和B3,i表示第三部分第i層卷積層的權(quán)重和偏置;F3,0表示多尺度密集連接網(wǎng)絡(luò)第三部分的輸入特征;f為激活函數(shù)。本文激活函數(shù)采用ReLU函數(shù),即
ReLU(x)=max(0,x)
(7)
初始特征圖在經(jīng)歷多尺度多層次卷積核卷積后會(huì)產(chǎn)生輸入特征圖和輸出特征圖尺度大小變化的問題。為了保證其尺度大小一致性,本文針對(duì)多尺度卷積核設(shè)置了相對(duì)應(yīng)的填充處理,具體公式為
O=(M-K+2P)/S+1
(8)
式中:O和M分別表示該卷積核輸出和輸入特征圖尺寸的大小;K表示該卷積核的尺寸;S為卷積操作的步長(zhǎng)(在本文中均設(shè)為1)。
本文殘差網(wǎng)絡(luò)將多尺度輔助殘差網(wǎng)絡(luò)、自適應(yīng)顏色復(fù)原網(wǎng)絡(luò)、自適應(yīng)殘差網(wǎng)絡(luò)三者分別嵌入本文網(wǎng)絡(luò)模型的前端、中端以及后端,構(gòu)成多重輔助殘差網(wǎng)絡(luò)。
與普通殘差網(wǎng)絡(luò)相比,本文的多尺度輔助殘差網(wǎng)絡(luò)以及自適應(yīng)殘差網(wǎng)絡(luò)均加入了數(shù)量不一、大小多樣化的卷積核。多尺度輔助殘差網(wǎng)絡(luò)采用了3個(gè)大小為1×1,3×3,5×5的卷積核組合而成,而自適應(yīng)殘差網(wǎng)絡(luò)則使用了1×1和3×3的卷積核。初始輸入圖像,在經(jīng)過卷積大小不一的殘差網(wǎng)絡(luò)后,圖像特征信息會(huì)進(jìn)一步被提取和精煉。在補(bǔ)充整體網(wǎng)絡(luò)模型信息時(shí),由于二者卷積核數(shù)量及大小不同,各自網(wǎng)絡(luò)的感受野不一,所用于補(bǔ)充整體網(wǎng)絡(luò)的圖像特征信息將更加全面。為了保證圖像顏色信息的真實(shí)性,自適應(yīng)顏色復(fù)原網(wǎng)絡(luò)直接將初始輸入特征圖的顏色特征信息輸入到整體網(wǎng)絡(luò)模型中。每個(gè)殘差網(wǎng)絡(luò)后均加入一層卷積層,將所補(bǔ)充的圖像特征信息與之前網(wǎng)絡(luò)提取信息做進(jìn)一步的提取融合。
在緩解深層網(wǎng)絡(luò)模型梯度問題上,本文多重輔助殘差網(wǎng)絡(luò)利用了多重殘差和在整體網(wǎng)絡(luò)模型不同位置構(gòu)建的優(yōu)勢(shì)將梯度收斂到一定范圍之內(nèi),有效避免了深層網(wǎng)絡(luò)中的梯度消失問題,且加快反向傳播權(quán)重更新的收斂速度。
本文的圖像重建模塊相對(duì)來說沒有那么復(fù)雜,在輸入特征后經(jīng)一層卷積層卷積得出最終的輸出圖像。由于輸入圖像特征信息在之前的模塊里已經(jīng)得到了整合,所以輸入到卷積層的圖像通道為3。本文將重建模塊的卷積大小設(shè)為3,在卷積層后面設(shè)置ReLU激活函數(shù),以非線性映射的形式輸出最終重構(gòu)圖像。
為了增強(qiáng)重構(gòu)圖像的語義特征,本文訓(xùn)練過程的損失函數(shù)由L2損失函數(shù)和感知損失函數(shù)聯(lián)合組成。本文采用VGG19作為感知損失預(yù)訓(xùn)練網(wǎng)絡(luò),由VGG19輸出的圖像特征圖作為感知損失的輸入。L2損失函數(shù)和感知損失的算式分別為
(9)
(10)
L=L2+λLP
(11)
式中,λ為感知損失權(quán)值,本文設(shè)置為0.1。
本文的硬件實(shí)驗(yàn)環(huán)境為CPU Intel(R) Core(TM) i7-10750H,GPU采用了NVIDIA GeForce RTX 2060S。軟件實(shí)驗(yàn)環(huán)境是Windows10操作系統(tǒng)、Python3.7,PyTorch 1.3.1框架。
實(shí)驗(yàn)采用蘊(yùn)含了30個(gè)遙感類別影像,共10 000張圖像的AID Dataset作為訓(xùn)練集[12];為了實(shí)現(xiàn)對(duì)數(shù)據(jù)集的增強(qiáng),又對(duì)訓(xùn)練集圖片進(jìn)行了隨機(jī)角度和不同水平的翻轉(zhuǎn)。選用AID Dataset中含有360張圖像的airport場(chǎng)景作為實(shí)驗(yàn)的測(cè)試集。
為了使損失函數(shù)達(dá)到最小,更好地更新參數(shù),實(shí)驗(yàn)選用了Adam優(yōu)化器,參數(shù)設(shè)置為β1=0.9,β2=0.999,ε=10-8,初始學(xué)習(xí)效率ε為10-4,每20個(gè)訓(xùn)練周期后學(xué)習(xí)效率變?yōu)橹暗?/2,總學(xué)習(xí)周期為80個(gè)周期。
本文將目前流行的幾種算法與本文算法分別對(duì)不同圖像處理后進(jìn)行整體和局部細(xì)節(jié)的主觀效果對(duì)比,主觀效果如圖3~5所示。
圖3 不同算法重建圖像主觀效果整體對(duì)比Fig.3 Overall comparison of subjective effects of images reconstructed by different algorithms
圖4 不同算法對(duì)airport_208 (AID Dataset)重建圖像主觀效果局部細(xì)節(jié)對(duì)比Fig.4 Comparison of local details of subjective effect of airport_208 (AID Dataset)image reconstructed by different algorithms
圖5 不同算法對(duì)airport_234 (AID Dataset)重建圖像主觀效果局部細(xì)節(jié)對(duì)比Fig.5 Comparison of local details of subjective effect of airport_234 (AID Dataset) image reconstructed by different algorithms
從圖3中可以看出,在幾種算法中,BICUBIC算法重建的圖像較為模糊,重建圖像整體偏暗,且存在一部分的顏色失真情況,重建圖像所含信息與HR圖像相比有限。SRCNN和VDSR算法重建出的圖像無論是圖像整體框架還是顏色復(fù)原效果都比BICUBIC算法要好,在重建圖像中可以看到airport場(chǎng)景的絕大部分情景,但是還是出現(xiàn)了重建的圖像中紋理密集處的細(xì)節(jié)紋理不足和重建圖像中含有少數(shù)的噪聲點(diǎn)的問題。SRGAN算法和本文算法重建圖像主觀視覺銳度較好,圖像整體輪廓清晰明顯,在這幾種算法輸出圖像中是最為接近原始HR圖像的算法。
然而在圖4和圖5中可以發(fā)現(xiàn),SRGAN算法重建圖像與本文算法重建圖像相比在顏色對(duì)比度上還是稍遜一籌,且通過放大airport場(chǎng)景的局部細(xì)節(jié)可以看出,本文算法重構(gòu)圖像所含高頻紋理細(xì)節(jié)更加豐富,在保留高頻細(xì)節(jié)信息的同時(shí)得到了較為完善的邊緣結(jié)構(gòu)信息。整體來看,本文算法與目前主流算法相比重建圖像整體輪廓更加清晰,圖像邊緣更加銳化,在圖像紋理細(xì)節(jié)重建中展現(xiàn)了其獨(dú)特的優(yōu)越性。
為了進(jìn)一步說明本文算法的有效性和可行性,采用定量指標(biāo)的方式進(jìn)行客觀評(píng)價(jià),指標(biāo)選擇全參考圖像評(píng)價(jià)指標(biāo):峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)[13]。上述兩個(gè)指標(biāo)數(shù)值越高,說明算法越有效,各指標(biāo)表達(dá)式為
(12)
(13)
(14)
將本文算法和對(duì)比算法在airport測(cè)試集上進(jìn)行測(cè)試。隨機(jī)選取10張測(cè)試集圖像對(duì)其進(jìn)行客觀評(píng)價(jià),所得PSNR和SSIM值分別如表1和表2所示,粗體表示最大值。從表中可以看出,本文算法雖然在少部分圖像中數(shù)值提升不高,但是綜合來看其客觀評(píng)價(jià)指標(biāo)要優(yōu)于對(duì)比算法。
表1 不同算法在測(cè)試集上重建圖像的PSNR值Table 1 PSNR values of the image reconstructed by different algorithms on test set dB
表2 不同算法在測(cè)試集上重建圖像的SSIM值Table 2 SSIM values of the image reconstructed by different algorithms on test set
為了證明本文殘差網(wǎng)絡(luò)在本文算法中的有效性和必要性,進(jìn)行了消融實(shí)驗(yàn)。將殘差網(wǎng)絡(luò)去除后在airport_330,airport_347和airport_357中進(jìn)行了主觀效果和客觀評(píng)價(jià)的對(duì)比。主觀效果如圖6所示,可以看出,消融模型Ablation所輸出的效果圖片整體較為模糊,在細(xì)節(jié)紋理處出現(xiàn)了明顯的幻影,顏色對(duì)比度與本文算法相比存在著可見的不足。
圖6 消融實(shí)驗(yàn)主觀對(duì)比Fig.6 Subjective comparison of ablation experiment
表3所示為消融實(shí)驗(yàn)客觀評(píng)價(jià)指標(biāo)。從表3的客觀評(píng)價(jià)中也可以看出,Ablation在去除殘差網(wǎng)絡(luò)后無論是PSNR值還是SSIM值都出現(xiàn)了大幅度的降低,因此,殘差網(wǎng)絡(luò)在本文中具備高度的有效性和必要性。
表3 消融實(shí)驗(yàn)客觀評(píng)價(jià)指標(biāo)Table 3 Objective evaluation indexes of ablation experiment
現(xiàn)有圖像超分辨重建算法一般通過疊加卷積核加深網(wǎng)絡(luò)層來提高算法圖像信息提取能力,但是深層網(wǎng)絡(luò)在提取信息的同時(shí)也伴隨著圖像信息的丟失。針對(duì)此問題,本文提出了一種基于多尺度與殘差網(wǎng)絡(luò)的圖像超分辨重建算法。利用多尺度卷積核構(gòu)建密集連接,在提高網(wǎng)絡(luò)模型提取圖像信息能力的同時(shí)保證了網(wǎng)絡(luò)模型的精簡(jiǎn)。構(gòu)建多重殘差網(wǎng)絡(luò),對(duì)丟失圖像信息進(jìn)行了補(bǔ)充且有效提升反向傳播中的權(quán)重更新收斂速率。實(shí)驗(yàn)表明,本文算法相較于其他算法在主、客觀效果中均有所提升,在圖像細(xì)節(jié)重建方面展現(xiàn)了較好的性能。未來將考慮在網(wǎng)絡(luò)模型中加入注意力機(jī)制,進(jìn)一步減少網(wǎng)絡(luò)模型參數(shù),優(yōu)化網(wǎng)絡(luò)信息傳遞效率。