劉遵雄, 蔣中慧, 任行樂
(華東交通大學信息工程學院, 南昌 330013)
圖像的超分辨率重建(super-resolution on image reconstruction, SR)的主要任務是提高圖像的空間分辨率。重建過程需要利用已知的低分辨率圖像(low resolution image, LR)重建出具有更高像素密度的圖像(high resolution image, HR),并且重建的HR圖像中還需要包含豐富的細節(jié)紋理。目前圖像的SR技術分為兩類:單幅圖像的SR重建[1-2]和多幅圖像的SR重建。所謂單幅圖像的SR技術是指利用一幀探測器采集到的LR圖像信息通過某種算法實現(xiàn)生成相應HR圖像的過程。而多幅圖像的SR技術是通過采集到的多幀LR圖像根據(jù)它們之間的互補信息重建出HR圖像。
隨著神經(jīng)網(wǎng)絡以及計算機硬件的發(fā)展,基于深度學習的圖像SR算法成為新一輪的研究熱點。Krizhevsky等[3]提出了Alexnet網(wǎng)絡結構,該網(wǎng)絡在Imagenet圖像分類上表現(xiàn)出非常好的效果,隨后CNN結構被快速應用到圖像分類以及圖像分割等多個領域。Dong等[4]基于CNN的思想提出了SRCNN(super resolution convolutional neural nteworks)模型,該網(wǎng)絡包含三個卷積層,分別實現(xiàn)特征提取、非線性變換、HR圖像重建。Kim等[5]提出了一種基于循環(huán)神經(jīng)網(wǎng)絡的DRCN(deep recursive convolutional networks)的SR重建結構,該網(wǎng)絡一共包含16層循環(huán)卷積層,每個卷積層共享權重參數(shù),大大減少了網(wǎng)絡的模型參數(shù),重建效果也得到進一步提升。Goodfellow等[6]首次提出了生成對抗網(wǎng)絡結構(generative adversarial networks,GAN),GAN的成功使得對抗訓練思想迅速被應用到生成模型中。Ledig等[7]在GAN的基礎上提出了SRGAN(super-resolution generative adversarial networks)模型。該模型包含生成模型和判別模型兩個部分,通過對抗訓練來重建出目標HR圖像,這種方法生成的HR圖像紋理更加清晰自然。
受以上工作的啟發(fā),提出一種多尺度并聯(lián)學習的生成對抗網(wǎng)絡模型,主要工作如下。
(1)改進了生成模型結構,新的生成器由兩個殘差網(wǎng)絡塊組成,通過融合網(wǎng)絡將兩個子網(wǎng)絡生成的不同尺度空間的HR圖像進行加權求和,使得殘差信息融合,從而學到更細節(jié)的圖像信息。
(2)子網(wǎng)絡在重建過程中均采用多級關聯(lián)的方式,放棄原始模型中反卷積的上采樣方法,采用雙三次插值方法通過多級聯(lián)合來逐級放大圖像,這樣不僅可以一次生成多個不同放大比例的圖像,同時還減少了模型參數(shù),提升了運行效率。
(3)舍棄了傳統(tǒng)方法中使用的代價函數(shù)最小均方誤差(MSE),重新定義了新的模型感知損失函數(shù)。感知損失函數(shù)由內(nèi)容損失、風格損失(VGG網(wǎng)絡特征檢測)以及對抗損失三部分組成。
2014年,Goodfellow等[7]首次提出了GAN模型,它的核心思想靈感是來自于博弈論的納什均衡。不同于其他的生成模型,GAN模型[8-10]通過一個判別器來引導生成器的訓練,其中生成器G學習訓練集樣本的數(shù)據(jù)分布;輸入的隨機噪聲向量z,通過在生成器網(wǎng)絡中的學習生成與真實樣本類似的數(shù)據(jù)G(z)(相似度越高越好);判別器D是一個二分類模型,用以判斷輸入的數(shù)據(jù)屬于真實樣本還是生成樣本。當輸入樣本為真實數(shù)據(jù)x時,判別模型輸出的值接近于1,當輸入數(shù)據(jù)為生成樣本G(z)時判別模型輸出的值接近于0。通過對抗訓練交替優(yōu)化判別器D和生成器G的方式使他們不斷提高自身的泛化能力。
基于生成對抗網(wǎng)絡SR模型[11-13]的核心思想是通過對抗訓練,使得生成器生成的HR圖像盡可能地逼近原始圖像。具體結構如圖1所示。
圖1 基于GAN的超分辨率模型結構
生成器G的工作過程是將低分辨率圖像ILR輸入后經(jīng)過端到端的學習過程輸出重建的HR圖像,然后將生成的HR圖像輸入到判別模型D中作判斷分辨真?zhèn)?,目標函?shù)為
EILR~pG(ILR)(lg{1-DθD[GθG(ILR)]})
(1)
式(1)中:ILR是低分辨率圖像;GθG( )是生成高分辨率圖像生成模型,GθG(ILR)表示由低分辨率圖像經(jīng)過學習后生成的高分辨率圖像;IHR表示真實高分辨率圖像;DθD( )表示判斷生成圖像真?zhèn)涡缘呐袆e模型,DθD(IHR)表示輸入高分辨率圖像的判別輸出值,公式前半部分表示多個樣本輸入判別器的標準差,后半部分表示多個樣本輸入生成器的標準差,利用兩種圖像的m個樣本來更新判別器和生成器。具體的一次訓練過程如下所述:
Step 1在訓練樣本中采樣m個低分辨率圖像的樣本{Z1,Z2,…,Zm}。
Step 2在訓練樣本中采樣m個對應高分辨率圖像樣本{X1,X2,…,Xm}。
Step 3最大化判別器的梯度更新判別器。
(2)
Step 4最小化生成器的梯度來更新生成器:
(3)
模型結構的特征表達能力直接關系到生成的HR圖像的視覺質(zhì)量,一般來說構造的網(wǎng)絡結構越深,模型特征表達能力越強,進而生成的圖像質(zhì)量越高。因此采用殘差跳層連接的網(wǎng)絡結構來構造生成器,具體生成器的模型結構如圖2所示。
該模型包含了兩個并行的殘差網(wǎng)絡塊,通過這種結構來學習從底層到高層的特征,得到不同尺度空間的邊緣紋理信息。最后經(jīng)過融合網(wǎng)絡的作用將生成的不同尺度空間的HR圖像進行加權,使得殘差信息融合,從而學到更細節(jié)的圖像信息。兩個子網(wǎng)絡都是由8層卷積層構成,子網(wǎng)絡1中均使用3×3大小的卷積核來學習圖像特征,子網(wǎng)絡2中使用的是5×5大小的卷積核,使用多尺度學習模型能賦予生成模型更好的學習能力。
圖2 多尺度殘差網(wǎng)絡結構
本文模型在重建過程中采用多級關聯(lián)的方式來逐級放大圖像,多級聯(lián)合結構把圖像放大過程分為多個階段來逐步放大圖像的尺寸,放棄原有的反卷積放大圖像的模式,采用雙三次插值的模式放大圖像,通過這一方法可以生成不同放大比例的圖像,并且方法實現(xiàn)簡單同時不會增加模型參數(shù),在每一次上采樣的過程完成后進行一次卷積,減少圖像在上采樣過程中帶來的噪聲影響。這一過程可以放大為圖3所示。
圖3 多級關聯(lián)結構
判別模型的主要功能是與生成器形成對抗學習,不斷提升自己的能力,以提高識別出真假樣本的準確率。改進的判別模型結構具體如圖4所示。
圖4 判別模型的結構
判別模型總共包含11層網(wǎng)絡層,卷積層均使用3×3大小卷積核,這里k代表卷積核的大小,其中n表示卷積核的個數(shù),而s代表卷積過程的步長。每一層卷積輸出后都加入了批歸一化層(batch normalization,BN)。BN層不僅減少了前層參數(shù)的作用和后層參數(shù)的聯(lián)系,同時加快了模型收斂速度。激活函數(shù)采用Relu函數(shù),只有最后一層網(wǎng)絡結構的激活輸出采用了Sigmoid函數(shù)保證輸出值的大小在[0,1]區(qū)間內(nèi)。
現(xiàn)有的超分辨率算法在優(yōu)化目標上往往選擇最小化均方誤差(mean squared error,MSE)。MSE的公式表示為
(4)
(5)
在Gatys[14]提出的感知損失概念的思想基礎上,本文使用更接近感知相似性的內(nèi)容損失作為目標優(yōu)化的一部分。通過已訓練好的19層VGG網(wǎng)絡來捕捉生成圖像和原始圖像的深層細節(jié)特征信息差。然后將VGG19結構捕捉的感知內(nèi)容損失定義為重建后圖像GθG(ILR)的特征表示和真實圖像IHR之間的歐幾里得距離:
(6)
式(6)中:Wi,j和Hi,j描述VGG網(wǎng)絡中各個特征圖的尺寸大小。
為了獲得輸入圖像風格樣式的表示,這里同樣使用了預先訓練好的VGG19的網(wǎng)絡結構來捕捉圖像風格信息的特征空間。此特征空間可以構建在VGG模型中任何網(wǎng)絡層的卷積核響應之上,這些不同卷積核響應之間的相關性構成了特征空間集,這些特征相關性可以通過Gram矩陣來表示:
(7)
(8)
(9)
這里GθG(ILR)表示生成的HR圖像;DθD[GθG(ILR)]表示重建圖像的HR圖像通過在判別器后輸出的概率值,用-lgDθD(GθG[ILR)]代替原模型的lg{1-DθD[GθG(ILR)]}來獲得更好梯度更新。
本章節(jié)所有實驗都是在NVIDIA Tesla M40 GPU的服務器上訓練完成的,使用的數(shù)據(jù)集是ImageNet數(shù)據(jù)庫內(nèi)抽取的圖像樣本,操作系統(tǒng)為Ubuntu17.11版本,CPU型號為AMD銳龍5-2600x,6核12線程,主頻為3.6 GHz,運行內(nèi)存為32 GB,CUDA版本為7.8,實驗源程序均是在Tensorflow框架下基于python語言編寫,tensorflow版本為1.3。
實驗采用自然圖像和遙感衛(wèi)星圖像兩種數(shù)據(jù)圖像作為測試集。其中自然圖像包含Set5、Set14以及BSD100基準數(shù)據(jù)集,遙感衛(wèi)星圖像使用的是Spacenet數(shù)據(jù)集。為了驗證改進方法的有效性,將實驗結果與幾種具有代表性的SR算法結果進行比較,包含Bicubic、SRCNN、DRCN等。
訓練過程使用RMSProp(root mean square prop)的優(yōu)化方法來優(yōu)化多尺度學習模型。對于每個小批量樣本圖像,從不同的訓練圖像中隨機選取24個72×72的HR子圖像。在實際訓練中,使用已經(jīng)訓練好的殘差網(wǎng)絡結構作為生成器的初始化,以防止模型出現(xiàn)局部最優(yōu)的結果。由于卷積過程每次操作都將減小特征圖的大小,通過對卷積后的圖像零填充操作來保留邊緣像素信息,同時保證了跳層連接結構前后特征圖的大小相同,這樣便可以精準的計算出中心像素值。該模型是一個并行網(wǎng)絡結構,兩個子網(wǎng)絡的初始化學習率均為0.000 1,更新訓練每輪迭代80次后開始遞減學習率,權值衰減系數(shù)設置為0.85,動量項系數(shù)為0.9,這里使用l2范數(shù)正則化,正則化項系數(shù)設為0.001。尺度空間1的卷積核為3×3大小,步長為1,尺度空間2殘差學習結構的卷積核大小為5×5,步長同樣為1。
實驗采用多種模型,加入了各種對比參數(shù),使得仿真結果更具有對比性。在生成結果的判定上不再單純的只使用PSNR、SSIM評價指標;通過對三個公共基準數(shù)據(jù)集的圖像進行廣泛的平均意見得分測試(mean opinion score, MOS)來對重建后的圖像進行打分。
訓練過程中生成模型網(wǎng)絡損失如圖5所示,由于2個子網(wǎng)絡訓練使用不同尺度的卷積核,所以對應的網(wǎng)絡訓練時的損失在量級有差異,但收斂趨勢相同,證明了使用不同尺度的殘差網(wǎng)絡恢復殘差的合理性。放大因子為4倍目標情況下在Set14測試集合上的生成的高分辨率圖像與SRCNN、DRCN等深度學習模型的結果對比如圖6所示。根據(jù)以上的實驗結果對生成的HR圖像在各個數(shù)據(jù)集上做出客觀(PSNR、SSIM)和主觀的指標(MOS)分析,最終計算出所有測試集的評價指標平均值如表1~表3所示。
圖5 子網(wǎng)絡的訓練損失圖
圖6 放大因子為4倍時各類算法在Set14數(shù)據(jù)集上生成結果
表1 Set5測試集的評價指標平均值結果
表2 Set14測試集的評價指標平均值結果
表3 BSD100測試集的評價指標平均值結果
由上述實驗結果和指標分析可以看出改進模型生成的HR圖像的PSNR以及SSIM的指標略低于SRCNN、DRCN等算法,但是通過MOS指標的評價分析以及生成圖像的真實視覺觀感,改進的方法在細節(jié)紋理上要明顯優(yōu)于其他。造成這一結果的原因是以往的SR算法都是基于MSE優(yōu)化網(wǎng)絡模型的,優(yōu)化MSE的結果就是最大化PSNR指標但是卻在重建過程中忽略了圖像的高頻信息,使得生成結果的質(zhì)量有細節(jié)瑕疵。同時也驗證了PSNR和SSIM這些客觀評價指標并不能完全與圖像的視覺品質(zhì)相匹配。
同樣放大因子為4倍目標情況下在Spacenet測試集合上的實驗結果如圖7所示。根據(jù)實驗結果對生成的HR圖像在Spacenet數(shù)據(jù)集上的定量分析如表4所示。
圖7 衛(wèi)星圖像超分辨率結果對比
表4 Spacenet測試集的評價指標平均結果
在SpaceNet 數(shù)據(jù)集上的實驗結果表明:改進模型重建后圖像比其他算法的結果包含更多的細節(jié)信息。從圖7中可以看出,目標建筑圖像通過改進的模型放大重建后房屋的邊緣架構更清晰;并且可以看到屋頂?shù)妮喞y理也更細致;同時還明確的重建出了街道上的細紋。在生成結果的客觀評價指標上也有所提高,并且從平均意見得分(MOS)來看改進的模型有效地增強了重建圖像中的高頻信息。
針對現(xiàn)有重建算法存在的參數(shù)數(shù)量大、紋理邊緣不清晰的問題,提出了基于生成對抗網(wǎng)絡的多尺度并聯(lián)學習的超分辨率重建算法。設計一種新型的多尺度低頻信息共享網(wǎng)絡,將學習的邊緣先驗知識與重建好的高分辨率圖像進行融合以彌補邊緣偏差,最后根據(jù)隨機梯度下降法,利用反向過程計算梯度,不斷更新權重參數(shù)使網(wǎng)絡達到最優(yōu)化。并在通用測試集上,與現(xiàn)有的幾種經(jīng)典算法進行了多組對比實驗。結果表明,本文算法重建的圖像視覺效果較好,能夠消除邊緣重影和鋸齒現(xiàn)象,增強銳度和對比度,在不同放大倍數(shù)下,采用參數(shù)共享策略可以大幅縮減網(wǎng)絡的參數(shù)數(shù)量和計算復雜度。