王旺 徐俊武
摘 要:圖像超分辨率是一種采用軟件算法提高圖像空間分辨率的技術(shù),由于傳統(tǒng)超分辨率方法超清程度有限,基于深度學(xué)習(xí)的圖像超分辨率方法成為研究者們近年來的研究重點(diǎn)?;谏蓪?duì)抗網(wǎng)絡(luò)(GAN)的圖像超分辨率方法,在其網(wǎng)絡(luò)模型結(jié)構(gòu)基礎(chǔ)上增加批處理歸一化(BN)層以提升網(wǎng)絡(luò)收斂速度、加強(qiáng)網(wǎng)絡(luò)訓(xùn)練穩(wěn)定性,更改上采樣層網(wǎng)絡(luò)并對(duì)損失函數(shù)作相應(yīng)修改。在網(wǎng)絡(luò)訓(xùn)練過程中,選擇當(dāng)前比較通用的Adam優(yōu)化器。實(shí)驗(yàn)結(jié)果表明,該方法具有很好的超分辨率圖像重建能力,且在訓(xùn)練過程中訓(xùn)練穩(wěn)定性得到提升,收斂速度也有所加快。
關(guān)鍵詞:超分辨率;生成對(duì)抗網(wǎng)絡(luò);深度學(xué)習(xí);圖像重建
DOI:10. 11907/rjdk. 182450
中圖分類號(hào):TP317.4
文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-7800(2019)006-0181-03
Abstract:Image super-resolution is a technology that uses software algorithms to improve the spatial resolution of images. The traditional super-resolution methods can not avoid the limitation of blur or super-resolution. Image super-resolution method based on deep learning has become the focus of researchers. Generative adversarial networks (GAN) are the hottest deep neural networks in recent years. This paper explores the method based on GAN. The super-resolution method which increases the use range of batch normalization and modifies the up-sampling method, also modifies and optimizes the loss function and its optimizer selection, optimizes the training instability of the image super-resolution method based on GAN and greatly enhances the stability. The optimized method is still very good. Excellent images and super resolution capability verified the features in an experimental way.
Key Words:super-resolution; generative adversarial network; deep learning; image reconstruction
0 引言
圖像超分辨率(Super Resolution,SR)是將低分辨率(Low Resolution,LR)圖像通過一定算法提升到高分辨率(High Resolution,HR)[1]的技術(shù)。圖像超分辨率技術(shù)可應(yīng)用于許多重要領(lǐng)域,例如:衛(wèi)星圖像要求為高分辨圖像,以便地面中心能更好地識(shí)別出相關(guān)信息;某些檢測(cè)識(shí)別控制裝置也需要分辨率較高的圖像,以保證分類精確度;在醫(yī)學(xué)領(lǐng)域,高分辨率圖像是重要的疾病判斷依據(jù)[2]。
圖像超分辨重建技術(shù)于20世紀(jì)60年代由Harris[3]首次提出,傳統(tǒng)圖像超分辨率方法有基于插值的方法、基于重建的方法與基于學(xué)習(xí)的方法[4]。其中基于插值的方法具有最簡(jiǎn)單的計(jì)算過程與最低計(jì)算復(fù)雜度,經(jīng)典方法包括最近鄰插值[5]、雙線性插值[6]和雙三次插值[7];基于重建的方法也稱為基于模型的方法,通常分為建模與重建兩個(gè)步驟,經(jīng)典方法包括迭代反投影法[8]、凸集投影法[9]與最大后驗(yàn)概率估計(jì)法[10-11];傳統(tǒng)基于學(xué)習(xí)的方法是基于淺層網(wǎng)絡(luò)的學(xué)習(xí)方法,主要包括基于流行學(xué)習(xí)[12]的方法與基于稀疏表示[13]的方法。
Dong[14]最早提出基于深度網(wǎng)絡(luò)學(xué)習(xí)的方法,基于卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率方法(SRCNN)首次使用深度學(xué)習(xí)解決圖像超分辨率問題,之后不斷有學(xué)者對(duì)其進(jìn)行優(yōu)化與改進(jìn)。本文主要研究基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的圖像超分辨率方法。
1 網(wǎng)絡(luò)模型設(shè)計(jì)
1.1 生成對(duì)抗網(wǎng)絡(luò)
生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)是Goodfellow等[15]在2014年提出的一種生成模型,其是在深度學(xué)習(xí)生成模型基礎(chǔ)上發(fā)展而來的。它在網(wǎng)絡(luò)結(jié)構(gòu)上除生成網(wǎng)絡(luò)外,還包含一個(gè)判別網(wǎng)絡(luò)。生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)之間是一種對(duì)抗關(guān)系[16]。
以圖像超分辨問題為例,在解決該問題過程中,生成網(wǎng)絡(luò)要將模糊的低分辨率圖像作為輸入,并輸出一個(gè)高分辨率的清晰圖像。判別網(wǎng)絡(luò)則要判斷輸入圖像是真實(shí)圖像還是生成網(wǎng)絡(luò)生成的圖像,生成網(wǎng)絡(luò)得到判別網(wǎng)絡(luò)的反饋之后繼續(xù)進(jìn)行圖像生成,直到判別網(wǎng)絡(luò)無法準(zhǔn)確區(qū)分真實(shí)圖像與生成圖像,即達(dá)到理想的納什均衡狀態(tài)。
1.2 網(wǎng)絡(luò)模型設(shè)計(jì)與優(yōu)化
在基于GAN的圖像超分辨率方法(SRGAN)中,網(wǎng)絡(luò)模型分為生成網(wǎng)絡(luò)模型和判別網(wǎng)絡(luò)模型。
1.2.1 生成網(wǎng)絡(luò)模型
原SRGAN方法的生成網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示,其中每種色塊表示一層網(wǎng)絡(luò),相同網(wǎng)絡(luò)使用相同顏色。在其網(wǎng)絡(luò)模型中,基本結(jié)構(gòu)是先輸入一張LR圖像,使用激活函數(shù)ReLU接入一層卷積層進(jìn)行特征提取;之后接入5個(gè)殘差網(wǎng)絡(luò)[18-19]模塊(Residual Networks Blocks)。在圖1中可以看出每個(gè)殘差網(wǎng)絡(luò)模塊的內(nèi)部結(jié)構(gòu),每個(gè)模塊使用兩個(gè)卷積層及兩個(gè)批量歸一化層[20]。殘差網(wǎng)絡(luò)最重要的結(jié)構(gòu)是跳躍連接(skip connection),通過該方式可以保持梯度,避免網(wǎng)絡(luò)退化問題;在殘差塊之后使用兩個(gè)上采樣層,通過亞像素卷積層[17]實(shí)現(xiàn)上采樣操作,每層放大2倍,總共實(shí)現(xiàn)放大4倍的效果;最后通過一層卷積將通道數(shù)降為RGB通道,輸出最終圖像。
由于GAN網(wǎng)絡(luò)本身存在的缺陷,在實(shí)現(xiàn)過程中很難達(dá)到最理想狀態(tài),也即納什均衡狀態(tài),具體表現(xiàn)為其在訓(xùn)練中十分不穩(wěn)定,計(jì)算損失時(shí)高時(shí)低,而且訓(xùn)練最終也不一定能達(dá)到最低點(diǎn),收斂不是很徹底,并且還可能出現(xiàn)模式崩潰(model collapse)問題,導(dǎo)致訓(xùn)練效果非常差,即使增加訓(xùn)練時(shí)間也無法改善,在SRGAN中也存在類似問題。本文主要優(yōu)化項(xiàng)包括:①使用轉(zhuǎn)置卷積[20]替換亞像素卷積進(jìn)行上采樣,亞像素卷積雖然被稱為卷積,實(shí)際上沒有卷積操作,而卷積在提取圖像特征方面發(fā)揮著重要作用,所以使用轉(zhuǎn)置卷積進(jìn)行上采樣會(huì)達(dá)到更好的效果;②由于BN層可起到很好的提升收斂速度、穩(wěn)定網(wǎng)絡(luò)訓(xùn)練效果的作用,本文在每一層卷積之后都使用BN層進(jìn)行歸一化處理;③將生成網(wǎng)絡(luò)輸出層的激活函數(shù)改為Tanh函數(shù)。
1.2.2 判別網(wǎng)絡(luò)模型
判別網(wǎng)絡(luò)相當(dāng)于一個(gè)特征提取模塊,激活函數(shù)選用leak ReLU函數(shù),可以防止梯度稀疏,總共執(zhí)行4次卷積運(yùn)算。除在輸入層之后不添加BN層外,在之后的三層卷積之后都添加BN層,最后卷積降維到1,接入sigmoid激活函數(shù),輸出對(duì)輸入圖像的判斷結(jié)果。其中l(wèi)eaky ReLU函數(shù)斜率設(shè)置為0.2。網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
1.2.3 損失函數(shù)設(shè)計(jì)與優(yōu)化
在傳統(tǒng)深度學(xué)習(xí)的圖像超分辨率方法中,使用的損失函數(shù)大多是MSE,但是使用該函數(shù)在圖像放大倍數(shù)為4倍時(shí),生成的圖像會(huì)顯得過于平滑而缺少一些細(xì)節(jié)上的真實(shí)感。在本文的優(yōu)化方法中,對(duì)生成網(wǎng)絡(luò)定義的損失函數(shù)采用GAN網(wǎng)絡(luò)的通用方法,其損失函數(shù)除生成過程本身造成的重建損失外,還有通過判別網(wǎng)絡(luò)反饋的對(duì)抗損失,從而有效提升了最終生成的圖像效果。
2 實(shí)驗(yàn)設(shè)計(jì)
本實(shí)驗(yàn)使用的硬件配置為:CPU i7 6700,16G內(nèi)存,GTX970m顯卡;軟件環(huán)境為:Tensorflow 1.4,python 3.6。實(shí)驗(yàn)采用訓(xùn)練集為DIV2K數(shù)據(jù)集,這是一種用于圖像復(fù)原任務(wù)的高質(zhì)量(2K分辨率)圖像數(shù)據(jù)集。
本實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)分為主觀評(píng)價(jià)與客觀評(píng)價(jià),其中主觀評(píng)價(jià)是從視覺效果上感受圖像細(xì)節(jié)清晰程度,客觀評(píng)價(jià)是通過計(jì)算原圖像與生成圖像的PSNR(Peak Signal-to-Noise Ratio)和SSIM(Structure Similarity Index)指標(biāo)進(jìn)行評(píng)價(jià)。其中PSNR是最常用的圖像質(zhì)量評(píng)估指標(biāo),SSIM主要用來衡量圖像結(jié)構(gòu)完整性。這兩個(gè)值越高,代表重建結(jié)果的像素值與標(biāo)準(zhǔn)越接近。
2.1 實(shí)驗(yàn)方法
在圖像集中選取一張測(cè)試圖像進(jìn)行1/4倍降采樣處理,將其作為輸入的低分辨率圖像,然后通過SRGAN方法生成高清圖像。同時(shí),本實(shí)驗(yàn)還將低清圖像采用雙三次插值法進(jìn)行重建,并與生成圖像的超分辨率效果進(jìn)行對(duì)比。
2.2 實(shí)驗(yàn)結(jié)果分析
圖3分別展示了通過插值法生成的高清圖像、通過SRGAN方法生成的高清圖像與原始高清圖像。從重建效果來看,插值法雖然在尺寸上與跟高清圖像一致,但其在視覺效果上非常模糊,圖像細(xì)節(jié)不清晰,邊緣也不夠銳利,而SRGAN方法生成的圖像則視覺效果較好。根據(jù)表1中的數(shù)據(jù),從客觀評(píng)價(jià)來看,SRGAN生成圖像的PSNR與SSIM值也比傳統(tǒng)插值法高。因此,實(shí)驗(yàn)從主觀與客觀兩方面都驗(yàn)證了SRGAN確實(shí)具有較好的超分辨率圖像重建能力,并且生成圖像的視覺效果優(yōu)于傳統(tǒng)方法。
3 結(jié)語
本文通過對(duì)生成對(duì)抗網(wǎng)絡(luò)進(jìn)行研究,對(duì)其生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)模型進(jìn)行深入探索,然后對(duì)基于GAN的圖像超分辨率方法進(jìn)行優(yōu)化,通過添加BN層提升網(wǎng)絡(luò)的訓(xùn)練穩(wěn)定性與收斂速度,修改上采樣層網(wǎng)絡(luò)以提升網(wǎng)絡(luò)超分辨率重建能力與生成圖像效果,并修改損失函數(shù)和優(yōu)化器,加強(qiáng)網(wǎng)絡(luò)訓(xùn)練與輸出。最后實(shí)驗(yàn)驗(yàn)證結(jié)果表明,優(yōu)化后的方法具有良好的超分辨率圖像重建能力,生成的圖像效果十分優(yōu)異。
參考文獻(xiàn):
[1] PARK S C,MIN K P,KANG M G. Super-resolution image reconstruction: a technical overview[J]. IEEE Signal Processing Magazine,2003,20(3):21-36.
[2] 韓小虎. 基于深度學(xué)習(xí)的圖像超分辨算法研究[D]. 開封:河南大學(xué), 2016.
[3] 黃冬冬. 基于深度學(xué)習(xí)的圖像超分辨率重建算法研究[D]. 馬鞍山:安徽工業(yè)大學(xué),2017.
[4] 于海平,林曉麗,周鳳麗,等.基于稀疏表示的單幅圖像超分辨率重建研究[J].軟件導(dǎo)刊,2017(11):225-229.
[5] SCHULTZ R R, STEVENSON R L. A Bayesian approach to image expansion for improved definition[J]. Image Processing IEEE Transactions on,1994,3(3):233-242.
[6] HOU H,ANDREWS H. Cubic splines for image interpolation and digital filtering[J]. IEEE Transactions on Acoustics Speech & Signal Processing, 1978, 26(6):508-517.
[7] LI X,ORCHARD M T. New edge-directed interpolation[J]. IEEE Trans Image Process,2001,10(10):1521-1527.
[8] IRANI M, PELEG S. Improving resolution by image registration[J]. Cvgip Graphical Models & Image Processing,1991,53(3):231-239.
[9] STARK H,OSKOUI P. High-resolution image recovery from image-plane arrays, using convex projections[J]. Journal of the Optical Society of America A Optics & Image Science,1989, 6(11):1715
[10] SCHULTZ R R, STEVENSON R L. Improved definition video frame enhancement[C].International Conference on Acoustics, Speech, and Signal Processing. IEEE, 1995:2169-2172.
[11] SCHULTZ R R, STEVENSON R L. Extraction of high-resolution frames from video sequences[J]. IEEE Transactions on Image Processing a Publication of the IEEE Signal Processing Society, 1996, 5(6):996-1011.
[12] ROWEIS S T, SAUL L K. Nonlinear dimensionality reduction by locally linear embedding[J]. Science, 2000, 290:2323-2326.
[13] YANG J, WRIGHT J, HUANG T, et al. Image super-resolution as sparse representation of raw image patches[C].Computer Vision and Pattern Recognition, CVPR 2008. IEEE Conference on. IEEE, 2008.
[14] DONG C, LOY C C, HE K, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016, 38(2):295-307.
[15] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C].International Conference on Neural Information Processing Systems. MIT Press, 2014:2672-2680.
[16] 唐賢倫, 杜一銘, 劉雨微,等. 基于條件深度卷積生成對(duì)抗網(wǎng)絡(luò)的圖像識(shí)別方法[J]. 自動(dòng)化學(xué)報(bào), 2018(5):?855-864.
[17] SHI W, CABALLERO J, HUSZáR F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[J]. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016:1874-1883.
[18] 麻旋,戴曙光. 基于殘差網(wǎng)絡(luò)的圖像超分辨率算法改進(jìn)研究[J].軟件導(dǎo)刊,2018(4):91-93.
[19] IOFFE S,SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[J]. ARXIV,2015:448-456.
[20] DUMOULIN V,VISIN F. A guide to convolution arithmetic for deep learning[DB/OL]. https://arxiv.org/pdf/1603.07285.pdf.
(責(zé)任編輯:黃 ?。?/p>