馬 樂(lè),陳 峰,李 敏
(火箭軍工程大學(xué),陜西 西安 710025)
紅外圖像由于不受光照條件和云層遮擋的影響,拍攝距離遠(yuǎn),溫度靈敏度高,在導(dǎo)航、監(jiān)控、遙感、目標(biāo)識(shí)別等領(lǐng)域具有極大的應(yīng)用需求。但在實(shí)際處理中,拍攝器材往往價(jià)格過(guò)高,容易受到成本和性能等因素的限制,難以獲取高分辨率的紅外圖像,提高紅外圖像分辨率面臨迫切的應(yīng)用需求。
隨著生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[1]的提出,深度學(xué)習(xí)在紅外圖像超分辨率重建上得到了較好的發(fā)展,研究者一般將低分辨率紅外圖像輸入至多層的卷積神經(jīng)網(wǎng)絡(luò)中,通過(guò)特定目標(biāo)函數(shù)實(shí)現(xiàn)超分辨率重建。GAN也存在生成方式過(guò)于自由的缺點(diǎn),同時(shí)容易產(chǎn)生訓(xùn)練崩潰。為此研究者提出將感知損失函數(shù)(perceptual loss)[2],L1損失函數(shù)[3]等作為額外懲罰項(xiàng)使用,同時(shí)提出了DRCN[4],SRGAN[5]等[6-8]網(wǎng)絡(luò)結(jié)構(gòu),提升重建性能。多數(shù)重建網(wǎng)絡(luò)生成的圖像更追求可視效果,生成的目標(biāo)細(xì)節(jié)與原圖像有可能不一致,這在一些嚴(yán)謹(jǐn)應(yīng)用方面如遙感,飛行器導(dǎo)航和嫌疑犯面部還原方面存在一定的風(fēng)險(xiǎn)。
由于紅外圖像的超分辨率重建是一個(gè)輸入與輸出的場(chǎng)景一致,背景與目標(biāo)的特征沒(méi)有明顯變化,是一個(gè)從固定的圖像類型向另一個(gè)特定圖像類型的圖像翻譯任務(wù),因此本文以pix2pix[9]網(wǎng)絡(luò)結(jié)構(gòu)為框架,加入圖像間的歐式距離作為額外約束條件,同時(shí)將傳統(tǒng)GAN使用的KL散度替換為Wasserstein[10]距離,優(yōu)化網(wǎng)絡(luò)模型結(jié)構(gòu)與算法流程,提出改進(jìn)紅外圖像重建算法IISR(Improved Infrared Image Super-resolution)。實(shí)驗(yàn)在LTIR數(shù)據(jù)集的garden部分進(jìn)行,結(jié)果表明,本文算法提升了紅外圖像的超分辨率重建倍數(shù),保證了圖像高頻細(xì)節(jié)的修復(fù),確保目標(biāo)細(xì)節(jié)的有效性,同時(shí)提升了視覺(jué)效果。
本文算法IISR在cGAN的基礎(chǔ)上進(jìn)行構(gòu)建,網(wǎng)絡(luò)結(jié)構(gòu)包含兩個(gè)模型,生成模型G和鑒別模型D。最終目標(biāo)是獲得可靠的生成模型G,由輸入的低分辨率紅外圖像ILR生成超分辨率紅外圖像ISR。并利用圖像間的歐式距離(L2損失函數(shù))來(lái)對(duì)圖像進(jìn)行全局一致性檢驗(yàn),引導(dǎo)網(wǎng)絡(luò)增強(qiáng)生成模型的生成能力,如公式(1)所示。選擇L2的具體分析見(jiàn)2.4節(jié)。添加額外懲罰項(xiàng)后的目標(biāo)函數(shù)如公式(2)所示:
L2(G)=Ex,y,z[||Y-G(X,Z)||2]
(1)
minGmaxDLc(D,G)=LcGAN(D,G)+αL2(G)
(2)
但公式(2)仍存在GAN本身訓(xùn)練不穩(wěn)定的問(wèn)題,即鑒別模型的訓(xùn)練效果越好,生成模型的梯度消失問(wèn)題越嚴(yán)重。Martin Arjovsky[10-11]等人理論證明了,接近最優(yōu)的鑒別模型采用KL散度時(shí),對(duì)于重疊很小的真實(shí)數(shù)據(jù)分布和生成數(shù)據(jù)分布,計(jì)算的KL散度接近一個(gè)定值,這對(duì)于梯度下降的優(yōu)化方法相當(dāng)于獲取到的梯度為0,生成模型無(wú)法優(yōu)化。Wasserstein距離在分布沒(méi)有重疊時(shí),也能夠正確反映它們的遠(yuǎn)近。在本文中W距離計(jì)算方法如公式(3)所示,當(dāng)L越大,表示生成數(shù)據(jù)分布與真實(shí)數(shù)據(jù)分布距離越大。
L=Ex,y[D(x,y)]-Ex,z[D(G(x,z))]
(3)
鑒別模型通過(guò)輸入計(jì)算距離L,此時(shí),生成模型的損失函數(shù)如式(4)的LG所示,鑒別模型的損失函數(shù)如式(5)的LD所示,將LD取L的負(fù)數(shù)可以和LG同時(shí)進(jìn)行最小化優(yōu)化。Li表示Lipschitz限制的梯度懲罰,便于鑒別器進(jìn)行優(yōu)化。
(4)
按照W距離修改原始的算法流程和目標(biāo)函數(shù)后,目標(biāo)函數(shù)為式(5):
G*=argminG[L+αL2(G)+Li]
(5)
式(5)越小,生成模型效果越好,生成圖像與原始圖像的W距離越?。籐2(G)越小,生成圖像與原始圖像的歐式距離越小,圖像整體越相似。α為超參數(shù),調(diào)整L2(G)的影響。
本文算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,由生成模型G和鑒別模型D組成。生成模型G的輸入為紅外低分辨率圖像X=ILR和隨機(jī)高斯分布噪聲Z,輸出為超分辨率重建紅外圖像G(X,Z)=ISR。將X的參照?qǐng)D像Y=IHR和G(X,Z)輸入至鑒別模型D,計(jì)算生成數(shù)據(jù)和真實(shí)數(shù)據(jù)間的W距離,并計(jì)算L2距離作為一同反饋至生成模型中。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)
2.2.1 生成模型
生成模型采用U-NET網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)由ISOLA P提出[9],該結(jié)構(gòu)在編碼過(guò)程中,保存每一步的特征圖譜,在解碼過(guò)程中,將對(duì)應(yīng)的鏡像編碼層保存下來(lái)的特征圖譜直接讀取出來(lái),這個(gè)步驟被稱為跳步。跳步可以在輸入輸出之間可以共享大量的低維信息,比如物體的邊緣細(xì)節(jié),防止使用卷積后數(shù)據(jù)缺失的問(wèn)題。生成模型實(shí)現(xiàn)細(xì)節(jié)如圖2所示,虛線的連接部分表示U-NET的跳步動(dòng)作。
2.2.2 鑒別模型
鑒別模型采用Patch Discriminator結(jié)構(gòu)。該結(jié)構(gòu)將輸入圖像分解為N×N固定大小的圖像塊,對(duì)圖像塊進(jìn)行計(jì)算得到整個(gè)圖像的距離矩陣,最后做平均值后輸出。N越小,圖像邊緣越明顯,但物體的形狀會(huì)更尖銳,同時(shí)小于一定范圍后會(huì)有重影的現(xiàn)象出現(xiàn)。本文基于數(shù)據(jù)集進(jìn)行比較和調(diào)整,取N=45進(jìn)行實(shí)驗(yàn)。最終的鑒別模型網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖2 生成模型的實(shí)現(xiàn)框架
圖3 鑒別模型的實(shí)現(xiàn)框架
本文對(duì)模型的實(shí)現(xiàn)進(jìn)行了以下改進(jìn):(1)刪除了鑒別模型的最后一層sigmoid;(2)對(duì)鑒別模型的參數(shù)更新設(shè)立了懲罰項(xiàng);(3)將鑒別模型的所有Norm層改為Instance Norm。
原GAN中鑒別模型設(shè)定為分類器,判別輸入是否真實(shí),sigmoid在最后一層將輸出映射到0~1之間作為類別概率。替換為W距離后,鑒別模型需要擬合出最佳的W距離,相當(dāng)于回歸任務(wù),需要?jiǎng)h除最后一層的sigmoid。
原WGAN論文設(shè)立閾值C對(duì)鑒別模型更新作Lipschitz限制,但網(wǎng)絡(luò)更新時(shí)總是會(huì)趨于最優(yōu)化結(jié)果,因此實(shí)際總會(huì)取C值進(jìn)行更新,不能很好進(jìn)行約束。完整的Lipschitz限制需要對(duì)整個(gè)樣本空間進(jìn)行隨機(jī)取樣,而IISR每輸入一對(duì)圖片更新一次,無(wú)法對(duì)整體樣本取樣,建立隨機(jī)矩陣al構(gòu)建差值樣本x,完成近似Lipschitz限制[12],如式(6)。由于Batch Norm會(huì)加入其他樣本的依賴,破壞懲罰項(xiàng)的效果,因此改為不帶來(lái)其他樣本影響的Instance Norm。
Li=
(6)
鑒別模型只對(duì)圖像塊進(jìn)行處理,缺少參考整張圖像時(shí)的約束,導(dǎo)致無(wú)法確保圖片的整體相似度和低頻相似性。L1和L2距離在許多問(wèn)題上都表現(xiàn)出準(zhǔn)確捕捉低頻特性的能力,可以彌補(bǔ)鑒別模型的不足??紤]到L1距離的計(jì)算方法是將權(quán)值向量w中各個(gè)元素求絕對(duì)值之和再平均,這種方法與鑒別模型的方法有很大的重復(fù),多次對(duì)數(shù)據(jù)的各個(gè)元素進(jìn)行重復(fù)處理容易產(chǎn)生過(guò)擬合現(xiàn)象。因此,為確保生成圖像的整體相似度,防止過(guò)擬合,采用L2距離即公式(1)作為額外懲罰項(xiàng),可以更好地提高生成圖像的有效性。
本文在LTIR數(shù)據(jù)集的garden部分進(jìn)行實(shí)驗(yàn),對(duì)其進(jìn)行5倍的下采樣獲得對(duì)應(yīng)的低分辨率圖像,將其中的前600張圖像作為訓(xùn)練數(shù)據(jù),后76張作為測(cè)試數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。數(shù)據(jù)集的主要場(chǎng)景為房屋后側(cè)的小型花園,目標(biāo)為移動(dòng)的行人,成像器在拍攝中有隨機(jī)的擺動(dòng),行人并不一直位于畫(huà)面中央,涉及到的其他物體包括多種植物,完整房屋,屋頂,石凳,欄桿,草地等。在實(shí)驗(yàn)前,IHR和ILR拼接在一起組成訓(xùn)練圖像對(duì)和測(cè)試圖像對(duì)如圖4,所有單張圖像的大小均為256×256,一個(gè)圖像對(duì)為一個(gè)輸入樣本。
圖4 對(duì)應(yīng)圖像對(duì)
本文方法構(gòu)造的目標(biāo)函數(shù)為W+L2,為驗(yàn)證目標(biāo)函數(shù)相較于KL距離的有效性和優(yōu)勢(shì),進(jìn)行三組實(shí)驗(yàn),Patch Discriminator均取N=45,第一組實(shí)驗(yàn)為本文IISR的W+L2方法;第二組采用W+L1方法;第三組采用KL+L2即原pix2pix算法。所有訓(xùn)練在GTX860m上完成加速。實(shí)驗(yàn)采用batch size=1的訓(xùn)練模式,即每輸入一個(gè)訓(xùn)練圖像對(duì),都會(huì)對(duì)模型的參數(shù)進(jìn)行更新。模型的具體參數(shù)如卷積核大小,步長(zhǎng),輸出通道均在圖2、圖3中標(biāo)注。所有編碼器都采用LeakyReLU激活函數(shù),解碼器采用ReLU激活函數(shù)。本文算法的訓(xùn)練流程如表1所示。
表1 本文算法訓(xùn)練流程
本文采取峰值信噪比(PSNR)和結(jié)構(gòu)相似度(SSIM)作為客觀評(píng)價(jià)指標(biāo),PSNR值越高,越接近原圖像,當(dāng)高于40 dB時(shí)表示重建圖像質(zhì)量極好; SSIM取值范圍為[0,1],1表示兩個(gè)圖像為一張圖像,0表示兩個(gè)圖像沒(méi)有相似點(diǎn),各個(gè)算法的平均值如圖5所示。重建結(jié)果如圖6所示,物體細(xì)節(jié)如圖7,訓(xùn)練時(shí)損失函數(shù)值如圖8。
圖5 客觀指標(biāo)平均值對(duì)比圖
在只訓(xùn)練200輪的情況下,KL+L2算法效果較差,出現(xiàn)了訓(xùn)練崩潰情況,使用W距離可以準(zhǔn)確計(jì)算分布間的距離,證明了本文算法的有效性。L1函數(shù)會(huì)使物體邊緣變化更平滑,圖像整體偏模糊,主觀視覺(jué)效果最好,但某些細(xì)節(jié)如頭部、欄桿陰影等可能會(huì)因此消失。L2函數(shù)會(huì)使物體邊緣變化明顯,能重建出較多的物體細(xì)節(jié),但在草地等背景上,會(huì)出現(xiàn)類似噪點(diǎn)的現(xiàn)象,降低主觀視覺(jué)感受。
圖6 重建結(jié)果對(duì)比圖
圖7 重建細(xì)節(jié)對(duì)比圖
圖8 損失函數(shù)值監(jiān)測(cè)圖
由于紅外圖像中物體能展示的細(xì)節(jié)較少,為保證重建后細(xì)節(jié)不丟失,目標(biāo)仍然具有有效性,本文算法選擇使用L2損失函數(shù)作為額外懲罰項(xiàng)。實(shí)驗(yàn)證明本文算法綜合W距離和L2損失函數(shù),犧牲主觀視覺(jué)效果充分約束重建圖像與原圖像保持一致,保證圖像的有效性。
本文算法通過(guò)構(gòu)造圖像對(duì)的完全監(jiān)督模式,使用W距離替代原始的KL散度,與L2額外懲罰項(xiàng)建立新的目標(biāo)函數(shù)實(shí)現(xiàn)紅外圖像超分辨率重建。同時(shí)構(gòu)建Li限制,改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),減少樣本間依賴關(guān)系的影響。實(shí)驗(yàn)證明本文算法可以更快更穩(wěn)定地學(xué)習(xí)低至高分辨率映射關(guān)系,保證目標(biāo)細(xì)節(jié)的準(zhǔn)確度。在WGAN論文中作者證明可以基本解決collapse mode問(wèn)題即輸出不夠多樣化,但在超分辨率重建中,輸出有明確的原圖像參照,無(wú)法進(jìn)行驗(yàn)證。
致 謝:感謝ChengBinJin在github中開(kāi)源共享的基于tensorflow實(shí)現(xiàn)的pix2pix代碼,本文算法基于此進(jìn)行修改和優(yōu)化完成實(shí)現(xiàn)。感謝Link?pings universitet共享的LTIR數(shù)據(jù)集,該數(shù)據(jù)集由Amanda Berg[13]制作使用并分享。