牟新剛,陸俊杰,周 曉
〈圖像處理與仿真〉
基于殘差編解碼網(wǎng)絡的紅外圖像自適應校正算法
牟新剛,陸俊杰,周 曉
(武漢理工大學 機電工程學院,湖北 武漢 430070)
針對基于場景的非均勻性校正算法存在非均勻性殘余和鬼影等問題,本文提出了一種基于殘差編解碼網(wǎng)絡的紅外圖像自適應算法。該算法針對自適應校正問題的特點,基于UNet結構,通過多尺度采樣學習殘差映射生成非均勻性殘差圖像,加入批標準化和PReLU激活函數(shù)提高校正效果,最后使用全局跳躍連接得到最終的校正結果。通過對模擬紅外圖像序列和真實紅外圖像序列校正的實驗結果表明,相對于目前已有的非均勻性校正算法,該方法在PSNR(Peak Signal to Noise Ratio)和粗糙度的客觀數(shù)據(jù)上都有所提升,主觀視覺效果也更加清晰,細節(jié)保留程度高。
紅外圖像;非均勻性校正;多尺度采樣;殘差學習
隨著社會的進步和發(fā)展,各行各業(yè)對紅外成像系統(tǒng)的需求變得越來越迫切,但作為紅外成像系統(tǒng)的核心器件紅外焦平面陣列(Infrared Focal Plane Array,IRFPA)存在非均勻性響應[1],這種非均勻性響應會降低紅外系統(tǒng)的成像質(zhì)量,所以在紅外成像系統(tǒng)應用過程中必須對非均勻性進行校正。針對紅外圖像的非均勻性問題,目前主要有基于定標和基于場景的兩大類校正算法。基于定標的非均勻性校正算法利用不同溫度下獲得的均勻輻射黑體圖像進行標定得到探測單元響應的增益和偏置,繼而通過擬合計算待標定點的校正期望值。基于定標的算法計算量小,硬件容易實現(xiàn),但是該類算法在某些需要連續(xù)工作的場景就不太適用。為了應對這個問題,人們開始研究基于場景的非均勻性校正算法?;趫鼍暗姆蔷鶆蛐孕U惴ㄊ侵讣t外圖像的非均勻性校正參數(shù)通過場景獲得而非通過黑體的定標獲得,如神經(jīng)網(wǎng)絡算法[2]、時域高通濾波算法[3]和恒定統(tǒng)計算法[4],這類算法雖然能夠滿足連續(xù)工作的要求,但是在場景和IRFPA運動過程中產(chǎn)生鬼影問題。針對鬼影問題,Qian等人[5]提出了基于空域低通-時域高通的校正算法,Zuo等人[6]利用雙邊濾波來分離紅外圖像,Rong等人[7]提出了基于引導濾波和自適應學習速率的紅外焦平面陣列非均勻性校正算法,Mou等人[8]對紅外探測器非均勻性響應分布特征進行統(tǒng)計與分析,提出基于圖像塊先驗的單幀紅外自適應校正算法。
近年來,隨著深度學習的發(fā)展,卷積神經(jīng)網(wǎng)絡(Convolution Neural Network,CNN)在圖像去噪領域表現(xiàn)優(yōu)異,越來越多的CNN模型被用來解決圖像去噪問題。針對基于場景的非均勻性校正算法存在非均勻性噪聲殘余和鬼影等問題,人們開始研究利用卷積神經(jīng)網(wǎng)絡進行非均勻性校正,He和Cao等人[9]提出了基于卷積神經(jīng)網(wǎng)絡和柱狀固定模式噪聲仿真模塊的訓練方案,Mou等人[10]利用真實紅外探測器響應以及對應的兩點校正結果制作訓練集,提出了基于殘差網(wǎng)絡的非均勻性校正算法并取得了一定的效果。
目前基于深度學習的非均勻性校正算法研究較少,并且也存在計算效率不高,校正精度不高等問題。針對這些問題,本文基于UNet[11]結構,提出了殘差編解碼網(wǎng)絡(Encoding-decoding Residual Network,EDRN),用來實現(xiàn)紅外圖像的自適應校正。該網(wǎng)絡使用左右對稱的編解碼網(wǎng)絡,通過多尺度采樣提高網(wǎng)絡的特征提取能力,加入殘差映射生成殘差圖像減少非線性映射范圍,減輕訓練難度。通過實驗結果證明,該網(wǎng)絡模型克服了傳統(tǒng)方法對紅外圖像非均勻性校正的魯棒性差、會出現(xiàn)鬼影等局限性,對單幀紅外圖像的非均勻性校正的效果出色,不會產(chǎn)生鬼影現(xiàn)象,在很大程度去除噪聲的同時能夠保留更多的邊緣細節(jié)信息。
通常情況下,IRFPA中每一個探測器單元的響應可以使用一個近似的線性模型表示:
y,j()=A,j() x,j()+B,j() (1)
式中:y,j()和x,j()分別表示探測器第(,)個像元的實際輸出值和輸入輻射值,A,j()和B,j()分別表示為第(,)個像元的響應增益和偏置參數(shù)。
非均勻性校正就是從已知的實際輸出值y,j()中估計得到真實的輸入輻射值x,j(),從而去除非均勻性響應的影響。
x,j()=g,j() y,j()+o,j() (2)
式中:g,j()和o,j()分別為第(,)個像元的響應增益和偏置的校正系數(shù):
由于紅外探測器單元響應參數(shù)會隨著時間漂移,使得基于定標的非均勻性校正算法不能徹底解決非均勻性的問題,基于場景的非均勻性校正算法也不能完全避免鬼影的產(chǎn)生,繼而不能準確估計像元的響應增益和偏置的校正系數(shù)。本文提出的EDRN算法利用卷積神經(jīng)網(wǎng)絡估計()和(),從而去除非均勻性得到真實紅外圖像()。
UNet結構最大的優(yōu)點就是它能很好地將圖像淺層特征與深層特征相結合,在圖像處理領域獲得了廣泛的應用,這也是本文基于UNet結構進行網(wǎng)絡設計的重要原因。針對紅外圖像對比度低,邊緣模糊等特點,提出了一種基于UNet結構的殘差編解碼網(wǎng)絡,具體內(nèi)容包括:①使用左右對稱的編解碼網(wǎng)絡,利用學習殘差映射得到多尺度下非均勻性殘差圖像,最后利用全局跳躍連接將含非均勻性紅外圖像減去非均勻性殘差圖像得到最后的校正結果;②為了取得更好的校正效果,本文在卷積層之后加入批標準化[12];③使用PReLU激活函數(shù)[13]解決部分神經(jīng)元壞死的問題。接下來本文將從網(wǎng)絡框架,圖像邊界處理和損失函數(shù)具體介紹殘差編解碼網(wǎng)絡。
本文提出的EDRN通過下采樣和上采樣對圖像的特征維度進行收縮和擴張,首先將原始的圖像特征通過下采樣逐步縮小,在更小的圖像特征下進行卷積編碼,然后將縮小的圖像特征通過上采樣逐步成為原始圖像尺度,進行反卷積解碼。由于編解碼操作和上下采樣都是成對出現(xiàn),本框架可以進行任意尺度的擴展,本文在綜合考慮網(wǎng)絡復雜度和校正效果之后,選用了4個尺度的網(wǎng)絡。圖1給出了EDRN的結構框圖,一共包括5個部分:4個編碼單元,3個解碼單元,3個上采樣,3個下采樣,一個全卷積層。整個網(wǎng)絡包括15個卷積層,3個最大池化層和3個反卷積層,各層的參數(shù)信息如表1所示。
1)上下采樣
下采樣使用一個2×2的最大池化層,最大池化層的步長設置為2,通過下采樣可以減少輸入數(shù)據(jù)的大小,網(wǎng)絡本身也可以捕捉更有用的元素。而上采樣使用反卷積層進行反卷積操作,將輸入圖像尺度擴大為原來的兩倍。
圖1 EDRN結構框圖
表1 EDRN各層參數(shù)設置
2)編解碼單元
本文在殘差學習[14]的基礎下,提出了兩層結構的編碼單元。編碼單元結構如圖2(a)所示,編碼單元由兩個卷積層和一個跳躍連接組成,通過學習非均勻性殘差特征,縮小輸入輸出的映射范圍,能夠學習更好的圖像特征。解碼單元與編碼單元類似,唯一不同的是多出一個連接操作,連接本層輸入與對應的編碼單元輸出特征,由于池化操作會丟失圖像的部分信息,如果直接進行上采樣解碼操作的話,圖像輸出也會丟失信息導致模糊,連接操作就是用來解決這一問題。解碼單元結構如圖2(b)所示。
圖2 編解碼單元
3)全卷積層
全卷積層是一個3×3的卷積層,輸出非均勻性殘差圖像。最后使用一個全局跳躍連接,將含非均勻性的紅外圖像減去非均勻性殘差圖像得到校正后的紅外圖像。
除了最后一層全卷積層之外,其他所有的卷積層使用批標準化[12]和PReLU激活函數(shù)[13],批標準化能夠加快網(wǎng)絡收斂,提高訓練速度,PReLU激活函數(shù)能夠解決部分神經(jīng)元壞死的問題。后面通過對ReLU、LReLU和PReLU三種激活函數(shù)的實驗證明,PReLU激活函數(shù)更加適合EDRN模型,能夠得到更好的結果。
在進行卷積以及反卷積操作,采用對圖像邊緣補零的操作保證卷積以及反卷積前后的紅外圖像大小不變,這種方法能夠抑制紅外圖像在邊緣的退化,在實驗中發(fā)現(xiàn)效果也更好。
本文使用均方根誤差作為損失函數(shù),將帶有非均勻性噪聲的紅外圖像()輸入網(wǎng)絡模型中進行非均勻性校正得到校正后的紅外圖像(),均方誤差可以表示如下:
式中:和分別表示紅外圖像的寬度和高度;表示待校正的圖像;代表整個網(wǎng)絡的校正過程;代表不含非均勻性噪聲的真實紅外圖像。
本文選用LTIR[15]紅外圖像標準數(shù)據(jù)集作為本文的數(shù)據(jù)集,該數(shù)據(jù)集包含豐富的標準紅外圖像,圖像種類相對較多,圖像質(zhì)量較高,對于卷積神經(jīng)網(wǎng)絡模型來說,選取清晰豐富的圖像數(shù)據(jù)集有利于模型的訓練和提高模型的泛化性??紤]到計算機硬件性能條件,本文從LTIR數(shù)據(jù)集中隨機選取400張640×480的紅外圖像作為訓練集,選取depthwise_crossing目錄下的紅外圖像作為本次的測試集,depthwise_ crossing目錄是851張640×480的紅外圖像序列。
為了更好地訓練,將640×480的紅外圖像裁剪為64×64的紅外圖像,按步長為40個像素的方式進行裁剪,并對裁剪之后的圖像進行隨機旋轉0°、90°、180°、270°,得到254000個64×64的子圖像作為標準圖。之前已經(jīng)討論過紅外圖像非均勻性響應模型,本章將向標準圖隨機加入均值為1,標準差在[0.05,0.15]區(qū)間的增益噪聲,記為g,以及均值為0,標準差在[5, 15]區(qū)間的偏置噪聲,記為o,以此來模擬不同級別強度非均勻性響應。
本次EDRN算法的相關實驗都是在深度學習框架Pytorch下進行的,訓練的硬件平臺為Intel(R) Core(TM) i5-3570 CPU+NVIDIA 1080TI。
網(wǎng)絡模型的超參數(shù)如表2所示,網(wǎng)絡訓練批次設置為64,初始設置學習率為0.001,學習率每迭代50次減半,優(yōu)化器選用Adam優(yōu)化器,使用正交矩陣初始化[16]的方式進行網(wǎng)絡卷積層權重初始化,一共訓練200個回合。
為了驗證本文提出的EDRN算法非均勻性的校正效果,本文將分別在測試集紅外圖像序列和真實紅外圖像序列上進行實驗分析,我們將與傳統(tǒng)方法、深度學習方法進行比較,傳統(tǒng)方法包括雙邊濾波算法[6](Bilateral Filters,BF),導向濾波算法[7](Guided Filter,GF)和傳統(tǒng)神經(jīng)網(wǎng)絡算法[2](Neural Network,NN),深度學習方法為DLS算法[9](Deep-learning-based Strip NUC Method,DLS)。值得注意的是,DLS算法都是用來去除條紋非均勻性,所以對它們加入本文模擬的非均勻性響應重新訓練。
表2 網(wǎng)絡的超參數(shù)
本節(jié)主要使用PSNR作為定量評價算法的方法,使用粗糙度[17]作為輔助評價方法。一般而言,PSNR越大表明非均勻性校正效果越好,圖像粗糙度越小表明非均勻性校正效果越好。
1)網(wǎng)絡整體訓練情況
本節(jié)將分析網(wǎng)絡整體訓練情況,并且分析不同激活函數(shù)對于模型訓練結果的影響,以此驗證PReLU激活函數(shù)對于模型的有效性。
圖3顯示了3種不同激活函數(shù)對應的網(wǎng)絡模型在訓練過程中L2損失和PSNR變化趨勢。從圖3(a)可以看出,使用PReLU激活函數(shù)在訓練過程中L2損失變化相對更加平緩,而使用LReLU激活函數(shù)和ReLU激活函數(shù)則相對比較雜亂,由此可以得出使用PReLU激活函數(shù)的網(wǎng)絡模型整體訓練相對穩(wěn)定,收斂性也更加好。另外,從圖3(b)來看,使用PReLU激活函數(shù)可以獲得更高的PSNR數(shù)值指標,最后收斂于39dB左右。
表3顯示了不同激活函數(shù)對應訓練集的平均PSNR,使用PReLU激活函數(shù)比使用LReLU激活函數(shù)提高了0.11dB,比使用ReLU激活函數(shù)提高了0.38dB。
2)模擬紅外圖像序列
本文使用測試集中的紅外圖像作為真值紅外圖像,圖像的分辨率為640×480,像素都是8位數(shù)據(jù)。實驗中加入高強度非均勻性來模擬非均勻性響應,參數(shù)為g=0.15,o=15。
本次對比實驗將分別從客觀數(shù)據(jù)評價和主觀視覺評價兩個方面來對比分析,客觀數(shù)據(jù)包括峰值信噪比PSNR和粗糙度。
表3 不同激活函數(shù)對應訓練集的平均PSNR
圖4(c)~(g)顯示了各算法對模擬非均勻性紅外圖像序列第850幀校正的結果,圖4(c)~(e)存在不同程度的豎條紋非均勻性,并且從局部放大圖來看存在不同程度的噪點,邊緣細節(jié)丟失比較嚴重,圖4(f)~(g)基本消除了豎條紋,但圖5(f)存在少量噪點沒有去除干凈,圖5(g)圖像基本看不出噪點,圖像質(zhì)量最高。
圖5(a)~(b)為各算法對模擬非均勻性紅外圖像序列校正的PSNR和曲線。從圖5(a)可以看出,傳統(tǒng)BF算法、GF算法和NN算法在300幀左右達到收斂狀態(tài),然后開始校正,而基于深度學習的方法DLS算法和本文EDRN算法直接進行校正狀態(tài),無需收斂,另外EDRN算法相比其他幾種算法有更高的PSNR數(shù)值。類似于PSNR曲線變化規(guī)律,在圖5(b)中我們也能看出EDRN算法粗糙度變化更加穩(wěn)定,數(shù)值也是最低。
圖4 各算法對模擬非均勻性紅外圖像的校正結果
從以上分析綜合來看,本文EDRN算法相對比本文提出的其他算法在模擬非均勻性紅外圖像序列上有更好的校正效果。
3)真實紅外圖像序列
為了驗證EDRN算法對于真實紅外圖像序列的有效性,我們將使用兩個真實紅外圖像序列進行非均勻性校正實驗,包括1500幀640×512的真實紅外圖像序列和350幀512×480的真實紅外圖像序列。值得注意的是,真實紅外圖像序列采樣精度為14bit,為了方便進行對比實驗,本節(jié)將14bit的紅外圖像序列映射為8bit紅外圖像序列。
圖5 各算法對模擬非均勻性紅外圖像序列校正的PSNR和r曲線
圖6 各算法對640×512的紅外圖像序列的校正結果
圖7 各算法對512×480的紅外圖像序列的校正結果
圖6(b)~(f)為各算法對640×512的紅外圖像序列第1200幀的校正結果。從整體來看,圖6(b)和圖6(d)看到輕微的豎條紋非均勻性,圖6(c)(e)(f)都取得了一定的校正效果。從局部來看,圖6(b)在行人手臂部位丟失細節(jié),圖6(c)在行人頭部模糊,輪廓丟失,圖6(d)存在鋸齒狀顆粒,圖6(e)圖像細節(jié)相對模糊,圖6(f)局部細節(jié)清晰,輪廓分明。
基于場景的非均勻性校正算法比較依賴場景的運動,容易受場景運動的影響而產(chǎn)生鬼影。圖7顯示了各算法對512×480的紅外圖像序列第350幀的校正結果。圖7(b)~(c)在人像的頭部有明顯的鬼影,圖7(d)在手臂以及頭部也有輕微的鬼影,這類鬼影大部分都是由于局部濾波器對校正參數(shù)的不準確估計造成的,而圖7(e)~(f)基本沒有鬼影,說明基于深度學習的非均勻性校正算法很好地克服了這一現(xiàn)象。
綜合來看,本文EDRN算法校正過程中沒有鬼影的產(chǎn)生,在圖像細節(jié)方面也有很好地保留,即驗證了本文EDRN算法在真實紅外圖像上也有良好校正效果。
本文在深度學習模型UNet框架的啟發(fā)下,提出了用于紅外圖像非均勻性校正的EDRN算法。EDRN算法采用真值紅外圖像序列作為訓練集,加入模擬非均勻性響應,目標是得到清晰的紅外圖像。根據(jù)對模擬非均勻性紅外圖像序列和真實紅外圖像序列校正的實驗結果證明,相比于其他幾種非均勻性校正的算法,EDRN算法在PSNR和粗糙度上有不同程度的提升,并在主觀視覺方面也取得了更好的效果。
[1] 陳錢. 紅外圖像處理技術現(xiàn)狀及發(fā)展趨勢[J]. 紅外技術, 2013, 35(6): 311-318.
CHEN Qian. The Status and Development Trend of Infrared Image Processing Technology[J]., 2013, 35(6): 311-318.
[2] Scribner D A, Sarkady K A, Kruer M R, et al. Adaptive nonuniformity correction for IR focal-plane arrays using neural networks[C]//, 1991: 100-109.
[3] Scribner D A, Sarkay K A, Caldfield J T, et al. Nonuniformity correction for staring IR focal plane arrays using scene-based techniques[J]., 1990: 1308.
[4] Redlich R, Figueroa M, Torres S N, et al. Embedded nonuniformity correction in infrared focal plane arrays using the Constant Range algorithm[J]., 2015, 69: 164-173.
[5] QIAN W, CHEN Q, GU G. Space low-pass and temporal high-pass nonuniformity correction algorithm[J]., 2010, 17(1): 24-29.
[6] ZUO C, CHEN Q, GU G, et al. New temporal high-pass filter nonuniformity correction based on bilateral filter[J]., 2011, 18(2): 197-202.
[7] Shenghui R, Huixin Z, Hanlin Q, et al. Guided filter and adaptive learning rate based non-uniformity correction algorithm for infrared focal plane array[J]., 2016, 76: 691-697.
[8] 牟新剛, 趙建新, 歐科君. 基于圖像塊先驗的單幀紅外自適應校正算法[J]. 激光與紅外, 2017, 047(012): 1548-1552.
MOU X, ZHAO J, OU K. Single-frame infrared adaptive correction algorithm based on image patch priori[J]., 2017, 047(012): 1548-1552.
[9] HE Zewei, CAO Yanpeng, DONG Yafei, et al. Single-image-based nonuniformity correction of uncooled long-wave infrared detectors:a deep-learning approach[J]., 2018, 57: 155-164.
[10] MOU X, LU J, ZHOU X, et al. Single frame infrared image adaptive correction algorithm based on residual network[C]//11th(SOPO). CRC Press / Balkema, 2018: 17-23.
[11] Ronneberger O, Fischer P, Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation[C]//, 2015: 234-241.
[12] Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//. JMLR.org, 2015: 448-456.
[13] HE K , ZHANG X , REN S, et al. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification[C]//, 2015: 1026-1034.
[14] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.
[15] Berg A , J?rgen Ahlberg, Felsberg M . A thermal Object Tracking benchmark[C]// 2015 12th(AVSS). IEEE, 2015, 1:1-6.
[16] Wang D , Cui P , Ou M , et al. Deep Multimodal Hashing with Orthogonal Regularization[C]//. AAAI Press, 2015: 2291-2297.
[17] Hayat, Majeed M, Torres, Sergio N, Armstrong, Ernest. Statistical Algorithm for Nonuniformity Correction in Focal-Plane Arrays[J]., 1999, 38(5): 772-780.
Adaptive Correction Algorithm of Infrared Image Based on Encoding and Decoding Residual Network
MOU Xingang,LU Junjie,ZHOU Xiao
(College of Mechanical and Electrical Engineering, Wuhan University of Technology, Wuhan 430070, China)
Traditional scene-based non-uniformity correction algorithms generally suffer from non-uniformity residuals and ghosts. In view of this, we propose an infrared image adaptive algorithm based on the encoding and decoding residual network. The algorithm focuses on the characteristics of the adaptive correction problem. Following the UNet structure, the residual image is generated through multiscale sampling and learning residual mapping. Batch normalization and PReLU are used to improve the correction effect. Finally, the global skip connection is used to obtain the final correction result. The experimental results of correcting the simulated non-uniform infrared image sequence and the real infrared image sequence showed that this method improved the objective data of the peak signal to noise ratio (PSNR) and roughness, compared with existing non-uniformity correction algorithms. Moreover, the subjective visual effect was clearer, and the degree of detail retention was high.
infrared image, non-uniformity, multi-scale sampling, residual learning
TP391.4
A
1001-8891(2020)09-0833-07
2020-02-19;
2020-07-26.
牟新剛(1982-),男,博士,副教授,主要研究方向光電成像與信息處理、紅外圖像處理,E-mail:mouxingang@163.com。
國家基金項目(61701357),中央高?;究蒲袠I(yè)務費專項資金資助(183204007)。