孫 銳,章 晗*,程志康,張旭東
基于通道注意力與遷移學習的紅外圖像超分辨率重建算法
孫 銳1,2,章 晗1,2*,程志康1,2,張旭東1
1合肥工業(yè)大學計算機與信息學院,安徽 合肥 230009;2工業(yè)安全與應急技術安徽省重點實驗室,安徽 合肥 230009
針對現(xiàn)有紅外圖像分辨率低、質量不高的問題,提出了基于通道注意力與遷移學習的紅外圖像超分辨率重建方法。該方法設計了一個深度卷積神經網(wǎng)絡,融入通道注意力機制來增強網(wǎng)絡的學習能力,并且使用殘差學習方式來減輕梯度爆炸或消失問題,加速網(wǎng)絡的收斂??紤]到高質量的紅外圖像難以采集、數(shù)目不足的情況,將網(wǎng)絡的訓練分成兩步:第一步使用自然圖像來預訓練網(wǎng)絡模型,第二步利用遷移學習的知識,用較少數(shù)量的高質量紅外圖像對預訓練的模型參數(shù)進行遷移微調,使模型對紅外圖像的重建效果更優(yōu)。最后,加入多尺度細節(jié)濾波器來提升紅外重建圖像的視覺效果。在Set5、Set14數(shù)據(jù)集以及紅外圖像上的實驗表明,融入通道注意力機制和殘差學習方法,均能提升超分辨率重建的效果,遷移微調能很好地解決紅外樣本數(shù)量不足的問題,而多尺度細節(jié)提升濾波則能提升重建圖像的細節(jié),增大信息量。
超分辨率;紅外圖像;卷積神經網(wǎng)絡;注意力;遷移學習
自然界中溫度在絕對零度(-273 ℃)以上的物體,都會因為自身的分子熱運動而不斷向外發(fā)射紅外輻射,溫度越高的物體發(fā)射的紅外輻射越強。紅外圖像就是利用物體發(fā)射的紅外輻射來完成成像的。近些年來,紅外成像技術發(fā)展迅速,已經在軍事偵察、安防監(jiān)控、醫(yī)療成像等方面得到了日益普遍的運用。然而在紅外圖像成像或傳輸過程中,受到環(huán)境和設備等諸多因素的影響,經常會出現(xiàn)紅外圖像分辨率偏低的情況,從而使紅外圖像所包含的信息量大打折扣,制約著紅外圖像的應用價值。所以怎樣獲取高分辨率和高信息量的紅外圖像成為人們迫切需要解決的一個問題。通過改進紅外成像設備來提高紅外圖像的質量是最直接的方法,但是紅外成像設備設計繁雜,成本高,而且還受環(huán)境和諸多物理技術的限制。現(xiàn)在在自然圖像領域興起了利用計算機通過圖像處理來提升圖像的分辨率的方法,這種由一幅或多幅低分辨率圖像來恢復高分辨率圖像或圖像序列的技術,稱為圖像的超分辨率技術[1]。這項技術相對于物理方法實現(xiàn)容易,大大降低了成本,而且它不僅適用于自然圖像的超分辨率重建,也同樣適用于紅外圖像或其他類型的圖像的超分辨率重建。
超分辨率方法發(fā)展至今,主要分為三種類型:插值法[2]、基于重建的方法[3]和基于學習的方法[4-5]。插值法的重建速度很快,原理簡單,主要是利用鄰近像素點的像素值按照一定規(guī)則來生成新坐標點的像素值,其中常用的插值法是最近鄰插值(nearest neighbor interpolation)和雙三次插值(Bicubic),但是這種方法處理后的圖像清晰度不高,細節(jié)難以重現(xiàn),而且常有鋸齒出現(xiàn)。基于重建的方法是先提取出多幅低分辨率圖像中的高頻信息,再將這些高頻信息按照一定規(guī)則組合起來指導重建高分辨率的圖像,其中常用的基于重建的方法有凸集投影法[6]和迭代反向投影法[7]等,這種方法需要配準多幅圖像,過程相對繁雜,而且處理后的圖像細節(jié)不清晰,效果一般。基于學習的方法從一出現(xiàn)就成為了人們關注的熱點,該方法分別提取出高、低分辨率圖像的特征,再利用計算機去學習雙方特征之間的相互對應關系,進而指導圖像的超分辨率重建。Chang等提出的鄰域嵌入法[8],是學習高、低分辨率圖像塊之間的幾何相似度去獲取它們之間的對應關系。Yang等提出的基于稀疏編碼的方法[9],是利用機器學習方法建立高、低分辨率圖像塊詞典間的對應關系,通過建立高、低分辨率圖像間的聯(lián)系來指導重建。近些年深度學習技術的發(fā)展突飛猛進,作為基于學習的方法中的后起之秀——基于深度學習的超分辨率方法開始出現(xiàn)。Dong等率先提出了基于超分辨率卷積神經網(wǎng)絡(super-resolution convolutional neural network,SRCNN)[10],這是深度學習在超分辨率領域的第一次應用,該網(wǎng)絡用了三個卷積層學習高、低分辨率圖像的特征之間對應關系來指導重建,此方法比傳統(tǒng)的方法在效果上有明顯提升。在同一年,Dong等又對SRCNN算法進行了優(yōu)化,為了縮短訓練時間,他們提出了快速超分辨率卷積神經網(wǎng)絡(fast super-resolution convolutional neural network,F(xiàn)SRCNN)算法[11],它省去了用Bicubic放大尺寸這一步,直接將低分辨率圖像輸入網(wǎng)絡,再將一個反卷積層接在網(wǎng)絡的后端以實現(xiàn)對應比例的放大,最終得到了高分辨率的圖像,Shi等提出了基于亞像素卷積的神經網(wǎng)絡超分辨率重建算法(efficient sub-pixel convolutional neural network for image super-resolution,ESPCN)[12],也是省去Bicubic這一步,直接提取低分辨率圖像的特征,網(wǎng)絡的后端用亞像素卷積層進行上采樣,重建出對應尺寸的高分辨率圖像,減少了計算復雜度。Ledig等提出了基于生成對抗網(wǎng)絡的超分辨率重建算法(super-resolution generative adversarial network,SRGAN)[13],該算法將GAN網(wǎng)絡(generative adversarial network)引入到超分辨率上來,而且用兩個損失函數(shù)來引導網(wǎng)絡訓練,獲得了效果更逼真的重建圖像。
如果直接將這些卷積神經網(wǎng)絡應用在紅外圖像領域,則會存在一些問題:SRCNN、FSRCNN和ESPCN方法的網(wǎng)絡卷積層數(shù)較少,網(wǎng)絡深度不夠,學習的特征會比較單一,忽略了圖像特征之間的相互關系,難以提取紅外圖像的深層次信息,而SRGAN方法可能會生成與原圖在某些細節(jié)上差別很大的超分辨率圖像,這不利于紅外圖像在軍事、醫(yī)療和監(jiān)控方面的應用;此外還有一個需要克服的問題就是在現(xiàn)實生活中很難收集到數(shù)量充足的高質量紅外圖像,而大量不同場景和目標的圖像作為訓練樣本是通常深度學習方法所必需的,只有這樣才能有較好的訓練結果,所以直接將較少數(shù)量的紅外圖像作為訓練數(shù)據(jù)集來實現(xiàn)深度學習方法往往達不到所需要的效果。
本文為了解決這些問題,提出了基于通道注意力與遷移學習的紅外圖像超分辨率重建方法。該方法首先設計了一個深度卷積神經網(wǎng)絡,該網(wǎng)絡融入通道注意力機制來學習特征空間通道之間的相關性,增強網(wǎng)絡的學習能力,并且使用殘差學習方式來減輕梯度爆炸或消失問題,同時也加速網(wǎng)絡的收斂??紤]到高質量的紅外圖像難以采集,數(shù)目不足,然后將網(wǎng)絡的訓練分成兩步:第一步使用自然圖像來預訓練出一個自然圖像的超分辨率模型,第二步利用遷移學習[14]的知識,用數(shù)量較少的高質量紅外圖像將預訓練獲取到的模型參數(shù)進行快速遷移微調訓練[15-16],提升模型對紅外圖像的重建效果,從而得到紅外圖像的超分辨率模型。最后加入多尺度細節(jié)提升(multi-scale detail boosting,MSDB)[17]模塊來提升紅外重建圖像的細節(jié)和視覺效果,增大信息量。
SRCNN算法使用Bicubic將低分辨率圖像擴大到目標尺寸,然后利用深度學習網(wǎng)絡完成特征的提取以及非線性映射,最終重建出高分辨率圖像,圖1(a)是SRCNN網(wǎng)絡的結構圖,其中conv代表卷積層。FSRCNN則省去了用Bicubic放大尺寸這一步,直接將低分辨率圖像輸入網(wǎng)絡,降低了計算量,再將一個反卷積層接在網(wǎng)絡的后端以實現(xiàn)對應比例的放大,最終得到了高分辨率的圖像,F(xiàn)SRCNN網(wǎng)絡結構圖如圖1(b)所示。相較于SRCNN,F(xiàn)SRCNN選擇了更小的卷積核和更深的網(wǎng)絡,進一步降低了計算量。ESPCN也是不經Bicubic步驟直接將低分辨率圖像直接輸入網(wǎng)絡,在網(wǎng)絡的最后用亞像素卷積層進行像素的重排列來重建高分辨率圖像,減少了計算復雜度,提升了計算速度,但是網(wǎng)絡深度仍然不夠,ESPCN網(wǎng)絡結構圖如圖1(c)所示。
一般基于卷積神經網(wǎng)絡的超分辨率算法通常有4個步驟:1) 處理數(shù)據(jù)集;2) 構建網(wǎng)絡模型;3) 用數(shù)據(jù)集訓練網(wǎng)絡模型;4) 生成網(wǎng)絡參數(shù);5) 用訓練好的網(wǎng)絡模型重建高分辨率圖像[5]。而本文為了完成紅外圖像的超分辨率重建,在一般步驟基礎上增加了遷移學習步驟,來克服紅外樣本數(shù)量不足帶來的網(wǎng)絡學習能力不足的問題。本文整體流程分為訓練自然圖像超分辨率模型和遷移學習兩個步驟。
第一步的任務是通過深度學習獲取自然圖像超分辨率模型。考慮到人眼對亮度的視覺敏感性強于對色彩的視覺敏感性,所以為了降低計算復雜程度和減少訓練量,本文對自然圖像取亮度通道圖像來學習重建。先將低分辨率自然圖像取亮度通道圖像送入深度學習網(wǎng)絡進行訓練,得到自然圖像超分辨率模型;再用該模型去重建高分辨率圖像;最后將重建后的圖像與色度空間圖像結合,生成完整的彩色自然圖像的重建圖像。
圖1 經典超分辨率重建網(wǎng)絡結構圖。(a) SRCNN;(b) FSRCNN;(c) ESPCN
第二步的任務是用遷移學習來獲取紅外圖像的超分辨率模型。與第一階段不同的是,因為紅外圖像自身是單通道圖像,所以無需對通道進行操作,直接將完整的紅外圖像作為訓練樣本送到深度學習網(wǎng)絡中,再用遷移學習的方法,將自然圖像的超分辨率重建模型的參數(shù)作為紅外圖像超分辨率模型的初始參數(shù),用紅外訓練樣本對這些參數(shù)進行微調訓練,從而得到針對紅外圖像的超分辨率重建模型。最后使用MSDB濾波來提升圖像的細節(jié)。本文的超分辨率重建流程如圖2所示,其中Y是取亮度通道操作。
圖2 算法流程圖
本文設計的圖像超分辨率重建網(wǎng)絡SESR結構如圖3所示。在網(wǎng)絡的前段,先串聯(lián)三個卷積層,完成特征提取和初步的非線性映射步驟。在網(wǎng)絡的后段,受ImageNet加深網(wǎng)絡可以提升識別準確率的啟發(fā),串聯(lián)6個相同的卷積層、PReLU激活層與SE block三者的組合模塊來加深網(wǎng)絡深度,避免網(wǎng)絡的過擬合,增加網(wǎng)絡的感受野,實現(xiàn)完整的非線性映射操作。最后一層是反卷積層,通過反卷積來完成上采樣。反卷積層的輸出與前段網(wǎng)絡的輸出相加,最終獲得超分辨率圖像。
在網(wǎng)絡的細節(jié)設計方面,考慮到ReLU函數(shù)的負半軸始終為0,所以在神經網(wǎng)絡訓練時可能會出現(xiàn)神經元“壞死”現(xiàn)象。而PReLU函數(shù)的負半軸斜率是一個可以學習的參數(shù),使負半軸的信息不會丟失,所以本文將選擇PReLU作為網(wǎng)絡的激活函數(shù),這樣可以避免神經元“壞死”的現(xiàn)象,起到一定程度的正則作用,也能增加網(wǎng)絡的泛化能力;較深的網(wǎng)絡可能會出現(xiàn)難以收斂或過擬合的情況,使網(wǎng)絡訓練的效果變差[17],所以本文加入了殘差網(wǎng)絡結構以加速訓練的收斂,減輕梯度爆炸或消失問題。表1為各卷積層參數(shù)的設置。
表1 各卷積層參數(shù)設置
注意力機制的作用可以視為將輸入的信息進行權重標定,對重要的信息賦予大的權重對其重視,對不重要的信息進行權重削減,使網(wǎng)絡在能耗較低的情況下對關鍵位置的信息進行提取,具有較好的映射表達能力,與此同時切合人類視覺觀察事物的特性。
圖3 SESR網(wǎng)絡結構圖
圖4 SE block示意圖
圖5 SE block結構圖
傳統(tǒng)的機器學習方法關注于解決單一領域內的問題,需要訓練集和測試集的特征具有相同的分布。在這種前提下,機器學習只需要盡可能擬合訓練集,訓練所得的模型就會最大可能在測試集上獲得優(yōu)良的性能。當訓練集和測試集的特征不具有相同分布時,通常就需要一個新的數(shù)據(jù)集,并且要在這個新的數(shù)據(jù)集上重新訓練模型。但是,在實際應用中,重新采集理想的數(shù)據(jù)集代價很高,往往難以完成。所以此時將從一個領域中學習到的可用的知識遷移到另外一個領域就變得很有必要。
隨著近幾年深度學習的不斷發(fā)展,遷移學習也吸引了越來越多的關注。遷移學習就是運用已有的知識去解決不同但相關領域問題。遷移學習可以定義為:給定一個源域s和學習任務s,一個目標域T和學習任務T,其中s1T和s1T,遷移學習就是利用s和s中的已有的有用知識,幫助提高目標域T中目標預測函數(shù)的學習[14]。當源域和目標域的數(shù)據(jù)集非常接近時,遷移學習可以有效解決目標域樣本不足的問題。
基于卷積神經網(wǎng)絡的自然圖像超分辨率方法以大量的不同場景、目標、條件下的高分辨率自然圖像為樣本進行訓練,樣本越多,則訓練效果越好。若想將這一方法應用到紅外圖像的超分辨率上,則需要大量的高質量紅外圖像作為訓練樣本。而現(xiàn)實生活中難以收集如此多場景、目標、條件下的高質量紅外圖像,沒有足夠的紅外圖像訓練樣本很容易導致訓練過程中過擬合現(xiàn)象的發(fā)生,從而限制了最終的重建效果。這制約了基于卷積神經網(wǎng)絡的超分辨率方法在紅外圖像上的應用與發(fā)展。
已有的超分辨率方法大都屬于同質圖像的超分辨率重建任務,這種情況下深度網(wǎng)絡通過標準的有監(jiān)督訓練基本上可以滿足應用需求,但是因為高質量紅外圖像數(shù)量少,很難使用同質圖像超分辨率方法來完成任務。自然圖像與紅外圖像在成像原理上存在很大差異,這也造成了這兩種圖像特性不同,例如自然圖像包含顏色分量、紋理較多,而紅外圖像是灰度圖像,在目標內容的連通區(qū)域亮度值較為均勻等,但是從超分辨率任務的角度來說,任務的最終目的都是追求更高的清晰度和更豐富的細節(jié)信息,從主觀視覺效果上來看兩種圖像的超分辨率任務是相似的。所以我們考慮用自然圖像訓練好的模型進行參數(shù)微調這一遷移學習方法來完成紅外圖像的超分辨率任務。
本文用基于模型參數(shù)的遷移學習方式即網(wǎng)絡參數(shù)微調(fine-tuning)來克服高質量紅外圖像數(shù)量不足的問題,具體步驟是:先用數(shù)量充足的自然圖像的亮度通道圖像作為數(shù)據(jù)集來預訓練SESR網(wǎng)絡,得到一個適用于自然圖像的超分辨率模型。因為在訓練紅外圖像的超分辨率模型時仍然使用SESR網(wǎng)絡,網(wǎng)絡的結構不變,所以直接將預訓練好的自然圖像超分辨率模型的參數(shù)作為紅外圖像超分辨率模型的初始參數(shù),再用較少數(shù)量的紅外圖像作為訓練數(shù)據(jù)集來繼續(xù)訓練,對這些參數(shù)進行微調優(yōu)化,提升對紅外圖像的超分辨率的效果,從而得到針對紅外圖像的超分辨率網(wǎng)絡權重模型。這樣遷移學習就可以有效緩解深度學習對少量數(shù)據(jù)學習能力不足的問題。
實驗環(huán)境:硬件PC平臺為Intel Core i7-6700K CPU,32 GB內存,Nvidia GeForce GTX1070顯卡,使用的軟件為Caffe,Matlab2016b,Cuda8.0,Cudnn5.1。
在第一步預訓練時,本文選用與FRCNN[11]相同的191幅自然圖像作為訓練集,這些圖片均有良好的畫質,在很多超分辨率方法中得到運用。但是因為實驗中網(wǎng)絡具有較深的網(wǎng)絡結構,可能會造成過擬合現(xiàn)象。針對這個問題,本文對191幅訓練圖像進行數(shù)量擴充:先將訓練集中的圖像分別進行90°、180°和270°的旋轉,再對這些圖像進行縮放,分別取原尺寸的60%、70%、80%和90%,最終獲取的圖像是初始圖像數(shù)量的20倍(4′5=20),即3820幅。
在第二步遷移微調訓練時,本文利用搜集到的39幅清晰度較高的紅外圖像作為樣本,選擇30幅進行擴充20倍共600幅圖像作為訓練集,剩下10幅里再隨機選擇4幅作為驗證集,其余5幅作為測試集。圖6是其中部分紅外圖像。
在第二步用遷移學習去微調紅外圖像超分辨率模型時,因為網(wǎng)絡結構不變,仍然是SESR網(wǎng)絡,所以利用第一步預訓練的模型參數(shù)直接構建并初始化第二步的網(wǎng)絡,可以大幅減少第二步的訓練時間。將基礎學習率降為0.0001,僅是預訓練時的1/10,且固定不變,微調深度和迭代次數(shù)經測試后再確定,其他參數(shù)與訓練自然圖像超分辨率模型時保持一致。
圖6 部分紅外圖像樣本
本文采用的損失函數(shù)是均方誤差(mean squared error,MSE),這有助于后期使用峰值信噪比(PSNR)作為超分辨率重建圖像的質量評價指標,MSE的計算公式為
本文采取的圖像重建質量評價指標有峰值信噪比(peak signal-to-noise ratio,PSNR)和結構相似度(structural similarity,SSIM),其中PSNR是超分辨率領域使用最廣泛的圖像評價指標之一,是基于對應像素點之間的誤差進行質量評價,越大的PSNR的值表明越小的重建圖像失真度,即越好的重建效果,但PSNR的數(shù)值僅僅依賴于像素間低層次的差別,它不能完全代表人類視覺效果的優(yōu)劣。SSIM分別從結構、亮度、對比度三個方面來度量圖像之間的相似性,SSIM值越接近1,說明重建后的圖像與原圖結構越相似,重建效果越好。紅外圖像雖然成像原理與自然圖像不同,但是在判斷重建效果優(yōu)劣時,也是用原始高清圖像作為參考來判斷的,失真度和結構、亮度、對比度等的差異同樣都可以作為判斷依據(jù),所以PSNR和SSIM作為紅外重建圖像的評價指標也具有較高的說服力。
為了證明本文設計的網(wǎng)絡在超分辨率重建任務中的有效性,本文先將預訓練的自然圖像超分辨率模型與幾種已有的模型分別在Set5和Set14數(shù)據(jù)集上與傳統(tǒng)的Bicubic方法、基于學習的SRCNN算法、FSRCNN算法以及ESPCN算法在自然圖像數(shù)據(jù)集上進行測試比較,放大因子分別取2、3和4,它們的重建結果如表2所示。評價指標取PSNR和SSIM。
為了更直觀地比較各方法的效果,圖7和圖8給出了表2中超分辨率方法在放大因子為3時的2幅圖像的重建結果并進行局部放大。
由表2可以看出SESR網(wǎng)絡的重建結果評價指標普遍優(yōu)于前3種重建方法,其中用Bicubic方法生成結果的PSNR值和SSIM值最低,SRCNN方法和FSRCNN方法均優(yōu)于Bicubic,而SESR方法的PSNR值和SSIM值均是這些方法中最高的,表明該方法的重建效果更好,與原始高清圖像最接近。在放大倍數(shù)為2時,Set5數(shù)據(jù)集上SESR方法的PSNR值達到了37.39 dB,SSIM值達到了0.9586,PSNR比Bicubic提升了3.73 dB,SSIM也提高了0.0287。
表2 5種方法在2個數(shù)據(jù)集上的重建結果(PSNR/SSIM)
圖7 Butterfly重建結果。(a) 原圖;(b) Bicubic;(c) SRCNN;(d) FSRCNN;(e) ESPCN;(f) SESR
圖8 Lenna重建結果。(a) 原圖;(b) Bicubic;(c) SRCNN;(d) FSRCNN;(e) ESPCN;(f) SESR
從圖7和圖8可以直觀地看出,Bicubic方法的重建圖像最模糊;SRCNN的效果有所提升但是細節(jié)不夠清晰,效果一般;ESPCN和SESR方法能夠較好的恢復細節(jié),但SESR方法的重建圖像的邊緣更清晰,細節(jié)更清楚,更接近原圖。
為了證明用PReLU作為神經網(wǎng)絡的激活函數(shù)相較于ReLU的優(yōu)越性,本文做了對比實驗,分別用兩個函數(shù)作為網(wǎng)絡的激活函數(shù)訓練模型。圖9是兩個函數(shù)分別用Set5和Set14數(shù)據(jù)集在3倍放大因子下的測試結果,可以看到,PReLU函數(shù)作為網(wǎng)絡激活函數(shù)的重建結果有更高的PSNR值,所以本文采用PReLU作為最終的網(wǎng)絡激活函數(shù)。
為了驗證通道注意力機制在超分辨率重建任務中的作用,本文將去除了通道注意力機制的SESR網(wǎng)絡(將原SESR網(wǎng)絡中去掉所有的SE block)和原始的SESR網(wǎng)絡重建效果進行對比實驗,評價指標用PSNR和SSIM,表3列出了3種方式在Set5和Set14數(shù)據(jù)集上的重建結果。
圖9 不同激活函數(shù)下Set5和Set14測試集的PSNR均值隨迭代次數(shù)增長的趨勢圖。(a) Set5;(b) Set14
表3 2種方式在2個數(shù)據(jù)集上的重建結果
圖10和圖11分別給出了2幅圖像在3種情況下放大因子為3時的超分辨率重建結果圖并進行局部放大。
從表3、圖10和圖11可以看出,去除通道注意力機制的SESR網(wǎng)絡的PSNR值均稍低于原始的SESR網(wǎng)絡,6組數(shù)據(jù)PSNR平均降低了0.05 dB,SSIM平均降低了0.0011,說明了SE block在超分辨率重建網(wǎng)絡中具有一定的優(yōu)化作用,它使網(wǎng)絡的學習能力更強,重建效果更優(yōu)。
通常在CNN網(wǎng)絡中,網(wǎng)絡前端學習的是低層次圖像特征,如顏色、邊緣、形狀等,而網(wǎng)絡后端學習的是當前任務要求的高層次特征。為了節(jié)約資源,一般的基于模型參數(shù)遷移通常對前若干層的參數(shù)不更新。但是本文考慮到自然圖像與紅外圖像成像、顏色以及邊緣等基本特征的差異性,所以對微調的深度進行了測試并討論。本文將遷移的深度設置為微調Conv7至Conv10、微調Conv4至Conv10以及微調全部卷積層三種,測試的結果如圖12所示。
可以看出微調全部卷積層參數(shù)時,對5張紅外圖像的平均PSNR值能達到最高,而只微調Conv7至Conv10時細節(jié)效果最差,所以本文選擇微調全部卷積層的參數(shù)。另外從圖12上可以看出,微調全部卷積層時迭代次數(shù)選擇5′105時網(wǎng)絡就能收斂,所以本文的參數(shù)遷移迭代次數(shù)選擇5′105。
圖10 Baby重建結果。(a) 原圖;(b) SESR(no attention);(c) SESR
圖11 Comic重建結果。(a) 原圖;(b) SESR(no attention);(c) SESR
圖12 不同微調深度下5幅紅外圖像PSNR均值隨迭代次數(shù)增長的趨勢圖
為了證明遷移學習在紅外圖像超分辨率重建中的有效性,將遷移學習后的紅外圖像超分辨率模型(SESR_T)與其他3種經典方法(Bicubic、SRCNN、FSRCNN)、遷移學習前的重建模型(SESR)以及直接用少量的紅外樣本直接訓練出來的重建模型(SESR_I)在5幅紅外圖像測試集上進行3倍放大重建測試,重建質量的評價指標為PSNR和SSIM,重建的結果分別如表4所示。
圖13和圖14分別給出了2幅紅外測試圖像在放大因子為3時各方法的超分辨率重建結果圖并進行局部放大。
表4 6種方法在5幅紅外圖像上的測試結果(PSNR/SSIM)
從圖13、圖14能直觀地看出,預訓練的模型SESR在紅外圖像上重建和遷移學習后的SESR_T重建結果相較于其他方法邊緣更明顯,線條更清晰,視覺效果更優(yōu),SESR和SESR_T兩者的視覺效果雖然差距不大,但是從表4結果看出,SESR_T重建的5幅紅外圖像的平均PSNR值和SSIM值分別為41.64 dB和0.9525,比SESR在紅外圖像上重建的PSNR值和SSIM值分別平均增加了0.25 dB和0.0005,比直接用少量紅外圖像訓練的模型SESR_I分別平均增加了0.31 dB和0.0021,紅外圖像的超分辨率重建的質量得到了提升,證明了遷移學習在高質量紅外樣本不足情況下對紅外圖像超分辨率重建的有效性。SESR和FSRCNN都是用自然圖像訓練的模型,SESR的評價標準有明顯優(yōu)勢,而SESR_I在紅外訓練集較小(600幅)的情況下,其重建結果PSNR值仍能和FSRCNN方法(3820幅)很接近,這兩點能充分說明SESR超分辨率重建網(wǎng)絡具有一定的優(yōu)勢。
圖13 Car1重建結果。(a) 原圖;(b) Bicubic;(c) SRCNN;(d) FSRCNN;(e) SESR_I;(f) SESR;(g) SESR_T
圖14 Car2重建結果。(a) 原圖;(b) Bicubic;(c) SRCNN;(d) FSRCNN;(e) SESR_I;(f) SESR;(g) SESR_T
考慮到MSDB濾波不以與高清原圖的相似性為目的,而是盡可能提升圖像的細節(jié)以增大信息量,但是PSNR和SSIM都是以高清原始圖像為參考的質量評價指標,所以為了更好地驗證MSDB濾波的效果,本文除了采用PSNR和SSIM外,還采用了一種無參考的空間域圖像質量評價指標:NIQE[21],從重建圖像自身的質量來比較重建效果的優(yōu)劣。NIQE的原理是正常圖像的歸一化亮度系數(shù)存在明顯的單位標準高斯分布,而噪聲或失真都會破壞這一規(guī)律,NIQE的數(shù)值越小,圖像質量越高。相較于MSE、PSNR、SSIM等評價算法,NIQE算法表現(xiàn)出更好的預測穩(wěn)定性、單調性和一致性,而且NIQE在提取圖像統(tǒng)計特征時先對圖像提取了感興趣區(qū)域,所以NIQE算法與人眼主觀質量評價有著更好的一致性,更加接近人類視覺系統(tǒng)[22]。為了驗證MSDB濾波的有效性,將普通的SESR_T模型與SESR_T+MSDB方法進行重建效果對比,表5是兩種方法在三種圖像質量評價指標下對5幅紅外圖像的重建結果。
圖15和圖16分別給出了Car1和People2兩幅紅外圖像用SESR-T和SESR-T+MSDB重建的結果圖并進行局部放大。
從表5可得,MSDB濾波會普遍降低重建圖像的PSNR,5幅紅外圖像PSNR值平均降低了0.97 dB,SSIM值有增有減,5幅紅外圖像平均只相差0.0005,說明MSDB不會對圖像的結構、亮度、對比度產生較大的影響。而MSDB濾波使得NIQE值得到了降低,5幅圖像平均降低了0.4064,說明經過MSDB濾波后的圖像雖然PSNR值稍低,但是其本身質量更高,具有更多的信息量。從圖15、圖16中也能直觀地看到,經過MSDB濾波后的各紅外圖像的輪廓更清晰,對比度更高,視覺效果更優(yōu),圖像自身的質量得到了有效提高,主觀的視覺效果與客觀評價指標NIQE基本一致。
表5 5幅紅外圖像上3種評價指標的重建結果
圖15 Car1重建結果。(a) 原圖;(b) SESR_T;(c) SESR_T+MSDB
圖16 People2重建結果。(a) 原圖;(b) SESR_T;(c) SESR_T+MSDB
針對現(xiàn)有紅外圖像分辨率低、質量不高的問題,本文提出了一種基于通道注意力與遷移學習的紅外圖像超分辨率重建方法。該方法首先設計了一個深度卷積神經網(wǎng)絡,融入通道注意力機制,來學習特征空間通道之間的相關性,增強了網(wǎng)絡的學習能力,并且使用殘差學習方式來減輕梯度爆炸或消失問題,加速網(wǎng)絡的收斂??紤]到高質量的紅外圖像難以采集、數(shù)目不足,所以本文采用兩步學習方式:第一步使用自然圖像來預訓練獲取一個自然圖像的超分辨率模型,第二步利用遷移學習的知識,用較少數(shù)量的高質量紅外圖像將預訓練獲取到的模型參數(shù)進行遷移微調訓練,提升模型對紅外圖像的重建效果,從而得到了針對紅外圖像的超分辨率模型。最后加入的多尺度細節(jié)濾波模塊來提升紅外重建圖像的視覺效果。實驗結果表明,加深網(wǎng)絡的深度和引入通道注意力機制,均能提升網(wǎng)絡的學習能力,對重建的效果有積極作用;遷移學習可以很好地解決高質量紅外圖像數(shù)目不足的問題,遷移學習后的模型對紅外圖像的重建效果相較于遷移學習之前和直接用少量紅外圖像訓練出來的模型均有所提升;MSDB濾波模塊能提升重建后的紅外圖像的細節(jié)和人類的視覺效果,增大了信息量,提升了紅外圖像的應用價值。
[1] Su H, Zhou J, Zhang Z H. Survey of super-resolution image reconstruction methods[J]., 2013, 39(8): 1202–1213.
蘇衡, 周杰, 張志浩. 超分辨率圖像重建方法綜述[J]. 自動化學報, 2013, 39(8): 1202–1213.
[2] B?tz M, Eichenseer A, Seiler J,. Hybrid super-resolution combining example-based single-image and interpolation-based multi-image reconstruction approaches[C]//, 2015: 58–62.
[3] Kim K I, Kwon Y. Single-image super-resolution using sparse regression and natural image prior[J]., 2010, 32(6): 1127–1133.
[4] Lian Q S, Zhang W. Image super-resolution algorithms based on sparse representation of classified image patches[J]., 2012, 40(5): 920–925.
練秋生, 張偉. 基于圖像塊分類稀疏表示的超分辨率重構算法[J]. 電子學報, 2012, 40(5): 920–925.
[5] Xiao J S, Liu E Y, Zhu L,. Improved image super-resolution algorithm based on convolutional neural network[J]., 2017, 37(3): 0318011.
肖進勝, 劉恩雨, 朱力, 等. 改進的基于卷積神經網(wǎng)絡的圖像超分辨率算法[J]. 光學學報, 2017, 37(3): 0318011.
[6] Stark H, Oskoui P. High-resolution image recovery from image-plane arrays, using convex projections[J]., 1989, 6(11): 1715–1726.
[7] Irani M, Peleg S. Improving resolution by image registration[J]., 1991, 53(3): 231–239.
[8] Chang H, Yeung D Y, Xiong Y M. Super-resolution through neighbor embedding[C]//, 2004: 275–282.
[9] Yang J C, Wright J, Huang T S,. Image super-resolution via sparse representation[J]., 2010, 19(11): 2861–2873.
[10] Dong C, Loy C C, He K M,. Image super-resolution using deep convolutional networks[J]., 2016, 38(2): 295–307.
[11] Dong C, Loy C C, Tang X O. Accelerating the super-resolution convolutional neural network[C]//, 2016: 391–407.
[12] Shi W Z, Caballero J, Huszár F,. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//, 2016: 1874–1883.
[13] Ledig C, Theis L, Huszár F,. Photo-realistic single image super-resolution using a generative adversarial network[C]//, 2017: 4681–4690.
[14] Pan S J, Yang Q. A survey on transfer learning[J]., 2010, 22(10): 1345–1359.
[15] Xu Z, Qu C W, He L Q. SAR target super-resolution based on transfer learning[J]., 2015, 36(6): 1940–1952.
徐舟, 曲長文, 何令琪. 基于遷移學習的SAR目標超分辨重建[J]. 航空學報, 2015, 36(6): 1940–1952.
[16] Yanai K, Kawano Y. Food image recognition using deep convolutional network with pre–training and fine–tuning[C]//, 2015: 1–6.
[17] Du B, Xiong W, Wu J,. Stacked convolutional denoising auto-encoders for feature representation[J]., 2017, 47(4): 1017–1027.
[18] Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//, 2018: 7132–7141.
[19] Kim Y, Koh Y J, Lee C,. Dark image enhancement based onpairwise target contrast and multi-scale detail boosting[C]//, 2015: 1404–1408.
[20] Kingma D P, Ba J. Adam: a method for stochastic optimization[Z]. arXiv: 1412.6980, 2014.
[21] Mittal A, Soundararajan R, Bovik A C. Making a “completely blind” image quality analyzer[J]., 2013, 20(3): 209–212.
[22] Shao X, Zeng T Y, Wang Z H. No-reference quality assessment method for printed image based on NIQE[J]., 2016, 8(4): 35–39.
邵雪, 曾臺英, 汪祖輝. 一種基于NIQE的印刷圖像無參考質量評價方法[J]. 包裝學報, 2016, 8(4): 35–39.
Super-resolution reconstruction of infrared image based on channel attention and transfer learning
Sun Rui1,2, Zhang Han1,2*, Cheng Zhikang1,2, Zhang Xudong1
1School of Computer and Information, Hefei University of Technology, Hefei, Anhui 230009, China;2Anhui Province Key Laboratory of Industry Safety and Emergency Technology, Hefei, Anhui 230009, China
Effect picture
Overview:In recent years, infrared imaging technology has developed rapidly and has been increasingly used in military reconnaissance, security surveillance, and medical imaging. However, in the process of infrared image imaging or transmission, it is affected by many factors such as environment and equipment. The infrared image often has a low resolution, which greatly reduces the amount of information contained in the infrared image and restricts the application value of the infrared image. Therefore, how to obtain high-resolution and high-information infrared images has become an issue that people urgently need to solve. In recent years, the development of deep learning technology has made rapid progress, and super-resolution methods based on deep learning have begun to appear. However, if these convolutional neural networks are directly applied to the infrared image field, there are some problems: SRCNN, FSRCNN, and ESPCN have fewer network convolutional layers and insufficient network depth, and the learning features will be relatively single, ignoring the differences between image features. The mutual relationship makes it difficult to extract the deep-level information of the infrared image, and SRGAN may generate super-resolution images that are not close to the original image in certain details, which is not conducive to the application of infrared images in military, medical and surveillance. Another problem that needs to be overcome is that it is difficult to collect a sufficient number of high-quality infrared images in real life, and a large number of images of different scenes and targets are required as training samples for common deep learning methods. The infrared images used as training data sets to achieve deep learning methods often fail to achieve the desired effect. In order to solve these problems, this paper proposes a method for super-resolution reconstruction of infrared images based on channel attention and transfer learning. This method first designs a deep convolutional neural network, which integrates the channel attention mechanism to learn the correlation between the channels in the feature space, enhances the learning ability of the network, and uses residual learning to reduce the problem of gradient explosion or disappearance and to speed up network convergence. Then, considering that high-quality infrared images are difficult to collect and insufficient in number, the network training is divided into two steps: the first step uses natural images to pre-train a super-resolution model of natural images, and the second step is to use transfer learning knowledge. Using a small number of high-quality infrared images, the pre-trained model parameters are quickly transferred and fine-tuned to improve the reconstruction effect of the model on the infrared image, thereby obtaining a super-resolution model of the infrared image. Finally, a multi-scale detail boosting (MSDB) module is added to enhance the details and visual effects of the infrared reconstructed image and to increase the amount of information.
Sun R, Zhang H, Cheng Z K,Super-resolution reconstruction of infrared image based on channel attention and transfer learning[J]., 2021, 48(1): 200045; DOI:10.12086/oee.2021.200045
Super-resolution reconstruction of infrared image based on channel attention and transfer learning
Sun Rui1,2, Zhang Han1,2*, Cheng Zhikang1,2, Zhang Xudong1
1School of Computer and Information, Hefei University of Technology, Hefei, Anhui 230009, China;2Anhui Province Key Laboratory of Industry Safety and Emergency Technology, Hefei, Anhui 230009, China
A super-resolution reconstruction method of infrared images based on channel attention and transfer learning was proposed to solve the problems of low resolution and low quality of infrared images. In this method, a deep convolutional neural network is designed to enhance the learning ability of the network by introducing the channel attention mechanism, and the residual learning method is used to mitigate the problem of gradient explosion or disappearance and to accelerate the convergence of the network. Because high-quality infrared images are difficult to collect and insufficient in number, so this method is divided into two steps: the first step is to use natural images to pre-train the neural network model, and the second step is to use transfer learning knowledge to fine-tune the pre-trained model’s parameters with a small number of high-quality infrared images to make the model better in reconstructing the infrared image. Finally, a multi-scale detail boosting filter is added to improve the visual effect of the reconstructed infrared image. Experiments on Set5 and Set14 datasets as well as infrared images show that the deepening network depth and introducing channel attention mechanism can improve the effect of super-resolution reconstruction, transfer learning can well solve the problem of insufficient number of infrared image samples, and multi-scale detail boosting filter can improve the details and increase the amount of information of the reconstruction image.
super-resolution; infrared image; convolutional neural network; attention; transfer learning
TP391;TB866
A
10.12086/oee.2021.200045
National Natural Science Foundation of China (61471154, 61876057) and the Fundamental Research Funds for Central Universities (JZ2018YYPY0287)
* E-mail: 1402198087@qq.com
孫銳,章晗,程志康,等. 基于通道注意力與遷移學習的紅外圖像超分辨率重建算法[J]. 光電工程,2021,48(1): 200045
Sun R, Zhang H, Cheng Z K,Super-resolution reconstruction of infrared image based on channel attention and transfer learning[J]., 2021, 48(1): 200045
2020-02-11;
2020-05-09
國家自然科學基金面上項目(61471154,61876057);中央高校基本科研業(yè)務費專項資金資助項目(JZ2018YYPY0287)
孫銳(1976-),男,博士,教授,主要從事計算機視覺的研究。E-mail:sunrui@hfut.edu.cn
章晗(1995-),男,碩士研究生,主要從事計算機視覺的研究。E-mail:1402198087@qq.com