史夢(mèng)陽(yáng), 張 弦, 王 麗, 施君南, 高葉盛
(1.上海交通大學(xué)電子工程系, 上海 200240;2.上海無(wú)線電設(shè)備研究所, 上海 201109;3.中國(guó)人民解放軍96962部隊(duì), 北京 102206)
光學(xué)遙感圖像處理中,目標(biāo)檢測(cè)一直是一個(gè)具有挑戰(zhàn)性的課題。由于遙感的目標(biāo)圖像通常分辨率較低,并且伴隨不同程度的降質(zhì),導(dǎo)致獲得的目標(biāo)特征不清晰,給目標(biāo)檢測(cè)帶來(lái)難度。提升目標(biāo)識(shí)別算法或處理硬件的性能都可以得到較高質(zhì)量的圖像。但是硬件性能的提升通常需要很高的成本,因此針對(duì)圖像恢復(fù)的超分辨算法有著更廣闊的應(yīng)用前景。圖像超分辨算法通常分為多張圖像超分辨算法和單張圖像超分辨算法,由于單張圖像超分辨算法更為方便和直接,因此應(yīng)用更為廣泛。
單張圖像超分辨算法主要包括3種,分別為基于插值的超分辨算法、基于優(yōu)化的超分辨算法和基于學(xué)習(xí)的超分辨算法。
基于插值的超分辨算法[1-2]包括最近鄰插值、雙線性插值、三次插值以及各種基于插值的改進(jìn)超分辨算法?;诓逯档某直嫠惴ň哂兄亟ㄋ俣瓤斓膬?yōu)點(diǎn),但是重建效果有限,不能很好地恢復(fù)圖像的細(xì)節(jié)信息。
基于優(yōu)化的超分辨算法重點(diǎn)研究從高分辨率圖像到低分辨率圖像的退化過(guò)程。LI等[3]提出了一種基于通用隱馬爾可夫樹(shù)(hiding Markov tree,HMT)模型的遙感圖像超分辨的最大后驗(yàn)概率方法。HMT 理論用于建立一個(gè)先驗(yàn)?zāi)P?以便從一系列模糊、下采樣和噪聲污染的低分辨率圖像中重建圖像。SCHULTZ 等[4]提出了一種利用最大后驗(yàn)概率估計(jì)高分辨率圖像的貝葉斯方法。
基于學(xué)習(xí)的超分辨算法主要包括基于稀疏表示的方法和基于神經(jīng)網(wǎng)絡(luò)的方法。YANG 等[5]首先提出了一種基于稀疏表示的圖像超分辨方法,該方法通過(guò)學(xué)習(xí)一個(gè)冗余字典,建立了高分辨率圖像和低分辨率圖像的映射。ZHENG 等[6]首先將稀疏表示法應(yīng)用于遙感圖像超分辨任務(wù)?;趦?yōu)化和稀疏表示的超分辨算法可以充分利用先驗(yàn)信息,但也存在計(jì)算量大的缺點(diǎn)。
近年來(lái),神經(jīng)網(wǎng)絡(luò)被廣泛地應(yīng)用于圖像的超分辨算法。DONG 等[7]在2015年首次將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)引入圖像超分辨算法中,取得了良好的效果。圖像多蒸餾網(wǎng)絡(luò)[8](information multi-distillation network,IMDN)是一個(gè)輕量級(jí)的圖像超分辨網(wǎng)絡(luò),有較高的實(shí)用價(jià)值。LIEBEL 等[9]提出了用于遙感圖像的卷積神經(jīng)網(wǎng)絡(luò)。LEI等[10]提出了局部-全局組合網(wǎng)絡(luò)(local-global combined network,LGCnet),LGCnet充分提取了目標(biāo)圖像的局部信息與全局信息,因此可以得到很好的重建效果。HAUT 等[11]通過(guò)引入注意力機(jī)制,以很少的計(jì)算代價(jià)提高了遙感圖像的重建質(zhì)量。神經(jīng)網(wǎng)絡(luò)具有良好的性能,然而由于其獨(dú)特的結(jié)構(gòu),導(dǎo)致其缺乏可解釋性,不能靈活地利用傳統(tǒng)的先驗(yàn)知識(shí)。
最近,一種將傳統(tǒng)優(yōu)化算法與神經(jīng)網(wǎng)絡(luò)相結(jié)合的圖像重建方法被提出。該方法將傳統(tǒng)的優(yōu)化過(guò)程展開(kāi)為一個(gè)網(wǎng)絡(luò),稱為深度展開(kāi)網(wǎng)絡(luò),算法中的參數(shù)可以通過(guò)訓(xùn)練得到。深度先驗(yàn)圖像去噪網(wǎng)絡(luò)[12](learning deep CNN denoiser prior for image restoration,IRCNN)和深度即插即用超分辨率網(wǎng)絡(luò)[13](deep plug-and-play superresolution,DPSR)都是深度展開(kāi)網(wǎng)絡(luò),都可以很好地利用圖像的先驗(yàn)信息,并且取得了較好的圖像重建效果。深度殘差去噪網(wǎng)絡(luò)[14](beyond a Gaussian denoiser:residual learning of deep CNN for image denoising,DNCNN)也是一個(gè)有效的去噪神經(jīng)網(wǎng)絡(luò)。ZHANG 等[15]提出了超分辨率圖像深度展開(kāi)網(wǎng)絡(luò)(deep u nfolding n etwork for image super-resolution,USRNet)用于處理多重退化的圖像超分辨問(wèn)題,并獲得了良好的結(jié)果。USRNet可以充分利用先驗(yàn)知識(shí),但是并沒(méi)有對(duì)網(wǎng)絡(luò)進(jìn)行良好的優(yōu)化,導(dǎo)致網(wǎng)絡(luò)的整體性能提升有限。
對(duì)于遙感圖像處理算法,可解釋性至關(guān)重要。并且遙感圖像的數(shù)量有限,因此如何充分利用先驗(yàn)信息減小網(wǎng)絡(luò)擬合的壓力也是需要研究的。為了提高算法的可解釋性和圖像重建性能,本文提出一種基于多特征提取的深度展開(kāi)圖像超分辨網(wǎng)絡(luò)。首先利用半二次分裂算法對(duì)目標(biāo)函數(shù)進(jìn)行迭代求解,接著將其展開(kāi)為一個(gè)神經(jīng)網(wǎng)絡(luò)。為使網(wǎng)絡(luò)可以充分提取目標(biāo)圖像的信息,提出一種多尺度空洞卷積注意力模塊。該模塊通過(guò)設(shè)計(jì)不同空洞率的空洞卷積組,擴(kuò)大網(wǎng)絡(luò)的感受野,使得網(wǎng)絡(luò)可以充分挖掘圖像的信息。在此基礎(chǔ)上,引入通道注意力機(jī)制和空間注意力機(jī)制,使得網(wǎng)絡(luò)可以更加注意重要的特征圖和重要的空間位置信息。最終,在網(wǎng)絡(luò)具有良好的可解釋性的同時(shí),得到較好的圖像超分辨重建效果。
在遙感圖像采集過(guò)程中,由于設(shè)備和環(huán)境的限制,圖像通常受多種退化因素影響。本文考慮了圖像模糊、隨機(jī)噪聲和圖像降采樣等幾種典型的退化因素,使超分辨模型更加實(shí)用。退化模型可以表示為
式中:y表示低分辨率圖像;k表示模糊核;?為卷積運(yùn)算符;x表示高分辨率圖像;↓表示降采樣;S表示降采樣因子;n表示噪聲?;诖送嘶P?目標(biāo)函數(shù)可以表示為
式中:argmin(·)表示使目標(biāo)函數(shù)為最小值時(shí)的自變量取值函數(shù);‖·‖ 表示矩陣的2-范數(shù)運(yùn)算;λ表示權(quán)重系數(shù);?(x)表示先驗(yàn)約束項(xiàng)。
在傳統(tǒng)優(yōu)化算法中,先驗(yàn)約束通常可以選擇稀疏先驗(yàn)或者低秩先驗(yàn)。但是很多情況下,算法性能與先驗(yàn)約束的選擇息息相關(guān),如果先驗(yàn)約束選擇不合理,會(huì)影響算法的性能。本文將先驗(yàn)約束設(shè)置為一個(gè)隱式先驗(yàn),此隱式先驗(yàn)表達(dá)可以通過(guò)端到端的網(wǎng)絡(luò)學(xué)習(xí)得到。這種方式可以降低先驗(yàn)約束選擇的難度,并能大大提高算法性能。為了求解式(2),引入輔助變量z,式(2)可以被重新表示為
拉格朗日函數(shù)Lλ,β可以用于處理有約束條件的問(wèn)題。其表達(dá)式為
式中:β表示懲罰系數(shù)??梢允褂冒攵畏至逊╗16]來(lái)對(duì)式(4)進(jìn)行迭代求解。式(4)可以被分解為兩個(gè)子問(wèn)題,迭代公式分別表示為
式中:xi表示第i次迭代的高分辨率圖像;zi表示第i次迭代的輔助變量。
對(duì)式(5) 進(jìn)行閉式解求解,閉式解通過(guò)快速傅里葉變換(FFT)在頻域求得,可以表示為
式中:F-1(·)表示逆傅里葉變換;F(·)表示傅里葉變換;表示傅里葉變換后取共軛。由于式(7)中包含隱式先驗(yàn)項(xiàng),因此使用神經(jīng)網(wǎng)絡(luò)來(lái)求解。
本文提出一種基于多尺度特征提取的圖像超分辨深度展開(kāi)網(wǎng)絡(luò),網(wǎng)絡(luò)的整體結(jié)構(gòu)如圖1所示。
圖1 深度展開(kāi)網(wǎng)絡(luò)的整體結(jié)構(gòu)
該網(wǎng)絡(luò)包括x模塊和z模塊,每一模塊都有明確的定義,并且分別執(zhí)行不同的功能,因此網(wǎng)絡(luò)是可解釋的。x模塊對(duì)應(yīng)式(5)子問(wèn)題的求解,而式(7)是式(5)的閉式解,主要完成去卷積操作。x模塊可以充分利用模糊核的先驗(yàn)知識(shí),可以完成圖像的尺度變換和去模糊的任務(wù)。z模塊對(duì)應(yīng)式(6)子問(wèn)題的求解,主要完成去噪的任務(wù)。噪聲包含兩部分,一部分是圖像獲取時(shí)引入的噪聲,另一部分是x模塊去卷積時(shí)引入的噪聲。
Unet是一種經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu),可以有效地提取目標(biāo)圖像的多尺度特征。z模塊在原始Unet網(wǎng)絡(luò)的基礎(chǔ)上,在最小尺度特征圖轉(zhuǎn)換時(shí),引入了多尺度空洞卷積模塊、通道及空間注意力模塊,完成對(duì)特征圖的多尺度信息的提取。z模塊的主體結(jié)構(gòu)如圖2所示。
圖2 z 模塊的主體結(jié)構(gòu)
首先設(shè)計(jì)多個(gè)尺度的空洞卷積模塊組,對(duì)特征圖進(jìn)行信息的提取。不同尺度的空洞卷積采取不同的空洞率,可以產(chǎn)生不同感受野的卷積。較大的空洞率卷積可以更加關(guān)注圖像的非局部信息,較小的空洞率卷積可以更加關(guān)注圖像的局部信息。因此,不同空洞率的空洞卷積組可以更好地提取圖像的局部信息和全局信息。
然后對(duì)空洞卷積組提取到的特征圖進(jìn)行注意力權(quán)重的分配。先進(jìn)行通道注意力的生成,通過(guò)最大池化操作將每個(gè)通道的特征圖映射為一個(gè)權(quán)重,給每個(gè)通道施加不同的權(quán)重,使得網(wǎng)絡(luò)更加關(guān)注重要的特征通道。再使特征圖通過(guò)空間注意力模塊,通過(guò)最大池化操作將空間特征映射為不同的權(quán)重,使得網(wǎng)絡(luò)可以自適應(yīng)地學(xué)習(xí)特征圖的空間信息。對(duì)當(dāng)前重建像素比較重要的區(qū)域施加較大的權(quán)重,對(duì)不太重要的區(qū)域施加較小的權(quán)重,從而使得網(wǎng)絡(luò)具有更好的重建能力。
在注意力模塊的前后采取跳連接方式相連,將得到的特征圖進(jìn)行多次上采樣,得到與原始圖像大小一致的特征圖。
綜上,該網(wǎng)絡(luò)迭代執(zhí)行x模塊和z模塊,從而交替進(jìn)行去模糊和去噪的操作。迭代流程與傳統(tǒng)優(yōu)化算法相同,每一步驟都有明確的定義并且完成相應(yīng)的功能。最終實(shí)現(xiàn)圖像的超分辨重建,并使用L1準(zhǔn)則來(lái)計(jì)算最終的損失函數(shù)。
通過(guò)實(shí)驗(yàn)來(lái)驗(yàn)證所提算法的有效性。UC Merced Land Use數(shù)據(jù)集[17]是一個(gè)常用的公共遙感圖像數(shù)據(jù)集,包含21 種場(chǎng)景,每種場(chǎng)景有100張圖片,圖片大小為256×256像素。從中挑選了10種場(chǎng)景作為算法評(píng)估的數(shù)據(jù)集。每種場(chǎng)景的前40個(gè)樣本用來(lái)訓(xùn)練,再隨機(jī)選擇5個(gè)樣本用來(lái)測(cè)試,最終得到400個(gè)訓(xùn)練樣本和50個(gè)測(cè)試樣本。選擇文獻(xiàn)[10]中的6種模糊核來(lái)驗(yàn)證算法的有效性,包括3個(gè)各向同性高斯模糊核和3個(gè)各向異性高斯模糊核,模糊核為21×21的矩陣。
實(shí)驗(yàn)在Py Torch 框架下進(jìn)行,使用Titan RTX 進(jìn)行訓(xùn)練。設(shè)置優(yōu)化器為Adam、學(xué)習(xí)率為0.000 5、網(wǎng)絡(luò)迭代次數(shù)為3。本文中的空洞率設(shè)置為2,4,6。由于在去卷積的過(guò)程中已經(jīng)引入了噪聲,為了實(shí)驗(yàn)的簡(jiǎn)便性,未再加入額外噪聲。
用峰值信噪比(PSNR)作為評(píng)價(jià)指標(biāo),不同算法的圖像重建結(jié)果如表1所示??梢钥吹?采用不同的模糊核,算法都表現(xiàn)出了較好的性能。本文所提算法與DNCNN、IMDN、IRCNN、DPSR等算法相比,重建圖像的峰值信噪比分別高1.15,1.50,1.98,0.29 dB。由此可以證明本文所提算法的有效性。
表1 不同重建算法的圖像峰值信噪比
圖3是不同算法的超分辨重建結(jié)果,場(chǎng)景為飛機(jī)場(chǎng)。選擇模糊核6,2倍下采樣。其中LR 是由低分辨率圖像進(jìn)行最近鄰插值得到的圖像,OURS是采用本文所提算法重建的圖像??芍?經(jīng)過(guò)降質(zhì)的圖像已經(jīng)變得不清楚了,無(wú)法分辨飛機(jī)的細(xì)節(jié)結(jié)構(gòu)信息,對(duì)后續(xù)目標(biāo)檢測(cè)非常不利。經(jīng)過(guò)超分辨復(fù)原后,所有超分辨算法都可以使降質(zhì)圖像變得清晰。其中IRCNN 的圖像重建效果優(yōu)于其他幾種對(duì)比算法。而本文所提算法恢復(fù)的圖像最清晰,最有利于進(jìn)一步的目標(biāo)檢測(cè)。其他算法重建的圖像能大致分辨物體的結(jié)構(gòu),但是對(duì)于較為精細(xì)的結(jié)構(gòu)不能很好地分辨。
圖3 不同算法的超分辨重建結(jié)果
綜上所述,本文所提算法無(wú)論是重建圖像的視覺(jué)效果還是峰值信噪比都是最好的,證明了算法的有效性。
本文提出了一種基于多特征提取的圖像超分辨深度展開(kāi)網(wǎng)絡(luò),網(wǎng)絡(luò)的每一部分都有明確的定義和特定的功能,因此是可解釋的。該網(wǎng)絡(luò)通過(guò)半二次分裂法求解優(yōu)化問(wèn)題,并將求解過(guò)程展開(kāi)成一個(gè)網(wǎng)絡(luò),使得網(wǎng)絡(luò)同時(shí)具有基于優(yōu)化方法的可解釋性和神經(jīng)網(wǎng)絡(luò)強(qiáng)大的擬合性。為了使網(wǎng)絡(luò)可以充分提取目標(biāo)圖像的信息,進(jìn)一步提出了一種多尺度空洞卷積注意力模塊。該模塊通過(guò)設(shè)計(jì)不同空洞率的空洞卷積組,使得網(wǎng)絡(luò)可以充分挖掘圖像的全局信息和局部信息,并且關(guān)注圖像中更重要的特征。實(shí)驗(yàn)證明所提算法可以對(duì)低分辨率圖像進(jìn)行有效的超分辨重建。