楊夏寧,王幫海,李佐龍
廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣州 510006
近年來,得益于卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,圖像超分辨率重建的效果得到了顯著提高,使其在人臉超分[1]、安防監(jiān)控[2]、航拍遙感[3]和醫(yī)療衛(wèi)生[4]等領(lǐng)域得到了廣泛的應(yīng)用。在硬件方面提高圖像超分辨率的效果通常有三種途徑:減小像素傳感器的尺寸、增加感光芯片尺寸和提高相機(jī)的焦距[5]。但受限于成本,人們無法在所有場景中都使用高昂的拍攝設(shè)備,故而以算法作為輔助手段的低成本方法成為了研究的熱點(diǎn)。
圖像超分辨重建算法可分為基于傳統(tǒng)插值[6]、基于重構(gòu)[7]和基于學(xué)習(xí)三種。相比基于插值和重構(gòu)的方法,基于深度學(xué)習(xí)的圖像超分辨率重建在效果上更優(yōu)越。圖像超分辨率技術(shù)在數(shù)學(xué)上屬于高度欠定問題[8],即從低分辨率圖像(low-resolution,LR)到高分辨率圖像(high-resolution,HR)重建過程中由于圖像特征信息的缺失,映射解空間并不唯一。并且放大因子越大,重建所欠缺的信息就越多,最終得到重建的效果也越差。為此許多深度學(xué)習(xí)的方法都致力于通過構(gòu)建更深層或更寬的結(jié)構(gòu)來提升網(wǎng)絡(luò)的容量來承載LR圖像與HR圖像之間復(fù)雜的映射關(guān)系。
2014 年,Dong 等人[9-10]首次在其提出的神經(jīng)網(wǎng)絡(luò)SRCNN(super resolution convolutional neural network)中,將深度學(xué)習(xí)方法應(yīng)用到了圖像超分辨率重建領(lǐng)域中,并在后續(xù)工作中改進(jìn)SRCNN上采樣方式,進(jìn)一步提出了FSRCNN(accelerating the super-resolution convolutional neural network)[11]。2015年,Kim等人[12]受到殘差網(wǎng)絡(luò)的啟發(fā),首次將殘差網(wǎng)絡(luò)[13](residual network,ResNet)應(yīng)用于圖像超分辨率重建網(wǎng)絡(luò)中,提出VDSR(very deep convolution networks for super-resolution)模型,成功將SRCNN的3層網(wǎng)絡(luò)結(jié)構(gòu),跨越式的增加到20 層,自此基于深度學(xué)習(xí)的超分辨率重建工作開始朝著構(gòu)建更深層網(wǎng)絡(luò)的方向發(fā)展。2016年,Kim等人[14]提出了深層卷積神經(jīng)網(wǎng)絡(luò)DRCN(deeply-recursive convolutional network)。該模型借鑒了遞歸神經(jīng)網(wǎng)絡(luò)RNN[15](recurrent neural network regularization)結(jié)構(gòu),將非線性映射層拓展為16個(gè)遞歸層,同樣達(dá)到了加大網(wǎng)絡(luò)深度的目的。2017 年,Tai 等人[16]提出的DRRN(deep recursive residual network)在DRCN全局殘差學(xué)習(xí)的基礎(chǔ)上引入局部殘差學(xué)習(xí),網(wǎng)絡(luò)權(quán)重在遞歸的局部殘差中共享。得益于遞歸和殘差思想的結(jié)合,DRRN 最終將網(wǎng)絡(luò)模型提高到了52 層。不同于VDSR 著重于增加網(wǎng)絡(luò)深度,2017年,Tong等人[17]提出的SRDenseNet模型將DenseNet[18](dense convolutional network)中密集殘差連接結(jié)構(gòu)應(yīng)用到了圖像超分辨率重建網(wǎng)絡(luò)中。實(shí)驗(yàn)結(jié)果表明,SRDenseNet 的密集連接結(jié)構(gòu)加強(qiáng)了局部特征的傳播,在不同深度的網(wǎng)絡(luò)層中起到了信息互補(bǔ)的作用,從而提高了邊緣和紋理的重建效果。2017年,Lim等人[19]提出的EDSR(enhanced deep super-resolution network)網(wǎng)絡(luò)模型簡化了SRDenseNet 的殘差模塊,指出ResNet 網(wǎng)絡(luò)中的殘差結(jié)構(gòu)在圖像超分辨率重建領(lǐng)域的局限性,并使用去除批歸一化層(batch normalization layer)的殘差結(jié)構(gòu)作為非線性映射層的堆疊模塊。去除批歸一化層減少了模型的參數(shù),從而讓EDSR成功構(gòu)建更深層的網(wǎng)絡(luò)結(jié)構(gòu),提高網(wǎng)絡(luò)的整體性能。
由SRCNN到EDSR表明越深的網(wǎng)絡(luò)和更密集的殘差結(jié)構(gòu)能夠有效的提高超分辨率重建的最終效果。但深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練難度較大,需要耗費(fèi)巨大的計(jì)算資源,同時(shí)在深層卷積過程中難以避免地會造成圖像信息的損失。一味的堆疊網(wǎng)絡(luò)的深度已經(jīng)無法有較大的突破。如何在有限的資源里充分發(fā)揮網(wǎng)絡(luò)的效能成為圖像超分辨率任務(wù)的新挑戰(zhàn)。
針對以上問題,本文提出一種分層特征融合的圖像超分辨率重建網(wǎng)絡(luò)。該網(wǎng)絡(luò)使用分層結(jié)構(gòu)完成通道特征的融合,以此來補(bǔ)償卷積過程中圖像信息的損失。網(wǎng)絡(luò)將逐層遞增特征通道的數(shù)量,以保留更多分辨率信息,而且特征通道數(shù)的增加也為上一層提供了更多的整合信息。為加強(qiáng)圖像低頻信息在網(wǎng)絡(luò)中的傳遞,本文算法在基礎(chǔ)殘差塊中使用密集連接結(jié)構(gòu),組成密集連接殘差塊。此外,在基礎(chǔ)殘差結(jié)構(gòu)中引入不降維輕量級注意力模塊,以提高模型對圖像高頻信息的敏感度。與現(xiàn)有的方法對比,尤其是在較為復(fù)雜的環(huán)境中,本文算法在重建效果上具備一定的優(yōu)勢,證明了算法有效性。
Ronnerberger等人[20]在2015年提出U-Net全連接神經(jīng)網(wǎng)絡(luò)并應(yīng)用于醫(yī)學(xué)圖像分割。受限于醫(yī)學(xué)圖像數(shù)據(jù)樣本較少的問題,U-Net 采取了一種對稱式的U 形結(jié)構(gòu)以充分提取有限圖像樣本中的特征信息。整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)主要分為下采樣收縮過程和上采樣擴(kuò)充兩個(gè)過程。下采樣操作共有四次,每一次都會通過增加卷積核數(shù)目來將圖像的特征通道數(shù)加倍。卷積之后使用全局平均池化(global average pooling,GAP)縮小特征圖尺寸,以減小網(wǎng)絡(luò)訓(xùn)練的難度。如此逐層地通過卷積操作來遞增特征通道數(shù)量不僅減輕了訓(xùn)練全卷積網(wǎng)絡(luò)的負(fù)擔(dān),也能夠充分提取到圖像信息的有利部分。
上采樣通過反卷積[21](deconvolution)來實(shí)現(xiàn)。在特征圖上采樣擴(kuò)張的過程中,卷積核的數(shù)目會逐層減半,同時(shí)使用反卷積將特征圖尺寸逐層復(fù)原。U形網(wǎng)絡(luò)中,同層收縮和擴(kuò)張路徑的特征信息會通過跳躍連接融合在一起后,再通過卷積層進(jìn)行特征提取。U形結(jié)構(gòu)中收縮路徑提取的定位信息會與擴(kuò)張路徑中提取的高級特征信息進(jìn)行結(jié)合,一定程度上為網(wǎng)絡(luò)提供了注意力。此外,在下采樣過程中丟失的圖像信息也可以通過對稱的網(wǎng)絡(luò)結(jié)構(gòu)得到相應(yīng)的補(bǔ)償,減少連續(xù)卷積中圖像信息的損失。
2017 年,Hu 等人[22]首次在SENet(squeeze-andexcitation network)中提出通道注意力學(xué)習(xí)機(jī)制開始,通道注意力機(jī)制就被應(yīng)用于各種網(wǎng)絡(luò)模型中。2018年,Zhang等人[23]提出的RCAN網(wǎng)絡(luò)在殘差模塊中插入通道注意力模塊,雖然增加了一部分計(jì)算量,但是相比較于VDSR 和EDSR 等沒有使用注意力模塊的深層網(wǎng)絡(luò),RCAN 獲得了更好的重建效果。如圖1 為RCAN 插入局部殘差結(jié)構(gòu)中的通道注意力模塊的基本結(jié)構(gòu)。
圖1 通道注意力模塊Fig.1 Channel attention module
假設(shè)輸入形狀為H×W×C的特征圖χ=[x1,…,xc,…,xC]。擠壓的過程首先使用全局平均池化(GAP)將全局空間信息轉(zhuǎn)換為通道描述符z,z是形狀為1×1×C的特征圖,表征輸入特征通道的統(tǒng)計(jì)量,即該通道共享感受野的范圍。z的第c個(gè)元素zc為:
f(·) 和δ(·) 分別表示sigmoid 函數(shù)和ReLU 激活函數(shù),WD、WU為卷積層的權(quán)重設(shè)置。兩個(gè)全連接層間的瓶頸結(jié)構(gòu)用于降低整個(gè)模型的復(fù)雜度,最終得到通道統(tǒng)計(jì)量s。該統(tǒng)計(jì)量與初始輸入特征圖進(jìn)行加權(quán)后完成對輸入特征圖通道xc微調(diào):
SE 注意力模塊對通道的依賴性進(jìn)行建模,通過加權(quán)的方法對特征進(jìn)行逐通道調(diào)整,使得網(wǎng)絡(luò)可以通過學(xué)習(xí)全局信息來有選擇性的加強(qiáng)或抑制網(wǎng)絡(luò)的學(xué)習(xí)過程,從而達(dá)到網(wǎng)絡(luò)側(cè)重學(xué)習(xí)對重建有益信息的目的。
本文借鑒了U-Net的對稱式分層特征融合結(jié)構(gòu),整體的網(wǎng)絡(luò)結(jié)構(gòu)展示如圖2 所示。主要分為特征圖通道擴(kuò)張(channels expansion)、特征圖通道融合(channels fusion)和上采樣重建(reconstruction)3個(gè)模塊。向下路徑為特征圖通道數(shù)擴(kuò)張的過程,特征通道數(shù)的增加能保留更多的分辨率信息。網(wǎng)絡(luò)右側(cè)向上的路徑為特征提取和融合的過程,同一層的特征通過跳躍連接進(jìn)行拼接后將輸入到密集殘差塊中進(jìn)行特征提取,最終由上采樣重建得到高分辨率圖像。
圖2 分層特征融合網(wǎng)絡(luò)框架圖Fig.2 Architecture of hierarchical feature fusion network(HFFN)
U-Net 設(shè)計(jì)之初用于醫(yī)學(xué)圖像分割,每層的下采樣操作除了增加特征通道數(shù)量之外,還會縮小特征圖的大小,以減小網(wǎng)絡(luò)訓(xùn)練的難度。為最大程度的避免分辨率的損失,特征圖的大小在圖像超分辨率任務(wù)中應(yīng)保持不變。本文算法改進(jìn)U-Net網(wǎng)絡(luò)的下采樣操作,保持特征圖通道擴(kuò)張路徑中特征圖大小不變,而只增加特征圖通道數(shù)量。同時(shí)為了減小網(wǎng)絡(luò)訓(xùn)練的難度,特征圖通道擴(kuò)張操作只進(jìn)行兩次,每一次擴(kuò)張路徑的卷積模塊(convolution block,CB)會將特征圖的通道數(shù)增至上一層的2倍,兩次卷積模塊操作最終將通道數(shù)增加至初始的4倍。
網(wǎng)絡(luò)首先輸入RGB三通道LR圖像,初始卷積使用64個(gè)大小為3×3的卷積核將LR圖像轉(zhuǎn)換為特征通道數(shù)為64的粗特征圖F0,并在兩次向下卷積模塊中將特征圖通道數(shù)量分別增至F1(128層)和F2(256層):
其中,fCB表示卷積模塊操作,經(jīng)過兩次fCB后得到特征圖F2。
F2送入特征圖通道融合階段,在堆疊的密集殘差塊(dense residual block,DRB)中進(jìn)行特征提取。密集殘差塊的輸出經(jīng)過一次3×3卷積操作將256層特征圖融合為128層特征圖F′2:
密集殘差模塊(DRB)結(jié)構(gòu)由多個(gè)基礎(chǔ)殘差塊構(gòu)成,激活函數(shù)使用LeakyReLU,具體結(jié)構(gòu)在下節(jié)說明。
殘差學(xué)習(xí)方法自VDSR 開始就被廣泛應(yīng)用到圖像超分辨率重建網(wǎng)絡(luò)中。為了能夠更好地發(fā)揮出殘差學(xué)習(xí)的性能,大部分的工作如VDSR和EDSR都是盡可能多的堆疊殘差模塊。但二者都僅有一段連接全局殘差的跳躍連接,特征信息在輸入殘差塊后需要經(jīng)過漫長的路徑輸出到網(wǎng)絡(luò)的末端,連續(xù)的卷積層無可避免的造成圖像信息的損失,最終影響到圖像重建的效果。本文在U 形結(jié)構(gòu)特征圖通道融合路徑中使用密集連接的殘差結(jié)構(gòu)可以有效減少圖像特征損失。
殘差特征增強(qiáng)框架(residual feature aggregation framework,RFA)是由Liu 等人[24]于2020 年提出的殘差塊密集連接方案,用以加強(qiáng)局部殘差信息的傳遞。如圖3展示了該結(jié)構(gòu)的大體框架。每4 個(gè)基礎(chǔ)殘差注意力模塊(residual attention block,RAB)組成一個(gè)密集殘差塊(DRB)結(jié)構(gòu)。前3 個(gè)殘差注意力塊的特征信息會直接輸入到DRB 模塊的尾部,并且與最后一個(gè)殘差注意力塊的輸出拼接,最后通過1×1卷積進(jìn)行特征融合。相比于簡單堆疊的殘差結(jié)構(gòu),局部殘差信息在每一個(gè)密集殘差塊中是直接相連的,使其在密集殘差塊中幾乎是無損失的進(jìn)行傳遞。密集殘差結(jié)構(gòu)的使用除了能夠保證網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性,減緩梯度消失和梯度爆炸問題之外,還保證了圖像中較為平滑的低頻信息在網(wǎng)絡(luò)結(jié)構(gòu)中能夠得到有效的傳遞,從而使整個(gè)網(wǎng)絡(luò)更注重于圖像高頻信息的學(xué)習(xí),有利于提高最終重建的效果。
圖3 密集殘差塊Fig.3 Dense residual block(DRB)
圖像中的低頻信息比較平滑,而高頻信息則更多的表征著圖像的邊緣、語義和其他的細(xì)節(jié)。但無論是圖像的低頻信息還是高頻信息,在特征通道中都是被同等對待的。不同于文本信息,圖像中信息量龐大。一味的堆疊殘差塊不僅需要耗費(fèi)巨大的計(jì)算資源,而且對最終重建效果的提升也非常有限,無法有效的提高網(wǎng)絡(luò)的表征能力。為了讓深層網(wǎng)絡(luò)更注重于高頻信息的學(xué)習(xí),本文在殘差結(jié)構(gòu)中插入注意力機(jī)制,以增加各通道之間的差異性,增強(qiáng)跨通道的判別性學(xué)習(xí)能力。
對于圖像超分辨率重建任務(wù)而言,通道注意力模塊的輕量化同樣非常重要。為了減輕SENet 中注意力模塊的參數(shù)量,2020 年由Wang 等人[25]提出的不降維輕量級通道注意力模塊ECA(efficient channel attention)改進(jìn)了SE 通道注意力模塊中的全連接層的降維操作,指出降維會損害注意力模塊的性能。ECA 改用自適應(yīng)調(diào)整大小的一維卷積核,在提升效果的同時(shí)也降低了參數(shù)總量。
ECA模塊通過對比SE模塊的兩個(gè)變體:SE-Var2和SE-Var3。指出SE-Var2獨(dú)立計(jì)算單通道權(quán)重,雖然參數(shù)量很少但得到的效果不佳。相反的,SE-Var3 通過單個(gè)全連接層(fully connected layer),將跨通道注意力效能提到了最高,但是參數(shù)量卻非常大。SE-Var2 的參數(shù)量為C,參數(shù)矩陣為:
SE-Var3參數(shù)量為C×C,參數(shù)矩陣為:
其中,wi,j表示單通道之間的權(quán)重參數(shù),WVar3考慮了所有通道之間關(guān)系,故而參數(shù)量也最大。
RCAN 中使用的通道注意力模塊主要由全局平均池化層、全連接層和Sigmoid 函數(shù)組成。其結(jié)構(gòu)如圖1所示。為了避免出現(xiàn)SE-Var3龐大的參數(shù)量,第一個(gè)全連接層會降低特征矩陣的維度以減小模型的復(fù)雜度,但維度的縮減同時(shí)也會損害注意力機(jī)制的部分性能。ECA模型就此對降維操作進(jìn)行了改進(jìn):使用自適應(yīng)調(diào)整大小的一維卷積核k代替了SE 模塊中的全連接層,只加強(qiáng)相鄰?fù)ǖ乐g的跨通道信息交流。該結(jié)構(gòu)如圖4所示。
圖4 ECA模塊Fig.4 Efficient channel attention module
自適應(yīng)一維卷積的特征矩陣參數(shù)量為k×C,特征矩陣表示為:
得益于注意力模塊的輕量化,本文算法在每個(gè)基礎(chǔ)殘差模塊中都插入ECA 注意力機(jī)制,具體插入位置如圖3所示。
亞像素卷積層上采樣方法由Shi 等人[26]于2016 年在ESPCN(efficient sub-pixel convolutional neural network)網(wǎng)絡(luò)中提出,其原理如圖5 所示。亞像素卷積層會將特征圖單個(gè)像素的所有通道重新排列,組成高分辨率空間的單個(gè)像素區(qū)域。首先,LR 圖像經(jīng)過多個(gè)卷積特征提取層得到形狀為H×W×r2的特征圖,并以此作為亞像素卷積層的輸入,r為圖像的放大因子。該層會將單像素的r2個(gè)通道重新排列成為一個(gè)r×r區(qū)域,對應(yīng)著HR圖像的一個(gè)像素點(diǎn)區(qū)域,最終得到形狀為rH×rW×1的HR圖像。
圖5 亞像素卷積Fig.5 Sub-pixel convolution
不同于插值法簡單的利用圖像相鄰像素來計(jì)算待插像素的值,也不像反卷積上采樣中存在大量的補(bǔ)零操作,亞像素卷積并沒有涉及到卷積操作,而是一種基于反抽樣思想的方法,因而相比于其他上采樣方法更高效、快速。加之亞像素卷積是基于學(xué)習(xí)的上采樣方法,有效地避免了過多人工因素的引入,同時(shí)也能夠減輕了生成圖像鋸齒狀失真等問題。
對模型進(jìn)行驗(yàn)證的實(shí)驗(yàn)環(huán)境為:Ubuntu18.04LTS操作系統(tǒng),采用Pytorch1.7深度學(xué)習(xí)框架,cuda11.1加速學(xué)習(xí)。實(shí)驗(yàn)的硬件設(shè)備配置為Intel?Core?i7-10700K@3.8 GHz 處 理 器,16 GB 運(yùn) 行 內(nèi) 存,NVIDIA Geforce RTX3080(10 GB)顯卡。
本文選用由Xia 等人[27]提出的公開航拍圖像數(shù)據(jù)集,該數(shù)據(jù)集提供了800×800到4 000×4 000不同分辨率下的大部分航拍場景圖,主要包含汽車停車場、飛機(jī)場、居民區(qū)、運(yùn)動(dòng)場、港口、高架橋、農(nóng)田、高速跑道等。本文實(shí)驗(yàn)選取114張涵蓋大部分場景的高分辨率圖片,將其中100張切割成分辨率為480×480的小圖,共計(jì)8 234張圖片作為網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù),余下14 張圖片作為驗(yàn)證和測試集。相對應(yīng)的,作為測試集的14 張圖片也涵蓋了絕大部分航拍場景。
ESRGAN(enhanced super-resolution generative adversarial network)[28]網(wǎng)絡(luò)通過對比使用DIV2K 數(shù)據(jù)集、Flickr2K 和OST 數(shù)據(jù)集訓(xùn)練得到的模型,證明了大規(guī)模、內(nèi)容豐富的圖像數(shù)據(jù)可以有效地提升的網(wǎng)絡(luò)的訓(xùn)練效果。因此在數(shù)據(jù)選擇時(shí)應(yīng)盡可能的涵蓋多個(gè)場景,并且在原數(shù)據(jù)的基礎(chǔ)上,采用隨機(jī)水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)和水平垂直翻轉(zhuǎn)的方式擴(kuò)增數(shù)據(jù)集以提升網(wǎng)絡(luò)訓(xùn)練的效果。
本文實(shí)驗(yàn)將輸入RGB 三通道的圖像數(shù)據(jù)進(jìn)行訓(xùn)練。為了得到配對的低分辨率圖像,使用MATLAB 對裁切后的高分辨率圖像進(jìn)行雙三次插值(Bicubic)下采樣。分別得到不同尺度因子(×2、×3、×4)的低分辨率圖像,與裁切后的HR圖像制作成配對的數(shù)據(jù)集。
分層特征融合網(wǎng)絡(luò)的參數(shù)設(shè)置如圖表1 所示。網(wǎng)絡(luò)訓(xùn)練參數(shù)設(shè)置如下:訓(xùn)練共計(jì)8 234對480×480圖像,輸入網(wǎng)絡(luò)后會在480×480分辨率中隨機(jī)的切出96×96的子圖像,每16 對子圖像作為一批,共計(jì)訓(xùn)練30 萬個(gè)周期。訓(xùn)練使用Adam優(yōu)化器,β1=0.9,β2=0.99。初始學(xué)習(xí)率為10-4,迭代20 萬個(gè)周期后學(xué)習(xí)率減半。損失函數(shù)為L1損失函數(shù)。
表1 分層特征融合網(wǎng)絡(luò)的參數(shù)設(shè)置Table 1 Parameters setting of hierarchical feature fusion networks
使用峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)作為主要的評價(jià)指標(biāo),并且與雙三次插值法(Bicubic)、SRCNN、SRResNet、EDSR 網(wǎng)絡(luò)做對比實(shí)驗(yàn)。各個(gè)模型輸入的初始特征圖通道數(shù)均為64,在選用的航拍圖像當(dāng)中分別進(jìn)行訓(xùn)練,迭代次數(shù)為30萬,其他參數(shù)保持原設(shè)置不變。實(shí)驗(yàn)主要測試算法在不同的航拍環(huán)境(飛機(jī)場、居民區(qū)、海面、高架橋、機(jī)場跑道、運(yùn)動(dòng)場)中重建的效果。表2 展示不同算法在14 張不同場景測試圖片下的平均PSNR/SSIM值。通過對比可以發(fā)現(xiàn)在絕大部分場景下,本文方法都優(yōu)于比較算法。14張測試場景圖平均PSNR 值與SRResNet、EDSR 和SRCNN 進(jìn)行比較,分別高0.18 dB、0.14 dB和2.88 dB。
表2 不同圖像超分辨率重建算法在14種航拍場景中的平均表現(xiàn)Table 2 Average performance of different image super-resolution reconstruction algorithms on 14 aerial images
為了測試本文算法在更具體的場景中圖像重建效果,現(xiàn)分別在飛機(jī)場、居民區(qū)、海面、高架橋、機(jī)場跑道和運(yùn)動(dòng)場六個(gè)常見的航拍場景中選擇一定數(shù)量的測試圖片。并分別計(jì)算不同算法的平均PSNR/SSIM 值,結(jié)果展示如表3所示??梢园l(fā)現(xiàn)在較為簡單的場景(如飛機(jī)場和跑道上)EDSR和本文算法在效果上接近。但是在較為復(fù)雜的環(huán)境(如密集的居民區(qū)和港口區(qū)域)本文算法有更為明顯的優(yōu)勢,尤其是放大因子較大時(shí),相比較于EDSR 重建的效果更好。放大因子為4 倍的情況下,居民區(qū)圖像重建效果較EDSR高出0.16 dB,港口區(qū)域高出0.28 dB。
表3 不同圖像超分辨率重建算法在不同航拍圖像重建中的表現(xiàn)Table 3 Performance of different image super-resolution reconstruction algorithms in different aerial images reconstruction
為了能夠更直觀地對比各個(gè)算法在不同放大因子下重建的效果,現(xiàn)在不同場景中抽取一張測試圖片,使用各個(gè)算法進(jìn)行圖像超分辨重建。如圖6為5個(gè)算法在飛機(jī)場和運(yùn)動(dòng)場中放大2 倍的圖像超分辨率重建的最終效果。如圖7和圖8分別展示了在放大因子為3倍和4倍的情況下,機(jī)場跑道、港口、居民區(qū)和高架橋上圖像重建的主觀效果。對比可知在復(fù)雜的高架橋環(huán)境下,本文算法重建得到的車輛圖像邊緣更為清晰。
圖6 不同航拍場景下×2重建對比Fig.6 Comparison of ×2 image reconstruction in different aerial scenes
圖7 不同航拍場景下×3重建對比Fig.7 Comparison of ×3 image reconstruction in different aerial scenes
圖8 不同航拍場景下×4重建對比圖Fig.8 Comparison of ×4 image reconstruction in different aerial scenes
本文針對圖像超分辨率重建在復(fù)雜航拍環(huán)境中圖像特征損失嚴(yán)重,特征利用率不高的問題,結(jié)合U-Net分層特征融合的思想,采用更為密集的殘差連接塊和輕量級特征注意力機(jī)制,構(gòu)建分層特征融合網(wǎng)絡(luò)。本文算法降低了特征信息在殘差塊中的損失,加強(qiáng)了局部殘差的傳遞;同時(shí)分層結(jié)構(gòu)能夠更好保留重建圖像的邊緣細(xì)節(jié)信息,減緩深層網(wǎng)絡(luò)帶來的梯度消失和梯度爆炸問題。為了驗(yàn)證算法的有效性,本文實(shí)驗(yàn)部分在公開的航拍圖像中制作模型訓(xùn)練所需要的數(shù)據(jù)集,并分別在SRCNN、SRResNet 和EDSR 模型中進(jìn)行訓(xùn)練。對比實(shí)驗(yàn)結(jié)果可知,無論是在主觀視覺感受,還是在客觀評價(jià)指標(biāo)PSNR/SSIM上,本文算法都有更好的表現(xiàn),有效重建了復(fù)雜航拍環(huán)境中圖像的紋理邊緣,成功拓展了航拍圖像在其他高級視覺任務(wù)中的應(yīng)用。下一步的工作將對算法進(jìn)行適應(yīng)性改進(jìn),使模型在不同的環(huán)境中有更好的魯棒性,并降低模型的復(fù)雜度,提高網(wǎng)絡(luò)訓(xùn)練的效率。
計(jì)算機(jī)工程與應(yīng)用2022年19期