楊才東,李承陽,2,李忠博+,謝永強,孫方偉,齊 錦
1.軍事科學(xué)院 系統(tǒng)工程研究院,北京 100141
2.北京大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京 100871
圖像超分辨率重建技術(shù)(super-resolution reconstruction,SR)是將輸入的模糊、包含信息較少的低分辨率(low-resolution,LR)圖像重建為清晰、包含更多信息的高分辨率(high-resolution,HR)圖像,是計算機視覺領(lǐng)域的一個重要方向。生成圖像還可以為下游的計算機視覺相關(guān)任務(wù)提供服務(wù),如目標(biāo)檢測、目標(biāo)定位等,可以增強任務(wù)效果,提高識別正確率。在現(xiàn)實生活中,圖像超分辨率重建應(yīng)用前景十分廣泛,如醫(yī)學(xué)成像、安全監(jiān)測、圖像壓縮等領(lǐng)域。
傳統(tǒng)的圖像超分辨率重建方法主要有以下三種:基于插值的超分算法,如雙三次插值、最近鄰插值等;基于退化模型的超分算法,如迭代反投影法、凸集投影法和最大后驗概率法等;基于學(xué)習(xí)的超分算法,包括流形學(xué)習(xí)、稀疏編碼方法等。傳統(tǒng)的超分算法已經(jīng)取得了很大的成功,但是隨著尺度因子的放大,從×2 到×4、×8,用于超分重建所需要的信息越來越多,人為定義的先驗知識已經(jīng)不能滿足需求,很難實現(xiàn)重建高質(zhì)量圖像的目的。
隨著深度學(xué)習(xí)在計算機視覺領(lǐng)域取得了巨大成功,2014 年Dong 等人首次將深度學(xué)習(xí)方法引入圖像超分重建任務(wù),借助神經(jīng)網(wǎng)絡(luò)強大的學(xué)習(xí)能力,取得了優(yōu)于傳統(tǒng)方法的成績。隨后研究者們提出了一系列不斷優(yōu)化的算法模型,從最早的基于卷積神經(jīng)網(wǎng)絡(luò)的SRCNN(super-resolution convolutional neural network)模型,到基于生成對抗網(wǎng)絡(luò)的SRGAN(superresolution generative adversarial network)模型,再到基于最新的Transformer的TTSR(texture transformer network for SR)模型,基于深度學(xué)習(xí)的圖像超分重建技術(shù)不斷取得新的突破,并且已經(jīng)提出了很多適用于超分領(lǐng)域研究的專有數(shù)據(jù)集。
本文從輸入圖像數(shù)量的角度,將基于深度學(xué)習(xí)的圖像超分辨率重建方法分為兩種,分別是僅輸入一張圖像的單圖像超分辨率重建方法(single image super-resolution reconstruction,SISR)和輸入多張圖像的基于參考的圖像超分辨率重建方法(referencebased super-resolution reconstruction,RefSR)。
SISR 方法輸入一張低分辨率圖像,利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)LR-HR 圖像對之間的映射關(guān)系,最終將LR 圖像重建為一張高分辨率圖像。SISR 方法的經(jīng)典模型發(fā)展如圖1 所示。最早基于深度學(xué)習(xí)的SISR方法模型是2014 年提出的SRCNN 模型,利用卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)LR 圖像到HR 圖像之間的映射關(guān)系,得到了比傳統(tǒng)方法更高的峰值信噪比(peak signal-tonoise ratio,PSNR)和結(jié)構(gòu)相似度(structure similarity index measure,SSIM)指標(biāo)。這個階段的SISR 方法的改進方向主要以增加神經(jīng)網(wǎng)絡(luò)的深度,從而提高PSNR和SSIM 指標(biāo)為導(dǎo)向。2017年提出的SRGAN模型中,首次提出要提高圖像的感官質(zhì)量,引入了感知損失函數(shù)。隨后提出的模型開始以優(yōu)化重建圖像紋理細節(jié)為目標(biāo),不斷推動著圖像超分領(lǐng)域的發(fā)展。
圖1 典型的SISR 模型Fig.1 Typical SISR model
目前已經(jīng)提出了很多性能較好的SISR 模型,盡管各模型之間存在一定的差異,但本質(zhì)依然是在超分框架的基礎(chǔ)上,對一系列組件進行改進和組合,得到一個新的超分模型。這些組件包括上采樣模塊、非線性映射學(xué)習(xí)模塊以及損失函數(shù)等,本文分別對超分框架及各組件進行介紹和分析。
SISR 方法的框架由兩部分構(gòu)成,分別是非線性映射學(xué)習(xí)模塊和實現(xiàn)圖像放大的上采樣模塊。非線性映射學(xué)習(xí)模塊負責(zé)完成低分辨率圖像到高分辨率圖像的映射,這個過程中利用損失函數(shù)來進行引導(dǎo)和監(jiān)督學(xué)習(xí)的進程;上采樣模塊實現(xiàn)重建圖像的放大。兩個模塊共同協(xié)作,最終完成輸入圖像的超分辨率重建。根據(jù)上采樣模塊的位置不同,可以將SISR 方法總結(jié)為以下四種超分框架:
(1)前端上采樣超分框架:這種框架最早被采用,如圖2 所示。前端上采樣可以避免在低維空間上進行低維到高維的映射學(xué)習(xí),降低了學(xué)習(xí)難度,是一種簡單易行的方法。但是同時噪聲和模糊等也被增強,并且在高維空間進行卷積運算將會增加模型計算量,消耗更多的計算資源。
圖2 前端上采樣框架Fig.2 Pre-upsampling framework
(2)后端上采樣超分框架:如圖3 所示,針對前端上采樣超分框架存在的問題,提高計算資源利用效率,研究者提出了后端上采樣超分框架,將上采樣模塊放置在網(wǎng)絡(luò)后面部分。該框架下的大部分卷積計算在低維空間進行,最后再利用端到端可學(xué)習(xí)的上采樣層,如轉(zhuǎn)置卷積和亞像素卷積,進行上采樣放大。這樣的好處是進一步釋放了卷積的計算能力,降低模型復(fù)雜度。
圖3 后端上采樣框架Fig.3 Post-upsampling framework
(3)漸進式上采樣超分框架:隨著超分的發(fā)展,超分尺度不斷增大,常規(guī)的上采樣模型已經(jīng)不能滿足要求。在這樣的需求下,漸進式上采樣超分框架被提出,如圖4所示。在該框架中,圖像放大是逐級進行的,中途生成的圖像繼續(xù)輸入后續(xù)模塊,直到達到目標(biāo)分辨率。常用方法是采用卷積級聯(lián)或者Laplace金字塔的方式,再結(jié)合多級監(jiān)督等學(xué)習(xí)策略,就能完成大的超分倍增系數(shù)下的超分重建任務(wù)。
圖4 漸進式上采樣框架Fig.4 Progressive upsampling framework
(4)升降采樣迭代式超分框架:Timofte 等人借鑒了反向投影的思想,提出了升降采樣迭代式超分框架,具體如圖5所示。隨后Haris等人采用了這種超分框架,在DBPN(deep back-projection networks)中交替使用上、下采樣,結(jié)合得到的所有特征圖來完成低分辨率圖像的重建。這種方法通過反復(fù)進行LRHR 的映射學(xué)習(xí),能充分學(xué)習(xí)出兩者之間的映射關(guān)系。但是目前這種超分框架的結(jié)構(gòu)復(fù)雜,設(shè)計標(biāo)準(zhǔn)也不明確,仍需要進一步地探索。
圖5 升降采樣迭代式框架Fig.5 Iterative up-and-down sampling framework
在神經(jīng)網(wǎng)絡(luò)占據(jù)主導(dǎo)地位的情況下,部分傳統(tǒng)的上采樣方式因其可解釋性以及容易實現(xiàn),在深度學(xué)習(xí)的超分模型中經(jīng)常見到,并且取得了讓人滿意的效果。本節(jié)主要介紹基于插值的傳統(tǒng)上采樣方法和端到端可學(xué)習(xí)的上采樣方法。
(1)基于插值法的上采樣方法
插值法的原理就是利用一定的數(shù)學(xué)策略,從相關(guān)點中計算出待擴展點的像素值,這在數(shù)學(xué)上很容易實現(xiàn),因此在超分重建領(lǐng)域最早采用插值法進行。但是因為插值函數(shù)本身的連續(xù)性,導(dǎo)致了重建圖像較為平滑而模糊。圖像紋理處常常是各種突變,這與函數(shù)的連續(xù)性互為矛盾,這正是基于插值的方法的局限性以及本質(zhì)問題所在。
(2)端到端可學(xué)習(xí)的上采樣方法
為了解決基于插值法的上采樣方法存在的問題,研究者們提出了端到端可學(xué)習(xí)的上采樣方法:轉(zhuǎn)置卷積和亞像素卷積。
轉(zhuǎn)置卷積又稱為逆卷積,即卷積過程的逆過程。轉(zhuǎn)置卷積通過卷積學(xué)習(xí)來增大圖像分辨率,實現(xiàn)了端到端的放大,避免了人工設(shè)計帶來的干擾,并且可以與卷積神經(jīng)網(wǎng)絡(luò)保持很好的兼容,因此被廣泛應(yīng)用在圖像超分辨率重建領(lǐng)域中。
亞像素卷積又稱為像素清洗。成像系統(tǒng)在利用感光元件對現(xiàn)實連續(xù)的世界離散化表示的過程中,每一個像素點之間比像素更小一級的存在,這就是“亞像素”。
亞像素卷積具體過程就是利用卷積計算對圖像進行特征提取,再對不同通道間的特征圖進行重組,從而得到更高分辨率的特征圖。由于每個像素的擴展都是通過卷積完成,相應(yīng)的參數(shù)都需要學(xué)習(xí)產(chǎn)生,解決了插值方法中存在的人工痕跡問題,更好地擬合了像素之間的關(guān)系。
目前,端到端可學(xué)習(xí)的放大方法已經(jīng)被廣泛使用,尤其是在網(wǎng)絡(luò)模型的后端進行上采樣,將大部分的數(shù)據(jù)計算工作在低維空間進行,大大提高了模型的計算速度,空間復(fù)雜度也大幅降低。
非線性映射學(xué)習(xí)模塊在訓(xùn)練過程中利用LR-HR圖像對學(xué)習(xí),使模型獲得從低分辨率圖像到高分辨率圖像的映射能力。在重建過程中,低分辨率圖像在該模塊完成分辨率的映射變換,再結(jié)合上采樣模塊實現(xiàn)超分辨率重建。
根據(jù)該模塊結(jié)構(gòu)的不同分為以下四種:基于卷積神經(jīng)網(wǎng)絡(luò)的模型、基于生成對抗網(wǎng)絡(luò)的模型、基于強化學(xué)習(xí)的網(wǎng)絡(luò)模型以及基于Transformer 的網(wǎng)絡(luò)模型。網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示。
圖6 四種不同網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Four different network structures
(1)基于卷積神經(jīng)網(wǎng)絡(luò)的SR 方法
卷積神經(jīng)網(wǎng)絡(luò)早在1989 年就被提出,但直到近幾年隨著計算機技術(shù)的發(fā)展以及訓(xùn)練樣本的增加,CNN 網(wǎng)絡(luò)在計算機視覺領(lǐng)域廣泛使用。
2014 年Dong 等人提出SRCNN算法,第一個將卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)模型引入到超分辨率重建領(lǐng)域,如圖7 所示。
圖7 SRCNN 結(jié)構(gòu)圖Fig.7 SRCNN structure
SRCNN 先對圖片進行下采樣預(yù)處理得到低分辨率圖像,利用雙三次插值放大到目標(biāo)分辨率,再用卷積核大小分別為9×9、1×1、5×5 的三個卷積層,分別進行特征提取,擬合LR-HR 圖像對之間的非線性映射以及將網(wǎng)絡(luò)模型的輸出結(jié)果進行重建,得到最后的高分辨率圖像。SRCNN 雖然結(jié)構(gòu)簡單,但是依托于對大樣本數(shù)據(jù)的學(xué)習(xí),重建效果超過了傳統(tǒng)算法,從而掀起了深度學(xué)習(xí)在超分領(lǐng)域的研究熱潮。
隨后Dong等人繼續(xù)對SRCNN 進行改進,提出了FSRCNN(fast super-resolution convolutional neural network)。與SRCNN 相比,F(xiàn)SRCNN 主要有三點改進:(1)直接用LR 圖像作為輸入,降低特征維度;(2)使用比SRCNN 更小的濾波器,網(wǎng)絡(luò)結(jié)構(gòu)加深;(3)采用后端上采樣超分框架,在網(wǎng)絡(luò)最后加入反卷積層來將圖像放大至目標(biāo)分辨率。FSRCNN采用更小的卷積核、更深的網(wǎng)絡(luò)層數(shù),訓(xùn)練速度提高,重建的HR 圖像質(zhì)量效果進一步得到提高。
此時基于卷積神經(jīng)網(wǎng)絡(luò)的模型的主要改進方向在卷積層的層數(shù)上,理論上來說,增加模型深度,可以提取到更高級的特征,提供更好的表達能力。2014 年VGGNet算法層數(shù)達到19 層時,取得了當(dāng)時最先進的結(jié)果。但是隨著模型深度的繼續(xù)增加,算法會出現(xiàn)模型退化、難以訓(xùn)練等問題。這個問題直到2015 年何愷明提出ResNet算法后,才得到真正解決。隨后提出的VDSR(very deep convolutional networks)、EDSR(enhanced deep residual networks for SR)、DBPN以及RCAN(residual channel attention networks)等模型,不斷加深了網(wǎng)絡(luò)深度,進一步提高了模型的性能。
(2)基于生成對抗網(wǎng)絡(luò)的SR 方法
隨著圖像超分辨率重建技術(shù)的發(fā)展,研究者們發(fā)現(xiàn),盡管重建出來的高分辨率圖像的PSNR/SSIM指標(biāo)越來越高,但是生成的圖像過于平滑,高頻紋理信息丟失,重建圖像缺乏人眼感官上的照片真實感,并且在工業(yè)界的實際使用效果依然很差。為了解決這個問題,研究者們將生成對抗網(wǎng)絡(luò)引入超分領(lǐng)域,重建出了令人滿意的紋理細節(jié)。
2017 年Ledig 等人首次將生成對抗網(wǎng)絡(luò)引 入超分重建領(lǐng)域,最早開始將超分研究的注意力從PSNR/SSIM 指標(biāo)上轉(zhuǎn)移到圖像感知質(zhì)量上,并提出了SRGAN算法。Ledig等人利用生成對抗網(wǎng)絡(luò)來對照片進行重建,同時摒棄了像素級的均方誤差(mean square error,MSE)損失,利用VGG 網(wǎng)絡(luò)提取出來的特征計算損失函數(shù)作為內(nèi)容損失,使得生成的圖片具有更多的紋理信息,更具有人眼感官上的真實感。內(nèi)容損失加上對抗網(wǎng)絡(luò)本身的對抗損失,共同構(gòu)成了感知損失函數(shù)。
基于生成對抗網(wǎng)絡(luò)的超分模型已經(jīng)取得了很好的性能,但是依然存在幾個嚴重的問題。首先,生成對抗網(wǎng)絡(luò)的訓(xùn)練很不穩(wěn)定,訓(xùn)練過程中很容易崩潰;其次,生成的圖像缺乏多樣性?;谏蓪咕W(wǎng)絡(luò)結(jié)構(gòu)的超分方法訓(xùn)練難度大,設(shè)備要求高。
(3)基于深度強化學(xué)習(xí)的SR 方法
深度強化學(xué)習(xí)是將深度學(xué)習(xí)與強化學(xué)習(xí)結(jié)合,從而實現(xiàn)從環(huán)境感知到行為映射的端到端可學(xué)習(xí)的一種算法。強化學(xué)習(xí)在現(xiàn)有數(shù)據(jù)的基礎(chǔ)上,循環(huán)利用學(xué)習(xí)得到的新的數(shù)據(jù),不斷提高模型的學(xué)習(xí)能力。該方法已經(jīng)被證明在不監(jiān)督每一步的情況下對序列模型進行全局優(yōu)化的有效性。
在圖像超分領(lǐng)域早期,利用深度學(xué)習(xí)算法學(xué)習(xí)LR 圖像到HR 圖像所有塊之間的映射時,沒有考慮到塊與塊之間的相關(guān)性。2017 年Cao 等人受人類感知過程的啟發(fā),從整體圖像開始,對不同區(qū)域的相關(guān)關(guān)系進行建模,并按照各個區(qū)域的關(guān)聯(lián)線索進行融合,探索具有注意力轉(zhuǎn)移機制的區(qū)域序列,結(jié)合深度學(xué)習(xí)強大的學(xué)習(xí)能力,提出了基于深度強化學(xué)習(xí)的注意感知人臉超分方法。
(4)基于Transformer的SR 方法
循環(huán)神經(jīng)網(wǎng)絡(luò)使得模型記憶能力,用以往的記憶和當(dāng)前的輸入來共同生成下一步的輸出,但是因為其計算過程被限制為順序的,循環(huán)神經(jīng)模型的并行能力受到了制約。當(dāng)信息跨度比較大時,在序列計算過程中會出現(xiàn)信息丟失。2017 年Vaswani 等人提出了Transformer,利用注意力機制打破RNN 計算順序限制,將序列中的任意位置距離縮小,可以很好地進行并行處理上的優(yōu)化。
2020 年Yang 等人最早將Transformer 引入圖像超分領(lǐng)域,提出了基于Transformer 網(wǎng)絡(luò)結(jié)構(gòu)的TTSR超分算法。為了充分利用參考圖像的紋理信息,Yang等人在TTSR中提出了特征融合機制,利用上采樣方式實現(xiàn)不同層級間的特征互相融合。大量的實驗表明,TTSR在客觀和主觀評價方面都取得了顯著的進步。
損失函數(shù)在非線性映射學(xué)習(xí)模塊的學(xué)習(xí)過程中,指導(dǎo)著超分模型向著預(yù)期的方向?qū)W習(xí)和前進,通過損失函數(shù)的變化可以知道當(dāng)前模型的訓(xùn)練與預(yù)期之間的差距,同時調(diào)控模型學(xué)習(xí)方向。
(1)像素損失函數(shù)
像素損失函數(shù)包括MSE 損失函數(shù)、像素L1 損失函數(shù),它們表示的都是重建圖像與目標(biāo)圖像之間像素的損失。
將深度學(xué)習(xí)引入超分領(lǐng)域的初始階段,都是采用MSE 作為損失函數(shù)。MSE 損失函數(shù)表達式如下:
MSE 損失函數(shù)(L2 loss)中,當(dāng)誤差較小時,MSE會進一步對誤差進行縮小,因此對較小的誤差無能為力;當(dāng)誤差大于1 時,MSE 會將誤差進一步放大,導(dǎo)致模型對這種誤差更為敏感,即使是一些異常值,模型也會進行調(diào)整以適應(yīng),這就使得最終重建圖像更為平滑、模糊,缺乏高頻的紋理細節(jié)。為了提高模型的重建效果,陸續(xù)改用L1 損失。
L1 損失函數(shù)即平均絕對誤差,表達式如下:
在實踐中,L1 損失函數(shù)的實際效果要比MSE 更好,更能提高模型性能,得到更高的指標(biāo)。
(2)內(nèi)容損失
為了提升圖像的感知質(zhì)量,引入了內(nèi)容損失函數(shù)。相對像素損失來說,內(nèi)容損失不再要求像素層面上的精確,而是追求人眼感官層面的相似。為了提升感知質(zhì)量,利用神經(jīng)網(wǎng)絡(luò)中生成的圖像特征與真實圖像特征之間的距離來進行計算,表達式如下:
(3)對抗損失
對抗損失來源于具有強大學(xué)習(xí)能力的生成對抗網(wǎng)絡(luò)。2017 年Ledig 等人提出了圖像超分領(lǐng)域的經(jīng)典模型SRGAN,生成的圖像包含更多高頻信息,在感官上更符合人眼的要求。對抗損失在SRGAN中的定義如下:
其中,()是基于交叉熵得到的生成器的損失函數(shù),(,)是鑒別器的損失函數(shù),()表示生成器生成的圖像是自然圖像的概率。
但是,使用這個損失函數(shù)時網(wǎng)絡(luò)難以訓(xùn)練且容易崩潰。為了解決這個問題,在WGAN(Wasserstein generative adversarial network)模型中對該函數(shù)進行了改進,在輸出層中去掉了sigmoid 或softmax 層,將權(quán)值限定在一定的范圍內(nèi),定義如下所示:
在WAGN-GP中,研究者認為將權(quán)值進行限定不合理,將限定去掉后使用梯度懲罰對鑒別器進行約束,如下所示:
(4)感知損失
感知損失通過衡量提取的特征之間的距離來進行優(yōu)化,可以很好地改進圖像的感知質(zhì)量,使得超分重建的圖像更加符合人眼的感官感受。在SRGAN 中將感知函數(shù)定義成內(nèi)容損失和對抗損失的加權(quán)和:
其中,為感知損失,為內(nèi)容損失,()為對抗損失。
RefSR 方法借助引入的參考圖像,將相似度最高的參考圖像中的信息轉(zhuǎn)移到低分辨率圖像中并進行兩者的信息融合,從而重建出紋理細節(jié)更清晰的高分辨率圖像。目前的參考圖像可以從視頻幀圖像、Web 檢索圖像、數(shù)據(jù)庫以及不同視角的照片中來獲取。RefSR 在重建圖片紋理細節(jié)方面有著很大的優(yōu)越性,近幾年來受到越來越多的關(guān)注。
RefSR 方法可以分為兩步:第一步將參考圖像中有用的信息與輸入圖像中的信息進行匹配,能準(zhǔn)確對應(yīng)兩者的信息是重建令人滿意的細節(jié)紋理的關(guān)鍵。第二步將匹配到的信息進行提取,并與輸入圖像進行融合,進而重建出滿意的圖像。因此,RefSR方法性能好壞的決定性因素就是LR 圖像與高分辨率參考圖像之間的匹配和融合的準(zhǔn)確性。
本文根據(jù)紋理細節(jié)在神經(jīng)網(wǎng)絡(luò)中的匹配方式,將RefSR方法分為像素對齊和Patch匹配兩類,如圖8所示。
圖8 典型的RefSR 模型Fig.8 Typical RefSR model
利用額外的高分辨率參考圖像來輔助LR 圖像的超分重建過程,這就要求兩者圖片具有一定的相似性,如具有相同或相似的事物,或者是兩者的拍攝角度改變,同一事物但背景不同等。圖像對齊是實現(xiàn)利用參考圖像輔助重建的前提條件,先從LR 圖像中檢測稀疏的特征,再在參考圖像中進行特征匹配,最后基于這些匹配特征將原LR 圖像映射到另一個圖像中,從而實現(xiàn)圖像對齊。
在早期的工作中,Landmark提出了檢索相關(guān)網(wǎng)絡(luò)圖像作為參考圖像的方法。如圖9 所示,為了解決檢索出來的參考圖像的HR細節(jié)的不確定性,Landmark通過全局配準(zhǔn)來將參考圖像與上采樣后的LR 圖像進行對齊,從而識別出這些圖像中各自對應(yīng)的區(qū)域,減少失配或錯配的情況。最后通過求解能量最小化問題來將匹配的HR 細節(jié)信息與輸入圖像進行混合,以恢復(fù)期望的SR 圖像。
圖9 Landmark 結(jié)構(gòu)圖Fig.9 Landmark structure
引入?yún)⒖紙D像來促進低分辨率圖像的超分重建過程,盡管參考圖像與LR 圖像具有相似的細節(jié)信息,但是兩者的分辨率差距較大,有時達到了8 倍甚至更大的差距。同時因為之前的方法通常是采用級聯(lián)方式連接,往往是具有獨立定義的目標(biāo)函數(shù)的合成流水線,從而導(dǎo)致生成圖像發(fā)生塊間錯位、網(wǎng)格效應(yīng)等問題。
為了解決這個問題,2018 年Zheng 等人提出了CrossNet模型,模型結(jié)構(gòu)如圖10 所示。CrossNet 模型是一種端到端的完全卷積的深度神經(jīng)網(wǎng)絡(luò),通過預(yù)測光流量來進行跨尺度變換,包括了圖像編碼器、跨尺度變換層以及融合解碼層。其中跨尺度變換層負責(zé)將編碼層提取的參考特征圖與LR 特征圖在空間上對齊,有了參考圖像的特征互補,有效緩解了參考圖像中巨大的分辨率差距問題。由于使用了跨尺度變換,CrossNet網(wǎng)絡(luò)能夠以端到端的方式在像素級上實現(xiàn)對齊。
圖10 CrossNet結(jié)構(gòu)圖Fig.10 CrossNet structure
2018年Zhao等人提出了高頻補償超分辨率(highfrequency compensation super-resolution,HCSR)模型。該模型引入了SISR 圖像的中間視圖,得到與HR 圖像分辨率相同的LR 圖像,此LR 圖像在該分辨率下缺失的高頻細節(jié)在SISR方法下無法得到,僅僅將其中的信息作為需要超分重建過程中的低頻信息。HCSR為了解決跨尺度輸入之間的顯著分辨率之差引起的變換問題,需要計算從參考圖像到所有LR 光場圖像的多個視圖差,然后利用混合策略對精化的視差圖進行融合,最后得到高質(zhì)量的超分圖像。
利用光流預(yù)測的方法僅限于小視差的條件,盡管在光場數(shù)據(jù)集上可以達到很高的精度,但處理大視差情況的效果迅速下降。這些采用像素對準(zhǔn)的RefSR 方法在很大程度上依賴于LR 和HR 基準(zhǔn)之間的像素級對準(zhǔn)質(zhì)量。
2020 年Shim 等人在堆疊的可變性卷積的基礎(chǔ)上提出了可實現(xiàn)端到端的新穎高效的參考圖像特征提取模塊——相似性搜索與提取網(wǎng)絡(luò)(similairity search and extraction network,SSEN),可以從參考圖像中提取對齊的相關(guān)特征,并且可以插入到任何現(xiàn)有的超分辨率網(wǎng)絡(luò)中。Shim 等人使用非局部塊作為偏移量估計來積極地搜索相似度,可以以多尺度的方式執(zhí)行像素對齊。與使用暴力搜索或光流估計的方法相比,SSEN 無需任何額外的監(jiān)督或繁重的計算,只需要一次網(wǎng)絡(luò)操作就可以預(yù)測最佳匹配,極大地提高了RefSR 方法的魯棒性。
Patch 匹配是一種紋理合成的方法,利用自身圖片或參考圖片中其他區(qū)域來恢復(fù)目標(biāo)圖片的邊緣區(qū)域,這與RefSR 的目的完全吻合。
2017 年Zheng 等人利用Patch 匹配的方法,提出了SS-Net 模型。具體來說,SS-Net 首先設(shè)計了一個跨尺度對應(yīng)網(wǎng)絡(luò)來表示參考圖像和低分辨率圖像之間的跨尺度Patch 匹配。這個跨尺度對應(yīng)網(wǎng)絡(luò)就是一個分類網(wǎng)絡(luò),它從搜索范圍內(nèi)的候選Patch中預(yù)測正確的匹配,再利用擴張卷積,有效地實現(xiàn)了訓(xùn)練以及特征圖的生成。跨尺度對應(yīng)網(wǎng)絡(luò)選擇了需要的Patch之后,在多個尺度上對低分辨率圖像的Patch與參考圖像的Patch進行融合,最終合成HR圖像并輸出。
利用參考圖像促進LR 圖像有效超分重建的前提是兩者需要具有一定的相似度,這直接關(guān)系到重建圖像質(zhì)量的高低。當(dāng)相似度很低時,生成圖像質(zhì)量急劇下降。
為了解決這個問題,增強模型的魯棒性,2019 年Zheng 等人提出了端到端可學(xué)習(xí)的SRNTT(superresolution by neural texture transfer)網(wǎng)絡(luò)模型,模型結(jié)構(gòu)如圖11 所示。Zheng 等人將RefSR 問題表述為神經(jīng)紋理轉(zhuǎn)移問題,模型根據(jù)紋理相似度自適應(yīng)地完成紋理轉(zhuǎn)換,豐富了HR 紋理細節(jié)。與原始像素空間進行匹配不同,SRNTT 對預(yù)先訓(xùn)練的VGG 中提取的參考特征與LR 特征在自然空間中進行多級匹配,促進了多尺度神經(jīng)傳輸,這樣模型就可以從相關(guān)的參考紋理中獲得更多的收益,并且即使在參考圖像極不相關(guān)的情況下,模型性能也只會降低到SISR的性能。
圖11 SRNTT 結(jié)構(gòu)圖Fig.11 SRNTT structure
2020 年Yang 等人進一步將Transformer架構(gòu)引入RefSR 任務(wù),提出了TTSR 模型。如圖12 所示,TTSR 以跨尺度的方式堆疊紋理轉(zhuǎn)換器以融合多層信息,Transformer中的硬注意和軟注意有助于更精準(zhǔn)地傳遞參考圖像中的紋理特征。TTSR 總共有四個模塊,分別是可學(xué)習(xí)的DNN(deep neural networks)紋理提取器、相關(guān)嵌入模塊、用于紋理轉(zhuǎn)移的硬注意力模塊和用于紋理合成的軟注意力模塊。通過這樣的設(shè)計,硬注意力模塊可以發(fā)現(xiàn)深層的特征并完成對應(yīng),準(zhǔn)確地將紋理特征傳遞到軟注意力模塊實現(xiàn)紋理合成,完成跨越不同圖像的特征聯(lián)合學(xué)習(xí)。整個模型可以通過跨尺度的方式進行堆疊,滿足不同放大尺度的超分重建的同時得到令人滿意的恢復(fù)紋理。
圖12 TTSR 結(jié)構(gòu)圖Fig.12 TTSR structure
SRNTT 和TTSR 結(jié)合深度學(xué)習(xí)框架和Patch 匹配,獲得令人滿意的視覺效果的同時,進一步擴展了在沒有視圖約束的情況下對高分辨率圖像的參考。SRNTT 將RefSR 問題重新考慮為神經(jīng)紋理轉(zhuǎn)移問題,以風(fēng)格轉(zhuǎn)移的方式對預(yù)訓(xùn)練的VGG 特征進行合成。TTSR 設(shè)計了一個充分利用注意力機制來完成Patch 匹配和信息合成的紋理轉(zhuǎn)換器。SRNTT 和TTSR 都需要對提取的Patch進行徹底的比較,當(dāng)紋理較少或圖像區(qū)域重復(fù)時,兩者都不能很好地處理,這就導(dǎo)致兩者的Patch 匹配方法計算成本很高。
現(xiàn)有的RefSR 方法普遍存在一個問題,當(dāng)?shù)头直媛蕡D像和高分辨率參考圖像的分辨率差異較大時,如兩者相差8 倍,很難實現(xiàn)高保真超分辨率。
針對這個問題,2021 年Zhou 等人從解決實際多尺度相機系統(tǒng)中的RefSR 問題出發(fā),受到多平面圖像(multiplane image,MPI)表示的啟發(fā),提出了一個端到端可學(xué)習(xí)的RefSR 網(wǎng)絡(luò)模型——Cross-MPI 模型。Cross-MPI 模型由平面感知MPI 機制、多尺度引導(dǎo)的采樣模塊以及超分辨率融合模塊三部分組成。模型中提出的平面感知MPI 機制充分利用了場景結(jié)構(gòu)進行有效的基于注意機制的對應(yīng)搜索,不需要進行跨尺度立體圖像之間的直接匹配或窮舉匹配。在此基礎(chǔ)上,Cross-MPI 進一步結(jié)合從粗到精的引導(dǎo)上采樣策略,實現(xiàn)了精準(zhǔn)的細節(jié)傳輸,同時增強了模型的穩(wěn)定性。
利用高分辨率參考圖像來恢復(fù)低分辨率圖像的高頻紋理細節(jié),實現(xiàn)高質(zhì)量的匹配成為生成圖像質(zhì)量好壞的關(guān)鍵。除此之外,現(xiàn)有方法忽略了參考圖像和低分辨率圖像在分布上存在巨大的差異,這對信息的有效性產(chǎn)生了一定的影響。
針對這些問題,2021 年Lu 等人提出了MASA(matching acceleration and spatial adaptation)模型。MASA模型中設(shè)計了兩個新的模塊來解決上述問題,分別是特征匹配與提取模塊和空間自適應(yīng)模型。特征匹配與提取模塊在保持高質(zhì)量匹配的同時,通過由粗到精的對應(yīng)匹配方案,利用自然圖像的局部相關(guān)性,針對LR 圖像特征圖中的每個Patch,將其搜索空間從整個參考圖像特征圖縮小到一個特點的參考塊,顯著降低了計算成本??臻g自適應(yīng)模塊學(xué)習(xí)低分辨率圖像和參考圖像之間的分布差異,有效處理兩者在顏色、亮度等分布上存在較大差異的情況,并以空間自適應(yīng)的方式將參考圖像特征的分布重新映射到低分辨率圖像特征的分布中。有了這些設(shè)計,參考圖像中真正有用的信息可以更有效地轉(zhuǎn)移和利用。最后提出了雙殘差聚合模塊(dual residual aggregation module,DRAM)來完成參考圖像特征和LR 圖像特征的融合。
紋理傳輸?shù)年P(guān)鍵步驟就是找到低分辨率圖像和參考圖像之間的對應(yīng)關(guān)系。常見的RefSR 方法都是基于內(nèi)容和外觀相似度進行計算的,這忽略了高分辨率參考圖像與低分辨率圖像之間的底層轉(zhuǎn)換關(guān)系,如縮放和轉(zhuǎn)換等,盡管有著相同的對象或者相似的紋理,當(dāng)發(fā)生底層轉(zhuǎn)換時往往會導(dǎo)致外觀發(fā)生變化。再加上分辨率上的差距,這在真實情況下將很難準(zhǔn)確計算兩者之間的對應(yīng)關(guān)系,此時僅僅利用外觀去計算對應(yīng)關(guān)系是不準(zhǔn)確的。除此之外,高分辨率參考圖像在進行下采樣時也不可避免地丟失信息,這阻礙了網(wǎng)絡(luò)對紋理精細區(qū)域的搜索。上述原因?qū)е碌淖罱K結(jié)果是參考圖像的有用信息不能得到充分利用,紋理傳輸不理想。
為了解決上述問題,2021 年Jiang 等人提出了C-Matching 模型。C-Matching 模型由三個模塊組成,分別是對比網(wǎng)絡(luò)模塊、教師-學(xué)生蒸餾模塊以及動態(tài)聚合模塊。對比網(wǎng)絡(luò)模塊解決了底層變換之間的差距,利用輸入圖像的增強視圖來學(xué)習(xí)底層變換之后的對應(yīng)關(guān)系,增強模型魯棒性。師生相關(guān)蒸餾模塊用于解決分辨率差距問題,從HR-HR的匹配中提取知識來指導(dǎo)不明確的LR-HR 匹配。動態(tài)融合模塊用來解決潛在的錯位問題。大量實驗表明,C-Matching模型的性能顯著優(yōu)于現(xiàn)有技術(shù)1 dB以上,同時對大尺度和旋轉(zhuǎn)變換具有較強的魯棒性。
已經(jīng)證明,在恢復(fù)圖像細節(jié)紋理方面,RefSR利用參考圖像信息來補償?shù)头直媛蕡D像中丟失的細節(jié)信息,比SISR 具有更大的優(yōu)勢,可以生成更真實的令人視覺滿意的紋理。即使兩者圖像紋理相似度很低,RefSR也可以達到同等程度的SISR的效果。
但是RefSR 的網(wǎng)絡(luò)模型結(jié)構(gòu)比較復(fù)雜,需要消耗更大的計算資源,同時RefSR 網(wǎng)絡(luò)模型的性能取決于信息的對齊和匹配,因此探索更好的對齊方法和匹配準(zhǔn)則,是該領(lǐng)域的研究熱點也是難點。除此之外,引入的參考圖像與輸入低分辨率圖像的相關(guān)程度也會對最終生成圖像的質(zhì)量產(chǎn)生相應(yīng)影響。
benchmark 數(shù)據(jù)集是同一領(lǐng)域內(nèi)的對比標(biāo)準(zhǔn),表1 主要列舉了該領(lǐng)域的benchmark 測試數(shù)據(jù)集,即Set5、Set14、BSD100、Urban100 以及DIV2K 數(shù)據(jù)集。除此之外,F(xiàn)lickr2K 也是超分領(lǐng)域主流的訓(xùn)練數(shù)據(jù)集,以及后續(xù)提出的具有LR-HR 圖像對的真實數(shù)據(jù)集City100、RealSR、DRealSR。
表1 benchmark 數(shù)據(jù)集介紹Table 1 Introduction to benchmark datasets
為了更好地對圖像超分辨率重建結(jié)果進行評估,需要引入圖像質(zhì)量評估指標(biāo)。目前的評估主要分為客觀評估和主觀評估兩種??陀^評估是對超分重建結(jié)果的定量評價,直接定量地反映圖像質(zhì)量,從數(shù)據(jù)上可以直接得出結(jié)果的好壞。主觀評價是對超分重建結(jié)果的定性評價,是以人為主體,邀請受訪者對重建的圖像質(zhì)量進行對比和評估,這種評價方法依賴于人的判斷。目前來說,主觀評價和客觀評價的結(jié)果往往是不同的,客觀評價是從數(shù)學(xué)角度出發(fā),并沒有考慮到人的感官感受,這使得客觀評估指標(biāo)較好但又不符合人眼的感官感受,因此還存在一定的爭議。
(1)峰值信噪比
峰值信噪比(PSNR)是圖像進行有損變換時最常用的度量指標(biāo)之一,也是目前超分領(lǐng)域使用最廣泛的客觀評價指標(biāo)。PSNR由圖像的最大像素值和均方誤差(MSE)來定義,如式(11)所示:
其中,為均方誤差,MAX指表示圖像點顏色的最大數(shù)值,圖像的最大像素值由二進制位數(shù)決定,如8 位二進制表示的圖像的最大像素值就是255。
由于PSNR 與MSE 有關(guān),沒有考慮到人的視覺感知,雖然模型能達到比較高的PSNR 指標(biāo),但在真實場景中的實際效果依然不能使人滿意。盡管如此,由于缺乏更為準(zhǔn)確的感知評價指標(biāo),PSNR 依然被研究者廣泛使用。
(2)結(jié)構(gòu)相似度
結(jié)構(gòu)相似性(SSIM)也是目前圖像超分領(lǐng)域被廣泛使用的性能指標(biāo)之一。SSIM從人類視覺系統(tǒng)中獲得靈感,將圖像的組成分為亮度、對比度以及結(jié)構(gòu)三部分,并用均值作為亮度的估計,標(biāo)準(zhǔn)差作為對比度估計,協(xié)方差作為結(jié)構(gòu)相似程度估計,數(shù)學(xué)表達式如下:
其中,(,)表示圖像的亮度比較,(,)表示圖像的對比度比較,(,)表示圖像的結(jié)構(gòu)比較,代表均值,表示標(biāo)準(zhǔn)差,σ表示協(xié)方差,為常數(shù),避免出現(xiàn)分母為0 導(dǎo)致系統(tǒng)錯誤。在工程中,常常令===1,=/2,得到簡化后的SSIM:
(3)平均意見評分
平均意見評分(mean opinion score,MOS)是一種常用的主觀圖像質(zhì)量評估的方法,通過邀請接受過訓(xùn)練的普通人以及未接受過訓(xùn)練的普通人來對重建的圖像進行評分,并且兩者人數(shù)大致均衡。通過給重建圖像打分,再對最后的得分進行平均,在視覺感知方面遠遠優(yōu)于其他評價指標(biāo),可以準(zhǔn)確測量圖像感知質(zhì)量。
目前普遍采用PSNR/SSIM 作為圖像質(zhì)量指標(biāo),這也導(dǎo)致模型以刷新PSNR/SSIM 指標(biāo)為目的,忽略了圖像超分辨率重建最初的目標(biāo),即重建出包含更多細節(jié)、更為清晰的圖像。現(xiàn)在的研究者們發(fā)現(xiàn)采用PSNR/SSIM 作為唯一評價指標(biāo)帶來的問題,盡管該評價指標(biāo)達到了一定的高度,但重建出來的圖像變得平滑、模糊,不符合人眼感官。研究者們開始注重圖像感官質(zhì)量,提出了主觀圖像質(zhì)量評價指標(biāo)。但是到目前為止,除了耗時耗力的人為主觀評分,仍然沒有被該領(lǐng)域統(tǒng)一公認的指標(biāo)出現(xiàn),因此這也是目前該領(lǐng)域需要取得突破的方向之一。
表2 對SISR 中具有代表性的模型進行了統(tǒng)計,表3 對RefSR 中具有代表性的模型進行了統(tǒng)計。
表2 SISR 模型統(tǒng)計Table 2 SISR model statistics
表3 RefSR 模型統(tǒng)計Table 3 RefSR model statistics
本節(jié)對具有典型代表性的超分模型進行性能對比,利用PSNR/SSIM 指標(biāo)來進行性能評估,表4 和表5 分別是SISR 方法和RefSR 方法的性能對比。表中數(shù)據(jù)來自相關(guān)文獻中的實驗數(shù)據(jù)。
表4 SISR 算法性能評估Table 4 Algorithm performance evaluation of SISR
結(jié)合表2和表4來看,目前SISR方法性能的提升除了增加模型深度和寬度外,主要集中在以下幾個方面:
(1)更復(fù)雜的損失函數(shù)。從最早的MSE 損失,到L1 損失,再到后來的對抗損失、梯度加權(quán)損失、內(nèi)容損失、感知損失以及重構(gòu)損失等,越來越復(fù)雜的損失函數(shù)不僅僅可以在指標(biāo)上提升模型性能,更能提高重建圖像的紋理細節(jié)。
(2)多種網(wǎng)絡(luò)模型的結(jié)合。最早的SRCNN 模型直接進行CNN 卷積直連,獲得了超過傳統(tǒng)算法的結(jié)果。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,性能越來越好的網(wǎng)絡(luò)結(jié)構(gòu)被提出,殘差網(wǎng)絡(luò)、稠密網(wǎng)絡(luò)以及注意力機制網(wǎng)絡(luò)等模型逐漸應(yīng)用到了超分領(lǐng)域,多種網(wǎng)絡(luò)結(jié)構(gòu)的結(jié)合,越來越復(fù)雜的超分模型,大大增強了超分算法模型的性能。
(3)充分利用圖像全局特征。神經(jīng)網(wǎng)絡(luò)通過感受野來獲取相應(yīng)范圍內(nèi)的圖像特征,增加模型深度可以增大感受野范圍。雖然通過殘差可以在一定程度上解決模型的訓(xùn)練問題,但是仍不可避免地帶來巨大的計算量以及龐大的模型結(jié)構(gòu)。RCAN、SAN(secondorder attention network)、CDC(component divide-andconquer)以及HAN(holistic attention network)和DFCAN(deep Fourier channel attention network)等模型通過結(jié)合殘差網(wǎng)絡(luò)和注意力機制,使得模型可以充分利用全局特征進行學(xué)習(xí)和重建。并且從超分的實現(xiàn)來說,對所有對象一視同仁不利于計算資源的充分利用,也不符合實際,一張圖像中不同區(qū)域?qū)W習(xí)超分重建的難度也不相同。
(4)增強特征信息流的流動和融合。全局特征、局部特征、不同層之間的特征以及不同通道之間的特征都有利于超分圖像的重建。HAN 模型通過注意力模塊實現(xiàn)了對不同層、通道以及位置之間的特征關(guān)系的學(xué)習(xí),增強了特征表達能力。SAN 通過二階注意力通道模塊來學(xué)習(xí)中間層特征之間的關(guān)系,結(jié)合非局部操作來提取圖像的上下文信息,大大提高了模型性能。多尺度信息提取也大大增強了模型對特征的利用效率。
結(jié)合表3 和表5,對RefSR 方法進行如下總結(jié):
表5 RefSR 算法性能評估(4 倍放大)Table 5 Algorithm performance evaluation of RefSR(×4)
解決參考圖像與輸入圖像的對應(yīng)關(guān)系,是RefSR方法面臨的關(guān)鍵問題,這在很大程度上決定了RefSR模型的性能。早期的主要是通過圖像對齊的方式完成兩者的對齊,因為參考圖像與輸入圖像之間較大的分辨率差距,影響了模型的學(xué)習(xí)能力。CrossNet方法利用融合解碼層來解決分辨率差距的問題,但是也只能用于小視差的條件。除了圖像對齊,還可以通過Patch 匹配來獲得與輸入圖像紋理相似的參考圖像紋理,再對兩者進行融合進而生成紋理清晰的圖像。與圖像對齊相比,基于Patch 匹配的模型擁有更好的性能,PSNR/SSIM 指標(biāo)上也獲得了很大的提升。但是這就要求輸入圖像與參考圖像的紋理具有一定的相似度。在SRNTT 中,模型在特征空間進行多級匹配,促進了多尺度神經(jīng)傳輸,使得模型即使在參考圖像與輸入圖像不相關(guān)的條件下也只是降低到相應(yīng)的SISR 級別。
如圖13 所示,雖然RefSR 方法可以重建出令人滿意的紋理細節(jié),但是其結(jié)構(gòu)復(fù)雜,需要消耗大量的計算機資源。單圖像超分辨率重建問題本身的不適應(yīng)性決定了解決該問題的難度,但是同時SISR方法在輸入僅為一張低分辨率圖像的情況下自動生成高分辨率圖像,具有很強的實用性和很高的研究價值。
圖13 兩種方法對比Fig.13 Comparison of two methods
通過上述總結(jié),可以得到以下超分模型的改進和提升方向:
(1)提出更加復(fù)雜的損失函數(shù)。最早在SRCNN模型中采用像素損失函數(shù)MSE 和L1 損失函數(shù),雖然很輕松就提高了圖像的PSNR/SSIM 指標(biāo),且易于實現(xiàn),但是重建的圖像平滑而模糊,不符合人眼感官。在SRGAN 中,首次采用VGG 網(wǎng)絡(luò)中的特征信息作為內(nèi)容損失,再結(jié)合GAN 網(wǎng)絡(luò)中的對抗損失,提出了感知損失函數(shù),大幅提升了重建圖像的感知質(zhì)量,重建了圖像中的部分細節(jié)紋理,取得了質(zhì)的發(fā)展。隨后的網(wǎng)絡(luò)中,損失函數(shù)越來越復(fù)雜,在感知損失的基礎(chǔ)上,加入了重構(gòu)損失、內(nèi)部監(jiān)督損失等函數(shù),進一步提升了圖像的感知質(zhì)量。
(2)實現(xiàn)任意尺度下的超分重建。在圖像重建過程中,放大倍數(shù)越大,需要重建的細節(jié)信息就越多,同時重建所需的信息也更多,困難程度也隨之增大。早期的模型方法只能實現(xiàn)×2、×3 以及×4 的倍數(shù)放大,在2017 年提出的LapSRN模型中,采用了漸進式上采樣超分框架,利用前向推理過程中生成的圖像繼續(xù)進行重建,實現(xiàn)了×8 的放大,并且一次前向推理便可以得到×2、×4 以及×8 的放大圖像。后續(xù)提出的模型大多都能實現(xiàn)×8的放大,但是隨著尺度因子的增加,重建效果變得不太理想。在2021 年提出的LIIT模型中,通過連續(xù)表達學(xué)習(xí),最終實現(xiàn)了×30的放大。可見,實現(xiàn)大尺度重建是目前的研究趨勢之一。
(3)提升模型性能的同時,追求模型的輕量化。直接增加模型深度,增加模型參數(shù)數(shù)量,可以更好地對數(shù)據(jù)進行擬合,進而重建出更好的圖像。但是這樣也會導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)規(guī)模過大,需要巨大的算力,不符合實際使用情況,只能在實驗室算力條件下才能進行。在2016 年提出的DRCN(deeply-recursive convolutional network)模型中,將遞歸學(xué)習(xí)引入超分模型中,利用遞歸結(jié)構(gòu)參數(shù)共享的特點,可以在增加模型深度的同時不增加參數(shù)。隨后的DRRN(deep recursive residual network)、MemNet等模型中,都加入了遞歸結(jié)構(gòu),DSRN(dual-state recurrent network)、SPFlow等模型不僅僅加入了遞歸結(jié)構(gòu),還加入了自注意機制,能夠?qū)崿F(xiàn)對有用信息的放大和無用信息的抑制,進一步輕量化超分模型。
(4)多種網(wǎng)絡(luò)模塊的有效組合。在最早的SRCNN 中僅僅用了三層卷積層,在VDSR 中加入了殘差塊,加深了網(wǎng)絡(luò)模型;在SRResNet中直接加入了殘差網(wǎng)絡(luò),大大增加了模型的深度,同時網(wǎng)絡(luò)性能也得到很大提高,PSNR/SSIM 指標(biāo)達到了當(dāng)時最高。SRDenseNet模型結(jié)合了殘差網(wǎng)絡(luò)和稠密網(wǎng)絡(luò),RCAN模型中結(jié)合了殘差網(wǎng)絡(luò)和注意力機制網(wǎng)絡(luò),多種網(wǎng)絡(luò)的組合使得模型性能進一步提升?;趨⒖嫉膱D像超分辨率重建技術(shù)可以重建出令人滿意的紋理細節(jié),但是因為本身網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,占據(jù)大量的計算資源,如果能解決模型的輕量化問題,模型的實用性將會得到大大提高。
(5)采用降質(zhì)方式更加復(fù)雜的數(shù)據(jù)集進行訓(xùn)練,利用相機獲得同一場景下不同分辨率的圖像,這也更符合圖像超分的實際需要。深度學(xué)習(xí)在訓(xùn)練過程中需要大量包含LR-HR 圖像對的訓(xùn)練樣本,通過下采樣這種方式獲取低分辨率圖像本身就決定了降質(zhì)方式的單一。然而,現(xiàn)實中的低分辨率圖像的產(chǎn)生方式多種多樣,如風(fēng)霜雨雪霧等天氣原因以及物理采集設(shè)備造成的目標(biāo)不清晰等,這也是超分重建技術(shù)實際需要解決的問題。2018 年的Learning to Zoom中,Zhang 等人利用相機制作了真實場景下具有LRHR 圖像對的數(shù)據(jù)集Raw Data,讓模型自己學(xué)習(xí)如何縮放。隨后提出的RealSR 和DRealSR 數(shù)據(jù)集也都是具有LR-HR 圖像對的真實場景數(shù)據(jù)集,且內(nèi)容更多樣化,覆蓋面更廣。目前,針對于已知退化模型的超分方法研究,盲超分作為解決未知退化模型問題的方法,成為當(dāng)前比較熱的研究方向。
本文對基于深度學(xué)習(xí)的圖像超分辨率重建技術(shù)進行了綜述,包括單圖像超分辨率重建技術(shù)和基于參考的圖像超分辨率重建技術(shù),分別對兩者進行分析和論述,總結(jié)了目前該領(lǐng)域的研究現(xiàn)狀。最后對圖像超分領(lǐng)域研究的未來進行展望,總結(jié)了以下幾點發(fā)展趨勢:
(1)真實場景下的圖像超分重建
深度學(xué)習(xí)在訓(xùn)練過程中需要大量的數(shù)據(jù)集作為樣本進行訓(xùn)練,訓(xùn)練樣本的質(zhì)量高低在很大程度上會對模型的性能產(chǎn)生影響。自然條件下低分辨率圖像的獲取和收集存在一定難度,目前大多數(shù)模型都是通過降采樣獲取,雖然這解決了訓(xùn)練樣本有無的問題,但是同時也大大減弱了模型對真實場景的圖像的重建能力。在接下來的研究中,真實場景下的低分辨率圖像的獲取和收集會成為該領(lǐng)域的研究熱點,針對真實場景的超分重建研究將大大提高圖像超分的實際應(yīng)用價值。
(2)無監(jiān)督超分辨率重建
有監(jiān)督的圖像超分辨率重建需要LR-HR 圖像對作為數(shù)據(jù)集,在模型中需要設(shè)計降質(zhì)模塊來對HR 圖像進行降質(zhì)。這種降質(zhì)方式固定且單一,與實際復(fù)雜多變的降質(zhì)情況不符,嚴重影響了圖像超分的發(fā)展和應(yīng)用價值。無監(jiān)督圖像超分不需要成對的訓(xùn)練樣本,降低了訓(xùn)練樣本的要求,更符合實際情況的超分需要,但是這也對模型的學(xué)習(xí)能力提出了更高的要求。因此,如何實現(xiàn)無監(jiān)督的超分辨率重建,即在不需要構(gòu)建LR-HR 圖像對的情況下進行超分辨率重建,是未來很有發(fā)展前景的方向。
(3)特殊領(lǐng)域的超分重建研究
目前大多數(shù)的圖像超分重建研究都是針對自然圖像,雖然具有普適性,但是從專業(yè)和實用的角度來說,這大大減弱了超分的研究價值。不同應(yīng)用場景下的圖像之間的特征差距十分明顯,甚至不同場景下的圖像特征會對模型正確的特征表達產(chǎn)生反向抑制的效果。從視頻監(jiān)控、衛(wèi)星遙感到醫(yī)學(xué)成像、刑偵分析等,對特殊領(lǐng)域的超分研究,將使模型變得簡單而專業(yè),可以充分滿足該領(lǐng)域的實際需求。
(4)交叉模態(tài)信息下的超分研究
不同模態(tài)的信息在超分重建過程中能提供不同的信息,如在人臉超分重建的過程中,目標(biāo)的性別、身份以及其他屬性信息也能對重建過程產(chǎn)生幫助,甚至還可以利用聲音信息來引導(dǎo)重建。除了音頻信息之外,深度、近紅外光譜信息也可以用于超分重建。多模態(tài)信息融合下的超分研究將會成為該領(lǐng)域的研究方向之一。