真實復(fù)雜場景下基于殘差收縮網(wǎng)絡(luò)的單幅圖像超分辨率方法

2024-01-09 03:59:22李穎黃超孫成棟徐勇

計算機(jī)應(yīng)用 2023年12期

李穎，黃超，孫成棟，徐勇*

李穎1，2，黃超1，2，孫成棟1，2，徐勇1，2*

（1.哈爾濱工業(yè)大學(xué)（深圳）計算機(jī)科學(xué)與技術(shù)學(xué)院，廣東深圳 518055； 2.深圳市視覺目標(biāo)檢測與判識重點(diǎn)實驗室（哈爾濱工業(yè)大學(xué)（深圳）），廣東深圳 518055）（?通信作者電子郵箱laterfall@hit.edu.cn）

真實世界中極少存在成對的高低分辨率圖像對，傳統(tǒng)的基于圖像對訓(xùn)練模型的單幅圖像超分辨率（SR）方法采用合成數(shù)據(jù)集的方式得到訓(xùn)練集時僅考慮了雙線性下采樣退化，且傳統(tǒng)圖像超分辨率方法在面向真實的未知退化圖像時重建效果較差。針對上述問題，提出一種面向真實復(fù)雜場景的圖像超分辨率方法。首先，采用不同焦距對景物進(jìn)行拍攝并配準(zhǔn)得到相機(jī)采集的真實高低分辨率圖像對，構(gòu)建一個場景多樣的數(shù)據(jù)集CSR（Camera Super-Resolution dataset）；其次，為了盡可能地模擬真實世界中的圖像退化過程，根據(jù)退化因素參數(shù)隨機(jī)化和非線性組合退化改進(jìn)圖像退化模型，并且結(jié)合高低分辨率圖像對數(shù)據(jù)集和圖像退化模型以合成訓(xùn)練集；最后，由于數(shù)據(jù)集中考慮了退化因素，引入殘差收縮網(wǎng)絡(luò)和U-Net改進(jìn)基準(zhǔn)模型，盡可能地減少退化因素在特征空間中的冗余信息。實驗結(jié)果表明，所提方法在復(fù)雜退化條件下相較于次優(yōu)BSRGAN（Blind Super-Resolution Generative Adversarial Network）方法，在RealSR和CSR測試集中PSNR指標(biāo)分別提高了0.7 dB和0.14 dB，而SSIM分別提高了0.001和0.031。所提方法在復(fù)雜退化數(shù)據(jù)集上的客觀指標(biāo)和視覺效果均優(yōu)于現(xiàn)有方法。

超分辨率；復(fù)雜場景；圖像退化模型；殘差收縮網(wǎng)絡(luò)

0 引言

圖像超分辨率（Super-Resolution， SR）方法旨在提高圖像的分辨率，在醫(yī)學(xué)成像、遙感勘測與視頻監(jiān)控等領(lǐng)域具有重要的研究和應(yīng)用價值［1］。早期的單幅圖像超分辨率方法多采用插值算法，其中較為常用的是最鄰近插值、雙線性插值和雙三次插值［2］；然而，插值算法依賴定義好的線性插值核進(jìn)行重建，通常會導(dǎo)致重建圖像丟失高頻信息。

近年來，隨著計算能力的提升與深度學(xué)習(xí)的發(fā)展，研究者將深度學(xué)習(xí)引入圖像超分辨率領(lǐng)域并且取得了比傳統(tǒng)方法更好的表現(xiàn)［3］。由于真實世界中很少存在成對數(shù)據(jù)集，現(xiàn)有的圖像超分辨率方法通常采用高分辨率圖像和雙線性下采樣后合成的低分辨率圖像作為成對的數(shù)據(jù)訓(xùn)練模型。Dong等［4］首次提出了基于卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率網(wǎng)絡(luò)SRCNN（Super-Resolution Convolutional Neural Network），SRCNN模型簡單，只需要3個卷積層，但是加深網(wǎng)絡(luò)會導(dǎo)致模型難以收斂。Dong等［5］隨后提出了速度更快、重建效果更好的網(wǎng)絡(luò)模型結(jié)構(gòu)FSRCNN（Fast SRCNN）。為了解決網(wǎng)絡(luò)加深導(dǎo)致感受野不足的問題，Kim等［6］利用遞歸神經(jīng)網(wǎng)絡(luò)設(shè)計了DRCN（Deeply-Recursive Convolutional Network），遞歸神經(jīng)網(wǎng)絡(luò)避免了網(wǎng)絡(luò)加深導(dǎo)致的梯度爆炸和消失，最終通過加深網(wǎng)絡(luò)層數(shù)的方式改善圖像超分辨率的重建效果。VDSR（Very Deep Super-Resolution）方法［7］和EDSR（Enhanced Deep Super-Resolution）方法［8］在網(wǎng)絡(luò)模型中引入了殘差連接［9］，并進(jìn)一步加深網(wǎng)絡(luò)以彌補(bǔ)感受野的不足。受生成對抗網(wǎng)絡(luò)（Generative Adversarial Network， GAN）的啟發(fā)，Ledig等［10］首次提出基于GAN的網(wǎng)絡(luò)模型SRGAN（Super-Resolution GAN），并提出了更關(guān)注圖像真實感的感知損失函數(shù)，增強(qiáng)了重建圖像的真實感。ESRGAN（Enhanced SRGAN）模型［11］使用殘差連接與密集連接改進(jìn)生成網(wǎng)絡(luò)，并且進(jìn)一步優(yōu)化了損失函數(shù)，取得了更好的重建效果。

盡管現(xiàn)有超分辨率方法在已知退化模型的超分任務(wù)上取得了很好的進(jìn)展，但是僅基于雙三次下采樣方法合成的數(shù)據(jù)集訓(xùn)練的模型對于真實世界中未知退化的圖像效果不佳。因此，研究者重點(diǎn)關(guān)注盲圖像的超分辨率方法，即面向退化未知的真實圖像的超分辨率方法［12］。一方面，SRMD（SR network for Multiple Degradations）方法［13］將退化的關(guān)鍵因素作為額外輸入，進(jìn)而增強(qiáng)網(wǎng)絡(luò)的泛化能力。Wei等［14］提出的DASR （Domain-distance Aware SR）方法訓(xùn)練了一個退化預(yù)測網(wǎng)絡(luò)用于預(yù)測低分辨率圖像的退化，并將預(yù)測的退化融入超分辨率重建網(wǎng)絡(luò)中用于減小退化帶來的影響。另一方面，RWSR（Real-World SR）方法［15］根據(jù)低分辨率圖像數(shù)據(jù)集預(yù)測圖像的退化參數(shù)，并根據(jù)預(yù)測參數(shù)構(gòu)建圖像退化模型合成額外數(shù)據(jù)集進(jìn)行模型訓(xùn)練。然而在上述方法中，當(dāng)輸入或預(yù)測的退化與輸入圖像不一致時，重建效果急劇降低。Zhang等［16］提出的BSRGAN（Blind SRGAN）方法通過退化模型的參數(shù)隨機(jī)化和擴(kuò)充退化過程設(shè)計圖像退化模型，并使用模擬退化后的數(shù)據(jù)集訓(xùn)練模型，在訓(xùn)練的過程中，模型隱式地學(xué)習(xí)圖像的復(fù)雜退化過程；然而，BSRGAN方法只是沿用了傳統(tǒng)超分辨率重建網(wǎng)絡(luò)，沒有在網(wǎng)絡(luò)中減小退化帶來的影響。為了解決上述不足，本文提出面向真實復(fù)雜場景的基于殘差收縮網(wǎng)絡(luò)的單幅圖像超分辨率方法。

本文的主要工作如下：

首先，針對當(dāng)前仍然缺乏真實的高低分辨率圖像對數(shù)據(jù)集的問題，本文實地采集了一個高低分辨率圖像對數(shù)據(jù)集CSR（Camera SR dataset）。具體地，通過固定相機(jī)位置、鏡頭角度與相機(jī)參數(shù)，使用鏡頭的不同焦距拍攝了同一景物的兩幅圖像，對兩幅圖像中的同一景物配準(zhǔn)后得到高低分辨率圖像對。該數(shù)據(jù)集共包含461對高低分辨率圖像對，場景多樣且紋理豐富。

其次，針對圖像在存儲和傳輸?shù)炔僮骺赡馨l(fā)生的退化，使用了一種非線性圖像復(fù)雜退化模型模擬圖像的真實退化過程。該模型由隨機(jī)參數(shù)的模糊、下采樣和噪聲這3個關(guān)鍵因素組成，并且使用兩次非線性組合退化策略設(shè)計退化因素的次序。

最后，針對高低分辨率圖像對和圖像退化帶來的影響，訓(xùn)練數(shù)據(jù)集以CSR和圖像退化模型結(jié)合的方式生成。為了減小圖像中退化因素對重建效果的影響，首次引入信號處理領(lǐng)域的殘差收縮網(wǎng)絡(luò)改進(jìn)基準(zhǔn)模型，最終設(shè)計了一種面向真實復(fù)雜場景下基于殘差收縮網(wǎng)絡(luò)的單幅圖像超分辨率方法。實驗結(jié)果表明，本文方法在復(fù)雜退化的數(shù)據(jù)集上取得了最優(yōu)的超分辨率重建效果。

1 相關(guān)研究

1.1　殘差收縮網(wǎng)絡(luò)

在信號處理領(lǐng)域，信號通常充斥著多種來源的、各不相同的噪聲或者冗余信息，而噪聲或冗余信息會使網(wǎng)絡(luò)模型的識別結(jié)果偏離預(yù)期，因此，如果能在卷積網(wǎng)絡(luò)中消除這部分噪聲或冗余信息，將大幅提升網(wǎng)絡(luò)模型的能力；然而，對于不同的樣本，它們的噪聲來源不同，必須在網(wǎng)絡(luò)中自適應(yīng)地處理。為解決這一問題，Zhao等［17］提出了基于可學(xué)習(xí)軟閾值化函數(shù)的殘差收縮網(wǎng)絡(luò)，它的核心思想為：對于特征圖中的各個通道，可學(xué)習(xí)地生成通道閾值，使用通道閾值軟閾值化特征圖中的通道，達(dá)到減少噪聲和冗余信息的目的。軟閾值化函數(shù)見式（1）：

1.2　超分辨率重建評價指標(biāo)

峰值信噪比（Peak Signal-to-Noise Ratio， PSNR）以分貝作為基本單位，被廣泛地應(yīng)用于重建領(lǐng)域中評價圖像的像素級失真程度，計算見式（2）：

2 相機(jī)圖像對數(shù)據(jù)集采集

現(xiàn)有的真實高低分辨率圖像對數(shù)據(jù)集主要有City100［18］和RealSR［19］，但仍存在一定的局限性：City100使用手機(jī)拍攝，通過調(diào)整手機(jī)與賀卡之間的距離拍攝了同一賀卡的高低分辨率圖像對，共采集了100對城市建筑賀卡的圖像對；RealSR使用Canon相機(jī)，通過調(diào)整相機(jī)鏡頭焦距的方式采集了200對圖像對，其中仍然包含了部分賀卡，并且場景比較單一。為了擴(kuò)充真實的高低分辨率圖像對數(shù)據(jù)集，本文實景采集了場景豐富多樣的461對圖像對，完成圖像對齊后得到高低分辨率圖像對數(shù)據(jù)集。

2.1　圖像拍攝

本文圖像拍攝任務(wù)選址為深圳，相機(jī)型號為Canon EOS M200，相機(jī)鏡頭焦距為18～55 mm，相機(jī)分辨率固定為3 456×2 304，拍攝采用的長焦距與短焦距分別為55 mm和28 mm。為了避免手持相機(jī)的鏡頭抖動，使用相機(jī)三腳架固定相機(jī)，在固定位置和鏡頭角度的情況下調(diào)整焦距拍攝得到同一景物的兩幅圖像。由于焦距的不同，這一景物在兩幅圖像中的占比有所差異，焦距越長，視角更廣闊，景物成像更大，因此這一景物在兩幅相同分辨率的圖像中的分辨率不同。拍攝所得圖像對的一個實例如圖2所示，圖2（a）和圖2（b）兩幅圖像分辨率一致。可以看到圖2（a）中的矩形框選中區(qū)域與左圖景物一致，但分辨率較低。利用以上原理，即可得到相機(jī)在不同鏡頭焦距下的同一景物圖像對。考慮到景物的多樣性以及環(huán)境變化的影響，本次拍攝的圖像對中的景物包括但不限于家居用品、現(xiàn)代建筑、植物、廣告牌、水果和賀卡；此外，拍攝所得的圖像對數(shù)據(jù)集中仍有部分存在物體移動、模糊的情況，對不符合要求的圖像進(jìn)行了丟棄。

2.2　圖像配準(zhǔn)

在收集上述兩種鏡頭焦距下所得的同一景物圖像對后，需要將圖像中的景物配準(zhǔn)后才能作為超分任務(wù)中的高低分辨率圖像對。首先，用尺度不變特征變換（Scale-Invariant Feature Transform， SIFT）算法計算兩幅圖像中的關(guān)鍵點(diǎn)，具體步驟為：構(gòu)建兩幅圖像的高斯差分金字塔，減少圖像低頻信息，凸顯圖像的特征；為了保證關(guān)鍵點(diǎn)的尺度不變性，篩選高斯差分金字塔中的極值點(diǎn)作為關(guān)鍵點(diǎn)；為了保證關(guān)鍵點(diǎn)的旋轉(zhuǎn)不變性，通過關(guān)鍵點(diǎn)在鄰域內(nèi)的方向信息計算關(guān)鍵點(diǎn)的主方向，得到關(guān)鍵點(diǎn)并以向量表示，它包含了位置、尺度以及方向信息。其次，根據(jù)關(guān)鍵點(diǎn)的信息匹配圖2中兩幅圖像中的關(guān)鍵點(diǎn)，建立景物中配對特征的對應(yīng)關(guān)系，拍攝圖像對的關(guān)鍵點(diǎn)匹配結(jié)果如圖3所示。

圖2　相機(jī)以不同焦距拍攝的圖像對示例

圖3　SIFT算法關(guān)鍵點(diǎn)匹配結(jié)果

根據(jù)SIFT算法關(guān)鍵點(diǎn)的匹配結(jié)果將短焦距拍攝圖像進(jìn)行變換使之與右圖配準(zhǔn)，即可得到同一景物的兩幅分辨率不同的圖像。由于相機(jī)鏡頭焦距的不同導(dǎo)致曝光程度不同，兩幅圖像的色彩也有區(qū)別，因此需要校正兩幅圖像的色彩。本文使用OpenCV中基于標(biāo)準(zhǔn)色卡的顏色校正方法對兩幅圖像進(jìn)行色彩校正。最終獲得同一景物的高低分辨率圖像對，示例如圖4所示，由圖4（a）和圖4（b）中右下角矩形區(qū)域的放大圖像可以看到兩幅圖像在分辨率上的差異。最后，由于圖像配準(zhǔn)存在嚴(yán)重模糊和配準(zhǔn)不齊等失敗案例，故手工完成圖像對的篩選工作。重復(fù)以上步驟，最終獲得了包含461對場景多樣、紋理豐富的真實高低分辨率圖像對的CSR。

圖4　高低分辨率圖像對示例

3 基于殘差收縮網(wǎng)絡(luò)的生成對抗網(wǎng)絡(luò)模型

3.1　圖像退化模型

圖像退化模型通常包含模糊、降采樣和噪聲這3個關(guān)鍵因素，線性退化模型通常表達(dá)為式（4）：

傳統(tǒng)的退化模型較簡單且線性，現(xiàn)有工作僅使用雙三次下采樣或者固定參數(shù)的線性退化模型對高分辨率圖像進(jìn)行退化以得到成對圖像對，難以模擬真實低分辨率圖像的退化過程［20］；然而，在真實世界中，一幅圖像在經(jīng)過壓縮、傳輸和編輯等操作后，它的退化可能是多重且非線性的。具體地，一幅來自網(wǎng)絡(luò)的圖像在拍攝過程中會產(chǎn)生相機(jī)模糊與傳感器噪聲，在圖像壓縮過程會引入壓縮噪聲，在上傳至媒體軟件過程中會引入傳輸噪聲，因此，現(xiàn)有的退化模型難以完全模擬復(fù)雜的圖像退化過程。為了解決上述問題，受文獻(xiàn)［16，21］的啟發(fā)，本文采用了非線性組合退化的復(fù)雜圖像退化模型，并將退化模型的模糊、下采樣和噪聲這3個關(guān)鍵因素的參數(shù)隨機(jī)化。

下采樣操作在最鄰近下采樣、雙線性下采樣和雙三次下采樣方法中隨機(jī)選擇。

此外，非線性組合退化由高斯模糊、下采樣、高斯噪聲和泊松噪聲隨機(jī)次序組合而成，考慮到JPEG壓縮的常用性，在非線性組合退化的最后都加入1個JPEG壓縮。由于噪聲的出現(xiàn)頻率不同，將非線性組合退化中高斯噪聲和泊松噪聲的出現(xiàn)概率分別設(shè)置為0.8和0.2。

最終，本文的圖像退化模型由兩次非線性組合退化組成，由于兩次連續(xù)的非線性組合退化過程過于復(fù)雜，發(fā)生的概率較小，因此將第二次非線性組合退化的概率設(shè)置為0.2。圖像復(fù)雜退化模型如圖5所示。

圖5　圖像復(fù)雜退化模型

值得注意的是，兩次非線性組合退化中退化因素的參數(shù)不相關(guān)。盡管復(fù)雜退化模型不能完全模擬真實世界的退化空間，但兩次非線性組合退化策略和各種退化因素中參數(shù)的隨機(jī)化能夠模擬絕大多數(shù)的圖像退化過程。

3.2　網(wǎng)絡(luò)模型改進(jìn)點(diǎn)

3.2.1合成數(shù)據(jù)集

在基于成對訓(xùn)練的單幅圖像超分辨率方法中，一種思路是使用相機(jī)拍攝的成對數(shù)據(jù)集，為了獲得場景多樣的成對數(shù)據(jù)集，本文實景拍攝了相機(jī)成對數(shù)據(jù)集CSR；另一種思路是僅采用雙三次下采樣或者線性退化模型合成成對的高低分辨率圖像對數(shù)據(jù)集，但是該思路較簡單導(dǎo)致難以模擬真實世界中的退化過程，因此本文提出了更貼近真實圖像退化過程的圖像復(fù)雜退化模型。

為了充分考慮相機(jī)拍攝在高低分辨率圖像對之間的差異和圖像在真實世界中的退化過程，本文在數(shù)據(jù)集方面首次以真實相機(jī)數(shù)據(jù)集CSR與圖像復(fù)雜退化模型結(jié)合的方式合成數(shù)據(jù)集，具體的做法是：對于一對相機(jī)采集的高低分辨率圖像對，對相機(jī)采集的低分辨率圖像進(jìn)一步地使用圖像復(fù)雜退化模型模擬在真實世界中發(fā)生的退化。

3.2.2基于殘差收縮的特征提取

本文以ESRGAN方法的模型［11］作為基準(zhǔn)模型，ESRGAN中僅使用雙線性下采樣的方式合成數(shù)據(jù)集，對于真實世界中具有噪聲和模糊的圖像的重建效果較差。為了從數(shù)據(jù)集層面提升網(wǎng)絡(luò)的泛化能力，本文提出了結(jié)合相機(jī)數(shù)據(jù)集與退化模型的合成數(shù)據(jù)集，然而數(shù)據(jù)集的復(fù)雜性也給網(wǎng)絡(luò)模型帶來了新的挑戰(zhàn)，模糊和噪聲等退化因素在特征空間中的表達(dá)將直接影響最終的超分辨率重建效果，因此本文針對性地改進(jìn)了ESRGAN。

為了抑制模糊和噪聲等冗余信息在特征空間中的表達(dá)，本文引入殘差收縮網(wǎng)絡(luò)和密集連接，提出了殘差密集收縮網(wǎng)絡(luò)（Residual Shrinkage Dense Network， RSDN）作為基本特征提取網(wǎng)絡(luò)。此外，在RSDN的基礎(chǔ)上，本文提出了生成網(wǎng)絡(luò)中特征提取的結(jié)構(gòu)——?dú)埐蠲芗湛s塊（Residual Shrinkage Dense Block， RSDB）。

3.2.3基于U-Net的判別網(wǎng)絡(luò)

受文獻(xiàn)［21-22］的啟發(fā)，本文基于U-Net模型［23］作為判別網(wǎng)絡(luò)。判別的目標(biāo)是評價輸入的超分重建圖像是否與真實的高分辨率圖像一致。ESRGAN以VGG模型［24］輸出的二分類結(jié)果整體性地評價超分辨率圖像，而VGG模型的評價只考慮了全局相似度，實際上超分重建圖像存在部分區(qū)域重建表現(xiàn)好而其他區(qū)域表現(xiàn)差的情況，VGG模型輸出的二分類結(jié)果難以體現(xiàn)，導(dǎo)致生成網(wǎng)絡(luò)從判別網(wǎng)絡(luò)接收的評價信息不夠具體，限制了生成器的優(yōu)化。U-Net通過多個卷積層和下采樣的組合逐步獲得輸入圖像的深層特征，再通過多個卷積層和上采樣的組合提高特征的分辨率。此外，使用跳躍連接的方式融合各層的特征，最終使得輸出的多尺度特征圖的分辨率與輸入圖像保持一致，特征圖上的每個點(diǎn)值代表了對輸入圖像對應(yīng)像素點(diǎn)的評價。相較于VGG模型，U-Net模型對特征進(jìn)行了多尺度融合，結(jié)果更可靠，并且提供了像素級的評價。

3.3　網(wǎng)絡(luò)模型結(jié)構(gòu)

本文使用的超分辨率倍數(shù)為4，提出了名為CSRGAN（Complex SRGAN）的模型，它的網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。每個卷積層的核大小和步長分別為3和1，卷積層的輸出通道數(shù)標(biāo)注在圖像下方。

在生成網(wǎng)絡(luò)中，對于輸入低分辨率圖像，通過復(fù)雜退化模型生成退化的低分辨率圖像，退化圖像在特征提取模塊中通過1個卷積層生成圖像的淺層特征，淺層特征繼續(xù)使用23個RSDB塊和1個卷積層生成圖像的深層特征，維度與淺層特征一致。通過跳躍連接將淺層特征和深層特征以相加的形式融合作為圖像的最終特征。獲得圖像的特征后進(jìn)一步使用圖像重建模塊將特征映射為超分辨率圖像，本文的圖像重建模塊為亞像素卷積上采樣方法Pixel Shuffle［8］。

圖6　CSRGAN模型的結(jié)構(gòu)

在判別網(wǎng)絡(luò)中，對重建的超分辨率圖像與原始高分辨率圖像的相似程度進(jìn)行評價。傳統(tǒng)GAN采用的VGG模型只能從整體評價，無法具體地評價每個像素點(diǎn)的相似程度。因此，本文使用基于U-Net的判別網(wǎng)絡(luò)，在卷積層中通過填充的方式使輸出特征的尺寸與輸入保持一致，最終使U-Net輸出特征圖的尺寸與原始圖像保持一致。其中：用于特征下采樣的最大池化層（Max Pool）的核大小為2×2；用于特征上采樣的卷積層（Up Conv）是使得特征的寬度和高度均擴(kuò)大2倍的轉(zhuǎn)置卷積。最終，U-Net輸出的特征圖維度與輸入圖像的維度保持一致，特征圖上每個像素點(diǎn)值代表了輸入圖像對應(yīng)位置像素的評價。

圖7　RSDN的結(jié)構(gòu)

圖8　RSDB的結(jié)構(gòu)

3.4　損失函數(shù)

像素?fù)p失使用L1損失，通過將與逐像素進(jìn)行對比的結(jié)果定義，計算如式（7）：

感知損失認(rèn)為兩幅相似的圖像在同一模型中提取的特征空間仍然保持相似性，逐一在VGG模型每一層的每個卷積輸出的特征圖上度量每個點(diǎn)值的均方誤差，計算如式（8）：

4 實驗與結(jié)果分析

4.1　實驗環(huán)境及配置

本文所有實驗的實驗環(huán)境及配置如下：GPU為Nvidia GTX 3090，CUDA版本為11.3，Python版本為3.8.12且PyTorch版本為1.10.1，使用重建評價指標(biāo)PSNR和SSIM客觀評價超分辨率實驗結(jié)果。

4.2　CSRGAN實驗結(jié)果及分析

為了驗證CSRGAN的有效性，將它與以下模型在相同測試集上進(jìn)行實驗。對比模型包含RRDB（Residual in Residual Dense Block）［11］、ESRGAN［11］、EDSR［8］、RWSR-DF2K（Real-World Super Resolution-DIV2K and Flickr2K）［16］、SRMD［13］、DASR［14］和BSRGAN［16］。

4.2.1預(yù)處理及訓(xùn)練細(xì)節(jié)

CSRGAN中網(wǎng)絡(luò)模型使用的訓(xùn)練集結(jié)合CSR相機(jī)數(shù)據(jù)集和圖像復(fù)雜退化模型生成，具體地，對于CSR中的一對高低分辨率圖像對，在高分辨率圖像中隨機(jī)裁剪一個288×288的圖像塊作為參考圖像；在低分辨率圖像對應(yīng)位置上裁剪一個72×72的圖像塊，并用圖像復(fù)雜退化模型模擬退化得到的圖像塊作為模型的輸入。

在測試集方面，由于本文方法面向真實的復(fù)雜場景，因此選擇了不同退化條件下的相機(jī)采集的RealSR測試集和CSR測試集，退化條件包含D1、D2和CD，其中D1由隨機(jī)參數(shù)的高斯模糊、雙線性下采樣和隨機(jī)參數(shù)的高斯噪聲順序組成，D2由D1中的退化因素隨機(jī)順序組成，CD即為本文設(shè)計的圖像退化模型。

在訓(xùn)練的過程中，Batch Size統(tǒng)一設(shè)置為16，優(yōu)化器采用Adam優(yōu)化器［26］，學(xué)習(xí)率設(shè)置為10-4，學(xué)習(xí)衰減率設(shè)置為0.999。此外，由于GAN結(jié)構(gòu)在訓(xùn)練的過程存在難以收斂的問題，為了避免CSRGAN在早期訓(xùn)練中陷入局部最優(yōu)導(dǎo)致難以獲得最佳效果，第一步僅使用L1像素?fù)p失預(yù)訓(xùn)練一個生成網(wǎng)絡(luò)，盡可能地提高預(yù)訓(xùn)練生成網(wǎng)絡(luò)的超分辨率重建性能。由于圖像的像素?fù)p失會導(dǎo)致圖像存在一定的平滑，所以第二步加載預(yù)訓(xùn)練生成網(wǎng)絡(luò)作為CSRGAN中的生成網(wǎng)絡(luò)訓(xùn)練CSRGAN，此時使用的損失函數(shù)為引入感知損失和對抗損失的生成網(wǎng)絡(luò)損失，最終在GAN中訓(xùn)練得到最終的CSRGAN模型。

4.2.2實驗結(jié)果及分析

各模型在不同退化條件的測試集中超分辨率重建指標(biāo)對比見表1，CSRGAN在不同退化的兩個測試集上基本都取得了最高的PSNR和SSIM，僅在CD退化條件下的RealSR測試集中的SSIM評價指標(biāo)略低于BSRGAN。比較各模型在3種不同退化條件下的平均PSNR和SSIM指標(biāo)，相較于次優(yōu)BSRGAN，CSRGAN模型平均平均PSNR指標(biāo)分別提高了0.7 dB和0.14 dB，平均SSIM指標(biāo)分別提高了0.001和0.031。

各模型在不同退化條件下的超分辨率視覺效果分別如圖9所示。

表1各模型在RealSR和CSR測試集上的重建指標(biāo)對比

Tab.1　Comparison of reconstruction indicators of different models on RealSR and CSR test sets

圖9　各模型在不同退化條件下的視覺效果對比

RRDB、ESRGAN和EDSR模型僅使用了雙線性下采樣對圖像進(jìn)行模擬退化，對于未知退化條件下的超分辨率任務(wù)不具備泛化能力，生成的超分辨率圖像中仍然存在大量的噪聲和模糊。RWSR-DF2K根據(jù)低分辨率圖像集估計圖像的高斯模糊和噪聲，然而圖像的退化過程復(fù)雜多樣，當(dāng)退化參數(shù)不匹配時，重建效果較差。SRMD模型手動將模糊核和噪聲作為超分辨率重建網(wǎng)絡(luò)的額外輸入，然而當(dāng)退化因素與圖像退化因素不一致時，重建效果仍然較差。DASR模型訓(xùn)練了一個退化預(yù)測網(wǎng)絡(luò)用于預(yù)測低分辨率圖像的退化表達(dá)，并將預(yù)測的退化表達(dá)融入超分辨率重建網(wǎng)絡(luò)中以縮減退化因素的表達(dá)；然而低分辨率圖像的退化是多樣的且難以預(yù)測的，因此在復(fù)雜場景下的重建質(zhì)量難以保證。BSRGAN模型對圖像退化模型進(jìn)行了改進(jìn)用于合成圖像對數(shù)據(jù)集，從訓(xùn)練數(shù)據(jù)集的角度增強(qiáng)了復(fù)雜場景下的超分辨率效果；然而只是沿用了基準(zhǔn)的超分辨率網(wǎng)絡(luò)，沒有在網(wǎng)絡(luò)結(jié)構(gòu)中減小圖像退化因素帶來的影響，雖然超分辨率視覺效果相較于以前的模型好，但仍存在一定的偽影和色差問題，圖像的真實感較差。最后，CSRGAN模型一方面將高低分辨率圖像對數(shù)據(jù)集CSR與改進(jìn)的圖像退化模型結(jié)合生成數(shù)據(jù)集，從數(shù)據(jù)集方面提升網(wǎng)絡(luò)模型在真實場景下的泛化能力；另一方面為了減弱退化因素帶來的影響，引入了殘差收縮網(wǎng)絡(luò)和U-Net改進(jìn)模型。實驗結(jié)果表明，CSRGAN模型在視覺和客觀指標(biāo)上均取得了較好的效果。

4.2.3消融實驗結(jié)果及分析

為了驗證3.2節(jié)提出的改進(jìn)點(diǎn)的有效性，在相同的實驗配置下依次加入改進(jìn)點(diǎn)設(shè)計對比實驗，其中：M1在基準(zhǔn)模型ESRGAN的基礎(chǔ)上引入了成對數(shù)據(jù)集在圖像退化模型下合成的退化數(shù)據(jù)集進(jìn)行訓(xùn)練；M2則在M1的基礎(chǔ)上引入了殘差收縮網(wǎng)絡(luò)提取特征；CSRGAN模型則是在M2的基礎(chǔ)上進(jìn)一步引入了U-Net作為判別網(wǎng)絡(luò)。

各模型在不同退化條件的測試集中超分辨率重建指標(biāo)對比見表2。M1得益于增強(qiáng)的模擬退化數(shù)據(jù)集，已經(jīng)大幅提升了不同退化條件下的重建質(zhì)量指標(biāo)PSNR和SSIM。M2引入了殘差收縮網(wǎng)絡(luò)減少特征提取過程中的冗余信息，重建質(zhì)量指標(biāo)相較于M1更高。

表2在測試集RealSR和CSR上的消融實驗結(jié)果對比

Tab.2　Comparison of ablation experimental results on RealSR and CSR test sets

最后，CSRGAN模型在M2的基礎(chǔ)上進(jìn)一步引入了U-Net作為判別網(wǎng)絡(luò)，使得判別網(wǎng)絡(luò)可以為生成網(wǎng)絡(luò)的優(yōu)化提供像素級的評價，因此在整體上得到了較高的重建質(zhì)量指標(biāo)。

各模型在不同退化條件D1、D2和CD合成的測試集中的超分辨率視覺效果對比分別如圖10所示。從圖10中可以看到，M1的重建視覺效果在D1退化條件中出現(xiàn)了圖像細(xì)節(jié)紋理丟失，而在圖D2和圖CD退化條件中仍然存在大量噪聲，因為M1盡管依賴于模擬退化的合成數(shù)據(jù)集進(jìn)行訓(xùn)練，但受限于特征提取的過程中沒有甄別特征中的冗余信息，導(dǎo)致部分紋理特征的丟失和噪聲的保留。M2引入了殘差收縮網(wǎng)絡(luò)改進(jìn)特征提取，重建視覺效果優(yōu)于M1，重建圖像的紋理更清晰且殘余的噪聲更少。最后，CSRGAN模型進(jìn)一步引入了U-Net作為判別網(wǎng)絡(luò)，原始的VGG僅能從全局去評價重建圖像的質(zhì)量，而判別網(wǎng)絡(luò)U-Net則是對每一個像素點(diǎn)進(jìn)行評價，為生成網(wǎng)絡(luò)的優(yōu)化提供了更精確的信息，因此在圖像的視覺質(zhì)量上取得了最佳的效果。本文提出的各個改進(jìn)點(diǎn)的引入都進(jìn)一步提升了圖像超分辨率重建的質(zhì)量指標(biāo)和視覺效果，驗證了各個改進(jìn)點(diǎn)的有效性。

圖10　不同退化條件下的消融實驗視覺效果對比

5 結(jié)語

本文提出一種面向真實復(fù)雜場景的單幅圖像超分辨率方法。針對當(dāng)前缺少真實高低分辨率圖像對數(shù)據(jù)集的問題，構(gòu)建了一個相機(jī)拍攝的高低分辨率圖像對數(shù)據(jù)集，它具有場景多樣且紋理豐富的特點(diǎn)；針對真實低分辨率圖像中的未知退化問題，采用退化關(guān)鍵因素的參數(shù)隨機(jī)化以及非線性組合退化策略改進(jìn)圖像退化模型，盡可能地模擬圖像在傳輸和存儲等過程中可能發(fā)生的退化；為了減弱低分辨率圖像中的退化因素在特征空間中的表達(dá)，引入殘差收縮網(wǎng)絡(luò)優(yōu)化基準(zhǔn)網(wǎng)絡(luò)模型，進(jìn)一步改善了超分辨率重建效果。實驗結(jié)果表明，本文提出的方法在模擬退化的數(shù)據(jù)集上的性能優(yōu)于當(dāng)前方法。下一步將在不同的圖像領(lǐng)域（如醫(yī)學(xué)圖像、遙感成像等領(lǐng)域）中構(gòu)建更符合實際的圖像退化模型與設(shè)計適應(yīng)的超分辨率網(wǎng)絡(luò)模型，最大限度地提升真實圖像的超分辨率效果。

[1] 王一寧，趙青杉，秦品樂，等. 基于輕量密集神經(jīng)網(wǎng)絡(luò)的醫(yī)學(xué)圖像超分辨率重建算法［J］. 計算機(jī)應(yīng)用， 2022， 42（8）： 2586-2592.（WANG Y N， ZHAO Q S， QIN P L， et al. Super-resolution reconstruction algorithm of medical image based on lightweight dense neural network［J］. Journal of Computer Applications， 2022， 42（8）： 2586-2592.）

[2] KEYS R. Bicubic interpolation［J］. IEEE Transactions on Acoustics， Speech， and Signal Processing， 1981， 29（1）： 1153-1160.

[3] 王匯豐，徐巖，魏一銘，等. 基于并聯(lián)卷積與殘差網(wǎng)絡(luò)的圖像超分辨率重建［J］. 計算機(jī)應(yīng)用， 2022， 42（5）： 1570-1576.（WANG H F， XU Y， WEI Y M， et al. Image super-resolution reconstruction based on parallel convolution and residual network［J］. Journal of Computer Applications， 2022， 42（5）： 1570-1576.）

[4] DONG C， LOY C C， HE K， et al. Learning a deep convolutional network for image super-resolution ［C］// Proceedings of the 2014 European Conference on Computer Vision， LNCS 8692. Cham： Springer， 2014： 184-199.

[5] DONG C， LOY C C， TANG X， et al. Accelerating the super-resolution convolutional neural network［C］// Proceedings of the 2016 European Conference on Computer Vision， LNCS 9906. Cham： Springer， 2016： 391- 407.

[6] KIM J， LEE J K， LEE K M. Deeply-recursive convolutional network for image super-resolution ［C］// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2016： 1637-1645.

[7] KIM J， LEE J K， LEE K M. Accurate image super-resolution using very deep convolutional networks［C］// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2016： 1646-1654.

[8] LIM B， SON S， KIM H， et al. Enhanced deep residual networks for single image super-resolution［C］// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway： IEEE， 2017： 1132-1140.

[9] TARG S， ALMEIDA D， LYMAN K. ResNet in ResNet： generalizing residual architectures ［EB/OL］. （2016-03-25）［2021-12-12］. https：//arxiv.org/pdf/1603.08029.pdf.

[10] LEDIG C， THEIS L， HUSZáR F， et al. Photo-realistic single image super-resolution using a generative adversarial network ［C］// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2017： 105-114.

[11] WANG X， YU K， WU S， et al. ESRGAN： enhanced super-resolution generative adversarial networks ［C］// Proceedings of the 2018 European Conference on Computer Vision， LNCS 11133. Cham： Springer， 2019： 63-79.

[12] LIU A， LIU Y， GU J， et al. Blind image super-resolution： a survey and beyond ［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2023， 45（5）： 5461-5480.

[13] ZHANG K， ZUO W， ZHANG L. Learning a single convolutional super-resolution network for multiple degradations［C］// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2018： 3262-3271.

[14] WEI Y， GU S， LI Y， et al. Unsupervised real-world image super resolution via domain-distance aware training ［C］// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2021： 13380-13389.

[15] JI X， CAO Y， TAI Y， et al. Real-world super-resolution via kernel estimation and noise injection ［C］// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway： IEEE， 2020： 1914-1923.

[16] ZHANG K， LIANG J， VAN GOOL L， et al. Designing a practical degradation model for deep blind image super-resolution［C］// Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision. Piscataway： IEEE， 2021： 4771-4780.

[17] ZHAO M， ZHONG S， FU X， et al. Deep residual shrinkage networks for fault diagnosis ［J］. IEEE Transactions on Industrial Informatics， 2020， 16（7）： 4681-4690.

[18] CHEN C， XIONG Z， TIAN X， et al. Camera lens super-resolution［C］// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2019： 1652-1660.

[19] CAI J， ZENG H， YONG H， et al. Toward real-world single image super-resolution： a new benchmark and a new model［C］// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway： IEEE， 2019： 3086-3095.

[20] 劉叢，王亞新. 基于雙并行殘差網(wǎng)絡(luò)的遙感圖像超分辨率重建［J］. 模式識別與人工智能， 2021， 34（8）： 760-767.（LIU C， WANG Y X. Remote sensing image super-resolution reconstruction based on dual-parallel residual network ［J］. Pattern Recognition and Artificial Intelligence， 2021， 34（8）： 760-767.）

[21] WANG X， XIE L， DONG C， et al. Real-ESRGAN： training real-world blind super-resolution with pure synthetic data［C］// Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision Workshops. Piscataway： IEEE， 2021：1905-1914.

[22] SCH?NFELD E， SCHIELE B， KHOREVA A. A U-Net based discriminator for generative adversarial networks ［C］// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2020： 8204-8213.

[23] RONNEBERGER O， FISCHER P， BROX T. U-Net： convolutional networks for biomedical image segmentation ［C］// Proceedings of the 2015 International Conference on Medical Image Computing and Computer-Assisted Intervention， LNCS 9351. Cham： Springer， 2015： 234-241.

[24] SIMONYAN K， ZISSERMAN A. Very deep convolutional networks for large-scale image recognition［EB/OL］. （2015-04-10）［2021-12-12］.https：//arxiv.org/pdf/1409.1556.pdf.

[25] JOHNSON J， ALAHI A， LI F F. Perceptual losses for real-time style transfer and super-resolution ［C］// Proceedings of the 2016 European Conference on Computer Vision， LNCS 9906. Cham： Springer， 2016： 694-711.

[26] AGUSTSSON E， TIMOFTE R. NTIRE 2017 challenge on single image super-resolution： dataset and study ［C］// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway： IEEE， 2017： 1122-1131.

Single image super-resolution method based on residual shrinkage network in real complex scenes

LI Ying1，2， HUANG Chao1，2， SUN Chengdong1，2， XU Yong1，2*

（1，，，518055，；2（，），518055，）

There are very few paired high and low resolution images in the real world. The traditional single image Super-Resolution （SR） methods typically use pairs of high-resolution and low-resolution images to train models， but these methods use the way of synthetizing dataset to obtain training set， which only consider bilinear downsampling as image degradation process. However， the image degradation process in the real word is complex and diverse， and traditional image super-resolution methods have poor reconstruction performance when facing real unknown degraded images. Aiming at those problems， a single image super-resolution method was proposed for real complex scenes. Firstly， high- and low-resolution images were captured by the camera with different focal lengths， and these images were registered as image pairs to form a dataset CSR（Camera Super-Resolution dataset）of various scenes. Secondly， to simulate the image degradation process in the real world as much as possible， the image degradation model was improved by the parameter randomization of degradation factors and the nonlinear combination degradation. Besides， the dataset of high- and low-resolution image pairs and the image degradation model were combined to synthetize training set. Finally， as the degradation factors were considered in the dataset， residual shrinkage network and U-Net were embedded into the benchmark model to reduce the redundant information caused by degradation factors in the feature space as much as possible. Experimental results indicate that compared with the BSRGAN （Blind Super-Resolution Generative Adversarial Network）method， under complex degradation conditions， the proposed method improves the PSNR by 0.7 dB and 0.14 dB， and improves SSIM by 0.001 and 0.031 respectively on the RealSR and CSR test sets. The proposed method has better objective indicators and visual effect than the existing methods on complex degradation datasets.

Super-Resolution (SR); complex scene; image degradation model; residual shrinkage network

This work is partially supported by National Natural Science Foundation of China （61876051）， Project of Shenzhen Science and Technology Innovation Committee （JSGG20220831104402004）.

LI Ying， born in 1998， M. S. candidate. His research interests include computer vision， super-resolution.

HUANG Chao， born in 1991， Ph. D. candidate. His research interests include pattern recognition， deep learning.

SUN Chengdong， born in 2002. His research interests include computer vision， super-resolution.

XU Yong， born in 1972， Ph.D.， professor. His research interests include pattern recognition， computer vision， deep learning， video analysis.

TP391.4

1001-9081（2023）12-3903-08

10.11772/j.issn.1001-9081.2022111697

2022?11?24；

2023?07?06；

2023?07?07。

國家自然科學(xué)基金資助項目（61876051）；深圳市科創(chuàng)委資助項目（JSGG20220831104402004）。

李穎（1998—），男，四川成都人，碩士研究生，主要研究方向：計算機(jī)視覺、超分辨率；黃超（1991—），男，河南信陽人，博士研究生，主要研究方向：模式識別、深度學(xué)習(xí)；孫成棟（2002—），男，湖北黃岡人，主要研究方向：計算機(jī)視覺、超分辨率；徐勇（1972—），男，廣東深圳人，教授，博士，CCF會員，主要研究方向：模式識別、計算機(jī)視覺、深度學(xué)習(xí)、視頻分析。

真實復(fù)雜場景下基于殘差收縮網(wǎng)絡(luò)的單幅圖像超分辨率方法

0 引言

1 相關(guān)研究

1.1 殘差收縮網(wǎng)絡(luò)

1.2 超分辨率重建評價指標(biāo)

2 相機(jī)圖像對數(shù)據(jù)集采集

2.1 圖像拍攝

2.2 圖像配準(zhǔn)

3 基于殘差收縮網(wǎng)絡(luò)的生成對抗網(wǎng)絡(luò)模型

3.1 圖像退化模型

3.2 網(wǎng)絡(luò)模型改進(jìn)點(diǎn)

3.3 網(wǎng)絡(luò)模型結(jié)構(gòu)

3.4 損失函數(shù)

4 實驗與結(jié)果分析

4.1 實驗環(huán)境及配置

4.2 CSRGAN實驗結(jié)果及分析

5 結(jié)語

1.1　殘差收縮網(wǎng)絡(luò)

1.2　超分辨率重建評價指標(biāo)

2.1　圖像拍攝

2.2　圖像配準(zhǔn)

3.1　圖像退化模型

3.2　網(wǎng)絡(luò)模型改進(jìn)點(diǎn)

3.3　網(wǎng)絡(luò)模型結(jié)構(gòu)

3.4　損失函數(shù)

4.1　實驗環(huán)境及配置

4.2　CSRGAN實驗結(jié)果及分析