應(yīng)凱杰 馮玉田
(上海大學(xué)通信與信息工程學(xué)院 上海 200444)
單圖像超分辨率(SISR)是從圖像的低分辨率(LR)圖像中重建一幅視覺(jué)自然的高分辨率圖像。它在安全和監(jiān)視成像[1-2]、醫(yī)學(xué)成像[3]、衛(wèi)星和航空成像[4-5]中有著非常廣泛的應(yīng)用。在現(xiàn)實(shí)場(chǎng)景中,SISR使用用戶自定義的比例因子放大低分辨率圖像是常見(jiàn)和必要的。與普通圖像查看器一樣,用戶可以通過(guò)滾動(dòng)鼠標(biāo)滾輪來(lái)查看圖像局部的詳細(xì)信息,從而任意放大查看的圖像。
同時(shí),用于超分辨率的自定義比例因子不僅僅是某些整數(shù),也可以是任何正數(shù)。因此,解決任意尺度因子的超分辨率問(wèn)題,對(duì)于提高SISR的實(shí)用性具有重要意義。如果為每一個(gè)比例因子訓(xùn)練一個(gè)特定的模型,就不可能存儲(chǔ)所有這些模型,而且計(jì)算效率很低。因此,能否用單一模型求解任意尺度因子的超分辨率是一個(gè)很重要的問(wèn)題。
盡管如此,現(xiàn)有的SISR方法大多只考慮兩倍(X2)、三倍(X3)、四倍(X4)這些整數(shù)倍的超分辨率,并且將不同尺度因子的超分辨率視為獨(dú)立的任務(wù)。以往的工作很少討論如何實(shí)現(xiàn)任意比例因子的超分辨率。比如目前先進(jìn)的SISR方法,如ESPCNN[6]、EDSR[7]、RDN[8]和RCAN[9],這些方法使用亞像素卷積[7]在網(wǎng)絡(luò)末端放大了特征映射,并為每個(gè)比例因子設(shè)計(jì)一個(gè)特定的上采樣模塊,因此每個(gè)上采樣模塊只能放大固定整數(shù)的圖像比例因子,且超像素卷積只適用于整數(shù)尺度因子。這些缺點(diǎn)限制了上述方法在真實(shí)場(chǎng)景中的使用。雖然可以通過(guò)適當(dāng)?shù)靥嵘斎雸D像的尺度來(lái)實(shí)現(xiàn)非整數(shù)尺度因子的超分辨率,然而,重復(fù)計(jì)算和放大輸入使得這些方法費(fèi)時(shí)費(fèi)力,難以投入實(shí)際應(yīng)用。
為了解決這些缺點(diǎn),使SISR更具實(shí)際應(yīng)用價(jià)值,需要一種高效、新穎的單模型任意尺度圖像超分辨的方法。如果要求解單個(gè)模型任意尺度的超分辨率,每個(gè)比例因子都需要一組對(duì)應(yīng)的上采樣濾波器的權(quán)重。本文基于元學(xué)習(xí)的理論,設(shè)計(jì)一個(gè)可以訓(xùn)練每個(gè)尺度因子的濾波器權(quán)重的網(wǎng)絡(luò),不再需要為每個(gè)獨(dú)立的比例因子存儲(chǔ)權(quán)重,與存儲(chǔ)繁多的各尺度因子權(quán)值的濾波器參數(shù)相比,存儲(chǔ)能自適應(yīng)生成不同尺度濾波器參數(shù)的網(wǎng)絡(luò)更為方便。
早期的SISR方法是基于樣本或字典的超分辨率方法[9-11]。這些方法需要一個(gè)外部圖像數(shù)據(jù)庫(kù),并通過(guò)傳輸數(shù)據(jù)庫(kù)圖像中的相關(guān)補(bǔ)丁來(lái)生成高分辨率圖像。性能受到數(shù)據(jù)庫(kù)或字典大小的限制。這些傳統(tǒng)方法耗時(shí)長(zhǎng)、性能有限,隨著深度學(xué)習(xí)的迅速發(fā)展,人們提出了許多基于深度學(xué)習(xí)的方法,Dong等[12]首次提出了一種三層卷積神經(jīng)網(wǎng)絡(luò)SRCNN。SRCNN對(duì)低分辨率圖像進(jìn)行雙三次插值后,再送入網(wǎng)絡(luò)訓(xùn)練。Kim等[13]增加了網(wǎng)絡(luò)的深度,利用殘差學(xué)習(xí)進(jìn)行穩(wěn)定訓(xùn)練,首先將遞歸學(xué)習(xí)引入到SISR中,稱為DRCN。Tai等[14]通過(guò)引入共享參數(shù)的遞歸塊使訓(xùn)練穩(wěn)定,提出了DRRN算法。Tai等[9]還引入了名為Memnet的內(nèi)存塊。然而,這些網(wǎng)絡(luò)的輸入與最終的高分辨率圖像具有相同的大小,所以這些方法訓(xùn)練都非常耗時(shí)。
元學(xué)習(xí)或稱學(xué)會(huì)學(xué)習(xí),是觀察不同的機(jī)器學(xué)習(xí)方法如何執(zhí)行廣泛的學(xué)習(xí)任務(wù),然后從這種經(jīng)驗(yàn)或元數(shù)據(jù)中學(xué)習(xí)的科學(xué)。元學(xué)習(xí)主要用于少樣本或者零樣本學(xué)習(xí)和遷移學(xué)習(xí)。對(duì)元學(xué)習(xí)更詳細(xì)的調(diào)查可以參考文獻(xiàn)[15],本文只討論與權(quán)重預(yù)測(cè)相關(guān)的工作。
權(quán)值預(yù)測(cè)是神經(jīng)網(wǎng)絡(luò)的元學(xué)習(xí)策略之一。神經(jīng)網(wǎng)絡(luò)的權(quán)值由另一個(gè)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè),而不是直接從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)。Cai等[16]預(yù)測(cè)分類器的參數(shù),以適應(yīng)新的類別,而無(wú)須反向傳播進(jìn)行少樣本學(xué)習(xí)。參數(shù)的預(yù)測(cè)是以支持集的記憶為條件的。在目標(biāo)檢測(cè)任務(wù)中,Hu等[17]提出了從方塊權(quán)重預(yù)測(cè)掩模權(quán)重的方法。Yang等[18]提出了一種新穎靈活的目標(biāo)檢測(cè)錨定機(jī)制。錨函數(shù)可以從任意自定義的先前框中動(dòng)態(tài)生成。在視頻超分辨率中,Jo等[19]提出了一種動(dòng)態(tài)上采樣濾波器。動(dòng)態(tài)上采樣濾波器根據(jù)多個(gè)LR幀中每個(gè)像素的時(shí)空鄰域進(jìn)行局部和動(dòng)態(tài)生成。與這些方法不同的是,Hu等[20]利用元學(xué)習(xí)來(lái)預(yù)測(cè)每個(gè)尺度因子的濾波器權(quán)重而不再需要為每個(gè)比例因子存儲(chǔ)濾波器的權(quán)重。通過(guò)元采樣模塊可以訓(xùn)練出僅用一個(gè)模型來(lái)實(shí)現(xiàn)任意尺度的超分辨率。這種方法使用方便并且效率更高。
在圖像超分辨率任務(wù)中,考慮到圖像降采樣后低頻與高頻信息損失不同的特性,本文提出一種以RCAN作為特征提取模塊、元模塊作為上采樣恢復(fù)高清圖像的網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 基于元采樣模塊的網(wǎng)絡(luò)結(jié)構(gòu)
近年來(lái),基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法對(duì)信道特征采取同樣的處理,這導(dǎo)致在處理不同類型的信息(例如低和高頻信息)方面缺乏靈活性,并且浪費(fèi)大量時(shí)間對(duì)低頻特征進(jìn)行不必要的計(jì)算,最終阻礙深層網(wǎng)絡(luò)的表現(xiàn)力。為了避免這些問(wèn)題,本文使用殘差信道注意機(jī)制網(wǎng)絡(luò)(RCAN[9])中提出的殘差結(jié)構(gòu)作為特征提取模塊,在減少網(wǎng)絡(luò)深度的同時(shí)也增加了特征之間的差異性。為了減少網(wǎng)絡(luò)深度,在殘差(RIR)結(jié)構(gòu)中,將殘差組(RG)作為基本模塊,利用長(zhǎng)跳連接(LSC)進(jìn)行粗略的殘差學(xué)習(xí)。在每個(gè)RG模塊,如圖2所示,RCAN[9]用短跳連接(SSC)疊加幾個(gè)簡(jiǎn)化的殘差塊,通過(guò)長(zhǎng)、短跳轉(zhuǎn)連接以及殘差塊中的短跳轉(zhuǎn)連接過(guò)濾冗余的低頻信息,增強(qiáng)特征提取的效率。
圖2 殘差組模塊結(jié)構(gòu)
為了進(jìn)一步提取有效特征,在RG模塊中,RCAN使用了通道注意(CA)機(jī)制,通過(guò)建模各通道之間的相互依賴關(guān)系,自適應(yīng)地重新調(diào)整各通道的特征。如圖3所示,其中:H和W分別表示輸入特征圖的長(zhǎng)和寬;C表示特征通道數(shù);r表示比例因子。這樣的CA機(jī)制使得特征提取模塊能夠集中在更多有用的特征通道上,增強(qiáng)辨別學(xué)習(xí)能力,提升網(wǎng)絡(luò)訓(xùn)練的效果。
圖3 通道注意力模塊
對(duì)于一個(gè)給定的從原始HR圖像中降采樣得到的LR圖像,SISR的任務(wù)是基于LR圖像生成一個(gè)與原始HR圖像對(duì)應(yīng)的SR圖像。在利用殘差通道作為特征提取模塊后,本文使用元采樣模塊作為上采樣模塊恢復(fù)圖像。
假設(shè)FLR是由特征學(xué)習(xí)模塊提取的特征且降采樣尺度為r。對(duì)于SR圖像上的每個(gè)像素(i,j),Hu等[20]認(rèn)為它是由LR圖像上像素(i0;j0)的特征和相應(yīng)濾波器的權(quán)重決定的,并給出公式如下:
ISR(i,j)=?(FLR(i′,j′),W(i,j))
(1)
式中:ISRs(i,j)代表SR圖像上(i,j)點(diǎn)位置處的像素值;FLR(i′,j′)代表LR圖像上(i′,j′)點(diǎn)處的特征;W(i,j)代表在(i,j)濾波器的權(quán)重;?(·)表示特征映射函數(shù)。由于SR圖像上的每個(gè)像素點(diǎn)都對(duì)應(yīng)于一個(gè)濾波器。對(duì)于不同的比例因子,濾波器的數(shù)量和濾波器的權(quán)重都不同于其他比例因子對(duì)應(yīng)的濾波器。為了解決單一模型下任意尺度因子的超分辨率問(wèn)題,提出基于尺度因子和坐標(biāo)信息的用于動(dòng)態(tài)預(yù)測(cè)權(quán)重W(i,j)的元采樣模塊[20]。
元采樣模塊有三個(gè)重要功能,即位置預(yù)測(cè)、權(quán)值預(yù)測(cè)和特征映射。如圖4所示,位置投影將像素投影到LR圖像上。權(quán)重預(yù)測(cè)模塊預(yù)測(cè)SR圖像上每個(gè)像素的濾波器的權(quán)重。最后,特征映射函數(shù)將LR圖像上的特征與預(yù)測(cè)的權(quán)重映射回SR圖像,計(jì)算像素值。
圖4 整數(shù)比例因子r=2和非整數(shù)比例因子r=1.5 的特征圖恢復(fù)示意圖(為簡(jiǎn)化只展示一維)
2.2.1位置投影
對(duì)于SR圖像上的每個(gè)像素(i,j),位置投影的過(guò)程可以用式(2)來(lái)表示。
(2)
2.2.2權(quán)重預(yù)測(cè)
對(duì)于傳統(tǒng)的上采樣模塊,它預(yù)先定義了每個(gè)尺度因子的濾波器數(shù)目,并從訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)W。與之不同的是,元上采樣模塊使用網(wǎng)絡(luò)來(lái)預(yù)測(cè)濾波器的權(quán)重如式(3)所示。
W(i,j)=φ(vij;θ)
(3)
式中:W(i,j)是SR圖像上像素(i,j)的濾波器權(quán)重;vij是與(i,j)相關(guān)的向量;φ(·)是將vij作為輸入的權(quán)重預(yù)測(cè)網(wǎng);θ是初始的濾波器矩陣參數(shù)。對(duì)于像素位置(i,j)的φ(·)的輸入vij,正確的做法是加上相對(duì)于(i′,j′)的偏移量,如式(4)所示。
(4)
(5)
2.2.3特征映射
首先從特征提取模塊輸出的FLR中提取出LR圖像上(i′,j′)特征,然后利用權(quán)值預(yù)測(cè)網(wǎng)絡(luò)對(duì)濾波器的權(quán)值進(jìn)行預(yù)測(cè),最后將特征映射到SR圖像上(i,j)點(diǎn)的像素值。我們采用矩陣乘積的方式作為特征映射函數(shù),具體可表示為:
?(FLR(i′,j′),W(i,j))=FLR(i′,j′)W(i,j)
(6)
為了驗(yàn)證本文方法的有效性,本文選取了DIV2K數(shù)據(jù)集進(jìn)行了訓(xùn)練,使用Set5、Set14、Urban100等數(shù)據(jù)集進(jìn)行測(cè)試。
圖像超分辨率的常用指標(biāo)有峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM),峰值信噪比的計(jì)算基于均方誤差(MSE),它的表達(dá)式如式(7)所示。
(7)
式中:MAX代表圖像灰度級(jí)數(shù),例如8 bit圖像可取到最大值為255;MSE為均方誤差;MSE表達(dá)式如式(8)所示。
(8)
式中:SR為網(wǎng)絡(luò)輸出的超分辨率圖像;HR為原始圖像;(i,j)表示圖像像素點(diǎn)坐標(biāo);m和n分別表示圖像的高度和寬度。結(jié)構(gòu)相似性指標(biāo)(SSIM)對(duì)原圖像和測(cè)試圖像之間的亮度(luminance)、對(duì)比度(contrast)和結(jié)構(gòu)(structure)進(jìn)行比較來(lái)衡量恢復(fù)的結(jié)果。SSIM的表達(dá)式如式(9)所示。
(9)
式中:μx和μy是x、y圖像的像素平均值;σx和σy是x、y圖像的像素值方差;σxy是x、y圖像的像素值協(xié)方差;c1和c2是常數(shù),與圖像的像素值范圍有關(guān)。
PSNR值通常在20 dB~40 dB,值越大說(shuō)明恢復(fù)效果越好,圖像失真越小。SSIM的值在0~1范圍內(nèi),越接近1說(shuō)明圖像恢復(fù)效果越好,與原圖像越接近。
首先對(duì)于常用的超分辨率尺度(X2,X3,X4),本文用SRCNN[12],以及目前效果最佳的兩個(gè)網(wǎng)絡(luò)RDN[8]、EDSR[7]對(duì)每個(gè)尺度分別進(jìn)行了訓(xùn)練,并與本文方法在Set5、Set14、Urban100上進(jìn)行對(duì)比,評(píng)價(jià)指標(biāo)采用峰值信噪比(PSNR)和結(jié)構(gòu)相似性指標(biāo)(SSIM),實(shí)驗(yàn)結(jié)果如表1-表3所示。相比Bicubic和SRCNN網(wǎng)絡(luò),本文方法都提高了1 dB至2 dB的PSNR值,對(duì)比目前最好的RDN和EDSR網(wǎng)絡(luò),差距在1 dB以內(nèi),這表明本文方法是非常有效的。
表1 Set5數(shù)據(jù)集對(duì)比
表2 Set14數(shù)據(jù)集對(duì)比
表3 Urban100數(shù)據(jù)集對(duì)比
接著對(duì)于非整數(shù)倍的超分辨率尺(X1.5,X2.5,X3.5),本文用RDN、EDSR分別進(jìn)行訓(xùn)練,在非整數(shù)倍比例因子的情況下先進(jìn)行雙三次插值再降采樣,以獲得整數(shù)倍降采樣圖片,并與本文方法在BSD100數(shù)據(jù)集上進(jìn)行對(duì)比,評(píng)價(jià)指標(biāo)采用峰值信噪比(PSNR)。實(shí)驗(yàn)結(jié)果如表4所示。需要注意的是,本文方法只需要訓(xùn)練一次即可,并且實(shí)驗(yàn)表明在大部分非整數(shù)倍尺度的情況下,本文方法相較RDN和EDSR網(wǎng)絡(luò)都取得了更好的效果,這表明本文方法是可行且有效的。
表4 BSD100數(shù)據(jù)集測(cè)試峰值信噪比對(duì)比
續(xù)表4
本文提出了一種以殘差通道模塊作為特征提取模塊,元采樣作為放大模塊的圖像超分辨率網(wǎng)絡(luò),該方法充分利用了每一層的特征,通過(guò)一個(gè)模型就得到了各尺度因子的超分辨率圖像。在四個(gè)公共數(shù)據(jù)集上進(jìn)行定量的實(shí)驗(yàn),用常用的評(píng)價(jià)指標(biāo)進(jìn)行評(píng)價(jià),實(shí)驗(yàn)結(jié)果表明,本文的方法很有效,相比其他近年來(lái)先進(jìn)的方法,本文方法在保證了PSNR和SSIM評(píng)分指標(biāo)的情況下,提高了圖像恢復(fù)的效率,比起需要針對(duì)特定比例進(jìn)行訓(xùn)練的網(wǎng)絡(luò)更具實(shí)用價(jià)值。