熊承義,李雪靜,高志榮,孫清清,劉川鄂
(中南民族大學(xué) a.電子信息工程學(xué)院;b.智能無線通信湖北省重點(diǎn)實(shí)驗(yàn)室;c.計(jì)算機(jī)科學(xué)學(xué)院,武漢 430074)
近年來,單幅圖像超分辨(SISR)在計(jì)算機(jī)視覺任務(wù)中應(yīng)用廣泛,包括醫(yī)療圖像[1],圖像生成[2]等領(lǐng)域.SISR 旨在從退化的低分辨率圖像(LR)中產(chǎn)生一個(gè)視覺良好的高分辨率圖像(HR).因?yàn)镾ISR 是一個(gè)不適定問題,所以近期比較流行的做法是通過學(xué)習(xí)LR 到HR 的非線性映射來構(gòu)建一個(gè)HR 圖像.主流方法可以分為兩類:一類是搭建深度神經(jīng)網(wǎng)絡(luò)(DNN)[1,3-8],另一類則是搭建非深度神經(jīng)網(wǎng)絡(luò)[9-12].
對(duì)于DNN 方法,網(wǎng)絡(luò)從LR 圖像中獲取特征圖,并通過增加一個(gè)或多個(gè)上采樣層來不斷增加圖像的分辨率,以此構(gòu)建HR 圖像.然而單純的向前傳播很難展現(xiàn)LR 和HR 的關(guān)系,所以人們開始嘗試用反饋連接來指導(dǎo)最后的重構(gòu)圖像.
最初將反饋連接有效應(yīng)用在超分辨率(SR)算法中的是迭代反向投影[13].它迭代地計(jì)算重構(gòu)誤差,并據(jù)此調(diào)整HR 圖像.盡管提升了重構(gòu)圖像質(zhì)量,但重構(gòu)圖像仍然有響鈴和棋盤效應(yīng).此外,這個(gè)方法對(duì)迭代次數(shù)以及模糊因子很敏感,不同的參數(shù)可能會(huì)導(dǎo)致不同的結(jié)果.
HARIS等[14]提出了深度反向投影網(wǎng)絡(luò)(DBPN),運(yùn)用迭代的上下采樣層來構(gòu)建一個(gè)端到端的網(wǎng)絡(luò)結(jié)構(gòu),不僅解決了重構(gòu)圖像的響鈴和棋盤效應(yīng),還在高放大因子下實(shí)現(xiàn)了圖像超分辨率的提升.然而,DBPN只考慮了一個(gè)尺度上的特征學(xué)習(xí)和重構(gòu),忽略了下采樣操作可能導(dǎo)致的信息丟失,進(jìn)而影響最終的重構(gòu)效果.因此,本文提出了基于并行反向投影的圖像超分辨率網(wǎng)絡(luò),即在多級(jí)的反向投影模塊中新增一條通路,進(jìn)行與之相反的上下采樣操作.隨后,分別對(duì)兩條通路進(jìn)行殘差操作,得到不同頻段上的高頻信息,并將其疊加到與原始的通路中去.通過這樣的方式,不斷增強(qiáng)圖像的高頻特征,擴(kuò)大感受野,避免了因下采樣操作造成的信息丟失.不僅如此,還在多級(jí)殘差融合后對(duì)其進(jìn)行通道注意力的增強(qiáng),以便學(xué)到更多的關(guān)鍵信息,提升圖像的重構(gòu)效果.實(shí)驗(yàn)結(jié)果表明,本方法重構(gòu)的圖像較同類方法在超分辨率性能上有明顯提高,且在模型復(fù)雜度和性能方面取得了良好的平衡,實(shí)用性更強(qiáng).
最近,SISR 因其廣泛的應(yīng)用和優(yōu)秀的性能而被越來越多的研究人員關(guān)注.其中,迭代反向投影和通道注意力增強(qiáng)都取得了令人矚目的成果.
反向投影是減少重構(gòu)錯(cuò)誤的一種有效手段.最初,反向投影被用來實(shí)現(xiàn)多個(gè)LR 圖像的輸入.然而,TIMOFTEN 等[15]發(fā)現(xiàn)反向投影可以提高SR 圖像的質(zhì)量.隨后,ZHAO 等[16]通過一個(gè)迭代的投影操作來調(diào)整高頻圖像的紋理細(xì)節(jié).所有這些研究都證明了迭代反向投影可以有效處理高頻特征,提升重構(gòu)圖像的質(zhì)量.
在反向投影網(wǎng)絡(luò)中,如果僅輸入一個(gè)LR 圖像,則反向投影的公式可表示為:
其中,p是一個(gè)連續(xù)的反向投影核,g是一個(gè)單獨(dú)的模糊濾波,↑s和↓s分別代表上下采樣操作是第t次迭代輸入的LR 圖像分別是第t次迭代中生成的HR 和LR 圖像代表輸入LR 圖像與生成LR 圖像之間的殘差是此殘差上采樣的結(jié)果,則是第t層迭代最終產(chǎn)生的SR圖像.
人類視覺在處理整幅圖像時(shí),會(huì)傾向關(guān)注重點(diǎn)區(qū)域,忽略其他無用信息,提高視覺信息處理的效率和準(zhǔn)確性.受此啟發(fā),許多研究圍繞著如何聚焦最有用的信息展開.HU 等[17]提出了一個(gè)“壓縮與激勵(lì)”(SE)塊,通過建立通道之間的相互依賴性來自適應(yīng)地校準(zhǔn)通道間的特征響應(yīng).據(jù)此,通道注意力機(jī)制證明了其在指導(dǎo)特征學(xué)習(xí)上的有效性,并在SISR領(lǐng)域中受到了越來越多的重視.
為了選出一幅圖片中最有用的信息,利用全局信息作為指導(dǎo)來分配權(quán)重是必要的.這是因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)的局部操作使得每一個(gè)輸出值難以代表整個(gè)圖片的依賴關(guān)系.令輸入X=[x1,…,xc,…,xC],維度H×W包含C個(gè)特征映射.通道注意力的步驟如下所示.第一步,通過一個(gè)全局平均池化獲得全局統(tǒng)計(jì)數(shù)字,即Z=[z1,…,zc,…,zC].Z的第c個(gè)元素定義為:
其中,xc(i,j)是c特征映射xc在(i,j)上的值.FGAP(·)代表全局平局池化.第二步,對(duì)不同通道上非線性交互和非相互排斥的關(guān)系進(jìn)行注意力學(xué)習(xí)(AL),用公式表示為:
其中,F(xiàn)AL(·)代表用注意力學(xué)習(xí)每個(gè)通道合適的權(quán)重,s和δ分別是sigmoid 函數(shù)和ReLU 函數(shù)[18].W1和W2是兩個(gè)全聯(lián)接層(FC)的參數(shù).假設(shè)Z 有C個(gè)通道,則第一個(gè)FC 層的輸出有個(gè)通道(r代表壓縮比),第二個(gè)FC 層的輸出有C個(gè)通道.第三步,應(yīng)用學(xué)習(xí)到的權(quán)重因數(shù)W 對(duì)輸入進(jìn)行重新分配,這樣輸出Y的第c個(gè)特征映射yc就可以表示為:
其中xc和wc分別代表輸入X 的第c個(gè)映射和其對(duì)應(yīng)的權(quán)重因數(shù).據(jù)此,輸入可以自適應(yīng)地聚焦到最重要的特征.
本文提出的基于并行反向投影的超分辨率重構(gòu)網(wǎng)絡(luò),通過迭代的上下采樣層,增強(qiáng)HR 圖像在不同尺度上的特征提取.不同于DBPN[14]中單路的上下采樣投影單元,本文網(wǎng)絡(luò)包含兩個(gè)并行的通路,不同通路得到圖像在不同尺度上的投影結(jié)果.一個(gè)通路按照DBPN 提出的上下采樣模塊進(jìn)行特征學(xué)習(xí),而另一個(gè)通路進(jìn)行與之相反的上下采樣操作.在得到不同頻段上的高頻殘差信息后進(jìn)行疊加融合,實(shí)現(xiàn)對(duì)原有尺度特征信息的增強(qiáng).最后,將疊加的特征信息進(jìn)行上采樣,融合初始高頻特征并對(duì)通道進(jìn)行注意力增強(qiáng),實(shí)現(xiàn)重構(gòu)圖像質(zhì)量的提升.
如圖1所示,網(wǎng)絡(luò)的整體結(jié)構(gòu)由三部分組成:淺層特征提取模塊(SFES)、反向投影模塊(BPS)和深度重構(gòu)模塊(DRS).圖中綠色塊代表卷積操作(conv),深藍(lán)色塊代表上投影單元(Up projection),深棕色塊代表下投影單元(Down projection),淺藍(lán)塊代表上采樣操作(Up Block),淺棕塊代表下采樣操作(Down Block),深紫塊代表通道注意力操作(CA),淺橙塊代表級(jí)聯(lián)操作(concat).
圖1 網(wǎng)絡(luò)的整體結(jié)構(gòu)框圖Fig.1 Block diagram of the whole network structure
在淺層提取模塊中,通過一個(gè)3 × 3卷積提取原始的LR 圖像特征.接著用一個(gè)1 × 1卷積來降維,使其在進(jìn)入反向投影模塊前保持維度的一致性.假設(shè)提取到的淺層特征為H0,則有:
其中ILR代表網(wǎng)絡(luò)的輸入(LR 圖像),F(xiàn)SFES(·)表示卷積操作.隨后,H0作為輸入被喂到下一個(gè)反向投影模塊(BPS)中來調(diào)整LR 到HR 的特征投影.因?yàn)橥ㄟ^密集連接,輸出可以聯(lián)系到前面的每一層,則第t層的輸出可以表示為:
其中,F(xiàn)BPS(·)代表一系列的反向投影層,t=1,2,…,T.不同階段的層級(jí)信息都作用于最后的重構(gòu)階段,所以將所有的信息全局化地融合到一起.關(guān)于BPS 網(wǎng)絡(luò)的更多細(xì)節(jié)將在2.2 節(jié)中給出.最后,將融合后的信息[H1,H2,…,Ht]作為重構(gòu)單元的輸入以產(chǎn)生最終的SR圖像,模型最終的輸出ISR可以表示為:
其中FDRS(·)表示一個(gè)3 × 3 的卷積操作,[H1,H2,…,Ht]代表每一個(gè)上采樣單元特征投影的級(jí)聯(lián).
選擇L1損失函數(shù)來最優(yōu)化網(wǎng)絡(luò).給定N 對(duì)圖像作為訓(xùn)練集,可以表示為其中,一對(duì)圖像中包含一個(gè)LR 圖像的輸入和其對(duì)應(yīng)的HR 圖像.所以,最優(yōu)化的目標(biāo)可如下所示:其中代表預(yù)計(jì)從中恢復(fù)出的SR 圖像,θ代表網(wǎng)絡(luò)的學(xué)習(xí)參數(shù),F(xiàn)PDBPN(·)表示網(wǎng)絡(luò)總體結(jié)構(gòu)的函數(shù)表達(dá)式.
通過在不同尺度上進(jìn)行連續(xù)的上下采樣操作,能夠保留HR 的特征,并學(xué)習(xí)到更深的高頻特征.因此,用一個(gè)端對(duì)端的可訓(xùn)練結(jié)構(gòu)指導(dǎo)SR圖像運(yùn)用相互聯(lián)系的上下采樣層來學(xué)習(xí)LR 和HR 圖像之間的非線性關(guān)系.具體地說,上投影單元產(chǎn)生HR 圖像的特征投影,然后下投影單元又將其返回到LR 空間投影中.
上投影單元的定義如下所示:
其中*代表空間卷積操作,↑s和↓s分別代表縮放因數(shù)為s的上下采樣操作,pt,gt和qt代表在t階的卷積或反卷積層數(shù).
上投影單元的示意圖如圖2(a)所示.將之前提取的LR 特征投影Lt-1和Ht-1分別作為兩路通道的輸入,第一路上采樣得到一個(gè)中間投影變量,第二路下采樣得到一個(gè)中間投影變量;之后,分別將其投影回LR 和HR 得到算出兩路的殘差后使之級(jí)聯(lián),得到并再一次投影到HR上,產(chǎn)生一個(gè)中間殘差投影
圖2 上下投影單元的內(nèi)部結(jié)構(gòu)Fig.2 Internal structure of up and down projection unit
考慮到注意力機(jī)制能夠增強(qiáng)網(wǎng)絡(luò)對(duì)特征通道的判別能力,進(jìn)而提升網(wǎng)絡(luò)性能,在投影單元的最后引入通道注意力(CA)塊,如公式(20)所示:
其中FCA(·)代表通道注意力操作.在將兩個(gè)HR 上的中間投影變量相加后,對(duì)其進(jìn)行通道注意力增強(qiáng),來選擇性提升有用的高頻特征信息并抑制對(duì)性能影響較小的無用特征.雖然增加了一定的系統(tǒng)復(fù)雜度和重構(gòu)時(shí)間,但其有效提升了網(wǎng)絡(luò)的模型性能,更多細(xì)節(jié)見3.3 節(jié)中的消融實(shí)驗(yàn)與分析.最終得到了該單元的輸出Ht.
下投影單元的操作與之類似,如圖2(b)所示.公式定義如下:
此外,投影單元應(yīng)用在不同階段可以作為自我糾錯(cuò)的手段,即當(dāng)喂入一個(gè)投影錯(cuò)誤后,反饋能夠迭代地修正最后的重構(gòu)效果.改變投影單元中濾波器的大小,分別得到×2、×3 和×4 尺度下的超分辨率圖像.因?yàn)椴⑿械纳舷虏蓸訂卧軌蛟诓粨p失高頻特征信息的情況下保留LR 和HR 之間的關(guān)系,所以能夠重構(gòu)出質(zhì)量更好的圖像.
DBPN 網(wǎng)絡(luò)根據(jù)放大倍數(shù)的不同而選擇不同的投影單元.對(duì)于2 倍投影,卷積核為6,步長(zhǎng)為2,填充為2.4倍投影的卷積核為8,步長(zhǎng)為4,填充為2.而8 倍投影的卷積核為12,步長(zhǎng)為8,填充為2.與之對(duì)應(yīng),2 倍和4 倍的投影單元在參數(shù)上與DBPN 網(wǎng)絡(luò)保持一致,但是在3倍投影中,使用的卷積核為7,步長(zhǎng)為3,填充為2.
不僅如此,DBPN 在不同倍數(shù)的放大網(wǎng)絡(luò)中使用的投影單元數(shù)量也不同,例如在8倍放大中,共采用了19 個(gè)投影單元(10 個(gè)向上的和9 個(gè)向下的).而放大倍數(shù)越小,投影單元越少,參數(shù)也越小.與之相比,本文網(wǎng)絡(luò)采用了統(tǒng)一的投影單元數(shù)量,即6個(gè)上采樣投影單元和5 個(gè)下采樣投影單元.實(shí)驗(yàn)結(jié)果證明,該網(wǎng)絡(luò)可以兼顧參數(shù)和重構(gòu)效果,實(shí)用性更高.
具體地,本文的訓(xùn)練集是經(jīng)過擴(kuò)增的DIV2K[19]數(shù)據(jù)集(包括縮放、旋轉(zhuǎn)和任意裁剪),共計(jì)51200幅圖片.在訓(xùn)練階段,將每幅HR 圖像隨機(jī)分割成256 × 256 的圖像塊和不同放大因子(×2,×3,×4)下對(duì)應(yīng)的LR 圖像塊.在測(cè)試階段,用五個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集:Set5[20],Set14[21],BSDS100[22],Urban100[22]和Manga109[23]進(jìn)行驗(yàn)證.超分辨率的結(jié)果用Y 通道上的PSNR 和SSIM[24]進(jìn)行評(píng)價(jià).運(yùn)用的學(xué)習(xí)框架為Tensorflow,在Ubantu18.04系統(tǒng)上使用兩張12 GB的Nvidia TITANX 顯卡完成所有的訓(xùn)練和測(cè)試.BatchSize設(shè)置為16,共訓(xùn)練500個(gè)周期.學(xué)習(xí)率初始化為1e-4,并且每10 個(gè)周期衰減為原來的0.8 倍.網(wǎng)絡(luò)通過Adam Optimizer 進(jìn)行優(yōu)化,損失函數(shù)設(shè)置為L(zhǎng)1.
在五個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上對(duì)比了本文網(wǎng)絡(luò)與其他類似的超分辨網(wǎng)絡(luò)在同等條件下的實(shí)驗(yàn)結(jié)果,包括SRCNN[25]、VDSR[6]、LapSRN[4]、RDN[26]和DBPN[14].表1列出了在不同放大因子下基準(zhǔn)數(shù)據(jù)集上的對(duì)比效果,最好的結(jié)果用加粗黑體標(biāo)出.
表1 不同重構(gòu)算法在×2,×3,×4放大因子下的PSNR(dB)和SSIM的比較Tab.1 Comparison of PSNR(dB)and SSIM of different reconstruction algorithms at ×2,×3,×4 amplification factors
從表1 可以看出,在公開數(shù)據(jù)集上的所有放大倍數(shù)下的圖像超分辨重構(gòu)實(shí)驗(yàn)中,本文網(wǎng)絡(luò)的效果是最好的.以×4 放大因子上的Set5 數(shù)據(jù)集為例,提出的方法比RDN[26]和DBPN[14]在PSNR 指標(biāo)上均獲得了0.08 dB 的性能提升,而參數(shù)分別減少了16.9 M和4.8 M.這表明該網(wǎng)絡(luò)能夠在保證圖像質(zhì)量的情況下,有效降低模型參數(shù)和計(jì)算的復(fù)雜度.這是因?yàn)橥队皢卧诓⑿型ǖ篮笥? × 1 卷積對(duì)數(shù)據(jù)進(jìn)行了降維,減少了參數(shù)量.不僅如此,因?yàn)椴⑿型ǖ捞岣吡司W(wǎng)絡(luò)對(duì)不同尺度特征的適應(yīng)能力,能夠在較淺的網(wǎng)絡(luò)下達(dá)到更好的學(xué)習(xí)效果,所以減少了級(jí)聯(lián)的模塊個(gè)數(shù),增加了網(wǎng)絡(luò)的普適性.而相較于SRCNN[25]、VDSR[6]、和LapSRN[4]來說,雖然本文參數(shù)有所增加,但是在PSRN 上也分別獲得了2.07 dB、1.2 dB 和1.01 dB 的性能提升,因此犧牲一定的系統(tǒng)復(fù)雜度是有必要的.
在其余四個(gè)數(shù)據(jù)集上,本文方法也比其他同類方法在圖像效果上至少提高了0.02 dB,這主要是因?yàn)椴⑿蟹聪蛲队澳K可以學(xué)習(xí)到不同尺度上的高頻信息,對(duì)信息重構(gòu)提供了更多的指導(dǎo)作用.并且,該結(jié)構(gòu)還保留了因上下采樣而損失掉的特征信息,增強(qiáng)了錯(cuò)誤反饋機(jī)制的作用.最后,并行結(jié)構(gòu)擴(kuò)大了感受野,使網(wǎng)絡(luò)獲得了更強(qiáng)的重構(gòu)能力.
此外,在Set14 數(shù)據(jù)集(×4)上將本文算法(PDBPN)與其他算法在模型大小、重構(gòu)時(shí)間和性能表現(xiàn)上作了比較,如表2 所示.由表可知,本文算法在平均重構(gòu)時(shí)間上位列中等,但在PSNR 性能表現(xiàn)上排名第一.與RDN[26]和DBPN[14]相比,PDBPN有更小的參數(shù)量和更快的重構(gòu)時(shí)間.雖然與其他方法相比,參數(shù)量和重構(gòu)時(shí)間有所增加,但是PDBPN 在性能表現(xiàn)上更好.綜上所述,本文算法在性能和重構(gòu)時(shí)間上取得了很好的平衡,具有更強(qiáng)的實(shí)用性.
表2 放大因子為×4的Set5數(shù)據(jù)集上,不同算法在速度、參數(shù)、重構(gòu)性能之間的比較Tab.2 Comparison of speed,parameter,reconstruction performance of different algorithms on Set5 at amplification factor=×4
為了比較不同算法下的視覺效果,下面給出了4 倍放大因數(shù)下SRCNN[25]、VDSR[6]、RDN[26]、DBPN[14]和本文方法得出的重構(gòu)圖像.在圖3中,重構(gòu)出的斑馬紋理相對(duì)于DBPN[14]和RDN[26]來說減少了模糊,邊界更清楚,而SRCNN[25]和VDSR[6]分別有不同程度的扭曲變形;在圖4中,本研究重構(gòu)出的文字輪廓更加清晰,其他方法均有不同程度的模糊和重影;在圖5中,本方法重構(gòu)出的圖像在鳥喙處更加尖銳,且輪廓相較其他方法更加可辨.從放大細(xì)節(jié)可以看出,本文網(wǎng)絡(luò)重構(gòu)出的圖像是最清晰可辨的.
圖3 ×4放大因子下不同算法對(duì)‘zebra’的重構(gòu)結(jié)果Fig.3 Reconstructed results of image ′zebra′ by different algorithms at ×4 magnification factor
圖4 ×4放大因子下不同算法對(duì)‘ppt’的重構(gòu)結(jié)果Fig.4 Reconstructed results of image ‘ppt’ by different algorithms at ×4 amplification factor
圖5 ×4放大因子下不同算法對(duì)‘bird’的重構(gòu)結(jié)果Fig.5 Reconstructed results of image ′bird′ by different algorithms at ×4 amplification factor
為了驗(yàn)證不同模塊的作用,測(cè)試了×2 放大因子下Set5 數(shù)據(jù)集上并行結(jié)構(gòu)(PL)、通道注意力機(jī)制(CA)和密集連接(DC)對(duì)重構(gòu)性能的影響,如表3所示.
表3 ×2放大因子下的Set5數(shù)據(jù)集上的消融研究結(jié)果Tab.3 Ablation experimental results on Set5 at ×2 amplification factor
從表3中可以看出,并行結(jié)構(gòu)、通道注意力機(jī)制和密集連接模塊對(duì)重構(gòu)效果都有不同程度的提高,其中并行結(jié)構(gòu)尤為突出.基于此,本文的網(wǎng)絡(luò)將三個(gè)模塊一并保留,以此得到更好的重構(gòu)效果.
基于并行通道可以有效獲取并增強(qiáng)圖像的高頻特征,設(shè)計(jì)了一個(gè)基于并行反向投影的超分辨率網(wǎng)絡(luò).網(wǎng)絡(luò)中包含了多級(jí)的并行反向投影特征增強(qiáng)模塊和通道注意力機(jī)制,通過對(duì)多級(jí)殘差信息的融合,使得圖像的高頻特征得到不斷增強(qiáng).實(shí)驗(yàn)結(jié)果表明,本文提出的網(wǎng)絡(luò)可以有效提升超分辨率性能,并且很好地平衡了模型復(fù)雜度和性能的關(guān)系,具有更強(qiáng)的實(shí)用性.