歐陽(yáng)寧,韋 羽,林樂(lè)平*
(1.認(rèn)知無(wú)線電與信息處理省部共建教育部重點(diǎn)實(shí)驗(yàn)室(桂林電子科技大學(xué)),廣西桂林 541004;2.桂林電子科技大學(xué)信息與通信學(xué)院,廣西桂林 541004)
(*通信作者電子郵箱lin_leping@163.com)
單幅圖超分辨率(Super-Resolution,SR)重建[1]是一個(gè)不適定的逆問(wèn)題,旨在從低分辨率(Low-Resolution,LR)圖像中恢復(fù)出高分辨率(High-Resolution,HR)圖像。近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在各種計(jì)算機(jī)視覺(jué)領(lǐng)域如目標(biāo)檢測(cè)[2]、圖像識(shí)別[3]、圖像分割[4]取得的重大突破已經(jīng)影響到超分辨率重建領(lǐng)域[5-10]。Dong 等[5]首次將卷積神經(jīng)網(wǎng)絡(luò)引入超分辨率重建領(lǐng)域,提出了基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨率(Super-Resolution using CNN,SRCNN)重建方法。該方法通過(guò)端到端的方式學(xué)習(xí)LR 到HR 之間的非線性映射,是目前典型的基于CNN 的超分辨率重建方法;Kim 等[6]在用于大規(guī)模圖像識(shí)別的深度卷積神經(jīng)網(wǎng)絡(luò)[3]的啟發(fā)下,提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的精確圖像超分辨率(accurate image Super-Resolution using Very Deep convolutional neural networks,VDSR)重建方法。該方法通過(guò)增加網(wǎng)絡(luò)深度的方式擴(kuò)大網(wǎng)絡(luò)的感受野,使網(wǎng)絡(luò)可以提取更為高級(jí)的特征,同時(shí)采用殘差學(xué)習(xí)以及增加學(xué)習(xí)率的策略緩解梯度消失問(wèn)題;Ren 等[7]根據(jù)集成學(xué)習(xí)的思想,提出了融合多個(gè)神經(jīng)網(wǎng)絡(luò)用于圖像的超分辨率(image super resolution based on Fusing multiple Convolution neural Networks,CNF)重建方法。該方法利用多個(gè)不同深度的網(wǎng)絡(luò)提取不同的上下文信息,由于不同深度網(wǎng)絡(luò)提取的特征不同,融合多個(gè)支路的上下文信息后可以有效增強(qiáng)特征表達(dá)能力,從而提升網(wǎng)絡(luò)重建精度;Lai 等[8]在圖像金字塔的啟發(fā)下提出了深度拉普拉斯網(wǎng)絡(luò)用于實(shí)現(xiàn)快速準(zhǔn)確的超分辨率(deep Laplacian pyramid Networks for fast and accurate Super-Resolution,LapSRN)重建方法。該方法構(gòu)建了一種金字塔型網(wǎng)絡(luò)結(jié)構(gòu),從粗到細(xì)逐步學(xué)習(xí)圖像高頻細(xì)節(jié)的殘差映射,大大降低了模型的復(fù)雜度以及學(xué)習(xí)難度;同樣基于由粗到細(xì)的思想,歐陽(yáng)寧等[9]提出基于自注意融合網(wǎng)絡(luò)的圖像超分辨率(Self-Attention Network for image Super-Resolution,SASR-Net)重建方法。該方法首先通過(guò)CNN 初步重建高分辨率(HR)圖像,然后通過(guò)自注意力模塊捕捉初步重建圖像的全局依賴(lài),進(jìn)一步地恢復(fù)圖像高頻細(xì)節(jié)。另外,為了獲得視覺(jué)上更為逼真的重建圖像,Ledig等[10]提出了使用生成式對(duì)抗網(wǎng)絡(luò)的真實(shí)感單幅圖像超分辨率(photo-realistic single image Super-Resolution using a Generative Adversarial Network,SRGAN)重建方法,將鑒別網(wǎng)絡(luò)作為一種圖像先驗(yàn)引入超分辨率重建領(lǐng)域,以對(duì)抗的方式優(yōu)化生成網(wǎng)絡(luò)和鑒別網(wǎng)絡(luò),促使生成網(wǎng)絡(luò)獲得更好的去模糊效果。
圖像的多尺度表達(dá)被廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)任務(wù)的分析建模中,對(duì)計(jì)算機(jī)視覺(jué)任務(wù)具有重要意義。與傳統(tǒng)的多尺度表達(dá)不同,卷積神經(jīng)網(wǎng)絡(luò)中的多尺度表達(dá)主要為特征金字塔。該表達(dá)通過(guò)連續(xù)的卷積和下采樣操作獲得一系列感受野大小不同以及尺度不同的特征圖,從而可以具備局部至全局的上下文信息。在超分辨率重建領(lǐng)域中,充分地利用圖像上下文信息十分重要,融合圖像局部至全局的上下文信息往往能夠有效增加特征描述的準(zhǔn)確性以及增強(qiáng)特征表達(dá)能力。比如CNF 方法通過(guò)融合多個(gè)網(wǎng)絡(luò)的上下文信息增加特征表達(dá)能力,取得了良好效果。但受到目前主流的單階段重建方式的影響,目前的超分辨率重建方法主要以先提取低分辨率(LR)圖像特征再上采樣的方式重建圖像。由于輸入LR 圖像尺寸較小,難以進(jìn)行特征的多尺度表達(dá),為了增加網(wǎng)絡(luò)感受野,該方式往往需要將網(wǎng)絡(luò)堆疊得較深,因而,該方式容易導(dǎo)致模型復(fù)雜度較高且不能充分利用圖像的多尺度上下文信息。另外,目前優(yōu)化模型的損失函數(shù)中,使用L1和L2損失優(yōu)化模型容易導(dǎo)致重建的圖像邊緣較為平滑,難以獲得一個(gè)良好的視覺(jué)體驗(yàn)效果,雖然SRGAN 方法重建的高分辨率圖像能夠獲得較好的視覺(jué)體驗(yàn)效果,但是該方法引入的判別模型不能精確地針對(duì)紋理和邊緣進(jìn)行優(yōu)化,導(dǎo)致重建的圖像中存在一定的高頻噪聲。
基于以上問(wèn)題,本文提出了結(jié)合感知邊緣約束與多尺度融合網(wǎng)絡(luò)的圖像超分辨率重建方法(image Super-Resolution reconstruction method combining Perceptual Edge Constraint and Multi-Scale fusion Network,MSSR-Net-PEC)。首先,針對(duì)目前的超分辨率重建方法不能充分提取和利用圖像多尺度特征問(wèn)題,本文受到SASR-Net以及LapSRN 多階段重建的啟發(fā),設(shè)計(jì)了一個(gè)兩階段網(wǎng)絡(luò)。該網(wǎng)絡(luò)先通過(guò)第一階段CNN 初步提取和上采樣圖像特征,避免了特征尺寸過(guò)小不能進(jìn)行多尺度表達(dá)問(wèn)題;然后再通過(guò)特征金字塔模塊完成多尺度特征的提取以及多尺度特征的融合,從而充分利用圖像的多尺度上下文信息來(lái)精細(xì)化第一階段網(wǎng)絡(luò)輸出特征,增加特征表達(dá)能力。其中:第一階段由卷積層、殘差組C1,以及上采樣操作組成,負(fù)責(zé)初步提取和上采樣圖像特征;第二階段網(wǎng)絡(luò)由多個(gè)殘差組、下采樣操作以及多個(gè)注意力融合模塊組成,該網(wǎng)絡(luò)先通過(guò)殘差組和下采樣操作捕捉圖像的多尺度特征,再通過(guò)自底向上的逐步融合方式融合圖像的多尺度特征,從而有效利用圖像多尺度上下文信息,增加特征描述的準(zhǔn)確性。在第二階段中,考慮到不同尺度不同通道的特征重要性差異,本文在通道注意力的啟發(fā)下,利用通道注意力捕捉不同尺度特征的通道權(quán)重,并通過(guò)該權(quán)重完成不同尺度特征的融合,以更有效融合不同尺度特征。其次,針對(duì)目前的損失不能良好地恢復(fù)圖像高頻細(xì)節(jié)問(wèn)題,本文嘗試在L1損失的基礎(chǔ)上引入更豐富的卷積特征用于邊緣檢測(cè)(Richer Convolutional Features for edge detection,RCF)方法[11]作為感知邊緣約束。其中,該邊緣檢測(cè)方法的邊緣檢測(cè)精度已經(jīng)超越數(shù)據(jù)集本身人工標(biāo)注平均值,能夠精確地檢測(cè)和識(shí)別圖像邊緣,受到感知損失中利用網(wǎng)絡(luò)特征計(jì)算損失的啟發(fā),本文用該方法的特征提取網(wǎng)絡(luò)的輸出特征計(jì)算特征損失LD,以精確地針對(duì)圖像的邊緣進(jìn)行優(yōu)化,恢復(fù)圖像高頻信息。實(shí)驗(yàn)結(jié)果表明,本文的方法與SRCNN[5]、VDSR[6]、LapSRN[8]、SASR-Net[9]等相比較,在客觀評(píng)價(jià)標(biāo)準(zhǔn)和主管視覺(jué)效果上都優(yōu)于這些超分辨率重建算法。
本文基于由粗到細(xì)的思想,設(shè)計(jì)了兩階段網(wǎng)絡(luò):第一階段主要負(fù)責(zé)提取圖像特征;第二階段負(fù)責(zé)提取和融合圖像多尺度特征,捕捉全局上下文依賴(lài),以精細(xì)第一階段特征。如圖1所示。第一階段以原始低分辨率圖像作為輸入,通過(guò)CNN 完成特征的提取以及上采樣操作。第二階段以第一階段的輸出作為特征金字塔模塊的輸入,提取和融合多尺度上下文信息。
第一階段中,CNN 由卷積層、殘差組C1 和上采樣單元組成。其中,殘差組如圖1 中的殘差組虛線框所示,該模塊由N個(gè)殘差單元依次堆疊而成,第N-1個(gè)殘差單元的輸入為第N-2個(gè)殘差單元的輸出,第N-1個(gè)殘差單元輸出為第N個(gè)殘差單元的輸入。在第一階段網(wǎng)絡(luò)中,殘差組C1 的殘差單元數(shù)量N為10,上采樣方法為亞像素上采樣[12]。
受到特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)2]和LapSRN[8]的啟發(fā),本文設(shè)計(jì)了特征金字塔模塊作為第二階段網(wǎng)絡(luò)。該模塊以第一階段輸出為輸入,先通過(guò)連續(xù)的卷積和下采樣操作獲得不同尺度的特征表達(dá),再通過(guò)自底向上的注意力融合模塊逐步融合不同尺度特征。其中該模塊的卷積部分由多個(gè)殘差組組成,下采樣操作則通過(guò)步長(zhǎng)為2的3×3卷積層來(lái)完成。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure
為了更有效且更精準(zhǔn)地重建圖像高頻細(xì)節(jié),本文在L1損失的基礎(chǔ)上引入RCF方法作為感知邊緣約束。RCF方法在邊緣檢測(cè)任務(wù)中表現(xiàn)優(yōu)異,能夠精確檢測(cè)圖像邊緣,因此,將其引入作為圖像感知邊緣約束,能夠有效地針對(duì)圖像的邊緣進(jìn)行優(yōu)化,從而更逼近目標(biāo)函數(shù)全局最優(yōu)點(diǎn)。本文對(duì)RCF 方法的特征提取網(wǎng)絡(luò)中conv2-2 卷積層輸出的第2 個(gè)通道特征圖進(jìn)行了可視化,如圖2 所示,特征圖中包含了豐富的高頻細(xì)節(jié)信息。相對(duì)于以最終輸出的單張邊緣概率圖計(jì)算損失,在特征層次計(jì)算損失能夠更為充分地利用圖像信息,因此,本文使用該方法特征提取網(wǎng)絡(luò)中第三階段卷積層輸出計(jì)算特征損失LD,并與L1損失結(jié)合,進(jìn)一步約束解空間。
圖2 RCF網(wǎng)絡(luò)特征可視化結(jié)果Fig.2 RCF network feature visualization result
本文算法如算法1 所示,其中:iteration 表示當(dāng)前迭代次數(shù),max-iteration代表最大迭代次數(shù)。
算法1 超分辨率重建算法優(yōu)化。
特征金字塔模塊主要由多尺度特征提取支路和多尺度特征融合支路組成,旨在提取和融合多尺度上下文信息,更好地重建圖像邊緣和紋理。
如何有效恢復(fù)圖像的邊緣和紋理是超分辨率重建中至關(guān)重要的問(wèn)題,其中的關(guān)鍵點(diǎn)之一在于如何有效地捕捉全局上下文依賴(lài)。但在實(shí)際的研究過(guò)程中,為了能夠有效捕捉全局上下文依賴(lài),網(wǎng)絡(luò)模型通常被設(shè)計(jì)得過(guò)于復(fù)雜。針對(duì)這個(gè)問(wèn)題,本文設(shè)計(jì)了特征金字塔模塊。其中,該模塊具有以下幾個(gè)優(yōu)點(diǎn):1)擴(kuò)大網(wǎng)絡(luò)感受野的同時(shí)不需要增加過(guò)多的網(wǎng)絡(luò)參數(shù),使得網(wǎng)絡(luò)具備不同尺度的圖像特征;2)提取和融合不同尺度特征,有效捕捉全局上下文依賴(lài);3)多尺度特征融合過(guò)程中,通過(guò)通道注意力捕捉不同尺度特征的權(quán)重大小,更有效地融合不同尺度特征;4)多尺度特征融合過(guò)程中,采用逐步上采樣融合方式,能夠?qū)崿F(xiàn)更為精細(xì)的圖像重建。因此,特征金字塔模塊的引入有望更好地恢復(fù)圖像的邊緣和紋理。
特征金字塔模塊結(jié)構(gòu)如圖1 所示。該模塊由兩部分組成:第一部分由多個(gè)殘差組和下采樣單元組成,負(fù)責(zé)提取圖像的多尺度特征。由于過(guò)多丟失圖像細(xì)節(jié)信息不利于圖像的重建,本文只提取3 個(gè)尺度的上下文特征。其中,殘差組C1、C2、C3 的殘差單元數(shù)量N分別為2、3、5。第二部分由兩個(gè)注意力融合模塊組成,該部分通過(guò)注意力融合模塊自底向上逐步融合多個(gè)尺度特征,完成多尺度特征的融合。
鑒于不同的尺度的特征可能具有不同的重要性[13],本文引入通道注意力機(jī)制[14]以生成可訓(xùn)練的權(quán)重進(jìn)行特征融合。注意力融合模塊如圖3所示。
假設(shè)Fc和Fk分別代表兩個(gè)相鄰的不同尺度特征,分別被送入到注意力融合模塊的兩個(gè)支路,下方支路首先將Fk特征圖通過(guò)亞像素上采樣2 倍至Fc大小,緊接著上下兩個(gè)支路分別經(jīng)過(guò)卷積和通道注意力模塊后加權(quán),得到融合后的特征F′。
假設(shè)第i個(gè)通道中兩個(gè)不同尺度的特征分別為,對(duì)應(yīng)生成的注意力權(quán)重為,文中的注意力融合模塊可以被表示為:
圖3 注意力融合模塊Fig.3 Attention fusion module
近年來(lái)基于卷積神經(jīng)網(wǎng)絡(luò)的邊緣檢測(cè)方法在邊緣檢測(cè)領(lǐng)域取得了重大突破[11],精度已經(jīng)超越數(shù)據(jù)集本身人工標(biāo)注平均值。相較于Canny 算子[15],基于CNN 的邊緣檢測(cè)方法能夠精準(zhǔn)識(shí)別和定位圖像邊緣。RCF方法作為其中最具代表性的算法之一,在BSDS500 測(cè)試集上最佳數(shù)據(jù)集規(guī)模ODS(Optimal Dataset Scale)值達(dá)到了0.811,而與之相比,Canny算子在該數(shù)據(jù)集上的測(cè)試結(jié)果ODS 值僅達(dá)到了0.611,遠(yuǎn)遠(yuǎn)低于RCF 方法,表明了RCF 方法能夠更為精準(zhǔn)地檢測(cè)圖像邊緣。考慮到L1和L2損失不能很好恢復(fù)圖像的邊緣和紋理,本文引入RCF 方法作為感知邊緣約束以更好地恢復(fù)圖像的高頻細(xì)節(jié)。
RCF方法于2017年由Liu等[11]提出,邊緣檢測(cè)結(jié)果如圖4所示。該方法所設(shè)計(jì)的特征提取網(wǎng)絡(luò)在VGG(Visual Geometry Group)提出的VGG16 的基礎(chǔ)上進(jìn)行了以下幾個(gè)調(diào)整:1)將VGG16 網(wǎng)絡(luò)的全連接層以及最后一個(gè)池化層去除;2)將第四階段的池化層步長(zhǎng)改為1;3)將第五階段的三個(gè)卷積改為擴(kuò)張率為2 的空洞卷積。由于該特征提取網(wǎng)絡(luò)應(yīng)用于邊緣檢測(cè)任務(wù),能夠提取豐富的邊緣特征,因此本文將其作為感知邊緣約束以更好地恢復(fù)圖像邊緣。
圖4 RCF方法的邊緣檢測(cè)結(jié)果Fig.4 Edge detection result of RCF method
在具體的實(shí)施過(guò)程中,本文借鑒感知損失的做法,使用其中的特征提取網(wǎng)絡(luò)的某卷積層輸出計(jì)算特征損失。其中,該網(wǎng)絡(luò)中第二階段的第二個(gè)卷積層conv2-2 輸出的第2 通道特征圖可視化結(jié)果如圖2 所示,可以看到,該網(wǎng)絡(luò)具備優(yōu)秀的邊緣和紋理特征提取能力??紤]到該特征提取網(wǎng)絡(luò)中淺層提取的邊緣特征語(yǔ)義信息較少,深層提取的邊緣特征定位不精準(zhǔn),文中使用該特征提取網(wǎng)絡(luò)的第三階段的所有卷積層輸出特征計(jì)算L2損失,同時(shí),由于本文僅使用第三階段卷積輸出特征計(jì)算特征損失,本文將RCF 網(wǎng)絡(luò)其他的部分全部去除,僅保留特征提取網(wǎng)絡(luò)的前三個(gè)階段網(wǎng)絡(luò)。訓(xùn)練時(shí),本文通過(guò)自己訓(xùn)練的預(yù)訓(xùn)練模型進(jìn)行模型初始化。假設(shè)φ表示為RCF[11]網(wǎng)絡(luò)中的特征提取網(wǎng)絡(luò)映射,本文的感知邊緣約束具體可以表示為:
本文實(shí)驗(yàn)使用的DIV2K 訓(xùn)練集[16]是一個(gè)高質(zhì)量數(shù)據(jù)集。DIV2K 數(shù)據(jù)集由800 個(gè)訓(xùn)練圖像、100 個(gè)驗(yàn)證圖像和100 個(gè)測(cè)試圖像組成。文中在訓(xùn)練過(guò)程中隨機(jī)地將低分辨率圖像裁剪為32×32 大小的子圖像,并通過(guò)水平、垂直翻轉(zhuǎn)和旋轉(zhuǎn)對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充。測(cè)試集則由Set5、Set14 和BSDS100 組成,分別有5、14、100張圖片。
本文實(shí)驗(yàn)過(guò)程中使用兩種損失訓(xùn)練網(wǎng)絡(luò):第一種為L(zhǎng)1損失;第二種為感知邊緣約束和L1損失的結(jié)合體——聯(lián)合損失。其中,聯(lián)合損失函數(shù)L可表示為:
本文在模型訓(xùn)練過(guò)程中采用雙階段訓(xùn)練法,先訓(xùn)練第一階段網(wǎng)絡(luò),待其接近收斂再訓(xùn)練整體網(wǎng)絡(luò)。在使用聯(lián)合損失訓(xùn)練時(shí),在已訓(xùn)練好的網(wǎng)絡(luò)上進(jìn)行微調(diào),β參數(shù)設(shè)置為0.001,該參數(shù)通過(guò)4.1 節(jié)中的多組實(shí)驗(yàn)分析進(jìn)行確定。本文網(wǎng)絡(luò)模型基于pytorch 框架進(jìn)行搭建。訓(xùn)練過(guò)程中優(yōu)化器選擇Adam。初始學(xué)習(xí)率設(shè)置為1E-05,每迭代60 個(gè)周期學(xué)習(xí)率衰減50%,最大迭代周期為400 epoch。網(wǎng)絡(luò)訓(xùn)練平臺(tái)為雙顯卡的P104 6 GB的計(jì)算機(jī)。
為了探索感知邊緣約束(Perceptual Edge Constraint,PEC)權(quán)重大小對(duì)模型的影響,本文以第一階段網(wǎng)絡(luò)SR-Net作為基礎(chǔ)網(wǎng)絡(luò),通過(guò)設(shè)置不同β值的聯(lián)合損失訓(xùn)練網(wǎng)絡(luò)。其中,以β值為0.1、0.01、0.001以及0.000 1的聯(lián)合損失分別進(jìn)行4組實(shí)驗(yàn),并記錄了每個(gè)實(shí)驗(yàn)最終損失收斂情況以及在Set5 數(shù)據(jù)集的峰值信噪比(Peak signal-to-noise Ratio,PSNR)測(cè)試情況,實(shí)驗(yàn)結(jié)果如表1和圖5所示。
表1 4倍放大因子下不同β值訓(xùn)練的基礎(chǔ)網(wǎng)絡(luò)最終收斂損失大小以及在Set5中測(cè)試的PSNR值對(duì)比Tab.1 Final convergence loss and PSNR tested on Set5 by basic network trained with different β when magnification factor is 4
如表1 所示,β越大,L1損失越大,PSNR 和PEC 越低;反之,β越小,L1損失越小,PSNR和PEC越高,這表明PEC與L1損失在某種意義上是互相矛盾的。其中,當(dāng)β為0.000 1時(shí),PEC基本不收斂,與單獨(dú)使用L1損失訓(xùn)練最終結(jié)果基本一致。而從重建的圖像來(lái)看,如圖5 的臉部圖像所示,隨著感知邊緣約束權(quán)重的增大,圖像頭發(fā)部分的邊緣清晰度先增強(qiáng)然后基本穩(wěn)定,這表明感知邊緣約束的引入能夠一定程度地提升圖像邊緣部分的恢復(fù)效果。但與此同時(shí),隨著感知邊緣約束的權(quán)重增大,圖5 中臉部皮膚的紋理重建部分出現(xiàn)了明顯的柵格現(xiàn)象,這表明感知邊緣約束不能精確地重建圖像紋理,存在一定的柵格現(xiàn)象,但該現(xiàn)象可以通過(guò)調(diào)整感知邊緣約束權(quán)重進(jìn)行減弱。如圖5(c)所示,雖然重建的皮膚紋理處有細(xì)微的柵格現(xiàn)象,但該圖像視覺(jué)效果相較于圖5(b)中更清晰,因此,適當(dāng)?shù)匾敫兄吘壖s束可以提升重建圖像的視覺(jué)效果。
圖5 不同β值訓(xùn)練的基礎(chǔ)網(wǎng)絡(luò)在Set5數(shù)據(jù)集上head圖像的4倍重建結(jié)果對(duì)比Fig.5 Comparison of reconstruction results on head image of Set5 by basic network trained with different β(×4)
為了探究各模塊對(duì)本文方法(MSSR-Net)的影響,本文進(jìn)行了消融實(shí)驗(yàn)。
首先,本文以基礎(chǔ)網(wǎng)絡(luò)SR-Net(Super Resolution Network)為基礎(chǔ),分別設(shè)計(jì)了兩個(gè)不同深度的網(wǎng)絡(luò)MSSR-Net-l 以及MSSR-Net-o。其中,MSSR-Net-l 的金字塔模塊中殘差組C2、C3、C4的殘差單元數(shù)量N分別為1、2、2,MSSR-Net-o的金字塔模塊中殘差組C2、C3、C4 的殘差單元數(shù)量N分別為2、3、5。兩個(gè)網(wǎng)絡(luò)統(tǒng)一去掉注意力融合模塊,損失函數(shù)統(tǒng)一使用L1損失。
其次,為了探究注意力融合模塊對(duì)模型的影響,本文在MSSR-Net-o 的基礎(chǔ)上加入注意力融合模塊,即網(wǎng)絡(luò)MSSR-Net。
最后,為了探究感知邊緣約束對(duì)本文模型的影響,本文使用聯(lián)合損失對(duì)MSSR-Net 進(jìn)行訓(xùn)練,即本文方法MSSR-Net-PEC。實(shí)驗(yàn)的結(jié)果如表2、圖6~7所示。
從表2 和圖6 可看出:SR-Net 的收斂最慢,且PSNR 值最低;隨之往上,MSSR-Net-l、MSSR-Net-o 以及以及MSSR-Net 的收斂逐漸加快且PSNR 值逐步提升。說(shuō)明了本文所提出的各模塊能夠有效提高模型性能。而在PSNR 值的比較中,MSSRNet-l 比SR-Net 提升了0.23 dB,MSSR-Net-o 比MSSR-Net-l 提升了0.1 dB,MSSR-Net 比MSSR-Net-o 提升了0.04 dB。表明了特征金字塔模塊對(duì)模型的影響最大,其次為特征金字塔模塊的深度,最后為注意力融合模塊。另外,在圖像的重建質(zhì)量方面,如圖7 所示,蝴蝶翅膀部分的紋理重建中,MSSR-Net 的邊緣重建效果比SR-Net 要清晰一些且PSNR 值更高,這說(shuō)明了本文方法的特征金字塔模塊能夠有效地捕捉全局上下文依賴(lài)。而使用聯(lián)合損失比使用L1損失的PSNR 值降低了0.3 dB左右,但如圖7 所示,使用聯(lián)合損失重建的邊緣更為清晰,可以重建出更多的高頻細(xì)節(jié),說(shuō)明了加入感知邊緣約束能夠更有效地針對(duì)邊緣紋理進(jìn)行優(yōu)化,可以重建出更為清晰的邊緣。
表2 消融實(shí)驗(yàn)在Set5上4倍的測(cè)試結(jié)果Tab.2 Test results of ablation experiment on Set5(×4)
圖6 消融實(shí)驗(yàn)在Set5上4倍訓(xùn)練結(jié)果Fig.6 Training results of ablation experiment on Set5(×4)
圖7 不同超分辨率重建方法在Set5上butterfly的4倍重建結(jié)果比較Fig.7 Comparison of reconstruction results of different super-resolution reconstruction methods on butterfly of Set5(×4)
將本文提出的MSSR-Net 以及MSSR-Net-PEC 與Bicubic[17]、SRCNN[4]、VDSR[6]、CNF[7]、LapSRN8]、SASR-Net[9]共6 種超分辨率重建方法分別從重建速度、圖像質(zhì)量指標(biāo)以及圖像重建視覺(jué)效果三方面進(jìn)行詳細(xì)比較。其中,MSSR-Net以及MSSR-Net-l與各方法在BSDS100 數(shù)據(jù)集上4 倍的重建速度如表3 所示,MSSR-Net 與各方法在不同放大倍數(shù)下的峰值信噪比以及結(jié)構(gòu)相似度比較如表4 所示,MSSR-Net 和MSSRNet-PEC與各方法重建的圖像視覺(jué)效果比較如圖8~9所示。
圖8 不同超分辨重建率方法在Set14上baboom 的3倍重建結(jié)果比較Fig.8 Comparison of reconstruction results of different super-resolution reconstruction methods on baboom of Set14(×3)
如表3 所示,由于本文需要對(duì)不同尺度的特征進(jìn)行卷積操作,大幅增加了計(jì)算復(fù)雜度,所以本文方法的重建速度最慢。如表4 所示,MSSR-Net 在Set5、Set14 和BSDS100 數(shù)據(jù)集上的PSNR 和結(jié)構(gòu)相似度(Structural SIMilarity index,SSIM)基本超過(guò)了其他超分辨率重建方法,尤其在3倍和4倍的放大因子中提升更為明顯,雖然本文方法在2 倍放大因子時(shí)稍遜于SASR-Net 和CNF,但在較大放大因子上的表現(xiàn)更佳。如圖8所示,本文方法MSSR-Net在毛發(fā)的邊緣和紋理重建效果比其他方法更清晰,并且PSNR以及SSIM指標(biāo)更高,表明特征金字塔模塊能夠更好地恢復(fù)圖像紋理和邊緣。如圖9 所示,加入感知邊緣約束后的MSSR-Net-PEC 方法在PSNR 以及SSIM 指標(biāo)雖然有所降低,但該方法在圖8和圖9中毛發(fā)和頭飾的邊緣重建更為銳利,表明了本文所提出的感知邊緣約束能夠有效增強(qiáng)圖像細(xì)節(jié)的恢復(fù)。
表3 各方法在BSDS100數(shù)據(jù)集上的4倍的重建速度對(duì)比Tab.3 Comparison of reconstruction speeds of different methods on BSDS100 dataset(×4)
表4 使用不同超分辨率重建方法在Set5、Set14、BSDS100數(shù)據(jù)集上的測(cè)試結(jié)果Tab.4 Test results of different super-resolution reconstruction methods on Set5,Set14,BSDS100 datasets
因此,本文的特征金字塔模塊針對(duì)大放大因子具有更好的重建效果但重建速度較慢,感知邊緣約束的引入能夠獲得更為銳利的邊緣但不能良好地恢復(fù)圖像紋理,在圖像的紋理處存在著細(xì)微的柵格現(xiàn)象。
圖9 不同超分辨率重建方法在Set14上comic 的3倍重建結(jié)果比較Fig.9 Comparison of reconstruction results of different super-resolution reconstruction methods on comic of Set14(×3)
本文提出了結(jié)合感知邊緣約束與多尺度融合網(wǎng)絡(luò)的圖像超分辨率重建方法。該方法提出的特征金字塔模塊能夠充分地提取和融合圖像的多尺度特征,有效地捕捉全局上下文依賴(lài),在大放大因子時(shí)能夠更好地重建圖像邊緣和紋理,但該模塊存在著計(jì)算量較大的問(wèn)題。另外,本文引入的感知邊緣約束能夠有效地針對(duì)邊緣進(jìn)行優(yōu)化,獲得更為銳利的邊緣,但在紋理部分的重建存在一定的不足。本文下一步工作將針對(duì)以上兩個(gè)問(wèn)題進(jìn)行進(jìn)一步優(yōu)化。