施舉鵬,李 靜,陳 琰,陸正嘉
1(南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京 211106)2(國(guó)網(wǎng)上海市電力公司信息通信公司,上海 200000)
E-mail:sjp.seasonsy@gmail.com
一直以來,圖像超分辨率(Super-Resolution,SR)被廣泛應(yīng)用于諸如醫(yī)學(xué)影像、人臉識(shí)別等對(duì)圖像質(zhì)量有較高需求的場(chǎng)景.同時(shí)在深度學(xué)習(xí)領(lǐng)域,作為底層的計(jì)算機(jī)視覺問題,超分辨率還可以通過產(chǎn)生高質(zhì)量圖像為其他高級(jí)視覺任務(wù)提供優(yōu)質(zhì)數(shù)據(jù)集來提升相應(yīng)模型性能.圖像超分辨率旨在實(shí)現(xiàn)低維圖像空間向高維圖像空間的映射,即低分辨率圖像(Low-Resolution,LR)向高分辨率圖像(High-Resolution,HR)的轉(zhuǎn)換.
傳統(tǒng)的圖像超分辨率方法主要是使用插值算法[1]對(duì)需要填補(bǔ)的像素值進(jìn)行計(jì)算,該類方法簡(jiǎn)單高效,可應(yīng)用于實(shí)時(shí)快速的圖像上采樣,但因其過于依賴人為定義的映射關(guān)系以及先驗(yàn)假設(shè),導(dǎo)致基于插值算法的圖像重建質(zhì)量往往難以保證.為了解決傳統(tǒng)插值方法的問題,基于機(jī)器學(xué)習(xí)的超分辨率方法[2-4]逐漸發(fā)展起來,該類方法主要通過在大量帶標(biāo)注的圖像數(shù)據(jù)集中通過一定的算法學(xué)習(xí)低分辨率到高分辨率的映射來擬合LR-HR映射關(guān)系.2014年,Dong[5]等人首次將深度學(xué)習(xí)方法應(yīng)用到超分辨率領(lǐng)域,作為超分辨率在深度領(lǐng)域的開山之作,作者提出了一種使用3層卷積神經(jīng)網(wǎng)絡(luò)的方法,實(shí)現(xiàn)了優(yōu)于傳統(tǒng)方法的圖像超分辨率重建效果,后來的深度學(xué)習(xí)模型基本上延用了該模型的基本結(jié)構(gòu),即由特征提取和圖像重建兩部分組成.為了改進(jìn)SRCNN[5]中仍然基于插值的圖像重建方式,Zeiler[6]和Shi[7]相繼提出了基于反卷積和亞像素卷積的上采樣方法,將圖像重建部分的參數(shù)也納入到模型訓(xùn)練的過程中.
隨著深度學(xué)習(xí)模型的不斷發(fā)展,超分辨率領(lǐng)域也提出了許多新的網(wǎng)絡(luò)模型.SRResnet[8]引入了殘差結(jié)構(gòu),通過在線性網(wǎng)絡(luò)的基礎(chǔ)上添加跳躍連接來緩解梯度信息在多層傳播過程中的損失.得益于此,超分辨率網(wǎng)絡(luò)可以設(shè)計(jì)得更深,這大大增強(qiáng)了模型的學(xué)習(xí)與表征能力.為了更好地利用深度卷積網(wǎng)絡(luò)各層的梯度信息,MemNet[9]引入了稠密連接的結(jié)構(gòu).RDN[10]結(jié)合了殘差與稠密連接結(jié)構(gòu)的優(yōu)點(diǎn),提出了殘差稠密塊,進(jìn)一步提升了圖像超分辨率的質(zhì)量.
盡管許多深度學(xué)習(xí)模型取得了較好的重建效果,但是較深的網(wǎng)絡(luò)也帶來了諸如過擬合以及收斂速度較慢等問題,這類問題屬于深度神經(jīng)網(wǎng)絡(luò)的通病,許多質(zhì)量較高的超分辨率結(jié)果大多依賴于網(wǎng)絡(luò)的反復(fù)調(diào)參嘗試,最終的模型在實(shí)際應(yīng)用場(chǎng)景中難以復(fù)現(xiàn).因此,許多網(wǎng)絡(luò)模型設(shè)計(jì)的重點(diǎn)開始從增加網(wǎng)絡(luò)的深度轉(zhuǎn)移到低分辨率圖像到高分辨率圖像(LR-HR)映射的學(xué)習(xí)上.為了更準(zhǔn)確地學(xué)習(xí)LR-HR映射,RED[11]提出了卷積-反卷積的對(duì)稱結(jié)構(gòu),DBPN[12]引入了反射單元,這些結(jié)構(gòu)已被證明能夠使模型更好地學(xué)習(xí)LR-HR重構(gòu)映射,從而獲得更好的重建效果.同時(shí)伴隨著模型的參數(shù)量不斷增加,為了降低模型計(jì)算上的負(fù)擔(dān),DRCN[13]與DRRN[14]引入了遞歸結(jié)構(gòu).通過共享一些層的參數(shù)來控制模型的規(guī)模.為了實(shí)現(xiàn)特征信息的前饋及反饋傳播,SRFBN[15]引入了反饋連接結(jié)構(gòu),實(shí)現(xiàn)了參數(shù)的充分復(fù)用.遞歸和反饋結(jié)構(gòu)確實(shí)對(duì)模型參數(shù)的利用產(chǎn)生了好的影響,但由于這類結(jié)構(gòu)都是通過在訓(xùn)練過程中以循環(huán)迭代的形式傳遞特征信息,冗余的特征信息以及一些噪聲可能會(huì)在迭代中產(chǎn)生疊加效應(yīng),并影響到網(wǎng)絡(luò)的收斂以及最終效果.
為了抑制基于反饋結(jié)構(gòu)的超分辨率網(wǎng)絡(luò)中由于深度迭代產(chǎn)生的副作用,本文提出了一種基于深度反饋?zhàn)⒁饬Φ某直媛示W(wǎng)絡(luò)(DFAN),該網(wǎng)絡(luò)可以有效抑制冗余信息在反饋迭代中的疊加,提高參數(shù)共享及特征傳播的質(zhì)量,同時(shí)提升模型的收斂速度.DFAN中基本的反饋模塊由上采樣和下采樣層交替組成,模型中利用通道注意力機(jī)制學(xué)習(xí)圖像特征的權(quán)重,將注意力學(xué)習(xí)到的權(quán)重,通過反饋結(jié)構(gòu)共享到每一輪迭代當(dāng)中,進(jìn)而形成基于迭代的殘差注意力,實(shí)現(xiàn)對(duì)冗余特征的過濾機(jī)制.不同于其他基于迭代的超分辨率網(wǎng)絡(luò),本文方法的深度反饋?zhàn)⒁饬?shí)現(xiàn)了一種面向迭代過程的特征過濾機(jī)制,從而在迭代過程中使模型有效區(qū)分有效信息和冗余信息,增強(qiáng)對(duì)有效信息的學(xué)習(xí)并抑制冗余信息的進(jìn)一步傳播.
本文的主要貢獻(xiàn)包括:
1)提出了一種基于反饋機(jī)制的迭代反饋?zhàn)⒁饬Τ直媛示W(wǎng)絡(luò),實(shí)現(xiàn)了參數(shù)復(fù)用以及冗余特征過濾機(jī)制,與同類超分辨率模型相比,該模型具有更少的參數(shù)量以及更快的執(zhí)行速度,同時(shí)也能獲得較高質(zhì)量的超分辨率重建水平.
2)提出了一種新的迭代反饋?zhàn)⒁饬Y(jié)構(gòu),引入了注意力機(jī)制,在特征的反饋傳播中學(xué)習(xí)注意力權(quán)重以實(shí)現(xiàn)通道層次的過濾,提高了模型學(xué)習(xí)的效率,同時(shí)該結(jié)構(gòu)可以應(yīng)用到任何基于反饋結(jié)構(gòu)的模型中.
3)本文提出的模型在公開標(biāo)準(zhǔn)數(shù)據(jù)集上取得了優(yōu)于大部分同類方法的重建效果,在單張?zhí)幚頃r(shí)間秒級(jí)以內(nèi)的情況下達(dá)到了最高38db以上的峰值信噪比.同時(shí)在實(shí)驗(yàn)中分析了迭代反饋?zhàn)⒁饬Y(jié)構(gòu)對(duì)于網(wǎng)絡(luò)訓(xùn)練速度及收斂過程的影響.
本文后續(xù)章節(jié)安排如下:第2節(jié)主要介紹了基于深度學(xué)習(xí)的超分辨率模型的相關(guān)工作;第3節(jié)介紹本文提出的基于深度反饋?zhàn)⒁饬Φ某直媛示W(wǎng)絡(luò)DFAN;第4節(jié)通過DFAN模型的參數(shù)對(duì)比實(shí)驗(yàn)以及與同類方法的超分辨率重建對(duì)比實(shí)驗(yàn)來驗(yàn)證本文方法的有效性;第5節(jié)對(duì)本文方法進(jìn)行總結(jié),并探討進(jìn)一步的研究方向.
自SRCNN[5]超分辨模型開始,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)被廣泛地應(yīng)用于圖像超分辨率領(lǐng)域,本文的DFAN模型主要是基于卷積神經(jīng)網(wǎng)絡(luò)中的注意力機(jī)制與反饋機(jī)制實(shí)現(xiàn)的,因此本部分將介紹與這部分內(nèi)容相關(guān)的國(guó)內(nèi)外相關(guān)工作.
最早將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于SR問題的是SRCNN[5],作者提出了3層的卷積神經(jīng)網(wǎng)絡(luò),取得了優(yōu)于傳統(tǒng)方法的效果.隨后,更深更復(fù)雜的網(wǎng)絡(luò)開始出現(xiàn),VDSR[17]提出了一種基于20層卷積神經(jīng)網(wǎng)絡(luò)的超分辨率模型.實(shí)踐表明,越深的網(wǎng)絡(luò)表達(dá)能力越強(qiáng),也越易于出現(xiàn)過擬合和梯度爆炸等問題.為了解決這些問題,SRResNet[8]和MemNet[9]分別引入了殘差結(jié)構(gòu)以及稠密結(jié)構(gòu),相較于線性網(wǎng)絡(luò),這些結(jié)構(gòu)通過跳躍連接可以更好地傳播梯度信息.RDN[10]同時(shí)結(jié)合了上述兩種結(jié)構(gòu)的優(yōu)勢(shì),并引入了Residual in Residual結(jié)構(gòu),進(jìn)一步提升了重建質(zhì)量.隨著網(wǎng)絡(luò)結(jié)構(gòu)的進(jìn)一步加深,超分辨率重建的效果逐漸趨于飽和,而網(wǎng)絡(luò)參數(shù)的規(guī)模以及計(jì)算消耗越來越大,基于基本卷積塊疊加的卷積神經(jīng)網(wǎng)絡(luò)在超分辨率的效率上很難進(jìn)一步提升.
為了解決參數(shù)規(guī)模日益龐大以及卷積層的大量堆疊導(dǎo)致的網(wǎng)絡(luò)難以訓(xùn)練的問題,受到RNN[16]的啟發(fā),DRCN[13]首次在超分辨率領(lǐng)域引入了遞歸結(jié)構(gòu).該方法在訓(xùn)練過程中,將某些卷積層的參數(shù)進(jìn)行遞歸復(fù)用,將每一個(gè)卷積層的參數(shù)合并到后面的參數(shù)中一起訓(xùn)練,從而可在較少參數(shù)量的情況下取得較好的重建效果.DRRN[14]結(jié)合了殘差結(jié)構(gòu)將遞歸網(wǎng)絡(luò)模型的深度進(jìn)一步加深.雖然遞歸結(jié)構(gòu)可以在不增加過多參數(shù)的情況下增加網(wǎng)絡(luò)深度,但是并沒有改變特征信息的前饋傳播方式,導(dǎo)致參數(shù)仍是單向共享的.為此,SRFBN[15]引入了反饋機(jī)制,基于反饋連接的形式復(fù)用參數(shù),將每輪迭代的特征并入下一輪迭代的特征輸入中,實(shí)現(xiàn)了特征信息的反饋傳播,并取得了更好的重建效果.遞歸結(jié)構(gòu)與反饋結(jié)構(gòu)形式的不同如圖1所示.
圖1 DRCN [13](a)的遞歸結(jié)構(gòu)以及SRFBN [15](b)的反饋結(jié)構(gòu)的迭代展開形式Fig.1 Expanded form of the recurrent structure of DRCN [13](a)and the feedback structure of SRFBN [15](b)
注意力在人眼視覺機(jī)制上起著至關(guān)重要的作用[18],在深度學(xué)習(xí)領(lǐng)域,視覺注意力也被廣泛引用于諸如圖像分割,圖像識(shí)別等高級(jí)計(jì)算機(jī)視覺任務(wù)中.注意力機(jī)制主要用過在特征提取的過程中,引入響應(yīng)特征強(qiáng)度的權(quán)重矩陣來實(shí)現(xiàn)對(duì)重要特征的增強(qiáng).基于空間域、通道域以及混合域等的注意力模型被用來解決不同的計(jì)算機(jī)視覺問題.在圖像超分辨率領(lǐng)域,RCAN[19]首次引入了通道注意力,對(duì)網(wǎng)絡(luò)學(xué)習(xí)的特征信息進(jìn)行篩選,在添加極少量參數(shù)的條件下,提升了超分辨率重建效果.
為了解決反饋網(wǎng)絡(luò)中冗余特征信息的傳播,實(shí)現(xiàn)特征選擇,本文方法在基于反饋連接的圖像超分辨率網(wǎng)絡(luò)中引入了通道注意力模型,同時(shí)借鑒了SE-Net[20]中的方法,以全局平均池化代替了注意力模型中的全連接層以進(jìn)一步減少參數(shù)量,還參考了RAN[21]中的殘差注意力結(jié)構(gòu),并結(jié)合反饋模型,提出了迭代反饋?zhàn)⒁饬Y(jié)構(gòu),以實(shí)現(xiàn)循環(huán)過程中對(duì)于特征信息的迭代過濾.具體的模型結(jié)構(gòu)與機(jī)制將在下面的章節(jié)中介紹.
本文結(jié)合了反饋結(jié)構(gòu)與注意力機(jī)制,提出了基于深度反饋?zhàn)⒁饬Φ膱D像超分辨率模型.如圖2所示.在DFAN模型中,核心部分包括參數(shù)的循環(huán)迭代以及殘差注意力.循環(huán)迭代機(jī)制通過反饋連接形成的反向傳遞實(shí)現(xiàn),其確保了特征信息在迭代過程中的充分利用.注意力模塊通過學(xué)習(xí)對(duì)應(yīng)的權(quán)重來對(duì)每輪迭代的特征通道進(jìn)行過濾,并在迭代中不斷對(duì)SR特征進(jìn)行微調(diào).由于注意力模塊本身對(duì)于特征信息的傳遞存在抑制作用,為了減少這種對(duì)特征的削弱,本文借鑒了RAN[21]中引入殘差的方法來實(shí)現(xiàn)注意力模板,通過與上一輪迭代的權(quán)重模板相關(guān)聯(lián),每一輪迭代的注意力模板都學(xué)習(xí)一個(gè)基于迭代的更深一層的殘差信息,利用這種迭代,不斷細(xì)化圖像的特征.這兩種機(jī)制的結(jié)合確保了參數(shù)共享,也使得模型更加精準(zhǔn)地學(xué)習(xí)LR-HR映射.
圖2 基于深度反饋?zhàn)⒁饬Φ某直媛示W(wǎng)絡(luò)模型框架圖Fig.2 Overall framework of deep feedback attention network for image super-resolution
圖2所示為DFAN的靜態(tài)結(jié)構(gòu),在實(shí)際訓(xùn)練過程中,模型的動(dòng)態(tài)迭代結(jié)構(gòu)如圖3所示,單幅圖像的訓(xùn)練可被展開為T輪迭代,迭代的序號(hào)由1-T表示.圖中下面部分的實(shí)線表示特征的反饋復(fù)用,上面部分的虛線表示每輪學(xué)習(xí)的注意力被疊加至下一次循環(huán)以形成迭代殘差學(xué)習(xí).每輪迭代中模型會(huì)合并當(dāng)前輸入與之前迭代輸出的所有特征,共同作為當(dāng)前的輸入特征,以實(shí)現(xiàn)參數(shù)復(fù)用及特征共享.模型的基本組成模塊主要包含由卷積層和反卷積層構(gòu)成的反饋塊和一個(gè)通道注意力門.
圖3 深度反饋?zhàn)⒁饬Y(jié)構(gòu)的展開形式Fig.3 Expanded form of deep feedback attention structure
令Conv(f,n)和Deconv(f,n)分別表示具有n個(gè)大小為f*f的卷積核的卷積層和反卷積層,令I(lǐng)LR為低分辨率圖像,經(jīng)過特征提取后輸入到注意力模塊中的輸入可表示為:
(1)
(2)
最終每一次迭代的注意力反饋模塊的輸出由重建模塊進(jìn)行重建,本文采用一個(gè)反卷積層Deconv(k,n)對(duì)輸出的特征進(jìn)行上采樣,然后再用一個(gè)卷積層Conv(3,c)生成最終的SR殘差圖像.SR殘差圖像和原圖像的上采樣共同生成最終的SR結(jié)果.最終SR結(jié)果可以表示為:
(3)
3.1中介紹了從LR產(chǎn)生SR圖像的整個(gè)線性過程,本部分將介紹在卷積-反卷積映射組以及注意力門中的具體迭代過程.
基于深度反饋?zhàn)⒁饬Φ挠成淠K主要由卷積塊、反卷積塊以及注意力門組成,卷積塊和反卷積塊的疊加可以實(shí)現(xiàn)特征重構(gòu)并不斷迭代,在反復(fù)的上下采樣中計(jì)算累計(jì)的重構(gòu)誤差.這種迭代方式與DBPN[12]中的上反射與下反射單元的堆疊有略微不同,通過直接連接的卷積-反卷積層形成交錯(cuò)稠密連接的結(jié)構(gòu),這種連接方式可以實(shí)現(xiàn)特征的反復(fù)重構(gòu)從而在約束淺層特征的同時(shí)保證梯度信息的有效傳播.
(4)
接下來輸入特征將由多個(gè)卷積塊和反卷積塊組成的級(jí)聯(lián)組進(jìn)行迭代重構(gòu),同時(shí)每一個(gè)組的輸出都會(huì)與之前所有組的輸出進(jìn)行合并,在自反饋模塊中,第t輪迭代第n個(gè)組的輸入可以表示為:
(5)
其中fproj↑↓表示由卷積和反卷積層構(gòu)成的一個(gè)反射組,該式表明了在迭代過程中,每一輪迭代的輸入特征都是由當(dāng)前輸入特征與之前迭代過程產(chǎn)生的所有特征合并而來.輸出特征接下來會(huì)通過注意力單元進(jìn)行特征過濾,本文采用的通道注意力單元包含3個(gè)過程:擠壓、激勵(lì)以及放縮.
1)擠壓函數(shù)
傳統(tǒng)的注意力機(jī)制將特征全部展開并通過全連接層學(xué)習(xí)一個(gè)激勵(lì)權(quán)重,本文借鑒了SE-Net[20]中的方式,通過計(jì)算每一個(gè)通道特征的全局平均值來代表整個(gè)特征圖的特征值從而大大縮減后續(xù)權(quán)重矩陣所需的參數(shù)數(shù)量,基于全局平均池化的擠壓環(huán)節(jié)可以表示為:
(6)
2)激勵(lì)函數(shù)
激勵(lì)函數(shù)通過學(xué)習(xí)特征值張量對(duì)應(yīng)位置的權(quán)重來對(duì)各個(gè)通道的特征進(jìn)行增強(qiáng)或抑制,該部分由兩個(gè)帶激活函數(shù)的全連層組成,激勵(lì)環(huán)節(jié)可以表示為:
mt=σ(w2δ(w1×gt))
(7)
其中w1和w2分別為兩個(gè)一維權(quán)重,δ表示ReLU函數(shù),σ表示Sigmoid函數(shù),最終激勵(lì)函數(shù)給出一個(gè)維數(shù)與輸入特征通道數(shù)相同的一個(gè)權(quán)重矩陣.激勵(lì)函數(shù)是注意力機(jī)制里最核心的部分,通過學(xué)習(xí)的權(quán)重,可以對(duì)特征信息中對(duì)梯度響應(yīng)較強(qiáng)的特征予以加強(qiáng),同時(shí)對(duì)梯度響應(yīng)較弱的無效特征予以抑制,從而增加模型學(xué)習(xí)到特征的準(zhǔn)確性.
3)尺度函數(shù)
尺度函數(shù)利用上面過程學(xué)習(xí)到的通道注意里權(quán)重矩陣對(duì)原輸入特征各個(gè)通道進(jìn)行放縮,從而增強(qiáng)有效特征,抑制無用特征,放縮環(huán)節(jié)可以表示為:
(8)
如公式(8)所示,mt-1表示上一輪迭代學(xué)習(xí)的權(quán)重模板,×表示矩陣中各元素一一對(duì)應(yīng)相乘,因此公式左邊的部分表示上一輪迭代學(xué)習(xí)到的HR特征表示,mt表示該輪迭代學(xué)習(xí)的權(quán)重模板,其實(shí)際上學(xué)習(xí)的是與上一輪學(xué)習(xí)到的特征表示相對(duì)應(yīng)的殘差信息.該環(huán)節(jié)將本次迭代的注意力權(quán)重信息與上一輪迭代的權(quán)重相關(guān)聯(lián),從而構(gòu)造迭代形式的殘差注意力,具體而言,基于反饋與注意力機(jī)制提出了如下的結(jié)構(gòu).
第1輪迭代中注意力單元學(xué)習(xí)LR-HR的殘差注意力權(quán)重,在后面的每一輪迭代中,注意力權(quán)重產(chǎn)生的特征圖都會(huì)與上一輪迭代輸出的特征進(jìn)行疊加,結(jié)合上一輪的權(quán)重信息共同組成本輪迭代的輸出.因此每一輪迭代模型學(xué)習(xí)到的注意力隨著訓(xùn)練過程也在不斷迭代加深.
本文實(shí)驗(yàn)性能分析中主要使用DIV2K作為訓(xùn)練集,該數(shù)據(jù)集是NTRIE和PIRM競(jìng)賽采用的基準(zhǔn)數(shù)據(jù)集,其中包含了900張2K分辨率的高質(zhì)量png圖片.在數(shù)據(jù)預(yù)處理上使用了和EDRN[22]相同的辦法.采用PSNR和SSIM作為SR結(jié)果的評(píng)估指標(biāo).基準(zhǔn)的測(cè)試集主要包括Set5[23],Set14[24],B100[25],Urban100[26]和Manga109[27].
為了和其他SR模型進(jìn)行比較,本文和大多數(shù)方法一樣選擇雙3次插值的方法來從HR圖像中下采樣得到LR圖像,得到的LR圖像與原HR圖像共同構(gòu)成了模型訓(xùn)練的標(biāo)注數(shù)據(jù)集.為了適配卷積層的計(jì)算,輸入圖像在訓(xùn)練中均被切分成多個(gè)圖像塊(patch),塊大小根據(jù)放大倍率設(shè)置為不同的數(shù)值,具體如表1所示.
表1 輸入patch大小的設(shè)置Table 1 Settings of input patch size
本文訓(xùn)練模型時(shí)采用16的批處理大小(batch size),網(wǎng)絡(luò)參數(shù)的初始化方法與[28]相同,選擇Adam[29]作為訓(xùn)練優(yōu)化的算法,初始的學(xué)習(xí)率設(shè)置為0.0001,并且每隔200個(gè)epochs衰減一半.本文提出的DFAN基于Pytorch框架實(shí)現(xiàn),并且在NVIDIA1080Ti GPU上進(jìn)行訓(xùn)練.
對(duì)于圖像超分辨率的重建結(jié)果質(zhì)量評(píng)價(jià),常用的指標(biāo)主要是峰值信噪比(Peak Signal to Noise Ratio,PSNR)和結(jié)構(gòu)相似性(Structural Similarity,SSIM).
1)峰值信噪比
該指標(biāo)主要從信號(hào)的角度衡量圖片之間的相似程度,其定義如下:
(9)
其中MSE為圖像之間的均方誤差,n為像素值的位深,在本文的數(shù)據(jù)集中,n的取值為8,即像素值的最大值為28-1=255.PSNR的取值越大,證明兩幅圖像越相似,一般當(dāng)PSNR取值大于38時(shí),人眼便不容易分辨圖像之間的差異.
2)結(jié)構(gòu)相似性
結(jié)構(gòu)相似性從圖像組成的角度將結(jié)構(gòu)信息定義為獨(dú)立于亮度、對(duì)比度的,反映場(chǎng)景中物體結(jié)構(gòu)的屬性,并將失真建模為亮度、對(duì)比度和結(jié)構(gòu)3個(gè)不同因素的組合,從而估計(jì)兩個(gè)圖像之間的相似程度.其定義如下:
(10)
SSIM的取值范圍為0-1,當(dāng)兩幅圖像完全一樣時(shí),SSIM的值為1.
本文的模型采用了基于距離的損失來進(jìn)行優(yōu)化.損失函數(shù)可表示為:
(11)
其中T表示迭代的輪數(shù),Wt表示每輪迭代的輸出權(quán)重矩陣.由于PSNR與MSE為負(fù)相關(guān)關(guān)系,許多模型依照MSE損失來進(jìn)行優(yōu)化,但以均方損失為基礎(chǔ)的優(yōu)化會(huì)導(dǎo)致結(jié)果在像素值上出現(xiàn)均值化的效應(yīng).同時(shí),由于DFAN學(xué)習(xí)了很多深層殘差信息,因此本文選擇使用L1損失在規(guī)避均值化效應(yīng)的同時(shí),對(duì)參數(shù)施加一定的稀疏約束從而防止一定的過擬合.
除最后一層采用tanh激活函數(shù)以外,所有卷積層和反卷積層內(nèi)都使用了PReLu[28]作為激活函數(shù),本文按照[12]中的方法對(duì)應(yīng)不同的倍率設(shè)置了不同的卷積核大小,步長(zhǎng)以及填充量.具體的設(shè)置見表2.最后一輪迭代的輸出將作為最終的超分辨率重建結(jié)果.
表2 卷積層參數(shù)設(shè)置Table 2 Settings of convolution layers
為了分析引入注意力模型帶來的實(shí)際影響,本文對(duì)注意力模型在不同的結(jié)構(gòu)下的超分辨率效果進(jìn)行了比較.實(shí)驗(yàn)使用的模型包括4次迭代和3個(gè)卷積組,訓(xùn)練了200個(gè)epochs.結(jié)果如表3所示.
表3 不同的注意力結(jié)構(gòu)的效果對(duì)比Table 3 Comparison with different organization of attention structure
DFAN-A表示不帶有注意力的模型,DFAN-B表示引入了通道注意力但沒有實(shí)現(xiàn)迭代殘差結(jié)構(gòu)的模型,DFAN代表引入了迭代殘差注意力結(jié)構(gòu)的模型.實(shí)驗(yàn)表明,單純的引入注意力盡管略微提升了一點(diǎn)效果,但是網(wǎng)絡(luò)的收斂速度受到了一定程度的影響.這種影響可能是由于多次迭代過程中注意力對(duì)特征的抑制作用的疊加效應(yīng),另一方面,在同時(shí)引入了結(jié)合反饋連接與注意力的結(jié)構(gòu)后,網(wǎng)絡(luò)的性能得到了進(jìn)一步提升,這說明了注意力與反饋機(jī)制的結(jié)合可以削弱深層注意力帶來的副作用,并強(qiáng)化反饋機(jī)制的作用.
我們還比較了引入深度反饋?zhàn)⒁饬C(jī)制的DFAN與其他主流模型之間的參數(shù)量和運(yùn)行時(shí)間對(duì)比,如表4所示.所有的數(shù)據(jù)基于Urban100數(shù)據(jù)集上的4倍重建任務(wù),結(jié)果表明相較于其他模型,DFAN能夠在保持較小的參數(shù)量的情況下,達(dá)到較高的重建水平.
表4 模型規(guī)模與運(yùn)行效率對(duì)比Table 4 Comparison of model size and execution time from different model
在DFAN中,模型在多輪反饋迭代后,通過迭代殘差注意力不斷學(xué)習(xí)更層次的注意力信息及圖像特征,同時(shí)對(duì)網(wǎng)絡(luò)參數(shù)不斷地進(jìn)行微調(diào),并向最優(yōu)解逼近.在迭代次數(shù)增加的同時(shí),DFAN模型中的深度反饋?zhàn)⒁饬Y(jié)構(gòu)不僅僅加深了反饋傳播的深度,同時(shí)也增加了注意力權(quán)重的準(zhǔn)確程度.為了研究模型的參數(shù)學(xué)習(xí)與迭代次數(shù)的關(guān)系,通過比較迭代次數(shù)T的變化對(duì)重建效果的影響來分析反饋結(jié)構(gòu)下的注意力級(jí)別對(duì)于模型重建精度的影響.
圖4 關(guān)于T的模型損失與重建指標(biāo)分析Fig.4 Loss and PSNR/SSIM results analysis of different T
如圖4所示,當(dāng)T從2增加至4時(shí),訓(xùn)練損失擴(kuò)大了,但是驗(yàn)證集上的損失反而下降了一些,這意味著增加一定的迭代深度可以有效抑制深層網(wǎng)絡(luò)的過擬合情況,并提升一定的網(wǎng)絡(luò)收斂速度.注意到T=3與T=4相比,訓(xùn)練集上的損失不斷增大,但是重建效果相當(dāng)接近.這是由于迭代層次進(jìn)一步加深時(shí),每輪迭代學(xué)習(xí)的是不斷遞進(jìn)的殘差信息,因此越往后的迭代學(xué)習(xí)到的參數(shù)會(huì)越稀疏.如表5所示的重建結(jié)果也印證了這一點(diǎn).這表明過深的迭代次數(shù)可能會(huì)導(dǎo)致迭代殘差注意力的學(xué)習(xí)陷入局部最優(yōu)解.根據(jù)實(shí)驗(yàn)結(jié)果,最終認(rèn)為T的取值應(yīng)當(dāng)在4上下浮動(dòng),最多不超過6,否則反饋連接帶來的效果提升將會(huì)飽和.
表5 迭代次數(shù)的分析Table 5 Investigation of T
本文在5個(gè)基準(zhǔn)數(shù)據(jù)集上用多個(gè)其他超分辨率方法與本文方法進(jìn)行了對(duì)比實(shí)驗(yàn).實(shí)驗(yàn)中圖像特征的通道數(shù)都設(shè)置為64,DFAN中的迭代次數(shù)設(shè)置為4,參與比較的方法包括Bicubic,SRCNN[5],VDSR[17],LapSRN[30],DRRN[14],MemNet[9],EDSR[22],SRFBN[15]和DFAN.結(jié)果分別包括了放大倍率取{2,3,4}的情況,結(jié)果見表6.由于LapSRN不支持3倍的圖像超分辨率,因此結(jié)果中省略了相應(yīng)內(nèi)容.更直觀的視覺重建效果展示圖5可知本文提出的模型能達(dá)到更好的重建效果,在細(xì)節(jié)上有更高的重建質(zhì)量.
表6 ×2/×3/×4倍率下的超分辨率重建結(jié)果(PSNR/SSIM)Table 6 Average PSNR/SSIM for scale factor ×2/×3/×4 with bicubic interpolation degradation
圖5 不同模型在4倍放大下的重建視覺效果對(duì)比Fig.5 Visual results of super resolution by different model
本文提出了一種新的基于深度反饋?zhàn)⒁饬Φ膱D像超分辨率網(wǎng)絡(luò)(Deep Feedback Attention Network,DFAN),該模型通過在反饋機(jī)制中形成迭代的殘差注意以抑制冗余信息的傳播,提高了特征學(xué)習(xí)的效率,并能夠生成高質(zhì)量的超分辨率圖像.該方法通過反饋連接帶來的參數(shù)復(fù)用縮減了模型的參數(shù)量,利用通道注意力建立了對(duì)特征學(xué)習(xí)的篩選機(jī)制,并在迭代中不斷提升特征映射的準(zhǔn)確度.實(shí)驗(yàn)部分驗(yàn)證了深度反饋?zhàn)⒁饬Y(jié)構(gòu)的引入確實(shí)改善了超分辨率網(wǎng)絡(luò)的特征映射學(xué)習(xí)能力,減輕了過擬合以及收斂慢等問題,本文提出的方法優(yōu)于當(dāng)前同類型的圖像超分辨率方法.下面的研究重點(diǎn)將在反饋?zhàn)⒁饬Φ幕A(chǔ)上,結(jié)合人眼視覺的機(jī)制,進(jìn)一步分析注意力機(jī)制在卷積神經(jīng)網(wǎng)絡(luò)中的作用,并研究新的注意力結(jié)構(gòu)以實(shí)現(xiàn)更好的模型性能.