汪榮貴,雷 輝,楊 娟,薛麗霞
合肥工業(yè)大學(xué)計算機與信息學(xué)院,安徽 合肥 230601
單幀圖像超分辨率旨在從觀測的低分辨率圖像重建出清晰的高分辨率圖像,是計算機視覺領(lǐng)域中最經(jīng)典的圖像重建任務(wù)之一。清晰的高分辨率圖像不僅可以直接用于實際生活中,還能給計算機視覺的其他任務(wù)提供幫助,例如目標(biāo)檢測、語義分割。
單幀圖像超分辨率是一個病態(tài)的逆問題,即同一張低分辨率圖像可由許多的高分辨率圖像退化得到。目前,解決這一問題的方法主要有三類,基于插值的方法[1-2]、基于重構(gòu)的方法[3]、以及最近基于實例學(xué)習(xí)的方法[4-6]。
Dong 等人[7]在圖像插值后使用三層卷積神經(jīng)網(wǎng)絡(luò)進行圖像超分辨率,展示出比以往所有傳統(tǒng)方法更優(yōu)異的性能。于是在過去的幾年里,一系列基于卷積神經(jīng)網(wǎng)絡(luò)的單幀圖像超分辨率方法被提出來,學(xué)習(xí)從低分辨率圖像輸入到其相應(yīng)高分辨率圖像輸出的非線性映射函數(shù)。通過充分利用訓(xùn)練數(shù)據(jù)集中固有的圖像靜態(tài)特性,神經(jīng)網(wǎng)絡(luò)在單幀圖像超分辨率領(lǐng)域取得了顯著的進步[8-9]。雖然圖像超分辨率方法已經(jīng)取得了很大的進展,但現(xiàn)有的基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨率模型仍然存在一定的局限性:1) 大多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨率方法主要關(guān)注設(shè)計更深或更廣的網(wǎng)絡(luò)來學(xué)習(xí)更有鑒別性的高級特征,而沒有充分利用低分辨率圖像內(nèi)部的自相似特征;2) 許多模型沒有合理的利用多層次的自相似特征,即使有些方法考慮到了多層次自相似特征的重要性,也沒有一個很好的方法來融合它們;3) 大多數(shù)方法通過計算每個空間位置的大型關(guān)系矩陣來尋找自相似特征,性能往往較低。
本文提出了一種新的跨層次特征增強模塊來解決上述的第一個問題和第二個問題。該模塊在金字塔結(jié)構(gòu)的每一層嵌入了可變形卷積,并配合跨層次協(xié)同注意力來加強跨層次特征傳播的能力。由于可變形卷積有一個并行網(wǎng)絡(luò)學(xué)習(xí)偏移量,使得卷積核在淺層特征的采樣點發(fā)生偏移,從而大大提升了網(wǎng)絡(luò)對淺層特征的建模能力,并且利用可變形卷積還可以積極地使用設(shè)計的偏移估計器搜索自相似特征。本文采用了感受野模塊[10]作為可變形卷積的偏移估計器,它以多尺度方式執(zhí)行像素級別以及特征級別的相似性匹配。
對于第三個問題,許多網(wǎng)絡(luò)模型引用了非局部網(wǎng)絡(luò)模塊以提高對卷積神經(jīng)網(wǎng)絡(luò)中對遠程依賴關(guān)系建模的能力[11]。然而,單純的非局部圖像恢復(fù)方法只探索了相同尺度下的特征相似性,往往性能相對較低。隨后,研究人員在此基礎(chǔ)上改進成了跨尺度非局部圖像恢復(fù)方法[12],雖然性能上有很大的提升,但仍需消耗大量內(nèi)存來計算每個空間位置的大型關(guān)系矩陣。在本文中,為了更有效地捕獲這種遠程依賴關(guān)系,本文提出了池化注意力機制。
實驗結(jié)果表明,與以往算法的結(jié)果相比,本文的重建結(jié)果更加準(zhǔn)確和真實。如圖1 所示,本文所提出的超分辨率重建網(wǎng)絡(luò)的主要貢獻如下:
圖1 網(wǎng)絡(luò)結(jié)構(gòu)。(a) 本文的基本網(wǎng)絡(luò)結(jié)構(gòu);(b) 跨層次特征增強模塊;(c) 池化注意力密集塊Fig.1 Basic architectures.(a) The architecture of our proposed self-similarity enhancement network;(b) The cross-level feature enhancement module;(c) The pooling attention dense blocks
1)提出了一個跨層次特征增強模塊(cross-level feature enhancement module,CLFE),該模塊充分利用低分辨率圖像的自相似特征來增強淺層特征。
2)提出了跨層次協(xié)同注意力,在特征金字塔結(jié)構(gòu)中加強了跨層次特征傳播的能力。
3)提出了池化注意力機制,以較低的計算量自適應(yīng)捕獲遠程依賴關(guān)系,增強了自相似的深層特征,從而顯著提高了重建效果。
在自然圖像中,相似的圖案往往在同一圖像中重復(fù)出現(xiàn)。關(guān)于如何利用自相似性進行圖像重建,已有多種方法對此進行了研究[11-12],這些方法試圖利用內(nèi)部信息作為參考來重建高質(zhì)量的圖像。STN[13]提出了一種允許幾何變換模型,該模型處理透視變形和仿射變換。然而,在基于深度學(xué)習(xí)的方法中利用自相似特征進行圖像超分辨率重建的方法仍然是模糊的。為了解決這個問題,一些研究者提出了基于非局部先驗的方法。例如Dai 等人[11]設(shè)計了一種基于SENet 的二階注意力機制,并引入了非局部神經(jīng)網(wǎng)絡(luò)來進一步提高圖像重建的性能。Mei 等人[12]引入了跨尺度非局部(cross-scale non-local,CS-NL)注意力模塊,在低分辨率圖像中挖掘更多的跨尺度特征相關(guān)性。非局部操作通過計算像素相關(guān)性,來捕捉全局相關(guān)性。相關(guān)性計算為輸入要素圖中所有位置的加權(quán)和。這些基于非局部網(wǎng)絡(luò)的方法雖然一定程度上克服了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的局限性,但計算量大。因此,在計算能力有限的情況下,使用這些基于非局部網(wǎng)絡(luò)的方法進行圖像恢復(fù)并不是一個很好的選擇。本文所提出的方法不僅多層次地搜索淺層特征的自相似性,還可以在池化注意力的幫助下搜索深層特征的自相似性。
神經(jīng)網(wǎng)絡(luò)中的注意機制的目的是為了對上一層輸入中最有益和最重要的部分重新校準(zhǔn)特征響應(yīng)。近年來,注意力模塊在圖像分類[14]、圖像生成、圖像恢復(fù)[15]等一系列任務(wù)中取得的成功體現(xiàn)了其重要性。Hu 等人[14]通過研究網(wǎng)絡(luò)中卷積特征通道之間的相互依賴性,引入了一種稱為擠壓和激勵(squeeze-andexcitation,SE)塊的通道注意機制,自適應(yīng)地重新校準(zhǔn)用于圖像分類的通道特征響應(yīng)。受SE 網(wǎng)絡(luò)的啟發(fā),Zhang 等人[15]提出了RCAN,將通道注意力與殘差塊相結(jié)合,增強重要的通道特征,實現(xiàn)了SISR 的卓越性能。此外,還有一些通過整合通道信息和空間信息來增加注意力的研究,例如,Sanghyun 等人[16]引入了卷積塊注意模塊(convolutional block attention module,CBAM),該模塊應(yīng)用通道和空間注意來強調(diào)有意義的特征。然而,上述注意方法都是利用全局平均或最大池化來獲取信道或空間上的統(tǒng)計信息。
與上述方法不同的是,本文提出了跨層次協(xié)同注意力來融合金字塔不同層次的特征,并且還提出了一種計算量較小的池化注意力來捕獲深層特征的遠程依賴關(guān)系,以便充分利用圖像的自相似特征。
多尺度的本質(zhì)是對信號進行不同粒度的采樣,即在不同的尺度下能夠觀測到不同的特征。源于多尺度這一特性,該結(jié)構(gòu)已成為計算機視覺研究的熱點之一。HR-Nets[17]提出了精心設(shè)計的網(wǎng)絡(luò)體系結(jié)構(gòu),其中包含多個分支,每個分支都有自己的空間分辨率。沙漏網(wǎng)絡(luò)[18]通過跳躍連接將分辨率從高到低過程中的所有低分辨率組合為相同分辨率的特征。多網(wǎng)格卷積神經(jīng)網(wǎng)絡(luò)[19]提出了一種多網(wǎng)格金字塔特征表示方法,并定義了可以在整個網(wǎng)絡(luò)中集成的MG-Conv 算子。Oct-Conv[20]與MG-Conv 有相似的想法,但其動機是減少參數(shù)的冗余。
同時,一些學(xué)者也在探索多尺度在圖像重建任務(wù)中的作用,Han 等人提出了雙態(tài)遞歸網(wǎng)絡(luò)(dual-state recurrent networks,DSRN)[21],通過聯(lián)合低分辨率和高分辨率尺度上的信息來實現(xiàn)圖像超分辨率。具體來說,DSRN 中的遞歸信號通過延遲反饋的方式來進行兩個尺度間的信息交換。多尺度殘差網(wǎng)絡(luò)(multi-scale residual network,MSRN)[22]通過使用不同尺度的卷積核來提取圖像在不同尺度下的特征。Yang 等人提出多級多尺度圖像超分辨率網(wǎng)絡(luò)(M2SR)[23],利用殘差U 型網(wǎng)絡(luò)和注意力U 型網(wǎng)絡(luò)提取圖像的多尺度特征,增強網(wǎng)絡(luò)的表達能力。
在上述思想的基礎(chǔ)上,本文設(shè)計了一個具有多尺度特征和不同層次特征之間信息交互的金字塔結(jié)構(gòu),進一步增強了提取多尺度特征的能力。
如圖1 所示,本文提出的網(wǎng)絡(luò)結(jié)構(gòu)(self-similarity enhancement network,SSEN)主要由四個部分組成:淺層特征提取模塊、跨層次特征增強模塊(CLFE)、級聯(lián)的池化注意力密集塊以及重建模塊。其中ILR和ISR表示為SSEN 的輸入和輸出。如在文獻中[9]所研究的那樣,本文僅使用一個卷積層從低分辨率的輸入中提取淺層特征:
其中:HFE(·)表示淺層特征提取模塊,提取的淺層特征隨后作為跨層次特征增強模塊的輸入。HCLFE(·)表示本文提出的跨層次特征增強模塊,它是一個嵌入了若干特征增強模塊的金字塔結(jié)構(gòu),該模塊可作為淺層特征提取的一種延伸。因此,本文將其視為一種增強的淺層特征。FEF從而替代淺層特征作為級聯(lián)的池化注意力密集塊的輸入:
其中:HCPADB(·)表示本文提出的級聯(lián)的池化注意力密集塊,該模塊包含G個池化注意力密集塊。Hou 等人提出的條狀池化在語義分割中能夠有效的捕獲遠程依賴關(guān)系。所以,本文通過池化注意力密集塊進行深度特征提取,提取的深度特征為FDF,深度特征隨后被送入重建模塊:
其中:Hrec(·)和Hbic(·)分別表示重建模塊和雙立方插值函數(shù)。重建模塊又包含上采樣和重建兩部分,先使用亞像素卷積進行上采樣,然后用一個普通的3×3卷積重建放大的特征。
董超在最近的工作MS3?Conv[24]中強調(diào)了多尺度特征對超分辨率重建的重要性,并根據(jù)多尺度的兩個重要因素即特征傳播和跨尺度通信,設(shè)計了一種通用高效的多尺度卷積單元。受其啟發(fā),本文提出了跨層次特征增強模塊,其內(nèi)部結(jié)構(gòu)如圖1(b)所示可分為三個部分,主體部分為提供多尺度特征的金字塔結(jié)構(gòu),以及嵌入的特征增強模塊和跨層次協(xié)同注意力模塊。
金字塔結(jié)構(gòu)是一種多尺度特征提取的成熟方案,就是通過多次使用跨步卷積層對輸入圖像進行下采樣,使得大多數(shù)計算都在低分辨率空間中完成,從而大大節(jié)省了計算成本,最后的上采樣層會將特征大小調(diào)整為原始輸入分辨率。如圖1(b)中左下角的紅色虛線所示,本文使用跨步卷積在第(L-1)金字塔層將特征下采樣2 倍,獲得金字塔第L層的特征表示。本文將紅色虛線所構(gòu)成的路徑稱為特征收縮路徑。同理,上采樣過程如紫色的虛線所示,本文將紫色虛線所構(gòu)成的路徑為特征擴張路徑。本文從收縮路徑中所獲得的參考特征一方面作為金字塔同一層次特征增強模塊的輸入,另一方面又可跨層次提供一些輔助信息。下面將詳細闡述特征增強模塊和跨層次協(xié)同注意力模塊。
3.2.1 特征增強模塊
首先簡要回顧一下可變形卷積,文獻[25]提出了可變形卷積,以提高卷積神經(jīng)網(wǎng)絡(luò)的幾何變換的建模能力。它以可學(xué)習(xí)的偏移量進行訓(xùn)練,這有助于使用變形的采樣網(wǎng)格對像素點進行采樣。由于這個特性,它被廣泛地用于特征配準(zhǔn)或隱式運動估計。在這項工作中,本文利用收縮路徑的參考特征對擴張路徑的輸入特征進行增強,采用調(diào)制可變形卷積[26],該方法可另外學(xué)習(xí)帶有調(diào)制標(biāo)量的采樣內(nèi)核的動態(tài)權(quán)重。
對于輸出特征圖Y上的每個位置p,普通的卷積過程可以表示為
其中:X是輸入,pk表示具有K個采樣位置的采樣網(wǎng)格,而wk表示每個位置的權(quán)重。例如,K=9且pk∈{(?1,?1),(?1,0),...,(1,1)}可定義一個3×3的卷積核。而在調(diào)制的可變形卷積中,將預(yù)測的偏移量和調(diào)制標(biāo)量添加到采樣網(wǎng)格中,從而使可變形的內(nèi)核在空間上變化。形式上,可變形卷積運算定義如下:
其中:XL,S是金字塔第L層的支撐特征作為輸入,YL是金字塔第L層特征增強模塊的輸出,k和K分別表示可變形卷積核的索引和數(shù)目。wk,p,pk和Δpk分別是第k個核的權(quán)重,中心索引,固定偏移和第k個位置的可學(xué)習(xí)偏移。Δmk為調(diào)制標(biāo)量,這里它能夠?qū)W習(xí)到下采樣過程的參考特征與輸入特征的對應(yīng)關(guān)系。
這樣可變形卷積將在具有動態(tài)權(quán)重的不規(guī)則位置上進行操作,以實現(xiàn)對輸入特征的自適應(yīng)采樣。由于偏移量和調(diào)制標(biāo)量都是可學(xué)習(xí)的,因此將每個收縮路徑的參考特征與擴張路徑的支撐特征連接起來從而生成相應(yīng)的可變形采樣參數(shù):
其中:[,]表示串聯(lián)操作,下標(biāo)L表示金字塔第L層。RL表示金字塔第L層的參考特征。YL+1°↑表示金字塔第L+1 層的輸出結(jié)果再上采樣2 倍。而ΔP={Δpk},ΔM={Δmk}。由于Δpk可能為分?jǐn)?shù),本文使用雙線性插值,這與文獻[25]中提出的相同。
特征增強模塊由一個可變形卷積和一個給可變形卷積提供偏移量的并行網(wǎng)絡(luò)組成,如圖2 所示。在特征增強模塊中,一個參考特征和一個支撐特征被連接起來作為輸入。然后,它們通過一個3×3 的卷積層來減少通道,并通過一個感受野模塊(RFB)來增加感受野的大小。接下來的3×3 卷積層被用來獲得可變形核的偏移ΔPL和調(diào)制標(biāo)量ΔML。
圖2 提出的特征增強模塊Fig.2 The proposed feature enhancement module
圖3 描述了RFB 的結(jié)構(gòu)。它引入一種類似Inception 模塊的多分支卷積模塊,以相對低的計算成本有效地擴大感受野,這有助于處理高頻信息較豐富的邊緣和紋理。在RFB 的膨脹卷積層中,每個分支都是一個普通卷積后面加上一個膨脹因子不同的膨脹卷積。因此在保持參數(shù)量和同樣感受野的情況下,RFB 能夠獲取更精細的特征。關(guān)于RFB 的更多細節(jié)可以在文獻[10]中找到。RFB 的使用有利于獲得有效的感受野,因此本文可以更有效地利用全局特征的自相似性來生成采樣參數(shù)。
圖3 感受野模塊Fig.3 Receptive field block
特征增強模塊將可變形卷積和RFB 感受野模塊進行巧妙的結(jié)合,使得特征在傳播過程中能夠充分利用全局信息,從而提升特征的表達能力。
3.2.2 跨層次協(xié)同注意力
本文提出的跨層次協(xié)同注意力(cross-level coattention,CLCA)的目的是自適應(yīng)地調(diào)整來自金字塔不同層次(圖1(a)中的深橘色方塊)的重要特征,并為特征融合生成可訓(xùn)練的權(quán)重。CLCA 的結(jié)構(gòu)如圖4所示。
圖4 提出的跨層次協(xié)同注意力結(jié)構(gòu),其中Fgp 表示全局平均池化Fig.4 The proposed Cross-Level Co-Attention architec-ture."Fgp" denotes the global average pooling
給定一個高層次特征XL和一個低層次特征XL+1,它們的大小分別為C×H×W和。首先通過一個全局平均池化將特征XL和XL+1的全局空間信息分別壓縮到兩個信道描述符z1和z2,它們第c個元素可分別由以下式子求出:
其中:Fgp(·)表示全局平均池化操作,是XL第c個通道且位置為(i,j)的值,(i,j)是XL+1第c個通道且位置為(i,j)的值。
然后將這兩個信道描述符串聯(lián)成一個信道匯總統(tǒng)計量S∈R2C×1×1,其中Cconcat(·)為串聯(lián)函數(shù)。
為了通過全局平均池從聚合信息中完全捕獲通道依賴,本文引入了一種能夠?qū)W習(xí)信道之間非線性交互的門控機制。在這里,本文選擇利用Sigmoid 函數(shù)σ,信道統(tǒng)計量可以用以下公式計算:
其中:δ(·)表示ReLU 激活函數(shù)。W1是第一個卷積層的權(quán)重,它作為降維層,具有壓縮比r。在被ReLU激活后,低維信號隨后以比率r升維,其權(quán)重是W2。最后將獲得的信道統(tǒng)計量劃分為a,b兩部分,用于重新標(biāo)定不同層次特征的權(quán)重。然后將這些特征融合起來,過程如下:
其中:Sdown()表示下采樣過程,Cconv()表示普通的3×3卷積,F(xiàn)output表示跨層次協(xié)同注意力的輸出。
跨層次特征增強模塊輸出了增強的淺層特征并饋入后面級聯(lián)的池化注意力密集塊(pooling attention dense blocks,PADB)。池化注意力密集塊主要由具有池化注意機制的堆疊殘差密集塊組成,而堆疊殘差密集塊的更多細節(jié)可以在文獻[27]中找到。
池化注意力密集塊的結(jié)構(gòu)如圖1(c)所示。它結(jié)合了多級殘差網(wǎng)絡(luò)和密集連接。從而充分利用輸入圖像的層次特征,獲得更好的恢復(fù)質(zhì)量。
3.3.1 池化注意力
池化注意力機制利用空間池化來擴大卷積神經(jīng)的感受野并收集提供有用信息的上下文,利用條狀池化[28]作為全局池化的替代方法,所謂條狀池化就是使用條狀池化窗口沿水平或垂直方向執(zhí)行池化,如圖5 所示。數(shù)學(xué)上,給定二維張量x∈RH×W,在條狀池化過程中,需要池化的空間范圍為(H,1)或(1,W)。與二維平均池不同,條狀池化對一行或一列中的所有特征值進行平均。因此,水平條狀池化后的輸出yh∈RH可以寫成:
圖5 池化注意力示意圖Fig.5 Schematic illustration of the pooling attention
同理,垂直條狀池化后的輸出yv∈RH可以寫成:
條狀池化具有兩個全局池化所沒有的優(yōu)點。一方面,它可以沿一個空間維度部署較長的內(nèi)核空間,因此可以捕獲離散區(qū)域的遠程關(guān)系;另一方面,條狀池化考慮的是長而窄的范圍,而不是整個特征圖,從而避免了在相距甚遠的位置之間建立大多數(shù)不必要的連接。
圖5 描述了本文提出的池化注意力。設(shè)x∈RC×H×W為輸入張量,其中C表示通道數(shù)。本文首先將x饋入兩條并行路徑,每條路徑包含一個水平或垂直條狀池化層,后面是一個內(nèi)核大小為3 的一維卷積層,用于調(diào)制當(dāng)前位置及其相鄰特征。從而給出了水平方向上的池化結(jié)果yh∈RH×W和垂直方向上的池化結(jié)果yv∈RH×W。為了獲得包含更有用的全局信息輸出z∈RC×H×W,本文將yh和yv用雙線性插值法膨脹為輸入相同的大小,再將膨脹后的張量融合起來,得到y(tǒng)∈RC×H×W,該過程可表示為
于是,池化注意力的結(jié)果為
其中:SScale(,)指的是逐元素乘法,σ是Sigmoid 函數(shù),f是1×1卷積。應(yīng)當(dāng)注意,有多種方式來組合由兩個條狀池化層提取的特征,例如計算兩個提取的一維特征向量之間的內(nèi)積。然而,考慮到效率并使池化注意力模塊更加輕量,本文采用了上述操作,發(fā)現(xiàn)這些操作仍然具有不錯的效果。
根據(jù)文獻[9,15],本文選用了DIV2K[29]作為網(wǎng)絡(luò)的訓(xùn)練集,該數(shù)據(jù)集由800 張訓(xùn)練集圖片和100 張驗證集圖片組成。為了測試模型的效果,本文選用5 個標(biāo)準(zhǔn)的基準(zhǔn)數(shù)據(jù)集,分別為:Set5[30],Set14[31],BSD100[32],Urban100[5],Manga109[33]。其中測試集BSD100 包含有多種風(fēng)格類型的圖片,Urban100為各種類型的建筑物圖片,Manga109 為各種類型的卡通圖片。這5 個測試集具有豐富多樣的信息,能夠很好地驗證超分辨率方法的有效性。為了評估超分辨率性能,本文采用兩種常用的全參考圖像質(zhì)量評估標(biāo)準(zhǔn)來評估差異:峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)。按照超分辨率的慣例,亮度通道被選擇用于全參考圖像質(zhì)量評估,因為圖像的強度比色度對人類視覺更敏感。
本文采用L1損失函數(shù)[9,15]來優(yōu)化SSEN。對于給定的訓(xùn)練集,包含了N個低分辨率和高分辨率圖像對。本文的網(wǎng)絡(luò)目標(biāo)是訓(xùn)練圖像對并利用L1損失函數(shù)來進行優(yōu)化,公式如下所示:
其中:HSSEN()表示網(wǎng)絡(luò)重建結(jié)果?!?定義為L1范數(shù),而θ 表示了網(wǎng)絡(luò)中的參數(shù)。
下面具體說明本文提出的SSEN 的實驗細節(jié),在每一輪訓(xùn)練中,本文將低分辨率的RGB 圖像和對應(yīng)高分辨率的RGB 圖像的切分為大小為48×48 的塊。通過隨機旋轉(zhuǎn)90°、180°、270°和水平翻轉(zhuǎn)來增加訓(xùn)練數(shù)據(jù)。本文在堆疊的池化注意力密集塊中將密集塊的個數(shù)設(shè)置為 18,在每個池化注意力密集塊中,本文有三個殘差密集塊和三個池化注意力塊。其中殘差密集塊的增長率為32,文中未說明的通道數(shù)均為64,網(wǎng)絡(luò)最后輸出的通道數(shù)為3。此外,本文的模型采用ADAM 優(yōu)化函數(shù)來優(yōu)化網(wǎng)絡(luò),網(wǎng)絡(luò)的初始學(xué)習(xí)率設(shè)置為2×10?4,并且每迭代 2×105次學(xué)習(xí)率減半。本文所提出的方法實現(xiàn)測試的硬件環(huán)境搭配 IntelCoreTMi9-9900K(3.6 GHz)、內(nèi)存8 GB、配置NVIDIA GeForce GTX 2080 GPU 的計算機。軟件環(huán)境為64 位Ubuntu 操作系統(tǒng),PyTorch 框架和Matlab R2019a。
實驗中,本文將SSEN 與現(xiàn)階段一些具有代表性的方法作對比,其中包含Bicubic、SRCNN[7]、VDSR[8]、LapSRN[34]、M2SR[23]、PMRN[35]和RDN[36]。為了比較的公平性,將所有的方法在5 個基準(zhǔn)數(shù)據(jù)集Set5、Set14、BSD100、Urban100 和Manga109 上進行實驗測試,然后對于不同基準(zhǔn)測試集上得到的PSNR 和SSIM 指標(biāo)值分別取平均值。獲得的結(jié)果列于表1 中,表中紅色字體表示最優(yōu)結(jié)果,藍色字體表示次優(yōu)結(jié)果。從表中可以看出SSEN 獲得的PSNR和SSIM 值都高于絕大部分其他的對比方法獲得的結(jié)果值,比如在數(shù)據(jù)集Set5 上放大4 倍的情況下本文的模型重建圖像的PSNR 和SSIM 值相比于M2SR 方法分別提高了0.19 dB 和0.003,相比于PMRN 方法分別提高了0.08 dB 和0.0011。在數(shù)據(jù)集Set14 上放大2 倍的情況下,本文的模型重建圖像的PSNR 和SSIM值相比于OISR-RK2 方法分別提高了0.12 dB和0.0011,相比于DBPN 方法分別提高了0.07 dB 和0.0014。表1 中的客觀指標(biāo)的實驗對比結(jié)果證明了本文方法的有效性。
表1 在數(shù)據(jù)集Set5、Set14、BSD100、Urban100、Manga109 上放大倍數(shù)分別為2、3、4 的平均 PSNR(dB)和SSIM 的結(jié)果比較Table 1 The average results of PSNR/SSIM with scale factor 2×,3× and 4× on datasets Set5,Set14,BSD100,Urban100 and Manga109
為了從視覺質(zhì)量上對比不同超分辨率方法的重建性能,圖6 和圖7 分別展示了數(shù)據(jù)集Urban100 中“Img048”和“Img092”圖像在4 倍放大時的超分辨率重建結(jié)果。圖8 和圖9 分別展示了數(shù)據(jù)集B100 中“223061”和“253027”圖像在4 倍放大時的超分辨率重建結(jié)果。其中GT (ground truth)代表原始HR 圖像。為了突出對比效果,本文選取了圖像的局部區(qū)域使用雙三次插值的方法進行放大。通過觀察圖7 和圖9 可以看出,雖然RDN 方法[36]能清晰地恢復(fù)圖像中顯著的紋理信息,但這些紋理信息存在明顯的方向性問題,而OISR-RK2 方法[37]和DBPN[38]的方法雖在一定程度上恢復(fù)了正確的紋理信息,但難以抑制錯誤的紋理,并且這兩種方法的紋理較為模糊。相比之下,本文方法在圖中局部放大區(qū)域上能夠產(chǎn)生方向正確的紋理和比較清晰的邊緣,而且更加符合人眼視覺。這是由于跨層次特征增強模塊中的可變形卷積有較強的特征對齊能力,從而使得網(wǎng)絡(luò)模型能夠更正確的恢復(fù)不同圖像中復(fù)雜的紋理結(jié)構(gòu)。在圖8 的局部放大部分可以清晰地觀察到,其他的方法重建出的圖像細節(jié)很模糊,甚至無法重建出圖像的邊緣信息,而本文方法重建出的細節(jié)更加清晰,具有較好的識別度。這些結(jié)果也表明,本文方法在主觀表現(xiàn)上取得了更優(yōu)的效果。
圖6 數(shù)據(jù)集Urban100 中“Img048”放大4 倍的超分辨率結(jié)果Fig.6 Super-resolution results of " Img048" in Urban100 dataset for 4× magnification
圖7 數(shù)據(jù)集Urban100 中“Img092”放大4 倍的超分辨率結(jié)果Fig.7 Super-resolution results of " Img092" in Urban100 dataset for 4× magnification
圖8 數(shù)據(jù)集BSD100 中“223061”放大4 倍的超分辨率結(jié)果Fig.8 Super-resolution results of " 223061" in BSD100 dataset for 4× magnification
圖9 數(shù)據(jù)集BSD100 中“253027”放大4 倍的超分辨率結(jié)果Fig.9 Super-resolution results of " 253027" in BSD100 dataset for 4× magnification
為了驗證跨層次特征增強模塊和池化注意力密集塊的有效性,本文在測試集Set5 中對圖像放大 4倍的情況下進行了消融實驗來驗證本文模型的優(yōu)越性。
圖10 給出了這五種網(wǎng)絡(luò)的收斂過程。本文選用18 個RRDB 塊作為基線,這五種網(wǎng)絡(luò)具有相同的RRDB 數(shù)。當(dāng)本文將跨層次特征增強模塊和池化注意力密集塊分別添加到基線中,得到了Baseline +CLFE 和Baseline+Cascaded PADB 這兩條曲線。從而驗證這兩個模塊均能有效地提高基線的性能。當(dāng)本文在模塊CLFE 的基礎(chǔ)上去掉跨層次注意力得到了曲線Baseline+CLFE_no_attention,對比曲線Baseline+CLFE 可以看出失去注意力的約束后,雖然網(wǎng)絡(luò)收斂速度變快了,但最終的PSNR 卻下降了0.03 dB,但仍比基線網(wǎng)絡(luò)要高0.04 dB,從而分別驗證了特征增強模塊和跨層次注意力模塊的有效性。當(dāng)本文同時向基線網(wǎng)絡(luò)添加了兩個模塊,得到曲線Baseline +CLFE+Cascaded PADB??梢钥闯?,兩個模塊的組合性能比只有一個模塊性能更好。這些定量和可視化分析證明了本文提議的CLFE 和PADB 的有效性。
圖10 跨層次特征增強模塊和池化注意力密集塊聚合分析每種組合的曲線均基于Set5,放大因子為4,共800 epochFig.10 Convergence analysis on CLFE and PADB.The curves for each combination are based on the PSNR on Set5 with scaling factor 4× in 800 epochs.
表2 給出了網(wǎng)絡(luò)包含跨層次特征增強模塊和池化注意力密集塊中一種或者兩種的情況下的實驗結(jié)果。從表中可以看出,當(dāng)本文的網(wǎng)絡(luò)同時包含跨層次特征增強模塊和池化注意力密集塊時PSNR值相比于只包含跨層次特征增強模塊和只包含池化注意力密集塊的情況下分別提高了0.07 dB 和0.05 dB,而在SSIM 上也獲得了最大值。
表2 跨層次特征增強模塊和池化注意力密集塊在數(shù)據(jù)集Set5 放大4 倍下結(jié)果比較Table 2 The results of cross-level and feature enhancement module and pooling attention dense block with scale factor 4× on Set5
為了更好地展示網(wǎng)絡(luò)中跨層次特征增強模塊的效果,本文分別對只包含淺層特征提取的特征圖和加入跨層次特征增強模塊的特征圖進行了可視化,其中圖11(a)表示網(wǎng)絡(luò)在第一層卷積輸出的結(jié)果,圖11(b)和圖11(c)分別代表跨層次特征增強模塊輸出結(jié)果和堆疊的池化注意力密集塊輸出結(jié)果。從圖11(b)和11(c)可以看出,跨層次特征增強模塊學(xué)習(xí)到了圖像大量的自相似特征,比如蝴蝶身上的圓形斑點得到了很好的恢復(fù)。而堆疊的池化注意力密集塊則學(xué)習(xí)到了更多的圖像紋理細節(jié)。實驗結(jié)果表明,本文網(wǎng)絡(luò)中的兩個增強模塊起到了很好的自相似特征增強的作用。
圖11 網(wǎng)絡(luò)中各模塊的輸出結(jié)果。(a) 第一層卷積輸出結(jié)果;(b) 跨層次特征增強模塊輸出結(jié)果;(c) 堆疊的池化注意力密集塊輸出結(jié)果Fig.11 Results of each module in the network.(a) The result of first layer convolution;(b) The results of cross-level feature enhancement module;(c) The results of Stacked pooling attention dense blocks
為了進一步驗證本文提出模型的有效性,本文在參數(shù)的數(shù)量方面和計算量方面將SSEN 與當(dāng)前公認(rèn)取得效果比較好的一些深度學(xué)習(xí)的超分辨率方法進行了分析比較,這些方法包括EDSR,RDN,OISR-RK3和DBPN,參數(shù)和計算量結(jié)果如表3 所示。
表3 模型大小和計算量在數(shù)據(jù)集Set14 放大2 倍情況下的比較,計算量表示乘法操作和加法操作的數(shù)目之和Table 3 Model size and MAC comparison on Set14 (2×),"MAC" denotes the number of multiply-accumulate operations
從表中可以看出SSEN 在取得了較好客觀指標(biāo)的同時,大幅縮減了網(wǎng)絡(luò)的參數(shù)量和計算量。在數(shù)據(jù)集Set14 上放大2 倍的情況下SSEN 模型參數(shù)量約等于EDSR 和OISR-RK3 參數(shù)量的36%,計算量也只有它們的37%,但獲得的PSNR 和SSIM 結(jié)果卻十分接近。雖然SSEN 的參數(shù)量和計算量略高于DBPN 方法,獲得的PSNR 和SSIM 值相比于DBPN 方法提高了0.07 dB 和0.0014。
由此可以證明,SSEN 在圖像重建質(zhì)量和模型壓縮以及計算效率上取得了更好的平衡,即SSEN 在參數(shù)較少時也能獲得較好的PSNR 和SSIM 結(jié)果。在主觀視覺效果上,如圖6?9 所示,SSEN 與目前客觀指標(biāo)上較優(yōu)的RDN 方法進行比較,取得了相近的重建質(zhì)量,但SSEN 參數(shù)卻比它少了很多。
本文提出了一個基于自相似特征增強網(wǎng)絡(luò)結(jié)構(gòu)的單幀圖像超分辨率重建網(wǎng)絡(luò)。該方法著重對低分辨率圖像內(nèi)的自相似特征進行增強,本文將整個自相似特征增強的過程設(shè)計成兩個即插即用的模塊,即跨層次特征增強模塊和池化注意力密集塊。其中跨層次特征增強模塊可作為淺層特征增強模塊,在CLFE中,金字塔結(jié)構(gòu)的每一層都嵌入了可變形卷積,以便充分挖掘同一尺度下的自相似信息。金字塔的不同層次間也包含特征的傳遞,在一定程度上補充了跨尺度的自相似信息,為了防止不同層次的自相似信息相互之間產(chǎn)生干擾,本文提出了跨層次注意力來約束這種信息的傳遞。此外,本文還提出了池化注意力來挖掘中間特征的自相似特征。通過充分利用淺層特征和中間特征的自相似信息,本文提出的方法無論在客觀指標(biāo)還是在主觀表現(xiàn)下都取得了較好的效果。