摘 要: 針對(duì)現(xiàn)有的圖像超分辨率網(wǎng)絡(luò)存在圖像細(xì)節(jié)特征恢復(fù)能力較弱、參數(shù)量大、計(jì)算成本高的問題,提出了一種輕量化特征蒸餾注意力網(wǎng)絡(luò)(LRFDAN)。首先,設(shè)計(jì)了新穎的殘差特征蒸餾模塊進(jìn)行有效特征提取;其次,利用藍(lán)圖可分離卷積替代標(biāo)準(zhǔn)卷積以減少計(jì)算和內(nèi)存需求;最后,注意力機(jī)制被集成到模型中,進(jìn)一步增強(qiáng)模型重構(gòu)能力。所提出的模型在5種基準(zhǔn)測(cè)試數(shù)據(jù)集上進(jìn)行性能驗(yàn)證,定量結(jié)果分析與視覺效果比較表明,與其他深度神經(jīng)網(wǎng)絡(luò)模型相比,LRFDAN在保持更好的性能和主觀視覺效果的同時(shí),大大減少了參數(shù)與計(jì)算量。進(jìn)一步表明了所提出的模型在圖像質(zhì)量和計(jì)算效率方面的有效性。
關(guān)鍵詞: 深度學(xué)習(xí);單圖像超分辨率重構(gòu);輕量化;深度特征蒸餾;注意力機(jī)制
中圖分類號(hào): TP391.4
文獻(xiàn)標(biāo)識(shí)碼: A" 文章編號(hào): 2096-3998(2024)06-0056-09
收稿日期:2024-04-15" 修回日期:2024-05-17
基金項(xiàng)目:云南省基礎(chǔ)研究計(jì)劃項(xiàng)目(202401AT070355)
*通信作者:孫?。?986—),男,云南昭通人,博士,講師,主要研究方向?yàn)殡姶懦牧?、機(jī)器學(xué)習(xí)。
引用格式:常開榮,孫俊,胡明志.用于圖像超分辨率的輕量化特征蒸餾注意力網(wǎng)絡(luò)[J].陜西理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,40(6):56-64.
單圖像超分辨率重構(gòu)(Single Image Super Resolution,SISR)是計(jì)算機(jī)視覺當(dāng)中的一項(xiàng)重要任務(wù),旨在對(duì)低分辨率圖像(Low-Resolution,LR)進(jìn)行重建以生成高分辨率圖像(High-Resolution,HR),并對(duì)其細(xì)節(jié)和紋理進(jìn)行優(yōu)化,以提高視覺感知質(zhì)量。目前,該技術(shù)已廣泛應(yīng)用于許多實(shí)際生活場(chǎng)景中,包括安防監(jiān)控領(lǐng)域[1]、衛(wèi)星遙感領(lǐng)域[2]、醫(yī)學(xué)成像領(lǐng)域[3]等。
隨著深度學(xué)習(xí)的快速發(fā)展,基于深度學(xué)習(xí)的SISR模型在各種基準(zhǔn)測(cè)試數(shù)據(jù)集中取得了最先進(jìn)的性能,這些超分辨率重構(gòu)(Super-Resolution,SR)網(wǎng)絡(luò)極大地提高了重構(gòu)圖像的質(zhì)量。它們的成功歸功于大容量模型和密集計(jì)算。然而,這在很大程度上限制其在注重效率或?qū)崟r(shí)性要求高的現(xiàn)實(shí)場(chǎng)景中的應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)因其深度和寬度的增加而成為解決SISR問題的主要技術(shù)。但大多數(shù)深度網(wǎng)絡(luò)都存在某些局限性。首先,深度超分辨率網(wǎng)絡(luò)的設(shè)計(jì)涉及大量的模型參數(shù),致使網(wǎng)絡(luò)訓(xùn)練時(shí)對(duì)計(jì)算資源和內(nèi)存的需求顯著增加。這一特性導(dǎo)致了計(jì)算復(fù)雜度和存儲(chǔ)開銷的上升。其次,在網(wǎng)絡(luò)深度逐漸增加的過程中,存在大量特征信息丟失的問題。這一問題可能對(duì)網(wǎng)絡(luò)性能和恢復(fù)高頻細(xì)節(jié)的能力產(chǎn)生負(fù)面影響。對(duì)此研究人員提出了許多輕量級(jí)SR網(wǎng)絡(luò)來解決低效率問題。這些網(wǎng)絡(luò)使用不同的策略來解決該問題,包括參數(shù)共享策略[4]、帶有分組卷積的級(jí)聯(lián)網(wǎng)絡(luò)[5]、信息或特征蒸餾機(jī)制和注意力機(jī)制[6]。雖然它們應(yīng)用了緊湊的架構(gòu)并提高了映射效率,但卷積運(yùn)算仍然存在參數(shù)冗余。大多數(shù)算法只是簡(jiǎn)單地以鏈?zhǔn)椒绞蕉询B了卷積層,這增加了模型的內(nèi)存需求和計(jì)算復(fù)雜度。
盡管這些模型表現(xiàn)出了顯著的性能,但由于其巨大的計(jì)算需求,使得它們?cè)谝苿?dòng)設(shè)備上的部署面臨著不小的挑戰(zhàn)。在殘差特征蒸餾網(wǎng)絡(luò)[7](Residual Feature Distillation Network,RFDN)啟發(fā)下,本文創(chuàng)新性地提出了一種輕量化的殘差特征蒸餾注意力網(wǎng)絡(luò)(Lightweight Residual Feature Distillation Attention Network,LRFDAN),在降低模型復(fù)雜性的同時(shí)保持高效的圖像重構(gòu)質(zhì)量。首先,網(wǎng)絡(luò)模型的核心創(chuàng)新在于輕量化殘差特征蒸餾注意力模塊(Residual Feature Distillation Attention Block,RFDAB)的實(shí)現(xiàn),它集成了藍(lán)圖可分離卷積塊[8](Blueprints Separable Convolution,BSConv)以及高效通道注意力模塊[9](Efficient Channel Attention,ECA)和強(qiáng)化空間注意力模塊[10](Enhancing Spatial Attention,ESA)。其次,使用藍(lán)圖可分離卷積代替?zhèn)鹘y(tǒng)卷積,可有效減少計(jì)算工作量,進(jìn)而創(chuàng)建一個(gè)輕量化模型,用于圖像超分辨率任務(wù)。
1 相關(guān)工作
1.1 輕量化圖像超分辨率重構(gòu)
輕量級(jí)模型在節(jié)省計(jì)算資源方面的重要性引發(fā)了關(guān)于如何減少基于深度學(xué)習(xí)的SR模型所需的參數(shù)數(shù)量以提高其在移動(dòng)設(shè)備中的有效性的討論。為此,研究人員提出了各種提高模型效率、降低模型復(fù)雜度的網(wǎng)絡(luò)。Kim等[11]實(shí)現(xiàn)了一個(gè)遞歸神經(jīng)網(wǎng)絡(luò),多次重用參數(shù)以減少SISR中的參數(shù)數(shù)量。Jiang Zetao等[12]使用藍(lán)圖可分離卷積代替標(biāo)準(zhǔn)卷積,具體來說,他們將卷積分為兩部分:深度卷積和點(diǎn)卷積,這樣,計(jì)算是加法而不是乘法,大大節(jié)省了資源,顯著減少了模型參數(shù)的數(shù)量。盡管輕量級(jí)SR模型的研究取得了重大進(jìn)展,但仍處于早期階段,需要進(jìn)一步討論。
1.2 基于特征蒸餾的超分辨率重構(gòu)
對(duì)于輕量級(jí)SR,主要目標(biāo)是在性能和效率之間取得平衡。實(shí)現(xiàn)該平衡的一種方法是使用特征蒸餾。
Hui Zheng等[13]提出了信息多重蒸餾網(wǎng)絡(luò)(Information Multi-Distillation Network,IMDN),通過整合對(duì)比感知注意力機(jī)制(Contrast-Aware Attention,CCA)和級(jí)聯(lián)信息多重蒸餾塊(Information Multi-Distillation Blocks,IMDB),對(duì)信息蒸餾網(wǎng)絡(luò)[14](Information Distillation Network,IDN)進(jìn)行了增強(qiáng),在保持性能的同時(shí)成功地降低了模型復(fù)雜度。Yang Xin等[15]提出了一種輕量級(jí)多階段殘差蒸餾網(wǎng)絡(luò)(Multi-stage Residual Distillation Network,MRDN),基于兩個(gè)核心模塊:多階段殘差蒸餾塊(Multi-stage Residual Distillation Block,MRDB)和高效像素注意力(Efficient Pixel Attention,EPA)模塊。盡管這些改進(jìn)顯著提升了性能,但在實(shí)際場(chǎng)景中的應(yīng)用依然有待提高。
1.3 注意力機(jī)制
注意力機(jī)制在優(yōu)化計(jì)算機(jī)視覺任務(wù)深度模型性能方面表現(xiàn)出卓越的潛力,因此在圖像分類、目標(biāo)檢測(cè)等計(jì)算機(jī)視覺任務(wù)中得到了廣泛的應(yīng)用。注意力機(jī)制可以被解釋為一種將可用資源的分配偏向輸入信號(hào)中更重要的信息部分的方法。Zhang Yunlun等[16]提出了深度殘差通道注意力網(wǎng)絡(luò)。目的在于通過考慮通道之間的相互依賴性來實(shí)現(xiàn)對(duì)通道特征的自適應(yīng)調(diào)整。Mei Yiqun等[17]提出了跨尺度非局部注意力(Cross-Scale Non-Local Attention,CSNLA),探索不同尺度特征之間的自相似性,但需要相當(dāng)大的計(jì)算量。
2 本文方法
2.1 網(wǎng)絡(luò)架構(gòu)
本文提出的模型稱為輕量化殘差特征蒸餾注意力網(wǎng)絡(luò)(LRFDAN),繼承自RFDN的結(jié)構(gòu),旨在提高LR圖像超分辨率重構(gòu)圖像質(zhì)量的同時(shí)保持模型的輕量化??傮w網(wǎng)絡(luò)架構(gòu)如圖1所示,主要由三個(gè)模塊組成:淺層特征提取、深度特征蒸餾融合、重構(gòu)模塊。
淺層特征提取部分使用3×3的藍(lán)圖可分離卷積層將輸入的LR圖像映射到更高維的特征空間,如下式所示:
F0=H0(ILR),
其中,H0(·)表示淺層特征提取模塊,ILR是通道數(shù)為3的輸入圖像。然后,F(xiàn)0通過RFDAB模塊進(jìn)行深度特征提取,并逐漸細(xì)化提取到的特征。這個(gè)過程可以表述為
Fk=Hk(Fk-1),
其中,Hk(·)表示第k個(gè)RFDAB模塊,F(xiàn)k和Fk-1分別表示第k個(gè)RFDAB的輸出特征和輸入特征,k=1,2,…,n。
為了充分利用深度網(wǎng)絡(luò)的特征表征能力,本文采用了1×1卷積結(jié)合GELU激活函數(shù)的策略,對(duì)各個(gè)深度層生成的特征進(jìn)行融合和映射。以促進(jìn)特征融合的平滑性和連續(xù)性,從而更好地捕捉數(shù)據(jù)的非線性特性。在本文的方法中,還發(fā)現(xiàn)GELU的性能優(yōu)于常用的ReLU和LeakyReLU。然后,使用BSConv層來細(xì)化特征。深度特征融合過程為
Ffused=Hfused(Concat(Fk)),
其中,Hfused(·)表示特征融合模塊,由1×1卷積結(jié)合BSConv層組成;Ffused(·)是聚合后的特征。為了利用殘差學(xué)習(xí),需要使用長(zhǎng)跳躍連接,所有特征經(jīng)過RFDAB細(xì)化處理后,將被傳遞到1×1卷積層,以減少參數(shù)數(shù)量,同時(shí)利用3×3藍(lán)圖可分離卷積來聚合所有特征,然后使用另一個(gè)3×3卷積來平滑所有特征。在網(wǎng)絡(luò)的最后階段,使用像素洗牌模塊來重構(gòu)相對(duì)應(yīng)的SR圖像,并且擴(kuò)展到所需大小。模型重構(gòu)階段表示為
ISR=HLRFDAN(ILR)=Hrec(Ffused+F0),
其中,HLRFDAN(·)表示輕量化特征蒸餾注意力網(wǎng)絡(luò);Hrec(·)表示重構(gòu)模塊,由3×3標(biāo)準(zhǔn)卷積層和像素洗牌操作組成。
L2損失函數(shù)可能會(huì)對(duì)誤差項(xiàng)過度處理,從而導(dǎo)致圖像中的高頻細(xì)節(jié)信息丟失。相比之下,L1損失函數(shù)能夠有效地處理預(yù)測(cè)值與真實(shí)值之間的絕對(duì)誤差,從而有助于網(wǎng)絡(luò)更精準(zhǔn)地恢復(fù)圖像細(xì)節(jié)。因此,選擇L1損失函數(shù)用于超分辨率網(wǎng)絡(luò)的設(shè)計(jì)。如果有包含N張網(wǎng)絡(luò)模型生成的HR圖像ISR以及相對(duì)應(yīng)的原始HR圖像IHR ,L1損失函數(shù)可以表示為
L1=1NNi=1IHR-ISR。
2.2 輕量化殘差特征蒸餾模塊
受RFDN中RFDB模塊啟發(fā),本文提出了輕量化殘差特征蒸餾模塊,如圖2所示。該模塊通過通道分離和特征蒸餾的方式大幅減少了參數(shù)數(shù)量。同時(shí),本文將RFDB中的SRB部分替換為藍(lán)圖卷積通道注意力模塊(BSECA),如圖2(a)所示,所提出的BSECA由3×3藍(lán)圖可分離卷積和高效通道注意力ECA模塊組成。RFDAB由3個(gè)階段組成:特征蒸餾、特征壓縮和特征增強(qiáng)。在第一階段,對(duì)于輸入特征,特征蒸餾可以表示為
Fdistilled1,F(xiàn)coarse1=DL1(Fin),RL1(Fin),
Fdistilled2,F(xiàn)coarse2=DL2(Fcoarse1),RL2(Fcoarse1),
Fdistilled3,F(xiàn)coarse3=DL3(Fcoarse2),RL3(Fcoarse2),
Fdistilled4=DL4(Fcoarse3),
其中,F(xiàn)distilled、Fcoarse分別表示蒸餾特征和細(xì)化特征,DL(·)表示生成蒸餾特征的蒸餾層(Distilled Layer,DL),RL(·)表示進(jìn)一步細(xì)化特征的細(xì)化層(Refinement Layer,RL)。RFDAB模塊采用通道分離操作將輸入特征圖分為兩部分,一部分特征圖通過1×1的卷積進(jìn)行降維處理并保留,另一部分則作為下一階段的特征蒸餾步驟中的輸入特征。在特征壓縮階段,蒸餾特征Fdistilled1、Fdistilled2、Fdistilled3、Fdistilled4疊加在一起,然后通過1×1卷積進(jìn)行特征壓縮:
Fout=Conv1×1(Concat(Fdistilled1,F(xiàn)distilled2,F(xiàn)distilled3,F(xiàn)distilled4))。
每個(gè)RFDAB由左側(cè)和右側(cè)兩部分組成,如圖2(b)所示,左側(cè)為1×1卷積,右側(cè)為BSECA模塊,這些部分重復(fù)3次。接下來,通過將所有的深度特征提取模塊連接在一起,使用3×3的藍(lán)圖可分離卷積來匯聚這些特征,然后是1×1卷積,最后使用ESA模塊。BSConv是一種用于減少參數(shù)和浮點(diǎn)運(yùn)算的方法,如圖2(c)所示,它將標(biāo)準(zhǔn)卷積分為兩個(gè)卷積,一個(gè)是點(diǎn)卷積,另一個(gè)是深度卷積。在本文中,實(shí)現(xiàn)了一個(gè)藍(lán)圖可分離卷積和一個(gè)高效通道注意力模塊來使模型輕量化。
2.3 注意力模塊
由于ESA模塊和ECA模塊的有效性已被證明[18]。本文引入該兩個(gè)模塊,這兩個(gè)模塊所涉及的參數(shù)數(shù)量相對(duì)較少,卻能在性能上實(shí)現(xiàn)顯著的增益效果。
ESA模塊的具體架構(gòu)如圖2(d)所示。該方法從1×1卷積層開始,以降低輸入特征的通道維度。然后該模塊使用跨步卷積(Strided Conv)和跨步最大池化層來減小輸入特征空間大小。在組卷積(Conv Groups)提取特征之后,執(zhí)行上采樣以恢復(fù)特征空間大小。結(jié)合殘差連接,特征由1×1卷積層進(jìn)一步處理以恢復(fù)通道大小。最后,通過逐元素相乘的操作將Sigmoid函數(shù)生成的注意力矩陣應(yīng)用于原始輸入特征。
ECA模塊的核心思想是在卷積操作中引入通道注意力機(jī)制,以捕捉不同通道之間的關(guān)系,從而提升特征表示的能力。使得網(wǎng)絡(luò)可以更好地關(guān)注重要的特征,抑制不重要的特征。通過這種機(jī)制,ECA能夠在不增加過多參數(shù)和計(jì)算成本的情況下,有效地增強(qiáng)網(wǎng)絡(luò)的表征能力。模塊的操作機(jī)制如圖3所示,其中ECA模塊以一維卷積為基礎(chǔ),通過自適應(yīng)計(jì)算函數(shù)動(dòng)態(tài)地調(diào)整卷積核的尺寸。此設(shè)計(jì)旨在促使網(wǎng)絡(luò)更有效地捕獲不同通道之間的關(guān)聯(lián)信息。
通過自適應(yīng)靈活地調(diào)整內(nèi)核大小,該模塊能夠適應(yīng)不同尺度的特征交互。這種方法可以保證效率和有效性。對(duì)于給定的通道維度C、卷積核大小K可以按照下式進(jìn)行自適應(yīng)計(jì)算:
K=Ψ(C)=log2(C)γ+bγodd,
本文的實(shí)驗(yàn)中均設(shè)置γ=2,b=1。
3 實(shí)驗(yàn)和評(píng)價(jià)指標(biāo)
3.1 實(shí)驗(yàn)設(shè)置和數(shù)據(jù)集
為了驗(yàn)證本文模型的性能,在帶有NVIDIA RTX3060 GPU的Ubuntu 18.04云服務(wù)器進(jìn)行模型訓(xùn)練及全面的比較評(píng)估,該模型是利用Python語言的PyCharm編譯平臺(tái)實(shí)現(xiàn)的,所提出的LRFDAN模型實(shí)現(xiàn)是在PyTorch1.8.1、Cuda11.4框架內(nèi)實(shí)現(xiàn)的。為了促進(jìn)訓(xùn)練過程,采用了L1損失函數(shù)。學(xué)習(xí)率初始化為0.001,在200個(gè)訓(xùn)練epoch后經(jīng)歷減半過程以優(yōu)化收斂。模型由8個(gè)RFDAB模塊組成。在訓(xùn)練期間,選擇的批量大小為64,輸入圖像以大小為192的塊進(jìn)行處理,以有效利用計(jì)算資源。同時(shí)對(duì)輸入圖像90°、180°、270°隨機(jī)旋轉(zhuǎn)進(jìn)行圖像增強(qiáng)。為了優(yōu)化模型參數(shù),本文使用了Adam優(yōu)化器。所提出的模型經(jīng)過500個(gè)epoch的訓(xùn)練階段后發(fā)現(xiàn)PSNR仍在提高,然后模型進(jìn)一步訓(xùn)練了1 000個(gè)epoch。最終實(shí)現(xiàn)了SISR的LRFDAN模型的有效訓(xùn)練。
為了展示本文模型的性能,經(jīng)過DIV2K數(shù)據(jù)集的訓(xùn)練,分別涵蓋了縮放因子為2、3、4的3個(gè)尺度。DIV2K是從互聯(lián)網(wǎng)上收集的1 000張圖像,涵蓋了各種內(nèi)容,包括人、環(huán)境、動(dòng)物等。這個(gè)數(shù)據(jù)集由3個(gè)子集組成,分別包含800張、100張和100張圖像。用于模型性能評(píng)估的基準(zhǔn)數(shù)據(jù)集為SET5、SET14、Urban100、BSD100和Manga109。SET5數(shù)據(jù)集涵蓋了5幅代表性圖像,被廣泛運(yùn)用于評(píng)估圖像超分辨率模型的性能。SET14數(shù)據(jù)集是SET5數(shù)據(jù)集的延伸,將初始的5張圖像擴(kuò)展至14張圖像。Urban100數(shù)據(jù)集包含了100張來自城市環(huán)境、建筑物、街道等具備豐富空間細(xì)節(jié)信息的圖像。BSD100數(shù)據(jù)集涵蓋了100張測(cè)試圖像。Manga109數(shù)據(jù)集包含109張漫畫,被廣泛用于圖像超分辨率任務(wù)。
3.2 評(píng)價(jià)指標(biāo)
SR模型通常使用兩個(gè)關(guān)鍵指標(biāo)進(jìn)行評(píng)估,即:峰值信噪比(Peak Signal to Noise Ratio,PSNR)和結(jié)構(gòu)相似性指數(shù)(Structural Similarity,SSIM)。這些指標(biāo)用作量化增強(qiáng)圖像的質(zhì)量和保真度的標(biāo)準(zhǔn)措施。PSNR和SSIM用于測(cè)量SR方法的有效性。其中所有值都是將輸入圖像的RGB通道轉(zhuǎn)換為YCrCb通道的顏色空間Y通道計(jì)算的。給定N像素的低分辨率圖像ILR和高分辨率圖像IHR,L是輸入圖像的像素,最大值為255,PSNR是基于均方誤差(Mean Square Error,MSE)定義的:
MSE=1N‖IHR-ILR‖2,
PSNR=10lgL2MSE,
SSIM=(2μLRμHR+C1)(σLRHR+C2)(μ2LR+μ2HR+C1)(σ2LR+σ2HR+C2),
其中,μLR、σLR、μHR、σHR分別為L(zhǎng)R和HR的均值和方差,σLRHR為L(zhǎng)R和HR的協(xié)方差,C1、C2為常數(shù)。
4 實(shí)驗(yàn)結(jié)果分析比較
4.1 定量結(jié)果分析比較
本文將所提出的LRFDAN與最先進(jìn)的輕量級(jí)SR方法進(jìn)行了比較,包括Bicubic、SRCNN[19]、VDSR[20]、LapSRN[21]、SRResNet[22]、IMDN[13]、SMSR[23]、ECBSR[24]、DRSAN[25]、RFDN、RLFN[26]、AFAN[27]。本文將圖像重建過程所需的計(jì)算復(fù)雜度FLOPs、模型參數(shù)數(shù)量以及重建結(jié)果的PSNR值以及SSIM值進(jìn)行比較。FLOPs代表浮點(diǎn)操作數(shù),可用于衡量算法和模型的復(fù)雜性,其中FLOPs在分辨率為1 024×660的HR圖像上進(jìn)行計(jì)算。表1—表3顯示了不同縮放因子下的定量比較結(jié)果。
表1—表3詳細(xì)介紹了LRFDAN模型與各種SR方法的比較評(píng)估,其中利用了前面概述的5個(gè)基準(zhǔn)數(shù)據(jù)集。本文的模型針對(duì)×2、×3和×4的縮放因子進(jìn)行了單獨(dú)訓(xùn)練。在縮放因子為×3的SET14基準(zhǔn)測(cè)試數(shù)據(jù)集上,與RFDN方法相比,本文的模型LRFDAN取得了0.03 dB的性能增益。在縮放因子為×4的SET14基準(zhǔn)測(cè)試數(shù)據(jù)集上,與RFDN和RLFN方法相比,本文的模型LRFDAN分別取得了0.06 dB、0.05 dB的性能增益;在縮放因子為×2的BSD100基準(zhǔn)測(cè)試數(shù)據(jù)集上,與RFDN方法相比,實(shí)現(xiàn)了0.01 dB的性能增益。同時(shí)與RFDN方法相比,本文的模型LRFDAN在縮放因子×2、×3和×4上參數(shù)分別減少了32%、31%和28%,實(shí)驗(yàn)結(jié)果表明本文的模型更加的輕量化。與最近最先進(jìn)的輕量級(jí)網(wǎng)絡(luò)RLFN相比較,LRFDAN在保證相近甚至略有提高的平均PSNR值和SSIM值的同時(shí),參數(shù)和模型的計(jì)算復(fù)雜度FLOPs減少了約10%。實(shí)驗(yàn)結(jié)果表明本文的模型降低模型復(fù)雜度并保持高效的圖像質(zhì)量。在充分考慮圖像質(zhì)量的同時(shí),成功地實(shí)現(xiàn)了計(jì)算復(fù)雜度和內(nèi)存的有效平衡。
4.2 視覺結(jié)果分析比較
由于定量指標(biāo)PSNR和SSIM未能充分考慮重建圖像細(xì)節(jié)的連續(xù)性,并不能全面反映圖像質(zhì)量,因此在4倍縮放因子下,本文對(duì)每個(gè)模型的重建圖像進(jìn)行了視覺分析。如圖4所示,方框部分為局部放大圖,這些視覺結(jié)果可以用來說明所提出的LRFDAN模型在重構(gòu)圖像感知質(zhì)量方面的有效性。值得注意的是,視覺結(jié)果顯示了本文的模型在SR質(zhì)量方面的優(yōu)越性。
在SET14基準(zhǔn)測(cè)試數(shù)據(jù)集中,本文比較了模型重建圖像“zebra”的能力,研究結(jié)果表明,雖然SRCNN和IMDN模型恢復(fù)了大部分條紋輪廓,但其不規(guī)則的條紋構(gòu)造仍然表現(xiàn)出模糊性。相比之下,本文提出的模型LRFDAN能夠以更高的清晰度重建高頻細(xì)節(jié)。在Manga109基準(zhǔn)測(cè)試數(shù)據(jù)集中,除SRCNN之外的大多數(shù)模型都可以恢復(fù)圖像的條紋細(xì)節(jié),但仍然存在紋理細(xì)節(jié)模糊等問題。相比之下,LRFDAN的重建圖像紋理清晰,細(xì)節(jié)豐富,接近完美。在Urban100基準(zhǔn)測(cè)試數(shù)據(jù)集中,本文評(píng)估了模型重建圖像“img096”“img024”的能力,對(duì)“img096”重建實(shí)驗(yàn)結(jié)果表明,使用SRCNN重建的圖像嚴(yán)重扭曲和模糊。雖然使用IMDN、RFDN等網(wǎng)絡(luò)的重建結(jié)果稍微清晰一些,但玻璃窗網(wǎng)格扭曲變形,條紋不清晰。相比之下,本研究提出的使用DFRDAN重建的圖像紋理清晰,細(xì)節(jié)豐富,更接近真實(shí)圖像。對(duì)“img024”重建實(shí)驗(yàn)結(jié)果表明,使用SRCNN、IMDN重建的圖像格柵條紋嚴(yán)重變形模糊。雖然使用RFDN、RFLN等網(wǎng)絡(luò)的重建結(jié)果稍微清晰一些,但格柵網(wǎng)格扭曲變形,條紋不清晰。相比之下,本研究提出的使用DFRDAN重建的圖像格柵條紋清晰,細(xì)節(jié)豐富,更接近真實(shí)圖像。總的來說,本文的模型產(chǎn)生的結(jié)果與指定基準(zhǔn)數(shù)據(jù)集上的SR方法進(jìn)行比較表明所提出的LRFDAN模型的良好性能,有效地實(shí)現(xiàn)了其輕量化設(shè)計(jì),同時(shí)保持了良好的圖像質(zhì)量。
4.3 消融實(shí)驗(yàn)
本文對(duì)比了兩個(gè)注意力模塊的有效性并比較了不同激活函數(shù)的效果。500次迭代后的訓(xùn)練結(jié)果見表4和表5。
ESA和ECA注意力模塊有效性分析。為了驗(yàn)證ESA和ECA兩個(gè)注意力模塊的有效性,本文在LRFDAN網(wǎng)絡(luò)中加入不同的模塊進(jìn)行了消融實(shí)驗(yàn),具體的結(jié)果見表4。實(shí)驗(yàn)表明,沒有ESA的LRFDAN出現(xiàn)明顯的性能下降。與沒有ECA的LRFDAN相比,完整的LRFDAN在SET5、Urban100和Manga109數(shù)據(jù)集上分別獲得了0.04 dB/0.000 5、0.13 dB/0.004 1、0.03 dB/0.000 4的性能增益。與沒有ESA的LRFDAN相比,完整的LRFDAN在SET5、Urban100和Manga109數(shù)據(jù)集上分別獲得了0.05 dB/0.001 1、0.12 dB/0.004 1、0.10 dB/0.000 7的性能增益。結(jié)果表明ESA和ECA可以有效增強(qiáng)模型重構(gòu)性能。
不同激活函數(shù)的定量比較。本文對(duì)多種激活函數(shù)進(jìn)行了深入研究,以確定最適合的選擇,結(jié)果見表5。實(shí)驗(yàn)表明,與使用ReLU激活函數(shù)的LRFDAN模型相比,使用GELU激活函數(shù)的LRFDAN在基準(zhǔn)測(cè)試數(shù)據(jù)集SET5、SET14、BSD100、Urban100以及Manga109上獲得了0.07 dB、0.04 dB、0.05 dB、0.08 dB以及0.05 dB的性能增益。與使用LeakyReLU激活函數(shù)相比,使用GELU激活函數(shù)在基準(zhǔn)測(cè)試數(shù)據(jù)集SET5、SET14、BSD100、Urban100以及Manga109上分別獲得了0.02、0.05、0.03、0.02、0.02 dB的性能增益。在考慮了這些激活函數(shù)的影響后,本文選擇GELU作為模型中的激活函數(shù)。
5 結(jié)論
本文提出了一種新穎且高效的SISR模型LRFDAN,在充分考慮圖像質(zhì)量的同時(shí),成功地實(shí)現(xiàn)了對(duì)計(jì)算復(fù)雜度和內(nèi)存的有效平衡。本文提出模型的成功可歸因于幾個(gè)關(guān)鍵因素。首先,用本文的定制RFDAB替換RFDN的主要構(gòu)建塊RFDB,從而增強(qiáng)了模型的特征提取和表達(dá)能力;其次,合并BSConv和ECA塊來替換SRB塊有助于進(jìn)一步提高模型的性能;第三,本文的模型能夠大幅降低模型復(fù)雜性,強(qiáng)調(diào)其輕量級(jí)性質(zhì),同時(shí)保持高效的圖像質(zhì)量。本文的主要目標(biāo)是開發(fā)一種輕量級(jí)模型,以減少參數(shù)、計(jì)算操作、內(nèi)存需求。所提出的模型成功地實(shí)現(xiàn)了這一基本目標(biāo)。在優(yōu)化模型復(fù)雜性和增強(qiáng)圖像質(zhì)量方面所取得的成功再次證實(shí)了本文方法的有效性,突顯了其在強(qiáng)調(diào)效率和視覺質(zhì)量的各種應(yīng)用中的潛力。根據(jù)所提出的模型,未來的工作將集中于進(jìn)一步提高重構(gòu)圖像的質(zhì)量,同時(shí)保持模型的輕量化。此外,本文將繼續(xù)探索超分辨率技術(shù)在不同領(lǐng)域的集成,尋求一個(gè)更普遍和有效的圖像重構(gòu)模型。
[ 參 考 文 獻(xiàn) ]
[1] NGUYEN K,F(xiàn)OOKES C,SRIDHARAN S,et al.Super-resolution for biometrics:A comprehensive survey[J].Pattern Recognition,2018,78:23-42.
[2] WANG P,BAYRAM B,SERTEL E.A comprehensive review on deep learning based remote sensing image super-resolution methods[J].Earth-Science Reviews,2022,232:104110.
[3] QIU Defu,CHENG Yu,WANG X.Medical image super-resolution reconstruction algorithms based on deep learning:A survey[J].Computer Methods and Programs in Biomedicine,2023,238:107590.
[4] AHN J Y,CHO N I.Multi-branch neural architecture search for lightweight image super-resolution[J].IEEE Access,2021,9:153633-153646.
[5] YANG Aiping,YANG Bingwang,JI Zhong,et al.Lightweight group convolutional network for single image super-resolution[J].Information Sciences,2020,516:220-233.
[6] DENG W,YUAN H,DENG L,et al.Reparameterized Residual Feature Network for Lightweight Image Super-Resolution[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2023:1712-1721.
[7] LIU Jie,TANG Jie,WU Gangshan.Residual feature distillation network for lightweight image super-resolution[C]//Computer Vision-ECCV 2020 Workshops,Glasgow:Springer International Publishing,2020:41-55.
[8] MARDIEVA S,AHMAD S,UMIRZAKOVA S,et al.Lightweight image super-resolution for IoT devices using deep residual feature distillation network[J].Knowledge-Based Systems,2023:111343.
[9] 呂鑫棟,李嬌,鄧真楠,等.基于改進(jìn)Transformer的結(jié)構(gòu)化圖像超分辨網(wǎng)絡(luò)[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2023,57(5):865-874.
[10] LIU Jie,ZHANG Wenjie,TANG Yuting,et al.Residual feature aggregation network for image super-resolution[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2020:2359-2368.
[11] KIM J,LEE J K,LEE K M.Deeply-recursive convolutional network for image super-resolution[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:1637-1645.
[12] JIANG Zetao,HUANG Yongsong,HU Lirui.Single image super-resolution:Depthwise separable convolution super-resolution generative adversarial network[J].Applied Sciences,2020,10(1):375.
[13] HUI Zheng,GAO Xinbo,YANG Yunchu,et al.Lightweight image super-resolution with information multi-distillation network[C]//Proceedings of the 27th Acm International Conference on Multimedia,2019:2024-2032.
[14] HUI Zheng,WANG Xiumei,GAO Xinbo.Fast and accurate single image super-resolution via information distillation network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2018:723-731.
[15] YANG Xin,GUO Yingqing,LI Zhiqiang,et al.MRDN:A lightweight multi-stage residual distillation network for image super-resolution[J].Expert Systems with Applications,2022,204:117594.
[16] ZHANG Yunlun,LI Kunpeng,LI K,et al.Image super-resolution using very deep residual channel attention networks[C]//Proceedings of the European Conference on Computer Vision,2018:286-301.
[17] MEI Yiqun,F(xiàn)AN Yuchen,ZHOU Yuqian,et al.Image super-resolution with cross-scale non-local attention and exhaustive self-exemplars mining[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2020:5690-5699.
[18] CHEN B,WANG X,CHEN X,et al.EANet:Towards Lightweight Human Pose Estimation With Effective Aggregation Network[C]//2023 IEEE International Conference on Multimedia and Expo,2023:2639-2644.
[19] NAGARAJ P,MUTHAMILSUDAR K,NAGA N S,et al.Perceptual image super resolution using deep learning and super resolution convolution neural networks(SRCNN)[J].Intelligent Systems and Computer Technology,2020,37(3):10.
[20] KIM J,LEE J K,LEE K M.Accurate image super-resolution using very deep convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:1646-1654.
[21] LAI W S,HUANG J B,AHUJA N,et al.Deep laplacian pyramid networks for fast and accurate super-resolution[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:624-632.
[22] LEDIG C,THEIS L,HUSZR F,et al.Photo-realistic single image super-resolution using a generative adversarial network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:4681-4690.
[23] WANG Longguang,DONG Xiaoyu,WANG Yingqian,et al.Exploring sparsity in image super-resolution for efficient inference[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2021:4917-4926.
[24] ZHANG Xindong,ZENG Hui,ZHANG Lei.Edge-oriented convolution block for real-time super resolution on mobile devices[C]//Proceedings of the 29th ACM International Conference on Multimedia,2021:4034-4043.
[25] PARK K,SOH J W,CHO N I.A dynamic residual self-attention network for lightweight single image super-resolution[J].IEEE Transactions on Multimedia,2021,25:907-918.
[26] KONG Fangyuan,LI Mingxi,LIU Songwei,et al.Residual local feature network for efficient super-resolution[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2022:766-776.
[27] WANG Li,KE Li,TANG Jingjing,et al.Image super-resolution via lightweight attention-directed feature aggregation network[J].ACM Transactions on Multimedia Computing,Communications and Applications,2023,19(2):1-23.
[責(zé)任編輯:謝 平]
Lightweight feature distillation attention network for image super-resolution
CHANG Kairong, SUN Jun, HU Mingzhi
Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650504, China
Abstract: In response to the limitations of existing image super-resolution algorithms, which often struggle with weak image detail recovery and have high computational costs due to large parameter sizes, we propose a Lightweight Residual Feature Distillation Attention Network (LRFDAN). First, a novel residual feature distillation block is designed to effectively extract features. Second, blueprint separable convolutions are utilized to replace standard convolutions, thereby reducing computational and memory demands. Third, an attention mechanism is integrated into the model to further enhance reconstruction capabilities. The proposed model is validated on five benchmark datasets, and quantitative analyses along with visual comparisons demonstrate that, compared to other deep neural network models, our network significantly reduces parameters and computational cost while maintaining superior performance and subjective visual quality. These results underscore the effectiveness of the proposed model in terms of both image quality and computational efficiency.
Key words: deep learning; single image super resolution; lightweighting; deep feature distillation; attention mechanism