王 宇,寧 媛
(貴州大學(xué) 電氣工程學(xué)院,貴陽(yáng) 550025)
近年來(lái),為了提升圖像的質(zhì)量,人們從設(shè)備著手,通過(guò)對(duì)硬件進(jìn)行升級(jí)改造可以提升成像系統(tǒng)性能,提高圖像分辨率。然而,考慮到各方面的因素,諸如硬件的制作成本、制作工藝等一些限制,學(xué)者通過(guò)研究對(duì)原始圖像進(jìn)行圖像處理操作來(lái)獲得更高分辨率的圖像,因此產(chǎn)生了圖像超分辨率技術(shù)[1-2]。
基于深度學(xué)習(xí)的圖像SR 積累了大量的關(guān)注度,它已經(jīng)延伸到各種現(xiàn)實(shí)世界的應(yīng)用中。如醫(yī)學(xué)成像、視頻監(jiān)控、遙感、圖像分類、檢測(cè)、識(shí)別和去噪。然而,現(xiàn)有的用于圖像SR 的卷積神經(jīng)網(wǎng)絡(luò)一般有兩個(gè)局限性:一是網(wǎng)絡(luò)深度很深,不僅削弱了自下而上的信息流,而且模型容量大,計(jì)算負(fù)擔(dān)大;其二網(wǎng)絡(luò)架構(gòu)往往是前饋式的,使得前幾層無(wú)法捕捉到后幾層的有用信息,限制了特征學(xué)習(xí)能力。
因此,根據(jù)網(wǎng)絡(luò)模型中存在的大量冗余參數(shù),研究者提出了網(wǎng)絡(luò)模型壓縮方法,并將模型壓縮方法分為淺層壓縮和深層壓縮兩大類。具體分類如圖1所示。本文主要從輕量化網(wǎng)絡(luò)模型出發(fā),介紹提出的幾種輕量化網(wǎng)絡(luò)模型。
圖1 模型壓縮分類Fig.1 Model compression classification
神經(jīng)網(wǎng)絡(luò)輕量化的原則是獲得更高效的網(wǎng)絡(luò),優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)和卷積計(jì)算,減少網(wǎng)絡(luò)參數(shù)的同時(shí)不損失性能,加強(qiáng)對(duì)網(wǎng)絡(luò)內(nèi)部的理解。下面將主要介紹近年來(lái)的幾種輕量化壓縮網(wǎng)絡(luò)。
文獻(xiàn)[3]中提出了一種針對(duì)SISR 的快速輕量級(jí)組卷積網(wǎng)絡(luò)(LGCN)模型,該模型結(jié)構(gòu)如圖2 所示。其主要由三部分組成:特征提取網(wǎng)(F-Net)、級(jí)聯(lián)記憶群卷積網(wǎng)(C-Net)和重建網(wǎng)(R-Net)。創(chuàng)新之處主要集中在C-Net 上,即級(jí)聯(lián)多個(gè)記憶群卷積網(wǎng)(MGCN),結(jié)構(gòu)如圖3 所示。具體來(lái)說(shuō),MGCN 包含一個(gè)記憶單元和一個(gè)通道注意單元。記憶單元由多個(gè)交替的組卷積層和1×1 卷積層組成,采用密集連接的結(jié)構(gòu)建立記憶機(jī)制。與DenseNet[4]不同,利用1×1 卷積層作為中間層,逐步收集局部信息。因此,MGCN 中的1×1 卷積層不僅可以對(duì)組卷積層的輸出進(jìn)行線性組合,而且可以逐步收集局部信息。信道關(guān)注單元的靈感來(lái)自于擠壓和激勵(lì)網(wǎng)[5]的思想,本文將擠壓和激勵(lì)網(wǎng)[5]中的完全連接層替換為1×1 卷積層,以更好地模擬通道方面的關(guān)系。
圖2 LGCN 整體框架結(jié)構(gòu)Fig.2 LGCN overall framework structure
圖3 MGCN 內(nèi)部結(jié)構(gòu)Fig.3 Internal structure of MGCN
通過(guò)實(shí)驗(yàn)比較了LGCN 與幾種輕量級(jí)SISR 方法。其中包括Bicubic、SRCNN[6]、VDSR[7]、LapSRN[8]、MSLapSRN[9]、DRRN[10]和IDN[11]。實(shí)驗(yàn)在4 個(gè)基準(zhǔn)數(shù)據(jù)集上評(píng)估了超分辨率圖像的平均峰值信噪比(PSNR)和結(jié)構(gòu)相似度(SSIM)值,其結(jié)果見(jiàn)表1。在大多數(shù)縮放因子下,提出的LGCN 方法在大多數(shù)數(shù)據(jù)集上實(shí)現(xiàn)了最佳性能。模型在Set5 上與IDN 相比,在2×和4×尺度上的PSNR 表現(xiàn)稍差。需要注意的是,Set5 數(shù)據(jù)集是最小的數(shù)據(jù)集,只包含5 張圖片。以4×尺度為例,模型在Set14 數(shù)據(jù)集上比IDN 高0.05 dB,在具有挑戰(zhàn)性的Urban 100 數(shù)據(jù)集上比IDN 提高0.08 dB。此外,在所有數(shù)據(jù)集上,LGCN 在所有縮放因子下都能獲得最高的SSIM 值,并且能夠生成與原始高分辨率圖像具有高度結(jié)構(gòu)相似性的圖像。
此外,還選擇了兩種非輕量級(jí)SISR 方法,即SRResNet[12]和EDSR[13]進(jìn)行比較,結(jié)果見(jiàn)表2。由表2 可見(jiàn),兩種方法都優(yōu)于LGCN。這是一個(gè)合理的結(jié)果,因?yàn)槠溆懈?、更廣的網(wǎng)絡(luò)結(jié)構(gòu),包含大量的卷積層和參數(shù)。實(shí)際上,SRResNet 和EDSR 的參數(shù)分別為1 543K 和43 000 K,而LGCN 的參數(shù)只有660 K。
表1 對(duì)比最新的SISR 算法的量化結(jié)果Tab.1 Comparison of quantification results of the latest SISR algorithm
表2 對(duì)比非輕量化網(wǎng)絡(luò)結(jié)果Tab.2 Comparison of non-lightweighted network results
實(shí)驗(yàn)同時(shí)在Set14 數(shù)據(jù)集上進(jìn)行了四倍縮放因子的視覺(jué)比較,如圖4 所示。在圖4 中可以觀察到,大部分的比較方法都會(huì)因高頻信息的丟失而導(dǎo)致紅框中的花朵出現(xiàn)模糊偽影。相比之下,LGCN 方法可以清晰地恢復(fù)花上的紅點(diǎn)。
在每個(gè)區(qū)塊訓(xùn)練了不同分組大小,即G=1、2和4 時(shí)所提出的LGCN,并在表4 中顯示了它們的參數(shù)和PSNR。G=1 是無(wú)組的標(biāo)準(zhǔn)卷積。當(dāng)分組大小為2 時(shí),性能下降0.11 dB,對(duì)于222 K 參數(shù)減少。當(dāng)分組大小改為4 時(shí),性能比G=2 時(shí)降低0.16 dB,參數(shù)減少110 k??梢钥闯觯S著組數(shù)的增加,性能越來(lái)越差,而參數(shù)數(shù)卻迅速減少。因此在最終的LGCN 模型中選擇G=2。從圖5 中可以看出,LGCN在G=2 時(shí),實(shí)現(xiàn)了一個(gè)相對(duì)輕量級(jí)的模型,同時(shí)表現(xiàn)出了優(yōu)異的重建質(zhì)量。
圖4 set14 數(shù)據(jù)集的四倍因子的視覺(jué)比較Fig.4 Visual comparison of the four-fold factor for the set14 dataset
圖5 模型參數(shù)對(duì)比Fig.5 Comparison of model parameters
2019 年,xu[14]提出了一種基于反饋的輕量級(jí)復(fù)用神經(jīng)網(wǎng)絡(luò)(FRNN)。FRNN 是由一系列遞歸的密集連接塊(DCBs)與低分辨率(LR)圖像特征和輸出前的DCB 作為輸入。每個(gè)DCB 自適應(yīng)地融合來(lái)自側(cè)面輸出中間特征圖的多層次特征,生成強(qiáng)大的特征表示。同時(shí),DCB級(jí)聯(lián)了一組多尺度殘差塊(MRB),每一個(gè)MRB 都有一個(gè)放大的視場(chǎng),以充分捕捉多尺度的上下文信息。
圖6 介紹了MFRSR 的網(wǎng)絡(luò)框架,包括一個(gè)上采樣分支和一個(gè)殘差學(xué)習(xí)分支。
圖6 MFRSR 的結(jié)構(gòu)圖Fig.6 Structure of the MFRSR
上采樣分支利用一個(gè)簡(jiǎn)單的雙線性上采樣核來(lái)調(diào)整LR 輸入的大小,使其與HR 輸出的大小相同。殘差學(xué)習(xí)分支由LR 特征提取塊(LRFEB)組成。
如圖8 所示,密集連接塊包含N個(gè)多尺度殘差快,展示了MRB 的內(nèi)部結(jié)構(gòu),利用不同的內(nèi)核來(lái)捕捉具有跳轉(zhuǎn)連接的多尺度上下文信息。
圖7 DCB 結(jié)構(gòu)Fig.7 DCB structure
圖8 MRB 結(jié)構(gòu)Fig.8 MRB structure
針對(duì)幾種算法(SRCNN、VDSR、MSRN[15]、DDBRN[16]、SRFBN[17])進(jìn)行了仿真實(shí)驗(yàn)。由圖9 可以看出,其它幾種算法都會(huì)產(chǎn)生更多錯(cuò)誤的文本方向或令人不快的偽影。相比之下,MFRSR 能夠生成精確和真實(shí)的SR 圖像,準(zhǔn)確地重建細(xì)節(jié)。
文獻(xiàn)[14]的創(chuàng)新之處在于:
(1)提出了一種基于反饋的輕量級(jí)RNN,用于高精度的SISR。該網(wǎng)絡(luò)充分利用了LR 圖像中豐富的多尺度上下文信息,生成了強(qiáng)大的特征呈現(xiàn),這對(duì)于精確的SISR 來(lái)說(shuō)至關(guān)重要。
(2)設(shè)計(jì)了一種新型的多核融合機(jī)制,能夠在多尺度輸入的情況下動(dòng)態(tài)調(diào)整輸出特征表征的感受野大小。因此,網(wǎng)絡(luò)不需要通過(guò)加深層數(shù)來(lái)擴(kuò)大輸出表征的接受場(chǎng)大小,從而實(shí)現(xiàn)模型容量的輕量化。
(3)提出的MFRSR 是輕量級(jí)的,只有4.5M 的參數(shù),如圖10 所示。但卻在5 個(gè)基準(zhǔn)數(shù)據(jù)集上的PSNR 和SSIM 方面達(dá)到了最先進(jìn)的性能。
圖9 不同算法實(shí)驗(yàn)效果對(duì)比Fig.9 Comparison of the experimental effects of different algorithms
圖10 不同算法PSNR 對(duì)比Fig.10 Comparison of different algorithms PSNR
Liu[18]提出了一種針對(duì)SISR 的輕量級(jí)網(wǎng)絡(luò),即基于注意力的多尺度殘差網(wǎng)絡(luò)(AMSRN)。整個(gè)網(wǎng)絡(luò)的主框架由一個(gè)殘差空間金字塔池化(ASPP)塊以及一個(gè)空間和信道感知的注意力殘差(SCAR)塊交替堆疊構(gòu)成。殘差A(yù)SPP 塊利用不同擴(kuò)張率的平行擴(kuò)張卷積,來(lái)達(dá)到捕捉多尺度特征的目的。SCAR塊在雙層卷積殘差塊的基礎(chǔ)上增加了通道注意力(CA)和空間注意力(SA)機(jī)制。此外,在SCAR 塊中還引入了分組卷積,在防止過(guò)擬合的同時(shí)進(jìn)一步降低參數(shù)。同時(shí)還設(shè)計(jì)了一個(gè)多尺度特征注意模塊,為淺層特征提供指導(dǎo)性的多尺度注意信息。特別是提出了一種新穎的升標(biāo)模塊,采用雙路徑聯(lián)合使用亞像素卷積層和最近插值層,對(duì)特征進(jìn)行升標(biāo),而不是單獨(dú)使用解卷積層或亞像素卷積層。
為了使網(wǎng)絡(luò)集中在重要的特征上以增強(qiáng)其表示能力,根據(jù)通道和空間位置的相互依賴性,設(shè)計(jì)了一個(gè)空間和通道感知的注意力殘差塊,將SA 單元和CA 單元結(jié)合成殘差塊。圖11 描述了所提出的空間和通道感知注意力模塊。
AMSRN 的框架如圖12 所示,其中包括5 個(gè)部分:初始特征提取階段、多尺度特征提取階段、深層特征提取階段、上尺度特征提取階段以及重建階段。
圖12 AMSRN 的整體結(jié)構(gòu)Fig.12 Overall structure of the AMSRN
定量的角度對(duì)提出的AMSRN 模型與一些最先進(jìn)的方法進(jìn)行評(píng)估,包括SRCNN、VDSR、DRCN[19]、LapSRN、MemNet[19]、EDSR、CARN[20]、MSRN、DCSR[21]、AWSRN[22]和DADN[23]。
圖13 描述了Set14 圖像的平均PSNR 與運(yùn)行時(shí)間的權(quán)衡。值得注意的是,所提出的方法在保證重建性能的前提下,速度相對(duì)較快。
圖13 不同方法的精度和速度的比較Fig.13 Comparison of accuracy and speed of different methods
通過(guò)實(shí)驗(yàn),Liu[18]提出的模型達(dá)到了與最先進(jìn)的方法相媲美的效果,網(wǎng)絡(luò)非常輕巧。然而,在升級(jí)因子較大的情況下存在不足。
Zhao 等[24]提出了一種輕量化橫向抑制網(wǎng)路來(lái)進(jìn)行精準(zhǔn)磁共振(MR)圖像超分辨率(SR)。所提出的網(wǎng)絡(luò)是受橫向抑制機(jī)制的啟發(fā),其假設(shè)相鄰神經(jīng)元之間存在抑制效應(yīng)。網(wǎng)絡(luò)的主干由若干個(gè)側(cè)向抑制塊組成。其中,抑制效果是由一個(gè)級(jí)聯(lián)的局部抑制單元明確實(shí)現(xiàn)的。當(dāng)模型規(guī)模較小時(shí),明確抑制特征激活,能進(jìn)一步探索模型的表達(dá)能力。為了更有效地提取特征,還使用了多個(gè)并行的擴(kuò)張卷積,直接從輸入圖像中提取淺層特征。
為了提取不同接受場(chǎng)的淺層特征大小,在特征提取子網(wǎng)中使用一組3×3 稀釋率不同的conv 層,如圖14所示,只應(yīng)用一個(gè)3×3 的conv 層來(lái)重建最終輸出。
通過(guò)適度的模型參數(shù)和計(jì)算開(kāi)銷,實(shí)現(xiàn)了高精度和快速的SR 重建。在橫向抑制機(jī)制的激勵(lì)下,設(shè)計(jì)了一個(gè)局部抑制單元(LIU),明確地對(duì)特征圖進(jìn)行抑制調(diào)節(jié),減輕了模型的表示負(fù)擔(dān)。通過(guò)整合不同接受場(chǎng)大小的淺層特征,提升了模型性能。通過(guò)這種策略增加提取特征的多樣性。將側(cè)向抑制機(jī)制與淺層特征提取相結(jié)合策略提高了深度模型的性能。
通過(guò)對(duì)幾種典型圖像超分辨率算法(NLM[25]、SRCNN、VDSR、IDN、RecNet[26]、FSCWRN[27])進(jìn)行實(shí)驗(yàn)對(duì)比分析,這些方法的定量結(jié)果直接利用峰值信噪比(PSNR)和結(jié)構(gòu)性分析,并且只比較與LIN模型參數(shù)數(shù)量大致相似的模型。此外,還采用了幾何自編的技巧來(lái)進(jìn)一步提高模型的性能,在這種情況下,其被表示為L(zhǎng)IN+,見(jiàn)表3。
圖14 橫向抑制網(wǎng)絡(luò)的整體結(jié)構(gòu)Fig.14 Overall structure of the transverse suppression network
表3 幾種典型SR 模型之間的定量比較Tab.3 Quantitative comparison between several typical SR models
根據(jù)表4,執(zhí)行最慢的是NLM,因?yàn)槠涫腔诘鷥?yōu)化處理的。此外,基于深度CNN 方法的運(yùn)行時(shí)間也很相似,都是每卷小于5 s。本文模型的效率與其它快速模型相當(dāng)。例如,IDN 和RecNet,由于這些模型規(guī)模相似,提出的LIN 和LIN+的性能明顯優(yōu)于這些模型,見(jiàn)表3。該模型不僅在SR 性能上有很高的準(zhǔn)確性,而且在應(yīng)用中也有實(shí)際作用。
表4 比較模型處理的運(yùn)行時(shí)間Tab.4 Comparison of model processing runtimes
在不同的MR 圖像上進(jìn)行的廣泛實(shí)驗(yàn)表明(如圖15),所提出的模型優(yōu)于其他輕量級(jí)SR 模型。由于模型規(guī)模和性能之間更好的權(quán)衡,LIN 模型更適合現(xiàn)實(shí)世界的應(yīng)用和部署。
圖15 多種模型實(shí)驗(yàn)仿真Fig.15 Experimental Simulation of Various Models
本文介紹了幾種輕量化網(wǎng)絡(luò)模型,這一些網(wǎng)絡(luò)模型在很大程度上都比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)在網(wǎng)絡(luò)參數(shù)、視覺(jué)效果上都有很明顯的優(yōu)勢(shì)。特別是在移動(dòng)設(shè)備上的應(yīng)用,小型化的神經(jīng)網(wǎng)絡(luò)的研究將會(huì)使得移動(dòng)設(shè)備圖像超分辨率擁有更廣泛的發(fā)展前景。特別是解決傳統(tǒng)神經(jīng)網(wǎng)絡(luò)運(yùn)算需求過(guò)大而無(wú)法在移動(dòng)設(shè)備上高效運(yùn)行的問(wèn)題,但是其具有任務(wù)單一、泛化性差的缺點(diǎn),因此,未來(lái)需要對(duì)網(wǎng)絡(luò)搜索算法進(jìn)行研究,在不同的應(yīng)用場(chǎng)景下,可以根據(jù)網(wǎng)絡(luò)搜索對(duì)該場(chǎng)景下最優(yōu)的輕量化網(wǎng)絡(luò)進(jìn)行搜索并應(yīng)用,使得不同的輕量化網(wǎng)絡(luò)都能發(fā)揮出其最優(yōu)的性能?;谳p量化網(wǎng)絡(luò)搜索的超分辨率將是未來(lái)的一個(gè)研究方向。