郭 聰,楊 敏
(南京郵電大學(xué) 自動(dòng)化學(xué)院、人工智能學(xué)院,江蘇 南京 210023)
隨著相機(jī)以及手機(jī)的普及,圖像成為人們獲取信息的重要媒介,人們對(duì)圖像質(zhì)量的要求也越來(lái)越高。但圖像在采集過(guò)程中,經(jīng)常受到外界信號(hào)擾動(dòng)等因素的干擾,導(dǎo)致圖像出現(xiàn)噪點(diǎn)以及邊緣模糊等問(wèn)題。因此,圖像去噪技術(shù)作為一種圖像處理技術(shù),在保持圖像空間結(jié)構(gòu)信息的前提下,將圖像中的噪聲移除,以此獲得高質(zhì)量的圖像,為后續(xù)圖像處理打下堅(jiān)實(shí)基礎(chǔ)。噪聲主要可以分為高斯白噪聲、椒鹽噪聲和真實(shí)噪聲等。當(dāng)前圖像去噪算法可以分為兩大類,分別是傳統(tǒng)去噪算法和基于深度學(xué)習(xí)的去噪算法。
傳統(tǒng)方法主要利用圖像自身的結(jié)構(gòu)特性進(jìn)行去噪,如圖像的稀疏性、低秩性等。使用濾波器如雙邊濾波[1],利用圖像稀疏性如非局部集中稀疏表示法(NCSR)[2],基于塊匹配和三維變換域?yàn)V波(BM3D)[3]等。但此類方法依賴于圖像先驗(yàn)信息,需要人工調(diào)參,普適性不強(qiáng)。
基于深度學(xué)習(xí)的去噪算法,隨著硬件發(fā)展,計(jì)算機(jī)算力得到解放。深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域得到了廣泛的運(yùn)用[4-12]。深度學(xué)習(xí)去噪算法,通過(guò)學(xué)習(xí)退化圖像(噪聲圖像)與原始圖像之間的隱含映射來(lái)實(shí)現(xiàn)去噪,具有優(yōu)良的性能。Zhang等[13]使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行去噪,提出了DnCNN(denoising convolutional neural networks)。隨后Zhang等[14]將神經(jīng)網(wǎng)絡(luò)提取的先驗(yàn)與去噪模型相結(jié)合,提出了IRCNN(CNN denoiser prior for image restoration)。Zhang等[15]將噪聲等級(jí)圖引入深度網(wǎng)絡(luò),提出一種可以處理多種噪聲的單一網(wǎng)絡(luò)FFDNet(fast and flexible denoising convolutional neural network)。為了進(jìn)一步優(yōu)化神經(jīng)網(wǎng)絡(luò)的去噪性能,Tian等[16]將空洞卷積與普通卷積相結(jié)合,提出了增強(qiáng)卷積網(wǎng)絡(luò)ECNDNet(enhanced convolutional neural denoising network),進(jìn)一步提高了網(wǎng)絡(luò)的感受野。
雖然上述基于深度學(xué)習(xí)的去噪算法,已經(jīng)取得良好的效果,但依舊存在問(wèn)題,去噪網(wǎng)絡(luò)會(huì)忽略圖像邊緣信息以及紋理特征。去噪網(wǎng)絡(luò)沒(méi)有關(guān)注到輸入圖像的邊緣信息,所以在恢復(fù)圖像的邊緣會(huì)模糊,同時(shí)局部紋理被平滑,導(dǎo)致在邊緣區(qū)域復(fù)原效果較差。因此,如何從有限的特征中提取圖像的邊緣以及紋理特征是后續(xù)去噪網(wǎng)絡(luò)的難點(diǎn)。
針對(duì)上述問(wèn)題,該文引入了注意力機(jī)制。因?yàn)樽⒁饬C(jī)制可以關(guān)注圖像特征中感興趣的區(qū)域,所以進(jìn)行了大量研究。Hu等[17]提出的通道注意力模塊(squeeze-and-excitation,SE)用來(lái)學(xué)習(xí)通道之間的相關(guān)性。Woo等[18]通過(guò)將空間注意力與通道注意力相結(jié)合,提出了CBAM(convolutional block attention module),更好地從通道和空間位置上學(xué)習(xí)特征圖之間的相關(guān)性。這兩種注意力機(jī)制通過(guò)池化操作和卷積來(lái)產(chǎn)生權(quán)重。而Yang[19]通過(guò)統(tǒng)計(jì)學(xué)規(guī)律提出SimAm(simple attention module),在無(wú)需參數(shù)的情況下學(xué)習(xí)特征圖每個(gè)位置上通道以及空間上的相關(guān)性。
在此基礎(chǔ)上,該文提出了一種基于無(wú)參注意力機(jī)制和特征融合的圖像去噪深度網(wǎng)絡(luò)(denoising network with nonparametric attention and feature fusion,NAFDNet)。主要工作如下:
(1)針對(duì)復(fù)原圖像邊緣信息模糊,圖像紋理不清晰,以殘差去噪網(wǎng)絡(luò)為基礎(chǔ),提出一種基于無(wú)參注意力機(jī)制和特征融合的圖像去噪深度網(wǎng)絡(luò)(NAFDNet)。
(2)設(shè)計(jì)了一個(gè)注意力特征提取模塊,該模塊將普通卷積與空洞卷積相結(jié)合,加強(qiáng)了網(wǎng)絡(luò)的特征提取能力,利用無(wú)參注意力機(jī)制SimAm,從空間和通道兩個(gè)方面,關(guān)注特征圖中重要通道中的關(guān)鍵區(qū)域,使網(wǎng)絡(luò)可以恢復(fù)清晰的邊緣以及紋理細(xì)節(jié)。
(3)設(shè)計(jì)一個(gè)特征融合增強(qiáng)模塊,該模塊利用兩個(gè)1×1卷積自動(dòng)學(xué)習(xí)全局特征圖與局部特征圖的權(quán)重,進(jìn)而使網(wǎng)絡(luò)關(guān)注重要特征圖,能夠有效地融合全局特征和局部特征,獲得健壯的融合特征。
該文設(shè)計(jì)了一種基于無(wú)參注意力和特征融合的圖像去噪網(wǎng)絡(luò)(denoising network with nonparametric attention and feature fusion network,NAFDNet)。去噪網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 NAFDNet網(wǎng)絡(luò)框架
整個(gè)網(wǎng)絡(luò)主要由注意力特征提取模塊(attention feature extracted block,AFE)、特征融合增強(qiáng)模塊(feature fusion enhanced block,F(xiàn)EB)和3×3普通卷積層組成。在特征提取部分主要由4個(gè)注意力特征提取模塊來(lái)提取噪聲圖像的局部特征,內(nèi)部引入SimAm無(wú)參注意力機(jī)制,從而使網(wǎng)絡(luò)關(guān)注圖像的高頻細(xì)節(jié);在特征融合增強(qiáng)模塊,利用兩個(gè)1×1卷積自動(dòng)學(xué)習(xí)全局特征與局部特征的權(quán)重,權(quán)重與對(duì)應(yīng)特征圖相乘后相加,有效融合局部特征與全局特征。最后通過(guò)卷積層,預(yù)測(cè)圖像噪聲,利用殘差結(jié)構(gòu),得到干凈圖像。
1.2.1 SimAm模塊
SimAm根據(jù)人類視覺(jué)神經(jīng)元同時(shí)注重空間注意力以及通道注意力提出了一種3d注意力模塊。與現(xiàn)有的通道和空間注意模塊相比,為特征層中的特征映射推斷三維注意權(quán)值(即考慮空間和通道維度),而不在原始網(wǎng)絡(luò)中添加參數(shù)。具體地說(shuō),基于一些神經(jīng)科學(xué)理論優(yōu)化一個(gè)能量函數(shù),以找到每個(gè)神經(jīng)元的重要性。通過(guò)設(shè)計(jì)在同一通道內(nèi)目標(biāo)神經(jīng)元與其他神經(jīng)元之間的線性可分性,來(lái)判斷該神經(jīng)元是否應(yīng)該被關(guān)注。通過(guò)推導(dǎo)能量函數(shù)的封閉形式的解,得到神經(jīng)元的最小能量為:
(1)
因?yàn)樽⒁饬κ峭ㄟ^(guò)加權(quán)實(shí)現(xiàn),SimAm的公式如式(2)所示,其中E包括通道上和空間上所有神經(jīng)元的能量的張量。
(2)
具體實(shí)現(xiàn):已知輸入特征圖,其中C、H、W代表特征圖的通道數(shù)量、高度以及寬度。其中N代表H×W內(nèi)像素?cái)?shù)量減1。首先,沿著空間方向進(jìn)行擠壓,求得每個(gè)H×W上的均值x。其次,求得X上的每個(gè)位置對(duì)同通道內(nèi)空間位置求均值誤差的平方X'。再次求得每一個(gè)通道內(nèi)X'/n的和t作為通道信息。最后,計(jì)算每個(gè)像素的能量大小。這種是利用統(tǒng)計(jì)學(xué)規(guī)律,計(jì)算自身能量,在不改變參數(shù)總量的情況下,從特征圖的空間位置以及通道兩個(gè)方面計(jì)算,可以自適應(yīng)地調(diào)整特征圖每個(gè)位置的權(quán)重,進(jìn)而關(guān)注有效特征,抑制無(wú)效特征。
1.2.2 注意力特征提取模塊架構(gòu)
為了提取噪聲圖像的局部特征,該文堆疊了4個(gè)注意力特征提取模塊(attention feature extracted block,AFE),每一個(gè)特征提取模塊使用了殘差結(jié)構(gòu)。因?yàn)闅埐罱Y(jié)構(gòu)可以加快網(wǎng)絡(luò)的收斂速度。特征提取模塊將空洞卷積與普通卷積相結(jié)合來(lái)構(gòu)建稀疏結(jié)構(gòu),不僅可以擴(kuò)大網(wǎng)絡(luò)的感受野,還能有效提高去噪網(wǎng)絡(luò)的性能。它由5個(gè)卷積層組成,分別是2個(gè)普通卷積以及混合空洞卷積組。其中普通卷積是3×3卷積層,混合空洞卷積組是由3個(gè)擴(kuò)張率分別為1、2、5的3×3卷積層構(gòu)成,可以避免由單一擴(kuò)張率帶來(lái)的網(wǎng)格效應(yīng)。
為了關(guān)注特征圖的邊緣以及細(xì)節(jié)信息,在混合卷積和普通卷積構(gòu)成的提取塊中,引入了無(wú)參注意力機(jī)制SimAm。注意力特征提取模塊的架構(gòu)如圖2所示。
圖2 AFE結(jié)構(gòu)
為了更好地提取圖像的細(xì)節(jié)信息,即圖像的邊緣以及紋理特征。在特征提取模塊中嵌入無(wú)參注意力機(jī)制SimAm模塊。對(duì)提取的特征從空間和通道位置上學(xué)習(xí)每個(gè)位置的相關(guān)性,進(jìn)而自適應(yīng)改變每個(gè)位置的權(quán)重,后與提取特征相乘,來(lái)關(guān)注重要特征,抑制無(wú)效特征。單個(gè)注意力特征提取塊的表達(dá)式如下所示:
(3)
其中,F(xiàn)in表示輸入特征圖,F(xiàn)out表示輸出特征圖,F(xiàn)3表示卷積核大小為3的普通卷積,F(xiàn)d表示卷積核為3的混合空洞卷積組空洞率分別為1、2、5,f1是通過(guò)所有卷積得到的特征,F(xiàn)s表示該文所使用的SimAm注意力模塊。
在設(shè)計(jì)的網(wǎng)絡(luò)中,將4個(gè)AFE模塊相連接,把上一個(gè)模塊的輸出作為下一個(gè)模塊的輸入,將得到的特征圖向下一個(gè)模塊傳遞。噪聲圖像往往具有一些復(fù)雜的紋理和邊緣,該文設(shè)計(jì)的模塊,可以使網(wǎng)絡(luò)關(guān)注圖像的紋理以及邊緣,同時(shí)減少參數(shù)的引入,提高特征傳播效率以及減少網(wǎng)絡(luò)占用的資源。
特征融合增強(qiáng)模塊(feature fusion enhanced block,F(xiàn)EB)主要由兩部分組成,即殘差模塊(residual block,RB)和特征融合塊(feature fusion block,F(xiàn)FB)。殘差模塊可以進(jìn)一步提取局部特征。特征融合塊采用兩個(gè)1×1卷積學(xué)習(xí)特征圖之間的權(quán)重,權(quán)重與對(duì)應(yīng)特征圖結(jié)合來(lái)關(guān)注重要特征圖,有效地融合圖像局部特征和全局特征,進(jìn)而抑制噪聲信息。
文獻(xiàn)[20]采用簡(jiǎn)化殘差模塊來(lái)提取特征,沒(méi)有使用批量歸一化層,可以提高計(jì)算速度,減少顯存。同時(shí),批量歸一化會(huì)導(dǎo)致有些特殊特征的過(guò)度平滑,使得模型性能大幅下降,所以將殘差塊中的批量歸一化都移除。同時(shí),為了獲得較大的感受野,對(duì)殘差塊做了改進(jìn),加入了空洞卷積,這樣可以更好地提取特征。此時(shí)殘差塊由3個(gè)卷積和2個(gè)ReLU函數(shù)組成,前2個(gè)卷積為普通卷積,而最后一個(gè)為擴(kuò)張率為2的空洞卷積。改進(jìn)殘差塊如圖3實(shí)線方框所示。
FFB模塊將第一層卷積層提取的特征圖作為全局特征和殘差模塊得到的特征圖作為局部特征進(jìn)行特征融合:通過(guò)concat操作在通道上進(jìn)行拼接,拼接后通道數(shù)為128,利用1×1卷積自動(dòng)學(xué)習(xí)兩個(gè)特征圖的權(quán)重,得到兩個(gè)64通道的權(quán)重圖,分別對(duì)應(yīng)于全局特征圖和局部特征圖,最后通過(guò)兩個(gè)權(quán)重和特征圖對(duì)應(yīng)相乘后相加,得到融合的特征圖。
整個(gè)特征融合增強(qiáng)模塊的公式如下所示:
(4)
其中,F(xiàn)d2代表卷積核為3、擴(kuò)張率為2,F(xiàn)d代表3×3卷積核,fglobal代表全局特征圖,R代表ReLU函數(shù)。
FEB結(jié)構(gòu)如圖3所示。
圖3 FEB結(jié)構(gòu)
損失函數(shù)采用均方差函數(shù)對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練,其數(shù)學(xué)表達(dá)式為:
(5)
其中,θ是NAFDNet網(wǎng)絡(luò)參數(shù);R(yi;θ)是經(jīng)過(guò)網(wǎng)絡(luò)訓(xùn)練得到的殘差圖像(噪聲圖);yi是噪聲圖像,xi是干凈圖形,N為訓(xùn)練樣本。
實(shí)驗(yàn)平臺(tái)為Ubantu16.04系統(tǒng),采用NVIDA GeForce 1080TI GPU進(jìn)行模型的訓(xùn)練和測(cè)試,使用PyTorch平臺(tái)搭建網(wǎng)絡(luò)框架。從Waterloo exploration[21]中挑選500張圖像和BSD400[22]的400張圖像作為NAFDNet的訓(xùn)練數(shù)據(jù)集。訓(xùn)練過(guò)程中,通過(guò)對(duì)訓(xùn)練集圖像隨機(jī)旋轉(zhuǎn)90°、180°、270°和水平翻轉(zhuǎn)來(lái)獲取更多的增強(qiáng)圖像,裁剪為50×50的patch大小,增大訓(xùn)練樣本數(shù)量,提升網(wǎng)絡(luò)的魯棒性。訓(xùn)練采用Adam優(yōu)化器,初始學(xué)習(xí)率為1e-3,β1、β2分別為0.9和0.99。訓(xùn)練80個(gè)epoch,0~30的epoch的學(xué)習(xí)率為1e-3,31~60的epoch的學(xué)習(xí)率為1e-4,61~80的epoch學(xué)習(xí)率為1e-5。每次的batch size設(shè)置為16。灰度測(cè)試集采用Set12[23]。
實(shí)驗(yàn)采用峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)作為網(wǎng)絡(luò)的去噪性能的客觀評(píng)價(jià)指標(biāo)。
2.2.1 峰值信噪比(PSNR)
PSNR的計(jì)算公式如下:
(6)
PSNR的單位為dB,PSNR越大,表明MSE越小,代表兩個(gè)圖像相似度越高。
2.2.2 結(jié)構(gòu)相似度(SSIM)
SSIM也是表示圖像x以及圖像y的結(jié)構(gòu)相似性,公式如下:
當(dāng)x與x一樣時(shí),SSIM的值為1,所以SSIM的值越大,代表干凈圖像與去噪圖像相似度越大。
為了驗(yàn)證網(wǎng)絡(luò)中各個(gè)模塊的有效性,設(shè)計(jì)了消融實(shí)驗(yàn),測(cè)試集選用Set12:(1)以未加入SimAm注意力模塊以及特征融合增強(qiáng)模塊(FEB)的網(wǎng)絡(luò)作為基線網(wǎng)絡(luò)(baseline,BL);(2)對(duì)提取的特征加入SimAm模塊,進(jìn)一步關(guān)注圖像的紋理細(xì)節(jié)(baseline with SimAm,BL+SimAm);(3)加入特征融合增強(qiáng)模塊中的殘差塊,進(jìn)一步提取局部特征(baseline with SimAm and residual block,BL+SimAm+RB);(4)特征融合增強(qiáng)模塊中保持殘差塊不變,驗(yàn)證特征融合塊的有效性:將第一層卷積層提取的特征作為全局特征與利用殘差塊提取的局部特征融合,融合方式如圖4所示。
圖4 特征融合方式
(1)直接將全局特征與局部相加(baseline with SimAm and direct feature fusion,BL+SimAm+direct),如圖4中左側(cè)所示。(2)該文所使用的特征融合模塊,利用兩個(gè)1×1卷積來(lái)自動(dòng)學(xué)習(xí)全局特征和局部特征的權(quán)重,以關(guān)注重要特征圖,進(jìn)而有效融合全局特征和局部特征(baseline with SimAm and feature fusion enhanced block,BL+SimAm+FEB)。
由表1數(shù)據(jù)可知,在特征提取塊中引入SimAm注意力機(jī)制,對(duì)基線網(wǎng)絡(luò)的PSNR值上有0.05 dB的提升,說(shuō)明SimAm機(jī)制可以有效提高網(wǎng)絡(luò)的去噪性能。就全局特征與局部特征相融合,文中方法與直接將兩者相加融合的方式的PSNR值高0.02 dB,同時(shí)具有更好的結(jié)構(gòu)相似性,證實(shí)了提出的特征融合模塊的優(yōu)越性。由最后一列可見(jiàn),該文提出的模型比基線網(wǎng)絡(luò)的PSNR值上高出0.09 dB,同時(shí)具有較好的結(jié)構(gòu)相似性,說(shuō)明引入SimAm注意力機(jī)制,同時(shí)改進(jìn)全局特征和局部特征的融合方式,可以改善去噪網(wǎng)絡(luò)的性能。
表1 消融實(shí)驗(yàn)結(jié)果對(duì)比
在灰度圖上,為了驗(yàn)證文中網(wǎng)絡(luò)的去噪性能,與DnCNN[13]、IRCNN[14]、FFDNet[15]和ECNDNet[16]四種去噪神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)對(duì)比。實(shí)驗(yàn)測(cè)試圖像采用Set12數(shù)據(jù)集,測(cè)試了高斯噪聲圖像去噪。噪聲圖像由人工合成,原圖作為干凈圖像用于性能對(duì)比。表中包括上述四種去噪網(wǎng)絡(luò)和文中方法在不同的高斯噪聲強(qiáng)度下的PSNR值及SSIM值。其中加粗的代表最好的結(jié)果,橫線代表第二好的結(jié)果。
由表2以及表3可見(jiàn),提出的NAFDNet在不同的高斯噪聲強(qiáng)度下平均值都取得了最高的PSNR值以及SSIM值,證明NAFDNet具有較好的去噪性能。在表3中,NAFDNet在高斯噪聲強(qiáng)度為15與25的情況下,大部分測(cè)試圖的PSNR值均優(yōu)于其他方法,少部分的測(cè)試圖的結(jié)果與最好的結(jié)果相差在0.05 dB以內(nèi)。表3中,NAFDNet在所有高斯強(qiáng)度下的SSIM值都位于第一,第二,說(shuō)明經(jīng)過(guò)NAFDNet更好地恢復(fù)了圖像結(jié)構(gòu)。綜上所述,NAFDNet在這兩項(xiàng)客觀指標(biāo)上取得了比較好的結(jié)果,說(shuō)明網(wǎng)絡(luò)具有較好的去噪性能。
表2 在Set12上不同方法去噪效果PSNR對(duì)比
除了PSNR和SSIM兩項(xiàng)指標(biāo),該文選取“Lena”來(lái)對(duì)比主觀視覺(jué)效果。“Lena”的去噪效果如圖5所示。
“Lena”圖像中,“Lena”的帽子含有大量的條紋,這些條紋數(shù)量較多,且分布密集,在去噪的過(guò)程中可能會(huì)被過(guò)度平滑。從圖5的局部區(qū)域放大區(qū)域中,DnCNN算法的帽子上的細(xì)紋在去噪過(guò)程中,很多紋理被去噪網(wǎng)絡(luò)平滑了,帽子上幾乎沒(méi)有細(xì)小條紋。FFDNet算法采用噪聲水平圖作為先驗(yàn),可以很好地匹配噪聲圖像的噪聲,恢復(fù)較好的噪聲圖像紋理細(xì)節(jié),但仍然存在偽影。ECNDNet的恢復(fù)圖像是因?yàn)槭褂脝我粩U(kuò)張率的空洞卷積導(dǎo)致紋理小部分缺失。而NAFDNet算法結(jié)果圖中的紋理效果相對(duì)更加完好,紋理細(xì)節(jié)更接近原圖。綜上所述,經(jīng)過(guò)圖5的主觀視覺(jué)對(duì)比,進(jìn)一步表明NAFDNet算法在保持圖像的紋理和邊緣結(jié)構(gòu)上具有很大的優(yōu)勢(shì)。
表3 在Set12上不同方法去噪效果SSIM對(duì)比
圖5 不同去噪算法對(duì)“Lena”的復(fù)原結(jié)果(σ=25)
隨著計(jì)算機(jī)算力的提升,深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了很多成果。針對(duì)之前基于深度學(xué)習(xí)的圖像去噪算法存在的去噪圖像邊緣以及紋理不清晰等問(wèn)題,提出一種基于無(wú)參注意力機(jī)制和特征融合的圖像去噪網(wǎng)絡(luò)。該方法將注意力機(jī)制引入特征提取模塊,從空間和通道上關(guān)注重要特征,有效提取關(guān)鍵信息;同時(shí)提出一種新的特征融合方式,更好地融合局部特征與全局特征。實(shí)驗(yàn)結(jié)果表明,該去噪算法在灰度圖以及彩色圖上具有較好的客觀指標(biāo);同時(shí),在主觀視覺(jué)效果上,去噪效果圖具有更加清晰的邊緣以及更豐富的紋理細(xì)節(jié)。未來(lái)將繼續(xù)研究去噪網(wǎng)絡(luò)在高光譜圖像上應(yīng)用,從而進(jìn)一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)。