劉玉紅,陳滿銀,劉曉燕
(蘭州交通大學(xué)電子與信息工程學(xué)院,蘭州 730070)
奈奎斯特采樣定理要求采樣頻率必須達(dá)到信號(hào)帶寬的2 倍以上才能從采樣信號(hào)中恢復(fù)出原始信號(hào)。隨著物聯(lián)網(wǎng)和大數(shù)據(jù)時(shí)代的到來(lái),從采樣信號(hào)中恢復(fù)原始信號(hào),需不斷加快采樣速率,這使得傳統(tǒng)的奈奎斯特采樣過(guò)程面臨較大挑戰(zhàn)。近年來(lái),DONOHO等[1]提出壓縮感知理論,利用隨機(jī)測(cè)量矩陣Φ∈Rm×n對(duì)原始信號(hào)x∈Rn×1進(jìn)行采樣,即y=Φx(m?n),將x投影到m維的低維空間,并證明在隨機(jī)投影的測(cè)量值y∈Rm×1中包含較多的原始信號(hào),通過(guò)求解一個(gè)稀疏化問(wèn)題,利用投影在低維空間的測(cè)量信號(hào)以恢復(fù)出原始信號(hào)。
在圖像壓縮感知問(wèn)題中,測(cè)量值y的維度m遠(yuǎn)小于原始信號(hào)x的維度。壓縮感知圖像重構(gòu)的本質(zhì)是從一個(gè)具有多種不同解的方程中找出最優(yōu)解。為了找出最優(yōu)解,研究人員提出基于圖像變換域的重構(gòu)算法,該算法利用Lp-norm 范數(shù)衡量稀疏系數(shù)的稀疏性,使用正交匹配追蹤(Orthogonal Matching Pursuit,OMP)、迭代硬閾值等算法求解對(duì)應(yīng)的稀疏編碼問(wèn)題。研究人員提出將梯度稀疏性[2]、非局部稀疏性[3]和塊稀疏[4]作為先驗(yàn)知識(shí),對(duì)原始信號(hào)進(jìn)行恢復(fù)。然而,這些算法都需要大量的迭代運(yùn)算,重構(gòu)時(shí)間較長(zhǎng),并且在低采樣率下重構(gòu)圖像的質(zhì)量較差。
由于深度學(xué)習(xí)能解決傳統(tǒng)方法中計(jì)算量大的問(wèn)題,因此研究人員提出基于深度學(xué)習(xí)的壓縮感知重構(gòu)方法。KULKARNI等[5]提出ReconNet,利用固定的隨機(jī)高斯矩陣測(cè)量獲取的圖像采樣數(shù)據(jù),實(shí)現(xiàn)了非迭代壓縮感知重構(gòu)的目的。YAO 等將ReconNet[5]網(wǎng)絡(luò)與殘差網(wǎng)絡(luò)[6]相結(jié)合提出DR2-Net[7],可以更充分地捕獲圖像的細(xì)節(jié)信息。文獻(xiàn)[8]提出一種深度神經(jīng)網(wǎng)絡(luò)CombNet,通過(guò)卷積核級(jí)聯(lián)的方式加深網(wǎng)絡(luò)的深度,提高重建圖像的質(zhì)量。文獻(xiàn)[9]提出一種自適應(yīng)測(cè)量的方法Adaptive-Net,該方法可以保留較多的圖像信息。上述方法在低采樣率下都存在嚴(yán)重的塊效應(yīng),重構(gòu)圖像的視覺(jué)效果較模糊。
本文提出一種基于通道注意力的多尺度全卷積壓縮感知圖像重構(gòu)模型。通過(guò)均值濾波消除圖像中的噪聲點(diǎn),減少原始圖像中的冗余信息,有利于采集更加有效的圖像信息。通過(guò)對(duì)圖像進(jìn)行多尺度全卷積采樣,在消除重建圖像塊效應(yīng)的同時(shí)保留更多圖像信息。在殘差塊中引入注意力機(jī)制,根據(jù)挖掘特征圖通道之間的關(guān)聯(lián)性,提取特征圖中的關(guān)鍵信息用于恢復(fù)出高質(zhì)量的重構(gòu)圖像。
基于深度學(xué)習(xí)的圖像重構(gòu)方法在計(jì)算機(jī)視覺(jué)和圖像處理領(lǐng)域受到了廣泛的關(guān)注,如圖像超分辨率重建[10]、圖像語(yǔ)義分割[11]、圖像去噪[12]等。一些基于深度學(xué)習(xí)的方法也相繼被提出,并應(yīng)用于壓縮感知的重構(gòu)圖像上。例如,利用堆疊降噪自動(dòng)編碼[13](Stacked Denoising Auto-encoder,SDA)模型和卷積神經(jīng)網(wǎng)絡(luò)[14](Convolutional Neural Network,CNN)學(xué)習(xí)一個(gè)端到端的映射,直接將測(cè)量值輸入到網(wǎng)絡(luò)得到的重構(gòu)圖像。文獻(xiàn)[13]利用SDA 訓(xùn)練得到測(cè)量值與重構(gòu)圖像之間的映射關(guān)系,通過(guò)測(cè)量值對(duì)該映射關(guān)系進(jìn)行圖像重構(gòu)。KULKARNI等[5]提出的ReconNet 實(shí)現(xiàn)了非迭代壓縮感知重構(gòu),但重構(gòu)質(zhì)量相對(duì)較差。研究人員提出的DR2-Net[7]網(wǎng)絡(luò)由全連接層和四個(gè)殘差塊組成,可以更充分地捕獲圖像的細(xì)節(jié)信息。文獻(xiàn)[15]提出多尺度殘差網(wǎng)絡(luò)MSRNet,引入多尺度擴(kuò)張卷積層來(lái)提取圖像中不同尺度的特征。ISTA-Net[16]網(wǎng)絡(luò)結(jié)合基于優(yōu)化和基于網(wǎng)絡(luò)的壓縮感知方法的優(yōu)點(diǎn),具有良好的可解釋性。DPA-Net[17]通過(guò)將圖像的紋理結(jié)構(gòu)信息分開(kāi)重建后再進(jìn)行融合,以提升重構(gòu)圖像的質(zhì)量,文獻(xiàn)[15-16]所提方法通過(guò)對(duì)輸入圖像進(jìn)行分塊,利用高斯矩陣進(jìn)行逐塊測(cè)量,存在計(jì)算量大的問(wèn)題。此外,基于塊的圖像壓縮感知重構(gòu)破壞了圖像結(jié)構(gòu)信息的完整性。在Pep-Net[18]、CSNET[19]、MSResICS[20]、FCMN[21]中用自適應(yīng)測(cè)量代替隨機(jī)高斯矩陣的分塊測(cè)量方法,保留圖像結(jié)構(gòu)和邊緣信息的完整性,然而在重構(gòu)時(shí)只采用單一的殘差網(wǎng)絡(luò),未充分提高重建圖像的質(zhì)量。當(dāng)FDC-Net[22]網(wǎng)絡(luò)重構(gòu)時(shí),利用卷積網(wǎng)絡(luò)與密集網(wǎng)絡(luò)組合成的雙路徑重構(gòu)網(wǎng)絡(luò),在提高重構(gòu)圖像質(zhì)量的同時(shí)縮短了重構(gòu)時(shí)間。但在低采樣率下重建圖像的視覺(jué)效果仍不清晰。為提高低采樣率下重建圖像的質(zhì)量,本文提出一種基于通道注意力的多尺度全卷積壓縮感知圖像重構(gòu)模型MSANet。
本文設(shè)計(jì)的網(wǎng)絡(luò)主要由測(cè)量和重構(gòu)兩部分組成。
均值濾波[23]是一種線性濾波器,用均值代替圖像中的各個(gè)像素值,即對(duì)待處理的當(dāng)前像素點(diǎn)f(x,y)選擇一個(gè)模板。該模板由其近鄰的若干像素組成,求解模板中所有像素的均值,再把均值賦予當(dāng)前像素f(x,y),并作為處理后圖像在該點(diǎn)的灰度g(x,y),即g(x,y)=∑f(x,y)/m,其中m為該模板中包含當(dāng)前像素點(diǎn)在內(nèi)的像素點(diǎn)總個(gè)數(shù)。
均值濾波的核函數(shù)h(x,y) 及其傅里葉變換F[h(x,y)]如式(1)和式(2)所示:
從式(2)可以看出,F(xiàn)[h(x,y)]在頻域就是μ、ν兩個(gè)方向的sinc 函數(shù)相乘。在空域方向的窗長(zhǎng)越大,頻域上從低頻到高頻的過(guò)渡就越陡。因此,均值濾波函數(shù)具有波動(dòng)性,可以去除圖像中的冗余信息,減少圖像中的數(shù)據(jù)量,獲取感興趣區(qū)域的粗略描述。在壓縮感知采樣時(shí)獲得更多有效信息,有利于提升重構(gòu)圖像的質(zhì)量。同時(shí),冗余信息的消除可以減少訓(xùn)練網(wǎng)絡(luò)時(shí)的數(shù)據(jù)量,有利于縮短重構(gòu)圖像的時(shí)間。
本文使用卷積層對(duì)圖像進(jìn)行采樣,其過(guò)程如圖1所示。通過(guò)M個(gè)大小為N1×N1(N1?N)的卷積核對(duì)尺寸為N×N的輸入圖像塊x進(jìn)行掃描和卷積運(yùn)算,得到長(zhǎng)度為M的采樣數(shù)據(jù)。將卷積核看作觀測(cè)矩陣,卷積核在圖片上滑動(dòng)掃描的過(guò)程就是壓縮感知采樣的過(guò)程。
圖1 卷積采樣過(guò)程Fig.1 Process of convolution sampling
在傳統(tǒng)網(wǎng)絡(luò)中每一層使用一個(gè)尺寸的卷積核,而Google 和Inception 網(wǎng)絡(luò)中每一層的特征圖使用多個(gè)不同大小的卷積核,以獲得不同尺度的特征圖,再把這些特征相融合。Inception 網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示?;诙喑叨染矸e的思想,本文采用多尺度全卷積對(duì)原始圖像信號(hào)進(jìn)行全圖像測(cè)量,實(shí)現(xiàn)圖像的多尺度全卷積采樣。每一層卷積可以得到一個(gè)特征圖,將多尺度卷積采樣得到的多個(gè)特征圖進(jìn)行拼接融合,使得最終的特征圖包含更多、更全面的信息。
圖2 Inception 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of Inception network
注意力機(jī)制能夠重點(diǎn)關(guān)注輸入圖像中的關(guān)鍵特征信息,分為硬注意力機(jī)制和軟注意力機(jī)制。硬注意力機(jī)制是在所有特征信息中選擇關(guān)鍵部分進(jìn)行重點(diǎn)關(guān)注,其余特征則忽略不計(jì)。例如,文獻(xiàn)[24]的數(shù)字識(shí)別任務(wù)中,在提取原始圖像特征時(shí),僅含有數(shù)字的像素點(diǎn)是有用的,因此,只需對(duì)含有數(shù)字的像素點(diǎn)進(jìn)行重點(diǎn)關(guān)注。硬注意力機(jī)制能有效減少計(jì)算量,但丟棄了圖像的部分信息,而在壓縮感知重構(gòu)任務(wù)中,圖像的每一個(gè)像素點(diǎn)的信息都是有用的,顯然,硬注意力機(jī)制不適用于壓縮感知重構(gòu)任務(wù)。隨后,HU等[25]提出的SE 塊在殘差網(wǎng)絡(luò)之后使用原始的channel-wise attention 來(lái)提高分類(lèi)精度。軟注意力機(jī)制對(duì)所有的特征設(shè)置一個(gè)權(quán)重,并對(duì)其進(jìn)行特征加權(quán),通過(guò)自適應(yīng)調(diào)整凸顯重要特征。圖像經(jīng)過(guò)每個(gè)卷積層都會(huì)產(chǎn)生多個(gè)不同的特征圖,通道注意力機(jī)制[26]通過(guò)對(duì)每張?zhí)卣鲌D賦予不同的權(quán)重,使網(wǎng)絡(luò)從特征的通道維度來(lái)提取重要的特征。
通道注意力模型結(jié)構(gòu)如圖3 所示,在卷積操作后分出一個(gè)旁路分支,首先進(jìn)行Squeeze 操作(即圖中的Fsq(·)),將空間維度進(jìn)行特征壓縮,將每個(gè)特征圖變成一個(gè)實(shí)數(shù),相當(dāng)于具有全局感受野的池化操作。因此,利用分局平均池化將全局空間內(nèi)的信息轉(zhuǎn)化為通道描述符,然后進(jìn)行Excitation 操作(即圖中的Fex(·)),通過(guò)學(xué)習(xí)參數(shù)生成每個(gè)特征通道的權(quán)重。該權(quán)重值表示對(duì)應(yīng)通道與關(guān)鍵信息的相關(guān)性,權(quán)重越大,則對(duì)應(yīng)通道的信息越關(guān)鍵。
圖3 通道注意力模型結(jié)構(gòu)Fig.3 Structure of channel attention model
當(dāng)卷積層對(duì)圖像進(jìn)行卷積運(yùn)算時(shí),只能提取感受野內(nèi)的特征信息。并且單一卷積層的計(jì)算輸出沒(méi)有考慮各個(gè)通道的依懶性。因此,本文在重構(gòu)網(wǎng)絡(luò)中提出一種新的殘差注意力模型,其結(jié)構(gòu)如圖4 所示。通過(guò)在中間層設(shè)置通道注意力模塊,加強(qiáng)了不同層以及特征通道之間的長(zhǎng)期依賴關(guān)系,使得重要的特征信息在傳遞過(guò)程中不易丟失,提升最終重建圖像的質(zhì)量。
圖4 殘差注意力模型結(jié)構(gòu)Fig.4 Structure of residual attention model
殘差塊由三個(gè)不同卷積核大小的卷積層組成。第一層卷積使用11×11 的卷積核,得到感受野較大的特征信息;第二層卷積首先使用1×1 卷積核,降低第一層卷積計(jì)算的輸出維度,然后將信息輸入到注意力模塊中,通過(guò)建模各個(gè)特征通道之間的重要程度,使網(wǎng)絡(luò)有選擇性地增強(qiáng)信息量大的特征,以充分利用這些特征信息,從而恢復(fù)出高質(zhì)量的重構(gòu)圖像,并對(duì)無(wú)用特征進(jìn)行抑制;第三層使用7×7 的卷積核,提取各個(gè)通道上信息量大的特征信息,輸出一張大小為256×256 像素的灰度圖像。
本文所提MSANet 網(wǎng)絡(luò)模型結(jié)構(gòu)如圖5 所示。
圖5 MSANet 網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.5 Structure of MSANet network model
本文實(shí)驗(yàn)在PyTorch 深度學(xué)習(xí)框架上完成。計(jì)算機(jī)配備了主頻率為2.8 GHz 的Intel Core i5-8400H CPU、1 個(gè)NVIDIA GeForce GTX 1080Ti GPU,網(wǎng)絡(luò)框架在windows 10 操作系統(tǒng)上運(yùn)行。
為確保實(shí)驗(yàn)的公平性,本文在不同的采樣率分別為1%、4%、25%下訓(xùn)練網(wǎng)絡(luò),使用相同的訓(xùn)練集和測(cè)試集,選擇DIV2K 作為模型的訓(xùn)練集數(shù)據(jù),并在Set0、Set5、Set14 和BSD100 數(shù)據(jù)集上進(jìn)行測(cè)試與對(duì)比實(shí)驗(yàn)。這些數(shù)據(jù)集包含大量來(lái)自各個(gè)領(lǐng)域的圖像,能夠?qū)δP托阅苓M(jìn)行有效驗(yàn)證。
RGB 圖像在輸入到網(wǎng)絡(luò)之前被轉(zhuǎn)換為灰度圖像,數(shù)據(jù)歸一化到區(qū)間[-1,1],使網(wǎng)絡(luò)能更快、更好地收斂。當(dāng)訓(xùn)練模型時(shí),本文使用Adam 算法對(duì)模型參數(shù)進(jìn)行優(yōu)化,初始動(dòng)量設(shè)置為0.9,每次迭代的批大小設(shè)置為8,學(xué)習(xí)率為0.001,激活函數(shù)采用PReLu。采用均方誤差(Mean Square Error,MSE)作為損失函數(shù),如式(3)所示:
其中:w為需要訓(xùn)練的網(wǎng)絡(luò)參數(shù);f(xi;w)為相對(duì)于圖像xi的最終壓縮感知重構(gòu)。
本文實(shí)驗(yàn)采用國(guó)際通用的圖像重建評(píng)價(jià)指標(biāo):峰值信噪比(PSNR)、結(jié)構(gòu)相似度(SSIM)。PSNR 數(shù)值越大,重構(gòu)圖像的失真越小,重構(gòu)效果越好。PSNR 的計(jì)算如式(4)所示:
結(jié)構(gòu)相似度從圖像的亮度、結(jié)構(gòu)和相似度三個(gè)方面進(jìn)行評(píng)價(jià)。給定兩張圖片A 和B,其結(jié)構(gòu)相似度計(jì)算如式(5)所示:
其中:μa為圖片A 的平均值;μb為圖片B 的平均值,表示圖像的亮度和分別為圖片A 和B 的方差,表示圖像的對(duì)比度;σab為圖片A 和B 的協(xié)方差,表示圖像的結(jié)構(gòu);C1和C2為用于維持穩(wěn)定的常數(shù),C1=(k1×L)2,C2=(k2×L)2,通常取k1=0.01,k2=0.03;L為像素值的動(dòng)態(tài)范圍。結(jié)構(gòu)相似度的取值范圍在0 與1之間,結(jié)果越接近1,表示兩幅圖像越相似。
本文模型與TVAL3[27]、SDA[13]、ReconNet[5]、DR2-Net[7]、CombNet[8]、ISTA-Net[16]和Pep-Net[18]進(jìn)行PSNR 對(duì)比,對(duì)比結(jié)果如表1 所示。從表1 可以看出,當(dāng)采樣率為1%和4%時(shí),本文所提模型的PSNR 值均優(yōu)于對(duì)比模型,說(shuō)明重構(gòu)圖像的失真小且質(zhì)量較高。
表1 不同模型的峰值信噪比對(duì)比Table 1 Peak signal-to-noise ratio comparison among different models 單位:dB
為驗(yàn)證本文模型重建圖像的視覺(jué)效果,在不同采樣率下重建圖像的視覺(jué)效果對(duì)比如圖6 所示。
圖6 在不同采樣率下不同模型重建圖像的視覺(jué)效果對(duì)比Fig.6 Visual effects of reconstructed images comparison among different models at different sampling rates
當(dāng)采樣率為1%時(shí),ReconNet[5]和DR2-Net[7]重建圖像產(chǎn)生了嚴(yán)重的塊效應(yīng)問(wèn)題,視覺(jué)效果較差,而本文模型的重建效果比較清晰。當(dāng)采樣率為4%時(shí),ReconNet[5]和DR2-Net[7]重建圖像仍然存在塊效應(yīng),本文模型具有較優(yōu)的視覺(jué)效果。在不同采樣率下本文模型的均方差損失對(duì)比如圖7 所示。當(dāng)采樣率為25%時(shí),本文模型測(cè)試圖像均方差損失的平均值最小,相應(yīng)PSNR 值的優(yōu)勢(shì)較明顯,能有效消除塊效應(yīng)現(xiàn)象,具有較優(yōu)的視覺(jué)效果。
圖7 不同采樣率下本文模型的均方差損失平均值Fig.7 The average of mean square error loss of the proposed model under different sampling rates
分析上述結(jié)果可以得到:當(dāng)采樣率(25%)較大時(shí),由于模型的均方差損失較小,因此重建出的圖像都表現(xiàn)出較好的視覺(jué)效果,但在低采樣率為1%時(shí),其他模型重建的圖像存在嚴(yán)重的塊效應(yīng)。
為驗(yàn)證本文模型重構(gòu)的圖像在亮度、對(duì)比度和結(jié)構(gòu)的優(yōu)越性,當(dāng)采樣率為1%時(shí),不同模型在重構(gòu)圖像與原始圖像之間結(jié)構(gòu)相似性(SSIM)的計(jì)算結(jié)果如表2 所示。從表2 可以看出,本文模型的SSIM性能有較明顯的優(yōu)勢(shì)。相比其他模型,本文設(shè)計(jì)的多尺度全卷積的采樣方式可以保存完整的圖像結(jié)構(gòu)紋理信息,使大量有用信息進(jìn)入重構(gòu)網(wǎng)絡(luò),減小了重構(gòu)圖像與原始圖像的差異性。因此,本文模型具有較優(yōu)的SSIM。
表2 當(dāng)采樣率為1%時(shí)不同模型的結(jié)構(gòu)相似性對(duì)比Table 2 Structural similarity comparison among different models when the sampling rate is 1%
傳統(tǒng)的基于迭代壓縮感知模型存在迭代次數(shù)多、計(jì)算復(fù)雜度高、耗時(shí)長(zhǎng)等問(wèn)題。本文提出的基于深度學(xué)習(xí)的壓縮感知重構(gòu)模型,在采樣階段,通過(guò)對(duì)初始圖像進(jìn)行濾波處理,消除了圖像中的噪聲信息,減少了數(shù)據(jù)量并保留有用信息。在重構(gòu)階段,利用卷積神經(jīng)網(wǎng)絡(luò)局部連接、權(quán)值共享的特性有效降低了網(wǎng)絡(luò)的復(fù)雜度,減少了訓(xùn)練參數(shù)量。通過(guò)上述兩個(gè)階段的處理,有效地縮短了重構(gòu)圖像所消耗的時(shí)間。不同模型重建單張256×256 像素圖像花費(fèi)的時(shí)間對(duì)比如表3 所示。
表3 不同模型重建圖像花費(fèi)的時(shí)間對(duì)比Table 3 Comparison of time spent on image reconstruction by different models 單位:s
從表3 可以看出,相比傳統(tǒng)的迭代模型,本文模型能有效降低重構(gòu)過(guò)程的時(shí)間復(fù)雜度,縮短重構(gòu)時(shí)間,節(jié)約了計(jì)算成本。
本文提出一種基于通道注意力的多尺度全卷積壓縮感知圖像重構(gòu)模型MSANet。在采樣階段,通過(guò)均值濾波消除圖像中的噪聲點(diǎn),得到圖像的低頻信息。采用多尺度全卷積進(jìn)行測(cè)量,消除重構(gòu)圖像的塊效應(yīng)且保留較多的原始圖像信息。在重構(gòu)階段,在殘差塊中引入通道注意力機(jī)制挖掘特征圖通道之間的關(guān)聯(lián)性,增強(qiáng)了網(wǎng)絡(luò)提取圖像關(guān)鍵特征信息的能力,恢復(fù)出視覺(jué)效果更加清晰的重構(gòu)圖像。實(shí)驗(yàn)結(jié)果表明,相比傳統(tǒng)的壓縮感知模型,本文模型能有效縮短圖像的重構(gòu)時(shí)間,相較于基于深度學(xué)習(xí)的壓縮感知重構(gòu)模型ReconNet、DR2-Net 等,在低采樣率下生成的圖像更加逼真自然。下一步將在本文模型的基礎(chǔ)上引入密集網(wǎng)絡(luò),減少網(wǎng)絡(luò)訓(xùn)練參數(shù),增強(qiáng)特征傳播,以縮短重構(gòu)圖像花費(fèi)的時(shí)間。