楊春玲 裴翰奇
(華南理工大學(xué) 電子與信息學(xué)院,廣東 廣州 510640)
奈奎斯特-香農(nóng)采樣定理中指出:為了無失真的恢復(fù)原始信號(hào),采樣信號(hào)的頻率不能低于原始信號(hào)的兩倍帶寬。2006年,Donoho等[1-3]提出的壓縮感知理論(CS)證明了當(dāng)原始信號(hào)具備稀疏特性時(shí),采樣頻率可以遠(yuǎn)低于奈奎斯特定理的要求。在壓縮感知中,采樣和壓縮的過程同步完成,有效解決了傳統(tǒng)采樣中先采樣后壓縮的策略所造成的資源浪費(fèi)。憑借以上優(yōu)勢(shì),壓縮感知理論在學(xué)術(shù)界和工業(yè)界引起了廣泛的關(guān)注和研究。
在圖像壓縮感知中,隨機(jī)觀測(cè)矩陣由于符合等距性限制條件(RIP)[2],且具有較好的重構(gòu)效果,被廣泛應(yīng)用在圖像的采樣中。同時(shí),分塊壓縮感知理論(BCS)[4-5]因其在存儲(chǔ)與計(jì)算方面的優(yōu)勢(shì)而被廣泛用于圖像壓縮感知中。在這個(gè)框架下,圖像被分成多個(gè)不重疊的圖像塊單獨(dú)采樣與重構(gòu),以減小整體的計(jì)算量。但是,不容忽視的一點(diǎn)是,分塊壓縮感知框架引起了不良的塊效應(yīng):在恢復(fù)圖像中,由于不同分塊之間相對(duì)獨(dú)立的觀測(cè)與重建,在各個(gè)塊之間出現(xiàn)了大量不連續(xù)的邊界。塊效應(yīng)降低了重構(gòu)圖像的視覺質(zhì)量,特別是在低采樣率下,這個(gè)問題尤為嚴(yán)重。
圖像壓縮感知中的另外一個(gè)核心問題是圖像的重構(gòu)算法,這部分在很大程度上決定了最終恢復(fù)結(jié)果的優(yōu)劣。基于圖像的結(jié)構(gòu)特性,文獻(xiàn)[5]中提出的平滑投影Landweber算法(SPL)將自然圖像的恢復(fù)結(jié)果提升到了一個(gè)較高的水平;通過利用不同圖像塊之間的的相似信息,基于組稀疏表示的重構(gòu)算法(GSR)[6]獲得了目前最好的圖像重構(gòu)性能,并且對(duì)圖像中的噪聲有著一定的抑制效果。但是,由于需要大量的迭代,這些恢復(fù)算法都有著高耗時(shí)的缺點(diǎn),使得圖像壓縮感知難以實(shí)際應(yīng)用。
最近,基于卷積神經(jīng)網(wǎng)絡(luò)的圖像壓縮感知框架的出現(xiàn),為圖像壓縮感知的研究和應(yīng)用帶來了新的思路。
2012年,文獻(xiàn)[7]中提出的AlexNet展現(xiàn)出了卷積神經(jīng)網(wǎng)絡(luò)(CNN)的性能潛力,并引起了一次新的研究熱潮。過去的幾年中,深度學(xué)習(xí)(DL)領(lǐng)域的研究得到了進(jìn)一步的發(fā)展,在多種高階語義下的計(jì)算機(jī)視覺任務(wù)中取得了大量的研究成果,如對(duì)象檢測(cè)、多目標(biāo)跟蹤和動(dòng)作識(shí)別等。同時(shí),基于卷積神經(jīng)網(wǎng)絡(luò)的低階語義計(jì)算機(jī)視覺任務(wù)的研究也引起了關(guān)注,例如在圖像超分辨率重建(SR)[8-12]與圖像去霧算法(Image Dehazing)[13]等病態(tài)逆問題的研究中,深度學(xué)習(xí)均取得了不錯(cuò)的結(jié)果,展現(xiàn)出其性能的優(yōu)越。
近年出現(xiàn)的一些基于深度學(xué)習(xí)的圖像壓縮感知(ICS)算法的研究,表現(xiàn)出了深度學(xué)習(xí)強(qiáng)大的學(xué)習(xí)能力和極快的運(yùn)行速度。Kulkarni等[14]首次提出基于卷積神經(jīng)網(wǎng)絡(luò)的圖像壓縮感知重構(gòu)算法,取得了不錯(cuò)的重構(gòu)效果。文獻(xiàn)[15]中提出在重構(gòu)神經(jīng)網(wǎng)絡(luò)中引入Resnet的結(jié)構(gòu),從而在圖像壓縮感知的恢復(fù)過程中學(xué)習(xí)更加豐富的圖像特征。Zhang等[16]設(shè)計(jì)了一種新穎的網(wǎng)絡(luò)結(jié)構(gòu),能夠較好的模仿傳統(tǒng)圖像壓縮感知中的迭代收縮重構(gòu)算法。受到基于稀疏表示的圖像壓縮感知重構(gòu)算法啟發(fā),文獻(xiàn)[17]中ConvCSNet嘗試將稀疏性嵌入神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)之中。文獻(xiàn)[18]中提出一種基于深度學(xué)習(xí)的多尺度殘差網(wǎng)絡(luò)結(jié)構(gòu)來學(xué)習(xí)圖像中的多尺度信息,增強(qiáng)了重構(gòu)算法對(duì)噪聲的魯棒性。文獻(xiàn)[19]中提出一種端到端的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),成功復(fù)現(xiàn)了傳統(tǒng)圖像壓縮感知中的經(jīng)典重構(gòu)算法——平滑投影Landweber算法?;谖墨I(xiàn)[19]的工作,Cui等[20]提出了壓縮感知觀測(cè)矩陣的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法,彌補(bǔ)了傳統(tǒng)觀測(cè)矩陣設(shè)計(jì)過程中的不足??偟膩碚f,與傳統(tǒng)圖像壓縮感知相比,基于神經(jīng)網(wǎng)絡(luò)的壓縮感知方法顯著地降低了重構(gòu)算法的時(shí)間成本,但仍未解決重構(gòu)圖像中的塊效應(yīng)問題,并且重構(gòu)端網(wǎng)絡(luò)結(jié)構(gòu)缺乏針對(duì)性,限制了最終的重構(gòu)性能。
為了解決上述問題,文中提出了一種針對(duì)圖像壓縮感知的全新神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)——MSResICS:在采樣端,放棄了傳統(tǒng)的分塊線性映射采樣框架,與之對(duì)應(yīng)的是一個(gè)基于殘差學(xué)習(xí)的全卷積圖像采樣子網(wǎng)絡(luò),相比之下,該子網(wǎng)絡(luò)結(jié)構(gòu)不僅避免了分塊壓縮感知帶來的塊效應(yīng),而且成功地在采樣部分引入非線性的特征提取方法,保留了更加豐富的圖像信息;在恢復(fù)端,首先引入一個(gè)基于插值卷積的初始重構(gòu)子網(wǎng)絡(luò),從采樣值中整合特征并恢復(fù)初始重構(gòu)圖像,其次為了進(jìn)一步提升重構(gòu)圖像的效果,在前兩個(gè)子網(wǎng)絡(luò)的基礎(chǔ)上,加入多階段圖像增強(qiáng)子網(wǎng)絡(luò),以生成多幅殘差圖像,對(duì)恢復(fù)結(jié)果做進(jìn)一步的細(xì)化;最后通過實(shí)驗(yàn)仿真來分析MSResICS的具體性能。
在圖像壓縮感知中,有兩個(gè)主要問題:1)圖像的高效采樣;2)圖像的高質(zhì)量重構(gòu)。在經(jīng)典的分塊壓縮感知中,觀測(cè)值由觀測(cè)矩陣的線性映射得到:
yb=Φbxb
(1)
式中,xb為N×1維的原始圖像塊列矢量,yb為M×1維的分塊采樣信號(hào),Φb為M×N維的隨機(jī)觀測(cè)矩陣。在壓縮感知中,由于M?N,從采樣信號(hào)yb中重構(gòu)原始信號(hào)xb是一項(xiàng)病態(tài)逆問題。但壓縮感知原理指出,如果目標(biāo)信號(hào)xb在變換域Ψ是稀疏的,可以通過求解以下優(yōu)化問題來重構(gòu)xb:
(2)
式中,λ為正則化參數(shù)。基于圖像信號(hào)的結(jié)構(gòu)特性,許多文獻(xiàn)提出了不同的優(yōu)化算法來求解式(2),并取得了不錯(cuò)的效果,例如平滑投影Landweber算法[5]與基于組稀疏表示的重構(gòu)算法[6]。但傳統(tǒng)的圖像壓縮感知算法計(jì)算量巨大,難以用于實(shí)際應(yīng)用。在圖像壓縮感知神經(jīng)網(wǎng)絡(luò)的研究工作中,則是基于深度學(xué)習(xí)方法對(duì)采樣系數(shù)與原始圖像間的映射關(guān)系進(jìn)行學(xué)習(xí)。這種方法主要分為兩類:1)以ReconNet為代表,應(yīng)用于圖像壓縮感知重構(gòu)的卷積神經(jīng)網(wǎng)絡(luò);2)以CSNet為代表,同時(shí)應(yīng)用于圖像壓縮感知觀測(cè)域重構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)。以上提到的兩種類型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)解決了傳統(tǒng)算法中高耗時(shí)的缺陷,并取得了不錯(cuò)的恢復(fù)效果,但同時(shí)也存在著一定的缺陷:1)分塊壓縮感知框架引起的塊效應(yīng)降低了最終圖像的恢復(fù)效果;2)缺少針對(duì)性的恢復(fù)端網(wǎng)絡(luò)結(jié)構(gòu)限制了網(wǎng)絡(luò)的重構(gòu)性能。
在本節(jié)中,將詳細(xì)討論本文提出的圖像壓縮感知神經(jīng)網(wǎng)絡(luò)(MSResICS)。MSResICS由3部分組成:采樣子網(wǎng)絡(luò),初始重構(gòu)子網(wǎng)絡(luò)與圖像增強(qiáng)子網(wǎng)絡(luò),具體網(wǎng)絡(luò)細(xì)節(jié)參見圖1。
Conv代表卷積層,S-ResBlock代表簡(jiǎn)化殘差學(xué)習(xí)塊,ResizeConv代表插值卷積層
2.1 基于殘差學(xué)習(xí)的采樣子網(wǎng)絡(luò)
為了解決分塊壓縮感知框架下帶來的塊效應(yīng)問題,MSResICS放棄了傳統(tǒng)的分塊線性映射采樣方法,提出一種直接對(duì)整幅圖像采樣的全卷積采樣子網(wǎng)絡(luò)。受文獻(xiàn)[10]與[11]啟發(fā),文中利用了一種簡(jiǎn)化殘差學(xué)習(xí)塊(S-ResBlock),以使觀測(cè)值中包含更加豐富的圖像信息,且網(wǎng)絡(luò)參數(shù)數(shù)據(jù)量小,占用內(nèi)存更少,如圖1所示。具體結(jié)構(gòu)參考圖2,S-ResBlock和原始ResBlock[21]相比主要存在兩點(diǎn)不同:1)刪除了批量標(biāo)準(zhǔn)化層(BN),可以更大程度上保留豐富的圖像信息,并減少了網(wǎng)絡(luò)整體計(jì)算量;2)恒等映射分支的輸入不再為固定輸入,選擇更加靈活,保證網(wǎng)絡(luò)輸出的觀測(cè)值包含不同語義維度下的圖像信息。在后文中,將展示關(guān)于S-ResBlock與ResBlock的對(duì)比實(shí)驗(yàn),以進(jìn)一步驗(yàn)證該結(jié)構(gòu)帶來的提升。
相比傳統(tǒng)的分塊壓縮感知和線性映射采樣方式,該采樣子網(wǎng)絡(luò)成功避免了塊效應(yīng)問題,并且將非線性結(jié)合到了采樣過程之中,更有效地對(duì)特征信息進(jìn)行提取,獲得信息更加豐富的觀測(cè)值。
在傳統(tǒng)圖像壓縮感知的信號(hào)恢復(fù)過程中,通常先利用觀測(cè)值和簡(jiǎn)單的重構(gòu)算法獲得圖像的初始重構(gòu),然后利用初始重構(gòu)圖像和觀測(cè)值,通過較復(fù)雜的重構(gòu)算法進(jìn)一步提升重構(gòu)圖像的質(zhì)量。在這種模式下,通過重構(gòu)算法的迭代逐漸恢復(fù)圖像中的細(xì)節(jié),可以取得優(yōu)秀的重構(gòu)效果。文中提出的卷積神經(jīng)網(wǎng)絡(luò)重構(gòu)算法即參考這種策略。
(a)S-ResBlock (b)ResBlock
Conv代表卷積層,ReLU代表線性整流激活函數(shù),BN代表批量標(biāo)準(zhǔn)化層
圖2 兩種不同的殘差學(xué)習(xí)結(jié)構(gòu)
Fig.2 Two different residual learning block
基于插值卷積(Resize Convolution)[22],文中提出了一個(gè)初始重構(gòu)子網(wǎng)絡(luò),用以生成高質(zhì)量的初始重構(gòu)圖像。如文獻(xiàn)[22]所述,插值卷積是對(duì)特征圖進(jìn)行上采樣的一種直觀而簡(jiǎn)單的方法。在結(jié)構(gòu)上,插值卷積分為兩層:首先是一層具有S倍上采樣效果的最近鄰插值層,再后接一個(gè)常用的3×3卷積層以進(jìn)行特征提取,如圖3所示。與另外一種神經(jīng)網(wǎng)絡(luò)中常用的上采樣方法——反卷積(Deconvolution)相比,插值卷積成功避免了反卷積操作中容易帶來的棋盤效應(yīng),提升了恢復(fù)圖像的效果。初始重構(gòu)子網(wǎng)絡(luò)主要由3部分結(jié)構(gòu)構(gòu)成:第1部分是單層卷積層,用來從采樣系數(shù)中提取高維特征圖;第2部分是K個(gè)插值卷積,對(duì)得到的特征圖進(jìn)行上采樣操作,使特征圖恢復(fù)到原始圖像尺寸;最后一部分是一層只有單個(gè)卷積核的卷積層,對(duì)插值卷積得出的特征圖進(jìn)行整合,輸出最后的圖像初始重構(gòu)結(jié)果。
Conv代表卷積層
在得出圖像的初始重構(gòu)之后,接下來的工作便以此為基礎(chǔ),逐漸對(duì)圖像進(jìn)行精細(xì)化的細(xì)節(jié)恢復(fù)。
為了進(jìn)一步細(xì)化圖像結(jié)果,文中設(shè)計(jì)了一個(gè)多階段圖像增強(qiáng)子網(wǎng)絡(luò),利用初始重構(gòu)圖像和觀測(cè)值逐漸恢復(fù)更多的圖像紋理細(xì)節(jié)。
如圖1所示,該多階段圖像增強(qiáng)子網(wǎng)絡(luò)的基本結(jié)構(gòu)為細(xì)節(jié)增強(qiáng)單元,其輸入是從采樣系數(shù)中提取的高維特征圖。在每個(gè)細(xì)節(jié)增強(qiáng)單元中,先由S-ResBlock對(duì)輸入進(jìn)行處理,提取深層特征,再利用插值卷積來重構(gòu)得出殘差圖像,與上一級(jí)的重構(gòu)圖像進(jìn)行疊加,得出新的重構(gòu)圖像。通過使用D個(gè)細(xì)節(jié)增強(qiáng)單元,神經(jīng)網(wǎng)絡(luò)逐步從采樣系數(shù)中提取出多幅包含圖像細(xì)節(jié)信息的殘差圖像,在初始重構(gòu)圖像的基礎(chǔ)上不斷提升重構(gòu)質(zhì)量。最后,在D階段圖像增強(qiáng)后,得出MSResICS的最終輸出圖像。
與之前的神經(jīng)網(wǎng)絡(luò)重構(gòu)算法相比,文中提出的網(wǎng)絡(luò)結(jié)構(gòu)利用殘差學(xué)習(xí)作為網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ),對(duì)圖像進(jìn)行更加精細(xì)的多階段恢復(fù),恢復(fù)的圖像細(xì)節(jié)更加豐富,進(jìn)一步提升了重構(gòu)圖像質(zhì)量。
均方誤差(MSE)是有效的圖像質(zhì)量客觀評(píng)判標(biāo)準(zhǔn)。文中在MSResICS網(wǎng)絡(luò)的訓(xùn)練過程中,同樣采用均方誤差函數(shù)作為網(wǎng)絡(luò)的優(yōu)化目標(biāo)函數(shù):
(3)
式中,xi代表訓(xùn)練集圖像,N為訓(xùn)練集樣本的個(gè)數(shù),θ為網(wǎng)絡(luò)參數(shù),f(xi,θ)為網(wǎng)絡(luò)的整體輸出。
考慮到重構(gòu)性能和內(nèi)存占用之間的權(quán)衡,在實(shí)驗(yàn)中,結(jié)構(gòu)參數(shù)設(shè)置為:R=3,K=2,S=2,D=4。但在計(jì)算資源允許的情況下,網(wǎng)絡(luò)越深,重構(gòu)效果將會(huì)越好。在細(xì)節(jié)上,還有幾點(diǎn)需要注意:1)MSResICS中的每一層卷積層中卷積核的大小均設(shè)置為3×3,并且都帶有線性整流激活函數(shù)(ReLU);2)假如沒有明確的描述,每層卷積層都含有64個(gè)卷積核;3)關(guān)于網(wǎng)絡(luò)的初始化方法,文中采用了文獻(xiàn)[23]給出的針對(duì)ReLU激活函數(shù)的參數(shù)設(shè)置策略,以獲得最優(yōu)的效果。
考慮到圖像的數(shù)量和類別,文中采用MSCOCO數(shù)據(jù)集[24]作為MSResICS的訓(xùn)練集和驗(yàn)證集:通過從MSCOCO數(shù)據(jù)集中隨機(jī)抽取大約10 000張圖像,對(duì)其進(jìn)行灰度化處理,并將原圖像的中心部分裁剪為256×256大小的子圖像。此外,文中同時(shí)采用了數(shù)據(jù)增廣對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行進(jìn)一步的擴(kuò)增。在訓(xùn)練過程中,Batchsize的大小設(shè)為32,以在訓(xùn)練速度和重構(gòu)結(jié)果上均獲得最佳的性能表現(xiàn)。神經(jīng)網(wǎng)絡(luò)的優(yōu)化算法選用的是在許多其他工作中均有較好表現(xiàn)的Adam Optimizer[25],其中的參數(shù)設(shè)為:β1=0.9,β2=0.999,ε=1×10-8。為了更好地收斂,網(wǎng)絡(luò)總共訓(xùn)練100個(gè)epoch,一個(gè)epoch中循環(huán)3 000次。在訓(xùn)練中,分別以3種不同的學(xué)習(xí)率對(duì)網(wǎng)絡(luò)逐漸優(yōu)化:初始30個(gè)epoch學(xué)習(xí)率為0.000 1,接下來40個(gè)epoch為0.000 01,最后30個(gè)epoch為 0.000 001。在實(shí)驗(yàn)中,網(wǎng)絡(luò)具體實(shí)現(xiàn)的軟件框架為:python3.6+tensorflow1.12。關(guān)于時(shí)間消耗,在GPU-GTX1080ti上,一次完整的網(wǎng)絡(luò)模型訓(xùn)練大概需要3 d的時(shí)間。
在本節(jié)中,分別設(shè)計(jì)了3組對(duì)比實(shí)驗(yàn),以從多種角度分析說明MSResICS在不同條件下的重構(gòu)性能表現(xiàn)。
3.2.1 不同算法間的重構(gòu)性能對(duì)比
為了具體分析MSResICS的重構(gòu)性能表現(xiàn),文中將MSResICS的圖像重構(gòu)結(jié)果與5種具有代表性的圖像壓縮感知方法進(jìn)行對(duì)比,其中包含兩種傳統(tǒng)的優(yōu)化算法與3種基于神經(jīng)網(wǎng)絡(luò)的方法,分別是:多假設(shè)重構(gòu)算法(Multi-Hypothesis,MH)[26]、基于組稀疏表示的重構(gòu)算法[6]、ReconNet[14]、ISTA-Net+[15]和CSNet[19]。多假設(shè)重構(gòu)算法與基于組稀疏表示的算法均是效果比較優(yōu)秀的傳統(tǒng)算法,特別是基于組稀疏表示的重構(gòu)算法,是目前性能最好的圖像壓縮感知重構(gòu)算法。而ReconNet、ISTA-Net+和CSNet都是具有代表性的壓縮感知神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),后兩者的恢復(fù)效果在神經(jīng)網(wǎng)絡(luò)方法中達(dá)到了最佳。
為了評(píng)估不同算法的重構(gòu)性能,文中使用由8張標(biāo)準(zhǔn)灰度圖像組成的測(cè)試組作為評(píng)測(cè)參照,使用的圖像分別來自兩個(gè)網(wǎng)絡(luò)來源:https:∥homepages.cae.wisc.edu/~ece533/images/,https:∥www.io.csic.es/PagsPers/JPortilla/image-processing/bls-gsm/63-test-images,具體圖像參照?qǐng)D4。文中給出了0.5、0.25、0.125不同采樣率下的實(shí)驗(yàn)結(jié)果。8幅圖像的詳細(xì)峰值信噪比(PSNR)/結(jié)構(gòu)相似性(SSIM)對(duì)照結(jié)果被統(tǒng)一匯總在表1中。
從表1中可以看出,MSResICS在所有測(cè)試情況下的表現(xiàn)均優(yōu)于其他算法。與優(yōu)化算法中性能較優(yōu)秀的基于組稀疏表示的重構(gòu)算法進(jìn)行對(duì)比,MSResICS在0.125~0.500的采樣率下PSNR分別可以提升平均大約3.21、1.81、0.96 dB,而相對(duì)于多假設(shè)重構(gòu)算法提升更為明顯,分別為5.15、4.48、4.64 dB。從實(shí)驗(yàn)結(jié)果可以看出,MSResICS的效果不僅超出傳統(tǒng)的優(yōu)化方法,而且大大提高了在低采樣率下的圖像重構(gòu)質(zhì)量。在與基于卷積神經(jīng)網(wǎng)絡(luò)的方法對(duì)比時(shí),在0.125、0.250、0.500采樣率下,MSResICS在PSNR上比Reconnet平均提升了6.25、6.44、7.34 dB,比ISTA-Net+提升大約3.29、2.22、1.32 dB,比CSNet提升2.09、1.96、1.74 dB,展現(xiàn)出其性能的優(yōu)越性。SSIM作為一種更為先進(jìn)的衡量圖像相似度的指標(biāo),在一定程度上進(jìn)一步體現(xiàn)了算法對(duì)于恢復(fù)圖像的質(zhì)量好壞。文中提出的MSResICS在SSIM上相較對(duì)比算法也都有著不少的提升,并同樣在低采樣率下的效果更為出色。
(a)Boat (b)Cameraman
(c)Goldhill (d)Lena
(e)House (f)Monarch
(g)Parrot (h)Peppers
在不同的圖像上,MSResICS的性能表現(xiàn)也有所不同:例如在細(xì)節(jié)信息較多的圖像Goldhill、House上,MSResICS相較于其他算法的PSNR平均提升分別為3.34、3.51 dB,而在細(xì)節(jié)信息較少的圖像Peppers上平均提升為2.92 dB,在SSIM指標(biāo)上也保持著類似的規(guī)律,證明在細(xì)節(jié)部分,MSResICS的恢復(fù)效果表現(xiàn)更好。在圖5和圖6中,文中進(jìn)一步展示了一些更加詳細(xì)的視覺結(jié)果圖。在圖5 House的0.5采樣率恢復(fù)圖像中,MSResICS在房子煙囪部分的磚塊細(xì)節(jié)恢復(fù)上紋理更加明顯。在圖6 Monarch的0.125采樣率恢復(fù)圖像中對(duì)比的5種算法均有較為明顯的塊效應(yīng),而MSResICS的恢復(fù)結(jié)果整體平滑;而且在細(xì)節(jié)部分,比如蝴蝶的主體、背景的花卉,MSResICS的恢復(fù)圖像均更加清晰。從整體上來看,在傳統(tǒng)的分塊壓縮感知框架下,無論是基于優(yōu)化的算法還是基于神經(jīng)網(wǎng)絡(luò)的算法,恢復(fù)圖像中圖像塊的邊界容易出現(xiàn)不自然的分界線,尤其在低采樣率下這個(gè)問題尤為明顯。文中提出的MSResICS則成功地避免了這個(gè)問題,在重構(gòu)圖像整體的視覺效果上都均勻平滑。除此之外,在細(xì)節(jié)的恢復(fù)質(zhì)量對(duì)比上,MSResICS也比其他算法保留了更多的高頻信息和邊緣信息,紋理更加清晰。同時(shí),文中還將MSResICS與文獻(xiàn)[18]中提出的MSRNet的部分結(jié)果進(jìn)行了一定的對(duì)比,參照表2,可以看出MSResICS在重構(gòu)圖像的PSNR上要遠(yuǎn)遠(yuǎn)優(yōu)于MSRNet。
表1 MSResICS與幾種不同重構(gòu)算法的PSNR/SSIM恢復(fù)結(jié)果
MH/38.54 GSR/42.32 ReconNet/34.82 ISTA-Net+/40.31 CSNet/41.12 MSResICS/43.61 House/PSNR
圖5 0.5采樣率下不同算法對(duì)圖像House的視覺恢復(fù)圖像
Fig.5 Visual recovery images of different methods on image House under sampling ratio 0.5
MH/24.61 GSR/26.52 ReconNet/23.69 ISTA-Net+/27.43 CSNet/29.06 MSResICS/31.40 Monarch/PSNR
圖6 0.125采樣率下不同算法對(duì)圖像Monarch的視覺恢復(fù)圖像
Fig.6 Visual recovery images of different methods on image Monarch under sampling ratio 0.125
表2 0.25采樣率下MSResICS與MSRNet恢復(fù)結(jié)果PSNR對(duì)比
Table 2 Comparison of recovery PSNR results for MSResICS and MSRNet with sampling ratio 0.25
重構(gòu)算法PSNR/dBBoatLenaMonarchPeppersMSRNet[18]30.7430.2128.9029.51MSResICS36.5235.2234.8133.50
3.2.2 在小數(shù)據(jù)集上的重構(gòu)性能對(duì)比
為了公平的對(duì)比,進(jìn)一步考察MSResICS在小數(shù)據(jù)集上的表現(xiàn),文中基于文獻(xiàn)[19]中使用到的BSDS500數(shù)據(jù)集[27]對(duì)MSResICS進(jìn)行了重新訓(xùn)練,其中訓(xùn)練集總共由400張圖片構(gòu)成,分別來自BSDS500中的訓(xùn)練集(200張圖片)與測(cè)試集(200張圖片),驗(yàn)證集則由來自BSDS500驗(yàn)證集的100張圖片構(gòu)成。除數(shù)據(jù)集不同外,其余訓(xùn)練設(shè)置則與上述實(shí)驗(yàn)保持一致。表3中展示了在不同采樣率下,基于BSDS500數(shù)據(jù)集訓(xùn)練的MSResICS對(duì)上述八幅圖像的平均恢復(fù)結(jié)果,并以CSNet作為基準(zhǔn)進(jìn)行對(duì)比。在低采樣率的情況下,MSResICS(BSDS500)在恢復(fù)圖像的PSNR與SSIM上相較于CSNet仍然有明顯提升。但與基于MSCOCO訓(xùn)練的版本對(duì)比,MSResICS(BSDS500)的恢復(fù)圖像質(zhì)量有所下降。產(chǎn)生以上結(jié)果的主要原因?yàn)椋篗SResICS在訓(xùn)練過程中,輸入的是整幅圖像,需要的圖片量更為龐大,而CSNet對(duì)于圖像分塊進(jìn)行訓(xùn)練,在較小的圖片數(shù)據(jù)集上即可取得不錯(cuò)的效果;同時(shí),由于MSResICS的輸入是整幅圖像的原因,它克服了CSNet在低采樣率下恢復(fù)圖像中的塊效應(yīng)問題,提升了恢復(fù)圖像的質(zhì)量。
表3 基于BSDS500訓(xùn)練的MSResICS恢復(fù)結(jié)果平均PSNR/SSIM比較
Table 3 Comparison of recovery average PSNR/SSIM results on MSResICS trained on BSDS500
訓(xùn)練方式PSNR(dB)/SSIM0.1251)0.2501)0.5001)CSNet29.49/0.877632.98/0.925937.54/0.9689MSResICS(BSDS500)31.45/0.902433.34/0.929637.27/0.9654MSResICS(MSCOCO)31.58/0.905134.74/0.946239.28/0.9775
1)為采樣率。
3.2.3 不同網(wǎng)絡(luò)結(jié)構(gòu)的重構(gòu)性能對(duì)比
在保證網(wǎng)絡(luò)其余結(jié)構(gòu)一致的情況下,表4中展示了S-ResBlock與原版ResBlock在不同采樣率下的對(duì)比實(shí)驗(yàn)結(jié)果。在不同圖像上,S-ResBlock的效果均優(yōu)于ResBlock,PSNR結(jié)果提升0.6~1.2 dB,SSIM大約提升0.02~0.06,證實(shí)了前者針對(duì)壓縮感知任務(wù)的有效性。
表4 S-ResBlock與ResBlock結(jié)構(gòu)恢復(fù)結(jié)果PSNR/SSIM比較
Table 4 Comparison of recovery PSNR/SSIM results between S-ResBlock and ResBlock structures
測(cè)試圖像采樣率PSNR(dB)/SSIMResBlockS-ResblockCameraman0.12527.41/0.820728.35/0.88070.25030.02/0.892531.16/0.92400.50034.37/0.949235.03/0.9641Lena0.12530.71/0.915631.87/0.92150.25034.59/0.950135.22/0.95940.50038.82/0.977539.71/0.9838House0.12533.81/0.882334.99/0.89360.25037.52/0.921538.23/0.93990.50042.46/0.975443.61/0.9822
為了驗(yàn)證采樣子網(wǎng)絡(luò)和圖像增強(qiáng)子網(wǎng)絡(luò)對(duì)重構(gòu)性能的影響,本小節(jié)在保持訓(xùn)練條件不變的情況下重新訓(xùn)練了兩種網(wǎng)絡(luò)結(jié)構(gòu),分別為:①隨機(jī)高斯觀測(cè)+初始重構(gòu)子網(wǎng)絡(luò)+圖像增強(qiáng)子網(wǎng)絡(luò),②采樣子網(wǎng)絡(luò)+初始重構(gòu)子網(wǎng)絡(luò),并與完整的MSResICS進(jìn)行重構(gòu)效果上的對(duì)比。表5中給出了對(duì)應(yīng)的實(shí)驗(yàn)對(duì)
表5 不同子網(wǎng)絡(luò)結(jié)構(gòu)設(shè)定下神經(jīng)網(wǎng)絡(luò)之間的恢復(fù)結(jié)果PSNR/SSIM比較
Table 5 Comparison of recovery PSNR/SSIM results between networks with different subnetwork settings
測(cè)試圖像采樣率PSNR(dB)/SSIM①隨機(jī)高斯觀測(cè)+初始重構(gòu)子網(wǎng)絡(luò)+圖像增強(qiáng)子網(wǎng)絡(luò)②采樣子網(wǎng)絡(luò)+初始重構(gòu)子網(wǎng)絡(luò)完整結(jié)構(gòu)Peppers0.12527.93/0.812230.48/0.876931.21/0.88570.25030.18/0.842632.85/0.915433.50/0.92240.50033.37/0.921235.62/0.954036.43/0.9566Monarch0.12526.15/0.821530.62/0.933531.40/0.94510.25029.11/0.895533.95/0.966534.81/0.97150.50033.41/0.954937.77/0.985239.30/0.9879Parrot0.12527.94/0.882229.91/0.916231.20/0.92420.25030.29/0.917133.36/0.950134.26/0.95560.50034.66/0.967637.62/0.978738.54/0.9804
比結(jié)果。在不同采樣率下,完整的MSResICS都要優(yōu)于兩組對(duì)比試驗(yàn):恢復(fù)圖像PSNR/SSIM相較于①平均提升4.2 dB/0.057,而對(duì)比②平均提升0.94 dB/0.006。部分視覺效果圖對(duì)比如圖7所示,圖中3列從左至右分別為①、②和完整結(jié)構(gòu)3種情況下的重構(gòu)圖像??梢钥闯?,與兩個(gè)對(duì)照組相比,完整結(jié)構(gòu)的網(wǎng)絡(luò)在細(xì)節(jié)和輪廓上的恢復(fù)效果均較好,例如Goldhill的遠(yuǎn)景部分,Lena的帽子部分。以上的結(jié)果表明,采樣子網(wǎng)絡(luò)對(duì)于網(wǎng)絡(luò)的性能有著關(guān)鍵的影響,相比于傳統(tǒng)高斯采樣矩陣,其大大強(qiáng)化了圖像壓縮感知采樣過程中的效率,提升了網(wǎng)絡(luò)的重構(gòu)效果;而圖像增強(qiáng)子網(wǎng)絡(luò)在初始重構(gòu)圖像的基礎(chǔ)上進(jìn)一步增強(qiáng)了恢復(fù)圖像中的細(xì)節(jié)信息,提高了最終恢復(fù)圖像的質(zhì)量。
(a)Goldhill/隨機(jī)高斯矩陣觀測(cè) 采樣率=0.5/PSNR=34.31/SSIM=0.934 7
(b)Goldhill/除去圖像增強(qiáng)子網(wǎng)絡(luò) 采樣率=0.5/PSNR=38.77/SSIM=0.977 4
(c)Goldhill/完整結(jié)構(gòu) 采樣率=0.5/PSNR=39.43/SSIM=0.978 9
(d)Lena/隨機(jī)高斯矩陣觀測(cè) 采樣率=0.25/PSNR=31.24/SSIM=0.904 2
(e)Lena/除去圖像增強(qiáng)子網(wǎng)絡(luò) 采樣率=0.25/PSNR=33.95/SSIM=0.950 1
(f)Lena/完整結(jié)構(gòu) 采樣率=0.25/PSNR=35.22/SSIM=0.959 4
在文中,提出了一種新穎的網(wǎng)絡(luò)結(jié)構(gòu)——MSResICS來處理圖像壓縮感知中的兩個(gè)重要問題:采樣和恢復(fù)。首先,文中放棄了在一些情況下會(huì)限制恢復(fù)性能的傳統(tǒng)分塊壓縮感知框架,提出了基于殘差學(xué)習(xí)的全卷積采樣方法,并運(yùn)用插值卷積,設(shè)計(jì)了對(duì)應(yīng)的初始重構(gòu)子網(wǎng)絡(luò)。為了細(xì)致深入的圖像恢復(fù),基于前兩個(gè)子網(wǎng)絡(luò)的工作,文中進(jìn)一步引入了多階段圖像增強(qiáng)子網(wǎng)絡(luò)以穩(wěn)定地提升重構(gòu)圖像質(zhì)量。通過end-to-end的訓(xùn)練方式,提出的MSResICS獲得了令人滿意的重構(gòu)結(jié)果。與幾種最先進(jìn)的重構(gòu)算法相比,MSResICS在恢復(fù)圖像的PSNR上平均提高了2~3db,在視覺效果上也有著不錯(cuò)的提升。在未來的工作,作者將嘗試將MSResICS結(jié)合到視頻壓縮感知框架下,并尋求更多的突破。