蘇進勝,張明軍,俞文靜
(廣州軟件學院 網(wǎng)絡技術系,廣東 廣州 510990)
圖像超分辨率重建是通過單幅低分辨率圖像(low resolution,LR)或圖像序列重建超分辨率圖像(super resolution,SR)的過程。超分辨率圖像具有更多的細節(jié)信息和畫質(zhì),這些細節(jié)在軍事、公共安全、交通安全、氣象災害預警、森林病蟲害識別、醫(yī)學檢驗成像和計算機視覺等領域有著重要的應用價值。
單幀圖像超分辨率重建(single image super resolution,SISR)[1-6]是從觀測到的一幅低分辨率圖像重建出相應的超分辨率圖像,不依賴其他相關圖像的超分辨率技術。在監(jiān)控設備、數(shù)字高清、顯微成像、視頻編碼通信、衛(wèi)星圖像遙感、視頻復原和醫(yī)學影像等領域都有重要的應用價值。這是一個“病態(tài)問題”,因為采用不同的方法重建出的圖像不會完全一樣。SISR是一個反向問題,對于一幅低分辨率圖像,可以存在不同品質(zhì)的超分辨率圖像與其對應,因此在由低分辨圖像重建超分辨率圖像時通常會施加一個先驗信息進行規(guī)范化約束。在傳統(tǒng)的重建方法中,這種先驗信息可以通過若干低—超分辨率圖像對的實例中習得。而基于深度學習的高分辨率重建方法是通過卷積神經(jīng)網(wǎng)絡直接學習低分辨率圖像到超分辨率圖像的映射函數(shù)。近年來出現(xiàn)了基于生成對抗網(wǎng)絡(generative adversarial networks,GAN)[7]的超分辨率重建的算法。重建方法的關鍵是學習低分辨率塊和超分辨率塊之間的映射關系。在重建方法上從早期的稀疏字典方法到現(xiàn)在的深度學習方法,其中使用生成對抗網(wǎng)絡重建的效果會更好,但是每一種方法都有其局限性。該文采用了針對不同的生成對抗神經(jīng)網(wǎng)絡重建的超分辨率方法進行圖像融合,使用圖像融合算法將兩幅或多幅圖像進行融合重建出相應的超分辨率圖像。這種圖像融合能利用兩幅(或多幅) 圖像在時空上的相關性及信息上的互補性,使得融合后的圖像對一些應用場景有更加全面和清晰的描述。融合兩種或多種方法進行重建的圖像效果比融合前的單一方法重建的圖像效果要好。主要貢獻是基于集成學習的思想,提出了一種融合不同超分辨率重建的方法。 融合前的方法各有特點。根據(jù)超分辨率場景的要求,可以靈活選擇不同的算法進行融合,仿真實驗證明了該方法的有效性。
早期算法常用插值方法,比如最鄰近插值、雙線性插值、雙三次插值。這些濾波算法能產(chǎn)生過于平滑超分辨率圖像輸出,但是缺乏高頻信息。
基于稀疏信號表示的方法[8]。圖像統(tǒng)計表明圖像塊可以表示為選擇適當超完備字典的稀疏線性組合形式,受此啟發(fā),該文尋求每個低分辨率輸入圖像塊的稀疏表示,然后用此稀疏表示的系數(shù)來生成超分辨率圖像。壓縮感知理論[9]表明,一幅圖像能夠在一些條件差的情況下由它的一組稀疏表示系數(shù)在超完備字典上進行精確重建[8]。
基于學習的單幀超分辨率重建是近年來研究的一個熱點問題,又稱為圖像幻感(image hallucination)[10]或基于樣例(example-based)[11]的超分辨率重建。它通過使用神經(jīng)網(wǎng)絡方法從訓練集樣本提取高頻信息,從而對未知樣本所需信息進行預測,提高圖像分辨率的重建質(zhì)量。
近些年來,隨著云計算、大數(shù)據(jù)和計算機算力的提高,深度學習逐漸興起,卷積神經(jīng)網(wǎng)絡也被應用到超分辨率圖像重建應用中。深度卷積神經(jīng)網(wǎng)絡能很好地學習低分辨率圖像和超分辨率圖像之間的映射關系。卷積神經(jīng)網(wǎng)絡采用單通道卷積核或者多通道卷積核,通過卷積運算逐層提取輸入圖像的局部特征模式,前向傳遞給中間的隱藏層,隨著隱藏層層數(shù)的增加和網(wǎng)絡加深而逐步學習到高級的特征,最后經(jīng)過上采樣得以重建高分辨率圖像。典型的前饋深度網(wǎng)絡包括多層感知機和卷積神經(jīng)網(wǎng)絡(CNN)。
常用的方法有基于卷積神經(jīng)網(wǎng)絡的方法(super resolution using convolution neural network,SRCNN)和基于極深網(wǎng)絡的方法(very deep networks for SR,VDSR)[12-15]。深度殘差網(wǎng)絡[16]的引入更是把深度一下子增加至152層,更深的網(wǎng)絡使用可以明顯提高重建圖像的質(zhì)量。SRCNN[17-19]首次提出了一種基于深度學習的單幅圖像超分辨率重建方法,采用端到端的方式學習超分辨率圖像和低分辨率圖像之間的映射,可以用一個深度卷積神經(jīng)網(wǎng)絡來表示,通過輸入低分辨率的影像輸出超分辨率的影像。
大多數(shù)超分辨率圖像重建方法一般都是放大較小的倍數(shù),例如2~4倍,當放大倍數(shù)在4倍以上時就會出現(xiàn)過度平滑的現(xiàn)象,使得圖像出現(xiàn)一些非真實感。近年來,GAN(generative adversarial networks)[7]也被應用到超分辨重建算法上,取得了非常不錯的效果。SRGAN[1]首次借助于GAN的網(wǎng)絡架構生成圖像中的細節(jié)。SRGAN的結構如圖1所示。
生成對抗網(wǎng)絡是一種生成模型,是近年來深度學習中有創(chuàng)造性的一種影響深遠的方法。生成對抗網(wǎng)絡模型主要包括兩部分:生成模型和判別模型。生成對抗網(wǎng)絡同時訓練兩個模型:生成模型G捕捉數(shù)據(jù)隨機分布信息,判別模型D評估生成樣本以假亂真的概率大小。生成模型G訓練過程是使D最大化的犯錯,判別模型最大化地判別出生成樣本,等兩者分別達到0.5的概率,訓練結束[7]。
對于GAN,一個簡單的理解是可以將其看作零和博弈的過程,該文可以將生成模型和判別模型看作博弈的雙方。比如在犯罪分子造假幣和警察識別假幣的過程中:生成模型G相當于制造假幣的一方,其目的是根據(jù)看到的錢幣情況和警察的識別技術,去盡量生成更加真實的、警察識別不出的假幣。判別模型D相當于識別假幣的一方,其目的是盡可能識別出犯罪分子制造的假幣。這樣通過造假者和識假者雙方的較量和改進,使得最后能達到生成模型能生成盡可能真的錢幣、識假者判斷不出真假的納什均衡效果(真假幣概率都為0.5)。SRGAN是使用GAN網(wǎng)絡中的生成網(wǎng)絡直接生成超分辨率圖像。
GAN網(wǎng)絡的結構如圖2所示。
圖1 SRGAN網(wǎng)絡結構
圖2 生成對抗網(wǎng)絡結構
GAN中的生成模型和判別模型一般都是卷積神經(jīng)網(wǎng)絡,網(wǎng)絡使用均方誤差(MSE)指標作為損失函數(shù)進行訓練,能夠獲得較高的峰值信噪比(PSNR),但是這種算法生成的圖像往往會丟失一些高頻細節(jié)信息,視覺體驗欠佳。SRGAN提出提升視覺體驗的感知損失(perceptual loss)[19]和對抗損失(adversarial loss)[1],從而結合均方誤差損失來提升輸出圖像的質(zhì)量。
SRGAN的結果與真實圖像之間仍然存在明顯的差異,ESRGAN[20]從三個方面去提升這個模型。首先,通過引入密集殘差塊(RDDB)來提升模型的結構,使之具有更大的容量和更易于訓練。去除了批量歸一化層,使用了殘差縮放(residual scaling)等來促進訓練一個深層次網(wǎng)絡。第二,提出了辨別器使用相對平均GAN(RaGAN),相對平均GAN學習判斷“是否一個圖像相比于另一個更真實”而不是“是否一個圖像是真或假”,這樣的改進有助于生成器恢復更真實的紋理細節(jié)。第三,在ESRGAN提出了一種改進的感知損失,通過激活之前使用VGG特征而不是在激活后使用。ESRGAN的網(wǎng)絡結構如圖3所示。
圖3 ESRGAN網(wǎng)絡結構
圖像融合(image fusion)是用圖像融合算法將兩幅或多幅圖像綜合成一幅新的圖像。目前應用最多的是像素級融合算法。圖像融合能充分利用兩幅或多幅圖像的相似性及信息上的互補性,使得融合后的圖像具備更多的細節(jié)信息。實驗證明對同一幅圖像像素有細微差別的圖像仍然可以進行融合,融合后的圖像效果比融合前的效果要好。
子像素卷積方法(sub-pixel convolution)[21]對提取的圖像特征圖采用上采樣(upscale)方式建立超分辨率圖像,又叫做像素洗牌(pixel shuffle),它可以避免帶入過多人工因素,重建的圖像質(zhì)量高。
SRGAN和ESRGAN兩種方法均使用了生成對抗網(wǎng)絡,結合子像素卷積方法進行上采樣生成超分辨率圖像,生成的圖像質(zhì)量比較高。BasicSR(basic super restoration)[22]是一種開源的圖像和視頻還原工具箱,可以用于超分辨率、去噪等領域。SRGAN提出感知損失(perceptual loss)和對抗損失(adversarial loss)來提升恢復出的圖片的真實感,使得重建的超分辨圖像達到了照片級效果。正如前文所示,ESRGAN主要針對SRGAN作了三個方面的改進,生成的超分辨圖像比SRGAN更逼真、更自然,在紋理上獲得了更好的視覺感受。
超分辨率重建方法很多,該文選用這三種比較典型的方法各自重建超分辨率圖像,然后兩兩進行融合,重建出最后的高分辨圖像。網(wǎng)絡結構如圖4所示。
圖4 融合不同超分辨率重建模塊的結構
為了驗證圖像融合后的超分辨率效果,該文采用BasicSR+SRGAN、BasicSR+ESRGAN和SRGAN +ESRGAN這三種組合,用每一種方法各自生成的超分辨圖像進行融合,從峰值信噪比(PSNR)和結構相似性(SSIM)兩個指標值對比融合后和融合前的超分辨圖像效果。
SRGAN和ESRGAN重建的超分辨率圖像,不論在像素級還是視覺感官上都到達了非常高的質(zhì)量。選用數(shù)據(jù)集Set5進行圖像融合實驗,采用這兩種有代表性的算法及BasicSR方法在此測試數(shù)據(jù)集上重建的超分辨率圖像兩兩進行融合,融合權重分別為0.4和0.6。
衡量圖像質(zhì)量標準主要有兩個指標:峰值信噪比(PSNR)和結構相似性(SSIM)。PSNR(peak signal to noise ratio)是應用廣泛的一種圖像客觀評價指標,它是針對像素點間的誤差評價圖像質(zhì)量,其值越大圖像越接近原始圖像質(zhì)量。SSIM(structural similarity),是另一種圖像質(zhì)量評價指標,它分別從亮度、對比度和結構三方面度量圖像相似性[23]。
表1~表3是用三種不同方法對重建的超分辨率圖像進行融合仿真實驗。在被選用的三種方法上分別進行了BasicSR和SRGAN2倍上采樣超分辨率圖像重建、BasicSR和SRGAN4倍上采樣超分辨率圖像重建及SRGAN和ESRGAN4倍上采樣超分辨率圖像重建。主要從衡量圖像的兩個重要的客觀指標上對比了融合前后的圖像質(zhì)量。實驗表明用不同方法重建的高分辨圖像進行融合后的效果要比單一方法建立的超分辨率圖像的效果好。
表1 BasicSR和SRGAN融合實驗結果[2倍上采樣]
表2 BasicSR和SRGAN融合實驗結果[4倍上采樣]
表3 SRGAN和ESRGAN融合實驗結果[4倍上采樣]
從表1和表3可以看出,融合后的PSNR和SSIM指標都比融合前的要好。從表2看融合后的PSNR比融合前的好,而SSIM指標比融合前的一個好,比另一個要差一些,但是總體上來看融合后的效果要好于融合前的效果。實驗結果證明了融合的有效性。
提出了一種使用不同生成對抗網(wǎng)絡生成的超分辨率圖像進行圖像融合重建超分辨率圖像的方法,通過對不同方法重建的高分辨率圖像進行融合生成最終的超分辨率圖像。實驗結果表明融合后的圖像效果要比融合前采用不同方法單獨重建的圖像效果好。超分辨率圖像重建在醫(yī)學影像診斷、航天和氣象等領域都有廣泛的應用。在融合不同的方法上還沒有完全采用集成學習的思想實現(xiàn),在后續(xù)研究中將深入研究,實現(xiàn)端到端的神經(jīng)網(wǎng)絡架構生成超分辨率圖像。