王曉華,侯佳輝,張凱兵,程 敬,蘇澤斌
(西安工程大學 電子信息學院,陜西 西安 710048)
在攝像機捕獲圖像的過程中,由于相機或拍攝對象的運動,經常會導致捕獲的圖像出現運動模糊。受損圖像的模糊邊緣和扭曲的紋理細節(jié)不利于自動駕駛[1-3]、目標檢測[4-6]和語義分割[7-9]等特定的計算機視覺任務的實現。因此,研究單圖像盲運動去模糊技術來提升所獲圖像的視覺質量,已成為計算機視覺領域中非常關鍵的任務之一。
早期的基于深度學習的盲運動圖像去模糊方法通常包括2步,即首先使用卷積神經網絡估計運動模糊圖像的模糊核,然后再使用非盲去卷積的方法恢復清晰圖像[10-11]。然而這種方法難以準確地估計出適應自然場景的模糊核,而且估計模糊核與非盲去卷積是2個相互獨立的步驟,因此難以獲得令人滿意的去模糊效果。近年來,隨著深度學習的發(fā)展[12-13],人們主要關注于研究端到端的盲運動圖像去模糊方法。該方法直接建立模糊圖像與清晰圖像之間端到端的非線性映射,無需明確估計模糊核,因而受到廣大研究者的青睞。例如,文獻[14-15]通過引入生成對抗網絡(generative adversarial networks, GANs),先后提出DeBlurGAN和DeBlurGANv2兩種深度網絡模型,借用GANs的生成能力恢復高質量的清晰圖像。為使深度神經網絡適應復雜場景的運動模糊,文獻[16]提出利用多尺度卷積神經網絡和多尺度損失函數的盲運動圖像去模糊方法,該方法以多階段漸進的方式實現盲運動去模糊,在定性評估和定量評估2個方面均表現較好的性能。隨后,文獻[17]提出了基于圖像金字塔的尺度遞歸網絡,其由3個子網絡組成,每個子網絡的輸入尺度不同,并且不同尺度的網絡之間共享參數,因此該方法能以較少的網絡參數恢復更清晰的圖像??紤]到參數獨立模型和參數共享模型在不同尺度特征之間的差異性和相關性,文獻[18]提出了一種參數選擇共享策略,從而改善去模糊性能。受多尺度方案的啟發(fā),文獻[19]提出了深度分層分塊網絡進行盲運動圖像去模糊,該網絡應用空間金字塔匹配表示非均勻運動去模糊的分層特征,并將圖像分塊處理以得到具有局部和全局的圖像特征,表現出較好的性能。
綜上所述,已有的多階段方法的目的是通過在每個階段使用一個輕量級的子網絡來逐步恢復清晰的圖像,即使用逐級漸進的思想。這種設計是有效的,因為它將具有挑戰(zhàn)性的圖像恢復任務分解為更小的更容易的子任務,并且前一個階段的任務對后一個階段的任務起輔助作用。本文依據此架構設計出基于漸進式深度學習的盲運動圖像去模糊方法。然而,如何在不同子任務之間有效的進行信息交互,實現不同階段特征的互補融合,仍然是一個具有挑戰(zhàn)性的問題。本文受文獻[20]方法的啟發(fā),針對盲運動圖像去模糊任務中多階段深度神經網絡缺少大范圍感受野和難以合理交互各階段圖像特征的問題,構建基于擴張卷積塊和上下文注意力特征融合的漸進式深度神經網絡,利用各階段之間的信息交互和多階段漸進機制,充分利用局部和全局圖像特征引導圖像恢復,以提升圖像特征的利用效率,從而獲得更高質量的去模糊圖像。其次,應用擴張卷積塊捕獲大范圍的像素信息,有利于恢復更精細的圖像紋理結構。最后,依據文獻[19]提出的分塊思想,本文根據層級不同將輸入圖像分塊處理,目的在于使較低的階段關注局部信息。
本文提出的基于PDNet盲運動圖像去模糊方法主要由局部特征提取、圖像特征整合和圖像恢復3個階段構成,如圖1所示。
圖 1 PDNet的整體框架Fig.1 The framework of PDNet
圖1中,模糊圖像的淺層特征包含較多的紋理細節(jié),所以在每一階段都包含淺層特征提取模塊(shallow feature extraction module, SFEM)。為了捕獲更大范圍的像素信息以提高恢復質量,PDNet在每一階段的編碼-解碼器中應用MDCB。在圖1中的局部特征提取階段由SFEM、編碼器、解碼器和卷積層組成。在圖像特征整合階段和圖像恢復階段利用CAFM進行不同階段圖像特征的信息交互,以實現漸進式的圖像特征增強。不僅如此,本文在不同階段將輸入圖像均勻劃分成不同大小圖像塊,每個階段的輸入和輸出圖像塊的數量均不相同,使得圖像特征隨著階段的增加而相互融合,有利于低階段的局部信息融合高階段的全局信息,從而生成豐富的上下文圖像特征。在圖像恢復階段,除了包含與特征整合階段一樣的SFEM和CAFM外,為了保持原有的圖像分辨率,設計了具有殘差結構的圖像分辨率保持模塊,避免上下采樣操作帶來的像素損失。
模糊圖像中的像素是不規(guī)則擴散的,為了使模型更精確的關注模糊區(qū)域,本文引用坐標注意力模塊實現水平和垂直空間方向的聚合特征,不僅可以捕獲圖像像素之間的遠程依賴關系,而且可以保存精確的位置信息,坐標注意力[21],坐標注意力模塊如圖2所示。
圖 2 坐標注意力模塊Fig.2 Coordinate attention module
為了獲取不同尺度的圖像特征,本文基于標準U-Net[22]構建編碼-解碼器。相較于U-Net,編碼-解碼器可以利用擴張卷積增大模型的感受野,并且使用橫向連接來彌補下采樣操作帶來的像素損失,編碼-解碼器結構如圖3所示。
圖 3 編碼-解碼器結構Fig.3 The encoder-decoder structure
為了捕獲更大范圍的像素信息,本文添加MDCB。MDCB利用擴張卷積和編碼-解碼器中輸入的多尺度圖像來感知更大范圍的像素信息,并且利用多分支結構進一步增強圖像特征表達,有助于盲運動圖像去模糊任務。MDCB結構由2個多分支擴張卷積組級聯構成,各個分支的擴張卷積層使用不同的擴散因子,不但可以擴大感受野,而且能適應不同程度的運動模糊。每個分支的擴張卷積的卷積核均為3,擴散因子從上至下分別是1、3和5。
多階段深度學習模型可以獲得非常豐富的圖像信息,但如何使用這些圖像信息實現盲運動圖像去模糊任務非常關鍵。為交互不同階段之間的圖像特征,本文提出CAFM。首先,CAFM可以為各個階段之間的圖像特征建立橋梁,使得先前階段的多尺度特征增強下一階段的特征,并且利用注意力機制獲取當前階段有利于去模糊的圖像特征,使得有用的圖像特征傳遞到下一階段。其次,利用CAFM有助于低級階段的局部信息和高級階段的全局信息充分融合。如圖1中的CAFM所示,來自上一階段的圖像特征經過卷積層和Sigmoid函數處理后得到權重分數,然后以加權的方式增強當前階段的圖像特征。計算過程表示為
W=fs(fc(Fpre))
(1)
Ffu=fcord(Fcur+fc(Fcur)⊙W)
(2)
式中:fc為卷積層;fs為Sigmoid函數;fcord為坐標注意力層;W為權重分數;Fpre為上一階段的圖像特征;Fcur為當前階段的圖像特征;Ffu為融合后的圖像特征;⊙為對應元素相乘。
由于在編碼-解碼器中采用上下采樣操作會導致圖像細節(jié)信息的丟失,不利于盲運動圖像去模糊。為了從輸入的模糊圖像中恢復出更加清晰的圖像細節(jié),在圖像恢復階段引入由多個殘差塊級聯組成的圖像分辨率保持模塊,如圖1所示。其由多個殘差塊組成,輸入圖像特征經過卷積層和LeakyReLU激活函數處理后與自身相加,最終再通過LeakyReLU激活函數得到輸出圖像特征。圖像分辨率保持模塊不使用任何降采樣操作,以便于保留高分辨率的圖像特征。圖像分辨率保持模塊的計算過程描述為
Fn=fres(Fn-1),n=1,2,…,6
(3)
式中:fres為殘差塊;Fn-1為第n-1個殘差塊的輸入特征,其中F0為圖像分辨率保持模塊的輸入特征。
本文實驗運行平臺為Ubuntu16.04的操作系統(tǒng),設備配置為RTX2080Ti Intel i5-6700K。在GoPro數據集上訓練盲運動圖像去模糊網絡模型。為了從有限的基準數據庫中學習不同的圖像特征,本文對訓練集中的圖像使用隨機水平翻轉、垂直翻轉和90°旋轉進行數據增強。網絡模型應用Adam優(yōu)化器訓練,訓練次數設置為1 600輪,初始學習率設置為10-4,學習率調度策略為余弦下降,最低學習速率設置為10-6。
在優(yōu)化端到端的盲運動圖像去模糊深度網絡時,設計有效的損失函數至關重要。由于PDNet的每一個階段都能重建出一張去模糊后的圖像,因此本文采用多階段聯合損失函數優(yōu)化PDNet。本文使用一范數衡量恢復圖像與真實標簽圖像之間的差異。多階段聯合損失函數定義如下:
本文選用在多階段去模糊方法中具有代表性的SRN[17]和DMPHN(1-2-4-8)[19],GANs去模糊方法中的DeblurGAN[15]和DBGAN[23],以及具有迭代特點的SIUN[24]作為對比方法。首先在GoPro基準數據集上評估PDNet的有效性。表1給出本文方法與另外5種主流盲運動圖像去模糊方法在客觀質量上的對比結果,評價指標包括PSNR和SSIM。
表 1 對比實驗結果
從表1可以看出,DeblurGANv2獲得的評價指標最差。SRN共享每一個階段的網絡參數,并且利用由粗到細的去模糊策略,因此能獲得較好的盲運動圖像去模糊性能。而DBGAN集成了2個GANs,以一個指導另一個的策略恢復圖像,其可以得到相比于SRN更好的圖像質量。SIUN以迭代的方式恢復清晰圖像,而且不同的模糊圖像使用不同的迭代次數進行訓練和預測,具有更好的適應性,可以恢復出更優(yōu)的結果。DMPHN(1-2-4-8)采用圖像分塊策略實現圖像去模糊,結合圖像的局部與全局信息漸進式地恢復清晰圖像,因此有更優(yōu)的去模糊效果。相比于上述方法,本文采用CAFM能有效地利用圖像特征,并利用MDCB感知不同范圍的像素信息,因此其評價指標均高于其他對比方法。此外,為進一步評估本方法的泛化性能,使用在GoPro數據集上訓練的模型在RealBlur-J[25]低光場景測試集上進行測試,從表1的RealBlur-J列上對應的對比結果可以看出,SRN、DeblurGANv2和DBGAN的評價指標明顯下降,表明其泛化能力不足。而SIUN使用獨特的迭代策略,可以適應不同模糊程度的模糊圖像,表現出比其他方法更好的泛化能力。DMPHN(1-2-4-8)采用漸進方式實現圖像去模糊,因而也能獲得較好恢復質量。相比于上述對比方法,本文提出的盲運動圖像去模糊方法采用多階段漸進式去模糊策略,并加強各階段之間的信息的交互,因此能獲得更好的泛化能力,在PSNR和SSIM上均獲得了具有競爭性的客觀評價結果。
為了進一步驗證本文提出的盲運動圖像去模糊方法的優(yōu)越性,圖4展示在GoPro測試數據集中盲圖像去模糊的視覺對比結果,此圖中具有較多的紋理細節(jié),視覺感知明顯。其中,除真實標簽圖像和模糊圖像外,每幅圖像底部均展示了PSNR(單位:dB)和SSIM指標值。
圖 4 GoPro數據集上去模糊圖像對比結果Fig.4 Results of deblurring images on GoPro data set
從圖4可以看出,盡管以往盲運動圖像去模糊網絡生成的圖像能獲得相比于原始運動模糊圖像更清晰的圖像細節(jié),但局部細節(jié)和邊緣結構仍然存在明顯的失真。比如,DBGAN、SRN和DMPHN(1-2-4-8)放大區(qū)域中的斑馬線出現較顯著的扭曲現象,DeblurGANv2和SIUN恢復的圖像中放大區(qū)域中的汽車目標區(qū)域出現較大區(qū)域的偽影。相比其他對比方法,本文提出的多階段漸進式盲運動圖像去模糊方法能夠融合不同階段的上下文特征,并且MDCB使其適應不同程度的運動模糊。因此能獲得更清晰的紋理細節(jié)和圖像邊緣。
為了進一步驗證本文提出的盲運動圖像去模糊方法的優(yōu)越性,圖5對比了在RealBlur-J低光場景數據集上不同方法生成的去模糊結果。
圖 5 RealBlur-J數據集上去模糊圖像對比結果Fig.5 Results of deblurring images on RealBlur-J data set
從圖5可以看出,由于自然場景的變化,導致不同方法的恢復圖像在視覺上存在較大的差異,其中SIUN的恢復圖像沒有清晰的文字輪廓,而DeblurGANv2使用圖像金字塔模型構造多尺度特征組能在一定程度上抑制偽影失真,但在邊緣區(qū)域仍存在明顯的振鈴效應。盡管DBGAN利用GANs模型的圖像生成能力,其恢復的圖像偽影較少,但細節(jié)上存在明顯的混疊現象。而DMPHN(1-2-4-8)和SRN采用漸進式的網絡結構將復雜的去模糊任務分解為若干個相對容易的子任務,具有較強的抑制偽影失真的能力,恢復的圖像具有較好的視覺效果,但客觀評價質量較低。而本文提出的盲運動圖像去模糊模型利用MDCB在多尺度圖像上感知更大范圍的像素信息,并且通過CAFM實現各階段之間的不同尺度特征信息的融合,因此在恢復紋理和文字等圖像細節(jié)方面明顯優(yōu)于其他模型。
為了驗證CAFM和MDCB的有效性,本文在保持其他網絡結構不變的情況下,減少或增加網絡模塊進行對比實驗。表2為消融實驗結果,由于刪除MDCB之后PDNet的結構會發(fā)生變化,本文使用卷積組替換MDCB。卷積組由6個帶有ReLU激活函數的卷積層級聯組成,在表2中√表示選用了該模塊,×表示不選用此模塊。
表 2 消融實驗結果
從表2可以看出,在MDCB和CAFM均不使用的情況下,本文提出的方法在GoPro和RealBlur-J數據集上恢復出的圖像的2個客觀評價指標最低。當僅使用MDCB時,恢復圖像的評價指標有所降低。當在此基礎上增加CAFM后,恢復圖像在2個評估數據集上均取得最好的評價指標。上述實驗表明,聯合使用MDCB和CAFM能明顯提高去模糊網絡的圖像恢復能力。
為進一步驗證MDCB和CAFM對去模糊任務的貢獻,圖6展示了GoPro數據集中具有代表性的圖像的恢復效果,此圖像的紋理細節(jié)具有明顯的視覺感知區(qū)別。
圖 6 消融實驗圖像Fig.6 Results of ablation experiment
從圖6的放大區(qū)域對比結果可以看出,使用注意力融合模塊和多尺度擴張卷積模塊的深度神經網絡模型恢復出的圖像中衣服的褶皺區(qū)域更加清晰,而且集成MDCB和CAFM的去模糊模型能生成與原始高質量圖像更逼近的重建結果,在客觀質量評價方面取得更高的PSNR和SSIM值。
針對盲運動圖像去模糊任務中多階段深度神經網絡缺少大范圍感受野和難以合理交互各階段圖像特征而導致恢復圖像質量不高的問題,本文提出了一種新的端到端的深度網絡模型PDNet。該模型利用包含局部特征提取、圖像特征整合和圖像恢復3個階段的漸進式深度神經網絡框架實現盲運動圖像去模糊任務,其中前2個階段使用具有MDCB的編碼-解碼器生成圖像的上下文特征,最后一個階段使用原始分辨率保持模塊恢復圖像,并在每個階段之間使用CAFM生成具有局部與全局信息的圖像特征,因此能恢復出具有精細紋理的清晰圖像。在GoPro數據集上的對比實驗結果表明,本文提出的深度網絡模型在定量和定性方面均優(yōu)于其他模型。在RealBlur-J數據集上的對比實驗結果表明,提出的模型在泛化能力上優(yōu)于其他模型。