申海杰,邊 倩,陳曉范,王振鐸,田新志
(西安思源學(xué)院電子信息工程學(xué)院,陜西西安710038)
近年來,隨著手持拍攝設(shè)備的廣泛普及,人們?cè)絹碓絻A向于采用錄制視頻的方式記錄自己的生活。然而,在拍攝的過程中由于拍攝設(shè)備的抖動(dòng)或拍攝目標(biāo)的運(yùn)動(dòng)會(huì)使得拍攝到的視頻出現(xiàn)不必要的模糊,這就大大降低了視頻圖像的質(zhì)量。因此,需要一種有效的視頻去模糊的算法來實(shí)現(xiàn)對(duì)模糊視頻的復(fù)原。目前,最有效的視頻去模糊方法是利用相鄰幀的圖像信息來銳化模糊圖像[1],該方法通過從相鄰幀圖像中提取質(zhì)量好的像素或圖像區(qū)域,并將其進(jìn)行聚合,從而重建出高質(zhì)量的清晰圖像。文獻(xiàn)[2-3]的工作表明,與傳統(tǒng)的反卷積去模糊方法相比,基于圖像塊合成的方法能夠取得更好的效果。對(duì)于此類方法而言,使用圖像配準(zhǔn)的方法將多幀模糊圖像進(jìn)行對(duì)齊是實(shí)現(xiàn)圖像去模糊的前提,相鄰幀圖像的配準(zhǔn)一般可通過最近鄰圖像塊查找[2]或光流法[3]來實(shí)現(xiàn)。然而這種圖像配準(zhǔn)的方法在紋理較低的區(qū)域魯棒性較差,且時(shí)間消耗大。
近年來,深度學(xué)習(xí)的方法被不斷應(yīng)用于圖像及視頻去模糊的任務(wù)中[4-6],并通過大量研究證明了該方法在圖像去模糊方面的優(yōu)越性。在視頻去模糊方面,文獻(xiàn)[1]首次提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的端到端的視頻去模糊算法,該方法將相鄰幀圖像依據(jù)圖像三色通道進(jìn)行疊加,然后放入卷積神經(jīng)網(wǎng)絡(luò)模型中學(xué)習(xí)多幀模糊圖像與清晰圖像之間的映射關(guān)系,從而達(dá)到復(fù)原中心幀圖像的目的。此外,文獻(xiàn)[7]還將生成對(duì)抗網(wǎng)絡(luò)[8](Generative Adversarial Network,GAN)應(yīng)用于視頻去模糊中,并通過使用三維卷積實(shí)現(xiàn)了對(duì)輸入相鄰幀圖像空間信息的提取和融合。
以上所提到的基于深度學(xué)習(xí)的視頻去模糊算法均采用端到端的模型來實(shí)現(xiàn)對(duì)清晰圖像的預(yù)測(cè),其最終生成清晰圖像的效果僅依據(jù)模型所確定的均方誤差函數(shù)來進(jìn)行誤差的反向傳播。然而,人眼對(duì)圖像質(zhì)量的評(píng)價(jià)受多種因素的影響,并非單一誤差函數(shù)可以決定。文中將像素空間損失函數(shù)與特征空間損失函數(shù)相結(jié)合,使得真實(shí)圖像與網(wǎng)絡(luò)生成的圖像可以分別在像素空間和特征空間進(jìn)行比較,如此可保證復(fù)原圖像具有更好的視覺效果。此外,傳統(tǒng)生成對(duì)抗網(wǎng)絡(luò)中的判別網(wǎng)絡(luò)僅依據(jù)圖像的整體信息來判斷圖像的真?zhèn)危@樣會(huì)導(dǎo)致圖像信息的嚴(yán)重丟失。文中受馬爾可夫判別器[9-10]思想的啟發(fā)設(shè)計(jì)了一個(gè)判別網(wǎng)絡(luò),該網(wǎng)絡(luò)可以對(duì)圖像塊信息甚至像素信息的真?zhèn)巫龀雠袛?,使得網(wǎng)絡(luò)更注重紋理信息的學(xué)習(xí)。
文中工作的目標(biāo)是通過學(xué)習(xí)多幀模糊圖像與真實(shí)清晰圖像之間端到端的映射關(guān)系以實(shí)現(xiàn)視頻的去模糊,為此,基于生成對(duì)抗網(wǎng)絡(luò)設(shè)計(jì)了一個(gè)視頻去模糊網(wǎng)絡(luò)。如圖1所示,給定一組模糊圖像序列,首先分別通過生成網(wǎng)絡(luò)的第一層卷積層進(jìn)行空間信息的提取,接著將提取的空間特征進(jìn)行融合,融合后的空間信息通過一個(gè)16層的深度殘差網(wǎng)絡(luò)類來學(xué)習(xí)模糊圖像序列與清晰圖像之間的映射關(guān)系,隨后生成的圖像被送入判別器中以判斷其真實(shí)程度,以保證最終生成與真實(shí)圖像高度相似的圖像。
注:該網(wǎng)絡(luò)由基于深度殘差網(wǎng)絡(luò)的生成網(wǎng)絡(luò)和由4層卷積網(wǎng)絡(luò)組成的判別網(wǎng)絡(luò)構(gòu)成。其中,Conv表示卷積層,BN表示歸一化層,ReLU表示激活層的線性整流函數(shù)。圖1 視頻去模糊網(wǎng)絡(luò)結(jié)構(gòu)圖
文中提出的生成網(wǎng)絡(luò)的詳細(xì)結(jié)構(gòu)圖如圖1左側(cè)所示,該網(wǎng)絡(luò)主要由空間特征提取與融合模塊,淺層特征提取模塊,基于深度殘差網(wǎng)絡(luò)的深層特征提取模塊,以及圖像重建模塊4部分組成。要通過綜合多幀模糊圖像的信息生成單幀清晰圖像,首先需要學(xué)習(xí)多幀圖像之間的空間關(guān)系。為此,這里分別在輸入的每幀模糊圖像后接入一層卷積層來對(duì)每幀圖像的空間特征信息進(jìn)行提取,接著將卷積層提取到的特征進(jìn)行拼接,以實(shí)現(xiàn)空間信息的融合,此過程的表達(dá)式如下:
(1)
(2)
其中,GSF表示空間特征提取操作,Gconcat表示空間特征拼接操作。接著,采用一層卷積層來實(shí)現(xiàn)淺層特征的提取,提取的淺層特征隨后經(jīng)過一組深度殘差網(wǎng)絡(luò)來提取更深層的特征。
F2=GCF(F1) ,
(3)
F3=GDR(F2) ,
(4)
其中,GCF和GDR分別表示含有一層卷積層的淺層特征提取模塊和包含16個(gè)殘差塊的深層特征提取模塊。經(jīng)過深層特征提取后生成的特征圖,經(jīng)3層卷積層進(jìn)行重建,生成最終的復(fù)原圖像IR。
IR=GREC(F3) ,
(5)
其中,GREC表示圖像重建模塊。
受馬爾可夫判別器和Wasserstein GAN[11](WGAN)的啟發(fā),文中設(shè)計(jì)了一個(gè)判別網(wǎng)絡(luò)。如圖1右側(cè)所示,該網(wǎng)絡(luò)由4層卷積層構(gòu)成,其中,最后一層用于輸出一個(gè)圖像真?zhèn)蔚呐袛嗑仃?。該矩陣中的每個(gè)元素分別代表判別器對(duì)每個(gè)圖像塊的判斷結(jié)果,此操作可以保證圖像細(xì)節(jié)信息的精確恢復(fù)。此外,文中還引入Wasserstein距離作為衡量訓(xùn)練效果的指標(biāo)。由于在大多數(shù)情況下,Wasserstein距離具有連續(xù)且?guī)缀跆幪幙晌⒌睦硐胄再|(zhì),因此,使用Wasserstein距離來衡量生成圖像與真實(shí)圖像之間的差異可以防止梯度消失,并可獲得更好的復(fù)原效果。WGAN通過解決式(6)的最小最大對(duì)抗性問題來獲得最優(yōu)的生成和判別網(wǎng)絡(luò)。其主要目標(biāo)是希望生成網(wǎng)絡(luò)生成的圖像能夠騙過判別器D,使得判別器無法判斷該圖像是真實(shí)的還是生成的,通過生成器與判別器之間的相互博弈,使得網(wǎng)絡(luò)最終可以復(fù)原出與真實(shí)清晰圖像高度相似的圖像。
(6)
文中設(shè)計(jì)的模型使用的損失函數(shù)是由對(duì)抗損失函數(shù)LGAN,基于像素空間的損失函數(shù)Lpixel以及基于特征空間的損失函數(shù)Lperceptual組成的,其表達(dá)式為
L=LGAN+aLpixel+bLperceptual,
(7)
其中,a和b分別為像素空間損失函數(shù)和特征空間損失函數(shù)的權(quán)重,用于衡量對(duì)每個(gè)損失函數(shù)的重視程度。由于特征空間的損失函數(shù)權(quán)重過大會(huì)導(dǎo)致圖像灰度信息的缺失,故文中a=100,b=0.001。
1.3.1 像素空間損失函數(shù)
像素空間損失函數(shù)主要用于保證生成圖像與真實(shí)圖像在內(nèi)容上的相似性。由于使用L2損失函數(shù)常會(huì)導(dǎo)致生成的圖像模糊[9, 12],所以文中使用L1損失函數(shù)作為像素空間損失函數(shù)。L1函數(shù)定義如下:
(8)
其中,W和H分別為圖像的長(zhǎng)和寬。
1.3.2 特征空間損失函數(shù)
像素空間損失可以用于保證生成圖像與真實(shí)圖像之間的相似性,但僅僅在像素空間上對(duì)圖像進(jìn)行比較,不利于圖像紋理細(xì)節(jié)信息的復(fù)原。文中將生成的圖像與真實(shí)圖像送入訓(xùn)練好的19層卷積神經(jīng)網(wǎng)絡(luò)(VGG19)中,通過計(jì)算生成圖像特征圖與原始圖像特征圖之間的歐氏距離來計(jì)算其感知損失函數(shù)[13],即
(9)
其中,φi,j是第i個(gè)池化層之前的第j個(gè)卷積所獲得的特征映射,Wi,j和Hi,j是φ的維度。
1.3.3 對(duì)抗損失函數(shù)
文中使用的對(duì)抗損失函數(shù)基于Wasserstein GAN,定義如下:
(10)
其中,N是數(shù)據(jù)集中圖像的數(shù)量。
為了對(duì)文中提出的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,需要兩組包含相同內(nèi)容的視頻,一組是高質(zhì)量的清晰視頻,另一組是相對(duì)應(yīng)的因拍攝設(shè)備抖動(dòng)或目標(biāo)運(yùn)動(dòng)而產(chǎn)生的模糊視頻,但通過拍攝來獲取這樣兩組視頻是十分困難的。一種常用的方法是通過模擬模糊核函數(shù),生成出清晰視頻相對(duì)應(yīng)的模糊視頻。然而,通過此方法合成的模糊視頻與真實(shí)拍攝到的模糊視頻有很大的差異。文獻(xiàn)[1]提出對(duì)高速攝像機(jī)拍攝的連續(xù)視頻短曝光幀進(jìn)行平均來生成模糊視頻幀,相對(duì)應(yīng)的清晰視頻幀則通過對(duì)高速相機(jī)拍攝的視頻進(jìn)行下采樣而得到。由于此方法能夠模擬在真實(shí)視頻中常見的相機(jī)抖動(dòng)和物體運(yùn)動(dòng)等情況,所以能夠生成更加真實(shí)的模糊視頻。
為了更好地對(duì)文中所提出的算法進(jìn)行比較,文中使用文獻(xiàn)[1]中的數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,該數(shù)據(jù)集中包含由手機(jī),運(yùn)動(dòng)相機(jī),以及單反相機(jī)拍攝的71段視頻,每段視頻大概3~5 s,將相鄰的5幀分為一組,最終數(shù)據(jù)集中共有4 000組,其中3 200組用于訓(xùn)練,800組用于測(cè)試。
文中提出的網(wǎng)絡(luò)所使用的優(yōu)化器是RMSprop[14],訓(xùn)練批次為16,初始學(xué)習(xí)率為0.000 1,訓(xùn)練的總周期為200,且在前100個(gè)訓(xùn)練周期結(jié)束之后,學(xué)習(xí)率呈線性衰減直至為0。所提出的網(wǎng)絡(luò)在配置為一塊英特爾E5-2620 CPU 和一塊英偉達(dá)GTX 1080 Ti GPU的臺(tái)式電腦上訓(xùn)練了近10小時(shí)。
對(duì)測(cè)試集中的數(shù)據(jù)進(jìn)行了視頻去模糊,并采用圖像峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR),圖像結(jié)構(gòu)相似度 (Structural SIMilarity, SSIM),以及感知距離[15](Perceptual Distance, Percept Dist)對(duì)復(fù)原結(jié)果進(jìn)行了量化評(píng)估。峰值信噪比在一定程度上能夠反映復(fù)原圖像的真實(shí)度,其公式如下:
(11)
其中,N為圖像大小,xn指原始圖像第n個(gè)像素值,yn指重建圖像的第n個(gè)像素值。
圖像結(jié)構(gòu)相似度用于衡量復(fù)原后的圖像與原始清晰圖像之間的相似程度,給定兩幅圖像x和y,其圖像結(jié)構(gòu)相似性計(jì)算如下所示:
(12)
其中,ux、uy,sx、sy,sxy分別是x和y的平均值,標(biāo)準(zhǔn)差,協(xié)方差。c1和c2是用于保持穩(wěn)定的常數(shù)。
感知距離則能夠反映圖像的視覺效果,感知距離越小,表明圖像的視覺效果越好。假設(shè)x0和y0分別是來自于圖像x和y上的圖像塊,則感知距離的計(jì)算可表示如下:
(13)
其中,x0l和y0l分別是從網(wǎng)絡(luò)的l層中提取的經(jīng)過通道數(shù)歸一化后的特征。
接著將文獻(xiàn)[1, 4-5]中的方法與文中方法進(jìn)行了定量對(duì)比,其中,文獻(xiàn)[4-5]中的方法屬于基于單幀圖像的去模糊方法,而文獻(xiàn)[1]中的方法與文中方法均屬于基于視頻去模糊方法。四種方法對(duì)比結(jié)果如表1所示。
表1 測(cè)試集中視頻去模糊結(jié)果對(duì)比
由于在大多數(shù)的圖像或視頻去模糊任務(wù)中,模糊核都是未知量,故此類問題屬于典型的不適定性問題。而與基于單幀圖像的去模糊算法相比,基于多幀圖像的去模糊算法能夠更好地聚合到相鄰幀圖像之間的相關(guān)信息,故而能夠生成出圖像質(zhì)量更高的清晰圖像。如表1所示,基于多幀圖像的去模糊方法在峰值信噪比值、結(jié)構(gòu)相似度值和感知距離方面均優(yōu)于基于單幀圖像的方法。此外,與文獻(xiàn)[1]中的方法相比,文中方法的峰值信噪比值約提高了1.37 dB,結(jié)構(gòu)相似度值約提高了0.015 2,感知距離約減小了0.012 4,這說明將基于像素空間的損失函數(shù)與基于特征空間的損失函數(shù)結(jié)合對(duì)提高圖像的質(zhì)量有著重要作用。
此外,還對(duì)文中方法,文獻(xiàn)[1, 4-5]中方法的圖像去模糊的視覺效果進(jìn)行了對(duì)比,如圖2所示。為了便于對(duì)圖像去模糊效果更好地對(duì)比,這里對(duì)模糊圖像,原始清晰圖像,以及文獻(xiàn)中方法和文中方法去模糊后圖像的局部細(xì)節(jié)進(jìn)行了放大。通過對(duì)局部放大圖進(jìn)行對(duì)比,可以看出使用文中方法復(fù)原后的圖像,其紋理細(xì)節(jié)更加清晰,在圖像視覺效果上超過了文獻(xiàn)[1]中的視頻去模糊算法,這是由于文中設(shè)計(jì)的基于馬爾可夫判別器的判別網(wǎng)絡(luò)能夠?qū)D像塊甚至像素的真?zhèn)芜M(jìn)行判斷,促進(jìn)了網(wǎng)絡(luò)對(duì)圖像紋理信息的學(xué)習(xí),同時(shí)使用像素空間與特征空間相結(jié)合的損失函數(shù)也使得生成圖像的質(zhì)量得到了提高。
圖2 測(cè)試集中視頻去模糊結(jié)果對(duì)比
文中數(shù)據(jù)集中所使用的生成模糊視頻的方法雖與真實(shí)情況下產(chǎn)生的模糊視頻十分接近,但這畢竟只是模擬的方法,與現(xiàn)實(shí)中產(chǎn)生的模糊圖像還是有一定差距。為了進(jìn)一步驗(yàn)證文中方法的有效性,這里對(duì)20段在日常生活中拍攝的真實(shí)的模糊視頻進(jìn)行了去模糊處理,真實(shí)模糊視頻由文獻(xiàn)[1]提供,并對(duì)其復(fù)原結(jié)果進(jìn)行了對(duì)比和分析。圖3為使用文中方法,文獻(xiàn)[1, 4-5]的方法對(duì)真實(shí)模糊視頻進(jìn)行復(fù)原后的對(duì)比。從圖中看出,文中方法在圖像細(xì)節(jié)恢復(fù)方面具有更加優(yōu)越的效果。
圖3 真實(shí)視頻去模糊結(jié)果對(duì)比
由于對(duì)于真實(shí)模糊視頻而言并沒有與之相對(duì)應(yīng)的真實(shí)清晰中間幀圖像,為了對(duì)經(jīng)不同方法去模糊后的視頻進(jìn)行定量的對(duì)比分析,這里使用了文獻(xiàn)[16]中提出的盲圖像質(zhì)量指標(biāo)(Blind Image Quality Indices, BIQI)來對(duì)真實(shí)視頻的去模糊效果進(jìn)行評(píng)價(jià),盲圖像質(zhì)量指標(biāo)值介于0到100之間,BIQI值越小,表示圖像的質(zhì)量越好。盲圖像質(zhì)量指標(biāo)值的計(jì)算可分為兩步,首先使用訓(xùn)練好的分類器將輸入的圖像分為5種失真類型 (JPEG,JPEG2000,噪聲,模糊,快衰落)并得到對(duì)應(yīng)類型的概率值pi{i=1,…,5},然后根據(jù)相應(yīng)的失真類型來判斷圖像的質(zhì)量,每個(gè)類型對(duì)應(yīng)的質(zhì)量分?jǐn)?shù)為qi{i=1,…,5},盲圖像質(zhì)量指標(biāo)值的計(jì)算公式如式(14)所示。如表2所示,文中方法的盲圖像質(zhì)量指標(biāo)值比文獻(xiàn)[1]中方法低2.45,說明了文中方法在真實(shí)視頻去模糊中的有效性。
(14)
表2 真實(shí)視頻去模糊結(jié)果對(duì)比
文中提出了一種基于生成對(duì)抗網(wǎng)絡(luò)的視頻去模糊算法。將基于像素空間與基于特征空間的損失函數(shù)相結(jié)合,設(shè)計(jì)了一種基于馬爾可夫判別器的判別網(wǎng)絡(luò),大大促進(jìn)了網(wǎng)絡(luò)對(duì)圖像紋理細(xì)節(jié)的學(xué)習(xí),使得生成的清晰圖像質(zhì)量得到了提升。將文中提出的方法與文獻(xiàn)[1, 4-5]中方法在測(cè)試集以及真實(shí)視頻上的去模糊效果進(jìn)行了定性定量的對(duì)比。實(shí)驗(yàn)結(jié)果表明,經(jīng)文中算法處理后,圖像的峰值信噪比值和結(jié)構(gòu)相似度值均有了明顯的提升,感知距離和盲圖像質(zhì)量指標(biāo)值也有了一定程度的下降,證實(shí)了文中方法在視頻去模糊中的有效性。