李曉光,楊飛璠,卓 力
(北京工業(yè)大學信息學部,北京 100124)
動態(tài)場景下的圖像去模糊技術(shù)一直是圖像處理領(lǐng)域的研究熱點,是一種由模糊圖像復原出包含豐富邊緣輪廓信息的清晰圖像的重要技術(shù)手段,其利用數(shù)字信號處理方法,在不改變硬件設(shè)備的前提下復原缺失的高頻信息,具有成本低、原有圖像采集設(shè)備仍然可用等優(yōu)點.
高質(zhì)量的圖像已經(jīng)成為一種主流的需求.近年來,隨著手持式移動設(shè)備的普及,模糊已經(jīng)成為一個普遍存在的問題.此外,大部分基于高質(zhì)量圖像的應用,如醫(yī)學影像、刑偵、遙感等領(lǐng)域,往往需要對圖像進行復原處理[1].這使得圖像去模糊技術(shù)受到越來越多的關(guān)注.模糊圖像不僅影響主觀感受,還會影響后續(xù)的智能化分析.動態(tài)場景下的非均勻模糊圖像復原問題是一項極具挑戰(zhàn)性的低層計算機視覺問題,如何從模糊圖像中復原出清晰且包含細節(jié)信息的潛像是圖像去模糊技術(shù)亟待解決的關(guān)鍵問題.其面臨的困難主要表現(xiàn)在:
1)圖像模糊的成因復雜,如由相機抖動、目標運動引起的運動模糊,場景深度變化引起的散焦模糊,以及在拍攝遠距離場景時大氣湍流引起的模糊等.
2)不同類型的模糊通常是動態(tài)隨機耦合存在,一幅模糊圖像往往包含多種模糊類型.
3)模糊核的空間變化,由于受到復雜運動及其他因素的影響,不同空間位置的模糊程度和模糊類型往往不盡相同.
圖像去模糊技術(shù)在安防、刑偵、交通、金融等領(lǐng)域均具有良好的應用價值,同時,對人工智能、圖像處理、信息安全等相關(guān)學科的發(fā)展也具有重要的推動作用.因此,圖像去模糊技術(shù)研究具有重要的理論意義和應用前景.
圖像去模糊技術(shù)有著悠久的研究歷史.20世紀70年代,開始有學者開展基于重建模型的模糊圖像復原技術(shù)研究,并取得了一定進展.近年來,深度學習技術(shù)的出現(xiàn)為圖像去模糊技術(shù)提供了新的思路和解決方案.
本文從傳統(tǒng)方法和基于深度學習的圖像去模糊方法兩方面進行綜述,并對不同圖像去模糊算法的特點進行分析和討論.最后,對圖像去模糊算法潛在的發(fā)展方向進行了展望.
圖像去模糊是圖像處理和計算機視覺領(lǐng)域的一個傳統(tǒng)的基礎(chǔ)問題,具有較長的研究歷史.傳統(tǒng)的圖像去模糊方法可以分為非盲去模糊方法和盲去模糊方法2類.下面將從這2個方面對傳統(tǒng)的圖像去模糊算法進行闡述.
傳統(tǒng)的圖像去模糊方法需要建立圖像獲取過程的觀測模型,然后再通過求解觀測模型的逆問題實現(xiàn)圖像去模糊.觀測模型描述了在該成像系統(tǒng)下從清晰圖像獲得模糊圖像的過程.從數(shù)學角度可以將模糊過程表示為原始清晰圖像與點擴散函數(shù)(或者模糊核)的卷積.常用的模糊模型為
IB=K*IS+N
(1)
式中:IB、IS和N分別代表模糊圖像、清晰圖像和噪聲;*代表卷積;K代表由局部模糊核組成的模糊核矩陣,每個局部模糊核作用于清晰圖像IS生成一個模糊像素.
早期的傳統(tǒng)去模糊工作[2-4]主要集中于非盲去模糊任務,非盲復原任務的定義是:在模糊核已知的情況下,利用所觀測到的降質(zhì)圖像復原出原始圖像.即假設(shè)模糊核K已知.經(jīng)典的算法如Lucy-Richardson算法[2]、維納濾波算法[3],通過對降質(zhì)圖像進行反卷積操作估計清晰的潛像.此后,大部分非盲去模糊方法[4-5]是在Lucy-Richardson算法[2]和維納濾波算法[3]基礎(chǔ)上進行改進,實現(xiàn)對模糊圖像的復原.由于實際情況下,圖像的模糊核往往是未知的,因此,非盲去模糊方法對于解決實際問題往往存在一定的限制.
圖像盲復原任務的定義是:在模糊核未知的情況下,通過已知的模糊圖像復原出清晰的原始圖像.由于圖像的模糊核K在真實環(huán)境中往往未知,因此圖像盲復原方法有著更廣泛的應用.如今,圖像盲復原問題已經(jīng)成為一個備受關(guān)注且有價值的基本研究課題,廣泛應用于醫(yī)療圖像、視頻監(jiān)控等領(lǐng)域.傳統(tǒng)圖像盲復原方法需要估計模糊核和清晰圖像.這是一個嚴重的病態(tài)問題,因此傳統(tǒng)方法往往需要利用圖像的先驗信息或?qū)δ:龀黾僭O(shè).
傳統(tǒng)的圖像盲復原方法主要分為2類:基于最大后驗概率(maximum a posterior,MAP)的方法[6-15]和基于變分貝葉斯(variational Bayesian,VB)框架的方法[16-19].這2種方法的主要不同點在于:基于MAP的方法具有模型簡單、數(shù)值算法高效以及先驗選擇靈活等優(yōu)點.基于VB框架的方法通過將原始圖像與模糊核的聯(lián)合后驗概率在圖像空間邊際化,然后求解模糊核的邊際分布,進而實現(xiàn)求解圖像盲復原問題.這種策略在低維度空間便可以完成相關(guān)參數(shù)估計,但是,邊際分布的推斷卻較為困難.
Fergus等[16]提出了一項圖像盲復原任務的開創(chuàng)性工作.該方法利用自然的清晰圖像滿足重尾分布(heavy-tailed distribution)這一統(tǒng)計特性,在已知觀測模型下,最大化原始圖像和模糊核的聯(lián)合后驗概率,得到模糊核以及復原圖像.
Whyte等[6]根據(jù)自然圖像具有邊緣稀疏特點,并結(jié)合超拉普拉斯先驗對圖像進行建模.Kotera等[8]引入了超拉普拉斯先驗以及L0范數(shù)約束.但是這類方法采用的先驗模型并未充分表達自然圖像的邊緣稀疏性,不利于精確評估模糊核,一旦估計錯誤往往導致不可取的結(jié)果,比如振鈴效應等.
一些方法[16,20]通常假設(shè)模糊是空間不變的.文獻[20]采用機器學習算法解決由單個模糊核引起的全局模糊.Fergus等[16]提出了一種針對相機抖動引起的全局模糊的去模糊方法.文獻[7-9]假設(shè)模糊核局部線性,并利用簡單的參數(shù)先驗模型快速估計模糊核.方法[10-11]采用迭代策略,利用參數(shù)先驗模型,在逐次迭代中提升估計模糊核和復原圖像的準確性,該類算法的迭代次數(shù)沒有較為明確的標準,且迭代求解過程的時間復雜度高,往往影響模糊圖像復原的速度.
綜上所述,傳統(tǒng)方法所采用的模糊模型通常以簡化的理想條件為前提假設(shè),當退化模型不足以描述真實數(shù)據(jù),或者模型估計不佳時,去模糊效果可能并不理想.大部分盲去模糊方法[21-30]的研究主要集中于解決簡單的目標運動、相機平移、旋轉(zhuǎn)等因素產(chǎn)生的模糊,而真實動態(tài)場景的模糊圖像往往更加復雜[31].因此,傳統(tǒng)盲復原方法對解決由復雜因素引起的模糊仍存在局限性.
因此,尋找一種新的思路與方法提升圖像去模糊技術(shù)的性能是亟待解決的關(guān)鍵問題.
近年來,得益于深度學習的迅猛發(fā)展,越來越多的學者開始將深度學習技術(shù)應用于圖像去模糊任務.深度學習技術(shù)通過構(gòu)建多層神經(jīng)網(wǎng)絡(luò)來學習隱含在數(shù)據(jù)內(nèi)部的關(guān)系,從而使得學習得到的特征具有更強的表達和泛化能力.基于深度學習的圖像去模糊方法可以分為3個階段:基于學習的模糊核估計方法、基于端到端的圖像去模糊方法和基于動態(tài)網(wǎng)絡(luò)的圖像去模糊方法.下面將按照這3個階段對現(xiàn)有基于深度學習的圖像去模糊算法進行闡述.
基于學習的模糊核估計方法[32-36]主要采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)估計未知的模糊核,提高盲復原中模糊核估計的準確性,然后再利用傳統(tǒng)反卷積方法得到復原圖像.
Schuler等[35]提出了采用CNN的圖像盲去模糊方法.該方法將去模糊步驟分為特征提取、模糊核估計以及清晰潛像復原3個步驟,并采用由粗到精(coarse-to-fine)的方式迭代優(yōu)化模糊圖像.該方法[35]采用高斯模糊核與清晰圖像卷積的方式獲得訓練數(shù)據(jù),因此該模型只適用于解決特定類型的模糊,對非均勻模糊圖像的復原仍有一定的局限性.文獻[32-33]提出了一種利用CNN預測局部圖像塊(patch)模糊核的去模糊方法.首先,生成候選模糊核集合;然后,訓練CNN分類器預測局部圖像塊的模糊核,并利用最大似然估計和模糊核平滑先驗得到整幅非均勻模糊圖像的模糊核;最后,利用反卷積方法復原清晰圖像.Yan等[36]對模糊核進行參數(shù)化,通過分類和回歸分析對模糊核進行估計.這些方法[32-33,35-36]遵循傳統(tǒng)方法框架,使用CNN代替?zhèn)鹘y(tǒng)方法來估計未知的模糊核.這類算法的圖像復原質(zhì)量取決于模糊核估計的準確性,一旦核估計錯誤往往導致復原結(jié)果不理想.
最近,越來越多的研究開始轉(zhuǎn)向基于端到端的圖像去模糊方法.這類方法不需要估計模糊核,減少了由核估計錯誤帶來的誤差,通過利用CNN搭建端到端的網(wǎng)絡(luò)結(jié)構(gòu)學習模糊圖像與清晰圖像之間的特征映射.
Nah等[37]提出了基于深度多尺度CNN的動態(tài)場景去模糊方法,以端到端的方式復原清晰圖像.該方法首次提出了多尺度網(wǎng)絡(luò)結(jié)構(gòu),以迭代的方式提取圖像的多尺度信息,逐步復原清晰圖像.該結(jié)構(gòu)保留了細尺度(fine-scale)下的細節(jié)信息以及粗尺度(coarse-scale)下長距離間的信息依賴性.此外,在損失函數(shù)設(shè)計方面,該方法提出了多尺度損失函數(shù)來訓練網(wǎng)絡(luò),有效地提高了網(wǎng)絡(luò)的收斂速度.該方法對非均勻模糊圖像的復原效果有較大的提高,由于該網(wǎng)絡(luò)在每個尺度上均使用獨立的參數(shù),使得模型訓練的時間復雜度較高.
針對方法[37]存在的問題,Tao等[38]提出了共享參數(shù)的尺度遞歸網(wǎng)絡(luò)模型.該方法采用跨尺度共享網(wǎng)絡(luò)權(quán)值的方式對模型進行訓練,顯著降低了模型的訓練難度,增加了模型的穩(wěn)定性.此外,該網(wǎng)絡(luò)結(jié)構(gòu)中的遞歸模塊能夠有效捕捉多尺度信息,并跨尺度復原圖像.該方法有效減少了網(wǎng)絡(luò)的可訓練參數(shù)數(shù)量,提高了模型的訓練速度.但共享權(quán)重的方式可能會使網(wǎng)絡(luò)丟失多尺度信息,不利于圖像細節(jié)信息的復原.
文獻[39]充分考慮了獨立參數(shù)網(wǎng)絡(luò)[37]和參數(shù)共享方案[38]的優(yōu)勢和不足,提出了參數(shù)選擇性共享模型.由于圖像的模糊程度會隨著圖像尺度的減小而減小,為了保留不同尺度的差異性信息,該方法在特征提取部分設(shè)置了獨立的網(wǎng)絡(luò)參數(shù),而在非線性轉(zhuǎn)換部分采用共享網(wǎng)絡(luò)參數(shù)的設(shè)計,在減少網(wǎng)絡(luò)規(guī)模的同時,也保留了圖像的多尺度信息.該方法在GoPro數(shù)據(jù)集[37]上進行測試,取得了較好的主觀和客觀結(jié)果.
2014年,生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)[40]被提出之后,相繼在圖像重建、醫(yī)學影像處理等諸多領(lǐng)域得到了廣泛的應用.該網(wǎng)絡(luò)由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)組成,2個網(wǎng)絡(luò)以對抗的方式進行訓練.GAN在圖像生成[41]和圖像補全[42]等領(lǐng)域都表現(xiàn)出了不錯的效果.模糊圖像復原是不適定性問題,因此需要利用先驗知識對圖像進行額外的約束.文獻[43]提出了一種基于數(shù)據(jù)驅(qū)動判別先驗的盲圖像去模糊方法.該方法利用了這樣一個圖像先驗:一幅好的圖像更偏向于清晰而非模糊圖像.因此,該方法設(shè)計了一個基于CNN的二元分類器對圖像質(zhì)量進行判斷,優(yōu)化網(wǎng)絡(luò)模型,提高復原效果.DeblurGAN算法[44]將GAN網(wǎng)絡(luò)引入到圖像去模糊任務中,該方法利用成對數(shù)據(jù)集進行訓練,取得了不錯的復原效果.實驗結(jié)果表明,該方法復原的圖像細節(jié)信息更為豐富,顯著提高了主觀視覺質(zhì)量.但是,復原圖像中具體紋理結(jié)構(gòu)還是難以復原,尚有很大的提升空間.在DeblurGAN算法[44]的基礎(chǔ)上,該團隊提出了去模糊效果更為先進的DeblurGAN-v2算法[45].該方法將空間金字塔網(wǎng)絡(luò)作為核心模塊搭建生成器.為了找到性能和效率之間的平衡,可選擇不同量級的網(wǎng)絡(luò)作為空間金字塔的骨干網(wǎng)絡(luò),如Inception-ResNet-v2[46]、MobileNet V2[47]網(wǎng)絡(luò).該方法還設(shè)計了雙判別器結(jié)構(gòu)分別在全局和局部尺度評估復原圖像.相比于DeblurGAN方法[44],該方法將復原圖像的PSNR值提高了0.9 dB,取得了較好的性能.這些方法顯示出GAN在圖像去模糊任務中的有效性.
但是,這類方法采用相同的網(wǎng)絡(luò)權(quán)重復原模糊圖像,方法過分依賴于數(shù)據(jù)驅(qū)動,且缺乏對非均勻模糊的自適應性,容易造成復原圖像的平均化.此外,這類方法在設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)的過程中缺乏對模糊圖像自身模糊特性的利用,僅依靠獨立的網(wǎng)絡(luò)學習模糊和清晰圖像之間的映射,缺乏對非均勻模糊特征的處理機制.
隨著深度學習技術(shù)在圖像去模糊領(lǐng)域的不斷深入,越來越多的工作開始考慮結(jié)合非均勻模糊圖像特性來設(shè)計網(wǎng)絡(luò)結(jié)構(gòu).
視覺注意力機制能夠定位圖像中的目標區(qū)域并捕捉感興趣的區(qū)域特征,目前已經(jīng)成功應用于識別和分類問題.針對非均勻模糊圖像在不同空間位置的模糊程度及模糊類型存在差異這一特點,文獻[48]將視覺注意力機制應用于圖像去模糊任務中,提出了針對動態(tài)場景去模糊任務的注意力模塊和可變形卷積模塊.注意力模塊可以自適應地學習模糊的空間位置特征,可變性卷積模塊用來處理幾何變化的空間結(jié)構(gòu)特征.實驗證明,將2個模塊聯(lián)合應用于現(xiàn)有網(wǎng)絡(luò)框架中,可有效提高算法的復原性能.
文獻[49]從模糊圖像的前景和背景模糊特征存在差異這一角度出發(fā),提出了一種人體感知注意力引導的去模糊網(wǎng)絡(luò).該方法構(gòu)建了2個解碼網(wǎng)絡(luò)分別用于提取前景中人的模糊以及背景模糊,解碼網(wǎng)絡(luò)融合兩分支模糊信息重建清晰圖像.該方法與其他采用注意力機制方法的最大區(qū)別是,采用具有人體位置標簽的數(shù)據(jù)對注意力模塊進行有監(jiān)督訓練,引導注意力模塊更好地關(guān)注于前景中人的模糊信息.
文獻[50]提出了一種簡單而有效的對不同操作進行選擇的注意力模塊.該網(wǎng)絡(luò)模塊可根據(jù)輸入圖像的不同,通過注意力機制有選擇性地并行執(zhí)行多個操作.該方法通過調(diào)節(jié)模塊的數(shù)量,疊加形成深度CNN網(wǎng)絡(luò),并通過梯度下降法更新網(wǎng)絡(luò)權(quán)重進行端到端的訓練.該方法能夠根據(jù)不同輸入圖像降質(zhì)程度的差異動態(tài)調(diào)節(jié)操作的權(quán)重,自適應復原圖像.
文獻[51]提出了一種門控融合CNN模塊.首先,該方法將特征提取步驟分解為2個獨立的并行分支.然后,通過門控機制動態(tài)融合雙分支特征,避免因直接疊加而導致的特征利用率不高的問題,使模型自適應調(diào)整網(wǎng)絡(luò)權(quán)重,提高復原效果.
上述方法結(jié)合真實場景下模糊圖像的特點,利用動態(tài)網(wǎng)絡(luò)提高模糊圖像的復原效果,為后續(xù)的工作提供了一種可行的思路.
綜上所述,基于學習的核估計方法提高了盲復原任務中核估計的準確性,但是這類算法一旦核估計錯誤,往往導致復原結(jié)果不理想.基于端到端網(wǎng)絡(luò)的方法減少了核估計錯誤帶來的誤差,依靠網(wǎng)絡(luò)學習模糊圖像和清晰圖像之間的映射關(guān)系.這類方法缺乏對非均勻模糊特征的處理機制,容易造成復原圖像平均化.基于動態(tài)網(wǎng)絡(luò)的方法結(jié)合模糊圖像非均勻特性設(shè)計網(wǎng)絡(luò)結(jié)構(gòu),自適應復原圖像,為解決圖像復原問題提供了新的思路.表1總結(jié)了不同圖像去模糊方法的優(yōu)缺點.
表1 不同方法對比Table 1 Comparison of different methods
數(shù)據(jù)是推動圖像去模糊發(fā)展的關(guān)鍵因素之一.近年來,隨著深度學習在圖像處理領(lǐng)域的快速發(fā)展,對大規(guī)??捎脭?shù)據(jù)的需求不斷提高.本文將對圖像去模糊任務的常用數(shù)據(jù)進行總結(jié)概述.表2為有代表性的圖像去模糊數(shù)據(jù)集.
表2 圖像去模糊常用數(shù)據(jù)集Table 2 Popular non-uniform deblurring datasets
早期的圖像去模糊方法[33,35,52]采用模糊核卷積清晰圖像的方式獲得模糊圖像.文獻[35]將模糊核與ImageNet數(shù)據(jù)集中清晰圖像卷積的方式得到訓練數(shù)據(jù).文獻[52]提出了應用于圖像盲去模糊算法評價的基準數(shù)據(jù)集KM-48,該數(shù)據(jù)集包含由4幅圖像與12個6D軌跡卷積生成的48幅模糊圖像.該數(shù)據(jù)集成為評估均勻模糊圖像去模糊的標準數(shù)據(jù)集.Sun等[33]從PASCAL VOC 2010[53]數(shù)據(jù)集中隨機抽樣1 000幅圖像作為清晰圖像,利用與模糊核卷積的方式構(gòu)建模糊-清晰圖像對.這類數(shù)據(jù)集僅包含均勻模糊圖像,對于解決真實情況下的圖像去模糊任務仍存在一定差距.
針對上述方法僅考慮均勻模糊圖像,缺乏對真實環(huán)境中復雜模糊的考慮,Nah等[37]構(gòu)建了更接近于真實模糊圖像的GoPro數(shù)據(jù)集.該方法通過對高頻相機采集的多個連續(xù)幀取平均的方法生成動態(tài)模糊圖像.該數(shù)據(jù)集共包含3 214對大小為720×1 280分辨率的模糊-清晰圖像.其中2 103對用于訓練,1 111對用于測試.GoPro數(shù)據(jù)集包含多種場景,可以模擬復雜的相機抖動和物體運動產(chǎn)生的非均勻模糊,已經(jīng)成為評價動態(tài)場景去模糊方法的標準數(shù)據(jù)集.
但是,GoPro數(shù)據(jù)集[37]也存在一些缺陷,如一些圖像存在較為嚴重的噪聲、較大范圍的平滑區(qū)域等缺點.針對其存在的問題,Gao等[39]在GoPro數(shù)據(jù)集的基礎(chǔ)上提出了數(shù)據(jù)量更大的數(shù)據(jù)集,包含5 290對模糊-清晰圖像.該數(shù)據(jù)集采用了3種策略來避免上述問題.首先,該數(shù)據(jù)集為白天拍攝,有效地減少了圖像噪聲;然后,對有足夠細節(jié)的場景進行采樣,避免圖像中存在大面積的平滑區(qū)域;最后,該數(shù)據(jù)集在獲取過程中避免記錄高速運行的車輛或物體,而出現(xiàn)沒有對應的清晰幀的情況.該數(shù)據(jù)集的提出,補充了GoPro數(shù)據(jù)集存在的缺陷,對提高模型的魯棒性有一定作用.
GoPro數(shù)據(jù)集[37]和Gao等[39]提出的數(shù)據(jù)集更多關(guān)注于大范圍場景下的模糊圖像,忽略了實際更為常見的前景中物體的運動的情況.為了充分捕捉被動的設(shè)備干擾造成的動態(tài)模糊,Shen等[49]提出了HIDE數(shù)據(jù)集,該數(shù)據(jù)集共8 422對模糊-清晰圖像,包含大范圍和近距離場景的模糊圖像.
通過對數(shù)據(jù)集的總結(jié)分析可以看出,模糊數(shù)據(jù)集的規(guī)模逐漸擴大,模糊類型更加復雜,模糊場景逐漸豐富.從使用模糊核卷積得到的均勻模糊數(shù)據(jù)集,逐漸發(fā)展為使用真實數(shù)據(jù)合成的更接近于實際模糊的數(shù)據(jù)集.隨著數(shù)據(jù)集更加接近于真實場景的模糊,對算法的適應性和魯棒性也提出了更高的要求.如何從模糊情況更為復雜的場景中復原出清晰且包含細節(jié)信息的圖像是當前研究亟待解決的關(guān)鍵問題.
KM-48數(shù)據(jù)集[52]為評估均勻模糊圖像去模糊的標準數(shù)據(jù)集,表3為近年來多種方法在KM-48數(shù)據(jù)集[52]上測試的客觀結(jié)果.從表3可以看出,相比于估計模糊核函數(shù)的方法,基于深度學習的去模糊方法能更好地復原圖像.
表3 KM-48數(shù)據(jù)集[52]上不同算法的客觀結(jié)果Table 3 Comparison of methods on KM-48 dataset[52]
GoPro數(shù)據(jù)集[37]作為更接近于真實模糊圖像的數(shù)據(jù)集已經(jīng)成為評估基于深度學習的去模糊算法的標準數(shù)據(jù)集.表4為近年在GoPro數(shù)據(jù)集[37]上測試的客觀結(jié)果.從表中可以看出,圖像去模糊方法隨著網(wǎng)絡(luò)設(shè)計的不斷優(yōu)化,圖像去模糊算法的性能也在不斷提高.
表4 GoPro數(shù)據(jù)集[37]上不同算法的客觀結(jié)果Table 4 Comparison of methods on GoPro dataset[37]
本研究在GoPro測試集[37]上對現(xiàn)有3種最新的動態(tài)場景去模糊方法[37,44-45]進行了對比實驗.這些方法包括:DeblurGAN[44]、DeblurGAN-v2[45]以及Gao等[39]提出的方法.DeblurGAN[44]將生成對抗網(wǎng)絡(luò)應用于圖像去模糊任務,該方法能夠較好地復原圖像細節(jié).DeblurGAN-v2[45]能夠復原出包含豐富的邊緣輪廓信息.Gao等[39]提出的算法為動態(tài)場景去模糊算法,該方法在GoPro數(shù)據(jù)集[37]上實現(xiàn)了較好的主觀結(jié)果.
圖1為對比實驗的主觀結(jié)果,從實驗結(jié)果可見,DeblurGAN[44]對模糊有一定的復原效果,但對于模糊程度較為嚴重的圖像效果有限.從第1幅圖像可以看出,DeblurGAN-v2[45]的結(jié)果可能會導致恢復圖像的局部運動模糊的平均化.算法[39]能夠較好地復原物體運動帶來的非均勻模糊,得到了邊緣較為清晰的復原圖像.但從第1幅圖像可以看出,當區(qū)域放大時墻上的字依然存在模糊現(xiàn)象.
圖1 GoPro測試集的主觀結(jié)果Fig.1 Subjective results of the GoPro test images
從主觀結(jié)果可以看出,隨著網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計的不斷優(yōu)化,算法對于動態(tài)模糊圖像的復原能力不斷提高,但對于模糊程度嚴重的圖像效果依然有限,未來仍有較大的提升空間.
本文對基于傳統(tǒng)方法和深度學習方法的圖像去模糊技術(shù)進行了綜述與分析,比較了不同算法的優(yōu)勢與不足.現(xiàn)有的圖像去模糊算法對于解決復雜環(huán)境下的模糊圖像復原問題效果依然有限,未能充分滿足實際應用需求.為突破技術(shù)瓶頸,展望了圖像去模糊技術(shù)今后的發(fā)展方向,在以下問題中尚存在著機遇與挑戰(zhàn).
1)基于動態(tài)網(wǎng)絡(luò)的非均勻模糊圖像復原技術(shù).基于數(shù)據(jù)驅(qū)動的端到端的深度學習模型在模糊圖像復原平均性能上取得了質(zhì)量提升.但是,這類網(wǎng)絡(luò)缺乏對具體圖像模糊特征的挖掘.在網(wǎng)絡(luò)中通過引入動態(tài)機制,如注意力機制,強化學習模型,引入分階段的訓練方式等,使網(wǎng)絡(luò)具有針對不同降質(zhì)特征,進行自適應模糊特征感知和動態(tài)復原的功能,是目前動態(tài)場景模糊圖像復原的技術(shù)趨勢.
2)大規(guī)模的模糊圖像數(shù)據(jù)集.數(shù)據(jù)是模糊圖像復原研究中重要的工具之一.尤其是深度學習技術(shù)出現(xiàn)以后,在訓練樣本數(shù)據(jù)量足夠多的情況下,通??梢愿子讷@得較好的復原效果,提高算法的泛化性.提出規(guī)模更大、模糊場景更為豐富、更接近于真實模糊的數(shù)據(jù)集對于提高算法性能起著至關(guān)重要的作用,也是當前研究亟待解決的關(guān)鍵問題.
3)多種降質(zhì)因素聯(lián)合重建方法.實際應用中采集到的真實模糊圖像往往受到多種類型的降質(zhì)因素影響,不同降質(zhì)因素隨機耦合在一起.如何對多種降質(zhì)因素復雜耦合的特點進行降質(zhì)特征提取,自適應復原圖像,是需要進一步研究的問題,具有重要的理論意義和應用價值.
4)任務驅(qū)動的模糊圖像復原技術(shù).在真實場景中的圖像去模糊因不存在高質(zhì)量圖像,難以對復原結(jié)果進行客觀評價.因此,針對特定任務的模糊圖像復原任務,如文本模糊復原任務、人臉模糊復原任務等,利用圖像質(zhì)量提升帶來的應用算法性能的提升來評價復原圖像質(zhì)量,也是近年來的趨勢.
5)基于深度學習的模糊圖像復原主要依賴有監(jiān)督的數(shù)據(jù)驅(qū)動,需要借助成對的清晰圖像和模糊圖像數(shù)據(jù)集.目前雖然模糊圖像的產(chǎn)生過程更加接近真實情況,但是,數(shù)據(jù)集中所涵蓋的模糊情況依然有限.這嚴重限制了深度復原網(wǎng)絡(luò)模型的泛化能力.如何借助半監(jiān)督或非監(jiān)督學習技術(shù)實現(xiàn)動態(tài)場景的模糊圖像復原,是未來的重要研究方向.