李現(xiàn)國(guó),李 濱
(1.天津工業(yè)大學(xué) 電子與信息工程學(xué)院,天津 300387;2.天津市光電檢測(cè)技術(shù)與系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,天津 300387)
圖像去模糊是利用圖像處理技術(shù)將模糊圖像恢復(fù)成有清晰邊緣結(jié)構(gòu)和豐富細(xì)節(jié)的圖像。由于造成圖像模糊的原因很多,因此圖像去模糊問(wèn)題是一個(gè)有多個(gè)未知解的高度不適定問(wèn)題。在圖像去模糊任務(wù)中,傳統(tǒng)方法多數(shù)是將其建模為模糊核估計(jì)問(wèn)題進(jìn)行求解,但在現(xiàn)實(shí)世界中模糊核是未知的且非常復(fù)雜,最終會(huì)因?yàn)槟:斯烙?jì)的不準(zhǔn)確而導(dǎo)致模糊圖像的恢復(fù)效果不佳。傳統(tǒng)圖像去模糊方法主要有基于最大后驗(yàn)概率(Maximum A Posterior,MAP)[1-3]、基于變分貝葉斯(Variational Bayesian,VB)[4-5]和基于LMS 自適應(yīng)算法[6]。通過(guò)將原始圖像與模糊核的聯(lián)合后驗(yàn)概率在圖像空間邊際化,然后求解模糊核的邊際分布,進(jìn)而實(shí)現(xiàn)圖像盲復(fù)原。傳統(tǒng)圖像去模糊研究通常集中于解決簡(jiǎn)單的相機(jī)抖動(dòng)或者目標(biāo)運(yùn)動(dòng)產(chǎn)生的模糊問(wèn)題,僅在特定模糊圖像上具有良好的效果。
近年來(lái),學(xué)者們對(duì)基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的圖像去模糊方法進(jìn)行了廣泛研究[7-9]。早期,基于CNN 的圖像去模糊方法將CNN 作為模糊核估計(jì)器,構(gòu)建基于CNN 的模糊核估計(jì)和基于核反卷積的兩階段圖像去模糊框架[10-11]。JIAN 等[11]提出使用CNN 估計(jì)運(yùn)動(dòng)模糊的空間變化核,去除非均勻模糊,但由于模糊特性復(fù)雜,模糊核估計(jì)方法在實(shí)際場(chǎng)景中不能很好地恢復(fù)模糊圖像。目前,基于CNN 的圖像去模糊方法旨在以端到端方式直接學(xué)習(xí)模糊-清晰圖像對(duì)之間的復(fù)雜關(guān)系[12-14]。KUPYN 等[12]提出DeblurGAN,基于GAN 和內(nèi)容損失,以單尺度的方式實(shí)現(xiàn)圖像去模糊。盡管單尺度在去模糊效率上表現(xiàn)良好,但由于未能提取多種特征信息,導(dǎo)致去模糊性能和恢復(fù)圖像細(xì)節(jié)上效果欠佳。NAH 等[13]基于coarse-to-fine 策略,引入一種用于動(dòng)態(tài)場(chǎng)景去模糊的深度多尺度CNN 網(wǎng)絡(luò)DeepDeblur,在不估計(jì)任何模糊核的情況下提取圖像多尺度信息,直接從模糊圖像中恢復(fù)清晰圖像。ZHAO 等[14]提出一種輕量化和實(shí)時(shí)的無(wú)監(jiān)督圖像盲去模糊方法FCL-GAN,既沒(méi)有圖像域限制,也沒(méi)有圖像分辨率限制,保證了輕量化和性能優(yōu)勢(shì)。ZHAO 等[15]提出一種用于盲運(yùn)動(dòng)去模糊的通用無(wú)監(jiān)督顏色保留網(wǎng)絡(luò)CRNet,易于擴(kuò)展到其他受色彩影響的畸變?nèi)蝿?wù),同時(shí)引入模糊偏移估計(jì)和自適應(yīng)模糊校正,改進(jìn)去模糊任務(wù)。
雖然CNN 在單圖像去模糊領(lǐng)域取得了良好的效果,但存在以下問(wèn)題:1)卷積算子的感受野有限,難以捕獲到遠(yuǎn)程像素的信息,若要增加感受野,則只能增加網(wǎng)絡(luò)深度,然而會(huì)造成計(jì)算量過(guò)大和信息丟失問(wèn)題;2)卷積核在推理時(shí)有靜態(tài)權(quán)值,不能靈活地適應(yīng)輸入內(nèi)容。受Transformer[16-17]具有全局信息建模特性的啟發(fā),DOSOVITSKIY等[18]提出視覺(jué)Transformer(Vision Transformer,ViT)來(lái)執(zhí)行圖像識(shí)別任務(wù),以具有位置嵌入的2D 圖像塊為輸入,在大數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,取得了與基于CNN 的方法相當(dāng)?shù)男阅?。TOUVRON 等[19]將Transformer 與蒸餾方法相結(jié)合,提出一種高效的圖像Transformer(DeiT),可在中型數(shù)據(jù)集上訓(xùn)練Transformer,具有較好的魯棒性。
受UNet多尺度單圖像去模糊[20]和Transformer[16,21-22]工作的啟發(fā),本文將Transformer 引入CNN 網(wǎng)絡(luò),但直接將Transformer 嵌入CNN 網(wǎng)絡(luò)存在以下問(wèn)題:1)嵌入后應(yīng)用CNN 網(wǎng)絡(luò)的訓(xùn)練策略因Transformer參數(shù)量過(guò)多導(dǎo)致無(wú)法訓(xùn)練;2)應(yīng)用局部方式計(jì)算多頭自注意力(Multi-Head Self-Attention,MHSA)會(huì)造成局部窗口之間缺少信息聯(lián)系且去模糊效果差。針對(duì)上述問(wèn)題,本文提出一種基于Transformer 和多尺度CNN 的圖像去模糊網(wǎng)絡(luò)(T-MIMO-UNet)。利用CNN 網(wǎng)絡(luò)提取空間特征,同時(shí)對(duì)輸入圖像進(jìn)行下采樣得到多尺度的特征圖,通過(guò)將多尺度特征相互融合和補(bǔ)充,有效利用每個(gè)尺度的信息,更好地處理各種圖像模糊問(wèn)題。設(shè)計(jì)一種局部增強(qiáng)Transformer 模塊(Enhanced Local Transformer Module,EL-TM),能夠利用Transformer 的全局特性有效獲取全局信息。當(dāng)每個(gè)尺度的特征輸入到EL-TM 中進(jìn)行全局建模時(shí),針對(duì)輸入圖像尺寸過(guò)大的問(wèn)題,設(shè)計(jì)一種局部多頭自注意力計(jì)算網(wǎng)絡(luò)(Local Multi-Head Self-Attention Network,L-MHSAN),采用窗口的方式在局部逐塊計(jì)算MHSA,以解決圖像尺寸過(guò)大導(dǎo)致的訓(xùn)練難度增加的問(wèn)題。針對(duì)在L-MHSAN 中劃分窗口計(jì)算MHSA 后跨窗口的信息交互消失問(wèn)題,設(shè)計(jì)一種增強(qiáng)前饋網(wǎng)絡(luò)(Enhanced Feed-Forward Network,EFFN),通過(guò)增加深度可分離卷積層,促進(jìn)不同窗口之間的信息交互,有效獲取全局信息,提升圖像清晰度和計(jì)算效率。
本文提出的T-MIMO-UNet 結(jié)構(gòu)如圖1 所示。該網(wǎng)絡(luò)主要由多尺度輸入編碼器、EL-TM、非對(duì)稱(chēng)特征融合(Asymmetric Feature Fusion,AFF)模塊和多尺度輸出解碼器組成,其中,編碼器采用兩個(gè)編碼塊(Encoder Block,EB),解碼器采用3 個(gè)解碼 塊(Decoder Block,DB),EL-TM采用12 個(gè)局部增強(qiáng)Transformer 層(Enhanced Local Transformer Layer,EL-TL)。
T-MIMO-UNet 建立在基于編碼器-解碼器的單一UNet 架構(gòu)上,可充分利用CNN 從圖像中提取的多尺度空間特征。此外,為了捕獲全局依賴(lài)關(guān)系,利用Transformer 編碼器對(duì)全局空間進(jìn)行建模,并基于EL-TM 進(jìn)行局部窗口之間的信息交互,實(shí)現(xiàn)多尺度去模糊。
多尺度架構(gòu)可以有效地處理不同程度的圖像模糊[23],同時(shí)各種基于CNN 的去模糊方法[13,24-25]也都采用將不同尺度的模糊圖像作為網(wǎng)絡(luò)的基本輸入。在T-MIMO-UNet 的編碼器中,通過(guò)編碼塊將不同尺度的模糊圖像作為輸入,其中,EB1由卷積層、殘差塊構(gòu)成,EB2由卷積層、特征融合模塊(FAM)[20]和殘差塊構(gòu)成,已有實(shí)驗(yàn)[20]證明了FAM 能夠提高模型性能。
使用多尺度策略作為單個(gè)U-Net 的輸入,將原始尺度的模糊圖像B1進(jìn)行2 次1/2 下采樣,得到另外2 個(gè)尺度的模糊圖像B2和B3。B1和B2尺度的模糊圖像通過(guò)EB1和EB2提取特征,B3尺度的模糊圖像在經(jīng)過(guò)預(yù)處理后輸入Transformer架構(gòu)EL-TM 進(jìn)行全局特征建模。此外,除了在每個(gè)尺度的編碼器或EL-TM 中提取特征外,對(duì)于B2和B3尺度,還會(huì)分別從上面尺度的模糊圖像中提取縮小的特征,然后將這2 種特征融合,2種信息相互補(bǔ)充,更有助于處理圖像模糊問(wèn)題。
在每個(gè)尺度的編碼器或Transformer 模塊中提取特征時(shí),使用淺卷積模塊(Shallow Convolution Module,SCM)[20]對(duì)下采樣圖像B2和B3進(jìn)行特征提取處理。SCM 使用2 個(gè)堆疊的3×3 和1×1 的卷積層,然后在最后一個(gè)1×1 卷積層中將提取的特征與輸入的當(dāng)前尺度圖像連接起來(lái),再使用一個(gè)1×1 卷積層進(jìn)一步細(xì)化連接,經(jīng)過(guò)SCM 的輸出用Zk,out表示。
對(duì)于原始尺度的模糊圖像B1,沒(méi)有使用SCM,而是直接輸入編碼塊EB1。對(duì)于使用了SCM 的模糊圖像B2,將SCM 的輸出Z2,out與B1尺度的編碼器輸出E1,out使用FAM 進(jìn)行融合,在融合前使用stride 取值為2 的卷積層以保證2 個(gè)特征具有相同的尺寸,最后使用1 個(gè)殘差塊繼續(xù)細(xì)化特征。
對(duì)于B3尺度的模糊圖像,將此時(shí)SCM 的輸出Z3,out與B2尺度的編碼器輸出E2,out進(jìn)行特征融合,此時(shí)的特征圖經(jīng)過(guò)多次淺層特征提取和前2 個(gè)尺度的卷積特征提取后,每個(gè)像素具備了更深的感受野,這時(shí)輸入EL-TM 利用Transformer 的全局特征信息建模能力,進(jìn)一步學(xué)習(xí)與全局感受野的遠(yuǎn)程相關(guān)性,之后將提取的全局特征輸入殘差塊。
自Transformer 架構(gòu)[16]被應(yīng)用于深度學(xué)習(xí)領(lǐng)域以來(lái),其全局信息建模特性引起了學(xué)者們的廣泛關(guān)注。CNN 作為視覺(jué)領(lǐng)域的通用主干網(wǎng)絡(luò),在圖像去模糊任務(wù)中應(yīng)用廣泛,但CNN 卷積算子存在感受野有限的問(wèn)題,隨著網(wǎng)絡(luò)層數(shù)的不斷加深,CNN 這一問(wèn)題體現(xiàn)的越發(fā)明顯,Transformer 的全局性可以緩解這一缺陷。在處理模糊圖像時(shí),Transformer往往因數(shù)據(jù)集中過(guò)大的圖像尺寸而造成計(jì)算復(fù)雜度過(guò)高,最終使去模糊的視覺(jué)任務(wù)失敗。為了增強(qiáng)Transformer 架構(gòu)在去模糊領(lǐng)域的通用性,設(shè)計(jì)一種局部增強(qiáng)Transformer 模塊,如圖2 所示。局部增強(qiáng)Transformer 模塊由多個(gè)局部增強(qiáng)Transformer 層構(gòu)成。每個(gè)局部增強(qiáng)Transformer層由L-MHSAN 和EFFN 構(gòu)成。
圖2 局部增強(qiáng)Transformer 模塊結(jié)構(gòu)Fig.2 Structure of the enhanced local Transformer module
在T-MIMO-UNet 結(jié)構(gòu)中,將B1和B2尺度提取的特征與B3尺度融合,然后將所獲得的特征圖I?RN×D通過(guò)EL-TM 進(jìn)一步進(jìn)行特征提取,其中,N表示輸入分辨率H×W,H表示圖像高度,W表示圖像寬度,D表示輸入通道數(shù)。
B3尺度的圖像特征在與其他尺度特征相加并輸入局部增強(qiáng)Transformer 模塊計(jì)算MHSA 前,需要經(jīng)過(guò)淺卷積模塊的處理,處理后的圖像與B2尺度的編碼器輸出E2,out相融合。由于圖像去模糊數(shù)據(jù)集的大尺寸特性導(dǎo)致計(jì)算MHSA 時(shí)計(jì)算量過(guò)大,大大增加了訓(xùn)練難度。為了解決這個(gè)問(wèn)題,在局部增強(qiáng)Transformer 層中設(shè)計(jì)了一種局部多頭自注意力計(jì)算網(wǎng)絡(luò)。
局部多頭自注意力計(jì)算網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。首先讀取融合特征的維度并進(jìn)行記錄,由于融合特征仍然與圖像維度一致,即(Y,H,W,D),其中,Y表示圖像批處理大小。使用Flatten 操作將圖像的寬度、高度等展開(kāi)成一維數(shù)據(jù)的形式,即(Y,D,H×W),之后將展開(kāi)后的數(shù)據(jù)形式轉(zhuǎn)換為(Y,H×W,D),便可將融合后的圖像特征輸入局部增強(qiáng)Transformer 層計(jì)算MHSA。
圖3 局部多頭自注意力計(jì)算網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of the local multi-head self-attention network
圖像特征輸入局部增強(qiáng)Transformer 層后,局部多頭自注意力計(jì)算網(wǎng)絡(luò)將特征圖I?RN×D劃分成P個(gè)不重疊的窗口I→{I1,I2,…,IP},窗口個(gè)數(shù)P的計(jì)算公式如式(1)所示。在每個(gè)窗口中獨(dú)立計(jì)算多頭自注意力。針對(duì)一個(gè)局部窗口特征圖X?RM2×D,Query、Key、Value 矩陣Q、K、V計(jì)算公式如式(2)所示?;诰植看翱诘淖宰⒁饬τ?jì)算公式如式(3)所示。將AQ,K,V并行計(jì)算C次并連接,得到多頭自注意力計(jì)算結(jié)果AQ,K,V,然后經(jīng)過(guò)窗口特征合并操作重構(gòu)得到中間特征fM,計(jì)算公式如式(4)所示。
其中:M2表示被劃分的窗口尺寸;PQ、PK、PV分別表示在不同窗口共享的投影矩陣;d表示,C為多頭自注意力的頭數(shù)量;View 表示重構(gòu)操作;Window-reverse表示窗口特征合并操作;fM特征維度為(Y,H,W,D)。
將多頭自注意力在局部不重疊的窗口中分別計(jì)算時(shí),不同窗口之間信息交互會(huì)消失,跨窗口之間沒(méi)有信息交流會(huì)限制建模能力。為了解決這個(gè)問(wèn)題,在局部增強(qiáng)Transformer 層中的前饋網(wǎng)絡(luò)(Feed-Forward Network,F(xiàn)FN)結(jié)構(gòu)上進(jìn)行改進(jìn),設(shè)計(jì)一種增強(qiáng)前饋網(wǎng)絡(luò),在2 個(gè)全連接層間增加了2 個(gè)深度可分離卷積層(Depthwise separable Convolution,DepthConv),并合理利用跳躍連接與輸入特征建立聯(lián)系。增強(qiáng)前饋網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。
圖4 增強(qiáng)前饋網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Structure of the enhanced feed-forward network
首先,對(duì)于輸入的中間特征fM,經(jīng)過(guò)第1 個(gè)全連接層,再經(jīng)過(guò)正則化和激活操作輸入第1 個(gè)深度可分離卷積層后以殘差的方式進(jìn)行跳躍連接得到中間特征計(jì)算的第1 個(gè)階段的計(jì)算結(jié)果,計(jì)算過(guò)程可表示如下:
其中:LN 表示全連接操作;DepthConv 表示深度可分離卷積操作。
然后,fM,1經(jīng)過(guò)正則化操作和第2 個(gè)深度可分離卷積層,通過(guò)殘差相加得到中間特征計(jì)算的第2 個(gè)階段的計(jì)算結(jié)果fM,2,fM、fM,1和fM,2跳躍連接得到中間特征計(jì)算的第3 個(gè)階段的計(jì)算結(jié)果fM,3,即:
最后,fM,3經(jīng)過(guò)第2 個(gè)全連接層和正則化、卷積操作后與fI相加得到EL-TL 模塊最終提取的特征fF。
深度可分離卷積不僅能增強(qiáng)局部性,而且能增加窗口之間特征的局部信息交互[26],同時(shí)相對(duì)于普通卷積而言,深度可分離卷積能有效減少模型的參數(shù)量。
使用AFF 模塊[20]將編碼器中提取的特征進(jìn)行融合。特征融合策略沒(méi)有使用對(duì)稱(chēng)融合[27]及只進(jìn)行相鄰2 個(gè)尺度的特征融合[13],而是將3 個(gè)尺度的特征再次進(jìn)行融合輸入至DB1和DB2。
使用上采樣或下采樣操作將不同尺度的特征輸入AFF 模塊進(jìn)行特征融合后,將這些特征輸入網(wǎng)絡(luò)解碼端,對(duì)每個(gè)尺寸的圖像進(jìn)行重建。解碼器依然采用單個(gè)U 形網(wǎng)絡(luò)模擬多級(jí)聯(lián)U 型網(wǎng)絡(luò)輸出不同尺度的去模糊圖像。解碼塊均由卷積層和殘差塊構(gòu)成。由于解碼塊的輸出是一個(gè)特征圖而不是一幅圖像,因此在重建每一層圖像時(shí),使用一個(gè)卷積層作為生成圖像的映射函數(shù)。在實(shí)驗(yàn)過(guò)程中,因無(wú)需B2和B3尺度的去模糊圖像S2和S3,本文模型只將原始B1尺度進(jìn)行去模糊,輸出S1在后面的實(shí)驗(yàn)中進(jìn)行對(duì)比。
網(wǎng)絡(luò)模 型在訓(xùn) 練時(shí)使 用Intel?Xeon?Silver 4210 CPU @ 2.20 GHz 硬件平臺(tái),內(nèi)存為93.1 GB,GTX1080Ti 11 GB。軟件環(huán)境為Ubuntu18.04 操作系統(tǒng),深度學(xué)習(xí)環(huán)境為PyTorch1.4.0。
使用GoPro[13]訓(xùn)練數(shù)據(jù)集來(lái)訓(xùn)練網(wǎng)絡(luò),訓(xùn)練數(shù)據(jù)集中包括2 103 對(duì)模糊和清晰的圖像對(duì);使用GoPro 測(cè)試數(shù)據(jù)集來(lái)測(cè)試網(wǎng)絡(luò),測(cè)試數(shù)據(jù)集中包括1 111 對(duì)圖像 對(duì)。此外,在RealBlur[28]真實(shí)場(chǎng) 景數(shù)據(jù)集中測(cè)試了模型的有效性,RealBlur 測(cè)試數(shù)據(jù)集包含RealBlur-R 和RealBlur-J 這2 個(gè)子數(shù)據(jù)集,每個(gè)數(shù)據(jù)集包括980 對(duì)圖像對(duì)。
網(wǎng)絡(luò)訓(xùn)練的初始學(xué)習(xí)率為10-4,之后每迭代訓(xùn)練500 輪就下降50%。對(duì)于每次迭代訓(xùn)練,都將圖像隨機(jī)剪切為256×256 像素。為了使模型充分收斂,在GoPro 訓(xùn)練數(shù)據(jù)集中進(jìn)行3 000 輪的迭代訓(xùn)練,以使模型收斂。
在優(yōu)化網(wǎng)絡(luò)參數(shù)時(shí),使用多尺度內(nèi)容損失函數(shù)[13],定義如下:
其中:K表示尺度;SK和GK分別表示模型預(yù)測(cè)的清晰圖像和真實(shí)清晰圖像;使用每一輪計(jì)算的損失次數(shù)tK進(jìn)行歸一化處理。
研究表明:增加輔助損失項(xiàng)可以提高模型性能,且最小化特征空間中輸入和輸出之間距離的輔助損失項(xiàng)已在圖像恢復(fù)任務(wù)中得到廣泛應(yīng)用,并取得了良好的效果[29]。去模糊主要是恢復(fù)圖像高頻分量的特性,使用多尺度頻率重建(Multi-Scale Frequency Reconstruction,MSFR)損失函 數(shù)[20]作為輔 助損失項(xiàng)。尺度頻率重建損失函數(shù)能夠測(cè)量頻域中多尺度真實(shí)圖像和去模糊圖像之間的L1 距離,定義如下:
其中:FT 表示快速傅里葉變換。
網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)可表示如下:
將T-MIMO-UNet與DeblurGAN[12]、DeepDeblur[13]、FCL-GAN[14]、CRNet[15]、MIMO-UNet[20]、MIMOUNet+[20]、PSS-NSC[24]、SRN[25]、DMPHN[30]、MPRNet[31]、DeblurGAN-v2[32]等經(jīng)典的去模糊網(wǎng)絡(luò)進(jìn)行比較,定量地分析其性能。為了實(shí)現(xiàn)計(jì)算復(fù)雜度和去模糊精度之間的權(quán)衡,同時(shí)提出T-MIMO-UNet 的變體,即T-MIMO-UNet+和T-MIMO-UNet++,其中,T-MIMOUNet 中使用10 個(gè)殘差塊和12 個(gè)EL-TM,T-MIMOUNet+中使用20 個(gè)殘差塊和6 個(gè)EL-TM,T-MIMOUNet++是在T-MIMO-UNet+的基礎(chǔ)上將EFFN 中的深度可分離卷積替換成普通卷積。在GoPro 測(cè)試數(shù)據(jù)集上與其他網(wǎng)絡(luò)的測(cè)試結(jié)果比較如表1 所示,其中,粗體表示每列最優(yōu)值,下劃線(xiàn)表示每列次優(yōu)值。由表1 可以看出:與MIMO-UNet 基礎(chǔ)網(wǎng)絡(luò)相比,T-MIMO-UNet 及其2 個(gè)變體網(wǎng)絡(luò)的峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)分別提升了0.39 dB、0.54 dB、0.66 dB;與DeepDeblur、DeblurGAN、SRN網(wǎng)絡(luò)相比,T-MIMO-UNet 的PSNR 分別提升了2.89 dB、3.42 dB、1.86 dB;特別是在平均SSIM 指標(biāo)上,T-MIMO-UNet 及其變體網(wǎng)絡(luò)明顯優(yōu)于對(duì)比網(wǎng)絡(luò);與MPRNet 網(wǎng)絡(luò)相比,T-MIMO-UNet 及其變體網(wǎng)絡(luò)盡管PSNR 略有欠缺,但在模型參數(shù)量和去模糊處理時(shí)間上有更好的表現(xiàn),T-MIMO-UNet 參數(shù)量減少為MPRNet 的1/2,處理時(shí)間減少為MPRNet 的1/8。
表1 在GoPro 測(cè)試數(shù)據(jù)集上的測(cè)試結(jié)果比較 Table 1 Comparison of test results on the GoPro test dataset
為了驗(yàn)證多尺度策略去模糊性能的優(yōu)越性,與基 于CNN 的單尺 度去模 糊網(wǎng)絡(luò)Deblur-GAN[12]、SDWNet[33]和基于 雙尺度 策略的 去模糊網(wǎng)絡(luò)DeblurGAN-v2[32]進(jìn)行比較。在GoPro 測(cè)試數(shù)據(jù)集上單尺度、雙尺度與多尺度定量性能比較結(jié)果如表2所示。由表2 可以看出,多尺度特征提取方式優(yōu)于單尺度和雙尺度特征提取方式,驗(yàn)證了多尺度信息提取的優(yōu)勢(shì)。
表2 在GoPro 測(cè)試數(shù)據(jù)集上單尺度、雙尺度與多尺度定量性能比較 Table 2 Comparison of quantitative performance among single-scale,double-scale and multi-scale on the GoPro test dataset
為了驗(yàn)證T-MIMO-UNet 在真實(shí)場(chǎng)景中的有效性,在RealBlur 測(cè)試數(shù)據(jù)集[28]上將T-MIMO-UNet 與DeblurGAN[12]、DeepDeblur[13]、FCL-GAN[14]、MIMOUNet[20]、MIMO-UNet+[20]、SRN[25]、DMPHN[30]、MPRNet[31]、DeblurGAN-v2[32]等經(jīng)典的去模糊網(wǎng)絡(luò)進(jìn)行比較,平均PSNR 和SSIM 定量比較結(jié)果如表3 所示,其中,粗體表示每列最優(yōu)值,下劃線(xiàn)表示每列次優(yōu)值,可以看出T-MIMO-UNet 及其變體網(wǎng)絡(luò)仍然取得了比較好的效果,PSNR 和SSIM 值非常接近MPRNet。
表3 在RealBlur 測(cè)試數(shù)據(jù)集上的平均PSNR 和SSIM Table 3 Average PSNR and SSIM on the RealBlur test dataset
對(duì)T-MIMO-UNet 的圖像去模糊效果進(jìn)行主觀分析,并將其與其他網(wǎng)絡(luò)的圖像去模糊效果進(jìn)行比較,如圖5 所示,為了充分展示去模糊效果,放大了圖中的細(xì)節(jié)。由圖5 可以看出,與其他網(wǎng)絡(luò)的去模糊結(jié)果相比,T-MIMO-UNet 獲取的去模糊圖像紋理更清晰,視覺(jué)效果更好。
圖5 在GoPro 測(cè)試數(shù)據(jù)集上的去模糊效果Fig.5 Deblurring effects on the GoPro test dataset
為了證明增強(qiáng)前饋網(wǎng)絡(luò)中使用深度可分離卷積對(duì)于降低網(wǎng)絡(luò)模型參數(shù)量的有效性,在T-MIMOUNet 中將深度可分離卷積替換為普通卷積進(jìn)行性能對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4 所示。由表4 可以看出,對(duì)于T-MIMO-UNet,在增強(qiáng)前饋網(wǎng)絡(luò)中使用傳統(tǒng)卷積時(shí),相比使用深度可分離卷積的網(wǎng)絡(luò)模型的PSNR 提升了0.09%,參數(shù)量提升了5.6%。在參數(shù)量上使用深度分離卷積的網(wǎng)絡(luò)模型具備較大的優(yōu)勢(shì),滿(mǎn)足部分場(chǎng)景中需要模型規(guī)模小、運(yùn)行速度快的需求。此外,使用深度分離卷積的網(wǎng)絡(luò)模型能夠增加窗口之間特征的局部信息交互。因此,根據(jù)綜合性能和模型參數(shù)量,在T-MIMO-UNet 模型中使用深度可分離卷積。
表4 深度可分離卷積與普通卷積的性能對(duì)比 Table 4 Performance comparison between depthwise separable convolution and ordinary convolution
為了驗(yàn)證所設(shè)計(jì)的EL-TM 的有效性,并驗(yàn)證所使用EL-TM 中EL-TL 數(shù)量的最優(yōu)選擇,針對(duì)EL-TM中EL-TL 數(shù)量在GoPro 測(cè)試數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5 所示。當(dāng)EL-TL 數(shù)量為0 時(shí)表示沒(méi)有使用本文提出的EL-TM 時(shí)的網(wǎng)絡(luò)模型性能,由表5 可以看出,加入了EL-TM 的網(wǎng)絡(luò)模型相比未加入EL-TM 的網(wǎng)絡(luò)模型在性能上有了明顯的提升,且隨著EL-TL 數(shù)量的增加性能逐漸提升。但在EL-TL數(shù)量大于12 后,由于網(wǎng)絡(luò)模型的復(fù)雜度提升,在本文設(shè)定的硬件條件下難以進(jìn)行訓(xùn)練,因此選擇ELTL 數(shù)量為12 與CNN 結(jié)合作為最終模型。需要說(shuō)明的是:若硬件條件允許,則可繼續(xù)增加網(wǎng)絡(luò)模型中的EL-TL 數(shù)量,從而取得更好的PSNR 和SSIM 性能。
表5 在GoPro 測(cè)試數(shù)據(jù)集上的EL-TM 消融實(shí)驗(yàn)結(jié)果 Table 5 Ablation experimental results of EL-TM on the GoPro test dataset
本文提出一個(gè)新的去模糊網(wǎng)絡(luò)T-MIMOUNet,將Transformer 整合到基于CNN 的UNet,實(shí)現(xiàn)動(dòng)態(tài)場(chǎng)景下的單圖像盲去模糊,不僅繼承了CNN 在建模局部上下文信息方面的優(yōu)勢(shì),而且還利用了Transformer 學(xué)習(xí)全局語(yǔ)義相關(guān)性。在GoPro 和RealBlur 測(cè)試數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了T-MIMO-UNet 的有效性。后續(xù)將繼續(xù)對(duì)視覺(jué)Transformer 進(jìn)行研究,探索結(jié)合多尺度CNN 與視覺(jué)Transformer 的網(wǎng)絡(luò)模型,進(jìn)一步提升其在動(dòng)態(tài)場(chǎng)景下的去模糊性能。