李若森,雒江濤,許國(guó)良
(1.重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065;2.重慶郵電大學(xué) 電子信息與網(wǎng)絡(luò)工程研究院,重慶 400065)
圖像模糊不僅會(huì)影響圖像的視覺效果,還會(huì)使圖像退化,導(dǎo)致一些細(xì)節(jié)信息,例如圖像中的文字、人臉、字符等的丟失。因此,從模糊圖像中恢復(fù)出清晰圖像具有重要意義,可以廣泛地應(yīng)用在智能安防、交通安全、醫(yī)學(xué)影像等領(lǐng)域。造成圖像模糊的原因有失焦、噪聲、物體運(yùn)動(dòng)等,其中,相機(jī)晃動(dòng)或物體運(yùn)動(dòng)是最主要的因素。數(shù)學(xué)上,通常將圖像模糊的過程建模為清晰圖像與模糊核進(jìn)行卷積再加上隨機(jī)噪聲。由于相機(jī)晃動(dòng)和物體運(yùn)動(dòng)具有隨機(jī)性,所以運(yùn)動(dòng)模糊的模糊核是未知的,在模糊核未知的條件下進(jìn)行去模糊的過程稱為盲去模糊。
盲去模糊是一個(gè)典型不適定(ill-posed)的逆問題[1]。針對(duì)這一問題,傳統(tǒng)的模糊盲去除方法是增加合適的約束條件和先驗(yàn)知識(shí)進(jìn)行求解,得到逼近該類問題最優(yōu)的穩(wěn)定單一解。典型的圖像先驗(yàn)知識(shí)包括重尾梯度先驗(yàn)[2]、超稀疏先驗(yàn)[3]等。首先根據(jù)模糊圖像及先驗(yàn)知識(shí)估計(jì)模糊核,再根據(jù)估計(jì)的模糊核進(jìn)行反卷積,最終得到清晰圖像。此類方法能夠達(dá)到一定的去模糊效果,但應(yīng)用范圍均受到先驗(yàn)假設(shè)的限制,且模糊核估計(jì)的準(zhǔn)確性難以得到保證。
近年來,研究者們將深度學(xué)習(xí)運(yùn)用于盲去圖像模糊任務(wù)中,采用端到端的方式直接得到清晰圖像。將模糊核估計(jì)與反卷積統(tǒng)一為一個(gè)過程,避免了由先驗(yàn)假設(shè)不符合圖像實(shí)際條件而導(dǎo)致模糊核估計(jì)不準(zhǔn)確的問題。文獻(xiàn)[4]使用深度卷積網(wǎng)絡(luò)以端到端的方式去除運(yùn)動(dòng)模糊;文獻(xiàn)[5]訓(xùn)練一種多尺度深度卷積網(wǎng)絡(luò),“由粗到細(xì)”地重建清晰圖像,同時(shí)建立了一個(gè)大規(guī)模的GOPRO模糊圖像數(shù)據(jù)集;文獻(xiàn)[6]使用生成對(duì)抗網(wǎng)絡(luò)去除運(yùn)動(dòng)產(chǎn)生的模糊并將去模糊后的圖像用于目標(biāo)檢測(cè)任務(wù);文獻(xiàn)[7]提出一種空間變化的卷積神經(jīng)網(wǎng)絡(luò),在減少計(jì)算開銷的同時(shí)保持了比較優(yōu)秀的去模糊性能;文獻(xiàn)[8]在多尺度網(wǎng)絡(luò)基礎(chǔ)上給中間的隱藏層添加了長(zhǎng)短時(shí)記憶模塊來傳遞不同尺度間的信息,達(dá)到了更好的去模糊效果。然而,上述方法都采用單一尺寸的卷積核提取圖像模糊特征,處理不同程度的運(yùn)動(dòng)模糊時(shí)可能會(huì)造成空間上的信息損失。
鑒于上述研究,本文進(jìn)一步將選擇性內(nèi)核卷積[9]引入深度卷積網(wǎng)絡(luò),并采用混合連接[10]的方式,提出一種基于選擇性內(nèi)核卷積的混合連接編解碼網(wǎng)絡(luò),端到端地消除運(yùn)動(dòng)模糊。本文的主要工作包括以下內(nèi)容。
1)引入選擇性內(nèi)核卷積,在多個(gè)分支中使用不同尺寸的卷積核提取不同大小感受野(receptive fields,RF)下的特征圖,并使用通道注意力機(jī)制(channel attention mechanism,CM)對(duì)特征圖進(jìn)行重新選擇、校準(zhǔn),增強(qiáng)有用特征信息的傳遞并且抑制無用信息,能夠提升網(wǎng)絡(luò)對(duì)空間非均勻模糊圖片的去模糊效果。
2)提出了選擇性內(nèi)核卷積混合連接塊(selective-kernel convolution mixed link block,SKCMLB)代替目前大部分網(wǎng)絡(luò)模型使用的殘差塊以及密集塊?;旌线B接方式融合了殘差與密集連接,能夠增強(qiáng)網(wǎng)絡(luò)的特征提取、轉(zhuǎn)化能力,減少特征冗余,加速網(wǎng)絡(luò)收斂。
3)使用包含均方誤差和感知損失[11]的聯(lián)合損失函數(shù)在GOPRO數(shù)據(jù)集對(duì)提出的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并在GOPRO數(shù)據(jù)集和K?hler數(shù)據(jù)集[12]上測(cè)試訓(xùn)練得到的網(wǎng)絡(luò)模型。
本文提出的選擇性內(nèi)核卷積混合連接編解碼網(wǎng)絡(luò)結(jié)構(gòu)如圖1。網(wǎng)絡(luò)整體為對(duì)稱編解碼式結(jié)構(gòu)。編解碼模塊由多個(gè)選擇性內(nèi)核卷積混合連接模塊、卷積層以及反卷積層堆疊而成,并在對(duì)應(yīng)尺度的編解碼模塊之間添加跳躍連接。
編解碼結(jié)構(gòu)在超分辨率[13]等其他圖像復(fù)原任務(wù)中的有效性已經(jīng)得到大量證實(shí)。本文的編解碼結(jié)構(gòu)網(wǎng)絡(luò)由多個(gè)選擇核混合連接塊以及卷積層和反卷積層組成,同時(shí)在對(duì)應(yīng)的編解碼塊之間添加了跳躍連接。除首尾卷積層步長(zhǎng)為1外,其余卷積層與反卷積層的步長(zhǎng)都為2,前者將特征圖的尺寸減半,同時(shí)通道數(shù)增加一倍,后者反之。以SKCMLB為主要組成部分的編解碼模塊相較其他卷積塊具有更強(qiáng)的特征提取、轉(zhuǎn)化能力,能夠恢復(fù)出更多圖片的細(xì)節(jié)信息,進(jìn)一步提升了消除模糊的能力。
去模糊任務(wù)需要足夠大的感受野才能處理較為劇烈的物體運(yùn)動(dòng)或相機(jī)抖動(dòng)引起的圖像模糊,然而過大的感受野又會(huì)引起空間上細(xì)節(jié)信息的損失,導(dǎo)致圖像去模糊質(zhì)量的下降,而不同尺寸的卷積核可以提供大小不同的感受野進(jìn)而提取多感受野下的特征圖。
受此啟發(fā),本文以多分支卷積網(wǎng)絡(luò)作為基礎(chǔ),融合通道注意力機(jī)制,實(shí)現(xiàn)了神經(jīng)元感受野大小的自適應(yīng)調(diào)節(jié)。理論上,選擇性內(nèi)核卷積的分支數(shù)可以任意選定,但是大尺寸卷積核與全連接層會(huì)成倍增加網(wǎng)絡(luò)參數(shù)量,造成網(wǎng)絡(luò)體積龐大、訓(xùn)練緩慢的問題。因此,本文采用雙分支(卷積核尺寸分別為3×3,5×5)的形式驗(yàn)證選擇性內(nèi)核卷積結(jié)構(gòu)的有效性,其示意圖如圖2。
圖1 選擇性內(nèi)核卷積混合連接編解碼網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Selective-kernel convolution mixed link encoder-decoder network structure
圖2 選擇性內(nèi)核卷積Fig.2 Selective-kernel convolution
基于選擇性內(nèi)核的卷積操作由3個(gè)步驟組成:分裂、融合、選擇。
1.3.1 分裂
1.3.2 融合
首先,通過逐元素相加的方式對(duì)來自多個(gè)分支的特征圖進(jìn)行融合得
(1)
接著,使用全局平均池化(global average pooling,GAP)在空間上壓縮特征圖,生成表征全局信息的通道統(tǒng)計(jì)數(shù)據(jù)S∈RC,用Sc代表S的第c個(gè)元素,計(jì)算公式為
(2)
然后,為了準(zhǔn)確而高效地指引下一步的選擇操作,使用一個(gè)全連接層創(chuàng)建壓縮特征向量z得
z=Ffc(S)=φ(γ(WS))
(3)
(3)式中:φ表示ReLU激活函數(shù);γ表示批歸一化(batch normalization,BN)操作;W∈Rd×C表示全連接層矩陣;d表示壓縮特征的維度,其值設(shè)置為通道數(shù)的一半。
1.3.3 選擇
首先,通過對(duì)壓縮特征向量z進(jìn)行softmax運(yùn)算,得到表征特征圖選擇權(quán)重的通道注意力向量(channel attention vector,CAV)為
(4)
(4)式中:A,B∈RC×d,表示全連接層矩陣;a,b∈RC×1表示通道注意力向量。
然后,使用注意力向量與對(duì)應(yīng)分支的特征圖進(jìn)行逐元素相乘。
最后,將選擇后的多分支特征圖逐元素相加,上述過程可表述為
(5)
選擇核卷積引入了通道注意力機(jī)制,對(duì)使用多種卷積核在不同感受野下提取到的多路特征圖進(jìn)行了重新選擇、校準(zhǔn),增強(qiáng)有用特征信息的傳遞并且抑制無用信息,提高了網(wǎng)絡(luò)對(duì)不同程度運(yùn)動(dòng)模糊的處理能力。
選擇核混合連接塊在選擇性內(nèi)核卷積的基礎(chǔ)上引入了混合連接的方式,其結(jié)構(gòu)如圖3。圖3中M操作符代表混合連接,其過程可表示為
Xout=C(Wsk(Xin)+Xin,Xin)
(6)
(6)式中:Wsk表示選擇性內(nèi)核卷積;C(·)表示聚合(Concatenation)操作;Xin,Xout表示混合連接操作的輸入與輸出。
圖3 選擇性內(nèi)核卷積混合連接塊Fig.3 Selective-kernel convolution mixed link block
混合連接融合了殘差網(wǎng)絡(luò)(ResNet)[14]和密集網(wǎng)絡(luò)(DenseNet)[15],能夠加速網(wǎng)絡(luò)收斂,防止梯度彌散,加深網(wǎng)絡(luò)深度的同時(shí)緩解了殘差網(wǎng)絡(luò)引起的信息流弱化和密集網(wǎng)絡(luò)帶來的特征冗余的問題,使網(wǎng)絡(luò)能夠更高效地提取、轉(zhuǎn)化輸入圖像的特征信息。
在圖像轉(zhuǎn)換任務(wù)中,通常采用均方誤差作為網(wǎng)絡(luò)訓(xùn)練的損失函數(shù),表示為
Lmse=‖N(Iin)-Igt‖2
(7)
(7)式中:N(·)表示網(wǎng)絡(luò)模型;Iin表示輸入圖像;Igt表示真實(shí)圖像。
均方誤差(mean-square error,MSE)是針對(duì)單像素點(diǎn)的誤差,不能捕捉輸出和標(biāo)準(zhǔn)圖像的感知差別,恢復(fù)出的圖像往往缺乏高頻信息。針對(duì)此種缺陷,引入感知損失,它比較輸出圖片與標(biāo)準(zhǔn)圖片經(jīng)過預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)提取出的特征圖的差異,能夠更好地還原出圖像的邊緣、顏色等細(xì)節(jié)信息,表示為
(8)
(8)式中:F(·)表示預(yù)訓(xùn)練的特征提取網(wǎng)絡(luò);Cj代表網(wǎng)絡(luò)第j層輸出特征圖的通道數(shù);Hj、Wj分別表示特征圖的高和寬。
為在恢復(fù)圖像低頻信息的基礎(chǔ)之上進(jìn)一步恢復(fù)高頻細(xì)節(jié),本文采用均方差與感知損失的聯(lián)合損失函數(shù),并賦予感知損失n倍的權(quán)值引導(dǎo)網(wǎng)絡(luò)的訓(xùn)練,公式如下
L=Lmse+nLper
(9)
以該損失函數(shù)組合作為網(wǎng)絡(luò)的優(yōu)化目標(biāo)進(jìn)行迭代訓(xùn)練得到的模型在恢復(fù)圖像邊緣、結(jié)構(gòu)等細(xì)節(jié)信息上預(yù)期能夠取得更好的去模糊效果。
GOPRO數(shù)據(jù)集總共包含3 214對(duì)模糊-清晰圖像對(duì),圖像大小為720×1 280。其中,2 103對(duì)圖像用來訓(xùn)練,其余1 111對(duì)圖像用做測(cè)試。該數(shù)據(jù)集使用高速攝像機(jī)捕捉連續(xù)短曝光的清晰幀進(jìn)行平均,模擬非均勻運(yùn)動(dòng)模糊幀,是一個(gè)進(jìn)行去模糊網(wǎng)絡(luò)訓(xùn)練的常用數(shù)據(jù)集。
K?hler數(shù)據(jù)集由4張圖像組成,是一個(gè)評(píng)估和比較盲去模糊方法的常用數(shù)據(jù)集。該數(shù)據(jù)集使用12 種不同的模糊核對(duì)每張清晰圖像進(jìn)行卷積,形成 48張對(duì)應(yīng)的模糊圖像。
本文實(shí)驗(yàn)在CPU為Intel Xeon E5-2650,GPU為NVIDIA Tesla V100(顯存32 GByte)的計(jì)算機(jī)上進(jìn)行,并使用PyTorch完成網(wǎng)絡(luò)設(shè)計(jì)及訓(xùn)練、測(cè)試工作。數(shù)據(jù)準(zhǔn)備方面,將1 280×720的圖像隨機(jī)裁剪成256×256大小的圖像塊輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練。因?yàn)榫W(wǎng)絡(luò)是全卷積的結(jié)構(gòu),所以在測(cè)試時(shí)可以輸入任意尺寸的圖片。在網(wǎng)絡(luò)訓(xùn)練方面,批數(shù)據(jù)量設(shè)置為2。為避免網(wǎng)絡(luò)陷入局部最優(yōu),使用Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為1E-4,學(xué)習(xí)率隨著學(xué)習(xí)周期的增長(zhǎng)線性衰減到1E-8,經(jīng)過2 000輪訓(xùn)練至收斂(聯(lián)合損失函數(shù)中,n為1)。
本文采用圖像質(zhì)量評(píng)估中常用的峰值信噪比(peak signal to noise ratio,PSNR)、平均結(jié)構(gòu)相似度(mean structural similarity index,MSSIM)作為去模糊網(wǎng)絡(luò)性能的評(píng)價(jià)指標(biāo)。
2.3.1 聯(lián)合損失函數(shù)分析
針對(duì)聯(lián)合損失函數(shù)的配置比例,本文做了4組對(duì)照實(shí)驗(yàn),訓(xùn)練以及測(cè)試均在GOPRO數(shù)據(jù)集上完成,結(jié)果如表1。
表1 聯(lián)合損失函數(shù)的配比測(cè)試結(jié)果
從表1可以看出,僅使用均方誤差進(jìn)行網(wǎng)絡(luò)訓(xùn)練得到的指標(biāo)最低。僅使用感知損失進(jìn)行網(wǎng)絡(luò)訓(xùn)練,較前者有了一定的提升。使用聯(lián)合損失函數(shù)后,性能指標(biāo)有了明顯的提升,并且在1∶10的條件下達(dá)到了最優(yōu)(下文表格中均采用n=10條件下的實(shí)驗(yàn)結(jié)果)。實(shí)驗(yàn)結(jié)果表明,使用均方誤差與感知損失的聯(lián)合損失函數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,能夠有效提高網(wǎng)絡(luò)模型的去模糊能力。
2.3.2 選擇性內(nèi)核卷積混合連接塊分析
為測(cè)試選擇性內(nèi)核卷積混合連接塊的有效性,在使用本文總體網(wǎng)絡(luò)結(jié)構(gòu)情況下,分別調(diào)用殘差塊(Res-block)、密集塊(Dense-block)替換SKCMLB在GOPRO數(shù)據(jù)集上進(jìn)行訓(xùn)練及測(cè)試,各卷積模塊性能比較如表2。
表2 各卷積模塊性能比較
根據(jù)表2的結(jié)果,本文方法取得了最高的PSNR和MSSIM值,并且比其他卷積模塊具有較大的優(yōu)勢(shì)。
2.3.3 質(zhì)量評(píng)估
在GOPRO數(shù)據(jù)集和K?hler數(shù)據(jù)集上,本文與其他文獻(xiàn)方法的性能指標(biāo)對(duì)比結(jié)果分別如表3、表4,在GOPRO數(shù)據(jù)集上的處理結(jié)果如圖4、圖5。
表3 GOPRO數(shù)據(jù)集質(zhì)量評(píng)估結(jié)果
圖4 GOPRO數(shù)據(jù)集上的結(jié)果(從左至右分別為:
表4 K?hler數(shù)據(jù)集質(zhì)量評(píng)估結(jié)果
從表3看出,在GOPRO數(shù)據(jù)集上,文獻(xiàn)[4]的方法效果較差,原因在于網(wǎng)絡(luò)訓(xùn)練所采用的數(shù)據(jù)集由清晰圖像與模糊核卷積而成,與真實(shí)場(chǎng)景的模糊圖像相差較大。從文獻(xiàn)[5]開始使用高速攝影機(jī)合成的模糊圖像數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,網(wǎng)絡(luò)模型的去模糊效果得到了大幅提升。在此基礎(chǔ)之上,文獻(xiàn)[6]將條件生成對(duì)抗網(wǎng)絡(luò)引入去模糊領(lǐng)域,值得注意的是,該方法在PSNR指標(biāo)上成績(jī)一般,但是在MSSIM指標(biāo)上取得了最好成績(jī),這可能與生成對(duì)抗網(wǎng)絡(luò)能夠生成高頻細(xì)節(jié)但是不一定符合真實(shí)細(xì)節(jié)的問題有關(guān)。文獻(xiàn)[8]使用的多尺度遞歸網(wǎng)絡(luò)在PSNR值上取得了最好的成績(jī)。本文方法在PSNR和MSSIM指標(biāo)上均取得了第2名,具有較為優(yōu)異的綜合性能。從圖5第1列、第3列可以看出,本文去模糊方法能夠有效去除偽影,還原座椅、掛飾等物體以及圖案的輪廓和邊緣細(xì)節(jié),能夠有效復(fù)原文字、車牌等有價(jià)值信息,為文字檢測(cè)、車牌識(shí)別等任務(wù)提供更高質(zhì)量的輸入數(shù)據(jù)。表4展示了各算法在K?hler數(shù)據(jù)集上的測(cè)試結(jié)果,本文方法在PSNR指標(biāo)上比文獻(xiàn)[8]的方法低0.06 dB,在MSSIM指標(biāo)上高0.12%,兩項(xiàng)指標(biāo)相較于文獻(xiàn)[5-6]的方法均有明顯提升。從圖4中鐘表指針以及數(shù)字部分可以看出,對(duì)于由清晰圖片與模糊核卷積而成的模糊圖片,本方法也能起到去除偽影,還原細(xì)節(jié)紋理的作用。
針對(duì)運(yùn)動(dòng)模糊在空間上非均勻且模糊核未知的特點(diǎn),本文提出了一種選擇性內(nèi)核卷積混合連接編解碼網(wǎng)絡(luò),以端到端的方式實(shí)現(xiàn)圖像的盲去模糊。實(shí)驗(yàn)結(jié)果表明,本文方法能夠有效去除圖像模糊,恢復(fù)出圖像的邊緣結(jié)構(gòu)和紋理細(xì)節(jié);提出的選擇性內(nèi)核卷積混合連接塊能相較于其他卷積模塊具有較大優(yōu)勢(shì);將一定比例構(gòu)成的均方誤差與感知損失作為聯(lián)合損失函數(shù)用于網(wǎng)絡(luò)訓(xùn)練,能夠提升模型的去模糊性能。目前,去模糊方法基本采用人工合成的模糊圖像數(shù)據(jù)集進(jìn)行訓(xùn)練,對(duì)于難以獲取對(duì)應(yīng)清晰圖像的真實(shí)模糊數(shù)據(jù)集,如何進(jìn)行訓(xùn)練并提高去模糊方法的泛化能力,這將是接下來研究的方向。