呂 旋,王 標,鄒佳運,田洋川
(1.四川輕化工大學(xué) 自動化與信息工程學(xué)院,四川 宜賓 644000;2.成都視觀天下科技有限公司,四川 成都 610095)
公安機關(guān)在破案過程中采集的車牌圖像由于運動模糊、失焦模糊、光線變化等原因無法被準確地識別,從而嚴重影響案件的偵破進度,因此對圖像進行清晰化處理具有重要的現(xiàn)實意義。
目前,超分辨算法主要分為3類:基于重建的算法、基于插值的算法和基于學(xué)習(xí)的算法[1]。在深度卷積神經(jīng)網(wǎng)絡(luò)出現(xiàn)后,神經(jīng)網(wǎng)絡(luò)開始大規(guī)模地被應(yīng)用在圖像的超分辨處理中。2014年Dong等人提出了SRCNN[2]網(wǎng)絡(luò),利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對圖片進行超分辨處理,每個卷積核參數(shù)都是通過反向傳播更新得到,而不是人為設(shè)定。同時,深度卷積網(wǎng)絡(luò)會進行多層的卷積,保證了足夠大的感受野。目前已經(jīng)出現(xiàn)VDSR[3],EDSR[4],DRCN[5]等眾多網(wǎng)絡(luò)結(jié)構(gòu)算法。針對車牌這一特定領(lǐng)域,利用超分辨網(wǎng)絡(luò)來實現(xiàn)模糊車牌的清晰化。RCAN[6]網(wǎng)絡(luò)第一次將注意力機制[7]引入超分辨率領(lǐng)域。文中基于RCAN改進網(wǎng)絡(luò),提出了基于殘差網(wǎng)絡(luò)的空間和通道雙重注意力網(wǎng)絡(luò)(RSCAN)。
文中主要創(chuàng)新點如下:提出了新的通道注意力機制和空間注意力機制組合的模塊(SCM),在模型效率和計算效果上帶來提升;同時基于CCPD[8]數(shù)據(jù)集,制作新的車牌數(shù)據(jù)集,在數(shù)據(jù)集上做消融實驗,驗證提出算法的有效性;使用殘差塊,構(gòu)成全局特征融合,加強各層信息的傳遞,獲得效果更好的圖像;最后改進損失函數(shù),更加適合車牌超分辨率這一特定領(lǐng)域。
超分辨率網(wǎng)絡(luò)框架的訓(xùn)練主要由三部分構(gòu)成,提升網(wǎng)絡(luò)的效果,也主要從這三方面改進,如圖1所示。
圖1 網(wǎng)絡(luò)框架主要構(gòu)成Fig.1 The main components of network framework
文中在RCAN網(wǎng)絡(luò)的基礎(chǔ)上,提出RSCAN[9]。該網(wǎng)絡(luò)由淺層特征提取模塊、空間和通道注意力融合模塊以及圖像重建模塊構(gòu)成。用ILR表示輸入的模糊車牌圖片,ICI表示輸出的清晰化圖片,用一個卷積層提取輸入圖像ILR的淺層特征,如:
FSF=HSF(ILR),
(1)
式中,HSF(·)表示使用單層卷積實現(xiàn)淺層特征提取。再將淺層提取的特征作為基于空間和通道注意力機制模塊的輸入,通過基于空間和通道注意力機制模塊得到映射后的高維特征,如:
FGF=HRSCAN(FSF),
(2)
式中,HRSCAF(·)表示基于空間和通道注意力機制的關(guān)于特征融合模塊的映射關(guān)系。本文提出的空間和通道注意力機制的特征融合模塊可以使網(wǎng)絡(luò)更加有效地利用提取的有用特征,抑制無用特征,使網(wǎng)絡(luò)在不增加計算的情況下有效加深網(wǎng)絡(luò),增大卷積核的感受野。注意力機制融合后的特征作為上采樣的輸入,經(jīng)過亞像素層[10]進行上采樣操作,得到放大的特征。如:
FUS=HUS(FGF),
(3)
式中,HUS(·)表示上采樣操作。目前在超分辨率重建領(lǐng)域最常用的上采樣方式有插值操作[11]、反卷積操作[12]和亞像素層操作。亞像素層是將多個特征圖重新排列合成一張更大的圖像,獲得更大的感受野,從而使網(wǎng)絡(luò)在重建后達到更好的效果。最后通過一個簡單的卷積將輸入的特征轉(zhuǎn)化為對應(yīng)的三通道輸出圖像,如下:
ICI=HCI(FUS)=HRSCAN(ILR),
(4)
式中,HCI(·)表示重建為彩色圖片的映射函數(shù);HRSCAN(·)表示ILR到ICI的射函數(shù)。
在本文的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計中,基于空間和通道的注意力機制特征融合模塊是實現(xiàn)特征映射的主要結(jié)構(gòu)。該模塊包括A個空間和通道注意力組(Spatial and Channel Attention Groups,SCAG)和跳躍結(jié)構(gòu)。
每個SCAG包含B個具有短跳躍連接的空間和通道注意力模塊(SCAB),這樣的結(jié)構(gòu)能夠使算法訓(xùn)練的更深,如圖2所示。
圖2 殘差空間和通道注意力機制的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure diagram of residual space and channel attention mechanism
第A組中的SCAG表示為:
Fa=Ha(Fa-1)=Ha(Ha-1(…H1(F0)…)),
(5)
式中,Ha為第A個SCAG;Fa-1和Fa分別是第A個SCAG的輸入和輸出,簡單地堆疊多個SCAG無法獲得更好的性能。為了解決這一問題,引入了全局殘差連接(LRC),來穩(wěn)定更深的網(wǎng)絡(luò)。全局殘差連接表示為:
FGF=F0+WLRFA=F0+
WLRHa(Ha-1(…H1(F0)…))。
(6)
LR不僅可以簡化SCAG之間的信息流,還可以在粗略的級別學(xué)習(xí)殘差信息。在LR輸入和特征包含著豐富的信息,網(wǎng)絡(luò)的目標是恢復(fù)更多有用的信息。豐富的低頻信息可以通過殘差連接傳輸?shù)胶竺妗?/p>
此外,每個SCAG中堆疊B個SCAB,第a個SCAG中的第b個SCAB可以表示為:
(7)
式中,F(xiàn)a,b-1和Fa,b為第a個SCAG中的第b個SCAB的輸入和輸出,與SCAG模塊相似,這B個SCAB也具有局部殘差連接(SRC),如:
Fa=Fa-1+Wa+Ha,B=Fa-1+
WaHa,B(Ha,B-1(…Ha,1(Fa-1)…)),
(8)
式中,Wa為第a個SCAB模塊尾部的一個conv的權(quán)重。LRC和SRC的存在,使更豐富的低頻信息在訓(xùn)練過程中傳輸?shù)礁顚印?/p>
注意力機制的提出,使得網(wǎng)絡(luò)能夠?qū)⒏嗟淖⒁饬Ψ旁谟杏玫男畔⑻卣?,對于無用的信息起到抑制作用,可以大大提高計算資源的利用率。在車牌數(shù)據(jù)集獲得質(zhì)量更好的圖片。
1.3.1 空間注意力機制
空間注意力可以理解為讓神經(jīng)網(wǎng)絡(luò)看哪里,通過注意力機制,將原始圖片中的空間信息交換到另一個空間,同時保留關(guān)鍵的信息。
Spatial Transformer[13]就是注意力機制的實現(xiàn),因為訓(xùn)練Spatial Transformer能夠找出信息中被關(guān)注的區(qū)域,這樣圖片局部的重要信息能夠被提取出來,如圖3所示。
圖3 空間注意力機制網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Network structure diagram of spatial attention mechanism
使用一個二維卷積將通道數(shù)目壓縮為1,為了保障空間信息的充分強化,同時保障空間的權(quán)重信息,本文通過卷積操作來實現(xiàn)。為了更充分地提取空間信息,通過多個卷積操作,每次卷積操作縮小4倍,即W/4×H/4×1,而不是直接一個卷積變?yōu)?×1×1。
1.3.2 通道注意力機制
初始圖片經(jīng)過不同的卷積核后,每一個通道都會生成新的信號,相當于每個信號都分解為核函數(shù)上的分量,給每個通道增加一個權(quán)重(權(quán)重表示該通道與關(guān)鍵信息的相關(guān)度),權(quán)重越大,表示越需要關(guān)注該通道的信息。原文使用的注意力機制SE-NET[10]可以學(xué)習(xí)每個卷積塊的通道注意力,為各種深層CNN架構(gòu)帶來明顯的性能提升,具體而言,給定輸入特征,SE模塊首先為每個通道獨立采用全局平均池化,然后使用2個全連接(FC)層以及非線性Sigmoid函數(shù)來生成通道權(quán)重。其中存在著缺陷,2個FC層旨在捕獲非線性跨通道交互,其中涉及降低維度以控制模型的復(fù)雜性,但是降維會給通道注意力預(yù)測帶來副作用,并且捕獲所有通道之間的依存關(guān)系效率不高且不必要。本文使用了一種用于深層CNN的有效通道注意(ECA-NET)[15]模塊,該模塊避免了維度縮減,并有效捕獲了跨通道交互。在不降低維度的情況下進行逐通道全局平均池化,ECA-NET通過考慮每個通道及其k個近鄰來捕獲本地跨通道交互,如圖4所示。
圖4 通道注意力機制結(jié)構(gòu)Fig.4 Structure diagram of channel attention mechanism
對于ECA模塊,其中通道的權(quán)重,本模塊只考慮y{i}和它的k個鄰居之間的信息交互,計算公式為:
(9)
(10)
根據(jù)上面的分析,提出一種新的方法。該方法可以通過卷積核大小為K的一維卷積來實現(xiàn)通道之間的信息交互,如:
w=σ(C1D(y)),
(11)
式中,C1D代表一維卷積,它只涉及K個參數(shù)信息,因此,這種捕捉跨通道信息交互的方法保證了性能結(jié)果和模型效率。
由于ECA模塊旨在適當捕獲局部跨道信息交互,因此需要確定通道交互信息的大致范圍(即1D卷積的卷積核大小k)。雖然可以針對各種CNN架構(gòu)中具有不同通道數(shù)的卷積塊進行手動優(yōu)化設(shè)置信息交互的最佳范圍,但是通過手動進行交叉驗證調(diào)整將花費大量計算資源。而且分組卷積已成功地用于改善CNN架構(gòu),在固定group數(shù)量的情況下,高維(低維)通道與長距離(短距離)卷積成正比。同理,跨通道信息交互作用的覆蓋范圍(即一維卷積的內(nèi)核大小k)與通道維數(shù)C也是成正比的。
該方法保證了模型效率和計算效果。給定通道維數(shù)C,k與c之間有一種映射關(guān)系,如:
C=φ(k)=2(r*k-b),
(12)
式中,2的次方是考慮通道數(shù)量的設(shè)計一般都是以2的次方,這樣可以更方便地計算模塊K,并且r和b分別取2和1。
那么自適應(yīng)卷積核大小(k)便可根據(jù)下面公式計算得到,即:
(13)
最后將提出的空間和通道注意力結(jié)合在一起,通過組合構(gòu)建了具有空間和通道注意力機制的網(wǎng)絡(luò)結(jié)構(gòu),結(jié)構(gòu)如圖5所示。
圖5 空間和通道注意力模塊(SCAB)結(jié)構(gòu)Fig.5 Structure diagram of space and channel attention module (SCAB)
損失函數(shù):損失函數(shù)有L1、L2[16]、MSE[17]、GAN[18]的loss以及紋理結(jié)構(gòu)perceptual loss[19],為了保障有效性,清晰化目的主要是恢復(fù)至肉眼可以識別,所以選擇了L1 loss,即:
(14)
已經(jīng)有人提出了梯度輪廓先驗(GPP)算法[20],以在SISR任務(wù)中產(chǎn)生更尖銳的邊緣。隨后提出了梯度場的變換方法。該方法將梯度輪廓曲線按一定比例進行壓縮,并將圖像轉(zhuǎn)換為更清晰的圖像。這種方法是在深度學(xué)習(xí)時代之前提出的,因此它只會使梯度場的曲線更清晰,而不需要監(jiān)督。
由于制作了成對的車牌超分辨率數(shù)據(jù)集,可以使用HR圖像的梯度場作為Ground Truth。通常,車牌圖像只包含2種顏色:字符和背景。這意味著文本圖像中不存在復(fù)雜的紋理,只需要注意字符和背景之間的邊界。因此,更好的圖像質(zhì)量意味著更清晰的邊界,而不是平滑的字符。當背景不是純色時,梯度場有時并不完全是背景和字符之間的邊界。但大多數(shù)樣例都能達到目的,對訓(xùn)練很有用。具有2個優(yōu)點:① 梯度場生動地表現(xiàn)了文本和背景這2個文本圖像的特征;② LR圖像具有較寬的梯度場曲線,而HR圖像則具有較窄的梯度場曲線。通過數(shù)學(xué)計算可以方便地生成梯度場曲線,這確保了一個保密的監(jiān)督。損失函數(shù)為:
LGP=Ex‖IHR(x)-ISR(x)‖,
(15)
模型的損失函數(shù)由L1損失函數(shù)和梯度損失函數(shù)共同構(gòu)成,即:
L=L(θ)+λLGP。
(16)
基于提出的RSCAN網(wǎng)絡(luò),進行模糊車牌清晰化處理實驗。實驗所采用的圖片均裁剪自CCPD數(shù)據(jù)集,對于裁剪的車牌圖像,進行了上下翻轉(zhuǎn)作為高分辨率圖像,相應(yīng)的低分辨率圖像制作,采用雙三次下采樣產(chǎn)生的低分辨率圖片。
不能僅憑視覺效果進行模型評價,需要采用峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)[21]進行模型效果的評價,PSNR為:
(17)
式中,MAX為每個像素盡可能的最大像素值,為255;MSE為圖像與圖像之間的對應(yīng)像素的均方誤差。PSNR越大說明圖片的生成效果越好。
結(jié)構(gòu)相似性SSIM公式為:
(18)
式中,l(x,y)為高度比較;c(x,y)為對比度比較;s(x,y)為結(jié)構(gòu)比較;μx和μy分別代表x和y的平均值;σx和σy分別代表x和y的標準差;σxy代表x和y的協(xié)方差;而c1,c2,c3都為常數(shù),避免分母為0導(dǎo)致的系統(tǒng)錯誤。
為了避免網(wǎng)絡(luò)在訓(xùn)練過程中出現(xiàn)欠擬合的情況,本文的數(shù)據(jù)集、訓(xùn)練集高低分辨率圖像一共30 000張,測試集一共4 000張,設(shè)置Batch-size為16,即每次訓(xùn)練時抽取16張48 pixel×48 pixel的低分辨率圖像集對應(yīng)標簽圖像進行訓(xùn)練。模糊車牌清晰化只需要將模糊車牌恢復(fù)到肉眼可以識別,所以并不需要太深的神經(jīng)網(wǎng)絡(luò)。經(jīng)過實驗在網(wǎng)絡(luò)結(jié)構(gòu)中設(shè)置A=10,B=20網(wǎng)絡(luò),RSCAN包括10個SCAG模塊,每個SCAG模塊包含20個SCAB模塊。除了在通道注意力機制內(nèi)通道壓縮和擴增及特征融合的瓶頸層采用的1×1卷積核,其余卷積核大小均為3×3,空間注意力機制采用的卷積和反卷積的卷積核大小也為3×3,其步長為3,epoch=300。在訓(xùn)練過程中,網(wǎng)絡(luò)訓(xùn)練采用補0的策略來達到保持中間特征映射大小一致。對于通道注意力,其中卷積核大小k=3。
本文網(wǎng)絡(luò)模型采用ADAM優(yōu)化器,β1=0.9,β2=0.999,ε=10-8,初始學(xué)習(xí)率設(shè)置為10-4,每當2×105次迭代后網(wǎng)絡(luò)學(xué)習(xí)率就下降為原來的一半,每1 000次迭代后在車牌數(shù)據(jù)集上做一次測試,方便查看網(wǎng)絡(luò)的訓(xùn)練情況,從而可以根據(jù)訓(xùn)練情況調(diào)整網(wǎng)絡(luò)超參數(shù)。最后為了驗證網(wǎng)絡(luò)的泛化能力以及車牌恢復(fù)效果,利用互聯(lián)網(wǎng)上的真實模糊車牌圖片來測試。硬件信息如表1所示。
表1 實驗的軟硬件平臺Tab.1 Software and hardware platform of the experiment
為了更清晰地展示本文的創(chuàng)新措施是否有效提升圖像恢復(fù)的質(zhì)量,在4 000張車牌圖片組成的測試集上,對提出的改進點進行消融實驗對比。
2.4.1 SE-NET與ECA-NET的影響
首先為了驗證改進的通道注意力機制的有效性本文在只使用通道注意力機制的情況下進行如下對比實驗:一是網(wǎng)絡(luò)仍使用SE-NET模塊;一是網(wǎng)絡(luò)使用ECA-NET,具體消融實驗結(jié)果如表2所示。
表2 不同通道注意力在車牌數(shù)據(jù)集(×4)上的比較Tab.2 Comparison of the attention of different channels on the license plate data set (×4)
表2中,√表示網(wǎng)絡(luò)使用該模塊,×表示不選擇該模塊,實驗對比使用不同模塊的情況下,網(wǎng)絡(luò)模型在模糊車牌清晰化中展現(xiàn)出的效果,以自制車牌數(shù)據(jù)集的評測指標作為對比,可以發(fā)現(xiàn)使用ECA-NET相較于SE-NET在PSNR上的指標提升了0.074 dB。說明本文使用的通道注意力機制具有更好的效果。
2.4.2 空間與通道注意力機制的影響
最后在車牌數(shù)據(jù)集,比較使用通道注意力機制和本文提出的空間和通道注意力機制,在模糊車牌恢復(fù)效果上的差別,具體實驗結(jié)果如表3所示。
表3 空間與通道注意力在車牌數(shù)據(jù)集(×4)上的影響Tab.3 The influence of spatial and channel attention on the license plate data set (×4)
可以看到使用通道和空間注意力機制的算法有0.101 dB的提升,說明本文使用的空間和通道注意力機制對于模糊車牌圖片的恢復(fù)有更好的效果。
2.4.3 損失函數(shù)的影響
在最終的RSCAN網(wǎng)絡(luò)結(jié)構(gòu)上,實驗使用L1損失函數(shù)以及改進損失函數(shù)L在網(wǎng)絡(luò)中的效果,結(jié)果如表4所示。
表4 不同損失函數(shù)的影響Tab.4 The influence of different loss functions
表4的結(jié)果顯示,雖然使用改進的損失函數(shù),PSNR值有所降低,但是超分辨重建的車牌圖片在視覺上取得了更好的效果,具體結(jié)果如表5所示。
表5 不同損失函數(shù)的效果Tab.5 Effect diagrams of different loss functions
測試主要比較了RCAN模型和本文提出的RSCAN模型。首先肉眼就可以看出將神經(jīng)網(wǎng)絡(luò)應(yīng)用于模糊車牌清晰化,取得了很好的效果,說明本文的思路是可行的。同時本文的RSCAN模型恢復(fù)的圖片細節(jié)方面的效果更好,如表6所示。使用RSCAN與其他一部分經(jīng)典的超分辨(×4)網(wǎng)絡(luò)進行對比,檢測RSCAN網(wǎng)絡(luò)的優(yōu)越性,如表7所示。
表6 RCAN與RSCAN測試結(jié)果比較Tab.6 Comparison of RCAN and RSCAN test results
表7 不同超分辨方法(×4)對比Tab.7 Comparison of different super-resolution methods (×4)
針對車牌識別遇到的一些模糊問題,根據(jù)現(xiàn)有的利用注意力機制的超分辨模型進行改進,提出使用ECA-NET結(jié)構(gòu),同時加入空間注意力機制。2種注意力機制的融合可以有效地獲取不同特征的權(quán)重值,使得網(wǎng)絡(luò)可以根據(jù)權(quán)重精準分配計算資源,在引入極少參數(shù)的同時有效地提高了超分辨率重建的質(zhì)量。為了獲得更好的車牌恢復(fù)結(jié)果,改進損失函數(shù),使用自制的車牌數(shù)據(jù)集,針對車牌這一特定情況,可以產(chǎn)生更好的恢復(fù)效果。實驗證明提出的車牌重建算法,在評價指標結(jié)果上有所提高,同時對一些真實圖片的恢復(fù)處理也取得了不錯的效果。