于 霞, 付 琪, 薛 丹, 王健行, 武家逸, 趙鑫峰
(沈陽工業(yè)大學 信息科學與工程學院, 遼寧 沈陽 110870)
作為現(xiàn)代社會進行個人身份驗證的重要解決方案之一,生物特征識別可以根據(jù)個人的生理或行為特征有效地識別個人[1]。隨著研究人員對人體生物特征信息研究的逐漸深入,出現(xiàn)了許多生物識別技術,如人臉、指紋、掌紋和步態(tài)識別技術等。近年來,掌紋識別受到了極大關注,常被用于身份鑒別、電子控制和安全檢查[2]等。
掌紋中包含豐富的內部特征,包括主線和皺紋及大量基于脊線和細節(jié)點的特征,這些特征具有永久性和特定性。此外,相較于指紋識別,掌紋識別具有更多細節(jié),同時具有用戶友好性及非接觸性等特點[3-4]。相較于人臉識別技術,掌紋識別可以不受面部遮擋、環(huán)境光照等因素影響,并能更好地保護個人隱私,因此掌紋識別應用于個人身份驗證時更易于被各種用戶接受。近年來不少研究聚焦于掌紋識別技術[5]。
在掌紋識別研究中既包含對掌紋紋線進行提取進而識別的傳統(tǒng)方法, 也有利用神經(jīng)網(wǎng)絡的深度學習方法。 根據(jù)掌紋圖像的分類可以大致分為高分辨率掌紋識別、 低分辨率掌紋識別和三維掌紋識別方法。
劉玉珍等[6]提出結合混合濾波LBP(local binary patterns)和主成分分析PCA(principal component analysis)的特征提取,對傳統(tǒng)算法進行改進,最后利用歐氏距離進行匹配。岑瑤等[7-8]提出將分類正交匹配追蹤算法稀疏表示與HOG(histogram of oriented gradient)特征相融合,通過計算HOG特征矩陣與每類重構圖像的最小殘差得到分類結果,識別率達到98%,又提出了基于MB-LBP和HOG算法分別提取紋理、邊緣特征,將2種特征串聯(lián)融合,識別率可達到99.36%。張善文等[9]提出加權自適應CS-LBP與局部判別映射相結合的掌紋識別方法,在掌紋公開數(shù)據(jù)集上正確識別率達到97%以上。徐海華等[10]提出應用分塊ST(suplace type)法對掌紋圖像進行特征提取,利用高斯濾波器對掌紋感興趣區(qū)域去除高頻噪聲,將感興趣區(qū)域圖像分成若干塊,所有子塊特征量組合成總體特征向量,利用最近鄰分類器進行分類后識別率達到95.5%。
劉雪微等[11]提出基于CNN(convolutional neural networks)的多光譜掌紋識別方法, 利用ResNet網(wǎng)絡進行特征提取, 融合之后利用SVM(support vector machine)進行分類。 鄭仕偉等[12]利用AlexNet來提取掌紋特征,再送入分類器得到結果。 陳杰等[13]使用CNN直接將采集的原始圖像進行輸入并識別,克服了傳統(tǒng)識別精度差的缺點 。陳虹旭等[14]將卷積神經(jīng)網(wǎng)絡引入掌紋識別中,通過利用Hausdorff距離匹配特征向量, 相比于PCA、LBP等傳統(tǒng)方法識別率更高。吳碧巧等[15]以VGG16為基礎網(wǎng)絡, 采用投票的方式得到高分辨率掌紋圖像的準確率。 李廣平等[16]提出利用殘差網(wǎng)絡技術提取掌紋特征,對掌紋進行分類,正確分類精度達到96%。 Shao等[17]引入MoblieFaceNets的深度哈希網(wǎng)絡(DHN)來提取區(qū)分性特征, 提高了特征和匹配的效率, 同時目標網(wǎng)絡對未標記的目標掌紋圖像具有自適應性。當前基于神經(jīng)網(wǎng)絡的掌紋識別算法研究已經(jīng)取得了一定成功,但相關研究對掌紋細微紋理特征利用率偏低, 導致實驗不能取得較高的準確率,迭代速度較慢, 也缺乏對基于不同樣本集的實驗迭代和結果分析。
針對上述問題,本文給出一種結合高效通道注意力機制的改進殘差網(wǎng)絡模型以提高掌紋細微紋理特征利用率。該模型在ResNet 50的基礎上對殘差模塊進行改進,加入卷積快速通道,減少網(wǎng)絡模型內部計算量,減少模型訓練迭代時間,引入高效通道注意力機制(efficient channel attention, ECA)模塊,提高了細微特征提取性能,研究對該模型進行評估,同時將該方案與經(jīng)典機器學習掌紋識別方案進行對比分析。實驗結果表明ECA模塊的引入進一步增加了掌紋感興趣區(qū)域內細微紋理特征的利用率,且相較于傳統(tǒng)機器學習掌紋的紋理特征提取與識別方案,本文的模型能較好地實現(xiàn)基于掌紋細微紋理特征的特征提取與識別,不僅提高了識別準確率還拓展了掌紋識別問題研究思路。
殘差網(wǎng)絡ResNet可解決網(wǎng)絡深度增加導致的梯度消失和網(wǎng)絡退化問題[18]。如在CNN網(wǎng)絡中加入XGBoost[19]、使用基于光流的CNN[20]、3DCNN[21]處理圖像數(shù)據(jù)等。殘差網(wǎng)絡經(jīng)過堆疊可以構成一個很深的網(wǎng)絡,深層神經(jīng)網(wǎng)絡難以訓練,殘差學習框架可以減輕網(wǎng)絡訓練,容易優(yōu)化,可以顯著增加網(wǎng)絡深度來提高準確率,很好地解決了網(wǎng)絡深度帶來的訓練困難的問題,它的網(wǎng)絡性能(完成任務的準確度和精度)遠超傳統(tǒng)網(wǎng)絡模型。
殘差網(wǎng)絡模塊分為常規(guī)型殘差網(wǎng)絡模塊和瓶頸型殘差網(wǎng)絡模塊,模塊結構如圖1所示。一個殘差學習模塊[22]包含多個卷積層,這些卷積層對這個殘差學習模塊的輸入數(shù)據(jù)進行變化,將輸入數(shù)據(jù)依次送入卷積層Conv、非線性激活函數(shù)層ReLU和批處理歸一化層BN,經(jīng)過多個殘差單元最后得到輸出結果。在殘差網(wǎng)絡中,當一個構建塊的尺寸與下一個構建單元的尺寸不匹配時,必須使用快速連接即投影快捷方式。加入shortcut結構,相當于在每個block中又加入了上一層圖像的全部信息,一定程度上保留了更多的原始信息,同時保留了一些簡單的特征用于判斷,變得省時。此外,加入shortcut結構后相當于一個集成模型,輸出的結果是前面各個block及其組合一起得出的??梢园裄esNet網(wǎng)絡看成多個子網(wǎng)絡并行,是一個做了不同層次上的特征組合的中等深度的網(wǎng)絡。
(a) 常規(guī)型(b) 瓶頸型
注意力機制模塊被提出并廣泛應用,基于通道注意力機制的激勵和壓縮網(wǎng)絡的SENet[23]模塊、基于空間注意力機制的SGE[24]模塊、基于通道和空間雙重注意力機制的CBAM[25]模塊等已被提出并得到廣泛應用。相比較于以上注意力機制網(wǎng)絡,高效通道注意力機制ECANet[26]網(wǎng)絡更加輕量級,同時提高了特征提取性能。提出了一種不降維的局部跨通道交互策略和一種自適應選擇一維卷積核大小的方法。
相關研究證明通道注意力機制在改善深度卷積神經(jīng)網(wǎng)絡性能方面具有巨大潛力。然而,大多數(shù)現(xiàn)有方法致力于開發(fā)更復雜的注意力模塊以實現(xiàn)更好的性能,這不可避免地增加了模型的復雜性。例如SENet中的通道注意力模塊,在給定輸入特征的情況下,對每個通道單獨使用全局平均池化,經(jīng)過兩個全連接層,使用Sigmoid函數(shù)來生成通道權值。兩個全連接層的設計是為了捕捉非線性的跨通道交互,其中包括降維來控制模型的復雜性。降維對通道注意力預測帶來了副作用,捕獲所有通道之間的依賴是低效的,也是不必要的。而ECA模塊是一種不降維的局部跨通道交互策略,有效避免了降維對于通道注意力學習效果的影響,只涉及少量參數(shù),同時帶來明顯的性能增益。既避免了SE模塊降低維數(shù),又有效進行跨通道交互。跨通道交互可以保持性能,同時顯著降低模型復雜度。
高效通道注意力機制結構如圖2所示,當模塊接收到H×W×C大小的特征圖時(H為輸入圖片高度、W為輸入圖片寬度、C為輸入圖片通道數(shù)),首先在不降低維度的情況下使用全局平均池化層獲取聚合特征,通過一個可以權重共享的一維卷積進行學習,其中一維卷積涉及到超參k,就是卷積核尺寸,它代表了局部跨通道交互的覆蓋率,通過通道維度C的映射自適應地確定,再通過激活函數(shù)Sigmoid進行權值重分配,最后將后一個1×1×C特征圖與原特征圖進行聚合,得到新的注意力特征圖。極大提高了模型學習注意力的性能。
圖2 高效通道注意力機制結構Fig.2 Efficient channel attention mechanism structure
不降維的局部跨通道交互策略可以通過非線性映射自適應一維卷積來完成信息交互。如式(1)所示。
w=σ(Ck(y))
(1)
式中:w為權重;σ表示非線性映射關系;Ck表示k個參數(shù)信息的一維卷積;y表示輸入。一維卷積的權重之間是交錯的,即相互跨通道的,同時又是一組一組存在的,一組中權重的多少取決于卷積核k的大小。
自適應確定k的方法如下:
(2)
式中:ψ(C)表示對通道數(shù)C進行線性映射關系;k為內核大小,表示跨通道交互區(qū)域;C為通道數(shù);|t|odd表示最近鄰奇數(shù);γ表示線性映射的斜率,取值為2;b為線性映射的截距,取值為1。
原始網(wǎng)絡以ResNet 50為基礎,采用殘差網(wǎng)絡中的瓶頸型殘差模塊,其殘差單元由3個卷積層依次構成,分別是1×1、3×3、1×1, 第一層1×1卷積的作用是對通道數(shù)進行改變,這種改變可以使第二層3×3的卷積獲得相對較低維度的輸入,進而減少參數(shù)量,從而提高計算效率。瓶頸型結構如圖3所示。在圖3(a)中,當殘差單元中輸入通道數(shù)和輸出通道數(shù)不一致時,需要在快速連接處加入1×1卷積、再通過批規(guī)范化改變特征圖維度。在圖3(b)中,當殘差單元中輸入通道數(shù)和輸出通道數(shù)一致時,可以直接通過快速連接進行元素相加。
(a) 輸入輸出通道數(shù)不一致(b) 輸入輸出通道數(shù)一致
原始殘差網(wǎng)絡在主路徑上有太多的非線性函數(shù),例如激活函數(shù)ReLU,會阻止信息傳輸,造成掌紋細微紋理特征不能被有效識別,所以通過在網(wǎng)絡結構中加入一些條件來控制BN和ReLU的位置達到優(yōu)化網(wǎng)絡信息傳輸效率,進而提高掌紋細微紋理特征利用率。
由于ReLU激活函數(shù)在負數(shù)部分恒為0,會導致一些神經(jīng)元無法激活,因此使用LeakyReLU函數(shù)替代原始的ReLU函數(shù),LeakyReLU具有ReLU激活函數(shù)的所有優(yōu)點,同時能夠解決神經(jīng)元死亡的問題。
原始的ResNet 50有4組大模塊,每組分別為3、4、6、3的小模塊,每個小模塊里有3個卷積,本文將每組中的殘差模塊分為開始模塊、中間模塊和結束模塊。
在開始模塊中尾部的BN不做LeakyReLU,并對原始Conv Block中的投影快捷方式進行改進,在1×1的卷積之前添加3×3的最大池化層,步長為2,目的是將所有像素信息考慮進去,提高信息的利用率,如圖4所示。
圖4 改進殘差網(wǎng)絡中的開始模塊Fig.4 Start module in improved residual network
每組分別包含1、2、4、1個中間模塊,開始模塊尾部的BN不做LeakyReLU,可以作為中間模塊的輸入標準化處理,故中間模塊的第一個BN被消除,如圖5(a)所示。第2、3組不只有一個中間模塊,接在中間模塊后的模塊在卷積前做批標準化和激活函數(shù)LeakyReLU,記做Intermediate×Block,如圖5(b)所示。2種中間模塊尾部都不做批標準化處理,也不添加激活函數(shù)LeakyReLU。這種改進方案不會增加模型的復雜性,同時會提高信息的利用效率,解決信息損失和信息流動的問題。本文將改進模塊之后的網(wǎng)絡記做MNet。
(a) 改進殘差網(wǎng)絡中的第1組(b) 改進殘差網(wǎng)絡中的第2、3組
在結束模塊的主線位置添加了BN和LeakyReLU,作為投影快捷方式支線信息的數(shù)據(jù)分布處理和非線性處理,提高模型的學習能力,如圖6所示。
圖6 改進殘差網(wǎng)絡中的結束模塊Fig.6 End module in improved residual network
SENet、CBAM等方法雖然可以獲得更好的性能,但是會產(chǎn)生參數(shù)量較大的問題。為了克服性能與復雜度權衡的悖論,選擇在改進的殘差網(wǎng)絡的基礎上添加ECA模塊,添加ECA的模塊分別為Start ECA Block、Intermediate ECA Block、Intermediate×ECA Block和End ECA Block。網(wǎng)絡總體框架結構如圖7所示,輸入經(jīng)過數(shù)據(jù)處理的掌紋圖片,通過7×7卷積核進行卷積、批標準化、激活函數(shù)操作提取全局信息,去除原始ResNet50中的最大池化后,直接通過4組殘差高效注意力機制模塊,經(jīng)過訓練后得到圖像的高層次特征,其中經(jīng)過48次卷積和16次注意力訓練操作,最后經(jīng)過全局平均池化、Dropout層、全連接層,利用SoftMax函數(shù)進行分類操作。添加Dropout層的主要作用是在神經(jīng)網(wǎng)絡訓練過程中防止模型過擬合,更改網(wǎng)絡層的概率參數(shù),使得網(wǎng)絡隨機丟棄一些隱層神經(jīng)元。
圖7 網(wǎng)絡總體框架結構Fig.7 Overall network framework structure
掌紋數(shù)據(jù)集分為接觸式掌紋數(shù)據(jù)集和非接觸式掌紋數(shù)據(jù)集,接觸式掌紋數(shù)據(jù)集是由專業(yè)采集設備獲取的掌紋圖像或通過固定手掌位置的設備采集到的掌紋圖像組成,具有分辨率高的特點。隨著科學技術的不斷發(fā)展,智能手機的拍照功能不斷優(yōu)化,可以實現(xiàn)不需要特殊設備就可以進行手掌圖片采集,非接觸式掌紋數(shù)據(jù)集更加適合科研人員構建數(shù)據(jù)集,具有方便快捷、成本低的特點,尤其可有效防止由接觸帶來的衛(wèi)生問題,但是分辨率還需提升。
3.1.1 公開掌紋數(shù)據(jù)集選取
本文采用4個公開掌紋數(shù)據(jù)集用于實驗對比,PolyU II[27]是香港理工大學采集的公開數(shù)據(jù)集,采集方式為接觸式采集,數(shù)據(jù)集包含386個手掌,一共包含7 752張圖像。TJU[28]是由同濟大學采集的掌紋數(shù)據(jù)集,采集方式為非接觸式,數(shù)據(jù)集包含600個手掌共12 000張圖像。IITD[29]數(shù)據(jù)集由印度新德里理工學院的460名志愿者提供的2 601張非接觸方式采集到的手部圖像組成。CASIA[30]數(shù)據(jù)集由中國科學院自動化研究所創(chuàng)建,采用非接觸式方式進行采集,共包含624名志愿者提供的5 502張掌紋圖像。
3.1.2 自建非接觸掌紋數(shù)據(jù)集
自建掌紋數(shù)據(jù)集采用非接觸方式,圖像均由智能手機拍攝,不限制手機型號,背景采集分為單一背景和復雜背景,采集手勢為四指并攏,方向朝上,大拇指向外自然張開,手部位置允許有一定平移,構建的掌紋圖像庫共采集200個人的手掌圖片,其中左右手分為兩組,單個手掌采集20張圖像,共有400個不同手掌的8 000張掌紋圖像。經(jīng)預處理歸一化為1 600×1 200像素的圖像,采集的手掌圖像如圖8所示。經(jīng)過圖像灰度處理、提取掌紋感興趣區(qū)域得到224×224像素的掌紋圖像。
圖8 自建掌紋數(shù)據(jù)集樣例Fig.8 Example of self built palmprint dataset
在評估模型時采用準確率(accuracy)、召回率(recall)、綜合評價(F-measure)3種評估指標。其中TP是正確預測的樣本,FP是其他類別被判定為當前類別的樣本,FN是當前類別被錯誤判定為其他類別的樣本,TN是其他類別樣本被判定為其他類別樣本,P是模型預測為正樣本的正確個數(shù)除以模型預測為正樣本的總數(shù),準確率、召回率、綜合評價的計算公式可分別由式(3)~式(5)表示。
在模型訓練過程中,對模型參數(shù)進行預設置,設置批處理大小為32,迭代次數(shù)為50,正則化系數(shù)為0.01,初始學習率為0.01,因為隨機梯度下降法(stochastic gradient descent, SGD)可能會被困在某些鞍點,所以在訓練中使用自適應優(yōu)化算法代替SGD優(yōu)化算法。
為了計算輸入和目標之間的損失,在反向傳播期間將成對的掌紋圖像輸入網(wǎng)絡中,交叉熵公式定義為式(6)。
(6)
交叉熵能夠衡量同一個隨機變量中的兩個不同概率分布的差異程度,在機器學習中表示為真實概率分布與預測概率分布之間的差異。交叉熵的值越小,模型預測效果就越好。交叉熵在分類問題中常與SoftMax相結合,SoftMax將輸出的結果進行處理,使其多個分類的預測值和為1,再通過交叉熵來計算損失。
基礎模型對比實驗采用準確率作為評估標準對模型性能進行定量評估。將ResNet 18、ResNet 50、ResNet 101在4種公開掌紋數(shù)據(jù)集上進行對比,實驗結果見表1。
表1 基礎模型準確率對比實驗結果Table 1 Results of comparison experiments on accuracy of basic models 單位: %
將3種網(wǎng)絡ResNet 18、ResNet 50、ResNet 101的模型存儲空間進行對比,模型存儲空間如表2所示。可以看出存儲空間越大模型復雜度越高、收斂速度越慢,ResNet 18雖然存儲空間最少、收斂速度最快,但只在PolyU II數(shù)據(jù)集上取得了最好的準確率,ResNet 50和ResNet 18相比雖然在存儲空間上有所增加,但在TJU和IITD數(shù)據(jù)集上取得了最好的準確率,ResNet 101在CASIA數(shù)據(jù)集上取得了最好的準確率,但是較ResNet 50準確率提升并不明顯,并且增加了存儲空間,導致迭代時間過長,不滿足掌紋識別快速、高效的要求。綜上所述,本文基礎網(wǎng)絡選用ResNet 50,通過對該基礎網(wǎng)絡的改進提高迭代速度,提升準確率。
表2 基礎網(wǎng)絡模型存儲空間Table 2 Basic network model storage space 單位: MB
為了驗證本文給出的ECA-MNet網(wǎng)絡模型的優(yōu)越性,與多種經(jīng)典網(wǎng)絡模型進行對比,表3列舉了不同模型對公開掌紋數(shù)據(jù)集進行識別分類所得準確率、召回率、綜合評價值。可以看出在ResNet 50的基礎上改進的殘差網(wǎng)絡(MNet)準確率高于原始網(wǎng)絡,證明對殘差模塊的改進提高了模型的精度,進而在改進的殘差網(wǎng)絡(MNet)中添加SE、ECA兩種注意力機制模塊,添加注意力機制模塊后準確率均有提升。但添加SE模塊使得模型存儲空間增加,進而導致收斂速度變慢,存儲空間變化情況如表4所示。
表3 不同模型的分類準確率Table 3 Classification accuracy for different models 單位: %
綜上,通過對比可以看出本文給出的ECA-MNet網(wǎng)絡在TJU、IITD、CASIA三個掌紋數(shù)據(jù)集的識別準確率優(yōu)于其他經(jīng)典網(wǎng)絡模型,其他評價指標均有不同提升。在PolyU II掌紋數(shù)據(jù)集的識別準確率、召回率、綜合評價、運行時間較原始網(wǎng)絡有所提升。
為了驗證注意力模塊在訓練過程中是否對掌紋圖片感興趣區(qū)域進行識別優(yōu)化,采用注意力機制熱力圖進行了可視化,可視化結果如圖9所示。通過對比可以發(fā)現(xiàn),添加注意力機制后,能更集中地識別到掌紋圖片感興趣區(qū)域,起到提高識別準確率的效果。
(a) 原始圖片(b) ResNet(c) MNet(d) SE-MNet(e) ECA-MNet
為了驗證本文給出的ECA-MNet網(wǎng)絡模型的泛化性,表5列舉了4種模型對自建掌紋數(shù)據(jù)集進行識別分類所得準確率、召回率、綜合評價??梢钥闯鯡CA-MNet在自建數(shù)據(jù)集上仍能獲得較好的準確率,驗證了該模型具有很好的泛化性。
表5 不同模型對自建掌紋數(shù)據(jù)集識別結果Table 5 Comparison of visualization effects between adopting attention module and original network module 單位:%
經(jīng)過100次迭代訓練,EAC-MNet與其他模型相比,收斂速度最快,分類精度最高,運行時間最短。在注意力機制模塊通過全局平均池化將2維通道特征實現(xiàn)低維嵌入,通道特征給每個通道賦予不同權重,將特征分清主次,分清重點去學習。在網(wǎng)絡改進模塊通過全連接層構建網(wǎng)絡內部關聯(lián)性,使用LeakyReLU激活函數(shù)增加網(wǎng)絡非線性特征,提高模型的泛化能力。Sigmoid函數(shù)將輸出結果歸一化至[0, 1]。
本文給出了一種基于高效通道注意力機制的改進殘差網(wǎng)絡掌紋識別。在原始ResNet 50的基礎上對殘差模塊進行改進,在提高了掌紋細節(jié)信息的利用率的同時,節(jié)省了計算時間,解決了傳統(tǒng)方法中又參數(shù)量大帶來的訓練時間長的問題,經(jīng)過18次迭代,MNet在自建掌紋數(shù)據(jù)集上識別準確率達到97.52%;在此基礎上,引入高效通道注意力機制,在16個殘差模塊內部添加ECA模塊,改進學習率,并且進行梯度優(yōu)化。實驗得到ECA-MNet較現(xiàn)有模型在TJU、IITD、CASIA三種公開掌紋數(shù)據(jù)集分類精度最高,在PolyU II公開掌紋數(shù)據(jù)集識別準確率達到98.69%,在自建掌紋數(shù)據(jù)集上識別準確率達到98.21%??梢詽M足實際應用中對于掌紋識別準確率的要求。