李 杰,瞿 中
1.重慶文理學(xué)院 電子信息與電氣工程學(xué)院,重慶 402160
2.重慶郵電大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,重慶 400065
隨著信息技術(shù)和移動互聯(lián)網(wǎng)的發(fā)展,越來越多的場景需要進(jìn)行人的身份認(rèn)證。傳統(tǒng)的基于鑰匙或密碼的認(rèn)證方法已不能滿足人們對安全性和便捷性的需求。生物識別技術(shù)通過獲取人體獨(dú)特的生物特征來進(jìn)行身份認(rèn)證,比密碼或鑰匙更安全,它還避免了用戶忘記密碼或鑰匙的不便,使認(rèn)證更加輕松。因此生物識別技術(shù)已廣泛應(yīng)用于社會的各個領(lǐng)域并成為了目前研究的熱點(diǎn)之一。
常見的用于身份認(rèn)證的生物特征有指紋、人臉、虹膜、指靜脈等[1]。指紋識別和人臉識別是目前使用最廣泛、技術(shù)最成熟的生物識別技術(shù)。但人的手指會因?yàn)槟p或沾染污漬而影響指紋識別的準(zhǔn)確性。此外,指紋是皮膚表面的一種生物特征,比較容易偽造,因此安全性較低。與此同時(shí),由于人的容顏?zhàn)兓?、光線太強(qiáng)或太弱、攝像頭拍攝角度太偏等原因會導(dǎo)致人臉識別失敗。盡管虹膜識別的準(zhǔn)確度很高,但該設(shè)備非常昂貴,而且它使用的是近紅外光,長期暴露在近紅外光下可能會導(dǎo)致眼睛不適[2]。與其他生物識別技術(shù)相比,手指靜脈特征位于人體內(nèi)部,其特征點(diǎn)極其豐富且分布極不規(guī)則,而且需要在血液流動的情況下通過血紅蛋白對近紅外光的吸收成像才能進(jìn)行身份識別。而現(xiàn)代醫(yī)學(xué)研究早已證明人的手指靜脈圖像具有唯一性,每個人每根手指靜脈圖像都不相同;而且人的手指靜脈紋路終身不變,是人體最穩(wěn)定的生物特征之一。因此,手指靜脈識別技術(shù)具有高防偽性、活體識別和非接觸式的特點(diǎn)[3],已應(yīng)用到門禁系統(tǒng)、銀行身份認(rèn)證、安全監(jiān)控等領(lǐng)域[4]。
2000年,日本醫(yī)學(xué)研究者Kono等人首次提出使用手指中的靜脈血管進(jìn)行身份識別[5]。二十多年來,指靜脈識別的研究呈現(xiàn)出迅速繁榮的趨勢,取得了一批令人鼓舞的成果。手指靜脈識別流程如圖1 所示,主要包括圖像采集、圖像預(yù)處理、特征提取和匹配識別四個階段[6]。在深度學(xué)習(xí)技術(shù)廣泛應(yīng)用之前,對手指靜脈識別的研究主要以傳統(tǒng)的圖像處理算法為主,并在識別流程的各個階段都涌現(xiàn)出許多經(jīng)典的方法。在感興趣提取(region of interest,ROI)方面,掩膜法[7-8]和Sobel算子法[9-10]是最常用的方法。在圖像增強(qiáng)中,直方圖均衡化(histogram equalization,HE)[11-12]、自適應(yīng)直方圖均衡化(adaptive histogram equalization,AHE)[13]、限制對比度自適應(yīng)均衡化(contrast-limited adaptive histogram equalization,CLAHE)[14-15]、Gabor 濾波器[16-17]等方法均被廣泛研究。在特征提取階段,涌現(xiàn)出的經(jīng)典算法有重復(fù)線性跟蹤(repeated line tracking,RLT)算法[18]、局部最大曲率(local maximum curvature,LMC)算法[19]、增強(qiáng)型最大曲率(enhanced maximum curvature,EMC)算法[20]、主曲率(principal curvature,PC)算法[21]、寬線檢測器(wide line detector,WLD)[22]、局部二值模式(local binary pattern,LBP)方法[23]和基于雙重降維方向梯度直方圖特征的方法[24]等,這些算法統(tǒng)稱為基于手工提取特征的方法。此外,許多其他特征已應(yīng)用于手指靜脈識別的特征提取,包括主成分分析(principal component analysis,PCA)特征[25]、骨架方向編碼特征[26]、超像素特征[27]和軟生物特征[28]等。在匹配識別階段,歐氏距離(Euclidean distance)[29-30]、余弦距離(cosine distance)[31-32]、曼哈頓距離(Manhattan distance)[33]常用于計(jì)算靜脈紋路特征之間的相似度。對于用LBP 算法提取的二值特征,常用漢明距離(Hamming distance)計(jì)算相似度[34-35]。在模板匹配方法中,Miura等人[18]提出的“Miura-matching”是最經(jīng)典的方法之一。
圖1 手指靜脈識別流程圖Fig.1 Flow chart of finger vein recognition
基于傳統(tǒng)圖像處理的方法使手指靜脈識別的性能到達(dá)較高水平,但是這些算法大都存在計(jì)算量大、效率低等問題。隨著深度學(xué)習(xí)的發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的手指靜脈識別成為主要的研究方向。深度學(xué)習(xí)的前身為人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN),ANN的歷史可以追溯到20 世紀(jì)40 年代[36],之后經(jīng)過了三次發(fā)展高潮和兩次低谷,直到2012 年,由Hinton 和Alex Krizhevsky 設(shè)計(jì)的AlexNet 神經(jīng)網(wǎng)絡(luò)在ILSVRC ImageNet競賽中取得冠軍,引起世界矚目[37]。從此以后,更多更深的優(yōu)秀的神經(jīng)網(wǎng)絡(luò)被提出。2014年,牛津大學(xué)VGG(visual geometry group)視覺幾何組提出了VGGNet[38]取得了ILSVRC ImageNet 競賽的第二名,此后許多研究均把VGGNet 當(dāng)作骨干網(wǎng)絡(luò)。同年,Ian Goodfellow 團(tuán)隊(duì)提出生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)[39],在圖像生成、自然語言處理(natural language processing,NLP)等領(lǐng)域大放異彩。2015 年,殘差網(wǎng)絡(luò)(residual network,ResNet)被微軟實(shí)驗(yàn)室提出[40],通過使用跳躍連接,緩解了在深度神經(jīng)網(wǎng)絡(luò)中增加深度帶來的梯度消失問題。同樣是2015 年,Ronneberger 等人[41]發(fā)表U-Net,其初衷是為了解決生物醫(yī)學(xué)圖像分割的問題,后來被廣泛應(yīng)用在圖像語義分割的各個方向。2017年,MobileNet[42]、ShuffleNet[43]兩個網(wǎng)絡(luò)被提出,推動了輕量級網(wǎng)絡(luò)的研究。同年,Huang 等人[44]提出DenseNet,通過密集連接和特征重用的方法,使網(wǎng)絡(luò)的性能進(jìn)一步提高。鑒于Transformer 在NLP 領(lǐng)域的出色性能,2020年,Google 團(tuán)隊(duì)提出了ViT(vision transformer)[45],成為了Transformer在計(jì)算機(jī)視覺(computer vision,CV)領(lǐng)域應(yīng)用的里程碑著作。
以上經(jīng)典網(wǎng)絡(luò)及其變體已廣泛應(yīng)用到CV領(lǐng)域[46],如圖像分類、圖像識別、圖像分割、圖像修復(fù)等。研究者們都已應(yīng)用到手指靜脈識別領(lǐng)域,使識別性能進(jìn)一步提高?;谏疃葘W(xué)習(xí)的某些方法甚至改變了傳統(tǒng)的需要先圖像預(yù)處理,再特征提取,最后匹配識別這個流程,使其中的兩個或者三個階段通過神經(jīng)網(wǎng)絡(luò)融合在一起完成,實(shí)現(xiàn)端到端的識別。本文后面章節(jié)將對基于深度學(xué)習(xí)的手指靜脈識別方法進(jìn)行詳細(xì)介紹。
深度學(xué)習(xí)技術(shù)的發(fā)展離不開各種數(shù)據(jù)集的支撐,神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)數(shù)據(jù)集里的大量數(shù)據(jù)可以提高模型的泛化能力。在手指靜脈識別領(lǐng)域最常用的公開數(shù)據(jù)集有5個,分別是山東大學(xué)機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘?qū)嶒?yàn)指靜脈數(shù)據(jù)集SDUMLA-HMT[47]、馬來西亞理工大學(xué)手指靜脈數(shù)據(jù)集FV-USM[48]、香港理工大學(xué)指靜脈數(shù)據(jù)集HKPU[49]、清華大學(xué)指靜脈與指背紋圖像庫THU-FVFDT[50]、韓國全北國立大學(xué)指靜脈數(shù)據(jù)集MMCBNU-6000[51]。此外還有荷蘭特文特大學(xué)指靜脈數(shù)據(jù)庫UTFVP[52]、瑞士達(dá)爾·摩爾感知人工智能感應(yīng)研究所指靜脈數(shù)據(jù)集VERA[53]、薩爾茨堡大學(xué)計(jì)算機(jī)科學(xué)系的指靜脈圖像庫PLUSVein-FV3[54]、華南理工大學(xué)手指靜脈數(shù)據(jù)庫SCUT[55]等。表1為常用公開數(shù)據(jù)集的信息匯總,圖2為部分?jǐn)?shù)據(jù)集的圖像展示。
圖2 常用公開指靜脈數(shù)據(jù)集的圖像展示Fig.2 Image display of some public finger vein datasets
(1)SDUMLA-HMT
該數(shù)據(jù)集中的手指靜脈圖像來自106個志愿者,每個人采集了6 個手指,分別是左手和右手的食指、中指和小拇指,每個手指采集了6 幅圖像,因此一共包含了3 816幅圖像。每幅圖像為320×240像素的灰度圖像。
(2)FV-USM
該數(shù)據(jù)集中的手指靜脈圖像來自123個志愿者,每個人采集了4個手指,分別是左手和右手的食指和中指。采集分為兩個階段,每個階段每個手指采集6幅圖像,因此一共采集了5 904幅圖像。每幅圖像為640×480 像素的灰度圖像。該數(shù)據(jù)集同時(shí)還提供了每幅圖像的ROI圖像。
(3)HKPU
該數(shù)據(jù)集中的手指靜脈圖像來自156個志愿者,每個人采集了2 個手指,分別是左手的食指和中指。其中105 人的采集分為兩個階段,剩余的51 人只采集了一個階段,每個階段每個手指采集6 幅圖像,因此一共采集了3 132幅圖像。每幅圖像為513×256像素的灰度圖像。
(4)THU-FVFDT
該數(shù)據(jù)集包含3 個子數(shù)據(jù)集,分別是THUFVFDT1、THU-FVFDT2 和THU-FVFDT3。THUFVFDT1中的手指靜脈圖像來自220個志愿者,每個人只采集了一個手指,分兩階段采集,每階段提供了一幅圖像,因此一共有440幅720×576像素的灰度圖像。THU-FVFDT2 一共有1 220 幅指靜脈圖像,前440 幅圖像來自THU-FVFDT1,剩余的圖像來自390個志愿者,分兩階段采集,每階段提供了一幅圖像。所有圖像為200×100像素的ROI圖像。THU-FVFDT3是THU-FVFDT2的擴(kuò)充,將610個志愿者每個階段每個手指的圖像擴(kuò)充為4幅,因此一共有4 880幅圖像。
(5)MMCBNU-6000
該數(shù)據(jù)集中的手指靜脈圖像來自20 個國家的100個志愿者,每個人采集了6個手指,分別是左手和右手的食指、中指和小拇指,每個手指采集了10幅圖像,因此一共包含了6 000幅圖像。每幅圖像為640×480像素的灰度圖像。
(6)UTFVP
該數(shù)據(jù)集中的手指靜脈圖像來自60 個志愿者,每個人采集了6 個手指,分別是左手和右手的食指、中指和小拇指,采集分兩階段進(jìn)行,每階段每個手指采集了2 幅圖像,因此一共包含了1 440 幅圖像。每幅圖像為672×380像素的灰度圖像。
(7)SCUT
該數(shù)據(jù)集中一共包含100 個志愿者的10 800 幅圖像。每個人采集了6 個手指,每個手指采集了18幅圖像,其中6 幅圖像是在正常光照和姿勢下采集的,剩余的12 幅圖像是在特殊光照和旋轉(zhuǎn)姿勢下采集的。
(8)VERA
該數(shù)據(jù)集中的手指靜脈圖像來自110 個志愿者的220 個手指,每個手指采集2 幅圖像,共440 幅圖像,每幅圖像的像素為665×250。
(9)PLUSVein-FV3
該數(shù)據(jù)集中的手指靜脈圖像來自60 個志愿者,每個人采集了6 個手指,分別是左手和右手的食指、中指和小拇指,每個手指采集了5 幅圖像,因此一共包含了1 800 幅圖像。每幅原始圖像為1 280×1 024像素的灰度圖像,同時(shí)還存儲每幅圖像的ROI,其尺寸為736×192。
本文統(tǒng)計(jì)了近5 年基于深度學(xué)習(xí)方法的指靜脈識別研究的70 篇論文中使用到的各個數(shù)據(jù)集的次數(shù),如圖3所示。
圖3 常用數(shù)據(jù)集在手指靜脈識別研究中的使用次數(shù)Fig.3 The number of times that common datasets are used in finger vein recognition studies
根據(jù)學(xué)習(xí)任務(wù)的不同,深度學(xué)習(xí)在手指靜脈識別中的應(yīng)用主要分為5 類[56],分別是基于分類的方法、基于雙圖像匹配的方法、基于特征提取的方法、基于圖像生成的方法和基于圖像分割的方法。5 類方法的對比如表2所示。此外,深度學(xué)習(xí)方法在手指靜脈圖像質(zhì)量評估、ROI提取、模板保護(hù)、呈現(xiàn)攻擊檢測等方面也有應(yīng)用。
表2 手指靜脈識別常用的深度學(xué)習(xí)方法Table 2 Common deep learning methods for finger vein recognition
基于分類的手指靜脈識別方法又稱為基于識別的方法(identification-based),通常將神經(jīng)網(wǎng)絡(luò)訓(xùn)練成一個多分類器,對數(shù)據(jù)集中的手指進(jìn)行分類。如果數(shù)據(jù)集中一共包含N根不同手指的靜脈圖像,則訓(xùn)練時(shí)需要將圖像分成N個類別,即訓(xùn)練成N分類器。測試時(shí)將輸入圖像送入網(wǎng)絡(luò),根據(jù)輸出的概率值得出該圖像屬于哪一個類別。典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示,輸入圖像大多是經(jīng)過預(yù)處理之后的圖像,許多研究者將輸入圖像轉(zhuǎn)變?yōu)檎叫螆D像之后再送入網(wǎng)絡(luò),如224×224尺寸的圖像[57]。也有研究者直接將長方形的ROI 圖像送入網(wǎng)絡(luò)[58]。多個卷積層之后往往會連接一個或者多個全連接層,也可以為沒有全連接層的全卷積結(jié)構(gòu)[59]。全連接層的最后一層是經(jīng)過Softmax 函數(shù)轉(zhuǎn)換之后的N個類別的概率分布。并將此概率分布與真實(shí)標(biāo)簽采用損失函數(shù)進(jìn)行Loss計(jì)算。
圖4 用于分類的卷積神經(jīng)網(wǎng)絡(luò)示意圖Fig.4 Schematic diagram of CNN for classification
Das等人[58]采用5個卷積層和1個Softmax全連接層進(jìn)行識別。原始圖像經(jīng)過上下掩膜法[7]的ROI 提取、歸一化以及對比度限制的自適應(yīng)直方圖均衡得到輸入圖像并送入神經(jīng)網(wǎng)絡(luò),在4個公共數(shù)據(jù)集上測試都能達(dá)到95%以上的正確率。Radzi 等人[60]采用4層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行手指靜脈識別,在81 名受試者組成的自有數(shù)據(jù)集上識別正確率達(dá)到99.38%。Kuzu等人[61]提出了一種基于卷積和循環(huán)神經(jīng)網(wǎng)絡(luò)的識別框架,卷積神經(jīng)網(wǎng)絡(luò)包含6個卷積層、2個全連接層和1 個輸出層。在自有數(shù)據(jù)集上測試的準(zhǔn)確率達(dá)99.13%。Yeh 等人[62]采用ResNeXt-101 作為主干網(wǎng)絡(luò),Cutout 方法用于數(shù)據(jù)增廣,在FV-USM 數(shù)據(jù)集上的識別準(zhǔn)確率為98.1%。Huang等人[63]設(shè)計(jì)了一種基于ResNet-50的手指靜脈分類CNN模型,其中引入了基于U-Net的空間注意機(jī)制。采用偏置場校正算法對手指靜脈圖像進(jìn)行處理,以降低低對比度和光照不平衡對輸入圖像的影響。Li等人[64]將Vision Transformer與膠囊網(wǎng)絡(luò)(capsule network)結(jié)合對手指靜脈圖像進(jìn)行分類,首先將預(yù)處理圖像分割成小塊送入Vision Transformer 提取手指靜脈特征,然后將特征向量輸入到膠囊模塊中進(jìn)行進(jìn)一步訓(xùn)練。該模型能夠基于全局注意力和局部注意力對手指靜脈圖像信息進(jìn)行挖掘,并選擇性聚焦于重要的手指靜脈特征信息。
基于分類的方法的優(yōu)勢在于圖像分類技術(shù)較為成熟,許多經(jīng)典的網(wǎng)絡(luò)的分類效果都很出色。但是該方法只適合沒有新增類別的封閉場景,只能識別他們訓(xùn)練過的身份,當(dāng)出現(xiàn)新的手指時(shí),需要增加類別并重新訓(xùn)練才能識別新的身份,這在大多數(shù)實(shí)際應(yīng)用場景中是不方便的。此外,手指靜脈圖像數(shù)據(jù)集的特點(diǎn)是類別很多,通常為幾百甚至上千,且每個類別的訓(xùn)練樣本很少,一根手指通常僅有幾幅圖像,這就加劇了訓(xùn)練難度,很容易造成過擬合。
基于雙圖像匹配的方法又稱為基于驗(yàn)證的方法(verification-based),通常將一對手指靜脈圖像樣本作為神經(jīng)網(wǎng)絡(luò)的輸入,以得出該兩幅圖像是否來自同一手指,從而確定是否屬于同一身份。該方法本質(zhì)上是將網(wǎng)絡(luò)訓(xùn)練為二分類器,兩幅圖像為同一身份為一類,不同身份為另一類。該方法在訓(xùn)練時(shí)需要構(gòu)造圖像對作為樣本,在實(shí)際應(yīng)用時(shí)需要將輸入的圖像與數(shù)據(jù)庫中的圖像依次組成圖像對進(jìn)行匹配識別。典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,與基于分類的神經(jīng)網(wǎng)絡(luò)的主要區(qū)別是輸入為兩幅圖像,輸出層是兩個類別的概率。輸入的兩幅圖像經(jīng)過函數(shù)f進(jìn)行合并后再送入神經(jīng)網(wǎng)絡(luò)。函數(shù)f的合并方法可以為兩幅單通道灰度圖組合成一幅雙通道圖像[65-66],也可以是兩幅圖像的差分圖像[57,67],還可以是采用其他方法組成的合成圖像[68]。
圖5 用于雙圖像匹配的卷積神經(jīng)網(wǎng)絡(luò)示意圖Fig.5 Schematic diagram of CNN for image pair matching
Hong等人[57]將兩幅待匹配圖像的ROI調(diào)整尺寸為224×224,然后進(jìn)行差分運(yùn)算,將差分圖像輸入預(yù)訓(xùn)練的VGG-16網(wǎng)絡(luò),在SDUMLA-HMT數(shù)據(jù)集上測試的等錯誤率為3.96%。Fang 等人[65]設(shè)計(jì)了一個雙流網(wǎng)絡(luò),一個流的輸入是兩幅灰度圖像組成的雙通道圖像,另一個流的輸入是兩幅圖像的mini-ROI 組成的雙通道圖像,兩個流的輸出用Concat 層連接起來,并輸入支持向量機(jī)(support vector machine,SVM)分類器進(jìn)行最終決策。Song等人[68]采用兩幅指靜脈圖像的合成圖像作為DenseNet 卷積網(wǎng)絡(luò)的輸入,合成方法為將輸入圖像和注冊圖像的ROI拉伸為224×224,并將這兩幅圖像作為合成圖像的第一通道和第二通道,然后將注冊圖像和輸入圖像調(diào)整為224×112,并將它們垂直拼接作為合成圖像的第三通道。在HKPU 和SDUMLA-HMT 數(shù)據(jù)集上的等錯誤率分別為0.33%和2.35%。
基于雙圖像匹配的方法的優(yōu)點(diǎn)是可以直接基于訓(xùn)練好的網(wǎng)絡(luò)進(jìn)行端到端驗(yàn)證,無需單獨(dú)的特征匹配過程,并且能夠處理身份不可見的開放集場景。雖然圖像對的構(gòu)造過程極大地?cái)U(kuò)大了訓(xùn)練集,但其中很大一部分可能是瑣碎的、沒有信息的對,它們對神經(jīng)網(wǎng)絡(luò)更新的反饋很少,導(dǎo)致學(xué)習(xí)效率低,性能下降。
基于特征提取的方法是目前研究得最多的方法,該方法旨在學(xué)習(xí)一個特征提取網(wǎng)絡(luò)將手指靜脈圖像表示為一個一定長度的特征向量,通過匹配特征向量之間的距離來進(jìn)行身份驗(yàn)證。典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖與基于分類的示意圖類似,不同之處是全連接層的輸出層不需要用Softmax 函數(shù)轉(zhuǎn)換為N個類別的概率分布,而是直接為一定大小的特征向量。目前也有許多研究將特征提取與分類任務(wù)結(jié)合起來[56,69],典型的網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示,在損失計(jì)算時(shí),需要將分類損失和特征度量損失進(jìn)行融合。
圖6 特征提取與分類結(jié)合的網(wǎng)絡(luò)示意圖Fig.6 Schematic diagram combining feature extraction and classification
Huang 等人[69]針對指靜脈信息受局部特征支配的特點(diǎn),提出了一種基于Transformer的模型FVT,該網(wǎng)絡(luò)采用級聯(lián)的4個FVT模塊提取手指靜脈特征,在9個公開的數(shù)據(jù)集上都取得了不錯的性能。Hou等人[70]將卷積自動編碼器與SVM 相結(jié)合,用于手指靜脈的驗(yàn)證,采用中心損失函數(shù)訓(xùn)練網(wǎng)絡(luò)的有效性。Ou 等人[56]采用預(yù)訓(xùn)練的ResNet-18網(wǎng)絡(luò)提取指靜脈圖像的特征,輸出的特征向量的維數(shù)為512,并結(jié)合類內(nèi)數(shù)據(jù)增廣和融合的損失函數(shù)在3個公開數(shù)據(jù)集及自制系統(tǒng)上得到了不錯的性能。Hu等人[71]基于VGGFace-Net提出了FV-Net,輸出的特征向量為2×2×256,然后采用錯位匹配策略進(jìn)行特征匹配,在3 個數(shù)據(jù)集SDUMLAHMT、FV-USM 和MMCBNU-6000 上測試的等錯誤率分別為1.2%、0.76%和0.3%。Zhao 等人[72]提出了一個輕量級的CNN 網(wǎng)絡(luò),全連接層輸出的特征向量長度為200,采集Softmax損失與中心損失相結(jié)合,在MMCBNU 和FV-USM 數(shù)據(jù)集上測試的EER 分別為0.503%和1.07%。Li等人[73]分別采用改進(jìn)的ResNet-18和VGG-16 模型提取512 維度的靜脈特征,并用三元組損失(triplet loss)進(jìn)行訓(xùn)練,在3個公開數(shù)據(jù)集上進(jìn)行交叉驗(yàn)證,最佳結(jié)果的準(zhǔn)確率達(dá)到98%。
基于特征提取方法的優(yōu)點(diǎn)是能夠直接通過網(wǎng)絡(luò)將靜脈紋路圖像表示為一定長度的特征向量,能夠處理身份不可見的開放集場景,從相關(guān)研究可以看出,基于特征提取的方法的缺點(diǎn)主要是損失函數(shù)較為復(fù)雜,通常需要結(jié)合分類損失以提高收斂速度。要想提高基于特征提取方法的識別性能,損失函數(shù)的選擇和設(shè)計(jì)是重要的環(huán)節(jié)。本文第4 章將對損失函數(shù)進(jìn)行介紹。
基于圖像生成方法的主要目的是根據(jù)現(xiàn)有的圖像樣本生成新的手指靜脈樣本進(jìn)行數(shù)據(jù)增廣,從而擴(kuò)展訓(xùn)練集進(jìn)行訓(xùn)練以提高識別性能。GAN網(wǎng)絡(luò)是該方法采用的主要網(wǎng)絡(luò)結(jié)構(gòu),許多學(xué)者都對其進(jìn)行了研究并提出很多改進(jìn)方法。典型的網(wǎng)絡(luò)結(jié)構(gòu)如圖7 所示[74],GAN 網(wǎng)絡(luò)主要由生成器和判別器組成,標(biāo)簽信號和噪聲信號輸入生成器,生成器網(wǎng)絡(luò)生成“假”的手指靜脈圖像?!凹佟钡氖种胳o脈圖像和真實(shí)圖像輸入判別器,判別器網(wǎng)絡(luò)學(xué)習(xí)區(qū)分真假圖像。“假”的手指靜脈圖像和真實(shí)圖像一起組成訓(xùn)練數(shù)據(jù),從而實(shí)現(xiàn)數(shù)據(jù)增廣的目的。訓(xùn)練數(shù)據(jù)輸入識別或者驗(yàn)證神經(jīng)網(wǎng)絡(luò),從而實(shí)現(xiàn)圖像分類或者特征匹配功能。
圖7 基于生成對抗網(wǎng)絡(luò)的結(jié)構(gòu)圖Fig.7 Architecture of GAN-based network
Zhang 等人[59]提出了一種輕量級的全卷積生成對抗網(wǎng)絡(luò)架構(gòu),稱為FCGAN(fully convolutional generative adversarial network),另外還提出了一種用于指靜脈分類的網(wǎng)絡(luò)FCGAN-CNN,實(shí)驗(yàn)表明通過FCGAN 進(jìn)行數(shù)據(jù)增廣能夠改善CNN 用于指靜脈圖像分類的性能。Hou 等人[74]設(shè)計(jì)了一種新的生成對抗網(wǎng)絡(luò),稱為三元組分類器GAN,用于指靜脈驗(yàn)證。GAN與基于三元組損失的CNN分類器相結(jié)合,擴(kuò)展了訓(xùn)練數(shù)據(jù),提高了CNN的判別能力。Wang等人[75]提出了一種由約束CNN 和CycleGAN 組成的層次生成對抗網(wǎng)絡(luò)用于數(shù)據(jù)增廣,通過濾波器剪枝和低秩逼近的方法對模型進(jìn)行壓縮,從而使壓縮后的模型更適合于在嵌入式系統(tǒng)上部署。Yang等人[76]基于CycleGAN提出了FV-GAN 網(wǎng)絡(luò),包含兩個生成器,分別是圖像生成器和紋路生成器,并設(shè)計(jì)合適的損失函數(shù)。該網(wǎng)絡(luò)解決了真實(shí)標(biāo)簽不準(zhǔn)確的問題。
盡管基于圖像生成方法的結(jié)果令人鼓舞,但基于GAN 的方法需要結(jié)合額外的分類和驗(yàn)證網(wǎng)絡(luò)使用,模型較單一網(wǎng)絡(luò)復(fù)雜,且經(jīng)常遇到收斂性較差和訓(xùn)練不穩(wěn)定性的困難[77]。如何在有限的訓(xùn)練數(shù)據(jù)下,利用GAN生成高質(zhì)量、多樣化的手指靜脈樣本,仍然是有待研究的問題。
基于圖像分割的方法采用U-Net 等神經(jīng)網(wǎng)絡(luò)從手指靜脈圖像中分割出靜脈紋路圖案作為特征,然后采用該特征進(jìn)行匹配識別。該方法與傳統(tǒng)的手指靜脈識別流程類似,典型的流程圖如圖8 所示,ROI圖像經(jīng)過圖像分割網(wǎng)絡(luò)得到靜脈紋路圖像,然后將該紋路圖像送入識別或者驗(yàn)證神經(jīng)網(wǎng)絡(luò),從而實(shí)現(xiàn)圖像分類或者特征匹配功能。圖像分割網(wǎng)絡(luò)通常為U-Net、SegNet、RefineNet 等經(jīng)典的圖像分割網(wǎng)絡(luò)及其改進(jìn)網(wǎng)絡(luò),識別或者驗(yàn)證神經(jīng)網(wǎng)絡(luò)與前幾節(jié)提到的網(wǎng)絡(luò)類似。
圖8 基于圖像分割方法的示意圖Fig.8 Schematic diagram of image segmentation method
Jalilian等人[78]對比了三種網(wǎng)絡(luò)(U-Net、RefineNet、SegNet)的靜脈紋路分割性能,使用了自動生成標(biāo)簽的方法并與手動標(biāo)簽聯(lián)合訓(xùn)練具有不同比例標(biāo)簽的網(wǎng)絡(luò),Miura match方法[18]用來匹配識別。Zeng等人[79]提出了一種改進(jìn)的U-Net 的全卷積神經(jīng)網(wǎng)絡(luò)與條件隨機(jī)場相結(jié)合的端到端靜脈紋路提取模型。該模型能根據(jù)靜脈的規(guī)模和形狀自適應(yīng)調(diào)整感受野,捕捉復(fù)雜的靜脈結(jié)構(gòu)特征。標(biāo)簽圖像由傳統(tǒng)的紋路特征提取算法生成并按權(quán)值融合得到。Zeng等人[80]在最新研究中提出的靜脈紋路分割模型同樣以U-Net 為骨干網(wǎng)絡(luò),并結(jié)合深度可分離卷積、Ghost模塊、幾何中值濾波剪枝等方法對模型進(jìn)行壓縮,最后得到的模型的參數(shù)量僅為U-Net 的9%,并且具有不錯的性能。Song等人[81]提出了一種顯式和隱式特征融合網(wǎng)絡(luò)(explicit and implicit feature fusion network,EIFNet),用于手指靜脈的識別。采用掩碼生成模塊進(jìn)行紋路分割,然后采用掩膜特征提取模塊對分割出的紋路圖像進(jìn)行特征提取得到顯式特征,采用上下文特征提取模塊直接提取原始圖像的特征得到隱式特征。
深度神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的紋路分割能力,但是由于圖像分割網(wǎng)絡(luò)的訓(xùn)練需要大量標(biāo)記數(shù)據(jù),目前缺乏這樣的數(shù)據(jù)集。因?yàn)槭种胳o脈圖像本來就不夠清晰,人工標(biāo)記的靜脈紋路并不一定準(zhǔn)確,這是缺乏數(shù)據(jù)集的主要原因。目前研究所使用的分割標(biāo)簽生成方法主要分為人工標(biāo)注方法[82]、傳統(tǒng)紋路提取方法自動生成方法[79,83]、人工標(biāo)注與自動生成相結(jié)合的方法[78]。
以上提到的五種手指靜脈識別中的深度學(xué)習(xí)方法,目前的研究主要以卷積神經(jīng)網(wǎng)絡(luò)為主,在每個領(lǐng)域都有一些經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu)可以借鑒。在訓(xùn)練方面,常用的公開的手指靜脈數(shù)據(jù)集由于每根手指圖像樣本偏少,在訓(xùn)練分類網(wǎng)絡(luò)時(shí)存在容易過擬合的問題,因此需要在訓(xùn)練時(shí)結(jié)合圖像增強(qiáng)技術(shù)以擴(kuò)充樣本。而基于圖像分割的方法,訓(xùn)練時(shí)需要帶標(biāo)記的靜脈紋路圖像,目前還缺乏這樣的數(shù)據(jù)集。因此,目前主流的方法是直接將輸入的灰度圖像提取為一定長度的特征向量。
在生物識別領(lǐng)域,其系統(tǒng)通常分為識別系統(tǒng)和驗(yàn)證系統(tǒng),分別對應(yīng)了封閉場景和開放場景的應(yīng)用。在封閉場景中,系統(tǒng)中的身份個數(shù)已經(jīng)確定,沒有新增個體,識別系統(tǒng)的作用就是判斷輸入的生物特征屬于系統(tǒng)中的哪個個體,因此識別系統(tǒng)被描述為一對多的匹配系統(tǒng)。基于分類的手指靜脈識別方法就應(yīng)用于這樣的識別系統(tǒng)。驗(yàn)證系統(tǒng)通常被描述為一對一匹配系統(tǒng),因?yàn)樵撓到y(tǒng)試圖將輸入的生物特征與已經(jīng)存入系統(tǒng)的特定生物特征進(jìn)行匹配,以得出輸入的特征是否存在于系統(tǒng)中,若是,進(jìn)一步根據(jù)最佳匹配得出輸入特征的身份。該系統(tǒng)適用于有新增個體的開放系統(tǒng),當(dāng)需要新增個體時(shí),只需提取新增個體的特征存入系統(tǒng)中即可?;陔p圖像匹配的手指靜脈識別方法就屬于這樣的驗(yàn)證系統(tǒng)。
基于特征提取的手指靜脈識別方法將輸入圖像表示為一個一定長度的特征向量,通過匹配特征向量之間的距離來進(jìn)行身份驗(yàn)證,該方法主要應(yīng)用于開放場景。而基于圖像生成的方法和基于圖像分割的方法,生成的圖像或者分割出的紋路圖像可以送入識別網(wǎng)絡(luò)或驗(yàn)證網(wǎng)絡(luò),因此分別適用于封閉場景和開放場景。
在手指靜脈識別系統(tǒng)中,深度學(xué)習(xí)方法在圖像質(zhì)量評價(jià)、ROI 提取、模板保護(hù)(template protection)、呈現(xiàn)攻擊檢測(presentation attack detection,PAD)等方面也有應(yīng)用。
(1)圖像質(zhì)量評價(jià)
由于圖像采集裝置在采集手指靜脈圖像時(shí),受光照強(qiáng)度、環(huán)境溫度、手指組織中的光散射、用戶自身行為等因素的影響,導(dǎo)致采集的圖像質(zhì)量參差不齊。低質(zhì)量的圖像將會導(dǎo)致系統(tǒng)性能下降。如果能在圖像采集階段就自動辨別出低質(zhì)量圖像并提醒用戶重新采集,將大大提高系統(tǒng)的準(zhǔn)確率。許多學(xué)者對基于深度學(xué)習(xí)的指靜脈圖像質(zhì)量評價(jià)方法進(jìn)行了研究[84-86]。Qin等人[84]采用深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)對手指靜脈的圖像進(jìn)行質(zhì)量評價(jià),將ROI 圖像分成不同的塊分別采用DNN 進(jìn)行質(zhì)量評價(jià),然后將每個塊的質(zhì)量分?jǐn)?shù)聯(lián)合輸入到概率支持向量機(jī)中以得出整幅圖像的質(zhì)量分?jǐn)?shù)。通過該方法擴(kuò)展了訓(xùn)練數(shù)據(jù)量,提高了質(zhì)量評估性能。Wang等人[85]采用競爭Gabor響應(yīng)自適應(yīng)直方圖進(jìn)行識別,將識別正確的圖像作為高質(zhì)量樣本圖像,識別錯誤的圖像作為低質(zhì)量樣本圖像。針對高質(zhì)量圖像和低質(zhì)量圖像數(shù)量不平衡的問題,采用改進(jìn)的SMOTE(synthetic minority over-sampling technique)方法擴(kuò)充低質(zhì)量圖像的數(shù)量,最后使用卷積神經(jīng)網(wǎng)絡(luò)對這些圖像進(jìn)行區(qū)分。
(2)ROI提取
在傳統(tǒng)的手指靜脈識別方法中,感興趣區(qū)域提取是重要的環(huán)節(jié)。對于采用深度學(xué)習(xí)方法的手指靜脈識別系統(tǒng),如果將原始圖像進(jìn)行ROI提取之后再輸入網(wǎng)絡(luò)模型進(jìn)行分類或者特征提取,對系統(tǒng)性能的提升也會有幫助。因?yàn)镽OI 提取算法可以對手指的位移進(jìn)行校正,提高了CNN網(wǎng)絡(luò)穩(wěn)定性;ROI提取會過濾掉大部分不相關(guān)的區(qū)域,保留原始靜脈模式,可以有效地改進(jìn)訓(xùn)練過程[2,59,87]。Ma等人[88]針對傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)信息丟失的問題,提出了一種基于膠囊神經(jīng)網(wǎng)絡(luò)(capsule neural network)的手指靜脈感興趣區(qū)提取算法,在兩個公共數(shù)據(jù)集上取得了不錯的效果。Yang 等人[89]以VGG-16 網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò)對ROI進(jìn)行提取,用IOU(intersection over union)指標(biāo)評價(jià)ROI提取的準(zhǔn)確性,與傳統(tǒng)方法相比取得了更好的性能。
(3)模板保護(hù)
手指靜脈識別系統(tǒng)中存儲的靜脈特征模板屬于個人隱私,一旦泄露,將會存在安全風(fēng)險(xiǎn)。許多學(xué)者對模板保護(hù)方法進(jìn)行了研究[90-93]。Ren等人[90]提出了一種帶模板保護(hù)的完全可撤銷的手指靜脈識別系統(tǒng),采用RSA(Rivest-Shamir-Adleman)加密技術(shù)對手指靜脈圖像加密,使用CNN 對加密后的圖像進(jìn)行處理,在保證識別性能的同時(shí)保障用戶靜脈模板的安全性。Liu等人[91]提出了一種基于深度學(xué)習(xí)和隨機(jī)投影的安全生物特征模板的手指靜脈識別算法FVRDLRP(finger vein recognition based on deep learning and random projections)。即使用戶的密碼被破解,F(xiàn)VR-DLRP也會保留核心生物特征信息,而原始生物特征信息仍然是安全的。Shahreza 等人[92]使用深度卷積自動編碼器從傳統(tǒng)手指靜脈識別方法生成的特征圖中學(xué)習(xí)降維空間中的深度特征,然后對這些深度特征應(yīng)用生物哈希算法來生成受保護(hù)的模板,采用自編碼器損失和三元組損失結(jié)合的多項(xiàng)損失函數(shù)以提高在模板保護(hù)情況下的識別精度。
(4)呈現(xiàn)攻擊檢測
與其他生物識別方式不同,指靜脈識別技術(shù)通過使用手指皮膚下的血管紋路來確定個人身份,具有高安全性的特點(diǎn)。但是,用“偷”來的指靜脈圖像欺騙指靜脈識別系統(tǒng)仍然是可能的。為了保護(hù)指靜脈識別系統(tǒng)免受欺騙攻擊,對其欺騙檢測方法,即PAD 方案的研究仍然是非常有必要的[94-96]。Shaheed等人[94]提出了一種基于殘差連接和深度可分離的輕量級卷積神經(jīng)網(wǎng)絡(luò)與線性支持向量機(jī)的呈現(xiàn)攻擊檢測方法,能有效地從假指靜脈圖像和真實(shí)指靜脈圖像中提取特征并加以區(qū)分。Yang等人[95]提出了一種輕量級指靜脈識別和反欺騙網(wǎng)絡(luò)FVRAS-Net(fingervein recognition and antispoofing network),該網(wǎng)絡(luò)利用多任務(wù)學(xué)習(xí)方法,將識別任務(wù)和反欺騙任務(wù)集成到一個統(tǒng)一的CNN 模型中,實(shí)現(xiàn)了高安全性和強(qiáng)實(shí)時(shí)性。
為了使模型更輕、性能更好、魯棒性更強(qiáng),許多深度學(xué)習(xí)中的設(shè)計(jì)技巧被用于手指靜脈識別網(wǎng)絡(luò)的研究與開發(fā)中。
為了能使深度學(xué)習(xí)模型被部署到便攜式設(shè)備中,輕量化網(wǎng)絡(luò)的研究必不可少。目前常用的輕量化設(shè)計(jì)方法主要為輕量化網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)和模型壓縮兩類[97]。輕量化網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的基本思想是采用較少的卷積層、全卷積結(jié)構(gòu)替換參數(shù)量大的全連接層、深度可分離卷積(如圖9所示)、分組卷積以及神經(jīng)網(wǎng)絡(luò)搜索(neural architecture search,NAS)等技術(shù)減少卷積運(yùn)算量,降低模型訓(xùn)練和推理時(shí)間。模型壓縮的方法通常在卷積層和全連接層采用張量分解、量化、剪枝等手段進(jìn)行模型調(diào)整以減少參數(shù)的內(nèi)存占用和計(jì)算成本。
圖9 深度可分離卷積流程圖Fig.9 Flow chart of depthwise separable convolution
在手指靜脈識別領(lǐng)域,多位學(xué)者采用了輕量化設(shè)計(jì)方法以提高識別速度,降低模型部署難度。Zeng 等人[80]將深度可分離卷積應(yīng)用到基于U-Net 的輕量級網(wǎng)絡(luò)設(shè)計(jì)中。Shaheed等人[94]提出了一種基于殘差連接和深度可分離卷積神經(jīng)網(wǎng)絡(luò)與線性支持向量機(jī)相結(jié)合的呈現(xiàn)攻擊檢測方法,解決了手指靜脈識別系統(tǒng)PAD領(lǐng)域缺乏輕量級高效特征描述符的問題。Shaheed等人[98]還提出了一種基于深度可分離的殘差連接CNN 的預(yù)訓(xùn)練Xception 模型,該模型被認(rèn)為是一種更有效、更簡單的提取魯棒特征的神經(jīng)網(wǎng)絡(luò)。Ren等人[99]受MobileNeV3[100]的啟發(fā),將深度可分離卷積、倒殘差結(jié)構(gòu)和NAS[101]相結(jié)合,設(shè)計(jì)了一個輕量級的多模態(tài)特征融合網(wǎng)絡(luò)FPV-Net(fingerprint and finger vein recognition network)。文獻(xiàn)[59]、文獻(xiàn)[60]、文獻(xiàn)[61]、文獻(xiàn)[72]、文獻(xiàn)[84]、文獻(xiàn)[86]、文獻(xiàn)[91]、文獻(xiàn)[92]、文獻(xiàn)[102]等采用自己搭建的小型網(wǎng)絡(luò)實(shí)現(xiàn)模型的輕量化,這些模型通常只有3~6個卷積層,1~2個全連接層。文獻(xiàn)[66]、文獻(xiàn)[71]、文獻(xiàn)[79]等對經(jīng)典網(wǎng)絡(luò)進(jìn)行壓縮來實(shí)現(xiàn)輕量化,通過刪減卷積層或全連接層的數(shù)量、減少各層的通道數(shù)等方法減少模型的參數(shù)量及運(yùn)算量。以上設(shè)計(jì)大多在實(shí)現(xiàn)模型輕量化的同時(shí),能夠保證識別準(zhǔn)確率和穩(wěn)定性在較高水平,因?yàn)槭种胳o脈圖像尺寸較小,樣本數(shù)量少,直接采用大型的網(wǎng)絡(luò)模型反而容易出現(xiàn)過擬合的問題。
雖然公開的手指靜脈數(shù)據(jù)集不少,但是與ImageNet、CoCo等用于圖像分類、目標(biāo)檢測的大型數(shù)據(jù)集相比,手指靜脈數(shù)據(jù)集中的圖像較少,包含的手指數(shù)量通常只有幾百個,而且每個手指的圖像往往不超過10幅,這加大了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度,使模型容易出現(xiàn)過擬合,在做分類任務(wù)時(shí)表現(xiàn)尤為突出。為了解決訓(xùn)練數(shù)據(jù)不充分的問題,數(shù)據(jù)增廣是非常有必要的。許多學(xué)者在其研究中都用到了各種數(shù)據(jù)增廣方法,這些方法主要分為傳統(tǒng)圖像處理方法和深度學(xué)習(xí)的方法。
傳統(tǒng)圖像處理方法主要是將圖像的形狀、亮度、清晰度等進(jìn)行改變以獲得新的圖像從而擴(kuò)充數(shù)據(jù)集。Ou等人[56]將類間增廣和類內(nèi)增廣相結(jié)合對訓(xùn)練集進(jìn)行擴(kuò)充。類間增廣采用圖像垂直翻轉(zhuǎn)來實(shí)現(xiàn),類內(nèi)增廣通過圖像的隨機(jī)裁剪和調(diào)整大小、旋轉(zhuǎn)、透視失真和顏色抖動來實(shí)現(xiàn)。Hou等人[103]采用翻轉(zhuǎn)、旋轉(zhuǎn)、移位、剪切和縮放等方法進(jìn)行圖像增廣,并詳細(xì)說明了各種方法的具體參數(shù)設(shè)置。Yang等人[89]采用仿射變換、亮度變換、添加高斯噪聲和隨機(jī)裁剪進(jìn)行數(shù)據(jù)增廣,每種操作的執(zhí)行概率為0.5。圖10為常見的數(shù)據(jù)增廣示例。
圖10 指靜脈圖像數(shù)據(jù)增廣示例Fig.10 Example of finger vein image data augmentation
前面提到的傳統(tǒng)圖像處理方法主要基于單幅圖像進(jìn)行變換,產(chǎn)生新圖像時(shí)可以利用的先驗(yàn)知識很少,僅僅是圖像本身的信息?;谏疃葘W(xué)習(xí)的方法可以通過訓(xùn)練學(xué)習(xí)數(shù)據(jù)集中所有圖像的特征,從而將整個數(shù)據(jù)集作為先驗(yàn)知識用于生成新的樣本圖像,這種數(shù)據(jù)增廣方法在理論上是一種更加優(yōu)秀的方法。該方法最常用的是采用GAN模型生成新的手指靜脈圖像來擴(kuò)充數(shù)據(jù)集,在本文的第2章基于圖像生成的方法介紹中已作詳細(xì)描述,在此不再贅述。
另一種數(shù)據(jù)增廣的方法是將圖像分割成多個小塊再送入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,這樣不僅能擴(kuò)充數(shù)據(jù)集,還能通過使用更小網(wǎng)絡(luò)模型實(shí)現(xiàn)系統(tǒng)的輕量化。Qin等人[84]和Zeng等人[86]將ROI圖像拆分成5塊再送入神經(jīng)網(wǎng)絡(luò)進(jìn)行質(zhì)量評價(jià),為了保持紋路的連貫性,拆分時(shí)使部分區(qū)域重疊。Yang 等人[76]將原始的ROI圖像拆分成90 個小塊送入紋路生成模型中訓(xùn)練,極大地?cái)U(kuò)充了訓(xùn)練集。
遷移學(xué)習(xí)是指利用數(shù)據(jù)、任務(wù)或模型之間的相似性,將舊領(lǐng)域?qū)W習(xí)過的模型,應(yīng)用于新領(lǐng)域的一種學(xué)習(xí)過程。遷移學(xué)習(xí)可以使模型在初始時(shí)就具備較優(yōu)的性能,后續(xù)只需微調(diào)就可以使模型性能得到提升。使用預(yù)訓(xùn)練模型是遷移學(xué)習(xí)的主要方法,通過使用之前在大數(shù)據(jù)集上經(jīng)過訓(xùn)練的預(yù)訓(xùn)練模型,可以直接獲得相應(yīng)的結(jié)構(gòu)和權(quán)重。在機(jī)器視覺領(lǐng)域,預(yù)訓(xùn)練模型大都采用ImageNet 數(shù)據(jù)集作為訓(xùn)練集,因?yàn)樗习偃f幅圖像,有助于訓(xùn)練普適模型。在手指靜脈識別的研究中,許多學(xué)者采用預(yù)訓(xùn)練的經(jīng)典網(wǎng)絡(luò)模型來提升系統(tǒng)性能。Hong等人[57]采用預(yù)訓(xùn)練的VGG-16模型進(jìn)行差分圖像匹配。Song等人[68]將DenseNet-161 模型的卷積層采用預(yù)訓(xùn)練模型進(jìn)行初始化,只對最后的全連接層進(jìn)行微調(diào)。Hu 等人[71]采用預(yù)訓(xùn)練模型對VGGFace-Net 的前6 個卷積層進(jìn)行權(quán)重初始化,并嵌入到FV-Net模型中。Kuzu等人[104]將ImageNet上的預(yù)訓(xùn)練模型應(yīng)用于DenseNet-161和ResNext-101模型中進(jìn)行性能比較。
2018年,基于壓縮和激勵(squeeze-and-excitation,SE)模塊的通道注意力機(jī)制被提出[105],通過給每個通道計(jì)算一個權(quán)重,讓不同通道對結(jié)果有不同的作用力,可以增強(qiáng)網(wǎng)絡(luò)提取圖像的能力。針對SE 模塊中采用全連接層參數(shù)量大的問題,高效通道注意力(efficient channel attention,ECA)模塊將全連接層改為一維卷積[106],每一次卷積過程只和部分通道進(jìn)行運(yùn)算,實(shí)現(xiàn)了適當(dāng)?shù)目缤ǖ澜换?,可以在顯著降低模型復(fù)雜度的同時(shí)保持性能。在SE模塊的基礎(chǔ)上,卷積塊注意力模塊(convolutional block attention module,CBAM)實(shí)現(xiàn)了通道注意力和空間注意力的雙機(jī)制[107],進(jìn)一步擴(kuò)展了注意力機(jī)制的作用。注意力機(jī)制目前在圖像生成、圖像恢復(fù)、圖像分割、圖像分類等多種計(jì)算機(jī)視覺任務(wù)中都表現(xiàn)出了優(yōu)異的性能。
在手指靜脈認(rèn)證任務(wù)中,深度網(wǎng)絡(luò)生成的特征包含了跨通道和跨空間域的不同類型的信息,這些信息對于學(xué)習(xí)靜脈紋路的詳細(xì)信息有不同的貢獻(xiàn)。如果能夠增強(qiáng)網(wǎng)絡(luò)對高貢獻(xiàn)特征的敏感性,使其專注于學(xué)習(xí)更具鑒別性的特征,那么網(wǎng)絡(luò)提取的指靜脈特征就能更容易分辨。Huang等人[63]基于U-Net設(shè)計(jì)了一個像素級空間注意力模型。將U-Net 輸出圖像的每個像素當(dāng)作權(quán)重與原圖像的對應(yīng)像素值進(jìn)行相乘,達(dá)到圖像增強(qiáng)的目的,使網(wǎng)絡(luò)更關(guān)注圖像的紋路區(qū)域,從而提取出魯棒的靜脈特征。Hou等人[103]為了提高CNN模型的性能,將ECA模型嵌入到ResNet模型中,提出了高效的ECA-ResNet 模型,進(jìn)行指靜脈特征提取。Ren等人[90]將通道注意力SE 模塊作為子結(jié)構(gòu)嵌入到基本網(wǎng)絡(luò)中,形成手指靜脈加密圖像的特征提取網(wǎng)絡(luò)。
為了能更加充分并精確地提取出靜脈圖案特征,多位學(xué)者對注意力機(jī)制進(jìn)行了改進(jìn)。Huang等人[108]提出了一種聯(lián)合注意力(joint attention,JA)模塊,該模塊在特征圖的空間和通道維度上進(jìn)行動態(tài)調(diào)整和信息聚合,聚焦于細(xì)粒度細(xì)節(jié),從而增強(qiáng)了靜脈圖案對提取識別特征的貢獻(xiàn)。Wang等人[109]針對手指靜脈的特點(diǎn),設(shè)計(jì)了維度交互注意力機(jī)制(dimensional interactive attention mechanism,DIAM),它不僅可以加強(qiáng)圖像空間和通道上細(xì)節(jié)特征的提取,還可以加強(qiáng)空間與通道之間的關(guān)系。
DIAM的結(jié)構(gòu)如圖11所示[109],它由3個平行分支組成,其中兩個分支負(fù)責(zé)捕獲通道C 與H、C 與W 的跨維交互,剩余分支用于構(gòu)建空間注意力。最后,聚合所有3 個分支的輸出。一般的注意力機(jī)制是分別計(jì)算空間注意力機(jī)制和通道注意力機(jī)制,因此不考慮兩者之間的關(guān)系。而DIAM 的空間注意機(jī)制的維度相互作用,既增強(qiáng)了空間和通道的特征提取能力,又能捕捉不同維度之間的依賴關(guān)系。該注意力機(jī)制的缺點(diǎn)是增加了運(yùn)算復(fù)雜度。
圖11 DIAM模塊結(jié)構(gòu)圖Fig.11 Structure diagram of DIAM module
損失函數(shù)(loss function)是用來估量深度學(xué)習(xí)網(wǎng)絡(luò)模型的預(yù)測值與真實(shí)值不一致程度,是訓(xùn)練階段非常重要的環(huán)節(jié)。根據(jù)任務(wù)的不同,基于深度學(xué)習(xí)的手指靜脈識別系統(tǒng)中,損失函數(shù)分為分類損失函數(shù)和度量學(xué)習(xí)損失函數(shù)[56]。分類損失利用額外的分類器將特征學(xué)習(xí)過程表述為分類問題,主要通過優(yōu)化預(yù)測類別的概率達(dá)到學(xué)習(xí)的目的。度量學(xué)習(xí)損失的目的是學(xué)習(xí)一對特征向量的相似度,直接優(yōu)化特征之間的距離。
在分類任務(wù)中,常用的損失函數(shù)有Softmax 損失、大裕度余弦損失(large margin cosine loss,LMCL)、附加角裕度損失(additive angular margin loss,AAML)、負(fù)對數(shù)似然損失函數(shù)(negative log likelihood loss,NLLLoss)等。常用的度量學(xué)習(xí)損失有對比損失(contrastive loss)、三元組損失(triplet loss)、中心損失(center loss)、反余弦中心損失(arccosine center loss)等。
(1)Softmax損失
Softmax損失是Softmax函數(shù)與交叉熵?fù)p失(crossentropy loss)組合而成的損失函數(shù),是分類任務(wù)中最常用的損失函數(shù)。Softmax 函數(shù)的作用是把一個序列(通常是全連接層的輸出)轉(zhuǎn)換成概率分布,交叉熵函數(shù)根據(jù)概率分別計(jì)算得到loss,整個Softmax Loss的公式如式(1)所示:
式中,N表示樣本總數(shù)量,K表示類別數(shù)量,yi表示樣本xi的真實(shí)類別,表示最后一個全連接層中第j個類別的權(quán)重向量,即為最后一個全連接層的第j個類別的輸出(偏置為0)。
Softmax Loss深度網(wǎng)絡(luò)只鼓勵特征的可分性,通常只關(guān)注類間信息而忽略類內(nèi)信息,這可能會導(dǎo)致誤分類。
(2)大裕度余弦損失
許多學(xué)者都基于Softmax Loss進(jìn)行改進(jìn),改進(jìn)的主要目的都是最大化類間差異和最小化類內(nèi)差異,大裕度余弦損失就是其中的改進(jìn)之一[110]。根據(jù)Softmax Loss的公式可以得到:
式中,θj是Wj和xj的角度,將||Wj||||xj||規(guī)范化為一個尺度s,并引入一個余弦裕度(cosine margin)m來進(jìn)行度量的約束,讓當(dāng)前樣本所屬的類別在減去一個m之后仍然屬于這個類別,得到最后的損失函數(shù)如式(3)所示:
(3)附加角裕度損失
附加角裕度損失[111]的計(jì)算如式(4)所示:
與大裕度余弦損失將裕度m添加到余弦值之后不同,附加角裕度損失在W和x之間添加了一個附加的角裕度懲罰m,再進(jìn)行余弦計(jì)算,以同時(shí)增強(qiáng)類內(nèi)緊致性和類間差異性,因?yàn)楫?dāng)θ的范圍為[0,π-m]時(shí),cos(θ+m) (1)三元組損失 三元組損失主要是為了非同類極相似樣本的區(qū)分,最早用于人臉識別任務(wù)[112]。Triplet Loss 需要輸入一個三元組,分別是錨樣本(Anchor)、正樣本(Positive)和負(fù)樣本(Negative),錨樣本與正樣本屬于同一類,錨樣本與負(fù)樣本不是同一類。根據(jù)式(5)優(yōu)化錨樣本與正樣本的距離小于錨樣本與負(fù)樣本的距離,實(shí)現(xiàn)樣本之間的相似性計(jì)算: 式中,a表示錨樣本,p表示正樣本,n表示負(fù)樣本,D表示兩樣本特征之間的距離,margin為設(shè)定的閾值。 (2)中心損失 中心損失最早也用于人臉識別任務(wù)[113],主要為了提高類內(nèi)特征的緊湊性。其函數(shù)如式(6)所示: 式中,cyi表示第yi個類別的特征中心,xi表示全連接層之前的特征。實(shí)際使用的時(shí)候,m表示minibatch的大小。Loss越小,表示一個batch中的每個樣本特征離該樣本所有特征中心的距離的平方和越小,也就是類內(nèi)距離越小。 (3)反余弦中心損失 中心損失主要是為了減小特征與相應(yīng)中心之間的距離,因此在最小化類內(nèi)距離方面是有效的改進(jìn)。但是中心損失仍然使用歐氏距離,它只關(guān)注特定特征之間的絕對差異。這種差異體現(xiàn)在單個矢量的不同維度的數(shù)值上,這意味著歐氏距離對特定特征的絕對值很敏感。與歐氏距離一樣,余弦距離也常用于驗(yàn)證領(lǐng)域的相似性度量。余弦距離側(cè)重于區(qū)分特征向量方向的差異,對特定特征的絕對值不敏感。余弦距離將特征向量作為一個整體來考慮,從而避免了個別特征的影響。Hou 等人[103]提出引入余弦距離代替歐氏距離來測量特征與中心之間的距離,從而得出反余弦中心損失函數(shù),如式(7)所示: 式中,fi表示全連接層之前的特征向量,cyi表示第yi個類別的特征中心。 以上各種損失函數(shù)在生物識別領(lǐng)域都有廣泛的使用。在手指靜脈識別的研究中,文獻(xiàn)[58]、文獻(xiàn)[61]、文獻(xiàn)[63]、文獻(xiàn)[65]、文獻(xiàn)[66]等將Softmax 損失函數(shù)用于手指靜脈特征分類。Li 等人[73]將三元組損失函數(shù)用于優(yōu)化其特征提取網(wǎng)絡(luò)。Kuzu 等人[114]對比了Softmax、LMCL、AAML三個損失函數(shù)對網(wǎng)絡(luò)的優(yōu)化能力,得出AAML 具有最佳效果。Tran 等人[115]將附加角裕度損失函數(shù)用于網(wǎng)絡(luò)優(yōu)化。Kang等人[116]采用中心損失函數(shù)進(jìn)行特征匹配。 由于大多數(shù)度量學(xué)習(xí)損失函數(shù)單獨(dú)使用會使模型訓(xùn)練過程表現(xiàn)很不穩(wěn)定,收斂速度慢,需要根據(jù)結(jié)果不斷調(diào)節(jié)參數(shù),經(jīng)常將度量學(xué)習(xí)損失函數(shù)與分類損失函數(shù)結(jié)合在一起使用。Huang等人[69]將NLLLoss與中心損失相結(jié)合進(jìn)行網(wǎng)絡(luò)訓(xùn)練。Ou等人[56]將大裕度余弦損失函數(shù)與三元組損失函數(shù)進(jìn)行融合取得了不錯的性能。Zhao 等人[72]將中心損失與Softmax 損失函數(shù)進(jìn)行結(jié)合用于優(yōu)化其輕量級特征提取網(wǎng)絡(luò)。Hou 等人[103]將Softmax 損失函數(shù)與反余弦中心損失函數(shù)結(jié)合訓(xùn)練其高效通道注意力殘差網(wǎng)絡(luò),并與10余種損失函數(shù)的訓(xùn)練效果進(jìn)行對比,證明了其損失函數(shù)的高效性。 手指靜脈識別系統(tǒng)常用的評價(jià)指標(biāo)有準(zhǔn)確率、等錯誤率、真正率、假正率、正確接受率等,還有ROC(receiver operator characteristic curve)曲線直觀顯示算法性能。 (1)識別準(zhǔn)確率Accuracy 基于分類的指靜脈識別系統(tǒng),常用的評價(jià)指標(biāo)是識別準(zhǔn)確率Accuracy(簡寫為Acc),即所有測試樣本中,能正確分類的百分比,如式(9)所示: 式中,Ntotal表示所有測試樣本的數(shù)量,Ncorrect表示能正確分類/識別的樣本數(shù)量。表3為2019年至今部分文獻(xiàn)的方法在公開數(shù)據(jù)集上的準(zhǔn)確率。 (2)等錯誤率EER 等錯誤率(equal error rate,EER)是指靜脈驗(yàn)證系統(tǒng)常用的評價(jià)指標(biāo),與EER相關(guān)的參數(shù)有錯誤接受率(false acceptance rate,F(xiàn)AR)和錯誤拒絕率(false rejection rate,F(xiàn)RR)。 FAR又稱誤識率,表示兩個不同類別的樣本(類間)匹配時(shí),被錯誤地認(rèn)為是相同樣本的百分比,如式(10)所示: 式中,Ninter表示所有類間匹配的次數(shù),Nacceptance表示錯誤接受的次數(shù)。 FRR又稱拒真率,表示兩個相同類別的樣本(類內(nèi))匹配時(shí),被錯誤地認(rèn)為是不同樣本的百分比,如式(11)所示: 式中,Nintra表示所有類內(nèi)匹配的次數(shù),Nrejection表示錯誤拒絕的次數(shù)。 當(dāng)兩幅手指靜脈圖像進(jìn)行匹配識別時(shí),會得到匹配分?jǐn)?shù)Score,Score值越高,表示兩幅圖像越相似。通常會設(shè)定一個閾值TScore,當(dāng)Score≥TScore時(shí),認(rèn)為兩幅圖像來自同一手指,否則認(rèn)為來自不同手指。TScore設(shè)置得越大,F(xiàn)RR就越大,F(xiàn)AR就越??;同樣,TScore設(shè)置得越小,F(xiàn)AR就越大,F(xiàn)RR就越小。通過選擇TScore的值,使FRR與FAR相等或相差最小,這時(shí)的錯誤率稱為EER。表4列舉了2019年至今部分文獻(xiàn)的方法在公開數(shù)據(jù)集上實(shí)驗(yàn)的等錯誤率。 FRR@FAR=0.1%[56]也是常用的評價(jià)指標(biāo),指當(dāng)錯誤接受率FAR為0.1%時(shí),F(xiàn)RR的值,該指標(biāo)更加關(guān)注生物識別身份驗(yàn)證系統(tǒng)的安全性。在實(shí)際測試時(shí),F(xiàn)AR也可以取其他值,如1%或0.01%等。 (3)ROC曲線 ROC曲線是一種已經(jīng)被廣泛接受的系統(tǒng)匹配算法測試指標(biāo)。在手指靜脈識別領(lǐng)域常用的ROC曲線為FAR-FRR曲線,它是誤識率、拒真率和匹配分?jǐn)?shù)閾值之間的一種關(guān)系,反映了識別算法在不同閾值上,F(xiàn)RR和FAR的平衡關(guān)系。圖12為ROC(FAR-FRR)曲線的示意圖,其中橫坐標(biāo)是FAR,縱坐標(biāo)是FRR,EER是FAR-FRR曲線中FAR=FRR的平衡點(diǎn),EER的值越小,即曲線越靠近左下角,表示算法的性能越好。FRR越大,表示安全性高,但是通過性不好;FAR越大,表示通過性好,但是安全性就低。在多種方法性能對比時(shí),通常將每種方法的ROC 曲線繪制在同一個坐標(biāo)圖上,以便于直觀對比。 傳統(tǒng)的依靠手工提取特征的手指靜脈識別方法在面對圖像質(zhì)量差、類間差異小和類內(nèi)差異大的情況下,難以表現(xiàn)出優(yōu)異的性能,使其發(fā)展遇到一定的瓶頸。深度學(xué)習(xí)技術(shù)的興起并應(yīng)用到手指靜脈識別領(lǐng)域,極大地克服了這一瓶頸,將手指靜脈識別的性能提升到了新的高度,但是該領(lǐng)域面對的困難和挑戰(zhàn)依然存在。 (1)低質(zhì)量的圖像仍然是制約識別性能的首要因素 受光照強(qiáng)度、手指厚度、環(huán)境溫度、采集姿勢的影響,手指靜脈采集裝置采集到的圖像有可能存在低質(zhì)量的圖像。這些圖像有可能亮度過高或過低,導(dǎo)致部分靜脈圖案信息丟失,縱使復(fù)雜的圖像增強(qiáng)算法也難以達(dá)到理想效果。也有可能出現(xiàn)圖像錯位、水平旋轉(zhuǎn)或軸向旋轉(zhuǎn),嚴(yán)重的錯位或者旋轉(zhuǎn)極大地增加了類內(nèi)差異性,縱使優(yōu)秀的網(wǎng)絡(luò)模型也無法學(xué)習(xí)出理想的辨別能力。因此,低質(zhì)量的圖像仍然是制約識別性能的首要因數(shù)。要想提高系統(tǒng)性能,須從源頭上解決低質(zhì)量圖像的問題。這就需要從圖像采集設(shè)備、圖像質(zhì)量評價(jià)方法、生物特征建模等方面來解決圖像質(zhì)量過低導(dǎo)致的性能下降的問題。 (2)有限的數(shù)據(jù)集阻礙了深度學(xué)習(xí)方法的全面應(yīng)用 雖然目前公開的手指靜脈圖像數(shù)據(jù)集較多,但這些數(shù)據(jù)集中每根手指采集的圖像樣本太少,通常只有幾幅圖像,不利于基于分類方法的模型訓(xùn)練。此外還缺乏用于手指靜脈圖像分割的數(shù)據(jù)集,而人工標(biāo)記的紋路和自動生成的紋路都存在標(biāo)注不準(zhǔn)確的問題,這阻礙了基于圖像分割的手指靜脈識別方法的研究。為了增強(qiáng)身份認(rèn)證的安全性和提高識別的準(zhǔn)確率,將手指靜脈與指紋、掌紋、人臉、虹膜等其他生物特征進(jìn)行融合以實(shí)現(xiàn)多模態(tài)識別是研究的方向,但是目前也存在缺乏公開的多模態(tài)數(shù)據(jù)集的問題。綜上所述,要想各種深度學(xué)習(xí)方法都能得到全面研究和應(yīng)用,相應(yīng)的公開數(shù)據(jù)集必不可少。 (3)高辨識度的特征依然需要更優(yōu)秀的模型提取 隨著深度學(xué)習(xí)技術(shù)的發(fā)展,許多優(yōu)秀的網(wǎng)絡(luò)模型已經(jīng)被用于手指靜脈識別認(rèn)證系統(tǒng)中。這些模型大都基于現(xiàn)有的公開數(shù)據(jù)集學(xué)習(xí)特征提取能力,在這些數(shù)據(jù)集上取得了較強(qiáng)的辨識能力,但是這些模型應(yīng)用到真實(shí)場景中不一定會取得與仿真實(shí)驗(yàn)相同的效果,這嚴(yán)重地限制了指靜脈識別的應(yīng)用。因此,還需要設(shè)計(jì)出更優(yōu)秀的模型能在各種場景下提取出高辨識度的特征。隨著手指靜脈識別技術(shù)的發(fā)展,三維指靜脈識別和融合指靜脈的多模態(tài)識別技術(shù)將會成為發(fā)展的趨勢。三維圖像和多模態(tài)信息比傳統(tǒng)的單幅指靜脈圖像擁有更多的特征,提取特征需要更多的參數(shù)和運(yùn)算量,這也需要設(shè)計(jì)出高效的網(wǎng)絡(luò)模型,實(shí)現(xiàn)特征提取能力和運(yùn)算速度的雙優(yōu)。 (4)廣泛的應(yīng)用還受到各種因素的制約 雖然手指靜脈識別算法的研究已經(jīng)取得了豐碩的成果,但是與指紋識別和人臉識別相比,還談不上廣泛的應(yīng)用。制約其應(yīng)用的因素是多樣的,包括設(shè)備價(jià)格、采集舒適度、算法復(fù)雜度、識別精度等。如果想從采集設(shè)備的角度解決低質(zhì)量圖像的問題,需要采用更優(yōu)秀的近紅外攝像頭和光源,采用自動調(diào)光電路對光照強(qiáng)度進(jìn)行調(diào)節(jié),采用更好的處理器運(yùn)行神經(jīng)網(wǎng)絡(luò)模型等,這都會增加設(shè)備的成本。與人臉識別相比,手指靜脈識別并不算動態(tài)識別,需要將手指放入采集設(shè)備的卡槽中靜置一段時(shí)間才能完成注冊或識別,并且對手指的姿勢和放置位置有較高的要求,因此在采集舒適度方面有所欠缺。此外,許多性能優(yōu)異的指靜脈識別算法和模型往往較復(fù)雜,不利于在便攜式的手指靜脈識別裝置中部署。在實(shí)際應(yīng)用場景中的識別精度也備受質(zhì)疑。 手指靜脈識別面臨的四大挑戰(zhàn)相互關(guān)聯(lián)、相互制約,這也映射出今后的發(fā)展和改進(jìn)方向。 (1)三維手指靜脈圖像識別 將多個攝像頭拍攝的同一手指的多個二維靜脈圖像構(gòu)造成三維圖像,然后利用所構(gòu)造的三維手指靜脈圖像代替?zhèn)鹘y(tǒng)的二維圖像進(jìn)行識別,可以獲得更多的特征信息,包括所有的靜脈紋路信息和手指的幾何特征,而且在3D手指靜脈圖像中,無論手指姿勢如何變化,靜脈結(jié)構(gòu)都是一致的,可以解決低質(zhì)量圖像中的圖像錯位和旋轉(zhuǎn)問題?;谝陨蟽?yōu)勢,三維手指靜脈識別可能會成為未來的研究熱點(diǎn)。目前已有部分學(xué)者對其進(jìn)行了研究并取得了部分成果。Zhao 等人[3]設(shè)計(jì)了一種低成本的基于多視角的指背靜脈成像設(shè)備用于數(shù)據(jù)采集,建立了一個新的多視角指背靜脈數(shù)據(jù)庫THU-MFV,然后提出了一種名為分層內(nèi)容感知網(wǎng)絡(luò)的深度神經(jīng)網(wǎng)絡(luò)來提取手指靜脈的分級特征。Kang等人[116]設(shè)計(jì)了一種能同時(shí)獲取一根手指所有靜脈圖案的三攝像頭采集方法,提出了基于深度可分離卷積的輕量級卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建全視圖三維手指靜脈圖像的三維重建方法以及相應(yīng)的三維手指靜脈特征提取與匹配策略。 雖然三維手指靜脈識別方法具有二維識別方法無法比擬的優(yōu)勢,但是三維建模過程計(jì)算復(fù)雜,特征提取需要更大的網(wǎng)絡(luò)模型。同時(shí),由于需要使用多個近紅外攝像機(jī)從不同角度進(jìn)行圖像采集,采集設(shè)備成本較高。此外,目前還缺乏可供其他網(wǎng)絡(luò)模型訓(xùn)練的三維手指靜脈的大型公共數(shù)據(jù)集。綜上所述,雖然三維手指靜脈識別可能會成為未來的研究熱點(diǎn),但是在實(shí)際應(yīng)用時(shí)仍然會面臨挑戰(zhàn)。 (2)多模態(tài)生物特征提取 隨著人們對安全性的要求越來越高,在采集手指靜脈圖像的同時(shí)采集其他生物特征,如指紋、人臉、掌紋、手指形狀等,將多種生物特征進(jìn)行組合以達(dá)到多模態(tài)生物識別的目的,是未來的發(fā)展方向。Kim 等人[67]研究了能夠同時(shí)識別手指靜脈和手指形狀的多模態(tài)生物識別系統(tǒng),提出了基于深度卷積神經(jīng)網(wǎng)絡(luò)的多模態(tài)生物識別方法,在山東大學(xué)同源多模態(tài)特征數(shù)據(jù)庫和香港理工大學(xué)手指圖像數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果表明該方法在性能上優(yōu)于傳統(tǒng)方法。Goh等人[93]提出了一種基于最大索引哈希、無對齊哈希和特征級融合的多模態(tài)生物特征認(rèn)證框架,可以快速采用具有不同特征分布的所有流行生物識別模式用于特征級融合,實(shí)驗(yàn)證明了在指靜脈、指紋、人臉和虹膜數(shù)據(jù)集上的有效性。Wang 等人[120]提出了一種基于手指靜脈和人臉特征層融合的生物特征識別方法。該方法利用自注意機(jī)制獲得兩種生物特征的權(quán)重,并結(jié)合ResNet殘差結(jié)構(gòu),將自注意權(quán)重特征與雙模態(tài)融合特征在通道上級聯(lián)。Ren 等人[99]設(shè)計(jì)了一種能同時(shí)采集手指靜脈和指紋的設(shè)備,制作了數(shù)據(jù)集NUPT-FPV,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)作為基準(zhǔn)的多模態(tài)融合方法。Cherrat等人[128]將卷積神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林(random forest,RF)分類器結(jié)合用于指靜脈、指紋和人臉識別三模態(tài)生物識別系統(tǒng)。 多模態(tài)生物識別系統(tǒng)的優(yōu)勢在于,它融合了人體的多種特征,比大多數(shù)現(xiàn)有的單模態(tài)生物識別系統(tǒng)具有更高的安全性,并可以解決單一模態(tài)采集質(zhì)量較低帶來的特征辨識度不高的問題。然而,由于獲取不同類型的生物特征需要不同的采集設(shè)備,而且不同生物特征的融合機(jī)制和方法尚未明確,多模態(tài)生物識別系統(tǒng)還需進(jìn)一步研究。 (3)基于Transformer的網(wǎng)絡(luò)模型研究 Transformer是谷歌在2017年提出的一個里程碑式的模型[129],最先應(yīng)用于自然語言處理領(lǐng)域。Transformer 基于自注意的Encoder-Decoder 結(jié)構(gòu),能并行方式處理數(shù)據(jù),因?yàn)樽⒁饬C(jī)制允許模型考慮任意兩個單詞之間的相互關(guān)系,而不管它們在文本序列中的位置。鑒于Transformer在NLP任務(wù)中取得的巨大成功,許多學(xué)者將其引入到計(jì)算機(jī)視覺領(lǐng)域并加以改進(jìn),提出了許多優(yōu)秀的模型,如ViT[45]、Swin Transformers[130]、Deformable DETR(detection transformer)[131]、DN-DETR(denoising DETR)[132]等,它們在圖像分類、目標(biāo)檢測、圖像分割等任務(wù)中大放異彩。 雖然Transformer由于其良好的全局特性和特征融合能力,在計(jì)算機(jī)視覺上取得了多項(xiàng)最先進(jìn)的性能,但是由于Transformer 模型較復(fù)雜、訓(xùn)練時(shí)間長、效率較低等原因,目前在手指靜脈識別領(lǐng)域采用Transformer 的方法還很少。同時(shí),要想訓(xùn)練Transformer使其性能超過CNN,需要大型的數(shù)據(jù)集,而現(xiàn)有的手指靜脈數(shù)據(jù)集中的圖像樣本普遍偏少。與CNN相比,Transformer提取局部特征的能力偏弱,因此目前主流的解決方案為Transformer 與CNN 結(jié)合以提取靜脈特征[133]。例如,Li等人[64]將視覺轉(zhuǎn)換器架構(gòu)與膠囊網(wǎng)絡(luò)相結(jié)合,提出了ViT-Cap模型。該模型能夠基于全局注意力和局部注意力對手指靜脈圖像信息進(jìn)行挖掘,并選擇性聚焦于重要的手指靜脈特征信息。實(shí)驗(yàn)證明了該模型在手指靜脈識別中的有效性和可靠性。此外,為了降低模型的復(fù)雜度,有學(xué)者只采用Transformer 的編碼器進(jìn)行特征提取。Huang 等人[69]深入研究了ViT,針對手指靜脈信息受局部特征支配的特點(diǎn),對Transformer 的編碼器進(jìn)行改進(jìn),提出多層特征提取功能的新模型FVT(finger vein transformer),與純CNN 相比,該模型獲得了具有競爭力的結(jié)果。 隨著視覺Transformer 的深入研究,其缺點(diǎn)將會得到改進(jìn),基于Transformer 的手指靜脈識別方法也將成為研究的熱點(diǎn)。 (4)輕量級網(wǎng)絡(luò)設(shè)計(jì) 只要是涉及到人的身份認(rèn)證的場景,都可以利用手指靜脈識別系統(tǒng)。在這些場景中,許多時(shí)候都需要采用移動設(shè)備或者輕小型設(shè)備以提高安裝和使用的便捷性。采用深度學(xué)習(xí)的方法雖然可以通過神經(jīng)網(wǎng)絡(luò)使系統(tǒng)性能得到提升,但也使得網(wǎng)絡(luò)模型結(jié)構(gòu)越來越復(fù)雜,對硬件設(shè)備的運(yùn)算能力和存儲空間的依賴愈發(fā)嚴(yán)重,這極大地限制了手指靜脈識別方法的應(yīng)用。因此,如何在保持模型較高精度的前提下對網(wǎng)絡(luò)進(jìn)行優(yōu)化,降低其內(nèi)存需求和計(jì)算成本,已成為將指靜脈識別算法向移動端或者輕小型設(shè)備遷移時(shí)首當(dāng)其沖的一大課題。 雖然目前許多關(guān)于手指靜脈識別的深度學(xué)習(xí)研究都提出了輕量級的網(wǎng)絡(luò)設(shè)計(jì)方法[72,80,86,119],這些方法在某種程度上確實(shí)達(dá)到了模型參數(shù)少、推理時(shí)間短的指標(biāo),但是難以保障在真實(shí)場景中的識別精度。目前提出的手指靜脈識別網(wǎng)絡(luò)的輕量級設(shè)計(jì)方法大多是通過減少卷積層或全連接層的層數(shù),或者采用全卷積網(wǎng)絡(luò)、深度可分離卷積結(jié)構(gòu)減小模型參數(shù)量等,設(shè)計(jì)方法較單一,更多更有效的輕量級設(shè)計(jì)方法,如知識蒸餾、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索技術(shù)、參數(shù)量化等方法有待應(yīng)用到手指靜脈識別的研究中。隨著深度學(xué)習(xí)的發(fā)展,性能更優(yōu)的復(fù)雜網(wǎng)絡(luò)模型是必然的趨勢,而基于這些模型的輕量級設(shè)計(jì)也會是一個永恒的話題。 近年來,盡管針對手指靜脈識別問題已經(jīng)涌現(xiàn)出了大量優(yōu)秀的基于深度學(xué)習(xí)的解決思路,這些方法在公開數(shù)據(jù)集上測試的精度普遍已達(dá)到98%以上,等錯誤率大都在1%以內(nèi)。但是大部分研究仍局限于實(shí)驗(yàn)室理論研究階段,距離正式的產(chǎn)業(yè)化落地應(yīng)用仍有很長的路要探索。技術(shù)終究要為解決實(shí)際應(yīng)用問題服務(wù),手指靜脈識別和認(rèn)證技術(shù)將通過不斷優(yōu)化與發(fā)展,更廣泛地應(yīng)用到人們的日常生活中。4.2 度量學(xué)習(xí)損失函數(shù)
5 評價(jià)指標(biāo)與方法
6 面臨的挑戰(zhàn)及未來發(fā)展方向
6.1 面臨的挑戰(zhàn)
6.2 未來發(fā)展方向
7 結(jié)束語