蔡祥云, 王小鵬
(蘭州交通大學(xué) 電子與信息工程學(xué)院,甘肅 蘭州 730070)
目前人臉識(shí)別技術(shù)能識(shí)別人臉圖像的身份,但無(wú)法準(zhǔn)確辨別輸入人臉的真?zhèn)?因此,如何自動(dòng)、高效地辨別真假人臉,確保人臉識(shí)別系統(tǒng)安全已成為人臉識(shí)別技術(shù)中一個(gè)迫切需要解決的問(wèn)題。對(duì)于人臉識(shí)別系統(tǒng)來(lái)說(shuō),常見(jiàn)的攻擊方式主要有三種[1],包括合法用戶的照片、視頻以及合成的三維模型。Tirunagari S等人[2]利用動(dòng)態(tài)模式分解(dynamic mode decomposition,DMD)方法捕獲視頻中諸如眨眼、嘴唇變化和其他面部動(dòng)態(tài)特征,以此進(jìn)行面部欺騙檢測(cè);Jukka K等人[3]率先將面部動(dòng)態(tài)紋理應(yīng)用于人臉活體檢測(cè)研究,通過(guò)局部二值模式(local binary pattern,LBP)算法學(xué)習(xí)和檢測(cè)面部的微紋理結(jié)構(gòu);Tan X等人[4]利用Lambertian模型,以潛在樣本的形式提取關(guān)于人臉或者照片的不同面部特征的信息,在此基礎(chǔ)上使用稀疏邏輯回歸模型分類真假人臉。相較于手工設(shè)計(jì)特征,深度學(xué)習(xí)[5]能夠提取更高層次的特征描述,很大程度上提升了人臉識(shí)別、物體分類等計(jì)算機(jī)視覺(jué)方面的性能。
本文提出基于局部感受野的極限學(xué)習(xí)機(jī)(local receptive fields based extreme learning machine,ELM-LRF)的活體檢測(cè)算法。實(shí)驗(yàn)證明算法在保證了分類性能的同時(shí),極大地縮短了訓(xùn)練時(shí)間。
ELM-LRF作為深度學(xué)習(xí)模型的一種,具有頻率選擇和平移不變特性,已被廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)領(lǐng)域[6]。圖1給出了算法的網(wǎng)絡(luò)結(jié)構(gòu),該模型僅有一個(gè)隱含層,如其訓(xùn)練參數(shù)和訓(xùn)練時(shí)長(zhǎng)較傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)均大幅下降,同時(shí)具有很好的分類能力。
圖1 ELM網(wǎng)絡(luò)結(jié)構(gòu)
圖2給出了人臉活體檢測(cè)算法的框架,算法流程如圖3所示。
圖2 活體檢測(cè)算法整體框架
圖3 人臉活體檢測(cè)流程
方法的具體步驟為:
1)人臉圖像預(yù)處理。首先對(duì)攝像頭采集到的人臉圖像進(jìn)行預(yù)處理,處理后的人臉圖像大小為d×d。
3)計(jì)算池化圖矩陣。池化結(jié)構(gòu)用于形成組合節(jié)點(diǎn),hp,q,k表示第k個(gè)池化圖中組合節(jié)點(diǎn)(p,q),則
(1)
式中e為池化中心到邊的距離,池化圖與特征圖的大小相同。平方運(yùn)算和求和運(yùn)算分別將非線性校正和平移不變性引入到網(wǎng)絡(luò)中。
4)計(jì)算輸出權(quán)重的閉式解。池化層和輸出層采用全連接,利用正則化最小二乘法解析計(jì)算輸出權(quán)重β。對(duì)輸入樣例x,計(jì)算特征圖和池化圖的節(jié)點(diǎn)值,將所有組合節(jié)點(diǎn)連接,形成行向量,然后將N個(gè)輸入樣例的行向量組合,得到組合層矩陣H∈RN×K·(d-r+1)2,則輸出權(quán)重矩陣為
(2)
ELM-LRF的訓(xùn)練方法有效降低了局部過(guò)擬合風(fēng)險(xiǎn),使網(wǎng)絡(luò)能夠更加充分地對(duì)輸入提取特征。
為驗(yàn)證ELM-LEF模型在人臉活體檢測(cè)中的有效性,將該模型與其他先進(jìn)的人臉活體檢測(cè)算法進(jìn)行了HTER(half-total error rate)和檢測(cè)正確率兩方面的比較,HTER計(jì)算方法為HTER=(FAR+FRR)/2。其中,F(xiàn)AR為錯(cuò)誤接收率,是指將假體人臉錯(cuò)判為真實(shí)人臉的概率;FRR為錯(cuò)誤拒絕率,表示將真實(shí)人臉錯(cuò)判為假體人臉的概率。另外,實(shí)驗(yàn)選用CASIA-FASD[7]和NUAA[4]公共人臉欺騙庫(kù)進(jìn)行人臉活體檢測(cè)實(shí)驗(yàn)。ELM-LRF模型中局部感受野r=5×5,池化大小e=3,平衡參數(shù)C=0.01。實(shí)驗(yàn)平臺(tái)為MATLAB 2017b,2.30 GHz的Intel?CoreTMi5 CPU,16 GB RAM。
2.1.1 CASIA-FASD數(shù)據(jù)庫(kù)
CASIA-FASD數(shù)據(jù)庫(kù)包含真人臉和假人臉樣本類型,該數(shù)據(jù)庫(kù)共包含50個(gè)樣本目標(biāo),每個(gè)目標(biāo)對(duì)應(yīng)12個(gè)人臉視頻序列,包括3個(gè)真人臉視頻和9個(gè)假人臉視頻,三個(gè)真人臉視頻由一個(gè)低質(zhì)量的網(wǎng)絡(luò)攝像頭,一個(gè)較高質(zhì)量的USB攝像頭以及型號(hào)為Sony NEX—5攝像頭采集。數(shù)據(jù)庫(kù)中所有的視頻都在非限制環(huán)境下采集。為了充分考慮不同的攻擊方式,數(shù)據(jù)庫(kù)的假人臉樣本種類較其他數(shù)據(jù)庫(kù)更為豐富。首先,每個(gè)目標(biāo)人臉的高清圖片被顯示在不同的媒介上,包括普通的打印紙,光滑的相片打印紙以及一個(gè)高分辨率的顯示屏。隨后,紙打印的人臉眼睛區(qū)域被去除,以模仿眼攻擊方式。該數(shù)據(jù)庫(kù)被分成訓(xùn)練集和測(cè)試集,如表1所示。
表1 CASIA-FASD數(shù)據(jù)分類
2.1.2 NUAA數(shù)據(jù)庫(kù)
NUAA數(shù)據(jù)庫(kù)是首個(gè)公認(rèn)的人臉欺騙數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)是由一個(gè)通用的網(wǎng)絡(luò)攝像頭在不同的照明條件和場(chǎng)所下分3次收集得到,共包括15個(gè)目標(biāo),數(shù)據(jù)庫(kù)圖片數(shù)量如表2所示。該數(shù)據(jù)庫(kù)包含了光照變化、性別差異、有無(wú)遮擋物等豐富的外觀變化。為了模擬假人臉攻擊,攝像頭收集的假體人臉包含了彎曲、旋轉(zhuǎn)空間位置移動(dòng)等照片欺詐的多種運(yùn)動(dòng)形式。
表2 NUAA數(shù)據(jù)庫(kù)圖片數(shù)量 幅
訓(xùn)練數(shù)據(jù)集采用NORB數(shù)據(jù)庫(kù)[8],該數(shù)據(jù)集包含24 300幅訓(xùn)練用立體圖像,24 300幅測(cè)試用立體圖像,數(shù)據(jù)集中的每個(gè)樣本有兩幅圖,并且尺寸都經(jīng)過(guò)了歸一化,背景也是一致的。在訓(xùn)練ELM-LEF網(wǎng)絡(luò)之前,首先需要把數(shù)據(jù)庫(kù)中的圖像數(shù)據(jù)轉(zhuǎn)化成ELM-LEF網(wǎng)絡(luò)可以讀入的雙通道的mat文件,mat文件中的數(shù)據(jù)為double類型,input_ch為2。
為了訓(xùn)練ELM-LRF網(wǎng)絡(luò),將訓(xùn)練集分成4個(gè)batch,訓(xùn)練過(guò)程如下:1)實(shí)驗(yàn)用其中的三個(gè)batch進(jìn)行訓(xùn)練,利用剩余的一個(gè)batch進(jìn)行驗(yàn)證,訓(xùn)練過(guò)程無(wú)需進(jìn)行迭代操作;2)利用全部的batch作為訓(xùn)練集,第四個(gè)batch作為驗(yàn)證集,對(duì)訓(xùn)練后的模型進(jìn)行驗(yàn)證。
至此,訓(xùn)練過(guò)程結(jié)束,經(jīng)過(guò)驗(yàn)證可得到該模型在訓(xùn)練集上的準(zhǔn)確率接近100 %。圖4分別給出了該數(shù)據(jù)集中前100個(gè)圖像經(jīng)過(guò)卷積和池化后得到的特征圖。
圖4 數(shù)據(jù)集訓(xùn)練得到的可視化特征
1)CASIA-FASD數(shù)據(jù)庫(kù)的實(shí)驗(yàn)結(jié)果
在CASIA-FASD數(shù)據(jù)庫(kù)中,將所提算法與MSLBP[9]、DMD-LBP[10]、DoG[11]、CNN[12]和DBN[13]這幾種算法進(jìn)行了比較。表3給出了不同算法在數(shù)據(jù)庫(kù)上HTER及檢測(cè)正確率的實(shí)驗(yàn)結(jié)果。可以看出,通過(guò)ELM-LRF網(wǎng)絡(luò)對(duì)真假人臉進(jìn)行分類時(shí),其檢測(cè)正確率最高,性能最好。MSLBP及DoG算法由于使用單一特征進(jìn)行人臉活體檢測(cè),檢測(cè)性能較低。CNN和DBN網(wǎng)絡(luò)均采用多層卷積操作,能夠得到更高層次的抽象特征,檢測(cè)性能較高。
2)NUAA數(shù)據(jù)庫(kù)的實(shí)驗(yàn)結(jié)果
由表3中在NUAA數(shù)據(jù)庫(kù)上不同算法的實(shí)驗(yàn)結(jié)果可以看出,在基于手工設(shè)計(jì)特征的活體檢測(cè)方法中,MSLBP、DMD-LBP和DoG算法對(duì)真假人臉的分類性能較差?;谏疃饶P偷娜四樆铙w檢測(cè)算法的分類性能較高,其中ELM-LRF模型要比其他微調(diào)的深度學(xué)習(xí)算法的分類精度更高,與CNN和DBN模型相比,ELM-LRF將半錯(cuò)誤率(HTER)從12.26 %降到了6.64 %。
表3 CASIA-FASD和NUAA數(shù)據(jù)庫(kù)中不同算法的性能 %
本文提出了一種基于LRF-ELM模型的人臉活體檢測(cè)算法,并在CASIA-FASD及NUAA數(shù)據(jù)庫(kù)上與其他先進(jìn)的人臉活體檢測(cè)算法進(jìn)行了實(shí)驗(yàn)對(duì)比。實(shí)驗(yàn)結(jié)果表明:相較于手工設(shè)計(jì)特征和傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)活體檢測(cè)方法,LRF-ELM算法檢測(cè)準(zhǔn)確率更高,證明了該模型在分類能力方面具有高效性,提高了人臉識(shí)別系統(tǒng)的性能。同時(shí),單隱含層的ELM模型對(duì)復(fù)雜輸入不能提取到更多有效的特征表達(dá),因此,進(jìn)一步完善ELM模型,使其能夠處理更復(fù)雜的輸入,學(xué)習(xí)得到更高層次的抽象特征將是本課題下一步的研究?jī)?nèi)容。