田 野 項(xiàng)世軍,2
1(暨南大學(xué)信息科學(xué)技術(shù)學(xué)院 廣州 510632) 2 (信息安全國(guó)家重點(diǎn)實(shí)驗(yàn)室(中國(guó)科學(xué)院信息工程研究所) 北京 100093) (shijun_xiang@qq.com)
欺騙攻擊是針對(duì)生物認(rèn)證系統(tǒng)的一種攻擊.它通過(guò)向傳感器呈現(xiàn)合法生物特征的偽造版本,企圖使生物認(rèn)證系統(tǒng)將非法用戶認(rèn)證為合法用戶,從而使該非法用戶進(jìn)入生物認(rèn)證系統(tǒng)[1].目前,欺騙攻擊可成功攻擊多種生物形態(tài)已經(jīng)成為不爭(zhēng)的事實(shí)[2-6].在多種生物形態(tài)中,針對(duì)人臉的欺騙攻擊尤其值得關(guān)注.一方面,無(wú)論是從經(jīng)濟(jì)角度還是社會(huì)角度,人臉都是最具影響力的生物特征之一[1];另一方面,由于其低成本、低技術(shù)的特征,和其他生物形態(tài)相比,針對(duì)人臉的欺騙攻擊更易實(shí)施.攻擊者可以輕易地在個(gè)人網(wǎng)站或社交網(wǎng)絡(luò)上獲得合法用戶的面部特征.甚至,攻擊者還可以近距離地拍攝合法用戶的照片或視頻.此外,隨著人臉識(shí)別技術(shù)的發(fā)展,這項(xiàng)技術(shù)已在眾多場(chǎng)合得到應(yīng)用.大到機(jī)密場(chǎng)合的門(mén)禁系統(tǒng),小到筆記本電腦的登錄系統(tǒng),甚至是移動(dòng)終端的解鎖系統(tǒng),都能見(jiàn)到人臉識(shí)別技術(shù)的蹤影[7].而門(mén)禁系統(tǒng)、登陸系統(tǒng)、解鎖系統(tǒng)常常與網(wǎng)絡(luò)系統(tǒng)相連,是進(jìn)入網(wǎng)絡(luò)系統(tǒng)的第1步,它們的安全與網(wǎng)絡(luò)系統(tǒng)安全密切相關(guān).如果攻擊者成功攻擊人臉識(shí)別系統(tǒng),進(jìn)入門(mén)禁系統(tǒng)、登陸系統(tǒng)或解鎖系統(tǒng),那么攻擊者就打破了網(wǎng)絡(luò)空間安全的第1道防線,極有可能進(jìn)一步威脅、破壞網(wǎng)絡(luò)空間安全.因此,應(yīng)用人臉活體檢測(cè)技術(shù)保障人臉識(shí)別系統(tǒng)的安全具有重要價(jià)值,它對(duì)保障網(wǎng)絡(luò)空間的安全也有著十分重要的意義.
一般說(shuō)來(lái),人臉欺騙攻擊可以分為3類(lèi):照片攻擊、視頻攻擊和面具攻擊.照片攻擊是指攻擊者將合法用戶的照片打印在紙上或顯示在電子設(shè)備的屏幕上,呈現(xiàn)給生物認(rèn)證系統(tǒng)傳感器的一種攻擊.視頻攻擊也被稱為重放攻擊,因?yàn)樵摲N攻擊是通過(guò)重放合法用戶的視頻來(lái)實(shí)施的.面具攻擊則是指攻擊者戴上合法用戶的3D面具,偽裝成合法用戶,企圖進(jìn)入人臉識(shí)別系統(tǒng)的攻擊行為.
安全性已成為制約人臉識(shí)別系統(tǒng)應(yīng)用的最大瓶頸,因此提高人臉識(shí)別系統(tǒng)的抗欺騙攻擊能力已成為人臉認(rèn)證中亟待解決的問(wèn)題[8].人臉活體檢測(cè)技術(shù)旨在辨別人臉的真?zhèn)?,保障人臉識(shí)別系統(tǒng)穩(wěn)定并安全地運(yùn)行.具體地,它通過(guò)設(shè)置一道新的關(guān)卡,在系統(tǒng)進(jìn)行人臉識(shí)別的同時(shí)對(duì)目標(biāo)人臉進(jìn)行是否為活體的判斷.只有在人臉被判定為活體的情況下,識(shí)別結(jié)果才是真實(shí)有效的;否則,將其視為對(duì)人臉識(shí)別系統(tǒng)的一次非法攻擊[7].近幾年來(lái),隨著幾個(gè)人臉欺騙攻擊公用數(shù)據(jù)庫(kù)的發(fā)布[9-12],涌現(xiàn)了許多人臉活體檢測(cè)的方法.在不考慮面具攻擊(超出本文研究范圍)的前提下,現(xiàn)有的絕大多數(shù)人臉活體檢測(cè)算法分為2類(lèi):基于照片的人臉活體檢測(cè)算法和基于視頻的人臉活體檢測(cè)算法.文獻(xiàn)[13]中提到,基于照片的人臉活體檢測(cè)算法并不能直接用于檢測(cè)視頻攻擊,尤其是高分辨率的視頻攻擊.一方面,視頻中包含的動(dòng)態(tài)信息使得生物樣本更加逼真,從而增加了檢測(cè)的難度.另一方面,和照片攻擊相比,視頻攻擊包含的顏色降級(jí)、形狀降級(jí)和紋理降級(jí)更少,更難被識(shí)別.另外,分辨率越高,在量化、離散過(guò)程中產(chǎn)生的偽跡也更少.因此,盡管迄今為止已有許多成熟的基于照片的人臉活體檢測(cè)算法,針對(duì)視頻攻擊的人臉活體檢測(cè)研究仍遠(yuǎn)未成熟.
由于其獨(dú)特的能量集中特性,離散余弦變換(discrete cosine transform, DCT)在圖像處理中取得了廣泛的應(yīng)用.然而,目前已有的應(yīng)用均是利用DCT來(lái)提取每幀圖片中的靜態(tài)信息.迄今為止,DCT從未被用來(lái)提取動(dòng)態(tài)信息.基于此,本文創(chuàng)新性地在局部二值模式(local binary patterns, LBP)特征上實(shí)施多層DCT變換來(lái)表征視頻中存在的時(shí)空信息.據(jù)我們所知,這是在LBP特征上進(jìn)行DCT變換來(lái)提取面部動(dòng)態(tài)信息,從而檢測(cè)視頻攻擊的首次嘗試.本文提出的方法不僅十分簡(jiǎn)單、省時(shí),在公共數(shù)據(jù)庫(kù)上出色的實(shí)驗(yàn)結(jié)果也驗(yàn)證了該算法的有效性.
本文首先簡(jiǎn)要介紹了已有的人臉活體檢測(cè)算法;其次詳細(xì)闡述了所提出的算法;然后對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析和比較;最后對(duì)全文進(jìn)行了總結(jié)并對(duì)將來(lái)的工作進(jìn)行了展望.
根據(jù)所利用的信息類(lèi)型,目前已有的人臉活體檢測(cè)算法可分為兩大類(lèi):利用空間信息的算法、既利用空間信息又利用時(shí)間信息的算法.利用空間信息的人臉活體檢測(cè)算法通常通過(guò)多種多樣的圖像處理方法對(duì)人臉樣本中包含的面部紋理特征進(jìn)行分析.文獻(xiàn)[14]是這類(lèi)方法中最早的嘗試之一.在該文中,作者分析了單張人臉圖像或人臉視頻的傅里葉頻譜.隨后,高斯差分(difference of Gaussian, DoG)被用來(lái)提取特定頻域的信息[10,15].在文獻(xiàn)[16]中,作者利用Gabor小波來(lái)加強(qiáng)紋理表征的效果,同時(shí)引入方向梯度直方圖(histogram of oriented gradient, HOG)來(lái)描述局部形狀特征.作為一個(gè)對(duì)人臉十分有效的工具,局部二值模式及其多種變體也被許多算法[11,13,16-18]所采用.
因?yàn)橥瑫r(shí)利用了2種信息,人臉活體檢測(cè)的第2類(lèi)方法——利用時(shí)空信息的方法通常具有更好的性能.但作為代價(jià),這類(lèi)方法常常需要更多的時(shí)間.一個(gè)典型的代表是通過(guò)在3個(gè)正交平面上計(jì)算局部二值模式(local binary patterns from three orthogonal planes, LBP-TOP)將時(shí)空信息集中用1個(gè)多分辨率的紋理描述子表征[19].基于動(dòng)態(tài)模式分解(dynamic mode decomposition, DMD)的特殊性質(zhì),文獻(xiàn)[20]將DMD,LBP和支持向量機(jī)(support vector machine, SVM)結(jié)合在一起檢測(cè)人臉欺騙攻擊.Arashloo等人[21]結(jié)合2種多尺度動(dòng)態(tài)特征描述子MBSIF-TOP(multiscale binarized statistical image features on three orthogonal planes)和MLPQ-TOP(multi-scale local phase quantization representation on three orthogonal planes)提高了對(duì)抗欺騙攻擊的檢測(cè)器的魯棒性.在文獻(xiàn)[22]中,作者通過(guò)提取視頻中的時(shí)空信息構(gòu)造了一種低級(jí)特征描述子.除了上述這些基于紋理特征的檢測(cè)算法,還可以從另一些角度融合時(shí)空信息,例如分析在二次成像過(guò)程中產(chǎn)生的噪聲簽名[23].
盡管上述利用時(shí)空信息的人臉活體檢測(cè)算法取得了較好的效果,但他們也更復(fù)雜、更耗時(shí).針對(duì)這個(gè)缺點(diǎn),本文基于LBP和多層DCT提出了一個(gè)既簡(jiǎn)單又省時(shí)的新算法.一方面,無(wú)論是LBP還是DCT操作,實(shí)現(xiàn)所需的時(shí)間都很短;另一方面,本文提出的算法只需要使用視頻中的少數(shù)幀,而非所有幀.此外,根據(jù)DCT的能量集中特性,我們只需要提取1個(gè)或幾個(gè)DCT分量來(lái)構(gòu)造最終的高級(jí)特征描述子.綜上所述,本文提出的算法不僅易實(shí)現(xiàn)而且效率高.在獲得理想的特征描述子后,我們選擇SVM作為后續(xù)分類(lèi)器.在嚴(yán)格遵循各個(gè)數(shù)據(jù)庫(kù)測(cè)試協(xié)議的前提下,我們的實(shí)驗(yàn)結(jié)果證明所提出算法的性能超過(guò)了目前已有的所有算法.事實(shí)上,該算法在Replay-Attack數(shù)據(jù)庫(kù)的評(píng)估集和測(cè)試集上的半錯(cuò)誤率均為0,即實(shí)現(xiàn)了零差錯(cuò)的完美檢測(cè);在CASIA-FASD數(shù)據(jù)庫(kù)測(cè)試集上的半錯(cuò)誤率為18.06%,低于所有其他算法且至少低3.69%.
針對(duì)視頻欺騙攻擊,本文提出了一個(gè)新的檢測(cè)算法.該算法共包括4個(gè)主要步驟:人臉提取、低級(jí)特征描述子提取、高級(jí)特征描述子提取以及分類(lèi).流程圖如圖1所示:
Fig. 1 Flow chart of the proposed algorithm圖1 本文算法流程圖
1) 我們從目標(biāo)視頻中每隔一定的幀數(shù)提取1張人臉圖像;
2) 對(duì)提取出的每張人臉圖像進(jìn)行LBP操作得到低級(jí)特征描述子(LBP算子);
3) 在LBP特征上進(jìn)行多層DCT變換得到高級(jí)特征描述子(LBP-MDCT算子);
4) 將得到的高級(jí)特征描述子送入SVM分類(lèi)器中判斷該視頻究竟是非法用戶的欺騙攻擊還是合法用戶的進(jìn)入請(qǐng)求.
Fig. 2 Demonstration of high-level descriptor extraction圖2 高級(jí)特征描述子構(gòu)造過(guò)程
在這個(gè)環(huán)節(jié)中,我們對(duì)得到的低級(jí)特征描述子進(jìn)行DCT變換,從而提取出視頻中的時(shí)間信息.圖2詳細(xì)展示了高級(jí)特征描述子的構(gòu)造過(guò)程.在獲得N×59的LBP特征矩陣后,我們沿著該矩陣的縱軸,即錄制整個(gè)視頻的時(shí)間軸,進(jìn)行一維DCT變換,得到許多DCT分量.給定輸入信號(hào)f(n),其一維DCT變換為
(1)
其中,0≤k≤N-1.根據(jù)DCT的能量集中特性,變換后絕大多數(shù)能量都集中在直流分量(direct component, DC)中.因此,沒(méi)有必要利用所有的DCT分量來(lái)構(gòu)造高級(jí)特征描述子,只選用C個(gè)DCT分量即可.具體來(lái)說(shuō),若C=1,只選用直流分量;若C=2,則選用直流分量和第1個(gè)交流分量(alternating component, AC).這樣,在DCT變換后,我們得到1個(gè)59×C的LBP-DCT特征矩陣.需要特別說(shuō)明的是,通過(guò)舍棄絕大部分的DCT分量,我們達(dá)到了降維的效果,而降維不僅降低了計(jì)算復(fù)雜度,同時(shí)也提高了檢測(cè)的效率.
為了獲得更好的性能,本文采用3層DCT變換.在第1層,對(duì)LBP特征矩陣的所有列進(jìn)行DCT變換,得到一個(gè)59×C的LBP-DCT特征矩陣.在第2層,將LBP特征矩陣均分為2部分:第1部分由前
本文檢測(cè)算法的最后1個(gè)關(guān)鍵步驟是通過(guò)一個(gè)高辨別力的機(jī)器學(xué)習(xí)算法找到最優(yōu)分類(lèi)模型,從而對(duì)目標(biāo)視頻進(jìn)行判斷:究竟該視頻是非法用戶的欺騙攻擊,還是合法用戶的進(jìn)入請(qǐng)求.本文選用包含徑向基核函數(shù)(radial basis function, RBF)的支持向量機(jī)(support vector machine, SVM)[25]作為分類(lèi)器.該分類(lèi)器不僅具有很高的分類(lèi)準(zhǔn)確率,而且被廣泛應(yīng)用于人臉識(shí)別等研究課題.將上一步得到的高級(jí)特征描述子送入SVM,即可根據(jù)SVM的輸出數(shù)據(jù)完成人臉活體檢測(cè).輸出數(shù)據(jù)的評(píng)價(jià)指標(biāo)在3.2節(jié)中詳細(xì)說(shuō)明.
在分析實(shí)驗(yàn)結(jié)果之前,首先介紹本文使用的公共數(shù)據(jù)庫(kù)及實(shí)驗(yàn)嚴(yán)格遵循的測(cè)試協(xié)議.
本文在2個(gè)得到廣泛認(rèn)可的公共數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn).
Replay-Attack數(shù)據(jù)庫(kù)[11]:該數(shù)據(jù)庫(kù)由合法用戶的視頻進(jìn)入請(qǐng)求和非法用戶的視頻欺騙攻擊組成,每個(gè)視頻時(shí)長(zhǎng)約10 s.在3種不同的情景和2種不同的照明條件下,該數(shù)據(jù)庫(kù)對(duì)50個(gè)對(duì)象錄制了共計(jì)1 200段視頻,其中包括200段真實(shí)人臉視頻及1 000段偽造人臉視頻.
CASIA-FASD數(shù)據(jù)庫(kù)[10]:該視頻庫(kù)由來(lái)自50個(gè)對(duì)象的600段視頻組成,其中包括150段合法請(qǐng)求及450段欺騙攻擊.不同于Replay-Attack數(shù)據(jù)庫(kù)的是,CASIA-FASD數(shù)據(jù)庫(kù)的視頻欺騙攻擊涉及到3種成像質(zhì)量:低質(zhì)量(由1個(gè)分辨率為640×480的舊USB攝像頭采集)、中等質(zhì)量(由1個(gè)分辨率為480×640的新USB攝像頭采集)、高質(zhì)量(由1個(gè)最大分辨率為1920×1080的Sony NEX-5攝像頭采集).此外,該數(shù)據(jù)庫(kù)包含的偽造人臉視頻有3種類(lèi)型:彎曲照片攻擊、裁剪照片攻擊和視頻回放攻擊.
為了公平有效地評(píng)價(jià)各個(gè)算法的性能優(yōu)劣,本文選擇被廣泛使用的半錯(cuò)誤率(half total error rate,HTER)作為性能評(píng)價(jià)指標(biāo).如式(2)所示,半錯(cuò)誤率指的是錯(cuò)誤接受率(false acceptance rate,F(xiàn)AR)和錯(cuò)誤拒絕率(false rejection rate,F(xiàn)RR)總和的一半:
(2)
由于FAR和FRR都取決于閾值τ,增大其中一個(gè)會(huì)減小另一個(gè),因此HTER值通常在接收者操作特征曲線(receiver operating characteristic curve, ROC)的一個(gè)特征點(diǎn)取得.在該特征點(diǎn)上,F(xiàn)AR和FFR相等,即達(dá)到等錯(cuò)誤率(equal error rate,ERR)狀態(tài).根據(jù)上述定義可知,HTER值越小,錯(cuò)誤率越小,算法的性能就越好.
測(cè)試協(xié)議Ⅰ:在該測(cè)試協(xié)議下,使用Replay-Attack數(shù)據(jù)庫(kù).Replay-Attack數(shù)據(jù)庫(kù)由3個(gè)子集組成:訓(xùn)練集(包含360段視頻)、評(píng)估集(包含360段視頻)和測(cè)試集(包含480段視頻).其中,訓(xùn)練集用來(lái)訓(xùn)練SVM分類(lèi)器;評(píng)估集用來(lái)選擇閾值τ;測(cè)試集則用來(lái)報(bào)告最終的HTER值.
測(cè)試協(xié)議Ⅱ:在該測(cè)試協(xié)議下,使用CASIA-FASD數(shù)據(jù)庫(kù).CASIA-FASD數(shù)據(jù)庫(kù)由訓(xùn)練集(包含240段視頻)和測(cè)試集(包含360段視頻)組成.訓(xùn)練集用來(lái)訓(xùn)練SVM分類(lèi)器,測(cè)試集用來(lái)得到最終的HTER值.
本文算法在Replay-Attack數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果如表1所示.需要說(shuō)明的是,對(duì)每個(gè)C值,I都有1個(gè)上限.例如若C=1,即只選用DCT變換后的直流分量,則3層DCT至少需要4幀人臉圖像.Replay-Attack數(shù)據(jù)庫(kù)包含的所有視頻最少有221幀,因此,當(dāng)C=1時(shí),I的上限為72.表1展示了部分參數(shù)設(shè)置下的實(shí)驗(yàn)結(jié)果.
令人驚喜的是,無(wú)論I和C的取值為多少,所有參數(shù)組合下的HTER值均為0,即所有參數(shù)組合都可實(shí)現(xiàn)完美分類(lèi).我們知道,I越大,所提取的人臉圖像就越少,檢測(cè)的速度就越快,算法的復(fù)雜度也越低.同樣道理,C越小,使用的DCT分量越少,算法的效率就越高,算法也越簡(jiǎn)單.出于這2點(diǎn)考慮,I=72&C=1可使算法具有最高的效率和最低的復(fù)雜度,因此,I=72&C=1是Replay-Attack數(shù)據(jù)庫(kù)的最優(yōu)參數(shù).
Table1HTERoftheProposedAlgorithmonReplay-AttackDatasetandCASIA-FASDDataset
表1本文算法在Replay-Attack和CASIA-FASD數(shù)據(jù)庫(kù)上的HTER值
CIHTER∕%Replay?AttackCASIA?FASDDevTestTest110.000.0020.0020.000.0019.0730.000.0020.0040.000.0018.89210.000.0020.0020.000.0019.0730.000.0020.0040.000.0019.26310.000.0018.8920.000.0019.2630.000.0019.0740.000.0018.43410.000.0018.8920.000.0020.0030.000.0018.2540.000.0018.06510.000.0018.8920.000.0019.1830.000.0019.1840.000.0018.89
C: Number of used DCT components;I: Interval for extracting frames; Dev: On development set; Test: On test set.
表1同樣展示了本文算法在CASIA-FASD數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果.和Replay-Attack數(shù)據(jù)庫(kù)一樣,受視頻所含最少幀數(shù)影響,給定1個(gè)C值,I同樣存在一個(gè)上限.為節(jié)省空間,表1只列出了部分參數(shù)設(shè)置下的HTER值.
從表1我們可以看到,CASIA-FASD數(shù)據(jù)庫(kù)上的HTER值在19.00%左右波動(dòng);當(dāng)I=4&C=4時(shí),HTER值最小,為18.06%.因此,I=4&C=4是CASIA-FASD數(shù)據(jù)庫(kù)的最優(yōu)參數(shù).至于性能波動(dòng)和參數(shù)選取的關(guān)系,我們將在后續(xù)工作中對(duì)其進(jìn)行更深入的研究.不同于在Replay-Attack數(shù)據(jù)庫(kù)上實(shí)現(xiàn)的完美分類(lèi),本文算法在CASIA-FASD數(shù)據(jù)庫(kù)上未能實(shí)現(xiàn)零差錯(cuò)分類(lèi).這是因?yàn)镃ASIA-FASD數(shù)據(jù)庫(kù)比Replay-Attack數(shù)據(jù)庫(kù)難度更大,更具挑戰(zhàn)性.例如,CASIA-FASD數(shù)據(jù)庫(kù)引入了裁剪照片攻擊.在實(shí)施這種攻擊時(shí),攻擊者將人臉照片的眼睛區(qū)域剪掉,用自己的眼睛實(shí)現(xiàn)眨眼動(dòng)作,更加逼真,檢測(cè)的難度也更大.此外,CASIA-FASD數(shù)據(jù)庫(kù)包含的攻擊類(lèi)型比Replay-Attack數(shù)據(jù)庫(kù)更豐富.CASIA-FASD數(shù)據(jù)庫(kù)不僅包含3種類(lèi)型的攻擊(彎曲照片攻擊、裁剪照片攻擊和視頻回放攻擊),這些攻擊還是由3種不同的設(shè)備(低分辨率攝像頭、中等分辨率攝像頭和高分辨率攝像頭)錄制而成.
我們將本文算法與文獻(xiàn)[11,20,26]中的算法進(jìn)行了比較,比較結(jié)果如表2所示.正如我們?cè)?.4節(jié)中闡述的那樣,CASIA-FASD數(shù)據(jù)庫(kù)比Replay-Attack數(shù)據(jù)庫(kù)難度更大、更具挑戰(zhàn)性.所有算法在Replay-Attack數(shù)據(jù)庫(kù)上的性能都明顯優(yōu)于在CASIA-FASD數(shù)據(jù)庫(kù)上的性能.
Table2ComparisonofHTERonTestSetsfortheProposedAlgorithmwithState-of-the-artAlgorithms
表2 本文算法和現(xiàn)有算法的HTER值比較
E: On entire frames; F: On face regions.
從表2可以看到,本文算法的HTER值低于文獻(xiàn)[11,20,26]中的算法,也就是說(shuō),本文算法性能超過(guò)了文獻(xiàn)[11,20,26]中的算法.對(duì)Replay-Attack數(shù)據(jù)庫(kù),我們的HTER值為0,實(shí)現(xiàn)了零差錯(cuò)的完美檢測(cè);對(duì)CASIA-FASD數(shù)據(jù)庫(kù),我們的HTER值為18.06%,低于文獻(xiàn)[11,20,26]中的算法且至少低3.69%.Chingovska等人[11]僅僅應(yīng)用LBP對(duì)抗人臉欺騙攻擊,檢測(cè)效果在15.00%左右.在Pereira等人[26]提出的算法中,基于LBP-TOP的算法性能最好,分別在Replay-Attack和CASIA-FASD數(shù)據(jù)庫(kù)上取得了8.51%和23.75%的HTER值.盡管Tirunagari等人[20]提出的DMD+LBP+SVME算法在Replay-Attack數(shù)據(jù)庫(kù)上也實(shí)現(xiàn)了完美檢測(cè)(HTER=0),但該算法需要使用一段視頻中的240幀,而本文算法只需要4幀,所需圖像幀數(shù)大大減小.我們知道,人臉活體檢測(cè)是針對(duì)實(shí)際應(yīng)用的研究,所需幀數(shù)越少,檢測(cè)時(shí)間越短,算法效率越高,算法性能也就越好.因此,本文算法比DMD+LBP+SVME算法性能更優(yōu).更重要的是,DMD+LBP+SVME算法必須使用一幀圖像的全部區(qū)域,一旦僅使用人臉區(qū)域(DMD+LBP+SVMF算法),其HTER值增加至3.75%,不再是零差錯(cuò)檢測(cè).這是因?yàn)镽eplay-Attack數(shù)據(jù)庫(kù)中不同類(lèi)型欺騙攻擊的背景內(nèi)容存在差異,而這種差異有利于分類(lèi)器分辨真假人臉視頻.然而,在現(xiàn)實(shí)生活中,對(duì)不可隨身攜帶的相對(duì)固定的人臉識(shí)別系統(tǒng)而言,如門(mén)禁系統(tǒng),視頻背景內(nèi)容的差異性將不復(fù)存在.從這一點(diǎn)上考慮,DMD+LBP+SVME算法并不能在所有人臉識(shí)別系統(tǒng)上獲得完美的檢測(cè)結(jié)果,而本文算法僅使用人臉區(qū)域,適用于所有類(lèi)型的人臉識(shí)別系統(tǒng).綜上所述,針對(duì)視頻欺騙攻擊,本文提出的算法在目前已有的人臉活體檢測(cè)算法中具有最出色的性能.
除了出色的性能,本文算法還具備低復(fù)雜度、高效率的優(yōu)點(diǎn).一方面,我們只需要使用視頻中的少數(shù)幀而非所有幀;另一方面,LBP和DCT操作均只需很短的時(shí)間來(lái)完成.對(duì)Replay-Attack或CASIA-FASD數(shù)據(jù)庫(kù)中的視頻而言,在每幀圖像上進(jìn)行LBP操作只需要0.12 s.在獲得LBP特征矩陣后,無(wú)論參數(shù)取值為多少,計(jì)算LBP-MDCT特征矩陣都只需要0.02 s.此外,根據(jù)DCT的能量集中特性,我們只需要1個(gè)或幾個(gè)DCT分量來(lái)構(gòu)造高級(jí)特征描述子.舍棄絕大部分的DCT分量意味著降維,而降維不僅降低了計(jì)算復(fù)雜度,同時(shí)也提高了算法的效率.基于上述3個(gè)原因,本文算法不僅簡(jiǎn)單、易實(shí)現(xiàn),而且實(shí)時(shí)性好、效率高.兼顧優(yōu)異性能、低復(fù)雜度和高效率,本文算法對(duì)人臉活體檢測(cè)在實(shí)際生活中的應(yīng)用有著十分重要的意義.
針對(duì)基于視頻的人臉欺騙攻擊,本文利用LBP和多層DCT提出了一種新的人臉活體檢測(cè)算法.為了有效提取靜態(tài)空間信息,我們對(duì)選中的人臉圖像進(jìn)行均勻模式LBP操作,得到低級(jí)特征描述子(LBP算子).在此基礎(chǔ)上,為了提取動(dòng)態(tài)時(shí)間信息,我們沿著LBP算子的縱軸,即錄制整個(gè)視頻的時(shí)間軸,進(jìn)行3層的DCT變換.這樣,最終得到的高級(jí)特征描述子(LBP-MDCT算子)既包含了靜態(tài)圖像的空間信息,又包含了幀與幀之間的動(dòng)態(tài)時(shí)間信息.優(yōu)異的實(shí)驗(yàn)結(jié)果驗(yàn)證了多層DCT確實(shí)能夠有效捕捉面部動(dòng)態(tài)信息,對(duì)正確判斷真假人臉視頻起到了重要的作用.
在嚴(yán)格遵循各個(gè)數(shù)據(jù)庫(kù)測(cè)試協(xié)議的前提下,我們?cè)?個(gè)廣泛應(yīng)用的公共數(shù)據(jù)庫(kù)上進(jìn)行了大量的實(shí)驗(yàn),驗(yàn)證了本文算法的有效性,表明了本文算法相比于現(xiàn)有算法的性能優(yōu)越性.在Replay-Attack數(shù)據(jù)庫(kù)上,本文算法的HTER=0,實(shí)現(xiàn)了零差錯(cuò)的完美檢測(cè);在CASIA-FASD數(shù)據(jù)庫(kù)上,本文算法的HTER=18.06%,低于其他所有算法且至少低3.69%.我們將出色的性能歸因于3個(gè)方面:1)LBP能夠有效提取出每幀圖像的靜態(tài)紋理信息;2)多層DCT變換能夠有效捕捉面部動(dòng)態(tài)信息;3)在LBP算子上進(jìn)行多層DCT變換來(lái)同時(shí)表征時(shí)空信息的創(chuàng)新性的結(jié)合方式.值得注意的是,本文算法之所以能取得如此優(yōu)異的性能,最主要的原因不是LBP或DCT單獨(dú)的能力,而是將兩者結(jié)合在一起的獨(dú)特方式.在性能優(yōu)異的同時(shí),本文算法簡(jiǎn)單易實(shí)現(xiàn),而且高效省時(shí).從每幀人臉圖像中提取LBP向量只需要0.12 s;根據(jù)低級(jí)特征描述子得到高級(jí)特征描述子只需要0.02 s.兼顧卓越的性能、低復(fù)雜度和高效率,本文算法具有很好的實(shí)際應(yīng)用前景.
將來(lái)工作的首要方向是對(duì)本文算法在CASIA-FASD數(shù)據(jù)庫(kù)上參數(shù)選取和性能波動(dòng)的關(guān)系進(jìn)行進(jìn)一步的研究并進(jìn)行跨數(shù)據(jù)庫(kù)實(shí)驗(yàn).另一個(gè)研究方向是選用其他類(lèi)型的LBP算子,比較各自的性能.當(dāng)然,用其他圖像處理工具代替LBP或DCT來(lái)同時(shí)表征時(shí)空信息并比較性能優(yōu)劣也是將來(lái)工作的內(nèi)容之一.
[1] Galbally J, Marcel S, Fierrez J. Biometric antispoofing methods: A survey in face recognition[J]. IEEE Access, 2014, 2: 1530-1552
[2] Anjos A, Marcel S. Counter-measures to photo attacks in face recognition: A public database and a baseline[C] //Proc of 2011 IEEE Int Joint Conf on Biometrics. Piscataway, NJ: IEEE, 2011: 1-7
[3] Galbally J, Fierrez J, Alonso-Fernandez F, et al. Evaluation of direct attacks to fingerprint verification systems[J]. Telecommunication Systems, 2011, 47(3/4): 243-254
[4] Mjaaland B B, Bours P, Gligoroski P. Walk the walk: Attacking gait biometrics by imitation[G] //LNCS 6531: Proc of the 13th Int Conf on Information Security. Berlin: Springer, 2010: 361-380
[5] Akhtar Z, Fumera G, Marcialis G L, et al. Evaluation of serial and parallel multibiometric systems under spoofing attacks[C] //Proc of the 5th IEEE Int Conf on Biometrics: Theory, Applications and Systems. Piscataway, NJ: IEEE, 2012: 283-288
[6] Tome P, Vanoni M, Marcel S. On the vulnerability of finger vein recognition to spoofing[C] //Proc of Int Conf of the Biometrics Special Interest Group. Piscataway, NJ: IEEE, 2014: 1-10
[7] Yang Jianwei. Study on face antispoofing methods from the perspective of face recognition[D]. Beijing: Beijing University of Posts and Telecommunications, 2014 (in Chinese)
(楊健偉. 面向人臉識(shí)別的人臉活體檢測(cè)方法研究[D]. 北京: 北京郵電大學(xué), 2014)
[8] Sun Lin. Research on anti-spoofing in face recognition[D]. Hangzhou: Zhejiang University, 2010 (in Chinese)
(孫霖. 人臉識(shí)別中的活體檢測(cè)技術(shù)研究[D]. 杭州: 浙江大學(xué), 2010)
[9] Tan Xiaoyang, Li Yi, Liu Jun, et al. Face liveness detection from a single image with sparse low rank bilinear discriminative model[G] //LNCS 6316: Proc of the 11th European Conf on Computer Vision. Berlin: Springer, 2010: 504-517
[10] Zhang Zhiwei, Yan Junjie, Liu Sifei, et al. A face antispoofing database with diverse attacks[C] //Proc of the 5th IAPR Int Conf on Biometrics. Piscataway, NJ: IEEE, 2012: 26-31
[11] Chingovska I, Anjos A, Marcel S. On the effectiveness of local binary patterns in face anti-spoofing[C] //Proc of Int Conf of Biometrics Special Interest Group. Piscataway, NJ: IEEE, 2012: 1-7
[12] Erdogmus N, Marcel S. Spoofing in 2D face recognition with 3D masks and anti-spoofing with Kinect[C] //Proc of the 6th IEEE Int Conf on Biometrics: Theory, Applications and Systems. Piscataway, NJ: IEEE, 2013: 1-6
[13] Pinto A, Schwartz W R, Pedrini H, et al. Using visual rhythms for detecting video-based facial spoof attacks[J]. IEEE Trans on Information Forensics and Security, 2015, 10(5): 1025-1038
[14] Li Jiangwei, Wang Yunhong, Tan Tieniu, et al. Live face detection based on the analysis of Fourier spectra[G] //SPIE 5404: Biometric Technology for Human Identification. Bellingham, WA: SPIE, 2004: 296-303
[15] Peixoto B, Michelassi C, Rocha A. Face liveness detection under bad illumination conditions[C] //Proc of the 18th IEEE Int Conf on Image Processing. Piscataway, NJ: IEEE, 2011: 3557-3560
[16] Maatta J, Hadid A, Pietikainen M. Face spoofing detection from single images using texture and local shape analysis[J]. IET Biometrics, 2012, 1(1): 3-10
[17] Kose N, Dugelay J L. Classification of captured and recaptured images to detect photograph spoofing[C] //Proc of 2012 Int Conf on Informatics, Electronics & Vision. Piscataway, NJ: IEEE, 2012: 1027-1032
[18] Maatta J, Hadid A, Pietikainen M. Face spoofing detection from single images using micro-texture analysis[C] //Proc of 2011 Int Joint Conf on Biometrics. Piscataway, NJ: IEEE, 2011: 1-7
[19] de Freitas Pereira T, Anjos A, De Martino J M, et al. LBP-TOP based countermeasure against face spoofing attacks[G] //LNCS 7728: Proc of ACCV 2012 Int Workshops. Berlin: Springer, 2013: 121-132
[20] Tirunagari S, Poh N, Windridge D, et al. Detection of face spoofing using visual dynamics[J]. IEEE Trans on Information Forensics and Security, 2015, 10(4): 762-777
[21] Arashloo S R, Kittler J, Christmas W. Face spoofing detection based on multiple descriptor fusion using multiscale dynamic binarized statistical image features[J]. IEEE Trans on Information Forensics and Security, 2015, 10(11): 2396-2407
[22] Pinto A, Pedrini H, Schwartz W R, et al. Face spoofing detection through visual codebooks of spectral temporal cubes[J]. IEEE Trans on Image Processing, 2015, 24(12): 4726-4740
[23] Pinto A d S, Pedrini H, Schwartz W, et al. Video-based face spoofing detection through visual rhythm analysis[C] //Proc of the 25th SIBGRAPI Conf on Graphics, Patterns and Images. Piscataway, NJ: IEEE, 2012: 221-228
[24] Viola P, Jones M J. Robust real-time face detection[J]. International Journal of Computer Vision, 2004, 57(2): 137-154
[25] Cortes C, Vapnik V. Support-vector networks[J]. Machine Learning, 1995, 20(3): 273-297
[26] de Freitas Pereira T, Komulainen J, Anjos A, et al. Face liveness detection using dynamic texture[J]. EURASIP Journal on Image and Video Processing, 2014, 2014(1): Article No.2