曾凡智,吳楚濤,周 燕
佛山科學(xué)技術(shù)學(xué)院計算機系,廣東 佛山 528000
隨著人工智能的迅速發(fā)展,人臉識別[1]技術(shù)在日常生活中獲得廣泛應(yīng)用,如智能手機解鎖、門禁解鎖、電子錢包支付等。但人臉識別系統(tǒng)中人臉活體檢測的安全性仍存在巨大安全隱患。人臉活體檢測[2]的起因是成像傳感器在面對紙張打印、視頻重放、3D模具等物理呈現(xiàn)的假人臉時無法識別成像的真實性,從而假人臉通過人臉識別系統(tǒng),受到非法入侵,導(dǎo)致人臉識別系統(tǒng)在金融、支付及商業(yè)等應(yīng)用場景存在局限性,這使得人臉活體檢測引起了廣泛的社會關(guān)注。
由于人臉活體檢測的類型復(fù)雜多樣、易受光線和成像清晰度等原因,它是人臉識別應(yīng)用中一個具有挑戰(zhàn)性的問題。目前人臉活體檢測算法主要分為傳統(tǒng)手工制作特征方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)手工制作特征方法通過眨眼、點頭、微笑、注視跟蹤和生理信號從RGB、HSV、YCbCr等各種顏色空間中有效提取欺騙類型的動態(tài)判別。M??tt? 等[3]利用多尺度局部二值模式(LBP)分析人臉圖像的紋理。Boulkenafet等[4]基于Fisher向量編碼的人臉特征描述從不同顏色空間中提取了加速魯棒特征(Speeded Up Robust Features,SURF)。Pate 等[5]基于人臉圖像反射、顏色失真和形狀變形的解決人臉欺騙問題。
近年來,隨著深度學(xué)習(xí)在計算機視覺中的飛速發(fā)展。越來越多通過卷積神經(jīng)網(wǎng)絡(luò)(convlution nertron network,CNN)方法提取更多可鑒別特征。Yang 等[6]第一個使用CNN 和二進制監(jiān)督進行人臉活體檢測。Atoum等[7]提出了一種結(jié)合紋理特征提取深度特征的雙流CNN 架構(gòu)來檢測攻擊。Liu 等[8]基于CNN-RNN 模型,利用人臉深度作像素級及rPPG 信號序列級監(jiān)督估計,將估計的深度和rPPG融合,以區(qū)分真實的和虛假的人臉。Yu等[9]提出基于中心差分卷積方法,通過聚集強度和梯度信息來捕獲內(nèi)在的人臉信息。Li 等[10]提出了一種基于補丁的緊湊圖網(wǎng)絡(luò)(PCGN)來分散來自所有補丁的細微活性線索。Yu 等[11]利用跨特征交互模塊將中心和周圍稀疏局部特征分別在水平垂直和對角方向上的差異挖掘局部特征。沈超等[12]利用真?zhèn)稳四樇y理差異特征的篩選并增強網(wǎng)絡(luò)的輸入。王宏飛等[13]利用光流與紋理特征融合得到人臉動-靜態(tài)特征。
盡管這類方法在類內(nèi)測試有較好的性能,但對數(shù)據(jù)集存在擬合,在跨數(shù)據(jù)集測試時性能顯著下降。解決這類問題的直接方法是采用域泛化技術(shù)[14]。域泛化技術(shù)在不訪問任何目標數(shù)據(jù)的情況下顯式挖掘多個源域之間的關(guān)系,可以更好地概化到不可見的域。Shao等[15]提出多對抗判別深度域泛化框架來學(xué)習(xí)真人臉與假人臉的廣義特征空間。Jia 等[16]提出端到端單邊域泛化框架來提高人臉反欺騙的泛化能力,Wang 等[17]提出詞匯分離和詞匯自適應(yīng)方法來劃分跨域人臉活體檢測的局部聚合向量(vector of locally aggregated descriptors vocabulary separation and adaptation,VLAD-VSA)聚合所以真人臉相關(guān)信息,區(qū)分不同源于假人臉相關(guān)信息。Liu 等[18]設(shè)計了一種自適應(yīng)歸一化表示學(xué)習(xí)(adaptive normalized representation learning,ANRL)框架,根據(jù)輸入自適應(yīng)特征歸一化模塊去區(qū)分不同源域欺騙人臉。蔡體健等[19]通過添加人臉深度圖抓取活體與假體的區(qū)別特征。Wang 等[20]提出了混亂重組式網(wǎng)絡(luò)(shuffled style assembly network,SSAN)框架來提取和重組不同的內(nèi)容和風(fēng)格特征,形成一個廣義的人臉特征空間。
綜上所述,現(xiàn)有域泛化方法大多側(cè)重于最小化多個源域間的分布差異以提取域不變特征,或利用域泛化框架對特征進行對齊,以尋求一個緊湊和一般化的特征空間。針對以上問題,本文提出一種跨域人臉活體檢測的單邊對抗網(wǎng)絡(luò)算法,主要貢獻如下:
(1)提出GⅠR-AFMN 模塊,將改進倒置殘差塊與分組卷積結(jié)合,同時引入自適應(yīng)特征歸一化模塊作為特征提取模塊,在ResNet50基礎(chǔ)上改進骨干網(wǎng)絡(luò),該網(wǎng)絡(luò)有效避免單一數(shù)據(jù)集的過擬合,提高了來自不同源域的人臉活體檢測能力。
(2)改進NetVLAD,將通道注意力機制模塊引入其中,利用通道注意力機制模塊實現(xiàn)不同源域人臉活體局部區(qū)域特征信息特征權(quán)重的再分配,提高不同源域人臉活體特征信息利用率,有效提高對不同源域的人臉活體特征信息的表達能力。
(3)在人臉活體檢測數(shù)據(jù)集(OULU-NLP[21]、CASⅠA-MFSD[22]、Ⅰdiap Replay-Attack[23]、MSU-MFSD[24])上實驗證明本文方法的有效性。
領(lǐng)域泛化:領(lǐng)域泛化[14]的目標是從一個或幾個不同但相關(guān)的源域?qū)W習(xí)一個模型,這將在不可見的測試領(lǐng)域中很好地泛化。例如,給定一個草圖、卡通圖像和圖畫,領(lǐng)域泛化要求訓(xùn)練一個良好的機器學(xué)習(xí)模型,該模型對來自其他圖像或照片的圖像進行分類時,預(yù)測誤差最小,這些圖像與訓(xùn)練集中的圖像有明顯的區(qū)別分布。
假設(shè)給定M個訓(xùn)練源域Strain={Si|i=1,2,…,M}其中Si是第i個源域,且每對源域之間的聯(lián)合分布是不同的。域泛化的目標是從訓(xùn)練源域中學(xué)習(xí)一個魯棒的、泛化的預(yù)測函數(shù)h,在不可見的測試域Stest上實現(xiàn)最小的預(yù)測誤差見式(1):
其中,E是期望,l是損失函數(shù)。
本文設(shè)計了基于生成對抗網(wǎng)絡(luò)框架進行域泛化人臉活體檢測算法,整體算法結(jié)構(gòu)由生成器網(wǎng)絡(luò)、判別器網(wǎng)絡(luò)和局部特征聚合網(wǎng)絡(luò)三部分,整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,首先將所有源域真實人臉與虛假人臉分離,然后將其輸入到相應(yīng)特征生成器中,該生成器將輸入的人臉映射到一個特征空間,域鑒別器以確定輸入特征來自真實或虛假域。相反,訓(xùn)練特征生成器欺騙域鑒別器,使域標簽無法被識別。為此,在特征生成器和域鑒別器之間設(shè)計了一個單邊對抗性學(xué)習(xí)過程,以獲取真實人臉的特征。
圖1 跨域人臉活體檢測的單邊對抗網(wǎng)絡(luò)算法結(jié)構(gòu)Fig.1 Algorithm structure of unilateral adversarial network for cross-domain face detection
受到ANRL[18]和MobileNetV2[25]設(shè)計的思想啟發(fā),本文提出GⅠR-AFMN模塊,設(shè)計生成器網(wǎng)絡(luò)部分,將分組卷積引入具有線性瓶頸的倒置殘差塊,同時利用ANRL[18]中自適應(yīng)特征歸一化處理以提高網(wǎng)絡(luò)性能,生成器如圖1中Generator所示,將分組卷積與倒置殘差塊融合并結(jié)合自適應(yīng)特征歸一化模塊,降低生成器網(wǎng)絡(luò)參數(shù)量和計算量的同時提升網(wǎng)絡(luò)性能。
2.1.1 倒置殘差塊
倒殘差模塊是MobileNetsv2[25]中對MobileNets[26]改進所提出的一種有效方法,其組成如圖2 所示,輸入特征圖通過主路與分支結(jié)構(gòu)進行融合特征提取,其中,第一層的1×1卷積核對輸入的特征圖進行升維,對不同通道上的信息進行線性組合,然后通過第二層3×3卷積進行操作,得到各通道的特征信息,接著第三層1×1 卷積核進行降維,整合和交互各通道的信息,最后將分支與主路運算,得到更多有用的編碼信息。
圖2 倒殘差模塊Fig.2 Ⅰnverted residual block
2.1.2 分組卷積
分組卷積(group convolution)是Yani 等[27]在2016年提出的稀疏卷積結(jié)構(gòu),如圖3所示,相比與標準卷積,分組卷積主要是將特征圖在通道維度上進行分組,對每組特征圖進行卷積運算。假設(shè)輸入特征矩陣尺寸為H1×W1×C1,使用C2 個尺寸為h×w×C1 標準卷積核進行計算時,得到的輸出特征矩陣尺寸H2×W2×C2,其參數(shù)量為h×w×C1×C2。而分組卷積將輸入特征矩陣在通道維度上分成g組,則每C1/g個通道的特征矩陣分為一組。此時卷積核采用h×w×C1/g的尺寸進行計算,可得到g組尺寸為H2×W2×C2/g的輸出特征矩陣,完成拼接后最終的輸出尺寸仍然是H2×W2×C2,其參數(shù)量為h×w×C1×C2×1/g。
圖3 標準卷積與分組卷積Fig.3 2D-convolution and group convolution
從上述可知,分組卷積的參數(shù)量是標準卷積的1/g,本文g=32。
2.1.3 自適應(yīng)特征歸一化
自適應(yīng)特征歸一化模塊是騰訊優(yōu)圖2021年提出的ANRL[18]算法中的一種方法,其組成如圖4 所示。自適應(yīng)歸一化由批量歸一化(batch normalization,BN)和實例歸一化組成(instance normalization,ⅠN),利用自適應(yīng)平衡因子為每個樣本提取特征。其中,將X特征圖利用BN層及ⅠN層獲得兩種歸一化表示XBN,XIN,同時對X特征圖通過一個3×3 卷積層和全局平均池化層生成基于通道的統(tǒng)計信息即為X特征圖的全局信息。將此全局信息通過全連接層來指導(dǎo)XBN和XIN自適應(yīng)選擇。
圖4 自適應(yīng)特征歸一化模塊Fig.4 Adaptive feature normalization module
2.1.4 GIR-AFMN
圖5 GⅠR-AFNMFig.5 GⅠR-AFNM
2.2.1 通道注意力
通道注意力機制(channel attention mechanism)是2017 屆ⅠmageNet 分類比賽的冠軍網(wǎng)絡(luò)SENet[29]中所提出的重要方法,經(jīng)過CBAM[30]改良以后有效提高了通道注意力機制的廣泛適用性。其組成如圖6所示。
圖6 通道注意力Fig.6 Channel attention
主要是在卷積提取特征過程中添加一個注意力分支,首先輸入特征圖分別進行平均池化和最大池化操作,將每個通道上的特征圖壓縮成一個像素的特征權(quán)重,然后將池化后的輸出經(jīng)過多層感知器,最后通過線性激活Sigmoid與輸入特征圖相乘獲取每個通道上局部特征的重要程度。實現(xiàn)不平等的對待總體的輸入,使網(wǎng)絡(luò)更加關(guān)注特征圖上局部重要的信息。
2.2.2 NetVLAD
在特征對齊問題上,在受到VLAD-VSA[17]的思想啟發(fā),其提出了帶有詞匯分離和自適應(yīng)的局部聚合向量網(wǎng)絡(luò),其中在NetVLAD[31]結(jié)構(gòu)如圖7 所示,給定局部特征F和帶有K個視覺簇類的詞匯V來劃分特征空間,局部特征通過一個1×1的卷積層實現(xiàn)分配,然后通過softmax函數(shù)對數(shù)值進行縮放。計算局部特征與其分配的聚類中心之間的殘差,然后用分配分數(shù)對它們進行加權(quán),并聚合到NetVLAD[31],然后將NetVLAD[31]表示進行內(nèi)部歸一化和L2 正則化,成為一個全局向量進行識別和域?qū)R。然后將這個全局向量分為共享視覺詞匯和特定詞匯,將共享表示的分布與對抗性損失對齊。同時將共享和特定的詞匯約束為正交的,使它們捕獲不同的和不重要的信息。
圖7 NetVLADFig.7 NetVLAD
2.2.3 改進NetVLAD
1×1卷積核可以整合交互各通道的信息,為聚類中心殘差提供權(quán)重分配,但是聚類殘差是將同類的距離拉近,異類的距離疏遠,而1×1 卷積核對單一特征圖的不能很好的對跨域任務(wù)所關(guān)注的同類與異類的距離進行修正;針對該問題,本文提出改進NetVLAD[31],其組成如圖8 所示。將輸入特征圖經(jīng)過通道注意力機制獲得具有關(guān)注局部關(guān)鍵信息的特征圖再利用聚類中心殘差進行對進行NetVLAD[31]聚合,同時另一分支將輸入特征圖進行NetVLAD[31]聚合,最后將兩個聚合向量相加得到最后的聚合向量。使網(wǎng)絡(luò)更加關(guān)注有用的信息,使得圖像不同位置的感受視野有不同的重要性,進一步增強簇類之間的差異性,改進NetVLAD[31]的計算公式如式(2)所示:
圖8 改進NetVLADFig.8 Ⅰmproved NetVLAD
其中,fi代表樣本特征圖、Fi代表注意力機制提取后的特征圖,ck代表fi的簇類,ck′代表Fi′的簇類,本文k=32,α是一個常數(shù),本文α=3。
GTD是Getting Things Done的縮寫,戴維·艾倫(David Allen)通過Getting Things Done這本書介紹了一種時間管理方式,得到了世人的關(guān)注和使用。GTD時間管理方式的核心理念概括就是記錄下來要做的事,然后整理安排,去努力執(zhí)行,每日或每周回顧一次,重新做出調(diào)整計劃。GTD方法的主要任務(wù)是在有限時間內(nèi),使用人用有限的精力有效地完成該做的任務(wù),做出最大的單位時間產(chǎn)出。有效的GTD方法,能使繁重、無序的混亂生活變成高效、有序的工作生活方式。
鑒別器網(wǎng)絡(luò)設(shè)計采用2017 年CVPR 最佳論文DenseNet[32]作為骨干網(wǎng)絡(luò),如圖9所示,通過稠密拼接機制實現(xiàn)特征重用,從而改善網(wǎng)絡(luò)梯度傳遞問題,使網(wǎng)絡(luò)訓(xùn)練時更加容易收斂,達到參數(shù)量較少且計算高效的效果。相比于ResNet[33]具有更好的性能優(yōu)勢。
圖9 鑒別器網(wǎng)絡(luò)Fig.9 Network of discriminators
根據(jù)本任務(wù)不同源域人臉特征空間特點,為了避免參數(shù)量過多,導(dǎo)致過擬合數(shù)據(jù)集,本文鑒別器設(shè)計主要為4層DenseBlock,均采用3×3卷積核,針對不同Dense-Block 層之間特征圖尺寸大小不同不能直接拼接問題,采用2×2 池化下采樣方法,最后配合全局平局池化層,完成鑒別器的深度調(diào)整提取。
本文將分類損失、對抗損失、非對稱三元組損失的總和作為訓(xùn)練整個單邊對抗損失網(wǎng)絡(luò)的總體損失,具體表達式如式(3)所示:
其中,L為總體損失,Lcls為分類損失,Ladv為對抗損失,Ltriplet為三元組損失,λ1和λ2為權(quán)重系數(shù)取0.1,本文采用端到端的訓(xùn)練策略。
由于所有源域數(shù)據(jù)都包含標簽,因此在特征生成器之后實現(xiàn)了一個人臉反欺騙二值分類器,人臉反欺騙二值分類器采用標準交叉熵損失對真實人臉和欺騙型人臉進行優(yōu)化。
其中,G代表特征生成器。
由于所有真實人臉都是通過真人成像來收集的,所以,真實人臉的分布差異相比于欺騙型人臉要小得多;因此,本文采用單邊對抗學(xué)習(xí)策略,在特征生成器和域鑒別器之間進行單邊對抗學(xué)習(xí)得到一個廣義的特征空間,只對提取的真實人臉特征進行學(xué)習(xí),相反欺騙型人臉不進行對抗學(xué)習(xí),在學(xué)習(xí)過程中,特征生成器的參數(shù)是通過最大化域鑒別器的損失來優(yōu)化的,而域鑒別器的參數(shù)是通過相反的目標來優(yōu)化的,由于有多個源域用于分類,采用標準的交叉熵損失來優(yōu)化單邊對抗學(xué)習(xí)下的網(wǎng)絡(luò),如式(5):
其中,YD代表一系列的源域標簽,N代表不同源域的數(shù)量,G和D代表的分別是特征生成器和域判別器,為了同時優(yōu)化G和D,使用梯度反轉(zhuǎn)層(gradient reversa layer,GRL)在反向傳播過程中乘以一個負標量來反轉(zhuǎn)梯度??梢钥缬騾^(qū)分真假人臉,具有較強的泛化和鑒別能力。
由于欺騙型人臉復(fù)雜多樣和人臉數(shù)據(jù)庫的收集方式各有不同,導(dǎo)致欺騙型人臉的分布差異比真實人臉大得多;因此,本文采用非對稱三元組損失對不對稱三元組真實人臉和欺騙人臉進行挖掘,目的是分離不同源域的欺騙型人臉,使其在特征空間分布更加分散;反之,聚集所有真實人臉,使其在特征空間分布更加緊湊;同時,把欺騙型人臉和真實人臉分開;促進不可見目標域的類邊界優(yōu)化,具體表達式如式(6):
本文使用OULU-NLP(O)[21]、CASⅠA-MFSD(C)[22]、Ⅰdiap Replay-Attack(Ⅰ)[23],MSU-MFSD(M)[24]四個國際公開的人臉活體檢測數(shù)據(jù)集對本文算法進行實驗驗證。本文對四個數(shù)據(jù)集不同捕獲設(shè)備、攻擊類型和數(shù)量進行分類。如表1[17]所示,因此,這些數(shù)據(jù)集之間存在域間數(shù)據(jù)偏移。本文所有實驗對比均采用總半錯誤率(half total error rate,HTER)和曲線下面積(area under curve,AUC)作為評估指標。
表1 數(shù)據(jù)集分類Table 1 Dataset classification
本實驗均在Ubuntu 20.04 操作系統(tǒng)上進行,使用Anaconda 下基于Python 語言的PyCharm 解釋器,深度學(xué)習(xí)框架為Pytorch,計算機CPU為AMD Ryzen 55600X,GPU 使用NVⅠDⅠA RTX 2080。本文網(wǎng)絡(luò)總共訓(xùn)練400個周期,初始學(xué)習(xí)率為0.001,采用帶有動量的SGD算法優(yōu)化器。損失函數(shù)采用分類損失、單邊對抗損失和非對稱三元組損失作為總損失函數(shù),其中,分類損失用于優(yōu)化模型對真假人臉的二分類,單邊對抗損失用于優(yōu)化生成器與判別器的對抗損失,非對稱三元組損失用于優(yōu)化不同源域的人臉對齊損失,圖10為本文算法在本文所有用的數(shù)據(jù)集上進行訓(xùn)練的損失函數(shù)曲線和曲線下面積的準確率曲線變化圖。從圖中可以看出,兩條曲線隨著訓(xùn)練epoch的增加逐漸收斂,當(dāng)epoch達到200個周期時,損失函數(shù)的下降逐漸收斂,準確率也的提升也逐漸收斂。
圖10 訓(xùn)練損失曲線與準確率曲線Fig.10 Training loss curve and accuracy curve
4.3.1 對比實驗1
本小節(jié)實驗隨機選擇3個數(shù)據(jù)集作為訓(xùn)練的源域,其余一個數(shù)據(jù)集作為目標域進行評估。因此,總共有4 個評估任務(wù):O&C&Ⅰto M、O&M&Ⅰto C、O&C&Mto Ⅰ和Ⅰ&C&M to O,如圖11和表2所示基于四項評估指標,本文算法與幾種具有代表性的傳統(tǒng)人臉防欺騙方法跨域PAD 性能進行比較,如MS-LBP[3]、Binary CNN[6]、ⅠDA[34]、Color Texture[35]、LBPTOP[36]和Auxiliary(Depth)[8],還展示了最新的跨域人臉反欺騙技術(shù)如MADDG[15]、SSDG[16]、ANRL[18]和VLAD-VSA[17]的性能。由圖11和表2可知,本文所提算法在四個數(shù)據(jù)集上的性能指標均表現(xiàn)出較為優(yōu)異的結(jié)果,本文所提算法在O&C&M to Ⅰ實驗下的HTER和AUC評估指標上分別達到了8.57%和96.91%,在Ⅰ&C&M to O實驗下的兩個指標上HTER和AUC評估指標上分別達到了12.58%和93.42%。在HTER與AUC評估指標下與現(xiàn)有跨域人臉活體檢測算法相比,在O&C&M to Ⅰ實驗中,較SSDG方法分別提升了3.14個百分點和0.32個百分點;較ANRL方法分別提升了7.46 個百分點和5.87 個百分點;較VLAD-VSA(R)方法分別略低了0.78 個百分點和0.88個百分點。在O&C&Ⅰto M實驗中,較SSDG方法分別提升了3.74個百分點和2.07個百分點;較ANRL方法分別提升了7.19 個百分點和2.49 個百分點;較VLADVSA(R)方法分別提升了0.65 個百分點和0.99 個百分點。在Ⅰ&C&M to O實驗中,較SSDG方法分別提升了2.76個百分點和1.88個百分點;較ANRL方法分別提升了2.82個百分點和1.52個百分點;較VLAD-VSA(R)方法分別略低了0.21 個百分點和0.58 個百分點。在O&M&Ⅰto C實驗中,較SSDG方法分別提升了1.76個百分點和0.45個百分點;較ANRL方法分別提升了9.17個百分點和7.13個百分點;較VLAD-VSA(R)方法分別提升了0.21個百分點和2.1個百分點。這是因為本文所提算法使用的GⅠR-AFNM 模塊利用分組卷積和倒置殘差塊對特征圖每組通道信息進行細粒度特征的提取,同時,利用自適應(yīng)特征歸一化對不同源域特征信息進行實例歸一化和批量歸一化,從而獲取當(dāng)前源域有益信息且避免過擬合單一源域,同時,改進NetVLAD 網(wǎng)絡(luò),通過通道注意力機制的特點對局部特征進一步關(guān)注圖片關(guān)鍵區(qū)域,提取更加細致的人臉特征,從而使網(wǎng)絡(luò)作了更加精心的篩選。而VLAD-VSA(R)方法采用特征詞匯共享與分離的方法更適合對視頻重發(fā)攻擊類型作聚類。結(jié)果表明,本文算法在源域有限、訓(xùn)練數(shù)據(jù)有限的挑戰(zhàn)情況下,所提出的GⅠR-AFMN 及改進的NetVLAD方法能有效地獲得人臉的特征空間。
表2 跨域人臉活體檢測四項測試任務(wù)的方法比較Table 2 Comparison of methods for four test tasks of cross-domain face liveness detection 單位:%
圖11 跨域人臉活體檢測四項測試任務(wù)的ROC曲線Fig.11 ROC curves of four test tasks for cross-domain face liveness detection
4.3.2 對比實驗2
本小節(jié)實驗在極其有限的源域評估本文算法,只在兩個有限源域作為訓(xùn)練測試跨域人臉活體檢測的魯棒性,選擇MSU-MFSD和Ⅰdiap Replay-attack數(shù)據(jù)集作為訓(xùn)練的源域,選擇CASⅠA-FASD 或OULU-NPU 其中一個作為測試的目標域。
由表3可知,本文所提算法在這種更具挑戰(zhàn)性的情況下性能仍有不錯表現(xiàn),在M&Ⅰto O 實驗下HTER 和AUC 評估指標達到了28.33%和80.31%,在M&Ⅰto C實驗下的HTER 和AUC 評估指標達到了28.57%和74.43%,在M&Ⅰto C實驗下的HTER和AUC評估指標達到了28.57%和74.43%,HTER 和AUC 評估指標分別提升了3個百分點和0.4個百分點,取得了最好的性能,這是因為本文算法在圖片特征提取時可以增強人臉活體區(qū)域,弱化無關(guān)背景區(qū)域,對欺騙攻擊做出一定的識別。同時,使用注意力特征對齊在有限源域的條件下訓(xùn)練,重點關(guān)注不同源域信息,可加速模型收斂,有力地驗證了本文算法在不可見目標域上的泛化性,在M&Ⅰto O 評估指標上,由于目標域數(shù)據(jù)集OULU-NPU 中目標域比訓(xùn)練的兩個源域有更多的視頻,VLAD-VSA(M)詞匯共享與分類的方法更適合對視頻攻擊類型進行遷移,本文算法更適合對圖片攻擊類型進行遷移。
表3 有限源域人臉活體檢測算法比較Table 3 Comparison of algorithms for face liveness detection in limited source domain 單位:%
4.3.3 對比實驗3
本小節(jié)實驗將對本文算法進行消融實驗,與其他深度學(xué)習(xí)經(jīng)典模塊進行比較,具體對比情況如表4 所示,證明了本文算法所提GⅠR-AFNM模塊與改進NetVLAD網(wǎng)絡(luò)在特征提取和局部特征聚合的有效性。為保證對比結(jié)果的準確性和公平性,由表4 可知,本文所提算法生成器與特征聚合網(wǎng)絡(luò)的改進在客觀的評估指標上均有不同程度的提高。本文所提算法生成器中的GⅠRAFMN模塊在O&C&Ⅰto M實驗下的HTER和AUC評估指標達到了3.64%和99.24%,較倒殘差塊分別提升了2.48個百分點和1.35個百分點,在Ⅰ&C&M to O實驗下的HTER 和AUC 評估指標達到了12.85%和93.42%,較倒殘差模塊分別提升了0.31個百分點和0.68個百分點,這是因為本文算法所提GⅠR-AFMN 模塊將特征圖各通道信息分別利用分組卷積和倒置殘差塊提取細粒度特征,采用實例歸一化與批量歸一化相融合的方法對不同源域特征信息歸一化,從而獲取當(dāng)前源域有效信息,在特征聚合網(wǎng)絡(luò)比對實驗部分,本文所改進的NetVlad 模塊在O&C&Ⅰto M 實驗下的HTER 和AUC 評估指標,較NetVlad模塊分別提升了1.54個百分點和0.82個百分點,在Ⅰ&C&M to O實驗下的HTER和AUC評估指標,較NetVlad模塊分別提升了0.82個百分點和0.65個百分點,這是因為改進的NetVLad采用了通道注意力機制模塊,利用其特征權(quán)重采取的思想,從而對局部特征進行權(quán)重再分配,提高不同源域中人臉局部特征的表達能力,實現(xiàn)了更加細化的特征對齊效果。實驗結(jié)果表明,本文出的GⅠR-AFNM模塊與改進NetVLAD網(wǎng)絡(luò)作為模型關(guān)鍵部分,對不同源域的數(shù)據(jù)起到了有效的特征表示作用,有效的增強了模型的泛化能力。
表4 消融實驗結(jié)果Table 4 Results of ablation experiments單位:%
針對數(shù)據(jù)集樣本數(shù)據(jù)分布多樣、人臉欺騙類型復(fù)雜所造成的人臉活體檢測難題,本文提出一種跨域人臉活體檢測算法。其中GⅠR-AFMN 模塊搭建的骨干網(wǎng)絡(luò),該網(wǎng)絡(luò)有效避免單一數(shù)據(jù)集的過擬合,提高了來自不同源域的人臉活體檢測能力;NetVLAD 與通道注意力機制融合模塊,增強局部特征的語義信息,實現(xiàn)特征權(quán)重的再分配,有效提高對不同源域的人臉活體特征的聚類能力。通過在四個國際標準數(shù)據(jù)集上的實驗及對比分析,證明了本文方法的有效性。后續(xù)工作將針對不同假體人臉攻擊的人臉活體檢測及模型的輕量化設(shè)計進一步展開研究,提升本文算法檢測的準確性和速度。