劉 博 王靖亞
隨著人工智能和計(jì)算機(jī)視覺(jué)的快速發(fā)展,人臉識(shí)別已成為一種重要的生物特征識(shí)別技術(shù)。目前一般的人臉識(shí)別方法已經(jīng)取得了優(yōu)異的性能,甚至在一定條件下超越了人類(lèi)①HE K,ZHANG X,REN S,SUN J.Deep Residual Learning for Image Recognition. IEEE Conference on Computer Vision and Pattern Recognition,NJ:IEEE,2016,pp.770-778.②Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks.Communications of the ACM,2017,60(6):84-90.。盡管一般人臉識(shí)別取得了顯著的成功,但由于人臉識(shí)別技術(shù)受個(gè)體年齡、表情、姿態(tài)等多方面因素影響依然面臨著極大的挑戰(zhàn)。2015 年Chen 等③CHEN B C,CHEN C S,HSU W H.Face recognition and retrieval using cross-age reference coding with cross-age celebrity dataset.IEEE Transactions on Multimedia,2015,17(6):804-815.的研究顯示在跨年齡識(shí)別任務(wù)中一般人臉識(shí)別模型的正確率會(huì)降低13% 以上。因此,在尋找長(zhǎng)期失蹤人口、排查潛逃多年的犯罪嫌疑人等實(shí)際應(yīng)用中如何將年齡變化的影響最小化是一個(gè)不可避免的挑戰(zhàn)。跨年齡人臉識(shí)別在以下方面仍然極具挑戰(zhàn)性。首先,在跨年齡人臉識(shí)別中,當(dāng)年齡差距較大時(shí),年齡變化會(huì)主導(dǎo)面部外觀(guān),從而顯著影響人臉識(shí)別性能。其次,目前獲得大規(guī)模的同一身份各個(gè)年齡段均有圖片并且年齡段跨度較大的人臉數(shù)據(jù)集是極其困難的。
為了解決上述問(wèn)題,現(xiàn)有的兩種跨年齡人臉識(shí)別方法是生成模型和判別模型。生成模型①Lanitis A,Taylor C J,Cootes T F.Toward automatic simulation of aging effects on face images,IEEE Transactions on pattern Analysis and machine Intelligence,2002,24(4):442-455.②Park U,Tong Y,Jain A K.Age-invariant face recognition,IEEE transactions on pattern analysis and machine intelligence,2010,32(5):947-954.提出合成不同年齡的人臉圖像來(lái)輔助人臉識(shí)別。一些研究旨在利用強(qiáng)大的基于生成對(duì)抗網(wǎng)絡(luò)③Goodfellow I,Pouget-Abadie J,Mirza M,et al.Generative adversarial nets, Advances in neural information processing systems,2014,27.的模型來(lái)提高生成的老化人臉的質(zhì)量。然而,使用生成模型進(jìn)行人臉識(shí)別通常分為兩步,首先通過(guò)生成模型將人臉建模到某一個(gè)或多個(gè)年齡類(lèi)別,其次通過(guò)面部特征進(jìn)行人臉識(shí)別。因此生成模型無(wú)法以端到端的方式優(yōu)化模型性能,并且準(zhǔn)確地模擬人臉老化過(guò)程也是困難和復(fù)雜的,合成人臉中的額外的噪聲會(huì)嚴(yán)重影響人臉識(shí)別的性能。因此,越來(lái)越多的研究集中于對(duì)判別模型的改進(jìn)。
判別模型主要思想是從混合的人臉信息中剔除年齡相關(guān)特征,提取出年齡不變的身份特征,減小年齡因素對(duì)人臉識(shí)別的影響。早期的方法大多數(shù)使用局部描述符進(jìn)行人臉特征的提取。Ling 等④Ling H,Soatto S,Ramanathan N,et al.Face verification across age progression using discriminative methods, IEEE Transactions on Information Forensics and security,2009,5(1):82-91.結(jié)合梯度方向金字塔(Gradient orientation pyramid,GOP)與支持向量機(jī)(Support vector machine,SVM)提取到年齡不變特征,實(shí)現(xiàn)了對(duì)不同年齡段的人臉驗(yàn)證。Gong 等⑤Gong D,Li Z,Lin D,et al.Hidden factor analysis for age invariant face recognition,Proceedings of the IEEE international conference on computer vision.2013:2872-2879.提出了一種基于隱藏因子分析(Hidden factor analysis,HFA)的年齡不變?nèi)四樧R(shí)別方法。他們將人臉圖像建模為兩個(gè)因子的組合:身份因子和年齡因子。身份因子捕捉人臉的個(gè)體特征,相對(duì)穩(wěn)定;而年齡因子則代表由于年齡變化而引起的差異。通過(guò)矩陣分解這兩個(gè)因子并獲得年齡不變的人臉表征。之后,提出了一種最大熵特征描述符用于年齡不變?nèi)四樧R(shí)別,它具有更高的表達(dá)能力,因此可以產(chǎn)生比傳統(tǒng)特征提取器具有更多區(qū)別信息的表示。Chen 等提出了一種稱(chēng)為跨年齡參考編碼(Cross age reference code,CARC),該方法利用稀疏編碼技術(shù)與參考字典將目標(biāo)人臉圖像編碼為參考樣本的線(xiàn)性組合,從而提取出對(duì)年齡變化不敏感的判別特征。盡管這些方法在一定程度上提高了年齡不變?nèi)四樧R(shí)別的準(zhǔn)確性和魯棒性,但仍然存在一些挑戰(zhàn)和待解決的問(wèn)題。例如,如何處理非線(xiàn)性的年齡變化模式。深度學(xué)習(xí)在學(xué)習(xí)非線(xiàn)性特征映射函數(shù)方面性能優(yōu)越。
其中基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)⑥LeCun Y,Boser B,Denker J,et al.Handwritten digit recognition with a back-propagation network, Advances in neural information processing systems,1989,2.的判別方法在年齡不變?nèi)四樧R(shí)別中取得了較好的結(jié)果。Wen 等⑦Wen Y,Li Z,Qiao Y.Latent factor guided convolutional neural networks for age-invariant face recognition,Proceedings of the IEEE conference on computer vision and pattern recognition.2016:4893-4901.利用潛在因子引導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)(latent factor guided convolutional neuralnetwork,LFCNN)將HFA 擴(kuò)展為深度學(xué)習(xí)框架。Zheng 等⑧Zheng T,Deng W,Hu J.Age estimation guided convolutional neural network for age-invariant face recognition,Proceedings of the IEEE conference on computer vision and pattern recognition workshops.2017:1-9.認(rèn)為可以通過(guò)年齡回歸任務(wù)得到顯性年齡特征,因此提出了年齡估計(jì)任務(wù)引導(dǎo)下的跨年齡人臉識(shí)別模型(AE-CNN)。Wang 等⑨Wang Y,Gong D,Zhou Z,et al.Orthogonal deep features decomposition for age-invariant face recognition,Proceedings of the European conference on computer vision.2018:738-753.認(rèn)為人臉上的年齡特征與身份特征是正交無(wú)關(guān)的,于是提出一種正交嵌入CNN(Orthogonal Embedding Convolutional Neural Network,OE-CNN)模型,該模型將CNN 網(wǎng)絡(luò)提取出來(lái)的人臉特征通過(guò)正交分解的方式分解為年齡特征與身份特征。Wang 等⑩Wang H,Gong D,Li Z,et al.Decorrelated adversarial learning for age-invariant face recognition,Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:3527-3536.提出了去相關(guān)對(duì)抗學(xué)習(xí)(Decorelated Adversarial Learning,DAL),利用對(duì)抗的方式和批典型相關(guān)性分析(BCAA)思想提取出不相關(guān)的年齡特征與身份特征。Lee等①Lee J,Yun J,Park S,et al.Improving face recognition with large age gaps by learning to distinguish children.arXiv preprint arXiv:2110.11630,2021.人提出了一個(gè)原型間損失來(lái)最小化兒童面孔之間的相似性。Hou 等②Hou X,Li Y,Wang S.Disentangled representation for age-invariant face recognition: A mutual information minimization perspective,Proceedings of the IEEE/CVF International Conference on Computer Vision.2021:3692-3701.和Xie 等提出最小化同一個(gè)人的人臉圖像中與身份和年齡相關(guān)的分量之間的相互信息,以減少年齡變化的影響。為保留更多的身份信息,文獻(xiàn)③Z.Huang,J.Zhang and H.Shan,"When Age-Invariant Face Recognition Meets Face Age Synthesis:A Multi-Task Learning Framework and a New Benchmark," in IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.45,no.6,pp.7917-7932,1 June 2023,doi:10.1109/TPAMI.2022.3217882.使用多任務(wù)學(xué)習(xí)框架(Multi-task Learning Framework,MTLF),在高層語(yǔ)義特征空間使用注意力機(jī)制約束分解年齡與身份特征。
年齡的變化不僅體現(xiàn)在面部形態(tài)的變化,還體現(xiàn)在面部的細(xì)節(jié)之處(如鼻唇溝稍加深、面部中間稍后陷)。目前大多數(shù)深度學(xué)習(xí)模型是從高層混合特征中分解出年齡特征,進(jìn)一步使用正交分解或線(xiàn)性分解得到身份特征,但是高層混合特征對(duì)細(xì)節(jié)的感知能力較差,從而導(dǎo)致提取的年齡特征丟失了細(xì)節(jié)信息,進(jìn)一步使身份特征依然含有年齡信息。并且特征解耦時(shí),混合特征是高級(jí)特征具有很高的語(yǔ)義信息,年齡特征與身份特征嚴(yán)重糾纏其中,并不完全呈線(xiàn)性或正交關(guān)系。
基于對(duì)前人工作的分析與總結(jié),本文提出一種新的單網(wǎng)絡(luò)端到端訓(xùn)練的跨年齡人臉識(shí)別模型AM-FPN(Age Mask Feature Pyramid Network)。AM-FPN 主要由特征金字塔提取模塊、掩碼分解模塊和多任務(wù)訓(xùn)練模塊三部分組成。采用特征金字塔網(wǎng)絡(luò)中的上采樣提取混合人臉特征,并在下采樣中加入空間注意力機(jī)制,融合低維和高維特征提取具有多維度年齡信息的年齡特征。通過(guò)本文提出的掩碼分解模塊中掩碼生成器與特征相乘機(jī)制,將提取器所得年齡特征映射到年齡掩碼空間,自動(dòng)學(xué)習(xí)身份特征與年齡特征相關(guān)性。同時(shí)為了提高模型解耦效果,引入年齡估計(jì)損失函數(shù)、身份損失函數(shù)和跨年齡域?qū)褂?xùn)練損失函數(shù)來(lái)提高模型魯棒性。
本文模型主要貢獻(xiàn):1.引入特征金字塔結(jié)構(gòu)同時(shí)提取混合和年齡特征。前人研究成果是使用CNN提取人臉混合特征,之后使用注意力機(jī)制等方式從混合人臉特征中分離年齡特征,這種方式提取的年齡特征缺少對(duì)細(xì)節(jié)的感知。使用特征金字塔結(jié)構(gòu)中的上采樣融合不同層人臉特征圖,增強(qiáng)了所提年齡特征對(duì)細(xì)節(jié)的感知能力。2.提出年齡掩碼分解模塊用于解耦身份特征。前人成果認(rèn)為年齡特征與身份特征成線(xiàn)性或正交關(guān)系,但具體是什么關(guān)系并不確定。掩碼分解模塊會(huì)自動(dòng)學(xué)習(xí)身份特征與年齡特征相關(guān)性。3.與前人成果相比,提高了跨年齡人臉數(shù)據(jù)集上的人臉識(shí)別準(zhǔn)確率。
如圖1 所示,AM-FPN 沿用文獻(xiàn)端到端的網(wǎng)絡(luò)思想,主要由特征金字塔提取模塊、掩碼分解模塊和多任務(wù)訓(xùn)練模塊三部分組成。特征金字塔提取器采用自頂向下的架構(gòu),橫向連接構(gòu)建金字塔特征。與遮擋人臉識(shí)別類(lèi)似,AM-FPN 采用了基于ResNet50 架構(gòu)的LResnet50E-IR 作為骨干網(wǎng)絡(luò)的主體部分,并對(duì)LResnet50E-IR 進(jìn)行改進(jìn),在其橫向連接處添加空間注意力模塊(Spatial Attention,SA),以及在輸出位置添加映射模塊(Map)。掩碼分解模塊是將提取出來(lái)的年齡特征通過(guò)掩碼生成器(Mask Generator)生成年齡掩碼,之后與骨干網(wǎng)絡(luò)提取的混合人臉特征進(jìn)行相乘得到不隨年齡變化的人臉特征。多任務(wù)訓(xùn)練模塊主要使用跨年齡域?qū)褂?xùn)練、年齡估計(jì)任務(wù)和身份識(shí)別任務(wù)來(lái)共同監(jiān)督特征分解。
圖1 整體模型圖
AM-FPN 模型對(duì)混合人臉特征進(jìn)行深度解耦生成年齡不變?nèi)四樚卣?。具體來(lái)說(shuō),將訓(xùn)練數(shù)據(jù)分批量輸入模型,人臉圖像通過(guò)特征金字塔提取器中的下采樣方式,提取出不同層次的混合人臉特征圖(X1、X2、X3)。其次,經(jīng)過(guò)二倍下采樣的X1(C1)與經(jīng)過(guò)一維卷積和空間注意力機(jī)制后的X2 相加得到C2。同樣,將經(jīng)過(guò)二倍下采樣的C2 與經(jīng)過(guò)一維卷積和空間注意力機(jī)制后的X3 相加得到C3。然后,將提取出的年齡特征圖通過(guò)映射模塊映射到混合人臉特征空間。之后,使用掩碼生成器去除共有特征生成年齡掩碼,將掩碼與混合人臉特征圖相乘,從而剔除年齡信息得到不隨年齡變化的身份特征圖。之后,不隨年齡變化的身份特征圖經(jīng)過(guò)多層感知機(jī)生成身份特征向量。使用身份特征向量進(jìn)行損失函數(shù)計(jì)算以及反向傳播更新模型參數(shù)。身份特征向量就是模型解耦得到的年齡不變?nèi)四樚卣?,將梯度反轉(zhuǎn)層(GRL①Ganin Y,Ustinova E,Ajakan H,et al.Domain-adversarial training of neural networks.The journal of machine learning research,2016,17(1):2096-2030.)融入多任務(wù)訓(xùn)練策略是為了進(jìn)一步提高模型解耦效果。
在傳統(tǒng)的CNN 中,隨著網(wǎng)絡(luò)的層數(shù)增加,特征圖的分辨率逐漸減小,而感受野逐漸增大,這導(dǎo)致網(wǎng)絡(luò)對(duì)于細(xì)節(jié)的感知能力下降。如圖2 所示,F(xiàn)PN 通過(guò)在網(wǎng)絡(luò)中添加橫向連接來(lái)構(gòu)建特征金字塔。具體而言,它在網(wǎng)絡(luò)的上層和下層之間添加了額外的連接,使得上層的粗粒度特征可以通過(guò)這些連接傳遞到下層。因此網(wǎng)絡(luò)就能夠同時(shí)獲取高層和低層的特征信息,從而在不同尺度上實(shí)現(xiàn)更好的感知能力。為了增強(qiáng)年齡提取模塊對(duì)年齡特征的感知能力,對(duì)FPN 網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),在其橫向連接處引入SA 模塊。SA 模塊運(yùn)用空間注意力機(jī)制建模卷積特征空間的相互依賴(lài)性來(lái)提高網(wǎng)絡(luò)的特征提取能力。在特征空間進(jìn)行校準(zhǔn)的機(jī)制,使網(wǎng)絡(luò)從全局信息出發(fā)來(lái)提升有價(jià)值的特征并且抑制對(duì)任務(wù)無(wú)用的特征。
圖2 改進(jìn)后的特征金字塔提取器
特征金字塔提取的年齡特征圖大小為28×28×256,但是混合人臉特征大小為7×7×512。因?yàn)槟挲g特征與混合特征需要在相同大小的特征空間中進(jìn)行掩碼分解,所以使用Map 模塊將年齡特征映射到與混合人臉特征相同大小的特征空間中。Map 模塊是由兩個(gè)3×3 卷積層、PReLU 和BN 層共同組成。
由于混合的面部表征嚴(yán)重糾纏于面部形狀和紋理變化等不相關(guān)信息,這些信息會(huì)引發(fā)較大的類(lèi)內(nèi)變化,導(dǎo)致對(duì)同一個(gè)體不同年齡的一對(duì)面孔識(shí)別錯(cuò)誤。所以由改進(jìn)后的LResnet50E-IR 提取的人臉特征可以看作身份特征和年齡特征共同糾纏的混合特征。目前一般使用線(xiàn)性組合或正交的方式模擬年齡與身份的關(guān)系,但這兩種方法在處理高級(jí)語(yǔ)義特征時(shí)過(guò)于簡(jiǎn)單粗暴,難免會(huì)導(dǎo)致年齡信息并不能完全剝離。受遮擋人臉識(shí)別的啟發(fā),本文提出了一種年齡掩碼的方式對(duì)身份特征和年齡特征進(jìn)行建模,我們將掩碼分解定義為:
其中xid和xage分別表示身份特征與年齡特征,x表示人臉混合特征,·表示逐特征相與,f表示掩碼函數(shù)。本文設(shè)計(jì)了類(lèi)似于注意力機(jī)制的年齡掩碼分解模塊實(shí)現(xiàn)將年齡特征從混合特征中剝離。其表達(dá)式為:
其中R是特征映射函數(shù),S是sigmod函數(shù)。當(dāng)S(xage)等于特定值時(shí),掩碼分解模塊將會(huì)學(xué)到復(fù)雜組合,所以掩碼分解模式可以學(xué)到線(xiàn)性模式、正交模式和其他復(fù)雜模式。從模型角度來(lái)說(shuō),首先將融合了各特征層信息的X3通過(guò)映射函數(shù)R獲得與混合特征相同特征空間的高級(jí)語(yǔ)義年齡特征,之后經(jīng)過(guò)掩碼器M生成年齡掩碼與混合人臉特征逐特征相乘,獲得不含年齡信息的身份特征。
本文使用年齡估計(jì)任務(wù)、人臉識(shí)別任務(wù)和跨年齡域?qū)褂?xùn)練來(lái)監(jiān)督特征分解。為了挖掘年齡特征,本文遵循文獻(xiàn)①Z.Huang,J.Zhang and H.Shan,"When Age-Invariant Face Recognition Meets Face Age Synthesis:A Multi-Task Learning Framework and a New Benchmark," in IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.45,no.6,pp.7917-7932,1 June 2023,doi:10.1109/TPAMI.2022.3217882.對(duì)年齡分組的做法,將年齡按照10 年為一間隔劃分為7 個(gè)年齡組。年齡估計(jì)網(wǎng)絡(luò)具有512 和101 個(gè)神經(jīng)元的兩個(gè)線(xiàn)性層,用于實(shí)現(xiàn)類(lèi)似于(DEX)的年齡回歸,通過(guò)計(jì)算softmax 期望值來(lái)學(xué)習(xí)年齡分布。其次在年齡估計(jì)網(wǎng)絡(luò)上附加另一個(gè)線(xiàn)性層,使用交叉熵?fù)p失進(jìn)行年齡分類(lèi),對(duì)學(xué)習(xí)分布正則化。年齡損失可表示為,真實(shí)年齡標(biāo)簽與年齡回歸預(yù)測(cè)標(biāo)簽的交叉熵?fù)p失加上真實(shí)年齡組與年齡估計(jì)網(wǎng)絡(luò)的交叉熵?fù)p失。
對(duì)于身份特征的學(xué)習(xí),本文使用線(xiàn)性層l提取長(zhǎng)度為512 的特征向量xid,并采用CosFace②Wang H,Wang Y,Zhou Z,et al.Cosface: Large margin cosine loss for deep face recognition,Proceedings of the IEEE conference on computer vision and pattern recognition.2018:5265-5274.損失函數(shù)增大類(lèi)間距離,減小類(lèi)內(nèi)距離,監(jiān)督xid地學(xué)習(xí)以進(jìn)行身份分類(lèi)。身份識(shí)別損失函數(shù)可表示為,512特征向量與真實(shí)身份標(biāo)簽的交叉熵?fù)p失。
其次引入跨年齡域?qū)箤W(xué)習(xí),通過(guò)使用梯度反轉(zhuǎn)層(GRL)的連續(xù)域適應(yīng),提升xid的年齡不變性。綜上所述,年齡不變?nèi)四樧R(shí)別在多任務(wù)學(xué)習(xí)框架下的最終損失為:
Lid為身份損失,λage為年齡損失系數(shù),Lae為年齡損失函數(shù),λid為梯度反轉(zhuǎn)層損失系數(shù)。與其他文獻(xiàn)不同的是,公式(3)中的第二項(xiàng)與第三項(xiàng)使用相同的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)進(jìn)行共同訓(xùn)練。經(jīng)實(shí)驗(yàn)此方式可以在減少訓(xùn)練參數(shù)的同時(shí)保證具有相同的模型訓(xùn)練效果。
實(shí)驗(yàn)用到的數(shù)據(jù)集如表1 所示。為了與目前先進(jìn)的算法進(jìn)行公平比較,先擇SCAF①Huang Z,Zhang J,Shan H.When age-invariant face recognition meets face age synthesis: A multi-task learning framework,Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.2021:7282-7291.為訓(xùn)練數(shù)據(jù)集,包含約為 50 萬(wàn)張圖像及 12000 個(gè)不同身份。測(cè)試集包括一個(gè)人臉識(shí)別數(shù)據(jù)集(FG-NET(https://yanweifu.github.io/FG_NET_data)),兩個(gè)人臉驗(yàn)證集(CALFW②Zheng T,Deng W,Hu J.Cross-age lfw: A database for studying cross-age face recognition in unconstrained environments.arXiv preprint arXiv:1708.08197,2017.和ECAF③Z.Huang,J.Zhang and H.Shan,"When Age-Invariant Face Recognition Meets Face Age Synthesis:A Multi-Task Learning Framework and a New Benchmark," in IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.45,no.6,pp.7917-7932,1 June 2023,doi:10.1109/TPAMI.2022.3217882.)。CALFW數(shù)據(jù)集平均年齡差距為17.6 歲,在其中挑選6000 對(duì)圖像,包括3000 對(duì)具有年齡間隔的相同個(gè)體作為正樣本對(duì)和3000 對(duì)不同個(gè)體作為負(fù)樣本對(duì)。ECAF 數(shù)據(jù)集平均年齡差距為41.3 歲,在其中分別選取6000 對(duì)和4000 對(duì)人臉圖像,用于評(píng)估(Adult,Child)和(Child,Child)兩個(gè)任務(wù)。
表1 數(shù)據(jù)集
如圖3 所示,使用MTCNN④Zhang K,Zhang Z,Li Z,et al.Joint face detection and alignment using multitask cascaded convolutional networks. IEEE signal processing letters,2016,23(10):1499-1503.(Multitask cascaded convolutional neural network)檢測(cè)面部5 個(gè)關(guān)鍵點(diǎn)進(jìn)行人臉檢測(cè)與對(duì)齊,并將圖像裁剪為112×112 像素。
圖3 圖像處理
將SCAF 數(shù)據(jù)集按年齡分為7 個(gè)不重疊的年齡組0-10、11-20、21-30、31-40、41-50、51-60 和60+,根據(jù)年齡分組和年齡標(biāo)簽進(jìn)行年齡估計(jì)任務(wù)。為了避免過(guò)擬合,訓(xùn)練時(shí)對(duì)圖像進(jìn)行隨機(jī)翻轉(zhuǎn)的操作,隨后將圖像歸一化到[-1,1]區(qū)間。實(shí)驗(yàn)細(xì)節(jié):直接采用文獻(xiàn)⑤Wang H,Wang Y,Zhou Z,et al.Cosface: Large margin cosine loss for deep face recognition,Proceedings of the IEEE conference on computer vision and pattern recognition.2018:5265-5274.中對(duì)人臉識(shí)別損失CosFace 的參數(shù)設(shè)置(s=64,m=0.35),λage和λid分別設(shè)置為0.01 和0.001,訓(xùn)練批量大小為256,迭代次數(shù)為40000 次,動(dòng)量因子為0.9,訓(xùn)練開(kāi)始時(shí)學(xué)習(xí)率從0 到0.1 線(xiàn)性升溫,迭代2000、20000、24000 次時(shí),學(xué)習(xí)率以0.1 的倍數(shù)降低,使用隨機(jī)梯度下降(Stochastic gradient d-escent,SGD)算法進(jìn)行優(yōu)化,使用一塊GPU(V100-SXM2-32GB)進(jìn)行加速訓(xùn)練。實(shí)驗(yàn)環(huán)境:Python3,Pytorch1.8.1 框架進(jìn)行訓(xùn)練,顯卡為V100-SXM2-32GB。
1.FGNET 數(shù)據(jù)集人臉識(shí)別結(jié)果。FG-NET 是跨年齡人臉識(shí)別中最受歡迎和最具挑戰(zhàn)性的數(shù)據(jù)集,包括在野外收集的82 名受試者的1002 張面部圖像,從兒童到老人的年齡跨度較大。為了公平比較,我們嚴(yán)格遵循文獻(xiàn)⑥Wang H,Gong D,Li Z,et al.Decorrelated adversarial learning for age-invariant face recognition,Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:3527-3536.中的留一法(leave-one-out)評(píng)估方式。
具體來(lái)說(shuō),模型在SCAF 上進(jìn)行了訓(xùn)練,之后選取1 幅圖片作為測(cè)試樣本,1001 幅圖片作為樣本庫(kù),將測(cè)試樣本與樣本庫(kù)中所有樣本進(jìn)行余弦距離比較,距離從小到大進(jìn)行排序,若距離最近的樣本對(duì)身份相同,則為Rank-1 識(shí)別準(zhǔn)確。重復(fù)此過(guò)程1002 次。表2 報(bào)告了Rank-1 識(shí)別率,可以看出AM-CNN與最先進(jìn)的MTLFace 相比有小幅度提升。
式(3)中的超參數(shù)λage和λid變化會(huì)影響模型性能,為了探求合理的λ取值,在FG-NET 數(shù)據(jù)集上設(shè)置了以下幾組實(shí)驗(yàn)。由表3 可知,λage值的變化對(duì)模型識(shí)別效果影響較大,λid值的變化對(duì)模型識(shí)別效果影響相對(duì)較小。當(dāng)λage值較小時(shí)年齡估計(jì)任務(wù)重要性較低,會(huì)導(dǎo)致年齡特征提取不充分,使模型識(shí)別效果降低。相反λage值較大時(shí)年齡估計(jì)任務(wù)重要性相對(duì)較高,會(huì)引入一些不相關(guān)噪聲,也會(huì)使模型識(shí)別效果降低。同理λid值的變化也會(huì)有相應(yīng)的效果。經(jīng)過(guò)實(shí)驗(yàn),確定λage為0.01,λid為0.001時(shí)模型在FG-NET 數(shù)據(jù)集上的Rank-1 識(shí)別率最高。
2.人臉驗(yàn)證數(shù)據(jù)集結(jié)果。為了與之前跨年齡人臉識(shí)別模型進(jìn)行公平比較,使用相同數(shù)據(jù)規(guī)模的SCAF 數(shù)據(jù)集進(jìn)行模型訓(xùn)練,并在公開(kāi)的大年齡間隔數(shù)據(jù)集CALFW、ECAF 上進(jìn)行模型測(cè)試。測(cè)試結(jié)果如表4 和表5 所示,AM-CNN 超過(guò)了之前關(guān)于A(yíng)IFR 的研究成果。AM-CNN 的識(shí)別準(zhǔn)確率比最先進(jìn)的MTLFace 方法在CALFW 數(shù)據(jù)上高了0.13%,在ECAF(Adult,Child)數(shù)據(jù)集上高了0.65%,在ECAF(Adult,Child)數(shù)據(jù)集上低了0.11%。在ECAF 數(shù)據(jù)集上最先進(jìn)的MTLFace 是在SCAF 數(shù)據(jù)集端到端訓(xùn)練后,使用生成的圖像進(jìn)行微調(diào)所得到的結(jié)果。然而,本文所得到的結(jié)果均是在SCAF 數(shù)據(jù)集上一次性端到端的訓(xùn)練結(jié)果,并未使用其他的數(shù)據(jù)集或者生成數(shù)據(jù)進(jìn)行微調(diào)。由此進(jìn)一步說(shuō)明AM-FPN 效果具有顯著的優(yōu)越性。
表4 和表5 僅僅展示了模型之間的準(zhǔn)確率差異,為了更好地分析模型的性能,使用受試者工作特性曲線(xiàn)(receiver operating characteristic curve,ROC)對(duì)AM-FPN 和最先進(jìn)的MTLFace 進(jìn)行更為全面的對(duì)比。ROC 曲線(xiàn)可以評(píng)價(jià)模型對(duì)兩類(lèi)測(cè)試者(正樣本對(duì)和負(fù)樣本對(duì))分類(lèi)的效果,ROC 曲線(xiàn)下面積越大模型分類(lèi)效果越好。
使用與AM-FPN 相同的實(shí)驗(yàn)環(huán)境對(duì)MTLFace 進(jìn)行復(fù)現(xiàn)得到不同驗(yàn)證任務(wù)下的相應(yīng)ROC 曲線(xiàn)。ROC 曲線(xiàn)下面積越大,模型整體效果越好。圖4(a)是兩個(gè)模型在CALFW 數(shù)據(jù)集上的表現(xiàn),AM-FPN與MTLFace 所得ROC 曲線(xiàn)下面積差距較小,因此兩個(gè)模型在此數(shù)據(jù)集上分類(lèi)效果不相上下。圖4(b)中AM-FPN 所得ROC 曲線(xiàn)下面積遠(yuǎn)超過(guò)MTLFace 所得ROC 曲線(xiàn)下面積,所以在此數(shù)據(jù)集上AM-FPN分類(lèi)效果優(yōu)于MTLFace。同樣,在圖4(c)中AM-FPN 所得ROC 曲線(xiàn)下面積略超過(guò)MTLFace 所得ROC曲線(xiàn)下面積,所以在此數(shù)據(jù)集上AM-FPN 分類(lèi)效果略?xún)?yōu)于MTLFace。綜上所述,AM-FPN 綜合分類(lèi)效果要優(yōu)于MTLFace。
圖4 各數(shù)據(jù)集ROC 曲線(xiàn)對(duì)比圖
圖5 展示了AM-FPN 在各個(gè)數(shù)據(jù)庫(kù)任務(wù)上識(shí)別結(jié)果示意圖。正正表示模型識(shí)別圖像對(duì)為相同身份,真實(shí)標(biāo)簽也是相同身份;正負(fù)表示模型識(shí)別圖像對(duì)為相同身份,真實(shí)標(biāo)簽是不同身份;負(fù)負(fù)表示模型識(shí)別圖像對(duì)為不同身份,真實(shí)標(biāo)簽也是不同身份;負(fù)正表示模型識(shí)別圖像對(duì)為不同身份,真實(shí)標(biāo)簽是相同身份。由圖5 可知,各個(gè)數(shù)據(jù)集中的圖像對(duì)有灰色圖和彩色圖,其中正正和負(fù)負(fù)是模型識(shí)別正確的圖像對(duì),正負(fù)和負(fù)正是模型識(shí)別錯(cuò)誤的圖像對(duì)。在正負(fù)圖像對(duì)中,兩張圖像有明顯的相似之處。在負(fù)正圖像對(duì)中,兩張圖像由人為識(shí)別也是比較困難的??傮w來(lái)看,模型可以正確識(shí)別灰色和彩色圖對(duì),但模型識(shí)別正確的圖像對(duì)大多數(shù)為相同通道數(shù),相反模型識(shí)別錯(cuò)誤的圖像對(duì)有一部分是不同通道數(shù),并且有些圖像清晰度太差。由此可知,圖像的色彩和清晰度可以在一定程度上影響模型的識(shí)別。
圖5 識(shí)別結(jié)果示意圖
3.消融實(shí)驗(yàn)。為了進(jìn)一步研究不同模塊的效果,在三個(gè)數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。(1)基線(xiàn):去除除CosFace 損失外的所有額外模塊,訓(xùn)練人臉識(shí)別模型。(2)基線(xiàn)+年齡:在基線(xiàn)的基礎(chǔ)上增加年齡估計(jì)任務(wù),并通過(guò)多任務(wù)聯(lián)合訓(xùn)練的方式訓(xùn)練模型。(3)基線(xiàn)+年齡+GRL:在基線(xiàn)和年齡估計(jì)任務(wù)的基礎(chǔ)上增加GRL,并通過(guò)多任務(wù)聯(lián)合訓(xùn)練的方式訓(xùn)練模型。(4)基線(xiàn)+年齡+GRL+CBAM:在年齡估計(jì)任務(wù)、身份識(shí)別任務(wù)和GRL 的基礎(chǔ)上,在FPN 橫向連接處加入CBAM 注意力模塊。(5)基線(xiàn)+年齡+CA:將CBAM 注意力模塊換成CA 通道注意力模塊。(6)AM-FPN:本文提出的模型,使用SA空間注意力模塊增強(qiáng)年齡特征的提取性能。
由圖6 可知,與基線(xiàn)模型相比基線(xiàn)+年齡模型性能顯著提升,從而證明掩碼分解模塊在跨年齡數(shù)據(jù)集上實(shí)現(xiàn)了顯著的性能改進(jìn)。其次特征提取器在年齡特征提取時(shí),融合了多層年齡特征信息。AM-FPN 采用CA 注意力機(jī)制進(jìn)一步加強(qiáng)特征提取能力,與其他注意力模塊(CBAM 和CA)相比實(shí)現(xiàn)了顯著的性能提升,這也從側(cè)面體現(xiàn)出在低維特征圖中,年齡信息與空間信息聯(lián)系更為密切。此外,使用跨年齡領(lǐng)域?qū)褂?xùn)練也可以使模型性能得到進(jìn)一步的提升。
圖6 不同模塊消融實(shí)驗(yàn)
圖7 展示了掩碼分解模塊與先前所提出的分解模塊性能比較。具體來(lái)說(shuō),模型采用相同的FPN 骨干網(wǎng)絡(luò)分別與正交分解、線(xiàn)性分解和掩碼分解組合,使用SCAF 數(shù)據(jù)集訓(xùn)練之后,在三個(gè)驗(yàn)證集上做公平比較。由圖可知,AM-FPN 中的掩碼分解模塊效果優(yōu)于先前所提的分解模塊效果。
圖7 不同分解方式
為了實(shí)現(xiàn)跨年齡人臉識(shí)別,在MTLFace 結(jié)構(gòu)基礎(chǔ)上,采用改進(jìn)的基于特征金字塔的特征提取器,并使用新提出的一種掩碼分解模塊,使用多任務(wù)訓(xùn)練策略,獲得了一種基于年齡掩碼的跨年齡人臉識(shí)別模型(AM-FPN)。該模型對(duì)FPN 網(wǎng)絡(luò)進(jìn)行改進(jìn),使其可以提取混合人臉特征,并且可以適應(yīng)性地融合不同層特征信息提取到更為細(xì)致的年齡特征信息。使用掩碼分解模塊從混合人臉特征中除去所提取到的年齡特征比以往所提出的分解方式效果更好。最后使用多任務(wù)訓(xùn)練策略監(jiān)督特征分解,加快模型的收斂速度。在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明AM-FPN 可以顯著提升跨年齡人臉識(shí)別準(zhǔn)確率。此外,AM-FPN 可以將年齡特征更改為姿態(tài)和表情等其他因素,從而擴(kuò)展到其他類(lèi)似解耦不充分的實(shí)例。