摘要:針對(duì)人臉遮擋產(chǎn)生面部結(jié)構(gòu)信息丟失,從而導(dǎo)致人臉識(shí)別準(zhǔn)確率降低的問題,提出了一種細(xì)粒度深度特征掩碼估計(jì)的遮擋人臉識(shí)別算法。首先,將人臉圖像輸入特征金字塔網(wǎng)絡(luò)中,從而得到多尺度深度語義特征;其次,將從特征金字塔網(wǎng)絡(luò)提取的特征經(jīng)過空洞卷積處理后,與MobileNetV3網(wǎng)絡(luò)提取的精細(xì)淺層特征進(jìn)行融合,并以像素級(jí)二值掩碼為標(biāo)簽訓(xùn)練網(wǎng)絡(luò)以獲得細(xì)粒度特征掩碼;進(jìn)而,利用該深度特征掩碼與深層特征相乘,以抑制由遮擋產(chǎn)生的干擾特征,獲得更準(zhǔn)確的人臉表征;最后,采用余弦損失和掩碼估計(jì)損失聯(lián)合訓(xùn)練網(wǎng)絡(luò),提高遮擋人臉識(shí)別算法的性能。在LFW數(shù)據(jù)集基礎(chǔ)上創(chuàng)建了口罩、圍巾和中心遮擋3種類型的人臉遮擋數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果表明:在不同的數(shù)據(jù)集上,所提算法與現(xiàn)有算法相比均具有更高的識(shí)別準(zhǔn)確率,并在不同類型遮擋情況下均能獲得十分穩(wěn)定的人臉識(shí)別結(jié)果;所提算法在數(shù)據(jù)集LFW和LFW口罩遮擋上的識(shí)別準(zhǔn)確率分別達(dá)到了99.38%和98.42%,在數(shù)據(jù)集LFW圍巾遮擋和LFW中心遮擋上的識(shí)別準(zhǔn)確率分別達(dá)到了98.72%和98.65%,均優(yōu)于對(duì)比算法。
關(guān)鍵詞:人臉識(shí)別;細(xì)粒度;掩碼估計(jì);遮擋;特征掩碼
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A
DOI:10.7652/xjtuxb202502017 文章編號(hào):0253-987X(2025)02-0170-10
Occluded Face Recognition Algorithm Based on Fine-Grained Deep Feature Mask Estimation
WANG Fuping, WANG Dingsha, LI Ou, LIU Weihua, LIU Hongwei
(School of Communication and Information Engineering, Xi’an University of Posts amp; Telecommunications, Xi’an 710121, China)
Abstract:To solve the problem of accuracy decrease in facial recognition caused by the loss of facial structural information in the case of facial occlusion, an occluded face recognition algorithm based on fine-grained deep feature mask estimation was proposed. Firstly, the face image was fed into feature pyramid network (FPN) to obtain multi-scale deep semantic features. Next, the features extracted from the FPN were processed by the atrous convolution and fused with shallow features extracted using MobileNetV3; a pixel-wise binary mask was used as label to train the network to obtain the fine-grained deep feature mask; this deep feature mask was multiplied with the deep features to suppress the corrupted feature produced by occlusion and to obtain the better face representation. Finally, CosFace loss and mask estimation loss were jointly used to train the network to improve the performance of occluded face recognition algorithm. Three face occlusion datasets with mask, scarf, and center occlusion were created based on the LFW dataset, respectively. The experimental results show that on four different datasets, the proposed algorithm was more accurate than existing algorithms and obtained very stable face recognition results under different occlusion situations. The recognition accuracy on LFW and LFW-mask-occlusion datasets reached 99.38% and 98.42%, respectively and that on LFW-scarf-occlusion and LFW-center-occlusion datasets reached 98.72% and 98.65%, respectively, outperforming the algorithms compared.
Keywords:face recognition; fine-grained; mask estimation; occluded; feature mask
人臉識(shí)別技術(shù)在多個(gè)領(lǐng)域得到廣泛應(yīng)用,如公安刑偵、公共安全、自動(dòng)駕駛等[1-4]。同時(shí),基于深度卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別技術(shù)在非遮擋人臉識(shí)別方向取得十分顯著的效果。然而,在日常生活當(dāng)中,人們常常會(huì)配戴墨鏡、帽子、圍巾、口罩等遮擋物,這些遮擋物導(dǎo)致了人臉圖像中的關(guān)鍵特征丟失,從而嚴(yán)重影響了人臉識(shí)別的準(zhǔn)確性[5]。
目前,遮擋人臉識(shí)別方法主要分為兩大類:傳統(tǒng)的人臉識(shí)別和基于深度學(xué)習(xí)的人臉識(shí)別方法。以下兩類經(jīng)典算法為傳統(tǒng)的人臉識(shí)別算法:Wright 等[6]較早提出了稀疏表示分類模型,并將其應(yīng)用于人臉識(shí)別領(lǐng)域,該算法將人臉圖像表示為稀疏線性組合,并且能夠在識(shí)別過程中對(duì)噪聲表現(xiàn)出較強(qiáng)的魯棒性,但人臉圖像中的遮擋部分往往表現(xiàn)出不規(guī)則且隨機(jī)的特征,使得部分算法容易忽略圖像遮擋區(qū)域的誤差分布;Zhou 等[7]提出了馬爾可夫隨機(jī)場模型,這種方法可以有效地識(shí)別出遮擋區(qū)域,并將其排除在稀疏表示之外。
隨著人們對(duì)深度學(xué)習(xí)的不斷探索和研究,提出了基于深度學(xué)習(xí)的人臉識(shí)別方法,這些方法主要分為兩類:基于遮擋區(qū)域恢復(fù)和基于遮擋區(qū)域抑制的人臉識(shí)別方法[8]。
基于遮擋區(qū)域恢復(fù)的人臉識(shí)別方法是通過恢復(fù)被遮擋的人臉部分來提升人臉識(shí)別性能。此類方法的核心在于提出一種高質(zhì)量的遮擋人臉圖像修復(fù)算法。Chen 等[9]提出了一種基于生成對(duì)抗網(wǎng)絡(luò)的遮擋人臉識(shí)別模型,該模型通過利用在無遮擋圖像上預(yù)訓(xùn)練的生成對(duì)抗網(wǎng)絡(luò),自動(dòng)檢測遮擋區(qū)域,進(jìn)而修復(fù)出該區(qū)域的人臉圖像像素,但由于生成對(duì)抗網(wǎng)絡(luò)生成的結(jié)果的不確定性,導(dǎo)致仍會(huì)出現(xiàn)錯(cuò)誤識(shí)別。為了解決人臉遮擋識(shí)別準(zhǔn)確率較低的問題,Zhao 等[10]提出了魯棒長短期記憶網(wǎng)絡(luò)自編碼模型,即使在野外遮擋情況下,仍然可以有效識(shí)別出人物身份,但該模型長短期記憶網(wǎng)絡(luò)計(jì)算復(fù)雜度高,并需要大量的數(shù)據(jù)集進(jìn)行訓(xùn)練。
基于遮擋區(qū)域抑制的人臉識(shí)別算法通過抑制遮擋區(qū)域的干擾特征,利用不含干擾區(qū)域的特征進(jìn)行識(shí)別[8]。Song 等[11]提出了成對(duì)微分孿生網(wǎng)絡(luò)(pairwise differential siamese network, PDSN)。該網(wǎng)絡(luò)通過利用有干擾和無干擾人臉對(duì)特征之間的差異生成掩碼字典,利用該字典生成遮擋部分的特征丟棄掩碼,從而去除遮擋區(qū)域?qū)θ四槇D像特征的干擾。但是,由于需要訓(xùn)練K2個(gè)掩碼生成模型,導(dǎo)致模型的計(jì)算量較大。Qiu 等[12]提出了一種基于端到端深度神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別方法(face recognition with occlusion masks, FROM),該方法利用解碼器從圖像金字塔特征中提取遮擋區(qū)域的掩碼信息,使其與深度卷積特征相乘以去除遮擋區(qū)域的干擾特征,從而獲得更高的準(zhǔn)確率。但是,由于該模型預(yù)測出的特征掩碼均為矩形區(qū)域,使得在預(yù)測過程中無法準(zhǔn)確識(shí)別出所有的掩碼特征,同時(shí),難以適應(yīng)任意形狀的隨機(jī)遮擋。Hao 等[13]提出了人臉特征修正網(wǎng)絡(luò)(face feature rectification network, FFR-Net),該網(wǎng)絡(luò)通過引入修正模塊,對(duì)提取的人臉特征進(jìn)行處理,從而提高在有遮擋和無遮擋條件下人臉圖像的識(shí)別性能。
上述算法預(yù)測出的特征掩碼均為矩形或塊狀區(qū)域,無法準(zhǔn)確描述遮擋邊界區(qū)域。針對(duì)上述問題,本文算法采用遮擋區(qū)域抑制的方法進(jìn)行人臉識(shí)別,提出了細(xì)粒度深度特征掩碼估計(jì)的遮擋人臉識(shí)別算法。與此同時(shí),本文所提出的算法在保證識(shí)別準(zhǔn)確率高的前提下,降低了參數(shù)規(guī)模,并提高了運(yùn)行速率。本文主要貢獻(xiàn)如下:
(1)提出了掩碼估計(jì)模塊(mask estimation module, MEM),通過對(duì)深層特征和淺層特征進(jìn)行融合,并以像素級(jí)二值掩碼為監(jiān)督,可以更準(zhǔn)確地估計(jì)特征掩碼,從而進(jìn)一步提高了遮擋人臉識(shí)別算法的識(shí)別準(zhǔn)確率;
(2)采用了融合余弦損失(CosFace Loss)函數(shù)[14]與掩碼估計(jì)損失函數(shù)的聯(lián)合損失函數(shù),其中掩碼估計(jì)損失函數(shù)通過遮擋區(qū)域的特征掩碼預(yù)測與真實(shí)分割圖之間相似性,保證提取更精確的特征掩碼,有助于提高遮擋人臉識(shí)別網(wǎng)絡(luò)的性能。
1 細(xì)粒度深度特征掩碼估計(jì)的遮擋人臉識(shí)別算法
為了解決遮擋人臉圖像識(shí)別精確度不高的問題,構(gòu)建了一個(gè)細(xì)粒度深度特征掩碼估計(jì)的遮擋人臉識(shí)別算法。該算法通過特征提取模塊(feature extraction module,F(xiàn)EM)生成人臉圖像的多尺度深度語義特征,進(jìn)而利用掩碼深層語義特征(mask deep semantic feature,MDSF)增強(qiáng)特征來生成深層特征xdeep。同時(shí),將原圖輸入輕量級(jí)且性能高效的MobileNetV3 網(wǎng)絡(luò),提取淺層特征xlow,并與深層特征xdeep進(jìn)行融合,并以像素級(jí)二值掩碼為監(jiān)督得到精確的掩碼xcls。最終,將其與FEM模塊中的深層特征x3相乘,從而抑制遮擋情況下產(chǎn)生的干擾特征。最后,利用得到的有效特征進(jìn)行人臉識(shí)別。
1.1 特征提取模塊
特征提取模塊采用特征金字塔來進(jìn)行多尺度的特征提取。該模塊采用自頂向下和橫向連接的結(jié)構(gòu),并以 LResnet50E-IR 作為主干網(wǎng)絡(luò)[15],分別得到融合深層和淺層的融合特征x1和深層特征x3。特征提取模塊能夠提取不同尺度下的深度特征,從而更好地適應(yīng)不同尺寸目標(biāo)的識(shí)別需求。
圖1為特征提取模塊原理。利用特征提取模塊處理隨機(jī)遮擋的人臉圖像后,可以從淺層到深層逐步提取特征,生成3種不同尺度的原始特征C1、C2、C3。進(jìn)而,采用逐級(jí)向淺層融合的策略,得到3種尺度下的融合特征x3、x2、x1,融合特征的表達(dá)式如下
x3=Conv3×3(Conv1×1(C3))(1)
x2=Conv3×3(Conv1×1(C2)+Upsample(x3)) (2)
x1=Conv3×3(Conv1×1(C1)+Upsample(x2)) (3)
式中:Conv1×1為1×1卷積處理;Conv3×3為3×3卷積處理;Upsample為上采樣處理。
由于不同尺度特征的尺寸不同,為此采用最鄰近插值法對(duì)不同層特征進(jìn)行上采樣,以保持相鄰層特征的尺寸一致,并通過 1×1 卷積調(diào)整通道數(shù)。這一流程展示了多層次的特征提取和融合過程,確保了最終人臉特征包含多尺度信息。
1.2 掩碼估計(jì)模塊
掩碼估計(jì)模塊由掩碼深層語義特征提取、MobileNetV3 網(wǎng)絡(luò)淺層特征提取和掩碼特征融合3部分組成。掩碼深度語義層包含4個(gè)不同膨脹率(R)的空洞卷積層和1個(gè)全局池化層。這些空洞卷積具體為R為1的1×1卷積、R為6的3×3卷積、R為12的3×3卷積、R為18的3×3卷積。空洞卷積通過增大感受野,可實(shí)現(xiàn)對(duì)大面積遮擋區(qū)域的掩碼估計(jì)。相較于傳統(tǒng)卷積而言,空洞卷積可以通過增大感受野來提高信息融合能力,有助于分割掩碼的同時(shí)保持區(qū)域邊緣細(xì)節(jié)。掩碼深層語義特征模塊原理如圖2所示,其中xconcat為拼接后得到的拼接特征,xConv為通過1×1卷積調(diào)整通道數(shù)后得到的中間特征。
為了減少網(wǎng)絡(luò)參數(shù)提高網(wǎng)絡(luò)推理效率,在掩碼深層語義特征和 MobileNetV3 網(wǎng)絡(luò)淺層特征提取過程中都使用了深度可分離卷積,其將傳統(tǒng)卷積分解為兩個(gè)單獨(dú)的卷積核:深度卷積和逐點(diǎn)卷積。深度卷積用于提取空間特征,而逐點(diǎn)卷積用于提取通道特征,這種方式可以顯著減少網(wǎng)絡(luò)的參數(shù)數(shù)量,還降低了計(jì)算復(fù)雜度。如圖3所示,掩碼估計(jì)模塊具體流程如下。
(1)將FEM模塊中的融合特征x1輸入掩碼深層語義特征提取模塊得到5個(gè)特征圖進(jìn)行融合,并通過1×1卷積對(duì)其通道數(shù)進(jìn)行調(diào)整得到中間特征xConv。然后,對(duì)xConv進(jìn)行上采樣得到深層特征xdeep,使其與淺層特征xlow保持尺寸一致。
(2)將原圖輸入到 MobileNetV3 網(wǎng)絡(luò)中,提取原圖淺層特征xlow,并采用1×1卷積調(diào)整淺層特征xlow的通道數(shù)。然后,將深層特征xdeep和淺層特征xlow進(jìn)行拼接得到融合特征xcat,進(jìn)而通過兩次深度可分離卷積和 Sigmoid 函數(shù)得到特征掩碼xcls,其值在 0~1 之間,代表對(duì)應(yīng)特征空間位置上人臉深度特征的遮擋概率或分割權(quán)重。此時(shí),所得的深層細(xì)粒度特征掩碼代表了整張圖像的深層細(xì)粒度特征掩碼,再通過上采樣調(diào)整調(diào)整人臉特征xface的尺寸,使其與原始圖像保持一致。
1.3 損失函數(shù)
本文所提算法的損失函數(shù)是由余弦損失函數(shù)和掩碼估計(jì)損失函數(shù)組成的聯(lián)合損失函數(shù),如下式所示
Ltotal=Lcos+λLseg(4)
式中:Lcos為評(píng)估人臉相似性的余弦損失函數(shù);Lseg為評(píng)估遮擋區(qū)域分割精度的掩碼估計(jì)損失函數(shù);λ為損失因子。經(jīng)過實(shí)驗(yàn)可知,當(dāng)λ=1時(shí)識(shí)別精度最高,為此在本文所提算法中設(shè)置λ=1。
1.3.1 余弦損失函數(shù)
余弦損失函數(shù)是用于評(píng)估兩個(gè)向量之間余弦相似性的損失函數(shù),以訓(xùn)練網(wǎng)絡(luò)將相似樣本映射到嵌入空間的臨近位置[14],通常被用于監(jiān)督學(xué)習(xí)任務(wù),例如人臉識(shí)別、文本相似性匹配等。兩個(gè)向量的余弦損失函數(shù)值越高,則相似性越高。余弦損失函數(shù)如下式所示
lcos=-1M∑Mi=1ln[exp(s(cos(θyi,i)-m))/
(exp(s(cos(θyi,i)-m))+∑j≠yiexp(s(cos(θj,i))))](5)
式中:cos(θj,i)=wTjxi,θj是xi與wj之間的夾角;wj為類別j對(duì)應(yīng)的權(quán)重向量,Wj=W*j‖W*j‖,wTj是權(quán)重向量wj的轉(zhuǎn)置,w*j是權(quán)重向量wj的共軛; xi=x*i‖x*i‖為本文所提算法的人臉有效特征向量,x*i是特征向量xi的共軛,其對(duì)應(yīng)的標(biāo)簽為yi;M為樣本數(shù); s為縮放參數(shù),控制余弦值的分布范圍;m是余弦間隔,用于增加類別之間的角度間隔。
1.3.2 掩碼估計(jì)損失函數(shù)
掩碼估計(jì)損失函數(shù)通過二進(jìn)制交叉熵?fù)p失評(píng)估掩碼估計(jì)和真實(shí)掩碼的相似性。二進(jìn)制交叉熵?fù)p失也被稱為對(duì)數(shù)損失或邏輯損失,是一種用于度量二元分類模型性能的損失函數(shù)。它測量了模型的二元分類輸出與實(shí)際標(biāo)簽之間的差異,通常用于訓(xùn)練和評(píng)估二元分類模型,其中每個(gè)樣本屬于兩個(gè)可能的類別之一(通常表示為類別 0 和類別 1)。
二進(jìn)制交叉熵?fù)p失能夠有效地激勵(lì)模型輸出的概率分布接近真實(shí)標(biāo)簽的分布,且在訓(xùn)練中可以更快收斂,并在分割任務(wù)中得到掩碼估計(jì)結(jié)果。由于本文算法掩碼特征xcls的尺寸小于原始圖像,為了利用像素級(jí)二值掩碼監(jiān)督模型,本文算法通過將掩碼特征xcls進(jìn)行去卷積得到原始圖像大小的細(xì)粒度掩碼xseg,從而與原始遮擋標(biāo)簽一起進(jìn)行網(wǎng)絡(luò)訓(xùn)練。掩碼估計(jì)損失函數(shù)表示如下
Lseg=-1N∑Ni=1[p(xi)lnq(xi)+
(1-p(xi))ln(1-q(xi))](6)
式中:N為樣本數(shù);p(xi)表示真實(shí)標(biāo)簽的概率分布,通常是0或1,表示樣本屬于類別0或類別1;q(xi)是網(wǎng)絡(luò)的預(yù)測值,通常是一個(gè)介于0和1之間的概率,表示樣本屬于類別1的概率。
2 實(shí)驗(yàn)結(jié)果與分析
2.1 實(shí)驗(yàn)設(shè)置
本文算法的實(shí)驗(yàn)操作系統(tǒng)為 Ubuntu 20.04LTS,顯卡為英偉達(dá) RTX 3090。以式(4)中的聯(lián)合損失作為損失函數(shù),并使用隨機(jī)梯度下降法[16]作為優(yōu)化算法。
網(wǎng)絡(luò)的訓(xùn)練策略如下:初始學(xué)習(xí)率L設(shè)置為0.01,經(jīng)過15輪訓(xùn)練后,將L調(diào)整為0.001,繼續(xù)訓(xùn)練10輪后,將L設(shè)置為0.0001,直至訓(xùn)練結(jié)束。本文算法在以下所有實(shí)驗(yàn)中均采用相同的實(shí)驗(yàn)參數(shù)設(shè)置。
2.2 評(píng)價(jià)指標(biāo)
本文算法采用以下2個(gè)指標(biāo)對(duì)算法的性能進(jìn)行評(píng)估:識(shí)別準(zhǔn)確率(recognition accuracy,用符號(hào)Aacc表示)和正確接受比例(true accept rate, 用符號(hào)Atar表示),其計(jì)算公式如下
Aacc=TP+TNTP+TN+FP+FN(7)
Atar=TpTP+FN(8)
式中:Aacc為識(shí)別準(zhǔn)確率,表示所有正確分類的人臉對(duì)圖像占全部測試人臉對(duì)圖像的比例;Atar為正確接受比例,表示對(duì)屬于同一人臉的圖片對(duì)進(jìn)行多次識(shí)別時(shí),網(wǎng)絡(luò)判斷正確的比例;TP表示正確地將同一人的兩張人臉圖像識(shí)別為同一人的個(gè)數(shù);FP表示錯(cuò)誤地將不同人的兩張圖像識(shí)別為同一人的個(gè)數(shù);TN表示正確地將不同人的兩張人臉圖像識(shí)別為不同人的個(gè)數(shù);FN表示錯(cuò)誤地將同一個(gè)人的兩張人臉圖像識(shí)別為不同人的個(gè)數(shù)。
2.3 數(shù)據(jù)集
與文獻(xiàn)[11-12]相同,本文算法采用了CASIA-WebFace[17]數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)訓(xùn)練。該數(shù)據(jù)集包含了10575個(gè)不同身份的人物,總共收錄了494144張人臉圖像。為了增加數(shù)據(jù)集的多樣性,本文算法在CASIA-WebFace數(shù)據(jù)集中引入了一些常見的遮擋,以模擬生活中可能會(huì)遇到的情況。并將處理后的數(shù)據(jù)集命名為CASIA-WebFace-Occ,其中有遮擋和無遮擋圖像的比例為2∶1。部分樣本的示例如圖4所示。
為了充分驗(yàn)證所提算法性能,分別在以下4類數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。
(1)LFW數(shù)據(jù)集。LFW數(shù)據(jù)集[18]是開源的人臉數(shù)據(jù)集,數(shù)據(jù)采集過程不受限制。該數(shù)據(jù)集共包含5749個(gè)不同人物的圖像,總共收錄了13233張人臉圖像。這些圖像展示了同一人物在各種背景下的面孔。該數(shù)據(jù)集包含了6000對(duì)人臉圖像,其中3000對(duì)屬于匹配的同一身份的人臉圖像,另外3000對(duì)則是來自不同身份的人臉圖像。圖5展示了數(shù)據(jù)集中的部分圖像,第1~3列(圖5(a))為不同身份人臉對(duì),第4~6列圖5(b)為相同身份人臉對(duì)。
(2)LFW口罩遮擋數(shù)據(jù)集。在日常生活中,口罩是最常見的遮擋物。本文算法在LFW數(shù)據(jù)集基礎(chǔ)上創(chuàng)建了一個(gè)模擬口罩遮擋的數(shù)據(jù)集,該數(shù)據(jù)集包含醫(yī)用外科口罩、N95口罩、KN95口罩以及各種不同顏色的布料口罩。圖6展示了數(shù)據(jù)集的部分樣本圖像。
(3)LFW圍巾遮擋數(shù)據(jù)集。佩戴圍巾在日常生活中也十分常見,為此,本文算法在LFW數(shù)據(jù)集上創(chuàng)建了一個(gè)模擬圍巾遮擋的數(shù)據(jù)集。圖7展示了LFW圍巾遮擋數(shù)據(jù)集的部分圖像。
(4)LFW中心遮擋數(shù)據(jù)集。由于人臉的五官大多集中在中心區(qū)域,這些特征對(duì)身份認(rèn)證至關(guān)重要。因此,所提算法在人臉的中心區(qū)域添加隨機(jī)的遮擋物,從而利用LFW數(shù)據(jù)集創(chuàng)建了一個(gè)模擬中心遮擋的數(shù)據(jù)集。圖8展示了數(shù)據(jù)集的部分圖像。
2.4 消融實(shí)驗(yàn)
為了驗(yàn)證本文所提細(xì)粒度深度特征掩碼估計(jì)的遮擋人臉識(shí)別算法中不同模塊的有效性,采用本文5種算法在LFW數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)[12],實(shí)驗(yàn)結(jié)果如表1所示。
Baseline:該算法僅由主干網(wǎng)絡(luò)LResnet50E-IR組成,損失函數(shù)為余弦損失函數(shù)。
Baseline-FEM:該算法由主干網(wǎng)絡(luò)和特征提取模塊組成,使用特征提取模塊提取遮擋圖片的特征,經(jīng)過全連接層后計(jì)算其損失,損失函數(shù)為余弦損失函數(shù)。
Baseline-MEM:該算法由主干網(wǎng)絡(luò)和掩碼估計(jì)模塊組成,將原圖直接輸入掩碼估計(jì)模塊,增強(qiáng)原圖特征并得到掩碼特征,并使用余弦損失函數(shù)作為損失函數(shù)。
Baseline-FEM-MEM:該算法由主干網(wǎng)絡(luò)、特征提取模塊以及掩碼估計(jì)模塊構(gòu)成。將遮擋圖像輸入到網(wǎng)絡(luò)中,提取出有效的特征,并使用余弦損失函數(shù)作為損失函數(shù)。
本文BFMM算法:該算法由主干網(wǎng)絡(luò)、特征提取模塊和掩碼估計(jì)模塊組成,損失函數(shù)是由余弦損失函數(shù)和掩碼估計(jì)損失函數(shù)組成的聯(lián)合損失函數(shù)。
由表1可得,在LFW數(shù)據(jù)集上,引入特征提取模塊的Baseline-FEM算法顯著提升了人臉識(shí)別性能,相較于Baseline算法,識(shí)別準(zhǔn)確率有所提高。然而,僅包含主干網(wǎng)絡(luò)和掩碼估計(jì)模塊的算法(Baseline-MEM)由于無法提取多尺度深度語義特征,并且缺乏掩碼估計(jì)損失函數(shù)的監(jiān)督,從而無法生成準(zhǔn)確的特征掩碼,導(dǎo)致識(shí)別準(zhǔn)確率較低。Baseline-FEM-MEM算法相較于Baseline算法的識(shí)別準(zhǔn)確率提升了0.24%,其主要原因是掩碼估計(jì)模塊將深層特征中的有效信息與淺層特征進(jìn)行融合,生成了細(xì)粒度特征掩碼有效地降低了深層損壞特征對(duì)識(shí)別的干擾,從而增強(qiáng)了識(shí)別性能。
相較于Baseline-FEM-MEM算法,本文BFMM算法的識(shí)別準(zhǔn)確率提高了0.06%。這說明引入掩碼估計(jì)損失函數(shù)能夠有效地激勵(lì)網(wǎng)絡(luò)輸出接近真實(shí)掩碼標(biāo)簽,在訓(xùn)練過程中促進(jìn)網(wǎng)絡(luò)更快地收斂,并在分類任務(wù)中取得更出色的結(jié)果,從而提升了遮擋人臉識(shí)別算法的性能。
2.5 對(duì)比實(shí)驗(yàn)
本文使用4類不同測試數(shù)據(jù)集對(duì)各種算法進(jìn)行性能評(píng)估,分別為:LFW數(shù)據(jù)集、LFW口罩遮擋數(shù)據(jù)集、LFW圍巾遮擋數(shù)據(jù)集和LFW中心遮擋數(shù)據(jù)集。
2.5.1 LFW 數(shù)據(jù)集對(duì)比實(shí)驗(yàn)
該部分對(duì)比實(shí)驗(yàn)基于LFW數(shù)據(jù)集,對(duì)比結(jié)果如表2所示。
由表2中的結(jié)果可知,本文BFMM算法的識(shí)別準(zhǔn)確率達(dá)到99.38%。相比與在大規(guī)模數(shù)據(jù)集上訓(xùn)練獲得的Center Face算法、Baidu算法以及Deep Face算法而言,本文BFMM算法性能更好。Baseline在識(shí)別準(zhǔn)確率上略優(yōu)于Deep Face算法和VGG Face算法,這主要?dú)w因于主干網(wǎng)絡(luò)的特征提取能力。由于本文BFMM算法采用隨機(jī)從數(shù)據(jù)集中選擇一定比例樣本進(jìn)行遮擋的方式產(chǎn)生訓(xùn)練集,其充分包含遮擋和非遮擋人臉樣本。這使得算法同時(shí)對(duì)遮擋和非遮擋情況下的人臉識(shí)別準(zhǔn)確率高且性能穩(wěn)定。因此,本文BFMM算法在無遮擋人臉的識(shí)別上也取得了較高的精度。
2.5.2 LFW口罩遮擋數(shù)據(jù)集對(duì)比實(shí)驗(yàn)
該部分對(duì)比實(shí)驗(yàn)基于LFW口罩遮擋數(shù)據(jù)集,對(duì)比結(jié)果如表3所示。
從表3中可以看出,在LFW口罩遮擋數(shù)據(jù)集上,本文BFMM算法能夠進(jìn)行有效的識(shí)別,識(shí)別準(zhǔn)確率達(dá)到98.42%,正確接受比例達(dá)到88.43%。而相比之下,SphereFace特征提取模塊結(jié)構(gòu)簡單,特征表征能力有限,導(dǎo)致其識(shí)別準(zhǔn)確率僅為96.12%,正確接受比例為52.10%。相比之下,F(xiàn)ROM算法引入了掩碼預(yù)測約束,有效提升了人臉識(shí)別準(zhǔn)確率,但由于該算法預(yù)測出來的掩碼特征為矩形區(qū)域,會(huì)導(dǎo)致無法識(shí)別具有曲線邊緣的部分口罩區(qū)域,導(dǎo)致無法精確提取口罩遮擋的掩碼特征,影響識(shí)別精度。同時(shí),經(jīng)典算法ArcFace和CosFace的識(shí)別準(zhǔn)確率略低。相比于FFR-Net算法,本文BFMM算法的識(shí)別準(zhǔn)確率提高了1.16%。這表明本文BFMM算法綜合性能上優(yōu)于其他對(duì)比算法。
2.5.3 LFW圍巾遮擋數(shù)據(jù)集對(duì)比實(shí)驗(yàn)
該部分對(duì)比實(shí)驗(yàn)基于LFW圍巾遮擋數(shù)據(jù)集,對(duì)比結(jié)果如表4所示。
表4中的結(jié)果顯示,SphereFace算法識(shí)別準(zhǔn)確率和正確接受比例均最低。與之相比,F(xiàn)FR-Net算法的識(shí)別準(zhǔn)確率提升了1.16%,而正確接受比例最高。而ArcFace、CosFace和FROM算法的識(shí)別準(zhǔn)確率進(jìn)一步顯著提升,但其正確接受比例有所下降。相比之下,本文BFMM算法在LFW圍巾遮擋數(shù)據(jù)集上的識(shí)別準(zhǔn)確率最高,達(dá)到了98.72%,正確接受比例達(dá)到了91.57%。結(jié)果表明,本文BFMM算法在圍巾遮擋情況下表現(xiàn)出了很好的性能,具有更高的識(shí)別準(zhǔn)確率。
2.5.4 LFW中心遮擋數(shù)據(jù)集對(duì)比實(shí)驗(yàn)
該部分對(duì)比實(shí)驗(yàn)基于LFW中心遮擋數(shù)據(jù)集,對(duì)比結(jié)果如表5所示。
根據(jù)表5中的數(shù)據(jù),在LFW中心遮擋數(shù)據(jù)集上,本文BFMM算法的識(shí)別準(zhǔn)確率為98.65%,正確接受比例為84.00%。相比之下,SphereFace算法的識(shí)別準(zhǔn)確率較低,為96.83%。本文BFMM算法相較于經(jīng)典算法FROM,識(shí)別準(zhǔn)確率提高了0.37%,正確接受比例提升了5.10%。相較于經(jīng)典算法ArcFace、CosFace以及FFR-Net,識(shí)別準(zhǔn)確率和正確接受比例都有所提升。這些結(jié)果表明本文BFMM算法在處理中心遮擋情況下表現(xiàn)出了較高的精度。雖然中心遮擋導(dǎo)致大量人臉細(xì)節(jié)信息的丟失,但本文BFMM算法通過特征抑制,有效避免了遮擋區(qū)域無效特征的干擾,同時(shí)有效利用了非遮擋區(qū)域的有限人臉特征,從而取得了更高性能。
2.6 不同遮擋比例對(duì)人臉識(shí)別性能的影響
為了評(píng)估不同遮擋面積對(duì)識(shí)別性能的影響,本文在LFW數(shù)據(jù)集的中心區(qū)域采用了隨機(jī)遮擋策略,分別設(shè)置遮擋面積占整張人臉圖像的比例為1%、5%、10%、15%、20%、30%、40%和50%,圖9展示了在不同遮擋比例下同一人物面部圖像的效果。由于遮擋比例超過50%的人臉圖像(如圖9(h)所示)幾乎不含有識(shí)別所需的有效人臉區(qū)域,因此對(duì)遮擋比例大于50%的人臉圖像不進(jìn)行比較。圖10分別展示了這些遮擋比例對(duì)識(shí)別準(zhǔn)確率和正確接受比例的影響。
如圖9所示,當(dāng)遮擋面積超過40%時(shí),人臉五官幾乎完全被遮擋,從而導(dǎo)致識(shí)別錯(cuò)誤率顯著提升。圖10中的結(jié)果顯示,當(dāng)遮擋面積超過總面積的40%時(shí),識(shí)別準(zhǔn)確率和正確接受比例急劇下降。因此,遮擋對(duì)人臉識(shí)別算法的影響是非線性的,且當(dāng)遮擋比例達(dá)到一定程度時(shí),算法難以提取有效的識(shí)別特征,從而降低了識(shí)別性能。
3 結(jié) 論
針對(duì)因人臉受到遮擋使得部分面部結(jié)構(gòu)信息丟失,從而影響識(shí)別準(zhǔn)確率的問題,本文提出了一種細(xì)粒度深度特征掩碼估計(jì)的遮擋人臉識(shí)別算法。本文的主要結(jié)論如下。
(1)本文算法利用特征金字塔網(wǎng)絡(luò)提取人臉圖像的多尺度深度語義特征,確保了最終人臉特征包含多尺度信息。
(2)利用掩碼深層語義特征處理獲得深層特征,并與MobileNetV3網(wǎng)絡(luò)所提取的淺層特征進(jìn)行融合,進(jìn)而以像素級(jí)二值掩碼為標(biāo)簽訓(xùn)練網(wǎng)絡(luò)以獲得細(xì)粒度特征掩碼。利用該深度特征掩碼與深層特征相乘,以抑制遮擋干擾特征,提高遮擋人臉識(shí)別的準(zhǔn)確率。最后,采用余弦損失函數(shù)和掩碼估計(jì)損失函數(shù)聯(lián)合訓(xùn)練網(wǎng)絡(luò),從而提高了人臉識(shí)別算法對(duì)任意遮擋的魯棒性。同時(shí),在識(shí)別準(zhǔn)確率高的前提下,本文算法的參數(shù)規(guī)模更小,運(yùn)行速率更高。
(3)盡管本文提出的細(xì)粒度深度特征掩碼估計(jì)算法在遮擋人臉識(shí)別中表現(xiàn)出較好的性能,但該算法仍存在一些局限性,特別是在識(shí)別非正面人臉遮擋或復(fù)雜遮擋情況時(shí)。首先,本文算法主要針對(duì)正面人臉設(shè)計(jì),因而在非正面人臉的遮擋情況下,其性能可能會(huì)受到限制。非正面視角下的人臉特征與正面視角存在顯著差異,這可能導(dǎo)致生成的特征掩碼無法準(zhǔn)確反映遮擋區(qū)域的實(shí)際形狀,從而影響識(shí)別效果。此外,盡管細(xì)粒度掩碼能夠提供更精細(xì)的遮擋邊界描述,但在處理復(fù)雜遮擋情況下,例如遮擋區(qū)域具有高度遮擋的細(xì)節(jié)或遮擋物的紋理與人臉特征高度相似時(shí),當(dāng)前算法仍可能表現(xiàn)不佳。這些復(fù)雜遮擋場景可能導(dǎo)致網(wǎng)絡(luò)難以充分學(xué)習(xí)并準(zhǔn)確估計(jì)遮擋區(qū)域的細(xì)節(jié),從而在實(shí)際應(yīng)用中導(dǎo)致識(shí)別準(zhǔn)確率降低。
(4)實(shí)驗(yàn)結(jié)果表明,本文所提算法在不同類型遮擋情況下均獲得十分穩(wěn)定的人臉識(shí)別結(jié)果。但是,仍難以識(shí)別部分非正面遮擋人臉。針對(duì)這個(gè)問題,下一步會(huì)繼續(xù)探索基于遮擋區(qū)域恢復(fù)的研究方法,提高非正面遮擋人臉圖像的識(shí)別準(zhǔn)確率。
參考文獻(xiàn):
[1]李明, 黨青霞. 融合Transformer和CNN的輕量級(jí)人臉識(shí)別算法 [J]. 計(jì)算機(jī)工程與應(yīng)用, 2024, 60(14): 96-104.
LI Ming, DANG Qingxia. Lightweight face recognition algorithm combining transformer and CNN [J]. Computer Engineering and Applications, 2024, 60(14): 96-104.
[2]岳也, 溫瑞萍, 王川龍. 帶有特征信息卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別算法 [J]. 工程數(shù)學(xué)學(xué)報(bào), 2024, 41(3): 410-420.
YUE Ye, WEN Ruiping, WANG Chuanlong. Face recognition algorithm based on convolutional neural network with feature information [J]. Chinese Journal of Engineering Mathematics, 2024, 41(3): 410-420.
[3]余璀璨, 李慧斌. 基于深度學(xué)習(xí)的人臉識(shí)別方法綜述 [J]. 工程數(shù)學(xué)學(xué)報(bào), 2021, 38(4): 451-469.
YU Cuican, LI Huibin. Deep learning based 2D face recognition: a survey [J]. Chinese Journal of Engineering Mathematics, 2021, 38(4): 451-469.
[4]TOMAR V, KUMAR N, SRIVASTAVA A R. Single sample face recognition using deep learning: a survey [J]. Artificial Intelligence Review, 2023, 56(1): 1063-1111.
[5]JEEVAN G, ZACHARIAS G C, NAIR M S, et al. An empirical study of the impact of masks on face recognition [J]. Pattern Recognition, 2022, 122: 108308.
[6]WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2): 210-227.
[7]ZHOU Zihan, WAGNER A, MOBAHI H, et al. Face recognition with contiguous occlusion using Markov random fields [C]//2009 IEEE 12th International Conference on Computer Vision. Piscataway, NJ, USA: IEEE, 2009: 1050-1057.
[8]張錚, 蘆天亮, 曹金璇. 基于分割和多級(jí)掩膜學(xué)習(xí)的遮擋人臉識(shí)別方法 [J]. 計(jì)算機(jī)科學(xué)與探索, 2024, 18(7): 1814-1825.
ZHANG Zheng, LU Tianliang, CAO Jinxuan. Occluded face recognition based on segmentation and multi-stage mask learning [J]. Journal of Frontiers of Computer Science and Technology, 2024, 18(7): 1814-1825.
[9]CHEN Yuan, CHEN Weiche, WEI C P, et al. Occlusion-aware face inpainting via generative adversarial networks [C]//2017 IEEE International Conference on Image Processing (ICIP). Piscataway, NJ, USA: IEEE, 2017: 1202-1206.
[10]ZHAO Fang, FENG Jiashi, ZHAO Jian, et al. Robust LSTM-autoencoders for face de-occlusion in the wild [J]. IEEE Transactions on Image Processing, 2018, 27(2): 778-790.
[11]SONG Lingxue, GONG Dihong, LI Zhifeng, et al. Occlusion robust face recognition based on mask learning with pairwise differential Siamese network [C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, NJ, USA: IEEE, 2019: 773-782.
[12]QIU Haibo, GONG Dihong, LI Zhifeng, et al. End2end occluded face recognition by masking corrupted features [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(10): 6939-6952.
[13]HAO Shaozhe, CHEN Chaofeng, CHEN Zhenfang, et al. A unified framework for masked and mask-free face recognition via feature rectification [C]//2022 IEEE International Conference on Image Processing (ICIP). Piscataway, NJ, USA: IEEE, 2022: 726-730.
[14]WANG Hao, WANG Yitong, ZHOU Zheng, et al. CosFace: large margin cosine loss for deep face recognition [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2018: 5265-5274.
[15]LIN T Y, DOLLR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2017: 936-944.
[16]史加榮, 王丹, 尚凡華, 等. 隨機(jī)梯度下降算法研究進(jìn)展 [J]. 自動(dòng)化學(xué)報(bào), 2021, 47(9): 2103-2119.
SHI Jiarong, WANG Dan, SHANG Fanhua, et al. Research advances on stochastic gradient descent algorithms [J]. Acta Automatica Sinica, 2021, 47(9): 2103-2119.
[17]YI Dong, LEI Zhen, LIAO Shengcai, et al. Learning face representation from scratch [EB/OL]. (2014-11-28)[2024-08-01]. https://arxiv.org/abs/1411.7923.
[18]HUANG G B, MATTAR M, BERG T, et al. Labeled faces in the wild: a database for studying face recognition in unconstrained environments [C]//Workshop on Faces in ‘Real-Life’ Images: Detection, Alignment, and Recognition. Marseille, France: Inria, 2008: 617-624.
[19]LIU Weiyang, WEN Yandong, YU Zhiding, et al. SphereFace: deep hypersphere embedding for face recognition [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2017: 6738-6746.
[20]CHEN Sheng, LIU Yang, GAO Xiang, et al. MobileFaceNets: efficient CNNs for accurate real-time face verification on mobile devices [C]//Biometric Recognition. Cham: Springer International Publishing, 2018: 428-438.
[21]LIU Jingtuo, DENG Yafeng, BAI Tao, et al. Targeting ultimate accuracy: face recognition via deep embedding [EB/OL]. (2015-07-23)[2024-08-01]. https://arxiv.org/abs/1506.07310.
[22]WEN Yandong, ZHANG Kaipeng, LI Zhifeng, et al. A discriminative feature learning approach for deep face recognition [C]//Computer Vision-ECCV 2016. Cham: Springer International Publishing, 2016: 499-515.
[23]TAIGMAN Y, YANG Ming, RANZATO M, et al. DeepFace: closing the gap to human-level performance in face verification [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2014: 1701-1708.
[24]PARKHI O M, VEDALDI A, ZISSERMAN A. Deep face recognition [C]//BMVC 2015-Proceedings of the British Machine Vision Conference 2015. Swansea, UK: BMVA, 2015: 1-12.
[25]DENG Jiankang, GUO Jia, XUE Niannan, et al. ArcFace: additive angular margin loss for deep face recognition [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2019: 4685-4694.
[26]KIM M, JAIN A K, LIU Xiaoming. AdaFace: quality adaptive margin for face recognition [C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2022: 18729-18738.
(編輯 劉楊 陶晴)