胡俐蕊,李 瀟,譚 凱
(1. 北部灣大學(xué)電子與信息工程學(xué)院,廣西 欽州 535000;2. 桂林理工大學(xué)信息科學(xué)與工程學(xué)院,廣西 桂林 541000)
近些年,人臉識(shí)別算法在基準(zhǔn)數(shù)據(jù)集上取得了顯著的性能改進(jìn)[1],[2]。然而由于新冠肺炎疫情的爆發(fā),口罩人臉識(shí)別任務(wù)需求加大,傳統(tǒng)人臉識(shí)別算法在口罩人臉識(shí)別中沒有很好的性能表現(xiàn),這成為計(jì)算機(jī)視覺中急需解決的難題??谡秩四樧R(shí)別是對(duì)佩戴口罩的人臉進(jìn)行身份識(shí)別,在口罩人臉圖像中,口罩部分信息對(duì)人臉身份是無關(guān)的。例如,同一個(gè)人可以佩戴不同口罩,不同人可以佩戴同一種口罩。目前主流的人臉識(shí)別算法都是使用深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)人臉圖像進(jìn)行特征提取[-7],生成具有類內(nèi)距離較低、類間距離較高的人臉特征表示。當(dāng)這些算法在對(duì)口罩人臉進(jìn)行識(shí)別時(shí),以同等的方式處理口罩信息和人臉信息,口罩特征嵌入到人臉表示中,減少了類內(nèi)變化。這導(dǎo)致了人臉識(shí)別算法在口罩人臉識(shí)別中識(shí)別率準(zhǔn)確率大幅降低。因此口罩人臉識(shí)別被認(rèn)為是最具挑戰(zhàn)性的計(jì)算機(jī)視覺任務(wù)之一。本文提出了一種基于改進(jìn)注意力機(jī)制的口罩人臉識(shí)別算法,旨在對(duì)有效人臉進(jìn)行特征提取,忽略被遮擋而失真的圖像特征。在保證無遮擋人臉識(shí)別高準(zhǔn)確率的同時(shí)大幅提升口罩人臉識(shí)別性能。
口罩人臉識(shí)別是特殊的遮擋人臉識(shí)別,目前口罩人臉識(shí)別的大部分研究來源于遮擋人臉識(shí)別。遮擋人臉識(shí)別主要的方法有:遮擋魯棒特征提取、遮擋感知人臉識(shí)別、基于遮擋恢復(fù)的人臉識(shí)別方法。在深度卷積神經(jīng)網(wǎng)絡(luò)出現(xiàn)前,遮擋人臉識(shí)別方法將人臉圖像投影到低維子空間[8],[9],將遮擋看作單獨(dú)的子空間。文獻(xiàn)[10]的方法將人臉圖像分割成局部區(qū)域進(jìn)行獨(dú)立,解決遮擋問題。在2014年,SUN等人[11]提出了DeepID2,在小面積遮擋人臉的識(shí)別具有一定的效果。在之后幾年,研究人員通過改進(jìn)卷積網(wǎng)絡(luò)結(jié)構(gòu)和設(shè)計(jì)新的損失函數(shù)提升人臉特征表達(dá)能力[3][4]。隨后有人提出通過遮擋感知抑制遮擋物的特征表達(dá)[7],[12],降低遮擋對(duì)于人臉識(shí)別過程的干擾,提升模型對(duì)遮擋人臉識(shí)別的魯棒性,本文從中受到很大啟發(fā)。隨著深度學(xué)習(xí)技術(shù)研究的不斷深入,一些生成對(duì)抗學(xué)習(xí)的方法涌現(xiàn)出來[13],[16],對(duì)遮擋人臉進(jìn)行修復(fù),使用修復(fù)后的人臉進(jìn)行識(shí)別,但是這種方式的識(shí)別性能很大程度依賴于修復(fù)結(jié)果的真實(shí)程度,由于口罩遮擋面積較大,修復(fù)后常常會(huì)失真,并且計(jì)算量較大,所以并不適用于口罩人臉識(shí)別中。
2017年,谷歌機(jī)器翻譯團(tuán)體發(fā)表的文章使用自注意力機(jī)制[17]來學(xué)習(xí)文本表示。此后注意力機(jī)制成為研究熱點(diǎn),各種注意力機(jī)制層出不窮,現(xiàn)在已經(jīng)廣泛的應(yīng)用于計(jì)算機(jī)的各個(gè)領(lǐng)域:圖像分割,圖像分類,動(dòng)作識(shí)別,文本分類,機(jī)器翻譯等[18-20]。
Wang等率先將自注意力機(jī)制使用在計(jì)算機(jī)視覺中,基于圖像處理中的非局部均值濾波[21]思想提出了Non-Local操作模塊[5],其核心算子如下
(1)
式中,X為輸入特征圖,Y為輸出,i,j為特征圖X的位置索引;f()為兩特征點(diǎn)相似關(guān)系計(jì)算函數(shù);g()為映射函數(shù),計(jì)算特征圖X在i位置的輸出特征信息。如式(1),對(duì)于輸入特征圖任一點(diǎn)Xi,先使用相似計(jì)算函數(shù)對(duì)其求得與特征圖中所有點(diǎn)Xj的相似性,再分別將相似度分?jǐn)?shù)與其對(duì)應(yīng)的Xj相乘并相加即g(Xj),由此得到輸出特征圖的對(duì)應(yīng)點(diǎn)Yi。
本文是將改進(jìn)的注意力機(jī)制嵌入ArcFace[4]提出的ResNet50網(wǎng)絡(luò)中,放在layer3層,充分獲得特征信息,整體結(jié)構(gòu)如圖1。
圖1 本文模型整體結(jié)構(gòu)
本文改進(jìn)的注意力機(jī)制結(jié)構(gòu)如圖2所示。Layer3_out是ResNet50的layer3的輸出特征圖大小為1024×14×14,將其作為改進(jìn)注意力機(jī)制的輸入。
圖2 改進(jìn)的注意力機(jī)制
本文采用關(guān)鍵點(diǎn)注意力機(jī)制替代了原注意力機(jī)制的全連接,如圖2所示。使用3×3卷積(Conv_3×3)去除冗余信息,實(shí)現(xiàn)關(guān)鍵特征的提取(大小為1024×6×6),再使用該特征圖輸入特征圖X進(jìn)行與通過1×1卷積(Conv_1×1)整合后特征圖相乘,通過softmax函數(shù),進(jìn)而形成新的注意力分布:
C=softmax(Conv_1×1(X)Conv_3×3(X)T)
(2)
得到的注意力分布再與輸入特征圖相乘
(3)
(4)
(5)
為了驗(yàn)證本文算法的有效性,使用公開人臉數(shù)據(jù)集進(jìn)行訓(xùn)練,在國(guó)際標(biāo)準(zhǔn)人臉識(shí)別數(shù)據(jù)集進(jìn)行測(cè)試,并且與經(jīng)典的人臉識(shí)別算法進(jìn)行比較,以證明本文算法的有效性。
在文獻(xiàn)[22]中,通過在訓(xùn)練集中增加模擬遮擋提高算法遮擋情況下識(shí)別性能。因此,本文將口罩人臉數(shù)據(jù)集CASIA-WebFace_M(jìn)ask[23]和正常人臉CASIA-WebFace[24]混合組成本文訓(xùn)練數(shù)據(jù)集CASIA-WebFace_M(jìn)ix(其比例為1:1),該數(shù)據(jù)集包含了10 575個(gè)人的494414張圖像。如圖3,每一行四張照片為同一個(gè)人,兩張正常人臉和兩張口罩人臉。
圖3 本文訓(xùn)練數(shù)據(jù)集示例
使用的第一個(gè)測(cè)試數(shù)據(jù)集是LFW[1],LFW數(shù)據(jù)集是為了研究非限制環(huán)境下的人臉識(shí)別問題而建立的。這個(gè)數(shù)據(jù)集包含超過13000張人臉圖像,均采集于Internet。每個(gè)人臉均被標(biāo)準(zhǔn)了一個(gè)人名。其中,大約1680個(gè)人包含兩個(gè)以上的人臉。這個(gè)集合被廣泛應(yīng)用于評(píng)價(jià)人臉驗(yàn)證算法的性能,如圖4,同一個(gè)人受到拍照角度、光照和背景因素的影響,并且存在表情變化,所以同一個(gè)人的人臉圖片存在較大差異。
圖4 LFW數(shù)據(jù)集示例
使用的第二個(gè)測(cè)試數(shù)據(jù)集是LFW_M(jìn)ask,這個(gè)數(shù)據(jù)集是武漢大學(xué)國(guó)家多媒體軟件工程技術(shù)研究中心對(duì)LFW數(shù)據(jù)集進(jìn)行虛擬口罩,如圖5,全臉將近一半的遮擋,只能通過有效人臉部分進(jìn)行識(shí)別,口罩的佩戴對(duì)人臉特征提取過程中將產(chǎn)生極大的干擾,該數(shù)據(jù)集在人臉識(shí)別任務(wù)中具有很大挑戰(zhàn)。
圖5 LFW_M(jìn)ask數(shù)據(jù)集示例
計(jì)算機(jī)配置:Intel(R) Core(TM) i7-7820X CPU,32G內(nèi)存,兩塊NVIDIA GeForce RTX 2080,每塊8G顯存。在Windows10系統(tǒng)下,使用深度學(xué)習(xí)框架pytorch。
本文將實(shí)驗(yàn)參數(shù)統(tǒng)一設(shè)置為:輸入圖片大小112×112,訓(xùn)練集batch_size和測(cè)試的batch_size為128,進(jìn)行10個(gè)迭代訓(xùn)練(epoch),使用隨機(jī)梯度下降(SGD)作為網(wǎng)絡(luò)優(yōu)化器,初始學(xué)習(xí)率為0.02。
4.3.1 訓(xùn)練步驟
本文訓(xùn)練使用的損失函數(shù)為Cosface[3]中提出的損失函數(shù)。
第一步:本文將算法在口罩人臉數(shù)據(jù)集CASIA-WebFace_M(jìn)ask進(jìn)行訓(xùn)練,主要目的完成對(duì)掩碼部分的訓(xùn)練。第二步:將第一步得到的算法使用混合數(shù)據(jù)集進(jìn)行訓(xùn)練,提升正常人臉識(shí)別性能。
4.3.2 注意力可視化對(duì)比
圖6(a)為輸入圖像,圖6(b)和圖6(c)顯示輸入圖像的不同區(qū)域?qū)矸e神經(jīng)網(wǎng)絡(luò)輸出類別的“貢獻(xiàn)”程度,紅色為“貢獻(xiàn)”較大,藍(lán)色為“貢獻(xiàn)”薄弱。從圖6(b)可以看出,口罩人臉在ResNet50中,口罩區(qū)域仍有較大權(quán)重,口罩特征將會(huì)參與人臉識(shí)別,增大了佩戴同一口罩的不同人臉的相似度,干擾分類過程,將會(huì)大大降低口罩人臉識(shí)別正確率。從圖6(b)和圖6(c)的對(duì)比可以明顯看出,本文算法由于改進(jìn)的注意力機(jī)制消除了口罩信息,口罩部分權(quán)重大大降低,并且在這三個(gè)不同口罩人臉上都能將注意力集中在人臉區(qū)域。與ResNet50相比,本文算法具有更強(qiáng)的特征提取能力和去噪能力。
圖6 類激活熱力圖
4.3.3 與主流人識(shí)別算法對(duì)比
LFW[1]是無約束條件下的標(biāo)準(zhǔn)人臉驗(yàn)證基準(zhǔn)數(shù)據(jù)集。本文嚴(yán)格按照不受限制的標(biāo)準(zhǔn)協(xié)議評(píng)估本文算法,分別在LFW和LFW_M(jìn)ask測(cè)試3000圖像對(duì)的平均準(zhǔn)確率。為了公平對(duì)比,本文將這些主流人臉識(shí)別算法通過混合數(shù)據(jù)集的訓(xùn)練,在LFW和LFW_M(jìn)ask上評(píng)估算法的性能,如表1。在表1中,ResNet50為使用ArcFace[4]提出的ResNet50網(wǎng)絡(luò),并使用Cosface[3]中提出的損失函數(shù),在混合數(shù)據(jù)集上進(jìn)行訓(xùn)練。
表1 不同算法在LFW_M(jìn)ask和LFW上準(zhǔn)確率對(duì)比表
從表1中可以看出,在ResNet50中加入Non-Local注意力機(jī)制,在LFW和LFW_M(jìn)ask上,算法準(zhǔn)確率分別提高了0.02%和0.26%,Non-Local注意力機(jī)制的加入沒有明顯作用,這是因?yàn)镹on-Local注意力機(jī)制增大了的算法的感受野,沒有區(qū)別對(duì)待口罩信息和人臉信息。與只使用ResNet50相比,在LFW和LFW_M(jìn)ask上,本文算法的準(zhǔn)確率分別提高了3.58%和6.4%。與遮擋人臉識(shí)別算法MaskNet[7]相比,本文算法在LFW和LFW_M(jìn)ask上,分別提高了3.7%和4.71%;與人臉識(shí)別算法ArcFace相比,本文算法在LFW和LFW_M(jìn)ask上,分別提高了3.87%和7.91%;與其它主流算法相比,也有不同提升,均獲得最高準(zhǔn)確率,證明了本文算法的有效性。
本文提出了一種基于改進(jìn)注意力機(jī)制的口罩人臉識(shí)別算法,在注意力機(jī)制中引入關(guān)鍵點(diǎn)注意力,具有區(qū)塊注意力效果,再通過掩碼增強(qiáng)人臉部分特征和抑制口罩部分信息,形成關(guān)鍵點(diǎn)注意力機(jī)制和掩碼良好的融合,能精確的發(fā)現(xiàn)和丟棄口罩信息,解決口罩信息干擾人臉識(shí)別問題,將注意力集中在有效人臉區(qū)域。在合成口罩人臉數(shù)據(jù)集和真實(shí)人臉數(shù)據(jù)上的比對(duì)結(jié)果表明,該算法優(yōu)于傳統(tǒng)人臉識(shí)別算法,證明了本文算法改進(jìn)的有效性。