郭 文,李 冬,袁 飛
多尺度注意力融合和抗噪聲的輕量點(diǎn)云人臉識(shí)別模型
郭 文1,李 冬1,袁 飛2
(1. 山東工商學(xué)院信息與電子工程學(xué)院,山東 煙臺(tái) 264005;2. 中國(guó)科學(xué)院信息工程研究所,北京 100195)
在低質(zhì)量點(diǎn)云人臉數(shù)據(jù)集上,判別性特征的提取和模型對(duì)噪聲的魯棒性是解決點(diǎn)云人臉識(shí)別問(wèn)題的關(guān)鍵。針對(duì)現(xiàn)有輕量點(diǎn)云人臉識(shí)別算法不能充分提取判別性特征和數(shù)據(jù)集中存在大量噪聲而影響模型訓(xùn)練的問(wèn)題,設(shè)計(jì)輕量高效的網(wǎng)絡(luò)模型,提出了基于多尺度注意力融合和抗噪聲的自適應(yīng)損失函數(shù)的點(diǎn)云人臉識(shí)別算法。首先通過(guò)不同卷積模塊獲得不同感受野大小的特征圖。然后進(jìn)行多尺度的注意力特征提取,并使用高層的注意力權(quán)重來(lái)引導(dǎo)低層注意力權(quán)重的生成,最后進(jìn)行通道融合得到多尺度融合的特征,提升了模型捕獲人臉細(xì)節(jié)特征的能力。其次,根據(jù)低質(zhì)量點(diǎn)云人臉圖像的噪聲信息特點(diǎn),設(shè)計(jì)了一種新穎的抗噪聲的自適應(yīng)損失函數(shù)(anti-noise adaptive loss),以應(yīng)對(duì)數(shù)據(jù)集大量噪聲對(duì)模型訓(xùn)練過(guò)程中可能造成的負(fù)面影響,提升模型的魯棒性和泛化能力。在開(kāi)源數(shù)據(jù)集Lock3DFace和本文提出的KinectFaces數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與當(dāng)前的主流算法相比該算法模型在低質(zhì)量點(diǎn)云人臉識(shí)別任務(wù)中具有更好的識(shí)別效果。
點(diǎn)云人臉識(shí)別;注意力融合;注意力特征提?。粨p失函數(shù)
基于點(diǎn)云的人臉識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域中活躍的課題之一,同時(shí)也面臨著許多的挑戰(zhàn)。與3D點(diǎn)云人臉識(shí)別相比,基于2D圖像的人臉識(shí)別取得了巨大的進(jìn)步[1-2]。然而,2D人臉識(shí)別在光照和姿態(tài)變化等復(fù)雜環(huán)境下性能不穩(wěn)定。隨著3D成像系統(tǒng)的快速發(fā)展,2.5D或3D人臉識(shí)別已經(jīng)成為處理2D人臉識(shí)別任務(wù)中未解決問(wèn)題的主要替代方法。許多研究表明,3D人臉識(shí)別不僅自身能取得與2D人臉識(shí)別相媲美的識(shí)別結(jié)果[3],而且與2D人臉識(shí)別任務(wù)具有良好的互補(bǔ)性。
數(shù)據(jù)集對(duì)人臉識(shí)別發(fā)展起著重要影響,大規(guī)模的2D人臉數(shù)據(jù)集使得基于卷積神經(jīng)網(wǎng)絡(luò)的2D人臉識(shí)別算法取得了巨大成功。如,使用200萬(wàn)人臉數(shù)據(jù)訓(xùn)練的FaceNet[4]算法在LFW[5]數(shù)據(jù)集上達(dá)到了99.63%的準(zhǔn)確率。然而,3D人臉數(shù)據(jù)集受限于特定的采集設(shè)備,導(dǎo)致3D人臉數(shù)據(jù)集資源遠(yuǎn)少于2D人臉數(shù)據(jù)集。3D人臉識(shí)別數(shù)據(jù)集有FRGC V2.0[6],Bosphorus[7],BU3D-FE[8]和Lock3DFace[9]等,其中最大的FRGC V2.0僅包含466個(gè)人的4 007張3D人臉圖像,Bosphorus數(shù)據(jù)集也僅包含105個(gè)人的4 666張圖像。與2D人臉數(shù)據(jù)集WebFace260M[10]包含4萬(wàn)個(gè)體的千萬(wàn)張人臉圖像對(duì)比,3D人臉數(shù)據(jù)集十分匱乏。另一方面,F(xiàn)RGC V2.0和Bosphorus數(shù)據(jù)集是通過(guò)高精度掃描儀進(jìn)行采集,制作成本極高,限制了數(shù)據(jù)集規(guī)模的提升。
近年來(lái),消費(fèi)級(jí)深度相機(jī)如Kinect和RealSense逐漸走向市場(chǎng)。相較于高精度3D掃描設(shè)備,該類(lèi)型相機(jī)更加低廉輕便,且有著更高的幀率以保證數(shù)據(jù)的實(shí)時(shí)獲取。如圖1所示,第1行高精度掃描設(shè)備獲取到的可視化人臉信息;第2行消費(fèi)級(jí)深度相機(jī)獲取的人臉圖像有著大量噪聲,并可能出現(xiàn)大面積的空洞缺失;第3行展現(xiàn)了使用消費(fèi)級(jí)深度相機(jī)在戴眼鏡群體中拍攝時(shí)可能出現(xiàn)的不規(guī)則光噪聲問(wèn)題。因此,通過(guò)消費(fèi)級(jí)深度相機(jī)獲得的數(shù)據(jù)需要人臉識(shí)別算法對(duì)噪聲有著較高的魯棒性。如,在最大的低質(zhì)量3D人臉數(shù)據(jù)集Lock3dFace上識(shí)別率最高的Led3D[11]網(wǎng)絡(luò),也僅有54.28%識(shí)別率。該模型對(duì)噪聲的魯棒性差是準(zhǔn)確率低的主要原因。
因此,基于消費(fèi)級(jí)深度相機(jī)的3D人臉識(shí)別發(fā)展?jié)摿薮?。為了解決上述問(wèn)題,本文構(gòu)建一種可以有效提取人臉判別性特征信息并對(duì)噪聲有較強(qiáng)魯棒性的3D人臉識(shí)別算法模型至關(guān)重要。
本節(jié)將簡(jiǎn)要敘述3D人臉識(shí)別方法、CNN中的多尺度注意力特征融合、人臉損失函數(shù)的相關(guān)工作。
二維人臉識(shí)別的高準(zhǔn)確率驗(yàn)證了基于神經(jīng)網(wǎng)絡(luò)的特征提取方法非常適用于人臉識(shí)別。VGG-Face[12]是首個(gè)使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行3D人臉識(shí)別的模型。該模型將預(yù)處理后的點(diǎn)云人臉圖像降維成2D,并輸入到模型中進(jìn)行初步訓(xùn)練。該方法使用降維的點(diǎn)云人臉圖像進(jìn)行模型的微調(diào),解決了3D圖像在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中輸入維度不一致的問(wèn)題,為后續(xù)基于神經(jīng)網(wǎng)絡(luò)的3D人臉識(shí)別框架提供了基礎(chǔ)范式。文獻(xiàn)[13]提出了一種基于PointNet[14]的網(wǎng)絡(luò)模型。該模型可以將點(diǎn)云圖像直接作為模型的輸入,解決了3D圖像降維到2D而產(chǎn)生的信息丟失問(wèn)題。雖然該模型提升了識(shí)別準(zhǔn)確率,但是點(diǎn)云圖像直接作為網(wǎng)絡(luò)模型的輸入產(chǎn)生了巨大的計(jì)算成本,不適用于實(shí)時(shí)的人臉識(shí)別。文獻(xiàn)[15]提出了動(dòng)態(tài)類(lèi)別序列方法,訓(xùn)練過(guò)程中每次迭代,均動(dòng)態(tài)選擇類(lèi)別子集,解決了大規(guī)模人臉識(shí)別任務(wù)中的長(zhǎng)尾分類(lèi)問(wèn)題。文獻(xiàn)[11]利用3D人臉識(shí)別的輕量級(jí)CNN,對(duì)于低質(zhì)量人臉數(shù)據(jù)集的識(shí)別有較高的準(zhǔn)確率和識(shí)別速度。該網(wǎng)絡(luò)通過(guò)多尺度特征融合模塊,有效地改善了低質(zhì)量人臉數(shù)據(jù)的表示,但特征的提取與融合通過(guò)簡(jiǎn)單的下采樣和特征疊加,有較大改進(jìn)空間。
多尺度的注意力機(jī)制,來(lái)自不同層或分支的注意力特征的組合。受到人類(lèi)視覺(jué)注意力的啟發(fā),注意力機(jī)制也應(yīng)用于深度學(xué)習(xí)中[16-17]。最初的多尺度注意力機(jī)制是基于全局尺度。如,Self-attention通過(guò)矩陣相乘來(lái)提取每個(gè)詞在文本中的全局依賴(lài)[18]或每個(gè)像素在整個(gè)圖像中的全局依賴(lài)[19-20]。有許多在大規(guī)模的分類(lèi)任務(wù)中使用注意力來(lái)提高卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)性能的研究,如,squeeze and excitation (SENet)壓縮全局空間信息輸出通道描述符來(lái)捕獲通道依賴(lài)[21]。更接近本文的是convolutional block attention module (CBAM)網(wǎng)絡(luò)[22],該網(wǎng)絡(luò)結(jié)合通道注意力和空間注意力來(lái)提取特征信息。在CBAM中使用全局最大池化和全局平均池化來(lái)計(jì)算通道注意力。然而,本文驗(yàn)證了在點(diǎn)云人臉識(shí)別中使用全局池化是次優(yōu)的。通過(guò)全局池化來(lái)獲得通道注意力忽略了通道注意力中的空間信息,導(dǎo)致模型更加關(guān)注圖像背景信息而不能很好地捕獲人臉細(xì)節(jié)的局部特征信息。
將不同大小卷積核得到的特征圖進(jìn)行融合即多尺度特征融合。MARDC-MVSNet[23]將–1個(gè)源圖像特征圖與參考圖像特征圖進(jìn)行融合,使得模型可以生成稠密點(diǎn)云。然而,在3D維度進(jìn)行圖像特征的處理將耗費(fèi)巨大的計(jì)算開(kāi)銷(xiāo)。Led3D[11]網(wǎng)絡(luò)將不同卷積塊得到的特征通過(guò)簡(jiǎn)單串聯(lián)的方式在通道維度上進(jìn)行疊加,該方式可能導(dǎo)致模型來(lái)自多尺度輸出特征通道間特征相關(guān)性的缺失[24]。
如何合理地設(shè)計(jì)損失函數(shù)對(duì)加強(qiáng)深度卷積神經(jīng)網(wǎng)絡(luò)在類(lèi)別之間識(shí)別能力是非常重要的。Center loss[25]通過(guò)懲罰深度特征及相應(yīng)類(lèi)別中心點(diǎn)的歐氏空間距離來(lái)實(shí)現(xiàn)類(lèi)內(nèi)相近的目的。L-Softmax[26]將原始的Softmax進(jìn)行了改進(jìn),提出了角度的邊界約束來(lái)限制類(lèi)間距離。SphereFace[27]在L-Softmax的基礎(chǔ)上對(duì)權(quán)重進(jìn)行了歸一化,認(rèn)為最后一個(gè)全連接層的線性變換矩陣可以作為角度空間類(lèi)別中心的表示,通過(guò)乘法的方式來(lái)懲罰深度特征與相應(yīng)權(quán)重間的角度,為損失函數(shù)的設(shè)計(jì)提供了清晰的幾何解釋。Focal loss[28]根據(jù)特定任務(wù)中數(shù)據(jù)集數(shù)據(jù)不平衡的特點(diǎn),提出一個(gè)難樣本挖掘損失函數(shù),來(lái)降低數(shù)據(jù)集中易分樣本的權(quán)重。在特定的人臉識(shí)別任務(wù)中,不同的損失函數(shù)可能發(fā)揮出不同的效果。在點(diǎn)云人臉識(shí)別任務(wù)中,數(shù)據(jù)集不僅質(zhì)量低,更會(huì)出現(xiàn)沒(méi)有判別信息的問(wèn)題,如圖1第2行所示,在這種情況下傳統(tǒng)的損失函數(shù)無(wú)法應(yīng)對(duì)大量含噪數(shù)據(jù)的干擾。
本文提出結(jié)合多尺度注意力特征融合和抗噪聲的自適應(yīng)損失函數(shù)的方法,流程如圖2所示。該方法主要包含3個(gè)模塊:
(1) 輕量的CNN特征提取模塊。為了實(shí)現(xiàn)模型的高效,減少參數(shù)量和內(nèi)存開(kāi)銷(xiāo),主干網(wǎng)絡(luò)僅由4個(gè)Block組成,每個(gè)Block的組成如圖2所示,由一個(gè)的卷積層、BatchNormal層和ReLU層組成。4個(gè)模塊中每個(gè)卷積核的寬度分別為32,64,128和256。經(jīng)過(guò)4個(gè)模塊的特征提取,獲得4個(gè)不同感受野大小的特征圖,為后續(xù)多尺度注意力特征融合提供前提條件。
(2) 多尺度注意力特征融合模塊(multi-scale attention feature module,MS-AFM)。通過(guò)將不同卷積核大小得到的特征圖來(lái)進(jìn)行注意力特征的提取,并由高層的注意力權(quán)重來(lái)引導(dǎo)低層注意力權(quán)重的生成,獲得不同尺度特征圖的注意力特征,并最終在通道維度進(jìn)行連接。
(3) 抗噪聲的自適應(yīng)損失函數(shù)模塊(anti-noise adaptive loss,AN Loss)。在全連接層后的Softmax輸出基礎(chǔ)上加了自適應(yīng)調(diào)節(jié)因子,最終實(shí)現(xiàn)抗噪聲的自適應(yīng)損失函數(shù)的設(shè)計(jì)。
本文工作的主要?jiǎng)?chuàng)新如下:
(1) 提出了一個(gè)針對(duì)3D點(diǎn)云人臉識(shí)別的多尺度注意力融合模塊,可以學(xué)習(xí)全局注意力和局部注意力相融合的特征解決了傳統(tǒng)注意力特征過(guò)于關(guān)注背景信息而丟失了局部細(xì)節(jié)信息的問(wèn)題;通過(guò)高層注意力特征來(lái)輔助低層注意力特征的生成,解決了傳統(tǒng)串聯(lián)特征融合方式忽略了來(lái)自多尺度輸出特征的不同通道間特征相關(guān)性的問(wèn)題。
(2) 提出了一個(gè)抗噪聲的自適應(yīng)損失函數(shù),該損失函數(shù)可以使得網(wǎng)絡(luò)自適應(yīng)地弱化噪聲對(duì)模型訓(xùn)練的負(fù)面影響,提高模型的魯棒性和泛化能力。
(3) 為了緩解低質(zhì)量點(diǎn)云人臉數(shù)據(jù)集的匱乏,本文建設(shè)了一個(gè)包含60個(gè)人和4個(gè)類(lèi)別的低質(zhì)量點(diǎn)云人臉數(shù)據(jù)集KinectFaces。本文所提出的輕量點(diǎn)云人臉識(shí)別模型在公開(kāi)數(shù)據(jù)集Lock3DFace和本文提出的KinectFaces數(shù)據(jù)集上取得較好的識(shí)別準(zhǔn)確率,顯示了本算法良好的識(shí)別性能和泛化能力。
在低質(zhì)量3D人臉識(shí)別任務(wù)中,由于輸入到網(wǎng)絡(luò)的數(shù)據(jù)會(huì)經(jīng)過(guò)圖像的預(yù)處理,人臉一般位于圖像的固定位置。因此,為了提取圖像特征固定位置的語(yǔ)義信息,提升模型識(shí)別精度,本文提出多尺度注意力特征融合模塊MS-AFM。
2.1.1 CBAM中通道注意力機(jī)制
考慮到人臉識(shí)別任務(wù)的特殊性,待分類(lèi)的人臉特征位于圖像的固定位置,全局最大池化不同于全局平均池化可以減少無(wú)用信息的影響,保留更多固定位置的語(yǔ)義信息。此外,為了保留更多固定位置的語(yǔ)義線索,本文分別采用全局最大池化來(lái)保留全局注意力和使用最大池化來(lái)保留局部注意力相結(jié)合的方式來(lái)保留更多有用的信息。
2.1.2 融合局部注意力的通道注意力機(jī)制
為了提取通道間的空間信息,分別通過(guò)全局最大池化和最大池化來(lái)取得通道全局注意力和通道局部注意力。為了保持模型的輕量性,2個(gè)分支分別用逐點(diǎn)卷積來(lái)融合通道信息,保存圖像在每個(gè)空間位置上的通道信息。通道局部注意力()?R×H×和通道全局注意力()?R×H×分別為
在局部通道注意力()中,為經(jīng)過(guò)最大池化后的特征,池化卷積核大小7×7。1的卷積核大小為/×1×1,2的卷積核大小為×1×1。全局通道注意力()通過(guò)全局最大池化輸出到兩層卷積核、通道數(shù)和局部注意力分支一樣的分支中。全局注意力采用全局最大池化而不是全局平均池化,可以獲取人臉在固定位置的特征線索。通道局部注意力采用最大池化和兩層卷積,可以保留通道信息中的空間線索,可以更準(zhǔn)確地提取特征的細(xì)節(jié)信息。網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,最終通道注意力特征為
經(jīng)過(guò)多尺度通道注意力特征得到的特征圖進(jìn)行空間注意力的特征提取為
2.1.3 多尺度注意力融合
在CNN中不同的卷積層包含著不同的信息。中如,在較低的卷積層含有基礎(chǔ)的顏色、邊際信息,同時(shí)在較高的層編碼有抽象和語(yǔ)義線索,因此融合不同層的信息可以生成更好的特征。本文采用高層注意力特征權(quán)重來(lái)輔助低層注意力特征的生成。兩層特征圖的注意力融合方式為
其中,?R×H×為融合后的特征;為低層特征圖;為高層卷積得到的特征圖;為注意力機(jī)制模塊具體的連接方式(圖4)。
圖4 多尺度注意力特征圖融合(MS-AFM)
Fig. 4 Multi-scale attentional feature fusion module
如圖4所示,4個(gè)模塊中通過(guò)3×3卷積捕獲到不同感受野大小的信息,經(jīng)過(guò)上述注意力模塊得到的特征圖通過(guò)下采樣固定到相同的尺寸,在通道維度進(jìn)行連接后,得到多尺度注意力融合最終的特征圖。
如圖1所示,不同精度設(shè)備采集的數(shù)據(jù)集在質(zhì)量上差別巨大。為了避免模型將噪聲當(dāng)作要學(xué)習(xí)的特征,本文構(gòu)建了一個(gè)抗噪聲的自適應(yīng)損失函數(shù)。
許多人臉識(shí)別損失函數(shù)的研究是交叉熵Softmax損失函數(shù)的變例,對(duì)于一張人臉圖像通過(guò)網(wǎng)絡(luò)提取其特征向量?R,其類(lèi)別用y表示,則對(duì)于的分類(lèi)概率為
交叉熵?fù)p失函數(shù)為
對(duì)于所有樣本的損失函數(shù)為
其中,為樣本總數(shù);為正例樣本個(gè)數(shù);為負(fù)例樣本個(gè)數(shù);=+。
為了便于表示,樣本正確分類(lèi)的概率用p代替,即
則交叉熵?fù)p失函數(shù)為
圖5損失函數(shù)
通過(guò)消費(fèi)級(jí)3D攝像機(jī)采集的點(diǎn)云人臉數(shù)據(jù)往往存在著大量的噪聲,并且圖像大小不適用于直接用來(lái)做人臉識(shí)別。例如,通過(guò)Kinect采集的Lock3DFace數(shù)據(jù)集包含了點(diǎn)云人臉數(shù)據(jù)集和相對(duì)應(yīng)的關(guān)鍵點(diǎn)的坐標(biāo)信息。在進(jìn)行點(diǎn)云人臉識(shí)別網(wǎng)絡(luò)訓(xùn)練和測(cè)試之前,需要先對(duì)點(diǎn)云人臉數(shù)據(jù)進(jìn)行插值、鼻尖校準(zhǔn)。為了輸入到深度卷積神經(jīng)網(wǎng)絡(luò)中,也需要將圖像進(jìn)行歸一化。此外,由于點(diǎn)云人臉數(shù)據(jù)集較少,對(duì)數(shù)據(jù)集的增強(qiáng)往往是點(diǎn)云人臉識(shí)別的必要工作。
(1) 插值。為了提高低質(zhì)量深度圖像中人臉的占比,提升分辨率,與文獻(xiàn)[11]類(lèi)似,使用Lock3DFace中提供的坐標(biāo)值,將人臉從原始深度幀(512, 424)中裁剪出180×180的人臉,并將其線性插值到360×360。
(2) 鼻尖校準(zhǔn)。為了切除非面部區(qū)域,使用數(shù)據(jù)集提供的鼻尖坐標(biāo)(,),在其周?chē)ㄎ怀鲆粋€(gè)5×5的區(qū)域,并使用其中值而不是平均值作為修改的基準(zhǔn)點(diǎn)來(lái)切除非面部區(qū)域,避免大量孔洞噪聲的影響。
(3) 人臉投影。為了使點(diǎn)云人臉圖像能夠適用基于2D圖像訓(xùn)練的CNN,按照Led3D中提供的方法將3D點(diǎn)云投影到2D空間中并將深度人臉填充到固定大小,最終將深度人臉圖像歸一化到[0,255]的范圍內(nèi)。
(4) 數(shù)據(jù)增強(qiáng)。為了提高點(diǎn)云人臉數(shù)據(jù)集的規(guī)模,使用姿勢(shì)生成、形狀縮放來(lái)進(jìn)行圖像增強(qiáng)。姿勢(shì)生成,即在本項(xiàng)工作中對(duì)點(diǎn)云人臉圖像項(xiàng)進(jìn)行左右旋轉(zhuǎn)角度[–600,600]和俯仰角度[–400,400],每隔200生成新的人臉圖像;形狀縮放,即為了模擬因?yàn)槿四樑c相機(jī)距離不同而導(dǎo)致的人臉在圖像中分辨率的變化,將二值化后的人臉圖像放大1.15倍和1.35倍。
本文實(shí)驗(yàn)共使用了3個(gè)數(shù)據(jù)集,分別是Lock3DFace,Bosphorus和KinectFaces。其中Lock3DFace是當(dāng)前低質(zhì)量點(diǎn)云人臉識(shí)別領(lǐng)域的主要數(shù)據(jù)集,用來(lái)測(cè)試和微調(diào)網(wǎng)絡(luò)模型。KinectFaces是本文為了彌補(bǔ)低質(zhì)量人臉數(shù)據(jù)集的匱乏而建設(shè)的一個(gè)3D點(diǎn)云人臉識(shí)別數(shù)據(jù)集,用來(lái)測(cè)試驗(yàn)證網(wǎng)絡(luò)模型的泛化能力。高精度的Bosphorus數(shù)據(jù)集僅用來(lái)進(jìn)行網(wǎng)絡(luò)模型的初步訓(xùn)練[29]。
(1) Lock3DFace[9]。該數(shù)據(jù)集是當(dāng)前最大的低質(zhì)量點(diǎn)云人臉公開(kāi)數(shù)據(jù)集,使用Kinect V2進(jìn)行拍攝。其中包含509人的5 671個(gè)視頻序列,有自然狀態(tài)(NU)、表情變化(FE)、遮擋(OC)、姿勢(shì)(PS)和時(shí)間變化(TM) 5個(gè)類(lèi)別。其中,時(shí)間變化是指在2個(gè)相隔半年拍攝的數(shù)據(jù)集類(lèi)別。
(2) Bosphorus[7]。該數(shù)據(jù)集是采用高精度3D傳感器拍攝的點(diǎn)云人臉數(shù)據(jù)集。其中,包含105個(gè)人的4 666張3D人臉圖像,包含表情變化、遮擋和姿勢(shì)變化3個(gè)類(lèi)別。
(3) KinctFaces。該數(shù)據(jù)集是本文建設(shè)的一個(gè)包含60人的低質(zhì)量點(diǎn)云人臉數(shù)據(jù)集。使用Kinect V3設(shè)備進(jìn)行拍攝,同步保存深度圖像和相應(yīng)的關(guān)鍵點(diǎn)坐標(biāo)信息,包含自然狀態(tài)、表情變化、姿勢(shì)變化、光噪聲4個(gè)類(lèi)別,其中針對(duì)光的折射對(duì)戴眼鏡個(gè)體的數(shù)據(jù)采集有較大影響的問(wèn)題,本數(shù)據(jù)集首次將戴眼睛群體的數(shù)據(jù)歸類(lèi)為光噪聲類(lèi)別,如圖1中第3行所示。此外,該數(shù)據(jù)集包含4個(gè)類(lèi)別的9 600張人臉圖像,因?yàn)樵诖髮W(xué)校園中進(jìn)行拍攝,所拍攝對(duì)象年齡集中在20~25歲之間。
本文實(shí)驗(yàn)平臺(tái)Tesla V100。軟件環(huán)境為:Ubuntu18.04,mxnet-cu101。權(quán)重衰減設(shè)置為0.000 5。學(xué)習(xí)率為0.01,Batch Size為300。輸入數(shù)據(jù)調(diào)整到128×128進(jìn)行訓(xùn)練。
4.2.1 測(cè)試方法
Led3D是Lock3DFace數(shù)據(jù)集中準(zhǔn)確率最高的網(wǎng)絡(luò)模型,為了實(shí)驗(yàn)的公平,采用Led3D中的測(cè)試方法作為標(biāo)準(zhǔn)。具體來(lái)說(shuō),將Bosphorus中提供的數(shù)據(jù)集進(jìn)行第一步訓(xùn)練,使用Lock3DFace中的數(shù)據(jù)集進(jìn)行微調(diào)。在Lock3DFace數(shù)據(jù)集中隨機(jī)選擇509個(gè)個(gè)體中340個(gè)類(lèi)別的全部數(shù)據(jù)用于訓(xùn)練,其中采集每個(gè)視頻前6幀用于訓(xùn)練,其余的169個(gè)類(lèi)別作為測(cè)試數(shù)據(jù)。此外,在340個(gè)個(gè)體的自然狀態(tài)人臉中每個(gè)視頻選擇6張圖片進(jìn)行數(shù)據(jù)增強(qiáng)。在測(cè)試集中選擇每個(gè)個(gè)體的自然狀態(tài)人臉一張圖片作為gallery,其余所有圖片作為probe。計(jì)算rank-one測(cè)試結(jié)果進(jìn)行統(tǒng)計(jì)。
4.2.2 參數(shù)討論
表1 不同超參數(shù)對(duì)結(jié)果的影響(%)
4.2.3 消融實(shí)驗(yàn)
為研究本文算法對(duì)各個(gè)模塊產(chǎn)生的性能增益,逐步添加多尺度注意力融合模塊、抗噪聲的自適應(yīng)損失函數(shù),且分別評(píng)估算法在低質(zhì)量Lock3DFace數(shù)據(jù)集上的性能指標(biāo),為保證實(shí)驗(yàn)的公平性實(shí)驗(yàn)中所有的參數(shù)設(shè)置都相同,Anti-noise Adaptive Loss的超參數(shù)設(shè)置為=1。實(shí)驗(yàn)結(jié)果見(jiàn)表2,每個(gè)模塊對(duì)模型性能的提升均有不同程度的貢獻(xiàn),其中多尺度注意力融合模塊貢獻(xiàn)最大,提升近5%的性能增益,主要得益于其能迫使模型學(xué)習(xí)到局部注意力信息。之后通過(guò)增加抗噪聲的自適應(yīng)損失函數(shù),使模型性能得到提高,最終結(jié)合所有的模塊,本文方法達(dá)到了較好的性能,平均rank-one可以達(dá)到49.53%。
為了驗(yàn)證多尺特征融合模塊中不同分支設(shè)置的影響,本文設(shè)置了不同的消融模塊,如圖6所示。
表2 每種改進(jìn)策略產(chǎn)生的性能增益對(duì)比(%)
圖6 不同結(jié)構(gòu)的通道注意力融合機(jī)制
表3實(shí)驗(yàn)驗(yàn)證了采用全局最大池化和最大池化的注意力結(jié)構(gòu)在除了時(shí)間類(lèi)別的多個(gè)類(lèi)別中均取得了最好的識(shí)別效果,以及全局注意力信息和局部注意力信息相結(jié)合的方式,在點(diǎn)云人臉識(shí)別任務(wù)中可以更好地提取語(yǔ)義信息。
表3 注意力模塊設(shè)計(jì)的消融實(shí)驗(yàn)(%)
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
為了驗(yàn)證本文MS-AFM (multi-scale attention feature module)模塊的優(yōu)越性,將多種注意力機(jī)制嵌入到其中進(jìn)行了對(duì)比。因?yàn)锳FF[30]和SENet中沒(méi)有空間注意力機(jī)制,而且空間注意力機(jī)制不是本文的主要工作,為保證實(shí)驗(yàn)的公平性,空間注意力機(jī)制不參與實(shí)驗(yàn)的比較,其他參數(shù)設(shè)置也完全和MS-AFM相同。實(shí)驗(yàn)結(jié)果見(jiàn)表4,本文所提出的MS-AFM模塊在所有類(lèi)別中均領(lǐng)先于其他模型。
表4 不同注意力機(jī)制對(duì)準(zhǔn)確率的影響(%)
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
由表4可得,本文所提出的注意力機(jī)制在點(diǎn)云人臉識(shí)別任務(wù)中超越了大多數(shù)注意力機(jī)制。相較于AFF,本文模塊雖然在時(shí)間變化類(lèi)別上略低,但在其他類(lèi)別上可大幅超過(guò),平均識(shí)別精度可以高出2.39%。AFF的通道注意力采用了局部注意力和全局注意力結(jié)合的方法和本文方法思想類(lèi)似,驗(yàn)證了局部注意力在人臉識(shí)別任務(wù)中的重要性。
在Lock3DFace數(shù)據(jù)集上任意抽取10個(gè)人的20張圖像,使用表4中3個(gè)不同注意力機(jī)制提取人臉特征,并將得到的特征使用t-SNE算法進(jìn)行可視化,得到結(jié)果如圖7所示。經(jīng)過(guò)對(duì)比可以發(fā)現(xiàn),本文方法得到的特征向量更加的緊湊且具可分離性,驗(yàn)證了MS-AFM模塊的有效性。
4.2.4 多模型測(cè)試結(jié)果對(duì)比
為了驗(yàn)證本文方法的有效性,首先與文獻(xiàn)[11]的Led3D算法和其所選用方法進(jìn)行對(duì)比。本文所使用的實(shí)驗(yàn)方法為4.2.1節(jié)中所示。試驗(yàn)結(jié)果見(jiàn)表5,本文模型性能在所有子集上超越了大多數(shù)先進(jìn)算法,并優(yōu)于當(dāng)下最先進(jìn)的低質(zhì)量3D圖像人臉識(shí)別網(wǎng)絡(luò)Led3D。在表情和姿勢(shì)2個(gè)子集中有較大地提升,驗(yàn)證了模型在應(yīng)對(duì)復(fù)雜數(shù)據(jù)時(shí)的魯棒性。實(shí)驗(yàn)統(tǒng)計(jì)方法與4.2.1中相同,沒(méi)有剔除任何數(shù)據(jù)。
圖7 不同結(jié)構(gòu)的通道注意力融合機(jī)制特征生成圖((a)MS-AFM模塊得到的特征圖;(b)使用MS-SENet得到的特征圖;(c)使用MS-AFF得到的特征圖)
表5 不同方法在Lock3DFace上的準(zhǔn)確率(%)
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
為了驗(yàn)證本文方法的魯棒性和有效性,給預(yù)處理后的Lock3Dface測(cè)試集的正面子集圖像上分別添加了10%,20%,30%和40%的椒鹽噪聲。經(jīng)過(guò)處理后的人臉圖像如圖8所示,與不同模型的對(duì)比實(shí)驗(yàn)結(jié)果如圖9所示。
圖8 可視化的混合椒鹽噪聲人臉深度圖像
圖9 添加椒鹽噪聲的實(shí)驗(yàn)結(jié)果
從圖9可以看出,在噪聲強(qiáng)度不斷增大的情況下,本文方法相比其他方法,識(shí)別性能更加穩(wěn)定,且識(shí)別準(zhǔn)確率優(yōu)于其他方法。驗(yàn)證了本文方法在特征提取過(guò)程中對(duì)噪聲的魯棒性,此外通過(guò)多尺度注意力融合模塊提取到了更多的判別性特征,從而提高模型別率。
4.2.5 泛化性實(shí)驗(yàn)和數(shù)據(jù)增強(qiáng)
本實(shí)驗(yàn)通過(guò)4.2.1中介紹的方法訓(xùn)練模型,添加了數(shù)據(jù)增強(qiáng)的訓(xùn)練數(shù)據(jù)集。在KinectFaces數(shù)據(jù)集上進(jìn)行測(cè)試,來(lái)驗(yàn)證本文模型的泛化能力和數(shù)據(jù)增強(qiáng)的效果。
從表6中可以看出使用數(shù)據(jù)增強(qiáng)技術(shù)雖然在個(gè)別類(lèi)別上模型準(zhǔn)確率有所下降,但在大部分類(lèi)別上對(duì)模型識(shí)別準(zhǔn)確率都有不小地提升,說(shuō)明了當(dāng)前低質(zhì)量點(diǎn)云人臉識(shí)別領(lǐng)域數(shù)據(jù)集規(guī)模仍然是制約模型識(shí)別精度提升的主要因素。此外,本文方法在KinectFaces數(shù)據(jù)集上的識(shí)別準(zhǔn)確率遠(yuǎn)高于其他算法,表現(xiàn)出了模型較好的泛化性和較高識(shí)別準(zhǔn)確率。
表6 在KinectFaces數(shù)據(jù)集上的rank-one測(cè)試(%)
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
本文算法在低質(zhì)量點(diǎn)云人臉數(shù)據(jù)集上表現(xiàn)出相對(duì)較好的識(shí)別能力,并具有不錯(cuò)的泛化性,通過(guò)實(shí)驗(yàn)結(jié)果分析可以看出點(diǎn)云人臉識(shí)別算法所提出的多尺度注意力融合模塊可以加強(qiáng)對(duì)圖片中人臉信息的關(guān)注,獲得含有強(qiáng)有力判別性的特征,且本文提出的抗噪聲的自適應(yīng)損失函數(shù)也適用于含有大量噪聲的點(diǎn)云數(shù)據(jù)集。但本文也存在一定的局限性,低質(zhì)量點(diǎn)云人臉數(shù)據(jù)集數(shù)量較少,數(shù)據(jù)集規(guī)模將對(duì)最終實(shí)驗(yàn)結(jié)果有著較大影響,但本文所使用的數(shù)據(jù)增強(qiáng)方法并不能大幅度提升數(shù)據(jù)集數(shù)量,因此對(duì)于數(shù)據(jù)增強(qiáng)方法還有較大改進(jìn)的空間。另一方面,抗噪聲的自適應(yīng)損失函數(shù)存在2個(gè)超參數(shù),超參數(shù)的需要根據(jù)數(shù)據(jù)集的噪聲程度進(jìn)行設(shè)置,但目前對(duì)于噪聲的評(píng)估并沒(méi)有具體可以量化的公式進(jìn)行計(jì)算。
(感謝:北京航空航天大學(xué)IRIP實(shí)驗(yàn)室提供的數(shù)據(jù)集的支持。本代碼將在https://github.com/Shel dongg/3dfacems-afm進(jìn)行共享。)
[1] 侯守明, 杜成菲, 王陽(yáng), 等. 基于Kinect的拉普拉斯網(wǎng)格形變?nèi)S人臉建模[J]. 圖學(xué)學(xué)報(bào), 2018, 39(5): 970-975.
HOU S M, DU C F, WANG Y, et al. Laplace’s grid deformation 3D face modeling based on kinect[J]. Journal of Graphics, 2018, 39(5): 970-975 (in Chinese).
[2] TOLOSANA R, VERA-RODRIGUEZ R, FIERREZ J, et al. Deepfakes and beyond: a survey of face manipulation and fake detection[J]. Information Fusion, 2020, 64: 131-148.
[3] HUANG D, ARDABILIAN M, WANG Y H, et al. 3-D face recognition using eLBP-based facial description and local feature hybrid matching[J]. IEEE Transactions on Information Forensics and Security, 2012, 7(5): 1551-1565.
[4] SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: a unified embedding for face recognition and clustering[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 815-823.
[5] KARAM L J, ZHU T. Quality labeled faces in the wild (QLFW): a database for studying face recognition in real-world environments[C]//Proc SPIE 9394, Human Vision and Electronic Imaging XX, Bellingham:Society of Photo-Optical Instrumentation Engineers, 2015:93940B.
[6] PHILLIPS P J, FLYNN P J, SCRUGGS T, et al. Overview of the face recognition grand challenge[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2005: 947-954.
[7] SAVRAN A, ALYüZ N, DIBEKLIO?LU H, et al. Bosphorus database for 3D face analysis[M]//Lecture Notes in Computer Science. Berlin: Springer, 2008: 47-56.
[8] YIN L J, WEI X Z, SUN Y, et al. A 3D facial expression database for facial behavior research[C]//The 7th International Conference on Automatic Face and Gesture Recognition. New York: IEEE Press, 2006: 211-216.
[9] ZHANG J J, HUANG D, WANG Y H, et al. Lock3DFace: a large-scale database of low-cost Kinect 3D faces[C]//2016 International Conference on Biometrics. New York: IEEE Press, 2016: 1-8.
[10] ZHU Z, HUANG G, DENG J K, et al. WebFace260M: a benchmark unveiling the power of million-scale deep face recognition[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2021: 10487-10497.
[11] MU G D, HUANG D, HU G S, et al. Led3D: a lightweight and efficient deep approach to recognizing low-quality 3D faces[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 5766-5775.
[12] KIM D, HERNANDEZ M, CHOI J, et al. Deep 3D face identification[C]//2017 IEEE International Joint Conference on Biometrics. New York: ACM Press, 2017: 133-142.
[13] BHOPLE A R, SHRIVASTAVA A M, PRAKASH S. Point cloud based deep convolutional neural network for 3D face recognition[J].Multimedia Tools and Applications, 2021, 80(20): 30237-30259.
[14] CHARLES R Q, HAO S, MO K C, et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 77-85.
[15] LI B, XI T, ZHANG G, et al. Dynamic class queue for large scale face recognition In the wild[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2021: 3762-3771.
[16] FAN D P, WANG W G, CHENG M M, et al. Shifting more attention to video salient object detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 8546-8556.
[17] FU K R, FAN D P, JI G P, et al. JL-DCF: joint learning and densely-cooperative fusion framework for RGB-D salient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 3049-3059.
[18] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[BE/OL]. [2022-06-11]. https://proceedings.neurips. cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf.
[19] FU J, LIU J, TIAN H J, et al. Dual attention network for scene segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 3141-3149.
[20] WANG X L, GIRSHICK R, GUPTA A, et al. Non-local neural networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7794-7803.
[21] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7132-7141.
[22] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.
[23] 王江安, 龐大為, 黃樂(lè), 等. 基于多尺度特征遞歸卷積的稠密點(diǎn)云重建網(wǎng)絡(luò)[J]. 圖學(xué)學(xué)報(bào), 2022, 43(5): 875-883.
WANG J A, PANG D W, HUANG L, et al. Dense point cloud reconstruction network using multi-scale feature recursive convolution[J]. Journal of Graphics, 2022, 43(5): 875-883 (in Chinese).
[24] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2022-05-10]. https://arxiv.org/abs/1409.1556.
[25] WEN Y D, ZHANG K P, LI Z F, et al. A discriminative feature learning approach for deep face recognition[M]//Computer Vision - ECCV 2016. Cham: Springer International Publishing, 2016: 499-515.
[26] LIU W Y, WEN Y D, YU Z D, et al. Large-margin softmax loss for convolutional neural networks[EB/OL]. [2022-06-09]. https://arxiv.org/abs/1612.02295.
[27] LIU W Y, WEN Y D, YU Z D, et al. SphereFace: deep hypersphere embedding for face recognition[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 6738-6746.
[28] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 2999-3007.
[29] 龔勛, 周煬. 面向低質(zhì)量數(shù)據(jù)的3D人臉識(shí)別[J]. 電子科技大學(xué)學(xué)報(bào), 2021, 50(1): 43-51.
GONG X, ZHOU Y. 3D face recognition for low quality data[J]. Journal of University of Electronic Science and Technology of China, 2021, 50(1): 43-51 (in Chinese).
[30] DAI Y M, GIESEKE F, OEHMCKE S, et al. Attentional feature fusion[C]//2021 IEEE Winter Conference on Applications of Computer Vision. New York: IEEE Press, 2021: 3559-3568.
Multi-scale attention fusion and anti-noise lightweight 3D point cloud face recognition model
GUO Wen1, LI Dong1, YUAN Fei2
(1. School of Information and Electronic Engineering, Shandong Technology and Business University, Yantai Shandong 264005, China; 2. Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100195, China)
The key to achieving point cloud face recognition is discriminative feature extraction and noise robustness for low quality data. To address the problems that the existing lightweight point cloud face recognition algorithms cannot adequately extract discriminative features and that the large amount of noise in the dataset affects model training, we designed a lightweight and efficient network model and proposed a point cloud face recognition algorithm based on multi-scale attention fusion and noise-resistant adaptive loss function. Firstly, the features of receptive fields of different sizes were generalized. Then, the multi-scale attention features were extracted, and high-level attention weights were utilized to guide the generation of low-level attention weights. Finally, channel fusion was performed to obtain multi-scale fusion features, which improved the model’s ability to capture face details. Meanwhile, according to the noise information characteristics of low-quality point cloud face images, a novel anti-noise adaptive loss function was designed to deal with the possible negative impact of the large amount of noise in the dataset on the model training process, thus enhancing the robustness and generalization ability of the model. Experiments on open-source datasets such as Lock3Dface and KinectFaces show that the proposed method yields better performance on low-quality 3D face recognition accuracy.
point loud face recognition; attention feature fusion; attention feature extraction; loss function
TP 391
10.11996/JG.j.2095-302X.2022061124
A
2095-302X(2022)06-1124-10
2022-07-17;
:2022-10-05
國(guó)家自然科學(xué)基金項(xiàng)目(62072286,61876100,61572296);山東省研究生教育創(chuàng)新計(jì)劃(SDYAL21211);山東省高等學(xué)校青創(chuàng)科技支持計(jì)劃(2019KJN041);國(guó)家重點(diǎn)研發(fā)計(jì)劃(2020YFC0832503)
郭 文(1978-),男,教授,博士。主要研究方向?yàn)橛?jì)算機(jī)視覺(jué)與多媒體計(jì)算。E-mail:wguo@sdtbu.edu.cn
17 July,2022;
5 October,2022
National Natural Science Foundation of China (62072286, 61876100, 61572296); Shandong Province Postgraduate Education Innovation Program (SDYAL21211); Shandong Higher Education Youth Innovation and Technology Support Program (2019KJN041); National Key Research and Development Program of China (2020YFC0832503)
GUO Wen (1978-), professor, Ph.D. His main research interests cover computer vision and multimedia computing. E-mail:wguo@sdtbu.edu.cn