桑高麗,肖述笛,趙啟軍*
1.嘉興學(xué)院信息科學(xué)與工程學(xué)院,嘉興 314001;2.四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065
近年來(lái),受益于便攜式3 維傳感技術(shù)的發(fā)展,基于低質(zhì)量3 維人臉的識(shí)別研究受到越來(lái)越多的關(guān)注。區(qū)別于傳統(tǒng)高質(zhì)量3 維人臉數(shù)據(jù)(徐成華 等,2004),基于便攜式3 維傳感器采集的3 維人臉數(shù)據(jù)存在嚴(yán)重的質(zhì)量差、噪聲大和精度低等問(wèn)題。圖1展示了傳統(tǒng)高質(zhì)量和低質(zhì)量3 維人臉數(shù)據(jù)對(duì)比圖??梢钥闯?,低質(zhì)量3 維人臉數(shù)據(jù)表面存在大量毛刺,數(shù)據(jù)采集精度較低,給基于低質(zhì)量3 維人臉識(shí)別的研究帶來(lái)很大困難。目前基于低質(zhì)量3 維人臉的識(shí)別精度很難令人滿意(He 等,2016;Mu 等,2019;Liu等,2019;龔勛和周煬,2021),基于低質(zhì)量3 維人臉識(shí)別方法的研究非常有限且面臨諸多挑戰(zhàn)。
圖1 低質(zhì)量和高質(zhì)量3維人臉數(shù)據(jù)對(duì)比圖Fig.1 Low-quality and high-quality 3D face data comparison diagram ((a)high-quality 3D faces;(b)low-quality 3D faces)
現(xiàn)有基于低質(zhì)量3 維人臉識(shí)別方法主要圍繞低質(zhì)量3 維數(shù)據(jù)質(zhì)量提升、有效特征提取等方面開(kāi)展研究,存在以下困難:1)在低質(zhì)量3 維人臉數(shù)據(jù)提升方面,現(xiàn)有方法大都基于單張深度數(shù)據(jù)優(yōu)化或基于單張深度數(shù)據(jù)的重建進(jìn)行低質(zhì)量3 維人臉識(shí)別研究。基于單張深度數(shù)據(jù)所能獲取形狀信息有限,如何利用現(xiàn)有多幀視頻數(shù)據(jù)之間的互補(bǔ)信息進(jìn)行低質(zhì)量3 維數(shù)據(jù)質(zhì)量提升亟待解決。2)在有效特征提取方面,低質(zhì)量3 維人臉受噪聲影響較大,導(dǎo)致其形狀信息存在較大誤差,增加了有效特征提取難度。
針對(duì)上述存在問(wèn)題,本文主要貢獻(xiàn)如下:1)針對(duì)低質(zhì)量3 維人臉中存在的噪聲影響,本文提出了一個(gè)即插即用的軟閾值去噪模塊。不同于傳統(tǒng)的閾值去噪方法嚴(yán)重依賴于大量經(jīng)驗(yàn),本文結(jié)合深度學(xué)習(xí)方法,利用神經(jīng)網(wǎng)絡(luò)模型自動(dòng)學(xué)習(xí)軟閾值,在網(wǎng)絡(luò)提取特征的過(guò)程中對(duì)特征進(jìn)行去噪處理。2)為了實(shí)現(xiàn)低質(zhì)量3 維人臉多幀視頻數(shù)據(jù)的融合,提出基于門(mén)控循環(huán)單元的低質(zhì)量3 維人臉視頻數(shù)據(jù)融合模塊,自動(dòng)提取低質(zhì)量3 維人臉視頻幀數(shù)據(jù)間的依賴關(guān)系,實(shí)現(xiàn)視頻幀數(shù)據(jù)間互補(bǔ)信息的有效融合。3)在有效特征提取方面,結(jié)合softmax 和Arcface(additive angular margin loss for deep face recognition)提出了聯(lián)合漸變損失函數(shù),使網(wǎng)絡(luò)提取更具有判別性特征,進(jìn)一步提高了低質(zhì)量3維人臉識(shí)別準(zhǔn)確率。
對(duì)低質(zhì)量3 維人臉的研究始于2010 年以后,隨著便攜式3維采集設(shè)備Kinect v1的出現(xiàn),3維人臉數(shù)據(jù)的獲取變得更方便,也更能滿足實(shí)際應(yīng)用的需求。由于這些3 維人臉數(shù)據(jù)質(zhì)量較差,早期關(guān)于低質(zhì)量3 維人臉識(shí)別的研究主要是基于傳統(tǒng)人臉識(shí)別方法,通常將這些低質(zhì)量3 維數(shù)據(jù)與2 維RGB 圖像結(jié)合來(lái)進(jìn)行人臉識(shí)別,以減輕RGB 圖像在識(shí)別中遇到的姿態(tài)、遮擋和光照等因素影響。例如,Li 等人(2013)提出一套首先利用深度數(shù)據(jù)同時(shí)將RGB 圖像和深度圖像歸一化到正面姿態(tài)的預(yù)處理方法,然后通過(guò)稀疏表示分別對(duì)紋理和深度圖進(jìn)行相似度計(jì)算,再對(duì)相似度簡(jiǎn)單融合進(jìn)行識(shí)別。在數(shù)據(jù)規(guī)模為52 人的CurtinFace 低質(zhì)量3 維人臉數(shù)據(jù)庫(kù)(Li 等,2013)中的不同姿態(tài)、表情、光照和遮擋等圖像上都取得了較好效果。Hsu 等人(2014)為了應(yīng)對(duì)姿態(tài)變化,同時(shí)針對(duì)低質(zhì)量3 維人臉數(shù)據(jù)噪聲大的問(wèn)題,提出3D 表面重建技術(shù),利用特征點(diǎn)對(duì)人臉對(duì)齊,然后提取圖像的局部二值模式(local binary patterns,LBP)特征,并使用稀疏表示分類進(jìn)行識(shí)別。
隨著Kinect v2 和RealSense 等更多便攜式3 維采集設(shè)備的相繼出現(xiàn)和大型低質(zhì)量3 維人臉數(shù)據(jù)集Lock3DFace(low-cost kinect 3D faces)(Zhang 等,2016)和Extended-Multi-Dim (Hu 等,2019)的發(fā)布,一方面,使用這些設(shè)備獲取的低質(zhì)量3 維人臉數(shù)據(jù)質(zhì)量相比之前有了一定程度的改善;另一方面,由于低質(zhì)量3 維人臉數(shù)據(jù)庫(kù)規(guī)模的擴(kuò)大,逐漸出現(xiàn)了一些基于深度學(xué)習(xí)的方法來(lái)解決低質(zhì)量3 維人臉識(shí)別問(wèn)題。Cui 等人(2018)提出了第1 個(gè)基于深度學(xué)習(xí)的低質(zhì)量3 維人臉模型,證明了利用深度學(xué)習(xí)方法對(duì)低質(zhì)量3 維人臉識(shí)別的可能性。在低質(zhì)量3 維人臉數(shù)據(jù)提升方面,為了減輕噪聲、遮擋、姿態(tài)和表情等因素的影響,Hu等人(2019)提出了基于深度圖像歸一化為正面姿態(tài)和中性表情的低質(zhì)量3 維人臉識(shí)別算法。Mu 等人(2019)提出了一個(gè)輕量化的深度學(xué)習(xí)模型和數(shù)據(jù)預(yù)處理方法。數(shù)據(jù)處理流程包括點(diǎn)云恢復(fù)、表面細(xì)化和數(shù)據(jù)增強(qiáng)等,輕量化的深度學(xué)習(xí)模型則由5 層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)塊組成,并在其中使用4個(gè)跳躍連接來(lái)結(jié)合不同語(yǔ)義層面的信息,以生成更具有鑒別性的特征。為了減弱低質(zhì)量3 維人臉識(shí)別中噪聲的影響,Zhang等人(2021)認(rèn)為采集低質(zhì)量3維人臉數(shù)據(jù)噪聲服從一種分布,從而導(dǎo)致相應(yīng)特征存在擾動(dòng),因此受擾動(dòng)的特征也服從一種潛在分布(即給定3維人臉的后驗(yàn)分布),并提出基于低質(zhì)量3維人臉識(shí)別的分布表示方法,在Lock3DFace數(shù)據(jù)集上取得了很好的識(shí)別結(jié)果,但該算法網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜且參數(shù)量較大,時(shí)間復(fù)雜度較高,訓(xùn)練難度大。
在特征提取方面,區(qū)別于早期的傳統(tǒng)方法,Hu等人(2019)提出以高質(zhì)量3 維人臉數(shù)據(jù)為引導(dǎo),提出3 種使用高質(zhì)量3 維人臉引導(dǎo)低質(zhì)量3 維人臉識(shí)別模型訓(xùn)練的策略,減輕了低質(zhì)量3 維人臉特征提取難度。然而該算法需要同時(shí)使用高質(zhì)量和低質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練,數(shù)據(jù)獲取難度較大,且目前缺少其他包含高低質(zhì)量3 維人臉的數(shù)據(jù)集。龔勛和周煬(2021)針對(duì)低質(zhì)量3 維人臉難以提取有效特征的問(wèn)題,提出了基于dropout 的空間注意力機(jī)制和類間正則化損失,有效提高了低質(zhì)量3維人臉識(shí)別準(zhǔn)確率。
圖2 為本文提出的低質(zhì)量3 維人臉識(shí)別模型的整體結(jié)構(gòu)。首先,將視頻幀數(shù)據(jù)X=(x1,x2,…,xn) ∈Rn×128×128經(jīng) 過(guò) 預(yù) 處 理(Yang 等,2015)得到3D 人臉的法線貼圖輸入到軟閾值(soft thresholding,STD)-Led3D網(wǎng)絡(luò),在STD-Led3D網(wǎng)絡(luò)的特征提取過(guò)程中,插入軟閾值去噪模塊(soft threshold denoising module,STDM)對(duì)數(shù)據(jù)噪聲進(jìn)行過(guò)濾,得到視頻幀的特征表示Y=(y1,y2,…,yn) ∈Rn×960,然后將這些特征輸入門(mén)控循環(huán)單元融合模塊對(duì)特征向量進(jìn)行融合,得到視頻級(jí)特征表示rv∈Rn×960。圖2 中,MSFF(multi-scale-feature fusion)為多尺度特征融合模塊,SAV(spatial attention ectorization)為空間注意矢量化模塊。
圖2 聯(lián)合軟閾值去噪和視頻數(shù)據(jù)融合的低質(zhì)量3維人臉識(shí)別模型示意圖Fig.2 Diagram of soft threshold denoising and video data fusion-relevant low-quality 3D face recognition
傳統(tǒng)閾值化方法通常利用人工設(shè)計(jì)的濾波器將有用信息轉(zhuǎn)化為積極或消極的特征,并將噪聲信息轉(zhuǎn)化為接近零的特征。然而,設(shè)計(jì)這樣的過(guò)濾器需要大量的經(jīng)驗(yàn)。而深度學(xué)習(xí)中的梯度下降算法可以自動(dòng)對(duì)濾波器的閾值進(jìn)行學(xué)習(xí),避免了閾值設(shè)定的開(kāi)銷。本文設(shè)計(jì)了一個(gè)即插即用軟閾值去噪模塊(STDM)以減輕噪聲對(duì)網(wǎng)絡(luò)提取特征的影響,提高模型對(duì)噪聲的魯棒性,其結(jié)構(gòu)如圖2所示。
軟閾值去噪模塊的輸入為c×h×w大小的特征圖X,其中c為通道數(shù),h和w分別為特征圖的高度和寬度。輸入特征圖X首先通過(guò)由3 × 3 卷積層、批歸一化層、ReLU 激活層和3 × 3 卷積層組成的連通結(jié)構(gòu)進(jìn)行特征變換,得到特征圖Y。然后對(duì)變換后的特征圖Y取絕對(duì)值和全局池化來(lái)獲取軟閾值模塊的初始閾值S。為了使S不會(huì)過(guò)大,將S通過(guò)一層全連接層和sigmoid 層,得到范圍為0~1 的縮放向量M。將M作用于向量S得到每個(gè)通道最終閾值S^,最后利用該閾值對(duì)特征圖Y中的噪聲進(jìn)行過(guò)濾得到軟閾值去噪模塊輸出O。
考慮到軟閾值去噪模塊主要作用是在網(wǎng)絡(luò)提取特征的過(guò)程中進(jìn)行特征去噪,而隨著網(wǎng)絡(luò)層靠后,噪聲特征和有用特征將會(huì)混合到一起。因此,為了保證更好的去噪效果,本文將軟閾值去噪模塊插入到Led3D(Mu 等,2019)網(wǎng)絡(luò)中的第1 個(gè)結(jié)構(gòu)塊后。Led3D 網(wǎng)絡(luò)是第1 個(gè)專門(mén)設(shè)計(jì)用來(lái)提高低質(zhì)量3 維人識(shí)別準(zhǔn)確性和效率的卷積神經(jīng)網(wǎng)絡(luò)。
損失函數(shù)是特征提取的關(guān)鍵部分,特征提取過(guò)程也是使損失函數(shù)最小化的過(guò)程。損失函數(shù)越小,說(shuō)明網(wǎng)絡(luò)對(duì)當(dāng)前訓(xùn)練數(shù)據(jù)的擬合能力越好,特征判別性越高。由于低質(zhì)量3 維人臉識(shí)別是細(xì)粒度識(shí)別問(wèn)題,人臉之間相似性很強(qiáng),如何設(shè)計(jì)損失函數(shù)來(lái)優(yōu)化網(wǎng)絡(luò),使同類特征靠近、不同類特征盡量遠(yuǎn)離變得尤為重要。過(guò)去一段時(shí)間,低質(zhì)量3 維人臉識(shí)別領(lǐng)域的研究大多使用softmax 損失來(lái)優(yōu)化模型。但softmax 僅保證類別是可分的,并不要求同類特征緊湊、異類特征分離,使得最后識(shí)別準(zhǔn)確率較低。而Arcface(Deng 等,2019)損失函數(shù)可以使類內(nèi)特征更加緊湊,同時(shí)類間特征產(chǎn)生明顯的距離。
為了利用兩個(gè)損失函數(shù)的優(yōu)點(diǎn),進(jìn)一步提高網(wǎng)絡(luò)的特征提取能力,使網(wǎng)絡(luò)提取的特征同類更近、不同類更遠(yuǎn),本文將softmax損失函數(shù)與Arcface損失函數(shù)相結(jié)合,提出了一種聯(lián)合漸變損失函數(shù),計(jì)算為
式中,λ為權(quán)重參數(shù),i表示迭代次數(shù),Ls和La分別為softmax 和Arcface 損失函數(shù)。λ的值會(huì)隨著訓(xùn)練次數(shù)不同而改變。具體來(lái)說(shuō),在訓(xùn)練的最初始階段,λ為1,損失函數(shù)完全由softmax 決定。隨著迭代次數(shù)增加,當(dāng)?shù)螖?shù)達(dá)到T(根據(jù)網(wǎng)絡(luò)的實(shí)際收斂情況,本文選用T為1 500)時(shí),λ變?yōu)?,損失函數(shù)完全由Arcface決定。
直觀上,本文提出的聯(lián)合漸變損失函數(shù)會(huì)首先利用softmax 優(yōu)化網(wǎng)絡(luò),使網(wǎng)絡(luò)迅速收斂。在訓(xùn)練過(guò)程中,逐漸增加Arcface 的權(quán)重,慢慢提升模型訓(xùn)練難度,逐漸使同類特征距離更近、不同類間特征距離更遠(yuǎn),從而使模型收斂到一個(gè)更好的特征空間。
門(mén)控循環(huán)單元(gated recurrent unit,GRU)(Dey和Salem,2017)能夠很好地對(duì)序列數(shù)據(jù)之間的相關(guān)信息進(jìn)行建模,并已廣泛用于各類時(shí)序任務(wù)中。本文使用門(mén)控循環(huán)單元來(lái)建模低質(zhì)量3 維人臉視頻數(shù)據(jù)之間的相關(guān)性,提出基于門(mén)控循環(huán)單元數(shù)據(jù)融合模塊對(duì)每幀低質(zhì)量3 維人臉視頻數(shù)據(jù)進(jìn)行融合,通過(guò)對(duì)每幀視頻的所有特征表示來(lái)預(yù)測(cè)每個(gè)特征表示中每個(gè)維度的向量權(quán)值,然后加權(quán)和得到整個(gè)視頻序列融合后的低質(zhì)量3維人臉特征表示。
GRU 的具體結(jié)構(gòu)如圖2所示。設(shè)當(dāng)前節(jié)點(diǎn)輸入為xt,上一節(jié)點(diǎn)傳送的包含先前節(jié)點(diǎn)相關(guān)信息的隱藏狀態(tài)為ht-1,利用兩者,GRU 會(huì)得到當(dāng)前時(shí)間步的隱狀態(tài)輸出ht,并將其傳遞到下一時(shí)間步,其過(guò)程可表示為
式中,σ表示sigmoid函數(shù),τ表示tanh函數(shù),⊕表示向量拼接,⊙表示向量元素相乘,Wz,Uz,Wr,Ur,Wh,Uh分別表示可學(xué)習(xí)的權(quán)重矩陣。
GRU首先利用當(dāng)前時(shí)間步輸入xt和上一時(shí)間步輸出的隱藏狀態(tài)ht-1來(lái)獲取更新門(mén)控信息zt和重置門(mén)控信息rt。值得注意的是,在獲取zt和rt前會(huì)將對(duì)應(yīng)數(shù)據(jù)通過(guò)sigmoid 函數(shù),該函數(shù)會(huì)將數(shù)據(jù)范圍變換為[0,1],轉(zhuǎn)換之后的值越接近于1,代表記憶下來(lái)的信息越多,而越接近于0 代表遺忘的信息越多。求得門(mén)控信息之后,GRU 首先會(huì)使用rt對(duì)輸入的隱狀態(tài)信息ht-1進(jìn)行重置,并與xt進(jìn)行拼接,再利用tanh 激活函數(shù)功能將數(shù)據(jù)范圍縮放為[-1,1],由此得到中間狀態(tài)信息h~t。最后GRU 使用更新門(mén)zt來(lái)完成對(duì)記憶的遺忘和選擇,(1 -zt) ⊙ht-1表示對(duì)上一時(shí)間步隱藏狀態(tài)中不重要的信息進(jìn)行遺忘,zt⊙h~t表示選擇性記憶當(dāng)前時(shí)間步h~t中的信息,通過(guò)兩者可以得到當(dāng)前時(shí)間步的輸出ht。
本文提出的門(mén)控循環(huán)單元數(shù)據(jù)融合模塊由一個(gè)雙向門(mén)控循環(huán)單元、一個(gè)全連接層和一個(gè)softmax 歸一化層構(gòu)成,如圖2 所示。STD-Led3D 網(wǎng)絡(luò)輸出的視頻幀特征表示Y會(huì)首先輸入雙向門(mén)控循環(huán)單元完成視頻幀之間的依賴關(guān)系建模,即雙向門(mén)控循環(huán)單元會(huì)對(duì)視頻幀特征表示分別進(jìn)行正方向和反方向的處理,得到每幀數(shù)據(jù)與其前后視頻幀之間的關(guān)系表示Hb∈Rn×960和Ha∈Rn×960,這兩個(gè)特征向量隨后被拼接為H∈Rn×960,H被送入全連接層預(yù)測(cè)視頻幀特征的初始權(quán)值Q∈Rn×960。在特征融合前,利用softmax 操作對(duì)所有特征表示在同一維度進(jìn)行歸一化。具體來(lái)說(shuō),給定初始權(quán)重集合Q={q1,q2,…,qn},第t個(gè)視頻幀特征向量的第j個(gè)成分歸一化計(jì)算過(guò)程為
式中,qij表示第i個(gè)視頻的第j個(gè)分量。在獲得每幀數(shù)據(jù)每個(gè)維度的權(quán)重之后,即可將其與STD-Led3D輸出特征加權(quán)求和,獲得最終視頻級(jí)特征表示,計(jì)算為
式中,n表示視頻幀數(shù)量,⊙表示向量元素相乘。
3.1.1 數(shù)據(jù)庫(kù)情況
為了評(píng)估本文方法的有效性,在Lock3DFace(Zhang 等,2016)和Extended-Multi-Dim(Hu 等,2019)兩個(gè)低質(zhì)量3維人臉數(shù)據(jù)集上進(jìn)行驗(yàn)證。
Lock3DFace數(shù)據(jù)集采集自Kinect v2,包含509人的5 711個(gè)視頻樣本,并伴隨有表情、姿態(tài)、遮擋和時(shí)間流逝等方面的變化。數(shù)據(jù)集包括兩個(gè)獨(dú)立的部分,兩部分采集時(shí)間間隔最長(zhǎng)達(dá)7 個(gè)月。所有的509 人參加了第1 階段的數(shù)據(jù)采集,169 人參加了第2 階段的數(shù)據(jù)采集。Lock3DFace 數(shù)據(jù)集樣例如圖3所示。
Extended-Multi-Dim 是第1 個(gè)包含高、低質(zhì)量的3 維人臉數(shù)據(jù)集,其中低質(zhì)量深度圖和彩色圖像使用RealSense 設(shè)備采集,高質(zhì)量3 維人臉使用SCU(Sichuan University)高精3 維掃描儀采集。該數(shù)據(jù)集共包含902 個(gè)不同樣本,是最大的多模態(tài)人臉數(shù)據(jù)集。每個(gè)采集樣本伴隨3 種表情、水平方向[+90°,-90°]和俯仰角方向[+15°,-15°]連續(xù)姿態(tài)變化的數(shù)據(jù)。Extended-Multi-Dim 數(shù)據(jù)集樣例如圖4所示。
圖4 Extended-Multi-Dim數(shù)據(jù)集樣例Fig.4 The samples of Extended-Multi-Dim dataset
3.1.2 評(píng)估協(xié)議
1)Lock3DFace 閉集評(píng)估協(xié)議。本文采用與Mu等人(2019)相同的實(shí)驗(yàn)設(shè)置進(jìn)行訓(xùn)練和測(cè)試。具體地說(shuō),將每個(gè)身份的第1 個(gè)自然表情視頻數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),剩余視頻劃分為表情、遮擋、姿態(tài)和時(shí)間4 個(gè)測(cè)試子集。其中,時(shí)間子集只使用自然和表情數(shù)據(jù)。由于Lock3DFace 數(shù)據(jù)集中每個(gè)視頻內(nèi)數(shù)據(jù)相似性過(guò)大,因此所有視頻都以相等的間隔選出6幀作為代表。最后生成6 617個(gè)訓(xùn)練樣本,1 283個(gè)表情子集測(cè)試樣本,1 004 個(gè)遮擋子集測(cè)試樣本,1 010 個(gè)姿態(tài)子集測(cè)試樣本,676 個(gè)時(shí)間子集測(cè)試樣本。與Mu 等人(2019)方法一致,在Lock3DFace 數(shù)據(jù)集上訓(xùn)練的模型都使用高質(zhì)量3 維人臉數(shù)據(jù)集FRGC v2 和Bosphorus(Savran 等,2008)合并之后的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,預(yù)訓(xùn)練學(xué)習(xí)率為0.005,其他與正式訓(xùn)練保持一致。
2)Lock3DFac 開(kāi)集協(xié)議。隨機(jī)從509 個(gè)身份中選取300 個(gè)身份的所有視頻數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),剩余209 個(gè)身份的視頻數(shù)據(jù)作為測(cè)試集。并對(duì)訓(xùn)練視頻數(shù)據(jù)中每個(gè)人的第1 個(gè)自然表情視頻數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng),其余使用原始數(shù)據(jù),共生成3 272 個(gè)訓(xùn)練樣本。測(cè)試集中每個(gè)人的第1 個(gè)自然無(wú)表情視頻作為圖庫(kù)樣本,剩余視頻作為測(cè)試樣本,共包含自然、表情、遮擋、姿態(tài)和時(shí)間5 個(gè)測(cè)試子集,分別包括205,520,407,417,256 個(gè)樣本。與Lock3DFace 閉集協(xié)議一致,所有視頻都以相等的間隔選出6幀作為代表。
3)Extended-Multi-Dim 開(kāi)集評(píng)估協(xié)議。采用與Hu等人(2019)相同的實(shí)驗(yàn)設(shè)置進(jìn)行訓(xùn)練和測(cè)試,訓(xùn)練集包括430 人,約5 082 組訓(xùn)練樣本。測(cè)試時(shí),以每個(gè)身份的第1 個(gè)自然無(wú)表情視頻中的第1 個(gè)樣本作為圖庫(kù)數(shù)據(jù),其余視頻中所有樣本作為測(cè)試數(shù)據(jù),共包含自然(中性表情)、表情(張嘴、皺鼻、閉眼等)、姿態(tài)1(水平旋轉(zhuǎn)頭部)和姿態(tài)2(順時(shí)針旋轉(zhuǎn)頭部)4 個(gè)子集,分別包括2 184,1 356,857,870 個(gè)樣本。與Lock3DFace 協(xié)議一致,所有視頻都以相等的間隔選出6幀作為代表。
本文所有消融實(shí)驗(yàn)均采用Lock3DFace 閉集評(píng)估協(xié)議,并以Led3D網(wǎng)絡(luò)為基準(zhǔn)網(wǎng)絡(luò)模型。
為了驗(yàn)證本文提出的軟閾值去噪模塊、漸變損失函數(shù)模塊和門(mén)控循環(huán)單元模塊的有效性,分別在基準(zhǔn)模型上應(yīng)用相應(yīng)的模塊以及同時(shí)疊加所有模塊進(jìn)行消融實(shí)驗(yàn)。
首先,為了驗(yàn)證軟閾值去噪模塊的有效性,在基準(zhǔn)模型的不同位置添加軟閾值去噪模塊(STDM),結(jié)果如表1 所示。模型1 表示在基準(zhǔn)模型中的第1 個(gè)卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)模塊前加入STDM;模型2 表示在第1 個(gè)CNN 模塊后添加STDM;模型3 表示在第2 個(gè)CNN 模塊后添加STDM;模型4 表示在第3 個(gè)CNN 模塊后添加STDM。所有模型都使用softmax損失函數(shù)進(jìn)行訓(xùn)練。
從表1 可以看出,與基準(zhǔn)模型相比,隨著在基準(zhǔn)模型中加入STDM 的位置逐漸靠后,Rank-1 識(shí)別準(zhǔn)確率先上升后下降。其中,模型2 的Rank-1 識(shí)別準(zhǔn)確率最高,相比基準(zhǔn)模型高了2.49%,而模型4 的準(zhǔn)確率最低,相比基準(zhǔn)模型低了約2.27%。由于網(wǎng)絡(luò)利用不同層進(jìn)行特征變換,隨著層次深入,有效特征和噪聲特征會(huì)逐漸混合到一起難以分離,因此插入位置越深,效果越差。根據(jù)表1 的結(jié)果,本文使用模型在第1個(gè)CNN模塊后添加軟閾值去噪模塊。
表1 不同位置添加軟閾值去噪模塊的Rank-1識(shí)別率Table 1 Rank-1 recognition rate of adding soft threshold denoising module in different locations/%
為了直觀展示軟閾值去噪模塊在特征提取過(guò)程中的有效性,選取1 幅高質(zhì)量3 維人臉數(shù)據(jù),向其添加不同強(qiáng)度的高斯噪聲,然后將經(jīng)過(guò)軟閾值去噪模塊前后的特征可視化,觀察模塊的去噪效果。如圖5所示,第1列為加入高斯噪聲,第2~7列為經(jīng)過(guò)軟閾值去噪模塊前的特征,第8~13 列為經(jīng)過(guò)軟閾值去噪模塊后的特征。不難看出,隨著噪聲強(qiáng)度的增加,輸出特征圖中噪聲響應(yīng)越多,人臉判別性區(qū)域特征越來(lái)越不明顯。而經(jīng)過(guò)軟閾值去噪模塊后的特征包含噪聲響應(yīng)較少,有效特征也更加明顯。盡管在此添加的是高斯噪聲,不難得出,本文提出的軟閾值去噪模塊不僅在直觀上確實(shí)減弱了特征中的噪聲,在性能上也提高了低質(zhì)量3 維人臉識(shí)別準(zhǔn)確率(表1)。
圖5 軟閾值去噪模塊前后特征可視化Fig.5 Feature visualization begore and after the soft threshold denoising module
其次,為了驗(yàn)證聯(lián)合漸變損失函數(shù)的有效性,分別使用softmax、Arcface 和聯(lián)合漸變損失3 種損失函數(shù)對(duì)基準(zhǔn)模型進(jìn)行訓(xùn)練。其中,Arcface 和聯(lián)合漸變損失函數(shù)中的超參s和m使用了4 組不同的設(shè)置。如表2所示,在不同超參設(shè)置下,使用softmax損失函數(shù)的模型結(jié)果遠(yuǎn)不如使用Arcface 和聯(lián)合漸變損失的模型結(jié)果,Rank-1 準(zhǔn)確率最多相差12.06%。另外,隨著角邊距懲罰項(xiàng)m逐漸增大,使用Arcface 損失函數(shù)訓(xùn)練的模型平均準(zhǔn)確率先是增大后又減小,這是由于隨著角邊距懲罰項(xiàng)的增大,同類特征距離更緊湊,不同類特征距離變大,特征判別性高,識(shí)別效果好。而當(dāng)角邊距懲罰項(xiàng)超過(guò)一定值之后,其準(zhǔn)確率下降。這是由于角邊距懲罰項(xiàng)過(guò)大導(dǎo)致模型學(xué)習(xí)難度增加,而無(wú)法學(xué)習(xí)到一個(gè)很好的特征空間,因此識(shí)別結(jié)果大幅下降。與此相反的是,使用聯(lián)合漸變損失函數(shù)的模型不僅在同樣角邊距懲罰項(xiàng)設(shè)置下比使用Arcface 損失函數(shù)的模型取得的Rank-1 識(shí)別準(zhǔn)確率都高,同時(shí),兩者準(zhǔn)確率差距隨著角邊距懲罰項(xiàng)的增大先是逐漸減小后又逐漸增大,在m= 0.7時(shí)達(dá)到了約10.20%的差距。以上結(jié)果說(shuō)明,本文提出的聯(lián)合漸變損失函數(shù)在不同參數(shù)設(shè)置下都有助于基準(zhǔn)模型收斂到一個(gè)更好的特征空間,提升了模型識(shí)別準(zhǔn)確率。
表2 不同損失函數(shù)的Rank-1識(shí)別率Table 2 Rank-1 recognition rate of different loss functions/%
為了進(jìn)一步直觀展示聯(lián)合漸變損失函數(shù)的有效性,分析各參數(shù)對(duì)方法性能的影響,將聯(lián)合漸變損失函數(shù)(以s= 32,m= 0.7 為例)的訓(xùn)練損失曲線圖可視化。作為對(duì)比,softmax和Arcface損失函數(shù)也一并可視化,如圖6所示??梢钥闯?,softmax 損失函數(shù)的損失值起始值比較低,且很快收斂至0 附近;Arcface損失函數(shù)的起始值很高,收斂至15 附近就趨于平緩;而聯(lián)合漸變損失函數(shù)的起始值與softmax 一致,訓(xùn)練中經(jīng)歷了先降低后增加再降低的過(guò)程,這是由于聯(lián)合漸變損失函數(shù)中Arcface 所占權(quán)重逐漸增大的緣故。結(jié)合表2 的結(jié)果,說(shuō)明聯(lián)合漸變損失函數(shù)能在加快模型訓(xùn)練收斂速度的同時(shí),使模型學(xué)習(xí)到一個(gè)更好的特征空間,從而提高低質(zhì)量3 維人臉識(shí)別準(zhǔn)確率。
圖6 損失函數(shù)對(duì)比Fig.6 Comparison of different loss functions
再次,為了驗(yàn)證本文提出的門(mén)控循環(huán)單元數(shù)據(jù)融合模塊的有效性,設(shè)計(jì)了以下3 種基準(zhǔn)數(shù)據(jù)融合模型。1)投票法(Vote)。該方法在獲取每個(gè)視頻幀的身份之后,采用投票的方式確定整個(gè)視頻的身份;2)最大池化法(Maxpool)。該方法對(duì)所有視頻幀使用最大池化獲取同一維中的最大響應(yīng)值構(gòu)成視頻特征表示;3)單向門(mén)控循環(huán)單元(單向GRU)。該方法使用一層單向GRU 網(wǎng)絡(luò)對(duì)輸入視頻幀特征進(jìn)行融合,由于最后一個(gè)節(jié)點(diǎn)的輸出包含前面所有幀的相關(guān)信息,因此直接將其作為整個(gè)視頻的特征表示。本文提出的視頻數(shù)據(jù)融合模型則是在軟閾值去噪和聯(lián)合漸變損失函數(shù)的基礎(chǔ)上,添加雙向門(mén)控循環(huán)單元模塊,結(jié)果如表3所示。
表3 不同融合模型的Rank-1識(shí)別結(jié)果Table 3 Rank-1 recognition rate of different fusion models/%
從表3 可以看出,投票法Vote 和最大池化法MaxPool沒(méi)有對(duì)視頻幀之間的互補(bǔ)特征進(jìn)行學(xué)習(xí),所以Rank-1識(shí)別率較差。此外,由于前置CNN 網(wǎng)絡(luò)已經(jīng)提供了可識(shí)別特征,而單向GRU 融合模型中最后一個(gè)節(jié)點(diǎn)輸出的特征進(jìn)行加權(quán)的表示可能會(huì)與原始CNN 輸出特征有較大不同,在數(shù)據(jù)量有限的情況下,進(jìn)行新的特征學(xué)習(xí)可能會(huì)導(dǎo)致過(guò)擬合,所以單向GRU識(shí)別性能比視頻數(shù)據(jù)融合方法差。本文提出的視頻數(shù)據(jù)融合模型在大部分測(cè)試子集中都實(shí)現(xiàn)了最高的識(shí)別準(zhǔn)確率,在最后平均識(shí)別率上都高于其他方法,表明了本文提出的視頻數(shù)據(jù)融合方法的有效性。
最后,為了驗(yàn)證本文提出軟閾值去噪模塊、聯(lián)合漸變損失函數(shù)和門(mén)控循環(huán)單元模塊疊加之后的有效性,在表1取得最優(yōu)軟閾值去噪模塊位置的模型2上分別疊加聯(lián)合漸變損失函數(shù)和門(mén)控循環(huán)單元模塊,結(jié)果如表4 所示。從表4 可以看出,相比基準(zhǔn)模型,本文提出的任一模塊都對(duì)最終的識(shí)別準(zhǔn)確率有益,且疊加之后的模型取得了最佳識(shí)別性能。
表4 疊加模塊在Lock3DFace閉集協(xié)議上的對(duì)比結(jié)果Table 4 Comparison results of superposition of modules on Lock3DFace close-set protocol/%
3.3.1 Lock3DFac閉集協(xié)議實(shí)驗(yàn)結(jié)果
為驗(yàn)證本文方法的性能,與現(xiàn)有的低質(zhì)量3 維人臉識(shí)別方法VGG16(Visual Geometry Group network)(Simonyan 和Zisserman,2014)、ResNet34(residual network)(He 等,2016)、Inception-V2(Ioffe和Szegedy,2015)、MobilNet-V2(Sandler 等,2018)、Led3D(lightweight and efficient deep approach for 3D faces)(Mu 等,2019)、SAD(龔勛和周煬,2021)、NAN(neural aggregation network)(Yang 等,2017)和MAA(meta attention-based aggregation)(Liu 等,2019)方法進(jìn)行對(duì)比。
表5展示了上述方法在Lock3DFace閉集上的實(shí)驗(yàn)結(jié)果??梢钥闯?,本文方法實(shí)現(xiàn)了最好的性能,相比其他最好的結(jié)果,準(zhǔn)確率提升了3.13%。相比其他方法,本文方法的識(shí)別結(jié)果總體上有所提升,這是由于本文方法提出的軟閾值去噪模塊在特征提取過(guò)程中對(duì)噪聲進(jìn)行過(guò)濾,減輕了噪聲的影響;而本文提出的聯(lián)合漸變損失函數(shù)有效利用了softmax 和Arcface 損失函數(shù)各自的優(yōu)點(diǎn),有效降低了模型的訓(xùn)練難度,使網(wǎng)絡(luò)收斂到一個(gè)判別性更好的特征空間;另外,本文提出的視頻數(shù)據(jù)融合模塊可以融合視頻幀之間的互補(bǔ)特征,其對(duì)視頻幀之間序列進(jìn)行建模,因此效果最好。
表5 不同算法在Lock3DFace閉集協(xié)議上的對(duì)比結(jié)果Table 5 Comparison results of different algorithms on Lock3DFace close-set protocol/%
3.3.2 Lock3DFace開(kāi)集協(xié)議實(shí)驗(yàn)結(jié)果
表6展示了不同方法在Lock3DFace開(kāi)集上的實(shí)驗(yàn)結(jié)果??梢钥闯?,本文方法在平均識(shí)別率上依然高于其他所有對(duì)比模型,再次說(shuō)明了本文提出方法的有效性。同時(shí),可以發(fā)現(xiàn)本文方法在姿態(tài)子集中的結(jié)果遠(yuǎn)高于其他對(duì)比模型,說(shuō)明本文方法由于學(xué)習(xí)了視頻幀之間的互補(bǔ)特征,從而提高了識(shí)別準(zhǔn)確率。另外,與表5 相比,表6 中相同測(cè)試子集的識(shí)別結(jié)果更好,這是因?yàn)樵陂_(kāi)集上本文使用了多種類型的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,使模型泛化能力得到了增強(qiáng)。
表6 不同算法在Lock3DFace開(kāi)集協(xié)議上的對(duì)比結(jié)果Table 6 Comparison results of different algorithms on Lock3DFace open-set protocol/%
3.3.3 Extended-Multi-Dim開(kāi)集協(xié)議實(shí)驗(yàn)結(jié)果
表7 展示了不同方法在Extended-Multi-Dim 開(kāi)集上的實(shí)驗(yàn)結(jié)果??梢钥闯?,本文方法實(shí)現(xiàn)了最好的性能,相比其他最好的MAA方法平均有1.03%的準(zhǔn)確率提升。在姿態(tài)1和姿態(tài)2測(cè)試子集中,本文方法的識(shí)別結(jié)果比MAA 方法分別高出了0.58%和2.87%。Extended-Multi-Dim 中的視頻數(shù)據(jù)相比Lock3DFace 數(shù)據(jù)集中的視頻數(shù)據(jù),人臉在姿態(tài)子集中有較大的姿態(tài)變化,因此未考慮視頻幀相關(guān)性的其他方法在兩個(gè)姿態(tài)測(cè)試子集中的效果較差。而本文方法使用門(mén)控循環(huán)單元獲取不同幀之間的互補(bǔ)信息,通過(guò)互補(bǔ)信息預(yù)測(cè)特征表示每個(gè)維度的權(quán)重,然后對(duì)特征表示加權(quán)求和獲取最后的視頻級(jí)特征表示,有效提高了低質(zhì)量3 維人臉識(shí)別準(zhǔn)確率。同時(shí),也說(shuō)明了本文方法在應(yīng)對(duì)較大姿態(tài)變化時(shí)具有良好性能。
表7 不同算法在Extended-Multi-Dim開(kāi)集協(xié)議上的對(duì)比結(jié)果Table 7 Comparison results of different algorithms on Extended-Multi-Dim open-set protocol/%
本文圍繞低質(zhì)量3 維人臉數(shù)據(jù)噪聲大、依賴單幅有限深度數(shù)據(jù)提取有效特征困難的問(wèn)題,提出了一種聯(lián)合軟閾值去噪和視頻數(shù)據(jù)融合的低質(zhì)量3 維人臉識(shí)別方法。本文提出的軟閾值去噪模塊,將去噪過(guò)程直接融入深度學(xué)習(xí)網(wǎng)絡(luò)模型,避免了傳統(tǒng)閾值設(shè)置嚴(yán)重依賴人工經(jīng)驗(yàn)的缺陷;在有效特征提取方面,本文結(jié)合softmax和Arcface提出的聯(lián)合漸變損失函數(shù)使網(wǎng)絡(luò)提取更具有判別性特征;另外,本文提出的視頻數(shù)據(jù)融合模塊,利用門(mén)控循環(huán)單元對(duì)低質(zhì)量3 維人臉視頻幀特征數(shù)據(jù)間的依賴關(guān)系建模,實(shí)現(xiàn)視頻幀數(shù)據(jù)間互補(bǔ)信息的有效融合,進(jìn)一步提高了低質(zhì)量3 維人臉識(shí)別準(zhǔn)確率。大量的對(duì)比實(shí)驗(yàn)證明了本文網(wǎng)絡(luò)模型的有效性。