胡乃平, 賈浩杰
(青島科技大學(xué) 信息科學(xué)技術(shù)學(xué)院, 青島 266061)
近年來, 得益于數(shù)據(jù)集的日益龐大和硬件設(shè)備日新月異的發(fā)展, 深度學(xué)習(xí)應(yīng)用越來越廣泛, 帶動了人臉識別的快速發(fā)展. 目前二維人臉識別已趨于飽和, 在光照統(tǒng)一、表情一致的實驗室條件下, 識別準(zhǔn)確率已經(jīng)非常高. 但是二維人臉識別受光照、遮擋和姿態(tài)等的影響較大, 在光線昏暗、面部遮擋的情況下, 不能正確地識別出人臉.
三維人臉除了包含彩色圖的紋理信息之外, 也包含了深度信息. 相對于二維人臉識別, 三維人臉識別應(yīng)對遮擋、光照和姿態(tài)的變化更具有優(yōu)勢. 因此, 三維人臉識別適合更多的場景. 三維人臉識別根據(jù)數(shù)據(jù)來源的不同可分為3類: 基于RGB圖像的三維人臉識別、基于高質(zhì)量三維掃描圖像的三維人臉識別、基于低質(zhì)量RGB-D圖像的三維人臉識別. 基于RGB圖像的三維人臉識別通過RGB彩色圖像重建三維人臉模型, 但是重建模型較為復(fù)雜, 且參數(shù)極多速度較慢. 基于高質(zhì)量圖像的三維人臉識別使用高質(zhì)量三維人臉數(shù)據(jù)進行識別, 但是獲取高質(zhì)量的三維人臉數(shù)據(jù)代價高昂, 需要特定的高精度掃描儀進行采集, 并且采集的數(shù)據(jù)非常大, 會導(dǎo)致模型過于復(fù)雜. 目前高精度三維人臉數(shù)據(jù)集有Bosphorus[1]和BU-3DFE[2]等, Bosphorus為點云數(shù)據(jù), BU-3DFE為網(wǎng)格數(shù)據(jù). 基于低質(zhì)量RGB-D圖像的三維人臉識別采用的數(shù)據(jù)來源于RGB-D相機, 這類相機能夠同時采集彩色圖和深度圖, 速度快且成本較低.但是低質(zhì)量的深度圖存在大量的空洞、毛刺, 造成識別困難. Mu等人[3]單獨使用低質(zhì)量深度圖訓(xùn)練神經(jīng)網(wǎng)絡(luò), 得到的模型訓(xùn)練準(zhǔn)確度較低. 這說明了單獨使用低質(zhì)量深度圖進行人臉識別難以進行有效的區(qū)分. 因此本文使用基于低質(zhì)量RGB-D圖像的三維人臉識別方法, 結(jié)合彩色圖和深度圖進行人臉識別, 彌補單獨使用低質(zhì)量深度圖的不足. 低質(zhì)量人臉深度圖的數(shù)據(jù)集有Lock3DFace[4]、EURECOM[5]和Texas3DFRDatabase[6]等, 深度圖數(shù)據(jù)集都含有對應(yīng)的彩色圖. 本文使用的數(shù)據(jù)集是Texas3DFRDatabase.
本節(jié)介紹基于高質(zhì)量圖像的三維人臉識別方案,基于低質(zhì)量RGB-D圖像的三維人臉識別方案和人臉識別損失函數(shù).
基于高質(zhì)量圖像的三維人臉識別. 隨著技術(shù)的進步, 學(xué)者逐步轉(zhuǎn)向三維人臉識別, 但是高質(zhì)量三維人臉數(shù)據(jù)庫數(shù)量依然比較少. Gilani等人[7]在現(xiàn)有高質(zhì)量三維人臉數(shù)據(jù)的基礎(chǔ)上, 通過不同圖像之間的組合來合成新的人臉數(shù)據(jù), 并且得到不同視角下的點云數(shù)據(jù), 用來訓(xùn)練CNN. Cai等人[8]在三維人臉數(shù)據(jù)上選取眼睛和鼻尖3個點進行姿態(tài)校準(zhǔn). 之后從三維人臉圖像中提取4個子圖像, 4個子圖具有一定的重疊, 把子圖分別輸入到CNN中, 得到4個特征向量串聯(lián)進行識別.Kim等人[9]將單一的三維人臉數(shù)據(jù)合成多個不同表情的人臉數(shù)據(jù), 之后對二維人臉識別模型進行遷移學(xué)習(xí),少量的數(shù)據(jù)得到不錯的效果.
基于低質(zhì)量RGB-D圖像的三維人臉識別. RGBD圖像包括彩色圖和深度圖. 單獨使用深度圖進行識別任務(wù)不能得到較好的效果, 因此將彩色圖和深度圖進行融合會得到更好的識別結(jié)果. 融合的方式分為3種: 信號層融合、特征層融合、決策層融合[10]. 信號層融合即在原始圖像上進行融合. Kusuma等人[11]使用主成分分析(PCA)在信號層方面融合了二維人臉圖像和三維人臉圖像, 并探討了不同模態(tài)數(shù)據(jù)之間的依賴關(guān)系. Jiang等人[12]將二維數(shù)據(jù)的3通道和三維數(shù)據(jù)的3通道組合成6通道的數(shù)據(jù)輸入到卷積神經(jīng)網(wǎng)絡(luò)中進行識別. 特征層融合即將不同模態(tài)數(shù)據(jù)的特征進行融合. Lee等人[13]使用兩路神經(jīng)網(wǎng)絡(luò)分別提取彩色圖和深度圖的特征, 并進行融合. 并且針對訓(xùn)練數(shù)據(jù)不夠的問題進行了遷移學(xué)習(xí). Li等人[14]利用多通道稀疏編碼進行不同模態(tài)之間的人臉對齊, 提取不同模態(tài)的人工特征進行特征融合. 決策層融合分別對不同模態(tài)的數(shù)據(jù)進行識別, 將對應(yīng)得分通過策略進行融合. Chang等人[15]使用主成分分析法對彩色圖和深度圖進行識別, 將兩個得分進行加權(quán)融合. Cui等人[16]對3種融合進行了對比研究, 并且提出了一種基于特征層和決策層的混合融合, 取得了當(dāng)時最先進的性能.
人臉識別損失函數(shù). 通常來說, 識別或分類任務(wù)使用Softmax損失函數(shù), 但是Softmax損失函數(shù)只能保證目標(biāo)具有可分性, 對人臉識別這種類間相似性較大的任務(wù)來說, 具有非常大的局限性. 因此, 損失函數(shù)是人臉識別方向的研究熱點. 人臉識別損失函數(shù)主要有兩種思路: 減少類內(nèi)差異, 增大類間可分離性. 基于第1種思路, Wen等人[17]提出了中心損失(center loss),懲罰了樣本與其中心的歐氏距離, 將相同的類聚集在類特征中心周圍, 減少了類內(nèi)差異, 結(jié)合Softmax損失函數(shù), 取得了不錯的識別效果. 基于第2種思路, Deng等人[18]提出角邊緣損失, 將角度約束加入到Softmax損失函數(shù)中, 極大限度地提高了類間可分離性, 能夠獲得人臉的高分辨率特征. Cai等人[19]結(jié)合兩種思路, 提出了島嶼損失(island loss), 顧名思義, 使相同的類聚集在一起像島嶼一樣, 減少類內(nèi)變化的同時擴大類間的差異, 性能得到顯著提升.
本文的主要貢獻如下:
(1)設(shè)計自動編碼器將彩色圖和深度圖在特征層面進行融合. 得到融合圖像作為識別任務(wù)的輸入.
(2)基于巴氏距離的思想, 提出一種新的損失函數(shù)cluster loss. 結(jié)合Softmax損失進行識別任務(wù), 不僅能夠減少類內(nèi)的變化, 而且能夠擴大類間的差異.
(3)使用遷移學(xué)習(xí), 將融合圖像訓(xùn)練得到的模型使用彩色圖像進行微調(diào). 得到的新模型使用彩色圖像作為輸入, 依舊可以克服光照和面部遮擋這一缺點. 將人臉彩色圖像模擬戴口罩和變暗, 識別率依然較高.
多模態(tài)融合指融合不同形式的數(shù)據(jù). 本文需要融合的數(shù)據(jù)是人臉的彩色圖和深度圖. 使用卷積自動編碼器對兩種不同形式的圖像進行融合. 卷積自動編碼器是將傳統(tǒng)的自編碼器的無監(jiān)督學(xué)習(xí)方式, 結(jié)合了卷積層、池化層、上采樣層或者轉(zhuǎn)置卷積層等操作. 圖像經(jīng)過解碼層得到特征向量, 特征向量經(jīng)過編碼層得到重構(gòu)圖像. 自編碼器自動從樣本中學(xué)習(xí)相關(guān)特征而不是通過人工進行提取.
卷積自編碼器網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示. 網(wǎng)絡(luò)分為編碼層和解碼層. 編碼層包括4組卷積層+池化層和兩組全連接層. 解碼層包括4組卷積+上采樣層和一個卷積層. 原始圖像r和d分別是同一人臉圖像的彩色圖和深度圖, 具有互補的關(guān)系. 彩色圖和深度圖同時作為卷積自編碼器輸入, 經(jīng)過編碼層之后, 得到兩組1 504維的向量. 將兩組1 504維的向量進行串行結(jié)合得到3 008維的向量, 并將融合后的向量和兩組1 504維的向量作為解碼層的輸入. 經(jīng)過解碼層之后, 兩組1 504維的向量會分別輸出重構(gòu)圖像, 融合向量會輸出融合圖像. 公式表示如下:
圖1 卷積自編碼器網(wǎng)絡(luò)結(jié)構(gòu)
以圖像r為例,Er是圖像r的編碼過程, 從r中提取特征,Dr是圖像r的解碼過程, 通過特征解碼出重構(gòu)圖像圖像d亦是如此. 圖像r和d分別學(xué)習(xí)各自的特征, 在編碼層末端將特征進行串聯(lián), 解碼層共享權(quán)重,實現(xiàn)不同模態(tài)特征的聯(lián)合統(tǒng)一表達. 損失函數(shù)是原始圖像與重構(gòu)圖像之間的差值, 損失函數(shù)公式表示如下:
其中,m表示共有m組數(shù)據(jù),ri和di分別表示原始的彩色圖和深度圖,和表示重構(gòu)的彩色圖和深度圖.
在使用卷積自編碼器進行多模態(tài)數(shù)據(jù)融合時, 有以下幾點說明:
(1)不能將全連接層去掉或者使用卷積層代替, 否則編碼器不能學(xué)習(xí)到有用的特征, 圖像無法正常生成.全連接層的作用是打亂空間結(jié)構(gòu). 全連接層可用1×1的卷積網(wǎng)絡(luò)去代替, 1×1的卷積網(wǎng)絡(luò)也可打亂空間結(jié)構(gòu), 并且參數(shù)比全連接層少, 速度更快, 缺點是重構(gòu)圖像效果沒有使用全連接層的效果好.
(2)解碼層的卷積+上采樣層可用轉(zhuǎn)置卷積(transposed-convolution)[20]代替, 轉(zhuǎn)置卷積為卷積的反向操作, 可以使低分辨率圖像向高分辨率轉(zhuǎn)換. 但是文獻[21]中指出使用convolution+upsample組合, 較之于transposed-convolution, 可以更好地生成圖像細節(jié),并且運算速度相當(dāng). 因此本節(jié)算法使用convolution+upsample組合.
人臉識別或者表情識別存在著較高的類間相似性,導(dǎo)致識別性能顯著下降. 傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)進行人臉識別任務(wù)時, 使用Softmax loss作為損失函數(shù), 懲罰分類錯誤的樣本, 能夠分離出不同類別的特征, 但是特征向量是分散的, 并且會出現(xiàn)不同類別的特征重疊的情況, 如圖2(a)所示. Wen等人[17]提出了center loss,結(jié)合Softmax loss, 實現(xiàn)了類內(nèi)緊致性, 計算每一個類的中心, 并懲罰了每一類的樣本和類中心之間的距離.使特征向量聚集在一起, 但是center loss沒有考慮到類間相似性, 依然會出現(xiàn)特征重疊的情況, 如圖2(b)所示. 本節(jié)提出了一種新的損失函數(shù)cluster loss, 能夠提高人臉特征的判別能力. 懲罰不同類別的類中心之間的相似度, 將不同的類別遠遠推開. 結(jié)合 Softmax loss,不僅實現(xiàn)了類內(nèi)緊致而且能夠擴大類間差異, 如圖2(c)所示. 在本節(jié)首先簡要回顧一下center loss, 然后重點介紹我們提出的損失函數(shù)cluster loss.
圖2 3種損失函數(shù)示意圖
2.2.1 Center loss
Center loss為特征向量與類中心的距離的平方和,公式表示為式(3):
其中,yi為樣本xi對應(yīng)的類別,cyi為類別yi的類中心.前向傳播過程中, 損失函數(shù)為聯(lián)合Softmax loss和center loss的加權(quán)和, 公式表示為式(4). λ為平衡因子,用來平衡兩種損失函數(shù).
2.2.2 Cluster loss
如圖2(b)所示, 單純使用center loss不能避免特征重疊的情況, 為了解決這個問題, 我們提出了一個新的損失函數(shù)cluster loss, 能夠擴大類間差異. 使用巴氏距離定義cluster loss, 并用來衡量兩個向量之間的距離. Cluster loss公式表達為式(5):
其中, 第1項為center loss, 用來懲罰樣本與對應(yīng)類中心之間的距離, 第2項表達式用來減少不同的類中心的相似性, 以擴大類間距離.N為類別標(biāo)簽集合,i和j分別代表不同的類別,ci和cj分別是i和j對應(yīng)的類別中心. 前向傳播過程中, 整體損失函數(shù)由式(6)給出:
式(6)為Softmax loss與cluster loss的加權(quán)和,λ為平衡因子, 用來平衡兩種損失函數(shù). 由圖2所示, 網(wǎng)絡(luò)由兩個輸出Out1和Out2, Out1用來計算Lcluster,Out2用來計算Ls.
反向傳播過程中, cluster loss對輸入樣本xi的偏導(dǎo)數(shù)可計算為式(7), 偏導(dǎo)數(shù)將反向傳播到全局池化層和卷積層.
計算第j個類的特征中心的差值, 公式為式(8):
其中, 第1項是中心損失計算的特征中心的差值, 第2項是對Lcluster的第2項求cj的偏導(dǎo)數(shù)得出第j個類的特征中心的差值. 使用隨機梯度下降算法(SGD)來對每一批次數(shù)據(jù)的第j類的特征中心進行更新, 學(xué)習(xí)率是α, 公式為式(9). 在算法1中, 我們給出了使用cluster loss進行識別任務(wù)的算法偽代碼.
算法1. 使用cluster loss進行識別任務(wù)的算法偽代碼輸入: 已經(jīng)標(biāo)記的訓(xùn)練數(shù)據(jù){xi, yi}μ α λ ω 1. 初始化批次大小為m, 訓(xùn)練輪次T, 學(xué)習(xí)率 和, 超參數(shù), 網(wǎng)絡(luò)權(quán)重 和cluster loss參數(shù)cj.2. for t in range(1, T+1)L=Ls+λLcluster 3. 計算整個網(wǎng)絡(luò)的損失函數(shù)?Lt?xit=?Lst?xit+λ?Ltcluster?xit 4. 計算反向傳播的誤差ct+1 j=ctj-αΔcjt 5. 更新cluster loss參數(shù)ωt+1=ωt-μ?Lt?ωt=ωt-μ?Lt?xti?xit?ωt 6. 更新網(wǎng)絡(luò)權(quán)重7. end for ω輸出: 網(wǎng)絡(luò)權(quán)重 , cluster loss參數(shù)cj和網(wǎng)絡(luò)損失
遷移學(xué)習(xí), 即讓模型具有舉一反三的能力. 讓網(wǎng)絡(luò)在任務(wù)A中學(xué)習(xí)到的知識應(yīng)用到任務(wù)B的學(xué)習(xí)中, 使得網(wǎng)絡(luò)不僅有任務(wù)A的知識也有任務(wù)B的知識, 任務(wù)A和任務(wù)B需有一定的相關(guān)性. 文獻[22]通過大量實驗證明了深度學(xué)習(xí)中遷移學(xué)習(xí)的可行性. 遷移學(xué)習(xí)包括4種: 樣本遷移、特征遷移、模型遷移和關(guān)系遷移[23].本文我們使用模型遷移. 如圖3所示, 首先使用融合圖像預(yù)訓(xùn)練一個模型, 將預(yù)訓(xùn)練模型的block1, block2,block3中的所有層的凍結(jié), 不進行權(quán)重更新, 然后使用RGB圖像作為輸入, 對預(yù)訓(xùn)練模型的其余層進行訓(xùn)練.之所以凍結(jié)3個block中的網(wǎng)絡(luò)層, 是因為在卷積神經(jīng)網(wǎng)絡(luò)中, 前面幾層學(xué)習(xí)到的都是通用特征, 越靠后的層學(xué)習(xí)到的特征越具有特殊性[22].
圖3 遷移學(xué)習(xí)過程
本文實驗使用RGB-D人臉數(shù)據(jù)集Texas3DFRDatabase, 共118個人的1 149個樣本. 使用TensorFlow 2.0深度學(xué)習(xí)框架來搭建網(wǎng)絡(luò). 實驗室GPU型號為GTX1080Ti.首先使用第2.1節(jié)中提到的自動編碼器進行RGB數(shù)據(jù)和深度數(shù)據(jù)的融合, 圖4分別展示了RGB圖像、深度圖像和融合圖像. 對融合圖像進行處理, 包括以下幾部分.
圖4 RGB圖像、深度圖像、融合圖像
(1)用dlib庫自帶的frontal_face_detector特征提取器進行人臉檢測, 并提取出人臉圖像.
(2)將提取出來的人臉圖像大小重新設(shè)置為112像素×112像素.
(3)數(shù)據(jù)增強. 隨機對圖像進行水平翻轉(zhuǎn)、亮度調(diào)整, 裁剪、添加噪聲, 以防止過擬合問題.
(4)將增強后的圖像進行歸一化. 將每一像素的數(shù)據(jù)類型轉(zhuǎn)換為float32, 再把每一個像素值除以255, 使得每一個像素的值在0–1之間.
本文實驗在使用融合圖像預(yù)訓(xùn)練模型時, 批量為64, 共訓(xùn)練60輪. 圖2中Out1使用cluster loss進行監(jiān)督訓(xùn)練, Out2使用Softmax loss進行監(jiān)督訓(xùn)練. λ設(shè)置為0.07. 前40輪使用Adam優(yōu)化器[24]對損失函數(shù)進行優(yōu)化, 學(xué)習(xí)率設(shè)置為0.001, 后20輪用SGD優(yōu)化器[25]進行優(yōu)化, 學(xué)習(xí)率設(shè)置為1×10-4. Adam的優(yōu)點是收斂快速, 而正是因為他的優(yōu)點使得算法有可能錯過全局最優(yōu)解, 因此在前期使用Adam加快收斂速度, 后期切換到SGD, 慢慢尋找最優(yōu)解. 完成訓(xùn)練后得到一個預(yù)訓(xùn)練模型, 然后對預(yù)訓(xùn)練模型進行微調(diào). 以RGB圖像作為輸入, 凍結(jié)block1、block2和block3中的所有層, 使用SGD, 學(xué)習(xí)率設(shè)置為1×10-4, 對剩余層訓(xùn)練40輪, 得到最終模型. 除此之外, 本文分別使用Softmax loss和Softmax loss + center loss對模型進行預(yù)訓(xùn)練, 用來和本文提出的損失函數(shù)進行對比.
為了評估有效的評估cluster loss, 本文在其他因素不變的情況下, 根據(jù)不同的損失函數(shù)先后訓(xùn)練了3個模型: 1)基于Softmax loss; 2)基于Softmax loss +center loss; 3) Softmax loss + cluster loss. 表1展示了3種算法訓(xùn)練的結(jié)果, 單獨使用Softmax loss的識別準(zhǔn)確率為92.06%, 加入center loss之后, 準(zhǔn)確率提升了2.29個百分點, 為94.35%, 使用Softmax loss + cluster loss準(zhǔn)確率為97.13%, 提升了2.78個百分點. 圖5為3種模型在訓(xùn)練過程中的對比. 單獨使用Softmax loss收斂最快, 但是準(zhǔn)確率相對較低. Softmax loss +center loss和Softmax loss + cluster loss在訓(xùn)練過程中局部有準(zhǔn)確率下降的現(xiàn)象, 但是不影響最后結(jié)果.
表1 3種算法訓(xùn)練結(jié)果(%)
圖5 訓(xùn)練過程對比
超參數(shù)λ 為平衡因子, 用來平衡兩種損失函數(shù), 選擇合適的λ 是非常重要的, 能夠?qū)煞N損失函數(shù)達到最佳狀態(tài)下的平衡, 提高識別準(zhǔn)確率. 本文將 λ控制在0–0.1之間, 測試了不同的λ 對準(zhǔn)確率的影響, 實驗結(jié)果如圖6所示, λ值在一定范圍內(nèi)時, 準(zhǔn)確率波動不是很大, 相對穩(wěn)定. 當(dāng)λ=0.07左右時, 準(zhǔn)確率達到峰值, 因此本文中λ 選取0.07.
圖6 不同λ 值對準(zhǔn)確率的影響
本文論述的是三維人臉識別, 前期使用未遮擋、沒有光照變化的人臉圖像作為訓(xùn)練集, 因此后期我們需要使用有遮擋、有光照變化的RGB人臉圖像進行測試來驗證本文提出的三維人臉識別算法的有效性.我們對原始數(shù)據(jù)集進行了處理, 給人臉加口罩和墨鏡模擬了人臉圖像在真實條件下的遮擋, 人臉圖像調(diào)暗模擬光線昏暗的情景, 具體算法本文不詳細論述. 處理后的條件如圖7所示, 分別表示加入口罩、墨鏡和光線變暗之后的圖像. 處理完之后, 使用處理后的數(shù)據(jù)分別測試3種算法生成的模型, 表2展示了測試結(jié)果, 限于篇幅原因, S即為Softmax, 記錄了3種算法中不同條件下的識別準(zhǔn)確率和平均準(zhǔn)確率, 由表可以看出,3種算法在不同情景下的準(zhǔn)確率相較于使用原始數(shù)據(jù)訓(xùn)練時都有略微的下降, 這屬于正?,F(xiàn)象. 本文算法在3種情景下都取得了最好的結(jié)果, 并且具有很好的魯棒性, 最后平均準(zhǔn)確率高達96.37%.
圖7 加入遮擋、光線處理后的圖像
表2 3種算法在不同條件下的識別準(zhǔn)確率比
本實驗中, 仍然存在著過擬合現(xiàn)象, 即訓(xùn)練誤差與測試誤差相差較大, 其原因在于數(shù)據(jù)量過小. 在算法中采用了dropout和圖像增強(水平翻轉(zhuǎn)、亮度調(diào)整, 裁剪、添加噪聲)的方法在一定程度上降低了過擬合現(xiàn)象. 圖8展示了使用dropout和圖像增強方法對過擬合的抑制程度. 由圖可知dropout和圖像增強都對過擬合有一定的抑制作用, 兩者結(jié)合使用效果非常明顯, 但是使用圖像增強之后, 訓(xùn)練誤差上升了一小部分.
圖8 Dropout和圖像增強方法對過擬合的抑制程度
為了驗證多模態(tài)融合特征在三維人臉識別任務(wù)中的有效性, 設(shè)計了3組實驗, 分別將融合后的圖像、深度圖和RGB圖像作為輸入, 進行訓(xùn)練, 3個模型除輸入數(shù)據(jù)不一樣之外, 其余均一致. 訓(xùn)練完成之后, 分別用正常人臉圖片、帶遮擋人臉圖片和暗光線環(huán)境下的人臉圖片進行測試. 表3記錄了不同測試環(huán)境下的識別正確率.
表3 多模態(tài)有效性實驗結(jié)果
實驗結(jié)果表明, 使用多模態(tài)融合數(shù)據(jù)訓(xùn)練出的模型比單獨使用RGB數(shù)據(jù)進行訓(xùn)練出的模型, 在正常環(huán)境下測試的準(zhǔn)確率稍低, 但是在遮擋條件下和光線暗淡條件下, 測試準(zhǔn)確率提升非常明顯. 由于灰度圖質(zhì)量比較低, 所含信息較少, 因此單獨使用灰度圖訓(xùn)練出的模型識別精度相對較低. 此實驗結(jié)果可以證明多模態(tài)特征融合的有效性.
二維人臉識別受光照、遮擋和姿態(tài)的影響較大,們的算法受光照和遮擋的影響非常小, 并且我們提出的損失函數(shù)在測試中較其他兩種取得了最優(yōu)的效果,識別準(zhǔn)確率達到了96.37%. 但是本文提出的方法具有一定的局限性, cluster loss需要和Softmax loss聯(lián)合使用, 超參數(shù)λ 的根據(jù)經(jīng)驗設(shè)置, 沒有具體的公式來量化.我們僅考慮了閉集測試, 沒有考慮開集測試. 在下一步的工作中, 我們會繼續(xù)優(yōu)化算法, 并且使用開集測試.而基于高質(zhì)量三維掃描數(shù)據(jù)的人臉識別計算量大, 非常復(fù)雜. 針對這一系列問題, 本文基于RGB圖像和深度圖像, 提出了一種多模態(tài)融合的三維人臉識別算法.并且針對人臉數(shù)據(jù)類間相似性較大的問題, 基于巴氏距離的思想, 提出了一種新的損失函數(shù)cluster loss, 用來懲罰類特征中心的相似性, 使得不同類的特征中心盡可能地分離. 之后使用Softmax loss、Softmax loss+center loss、Softmax loss+cluster loss三種算法分別訓(xùn)練了模型進行比較, 用來驗證我們提出的損失函數(shù)的優(yōu)越性. 我們使用處理過的RGB圖像(模擬真實情況下口罩和墨鏡對人臉的遮擋和光線較暗的情景)對預(yù)訓(xùn)練的模型進行微調(diào), 使得模型僅使用RGB圖像作為輸入即可, 并且不受光照和遮擋的影響. 測試表明, 我