摘 要:本文通過深度卷積網(wǎng)絡(luò)(Deep Convolutional Neural Networks,DCNN)實(shí)現(xiàn)人臉的三維特征和二維特征的提取。對建立的兩個(gè)DCNN進(jìn)行訓(xùn)練以及識(shí)別測試。將兩個(gè)DCNN提取的二維人臉圖像及人臉深度圖的高層抽象特征作為一神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)的輸入,輸出結(jié)果作為提取的最終特征。實(shí)驗(yàn)結(jié)果表明,與其他識(shí)別方法相比,本文設(shè)計(jì)的方法在識(shí)別正確率上得到了可觀的提高。
關(guān)鍵詞:三維人臉識(shí)別;深層卷積網(wǎng)絡(luò);特征提取
DOI:10.16640/j.cnki.37-1222/t.2019.11.133
1 基于DCNN的三維人臉識(shí)別
1.1 DCNN結(jié)構(gòu)
文章搭建的DCNN分別如圖1和圖2所示,包含層卷積層、最大池采樣層,除輸入與輸出外,中間各層均可稱為隱藏層。文章將卷積后的激活函數(shù)設(shè)置為ReLU(Rectified Linear Units)非線性矯正函數(shù),公式為f(x)=max(0, x),相較于使用Sigmoid函數(shù),DCNN訓(xùn)練后的識(shí)別結(jié)果有效的提高[1]。
1.2 n路Soft-max 回歸層 及訓(xùn)練算法改進(jìn)
文章使用soft-max回歸層預(yù)測多種類別的概率,如圖1所示。類別數(shù)表示為n,預(yù)測標(biāo)簽值即為每種類別的概率,預(yù)測標(biāo)簽值,則:
代表類別i的概率,,則:
對于第n種類別的概率:
可以推導(dǎo)出:
其中soft-max回歸層的參數(shù)集為。
通過最大似然估計(jì)法以獲得整個(gè)網(wǎng)絡(luò)的代價(jià)函數(shù),即:
是通過訓(xùn)練不斷進(jìn)行改進(jìn)的參數(shù),K為n種類別的樣本總和,是第組輸入向量,;為預(yù)測標(biāo)簽值。通過訓(xùn)練使代價(jià)函數(shù)不斷減小或達(dá)到最大訓(xùn)練次數(shù)。模型代價(jià)函數(shù)的公式為:
對公式(5)求偏導(dǎo),得:
的維度為類別數(shù)n,其自由度為n-1,則向量中存在冗余度為1的。的存在使在調(diào)整的過程中容易過大。這時(shí),在損失函數(shù)的收斂計(jì)算中增加權(quán)重衰減項(xiàng)(>0),以防止值過大。
理論證明,是一個(gè)凸函數(shù),因此使 的迭代運(yùn)算目標(biāo)可使用梯度下降算法,在此算法中,得到的結(jié)果誤差進(jìn)行反向傳播,從而調(diào)整,(其中為學(xué)習(xí)速率):
(8)
在模型的訓(xùn)練過程中,通過將前一次得到的梯度值與一常數(shù)相乘添加到當(dāng)前梯度的計(jì)算過程中的方法來帶動(dòng)梯度下降的過程。這種改進(jìn)的優(yōu)勢在于利用經(jīng)驗(yàn)數(shù)據(jù)加速計(jì)算過程,避免訓(xùn)練過程陷入局部最優(yōu)。
文章將兩個(gè)網(wǎng)絡(luò)的輸出結(jié)果作為三維數(shù)據(jù)和二位數(shù)據(jù)的高層特征,將其作為一神經(jīng)網(wǎng)絡(luò)(ANN)的輸入進(jìn)行分類。
2 實(shí)驗(yàn)結(jié)果及分析
2.1 學(xué)習(xí)速率及各層向量可視化實(shí)驗(yàn)
文章中的數(shù)據(jù)源圖像包含了人的臉部、頭發(fā)、肩部等,通過Haar 特征結(jié)合Adaboost的方法,去掉多余部分,只提取圖像中人的臉部,提高模型輸入的質(zhì)量[2,3]。將提取的二維人臉圖片歸一化為大小,并將彩色圖轉(zhuǎn)為灰度圖。
將數(shù)據(jù)模型的空間信息表示為z軸上的大小,將其映射為二維圖像,則z值的大小通過灰度值來表示,通過這種方法得到的二維圖像成為深度圖。利用類間最大方差法(Otsu)[4]對深度圖進(jìn)行操作,消除多余部分,保留人的臉部。將人臉深度圖歸一化到 6853。
學(xué)習(xí)速率可認(rèn)為是參數(shù)更新的幅度。文章通過對學(xué)習(xí)速率賦值的方法得到不同學(xué)習(xí)速率的識(shí)別曲線,首次令。在訓(xùn)練過程中,將進(jìn)行過臉部提取的數(shù)據(jù)分成三部分。第一部分用于訓(xùn)練,第二部分?jǐn)?shù)據(jù)用于驗(yàn)證訓(xùn)練過程中的識(shí)別率,整個(gè)訓(xùn)練過程結(jié)束后用第三部分測試整個(gè)模型識(shí)別率。最終,將學(xué)習(xí)速率設(shè)置為0.06。
模型中隱藏層的輸出如圖3所示。
2.2 對比實(shí)驗(yàn)及分析
將本文三維人臉識(shí)別方法與幾種常用人臉識(shí)別方法進(jìn)行比較實(shí)驗(yàn),采用n=64,即64個(gè)人,每人選取不同的姿態(tài)和光照的圖像10張,得到樣本總數(shù)k為640,結(jié)果如表1所示。通過對比發(fā)現(xiàn),本文識(shí)別算法較其他幾種方法識(shí)別率有了明顯的提高。
3 結(jié)論
文章分別建立了兩個(gè)用于二維人臉圖像特征提取和人臉深度特征提取的DCNN模型。相較于傳統(tǒng)人臉識(shí)別方法,本文算法增加了深度信息,以增強(qiáng)算法對人臉姿態(tài)和外部環(huán)境的魯棒性。經(jīng)過對卷積網(wǎng)絡(luò)進(jìn)行多方面的改進(jìn),加速算法收斂,得到數(shù)據(jù)的高層抽象表示,實(shí)現(xiàn)分類任務(wù)。通過實(shí)驗(yàn)驗(yàn)證了算法所提取的特征具有代表性及可分性。并進(jìn)行了本文算法與幾種常用算法的比較實(shí)驗(yàn),驗(yàn)證了本文方法在人臉識(shí)別正確率上得到了可觀的優(yōu)化。
參考文獻(xiàn):
[1]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C].International Conference on Neural Information Processing Systems. Curran Associates Inc.2012:1097-1105.
[2]Erdem C E,Ulukaya S,Karaali A,et al.Combining Haar Feature and skin color based classifiers for face detection[C].IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE,2011:1497-1500.
[3]Huang C C,Tsai C Y,Yang H C.An Extended Set of Haar-like Features for Bird Detection Based on AdaBoost [C].Signal Processing, Image Processing and Pattern Recognition - International Conference, Sip 2011,Held As.DBLP,2011:160-169.
[4]Yan L V,Gong Q.Application of weighting 3D-Otsu method in image segmentation [J].Application Research of Computers, 2011,28(04):1576-1579.
作者簡介:吳夢蝶(1990-),女,河北滄州人,碩士,助教,教師,研究方向:深度學(xué)習(xí)、圖像識(shí)別。