郭明金,倪佳佳,陳 姝
(湘潭大學 信息工程學院,湘潭 411105)
人臉驗證是人臉識別領域的一個研究重點,本文專注于人臉驗證的任務,其目的是確定兩個臉部圖像是否屬于相同的身份.在現(xiàn)實中,兩個臉部圖像在姿勢、照明、表情、年齡情況下被給予其大量的個人變化.因此直接使用人臉圖像來進行驗證變得更加困難.這是因為在挑選圖像中的特征驗證身份時往往忽略隨著環(huán)境條件差異而變化的特征.
傳統(tǒng)方法通常分成兩個步驟中:特征提取和面部驗證.在特征提取階段,大都使用人工提取的特征,更重要的是這些人工提取的特征必須提前設計.因此,這些特征往往應用于某些特定的領域,從而導致這些特征缺乏統(tǒng)一性.
在人臉驗證的最后階段,往往可以選擇一些常用的分類器,例如用于判斷兩個臉部圖像是否屬于同一個人的支持向量機.這些分類器大都用于計算兩個臉部圖像的相似性[1-5].然而,這些模型所用的特征基本都是淺層結構的特征.但是由于Internet的發(fā)展使得大量數(shù)據(jù)的獲得十分容易,因此在使用模型時需要大量的數(shù)據(jù)提供的高維特征.但是淺層結構不能適應這一任務.因此為了解決上述問題,文章提了一種混合卷積神經(jīng)網(wǎng)絡模型對臉部圖像進行分類.整個模型的框架如圖1所示.整個模型有以下幾個特點.
(1)從原始像素圖像中直接提取視覺特征,而不是使用傳統(tǒng)方法提取特征.在混合卷積神經(jīng)網(wǎng)絡模型中特征首先從已經(jīng)被訓練的卷積神經(jīng)網(wǎng)絡提取出來.這是因為卷積神經(jīng)網(wǎng)絡在特征提取時有良好的魯棒性并且可以表現(xiàn)來自不同方面的人臉相似性.
(2)特征提取后,模型先對提取到的兩個特征進行了特征融合操作.因為從同一個網(wǎng)絡中提取的同一個人的特征可能具有相似性.在進行特征融合以后可以使這個相似性擴大.最后使用單變量特征選擇和PCA來選擇有效的特征.
(3)提取人臉特征時模型首先優(yōu)化了一個卷積神經(jīng)網(wǎng)絡來進行特征提取操作,在這個階段為了確保良好的提取性從而引入識別率.相對與整個混合卷積神經(jīng)網(wǎng)絡方法,這種分段訓練可以加快整體優(yōu)化.
用于人臉驗證的所有現(xiàn)有方法都是從兩個人臉提取特征開始.傳統(tǒng)方法大都采用淺層結構提取特征.通常使用各種淺層特征[6,7],包括SIFT[8],Gabor[9],Eigenface[10-12].還有許多人臉識別模型是淺層結構但使用了高維特征來進行最后的相似性判斷[13,14].一些方法[15]使用線性SVM進行相同或不同的驗證決策.Huang、Simonyan等[13,14]通過學習線性變換來增加圖片魯棒性.但是所有這些方法的一個主要缺點是它們對輸入圖像(移位,縮放,旋轉)的幾何變換以及面部表情,眼鏡和模糊圍巾的其他變化非常敏感.一些基于淺層網(wǎng)絡結構的模型學習高層的特征[16,17],這種方法與傳統(tǒng)的方法不同之處在于,特征提取和人臉驗證是在同一個網(wǎng)絡中.這些網(wǎng)絡的結構總是很復雜,且需要更多的時間優(yōu)化參數(shù).與傳統(tǒng)方法相比,它也失去了靈活性.但是由于互聯(lián)網(wǎng)的發(fā)展,產(chǎn)生了大量的數(shù)據(jù)且需要高層的特征.因此人臉識別模型需要高層特征的從原始圖像中學習.一些作者為人臉驗證設計了一些深層次的模型[1-5,18,19].但這些模型也失去了淺層模型的靈活性.所有這些方法都使用卷積神經(jīng)網(wǎng)絡[20]來提取特征并且學習一個相似性度量方法來進行最后的判斷.這是因為卷積網(wǎng)絡是可訓練的多層非線性系統(tǒng),可以以像素級運行,并且以集成的方式進行高級表示.雖然這些方法可以提取魯棒性良好的特征,但它們沒有考慮兩個人臉圖像的個體之間的差異性.提取特征以后所有這些模型開始直接分類判斷操作.這可能使得個體之間比較好的特征被忽略,從而導致整個網(wǎng)絡的準確性不高.
圖1 混合卷積神經(jīng)網(wǎng)絡的框架
本文提出的模型和上述模型有較大的差異,即考慮淺層模型的靈活性,也保證了深層模型的有效性.模型和傳統(tǒng)方法一樣將人臉驗證分成特征提取和人臉驗證兩個階段.這樣做的優(yōu)點是模型可以像傳統(tǒng)方法一樣學習到較好的人臉特征.與其他在提取后直接對不同特征進行分類的模型不同,混合卷積神經(jīng)網(wǎng)絡模型添加了一個特征選擇和特征融合步驟,這樣在提取到兩個特征以后,考慮到兩個特征之間的相似性,模型進行一次融合操作使得整個相似性效果明顯.特征融合以后,模型使用單變量特征選擇和主成分分析(Principle Component Analysis,PCA)來選擇特征.它可以增強個體之間的差異性.單變量特征選擇通過選擇基于單變量統(tǒng)計檢驗得到最佳特征,PCA用于分解一組連續(xù)正交分量中的多變量數(shù)據(jù)集,其解釋了最大量的方差.
為了提取人臉特征,混合卷積神經(jīng)網(wǎng)絡使用兩個卷積網(wǎng)絡模型(見圖2).這是一個典型的卷積神經(jīng)網(wǎng)絡由交替卷積和次采樣操作組成[21].雖然架構的最后階段由通用的全連接網(wǎng)絡組成:最后幾層將是完全連接成一維層特征[22].卷積網(wǎng)絡是端對端進行訓練,將像素圖像映射到輸出[10].此外,它可以學習向量不變的局部特征,因為卷積網(wǎng)絡是非線性系統(tǒng).提取的特征對于輸入圖像的幾何失真是魯棒的.為了保證整個模型提取到的特征效果比較好,模型先對單個卷積神經(jīng)網(wǎng)絡進行了人臉識別研究,并保留最佳性能的網(wǎng)絡模型架構.在以下部分中,將詳細描述卷積神經(jīng)網(wǎng)絡的結構.
圖2 卷積神經(jīng)網(wǎng)絡模型(立方體的長度、寬度和高度表示輸入層大小)
整個混合卷積神經(jīng)網(wǎng)絡框架如圖1所示其中X1和X2表示兩幅人臉的圖片.用y表示兩幅人臉是否是一個人.在y=1表示是一個人,y=0表示不是同一個人.首先訓練一個卷積神經(jīng)網(wǎng)絡然后保存模型參數(shù)W,用來后面提取出每個人臉的特征.這個模型參數(shù)在后面是共享.這樣使得兩張人臉圖片特征的提取都是用同一個模型.在提取到特征以后把兩個特征融合.融合以后應用PCA進行降維保留主要的特征.最后把這個特征用支持向量機(SVM)進行訓練輸出判斷的結果模型首先從使用已經(jīng)訓練好的卷積網(wǎng)絡從兩張人臉圖像中學習特征.在網(wǎng)絡訓練階段,為了保證可以提取到較好的特征,模型引入了識別率進行定量分析.識別率越高,模型越好最后提取到的特征也越好.在保證了整個識別準率以后,保存整個模型結構進行后續(xù)的特征提取操作.
混合卷積神經(jīng)網(wǎng)絡模型和其他方法最大的區(qū)別是引入了一個特征融合和特征提取操作.相比于其他方法往往直接使用提取的特征進行分類,沒有考慮到兩張人臉圖像的個人異同性.但在混合卷積神經(jīng)網(wǎng)絡模型中,使用相加操作來融合以增加最后的特征的異同性.因為整個模型使用的是同一個卷積神經(jīng)網(wǎng)絡模型進行特征提取操作,如果是同一個人提取到的特征必然具有相似性,在經(jīng)過相加操作以后同一個特征的相似性便放大,如果不是同一個人經(jīng)過相加操作以后特征的差異性會更大.最后在特征融合以后模型使用單變量特征選擇和主成分分析來選擇特征.因為在進行融合操作時有可能產(chǎn)生噪聲,進行特征選擇的這種方法可以確保最后使用的特征足夠好.特征融合時模型得到一個1000維特征.為了保持維度不變,在進行單變量選擇和PCA時各自選擇500維特征,最后統(tǒng)一這兩個特征從而可以得到1000維.
模型卷積神經(jīng)網(wǎng)絡使用了典型的卷積網(wǎng)絡(見圖2).Cx表示卷積層,Sx表示子采樣層,Fx表示全連接層,其中x為層索引.基本架構是C1---S2---C3---S4---C5---S6---F7---F8,具體參數(shù)設置如表1所示.
表1 神經(jīng)網(wǎng)絡架構層參數(shù)
在上一小節(jié)具體分析了整個混合卷積神經(jīng)網(wǎng)絡模型.這一小節(jié)整個模型將在兩個人臉數(shù)據(jù)庫上進行實驗,分別是YaleB人臉數(shù)據(jù)庫和AR人臉數(shù)據(jù)庫.整個實驗環(huán)境使用了keras在Windows10上進行.CPU:i7 6700 Hq,GPU:GTX960m.
混合卷積神經(jīng)網(wǎng)絡模型是在兩個人臉數(shù)據(jù)集的訓練和測試(見圖3).第一次在YaleB人臉數(shù)據(jù)庫上進行實驗.YaleB人臉庫由美國耶魯大學計算視覺與控制中心創(chuàng)建,包含了10個人的5760幅多姿態(tài),多光照的圖像.每個人具有9種不同的頭部姿態(tài),每種姿態(tài)下均有64種不同光照條件的圖像,每幅圖像原始大小為640×480并且具有38個對象,總共2470個圖像.本文只使用了其中的一部分并對圖片預處理得到每張圖片的大小為168 * 192.第二次訓練和測試實驗在AR人臉數(shù)據(jù)庫上進行.AR人臉庫是由西班牙巴塞羅那計算機視覺中心于1998年創(chuàng)建,該人臉庫包含了126個人的4000多幅彩色正面圖像,其中包括70名男性和56名女性不同面的部表情、光照變化及配飾(圍巾和墨鏡遮擋)等,在這里模型選擇只選取了2600張圖像,并進行尺寸為168 * 192的預處理.
圖3 不同數(shù)據(jù)庫的數(shù)據(jù)集圖像
為了驗證臉部圖像,每個圖像與數(shù)據(jù)集中的每個其他圖像配對.在yaleB中,2438個圖像對中有1215個正面(屬于一個人).在AR數(shù)據(jù)集中,有2587個圖像對,其具有1200個正面.測試(驗證)在20%圖像對中完成.在不同數(shù)據(jù)庫上使用卷積神經(jīng)網(wǎng)絡進行驗證時的準確率見圖4.
整個混合卷積神經(jīng)網(wǎng)絡模型的框架包括兩個網(wǎng)絡.模型的輸入是一對人臉圖像和標簽,然后通過各自的特征提取網(wǎng)絡(見圖2).最后,產(chǎn)生通過特征融合和特征選擇階段輸出訓練好的特征.在模型的頂部,模型使用SVM作為分類器來判斷兩張人臉圖片是否是一個人.
整個訓練過程分為兩個階段.首先,模型先訓練特征提取網(wǎng)絡.其次,訓練模型來驗證圖像對.為了保證提取良好的特征,混合卷積神經(jīng)網(wǎng)絡引入識別率來衡量提取的特征的好壞,使用數(shù)據(jù)集來訓練卷積網(wǎng)絡來識別,然后保留對整個人臉有較好識別率的網(wǎng)絡結構模型.
特征提取后,模型使用特征融合和特征選擇來增強個體之間的差異.在實驗中,模型從兩張人臉圖像中得到一個1000維特征.之后模型使用單變量特征選擇和PCA來選擇已融合的特征.這樣做的優(yōu)點是減少特征合并中出現(xiàn)的噪音.經(jīng)過上述操作,我們可以得到一個很好的特征.圖5顯示了提取的特征.
圖4 在不同數(shù)據(jù)庫上使用卷積神經(jīng)網(wǎng)絡進行驗證時的準確率
圖5 前100張人臉特征圖
在網(wǎng)絡的頂端,混合卷積神經(jīng)網(wǎng)絡使用SVM作為分類器.因為人臉圖像是非線性的,所以模型使用高斯核函數(shù).其中高斯核函數(shù)為
其對應于SVM的高斯核函數(shù)是徑向基函數(shù)分類器.在這種情況下,分類器的函數(shù)為
為了確保公平的比較,模型使用兩個數(shù)據(jù)庫.首先,使用兩個數(shù)據(jù)集的系統(tǒng)來驗證其有效性(見表2).從表中可以看出,CNN識別率對最終驗證率有影響.在表2的YaleB部分,可以看到,隨著卷積神經(jīng)網(wǎng)絡的準確率的提高,人臉驗證的準確性也得到提高.在表2的AR部分,可以發(fā)現(xiàn),即使AR數(shù)據(jù)集有很大的變化,所提出的方法也可以得到很好的結果.在表3中,混合卷積網(wǎng)絡方法與一些傳統(tǒng)方法進行比較.統(tǒng)計數(shù)據(jù)顯示,HBCNN在不同的維度上取得了較好的效果.
表2 在YaleB和AR人臉數(shù)據(jù)庫下HBCNN模型對不同CNN識別率下的精度比較(單位:%)
表3 HBCNN模型在YaleB數(shù)據(jù)集下與傳統(tǒng)方法的精度比較(D指維度)(單位:%)
本文提出了一種用于人臉驗證的混合卷積神經(jīng)網(wǎng)絡模型.該模型直接從人臉圖片中學習并提取特征.最后模型在兩個不同的數(shù)據(jù)集下進行了實驗,并且實驗證明整個模型在兩個人臉數(shù)據(jù)庫上都有比較好的應用.最后相對于傳統(tǒng)的的方法混合卷積神經(jīng)網(wǎng)絡也有較好的效果.
1Sun Y,Wang XG,Tang XO.Hybrid deep learning for face verification.Proceedings of the IEEE International Conference on Computer Vision.Sydney,NSW,Australia.2013.1489-1496.
2Sun Y,Wang XG,Tang XO.Deep learning face representation from predicting 10,000 classes.Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA.2014.1891-1898.
3Sun Y,Chen YH,Wang XG,et al.Deep learning face representation by joint identification-verification.Proceedings of the 27th International Conference on Neural Information Processing Systems.Montreal,Canada.2014.1988-1996.
4Sun Y,Wang XG,Tang XO.Deeply learned face representations are sparse,selective,and robust.Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA,USA.2015.2892-2900.
5Taigman Y,Yang M,Ranzato MA,et al.Deepface:Closing the gap to human-level performance in face verification.Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA.2014.1701-1708.
6Guillaumin M,Verbeek J,Schmid C.Is that you? Metric learning approaches for face identification.Proceedings of the 12th International Conference on Computer Vision.Kyoto,Japan.2009.498-505.
7Nguyen HV,Bai L.Cosine similarity metric learning for face verification.Proceedings of the 10th Asian Conference on Computer Vision.Queenstown,New Zealand.2010.709-720.
8Lowe DG.Distinctive image features from scale-invariant keypoints.International Journal of Computer Vision,2004,60(2):91-110.[doi:10.1023/B:VISI.0000029664.99615.94]
9Wiskott L,Krüger N,Kuiger N,et al.Face recognition by elastic bunch graph matching.IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(7):775-779.[doi:10.1109/34.598235]
10Turk M,Pentland A.Eigenfaces for recognition.Journal of Cognitive Neuroscience,1991,3(1):71-86.[doi:10.1162/jocn.1991.3.1.71]
11Yang MH,Ahuja N,Kriegman D.Face recognition using kernel eigenfaces.Proceedings of the 2000 International Conference on Image Processing.Vancouver,BC,Canada.2000,1.37-40.
12Belhumeur PN,Hespanha JP,Kriegman DJ.Eigenfaces vs.fisherfaces:Recognition using class specific linear projection.IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(7):711-720.[doi:10.1109/34.598228]
13Simonyan K,Parkhi OM,Vedaldi A,et al.Fisher vector faces in the wild.Proceedings of the British Machine Vision Conference (BMVC).Bristol,UK.2013.
14Huang C,Zhu SH,Yu K.Large-scale strongly supervised ensemble metric learning.US Patent 8873844.[2014-10-28].
15Huang GB,Lee H,Learned-Miller E.Learning hierarchical representations for face verification with convolutional deep belief networks.Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence,RI,USA.2012.2518-2525.
16Kumar N,Berg AC,Belhumeur PN,et al.Attribute and simile classifiers for face verification.Proceedings of the 12th International Conference on Computer Vision.Kyoto,Japan.2009.365-372.
17Berg T,Belhumeur PN.Tom-vs-pete classifiers and identitypreserving alignment for face verification.Proceedings of the British Machine Vision Conference (BMVC).Surrey,Canada.2012.
18Shao H,Chen S,Zhao JY,et al.Face recognition based on subset selection via metric learning on manifold.Frontiers of Information Technology &Electronic Engineering,2015,16(12):1046-1058.
19Li QF,Zhou XF,Gu AH,et al.Nuclear norm regularized convolutional Max Pos@Top machine.Neural Computing &Applications,2016:1-10.[doi:10.1007/s00521-016-2680-2]
20Krizhevsky A,Sutskever I,Hinton GE.Imagenet classification with deep convolutional neural networks.Proceedings of the 25th International Conference on Neural Information Processing Systems.Lake Tahoe,Nevada,USA.2012.1097-1105.
21LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition.Proceedings of the IEEE,1998,86(11):2278-2324.[doi:10.1109/5.726791]
22Bouvrie J.Notes on convolutional neural networks.Neural Nets,2006.https://pdfs.semanticscholar.org/2a43/93aa1bc3 cb7fe2deecc88720bfb84dabb263.pdf.