杜柏圣
(河海大學 計算機與信息學院,江蘇 南京 210098)
人臉識別[1-2]是生物特征識別研究的重點。生物特征是人體的基本組成部分,每個個體之間的差異性很大,而且生物特征的穩(wěn)定性較好,作為身份驗證是很好的選擇。與虹膜、指紋等其他生物特征相比較,利用人臉進行識別,具有易于用戶接受、便于采集、友好、方便直接等優(yōu)點。此外,人臉識別也具有隱蔽性、自然性、永久性、成本低等其他生物特征不具備的特點。
人臉識別的過程,是對規(guī)范化的人臉圖像進行特征提取和對比辨識的過程,其目的是區(qū)分出圖像中人臉的身份。人臉識別的主流的特征提取方法可以分為三類:基于子空間方法、基于局部特征方法及基于深度學習方法。
基于子空間方法的基本思想是通過空間變換壓縮到低維的子空間中,使得原樣本更易于分類。其代表性的方法包括線性判別分析(LDA)[3]、主成分分析(PCA)[4]、獨立分量分析(ICA)[5]等。
基于局部特征方法一直是人臉表示領域的經(jīng)典方法,其基本思想是將人臉圖像分解為多個局部特征,利用不受干擾因素影響的局部特征來描述人臉的特征細節(jié)。其中較有代表性的方法包括基于Gabor小波的人臉表示方法Gabor Face[6]、基于局部二值特征的人臉表示方法LBP Face[7]、基于旋轉不變特征的人臉表示方法SIFT Face[8]等。
基于深度學習方法主要是利用神經(jīng)網(wǎng)絡對圖像進行識別,神經(jīng)網(wǎng)絡具有并行運算機制以及對模式的分布式全局存儲,并且速度快、耗時少、識別率高。用于人臉識別的神經(jīng)網(wǎng)絡比較有代表性的包括RBF網(wǎng)絡[9]、模糊BP網(wǎng)絡[10]、卷積神經(jīng)網(wǎng)絡[11],以及基于深度神經(jīng)卷積網(wǎng)絡的DeepFace[12]和DeepID2[13]。
基于深度卷積神經(jīng)網(wǎng)絡[14-16]的人臉識別方法需要大量的有標注的人臉數(shù)據(jù)來進行訓練。對于很多人臉識別場景而言,采集大量人臉樣本比較容易,但是精確地標記人臉樣本中的身份標簽是相當困難的。如何利用這大量的無標注的人臉數(shù)據(jù),需要研究無監(jiān)督的人臉識別方法。例如,朱陶等提出了一種基于前向無監(jiān)督卷積神經(jīng)網(wǎng)絡的人臉表示學習方法[17],其基本思想是利用人臉圖像的局部性特點對人臉進行分塊,在每個人臉塊上進行無監(jiān)督的卷積核學習。首先通過K-means聚類對人臉塊上提取的人臉小塊進行聚類,賦予其虛擬標簽,進一步利用LDA學習判別投影作為卷積核,從而能夠在無標注的人臉數(shù)據(jù)上實現(xiàn)卷積核的判別學習。
基于朱陶等提出的方法,文中提出一種基于卷積網(wǎng)絡的無監(jiān)督特征提取方法。該方法利用局部保持投影(LPP)算法取代K-means聚類和LDA算法進行卷積核的學習。LPP算法[18-19]在圖像特征提取方面已經(jīng)取得了顯著的效果,其類似LDA算法和PCA算法,都是對圖像進行降維,但又不同于PCA和LDA算法,因為PCA和LDA算法以保留圖像空間的全局結構為目標,而LPP算法以保留圖像空間的局部結構為目標。文中方法利用LPP算法學習判別投影作為卷積核,從而能夠在無標注的人臉數(shù)據(jù)上實現(xiàn)卷積核的判別學習。通過卷積得到響應圖后,再利用經(jīng)典的卷積神經(jīng)網(wǎng)絡中的卷積及池化等一系列操作進行識別。
LPP是一種低維子空間表示高維數(shù)據(jù)的降維方法。LPP算法利用近鄰圖方法建立映射,擁有一般線性降維方法沒有的流形學習能力。LPP算法以保留原始樣本局部結構為目標。在圖像識別中,有時局部結構能提供比全局結構更重要的信息。LPP算法在人臉識別領域中已證明有較好的識別效果。
設數(shù)據(jù)集X=[x1,x2,…,xN],每個樣本維數(shù)為D。算法的目標是尋找投影方向矩陣W,將原樣本經(jīng)過線性變換WTxi得到的數(shù)據(jù)向量yi(i=1,2,…,N)在低維空間Rd(d (1) 其中Sij的值為: (2) 其中,Sij為對稱關聯(lián)矩陣,表示近鄰樣本點i和j之間的相似程度;參數(shù)β為總體樣本。 最小化目標函數(shù)(式1)是為了確保xi和yi相鄰較近的情況下,對應的yi和yj相鄰較近。設w是一個轉置向量,通過簡單的線性運算,可以把目標函數(shù)簡化為: S)XTw=wTXLXTw (3) 矩陣D中的元素Dii表示與第i個頂點有邊相連的頂點數(shù),Dii的大小與樣本i的重要性成正比。再作如下約束: (4) 將最小化問題轉化為: (5) 使目標函數(shù)的最小化問題轉換為求向量w,相當于求解下列廣義的最小特征值對應的特征向量: XLXTw=λXDXTw (6) 在多維映射的情況下,每個樣本數(shù)據(jù)xi被映射成向量yi,目標是計算投影方向W=(w1,w2,…,wL)。這些向量通過式6計算廣義特征向量求得。根據(jù)特征值大小進行排序,0≤λ1≤λ2≤…≤λL,然后通過Y=wTX,計算出Y。 基于卷積神經(jīng)網(wǎng)絡無監(jiān)督特征提取方法的主要步驟包括:樣本集的歸一化、LPP算法用于卷積核的學習、網(wǎng)絡對人臉特征的提取、相似度計算。 假設樣本集中有N張人臉圖像,將樣本集記為X=[x1,x2,…,xN],確保識別的人臉圖像具有一定的魯棒性,樣本集中的圖像應盡可能包括姿態(tài)、光照、表情和分辨率的變化。文中選取的訓練集是人臉識別領域應用較廣泛的Yale和FERET人臉庫,將圖像都歸一化成大小為80*80像素。 卷積核的學習也就是對圖像的特征進行提取。LPP算法比較適合局部特征提取,所以考慮對圖像先進行分割,再從分割的小塊中利用LPP算法進行特征提取以獲得卷積核。具體步驟如下: (1)將歸一化后的人臉圖像切割成4塊同等大小的width*height=40*40塊,對切割后每一個人臉小塊,先在其上提取9*9大小的小塊,步長為1,記為: Xi=[xi,1,xi,2,…,xi,m*n]∈R9*9*mn (7) 其中,m=width-9+1=32,n=height-9+1=32。 (2)再用Xi減去所有人臉小塊的均值,得到: (8) (3)逐一處理樣本集中的圖像后,得到: (9) (4)通過LPP算法,求解投影矩陣W,即求解式10的特征值及特征向量。 XLXTw=λXDXTw (10) 選擇前d個投影矩陣作為卷積核。 W=[w1,w2,…,wd]∈R9*9*d (11) 這里每一個投影矩陣可以看作一個獨立的卷積核,取d為10,即卷積核個數(shù)為10。按上述步驟對所有分割后的40*40的人臉塊進行卷積核學習。 網(wǎng)絡對于輸入的人臉圖像,首先進行卷積操作,每個輸入圖像分別經(jīng)過10個9*9的卷積核進行卷積操作,得到4*10個響應圖,響應圖中的響應值通過非線性激活函數(shù)操作進行歸一化,其目的是引入特征的非線性特性。非線性激活函數(shù)選取sigmoid函數(shù)。其次,經(jīng)過卷積網(wǎng)絡的池化操作來降低特征維度,同時保留最重要的信息。池化操作選取的是MaxPooling。對輸入圖像xi,通過上述操作后的所有響應圖特征拉直后得到的特征表示為fi。最后采用主成分分析法進行特征降維處理。計算訓練集特征的協(xié)方差矩陣: (12) 其中,μ表示特征的均值。 Wpca=argWmax|WTSTW|=[w1,w2,…,wm] (13) 其中,{wi|i=1,2,…,m}表示協(xié)方差矩陣中前m個最大特征值所對應的特征向量。 對于輸入的特征fi,經(jīng)過WPCA降維后得到: (14) 其中,E為特征值開根號后按以下形式組成的對角矩陣。 (15) 所有特征降維記為Y={y1,y2,…,yN}。 將特征Y={y1,y2,…,yN},進行二范數(shù)歸一: (16) 只需計算特征的內(nèi)積: sim(y1,y2)=y1*y2 (17) 具體步驟描述如下: 步驟1:給定樣本訓練集X=[x1,x2,…,xN],歸一化后,通過式7~9計算后得到處理后的圖像集。 步驟2:對于訓練集樣本中每一幅圖像,首先進行分割,利用LPP算法學習判別投影,保留前d個投影矩陣作為卷積核,依次處理每個分割圖像,進行卷積核學習。 步驟3:構建網(wǎng)絡。對于輸入的每一幅圖像進行卷積操作、sigmoid操作、MaxPooling操作、WPCA降維操作及相識度計算。 該方法應用于人臉識別,可以利用大量的無監(jiān)督人臉數(shù)據(jù)學習出所需的特征,網(wǎng)絡結構簡單,訓練速度優(yōu)于有監(jiān)督的深度卷積網(wǎng)絡。 考慮姿態(tài)對人臉識別結果的影響,實驗所用的數(shù)據(jù)庫選擇了Yale和FERET。 (1)Yale人臉庫。 Yale人臉庫包含了15個人的人臉圖像,每個人有11張,一共165張圖像,主要受光照、表情和姿態(tài)等因素變化的影響。實驗中訓練樣本隨機選取每個人的3,4,5幅圖像構成訓練樣本集,其他作為測試樣本集。 (2)FERET人臉庫。 FERET人臉庫共包含了200個人的1 400幅圖像,其中包含每個人7幅不同姿勢和光照下的圖像,人臉圖像的變化比較單一。只選取前20個人的圖像進行實驗。實驗中訓練樣依然隨機選取每個人的3,4,5幅圖像構成訓練樣本集,其他作為測試樣本集,多次測試取平均值。 表1和表2分別是文中方法和經(jīng)典的描述子Gabor[6]、LBP[7]、PCA-Net[20]及K-means+LDA+CNN[16]方法在數(shù)據(jù)集Yale和FERET上的實驗結果比較??梢钥闯?,該方法相對于其他方法取得了較好的識別率。 表1 Yale數(shù)據(jù)集上不同訓練樣本數(shù)下的 表2 在FERET數(shù)據(jù)集上不同訓練樣本數(shù) 就如何充分利用大量無標簽的人臉數(shù)據(jù)這一問題,提出了一種基于卷積網(wǎng)絡的無監(jiān)督特征提取方法。首先,利用無監(jiān)督的LPP算法對大量的無標注的數(shù)據(jù)進行卷積核學習,提高了卷積核的判別性。其次,設計的卷積網(wǎng)絡結構簡單,訓練速度快。與幾種經(jīng)典及主流的方法在Yale數(shù)據(jù)集和FERET數(shù)據(jù)集上進行實驗比較,結果也表明,該方法的性能優(yōu)于其他方法。同時該方法也存在不足之處,如網(wǎng)絡結構簡單,降維算法可能不是最優(yōu),所以仍需要進一步完善。 參考文獻: [1] 周 杰,盧春雨,張長水,等.人臉自動識別方法綜述[J].電子學報,2000,28(4):102-106. [2] 周激流,張 曄.人臉識別理論研究進展[J].計算機輔助設計與圖像學學報,1999,11(2):180-184. [3] TURK M,PENTLAND A.Eigenfaces for recognition[J].Journal of Cognitive Neuroscience,1991,3(1):71-86. [4] KWON O W,LEE T W.Phoneme recognition using ICA-based feature extraction and transformation[J].Signal Processing,2004,84(6):1005-1019. [5] BARTLETT M S,LADES H,SEJNOWSKI T.Independent component representations of face recognition[C]//Proceedings of the SPIE symposium on electronic imaging:human vision and electronic imaging.San Jose,Califormia,USA:IEEE,1998:3299-3310. [6] LIU Chengjun,WECHSLER H.Gabor feature based classification using the enhanced fisher liner discriminant model for face[J].IEEE Transactions on Image Processing,2002,11(4):467-476. [7] AHONEN T,HADID A,PIETIKAINEN M.Face description with local binary patterns:application to face recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(12):2037-2041. [8] BICEGO M,LAGORIO A,GROSSO E,et al.On the use of SIFT features for face authentication[C]//Computer vision and pattern recognition workshop.New York,NY,USA:IEEE,2006. [9] RANGANATH S,ARUN K.Face recognition using transform features and neural networks[J].Pattern Recognition,1997,30(10):1615-1622. [10] LEE S Y,HAM Y K,PARK R H.Recognition of human front faces using knowledge-based feature extraction and neurofuzzy algorithm[J].Pattern Recognition,1996,29(11):1863-1876. [11] LAWRENCE S,GILES C L,TSOI A C,et al.Face recognition:a convolutional neural network approach[J].IEEE Transactions on Neural Network,1997,8(1):98-113. [12] TAIGMAN Y,YANG Ming,RANZATO M A,et al.Deepface:closing the gap to human-level performance in face verification[C]//IEEE conference on computer vision and pattern recognition.Columbus,OH,USA:IEEE,2014:1701-1708. [13] SUN Yi,WANG Xiaogang,TANG Xiaoou.Deep learning face representation by joint identification-verification[C]//Proceedings of the advance in neural information processing systems.Cambridge:MIT Press,2014. [14] 陳耀丹,王連明.基于卷積神經(jīng)網(wǎng)絡的人臉識別方法[J].東北師大學報:自然科學版,2016,48(2):70-76. [15] 劉秀青.卷積神經(jīng)網(wǎng)絡在人臉檢測中的應用研究[D].太原:山西大學,2015. [16] 許 可.卷積神經(jīng)網(wǎng)絡在圖像識別上的應用的研究[D].杭州:浙江大學,2012. [17] 朱 陶,任海軍,洪衛(wèi)軍.一種基于前向無監(jiān)督卷積神經(jīng)網(wǎng)絡的人臉表示學習方法[J].計算機科學,2016,43(6):303-307. [18] 魯 珂,趙繼東,葉婭蘭,等.保局投影算法在圖像檢索中的應用研究[J].計算機應用研究,2006,23(12):56-58. [19] HE Xiaofei,YAN Shuicheng,HU Yuxiao,et al.Face recognition using Laplacianfaces[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(3):328-340. [20] CHAN T H,JIA Kui,GAO Shenghua,et al.PCANet:a simple deep learning baseline for image classification?[J].IEEE Transactions on Image Processing,2014,24(12):5017-5032.3 LPP算法結合卷積網(wǎng)絡
3.1 樣本集的歸一化
3.2 LPP算法用于卷積核的學習
3.3 網(wǎng)絡對人臉的特征提取
3.4 相似度的計算
4 實驗與分析
4.1 實驗數(shù)據(jù)集
4.2 實驗結果與分析
5 結束語