王金平
(太原理工大學(xué) 科學(xué)技術(shù)研究院,太原 030024)
人臉識別作為計算機視覺中的重要領(lǐng)域一直是學(xué)術(shù)界與工業(yè)界的研究熱點。人臉識別往往通過辨別面部器官(眼睛、鼻子、嘴等)形狀、大小、分布的不同而進行判斷。但光照、姿態(tài)、遮擋、表情、老化等變化因素為人臉識別帶來了困難。同時,海量人臉圖像處理過程中所遇到的“維度災(zāi)難”問題,同樣是人臉識別領(lǐng)域的挑戰(zhàn)之一。
20世紀90年代以來,研究者們相繼提出了不同的人臉識別方法。BRUNELLI et al[1]提出了兩種算法,分別基于幾何特征與灰度特征進行模板匹配。WISKOTT et al[2]提出了一種基于彈性圖匹配的人臉識別系統(tǒng),該系統(tǒng)對人臉圖像通過彈性圖匹配操作進行特征提取,并通過相似函數(shù)進行比較。CHEUNG et al[3]針對基于整體外觀的臉部識別方法需要高維度特征空間來獲得優(yōu)秀表現(xiàn)這一問題,提出了一種較低維的特征尺寸與模板匹配方案,使用聚合Gabor濾波器響應(yīng)來表示臉部圖像,在識別面部表情有變化的重復(fù)圖像上比主成分分析方法更具有魯棒性。WRIGHT et al[4]將識別問題看作多元線性回歸模型中的一種分類模型,并使用了稀疏重構(gòu)表示主成分特征,提出了處理由遮擋和破壞引起的錯誤識別的新框架。針對維度災(zāi)難問題,不少研究者利用主成分分析(PCA)[5]方法來對人臉識別進行研究,但這種方法只考慮圖像的低層統(tǒng)計信息而忽略圖像的高層信息。一些研究者進一步提出利用稀疏編碼方法對人臉進行識別以獲得海量人臉圖像更高階的信息[6-7]。但利用稀疏編碼進行人臉識別的方法存在的問題是,由于其基函數(shù)依賴于人臉數(shù)據(jù)庫基函數(shù),當(dāng)數(shù)據(jù)庫不同時需要對相應(yīng)數(shù)據(jù)庫進行重新學(xué)習(xí)。
以上方法均是利用傳統(tǒng)方法提取人臉圖像特征;盡管將不同形式的特征(紋理特征、形狀特征等)用于人臉識別系統(tǒng)中,但是研究人員仍無法確定最適合于人臉識別的特征子集。而且,由于人臉圖像和其他因素緊密相關(guān),這些人為定義的傳統(tǒng)特征能否充分有效地表征人臉圖像也無法確定。因此,利用深度學(xué)習(xí)方法實現(xiàn)檢測和無限制的面部識別應(yīng)運而生。近年來,運用深度學(xué)習(xí)方法進行人臉識別已經(jīng)取得一定的成果。WANG et al[8]提出了通過逐層訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)對網(wǎng)絡(luò)進行收斂,通過樣本轉(zhuǎn)換方法,避免過擬合的情況,有效提高了人臉識別的準確率。HU et al[9]利用三種卷積神經(jīng)網(wǎng)絡(luò)對公共人臉數(shù)據(jù)庫LFW進行人臉識別,并定量比較了CNN的體系結(jié)構(gòu),評估了不同選擇的實現(xiàn)效果。ZHU et al[10]提出了一種深層神經(jīng)網(wǎng)絡(luò)多視覺感知器(MVP),用以識別身份以及視圖特征,模擬人腦推測出全景圖像并給出單張2D臉部圖像。
目前,研究人員更傾向于使用深度網(wǎng)絡(luò)進行識別,然而仍存在調(diào)整參數(shù)多、計算成本高、特征提取能力弱的問題。針對這一問題,本文提出一種基于深度卷積稀疏自編碼分層網(wǎng)絡(luò)(hierarchical deep convolution sparse autoencoder,HDCSAE)的人臉識別方法。該方法將基于Same模式的卷積操作融入自編碼網(wǎng)絡(luò)中,同時加入稀疏化思想,從而形成深度卷積稀疏自編碼網(wǎng)絡(luò);用該網(wǎng)絡(luò)可自動提取海量人臉圖像的魯棒高層特征,避免了繁瑣的手工提取特征過程。為了進一步提高分類效果,將卷積神經(jīng)網(wǎng)絡(luò)的Softmax層替換為SVM分類器形成分層網(wǎng)絡(luò),即將提取的高層特征輸入至SVM中進行分類。
自編碼網(wǎng)絡(luò)是一種用于學(xué)習(xí)一組數(shù)據(jù)表示的神經(jīng)網(wǎng)絡(luò)[11],旨在學(xué)習(xí)輸入的緊湊表示,同時保留最重要的信息。自編碼網(wǎng)絡(luò)由編碼器和解碼器兩部分構(gòu)成,如圖1所示。其中,編碼器是指輸入層與中間層組成的子網(wǎng),目的在于減少輸入數(shù)據(jù)的維度以學(xué)習(xí)輸入數(shù)據(jù)的簡化表示;解碼器是指中間層與輸出層組成的子網(wǎng),目的在于在低維空間重建輸入。自編碼網(wǎng)絡(luò)的特點是,通過無監(jiān)督的學(xué)習(xí)使得輸出值盡可能地接近輸入值。
圖1 自編碼網(wǎng)絡(luò)模型Fig.1 Autoencoder network model
給定樣本,X=[x1,x2,…,xd].自編碼的訓(xùn)練目標是最小化重建誤差,如式(1):
(1)
(2)
式中:hi表示中間隱含層;W1和W2分別代表編碼器和解碼器的權(quán)重矩陣;b1和b2表示網(wǎng)絡(luò)偏置;g(·)表示激活函數(shù)。
卷積自編碼[12]包括卷積編碼與卷積解碼,其核心思想是在自編碼網(wǎng)絡(luò)的無監(jiān)督學(xué)習(xí)方式基礎(chǔ)上結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的卷積與池化操作,來實現(xiàn)特征不變性提取。為了更好地實現(xiàn)無損特征提取以及特征圖重構(gòu),本文采用Same模式卷積操作下的卷積自編碼網(wǎng)絡(luò)CAE-S,如圖2所示。
圖2 CAE-S結(jié)構(gòu)圖Fig.2 CAE-S structure
對特征圖執(zhí)行基于Same模式卷積操作的CAE-S卷積編碼,具體公式如下:
(3)
式中:g為輸出圖像;f為輸入的人臉圖像;f'為對矩陣f上下左右各填充(m-1)/2維數(shù)據(jù);h為卷積核;m為輸入圖像的寬。采用基于Same模式的卷積自編碼網(wǎng)絡(luò),計算CAE-S的輸出與輸入的均方誤差并由此更新網(wǎng)絡(luò)權(quán)值,進而實現(xiàn)特征提取。
將稀疏自編碼網(wǎng)絡(luò)的輸入設(shè)為{x(1),x(2),…},并將目標值設(shè)為輸入值y(i)=x(i).稀疏自編碼網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。前向傳播的公式如下:
(4)
圖3 稀疏自編碼網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Sparse autoencoder network structure
(5)
用最少的隱藏單元來表示輸入層的特征以達到稀疏性,因此應(yīng)采用KL(Kullback-Leibler divergence)距離,具體表達式如下:
(6)
稀疏自編碼網(wǎng)絡(luò)[13]整體代價函數(shù)如下:
(7)
式中,
(8)
(9)
這樣,一個稀疏自編碼器就完成了。稀疏自編網(wǎng)絡(luò)同樣可用于降維,其稀疏性具體表現(xiàn)為用較少的隱含層來表示原始數(shù)據(jù)。
本文在自編碼網(wǎng)絡(luò)的基礎(chǔ)上引入Same模式下卷積操作與稀疏化思想,同時用SVM分類器代替?zhèn)鹘y(tǒng)的Softmax分類器作為本文所提出網(wǎng)絡(luò)的分類器,提出了HDCSAE。該網(wǎng)絡(luò)結(jié)合了無監(jiān)督稀疏自編碼(sparse autoencoder,SAE)的特征提取能力和有效的卷積特征表示能力,實現(xiàn)了人臉圖像特征的自動提取。在卷積之后,由SAE提取的代表特征是對原始輸入圖像的特定方向和結(jié)構(gòu)信息的響應(yīng),并且卷積特征圖包含用于后一層特征表示的重要且期望的信息。該網(wǎng)絡(luò)由3部分組成:第1部分由CSAE-S層與Pooling層的組合CSAE作為深度網(wǎng)絡(luò)的基本模塊堆疊而成;第2部分為全連接層;第3部分為分類器部分,即將全連接層后提取的高層抽象特征輸入SVM分類器,得到分類結(jié)果。最終形成基于Same模式的深度卷積稀疏自編碼分層網(wǎng)絡(luò)(HDCSAE),如圖4所示。
圖4 基于Same模式的深度卷積稀疏自編碼分層網(wǎng)絡(luò)(HDCSAE)
Fig.4 Hierarchical deep convolution sparse autoencoder
(HDCSAE) network based on Same mode
整個網(wǎng)絡(luò)采用LeakyReLU作為激活函數(shù)。在網(wǎng)絡(luò)的每個Pooling層后加入Dropout層,可抑制網(wǎng)絡(luò)陷入過擬合的狀態(tài),增強其泛化性。最后使用多類別SVM分類器(multiclass support vector machine)代替?zhèn)鹘y(tǒng)的Softmax分類器,從而形成分層網(wǎng)絡(luò),進一步提高了識別準確率。
本文使用FERET人臉數(shù)據(jù)庫對本文提出的HDCSAE的性能進行測試。FERET人臉數(shù)據(jù)庫作為目前常用的人臉識別數(shù)據(jù)庫之一,包含1 196人14 051幅多姿態(tài)和光照的人臉灰度圖像。圖5為部分人臉圖像。
選取數(shù)據(jù)集中的80%圖像進行訓(xùn)練,20%進行測試。為了驗證系統(tǒng)的穩(wěn)定性和魯棒性,采用5折交叉驗證法對網(wǎng)絡(luò)性能進行評估。HDCSAE比傳統(tǒng)CNN要多n×m次卷積操作;其中,n表示HDCSAE的卷積層數(shù),m表示該網(wǎng)絡(luò)中自編碼訓(xùn)練迭代次數(shù)。
圖5 FERET人臉數(shù)據(jù)庫部分圖像Fig.5 Part of the images in FERET face database
為了使CNN在訓(xùn)練過程中可以更快地收斂,目前常用的方法是通過無監(jiān)督預(yù)訓(xùn)練的方式來代替隨機初始化權(quán)重[14]。而本文中DCAE/DCSAE的本質(zhì)就是利用自編碼初始化CNN權(quán)重,即通過控制輸出近似等于輸入的自編碼訓(xùn)練思想完成CNN參數(shù)初始化設(shè)置。
為了證明將基于Same的卷積操作融入自編碼網(wǎng)絡(luò)中同時加入稀疏化思想所形成的深度卷積稀疏自編碼網(wǎng)絡(luò)在特征提取方面的有效性,本文將傳統(tǒng)CNN、基于Same的卷積操作融入自編碼網(wǎng)絡(luò)所形成的的DCAE以及在DCAE的基礎(chǔ)上加入稀疏化思想所形成的DCSAE進行對比。網(wǎng)絡(luò)設(shè)計如表1所示。
表1 DCSAE及對比網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Structure of DCSAE and contrast network
表1為所設(shè)計的3種網(wǎng)絡(luò)模型,其中(64,5×5)表示該卷積層包含64個5×5卷積核。在實驗條件允許且不增加訓(xùn)練時間的情況下,將訓(xùn)練塊大小設(shè)置為32,每層自編碼迭代5次,整個網(wǎng)絡(luò)迭代13次。
實驗1通過比較CNN, DCAE,DCSAE等3種識別方法在測試集以及訓(xùn)練集上的準確性來評價本文提出的網(wǎng)絡(luò)的性能,具體結(jié)果如表2所示。
表2 DCSAE及對比網(wǎng)絡(luò)實驗結(jié)果Table 2 DCSAE and contrast network experiment result
分析圖6以及表2可以得出,相較于傳統(tǒng)CNN,DCAE和DCSAE在訓(xùn)練準確率以及測試準確率上均有提高。其中,DCSAE在測試準確率以及訓(xùn)練準確率上均取得最高值。由此說明,將基于Same模式卷積操作融入自編碼網(wǎng)絡(luò)以及在此基礎(chǔ)上加入稀疏化操作在提取人臉圖像魯棒的高層特征上的有效性,從而使得網(wǎng)絡(luò)的泛化性能更好。
圖6 FERET數(shù)據(jù)集下不同方法的測試準確率與訓(xùn)練準確率Fig.6 Test accuracy rate (a) and train accuracy rate (b) of different methods under FERET dataset
為了說明分層結(jié)構(gòu)可以有效提高深度卷積稀疏自編碼網(wǎng)絡(luò)的識別性能,并且說明本文提出的人臉識別方法相對于其他人臉識別方法的優(yōu)越性,實驗2在FERET數(shù)據(jù)集下將本文提出的HDCSAE與傳統(tǒng)的PCA+SVM結(jié)合方法[15]、SDAE(棧式降噪
自編碼,stacked denoising autoencoders)[16]方法以及F-NNSC方法[17]進行比較,實驗對比結(jié)果如表3所示。
表3 FERET數(shù)據(jù)集下不同算法的識別率Table 3 Recognition rate of different algorithms under FERET dataset
分析對比表3中HDCSAE與表2中DCAE、DCSAE的實驗結(jié)果后得出,HDCSAE的識別率更高。由此說明了將傳統(tǒng)Softmax層替換為SVM分類器對人臉識別的有效性,即說明了分層框架的有效性。
由表3還可以看出:相較于PCA+SVM算法、F-NNSC算法這些基于人為定義特征的人臉識別方法,本文方法(HDCSAE)的識別率有所提高;相較于基于SDAE的人臉識別算法,本方法的識別率有明顯的提高。由此證明,本文提出的人臉識別方法可以提取更加魯棒的人臉圖像特征,在深度網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計上更加合理。
本文在自編碼網(wǎng)絡(luò)的基礎(chǔ)上融入基于Same模式的卷積操作并引入稀疏化思想,形成深度卷積稀疏自編碼網(wǎng)絡(luò),再將網(wǎng)絡(luò)中Softmax分類器替換為SVM分類器,從而提出深度卷積稀疏自編碼分層網(wǎng)絡(luò)(HDCSAE),并將其運用于人臉識別。實驗證明,該網(wǎng)絡(luò)能提取人臉圖像更加有效魯棒的高層特征并得到較好的識別結(jié)果。