李利民,劉明輝
(中國電子科學研究院,北京 100041)
工程與應(yīng)用
基于機器學習算法的人臉識別魯棒性研究
李利民,劉明輝
(中國電子科學研究院,北京 100041)
在現(xiàn)代公安警務(wù)工作中,人臉識別是智能化目標人物排查、線索追蹤的重要支撐技術(shù)。在實際應(yīng)用中,公安布控人臉圖像采集通常處于非合作場景。在環(huán)境因素的作用下,采集的圖像相比于標準庫中人臉圖像往往發(fā)生噪聲疊加、曝光異常以及運動模糊等降質(zhì)褪化。因此,人臉識別算法的魯棒性應(yīng)當成為其有效性的重要判斷依據(jù)之一。鑒于上述考慮,本文研究了幾種典型機器學習算法在不同圖像降質(zhì)因素作用下的人臉識別性能,進一步分析了上述算法的魯棒性。
人臉識別;魯棒性;反向傳播神經(jīng)網(wǎng)絡(luò);徑向基神經(jīng)網(wǎng)絡(luò);廣義回歸神經(jīng)網(wǎng)絡(luò)
近年來,在我國“平安城市”建設(shè)的持續(xù)發(fā)展進程中,公共安防布控的圖像及視頻采集數(shù)據(jù)呈爆炸性增長趨勢。在這樣的背景下,基于海量數(shù)據(jù)的智能化人物身份識別是支撐社會安全風險防控的重要關(guān)鍵技術(shù),對現(xiàn)代公安警務(wù)工作中目標人物排查、線索發(fā)現(xiàn)跟蹤具有顯著的實際意義[1-2]。作為數(shù)字圖像處理的代表性技術(shù)之一,人臉識別是一種利用計算機分析人臉圖像,根據(jù)圖像內(nèi)在特征識別人物身份的技術(shù)。在日常生活中,人臉特征不僅傳達著豐富細膩的情感及心理信息,且具有獨一無二的生物學特征。由于人臉圖像采集具有非接觸性、非侵犯性,相對于其他生物特征具有更高的采集效率,因此在學術(shù)界及工業(yè)界得到了廣泛關(guān)注。
人臉識別技術(shù)的廣泛潛在市場價值,促使國內(nèi)外眾多研究機構(gòu)、科研院所投入大量的人力、物力持續(xù)攻關(guān)。國外較為著名的研究機構(gòu)主要包括美國麻省理工大學的人工智能實驗室、美國斯坦福大學的視覺實驗室、美國加州大學伯克利分校的計算機視覺實驗室、法國國家信息與自動化研究所、英國薩里大學的視覺信息與信號處理研究所、瑞士人工智能感知研究所等。國內(nèi)的相關(guān)的研究機構(gòu)主要有清華大學智能圖文信息處理實驗室、上海交通大學計算機視覺實驗室、中科院自動化研究所和中科院計算研究所等。
完整的人臉識別流程通常依次執(zhí)行人臉檢測、圖像分割、圖像預(yù)處理、特征提取、人臉匹配。其中,人臉檢測主要用于檢測目標場景中是否存在人臉圖像,并進行定位;進而,通過圖像分割將相應(yīng)的人臉區(qū)域分離;對于部分人臉圖像,尤其是非合作人臉識別過程中的采集樣本,圖像通常需要進行去噪、灰度平衡等預(yù)處理,使待識別圖像盡可能接近于數(shù)據(jù)庫樣本圖像;特征提取目的在于對圖像進行具有鑒別性的數(shù)學描述,在保證圖像類內(nèi)距離盡量小的前提下,提升類間距離類間距離,同時降低圖像表征維數(shù);人臉匹配是指將待識別人臉特征與人臉庫進行比對,或?qū)⒃撎卣鬏斎胗柧毢玫臋C器學習模型,從而給出人臉識別結(jié)果。在人臉識別計算流程中,對人臉特征進行顯性描述進而進行識別往往十分困難,而考慮到部分經(jīng)典機器學習算法中,神經(jīng)元的連接機制具有強大的非線性擬合能力,可以有效的隱性表征人臉特征。因此,近年來隨著人工智能領(lǐng)域不斷取得突破,基于機器學習的人臉識別算法受到了廣泛關(guān)注[3-7]。
然而在實際應(yīng)用中,人臉圖像采集時常處于非合作場景,最典型即為公安布控。此時,在環(huán)境因素的作用下,采集的圖像相比于標準庫中人臉圖像往往發(fā)生降質(zhì),導(dǎo)致識別準確率發(fā)生不同程度的下降。常見降質(zhì)形式包括噪聲疊加、曝光異常以及運動模糊等[8-10]。在特征提取及圖像識別前,采用圖像預(yù)處理可以在一定程度上改善圖像的降質(zhì)問題,但由于逆處理過程中無法獲知圖像降質(zhì)的準確模型及參數(shù),因此并不能使圖像準確還原。鑒于上述原因,本文研究了基于幾種典型機器學習算法在不同圖像降質(zhì)因素作用下的人臉識別性能,進一步分析了集中算法在不同場景下的魯棒性。需要指出的是,對于椒鹽噪聲疊加類降質(zhì)圖像,可以采用中值濾波進行普適處理。對于曝光異常以及運動模糊兩類降質(zhì)圖像,還原效果顯著依賴于相關(guān)參數(shù),甚至可能“矯枉過正”??紤]到上述原因,由于本文研究重點聚焦于機器學習算法本身性能,因此對于曝光異常以及運動模糊兩類降質(zhì)圖像未進行預(yù)處理。
機器學習通常指依賴于連接機制,具有大規(guī)模并行處理和分布式的信息存儲功能,依靠大量節(jié)點的連接以及這種連接所引起的節(jié)點的不同興奮狀態(tài)來以任意精度逼近任意有限間斷點函數(shù)的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。本文研究了反向傳播神經(jīng)網(wǎng)絡(luò)、徑向基神經(jīng)網(wǎng)絡(luò)、廣義回歸神經(jīng)網(wǎng)絡(luò)三種經(jīng)典機器學習算法在幾種典型圖像降質(zhì)條件下的人臉識別性能,其基本拓撲結(jié)構(gòu)均為人工神經(jīng)網(wǎng)絡(luò),如圖1所示。
圖1 人工神經(jīng)網(wǎng)絡(luò)系統(tǒng)的基本拓撲結(jié)構(gòu)示意圖
1.1 反向傳播神經(jīng)網(wǎng)絡(luò)算法
反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN, Back Propagation Neural Nerwork)的特點是信號前向傳播,誤差反向傳遞。在前向傳遞過程中,信號由輸入層經(jīng)隱藏層處理并送至輸出層,其中每層神經(jīng)元的狀態(tài)只影響下一層神經(jīng)元狀態(tài)。如果輸出層輸出值不滿足預(yù)設(shè)訓練中止條件,則轉(zhuǎn)入反向傳播過程,根據(jù)誤差調(diào)整網(wǎng)絡(luò)權(quán)值及偏置值,該迭代過程使BPNN輸出不斷逼近期望輸出。隱藏層中每個神經(jīng)元滿足式(1)中關(guān)系。
(1)
BPNN訓練可以采用梯度下降算法實現(xiàn),神經(jīng)元參數(shù)更新計算如式(2)所示。
(2)
1.2 徑向基神經(jīng)網(wǎng)絡(luò)算法
徑向基函數(shù)可以實現(xiàn)多維空間插值,對非線性連續(xù)函數(shù)具有一致逼近性能。相比于BPNN,徑向基神經(jīng)網(wǎng)絡(luò)(RBFNN, Radial Basis Function Neu- ral Network)的隱藏層神經(jīng)元傳遞函數(shù)是對中心點徑向?qū)ΨQ且衰減的非負非線性函數(shù)。RBFNN的核心思想是用徑向基函數(shù)構(gòu)成隱藏層空間,將輸入狀態(tài)矢量由低維空間變換到高維空間,使得在低維空間內(nèi)線性不可分的數(shù)據(jù)在高為維空間內(nèi)仍具有線性可分性,神經(jīng)元滿足式(3)中關(guān)系。
(3)
上式中,xp表示第p個輸入樣本,P表示樣本總數(shù);θ表示隱藏層節(jié)點聚類中心,ω表示隱藏層到輸出層的連接權(quán)值,h表示隱藏層神經(jīng)元數(shù),y表示神經(jīng)網(wǎng)絡(luò)輸出值,d表示樣本的期望輸出值。
1.3 廣義回歸神經(jīng)網(wǎng)絡(luò)算法
廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN, Generalized Re- gression Neural Network)具有極強的非線性映射能力,適用于解決非線性擬合問題。相比于RBFNN,GRNN在逼近能力和學習速度上更具優(yōu)勢,且在訓練樣本數(shù)量較少或訓練樣本數(shù)據(jù)不穩(wěn)定時具有明顯的性能優(yōu)勢, 神經(jīng)元滿足式(4)。
(4)
從輸出結(jié)果來看,yj為所有樣本觀測值的加權(quán)平均,每個觀測值的權(quán)重值為對應(yīng)樣本Xi與X的歐氏距離平方的指數(shù),即pi。當光滑因子σ趨于無窮大時,輸出結(jié)果近似于所有樣本的平均觀測值。反之,當σ趨近于0時,輸出結(jié)果與訓練樣本非常接近。此時,若訓練樣本不完備,則測試輸出結(jié)果誤差將非常大,即GRNN的泛化能力較差。
圖像成像過程中,產(chǎn)生降質(zhì)的因素繁多,典型如光學系統(tǒng)相差、成像過程發(fā)生相對運動、各種外界因素的干擾及噪聲等。上述因素均會導(dǎo)致圖像發(fā)生不同樣式、不同程度的降質(zhì),進而人臉識別的準確率。文主要分析了三種典型降質(zhì)因素,即:椒鹽噪聲、曝光異常以及運動模糊。
2.1 椒鹽噪聲
實驗研究表明,攝像機拍攝圖像過程中,圖像傳感器、傳輸信道、解碼處理等部件或因素將引入椒鹽噪聲,在圖像上呈現(xiàn)黑白雜點,進而影響后續(xù)圖像處理。設(shè)圖像I(x,y)為N位圖,椒鹽噪聲密度為dsp,滿足dsp∈[0,1],則疊加椒鹽噪聲后的圖像g(x,y)可以表示如式(5)所示。
(5)
2.2 曝光異常
曝光指圖像的物理生成過程中,允許進入鏡頭照在圖像傳感器上的光量,通??梢杂晒馊?、快門以及圖像傳感器的感光度組合控制。理想情況下,曝光度應(yīng)控制在合理的范圍,使照片亮度適中,對比度強。然而,由于人臉識別圖像采集場景多變,尤其對于非合作采集條件下的公安布控等場景,往往存在曝光過度或曝光不足等問題,導(dǎo)致圖像曝光異常部分細節(jié)丟失,進而影響人臉識別準確率。
研究表明,同態(tài)濾波方法利用光照反射模型,把頻率過濾和灰度變換結(jié)合,可以在不損失圖像細節(jié)的前提下調(diào)解圖像的光照條件??紤]到同態(tài)濾波具有上述特點,因此本文將其用作曝光異常的圖像仿真方法。設(shè)原始圖像為I(x,y),首先對其取對數(shù)并做傅里葉變換,提取高頻及低頻分量:
Z(u,v)=F(z(x,y))=F(ln(I(x,y)))
(6)
之后,采用頻域濾波函數(shù)對圖像進行增強處理,本文采用高斯型高通濾波器作為濾波函數(shù),處理如式(7)所示。其中M,N分別表示圖像的行、列像素數(shù),D0為截止頻率,c為銳化系數(shù),Rh為高頻增益,Rl為低頻增益。
(7)
最后,對頻域圖像做傅里葉反變換并取指數(shù),計算過程如式(8)所示。
g(x,y)=es(x,y)=eF-1(S(u,v))
(8)
2.3 運動模糊
在照片曝光期間,相機與被攝物體之間發(fā)生相對運動造成的圖像模糊稱為運動模糊。受運動模糊影響的圖像往往在視覺上表現(xiàn)為圖像像素整體沿某一方向具有拖影效果。當像素位移量偏大時,將嚴重影響圖像質(zhì)量,從而降低人臉識別準確率??紤]到變速或非直線運動在一定條件下可以被分解為分段勻速直線運動,因此勻速直線運動造成的運動模糊具有普適的研究意義。從物理場景上看,圖像發(fā)生運動模糊的原因是被攝圖像經(jīng)過一定距離延遲后再進行疊加。將靜止條件下的圖像表示為I(x,y),設(shè)快門打開期間,圖像傳感器與被攝物體保持水平勻速直線運動,則圖像褪化模型可以表示為式(9)。
(9)
其中,L表示圖像發(fā)生整體位移的像素長度近似值。
3.1 人臉圖像分割及特征提取
在人臉圖像特征提取之前,為了實現(xiàn)對原始圖像降維以降低機器學習系統(tǒng)復(fù)雜度,本文首先對原始圖像進行了子圖分割??紤]到子圖分割方式應(yīng)充分將人臉的各個顯著特征區(qū)域區(qū)分開,并盡量不破壞其局部整體性,即令子圖中盡量獨立整體保留頭發(fā)、額頭、眼睛、鼻子、嘴巴、耳朵以及胡須等特征區(qū)域。在此基礎(chǔ)上,子圖分割數(shù)量直接影響圖像特征的豐富程度。理論上來說,子圖分割數(shù)量越大,圖像特征量越多,特征越豐富,但同時會導(dǎo)致機器學習系統(tǒng)輸入量維數(shù)增多,從而使得系統(tǒng)過于復(fù)雜,訓練時間急劇上升。綜合上述分析,經(jīng)過多組仿真性能比較,本文采用5×5的二維子圖分割方式對原始圖像進行區(qū)域分割,如圖2所示。
圖2 子圖分割示意圖
作為一種有效的代數(shù)特征,奇異值分解在數(shù)據(jù)的壓縮、信號的處理和模式的識別等多方面都有十分廣泛的應(yīng)用,考慮到其具有比例不變性、旋轉(zhuǎn)不變性等特征,意味著對圖像進行旋轉(zhuǎn)、同比灰度調(diào)整等操作不會改變其特征值,因此非常適用于人臉圖像特征提取。本文中人臉識別算法均首先將待識別圖像進行5×5二維子圖分割,隨后對每幅子圖進行奇異值分解,然后選擇變換后的最大系數(shù)代表該子圖的特征,并且進行歸一化處理,最后將這些歸一化后的子圖特征系數(shù)組合起來,作為整幅人臉圖像的特征向量。如果圖像矩陣A∈Rm×n,則有正交矩陣U,V,滿足式(10)。
(10)
3.2 仿真結(jié)果及性能分析
本文采用劍橋大學ORL人臉數(shù)據(jù)庫,研究分析了基于SVD特征提取的主成分分析(PCA, Principal Component Analysis)[7]、BPNN、RBFNN、GRNN四種算法的人臉識別性能。在分析不同機器學習算法非線性擬合能力的同時,為了兼顧考量算法的泛化性能,對每個人物隨機取5副人臉圖像用作訓練,剩余5副圖像用作測試。仿真中,加入了椒鹽噪聲、曝光異常以及運動模糊三類典型人臉圖像降質(zhì)因素,其中曝光異常按曝光不足及曝光過量兩類情況分別考慮。用作測試的一組圖例如圖3所示,降質(zhì)參數(shù)的定義在本文第三節(jié)有所闡述。
圖3 仿真中不同降質(zhì)條件下的一組圖例
仿真結(jié)果如圖4至圖7所示。為了深入分析仿真結(jié)果依賴于圖像降質(zhì)參數(shù)的變化關(guān)系,圖中同時給出了仿真結(jié)果的擬合曲線,擬合算法采用有理數(shù)逼近擬合,分子分母均采用5次多項式。
圖4 椒鹽噪聲作用下不同算法的人臉識別性能
圖5 曝光不足條件下不同算法的人臉識別性能
圖6 曝光過量條件下不同算法的人臉識別性能
圖7 運動模糊條件下不同算法的人臉識別性能
根據(jù)圖4中仿真結(jié)果可見,當椒鹽噪聲密度小于30%時,PCA算法與SVD-RBFNN算法性能接近,正確識別率約90%,且明顯優(yōu)于另外兩種算法。當椒鹽噪聲密度達到40%時,隨著噪聲繼續(xù)增加,四種算法的人臉識別正確率均開始呈不同程度的下降趨勢。當噪聲密度達到80%以上時,四種人臉識別算法均基本失效??傮w來看,PCA算法的抗椒鹽噪聲性能明顯優(yōu)于其他算法。從圖5、圖6中仿真結(jié)果可以看出,人臉識別受曝光量影響較為嚴重。隨著圖像曝光量逐漸偏離正常值,PCA算法性能下降最快,SVD-RBFNN算法性能變化平緩,其魯棒性明顯優(yōu)于其他三種算法。根據(jù)圖7中仿真結(jié)果,隨著運動模糊逐漸增強,SVD-RBFNN算法性能下降趨勢最明顯。當運動模糊像素增至40時,由圖3可以看出,人眼已經(jīng)很難分辨識別圖像中人物。此時,根據(jù)圖7中仿真結(jié)果,PCA及SVD-GRNN算法的識別率仍在60%以上。隨著運動模糊像素繼續(xù)增多,PCA算法與SVD-GRNN算法性能逐漸接近??傮w來看,PCA算法的抗運動模糊性能最佳。
綜上所述,在不同降質(zhì)褪化場景下,PCA、SVD-RBFNN總體表現(xiàn)魯棒性較好。深入分析其原因,BPNN非線性擬合能力相對較弱,因此各項抗圖像褪化性能相對較差。此外,由于GRNN的非線性擬合能力非常強,往往存在過擬合問題,導(dǎo)致其泛化性能較差。考慮到本文對每組人臉圖像非完備集進行訓練,因此GRNN算法的測試樣本輸出結(jié)果可能發(fā)生較大誤差。
本文采用ORL人臉庫,通過仿真研究了基于SVD特征提取的PCA、BPNN、RBFNN、GRNN四種典型機器學習算法在不同圖像降質(zhì)因素作用下的人臉識別性能,進一步分析了上述算法在不同圖像褪化場景下的魯棒性。從仿真結(jié)果來看,對于椒鹽噪聲及運動模糊影響的人臉圖像,PCA算法魯棒性較好,但該算法性能顯著依賴于圖像曝光條件影響。相比之下,當圖像曝光條件不佳時,采用RBFNN作為人臉識別算法具有相對較好的魯棒性。
[1] 李建明. 智慧城市發(fā)展綜述[J]. 中國電子科學研究院學報, 2014(3): 221-233.
[2] 劉成龍, 李志學, 楊暢. 淺談人臉識別技術(shù)在平安城市中的應(yīng)用[J]. 電子技術(shù)與軟件工程, 2016(10): 90-90.
[3] Mageshkumar C, Thiyagarajan R, Natarajan S P, et al. Gabor features and LDA based face recognition with ANN classifier[C]// Emerging Trends in Electrical and Computer Technology (ICETECT), 2011 International Conference on. IEEE, 2011:831-836.
[4] Ch’Ng S I, Seng K P, Ang L M. Adaptive momentum Levenberg-Marquardt RBF for face recognition[C]// IEEE International Conference on Circuits and Systems. 2012:126-131.
[5] Banerjee P K, Datta A K. Generalized regression neural network trained preprocessing of frequency domain correlation filter for improved face recognition and its optical implementation[J]. Optics & Laser Technology, 2013, 45(1):217-227.
[6] Sharma R, Patterh M S. A new pose invariant face recognition system using PCA and ANFIS[J]. Optik-International Journal for Light and Electron Optics, 2015, 126(23):3483-3487.
[7] Yang J, Zhang D, Frangi A F, et al. Two-dimensional PCA: a new approach to appearance-based face representation and recognition.[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2004, 26(1): 131-137.
[8] Zhang P, Li F. A New Adaptive Weighted Mean Filter for Removing Salt-and-Pepper Noise[J]. IEEE Signal Processing Letters, 2014, 21(10): 1280-1283.
[9] Im J, Fujii H, Yamashita A, et al. Compensation of over and under exposure image using multiple light switching[C]// Ieee/sice International Symposium on System Integration. IEEE, 2014: 147-152.
[10]Punnappurath A, Rajagopalan A N, Taheri S, et al. Face recognition across non-uniform motion blur, illumination, and pose.[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2015, 24(7): 2067-2082.
Research on the Robustness of Face Recognition Based on Machine Learning Algorithms
LI Li-min, LIU Ming-hui
(China Academy of Electronics and Information Technology,Beijing 100041,China)
Face recognition is an important technology for supporting intelligent target character investigation and clue tracking in in modern police affairs. Under the influence of environmental factors, such as noise superposition, exposure abnormity and motion blur, degeneration usually occur to sampled images comparing with the standard face image. Therefore, the robustness of face recognition algorithm is one of the important criteria for its effectiveness. For the above consideration, this paper investigates the performance of several typical machine learning algorithms under different image degeneration factors, and further analyses the robustness of the aforementioned algorithms.
face recognition; robustness; back-propagation neural network; radial basis function neural network; generalized regression neural network
10.3969/j.issn.1673-5692.2016.02.022
2017-01-01
2017-04-01
TP181
A
1673-5692(2017)02-219-06
李利民(1985—),男,黑龍江人,博士,主要研究方向為網(wǎng)絡(luò)安全、圖像處理、軍事通信、通信仿真;
Email:atpcat@163.com
劉明輝(1979—),男,河南人,高級工程師,主要研究方向為綜合電子信息系統(tǒng)總體設(shè)計與系統(tǒng)集成。