梁淑芬,劉銀華,李立琛
(五邑大學 信息工程學院,廣東 江門 529000)
人臉識別作為非入侵式的生物特征識別方法,在國防安全、視頻監(jiān)控、人機交互等方面具有廣泛的應用。傳統人臉識別算法在受某種或某幾種特定因素影響的限制條件下能夠獲得較好的效果,但在非限制條件下識別性能急劇下降。目前,非限制條件下人臉識別研究可分為2類:基于3-D模型[1,2]和 2-D模型[3~7]的人臉識別方法。其中,后者是研究的熱點?;?-D模型的人臉識別方法,對克服環(huán)境因素中姿態(tài)和光照影響非常有效。但3-D模型法計算復雜,擬合時間較長,不易達到實時性要求。2-D模型法主要將人臉圖像中具有判別性的相對不變特征表達出來。Wolf 等[3]對 LBP(local binary pattern )描述子進行優(yōu)化,并將其與 Gabor小波結合,試圖獲得非限制條件下人臉圖像特征的最佳表示,但該算法特征提取過程有過多主動因素介入。Marsico 等[4]提出 FACE (face analysis for commer-cial entities)算法進行非限制條件下人臉識別,該算法主要通過對非限制條件下的姿態(tài)和光照進行歸一化,從而得到非限制條件下的準確識別。在LFW(labeled faces in the wild)庫上識別率達到61%,但其識別性能過度依賴于對眼角、嘴巴、鼻尖等 13個標注點的準確定位?,F存算法所提取的人臉圖像特征判別性不強,且特征的表達方式過度依賴于人工選擇,但實際應用中研究者往往不知道如何準確選擇和表達。
最近,深度學習越來越受學者關注。深度學習模擬大腦組的深度組織結構,通過組合低層特征形成更抽象、更有效的高層表示[8]。其中,深度信念網絡(DBN,deep belief network)[9]是一種典型的深度學習方法,由Hinton在2006年首次提出,可稱為第三代神經網絡[10]。它通過自下而上自動學習不同層次的抽象特征,最終獲得特征的非線性描述,表達了一種不依賴于人工選擇的特征自動提取過程。DBN已成功應用于手寫數字識別[9]、動態(tài)人體檢測[11]等諸多領域。但是,DBN忽略了圖像局部結構,難以學習到人臉圖像的局部特征[12];同時,以像素級的人臉特征作為DBN的輸入,網絡會因光照等因素影響而學習到不利的特征表達。LBP算子[13]是由Ojala等提出的一種有效紋理描述子,能夠刻畫出人臉圖像的亮點、暗點、邊緣等局部微模式及其分布情況,且計算簡單、運算速度快,具有光照和旋轉不變性。LBP算子在動態(tài)紋理識別[14]、表情分析[14]、人臉識別[15]等方面得到廣泛應用。以LBP紋理特征作為DBN的輸入,可有效避免深度學習中遇到的難題。二者相結合,能為人臉識別提供更科學的理論基礎,而將其用于非限制條件人臉識別目前國內外報道不多。
本文通過 LBP提取非限制條件下人臉圖像的紋理特征并利用 DBN進一步自動學習更抽象、更有效的人臉特征,并在DBN頂層自動進行人臉分類。LBP所提取的人臉圖像的局部紋理特征對光照和微小平移具有較強的頑健性,將其作為DBN輸入特征更有助于網絡對圖像特征分布的理解,進一步減少網絡學習到不利的特征描述;同時,通過DBN對輸入數據進行深度學習和自動特征提取,并在網絡最頂層實現特征識別,有效避免了過多主動因素的干預。在LFW 人臉庫上實驗表明,與傳統算法 PCA、SVM、LBP等相比,本文算法所提取的具有結構性和層次性的特征判別性更強,能夠更有效地表征非限制條件下人臉圖像的特征信息,并對其進行更準確的預測。同時,在Yale庫和Yale-B庫上也獲得較高識別率,表明基于LBP紋理特征的DBN能夠提取限制條件下人臉圖像中更加有效的特征。
一幅二維人臉圖像 fM×N(x,y)的紋理特征可以通過圖像中的每一個像素點與其鄰域像素比較而得到,編碼方法為
由于LBP紋理特征具有灰度平移不變性、旋轉不變性、計算簡單等優(yōu)點,它已經成功應用于紋理分類、人臉識別、圖像分析、背景建模等領域,并呈現出優(yōu)越的性能。
DBN是Hinton在2006年提出的一種概率生成模型,如圖1所示,其基本模型是受限玻爾茲曼機(RBM,restricted boltzman machines)。對于一個具有l(wèi)層隱藏單元的DBN來說,其可視單元與隱藏單元之間的聯合分布可表示為
其中,v=h(0),v為DBN可視單元,h(k)(k=1,2,…,l)為第k層隱藏單元,而第k層和第k+1層的隱藏單元滿足
圖1 DBN結構模型
DBN是一種典型的深度學習網絡,它的原型類似于人的大腦組織結構,能夠由簡單到復雜、由低級到高級地提取輸入數據的特征,在頂層單元應用SoftMax回歸對特征分類,從而得到輸入數據的類標值,最終得到輸入數據與類標值的非線性映射。借助 DBN這種算法,計算機可以不依賴人工選擇自動學習輸入數據的抽象特征。在信息爆炸的時代,這無疑在數據處理領域能夠節(jié)約大量的人力,并能自動挖掘出隱藏在已知數據中的豐富信息。
以像素級人臉特征作為DBN的輸入,它能學習到人臉圖像中隱含的抽象特征,但由于輸入特征是向量形式,無法學習到人臉圖像的局部結構性特征。將LBP和DBN相結合可以使深度網絡有效捕獲人臉圖像的局部信息,此時的深度網絡聯合分布為
其中,H為LBP紋理特征, h(1),h(2)…h(huán)(l)是深度網絡對輸入特征H學習到的不同層次的高級特征,因而其優(yōu)劣性關系到深度網絡學習的有效性。若H為傳統LBP紋理特征,即其維度為2P,而LBP對應的二進制數大多數最多包含2次“0→1”或“0←1”跳變,而大于2次跳變的二進制數很少,此時H較為稀疏,且維度很高,使深度網絡在學習過程中計算量很大,實時性降低。若H為均勻 LBP紋理特征,其特征維度僅有 P(P-1)+ 3,可起到降維的作用,并且還能減少高頻噪聲帶來的不利影響。
當人臉圖像受均勻光照和微小旋轉影響時,由于 LBP紋理特征H對其具有極強的頑健性,因而由 DBN學習到的抽象特征仍然具有不變性。深度網絡能夠通過對H中的暗點、亮點、邊緣等微模式以及它們分布情況的學習,得到更具有結構性和層次性的抽象特征。將LBP紋理特征作為DBN的輸入,可以強化深度網絡的學習能力。
DBN對輸入LBP紋理特征學習的準確度取決于網絡訓練的優(yōu)劣,若 DBN參數沒有達到全局最優(yōu),該網絡用于人臉圖像分類無法達到淺層網絡的分類性能[16]。訓練 DBN過程如下:1)對第一層RBM,以LBP紋理特征為輸入,對RBM進行無監(jiān)督訓練,獲得該層最優(yōu)的參數;2)高層RBM以低一層RBM輸出數據為輸入,對RBM進行無監(jiān)督訓練,獲得RBM網絡最優(yōu)的參數值;3)最后利用全局訓練的方法對訓練好的各層參數微調,使得DBN收斂到全局最優(yōu)。該訓練方法繞過了全局訓練的復雜性,通過快速散度(CD,contrastive dibergence)[17]訓練 RBM 獲得 DBN各層的最優(yōu)參數,降低了學習目標過擬合的風險,使得網絡具有更好的數據預測能力。
本文通過LBP和DBN研究非限制條件下人臉識別,如圖2所示。本文算法具體步驟如下。
1)用雙線性內插法將測試樣本和訓練樣本降維至32×32,并進行直方圖均衡化等歸一化預處理。
2)對訓練樣本和測試樣本進行分塊并提取每個子塊的 LBP紋理特征,將每個子塊的特征連接起來形成樣本的LBP紋理特征。本文LBP紋理特征提取時樣本分塊為4×5,半徑R為1,像素數P為8。此時所提取的LBP紋理特征和像素級特征維數相當。
3)將訓練樣本的LBP紋理特征作為DBN可視層輸入,對深度網絡進行逐層訓練,以獲取最優(yōu)網絡參數。文中DBN層數選為2層:第1層學習率為0.002,迭代次數為40;第2層為0.003,迭代次數為40。
4)當深度網絡訓練完后,將測試樣本的 LBP紋理特征作為DBN可視層輸入,利用優(yōu)化后的網絡由下向上多層次地學習和提取測試樣本的抽象特征,在網絡最頂層進行SoftMax回歸分類,獲得測試樣本的類標值,并計算正確識別率。
圖2 人臉識別
為了驗證本文算法在非限制條件下的有效性,選用 LFW 人臉庫進行人臉識別實驗,同時,為進一步評估算法的性能,在限制條件下的人臉庫Yale和Yale-B上進行仿真實驗。實驗前,所有的人臉圖像經過眼睛定位、校準、剪切,最后歸一化到32×32。實驗硬件配置為:2.20 GHz的 Intel(R)Core(TM)2 Duo CPU,2.00 GB內存。
LFW中的人臉圖像是用標準人臉檢測器Viola-Jones從Internet上收集到的,包含5749人共13233幅圖像。其中,1680人的圖像數目大于或等于兩幅,另外 4069人只有一幅圖像。圖像分辨率為250×250,人臉圖像以彩色為主,包含少量灰度圖像。LFW主要用于非限制條件下的人臉識別,該庫能充分表現真實條件下人臉圖像的變化,如姿態(tài)、光照、遮擋、表情、背景、種族、性別等的變化。本文選取圖像數目大于或等于 20幅的人作為實驗對象,其中,包括62個人共3023幅圖像。每人隨機選取5幅圖像作為訓練樣本,剩下為測試樣本。
1)隱藏單元數不同時算法性能
DBN對輸入數據分類的準確性取決于對其自下向上、多層次學習的有效性。Hinton[9]指出,為保證貪婪學習算法提高網絡的性能,DBN各層隱藏單元的個數應保持一致,本文實驗中,各層隱藏單元數相同。非限制條件下人臉圖像特征復雜,且含有較多噪聲,為提取人臉圖像的有效特征,首先討論不同隱藏單元數情況下本文算法性能。實驗結果如表1所示。其中,訓練時間是無監(jiān)督預訓和有監(jiān)督訓練的時間之和,分類時間指測試樣本分類時間,總時間指訓練時間和測試時間之和。值得注意的是,在進行傳統LBP紋理特征作為DBN輸入的實驗中,當隱層單元數達到4000時,由于特征維數巨大,其對內存要求超出了本文的硬件能力范圍,因而主要考慮隱藏單元數在1000到3000的情況。
從表1可知,隨著隱藏單元數的增加,深度網絡能夠更好地表達人臉圖像特征,但是網絡的訓練時間和分類時間也隨之增加,計算量逐漸增大,因而對硬件要求也隨之提高。同時,由表1可知,當隱藏單元數相同時,基于均勻LBP紋理特征的深度學習方法識別率均高于基于像素級特征和傳統LBP紋理特征的深度學習方法,基于傳統LBP紋理特征的深度網絡分類能力同基于像素級的深度網絡相當。均勻LBP在降低特征維數的同時,還能減少高頻噪聲帶來的不利影響,對光照和微小旋轉具有極強的頑健性,它沒有因為特征的不完整性導致深度網絡學習能力下降,性能反而得到一定的提升。因此,均勻LBP紋理特征相對于傳統LBP紋理特征和像素級圖像,當作為DBN輸入時在降低維度情況下能更好地代表人臉圖像信息,更有利于深度網絡學習。
表1 不同隱藏單元數的正確識別率及時間消耗
2)樣本數不同時算法性能
在人臉識別中,訓練樣本主要為整個識別過程提供原型,訓練樣本數越多則能夠提取的差異性特征越多,對測試階段的預測越有利。表2為深度網絡隱藏單元為5000,不同訓練樣本數時,本文算法與傳統算法的比較結果。從表2可知,傳統算法PCA、SVM、LBP在樣本比較少時,提取的類別特征代表性并不強。當訓練樣本數增加時,提取類別特征較為豐富,算法識別率劇增,可見傳統算法在非限制條件下頑健性較差。深度學習經過非監(jiān)督預訓練,為網絡參數提供良好的優(yōu)化起點后只需要少量有標注訓練樣本進行監(jiān)督訓練,就能獲得較好的識別效果。訓練樣本數的增加對 DBN和LBP+DBN影響不是很大,表明深度學習算法在非限制條件下穩(wěn)定性更好,對各種因素的綜合影響具有更強的頑健性,同時,由表 2進一步說明基于LBP紋理特征的深度學習算法較基于像素級深度學習算法的識別率更好。
表2 不同訓練樣本數的正確識別率
3)LFW庫不同類別時算法性能
為探討本文算法在非限制條件人臉識別的有效性和普適性,以文獻[4]為參考基準,另外選取LFW 庫中人臉圖像數目大于或等于 8幅的最前面50個人共417幅人臉圖像作為實驗對象,每人隨機選取5幅圖像作為訓練樣本,其余為測試樣本。深度網絡隱藏單元數與表2相同,實驗結果如表3所示。由表3可知,不同算法分類時,本文算法識別率最高,達到85.16%,說明本文算法具有較好的識別能力。文獻[4]在LFW取得61%的識別率,但其算法的識別效果依賴于特征提取過程中人臉特征點的準確定位,且當樣本數目龐大時,人工介入非常繁瑣。比較表2和表3可知,當測試樣本復雜多變時,PCA、SVM、LBP識別率波動較大,而本文算法能夠保持較穩(wěn)定的識別率,從而更進一步表明本文算法在非限制條件下頑健性更強。
表3 不同類別時不同算法的正確識別率
通過在LFW人臉庫上實驗結果可知,基于LBP紋理特征的 DBN分類精度高于輸入特征為像素級的情況。將LBP紋理特征作為網絡的輸入,有助于網絡減少對冗余信息的聯想記憶,學習到人臉圖像中局部性的特征,從而實現對非限制條件下人臉圖像的準確識別。
Yale人臉庫有15個人,每人11幅圖像,共165幅圖像,圖像灰度級為256,分辨率為243×320。每個人有6種不同的表情,3種不同的光照,并且圖像有戴眼鏡和不戴眼鏡的區(qū)別。在實驗中,每人隨機選取5幅圖像作為訓練樣本,剩下的作為測試樣本。表4為深度網絡隱藏單元數不同時的正確識別結果,從表4可知,當隱藏單元較少時,同樣深度網絡不能準確學習到限制條件下人臉圖像的類別信息,隨著隱藏單元數的增加,網絡學習到的特征越來越充分,隱藏單元數為5000時,網絡學習到的人臉圖像特征判別性較強。從表5可知,本文算法在Yale人臉庫上識別率最高達到98.89%,較PCA、SVM、LBP、DBN分別提高了18.89%、4.45%、5.89%、2.22%,說明算法在限制條件下具有較好的識別能力。
表4 Yale庫上不同隱藏單元時正確識別率
表5 Yale庫上不同算法時正確識別率
Yale-B人臉庫有10個人,每人有64幅光照不同的圖像,圖像分辨率為192×168、灰度級256。在實際應用中,對方位角大于90°,垂直角大于90°的人臉圖像研究的價值不高,舍棄這部分圖像。剩余的人臉圖像分成3部分:子集1受光照影響很小,光源的方位角小于10°,垂直角小于10°,每人7幅人臉圖像;子集2與子集1光照條件相近,光源方位角小于20°、垂直角小于20°,每人共12幅人臉圖像;子集3與子集1光照條件差異很大,每人共30幅人臉圖像。子集1設為訓練集,子集2和子集3設為測試集。
上述實驗驗證了本文算法對非限制條件下和限制條件下綜合因素的有效性,但其中什么因素對算法影響較大還需要研究,本節(jié)實驗首先討論本文算法受光照影響時性能。表6為深度網絡隱藏單元數為1000~5000時Yale-B人臉庫上的識別率。由表6可知,本文算法對于光照變化具有較強的頑健性。
表6 Yale-B庫上不同隱藏單元時正確識別率
同時,由表7可知,本文算法與PCA、SVM、MSR(muitiscale retinex)、SQI(self-quotient image)、LBP、DBN等算法在光照變化不大的子集2識別率相當,但光照變得復雜時,如在子集3上實驗結果可知,本文算法能夠保持比較穩(wěn)定的識別率,而傳統算法識別率急劇下降,進一步說明本文算法對光照的頑健性較強。
由以上實驗結果可知,基于 LBP紋理特征的深度學習網絡能夠學習到更加有效的人臉圖像的類別特征。由于深度網絡模擬了人的大腦組織結構,隱藏單元類似于腦細胞,因此隱藏單元數越多,深度網絡提取的特征判別性越強。比較表2和表5可知,本文算法在限制條件下的正確識別能力遠遠高于非限制條件下,非限制條件的人臉圖像比限制條件下的人臉圖像需要更多的隱藏單元來模擬其特征分布情況。
表7 Yale-B庫上不同算法時正確識別率
本文提出LBP和DBN相結合的非限制條件下人臉識別,在LFW人臉庫上的實驗結果表明,本文算法能夠自下而上自動提取非限制條件下人臉圖像的有效特征。將LBP與DBN相結合,克服了DBN不能學習到人臉圖像局部結構特征的缺點,使得 DBN學習到的抽象特征受光照、微小平移等的影響較小。本文算法在受姿態(tài)、光照、表情、遮擋等綜合因素影響的非限制條件下具有較好的識別效果,同時在受多種因素影響的Yale庫和光照因素影響的Yale-B庫上取得較高的識別率。
文中采用均勻LBP紋理特征作為DBN學習的初始特征,均勻LBP紋理特征只包含了58種常見的紋理模式,而將198不常見的模式只整合為一種模式,這198種模式包含的信息量較少,并沒有造成 DBN學習到的特征性能下降,反而有所提升,均勻LBP特征相對傳統LBP特征性能更優(yōu)。
[1]MEDIONI G,CHOI J,KUO C H,et al. Identifying noncooperative subjects at a distance using face images and inferred three dimensional face models[J]. IEEE Trans Syst,Man,Cybern A,Syst,Humans,2009,39(1):12-24.
[2]BLANZ V,VETTER T. Face recognition based on fitting a 3D morphable model[J]. IEEE Transaction on Pattern Analysis and Machine Intelligence,2003,25(9): 1063-1074.
[3]LIOR W,TAL H,YANIV T. Effective uncon-strained face recognition by combining multiple descriptors and learned background statistics[J].IEEE Pattern Analysis and Machine Intelligence,2011,33(10): 1978-1990.
[4]MARSICO M D E,NAPPI M,RICCO D. Robust face recognition for uncontrolled pose and illumination changes[J]. IEEE Transactions on Systems,Man and Cybernetic,2012,43(1): 149-163.
[5]JAVIER R,RODRIGO V,MAURICIO C. Recognition of faces in unconstrained environments: a comparative study[J]. Journal on Advances in Signal Processing. 2009,12(4): 44-69.
[6]WOLF L,HASSNER T,TAIGMAN Y. Descriptor based methods in the wild[A]. Faces in Real-life Images Workshop in ECCV[C].2008.1-14
[7]ZHAO D,LIN Z,XIAO R,et al. Linear laplacian discrimination for feature extraction[A]. Proc IEEE Conference on Computer Vision and Pattern Recognition[C]. 2009.1-7.
[8]BENGIO Y,DELALLEAU O. On the expressive power of deep architectures[A]. Proc of 14th International Conference on Discovery Science[C]. Berlin: Springer-Verlag,2011.18-36.
[9]HINTON G E,OSINDERO S,THE Y-W. A fast learning algorithm for deep belief nets[J]. Neural Computation,2006,18(7): 1527-1554.
[10]COTTRELL G W. New life for neural networks[J]. Science,2006,313(5786):454-455.
[11]TALOR G W,HINTON G E,ROWEIS S T. Modeling human motion using binary latent variables[A]. Advances in Neural Information Processing Systems[C]. 2007. 1345-1352
[12]ITAMAR A,DEREKC R,THOMAS P K. Deep machine learning—a new frontier[J]. Artificial Intelligence Research IEEE Computa-tional Intelligence Magazine,2010,5(4): 13-18
[13]OJALA T,PIETIKAINEN M,MAENPAA T. Multiresolution grayscale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7): 971-987.
[14]ZHAO Z,PIETIKAINEN M. Dynamic texture recognition using local binary patterns with an application to facial expressions[J]. IEEE Trans PAMI,2007,27(6):915-928.
[15]LEI Z,LIAO S. Face recognition by exploring information jointly in space,scale and orientation [J]. IEEE Trans on Image Processing,2011,20(1):247-256.
[16]BENGIO Y. Learning deep architectures for AI [J]. Foundations and Trends in Machine Learning,2009,2(1): 1-127.
[17]HINTON G E. Training products of experts by minimizing contrastive divergence[J]. Neural Computation,2002,14(8): 1771-1800.