謝尚高,王麗平
(南京航空航天大學 理學院,江蘇 南京 210016)
基于同類測試樣本組的稀疏表示人臉識別
謝尚高,王麗平
(南京航空航天大學 理學院,江蘇 南京 210016)
近年來的研究表明,稀疏表示分類(SRC)方法是一種有效的人臉識別方法。SRC是單個樣本基于向量l1-范數(shù)正則化的最小二乘分類。但現(xiàn)實中常常存在著已知多個測試樣本屬于同一類的情況,無疑有利于分類,而基于SRC或其他單樣本模型的方法卻未能利用該信息。為利用類別標簽信息,提出了一種新的魯棒人臉識別方法。該方法基于同類測試樣本組的稀疏表示分類(IGSRC),即將同類多個測試樣本放至同組,采用矩陣L1-范數(shù)正則化的最小二乘分類進行稀疏表示,將測試樣本組判為類別中殘差最小的標號。實驗結果表明,相比于SRC與IGSRC方法,所提出的方法不但能取得更高的人臉識別率(即使在每類別訓練樣本數(shù)較少、訓練樣本存在部分遮擋),而且具有更少的計算耗時。
類內測試樣本組;稀疏表示;人臉識別;矩陣L1-范數(shù);多樣本
人臉識別是指對未分類的人臉樣本從眾多人臉中判別出類別。人臉識別一直是計算機視覺、模式識別等領域的研究熱點,主要集中在兩部分:一是人臉特征的選取,二是分類器的構造。在人臉特征選取方面,早期的方法主要考慮人臉幾何特征,后期則從統(tǒng)計學習的角度出發(fā),有了更進一步的發(fā)展,包括基于主成分分析的特征臉[1]、應用線性判別分析的Fisher臉[2]、基于局部特征的提取方法(如Gabor小波法[3-4]、LBP[5]方法)等。在分類器方面,線性分類器使用最多,如最近鄰(Nearest Neighbor)[6]、最近特征線(Nearest Feature Line)[7]、最近子空間平面(Nearest Subspace Plane)[8-10]等。
隨著壓縮感知理論[11-13]的發(fā)展,J.Wright等[14]提出用于人臉識別的稀疏表示分類(Sparse Representation-based Classification,SRC)方法,并在數(shù)值實驗上證明該方法的識別準確率和魯棒性都有所提升。SRC提出單個測試樣本可以用所有類別的訓練樣本進行線性表示,它通過l1-范數(shù)最小化自動尋找最稀疏的線性表示,大部分非零因子應集中在正確的類別上,從而自動滿足尋找正確類別的過程。稀疏表示具有很好的魯棒性[15-16],后續(xù)對SRC算法的改進及拓展包括CRC[17]、ESRC[18]、PCRC[19]等。其中CRC認為SRC在識別中起主要作用的是協(xié)同表示,而非稀疏優(yōu)化,所以CRC采用l2-范數(shù)最小化取得了和SRC類似的表現(xiàn),但識別速度更快;ESRC則加強了對字典的學習,加入類內差異與原訓練樣本集組成新的訓練字典。
SRC及拓展方法都只考慮單個測試樣本的表示與分類,而單個人臉樣本因為表情、光照、遮擋等因素具有較大的隨機性,有時同類之間也有較大的差異性,甚至存在類內差異大于類間差異的情況,而在許多應用場景中,同類的待識別樣本往往有多個,單個樣本逐一識別沒有充分利用這些待識別樣本屬于同類這一先驗知識。
針對該問題,考慮基于多樣本的同類測試樣本組的稀疏表示分類(Sparse Representation Classification with Intra-class testing-sample Group,IGSRC),將測試樣本中已知屬于同類的放至同組,對該組測試樣本進行矩陣L1-范數(shù)正則化的最小二乘(Frobenius范數(shù))表示,通過ADMM(Alternating Direction Method of Multipliers)優(yōu)化求解得表示系數(shù)后,計算對應的各個類別的重構殘差,將該組測試樣本判別為最小殘差的類別,并通過實驗進行驗證。
SRC將人臉識別模型表述成如下l1-范數(shù)最小化問題:
(1)
(2)
(3)
2.1 系數(shù)表示
(4)
進一步展開,即:
(5)
于是可以拆分成如下mi個子向量l1-范數(shù)最小化進行:
(6)
2.2 分 類
(7)
總結以上過程,即為:
算法1:基于同類測試樣本組的稀疏表示分類(IGSRC)。
(1)輸入:給定同類測試樣本組Yi∈Rd×mi,c類訓練樣本集A=[v1,1,v1,2,…,vc,1,…,vc,nc]∈Rd×n,正則化參數(shù)λ。
(2)單位化A、Yi的列向量,使其具有l(wèi)2-范數(shù)單位長度。
(3)求解以下矩陣L1-范數(shù)最小化問題:
(3)防治工程坡體巖體工程地質特征。強風化片麻巖黏聚力0 MPa,內摩擦角35°,容重21 kN/m3,承載力特征值為300 kPa。根據(jù)取樣試驗,強風化片麻巖天然單軸抗壓強度為28.6~38.2 MPa,飽和抗壓強度為19.1 MPa;中風化片麻巖天然單軸抗壓強度為109.0~113.0 MPa,飽和抗壓強度為92.3 MPa。
(8)
(4)計算殘差rj(Yi)=‖Yi-Aδj(X*)‖F(xiàn),j=1,2,…,c。
利用公開數(shù)據(jù)庫對算法IGSRC和SRC進行比較,選擇各自實驗效果最佳的參數(shù)λ,報告實驗結果。對于SRC模型的l1-范數(shù)最小化,文獻[14]給出的算法[20-21]是化為二階錐規(guī)劃利用牛頓迭代求解(下面簡稱L1QC),同時采用速度更快的l1-范數(shù)最小化算法-ADMM[22],所以同時比較上述兩種優(yōu)化方法得到的結果,對應的SRC模型分別稱之為SRC(L1QC)、SRC(ADMM),而對于算法IGSRC,采用ADMM算法求解式(6)。
3.1 無遮擋人臉識別
3.1.1 AR數(shù)據(jù)庫
選擇AR數(shù)據(jù)庫[23]常用的子版本,包含50個男性和50個女性在光照變化、表情變化、有無遮擋下的每人26張165×120維面部圖像,將其分成兩部分:session1和session2,每部分每人包含7張無遮擋圖像、3張墨鏡遮擋、3張圍巾遮擋,共計13張圖像,如圖1所示。記數(shù)據(jù)庫中第1個男性為類別1,第2個男性為類別2……第1個女性為類別51,依此類推,共100類。選擇每人只有光照、表情變化的14張圖像進行無遮擋數(shù)值實驗,即將來自session1的前7張作為訓練樣本,session2的前7張作為測試樣本。將每張圖像轉化成灰度矩陣,同文獻[14]的采樣方式,將圖像裁剪成4個特征維數(shù):30、54、130、540,對應于采樣率1/24、1/18、1/12、1/6,并下拉成向量,進行向量l2-范數(shù)單位化。
圖1 AR數(shù)據(jù)庫單個人的所有樣本
實驗結果如圖2(a)所示。
3.1.2 Extended Yale B數(shù)據(jù)庫
Extended Yale B數(shù)據(jù)庫[24]包含38個人每人約64張共計2 414張人臉圖像。圖像是在實驗室控制下的光照變化得到的,像素是192×168維。同樣,將每張圖像轉化為灰度矩陣,同文獻[14]的采樣方式,將圖像裁剪成30、56、120、504維,并下拉成列向量和進行l(wèi)2-范數(shù)單位化,隨機取每個人約一半的圖像作為訓練集,剩下的為測試集,得到的結果如圖2(b)所示。
圖2 IGSRC和SRC在AR與Extended Yale B上的識別率
由圖2(b)可見,IGSRC的識別率仍然在所有維數(shù)中表現(xiàn)最好,尤其在低維(30、56維)時超過SRC方法10%,在56維及以上取得了100%的識別率。因為Extended Yale B較AR樣本類別數(shù)少且樣本個數(shù)多,類似的維數(shù)下識別率比AR高也是意料之中。
3.2 更少訓練樣本數(shù)的人臉識別
減少訓練集每類樣本數(shù)量以測試算法的性能。在AR數(shù)據(jù)庫選擇無遮擋人臉圖像,訓練樣本從之前的每個人7張圖像以1張遞減逐步減少到1張,而測試集與之前一致,仍為每人7張圖像。所有實驗圖像都采樣成540維,其他處理方式同3.1.1。
表1顯示了當每個人的訓練樣本數(shù)為1~6時10次隨機置換訓練樣本后識別率的均值和相對標準差。在每人訓練樣本數(shù)為2個及以上,IGSRC都取得了較高的識別率均值(90%以上),相對標準差只有對應的SRC方法的1/6~1/3,SRC在訓練樣本數(shù)低于4時識別率均值已不足80%。表明IGSRC較SRC的識別率和穩(wěn)定性更佳。而在每人訓練樣本數(shù)為1時,兩種方法表現(xiàn)都欠佳。
表1 在AR數(shù)據(jù)庫上不同的訓練樣本數(shù)下的識別率
3.3 有遮擋人臉識別
為了測試IGSRC的魯棒性,將AR數(shù)據(jù)庫中包含遮擋的人臉圖像納入進行數(shù)值實驗。(1)全混合:選擇session1中100個人每人13張圖像(包含6張遮擋圖像,其中3張佩戴墨鏡、3張佩戴圍巾,見圖1)作為訓練集,選擇session2中所有13圖像(包含6張遮擋)作為測試集。(2)半混合:選擇session1的100個人每人7張無遮擋圖像作為訓練集,session2中每人所有13張圖像(包含6張遮擋)作為測試集。(3)無混合:選擇session1的100個人每人7張無遮擋圖像作為訓練集,session2中每人6張遮擋圖像作為測試集。這三種選擇使得識別任務的挑戰(zhàn)性逐步增大,訓練集中從所有樣本到僅有無遮擋圖像,測試集從所有樣本到僅有遮擋圖像。所有實驗圖像都采樣成540維,其他處理方式同3.1.1。具體的數(shù)值實驗結果如表2所示。
在3種混合選擇中,IGSRC依然比SRC在識別率上的表現(xiàn)更好,在“全混合”和“半混合”中,IGSRC基本不受遮擋影響,識別率高達96%以上。而在條件最嚴苛的“無混合”中,IGSRC的識別率為66%,仍然遠高于SRC(36.17%)。說明在訓練樣本和測試樣本中存在相同“類型”(同含有遮擋或無遮擋)時,IGSRC的魯棒性較高。
表2 在AR數(shù)據(jù)庫有遮擋下的識別率 %
3.4 時間對比
SRC是對單個測試樣本逐一進行系數(shù)表示、分類,IGSRC是基于同類測試樣本組進行整體表示、整體分類,如果訓練樣本數(shù)量和同組測試樣本數(shù)量越多,IGSRC理應會有更低的識別(系數(shù)表示+分類)時間。在Intel(R) Core (TM) i5-2400 3.10 GHz CPU, 4 GB RAM的個人電腦Matlab R2012b上,按3.1.1與3.1.2無遮擋的選擇方式(其中僅選擇AR數(shù)據(jù)庫圖像維數(shù)為540維,Extended Yale B圖像維數(shù)為504維),計算IGSRC和SRC對所有測試樣本(AR數(shù)據(jù)庫700個,Extended Yale B約1 200個)的識別時間,實驗重復進行10次,結果取均值與相對標準差,如表3所示。
表3 在AR和Extended Yale B上對所有測試樣本的識別時間 s
由表3可見,IGSRC比SRC具有更佳的識別時間及穩(wěn)定性,同時在Extended Yale B中由于測試樣本組中包含的樣本數(shù)(約32個)比AR測試樣本組包含樣本數(shù)(7個)更多,較SRC的時間優(yōu)勢體現(xiàn)得更明顯,對約1 200個測試樣本識別時間提升10 s左右。
SRC及其改進方法基本上是基于單樣本進行表示分類。而在許多應用場景中,同類的測試樣本往往有多個。為充分利用這一信息,采用IGSRC對人臉進行識別,將已知同類測試樣本分至一組,通過矩陣L1-范數(shù)整體系數(shù)表示和整體分類,使得一些單樣本的類內較大差異被類內較小差異的樣本所彌補,因而IGSRC算法獲得了比基于向量l1-范數(shù)的SRC更高的識別率、魯棒性和更低的相對標準差。同時,IGSRC較SRC計算耗時更低。但是,IGSRC對測試樣本組內的測試樣本“質量”要求較高,若算法中類內差異較大的樣本造成的影響大于類內較小差異的樣本,則整個測試樣本組將被判錯,但能容納類內差異較大樣本也是IGSRC的優(yōu)勢,如何平衡二者的影響,是進一步研究的方向。
[1] Turk M A,Pentland A P.Face recognition using eigenface[C]//Proceedings of IEEE conference on computer vision & pattern recognition.[s.l.]:IEEE,2011.
[2] Belhumeur P N,Hespanha J P,Kriegman D J.Eigenfaces vs. fisherfaces:recognition using class specific linear projection[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,1997,19(7):711-720.
[3] Lades M,Vorbruggen J C,Buhmann J,et al.Distortion invariant object recognition in the dynamic link architecture[J].IEEE Transactions on Computers,1993,42(3):300-311.
[4] Liu C.Capitalize on dimensionality increasing techniques for improving face recognition grand challenge performance[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2006,28(5):725-737.
[5] Ahonen T,Hadid A,Pietik?inen M.Face recognition with local binary patterns[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2006,28(12):2037-2041.
[6] Duda R O,Hart P E,Stork D G.Pattern classification[M].[s.l.]:John Wiley & Sons,2012.
[7] Li S Z,Lu J.Face recognition using the nearest feature line method[J].IEEE Transactions on Neural Networks,1999,10(2):439-443.
[8] Chien J T,Wu C C.Discriminant waveletfaces and nearest feature classifiers for face recognition[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2002,24(12):1644-1649.
[9] Ho J,Yang M H,Lim J,et al.Clustering appearances of objects under varying illumination conditions[C]//IEEE computer society conference on computer vision and pattern recognition.[s.l.]:IEEE,2003.
[10] Lee K C,Ho J,Kriegman D J.Acquiring linear subspaces for face recognition under variable lighting[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2005,27(5):684-698.
[11] Donoho D L.For most large underdetermined systems of linear equations the minimal L1-norm solution is also the sparsest solution[J].Communications on Pure & Applied Mathematics,2007,59(6):797-829.
[12] Candès E J,Romberg J K,Tao T.Stable signal recovery from incomplete and inaccurate measurements[J].Communications on Pure & Applied Mathematics,2006,59(8):1207-1223.
[13] Candès E J,Tao T.Near-optimal signal recovery from random projections:universal encoding strategies?[J].IEEE Transactions on Information Theory,2007,52(12):5406-5425.
[14] Wright J,Yang A Y,Ganesh A,et al.Robust face recognition via sparse representation[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2008,31(2):210-227.
[15] 閆德勤,劉勝藍,李燕燕.一種基于稀疏嵌入分析的降維方法[J].自動化學報,2011,37(11):1306-1312.
[16] 胡正平,宋淑芬.基于類別相關近鄰子空間的最大似然稀疏表示魯棒圖像識別算法[J].自動化學報,2012,38(9):1420-1427.
[17] Zhang L,Yang M,Feng X.Sparse representation or collaborative representation:which helps face recognition?[C]//International conference on computer vision.[s.l.]:IEEE Computer Society,2011:471-478.
[18] Deng W,Hu J,Guo J.Extended SRC:undersampled face recognition via intraclass variant dictionary[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2012,34(9):1864-1870.
[19] Cai S,Zhang L,Zuo W,et al.A probabilistic collaborative representation based approach for pattern classification[C]//IEEE conference on computer vision and pattern recognition.[s.l.]:IEEE,2016.
[20] Boyd S,Vandenberghe L.Convex optimization[M].[s.l.]:Cambridge Univ. Press,2004.
[21] Candès E,Romberg J.l1-magic:recovery of sparse signals via convex programming[R].[s.l.]:[s.n.],2005.
[22] Boyd S,Parikh N,Chu E,et al.Distributed optimization and statistical learning via the alternating direction method of multipliers[J].Foundations & Trends? in Machine Learning,2011,3(1):1-122.
[23] Martinez A R,Benavente R.The AR face database[R].[s.l.]:[s.n.],1998.
[24] Georghiades A S,Belhumeur P N,Kriegman D J.From few to many:illumination cone models for face recognition under variable lighting and pose[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2001,23(6):643-660.
Sparse Representation Classification for Face Recognition with Intra-class Testing-sample Group
XIE Shang-gao,WANG Li-ping
(College of Science,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China)
Recent studies have shown that Sparse Representation Classification (SRC) is an effective method for face recognition.SRC is a least squares classification based onl1-norm regularized for a single testing-sample.However,in the case that multiple testing-samples are known to be the same class which is surely helpful in the classification,the common-class label information is not included in SRC or other single-sample models.Therefore,a novel robust face recognition method based on sparse representation classification is proposed which is on the basis of IGSRC.Taking multiple intra-class testing-samples into the same group,it adopts the matrixL1-norm regularized least squares classification for sparse representation and judges the test sample group as the label with minimum error in classes.Experimental results show that compared with IRC and IGSRC,the method proposed cannot only obtain better face recognition rate (even when the number of training samples per subject is small or training samples are partly occluded),also own less running time.
intra-class testing-samples;sparse representation;face recognition;matrixL1-norm;multiple samples
2016-08-03
2016-11-08 網(wǎng)絡出版時間:2017-07-05
國家自然科學基金資助項目(11471159,61661136001);南京航空航天大學研究生創(chuàng)新開放基金(kfjj20150706)
謝尚高(1989-),男,碩士研究生,研究方向為最優(yōu)化算法及其應用;王麗平,副教授,研究方向為最優(yōu)化理論與方法及應用。
http://kns.cnki.net/kcms/detail/61.1450.TP.20170705.1650.028.html
TP301
A
1673-629X(2017)08-0007-05
10.3969/j.issn.1673-629X.2017.08.002