周 全 魏 昕 陳建新 鄭寶玉
?
一種基于稠密SIFT特征對齊的稀疏表達人臉識別算法
周 全*魏 昕 陳建新 鄭寶玉
(南京郵電大學寬帶通信與傳感網(wǎng)技術教育部重點實驗室 南京 210003)
該文針對人臉圖像受到非剛性變化的影響,如旋轉、姿態(tài)以及表情變化等,提出一種基于稠密尺度不變特征轉換(SIFT)特征對齊(Dense SIFT Feature Alignment, DSFA)的稀疏表達人臉識別算法。整個算法包含兩個步驟:首先利用DSFA方法對齊訓練和測試樣本;然后設計一種改進的稀疏表達模型進行人臉識別。為加快DSFA步驟的執(zhí)行速度,還設計了一種由粗到精的層次化對齊機制。實驗結果表明:在ORL, AR和LFW 3個典型數(shù)據(jù)集上,該文方法都獲得了最高的識別精度。該文方法比傳統(tǒng)稀疏表達方法在識別精度上平均提高了4.3%,同時提高了大約6倍的識別效率。
人臉識別;人臉對齊;稠密尺度不變特征轉換特征;稀疏表達模型
作為高層視覺的主要任務之一,人臉識別的目的是區(qū)分輸入人臉圖像的類別信息。人臉識別技術不僅是計算機視覺領域的研究熱點,而且為相關的實際應用提供技術支持,如:人臉鑒定[3],人機交互[4],視頻監(jiān)控[5]以及入侵檢測[6]等。過去十幾年來,學者們設計了很多成功的人臉識別系統(tǒng)。從建模的角度出發(fā),現(xiàn)有的人臉識別方法大致可以分為兩個類別:監(jiān)督式模型和非監(jiān)督式模型。監(jiān)督式模型通過判別準則來識別人臉,如線性映射模型[12]和線性回歸模型[13]等。實際的人臉圖像經(jīng)常受到劇烈的變形和噪聲干擾,如光照,遮擋,旋轉、姿態(tài)和表情變化等,限制了這類方法在實際中的應用。非監(jiān)督式模型則主要采用圖像重建的方法來建模,并通過重建誤差來估計人臉類別。比較經(jīng)典的建模方法包括主成份分析(Principal Component Analysis, PCA)[14],獨立成份分析(Independent Component Analysis, ICA)[15]和稀疏表達模型(Sparse Representation Models, SRMs)等。PCA方法也稱為特征臉方法,通過最大化所有訓練樣本的散度來計算主要的投影方向。ICA方法是PCA方法的擴展,通過求取一系列相互獨立的投影方向,然后將訓練樣本投影到由這些投影方向張成的特征空間中[15]。SRM模型[16]廣泛應用于正臉樣本的識別,在提高識別精度的同時很好地解決了遮擋,光照以及噪聲對人臉圖像識別的影響。Peng等人[17]提出了一種改進的稀疏表達模型,專門用來處理剛性變換下的非正臉圖像的識別問題。Wagner等人[18]在Peng等人[17]的研究基礎上,提出一種面向實際應用的人臉識別系統(tǒng)。但在實際場景中,無論是訓練圖像還是測試圖像,都會受到非剛性變換的影響,如旋轉、表情、姿態(tài)等的變化,這就需要研究非剛性變換作用后人臉圖像的識別問題。
本文提出一種基于稠密SIFT(Scale Invariant Feature Transform)特征對齊(Donse SIFT Feature Alignment, DSFA)的稀疏表達人臉識別算法。首先將訓練圖像向測試人臉對齊,然后利用稀疏近似的方法進行人臉識別。具體而言,首先提取圖像每個像素的SIFT特征描述子[19],然后根據(jù)圖像對齊準則建立圖像對齊模型。在對齊模型的優(yōu)化過程中,設計一種由粗到精的層次化對齊機制,可大大降低算法復雜度。最后,設計一種改進的稀疏表達模型來進行人臉識別。本文方法不需要測試人臉是正臉圖像,提高了整個算法的靈活性。文獻[18]提出的SRM模型與本文方法直接相關,但兩者在方法動機和技術細節(jié)上存在本質不同。首先,兩種方法的假設前提不同。文獻[18]中假設測試圖像是一系列非對齊人臉圖像,而訓練圖像是一系列對齊的正臉圖像。本文則考慮在訓練和測試圖像都是非對齊人臉圖像,并都受到非剛性形變情況下的人臉識別問題。其次,兩種方法的工作機制不同。文獻[18]是測試圖像向訓練圖像對齊,而本文方法是訓練圖像向測試圖像對齊。最后,兩種方法在具體算法上不同。文獻[18]采用線性迭代更新的方法求取一系列最優(yōu)的剛性變換,將測試人臉圖像對齊到訓練圖像,而本文運用DSFA算法作為一種非剛性變換將訓練圖像對齊到測試圖像。與傳統(tǒng)的人臉識別算法和現(xiàn)有的SRM模型相比,實驗結果證明了本文方法獲得了更高的識別精度和更快的識別速度??偠灾?,本文主要貢獻如下:(1)針對人臉圖像易于受到非剛性變換的影響(如旋轉、姿態(tài)和表情變化等),設計了一種DSFA算法進行人臉對齊;(2)為提高DSFA的優(yōu)化效率,設計了一種由粗到精的層次化對齊機制;(3)得到大致對齊的訓練樣本圖像之后,設計了一種改進的SRM模型,并提出一種易于實現(xiàn)的識別算法。
2.1 稠密SIFT特征描述子提取
SIFT特征[19]是一種刻畫圖像梯度變化信息的魯棒性描述子,并廣泛應用于人臉識別[20]。計算SIFT特征主要包括特征點檢測和特征點描述兩個過程,本文只采用特征點描述過程。以像素=(,)為中心,將16×16大小的圖像區(qū)塊分割成4×4個較小的區(qū)塊(每個區(qū)塊的大小為4×4)。在每個4×4區(qū)塊中統(tǒng)計8個方向上的梯度直方圖。這樣像素就可以表示成為一個4×4×8=128維度的特征向量。稠密SIFT特征描述子提取就是對圖像中每個像素都提取SIFT特征描述子。
2.2人臉圖像對齊模型及其優(yōu)化
給定兩幅人臉圖像1和2,圖像對齊的目的就是希望圖像1中像素經(jīng)過漂移之后,在圖像2中具有相同或者類似的SIFT特征。定義()=((),())為像素的漂移向量。其中,()和()分別代表在豎直方向和水平方向上的漂移向量。顯然,()和()的取值只能是整數(shù)。為避免像素漂移之后出現(xiàn)不連續(xù)的情況,相鄰像素之間的漂移向量應盡量保持一致。定義圖像1和2的對齊模型或者對齊能量為
圖1 雙層信念傳播子圖示意圖
2.3 由粗到精的對齊機制
采用雙層環(huán)形信念傳播算法的問題在于整個算法的復雜度隨著圖像分辨率的增大而急劇增加。例如,優(yōu)化一幅100×100和一幅80×80大小的圖像之間的對齊模型耗時約50 s,而優(yōu)化兩幅256×256大小的圖像則需要2 h,僅存儲式(1)中數(shù)據(jù)對齊項中的數(shù)據(jù)就需要大約16 G的內存。為此,本文設計一種由粗到精的對齊機制來加快DSFA的優(yōu)化速度。該機制的基本思想是在粗的尺度上大致估計漂移量,然后逐漸傳播并細化到精細的尺度。整個優(yōu)化過程如圖2所示。建立3層不同尺度的圖像金字塔{s},=1, 2, 3。其中1的分辨率與原始圖像大小一樣,而圖像s+1通過圖像s下采樣得到。假設k表示在第個尺度需要被對齊的像素坐標,表示像素在第個尺度上的最優(yōu)漂移向量,k表示搜索最優(yōu)漂移向量的窗口中心坐標。在圖像金字塔最高層3中,搜索窗口的中心設置為3=3。為確保全搜索,搜索窗口的大小設置為,其中為3的寬度或者高度。所以3層信念傳播算法的復雜度為。當信念傳播算法收斂以后,整個系統(tǒng)將像素3的最優(yōu)漂移向量傳播給下一層。信念傳播算法將在以為中心,大小為的搜索窗口中搜索最優(yōu)的漂移向量。整個優(yōu)化過程重復迭代直到計算得到。這種由粗到精的算法復雜度為,大大優(yōu)于原始的優(yōu)化算法復雜度。實際應用中,使用雙核2.7 GHz因特爾CPU和32 G內存的PC機,采用由粗到精的對齊機制來優(yōu)化兩幅256×256大小的人臉圖像僅僅只需要大約30 s,比原始優(yōu)化算法提高了4倍速率。
圖2 由粗到精的對齊機制示意圖(陰影窗口表示在第k個尺度上像素x k的搜索窗口)
圖3展示了ORL數(shù)據(jù)集[8]中3個人臉圖像進行對齊的例子。其中最左邊是任意選擇的測試人臉圖像,剩下的人臉圖像分別向選擇的測試圖像對齊。盡管受到不同的旋轉、遮擋以及姿態(tài)和表情變化的影響,采用DSFA的方法可以很好地將同一類別的訓練圖像向測試圖像進行對齊。圖3的最右邊還展示了不同類別的訓練圖像向測試人臉圖像對齊的效果,可以看出不同類別的訓練圖像在經(jīng)過DSFA 后與測試圖像依然存在很大的形變。
圖3 ORL數(shù)據(jù)集中運用DSFA算法進行對齊的3個例子
傳統(tǒng)SRM將測試樣本通過訓練樣本集合張成的空間線性近似表達[16],并通過優(yōu)化模型中系數(shù)向量的稀疏性來求解人臉識別問題。如圖3所示,經(jīng)過DSFA算法進行人臉對齊之后,同一類別的訓練圖像可以向測試圖像進行對齊,而不同類別的訓練圖像不能很好的與測試圖像對齊。這意味著如果利用傳統(tǒng)的SRM來建模對齊后人臉圖像的識別問題,并不影響系數(shù)向量的稀疏性。本節(jié)結合DSFA對齊算法,提出一種改進的SRM模型及其對應的人臉識別算法。
3.1改進的SRM模型
3.2 基于SRM模型的人臉識別算法
整個識別過程如表1所示。本文采用對偶的線性規(guī)劃算法[22]來實現(xiàn)范數(shù)的最小化優(yōu)化計算。
表1 SRM模型分類算法
4.1 數(shù)據(jù)集
ORL人臉數(shù)據(jù)集[8]包含40個人的400幅灰度圖像。這些圖像包含不同表情的正臉圖像和非正臉圖像,如睜眼和閉眼,張嘴和微笑等;不同的遮擋,如佩戴眼鏡;以及姿態(tài)和旋轉等。本文采用ORL數(shù)據(jù)集的另外一個主要原因在于這些人臉圖像來自于不同的性別和年齡。
AR人臉數(shù)據(jù)集[23]包含126個人(70個男人和56個女人)的4000幅彩色圖像。這些人臉圖像都是正臉圖像,主要包含不同的人臉表情變化(如微笑,發(fā)怒,哭喊以及無變化等);光照變化;以及遮擋變化(太陽鏡以及圍巾)。采用這個數(shù)據(jù)集用來測試本文方法在表情變化下的魯棒性。
LFW人臉數(shù)據(jù)集[24]一共包含5749個人的13233幅彩色圖像。這些人臉圖像都具有較大的姿態(tài)、旋轉以及表情變化。本文首先采用人臉檢測算法[25]在原始圖像中檢測人臉區(qū)域,然后在原始圖像中截取分辨率為大小的人臉圖像。采用這個數(shù)據(jù)集的目的在于測試本文方法在旋轉、姿態(tài)以及表情等非剛性變化對人臉識別的影響。
4.2 實驗環(huán)境設置
本文選擇6種人臉識別算法,從識別精度和執(zhí)行效率兩個方面做性能比較。這些方法分別是:TPFRS算法[18],LBP算法[9],PCA算法[14], ICA算法[15],GNN算法[2]以及FF算法[12]。3個數(shù)據(jù)集中每幅圖像都下采樣到分辨率大小的圖像。為避免固定的訓練樣本對算法性能產(chǎn)生的影響,本文在LFW數(shù)據(jù)集上做10次交叉驗證[24],在另外兩個數(shù)據(jù)集上做30次交叉驗證,其中,50%的樣本用于訓練,10%的樣本用來做交叉驗證,40%的樣本用于測試。實驗中參數(shù)設置為0.7。式(1)中其他所有參數(shù)設置準則為:極端誤匹配的情況下(如白色像素匹配到黑色像素或者黑色像素匹配到白色像素),可能的最大取值為(RGB 3個通道)。是一個經(jīng)驗參數(shù)。在固定其他參數(shù)的前提下,當=1.275時在驗證集上獲得最優(yōu)識別性能。此外,本文要求像素的漂移向量與毗鄰的4個像素的漂移向量盡量保持一致,因此對取值較大,為=500。門限的作用和類似,其取值與有關。由于所有圖像下采樣到分辨率大小,那么水平方向或者豎直方向匹配的極端情況是,因此,本文中的取值為。
4.3實驗結果
表2展示了本文算法在3個數(shù)據(jù)集上的平均識別精度以及執(zhí)行效率,并與其他基準算法做了性能對比。為檢測交叉驗證對算法性能的影響,每種方法在第2行還分別展示了識別精度和執(zhí)行效率的方差。從表2可以看出,本文算法在3個數(shù)據(jù)集上都取得了最好的識別精度。與LFW數(shù)據(jù)集相比,ORL和AR數(shù)據(jù)集包含較少的人臉圖像,并且人臉圖像的變化簡單。因此,本文方法在ORL和AR數(shù)據(jù)集上取得較高的識別精度(100%, 99.3%),而在LFW數(shù)據(jù)集上識別精度相對較低(95.7%)。此外,與采用傳統(tǒng)稀疏表達模型的TPFRS方法[18]相比,本文方法在ORL, AR和LFW 3個數(shù)據(jù)集上的識別精度分別提高了1.4%, 2.1%和9.4%,平均提高了4.3%??梢钥闯?,本文方法在LFW數(shù)據(jù)集上能取得較高識別精度的增益,這是因為LFW數(shù)據(jù)集中大部分人臉圖像都受到非剛性形變的影響,而本文提出的DSFA方法很好地解決了這類人臉圖像的對齊問題。執(zhí)行效率方面,本文方法在3個數(shù)據(jù)集上識別一幅人臉圖像的平均時間分別為0.45 s, 0.43 s和0.40s,而TPFRS算法[18]的識別時間分別為2.48 s, 2.87 s和2.32 s,大約提高了6倍的識別效率?;谥亟ǖ娜四樧R別方法(如PCA和ICA模型)對非剛性變化非常敏感,而本文采用DSFA的對齊機制對旋轉、表情以及姿態(tài)變化具有魯棒性。雖然TPFRS算法在ORL數(shù)據(jù)集[8]和AR數(shù)據(jù)集[23]上也取得了較好的性能,但是很難解決非剛性變換后人臉圖像的識別問題。尤其在LFW這種存在劇烈非剛性變換的數(shù)據(jù)集上,性能下降很快,而本文算法依然可以獲得95.7%的識別精度。在所有基準算法中,TPFRS[18]算法性能最好,但是計算效率較低。FF算法[12],GNN算法[2]和LBP算法[9]性能相當,而PCA算法[14]和ICA算法[15]性能最差。
表2不同方法在ORL數(shù)據(jù)集[8]、AR數(shù)據(jù)集[23]和LFW數(shù)據(jù)集[24]上的性能對比
4.4 訓練樣本個數(shù)對識別精度的影響
本文還測試了訓練樣本個數(shù)對整體性能的影響。圖4展示了本文算法在ORL數(shù)據(jù)集[8]和AR數(shù)據(jù)集[23]上隨著訓練樣本個數(shù)變化而導致識別精度的變化。本文選擇TPFRS算法[18],GNN算法[2]以及FF算法[12]作為基準對比算法。可以看出,隨著訓練樣本的增加,所有方法的性能都得到提升。相比之下,本文獲得了最好的識別精度。在ORL數(shù)據(jù)集[8]上,本文算法在50%訓練樣本的情況下還取得了100%識別精度。
圖4 在ORL數(shù)據(jù)集和AR數(shù)據(jù)集上識別精度隨著訓練樣本個數(shù)的變化
4.5 運行效率對比
表1中還展示了本文算法和其他算法的執(zhí)行效率,并對比了訓練和識別所需要的平均時間和方差。所有算法結果在雙核2.7GHz因特爾CPU和32G內存的PC機上運行得到。可以看出,本文算法的平均識別效率要快于TPFRS算法[18],GNN算法[2]和LBP算法[9],但是要慢于FF算法[12],PCA算法[14]以及ICA算法[15]。具體而言,運用DSFA 算法進行圖像對齊大致需要0.28 s,而識別過程需要耗時0.15 s。
4.6由粗到精對齊機制的收斂性
在使用DSFA算法進行人臉對齊的過程中,一個自然的問題在于使用由粗到精的對齊機制與不采用由粗到精的對齊機制相比,是否能收斂到相同的最小的能量。為此,本文隨機抽取200對人臉圖像進行實驗。所有圖像分辨率首先歸一化到大小,然后運用DSFA算法進行人臉對齊。圖5展示了使用由粗到精和不使用由粗到精兩種機制下式(1)的最小能量。其中橫軸是采用由粗到精對齊機制下的最小能量,縱軸是不采用由粗到精對齊機制下的最小能量。采用由粗到精的對齊機制平均耗時31 s,而不采用由粗到精的對齊機制則要耗時127 min。如圖5所示,不使用由粗到精對齊機制能夠獲得更小的對齊能量,而且大多數(shù)情況下,采用由粗到精對齊機制下的對齊能量都能收斂到不采用由粗到精對齊機制下的對齊能量。
圖5 采用由粗到精對齊機制下對齊能量的收斂性
本文提出了一種有效克服非剛性視覺變換的人臉識別方法。采用DSFA算法能夠將同一類別的訓練樣本大致對齊到測試樣本,而不同類別的訓練樣本不能對齊到測試樣本;然后提出一種改進的SRM 模型,并利用模型中系數(shù)向量的稀疏性來識別不同類別的人臉圖像。實驗結果表明本文方法在ORL,AR以及LFW數(shù)據(jù)集上的識別精度和執(zhí)行效率要優(yōu)于其他人臉識別模型。后續(xù)工作將探討如何運用本文方法解決視頻序列中人臉圖像的識別問題。
[1] Li S Z and Jain A K. Handbook of face recognition[M]. New York, Springer, 2011: 1-374.
[2] Yang A Y, Zihan Z, Ganesh B A,.. Fast-minimization algorithms for robust face recognition[J]., 2013, 22(8): 3234-3236.
[3] Cament A L, Castillo L E, Perez J P,.. Fusion of local normalization and Gabor entropy weighted features for face identification[J]., 2014, 47(2): 568-577.
[4] Jonathon P P and Alice O J. Comparison of human and computer performance across face recognition experiments[J]., 2014, 32(1): 74-85.
[5] Radtke V W P, Granger E, Sabourin R,.. Skew-sensitive boolean combination for adaptive ensembles-An application to face recognition in video surveillance[J]., 2014, 20(10): 31-48.
[6] Abdullah M F A, Sayeed S M, Sonai K M,.. Face recognition with symmetric local graph Structure[J]., 2014, 41(14): 6131-6137.
[7] 殷飛, 焦李成, 楊淑媛. 基于子空間類標傳播和正則判別分析的單標記圖像人臉識別[J]. 電子與信息學報, 2014, 36(3): 610-616.
Yin Fei, Jiao Li-cheng, and Yang Shu-yuan. Subspace label propagation and regularized discriminate analysis based single labeled image person face recognition[J].&, 2014, 36(3): 610-616.
[8] 趙振華郝曉弘.局部保持鑒別投影及其在人臉識別中的應用[J]. 電子與信息學報, 2013, 35(2): 463-467.
Zhao Zhen-hua and Hao Xiao-hong. Linear locality preserving and discriminating projection for face recognition [J].&, 2013, 35(2): 463-467.
[9] Ahonen T, Hadid A, and Pietikainen M. Face description with local binary patterns: Application to face recognition[J]., 2006, 28(12): 2037-2041
[10] 張潔玉, 趙鴻萍, 陳曙. 自適應閾值及加權局部二值模式的人臉識別[J]. 電子與信息學報, 2014, 36(6): 1327-1333.
Zhang Jie-yu, Zhao Hong-ping, and Chen Shu. Face recognition based on weighted local binary pattern with adaptive threshold[J].&, 2014, 36(6): 1327-1333.
[11] Cootes T F, Edwards G J, and Taylor C J. Active appearance models[J]., 2001, 23(6): 681-685.
[12] Belhumeur P N, Hespanha J P, and Kriegman D J. Eigenfaces vs. fisherfaces: recognition using class specific linear projection[J]., 1997, 19(7): 711-720
[13] Naseem I, Togneri R, and Bennamoun M. Linear regression for face recognition[J]., 2010, 32(11): 2106-2112
[14] Turk M and Pentland A. Eigenfaces for recognition[J]., 2010, 3(1): 71-86.
[15] Bartlett M S, Movellan J R, and Sejnowski T J. Face recognition by independent component analysis[J]., 2002, 13(6): 1450-1464.
[16] Wright J, Yang A Y, Ganesh A,.. Robust face recognition via sparse representation[J]., 2009, 31(2): 210-227
[17] Peng Y, Ganesh A, Wright J,.. Rasl: Robust alignment by sparse and low-rank decomposition for linearly correlated images[J]., 2012, 34(11): 22330-2246.
[18] Wagner A, Wright J, Ganesh A,.. Toward a practical face recognition system: Robust alignment and illumination by sparse representation[J]., 2012, 34(2): 372-386.
[19] Lowe D G. Distinctive image features from scale-invariant keypoints[J]., 2004, 60(2): 91-110.
[20] Shekhovtsov A, Kovtun I, and Hlavac V. Efficient MRF Deformation Model for Non-Rigid Image Matching[C]. Proceedings of the IEEE Computer Vision and Pattern Recognition, Miami, FL, USA, 2007: 1-6.
[21] Felzenszwalb P F and Huttenlocher D P. Efficient belief propagation for early vision[J]., 2006, 70(1): 41-54.
[22] Boyd S and Vandenberghe L. Convex Optimization[M]. London, Cambridge University Press, 2004: 457-514.
[23] Martinez A M. The AR face database[R]. CVC Tech. Rep. 1998.
[24] Huang G B, Ramesh M, Berg T,.. Labeled faces in the wild: A database for studying face recognition in unconstrained environments[R]. University of Massachusetts, Amherst Tech. Rep. 7-49, 2007.
[25] Viola P and Jones M J. Robust Real-Time Face Detection[J], 2004, 57(3): 137-154.
Improved Sparse Representation Algorithm for Face Recognition Via Dense SIFT Feature Alignment
Zhou Quan Wei Xin Chen Jian-xin Zheng Bao-yu
(,,210003,)
In order to address the non-rigid deformation (e.g., misalignment, poses, and expression) of facial images, this paper proposes a novel sparse representation face recognition algorithm using Dense Scale Invariant Feature Transform (SIFT) Feature Alignment (DSFA). The whole method consists of two steps: first, DSFA is employed as a generic transformation to roughly align training and testing samples; and then, input facial images are identified based on proposed sparse representation model. A novel coarse-to-fine scheme is designed to accelerate facial image alignment. The experimental results demonstrate the superiority of the proposed method over other methods on ORL, AR, and LFW datasets. The proposed approach improves 4.3% in terms of recognition accuracy and runs nearly 6 times faster than previous sparse approximation methods on three datasets.
Face recognition; Face alignment; Dense Scale Invariant Feature Fransform (SIFT) Feature; Sparse representation model
TP391.41
A
1009-5896(2015)08-1913-07
10.11999/JEIT141194
周全 quan.zhou@njupt.edu.cn
2014-09-12收到,2015-04-24改回,2015-06-08網(wǎng)絡優(yōu)先出版
國家自然科學基金(61201165, 61271240, 61401228, 61403350)和南京郵電大學科研基金(NY213067)資助課題
周 全: 男,1980年生,講師,研究方向為計算機視覺、模式識別.
魏 昕: 男,1983年生,副教授,研究方向為模式識別.
陳建新: 男,1971年生,副教授,研究方向為多媒體信號處理.
鄭寶玉: 男,1945年生,教授,研究方向為多媒體信號處理、多媒體通信.