馮 翔,楊 健,錢建軍
(南京理工大學計算機科學與技術學院,江蘇 南京 210094)
人臉識別是生物識別技術的一個重要分支,是模式識別和計算機視覺領域內的一個研究熱點。與指紋識別、虹膜識別等其他生物特征識別技術相比,人臉識別具有直接、友好、方便的特點,是進行身份確認的最自然、最直接的手段。因此,人臉識別技術在信息安全、刑事偵破、出入口控制等領域具有廣泛的應用前景。
一個典型的人臉識別系統應包括人臉預處理、特征提取、特征匹配3 個步驟。其中,特征提取是如何提取人臉描述特征的一個基本而又關鍵的步驟。過去幾十年來,研究者們提出了許多人臉特征提取方法,大體上可以分為基于全局特征的方法和基于局部特征的方法2 大類。全局特征反映的是人臉的整體屬性。與全局特征相比,局部特征的每一維都只對應人臉圖像上的一個局部區(qū)域,此類方法能更好地提取人臉圖像的細節(jié)特征?;谌痔卣鞯姆椒ㄓ蠵CA[1]、獨立成分分析[2](Independent Component Analysis,ICA)、線性判別分析[3](Linear Discriminant Analysis,LDA)等。其中PCA 和LDA 是2 種最常用的方法,且已經廣泛應用于模式識別和計算機視覺領域。相對于全局特征,局部特征對于處理光照、姿態(tài)和表情變化等問題更具有魯棒性。Gabor 小波變換(Gabor Wavelet Transform,GWT)[4-5]和局部二值模式[6-7](Local Binary Pattern,LBP)是2 種非常有效的局部特征提取方法。LBP 是一種用來描述圖像局部紋理特征的算子,具有旋轉不變性和灰度不變性等顯著優(yōu)點,很多方法都源自于LBP 并成功應用于各種領域[8-9]。如Ahonen 等人提出了一種基于LBP 直方圖的方法[6,10]。Zhang 等人還提出了一種結合LBP和Gabor 的LGBP 的特征提取方法[11]。為了綜合這2 類特征提取方法的優(yōu)點,越來越多的學者將目光投向全局特征與局部特征相結合的方法[12-13]。
Qian[14]等提出了一種基于局部結構分解(Local Structure-based Image Decomposition for Feature Extraction,IDLS)的特征提取方法。IDLS 通過應用脊回歸度量以每個像素點為中心的宏像素(定義為l ×l)的局部區(qū)域與其近鄰宏像素之間的關系,進而刻畫圖像的局部結構信息。IDLS 是通過應用線性表示系數來刻畫以每個像素點為中心的宏像素與其近鄰宏像素之間的關系,所挖掘的是圖像的局部結果信息,沒有考慮圖像的尺度信息。為了彌補這一不足,本文結合多尺度空間理論提出一種多尺度圖像局部結構分解的人臉特征提取方法,該方法對圖像進行金字塔分解,產生多幅分辨率和尺度不一的圖像,再對圖像金字塔中的每一幅圖像運用相同的方法提取IDLS 特征。
基于局部結構分解的特征提取方法對于圖像中的每一個像素點,以其為中心像素點并以R 個像素點間隔為半徑確定P 個近鄰像素點,這些近鄰像素點就構成了一個正方形對稱的近鄰集,例如第i 個像素點可表示為:={ij|j=1,...,P},如圖1 所示。
圖1 在不同像素點間隔下的近鄰集
以近鄰集中的第j 個像素點為中心就可以確定一個K×K 的正方形,該正方形內所有元素一起就組成一個宏像素。假設在一個局部窗口內的所有的局部區(qū)域是局部線性的?;谶@一假設來刻畫中心點與其近鄰區(qū)域的局部結構。這樣在第i 個像素點為中心的局部窗口內,中心像素yi可以近似地被近鄰宏像素Xi,1,...,Xi,p的線性組合來表示:
令Wi=[wi,1,...,wi,p]T,Xi=[Xi,1,...,Xi,p],則式(1)可以寫成如下形式:
為了避免奇異值問題,應用脊回歸求解得:
矩陣W 的每一行是一個N 維的向量vj,該向量可以構建成一幅圖像即為結構圖像。因此,特征矩陣W 可以分解為p 個結構圖像。也就是說,一幅圖像可以由局部結構特征分解成一組結構圖像。每張結構圖像都是由每個像素點與其在某個方向上的近鄰點的表示關系構成,所以每張結構圖像實際上反映的是圖像在其對應方向上的結構信息。為得到一個包含了豐富信息的圖像特征,將所有的結構圖像連接成一個向量。再將結構圖像進行均勻下采樣(下采樣因子為λ)并進行歸一化,然后再構建特征向量。令(p=1,...,p)表示均勻下采樣和歸一化之后的第p 個結構圖像,那么圖像的特征向量可以定義為:
此時,圖像的特征向量的維數仍然是很高的,為了解決此問題,近年來提出了很多維數約減的方法,基于局部結構分解的圖像特征提取方法中所采用的是Fisher 線性鑒別分析(FLDA)。
多尺度技術是對圖像進行多尺度表達,即在不同圖像尺度下分別對圖像進行處理。在很多情況下,某一種尺度下不容易獲取的特征可能在另一尺度下很容易獲得。人眼的感知過程是一個由全局到局部、由粗到細多尺度分層處理的過程。全局特征主要對人臉的整體屬性進行描述,如輪廓、面部各個器官的相對位置、膚色等;而局部特征則能夠對人臉的細節(jié)特征進行刻畫,如局部紋理、器官等。為了既能夠保留人臉的全局信息,又能夠獲得對人臉圖像局部細節(jié)特征的刻畫,本文采用多尺度分析的方法將全局與局部特征結合起來。
利用多尺度技術常可以更加有效地提取圖像特征。要在多個尺度下提取圖像特征,首先就需要對圖像進行多尺度表達,并建立多個尺度間的聯系。
金字塔是一種有效的多尺度表達模型,圖像金字塔模型是對圖像用一系列不同的分辨率來獲取圖像的多尺度表達。圖像金字塔是一種分層技術,從不同的尺度去描述圖像,從而可以得到不同尺度下的人臉圖像的全局信息。近年來,王瑋等[7]在此基礎上提出了LBP 金字塔,并且證明了LBP 金字塔模型對人臉特征描述的準確性。金字塔模型的構造方法如下:
其中,I(z)是原圖片,δ 為金字塔層次,↓表示下采樣,2 表示下采樣率為2,φ(z)表示構建金字塔模型時所采用的的濾波器。為了獲得圖像數據的精簡表示,減少圖像數據量,本文采用的是亞采樣金字塔結構。在亞采樣金字塔中,層與層之間行和列的分辨率都會以因子2 減少,圖像的大小會以因子4 減少。圖2 所示為金字塔模型。
圖2 金字塔模型
在構建圖像金字塔的過程中,由于亞采樣使得圖像的尺寸快速變小,顯然這樣也會造成很多信息的丟失。根據采樣定理,可以通過平滑處理消除所有以小于最短波長1/4 采樣獲得的精細結構,這樣才能獲得一幅正確的亞采樣圖像。所以,在減小圖像大小的同時需要運用某種平滑方法對圖像同步進行平滑處理。平滑濾波器的選擇對于構建圖像金字塔有著重要的影響,如果選用的濾波器不恰當,可能會造成所得到的上層圖像像素不能很好地用于計算下一層圖像。
1)高斯濾波器:高斯濾波器是最常用的的尺度濾波器,它是根據高斯函數的形狀來選擇權值的線性平滑濾波器。高斯濾波器對于抑制服從正態(tài)分布的噪聲非常有效。
2)DOG 濾波器:DOG 濾波器是一個帶通濾波器,它是將2 幅圖像在不同參數下的高斯濾波的結果相減。DOG 可以被用來增加邊緣和其他細節(jié)的可見性,并已在邊緣檢測方面得到了很好的應用。
本文方法采用的是高斯濾波器,因為高斯核已經被證明為是唯一的線性核,也就是說在使用高斯核對圖像進行平滑處理時不會再引入其他噪聲。
圖像金字塔中靠近底層的圖像尺寸較大,分辨率也較高,可以反映出人臉圖像的很多細節(jié)信息,而上層部分人臉圖像的尺寸和分辨率都較低,描述了人臉圖像的形狀特征?;趫D像局部結構分解的特征提取方法描述的是圖像的局部結構特征,而金字塔模型可以對圖像的全局形狀特征進行多尺度表達,因此將基于局部圖像結構分解的特征提取方法和金字塔模型相結合以提取圖像的全局特征和局部特征。具體步驟如下:
1)對圖像進行下采樣和濾波構建圖像金字塔。
2)對于金字塔中的每一層圖像進行分解,分解成若干結構圖像。
3)依次將結構圖像連接成一個擴張的特征向量。
4)應用Fisher 線性鑒別分析從擴張的高維特征向量中獲取更具有鑒別能力的低維特征,如圖3 所示。
圖3 多尺度圖像局部結構分解的人臉識別
為了驗證本文算法的性能,在AR、PIE 和Extended YaleB 人臉庫上做實驗并與LBP、Gabor 等一些傳統方法做比較。實驗中采用了在2.1 節(jié)中介紹的高斯濾波器對圖像進行尺度濾波構建圖像金字塔。實驗中采用了3 級分解,擴展因子設置為0,即不進行伸縮或者擴展。
AR 人臉庫[15]共有126 個人(70 位男性和56 位女性)近4000 張彩色人臉圖片,包括不同表情、光照和遮擋的正面人臉圖片。其中120 個人(65 位男性和55 位女性)的圖片是由相隔2 周拍攝的2 個圖片集合組成,每個圖集有13 張彩色圖片。本文中實驗只選用了這120 個人沒有遮擋的1680 張人臉圖片,每個人包含2 個集合(每個集合7 張圖片)。本文選取每個人的第一個子集中的圖片作為訓練樣本,第二個子集的圖片作為測試樣本,圖像的初始大小歸一化到64 ×64。其中,PCA、FLDA、LBP、TPLBP、Gabor +FLDA 這幾種方法都對圖像首先做了金字塔分解,然后提取各層圖像的特征。表1 列出了PCA、FLDA、LBP、TPLBP、Gabor、基于圖像局部結構分解的特征提取方法和本文方法在AR 人臉庫上的識別率。從表1中可以看出本文方法識別率要高于其他傳統的方法,也高于IDLS,這說明本文方法在融入了人臉圖像的尺度信息后可以提升人臉識別的性能。
表1 幾種圖像特征提取方法在AR 人臉庫上的識別率
圖4 幾種圖像特征提取方法在ExtYaleB 人臉庫上的識別率
ExtYaleB[16]人臉數據庫是由美國耶魯大學計算機視覺與控制中心創(chuàng)建,該人臉庫包含了38 個人9種姿態(tài)64 種光照條件下的圖像。本實驗只使用每個人在64 種不同光照條件下的正面人臉圖像,并將圖像歸一化到大小為96 ×84 灰度圖像。每次實驗隨機抽取每個人的K 張圖片作為訓練樣本,其余作為測試樣本。這里K 取值為4~24,間隔為4。對于每個K 的取值,重復做10 次實驗。圖4 列出了每種特征提出方法在ExtYaleB 人臉庫上的識別率。其中,PCA、FLDA、LBP、TPLBP、Gabor +FLDA 這幾種方法都對圖像首先做了金字塔分解,然后提取各層圖像的特征。ExtYaleB 人臉庫的姿態(tài)和表情變化較小,但是光照變化比較大。從圖4 中可以看出PCA 的識別率很差。盡管TPLBP 在人臉驗證中得到了不錯的結果,但在面對不同的光照變化時,它的特征表示能力是有限的。FLDA 和Gabor 的識別性能也很一般,LBP 和IDLS 得到了較好的識別結果,但總體來看本文提出的方法得到了最好的識別結果。這也驗證了本文中方法在面對不同光照變化時的魯棒性。
PIE[17]人臉庫是由美國卡耐基梅隆大學創(chuàng)建,該庫包含了68 個人的41368 張人臉圖片。每個人的人臉圖像包含13 種不同姿態(tài)(人臉面向從左到右變化),43 種不同光照條件以及4 種不同的表情變化。本文實驗選取PIE 庫中每個人5 種姿態(tài)和10 種不同光照條件的50 張圖片作為實驗數據集。所有圖片都歸一化到大小為64 ×64 的灰度圖像。實驗中隨機選取每個人的K(K 取值為5~25,間隔為5)張圖片作為訓練集,其余作為測試集。對于每次選取的K 張圖片重復做10 次實驗。其中,PCA、FLDA、LBP、TPLBP、Gabor+FLDA 這幾種方法都對圖像首先做了金字塔分解,然后提取各層圖像的特征。圖5 給出了每種圖像特征提取方法的平均識別率隨訓練樣本變化的情況。從實驗結果中可以看出本文提出的方法在不同訓練樣本下都給出了最好的實驗結果。
圖5 幾種圖像特征提取方法在PIE 人臉庫上的識別率
在人臉識別中,特征提取是關鍵,特征是否有效對識別性能有很大的影響。本文提出一種基于多尺度圖像局部結構分解的人臉圖像特征提取的方法,通過構建圖像的多尺度金字塔,再對每層中的圖像運用基于圖像局部結構分解的特征提取局部特征,綜合了基于全局特征和基于局部特征這2 類特征提取方法的優(yōu)點。該方法在AR、PIE 和ExtYaleB 人臉庫上均取得了較好的識別結果。實驗結果表明該方法結合了局部和全局特征,具有較強的描述能力。
[1]孔令釗,唐文靜.基于PCA 的人臉識別系統的研究與實現[J].計算機仿真,2012,29(6):27-29.
[2]Bartlett M S,Movellan J R,Sejnowski T J.Face recognition by independent component analysis[J].IEEE Transactions on Neural Networks,2002,13(6):1450-1464.
[3]張健,肖迪.基于多尺度自適應LDA 的人臉識別方法[J].計算機工程與設計,2012,33(1):332-335.
[4]Liu Chengjun,Weehsler H.Independent componet analysis of Gabor features for face recognition[J].IEEE Transaction on Neural Networks,2003,14(4):919-928.
[5]許鳳嬌,王國胤.年齡變化條件下采用Gabor 金字塔的人臉描述與識別[J].計算機應用,2013,33(3):695-699.
[6]Ahonen T,Hadid A,Pietikainen M.Face recognition with local binary patterns[C]// Proceedings of the 8th European Conference on Computer Vision.Prague,Czech,2004,3021:469-481.
[7]王瑋,黃菲菲,李見為,等.采用LBP 金字塔的人臉描述與識別[J].計算機輔助設計與圖形學學報,2009,21(1):94-100.
[8]Tan Xiaoyang,Triggs B.Enhanced local texture feature sets for face recognition under difficult lighting conditions[J].IEEE Transction on Image Processing,2010,19(6):1635-1650.
[9]Zhang Baochang,Gao Yongsheng,Zhao Sanqiang,et al.Local derivative pattern versus local binary pattern:Face recognition with high-order local pattern descriptor[J].IEEE Transaction on Image Processing,2010,19(2):533-544.
[10]Ahonen T,Hadid A,Pietikainen M.Face description with local binary patterns:Application to face recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(12):2037-2041.
[11]Zhang Wenchao,Shan Shiguang,Gao Wen,et al.Local gabor binary pattern histogram sequence(LGBPHS):A novel non-statistical model for face representation and recognition[C]// Proceedings of the 10th IEEE International Conference on Computer Vision.2005,1:786-791.
[12]Lanitis A,Taylor C J,Cootes T F.Automatic face indentification system using flexible appearance models[J].Image and Vision Computing,1995,13(5):393-401.
[13]Wiskott L,Fellous J M,Kruger N,et al.Face recognition by elastic bunch graph matching[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(7):775-779.
[14]Qian Jianjun,Yang Jian,Xu Yong.Local structure-based image decomposition for feature extraction with applications to face recognition[J].IEEE Transtractions on Image Processing,2013,22(9):3591-3603.
[15]Martinez A,Benavente R.The AR Face Database[R].Technical Report 24,Computer Vision Center,Purdue University,1998.
[16]Lee K C,Ho J,Kriegman D J.Acquiring linear subspaces for face recognition under variable lighting[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(5):684-698.
[17]Sim T,Baker S,Bsat M.The CMU pose,illumination,and expression database[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2003,25(12):1615-1618.