吳 帥,陳 熙,尚振宏
(昆明理工大學(xué) 信息工程與自動化學(xué)院 通信系,云南 昆明 650500)
?
·信息科學(xué)·
基于Gabor的伸長局部二值模式及其人臉識別應(yīng)用
吳帥,陳熙,尚振宏
(昆明理工大學(xué) 信息工程與自動化學(xué)院 通信系,云南 昆明650500)
提出一種基于Gabor的伸長局部二值模式(elongated local binary pattern, ELBP)的人臉識別方法。該方法首先對人臉圖片進行Gabor濾波,得到一組Gabor幅值圖像(Gabor magnitude maps,MMPs);然后利用ELBP提取每一幅幅值圖像的紋理特征,并用ELBP紋理特征的直方圖特征和平均最大距離梯度幅值特征聯(lián)合表示該圖像紋理特征;最后,通過比較測試圖片和訓(xùn)練集的直方圖交叉距離進行識別。在YALE,YALE-B,UCD-VALID,CMU-PIE等人臉庫進行測試,所提方法取得了理想的效果,證明所提方法能夠有效地進行人臉識別。
人臉識別;Gabor濾波;局部二值模式;伸長局部二值模式
模式識別[1]與圖像檢索[2]一直是圖像處理中一個研究重點,而人臉識別則是模式識別中最具有挑戰(zhàn)性的一個研究難點,因為人臉的特殊性,其受幾何、光線、表情、年齡、飾品、遮擋等因素的影響極大。如何使人臉的識別算法更加魯棒是不變的研究重點。自20世紀60年代起,人臉識別技術(shù)越來越受到廣泛的關(guān)注,并且涌現(xiàn)出了眾多的人臉識別算法。由Ojala等人提出的局部二值模式(LBP)[3]能夠很好地描述圖片的局部紋理特征,同時具有復(fù)雜度低、原理簡單、易理解、光照不敏感等優(yōu)點。LBP利用圓形鄰域描述局部特征,但是經(jīng)研究發(fā)現(xiàn)橢圓鄰域更適合描述人臉細節(jié)特征,所以我們利用LBP算子的改進算子ELBP[4]進行人臉的描述。經(jīng)生物學(xué)家發(fā)現(xiàn),二維Gabor濾波器能夠模擬人類大腦視覺神經(jīng)網(wǎng)絡(luò),因此對人臉圖像進行多方向、多尺度的濾波,能夠有效地提高識別效果。除此之外,在進行特征描述之前對圖像進行預(yù)處理以減弱甚至消除噪聲、光線等干擾因子,同樣有著深遠的意義。
1.1LBP算法
局部二值模式LBP(local binary pattern)是1994年由Ojala提出的用來描述圖像局部紋理特征的算子。
LBP算子定義在一個半徑確定的圓形鄰域中,以中心像素點的像素值為閾值,按順序均勻地在圓周上取P個像素點,對比其與閾值的大小,若比閾值大則編碼為1,若比閾值小則編碼為0,然后選定一個點為起點,順時針得到一個二進制數(shù),將二進制數(shù)轉(zhuǎn)化為十進制,該十進制數(shù)即為鄰域的LBP值。
圖1 LBP算子示意圖Fig.1 LBP operator schematic
如圖1,取P=8,P1~P8為鄰域像素點,P0為中心像素點。則LBP值計算公式為
(1)
(2)
其中g(shù)i為鄰域像素點的像素值,gc為中心像素值。
原始LBP具有256種模式,為了減少LBP的模式數(shù)目,Ojala和Maenpaa等人又提出了旋轉(zhuǎn)不變統(tǒng)一LBP[5]。統(tǒng)一LBP的定義是:將某原始的8位二進制LBP值進行位移,發(fā)生跳變的位數(shù)不大于2,則該模式為統(tǒng)一模式。旋轉(zhuǎn)不變LBP的定義是:將某原始的8位二進制LBP值進行旋轉(zhuǎn),得到的一系列二進制值中最小的一個即為旋轉(zhuǎn)不變模式。統(tǒng)一模式與旋轉(zhuǎn)不變模式結(jié)合就是旋轉(zhuǎn)不變統(tǒng)一模式。大量統(tǒng)計實驗證明,旋轉(zhuǎn)不變統(tǒng)一模式包含了一幅圖像中90%左右的LBP算子,且模式數(shù)只有10個。
1.2ELBP算法
在人臉圖像中,眼睛、嘴巴等包含重要特征的器官大都是近似橢圓的形狀,所以是否能夠捕捉到人臉圖像的各向異性信息對于人臉識別有著重要的意義。ELBP模式定義在一個橢圓鄰域中,如圖2所示。
圖2 ELBP算子示意圖Fig.2 ELBP operator schematic
ELBP具有3個參數(shù),長軸b、短軸a、鄰域像素點的個數(shù)n。當(dāng)a等于b時,ELBP就變成了原始LBP,所以原始LBP是ELBP的特殊情況。由于ELBP比原始LBP更具有一般性,而且ELBP能夠體現(xiàn)出圖像的各向異性信息,因此ELBP比LBP具有更強的辨別能力。
設(shè)gix,giy為鄰域像素點gi的X,Y坐標。則gix,giy的計算方法[2]如下式所示。
gix=Ri×cosθi,
giy=Ri×sinθi。
(3)
由坐標確定鄰域像素值,與中心閾值對比,從而得到8位二進制的ELBP值。本文中用到的是旋轉(zhuǎn)不變ELBP,其原理與旋轉(zhuǎn)不變LBP相同,模式數(shù)目也相同,不再贅述。
1.3Gabor濾波
Gabor小波[6-7]與人類視神經(jīng)簡單細胞的刺激類似。所以對人臉圖片進行Gabor濾波,可以提取多方向、多尺度的特征信息。
二維Gabor小波核函數(shù)表達式[8]為
(4)
kν,μ=kν·eiφμ,
(5)
(6)
圖片濾波過程就是將原始圖片與濾波器進行卷積。
G(x,y,ν,μ)=f(x,y)*ψν,μ(z)。
(7)
“*”表示卷積,f(x,y)表示輸入圖像,ψv,μ(z)表示濾波器,G(x,y,v,μ)就是卷積后得到的Gabor特征。
2.1Gamma校正
Gamma校正[9]是一種針對像素灰度值的非線性變化過程。它具有擴大圖片暗區(qū)域像素值動態(tài)范圍和壓縮亮區(qū)域像素值動態(tài)范圍的功能。表達式為
(8)
由于對數(shù)式縮放倍數(shù)比較大,容易將暗區(qū)域中的噪聲放大,所以本文采用指數(shù)式。參數(shù)γ取0.2。
2.2高斯差分濾波
高斯差分(difference of gaussian,DoG)濾波器的傳遞函數(shù)是兩個不同寬度的高斯函數(shù)的差分。高斯差分濾波器從頻域上對圖像的低頻冗余信息和高頻空域信息進行過濾,能夠消除Gamma濾波消除不掉的陰影影響,對于極端光照有良好的處理能力,而且神經(jīng)生物學(xué)研究者發(fā)現(xiàn),人眼視網(wǎng)膜細胞的工作方式與高斯差分濾波器有很大的相似性。所以高斯差分濾波可以進一步改善圖像質(zhì)量。
高斯差分濾波器的傳遞函數(shù)[10]為
H(u,v,σ1,σ2)=G1-G2。
(9)
其中
本文中參數(shù)σ1,σ2分別取1.0,2.0。
2.3對比度均衡化
經(jīng)過Gamma校正和高斯差分濾波后的圖像仍然存在一些高光、陰影、邊界模糊等區(qū)域的像素混疊。所以需要通過對比度均衡化對圖像的整體對比度和亮度進行標準化。表達式為
(10)
I″(x,y)=
(11)
其中,α是壓縮指數(shù),用于降低少數(shù)方差較大的像素點的影響,τ是閾值,用來濾除過大的像素點。本文中取α=0.1,τ=10。
以YALE-B庫為例,得到如圖3所示的預(yù)處理結(jié)果。
圖3 圖片預(yù)處理前后對比Fig.3 Before and after the image preprocessing
無論LBP還是ELBP都沒能包含模式的梯度信息,所以本文利用平均最大距離梯度幅值(average maximum distance gradient magnitude,AMDGM)來表示ELBP模式的梯度信息[11]。在給出AMDGM的定義之前,先介紹一下距離梯度幅值DGM。
(12)
其中,gi,gc分別代表鄰域中的鄰域像素點和中心像素點,v=(x,y)表示各個點的坐標,Igi,Igc則代表各個鄰域像素點和中心像素點的像素值。
在DGM的基礎(chǔ)上,得到最大距離梯度幅值的定義
G(v)=maxgi|dI(gi,gc)|,i=1,2,…,n。
(13)
假設(shè)ELBP的每一種模式Mi(i=1,2,…,n)出現(xiàn)的數(shù)目為Ni,則平均最大距離梯度幅值定義為
(14)
其中,vk∈Mi。
AMDGM與ELBP結(jié)合,其本質(zhì)原理是ELBP產(chǎn)生各種模式,而AMDGM則將各個模式在空間上的各向異性通過梯度信息融入到了編碼當(dāng)中。本文將AMDGM與直方圖特征相融合,利用形成的新特征進行圖片的分類。
ELBP的基本原理是將Gabor和ELBP相結(jié)合,其具體實施框架如圖4所示:
圖4 識別過程流程圖Fig.4 The flow chart of indentification process
首先對人臉圖片進行預(yù)處理,得到歸一化圖片,然后對歸一化后的圖片進行Gabor濾波,得到24副Gabor臉,再將每一幅Gabor臉分割成N×N小塊,依次對每一小塊區(qū)域進行ELBP編碼,再用直方圖統(tǒng)計每個小區(qū)域的各個ELBP模式的數(shù)量,將其串聯(lián),得到圖片的直方圖特征。
i=1,2,…,10。
(15)
(16)
其中,i表示ELBP模式的編號,f(i)表示第i個ELBP模式的值,f(x,y)表示圖片中坐標(x,y)處的像素點的ELBP值。hi表示圖片中第i個ELBP模式出現(xiàn)的數(shù)量。則直方圖為
Hm={h1,h2,…,h10},
m=1,2,…,24。
(17)
其中,m表示第m副Gabor臉。
最后再求24副Gabor臉的AMDGM特征,將之與直方圖特征融合的結(jié)果作為圖片分類的特征。如下式所示:
p={H1,A1,H2,A2,H3,A3,…,H24,A24}
(18)
其中,Hm表示第m幅Gabor臉的直方圖特征,Am表示第m幅Gabor臉的AMDGM特征。
設(shè)兩幅圖片分別為B1,B2,且B1,B2的相似程度為S(B1,B2),則:
(19)
其中,p(b)表示如式(18)所示的最終分類特征,b表示特征中第b位,k表示特征的總位數(shù)。S(B1,B2)越小則說明兩幅圖片越相似,從而完成圖片的識別過程。
5.1不同數(shù)據(jù)庫上算法比較
為了驗證本文所提出算法的有效性,分別在YALE,YALE-B,CMU-PIE,UCD-VILID等人臉數(shù)據(jù)庫測試本文算法的效果,同時與其他算法結(jié)果相比較。
YALE人臉數(shù)據(jù)庫和YALE-B人臉數(shù)據(jù)庫都是由耶魯大學(xué)計算視覺與控制中心創(chuàng)建。YALE庫由11個人的人臉圖片組成,共165張,每個人15張,其中包括光照、姿態(tài)、表情的變化。YALE-B庫有38個人,共2 432張在嚴格的姿態(tài)、光照變化下采集的面部圖片。CMU-PIE庫是卡耐基梅隆大學(xué)創(chuàng)建的人臉庫,其中包括68個人在不同光照和姿態(tài)下的共1 428張圖片。在每個數(shù)據(jù)庫中,對每人隨機取5張作為訓(xùn)練樣本,其余的作為測試樣本。實驗5次,取實驗結(jié)果的平均值。本文中采用圖片大小為64×64。
表1不同算法在5樣本下的識別率對比表
Tab.1The contrast of recognition rate under different algorithm in 5 samples
/%
實驗結(jié)果證明,本文提出的算法與PCA,Gabor,LBP等傳統(tǒng)經(jīng)典算法相比具有更高的識別率。
其中,基于Gabor子空間的人臉識別算法的基本原理如1.3節(jié)所述。在得到24幅Gabor 臉后,對下采樣進行降維,最后利用最近鄰分類器進行分類。
完整的中心、數(shù)值和符號聯(lián)合的局部二值模式(completed local binary pattern_magnitude/center/sign,CLBP_M/C/S)是LBP算法的改進,介紹CLBP_M/C/S之前,需要先分別介紹CLBP_M,CLBP_C,CLBP_S算子[12](以1.1節(jié)為基礎(chǔ)):
CLBP-CP,R=t(gc,c),
(20)
(21)
(22)
其中,gc為中心像素點的像素值,gi為鄰域像素點的像素值,c為閾值(整個圖像的平均值)。
得到CLBP-C,CLBP-M,CLBP-S三個算子的直方圖之后,將之聯(lián)合成三維直方圖即為CLBP_M/C/S,最后用最近鄰分類器進行分類識別。
5.2不同訓(xùn)練樣本數(shù)算法比較
在訓(xùn)練樣本不同的情況下,本文提出的算法也具有優(yōu)勢,以YALE庫為例,分別測試PCA,LBP,Gabor,ELGBP在2~6個樣本下的識別率曲線圖。
圖5 YALE庫上不同訓(xùn)練樣本數(shù)的識別率Fig.5 The recognition rate of different training samples on YALE
由上表可以看出與其他算法相比,本文在不同訓(xùn)練樣本數(shù)的情況下,無論是識別率還是穩(wěn)定性都優(yōu)于PCA,LBP,Gabor等算法,尤其在小訓(xùn)練樣本的情況下。
本文提出了基于Gabor的伸長局部二值模式人臉識別算法,通過Gabor濾波得到不同方向、不同尺度下的人臉特征,用直方圖序列描述后,與AMDGM特征相融合,有效地描述了圖片的整體和局部信息,彌補了Gabor和LBP算法只依靠整體信息或局部信息的缺陷,并在實驗中取得了良好的仿真效果。但由于本文提出的ELGBP算法需要通過Gabor濾波器提取24幅幅值域圖譜,所以空間開銷和時間開銷較大。如何通過快速提取圖片有效區(qū)域(例如眼睛、鼻子、嘴巴等)來彌補這一缺陷,是今后進一步研究的重點。
[1]馬利克,彭進業(yè),馮曉毅. 基于統(tǒng)計特征的人臉模擬畫像檢索[J].西北大學(xué)學(xué)報(自然科學(xué)版),2010,40(6):987-990.
[2]溫超,耿國華,李展. 基于SIFT特征的文物圖像檢索[J]. 西北大學(xué)學(xué)報(自然科學(xué)版),2011,41(5):803-807.
[3]OJALA T,PIETIKAINEN M,HARWOOD D.A comparative study of texture measures with classification basedon feature distributions[J].Pattern Recognition,1996,19(3):51-59.
[4]LIAO S,CHUNG A C S. Face recognition by using elongated local binary patterns with average maximum distance gradient magnitude[M]∥In: Proceedings of the 8th Asian Conference on Computer Vision Tokyo,Japan, 2007: 672-679.
[5]OJALA T, PIETIKAINEN M, MAENPAA T. Multiresolution grayscaleand rotation invariant texture classification withlocal binary patterns[J]. IEEE Transactions on PauemAnalysis and Machine Intelligence, 2002, 24(7):971-987.
[6]LIU C,WECHSLER H. Gabor feature based classification using the enhanced fisher linear discriminate model for face recognition[J].IEEE Transactions on Image Processing,2002,11(4): 467-476.
[7]WISKOTT L,FELLOUS J,KRUGER N,et al. Face recognition by elastic bunch graph matching[J].IEEE Trans PAMI,1997,19(7): 775-779.
[8]LADES M, VORBRUGGEN J C, BUHMANN J. Distortion invariant object recognition in the dynamic link architecture[J].IEEE Transaction Computers, 1993,42(3):300-311.
[9]SHAN S, GAO W, CAO B, et al. Illumination normalization for robust face recognition against varying lighting conditions[C]∥IEEE International Workshop on Analysis and Modeling of Faces and Gestures, 2003: 157-164.
[10] GEUSEBROEK J, SMEULDERS M, WEIJER D. Fast anisotropic gauss filtering[J].IEEE Transaction on Image Processing, 2003, 12(8): 938-943.
[11] TAN Xiao-yang, TRIGGS B. Enhanced local texture feature sets for face recognition under difficult lighting Conditions[J]. IEEE Transaction on Image Processing, 2010, 19(6): 163-165.
[12] GUO Zhen-hua, ZHANG D. A completed modeling of local binary pattern operator for texture classification [J]. IEEE Transaction on Image Processing,2010,19(6): 1657-1663.
(編輯李靜)
A method based on Elongated local Gabor binary pattern applied to face recognition
WU Shuai, CHEN Xi, SHANG Zhen-hong
(School of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China)
In order to improve the face recognition rate, a method based on local Gabor binary pattern for face recognition is presented. Convolving the face image with Gabor filters to gain a group of magnitude maps (MMPs), and then extracting histogram of each magnitude map′s ELBP to indicate its textural features, uniting with Average Maximum Distance Gradient Magnitude. At the end, comparing the histograms of test images and training set through histogram crossing distance to identify people. Experiments are carried out on YALE、YALE-B、UCD-VALID、CMU-PIE face databases, and experimental results have validated the effectiveness of the proposed method. The results prove that the proposed method can effectively improve the face recognition rate.
face recognition; Gabor filter; local binary pattern; elongated local binary pattern
2015-04-11
國家自然科學(xué)基金資助項目(61262040);云南省應(yīng)用基礎(chǔ)研究計劃基金資助項目(KKSY201203062, KKS0201503018)
吳帥,男,江蘇徐州人,從事圖像處理、模式識別領(lǐng)域研究。
TP391.4
A
10.16152/j.cnki.xdxbzr.2016-02-009