耿淵哲
(南京理工大學(xué)計算機(jī)科學(xué)與工程學(xué)院 南京 210094)
經(jīng)過近40年的發(fā)展,人臉識別技術(shù)已經(jīng)成為一個比較成熟的研究課題,并廣泛應(yīng)用于社會生活的方方面面。一般來說,人臉識別主要分為四個階段:人臉檢測,人臉對齊,人臉表示以及人臉匹配?,F(xiàn)實世界的人臉圖像會被姿態(tài)、表情、光照遮擋、分辨率和背景等因素所影響,導(dǎo)致同一個人的圖像差異可能比不同人的更大,因此,一個對環(huán)境魯棒、判別性強(qiáng)的人臉表示至關(guān)重要[1]。
局部人臉特征由于其對遮擋、光照以及姿態(tài)等變化的魯棒性得到了研究人員的廣泛關(guān)注。局部二值模式(Local Binary Patterns,LBP)是一種有效的局部紋理描述符,具有灰度不變性和計算簡易性等特點[2],由 Ahonen[3]引入人臉識別,并獲得巨大成功。隨后大量的LBP改進(jìn)算法被提出,例如ELBP[4]、LGBP[5]、DLBP[6]以及 LQP[7]等。
原始LBP以及大多數(shù)LBP改進(jìn)算法的采樣模式,普遍采用人工設(shè)計,無法有效利用訓(xùn)練樣本的信息,也難以適用于各種不同的人臉數(shù)據(jù)庫。因此,本文提出了一種監(jiān)督學(xué)習(xí)的方法,對LBP的采樣模式進(jìn)行學(xué)習(xí)。該方法基于Fisher判別準(zhǔn)則[8],在中心點一定范圍內(nèi)尋找最優(yōu)的采樣點,使同一個人的LBP特征差異更小,不同人的LBP特征差異更大,由此得到更具判別性的人臉特征。最后在FE?RET人臉庫[9]上進(jìn)行實驗,并與傳統(tǒng)方法進(jìn)行對比和分析。
LBP是一種有效的紋理描述符,它的算法思想是利用局部的結(jié)構(gòu)提取窗口特征,利用統(tǒng)計思想提取最終的整體特征。如圖1所示,基本LBP算子定義在一個3×3的窗口中,以中心像素的灰度值為閾值,與相鄰的8個像素進(jìn)行比較,得到像素差異向量(Pixel Difference Vector,PDV)。然后把PDV轉(zhuǎn)化為一個8-bit的無符號二進(jìn)制數(shù),這個二進(jìn)制對應(yīng)的十進(jìn)制數(shù)就是中心像素點的LBP值,它包含了這個位置的紋理信息。
圖1 基本LBP算子示例
通過對整個圖像進(jìn)行掃描變換后,可以將原始圖像轉(zhuǎn)化為LBP圖像,然后統(tǒng)計得到整個圖像的LBP直方圖,作為該圖像的紋理特征。因為基本LBP算子有8個鄰域點,對應(yīng)8-bit的二進(jìn)制數(shù),因此直方圖的維度是256,圖2顯示了一張人臉經(jīng)過LBP變換以及直方圖統(tǒng)計后的結(jié)果。
圖2 人臉圖像、對應(yīng)的LBP圖像和LBP統(tǒng)計直方圖
傳統(tǒng)的LBP算子,直接選取中心像素周圍的8個像素點作為采樣點,并與中心像素比較得到二進(jìn)制碼。后來研究人員又提出了多種LBP改進(jìn)算子,例如,Ojala等[10]提出了圓形采樣 LBPP,R,在半徑為R的圓周上均勻選取P個采樣點,Liao等[4]提出的ELBP使用了橢圓形采樣,文獻(xiàn)[11]提出了雙環(huán)形的采樣模式。然而,這些采樣方法都是人工設(shè)計的,需要大量先驗知識,也難以適應(yīng)各種人臉數(shù)據(jù)集的變化,因此本文提出了一種新的LBP人臉描述符,基于判別學(xué)習(xí)的思想,從中心點距離為r的鄰域內(nèi)選取出最具判別性的n個采樣點,圖3展示了r=2,n=8時的示例。
圖3 r=2,n=8時本文方法的示例
對于圖像I中的一點p,gp表示位置p處的灰度值,{p1,p2,…,pS}表示p的鄰域,S為鄰域的像素數(shù)目。鄰域像素與中心像素比較得到位置p處的PDV,表示為d(I)p=我們引入一個0-1采樣矩陣M:
其中M∈RS×n,S為鄰域像素個數(shù),n為采樣數(shù)目,我們得到采樣后的PDV:
與文獻(xiàn)[12]類似,我們用PDV的差別來度量兩張圖片的距離,因此采樣后的類內(nèi)距和類間距可以表示為
該模型的目標(biāo)函數(shù)是尋找一個0-1矩陣M,使得類間距與類內(nèi)距的比值SbSw最大化。約束條件有三條:
約束條件(a)表示矩陣M是一個0-1矩陣,0表示“不采樣”,1表示“采樣”。
約束條件(b)表示矩陣M每一列的和為1,即每一列都有且只有一項為1,其他均為0。矩陣M每一列對應(yīng)一次采樣,并且只對鄰域內(nèi)的一個點進(jìn)行采樣。
約束條件(c)表示矩陣M每一行的和小于等于1,即一個鄰域點最多被采樣一次。這個約束條件限制了對同一個點進(jìn)行重復(fù)采樣。
其中符號?為阿達(dá)馬乘積,或稱作分素乘積(Entrywise Product),表示兩個矩陣對應(yīng)元素相乘(這里是兩個向量)。u是一個0-1列向量,長度為S,即鄰域點數(shù),1的數(shù)量為采樣點數(shù)n。u中第幾個元素為1,表示對第幾個鄰域點進(jìn)行采樣,換句話說,u在這里起到了采樣矩陣M的作用,并且與M一一對應(yīng),因此我們稱u為采樣向量。
通過這個變換,采樣模型(4)可以寫成以下形式:
該模型的目標(biāo)是找到最優(yōu)的采樣向量u,使得類間距與類內(nèi)距的比值最大。約束條件(a)表示u是一個長度為S的0-1列向量。約束條件(b)確保u中1的數(shù)量為n個,即采樣數(shù)為n。
下面給出求解最優(yōu)采樣點算法的偽代碼:
判別采樣模式學(xué)習(xí)算法
輸出:最優(yōu)采樣向量u∈RS×1
算法流程:
2)求解0-1規(guī)劃問題,得到最優(yōu)采樣向量u
為了驗證算法的識別能力,我們在FERET人臉庫上對本文算法以及其他LBP改進(jìn)算法進(jìn)行實驗。通用的FERET庫主要分為訓(xùn)練集和測試集,訓(xùn)練集用于訓(xùn)練模型,它包含429個人,每個人有多張圖像,總共1002張圖像,全部是正面圖像。測試集分為5個子集:fa、fb、fc、dup I和dup II。其中,fa包含1196個人,每個人一幅正面的正常表情正常光照下的圖像。fb包含1195個人,每個人一幅與fa中不同表情的圖像。fc包含194個人,每個人一幅與fa中不同光照的圖像。dup I包含243個人的722張圖像,與fa中的圖像拍攝時間間隔在1年之內(nèi)。dup II包含75個人的234張圖像,與fa中圖像拍攝時間間隔在1年以上。圖4展示了不同圖像集的人臉示例。
圖4 FERET人臉庫不同圖像集示例
我們按照文獻(xiàn)[9]的方法,以1002張圖片為訓(xùn)練集,fa為gallery,fb,fc,dup I,dup II為probe,測試了本文所提出算法的識別性能,如表1所示。
表1 不同算法在FERET人臉庫上的識別率
從實驗結(jié)果可以看出,本文所提出的方法優(yōu)于大多數(shù)現(xiàn)存的LBP改進(jìn)算法,尤其對于dup I和dup II兩個測試集,本文方法有較大的提升。另外注意到DLBP算法與本文的識別性能相近,但DLBP無法直接求解,只能使用啟發(fā)式算法,具有較大的計算復(fù)雜度,因此可以認(rèn)為本文的方法是優(yōu)于DLBP的。
本文提出了一種基于學(xué)習(xí)的LBP采樣模式,與傳統(tǒng)人工設(shè)計的采樣模式不同,該方法利用Fisher判別思想,用PDV來度量兩張圖片的距離,從中心點的鄰域范圍內(nèi)選取最具判別性的采樣點,并用于后續(xù)LBP特征的提取。通過在人臉庫FERET上的大量實驗表明,該方法優(yōu)于大多數(shù)LBP改進(jìn)算法,具有更高的識別能力。
[1]Lu J,Liong V E,Zhou X,et al.Learning compact binary face descriptor for face recognition[J].IEEE transactions on pattern analysis and machine intelligence,2015,37(10):2041-2056.
[2]Ojala T,Pietik?inen M,Harwood D.A comparative study of texture measures with classification based on featured distributions[J].Pattern recognition,1996,29(1):51-59.
[3]Ahonen T,Hadid A,Pietikainen M.Face description with local binary patterns:application to face recognition[J].IEEE transactions on pattern analysis and machine intelli?gence,2006,28(12):2037-2041.
[4]Liao S,Chung A C S.Face recognition by using elongated local binary patterns with average maximum distance gra?dient magnitude[C]//Tokyo,Japan:Asian conference on computer vision,2007:672-679.
[5]Zhang W,Shan S,Gao W,et al.Local Gabor binary pat?tern histogram sequence(LGBPHS):a novel non-statisti?cal model for face representation and recognition[C]//Bei?jing,China:Tenth IEEE International Conference on Computer Vision,2005.786-791.
[6]Maturana D,Mery D,Soto A.Learning discriminative lo?cal binary patterns for face recognition[C]//Santa Barba?ra,CA,USA:Ninth IEEE international conference on au?tomatic face and gesture recognition,2011.470-475.
[7]Hussain S U,Napoléon T,Jurie F.Face recognition using local quantized patterns[C]//Guildford,British:British machine vision conference,2012.1-11.
[8]Duda R O,Hart P E,Stork D G.Pattern classification[M].New York,American:John Wiley&Sons,2012.
[9]Phillips P J,Wechsler H,Huang J,et al.The FERET da?tabase and evaluation procedure for face-recognition algo?rithms[J].Image and vision computing,1998,16(5):295-306.
[10] Ojala T,Pietikainen M,Maenpaa T.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE transactions on pat?tern analysis and machine intelligence,2002,24(7):971-987.
[11]Wolf L,Hassner T,Taigman Y.Descriptor based meth?ods in the wild[C]//Marseille,F(xiàn)rance:Workshop on fac?es in real life images detection alignment and recogni?tion,2008.1-14.
[12]Lei Z,Pietik?inen M,Li S Z.Learning discriminant face descriptor[J].IEEE transactions on pattern analysis and machine intelligence,2014,36(2):289-302.
[13]Liao S,Zhu X,Lei Z,et al.Learning multi-scale block local binary patterns for face recognition[C]//Washing?ton,American:International conference on biometrics,2007.828-837.