張宏星,鄒 剛,趙 鍵,李志勇
(1.寧波工程學(xué)院 網(wǎng)絡(luò)信息技術(shù)中心,浙江 寧波315211;2.國(guó)防科學(xué)技術(shù)大學(xué) 信息中心,湖南 長(zhǎng)沙410073;3.中國(guó)人民解放軍95380部隊(duì),廣東 湛江524329)
稀疏表示 (sparse representation,SR)方法被廣泛應(yīng)用于模式分類與識(shí)別領(lǐng)域,Huang等人[1]將信號(hào)用一系列基函數(shù)進(jìn)行稀疏編碼,而后根據(jù)這些編碼矢量來(lái)對(duì)信號(hào)進(jìn)行分類。Wright等人[2]則提出了一種魯棒的基于稀疏表示的人臉識(shí)別算法,該方法通過(guò)將待識(shí)別人臉圖像用所有的模板圖像進(jìn)行稀疏編碼表示后,再通過(guò)計(jì)算與各類模板圖像集合之間的最小編碼誤差,來(lái)判斷待識(shí)別人臉圖像的類別歸屬。目前,這種基于稀疏表示的分類方法 (sparse representation based classification,SRC)已成功應(yīng)用于人臉識(shí)別領(lǐng)域,并大大激發(fā)了基于稀疏的模式分類方法的研究工作。Gao等人[3]提出了基于核稀疏表示的人臉識(shí)別算法,Yang與Zhang[4]則利用基于Gabor特征的稀疏表示分類方法,通過(guò)自學(xué)習(xí)的Gabor不完備字典來(lái)降低算法的復(fù)雜度。Yang等人[5]將稀疏編碼與線性空間金字塔匹配方法相結(jié)合,用于圖像分類。文獻(xiàn) [6]綜述總結(jié)了目前稀疏表示方法在計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域中的應(yīng)用。
在基于稀疏表示的人臉識(shí)別方法中,一般假設(shè)待識(shí)別和模板庫(kù)中的人臉圖像均是已經(jīng)校準(zhǔn)后的圖像,而目前稀疏表示方法也逐漸擴(kuò)展至能處理未校準(zhǔn)的或存在姿態(tài)變化的人臉圖像,文獻(xiàn) [7]所提出的方法具備圖像平面變換的不變性,文獻(xiàn) [8]所提出的方法則能適用于誤配準(zhǔn)和光照變化的情況,Peng等人[9]研究了如何同時(shí)將一系列線性相關(guān)圖像進(jìn)行校準(zhǔn)。稀疏表示 (或稱稀疏編碼)的實(shí)質(zhì)就是將一個(gè)信號(hào)y用字典來(lái)表示,即y ≈,其中α 為稀疏系數(shù)矢量。矢量α的稀疏性由l0范數(shù)來(lái)衡量,l0范數(shù)定義為矢量α 中的非零值的個(gè)數(shù)。由于l0范數(shù)最小化問(wèn)題是NPhard問(wèn)題,而l1范數(shù)最小化是最接近于l0范數(shù)最小化的凸函數(shù),因此在稀疏表示方法中常利用l1范數(shù)來(lái)代替l0范數(shù)
其中,ε為誤差閾值常量。盡管l1范數(shù)最小化要比l0范數(shù)最小化更簡(jiǎn)單有效,但是依然存在著計(jì)算復(fù)雜度較高,且目前出現(xiàn)了許多加速實(shí)現(xiàn)l1范數(shù)最小化求解的快速算法。根據(jù)文獻(xiàn) [10]的綜述總結(jié),目前有5種代表性的快速l1范數(shù)最小化求解方法:梯度投影法、同倫分析方法、迭代收縮閾值法、最近鄰梯度法以及擴(kuò)展拉格朗日乘子法。對(duì)于存在噪聲的數(shù)據(jù),一階l1范數(shù)最小化求解方法 (典型算法如SpaRSA[11],F(xiàn)ISTA[12]和ALM[13]等)更為有效。而對(duì)于人臉識(shí)別,同倫分析方法[14]和l1-ls 方法[15]則更加精確并具有更快的計(jì)算速度。
盡管基于稀疏表示的分類方法 (SRC)[2]成功應(yīng)用于人臉識(shí)別領(lǐng)域并取得了不錯(cuò)的效果,但是其工作機(jī)制原理卻仍然存在著諸多疑問(wèn)。大多數(shù)文獻(xiàn)均是著重強(qiáng)調(diào)了在人臉分類中l(wèi)1范數(shù)稀疏特性的重要性,而協(xié)同表示 (collaborative representation,CR)[16]的重要性 卻被忽視了。協(xié)同表示的質(zhì)就是利用所有類別中的訓(xùn)練樣本來(lái)共同表示待識(shí)別樣本y。l1范數(shù)最小化問(wèn)題使得基于稀疏的分類方法 (如SRC方法)的計(jì)算復(fù)雜度較高,而SRC 方法能成功應(yīng)用于人臉識(shí)別是否就是l1范數(shù)的稀疏特性所決定的問(wèn)題,一直存在 著諸 多疑問(wèn)[16-18]。
針對(duì)上述疑問(wèn),Zhang等人[16]分析了SRC 方法的基本原理,在解釋了稀疏性能夠有效增強(qiáng)分類區(qū)別能力的基礎(chǔ)之上,提出了在基于稀疏表示的分類方法中,協(xié)同表示要比l1范數(shù)的稀疏特性更為重要。由此,文獻(xiàn) [16]提出了一種基于協(xié)同表示和規(guī)則最小二乘的分類方法 (CRCRLS),與SRC方法相比,CRC-RLS具有較好的分類效果,并較大程度降低了計(jì)算復(fù)雜度。但是,由于CRC-RLS方法直接采用人臉圖像的灰度特征,當(dāng)存在光照、姿態(tài)等變化時(shí),識(shí)別效果下降較快。本文提出了一種新的基于Gabor特征和協(xié)同表示的人臉識(shí)別算法,在提取人臉圖像的Gabor特征后,再結(jié)合協(xié)同表示的方法進(jìn)行人臉識(shí)別,取得了較好的識(shí)別效果。
Gabor濾波器最早由David Gabor在1946 年提出,后來(lái)研究發(fā)現(xiàn)可以用Gabor濾波器來(lái)模擬人類視覺細(xì)胞感受野。Gabor濾波器能有效地提取圖像多尺度下的局部方向性特征,其已成功應(yīng)用于人臉識(shí)別領(lǐng)域[19]。Gabor特征屬于局部區(qū)域特征,因此在光照、表情以及姿態(tài)等的變化下,Gabor特征要比其它全局特征如特征臉 (Eigenface)、隨機(jī)臉 (Randomface)等更具魯棒性和不變性。
Gabor濾波器[21]定義見式 (1)
其中,μ 和ν 分 別 表 示Gabor 核 的 方 向 和 尺 度,z =(x ,y) 為圖像的像素坐標(biāo)值,小波矢量kμ,ν定義見式 (2)
圖像中提取Gabor特征就是利用式(1)所示的Gabor濾波器組與圖像進(jìn)行卷積后完成的。令I(lǐng) x,( )y 為圖像的灰度值分布,而圖像I與一個(gè)Gabor核的卷積定義見式(3)
其中,z= (x ,y) ,“*”為卷積算子,Gμ,ν(z) 則代表了方向μ 與尺度v 下的Gabor核與圖像的卷積結(jié)果。本文中采用的是5個(gè)尺度和8個(gè)方向下的Gabor濾波器組,因此最終所提取的圖像 I (z) 的Gabor特征為集合
根據(jù)卷積定理可知,可通過(guò)快速傅里葉變換 (FFT)來(lái)求解式 (3)中的Gμ,ν(z)
式中:Mμ,ν()z ——幅度值,θμ,ν()z ——相位值。幅度值信息Mμ,ν()z 包含了圖像中的局部能量的差異性。圖1顯示了Gabor核在5 個(gè)尺度,8 個(gè)方向上的幅度值圖像,可見Gabor特征具有尺度性、局部性以及方向性的特點(diǎn)。
圖1 各參數(shù)為σ=2π,kmax =,f =時(shí)的Gabor核
為了能充分體現(xiàn)出Gabor小波的空間尺度性、空間局部性以及方向可選擇性,本文將所有尺度和方向下的卷積結(jié)果串聯(lián)起來(lái)形成了擴(kuò)展的Gabor特征矢量χ,在串聯(lián)之前,首先將每一個(gè)Gμ,ν(z)按照比率ρ進(jìn)行下采樣以降低矢量維數(shù),再將其歸一化為零均值和單位方差的矢量,最后將Gμ,ν()z 按行 (或列)的方向串聯(lián)得到了擴(kuò)展的Gabor特征矢量χ(ρ)
本節(jié)首先簡(jiǎn)要介紹了經(jīng)典的基于稀疏表示的人臉分類識(shí)別算法 (SRC),在分析了SRC的優(yōu)缺點(diǎn)后,提出了本文新的基于Gabor特征與協(xié)同表示的人臉分類識(shí)別算法 (Gabor-CRC)。
令Xi= [si,1,si,2,…,si,niRm×ni 為第i類人臉的訓(xùn)練樣本集,其中si,j,j=1,2,…,ni為第i類人臉的第j 個(gè)樣本的m 維特征矢量。假設(shè)總共有K 類訓(xùn)練樣本,則令所有的訓(xùn)練樣本集為:X = [X1,X2,…,XK]。假設(shè)一個(gè)測(cè)試樣本圖像為y∈Rm,則可以將其用訓(xùn)練樣本集來(lái)線性表示為y ≈ Xα, α = [α1;…αi;…αK], 其 中 αi=[αi,1,αi,2,…,αi,ni]T∈Rni 為與第i類的編碼系數(shù)矢量。如果測(cè)試樣本y屬于第i類人臉,則通常會(huì)有yi≈Xiαi成立,這也意味著系數(shù)矢量α中的大多數(shù)k≠i時(shí)的系數(shù)αk幾乎均為零,而僅有αi具有非零值
因此,由矢量α中的稀疏的非零值可以得到測(cè)試樣本y的類屬信息。具體的SRC算法流程見表1。
表1 SRC算法流程
從表1所示的SRC算法流程中可知,SRC 算法有兩個(gè)關(guān)鍵之處:第一,測(cè)試樣本y 的編碼稀疏矢量必須是稀疏的;第二,測(cè)試樣本y 的稀疏編碼是協(xié)同作用于全部訓(xùn)練樣本集X 上的,而不僅僅是作用于每類訓(xùn)練樣本的子集Xi。假設(shè)y屬于數(shù)據(jù)集中的某一類,則y 基于X 的線性表示的系數(shù)是最稀疏的,因此具備可區(qū)分性從而能得到y(tǒng) 的類屬信息。
在人臉識(shí)別中,每一類人臉圖像均位于Rm中的子空間,即m 維的人臉圖像可以用更低維的特征矢量來(lái)表示。如果采用第i類訓(xùn)練樣本集合Xi來(lái)作為該類的字典,則Xi中的原子 (訓(xùn)練樣本)將是相關(guān)的。假設(shè)每類訓(xùn)練樣本是足夠多,則所有屬于第i類的圖像完全能由Xi來(lái)表示,因此Xi是一個(gè)超完備字典。而由于第i類的訓(xùn)練樣本間的相關(guān)性可知,屬于第i類的測(cè)試樣本y 能用字典Xi稀疏地表示。由上分析可知,為了使得降維后字典Xi滿足超完備的要求,SRC算法要求訓(xùn)練樣本足夠多,但是人臉識(shí)別卻屬于典型的小樣本問(wèn)題,一般情況下Xi是非完備的。如果利用Xi來(lái)表示y,即使當(dāng)y屬于第i類也會(huì)導(dǎo)致較大的表示誤差,因此最終導(dǎo)致分類結(jié)果的不穩(wěn)定。最直接的解決方法是利用第i類的更多樣本來(lái)表示y,但實(shí)際應(yīng)用中卻難以實(shí)現(xiàn)。
針對(duì)人臉識(shí)別應(yīng)用而言,不同類別的人臉圖像往往具有一定的相似性。也就是說(shuō),第j類的人臉樣本有助于表示第i類的測(cè)試樣本。在SRC 算法中,通過(guò)將所有其它類別訓(xùn)練樣本來(lái)作為每類中可能的訓(xùn)練樣本可以解決 “樣本的缺失問(wèn)題”,也就是在基于l1范數(shù)的稀疏性約束條件下,將測(cè)試樣本y用所有訓(xùn)練樣本X = [X1,X2,…,XK]來(lái)協(xié)同表示。文獻(xiàn)[16]在分析了SRC算法的基本原理后,提出了SRC算法對(duì)于分類的有效性不是取決于基于l1范數(shù)的稀疏性,而是由其內(nèi)在的協(xié)同表示性所決定的,因此可將基于l1范數(shù)的稀疏性約束條件簡(jiǎn)化為最小二乘約束問(wèn)題,從而提出了基于協(xié)同表示的人臉分類識(shí)別算法(CRC-RLS)。
文獻(xiàn) [16]所提出的基于協(xié)同表示的人臉分類識(shí)別算法僅僅利用了原始人臉圖像的特征 (灰度分布),當(dāng)存在光照、表情以及姿態(tài)等變化時(shí),存在識(shí)別準(zhǔn)確率下降較快的問(wèn)題,為進(jìn)一步提高算法的準(zhǔn)確率以及魯棒性,本文將擴(kuò)展的Gabor特征與CRC算法相結(jié)合,提出了一種新的基于Gabor特征和協(xié)同表示的人臉分類識(shí)別算法。
根據(jù)前面第二節(jié)中所提出的擴(kuò)展的Gabor特征定義,提取所有訓(xùn)練樣本集圖像的擴(kuò)展Gabor特征,設(shè)第i類訓(xùn)練樣本集合所提取的對(duì)應(yīng)擴(kuò)展Gabor特征集為Xi=[χi,1,χi,2,…,χi,ni],則所有類的訓(xùn)練 樣本Gabor特征集 為X =[X1,X2,…,XK]。為了能以較少的計(jì)算代價(jià),用所有訓(xùn)練樣本特征集來(lái)協(xié)同表示測(cè)試樣本,可以將SRC 算法中的基于l1范數(shù)的稀疏性約束條件簡(jiǎn)化為規(guī)則化的最小二乘方法,即將式 (8)簡(jiǎn)化為
與SRC算法相比,CRC方法求解式 (11)所示的規(guī)則化最小二乘問(wèn)題要遠(yuǎn)比求解式 (8)所示的基于l1范數(shù)的最優(yōu)化問(wèn)題更為簡(jiǎn)單??梢酝ㄟ^(guò)解析方法求得基于協(xié)同表示方法的最優(yōu)解
令投影矩陣P= (XTX +λI)-1XT,則易見P是獨(dú)立于y的,因此其可以在訓(xùn)練階段就事先計(jì)算得到。如果一個(gè)測(cè)試樣本y需要進(jìn)行分類識(shí)別,可以通過(guò)將y 投影至P 上從而得到Py,由此可知CRC方法要比SRC 方法具有明顯的速度優(yōu)勢(shì)。表2為本文的基于Gabor特征與協(xié)同表示的人臉分類識(shí)別算法流程。
本節(jié)分別在3 個(gè)標(biāo)準(zhǔn)人臉識(shí)別數(shù)據(jù)庫(kù),即Extended Yale B數(shù)據(jù)庫(kù)、AR 數(shù)據(jù)庫(kù)以及ORL 庫(kù)中進(jìn)行了本文所提的Gabor-CRC算法性能對(duì)比實(shí)驗(yàn),本文選取了如最近鄰分類算法 (NN)[2]、基于支持矢量機(jī)的分類算法 (SVM)[2]以及SRC[2]和CRC-RLS[16]等經(jīng)典算法來(lái)作為比較算法。
表2 Gabor-CRC算法流程
Extended Yale B數(shù)據(jù)庫(kù)包含了38個(gè)人的2414幅正面人臉圖像,考慮到經(jīng)典的CRC以及SRC算法中均采用的是特征臉特征,因此,為了減少特征提取的復(fù)雜度,本實(shí)驗(yàn)中將該庫(kù)中的人臉圖像剪切和歸一化為54×48像素大小的圖像,這些圖像均在不同的光照環(huán)境中所拍攝而成的。隨機(jī)將數(shù)據(jù)庫(kù)中的各類人臉對(duì)等分為兩半,即每個(gè)人的人臉圖像中有32張作為訓(xùn)練樣本,而其余的作為測(cè)試樣本。表3顯示了NN算法、SVM 算法、SRC 算法、CRC-RLS算法與本文的Gabor-CRC算法的識(shí)別率與特征維數(shù)之間的關(guān)系。
表3 不同算法在Extended Yale B數(shù)據(jù)庫(kù)上的識(shí)別性能比較
在AR 數(shù)據(jù)庫(kù)中選取具有光照變化以及表情變化的人臉圖像作為實(shí)驗(yàn)數(shù)據(jù),其中包括了50個(gè)男性和50個(gè)女性的正面人臉圖像,本文實(shí)驗(yàn)中依然隨機(jī)選取每個(gè)人的7幅人臉圖像作為訓(xùn)練樣本,而另外的7幅作為測(cè)試樣本,所有的人臉圖像均規(guī)則化為60×43像素大小的圖像。實(shí)驗(yàn)的比較結(jié)果見表4??梢钥闯霰疚乃惴ㄔ诰S數(shù)較高時(shí)要比其它經(jīng)典算法的識(shí)別率高很多,這也充分說(shuō)明了基于Gabor特征和協(xié)同表示的人臉識(shí)別算法對(duì)光照和表情變化具有較好的魯棒性。
表4 不同算法在AR 數(shù)據(jù)庫(kù)上的識(shí)別性能比較
ORL數(shù)據(jù)庫(kù)中包括了40 個(gè)人的人臉圖像,其中每個(gè)人均有10 幅人臉圖像,每幅圖像均具有不同的姿態(tài)、表情,因此,在ORL數(shù)據(jù)庫(kù)上的對(duì)比實(shí)驗(yàn)將驗(yàn)證本文算法對(duì)人臉的姿態(tài)、表情變化的魯棒性。同樣,對(duì)于每類人臉均隨機(jī)抽取一半的人臉圖像作為訓(xùn)練樣本,而另外一半作為測(cè)試樣本進(jìn)行對(duì)比實(shí)驗(yàn),最終結(jié)果見表5??梢钥闯?,本文算法在ORL庫(kù)上的識(shí)別率遠(yuǎn)高于其它基于特征臉的經(jīng)典人臉識(shí)別算法。
表5 不同算法在ORL數(shù)據(jù)庫(kù)上的識(shí)別性能比較
本節(jié)將比較利用不同的快速l1范數(shù)最小化方法的SRC算法、CRC-RLS算法與本文的Gabor-CRC算法之間的算法速度,其中,SRC算法所采用的快速l1范數(shù)最小化方法包括Homotopy方法[14]、l1-ls 方 法[15]和ALM[13]。將 各 算 法所提取的特征維數(shù)固定為300后,分別比較各自的平均運(yùn)行時(shí)間,結(jié)果見表6,可以看出,本文算法要比SRC 算法快很多,由于需要提取Gabor特征,因此要比CRC-RLS算法稍慢。
表6 不同算法在各數(shù)據(jù)庫(kù)上的算法速度比較 (單位:秒)
基于稀疏表示的分類識(shí)別算法 (SRC)需要求解基于l1范數(shù)最小化問(wèn)題,使得該方法計(jì)算復(fù)雜度較高。基于協(xié)同表示和規(guī)則最小二乘的分類識(shí)別方法 (CRC-RLS)指出協(xié)同表示特性決定了SRC算法的分類有效性,從而提出將基于l1范數(shù)最小化問(wèn)題簡(jiǎn)化為最小二乘約束問(wèn)題,從而使得算法復(fù)雜度得到大幅降低。本文首先提取人臉圖像的規(guī)則化擴(kuò)展Gabor特征,然后,將Gabor特征與協(xié)同表示的方法有機(jī)結(jié)合,最終提出了一種新的基于Gabor特征與協(xié)同表示的人臉識(shí)別算法 (Gabor-CRC)。經(jīng)過(guò)在標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)上的統(tǒng)計(jì)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文所提的新方法不僅對(duì)于光照、表情和姿態(tài)等變化具備較強(qiáng)魯棒性,而且運(yùn)行速度較快。
[1]Huang K,Aviyente S.Sparse representation for signal classification [C]//Advances in Neural Information Processing Systems 19,2006.
[2]Wright J,Yang A Y,A Ganesh,et al.Robust face recognition via sparse representation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31 (2):210-227.
[3]Gao Shenghua,Tsang I W,Chia L.Kernel sparse representation for image classification and face recognition[C]//Proc of the 11th European Conference on Computer Vision,2010:1-14.
[4]Yang M,Zhang L.Gabor feature based sparse representation for face recognition with Gabor occlusion dictionary [C]//11th European Conference on Computer Vision,2010.
[5]Yang J,Yu K,Gong Y,et al.Linear spatial pyramid matching using sparse coding for image classification [C]//IEEE Conference on Computer Vision and Pattern Recognition,2009:1794-1801.
[6]Wright J,Ma Y,Mairal J,et al.Sparse representation for computer vision and pattern recognition [C]//Special Issue on Applications of Compressive Sensing &Sparse Representation,2010:1031-1044.
[7]Huang J Z,Huang X L,Metaxas D.Simultaneous image transformation and sparse representation recovery [C]//IEEE Conference on Computer Vision and Pattern Recognition,2008.
[8]Wagner A,Wright J,Ganesh A,et al.Towards a practical face recognition system:Robust registration and illumination by sparse representation [C]//IEEE Conference on Computer Vision and Pattern Recognition,2009.
[9]Peng Y,Ganesh A,Wright J,et al.RASL:Robust alignment by sparse and low-rank decomposition for linearly correlated images [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34 (11):2233-2246.
[10]Yang A Y,Ganesh A,Zhou Z H,et al.Fast l1-minimization algorithms and application in robust face recognition [J].IEEE Transactions on Image Processing,2013,22 (8):1057-7149.
[11]Wright S J,Nowak R D,F(xiàn)igueiredo M A T.Sparse reconstruction by separable approximation [C]//ICASSP,2008.
[12]Beck A,Teboulle M.A fast iterative shrinkage-thresholding algorithm for linear inverse problems [J].SIAM Journal on Imaging Science,2009,2 (1):183-202.
[13]Yang J,Zhang Y.Alternating direction algorithms for l1-problems in compressive sensing [C]//CAAM,2009.
[14]Malioutove D,Cetin M,Willsky A.Homotopy continuation for sparse signal representation [C]//ICASSP,2005.
[15]Kim S J,Koh K,Lustig M,et al.A interior-point method for large-scale l1-regularized least squares[J].IEEE Journal on Selected Topics in Signal Processing,2007,1 (4):606-617.
[16]Zhang L,Yang M,F(xiàn)eng X C.Sparse representation or collaborative representation:Which helps face recognition [J].ICCV,2011.
[17]Rigamonti R,Brown M,Lepetit V.Are sparse representations really relevant for image classification [C]//CVPR,2011.
[18]Shi Q,Eriksson A,Hengel A,et al.Is face recognition really a compressive sensing problem [C]//CVPR,2011.
[19]Kundra H,Arshima E R,Verma M.Image enhancement based on fuzzy logic[J].Computer Science and Network Security,2009,10 (9):141-145.