寧尚軍,劉小華,蓋 健
(吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,吉林 長春130012)
傳統(tǒng)的人臉識別技術(shù)以單幅人臉為基礎(chǔ)[1],通過分析單幅圖像中的人臉來達(dá)到辨識身份的目的.這種方法普遍要求圖像取自嚴(yán)格限制的拍攝條件,然而在實(shí)際應(yīng)用中,圖像一般取自復(fù)雜的自然條件及光照、人物姿態(tài)、視角等諸多因素的變化,使得傳統(tǒng)方法普遍識別率低,難以達(dá)到應(yīng)用的目的.近年來,隨著計(jì)算機(jī)硬件和通信技術(shù)的提高,基于圖像集的人臉識別技術(shù)越來越受到人們的重視[2-6].這種方法以同一人的多幅圖像構(gòu)成的圖像集作為分析和分類的單元,通過對圖像集進(jìn)行建模,然后選定合適的分類標(biāo)準(zhǔn),比較測試圖像集和數(shù)據(jù)庫中已知身份的圖像集(訓(xùn)練集)達(dá)到識別未知圖像集身份的目的.
基于仿射包模型的圖像集人臉識別方法[2-3],將圖像集建模為仿射包,圖像集中的每幅圖像均是屬于仿射包上的點(diǎn)(向量),定義仿射包距離為2個包中最近的2個點(diǎn)之間的距離,通過奇異值分解(SVD)算法得到仿射空間的基,計(jì)算測試集與每個訓(xùn)練集之間的仿射包距離,以最近鄰分類原則得到有效結(jié)果.這是一種幾何方法,分類結(jié)果是依賴于高維仿射空間中點(diǎn)的位置,因此圖像集中的異常值圖像(outliers)將會降低識別率.
針對仿射包模型對于異常圖像的敏感性[3],本文提出對異常值數(shù)據(jù)魯棒性更強(qiáng)的旋轉(zhuǎn)不變L1范數(shù)方法[7](R1-PCA 算法)進(jìn)行仿射子空間估計(jì),代替原有的L2范數(shù)方法,然后通過計(jì)算仿射包距離,利用最近鄰分類器得到有效結(jié)果.
AHISD[2](Affine hull based image sets distance)將每個圖像集建模為仿射包,即用每個集中所有樣本構(gòu)成的最小仿射包來描述整個集.我們以Xsi表示圖像集s 中的第i 幅樣本圖像,其中Xci∈?d,即每幅樣本圖像經(jīng)過預(yù)處理為d 維列向量,i=1,…,ns,其中ns表示第s 個圖像集中共ns個樣本,s=1,…,S,其中S 表示共有S 個圖像集,那么包含第s個圖像集所有樣本的最小仿射包定義為
仿射包模型將集中樣本的所有仿射組合作為所在集的合理特征表示,跟其他約束性更強(qiáng)的模型(比如凸包等)相比,弱約束性使得仿射包表示可以更有效地應(yīng)對小樣本問題,對于不在原來集中出現(xiàn)的樣本,可以通過仿射組合得到并計(jì)算在內(nèi).
(1)式的約束條件可寫作1Tα=1,其中1是全1列向量,1T表示1的轉(zhuǎn)置矩陣,α 是元素為αsk的列向量.設(shè)有集中樣本的一個正交基U、樣本均值μ,對于任意α 滿足1Tα=1,對中心化后的樣本使用SVD 算法可得
由(2)式可得
取v=ΣVTα,可知對任意α 滿足1Tα=1,(1)式可寫為
由(2)式可得
于是,由(1)式定義的仿射包模型可以重寫為
其中:μs為圖像集s的均值;Us為圖像集仿射空間的一組正交基;vs是經(jīng)過正交投影之后l 維未知向量.Us的計(jì)算由基于L2范數(shù)估計(jì)的奇異值分解方法得到.
2個仿射包之間的距離[2](AD)定義為2個最近點(diǎn)之間的歐式距離,其中2個點(diǎn)分別位于2個不同的仿射包中.給定2個不相交的仿射包:AHi={Uivi+μi}和AHk={Ukvk+μk},兩者之間距離為
2個仿射包AD 的計(jì)算就是求得(5)式最優(yōu)解的過程,由于仿射包是凸集合,(5)式的運(yùn)算是保凸運(yùn)算,這樣一個凸優(yōu)化問題是能解出最優(yōu)解的,具體如下:
定義U≡(Ui,-Uk),U 是Ui和-Uk的拼接矩陣是vi,vk的拼接矩陣,(5)式可寫作
易知,(6)式是標(biāo)準(zhǔn)的最小二乘問題,其閉合最優(yōu)解為
將(7)式代入(6)式,可得
其中:I是單位矩陣;W=U(UTU)-1UT是2個仿射子空間聯(lián)合方向上的正交投影矩陣;(I-W)是向2個仿射子空間的正交補(bǔ)空間的投影矩陣.實(shí)際計(jì)算中,通過對拼接矩陣U 進(jìn)行奇異值分解,求得U 的正交基Ub,則W=UbUTb,將W 代入(8)式即可求得2個仿射包之間的距離AD.
基于仿射包的圖像集識別方法是基于如下假設(shè):圖像集的每個樣本都是仿射特征空間的一個向量,對于特征空間的估計(jì)是其中最重要的一環(huán),對于一般情況,我們假設(shè)仿射特征空間是線性的,當(dāng)然面對圖像集過弱等情況,可以考慮更復(fù)雜的非線性模型.
AHISD[2]使用SVD 算法進(jìn)行子空間估計(jì),對于已經(jīng)中心化的樣本集X,進(jìn)行SVD 算法[7],得到
然后對Σ 按奇異值由大到小排列,取前l(fā)個奇異值使得該l 個奇異值之和與所有奇異值之和的比值大于我們設(shè)定的閾值t,l個奇異值對應(yīng)的左奇異向量即子空間的正交基.PCA 算法是對SVD 算法的封裝,可以用SVD 算法輕易實(shí)現(xiàn)PCA 算法,兩者本質(zhì)是相同的.使用SVD 算法估計(jì)子空間其實(shí)就是運(yùn)用PCA 算法.
取U=(u1,…,ul)為主成分方向(即特征向量),V=(v1,…,vl)為主成分,PCA 算法還可以描述為
Frobenius范數(shù)定義為
式中:i=1,…,n,其中n表示集中的n 個樣本;j=1,…,d,其中d 表示每個樣本有d 維.
由(10)式可知,基于SVD 算法(或者PCA 算法)的子空間估計(jì)是以最小化誤差矩陣的Frobenius范數(shù)(L2范數(shù))為目的的,這種方法在樣本中沒有異常值數(shù)據(jù)時(shí)效果不錯,一旦存在異常樣本,L2范數(shù)對于異常值數(shù)據(jù)的敏感性使J 的誤差增大,導(dǎo)致對子空間的估計(jì)出現(xiàn)較大偏差,從而影響識別的效率.
鑒于Frobenius對異常值數(shù)據(jù)的敏感性,可以使用基于魯棒性更強(qiáng)的L1范數(shù)的方法.矩陣X 的L1范數(shù)定義為
L1范數(shù)方法雖然在一定程度上解決了異常值數(shù)據(jù)的問題,但是存在如下缺陷[4]:(1)計(jì)算復(fù)雜度高;(2)最優(yōu)解是否與協(xié)方差矩陣相關(guān)不明確;(3)在聚類算法中使用L1范數(shù)會引發(fā)問題.
為了解決在識別過程中的異常值數(shù)據(jù)問題,同時(shí)避免L1范數(shù)方法的不足,本文采用基于旋轉(zhuǎn)不變L1范數(shù)的R1-PCA 算法進(jìn)行子空間估計(jì).R1-PCA 算法不但對異常值數(shù)據(jù)具有魯棒性,同時(shí)可以運(yùn)用子空間迭代算法有效求解,計(jì)算復(fù)雜度小于基于L1范數(shù)的方法.
R1范數(shù)即旋轉(zhuǎn)不變L1范數(shù)[7],是對L1范數(shù)的變形.在R1范數(shù)中,空間維度的距離是按照L2范數(shù)的二次形式計(jì)算的,但在不同點(diǎn)之間的求和是運(yùn)用L1范數(shù)的一次形式.對于樣本集X,寫成矩陣形式為X=(Xji),其中j為指示空間維度(j=1,…,d),i為指示樣本(i=1,…,n).R1范數(shù)的定義為
對比(11)式和(12)式,不難看出,基于Frobenius范數(shù)(L2范數(shù))和L1范數(shù)的方法,將數(shù)據(jù)集的行i和列j 做相同的操作,但是i指示樣本、j指示空間維度和R1范數(shù)正是抓住了這細(xì)小的差別,從而在子空間估計(jì)中魯棒性更強(qiáng).
令V=(v1,…,vl)∈Rl×n,(10)式標(biāo)準(zhǔn)的PCA 算法可以寫作如下向量形式
R1-PCA 算法可以記為
不失一般性,令U 為正交矩陣,解min‖Xi-Uvi‖2,得
故得
估計(jì)誤差si是樣本Xi到子空間的距離,R1-PCA 算法可簡化為
通過定義損失函數(shù)ρ(·),(18)式定義的R1-PCA 算法可以推廣為使用通用魯棒估計(jì)量的形式[7]
其中參數(shù)c為消去變量,通常選作si的中值,即c=median(si).
定義R1協(xié)方差矩陣為
對于使用ρH(s) 作為損失函數(shù)的R1-PCA 算法,權(quán)值定義為
易知,CR是標(biāo)準(zhǔn)協(xié)方差矩陣的加權(quán)形式,R1-PCA 算法的實(shí)質(zhì)便是減小異常值數(shù)據(jù)(到估計(jì)子空間距離較遠(yuǎn))的影響(對應(yīng)權(quán)值),從而獲得更準(zhǔn)確地對異常值數(shù)據(jù)魯棒的估計(jì)子空間.可以證明[7],R1-PCA 算法(19)式的全局最優(yōu)解就是R1協(xié)方差矩陣CR(21)式的特征向量,即
寫成矩陣形式
(21)式中,U 即CR的特征向量矩陣,Λ 是對角線為特征值的對角矩陣.
由(21)和(22)式可知,R1協(xié)方差矩陣CR依賴于U,因此(24)式是一個非線性特征值問題,可以通過經(jīng)典的子空間迭代算法得到前l(fā)個最大特征值對應(yīng)的l個主成分子空間.
取U 的初值U(0)為標(biāo)準(zhǔn)協(xié)方差矩陣前l(fā)個最大特征值對應(yīng)的主成分特征向量,計(jì)算U(0)的R1協(xié)方差矩陣CR(U(0)),U 按照(26)和(27)式的方式更新為:
其中:t表示迭代次數(shù);orth(·)是正交化函數(shù),當(dāng)?shù)鬂M足設(shè)定收斂條件即得到子空間基向量U.
下面給出R1-PCA 算法求解子空間的過程.
輸入:圖像集構(gòu)成的數(shù)據(jù)矩陣X,子空間維度k,收斂閾值t,迭代上限n.
初始化:計(jì)算標(biāo)準(zhǔn)PCA 算法(SVD 算法),得到U0.
計(jì)算
迭代過程:令U=U0,根據(jù)(28)和(29)式迭代更新U 直到滿足收斂條件或超過迭代次數(shù)上限n.
計(jì)算V=UTX.
輸 出:U,V.
因?yàn)閁 最終收斂為特征向量矩陣,收斂條件設(shè)定為U(t+1)與U(t)對角線元素的誤差平方和,當(dāng)其小于設(shè)定的值t時(shí)即收斂.
本文提出的對異常值數(shù)據(jù)具有魯棒性的圖像集人臉識別方法,記為R1-AHISD,具體過程如下:
(1)將已知身份的訓(xùn)練人臉圖像集和待分類的測試圖像進(jìn)行預(yù)處理,將圖像矩陣變形為列向量,將每個訓(xùn)練圖像集和測試圖像集中的圖像向量分別合并為對應(yīng)的圖像集矩陣.
(2)對測試集和每個訓(xùn)練集建模為仿射包,對圖像集矩陣進(jìn)行R1-PCA 算法,分別得到估計(jì)子空間,進(jìn)而得到仿射包表示.
(3)對測試仿射包和每一個訓(xùn)練集仿射包計(jì)算仿射包距離AD.
(4)Min(AD)對應(yīng)的訓(xùn)練集即為測試集的目標(biāo)身份.
Honda/UCSD[8]視頻庫最早應(yīng)用于視頻人臉識別,本文采用Honda/UCSD 視頻庫進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)庫包含20個人的共59段視頻片段,每段視頻拍攝于不同的光照環(huán)境下,包含被拍攝者不同的動作、表情、姿態(tài).實(shí)驗(yàn)選取其中每個人的一段視頻作為訓(xùn)練集,剩余39 段視頻作為測試集,每段視頻有300~500幀圖像.
首先,實(shí)驗(yàn)采用經(jīng)典的Viola-Jones人臉檢測算法[9]檢測得到視頻中盡可能多的人臉圖像,將檢測得到的人臉圖像縮放大小為20像素×20像素,然后對圖像進(jìn)行直方圖均衡化以消除光照影響.將每段視頻預(yù)處理之后的人臉圖像作為此人的圖像集.圖1分別展示了Honda/UCSD 數(shù)據(jù)庫視頻中提取的原始幀圖像、對應(yīng)的人臉檢測之后的人臉圖像以及預(yù)處理之后的圖像.
圖1 Honda/UCSD數(shù)據(jù)庫樣本圖像
實(shí)驗(yàn)分為2個部分,分別測試在無噪聲影響下的識別率以及在混有特定噪聲(離散圖像)的情況下的識別率,2個仿真實(shí)驗(yàn)的結(jié)果都顯示本文提出的方法具有較高的識別率、穩(wěn)定性,同時(shí)對異常值數(shù)據(jù)具有魯棒性.
第一部分實(shí)驗(yàn)為無噪聲實(shí)驗(yàn).由Viola-Jones算法[9]檢測得到的人臉圖像會有一些錯誤(包括不完整人臉、模糊人臉和非人臉等),將其中的錯誤圖像去除制成無噪聲圖像集,因?yàn)槊慷我曨l檢測得到的圖像數(shù)不一,隨機(jī)選取無噪聲圖像集中的10,20,50,70和100作為圖像集,實(shí)驗(yàn)將建立隨機(jī)圖像集的過程重復(fù)10次以求更精確的結(jié)果,分別測試基于圖像集的MSM 算法[4](公共子空間算法)、DCC算法[5](判別典型相關(guān)分析)、AHISD 算法[2]和本文提出的R1-AHISD 算法,最后將10次結(jié)果取平均值得到最終的識別率(如圖2所示).
由圖2可以看出,幾種方法的識別率都隨著圖像集中的圖像數(shù)的增多而提高,這是因?yàn)檫@幾種方法都是基于圖像集的人臉識別方法,這種方法需要圖像集中盡量包含更多的信息,當(dāng)圖像集中的圖像取自不同光照、姿態(tài)和表情等條件下時(shí),識別效果更好,這種基于圖像集的方法遠(yuǎn)遠(yuǎn)優(yōu)于單幅圖像人臉識別方法,基于單幅圖像的人臉識別方法在面對復(fù)雜的光照、姿態(tài)、表情等情況時(shí)往往識別率下降明顯.其次,本文提出的方法在識別率和穩(wěn)定性上都要好于原有方法,當(dāng)集中樣本數(shù)達(dá)到100時(shí),本文方法的識別率可以達(dá)到97.4%.
第二部分實(shí)驗(yàn)為噪聲測試,實(shí)驗(yàn)?zāi)康氖球?yàn)證本文提出的方法對異常值數(shù)據(jù)(outliers)的魯棒性.在實(shí)際應(yīng)用中,由于攝像機(jī)(比如監(jiān)控?cái)z像機(jī))條件的限制,得到的視頻往往包含噪聲,導(dǎo)致人臉檢測程序得到意外的結(jié)果.這些噪聲主要包括由于遮擋或視角受限導(dǎo)致的人臉不全,動作過快導(dǎo)致的圖像模糊以及人臉檢測得到的錯誤圖像等.因此本文噪聲實(shí)驗(yàn)立足實(shí)際,選取人臉檢測過程中出現(xiàn)的錯誤圖像作為噪聲,圖3展示了部分噪聲圖像.隨機(jī)選取某個人1~5幅噪聲圖像,加入此人的圖像集得到噪聲圖像集,分別測試上述4種算法,同樣對10次隨機(jī)實(shí)驗(yàn)識別率取平均值,表1和2分別為圖像集樣本數(shù)為50和100時(shí)的實(shí)驗(yàn)結(jié)果.
圖2 在無噪聲圖像集上不同算法的識別率
圖3 噪聲圖像樣本
由表1和2可以看出,異常值數(shù)據(jù)對以子空間估計(jì)為基礎(chǔ)的圖像集識別算法的影響是很明顯的,實(shí)驗(yàn)中采用的4種算法都不同程度受到影響,這是由算法的原理導(dǎo)致的.基于幾何的方法容易受到異常值數(shù)據(jù)的影響,對于偏離子空間距離較大的點(diǎn)會使子空間估計(jì)出現(xiàn)嚴(yán)重偏差,從而使識別率下降.由表1和2可知,MSM 算法、DCC 算法和原有的AHISD 算法在異常值數(shù)據(jù)的影響下,識別率下降都超過10%,本文提出的R1-AHISD方法下降并不明顯.
表1 樣本數(shù)為50的噪聲集上不同算法的識別率 %
表2 樣本數(shù)為100的噪聲集上不同算法的識別率 %
綜合上述實(shí)驗(yàn)結(jié)果,本文方法在識別率和穩(wěn)定性方面都比原有方法有所提高,對異常值數(shù)據(jù)的魯棒性也更強(qiáng).
提出了一種對異常值數(shù)據(jù)具有強(qiáng)魯棒性的基于仿射包模型的圖像集人臉識別算法.以R1-PCA 算法進(jìn)行子空間估計(jì),通過計(jì)算定義的仿射包距離,運(yùn)用最近鄰分類器得到分類識別結(jié)果.在Honda/UCSD 視頻庫上的仿真實(shí)驗(yàn)驗(yàn)證了本文方法的有效性和穩(wěn)定性.
[1]TURK M A,PENTLAND A P.Face recognition using eigenfaces[C].Conference on Computer Vision and Pattern recognition.US:IEEE,1991:586-591.
[2]CEVIKALP H,TRIGGS B.Face recognition based on image sets[C].Conference on Computer Vision and Pattern Recognition.San Francisco,US:IEEE,2010:2567-2573.
[3]HU Y,MIAN A S,OWENS R.Sparse approximated nearest points for image set classification[C].Conference on Computer Vision and Pattern Recognition.Providence,US:IEEE,2011:121-128.
[4]YAMAGUCHI O,F(xiàn)UKUI K,MAEDA K.Face recognition using temporal image sequence[C].IEEE International Conference on Automatic Face and Gesture Recognition Proceedings.Nara:IEEE,1998:318-323.
[5]KIM T,KITTLER J,CIPOLLA R.Discriminative learning and recognition of image set classes using canonical correlations[J].TPAMI,2007:29(6):1005-1018.
[6]WANG R,CHEN X.Manifold discriminant analysis[C].Conference on Computer Vision and Pattern Recognition.Miami,US:IEEE,2009:429-436.
[7]DING C,ZHOU D,HE X,et al.R1-PCA:rotational invariant L1-norm principal component analysis for robust subspace factorization[C].International Conference on Machine Learning Proceedings,Pittsburgh,US:IEEE,2006:281-288.
[8]LEE K-C,HO J,YANG M-H,et al.Video-based face recognition using probabilistic appearance manifolds[C].Conference on Computer Vision and Pattern Recognition,Proceedings.New York,US:IEEE,2003:1-313.
[9]VIOLA P,JONES M.Robust real-time face detection[J].International Journal of Computer Vision,2004,57:137-154.