寧尚軍,劉小華,蓋 健
(吉林大學計算機科學與技術(shù)學院,吉林 長春130012)
傳統(tǒng)的人臉識別技術(shù)以單幅人臉為基礎(chǔ)[1],通過分析單幅圖像中的人臉來達到辨識身份的目的.這種方法普遍要求圖像取自嚴格限制的拍攝條件,然而在實際應(yīng)用中,圖像一般取自復(fù)雜的自然條件及光照、人物姿態(tài)、視角等諸多因素的變化,使得傳統(tǒng)方法普遍識別率低,難以達到應(yīng)用的目的.近年來,隨著計算機硬件和通信技術(shù)的提高,基于圖像集的人臉識別技術(shù)越來越受到人們的重視[2-6].這種方法以同一人的多幅圖像構(gòu)成的圖像集作為分析和分類的單元,通過對圖像集進行建模,然后選定合適的分類標準,比較測試圖像集和數(shù)據(jù)庫中已知身份的圖像集(訓練集)達到識別未知圖像集身份的目的.
基于仿射包模型的圖像集人臉識別方法[2-3],將圖像集建模為仿射包,圖像集中的每幅圖像均是屬于仿射包上的點(向量),定義仿射包距離為2個包中最近的2個點之間的距離,通過奇異值分解(SVD)算法得到仿射空間的基,計算測試集與每個訓練集之間的仿射包距離,以最近鄰分類原則得到有效結(jié)果.這是一種幾何方法,分類結(jié)果是依賴于高維仿射空間中點的位置,因此圖像集中的異常值圖像(outliers)將會降低識別率.
針對仿射包模型對于異常圖像的敏感性[3],本文提出對異常值數(shù)據(jù)魯棒性更強的旋轉(zhuǎn)不變L1范數(shù)方法[7](R1-PCA 算法)進行仿射子空間估計,代替原有的L2范數(shù)方法,然后通過計算仿射包距離,利用最近鄰分類器得到有效結(jié)果.
AHISD[2](Affine hull based image sets distance)將每個圖像集建模為仿射包,即用每個集中所有樣本構(gòu)成的最小仿射包來描述整個集.我們以Xsi表示圖像集s 中的第i 幅樣本圖像,其中Xci∈?d,即每幅樣本圖像經(jīng)過預(yù)處理為d 維列向量,i=1,…,ns,其中ns表示第s 個圖像集中共ns個樣本,s=1,…,S,其中S 表示共有S 個圖像集,那么包含第s個圖像集所有樣本的最小仿射包定義為
仿射包模型將集中樣本的所有仿射組合作為所在集的合理特征表示,跟其他約束性更強的模型(比如凸包等)相比,弱約束性使得仿射包表示可以更有效地應(yīng)對小樣本問題,對于不在原來集中出現(xiàn)的樣本,可以通過仿射組合得到并計算在內(nèi).
(1)式的約束條件可寫作1Tα=1,其中1是全1列向量,1T表示1的轉(zhuǎn)置矩陣,α 是元素為αsk的列向量.設(shè)有集中樣本的一個正交基U、樣本均值μ,對于任意α 滿足1Tα=1,對中心化后的樣本使用SVD 算法可得
由(2)式可得
取v=ΣVTα,可知對任意α 滿足1Tα=1,(1)式可寫為
由(2)式可得
于是,由(1)式定義的仿射包模型可以重寫為
其中:μs為圖像集s的均值;Us為圖像集仿射空間的一組正交基;vs是經(jīng)過正交投影之后l 維未知向量.Us的計算由基于L2范數(shù)估計的奇異值分解方法得到.
2個仿射包之間的距離[2](AD)定義為2個最近點之間的歐式距離,其中2個點分別位于2個不同的仿射包中.給定2個不相交的仿射包:AHi={Uivi+μi}和AHk={Ukvk+μk},兩者之間距離為
2個仿射包AD 的計算就是求得(5)式最優(yōu)解的過程,由于仿射包是凸集合,(5)式的運算是保凸運算,這樣一個凸優(yōu)化問題是能解出最優(yōu)解的,具體如下:
定義U≡(Ui,-Uk),U 是Ui和-Uk的拼接矩陣是vi,vk的拼接矩陣,(5)式可寫作
易知,(6)式是標準的最小二乘問題,其閉合最優(yōu)解為
將(7)式代入(6)式,可得
其中:I是單位矩陣;W=U(UTU)-1UT是2個仿射子空間聯(lián)合方向上的正交投影矩陣;(I-W)是向2個仿射子空間的正交補空間的投影矩陣.實際計算中,通過對拼接矩陣U 進行奇異值分解,求得U 的正交基Ub,則W=UbUTb,將W 代入(8)式即可求得2個仿射包之間的距離AD.
基于仿射包的圖像集識別方法是基于如下假設(shè):圖像集的每個樣本都是仿射特征空間的一個向量,對于特征空間的估計是其中最重要的一環(huán),對于一般情況,我們假設(shè)仿射特征空間是線性的,當然面對圖像集過弱等情況,可以考慮更復(fù)雜的非線性模型.
AHISD[2]使用SVD 算法進行子空間估計,對于已經(jīng)中心化的樣本集X,進行SVD 算法[7],得到
然后對Σ 按奇異值由大到小排列,取前l(fā)個奇異值使得該l 個奇異值之和與所有奇異值之和的比值大于我們設(shè)定的閾值t,l個奇異值對應(yīng)的左奇異向量即子空間的正交基.PCA 算法是對SVD 算法的封裝,可以用SVD 算法輕易實現(xiàn)PCA 算法,兩者本質(zhì)是相同的.使用SVD 算法估計子空間其實就是運用PCA 算法.
取U=(u1,…,ul)為主成分方向(即特征向量),V=(v1,…,vl)為主成分,PCA 算法還可以描述為
Frobenius范數(shù)定義為
式中:i=1,…,n,其中n表示集中的n 個樣本;j=1,…,d,其中d 表示每個樣本有d 維.
由(10)式可知,基于SVD 算法(或者PCA 算法)的子空間估計是以最小化誤差矩陣的Frobenius范數(shù)(L2范數(shù))為目的的,這種方法在樣本中沒有異常值數(shù)據(jù)時效果不錯,一旦存在異常樣本,L2范數(shù)對于異常值數(shù)據(jù)的敏感性使J 的誤差增大,導(dǎo)致對子空間的估計出現(xiàn)較大偏差,從而影響識別的效率.
鑒于Frobenius對異常值數(shù)據(jù)的敏感性,可以使用基于魯棒性更強的L1范數(shù)的方法.矩陣X 的L1范數(shù)定義為
L1范數(shù)方法雖然在一定程度上解決了異常值數(shù)據(jù)的問題,但是存在如下缺陷[4]:(1)計算復(fù)雜度高;(2)最優(yōu)解是否與協(xié)方差矩陣相關(guān)不明確;(3)在聚類算法中使用L1范數(shù)會引發(fā)問題.
為了解決在識別過程中的異常值數(shù)據(jù)問題,同時避免L1范數(shù)方法的不足,本文采用基于旋轉(zhuǎn)不變L1范數(shù)的R1-PCA 算法進行子空間估計.R1-PCA 算法不但對異常值數(shù)據(jù)具有魯棒性,同時可以運用子空間迭代算法有效求解,計算復(fù)雜度小于基于L1范數(shù)的方法.
R1范數(shù)即旋轉(zhuǎn)不變L1范數(shù)[7],是對L1范數(shù)的變形.在R1范數(shù)中,空間維度的距離是按照L2范數(shù)的二次形式計算的,但在不同點之間的求和是運用L1范數(shù)的一次形式.對于樣本集X,寫成矩陣形式為X=(Xji),其中j為指示空間維度(j=1,…,d),i為指示樣本(i=1,…,n).R1范數(shù)的定義為
對比(11)式和(12)式,不難看出,基于Frobenius范數(shù)(L2范數(shù))和L1范數(shù)的方法,將數(shù)據(jù)集的行i和列j 做相同的操作,但是i指示樣本、j指示空間維度和R1范數(shù)正是抓住了這細小的差別,從而在子空間估計中魯棒性更強.
令V=(v1,…,vl)∈Rl×n,(10)式標準的PCA 算法可以寫作如下向量形式
R1-PCA 算法可以記為
不失一般性,令U 為正交矩陣,解min‖Xi-Uvi‖2,得
故得
估計誤差si是樣本Xi到子空間的距離,R1-PCA 算法可簡化為
通過定義損失函數(shù)ρ(·),(18)式定義的R1-PCA 算法可以推廣為使用通用魯棒估計量的形式[7]
其中參數(shù)c為消去變量,通常選作si的中值,即c=median(si).
定義R1協(xié)方差矩陣為
對于使用ρH(s) 作為損失函數(shù)的R1-PCA 算法,權(quán)值定義為
易知,CR是標準協(xié)方差矩陣的加權(quán)形式,R1-PCA 算法的實質(zhì)便是減小異常值數(shù)據(jù)(到估計子空間距離較遠)的影響(對應(yīng)權(quán)值),從而獲得更準確地對異常值數(shù)據(jù)魯棒的估計子空間.可以證明[7],R1-PCA 算法(19)式的全局最優(yōu)解就是R1協(xié)方差矩陣CR(21)式的特征向量,即
寫成矩陣形式
(21)式中,U 即CR的特征向量矩陣,Λ 是對角線為特征值的對角矩陣.
由(21)和(22)式可知,R1協(xié)方差矩陣CR依賴于U,因此(24)式是一個非線性特征值問題,可以通過經(jīng)典的子空間迭代算法得到前l(fā)個最大特征值對應(yīng)的l個主成分子空間.
取U 的初值U(0)為標準協(xié)方差矩陣前l(fā)個最大特征值對應(yīng)的主成分特征向量,計算U(0)的R1協(xié)方差矩陣CR(U(0)),U 按照(26)和(27)式的方式更新為:
其中:t表示迭代次數(shù);orth(·)是正交化函數(shù),當?shù)鬂M足設(shè)定收斂條件即得到子空間基向量U.
下面給出R1-PCA 算法求解子空間的過程.
輸入:圖像集構(gòu)成的數(shù)據(jù)矩陣X,子空間維度k,收斂閾值t,迭代上限n.
初始化:計算標準PCA 算法(SVD 算法),得到U0.
計算
迭代過程:令U=U0,根據(jù)(28)和(29)式迭代更新U 直到滿足收斂條件或超過迭代次數(shù)上限n.
計算V=UTX.
輸 出:U,V.
因為U 最終收斂為特征向量矩陣,收斂條件設(shè)定為U(t+1)與U(t)對角線元素的誤差平方和,當其小于設(shè)定的值t時即收斂.
本文提出的對異常值數(shù)據(jù)具有魯棒性的圖像集人臉識別方法,記為R1-AHISD,具體過程如下:
(1)將已知身份的訓練人臉圖像集和待分類的測試圖像進行預(yù)處理,將圖像矩陣變形為列向量,將每個訓練圖像集和測試圖像集中的圖像向量分別合并為對應(yīng)的圖像集矩陣.
(2)對測試集和每個訓練集建模為仿射包,對圖像集矩陣進行R1-PCA 算法,分別得到估計子空間,進而得到仿射包表示.
(3)對測試仿射包和每一個訓練集仿射包計算仿射包距離AD.
(4)Min(AD)對應(yīng)的訓練集即為測試集的目標身份.
Honda/UCSD[8]視頻庫最早應(yīng)用于視頻人臉識別,本文采用Honda/UCSD 視頻庫進行實驗,該數(shù)據(jù)庫包含20個人的共59段視頻片段,每段視頻拍攝于不同的光照環(huán)境下,包含被拍攝者不同的動作、表情、姿態(tài).實驗選取其中每個人的一段視頻作為訓練集,剩余39 段視頻作為測試集,每段視頻有300~500幀圖像.
首先,實驗采用經(jīng)典的Viola-Jones人臉檢測算法[9]檢測得到視頻中盡可能多的人臉圖像,將檢測得到的人臉圖像縮放大小為20像素×20像素,然后對圖像進行直方圖均衡化以消除光照影響.將每段視頻預(yù)處理之后的人臉圖像作為此人的圖像集.圖1分別展示了Honda/UCSD 數(shù)據(jù)庫視頻中提取的原始幀圖像、對應(yīng)的人臉檢測之后的人臉圖像以及預(yù)處理之后的圖像.
圖1 Honda/UCSD數(shù)據(jù)庫樣本圖像
實驗分為2個部分,分別測試在無噪聲影響下的識別率以及在混有特定噪聲(離散圖像)的情況下的識別率,2個仿真實驗的結(jié)果都顯示本文提出的方法具有較高的識別率、穩(wěn)定性,同時對異常值數(shù)據(jù)具有魯棒性.
第一部分實驗為無噪聲實驗.由Viola-Jones算法[9]檢測得到的人臉圖像會有一些錯誤(包括不完整人臉、模糊人臉和非人臉等),將其中的錯誤圖像去除制成無噪聲圖像集,因為每段視頻檢測得到的圖像數(shù)不一,隨機選取無噪聲圖像集中的10,20,50,70和100作為圖像集,實驗將建立隨機圖像集的過程重復(fù)10次以求更精確的結(jié)果,分別測試基于圖像集的MSM 算法[4](公共子空間算法)、DCC算法[5](判別典型相關(guān)分析)、AHISD 算法[2]和本文提出的R1-AHISD 算法,最后將10次結(jié)果取平均值得到最終的識別率(如圖2所示).
由圖2可以看出,幾種方法的識別率都隨著圖像集中的圖像數(shù)的增多而提高,這是因為這幾種方法都是基于圖像集的人臉識別方法,這種方法需要圖像集中盡量包含更多的信息,當圖像集中的圖像取自不同光照、姿態(tài)和表情等條件下時,識別效果更好,這種基于圖像集的方法遠遠優(yōu)于單幅圖像人臉識別方法,基于單幅圖像的人臉識別方法在面對復(fù)雜的光照、姿態(tài)、表情等情況時往往識別率下降明顯.其次,本文提出的方法在識別率和穩(wěn)定性上都要好于原有方法,當集中樣本數(shù)達到100時,本文方法的識別率可以達到97.4%.
第二部分實驗為噪聲測試,實驗?zāi)康氖球炞C本文提出的方法對異常值數(shù)據(jù)(outliers)的魯棒性.在實際應(yīng)用中,由于攝像機(比如監(jiān)控攝像機)條件的限制,得到的視頻往往包含噪聲,導(dǎo)致人臉檢測程序得到意外的結(jié)果.這些噪聲主要包括由于遮擋或視角受限導(dǎo)致的人臉不全,動作過快導(dǎo)致的圖像模糊以及人臉檢測得到的錯誤圖像等.因此本文噪聲實驗立足實際,選取人臉檢測過程中出現(xiàn)的錯誤圖像作為噪聲,圖3展示了部分噪聲圖像.隨機選取某個人1~5幅噪聲圖像,加入此人的圖像集得到噪聲圖像集,分別測試上述4種算法,同樣對10次隨機實驗識別率取平均值,表1和2分別為圖像集樣本數(shù)為50和100時的實驗結(jié)果.
圖2 在無噪聲圖像集上不同算法的識別率
圖3 噪聲圖像樣本
由表1和2可以看出,異常值數(shù)據(jù)對以子空間估計為基礎(chǔ)的圖像集識別算法的影響是很明顯的,實驗中采用的4種算法都不同程度受到影響,這是由算法的原理導(dǎo)致的.基于幾何的方法容易受到異常值數(shù)據(jù)的影響,對于偏離子空間距離較大的點會使子空間估計出現(xiàn)嚴重偏差,從而使識別率下降.由表1和2可知,MSM 算法、DCC 算法和原有的AHISD 算法在異常值數(shù)據(jù)的影響下,識別率下降都超過10%,本文提出的R1-AHISD方法下降并不明顯.
表1 樣本數(shù)為50的噪聲集上不同算法的識別率 %
表2 樣本數(shù)為100的噪聲集上不同算法的識別率 %
綜合上述實驗結(jié)果,本文方法在識別率和穩(wěn)定性方面都比原有方法有所提高,對異常值數(shù)據(jù)的魯棒性也更強.
提出了一種對異常值數(shù)據(jù)具有強魯棒性的基于仿射包模型的圖像集人臉識別算法.以R1-PCA 算法進行子空間估計,通過計算定義的仿射包距離,運用最近鄰分類器得到分類識別結(jié)果.在Honda/UCSD 視頻庫上的仿真實驗驗證了本文方法的有效性和穩(wěn)定性.
[1]TURK M A,PENTLAND A P.Face recognition using eigenfaces[C].Conference on Computer Vision and Pattern recognition.US:IEEE,1991:586-591.
[2]CEVIKALP H,TRIGGS B.Face recognition based on image sets[C].Conference on Computer Vision and Pattern Recognition.San Francisco,US:IEEE,2010:2567-2573.
[3]HU Y,MIAN A S,OWENS R.Sparse approximated nearest points for image set classification[C].Conference on Computer Vision and Pattern Recognition.Providence,US:IEEE,2011:121-128.
[4]YAMAGUCHI O,F(xiàn)UKUI K,MAEDA K.Face recognition using temporal image sequence[C].IEEE International Conference on Automatic Face and Gesture Recognition Proceedings.Nara:IEEE,1998:318-323.
[5]KIM T,KITTLER J,CIPOLLA R.Discriminative learning and recognition of image set classes using canonical correlations[J].TPAMI,2007:29(6):1005-1018.
[6]WANG R,CHEN X.Manifold discriminant analysis[C].Conference on Computer Vision and Pattern Recognition.Miami,US:IEEE,2009:429-436.
[7]DING C,ZHOU D,HE X,et al.R1-PCA:rotational invariant L1-norm principal component analysis for robust subspace factorization[C].International Conference on Machine Learning Proceedings,Pittsburgh,US:IEEE,2006:281-288.
[8]LEE K-C,HO J,YANG M-H,et al.Video-based face recognition using probabilistic appearance manifolds[C].Conference on Computer Vision and Pattern Recognition,Proceedings.New York,US:IEEE,2003:1-313.
[9]VIOLA P,JONES M.Robust real-time face detection[J].International Journal of Computer Vision,2004,57:137-154.