李 行
(廣西教育學(xué)院數(shù)計系,廣西南寧 530023)
人臉圖像通常是高維度的,這會導(dǎo)致存儲空間大并且增加了計算量[1],同時降低了人臉識別的判別性[2]。因此,學(xué)者們提出了許多降維(Dimensionality Reduction,DR)技術(shù)來降低人臉圖像的維度和加強(qiáng)判別特征,這些方法很容易使用,但是,用于解決表情和姿勢改變問題時并不是很高效,當(dāng)訓(xùn)練樣本不充足時,這些方法學(xué)習(xí)到的子空間將會有偏差[3]。
人臉識別(Face Recognition,F(xiàn)R)的子空間方法中,通常使用最近鄰(Nearest Neighbor,NN)分類器[3]和 SVM 進(jìn)行分類[4]。最近提出了一種新的人臉分類方案,基于分類的稀疏表示(Sparse Representation Coding,SRC)[5]。SRC分類器顯示出非常有競爭性的性能,但是當(dāng)每類的訓(xùn)練樣本不充足時,它的性能會下降。前人已經(jīng)開展了許多工作來調(diào)查SRC中的降維問題,例如文獻(xiàn)[6]為SRC中的降維問題提出了一種無監(jiān)督的學(xué)習(xí)方法,相對于PCA和隨機(jī)投影實現(xiàn)了更高的識別率,也因此驗證了一個設(shè)計良好的降維方法可能有益于稀疏分類方案。文獻(xiàn)[7]中提出了一種元臉學(xué)習(xí)(MFL)算法來表示訓(xùn)練樣本,它通過學(xué)習(xí)每個類獲得一系列“元臉”?;诮?jīng)典KSVD算法[8],文獻(xiàn)[9]介紹了一種DKSV算法對查詢圖像編碼,它利用編碼系數(shù)進(jìn)行分類工作。文獻(xiàn)[10]提出了一種監(jiān)督式算法對圖像分類任務(wù)來學(xué)習(xí)一個字典和一個分類器。文獻(xiàn)[11]提出了一種類獨(dú)立監(jiān)督式同步正交匹配追捕方案,它解決了當(dāng)類內(nèi)維度增加時的字典學(xué)習(xí)問題。最近,文獻(xiàn)[12]提出了一種Fisher判別字典學(xué)習(xí)(Dictionary Learning,DL)算法來解決基于模式分類的稀疏表示,它相對于其他基于模式分類方案的字典學(xué)習(xí)顯示出了具有競爭力的性能。
上述文獻(xiàn)表明,聯(lián)合DR和DL過程可以實現(xiàn)更高效的識別。因此,本文提出了基于判別降維的字典學(xué)習(xí)(DDR-DL)方法來利用訓(xùn)練樣本中高效、魯棒的判別信息,使來自不同類的人臉圖像的特征可以通過一個子空間中的字典高效地分開。實驗結(jié)果表明了所提算法的有效性及高效性。
為了更高效地利用訓(xùn)練集A中的判別信息,本文提出了學(xué)習(xí)DR矩陣P和字典D,這樣可以實現(xiàn)一個更精確的分類。對于投影矩陣P,本文期望它可以保存A的能量同時使不同的類Ai在由P定義的子空間中可分割。為此,本文提出了一種正交投影矩陣,它可以同時最大化A的總散射和A的類間散射。對于字典D,期望它能夠如實地表示降維數(shù)據(jù)集PA,同時使來自相同類的樣本更靠近由跨越D空間中的其他樣本?;谝陨峡紤],本文提出了聯(lián)合判別式降維和字典學(xué)習(xí)(DDR-DL)模型來最優(yōu)化P和D,即
式中:Dk是類k的子字典,D=[D1,D2,…,DK]產(chǎn)生了全部字典;Λk表示Dk上PAk的編碼系數(shù)矩陣;At表示集中訓(xùn)練集,如At=A-M,M的每一列表示A中所有樣本的平均向量m;Ab是A的特定類的集中數(shù)據(jù)集,如Ab=[M1-M,…,MK-M],MK的每列是Ak中樣本的平均向量mk;Γk是一個矩陣,它的每列表示Λk中每列的平均值;λ1,λ2,γ1和 γ2是正標(biāo)量。字典 Dk的每個原子dk,j要求有單位規(guī)范。
式(1)中的DDR-DL模型,目標(biāo)投影P和字典D會使得訓(xùn)練樣本大于類間的距離,小于類間的變化。理想地,如果P和D可以得到較好的優(yōu)化,可以獲得查詢樣本y更準(zhǔn)確的分類。接下來討論如何做到式(1)的最小化。
式(1)中的DDR-DL目標(biāo)函數(shù)是非凸的。本文使用一個兩級選擇性方向方法來解決,將全部最優(yōu)化分割為兩個子問題;固定投影矩陣P,解決字典D和系數(shù)Λ;固定D和Λ來更新P。選擇性和迭代地解決這兩個子問題,然后在一個較優(yōu)點停止以得到P和D的局部最優(yōu)方案。因為算法僅可以得到一個局部最優(yōu)解,不同的P和D的初始化會導(dǎo)致不同的最終解。本文的算法使用PCA來初始化P,利用原始訓(xùn)練集來初始化D。如果隨機(jī)地初始化D,可以實現(xiàn)相同的分類率,盡管已解決的D對于不同的初始化是不同的。后面將展示全局最優(yōu)化算法。具體步驟為:
1)初始化P。利用PCA來初始化P,也就是說,初始P訓(xùn)練數(shù)據(jù)A的PCA轉(zhuǎn)換矩陣。
2)固定P,解決D和Λ。這種情況下,式(1)中的目標(biāo)函數(shù)變?yōu)?/p>
顯然,上面的目標(biāo)函數(shù)可以分割為K個子問題,可以單獨(dú)最優(yōu)化每組{Dk,Λk}為
Dk和Λk同樣是選擇性和迭代地得到解決。為了使最優(yōu)化更簡單,本文初始化Dk為0,在接下來的迭代中Γk可以計算為更新系數(shù)矩陣Λk的列平均矩陣。因此,Γk可以看作是每次迭代中的一個最優(yōu)化Dk和Λk的已知常數(shù)矩陣。
從Dk的一些初始化中(例如隨機(jī)初始化)可以計算編碼系數(shù)Λk。在每次迭代中,一旦給定Dk,便可容易地得到Λk的易于分析的解
當(dāng)獲得Λk時,字典Dk接著可以得到更新[6]。
經(jīng)過若干次迭代后,可以獲得所有的Dk和Λk,因此可以獲得全部字典D和關(guān)聯(lián)系數(shù)矩陣Λ。
3)固定D和Λ,更新P。定義X=DΛ,式(1)中的目標(biāo)函數(shù)可以表示為
上面的子目標(biāo)函數(shù)JP是自身非凸的,它將有一個局部最小值,首先,因為PPT=I,將有
為了解決上面在目前迭代h的最小化問題,本文使用φ(P(h-1))接近式(7)中的φ(P),其中P(h-1)是迭代h-1次獲得的投影矩陣。通過使用特征值分解(EVD)技術(shù),得到
式中:Σ 是(φ(P(h-1))-γ1St-γ2Sb)的特征值形成的對角矩陣。然后可以將更新的P作為U中最重要的l個特征向量,例如,定義P(h)=U(1:l,:)。但是,這樣P的更新將會很大,使得式(1)中的整個系統(tǒng)的優(yōu)化不穩(wěn)定。因此,本文選擇在每次更新中逐步更新P,定義
式中:c是一個小的正數(shù)來控制迭代中P的變化。
4)停止迭代。如果到達(dá)最大迭代數(shù),或者鄰近迭代目標(biāo)函數(shù)JP,{Dk,Λk}之間的差別小于一個預(yù)設(shè)值ε,然后停止并輸出P和D。否則回到步驟2)。
式(1)中提出的DDR-DL模型對于未知變量是聯(lián)合非凸的,因此1.2節(jié)中提出的最優(yōu)化算法可以至多到達(dá)一個局部最小值。在步驟2)中,當(dāng)另一個是固定時,子問題對于每個{Dk,Λk}是凸的,該算法將會使該問題產(chǎn)生一個局部最小值。但是,在步驟3)中,式(6)對于式(4)中的原始子問題是一個近似化描述,因此獲得的解僅是子問題中的局部最小值的一個近似。總之,本文算法的收斂不能得到保證,但是根據(jù)經(jīng)驗可以得到一個穩(wěn)定解。
使用AR數(shù)據(jù)庫和MPIE數(shù)據(jù)庫作為例子來說明DDR-DL的最優(yōu)化過程。人臉圖像的維度降至300,在兩個數(shù)據(jù)庫中,目標(biāo)函數(shù)JP,{Dk,Λk}對迭代次數(shù)的曲線分別在在圖1a和圖1b中描述,其中,參數(shù)值為λ1=λ2=0.005,γ1=10,γ2=1 。
圖1 DDR-DL算法在AR和MPIE數(shù)據(jù)庫中的收斂曲線
從圖1可以看出,經(jīng)過若干次迭代(如6次迭代),目標(biāo)函數(shù)的值會變得穩(wěn)定,它僅在小范圍內(nèi)變動。通常,迭代會在15次之內(nèi)停止。實驗結(jié)果同樣表明停止多或少的迭代的最小化,得到的投影P和字典D將會產(chǎn)生幾乎相同的FR率。這說明盡管提出的DDR-DL算法不能產(chǎn)生理想的收斂,它對迭代次數(shù)并不敏感,實驗設(shè)置最大迭代次數(shù)為15,表現(xiàn)效果良好。
得到投影矩陣P后,查詢樣本y可以通過Py投影到一個更低維度空間中,然后更低維度特征Py可以在字典D上編碼。這里采用帶有編碼用的l2—基準(zhǔn)規(guī)則化的聯(lián)合表示模型
當(dāng)計算得到編碼向量,可以基于每類的重構(gòu)剩余來實施分類,像 SRC[6]或 CRC[10]中那樣。但是,在提出的DDR-DL算法中,每個類的編碼向量Λk的平均值同樣可以通過學(xué)習(xí)得到,可以表示為uk,和uk之間的距離對于分類同樣有幫助,因此,本文采用文獻(xiàn)[3]中的分類器來進(jìn)行最后的分類工作
式中:ω是平衡2個項的常數(shù)。最終的分類是利用identity(y)=arg mink{ek}實施的。
所有的實驗均在4 Gbyte內(nèi)存Intel(R)Core(TM)2.93 GHz Windows XP機(jī)器上完成,編程環(huán)境為MATLAB 7.0。
實驗利用AR和MPIE兩大通用人臉識別數(shù)據(jù)庫來驗證提出的DDR-DL算法的性能,并與SRC框架下的字典學(xué)習(xí)和/或降維方法的表示算法進(jìn)行比較,包括DRSRC[6],MFL - SRC[6],PCA+SRC[7],PCA+CRC[8],F(xiàn)DDL[9],LDA+SRC[10],LDA+CRC[11]方法,每個數(shù)據(jù)庫中,首先測試這些比較方法對于訓(xùn)練樣本數(shù)量的魯棒性,然后顯示特征取不同維度時的結(jié)果。
式(1)中的 DDR -DL 模型中有 4 個參數(shù) λ1,λ2,γ1,γ2。這4個參數(shù)都有非常清楚的物理含義,它們可以只帶這些參數(shù)的設(shè)置。(λ1,λ2)是用來更新投影矩陣P和編碼系數(shù)Λk,(γ1,γ2)是用來更新降維中的投影矩陣。因此在參數(shù)選擇中,可以決定 (λ1,λ2),然后確定 (γ1,γ2)。從式(3)可以看出λ1和λ2的設(shè)置可以同時規(guī)則化編碼系數(shù)Λk并通過最小化Λk的類間散射介紹判別性。因為Dk的每個原子(如列向量)有一個單元l2—基準(zhǔn),可以基于實驗經(jīng)驗設(shè)置λ1=λ2=0.005。
參數(shù)γ1,γ2的設(shè)置和降維投影矩陣P的學(xué)習(xí)有關(guān)。它們相對于λ1,λ2應(yīng)該設(shè)置得更大一些,因為如果僅有式(1)中的3項工作時會得到不重要的解(如P≈Null(A),也就是PA≈0),設(shè)置γ1=10,γ2=1 ,主要用來最大化訓(xùn)練樣本的總散射,同時介紹一些類間的判別。在測試階段,通過經(jīng)驗設(shè)置所有實驗中的標(biāo)量λ(參考式(10))為0.001 和 ω (參照式(11))為0.01。
AR數(shù)據(jù)庫由來自126人的超過4 000張正面圖像,對于每個人,提取26張來自2個單獨(dú)部分的圖像,圖2所示為AR人臉庫的樣本示例。
圖2 AR數(shù)據(jù)庫的樣本示例
實驗使用包含50位男性和50位女性的6種光照和8種表情變化的數(shù)據(jù)集,從每個對象中隨機(jī)選取2~7個樣本進(jìn)行訓(xùn)練,其他樣本用來作為查詢樣本,將所有的樣本投影到一個550維子空間中(將LDA+SRC和LDA+CRC方案中的樣本投影到一個99維子空間中)。重復(fù)實驗50次來計算平均識別率和相應(yīng)的標(biāo)準(zhǔn)偏差。對比方法的FR率在表1中顯示。
表1 在AR數(shù)據(jù)庫上不同數(shù)量訓(xùn)練樣本的識別率
從表1可以看出,當(dāng)每類的訓(xùn)練樣本不是很小時,如每個類7個樣本,所有方法的識別率下降,特別是LDA+SRC和LDA+CRC。這主要是由于LDA對訓(xùn)練樣本數(shù)敏感。提出的DDR-DL在所有方法中實現(xiàn)了最高的FR率。特別地,它對于小的樣本問題不敏感。當(dāng)每類的訓(xùn)練樣本數(shù)相對較高例如每類6或7個樣本,DDR-DL的識別率和FDDL十分相近,但是,當(dāng)訓(xùn)練樣本數(shù)相對較低時例如每類2~5個樣本,DDR-DL和其他方法的差距將會變大。總之,DDR-DL的性能是很穩(wěn)定的。
接著評估不同維度下的DDR-DL的性能。從每個對象中隨機(jī)選擇4個樣本進(jìn)行訓(xùn)練,所有剩下的圖像作為查詢圖像,各種方法的不同特征維度的識別率如表2所示。
表2 在AR數(shù)據(jù)庫中不同特征維度的識別率
從表2可以看出,DDR-DL在平均值上優(yōu)于其他方法,當(dāng)維度相對較低時,例如350,所有的方法(除了LDA+SRC和LDA+CRC)有相似的結(jié)果。隨著特征維度的升高,例如超過450,本文的DDR-DL相對于其他方法表現(xiàn)出了明顯的提高。
卡內(nèi)基梅隆大學(xué)(Carnegie Mellon University,CMU)的多重PIE數(shù)據(jù)庫(MPIE)包含4個部分的337個不同對象的人臉圖像,同時涵蓋了表情、光照的變化,實驗選用第一部分的所有249個對象的人臉圖像,圖3所示為MPIE人臉庫的樣本示例。
圖3 MPIE數(shù)據(jù)庫的樣本示例
實驗從MPIE人臉庫的每個對象中隨機(jī)選擇2~7個樣本作為訓(xùn)練集,其他的圖像作為查詢集,并投影到一個550維的子空間中(方案LDA+SRC和LDA+CRC投影到248維的子空間中)。同樣,所有的實驗重復(fù)50次來計算FR率的平均值和標(biāo)準(zhǔn)偏差。表3顯示了不同方法的結(jié)果。
從表3可以總結(jié)出與AR數(shù)據(jù)庫相似的結(jié)論,即提出的DDR-DL方法實現(xiàn)了最高的識別率,當(dāng)訓(xùn)練樣本數(shù)不是很充足的時候,相對于其他方法,所提方法的識別效果更佳。
表3 在MPIE數(shù)據(jù)庫上不同數(shù)量訓(xùn)練樣本的識別率
表4列出了對比方法在不同維度特征上的識別率。隨機(jī)取4張人臉圖像用于訓(xùn)練,剩下的所有圖像用于測試,同樣重復(fù)執(zhí)行50次。
表4 在MPIE數(shù)據(jù)庫中不同特征維度的識別率
從表4可以得出,與在AR數(shù)據(jù)庫中觀察的結(jié)果相似,隨著維度的增加,相比于其他方法,本文提出的DDRDL方法有明顯改善,同時,LDA+SRC和LDA+CRC在MPIE上有較好的性能,因為所使用的MPIE是含有249個不同類別的大型數(shù)據(jù)庫,它允許LDA利用足夠多的投影來對查詢樣本進(jìn)行分類。
為了更好地體現(xiàn)所提方法的優(yōu)越性,這里分析了所提方法的計算復(fù)雜度,包括訓(xùn)練時間復(fù)雜度、測試時間復(fù)雜度及空間復(fù)雜度,并與其他線性方法進(jìn)行了比較,比較結(jié)果如表5所示,其中,m,n分別表示圖像矩陣的行數(shù)和列數(shù),L,M,N分別表示投影向量數(shù)、測試樣本數(shù)、訓(xùn)練樣本數(shù)。
表5 各個方法的時間復(fù)雜度比較
從表5可以看出,所提方法在訓(xùn)練階段的時間復(fù)雜度稍高,但是與LDA+CRC、LDA+SRC方法相比還是有明顯的優(yōu)勢,測試階段的時間復(fù)雜度、空間復(fù)雜度都不比其他方法遜色,甚至比LDA+CRC方法低得多。
綜上可知,所提方法與 DR-SRC[6],MFL-SRC[6],PCA+SRC[7],PCA+CRC[8],F(xiàn)DDL[9],LDA+SRC[10],LDA+CRC[11]方法相比,雖然在復(fù)雜度方面沒有很大的改善,但是在識別率方面有了很大的提高。
本文提出了人臉識別中一種基于判別性降維的字典學(xué)習(xí)(DDR-DL)方法,與很多注意力集中在字典學(xué)習(xí)(DL)或使用PCA和LDA進(jìn)行降維(DR)的方法不同,DDR-DL通過將它們耦合進(jìn)行統(tǒng)一的框架來最小化功率,兼顧了DR和DL處理的相互作用。實驗結(jié)果表明,提出的DDR-DL方法優(yōu)于其他幾種先進(jìn)的人臉識別方法。
未來會改變不同的初始參數(shù)設(shè)置,探索更多的參數(shù)變化對方法性能的影響,并結(jié)合其他的基礎(chǔ)方法,在提高人臉識別率的同時,注重改善識別的效率,以適應(yīng)現(xiàn)實生活中的實時交互。
:
[1]孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學(xué)報,2008,19(1):48-61.
[2]WRIGHT J,YANG A Y,GANESH A,et al.Robust face recognition via sparse representation[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2009,31(2):210-227.
[3]楊關(guān),馮國燦,陳偉福,等.紋理分析中的圖模型[J].中國圖象圖形學(xué)報,2011,16(10):1818-1825.
[4]HAFIZ F,SHAFIE A A,MUSTAFAH Y M.Face recognition from single sample per person by learning of generic discriminant vectors[J].Procedia Engineering,2012,45(2):465-472.
[5]喬立山,陳松燦,王敏.基于相關(guān)向量機(jī)的圖像閾值技術(shù)[J].計算機(jī)研究與發(fā)展,2010,47(8):1329-1337.
[6]GUANG N,TAO D,LUO Z,et al.Online nonnegative matrix factorization with robust stochastic approximation[J].IEEE Trans.Neural Networks and Learning Systems,2012,23(7):1087-1099.
[7]王佳奕,葛玉榮.基于Contourlet及支持向量機(jī)的紋理識別方法[J].計算機(jī)應(yīng)用,2013,33(3):677-679.
[8]WRIGHT J,YANG A Y,GANESH A,et al.Robust face recognition via sparse representation[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2009,31(2):210-227.
[9]ZHANG Z,WANG J,ZHA H.Adaptive manifold learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(1):131-137.
[10]HE R,HU B G,YUAN X T.Robust discriminant analysis based on nonparametric maximum entropy[J].Advances in Machine Learning,2009,54(3):120-134.
[11]文喬龍,萬遂人,徐雙.Fisher準(zhǔn)則和正則化水平集方法分割噪聲圖像[J].計算機(jī)研究與發(fā)展,2012,49(6):1339-1347.
[12]ZHONG L W,KWOK J T.Efficient sparse modeling with automatic feature grouping[J].IEEE Transactions on Neural Networks and Learning Systems,2012,23(9):1436-1447.