李爭(zhēng)名,楊南粵,岑 健
(1.廣東技術(shù)師范學(xué)院 工業(yè)實(shí)訓(xùn)中心,廣州 510665; 2.哈爾濱工業(yè)大學(xué)深圳研究生院 生物計(jì)算研究中心,廣東 深圳 518055; 3.廣東技術(shù)師范學(xué)院 科研處,廣州 510665)
基于原子Fisher判別準(zhǔn)則約束字典學(xué)習(xí)算法
李爭(zhēng)名1,2*,楊南粵1,岑 健3
(1.廣東技術(shù)師范學(xué)院 工業(yè)實(shí)訓(xùn)中心,廣州 510665; 2.哈爾濱工業(yè)大學(xué)深圳研究生院 生物計(jì)算研究中心,廣東 深圳 518055; 3.廣東技術(shù)師范學(xué)院 科研處,廣州 510665)
(*通信作者電子郵箱gslzm@gpnu.edu.cn)
為了提高字典的判別性能,提出基于原子Fisher判別準(zhǔn)則約束的字典學(xué)習(xí)算法AFDDL。首先,利用特定類(lèi)字典學(xué)習(xí)算法為每個(gè)原子分配一個(gè)類(lèi)標(biāo),計(jì)算同類(lèi)原子和不同類(lèi)原子間的散度矩陣。然后,利用類(lèi)內(nèi)散度矩陣和類(lèi)間散度矩陣的跡的差作為判別式約束項(xiàng),促使不同類(lèi)原子間的差異最大化,并在最小化同類(lèi)原子間差異的同時(shí)減少原子間的自相關(guān)性,使得同類(lèi)原子盡可能地重構(gòu)某一類(lèi)樣本,提高字典的判別性能。在AR、FERET和LFW三個(gè)人臉數(shù)據(jù)庫(kù)和USPS手寫(xiě)字體數(shù)據(jù)庫(kù)中進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,在四個(gè)圖像數(shù)據(jù)庫(kù)中,所提算法在識(shí)別率和訓(xùn)練時(shí)間方面均優(yōu)于類(lèi)標(biāo)一致的K奇異值分解(LC-KSVD)算法、局部特征和類(lèi)標(biāo)嵌入約束的字典學(xué)習(xí)(LCLE-DL)算法、支持矢量指導(dǎo)的字典學(xué)習(xí)(SVGDL)算法和Fisher判別字典學(xué)習(xí)算法;且在四個(gè)數(shù)據(jù)庫(kù)中,該算法也比稀疏表示分類(lèi)(SRC)和協(xié)同表示分類(lèi)(CRC)取得更高的識(shí)別率。
字典學(xué)習(xí);Fisher判別準(zhǔn)則;原子特征;協(xié)作表示;圖像分類(lèi)
稀疏編碼利用一組“超完備”的基向量高效地表示樣本數(shù)據(jù),被廣泛的應(yīng)用于圖像處理、模式識(shí)別和計(jì)算機(jī)視覺(jué)等領(lǐng)域。字典學(xué)習(xí)是稀疏編碼的一個(gè)重要研究方向,其基本思想是從訓(xùn)練樣本中學(xué)習(xí)一組“超完備”的基向量,該組基向量通常稱為字典,每個(gè)基向量稱為一個(gè)原子。判別字典學(xué)習(xí)(Discriminative Dictionary Learning, DDL)是字典學(xué)習(xí)的一個(gè)重要研究分支,其核心問(wèn)題是如何設(shè)計(jì)判別式約束項(xiàng)提高字典的判別性能。由于訓(xùn)練樣本的類(lèi)標(biāo)特征在模式分類(lèi)中起到非常重要的作用,研究者提出許多基于訓(xùn)練樣本類(lèi)標(biāo)特征約束的判別字典學(xué)習(xí)算法[1-3]。典型的算法是Yang等[2]提出的Fisher判別字典學(xué)習(xí)(Fisher DDL, FDDL)算法。該算法根據(jù)同類(lèi)訓(xùn)練樣本對(duì)應(yīng)的編碼系數(shù)應(yīng)該比不同類(lèi)訓(xùn)練樣本對(duì)應(yīng)的編碼系數(shù)更相似,構(gòu)造基于編碼系數(shù)的Fisher準(zhǔn)則作為判別式約束項(xiàng),并根據(jù)不同類(lèi)原子對(duì)樣本的重構(gòu)性能構(gòu)造判別性保真度約束項(xiàng),提高了字典學(xué)習(xí)算法的分類(lèi)性能。隨后,Cai等[3]提出利用訓(xùn)練樣本類(lèi)標(biāo)構(gòu)造自適應(yīng)的編碼系數(shù)權(quán)重的支持矢量指導(dǎo)的字典學(xué)習(xí)(Support Vector Guided Dictionary Learning, SVGDL)算法,并認(rèn)為FDDL算法是SVGDL算法的一種特殊形式。上述算法目的都是促使同類(lèi)的訓(xùn)練樣本對(duì)應(yīng)的編碼系數(shù)盡可能地相似,提高判別字典學(xué)習(xí)算法的分類(lèi)性能。但是它們都忽略了同類(lèi)原子和不同類(lèi)原子間的關(guān)系,降低了字典的判別性能。
為了利用原子的特征,研究者利用特定類(lèi)字典學(xué)習(xí)算法為原子分配類(lèi)標(biāo),提出利用原子類(lèi)標(biāo)與其他特征構(gòu)造約束項(xiàng)的判別字典學(xué)習(xí)算法[4-6]。Jiang等[4]利用原子類(lèi)標(biāo)與編碼系數(shù)構(gòu)造類(lèi)標(biāo)一致的 K奇異值分解算法(Label Consistent K-means-based Singular Value Decomposition, LC-KSVD)算法提高編碼系數(shù)的判別性能。由于LC-KSVD算法僅僅考慮了原子類(lèi)標(biāo)特征,忽略了原子間的相似性特征,提高字典的判別性能有限。為此,Li等[5]利用原子的類(lèi)標(biāo)和局部特征構(gòu)造嵌入約束的字典學(xué)習(xí)(Locality Constrained and Label Embedding Dictionary Learning, LCLE-DL)算法。雖然LCLE-DL算法考慮了同類(lèi)原子間的相似性,但是忽略了不同類(lèi)原子間的差異,也可能影響字典的判別性能。
由于理想情況下同類(lèi)訓(xùn)練樣本應(yīng)該單獨(dú)由某些原子進(jìn)行重構(gòu),并且這些原子的類(lèi)標(biāo)與重構(gòu)的訓(xùn)練樣本一致[7]。因此,在字典學(xué)習(xí)算法中,應(yīng)該盡可能地增大不同類(lèi)原子間的差異,減少同類(lèi)原子間的自相關(guān)性。然而,上述字典學(xué)習(xí)算法并沒(méi)有利用該特征。為了利用原子間的相似性和自相關(guān)性特征,本文提出基于原子Fisher判別準(zhǔn)則約束的字典學(xué)習(xí)算法AFDDL(Fisher Discriminative Dictionary Learning of Atoms)。該算法利用同類(lèi)原子和不同類(lèi)原子的散度矩陣的跡的差作為判別式約束項(xiàng),增大不同類(lèi)原子間的差異并減少原子間的自相關(guān)性,增強(qiáng)字典的判別性能,提高字典學(xué)習(xí)算法的分類(lèi)性能。
根據(jù)文獻(xiàn)[4]可知,如果為字典中的每個(gè)原子分配一個(gè)類(lèi)標(biāo),并利用原子類(lèi)標(biāo)構(gòu)造判別式約束項(xiàng),可以提高字典的判別性能。利用特定類(lèi)字典學(xué)習(xí)算法,可把訓(xùn)練樣本的類(lèi)標(biāo)分配給對(duì)應(yīng)的原子。假設(shè):X=[x1,x2,…,xr]∈Rv×r是訓(xùn)練樣本集合;v是訓(xùn)練樣本的維數(shù);r是訓(xùn)練樣本的個(gè)數(shù);D=[d1,d2,…,dk]∈Rv×k是字典,di∈Rv是第i個(gè)原子;k是原子個(gè)數(shù);Y=[y1,y2,…,yr]∈Rk×r是編碼系數(shù)矩陣,yi=[y1i,y2i,…,yki]T∈Rk(1≤i≤r)是第i個(gè)訓(xùn)練樣本對(duì)應(yīng)于字典D的編碼系數(shù)。原子類(lèi)標(biāo)的分配方法如下:
1)針對(duì)第i類(lèi)訓(xùn)練樣本,利用K-SVD算法學(xué)習(xí)一個(gè)特定類(lèi)字典Di。因此,c類(lèi)訓(xùn)練樣本可以學(xué)習(xí)得到特定類(lèi)字典D=[D1,D2,…,Di,…,Dc],字典D包含c類(lèi)原子。
2)由于字典Di是利用第i類(lèi)訓(xùn)練樣本學(xué)習(xí)得到,如果原子di∈Di,則原子di的類(lèi)標(biāo)可定義為hi=[0,0,…,0,1,0,…,0]∈Rc(1≤i≤c),hi中的第i個(gè)元素為1,其余c-1個(gè)元素均為零。因此,字典D中的原子類(lèi)標(biāo)矩陣H可以定義為H=[h1,h2,…,hk]T∈Rk×c。
一旦獲得原子類(lèi)標(biāo),可以計(jì)算原子的類(lèi)內(nèi)散度矩陣SW(D)和類(lèi)間散度矩陣SB(D)。
(1)
(2)
其中:Di表示第i類(lèi)原子;mi表示第i類(lèi)原子的均值矢量;ni表示第i類(lèi)原子的數(shù)目;m是所有原子的均值矢量;c是原子的類(lèi)數(shù)。在字典學(xué)習(xí)中,原子個(gè)數(shù)的選擇有很多種方式。根據(jù)文獻(xiàn)[4],假設(shè)字典中的原子個(gè)數(shù)等于訓(xùn)練樣本個(gè)數(shù),且每類(lèi)原子個(gè)數(shù)都為f,則字典中原子個(gè)數(shù)k=c×f。
因此,式(1)可以轉(zhuǎn)換為式(3):
(3)
式(3)中的第i類(lèi)原子對(duì)應(yīng)的散度矩陣計(jì)算如式(4):
(d(i-1)f+1-mi)(d(i-1)f+1-mi)T+(d(i-1)f+2-mi)(d(i-1)f+2-mi)T+…+(dif-mi)(dif-mi)T=d(i-1)f+1(d(i-1)f+1)T+d(i-1)f+2(d(i-1)f+2)T+…+dif(dif)T+fmi(mi)T-2(d(i-1)f+1(mi)T+d(i-1)f+2(mi)T+…+dif(mi)T)
(4)
把式(4)代入式(3),類(lèi)內(nèi)散度矩陣SW(D)可以利用式(5)計(jì)算:
(5)
由于mi是第i類(lèi)原子的均值矢量,即mi=(d(i-1)f+1+d(i-1)f+2+…+dif)/f,因此式(5)可以轉(zhuǎn)換為式(6):
(6)
另外,原子的類(lèi)間散度矩陣計(jì)算式(2)可以轉(zhuǎn)換為式(7):
(7)
(8)
為了提高編碼系數(shù)的判別性,文獻(xiàn)[2]提出最小化編碼系數(shù)的類(lèi)內(nèi)散度矩陣和類(lèi)間散度矩陣的跡的差作為判別式約束項(xiàng)。為了增強(qiáng)原子的判別性能,使得不同類(lèi)原子間的差異最大化和同類(lèi)原子間的差異最小化,設(shè)計(jì)的原子Fisher判別準(zhǔn)則如式(9)。
min(Tr(SW(D))-Tr(SB(D)))
(9)
其中: Tr(·)表示矩陣的跡。式(9)最小化同類(lèi)原子類(lèi)內(nèi)散度矩陣和最大化不同類(lèi)原子的類(lèi)間散度矩陣。
根據(jù)式(6)和式(8),式(9)轉(zhuǎn)換為式(10)。
(10)
令A(yù)為元素均為1的k階方陣,P也為k階方陣,且矩陣P=VVT/f,V=H(HTH)-1/2,式(10)可以轉(zhuǎn)換為式(11):
(11)
其中:U=I+A-2×P,I是單位矩陣。
2.1AFDDL算法的目標(biāo)函數(shù)
根據(jù)文獻(xiàn)[7],在判別字典學(xué)習(xí)算法中,對(duì)于不同類(lèi)的訓(xùn)練樣本,字典中的原子應(yīng)該具有不同的重構(gòu)性能,在理想情況下,一些原子應(yīng)該只重構(gòu)某一類(lèi)樣本。根據(jù)文獻(xiàn)[4],利用特定類(lèi)字典學(xué)習(xí)算法為每類(lèi)訓(xùn)練樣本學(xué)習(xí)一類(lèi)原子,在字典學(xué)習(xí)中促使該類(lèi)原子盡可能地重構(gòu)該類(lèi)樣本。因此,基于原子的Fisher判別準(zhǔn)則約束字典學(xué)習(xí)算法的目標(biāo)函數(shù)如式(12)。
s.t. ‖dj‖2≤1,j=1,2,…,k
(12)
雖然AFDDL算法和LC-KSVD算法都是利用特定類(lèi)字典學(xué)習(xí)算法為原子分配類(lèi)標(biāo)特征,并在此基礎(chǔ)上設(shè)計(jì)判別式約束項(xiàng)。但是LC-KSVD算法主要是利用訓(xùn)練樣本與原子類(lèi)標(biāo)的一致性構(gòu)造一個(gè)對(duì)角的矩陣,在此基礎(chǔ)上設(shè)計(jì)編碼分類(lèi)誤差項(xiàng),促使同類(lèi)的訓(xùn)練樣本對(duì)應(yīng)的編碼系數(shù)盡可能地相似,增強(qiáng)編碼系數(shù)的判別性能,提高字典學(xué)習(xí)算法的分類(lèi)性能。由于理想情況下,同類(lèi)原子應(yīng)該盡可能地重構(gòu)某一類(lèi)訓(xùn)練樣本。而LC-KSVD算法沒(méi)有考慮不同類(lèi)原子間的差異,降低了字典的判別性。AFDDL算法通過(guò)構(gòu)造原子的Fisher判別準(zhǔn)則,促使不同類(lèi)原子間的差異最大化以及同類(lèi)原子差異最小化,并減少原子間的自相關(guān)性,增強(qiáng)字典的判別性能,提高字典學(xué)習(xí)算法的分類(lèi)性能。雖然AFDDL算法和LCLE-DL算法都利用了原子的特性,AFDDL算法是在原子類(lèi)標(biāo)的基礎(chǔ)上利用原子的相似性特征,而LC-KSVD算法僅僅利用原子的類(lèi)標(biāo)特征。因此,AFDDL算法能在一定程度上解決了LC-KSVD算法存在的問(wèn)題。
此外,AFDDL算法和FDDL算法都利用了Fisher判別準(zhǔn)則。FDDL算法主要是最小化同類(lèi)訓(xùn)練樣本對(duì)應(yīng)編碼系數(shù)的散度矩陣和最大化不同類(lèi)訓(xùn)練樣本對(duì)應(yīng)編碼系數(shù)的散度矩陣,增強(qiáng)編碼系數(shù)矩陣的判別性能。雖然,F(xiàn)DDL算法還利用了同類(lèi)原子的重構(gòu)性能設(shè)計(jì)判別式約束想,由于其忽略了不同類(lèi)原子間的差異,可能導(dǎo)致學(xué)習(xí)得到的字典具有一定的冗余性。而AFDDL算法通過(guò)利用原子的Fisher判別準(zhǔn)則也能夠在一定程度上解決了FDDL算法存在的問(wèn)題。
2.2AFDDL算法的求解
由于AFDDL算法的目標(biāo)函數(shù)可以采取交替約束直接求導(dǎo)的方法進(jìn)行求解,利用K-SVD算法初始化字典D和編碼系數(shù)矩陣Y,然后不斷地更新目標(biāo)函數(shù)直到算法收斂。
2.2.1 字典D的求解
假設(shè)式(12)中的編碼系數(shù)矩陣Y是常量,AFDDL算法的目標(biāo)函數(shù)可以轉(zhuǎn)換為式(13):
(13)
s.t. ‖di‖2≤1,i=1,2,…,k
根據(jù)文獻(xiàn)[8],利用拉格朗日函數(shù)對(duì)式(13)進(jìn)行求解可得到式(14):
(14)
其中:w=[w1,w2,…,wi,…,wk](i∈[1,2,…,k]),wi是第i個(gè)等式約束(‖di‖2≤1)的拉格朗日乘子。假設(shè)k階對(duì)角方陣為Λ∈Rk×k, 對(duì)角元素Λii=wi,式(14)可以轉(zhuǎn)換為式(15):
(15)
為了獲得最優(yōu)字典D,對(duì)式(15)求一階導(dǎo)數(shù)并令其等于零可得式(16):
D*=XYT(YYT+αU+Λ)-1
(16)
為了減少計(jì)算復(fù)雜度,利用式(17)獲得最優(yōu)字典D*:
D*=XYT(YYT+αU+γI)-1
(17)
其中:γ是參數(shù),I是單位矩陣。利用式(17)計(jì)算字典,可能對(duì)算法性能的穩(wěn)定性產(chǎn)生一定的影響。因此,Λ的最優(yōu)求解方法見(jiàn)文獻(xiàn)[8]。
2.2.2 編碼系數(shù)矩陣Y的求解
假設(shè)AFDDL目標(biāo)函數(shù)中字典D是常量,則式(12)轉(zhuǎn)換為:
(18)
式(18)可以直接求導(dǎo)得到編碼系數(shù)矩陣Y。因此,對(duì)式(18)求導(dǎo)并令其為零,則可以得到:
-DTX+DTDY+βY=0
(19)
利用式(19)獲得最優(yōu)的編碼系數(shù)矩陣Y*:
Y*=(DTD+βI)-1DTX
(20)
2.2.3 分類(lèi)方法
由于AFDDL算法中原子具有類(lèi)標(biāo)信息,而且不同類(lèi)原子具有較大的差異,擬采用FDDL算法中的全局分類(lèi)方法為AFDDL算法的分類(lèi)方法。
(21)
其中:η是參數(shù);‖·‖1是L1范數(shù)約束。
(22)
其中:ω是參數(shù);qi是第i類(lèi)訓(xùn)練樣本對(duì)應(yīng)編碼系的均值矢量;ei是第i類(lèi)字典對(duì)測(cè)試樣本的重構(gòu)誤差,測(cè)試樣本x的類(lèi)標(biāo)分配到獲得最小誤差ei對(duì)應(yīng)的類(lèi)。
AFDDL算法的分類(lèi)過(guò)程如下:
1)
針對(duì)訓(xùn)練樣本中的第i類(lèi)樣本,利用K-SVD算法初始化特定類(lèi)字典Di和編碼系數(shù)矩陣Yi。
2)
獲得初始化字典D0=[D1,D2,…,Dc]和原子的類(lèi)標(biāo)矩陣H以及編碼系數(shù)矩陣Y0=[Y1,Y2,…,Yc]。
3)
利用矩陣H計(jì)算矩陣P,并構(gòu)造元素全為1的k階矩陣P。
4)
利用矩陣A和矩陣P,根據(jù)公式U=I+A-2×P計(jì)算U。
5)
Fori=1:t利用式(17)計(jì)算字典Di利用式(20)計(jì)算編碼系數(shù)矩陣Yi
End
6)
獲得最優(yōu)的字典D=Dt和編碼系數(shù)矩陣Y=Yt。
7)
針對(duì)測(cè)試樣本x,利用式(21)獲得表示系數(shù),并提取每類(lèi)原子對(duì)應(yīng)的表示系數(shù)。
8)
利用式(22)計(jì)算重構(gòu)誤差,測(cè)試樣本x的類(lèi)標(biāo)分配到最小誤差對(duì)應(yīng)的類(lèi)。
由于AFDDL算法是在原子類(lèi)標(biāo)的基礎(chǔ)上構(gòu)造的基于Fisher準(zhǔn)則的判別約束項(xiàng),而LC-KSVD、SVGDL和LCLE-DL算法都利用原子類(lèi)標(biāo)構(gòu)造約束項(xiàng),因此,把LC-KSVD、SVGDL和LCLE-DL算法作為對(duì)比算法。由于FDDL算法和AFDDL算法都利用了Fisher判別準(zhǔn)則,不同之處在于FDDL算法利用的是編碼系數(shù)的Fisher判別準(zhǔn)則而AFDDL利用的是原子的Fisher判別準(zhǔn)則。因此,把FDDL算法也作為AFDDL算法的對(duì)比算法。此外,在基于字典學(xué)習(xí)的模式分類(lèi)中,通常也把以訓(xùn)練樣本集合作為字典的稀疏表示分類(lèi)(SparseRepresentationbasedClassification,SRC)[9]和協(xié)同表示分類(lèi)(CollaborativeRepresentationbasedClassification,CRC)[10]算法作為對(duì)比算法。本章給出AFDDL算法和六個(gè)對(duì)比算法在AR[11]、LFW[12]和FERET[13]人臉數(shù)據(jù)庫(kù)以及USPS[8]手寫(xiě)字體數(shù)據(jù)庫(kù)中的實(shí)驗(yàn)結(jié)果。對(duì)于SRC算法,根據(jù)文獻(xiàn)[9], 利用l1_ls方法獲得測(cè)試樣本的表示系數(shù)。由于LC-KSVD2比LC-KSVD1取得更好的分類(lèi)性能,本文中的LC-KSVD算法的實(shí)驗(yàn)結(jié)果指的是LC-KSVD2算法。
在本文中所有實(shí)驗(yàn)中,AFDDL算法的參數(shù)為α=10-5、β=10-2和γ=10-2,最大迭代次數(shù)t=20。此外,參數(shù)ω和η與FDDL算法中的參數(shù)設(shè)置一樣,即ω=0.5和η=0.005。
3.1AR數(shù)據(jù)庫(kù)中的實(shí)驗(yàn)結(jié)果
AR數(shù)據(jù)庫(kù)中共有126個(gè)人,超過(guò)4 000幅彩色人臉圖像,這些圖像采集于兩個(gè)不同的階段,每幅圖像具有不同的表情、亮度和遮擋。根據(jù)文獻(xiàn)[14],選擇120個(gè)人作為子集合,圖像被調(diào)整為40×50像素大小的灰度圖像。在本文實(shí)驗(yàn)中,每類(lèi)第一階段的13幅圖像作為訓(xùn)練樣本,第二階段的13幅圖像作為測(cè)試樣本。字典大小為1 560,實(shí)驗(yàn)結(jié)果如表1所示。
表1 AR數(shù)據(jù)庫(kù)中不同算法的性能比較
從表1中可以看出,AFDDL算法比6個(gè)對(duì)比算法均取得更高的識(shí)別率。此外,LCLE-DL等4個(gè)字典學(xué)習(xí)算法也都比CRC和SRC算法取得更高的識(shí)別率。
圖1 顯示AR數(shù)據(jù)庫(kù)中的部分訓(xùn)練樣本和被誤分類(lèi)的樣本。從圖1中可以看出,被誤分類(lèi)的樣本的表情和姿態(tài)與訓(xùn)練樣本之間有較大的變化,表示利用原子的Fisher判別準(zhǔn)則存在著不能有效地提取同類(lèi)樣本的某些特征,導(dǎo)致部分樣本被誤分類(lèi)。
圖1 AR數(shù)據(jù)庫(kù)中部分樣本
3.2LFW數(shù)據(jù)庫(kù)中的實(shí)驗(yàn)結(jié)果
LFW數(shù)據(jù)庫(kù)共計(jì)有1 680個(gè)人的13 000幅來(lái)自于互聯(lián)網(wǎng)的人臉圖像。根據(jù)文獻(xiàn)[15],利用LFW數(shù)據(jù)的裁剪版本(LFWcrop)為實(shí)驗(yàn)所用數(shù)據(jù)集合。LFWcrop數(shù)據(jù)庫(kù)中的人臉圖像包括不對(duì)稱、尺度變化和平面外旋轉(zhuǎn)等真實(shí)情況。根據(jù)文獻(xiàn)[16],從LFWcrop數(shù)據(jù)庫(kù)中選擇每類(lèi)圖像個(gè)數(shù)為11~20的人臉圖像作為數(shù)據(jù)集合,則共有86人的1 215幅圖像,并把圖像調(diào)整為32×32像素大小。
在本文實(shí)驗(yàn)中,每人隨機(jī)選擇5幅圖像作為訓(xùn)練樣本,剩下的作為測(cè)試樣本。字典的大小為430。重復(fù)運(yùn)行AFDDL算法和6個(gè)對(duì)比算法10次,實(shí)驗(yàn)結(jié)果如表2所示。
表2 LFW數(shù)據(jù)庫(kù)中不同算法的性能比較
從表2中可以看出,AFDDL算法比6個(gè)對(duì)比算法均取得更高的識(shí)別率。但是,CRC算法比LC-KSVD,F(xiàn)DDL和SVGDL算法取得更高的識(shí)別率。而本文提出的AFDDL算法和LCLE-DL算法均比CRC取得更高的分類(lèi)性能。上述實(shí)驗(yàn)結(jié)果表明利用原子間的特征能夠有效地增強(qiáng)字典的判別性能。
圖2 顯示LFW數(shù)據(jù)庫(kù)中的部分訓(xùn)練樣本和被誤分類(lèi)的樣本。從圖2中可以看出,被誤分類(lèi)的樣本除了表情和姿態(tài)與訓(xùn)練樣本之間有較大的變化,還有頭發(fā)等因素導(dǎo)致提取的原子不能表示測(cè)試樣本間的變化。
圖2 LFW數(shù)據(jù)庫(kù)部分樣本
3.3FERET數(shù)據(jù)庫(kù)中的實(shí)驗(yàn)結(jié)果
FERET數(shù)據(jù)庫(kù)包含14 051幅多姿態(tài)和光照的人臉圖像。根據(jù)文獻(xiàn)[17],選擇FERET數(shù)據(jù)庫(kù)的一個(gè)子集合,包含200個(gè)人共計(jì)1 400幅圖像作為本實(shí)驗(yàn)所用數(shù)據(jù)集合,圖像的分辨率被調(diào)整為40×40像素大小。
從表3中可以看出:AFDDL算法比6個(gè)對(duì)比算法均取得更高的識(shí)別率;另外,F(xiàn)DDL算法比LCLE-DL、LC-KSVD和SVGDL算法獲得更高的識(shí)別率。上述結(jié)果表明利用原子或編碼系數(shù)構(gòu)造的Fisher判別準(zhǔn)則,能夠提高基于字典學(xué)習(xí)算法的分類(lèi)性能。
表3 FERET數(shù)據(jù)庫(kù)中不同算法的性能比較
圖3 顯示FERET數(shù)據(jù)庫(kù)中的部分訓(xùn)練樣本和被誤分類(lèi)的樣本。從圖3中可以看出,表情和姿態(tài)仍然是影響算法的性能的重要因素。
圖3 FERET數(shù)據(jù)庫(kù)部分樣本
3.4USPS數(shù)據(jù)庫(kù)中的實(shí)驗(yàn)結(jié)果
根據(jù)文獻(xiàn)[8],實(shí)驗(yàn)所用的USPS手寫(xiě)字體數(shù)據(jù)庫(kù)共包括9 298個(gè)手寫(xiě)數(shù)字圖像,每類(lèi)圖像數(shù)目從708~1 553不等,圖像被調(diào)整為16×16像素大小。在本文實(shí)驗(yàn)中,從每類(lèi)中固定選取前50個(gè)樣本作為訓(xùn)練樣本,剩余的作為測(cè)試樣本,實(shí)驗(yàn)結(jié)果如表4所示。
從表4中可以看出:AFDDL算法比6個(gè)對(duì)比算法均取得更高的識(shí)別率;另外,SRC算法比LCLE-DL和SVGDL算法獲得更高的識(shí)別率,與FDDL和LCLE-DL的識(shí)別率幾乎相等。主要原因可能是USPS數(shù)據(jù)庫(kù)中樣本的背景簡(jiǎn)單和差異較小,直接利用原始樣本的SRC算法也能夠較好地表示測(cè)試樣本。
表4 USPS 數(shù)據(jù)庫(kù)中不同算法的性能比較
圖4 顯示USPS數(shù)據(jù)庫(kù)中的部分訓(xùn)練樣本和被誤分類(lèi)的樣本。從圖4中可以看出,字體形狀的變化是影響算法的性能的重要因素。
3.5 實(shí)驗(yàn)結(jié)果分析
1)在四個(gè)數(shù)據(jù)庫(kù)中,AFDDL算法的識(shí)別率比LC-KSVD提高了4.5、5.8、6.5和4.3個(gè)百分點(diǎn),主要原因是LC-KSVD算法利用原子類(lèi)標(biāo)和編碼系數(shù)構(gòu)造編碼分類(lèi)誤差項(xiàng),促使同類(lèi)的訓(xùn)練樣本對(duì)應(yīng)的編碼系數(shù)盡可能地相似,增強(qiáng)編碼系數(shù)的判別性能,但是其忽略了不同類(lèi)原子間的差異。而AFDDL算法構(gòu)造原子的Fisher判別約束項(xiàng)促使不同類(lèi)原子間的差異最大化以及同類(lèi)原子差異最小化,并減少原子間的自相關(guān)性,增強(qiáng)字典的判別性能,能夠克服LC-KSVD算法存在的缺陷。
圖4 USPS數(shù)據(jù)庫(kù)部分樣本
2)表1~4表明AFDDL算法的識(shí)別率分別比FDDL算法提高了2.9、3.9、1.1和2.5個(gè)百分點(diǎn)。FDDL算法利用編碼系數(shù)的Fisher判別準(zhǔn)則,促使同類(lèi)訓(xùn)練樣本對(duì)應(yīng)的編碼系數(shù)盡可能地相似,并結(jié)合原子的重構(gòu)特征提高字典的判別性能,但是其忽略了原子間的自相關(guān)性特征及不同類(lèi)原子間的差異。AFDDL算法利用原子的Fisher判別準(zhǔn)則,不僅能夠最大化不同類(lèi)原子間的差異,而且能夠在最小化同類(lèi)原子間差異的同時(shí)最小化原子間的自相關(guān)性,促使同類(lèi)的原子盡可能地重構(gòu)同類(lèi)訓(xùn)練樣本,增強(qiáng)字典的判別性能。雖然,F(xiàn)DDL算法和AFDDL算法都利用了Fisher準(zhǔn)則設(shè)計(jì)判別式約束項(xiàng),但是AFDDL算法不僅具有FDDL算法的優(yōu)點(diǎn),還能夠保持原子間的特征關(guān)系。因此,AFDDL算法比FDDL算法取得更好的分類(lèi)性能。
3)在四個(gè)數(shù)據(jù)庫(kù)中,AFDDL算法比LCLE-DL和SVGDL算法均取得更高的識(shí)別率。主要原因是LCLE-DL算法僅考慮了同類(lèi)原子間的特征,忽略了不同類(lèi)原子間的差異。SVGDL算法利用訓(xùn)練樣本的類(lèi)標(biāo)作為編碼系數(shù)的權(quán)重,忽略了原子的特征。而AFDDL算法構(gòu)造原子的Fisher判別約束項(xiàng)能夠克服LCLE-DL和SVGDL算法存在的缺陷。
4)當(dāng)原子個(gè)數(shù)等于訓(xùn)練樣本個(gè)數(shù)時(shí),表1~4表明AFDDL算法比CRC和SRC算法獲得更高的識(shí)別率,主要原因是在通常情況下利用學(xué)習(xí)得到的字典比直接利用原始的訓(xùn)練樣本具有更好的分類(lèi)性能。
5)在計(jì)算字典的訓(xùn)練時(shí)間時(shí),AFDDL算法和對(duì)比算法的迭代次數(shù)均設(shè)定為20次。表1~4表明,AFDDL算法的訓(xùn)練字典的時(shí)間比FDDL、SVGDL、LC-KSVD算法都小,與LCLE-DL算法幾乎相等。主要原因是AFDDL和LCLE-DL算法都采用L2范數(shù)約束,目標(biāo)函數(shù)可以直接求導(dǎo),降低了算法的計(jì)算復(fù)雜度。由于使用相同的分類(lèi)方法,AFDDL算法與FDDL算法的分類(lèi)時(shí)間幾乎相等,比LC-KSVD和LCLE-DL算法都高。由此可見(jiàn),利用L2范數(shù)約束字典學(xué)習(xí)算法中的編碼系數(shù),不僅能夠減少字典學(xué)習(xí)算法的訓(xùn)練時(shí)間,也能使得字典學(xué)習(xí)算法獲得較好的分類(lèi)性能。
為了提高基于字典學(xué)習(xí)算法的分類(lèi)性能,本文提出一種新的判別式約束項(xiàng)模型。根據(jù)理想情況下,同類(lèi)原子應(yīng)該僅僅重構(gòu)同一類(lèi)樣本,構(gòu)造原子的Fisher判別準(zhǔn)則。與目前字典學(xué)習(xí)算法不同的是,該判別式約束項(xiàng)不僅能夠最大化不同類(lèi)原子間的差異,而且能夠在最小化同類(lèi)原子間差異的同時(shí)減少原子間的自相關(guān)性,促使同類(lèi)原子盡可能地重構(gòu)某一類(lèi)樣本,增強(qiáng)字典的判別性能。實(shí)驗(yàn)結(jié)果表明AFDDL算法的識(shí)別率不僅比直接利用原始訓(xùn)練的SRC和CRC算法高,而且比FDDL、SVGDL和LCLE-DL等字典學(xué)習(xí)算法高。因此,字典學(xué)習(xí)中不同類(lèi)原子間的差異對(duì)于增強(qiáng)字典的判別性能具有一定的促進(jìn)作用。下一步的研究方向是如何把原子間的差異與編碼系數(shù)間的差異統(tǒng)一到約束項(xiàng)中,增強(qiáng)字典學(xué)習(xí)算法的分類(lèi)性能。
)
[1]ZHANGQ,LIBX.DiscriminativeK-SVDfordictionarylearninginfacerecognition[C]//CVPR2010:Proceedingsofthe2010IEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEE, 2010: 2691-2698.
[2]YANGM,ZHANGL,FENGXC,etal.SparserepresentationbasedFisherdiscriminationdictionarylearningforimageclassification[J].InternationalJournalofComputerVision, 2014, 109(3): 209-232.
[3]CAISJ,ZUOWM,ZHANGL,etal.Supportvectorguideddictionarylearning[C]//ECCV2014:Proceedingsofthe13thEuropeanConferenceonComputerVision,LNCS8692.Berlin:Springer, 2014: 624-639.
[4]JIANGZL,LINZ,DAVISLS.LabelconsistentK-SVD:learningadiscriminativedictionaryforrecognition[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2013, 35(11): 2651-2664.
[5]LIZM,LAIZH,XUY,etal.Alocality-constrainedandlabelembeddingdictionarylearningalgorithmforimageclassification[J].IEEETransactionsonNeuralNetworksandLearningSystems, 2017, 28(2): 278-293.
[6] 甘嵐,張永煥.基于字典學(xué)習(xí)的正則化魯棒稀疏表示腫瘤細(xì)胞圖像識(shí)別[J].計(jì)算機(jī)應(yīng)用,2016,36(10):2895-2899.(GANL,ZHANGYH.Regularizedrobustcodingfortumorcellimagerecognitionbasedondictionarylearning[J].JournalofComputerApplications, 2016, 36(10): 2895-2899. )
[7]ZHANGY,JIANGZ,DAVISLS.Learningstructuredlow-rankrepresentationsforimageclassification[C]//CVPR2013:Proceedingsofthe2013IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2013: 676-683.
[8]ZHENGM,BUJ,CHENC,etal.Graphregularizedsparsecodingforimagerepresentation[J].IEEETransactionsonImageProcessing, 2011, 20(5): 1327-1336.
[9]WRIGHTJ,YANGAY,GANESHA,etal.Robustfacerecognitionviasparserepresentation[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2009, 31(2): 210-227.
[10]ZHANGL,YANGM,FENGXC.Sparserepresentationorcollaborativerepresentation:whichhelpsfacerecognition? [C]//ICCV2011:Proceedingsofthe2011IEEEInternationalConferenceonComputerVision.Washington,DC:IEEEComputerSociety, 2011: 471-478.
[11]MARTINEZAM,BENAVENTER.TheARfacedatabase,TR#24 [R].Barcelona,Spain:ComputerVisionCenter, 1998.
[12]HUANGGB,RAMESHM,BERGT,etal.Labeledfacesinthewild:adatabaseforstudyingfacerecognitioninunconstrainedenvironments,TR07- 49 [R].Amherst,MA:UniversityofMassachusettsAmherst, 2007.
[13]PHILLIPSPJ,MOONH,RIZVISA,etal.TheFERETevaluationmethodologyforfacerecognitionalgorithms[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2002, 22(10): 1090-1104.
[14] YANG J, ZHANG D, YANG J Y, et al. Globally maximizing, locally minimizing: unsupervised discriminant projection with applications to face and palm biometrics [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(4): 650-664.
[15] SANDERSON C, LOVELL B C. Multi-region probabilistic histograms for robust and scalable identity inference [C]// ICB 2009: Proceedings of the Third Edition of the International Conference on Biometrics, LNCS 5558. Berlin: Springer, 2009: 199-208.
[16] WANG S J, YANG J, SUN M F, et al. Sparse tensor discriminant color space for face verification [J]. IEEE Transactions on Neural Networks and Learning Systems, 2012, 23(6): 876-888.
[17] XU Y, ZHU X J, LI Z M, et al. Using the original and symmetrical face training samples to perform representation based two-step face recognition [J]. Pattern Recognition, 2013, 46(4): 1151-1158.
This work is partially supported by the National Natural Science Foundation of China (61370613, 61573248), the Guangdong Natural Science Foundation (2014A030313639), the Project of Guangdong Provincial Science and Technology Plan (2016A040403123), the Foundation for Young Talents in Higher Education of Guangdong (2015KQNCX089).
LI Zhengming, born in 1982, Ph. D. candidate, senior experimentalist. His research interests include sparse coding, dictionary learning.
YANG Nanyue, born in 1977, M. S., lecturer. Her research interests include image processing, virtual reality.
CEN Jian, born in 1967, Ph. D., professor. Her research interests include pattern recognition, intelligent control.
Dictionary learning algorithm based on Fisher discriminative criterion constraint of atoms
LI Zhengming1,2*, YANG Nanyue1, CEN Jian3
(1.IndustrialTrainingCenter,GuangdongPolytechnicNormalUniversity,GuangzhouGuangdong510665,China; 2.Bio-ComputingResearchCenter,ShenzhenGraduateSchool,HarbinInstituteofTechnology,ShenzhenGuangdong518055,China; 3.DepartmentofScientificResearch,GuangdongPolytechnicNormalUniversity,GuangzhouGuangdong510665,China)
In order to improve the discriminative ability of dictionary, a dictionary learning algorithm based on Fisher discriminative criterion constraint of the atoms was proposed, which was called Fisher Discriminative Dictionary Learning of Atoms (AFDDL). Firstly, the specific class dictionary learning algorithm was used to assign a class label to each atom, and the scatter matrices of within-class atoms and between-class atoms were calculated. Then, the difference between within-class scatter matrix and between-class scatter matrix was taken as the Fisher discriminative criterion constraint to maximize the differences of between-class atoms. The difference between the same class atoms was minimized when the autocorrelation was reduced, which made the same class atoms reconstruct one type of samples as much as possible and improved the discriminative ability of dictionary. The experiments were carried out on the AR face database, FERET face database, LFW face database and the USPS handwriting database. The experimental results show that, on the four image databases, the proposed algorithm has higher recognition rate and less training time compared with the Label Consistent K-means-based Singular Value Decomposition (LC-KSVD) algorithm, Locality Constrained and Label Embedding Dictionary Learning (LCLE-DL) algorithm, Support Vector Guided Dictionary Learning (SVGDL) algorithm, and Fisher Discriminative Dictionary Learning (FDDL) algorithm. And on the four image databases, the proposed algorithm has higher recognition rate compared with Sparse Representation based Classification (SRC) and Collaborative Representation based Classification (CRC).
dictionary learning; Fisher discriminative criterion; atom property; collaborative representation; image classification
2016- 12- 15;
2017- 03- 07。 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61370613,61573248);廣東省自然科學(xué)基金資助項(xiàng)目(2014A030313639);廣東科技計(jì)劃項(xiàng)目(2016A040403123);廣東省普通高校青年創(chuàng)新人才項(xiàng)目(2015KQNCX089)。
李爭(zhēng)名(1982—),男,河南汝南人,高級(jí)實(shí)驗(yàn)師,博士研究生,主要研究方向:稀疏編碼、字典學(xué)習(xí); 楊南粵(1977—),女,廣東廣州人,講師,碩士,主要研究方向:圖像處理、虛擬現(xiàn)實(shí); 岑健(1967—),女,廣東恩平人,教授,博士,主要研究方向:模式識(shí)別、智能控制。
1001- 9081(2017)06- 1716- 06
10.11772/j.issn.1001- 9081.2017.06.1716
TP391.41
A