劉嘎瓊
(江蘇科技大學(xué)海洋裝備研究院 鎮(zhèn)江 212003)
人臉識(shí)別是模式識(shí)別和圖像處理領(lǐng)域一個(gè)長期以來的熱點(diǎn)問題[1]。它在身份鑒別、人機(jī)交互等眾多領(lǐng)域發(fā)揮著重要的作用。高校信息化建設(shè)中人員的信息化管理十分重要,如門禁系統(tǒng)以及人機(jī)交互操作等。由此,本文通過研究穩(wěn)健的人臉識(shí)別技術(shù)以將其應(yīng)用于后續(xù)的高校信息管理系統(tǒng)。一般的人臉識(shí)別方法主要包括兩個(gè)關(guān)鍵部分,即特征提取和分類器設(shè)計(jì)。常用于人臉特征提取的方法包括主成分分析(Principal Discriminant Analysis,PCA)[2~3],線性鑒別分析(Linear Discriminant Analy?sis,LDA)[4],流形學(xué)習(xí)方法[5]以及局部紋理特征[6~8]等。分類器則是基于提取的特征判斷人臉的類別。隨著模式識(shí)別和機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展,大量的先進(jìn)分類器在人臉識(shí)別中得以成功運(yùn)用,如K近鄰分類器(K-Nearest Neighbor,KNN)[11],支持向量機(jī)(Support Vector Machines,SVM)[2~9]、稀疏表示分類器(Sparse Representation-based Classification,SRC)[10]以及卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[11~13]等。
本文提出結(jié)合全局和局部稀疏表示的人臉識(shí)別方法。傳統(tǒng)的SRC是基于全局字典求解稀疏表示系數(shù)進(jìn)而根據(jù)各類的重構(gòu)誤差大小判斷目標(biāo)類別。這種全局字典的重構(gòu)誤差主要反映了測試樣本與各個(gè)類別的相對匹配度,各個(gè)類別的獨(dú)立表示能力并不能充分發(fā)掘。實(shí)際上,對于正確的類別,其訓(xùn)練樣本對測試樣本的重構(gòu)更為精確。因此,分別在各個(gè)類別構(gòu)成的局部字典上重構(gòu)測試樣本可以充分考察各個(gè)類別對于測試樣本的描述能力。通過結(jié)合全局字典和局部字典各個(gè)類別的重構(gòu)誤差,可以有效提高目標(biāo)識(shí)別的穩(wěn)健性。本文線性加權(quán)融合的方法對其進(jìn)行決策層融合并基于融合后的結(jié)果判定目標(biāo)類別。為了驗(yàn)證提出方法的有效性,AR和Yale-B人臉數(shù)據(jù)集上進(jìn)行了驗(yàn)證實(shí)驗(yàn)。
稀疏表示分類認(rèn)為來自于某一類的測試樣本可以由該類訓(xùn)練樣本線性表示,且線性表示系數(shù)具有稀疏性。傳統(tǒng)的稀疏表示分類器作用于各類目標(biāo)共同構(gòu)成的全局字典,記為 A=[A1,A2,…,AC]∈ Rd×N,其中 Ai∈ Rd×Ni(i=1,2,…,C)代表來自第 i類的Ni個(gè)訓(xùn)練樣本。對于待識(shí)別的測試樣本y,采用式(1)對其進(jìn)行稀疏重構(gòu):
其中α代表稀疏表示系數(shù),ε是可允許的重構(gòu)誤差。在求得稀疏表示系數(shù)α?后,按照式(2)計(jì)算各個(gè)類別的重構(gòu)誤差。
式中 δi(α?)表示僅保留 α?中對應(yīng)于第 i類的系數(shù);r1(i)(i=1,2,…,C)代表各個(gè)類別的重構(gòu)誤差。根據(jù)最小重構(gòu)誤差判斷目標(biāo)類別如下:
可以看出,在稀疏表示分類中,最核心的部分是稀疏表示系數(shù)的求解。由于式(1)涉及的l0范數(shù)優(yōu)化一個(gè)NP-hard問題,研究人員通過將其近似為l1范數(shù)轉(zhuǎn)化為便于求解的凸優(yōu)化問題[10]或是采用基于貪婪機(jī)制的算法,如正交匹配追蹤算法(Or?thogonal Matching Pursuit,OMP)[14]。
全局字典下的稀疏表示主要體現(xiàn)了各類訓(xùn)練樣本對于測試樣本的相對描述能力。然而,各個(gè)類別對于測試樣本的獨(dú)立描述能力并沒有充分利用,即此時(shí)各個(gè)類別對于測試樣本的重構(gòu)并不是最優(yōu)的。通過在局部字典上分別對測試樣本進(jìn)行重構(gòu),從而評價(jià)各個(gè)類別對于測試樣本的絕對描述能力,可以為目標(biāo)識(shí)別提供有益的信息。
基于局部字典的表示主要是為了體現(xiàn)各個(gè)類別對于測試樣本獨(dú)立進(jìn)行表示的能力。同一類別的訓(xùn)練樣本表示能力強(qiáng),因此重構(gòu)誤差較小。采用式(4)基于局部字典上的稀疏求解。
式中αi(i=1,2,…,C)代表各類局部字典上的稀疏表示系數(shù),根據(jù)各類局部字典上求解的稀疏表示系數(shù)計(jì)算各類的重構(gòu)誤差如下:
為了有效結(jié)合全局和局部表示的分類結(jié)果,本文首先將兩者的重構(gòu)誤差轉(zhuǎn)換為歸一化的相似度以便于后續(xù)的決策融合,具體如式(6)所示。
式中 r(i)(i=1,2,…,C)代表各個(gè)類別的重構(gòu)誤差;s(i)代表測試樣本與各類的相似度,某一類的重構(gòu)誤差越小,測試樣本與其相似度越高。記全局和局部稀疏表示的相似度矢量分別為s1(i)和s2(i),采用線性加權(quán)融合[15]得到最終的相似度如下:
式(7)中w1和w2代表權(quán)值,fs(i)為融合后的相似度。本文中認(rèn)為w1=w2=0.5,即兩者具有同樣的重要性。圖1顯示了本文人臉識(shí)別方法的基本流程。具體實(shí)施中,采用經(jīng)典的PCA方法進(jìn)行特征提取。求解稀疏表示系數(shù)時(shí),本文依照文獻(xiàn)[9]采用l1正則化方法。
圖1 本文識(shí)別方法的流程
圖3 Yale-B數(shù)據(jù)庫的部分樣本
本文選用AR和Yale-B人臉庫來驗(yàn)證提出算法的有效性。AR人臉庫是由西班牙巴塞羅那計(jì)算機(jī)視覺中心建立,包含了不同光照,面部表情,遮擋物等條件下的結(jié)果,共120人,每個(gè)人有26幅圖像,圖像大小40×50;Yale-B人臉庫是由耶魯大學(xué)計(jì)算視覺與控制中心創(chuàng)建,共有10個(gè)研究對象,每人45張圖片,包含了不同光照條件下的成像結(jié)果,圖像大小為32×32。圖2和3分別顯示了來自于AR數(shù)據(jù)庫和Yale-B數(shù)據(jù)庫的部分樣本示例。
對于AR數(shù)據(jù)庫中的每個(gè)對象,選取前13幅圖像為訓(xùn)練樣本,剩余13幅圖像為測試樣本。在Yale-B數(shù)據(jù)庫上,選取每個(gè)對象的前20個(gè)圖像作為訓(xùn)練樣本,剩余的25個(gè)樣本作為測試樣本。為了充分驗(yàn)證提出方法的有效性,選取了幾類經(jīng)典的人臉識(shí)別方法進(jìn)行對比實(shí)驗(yàn),包括基于KNN的方法,基于SVM的方法以及基于全局SRC的方法。為了與提出方法保持一致性,這些對比方法均是對PCA特征矢量進(jìn)行分類。
圖1和圖2分別顯示了各類方法在AR和Yale-B數(shù)據(jù)庫上基于不同維度的PCA特征的識(shí)別結(jié)果。可以看出,本文方法在各個(gè)特征維度上均可以取得最高的識(shí)別率,充分驗(yàn)證了其有效性。為了更為直觀地比較各類方法的性能,將圖1和圖2總結(jié)為表1和表2,包括最高識(shí)別率以及選取的各個(gè)維度的平均識(shí)別率。
由表1的結(jié)果可知,本文方法具有最高的識(shí)別率以及平均識(shí)別率,顯示了其相比其它算法的優(yōu)越性。由此可知,本文提出的方法對于表情、光照、遮擋物等變化具有一定的魯棒性。相比基于全局SRC的方法,本文方法的識(shí)別性能有了較為明顯的提升,證明了結(jié)合局部稀疏表示的優(yōu)勢。
由表2的結(jié)果可知,相比于AR數(shù)據(jù)庫上更為復(fù)雜的情形,在Yale-B數(shù)據(jù)庫上提出算法可以取得更佳的識(shí)別性能。同樣,本文算法的最高識(shí)別率以及平均識(shí)別率均高于其它方法,證明了其對于光照變化具有更強(qiáng)的穩(wěn)健性。
圖4 各類方法在AR數(shù)據(jù)庫上的識(shí)別性能
圖5 各類方法在Yale-B數(shù)據(jù)庫上的識(shí)別性能
表1 AR數(shù)據(jù)庫的實(shí)驗(yàn)結(jié)果對比
表2 Yale-B數(shù)據(jù)庫的實(shí)驗(yàn)結(jié)果對比
本文提出了結(jié)合全局和局部稀疏表示的人臉識(shí)別方法。測試樣本分別在各類目標(biāo)組成的全局字典以及各類的局部字典上進(jìn)行稀疏表示?;诰€性加權(quán)融合的方法對全局和局部稀疏表示的重構(gòu)誤差矢量進(jìn)行決策融合,從而得到更為穩(wěn)健的識(shí)別結(jié)果?;贏R和Yale-B數(shù)據(jù)庫的結(jié)果表明提出的方法對于表情,有無遮擋物等變化具有一定的魯棒性,對于光照變化能具有較強(qiáng)的穩(wěn)健性。實(shí)驗(yàn)結(jié)果充分證明提出方法在現(xiàn)實(shí)條件下的應(yīng)用價(jià)值。本文提出的方法后續(xù)將在高校人員管控等方面進(jìn)行應(yīng)用,進(jìn)一步驗(yàn)證其有效性。