張 濤,吳 鍵
(南京理工大學(xué) 機(jī)械工程學(xué)院,南京210094)
21世紀(jì)以來(lái),隨著識(shí)別技術(shù)和互聯(lián)網(wǎng)的發(fā)展,人們已經(jīng)意識(shí)到基于IC/ID卡、身份證號(hào)、密碼的識(shí)別系統(tǒng)仍不夠安全。據(jù)MasterCard公司估計(jì),美國(guó)因?yàn)樾庞每ò踩圆钤斐擅磕暧袃r(jià)值4.5億美元的詐騙案發(fā)生,損失巨大。生物特征的識(shí)別技術(shù)因其安全便利,顯示出較好的應(yīng)用價(jià)值?;谏锾卣鞯闹讣y識(shí)別和虹膜識(shí)別,是比較成熟的生物識(shí)別技術(shù),但因指紋和虹膜的獲取都要求待識(shí)別對(duì)象與成像設(shè)備有較近的空間距離,導(dǎo)致其應(yīng)用范圍較小。而基于生物特征的人臉識(shí)別突破了這一限制,廣泛應(yīng)用于遠(yuǎn)程安全、安防、檢疫以及圖像傳送等領(lǐng)域。
目前,智能儲(chǔ)物柜多采用條形碼識(shí)別(如超市儲(chǔ)物柜),IC/ID卡識(shí)別(如游樂場(chǎng)、浴室、泳池)、指紋或人臉的生物特征的識(shí)別。指紋因?yàn)槿菀妆晃廴尽⑵茐?,?dǎo)使識(shí)別錯(cuò)誤,而人臉識(shí)別具有非強(qiáng)制性、非接觸性及可并發(fā)性識(shí)別的特點(diǎn),因此得到很多研究機(jī)構(gòu)的認(rèn)可。
現(xiàn)有的人臉識(shí)別儲(chǔ)物柜,尚存在一些問題,例如在取物的過程中,人臉會(huì)被口罩、眼鏡等遮擋,或在識(shí)別過程中產(chǎn)生背景噪聲信號(hào),使圖像不清晰,導(dǎo)致識(shí)別率降低。由文獻(xiàn)[1]研究可知,基于壓縮感知的稀疏臉對(duì)噪聲相當(dāng)魯棒,且在有部分遮擋的情況下,仍有較高的識(shí)別性能。以下采用壓縮感知方法,以解決人臉識(shí)別儲(chǔ)物柜系統(tǒng)所存在的問題。
壓縮感知,是一種新的采樣理論,2006年由E.J.Candes,D.L.Donoho和T.Tao等人提出。這一理論通過開發(fā)信號(hào)的稀疏特性(信號(hào)的稀疏性比帶寬更能表達(dá)信號(hào)的信息),信號(hào)的離散樣本通過隨機(jī)采樣獲取。如果一個(gè)信號(hào)在某個(gè)基下是稀疏的,就可以設(shè)計(jì)一個(gè)觀測(cè)矩陣。通過這個(gè)與變換基不相關(guān)的觀測(cè)矩陣將所得到的高維信號(hào)投影到一個(gè)低維空間上,得到少量投影,通過求解一個(gè)凸優(yōu)化問題就可以從這些少量的投影中重構(gòu)出原始信號(hào)[2]。如果設(shè)計(jì)好觀測(cè)矩陣和利用觀測(cè)矩陣觀測(cè)到的低維信號(hào),就可以求解出原始信號(hào)的稀疏表示,也就是對(duì)原信號(hào)的壓縮編碼。該編碼信號(hào)可以作為人臉識(shí)別分類的依據(jù)[3]。
特征向量提取和分類方法的實(shí)現(xiàn)(即分類器的設(shè)計(jì))是人臉識(shí)別技術(shù)的關(guān)鍵。在此采用了PCA算法提取特征向量,利用稀疏表示分類算法(SRC)實(shí)現(xiàn)分類。
主成分分析法在降維和特征提取上具有很強(qiáng)的優(yōu)勢(shì),因此在人臉識(shí)別技術(shù)中獲得大量的使用。
令 x=[x1,x2,…,xM]T為一隨機(jī)變量,其自相關(guān)矩陣為 Rx=E{xxH},對(duì) x 進(jìn)行線性變換,即 ω=QHx,式中Q為酉矩陣,即Q-1=QH。原信號(hào)x可以用線性正交變換矩陣Q表示為ω的線性組合,即
隨機(jī)向量的m階逼近的誤差為
均方誤差為
為使均方誤差最小化,使用了Lagrange乘數(shù)法來(lái)構(gòu)造代價(jià)函數(shù)[4],則
求極值得 Rxqi=λiqi,i=m+1,…,M
通過上述K-L變換,當(dāng)使用式(1)逼近原始信號(hào)時(shí),選擇Lagrange乘數(shù)因子作為矩陣Rx后面的M-m個(gè)特征值,代價(jià)函數(shù)中的正交基向量作為矩陣Rx的前m個(gè)特征向量。得出
自相關(guān)矩陣Rx的特征值分解為
式中:ui為代價(jià)函數(shù)中的正交基向量,若令主分量為i,則根據(jù)能量最大化準(zhǔn)則
步驟1將人臉圖像數(shù)據(jù)尺度歸一化(差值臉),即 xi=x-;
步驟2計(jì)算構(gòu)建人臉圖像的協(xié)方差矩陣,即
圖1 主成分的比例Fig.1 Proportion of principal component
圖2 保留的主成分比例Fig.2 Retain proportion of principal component
步驟3對(duì)協(xié)方差矩陣進(jìn)行特征值分解,求解出協(xié)方差矩陣的特征值和其對(duì)應(yīng)的特征向量,取前k個(gè)特征值所對(duì)應(yīng)的特征向量構(gòu)成特征臉空間,即w=(u1,u2,…,uk);
步驟4將歸一化的人臉矢量投影到特征臉空間,即 Ωi=wTxi;
步驟5將待識(shí)別的人臉Γ和的差值投影到w 特征空間里,即 ΩΓ=wT(Γ-),計(jì)算閾值為
采用歐氏距離計(jì)算ΩΓ與每個(gè)人臉的距離通過與閾值θ比較,識(shí)別人臉。圖3為基于ORL數(shù)據(jù)庫(kù)的一部分特征臉,最后一張是平均臉[5]。
圖3 基于ORL數(shù)據(jù)庫(kù)的部分特征臉和平均臉Fig.3 Partial eigenfaces and average faces based on ORL database
壓縮感知的特點(diǎn)是信號(hào)的采樣與數(shù)據(jù)的壓縮同時(shí)進(jìn)行,在較大的壓縮條件下,重構(gòu)出較好的信號(hào)。該理論的核心是信號(hào)的稀疏表示、編碼測(cè)量以及信號(hào)重構(gòu),其中信號(hào)的稀疏表示是先驗(yàn)條件[6]。
設(shè)一個(gè)一維離散信號(hào)f,由一組標(biāo)準(zhǔn)正交基線性表示出來(lái),即
式中:N為信號(hào)的長(zhǎng)度;Ψ為N×N的標(biāo)準(zhǔn)正交基;φi為 Ψ 的列向量;Θ 為系數(shù)矩陣若Θ的非零個(gè)數(shù)遠(yuǎn)小于N,則此信號(hào)是可壓縮的。
得到信號(hào)的稀疏系數(shù)矩陣以后,需構(gòu)建一個(gè)穩(wěn)定的測(cè)量矩陣Φ∈RM×N,式中M?N,對(duì)系數(shù)矩陣進(jìn)行線性變換,保證在任意稀疏度為K的可壓縮信號(hào),在降維到測(cè)量信號(hào)y的過程中,原信號(hào)的信息不會(huì)被破壞,從而重構(gòu)出原信號(hào)f,即y=Φf=ΦΨΘ,式中A=ΦΨ∈RM×N為傳感矩陣。因?yàn)棣ㄊ窍∈璧?,A滿足約束性等距條件,所以方程可求出唯一解[7]。Candes等人從理論上證明了使用最小l0范數(shù)法是可以用來(lái)計(jì)算解答信號(hào)重構(gòu)的問題,即=arg min‖x‖0s.t.y=Φx,式中x為稀疏系數(shù);y為測(cè)試圖像[8]。在計(jì)算信號(hào)重構(gòu)的過程中,最小l0范數(shù)法和最小l1范數(shù)法在約束等距條件下是近似等價(jià)的。但最小l0范數(shù)法是一個(gè)NP-hard的問題,求解最優(yōu)解需要列舉x中所有種可能才能得到,因此一般采用最小l1范數(shù)法來(lái)解決次優(yōu)解的問題,即=arg min‖x‖1s.t.y=Φx。
SRC算法的理論基礎(chǔ)是壓縮感知,假設(shè)人臉可以構(gòu)成一個(gè)空間,任何一張圖像可以由其他線性表示,在充分利用人臉在高維空間具有稀疏特性的情況下,對(duì)一欠定方程求取最稀疏解,以進(jìn)行人臉識(shí)別而得到分類結(jié)果[9]。
設(shè)N個(gè)訓(xùn)練樣本分別屬于C個(gè)人,每個(gè)人有ki個(gè)正面臉圖像,矢量 xi,k∈Rm×1為第 i個(gè)人的第 ki幅圖像,這ki個(gè)矢量為基向量所構(gòu)成的人臉子空間稱為第i類人臉子空間。其空間中的任意矢量x都可以被此基向量線性表達(dá),即
式中:α= [αi,1,αi,2,…,αi,k]T,αi,j∈R( j=1,2,…,k1)為稀疏系數(shù)。構(gòu)造冗余矩陣
任何一幅測(cè)試圖像y均可以表示為y=Ax0,例如若測(cè)試圖像的類別屬于第i個(gè)人,那么理想情況的系數(shù)向量為
那么這個(gè)冗余矩陣A就可構(gòu)造過完備冗余字典。這個(gè)系數(shù)向量可當(dāng)作y在A下的坐標(biāo),若樣本數(shù)量大于類內(nèi)的最大樣本數(shù)量,即 N>max(ki),N 和max(ki)的差距越大,x0越稀疏,也更有利于恢復(fù)。
因?yàn)閴嚎s感知的特征提取比較理想,將輸入的人臉圖像在過完備冗余字典A中通過稀疏系數(shù)α展開,此時(shí)的樣本y為整個(gè)訓(xùn)練樣本集的線性組合,即y=Ax0∈Rm,m為人臉識(shí)別中的特征維數(shù),m?N。用向量x0表示測(cè)試樣本y,所以將問題變?yōu)榍蠼庖粋€(gè)線性方程y=Ax。目標(biāo)函數(shù)為
根據(jù)2.1節(jié)所述,可將l0范數(shù)轉(zhuǎn)化為l1范數(shù)來(lái)求解。
在實(shí)際的人臉識(shí)別時(shí),人臉圖像的維度很大,一般達(dá)到105數(shù)量級(jí),雖然壓縮感知處理高維度問題具有優(yōu)勢(shì),但是對(duì)計(jì)算機(jī)的計(jì)算能力要求很高,并且圖像維度超過訓(xùn)練圖像的訓(xùn)練樣本數(shù),即m>N,使得等式約束方程y=Ax是超定的,解出的解x作為方程的唯一解,效果不好,不能正確分類。因此在人臉識(shí)別時(shí),需要先降維,而PCA在降維方面優(yōu)勢(shì)很大。
通過PCA降維后,原始人臉圖片m維高維空間到m′低維空間的投影矩陣作為觀測(cè)矩陣,即Φ=wT,Φ∈Rm′×m,并且 m′<N<m,由 2.2 節(jié)所述可知,構(gòu)造過完備冗余字典為
進(jìn)而構(gòu)造人臉稀疏模型,即
然后利用觀測(cè)矩陣Φ對(duì)所有人臉的訓(xùn)練數(shù)據(jù)進(jìn)行觀測(cè)投影,即:
通過稀疏表示和觀測(cè)投影,就完成了人臉圖像的訓(xùn)練過程,即完成了訓(xùn)練階段。當(dāng)輸入一幅測(cè)試圖像x時(shí),系統(tǒng)利用相同的觀測(cè)矩陣Φ對(duì)樣本x投影得到:
由式(16)~式(18),得到優(yōu)化的目標(biāo)函數(shù),即Yα=y;利用最小l1范數(shù)法求解,即
恢復(fù)誤差最小時(shí)所屬的類為人臉識(shí)別出來(lái)的類。圖4為人臉實(shí)例及其基于PCA特征提取的SRC算法的人臉重構(gòu),圖 4(a)為人臉原圖,圖 4(b)為相應(yīng)的人臉重構(gòu)圖像。
圖4 基于SRC算法的人臉原圖與人臉重構(gòu)Fig.4 Original face and face reconstruction based on SRC algorithm
人臉識(shí)別儲(chǔ)物柜系統(tǒng)的總體設(shè)計(jì)主要包括儲(chǔ)物柜控制器模塊,它作為系統(tǒng)的終端主要負(fù)責(zé)控制儲(chǔ)物柜的開關(guān)、實(shí)時(shí)監(jiān)測(cè)儲(chǔ)物柜的狀態(tài)、讀取人臉圖像。系統(tǒng)的硬件總體設(shè)計(jì)如圖5所示。
圖5 系統(tǒng)硬件總體設(shè)計(jì)Fig.5 Overall design of system hardware
儲(chǔ)物柜采用一對(duì)多的控制方式,1個(gè)儲(chǔ)物柜中,從機(jī)控制器控制12個(gè)箱柜,且實(shí)時(shí)監(jiān)測(cè)箱柜狀態(tài),并將狀態(tài)實(shí)時(shí)反饋到主控MCU上。1個(gè)主控MCU可通過RS485接口級(jí)聯(lián)多個(gè)儲(chǔ)物柜。主控制器主要由攝像頭、時(shí)鐘模塊、觸摸屏模塊、通信模塊、驅(qū)動(dòng)模塊及單片機(jī)微處理器等部分組成。儲(chǔ)物柜主控芯片選用意法半導(dǎo)體公司生產(chǎn)的芯片STM32F103單片機(jī),32位ARM微控制器,Cortex-M3內(nèi)核。此款單片機(jī)功能強(qiáng)大、I/O口較多、讀寫速度快、功耗較低,在人臉識(shí)別時(shí)可連接計(jì)算機(jī)運(yùn)用Matlab軟件進(jìn)行識(shí)別計(jì)算[10]。儲(chǔ)物柜從機(jī)控制器選用TI公司的MSP430F149單片機(jī),主要考慮到低功耗的問題[11]。
在該系統(tǒng)中,攝像頭采集的圖像像素為240×320;顯示屏用于顯示圖像和儲(chǔ)物柜中各個(gè)儲(chǔ)物箱的狀態(tài);電磁鎖有驅(qū)動(dòng)功能;紅外對(duì)管用于檢查箱內(nèi)是否有物;LED燈用作信息提示。
人臉識(shí)別儲(chǔ)物箱的軟件流程如圖6所示。
圖6 控制器軟件工作流程Fig.6 Controller software work flow chart
為了驗(yàn)證該人臉識(shí)別算法的性能,選擇在ORL人臉數(shù)據(jù)庫(kù)進(jìn)行仿真測(cè)試實(shí)驗(yàn),測(cè)試其識(shí)別率。數(shù)據(jù)庫(kù)包含40位不同的人,每人包含10幅圖像,這10幅圖像均是在不同的光照強(qiáng)度、面部表情以及各個(gè)角度下拍攝的;每張人臉圖像是92×112的灰度圖像。當(dāng)訓(xùn)練樣本數(shù)N取4,5,6時(shí),PCA算法和PCA+SRC算法在ORL數(shù)據(jù)庫(kù)上的識(shí)別率如表1所示。
表1 PCA算法和PCA+SRC算法在ORL數(shù)據(jù)庫(kù)上的識(shí)別率Tab.1 Recognition rate of PCA algorithm and PCA&SRC algorithm on ORL face database
表2是在仿真試驗(yàn)中,將ORL數(shù)據(jù)庫(kù)中的像素受到隨機(jī)選取的不同比例白噪聲的污染時(shí),PCA和PCA+SRC算法的識(shí)別率,訓(xùn)練樣本取5。
表2 PCA算法和PCA+SRC算法的識(shí)別率Tab.2 PCA algorithm and PCA&SRC algorithm recognition rate
表3是在儲(chǔ)物柜的測(cè)試實(shí)驗(yàn)中,通過戴墨鏡、口罩2種遮擋時(shí),PCA和PCA+SRC算法的識(shí)別率,重復(fù)次數(shù)30次,測(cè)試了3個(gè)人。圖7為實(shí)際測(cè)驗(yàn)中部分未識(shí)別的人臉。
表3 算法在儲(chǔ)物柜上的識(shí)別率Tab.3 Recognition rate of algorithm on locker
圖7 未能識(shí)別的人臉Fig.7 Unrecognized faces
將壓縮感知應(yīng)用于PCA人臉識(shí)別儲(chǔ)物柜系統(tǒng),與基于PCA的人臉識(shí)別算法相比,前者的組合方法識(shí)別效果更好,并對(duì)遮擋、噪聲相當(dāng)魯棒。至于未識(shí)別出的圖像,經(jīng)過分析,是由于遮擋面積過大或識(shí)別時(shí)環(huán)境太暗所導(dǎo)致,還有待于進(jìn)行深入的研究。由于所涉及的運(yùn)算復(fù)雜度相對(duì)高了點(diǎn),時(shí)間相對(duì)來(lái)說(shuō)變長(zhǎng)了,下一步重點(diǎn)減少求解最優(yōu)解的時(shí)間,使得人臉識(shí)別儲(chǔ)物柜市場(chǎng)化。
[1]Wright J,Yang A Y,Ganesh A,et al.Robust face recognition via sparse representation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2009,31(2):210-227.
[2]Boyd S,Vandenberghe L.Convex optimization[M].[S.l.]:Cambridge University Press,2004.
[3]石光明,劉丹華,高大華.壓縮感知理論及其研究進(jìn)展[J].電子學(xué)報(bào),2009,37(5):1071-1080.
[4]沈理,劉翼光,熊志勇.人臉識(shí)別原理及算法:動(dòng)態(tài)人臉識(shí)別系統(tǒng)研究[M].北京:人民郵電出版社,2014.
[5]曾凌子.基于壓縮感知的人臉識(shí)別算法研究[D].合肥:中國(guó)科技大學(xué),2014.
[6]Graham D,Allison.Characterizing virtual eigensignatures for general purpose face recognition[M].Face Recognition:From Theory to Applications,1998:446-456.
[7]Candes E J,Romberg J.Sparsity and incoherence in compressive sampling[J].Inverse Problems,2007,23(3):969-985.
[8]Candès E J,Wakin M B.An introduction to compressive sampling[J].Signal Processing Magazine,2008,25(2):21-30.
[9]Wright J,Yang A,Ganesh A,et al.Robust face recognition via sparse epresentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence(PAMI),2009,31(2):210-227.
[10]張洋,劉軍,嚴(yán)漢宇.原子教你玩STM32[M].北京:北京航空航天大學(xué)出版社,2013.
[11]利爾達(dá)科技有限公司.MSP430開發(fā)板實(shí)驗(yàn)指導(dǎo)書[Z].杭州:[s.n.],2012.