摘要:動態(tài)人臉識別具有更大的難度,如視頻輸出的圖象質(zhì)量較差、背景更復雜等,而現(xiàn)有的動態(tài)人臉識別算法還存在著識別速度慢,魯棒性差等缺點。課題就是在研究現(xiàn)有的識別方法和識別系統(tǒng)的基礎(chǔ)上,構(gòu)建一個基于視頻的多分類器融合的實時人臉檢測與識別的實驗系統(tǒng),重點研究檢測技術(shù)的改進及多種識別方法的有效融合,以保證系統(tǒng)能在視頻下快速識別出人臉,提高人臉識別的效率和魯棒性,降低拒識率和誤識率。
關(guān)鍵詞:多分類器融合;人臉檢測;動態(tài)人臉識別;膚色模型;圖像分割
中圖分類號:TP391.41文獻標識碼:A文章編號:1009-3044(2009)35-10059-04
The Motion Face Detection and Recognition Based on the Fusion of Multiple Classifiers
MA Gui-ying
(Department of Computer Science and Technology, Tangshan College, Tangshan 063000, China)
Abstract: It's more difficult to distinguish the face's dynamic pictures. For example,the quanlity of out-put pictures in vedio is bad, and the background is complicated.Meanwhile, the speed of recent systerm of the Motion Face Recognition is so slow. The subject aims to build a experimentive systerm of the motion face detection and recognition based on the fusion of multiple classifiers,according to the recent technics. It focuses on the improvement of detection technology and the mixture of various Recognition methods. So the systerm can Recognition the faces more quickly,correctly and Effectively.
Key words: fusion of multiple classifiers; face detection; motion face recognition; complexion model; image segmentation
人臉識別技術(shù)就是利用計算機分析人臉圖像,從中提取有效的識別信息,用來辨認身份的一門技術(shù),它涉及到模式識別、圖像處理、計算機視覺、生理學、心理學及認知學等諸多學科的知識,并與基于其他生物特征的身份鑒別方法以及計算機人機感知交互的研究領(lǐng)域都有密切聯(lián)系。與指紋、視網(wǎng)膜、虹膜、基因、掌紋等其他人體生物特征別系統(tǒng)相比,人臉識別系統(tǒng)有使用方便、直接、友好,使用者無心理障礙,基礎(chǔ)數(shù)據(jù)更容易獲得,更具直觀性等優(yōu)點。
人臉識別技術(shù)應用背景十分廣泛,其中靜態(tài)的人臉識別技術(shù)可用于公安系統(tǒng)刑偵破案的罪犯身份識別,身份證及駕駛執(zhí)照等證件驗證,及醫(yī)學等方面;動態(tài)的人臉識別技術(shù)主要應用于銀行及海關(guān)的監(jiān)控,視頻會議,機器人的智能化研究等方面。但目前現(xiàn)有的動態(tài)人臉識別技術(shù)還不太令人滿意,仍存在著識別速度慢,識別效率低,魯棒性差等缺點,即當光線,角度等條件或人臉表情發(fā)生變化時系統(tǒng)的識別效率大大降低。因此迫切需要對動態(tài)人臉識別技術(shù)加以改進。
1 實時人臉識別系統(tǒng)框架
動態(tài)人臉識別系統(tǒng)包括視頻圖像采集、人臉檢測、人臉定位、人臉識別和鑒別結(jié)果人臉描述等五大部分,其中人臉檢測與定位及人臉特征提取與分類識別是關(guān)鍵環(huán)節(jié)。首先利用視頻對動態(tài)的圖像序列進行采集,然后檢測是否存在人臉,如果存在人臉,則進一步對人臉進行定位,最后進行特征提取、用設(shè)計的分類算法識別人臉。具體框架圖如圖1~圖3所示。
1.1 視頻圖像采集及預處理
圖像的采集和獲取是系統(tǒng)功能的基礎(chǔ)。因此所獲取圖像的質(zhì)量會極大地影響系統(tǒng)對圖像的分析和識別的結(jié)果,圖像傳輸?shù)乃俣纫矔绊懙阶R別的速度,這就對圖像獲取的硬件提出了較高的要求。在實際情況中,成像一般是和應用相結(jié)合的。比如經(jīng)過一通道,持續(xù)的時間一般為幾秒。成像條件必須滿足上面給定的限定條件。在識別中采用常見的圖像格式,通常有MPEG、RM格式等等,這里為了方便采用MPEG圖像。在動態(tài)人臉識別的訓練過程中,獲得圖像可以是實時的,也可以采用預先獲得的動態(tài)人臉圖像。在識別過程中,利用實時捕獲的動態(tài)人臉圖像,直接由成像設(shè)備送入到動態(tài)人臉識別系統(tǒng)中。
在實驗中,考慮實際情況,取像的范圍不過是幾米,在正常運動速度下可取出5~10秒的人臉圖像,由MPEG-Ⅱ的視頻格式保存,實驗中使用的圖像數(shù)據(jù)沒有很多的外界干擾因素,符合動態(tài)人臉識別的成像條件。
本文實驗使用的人臉圖像多數(shù)為MPEG格式的圖像,實驗中還利用了JPEG格式和SUNRAS格式。由于MPEG格式本身是一種動態(tài)圖像格式,因此處理MPEG圖像編碼會對識別效率產(chǎn)生影響。
動態(tài)人臉圖像識別中,為了保證識別的實時性,必須從動態(tài)圖像序列中分割出一些瞬間圖像序列,因此圖像分割是動態(tài)人臉識別中提出的新問題。這里主要是解決通過運動矢量、編碼方式減小計算開銷。采用幀間差分算法來提取運動區(qū)域,在圖像中圈定一個大致的人臉可能存在的區(qū)域,這一模塊大大縮小了后續(xù)人臉膚色檢測部分的搜索范圍,從而減少系統(tǒng)的運算量。幀間差分方法比較適合變化的動態(tài)場景,是解決光線變化的有效方法,且實現(xiàn)簡單,計算速度快。
1.2 人臉定位和檢測
本步主要解決的關(guān)鍵問題是色彩空間的選取和膚色模型的建立。在提取的運動區(qū)域中,找出膚色部分,進行膚色區(qū)域分割,并對分割的結(jié)果進行區(qū)域去噪和合并處理,大致定位人臉候選區(qū)域。首先,為了減少光照對膚色分割效果的影響,在膚色分割前先對圖像的亮度信息進行分析,然后進行色彩平衡處理。其次,針對基于膚色的方法中膚色分割效果,通過研究膚色的分布模型,同時考慮亮度和色度的共同影響,采用將HSI顏色空間和YCbCr顏色空間結(jié)合的方法進行膚色分割??梢源_保人臉區(qū)域在保留區(qū)域中,但是也可能包含了非人臉區(qū)域,比如運動著的手臂等。在此基礎(chǔ)之上,對于所有的候選人臉區(qū)域,通過對該區(qū)域的幾何特性進行分析,結(jié)合人臉的幾何特性進一步進行驗證,準確定位人臉。
1.3 檢測后圖像的預處理
1) 圖像的標準化處理:具體完成對人臉圖像的大小歸一化、消除噪聲、灰度歸一化等,可視具體情況選用,以保證在同一條件下完成訓練和識別。
2) 進行小波變換,取出低頻信息:主要是對標準化的圖像進行小波變換和基于離散余弦變換(DCT變換),得到低頻子帶圖像,這樣大大降低了像素點的存儲;同時由于小波分解后適當大小的低頻子帶人臉圖像對表情、光照等變化不敏感,所以可以提高系統(tǒng)的魯棒性。
1.4 人臉識別
如何提取穩(wěn)定和有效的特征并進行正確分類是識別系統(tǒng)成敗的關(guān)鍵。目前在模式識別中有很多種類的分類器,但每種都有自己的優(yōu)點和缺點。如果將多種不同的分類器以某種方式進行組合,就有可能在總體上取得比單一分類器更好的效果。本文提出了一種將支持向量機和距離度量相結(jié)合,以構(gòu)成兩級分類器的組合方法。利用該方法分類時,先采用距離度量進行前級分類,若不符合條件,則拒識,否則,轉(zhuǎn)入后級分類器,給出分類結(jié)果。前級分類器采用改進特征臉方法,而后級分類器則采用支持向量機方法進行分類。該多分類器組合方法不僅充分利用了支持向量機識別率高和距離度量速度快的優(yōu)點,而且還利用距離度量的結(jié)果指導支持向量機的訓練和測試。實驗表明,該多分類器組合方法具有較高的效率和識別精度以及較低的誤識率。
1.4.1 基于線性判別分析(LDA)分類器的人臉識別算法
線性判別分析方法[1]選擇與類內(nèi)散布矩陣正交的矢量作為特征臉空間,從而能壓制圖像之間與識別信息無關(guān)的差異,并且對光照及人臉表情變化都不太敏感。其目的是從高維特征空間中提取出最具有鑒別能力的低維特征,我們希望投影后,在低維空間里不同類別的樣本盡可能分得開些,同時希望每個類別內(nèi)部樣本盡量密集,也就是說,樣本類間離散度越大越好,而樣本類內(nèi)離散度越小越好。
假設(shè)有C類已知的模式叫為一個具有f維的樣本集。任何一個在樣本集X中的樣本xi均屬于某個已知類別ωj即。那么樣本類間離散度矩陣定義為:
(1)
其中,ui是ωi類的均值,u是所有樣本的均值,pi是先驗概率。
樣本類內(nèi)離散度矩陣定義為:
(2)
其中。
我們希望投影后,在低維空間里得到的為最有助于分類的信息。因此,如果類內(nèi)散布矩陣sw是非奇異矩陣,最優(yōu)的投影方向Wopt就是使得樣本類間離散度矩陣和樣本類內(nèi)離散度矩陣的行列式比值最大的那些正交特征向量。因此Fisher準則函數(shù)定義為:
(3)
通過線性代數(shù)理論,我們可知Wopt就是滿足如下等式的解:
(4)
通常的Fisher準則函數(shù)通過取對應矩陣大于零的特征值 λi 所對應的特征向量來得到投影空間,此時我們注意到該矩陣最多只有c-1個非零特征值。
當類內(nèi)散布矩陣奇異的時候,F(xiàn)isher準則函數(shù)也可以采用如下的形式:
(5)
其中的St為樣本的總體散布矩陣。
1.4.2 基于SVM分類器的人臉識別算法
SVM[2]是基于統(tǒng)計學理論的學習方法,它通過構(gòu)造最優(yōu)超平面,使得對未知樣本的分類具有最優(yōu)的推廣能力。其基本思想可用圖m的兩維情況說明。
圖中○和●代表兩類樣本,H為分類線,Hl,HZ分別為各類中離分類線最近的樣本且平行于分類線的直線,它們之間的距離叫做分類間隔(margin)。所謂最優(yōu)分類線就是要求分類線不但能將兩類正確分開(訓練錯誤率為0),而且使分類間隔最大。
對于兩類線性可分情形,可直接構(gòu)造最優(yōu)超平面,最優(yōu)超平面的構(gòu)造問題實質(zhì)上是約束條件下求解一個二次規(guī)劃問題,其最優(yōu)分類函數(shù)為:
(6)
其中,k(·,·)是一核函數(shù),sgn(·)是符號函數(shù),L為訓練樣本的個數(shù)。
對于c種類別判別問題,需要構(gòu)造c(c-1)/2個判別函數(shù)。在識別過程中,本文給出了一種基于SVM組的淘汰法。假設(shè)需判別類型有5種,則須構(gòu)造10個判別函數(shù):(1,2),(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,4),(3,5),(4,5)。顯然,對于這5類中的任意一類,如第一類中的某一樣本,就可由(1,2),(1,3),(1,4),(1,5)這4種判別函數(shù)中的任意一個來識別,即判別函數(shù)間存在冗余。為使期望風險最小,判別函數(shù)應滿足經(jīng)驗風險最小(為0)和VC置信范圍最小。由于每個判別函數(shù)的訓練對象不同,因此分類精度并不相同。這時,它們所具有的VC置信范圍也不相同,VC置信范圍越小,相應地判別函數(shù)的誤差也就越小。所以,對這10個判別函數(shù)按VC置信范圍由小到大排序,并分別編號,假設(shè)為1#(4,5),2#(1,3),3#(1,2),4#(1,5),5#(1,4),6#(2,4),7#(2,5),8# (3,4),9#(3,5),10#(2,3)。
這種識別方法相當于把這一組基于SVM的判別函數(shù)看作是一個濾波器,每經(jīng)一個判別函數(shù),就有某一類型被濾掉,與該類別有關(guān)的判別函數(shù)也被淘汰。一般情形下,經(jīng)過c-1次判別,就可得到結(jié)果。但是,由于判別函數(shù)在決策時有可能會遇到“拒絕決策”的情形,即式(6)中f(x)=0,這時,若直接令f(x)為1或-1,而把它歸于某一類,就可能導致誤差。此時,不妨利用判別函數(shù)之間所存在的冗余進行再決策,以減少這種因“拒絕決策”而導致的誤判別。這時,判別次數(shù)就會大于c-1次,一般再經(jīng)過1或2次即可得到判別結(jié)果(這是實驗值)。
1.4.3 基于多分類器融合的人臉識別
Killter[3]系統(tǒng)地研究了多分類器融合,給出了多分類器融合的理論框架,并在該框架下得到了分類器融合的兩個基本規(guī)則:求積規(guī)則與求和規(guī)則。許多融合規(guī)則,如最小規(guī)則、多數(shù)投票規(guī)則等都可以由這兩個基本融合規(guī)則推導出來。最小值規(guī)則以求積規(guī)則為基礎(chǔ),各類別的總體后驗概率為各個分類器對此類別后驗概率的最小值。多數(shù)投票規(guī)則是一種很常用的組合方法,它也是求和規(guī)則的一個演變,只是忽略了后驗概率的信息。獲得投票最多的類別就是最終的識別類別。
人臉識別問題是一個小樣本問題,所以使用支持向量機方法相對于傳統(tǒng)的識別方法具有明顯的優(yōu)越性。基于SVM的人臉識別方法由于是基于統(tǒng)計模型的一種識別方法,在確定給定的人臉是數(shù)據(jù)庫中的某一類人臉的情況下,能夠獲得比較高的識別率。但由于SVM建立在統(tǒng)計模型基礎(chǔ)之上,該方法存在一個問題,就是如果給定的一幅人臉圖像并不屬于數(shù)據(jù)庫中的任何一類圖像,基于SVM的人臉識別方法很難進行判斷,也就是說不容易判斷拒識[4]。從理論上來說,如果要實現(xiàn)拒識的話,需要將不在數(shù)據(jù)庫中的人臉模式當作一類進行學習和判別,但是由于不是人臉的圖像種類實在太多,應該選擇什么樣的樣本作為反例樣本最合適,目前還沒有一個統(tǒng)一的準則。而這在實際應用中又是可能出現(xiàn)的,例如身份認證系統(tǒng),必須能夠?qū)]有在數(shù)據(jù)庫中出現(xiàn)的待識別樣本去除出去。為此需要采用其他的方法首先將不屬于數(shù)據(jù)庫中的待識別人臉排除掉,保證送入SVM的待識別人臉肯定是數(shù)據(jù)庫中的人臉,就能夠解決這個問題。從模式識別的觀點來看,采用多個相關(guān)性不強的分類器組合能夠提高整個識別系統(tǒng)的能力,雖然不能提高識別率,但是可以采用多分類器組合降低誤識率,這在識別準確性要求較高的場合是非常有必要的。
本文考慮采用LDA的人臉識別方法用于拒識判斷,將送入識別的人臉圖像不屬于數(shù)據(jù)庫中已有類別的人臉排除以后,再將那些屬于數(shù)據(jù)庫中某類人臉的圖像送具有更好識別效果的SVM識別器進行識別,這樣就可以方便地進行拒識判斷,從而以避免基于SVM的人臉識別方法難以判斷拒識的問題。
由于LDA的人臉識別方法采用距離判斷,如果輸入的圖像和數(shù)據(jù)庫中所有知類別的距離都非常遠,我們就可以判斷該圖像不屬于數(shù)據(jù)庫中的任何類別,判斷為識。如果輸入的圖像和數(shù)據(jù)庫中某一類別的人臉距離非常近,我們也可以判斷該人臉像屬于該類別的人臉。由于改進特征臉方法的識別速度比較快,可以減少一部分送SVM方法識別的人臉圖像,這樣便于提高整個系統(tǒng)的效率。
判斷拒識的閾值T以及判斷是否送入下分類器的閾值T1都是通過實驗確定。通過實驗,對于距離非常小時,直接根據(jù)LDA的人臉識別方法進行判斷,直接判斷距離閾值我們設(shè)置為2000。拒識閾值T設(shè)置為2850,就可以將不是ORL數(shù)據(jù)庫中的臉圖像排除出去,保證送入下一步識別的人臉圖像都是在數(shù)據(jù)庫中的某一類人臉。這樣通過合理地調(diào)整閾值,既可保證系統(tǒng)的識別率,又能保證識別的效率。
LDA的人臉識別方法以及基于支持向量機的人臉識別方法采用串聯(lián)形式體系結(jié)構(gòu),我們采用“與”關(guān)系判斷兩個分類器各自的識別結(jié)果,這樣可以保證識別果的準確性,這在對準確性要求高的應用中是比較重要的。這種方法的識別結(jié)果是可降低了識別率,但是降低了誤識率,這是以提高拒識率為代價的。不過由于SVM人識別方法的識別率比較高,因此,相對來說,這種代價不是很大。
2 人臉識別實驗結(jié)果及評價
我們選用ORL人臉圖像庫進行測試,ORL人臉圖庫是由40人,每人10張照片組成,原始圖像被歸一化為26×22大小。取每人的前5張總200張圖片作為訓練集對RBF網(wǎng)絡(luò)進行訓練,再取剩下的200張圖片作為測試集對網(wǎng)絡(luò)進行測試,得到的結(jié)果和對結(jié)果的分析如下。
在測驗過程中我們發(fā)現(xiàn),主分量個數(shù)不同時各種算法的識別效率也不同。圖5中給出了LDA方法、SVM方法和LDASVM方法的識別結(jié)果隨主分量個數(shù)的變化情況。在計算結(jié)果中,LDA方法在取150個主分量時識別率為0.965; SVM方法在取32個主分量時識別率為0.975;LDASVM方法在取31個主分量時識別率為0.975。
下面對實驗結(jié)果進行分析:由圖5所示,隨著主分量的增加,LDASVM方法的識別性能一直優(yōu)于單獨用LDA或SVM方法,但當特征值較小的主分量(即次分量)增加到一定程度以后,LDASVM方法的識別率反而要略低于SVM方法。這是由于次分量的增加所引入的噪聲會反映到某些矢量中來,使識別性能下降。在識別方法方面,由圖5所示,隨著主分量的增加,基于SVM分類方法的識別性能始終優(yōu)于LDA方法。但是,隨著次分量的不斷增加,LDA方法的識別率會略有增加,而SVM方法的識別率反而略有下降,這是由于SVM方法中分類器的判別函數(shù)是由少數(shù)支持向量決定的,次分量部分或某些矢量部分都將引入較多的噪聲,使分類器的分類精度略有下降。
在試驗中我們也發(fā)現(xiàn)了拒識閾值的大小,也影響著算法的識別效率。表1給出了不同的拒識閾值對LDASVM的多分類器融合方法的識別效率的影響。
從表1中可以看出,如果LDA人臉識別方法的拒識閾值設(shè)置太小,會將有一本來應該屬于數(shù)據(jù)庫中人臉類別的圖像被排除掉,增加了拒識,不過沒有提高誤識率而拒識閾值設(shè)置太大,會將一些本來不屬于數(shù)據(jù)庫中類別的人臉圖像送入SVM識別器,從而導致誤識率的提高。
從表1可以看到,將拒識閾值T設(shè)置為2850,采用線性判別分析方法以及基于支持向量機的多分類器融合的人臉識別方法識別率是97.49%,拒識率是2.51%。表明我們提出提出的基于多分類器融合的人臉識別方法是合理的,具有較強的實用價值。
3 結(jié)束語
本文對動態(tài)人臉識別系統(tǒng)的相關(guān)技術(shù)進行探討,提出了動態(tài)人臉識別的預處理、相關(guān)性處理和識別過程,主要提出了新的多分類器融合的人臉識別算法。將不同的分類器信息通過融合技術(shù),進行有效地相互補充,發(fā)揮各個分類器的優(yōu)勢。該多分類器組合方法不僅充分利用了支持向量機識別率高和距離度量速度快的優(yōu)點,而且還利用距離度量的結(jié)果指導支持向量機的訓練和測試。實驗表明,該多分類器組合方法具有較高的效率和識別精度以及較低的誤識率。
參考文獻:
[1] Yang J,Yang J Y.Why can LDA be performed in PCA transformed sapce[J].Pattern Recognition,2003,36(2):563-566.
[2] 邊肇祺,張學工.模式識別[M].北京:清華大學出版社,2000.
[3] Killter J,Hatef M,Duin R P Wetal.On Combining Classifiers[J].IEEE Transactions on Pattern Analysis and Machine Intelligence.1998,20(3):226-239.
[4] 葉俊勇,汪同慶,楊波,等.基于支持向量機的人臉檢測算法[J].計算機工程,2003,29(2):23-25.