崔建濤, 范乃梅, 鄧璐娟
(鄭州輕工業(yè)學(xué)院 軟件學(xué)院, 鄭州 450002)
?
基于視覺詞袋模型的人臉識別方法
崔建濤*, 范乃梅, 鄧璐娟
(鄭州輕工業(yè)學(xué)院 軟件學(xué)院, 鄭州 450002)
近年來,基于視頻的人臉識別吸引了很多人的關(guān)注,同時,視覺詞袋模型已成功應(yīng)用于圖像檢索和對象識別中.論文提出了一種基于視覺詞袋模型的人臉識別方法,該方法首先在興趣點(diǎn)提取尺度不變特征變換的圖像描述,這些興趣點(diǎn)由高斯差分檢測,然后基于k均值生成視覺詞匯,并使用視覺單詞的索引以取代這些描述符.然而,在人臉圖像中,由于面部姿勢失真,面部表情和光照條件變化,采用尺度不變特征變換描述符后識別效果并不理想.因此,論文使用仿射尺度不變特征變換描述符作為人臉圖像表示法.在Yale及ORL人臉數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果表明,在人臉識別中,本文方法可以獲得較低的錯誤率.
人臉識別; 視覺詞袋; 圖像檢索
隨著人臉識別技術(shù)在安全驗(yàn)證、醫(yī)學(xué)、檔案管理、人機(jī)交互、公安、視頻會議和圖像檢索等領(lǐng)域的廣泛應(yīng)用,人臉識別已經(jīng)成為計算機(jī)視覺和模式識別領(lǐng)域的一個研究熱點(diǎn).人臉識別的挑戰(zhàn)來源于視覺刺激的巨大變化,包括光照條件、視覺角度、面部表情、年齡及喬裝等.在過去的20年里,人們提出了大量的人臉識別方法來解決這些具有挑戰(zhàn)性的問題,如文獻(xiàn)[1]所述.這些方法大致可以分為兩類:基于幾何的方法及基于面部的方法.前者通常用相關(guān)位置或者判別特征的其它參數(shù)來表示一張人臉圖像,如眼睛、嘴巴、鼻子、下巴等.相反,基于面部的方法通常將一個人臉圖像視為空間中的一個樣本.自從19世紀(jì)90年代,因?yàn)楹唵味指咝?,基于面部的方法已?jīng)占據(jù)了人臉識別領(lǐng)域的主導(dǎo)地位.
基于視頻的人臉識別一直是一個熱門的研究課題,已經(jīng)提出許多著名的方法克服了人臉識別問題.其中,主成分分析(PCA)[2]在特征空間中尋找一個子空間,其子空間具有最大的方差,然后把特征向量投影在子空間中.線性判別分析(LDA)[3]試圖獲得另一個子空間,它可以最大化類間方差與類內(nèi)方差間的比例.局部保持投影(LPP)也試圖找到一個最優(yōu)的線性轉(zhuǎn)換,在一定意義上,它保持了數(shù)據(jù)集的本地鄰居信息.
最近,提出了基于多幅圖像/視頻序列的人臉識別方法.互子空間法(MSM)[4]考慮了輸入和作為相似性度量的參考子空間之間的最小角度,每個子空間是由PCA在每個人的圖像序列上操作得到的.限制性互子空間法(CMSM)[4]對MSM有所改進(jìn),其輸入和參考子空間的構(gòu)建與MSM相同,除了這些子空間的基礎(chǔ)進(jìn)一步投影到約束的子空間,投影用于計算兩個人之間的相似度.
上面所有的方法都集中在投影和特征向量的轉(zhuǎn)換上,這些方法所使用的人臉圖像的特征向量,通常是以行為為主要順序的簡單灰度值.然而,在人臉識別中,特征的選擇和提取也是非常重要的.最近,在許多計算可視化問題中,使用了視覺詞袋(BoWs)圖像表示法,表現(xiàn)出了令人印象深刻的性能.第一次在興趣點(diǎn)上提取尺度不變特征變換(SIFT)[5]的圖像特征,興趣點(diǎn)通常用高斯差分(DoG)方法進(jìn)行檢測.然后,一個聚類方法將這些SIFT特征轉(zhuǎn)換成碼字直方圖.最后,兩個圖像之間的相似度可以通過直方圖之間的距離來測定.
對同一個人在不同的位置和角度進(jìn)行明顯的變形,由相機(jī)拍下不同的人臉圖像,圖像平面的仿射變換可以緩和這些變形.仿射變換的參數(shù)包括尺度、旋轉(zhuǎn)、平移、相機(jī)的經(jīng)緯度角.雖然SIFT方法中,上述五個參數(shù)中有三個是不變的,但是它仍不夠好.本文提出的ASIFT方法涵蓋所有的參數(shù),并且已被證明是完全仿射不變的.而且,通過兩種分辨率方案,ASIFT方法的計算復(fù)雜度,可以減少到SIFT方法的一半.
本文提出使用ASIFT視覺單詞作為人臉圖像表示法.在Yale及ORL人臉數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果表明,ASIFT視覺單詞方法比其它經(jīng)典方法要好的多.
1.1 尺度不變特征變換(SIFT)
SIFT方法通過旋轉(zhuǎn)比較了兩個圖像,平移和標(biāo)度的變化來決定是否可由一張圖像推導(dǎo)出另一張圖像.為了實(shí)現(xiàn)規(guī)模不變性,SIFT模擬放大尺度空間.可以通過搜索所有可能尺度的穩(wěn)定點(diǎn),這些穩(wěn)定點(diǎn)是不變的尺度變化.圖像的尺度空間由該圖像的卷積和一個在多尺度下可變規(guī)模高斯G(x,y,σ)形成,其中σ是尺度參數(shù).卷積結(jié)果可定義為:
L(x,y,σ)=G(x,y,σ)*I(x,y),
(1)
其中,*表示坐標(biāo)(x,y)的卷積操作,并且,
(2)
為了在尺度空間有效地檢測到穩(wěn)定的關(guān)鍵點(diǎn),使用文獻(xiàn)[4]中Lowe提出的方法,它使用了圖像的高斯差分函數(shù)卷積.兩個鄰近尺度分離差異,由一個恒定的尺度因子c計算為
D(x,y,σ)=(G(x,y,cσ)-G(x,y,σ))I(x,y)=L(x,y,cσ)-L(x,y,σ).
(3)
在尺度空間特征描述的任何情況下,每個尺度的平滑圖像L都需要計算.因此,在這個方法中的D可以用簡單的圖像減法來計算.
為了可靠地檢測到極值,有一個重要的問題,關(guān)于如何在尺度和空間域確定采樣頻率.這里,我們使用由Lowe所做的設(shè)置,每倍頻程有3個尺度,高斯G的標(biāo)準(zhǔn)偏差σ設(shè)置為0.5.
除了所有的采樣問題,和應(yīng)用一些閾值來消除不可靠的特征,SIFT方法計算了空間拉普拉斯算子L(x,y,σ)的尺度空間極值(xi,yi,σi),和這些每個極值的正方形圖像小塊樣品的中心(xi,yi),這對其鄰居有主導(dǎo)梯度.因?yàn)樵诔叨圈襥產(chǎn)生的圖像小塊是基于梯度方向搜索,它的光照變化是不變的.此外,只有梯度方向的局部直方圖被保留,SIFT描述符對平移和旋轉(zhuǎn)是不變的.
1.2 仿射SIFT(ASIFT)
SIFT方法的主要成分是,結(jié)合模擬所有查詢圖像縮放和旋轉(zhuǎn)標(biāo)準(zhǔn)化及平移的想法.基于這個想法,ASIFT方法模擬兩個相機(jī)軸參數(shù),經(jīng)度角和緯度角(相當(dāng)于傾斜),然后應(yīng)用SIFT方法來模擬尺度(縮小)和標(biāo)準(zhǔn)化平移和旋轉(zhuǎn).
步驟2:由于要考慮計算效率,對有限數(shù)量的緯度角和經(jīng)度角執(zhí)行采樣步驟.
步驟3:查詢圖像中,所有模擬的圖像用相似度匹配方法(SIFT)進(jìn)行比較.
1.2.2 用兩種分辨率計劃加速ASIFT 兩種分辨率方案是用來加速計算兩幅圖像之間相似性過程.該方案的主要思想就是,首先選擇仿射變換,在低分辨率產(chǎn)生足夠的匹配.然后,在這些選定的仿射變換和在原始分辨率的圖像中,模擬查詢和搜索到的圖像.最后,計算這些模擬圖像之間的相似性.兩種分辨率的步驟的方案總結(jié)如下:
步驟1:使用高斯濾波器和降低采樣運(yùn)算符,計算查詢圖像u和搜索圖像v的低分辨率圖像.得到的低分辨率圖像,可以定義為:
u′=PFGFu,v′=PFGFv,
(4)
其中,u′和v′各自是u和v的低分辨率圖像.GF和PF各自是高斯濾波器和降低采樣運(yùn)算符.下標(biāo)F代表運(yùn)算符因子的大小.
步驟2:對u′和v′應(yīng)用ASIFT方法.
步驟3:選擇M仿射變換,產(chǎn)生u′和v′之間良好的匹配.
步驟4:在步驟3選擇的M仿射變換下,對u和v應(yīng)用ASIFT方法.在M仿射變換中,選擇最好的匹配作為u和v之間的相似性.
同一個人的面部姿態(tài)和角度變化得越大,SIFT方法就越無法找到任何匹配.在所有的例子中,ASIFT方法的匹配能力明顯優(yōu)于SIFT方法.
1.3 提出的方法
(5)
其中,Ei(j)表示如下
(6)
H(i)是一個長度為z的直方圖,同時,它也是這種人臉的視覺單詞表示法.兩張人臉中,兩種視覺單詞表示法之間的距離,可以由巴氏距離評估.
1.4 視頻序列中人臉識別性能評估
視頻序列的人臉分類有很多方案,如概率多數(shù)表決制和在文獻(xiàn)[7]中提到的貝葉斯最大后驗(yàn)概率的方案.在兩個方案中,可通過考慮該測試圖像和當(dāng)前視頻序列中所有圖像之間的相似性,來計算測試圖像和視頻序列之間的相似性.這是不恰當(dāng)?shù)?,因?yàn)橥粋€人具有不同的面部姿勢的兩張人臉圖像可能會帶來較低的相似性.這將降低同一個人測試圖像和視頻序列之間的整體相似度.本文定義測試圖像w和視頻序列S之間的相似性為:
(7)
其中,si是在視頻序列S中的人臉圖像.該定義中,在一張測試圖像和視頻序列中所有人臉圖像之間的相似性中,我們只使用最大的相似性.
2.1 人臉數(shù)據(jù)庫
使用流行的Yale及ORL人臉數(shù)據(jù)庫來估算人臉識別的性能.
Yale人臉庫包含了15個人的165張人臉,每人11張,包括了不同光照條件(燈光往左照射、往右照射、往中間照射),不同的面部表情(正常的、開心的、沮喪的、睡著的、驚訝的以及眨眼的),不同場景的(戴眼鏡的和不戴眼鏡的),如圖1所示為Yale人臉庫中一個人的11副具有不同特征的人臉圖像.
圖1 Yale人臉庫中某人的11副人臉圖像
ORL人臉庫共有40個人的400張圖片,每人10張,其中有些圖像是拍攝于不同時期的,人的臉部表情和臉部細(xì)節(jié)有著不同程度的變化,比如笑或者不笑、眼睛或睜或閉、戴或不戴眼鏡,人臉姿態(tài)也有相當(dāng)程度的變化,深度旋轉(zhuǎn)和平面旋轉(zhuǎn)可達(dá)20度,人臉尺度也有多達(dá)10%的變化.如圖2所示為ORL上某人的10張人臉圖像.
圖2 ORL人臉庫中某人的10張人臉圖像
2.2 實(shí)驗(yàn)結(jié)果及分析
對于所有的視頻序列,Yale的人臉檢測第一次用于檢測每幀中的人臉,然后,檢測到位置的人臉是不正確的幀將手動刪除.所有檢測到的人臉通過光照補(bǔ)償進(jìn)行預(yù)處理.在實(shí)驗(yàn)中,分別用每個對象的訓(xùn)練人臉序列前25幀,和測試人臉序列的前100幀用來進(jìn)行性能評估.在Yale數(shù)據(jù)庫和ORL數(shù)據(jù)庫中使用的視覺短語數(shù)量分別為9 000和16 384.
實(shí)驗(yàn)中,我們分別選取Yale及ORL人臉庫中的前5幅人臉圖像作為訓(xùn)練樣本,剩下的人臉圖像作為測試樣本.此外,我們將本文中的方法與幾種經(jīng)典的方法的單訓(xùn)練樣本識別率進(jìn)行了比較,包括PCA[2],(PC)2A[4],以及SIFT視覺單詞[5],局部Gabor二值模式(LGBP)[6], LBP[8].
針對上面提到的幾種比較方法,本文作者的實(shí)驗(yàn)步驟簡單介紹如下.PCA方法中,取95%的能量來確定主成分?jǐn)?shù);(PC)2A方法中只有1個自由參數(shù)α,是人臉圖像的投影組合權(quán)重,文獻(xiàn)[4]中提到,當(dāng)α的值在0.1至0.5之間時,(PC)2A的性能對α不敏感,因此,在實(shí)驗(yàn)中取值0.3;類似地,在LBP中,人臉圖像的分塊對性能的影響很大,在實(shí)驗(yàn)中采用了4種不同的分塊數(shù)(16、32、40、72),選取了最佳的實(shí)驗(yàn)結(jié)果(72);LGBP、及SIFT視覺單詞的所有參數(shù)設(shè)置都與參考文獻(xiàn)相同.幾種方法在Yale及ORL上的實(shí)驗(yàn)結(jié)果如表1所示.
表1 6個方法在Yale上的人臉識別率
通過表1可以清晰地看到,在Yale及ORL人臉庫上,本文方法的識別率明顯高于文獻(xiàn)其它方法.其中,在Yale上,本文方法比PCA方法高了16個百分點(diǎn),比(PC)2A方法高了13個百分點(diǎn),比LBP方法高了12個百分點(diǎn),比LGBP方法高了14個百分點(diǎn),比SIFT視覺單詞方法高了16個百分點(diǎn),本文方法的優(yōu)越性由此可見.
在ORL人臉庫上,本文方法比PCA方法高了近8個百分點(diǎn),比(PC)2A方法高了5個百分點(diǎn),比LBP方法高了4個百分點(diǎn),比LGBP方法高了3.7個百分點(diǎn),比SIFT視覺單詞方法高了2個百分點(diǎn),再次驗(yàn)證了本文方法的高識別率.
本文方法在SIFT視覺單詞的基礎(chǔ)上,引入了仿射思想,與SIFT視覺單詞方法相比較,識別率得到了大大地提高,由此可見,仿射對解決表情、光照等的變化是很有效的.
本文針對基于視頻的人臉識別問題進(jìn)行了研究,采用了仿射尺度不變特征變換(ASIFT)方法,利用視覺單詞,在興趣點(diǎn)提取尺度不變特征變換的圖像描述,并且借助于高斯差分檢測,生成基于K均值的視覺單詞,以索引取代描述符,實(shí)現(xiàn)了人臉的識別嗎,解決了由于面部姿態(tài)、面部表情和光照條件變化所帶了的失真問題.
在Yale及其ORL兩大人臉數(shù)據(jù)庫上進(jìn)行了實(shí)驗(yàn),證明了本文所提方法的優(yōu)越性.仿射尺度不變特征變換(ASIFT)方法的引用,提高了人臉識別率,但在一定程度上增加了額外的計算開銷,所以,如何在提高識別率的同時,改進(jìn)算法的效率,將是進(jìn)一步研究的重點(diǎn).
[1]ZhangZ,WangJ,ZhaH.Adaptivemanifoldlearning[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2012, 34(1):131-137.
[2]Arandjelovic'O.Computationallyefficientapplicationofthegenericshape-illuminationinvarianttofacerecognitionfromvideo[J].PatternRecognition, 2012, 45(1): 92-103.
[3]ConnollyJF,GrangerE,SabourinR.Anadaptiveclassificationsystemforvideo-basedfacerecognition[J].InformationSciences2012, 192(1): 50-70.
[4]LoweD.Distinctiveimagefeaturesfromscale-invariantkeypoints[J].IntJComputVis, 2004, 60(2): 91-110.
[5]XieZ,LiuG,F(xiàn)angZ.Facerecognitionbasedoncombinationofhumanperceptionandlocalbinarypattern[J].LectureNotesinComputerScience, 2012, 72(2): 365-373.
[6]JiangX,MandalB,KotA.Eigenfeatureregularizationandextractioninfacerecognition[J].IEEETransPatternAnalysisandMachineIntelligence, 2008, 30(3): 383-391.
[7]HafizF,ShafieAA,MustafahYM.Facerecognitionfromsinglesampleperpersonbylearningofgenericdiscriminantcectors[J].ProcediaEngineering, 2012, 45(1): 465-472.
[8]WrightJ,YangAY,GaneshA,etal.Facerecognitionviasparserepresentation[J].IEEETransPatternAnalysisandMachineIntelligence, 2009, 31(2): 210-227.
Face recognition based on bag-of-visual word model
CUI Jiantao, FAN Naimei, DENG Lujuan
(School of Software, Zhengzhou University of Light Industry, Zhengzhou 450002)
Recent years, face recognition based on video has been concerned by more and more persons. At the same time, bag-of-visual words (BoWs) representation has been successfully applied in image retrieval and object recognition recently. In this paper, a video-based face recognition approach which uses visual words is proposed. In classic visual words, scale invariant feature transform (SIFT) descriptors of an image are firstly extracted on interest points detected by difference of Gaussian (DoG), then k-means-based visual vocabulary generation is applied to replace these descriptors with the indexes of the closet visual words. However, in facial images, SIFT descriptors are not good enough due to facial pose distortion, facial expression and lighting condition variation. In this paper, we use Affine-SIFT (ASIFT) descriptors as facial image representation. Experimental results on Yale and ORL Database suggest that proposed method can achieve lower error rates in face recognition task.
face recognition; bag-of-visual word; image retrieval
2014-09-11.
國家自然科學(xué)基金項(xiàng)目(61040025).
1000-1190(2015)01-0025-04
TP391.41
A
*通訊聯(lián)系人. E-mail: 66617880@qq.com.