周鑫燚,張軍朝,甘勝江
(1.成都師范學(xué)院 計(jì)算機(jī)科學(xué)系,四川 成都 611130;2.太原理工大學(xué)電氣與動(dòng)力工程學(xué)院,山西 太原 030024)
目前,基于二維圖像的人臉識(shí)別方法[1]是人臉識(shí)別技術(shù)的研究主流,其主要思路是從二維人臉圖像中提取顯著和穩(wěn)健的面部特征,采用機(jī)器學(xué)習(xí)等方法進(jìn)行特征分類,實(shí)現(xiàn)人臉的識(shí)別[2]。識(shí)別率是人臉識(shí)別方法的重要評(píng)判指標(biāo)。由于人臉圖像采集時(shí)經(jīng)常受光照、表情、姿態(tài)和遮擋等影響,導(dǎo)致同一個(gè)體的人臉圖像類內(nèi)差異增大,降低了人臉識(shí)別率[3]。為了提高識(shí)別率,需要增強(qiáng)人臉特征對(duì)光照、表情、姿態(tài)和遮擋的魯棒性。近些年這一方面取得了許多研究成果[4-13],如文獻(xiàn)[7]采用非負(fù)矩陣因子分解(non-negative matrix factorization)和Gabor變換提取人臉特征,增強(qiáng)了人臉特征對(duì)于遮擋和表情變化的魯棒性;文獻(xiàn)[8]將人臉圖像劃分為不同的圖像塊,提取尺度不變特征變換(scale invariant feature transform)特征,結(jié)合高斯混合模型(Gaussian mixture model)進(jìn)行特征的濾波和融合,增強(qiáng)了人臉特征對(duì)于光照、姿態(tài)和遮擋變化的魯棒性;文獻(xiàn)[9]提出一種優(yōu)化的稀疏深度學(xué)習(xí)網(wǎng)絡(luò)模型(optimized sparse deep learning network model),并采用局部結(jié)構(gòu)稀疏表示來(lái)提取人臉特征,對(duì)于人臉的表情、姿態(tài)變化具有較強(qiáng)的魯棒性。上述方法都在一定程度上提高了人臉識(shí)別率,但對(duì)于一些受光照、表情、姿態(tài)和遮擋等影響較大的數(shù)據(jù)集(如AR和YALE-B人臉數(shù)據(jù)集),這些方法的識(shí)別率還有待進(jìn)一步提高。
本文針對(duì)光照、表情、姿態(tài)和遮擋變化對(duì)人臉識(shí)別性能的影響,提出了一種結(jié)合局部方向模式和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的人臉識(shí)別方法,采用主動(dòng)形狀模型(active shape models,ASM)校正人臉姿態(tài),降低姿態(tài)變化的影響;采用局部方向模式變換減少光照和表情變化的影響;融合局部方向模式圖像的五官部位局部方向特征以及約簡(jiǎn)局部方向模式圖像的卷積神經(jīng)網(wǎng)絡(luò)特征,增強(qiáng)人臉特征對(duì)光照、姿態(tài)、表情、遮擋等變化的魯棒性,最終采用隨機(jī)森林方法對(duì)特征進(jìn)行學(xué)習(xí)和分類,可以有效提高復(fù)雜人臉圖像數(shù)據(jù)集上的人臉識(shí)別率。
本文結(jié)合局部方向模式和卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行人臉識(shí)別,首先,對(duì)人臉圖像進(jìn)行面部區(qū)域規(guī)范化處理,主要目標(biāo)是去除干擾區(qū)域和校正面部姿態(tài)。然后對(duì)面部區(qū)域進(jìn)行模式變換,采用維數(shù)約簡(jiǎn)的局部方向模式表示面部灰度分布,突出梯度信息,降低光照影響。接著在變換后的圖像上,采用卷積神經(jīng)網(wǎng)絡(luò)提取全局人臉特征,區(qū)分不同人臉。同時(shí),考慮到五官局部區(qū)域?qū)τ诿枋霾煌四槻町惖闹匾?,提取五官局部區(qū)域的局部方向直方圖特征,并將局部特征與全局特征融合在一起,作為面部區(qū)域的多模式特征表達(dá)。最后,采用隨機(jī)森林分類器進(jìn)行特征的學(xué)習(xí)與分類,實(shí)現(xiàn)人臉識(shí)別。本文方法的實(shí)現(xiàn)流程如圖1所示,詳細(xì)過(guò)程描述如下。
圖1 本文方法實(shí)現(xiàn)流程
對(duì)于人臉識(shí)別而言,不同個(gè)體的人臉差異主要表現(xiàn)在面部五官的形態(tài)分布差異。而用于人臉識(shí)別算法評(píng)測(cè)的許多測(cè)試數(shù)據(jù)集中,人臉圖像中還包含頭發(fā)、肩膀區(qū)域,這些區(qū)域的灰度分布差異會(huì)影響人臉識(shí)別的結(jié)果。另外,人臉姿態(tài)差異也可能對(duì)人臉識(shí)別結(jié)果造成很大影響。因此,本文首先要進(jìn)行面部區(qū)域的規(guī)范化處理,主要包括兩個(gè)部分的工作。第一,定位人臉圖像中關(guān)鍵點(diǎn)位置,校正人臉姿態(tài),裁剪面部區(qū)域圖像;第二,規(guī)范化面部圖像的尺寸。
(1)姿態(tài)校正與面部區(qū)域裁剪
目前常用的人臉圖像關(guān)鍵點(diǎn)定位方法是ASM方法,該方法可以精確定位眉毛、眼睛、嘴巴、鼻子、臉頰部位的外圍輪廓關(guān)鍵點(diǎn)位置。圖2為本文采用的ASM方法的關(guān)鍵點(diǎn)分布(限于圖像分辨率,部分面部關(guān)鍵點(diǎn)的序號(hào)未標(biāo)出),可見(jiàn),面部區(qū)域共提取68個(gè)關(guān)鍵點(diǎn),具體實(shí)現(xiàn)方法詳見(jiàn)文獻(xiàn)[14]。
圖2 ASM關(guān)鍵點(diǎn)位置分布
得到這些關(guān)鍵點(diǎn)之后,本文依據(jù)兩眼中心的位置來(lái)校正人臉姿態(tài)。具體地,左眼中心坐標(biāo)可以表示為
(1)
式中:(xi,yi)表示圖2中序號(hào)為i的關(guān)鍵點(diǎn)坐標(biāo)。
類似地,右眼中心坐標(biāo)可以表示為
(2)
那么,左眼與右眼中心連線與水平方向的夾角可以表示為
(3)
本文進(jìn)行人臉姿態(tài)校正的目標(biāo)是將兩眼中心旋轉(zhuǎn)至水平方向。因此,本文按照順時(shí)針?lè)较?,將待處理圖像以及對(duì)應(yīng)的ASM關(guān)鍵點(diǎn)坐標(biāo)旋轉(zhuǎn)角度θ。
校正完人臉的姿態(tài)之后,本文依據(jù)ASM關(guān)鍵點(diǎn)的最大外接矩形來(lái)裁剪面部區(qū)域。具體地,裁剪矩形區(qū)域可以表示為
(4)
式中:(xrect,yrect)表示裁剪矩形區(qū)域的左上角坐標(biāo),wrect和hrect分別表示裁剪矩形區(qū)域的寬度和高度?!癿ax”和“min”分別表示取最大值和取最小值。
這樣,從姿態(tài)校正后的圖像中裁剪矩形框(xrect,yrect,wrect,hrect)中面部區(qū)域圖像。裁剪后的圖像去除了肩部、頭頂部區(qū)域,可以降低發(fā)型、著裝等差異對(duì)人臉識(shí)別結(jié)果的影響。
(2)圖像尺寸規(guī)范化
由于每一幅人臉圖像中五官等關(guān)鍵點(diǎn)的位置分布是不同的,這樣經(jīng)過(guò)裁剪之后的面部區(qū)域圖像的尺寸是不同的。為了便于后續(xù)特征提取過(guò)程的規(guī)范化,本文對(duì)裁剪后的面部區(qū)域圖像進(jìn)行尺寸規(guī)范化處理。具體地,采用雙線性插值算法,將裁剪后的面部圖像尺寸的規(guī)范化到96×96。同時(shí),對(duì)應(yīng)的ASM關(guān)鍵點(diǎn)坐標(biāo)也按相同的變換比例規(guī)范化到96×96的圖像上。
考慮到面部區(qū)域圖像的清晰度和光照差異可能影響人臉識(shí)別結(jié)果,因此本文對(duì)面部區(qū)域圖像進(jìn)行局部方向模式變換,突出各像素點(diǎn)的相對(duì)亮度信息,降低清晰度和光照差異對(duì)人臉識(shí)別的影響。具體地,本文采用如圖3所示的Kirsch掩膜,對(duì)圖像中的每一個(gè)像素點(diǎn)所在的3×3鄰域圖像塊進(jìn)行卷積運(yùn)算,計(jì)算每一個(gè)像素點(diǎn)在8個(gè)方向上的響應(yīng)值。再對(duì)8個(gè)響應(yīng)值進(jìn)行二值化,組成一個(gè)8位的二值編碼,作為該像素點(diǎn)的局部方向響應(yīng)。譬如,對(duì)于像素點(diǎn)(x,y),該像素點(diǎn)所在的3×3鄰域圖像塊經(jīng)Kirsch掩膜卷積之后,得到的8個(gè)方向上的響應(yīng)值記為m0(x,y),m1(x,y),…m7(x,y)。響應(yīng)值的均值為
(5)
圖3 Kirsch掩膜
本文采用均值作為固定閾值進(jìn)行二值化,二值化后各個(gè)方向的響應(yīng)值可以表示為
(6)
這樣,像素點(diǎn)(x,y)的局部方向響應(yīng)可以表示為
(7)
本文用IT表示變換后的局部方向模式圖像,該圖像的尺寸仍為96×96。需要說(shuō)明的是,邊界區(qū)域無(wú)法計(jì)算局部方向響應(yīng),此時(shí)采用與各邊界點(diǎn)距離最近的像素點(diǎn)中已計(jì)算出的局部方向響應(yīng)來(lái)代替。
為了降低后續(xù)全局特征提取的運(yùn)算量,同時(shí)也是為了降低噪聲和表情變化干擾,本文再對(duì)局部方向模式圖像進(jìn)行區(qū)域異或運(yùn)算,得到一個(gè)低維的約簡(jiǎn)局部方向模式圖像,記為IL。具體實(shí)現(xiàn)方法是,將局部方向模式圖像IT劃分為互不重疊的尺寸為3×3的圖像塊,然后對(duì)每一個(gè)圖像子塊,計(jì)算中心像素點(diǎn)周圍8個(gè)鄰域像素點(diǎn)的局部方向響應(yīng)的異或結(jié)果,表示為
ci=(((c1⊕c2)⊕c3)…⊕c8)
(8)
式中:“⊕”表示“異或”運(yùn)算。c1,c2,…,c8分別表示圖像塊i的中心像素點(diǎn)周圍8個(gè)鄰域像素點(diǎn)的局部方向響應(yīng),ci表示圖像塊i的異或結(jié)果。
對(duì)于面部圖像而言,五官區(qū)域?qū)τ趨^(qū)分不同人臉的貢獻(xiàn)更大,因此,本文提取五官區(qū)域的局部方向模式特征,輔助全局特征進(jìn)行人臉識(shí)別。
首先,本文依據(jù)ASM關(guān)鍵點(diǎn)坐標(biāo)(這里指尺寸校正后的關(guān)鍵點(diǎn)坐標(biāo))切分出3個(gè)圖像塊,分別是左眼眉區(qū)域RectL={xL,yL,wL,hL}、右眼眉區(qū)域RectR={xR,yR,wR,hR}和嘴鼻區(qū)域RectC={xC,yC,wC,hC}。結(jié)合圖2,這3個(gè)區(qū)域可以表示為
(9)
(10)
(11)
圖4 LeNet5網(wǎng)絡(luò)架構(gòu)
本文選擇3個(gè)公開的人臉圖像數(shù)據(jù)集,分別為ORL、AR和YALE-B,簡(jiǎn)要介紹見(jiàn)表1,部分樣本示例如圖5所示。
表1 實(shí)驗(yàn)數(shù)據(jù)集簡(jiǎn)介
圖5 實(shí)驗(yàn)數(shù)據(jù)集樣本
這3個(gè)數(shù)據(jù)集中的人臉圖像都包含了光照、表情、姿態(tài)和遮擋等變化,相對(duì)而言,ORL數(shù)據(jù)集下人臉的變化幅度比較小,而AR和YALE-B數(shù)據(jù)集下的人臉變化幅度較大。在本文的實(shí)驗(yàn)中,將3個(gè)數(shù)據(jù)集都劃分為兩個(gè)數(shù)據(jù)子集,分別為訓(xùn)練樣本子集和測(cè)試樣本子集。其中,ORL數(shù)據(jù)集中每一個(gè)人臉類別選擇前5幅圖像放入訓(xùn)練樣本子集,后5幅圖像放入測(cè)試樣本子集。AR數(shù)據(jù)集中每一個(gè)人臉類別拍攝了兩組圖像,選擇每組圖像的前5幅圖像放入訓(xùn)練樣本子集(也即每一人臉類別有10幅圖像用于訓(xùn)練),剩余16幅圖像放入測(cè)試樣本子集。YALE-B數(shù)據(jù)集中每一個(gè)人臉類別選擇前20幅圖像放入訓(xùn)練樣本子集,后44幅圖像放入測(cè)試樣本子集。
本文選擇人臉識(shí)別領(lǐng)域近五年性能較好的3種方法(詳見(jiàn)文獻(xiàn)[7-9])進(jìn)行對(duì)比實(shí)驗(yàn),定量評(píng)價(jià)本文方法的性能。實(shí)驗(yàn)所用的訓(xùn)練數(shù)據(jù)集、測(cè)試數(shù)據(jù)集、計(jì)算機(jī)軟硬件環(huán)境和評(píng)價(jià)指標(biāo)都一致。其中,數(shù)據(jù)集如上一節(jié)所述,各種方法都分別在3個(gè)數(shù)據(jù)集下進(jìn)行獨(dú)立的訓(xùn)練和測(cè)試。各種方法所用的計(jì)算機(jī)軟硬件環(huán)境相同,主要性能指標(biāo)為:CPU:Intel(R) Core(TM) i5-4570 3.20 GHZ;內(nèi)存:16 G DDR3;操作系統(tǒng):Windows 7 64bits;集成開發(fā)環(huán)境:Visual Studio 2013;計(jì)算機(jī)視覺(jué)庫(kù):OpenCV 3.0.0。
本文采用人臉識(shí)別領(lǐng)域常用的兩個(gè)性能評(píng)價(jià)指標(biāo):識(shí)別率和平均耗時(shí),識(shí)別率可以定義為正確識(shí)別的人臉圖像數(shù)量與測(cè)試集中人臉圖像總數(shù)的比值,平均耗時(shí)可以定義為完成一幅人臉圖像識(shí)別所耗費(fèi)的平均時(shí)間,這并不包含數(shù)據(jù)訓(xùn)練過(guò)程所耗費(fèi)時(shí)間。下面采用這兩個(gè)性能評(píng)價(jià)指標(biāo)定量評(píng)價(jià)本文方法的性能。
圖6展示了3個(gè)數(shù)據(jù)集下4種人臉識(shí)別方法的識(shí)別率對(duì)比結(jié)果。很明顯,本文方法在3個(gè)數(shù)據(jù)集下的識(shí)別率都是最高的,尤其是在YALE-B數(shù)據(jù)集上,本文方向的識(shí)別率高于排名第二的文獻(xiàn)[9]所述方法的識(shí)別率14%以上。這是因?yàn)閅ALE-B數(shù)據(jù)集下面部區(qū)域的光照變化非常大,而本文方法基于局部方向模式圖像提取全局和局部特征,受光照變化的影響小。而且,本文方法采用ASM方法進(jìn)行面部姿態(tài)的校正和面部區(qū)域的裁剪,使得同類人臉圖像的據(jù)真率很低,從而提高了整體的識(shí)別率。同時(shí),本文在約簡(jiǎn)局部方向模式圖像上采用CNN方法提取特征,特征的魯棒性進(jìn)一步增強(qiáng),有利于提高不同光照、表情、姿態(tài)和遮擋等變化下的人臉識(shí)別率。
圖6 不同人臉識(shí)別方法的識(shí)別率指標(biāo)對(duì)比
表2展示了不同人臉識(shí)別方法的平均耗時(shí)指標(biāo)對(duì)比結(jié)果,可見(jiàn),本文方法的平均耗時(shí)低于文獻(xiàn)[9]所述方法,與文獻(xiàn)[8]所述方法相當(dāng),但高于文獻(xiàn)[7]所述方法。但是,本文方法在AR和YALE-B兩個(gè)數(shù)據(jù)集上的識(shí)別率遠(yuǎn)高于文獻(xiàn)[7]所述方法,且本文方法的處理速度也滿足實(shí)時(shí)處理的要求(處理耗時(shí)小于40 ms),因此,本文方法是一種實(shí)用的人臉識(shí)別方法。
表2 不同人臉識(shí)別方法的平均耗時(shí)指標(biāo)對(duì)比(單位:ms)
本文提出了一種結(jié)合局部方向模式和卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別方法,設(shè)計(jì)思想是:第一,采用主動(dòng)形狀模型定位人臉圖像中的關(guān)鍵點(diǎn)位置,校正人臉姿態(tài)和去除干擾區(qū)域,降低人臉姿態(tài)以及背景區(qū)域?qū)θ四樧R(shí)別的影響;第二,采用局部方向模式變換降低光照和表情變化對(duì)人臉識(shí)別的影響;第三,在局部方向模式圖像上提取五官部位的局部方向特征,在約簡(jiǎn)局部方向模式圖像上采用卷積神經(jīng)網(wǎng)絡(luò)提取全局特征,融合構(gòu)成多模式的人臉特征,提高特征對(duì)光照、姿態(tài)、表情、遮擋等變化的魯棒性,并采用隨機(jī)森林方法對(duì)特征進(jìn)行學(xué)習(xí)和分類,提高人臉識(shí)別率。實(shí)驗(yàn)結(jié)果表明,與目前常用的人臉識(shí)別方法相比,本文方法在ORL、AR和YALE-B這3個(gè)數(shù)據(jù)集上都取得了更高的人臉識(shí)別率。但本文方法的運(yùn)算效率還有待提高,需要后續(xù)進(jìn)一步深入研究。