李 蕊 劉鵬宇 賈克斌
(北京工業(yè)大學電子信息與控制工程學院 北京 100124)
?
局部遮擋條件下的人臉表情識別
李蕊劉鵬宇賈克斌
(北京工業(yè)大學電子信息與控制工程學院北京 100124)
針對局部遮擋條件下的人臉表情識別,提出一種新的基于Gabor濾波和灰度共生矩陣的表情識別算法。首先設計一種分塊提取Gabor特征統(tǒng)計量的方法,生成一個低維Gabor特征向量;然后,考慮到分塊的Gabor特征缺失了像素之間的關聯(lián)性,將反映像素間位置分布特性的灰度共生矩陣引入到表情識別領域,以此來彌補Gabor特征分塊處理產(chǎn)生的不足;最后,將提取的低維Gabor特征向量和灰度共生矩陣紋理特征進行線性疊加,高斯歸一化后生成一組用于特征表達的低維特征向量。在日本女性人臉表情庫和荷蘭內(nèi)梅亨大學人臉數(shù)據(jù)庫上的實驗證明該算法對人臉不同區(qū)域、不同程度遮擋的表情識別具有魯棒性強、特征向量維數(shù)低、分類耗時短、識別速率高的特點。
人臉表情識別局部遮擋Gabor濾波灰度共生矩陣高斯歸一化
人臉表情是個人情感的外在反映,在人類情感表達中占有重要的地位。計算機通過對人臉表情進行識別,可以了解到人類對應的心理狀態(tài),從而更好地服務于人類生活的各個方面,如人機交互、智能安防、醫(yī)療監(jiān)護、心理分析等[1]。目前,多數(shù)的表情識別算法主要針對正面無遮擋的人臉表情圖像進行實驗,一定程度上保留了完整的表情信息。但在現(xiàn)實生活中,人臉表情被遮擋的情況時有發(fā)生,頭發(fā)、墨鏡、口罩、手勢等產(chǎn)生的遮擋均會造成表情信息的缺失,致使算法的識別率與魯棒性下降[2]。因此,針對局部遮擋的人臉表情圖像,提出魯棒性更強的人臉表情識別算法。它已經(jīng)成為圖像處理、模式識別等領域的重要研究課題。
特征提取是人臉表情識別中最重要的環(huán)節(jié),有效、合理的特征提取工作是決定識別性能的關鍵。Schimid等認為[3],相對于整體特征,局部特征描述子對圖像的表述更為準確,同時對圖像遮擋、噪聲等變換具有魯棒性。其中,Gabor濾波被證實在圖像局部特征提取上具有明顯的優(yōu)勢,它對遮擋條件下的表情識別具有良好效果,且二維Gabor特征與人類的視覺系統(tǒng)具有相似性。因此,諸多學者圍繞著Gabor濾波在局部遮擋的人臉表情識別上的效果展開了研究。Zhang等[4]強調了Gabor濾波器在局部紋理信息提取方面的重要作用,以及對遮擋條件下表情識別的有效性。Azmi等[5]將局部Gabor二值化模式直方圖序列(LGBPHS)引入到表情識別領域,證明了LBP和直方圖的引入對Gabor特征起到了降維的作用,同時組合算法的識別率也優(yōu)于單一算法的識別率。在此基礎上,Liu等[6]提出了Gabor多尺度特征融合與LGBPHS相結合的算法(F-LGBPHS),進一步降低了Gabor特征的維數(shù)。
由于Gabor濾波提取的表情特征往往具有較高的維度,這使得以上各種結合了Gabor特征的算法都存在計算量大、復雜度高等缺點,導致整個表情識別過程耗時較長,不利于表情識別從仿真實驗走向實際應用。為了進一步提高局部遮擋條件下的人臉表情識別的準確率,降低特征量的數(shù)據(jù)冗余,減少算法耗時,本文提出一種新的特征提取算法。該算法首先設計一種分塊提取Gabor特征統(tǒng)計量的方法,生成一個低維Gabor特征向量,大大降低了Gabor特征的數(shù)據(jù)冗余,并保留了人臉器官的空間特征;然后,該算法引入了反映圖像紋理特征的灰度共生矩陣,以此來彌補Gabor特征分塊處理造成的像素空間相關性缺失的問題;最后,將提取的Gabor特征統(tǒng)計量和灰度共生矩陣紋理特征進行線性疊加,生成一組用于特征表達的低維特征向量。在日本女性人臉表情庫JAFFE(Japanese Female Facial Expression)[7]和荷蘭內(nèi)梅亨大學人臉數(shù)據(jù)庫RaFD(Radboud Face Database)[8]上的實驗證明了該算法對于局部遮擋條件下的人臉表情識別具有魯棒性強、特征向量維數(shù)低、分類耗時短、識別速率高的特點。
基于Gabor濾波和灰度共生矩陣的特征提取過程如圖1所示。
圖1 基于Gabor濾波和灰度共生矩陣的特征提取過程
首先,用Gabor濾波和灰度共生矩陣的方法分別提取人臉表情特征:
(1) 在采用 Gabor 濾波器提取圖像特征時,首先求取圖像5個尺度、8個方向的Gabor幅度圖GMPs(Gabor magnitude pictures);然后根據(jù)人臉器官分布特征對各尺度各方向下的GMP進行分塊處理,每幅圖分為四個子塊;隨后對每個子塊求取變換系數(shù)大小的均值和標準差來代表該塊圖像的Gabor特征,這樣每個尺度每個方向下的GMP就轉化為一個4×2=8維的特征向量;最后將5個尺度、8個方向下的特征向量串聯(lián)起來生成一個8×40=320維的特征統(tǒng)計量。
(2) 在采用灰度共生矩陣的方法提取紋理特征時,首先將圖像的灰度級由256級壓縮為16級,以此簡化計算;然后構造4個角度的灰度共生矩陣,并計算4角度共生矩陣的四個統(tǒng)計量;最后求各個統(tǒng)計量的均值和標準差作為紋理特征量,這樣就得到了一個8維的紋理特征數(shù)據(jù)。
然后,將兩種方法提取的圖像特征進行線性組合,形成一組低維特征向量。
最后,對特征向量進行內(nèi)部向量的高斯歸一化處理,使各分量具有相同的權重。
1.1低維Gabor特征向量的提取
1.1.1傳統(tǒng)Gabor特征向量的提取
Gabor濾波變換是在二維測不準情況下對信號空間域和頻率域的最佳描述,是圖像辨識的最好方法之一[9]。二維Gabor小波函數(shù)定義如下:
(1)
其中,u、v定義了Gabor濾波器的尺度和方向,z=(x,y)為圖像坐標,σ是與小波頻率帶寬有關的常數(shù),ku,v=kveiφu,kv=2-(v+2)/2π為中心頻率,φ=uπ/k為方向參數(shù),e(-|ku,v|2|z|2/2σ2)是Gauss函數(shù),eiku,vz是一個振蕩函數(shù),e-σ2/2是直流分量。
提取圖像f(z)的Gabor特征就是將圖像與Gabor濾波器做卷積,定義如下:
Gu,v(z)=f(z)×Ψu,v(z)
(2)
在這里,經(jīng)常選用5個尺度、8個方向,即u={0,1,2,3,4},v={0,1,2,3,4,5,6,7},總共40個Gabor濾波器來對圖像進行分解,提取圖像多尺度多方向的Gabor特征。由于Gabor幅值信息相對相位信息比較穩(wěn)定,因此多數(shù)研究均采用幅值來描述人臉表情特征。最終形成40張GMPs,作為Gabor特征。
1.1.2分塊的Gabor特征統(tǒng)計量提取算法
利用傳統(tǒng)的算法提取圖像Gabor特征時,一幅圖像經(jīng)過40個Gabor濾波器濾波后,生成40張不同尺度、不同方向下的GMP,使得特征維數(shù)大大增加,導致整個表情識別過程耗時較長。因此,本文針對傳統(tǒng)Gabor特征提取方法的不足,提出了一種分塊的Gabor特征統(tǒng)計量的提取算法:為更有效地表征人臉,使提取的特征包含臉部空間信息,本文依據(jù)面部主要器官之間的幾何關系[10]以及實際的實驗驗證結果,對每幅GMP在垂直方向按照圖像高度h進行上、中、下三等分;然后將最上面一部分按照圖像寬度w進行二等分;最終將每幅GMP劃分為4個子塊:R0、R1、R2和R3,使4個子塊分別對應包含左眼、右眼、鼻子和嘴四類主要器官。然后對每幅GMP的每個子塊分別求取均值μu,v和標準差σu,v。公式如下:
(3)
(4)
其中GMu,v(x,y)是指第u個尺度、第v個方向上的GMP,m×n是指相應圖塊的大小。最后將每幅GMP的每個子塊提取的2維特征統(tǒng)計量串聯(lián)在一起,形成一個4×2×40=320維的特征向量,以此來代表圖像的Gabor特征。低維Gabor特征向量的提取過程如圖2所示。
圖2 低維Gabor特征向量的提取過程
1.2基于灰度共生矩陣的紋理特征向量的提取
灰度共生矩陣GLCM(gray-level co-occurrence matrix)是描述在θ方向上、相隔距離為d的一對像元分別具有灰度層i和j的出現(xiàn)概率。它是一個對稱矩陣,是用來描述圖像紋理特征的常用方法。
設大小為M×N的圖像f(x,y),灰度級為G,則滿足一定空間關系的灰度共生矩陣P(i,j)如下:
P(i,j)=#{(x1,y1),(x2,y2)∈M×N|f(x1,y1)
=i,f(x2,y2)=j}
(5)
其中#(x)表示集合x中的元素個數(shù),i,j=0,1,…,G-1是圖像的灰度。若(x1,y1)與(x2,y2)間距離為d=(Δx,Δy),兩者與坐標橫軸的夾角為θ,則可以得到各種間距及角度的灰度共生矩陣P(i,j,d,θ)。
在實際處理中,為了減少計算量,一般令d=1,即只取0°、45°、90°以及135°四個角度上的灰度共生矩陣來表示圖像特征[11],四個角度的示意圖如圖3所示。
圖3 四個角度的示意圖
灰度共生矩陣是以矩陣形式存在,無法直接應用于特征表達,因此需要進行進一步的計算,提取出相應的特征統(tǒng)計量。由GLCM能夠導出14種紋理特征統(tǒng)計量,但其在計算上的耗時可想而知。Ulaby等人[12]研究發(fā)現(xiàn):在基于GLCM 的14個紋理特征量中,僅有4個特征量是不相關的,它們分別是對比度、差熵、能量和相關。因此,本文選用這4個特征參數(shù)作為灰度共生矩陣的特征表達。
1.3高斯歸一化
由于特征向量中各個分量的物理意義和取值范圍不同,所以需要對特征向量進行歸一化,使各分量歸一化到相同的區(qū)間上。這樣可以減少計算量,提高圖像判別的速度和成功率。
最常用的是高斯歸一化方法。假設N維的特征向量記為F=[f1,f2,…,fN],I1,I2,…,IM代表圖像庫中的圖像,則對任意一幅圖像Ii,其對應的特征向量為Fi=[fi,1,fi,2,…,fi,N]??衫檬?6)將fi,j歸一化至區(qū)間[-1,1]:
(6)
其中,mj和σj分別表示特征分量值系列[f1,j,f2,j,…,fM,j]的均值和標準差[9]。
2.1實驗數(shù)據(jù)
由于目前尚沒有一個通用的局部遮擋條件下的人臉表情庫可供使用,所以多數(shù)學者選擇在正常人臉庫上進行遮擋處理以獲取實驗數(shù)據(jù)。
為了充分驗證本文算法的識別性能,本文采用多數(shù)據(jù)庫的方法,即同時采用JAFFE和RaFD兩個數(shù)據(jù)庫進行實驗。JAFFE數(shù)據(jù)庫中的表情樣本均取自于日本女性,民族和性別相對單一;而RaFD數(shù)據(jù)庫內(nèi)包含不同民族、不同年齡、不同性別的表情樣本,不同個體的表情強度和外貌存在較大差異,易造成算法對表情的誤判。以上兩個數(shù)據(jù)庫均包含六種基本表情(高興、生氣、厭惡、悲傷、恐懼、驚訝)和中性表情,兩個數(shù)據(jù)庫中每種表情圖像的選取數(shù)量如表1所示。
表1 JAFFE和RaFD數(shù)據(jù)庫中表情圖像的選用情況
2.2圖像預處理
研究表明,眼部和嘴部器官遮擋對表情識別具有較大的影響,所以本文使用黑色矩形框遮擋眼部和嘴部,以模擬墨鏡和口罩對人臉表情產(chǎn)生的遮擋。除此以外,分別遮擋上臉、下臉、左臉和右臉,來模擬頭發(fā)、手勢等其他情況產(chǎn)生的遮擋,以此來驗證本文算法的識別性能。
為了獲得更好的實驗結果,本文對兩個庫中的所有圖像進行如下預處理:首先,將彩色圖像轉化為灰度圖像,并使用2.2d×1.8d的矩形區(qū)域裁剪圖像(d是雙眼之間的距離)[10],以獲得單純的人臉圖像;然后,對圖像進行直方圖均衡化處理,以消除光照變化對表情識別造成的干擾;隨后,將圖像尺度歸一化到80×70像素;最后對圖像進行如上所述的遮擋處理。兩個數(shù)據(jù)庫中圖像的預處理過程如圖4所示。
圖4 兩個數(shù)據(jù)庫中圖像的預處理過程
2.3特征提取和特征分類
運用本文第1節(jié)中算法分別對JAFFE中213幅和RaFD中353幅經(jīng)過預處理的人臉表情圖像進行特征提取,高斯歸一化后每幅圖像得到一個328維的特征向量。
在特征分類階段,本文選用簡單且常用的K-最近鄰(K-NN)算法進行分類。對于訓練集與測試集的選擇,本文使用10折交叉驗證來測試算法的準確性。
為了驗證本文算法的優(yōu)越性,實驗選取兩種較成熟的特征提取算法進行比較,分別是傳統(tǒng)的Gabor算法和Gabor多尺度特征融合與LGBPHS相結合算法(F-LGBPHS)[6]。對于這兩種算法同樣使用K-NN算法作為分類器,以此來保證取得的實驗結果只與特征提取算法的選擇相關。
本文算法和兩種比較算法在無遮擋和不同遮擋條件下的表情識別率如表2、表3和圖5所示。圖5(a)對應表2中的數(shù)據(jù),圖5(b)對應表3中的數(shù)據(jù),橫坐標為遮擋類別,縱坐標為表情識別正確率,三種算法用三種不同紋理圖案的柱狀圖表示。
表2 JAFFE數(shù)據(jù)庫上各算法的表情識別率(%)
表3 RaFD數(shù)據(jù)庫上各算法的表情識別率(%)
圖5 傳統(tǒng)Gabor算法、F-LGBPHS算法和本文算法在兩種數(shù)據(jù)庫上的表情識別率
從實驗結果可以看出,一方面,本文算法在JAFFE和RaFD數(shù)據(jù)庫上都達到了較高的識別率,優(yōu)于傳統(tǒng)Gabor算法和F-LGBPHS算法。
(1) 在JAFFE數(shù)據(jù)庫上,無遮擋的情況下,各個算法均達到了較高的識別率,本文算法取得了最高的91.13%的識別率。在遮擋情況下,各個算法的識別率都有所降低。在面部不同區(qū)域、不同程度被遮擋時,本文算法的識別率均高于傳統(tǒng)Gabor算法和F-LGBPHS算法,說明本文算法具有較強的魯棒性。
(2) 在RaFD數(shù)據(jù)庫上,各個算法的識別率均低于JAFFE數(shù)據(jù)庫上的識別率,這驗證了“表情個體的差異易造成算法對表情誤判”的結論。在表情個體存在較大差異的RaFD數(shù)據(jù)庫上,本文算法仍然優(yōu)于傳統(tǒng)的Gabor算法和F-LGBPHS算法,保持了較高的識別率。這充分說明了本文算法在一定程度上能夠避免個體差異對表情特征產(chǎn)生的干擾,進一步說明了本文算法具有較強的魯棒性。
另一方面,由于本文算法在提取Gabor特征時,沒有沿用傳統(tǒng)Gabor算法的高維特征數(shù)據(jù),而是對每個尺度每個方向上的Gabor幅度圖進行分塊提取均值和標準差兩個統(tǒng)計量。既保留了人臉器官的空間特征,又大大降低了Gabor特征維數(shù)。最后結合了低維的灰度共生矩陣特征向量,高斯歸一化后生成了用于特征表達的低維特征向量。正是將這低維特征向量輸入分類器,大大減少了特征分類階段的計算量,使得本文算法在兩個數(shù)據(jù)庫上的平均分類時間分別達到0.2981秒和0.7442秒,相對于其他兩種基線算法,分類速率大大提高,增強了表情識別的實時性。
綜上所述,本文算法能夠在多數(shù)據(jù)庫的條件下,克服表情個體差異性帶來的負面影響,對人臉不同區(qū)域、不同程度遮擋的表情保持較高的識別率,具有較強的魯棒性和較快的識別速率。
針對局部遮擋條件下的人臉表情識別,提出一種新的基于Gabor濾波和灰度共生矩陣的表情識別算法。該算法一改Gabor特征維數(shù)較高的缺點,設計了一種分塊提取Gabor特征統(tǒng)計量的算法,在保留了人臉空間特征的同時降低了Gabor特征維數(shù);同時,考慮到Gabor特征的分塊處理會造成像素空間相關性的缺失,該方法將反映像素間位置分布特性的灰度共生矩陣引入到表情識別領域,增強了像素點間的相互聯(lián)系,彌補了Gabor特征分塊處理產(chǎn)生的不足;最后,將提取的Gabor特征統(tǒng)計量和灰度共生矩陣紋理特征進行線性疊加,生成一組用于特征表達的低維特征向量。在JAFFE和RaFD數(shù)據(jù)庫上的實驗表明,一方面,該算法的表情識別性能優(yōu)于傳統(tǒng)Gabor算法和F-LGBPHS算法,對于不同區(qū)域、不同程度的表情遮擋具有較強的魯棒性;另一方面,該算法提取的特征向量維數(shù)較低,大大降低了特征分類階段的平均耗時,提高了表情識別速率??傊疚尼槍植空趽鯒l件下的表情識別提出的基于Gabor濾波和灰度共生矩陣的表情識別算法,能夠在保證較高表情識別率的前提下,大大提高識表情別速率,在算法魯棒性和實時性上具有明顯的優(yōu)勢,對人臉表情識別從實驗邁向實用領域提供了理論上的參考。
[1] 劉帥師.非均勻光照和局部遮擋情況下的魯棒表情識別理論與方法研究[D].吉林:吉林大學,2012.
[2] 蔣斌.魯棒人臉表情識別方法研究[D].北京:北京工業(yè)大學,2014.
[3] Mikolajczyk K,Schmid C.A performance evaluation of local descriptors[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(10):1615-1630.
[4] Zhang L G.Towards spontaneous facial expression recognition in real-world video[D].Brisbane,Queensland,Australia:Queensland University of Technology,2012.
[5] Azmi R,Yegane S.Facial expression recognition in the presence of occlusion using local gabor binary patterns[C]//Proceedings of the 20th Iranian Conference on Electrical Engineering,May 15-17,2012,Tehran,Iran.Miami:Curran Associates,Inc.:742-747.
[6] Liu S,Zhang Y,Liu K,et al.Facial expression recognition under partial occlusion based on gabor multi-orientation features fusion and local gabor binary pattern histogram sequence[C]//The Tenth International Conference on Intelligent Information Hiding and Multimedia Signal Processing,August 27-29,2014,Kitakyushu,Japan.Los Alamitos:IEEE Computer Society:218-222.
[7] Lyons M,Akamatsu S,Kamachi M,et al.Coding facial expressions with gabor wavelets[C]//Proceedings of the Third IEEE International Conference on Automatic Face and Gesture Recognition,April 14-16,1998,Nara,Japan.Los Alamitos:IEEE Computer Society:200-205.
[8] Langner O,Dotsch R,Bijlstra G,et al.Presentation and validation of the Radboud faces database[J].Cognition & Emotion,2010,24(8):1377-1388.
[9] 張李秋.一種基于紋理特征的圖像檢索方法[D].成都:電子科技大學,2012.[10] Shih F Y,Chuang C.Automatic extraction of head and face boundaries and facial features[J].Information Sciences,2004,158(1):117-130.
[11] 劉瑩.圖像紋理的特征提取和分類方法研究[D].武漢:華中科技大學,2013.
[12] Ulaby F T,Kouyate F,Brisco B,et al.Textural information in SAR images[J].IEEE Transactions on Geoscience and Remote Sensing,1986,24(2):235-245.
FACIAL EXPRESSION RECOGNITION UNDER PARTIAL OCCLUSION
Li RuiLiu PengyuJia Kebin
(College of Electronic Information and Control Engineering,Beijing University of Technology,Beijing 100124,China)
We propose a novel facial expression recognition method, which is based on Gabor filter and gray-level co-occurrence matrix, aimed at facial expression recognition under partial occlusion condition.We first design an approach to extract in blocks the Gabor feature statistics, which generates a low-dimensional Gabor feature vector. Then, taking into account the lack of association between pixels in blocked Gabor features, we introduce the gray-level co-occurrence matrix reflecting the distribution characteristics between locations of pixels into expression recognition field, so as to make up the deficiency caused by Gabor feature blocking processing. Finally, we apply the linear superimposition on the extracted low-dimensional Gabor feature vector and the texture feature of gray-level co-occurrence matrix, after Gaussian normalisation processing there generates a set of low-dimensional feature vectors for feature representation. Experiments have been made on JAFFE and RaFD, they prove that the algorithm has the characteristics of high robustness, low dimension of feature vectors, short classification time and better recognition rates on facial expression recognition in different regions and with different occlusion degrees.
Facial expression recognitionPartial occlusionGabor filterGray-level co-occurrence matrixGaussian normalisation
2015-02-26。國家科技支撐計劃項目(2011BAC12B 03);北京市博士后工作經(jīng)費項目。李蕊,碩士生,主研領域:多媒體信息處理。劉鵬宇,副教授。賈克斌,教授。
TP391.41
A
10.3969/j.issn.1000-386x.2016.09.035