劉帥師,郭文燕,張言,程曦
人臉表情識(shí)別技術(shù)是生理學(xué)、心理學(xué)、圖像處理、模式識(shí)別和計(jì)算機(jī)視覺等領(lǐng)域的一個(gè)具有挑戰(zhàn)性的交叉學(xué)科[1]。為了確保信息的完整性,研究人員們使用不存在遮擋人臉表情圖像在受控的實(shí)驗(yàn)室條件下進(jìn)行實(shí)驗(yàn)和研究[2]。然而,人臉遮擋在現(xiàn)實(shí)生活中很常見,例如,太陽鏡可以遮擋眼睛區(qū)域、一條圍巾或外科口罩遮擋嘴部區(qū)[3]。因此,在人臉存在遮擋的表情識(shí)別仍然是人臉表情識(shí)別系統(tǒng)在實(shí)際應(yīng)用中最重要的瓶頸之一。
近年來,針對(duì)部分遮擋人臉表情識(shí)別,研究人員已經(jīng)提出了許多方法來減少遮擋對(duì)表情識(shí)別的影響。Kotsia等[4]受Fisher的線性判別分析和支持向量機(jī)(support vector machine,SVM)的啟發(fā),提出了一種新穎的最小類內(nèi)方差的多類分類器來研究在不同人臉器官遮擋的情況下對(duì)人臉表情識(shí)別的影響。Tarrés 等[5]提出了基于 PCA(principal component analysis)和 LDA(linear discriminant analysis),并結(jié)合直方圖均衡化和均值、方差歸一化預(yù)處理的方法,減少了遮擋部分對(duì)人臉識(shí)別過程的影響。Kotsia等[6]對(duì)遮擋的人臉圖像進(jìn)行Gabor小波濾波提取紋理特征,利用監(jiān)督的判別非負(fù)矩陣因子分解(discriminant non-negative matrix factorization,DNMF)進(jìn)行圖像分解,再采用基于模型的方法來描述特定面部特征的幾何位移來完成遮擋圖像的特征表征。Zhang等[7]利用蒙特卡羅算法對(duì)表情圖像提取Gabor特征,并遍歷表情圖像的每個(gè)區(qū)域進(jìn)行模板匹配以產(chǎn)生對(duì)遮擋具有魯棒性的特征向量。Wang等[8]利用改進(jìn)的中心對(duì)稱局部二值模式和梯度中心對(duì)稱局部方向模式GCS-LDP,利用卡方距離求取測(cè)試集圖像與訓(xùn)練集圖像特征直方圖之間的距離。但是,上述方法主要研究眼部遮擋和嘴部遮擋對(duì)人臉表情識(shí)別效果的影響,沒有充分考慮遮擋在現(xiàn)實(shí)生活中出現(xiàn)的特點(diǎn),對(duì)隨機(jī)遮擋情況的適應(yīng)性較弱。人臉遮擋的特點(diǎn)是遮擋可以在人臉的任何地方發(fā)生,并且遮擋范圍的大小和遮擋的形狀都是未知的,沒有任何關(guān)于它的先驗(yàn)知識(shí)[9]。因此,不能只考慮臉部某個(gè)區(qū)域?qū)θ四槺砬樽R(shí)別的影響情況,應(yīng)該根據(jù)遮擋的特點(diǎn)來展開研究,并提出一些可以克服這個(gè)問題的方法。Wright等[10]采用稀疏編碼方法完成人臉識(shí)別任務(wù),并提出使用已知類別的訓(xùn)練人臉圖像對(duì)測(cè)試人臉圖像進(jìn)行稀疏表示的方法,在隨機(jī)遮擋人臉識(shí)別系統(tǒng)中取得了較為理想的識(shí)別效果。M. Zhu等[11]利用稀疏分解求出待測(cè)圖像的稀疏表示系數(shù),并在待測(cè)圖像所在的子空間內(nèi)實(shí)現(xiàn)表情類別判斷,該方法使待測(cè)圖像的分解系數(shù)變得更稀疏,同時(shí)避免身份特征對(duì)表情分類的干擾。
為了提高稀疏表示的魯棒性和有效性,本文提出了基于魯棒的正則化編碼和自動(dòng)更新權(quán)重的隨機(jī)遮擋表情識(shí)別方法。受魯棒回歸理論的啟發(fā)[10],即通過自適應(yīng)地不斷迭代的方法來給殘差分配不同的權(quán)重,直到估計(jì)過程收斂。本文通過假設(shè)編碼殘差和編碼系數(shù)分別是獨(dú)立同分布的,并基于最大后驗(yàn)估計(jì)的原則來對(duì)給定的信號(hào)進(jìn)行魯棒回歸,為了方便實(shí)現(xiàn),正則化編碼的最小化問題將轉(zhuǎn)換成一個(gè)自動(dòng)更新權(quán)重的問題,通過設(shè)計(jì)合理的權(quán)重函數(shù)可以魯棒地識(shí)別出遮擋部分從而減小它們對(duì)編碼過程的影響。在JAFFE和Cohn-Kanade數(shù)據(jù)庫上,本文方法對(duì)隨機(jī)遮擋表情識(shí)別的魯棒性進(jìn)行了驗(yàn)證,取得了較理想的識(shí)別效果。
通常情況下,稀疏編碼問題可以定義為
貝葉斯估計(jì)的觀點(diǎn)確切地說是從最大后驗(yàn)概率估計(jì)觀點(diǎn)考慮人臉表示的問題。通過字典對(duì)待測(cè)表情圖像進(jìn)行編碼,編碼向量的最大后驗(yàn)概率估計(jì)變成。利用貝葉斯公式得
由于表情圖像的變化多樣性,很難預(yù)先確定稀疏表示殘差的分布。通常,假設(shè)概率密度函數(shù)是對(duì)稱的、單調(diào)并且可微的。因此,具有以下性質(zhì):
根據(jù)ρθ的性質(zhì),和符號(hào)相同,所以是非負(fù)的標(biāo)量。因此進(jìn)一步,從而可以寫成
雖然,式(8)是式(4)的局部近似值,但是這樣做可以將魯棒的正則化編碼模型的最小化問題通過迭代再加權(quán)重l2正則編碼來解決,也就是通過式(7)不斷更新權(quán)重。這樣最小化問題轉(zhuǎn)變成了如何計(jì)算對(duì)角權(quán)重矩陣。
初值對(duì)人臉表情識(shí)別取得較理想的識(shí)別效果至關(guān)重要。為了對(duì)待測(cè)表情圖像設(shè)置初值,首先應(yīng)該初始化的編碼殘差。 本文對(duì)初 始化為;是初始編碼向量。由于待測(cè)表情圖像所屬類別事先未知,因此的合理初始編碼向量可以設(shè)置為這樣表示的就是所有訓(xùn)練表情圖像的平均表情圖像。
因此,本文方法的流程如圖1所示。首先,待測(cè)的人臉表情圖像的每個(gè)像素點(diǎn)賦予不同的權(quán)重。其次,通過連續(xù)迭代得到收斂的權(quán)重矩陣。權(quán)重隨著每次迭代的收斂曲線如圖2所示。然后, 得到收斂的權(quán)重矩陣后,待測(cè)表情圖像的最優(yōu)稀疏表示也可以通過計(jì)算得到。最后,計(jì)算每類訓(xùn)練表情圖像逼近待測(cè)表情圖像的編碼殘差,并根據(jù)最小逼近殘差的準(zhǔn)則將待測(cè)表情圖像分類到訓(xùn)練表情圖像逼近待測(cè)表情圖像最小逼近殘差所對(duì)應(yīng)的類別。每類訓(xùn)練表情圖像逼近待測(cè)表情圖像的逼近殘差如圖3所示。為了減少原始表情特性的特征維數(shù),本文應(yīng)用PCA的方法對(duì)特征進(jìn)行降維處理,Eigenface特征應(yīng)用到與本文方法進(jìn)行對(duì)比的其他算法中。定義為PCA的投影矩陣,那么,式(8)將變?yōu)?/p>
圖1 本文方法的流程Fig. 1 The structure of our method
圖2 權(quán)重收斂曲線Fig. 2 The convergence curve of the weigh
圖3 不同類別訓(xùn)練圖像逼近待測(cè)圖像的殘差圖Fig. 3 The residual of each training class approximates the test image
實(shí)驗(yàn)采用日本女性表情圖像JAFFE數(shù)據(jù)庫和Cohn-Kanade數(shù)據(jù)庫來驗(yàn)證本文所提方法的可行性和有效性。JAFFE數(shù)據(jù)庫包含10個(gè)女性共213張人臉表情圖像,并且每個(gè)人都有7種表情,每種表情有3或4張表情圖像樣本。實(shí)驗(yàn)時(shí)選用10個(gè)人共137表情圖像作為訓(xùn)練樣本,其中(高興-19,驚訝-20,悲傷-20,恐懼-20,厭惡-18,憤怒-20 和中性-20)。其余的76張人臉表情圖像作為測(cè)試樣本。基于JAFFE數(shù)據(jù)庫的表情圖像數(shù)量少,實(shí)驗(yàn)將遍歷3種情況來取得平均識(shí)別率。而 Cohn-Kanade人臉表情數(shù)據(jù)庫是由100名大學(xué)生按照指定的方式來從中性表情呈現(xiàn)23幅表情序列,這些人都來自18~30歲的大學(xué)心理系的學(xué)生。其中15%為歐洲人(包括黑種人和白種人),3%為亞洲人或拉丁人種,65%為女性。該數(shù)據(jù)庫也包含與JAFFE數(shù)據(jù)庫一樣的7種表情類別。對(duì)于Cohn-Kanade數(shù)據(jù)庫,選用10個(gè)人7種表情(高興-6,驚訝-6,悲傷-6,恐懼-6,厭惡-6,憤怒-6和中性-6)共420張表情序列進(jìn)行實(shí)驗(yàn)。其中,10個(gè)人7種表情共210張表情圖像作為訓(xùn)練樣本,其余的作為測(cè)試樣本。為了驗(yàn)證算法在Cohn-Kanade數(shù)據(jù)庫的泛化性能實(shí)驗(yàn)遍歷6種情況來取得平均識(shí)別率。
由于JAFFE數(shù)據(jù)庫和Cohn-Kanade數(shù)據(jù)庫中的表情圖像稍有頭部傾斜和尺寸大小不一,需要經(jīng)過預(yù)處理來消除這些差異。本文采用類似文獻(xiàn)[12]的預(yù)處理方法:通過旋轉(zhuǎn)使眼睛水平面對(duì)準(zhǔn),并根據(jù)兩眼間的距離來從原始的表情圖像裁剪出實(shí)驗(yàn)用的只含正面人臉表情的矩形區(qū)域。JAFFE數(shù)據(jù)庫中的原始人臉表情圖像的尺寸為256×256,Cohn-Kanade數(shù)據(jù)庫中的原始人臉表情圖像尺寸為640×490。兩數(shù)據(jù)庫中的表情圖像進(jìn)行尺寸歸一化128×104,利用直方圖均衡化來增強(qiáng)表情圖像某些區(qū)域的局部對(duì)比度,如圖4所示。
圖4 實(shí)驗(yàn)用的兩數(shù)據(jù)庫中的部分隨機(jī)遮擋表情圖像Fig. 4 Some samples of occluded facial images in two databases
與其他的影響因素不同,如姿勢(shì)的變化,它的變化特點(diǎn)是可以事先預(yù)測(cè)判別出來的。然而,面部遮擋是特別難以處理的,因?yàn)樗哂须S機(jī)性的特點(diǎn),也就是說,遮擋可以發(fā)生在人臉表情圖像的任意位置并且大小也是任意的。我們對(duì)于遮擋發(fā)生的位置和遮擋面積的大小沒有任何明確的先驗(yàn)知識(shí)。關(guān)于遮擋唯一有的先驗(yàn)信息就是遮擋毀壞的像素點(diǎn)可能是彼此相鄰的,就是說某個(gè)區(qū)域的像素點(diǎn)可能是連續(xù)毀壞。圖4表示的兩個(gè)表情數(shù)據(jù)中一些在不同遮擋程度塊遮擋級(jí)別下的人臉表情圖像。遮擋級(jí)別表示的是遮擋的部分占整個(gè)人臉表情圖像的百分比是多少。所以遮擋級(jí)別是正數(shù)并且處于[0,1],遮擋級(jí)別為0表示圖像沒有被遮擋,1表示圖像全部被遮擋,例如:遮擋級(jí)別0.1表示圖像的10%被遮擋?;谙∈璞硎镜娜四槺砬樽R(shí)別方法最重要特點(diǎn)是對(duì)于人臉遮擋具有魯棒性。為更好地驗(yàn)證本文提出的方法對(duì)于隨機(jī)遮擋的魯棒性,采用表情識(shí)別方法:KNN[14](K-nearest neighbor)、SVM[15]、SRC[10](sparse representation-based classifier)、GSRC[16](gabor feature based sparse representation)與本文方法在以下兩種數(shù)據(jù)庫進(jìn)行對(duì)比。
表1和表2分別表示的是本文提出的方法與其他方法分別在JAFFE數(shù)據(jù)庫上和在Cohn-Kanade數(shù)據(jù)庫上對(duì)應(yīng)不同遮擋級(jí)別的平均識(shí)別率。
表1 不同方法在JAFFE數(shù)據(jù)庫上的識(shí)別率Table 1 The accuracies of different methods on JAFFE %
表2 不同方法在Cohn-Kanade數(shù)據(jù)庫上的識(shí)別率Table 2 The accuracies of different methods on Cohn-Kanade %
從表1和表2可看出,隨遮擋級(jí)別增大人臉表情的識(shí)別率逐漸減小,符合人們的感性認(rèn)識(shí)。表情識(shí)別方法在遮擋級(jí)別為0.1~0.5會(huì)取得較理想的識(shí)別效果。由于訓(xùn)練樣本和測(cè)試樣本用自身像素值不需特征提取過程,KNN[16]和SVM[17]方法在遮擋級(jí)別很大時(shí)沒有很好的識(shí)別效果。且這兩種方法要結(jié)合提取較好區(qū)分性特征的提取方法才可發(fā)揮較好的分類效果,可看出本文的方法比SRC[10]和GSRC[12]表情識(shí)別率略高。
本方法在隨機(jī)遮擋的情況下取得比其他方法較為理想的識(shí)別效果,接下來分析本文在不同遮擋級(jí)別對(duì)于每種表情識(shí)別的影響大小。兩種數(shù)據(jù)庫不同遮擋級(jí)別對(duì)每種表情的遮擋情況如表3和表4。
表3 每種表情在JAFFE數(shù)據(jù)庫不同遮擋級(jí)別的識(shí)別率Table 3 The accuracies of each expression on JAFFE in different levels of block occlusions %
表4 每種表情在Cohn-Kanade數(shù)據(jù)庫不同遮擋級(jí)別的識(shí)別率Table 4 The accuracies of each expression on Cohn-Kanade in different levels of block occlusions %
從表3和表4可以看出,隨著表中給出的人臉表情圖像的隨機(jī)遮擋級(jí)別的增大,兩種數(shù)據(jù)庫上不同的人臉表情識(shí)別率隨之降低。在兩種數(shù)據(jù)庫中,生氣、高興、中性、悲傷和驚訝表情在圖像遮擋級(jí)別為0~0.1取得了較為理想的識(shí)別效果。這是由于遮擋級(jí)別較小,這些表情圖像的決策信息缺失的少。在這兩種數(shù)據(jù)庫上所有表情只有驚訝表情的識(shí)別效果在遮擋級(jí)別為0.2時(shí)受到了影響,其他表情都沒有受到影響。當(dāng)圖像遮擋級(jí)別為0.3時(shí),在這兩種數(shù)據(jù)庫上所有表情只有生氣、悲傷和驚訝表情識(shí)別效果受到了影響。當(dāng)圖像遮擋級(jí)別為0.4~0.5,在JAFFE數(shù)據(jù)庫上高興和中性表情取得了較好的識(shí)別效果,在圖像遮擋級(jí)別為0.6時(shí)中性表情取得了較好的識(shí)別效果。然而在Cohn-Kanade數(shù)據(jù)庫上,當(dāng)圖像遮擋級(jí)別為0.4~0.6時(shí),恐懼和中性表情取得了較好的識(shí)別效果。當(dāng)圖像遮擋級(jí)別為0.7~0.9時(shí),所有的表情的識(shí)別率(除了中性表情外)都受到了較為嚴(yán)重的影響。
從兩表中可以看出中性表情識(shí)別率在不同的圖像遮擋級(jí)別下都可以保持了較高的識(shí)別率。即使在遮擋級(jí)別為0.9的JAFFE數(shù)據(jù)庫上,中性表情的識(shí)別率仍為60%。這是由于本文在賦予編碼殘差的初值時(shí),選用的是所有訓(xùn)練表情圖像的平均表情作為的初值,中性表情和平均人臉表情很相似。因此,即使在遮擋級(jí)別很大是,中性表情也較其他表情更容易更有效地識(shí)別。
圖5表示的是JAFFE數(shù)據(jù)庫上所有測(cè)試的中性表情圖像和所有訓(xùn)練表情圖像的平均表情圖像。雖然在JAFFE數(shù)據(jù)庫上中性表情的識(shí)別效果在遮擋級(jí)別很高的時(shí)候也能取得較好識(shí)別效果,但是在Cohn-Kanade數(shù)據(jù)庫上這種現(xiàn)象表現(xiàn)的并不是十分明顯。在遮擋級(jí)別為0.9時(shí)的中性表情識(shí)別率為46.67%。盡管中性表情的識(shí)別率較其他的表情識(shí)別率高,但是與在JAFFE數(shù)據(jù)上的識(shí)別率相比還是相差較大。這是由于JAFFE數(shù)據(jù)庫上的人臉表情圖像都是女性,并且都屬于同一國家的。
圖5 JAFFE數(shù)據(jù)庫Fig. 5 JAFFE
而Cohn-Kanade數(shù)據(jù)庫中的人臉表情圖像是來自不同的國籍和不同性別的。這將造成如圖6所示的中性表情和平均人臉表情之間的相似性較小。因此,當(dāng)遮擋級(jí)別為0.7~0.9時(shí),在Cohn-Kanade數(shù)據(jù)庫上的中性表情較JAFFE上的中性表情的識(shí)別率低。盡管,中性表情的識(shí)別率在兩種表情數(shù)據(jù)庫上相差較大,但是Cohn-Kanade數(shù)據(jù)庫中的表情圖像來自不同的國籍和性別更符合實(shí)際情況,在該數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn)更有利于算法的推廣和實(shí)際應(yīng)用。
圖6 Cohn-Kanade數(shù)據(jù)庫Fig. 6 Cohn-Kanade
本文提出了基于魯棒的正則化編碼模型和自動(dòng)更新權(quán)重的隨機(jī)遮擋表情識(shí)別方法。根據(jù)人臉表情遮擋隨機(jī)性的特點(diǎn),提高了稀疏表示的魯棒性和有效性并且減少隨機(jī)遮擋部分對(duì)人臉表情識(shí)別的影響。本文方法使用原始圖像數(shù)據(jù)(像素點(diǎn))即可不需要采用特征降維、特征提取、綜合訓(xùn)練樣本和特定領(lǐng)域信息等,通過求取編碼問題的最大后驗(yàn)概率,從而來實(shí)現(xiàn)對(duì)遮擋的魯棒性。根據(jù)編碼殘差來對(duì)待測(cè)圖像的所有像素點(diǎn)自適應(yīng)的分配和反復(fù)迭代權(quán)重,這樣可以魯棒地辨別出遮擋造成的奇異值并減少它們對(duì)編碼過程的影響。在JAFFE數(shù)據(jù)庫和Cohn-Kanade數(shù)據(jù)庫上與其他幾種方法進(jìn)行了不同遮擋級(jí)別情況下識(shí)別率的對(duì)比實(shí)驗(yàn),由結(jié)果可以看出本文提出的方法取得了較好的識(shí)別效果,較其他幾種方法有效并對(duì)隨機(jī)遮擋具有較強(qiáng)的魯棒性。
[1]MERY D, BOWYER K. Face recognition via adaptive sparse representations of random patches[C]//IEEE International Workshop on Information Forensics and Security.London, UK, 2015: 13–18.
[2]WANG J, LU C, WANG M, et al. Robust face recognition via adaptive sparse representation[J]. IEEE transactions on cybernetics, 2014, 44(12): 2368.
[3]趙軍, 趙艷, 楊勇,等. 基于降維的堆積降噪自動(dòng)編碼機(jī)的表情識(shí)別方法[J]. 重慶郵電大學(xué)學(xué)報(bào): 自然科學(xué)版, 2016,28(6): 844–848.ZHAO Jun, ZHAO Yan, YANG Yong, et al. Facial expression recognition method based on stacked denoising autoencoders and feature reduction[J]. Journal of Chongqing university of posts and telecommuncaitions: natual science edtion, 2016, 28(6): 844–848.
[4]KOTSIA I, PITAS I, ZAFEIRIOU S, et al. Novel multiclass classifiers based on the minimization of the withinclass variance[J]. IEEE transactions on neural networks,2009, 20(1): 14–34.
[5]TARRéS F, RAMA A, TORRES L. A novel method for face recognition under partial occlusion or facial expression variations[C]//Proceedings of the 47th International Symposium ELMAR. Zadar, Croatia, 2005: 163–166.
[6]KOTSIA I, BUCIU I, PITAS I. An analysis of facial expression recognition under partial facial image occlusion[J]. Image and vision computing, 2008, 26(7): 1052–1067.
[7]ZHANG Ligang, TJONDRONEGORO D, CHANDRAN V.Toward a more robust facial expression recognition in occluded images using randomly sampled Gabor based templates[C]//Proceedings of 2011 IEEE International Conference on Multimedia and Expo. Barcelona, Spain, 2011: 1–6.
[8]王曉華,李瑞靜,胡敏,等. 融合局部特征的面部遮擋表情識(shí)別[J]. 中國圖象圖形學(xué)報(bào), 2016, 21(11): 1473–1482.WANG Xiaohua, LI Ruijing, HU Min, et al. Occluded facial expression recognition based on the fusion of local features[J]. Journal of image and graphics, 2016, 21(11):1473–1482.
[9]WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation[J]. IEEE transactions on pattern analysis and machine intelligence, 2009, 31(2):210–227.
[10]朱明旱, 李樹濤, 葉華. 基于稀疏表示的遮擋人臉表情識(shí)別方法[J]. 模式識(shí)別與人工智能, 2014, 27(8): 708–712.ZHU Minghui, LI Shutao, YE hua. An occluded facial expression recognition method based on sparse representation[J]. Pattern recognition and artificial intelligence, 2014,27(8): 708–712.
[11]WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation[J]. IEEE transactions on pattern analysis and machine intelligence, 2009, 31(2):210–227.
[12]CAO J, ZHANG K, LUO M, et al. Extreme learning machine and adaptive sparse representation for image classification[J]. Neural networks the official journal of the international neural network society, 2016, 81(c): 91.
[13]ZHANG Jian, JIN Rong, YANG Yiming. Modified logistic regression: an approximation to SVM and its applications in large-scale text categorization[C]//Procee-dings of the Twentieth International Conference on Machine Learning. Washington, DC, USA, 2003: 888–895.
[14]LIU Shuaishi, ZHANG Yan, LIU Keping, et al. Facial expression recognition under partial occlusion based on Gabor multi-orientation features fusion and local Gabor binary pattern histogram sequence[C]//Proceedings of the 9th International Conference on Intelligent Information Hiding and Multimedia Signal Processing. Beijing, China,2013: 218–222.
[15]LIU Licheng, CHEN Long, CHEN C L. Weighted joint sparse representation for removing mixed noise in image[J]. IEEE transactions on cybernetics includes computational approaches to the field of cybernetics, 2016: 1–12.
[16]YANG M, SONG T, LIU F, et al. Structured regularized robust coding for face recognition[J]. IEEE transactions on image processing a publication of the IEEE signal processing society, 2013, 22(5): 1753–1766.
[17]羅元, 吳彩明, 張毅. 基于PCA與SVM結(jié)合的面部表情識(shí)別的智能輪椅控制[J]. 計(jì)算機(jī)應(yīng)用研究, 2012, 29(8):3166–3168.LUO Yuan, WU Caiming, ZHANG Yi, et al. Facial expression recognition based on principal component analysis and support vector machine applied in intelligent wheelchair[J].The research and application of computer, 2012, 29(8):3166–3168.