李艷秋,顏普,高翠云,徐荃
(安徽建筑大學(xué) 電子與信息工程學(xué)院,安徽 合肥 230601)
隨著人機交互的深入開展,人們迫切希望計算機能夠帶有“感情”的與人類交流,以觀察和辨別情感作為人機交互的開始。人臉表情蘊藏著豐富的情感信息,是人類非語言交流的一種重要方式,計算機通過對人臉表情進(jìn)行識別分析,可以理解人類的弦外之音,因此以人臉表情為代表的情感識別研究成為機器視覺和人機交互領(lǐng)域的重要組成部分,引起眾多學(xué)者的廣泛關(guān)注[1-3]。
目前表情識別尚存在的難點之一是情感標(biāo)準(zhǔn)的個人差,即對于同類情感,不同面部呈現(xiàn)出來的表情可能不盡相同。此外,在自然的情感交流過程中,常常伴隨著頭部旋轉(zhuǎn)或存在某種遮擋物(如墨鏡、口罩和圍巾等),這些都給表情特征的有效提取帶來一定困難[4]。因此,如何設(shè)計對干擾更為魯棒的人臉表情識別算法已然成為計算機智能化應(yīng)用領(lǐng)域丞待解決的難題。
Wright等人[5]通過模擬生物視覺響應(yīng)機制,提出基于稀疏編碼的人臉識別方法,并通過實驗驗證稀疏表示方法對人臉部分遮擋的有效性,隨后,不少學(xué)者將其用在人臉表情識別上[6-9]。由于同一個體不同表情間的相似度在分類上可能會大于同種表情的不同個體,即表情特征對識別的影響要低于身份特征,造成稀疏表示方法用于非特定人的情感判別時,效果并不理想。M.Zhu等人[10]通過對圖像逐級分塊的形式構(gòu)建具有冗余度的遮擋字典,通過稀疏分解得到待測圖像的稀疏表示系數(shù),確定待測圖像的身份子空間,實現(xiàn)表情類別判斷,該方法不僅可以使稀疏解更稀疏,還降低了身份特征對表情識別的干擾。為產(chǎn)生更多有意義的稀疏解,Lee等人[11]基于訓(xùn)練表情圖像集為每類表情生成一幅類內(nèi)形變量圖像,并利用稀疏表示模型進(jìn)行分類,雖然該方法抑制了由身份信息或光照導(dǎo)致的類內(nèi)差異,提升了表情識別的準(zhǔn)確性和魯棒性,但是其在對未知表情進(jìn)行分類時,并沒有區(qū)分不同類別字典在表達(dá)待測人臉圖像時貢獻(xiàn)的差異,也沒有突出某些類別稀疏系數(shù)值在分類中的作用。為此,本文在原算法的基礎(chǔ)上,提出基于表情特征描述和稀疏加權(quán)決策的情感判別方法。首先基于訓(xùn)練表情圖像集生成不同類別的表情特征字典,然后根據(jù)不同類別字典在表達(dá)待測目標(biāo)時的稀疏性以及待測目標(biāo)與類內(nèi)形變量的相似度分配相應(yīng)的權(quán)重,待測目標(biāo)被建模為不同類別表情特征圖像在對應(yīng)字典上的加權(quán)稀疏編碼累積,最終根據(jù)累積系數(shù)的最大值獲取情感分類結(jié)果。
不失一般性,假定未知人臉圖像q∈Rρ,定義為包含C個表情類別的訓(xùn)練人臉圖像集,其中,ρ和N分別表示每個人臉圖像的維數(shù)大小和訓(xùn)練人臉圖像集的總個數(shù),為第i類人臉圖像構(gòu)造的訓(xùn)練子集,i=1,2,n,C,ti,j∈ Rρ表示第i個表情類中第j個訓(xùn)練人臉圖像。ni表示訓(xùn)練子集Φi中
(2) 為了有效地節(jié)省運算時間,避免不同待測樣本q在每個訓(xùn)練子集上均需完成最優(yōu)化權(quán)值求解過程,Lee等人利用公式(2)來簡化求解過程:表示單位矩陣,λ表示正則化系數(shù)(文中設(shè)為10-4)。
(4) 在獲取C個類的類內(nèi)形變量圖像1,2,n,C)后,待測樣本q在訓(xùn)練子集Φi上的表情特征計算如下:
圖1給出含隨機遮擋的待測人臉圖像在不同表情類別上的類內(nèi)形變量圖(上)和對應(yīng)的表情特征圖(下)。從圖1可以看出,待測人臉圖像在悲傷這一類別上產(chǎn)生的形變量重構(gòu)圖與原始圖像具有較高的相似度,使得表情特征重構(gòu)圖灰度值整體接近于0。表情特征圖雖然不可避免地丟失一部分原始信息,但仍然能夠比較準(zhǔn)確地重構(gòu)出待測人臉圖像被遮擋區(qū)域形狀。
首先從訓(xùn)練集Φ中取出原始的人臉圖像Itr(1≤tr≤N),并將訓(xùn)練集中剩下的N-1幅人臉圖像組成一個新的集合,記為Φ′。接著分別求取人臉圖像Itr在Φ′不同類別上產(chǎn)生的類內(nèi)形變量和表情特征。按照上述方法,依次求取訓(xùn)練集Φ中所有人臉圖像的類內(nèi)形變量和表情特征,最終按照類別組建表情特征字典,記為Di,這里i=1,2,n,C。
給定待測樣本q,首先求取其在訓(xùn)練集Φ上,對應(yīng)不同表情類別的類內(nèi)形變量和表情特征按照公式(5)利用l1范數(shù)求出在表情特征字典Di上的稀疏系數(shù)x?i:
由式(5)可知,待測人臉圖像在不同類別表情特征構(gòu)建的稀疏字典上均會得到一組稀疏系數(shù),如圖2所示(橫坐標(biāo)表示訓(xùn)練樣本個數(shù),縱坐標(biāo)表示稀疏系數(shù)值)。從整體上觀測各組系數(shù)值,對于不同類別字典,待測人臉圖像在其真實所屬類別上得到的稀疏系數(shù)值要高于其他類別(見框內(nèi)值)。在稀疏表示分類中,一般認(rèn)為若未知圖像屬于某一類,那么未知圖像就可以由該類樣本進(jìn)行線性組合來表達(dá)。因此,在每個表情特征字典上,如果等同看待各個類別稀疏系數(shù)在分類中的重要性,很有可能會摻入不利于分類的噪聲信息,導(dǎo)致分類錯誤。
為了區(qū)分不同類別字典在分類中的貢獻(xiàn),增強某些類別稀疏系數(shù)在判別中的作用,本文分別從各個表情特征字典所得稀疏系數(shù)的稀疏性以及原始人臉圖像與類內(nèi)形變量的相似程度兩方面綜合考慮,賦予各個表情特征字典及類別不同的權(quán)值系數(shù),通過稀疏系數(shù)累積獲得最終的分類結(jié)果。
在表情特征字典Di上,將的稀疏系數(shù)向量xi中屬于同一類的稀疏系數(shù)的l1范數(shù)進(jìn)行累加,形成一個類模塊系數(shù)它代表xi在第k類的類模塊系數(shù),k=1,2,n,C。將所有的類模塊系數(shù)組合起來,形成一個向量為了區(qū)分不同類別字典在分類中的貢獻(xiàn),通過公式(6)計算字典Di的稀疏度:
圖1 基于不同表情子集上的類內(nèi)形變特征(上)和表情狀態(tài)特征(下)
圖2 待測人臉圖像在不同表情類別字典上的稀疏系數(shù)
為了增強某些類別稀疏系數(shù)在判別中的作用,本文采用直方圖匹配方法通過度量原始人臉圖像與類內(nèi)形變量間的相似度。直方圖能夠很好的反映圖像灰度的整體分布信息,且具有計算量比較小等優(yōu)點。
設(shè)待測人臉圖像q及類內(nèi)形變量的直方圖分別為和 H2=和θ2表示灰度值,r取值 255。
式(8)中,q(θ),hqi(θ)值表示直方圖中第θ個窗口位置的頻率值。對于頻率直方圖,得到的距離值Li(H1,H2)越小,即H1和H2越相似,表明待測人臉圖像在第i類上的變化越小,屬于第i類的可能性也越大。利用公式(9)對相似度進(jìn)行歸一化:
基于相似度,不同類別字典上第i類稀疏系數(shù)的權(quán)值為:
在表情特征字典Di上,將各個類模塊系數(shù)分別乘以相應(yīng)的權(quán)值,記為這里
將表情特征字典Di上各個類模塊系數(shù)加權(quán)后得到的系數(shù)值乘以相應(yīng)的權(quán)值調(diào)節(jié)系數(shù),得到這里
將各個表情特征字典上相同類模塊得到的加權(quán)系數(shù)值進(jìn)行累積求和,記為1,2,n,C,它代表所有表情特征字典上,第k個類模塊稀疏系數(shù)累積和。
最終待測人臉圖像q的情感判別可由公式(11)表示:
圖3給出本文的算法框圖,包括訓(xùn)練和識別兩個階段。
圖3 本文算法框圖
為了驗證所提算法的有效性,我們采用的是日本女性表情數(shù)據(jù)庫(JAFFE)和Cohn-Kanade表情數(shù)據(jù)庫進(jìn)行實驗。
JAFFE表情數(shù)據(jù)庫由10名日本女性的213幅人臉圖像組成,包括悲傷、高興、驚訝、中性、恐懼、生氣和厭惡七類表情。每種表情有3或4張圖像。在實驗中,選取每人每種表情圖像2幅,共140幅作為訓(xùn)練樣本,剩余部分隨機選擇70幅作為測試樣本。
由于原始庫中的人臉圖像稍有頭部傾斜且包含與表情無關(guān)的冗余信息(比如衣物或頭發(fā)),因此在實驗之前,需要進(jìn)行一些預(yù)處理操作。首先通過旋轉(zhuǎn)使兩眼水平對準(zhǔn),并根據(jù)兩眼間的距離從原始的人臉圖像裁剪出只含人臉部分的矩形區(qū)域,并將圖像尺寸統(tǒng)一縮放為96×96像素大小(見圖4)。
圖4 原始圖像與預(yù)處理后的圖像
為了驗證所提方法的可行性和有效性,除了對比正常情況下,改進(jìn)前后兩種算法的識別性能,還分別模擬了實際應(yīng)用中可能出現(xiàn)的口罩遮擋和和不失一般性的隨機遮擋。進(jìn)一步考慮到圖像在采集的過程中可能會產(chǎn)生馬賽克,不少視覺研究論文中將其作為高斯噪聲來處理,因此在此實驗中我們給正常人臉圖像添加高斯噪聲。圖5給出加入遮擋和高斯噪聲后的人臉圖像。
圖5 模擬遮擋和加噪后的人臉圖像
在JAFFE庫上,首先獲取訓(xùn)練集中人臉圖像的表情特征,然后按照類別構(gòu)建對應(yīng)的表情特征稀疏字典。由于基于稀疏表示的分類模型要求訓(xùn)練集中樣本的特征維數(shù)要小于構(gòu)建字典的大小,因此我們采用了常用的降維算法—主成分分析算法[12](PCA)對訓(xùn)練樣本及待測樣本的表情特征進(jìn)行降維,設(shè)置特征的維數(shù)長度為100~130之間,取最優(yōu)值,實驗結(jié)果如圖6所示。
圖6 JAFFE庫中各表情類別在不同條件下的識別率對比
圖6給出改進(jìn)前后每種表情在不同條件下的識別率。從整體來看,在不同限定條件下算法表現(xiàn)出不同的識別性能。在無遮擋情況下,改進(jìn)前后,稀疏加權(quán)算法的識別性能提高能力有限。但是當(dāng)人臉圖像處于非可控條件下時,加權(quán)稀疏算法的優(yōu)勢開始呈現(xiàn),尤其是在一些表情原本就存在微小變化且比較難以判斷的類別上。相比于原算法,所提的加權(quán)稀疏表示分類算法更為充分利用了各個稀疏表示模型的判別作用,降低較高相似的表情圖像之間的相互干擾,提高相似表情間的區(qū)分度,有效地提升了原稀疏表示模型的判決能力。
針對基于表情特征的稀疏表示分類模型在表達(dá)待測目標(biāo)時,各個類別稀疏字典等比例加權(quán)且沒有突出某些類別稀疏系數(shù)在決策中作用,提出一種基于表情特征描述和加權(quán)稀疏表示決策的情感判別方法。該方法依據(jù)不同類別字典在表達(dá)待測目標(biāo)時的稀疏性以及原始圖像與類內(nèi)形變量相似度賦予不同的權(quán)值,最終基于稀疏系數(shù)累積加權(quán)獲得最終的情感判別結(jié)果。雖然該方法易于實現(xiàn),增強了原算法在非限定條件下的魯棒性,但是在應(yīng)用過程中需要通過人工經(jīng)驗方式指引設(shè)定一些參數(shù),使得算法性能達(dá)到最優(yōu),因此在后續(xù)的工作中,會將把重心放在算法模型優(yōu)化上。