葉 楊,孫會(huì)龍,劉 貞,2
(1.重慶房地產(chǎn)職業(yè)學(xué)院,重慶 400000; 2.重慶理工大學(xué) 低碳能源研究中心, 重慶 400054)
人臉表情識(shí)別是人機(jī)交互領(lǐng)域一個(gè)重要的研究方向,有著廣泛的應(yīng)用前景。在虛擬現(xiàn)實(shí)表情捕捉設(shè)備的研發(fā)過(guò)程中,采用圖像捕捉的方式具有成本優(yōu)勢(shì),難點(diǎn)在于人臉表情識(shí)別算法。為進(jìn)一步提高人臉表情識(shí)別的準(zhǔn)確性,通常從分類識(shí)別和特征提取兩個(gè)方面著手進(jìn)行改進(jìn)。在分類識(shí)別方面,蘇志銘等[1]提出一種基于線段的相似度判決方法,通過(guò)比較預(yù)測(cè)序列與給定序列的相似性進(jìn)行表情識(shí)別;唐浩等[2]提出一種改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)分類方法,較好地降低了表情識(shí)別中面部部分遮擋、傾斜等因素對(duì)識(shí)別率的影響。在特征提取的研究方面, 李雅倩等[3]提出了一種融合全局與局部多樣性的特征提取算法,利用全局特征PCA與局部特征鄰域保持嵌入(NPE)算法的互補(bǔ)性,有效提高了表情識(shí)別準(zhǔn)確率。
在對(duì)人臉表情識(shí)別系統(tǒng)的研究上,局部二值模式LBP由于原理清晰、計(jì)算簡(jiǎn)單、特征描述能力強(qiáng)等特點(diǎn),被廣泛用于特征提取。為更好地利用LBP算法獲得更高的識(shí)別準(zhǔn)確率,學(xué)者們提出了許多改進(jìn)算法。Liu等[4]提出一種融合二維Gabor濾波與局部二值模式的表情特征提取算法,在保證識(shí)別準(zhǔn)確性的同時(shí)提高了系統(tǒng)的實(shí)時(shí)性;Ross等[5]提出一種改進(jìn)的梯度局部三值模式,有效提高了表情識(shí)別系統(tǒng)在復(fù)雜環(huán)境下的魯棒性;Jabid等[6]提出了局部方向模式LDP,通過(guò)引入Kirsch算子較好地解決了光照變化及隨機(jī)噪聲對(duì)目標(biāo)圖像的影響。
本文針對(duì)基于LDP特征的面部表情識(shí)別方法特征提取效率不高、針對(duì)性不強(qiáng)的問(wèn)題,提出了一種融合方向梯度特征的自適應(yīng)加權(quán)LDP表情識(shí)別方法。該方法首先利用HOG梯度幅值圖對(duì)子圖像進(jìn)行自適應(yīng)加權(quán),得出加權(quán)的LDP特征;之后與HOG方向梯度直方圖特征進(jìn)行融合,并將其送入SVM分類器中進(jìn)行分類識(shí)別。為驗(yàn)證本文算法性能,在Extend Cohn-Kanade (CK+)表情庫(kù)進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明:本文提出的算法能有效提高人臉表情的識(shí)別準(zhǔn)確率。
局部方向模式LDP算法是Jabid等于2010年首次提出的一種用于表情識(shí)別的人臉特征提取算法,是局部二值模式(local binary pattern,LBP)[7]的一種改進(jìn)算法。與LBP算法相比,LDP通過(guò)引入Kirsch掩膜進(jìn)行編碼提取紋理特征,可以較好地解決光照變化及隨機(jī)噪聲對(duì)目標(biāo)圖像的影響。算法的具體實(shí)現(xiàn)流程如下:
1) 引入Kirsch算子[8]的8方向模板。如圖1所示,計(jì)算目標(biāo)圖像在各個(gè)方向上的邊緣響應(yīng)。
圖1 Kirsch八方向模板
2) 將中心點(diǎn)X分別與8個(gè)方向的Kirsch算子進(jìn)行卷積運(yùn)算,得出mi(i=1,2,3,…,7)位置的邊緣響應(yīng)。邊緣響應(yīng)值反映該方向上的信息量,因此將這8個(gè)響應(yīng)值的絕對(duì)值按照數(shù)值大小進(jìn)行排序,取前k個(gè)數(shù)值較大的響應(yīng)值予以保留,置1;其余8-k個(gè)響應(yīng)值則舍去,置0。最后,以m0位置的值作為最低位,逆時(shí)針編碼,則可得出中心像素的LDP值。對(duì)中心像素進(jìn)行LDP編碼的原理示意圖如圖2所示。
圖2 LDP編碼原理圖(k=3)
值得注意的是:若將整幅人臉作為目標(biāo)圖像進(jìn)行LDP特征提取,會(huì)得到1個(gè)56維的特征向量,信息量不夠充足。為了得到信息豐富的人臉表情特征,Jabid在原文中首先將原圖平均分割為7×6個(gè)子圖像分別進(jìn)行LDP特征提取,最后再聯(lián)合起來(lái)作為整幅圖像的LDP特征。該方法較好地解決了信息量不足的情況,但忽略了子圖像對(duì)識(shí)別率貢獻(xiàn)的差別。為此,本文首先根據(jù)表情圖像的HOG邊緣幅值圖自適應(yīng)確定每個(gè)子圖像的權(quán)值,通過(guò)加權(quán)聯(lián)合得到LDP特征,并融合HOG方向梯度作為表情識(shí)別的特征向量。
針對(duì)LDP算子提取表情特征時(shí)提取效率不高、針對(duì)性不強(qiáng)的不足,提出了一種融合方向梯度特征的自適應(yīng)加權(quán)LDP表情識(shí)別方法。HOG算法是一種針對(duì)圖像差分信息的描述子,對(duì)光照變化、旋轉(zhuǎn)等具有良好的魯棒性。Deniz等[9]在2011年首次將HOG算法用于提取人臉特征,并取得了不錯(cuò)的識(shí)別效果。LDP特征是用于描述圖像紋理信息的算子,而HOG特征是用于描述邊緣信息的算子。利用兩者的互補(bǔ)性,提出了一種融合HOG方向梯度與自適應(yīng)加權(quán)LDP特征的表情識(shí)別方法。
LDP特征一般以平均分塊的方式聯(lián)合獲取,忽略了不同圖像塊之間對(duì)識(shí)別率貢獻(xiàn)度的差別[10]。一般來(lái)說(shuō),邊緣豐富的區(qū)域信息量較大,對(duì)于最終的表情識(shí)別貢獻(xiàn)度也更大,而HOG幅值圖能較好地描述圖像的邊緣信息[11]。因此,本文通過(guò)計(jì)算原圖梯度幅值的信息熵[12]來(lái)自適應(yīng)地確認(rèn)LDP分塊權(quán)值。HOG特征的核心算法是計(jì)算梯度值I(x,y)及梯度方向θ(x,y)。對(duì)于輸入圖像I來(lái)說(shuō):
(1)
θ(x,y)=arctan(Gy(x,y)/Gx(x,y))
(2)
其中:
Gx(x,y)=I(x+1,y)-I(x-1,y)
(3)
Gy(x,y)=I(x,y+1)-I(x,y-1)
(4)
G(x,y)表示點(diǎn)梯度幅值和方向,Gx(x,y)、Gy(x,y)分別表示像素點(diǎn)(x,y)的水平、垂直方向梯度。
對(duì)目標(biāo)圖像進(jìn)行HOG特征提取時(shí),首先采用細(xì)胞元(cell)分別計(jì)算,再以4個(gè)cell為1個(gè)窗口(block)進(jìn)行全圖滑動(dòng)統(tǒng)計(jì)提取[13]。經(jīng)HOG算子提取后可得到原圖的直方圖特征V及梯度幅值圖。其中,HOG直方圖V的橫坐標(biāo)為方向區(qū)間,縱坐標(biāo)為相應(yīng)的梯度幅值累加值。
將幅值響應(yīng)圖按照LDP特征提取的方式分為7×6塊,計(jì)算各子圖像的信息熵Ei:
(5)
其中:n表示像素級(jí),為256;pi(k)為像素值為k的點(diǎn)出現(xiàn)的概率。信息熵的大小反映了子圖像包含信息量的多少,以此為依據(jù)定義權(quán)重wi:
(6)
下面介紹原圖各子圖像的LDP特征向量求取方法。目標(biāo)像素的LDP編碼可由式(7)表示:
其中
(7)
其中:mi、mk代表鄰接像素和中心像素灰度值;S(x)為符號(hào)函數(shù)。
直方圖向量中每個(gè)元素的值為
HLDPj=∑x,yf(LDPk(x,y),Cj)
其中
(8)
DLDP={w1HLDP1,w2HLDP2,…,w42HLDP42}T
(9)
僅采用單一的紋理特征進(jìn)行后續(xù)的表情分類識(shí)別往往不能取得更好的識(shí)別準(zhǔn)確率。本文利用LDP紋理特征與HOG邊緣梯度特征的互補(bǔ)性,提出了一種基于特征融合的表情識(shí)別算法。
通過(guò)將自適應(yīng)加權(quán)的LDP紋理特征DLDP與原圖的HOG特征向量V進(jìn)行聯(lián)合,即可得到本文提出的融合特征F:
F={DLDP,V}T
(10)
融合特征F包含了紋理信息、方向梯度信息兩個(gè)不同維度的特征描述,特征信息更加豐富全面。圖3為融合方向梯度的加權(quán)LDP特征提取方法原理。
圖3 融合方向梯度的加權(quán)LDP特征提取方法原理
HOG特征以滑動(dòng)窗口的形式進(jìn)行提取,強(qiáng)調(diào)了被LDP算法弱化的像素方位信息,并增加了方向梯度這一衡量尺度。同時(shí),梯度幅值圖為子圖像的自適應(yīng)加權(quán)提供了依據(jù)。利用HOG與LDP特征相互補(bǔ)充的特點(diǎn),將其聯(lián)合起來(lái)共同作為表情圖像的特征有利于增大不同樣本間的相似距離,得到更好的識(shí)別結(jié)果。
為驗(yàn)證提出算法的可行性與有效性,本文在拓展的Cohn-Kanade(CK+)表情庫(kù)上進(jìn)行實(shí)驗(yàn)。CK+庫(kù)發(fā)布于2010年,是目前主流的人臉表情研究庫(kù)之一。該數(shù)據(jù)庫(kù)包含123個(gè)對(duì)象,有中性、憤怒、蔑視、厭惡、恐懼、高興、悲傷、驚訝7種基本表情。圖4為CK+數(shù)據(jù)庫(kù)的部分樣本示例。
本文選取CK+數(shù)據(jù)庫(kù)的圖像序列中各類非中性表情50張,共300張作為訓(xùn)練樣本,表情分類算法采用支持向量機(jī)SVM算法。為進(jìn)一步驗(yàn)證本文算法的性能,分別采用本文提出算法、文獻(xiàn)[6]LDP算法、文獻(xiàn)[14]LDP-PCA算法、文獻(xiàn)[15]Multicore-CNN算法構(gòu)建人臉表情識(shí)別系統(tǒng)進(jìn)行實(shí)驗(yàn)比較,結(jié)果如表1所示。
圖4 CK+人臉表情庫(kù)部分樣本示例
參數(shù)本文算法正確識(shí)別數(shù)/次識(shí)別率/%LDP正確識(shí)別數(shù)/次識(shí)別率/%?PCA-LDP正確識(shí)別數(shù)/次識(shí)別率/%Multicore-CNN正確識(shí)別數(shù)/次識(shí)別率/%高興50100489649984794悲傷4692428447944590驚訝4998479445904692恐懼4692408042844692厭惡4284387643864794憤怒4896459048964692平均識(shí)別率/%93.386.791.392.3
由實(shí)驗(yàn)結(jié)果可知:本文算法對(duì)厭惡表情的識(shí)別率明顯降低,原LDP與和PCA-LDP算法對(duì)兩種表情的識(shí)別率不高,而MultiCore-CNN算法對(duì)幾種表情的識(shí)別率較為平穩(wěn)。本文算法基于特征識(shí)別,而恐懼和厭惡在特征紋理中較為相似,容易導(dǎo)致誤識(shí)別。相較于使用紋理特征的算法,卷積神經(jīng)網(wǎng)絡(luò)算法在識(shí)別過(guò)程中性能較為穩(wěn)定。
采用本文算法的面部表情平均識(shí)別率最高,為93.3%,較LDP算法識(shí)別率提高了6.6%;較改進(jìn)PCA-LDP算法提高了2.0%,與使用改進(jìn)后的神經(jīng)網(wǎng)絡(luò)算法相比提高了1.0%。經(jīng)分析可知:本文提出的算法根據(jù)各子圖像信息量的不同自適應(yīng)加權(quán),得到的加權(quán)LDP特征更加強(qiáng)調(diào)信息豐富的區(qū)域,提高了特征的有效性。同時(shí),本文算法融合了面部圖像的HOG方向梯度特征,從另一角度對(duì)表情特征進(jìn)行補(bǔ)充完善。最終實(shí)驗(yàn)證明:本文提出的融合HOG方向梯度的自適應(yīng)加權(quán)LDP算法可以有效提高面部表情識(shí)別的準(zhǔn)確率。
表2是4種算法運(yùn)行速度對(duì)比結(jié)果,原LDP算法每1s可識(shí)別35幀圖像,本文算法因融合HOG方向梯度導(dǎo)致算法遜于原算法;而MultiCore-CNN算法雖然識(shí)別率穩(wěn)定,但是卷積神經(jīng)網(wǎng)絡(luò)的特性導(dǎo)致了速率低于其他3種算法。4種算法運(yùn)行速度對(duì)比結(jié)果如表2所示。
表2 四種算法識(shí)別速度對(duì)比
圖像捕捉識(shí)別是虛擬現(xiàn)實(shí)設(shè)備表情捕捉識(shí)別方式之一。本文針對(duì)LDP的表情特征提取方法識(shí)別率偏低的問(wèn)題進(jìn)行了分析,發(fā)現(xiàn)各子圖像的特征向量直接聯(lián)合構(gòu)成的LDP特征針對(duì)性不強(qiáng),效率較低;單一采用LDP這一維度對(duì)特征進(jìn)行描述,特征信息不夠豐富全面。針對(duì)這兩點(diǎn)不足,本文提出融合方向梯度的自適應(yīng)加權(quán)LDP人臉表情識(shí)別方法。首先,對(duì)人臉圖像進(jìn)行HOG方向梯度特征提取,同時(shí)得到其梯度幅值圖;之后,將梯度幅值圖按照LDP分塊方式進(jìn)行子圖像劃分,并根據(jù)各梯度幅值子圖像信息熵計(jì)算LDP子圖像權(quán)重,得出自適應(yīng)加權(quán)的LDP特征向量;最后,將原圖像的方向梯度特征與自適應(yīng)加權(quán)LDP特征進(jìn)行融合,一起作為人臉表情的特征向量。通過(guò)在CK+庫(kù)上的對(duì)比實(shí)驗(yàn),證明本文算法在人臉表情識(shí)別上有著較高的識(shí)別率和識(shí)別效率。
重慶理工大學(xué)學(xué)報(bào)(自然科學(xué))2019年10期