穆曉敏,張嗣思,齊 林
(鄭州大學(xué)信息工程學(xué)院,河南鄭州450001)
近幾年,對(duì)于人臉表情識(shí)別已經(jīng)有了廣泛的研究.視覺圖像特征被公認(rèn)為是反映人類表情狀態(tài)最重要的信息之一.表情識(shí)別的關(guān)鍵技術(shù)包括特征提取和分類器設(shè)計(jì).Wang等人[1]利用Gabor小波提取視覺圖像特征,并采用基于FLDA的分類器進(jìn)行表情識(shí)別,平均識(shí)別率為49.29%.但是這種方法的計(jì)算復(fù)雜度較高,且識(shí)別率不高.分?jǐn)?shù)階傅里葉變換(FrFT)是近年發(fā)展起來的一種新型時(shí)頻分析工具,類似于傳統(tǒng)的二維傅里葉變換,2D-FrFT的相位函數(shù)包含了圖像的紋理信息,變換階次不同,相位函數(shù)所含的圖像邊緣信息也不同,這使得分?jǐn)?shù)階傅里葉變換可以更加靈活的用于圖像的邊緣提取和識(shí)別[2].文獻(xiàn)[2]首次將2D-FrFT應(yīng)用于人類表情識(shí)別,其思想是將2D-Fr-FT若干階次下提取到的圖像相位信息進(jìn)行分類識(shí)別,平均識(shí)別率達(dá)到54.17%.
分析文獻(xiàn)[2]的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn)在二維分?jǐn)?shù)階傅里葉域內(nèi),不同表情的特征奇異性與變換階次密切相關(guān),因此不同表情的最高識(shí)別率將對(duì)應(yīng)于特定的階次;同一階次下不同表情的識(shí)別率也與該階次下表情特征的奇異性密切相關(guān),因此同一階次下不同表情的識(shí)別率也不同.基于上述分析,在不同階次之間進(jìn)行特征融合以取得更好的識(shí)別率成為可能.筆者在文獻(xiàn)[2]的基礎(chǔ)上,提出一種在分?jǐn)?shù)階傅里葉域內(nèi)兩個(gè)不同階次之間進(jìn)行特征融合的表情識(shí)別方法.該方法的思想是尋找兩個(gè)對(duì)所有表情均有較高識(shí)別率的變換階次,利用其分?jǐn)?shù)階域特征構(gòu)成兩組維數(shù)相同的特征矢量,然后利用典型相關(guān)分析法(Canonical Correlation Analysis,CCA)進(jìn)行兩個(gè)階次的特征融合,融合后的特征采用基于支持向量機(jī)(Support Vector Machine,SVM)的多層分類機(jī)制進(jìn)行識(shí)別.利用加拿大瑞爾森大學(xué)提供的人臉數(shù)據(jù)庫對(duì)所提方法進(jìn)行了仿真實(shí)驗(yàn),仿真結(jié)果表明該方法不僅使得表情識(shí)別率較單階次下有明顯的提高,而且所采用的融合算法降低了表情特征的維數(shù),減小了計(jì)算量.
筆者提出的基于特征融合的人臉表情識(shí)別方法原理如圖1所示.通常原始圖像樣本直接利用2D-FrFT提取表情特征時(shí),變換維數(shù)很高,導(dǎo)致運(yùn)算量很大.為了減小運(yùn)算量,首先要對(duì)原始圖像樣本進(jìn)行降維預(yù)處理,其目的是提取對(duì)識(shí)別具有重要意義的奇異信息,去除冗余信息.常用的降維方法有:最鄰近線性差值法、主成分分析法、獨(dú)立成分分析法等[1].
特征融合的基礎(chǔ)是選定針對(duì)生氣、沮喪、害怕、高興、悲傷、驚奇等6種基本表情都有較高識(shí)別率的兩個(gè)變換階次,這是算法的前提.在此基礎(chǔ)上設(shè)計(jì)特征融合算法和分類決策機(jī)制.該方法主要包含4個(gè)步驟:(1)為減小運(yùn)算量,先對(duì)原始圖像進(jìn)行降維預(yù)處理;(2)根據(jù)實(shí)驗(yàn)結(jié)果選擇2DFrFT中識(shí)別率較好的兩個(gè)階次提取到的表情特征構(gòu)成兩組特征向量;(3)設(shè)計(jì)融合算法進(jìn)行兩個(gè)階次下分?jǐn)?shù)階傅里葉域特征融合;(4)利用基于SVM的多層次分類機(jī)制進(jìn)行分類與識(shí)別.
圖1 基于2D-FrFT特征融合的表情識(shí)別框架Fig.1 The framework of emotion recognition based on 2D-FrFT
由H.Hotelling[4-5]提出的典型相關(guān)分析法(CCA)是處理兩組隨機(jī)矢量之間相關(guān)性的統(tǒng)計(jì)方法.利用該算法的統(tǒng)計(jì)結(jié)果可以把兩組隨機(jī)變量之間的相關(guān)性研究轉(zhuǎn)化為少數(shù)幾對(duì)不相關(guān)變量之間相關(guān)性的研究.將該算法用于多階次特征融合不僅可以降低表情特征的維數(shù),而且所抽取的典型相關(guān)特征具有良好的分類性能.
將CCA算法用于兩個(gè)階次特征融合的關(guān)鍵是確定投影方向及尋找兩組隨機(jī)變量在投影方向上的典型相關(guān)矢量.假設(shè)在圖2中,用于特征融合的2D-FrFT兩個(gè)階次分別為a和b,將階次為a和b時(shí)提取到的圖像相位信息看成是兩組多維隨機(jī)變量,并分別用x和y表示.按照CCA的基本思想找到一組典型投影矢量u和v,通過投影得到x在u上的投影矢量X*,y在v上的投影矢量Y*,寫成如下形式:
式中:pi和qi即為一對(duì)典型相關(guān)特征矢量(i=1,2,…,n,n=min[x的維數(shù),y的維數(shù)]),且每對(duì)典型相關(guān)特征矢量之間保持最大相關(guān)性,各對(duì)之間不相關(guān).
每對(duì)典型相關(guān)特征矢量均對(duì)應(yīng)一個(gè)相關(guān)系數(shù)r(0≤r≤1),r代表了每對(duì)典型相關(guān)特征矢量的相關(guān)程度,r越趨近于1說明相關(guān)程度越高.通常會(huì)參考r值的大小選擇m(m≤n)對(duì)典型相關(guān)特征矢量組成融合特征,這樣只需分析m對(duì)典型相關(guān)特征矢量的關(guān)系即可達(dá)到對(duì)x和y之間的相關(guān)性分析[6].
投影后的融合特征可以寫成:
式中:Wx和Wy為典型投影子矩陣,又稱融合矩陣.Z為最終用于分類識(shí)別的融合特征,Z融合了2D-FrFT域中兩個(gè)最優(yōu)階次下提取到表情特征,并通過CCA消除了信息冗余,融合后降低了表情特征的維數(shù).
采用多層次分類機(jī)制[7]是為了減少參與每層分類的類別數(shù),從而將每層分類過程控制在一個(gè)類別數(shù)較少的范圍內(nèi),這樣更容易控制分類過程.同時(shí)也減少了誤判,有益于識(shí)別率的提高.
多層次分類機(jī)制的最終目標(biāo)就是為了取得可靠的分類結(jié)果和更加準(zhǔn)確的識(shí)別率.鑒于SVM在模式識(shí)別和分類方面所表現(xiàn)出的可靠性[8],將多個(gè)基于SVM的基本分類器的輸出進(jìn)行組合形成一個(gè)多層次分類器.多層次分類機(jī)制的結(jié)構(gòu)如圖2所示:
圖2 多層次分類機(jī)制Fig.2 The multiclassifier scheme
假設(shè) 6 種基本表情狀態(tài)(AN,DI,F(xiàn)E,HA,SA,SU)為6種不同類別,標(biāo)號(hào)1至6.分類器設(shè)計(jì)為兩層,設(shè)置分類決策機(jī)制如下.
第一層分類機(jī)制:由于SVM適合解決二元分類問題且兩類分類器的訓(xùn)練代價(jià)小,因此首先將6種基本表情類別中任意兩類進(jìn)行組合(C26=15),通過訓(xùn)練樣本建立對(duì)應(yīng)的15個(gè)基本分類器.分析待識(shí)別樣本通過第一層分類器后得到的15個(gè)分類結(jié)果,該樣本被歸類為15個(gè)分類結(jié)果中類別號(hào)出現(xiàn)頻度最高的類別.如果存在兩個(gè)或多個(gè)類別號(hào)出現(xiàn)的頻度相同而無法判決時(shí),意味著此待識(shí)別樣本的表情特征模糊于兩種或多種表情,此種情況下需通過第二層分類器區(qū)分出不同表情特征之間的細(xì)微差異,做進(jìn)一步識(shí)別.
第二層分類機(jī)制:考慮第一層分類結(jié)果可能出現(xiàn)以下4種情況:兩個(gè)類別、三個(gè)類別,四個(gè)類別、五個(gè)類別出現(xiàn)頻度相同造成無法判決,因此在第二層構(gòu)建了針對(duì)不同情況的多個(gè)組合特征分類器,每個(gè)分類器參與組合的類別視要甄別哪些表情類別而定.
仿真采用加拿大瑞爾森大學(xué)電子與計(jì)算工程學(xué)院提供的人臉數(shù)據(jù)庫,該數(shù)據(jù)庫采集了來自6個(gè)不同國家、不同文化背景的人在自然狀態(tài)下的高興、沮喪、生氣、害怕、驚奇、厭惡等人臉6種基本表情樣本,樣本均為112×96的8位灰度圖像.從中選取300幅樣本進(jìn)行仿真,為減小運(yùn)算量,先利用最鄰近線性差值法對(duì)圖像進(jìn)行降維處理,得到降維后的 48 維圖像[1,2,3].
將降維后圖像進(jìn)行二維分?jǐn)?shù)階傅里葉變換,提取到圖像的 48 維表情特征[1,2,3],送入多層次分類器進(jìn)行分類識(shí)別.根據(jù)分?jǐn)?shù)階傅里葉變換的對(duì)稱性質(zhì),筆者變換階次取值從0.1到2.0[3],其對(duì)應(yīng)的平均識(shí)別率如下圖3所示:
圖3 2D-FrFT各階次下表情的平均識(shí)別率Fig.3 The average recognition rate under different orders of 2D-FrFT
由圖3可以看出,當(dāng)變換階次為0.5和1.4時(shí)均取得了58.3%的平均識(shí)別率,明顯優(yōu)于其他階次,表明這兩個(gè)階次下提取到的表情特征針對(duì)不同表情的可區(qū)分性較強(qiáng).因此選擇在階次為0.5和1.4之間進(jìn)行基于CCA的特征融合.
根據(jù)CCA原理,x、y分別在u、v上投影得到的m對(duì)典型相關(guān)特征矢量構(gòu)成了最終用于識(shí)別的融合特征Z,Z的維數(shù)(2×m)對(duì)表情識(shí)別率有著直接影響.筆者通過仿真驗(yàn)證了融合特征Z維數(shù)對(duì)識(shí)別率的影響,結(jié)果如圖4所示.由圖4可以看出融合特征維數(shù)對(duì)表情識(shí)別率有一定影響,存在著融合特征的最佳維數(shù).當(dāng)m取18對(duì)典型相關(guān)特征矢量即Z為36維時(shí),達(dá)到最高識(shí)別率75%.
圖4 平均識(shí)別率隨典型相關(guān)特征矢量對(duì)數(shù)m的變化情況Fig.4 The change of average recognition rate in situation to the number of canonical correlation feature pair
為了驗(yàn)證多階次特征融合的識(shí)別效果,將融合特征Z為36維時(shí)6種表情的識(shí)別率與單階次0.5和1.4時(shí)的識(shí)別率進(jìn)行了比較,結(jié)果如圖5所示.
圖5 特征融合前后的各表情識(shí)別率對(duì)比Fig.5 The comparision of recognition rate between before and after feature fusion
從圖5可以看出,在未做特征融合時(shí),當(dāng)變換階次為0.5和1.4時(shí),平均識(shí)別率最高均為58.3%,同一階次下不同表情的識(shí)別率并不相同.這就意味著表情特征值的奇異強(qiáng)烈地依賴于變換階次,因此識(shí)別率的高低也與變換階次的選擇緊密相關(guān).利用CCA對(duì)階次0.5和1.4提取到的表情特征進(jìn)行融合后,平均識(shí)別率達(dá)到了75%,較單階次下平均識(shí)別率有明顯提高.2D-FrFT中階次分別取0.5和1.4時(shí)提取到的表情特征對(duì)不同表情的針對(duì)性各有偏重,特征融合將不同階次下的有效信息進(jìn)行融合并消除冗余信息,實(shí)現(xiàn)了信息之間的互補(bǔ).
在文獻(xiàn)[2]的基礎(chǔ)上,提出了基于2D-FrFT多階次特征融合的人臉表情識(shí)別方法.仿真實(shí)驗(yàn)結(jié)果表明經(jīng)過特征融合后達(dá)到的平均識(shí)別率75%較未融合時(shí)單階次下的平均識(shí)別率58.3%有了大幅提高,這表明通過特征融合對(duì)不同階次下提取到的表情特征起到了互補(bǔ)作用,融合后特征針對(duì)同種表情實(shí)現(xiàn)了共性最大化,針對(duì)不同表情實(shí)現(xiàn)了差異性最大化,從而提高了識(shí)別率.同時(shí)由于采用CCA融合算法也降低了表情特征維數(shù),減小了計(jì)算量.另外,對(duì)表情識(shí)別框架進(jìn)行分析可知,預(yù)處理算法的選擇也直接影響識(shí)別率,仿真中采用了基于最鄰近線性差值法的降維方法[1],該方法計(jì)算復(fù)雜度小適合實(shí)時(shí)處理,但可能丟失部分信息.未來將嘗試采用主成分分析法(PCA)、獨(dú)立成分分析法(ICA)等其他降維預(yù)處理方法.同時(shí),多階次下的特征融合也將是下一步研究的重點(diǎn).
[1]WANG Yong-jin,GUAN Ling.Recognizing human emotional state from audiovisual signals[J].IEEE Trans.Multimedia,2008,10(5):936-946.
[2]QI Lin,CHEN En-qing,MU Xiao-min,et al.Recognizing human emotional state based on the 2D-FrFT and FLDA[J].2nd Image and Signal Processing Conference,2009:1-4.
[3]GAO Lei,QI Lin,CHEN En-qing,et al.Recognizing Human Emotional States Based on the Phase Information of the Two Dimensional Fractional Fourier Transform[J].Lecture Notes in Computer Science,2010,6298(2):694-704.
[4]CEN Ling,Ser,ZHU Liang-yu.Speech emotion recognition using canonical correlation analysis and probabilistic neural network[J].ICMLA,2008,137(21):85.
[5]HOTELLING H.Relations between two sets of variates[J].Biometrika,1936(28):312-377.
[6]孫權(quán)森,曾生根,王平安,等.典型相關(guān)分析的理論及其在特征融合中的應(yīng)用[J].計(jì)算機(jī)學(xué)報(bào),2005,28(9):1524-1533.
[7]RICHARD O D,PETER E HART D G S.Pattern Classification[M].Wiley-Enterscience,2000.
[8]WANG Xiang-yin,ZHONG Yin-xin.Statistical learning theory and state of the art of SVM[J].ICCI’03:55-59.