黃增喜,于 春,李明欣
(1.西華大學(xué)計(jì)算機(jī)與軟件工程學(xué)院,四川 成都 610039;2.成都航空職業(yè)技術(shù)學(xué)院計(jì)算機(jī)工程系,四川 成都 610100)
?
·計(jì)算機(jī)軟件理論、技術(shù)與應(yīng)用·
臉耳多模態(tài)稀疏表示融合識(shí)別方法比較
黃增喜1,于春1,李明欣2
(1.西華大學(xué)計(jì)算機(jī)與軟件工程學(xué)院,四川 成都610039;2.成都航空職業(yè)技術(shù)學(xué)院計(jì)算機(jī)工程系,四川 成都610100)
將稀疏表示應(yīng)用于臉耳多模態(tài)身份辨識(shí),比較和分析采用不同融合方法的多模態(tài)稀疏表示識(shí)別算法的準(zhǔn)確性和魯棒性,為多模態(tài)稀疏表示融合識(shí)別算法設(shè)計(jì)提供理論和方法指導(dǎo)。結(jié)合多模態(tài)融合層次理論與稀疏表示分類的技術(shù)特點(diǎn),提出3種多模態(tài)稀疏表示識(shí)別方法:直接特征融合法、間接特征融合法和匹配層融合法。從多模態(tài)融合角度看,3種方法的不同在于融合層次或融合策略不同;從稀疏表示角度看,它們的主要區(qū)別在于稀疏表示時(shí)臉和耳特征耦合的程度不同。在3個(gè)多模態(tài)數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果表明:所提3種方法在識(shí)別準(zhǔn)確率和魯棒性上遠(yuǎn)優(yōu)于采用NN、NFL和SVM等分類器的融合識(shí)別方法;當(dāng)臉耳圖像中噪聲不顯著時(shí),3種方法性能相當(dāng),當(dāng)噪聲嚴(yán)重時(shí),匹配層融合識(shí)別方法優(yōu)于特征層融合方法。
多模態(tài)識(shí)別; 稀疏表示; 人臉識(shí)別; 人耳識(shí)別
在眾多生物特征識(shí)別技術(shù)中,人臉識(shí)別因其獨(dú)特的應(yīng)用優(yōu)勢(shì)而被視為最具發(fā)展前景的生物特征識(shí)別技術(shù)之一[1-3]。人臉識(shí)別使用非接觸式數(shù)據(jù)采集,無需特殊裝置,成本低,與指紋、虹膜識(shí)別等相比更易被用戶接受。其識(shí)別更符合人類“以貌識(shí)人”的視覺習(xí)慣,識(shí)別距離較遠(yuǎn),可隱蔽操作,操作簡(jiǎn)單,結(jié)果直觀,尤其適用于安防、罪犯檢測(cè)與監(jiān)控、工業(yè)生產(chǎn)和家庭娛樂等領(lǐng)域?,F(xiàn)有的人臉識(shí)別系統(tǒng)在用戶配合、采集條件較理想的情況下可以取得很好的識(shí)別結(jié)果;但由于人臉特征易受光照、表情、化妝、姿態(tài)和飾物遮擋等影響,因此,在采集條件不理想、用戶配合程度低的情況下,人臉識(shí)別準(zhǔn)確性仍難以讓人滿意。
人耳識(shí)別是利用人耳3D結(jié)構(gòu)中包含的豐富鑒別信息進(jìn)行身份識(shí)別。人耳識(shí)別使用普通圖像采集設(shè)備,也具有非接觸、可識(shí)別距離較遠(yuǎn)的優(yōu)勢(shì),因此,人耳識(shí)別具有與人臉識(shí)別相似的應(yīng)用特點(diǎn)。另一方面與人臉識(shí)別相比,人耳識(shí)別幾乎不受表情、化妝、胡須和年齡等變化的影響。人臉識(shí)別和人耳識(shí)別有非常好的兼容性,很多特征提取和模式分類方法同時(shí)適用于兩者;因此,融合人臉和人耳特征進(jìn)行多模態(tài)身份識(shí)別是可行的,有望提高生物特征識(shí)別的準(zhǔn)確性和可靠性[4-5]。
盡管如此,在諸如視頻監(jiān)控等需要遠(yuǎn)距離身份識(shí)別的應(yīng)用場(chǎng)合中,由于難以得到用戶的配合,系統(tǒng)采集到的人臉和人耳圖像常受到光照、表情、頭發(fā)或飾物遮擋,以及拍攝角度等因素的影響,因此其質(zhì)量不高。如何提高多模態(tài)識(shí)別魯棒性是一個(gè)亟待解決的問題。
近年來,稀疏表示分類方法被廣泛應(yīng)用于各種類型的目標(biāo)識(shí)別中,具有識(shí)別精度高、魯棒性強(qiáng)的優(yōu)勢(shì)[4-5],但其在多模態(tài)生物特征識(shí)別[6-7]上的應(yīng)用和研究尚不多見。鑒于此,本文將稀疏表示應(yīng)用于臉耳多模態(tài)身份辨識(shí),比較和分析采用不同層次融合方法的多模態(tài)稀疏表示識(shí)別算法,探索多模態(tài)稀疏表示識(shí)別性能,以及稀疏表示識(shí)別框架下融合層次與識(shí)別性能之間的規(guī)律。首先,結(jié)合多模態(tài)融合層次理論與稀疏表示分類的技術(shù)特點(diǎn),提出3種多模態(tài)稀疏表示識(shí)別方法;然后,以常用的臉、耳圖像庫(kù)構(gòu)建臉耳多模態(tài)數(shù)據(jù)庫(kù),對(duì)3種方法進(jìn)行測(cè)試和分析;最后,總結(jié)稀疏表示識(shí)別框架下融合層次與識(shí)別性能之間的一般規(guī)律,為多模態(tài)稀疏表示融合識(shí)別算法設(shè)計(jì)提供理論和方法指導(dǎo)。
稀疏表示的基本思想是在超完備字典中尋找盡可能少的字典基原子,使它們的線性組合能夠精確描述原信號(hào),簡(jiǎn)言之就是要使稀疏表示向量中非零元素盡可能的少。Wright等[4]首次提出基于稀疏表示的分類方法(sparse representation-based classification,SRC),并成功應(yīng)用于人臉識(shí)別。該方法使用每個(gè)類的訓(xùn)練樣本(可以是原始數(shù)據(jù)或特征)構(gòu)建超完備字典,將待識(shí)別樣本描述成少數(shù)訓(xùn)練樣本的線性組合,當(dāng)每一類的訓(xùn)練樣本“足夠充分”時(shí),待識(shí)別樣本在字典上的稀疏表示只和其所屬類的訓(xùn)練樣本有關(guān),最后根據(jù)每一類的獨(dú)立稀疏重構(gòu)誤差(ndividual sparse reconstruction error,ISRE)進(jìn)行分類。圖1描述了稀疏表示分類過程。
假設(shè)有c類訓(xùn)練樣本,每類的訓(xùn)練樣本數(shù)為m,訓(xùn)練樣本為N維的列向量,那么第i類訓(xùn)練樣本子集可表示為Ai=[ai,1,ai,2,…,ai,m]。將所有類訓(xùn)練樣本組合構(gòu)成的超完備訓(xùn)練字典A=[A1,A2,…,Ac]∈RN×mc(N?mc)。令y為待識(shí)別樣本,那么SRC的分類識(shí)別過程可分為如下3步。
1)使用字典A對(duì)待識(shí)別樣本y進(jìn)行稀疏表示,即要求解式(1)所示的L1范數(shù)優(yōu)化問題。
(1)
(2)
圖1 基于SRC人臉識(shí)別過程
根據(jù)融合的信息類型,多模態(tài)生物特征融合方法通??煞譃?類:數(shù)據(jù)層融合、特征層融合、匹配層融合和決策層融合。數(shù)據(jù)層融合和特征層融合屬于匹配前融合;匹配層融合和決策層融合屬于匹配后融合。從可用信息的角度看,數(shù)據(jù)層融合能利用的信息最豐富,特征層融合次之,決策層最少。數(shù)據(jù)層信息包含噪聲、冗余信息,且維數(shù)高;決策層雖簡(jiǎn)單,但可融合信息少:因此,數(shù)據(jù)層和決策層融合方法最不常用。匹配層融合法融合不同生物特征的匹配分?jǐn)?shù),算法簡(jiǎn)單,可靠性高,最常用于多模態(tài)識(shí)別。特征層融合法在減少冗余信息、降低融合數(shù)據(jù)維數(shù)的同時(shí),能夠保留更多的生物特征信息,因此,在當(dāng)前匹配層融合法潛能已得到充分挖掘的情況下,特征層融合識(shí)別成為多模態(tài)生物特征融合識(shí)別探索的主要方向。
與多數(shù)傳統(tǒng)分類方法不同,稀疏表示分類在每一次分類識(shí)別過程中都需要求解稀疏優(yōu)化問題,計(jì)算復(fù)雜度較高。稀疏優(yōu)化計(jì)算的復(fù)雜度與樣本維數(shù)和字典中訓(xùn)練樣本的規(guī)模相關(guān)。鑒于數(shù)據(jù)層具有生物特征維數(shù)高且包含噪聲、冗余信息等缺陷,本文在多模態(tài)識(shí)別中,在維數(shù)較低的特征空間運(yùn)用稀疏表示技術(shù),進(jìn)而根據(jù)稀疏表示結(jié)果對(duì)多模態(tài)樣本進(jìn)行分類。
本文選擇主成分分析法(principalcomponentanalysis,PCA)作為人臉和人耳特征提取方法,是基于以下考慮: 1)本文主要關(guān)注稀疏表示分類框架下人臉與人耳的特征融合及分類識(shí)別問題; 2)稀疏表示分類方法計(jì)算復(fù)雜度較高,特征提取方法宜盡可能簡(jiǎn)單快速; 3)在稀疏表示分類框架下,相對(duì)于特征維數(shù)、訓(xùn)練樣本分布和稀疏優(yōu)化方法,不同的全局特征提取方法對(duì)識(shí)別性能的影響不大[4]。與其他特征提取方法相比,PCA方法更具有代表性,基于它的多模態(tài)識(shí)別研究更具說服力和可推廣性。
2.1直接特征融合法
在采用直接特征融合法的多模態(tài)稀疏表示識(shí)別(multimodal SRC with explicit feature fusion,MSRCef)中,首先融合人臉和人耳特征得到唯一的多模態(tài)特征向量,然后使用多模態(tài)超完備字典對(duì)該向量進(jìn)行稀疏表示,最后根據(jù)多模態(tài)稀疏表示誤差進(jìn)行分類識(shí)別。MSRCef的系統(tǒng)框圖如圖2所示。
圖2 MSRCef系統(tǒng)框圖
常用的特征層融合方法有: 1)串行級(jí)聯(lián),將不同模態(tài)特征首尾相連串聯(lián)成新的特征向量;2)并行融合,利用復(fù)向量將2組特征向量進(jìn)行并聯(lián)表示, 將特征空間從實(shí)向量空間擴(kuò)展到復(fù)向量空間; 3)相關(guān)性分析法,使用CCA等相關(guān)性分析法提取不同模態(tài)生物特征間的相關(guān)特征。并行融合法只能融合2類生物特征。在進(jìn)行多模態(tài)識(shí)別時(shí),當(dāng)用戶的某一種生物特征缺失或無法獲取時(shí),相關(guān)性分析法可能會(huì)無效。相比于后2種方法,串行級(jí)聯(lián)更簡(jiǎn)單靈活,更具推廣性,因此,在MSRCef中采用串行級(jí)聯(lián)方式融合人臉和人耳PCA特征。待識(shí)別樣本的多模態(tài)特征可表示為z=[zf;ze],多模態(tài)超完備特征字典為D=[Df;De]。
在MSRCef中,須求解的多模態(tài)稀疏表示問題可表示為
(3)
分類規(guī)則與單模態(tài)SRC類似,
(4)
2.2間接特征融合法
間接特征融合法并不直接融合不同類型生物特征,而是將臉和耳特征作為聯(lián)合稀疏表示模塊的輸入,在聯(lián)合稀疏表示過程中二者將相互影響和促進(jìn),最后得到各自的稀疏表示結(jié)果。本文將這種多模態(tài)稀疏表示識(shí)別方法簡(jiǎn)記為MSRCif(multimodal SRC with implicit feature fusion),其系統(tǒng)框圖如圖3所示。MSRCif對(duì)人臉特征zf和人耳特征ze進(jìn)行聯(lián)合稀疏表示,根據(jù)每類的多模態(tài)重構(gòu)誤差進(jìn)行分類識(shí)別。
圖3 MSRCif系統(tǒng)框圖
(5)
MSRCif的多模態(tài)分類規(guī)則可描述為
(6)
2.3匹配層融合法
SRC將每一類得到的獨(dú)立稀疏重構(gòu)誤差(ISRE)看成是待識(shí)別樣本與訓(xùn)練樣本類間的距離度量,某一類的ISRE越小,表示樣本與該類越相似。在基于匹配層融合的多模態(tài)稀疏表示識(shí)別方法(multimodal SRC at score level,MSRCs)中,將ISRE作為生物特征匹配分?jǐn)?shù),分別對(duì)人臉特征和人耳特征進(jìn)行稀疏表示并在獲取2種生物特征的ISRE后,使用Sum-rule融合得到多模態(tài)ISRE匹配分?jǐn)?shù)。MSRCs是一個(gè)典型的多模態(tài)匹配層融合方法,其系統(tǒng)框圖如圖4所示。MSRCs中的人臉和人耳特征稀疏表示問題描述如下:
(7)
(8)
MSRCs與MSRCif的多模態(tài)分類規(guī)則一致。
圖4 MSRCs系統(tǒng)框圖
臉耳多模態(tài)生物特征識(shí)別是一種新興的生物特征識(shí)別研究分支。目前,主要通過將不同人臉庫(kù)和人耳庫(kù)中的對(duì)象進(jìn)行隨機(jī)配對(duì)以獲得同時(shí)含有臉和耳圖像的虛擬人,構(gòu)成虛擬臉耳多模態(tài)數(shù)據(jù)庫(kù)。稀疏表示分類理論是建立在待識(shí)別樣本要落在超完備字典所有基原子所張成子空間的假設(shè)之上,因此通常要求每個(gè)對(duì)象(或類)的訓(xùn)練樣本“足夠充分”。例如在文獻(xiàn)[4,8]中的稀疏表示分類方法在AR[9]和YaleB[10]人臉庫(kù)上分別使用每個(gè)對(duì)象的7幅和32幅人臉圖像作為訓(xùn)練樣本。本文選用北京科技大學(xué)人耳實(shí)驗(yàn)室的人耳圖像庫(kù)USTBⅢ[11]。該人耳庫(kù)有79個(gè)對(duì)象,每個(gè)對(duì)象有20幅人耳圖像。20幅人耳圖像的差異主要是拍攝角度不同,帶有紅色矩形框標(biāo)識(shí)的7幅人耳作為訓(xùn)練樣本,其余13幅作為測(cè)試樣本,如圖5 (d) 所示。人臉庫(kù)選用YaleB、GeorgiaTech(GT,含50人)[12]和AR(前79人)人臉庫(kù),圖5給出了各人臉庫(kù)的圖像示例,其中(a)為YaleB(子集1、2、3、4、5),(b)為GT,(c)為AR的第1期、第2期,(d)為USTBIII的頭部向左和向右轉(zhuǎn)。本文將所有人臉和人耳圖像規(guī)范化到50×40像素。
圖5 人臉和人耳圖像示例
分別將YaleB、GT和AR人臉庫(kù)與USTBIII人耳庫(kù)結(jié)合,構(gòu)建出3個(gè)虛擬多模態(tài)數(shù)據(jù)庫(kù),分別命名為multimodaldatabaseI、II和III(簡(jiǎn)稱為MDI、II、和III)。其中,MDI和MDII分別使用USTBIII人耳庫(kù)的前38和50個(gè)對(duì)象。對(duì)于每個(gè)虛擬對(duì)象,將7個(gè)人臉訓(xùn)練樣本與7個(gè)人耳訓(xùn)練樣本進(jìn)行一一配對(duì),獲得7個(gè)多模態(tài)訓(xùn)練樣本。為獲得更多多模態(tài)測(cè)試樣本,將每一個(gè)人臉測(cè)試樣本跟所有人耳測(cè)試樣本進(jìn)行配對(duì)。比如在MDII中,每個(gè)虛擬對(duì)象有8個(gè)人臉測(cè)試樣本和13個(gè)人耳測(cè)試樣本,則每個(gè)虛擬對(duì)象可得到8×13=105個(gè)多模態(tài)測(cè)試樣本。表1給出了這3個(gè)虛擬多模態(tài)數(shù)據(jù)庫(kù)的詳細(xì)構(gòu)成,及相應(yīng)的人臉庫(kù)和人耳庫(kù)信息。每個(gè)多模態(tài)庫(kù)中,構(gòu)成多模態(tài)訓(xùn)練樣本的人臉和人耳圖像在單模態(tài)實(shí)驗(yàn)中也將作為訓(xùn)練樣本,測(cè)試樣本也是如此。
本文中MSRCif采用文獻(xiàn)[13]中的MTJSRC方法求解式(4)的聯(lián)合稀疏表示問題,其他L1范數(shù)優(yōu)化問題均采用l1-ls算法[14]來求解。在實(shí)驗(yàn)中,MDI的測(cè)試集僅包含子集1、2和3,相應(yīng)地,單模態(tài)識(shí)別實(shí)驗(yàn)中YaleB人臉庫(kù)測(cè)試集只包含子集2、3和4。MDI、II和III上的人臉和人耳PCA特征向量維數(shù)分別為120、150和200。
為說明所提3種多模態(tài)稀疏表示識(shí)別方法的有效性,首先給出單模態(tài)實(shí)驗(yàn)結(jié)果作為比較依據(jù)。在單模態(tài)實(shí)驗(yàn)中,將SRC和最近鄰法(NN)、最近特征線法(NFL)、支持向量機(jī)(SVM)(使用核函數(shù):
表1 臉耳多模態(tài)數(shù)據(jù)庫(kù)MD I、II和 III的組成
表2 MD I、II和 III上的單模態(tài)識(shí)別準(zhǔn)確率 %
K(x,x′)=(0.05〈x,x′〉+1)3)進(jìn)行比較。接著,在多模態(tài)實(shí)驗(yàn)中,將所提MSRCef、MSRCif、MSRCs與這些分類方法的多模態(tài)擴(kuò)展MNN(MultimodalNN)、MNFL(MultimodalNFL)、和MSVM(MultimodalSVM)進(jìn)行比較。MNN、MNFL和MSVM都采用串行級(jí)聯(lián)的特征融合方法。本文實(shí)驗(yàn)使用的計(jì)算機(jī)配置為英特爾奔騰系列2.8GHz雙核處理器、4GRAM,所有方法均在Matlab2010b平臺(tái)上進(jìn)行測(cè)試。
4.1單模態(tài)識(shí)別
首先給出人臉與人耳單模態(tài)識(shí)別方法的實(shí)驗(yàn)結(jié)果,作為多模態(tài)識(shí)別性能的參考。這些方法包括SRC、NN、NFL、和SVM。從表2中,可以看到,在所有人臉和人耳庫(kù)上SRC的識(shí)別率都遠(yuǎn)高于其他方法,說明SRC分類方法具有更優(yōu)異的分類判別能力。
4.2多模態(tài)識(shí)別
多模態(tài)識(shí)別實(shí)驗(yàn)包括2部分:常規(guī)測(cè)試(測(cè)試樣本無明顯噪聲);遮擋測(cè)試(人臉受到太陽(yáng)鏡或圍巾遮擋)。
1)常規(guī)測(cè)試。
常規(guī)測(cè)試中MD I的測(cè)試集包括測(cè)試子集1、2和3,總共1萬8 772個(gè)多模態(tài)測(cè)試樣本,MD III的測(cè)試集為測(cè)試子集1,含有7 189個(gè)樣本。從圖5中可看到所有多模態(tài)測(cè)試樣本中的人臉與人耳圖像無嚴(yán)重污染的情況,但均受一定程度的光照、角度或面部表情變化的影響,這與實(shí)際應(yīng)用環(huán)境中生物特征圖像采集情況頗為相似,具有一定的識(shí)別難度。
表3列出了所有比較方法在3個(gè)多模態(tài)數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果??傮w上,基于稀疏表示分類的方法識(shí)別精度遠(yuǎn)高于其他方法。在MD I上,MSRCs得到最高識(shí)別率,為97.001%,MSRCif與MSRCs相當(dāng)。與此二者相比,MSRCef劣勢(shì)顯著,但其對(duì)于大多數(shù)傳統(tǒng)方法的優(yōu)勢(shì)仍然十分明顯,如識(shí)別率比MNN提高了約20%。在MD II和MD III上,MSRCif和MSRCs分別獲得最高識(shí)別率。盡管如此,3種多模態(tài)稀疏表示識(shí)別方法之間的識(shí)別性能差異非常微小。在MD II中,它們的識(shí)別率均比MNN的高約12%,比傳統(tǒng)方法中表現(xiàn)最好的MSVM也要高出7%。以上實(shí)驗(yàn)結(jié)果充分說明了本文所提多模態(tài)稀疏表示融合識(shí)別方法的識(shí)別準(zhǔn)確性較高。
表3 常規(guī)測(cè)試中的多模態(tài)識(shí)別準(zhǔn)確率 %
表4 多模態(tài)與單模態(tài)識(shí)別準(zhǔn)確率比較 %
表5 人臉遮擋條件下的多模態(tài)識(shí)別準(zhǔn)確率 %
為探索多模態(tài)融合的作用,對(duì)采用相同分類方法的多模態(tài)和人臉人耳單模態(tài)方法進(jìn)行比較,得到如表4所示結(jié)果。結(jié)果為負(fù)數(shù)說明該多模態(tài)方法識(shí)別準(zhǔn)確性差于使用相同分類方法的最好單模態(tài)識(shí)別(人臉識(shí)別或人耳識(shí)別),或者說多模態(tài)識(shí)別比單模態(tài)識(shí)別差。比如在MD I中,MNN的識(shí)別率為72.059 %,而基于NN的最好單模態(tài)識(shí)別結(jié)果為人耳識(shí)別的81.846 %;因此MNN的比較結(jié)果為72.059 %-81.846 %=-9.787 %,明顯差于人耳識(shí)別。
表4的結(jié)果表明:相較于單模態(tài)識(shí)別,大多數(shù)多模態(tài)融合方法,尤其是基于稀疏表示分類的方法能夠顯著提高識(shí)別精度;但是,MNN、MNFL和MSVM等多模態(tài)融合識(shí)別方法在不少情況下并未能提高識(shí)別準(zhǔn)確性,這說明這些傳統(tǒng)方法在無顯著噪聲影響下未必優(yōu)于單模態(tài)識(shí)別。
2)遮擋測(cè)試。
MDIII的測(cè)試子集2中,人臉受到黑色太陽(yáng)鏡的遮擋。雖然受遮擋像素只有約20 %,但是受遮擋的卻是包含人臉判別信息最豐富的眼睛區(qū)域。測(cè)試子集3中,人臉圖像被圍巾遮擋的像素比例約為30 %。表5給出多模態(tài)識(shí)別方法在這2個(gè)測(cè)試集上的識(shí)別結(jié)果。在子集2上,MSRCs得到最高的識(shí)別率,為93.411 %,其次為MSRCif的89.776 %。在子集3上,MSRCs依然顯著好于其他方法,獲得96.284%,比排第二的MSRCif提高了約3 %,而傳統(tǒng)方法中表現(xiàn)最好的MSVM僅得到59.964 %的識(shí)別結(jié)果。
在2個(gè)子集的測(cè)試中,除了MSVM在子集2上能夠利用被遮擋人臉的判別信息而獲得略高于單獨(dú)使用人耳圖像進(jìn)行識(shí)別的結(jié)果,其他所有基于傳統(tǒng)分類方法的多模態(tài)識(shí)別均比人耳單模態(tài)識(shí)別差。與此形成鮮明對(duì)比,多模態(tài)稀疏表示識(shí)別方法魯棒性更好,MSRCs和MSRCif在2個(gè)子集上均顯著優(yōu)于基于SRC的單模態(tài)人耳識(shí)別。這說明此2種方法不但能較好地降低人臉圖像中太陽(yáng)鏡和圍巾遮擋帶來的不利影響,還能在一定程度上利用人臉圖像中未受遮擋部分的有利判別信息。
從上述實(shí)驗(yàn)中,可以看到在常規(guī)測(cè)試中MSRCef、MSRCif 和MSRCs的性能非常接近,但在人臉遮擋實(shí)驗(yàn)中MSRCef明顯差于后2種方法,MSRCs最優(yōu)。通過本文實(shí)驗(yàn)發(fā)現(xiàn):在稀疏表示分類框架下,當(dāng)人臉和人耳圖像無顯著噪聲影響時(shí),特征層融合方法和匹配層融合方法的識(shí)別精度相當(dāng);當(dāng)噪聲較大時(shí),匹配層融合法要優(yōu)于特征層融合法。
本文結(jié)合多模態(tài)融合層次理論與稀疏表示分類的技術(shù)特點(diǎn),提出3種臉耳多模態(tài)稀疏表示識(shí)別方法。從多模態(tài)融合的角度上看,3種方法的不同在于融合層次或融合策略不同;而從稀疏表示的角度上看,3種方法的主要區(qū)別在于稀疏表示時(shí)臉和耳特征耦合的程度不同。為檢驗(yàn)和探索多模態(tài)稀疏表示識(shí)別的性能,及稀疏表示識(shí)別框架下融合層次與識(shí)別性能間的一般規(guī)律,以常用臉、耳圖像庫(kù)構(gòu)建臉耳多模態(tài)數(shù)據(jù)庫(kù),進(jìn)行實(shí)驗(yàn),其結(jié)果表明,基于稀疏表示分類的人臉與人耳多模態(tài)融合識(shí)別方法在識(shí)別準(zhǔn)確性和魯棒性上都遠(yuǎn)優(yōu)于如MSVM、MNN和MNFL等常見融合識(shí)別方法。在多模態(tài)稀疏表示識(shí)別方法中,當(dāng)臉、耳圖像中噪聲較低時(shí),3類方法的識(shí)別性能相當(dāng),當(dāng)噪聲嚴(yán)重時(shí),匹配層融合識(shí)別方法顯著優(yōu)于特征層融合方法;因此,采用
弱耦合多模態(tài)稀疏表示可提高多模態(tài)識(shí)別的魯棒性。同時(shí),實(shí)驗(yàn)結(jié)果還發(fā)現(xiàn),在噪聲影響下,多模態(tài)融合識(shí)別并不一定優(yōu)于單模態(tài)識(shí)別,進(jìn)一步的工作是研究如何提高多模態(tài)識(shí)別的自適應(yīng)融合能力以擺脫這種窘境。
[1]Jain A K, Li S Z. Handbook of Face Recognition[M]. New York: Springer, 2005.
[2]楊軍, 劉妍麗. 基于圖像的單樣本人臉識(shí)別研究進(jìn)展[J]. 西華大學(xué)學(xué)報(bào)(自然科學(xué)版), 2014, 33(4):1.
[3]趙成芳, 李兆延. 基于縮放因子的人臉直方圖特征距離度量方法[J]. 西華大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013,32(5):8.
[4]Wright J, Yang A Y, Ganesh A, et al. Robust Face Recognition via Sparse Representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2): 210.
[5]夏凌, 李光瑞. 基于壓縮感知和圖像分塊的遮擋人臉識(shí)別[J]. 西華大學(xué)學(xué)報(bào)(自然科學(xué)版), 2015, 34(3):13.
[6]Huang Z, Liu Y, Li C,et al. A Robust Face and Ear based Multimodal Biometric System using Sparse Representation[J]. Pattern Recognition, 2013, 46(8): 2156.
[7]Huang Z, Liu Y, Huang R,et al. Frameworks for Multimodal Biometric using Sparse Coding[J]. Lecture Notes in Computer Science, 2013, 7751: 433.
[8]Yang M, Zhang D, Yang J. Robust Sparse Coding for Face Recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI:IEEE, 2011: 625-632.
[9]Martinez A M. The AR Face Database[J]. CVC Technical Report, 1998,6: 24.
[10]Lee K C, Ho J,Kriegman D. Acquiring Linear Subspaces for Face Recognition under Variable Lighting[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(5): 684.
[11]北京科技大學(xué)人耳識(shí)別實(shí)驗(yàn)室.開放式人耳圖像庫(kù)[EB/OL].[2016-01-02].http://www1.ustb.edu.cn/resb/.
[12]Georgia Tech Face Database[EB/OL].[2016-01-02].http://www.anefian.com/research/face_reco.
[13]Yuan X T, Liu X, Yan S. Visual Classification with Multitask Joint Sparse Representation[J]. IEEE Transactions on Image Processing, 2012, 21(10): 4349.
[14]Koh K, Kim S J, Boyd S. An Interior-Point Method for Large-Scale1-Regularized Logistic Regression[J]. Journal of Machine Learning Research, 2007, 1(4): 606.
(編校:饒莉)
Comparison of Face and Ear Based on Multimodal Biometric Identification with Sparse Representation
HUANG Zengxi1, YU Chun1, LI Mingxin2
(1.SchoolofComputerandSoftwareEngineering,XihuaUniversity,Chengdu610039China;2.DepartmentofComputerEngineering,ChengduAeronauticPolytechnic,Chengdu610100China)
This paper proposes to employ sparse representation (SR) in multimodal biometric identification of face and ear, and focuses on performance comparison among the presented approaches with different fusion schemes seeking to find guideline for designing mulitimodal biometric recognition systems with sparse representation. In this paper, three multimodal methods are introduced based on the hierarchical multimodal fusion theory and SR’s operating mechanism. These methods are MSRCef (multimodal SRC with explicit feature fusion), MSRCif (multimodal SRC with implicit feature fusion), and MSRCs (multimodal SRC at score level). From the viewpoint of multimodal fusion, they adopt different fusion strategies, on the other hand, their major difference lies on the constraint imposed on the sparse representation of face and ear features. Experimental results on three multimodal databases demonstrate that all the three proposed multimodal approaches perform significantly better than those using NN, NFL, SVM, etc. Besides, the proposed multimodal methods are generally comparable, however the method with score level fusion scheme is obviously superior to the others with feature level fusion when the face and/or ear images confront heavy corruption.
multimodal biometric; sparse representation; face recognition; ear recognition
2016-05-08
西華大學(xué)校自然科學(xué)重點(diǎn)基金項(xiàng)目(zl422618);國(guó)家自然科學(xué)基金項(xiàng)目(61271413, 61472329、 61532009); 教育部春暉計(jì)劃項(xiàng)目(Z2015101); 四川省教育廳項(xiàng)目(15ZB0130);西華大學(xué)計(jì)算機(jī)與軟件工程學(xué)院杰出青年學(xué)者培育項(xiàng)目。
黃增喜(1985—),男,講師,博士,主要研究方向?yàn)閳D像處理與模式識(shí)別。E-mail:luomu117@sina.com
TP391.41
A
1673-159X(2016)04-0017-6
10.3969/j.issn.1673-159X.2016.04.004