王鋮東
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
人臉識(shí)別是一項(xiàng)匹配同一個(gè)人面部圖像的任務(wù),隨著深度學(xué)習(xí)的出現(xiàn),該問(wèn)題發(fā)展迅速。通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)的多個(gè)隱藏層提取的特征包含有代表性的信息,可以有效地區(qū)分不同個(gè)體[1]。隨著人臉識(shí)別問(wèn)題的發(fā)展,研究者們開(kāi)始關(guān)注于其中更富有挑戰(zhàn)性的問(wèn)題:如姿態(tài)、光照、表情、年齡等的人臉識(shí)別問(wèn)題[2-3]。與上述問(wèn)題不一樣的是,跨模態(tài)人臉識(shí)別用于比對(duì)識(shí)別的人臉圖像差異更大,且目前的跨模態(tài)人臉識(shí)別相關(guān)的數(shù)據(jù)集規(guī)模小,為識(shí)別帶來(lái)了巨大的困難。
跨模態(tài)人臉識(shí)別的目的是識(shí)別數(shù)據(jù)分布或外觀差異較大的不同模態(tài)人臉圖像[4]。常見(jiàn)的如:近紅外光與可見(jiàn)光、遠(yuǎn)紅外光與可見(jiàn)光、素描與照片、正面與側(cè)面,低分辨率與高分辨率的人臉識(shí)別等問(wèn)題都是跨模態(tài)人臉識(shí)別問(wèn)題??缒B(tài)人臉識(shí)別問(wèn)題主要應(yīng)用于安防、刑偵等場(chǎng)所。最為典型的應(yīng)用場(chǎng)景是:安防部門(mén)系統(tǒng)庫(kù)里的人臉圖像是質(zhì)量良好的可見(jiàn)光圖像,而監(jiān)控所拍攝得到的圖像相對(duì)而言質(zhì)量差,且有很多夜間拍攝的近紅外圖像。受制于數(shù)據(jù)模態(tài)間的巨大差異,已有的人臉識(shí)別模型準(zhǔn)確率下降顯著。
跨模態(tài)人臉識(shí)別問(wèn)題的主要難點(diǎn)在于兩點(diǎn)。一是不同模態(tài)下的數(shù)據(jù)差異大,也可以說(shuō)是數(shù)據(jù)分布的差異大,而這種差異很可能會(huì)導(dǎo)致類內(nèi)距離超過(guò)類間距離。因此,如何有效減少這種數(shù)據(jù)分布上的差異是跨模態(tài)人臉識(shí)別問(wèn)題面臨的主要難點(diǎn)之一。另一個(gè)難點(diǎn)是,相對(duì)于一般的人臉識(shí)別任務(wù)來(lái)說(shuō),跨模態(tài)人臉識(shí)別任務(wù)目前所擁有的數(shù)據(jù)集規(guī)模小,因此直接使用一般的人臉識(shí)別方法很容易過(guò)擬合。
在跨模態(tài)人臉識(shí)別問(wèn)題中,目前研究者們主要針對(duì)單個(gè)的跨模態(tài)因素的研究,對(duì)于實(shí)際的場(chǎng)景仍有一定的差距。如監(jiān)控拍攝的人臉圖像通常不僅是近紅外的圖像,而且其分辨率低,姿態(tài)差異明顯。針對(duì)該問(wèn)題,本文進(jìn)一步引入了低精跨模態(tài)人臉識(shí)別問(wèn)題。該問(wèn)題面臨的困難與挑戰(zhàn)同跨模態(tài)人臉識(shí)別問(wèn)題類似,但更為巨大,而其更為接近于實(shí)際的應(yīng)用場(chǎng)景,是具有研究意義的研究問(wèn)題。
本文依據(jù)目前主流的跨模態(tài)人臉識(shí)別方法,針對(duì)低精跨模態(tài)人臉問(wèn)題,提出了一種基于圖像合成與模態(tài)不變特征表示相結(jié)合的方法。該方法先利用基于圖像合成的方法,將低精數(shù)據(jù)(信息量匱乏)轉(zhuǎn)換為高精數(shù)據(jù)(信息量充足),再通過(guò)模態(tài)不變特征表示的方法減小近紅外與可見(jiàn)光之間的模態(tài)差異,完成最終的低精跨模態(tài)人臉識(shí)別任務(wù)。使用這種方法,主要是考慮到不同信息量差異下,不同方法的適用性與表現(xiàn)會(huì)有所不同。相比較而言,基于合成的方法有助于跨越信息量差異大的模態(tài)差異,而基于模態(tài)不變特征表示的方法更適宜于信息量差異不大,但數(shù)據(jù)的分布不一致的情形。
低精度的圖像信息量相對(duì)于高精度的圖像信息量差異巨大,相關(guān)的跨模態(tài)人臉識(shí)別算法在面對(duì)現(xiàn)實(shí)場(chǎng)景下大量的低精數(shù)據(jù),難以達(dá)到預(yù)期的效果。本文基于循環(huán)生成對(duì)抗網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu)[17],將低精數(shù)據(jù)轉(zhuǎn)換為對(duì)應(yīng)的高精數(shù)據(jù),并且在轉(zhuǎn)換過(guò)程中保持其身份信息。實(shí)驗(yàn)證明,通過(guò)該轉(zhuǎn)換過(guò)程后的數(shù)據(jù)在跨模態(tài)人臉識(shí)別方法上能夠達(dá)到更好的效果。
圖1 身份保持循環(huán)生成對(duì)抗網(wǎng)絡(luò)低分辨率轉(zhuǎn)高分辨率網(wǎng)絡(luò)結(jié)構(gòu)圖
為了在進(jìn)行圖像生成的過(guò)程中保持身份信息的不變性,本文在循環(huán)生成對(duì)抗網(wǎng)絡(luò)的基礎(chǔ)上引入了生成圖像與其對(duì)應(yīng)的高分辨率圖像的L1損失,以及它們?cè)谔卣鲗由系腖2損失。同時(shí),在整個(gè)過(guò)程中,特征提取器的參數(shù)是固定的,網(wǎng)絡(luò)只訓(xùn)練生成器G和F的參數(shù)。且特征提取器的參數(shù)已在原始的近紅外與可見(jiàn)光數(shù)據(jù)集上進(jìn)行了微調(diào),以保證圖像合成的過(guò)程中,L2損失函數(shù)所依據(jù)的身份信息更加真實(shí)、準(zhǔn)確。
在該網(wǎng)絡(luò)的所有損失函數(shù)上,除了原始的循環(huán)生成對(duì)抗的網(wǎng)絡(luò)的判別器損失、生成器損失,循環(huán)一致?lián)p失,本文進(jìn)一步引入了像素級(jí)L1損失和特征級(jí)L2損失,用于進(jìn)行身份保持的任務(wù)。這兩個(gè)損失函數(shù)的具體表示分別為:像素級(jí)L1損失L_pixel:
(1)
以及特征級(jí)L2損失Lfea:
(2)
最終的損失函數(shù)為:
(3)
據(jù)此,我們可以得到最終的優(yōu)化問(wèn)題為:
(4)
通過(guò)對(duì)上述優(yōu)化問(wèn)題進(jìn)行訓(xùn)練,網(wǎng)絡(luò)中的生成器不斷優(yōu)化自身以用于“欺騙”判別器,而判別器則不斷提高自身的判別能力,通過(guò)兩者這樣的不斷對(duì)抗優(yōu)化,生成器能夠生成與真實(shí)高分辨率數(shù)據(jù)類似的數(shù)據(jù)分布,以使得判別器難以分辨。另外需要注意的是,由于在生成的過(guò)程中我們引入了身份保持的兩個(gè)損失函數(shù),這會(huì)使得生成器在整個(gè)過(guò)程中都會(huì)約束自身生成的數(shù)據(jù)與真實(shí)的數(shù)據(jù)身份信息相一致。通過(guò)這種方式,最終生成器能夠?qū)⒌头直媛蕡D像在身份保持的情況下,轉(zhuǎn)換為信息量更為豐富的高分辨率圖像,為后面進(jìn)行模態(tài)不變特征提取提供更為良好的條件。
在經(jīng)過(guò)本文提出的身份保持循環(huán)生成對(duì)抗網(wǎng)絡(luò)的圖像合成后,信息量匱乏的低分辨率數(shù)據(jù)已轉(zhuǎn)換為了信息量更為充分的高分辨率數(shù)據(jù)。然而,通過(guò)網(wǎng)絡(luò)合成的方式并不能得到與真實(shí)數(shù)據(jù)完全一致的數(shù)據(jù)分布。這種偏差本質(zhì)上也是模態(tài)差異,但可以發(fā)現(xiàn),盡管數(shù)據(jù)分布仍存在差異,但數(shù)據(jù)間的信息量的差異已經(jīng)通過(guò)圖像合成的方式大大減小。本文針對(duì)這種情形,在使用文獻(xiàn)[9]作為特征提取網(wǎng)絡(luò)的基礎(chǔ)上,使用三元組損失函數(shù),用于減小生成數(shù)據(jù)與可見(jiàn)光圖像的模態(tài)差異。
(5)
同時(shí):
(6)
因此,對(duì)于每個(gè)小批量而言,最終的三元組樣本對(duì)可以記為:
在上述情況下的樣本對(duì)下,得到最終三元組損失函數(shù)為(本文取margin=0.3):
Ltriplet(Xa,Xp*,Xn*)=max(‖Xa-Xp*‖2-‖Xa-Xn*‖2+margin,0)
(7)
在生成數(shù)據(jù)與真實(shí)數(shù)據(jù)間的模態(tài)差異下,可能導(dǎo)致不同模態(tài)下的類內(nèi)距離大于相同模態(tài)下的類間距離。通過(guò)對(duì)公式(7)的損失函數(shù)進(jìn)行優(yōu)化,可以有效地減小模態(tài)間的差異,從而使得特征提取網(wǎng)絡(luò)能夠提取到與模態(tài)無(wú)關(guān)的身份信息,進(jìn)而能夠有效提升生成數(shù)據(jù)與可見(jiàn)光數(shù)據(jù)上的跨模態(tài)人臉識(shí)別準(zhǔn)確率。至此,通過(guò)上述兩種方法的結(jié)合,我們能夠有效地實(shí)現(xiàn)低精跨模態(tài)人臉識(shí)別任務(wù)。
本部分介紹使用的數(shù)據(jù)集,數(shù)據(jù)集的處理,以及對(duì)實(shí)驗(yàn)的結(jié)果的細(xì)致分析。最后,將會(huì)對(duì)比本文提出的方法在近紅外與可見(jiàn)光跨模態(tài)人臉識(shí)別問(wèn)題,以及本文提出的低精跨模態(tài)人臉識(shí)別問(wèn)題上與近期的其他方法的一些對(duì)比結(jié)果,以證明方法的有效性。
CASIA NIR-VIS 2.0數(shù)據(jù)集[6]是目前最大的跨模態(tài)人臉識(shí)別數(shù)據(jù)集之一,該數(shù)據(jù)集包括近紅外人臉圖像數(shù)據(jù)與可見(jiàn)光人臉圖像數(shù)據(jù)??偣舶?25個(gè)個(gè)體,由4次采集得到。每個(gè)個(gè)體有1-22張可見(jiàn)光圖像與5-50張近紅外圖像。這些圖像包含不同的分辨率、光照條件、姿態(tài)、年齡、表情和是否帶眼鏡等變化因素,這些因素使得識(shí)別任務(wù)具有了更大的挑戰(zhàn)性。在實(shí)驗(yàn)中,本文遵循文獻(xiàn)[6]中的測(cè)試協(xié)議。在該協(xié)議中,實(shí)驗(yàn)的測(cè)試部分包含圖庫(kù)集和探測(cè)集,其中圖庫(kù)集中每個(gè)個(gè)體一張可見(jiàn)光圖像,而探測(cè)集中的每個(gè)個(gè)體有多張近紅外圖像。本文通過(guò)對(duì)整個(gè)圖庫(kù)集計(jì)算相似度矩陣,計(jì)算并記錄了識(shí)別準(zhǔn)確率與驗(yàn)證準(zhǔn)確率。
在該本部分的工作中,為了規(guī)范化輸入數(shù)據(jù),本文首先對(duì)數(shù)據(jù)集進(jìn)行了剪裁工作。通過(guò)使用MTCNN[7]對(duì)數(shù)據(jù)進(jìn)行人臉檢測(cè),并設(shè)置剪裁大小為128×128,得到剪裁后的數(shù)據(jù)集。為了進(jìn)行低分辨率近紅外圖像和高分辨率可見(jiàn)光圖像的識(shí)別工作,本文進(jìn)一步使用雙線性插值的方法對(duì)數(shù)據(jù)進(jìn)行下采樣,下采樣的數(shù)據(jù)大小為22×22。
2.3.1 身份保持跨模態(tài)生成消融實(shí)驗(yàn)
為了分析身份保持模態(tài)生成方法的有效性,本文對(duì)比了基準(zhǔn)、只使用L1損失函數(shù)、只使用L2損失函數(shù),以及同時(shí)使用L1和L2損失函數(shù)的性能情況。在性能評(píng)估過(guò)程中,通過(guò)對(duì)低分辨率近紅外數(shù)據(jù)進(jìn)行身份保持的跨模態(tài)生成得到對(duì)應(yīng)的高分辨率近紅外圖像,再計(jì)算生成圖像與高分辨率可見(jiàn)光圖像的相似度矩陣。在嚴(yán)格遵循文獻(xiàn)[6]中的視圖1測(cè)試協(xié)議的情況下,得到的實(shí)驗(yàn)結(jié)果如表1所示。
表1 在CASIA NIR-VIS 2.0數(shù)據(jù)上的身份保持跨模態(tài)生成消融研究實(shí)驗(yàn)結(jié)果
通過(guò)表1,可以發(fā)現(xiàn),原始的循環(huán)對(duì)抗生成網(wǎng)絡(luò)本身是不具有良好的身份保持性能的,它的主要工作是進(jìn)行模態(tài)的轉(zhuǎn)換與圖像生成。由于在實(shí)驗(yàn)的數(shù)據(jù)構(gòu)成中,我們具有良好的一一對(duì)應(yīng)的低分辨率與高分辨率數(shù)據(jù),而像素級(jí)別上的L1約束與特征級(jí)別上的L2約束本身的目標(biāo)上一致的,因此它們均能夠?qū)ι矸荼3制鸬捷^為接近的有效結(jié)果。但從我們的身份識(shí)別的最終目標(biāo)上來(lái)說(shuō),L2約束從身份特征上的約束更接近我們的目標(biāo),可以看到它也的確起到了更好的效果。另外,在同時(shí)使用兩者的情況下,相對(duì)于單個(gè)約束,仍有小幅度的提升。
2.3.2基于三元組損失的模態(tài)不變特征表示方法
在這一部分,本文主要通過(guò)從兩個(gè)不同的模態(tài)差異去進(jìn)行評(píng)估。首先是在近紅外到可見(jiàn)光的跨模態(tài)人臉識(shí)別問(wèn)題上,通過(guò)計(jì)算CASIA NIR-VIS 2.0數(shù)據(jù)集中的近紅外與可見(jiàn)光人臉圖像的相似度矩陣,并在嚴(yán)格遵循文獻(xiàn)[6]中的視圖1協(xié)議的情況下,得到的實(shí)驗(yàn)結(jié)果如表2所示。
表2 在CASIA NIR-VIS 2.0數(shù)據(jù)集上的三元組損失函數(shù)實(shí)驗(yàn)結(jié)果
通過(guò)表2可以看出,通過(guò)三元組損失函數(shù),確實(shí)能夠有效的減小近紅外與可見(jiàn)光之間的模態(tài)差異,提升跨模態(tài)人臉識(shí)別的性能。除此之外,為了驗(yàn)證該方法能否在本文中的生成數(shù)據(jù)上生效,同樣對(duì)生成數(shù)據(jù)進(jìn)行了實(shí)驗(yàn)驗(yàn)證,其結(jié)果如表3。
表3 在CASIA NIR-VIS 2.0生成數(shù)據(jù)集上的三元組損失函數(shù)實(shí)驗(yàn)結(jié)果
通過(guò)表3可以看出,該方法的確能夠有效提升生成數(shù)據(jù)的識(shí)別性能。至此,通過(guò)本文提出的方法,在低分辨率的CASIA NIR-VIS 2.0數(shù)據(jù)集上,成功將Rank-1識(shí)別準(zhǔn)確率提升到了91.64%。實(shí)現(xiàn)了一個(gè)完整的低精跨模態(tài)人臉識(shí)別問(wèn)題的解決方案。
2.3.3 三元組損失函數(shù)正樣本數(shù)s評(píng)估實(shí)驗(yàn)
在三元組損失函數(shù)的設(shè)計(jì)中,本文引入了正樣本數(shù)s,為了找出合適的正樣本數(shù)s,本文在生成數(shù)據(jù)上對(duì)參數(shù)s進(jìn)行了評(píng)估實(shí)驗(yàn),得到的實(shí)驗(yàn)結(jié)果如表4所示。
表4 在CASIA NIR-VIS 2.0數(shù)據(jù)集上的生成數(shù)據(jù)的三元組損失函數(shù)正樣本數(shù)s評(píng)估實(shí)驗(yàn)結(jié)果
通過(guò)表4可以看出,隨著正樣本數(shù)s的增大,可以找到更為困難的三元組樣本對(duì),但受限于數(shù)據(jù)規(guī)模,以及過(guò)于困難的樣本對(duì)會(huì)引入額外的噪聲,因此隨著s的大小超出一定范圍,性能反而會(huì)出現(xiàn)衰減,在本文的實(shí)驗(yàn)場(chǎng)景下,當(dāng)s=8時(shí),能夠達(dá)到最好的識(shí)別性能,為Rank-1準(zhǔn)確率91.64%。
2.4.1 基于三元組損失函數(shù)模態(tài)不變特征表示的方法與其他現(xiàn)有方法對(duì)比實(shí)驗(yàn)
在表5中,本文在嚴(yán)格遵循文獻(xiàn)[6]中的視圖2協(xié)議的情況下,與其他的基于深度學(xué)習(xí)的跨模態(tài)人臉識(shí)別算法進(jìn)行了對(duì)比,其中包括HFR-CNN[10]、TRIVLET[11]、ADFL[12]、CDL[13]、WCNN[8]、DSU[14]、RM[15]、RDFL[5]。其中RDFL通過(guò)圖像內(nèi)的相關(guān)關(guān)系來(lái)優(yōu)化學(xué)習(xí)模態(tài)不變特征,可以看到,本文提出的方法相對(duì)于RDFL在Rank-1的準(zhǔn)確率上提高0.33%,進(jìn)一步逼近100%的準(zhǔn)確率,在表中的方法中,識(shí)別性能與驗(yàn)證性能均達(dá)到了最高。
表5 使用三元組損失函數(shù)在CASIA NIR-VIS 2.0數(shù)據(jù)集上的十折交叉驗(yàn)證與其他方法對(duì)比
2.4.2 多重跨模態(tài)人臉識(shí)別問(wèn)題與其他方法對(duì)比實(shí)驗(yàn):
在表6中,本文在嚴(yán)格遵循文獻(xiàn)[6]中的視圖1協(xié)議的情況下,對(duì)比了低分辨率圖像、通過(guò)插值的超分圖像,通過(guò)SICNN[16]進(jìn)行超分的圖像的性能情況。可以看出,在低分辨率與近紅外光的兩種因素的影響下,識(shí)別任務(wù)已經(jīng)變得十分困難。本文提出的方法能夠有效地減少這一巨大的模態(tài)差異,得到的Rank-1準(zhǔn)確率91.64%相對(duì)于CycleGAN[17]提升了超過(guò)20個(gè)百分點(diǎn),為低精跨模態(tài)人臉識(shí)別問(wèn)題打開(kāi)了一個(gè)良好的開(kāi)端。
表6 在CASIA NIR-VIS 2.0數(shù)據(jù)集上的多重跨模態(tài)人臉識(shí)別問(wèn)題性能對(duì)比
本文提出的方法的貢獻(xiàn)點(diǎn)主要如下:
(1)提出一個(gè)新的具有研究?jī)r(jià)值與意義的問(wèn)題:低精跨模態(tài)人臉識(shí)別問(wèn)題,并得到了一個(gè)完整的解決方案與網(wǎng)絡(luò)模型。
(2)提出基于圖像合成與模態(tài)不變特征表示相結(jié)合的方法,能夠有效地進(jìn)行模態(tài)轉(zhuǎn)變與模態(tài)不變特征提取。
(3)本文在CASIA NIR-VIS 2.0數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),在近紅外與可見(jiàn)光跨模態(tài)人臉識(shí)別問(wèn)題上達(dá)到了Rank-1準(zhǔn)確率99.63±0.11%的結(jié)果,且在低精跨模態(tài)人臉識(shí)別問(wèn)題上得到了目前最好的識(shí)別性能。
但可以看到,該方法限制了低精度與近紅外兩種跨模態(tài)問(wèn)題的解決順序,同時(shí),在最終的性能表現(xiàn)上仍然有一定的提升空間。在未來(lái)的工作中,我們將針對(duì)這些問(wèn)題,改進(jìn)相關(guān)的網(wǎng)絡(luò)結(jié)構(gòu),得到更為簡(jiǎn)潔與高性能的解決方案。