李奇龍
摘 要:從70年代開始,人臉識別就成為計算機視覺和生物識別領(lǐng)域研究最多的課題之一?;谑止ぶ谱鞯奶卣骱蛡鹘y(tǒng)機器學(xué)習(xí)技術(shù)的傳統(tǒng)方法,最近已經(jīng)被使用非常大的數(shù)據(jù)集訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)所取代。在這篇文章中,我們提供了一個全面的和最新的文獻綜述的流行的人臉識別方法,包括傳統(tǒng)的(基于幾何的,整體的,基于特征的和混合的方法)和深度學(xué)習(xí)方法。
一、傳統(tǒng)方法介紹
人臉識別是指能夠識別或驗證圖像或物體的身份的技術(shù)視頻。第一個人臉識別算法被開發(fā)出來70年代早期。從那時起,他們的準(zhǔn)確性現(xiàn)在的人臉識別技術(shù)有什么進步嗎通常比其他生物識別方式更受青睞傳統(tǒng)上被認(rèn)為更健壯,如指紋或虹膜識別。其中一個微分因子使人臉識別比其他生物識別更有吸引力模式是非侵入性的。例如,指紋識別需要用戶將手指放入傳感器虹膜中識別需要用戶非常靠近攝像機,而揚聲器識別則需要用戶大聲說話。相比之下,現(xiàn)代人臉識別系統(tǒng)只需要用戶在照相機的視場范圍內(nèi)(前提是它們在視場范圍內(nèi))在距離相機合理的范圍內(nèi))。這使得人臉識別是用戶最友好的生物識別方式。它也意味著人臉的潛在應(yīng)用范圍識別范圍更廣,因為它可以部署在環(huán)境中不希望用戶與系統(tǒng)合作的,比如在監(jiān)控系統(tǒng)中。其他常見的應(yīng)用程序人臉識別包括訪問控制、欺詐檢測、身份驗證和社交媒體。人臉識別是最具挑戰(zhàn)性的生物識別技術(shù)之一在不受約束的環(huán)境中部署時的模式面部圖像在現(xiàn)實中呈現(xiàn)的高度可變性世界(這些類型的人臉圖像通常被稱為world)面臨在野外)。其中一些變體包括head姿勢,老化,遮擋,光照條件,面部表達式。
近年來,人臉識別技術(shù)發(fā)生了重大變化。傳統(tǒng)的方法依賴于手工制作的特征,如邊緣和紋理描述符,學(xué)習(xí)技術(shù),如主成分分析,線性判別分析或支持向量機。工程特性的難易程度在無約束環(huán)境中所遇到的不同變化,使得研究者關(guān)注于每一類變化的專門方法,如年齡不變方法、定常方法、光照不變方法等。近年來,基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法已經(jīng)取代了傳統(tǒng)的人臉識別方法。深度學(xué)習(xí)方法的主要優(yōu)點是可以用非常大的數(shù)據(jù)集對其進行訓(xùn)練,以學(xué)習(xí)表示數(shù)據(jù)的最佳特性。網(wǎng)絡(luò)上的人臉可用性允許收集包含真實世界變化的大規(guī)模人臉數(shù)據(jù)集。使用這些數(shù)據(jù)集訓(xùn)練的基于cnn的人臉識別方法獲得了非常高的準(zhǔn)確性,因為它們能夠?qū)W習(xí)對訓(xùn)練中使用的人臉圖像的真實變化具有魯棒性的特征。的流行深學(xué)習(xí)計算機視覺方法加速了人臉識別的研究,作為cnn被用于解決其他許多計算機視覺任務(wù),例如對象檢測與識別、分割、光學(xué)字符識別、acial表達分析,年齡估計等。
二、人臉識別系統(tǒng)通常由以下構(gòu)建塊:
(1)人臉檢測。人臉檢測器查找圖像中人臉的位置,并(如果有)返回每個人臉的邊框坐標(biāo)。這是說明
(2)人臉對齊。人臉對齊的目標(biāo)是使用位于圖像中固定位置的一組參考點以相同的方式縮放和裁剪人臉圖像。這個過程通常需要使用地標(biāo)檢測器找到一組面部地標(biāo),在簡單的2D對齊情況下,需要找到適合參考點的最佳仿射變換。圖3b和3c顯示了使用同一組參考點對齊的兩張人臉圖像。更復(fù)雜的三維對齊算法也可以實現(xiàn)人臉正面化,即將人臉的姿態(tài)改變?yōu)檎妗?/p>
(3)人臉表征。在人臉表示階段,將人臉圖像的像素值轉(zhuǎn)化為一個緊湊的判別特征向量,即模板。理想情況下,同一主題的所有面應(yīng)該映射到相似的特征向量。
(4)人臉匹配。在人臉匹配構(gòu)建塊中,對兩個模板進行比較,生成一個相似性評分,該評分指示它們屬于同一主題的可能性。
早期對人臉識別的研究主要集中在使用圖像處理技術(shù)匹配描述人臉幾何形狀的簡單特征的方法上。盡管這些方法只能在非常有限的環(huán)境下工作,但它們表明,使用計算機自動識別人臉是可能的。此后,主成分分析(PCA)、線性判別分析(LDA)等統(tǒng)計子空間方法得到了廣泛的應(yīng)用。這些方法被稱為整體方法,因為它們使用整個面部區(qū)域作為輸入。與此同時,其他計算機視覺領(lǐng)域的進展導(dǎo)致了能夠描述不同位置圖像紋理的局部特征提取器的開發(fā)?;谔卣鞯娜四樧R別方法包括在人臉圖像中匹配這些局部特征。進一步發(fā)展了基于整體和特征的方法,并將其結(jié)合為混合方法?;诨旌戏椒ǖ娜四樧R別系統(tǒng)一直是最先進的,直到最近,深度學(xué)習(xí)成為大多數(shù)計算機視覺應(yīng)用的主要方法,包括人臉識別。
三、深度學(xué)習(xí)的方法
卷積神經(jīng)網(wǎng)絡(luò)是人臉識別中最常見的深度學(xué)習(xí)方法。深度學(xué)習(xí)方法的主要優(yōu)勢在于,它們可以通過大量的數(shù)據(jù)進行訓(xùn)練,以學(xué)習(xí)對訓(xùn)練數(shù)據(jù)中出現(xiàn)的變化具有魯棒性的人臉表示。通過這種方式,CNNs可以從訓(xùn)練數(shù)據(jù)中學(xué)習(xí),而不是設(shè)計針對不同類型的類內(nèi)變化(如光照、姿勢、面部表情、年齡等)的健壯的專門特性。深度學(xué)習(xí)方法的主要缺點是,它們需要使用非常大的數(shù)據(jù)集進行訓(xùn)練,這些數(shù)據(jù)集包含足夠多的變化,可以泛化為不可見的樣本。幸運的是,最近有幾個包含野外人臉圖像的大型人臉數(shù)據(jù)集被發(fā)布到公共領(lǐng)域來訓(xùn)練CNN模型。神經(jīng)網(wǎng)絡(luò)除了學(xué)習(xí)判別特征外,還可以減少維數(shù),可以作為分類器進行訓(xùn)練,也可以使用度量學(xué)習(xí)方法進行訓(xùn)練。CNN被認(rèn)為是端到端可培訓(xùn)的系統(tǒng),不需要與任何其他特定方法相結(jié)合。CNN人臉識別模型可以使用不同的方法進行訓(xùn)練。其中一種方法是將問題視為分類問題,其中訓(xùn)練集中的每個主題對應(yīng)一個類。經(jīng)過訓(xùn)練后,該模型可以通過丟棄分類層,利用前一層的特征作為人臉表示來識別訓(xùn)練集中不存在的對象。
在深度學(xué)習(xí)文獻中,這些特征通常被稱為瓶頸特征。在第一個訓(xùn)練階段之后,可以使用其他技術(shù)對模型進行進一步的訓(xùn)練,以優(yōu)化目標(biāo)應(yīng)用程序的瓶頸特性(例如使用聯(lián)合貝葉斯或使用不同的損失函數(shù)微調(diào)CNN模型)。學(xué)習(xí)人臉表示的另一種常見方法是通過優(yōu)化人臉對之間的距離度量來直接學(xué)習(xí)瓶頸特征或三聯(lián)面利用神經(jīng)網(wǎng)絡(luò)進行人臉識別的想法并不新鮮。1997年提出了一種基于概率決策的神經(jīng)網(wǎng)絡(luò)(PBDNN),用于人臉檢測、眼睛定位和人臉識別。將人臉識別的PDBNN劃分為每個訓(xùn)練對象一個完全連通的子網(wǎng),以減少隱藏單元的數(shù)量,避免過擬合。利用強度特征和邊緣特征分別對兩個PBDNNs進行訓(xùn)練,并結(jié)合輸出結(jié)果進行最終分類決策。早期的另一種方法提出使用自組織映射(SOM)和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法。一個自組織映射是一種經(jīng)過無監(jiān)督方式訓(xùn)練的神經(jīng)網(wǎng)絡(luò),它將輸入數(shù)據(jù)投影到保留輸入空間拓?fù)湫再|(zhì)的較低維度空間(即原始空間中鄰近的輸入也在輸出空間中鄰近)。注意,這兩種早期的方法都沒有經(jīng)過端到端的訓(xùn)練(使用了邊緣特征,使用了SOM),并且所提出的神經(jīng)網(wǎng)絡(luò)架構(gòu)是淺層的。提出了端到端人臉識別CNN。該方法使用的siamese體系結(jié)構(gòu)訓(xùn)練具有對比損失函數(shù)。對比損失實現(xiàn)了一種度量學(xué)習(xí)過程,其目標(biāo)是最小化同一主題對應(yīng)的特征向量對之間的距離,同時最大化不同主題對應(yīng)的特征向量對之間的距離。該方法使用的CNN體系結(jié)構(gòu)也是淺層的,采用小數(shù)據(jù)集進行訓(xùn)練。上述方法均未取得突破性成果,主要原因是當(dāng)時使用的網(wǎng)絡(luò)容量較低,可供培訓(xùn)的數(shù)據(jù)集相對較小。直到這些模型被放大并接受大量數(shù)據(jù)的訓(xùn)練,第一個人臉識別的深度學(xué)習(xí)方法才成為最先進的技術(shù)。尤其是Facebook的DeepFace,它是最早使用高容量模型的基于cnn的人臉識別方法之一,在LFW基準(zhǔn)上的準(zhǔn)確率達到了97.35%,比之前最先進的方法降低了27%。作者使用包含4030名受試者440萬張臉的數(shù)據(jù)集訓(xùn)練了一個具有softmax loss2的CNN。
四、結(jié)論
我們已經(jīng)看到人臉識別是如何遵循同樣的規(guī)律的轉(zhuǎn)換為許多其他計算機視覺應(yīng)用程序。僅僅在幾年前,傳統(tǒng)的基于人工工程特性的方法還能提供最先進的精確度,現(xiàn)在已經(jīng)被基于CNN的深度學(xué)習(xí)方法所取代。事實上,基于CNN的人臉識別系統(tǒng)已經(jīng)成為標(biāo)準(zhǔn),因為它比其他類型的方法在準(zhǔn)確率上有了顯著的提高。此外,通過增加訓(xùn)練集的大小和/或網(wǎng)絡(luò)的容量來擴大這些系統(tǒng)以實現(xiàn)更高的準(zhǔn)確性是很容易的。然而,收集大量貼有標(biāo)簽的人臉圖像是非常昂貴的,而且深度CNN架構(gòu)的訓(xùn)練和部署非常緩慢。生成對抗網(wǎng)絡(luò)(GANs)是解決第一個問題的一個有希望的方法。最近關(guān)于人臉圖像的GANs的研究包括面部屬性操縱、面部表情編輯、新身份生成、人臉正面化和人臉老化。預(yù)計這些改進將用于生成額外的訓(xùn)練圖像,而不需要對數(shù)百萬張人臉圖像進行標(biāo)記。為了解決第二個問題,正在開發(fā)更高效的架構(gòu),如MobileNets和,用于有限設(shè)備上的實時人臉識別.
參考文獻:
[1] M. D. Kelly, “Visual identification of people by computer.,” tech. rep., STANFORD UNIV CALIF DEPT OF COMPUTER SCIENCE, 1970.
[2] T. KANADE, “Picture processing by computer complex and recogni- tion of human faces,” PhD Thesis, Kyoto University, 1973.
[3] U. Park, Y. Tong, and A. K. Jain, “Age-invariant face recognition,” IEEE transactions on pattern analysis and machine intelligence, ?vol. 32, no. 5, pp. 947–954, 2010.
[4] Z. Li, U. Park, and A. K. Jain, “A discriminative model for age invariant face recognition,” IEEE transactions on information forensics and security, vol. 6, no. 3, pp. 1028–1037, 2011.
[5] C. Ding and D. Tao, “A comprehensive survey on pose-invariant face ?recognition,” ACM Transactions on intelligent systems and technology (TIST), vol. 7, no. 3, p. 37, 2016.
[6] D.-H. Liu, K.-M. Lam, and L.-S. Shen, “Illumination invariant face recognition,” Pattern Recognition, vol. 38, no. 10, pp. 1705–1716, 2005.
[7] X. Tan and B. Triggs, “Enhanced local texture feature sets for face recognition under difficult lighting conditions,” IEEE transactions on image processing, vol. 19, no. 6, pp. 1635–1650, 2010.
[8] Y. Sun, X. Wang, and X. Tang, “Deep learning face representation from predicting 10,000 classes,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1891–1898, 2014.
[9] D. Yi, Z. Lei, S. Liao, and S. Z. Li, “Learning face representation from scratch,” arXiv preprint arXiv:1411.7923, 2014.
[10]A. B. L. Larsen, S. K. S nderby, H. Larochelle, and O. Winther, “Autoencoding beyond pixels using a learned similarity metric,” arXiv preprint arXiv:1512.09300, 2015. G. Perarnau, J. van de Weijer, B. Raducanu, and J. M. A lvarez, “Invertible conditional gans for image editing,” arXiv preprint arXiv:1611.06355, 2016.
[11]A. Brock, T. Lim, J. M. Ritchie, and N. Weston, “Neural photo editing with introspective adversarial networks,” arXiv preprint arXiv:1609.07093, 2016.W. Shen and R. Liu,
[12]Y. Lu, Y.-W. Tai, and C.-K. Tang, “Conditional cyclegan for attribute guided face image generation,” arXiv preprint arXiv:1705.09966, 2017. Y. Choi, M. Choi, M. Kim, J.-W.