王體 趙夢(mèng)媛 黃艷燕
摘? 要: 隨著計(jì)算機(jī)視覺的蓬勃發(fā)展,人臉年齡合成相關(guān)方面工作吸引了一大批研究人員的注意。人臉中蘊(yùn)藏著豐富的視覺信息,具有很大的可開發(fā)價(jià)值,在刑事偵查、出入境檢查等方面均可以應(yīng)用。傳統(tǒng)的人臉老化方法在身份保持、計(jì)算開銷、數(shù)據(jù)集要求等方面存在不足,生成對(duì)抗網(wǎng)絡(luò)的快速發(fā)展使得人臉圖像生成方面取得了顯著的成果。本文首先概述了人臉年齡合成領(lǐng)域的相關(guān)發(fā)展背景,然后介紹了幾種經(jīng)典的用GAN進(jìn)行人臉年齡合成的方法,最后概括了主觀評(píng)價(jià)和客觀評(píng)價(jià)這兩種常用的年齡合成評(píng)價(jià)方法。希望可以對(duì)在該領(lǐng)域入門的人員有所幫助。
關(guān)鍵詞: 計(jì)算機(jī)視覺;人臉年齡合成;GAN
中圖分類號(hào): TP3? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? DOI:10.3969/j.issn.1003-6970.2020.10.044
本文著錄格式:王體,趙夢(mèng)媛,黃艷燕. 基于生成對(duì)抗網(wǎng)絡(luò)的人臉年齡合成研究概述[J]. 軟件,2020,41(10):171174
【Abstract】: With vigorous development of computer vision, the work related to face age synthesis has attracted attention of a large number of researchers. Face contains rich visual information and has great exploitable value, which can be used in criminal investigations, entry and exit inspections, etc. Traditional face aging methods have deficiencies in identity maintenance, computational overhead, and data set requirements. Rapid development of the generative adversarial network has made remarkable achievements in face image generation. This article first outlines relevant development background in face age synthesis field, then introduces several classic methods of GAN for face synthesis, and finally summarizes subjective and objective evaluation of two commonly age synthesis evaluation methods, to help beginners in this field.
【Key words】: Computer vision; Face age synthesis; GAN
0? 引言
人臉年齡合成,包括人臉老化和人臉年輕化,是一項(xiàng)基于輸入的臉部圖像預(yù)測(cè)指定年齡階段臉部形態(tài)的任務(wù)。它具有實(shí)際應(yīng)用價(jià)值和巨大的市場(chǎng)潛力,例如,為失蹤兒童提供各個(gè)年齡段的肖像;為刑事偵察提供支持;在游戲或電影中給觀眾提供瞬間老化的奇妙視覺體驗(yàn)。盡管人臉年齡合成是一項(xiàng)富有挑戰(zhàn)性的研究,但是由于其具有廣泛的應(yīng)用場(chǎng)景,越來越多的人從事這方面的研究。
目前,用于人臉年齡合成的方法大致上可以分成三種:基于物理模型的方法,基于原型的方法和基于深度學(xué)習(xí)的方法。
基于物理模型的方法針對(duì)不同特征(例如,肌 肉,皺紋,皮膚等)在參數(shù)上對(duì)不同年齡的人臉進(jìn)行建模[1-4]。但是,它們需要復(fù)雜的建模,需要足夠的數(shù)據(jù)集來覆蓋較長(zhǎng)時(shí)間年齡跨度,并且計(jì)算成本較大?;谠偷姆椒▽⒂?xùn)練數(shù)據(jù)集按年齡劃分成組,然后為每個(gè)年齡組構(gòu)建一個(gè)平均面孔作為其原型,并學(xué)習(xí)各組之間的轉(zhuǎn)換[5-8]。這種方法也存在問題,比如引起圖像重影、失去圖像的個(gè)性化等?;谠偷姆椒ù蠖鄶?shù)不要求數(shù)據(jù)具有大年齡跨度的數(shù)據(jù),并且可以學(xué)習(xí)兩個(gè)相鄰年齡組之間的老化模式。盡管如此,在小年齡跨度上,它們?nèi)匀恍枰鋵?duì)的數(shù)據(jù)樣本。
近些年,基于深度學(xué)習(xí)的方法受到了社會(huì)各界的關(guān)注。生成對(duì)抗網(wǎng)絡(luò)[9]。(Generative Adversarial Network, GAN)是一種深度學(xué)習(xí)模型,并且由其衍生出的各種變體在人臉年齡合成方面成效顯著,在生成高質(zhì)量人臉圖像方面展現(xiàn)出了巨大優(yōu)勢(shì)。作為GAN的一種變體,條件生成對(duì)抗網(wǎng)絡(luò)(Conditional Generative Adversarial Networks, CGANs)在生成模型和判別模型中將人臉年齡作為條件變量,引導(dǎo)生成目標(biāo)年齡的人臉圖像[10-11]。此外,Zhang等人提出的一種新穎的網(wǎng)絡(luò)架構(gòu)——條件對(duì)抗自動(dòng)編碼器(Conditional Adversarial Autoencoder, CAAE)[12],假設(shè)人臉位于高維流行上,使人臉年齡轉(zhuǎn)換更加靈活。但單純地將年齡作為條件進(jìn)行訓(xùn)練,很可能會(huì)使輸入的人臉圖像和輸出的人臉圖像看上去不像是同一個(gè)人,即人臉圖像的身份信息難以保持,為了解決這個(gè)問題,Wang等人提出了身份保留的條件生成對(duì)抗網(wǎng)絡(luò)(Identity-Preserved Conditional Generative Adversarial Networks, IPCGAN)[13],在人臉年齡合成領(lǐng)域引入身份信息損失,在保證原始人臉身份信息不丟失的情況下,實(shí)現(xiàn)了人臉老化效果。此外,PA-GANs[19]、Dual-GANs[26]也均在人臉年齡合成上取得了不錯(cuò)的效果。隨著近些年來GAN的火熱發(fā)展,越來越多的其他GAN變體也逐漸加入到人臉年齡合成的隊(duì)伍中來。
本文主要針對(duì)人臉年齡合成研究進(jìn)行展開論述,介紹了人臉年齡合成研究發(fā)展的相關(guān)背景,然后對(duì)幾個(gè)比較經(jīng)典的用GAN進(jìn)行人臉年齡合成的方法進(jìn)行簡(jiǎn)要論述,最后也強(qiáng)調(diào)了年齡合成評(píng)價(jià)的兩種方法。
1? 幾種基于GANs的人臉年齡合成方法
1.1? 條件對(duì)抗自動(dòng)編碼器(Conditional Adversarial Autoencoder, CAAE)
CAAE是一種新穎的網(wǎng)絡(luò)架構(gòu),在生成逼真面部人臉圖像的同時(shí)實(shí)現(xiàn)了年齡的向前發(fā)展(老化)和向后發(fā)展(年輕化)[12]。不同于過往研究中基于組的學(xué)習(xí)方式,作者假設(shè)輸入人臉圖像位于高維流形M上,通過學(xué)習(xí)流形,實(shí)現(xiàn)在保留輸入人臉身份特征的同時(shí),自由地生成不同年齡的人臉,使得人臉年齡的變化更加靈活和可操作。
CAAE一共有四個(gè)子網(wǎng),編碼器E、生成器G、編碼器上的判別器和生成器上的判別器。通常直接在高維流形上進(jìn)行操作較為復(fù)雜,CAAE則學(xué)習(xí)流形和較低維度空間之間的映射,使得更易于操作。
編碼器E的作用是將面部和映射到潛在向量。編碼器E將從和中分別提取出的身份特征和與年齡標(biāo)簽和相關(guān)聯(lián),得到在潛在空間中的兩個(gè)點(diǎn)和,因和與和在潛在空間沒有糾纏,故沿著時(shí)間軸,可以實(shí)現(xiàn)在保留身份的同時(shí)對(duì)年齡進(jìn)行修改。生成器G的作用則是將這些點(diǎn)映射到流行M上以生成一系列面部圖像,實(shí)現(xiàn)較為平滑的人臉年齡向前發(fā)展和向后發(fā)展。
CAAE與對(duì)抗性自動(dòng)編碼器[14](Adversarial Autoencoder, AAE)相似,不同的是,CAAE分別在編碼器E和生成器G上施加了判別器。編碼器E上的判別器確保了潛在空間的平滑過渡,生成器G上的判別器則有助于生成逼真的面部圖像。此外,CAAE也可以作為與面部年齡相關(guān)任務(wù)的通用框架。
1.2? 身份保留的條件生成對(duì)抗網(wǎng)絡(luò)(Identity-Preserved Conditional Generative Adversarial Networks, IPCGANs)
IPCGANs[13]是一種身份保留的條件生成對(duì)抗網(wǎng)絡(luò),能夠生成具有相同身份和目標(biāo)年齡的高質(zhì)量人臉圖片,其主要由三大模塊組成:CGANs模塊、身份保留模塊、年齡分類器。文章在人臉年齡合成領(lǐng)域引入了身份信息損失,確保生成的老化人臉和輸入人臉保持相同的身份信息,此外,通過在IPCGANs的目標(biāo)函數(shù)上引入年齡分類損失,達(dá)到合成的人臉與預(yù)期年齡保持一致的目的。
CGANs模塊選用條件的LSGANs[16]用于生成任務(wù),保證生成高質(zhì)量的圖片及訓(xùn)練過程的穩(wěn)定性??紤]到對(duì)抗性損失只會(huì)使生成器生成服從目標(biāo)數(shù)據(jù)分布的樣本,無法保證生成的樣本保留原始身份信息,在身份保留模塊中,IPCGANs引入感知損失,達(dá)到保留生成圖片身份信息的目的,其表達(dá)式為。
其中,表示將真實(shí)人臉圖片x和目標(biāo)年齡組標(biāo)簽喂給生成器G后合成的假圖片,表示由預(yù)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中特定特征層提取的特征。風(fēng)格遷移的實(shí)驗(yàn)表明[17-18],較低的特征層擅長(zhǎng)保留內(nèi)容,而較高的特征層則有助于保留與風(fēng)格相關(guān)的事物,如顏色、紋理等?;诖?,將人臉的內(nèi)容作為身份信息,預(yù)訓(xùn)練網(wǎng)絡(luò)中較低的特征層被采納為。身份損失的計(jì)算采用第二范數(shù),主要是因?yàn)榭紤]到衰老過程中人臉在發(fā)色、胡須、皺紋、發(fā)際線等方面均有發(fā)生變化,若直接把x與的均方差作為身份損失則會(huì)導(dǎo)致生成的圖片與輸入圖片趨于一致而喪失老化的效果。網(wǎng)絡(luò)提取的特征對(duì)于保留身份信息至關(guān)重要,在同一個(gè)特征空間中,感知損失可以鼓勵(lì)所生成的圖像更接近輸入面部的特征。
年齡分類模塊則進(jìn)一步確保生成的面部圖片能夠歸屬于目標(biāo)年齡組。該模塊采用預(yù)訓(xùn)練好的年齡分類器,用它來識(shí)別所生成面部所歸屬的年齡組。在IPCGANs的目標(biāo)函數(shù)中引入年齡分類損失,其表達(dá)式為。
其中對(duì)應(yīng)損失。通過反向傳播,促使生成器的參數(shù)發(fā)生變化以生成與目標(biāo)年齡組一致的人臉。
此外,IPCGANs也是一種通用框架,也可以將其應(yīng)用于多屬性轉(zhuǎn)移任務(wù),例如將頭發(fā)從棕色變?yōu)榛疑?,從無胡須變?yōu)橛泻毜取?/p>
1.3? 金字塔結(jié)構(gòu)的生成對(duì)抗網(wǎng)絡(luò)(A Pyramid Architecture of GANs,PA-GANs)
PA-GANs[19]是一種新穎的基于GAN的年齡老化方法,結(jié)合面部驗(yàn)證和年齡估計(jì)技術(shù),以耦合的方式解決了衰老效果生成和身份信息保持的問題。文中強(qiáng)調(diào)整個(gè)面部合成的重用性,額頭、頭發(fā)部位的細(xì)節(jié)也會(huì)顯著影響感知的年齡。為了進(jìn)一步增強(qiáng)老化細(xì)節(jié),作者利用深層網(wǎng)絡(luò)的固有結(jié)構(gòu),并進(jìn)一步設(shè)計(jì)了金字塔體系結(jié)構(gòu)的判別器,以細(xì)粒度方式估計(jì)與年齡相關(guān)的高層線索。
在判別器D中,采用預(yù)訓(xùn)練的[20]結(jié)構(gòu)作為特征提取器,沿著金字塔的層次結(jié)構(gòu),逐漸捕獲從精確像素值到高級(jí)的特定年齡語義信息。金字塔的面部特征表示由D在多個(gè)尺度上聯(lián)合估計(jì),以細(xì)粒度方式處理衰老效果的生成。此外,為了保證在老化過程中身份信息的穩(wěn)定,作者采用預(yù)訓(xùn)練的深度面部描述網(wǎng)絡(luò)來對(duì)身份信息進(jìn)行編碼[21]。
1.4? 雙重條件的生成對(duì)抗網(wǎng)絡(luò)(Dual Conditional GANs, Dual-GANs)
Dual-GANs[23]機(jī)制能夠通過多組不同年齡的未被標(biāo)記人臉圖像來訓(xùn)練面部年齡合成模型,不需要難以尋找的年齡順序訓(xùn)練數(shù)據(jù),實(shí)現(xiàn)了在對(duì)面部年齡合成的同時(shí)保留了原始輸入人臉的身份特征。
Dual-GANs架構(gòu)主要由原始條件GAN和雙重條件GAN兩部分組成,他們均有各自目標(biāo)生成器、源生成器。原始條件GAN會(huì)根據(jù)年齡條件將人臉圖像轉(zhuǎn)換為其他年齡,而雙重條件GAN則學(xué)會(huì)了將任務(wù)反轉(zhuǎn)。原始條件GAN中首先根據(jù)年齡為的輸入人臉和目標(biāo)年齡標(biāo)簽生成目標(biāo)人臉,為了保持身份信息,再用對(duì)原始人臉進(jìn)行重構(gòu)。處理流程可以表述為。
和的輸入輸出是同樣的類型,在雙重學(xué)習(xí)的啟發(fā)下[23],作者創(chuàng)新性地將原始條件GAN中、進(jìn)行交換,得到了一個(gè)雙重的過程。類似地,首先對(duì)年齡為的人臉進(jìn)行生成得到目標(biāo)年齡為的人臉圖像,再通過對(duì)進(jìn)行重構(gòu)。流程表述如下。
2? 年齡合成評(píng)價(jià)方法
實(shí)現(xiàn)人臉合成的方法多而不同,因此分析實(shí)驗(yàn)結(jié)果的方法也值得研究。兩種主要的年齡合成評(píng)價(jià)方法分別是基于主觀的評(píng)價(jià)和基于客觀的評(píng)價(jià)[21]。
2.1? 主觀評(píng)價(jià)
主觀評(píng)價(jià)是基于人的感受來實(shí)現(xiàn)對(duì)算法性能評(píng)估的一種評(píng)價(jià)方式。在該方法的指導(dǎo)下,Zhang等人[12]在關(guān)于合成的真實(shí)性、跨大年齡進(jìn)度合成后特征的保真度、對(duì)姿勢(shì)和表情的容忍度等方面進(jìn)行了評(píng)價(jià)。他們邀請(qǐng)志愿者隨機(jī)觀察856對(duì)年齡差距大于20歲的人臉配對(duì)組——原始圖片、生成圖片和大年齡跨度的真實(shí)圖片。志愿者對(duì)生成圖片與真實(shí)圖片做出“相似”、“不確定”或者“不相似”的判斷,研究人員統(tǒng)計(jì)結(jié)果后得出了CAAE可以有效地在保留原始人臉身份特征的條件下生成不同年齡段的人臉圖片的結(jié)論。
2.2? 客觀評(píng)價(jià)
客觀評(píng)價(jià)指的是通過相似性度量進(jìn)行定量評(píng)估,判斷合成人臉的年齡是否準(zhǔn)確、身份是否發(fā)生變化。例如Lanitis在中提出的年齡相似性(ages)和個(gè)體外貌相似性(ids)這兩種定量評(píng)價(jià)方法[24]。ages用來評(píng)估在合成能夠表征目標(biāo)年齡組特征的老化或年輕化人臉圖像方面年齡估計(jì)算法的性能,ids則是用來評(píng)估表征個(gè)體身份信息方面算法的性能。
3? 結(jié)論
本文從人臉年齡合成相關(guān)工作的發(fā)展情況展開論述,對(duì)傳統(tǒng)的基于原型的方法和基于物理模型的方法的不足進(jìn)行小結(jié),并簡(jiǎn)要描述了GAN在人臉年齡合成領(lǐng)域的全新發(fā)展。在人臉年齡合成方面主要面臨的問題是老化效果和身份信息保持,文章分別簡(jiǎn)要介紹了四種應(yīng)用在人臉年齡合成領(lǐng)域的經(jīng)典GAN結(jié)構(gòu)——CAAE、IPCGANs、PA-GANs和Dual-GANs,對(duì)其采用的人臉年齡合成的方法進(jìn)行說明。最后,文章也對(duì)主觀評(píng)價(jià)、客觀評(píng)價(jià)這兩種常見的年齡合成評(píng)價(jià)方法進(jìn)行了小結(jié)。隨著GAN的蓬勃發(fā)展,相信未來會(huì)有更多新穎的GAN結(jié)構(gòu)在人臉年齡合成領(lǐng)域展開應(yīng)用。
參考文獻(xiàn)
[1]Tazoe Y, Gohara H, Maejima A, et al. Facial aging simulator considering geometry and patch-tiled texture[M]. ACM SIGGRAPH 2012 Posters. 2012: 1-1.
[2]Suo J, Zhu S C, Shan S, et al. A compositional and dynamic model for face aging[J]. IEEE Transactions on Pattern Anal ysis and Machine Intelligence, 2009, 32(3): 385-401.
[3]Lanitis A, Taylor C J, Cootes T F. Toward automatic simulation of aging effects on face images[J]. IEEE Transactions on pattern Analysis and machine Intelligence, 2002, 24(4): 442- 455.
[4]Ramanathan N, Chellappa R. Modeling age progression in young faces[C]. 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06). IEEE, 2006, 1: 387-394.
[5]Tiddeman B, Burt M, Perrett D. Prototyping and transforming facial textures for perception research[J]. IEEE computer graphics and applications, 2001, 21(5): 42-50.
[6]Kemelmacher-Shlizerman I, Suwajanakorn S, Seitz S M. Illumination-aware age progression[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 3334-3341.
[7]Shu X, Tang J, Lai H, et al. Personalized age progression with aging dictionary[C]. Proceedings of the IEEE international conference on computer vision. 2015: 3970-3978.
[8]Wang W, Cui Z, Yan Y, et al. Recurrent face aging[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 2378-2386.
[9]Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]. Advances in neural information process ing systems. 2014: 2672-2680.
[10]Mirza M, Osindero S. Conditional generative adversarial nets [J]. arXiv preprint arXiv:1411.1784, 2014.
[11]Isola P, Zhu J Y, Zhou T, et al. Image-to-image translation with conditional adversarial networks[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1125-1134.
[12]Zhang Z, Song Y, Qi H. Age progression/regression by conditional adversarial autoencoder[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 5810-5818.
[13]Wang Z, Tang X, Luo W, et al. Face aging with identity- preserved conditional generative adversarial networks[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 7939-7947.
[14]Makhzani A, Shlens J, Jaitly N, et al. Adversarial autoencoders[J]. arXiv preprint arXiv:1511.05644, 2015.
[15]Mao X, Li Q, Xie H, et al. Least squares generative adversarial networks[C]. Proceedings of the IEEE International Conference on Computer Vision. 2017: 2794-2802.
[16]Johnson J, Alahi A, Fei-Fei L. Perceptual losses for real-time style transfer and super-resolution[C]. European conference on computer vision. Springer, Cham, 2016: 694-711.
[17]Gatys L A, Ecker A S, Bethge M. A neural algorithm of artistic style[J]. arXiv preprint arXiv:1508.06576, 2015.
[18]Yang H, Huang D, Wang Y, et al. Learning face age progression: A pyramid architecture of gans[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 31-39.
[19]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
[20]Parkhi O M, Vedaldi A, Zisserman A. Deep face recognition [J]. 2015.
[21]Fu Y, Guo G, Huang T S. Age synthesis and estimation via faces: A survey[J]. IEEE transactions on pattern analysis and machine intelligence, 2010, 32(11): 1955-1976.
[22]Song J, Zhang J, Gao L, et al. Dual Conditional GANs for Face Aging and Rejuvenation[C]. IJCAI. 2018: 899-905.
[23]He D, Xia Y, Qin T, et al. Dual learning for machine translation[C]. Advances in neural information processing systems. 2016: 820-828.
[24]Lanitis A. Comparative evaluation of automatic age-progression methodologies[J]. EURASIP Journal on Advances in Signal Processing, 2008, 2008: 101.