湯 旭
(1.中國科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所上海200050;2.上??萍即髮W(xué)上海201210;3.中國科學(xué)院大學(xué)北京100049)
人臉老化,又稱為人臉的年齡生成,該課題正在吸引越來越多研究者的注意。如何在審美角度將自然而然的老化渲染到人臉圖像上,并且保留它關(guān)于身份的信息是我們需要關(guān)注的。人臉老化過程的建模對于人臉識別和驗證都是至關(guān)重要的。人臉識別在計算機視覺領(lǐng)域是最活躍的領(lǐng)域之一。許多論文[1-6]專注于通用人臉識別。然而,據(jù)我們了解,很少有工作專注于研究人臉的老化生成和跨年齡人臉識別。人臉老化可以有廣闊的應(yīng)用,比如,一旦有了某人幼年時候的照片,它可以用來幫助尋找迷失兒童。同時,做一個手機應(yīng)用程式來預(yù)測某人若干年后的長相也是一件很有趣的事情。除此之外,跨年齡人臉識別可以為多年前發(fā)生的犯罪提供關(guān)鍵線索。目前人臉老化的論文較少的可能的原因是因為,缺乏合適的人臉老齡化數(shù)據(jù)庫,尤其是當(dāng)我們需要訓(xùn)練一個深度卷積神經(jīng)網(wǎng)絡(luò)的時候。大部分已有的數(shù)據(jù)庫[7-9]里面,相同的人擁有大量的圖片,但是這些人的年齡跨度往往很小。對于同一個人的人臉圖片來說,往往僅僅覆蓋很窄的年齡范圍(通常是0~10歲)。因此,我們需要提出一個引入目標(biāo)領(lǐng)域里面的其他人臉圖片來幫助源領(lǐng)域指定人老化生成的模型。
大量的人臉老化的模型[10-11]對動態(tài)老化模板進行建模,模型大體可以分為兩種類型:原型方法[12]和物理建模方法[13-14]。原型方法用源領(lǐng)域(更年輕的年紀(jì))的重構(gòu)的平均臉作為原型,然后移動原型之間的差異性到測試圖片上。物理建模方法以參數(shù)化模型的方式模擬人臉老化的過程,在參數(shù)化模型中皮膚、肌肉、或者頭顱的老化過程可以被建模。
我們的方法與生成模型息息相關(guān),比如變分自動編碼器[15]和對抗生成網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[16-17]都在生成模型領(lǐng)域占據(jù)主要地位。像素點重建的目標(biāo)函數(shù)往往用來訓(xùn)練變分自動編碼器,但是其生成的圖像看上去很模糊?;趯股删W(wǎng)絡(luò)生成的圖像往往看上去很自然。深度卷積對抗生成網(wǎng)絡(luò)(Deep Convolutional Generative Adversarial Networks,DCGAN)的思想[18]可以幫助引入更深的網(wǎng)絡(luò)生成圖像。
我們的工作屬于一種條件對抗生成網(wǎng)絡(luò)(conditional Generative Adversarial Networks, cGAN)[19]。cGAN通過引入先驗信息來生成需要的結(jié)果,是GAN的延伸。諸如圖像年齡標(biāo)簽等的條件通過全連接層的形式引入到對抗生成網(wǎng)絡(luò)中。文獻[20]證明了可以通過文本描述的形式生成對應(yīng)的真實的圖片。
目前最好的老化建模方法IcGAN目前是達到藝術(shù)水準(zhǔn)的。首先,它將先驗條件轉(zhuǎn)換為獨熱的(onehot)年齡標(biāo)簽來訓(xùn)練年齡有關(guān)的cGAN。為了生成沒有丟失身份信息的人臉,他提出使用L-BFGS-B進行優(yōu)化的隱變量優(yōu)化方法。
給定輸入-目標(biāo)對(xi,m,xj,n),其中xi,m是第i個人的第m個年齡組的人臉照片,xj,n表示第j個人的第n個年齡組的人臉照片。在本論文中,人臉的年齡被劃分成5個年齡段區(qū)間:0-20,21-30,31-40,41-50,51+,并且m,n∈ [0,1,2,3,4],且m≤n。因此,年齡有關(guān)的條件以5維熱編碼向量(one-hot vector)的形式結(jié)合到特征空間。本文中,輸入-目標(biāo)對(xi,m,xj,n)給定后,我們的目標(biāo)是生成第i個人的第n個年齡段的老化人臉xi,n′。同時,我們的模型可以保持住原始圖片的身份相關(guān)的信息。
我們提出IPGAN的方法,如圖1所示。我們的IPGAN的方法提出多個損失函數(shù)結(jié)合的目標(biāo)項:對抗損失函數(shù)LGAN,特征空間損失函數(shù)Lfeat以及圖像空間損失函數(shù)Limage。具體公式如下:
此多任務(wù)學(xué)習(xí)過程有諸多優(yōu)點。聯(lián)合優(yōu)化對于身份保持的年齡生成有益。聯(lián)合的目標(biāo)函數(shù)由以下部分組成:最小化源圖片xi,m和重構(gòu)圖片xi,m′之間像素級別的歐氏距離(給定年齡編碼y0),最小化真實隱向量z和估計隱向量z′之間的歐式距離(給定年齡編碼y1),實現(xiàn)對抗生成網(wǎng)絡(luò)雙玩家的最小化最大化目標(biāo)[16]。
特征空間的損失函數(shù)旨在重構(gòu)出輸入圖片,同時,在生成的圖像中可以保持住原始人臉圖像跟身份有關(guān)的信息。編碼器E不僅可以將源領(lǐng)域的人臉圖片映射到身份保持的特征空間,同時,E能夠把生成的老化圖像映射到相同的特征空間。我們定義:
其中G表示生成器,y1是和老化有關(guān)的年齡先驗,xi,n′是生成的位于第n個年齡段的人臉圖像。通過實現(xiàn)這部分,隨著年齡的變化,身份有關(guān)的信息將保持完整。我們使用文獻[21]的AlexNet模型作為我們的編碼器,其他卷積神經(jīng)網(wǎng)絡(luò)的模型亦可[22-24]。
對抗生成網(wǎng)絡(luò)用于生成最可信,并且最真實的圖片。條件對抗生成網(wǎng)絡(luò)用于根據(jù)特定的條件先驗有關(guān)的屬性來生成圖片。我們需要將源圖片以及其錯誤的年齡條件的類型作為cGAN的第3種輸入。因此,差分器可以學(xué)會對假造圖片進行排名。損失函數(shù)如下:
其中,θG和θD分別是生成器G和差分器D的參數(shù)。其中生成的標(biāo)簽y′對應(yīng)生成的圖像xi,n′。
IPGAN模型引入圖像空間的損失函數(shù),具體的定義如下:
其中y0是和重建有關(guān)的年齡先驗,引入圖像空間的損失函數(shù)可以幫助重建源圖片。值得注意的是,Limage的引入可以幫助解決GAN訓(xùn)練過程中不穩(wěn)定以及對超參數(shù)敏感的問題。
圖1 生成器G的輸入端改變年齡條件來展示年齡老化的生成
編碼器部分使用經(jīng)過預(yù)訓(xùn)練的AlexNet[21],它由5個卷積層和兩個全連接層組成。激活函數(shù)使用ReLU。生成器和差分器的具體結(jié)構(gòu)參考圖2。
圖2 生成器和差分器的具體結(jié)構(gòu)
所提出的IPGAN的模型基于tensorflow的深度學(xué)習(xí)框架。模型優(yōu)化使用的是帶沖量的ADAM算法,其中沖量項設(shè)置為0.5,網(wǎng)絡(luò)的初始學(xué)習(xí)率為0.000 2,批處理的大小為64,權(quán)重衰減設(shè)置為0.000 01。為了防止差分器在訓(xùn)練的過程中出現(xiàn)過擬合的情況,當(dāng)生成器的損失是差分器的損失的10倍的時候,我們停止更新差分器D的部分。
跨年齡名人數(shù)據(jù)集(CACD)[9]包括了2 000個名人的超過160,000張照片,數(shù)據(jù)庫的整體年齡跨度為16~62歲。所有的人臉圖片數(shù)據(jù)都有年齡相關(guān)的標(biāo)簽。在實驗設(shè)置中,我們將CACD數(shù)據(jù)集劃分為兩部分:訓(xùn)練集和測試集。我們隨機選取每個人的80%的照片劃分到訓(xùn)練集部分,剩下的作為測試集。
實驗優(yōu)先考慮將生成樣本的視覺質(zhì)量作為評價標(biāo)準(zhǔn)。實驗結(jié)果如表3所示,展示了我們的IPGAN模型在不同年齡的老化生成圖片。第一列對應(yīng)的是五個不同的人的原始圖片,每一行表示的是同一個人的不同年齡。第二列到第五列分別表示21-30歲,31-40歲,41-50歲,51歲以上的老化生成效果展示圖。通過圖示,我們可以分析得到,隨著年齡先驗信息的增大,生成圖像的發(fā)際線往后移動、臉部皺紋增多、臉部輪廓出現(xiàn)些許變化。但是,在生成老化圖片的過程中,局部的信息會保持不變,比如鼻子形狀,眼睛的大小等等。顯然,身份保持的隱變量z編碼人的身份信息,年齡條件y編碼特定的年齡信息。
圖3 生成老化圖片效果展示
實際上,使用IPGAN模型,我們的生成器可以根據(jù)未知樣本生成老化的圖片。如圖4是IPGAN模型生成的圖片,可以看出它具有很強的泛化能力,并且沒有受到過擬合的影響。
IPGAN模型的實驗結(jié)果可以保持住源圖片和生成圖片的身份有關(guān)的信息。所以,我們用人臉識別的方法來驗證身份保持性。在表格1中,我們比較了兩種訓(xùn)練集的結(jié)果,訓(xùn)練集1是生成老化樣本和原始訓(xùn)練數(shù)據(jù)的混合,訓(xùn)練集2僅僅含有原始的訓(xùn)練數(shù)據(jù)集。分別用訓(xùn)練集1和訓(xùn)練集2訓(xùn)練我們的人臉分類模型,然后比較模型在測試集上的分類效果(識別率)。實驗結(jié)果表明,對于跨年齡人臉識別,我們的模型可以在該測試集上獲得識別率2.64%的增益。
表1 實驗結(jié)果
僅僅是保持身份有關(guān)的信息是不夠的,年齡相關(guān)的老化過程也應(yīng)該被渲染到源圖片上。為了定量描述生成圖片的老化程度,我們訓(xùn)練了一個在訓(xùn)練集2上面年齡分類準(zhǔn)確率到達94%的年齡分類器(年齡分類為五組)。如預(yù)期,生成圖片的平均年齡估計僅僅比原始自然圖片的年齡估計準(zhǔn)確率低11.8%。這有效的證明了我們的老化生成圖像有很強的年齡相關(guān)性。
文中提出了基于對抗生成網(wǎng)絡(luò)的身份保持的人臉老化(IPGAN),模型利用了加權(quán)重的3個損失函數(shù):對抗損失函數(shù)LGAN,特征空間損失函數(shù)Lfeat以及圖像空間損失函數(shù)Limage。它解決了生成圖像中缺乏保持原始圖像身份信息的能力的問題。對抗生成網(wǎng)絡(luò)能夠充分利用特征的統(tǒng)計信息,使得生成圖片更顯真實。同時,我們的IPGAN允許通過簡單的改變輸入到生成器G中的年齡條件,來控制生成人臉圖像的年齡老化屬性。通過引入特征空間損失函數(shù)Lfeat以及圖像空間損失函數(shù)Limage,模型可以解決訓(xùn)練過程收斂不穩(wěn)定和對超參數(shù)敏感的問題。大量的實驗證明,我們的結(jié)果對于跨年齡人臉識別有很好的幫助,并且能夠在識別率上面獲得2.64%的增益,同時生成圖片的平均年齡估計與原始圖片的平均年齡估計僅僅相差11.8%。
圖4 IPGAN的泛化能力展示
參考文獻:
[1]Sandford A,Burton A M.Tolerance for distorted faces:Challenges to a configural processing account of familiar face recognition[J].Cognition,2014,132(3):262-268.
[2]Yang M,Zhang L,Shiu S C K,et al.Gabor feature based robust representation and classification for face recognition with Gabor occlusion dictionary[J].Pattern Recognition,2013,46(7):1865-1878.
[3]Han H,Shan S,Chen X,et al.A comparative study on illumination preprocessing in face recognition[J].Pattern Recognition,2013,46(6):1691-1699.
[4]Mike Burton A.Why has research in face recognition progressed so slowly?The importance of variability[J].The Quarterly Journal of Experimental Psychology,2013,66(8):1467-1485.
[5]Xu Y,Zhu Q,F(xiàn)an Z,et al.Using the idea of the sparse representation to perform coarse-to-fine face recognition[J].Information Sciences,2013(238):138-148.
[6]Yang M,F(xiàn)eng Z,Shiu S C K,et al.Fast and robust face recognition via coding residual map learning based adaptive masking[J].Pattern Recognition,2014,47(2):535-543.
[7]Panis G,Lanitis A.An overview of research activities in facial age estimation using the FG-NET aging database[C]//European Conference on Computer Vision.Springer International Publishing,2014:737-750.
[8]Ricanek K,Tesafaye T.Morph:A longitudinal image database of normal adult age-progression[C]//Automatic Face and Gesture Recognition,2006.FGR 2006.7th International Conference on.IEEE,2006:341-345.
[9]Chen B C,Chen C S,Hsu W H.Cross-age reference coding for age-invariant face recognition and retrieval[C]//European Conference on Computer Vision.Springer International Publishing,2014:768-783.
[10]Wang W,Cui Z,Yan Y,et al.Recurrent face aging[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:2378-2386.
[11]Fu Y,Guo G,Huang T S.Age synthesis and estimation via faces:A survey[J].IEEE transactions on pattern analysis and machine intelligence,2010,32(11):1955-1976.
[12]Kemelmacher-Shlizerman I, Suwajanakorn S,Seitz S M.Illumination-aware age progression[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2014:3334-3341.
[13]Suo J,Zhu S C,Shan S,et al.A compositional and dynamic model for face aging[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(3):385-401.
[14]Tazoe Y,Gohara H,Maejima A,et al.Facial aging simulator considering geometry and patch-tiled texture[C]//ACM SIGGRAPH 2012 Posters.ACM,2012:90.
[15]Angelino E,Johnson M J,Adams R P.Patterns of scalable Bayesian inference[J].Foundations and Trends? in Machine Learning,2016,9(2-3):119-247.
[16]Goodfellow I,Pouget-Abadie J,Mirza M,et al.Generative adversarial nets[C]//Advances in neural information processing systems.2014:2672-2680.
[17]Chen J L,Summers J E.Deep neural networks for learning classification featuresand generative models from synthetic aperture sonar big data[J].The Journal of the Acoustical Society of America,2016,140(4):3423-3423.
[18]Kataoka Y,Matsubara T,Uehara K.Image generation using generative adversarial networks and attention mechanism[C]//Computer and Information Science(ICIS),2016 IEEE/ACIS 15th International Conference on.IEEE,2016:1-6.
[19]Denton E L,Chintala S,F(xiàn)ergus R.Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks[C]//Advances in neural information processing systems.2015:1486-1494.
[20]Reed S,Akata Z,Yan X,et al.Generative adver-sarial text to image synthesis[C]//Proceedings of The 33rd International Conference on Machine Learning.2016:1-3.
[21]Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems.2012:1097-1105.
[22]Zbontar J,LeCun Y.Stereo matching by training a convolutional neural network to compare image patches[J].Journal of Machine Learning Research,2016,17(1-32):2.
[23]Wang H,Cruz-Roa A,Basavanhally A,et al.Mitosis detection in breast cancer pathology images by combining handcrafted and convolutional neural network features[J].Journal of Medical Imaging,2014,1(3):34003.
[24]Silver D,Huang A,Maddison C J,et al.Mastering the game of Go with deep neural networks and tree search[J].Nature,2016,529(7587):484-489.