王旭東,衛(wèi)紅權(quán),高超,黃瑞陽(yáng)
?
身份保持約束下的人臉圖像補(bǔ)全
王旭東,衛(wèi)紅權(quán),高超,黃瑞陽(yáng)
(國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心,河南 鄭州 450002)
人臉圖像補(bǔ)全作為圖像補(bǔ)全技術(shù)的一種特殊應(yīng)用,在被遮擋人臉的識(shí)別、人臉修復(fù)等問(wèn)題上有不可替代的作用?,F(xiàn)有的人臉補(bǔ)全算法只針對(duì)補(bǔ)全圖像的真實(shí)性,而未考慮其補(bǔ)全后的身份一致性。針對(duì)這一問(wèn)題,設(shè)計(jì)了一種基于改進(jìn)的生成式對(duì)抗網(wǎng)絡(luò)的人臉補(bǔ)全算法,通過(guò)引入SN-GAN算法,提高了模型訓(xùn)練的穩(wěn)定性,同時(shí)利用人臉識(shí)別模型對(duì)生成圖像加入了身份一致性約束,經(jīng)過(guò)實(shí)驗(yàn)證明,所提方法能夠在生成高真實(shí)性圖像時(shí)有效保持補(bǔ)全圖像的身份一致。
人臉補(bǔ)全;身份一致性;生成式對(duì)抗網(wǎng)絡(luò);人臉識(shí)別
圖像補(bǔ)全是指在目標(biāo)區(qū)域填充特定內(nèi)容,使填充后的圖像保持真實(shí)性的技術(shù)。它可以實(shí)現(xiàn)被遮擋、損壞物體圖像的重建。盡管目前有多種方法被用于圖像補(bǔ)全任務(wù),如基于紋理的補(bǔ)全、基于圖像庫(kù)的補(bǔ)全等。它仍然是一個(gè)具有挑戰(zhàn)性的問(wèn)題,因?yàn)樯鲜鲅a(bǔ)全方法未對(duì)圖像的上下文信息進(jìn)行有效利用,對(duì)圖像中較大面積的缺失修補(bǔ)效果難以令人滿意。
人臉圖像的補(bǔ)全作為圖像補(bǔ)全的一種特殊應(yīng)用,由于其在遮擋人臉識(shí)別、人臉圖像修復(fù)等方面的應(yīng)用而受到人們的關(guān)注。Mohammed等[1]使用人臉數(shù)據(jù)集構(gòu)建修補(bǔ)程序庫(kù),并提出了可用于人臉補(bǔ)全的全局和局部參數(shù)模型。Deng等[2]采用基于譜圖的人臉圖像修復(fù)算法。然而,這些方法補(bǔ)全的圖像真實(shí)性較低,且需要對(duì)應(yīng)的人臉圖像學(xué)習(xí)填充紋理特征,并不能泛化到任意的人臉補(bǔ)全問(wèn)題。
生成對(duì)抗網(wǎng)絡(luò)(GAN, generative adversarial net)是Goodfellow等[3]在2014 年提出的一種無(wú)監(jiān)督學(xué)習(xí)的訓(xùn)練方法。生成對(duì)抗網(wǎng)絡(luò)由2部分組成:一個(gè)生成器網(wǎng)絡(luò)和一個(gè)辨別器網(wǎng)絡(luò)。生成器網(wǎng)絡(luò)用于生成逼真的樣本,鑒別器用于從中分辨出生成樣本和原樣本。Radford等[4]利用生成對(duì)抗網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)[5]生成高質(zhì)量的真假難辨的圖像,但由于其訓(xùn)練困難,穩(wěn)定性較差,近幾年一直成為研究改進(jìn)的熱點(diǎn)。SN-GAN是Miyato等[6]對(duì)Wassertein GAN[7]進(jìn)行的改進(jìn),解決了傳統(tǒng)GAN模型中訓(xùn)練困難、損失函數(shù)無(wú)法指示訓(xùn)練進(jìn)程、生成樣本缺乏多樣性的問(wèn)題。
利用生成對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)圖像的補(bǔ)全可以達(dá)到更加真實(shí)的效果。Pathak等[8]利用GAN的方法設(shè)計(jì)了上下文補(bǔ)全網(wǎng)絡(luò),在補(bǔ)全網(wǎng)絡(luò)中增加了對(duì)抗性損失,取得了較為清晰的結(jié)果。而Satoshi等[9]使用了全局和局部2個(gè)鑒別器作為對(duì)抗性損失,使補(bǔ)全圖像的細(xì)節(jié)更加豐富。
身份信息是指識(shí)別確定唯一個(gè)體所需要的信息,在本文中特指人臉識(shí)別中的人臉特征。當(dāng)前的方法在補(bǔ)全圖像的真實(shí)性上都有較好的實(shí)現(xiàn),但在人臉補(bǔ)全時(shí)未考慮圖像包含的身份信息,無(wú)法保持人臉補(bǔ)全前后身份的一致性。本文利用生成對(duì)抗網(wǎng)絡(luò)的方法進(jìn)行人臉補(bǔ)全,同時(shí)利用人臉識(shí)別模型Light-CNN[10]對(duì)補(bǔ)全人臉的身份信息進(jìn)行約束,在保持較高真實(shí)性的同時(shí)保留其身份信息。本文的主要工作如下。
1) 提出了一種基于SN-GAN的圖像補(bǔ)全方法。相比傳統(tǒng)GAN方法補(bǔ)全的圖像更加真實(shí),訓(xùn)練穩(wěn)定性更好。
2) 改進(jìn)的人臉補(bǔ)全方法利用身份一致性約束,使補(bǔ)全的圖像能保留人臉的身份特征,補(bǔ)全前后的人臉身份盡可能保持一致,提高了對(duì)被遮擋人臉的識(shí)別準(zhǔn)確率。
本文提出的人臉補(bǔ)全模型算法框架如圖1所示,本節(jié)從人臉補(bǔ)全網(wǎng)絡(luò)、目標(biāo)函數(shù)設(shè)計(jì)以及網(wǎng)絡(luò)訓(xùn)練算法3個(gè)方面對(duì)其進(jìn)行闡述。
本文提出的人臉補(bǔ)全模型主要是基于SN-GAN模型設(shè)計(jì)的,由生成器網(wǎng)絡(luò)(G)和鑒別器網(wǎng)絡(luò)(D)2個(gè)部分組成。生成器網(wǎng)絡(luò)主要是將輸入的帶有較大空白遮罩的圖像補(bǔ)全為完整圖像。鑒別器網(wǎng)絡(luò)主要是度量生成圖像和真實(shí)圖像之間的Wassertein距離。
設(shè)輸入的數(shù)據(jù)集為
定義2個(gè)分布之間的Wassertein距離為
其中,代表和組合所有可能的聯(lián)合分布的集合。x, y分別代表從聯(lián)合分布中采樣出來(lái)的真實(shí)樣本和生成樣本。代表樣本x與y間的距離。代表分布間樣本距離的期望。其期望的下確界定義為Wassertein距離。
由于直接計(jì)算Wassertein距離比較困難,根據(jù)Kantorovich-Rubinstein對(duì)偶原理,可以得到Wasserstein距離的等價(jià)形式。
其中,()必須滿足Lipschitz連續(xù)條件,即
這里用鑒別器網(wǎng)絡(luò)近似函數(shù)()。設(shè)鑒別器網(wǎng)絡(luò)擬合的函數(shù)為f(),權(quán)值矩陣為。則需使f()=(),根據(jù)Takeru Miyato的方法,將權(quán)重矩陣除以其權(quán)重矩陣的最大奇異值使鑒別器網(wǎng)絡(luò)擬合的函數(shù)f()滿足Lipschitz連續(xù)條件,即
此時(shí),生成圖像分布P和真實(shí)圖像分布P之間的Wassertein距離(P,P)為
2.2.1 對(duì)抗性損失
鑒別器網(wǎng)絡(luò)可以度量真實(shí)圖像分布和待補(bǔ)全圖像分布之間的Wassertein距離。因此對(duì)抗性損失L為
2.2.2 一致性損失
用于度量補(bǔ)全模型補(bǔ)全的圖像和真實(shí)圖像之間的差異。使用均方差(MSE)作為度量函數(shù)。一致性損失L定義為
2.2.3 身份保持損失
用于度量補(bǔ)全后的人臉和真實(shí)人臉x身份之間的差異。用人臉識(shí)別網(wǎng)絡(luò)倒數(shù)第二層——全連接層的輸出作為圖像包含身份信息。則身份保持損失L定義為
其中,N是身份鑒別網(wǎng)絡(luò),這里使用預(yù)訓(xùn)練好的含有9層卷積層的Light-CNN人臉識(shí)別網(wǎng)絡(luò)作為身份鑒別網(wǎng)絡(luò),由于預(yù)訓(xùn)練好的Light-CNN可以對(duì)數(shù)以萬(wàn)計(jì)的人臉進(jìn)行分類,它可以捕捉到人臉圖像的最顯著特征或面部結(jié)構(gòu)。因此,利用該網(wǎng)絡(luò)的輸出作為圖像包含的人臉身份信息是完全可行的[11]。
綜上可得,總的生成模型損失為
本文選擇優(yōu)化器為RMSProp[12],不需要手動(dòng)調(diào)整學(xué)習(xí)率,可以根據(jù)一階梯度信息自動(dòng)調(diào)整學(xué)習(xí)率。相對(duì)于SGD具有較快的收斂速度,對(duì)生成對(duì)抗網(wǎng)絡(luò)模型訓(xùn)練時(shí)梯度不穩(wěn)定的情況適應(yīng)性較好。通過(guò)反向傳播算法,動(dòng)態(tài)更新模型的參數(shù),使模型的損失函數(shù)最小化。訓(xùn)練過(guò)程如算法1所示。
算法1 人臉補(bǔ)全模型訓(xùn)練算法
輸入
:裁剪好的人臉圖像;
:隨機(jī)生成的隨機(jī)大小的圖像遮罩;
:鑒別器網(wǎng)絡(luò)每一層的參數(shù)矩陣;
():權(quán)值矩陣的最大奇異值;
:學(xué)習(xí)率;
:每訓(xùn)練一次生成器鑒別器訓(xùn)練的次數(shù)
輸出
:鑒別器網(wǎng)絡(luò)的參數(shù)矩陣
3) for=0,…,do
4) 從人臉訓(xùn)練集中采樣個(gè)樣本x
5) 從遮罩集中采樣個(gè)樣本m
9) end for
10) 從人臉訓(xùn)練集中采樣個(gè)樣本x
11) 從遮罩集中采樣個(gè)樣本m
14) end while
表1 生成器網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)
表2 鑒別器網(wǎng)絡(luò)參數(shù)
本文使用峰值信噪比(PSNR)指標(biāo)對(duì)所提方法補(bǔ)全的圖像質(zhì)量進(jìn)行評(píng)估。峰值信噪比表示信號(hào)最大可能功率和影響它表示精度的破壞性噪聲功率的比值,常用于衡量圖像的重建誤差,其定義如式(23)所示。
表3 比較不同圖像補(bǔ)全方法的峰值信噪比
可以看出,所提方法在圖像補(bǔ)全時(shí)能夠保持較高的生成圖像質(zhì)量。圖像補(bǔ)全的效果如圖2所示。
為了評(píng)估所提人臉補(bǔ)全算法能夠更好地產(chǎn)生用于人臉識(shí)別的人臉特征,本文在LFW數(shù)據(jù)集上做了對(duì)比試驗(yàn)。分別對(duì)人臉圖像增加隨機(jī)的范圍在32像素至48像素的空白遮罩,然后分別在不進(jìn)行任何處理、利用GCDGAN等主流方法對(duì)其進(jìn)行補(bǔ)全、利用本文方法進(jìn)行補(bǔ)全的情況下,使用預(yù)先訓(xùn)練好的Light-CNN人臉分類模型進(jìn)行身份辨別。準(zhǔn)確率(accuracy)定義為
其中,為測(cè)試集的圖片數(shù)量,N當(dāng)測(cè)試圖像通過(guò)身份辨別模型的辨別結(jié)果與該圖像在數(shù)據(jù)集中的身份標(biāo)簽一致,N記為1,否則記為0。采用不同補(bǔ)全方法后采用同一模型進(jìn)行人臉識(shí)別,準(zhǔn)確率如表4所示。
表4 比較不同圖像補(bǔ)全方法在圖像身份識(shí)別上的準(zhǔn)確率
本文通過(guò)基于GAN方法對(duì)人臉圖像進(jìn)行補(bǔ)全的研究,通過(guò)增加身份一致性約束,使補(bǔ)全人臉圖像時(shí)可以盡可能恢復(fù)出用于人臉識(shí)別的特征,更好地保持補(bǔ)全前后的身份一致,并通過(guò)與其他方法的對(duì)比實(shí)驗(yàn)證明了其有效性。
本文設(shè)計(jì)的基于生成對(duì)抗網(wǎng)絡(luò)的人臉圖像補(bǔ)全算法在圖像缺失信息較大時(shí),難以進(jìn)行有效的補(bǔ)全,下一步將針對(duì)此缺陷進(jìn)行改進(jìn)。
[1] MOHAMMED U, SIMON J D P, KAUTZ J. Visio-lization: generating novel facial images[J]. ACM Transactions on Graphics 2009, 28, (3): 57.
[2] DENG Y, DAI Q, ZHANG Z. Graph Laplace for occluded face completion and recognition.[J]. IEEE Trans Image Process, 2011, 20(8):2329-2338.
[3] GOODFELLOW I J, POUGETABADIE J, MIRZA M, et al. Generative adversarial nets[J]. Advances in Neural Information Processing Systems, 2014, 3: 2672-2680.
[4] RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[J]. Computer Science, 2015.
[5] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.
[6] MIYATO T, KATAOKA T, KOYAMA M, et al. Spectral normalization for generative adversarial networks[C]// ICML Workshop on Implicit Models. 2018.
[7] GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved training of Wasserstein GANs[C]//Advances in Neural Information Processing Systems. 2017.
[8] PATHAK D, KRAHENBUHL P, DONAHUE J, et al. Context encoders: feature learning by inpainting[C]//IEEE Computer Vision and Pattern Recognition. 2016:2536-2544.
[9] ISHIKAWA H, ISHIKAWA H, ISHIKAWA H. Globally and locally consistent image completion[C]//ACM Transactions on Graphics (TOG) . 2017: 107.
[10] WU X, HE R, SUN Z, et al. A light CNN for deep face representation with noisy labels[J]. IEEE Transactions on Information Forensics & Security, 2017, (99):1-1.
[11] HUANG R, ZHANG S, LI T, et al. Beyond face rotation: global and local perception GAN for photorealistic and identity preserving frontal view synthesis[J]. arXiv:1704.04086,2017:2458-2467.
[12] XU K, BA J, KIROS R, et al. Show, attend and tell: neural image caption generation with visual attention[J]. Computer Science, 2015:2048-2057.
[13] HUANG G B, MATTAR M, BERG T, et al. Labeled faces in the wild: a database forstudying face recognition in unconstrained environments[R]. 2007.
[14] HUANG G B, MATTAR M, LEE H, et al. Learning to align from scratch[C]//Advances in Neural Information Processing Systems (NIPS). 2012.
[15] YU F, KOLTUN V. Multi-scale context aggregation by dilated convolutions[J]. arXiv preprint arXiv:1511.07122 ,2015.
[16] NAIR V, HINTON G E. Rectified linear units improve restricted boltzmann machines[C]//International Conference on International Conference on Machine Learning. 2010:807-814.
[17] IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[J]. arXiv:1502. 03167v3, 2015: 448-456.
[18] LAU M M, LIM K H. Investigation of activation functions in deep belief network[C]//2017 2nd International Conference on Control and Robotics Engineering (ICCRE). 2017:201-206.
[19] CYBENKO C. Approximation by superpositions of sigmodial function[J]. Mathematics of Control Signals & Systems, 1989, 2.
[20] ZHENG H, YANG Z, LIU W, et al. Improving deep neural networks using softplus units[C]// International Joint Conference on Neural Networks. 2015:1-4.
[21] YANG S, LUO P, LOY C C, et al. From facial parts responses to face detection: a deep learning approach[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2015:3676-3684.
[22] HUANG J B, KANG S B, AHUJA N, et al. Image completion using planar structure guidance[J]. ACM Transactions on Graphics, 2014, 33(4):1-10.
Identity preserving face completion with generative adversarial networks
WANG Xudong, WEI Hongquan, GAO Chao, HUANG Ruiyang
National Digital Switching System Engineering & Technological R&D Center, Zhengzhou 450002, China
As a special application of image completion technology, face image completion has an irreplaceable role in the occlusion of face recognition, portrait restoration and other issues. The existing face completion algorithm only aims at complementing the authenticity of the image without considering its identity consistency after completion. A face complement algorithm based on improved generative confrontation network was designed. By introducing SN-GAN algorithm, the stability of model training was improved. At the same time, the identity recognition constraint was added to the generated image using the face recognition model. Experiments have shown that the proposed method can effectively maintain the identity of the complementary image when generating high-authenticity images.
image completion, identity preserving, generative adversarial nets(GAN), face recognition
TP393
A
10.11959/j.issn.2096-109x.2018070
王旭東(1992-),男,山東青島人,國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心碩士生,主要研究方向?yàn)榇髷?shù)據(jù)、音視頻處理。
衛(wèi)紅權(quán)(1971-),男,河南唐河人,國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心副研究員,主要研究方向?yàn)槿诤暇W(wǎng)絡(luò)安全、可重構(gòu)網(wǎng)絡(luò)理論與技術(shù)。
高超(1982-),男,河南鄭州人,博士,信息工程大學(xué)助理研究員,主要研究方向?yàn)橛?jì)算機(jī)視覺。
黃瑞陽(yáng)(1986-),男,福建漳州人,博士,國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心助理研究員,主要研究方向?yàn)槲谋就诰?、圖挖掘。
2018-06-25;
2018-07-26
王旭東,609645296@qq.com
國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61601513)
The National Natural Science Foundation of China (No.61601513)