王藝博,張珂,2*,孔英會,2,于婷婷,趙士瑋
1.華北電力大學(xué)電子與通信工程系,保定 071003;2.華北電力大學(xué)河北省電力物聯(lián)網(wǎng)技術(shù)重點(diǎn)實(shí)驗(yàn)室,保定 071003
人臉圖像是日常生活中最常見的數(shù)據(jù)之一,蘊(yùn)含著豐富的可用信息,如性別、年齡、種族、身份及表情等。隨著深度學(xué)習(xí)的飛速發(fā)展,人臉圖像處理吸引了大批科研人員的研究興趣,目前已成為人工智能領(lǐng)域最熱門的研究之一。人臉圖像是開展與人臉相關(guān)問題研究的基礎(chǔ),年齡作為人類重要的生物及社會特征,在社會交往中起著基礎(chǔ)性的作用。以人臉圖像年齡估計(jì)(張珂 等,2019)和人臉圖像年齡合成(Shu 等,2016)為代表的人臉圖像年齡分析已成為人工智能領(lǐng)域的重要問題之一。人臉圖像年齡合成(以下簡稱人臉年齡合成)在各個(gè)領(lǐng)域有著廣泛的應(yīng)用,從社會保障到數(shù)字娛樂,如根據(jù)舊時(shí)的照片預(yù)測失蹤人員或通緝嫌疑人的現(xiàn)貌、改進(jìn)跨年齡驗(yàn)證(Park等,2010;Wu等,2012)的人臉識別系統(tǒng)及一些商用軟件的智能換臉技術(shù)等。人臉年齡合成由于其重要的應(yīng)用價(jià)值,已成為計(jì)算機(jī)視覺領(lǐng)域的一個(gè)熱門話題。在過去的20 年里,人們已經(jīng)對其進(jìn)行了廣泛研究。
人臉年齡合成是一項(xiàng)有難度的研究課題。首先,人臉?biāo)ダ鲜且粋€(gè)極其復(fù)雜的面部變換過程,人的一生中臉的形狀與紋理隨著年齡的增長呈現(xiàn)出非線性變化。雖然人類的整體衰老趨勢大致相同,但每個(gè)人的衰老過程由他/她的個(gè)性化因素(如痣、胎記等)主導(dǎo)。此外,人臉年齡合成執(zhí)行困難的另一個(gè)原因是對數(shù)據(jù)集的嚴(yán)格要求。大多數(shù)現(xiàn)有方法需要成對樣本作為訓(xùn)練數(shù)據(jù),即同一個(gè)人在不同年齡的人臉圖像,有些方法甚至需要在很長的年齡跨度內(nèi)進(jìn)行配對樣本,這是非常難以收集的。因此,由于涉及遺傳學(xué)和生活方式的極端挑戰(zhàn)以及對訓(xùn)練數(shù)據(jù)集的嚴(yán)格要求,人臉年齡合成任務(wù)是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。
盡管問題本身存在極大的挑戰(zhàn),但該領(lǐng)域一直吸引著眾多學(xué)者。從人類學(xué)理論到深度學(xué)習(xí)結(jié)構(gòu)(LeCun 等,2015),從使用傳統(tǒng)圖像處理算法到使用生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)的方法,人們在人臉年齡合成領(lǐng)域進(jìn)行了許多研究,且取得了突破性進(jìn)展。隨著深度學(xué)習(xí)的快速發(fā)展,基于GAN 的人臉年齡合成方法大幅提升了合成圖像的質(zhì)量。本文對人臉年齡合成任務(wù)的相關(guān)數(shù)據(jù)集、研究進(jìn)展、優(yōu)勢與不足及評價(jià)指標(biāo)進(jìn)行綜述,對比和總結(jié)相關(guān)方法的性能,指出該領(lǐng)域目前存在的挑戰(zhàn),并對未來可能的研究方向進(jìn)行展望。
人臉年齡合成,也稱人臉老化或年輕化,是指合成指定年齡條件下的人臉圖像,同時(shí)保留其個(gè)性化特征(Ramanathan 等,2009)。其基本思想是利用計(jì)算機(jī)技術(shù)對不同年齡(組)之間的年齡映射模式進(jìn)行建模,以目標(biāo)年齡為條件合成滿足要求的高質(zhì)量人臉圖像。
已知一幅人臉圖像,人臉年齡合成的流程可以分為以下幾個(gè)階段:1)獲取人臉年齡數(shù)據(jù)集;2)人臉檢測與定位(Kazemi 和Sullivan,2014),指檢測并定位出所給圖像中的人臉;3)年齡特征提取,從人臉圖像中提取能代表對應(yīng)年齡(組)的老化紋理與形狀特征,有效的年齡特征可以提高人臉年齡合成的性能;4)年齡合成,通過訓(xùn)練學(xué)習(xí)特定的年齡模式以及輸入人臉和目標(biāo)年齡標(biāo)簽之間的映射,直接生成特定年齡(組)的人臉;5)合成性能評價(jià),為了驗(yàn)證年齡合成方法的有效性,需要設(shè)定合理的性能指標(biāo)對其進(jìn)行評價(jià),對年齡合成算法進(jìn)行性能方面的評估是十分必要的。
由于人臉檢測與定位技術(shù)已經(jīng)成為計(jì)算機(jī)視覺中一個(gè)較為獨(dú)立的研究方向,因此本文將針對人臉年齡合成問題的其他階段總結(jié)其研究現(xiàn)狀。
在人臉年齡合成研究中,首要問題是收集具有不同年齡或年齡段的高質(zhì)量人臉數(shù)據(jù)集,數(shù)據(jù)集的質(zhì)量直接關(guān)系到訓(xùn)練模型的魯棒性及穩(wěn)定性。收集的數(shù)據(jù)集應(yīng)滿足以下幾個(gè)條件:1)數(shù)據(jù)集中應(yīng)包含同一個(gè)人不同年齡的多幅圖像,且需很長的時(shí)間跨度,以提升生成模型的訓(xùn)練質(zhì)量;2)數(shù)據(jù)集包含的圖像數(shù)量及來源人數(shù)盡可能多,確保模型學(xué)習(xí)的老化模式更加精細(xì);3)數(shù)據(jù)集中圖像的年齡標(biāo)簽盡可能準(zhǔn)確,防止訓(xùn)練過程出現(xiàn)偏差;4)數(shù)據(jù)集中每個(gè)年齡組的圖像數(shù)量盡可能均衡分布,保證生成模型學(xué)習(xí)的老化模式更全面。因此,收集數(shù)據(jù)集的過程極具挑戰(zhàn)性。下面總結(jié)了幾種常見的人臉年齡合成數(shù)據(jù)集。
1)FG-NET(the face and gesture recognition network)(Panis 等,2016)。FG-NET 數(shù)據(jù)集發(fā)布于2002年,包含了1 002 幅來自82 個(gè)人的彩色和黑白圖像,每幅圖像均帶有身份和年齡標(biāo)注,同時(shí)提供68 個(gè)人臉關(guān)鍵點(diǎn)信息。該數(shù)據(jù)集的年齡標(biāo)注類型為年齡值,年齡跨度為0~69 歲,平均年齡為16 歲,平均每個(gè)受試者有6~18 幅不同年齡的圖像。FG-NET 曾是年齡方面最流行的數(shù)據(jù)集之一,但由于其圖像數(shù)量較少,年齡分布不平衡,故目前的年齡合成研究很少使用該數(shù)據(jù)集。圖1 為FG-NET 數(shù)據(jù)集的示例圖像。
圖1 FG-NET數(shù)據(jù)集的示例圖像Fig.1 Images in the FG-NET dataset
2)MORPH(Ricanek 和 Tesafaye,2006)。MORPH 數(shù)據(jù)集發(fā)布于2006 年,是由美國北卡羅來納大學(xué)的研究者們收集的受限條件下的大型人臉老化數(shù)據(jù)集,已經(jīng)廣泛應(yīng)用于年齡合成、識別與估計(jì)等方面。該數(shù)據(jù)集由Album1和Album2兩部分組成,收錄了同一個(gè)人在不同年齡段的圖像,其年齡標(biāo)注類型均為年齡值。Album1包含515個(gè)受試者的1 690幅灰度人臉圖像,其收集時(shí)間跨度為1962—1998 年,受試者年齡為15~68歲,平均年齡為42歲。相對于Album1,Album2 包含13 618 個(gè)受試者的55 134幅人臉圖像,數(shù)據(jù)樣本為200 × 240像素和400 × 480像素兩種尺寸的近正面人臉彩色圖像。圖像收集時(shí)間跨度為2003—2007 年,受試者年齡為16~77 歲,平均年齡為33 歲。除年齡外,MORPH 數(shù)據(jù)集還提供了人物的其他信息,如性別、種族、是否戴眼鏡等。由于Album2 圖像數(shù)量較Album1 多,年齡合成方面的研究大多使用Album2 進(jìn)行實(shí)驗(yàn)。圖2 為MORPH Album2數(shù)據(jù)集示例圖像。
圖2 MORPH數(shù)據(jù)集的示例圖像Fig.2 Images in the MORPH dataset
3)CACD(the cross-age celebrity dataset)(Chen等,2015)。CACD 數(shù)據(jù)集發(fā)布于2013年,由2 000位名人的163 446 幅彩色人臉圖像組成,均為網(wǎng)站收集,年齡標(biāo)注類型為年齡值。圖像收集的時(shí)間跨度為2004—2013 年,年齡范圍為16~62 歲,平均年齡為31 歲。CACD 數(shù)據(jù)集同時(shí)還提供了16 個(gè)人臉關(guān)鍵點(diǎn)的標(biāo)注信息。這些圖像是在非受限條件下拍攝的,人物的姿勢、照明和表情有巨大變化,因此它成為一個(gè)非常具有挑戰(zhàn)性的數(shù)據(jù)集。圖3 為CACD 數(shù)據(jù)集的示例圖像。
圖3 CACD數(shù)據(jù)集的示例圖像Fig.3 Images in the CACD dataset
4)Adience(Eidinger 等,2014)。Adience 數(shù)據(jù)集發(fā)布于2014 年,其中收集了2 284 個(gè)人共26 580 幅人臉圖像,每幅圖像均帶有年齡組和性別標(biāo)注。該數(shù)據(jù)集的年齡跨度為0~60+歲,它的標(biāo)注采用的是年齡段的形式而不是具體的年齡值,其中包括0~2、4~6、8~13、15~20、25~32、38~43、48~53和60~100 共8 個(gè)年齡段。該數(shù)據(jù)集中的圖像均含有噪聲、姿勢和光照等變化,盡可能真實(shí)地模擬現(xiàn)實(shí)生活的情景。
5)CelebA(the celebfaces attributes)(Liu 等,2015)。CelebA 數(shù)據(jù)集是香港中文大學(xué)多媒體實(shí)驗(yàn)室2015 年公開的一個(gè)大規(guī)模的人臉屬性數(shù)據(jù)集,包含10 177位名人的202 599幅彩色圖像,覆蓋了背景及姿勢方面的較大變化。每幅圖像有40 個(gè)二進(jìn)制屬性注釋,如是否佩戴眼鏡、長短發(fā)、鼻子、嘴唇、發(fā)色、性別等。該數(shù)據(jù)集的年齡跨度為0~100 歲,年齡標(biāo)注類型也為年齡組。圖4為CelebA 數(shù)據(jù)集的示例圖像。
圖4 CelebA數(shù)據(jù)集的示例圖像Fig.4 Images in the CelebA dataset
6)IMDB-WIKI(Internet Movie Database-WiKipedia)(Rothe 等,2015)。IMDB-WIKI 數(shù)據(jù)集發(fā)布于2015 年,是一個(gè)包含20 284 位名人共523 051 幅圖像的數(shù)據(jù)集,圖像和年齡、性別信息從IMDB 和WiKipedia 網(wǎng)站收集,年齡標(biāo)注類型為年齡值,年齡跨度為0~100 歲。其中,獲取自IMDB 和WiKipedia網(wǎng)站的數(shù)量分別為460 723幅和62 328幅,是目前規(guī)模最大、包含人數(shù)最多的人臉年齡數(shù)據(jù)集。
7)UTKFace(Zhang 等,2017)。UTKFace 數(shù)據(jù)集發(fā)布于2017 年,是一個(gè)具有較長年齡跨度的大型人臉數(shù)據(jù)集,它有20 000幅帶有年齡、性別和種族標(biāo)注的人臉圖像,年齡范圍為0~116 歲,平均年齡為33 歲。圖像是從Google 和Bing 搜索引擎收集的,覆蓋了姿勢、面部表情、光照、遮擋和分辨率等方面的較大變化。
8)FFHQ(the flickr faces high quality)(Karras等,2019)。FFHQ 數(shù)據(jù)集是NVIDIA 公司于2019年開源的一個(gè)高質(zhì)量的人臉數(shù)據(jù)集,其圖像來自于Flickr。FFHQ 數(shù)據(jù)集包含70 000 幅1 024 × 1 024 像素分辨率PNG 格式的高清人臉圖像,在年齡、種族和圖像背景上豐富多樣且差異明顯,年齡范圍為0~100歲。圖5為FFHQ數(shù)據(jù)集的示例圖像。
圖5 FFHQ數(shù)據(jù)集的示例圖像Fig.5 Images in the FFHQ dataset
表1總結(jié)并對比了上述常見已公開的人臉年齡合成數(shù)據(jù)集,主要包括以下方面:圖像數(shù)量、來源人數(shù)、年齡范圍、標(biāo)簽類型、來源身份、平均年齡及圖像狀態(tài)。目前人臉年齡合成任務(wù)中最常用的數(shù)據(jù)集為MORPH與CACD。人臉年齡合成數(shù)據(jù)集與人臉識別等傳統(tǒng)人臉數(shù)據(jù)集相比,規(guī)模較小,且圖像質(zhì)量良莠不齊。然而,人臉年齡合成任務(wù)需要大規(guī)模的標(biāo)簽正確、年齡分布均衡的高質(zhì)量人臉圖像,所以收集和建立滿足要求的人臉年齡合成數(shù)據(jù)集是非常必要的。
表1 常見已公開的人臉年齡合成數(shù)據(jù)集Table 1 The common published face age synthesis datasets
在過去的20 年中,人臉年齡合成取得了令人矚目的進(jìn)展,人們提出了大量解決這一問題的方法。目前,人臉年齡合成方法可分為傳統(tǒng)圖像處理方法和基于機(jī)器學(xué)習(xí)的方法這兩大類。其中,傳統(tǒng)圖像處理方法包括基于物理的人臉年齡合成方法(Suo等,2012;Tazoe 等,2012)和基于原型的人臉年齡合成方法(Kemelmacher-Shlizerman 等,2014;Tiddeman等,2001)?;跈C(jī)器學(xué)習(xí)的方法又稱為基于模型的方法,可分為參數(shù)化線性模型方法、基于時(shí)間架構(gòu)的深度生成模型方法和基于GAN 的方法。本文主要總結(jié)目前主流的、合成質(zhì)量最好的基于GAN 的人臉年齡合成方法,將在下一節(jié)單獨(dú)綜述,本節(jié)僅簡要?dú)w納其余方法。
基于物理的人臉年齡合成是通過建立參數(shù)化模型機(jī)械地模擬人臉的面部結(jié)構(gòu)(Ramanathan 和Chellappa,2006)、皮膚皺紋(Ramanathan 和Chellappa,2008;Suo 等,2010)、肌肉形狀(Suo 等,2012)等方面的衰老機(jī)制。Todd 等人(1980)提出一種修正的心形應(yīng)變變換對頭部輪廓生長進(jìn)行建模。Wu 等人(1994)提出一個(gè)3 層動(dòng)態(tài)皮膚模型來模擬皺紋的紋理結(jié)構(gòu)。
基于原型的人臉合成方法使用非參數(shù)模型,利用原型人臉的特征來合成目標(biāo)人臉,其基本思想是計(jì)算特定年齡組的平均人臉作為該年齡組的原型人臉(Rowland 和Perrett,1995),將其與目標(biāo)年齡組原型人臉的面部形狀與紋理差異作為老化模式,應(yīng)用于目標(biāo)人臉上進(jìn)而合成老化人臉。然而,由于老化模式是通過平均人臉獲得的,一些重要的個(gè)性化特征(如皺紋等)可能會被平均化,從而導(dǎo)致個(gè)人身份丟失,因此基于原型的方法在一定程度上忽略了人臉的身份信息。在實(shí)際應(yīng)用(如跨年齡人臉識別)中,保持身份已是基本要求。為了改善上述問題,Shu 等人(2015)提出了一種基于詞典學(xué)習(xí)的方法,為每個(gè)年齡組構(gòu)建對應(yīng)的年齡耦合字典,輸入圖像的稀疏編碼系數(shù)表示其個(gè)性化的過渡模式。Wang等人(2016b)提出了一種結(jié)合多層濾波器的標(biāo)簽約束字典學(xué)習(xí)(Olshausen 和Field,1997)的方法,學(xué)習(xí)一個(gè)標(biāo)簽來約束字典,字典鼓勵(lì)類內(nèi)樣本稀疏表示(Lee等,2007)并抑制類內(nèi)噪聲。
基于機(jī)器學(xué)習(xí)(即模型)的人臉年齡合成方法利用機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)年齡(組)之間的人臉映射,這類方法能夠從人臉年齡數(shù)據(jù)集中學(xué)習(xí)其對應(yīng)的老化紋理和形狀特征,生成較為逼真的人臉年齡圖像。
參數(shù)化線性模型屬于較為傳統(tǒng)的基于模型的方法,主要采用主動(dòng)外觀模型(active appearance model,AAM)(Cootes 等,2001)和三維變形模型(3D morphable model,3DMM)(Blanz 和Vetter,1999)來表示人臉的形狀結(jié)構(gòu)和外觀,以模擬面部老化。基于AAM 的方法(Lanitis等,2002)主要是利用AAM 建立各年齡段的面部參數(shù)模型,再根據(jù)目標(biāo)年齡在方向老化軸上移動(dòng)主動(dòng)外觀模型參數(shù),進(jìn)而合成目標(biāo)年齡的老化人臉。而基于3DMM 的方法則是借助三維人臉重建技術(shù),在對三維人臉圖像分析的基礎(chǔ)上建立其參數(shù)化模型,通過改變其身份參數(shù)渲染出老化效果,即可得到目標(biāo)年齡的人臉圖像。然而,由于人臉老化是一個(gè)非線性過程,這些方法建立的仍是線性模型,所以其合成圖像的質(zhì)量仍然有所欠缺。
伴隨著神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,深度學(xué)習(xí)方法在圖像生成方面表現(xiàn)出卓越的能力,深度生成模型成為人臉年齡合成領(lǐng)域較受歡迎的方法。其中,基于時(shí)間架構(gòu)的深度生成模型利用分層學(xué)習(xí)表示法對年齡進(jìn)程進(jìn)行建模,下面簡述最具代表性的3 種方法。
由于人臉隨年齡增長表現(xiàn)為一種非線性變化過程,為了更好地解釋這種非線性過程,Duong 等人(2016)引入了時(shí)間受限玻爾茲曼機(jī)(temporal restricted Boltzmann machines,TRBM)(Sutskever 和Hinton,2007)來表示具有幾何約束和空間RBM的非線性老化過程,捕捉不同年齡組人臉之間的老化轉(zhuǎn)換;Wang 等人(2016a)提出了一種基于遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的循環(huán)人臉老化模型,該模型采用兩層選通遞歸單元作為基本遞歸模塊,通過對兩個(gè)連續(xù)年齡組之間的中間狀態(tài)進(jìn)行建模,以實(shí)現(xiàn)更好的老齡化過渡;Duong 等人(2017)提出利用時(shí)間非體積保持(temporal non-volume preserving,TNVP)方法來模擬每個(gè)階段的面部老化過程,該方法通過使用ResNet 塊(He 等,2016)映射兩個(gè)連續(xù)年齡組的數(shù)據(jù)密度來實(shí)現(xiàn)短期老化,最終通過短期階段的鏈接來實(shí)現(xiàn)長期老化合成。
上述3 種基于時(shí)間架構(gòu)的深度生成方法可以有效地學(xué)習(xí)時(shí)間信息,即使目標(biāo)年齡與受試者的輸入年齡相差甚遠(yuǎn),也可以實(shí)現(xiàn)老化。然而,這些方法更側(cè)重于建模兩個(gè)年齡組之間的人臉轉(zhuǎn)換,其中年齡因素起主導(dǎo)作用,而身份信息起次要作用,因此很難同時(shí)實(shí)現(xiàn)年齡準(zhǔn)確性和身份持久性,特別是對于長時(shí)間跨度的年齡增長。此外,它們在訓(xùn)練階段需要對同一個(gè)體的大量配對圖像進(jìn)行長時(shí)間訓(xùn)練,由于缺乏大型縱向人臉老化數(shù)據(jù)集,因此在實(shí)際應(yīng)用中潛力有限。
綜上所述,基于物理的方法通常只關(guān)注直觀的面部特征,難免會忽略一些微妙的變化(如老年色素、色斑、胡子變白等),造成合成圖像的不合理性。此外,該方法需要同一個(gè)人在不同年齡下的大量人臉,計(jì)算成本高且難以收集。基于原型的方法所產(chǎn)生的老化模式使得一些重要的個(gè)性化特征可能會被平均化,從而導(dǎo)致個(gè)人身份丟失。雖然一些基于字典學(xué)習(xí)的方法(Shu等,2015;Wang等,2016b)在一定程度上保留了個(gè)性化的身份特征,但其合成圖像會出現(xiàn)嚴(yán)重的重影偽影。在基于模型的方法中,參數(shù)化線性模型方法很難找到適用于特定年齡組的通用模型,且這類方法建立的仍是線性模型,所以其合成圖像的質(zhì)量仍然有所欠缺。而基于時(shí)間架構(gòu)的深度生成模型方法在年齡合成過程中,難以同時(shí)實(shí)現(xiàn)年齡準(zhǔn)確性和身份持久性,特別是對于長時(shí)間跨度的年齡增長。
上述方法對人臉年齡合成進(jìn)行了一系列探索,雖然圖像合成質(zhì)量不佳,但其為人臉年齡合成領(lǐng)域奠定了堅(jiān)實(shí)的基礎(chǔ),具有深遠(yuǎn)意義。人們對人臉年齡合成的研究并沒有就此止步,隨著卷積神經(jīng)網(wǎng)絡(luò)的飛速發(fā)展,基于GAN 的人臉年齡合成方法應(yīng)運(yùn)而生,該方法可以有效地改善上述方法存在的問題及缺陷。
近年來,生成對抗網(wǎng)絡(luò)GAN(Goodfellow 等,2014)在圖像合成和翻譯任務(wù)中取得了重大進(jìn)展(曹仰杰 等,2018),使用生成對抗網(wǎng)絡(luò)框架來解決人臉老化問題成為該領(lǐng)域的主流?;贕AN 的年齡合成方法的主要思想是利用對抗學(xué)習(xí)機(jī)制對年輕和老年人臉圖像分布之間的映射函數(shù)進(jìn)行建模,并通過學(xué)習(xí)的映射直接將測試人臉轉(zhuǎn)換到目標(biāo)年齡(組)?;贕AN 的方法最顯著的優(yōu)點(diǎn)是,合成的人臉圖像更具視覺保真度,并且具有更少的重影偽影。此外,基于GAN 的模型可以以端到端的方式進(jìn)行訓(xùn)練,顯著降低了算法的整體復(fù)雜度。
自GAN 提出后,研究者們在其框架基礎(chǔ)上不斷進(jìn)行改進(jìn)與優(yōu)化,衍生出一系列變體模型。依據(jù)這些變體基本思路的不同,基于GAN 的年齡合成方法可以分為4類:基于經(jīng)典GAN的人臉年齡合成方法、基于序列GAN 的人臉年齡合成方法、基于翻譯GAN的人臉年齡合成方法和基于條件GAN 的人臉年齡合成方法。序列GAN 利用數(shù)據(jù)間的順序關(guān)系,采用分段式方法訓(xùn)練GAN 網(wǎng)絡(luò),改進(jìn)方向體現(xiàn)在增加GAN 中生成模型的數(shù)量;翻譯GAN 將對抗域轉(zhuǎn)換研究與GAN 相結(jié)合,將計(jì)算機(jī)視覺問題視為圖像域轉(zhuǎn)換問題;條件GAN 主要對GAN 進(jìn)行條件約束,在原始GAN的基礎(chǔ)上增加條件變量,使得GAN根據(jù)圖像與對應(yīng)的標(biāo)簽進(jìn)行訓(xùn)練。本節(jié)將分別總結(jié)以上4 種人臉年齡合成方法。
基于經(jīng)典GAN 的人臉年齡合成方法直接使用GAN 來模擬任何兩個(gè)年齡(組)之間的年齡變化進(jìn)程,通常為不同的年齡(組)映射訓(xùn)練多個(gè)模型。但僅使用GAN 模型并不能取得良好的效果,為此,研究者們引入各種網(wǎng)絡(luò)來提升合成圖像的質(zhì)量。
Yang 等人(2018)提出一種金字塔結(jié)構(gòu)的人臉年齡合成方法,該方法強(qiáng)調(diào)額頭和頭發(fā)部分對面部合成的重要性,為了增強(qiáng)老化細(xì)節(jié),引入金字塔結(jié)構(gòu)的鑒別器,通過預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)以細(xì)粒度方式提取人臉多維度特征,合成更加細(xì)致真實(shí)的人臉年齡圖像。該方法適用于存在姿勢、表情和化妝等變化的各種人臉樣本,并實(shí)現(xiàn)了良好的老化效果。該方法的結(jié)構(gòu)原理圖如圖6所示。
圖6 金字塔結(jié)構(gòu)與GAN結(jié)合的結(jié)構(gòu)原理圖(Yang等,2018)Fig.6 The structural schematic diagram of the combination of pyramid structure and GAN(Yang et al.,2018)
Tatikonda 等人(2022)提出了帶有屬性操作人臉年齡進(jìn)展(face age progression with attribute manipulation,F(xiàn)AWAM)模型,該模型中的人臉老化模塊(face aging,F(xiàn)A)就是由上述金字塔GAN 結(jié)構(gòu)來實(shí)現(xiàn)的。
Liu 等人(2019)提出了一種屬性增強(qiáng)的小波基生成對抗網(wǎng)絡(luò)(attribute enhanced wavelet-based GAN,AEWGAN)的人臉老化模型。該模型將小波包變換(wavelet packet transform,WPT)模塊引入到鑒別器中,通過在頻率空間的多個(gè)尺度上提取與年齡相關(guān)的紋理細(xì)節(jié)特征來提高生成圖像的視覺保真度。為了提高合成圖像的質(zhì)量,與上述金字塔GAN 結(jié)構(gòu)不同,Liu 等人(2021)將注意力機(jī)制引入AEWGAN,提出屬性感知注意生成對抗網(wǎng)絡(luò)(attribute-aware attentive GAN,A3GAN)。該網(wǎng)絡(luò)在屬性感知生成器中引入注意力機(jī)制,將圖像修改范圍限制在與年齡相關(guān)的區(qū)域并保留輸入圖像中的細(xì)節(jié)。
由于條件對抗自動(dòng)編碼器(conditional adversarial autoencoder,CAAE)方法(Zhang 等,2017)在年齡合成過程中存在生成圖像分辨率低、重影偽影嚴(yán)重等問題,因此,宋昊澤和吳小俊(2019)在CAAE 的基礎(chǔ)上提出一個(gè)人臉老化/去齡化的高質(zhì)量人臉圖像生成模型(high quality image generation model,HQGM)。HQGM 使用VGG(Visual Geometry Group)-Face 模型對輸入圖像進(jìn)行特征提取,不僅可以去除人工鬼影噪聲,還增加了人臉特征信息和紋理信息。與CAAE 相比,HQGM 合成的人臉圖像有效緩解了重影偽影問題,峰值信噪比(peak signal-to-noise ratio,PSNR)比CAAE 高3.2 dB,結(jié)構(gòu)相似性 比CAAE高0.06。
Huang 等人(2021a)提出了一種漸進(jìn)式人臉老化框架(progressive face aging GAN,PFA-GAN),將復(fù)雜的老化過程表述為一個(gè)由多個(gè)子網(wǎng)絡(luò)組成的漸進(jìn)式神經(jīng)網(wǎng)絡(luò),每個(gè)子網(wǎng)絡(luò)僅學(xué)習(xí)圖像域中兩個(gè)相鄰年齡組之間的特定老化效應(yīng)。PFA-GAN 的結(jié)構(gòu)原理圖如圖7所示,其合成圖像示例圖如圖8所示。
圖7 PFA-GAN的結(jié)構(gòu)原理圖(Huang等,2021a)Fig.7 The structural schematic diagram of PFA-GAN(Huang et al.,2021a)
圖8 PFA-GAN的合成圖像示例圖Fig.8 The composite image examples of PFA-GAN
為了得到生成圖像的確切年齡,Jeon 等人(2021)提出了連續(xù)人臉老化生成對抗網(wǎng)絡(luò)(continuous face aging GAN,CFA-GAN)。CFA-GAN 將人臉圖像特征分解為兩個(gè)正交特征:身份基特征和年齡基特征,以提取與年齡無關(guān)的個(gè)人特征。該方法是第1次嘗試處理連續(xù)目標(biāo)年齡。
基于序列的方法主要思想是每個(gè)年齡(組)針對老化模式單獨(dú)訓(xùn)練一個(gè)模型,第n個(gè)模型的輸出作為第n+1 個(gè)模型的輸入,以此類推,在相鄰年齡(組)之間產(chǎn)生序列模式,逐步實(shí)現(xiàn)合成目標(biāo)年齡的人臉圖像。在該模型中,訓(xùn)練過程按順序執(zhí)行,n個(gè)生成模型順序連接組合成一個(gè)完整的網(wǎng)絡(luò)。這種方法側(cè)重于關(guān)注數(shù)據(jù)集的順序關(guān)系,通過逐步訓(xùn)練的方式將原始輸入圖像轉(zhuǎn)換到目標(biāo)年齡組。
Shen 等人(2018)提出了FaceFeat GAN,通過特征合成和特征到圖像映射兩個(gè)階段合成保留身份的人臉圖像,即利用高級特征域和低級圖像域的兩級競爭,提高合成圖像的質(zhì)量和多樣性。這兩個(gè)領(lǐng)域的競爭并不是相互獨(dú)立的,而是相互協(xié)作以取得更好的結(jié)果。與直接將隨機(jī)噪聲映射到圖像的單階段模型不同,該模型兩階段合成包括多樣特征生成的第1 階段和特征到圖像渲染的第2 階段。只要第1 階段生成的特征足夠真實(shí),第2 階段的生成器就能夠?qū)⑵浣獯a為視覺保真的高質(zhì)量人臉老化圖像。
Duong 等人(2019)基于TNVP 提出了一種受試者依賴的深度衰老路徑(subject-dependent deep aging path,SDAP)模型用于合成老化圖像。SDAP在TNVP 結(jié)構(gòu)中嵌入年齡控制器,該年齡控制器可以決定合成過程中年齡變化的程度。這種體系結(jié)構(gòu)既有利于通過最大限度地提高訓(xùn)練數(shù)據(jù)的可用性,也有利于根據(jù)不同受試者的特點(diǎn)采用不同的老化路徑。SDAP 使用深度卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)非線性過程,并將年齡轉(zhuǎn)換嵌入逆強(qiáng)化學(xué)習(xí)(inverse reinforcement learning,IRL)框架下的整個(gè)年齡序列,通過優(yōu)化獎(jiǎng)勵(lì)老化過程為個(gè)體受試者提供最佳的老化發(fā)展路徑。
基于翻譯的方法將年齡視為“風(fēng)格”,將人臉的老化模式視為一種“風(fēng)格轉(zhuǎn)換”,從目標(biāo)年齡組的圖像中提取其對應(yīng)的風(fēng)格,再轉(zhuǎn)換到輸入人臉圖像上。即從圖像的一個(gè)集合域轉(zhuǎn)移到圖像的另一個(gè)集合域。該方法的兩個(gè)主流方向是以CycleGAN 或Style-GAN 為基礎(chǔ)模型,二者有本質(zhì)上的區(qū)別:CycleGAN旨在學(xué)習(xí)映射函數(shù)實(shí)現(xiàn)“風(fēng)格轉(zhuǎn)換”,StyleGAN 則通過逐層提高圖像分辨率合成目標(biāo)圖像。
4.3.1 以CycleGAN為基礎(chǔ)模型的方法
Zhu 等人(2017)提出了一種利用非配對圖像進(jìn)行圖像域轉(zhuǎn)化的無監(jiān)督學(xué)習(xí)模型CycleGAN,可以實(shí)現(xiàn)將圖像從源域X翻譯到目標(biāo)域Y。CycleGAN 在對抗性訓(xùn)練過程中學(xué)習(xí)兩個(gè)映射函數(shù):G:X→Y 和F:Y→X,為了保證圖像轉(zhuǎn)換周期可以使圖像回到原始圖像,作者引入循環(huán)一致性損失保證前向過程和后向過程均可進(jìn)行,其模型原理圖如圖9所示。
圖9 CycleGAN的模型原理圖(Zhu等,2017)Fig.9 The model schematic diagram of CycleGAN(Zhu et al.,2017)((a)forward cycle process;(b)backward cycle process)
由于CycleGAN 不需要成對的圖像,這一優(yōu)勢可用于人臉老化,將圖像從一個(gè)年齡(組)轉(zhuǎn)換為另一個(gè)年齡(組)。受此啟發(fā),Palsson 等人(2018)將人的年齡看做圖像的潛在風(fēng)格,認(rèn)為人臉老化是圖像風(fēng)格轉(zhuǎn)換問題。他們將CycleGAN 框架應(yīng)用于人臉老化,通過在年齡組之間訓(xùn)練CycleGAN 模型來實(shí)現(xiàn)Group-GAN。由于Group-GAN 在生成年齡變化較小的圖像時(shí)具有更好的性能,而FA-GAN(face aging GAN)(Johnson 等,2016)則相反,因此作者將Group-GAN 與FA-GAN 融合后形成F-GAN 模型,通過訓(xùn)練不同年齡組的循環(huán)一致生成對抗網(wǎng)絡(luò),并將年齡估計(jì)器集成到損失函數(shù)中,生成所需年齡組的人臉圖像。F-GAN的合成圖像示例如圖10所示。
圖10 F-GAN的合成圖像示例Fig.10 The composite image examples of F-GAN
Li等人(2021)以CycleGAN 為基礎(chǔ)模型,將年齡估計(jì)模塊嵌入到編碼器—解碼器架構(gòu)中,該年齡估計(jì)模塊與圖像生成模塊共享同一個(gè)編碼器,通過統(tǒng)一的網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)目標(biāo)人臉圖像合成。
受到CycleGAN 在多個(gè)領(lǐng)域成功解決圖像到圖像轉(zhuǎn)換問題的鼓舞,Atkale 等人(2022)提出了一個(gè)人臉老化循環(huán)生成對抗網(wǎng)絡(luò)(face aging cycle GAN,F(xiàn)ACGAN)。該網(wǎng)絡(luò)在多尺度特征融合模型中使用了空洞卷積,因?yàn)榭斩淳矸e在多尺度特征學(xué)習(xí)中是最佳方法,它可以比普通卷積處理更多的參數(shù)。
4.3.2 以StyleGAN為基礎(chǔ)模型的方法
Karras 等人(2019)基于風(fēng)格轉(zhuǎn)換思想,提出了一種樣式生成器StyleGAN,實(shí)現(xiàn)了高級屬性(如身份、姿勢)與隨機(jī)噪聲(如雀斑、頭發(fā))的自動(dòng)無監(jiān)督分離。由于AdaIN 操作對每個(gè)特征映射進(jìn)行歸一化,從而潛在地破壞了特征之間的信息,導(dǎo)致Style-GAN 生成的大多數(shù)圖像顯示出類似水滴狀的偽影,作者隨后提出改進(jìn)模型StyleGAN2(Karras 等,2020),通過將歸一化步驟從生成器中移除,使水滴偽影完全消失。
Alaluf 等人(2021)將StyleGAN2 模型應(yīng)用于人臉年齡合成,提出SAM(style-based age manipulation)方法,其編碼器將輸入圖像與目標(biāo)年齡直接編碼為一系列樣式向量輸入到StyleGAN2 中,以生成所需年齡的輸出圖像。SAM 鼓勵(lì)模型學(xué)習(xí)將年齡與其他面部屬性分離的非線性路徑,顯示了在真實(shí)人臉圖像上建模年齡變換的端到端方法的好處。該網(wǎng)絡(luò)的編碼器設(shè)計(jì)與Li 等人(2021)所提方法如出一轍。SAM的合成圖像示例圖如圖11所示。
圖11 SAM的合成圖像示例圖Fig.11 The composite image examples of SAM
4.3.3 其他類型方法
除上述兩種基礎(chǔ)模型外,還有一些其他類型的基于翻譯GAN 的人臉年齡合成方法。Triple GAN(Fang 等,2020)采用三重翻譯損失來模擬不同年齡群體之間年齡模式的強(qiáng)大相互關(guān)系,不同年齡域的漸進(jìn)映射完全相關(guān)。Triple GAN 通過約束不同年齡標(biāo)簽的輸出來保留合成人臉中的身份信息,使身份保持更加穩(wěn)定。Deb 等人(2021)從提高人臉識別性能的角度出發(fā),提出了一個(gè)特征老化模塊用于學(xué)習(xí)低維空間中深度特征的投影,該模塊可以指導(dǎo)生成器輸出老化的人臉圖像。Duan 等人(2022)認(rèn)為同一個(gè)人在不同情緒下的衰老模式是不同的,因此提出了用于人臉老化的跨域人臉屬性學(xué)習(xí)模型DEFNet(different emotional face aging network)。該網(wǎng)絡(luò)不僅可以有效地學(xué)習(xí)不同情感風(fēng)格,還可以生成對應(yīng)的人臉?biāo)ダ蠄D像。
基于條件生成對抗網(wǎng)絡(luò)(conditional GAN,cGAN)的方法一般通過單個(gè)以目標(biāo)年齡(組)為條件的模型來學(xué)習(xí)任何兩個(gè)不同的年齡(組)的映射,在同一框架中同時(shí)實(shí)現(xiàn)人臉老化和年輕化。條件是以標(biāo)簽的形式作用于模型,該標(biāo)簽被轉(zhuǎn)換為獨(dú)熱編碼向量(one-hot code vector),這個(gè)熱編碼向量用于強(qiáng)制網(wǎng)絡(luò)在所需年齡合成人臉圖像。依據(jù)網(wǎng)絡(luò)改進(jìn)方向的不同,將其分為3 類,即基礎(chǔ)型網(wǎng)絡(luò)、改進(jìn)編碼器的網(wǎng)絡(luò)和使用注意力機(jī)制的網(wǎng)絡(luò)。
4.4.1 基礎(chǔ)型網(wǎng)絡(luò)
Song 等人(2018)基于雙條件GAN 機(jī)制提出了一種人臉年齡合成方法AgeGAN,該方法可以從多組不同年齡的未標(biāo)記人臉圖像中訓(xùn)練人臉老化和年輕化。盡管AgeGAN 在面部衰老和年輕化方面取得了令人滿意的成果,但在結(jié)構(gòu)優(yōu)化和合成圖像質(zhì)量增強(qiáng)方面仍有很大的改進(jìn)空間。針對這些問題,Song 等人(2022)進(jìn)一步提出改進(jìn)模型AgeGAN++,改進(jìn)主要體現(xiàn)在以下幾個(gè)方面:1)減少整個(gè)網(wǎng)絡(luò)的規(guī)模,在訓(xùn)練過程中原始條件GAN與雙條件GAN之間共享權(quán)重;2)從潛在身份特征空間中分離年齡信息,只提取個(gè)人身份信息;3)改變AgeGAN 鑒別器中年齡條件的判別形式。AgeGAN++的結(jié)構(gòu)原理圖如圖12所示,其合成圖像示例如圖13所示。
圖12 AgeGAN++的結(jié)構(gòu)原理圖(Song等,2022)Fig.12 The structural schematic diagram of AgeGAN++(Song et al.,2022)
圖13 AgeGAN++的合成圖像示例圖Fig.13 The composite image examples of AgeGAN++
為了在年齡合成過程中保留身份信息,Tang 等人(2018)提出了身份保留條件生成對抗網(wǎng)絡(luò)(identity-preserved conditional GAN,IPCGAN),其身份保留模塊采用ImageNet 預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)提取conv5層的特征,并引入感知損失保證人臉身份一致性。IPCGAN的結(jié)構(gòu)原理如圖14所示。
圖14 IPCGAN的結(jié)構(gòu)原理圖(Tang等,2018)Fig.14 The structural schematic diagram of IPCGAN(Tang et al.,2018)
Huang 等人(2021c)提出的多任務(wù)框架(multitask learning framework,MTLFace)中的人臉年齡合成(face age synthesis,F(xiàn)AS)部分也有同樣的目標(biāo),其結(jié)構(gòu)原理圖如圖15 所示。其身份條件模塊可實(shí)現(xiàn)身份級人臉合成,并采用了權(quán)重共享策略來提高合成人臉的年齡平滑度。
圖15 MTLFace的結(jié)構(gòu)原理圖(Huang等,2021c)Fig.15 The structural schematic diagram of MTLFace(Huang et al.,2021c)
為了利用人臉的全局和局部信息,Li 等人(2018)提出了全局和局部一致的生成對抗網(wǎng)絡(luò)(global and local consistent age GAN,GLCA-GAN)來合成老化或年輕化的人臉圖像。該網(wǎng)絡(luò)的生成器包含1個(gè)全局網(wǎng)絡(luò)和3個(gè)局部網(wǎng)絡(luò),分別用于生成整個(gè)面部結(jié)構(gòu)以及模擬面部關(guān)鍵子區(qū)域的細(xì)微變化。He 等人(2019)提出的S2GAN 模型與GLCA-GAN 有異曲同工之處,可同時(shí)建模人類共有的衰老模式與個(gè)體的衰老特性。
大多數(shù)現(xiàn)有的老化方法僅限于改變紋理,忽略了在人類老化和生長過程中發(fā)生的頭部形狀變化。Or-El 等人(2020)基于此想法提出了一種新的多域圖像到圖像生成對抗網(wǎng)絡(luò)架構(gòu)Lifespan,其學(xué)習(xí)的潛在空間通過改變頭部形狀以及外觀實(shí)現(xiàn)0~70 歲的連續(xù)年齡變換過程。
為了有效地建模非線性的形狀和紋理變換,Huang 等人(2021b)提出AgeFlow,該框架集成了基于流的模型和GAN 的優(yōu)點(diǎn)。而He 等人(2021)提出了一種基于潛在表示分解的人臉年齡合成模型(lifespan face synthesis,LFS)。該網(wǎng)絡(luò)使用條件卷積和通道注意兩個(gè)不同的變換模塊,使合成圖像具有年齡敏感性并保留身份。LFS的結(jié)構(gòu)原理圖如圖16所示。
圖16 LFS的結(jié)構(gòu)原理圖(He等,2021)Fig.16 The structural schematic diagram of LFS(He et al.,2021)
4.4.2 改進(jìn)編碼器的網(wǎng)絡(luò)
Zhang 等人(2017)基于cGAN 方法提出了一種條件對抗式自動(dòng)編碼器CAAE,通過學(xué)習(xí)流形和潛在空間之間的映射合成帶有目標(biāo)年齡標(biāo)簽的目標(biāo)年齡人臉,實(shí)現(xiàn)平滑的年齡進(jìn)展與回歸。
受Intro VAE(variational auto-encoder)的啟發(fā),Li 等人(2020a)提出了一種解糾纏對抗式自動(dòng)編碼器(disentangled adversarial autoencoder,DAAE)用于面部年齡分析任務(wù)。在變分證據(jù)下界和身份知識提取的監(jiān)督下,DAAE將人臉圖像分解為3個(gè)獨(dú)立的因素:年齡、身份和無關(guān)信息。作者認(rèn)為這3 個(gè)因素都是面部衰老的條件,為了充分利用這些條件,提出一種分層條件生成器,通過類條件批量歸一化將分離的身份和年齡向量傳遞到高層和底層。
4.4.3 使用注意力機(jī)制的網(wǎng)絡(luò)
為了將老化效果限制在與年齡變化密切相關(guān)的區(qū)域,Li 等人(2020b)將注意力機(jī)制引入cGAN 來實(shí)現(xiàn)年齡合成。該模型使用兩個(gè)獨(dú)立的生成器對老化及年輕化過程進(jìn)行建模,并以循環(huán)方式對其進(jìn)行聯(lián)合訓(xùn)練。此工作首次將空間注意力機(jī)制引入人臉年齡合成。該方法的合成圖像示例如圖17所示。
圖17 注意力機(jī)制與條件GAN結(jié)合的合成圖像示例Fig.17 The composite image examples of the combination of attention mechanism and conditional GAN
Zhu 等人(2020)基于同樣的思想提出注意力條件生成對抗網(wǎng)絡(luò)(attention conditional GAN,ACGAN),該網(wǎng)絡(luò)在生成器中引入注意力機(jī)制,使其生成老化人臉時(shí),僅修改與人臉老化相關(guān)的區(qū)域。Shi等人(2020)在此網(wǎng)絡(luò)的基礎(chǔ)上引入歸一化,提出了條件注意歸一化生成對抗網(wǎng)絡(luò)(conditionedattention normalization GAN,CAN-GAN)。該網(wǎng)絡(luò)利用兩個(gè)年齡組之間的年齡差異來捕捉具有不同注意因子的面部衰老區(qū)域。條件注意歸一化層能夠通過學(xué)習(xí)的注意力圖增強(qiáng)人臉的年齡相關(guān)信息,同時(shí)平滑人臉的年齡無關(guān)信息。
基于GAN 的方法是一種新興的利用深度卷積網(wǎng)絡(luò)訓(xùn)練模型的方法,雖然訓(xùn)練過程需要花費(fèi)較高的時(shí)間和計(jì)算成本,但這種方法可以生成一個(gè)能應(yīng)用于所有年齡組的單一模型,并且生成的模型可以從一個(gè)年齡組平滑而真實(shí)地過渡到另一個(gè)年齡組,極大地推進(jìn)了人臉年齡合成任務(wù)的進(jìn)展。
綜上所述,使用經(jīng)典GAN 來模擬人臉老化的方法,一方面由于輸入信息考慮不全面,導(dǎo)致身份保留度受影響;另一方面,其在年齡條件的控制下處理所有年齡映射及網(wǎng)絡(luò),生成圖像的年齡精度可能不理想。基于序列GAN 的方法側(cè)重于關(guān)注數(shù)據(jù)集的順序關(guān)系,存在嚴(yán)重的依賴性,如果某一個(gè)模型的輸出出現(xiàn)問題,將會影響到整個(gè)模型的性能。此外,這種方法對數(shù)據(jù)集的要求也較為嚴(yán)格,需要每個(gè)年齡組連續(xù)完整的圖像?;诜gGAN 的優(yōu)點(diǎn)是,它不需要同一個(gè)人不同年齡的大量照片,只需要數(shù)據(jù)集中的每個(gè)年齡組有充足的圖像即可?;跅l件GAN 的方法需要具有清晰正確標(biāo)簽的數(shù)據(jù)集。與基于翻譯和基于序列的方法相比,該方法具有顯著的優(yōu)勢,但條件GAN 十分依賴數(shù)據(jù)集中給定的有限的標(biāo)簽,且難以實(shí)現(xiàn)進(jìn)一步的細(xì)化控制。基于GAN 的方法與傳統(tǒng)方法相比,雖然合成圖像的質(zhì)量有所提升,但仍存在一些難以克服的問題。因此,人們需要進(jìn)一步探索更加優(yōu)秀的人臉年齡合成方法。
目前的研究中,人臉年齡合成方法的效果評價(jià)主要從定性評估和定量評估兩方面進(jìn)行。定性評估主要靠人眼來判斷,一般的做法是開展志愿者調(diào)查(user study),將原始圖像與生成圖像上傳到網(wǎng)站,尋找志愿者對其進(jìn)行打分,最終取平均得分作為模型生成圖像質(zhì)量(image quality)的評價(jià)結(jié)果。由于人的主觀觀念強(qiáng)烈,每個(gè)人的標(biāo)準(zhǔn)是不一致的,導(dǎo)致定性評估不是一個(gè)嚴(yán)格的評判標(biāo)準(zhǔn),只能作為一個(gè)參考。人的視覺檢查在評估低維數(shù)據(jù)時(shí)可以工作地很好,但在高維數(shù)據(jù)的情況下可能有些不盡人意。為了更直觀展示定性對比的結(jié)果,圖18 給出5 種代表方法在MORPH數(shù)據(jù)集上的合成圖像示例。
圖18 5種代表方法在MORPH數(shù)據(jù)集的定性對比示例Fig.18 The qualitative comparison examples of five representative methods on MORPH dataset
定量評估則是從統(tǒng)計(jì)數(shù)據(jù)角度出發(fā),計(jì)算模型的各項(xiàng)指標(biāo)值來對模型進(jìn)行評估分析。與定性評估相比,定量評估更精確、更客觀。因此,本節(jié)將重點(diǎn)對定量評估進(jìn)行介紹。常用的年齡合成評價(jià)指標(biāo)有身份保留度、年齡準(zhǔn)確性、FID(Fréchet inception distance)、結(jié)構(gòu)相似性(structural similarity,SSIM)、PSNR等。
身份保留度通常使用人臉驗(yàn)證實(shí)驗(yàn)獲取人臉驗(yàn)證精度(face verification accuracy,F(xiàn)VA)來衡量。人臉驗(yàn)證實(shí)驗(yàn)的基本方法是,利用在線人臉分析工具,如Face++、VGG-Face、SeetaFace Engine2 的Seeta-Face 識別部分進(jìn)行人臉驗(yàn)證,檢查人臉年齡合成過程中的身份保持情況。來自同一受試者不同年齡(組)的合成圖像之間的驗(yàn)證置信度即為人臉驗(yàn)證精度,人臉驗(yàn)證精度越高表明身份信息保留度越高。
身份相似性分?jǐn)?shù)(identity similarity score,ISS)(Song等,2022)也是身份保留度的一種表現(xiàn)形式,主要通過計(jì)算輸入圖像與合成圖像之間的余弦距離來實(shí)現(xiàn)。身份相似性分?jǐn)?shù)越高,表明身份信息保留度越高。此外,個(gè)別研究還考慮到面部屬性一致性(face attribute consistency,F(xiàn)AC),除身份外,在年齡轉(zhuǎn)換過程中應(yīng)保持穩(wěn)定的面部屬性(如性別、種族等),F(xiàn)AC 值越高,合成人臉圖像的身份信息保留度越高。
年齡合成使輸入人臉圖像轉(zhuǎn)化到目標(biāo)年齡條件,為了證明合成圖像是否正確落入目標(biāo)年齡(組),應(yīng)對其進(jìn)行客觀的年齡估計(jì)以測量合成準(zhǔn)確性。年齡準(zhǔn)確性具體有以下3種表現(xiàn)形式。
1)年齡估計(jì)誤差(age estimation error,AEE)。年齡估計(jì)誤差為每個(gè)年齡組中輸入與合成人臉的年齡分布之間的差異,是一種廣泛使用的評估指標(biāo)。具體來說,通過Face++在線人臉分析工具估計(jì)每個(gè)年齡組中真假人臉的年齡以進(jìn)行公平比較,同一年齡組中真假人臉的平均年齡之間的差異即為年齡估計(jì)誤差。年齡估計(jì)誤差越低,表明合成圖像的年齡越準(zhǔn)確。
2)年齡估計(jì)精 度(age estimation accuracy,AEA)。通過Face++在線人臉分析工具估計(jì)每個(gè)年齡(組)中真假人臉的年齡,計(jì)算各年齡(組)的年齡匹配率,年齡匹配率是合成圖像的預(yù)測年齡是否在正確年齡(組)中的比率,該比率表示為年齡估計(jì)精度。年齡估計(jì)精度值越高,表明合成圖像年齡越精確。
3)平均絕對誤差(mean absolute error,MAE)(Yi等,2015)。平均絕對誤差是指合成人臉圖像的年齡估計(jì)值與目標(biāo)年齡(組)的平均誤差,其定義為
式中,N為合成圖像的數(shù)量,ai為第i幅圖像目標(biāo)年齡,為第i幅圖像的估計(jì)年齡。平均絕對誤差越小,年齡合成方法的性能越好。
FID(Heusel等,2017)是一種通過計(jì)算輸入圖像與生成圖像的特征向量之間距離來衡量兩組圖像的相似度的度量方法。其基本思想是先使用Inception V3 圖像分類模型(Szegedy 等,2016)提取圖像特征,并利用特征函數(shù)將數(shù)據(jù)分布建模為高斯分布,再計(jì)算分布間的距離。FID的定義為
式中,x 和y 分別表示真實(shí)圖像和生成圖像,μ(?)和Σ(?)分別表示x,y 對應(yīng)高斯分布的均值和協(xié)方差矩陣。FID 值越低意味著兩個(gè)分布之間越接近,也就意味著生成模型的效果越好,生成圖像的質(zhì)量越高。
SSIM 是一種基于圖像的亮度l、對比度c和結(jié)構(gòu)s共3 個(gè)方面來評估圖像的相似性的方法。SSIM 考慮人類視覺系統(tǒng)對圖像的評價(jià)結(jié)果,從圖像的結(jié)構(gòu)信息出發(fā)衡量圖像間的相似性。SSIM的定義為
式中,x,y 分別表示輸入圖像與生成圖像,μ(?)、δ(?)和δxy分別表示圖像的均值、方差以及x,y 的協(xié)方差,C1及C2為常數(shù)。輸入圖像和生成圖像越相似,SSIM 值越大,結(jié)構(gòu)相似性越高,即生成圖像的質(zhì)量越高。
峰值信噪比PSNR 即圖像像素信號峰值與噪聲的平均能量之比,是一種基于對應(yīng)像素點(diǎn)間的誤差對圖像進(jìn)行質(zhì)量評價(jià)的指標(biāo)。PSNR 定義為峰值信號能量與均方誤差(mean square error,MSE)之比。給定一個(gè)大小為m×n的輸入圖像x 和生成圖像y,其均方誤差MSE定義為
而峰值信噪比的定義為
式中,m,n分別表示圖像的長和寬,MAXl表示圖像中最大的像素值。輸入圖像與生成圖像越相似,兩者的均方誤差越小,即峰值信噪比越高,生成圖像的質(zhì)量越高。
為了對比基于GAN 的人臉年齡合成方法的優(yōu)劣,對部分基于經(jīng)典GAN、序列GAN、翻譯GAN及條件GAN 的合成方法的性能進(jìn)行對比,結(jié)果如表2—表5 所示。值得注意的是:1)由于人臉年齡合成算法類型較多,無法對各個(gè)方法進(jìn)行完整的性能對比分析,本文僅整理基于GAN 的具有代表性的人臉年齡合成研究方法;2)所有表中使用的數(shù)據(jù)均來自于原文。
表2 基于經(jīng)典GAN的人臉年齡合成方法的性能對比Table 2 The performance comparison of face age synthesis methods based on classical GAN
表3 基于序列GAN的人臉年齡合成方法的性能對比Table 3 The performance comparison of face age synthesis methods based on sequential GAN
表4 基于翻譯GAN的人臉年齡合成方法的性能對比Table 4 The performance comparison of face age synthesis methods based on translational GAN
表5 基于條件GAN的人臉年齡合成方法的性能對比Table 5 The performance comparison of face age synthesis methods based on conditional GAN
從表2—表5中可以發(fā)現(xiàn):
1)生成對抗網(wǎng)絡(luò)可以有效提高人臉年齡合成的質(zhì)量。隨著GAN 及其變體模型的發(fā)展,人臉年齡合成的圖像質(zhì)量有了一定提高。與基于物理、原型、參數(shù)化線性模型及基于時(shí)間架構(gòu)的深度生成模型的方法相比,基于GAN 的方法采用對抗學(xué)習(xí)機(jī)制學(xué)習(xí)年齡映射,生成目標(biāo)年齡圖像,大幅度提高了人臉年齡合成的圖像質(zhì)量。AgeGAN++方法利用雙條件GAN機(jī)制進(jìn)行年齡合成,并引入圖像重建誤差的損失函數(shù)來保留個(gè)人身份,使MORPH 數(shù)據(jù)集上的年齡估計(jì)精度達(dá)到70%,CACD 數(shù)據(jù)集達(dá)到73%,身份相似性分?jǐn)?shù)達(dá)到0.82,取得了優(yōu)異的合成效果。PFAGAN 方法在非線性流形空間考慮年齡合成,采用端到端的方式訓(xùn)練模型,將MORPH 數(shù)據(jù)集的年齡估計(jì)誤差縮小到0.14,CACD 數(shù)據(jù)集縮小到0.11。此外,近年來提出的各方法均能將人臉驗(yàn)證精度近似達(dá)到100%。這些方法表明,充分利用發(fā)展GAN 及其變體模型,并引入合理的損失函數(shù)可以有效提高人臉年齡合成質(zhì)量。
2)雖然生成對抗網(wǎng)絡(luò)方法較其余方法可以提高人臉年齡合成的質(zhì)量,但近些年非受限條件數(shù)據(jù)集逐漸公開,人臉年齡合成的研究重心卻依然停留在受限條件數(shù)據(jù)集,如MORPH、FG-NET數(shù)據(jù)集?,F(xiàn)有方法主要在受限條件數(shù)據(jù)集上進(jìn)行年齡合成研究,各項(xiàng)評價(jià)指標(biāo)均有所提高,有的甚至趨于飽和。此外,CACD 數(shù)據(jù)集作為非受限數(shù)據(jù)集,由于其發(fā)布時(shí)間較早,已經(jīng)得到了廣泛使用,但其余的非受限數(shù)據(jù)集大多還未被研究者們利用起來。僅有少數(shù)研究基于除CACD 以外的非受限條件數(shù)據(jù)集,如Age-GAN++在對比FID 指標(biāo)時(shí)使用了UTKFace 數(shù)據(jù)集。非受限條件數(shù)據(jù)集還沒有被投入太多研究的原因在于非受限條件下的人臉圖像包含各種變化,如光照、化妝、遮擋以及角度等,導(dǎo)致圖像合成質(zhì)量不理想,給年齡合成帶來了巨大挑戰(zhàn),所以非受限條件下的人臉年齡合成在未來有廣闊的發(fā)展空間。
盡管人臉年齡合成研究取得了巨大進(jìn)展,但人臉年齡合成的圖像仍存在圖像質(zhì)量較差、真實(shí)感較低、年齡轉(zhuǎn)換效果和多樣性不足等問題。究其原因,主要是因?yàn)楫?dāng)前人臉年齡合成研究仍存在以下困難:
1)現(xiàn)有人臉年齡合成數(shù)據(jù)集的限制?;谏疃壬删W(wǎng)絡(luò)的人臉年齡合成方法依賴于對數(shù)據(jù)集的訓(xùn)練,數(shù)據(jù)集的數(shù)量和質(zhì)量直接關(guān)系到生成模型的好壞。年齡、性別、種族、表情和分辨率等因素對人臉年齡合成影響較大,因此,為人臉年齡合成任務(wù)建立一個(gè)年齡跨度長、圖像數(shù)量多、圖像分辨率高、年齡分布均衡、區(qū)分種族且標(biāo)簽正確的大型人臉數(shù)據(jù)集是十分必要的。此外,外部因素也是影響數(shù)據(jù)集質(zhì)量的因素之一,例如每個(gè)人的衰老模式并不相同,受生活方式、環(huán)境和疾病的影響,包含這些信息的數(shù)據(jù)集可以為未來的研究提供新的方向。
2)引入人臉年齡合成的先驗(yàn)知識不足。人臉?biāo)ダ鲜且粋€(gè)復(fù)雜的過程,每個(gè)人的衰老模式都不盡相同。人臉老化是一個(gè)時(shí)序過程,存在順序關(guān)系;但現(xiàn)有的方法模型旨在學(xué)習(xí)任意人臉到目標(biāo)年齡人臉的通用轉(zhuǎn)換模型,不僅未考慮年齡間的順序關(guān)系,而且未考慮人臉?biāo)ダ系膭?dòng)態(tài)變化過程,影響了生成人臉年齡圖像的精度,并導(dǎo)致生成的人臉年齡圖像同質(zhì)化嚴(yán)重。一些方法(Liu 等,2019,2021)注重保持人臉身份一致性,將保持人臉屬性的一致性引入人臉年齡合成模型中,通過屬性解耦提升了人臉年齡合成圖像的質(zhì)量,但忽視了人臉其他屬性對人臉年齡合成的影響。所以探索如何從影響人臉年齡合成的內(nèi)在因素中提取隱含的知識,并將先驗(yàn)知識融入到人臉年齡合成方法中是亟待解決的重要問題之一。
3)人臉年齡圖像的細(xì)粒度性被忽視。對人臉年齡合成圖像的細(xì)粒度性問題(趙勛 等,2021)缺乏研究。人臉相鄰年齡類間相似性高、難以區(qū)分,人臉圖像中對年齡敏感的細(xì)節(jié)區(qū)域(如皺紋、頭發(fā)和斑點(diǎn)等位置)對年齡判別影響較大,所以進(jìn)行細(xì)粒度人臉年齡分析是十分必要和可行的。未來研究中可以將人臉年齡合成歸納為一類新的細(xì)粒度圖像生成任務(wù),即生成屬于相同類別但具有明顯細(xì)節(jié)差異的細(xì)粒度圖像。然而現(xiàn)有人臉年齡合成方法均強(qiáng)調(diào)在實(shí)現(xiàn)年齡轉(zhuǎn)換的同時(shí),盡可能保持其他人臉屬性不發(fā)生變化,容易生成同質(zhì)化的人臉年齡圖像,雖然He 等人(2019)提出同時(shí)對人類共有的衰老模式和個(gè)體的衰老特性進(jìn)行建模,但這種個(gè)體衰老特性僅由輸入人臉圖像決定,無法合成多樣性的細(xì)粒度人臉年齡圖像。所以,如何對人臉?biāo)ダ系奶禺愋赃M(jìn)行建模,針對輸入人臉合成多樣的細(xì)粒度人臉年齡圖像,是未來人臉年齡合成研究的重要方向之一。
4)高分辨率下的人臉年齡合成問題。人臉年齡合成過程中的合成圖像質(zhì)量取決于使用的算法。根據(jù)各種方法的性能比較可知,使用與GAN 相關(guān)的人臉年齡合成方法是目前已知方法中效果最好的,但仍有提升空間。一些文獻(xiàn)將金字塔結(jié)構(gòu)(Yang 等,2018)、注意力機(jī)制(Li等,2020b)等引入人臉年齡合成模型中來提升合成圖像的整體質(zhì)量。此外,在未來的研究中,高分辨率下的人臉年齡合成是一個(gè)新的挑戰(zhàn),因?yàn)樘幚砀叻直媛蕡D像需要高計(jì)算成本與高速度設(shè)備,這對尋找資源需求較低且速度更快的算法或方法提出了挑戰(zhàn)。
5)目前人臉年齡合成方法的評價(jià)標(biāo)準(zhǔn)不規(guī)范。在人臉年齡合成領(lǐng)域的模型評價(jià)方法中,雖然有一些比較常用的評價(jià)指標(biāo),但如何綜合且客觀準(zhǔn)確地評價(jià)不同的模型,仍然沒有一個(gè)嚴(yán)謹(jǐn)?shù)囊?guī)范。本文中提到的各模型采用的評價(jià)指標(biāo)參差不齊,難以說明具體哪個(gè)模型更好。因此,在未來的研究工作中,相關(guān)部門機(jī)構(gòu)與學(xué)者可以依據(jù)已有理論制定出一系列合理的評判標(biāo)準(zhǔn),或業(yè)界內(nèi)自主地形成一套通用的主流標(biāo)準(zhǔn)。實(shí)現(xiàn)這一目標(biāo),對人臉年齡合成領(lǐng)域的長遠(yuǎn)發(fā)展來說具有里程碑式的意義。