封順,高勝極
(1.吉林警察學院 刑事科學技術系,吉林長春,130117;2.長春市公安局經(jīng)濟技術開發(fā)分局,吉林長春,130031)
關鍵字:人臉老化;生成對抗網(wǎng)絡;公安領域
科技不斷進步推動著社會的高速發(fā)展,隨著人工智能、大數(shù)據(jù)、云計算在各行各業(yè)快速興起,公安工作也向著智能化、信息化、科技化方向發(fā)展。多樣式的新科學技術手段被引入到公安領域,為智慧警務的建設和公安實戰(zhàn)應用智能化、現(xiàn)代化和高效化的實現(xiàn)提供了有力的技術支撐,如今以DNA鑒定、人臉識別、語音識別、智能監(jiān)控系統(tǒng)、警用大數(shù)據(jù)分析等為代表的新興技術在公安領域發(fā)揮著重要作用。
人臉年齡老化是一個審美的過程,給定一張人臉面部圖像,通過技術呈現(xiàn)老化的變化過程。它經(jīng)常用于人臉識別、醫(yī)學、娛樂行業(yè)和電影特效制作中,未來在公安領域具有廣泛的實際應用價值,例如,預測失蹤或被拐賣兒童長大后的人像、長期在逃人員的人像預測和公安科普教育等。盡管人臉老化是一項富有挑戰(zhàn)性的研究,其物理老化內(nèi)在復雜性、其他因素(如生存環(huán)境、病理等)的干擾以及缺乏有標記的老化數(shù)據(jù)共同使人臉年齡老化成為一個相當困難的問題,但是由于其具有廣泛的應用場景,越來越多的人從事這方面工作。
在過去的幾年里,人們?yōu)榻鉀Q這一問題做出了巨大的努力,老化的準確性和身份持久性通常被認為是人臉老化預測成功的兩個基本前提。目前,用于人臉老化的方法有三種:基于物理模型的方法、基于原型的方法[1]和深度學習[5]的方法。傳統(tǒng)的基于物理模型方法聚焦于皮膚結構變化,機械的模擬輪廓生長和面部肌肉隨時間消逝的變化,通常模型復雜,需要大量的數(shù)據(jù),計算成本較大。隨后有基于原型的方法,利用相鄰年齡組的平均面孔之間的差異來遷移年齡模型,忽略了不同人之間的個體差異,使生成面孔不真實,雖然有老化的跡象,但不能準確的表達老化機理,限制老化的多樣性。
近些年,深度學習以成為研究面部老化的主要方法,有人[9]提出使用深度學習模型中的循環(huán)神經(jīng)網(wǎng)絡(RNN)來處理人臉老化問題,但生成面孔相鄰年齡之間變化較為平滑,身份信息沒有得到很好的保留,而且每個目標人臉在訓練階段需要多個不同年齡人臉圖像,并在測試過程中需要更準確的人臉年齡標簽,極大地限制了它的靈活性。生成對抗網(wǎng)絡是當今比較流行的深度學習模型,其衍生出的各種變體在人臉老化方面有著很好的效果,在生成高質量人臉圖像方面展現(xiàn)出了巨大優(yōu)勢。條件對抗自編碼(CAAE)是GANs的一種變體,將人臉圖像編碼為高維流行,然后將年齡作為條件加入到生成器中重建人臉老化圖像,不同年齡下衰老面孔的變化似乎不大。PA-GANs[4]強調(diào)了整個面部的前額和頭發(fā)對感知年齡有著顯著影響,利用深層網(wǎng)絡的固有層次結構,設計金字塔結構的判別器,建立基于人臉分析工具的評價和對表情、姿態(tài)、妝容變化的不敏感性評價的新驗證試驗。現(xiàn)有的老化方法大多局限于改變?nèi)四樀馁|地(如皺紋),忽視了人體在老化和生長過程中頭部形態(tài)的變化,這就限制了以前的方法對成年人老化處理的適用性,而這些方法對兒童人像的應用也不能產(chǎn)生高質量的結果,壽命年齡轉換合成方法[14]就很好的解決了此類問題。
本文主要針對基于生成對抗網(wǎng)絡的人臉老化技術在公安領域應用進行探討和研究,首先介紹了人臉老化技術研究發(fā)展的相關背景,然后對GANs和當今比較流行的三種用GANs進行人臉老化的方法進行簡要概括,接下來主要對人臉老化技術在公安實戰(zhàn)領域的應用前景進行了探究,并闡述了人臉老化在公安應用面臨的諸多困境,最后對人臉老化技術未來研究方向和應用領域進行了展望。
生成對抗網(wǎng)絡(Generative Adversarial Networks,GANs)[6]已廣泛應用到圖像生成中。經(jīng)典GANs網(wǎng)絡包含生成器G和判別器D,受博弈論中的二人零和博弈的啟發(fā),二者通過對抗過程來交互訓練優(yōu)化。生成函數(shù)G嘗試去捕獲目標數(shù)據(jù)分布并迷惑判別器D,判別器D優(yōu)化自身性能來提升辨別性,能夠區(qū)分生成器G生成的假人臉和自然人臉圖像。G和D都可以近似為神經(jīng)網(wǎng)絡,如多層感知機(MLP)。目標函數(shù)為:
z是來自先驗概率分布Pz的噪聲樣本,x表示來自某個分布Pdata的一個真實人臉圖像。在收斂中,合成圖像的分布Pg將等價于Pdata。
圖1 用于年齡progression/regression的CAAE網(wǎng)絡結構
圖2 金字塔結構的生成對抗網(wǎng)絡的結構
Zhang等人在2017年提出了條件對抗自編碼(C onditional Adversarial Autoencoder, CAAE),實現(xiàn)了人臉圖像年齡預測(老化)和回溯(年輕化);不同于基于組學習方式,不需要在訓練數(shù)據(jù)中有配對的樣本或在測試數(shù)據(jù)中標注的人臉,使得框架更加靈活;映射后的潛在向量中的年齡和個體的分離,有助于身份特征的保留,同時避免了重影現(xiàn)象。
CAAE網(wǎng)絡共分為四部分,編碼器E、編碼器上的判別器Dz、生成器G和判別器Dimg。假設人臉圖像x位于一個高維流行上,人臉首先通過條件編碼器E映射到低維空間上(潛在向量)得到身份特征z,然后將身份體征與年齡標簽l相關聯(lián),通過卷積神經(jīng)網(wǎng)絡生成器G映射到基于年齡人臉流行M上生成一系列人臉圖像。Dz的目的是對編碼器E產(chǎn)生的z進行鑒別,使其服從均勻分布,均勻填充潛在空間,不會出現(xiàn)明顯“空穴”。判別器Dimg通過最小化輸入—輸入人臉的距離,迫使生成器產(chǎn)生出更真實的人臉。
CAAE實現(xiàn)較為平滑的人臉年齡預測和回溯,但老化面孔變化不大,且判別器的表達能力不足,只呈現(xiàn)了粗糙的皺紋。
2018年,Yang等人提出了一個新穎的基于GANs的人臉年齡老化方法:金字塔結構的生成對抗網(wǎng)絡(A Pyramid Architecture of GANs, PA-GANs),該方法涉及人臉驗證和年齡估計技術,以耦合的方法解決了年齡老化效果生成和身份信息保持的關鍵問題。強調(diào)與感知年齡密切相關的前額和頭發(fā)部分的重要性。為了產(chǎn)生細膩的老化細節(jié),利用深層網(wǎng)絡的固有層次結構,設計了一種金字塔結構的判別器,以細顆粒度的方法估計高層次的老化面部表象。
PA-GANs分為三個模塊,生成器G、判別器D和身份保留模塊。生成器是編碼器和解碼器的結合,首先三個卷積層將輸入年輕人臉編碼到一個潛在空間,然后由4個殘差快構成輸入和輸出結構的人臉,能共享共同結構。最后,通過三個轉置卷積層來實現(xiàn)對目標圖像空間的年齡變換,得到給定年輕人臉為條件的人臉年齡老化結果。為了獲取更有說服力和更生動的特定年齡面部細節(jié),將實際年輕面孔和生成年齡老化的面孔都作為負樣本,真實老年人臉為正樣本輸入到判別器D中。采用預訓練VGG-16網(wǎng)絡,并移除了全連接層作為特征提取器Φage。自然圖像具有多尺度特征和多層結構,Φage捕捉屬性逐漸從精確像素值到特定年齡段高層語義信息。金字塔層次結構的判別器D對面部特征在多個尺度上聯(lián)合估計,以細顆粒度的方式生成人臉年齡老化效果。人臉年齡老化的另外一個核心問題是保持身份信息穩(wěn)定,PA-GANs利用預訓練的深度面部網(wǎng)絡Φid對個性化身份信息進行編碼,測量輸入—輸出的距離來引入相關約束條件。
經(jīng)過大量的實驗,判別器的金字塔結構促進了老化效應的產(chǎn)生,使老化的人臉更加自然,對表情、姿態(tài)、妝容變化具有一定的魯棒性。
2020年來自斯坦福和華盛頓大學的研究員近期發(fā)表一篇以GANs為基礎的新方法:壽命年齡轉換合成(Lifespan Age Transformation Synthesis),旨在從一個單一的輸入圖像模擬連續(xù)老化的過程。這個算法被設計用來預測衰老的全過程,并在一個人的整個生命周期中生成近似的外觀。最初的主要用例是用于藝術和娛樂(CGI效果,相機濾鏡等),但這種方法還可以用于更關鍵的公安領域,例如模擬失蹤和被拐賣人口的外觀等。
壽命年齡轉換合成的主要目的是生成一個人在廣泛的年齡范圍內(nèi)頭部形狀及人臉面部的變化,采用多域圖像轉變生成對抗網(wǎng)絡結構,由條件生成器、判別器和年齡編碼器構成。條件生成器負責跨年齡組的轉變,由身份編碼器、映射網(wǎng)絡和解碼器三部分組成。身份編碼器Eid:將人像x作為輸入,提取出身份特征張量Wid,Wid=Eid(x)。這些特征包含人像局部結構和人臉一般形狀信息,在生成相同身份人像時起到了關鍵作用。映射網(wǎng)絡M→Wage:當給定目標年齡時,從預先定義的分布中得到年齡編碼向量z,使用映射網(wǎng)絡將其映射到統(tǒng)一年齡潛在空間Wage中,wage=M(z),此潛在空間近似于連續(xù)的年齡變換。解碼器F:將年齡潛在編碼和身份特征輸入到解碼器中,產(chǎn)生輸出圖像y = F(Wid,Wage) 。年齡編碼器強制將輸入人像x映射到年齡向量空間z中的正確位置上,產(chǎn)生一個年齡向量Zs=Eage(x)對應于人像x的原始年齡組s,年齡編碼器需要獲取更多全局數(shù)據(jù)來編碼一般性的外觀,而不管身份特征。判別器:使用具有小批量標準差的StyleGAN[13]判別器,并修改最后的全連接層,使其具有n個輸出能區(qū)分多類別。該方法的架構和訓練方案如圖3所示,最終損失函數(shù)為:
圖3 壽命年齡轉換合成架構和訓練方案圖
其中λ為權重參數(shù),Ladv(G ,D)為對抗損失,Lrec(G)為自我重建損失,Lcyc(G)為循環(huán)損失,Lid(G)為身份特征損失,Lage(G)為年齡向量損失。
壽命年齡合成轉換方法是一種新的多域圖像生成對抗網(wǎng)絡結構,其學習潛空間模型是一個連續(xù)的雙向的老化過程。該網(wǎng)絡是在FFHQ數(shù)據(jù)集上進行訓練的,固定年齡類別被用作錨定來近似連續(xù)年齡轉換。通過一張照片預測0-70歲年齡段的完整頭像,同時修改頭部的紋理和形狀。圖4展示了在不同種族、性別、年齡、表情情況下都得到的很好的效果。
圖4 壽命年齡轉換合成預測雙向年齡轉換示例圖
在非公安領域,人臉老化技術被應用于電影特效制作[3]、數(shù)字娛樂、美妝護膚、美容整形等行業(yè)中。隨著深度學習不斷發(fā)展,人臉老化技術愈發(fā)成熟,也可以將其應用到公安領域,如模擬失蹤和被拐賣人口的外觀、長期潛逃犯罪嫌疑人的人臉預測、公安科普教育宣傳、時間跨越較長案件串并、處理舊案積案、無名尸源尋找等實戰(zhàn)應用。
目前我國尋找長期失蹤或被拐賣人口的尋找方法單一,效率低下,網(wǎng)上發(fā)布信息需要甄別真假以防被騙,線下尋找需要大量人力物力,耗時耗力。由于失蹤或被拐賣人口跨越時間較長,人臉容貌以發(fā)生變化,這給公安機關利用人臉庫進行比對帶來很大難度,人臉老化技術給這個難題帶來新的解決途徑。公安機關可根據(jù)現(xiàn)有失蹤或被拐賣人口人像和時間,利用人臉老化技術進行人臉預測或回溯,在利用人臉識別技術在全國人臉庫中進行匹配,進行有針對性的尋找,成功率會得到提升,尋找信息也不會在社交網(wǎng)絡中傳播,減少網(wǎng)絡詐騙等行為發(fā)生。
隨著“獵狐行動”、“清網(wǎng)行動”、“天網(wǎng)行動”等一系列全國性追逃專項行動的開展,均取得了的良好的戰(zhàn)果,社會環(huán)境得到了有效治理。但由于各種案件中在逃嫌疑人基數(shù)之大以及追逃工作的艱巨,追捕在逃嫌疑人是偵查部門的一項常態(tài)化與專項性工作。由于犯罪嫌疑人長期潛逃,公安部門只能根據(jù)犯罪嫌疑人早年間的照片進行抓捕,但實際上隨著時間的流逝,犯罪嫌疑人的面容比較之前已經(jīng)發(fā)生了一些變化,使用與事實不符的照片無疑對案件調(diào)查造成了困難。在這種情形下,通過人臉進行老化合成獲取犯罪嫌疑人人臉面容變化后的人像,可以降低案件偵破難度,大大縮短犯罪嫌疑人的抓捕時間。
人臉老化在公安科普教育也可發(fā)揮重要的作用,例如禁毒教育。人臉老化技術在禁毒主題宣傳活動中有著廣泛的應用前景,通過還原吸毒者吸毒前的容貌,或者預測吸毒后的面容進行比對,直觀地展示毒品對人體造成的傷害,讓體驗者更加深刻地認識毒品的危害。2019年,廣州市天河區(qū)禁毒委員會舉辦“6·26”國際禁毒日大型禁毒宣傳活動,也用到了人臉老化互動。體驗者站在互動屏幕前,通過手勢互動,屏幕上即出現(xiàn)了吸毒前以及吸毒2年、5年和10年后的形象變化,體驗者面容立刻變得憔悴而衰老。這種形式的宣傳會使群眾接受度比較高,公安科普教育效果較好。
連續(xù)性的殺人、盜竊、強奸、搶劫等案件會給公共社會安全帶來極大的危害,尤其是案件跨越時間較長,懸而未決的多起案件會造成恐慌,社會輿論反映強烈。由于單個案件中,現(xiàn)場提取物證較少,線索缺失較多等情況致使無法進行案件串并。人臉老化技術可以作為傳統(tǒng)方法的增補,可將不同案件中犯罪嫌疑人的人像進行前向預測(老化)和后向回溯(年輕化),合成后的人像進行相互匹配和比對,查驗出相似人員的身份信息及已連續(xù)作案信息,達到串并案件的目的。
建設社會主義法治中國,是建設富強民主文明和諧的社會主義現(xiàn)代化國家的重要目標之一,人們對社會公平正義的呼聲越來越高,各級公安部門越來越重視沉積舊案的處理。隨著時間的流逝,犯罪嫌疑人因為年齡的增長人臉面部容貌已發(fā)生變化,或為了逃避追捕,已改變了身份。人臉老化技術可預測特定年齡條件下犯罪嫌疑人的人像,為下一步人臉比對提供可靠的比對素材,也為處理舊案積案提供一種新戰(zhàn)法。
一些案件中無名尸體現(xiàn)場留下的身份信息較少,通常通過提取指紋信息進行身份識別,或者提取尸體重點部位DNA與信息庫比對確定死者身份,也可以使用虹膜作為身份認定[2],但是對死者死亡時間有嚴苛要求。人臉識別也可作為身份確認補充手段,由于人死后會出現(xiàn)“肌肉遲緩”現(xiàn)象,這會嚴重影響人臉識別準確率。通過人臉老化技術進行人像回溯,合成較為年輕的人臉,在到人臉庫中進行比對,這樣可大大提升識別準確率。
隨著近些年來GANs的火熱發(fā)展,越來越多的學者也進入到人臉老化研究的隊伍中,目前此領域仍是一項富有挑戰(zhàn)性的研究,其在公安領域有著廣泛的應用前景,但也面臨一些困境。
當前的人臉老化技術都基于人臉正面進行研究,然而公安實戰(zhàn)應用中會遇到多樣化情形,采集到的犯罪嫌疑人人臉出現(xiàn)非正面、部分遮擋、光線暗等情況,這使得基于生成對抗網(wǎng)絡的人臉老化技術無法針對特定領域開展,適用性較低,是人臉老化合成邁向公安實戰(zhàn)應用的實施阻礙。當前,基于深度學習的人臉矯正技術[10]和人臉去遮擋技術[4]的不斷發(fā)展,給特定場景下人臉老化技術提供了一個新的解決途徑。
高分辨率人臉圖像是人臉老化技術中面部衰老特征信息量的保證,也是生成圖像質量的前提。然而在公安實戰(zhàn)中人臉圖像受采集設備、拍攝環(huán)境、傳輸條件等限制,不乏出現(xiàn)一些低分辨率人臉圖像,阻礙了人臉老化技術對面部衰老特征的提取,進而影響最終老化合成圖像的效果,使得老化人臉圖像無法逼近真實衰老的人臉。近年來,基于深度學習的人臉超分辨率技術可以對低質量人臉圖像進行有效合理的重建,降低了低分辨率圖像對人臉老化的影響。
當前人臉老化算法常用的數(shù)據(jù)集有CACD[7]、MORPH[8]、FFHQ等,包含了種族、性別、年齡、表情、姿態(tài)等情況的大量人臉圖片。但人在成長過程中人臉面容變化會受到非人為因素的影響,如環(huán)境、氣候、病理等,這些因素很大程度上都會影響人臉面容的變化走向。人臉老化技術合成的人臉圖像都是建立在數(shù)據(jù)庫信息基礎上,沒有考慮外界因素對人臉衰老的影響,所預測人像和現(xiàn)實人臉面貌會有所不同,但同一人人臉身份特征保持不變,對公安實戰(zhàn)應用仍具有重要價值。
雖然當前流行的人臉老化算法對人臉預測和回溯有很好的效果,并且對光照、姿態(tài)、表情具有很強的魯棒性,但是在推廣至其他情形下還會存在局限性,如極端姿態(tài)、眼鏡去除、臉部大范圍遮擋、濃密胡須等。這些都會使人臉老化技術在公安實戰(zhàn)應用出現(xiàn)一些不確定性因素,需要研究者在今后對算法結構進一步優(yōu)化,增強其泛化能力。
本文從人臉老化具有廣泛前景應用開始論述,介紹了傳統(tǒng)的基于原型的方法和基于物理模型的方法,并簡要描述了基于RNN的人臉老化方法和GANs在人臉年齡老化領域的發(fā)展。接下來詳細的闡述了GANs和三種當今比較流行的基于生成對抗網(wǎng)絡的人臉老化方法—CAAE、PA-GANs和壽命年齡轉換合成。然后結合當前公安實際探究了人臉老化技術在預測長期失蹤或被拐賣人口的人像、長期潛逃犯罪嫌疑人的人像預測、公安科普教育宣傳、時間跨越較長案件串并、處理舊案積案、無名尸源尋找等方面的實戰(zhàn)應用場景。最后對人臉老化技術在公安應用中面臨的特定場景適用性較低、人像低分辨率影響老化結果、人臉面容變化受外界因素影響、人臉老化算法局限性等困境進行了說明。
人臉老化是一個涉及計算機視覺、計算機圖形學、模式識別、圖像處理等多學科的研究方向,是一項極具挑戰(zhàn)性的研究,雖然在部分技術研究領域取得了一定的進展,但仍存在許多問題難以解決,還有很多領域需要突破。人臉老化技術的發(fā)展之路還很漫長,一些技術難題仍需要科研人員齊力攻關,如非正面視覺圖的人臉老化合成、超分辨率人臉老化、人臉年齡數(shù)據(jù)集收集、年齡偏見等難題。隨著人臉老化技術的不斷發(fā)展和取得令人滿意的結果,其在公安應用領域具有很大的開發(fā)價值,在刑事偵查、公安科普宣傳教育等有著很好的應用前景,未來還可以向對犯罪嫌疑人手繪圖的人臉老化合成、出入境檢查、人像同一認定等領域拓展。隨著人臉老化技術的不斷發(fā)展,與公安實戰(zhàn)應用其他新型技術不斷融合,未來將為公民營造安全、和諧的社會環(huán)境做出巨大的貢獻。