潘思宇 ,陳詩婷 ,唐 鯤 ,李彩霞 ,劉 京 ,葉 健 ,趙雯婷
(1.中國人民公安大學(xué),北京 100038;2.公安部物證鑒定中心 北京市現(xiàn)場物證檢驗工程技術(shù)研究中心 現(xiàn)場物證溯源技術(shù)國家工程實驗室,北京 100038;3.中國科學(xué)院上海生命科學(xué)研究院,上海 200031)
基于DNA的三維面貌刻畫是法醫(yī)遺傳學(xué)領(lǐng)域發(fā)展起來的新技術(shù),通過檢驗人類DNA序列中的遺傳標記,結(jié)合種族、性別及年齡等人類相關(guān)生物特征重建人臉面貌。當短串聯(lián)重復(fù)(short tandem repeat,STR)序列個體識別技術(shù)沒有比中任何信息時,基于DNA的三維面貌刻畫技術(shù)有望為案件提供新的偵查線索。在三維面貌刻畫過程中,年齡和衰老是影響面貌刻畫真實性及可辨認性的重要因素[1-2]。人臉年齡估計就是通過提取與年齡相關(guān)的臉部圖像特征,構(gòu)建年齡特征模型,對輸入的待測圖像的年齡或年齡范圍進行推測[3]。除年齡外,疾病、種族、性別、生活方式及環(huán)境地域等因素也會影響人面部衰老的進程[4-6]。由于這些難以完全量化的因素,人臉識別系統(tǒng)的準確率和魯棒性并不是很高,這也使得臉部衰老進程研究成為人臉識別領(lǐng)域的挑戰(zhàn)[7]。
由于人臉年齡模型的建立在刑事偵查、未成年人保護、失蹤人口追蹤及動畫、電影制作等諸多領(lǐng)域具有巨大的潛在應(yīng)用價值,國內(nèi)外研究機構(gòu)對此進行了眾多的深入研究,如國外的延世大學(xué)[8]、杜倫大學(xué)[9]、西弗吉尼亞大學(xué)[10]以及國內(nèi)的華中科技大學(xué)[11]、天津大學(xué)[12]、中南大學(xué)[13]、中國科學(xué)院上海生命科學(xué)研究院[14]等在人臉年齡模式研究中取得了較好的成果。人臉年齡估計的主要步驟分為圖像預(yù)處理、面部特征標示和年齡估計模型構(gòu)建,其中后兩者是研究人員關(guān)注的重點[15]。圖像預(yù)處理主要是通過對圖像的灰度化、尺度歸一化等弱化非年齡因素的干擾[16],是重要的基礎(chǔ)工作。面部特征標示是通過分析面部形態(tài)隨著年齡的變化趨勢,將圖像中與年齡相關(guān)的特征提取出來[17]。年齡估計模型則是利用年齡標簽的離散性與連續(xù)性特征,使用分類、回歸或二者相結(jié)合的混合算法[18]建立的。例如,基于仿生學(xué)特征(bio-inspired features,BIF)[19]提取人臉年齡特征,使用支持向量機(support vector machine,SVM)[20]學(xué)習(xí)年齡估計模型。
早期研究主要使用二維人臉圖像來評估年齡[9,21]。隨著三維成像技術(shù)的發(fā)展,許多三維成像儀器,如Artec Spider、3dMDface等被應(yīng)用到三維人臉圖像研究中[14,22]。相比于二維圖像,用三維人臉圖像分析診斷疾病、比較種族面貌形態(tài)、年齡估計更加精細化[23-24]。在我們的前期研究[14]中,以300多張中國漢族人群面部三維圖像為研究對象,發(fā)現(xiàn)了一系列人臉衰老相關(guān)的形態(tài)特征,構(gòu)建了一張人臉年齡變化圖譜,并基于此進行人臉年齡估計及人臉年齡圖像推測。
為研究不同人群衰老特征的差異,并驗證該模型在其他人群中的使用效果,本研究選取了中國典型亞歐混合人群——維吾爾族人的三維人臉圖像,計算不同年齡段樣本平均臉,觀察平均臉隨年齡變化的老化趨勢,通過偏最小二乘回歸(partial least square regression,PLSR)法[25]將采集的三維圖像與年齡做回歸分析,并進行年齡估計,以臉部回歸系數(shù)熱圖展現(xiàn)臉部不同區(qū)域?qū)δ挲g模型的影響程度,基于該年齡模型重塑個體更年輕及更年老時的圖像。
采用Artec Spider掃描儀(盧森堡Artec 3D公司)采集新疆地區(qū)維吾爾族男性105人的人臉圖像,年齡范圍為18~57歲(年齡通過采樣年與出生年之差得到),平均年齡35.82歲,BMI為18~24,無影響臉部發(fā)育或臉部形態(tài)的遺傳、代謝或其他疾病,未做過面部整形手術(shù)或化妝。所有志愿者依照公安部物證鑒定中心倫理委員會規(guī)定簽署知情同意書。
采集過程中,志愿者保持端正的坐姿及中性的面目表情,采集者手持Artec Spider掃描儀通過調(diào)整儀器與志愿者的距離,使Artec Studio軟件(盧森堡Artec 3D公司)中呈現(xiàn)人臉圖像,從志愿者一側(cè)的耳部經(jīng)過面部至另一側(cè)耳部進行面部圖像的掃描,得到完整三維臉部圖像。根據(jù)年齡將上述樣本分為5組(表1)。
表1 觀察對象年齡分布 (N=105)
(1)通過設(shè)定Artec Studio軟件中的參數(shù)對原始三維圖像進行預(yù)處理,去除圖像噪聲,生成紋理尺寸為 1024px×1024px(長×寬)的人臉圖像。
(2)基于中國科學(xué)院唐鯤研究組[26]提出的高精度全自動非剛性人臉配準方法,利用其自主研發(fā)的FaceAnalysis軟件(中國科學(xué)院上海生命科學(xué)研究院)實現(xiàn)高通量批次處理人臉圖像。該方法主要是基于主成分分析(principal component analysis,PCA)投影的方法,自動識別并標記解剖學(xué)上面部顯著凸起的15個特征點[左外眼角、左內(nèi)眼角、右內(nèi)眼角、右外眼角、鼻尖點、鼻根點、左鼻翼端點、右鼻翼端點、鼻下點、右唇角、左唇角、口裂點(上、下唇閉合時,口裂的正中點)、上唇點、下唇點、下巴(頦)點]。由于特征點自動識別標記誤差的大小影響后續(xù)人臉模型的建立,因此需要通過3dMDpatient軟件(美國3dMD公司)對存在較大偏差的特征點進行人工調(diào)整校準[14]。
(3)利用FaceAnalysis軟件以選定圖像完整且質(zhì)量較好的樣本臉或平均臉作為參考臉,在15個特征點的匹配下,使參考臉覆蓋包裹在每個樣本臉上,使臉部之間建立解剖學(xué)結(jié)構(gòu)對應(yīng),將參考臉上的致密網(wǎng)格點一一對應(yīng)投射至每個樣本臉上,依次重新定義每個樣本臉上的網(wǎng)格點,參考臉及15個面部特征點見圖1。由于使用的是同一張參考臉,所以重新獲得的三維人臉數(shù)據(jù)點與原始圖像是一致的。通過以上步驟使每個樣本可被32 251個點所表示,每個點都具有相應(yīng)的x、y、z軸坐標值,形成 3×32 251 的數(shù)據(jù)矩陣,經(jīng)矩陣轉(zhuǎn)換,最終每個樣本用1×96753的形狀向量所表示。
圖1 參考臉及15個面部特征點
(4)通過廣義普魯克分析(generalized Procrustes analysis,GPA)法[27]對所有三維人臉圖像中心化校正,并將所有樣本臉統(tǒng)一到同一坐標系中以備后續(xù)分析使用。
通過上述處理,每張人臉圖像可使用1×96753的形狀向量所表示,即每行數(shù)據(jù)代表一個樣本臉。將每個樣本臉的形狀向量逐行添加形成包含一定樣本量的人臉矩陣,對矩陣中所有樣本臉對應(yīng)維度上的數(shù)據(jù)進行算數(shù)平均,得到該樣本量下的平均臉。
本研究應(yīng)用PLSR建立三維人臉圖像數(shù)據(jù)與年齡的回歸模型,PLSR用于年齡估計的形式如下:
每一個樣本Xi用包含x、y、z軸坐標n個頂點的形狀向量所表示,將人臉數(shù)據(jù)作為自變量X,年齡作為因變量Y,基于R軟件中的“pls”包[28]建立回歸模型。
年齡估計使用留一法(leave one out,LOO),每次取出一個樣本作為測試集,其余的樣本作為訓(xùn)練集來訓(xùn)練模型,隨后用該模型預(yù)測測試樣本的年齡。
熱圖主要是用顏色變化來反映二維矩陣或表格中的數(shù)據(jù)信息,可以直觀地將數(shù)據(jù)值的大小以定義的顏色深淺表示出來。本文為展現(xiàn)臉部不同區(qū)域?qū)δ挲g估計模型的影響程度,基于R軟件中的“rgl”包[29],選用回歸系數(shù)在樣本平均臉上繪制臉部熱圖。主要從構(gòu)建的年齡估計PLSR回歸方程中提取回歸方程的系數(shù),將色域定義為藍色至紅色并均分為100份,從X、Y、Z三個方向?qū)⒒貧w方程系數(shù)按照大小映射到色域范圍中,并呈現(xiàn)在人臉圖像上。
模型預(yù)測準確性的評價指標主要有實際年齡與估計年齡之間的Pearson相關(guān)系數(shù)(Pearson correlation coefficient,PCC)及平均絕對偏差(mean absolute deviation,MAD),公式分別如下:
其中,x、y為數(shù)據(jù)對象,N為變量取值個數(shù)。
基于構(gòu)建人臉圖像與年齡的PLSR回歸模型,為便于研究,我們假設(shè)人臉隨時間的變化是線性的,即一個人在時間長度相等的年齡段,人臉形狀向量的向量差相等,因此,存在一個反映人臉隨時間變化的老化向量Aging Vector(Vage),則可以將人臉形狀向量表示為時間的函數(shù) X(t):
式(4)中,Δt為時間長度。
將年齡與三維人臉數(shù)據(jù)矩陣的PLSR回歸模型表示為:
將公式(4)帶入公式(5),則有:
得到:
假定人臉隨年齡的變化是一個最小的變化,即||Vage||最小。應(yīng)用拉格朗日乘子法求解 s.t.Vage×β=1,min(||Vage||)。 解得:
Vage是一個1×96753的向量。通過以上計算,根據(jù)PLSR回歸模型的回歸系數(shù)向量,得到了該群體人臉隨時間變化的老化向量。通過在個體樣本臉或者平均臉上添加老化向量Vage與時間長度Δt的累積變化量Vage×Δt,可以重構(gòu)不同時間長度的年輕臉或衰老臉。
根據(jù)以上原理,本研究隨機選擇實際年齡分別為35、44、50、53、57 歲的樣本,分別推測、重構(gòu)其年輕10、20歲和變老10、20歲的三維臉部圖像。
2.1.1 圖像預(yù)處理
如圖2,其中圖2A為Artec Spider掃描儀采集的原始三維人臉圖像,通過Artec Studio軟件進行降噪整合處理獲得紋理尺寸為1 024 px×1 024 px的人臉圖像(圖2B),通過FaceAnalysis軟件對所有樣本的15個面部特征點批量逐點自動識別標記,在臉部圖像中生成綠色標記點,并經(jīng)參考臉配準移除非面部區(qū)域獲得人臉圖像(圖2C)。
圖2 圖像預(yù)處理過程
2.1.2 樣本平均臉
根據(jù)前述年齡分組,將各組每個樣本臉1×96753形狀向量逐行添加,形成各年齡組包含多個樣本人臉的數(shù)據(jù)矩陣,對各自矩陣中所有樣本對應(yīng)維度上的數(shù)值進行算數(shù)平均,得出五組不同年齡段的正、側(cè)面平均臉。不同年齡段的平均臉反映人臉衰老的平均趨勢。如圖3所示,隨著年齡的增加,平均臉呈現(xiàn)鼻唇溝加深、臉頰凹陷、顴骨突出、眼角下垂等衰老特征。
圖3 不同年齡段維吾爾族男性樣本的平均臉
2.1.3 年齡估計
使用PLSR方法建立人臉數(shù)據(jù)與年齡的回歸模型,由于人臉數(shù)據(jù)的高維性及復(fù)雜性,為減小變量間的相關(guān)性及建模復(fù)雜度,以最少的變量最大程度地解釋人臉變異。在回歸模型中,使用10折交叉驗證計算不同PLSR成分個數(shù)下驗證集的MAD,當選定10個與年齡相關(guān)的PLSR成分時,MAD最小,可以解釋該群體中臉部83.35%的變異。實際年齡與估計年齡之間的 PCC為0.71(P<0.05),估計年齡與真實年齡之間的MAD值為6.37歲。從圖4可以看出,散點絕大多數(shù)分布在直線的兩側(cè),年齡估計結(jié)果較為準確。如表2,所有年齡組中,>30~40歲人群的年齡估計的MAD(4.27歲)和標準差(3.23歲)均最小,表明該年齡組年齡估計的準確度相對于其他年齡段較高。
2.1.4 年齡估計模型回歸系數(shù)熱圖
為展示臉部區(qū)域?qū)δ挲g估計模型的影響,使用PLSR回歸方程中的系數(shù)在樣本平均臉上繪制臉部熱圖(圖5)。為便于表示,熱圖標尺上的回歸系數(shù)乘以10000。圖5中x、y、z軸分別從橫向、縱向、凹凸三個不同的方向表示臉部不同區(qū)域?qū)δ挲g估計的影響。鼻唇溝的寬度(x軸)、人中長度(y軸)、顴骨的高低(z軸)、嘴唇周圍臉頰的凹陷程度(z軸)等區(qū)域顏色與其他區(qū)域顏色相比,均較深。
5個樣本變年輕10、20歲和變老10、20歲的三維臉部圖像(圖6)顯示:合成年老化的人臉時,臉部形態(tài)會呈現(xiàn)明顯的臉頰凹陷、紋路加深及軟組織下垂等衰老特征;合成年輕化的人臉時,衰老特征會消失,臉部已有的下垂、凹陷等狀況有所改善,臉部在視覺上更加平滑、飽滿。
圖4 PLSR年齡估計模型的預(yù)測效果
表2 不同年齡段樣本年齡估計的MAD和標準差(歲)
圖5 PLSR年齡估計模型的回歸系數(shù)熱圖
圖6 對5個個體進行基于年齡模型的人臉合成
基于人臉年齡估計和年齡面貌重構(gòu)是近年來計算機視覺領(lǐng)域和圖像處理領(lǐng)域的研究熱點,未來機器學(xué)習(xí)將是法醫(yī)圖像識別的主要研究方向之一,在刑偵、法醫(yī)、信息等領(lǐng)域有著巨大的潛力和應(yīng)用價值。比如:公安刑偵部門可以根據(jù)早期人臉圖像推測現(xiàn)年齡人臉圖像,提高偵查效率;為失蹤人口的查找提供搜尋方向;為法醫(yī)圖像年齡推斷及研究人類面部老化特征提供重要依據(jù)。
人臉特征很大程度上由遺傳因素決定,然而由于發(fā)育、衰老等進程會使臉部形態(tài)產(chǎn)生明顯的改變,給基于圖像視頻技術(shù)的人臉識別、基于遺傳關(guān)聯(lián)的人臉特征刻畫帶來了技術(shù)上的難題,削弱了兩項技術(shù)在實際應(yīng)用中的有效性。本研究通過觀察三維人臉形態(tài)特征變化與年齡之間的關(guān)系,建立了年齡估計模型,并嘗試對個體不同年齡階段的臉部形態(tài)進行合成,以期能為臉部年齡特征變化問題提供解決方法。
PLSR是一種多元統(tǒng)計分析方法,在人臉數(shù)據(jù)及年齡建立回歸模型的過程中,既可以提取人臉數(shù)據(jù)中的主成分,又能使主成分與年齡間的相關(guān)性最大化,同時該算法對三維人臉樣本觀測數(shù)遠遠小于變量維數(shù)和變量間的多重共線性都具有較好的適應(yīng)性,因此本研究采用了PLSR方法構(gòu)建年齡估計模型。通過該模型,我們研究了105個新疆維吾爾族男性個體年齡與三維人臉的相關(guān)性并進行年齡估計,預(yù)測的誤差為6.37歲,與前期研究中針對163個漢族男性個體得到的PLSR偏差(MAD值為6.11歲)結(jié)果[14]相近。同樣,年齡估計的準確性與研究對象的年齡范圍也呈現(xiàn)明顯的關(guān)聯(lián)性,在>30~40歲的群體中準確度最高,MAD值為4.27歲,而在接近老年的>50~57歲群體中準確度最低,MAD值為9.35歲。這一現(xiàn)象與通過甲基化檢測推測年齡時觀察到的現(xiàn)象相近,即對青中年群體的年齡推測準確性大大高于老年群體[30-31]。同時說明由于遺傳背景、生活環(huán)境等方面的影響,衰老進程會逐漸顯現(xiàn)出明顯的個體差異,也表明基于臉部形態(tài)特征的改變所估計的年齡值,相比實際年齡更接近個體的生物學(xué)年齡,與個體身體整體衰老程度具有較高一致性。
回歸系數(shù)是每個與年齡相關(guān)的PLSR成分的負荷向量(loading values)的加權(quán)和,比年齡相關(guān)的PLSR成分更能綜合反映臉部形態(tài)改變和年齡之間的關(guān)系,因此,回歸方程系數(shù)熱圖可以展示臉部區(qū)域?qū)δ挲g模型的影響。從不同年齡段的平均臉的衰老趨勢可以看出,隨著年齡的增加,平均臉呈現(xiàn)鼻唇溝加深、臉頰凹陷、顴骨突出、眼角下垂等衰老特征,而且鼻唇溝的寬度、顴骨的高低、人中長度、嘴唇周圍臉頰的凹陷程度等區(qū)域相比其他區(qū)域?qū)δ挲g都有較大影響。這些影響年齡估計準確度的特征區(qū)域與人眼視覺識別臉部衰老的特征相一致。這一結(jié)果在漢族人群、亞歐混合人群(維吾爾族)中都得到了驗證[14],說明衰老對臉部特征的改變在各人群中十分相似,本研究建立的年齡估計模型可能適用于多個種族人群?;谌四樐挲g估計的PLSR模型,本研究重構(gòu)了5個個體更年輕及更年老時的臉部形態(tài),重構(gòu)的人臉形態(tài)較為逼真,老化模擬效果較好,說明構(gòu)建的模型可以較好地模擬人臉老化過程。然而,人臉衰老受遺傳、性別、光照、生活方式等眾多因素影響,一個統(tǒng)一的年齡模型難以達到很高的年齡估計和年齡面貌合成精確性,需要對研究人群進行細致分類,分別建立有針對性的模型。
此外,雖然當前人臉數(shù)據(jù)庫較多,但大多基于二維人臉且樣本年齡分布并不理想[32-33],可應(yīng)用的三維人臉數(shù)據(jù)庫有限,多年齡樣本不易采集且數(shù)量較少,這也是本研究的不足之一。人臉圖像的預(yù)處理、人臉特征的提取、年齡估計和年齡面貌重構(gòu)的方法選擇也都會影響年齡模型的準確性和可靠性。針對存在的問題及目前已有的研究成果,我們未來的工作將從以下幾個方面逐步推進:嚴格控制采樣條件,增加樣本量,完善多年齡人臉數(shù)據(jù)庫,提高人臉年齡特征提取方法的魯棒性;對人群進行背景調(diào)查和分類,減少環(huán)境等因素在計算中的不確定性影響;研究人臉膚色紋理衰老特征,結(jié)合已有形態(tài)特征,更加真實地模擬人臉面貌老化過程,提高人臉年齡估計的準確度和人臉重構(gòu)效果,使獲得數(shù)據(jù)和結(jié)論更具有科學(xué)性和實際的指導(dǎo)意義,為法醫(yī)學(xué)研究提供重要的參考價值。