梁洋洋 陳 宇 楊 健
(南京理工大學(xué)計算機科學(xué)與工程學(xué)院 江蘇 南京 210094)
?
基于深度自編碼器網(wǎng)絡(luò)的人臉特征點定位方法
梁洋洋陳宇楊健
(南京理工大學(xué)計算機科學(xué)與工程學(xué)院江蘇 南京 210094)
使用深度學(xué)習(xí)網(wǎng)絡(luò)技術(shù)的人臉特征點定位方法已經(jīng)取得了比較突出的效果。然而,人臉圖像由于姿態(tài)、表情、光照、遮擋等變化而具有復(fù)雜多樣性,因此數(shù)目較多的人臉特征點(超過50個特征點)定位依然有很大的挑戰(zhàn)性。設(shè)計了三層級聯(lián)的自編碼器網(wǎng)絡(luò),并通過由粗到精的方法對多數(shù)目的人臉特征點進行定位。第一層網(wǎng)絡(luò)以整張人臉圖像為輸入,直接估計人臉輪廓和部件位置,從而將特征點分成三部分(眼眉鼻,嘴巴和人臉輪廓)進行下一步定位;之后的兩層網(wǎng)絡(luò)分別對各部件特征點進行估計求精。在LFPW、HELEN數(shù)據(jù)庫上的實驗表明,該方法能夠提高人臉特征點定位的準確性和魯棒性。
人臉特征點定位深度學(xué)習(xí)自編碼器網(wǎng)絡(luò)逐步求精
人臉特征點定位在人臉識別、姿態(tài)估計、人臉跟蹤、人臉表情分析等大部分人臉感知任務(wù)中扮演著重要的角色。文獻[1] 中指出,錯誤的特征點定位會導(dǎo)致提取的人臉描述特征的嚴重變形,即使不精確的對齊也會帶來識別性能的快速下降。文獻[2]表明如果能夠獲得準確的人臉特征點位置,那么在人臉識別上簡單的特征就能到達領(lǐng)先的性能水平。由此可見,準確的定位是非常重要的前期準備步驟。人臉特征點定位的研究因此也得到了越來越多的關(guān)注和發(fā)展,然而,由于姿態(tài)、表情、光照、部分遮擋等因素導(dǎo)致人臉圖像的復(fù)雜多樣性,也給準確的定位帶來了巨大的挑戰(zhàn)。
在早期的一些方法中,主動形狀模型ASM(Active Shape Model)[3],主動表現(xiàn)模型AAM(Active Appearance Model)[4]在實驗室中建立的數(shù)據(jù)庫上具有了可靠的性能,在此基礎(chǔ)上,許多學(xué)者也提出了改進的方法[5-9]。然而,在真實環(huán)境應(yīng)用中,在人臉外觀上的呈現(xiàn)出復(fù)雜多樣性時,這些方法通常會失效,主要原因為一個單一的線性模型很難刻畫人臉形狀所有非線性的變化。近年來,在自然環(huán)境下建立起來的數(shù)據(jù)庫變得非常流行,從而對人臉特征點定位方法提出了更多的挑戰(zhàn)。一些新的定位方法已在這些數(shù)據(jù)庫上取得了較好的成果。Piotr Dollar等人[10]提出級聯(lián)姿態(tài)回歸CPR(Cascaded Pose Regression)方法對初始形狀估計進行逐步的求精,每一個求精過程都由一個不同的回歸器實現(xiàn),每個回歸器處理與前一個回歸器輸出相關(guān)的圖像度量,整個系統(tǒng)從訓(xùn)練樣本中自動的學(xué)習(xí)。在此基礎(chǔ)上,Xavier P. B.等人[11]提出魯棒級聯(lián)姿態(tài)回歸RCPR(Robust Cascaded Regression),通過顯式表達是否存在遮擋,利用魯棒的形狀索引特征進行在遮擋環(huán)境下的人臉特征點定位。Cao等人[12]提出了一種高效準確的顯式形狀回歸模型。該方法設(shè)計了兩層增強回歸,利用形狀索引特征,使用基于相關(guān)的特征選擇方法直接學(xué)習(xí)出一個向量回歸函數(shù)來估計整個人臉形狀,并在訓(xùn)練集中顯式地最小化定位誤差。Xiong等人[13]提出一種有監(jiān)督的梯度下降方法SDM(Supervised Descent Method)解決復(fù)雜最小二乘問題,即從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)梯度下降的方向并建立相應(yīng)的回歸模型,然后利用得到的模型來進行梯度方向估計,并應(yīng)用于人臉對齊,取得了較好的效果。最近,深度自編碼器DAEs(Deep Auto-Encoders)、卷積神經(jīng)網(wǎng)絡(luò)CNNs(Convolution Neural Networks)、受限波爾茲曼機RBMs(Restricted Boltzmann Machines)等深度網(wǎng)絡(luò)模型被廣泛應(yīng)用于計算機視覺的各個領(lǐng)域[14],在特征點定位中也取得了突出效果。這主要得益于它強大的非線性擬合能力,能夠更好地學(xué)習(xí)到從人臉圖像到人臉形狀(特征點)的非線性映射關(guān)系。Wu等人[15]使用深度置信網(wǎng)絡(luò)DBNs(Deep Belief Networks)從人臉表情中捕獲人臉形狀變化特征,同時使用三元受限波爾茲曼機處理姿態(tài)變化。Luo等人[16]使用深度置信網(wǎng)絡(luò)進行人臉部件檢測,之后利用深度自動編碼器對每個部件進行訓(xùn)練預(yù)測。Sun等人[17]使用三層深度卷積網(wǎng)絡(luò)DCNN(Deep Convolution Neural Networks)進行人臉特征點檢測,在第一階段,首先估計出所有特征點(5個)作為初始形狀,在之后的兩個階段中,對初始形狀的每一個特征點分別訓(xùn)練深度網(wǎng)絡(luò)進行逐步求精。然而,該方法對初始形狀比較敏感,對每個特征點分別訓(xùn)練深度網(wǎng)絡(luò)又不易擴展到特征點較多的情況。Zhang等人[18]提出由粗到精的自動編碼網(wǎng)絡(luò)CFAN(Coarse-to-Fine Auto-Encoder Networks)進行人臉特征點定位,在估計初始形狀之后,將所有特征點一起逐步求精。在以上深度模型基礎(chǔ)上,本文設(shè)計了三層級聯(lián)的自編碼器網(wǎng)絡(luò),通過由粗到精的方法對數(shù)目較多的人臉特征點(超過50個)進行定位。第一層網(wǎng)絡(luò)以整張人臉圖像為輸入,并非直接估計所有特征點作為初始形狀,而是先估計出人臉輪廓和部件位置,從而將所有特征點劃分到若干部件;第二層針對不同部件分別訓(xùn)練網(wǎng)絡(luò)對各個部件內(nèi)特征點進行估計;第三層為每個部件訓(xùn)練相應(yīng)網(wǎng)絡(luò)并以部件為單位對其內(nèi)所有特征點進行求精。實驗結(jié)果表明,這種方法能夠在定位多數(shù)目特征點的任務(wù)中提高估計的準確性和魯棒性。
在數(shù)目較多的人臉特征點定位任務(wù)中,如果使用一個單一的深度學(xué)習(xí)網(wǎng)絡(luò)對所有特征點進行估計,將導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜和訓(xùn)練過程困難,同時由于姿態(tài)、表情、光照等因素使得精確的定位更加困難。針對這一情況,本文設(shè)計了一個基于深度自編碼器網(wǎng)絡(luò)的人臉特征點定位方法,這一部分首先對設(shè)計的方法進行概述,然后分析自編碼器網(wǎng)絡(luò)的設(shè)計細節(jié),最后給出實驗中的網(wǎng)絡(luò)設(shè)置參數(shù)。
1.1方法概述
本文設(shè)計了三層級聯(lián)的自編碼器網(wǎng)絡(luò),并通過粗到精的方法對多數(shù)目的人臉特征點進行定位。如圖1所示,根據(jù)面部結(jié)構(gòu)特征,我們將眉毛、眼睛和鼻子整體作為一個部件(包含31個特征點),嘴巴單獨作為一個部件(包含20個特征點),人臉輪廓作為一個部件(包含17個特征點),從而將所有特征點分成三部分。第一層深度網(wǎng)絡(luò)以整個人臉圖像作為輸入,訓(xùn)練網(wǎng)絡(luò)直接估計出三個部件的邊框位置(邊框左上角和右下角點的坐標)作為輸出。通過邊框位置信息對人臉圖像進行剪裁,分別得到三個部件的圖像,作為第二層網(wǎng)絡(luò)的輸入,針對三種不同部件分別訓(xùn)練第二層深度網(wǎng)絡(luò)對相應(yīng)部件中的特征點做出初始的估計,得益于深度網(wǎng)絡(luò)對從圖像到特征點之間復(fù)雜的非線性映射關(guān)系的優(yōu)良擬合能力,同時每個網(wǎng)絡(luò)僅對數(shù)目不多的特征點進行預(yù)測,使得第二層深度網(wǎng)絡(luò)的初始預(yù)測已經(jīng)比較接近實地真值。鑒于人臉圖像在表情、姿態(tài)、光照等方面的較大變化,設(shè)計第三層深度網(wǎng)絡(luò)來刻畫描述這些變化,在當(dāng)前特征點周圍提取的局部索引特征用于特征點定位是經(jīng)常使用并且有效的方法[10-12],該層網(wǎng)絡(luò)也以各個部件局部索引特征作為輸入,分別預(yù)測當(dāng)前特征點估計值與實地真值的偏差,以對特征點進一步求精,得到更加準確和魯棒的特征點坐標。整個方法公式表示如下:
S=S0+ΔS
(1)
其中,S表示最終人臉特征點(人臉形狀)估計值,S0表示第二層網(wǎng)絡(luò)對特征點的初始估計值,ΔS表示第三層網(wǎng)絡(luò)對上一層網(wǎng)絡(luò)特征點估計值與真實值的偏差估計值。
第一層估計各部件位置,將得到各個部件邊框左上角和右下角坐標,為便于顯示,圖中各部件位置用不同粗細的矩形框框出來,之后將各部件剪裁出來分別進行估計和求精,最后將所有部件特征點合并得到一個完整的人臉形狀。
圖1 方法概述
1.2深度自編碼器網(wǎng)絡(luò)
我們使用深度自編碼器網(wǎng)絡(luò)作為設(shè)計的三層級聯(lián)網(wǎng)絡(luò)的基本構(gòu)件。給定一個由d維人臉(或人臉部件)圖像x∈Rd,Tg(x)∈Rp表示p維的目標輸出變量,各層的網(wǎng)絡(luò)學(xué)習(xí)出一個從圖像到目標值的映射函數(shù)F,如下所示:
F:x→T
(2)
一般來說,映射F是一個復(fù)雜的非線性函數(shù),為了實現(xiàn)這一目標,k個單一的隱藏層自動編碼器被堆疊起來作為一個深度神經(jīng)網(wǎng)絡(luò)來擬合這個映射函數(shù)。具體而言,各層網(wǎng)絡(luò)的任務(wù)可以看作最小化以下目標函數(shù):
(3)
ai=fi(ai-1)=σ(Wiai-1+bi),i=1,2,…,k-1
(4)
fk(ak-1)=Wkak-1+bk
(5)
其中,F(xiàn)={f1,f2,…,fk},fi是深度網(wǎng)絡(luò)中第i層的映射函數(shù),σ是sigmoid函數(shù),ai是第i層的特征表示。自編碼器網(wǎng)絡(luò)中前k-1層神經(jīng)元節(jié)點激活函數(shù)使用sigmoid函數(shù)來刻畫圖像特征與目標變量之間的非線性,然而,由于sigmoid函數(shù)的輸出范圍是[01],與目標變量范圍不一致,因此在網(wǎng)絡(luò)最后一層fk中神經(jīng)元節(jié)點激活函數(shù)使用線性函數(shù)以得到目標輸出估計值。
(6)
自編碼器網(wǎng)絡(luò)在通過式(7)進行初始化后,網(wǎng)絡(luò)所有層參數(shù)按照式(6)進行微調(diào),如此,自編碼器網(wǎng)絡(luò)的前幾層用來捕獲低層特征,如圖像中的紋理模式;較后面的幾層來刻畫包含紋理模式上下文信息的較高層的特征。網(wǎng)絡(luò)以圖像原始像素為輸入變量,以期望的回歸目標值作為輸出進行訓(xùn)練,測試時,網(wǎng)絡(luò)的輸出值即為相應(yīng)的預(yù)測值。
1.3實現(xiàn)細節(jié)
數(shù)據(jù)擴增:為了通過訓(xùn)練得到一個魯棒的深度網(wǎng)絡(luò),對每一個訓(xùn)練樣本(按照數(shù)據(jù)集提供的人臉邊框提取的人臉圖像)進行隨機縮放和平移操作擴充樣本容量,這樣可以有效地防止深度網(wǎng)絡(luò)模型訓(xùn)練過擬合,增強對自然環(huán)境下各種變化的魯棒性。
參數(shù)設(shè)置:實現(xiàn)中使用由三個非線性隱藏層和一個線性輸出層構(gòu)成的深度自編碼器網(wǎng)絡(luò)模型來擬合非線性映射函數(shù)。調(diào)整輸入網(wǎng)絡(luò)的人臉(或人臉部件)圖像到固定大小(50×50像素),隱藏層神經(jīng)元節(jié)點個數(shù)分別為取1600、900、300,在提取局部形狀索引特征時,我們在每個特征點周圍提取9×9的小塊,式(6)中的權(quán)重衰減項參數(shù)α用來控制樣本集均方差項和權(quán)重衰減項的相對重要性,實驗中取值為0.001。
為了評估所文中設(shè)計方法的性能,我們在常用人臉特征點定位數(shù)據(jù)庫上進行了多次實驗。這一部分首先介紹所使用的數(shù)據(jù)庫,之后給出實驗結(jié)果與分析。
2.1數(shù)據(jù)庫介紹
我們在LFPW[19]和HELEN[20]兩個數(shù)據(jù)庫上進行了多次實驗,這兩個數(shù)據(jù)庫中的圖片在姿態(tài)、光照、表情方面變化較大,并且存在一些遮擋,是近幾年提出的在自然環(huán)境條件下的人臉對齊數(shù)據(jù)庫,具有一定的挑戰(zhàn)性,廣泛應(yīng)用于理論研究。LFPW數(shù)據(jù)庫中包含1132張訓(xùn)練集圖片和300張測試圖片,由于該數(shù)據(jù)庫只提供了圖片鏈接并且有些鏈接已經(jīng)失效,我們使用IBUG[21]提供的數(shù)據(jù)庫圖片,包含811張訓(xùn)練集圖片和224張測試集圖片。HELEN數(shù)據(jù)庫為高分辨率圖片庫,由2000張訓(xùn)練集圖片和330張測試集圖片構(gòu)成。兩個數(shù)據(jù)庫中的人臉圖片均標注由300-W提供的68個人臉特征點。
2.2實驗結(jié)果與分析
實驗結(jié)果采用平均估計誤差和失效率兩個指標來度量所設(shè)計方法的性能,這兩個指標顯示了一個特征點定位算法的準確度和可靠性。估計誤差公式如下:
(8)
其中,(x,y)和(x′,y′)分別表示特征點真值坐標和估計坐標,d表示估計誤差標準化因子。如果估計誤差超過10%,則認為估計失效。兩眼中心距離常用來作為估計誤差標準化因子,然而,與正臉相比,側(cè)臉兩眼中心的距離較短,使用兩眼中心距離作為估計誤差標準化因子在人臉姿態(tài)變化較大時顯然是不合適的,這一點在文獻[22]中也被提出。因此,實驗中我們使用人臉邊框的水平方向上像素個數(shù)(邊框?qū)挾?作為估計誤差標準化因子進行性能度量。
我們將文中設(shè)計的方法和主動表現(xiàn)模型(AAM)方法[4]和有監(jiān)督梯度下降方法(SDM)[13]進行比較。AAM方法主要通過網(wǎng)絡(luò)資源提供的API實現(xiàn)[23],SDM方法發(fā)布的代碼只估計了49個特征點,為了統(tǒng)一比較,借鑒源代碼重新實現(xiàn)了估計68個特征點的版本。
表1和表2分別給出了在LFPW和HELEN數(shù)據(jù)庫上的平均估計誤差和失效率。與AAM和SDM方法相比,文中設(shè)計的方法在兩個數(shù)據(jù)庫上平均估計誤差最小,失效率最低(表中用粗體呈現(xiàn)),表明文中設(shè)計的方法在特征點定位的準確度和可靠性(魯棒性)上有相應(yīng)提高。圖2給出了在LFPW(左三列)和HELEN(右三列)數(shù)據(jù)庫上結(jié)果對比。從上到下依次為:實地真值、AAM方法、SDM方法和本文設(shè)計的方法。從圖中可以看出,當(dāng)人臉姿態(tài)或表情有較大變化時,鼻子和嘴巴處的特征點準確定位比較困難,然而,文中設(shè)計的方法在應(yīng)對這種姿態(tài)或表情變化有一定的魯棒性。圖3和圖4分別給出了文中設(shè)計方法在LFPW和HELEN數(shù)據(jù)庫上的一些特征點定位結(jié)果,這些人臉圖片在姿態(tài)、表情、年齡、膚色都有變化,有的還存在一些遮擋,盡管如此,我們設(shè)計的方法依然能夠比較準確地定位。
表1 LFPW數(shù)據(jù)庫上不同方法比較結(jié)果
表2 HELEN數(shù)據(jù)庫上不同方法比較結(jié)果
圖2 不同數(shù)據(jù)庫和不同方法同方法的對比結(jié)果
圖3 LFPW數(shù)據(jù)庫上一些樣本的結(jié)果
圖4 HELEN數(shù)據(jù)庫上一些樣本的結(jié)果
本文在深度學(xué)習(xí)網(wǎng)絡(luò)基礎(chǔ)上,針對在數(shù)目較多的人臉特征點定位任務(wù)中,使用單一的網(wǎng)絡(luò)導(dǎo)致結(jié)構(gòu)復(fù)雜、學(xué)習(xí)困難、定位不夠準確的情況,設(shè)計了一個三層級聯(lián)自編碼器深度學(xué)習(xí)網(wǎng)絡(luò)。將整個人臉特征點劃分在若干部件范圍內(nèi),從而對每個部件內(nèi)特征點進行估計并求精,最后合并所有部件得到整個人臉圖像上的全部特征點位置。實驗表明該方法在自然環(huán)境下采集的人臉圖像數(shù)據(jù)庫LFPW和HELEN上取得比較準確的定位效果。
[1] Shan S G, Chang Y Z, Gao W. Curse of mis-alignment in face recognition: problem and a novel mis-alignment learning solution[C]//6th IEEE International Conference on Automatic Face and Gesture Recognition, Seoul, South Korea, 2004. Washington, DC: IEEE Computer Society, 2004:314-320.
[2] Chen D, Cao X D, Wen F, et al. Blessing of dimensionality: high-dimensional feature and its efficient compression for face verification[C]//26th IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Portland, OR, 2013. Washington, DC: IEEE Computer Society, 2013:3025-3032.
[3] Cootes T F, Taylor C J, Cooper D H, et al. Active shape models-their training and application [J]. Computer Vision and Image Understanding, 1995,61(1):38-59.
[4] Cootes T F, Edwards C J, Taylor C J, et al. Active appearance models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. Mach,2011,23(6):681-685.
[5] Matthews I, Baker S. Active appearance models revisited [J]. International Journal of Computer Vision, 2004,60(2):135-164.
[6] Milborrow S, Nicolls F. Locating facial features with an extended active shape model [C]//10th European Conference on Computer Vision (ECCV), Marseille, France, 2008. Berlin Heidelberg: Springer, 2008:504-513.
[7] Sauer P, Cootes T, Taylor C. Accurate regression procedures for active appearance models [C]//22nd British Machine Vision Conference (BMVC), University of Dundee, 2011. Norwich, UK: BMVA Press, 2011:1-11.
[8] Cootes T F, Ionita M C, Lindner C, et al. Robust and accurate shape model fitting using random forest regression voting [C]//12nd European Conference on Computer Vision (ECCV), Florence, Italy, 2012. Berlin Heidelberg: Springer, 2012:278-291.
[9] Zhao X, Shan S, Chai X, et al. Locality-constrained active appearance model[C]//Asian Conference on Computer Vision (ACCV), Daejeon, Korea, 2012. Berlin Heidelberg: Springer, 2013:636-647.
[10] Dollar P, Welinder P, Perona P. Cascaded Pose Regression[C]//23rd IEEE Conference on Computer Vision and Pattern Recognition (CVPR), San Francisco, 2010. Washington, DC: IEEE Computer Society, 2010:1078-1085.
[11] Burgos-Artizzu X P, Perona P, Dollar P. Robust face landmark estimation under occlusion[C]//IEEE International Conference on Computer Vision (ICCV), Sydney, 2013. Washington, DC: IEEE Computer Society, 2013:1513-1520.
[12] Cao X D, Wei Y C, Wen F, et al. Face alignment by explicit shape regression[J]. International Journal of Computer Vison. 2014,107(2):177-190.
[13] Xiong X H, De la Torre F.Supervised descent method and its application to face alignment[C]//26th IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Portland, OR,2013. Washington, DC: IEEE Computer Society, 2013:532-539.
[14] Bengio Y. Learning deep architecture for AI[J].Foundations and Trends in Machine Learning,2009,2(1):1-127.
[15] Wu Y, Wang Z, Ji Q. Facial feature tracking under varying facial expressions and face poses based on restricted boltzmann machines [C]//26th IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Portland, OR, 2013. Washington, DC: IEEE Computer Society, 2013:3452-3459.
[16] Luo P,Wang X, Tang X. Hierarchical face parsing via deep learning [C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Providence, Rhode Island, 2012. Washington, DC: IEEE Computer Society, 2012,157(10):2480-2487.
[17] Sun Y, Wang X G, Tang X O. Deep convolutional network cascade for facial point detection[C]//26th IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Portland, OR, 2013. Washington, DC: IEEE Computer Society, 2013:3476-3483.
[18] Zhang J, Shan S G, Kan M N, et al. Coarse-to-fine auto-encoder networks (CFAN) for real-time face alignment[C]//13rd European Conference on Computer Vision (ECCV), Zurich, Switzerland, 2014. Switzerland: Springer, 2014:1-16.
[19] Belhumeur P N, Jacobs D W, Kriegman D, et al. Localizing parts of faces using a consensus of examples[J].IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), 2013, 35(12):2930-2940.
[20] Le V, Brandt J, Lin Z, et al. Interactive facial feature localization[C]//12nd European Conference on Computer Vision (ECCV), Florence, Italy, 2012. Berlin Heidelberg: Springer, 2012:679-692.
[21] Christos S, Georgios T, Stefanos Z, et al. 300 faces in-the-wild challenge: the first facial landmark localization challenge[C]//IEEE International Conference in Computer Vision Workshops (ICCVW), Sydney, 2013. Washington, DC: IEEE Computer Society, 2013:397-403.
[22] Zhu X, Ramanan D. Face detection, pose estimation, and landmark localization in the wild[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Providence, RI, USA, 2012. Washington, DC: IEEE Computer Society, 2012:2879-2886.
[23] Mikkel B Stegmann. http://www.imm.dtu.dk/~aam/.
FACIAL LANDMARK LOCALISATION APPROACH BASED ON DEEP AUTOENCODER NETWORKS
Liang YangyangChen YuYang Jian
(School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, Jiangsu, China)
Facial landmarks localisation methods using deep learning network technology have achieved prominent effect. However, the localisation of larger number of facial landmarks (more than 50 points) still have lots of challenges due to the complex diversities in face images caused by pose, expression, illumination and occlusion, etc. This paper designs a three-level cascaded autoencoder network, which are employed to locate a large number of facial landmarks in a coarse-to-fine manner. The first level of the network estimates facial contour and component positions directly by tacking the whole face image as input, which divides landmarks into three parts (eyes and nose, mouth, and facial contour) for the next localisation steps; the following two level of the network estimate and refine the landmarks of each part respectively. Experiments conducted on LFPW, HELEN databases show that the approach can improve the accuracy and robustness of facial landmark localisation.
Facial landmark localisationDeep learningAutoencoder networksCoarse-to-fine
2015-06-25。國家自然科學(xué)基金面上項目(61472187)。梁洋洋,碩士生,主研領(lǐng)域:人臉識別。陳宇,博士生。楊健,教授。
TP3
A
10.3969/j.issn.1000-386x.2016.09.033