景晨凱 宋 濤 莊 雷 劉 剛 王 樂 劉凱倫
1(鄭州大學(xué)信息工程學(xué)院 河南 鄭州 450001) 2(河南省招生辦公室 河南 鄭州 450046)
人臉識別屬于計(jì)算機(jī)視覺的范疇,特指計(jì)算機(jī)利用分析比較人臉視覺特征信息自動進(jìn)行身份鑒別的“智能”技術(shù)。相比于指紋、虹膜等傳統(tǒng)生物識別手段,人臉識別具有無接觸、符合人類識別習(xí)慣、交互性強(qiáng)、不易盜取等優(yōu)勢,因此在保障公共安全,信息安全,金融安全,公司和個人財(cái)產(chǎn)安全上等有強(qiáng)烈的需求。尤其是近些年來隨著深度卷積神經(jīng)網(wǎng)絡(luò)DCNN的引入,人臉識別的準(zhǔn)確率得以跨越式提升,各類相關(guān)應(yīng)用如人臉識別考勤、考生身份驗(yàn)證、刷臉支付、人臉歸類查詢等已開始逐步投入使用,效果顯著。
對于一張靜態(tài)2D人臉圖片,影響識別的因素主要可分為基礎(chǔ)因素、外在因素和內(nèi)在因素?;A(chǔ)因素是指人臉本身具有的全局相似性,即人的五官、輪廓大致相同;外在因素是指成像質(zhì)量,主要包括人與攝像設(shè)備的位置關(guān)系(距離、角度、尺度),攝影器材的性能,光照的強(qiáng)弱,外物(眼鏡、圍巾)遮擋等;內(nèi)在因素是指個人的內(nèi)部屬性,如性別、年齡變化、精神健康狀態(tài)、面部毛發(fā)、化妝整容、意外損傷等。但人類似乎天生具有面部識別能力,可以很輕松地剔除掉這些因素的影響[1],并且可以通過人的其他部位、神情、習(xí)慣等輔助手段快速確定一個人。而對于計(jì)算機(jī),這些輔助手段由于其特征不穩(wěn)定性反而容易被不法分子利用。目前大多數(shù)情況下計(jì)算機(jī)讀取的是一張靜態(tài)二維圖片,這些圖片本質(zhì)上又是由繁多的多維數(shù)字矩陣組成,如一張256×256的RGB彩色圖片就有196 608個數(shù)字??上攵?,其識別任務(wù)難度巨大。幸運(yùn)的是計(jì)算機(jī)可以使用人類設(shè)計(jì)的算法從圖像中提取特征或者學(xué)習(xí)到特征。計(jì)算機(jī)自動人臉識別AFR(automatic face recognition)的主要任務(wù)就是如何為減少個人內(nèi)部的變化,同時擴(kuò)大人外部差異制定低維有效的特征表示。
人臉識別的發(fā)展史主要上還是人臉特征表示方法的變遷史,從最初的幾何特征,到經(jīng)驗(yàn)驅(qū)動的“人造特征”,最后到數(shù)據(jù)驅(qū)動的“表示學(xué)習(xí)”,人臉識別已歷經(jīng)了近60年的發(fā)展歷程。
英國心理學(xué)家Galton于1888年和1920年便在《Nature》上發(fā)表了兩篇關(guān)于人臉識別的論文,他將不同人臉的側(cè)面特征用一組數(shù)字代表,但并未涉及AFR問題。1965年,Bledsoe等在Panoramic Research Inc上發(fā)表了第一篇AFR的報(bào)告[2],他們用臉部器官間的間距(如兩眼之間)、比率等參數(shù)作為特征,構(gòu)建了一個半自動人臉識別系統(tǒng),開始了真正意義上的人臉識別研究。1965年至1990年的人臉識別研究主要基于幾何結(jié)構(gòu)特征的方法以及基于模板匹配的方法?;趲缀谓Y(jié)構(gòu)特征的方法一般通過提取人眼、口、鼻等重要特征點(diǎn)的位置,以及眼睛等重要器官的直觀幾何形狀作為分類特征,計(jì)算量小。但當(dāng)受光照變化、外物遮擋、面部表情變化等內(nèi)外在因素影響時,所需特征點(diǎn)將無法精確定位,進(jìn)而造成特征急劇變化。而基于模板匹配的方法則通過計(jì)算模板和圖像灰度的自相關(guān)性來實(shí)現(xiàn)識別功能,但忽略了局部特征,造成部分信息丟失。這一階段可以稱為人臉識別的初級階段,該階段的研究只適用于人臉圖像的粗略識別,無法在實(shí)際中應(yīng)用。1992年Brunelli等通過實(shí)驗(yàn)得出基于模板匹配的方法優(yōu)于基于幾何結(jié)構(gòu)特征的方法[3]的結(jié)論。
1991年到1997年是人臉識別研究的第二階段,盡管時間短暫,卻是非常重要的時期。大量的人力物力投入其中,如美國國防部發(fā)起的FERET(Face Recognition Technology Test)資助了多項(xiàng)人臉識別研究,并創(chuàng)建了著名的FERET人臉圖像數(shù)據(jù)庫,該項(xiàng)目極大地促進(jìn)了人臉識別算法的改進(jìn)及實(shí)用化,許多經(jīng)典的人臉識別算法也都在這個階段產(chǎn)生。具有里程碑意義的研究是麻省理工學(xué)院的Turk等提出特征臉Eigenface[4],該方法是后來其他大多數(shù)算法的基準(zhǔn)。還有基于子空間分析的人臉識別算法Fisherface[5],它首先通過主成分分析方法PCA(Principal Component Analysis)[4]將人臉降維,之后采用線性判別分析LDA(Linear Discriminant Analysis)[5]期望獲得類間差異大且類內(nèi)差異小的線性子空間,但正因如此,它無法對復(fù)雜的非線性模型進(jìn)行建模?;趶椥詧D匹配的方法[6]是一種將幾何特征與對灰度分布信息的小波紋理分析相結(jié)合的識別算法,它利用人臉的基準(zhǔn)特征點(diǎn)構(gòu)造拓?fù)鋱D,使其符合人臉的幾何特征,然后獲取人臉關(guān)鍵點(diǎn)的特征值進(jìn)行匹配。該算法能夠在局部結(jié)構(gòu)的基礎(chǔ)上保留全局結(jié)構(gòu),而且能自動定位面部特征點(diǎn),因此對角度變化具有一定的魯棒性。其缺點(diǎn)是時間復(fù)雜度高,實(shí)現(xiàn)復(fù)雜?;谀P偷姆椒ㄈ缰鲃颖碛^模型AAMs(Active Appearance Models)[7]是人臉建模方面的一個重要貢獻(xiàn)。AAMs將人臉圖像的形狀和紋理分別用統(tǒng)計(jì)的方法進(jìn)行描述,然后通過PCA將二者融合來對人臉進(jìn)行統(tǒng)計(jì)建模,該算法常用在人臉對齊上。另外比較經(jīng)典的還有SVD分解[8]、人臉等密度線分析匹配[9]、隱馬爾可夫模型(Hidden Markov Model)[10]以及神經(jīng)網(wǎng)絡(luò)等方法。總的來說,這一階段的人臉識別研究發(fā)展迅速,所提出的算法直接采用人臉圖像中所有像素的顏色或灰度值作為初始特征,然后通過在訓(xùn)練數(shù)據(jù)上學(xué)習(xí)得到更具區(qū)分力的人臉表示。從技術(shù)方案上看,2D人臉圖像線性子空間判別分析、統(tǒng)計(jì)模式識別方法是這一階段的主流技術(shù)。這一階段的人臉識別系統(tǒng)在較理想圖像采集條件、用戶配合、中小規(guī)模數(shù)據(jù)庫上的情況下較為適用。
第三階段(1998年—2013年)重點(diǎn)研究真實(shí)條件下,以及基于其他的數(shù)據(jù)源(如視頻、近紅外和素描)的人臉識別問題,并深入分析和研究不同影響下的人臉識別,如光照不變?nèi)四樧R別、姿態(tài)不變?nèi)四樧R別和表情不變?nèi)四樧R別等。為了克服直接使用像素灰度值對光照敏感等問題的限制,這一時期涌現(xiàn)出了很多對局部鄰域像素亮度或顏色值進(jìn)行手工特征提取的方法,比如對人臉較為有效Gabor Face、LBP Face[11]以及基于無監(jiān)督學(xué)習(xí)的特征learning Descriptors[12]等。分類識別上主要采用以線性判別分析為代表的線性建模方法[13-14],以核方法為代表的非線性建模方法[15-16]和基于3D人臉重建的人臉識別方法[17-18]。LBP特征是這一時期的典型特征描述子,其將圖像分成若干區(qū)域,在每個區(qū)域用中心值對鄰域作閾值化,將結(jié)果表示成二進(jìn)制數(shù),然后基于區(qū)域的頻率直方圖做統(tǒng)計(jì)。LBP特征對單調(diào)灰度變化保持不變,并對圖像中的噪聲和姿態(tài)具有一定的魯棒性。在子空間分析改進(jìn)上,如針對 Eigenface 算法的缺點(diǎn),中科院計(jì)算所提出的特定人臉子空間(FSS)算法[13],FSS為每個對象建立一個私有的人臉子空間,更好地描述了不同個體人臉之間的差異性。香港中文大學(xué)的王曉剛等提出的統(tǒng)一子空間分析[14]方法將PCA、LDA和貝葉斯子空間[19]三種子空間方法進(jìn)行比較,并將三者有機(jī)結(jié)合提高了識別性能。基于3D人臉重建的人臉識別一般基于形變模型(morphable model)[18],其主要思想是首先將2D人臉圖像映射到3D模型表面,之后將這個3D模型轉(zhuǎn)到正臉提取特征。雖然對姿態(tài)變化具有魯棒性,但需要定位大量基準(zhǔn)點(diǎn),并且3D數(shù)據(jù)難以收集。值得一提的是2007年以后,LFW[20]數(shù)據(jù)庫成為真實(shí)條件下最權(quán)威的人臉識別測試基準(zhǔn)。它的樣本來自互聯(lián)網(wǎng)的5 749人的13 233張名人人臉照片,采用十折平均精度作為性能評價指標(biāo)。2012年Huang等首次采用深度學(xué)習(xí)的無監(jiān)督的特征學(xué)習(xí)方法[21]在LFW取得了87%的識別率,與當(dāng)時最好的傳統(tǒng)人臉識別算法相比還有一定差距??傊?,這一階段提取的面部特征是人為設(shè)計(jì)或基于無監(jiān)督學(xué)習(xí)的局部描述子。此后以DCNN為代表的深度學(xué)習(xí)算法的有監(jiān)督學(xué)習(xí)在AFR的應(yīng)用徹底顛覆了這種經(jīng)驗(yàn)驅(qū)動的“人造特征”范式,開啟了數(shù)據(jù)驅(qū)動的“表示學(xué)習(xí)”的革命。
2006年,Hinton等在《Science》上首次提出了深度學(xué)習(xí)的概念[22]。深度學(xué)習(xí)本質(zhì)上也是一種特征學(xué)習(xí)方法,傳統(tǒng)方法需要有相關(guān)專業(yè)背景的專家設(shè)計(jì)特征表示方式,而深度學(xué)習(xí)各層的特征是使用一種通用的學(xué)習(xí)過程從數(shù)據(jù)中學(xué)到的。其也可以看作是使用像素灰度值特征,它把原始數(shù)據(jù)通過一些簡單的非線性的模型轉(zhuǎn)變成為更高層次的、更加抽象的表達(dá),經(jīng)過足夠多轉(zhuǎn)換的組合來學(xué)習(xí)非常復(fù)雜的函數(shù)。2012年,Hinton又帶領(lǐng)學(xué)生在目前最大的圖像數(shù)據(jù)庫ImageNet[23]上,將Top5的分類錯誤率26%降低至15%,在學(xué)術(shù)界一鳴驚人,并引起了工業(yè)界的強(qiáng)烈關(guān)注,特別是以谷歌、百度、微軟、臉譜等為首的擁有大量數(shù)據(jù)和高性能計(jì)算的科技巨頭企業(yè)。深度學(xué)習(xí)儼然已成為當(dāng)今人工智能界具有統(tǒng)治地位的算法,而深度學(xué)習(xí)前身就是NN。由此,本節(jié)先從人工智能和NN的起源開始逐步深入分析這一算法。
1956年,John McCarthy與Marvin Minsky,Herbert Simon等在達(dá)特茅斯學(xué)院正式創(chuàng)立了人工智能的概念,并形成以Herbert Simon為代表的理性學(xué)派和以Marvin Minsky為代表的感性學(xué)派。NN正是感性學(xué)派的代表。1957年康奈爾大學(xué)心理學(xué)教授Rosenblatt利用神經(jīng)網(wǎng)絡(luò)原理首次成功制作了能夠讀入并識別簡單的字母和圖像電子感知機(jī)。1959年,霍普金斯大學(xué)的Hubel和Wiesel通過觀察貓腦部視覺中樞對視網(wǎng)膜進(jìn)入圖像的處理方式發(fā)現(xiàn),提出了簡單細(xì)胞和復(fù)雜細(xì)胞的概念。這一工作對后來從事NN研究的計(jì)算機(jī)專家提供了重要的建模思路,比如神經(jīng)元是分工分層對信息進(jìn)行處理,不同神經(jīng)元關(guān)注的對象特征不同。CNN中的卷積和池化層靈感也直接來源于視覺神經(jīng)科學(xué)中的簡單細(xì)胞和復(fù)雜細(xì)胞。對于人臉圖像來說,前幾層的神經(jīng)元抽象出臉部的部分特征如邊角或線條,然后經(jīng)過逐層激發(fā)逐漸形成不同的形狀,如眼睛和鼻子,最后在中樞的最高層激發(fā)對整個對象產(chǎn)生認(rèn)知的“祖母神經(jīng)元”,也就是整張人臉的特征。
但好景不長,1969年Minsky在《感知機(jī)》的書中證明兩層神經(jīng)網(wǎng)絡(luò)不能解決XOR(異或)這一個基本邏輯問題直接導(dǎo)致了NN研究經(jīng)歷了第一次長達(dá)十幾年的寒冬。這一時期理性學(xué)派的專家系統(tǒng)得以盛行,感性流派雖沒有專家系統(tǒng)那樣成功,但也取得了一些進(jìn)步。如1974年,哈佛Werbos的博士論文證明在輸入層和輸出層之間添加一個隱層,可以解決XOR問題,但并未引起重視,另外層數(shù)的增加為各個層的神經(jīng)節(jié)點(diǎn)連接的權(quán)重選取帶來新的困難。1986年Rumelhart等在《nature》提出的反向傳播BP(back propagation)算法[24]一定程度上解決了權(quán)重選取問題。多層感知機(jī)和BP算法為NN研究點(diǎn)燃了新的希望,在此基礎(chǔ)上分支聯(lián)結(jié)主義開始流行,其核心領(lǐng)導(dǎo)者是兩位心理學(xué)家Rumelhart和McLelland和未來的“深度學(xué)習(xí)之父” Hinton。但是很快由于多層網(wǎng)絡(luò)訓(xùn)練困難:如梯度不穩(wěn)定,訓(xùn)練數(shù)據(jù)和計(jì)算能力不足等問題,NN在20世紀(jì)末再次進(jìn)入寒冬。值得關(guān)注的是,在此期間專家系統(tǒng)及NN維度的深化推動了超級計(jì)算技術(shù)的發(fā)展。這一領(lǐng)域衍生出的計(jì)算機(jī)集群技術(shù)成為20世紀(jì)90年代信息領(lǐng)域的互聯(lián)網(wǎng)公司的計(jì)算平臺,業(yè)務(wù)量和數(shù)據(jù)量的增加使這些網(wǎng)絡(luò)平臺不斷擴(kuò)張,存儲和計(jì)算能力相應(yīng)越來越強(qiáng)大,由此也產(chǎn)生了大量的數(shù)據(jù),為NN的第三次復(fù)蘇埋下伏筆。
2006年,NN脫胎換骨成為深度學(xué)習(xí),Hinton等所提出的深度信念網(wǎng)絡(luò)DBN(deep belief networks)[22]指出具有大量隱層的網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力,而網(wǎng)絡(luò)的訓(xùn)練可以采用非監(jiān)督的逐層初始化與反向傳播實(shí)現(xiàn)。2012年機(jī)器學(xué)習(xí)界的泰斗Andrew Ng 等發(fā)起的Google Brain項(xiàng)目在包含 16 000個CPU的分布式并行計(jì)算平臺上構(gòu)建一種被稱為“深度神經(jīng)網(wǎng)絡(luò)”的類腦學(xué)習(xí)模型[25],并成功地“認(rèn)識”了貓。而近些年GPU強(qiáng)大的并行計(jì)算能力更是加快了訓(xùn)練速度,深度學(xué)習(xí)勢如破竹。深度學(xué)習(xí)能取得如今的成就,離不開三個長期專注NN領(lǐng)域的計(jì)算機(jī)科學(xué)家,分別是以上提到的深度學(xué)習(xí)開創(chuàng)者Geoffrey Hinton、CNN的重要研究與發(fā)揚(yáng)者Yann LeCun以及加拿大蒙特利爾大學(xué)教授Yoshua Bengio。而DCNN是深度學(xué)習(xí)算法的一種,目前主要在計(jì)算機(jī)視覺領(lǐng)域取得突破進(jìn)展。
1979年日本京都大學(xué)的Fukushima基于感受野概念提出了神經(jīng)認(rèn)知機(jī)來進(jìn)行手寫字母的圖像識別,這可以看作是CNN的第一個實(shí)現(xiàn)網(wǎng)絡(luò),也是感受野概念在神經(jīng)網(wǎng)絡(luò)領(lǐng)域的首次應(yīng)用。1989年LeCun選擇將BP算法用于訓(xùn)練多層卷積神經(jīng)網(wǎng)絡(luò)來識別手寫數(shù)字[26],這是CNN概念提出的最早文獻(xiàn)。但是建立起現(xiàn)代卷積網(wǎng)絡(luò)學(xué)科的開創(chuàng)性論文是1998年LeCun提出的LeNet-5[27],并且LeCun認(rèn)為CNN不應(yīng)看作是生物學(xué)上的神經(jīng)系統(tǒng)原型,因此他更傾向于稱其為卷積網(wǎng)絡(luò),并把網(wǎng)絡(luò)中的節(jié)點(diǎn)稱為單元。盡管如此,卷積網(wǎng)絡(luò)由于使用了與許多神經(jīng)網(wǎng)絡(luò)相同的思想。因此,本文遵循慣例,把它看作是神經(jīng)網(wǎng)絡(luò)的一種類型。
2014年,臉譜的團(tuán)隊(duì)[30]和香港中文大學(xué)的團(tuán)隊(duì)[31]在LFW上分別報(bào)告了97.35%和97.45%的平均分類精度,人臉識別的主要技術(shù)路線由人工設(shè)計(jì)特征與分類識別轉(zhuǎn)變?yōu)榛贒CNN的端到端的自主學(xué)習(xí)特征。2015年Google的FaceNet[34]在LFW數(shù)據(jù)集上平均分類精度達(dá)到99.63%,基本上宣告了在LFW上8年性能競賽的結(jié)束。DCNN同樣使用BP算法進(jìn)行有監(jiān)督的學(xué)習(xí),因此在卷積核中的權(quán)值都能得到訓(xùn)練。BP算法是訓(xùn)練深度網(wǎng)絡(luò)的核心算法,其利用鏈?zhǔn)角髮?dǎo)法則求解目標(biāo)函數(shù)關(guān)于多層神經(jīng)網(wǎng)絡(luò)權(quán)值梯度。巧妙之處在于目標(biāo)函數(shù)對于某層輸入的梯度可以通過向后傳播對該層輸出的導(dǎo)數(shù)求得,它首先從最高層的輸出一直到最底層的輸入計(jì)算目標(biāo)函數(shù)對每層輸入的導(dǎo)數(shù)(殘差)然后一次性地求解每一層殘差對權(quán)值w和偏置b的梯度。
總結(jié)BP算法的一般形式如下:
(1) 輸入x,為輸入層設(shè)置對應(yīng)的激活值h1;
(2) 前向傳播:對每層l=1,2,…,l,計(jì)算相應(yīng)的zl=wlzl-1+b,hl=f(zl);
(3) 計(jì)算輸出層誤差:計(jì)算向量δl=▽hL⊙f(zl);
(4) 反向誤差傳播:對每層l=l-1,l-2,l-3,…,2,計(jì)算δl=((wl+1)Tδl+1)⊙f(zl);
DCNN被設(shè)計(jì)用來處理圖像等多維數(shù)據(jù),其用了4個關(guān)鍵思想來利用自然信號的屬性:局部連接、權(quán)值共享、池化以及多網(wǎng)絡(luò)層,與人工設(shè)計(jì)的特征(LBP等)不同,其能夠端到端地自主學(xué)習(xí)到具有高層次、抽象的特征表達(dá)向量。一般情況下卷積層后面都緊隨有一個非線性激活層,如圖1、圖2所示。圖1最左側(cè)是l-1層的輸出,同樣也是l層的輸入,是一個單通道的5×5的特征映射圖,l層有一個3×3的卷積核w和一個偏置b,卷積核從l層特征映射圖的左上方以步長為1滑動,依次與對應(yīng)局部位置求加權(quán)和,并與偏置b相加后得到線性輸出z,繼續(xù)傳入非線性激活函數(shù)f(x)。圖2中例子為ReLU[28-29],最終得到l層的3×3的非線性輸出。一個特征圖的各個局部共享一個卷積核,使用不同的卷積核形成新的不同的特征映射圖。使用這種局部連接、權(quán)值共享的結(jié)構(gòu)基于兩方面的原因:一方面是對于人臉等圖像,一個像素與周圍的像素經(jīng)常是高度相關(guān)的,能夠形成有區(qū)分性的局部特征;另一方面是自然圖像有其固有特性,一部分的統(tǒng)計(jì)特性與其它部分是相關(guān)的,在一個位置出現(xiàn)的特征也可能出現(xiàn)在別的位置。
圖1 卷積層運(yùn)算實(shí)例
圖2 激活函數(shù)層運(yùn)算實(shí)例
卷積層用來探測特征圖的局部連接,池化層則在語義上把相似的特征進(jìn)行融合,池化也具有平移不變性,大量經(jīng)驗(yàn)驗(yàn)證,加入池化層能夠提升識別率。常見的池化方式有:平均池化(取局部平均值),最小池化(取局部最小值),最大池化(取局部最大值)等。如圖3所示是最大池化操作,池化單元計(jì)算特征圖中的一個局部塊(圖3中的尺寸大小是2×2)的最大值,池化單元通過移動一行或者一列(圖3步長為1)最終提取出一個2×2的特征圖(圖3右側(cè))。卷積層和池化層除了以上所述的優(yōu)點(diǎn)外,還有一個直接原因就是它們大大降低了可訓(xùn)練參數(shù)的同時也降低了特征圖的維度。對于圖1,如果是全連接層,則需要學(xué)習(xí)5×5+1=26個參數(shù),而對于一個卷積核來說,則只需要學(xué)習(xí)3×3+1=10個參數(shù),并最終使一個5×5的特征圖轉(zhuǎn)化成一個2×2的特征圖。對于輸入的多維人臉,隨著深度的增加,卷積與池化的層層疊加,神經(jīng)元的數(shù)目也相應(yīng)的減少,并最終形成一個特定的、緊湊的、低維度、全局性的人臉特征表達(dá)向量(一般是倒數(shù)第二層的隱藏層)用于人臉識別(通過knn分類器等),人臉驗(yàn)證(計(jì)算距離)等任務(wù)。
圖3 池化層運(yùn)算實(shí)例
如表1中列舉了近些年幾種比較成功的基于DCNN的人臉識別模型及在LFW上的測試情況,DCNN作為一種特征提取器,在人臉識別中的主要目的還是通過DCNN自動學(xué)習(xí)到更具區(qū)分力的人臉特征表達(dá)進(jìn)而具有更強(qiáng)的泛化能力。這主要通過兩方面來提升:1) 通過表達(dá)能力更強(qiáng)的網(wǎng)絡(luò)結(jié)構(gòu);2) 通過更有效的損失估計(jì)。在網(wǎng)絡(luò)結(jié)構(gòu)上,DeepFace[30],DeepID[31]和VGGFace均使用了直線型網(wǎng)絡(luò)結(jié)構(gòu), Deepface后面三層采用了參數(shù)不共享的卷積核,但導(dǎo)致了參數(shù)的膨脹;DeepId系列[31-33]則將卷積層的輸出與上一層的池化層的輸出進(jìn)行融合來增強(qiáng)特征表達(dá);FaceNet則采用了inception[35]局部多分支型網(wǎng)絡(luò)結(jié)構(gòu)同時融合了多尺度的特征,并采用1×1的卷積核減少訓(xùn)練參數(shù)數(shù)量。從表1中也可以看出DCNN的網(wǎng)絡(luò)結(jié)構(gòu)正在變大變深:VGGFace16層、FaceNet22層。2015年的ResNet[36]已經(jīng)達(dá)到152層;更深的網(wǎng)絡(luò)意味著更加強(qiáng)大的特征抽象能力,但同時也意味著訓(xùn)練難度的加大,訓(xùn)練參數(shù)的增多和計(jì)算效率的下降,文獻(xiàn)[37]通過對卷積核的有效分解等操作在不明顯增加參數(shù)和降低計(jì)算效率的情況下提升了網(wǎng)絡(luò)的特征表達(dá)能力。
表1 幾種經(jīng)典的DCNN模型在LFW數(shù)據(jù)集上的測試結(jié)果
在損失估計(jì)上,有效的損失計(jì)算不但能加快網(wǎng)絡(luò)的訓(xùn)練,而且有利于學(xué)習(xí)到更強(qiáng)有力的人臉特征表達(dá),在早期DeepFace及DeepId中直接采用了softmax分類器(人臉分類信號)作為損失計(jì)算。這種情況下一般需要人臉的類別數(shù)達(dá)到一定數(shù)量(萬人),并且每一個人的樣本數(shù)也應(yīng)足夠的多(數(shù)十甚至上百)的情況下較為適用。分類的數(shù)目越多,對應(yīng)的樣本數(shù)越多,學(xué)習(xí)到人臉特征的區(qū)分性和泛化性就越好。但是當(dāng)人臉類別數(shù)少且類內(nèi)樣本不足的情況下,采用度量學(xué)習(xí)的判別式學(xué)習(xí)方法是必要的。在DeepId2則同時采用人臉確認(rèn)損失和人臉分類損失作為監(jiān)督信號進(jìn)行聯(lián)合深度學(xué)習(xí),使用聯(lián)合信號使類內(nèi)變化達(dá)到最小,并使不同類別的人臉圖像間距保持恒定[38],其驗(yàn)證信號僅考慮了一對樣本的誤差;在FaceNet中則直接放棄了softmax分類損失,采用Triplet Loss作為損失函數(shù),通過構(gòu)建三元組,將最近負(fù)樣本距離的大于最遠(yuǎn)正樣本的距離作為目標(biāo)函數(shù),使最終的特征表示不需要額外訓(xùn)練模型進(jìn)行分類,人臉驗(yàn)證只需直接計(jì)算倒數(shù)第二層隱層輸出的128維向量的距離即可,簡單有效。從最初的單一的多分類器到度量學(xué)習(xí)到引入,再到僅需要度量學(xué)習(xí)便可學(xué)習(xí)優(yōu)異的特征,這種轉(zhuǎn)變也直接反映出了度量學(xué)習(xí)對于人臉特征學(xué)習(xí)所起到的關(guān)鍵作用。但是值得注意的是,在度量學(xué)習(xí)中樣本對的選擇是一個不可回避的重要問題,不恰當(dāng)?shù)倪x擇策略將很有可能引起過擬合問題。
另外還有其他的提升人臉特征表達(dá)能力的方法。如在deepid系列中也通過將人臉分割多個區(qū)域、尺度,對人臉做鏡像和反轉(zhuǎn)等作為輸入形成互補(bǔ)和數(shù)據(jù)增強(qiáng)。deepface則在三維人臉圖像對齊后再輸入到網(wǎng)絡(luò)便于提取更有效的特征。還有不得不重視的是DCNN作為一種非常適合大數(shù)據(jù)的算法,更多的數(shù)據(jù)依然能夠帶來更魯棒,更具抽象能力的特征。從表1也看出了這一趨勢: DeepID系列從20萬到45萬,DeepFace 的700萬, VGGFace有2 600萬,F(xiàn)aceNet則達(dá)到2個億。
為了解釋分析DCNN內(nèi)部神經(jīng)元的特性,在deepid2+[33]中研究發(fā)現(xiàn)通過DCNN學(xué)習(xí)得到的高層次的人臉特征是中度稀疏的、對人臉身份和人臉屬性有很強(qiáng)的選擇性(特定的神經(jīng)元對特定的屬性會有持續(xù)的響應(yīng)和抑制)、對局部遮擋具有良好的魯棒性,不過本文對此目前仍抱有懷疑態(tài)度,有待今后更深入的研究成果去證明。
雖然DCNN目前已經(jīng)在人臉識別以及其他的計(jì)算機(jī)視覺任務(wù)中得以成功應(yīng)用并有成為一種通用的AI算法之勢,但應(yīng)用DCNN算法本身依然是一個不小的挑戰(zhàn),也可以說是一個主要問題,本文主要劃分為以下四點(diǎn):
1) 有監(jiān)督的學(xué)習(xí),需要大量的標(biāo)記樣本 從目前的發(fā)展?fàn)顩r來看,有監(jiān)督的學(xué)習(xí)已經(jīng)遠(yuǎn)遠(yuǎn)蓋過了無監(jiān)督學(xué)習(xí)的風(fēng)頭。而訓(xùn)練深度網(wǎng)絡(luò)需要大量的數(shù)據(jù),盡管網(wǎng)絡(luò)上有大量的數(shù)據(jù),但都雜亂無章,需要人工標(biāo)注,并且近些年的標(biāo)注成本也是水漲船高。
2) 理論研究不足 深度學(xué)習(xí)包括DCNN是一個端到端的學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò),反向傳播算法,卷積神經(jīng)網(wǎng)絡(luò)等基本的方法原理早已存在,近些年的發(fā)展也主要得益于大數(shù)據(jù),高性能計(jì)算以及各種網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練方法的改進(jìn),而實(shí)際上卻并無深層次的本質(zhì)理解,大量的研究思路簡單粗糙。因此在設(shè)計(jì)DCNN結(jié)構(gòu)以及在訓(xùn)練當(dāng)中經(jīng)常碰到的過擬合問題、梯度不穩(wěn)定的問題,除了遵循一些基本原則,更多需要通過經(jīng)驗(yàn)和直覺來進(jìn)行,這種試驗(yàn)性的研究思路增加了運(yùn)用難度。如表2所示。
表2 訓(xùn)練DCNN模型的建議
3) 局部最優(yōu)解 由于深度學(xué)習(xí)算法需要學(xué)習(xí)的目標(biāo)函數(shù)是非凸的,存在著大量的局部最小值。而訓(xùn)練中用的梯度下降算法,理論情況下會很容易停留在一個局部最小值上面。并且如果初始值的不同,即使是同樣的訓(xùn)練集也會朝著不同的方向優(yōu)化,這就給最終的結(jié)果帶來了很大的不確定性。不過大量實(shí)踐證明,對于非小網(wǎng)絡(luò),這個問題并不會引起太大的麻煩。
4) 訓(xùn)練時間長且計(jì)算資源代價不菲 深度學(xué)習(xí)由于參數(shù)較多,相比其他機(jī)器學(xué)習(xí)算法訓(xùn)練周期要長很多,近些年來其能夠流行的一大因素離不開GPU的發(fā)展。GPU成倍加快了訓(xùn)練速度,但是這些GPU售價昂貴,建立大規(guī)模的GPU集群并非一般院校能夠負(fù)擔(dān)。使用浮點(diǎn)計(jì)算的深度網(wǎng)絡(luò)要求大存儲空間和大計(jì)算量,使其在手機(jī)、移動機(jī)器人等設(shè)備上的應(yīng)用大大受阻。
LFW作為前些年來最流行的人臉測試數(shù)據(jù)集,識別率頻頻被刷新,如香港中文大學(xué)的DeepID2+,Google的FaceNet在2015年均取得了99%以上的識別率,這基本宣告了LFW競爭之戰(zhàn)的結(jié)束。在LFW上的刷分已然沒有太大意義,但現(xiàn)有臉部識別系統(tǒng)仍難以準(zhǔn)確識別超過百萬的數(shù)據(jù)量。因此,未來急需更多更具挑戰(zhàn)的公開人臉數(shù)據(jù)集。這些數(shù)據(jù)集首先應(yīng)當(dāng)滿足大規(guī)模,標(biāo)簽準(zhǔn)確等基本條件,可以是針對特定任務(wù)(如特定的年齡層或特定的場景等)的數(shù)據(jù)集,也可以是綜合(如包括各個年齡層或者各類復(fù)雜場景等)的數(shù)據(jù)集。2015年華盛頓大學(xué)為了研究當(dāng)數(shù)據(jù)集規(guī)模提升數(shù)個量級時,現(xiàn)有的臉部識別系統(tǒng)能否繼續(xù)維持可靠的識別率,發(fā)起了一個名為“MegaFace Challenge”的公開競賽,MegaFace數(shù)據(jù)集有690 572個體1 027 060張公開人臉圖像[41],難度頗大,對大規(guī)模數(shù)據(jù)的人臉識別起到了促進(jìn)作用。
影響人臉識別的諸如光照、姿態(tài)、年齡、遮擋等問題并沒有得到根本解決。對特定問題的研究有助于整體人臉識別研究的進(jìn)步。在CVPR2016上,就有許多關(guān)于人臉識別特定問題的研究工作,例如南加州大學(xué)的Masi關(guān)注了人臉識別中的大姿態(tài)變化問題。與當(dāng)前大部分利用大量數(shù)據(jù)訓(xùn)練單一模型或者矯正人臉到正臉來學(xué)習(xí)姿態(tài)不變性的方法不同,該作者通過使用五個指定角度模型和渲染人臉圖片的方法處理姿態(tài)變化[42]。中科院計(jì)算所Kan等通過嘗試移除人臉數(shù)據(jù)之間的跨模態(tài)差異性,并尋找跨模態(tài)之間的非線性的差異性和模態(tài)不變性表達(dá)解決人臉識別中的跨視圖或跨姿態(tài)問題[43]。還有意大利特倫托大學(xué)做了人臉老齡化預(yù)測的有關(guān)工作[44],這對跨越年齡的人臉識別具有很大的參考意義。
生物神經(jīng)系統(tǒng)的連接極為復(fù)雜,既有自下而上的前饋和同層遞歸,又有自上而下的反饋和來自其他神經(jīng)子系統(tǒng)的外部連接,目前的深度模型尚未對這些建模。去年MSRA的ResNet達(dá)到了驚人的152 層,解決了極深網(wǎng)絡(luò)在增加層數(shù)的同時也能保持準(zhǔn)確率的問題,也證明了極深網(wǎng)絡(luò)在其他任務(wù)中也有很好的泛化性能。而芝加哥大學(xué)的Gustav提出了一個不依賴于殘差的極深架構(gòu)FractalNet[45],作者稱該分形結(jié)構(gòu)可以自動容納過去已有的強(qiáng)大結(jié)構(gòu)。但是需要明白,這些網(wǎng)絡(luò)結(jié)構(gòu)本身也是人為設(shè)計(jì),哪個網(wǎng)絡(luò)結(jié)構(gòu)最佳,卷積層的數(shù)量多少才合適,我們不得而知。近期的網(wǎng)絡(luò)剪枝,網(wǎng)絡(luò)簡化等工作對此進(jìn)行了探討[46-47],并認(rèn)為稀疏性對于卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于人臉識別效果有提升,但該研究還處于起步階段。
另外,DCNN早在20世紀(jì)80年代就已經(jīng)基本成型,當(dāng)時未能普及的原因之一,就是缺少高效地優(yōu)化多層網(wǎng)絡(luò)的方法,如對多層神經(jīng)網(wǎng)絡(luò)進(jìn)行初始化的有效方法。盡管有Mini-Batch SGD、ResNet中的shortcut、 ReLU激活函數(shù)、Batch Normalization等促進(jìn)表達(dá)能力和加快收斂的方法。但對此仍然缺乏一個完善的理論作指導(dǎo)。對于人臉識別,深度度量學(xué)習(xí)(deep metric learning)是一個最常用的方法,更好的目標(biāo)函數(shù)能夠?qū)W到更具有區(qū)分力的特征。如上文提到的DeepFace和DeepID的contrastive loss度量,F(xiàn)acenet的triplet loss度量等都有用到deep metric learning的方法。最近的如在CVPR2016斯坦福大學(xué)提出利用訓(xùn)練批處理中所有相同標(biāo)簽的人臉對和不同標(biāo)簽的人臉對的信息進(jìn)行語義特征映射,來減少同類間距離同時增加異類間距離[48]。
在使用DCNN訓(xùn)練出的模型時可以發(fā)現(xiàn),在某個數(shù)據(jù)集上表現(xiàn)好的模型在另外一個數(shù)據(jù)集結(jié)果可能并不如意,比如使用東方人訓(xùn)練出的模型去識別西方人的人臉,或者反之。這種訓(xùn)練數(shù)據(jù)和應(yīng)用數(shù)據(jù)之間的偏差便可通過遷移學(xué)習(xí)進(jìn)行消除,簡而言之,如果這兩個領(lǐng)域之間有某種聯(lián)系、某種相似性,就只需小部分?jǐn)?shù)據(jù)在新的領(lǐng)域中重新學(xué)習(xí)即可。中科院Kan等提出的對于人臉識別的領(lǐng)域自適應(yīng)學(xué)習(xí)[49]做了相關(guān)的工作。
強(qiáng)化學(xué)習(xí)相對深度學(xué)習(xí)更古老,但由于計(jì)算瓶頸使它長時間處于靜默狀態(tài),不能處理大數(shù)據(jù)。但2015年Google的DeepMind把深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合,隱藏了很多強(qiáng)化學(xué)習(xí)的狀態(tài)個數(shù),這種隱藏使得強(qiáng)化學(xué)習(xí)能夠應(yīng)付大數(shù)據(jù),強(qiáng)化學(xué)習(xí)比DCNN在圖像上面的應(yīng)用更加復(fù)雜,更加契合人的行為。
大量有標(biāo)簽數(shù)據(jù)是DCNN的局限性之一,無監(jiān)督學(xué)習(xí)在人類和動物的學(xué)習(xí)中卻占據(jù)主導(dǎo)地位,但目前幾乎所有由人工智能創(chuàng)造的經(jīng)濟(jì)價值都來自監(jiān)督學(xué)習(xí)。CNN雖然與神經(jīng)認(rèn)知架構(gòu)有點(diǎn)相似,但是在神經(jīng)認(rèn)知中并不需要類似BP算法這種端到端的監(jiān)督學(xué)習(xí)算法。并且獲取大量無監(jiān)督數(shù)據(jù)的成本相比有標(biāo)簽數(shù)據(jù)微乎其微。各方面講,無監(jiān)督學(xué)習(xí)都是未來的趨勢,代表了人工智能的一種關(guān)鍵技能。但直接從大量的無監(jiān)督數(shù)據(jù)中學(xué)習(xí)確實(shí)非常困難,也許少量有監(jiān)督數(shù)據(jù)與大量無監(jiān)督數(shù)據(jù)結(jié)合的半監(jiān)督學(xué)習(xí)是現(xiàn)階段需要重點(diǎn)研究的方向。
另外還有如增量學(xué)習(xí)、終生學(xué)習(xí)、對抗學(xué)習(xí)、注意力模型等都是未來可能應(yīng)用在人臉識別甚至影響整個人工智能領(lǐng)域。
AFR經(jīng)過幾十年的研究發(fā)展,已經(jīng)逐漸成為一個成熟的研究領(lǐng)域。DCNN的到來,為這個領(lǐng)域注入了新的活力,并取得了顯著的效果,甚至說在某些數(shù)據(jù)集上已經(jīng)超越人類,但是否真的超越,還言之過早。對于實(shí)際應(yīng)用中的光照、抖動、模糊、遮擋、分辨率、姿態(tài)等的外在因素或性別、年齡變化、精神健康狀態(tài)、面部毛發(fā)、化妝整容、意外損傷等內(nèi)在因素依然沒有得到完全解決。對于深度學(xué)習(xí)算法的內(nèi)在原理,甚至還無從知曉,本質(zhì)上仍然是弱人工智能。兩者的結(jié)合是歷史的必然,但未來的發(fā)展還需要計(jì)算機(jī)視覺研究者們的共同努力。
[1] 山世光.人臉識別中若干關(guān)鍵問題的研究[D].中國科學(xué)院研究生院(計(jì)算技術(shù)研究所),2004.
[2] Bledsoe W W.Man-machine facial recognition[J].Rep.PRi,1966,22.
[3] Brunelli R,Poggio T.Face recognition:Features versus templates[J].IEEE transactions on pattern analysis and machine intelligence,1993,15(10):1042-1052.
[4] Turk M,Pentland A.Eigenfaces for recognition[J].Journal of cognitive neuroscience,1991,3(1):71-86.
[5] Belhumeur P N,Hespanha J P,Kriegman D J.Eigenfaces vs.fisherfaces:Recognition using class specific linear projection[J].IEEE Transactions on pattern analysis and machine intelligence,1997,19(7):711-720.
[6] Lades M,Vorbruggen J C,Buhmann J,et al.Distortion invariant object recognition in the dynamic link architecture[J].IEEE Transactions on computers,1993,42(3):300-311.
[7] Qin H,Yan J,Li X,et al.Joint training of cascaded CNN for face detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:3456-3465.
[8] Hong Z Q.Algebraic feature extraction of image for recognition[J].Pattern recognition,1991,24(3):211-219.
[9] Nakamura O,Mathur S,Minami T.Identification of human faces based on isodensity maps[J].Pattern Recognition,1991,24(3):263-272.
[10] Samaria F,Young S.HMM-based architecture for face identification[J].Image and vision computing,1994,12(8):537-543.
[11] Chen D,Cao X,Wen F,et al.Blessing of dimensionality:High-dimensional feature and its efficient compression for face verification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2013:3025-3032.
[12] Winder S A J,Brown M.Learning local image descriptors[C]//Computer Vision and Pattern Recognition,2007.CVPR’07.IEEE Conference on.IEEE,2007:1-8.
[13] Shan S,Gao W,Zhao D.Face identification from a single example image based on face-specific subspace (FSS)[C]//Acoustics,Speech,and Signal Processing (ICASSP),2002 IEEE International Conference on.IEEE,2002,2:II-2125-II-2128.
[14] Wang X,Tang X.A unified framework for subspace face recognition[J].IEEE Transactions on pattern analysis and machine intelligence,2004,26(9):1222-1228.
[15] Yang M H.Kernel Eigenfaces vs.Kernel Fisherfaces:Face Recognition Using Kernel Methods[C]//IEEE International Conference on Automatic Face and Gesture Recognition,2002.Proceedings.IEEE,2002:215-220.
[16] Zhou S K,Chellappa R.Multiple-exemplar discriminant analysis for face recognition[C]//Pattern Recognition,2004.ICPR 2004.Proceedings of the 17th International Conference on.IEEE,2004,4:191-194.
[17] Blanz V,Vetter T.A morphable model for the synthesis of 3D faces[C]//Proceedings of the 26th annual conference on Computer graphics and interactive techniques.ACM Press/Addison-Wesley Publishing Co.,1999:187-194.
[18] Blanz V,Vetter T.Face recognition based on fitting a 3D morphable model[J].IEEE Transactions on pattern analysis and machine intelligence,2003,25(9):1063-1074.
[19] Moghaddam B,Jebara T,Pentland A.Bayesian face recognition[J].Pattern Recognition,2000,33(11):1771-1782.
[20] Huang G B,Ramesh M,Berg T,et al.Labeled faces in the wild:A database for studying face recognition in unconstrained environments[R].Technical Report 07-49,University of Massachusetts,Amherst,2007.
[21] Huang G B,Lee H,Learned-Miller E.Learning hierarchical representations for face verification with convolutional deep belief networks[C]//Computer Vision and Pattern Recognition (CVPR),2012 IEEE Conference on.IEEE,2012:2518-2525.
[22] Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.
[23] Deng Jia,Dong Wei,Socher R,et al.Imagenet:A large-scale hierarchical image database[C]//Computer Vision and Pattern Recognition,2009.CVPR 2009.IEEE Conference on.IEEE,2009:248-255.
[24] Rumelhart D E,Hinton G E,Williams R J.Learning representations by back-propagating errors[J].Cognitive modeling,1988,5(3):1.
[25] Markoff J.How many computers to identify a cat? 16 000[N].New York Times,2012-06-25.
[26] LeCun Y,Boser B,Denker J S,et al.Backpropagation applied to handwritten zip code recognition[J].Neural computation,1989,1(4):541-551.
[27] LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
[28] Nair V,Hinton G E.Rectified linear units improve restricted boltzmann machines[C]//Proceedings of the 27th international conference on machine learning (ICML-10).2010:807-814.
[29] Glorot X,Bordes A,Bengio Y.Deep Sparse Rectifier Neural Networks[C]//International Conference on Artificial Intelligence and Statistics,2012.
[30] Taigman Y,Yang M,Ranzato M A,et al.Deepface:Closing the gap to human-level performance in face verification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014:1701-1708.
[31] Sun Yi,Wang Xiaogang,Tang Xiaoou.Deep learning face representation from predicting 10 000 classes[C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition,2014:1891-1898.
[32] Sun Yi,Chen Yuheng,Wang Xiaogang,et al.Deep learning face representation by joint identification-verification[C]//Advances in Neural Information Proc Systems,2014:1988-1996.
[33] Sun Yi,Wang Xiaogang,Tang Xiaoou.Deeply learned face representations are sparse,selective,and robust[C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition,2015:2892-2900.
[34] Schroff F,Kalenichenko D,Philbin J.Facenet:A unified embedding for face recognition and clustering[C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition,2015:815-823.
[35] Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition,2015:1-9.
[36] He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016:770-778.
[37] Szegedy C,Vanhoucke V,Ioffe S,et al.Rethinking the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016:2818-2826.
[38] 王曉剛,孫袆,湯曉鷗.從統(tǒng)一子空間分析到聯(lián)合深度學(xué)習(xí):人臉識別的十年歷程[J].中國計(jì)算機(jī)學(xué)會通訊,2015,11(4):8-15.
[39] Glorot X,Bengio Y.Understanding the difficulty of training deep feedforward neural networks[J].Journal of Machine Learning Research,2010,9:249-256.
[40] Ioffe S,Szegedy C.Batch normalization:Accelerating deep network training by reducing internal covariate shift[C]// Proceedings of the 32nd International Conference on Machine Learning,Lille,France,2015.
[41] Kemelmachershlizerman I,Seitz S M,Miller D,et al.The MegaFace Benchmark:1 Million Faces for Recognition at Scale[C]//Computer Vision and Pattern Recognition.IEEE,2016:4873-4882.
[42] Masi I,Rawls S,Medioni G,et al.Pose-Aware Face Recognition in the Wild[C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition,2016:4838-4846.
[43] Kan M,Shan S,Chen X.Multi-view Deep Network for Cross-View Classification[C]//IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2016:4847-4855.
[44] Wang W,Cui Z,Yan Y,et al.Recurrent Face Aging[C]//IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2016:2378-2386.
[45] Larsson G,Maire M,Shakhnarovich G.FractalNet:Ultra-Deep Neural Networks without Residuals[J].arXiv preprint arXiv:1605.07648,2016.
[46] Sun Y,Wang X,Tang X.Sparsifying Neural Network Connections for Face Recognition[J].Computer Science,2015:4856-4864.
[47] Han S,Pool J,Tran J,et al.Learning both weights and connections for efficient neural network[C]//Advances in Neural Information Proc Systems,2015:1135-1143.
[48] Song H O,Xiang Y,Jegelka S,et al.Deep metric learning via lifted structured feature embedding[J].arXiv preprint arXiv:1511.06452,2015.
[49] Kan Meina,Wu Junting,Shan Shiguang,et al.Domain Adaptation for Face Recognition:Targetize Source Domain Bridged by Common Subspace[J].International Journal of Computer Vision,2014,109(1-2):94-109.