楊浩 許允執(zhí) 于小爽 韓秦 王穎
摘要:近年來,隨著深度學(xué)習(xí)的發(fā)展與應(yīng)用,人臉識別領(lǐng)域欣欣向榮。年齡識別作為人臉識別的一個非同小可的分支,能夠輔助人臉識別更加迅速、精準(zhǔn)地完成任務(wù)。人臉會由于老化而呈現(xiàn)出不同的復(fù)雜特征,針對由年齡變化引起的一系列人臉識別問題,大量學(xué)者投入到對年齡進(jìn)行分類的問題研究中。本文圍繞基于深度學(xué)習(xí)的年齡識別,闡述了年齡識別目前的發(fā)展現(xiàn)狀及較主流的思想。首先,簡要概述了神經(jīng)網(wǎng)絡(luò)的發(fā)展,對各種年齡識別方法進(jìn)行了簡單比較并闡述了各自的優(yōu)缺點,分析了不斷演進(jìn)優(yōu)化的CNN框架結(jié)構(gòu)。其次從人臉檢測、特征提取等方面,對二者的基本思想和原理進(jìn)行總結(jié),并對人臉年齡識別的整個流程進(jìn)行了梳理。
關(guān)鍵詞:深度學(xué)習(xí);年齡識別;CNN框架;人臉檢測;特征提取
中圖分類號:TP18? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2021)29-0095-04
1引言
計算機(jī)視覺作為計算機(jī)學(xué)科的一大分支,在近些年的發(fā)展十分迅速。圖像識別也從最開始進(jìn)行簡單的數(shù)字和形狀識別發(fā)展到了現(xiàn)在對各種復(fù)雜物體的識別。其中我們最熟悉的便是計算機(jī)對于人臉的識別,近些年大數(shù)據(jù)和深度學(xué)習(xí)網(wǎng)絡(luò)的高速發(fā)展,給人臉的識別提供了極佳的發(fā)展環(huán)境,加上越來越多的開源數(shù)據(jù)庫的成立,對于人臉識別的研究在近幾年達(dá)到高潮。
人臉年齡識別是人臉識別問題的一個子集,人臉的年齡估計有比較廣泛的應(yīng)用范圍,人臉是一個隨時間變化的屬性,年齡的變化可能會給常規(guī)的人臉識別帶來誤差,增加人臉識別的誤識率,這種情況就可以根據(jù)年齡估計系統(tǒng)快速對人臉屬性進(jìn)行年齡歸類,然后對系統(tǒng)中儲存的圖像進(jìn)行年齡修正,允許部分臉部特征的匹配,從而減小年齡的變化對人臉識別的影響。除了圖像的跨年齡識別外,圖像識別還能應(yīng)用在人員的快速篩查系統(tǒng)當(dāng)中,在有大量人員的圖像或者視頻當(dāng)中如果想要對人群進(jìn)行年齡分類的話,如果對所有人的面部特征進(jìn)行逐一搜索識別然后提取屬性信息的話會花費(fèi)大量的時間代價。如果僅僅對每個人的面部特征進(jìn)行提取并進(jìn)行年齡估計的話,便能很快地將人群按年齡分類。
2基于深度學(xué)習(xí)的人臉年齡識別
圖像識別廣義上是為了將不同類別的圖像劃分到不同的類別中。對于形體規(guī)則物體的分類,傳統(tǒng)的圖像識別算法能夠有效的完成分類,但是對于具有復(fù)雜的特征的形體進(jìn)行分類的話,傳統(tǒng)的圖像識別技術(shù)效果不是很好,往往伴隨著復(fù)雜的預(yù)處理過程。深度學(xué)習(xí)的興起也給圖像識別提供了合適的解決方案,利用大量的訓(xùn)練集對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練然后投入到識別任務(wù)中。人臉年齡識別便是根據(jù)人臉特稱進(jìn)行特征分析,然后分類的過程。人臉年齡識別相比于人臉識別來說要求相對要低很多,不需要對人臉進(jìn)行匹配,只需要根據(jù)提取出來的人臉特征進(jìn)行年齡分類。所以年齡識別的過程和人臉識別的過程非常相似。基于深度學(xué)習(xí)的人臉年齡識別大致可以分為如下過程:卷積神經(jīng)網(wǎng)絡(luò)的搭建和訓(xùn)練,人臉的檢測,年齡預(yù)測[1]。
2.1年齡識別研究
在目前的研究中,常用的年齡識別方法有:多分類法(multi-class),度量回歸法(metric regression),排序(ranking),深度標(biāo)簽分布學(xué)習(xí)(deep label distribution learning)和混合法(hyrid)[2]。
這些方法在年齡識別領(lǐng)域各放異彩。其中,Rothe等人[3]應(yīng)用DEX(deep expection of apparent age)將多分類法與回歸法相結(jié)合以解決年齡回歸問題,把年齡分為101類,即0-100歲,通過VGG-16網(wǎng)絡(luò)框架提取特征。這種方法較簡單的回歸法魯棒性和性能更強(qiáng),在2015 Chalern LAP斬獲第一。
Chen等人[4]將年齡估計轉(zhuǎn)化為排序問題,提出基于CNN 的 ranking-CNN進(jìn)行年齡預(yù)測,將年齡估計轉(zhuǎn)化為一個排序問題。該構(gòu)架具有一系列經(jīng)過“常規(guī)年齡標(biāo)簽”訓(xùn)練的基本CNN,通過合計這些基礎(chǔ)CNN輸出的二分類結(jié)果,得到年齡預(yù)測結(jié)果。大量實驗證明,此方法較“多類”分類技術(shù)有較小的誤差。
關(guān)于其他的研究進(jìn)展,我們將會在后文中詳細(xì)討論。通過這些案例可看出深度學(xué)習(xí)網(wǎng)絡(luò)已廣泛應(yīng)用于圖像識別領(lǐng)域,并在年齡識別領(lǐng)域中發(fā)揮著非同凡響的作用。
2.2神經(jīng)網(wǎng)絡(luò)
深度學(xué)習(xí)是圖像識別的一個非常重要的工具,深度學(xué)習(xí)的研究最早可以追溯到20世紀(jì),由于受到硬件性能的約束,深度學(xué)習(xí)的研究沒落了一段時間。但隨著21世紀(jì)硬件性能的高速躍進(jìn),也為深度學(xué)習(xí)網(wǎng)絡(luò)的實現(xiàn)奠定了基礎(chǔ),對于深度學(xué)習(xí)網(wǎng)絡(luò)的研究又重新進(jìn)入了一個新的時代。LeCun于1998年提出了LeNet-5[5],LeNet提出了把神經(jīng)網(wǎng)絡(luò)和卷積結(jié)合的想法,而這也成為了一種影響巨大的卷積神經(jīng)網(wǎng)絡(luò),卷積和池化這兩個概念也正是由此產(chǎn)生。而隨著深度學(xué)習(xí)持續(xù)發(fā)展,到了2012年,在ImageNet 比賽中,由Alex Krizhevshy提出的AlexNet[6],一舉奪下當(dāng)年比賽的冠軍。而在這之后,研究者又陸續(xù)提出了各種卷積神經(jīng)網(wǎng)絡(luò)的模型,比如 VG-GNet,GoogleNet,深度殘差網(wǎng)絡(luò)等[7]。
VGG模型是由牛津大學(xué)在2014年提出的卷積神經(jīng)網(wǎng)絡(luò)模型,相比于AlexNet神經(jīng)網(wǎng)絡(luò),VGG 網(wǎng)絡(luò)旨在加深網(wǎng)絡(luò)以提高性能,該模型與2014的ILS-VRC定位和分類的兩個比賽上分別取得了第一和第二的優(yōu)秀成績,VGG模型的錯誤率大幅下降,該模型拓展性極強(qiáng),被廣泛應(yīng)用與圖像協(xié)同定位,物體候選框生成和細(xì)粒度圖像定位等方面。
GoogLeNet模型是2014年 ILSVRC Classification 比賽冠軍[8],該網(wǎng)絡(luò)與VGG 網(wǎng)絡(luò)錯誤率相接近。但是結(jié)構(gòu)上與VGG相比卻更加復(fù)雜,GoogLeNet是一個22層深的網(wǎng)絡(luò)。提高神經(jīng)網(wǎng)絡(luò)的性能的方法通常是增加模型的深度和寬度,但是隨著模型寬度和深度的增加,往往會產(chǎn)生一系列的問題,例如隨著深度和寬度的加深加大,網(wǎng)絡(luò)模型的參數(shù)也會隨之增加,而參數(shù)的增加就提高了對學(xué)習(xí)樣本數(shù)量的要求,但實際供模型學(xué)習(xí)的訓(xùn)練數(shù)據(jù)往往都很有限,這將導(dǎo)致過擬合的問題;而網(wǎng)絡(luò)復(fù)雜度的增大又會消耗額外的計算資源。再者,隨著網(wǎng)絡(luò)深度的加大,梯度也更容易消失,這會導(dǎo)致模型性能的進(jìn)一步下降,而且也難以對此進(jìn)行優(yōu)化。GoogLeNet模型便是為了解決上述問題而出現(xiàn)的,它提出了一種inception 的網(wǎng)絡(luò)結(jié)構(gòu),并除去了最后的全連接層,用全局平均池化層代替。
殘差網(wǎng)絡(luò)ResNet[9]與GoogLeNet模型一樣,也是為了解決隨著網(wǎng)絡(luò)深度增加而使梯度在反向傳播過程中消失從而導(dǎo)致誤差的增大問題。殘差網(wǎng)絡(luò)是通過在前饋神經(jīng)網(wǎng)絡(luò)上增加一個跳躍,將單元的輸入和輸出進(jìn)行直接的連接,從而實現(xiàn)了快捷連接,而這解決了梯度值在反向傳播過程中消失的問題。
2.3人臉檢測
隨著深度學(xué)習(xí)網(wǎng)絡(luò)的發(fā)展與應(yīng)用的逐漸成熟,被用于進(jìn)行圖像識別的神經(jīng)網(wǎng)絡(luò)精度也日趨提高和完善,這為人臉年齡分類的實現(xiàn)打下了基礎(chǔ)。而在圖像輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行分類之前,應(yīng)當(dāng)先找到圖像中的感興趣區(qū)域(ROI),也就是人臉區(qū)域。而目前,對于人臉檢測并提取ROI 的算法已經(jīng)較為成熟。
2.3.1早期算法
早期人臉檢測算法使用的是模板匹配技術(shù),即使用人臉模板圖像和被檢測圖像中的對應(yīng)位置進(jìn)行匹配比較,并以此來確定該位置是否有人臉。其中早期最有代表性的是Rowley等人提出的方法。在文獻(xiàn)[10]中的方法解決了人臉的正面檢測問題。
文獻(xiàn)[11]中解決了多角度人臉檢測的問題
雖然 Rowley 的方法有較好的精度,但因為分類器相對復(fù)雜,再加之采用了密集滑動窗口進(jìn)行采樣分析,導(dǎo)致其檢測速度較慢。
2.3.2 AdaBoost框架
Adaboost算法是基于PAC學(xué)習(xí)理論建立的一種集成學(xué)習(xí)算法,它通過針對同一個訓(xùn)練集訓(xùn)練多個不同的簡單弱分類器,并由此構(gòu)建出準(zhǔn)確率很高的強(qiáng)分類器。而PAC學(xué)習(xí)理論驗證了這一方法的可行性。在2001年Viola 和Jones設(shè)計了一種人臉檢測算法[12],檢測速度在較之前的方法有大幅提升的同時,又維持了較好的精度。這種算法的出現(xiàn),奠定了基于Ada? Boost 目標(biāo)檢測框架的基礎(chǔ)。
2.3.3深度學(xué)習(xí)框架
在卷積神經(jīng)網(wǎng)絡(luò)被應(yīng)用于圖像分類問題上并取得成功之后,便開始被用于人臉檢測。而其精度也大幅超越之前的Ada? Boost框架。目前,已有 Cascade CNN,DenseBox,F(xiàn)aceness-Net, MTCNN等高效高精度的算法。
Cascade CNN[13]可被認(rèn)為是傳統(tǒng)技術(shù)和深度網(wǎng)絡(luò)相結(jié)合的例子。它也包含了多個單獨的分類器,這些分類器采用級聯(lián)結(jié)構(gòu)進(jìn)行組織。
Faceness-Net[14]是使用的一種由粗到細(xì)的工作流,使用多個基于 DCNN 網(wǎng)絡(luò)的facialparts分類器對人臉圖像進(jìn)行打分,并根據(jù)每個部件的得分分析規(guī)則,得到Proposal 的人臉區(qū)域,最后通過一個Refine 網(wǎng)絡(luò)并由此得到最終檢測結(jié)果。
MTCNN[15]是一個多任務(wù)的方法。基于Cascade框架,但相較 Cascade CNN 整體思路更加合理。相較于 Cascade CNN 的12-net需要在整張圖片做密集窗口采樣進(jìn)行分類的低效做法, MTCNN在第一階段PNet使用的是全卷積網(wǎng)絡(luò),其優(yōu)點在于可以輸入任意大小尺寸的圖像,同時將使用滑動窗口的運(yùn)算改為卷積運(yùn)算來代替,又使得效率得到了提高。
2.4特征提取
特征提取是人臉識別中最基本的問題之一,特征提取能從原始模式信息中提取出最有利于模式分類的特征,而且能極大地降低模式樣本地維數(shù)。特征提取的有效性是解決人臉識別的關(guān)鍵之一。人臉特征提取的主要方法如下:
2.4.1基于幾何特征的方法
基于幾何特征的方法通過提取人臉面部具有代表性的部位如眼睛,鼻子嘴巴的相對位置和相對大小作為特征,再輔助人臉輪廓作為特征。但是該方法容易受光照,表情,遮擋等因素的影響導(dǎo)致穩(wěn)定新不高。
2.4.2基于子空間分析方法
把高維空間中松散分布的人臉圖像通過線性或者非線性變換壓縮到一個低維的子空間中去,使人臉圖像的分布在低維子空間中更緊湊,更有利于分類,也使高維計算的減小到低維的計算,在一定程度上緩解了“維數(shù)災(zāi)難”。
基于子空間分析現(xiàn)已經(jīng)成為人臉識別的主流方法之一,因為其方法不僅能減少計算復(fù)雜性,也能提高問題的可分性。正是由于基于可分性準(zhǔn)則的線性判別分析使之具有一定的優(yōu)越性[16]。
2.4.3基于小波理論的人臉識別方法
小波分析又被譽(yù)為“數(shù)學(xué)顯微鏡”,人臉圖像屬于二維數(shù)據(jù),對人臉圖像數(shù)據(jù)進(jìn)行小波變換,表示人臉時采用低頻圖像數(shù)據(jù)不但可以降低圖像的復(fù)雜性而且能使特征更為有效[17]。小波的多分辨率分析是圖像識別的有效工具,也是我們對圖像進(jìn)行降維處理的有力工具。因為很容易將一維小波推廣到二維乃至更高維數(shù)的情景,所以在人臉識別中小波的作用也越來越明顯。
2.4.4基于隱馬可夫模型識別
在人臉識別過程中,我們往往不是單獨的用人臉的無關(guān)這些相對獨立的特征來進(jìn)行的,而是把人臉作為一個整體來考慮。而隱馬可夫模型[18]恰恰很好地描述了這個過程?;陔[馬可夫模型允許人臉有豐富地表情變化,而且有較高地識別率,較好的擴(kuò)容性。
3總結(jié)
人臉年齡的識別過程前期工作和人臉識別的工作大致相同,前期也有圖像預(yù)處理,人臉檢測和特征提取的過程。不同的地方在于人臉年齡是一個人臉的一個屬性,年齡檢測屬于一種分類問題,而人臉識別需要從提取出來的人臉特征進(jìn)行匹配,是一種匹配搜索問題。所以人臉年齡的識別很多地方可以借用人臉識別的方法處理。人臉識別最重要的兩步工作決定了識別的成功與否:人臉檢測和特征提取。人臉檢測的目的就是判定一張圖片中是否有人臉的存在并且返回人臉?biāo)诘膮^(qū)域范圍,優(yōu)秀的人臉檢測算法不僅能提高識別的準(zhǔn)確性,也能在一定程度減少數(shù)據(jù)的維度,加快識別的速率。目前最常用的人臉檢測方法主要為adaboost框架和基于深度學(xué)習(xí)的框架,基于深度學(xué)習(xí)的檢測框架在精度上遠(yuǎn)超adaboost的識別框架,也是未來發(fā)展的一個大方向。另外一個重要的工作便是特征提取,特征提取能從原模式中提取出有利于我們分析的數(shù)據(jù)信息,極大降低了數(shù)據(jù)的維度,能提高識別的速率和準(zhǔn)確性。當(dāng)前人臉識別最廣泛的方法便是使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和識別,自八層的alexnet網(wǎng)絡(luò)問世并獲得圖像識別比賽的冠軍后,各種卷積神經(jīng)網(wǎng)絡(luò)如雨后春筍般出現(xiàn)如VGGNet以及GoogleNet,識別的精度度和準(zhǔn)確性越來越高,也為人臉年齡的識別提供了理論和實踐的基礎(chǔ)。
參考文獻(xiàn):
[1]楊巨成,劉娜,房珊珊,等.基于深度學(xué)習(xí)的人臉識別方法研究綜述[J].天津科技大學(xué)學(xué)報,2016,31(6):1-10.
[2] Agbo-AjalaO,ViririS.Deep learning approach for facial age classification:a survey of the state-of-the-art[J].Artificial Intelligence Review,2021,54(1):179-213.
[3] RotheR,TimofteR,Van Gool L.Deep expectation of real and apparent age from a single image without facial landmarks[J]. International Journal of Computer Vision, 2018, 126(2/3/4):144-157.
[4] Chen S X,Zhang C J,DongM,etal.Using ranking-CNN for age estimation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). July 21-26, 2017, Honolulu, HI, USA.IEEE,2017:742-751.
[5] LeCunY,BottouL,BengioY,etal.Gradient-based learning ap? plied to document recognition[J].Proceedings of the IEEE,1998, 86(11):2278-2324.
[6] KrizhevskyA,SutskeverI,Hinton G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90.
[7]周飛燕,金林鵬,董軍.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計算機(jī)學(xué)報,2017,40(6):1229-1251.
[8] SzegedyC,LiuW,Jia Y Q,etal.Going deeper with convolutions [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 7-12, 2015, Boston, MA, USA. IEEE, 2015:1-9.
[9] He K M,Zhang X Y,Ren S Q,etal.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vi?sion and Pattern Recognition (CVPR). June 27-30, 2016, Las Vegas,NV,USA.IEEE,2016:770-778.
[10] Rowley H A,BalujaS,KanadeT.Neural network-based face detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(1):23-38.
[11] Rowley H A,BalujaS,KanadeT.Rotation invariant neural net? work-based face detection[R]. Defense Technical Information Center,1997.
[12] Li S Z,ZhuL,Zhang Z Q,etal.Statistical learning of multi- view face detection[M]//Computer Vision — ECCV 2002.Ber?lin,Heidelberg:Springer Berlin Heidelberg,2002:67-81.
[13] Li H X,LinZ,Shen X H,etal.A convolutional neural network cascade for face detection[C]//2015 IEEE Conference on Com?puter Vision and Pattern Recognition (CVPR).June 7-12,2015, Boston,MA,USA.IEEE,2015:5325-5334.
[14] Yang S, Luo P, Loy C C, et al. Faceness-net: face detection through deep facial part responses[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,40(8):1845-1859.
[15] Zhang K P,Zhang Z P,Li Z F,etal.Joint face detection and alignment using multitask cascaded convolutional networks[J]. IEEE Signal Processing Letters,2016,23(10):1499-1503.
[16]葛微,程宇奇,劉春香,等.基于子空間分析的人臉識別方法研究[J].中國光學(xué)與應(yīng)用光學(xué),2009,2(5):377-387.
[17]許亞軍,李瑋欣.基于Gabor小波變換和神經(jīng)網(wǎng)絡(luò)的人臉識別研究 [J].中國電子科學(xué)研究院學(xué)報 , 2017, 12(5):534-539,550.
[18]朱小艷,汪曉華.人臉識別的分析與實現(xiàn)[J].商丘職業(yè)技術(shù)學(xué)院學(xué)報,2005,4(5):25-26.
【通聯(lián)編輯:唐一東】