任延富,劉奇聰
(1.四川大學(xué)視覺合成圖形圖像技術(shù)國防重點(diǎn)實(shí)驗(yàn)室,成都 610065;2.四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)
人臉檢測是人臉相關(guān)任務(wù)的最基本的步驟,在實(shí)際應(yīng)用中,移動(dòng)端對(duì)算法的實(shí)時(shí)性要求越來越高,人臉識(shí)別任務(wù)需要人臉檢測、人臉特征點(diǎn)檢測作為前提,然而人臉特征點(diǎn)檢測還與頭部姿態(tài)估計(jì)有密切的關(guān)系。所以我們利用人臉特征點(diǎn)和頭部姿態(tài)估計(jì)與人臉檢測的內(nèi)在關(guān)系提出基于多任務(wù)的人臉檢測算法。
十多年前V-J真正的把人臉檢測算法從理論應(yīng)用到了實(shí)際,利用Haar的人工特征的級(jí)聯(lián)結(jié)構(gòu)和集成算法進(jìn)行快速的人臉檢測。但是該人臉檢測算法由于采用的人工設(shè)計(jì)的特征,表達(dá)能力有限,所以對(duì)頭部姿態(tài)比較大的人臉檢出率非常低,并且對(duì)光照的變化也不是很魯棒,但是基本達(dá)到了實(shí)時(shí)的檢測速度。
在傳統(tǒng)方法中,聯(lián)合多任務(wù)的人臉檢測也有許多研究學(xué)者進(jìn)行研究。他們發(fā)現(xiàn)人臉相關(guān)的任務(wù)很大程度上與人臉檢測相關(guān),并且他們之間可以相輔相成。孫劍等進(jìn)行人臉特征點(diǎn)檢測與人臉檢測的聯(lián)合任務(wù)的研究,實(shí)驗(yàn)證明了利用人臉特征點(diǎn)特征來同時(shí)判斷人臉檢測結(jié)果可以有效的降低誤檢率和提高召回率。他們利用像素差值特征進(jìn)行提取人臉關(guān)鍵點(diǎn)特征,進(jìn)而進(jìn)行人臉特征點(diǎn)和是否是人臉的判斷。像素差值特征表達(dá)能力弱,對(duì)于頭部姿態(tài)極端的人臉非常受限。
考慮到頭部姿態(tài)與人臉檢測的關(guān)系,朱翔宇等提出多視角人臉模型進(jìn)行頭部姿態(tài)和人臉特征點(diǎn)檢測的人臉檢測算法,首次把三個(gè)任務(wù)結(jié)合到一個(gè)算法中,通過不同視角的模型進(jìn)行不同頭部姿態(tài)的估計(jì),同時(shí)檢測出對(duì)應(yīng)視角的人臉特征點(diǎn),進(jìn)而來判斷是否是人臉。雖然把三個(gè)任務(wù)結(jié)合到一個(gè)框架中,但是測試速度非常慢,一張圖片需要幾秒才能完全得出結(jié)果,完全應(yīng)用不到實(shí)際當(dāng)中。
近幾年,卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域取得了非常大的進(jìn)步。例如圖像分類和人臉識(shí)別任務(wù)。利用卷積神經(jīng)網(wǎng)絡(luò)可以自動(dòng)的提取訓(xùn)練數(shù)據(jù)中的特征,相比于手工設(shè)計(jì)的特征表達(dá)更具有泛化性。但是使用卷積神經(jīng)網(wǎng)絡(luò)會(huì)導(dǎo)致速度瓶頸問題,所以我們采用兩個(gè)策略,首先盡量使用淺層網(wǎng)絡(luò)進(jìn)行提取特征,但是這樣會(huì)導(dǎo)致提取的特征泛化性弱,可能對(duì)訓(xùn)練集樣本表達(dá)不完全,所以我們采用級(jí)聯(lián)結(jié)構(gòu)從粗到細(xì)進(jìn)行人臉檢測,淺層網(wǎng)絡(luò)把容易負(fù)樣本和正樣本進(jìn)行粗略的選擇,把更加難判斷的負(fù)樣本讓后面較深的網(wǎng)絡(luò)進(jìn)行判斷。
利用級(jí)聯(lián)結(jié)構(gòu)在淺層網(wǎng)絡(luò)中可以快速地拒絕簡單的負(fù)樣本,而把困難負(fù)樣本和正樣本在更加深的網(wǎng)絡(luò)層去判斷,深的網(wǎng)絡(luò)特征表達(dá)能力更強(qiáng),而淺層網(wǎng)絡(luò)檢測速度更快。在最終的ONet網(wǎng)絡(luò)中,輸出人臉關(guān)鍵點(diǎn)和頭部姿態(tài)。三個(gè)網(wǎng)絡(luò)都輸出邊框回歸,通過回歸人臉候選框可以更好地進(jìn)行非極大值抑制算法,盡可能地保持召回率和減少誤檢的可能。
Conv表示卷積層,后面數(shù)字表示卷積核,并且卷積層全部采用步長為1。MP表示最大值池化層,后面數(shù)字表示池化層核。對(duì)于人臉分類任務(wù)采用交叉熵?fù)p失函數(shù),其他任務(wù)均采用歐氏距離損失函數(shù),并且它們的權(quán)重都設(shè)置為1。詳細(xì)網(wǎng)絡(luò)結(jié)構(gòu)參考圖1。
圖1
測試階段通過圖像金字塔進(jìn)行尺度不變轉(zhuǎn)換,對(duì)每個(gè)尺度進(jìn)行PNet,把PNet得到的結(jié)果進(jìn)行邊框回歸得到更準(zhǔn)確的候選框并送入RNet的輸入,最后通過ONet網(wǎng)絡(luò)得到候選框的人臉特征點(diǎn)和人臉位置和頭部姿態(tài)。頭部姿態(tài)為三維信息,分別為俯仰角(Pitch)、旋轉(zhuǎn)角(Yaw)和偏轉(zhuǎn)角(Roll),詳細(xì)過程參考圖2。
訓(xùn)練人臉檢測采用WIDER-FACE數(shù)據(jù)庫,人臉特征點(diǎn)數(shù)據(jù)利用CelebA數(shù)據(jù)庫,頭部姿態(tài)數(shù)據(jù)采用AFLW數(shù)據(jù)庫進(jìn)行數(shù)據(jù)的取樣,評(píng)估添加多任務(wù)的方法對(duì)人臉檢測的提升。只有在ONet中才添加人臉特征點(diǎn)和頭部姿態(tài)數(shù)據(jù),并且這兩個(gè)任務(wù)都采用回歸方式進(jìn)行輸出。
在FDDB數(shù)據(jù)庫對(duì)人臉檢測結(jié)果進(jìn)行評(píng)估。采用離散和連續(xù) IoU(Intersection-over-Union)方式進(jìn)行評(píng)估。
圖2
圖3
圖4
圖3和圖4分別表示離散ROC曲線和連續(xù)ROC曲線,通過兩個(gè)圖可知添加多任務(wù)可以增加人臉檢測的召回率,并且可以減少誤檢。
圖5
本文給出了級(jí)聯(lián)結(jié)構(gòu)聯(lián)合多任務(wù)進(jìn)行人臉檢測算法,把人臉特征點(diǎn)與頭部姿態(tài)與人臉檢測的內(nèi)在關(guān)系聯(lián)系起來提升人臉檢測任務(wù),同時(shí)可以得到相對(duì)準(zhǔn)確的人臉特征點(diǎn)信息和三維的頭部姿態(tài)信息。該方法對(duì)于遮擋、光照和姿態(tài)等多種挑戰(zhàn)具有很好的魯棒性。并且相比于其他深度神經(jīng)網(wǎng)絡(luò)人臉檢測方法有更快速度,完全可以應(yīng)用到實(shí)際場景中。未來我們要討論其他的人臉任務(wù)與人臉檢測的關(guān)系來進(jìn)一步提升人臉檢測的效果。
[1]P.Viola,M.J.Jones.Robust Real-time Face Detection,International Journal of Computer Vision,2004,57(2):137-154.
[2]D.Chen,S.Ren,Y.Wei,X.Cao,J.Sun,Joint Cascade Face Detection and Alignment,in:European Conference on Computer Vision(ECCV)2014,2014.
[3]X.Zhu,D.Ramanan,Face Detection,Pose Estimation,and Landmark Localization in the Wild,in:Computer Vision and Pattern Recognition(CVPR),2012 IEEE Conference on,IEEE,2012:2879-2886.
[4]V.Jain,E.Learned-Miller,FDDB:A Benchmark for Face Detection in Unconstrained Settings,Tech.Rep.,University of Massachusetts,Amherst(2010).
[5]A.Krizhevsky,I.Sutskever,G.E.Hinton.Imagenet Classification with Deep Convolution Neural Networks.in Advances in Neural Information Processing Systems,2012:1097-1105.
[6]Y.Sun,Y.Chen,X.Wang,X.Tang.Deep Learning Face Representation by Joint Identification-Verification.in Advances in Neural Information Processing Systems,2014:1988-1996.
[7]S.Yang,P.Luo,C.C.Loy,X.Tang.WIDER FACE:A Face Detection Benchmark.arXiv Preprint arXiv:1511.06523.
[8]Z.Liu,P.Luo,X.Wang,X.Tang.Deep Learning Face Attributes in the Wild.in IEEE International Conference on Computer Vision,2015:3730-3738.
[9]M.K Stinger,P.Wohlhart,P.M.Roth,H.Bischof.Annotated Facial Landmarks in the Wild:A Large-Scale,Real-World Database for Facial Land-Mark Localization.in IEEE Conference on Computer Vision and Pattern Recognition Workshops,2011:2144-2151.