(中國科學技術(shù)大學 信息科學技術(shù)學院,合肥 230027)
人臉關(guān)鍵點對于理解和分析人臉面部行為至關(guān)重要,人臉關(guān)鍵點定位的優(yōu)劣能夠直接影響人臉識別[1]、表情分析[2]或頭部姿態(tài)估計[3]等應用的最終性能。人臉關(guān)鍵點跟蹤是計算機視覺領(lǐng)域一個重要且富有挑戰(zhàn)性的課題。隨著300-VW挑戰(zhàn)的推動以及300-VW數(shù)據(jù)集[4-6]的開放,人臉關(guān)鍵點跟蹤問題受到了越來越多的關(guān)注。
當前,人臉關(guān)鍵點定位方法大致可分為3類:即基于主動外觀模型(Active Appearance Model,AAM)[7]的方法、基于約束局部模型(Constrained Local Model,CLM)[8]方法和級聯(lián)回歸方法[9]。后者在精度和速度兩方面都表現(xiàn)出比前兩者更好的性能,因而受到廣泛關(guān)注。然而,級聯(lián)回歸方法的主要局限性在于其具有初始化依賴性,即初始化的優(yōu)劣將對模型的定位精度產(chǎn)生重要影響。此外,利用深度學習的人臉關(guān)鍵點定位方法[10]盡管獲得了很高的精度,但由于所需計算資源過高,難以改變?yōu)閷崟r的人臉關(guān)鍵點跟蹤方法。
近幾年,一些人臉關(guān)鍵點跟蹤方法相繼被提出。文獻[11]在多視角AAM框架下,通過隨機森林和線性判別分析對跟蹤的人臉實時更新精確的姿態(tài)信息,但該方法泛化能力不佳,跟蹤速度慢。文獻[12]提出一種在線參考外觀模型,利用增量學習在線更新AAM的紋理模型和參考模型,在無需訓練集的情況下實現(xiàn)人臉關(guān)鍵點跟蹤,但該方法跟蹤精度不高,魯棒性較差。文獻[13]將基于樹的可變形部件模型(Deformable Part Model,DPM)人臉關(guān)鍵點檢測器進行調(diào)整,逐幀應用靜態(tài)人臉關(guān)鍵點檢測器,使用卡爾曼濾波器獲取穩(wěn)定的人臉框并補償可能存在的人臉檢測器失敗,但該方法沒有利用視頻序列的幀間相關(guān)性,跟蹤魯棒性較差,速度慢。文獻[14]提出形狀擴充回歸方法,為不同人臉形狀自動選擇回歸函數(shù)。該方法也沒有充分考慮視頻序列的幀間相關(guān)性。文獻[15]利用多視角級聯(lián)形狀回歸降低形狀回歸模型構(gòu)造過程中的形狀變化。該方法不能較好地處理復雜場景下的人臉關(guān)鍵點跟蹤。文獻[16]通過多步級聯(lián)回歸方法獲得了較穩(wěn)定的人臉關(guān)鍵點跟蹤。然而,該方法過于龐大的模型限制了該方法的實際應用。
本文在上述研究的基礎(chǔ)上,對回歸局部二值特征(Local Binary Features,LBF)[17]算法進行擴展,為處理初始化敏感問題,利用顯著關(guān)鍵點選擇更魯棒的初始形狀,提出一種魯棒的人臉關(guān)鍵點實時跟蹤方法。
Dollar等人[9]在2010年提出級聯(lián)姿態(tài)回歸(Cascaded Pose Regression,CPR)用于二維目標姿態(tài)估計。由于級聯(lián)回歸方法具有快速精確的特點,之后被廣泛用于預測人臉形狀。例如,文獻[18]提出顯示形狀回歸(Explicit Shape Regression,ESR)算法,文獻[17]利用回歸LBF獲得了快速精確的人臉關(guān)鍵點定位。
級聯(lián)形狀回歸的主要思想是:通過疊加的方式將一系列的回歸器組合起來,近似初始形狀與真實形狀之間復雜的非線性映射。級聯(lián)形狀回歸是一種迭代的回歸方法,以級聯(lián)的方式構(gòu)建L個關(guān)鍵點的形狀回歸,其第k-1級回歸的輸出被用于第k級回歸的輸入,每一級的回歸器依賴當前估計形狀提取圖像特征,可表示如下:
Sk=Sk-1+rk(Φk(I,Sk-1))
(1)
級聯(lián)回歸預測人臉關(guān)鍵點形狀可進一步簡化為:
SK=RK(I,S0)
(2)
其中,RK代表一個K級的級聯(lián)回歸器,該回歸器由一組弱回歸器rk(k=1,2,…,K)構(gòu)成,將圖像I和初始形狀S0輸入該回歸器,最終得到估計形狀SK。由式(2)不難看出,初始形狀的選擇對于級聯(lián)回歸方法的最終結(jié)果至關(guān)重要。
(3)
(4)
用于靜態(tài)圖像的人臉關(guān)鍵點檢測算法往往利用平均形狀或多個隨機形狀進行初始化,若直接將之用于人臉關(guān)鍵點跟蹤,則忽視了視頻圖像序列相鄰幀之間的相關(guān)性,將導致人臉關(guān)鍵點跟蹤出現(xiàn)嚴重抖動、魯棒性差、速度慢等問題。
在之前的人臉關(guān)鍵點跟蹤中[14,21],通常直接將前一幀的人臉形狀直接作為當前幀的初始形狀,這并不能保證能夠為當前幀提供一個好的初始化。在通常的回歸方法中,形狀約束信息被顯式地[14]或隱式地[17-18]嵌入在模型中,即關(guān)鍵點位置彼此相關(guān),因此,有些特征較少、難以準確檢測的關(guān)鍵點(如人臉輪廓、眉毛和鼻梁上的關(guān)鍵點)將會促使整個初始形狀很快偏移,進而導致人臉關(guān)鍵點跟蹤惡化。
利用相似變換最小化人臉形狀與平均形狀之間的L2距離,對人臉形狀對齊到平均形狀進行規(guī)格化:
(5)
注意到在人工標注大量關(guān)鍵點時,往往是先將一些判別特征明顯的關(guān)鍵點(如眼角、嘴角、鼻尖)標注出來,而面部輪廓、鼻梁、眉毛處的關(guān)鍵點由于較難標注,通常需要參考之前已經(jīng)確定的點再進行標注,即使所要標注的是在具有挑戰(zhàn)性場景下的人臉圖片,這些較難標注的點也可以利用之前標注好的點進行大致推斷,這實際上是一種簡單有效的關(guān)鍵點標注策略。
本文選擇如圖1所示位于眼角、嘴角、鼻尖的7個關(guān)鍵點作為顯著關(guān)鍵點(用較粗圓點表示),這7個關(guān)鍵點具有明顯的特征,相對于人臉框的相對形狀也比較魯棒,且能粗略地代表整個人臉的位置。
顯著關(guān)鍵點具有更強的判別特征以及易于跟蹤的特點,而金字塔Lucas-Kanade(LK)光流算法[22]對具有顯著局部外觀的特征點能進行相對穩(wěn)定可靠的跟蹤,因此,本文利用金字塔的LK算法跟蹤7個顯著關(guān)鍵點,利用這些關(guān)鍵點約束初始形狀,進而為68個人臉關(guān)鍵點的跟蹤提供更魯棒的初始形狀。
從前一幀的估計形狀提取顯著關(guān)鍵點的形狀,即:
Spre7=Spre68°P68→7
(6)
其中,P68→7表示從前一幀的68個關(guān)鍵點位置中提取由7個顯著關(guān)鍵點位置組成的子集合。
通過最小化式(7)求相似變換矩陣MS7:
(7)
其中,P68→7表示從68個關(guān)鍵點平均形狀中提取7個顯著關(guān)鍵點的子平均形狀。
68個人臉關(guān)鍵點初始形狀的選擇過程如算法1所示。
算法1基于顯著關(guān)鍵點的初始形狀選擇
輸入前一幀68個人臉關(guān)鍵點組成的形狀Spre68
輸出當前幀68個人臉關(guān)鍵點的初始形狀S0
1.從前一幀的估計形狀提取出顯著關(guān)鍵點的形狀,即:Spre7=Spre68°P68→7。
3.利用式(7)得到MS7。
在對許多開源人臉檢測器(如OpenCV中的Viola-Jones人臉檢測器、Dlib人臉檢測器等)進行測試之后,綜合考慮速度和準確率,本文選擇文獻[23]開發(fā)的人臉檢測庫作為本文方法的人臉檢測器。
當前性能較好的人臉檢測器在保持較低假正率的條件下,只能獲得大約75%~80%的真正率[4]。由于假正等人臉檢測器失敗情況的存在,對于無約束環(huán)境下的視頻,幾乎不可能為所有幀都提供正確的人臉框,因此有必要減輕對人臉檢測器的過度依賴。由于大多數(shù)的人臉檢測器檢測速度不夠快,其檢測速度在有挑戰(zhàn)性的環(huán)境下(如大姿態(tài)、遮擋、不良光照條件等)很難實現(xiàn)實時。逐幀利用人臉檢測器將很難實現(xiàn)實時的人臉關(guān)鍵點跟蹤,因此,為了保證效率,借助人臉跟蹤是有必要的。
由于本文所提方法可以獲得比較穩(wěn)定的人臉形狀,因此本文利用得到的人臉形狀粗略估計人臉框的位置,將估計得到的人臉框用作下一幀的人臉框,這將顯著降低人臉檢測所占用的時間,進而提高人臉關(guān)鍵點跟蹤算法的速度,同時也減少了對人臉檢測器的過度依賴。由于嚴重遮擋和場景邊界等因素仍然會存在人臉關(guān)鍵點跟蹤失敗的情況,為避免因不良的人臉框估計而導致的的誤差累積,受文獻[20]提出的智能初始化啟發(fā),本文應用一種人臉檢測器重啟機制,若當前幀與前一幀形狀變化超過預先設(shè)定的閾值時,將會觸發(fā)人臉檢測器(在特殊情況下,若人臉檢測器重啟后未能返回一個結(jié)果,假定1階馬爾科夫依賴,利用最近返回的人臉框作為當前幀的人臉框)。
本文人臉關(guān)鍵點跟蹤方法的一般過程描述如算法2所示。
算法2人臉關(guān)鍵點跟蹤方法
輸入圖像I,人臉框B,模型RK,前一幀的估計形狀Spre68
輸出當前幀的估計形狀Scur68
1.if B由人臉檢測器檢測得到
3.else #利用前一幀人臉形狀估計當前幀的人臉框
4. 利用算法1得到初始形狀S0
5. 當前幀的估計形狀:Scur68=RK(I,S0)
3.1.1 實驗環(huán)境
本文方法基于VS2013編譯環(huán)境實現(xiàn),實驗測試平臺為Intel(R) Core(TM) i5-6200U CPU@2.30 GHz,8 GB RAM,操作系統(tǒng)為Windows 10 企業(yè)版64位。
3.1.2 數(shù)據(jù)集
為訓練模型,本文使用300-W數(shù)據(jù)集中AFW、HELEN和LFPW的訓練集,以及從300-VW數(shù)據(jù)集的訓練視頻中取出的10%的幀用于模型訓練,共計12 645幀。通過對每一幀訓練圖像隨機選擇多個初始形狀實現(xiàn)訓練集擴充,進而提高模型泛化能力。
實驗所用測試集為300-VW測試集。300-VW測試集共包含64個測試視頻,被300-VW挑戰(zhàn)的組織者劃分為3個不同的場景。場景1包括31個在受控條件下記錄的視頻,場景2包含19個在嚴重照明變化的條件下記錄的視頻,場景3包括14個在完全無約束的場景下捕獲的視頻。
上文所提到的數(shù)據(jù)集均對68個人臉關(guān)鍵點進行了標注。
3.1.3 評估方法
(8)
其中,n表示所要計算誤差的關(guān)鍵點個數(shù),douter表示利用真實形狀計算的2個外眼角之間的歐幾里得距離,被用來歸一化誤差以使誤差結(jié)果與人臉實際大小或攝像機變焦等因素無關(guān)。誤差結(jié)果以累積誤差分布(Cumulative Error Distribution,CED)曲線和曲線下面積(Area Under Curve,AUC)的形式進行概括匯總。
如圖2所示為本文方法與其他幾種對比方法在3種不同的場景下,歸一化誤差在0.08以內(nèi)的累積誤差曲線(49個人臉關(guān)鍵點不包含面部輪廓上的點,是68個關(guān)鍵點的子集)。Chehra[24]人臉關(guān)鍵點跟蹤器是300-VW挑戰(zhàn)的基線(Baseline)方法,該方法只跟蹤49個人臉關(guān)鍵點。本文對比方法的原始實驗數(shù)據(jù)均來自對應原作者。從圖2可直觀地看出,本文方法在3種場景下均明顯優(yōu)于基線方法以及文獻[13-14]方法,3種場景下均有90%以上的測試幀歸一化誤差小于0.08。對于文獻[15-16]方法,將在下文全部68個關(guān)鍵點上通過計算AUC值進行定量比較。
圖2 49個人臉關(guān)鍵點累積誤差分布曲線對比
本文方法在小于某些特定誤差閾值下的歸一化平均誤差(49個人臉關(guān)鍵點)如表1所示。
表1 不同誤差閾值下本文方法歸一化平均誤差1 %
從表1可知,本文方法在場景1測試集93.55%的測試幀上獲得了3.04%的平均誤差,在場景2測試集95.55%的測試幀上獲得了3.51%的平均誤差。值得注意的是,本文方法在難度最大的場景3測試集93.57%的測試幀上獲得了3.65%的平均誤差,表明本文人臉關(guān)鍵點跟蹤方法在無約束環(huán)境下仍較為魯棒。
由圖3和表2可以看出,對于68個人臉關(guān)鍵點,不難得到類似于49個關(guān)鍵點的實驗分析結(jié)果,此處不再贅述。值得注意的是,68個人臉關(guān)鍵點的實驗結(jié)果比49個人臉關(guān)鍵點的實驗結(jié)果稍差,這是因為68個關(guān)鍵點所包含的面部輪廓上的點相對來說難度比較大。
圖3 68個人臉關(guān)鍵點累積誤差分布曲線對比
表2 不同誤差閾值下本文方法歸一化平均誤差2 %
文獻[15]在場景1中獲得結(jié)果最好,文獻[16]在場景2和場景3獲得結(jié)果最好。為與之比較,對于68個關(guān)鍵點,分別計算3種方法歸一化誤差直到0.08為止的AUC值,如表3所示,其中加粗數(shù)據(jù)表示較優(yōu)結(jié)果??梢钥闯?本文方法在場景3,即完全無約束環(huán)境下獲得了比文獻[15-16]更好的結(jié)果,在場景1和場景2獲得了與兩者可比較的實驗結(jié)果。
表3 歸一化誤差到0.08為止的AUC值
利用3.1.1節(jié)所述實驗環(huán)境,使用C++單線程編程實現(xiàn),本文人臉關(guān)鍵點跟蹤方法的速度達到30+f/s,能夠用于大多數(shù)人臉相關(guān)的實時應用。
本文利用顯著點約束初始化對局部二值特征算法進行擴展,提出一種簡單有效的人臉關(guān)鍵點跟蹤方法。該方法在300-VW數(shù)據(jù)集的3種測試場景下性能均明顯優(yōu)于基線方法,且在無約束環(huán)境下仍較為魯棒。下一步將研究人臉檢測器重啟后不能返回人臉框時的處理方法,以及同時跟蹤多人的人臉關(guān)鍵點跟蹤方法。
[1] WAGNER A,WRIGHT J,GANESH A,et al.Toward a practical face recognition system:robust alignment and illumination by sparse representation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(2):372-386.
[2] ZENG Z,PANTIC M,ROISMAN G I,et al.A Survey of affect recognition methods:audio,visual,and spontaneous expressions[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(1):39-58.
[3] MURPHY C E,TRIVEDI M M.Head pose estimation in computer vision:a survey[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(4):607-626.
[4] CHRYSOS G G,ANTONAKOS E,ZAFEIRIOU S,et al.Offline deformable face tracking in arbitrary videos[C]//Proceedings of IEEE International Conference on Computer Vision Workshops.Washington D.C.,USA:IEEE Press,2015:1-9.
[5] SHEN J,ZAFEIRIOU S,CHRSOS G G,et al.The first facial landmark tracking in-the-wild challenge:benchmark and results[C]//Proceedings of IEEE International Con-ference on Computer Vision Workshop.Washington D.C.,USA:IEEE Press,2015:1003-1011.
[6] TZIMIROPOULOS G.Project-out cascaded regression with an application to face alignment[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2015:3659-3667.
[7] COOTES T F,EDWARDS G J,TAYLOR C J.Active appearance models[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2001,23(6):681-685.
[8] CRISTINACCE D,COOTES T F.Feature detection and tracking with constrained local models[C]//Proceedings of BMVC’06.London,UK:[s.n.],2006:929-938.
[9] DOLLAR P,WELINDER P,PERONA P.Cascaded pose regression[C]//Proceedings of 2010 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2010:1078-1085.
[10] PENG X,FERIS R S,WANG X,et al.A recurrent encoder-decoder network for sequential face alignment[C]//Proceedings of European Conference on Computer Vision.Berlin,Germany:Springer,2016:38-56.
[11] 黃 琛,丁曉青,方 馳.一種魯棒高效的人臉特征點跟蹤方法[J].自動化學報,2012,38(5):788-796.
[12] 郭修宵,陳 瑩.非約束環(huán)境下人臉特征點的穩(wěn)定跟蹤[J].計算機輔助設(shè)計與圖形學學報,2014,26(7):1135-1142.
[13] URICAR M,FRANC V,HLAVAC V.Facial landmark tracking by tree-based deformable part model based detector[C]//Proceedings of IEEE International Conference on Computer Vision Workshops.Washington D.C.,USA:IEEE Press,2015:10-17.
[14] WU Y,JI Q.Shape augmented regression method for face alignment[C]//Proceedings of IEEE International Conference on Computer Vision Workshops.Washington D.C.,USA:IEEE Press,2015:26-32.
[15] YANG J,DENG J,ZHANG K,et al.Facial shape tracking via spatio-temporal cascade shape regression[C]//Proceedings of IEEE International Conference on Computer Vision Workshops.Washington D.C.,USA:IEEE Press,2015:41-49.
[16] XIAO Shengtao,YAN Shuicheng,Kassim A A.Facial landmark detection via progressive initialization[C]//Proceedings of IEEE International Conference on Computer Vision Workshops.Washington D.C.,USA:IEEE Press,2015:33-40.
[17] REN S,CAO X,WEI Y,et al.Face alignment at 3 000 f/s via regressing local binary features[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2014:1685-1692.
[18] CAO X,WEI Y,WEN F,et al.Face alignment by explicit shape regression[J].International Journal of Computer Vision,2014,107(2):177-190.
[19] BREIMAN L.Random forests[J].Machine Learning,2001,45(1):5-32.
[20] BURGOS-ARTIZZU X P,PERONA P,DOLLAR P.Robust face landmark estimation under occlusion[C]//Proceedings of IEEE International Conference on Computer Vision.Washington D.C.,USA:IEEE Press,2013:1513-1520.
[21] XIONG X.Supervised descent method and its applications to face alignment[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2013:532-539.
[22] BOUGUET J Y.Pyramidal implementation of the Lucas Kanade feature tracker description of the algorithm[J].Opencv Documents,1999,22(2):363-381.
[23] Libfacedetection[EB/OL].[2014-02-15].https://github.com/ShiqiYu/libfacedetection.
[24] ASTHANA A,ZAFEIRIOU S,CHENG S,et al.Incremental face alignment in the wild[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2014:1859-1866.