劉 暢,畢篤彥,熊 磊,李岳云
(空軍工程大學(xué) 航空航天工程學(xué)院,陜西 西安710038)
當(dāng)前,跟蹤與記錄非剛體物體 (比如人臉)的形狀與外觀變化,仍然是一個十分具有挑戰(zhàn)性的問題。經(jīng)過幾十年的探索,人們研究出了一系列高效而又準(zhǔn)確的方法,包括常用的主動形狀模型 (active shape models,ASM)、主動外觀模型 (active appearance models,AAM)以及受限局部 模 型 (constrained local models,CLM)[1]。若 干 衍 生的AAM[2,3]匹配方法中,一些具有實時的人臉跟蹤能力,這使得AAM 成為最常用的人臉跟蹤方法之一,然而該方法的特征點初始化準(zhǔn)確度對于最終匹配結(jié)果的精確度影響非常大。由此學(xué)者們又提出了AAM 的判別匹配方法[4,5],它利用已有的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)匹配更新模型,對于粗略的特征點初始化顯示出了很強的魯棒性,但是該算法在運算效率方面差強人意[5]。
Cristinacce等提出的受限局部模型從某種程度上解決了這個問題,之后Saragih創(chuàng)造性地提出了正則特征點均值漂移法 (regularized landmark mean-shift,RLMS),在特征點定位精確度方面已經(jīng)超越了AAM 算法,并且被認(rèn)為是在一般性人臉匹配情景下當(dāng)今最好的算法之一。Asthana等[6]提出了一種CLM 框架下的判別響應(yīng)圖匹配法 (discriminative response map fitting,DRMF),它 的 性 能 優(yōu) 于RLMS[1]和樹狀模型的算法[7],并且實驗顯示基于HOG 特征的塊專家方法能夠大幅提高CLM 框架下匹配的表現(xiàn)及其魯棒性。
本文對DRMF方法中的回歸算法進行了進一步優(yōu)化,可以實現(xiàn)魯棒的形狀參數(shù)更新,并大幅提高了算法的處理速度。
人臉可變形模型的目標(biāo)是對未知圖像中的人臉形狀進行預(yù)測并用參數(shù)表示。人臉可變形模型大致可以被分為兩大類:①全局模型:利用全局紋理對人臉進行表示;②局部模型:主要利用特征點周圍的局部圖像塊對人臉進行表示。第一類中比較著名的模型有AAM[2];第二類包括的模型有CLM[1]和樹狀模型[7]。
全局模型首先需要建立一個形狀模型,通常先標(biāo)記n個面部基準(zhǔn)特征點x= {xi,yi}T,i=1,…,n 并把它們串聯(lián)成一個向量s= {x1,…,xn}T,然后就可以對這些訓(xùn)練樣本點進行PCA 降維并通過學(xué)習(xí)來建立一個統(tǒng)計的形狀模型,之后我們分別針對每個特征點建立一個局部的紋理特征,并在搜索過程中在形狀模型的約束下,利用建立好的紋理特征與目標(biāo)圖像進行匹配來更新特征點位置,反復(fù)迭代從而獲得準(zhǔn)確地人臉特征點定位。
全局模型的缺點:①定義一個線性統(tǒng)計模型來說明身份、表情、姿態(tài)、光照的變化比較困難;②同樣,由于面部紋理的巨大變化,實現(xiàn)紋理特征到形狀參數(shù)的回歸也很困難 (在最新的一個算法當(dāng)中利用隨機選擇的紋理樣本實現(xiàn)了全局形狀回歸[8],但文中沒有提及具體的實現(xiàn)方法);③部分遮擋問題不容易處理;④由于需要對整個圖像定義一個翹曲函數(shù),三維形狀模型也不易被合成,只能通過犧牲效率[9]或在代價函數(shù)中加入其它參數(shù)來實現(xiàn)。
局部模型的主要優(yōu)點有:①因為我們關(guān)心的只有人臉區(qū)域,所以部分遮擋問題可以很容易地解決;②由于不需要對翹曲函數(shù)進行估計,三維的人臉模型可以直接進行合成。通常來說,利用局部模型表達人臉時,可以用M ={S,D}進行表示,其中是一組面部特征的檢測器 (每個檢測器與形狀模型中的特征相對應(yīng))。目前有許多種構(gòu)造局部模型的方法[1,7],在本文當(dāng)中我們主要研究的是ASM 與CLM 的方法[1]。
CLM 的形狀模型可由下式表示
其中,R (通過俯仰rx、偏航ry和滾轉(zhuǎn)rz進行計算),s和t= [tx;ty;0]分別控制著形狀剛性的旋轉(zhuǎn)、尺度和平移變化,q控制著形狀的非剛性變換。因此形狀模型的參數(shù)就是p= [s,rx,ry,rz,tx,ty,q]。另外,D 是一組用于檢測人臉n 個分塊的線性分類器,可以寫作D= {wi,,其中wi和bi是人臉第i 個分塊的線性檢測器 (例如嘴角檢測器),這些檢測器把第i個分塊與給定圖像L 中位置x被正確定位 (li=1)定義為
式中:f(x; )是從圖像 中以xi為中心的分塊中提取的特征。顯然,在x處沒有被正確定位的概率就是p(li=-1|x, )=1-p (li=1|x, )。
ASM 和CLM 的目標(biāo)就是從參數(shù)p中建立一個形狀模型,使得模型中形狀與特征點的位置與圖像能夠準(zhǔn)確地對應(yīng)。用概率論的方法,我們可以通過求解下面的公式來找到形狀模型s(p)
在文獻 [1]中,通過假設(shè)一個等方差各向同性的高斯核密度對于每一個訓(xùn)練集的每一個分塊i都進行估計,即p(li=(xi(p)|yi,p )上面的優(yōu)化問題可以被重寫為
先驗概率p(p)起到規(guī)范的作用,一般選擇關(guān)于q的零均值高斯先驗函數(shù) (p(p)= (q)|0,Λ))。在文獻[1]中采用了期望最大化 (expectation maximization,EM)算法解決了上述優(yōu)化問題。
在本文當(dāng)中,我們借用了不同于1.2中RLMS中最大化重建概率的方法,在已知圖像中所有塊區(qū)域都被正確定位的條件下,用判別回歸的方法來估計模型參數(shù)p,找到一個形狀變化的響應(yīng)估計到形狀參數(shù)更新的映射。我們假設(shè)在訓(xùn)練集中引入一個形變Δp,并且我們對每一個形變點周圍w×w 的區(qū)域進行響應(yīng)估計,Ai(Δp)=[p(li=1|x+xi(Δp)];然后從得到的響應(yīng)圖f({Ai(Δp))中,我們希望學(xué)習(xí)到一個函數(shù)f,滿足f({Ai(Δp))=Δp,我們把這種方法就叫做判別響應(yīng)圖匹配 (DRMF)[6]。選擇這種方法主要是考慮到與紋理特征在基于全局回歸方法的AAM框架下不同,響應(yīng)圖有以下特點:①可以在參數(shù)集很小的情況下準(zhǔn)確地表示人臉;②具有學(xué)習(xí)能力的概率響應(yīng)圖字典可以非常忠實地重建出未知圖像的響應(yīng)圖。
總體來說,DRMF方法的訓(xùn)練過程包含兩大步:首先,我們需要訓(xùn)練一個用于響應(yīng)圖近似的字典,用它來提取相關(guān)的特征來對更新的匹配模型進行學(xué)習(xí);然后通過一個改良的Boosting方法來進行迭代學(xué)習(xí)更新模型,目的是學(xué)習(xí)弱分類器來對所有特征點響應(yīng)圖的聯(lián)合低維投影和形狀模型的更新參數(shù)Δp 之間的非線性關(guān)系進行建模。
在進入到學(xué)習(xí)步驟之前,我們首先要建立一個響應(yīng)圖的字典,使它可以對任何未知圖像的響應(yīng)圖進行表示,也就是用很少的參數(shù)去表示Ai(Δp)。假設(shè)我們已經(jīng)獲得了一組包含著多種形狀變化的訓(xùn)練響應(yīng)數(shù)據(jù) {Ai(Δpj)}j=1,可以通過一個簡單的方法來對第i個字典進行學(xué)習(xí):將訓(xùn)練響應(yīng)集向量化并列成一個矩 陣Xi=[vec(Ai(Δp1)),...,vec(Ai(Δpn))],然后進行非負(fù)矩陣分解 (non-negative ma-trix factorization,NMF))得到我們需要處理的非負(fù)響應(yīng)。這樣矩陣就被分解為Xi≈ZiHi,Zi就是我們要求的字典,Hi表示對應(yīng)權(quán)重。在給定一個字典的條件下,響應(yīng)圖的對應(yīng)權(quán)重可以通過下式得到
公式的求解可以采用NMF的方法。之后,與之前直接在形變響應(yīng) {Ai(Δp)中計算回歸函數(shù)不同,本文是在低維的權(quán)重向量 {hi(Δp)中計算回歸函數(shù)來 更新參數(shù)Ltest。
根據(jù)實際需求考慮并且為了避免在匹配過程中對每個分塊進行式 (5)的優(yōu)化求解,我們對 {Ai(Δp)進行PCA 處理。在對其進行PCA 處理后,對應(yīng)的權(quán)重向量hi就可以通過在PCA 主成分中進行簡單的投影得到??梢詮膱D一看出運用PCA 響應(yīng)圖進行重建的效率 (能捕捉到人臉85%的變化)。我們把這種字典稱作響應(yīng)塊模型
其中,mi和Vi分別是從n個特征點中得到的平均形狀向量和PCA 主成分。
給定N 個訓(xùn)練圖像L 和對應(yīng)的形狀模型S,我們的目標(biāo)是對從響應(yīng)塊模型 {M,V}當(dāng)中得到低維投影與參數(shù)更新之間的關(guān)系進行迭代建模。使用改進Boosting的方法在一個在預(yù)先標(biāo)定好的真實參數(shù)附近來采樣形狀模型參數(shù)空間,然后對當(dāng)前采樣形狀響應(yīng)塊的低維投影 (由第t個采樣形狀參數(shù)pt表示)和更新參數(shù)Δp(Δp=pg-pt)之間的關(guān)系進行迭代建模。詳細(xì)的訓(xùn)練步驟如下:
令T 為從形狀S中采樣得到的參數(shù)個數(shù),初始采樣形狀參數(shù)集就可以用p(1)表示
式中:上標(biāo) “1”表示初始集 (第一次迭代)。然后提取出響應(yīng)塊 (用p(1)中的采樣形狀參數(shù)來表示),并用響應(yīng)塊模型 {M,V}來計算其低維投影。之后將這些投影排列成一個 聯(lián) 合 低 維 投 影 向 量c() = [h1(Δ),...,hn()]T,與每個采樣形狀一一對應(yīng),得到
其中,χ(1)表示從訓(xùn)練集中得到的初始聯(lián)合低維投影。通過訓(xùn)練集T(1)= {x(1),Ψ(1)},我們學(xué)習(xí)到了第一次迭代的匹配參數(shù)更新函數(shù),也就是一個弱學(xué)習(xí)器
我們再把所有T(1)中的樣本通過F(1)來生成并去除掉)中已經(jīng)收斂的樣本來生成T(2)進行第二次迭代,這里的收斂指的是預(yù)測形狀與標(biāo)定好的真實形狀之間的標(biāo)準(zhǔn)差小于某個閾值 (本文設(shè)此閾值為2)。
任何一種回歸都可以運用到這個框架下,本文對這一環(huán)節(jié)進行了具體的優(yōu)化,采用線性支持向量回歸(SVR)[10]方法。我們總共設(shè)置了16個形狀參數(shù),包括6個全局形狀參數(shù)和重要性排名最靠前的10 個非剛性變化參數(shù)?;诮Y(jié)構(gòu)化的方法同樣也可以運用到我們這個框架下,對于那些被去除的收斂樣本,我們從相同的圖像I中利用第一次收斂中被去除的樣本生成一個新的樣本集來替代。我們把這個新樣本通過F(1)繼續(xù)增殖并去除掉其中的收斂樣本來另外生成第二次迭代的替代訓(xùn)練集T(2)rep,第二次迭代的更新為
得到了第二次迭代得到的匹配參數(shù)更新函數(shù),即弱學(xué)習(xí)器F(2)。在每次迭代中這種去除與替代的方法有兩層優(yōu)點:一是它可以保證匹配更新函數(shù)是利用在先前迭代中未收斂的樣本進行訓(xùn)練,來增強模型的魯棒性;二是矯正之前迭代過程中因過度匹配而出現(xiàn)的樣本偏移。
上述的訓(xùn)練過程將會不斷迭代進行直到訓(xùn)練樣本收斂或者到達我們所設(shè)置的最大迭代次數(shù)η。最終得到的匹配參數(shù)更新模型U 就是一個弱學(xué)習(xí)器的集合
整個訓(xùn)練過程如算法1所示。
算法1:訓(xùn)練參數(shù)更新模型輸入:PDM, ,S,{M,V}1 初始化形狀參數(shù)樣本集2 初始化聯(lián)合低維樣本集3 生成樣本集 (1),進行第1次迭代4 for i=1→ηdo 5 利用樣本集 (i)計算弱分類器 (i)6 通過 (i)增殖 (i),生成 (i)new 7 消除 (i)new 中的收斂樣本,生成 (i+1)8 if (i+1)是空集 then 9 所有訓(xùn)練集收斂,停止訓(xùn)練。10 else 11 從步驟7被消除的樣本圖片中得到新的形狀參數(shù)樣本集12 計算步驟11中生成樣本集的聯(lián)合低維投影集13 生成新的替代訓(xùn)練集 (i)rep 14 for j=1→i-1 do 15 通過 (j)增殖 (i)rep 16 去除 (i)rep中收斂的樣本17 更新 (i+1)← { (i+1), (i)rep }輸出:匹配參數(shù)更新模型U
給定訓(xùn)練圖像Ltest,匹配參數(shù)更新模型U 就可以對參數(shù)更新Δp 進行迭代計算。匹配結(jié)果的好壞由當(dāng)前形狀模型在當(dāng)前迭代步驟中對每個特征點的位置的匹配得分 (概率值)來評判,得分最高的就是最后的匹配形狀。
我們對算法在Multi-PIE 數(shù)據(jù)庫進行一般性的人臉匹配實驗。Multi-PIE是最常用的一般性人臉匹配實驗數(shù)據(jù)庫,也是與前人算法進行比較最常用的數(shù)據(jù)庫,并且其中包含有數(shù)千張不同人臉及各種表情、光照和姿態(tài)的圖片,也就更能突顯出DRMF算法在一般性人臉匹配當(dāng)中處理多種人臉變化的準(zhǔn)確性。本文選取樹狀模型作為對比算法,我們截取部分實驗圖像如圖1~圖3 所示,結(jié)果表明本文提出的算法優(yōu)于樹狀模型。并且我們還發(fā)現(xiàn)在同等條件下在特征點定位方面CLM 的表現(xiàn)要比樹狀模型要好,我們猜測是因為樹狀模型并不是專門應(yīng)對人臉而建立的模型,它允許其它非人臉的結(jié)構(gòu)出現(xiàn),這就使得在匹配過程中很難準(zhǔn)確的定位,特別是在處理人臉表情比較豐富的圖像時。另外,從表1 可以看出本文算法的匹配過程非常高效,可以實現(xiàn)對圖像的實時處理。在目前的MATLAB平 臺上,在Intel Xeon 3.80 GHz處理器上處理一張圖片只需要1s。
圖1 對 “Psy”的定位結(jié)果比較
圖2 對 “Obama”的定位結(jié)果比較
圖3 對 “Blonde”的定位結(jié)果比較
表1 算法速度/s
我們提出了一種在CLM 框架下的判別響應(yīng)圖匹配法,該方法可以用很少的參數(shù)表示響應(yīng)圖并且高效地對未知的響應(yīng)圖進行重構(gòu)并對其回歸方法進行了優(yōu)化,實現(xiàn)魯棒的形狀參數(shù)更新,并大大提高運算速度。我們在一般性的人臉匹配環(huán)境(Multi-PIE)下進行了深入的實驗,結(jié)果表明DRMF方法對于非標(biāo)記的人臉圖像表述效果顯著并優(yōu)于目前流行的樹狀模型算法。而且DRMF方法在計算方面非常地高效,能夠達到實時處理的要求,其定位準(zhǔn)確度也有一定提高。
[1]Saragih J,Lucey S,Cohn J.Deformable model fitting by regularized landmark mean-shift [J].IJCV,2011,91 (2):200-215.
[2]Asthana A,Asragih J,Wagner M,et al.Evaluating AAM fitting methods for facial expression recognition [C]//In ACII,2009.
[3]Tzimiropoulos G,Alabort-i-medina J,Zafeiriou S,et al.Generic active appearance models revisited [C ]//In ACCV,2012.
[4]Liu X.Discriminative face alignment [J].IEEE PAMI,2009,31 (11):1941-1954.
[5]Saragih J,Goecke R.Learning AAM fitting through simulation [J].Pattern Recognition,2009,42 (11):2628-2636.
[6]Asthana A,Zafeiriou S,Cheng S,et al.Robust discriminative response map fitting with constrained local models[C]//In CVPR,2013.
[7]Zhu X,Ramanan D.Face detection,pose estimation and landmark localization in the wild [C]//In CVPR,2012.
[8]Cao X,Wei Y,Wen F,et al.Face alignment by explicit shape regression [J].International Journal of Computer Vision,2014,107 (2):177-190.
[9]Albrecht T,Lüthi M,Vetter T.A statistical deformation prior for non-rigid image and shape registration [C]//In CVPR,2008.
[10]Ho C,Lin C.Large-scale linear support vector regression[J].Journal of Machine Learning Research,2012,13:3323-3348.