徐浩宸,劉滿華
(上海交通大學(xué)電子信息與電氣工程學(xué)院,上海 200240)
人臉特征點(diǎn)檢測(cè)又稱人臉對(duì)齊,指自動(dòng)定位人臉上的一系列預(yù)設(shè)基準(zhǔn)點(diǎn)(如眼角、嘴角等),是人臉處理的關(guān)鍵步驟。人臉特征點(diǎn)檢測(cè)是許多人臉相關(guān)視覺任務(wù)的基本組成部分,被廣泛應(yīng)用于如人臉識(shí)別、表情分析、虛擬人臉重建等領(lǐng)域[1]。
傳統(tǒng)算法在環(huán)境受限條件下的人臉特征點(diǎn)檢測(cè)可以得到較準(zhǔn)確的結(jié)果,如主動(dòng)外觀模型(AAM)[2]、約束局部模型(CLM)[3]等。該領(lǐng)域的挑戰(zhàn)是在非受限環(huán)境下的人臉特征點(diǎn)檢測(cè),在非受限環(huán)境下,人臉會(huì)具有受限環(huán)境下所沒有的局部變化及全局變化。局部變化包括表情、遮擋、局部的高光或陰影等,這些局部變化使得一部分人臉特征點(diǎn)偏離正常位置,乃至于消失不見。全局變化包括面部的大姿態(tài)旋轉(zhuǎn)、圖片模糊失焦等,這些全局變化使得大部分人臉姿態(tài)點(diǎn)偏離正常位置。這2 個(gè)挑戰(zhàn)需要算法模型對(duì)人臉特征點(diǎn)的全局和局部分布有良好的表征,對(duì)形狀分布有足夠的魯棒性,對(duì)人臉的姿態(tài)朝向有所估計(jì)。
研究人員嘗試使用一些傳統(tǒng)的級(jí)聯(lián)回歸方法解決在非受限環(huán)境下人臉特征點(diǎn)檢測(cè)回歸任務(wù),這些方法可以歸納為級(jí)聯(lián)一系列弱回歸器以訓(xùn)練組合成1 個(gè)強(qiáng)回歸器。然而這些方法在較淺的級(jí)聯(lián)深度后其性能會(huì)達(dá)到飽和,精度難以再次提高。
隨著基于卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,在非受限環(huán)境下的人臉特征點(diǎn)檢測(cè)得到極大改善。現(xiàn)有基于卷積神經(jīng)網(wǎng)絡(luò)的方法主要分為基于坐標(biāo)回歸的方法和基于熱圖回歸的方法。基于熱圖回歸的方法通過級(jí)聯(lián)Hourglass 網(wǎng)絡(luò)[4]得到像素級(jí)的熱圖估計(jì)值,準(zhǔn)確率較高,但是由于級(jí)聯(lián)網(wǎng)絡(luò)的結(jié)構(gòu)和預(yù)測(cè)整個(gè)熱圖值,因此參數(shù)量較大且推理時(shí)間長(zhǎng)?;谧鴺?biāo)回歸的方法利用卷積神經(jīng)網(wǎng)絡(luò)直接回歸出特征點(diǎn)的坐標(biāo),參數(shù)量較少且推理時(shí)間短,實(shí)時(shí)性較好。特征點(diǎn)坐標(biāo)精確到像素,需要足夠的空間信息才能保證精度。而基于坐標(biāo)回歸的方法模型隨著網(wǎng)絡(luò)的加深和降采樣,在特征語義信息加深的同時(shí)也會(huì)丟失空間結(jié)構(gòu)信息,缺乏細(xì)粒度表征能力,精度會(huì)有所降低。
本文針對(duì)人臉特征點(diǎn)檢測(cè)坐標(biāo)回歸方法提出一種多層次自注意力網(wǎng)絡(luò)(HSN)模型,構(gòu)建一種基于自注意力機(jī)制的多層次特征融合模塊,實(shí)現(xiàn)網(wǎng)絡(luò)的跨層次特征融合,提升用于回歸特征的空間結(jié)構(gòu)信息,彌補(bǔ)細(xì)粒度表征能力不足。此外,設(shè)計(jì)一種多任務(wù)同時(shí)學(xué)習(xí)特征點(diǎn)檢測(cè)定位及人臉姿態(tài)角估計(jì)的訓(xùn)練方式,提升模型對(duì)人臉姿態(tài)朝向的表征,從而提升模型的準(zhǔn)確性。
傳統(tǒng)人臉特征點(diǎn)檢測(cè)以傳統(tǒng)算法為主,通過多訓(xùn)練級(jí)聯(lián)回歸器來構(gòu)建算法。COOTES 等[2]提出AAM 算法,該算法根據(jù)人臉的整體外觀、形狀、紋理參數(shù)化建立模型,通過迭代搜索特征點(diǎn)位置,并應(yīng)用平均人臉修正結(jié)果,最大化圖像中局部區(qū)域的置信度以完成置信度檢測(cè)。CRISTINACCE 等[3]在AAM算法的基礎(chǔ)上,棄用全局紋理建模方法,利用一系列特征點(diǎn)周圍局部紋理約束模型,構(gòu)建CLM 算法[3]。DOLLAR 等[5]提出級(jí)聯(lián)姿態(tài)回歸器(CPR),通過級(jí)聯(lián)一系列回歸器實(shí)現(xiàn)預(yù)測(cè)值的不斷修正細(xì)化,以得到最終預(yù)測(cè)值。
近年來,基于深度學(xué)習(xí)的人臉特征點(diǎn)檢測(cè)方法表現(xiàn)出了遠(yuǎn)優(yōu)于傳統(tǒng)算法的性能,大致可以分為基于坐標(biāo)回歸的方法與基于熱圖回歸的方法?;谧鴺?biāo)回歸的方法使用卷積神經(jīng)網(wǎng)絡(luò)直接從圖片輸入中回歸出特征點(diǎn)坐標(biāo)值。SUN 等[6]提出一種三級(jí)級(jí)聯(lián)的卷積神經(jīng)網(wǎng)絡(luò),從粗到細(xì)地定位人臉特征點(diǎn)。GUO 等[7]基于MobileNet 結(jié)構(gòu)做進(jìn)一步的輕量縮減,提出一種可以在移動(dòng)設(shè)備上也能實(shí)時(shí)運(yùn)行的網(wǎng)絡(luò)結(jié)構(gòu),且針對(duì)不同的特殊數(shù)據(jù)類別自適應(yīng)地加權(quán)訓(xùn)練。FENG 等[8]針對(duì)面部特征點(diǎn)檢測(cè)這一特定任務(wù),設(shè)計(jì)一種WingLoss 損失函數(shù),使得損失函數(shù)在大誤差時(shí)的梯度為常數(shù),在小誤差時(shí)得到比L1 與L2 更大的誤差值。ZHANG 等[9]提出一種多任務(wù)學(xué)習(xí)框架,同時(shí)優(yōu)化人臉特征點(diǎn)定位及姿態(tài)、表情、性別等面部屬性分類?;跓釄D回歸的方法為每個(gè)特征點(diǎn)預(yù)測(cè)1張熱圖,得到每個(gè)像素位置的概率置信度值,然后從熱圖中估計(jì)得到坐標(biāo)值。受Hourglass 在人體姿態(tài)估計(jì)方面的啟發(fā),Hourglass 網(wǎng)絡(luò)成為很多業(yè)界使用熱圖回歸法的主干網(wǎng)絡(luò)。YANG 等[10]使用有監(jiān)督的面部變換歸一化人臉,然后使用Hourglass 回歸熱圖。DENG 等[11]提 出JMFA 網(wǎng) 絡(luò),通過堆 疊Hourglass 網(wǎng)絡(luò),在多視角人臉特征點(diǎn)檢測(cè)上達(dá)到較高的精度。文獻(xiàn)[12]提出LAB 網(wǎng)絡(luò),利用額外的邊界線描述人臉圖像的幾何結(jié)構(gòu),從而提升特征點(diǎn)檢測(cè)的準(zhǔn)確性。熱圖中背景像素會(huì)逐漸收斂于零值,而WingLoss 函數(shù)在零點(diǎn)不連續(xù),導(dǎo)致無法收斂。針對(duì)該問題,WANG 等[13]提出一種改進(jìn)的自適應(yīng)WingLoss 函數(shù),使其能適應(yīng)真實(shí)值熱圖不同的像素強(qiáng)度,當(dāng)損失函數(shù)在零值附近時(shí)接近于L2 Loss,因此可支持熱圖回歸訓(xùn)練。
卷積神經(jīng)網(wǎng)絡(luò)的底層特征包含大量的空間結(jié)構(gòu)信息而缺乏語義信息,隨著網(wǎng)絡(luò)的加深和降采樣,高層特征具備豐富的語義信息而丟失空間結(jié)構(gòu)信息。運(yùn)用單獨(dú)的高層卷積網(wǎng)絡(luò)特征對(duì)于精細(xì)任務(wù)來說是不足的。學(xué)界也有一些工作探索在1 個(gè)卷積神經(jīng)網(wǎng)絡(luò)中運(yùn)用不同卷積層的有效性,如特征金字塔網(wǎng)絡(luò)(FPN)通過融合低層次的高分辨率特征與上采樣后的高層次高語義特征得到不同分辨率的特征,以支持不同尺度的目標(biāo)檢測(cè)任務(wù)[14]。HARIHARAN 等[15]嘗試使用卷積神經(jīng)網(wǎng)絡(luò)中的所有特征,以提升網(wǎng)絡(luò)在定位任務(wù)中的精度。LONG 等[16]在分割任務(wù)中結(jié)合不同深度間更高層及更精細(xì)的特征。XIE 等[17]在邊緣檢測(cè)任務(wù)中設(shè)計(jì)1 個(gè)整體嵌套的網(wǎng)絡(luò)框架,網(wǎng)絡(luò)的旁路輸出被加到較底層的卷積層后,以提供深層監(jiān)督訓(xùn)練。
簡(jiǎn)單級(jí)聯(lián)不同卷積層特征會(huì)增加大量的參數(shù)量,同時(shí)將較多中間卷積層相結(jié)合時(shí)不能捕捉層間的交互關(guān)系。受Transformer 網(wǎng)絡(luò)[18]中自注意力機(jī)制的啟發(fā),本文將每個(gè)網(wǎng)絡(luò)塊的特征視為不同的網(wǎng)絡(luò)特征提取器,并運(yùn)用自注意力機(jī)制建模層與層之間的交互融合。
本文所提基于多層次自注意力網(wǎng)絡(luò)HSN 的人臉特征點(diǎn)檢測(cè)算法的總體流程如圖1 所示。其中實(shí)線框?yàn)橛?xùn)練與測(cè)試時(shí)的通用流程與數(shù)據(jù),虛線框?yàn)閮H在訓(xùn)練過程中所使用的流程及數(shù)據(jù)。在算法測(cè)試時(shí)流程分為數(shù)據(jù)預(yù)處理及HSN 模型計(jì)算2 個(gè)階段。對(duì)于輸入圖像,首先人臉識(shí)別后進(jìn)行歸一化處理。在模型訓(xùn)練階段,對(duì)于沒有人臉姿態(tài)角真值的數(shù)據(jù)集須額外計(jì)算1 個(gè)擬真值,并在數(shù)據(jù)增強(qiáng)后用于網(wǎng)絡(luò)訓(xùn)練。對(duì)于有遮擋、表情、局部高光或陰影等細(xì)分類的數(shù)據(jù)集,其分類真值將用于損失函數(shù)的計(jì)算。
圖1 基于多層次自注意力網(wǎng)絡(luò)的人臉特征點(diǎn)檢測(cè)算法流程Fig.1 Procedure of facial landmark detection algorithm based on hierarchical self-attention network
人臉特征點(diǎn)示意圖如圖2 所示。針對(duì)未提供人臉姿態(tài)角真值的數(shù)據(jù)集,本文提出計(jì)算1 個(gè)擬真值用于網(wǎng)絡(luò)訓(xùn)練,方法如下:將該數(shù)據(jù)集和訓(xùn)練集的所有正臉圖像經(jīng)由雙眼外側(cè)2 點(diǎn)旋轉(zhuǎn)至水平矯正后,選取如圖2 圓點(diǎn)所示的14 個(gè)點(diǎn)作為基準(zhǔn)點(diǎn),統(tǒng)計(jì)訓(xùn)練集全部平均點(diǎn)作為該數(shù)據(jù)集的標(biāo)準(zhǔn)人臉。將人臉大致視為剛體,將每張圖像的14 個(gè)基準(zhǔn)點(diǎn)相對(duì)標(biāo)準(zhǔn)人臉計(jì)算其旋轉(zhuǎn)矩陣,然后計(jì)算3 個(gè)歐拉角作為該數(shù)據(jù)集的人臉姿態(tài)角擬真值。由于訓(xùn)練數(shù)據(jù)涉及坐標(biāo)及姿態(tài)角,因此本文數(shù)據(jù)增強(qiáng)僅使用了圖像翻轉(zhuǎn)方法。
圖2 人臉特征點(diǎn)示意圖Fig.2 Schematic diagram of facial landmark
大多數(shù)現(xiàn)有人臉特征點(diǎn)檢測(cè)方法建立在人臉識(shí)別技術(shù)的基礎(chǔ)上,算法在經(jīng)人臉識(shí)別后的輸入圖像局部區(qū)域上檢測(cè)人臉特征點(diǎn)。部分?jǐn)?shù)據(jù)集提供人臉區(qū)域坐標(biāo)框或直接提供人臉區(qū)域局部圖像。針對(duì)未提供該部分?jǐn)?shù)據(jù)的數(shù)據(jù)集,本文直接采用MTCNN 算法[19]進(jìn)行人臉識(shí)別,在檢測(cè)人臉區(qū)域上繼續(xù)后處理。
本文提到針對(duì)非受限環(huán)境下的人臉特征點(diǎn)檢測(cè)算法模型對(duì)全局形狀應(yīng)具備足夠的魯棒性,在局部分布上應(yīng)具備細(xì)粒度的表征能力,對(duì)人臉位姿朝向應(yīng)有所估計(jì)。針對(duì)以上問題,本文提出一種基于多層次自注意力的特征融合網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。輸入圖像經(jīng)由主干網(wǎng)絡(luò)、多層次自注意力特征融合模塊后輸出預(yù)測(cè)特征點(diǎn)坐標(biāo)及預(yù)測(cè)人臉位姿角。
圖3 多層次自注意力網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of hierarchical self-attention network
2.2.1 主干網(wǎng)絡(luò)
HSN 模型采用ResNet 50[20-21]作為主干網(wǎng)絡(luò),其結(jié)構(gòu)如圖4 所示,由卷積層、池化層及瓶頸卷積塊組成。主干網(wǎng)絡(luò)分為5 個(gè)階段來分層學(xué)習(xí)特征,每個(gè)階段之間采用步長(zhǎng)為2×2 的池化層或卷積層進(jìn)行降采樣。第1 個(gè)階段由7×7 的卷積層、BN 層及ReLU激活函數(shù)組成。其他4 個(gè)階段均由連續(xù)的瓶頸卷積塊組成,每個(gè)瓶頸卷積塊由2 個(gè)用于升降維的1×1卷積核,1 個(gè)3×3 的卷積核、BN 層和ReLU 激活函數(shù)構(gòu)成。5 個(gè)階段的通道數(shù)設(shè)置為64、256、512、1 024和2 048。
圖4 主干網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Structure of backbone network
2.2.2 多層次自注意力特征融合模塊
現(xiàn)有基于坐標(biāo)回歸的方法多直接基于主干網(wǎng)絡(luò)頂層特征全局平均池化后回歸,雖然該特征因其共享特性具有全局形狀的魯棒性,但是丟失空間結(jié)構(gòu)信息,在局部細(xì)粒度方面表征不足,不足以描述局部細(xì)節(jié)的語義信息。這些方法忽略了中間層的激活,導(dǎo)致細(xì)粒度判別信息損失。本文將主干網(wǎng)絡(luò)層中每個(gè)階段的網(wǎng)絡(luò)塊都視為不同的特征提取器,將各個(gè)特征塊的激活視為不同特性的響應(yīng),并通過自注意力機(jī)制捕捉層間關(guān)系,以提升模型細(xì)粒度表征能力。
假定輸入圖像I,經(jīng)由主干網(wǎng)絡(luò)后第s階段輸出高度為h,寬度為w,通道數(shù)為c的特征Xs∈Rh×w×c。定義特征Xs中高度為i,寬度為j位置處的特征向量為網(wǎng)絡(luò)階段數(shù)為L(zhǎng),網(wǎng)絡(luò)在不同階段間經(jīng)過步長(zhǎng)為2的下采樣,故Xs前t階段對(duì)應(yīng)位置的特征向 量以最后階段的輸出特征圖相對(duì)位置為準(zhǔn),組合m個(gè)階段對(duì)應(yīng)位置的對(duì)應(yīng)特征向量作為該位置的多層次特征向量維數(shù)為,f1×1為1×1 的卷積核及相應(yīng)的BN層,用于統(tǒng)一不同特征塊的通道數(shù)至則
本文所提的多層次自注意力特征融合模塊如圖3 所示。3 個(gè)1×1 的卷積核分別用于將輸入特征轉(zhuǎn)換成查詢向量、索引向量、內(nèi)容向量并組合為矩陣形式然后利用自注意力層對(duì) 多層次特征向量建模,計(jì)算查詢向量和索引向量間的內(nèi)積并歸一化作為相關(guān)系數(shù),經(jīng)Softmax 激活后加權(quán)內(nèi)容向量,獲得表征
輸出表征展平并經(jīng)過2 層前饋神經(jīng)網(wǎng)絡(luò)后連接得到最終輸出特征。自注意力層及前饋神經(jīng)網(wǎng)絡(luò)均有跳躍連接結(jié)構(gòu)。上述結(jié)構(gòu)在不同位置處共享權(quán)重,輸出特征經(jīng)由全局平均池化后連接輸出層。
2.2.3 損失函數(shù)
為優(yōu)化網(wǎng)絡(luò)對(duì)人臉整體朝向姿態(tài)的估計(jì),以提升特征點(diǎn)定位的準(zhǔn)確性,本文網(wǎng)絡(luò)在輸出預(yù)測(cè)特征點(diǎn)坐標(biāo)的同時(shí)輸出預(yù)測(cè)人臉姿態(tài)角,并將其加入到損失函數(shù)中以優(yōu)化訓(xùn)練。損失函數(shù)由特征點(diǎn)坐標(biāo)的損失函數(shù)與位姿角的損失函數(shù)加權(quán)得到:
其中:N為每次迭代訓(xùn)練圖像數(shù);U為圖像細(xì)分類類別數(shù)量;ωu為各細(xì)分類權(quán)重,本文采用各類別圖像占比的倒數(shù)加權(quán),以增加模型對(duì)稀少數(shù)據(jù)的敏感性,即ωu=Nt/Nu,Nt為訓(xùn)練集圖像總數(shù),Nu為訓(xùn)練集第u類圖像總數(shù);Lθ和Ld分別為位姿角和特征點(diǎn)坐標(biāo)的損失函數(shù);α為平衡2 項(xiàng)損失函數(shù)的超參數(shù)。本文中位姿角損失函數(shù)Lθ定義如下:
其中:Δθz為人臉的3 個(gè)姿態(tài)角預(yù)測(cè)值與真值的差值,z∈{1,2,3}。
本文特征點(diǎn)損失函數(shù)Ld選用WingLoss[8]:
其中:P為預(yù)測(cè)特征點(diǎn)數(shù);為特征點(diǎn)p坐標(biāo)預(yù)測(cè)值與真值的L2 距離;σ,?為超參數(shù);?為保證曲線連續(xù)的常數(shù),
為測(cè)試本文所提出方法的性能,采用人臉特征點(diǎn)檢測(cè)領(lǐng)域最常用的2 個(gè)數(shù)據(jù)集300W 數(shù)據(jù)集[22]以及WFLW 數(shù)據(jù)集[12]上進(jìn)行包括消融實(shí)驗(yàn)在內(nèi)的一系列實(shí)驗(yàn)。
300W數(shù)據(jù)集重新標(biāo)定了包括XM2VTS、FRGC Ver.2、LFPW、HELEN、AFW、iBUG 6 個(gè)人臉數(shù)據(jù)集的人臉特征點(diǎn)數(shù)據(jù),提供68 個(gè)人臉特征點(diǎn)坐標(biāo),在其分支數(shù)據(jù)集300W-LP 中提供人臉位姿角數(shù)據(jù)。本文遵照前人方法的實(shí)驗(yàn)設(shè)置[12],取用來自LFPW、HELEN、AFW 數(shù)據(jù)集總共3 148 張圖像作為訓(xùn)練集,來自LFPW 和HELEN 的測(cè)試集以及iBUG 總共689 張圖像作為測(cè)試集圖像。測(cè)試圖像包含普通圖像及有挑戰(zhàn)圖像2 大類。由于300W 數(shù)據(jù)集不包含細(xì)分類數(shù)據(jù),因此損失函數(shù)中細(xì)分類權(quán)重統(tǒng)一為1。
WFLW 數(shù)據(jù)集包括7 500 張圖像的訓(xùn)練集及2 500 張圖像的測(cè)試集,提供98 個(gè)人臉特征點(diǎn)坐標(biāo)以及包括大姿態(tài)角、夸張表情、極端光照、化妝、遮擋、模糊6 項(xiàng)細(xì)分類數(shù)據(jù)。在本文方法中增加第7 類普通類,包含所有不在其他所有類中的數(shù)據(jù),以便細(xì)分類權(quán)重的計(jì)算。
本文模型的搭建與訓(xùn)練,數(shù)據(jù)集的測(cè)試均在PyTorch 框架下進(jìn)行。本文中特征融合模塊選擇融合最后3 個(gè)階段的特征,損失函數(shù)平衡項(xiàng)α取值為1,特征點(diǎn)損失函數(shù)WingLoss中σ取值為10,?取值為2。本文訓(xùn)練與測(cè)試時(shí)Batch_size設(shè)置為96,使用AdamW 優(yōu)化器優(yōu)化訓(xùn)練,學(xué)習(xí)率設(shè)置遵照5×10-7~1×10-5的余弦退火策略,模型訓(xùn)練迭代次數(shù)Epoch設(shè)為300。
為方便與現(xiàn)有方法進(jìn)行對(duì)比,本文使用標(biāo)準(zhǔn)化平均誤差(NME,計(jì)算中用NNME)以及錯(cuò)誤率(FR,計(jì)算中用FFR)衡量性能。本文的NME 指標(biāo)按照雙眼外眼角間距離進(jìn)行歸一化。NME 和FR 如式(5)和式(6)所示:
其中:N為測(cè)試圖像數(shù);P為預(yù)測(cè)特征點(diǎn)數(shù);Yp和分別為人臉特征點(diǎn)坐標(biāo)的真值以及預(yù)測(cè)值;d為歸一化因子;NNMEn為具體每張測(cè)試圖像的NME 值。
在300W 數(shù)據(jù)集上測(cè)試本文所提方法HSN 的性能,并與現(xiàn)有方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表1 所示,加粗表 示最優(yōu)數(shù)據(jù)。表1 中AnchorFace[23]、Wing、PFLD 為基于 坐標(biāo)回 歸的方 法,LAB[12]、MobileFAN[24]、HRNetV2[25]為基于熱圖回歸的方法,LDDMM-Face[26]是基于形狀模型的其他方法。從表1 可以看出,本文所提的HSN 模型在基于坐標(biāo)回歸方法中表現(xiàn)出優(yōu)異的性能,NME 降至3.23%。在有挑戰(zhàn)圖像大類中,本文模型的NME 降至5.12%,驗(yàn)證HSN 模型補(bǔ)充坐標(biāo)回歸方法特征細(xì)粒度表征不足的假設(shè)。在與HRNetV2 等熱圖回歸方法、LDDMM-Face 等形狀模型對(duì)比時(shí),本文模型在各指標(biāo)對(duì)比上也具有一定的優(yōu)越性。
表1 在300W 數(shù)據(jù)集上不同模型的標(biāo)準(zhǔn)化平均誤差對(duì)比Table 1 Normalized mean error comparison among different models on the 300W dataset %
同樣地,在WFLW 數(shù)據(jù)集上本文模型與現(xiàn)有模型進(jìn)行一系列對(duì)比,結(jié)果如表2 所示。從表2 可以看出,本文模型HSN 在NME 及FR 2 個(gè)指標(biāo)上均取得更高精度,分別為4.55%和3.56%。在各個(gè)困難細(xì)分類中,本文模型在大姿態(tài)角及模糊2 類上的NME 分別降到了7.76%和5.17%,驗(yàn)證本文所提的加入姿態(tài)角預(yù)測(cè)輔助訓(xùn)練以及跨層融合方法的有效性和先進(jìn)性。
表2 在WFLW 數(shù)據(jù)集上不同模型的評(píng)價(jià)指標(biāo)Table 2 Evaluation indicators among different models on the WFLW dataset %
為進(jìn)一步驗(yàn)證HSN 的有效性,本文在WFLW 數(shù)據(jù)集上進(jìn)行一系列消融實(shí)驗(yàn)。
本文基于提升模型對(duì)人臉整體姿態(tài)朝向的表征能力來提高特征點(diǎn)定位精度的假設(shè),設(shè)計(jì)多任務(wù)學(xué)習(xí)特征點(diǎn)定位及人臉姿態(tài)角的訓(xùn)練方式,并對(duì)細(xì)分類的困難項(xiàng)增加了相應(yīng)的權(quán)重。損失函數(shù)消融實(shí)驗(yàn)結(jié)果如表3 所示。該部分消融實(shí)驗(yàn)所用的網(wǎng)絡(luò)均為僅使用主干網(wǎng)絡(luò)的基準(zhǔn)網(wǎng)絡(luò),不加權(quán)且僅預(yù)測(cè)特征點(diǎn)坐標(biāo)作為基線對(duì)比。從表3 可以看出,分別添加位姿角預(yù)測(cè)損失項(xiàng)(Lθ)和細(xì)分類權(quán)重(ωu)后,HSN在特征點(diǎn)定位的NME 及FR 指標(biāo)均得到有效優(yōu)化,NME 分別下 降0.21 和0.09 個(gè)百分 點(diǎn),F(xiàn)R 分別下 降0.87 及0.44 個(gè)百分點(diǎn)。在兩者綜合作用下,NME 和FR 分別下降0.26 和1.29 個(gè)百分點(diǎn)。
表3 損失函數(shù)消融實(shí)驗(yàn)結(jié)果Table 3 Results of loss function ablation experiment %
為驗(yàn)證該特征融合模塊的有效性,本文選取主干網(wǎng)絡(luò)作為基準(zhǔn),融合實(shí)驗(yàn)結(jié)果如表4 所示。首先與最常用的特征融合方法拼接法(Concatenate)與加和法(Addition)進(jìn)行對(duì)比,同樣是在融合第4 個(gè)和第5 個(gè)階段特征的情況下,本文方法能有效改善NME 值,加和法的性能不增反降,而相較于拼接法,本文方法在NME 和FR 2 個(gè)指標(biāo)上分別下降0.11 和0.55 個(gè)百分點(diǎn)。而后對(duì)特征融合的階段數(shù)進(jìn)行實(shí)驗(yàn),其中融合第3~5 個(gè)階段的模型表現(xiàn)出最優(yōu)性能。融合第2~5 個(gè)階段的實(shí)驗(yàn)可能是由于第2 個(gè)階段的特征缺乏足夠的語義信息而給融合后的特征帶來無效噪聲,導(dǎo)致性能略遜于第3~5 個(gè)階段的特征融合網(wǎng)絡(luò)。
表4 特征融合消融實(shí)驗(yàn)結(jié)果Table 4 Results of feature fusion ablation experiment %
為進(jìn)一步直觀展示HSN 的有效性,本文將HSN和其他方法在WFLW 數(shù)據(jù)集中的不同困難細(xì)分類測(cè)試集上的測(cè)試結(jié)果可視化,結(jié)果如圖5 所示。
圖5 不同算法的人臉特征點(diǎn)檢測(cè)結(jié)果可視化對(duì)比Fig.5 Visual results comparison of facial landmark detection using different algorithms
其中,Wing 和PFLD 是基于坐標(biāo)回歸方法,HRNetV2 是基于熱圖回歸方法。從圖5 可以看出,Wing、PFLD 等坐標(biāo)回歸方法雖然保持整體形狀的魯棒性,但是在細(xì)節(jié)位置仍有較大偏差。Wing 僅能預(yù)測(cè)大致形狀,在大姿態(tài)角偏轉(zhuǎn)等各種復(fù)雜情況下預(yù)測(cè)結(jié)果均不理想。PFLD 對(duì)各個(gè)圖中人臉整體外輪廓變化等全局變化以及眉毛走向、瞇眼程度等局部變化反饋不到位。HRNetV2 等基于熱圖回歸方法采用熱圖逐點(diǎn)預(yù)測(cè)保證了各點(diǎn)的精度,但丟失全局整體形狀的魯棒性,如圖5 中面部外輪廓均存在一定幅度的扭曲,第2 列夸張表情示意圖中將舌尖預(yù)測(cè)為嘴部特征點(diǎn),第7 列模糊2 示意圖中各器官扭曲等。因此,本文方法既保證整體形狀的連續(xù)性,對(duì)大姿態(tài)偏轉(zhuǎn)有良好的反饋性能,又能捕捉到各點(diǎn)局部細(xì)節(jié),保證局部各點(diǎn)預(yù)測(cè)精度。
本文方法也存在一定的局限性。本文所提的多層次特征融合模塊在優(yōu)化特征點(diǎn)定位精度的同時(shí),使得推理時(shí)間從原本的13 ms 增加到17 ms。該模塊使用Transformer 框架中的自注意力機(jī)制,當(dāng)前各種芯片對(duì)該框架相關(guān)模型優(yōu)化不足,使得在實(shí)際應(yīng)用中所需推理時(shí)間可能進(jìn)一步增加,這一點(diǎn)有待相關(guān)算子開發(fā)優(yōu)化。此外,本文所提的多任務(wù)同時(shí)學(xué)習(xí)人臉特征點(diǎn)定位與姿態(tài)角的學(xué)習(xí)方式依賴數(shù)據(jù)集有角度上的多樣性及姿態(tài)角數(shù)據(jù),而大部分?jǐn)?shù)據(jù)集缺乏該部分?jǐn)?shù)據(jù)。雖然本文提出當(dāng)數(shù)據(jù)集缺乏姿態(tài)角數(shù)據(jù)時(shí)的替代姿態(tài)計(jì)算算法,但此算法包含將平均人臉作為基準(zhǔn)正臉和將人臉視為剛體的假設(shè),在夸張表情等人臉數(shù)據(jù)與平均人臉相差較大時(shí)計(jì)算出的姿態(tài)角擬真值可能與實(shí)際值相差較大,影響模型擬合從而影響精度進(jìn)一步提升,這一點(diǎn)有待包含姿態(tài)角數(shù)據(jù)的數(shù)據(jù)集擴(kuò)充或姿態(tài)計(jì)算算法的進(jìn)一步優(yōu)化。
針對(duì)人臉特征點(diǎn)檢測(cè)的基于坐標(biāo)回歸方法特征缺乏局部結(jié)構(gòu)的細(xì)粒度表征能力、精度較低等問題,本文提出一種基于自注意力特征融合模塊的網(wǎng)絡(luò)算法。采用自注意力機(jī)制實(shí)現(xiàn)多層次特征融合,以實(shí)現(xiàn)不同階段具有不同空間結(jié)構(gòu)語義信息的特征層間交互,使得回歸特征在全局形狀具有魯棒性的同時(shí)優(yōu)化局部細(xì)粒度表征能力。提出一種多任務(wù)學(xué)習(xí)特征點(diǎn)檢測(cè)定位及人臉姿態(tài)角估計(jì)的訓(xùn)練方式,提升算法對(duì)人臉整體姿態(tài)朝向的估計(jì)以提升特征點(diǎn)定位精度。下一步將優(yōu)化姿態(tài)計(jì)算算法以適配更多數(shù)據(jù)集,研究網(wǎng)絡(luò)的跨數(shù)據(jù)集泛化能力,提升網(wǎng)絡(luò)的泛用性。