孫 俊, 才 華,2, 朱新麗, 胡 浩, 李英超
(1. 長春理工大學(xué) 電子信息工程學(xué)院, 長春 130022; 2. 長春中國光學(xué)科學(xué)技術(shù)館, 長春 130117; 3. 長春理工大學(xué) 空間光電技術(shù)研究所, 長春 130022)
無約束環(huán)境下的人臉識別是計算機視覺領(lǐng)域一個極具挑戰(zhàn)性的問題. 相同身份的面孔在不同的光照、 面部姿勢、 面部表情和遮擋中呈現(xiàn)時, 看起來會不同, 甚至同一身份的這種變化可能比由于身份差異的變化更強. 為解決這些問題, 目前已提出了許多基于深度學(xué)習(xí)的人臉識別方法, 如DeepFace[1],DeepID[2-3]系列,FaceNet[4],SphereFace[5],CosFace[6],ArcFace[7]等. 這些方法通過將輸入的原始數(shù)據(jù)映射到深層嵌入特征執(zhí)行標(biāo)簽信息的特征學(xué)習(xí)和預(yù)測, 這些特征通常是最后一個完全連接層(FC)的輸出, 然后利用這些深層特征預(yù)測標(biāo)簽. 但這些方法在其應(yīng)用程序中整體地使用深層嵌入特征, 而用了哪些特征及其意義不明確.
在無約束環(huán)境下的人臉識別任務(wù)中, 深度學(xué)習(xí)和嵌入特征不僅需要可分離, 還需要具有可鑒別性. 但這些特征是隱式學(xué)習(xí)的, 對于特征的哪部分是有意義的以及特征的哪部分是可分離和可區(qū)分的不明確, 因此, 很難知道用何種特征區(qū)分人臉圖像的身份. 針對上述問題已提出了許多解決方法, 如通過學(xué)習(xí)多尺度表示區(qū)分特征中的潛在意義[8-9], 通過對低層特征和高層特征的結(jié)合提高人臉特征的鑒別能力[10], 通過注意力機制對有意義特征進行自注意[11-13]等. 但這些方法都是對低層特征設(shè)計的, 捕獲低層的局部詳細(xì)信息或小規(guī)模面部特征, 盡管會與高層特征結(jié)合, 卻未對高層特征進行再設(shè)計.
卷積神經(jīng)網(wǎng)絡(luò)(CNN)在人臉識別方面表現(xiàn)較好[1-3], 但其只使用Softmax損失函數(shù)學(xué)習(xí)不能很好地區(qū)分特征. 為解決該問題, 目前已提出了幾個判別性損失函數(shù)[4-7], 以鼓勵最小類內(nèi)分離和最大類間距離為目的, 但這些方法通常集中在如何改進損失函數(shù), 以提高人臉的識別精度和傳統(tǒng)的特征表示, 多數(shù)方法只是在廣泛使用的骨干網(wǎng)絡(luò)后附加幾個完全連接層而未對人臉識別特征進行設(shè)計, 使得這類算法只有微小的變化, 如增加幾層或增加通道的數(shù)量, 通常不會有明顯改善. 本文通過引入注意力機制對人臉特征進行設(shè)計, 實現(xiàn)高質(zhì)量可鑒別的人臉特征表示方法.
注意力機制在計算機視覺領(lǐng)域[14]應(yīng)用廣泛. 其通過掃描全局圖像, 獲得重點關(guān)注區(qū)域, 抑制其他無用信息, 從而提高視覺信息處理的效率與準(zhǔn)確性. SENET[15]通過引入一個緊湊的模型, 利用平均池化的特性探索信道之間的相互依賴關(guān)系; CBAM[16]進一步結(jié)合最大池化特征推斷更好的信道注意; BAM[17]使用空間和信道注意強調(diào)在哪里聚焦. 目前已有許多方法將注意力機制引入到人臉識別中, 如文獻[11]提出了一種局部和多尺度卷積網(wǎng)絡(luò), 通過對空間和通道注意提高人臉特征質(zhì)量; 文獻[12]通過相關(guān)的局部外觀特征對表示人臉特征; 文獻[13]提出了一種金字塔多樣化人臉注意網(wǎng)絡(luò), 在引入注意力機制的基礎(chǔ)上, 消除了冗余特征. 但這些方法只注意了低層細(xì)節(jié)信息, 未考慮高層的語義信息.
基于此, 本文提出一種雙重注意力機制網(wǎng)絡(luò), 通過對低層詳細(xì)信息和高層語義信息的注意獲取高質(zhì)量、 獨特并可鑒別的人臉特征, 網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示. 該網(wǎng)絡(luò)首先通過細(xì)節(jié)注意力機制, 對特征金字塔中多尺度信息引入多個基于注意的局部分支, 自動強調(diào)不同尺度上的不同判別面部特征, 然后與最后一個卷積層的平均池化和全連接層進行拼接; 其次通過語義注意力機制對最后一個卷積層進行自適應(yīng)語義分組, 根據(jù)人臉圖片所屬分組概率, 將分組特征加權(quán)生成語義特征; 最后將兩種注意力機制得到的特征相加獲得最終特征. 實驗結(jié)果表明, 該雙重注意力機制網(wǎng)絡(luò)通過對低層多尺度細(xì)節(jié)特征和高層語義特征注意, 進一步提高了人臉特征的鑒別能力.
圖1 雙重注意力機制網(wǎng)絡(luò)框架Fig.1 Network framework for dual attention mechanism
細(xì)節(jié)注意力機制是為了分層提取多尺度多樣化的細(xì)節(jié)特征, 其由金字塔多尺度注意力和分層交互組成, 如圖2所示. 由圖2可見, 該網(wǎng)絡(luò)通過左側(cè)區(qū)域金字塔多尺度注意力學(xué)習(xí)定位多尺度判別面部區(qū)域, 由于姿勢變化或表情變化過大, 面部部分可能有不同大小, 因此有必要表示不同大小的局部斑塊, 以自適應(yīng)地定位多尺度判別面部區(qū)域. 此外, 通過分層交互組合來自不同層次的互補信息, 即其使用不同的分層交互模塊集成高級抽象和低級被忽略的信息.
圖2 細(xì)節(jié)注意力機制網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of detail attention mechanism
1.1.1 金字塔多尺度注意力
圖3為金字塔多尺度注意力框架, 由于金字塔多尺度特征在同層中, 因此有必要在不同尺度上校準(zhǔn)特征. 設(shè)X∈h×w×c表示金字塔注意力的輸入, 其中h,w和c分別表示特征映射的高度、 寬度和數(shù)目.
圖3 金字塔多尺度注意力框架Fig.3 Pyramid multi-scale attention framework
1) 將特征映射分割成不同尺度的輸出(X1,X2,…,XN), 其中N表示尺度的數(shù)目,Xi∈hi×wi×c表示ith的輸出,Hi×Wi表示空間大小.
圖4 LANet網(wǎng)絡(luò)框架Fig.4 LANet network framework
3) 利用雙線性插值, 在不同金字塔尺度(i∈{1,2,…,N})的多個局部分支(j∈{1,2,…,B})上采樣不同的注意力掩碼, 使其具有與輸入X∈h×w×c相同的大小.
4) 第i個尺度的第j個局部分支的精細(xì)特征映射Rij由注意力掩碼Mij和輸入X的乘積聚合:
(1)
其中°表示Hadamard積.
5) 通過第一級聯(lián)B個局部分支及1×1卷積層, 輸出c個特征映射, 得到i的輸出.最后將不同尺度的特征映射串聯(lián), 作為金字塔注意力的輸出.
1.1.2 分層交互
由于單層的表示不全面, 因此本文考慮多層次的層融合特征.設(shè)X∈h×w×c1和Y∈h×w×c2表示兩個不同層的輸出, 其中h和w分別表示特征映射的高度和寬度,c1和c2表示兩個不同層的特征映射數(shù).X空間位置的c1維特征表示為x=(X1,X2,…,Xc1),Y空間位置的c2維特征表示為y=(Y1,Y2,…,Yc2).為獲得更全面的局部特征, 使用分層交互, 定義為
(2)
其中Wi∈c×c為投影矩陣,Zi為投影輸出, °為Hadamard積.投影矩陣分解為兩個秩向量Ui,Vi∈c.
為編碼本地信息, 特征應(yīng)通過線性映射擴展到高維空間.因此, 定義一個權(quán)重矩陣w=(w1,w2,…,wd), 以獲得d維特征Z:
Z=UTx°VTy,
(3)
其中U,V∈c×d,d表示投影特征的維數(shù).
本文考慮從更多的層聚合特征, 獲得更多的判別局部特征.設(shè)x1,x2,x3表示來自3個不同層的輸出, 擴展到連接多個跨層表示為
Z=Concat(UTx1°VTx2,UTx1°STx3,UTx2°STx3).
(4)
最后, 使用FC層將維數(shù)降至512.
語義注意力機制通過對人臉語義信息進行分組, 學(xué)習(xí)潛在的語義信息, 并將這些語義信息相結(jié)合, 實現(xiàn)更高質(zhì)量的人臉特征. 其由N條組語義向量及其概率組成, 如圖5所示, 其中左側(cè)區(qū)域表示N條組語義, 右側(cè)區(qū)域表示N條組語義對應(yīng)的分組概率, 最后將概率和語義聚合生成語義特征.
圖5 語義注意力機制網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Network structure of semantic attention mechanism
1.2.1 組語義概率
組語義概率表示人臉對所屬分組的概率, 如圖6所示, 其由3個完全連接層和1個Softmax層組成. 通過部署組語義決策網(wǎng)絡(luò)計算向量中組概率. 組語義網(wǎng)絡(luò)是以一種自分組的方式進行訓(xùn)練, 該方式通過考慮潛在群的分布而提供一個組標(biāo)簽, 沒有任何明確的基本真實信息.
圖6 組語義決策網(wǎng)絡(luò)Fig.6 Group semantic decision networks
確定組語義標(biāo)簽的一種簡單方法是獲取一個具有Softmax最大激活度的索引輸出. 本文構(gòu)建一個組語義網(wǎng)絡(luò), 通過部署多層神經(jīng)網(wǎng)絡(luò)并附加Softmax函數(shù)確定給定樣本x的歸屬組概率:
(5)
其中Gk表示第k組,f(x)表示組語義網(wǎng)絡(luò)的輸出.
1.2.2 組語義表示
(6)
(7)
圖7為本文算法流程.先用MTCNN網(wǎng)絡(luò)進行人臉及關(guān)鍵點檢測, 再根據(jù)關(guān)鍵點對人臉進行對齊, 在特征提取中采用本文提出的雙重注意力網(wǎng)絡(luò), 對ResNet100主干網(wǎng)絡(luò)低層細(xì)節(jié)注意、 高層語義注意獲取高質(zhì)量判別性人臉特征, 最后與人臉特征庫進行匹配.
圖7 本文算法流程Fig.7 Flow chart of proposed algorithm
用MSCeleB-1M作為訓(xùn)練集, 其中包含約10 MB圖像的100 KB身份. 由于MSCeleb-1M原始數(shù)據(jù)集的噪聲標(biāo)簽, 本文使用改進的版本, 其中包含3.8 MB圖像的85 KB身份. 用LFW,YTF,MegaFace,IJB-B和IJB-C作為測試集, 其中LFW包含來自5 749個身份的13 233張圖像, 并提供來自它們的6 000對圖像; YTF包括3 425張圖像的1 595個身份的視頻; MegaFace由來自690 KB身份的超過100萬張圖像組成; IJB-B包含67 000張人臉圖像、 7 000張人臉視頻和10 000張非人臉圖像; IJB-C包含138 000張人臉圖像、 11 000個人臉視頻和10 000張非人臉圖像. 對于評價指標(biāo), 本文對LFW和YTF數(shù)據(jù)集驗證識別精度, 對MegaFace數(shù)據(jù)集通過Rank-1識別精度進行評價, 最后在IJB-B和IJB-C數(shù)據(jù)集上比較在一定的假接受率(TAR@FAR)下10-4~10-6的真接受率.
采用ResNet100主干網(wǎng)絡(luò), 將Arcface作為損失函數(shù). 圖8為基線網(wǎng)絡(luò)(A)、 細(xì)節(jié)注意力機制(B)、 語義注意力機制(C)和雙重注意力機制(D)在2D空間上最終表示之間的定量比較. 本文在精化的MSCeleb-1M數(shù)據(jù)集中選擇前10個標(biāo)識并將提取特征映射到角空間, 10個彩色圓弧表示10個身份. 由圖8可見, 本文的雙重注意力機制模型生成了更獨特的特征表示, 而不是基線模型, 并且該模型增強了基線模型的表示.
圖8 ArcFace損失在MSCeleb-1M數(shù)據(jù)集中前10個身份的定量比較Fig.8 Quantitative comparison of ArcFace losses in top 10 identities of MSCeleb-1M dataset
不同方法在LFW和YTF數(shù)據(jù)集上的驗證準(zhǔn)確性和不受限制的標(biāo)記外部數(shù)據(jù)協(xié)議對比結(jié)果列于表1. 在YTF數(shù)據(jù)集上, 本文評估了所有的圖像, 并未排除圖像序列中的噪聲圖像. 由表1可見, 雖然這兩個數(shù)據(jù)集都是高度飽和的, 但本文的雙重注意力方法仍超過了最優(yōu)方法Groupface的0.02%和0.1%.
表1 不同方法在LFW和YTF數(shù)據(jù)集上的精度驗證
下面在Large訓(xùn)練集協(xié)議下評估雙重注意力機制方法, 其中R表示對MegaFace數(shù)據(jù)集精化版本的評估過程. 不同方法在MegaFace數(shù)據(jù)集的識別與驗證評價結(jié)果列于表2. 由表2可見, 雙重注意力機制比GroupFace方法在Rank-1評價指標(biāo)中高0.21%, 在TAR@FAR=10-6(%)評價指標(biāo)中高0.28%. 在精化版本的MegFace數(shù)據(jù)集上, 本文方法也優(yōu)于其他模型.
表2 不同方法在MegaFace數(shù)據(jù)集的識別與驗證評價結(jié)果
本文方法與其他方法在IJB-B和IJB-C數(shù)據(jù)集上的評估對比結(jié)果列于表3. 由表3可見, 本文的雙重注意力方法在所有的FAR標(biāo)準(zhǔn)上均有明顯改進. 在IJB-B數(shù)據(jù)集中, 比目前的最優(yōu)算法GroupFace, 在FAR=10-6,10-5,10-4指標(biāo)上分別提高了4.43%,0.1%,0.57%; 在IJB-C數(shù)據(jù)集上, 也分別提高了1.23%,1.19%,0.26%.
表3 不同方法在IJB-B和IJB-C數(shù)據(jù)集上對不同F(xiàn)AR的驗證評估結(jié)果
本文方法對1∶1人臉相似度驗證結(jié)果如圖9所示. 對測試數(shù)據(jù)集中的部分人臉可視化, 其中每兩列圖像屬于相同的標(biāo)識. 相同面部圖像呈現(xiàn)不同的表達方式, 如姿態(tài)、 亮度、 模糊和年齡等. 由圖9可見, 本文方法對相同人臉由于表達方式不同導(dǎo)致的差異有很好的容忍度, 驗證結(jié)果表明, 相同人臉的相似度較高, 識別效果較好.
圖9 本文方法對1∶1人臉相似度驗證結(jié)果Fig.9 Verification results of 1∶1 face similarity by proposed method
綜上所述, 針對人臉識別中現(xiàn)有的模型都集中在從最后一個卷積層中提取特征, 未對人臉特性進行設(shè)計的問題, 本文提出了一種用于人臉識別的雙重注意力機制網(wǎng)絡(luò)模型. 用細(xì)節(jié)注意力機制自適應(yīng)地提取分層多尺度局部表示, 用金字塔注意力機制自動定位多尺度不變?nèi)四槄^(qū)域, 并對多個人臉部位進行自適應(yīng)加權(quán), 用分層交互融合來自不同層的互補特征; 用語義注意力機制通過對高層特征語義分組, 學(xué)習(xí)潛在的語義信息, 根據(jù)人臉?biāo)鶎俜纸M概率加權(quán)累加獲取語義特征. 將兩種注意力獲取的特征相結(jié)合產(chǎn)生高質(zhì)量、 獨特和可鑒別的人臉特征. 通過在LFW,YTF,MegaFace,IJB-B和IJB-C數(shù)據(jù)集的實驗評估結(jié)果表明, 本文方法的精確度分別高出Groupface方法的0.02%,0.1%,0.2%,1%和1%, 表明了本文雙重注意力機制方法的有效性.