周書田,顏 信,謝鎮(zhèn)汕
(電子科技大學(xué)格拉斯哥學(xué)院 成都 611731)
深度學(xué)習(xí)在人臉識(shí)別領(lǐng)域取得了巨大的成就,已經(jīng)廣泛應(yīng)用在金融認(rèn)證、門禁控制等領(lǐng)域,創(chuàng)造了巨大的經(jīng)濟(jì)與社會(huì)價(jià)值。在目前最大的公開人臉評測數(shù)據(jù)集MegaFace[1]上,頂尖的方法已經(jīng)實(shí)現(xiàn)了97.91%的1:NTop-1 查準(zhǔn)率[2],并且已經(jīng)超過人眼識(shí)別的水平。典型的人臉識(shí)別流程包含人臉檢測[3]、人臉剪裁[4]、人臉特征提取[5]、人臉特征比對與查找[6]4 個(gè)流程。人臉識(shí)別模型優(yōu)化的本質(zhì)為:在一個(gè)特征空間中,屬于同一個(gè)人的圖像特征盡可能聚攏,不屬于同一個(gè)人的圖像特征盡可能發(fā)散,模型對于特征建模能力的強(qiáng)弱直接影響人臉識(shí)別模型的識(shí)別準(zhǔn)確率。目前,人臉識(shí)別系統(tǒng)的巨大進(jìn)步主要來自于網(wǎng)絡(luò)架構(gòu)[7]的不斷革新,以及損失函數(shù)的設(shè)計(jì)。設(shè)計(jì)優(yōu)良的損失函數(shù),可以最大化實(shí)現(xiàn)類內(nèi)特征的聚合與類間特征的離散。最近,大量的損失函數(shù),如Triplet Loss[8],使負(fù)樣本對的距離大于正樣本對的距離,大大提升了網(wǎng)絡(luò)對于特異性特征向量的建模能力。
人臉識(shí)別模型依托于大規(guī)模的訓(xùn)練,訓(xùn)練圖片數(shù)量高達(dá)數(shù)百萬張,訓(xùn)練過程經(jīng)常持續(xù)數(shù)周。但現(xiàn)有人臉識(shí)別訓(xùn)練模型常常會(huì)帶來收斂過程中的震蕩,使訓(xùn)練成本加大。本文對現(xiàn)有的人臉識(shí)別損失函數(shù)ArcFace[2]進(jìn)行改進(jìn),將其logit 曲線變換成為一條直線,使收斂過程更加穩(wěn)定,本文的方法命名為LineFace。
人臉識(shí)別問題是一個(gè)典型的分類問題。解決傳統(tǒng)分類問題的方法為使用交叉熵-softmax 損失函數(shù)進(jìn)行分類損失監(jiān)督,然后將損失進(jìn)行反向傳遞,來更新識(shí)別網(wǎng)絡(luò)參數(shù)。對于一張人臉照片,首先通過骨干網(wǎng)絡(luò)提取其特征向量,將其表示為xi∈Rd,并且屬于類別yi,對于類i的分類概率為:
圖1 不同損失函數(shù)logit 曲線的對比
為了實(shí)現(xiàn)穩(wěn)定的訓(xùn)練過程與極具特異性的特征表達(dá),將logit 曲線變更為一條直線,在不同的收斂過程與階段,其梯度始終為定值,避免了梯度的跳變,這帶來了穩(wěn)定的收斂。該損失函數(shù)命名為LineFace,其表達(dá)式為:
LineFace 在區(qū)間內(nèi)單調(diào)遞減,并且梯度恒定,擁有更好的可解釋性。而對于ArcFace[2]和CosFace[10],其在區(qū)間內(nèi),并不單調(diào)遞減,并且梯度變化劇烈,使得訓(xùn)練不穩(wěn)定。大量的實(shí)驗(yàn)表明,本文的損失函數(shù)可以大幅提高收斂過程的穩(wěn)定性質(zhì),并帶來識(shí)別性能的提高。LineFace 在訓(xùn)練過程中改變監(jiān)督函數(shù),不會(huì)在推理階段引入新的計(jì)算消耗,因此在提升訓(xùn)練穩(wěn)定的同時(shí),保持了與之前工作相同的計(jì)算復(fù)雜性。
近年來,大規(guī)模數(shù)據(jù)集的出現(xiàn)極大地推進(jìn)了人臉識(shí)別模型性能的提升,本文采用了學(xué)術(shù)界廣泛使用的MS-Celeb-1M[12]數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集,也是迄今為止開源的最大規(guī)模的人臉訓(xùn)練數(shù)據(jù)集。原始MS-Celeb-1M[12]數(shù)據(jù)的數(shù)據(jù)集被證明具有大量的數(shù)據(jù)噪聲,因此與之前的工作相似,對MSCeleb-1M[12]數(shù)據(jù)進(jìn)行了清理,清理后的數(shù)據(jù)集包含來自9 萬人的510 萬張照片。對于測試過程,本文選取了常見的LFW[13]、MegaFace[1]、YTF[14]以及IJB-A[15]數(shù)據(jù)集進(jìn)行了測試。
人臉識(shí)別的第一步為人臉檢測與裁剪,本文使用MTCNN[4]檢測人臉與關(guān)鍵點(diǎn),人臉圖像將會(huì)被仿射變換到112*112,然后將像素值歸一化到[0,1],并且在最后添加了隨機(jī)翻轉(zhuǎn)以進(jìn)行數(shù)據(jù)增廣。
對于骨干模型,為了與之前的工作進(jìn)行公平比較,采用了ResNet-101 的網(wǎng)絡(luò)結(jié)構(gòu),ResNet-101是經(jīng)典的深度學(xué)習(xí)骨干模型,其良好的泛化性已經(jīng)在眾多的任務(wù)中得到了驗(yàn)證。將特征嵌入層的維度設(shè)置為512,與之前的工作保持一致。
本文在8 塊NVIDIA 1080TI GPUs 進(jìn)行了實(shí)驗(yàn),總訓(xùn)練步數(shù)為11 萬步,使用了步進(jìn)學(xué)習(xí)率與權(quán)重衰減,初始學(xué)習(xí)率被設(shè)置為0.1,并且每4 萬輪衰減0.1 直到模型收斂,模型動(dòng)量被設(shè)置為0.9。
作為人臉識(shí)別領(lǐng)域的黃金標(biāo)準(zhǔn),LFW[13]測試集被廣泛使用。根據(jù)報(bào)告,人眼在該測試集上的性能為97.25%,它包含來自于5 749 人的13 233 張圖片,所有的照片都在非受限場景下采集,包括極具變化的姿勢與分辨率。
官方的測試流程包含了6 000 圖像對,其中3 000 張為正樣本對,3 000 張為負(fù)樣本對。本文嚴(yán)格參照了官方的10 折交叉驗(yàn)證的測試流程。
表1 不同損失函數(shù)在LFW 上的性能比較
如表1 所示,本文的方法在LFW 數(shù)據(jù)集上取得了有競爭力的結(jié)果,為99.63%。LFW 的性能已經(jīng)在近年趨于飽和,并且因?yàn)殄e(cuò)標(biāo)注的存在,LFW數(shù)據(jù)集的理論上限為99.85%。因此,本文在更嚴(yán)苛的數(shù)據(jù)集YTF 與MegaFace 上進(jìn)行了測試。
YTF[14]數(shù)據(jù)集包含來自1 595 人的3 424 個(gè)視頻,平均每個(gè)人2.15 個(gè)視頻,是現(xiàn)在廣泛采用的視頻人臉識(shí)別數(shù)據(jù)集。視頻的長度從48~6 070 幀不等,平均為181.3 幀。視頻人臉識(shí)別旨在測試模型在抖動(dòng)模糊等極端場景下的建模能力。并且,在實(shí)際的驗(yàn)證場景中,更多的應(yīng)用場景為視頻數(shù)據(jù)。對于視頻中的每個(gè)幀,都將其提取特征,并且使用平均池化來匯聚各個(gè)幀的信息。
表2 是在YTF 上識(shí)別的結(jié)果,可以看到,本文的損失函數(shù)實(shí)現(xiàn)了性能的提高,超過了目前最好的模型ArcFace[2],并且大幅度領(lǐng)先了對幀之間匯聚進(jìn)行精心設(shè)計(jì)的方法NAN[16],實(shí)驗(yàn)結(jié)果證明了本文損失函數(shù)的有效性。
表2 不同損失函數(shù)在YTF 上的性能比較
MegaFace[1]被認(rèn)為是目前最具有挑戰(zhàn)性的人臉測試集,它由兩個(gè)現(xiàn)存的數(shù)據(jù)集Facescrub 和FGNet作為查詢集,并且從互聯(lián)網(wǎng)上收集了百萬級別的干擾集。這是第一個(gè)在百萬級別進(jìn)行極限人臉識(shí)別測試的數(shù)據(jù)集。
表3 是模型在MegaFace 上識(shí)別的性能,從表中可以看到,本文在MegaFace 上也取得了具有競爭力的結(jié)果,達(dá)到了98.03%。因?yàn)镸egaFace 人臉測試集被證明包含大量的測試噪聲,因此本文采用了與之前工作ArcFace[2]相同的數(shù)據(jù)清理策略。
表3 不同損失函數(shù)在MegaFace 上的性能比較
通過對損失函數(shù)logit 曲線的改變,將損失函數(shù)變成了余弦空間中的一條直線,從而提供了穩(wěn)定的梯度,本文對訓(xùn)練過程進(jìn)行了測試,如表4 所示,本文的模型收斂更快,在模型訓(xùn)練早期的性能大幅領(lǐng)先目前的方法。表4 中,在訓(xùn)練的迭代次數(shù)為30 000 時(shí),本文方法領(lǐng)先主流方法6%~13%,證明了本文方法易于收斂。
表4 不同方法與不同訓(xùn)練迭代數(shù)量在LFW數(shù)據(jù)集上的性能
本文對目前現(xiàn)有的人臉損失函數(shù)進(jìn)行了回顧,并且注意到模型收斂中梯度變化劇烈的問題。通過對logit 曲線進(jìn)行改變,將其變?yōu)橐粭l直線,從而提供了在網(wǎng)絡(luò)訓(xùn)練的各個(gè)階段都穩(wěn)定的梯度。大量的實(shí)驗(yàn)證明,本文的方法增強(qiáng)了模型的收斂性,并且在各個(gè)數(shù)據(jù)集上都實(shí)現(xiàn)了穩(wěn)定的性能。