程建峰 孫瑜
摘要:人臉屬性識(shí)別在娛樂(lè)、安防和社交媒體領(lǐng)域應(yīng)用廣泛。雖然目前已經(jīng)提出了很多關(guān)于人臉屬性預(yù)測(cè)的方案,但其中大多數(shù)僅針對(duì)人臉屬性中的某一單一屬性,并沒(méi)有考慮到多種屬性之間的內(nèi)在相關(guān)性。本文針對(duì)不同屬性的特點(diǎn)采用不同的損失函數(shù),并將這些損失函數(shù)嵌入到同一網(wǎng)絡(luò)中,采用端到端的訓(xùn)練方式訓(xùn)練一個(gè)通用人臉屬性識(shí)別框架。通過(guò)實(shí)驗(yàn)分析,多屬性識(shí)別模型取得了較好效果。
關(guān)鍵詞:人臉屬性識(shí)別;多屬性識(shí)別;損失函數(shù);多任務(wù)學(xué)習(xí)
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)12-0176-02
1引言
人的面部屬性展示了重要的信息,如人的年齡,性別,健康狀況等等。近些年來(lái),隨著計(jì)算機(jī)視覺(jué)技術(shù)的快速發(fā)展,出現(xiàn)了許多臉部屬性估計(jì)的應(yīng)用。這些應(yīng)用包括:視頻監(jiān)控,如檢測(cè)行人是否佩戴墨鏡口罩;人臉檢索,通過(guò)數(shù)據(jù)庫(kù)來(lái)查找給定的人;社交媒體,例如自動(dòng)發(fā)型或化妝品的推薦。盡管近期在人臉屬性預(yù)測(cè)方面取得巨大的進(jìn)展,但是大多數(shù)先前的研究?jī)H限于估計(jì)單個(gè)人臉屬性(例如年齡)或?qū)W習(xí)每個(gè)面部屬性都有一個(gè)單獨(dú)的模型。
2人臉屬性聯(lián)合估計(jì)的CNN框架設(shè)計(jì)
步驟1:從人臉數(shù)據(jù)庫(kù)中讀入人臉圖像。
步驟2:人臉檢測(cè)。同樣使用深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到人臉5個(gè)特征點(diǎn)的位置,然后用訓(xùn)練好的模型預(yù)測(cè)數(shù)據(jù)庫(kù)中所有人臉表情圖像上的特征點(diǎn)的位置。
步驟3:在預(yù)測(cè)的5個(gè)特征點(diǎn)中選取其中的眼睛、鼻子和嘴角五個(gè)點(diǎn)作為特征點(diǎn)進(jìn)行校準(zhǔn)。
步驟4:數(shù)據(jù)增強(qiáng)。對(duì)校準(zhǔn)后的圖像進(jìn)行光照處理、水平鏡像。光照處理為當(dāng)前圖像放射變換30倍不同的光照條件。
步驟5:人臉模型建模。深度卷積神經(jīng)網(wǎng)絡(luò)采用Resnet18卷積神經(jīng)網(wǎng)絡(luò),如圖1,并在此模型上進(jìn)行調(diào)優(yōu)(finetuning)。調(diào)優(yōu)的學(xué)習(xí)率初始化為0.001,網(wǎng)絡(luò)結(jié)合第四層卷積和第四層池化層兩層的特征送入到第五層卷積層,保留了更多的池化前的深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的信息。
步驟6:人臉屬性估計(jì)。在測(cè)試集上同樣需要將數(shù)據(jù)進(jìn)行步驟1-3的預(yù)處理,然后送入深度卷積神經(jīng)網(wǎng)絡(luò)測(cè)試。
測(cè)試的網(wǎng)絡(luò)與訓(xùn)練的網(wǎng)絡(luò)相比,測(cè)試的網(wǎng)絡(luò)不需要將誤差回傳,而是直接輸出樣本的屬性。
使用深度期望的方法針對(duì)人臉屬性中的年齡問(wèn)題。將年齡識(shí)別問(wèn)題離散的定量化為范圍|Y|。每個(gè)年齡涵蓋一個(gè)年齡域從[Ymin]到[Ymax]的年齡并且為年齡的期望產(chǎn)生權(quán)重。通過(guò)這種方式,訓(xùn)練CNN進(jìn)行分類(lèi),并且在測(cè)試時(shí)間,計(jì)算|Y|的softmax歸一化輸出概率的期望值。
3實(shí)驗(yàn)結(jié)果與分析
本實(shí)驗(yàn)的數(shù)據(jù)集由MORPH,CelebA,JAFFE數(shù)據(jù)集組成,測(cè)試集占比10%。
人臉的年齡和性別數(shù)據(jù)集使用的是MORPH和CelebA數(shù)據(jù)集,這兩個(gè)數(shù)據(jù)集都同時(shí)含有年齡標(biāo)簽和性別標(biāo)簽。年齡的評(píng)價(jià)指標(biāo)我們使用的是MAE,由公式得:
人臉的性別屬性由于較為簡(jiǎn)單,在網(wǎng)絡(luò)結(jié)構(gòu)第4個(gè)Resnet Block計(jì)算交叉熵?fù)p失并計(jì)算誤差更新參數(shù),性別問(wèn)題是簡(jiǎn)單的二分類(lèi)問(wèn)題,使用底層的語(yǔ)義信息即可完成分類(lèi)任務(wù),采用的是分類(lèi)的經(jīng)典算法—交叉熵?fù)p失。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),模型的性別分類(lèi)性能效果較好。
人臉表情測(cè)試主要是在JAFFE數(shù)據(jù)庫(kù)上與Gabor小波和SIFT方法做對(duì)比,試驗(yàn)結(jié)果如表1所示。表情主要已經(jīng)微笑二分類(lèi),即在微笑的時(shí)候,能否檢測(cè)出微笑的識(shí)別率,在人臉做出其他表情,即非微笑時(shí),仍然能夠識(shí)別出。
4結(jié)論
本文所構(gòu)建的深度卷積網(wǎng)絡(luò)對(duì)人臉屬性識(shí)別的方法與其他方法方法相比,1)端到端的訓(xùn)練方法,提高識(shí)別的準(zhǔn)確率2)免去人工提取特征,將樣本空間經(jīng)過(guò)仿射變換映射到特征空間中,最后計(jì)算損失函數(shù),3)采用多屬性的聯(lián)合估計(jì)提高單屬性預(yù)測(cè)的準(zhǔn)確率,4)針對(duì)人臉不同的屬性,采用不同的損失函數(shù)以更好地?cái)M合數(shù)據(jù)分布,并將其嵌入到網(wǎng)絡(luò)中,提高網(wǎng)絡(luò)性能。
參考文獻(xiàn):
[1] D.Gabor, Theory of communication[J]J. inst Electr Eng, 93(111):429-457, Nov,1946
[2] H. Han, C. Otto, X. Liu, and A. K. Jain.Demographic estimation from face images: Human vs. machine performance[J]. IEEE Trans. Pattern Anal. Mach. Intell., 2015,37(6):1148–1161.
[3] G. Guo and G. Mu.A framework for joint estimation of age, gender and ethnicity on a large database[J].Image Vision Comput., 2017, 32(10):761–770.
[4] D. Yi, Z. Lei, and S. Z. Li.Age estimation by multi-scale convolutional network[C].in Proc. ACCV, 2014:144–158.