韓貴金+楊嘉寧
【摘要】本文提出了一種基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測(cè)算法,對(duì)傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行了改進(jìn),同時(shí)利用圖像的全局和局部特征來(lái)進(jìn)行人臉檢測(cè)。仿真實(shí)驗(yàn)表明,本文所提出的人臉檢測(cè)算法取得了良好的檢測(cè)效果。
【關(guān)鍵詞】人臉檢測(cè)深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)局部特征全局特征
基金項(xiàng)目:西安市科技計(jì)劃項(xiàng)目,項(xiàng)目名稱:公路視頻測(cè)速中的距離自動(dòng)標(biāo)定與測(cè)距關(guān)鍵技術(shù)研究,項(xiàng)目編號(hào):CXY1701(5)。
文獻(xiàn)標(biāo)識(shí)碼:A中圖分類號(hào):TP391.4
作為近年來(lái)最為流行的機(jī)器學(xué)習(xí)算法,深度學(xué)習(xí)可以從海量數(shù)據(jù)中自動(dòng)學(xué)習(xí)出表達(dá)和區(qū)分能力更強(qiáng)的特征,能更準(zhǔn)確地表征真實(shí)人臉外觀。卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)算法的一種,其在圖像識(shí)別與分析等計(jì)算機(jī)視覺領(lǐng)域中獲得了最為廣泛的應(yīng)用。本文提出了一種基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測(cè)算法,對(duì)傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行了改進(jìn),并提取圖像的全局和局部特征進(jìn)行人臉檢測(cè)。
基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測(cè)
深度學(xué)習(xí)利用建立好的模擬人腦分析學(xué)習(xí)機(jī)制的神經(jīng)網(wǎng)絡(luò)來(lái)解釋圖像、聲音和文本等數(shù)據(jù),通過(guò)對(duì)低層特征進(jìn)行組合形成更抽象的高層特征,從而得到數(shù)據(jù)的分布式特征。
卷積神經(jīng)網(wǎng)絡(luò)是在計(jì)算機(jī)視覺領(lǐng)域應(yīng)用最為廣泛的深度學(xué)習(xí)模型,其基本結(jié)構(gòu)包括卷積層和池化層,卷積層利用卷積核提取特征,卷積層通過(guò)局部感知和權(quán)值共享來(lái)減少權(quán)值參數(shù)數(shù)量,池化層利用池化核來(lái)對(duì)卷積層提取出的特征進(jìn)行統(tǒng)計(jì)操作。
人類識(shí)別人臉時(shí)在考慮人臉的局部特征的同時(shí),也會(huì)考慮人臉的全局特征。為此,本文對(duì)傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行了改進(jìn),改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)由3個(gè)卷積層、4個(gè)池化層、引入層和3個(gè)全連接層組成,各網(wǎng)絡(luò)層的具體參數(shù)如表1所示。
改進(jìn)后的卷積神經(jīng)網(wǎng)絡(luò)中有3個(gè)卷積層,卷積層的具體參數(shù)如表1所示,第一個(gè)卷積層參數(shù)中96×96×3為待處理圖像的尺寸,卷積核通過(guò)滑窗的方式對(duì)輸入圖進(jìn)行卷積,每個(gè)卷積核對(duì)應(yīng)一種特征提取的方式,卷積操作后得到一個(gè)特征圖,88×88×32中88×88為卷積操作后特征圖尺寸,32為卷積核個(gè)數(shù),9×9×3為卷積核尺寸。其他卷積層的參數(shù)與此類似。
卷積運(yùn)算如下式所示:
仿真實(shí)驗(yàn)及分析
本文分別采用AFLW數(shù)據(jù)集和FDDB數(shù)據(jù)集作為訓(xùn)練圖像集和測(cè)試圖像集。AFLW數(shù)據(jù)集由32203圖片中的393703張人臉圖片組成,F(xiàn)DDB數(shù)據(jù)集由2845圖片中的5171張人臉圖片組成,是學(xué)術(shù)界評(píng)價(jià)人臉檢測(cè)和識(shí)別性能時(shí)應(yīng)用非常廣泛的測(cè)試數(shù)據(jù)集。
在構(gòu)造人臉正負(fù)樣本時(shí),由于不同訓(xùn)練圖片中人臉尺寸并不一致,本文將從訓(xùn)練圖片中剪切并歸一化為96×96像素大小的人臉圖片作為正樣本,將從訓(xùn)練圖像中隨機(jī)剪切出的同樣大小的圖像塊作為負(fù)樣本。
表2給出了本文算法和現(xiàn)有部分現(xiàn)有人臉檢測(cè)算法的檢測(cè)準(zhǔn)確度比較結(jié)果。其中,“全局”表示僅利用圖片的全局特征時(shí)的人臉檢測(cè)算法;“局部”表示僅利用圖片的局部特征時(shí)的人臉檢測(cè)算法;“全局+局部”表示本文所提出的同時(shí)利用圖片全局和局部特征的人臉檢測(cè)算法。從表中可以看出,當(dāng)僅利用圖像全局特征時(shí),人臉檢測(cè)效果很低;當(dāng)僅利用圖像局部特征時(shí),人臉檢測(cè)效果提升并不明顯,而當(dāng)同時(shí)利用圖像全局和局部特征時(shí),人臉檢測(cè)效果得到了進(jìn)一步的提升。
圖1給出了本文人臉檢測(cè)算法對(duì)FDDB數(shù)據(jù)集中幾幅測(cè)試圖片的檢測(cè)結(jié)果。從圖中可以看出,本文所提人臉檢測(cè)算法成功檢測(cè)出了背景和光照條件不同的圖片中的人臉,而且人臉的角度也不盡相同。
本文主要研究了如何利用深度學(xué)習(xí)進(jìn)行人臉檢測(cè),提出了一種基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測(cè)算法,同時(shí)利用圖像全局和局部特征來(lái)檢測(cè)人臉。如何進(jìn)一步改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)將是今后的研究?jī)?nèi)容。
參考文獻(xiàn):
[1]GlorotX,BordesA,BengioY.,“Deepsparserectifier neural networks”(2011 International Conference on Artificial Intelligence and Statistics, Lauderdale:IEEE Press,2011:315-326).
[2] Jain V Learned-Miller E.,“Online Domain Adaptation of a Pre-Trained Cascade of Classifiers”(2011 IEEE Conference on Computer Vision and Pattern Recognition. Washington:IEEE,2011:577-584).
[3]Yang S,Luo P,Loy C C, et al.,“From facial parts responses to face detection: a deep learning approach”(2015 IEEE International Conference on Computer Vision. Washington:IEEE,2015:3676-3684).
作者單位:韓貴金西安郵電大學(xué)自動(dòng)化學(xué)院陜西西安
楊嘉寧特藝(中國(guó))科技有限公司中國(guó)北京endprint