周官皓 孫海洋
摘 要:近些年來,深度學(xué)習(xí)逐漸走入大眾視野,并在譬如語音識別、人臉檢測等方面發(fā)揮著舉足輕重的作用。本文利用深度學(xué)習(xí)的優(yōu)勢,根據(jù)學(xué)術(shù)界的發(fā)展,使用Tensorflow在LeNet-5的基礎(chǔ)上,創(chuàng)新地將2個卷積層的卷積核數(shù)目增長到15與20個,并且增加了批歸一化與Dropout兩種模型處理手段,減少過擬合的出現(xiàn),提升模型泛化程度。實驗結(jié)果從測試準確率來分析,結(jié)果表明增加了批歸一化與Dropout的效果最好,單一地增加二者之一對精度損失微乎其微;驗證了改進后的LeNet-5模型對校園內(nèi)單一年齡段的人臉識別有著良好的效果。
關(guān)鍵詞: 卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);人臉識別
【Abstract】 In recent years, deep learning has entered the public's vision and played a pivotal role in fields like speech recognition and face detection, etc. This paper takes advantage of deep learning, using Tensorflow, on the basis of the LeNet-5 model, according to the development of academia and innovatively increases the number of convolution kernels of two convolutional layers to 15 and 20. Moreover, the two methods of batch normalization and Dropout are added to reduce the occurrence of over-fitting and improve the generalization of the model. The experimental results are analyzed from the test accuracy. The results show that the addition of batch normalization and Dropout is the best. Simply increasing one of them has little precision loss. The results verify that the improved LeNet-5 model has a good effect on face recognition in a single age group on campus.
【Key words】 ?CNN; deep learning; face recognition
0 引 言
自2006年卷積神經(jīng)網(wǎng)絡(luò)模型架構(gòu)[1]的提出與2012年卷積神經(jīng)網(wǎng)絡(luò)在ImageNet大賽上憑其出色表現(xiàn)而獲學(xué)界贊許后,深度學(xué)習(xí)[2]便受到了全世界機器學(xué)習(xí)方向?qū)W者的密切關(guān)注。2016年AlphaGo擊敗人類圍棋大師李世石之后,深度學(xué)習(xí)再次引發(fā)熱潮,直到今天,深度學(xué)習(xí)已逐漸發(fā)展演變?yōu)橐粋€相對獨立的方向。深度學(xué)習(xí)隸屬于人工神經(jīng)網(wǎng)絡(luò)體系,相對于傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)更類似人腦,其網(wǎng)絡(luò)結(jié)構(gòu)與分析判別具體事物的流程也更接近于人類分析的過程。目前,深度學(xué)習(xí)已然衍生出運用于不同方向的網(wǎng)絡(luò)架構(gòu),本文主要分析并使用CNN[3]。典型的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)有AlexNet[4]、ZFNet[5]、VGGNet[6]、GoogLeNet[7]和 ResNet[8]等。卷積神經(jīng)網(wǎng)絡(luò)通過結(jié)合局部感受野、池化和下采樣等方法來優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),一定程度上保證位移不變性,對于無約束條件下的特征提取,其算法也有較強的魯棒性。卷積神經(jīng)網(wǎng)絡(luò)擁有的權(quán)值共享特點這一方面,也類似于深度學(xué)習(xí)所有的類似于生物神經(jīng)網(wǎng)絡(luò)的重要特點。
1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
本文模型搭建的基礎(chǔ)LeNet-5[9]網(wǎng)絡(luò)是一個用于手寫數(shù)字識別的7層CNN網(wǎng)絡(luò),其模型設(shè)計如圖1所示。雖然結(jié)構(gòu)與此后的其它網(wǎng)絡(luò)相比規(guī)模較小,但是包含了深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)的基本模塊。
LeNet-5每層都包含可訓(xùn)練參數(shù),且每層都有多個特征圖,每個特征圖通過一種卷積核提取輸入的一種特征,每個特征圖有多個神經(jīng)元。下面即以LeNet-5為示例來闡釋說明卷積神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu)。
2 數(shù)據(jù)采樣及預(yù)處理
研究可知,人臉識別中,至關(guān)重要的一環(huán)就是數(shù)據(jù)采樣和預(yù)處理。為此,研究收集了來自地區(qū)各個高校、共計100位同學(xué)的各10張照片,總計1 000張。考慮到拍攝背景、人占比與攝像機器等因素之間的差異,文中對于數(shù)據(jù)的采樣與預(yù)處理,將做研究分述如下。
(1) 使這100位同學(xué)拍攝時的實時背景為白色系。
(2)使用相同品牌型號的手機進行攝像,拍攝分辨率為4 K,無多余設(shè)置。
(3) 統(tǒng)一截取面部。多余的拍攝到的身體部位或背景丟棄,上下只保留自脖頸至頭頂,左右從左耳至右耳輪廓最外側(cè)。
(4) 壓縮圖片像素大小為100×100。
(5)對每張初步處理過的圖片做像素歸一化,使像素范圍在[0,255]之間。
由此,即可得到研究數(shù)據(jù)示例如圖2所示。
3 實驗
3.1 LeNet-5預(yù)測表現(xiàn)
本文模型的構(gòu)造基于LeNet-5網(wǎng)絡(luò),LeNet-5網(wǎng)絡(luò)在本數(shù)據(jù)集上的表現(xiàn)如圖3所示。
曲線圖及最終結(jié)果顯示,LeNet-5模型在本數(shù)據(jù)集上的預(yù)測準確率為0.841。初步估計準確率較低的原因則在于LeNet-5的參數(shù)設(shè)置是建立在MNIST數(shù)據(jù)集樣本之上,而手寫數(shù)字數(shù)據(jù)無論從圖片像素、還是特征復(fù)雜度來說,都遠遠低于人臉數(shù)據(jù)。