趙樹楓 周亮 羅雙虎 柯立新
摘 ?要: 針對(duì)傳統(tǒng)的圖像識(shí)別方法很難快速、準(zhǔn)確地對(duì)考生進(jìn)行識(shí)別從而驗(yàn)證其身份,文中詳細(xì)地分析了卷積神經(jīng)網(wǎng)絡(luò)的原理及特性,提出一種基于多通道輸入的稀疏卷積神經(jīng)網(wǎng)絡(luò)的考生識(shí)別算法,并與支持向量機(jī)及傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明,該算法提高了考生識(shí)別的準(zhǔn)確率,而且識(shí)別的速度大幅提高。
關(guān)鍵詞: 考生識(shí)別; 卷積神經(jīng)網(wǎng)絡(luò); 人臉識(shí)別; 身份驗(yàn)證; 多通道輸入; 方法比
中圖分類號(hào): TN911.73?34 ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2019)13?0061?04
Examinee recognition algorithm based on sparse convolutional neural network
ZHAO Shufeng1, ZHOU Liang2, LUO Shuanghu2, KE Lixin3
(1. University of Shanghai for Science and Technology, Shanghai 200433, China;
2. Network and Information Center, Shanghai Municipal Educational Examinations Authority, Shanghai 200433, China;
3. Information Center of the Shanghai Education Committee, Shanghai 200003, China)
Abstract: With the development of information technology, the face recognition technology is applied to various examinations, but the traditional image recognition method is difficult to identify the examinees quickly and accurately, and is uneasy to verify their identities. The principle and characteristics of convolutional neural network are analyzed in detail. An examinee recognition algorithm based on sparse convolutional neural network with multi?channel inputs is proposed, and compared with the algorithms based on support vector machine and traditional convolutional neural network. The experimental results show that the algorithm can improve the recognition accuracy and recognition speed of examinee significantly.
Keywords: examinee recognition; convolutional neural network; face recognition; identity authentication; multichannel input; method comparison
0 ?引 ?言
近年來(lái),隨著信息技術(shù)的發(fā)展,人臉識(shí)別技術(shù)被應(yīng)用到各項(xiàng)考試中,但傳統(tǒng)的圖像識(shí)別方法很難快速、準(zhǔn)確地對(duì)考生進(jìn)行識(shí)別從而驗(yàn)證其身份。即使融合多種特征識(shí)別的方法,精度仍然提升有限,在一定程度上制約了人臉識(shí)別的發(fā)展。因此,如何更加高效、充分地利用海量數(shù)據(jù),找到這些圖像數(shù)據(jù)的特征表達(dá)方式,提高考生識(shí)別準(zhǔn)確率,更好地促進(jìn)考試公平,是一個(gè)非常有意義的研究課題。
2006年,加拿大多倫多大學(xué)教授、機(jī)器學(xué)習(xí)領(lǐng)域的泰斗Geoffrey Hinton和他的學(xué)生Rus?lan Salakhutdinov 在《Nature》上發(fā)表了一篇文章,開啟了深度學(xué)習(xí)在學(xué)術(shù)界和工業(yè)界的浪潮[1]。2012年ILSVRC競(jìng)賽中,Hinton 領(lǐng)導(dǎo)的團(tuán)隊(duì)采用Alexnet模型在Imagenet數(shù)據(jù)分類比賽中取得了驚人的成績(jī)[2],將1 000類分類的top?5誤差率降低到了15.3% 。針對(duì)傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)的局限性,本文提取圖片的方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征[3]作為卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)輸入通道,充分利用HOG算子處理邊緣輪廓信息和紋理信息的優(yōu)勢(shì),同時(shí),為了降低來(lái)自卷積層特征的噪點(diǎn)污染[4],利用稀疏自動(dòng)編碼器進(jìn)行特征稀疏化,提出一種基于多通道輸入的稀疏化卷積神經(jīng)網(wǎng)絡(luò)的方法(Multi?Channel?Sparse?CNN,MCS?CNN),大大提高了考生識(shí)別的準(zhǔn)確度和運(yùn)行速度。
1 ?卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)是一種多層的監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)[4?5],通過(guò)深度結(jié)構(gòu)模擬人腦自動(dòng)學(xué)習(xí)數(shù)據(jù)的本質(zhì)特征。它對(duì)二維數(shù)據(jù)有很好的特征提取效果,其網(wǎng)絡(luò)結(jié)構(gòu)具有權(quán)值共享、局部連接、池化采樣三大特點(diǎn),可以大大減少權(quán)值數(shù)量,降低模型復(fù)雜度,具有強(qiáng)魯棒性,已成功應(yīng)用于模式識(shí)別、物體檢測(cè)和物體識(shí)別等領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)一般由輸入層、卷積層、池化層和全連接層組成。
卷積層是CNN特有的層結(jié)構(gòu),本質(zhì)上就是對(duì)來(lái)自輸入圖像的不同位置的矩陣和卷積核權(quán)重各個(gè)對(duì)應(yīng)位置的元素進(jìn)行相乘,然后相加得到卷積結(jié)果。卷積也稱為旋積或摺積,這里只考慮二維圖像中的卷積運(yùn)算。卷積層計(jì)算公式如下:
2 ?MCS?CNN考生識(shí)別算法
首先對(duì)輸入圖像預(yù)處理,根據(jù)HOG特征提取方法,對(duì)HOG可視化生成HOG特征圖。圖1是生成HOG特征圖的一個(gè)示例。
相對(duì)于RGB模型,YUV顏色模型更符合人體輪廓特性,所以本文選用YUV模型。
MCS?CNN深度網(wǎng)絡(luò)結(jié)構(gòu)主要分為4個(gè)部分:多通道輸入層、卷積層、稀疏特征層、分類層,如圖2所示。
2.1 ?多通道輸入
本文利用HOG處理圖像輪廓和邊緣的特性,將圖片和HOG特征圖連接成三個(gè)通道,如圖3所示。第一個(gè)通道是一個(gè)128×64的原圖顏色空間Y通道圖像;第二個(gè)通道分為4個(gè)大小相等的block,由3個(gè)64×32的YUV通道和1個(gè)64×32的全0矩陣組成;第三個(gè)通道同樣由4個(gè)大小相同的block組成,前3個(gè)block分別由YUV三個(gè)通道經(jīng)過(guò)HOG處理形成的特征圖組成,最后一個(gè)block取前三個(gè)block的像素最大值。
考慮到第一通道使用的是Y通道信息,與其他通道信息數(shù)值差距較大,所以對(duì)三個(gè)通道的數(shù)據(jù)進(jìn)行歸一化處理。
2.2 ?卷積層
通過(guò)構(gòu)建不同層數(shù)的結(jié)構(gòu)來(lái)構(gòu)建卷積層,第一層包含卷積層、激活層,可選層包括BN,Dropout,MaxPooling,該結(jié)構(gòu)可以重復(fù)疊加;第二層包含全連接層,同樣可選BN,Dropout,MaxPooling。卷積層包含[M]個(gè)第一層和[N]個(gè)第二層兩個(gè)部分,采用3×3的濾波器對(duì)輸入信息進(jìn)行卷積運(yùn)算,提取到的特征進(jìn)入全連接層,通過(guò)全連接層將特征整合為一維向量,為進(jìn)入稀疏層做準(zhǔn)備。
2.3 ?稀疏層
考生識(shí)別最重要的就是學(xué)習(xí)到顯著有效的特征,稀疏自動(dòng)編碼器可以提高特征的表達(dá)能力,從而提升網(wǎng)絡(luò)的準(zhǔn)確率。所以本文采用它對(duì)來(lái)自卷積層的特征進(jìn)行稀疏編碼,目的是剔除特征中的噪點(diǎn),同時(shí)使特征稀疏化,便于后續(xù)的分類操作。訓(xùn)練稀疏自動(dòng)編碼器時(shí),將來(lái)自卷積層的輸出作為稀疏自動(dòng)編碼器的輸入(隱藏層神經(jīng)元有200個(gè)),根據(jù)權(quán)重和輸入向量的加權(quán)組合加上偏置量得到輸出,前向過(guò)程公式如下:
根據(jù)前向計(jì)算和反向傳播來(lái)訓(xùn)練第一個(gè)隱藏層的參數(shù)。同理,采用同樣的方法訓(xùn)練第二個(gè)隱藏層的參數(shù)。模型不斷迭代更新權(quán)重,得到參數(shù)[W,b]。當(dāng)然稀疏自動(dòng)編碼器只是自動(dòng)提取和優(yōu)化特征,并不具備分類的功能,這里選用通用的softmax分類器。
2.4 ?MCS?CNN算法流程
輸入:圖片訓(xùn)練集和測(cè)試集
步驟:
1) 多通道輸入;
2) 對(duì)三個(gè)通道進(jìn)行歸一化處理,通過(guò)卷積層和池化層得到特征圖;
3) 將特征圖送入稀疏自動(dòng)編碼器,得到參數(shù)[W,b];
4) 最后將稀疏層的輸出連接全連接層,利用softmax得到考生的分類結(jié)果;
5) 根據(jù)反向傳播算法,不斷訓(xùn)練迭代更新網(wǎng)絡(luò)的參數(shù),直到損失函數(shù)收斂到一個(gè)較小的值;
6) 輸入測(cè)試集,進(jìn)行模型評(píng)估和模型更新。
3 ?實(shí)驗(yàn)與分析
3.1 ?模型訓(xùn)練
訓(xùn)練數(shù)據(jù)集選自上海某年度成人高考數(shù)據(jù)庫(kù),共選取1 000個(gè)考生的準(zhǔn)考證照片與身份證照片進(jìn)行比對(duì)。為防止過(guò)擬合,本文采用調(diào)節(jié)圖片亮度、飽和度、對(duì)比度、隨機(jī)裁剪、旋轉(zhuǎn)和仿射變換,模糊處理等方法進(jìn)一步擴(kuò)充數(shù)據(jù)量。
3.2 ?卷積層數(shù)選取
首先建立一個(gè)小型網(wǎng)絡(luò),卷積層數(shù)量為2。在第一個(gè)卷積層中用32個(gè)3×3的濾波器對(duì)圖片進(jìn)行步長(zhǎng)為1的卷積;第二個(gè)卷積層中,采用64個(gè)3×3的濾波器進(jìn)行卷積,其他參數(shù)不變,ReLU作為激活函數(shù)。全連接層中有512個(gè)神經(jīng)元,softmax作為損失函數(shù)。接下來(lái),增加網(wǎng)絡(luò)深度,建立4層卷積網(wǎng)絡(luò)和2層全連接層,卷積層過(guò)濾器的個(gè)數(shù)分別取32,64,128,256個(gè),在全連接層中分別取256和512個(gè)神經(jīng)元。
如表1所示,隨著網(wǎng)絡(luò)層數(shù)的增加,準(zhǔn)確率呈現(xiàn)先增后降的趨勢(shì),整體變化不大,但檢測(cè)時(shí)間大幅增加。由于本身輸入通道的尺寸較小,不斷增加卷積層的層數(shù)在初期可以去除噪聲,提升提取特征的純度。但隨著層數(shù)的增加和池化等操作會(huì)損失圖片信息,從而影響特征的提取和識(shí)別結(jié)果。綜上,同時(shí)考慮準(zhǔn)確率、召回率和檢測(cè)時(shí)間,這里取4層卷積網(wǎng)絡(luò)對(duì)樣本集進(jìn)行特征提取,網(wǎng)絡(luò)模型結(jié)構(gòu)確定后,使用MCS?CNN模型與其他算法進(jìn)行對(duì)比。
3.3 ?算法比較
選取上海某高中200名高二學(xué)生進(jìn)行實(shí)驗(yàn),統(tǒng)計(jì)得出MCS?CNN的準(zhǔn)確率為95%,CNN的準(zhǔn)確率為88%。CNN誤檢了24個(gè)學(xué)生,而MCS?CNN誤檢了10個(gè)學(xué)生,誤檢測(cè)率顯著降低。此外,用上述的200個(gè)學(xué)生的照片與身份證數(shù)據(jù)庫(kù)的照片進(jìn)行比對(duì),對(duì)HOG?SVM,傳統(tǒng)CNN和MCS?CNN三種檢測(cè)算法進(jìn)行對(duì)比分析,結(jié)果如表2所示。
由表2分析可知,MCS?CNN模型準(zhǔn)確率最高,為93.11%,與SVM?HOG相比,檢測(cè)準(zhǔn)確率高出13.59%,與CNN相比,準(zhǔn)確率高出9.38%。MCS?CNN方法的檢測(cè)速度明顯快于SVM?HOG方法,略快于CNN。
相較于傳統(tǒng)人工提取特征HOG和單純使用原圖作為輸入的CNN來(lái)說(shuō),本文算法集成了HOG的優(yōu)點(diǎn),利用CNN來(lái)自動(dòng)提取特征,同時(shí)通過(guò)稀疏自動(dòng)編碼器來(lái)優(yōu)化特征,故在整體檢測(cè)性能上得到了有效提升。
4 ?結(jié) ?語(yǔ)
本文提出一種基于多通道輸入的稀疏卷積神經(jīng)網(wǎng)絡(luò)的考生識(shí)別算法。在傳統(tǒng)CNN的基礎(chǔ)上,改變圖片作為網(wǎng)絡(luò)輸入的傳統(tǒng)模式,將圖片與HOG相結(jié)合的多通道信息作為輸入向量,然后利用稀疏自動(dòng)編碼器進(jìn)行特征稀疏化,降低來(lái)自卷積層特征的噪點(diǎn)污染。實(shí)驗(yàn)結(jié)果表明,MCS?CNN模型不但繼承了傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)的高效性,同時(shí)提高了檢測(cè)的準(zhǔn)確率,將其應(yīng)用到各類考試中能更好地促進(jìn)考試公平。
注:本文通訊作者為周亮。
參考文獻(xiàn)
[1] 丁春輝.基于深度學(xué)習(xí)的暴力檢測(cè)及人臉識(shí)別方法研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2017.
DING Chunhui. Violence detection and face recognition method based on deep learning method [D]. Hefei: University of Science and Technology of China, 2017.
[2] KRIZHEVSKY A, SUTSKEVER I, HINTON G. ImageNet classification with deep convolutional neural networks [C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe: ACM, 2012: 1106?1114.
[3] 柳慶.基于深度學(xué)習(xí)的人臉檢測(cè)算法[EB/OL].[2018?09?29]. https: //wenku.baidu.com/view/87d1e255bc64783e0912a21614?791711cc7979a1.html.
LIU Qing. Face detection algorithm based on depth learning [EB/OL]. [2018?09?29]. https://wenku.baidu.com/view/87d1e?255bc64783e0912a21614791711cc7979a1.html.
[4] 蘇楠,吳冰,徐偉,等.人臉識(shí)別綜合技術(shù)的發(fā)展[J].信息安全研究,2016,2(1):33?39.
SU Nan, WU Bing, XU Wei, et al. Development of face recognition integrated technology [J]. Journal of information security research, 2016, 2(1): 33?39.
[5] PARKHI O M, VEDALDI A,ZISSERMAN A. Deep face recognition [C]// 2015 British Machine Vision Conference. England: ACM, 2015: 713?719.
[6] ZHU Ningbo, LI Shengtao. A kernel?based sparse representation method for face recognition [J]. Neural computing and applications, 2014, 24(3/4): 845?852.
[7] SUN Yi, WANG Xiaogang, TANG Xiaoou. Deeply learned face representations are sparse, selective, and robust [C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 1?12.
[8] 錢程.基于深度學(xué)習(xí)的人臉識(shí)別技術(shù)研究[D].成都:西南交通大學(xué),2017.
QIAN Cheng. Face recognition based on deep learning [D]. Chengdu: Southwest Jiaotong University, 2017.
[9] 郭麗麗,下世飛.深度學(xué)習(xí)研究進(jìn)展[J].計(jì)算機(jī)科學(xué),2015,42(5):28?32.
GUO Lili, XIA Shifei. Research progress of deep learning [J]. Computer science, 2015, 42(5): 28?32.
[10] 張延安,王宏玉,徐方.基于深度卷積神經(jīng)網(wǎng)絡(luò)與中心損失的人臉識(shí)別[J].科學(xué)技術(shù)與工程,2017,17(35):92?97.
ZHANG Yanan, WANG Hongyu, XU Fang. Face recognition based on deep convolution neural network and center loss [J]. Science technology and engineering, 2017, 17(35): 92?97.