李 勇 林小竹 蔣夢瑩
隨著計算機的快速發(fā)展,人機交互越來越多地出現(xiàn)在日常生活中,如何讓計算機更好地理解人類的心理是人機交互必須要解決的問題.人的面部表情中包含豐富的信息,研究指出,面部表情可以比動作和語言更好地表達人類的心理活動[1],面部表情識別也因此成為了人機交互中不可或缺的部分.一個普通人可以很好地讀取別人的面部表情并做出相應的判別,但對于計算機來說這是一項十分困難的任務,為此大量的專家學者投入到該領域的研究中來.面部表情是一個十分復雜的系統(tǒng),各國研究者們構建了不同的模型來實現(xiàn)表情分類,其中最具代表性的就是Ekman等[2]在1978年提出了面部動作編碼系統(tǒng)(Facial action coding system, FACS),隨后在1984年根據(jù)不同動作單元的組合定義了6種基本的表情:生氣、厭惡、開心、悲傷、驚訝、恐懼.研究者們據(jù)此構建了不同的表情庫,其中日本的JAFFE公開庫就是采用這六種基本表情構建的表情庫,并且在此基礎上增加了第7類表情:無表情.卡耐基梅隆大學的Lucey等[3]于2010年在Cohn-Kanade dataset的基礎上發(fā)布了The extended Cohn-Kanade dataset(CK+),這個庫中包括了123個人的593個視頻序列,其中有327個序列是包含表情標簽的序列,該庫中的表情除了6種基本的表情以外增加了蔑視和無表情兩種.進入上世紀90年代以后,面部表情識別與分析迅速發(fā)展起來,研究者們提出了不同的算法來提高識別的準確率,主要的方法有兩種:1)是基于幾何的方法,例如Lanitis等[4]采用幾何特征方法進行識別,該方法是通過標記人眼、口、鼻等特征點,計算其相對位置來識別表情,雖然這種方法大大減少了輸入的數(shù)據(jù),但是僅用有限的點來表示復雜的人臉表情顯然會丟失很多重要的信息,因而整體的識別率并不太高;2)是基于整體的識別方法,例如Praseeda等[5]使用Gabor小波和SVM相結合的方式進行面部表情識別,首先用Gabor濾波器對表情圖像濾波、提取特征,將提取到的特征用于SVM訓練,訓練分類器進行表情的分類識別,這種方法同樣依賴于前期人工提取特征的優(yōu)劣,人為干擾因素較大.近年來,隨著計算機運行速度的提高,處理大數(shù)據(jù)成為可能,同時互聯(lián)網(wǎng)的快速發(fā)展,研究者采集大量的數(shù)據(jù)變得相對容易,在此基礎上,深度卷積神經(jīng)網(wǎng)絡被證實了在圖像識別領域有巨大的優(yōu)勢.Krizhevsky等[6]于2012年在ImageNet圖像數(shù)據(jù)集上使用AlexNet卷積神經(jīng)網(wǎng)絡結構取得驚人的成績,其識別率遠超傳統(tǒng)的識別方法.這個數(shù)據(jù)集包含約120萬張訓練圖像、5萬張驗證圖像和10萬張測試圖像,分為1000個不同的類別,傳統(tǒng)的特征提取方法被網(wǎng)絡結構取代,網(wǎng)絡可以自行提取特征并分類而不需要人工干預.
2006年,機器學習領域泰斗Hinton與他的學生在Science上發(fā)表的文章[7]掀起了深度學習研究的浪潮,多隱層的神經(jīng)網(wǎng)絡再次回到人們視野之中.在那以后,斯坦福大學、紐約大學、蒙特利爾大學等名校迅速成為深度學習研究的重要場所,甚至美國國防部DARPA計劃也首次資助了深度學習項目[8].卷積神經(jīng)網(wǎng)絡作為深度學習的一支,也迅速受到了廣泛的關注.現(xiàn)今,深度學習廣泛地應用于監(jiān)控視頻事件檢測[9]、自然語言處理[10]、語音信號的基音檢測[11]、圖像分類與識別等領域[12?15].
卷積神經(jīng)網(wǎng)絡雖然是在近年來才受到廣泛的關注和應用,但早在1962年Hubel等[16]就通過對貓視覺皮層細胞的研究,提出了感受野(Receptive field)的概念.1984年日本學者Fukushima等[17]基于感受野的概念而提出的神經(jīng)認知機(Neocognitron)可以看作是第一個實現(xiàn)了的卷積神經(jīng)網(wǎng)絡,這也是感受野概念在人工神經(jīng)網(wǎng)絡領域的首次應用. Le Cun等[18]提出的深度卷積神經(jīng)網(wǎng)絡,就是以神經(jīng)認知機為基礎,并使用了反向傳播算法來識別手寫數(shù)字,后來在1998年正式確定的LeNet-5模型,在文檔識別中取得了很好的效果[19],該模型當年成功用于美國大多數(shù)銀行支票的手寫數(shù)字識別,是卷積神經(jīng)網(wǎng)絡在工業(yè)界最早的應用.Le Cun設計的LeNet-5卷積網(wǎng)絡結構圖如圖1所示.
LeNet-5卷積神經(jīng)網(wǎng)絡可以看成是一個多隱層的人工神經(jīng)網(wǎng)絡,其基本結構主要包括輸入層、卷積層、池化層、全連接層和輸出層.其中卷積層和池化層會交替出現(xiàn),構成了特殊的隱層.如圖1所示, Input是輸入層,輸入大小為32像素×32像素的圖片,MNIST手寫數(shù)字庫中圖片大小為28像素×28像素,所以實際使用時將其擴展為大小為32像素×32像素的圖片使用.Layer 1層是卷積層,共有6個特征圖,每一副輸入為32像素×32像素的圖片都與6個不同的大小為5像素×5像素卷積核卷積,得到大小為28像素×28像素的特征圖. Layer 2層是池化層,Layer 1中6個大小為28像素×28像素的特征圖經(jīng)過池化后得到6個大小為14像素×14像素的特征圖.Layer 3層是卷積層,共有16個大小為10像素×10像素的特征圖.每個10像素×10像素的特征圖是由前一層的某幾個或全部特征圖與5像素×5像素的卷積核卷積得到,具體連接方式如表1所示.Layer 4層是池化層,共16個5像素×5像素的特征圖,由Layer 3層16個特征圖經(jīng)過池化得到.Layer 5層是卷積層,共有120個1像素×1像素的特征圖,每一個特征圖都是由Layer 4層所有的特征圖與5像素×5像素卷積核卷積得到.Full層是全連接層,共有84個單元,Layer 6層與Layer 5層為全連接關系.Output層是輸出層,輸出分類結果.
不同于傳統(tǒng)的神經(jīng)網(wǎng)絡,卷積神經(jīng)網(wǎng)絡采取的是局部連接(Locally-connection)的方式,不僅有效地減少了與神經(jīng)元連接的參數(shù)個數(shù),而且在誤差反向傳播過程中,讓梯度在一個較小的廣度范圍內(nèi)傳播[20],使得訓練變得更加容易.權值共享也是卷積神經(jīng)網(wǎng)絡的一個特點,對于輸入圖像的每一個小塊,用相同的卷積核進行卷積操作,這種方法來源于局部感受野的概念,可以使得圖像具有平移不變性.最后,卷積神經(jīng)網(wǎng)絡中的池化操作,就是一次下采樣操作,將相鄰的幾個像素點用一個像素點代替,根據(jù)采樣方法的不同分為Max-pooling和Avg-pooling,該操作可以使圖片具有一定的縮放不變性.
圖1 LeNet-5結構圖Fig.1 The LeNet-5 convolutional neural network
表1 LeNet-5網(wǎng)絡Layer 2與Layer 3之間的連接方式Table 1 Connection between LeNet-5 network′s Layer 2 and Layer 3
LeNet-5卷積神經(jīng)網(wǎng)絡是通過不同的卷積核自行提取特征,將原始數(shù)據(jù)經(jīng)過一些簡單的非線性的模型轉(zhuǎn)變?yōu)楦邔哟蔚?、更加抽象的表達,最終使用高層次的特征進行分類識別.然而這種分類方法沒有考慮到低層次的細節(jié)特征,而且隨著網(wǎng)絡深度加深,網(wǎng)絡訓練的困難程度在增加,尤其是梯度消失或爆炸問題[21],為了能夠解決深層網(wǎng)絡的訓練問題,研究者提出了跨層的連接方式.早期訓練的多層感知機通常將輸入作線性變換后加到輸出上[22],近年來Srivastava等[23]提出了一種新的網(wǎng)絡連接結構Highway networks,該結構主要特點是提供了一種門限機制,一部分的特征不需要經(jīng)過處理直接通過某些網(wǎng)絡層,該結構更加容易優(yōu)化,并且在CIFAR-10數(shù)據(jù)集上表現(xiàn)優(yōu)于Romero等[24]提出的FitNets.而He等[25]提出的深度殘差網(wǎng)絡同樣在標準的前饋卷積網(wǎng)絡上,增加了一些跨層的連接,目的也是為了降低訓練的難度,該結構不僅在層數(shù)上刷新了記錄,而且在ImageNet和COCO幾個主要的任務中都取得了優(yōu)異的成績.Sun等[26]提出的DeepId網(wǎng)絡中也有設計將最后的池化層和卷積層與全連接層相連,張婷等[27]提出的跨連的卷積神經(jīng)網(wǎng)絡(Cross-connected convolutional neural net-work,CCNN)可以有效地將低層次特征與高層次特征結合起來,構造出更好地分類器,在性別分類中取得了不錯的結果.本文在LeNet-5的結構基礎上引入跨連的思想,將LeNet-5網(wǎng)絡的兩個池化層與全連接層相結合用于最后的分類器構造中.
雖然LeNet-5在手寫數(shù)字集上取得了巨大的成功,但是將該結構用于表情識別時卻難以得到理想的結果,本文提出了改進的LeNet-5結構如圖2所示,包括一個輸入層、3個卷積層、2個池化層、一個全連接層和一個輸出層.網(wǎng)絡輸入是32像素×32像素的圖片,經(jīng)過卷積池化操作后將前兩個池化層與全連接層結合起來作為softmax分類器的輸入,最終獲得7種表情的分類輸出.表2為各層的網(wǎng)絡參數(shù).
整個網(wǎng)絡的訓練過程分為正向傳播和反向傳播,其中正向傳播過程就是隱層提取特征的過程,主要是卷積和池化操作.反向傳播采用BP反向傳播算法傳遞誤差,使用隨機梯度下降算法,更新權值參數(shù).給定輸入,整個網(wǎng)絡的計算過程如下:
1)對于卷積層輸入X,卷積過程
其中,x表示輸入X中卷積區(qū)域M中的元素,w表示卷積核中的元素,m,n表示卷積核的大小,b表示偏置,f(·)表示ReLU激活函數(shù).卷積核大小及卷積步長如表2所示.
圖2 改進的LeNet-5卷積神經(jīng)網(wǎng)絡Fig.2 Improved LeNet-5 convolutional neural network
表2 卷積網(wǎng)絡參數(shù)Table 2 Convolutional network parameters
2)對于池化層輸入Y,池化過程
其中,y表示池化層輸入Y中池化區(qū)域p中的元素,down(·)是下采樣過程,保留池化區(qū)域中的最大值.池化區(qū)域大小及步長如表2所示.
3)對于全連接層輸入Z
其中,z表示輸入Z中的元素,w表示權值,b表示偏置,f(·)表示ReLU激活函數(shù).
4)對于輸出層輸入X
式(4)為Softmax分類器的假設函數(shù),計算的是輸入分類為類別j時的概率,w是權值參數(shù),k為總的類別數(shù).其損失函數(shù)為
其中,1{·}是示性函數(shù),1{值為真的表達式}=1, 1{值為假的表達式}=0.
反向傳播過程如下:輸入樣本得到實際輸出之后首先需要計算每一層的反饋傳遞誤差
式(6)為網(wǎng)絡各層的反饋傳遞誤差,式中符號?表示矩陣或向量中對應的元素相乘.參考圖2可知,δ7是輸出層(Output)的反饋傳遞誤差,out表示網(wǎng)絡的實際輸出,y表示網(wǎng)絡的目標輸出.δ6是Layer 6層的反饋傳遞誤差,w7是Layer 6與輸出層之間的權值.本算法采用的是ReLU激活函數(shù),f′表示ReLU激活函數(shù)的導數(shù).全連接層是由跨連接組合而成,Layer 5層只與該層中(1177≤i≤1260)部分連接,故誤差傳遞時只需使用δ6(1177≤j≤1260)參與計算,式中δ5是Layer 5層的反饋傳遞誤差,w6是Layer 5與Layer 6之間的權值.δ4i是Layer 4層第i個特征圖對應的反饋傳遞誤差,w5是Layer 4與Layer 5之間的卷積核,對于每一個δ4i,都是將δ5j(1≤j≤120)與w5進行外卷積得到,⊕表示的是外卷積操作,參考文獻[27]定義外卷積與內(nèi)卷積如下:假設有A和B兩個矩陣,大小分別為M×N,m×n,其中M,N≥m,n.內(nèi)卷積C=A⊙B,C中所有元素
其中,1≤i≤M?m+1,1≤j≤N?n+1.外卷積定義為
δ3是Layer 3層的反饋傳遞誤差,up(·)是一個上采樣操作,同時需要乘以激活函數(shù)的導數(shù).δ2i是Layer 2層的反饋傳遞誤差,它的計算過程與Layer 4層相似,每個δ2是由δ3(1≤j≤16)與w3進行外卷積得到,不過這里要注意Layer 2與Layer 3之間的連接方式,具體可參見表2.δ1是Layer 1層的反饋傳遞誤差,與Layer 3層類似.
計算權值和偏置的偏導數(shù):
式(9)即為各層權值和偏置的偏導數(shù),其中f6為Layer 6的特征圖,以此類推,f5、f4、f2分別為對應層的特征圖,input是輸入圖像.式中⊙表示內(nèi)卷積操作,定義見式(7).
對于訓練集S={xl,yl}算法流程如下:
1)確定迭代次數(shù)、網(wǎng)絡結構、學習步長,隨機初始化卷積核以及偏置.其中初始學習步長選擇為0.005,隨著訓練次數(shù)的增加,測試誤差變化較小時,將學習步長除以10,直至學習步長降至0.00005,停止訓練.
2)輸入樣本,正向傳播,計算實際輸出.
3)優(yōu)化目標函數(shù),采用反向傳播算法計算反饋傳遞誤差.
4)計算參數(shù)的修正量.
5)通過梯度下降法更新參數(shù)值.
本文所有實驗均在Matlab7.0上實現(xiàn),硬件平臺為Lenovo Tian-Yi 100:Intel(R)Core(TM)i5-5200u CPU,主頻為2.20GHz,內(nèi)存為4.00GB.
本實驗分別采用JAF FE表情數(shù)據(jù)庫和CK+數(shù)據(jù)庫進行實驗.JAFFE表情數(shù)據(jù)庫包含7種表情,分別屬于10名女性,每個人每種表情有2~4張,共213張圖片.圖3為7種表情的示例圖像.
圖3 JAFFE表情庫7種表情示例圖像Fig.3 7 kinds of facial expression image in JAFFE expression dataset
CK+數(shù)據(jù)庫中有123個人的不同表情序列,為保持一致性,在CK+數(shù)據(jù)庫中也只考慮七種表情,從庫中取出七類表情共990幅圖片,圖4為7種表情示例圖像.
圖4 CK+表情庫7種表情示例圖像Fig.4 7 kinds of facial expression image in the CK+ expression dataset
將數(shù)據(jù)集中圖片統(tǒng)一裁剪采樣至大小為32像素×32像素,采用交叉驗證的方法,將JAFFE數(shù)據(jù)集中圖片分為3份,每次取其中兩份為訓練數(shù)據(jù),另一份為測試數(shù)據(jù);將CK+中圖片分為5份,每次取其中4份作為訓練數(shù)據(jù),1份作為測試數(shù)據(jù).
表3為本文算法在JAFFE表情庫中不同表情的分類結果,表4為本文算法在CK+數(shù)據(jù)庫中不同表情的分類結果.由表3和表4可以看到,在一些測試集上,整個網(wǎng)絡表現(xiàn)較好,正確率高,但是在另一些上表現(xiàn)相對較差,其原因可能是訓練樣本數(shù)據(jù)中能提取出的表情特征不足,無法獲得足夠的特征進行訓練,導致分類器分類效果較差,這個現(xiàn)象也反映出了樣本數(shù)據(jù)對于卷積神經(jīng)網(wǎng)絡的重要.
表5為不加跨連方式的網(wǎng)絡與加了跨連接之后的網(wǎng)絡在測試集上的正確率對比.實驗過程中,由于樣本較少,不加跨連方式的網(wǎng)絡訓練難度大,參數(shù)調(diào)整困難,而跨連接網(wǎng)絡收斂速度快,訓練更容易.由表5可以發(fā)現(xiàn),直接采用LeNet-5網(wǎng)絡結構識別正確率很低,不能很好地分類,主要原因是LeNet-5是設計用于手寫數(shù)字識別,相對于數(shù)字而言,面部表情特征更復雜,然而樣本數(shù)量卻更少,僅用高層次特征不足以訓練得到好的分類器,本文加入了跨連接的方法后,低層次特征參與最后的分類器的構造后,識別效果顯著提高,即使在小樣本中也有不錯的正確率.由表5還可以發(fā)現(xiàn),同樣的結構在JAFFE表情庫中得到的正確率高于CK+庫中的正確率,原因是JAFFE中只有10名亞洲女性的表情圖像,而在CK+中包含了123個不同性別不同膚色的人的表情圖像,后者更為復雜,因而需要的樣本數(shù)量更多,否則難以學習到足夠多和足夠好的特征進行分類.
表3 JAFFE表情庫不同表情的分類正確率(%)Table 3 Classi fi cation accuracy of diあerent expressions in JAFFE expression dataset(%)
表4 CK+數(shù)據(jù)庫不同表情的分類正確率(%)Table 4 Classi fi cation accuracy of diあerent expressions in CK+dataset(%)
表5 網(wǎng)絡是否跨連接正確率對比(%)Table 5 Classi fi cation accuracy of the network whether cross connection or not(%)
表6為本文方法與傳統(tǒng)非深度學習方法的比較,可以看出,相對于SVM等淺層學習方法,本文算法在JAFFE表情數(shù)據(jù)上表現(xiàn)較為優(yōu)異.
表6 不同方法在JAFFE上的對比(%)Table 6 The comparison of diあerent methods on JAFFE(%)
卷積神經(jīng)網(wǎng)絡的特點是自動地、隱式地學習特征,不需要人為地定義特征,如果有足夠多的樣本用于訓練,網(wǎng)絡可以學習到很好的特征進行分類.相反如果沒有足夠多的樣本進行訓練,那么卷積神經(jīng)網(wǎng)絡就不如人為地定義特征能更快地找到樣本之間的聯(lián)系,從而達到好的分類效果.本文在LeNet-5的網(wǎng)絡基礎上,引入跨連接的方法,設計出新的卷積神經(jīng)網(wǎng)絡結構,將其應用于面部表情識別.實驗結果表明,低層次特征的應用可以一定程度上彌補樣本數(shù)量的不足,獲得不錯的分類效果.另外,由本次實驗可知,卷積神經(jīng)網(wǎng)絡現(xiàn)在沒有一種通用的結構可以很好地解決多種問題,在手寫數(shù)字庫上表現(xiàn)非常好的LeNet-5結構在表情識別中表現(xiàn)較差,所以不同的問題需要設計不同的結構來解決問題,這給卷積神經(jīng)網(wǎng)絡的普及帶來了一定的困難.
下一步研究計劃是尋找各層特征之間的關系,運用反卷積等方法實現(xiàn)卷積神經(jīng)網(wǎng)絡各層特征的可視化,更好地理解各層特征,進而找到更加通用的卷積神經(jīng)網(wǎng)絡結構設計方法.
1 Pantic M,Rothkrantz L J M.Expert system for automatic analysis of facial expressions.Image and Vision Computing, 2000,18(11):881?905
2 Ekman P,Friesen W V.Facial Action Coding System:A Technique for the Measurement of Facial Movement.Palo Alto,CA:Consulting Psychologists Press,1978.
3 Lucey P,Cohn J F,Kanade T,Saragih J,Ambadar Z, Matthews I.The extended Cohn-Kanade dataset(CK+): a complete dataset for action unit and emotion-speci fi ed expression.In:Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops(CVPRW).San Francisco,CA,USA:IEEE, 2010.94?101
4 Lanitis A,Taylor C J,Cootes T F.Automatic interpretation and coding of face images using fl exible models.IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997,19(7):743?756
5 Praseeda Lekshmi V,Sasikumar M.Analysis of facial expression using Gabor and SVM.International Journal of Recent Trends in Engineering,2009,1(2):47?50
6 Krizhevsky A,Sutskever I,Hinton G E.ImageNet classiifcation with deep convolutional neural networks.In:Proceedings of the 25th International Conference on Neural Information Processing Systems,Lake Tahoe,Nevada,USA: NIPS,2012.1097?1105
7 Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks.Science,2006,313(5786): 504?507
8 Yu Kai,Jia Lei,Chen Yu-Qiang,Xu Wei.Deep learning: yesterday,today,and tomorrow.Journal of Computer Research and Development,2013,50(9):1799?1804
(余凱,賈磊,陳雨強,徐偉.深度學習的昨天、今天和明天.計算機研究與發(fā)展,2013,50(9):1799?1804)
9 Wang Meng-Lai,Li Xiang,Chen Qi,Li Lan-Bo,Zhao Yan-Yun.Surveillance event detection based on CNN.Acta Automatica Sinica,2016,42(6):892?903
(王夢來,李想,陳奇,李瀾博,趙衍運.基于CNN的監(jiān)控視頻事件檢測.自動化學報,2016,42(6):892?903)
10 Xi Xue-Feng,Zhou Guo-Dong.A survey on deep learning for natural language processing.Acta Automatica Sinica, 2016,42(10):1445?1465
(奚雪峰,周國棟.面向自然語言處理的深度學習研究.自動化學報, 2016,42(10):1445?1465)
11 Zhang Hui,Su Hong,Zhang Xue-Liang,Gao Guang-Lai. Convolutional neural network for robust pitch determination.Acta Automatica Sinica,2016,42(6):959?964
(張暉,蘇紅,張學良,高光來.基于卷積神經(jīng)網(wǎng)絡的魯棒性基音檢測方法.自動化學報,2016,42(6):959?964)
12 Sui Ting-Ting,Wang Xiao-Feng.Convolutional neural networks with candidate location and multi-feature fusion.Acta Automatica Sinica,2016,42(6):875?882
(隨婷婷,王曉峰.一種基于CLMF的深度卷積神經(jīng)網(wǎng)絡模型.自動化學報,2016,42(6):875?882)
13 Wang Wei-Ning,Wang Li,Zhao Ming-Quan,Cai Cheng-Jia, Shi Ting-Ting,Xu Xiang-Min.Image aesthetic classi fi cation using parallel deep convolutional neural networks.Acta Automatica Sinica,2016,42(6):904?914
(王偉凝,王勵,趙明權,蔡成加,師婷婷,徐向民.基于并行深度卷積神經(jīng)網(wǎng)絡的圖像美感分類.自動化學報,2016,42(6):904?914)
14 Chang Liang,Deng Xiao-Ming,Zhou Ming-Quan,Wu Zhong-Ke,Yuan Ye,Yang Shuo,Wang Hong-An.Convolutional neural networks in image understanding.Acta Automatica Sinica,2016,42(9):1300?1312
(常亮,鄧小明,周明全,武仲科,袁野,楊碩,王宏安.圖像理解中的卷積神經(jīng)網(wǎng)絡.自動化學報,2016,42(9):1300?1312)
15 Sun Xiao,Pan Ting,Ren Fu-Ji.Facial expression recognition using ROI-KNN deep convolutional neural networks.Acta Automatica Sinica,2016,42(6):883?891
(孫曉,潘汀,任福繼.基于ROI-KNN卷積神經(jīng)網(wǎng)絡的面部表情識別.自動化學報,2016,42(6):883?891)
16 Hubel D H,Wiesel T N.Receptive fi elds,binocular interaction and functional architecture in the cat′s visual cortex.The Journal of Physiology,1962,160(1):106?154
17 Fukushima K,Miyake S,Ito T.Neocognitron:a neural network model for a mechanism of visual pattern recognition.IEEE Transactions on Systems,Man,and Cybernetics, 1983,SMC-13(5):826?834
18 Le Cun Y,Boser B,Denker J S,Howard R E,Habbard W,Jackel L D,Henderson D.Handwritten digit recognition with a back-propagation network.Advances in Neural Information Processing Systems 2.San Francisco,CA,USA: Morgan Kaufmann Publishers Inc.,1989.396?404
19 Le Cun Y,Bottou L,Bengio Y,Haあner P.Gradient-based learning applied to document recognition.Proceedings of the IEEE,1998,86(11):2278?2324
20 Bengio Y.Learning deep architectures for AI.Foundations and TrendsR○in Machine Learning,2009,2(1):1?127
21 Glorot X,Bengio Y.Understanding the diきculty of training deep feedforward neural networks.In:Proceedings of the 13th International Conference on Arti fi cial Intelligence and Statistics(AISTATS)2010.Sardinia,Italy:Chia Laguna Resort,2010.249?256
22 Ziegel R.Modern Applied Statistics with S-plus(3rd edition),by Venables W N and Ripley B D,New York: Springer-Verlag,1999,Technometrics,2001,43(2):249
23 Srivastava R K,GreあK,Schmidhuber J.Highway networks.Computer Science,arXiv:1505.00387,2015.
24 Romero A,Ballas N,Kahou S E,Chassang A,Gatta C,Bengio Y.FitNets:hints for thin deep nets.Computer Science, arXiv:1412.6550,2014.
25 He K M,Zhang X Y,Ren S Q,Sun J.Deep residual learning for image recognition.In:Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. arXiv:1512.03385,2016.770?778
26 Sun Y,Wang X G,Tang X O.Deep learning face representation from predicting 10,000 classes.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Columbus,OH,USA:IEEE,2014. 1891?1898
27 Zhang Ting,Li Yu-Jian,Hu Hai-He,Zhang Ya-Hong.A gender classi fi cation model based on cross-connected convolutional neural networks.Acta Automatica Sinica,2016, 42(6):858?865
(張婷,李玉鑑,胡海鶴,張亞紅.基于跨連卷積神經(jīng)網(wǎng)絡的性別分類模型.自動化學報,2016,42(6):858?865)
28 Kumbhar M,Jadhav A,Patil M.Facial expression recognition based on image feature.International Journal of Computer and Communication Engineering,2012,1(2):117?119