劉尚旺,劉承偉,張愛麗
(河南師范大學(xué)計算機(jī)與信息工程學(xué)院,河南新鄉(xiāng)453007)
(?通信作者電子郵箱shwl2012@Hotmail.com)
隨著感知技術(shù)的發(fā)展,人體特征檢測和識別成為研究熱點。而人的面部特征是交流的關(guān)鍵因素,能夠表現(xiàn)豐富的情感信息和性別特點,利用圖像處理技術(shù)和深度學(xué)習(xí)對人臉表情和性別識別在智慧教育、公共安全監(jiān)控、遠(yuǎn)程醫(yī)療中有著重要的作用。而目前的實際運用中,大多數(shù)模型難以處理背景復(fù)雜、有遮擋的多角度人臉圖像,如Jeon 等[1]使用方向梯度直方圖(Histogram of Oriented Gradients,HOG)特征來檢測人臉以減少光照不均勻?qū)Ρ砬樽R別的影響,利用SVM在FER-2013數(shù)據(jù)集上實現(xiàn)了70.7%的表情識別率;但該方法抗干擾能力弱,適應(yīng)性差。張延良等[2]提出通過面部關(guān)鍵點坐標(biāo)將與微表情相關(guān)的七個局部區(qū)域串聯(lián)構(gòu)成特征向量來進(jìn)行微表情識別,但存在局部區(qū)域微表情識別率低的缺點。羅珍珍等[3]等利用條件隨機(jī)森林和支持向量機(jī)(Support Vector Machine,SVM)算法來檢測人臉微笑情緒特征。戴逸翔等[4]利用智能穿戴設(shè)備來獲取腦電、脈搏和血壓三類生物信息,利用稀疏自編碼方法對多模態(tài)情緒進(jìn)行分析與識別,因為需要給每一位測試者佩戴設(shè)備,這無疑存在著成本過高不能大規(guī)模使用的局限性。
目前,有效解決自然場景下的圖像分類和物體檢測等圖像相關(guān)任務(wù)的方法主要有傳統(tǒng)機(jī)器學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的方法。傳統(tǒng)機(jī)器學(xué)習(xí)的方法一般采用手工設(shè)計特征,并利用分類器算法進(jìn)行表情判定。典型的表情特征提取方法有主元分析(Principal Component Analysis,PCA)法[5]、局部二值模式(Local Binary Pattern,LBP)[6]、Gabor 小波變換[7]、尺度不變的特征變換(Scale Invariant Feature Transform,SIFT)[8]等,常用的分類方法主要有隱馬爾可夫模型(Hidden Markov Model,HMM)[9]、K 最近鄰(K-Nearest Neighbor,KNN)算法[10]等。
相比傳統(tǒng)機(jī)器學(xué)習(xí),深度神經(jīng)網(wǎng)絡(luò)能夠自主學(xué)習(xí)特征,減少了人為設(shè)計特征造成的不完備性。Tang[11]提出將CNN 與SVM 相結(jié)合,并且放棄了全連接CNN 所使用的交叉熵?fù)p失最小化方法,而使用標(biāo)準(zhǔn)的鉸鏈損失來最小化基于邊界的損失,在其測試集上實現(xiàn)了71.2%的識別率。MobileNet-V2[12]中采用了多尺度核卷積單元主要以深度可分離卷積為基礎(chǔ),分支中采用了的線性瓶頸層結(jié)構(gòu),對表情進(jìn)行了分類獲得了70.8%的識別率。Li 等[13]提出了一種新的保持深度局域的CNN 方法,旨在通過保持局部緊密度的同時最大化類間差距來增強(qiáng)表情類別間的辨別力。Kample 等[14]通過構(gòu)建級聯(lián)CNN 來提高表情識別的精度。徐琳琳等[15]針對網(wǎng)絡(luò)訓(xùn)練時間過長等問題,提出一種基于并行卷積神經(jīng)網(wǎng)絡(luò)的表情識別方法,獲得了65.6%的準(zhǔn)確率。CNN 常被用作黑盒子,它將學(xué)習(xí)到的特征隱藏,使得在分類的準(zhǔn)確性和不必要的參數(shù)數(shù)量之間難以抉擇。為此Szegedy 等[16]提出利用導(dǎo)向梯度反向傳播的實時可視化,來驗證CNN學(xué)習(xí)的特征。
對FER-2013數(shù)據(jù)集上的“憤怒”“厭惡”“恐懼”“快樂”“悲傷”“驚訝”和“中性”等表情進(jìn)行識別[16],是非常困難的(見圖1),需要表情分析和性別識別模型具有較強(qiáng)的魯棒性和較高的計算效率。
圖1 FER-2013情感數(shù)據(jù)集的樣本Fig. 1 Samples in FER-2013 emotion dataset
圖2 IMDB數(shù)據(jù)集的樣本Fig. 2 Samples in IMDB dataset
完整的實時表情和性別識別模型包括三個流程:人臉的檢測與定位、特征提取和分類。針對實際應(yīng)用對于人臉檢測的準(zhǔn)確度高和響應(yīng)速度快的需求,使用MTCNN(Multi-Task CNN)網(wǎng)絡(luò)對輸入圖像進(jìn)行人臉檢測,利用KCF(Kernelized Correlation Fiter)跟蹤器進(jìn)行人臉的定位跟蹤,將人臉圖像歸一化輸入深度可分卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。最后,將表情識別和性別識別兩個網(wǎng)絡(luò)并聯(lián)融合。圖3 是實時人臉表情和性別識別模型的總體框架。
圖3 人臉表情和性別識別框架Fig. 3 Facial expression and gender recognition framework
MTCNN 算法使用圖像金字塔,可適應(yīng)不同尺度的人臉圖像,網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。該算法由快速生成候選窗口的P-Net(Proposal Netwaork)、進(jìn)行高精度候選窗口過濾選擇的R-Net(Refine Network)和生成最終邊界框與人臉檢測點的O-Net(Output Network)三層網(wǎng)絡(luò)級聯(lián)組成。通過人臉關(guān)鍵點來對齊不同角度的人臉,網(wǎng)絡(luò)由粗到細(xì),使用降低卷積核數(shù)量和大小、增加網(wǎng)絡(luò)深度和候選框加分類的方式,進(jìn)行快速高效的人臉檢測。
加入KCF 跟蹤算法不僅能夠解決實際運用中人臉圖像角度多、有遮擋的檢測問題,還能提高人臉檢測速度。該算法使用目標(biāo)周圍區(qū)域的循環(huán)矩陣采集正負(fù)樣本,利用脊回歸訓(xùn)練目標(biāo)檢測器,并通過循環(huán)矩陣在傅里葉空間可對角化的性質(zhì)將矩陣的運算轉(zhuǎn)化為向量的Hadamad積,即元素的點乘,降低了運算量。先使用MTCNN算法對人臉進(jìn)行檢測,將檢測的人臉坐標(biāo)信息傳遞給跟蹤算法KCF 中,以此作為人臉檢測基礎(chǔ)樣本框,并采用檢測1幀、跟蹤5幀的跟蹤策略,最后更新檢測人臉的幀,進(jìn)行MTCNN模型更新,防止跟蹤丟失。
卷積神經(jīng)網(wǎng)絡(luò)本質(zhì)是一個多層感知機(jī)[17],包含眾多神經(jīng)元,由輸入層、隱含層和輸出層組成,輸入層是將每個像素代表一個特征節(jié)點輸入進(jìn)來,隱含層的卷積層和池化層是對圖像進(jìn)行特征提取的核心,在圖像的卷積操作中,每個神經(jīng)元內(nèi)部把前一層輸入的圖像矩陣與多個大小不同的卷積核進(jìn)行卷積求和,后跟一個加性偏置。將加性偏置和乘性偏置作為激活函數(shù)的參數(shù)求解,經(jīng)過線性整流函數(shù)(Rectified Linear Unit,ReLU)激活函數(shù)后輸出新值,從而構(gòu)成新的特征圖像。卷積層每個神經(jīng)元的輸出為:
為了跟本文設(shè)計深度可分卷積神經(jīng)網(wǎng)絡(luò)作對比,構(gòu)建和使用Bergstra等[18]提出的一個標(biāo)準(zhǔn)的全連接卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)由9 個卷積層、線性整流函數(shù)ReLU、批量標(biāo)準(zhǔn)化和最大池化層組成。該模型包含大約600 000 個參數(shù)。在FER-2013 數(shù)據(jù)集中驗證了此模型,實現(xiàn)了66%的表情識別準(zhǔn)確度。
圖4 MTCNN網(wǎng)絡(luò)結(jié)構(gòu)Fig. 4 Network structure of MTCNN
由圖5 可知,該卷積神經(jīng)網(wǎng)絡(luò)主要由6 個卷積層和3 個最大池化層構(gòu)成,每一個卷積層進(jìn)行卷積操作后進(jìn)行一個same填充,當(dāng)卷積核移動步長為1 時,圖像尺寸不變,同時為了固定網(wǎng)絡(luò)層中輸入的均值和方差并避免梯度消失問題,將每層神經(jīng)網(wǎng)絡(luò)任意神經(jīng)元的輸入值的分布拉回到均值為0、方差為1 的比較標(biāo)準(zhǔn)的正態(tài)分布,使用批規(guī)范化方法,在每一層加上一個批規(guī)范化(Batch Normalization,BN)操作,并用ReLU函數(shù)激活,后面連接3 個全連接層和1 個輸出層的Softmax 函數(shù),在全連接層之后使用一個Dropout 的方法,在訓(xùn)練中隨機(jī)丟棄神經(jīng)元防止過度訓(xùn)練。本文設(shè)計的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,其中c為卷積核的大小,n為卷積核的數(shù)量,s為卷積步長,p 為池化窗口的大小,same 表示使用same 的填充方式,ReLU為激活函數(shù),Sep-Conv為深度可分卷積。
該網(wǎng)絡(luò)結(jié)構(gòu)由以下部分組成:
1)經(jīng)過預(yù)處理之后得到的64 × 64 像素的學(xué)生頭部圖片作為輸入層。
2)c1 層使用64 個大小為11× 11 的卷積核對圖像進(jìn)行卷積操作,即每個神經(jīng)元具有一個11× 11 的感受野,步長為4,使用same的填充方式,激勵函數(shù)為ReLU。
3)s1 層采用了128 個3× 3 大小的池化窗口對圖像進(jìn)行降維,池化方式為最大池化,步長為2。
4)c2層采用了192個大小為5× 5的卷積核,步長為1。
5)s2 層采用了192 個大小為3× 3 的池化窗口,池化方式為最大池化,步長為2。
6)c3層使用256個3× 3的卷積核,步長為1。
7)c4使用了256個大小為3× 3的卷積核,步長為1。
8)c5使用256個大小為3× 3的卷積核,步長為1。
9)c6使用深度可分離卷積塊。
10)s3 采用大小為3× 3 的池化窗口進(jìn)行池化,池化方式為最大池化,步長為2。
11)使用4 096 個神經(jīng)元對256 個6 × 6 的特征圖進(jìn)行全連接,再進(jìn)行一個dropout 隨機(jī)從4 096 個節(jié)點中丟掉一些節(jié)點信息,得到新的4 096個神經(jīng)元。
該網(wǎng)絡(luò)包含4 個剩余深度可分離卷積,其中每個卷積后面是批量歸一化操作和ReLU 激活函數(shù)。最后一層應(yīng)用Softmax 函數(shù)產(chǎn)生預(yù)測。圖5 顯示了完整的最終網(wǎng)絡(luò)架構(gòu),將其稱為迷你Xception。該架構(gòu)在性別分類任務(wù)中獲得95%的準(zhǔn)確度。此外,在FER-2013數(shù)據(jù)集中情感分類任務(wù)中獲得了73.8%的準(zhǔn)確度。最終模型的權(quán)重可以存儲在855 KB 的文件中。通過降低模型的計算成本使其具有實時性,并且能夠連接兩個模型并在同一圖像中使用。
圖5 深度可分卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)Fig. 5 Deepwise separable convolution neural network structure
本文模型受到Xception[19]架構(gòu)的啟發(fā),結(jié)合了殘差模塊[20]和深度可分離卷積[21]的使用。殘差模塊修改兩個后續(xù)圖層之間所需的映射,以便學(xué)習(xí)的特征成為原始特征圖和所需特征的差值。通過“捷徑鏈接”的方式,直接將輸入的x 傳輸?shù)街虚g,將該中間結(jié)果作為初始結(jié)果H(x),為了使網(wǎng)絡(luò)的參數(shù)更容易學(xué)習(xí),將網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)從完整殘差塊的輸出F(x)改成新的目標(biāo)值H(x)和x 的差值。因此,后層網(wǎng)絡(luò)訓(xùn)練的目標(biāo)是將輸出結(jié)果逼近于0,使隨著網(wǎng)絡(luò)加深,預(yù)測準(zhǔn)確率不下降,修改的期望函數(shù)H(x)見式(2):
深度可分離卷積由兩個不同的層組成:深度方向卷積和點方向卷積。將傳統(tǒng)的卷積分為兩步:第一步,在每個M輸入通道上應(yīng)用一個D × D 濾波器,然后應(yīng)用N 個1× 1× M 卷積濾波器將M 個輸入通道組合成N 個輸出通道;第二步,應(yīng)用1×1×N 卷積將特征圖中的每個值結(jié)合起來。Xception 結(jié)構(gòu)增加了每一層網(wǎng)絡(luò)的寬度和深度,同時也大大減少了網(wǎng)絡(luò)的參數(shù)。深度可分卷積將標(biāo)準(zhǔn)卷積的計算量減少至1 N + 1 D2。
當(dāng)輸入一個2維的數(shù)據(jù),對于一個卷積核大小為3×3的卷積過程,正常卷積的參數(shù)量為2 × 3× 3× 3= 54,深度可分卷積的參數(shù)量為2 × 3× 3+ 2 × 1× 1× 3= 24,可以看到,參數(shù)量為正常卷積的一半。加入該架構(gòu)后模型大約有60 000 參數(shù),是原始CNN的1/80。
正常卷積層和深度可分離卷積之間的差異如圖6所示。
圖6 不同卷積之間的差異Fig. 6 Difference between different convolutions
本文在訓(xùn)練數(shù)據(jù)集之前,先對數(shù)據(jù)集進(jìn)行預(yù)處理。即,將圖像數(shù)據(jù)歸一化到64 × 64像素的圖像;接著把歸一化后的圖像通過平移、翻轉(zhuǎn)、灰度等方法進(jìn)行數(shù)據(jù)擴(kuò)充,在訓(xùn)練過程中以避免過擬合并提升泛化能力。另外,亦使用Dropout方法來避免過擬合。
卷積神經(jīng)網(wǎng)絡(luò)模型會因為訓(xùn)練數(shù)據(jù)的偏向性出現(xiàn)偏差,在數(shù)據(jù)集FER-2013中,主要針對表情分類訓(xùn)練的模型偏向于西方人的面部特征。此外,佩戴眼鏡也可能干擾所學(xué)習(xí)的特征,從而影響表情分類。那么當(dāng)模型出現(xiàn)偏差時,使用實時引導(dǎo)的可視化技術(shù)(如引導(dǎo)反向傳播)就變得很重要。以觀察圖像中的哪些像素激活更高級別特征圖的元素。對于只將ReLU作為中間層的激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò),引導(dǎo)反向傳播是輸入圖像中的元素(x,y)對卷積神經(jīng)網(wǎng)絡(luò)中位于L 層的特征圖fL中元素(i,j)的求導(dǎo)過程。當(dāng)輸入圖像到某一層時,設(shè)置這層中想要可視化的神經(jīng)元梯度為1,其他神經(jīng)元的梯度設(shè)置為0,然后經(jīng)過對池化層、ReLU 層、卷積層的反向傳播操作,得到輸入空間的一張圖像。因為ReLU函數(shù)的導(dǎo)數(shù)為:
所以引導(dǎo)反向傳播后重構(gòu)的圖像R 濾除了所有負(fù)梯度的值。因此,選擇剩余的梯度,使得它們僅增加特征圖的所選元素的值。層L中的ReLU激活的CNN重建圖像由式(4)給出:
在FER-2013 數(shù)據(jù)集中分別提取本文的網(wǎng)絡(luò)和全連接卷積神經(jīng)網(wǎng)絡(luò)最終卷積層中的高維特征進(jìn)行顯示,結(jié)果如圖7所示。通過對比兩者高維可視化的特征顯示,本文提出的具有Xception 結(jié)構(gòu)的網(wǎng)絡(luò)學(xué)習(xí)到的人臉特征具有更加清晰的輪廓和更少的顆粒感。
圖7 兩種卷積神經(jīng)網(wǎng)絡(luò)在FER-2013數(shù)據(jù)集上的可視化效果比較Fig. 7 Visualization comparison between two convolutional neural networks on FER-2013 dataset
人臉表情分類實驗在FER-2013 數(shù)據(jù)庫、CK+數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試,性別分類實驗在IMDB 數(shù)據(jù)庫上進(jìn)行訓(xùn)練和測試。
FER-2013 數(shù)據(jù)集包含35 887 張像素為48×48 的灰度圖,它已被挑戰(zhàn)賽舉辦方分為了三部分:訓(xùn)練集28 709張、公共測試集3 589 張和私有測試集3 589 張。其中包含有7 種表情:憤怒、厭惡、恐懼、開心、難過、驚訝和中性。CK+面部表情數(shù)據(jù)集由123個個體和593個圖像序列組成,每個圖像序列的最后一個圖像序列都有動作單元標(biāo)簽,327 個圖像序列都有表情標(biāo)簽,被標(biāo)記為7 種表情標(biāo)簽:憤怒、蔑視、厭惡、恐懼、喜悅、悲傷和驚訝。IMDB 性別數(shù)據(jù)集包含460 723 個RGB 圖像,其中每個圖像被標(biāo)注屬于“女性”或“男性”類。
本文利用上述數(shù)據(jù)集在深度可分卷積神經(jīng)網(wǎng)絡(luò)上進(jìn)行訓(xùn)練,神經(jīng)元一開始是隨機(jī)而獨特的,因此它們計算不同的更新,并將自己整合到網(wǎng)絡(luò)的不同部分。將參數(shù)按高斯分布或者均勻分布初始化成一個絕對值較小的數(shù)[20]。絕對值過小,容易產(chǎn)生梯度消失問題;絕對值過大,則容易產(chǎn)生梯度爆炸問題。在使用正態(tài)分布初始化參數(shù)時,參數(shù)量n 越大,方差越大,越可能產(chǎn)生訓(xùn)練速度慢或梯度消失問題。所以可以通過權(quán)重矩陣算法來降低初始化參數(shù)方差,進(jìn)而提高訓(xùn)練速度,預(yù)防梯度消失[21]。
其中:randn樣本為單位標(biāo)準(zhǔn)高斯分布,均值為0。通過式(5),將每個神經(jīng)元的權(quán)向量初始化為多維高斯分布中采樣的隨機(jī)向量,使得神經(jīng)元在輸入空間中指向隨機(jī)方向。在訓(xùn)練過程中隨機(jī)初始化權(quán)重和偏置,批量大小設(shè)置為120,初始學(xué)習(xí)率設(shè)置為0.01,本文使用了適應(yīng)性矩估計(Adaptive moment estimation,Adam)算法來最小化損失函數(shù),實現(xiàn)學(xué)習(xí)率的自適應(yīng)調(diào)整,從而保證準(zhǔn)確率的同時加快收斂。通過對卷積神經(jīng)網(wǎng)絡(luò)權(quán)重和偏置的調(diào)整,并且使用了訓(xùn)練自動停止策略,當(dāng)模型的在驗證集和訓(xùn)練集上的預(yù)測能力提升,而在訓(xùn)練集的誤差值先減小再增大,這時出現(xiàn)過擬合現(xiàn)象,訓(xùn)練停止。圖8分別給出了FER-2013 和CK+數(shù)據(jù)集訓(xùn)練過程中識別率的變化情況。由圖8 可以看出迭代至105次后,訓(xùn)練的準(zhǔn)確率達(dá)到很高的位置且基本保持穩(wěn)定,說明最后的模型已經(jīng)得到充分收斂,訓(xùn)練停止保存模型。
圖8 兩種數(shù)據(jù)集上識別率變化Fig. 8 Change of recognition rate on two datasets
人臉表情和性別識別框架中,首先加載已訓(xùn)練好的表情和性別分類模型以及相關(guān)配置文件,而針對待檢測人臉圖像,抓一幀圖,找到表情和性別坐標(biāo)信息,將其像素大小調(diào)整為64 × 64。然后,人臉圖像經(jīng)網(wǎng)絡(luò)模型向前計算,與訓(xùn)練好的模型中的權(quán)重進(jìn)行比較,得到預(yù)測的每一個情感和性別分類標(biāo)簽的得分值,最大值即預(yù)測結(jié)果。面部表情和性別分析視覺結(jié)果如圖9所示。
圖9 面部表情識別結(jié)果示例Fig. 9 Facial expression recognition result example
實驗結(jié)果為3 次測驗的平均值。為了比較方便,在該測試集中種表情的識別準(zhǔn)確度結(jié)果按照混淆矩陣圖表示,如表1所示。
表1 FER-2013數(shù)據(jù)集上的情感識別混淆矩陣Tab. 1 Confusion matrix of expression recognition on FER-2013 dataset
從表1 可知,本文方法對快樂表情識別率為87%,主要是因為網(wǎng)絡(luò)在特征提取時,快樂表情的面部特征較其他表情更加明顯,在Softmax 函數(shù)分類的過程中產(chǎn)生概率也越大。驚訝和中性表情識別率分別為77%和76%;而對憤怒和恐懼的表情識別率較低分別為65%和67%,容易出現(xiàn)錯誤的識別,如圖10 所示。其原因是在面部特征提取和學(xué)習(xí)的過程中,兩種表情的面部動作幅度都比較大,可能產(chǎn)生相似的面部特征,在Softmax函數(shù)分類時產(chǎn)生大小接近的概率值。
圖10 易錯誤識別的表情對比Fig. 10 Comparison between easily misidentified expressions
在CK+數(shù)據(jù)集上的實驗采用了遷移學(xué)習(xí)的方法,將模型在FER-2013上訓(xùn)練得到的權(quán)重參數(shù)作為預(yù)訓(xùn)練結(jié)果,然后在CK+上進(jìn)行微調(diào),并采用三折交叉驗證對模型性能進(jìn)行評估。本文方法在CK+數(shù)據(jù)集上取得了96%的平均識別率,情感識別結(jié)果見表2。
表2 CK+數(shù)據(jù)集上的情感識別混淆矩陣Tab. 2 Confusion matrix of emotion recognition on CK+dataset
各方法在FER-2013 數(shù)據(jù)集上的識別率結(jié)果如表3 所示。
表3 各方法在FER-2013數(shù)據(jù)集上的識別率對比Tab. 3 Comparison of recognition rate among different methods on FER-2013 dataset
實驗環(huán)境為:64 位Windows 10 操作系統(tǒng),CPU 為Inter i5 7300HQ,主頻2.5 GHz,顯卡型號為NVIDIA GTX 1050ti,顯存為4 GB,使用基于Tensorflow 的深度學(xué)習(xí)平臺。針對整體模型的實時性進(jìn)行了測試。實驗結(jié)果表明,通過引用深度可分卷積的輕量化網(wǎng)絡(luò)結(jié)構(gòu),組合OpenCV 人臉檢測模塊,表情分類模塊和性別分類模型處理單幀人臉圖像的時間為(0.22±0.05)ms,整體處理速度達(dá)到80 frame/s;與文獻(xiàn)[11]所提架構(gòu)的處理速度0.33 ms/frame 相比,相當(dāng)于1.5倍的加速,能夠確保實時識別效果。
針對卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程復(fù)雜、耗時過長、實時性差等問題,本文提出了一種基于深度可分卷積神經(jīng)網(wǎng)絡(luò)的實時表情識別和性別識別方法。利用MTCNN 加上KCF 的方法進(jìn)行人臉的檢測、跟蹤。通過引入深度可分離卷積輕量化網(wǎng)絡(luò)結(jié)構(gòu),減少模型參數(shù)數(shù)量,將參數(shù)數(shù)量同全連接CNN 相比,僅占其1/80;使用反卷積方法可視化呈現(xiàn)了CNN 模型中學(xué)習(xí)到的高級特征。最后,模型在FER-2013數(shù)據(jù)集上對人臉表情的識別達(dá)到了73.8%的高識別率,在CK+數(shù)據(jù)集上微調(diào)獲得96%的準(zhǔn)確率,在IMDB 數(shù)據(jù)集上取得96%的識別率。處理單幀人臉圖像的時間為(0.22±0.05)ms,整體處理速度達(dá)到80 frame/s。實驗結(jié)果表明,本文模型可以堆疊用于多類分類,同時保持實時預(yù)測;可在單個集成模塊中執(zhí)行面部檢測,進(jìn)行性別分類和情感分類。后續(xù)工作將增加情感識別類型,擴(kuò)充表情數(shù)據(jù)庫,在真實場景下的數(shù)據(jù)集上進(jìn)行訓(xùn)練,進(jìn)一步提高識別準(zhǔn)確率。