翟懿奎 劉 健
(五邑大學(xué)信息工程學(xué)院,廣東江門 529020)
人臉表情識別是模式識別研究中的重要領(lǐng)域,其在人機(jī)交互、醫(yī)療護(hù)理、機(jī)器人等領(lǐng)域有著非常重要的應(yīng)用價值[1]。研究者們提出了很多人臉表情識別算法并成功應(yīng)用在相關(guān)任務(wù)中,但是在實(shí)際應(yīng)用環(huán)境中,因人臉表情具備個體差異大、主觀性強(qiáng)等因素,如何讓計(jì)算機(jī)很好地理解并識別真實(shí)環(huán)境下的人臉表情成為人臉表情識別領(lǐng)域中的重要課題。
人臉表情識別和傳統(tǒng)模式識別任務(wù)類似,其研究任務(wù)主要分為兩個部分:特征提取和分類識別。針對這兩個部分,研究人員提出許多方法。在人臉表情特征提取方面,主動形狀模型(ASM)[2]等人臉表情幾何特征提取方法,局部二值模式(LBP)[3]、局部相位量化(LPQ)[4]等人臉表情紋理特征提取方法,主成分分析(PCA)[5]、獨(dú)立成分分析(ICA)[6]等人臉表情統(tǒng)計(jì)特征提取方法,以及Gabor濾波器(Gabor Filters)[7]等人臉表情變換域特征提取方法被提出,并取得了良好的效果。K近鄰識別算法(KNN)[8]、人工神經(jīng)網(wǎng)絡(luò)(ANN)[9]、隱馬爾可夫模型(HMM)[10]以及支持向量機(jī)(SVM)[11]等方法相繼被提出并應(yīng)用于人臉表情識別任務(wù)上。
與傳統(tǒng)特征表達(dá)和識別方法相比,基于卷積神經(jīng)網(wǎng)絡(luò)的人臉表情識別方法通過構(gòu)建多層非線性神經(jīng)網(wǎng)絡(luò),從表情數(shù)據(jù)庫中學(xué)習(xí)更深層次的表情特征,將樣本圖像從原始空間變換到抽象特征空間,從而提升識別效果。文獻(xiàn)[12]等基于人臉表情數(shù)據(jù)集構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)并進(jìn)行訓(xùn)練,實(shí)現(xiàn)人臉表情圖像特征的自動提取和識別,獲得了較好的效果。
基于大規(guī)模數(shù)據(jù)集,深度卷積神經(jīng)網(wǎng)絡(luò)在大量模式識別任務(wù)上取得了良好的效果[13]。然而在人臉表情識別等不包含大規(guī)模數(shù)據(jù)集的模式識別任務(wù)中,直接訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)的表現(xiàn)并不理想,而為小規(guī)模數(shù)據(jù)集上的模式識別任務(wù)構(gòu)建大規(guī)模數(shù)據(jù)集是不太實(shí)際的。為此,許多研究者轉(zhuǎn)而利用遷移學(xué)習(xí)來尋求解決方法,與直接在人臉表情數(shù)據(jù)集上訓(xùn)練相比,利用遷移學(xué)習(xí)方法能在準(zhǔn)確率上獲得較大的提升。文獻(xiàn)[14]將VGG、ImageNet等典型深度卷積神經(jīng)網(wǎng)絡(luò)用于人臉表情識別任務(wù),實(shí)現(xiàn)人臉表情特征提取和識別,獲得了較好的結(jié)果。
盡管遷移學(xué)習(xí)方法在許多模式識別任務(wù)中都取得了良好的效果,但是在人臉識別模型遷移到人臉表情識別任務(wù)的工程中,遷移學(xué)習(xí)的表現(xiàn)依然欠佳。因在人臉表情識別任務(wù)中,需要識別的類別總數(shù)遠(yuǎn)小于其他任務(wù)類別總數(shù)(如人臉識別任務(wù)等)。在將模型遷移到人臉表情識別任務(wù)時,模型產(chǎn)生的特征對于人臉表情識別任務(wù)來說通常太復(fù)雜,且冗余信息較多,過擬合的情況仍然存在。為有效緩解模型遷移過程中產(chǎn)生的過擬合問題,提升人臉表情識別效果,本文將深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Network, DCNN)和遷移學(xué)習(xí)方法(Transfer Learning)應(yīng)用于人臉表情識別研究。本文將人臉識別網(wǎng)絡(luò)模型在人臉表情數(shù)據(jù)庫上進(jìn)行微調(diào)訓(xùn)練。為了抑制過擬合,本文首先對SFEW2.0數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),然后將雙激活層(Double Activation Layer, DAL)和Softmax-MSE損失函數(shù)應(yīng)用到微調(diào)后的網(wǎng)絡(luò)模型上。為了檢驗(yàn)識別效果,本文在經(jīng)過數(shù)據(jù)增強(qiáng)處理的SFEW2.0數(shù)據(jù)集和FER2013數(shù)據(jù)集上分別進(jìn)行測試,獲得了主流識別效果。
本文主要內(nèi)容安排如下:第2部分介紹本文采用的遷移學(xué)習(xí)模型、卷積神經(jīng)網(wǎng)絡(luò)模型以及本文提出的Softmax-MSE損失函數(shù)和雙激活層網(wǎng)絡(luò)結(jié)構(gòu);第3部分介紹實(shí)驗(yàn)結(jié)果并進(jìn)行分析;第4部分對本文進(jìn)行總結(jié)。
在模式識別任務(wù)中通常存在這樣一個假設(shè),即訓(xùn)練數(shù)據(jù)和待處理數(shù)據(jù)處在同一個樣本空間中,它們有著相同的分布規(guī)律。但在實(shí)際應(yīng)用中,這個假設(shè)是很難成立的。遷移學(xué)習(xí)因其能夠?qū)崿F(xiàn)在不同領(lǐng)域、不同任務(wù)間進(jìn)行知識遷移,近年來越來越受到研究人員的關(guān)注。傳統(tǒng)機(jī)器學(xué)習(xí)過程和遷移學(xué)習(xí)過程如圖1和圖2所示,傳統(tǒng)機(jī)器學(xué)習(xí)過程注重于為多個學(xué)習(xí)任務(wù)分別訓(xùn)練不同的學(xué)習(xí)模型,而遷移學(xué)習(xí)過程更注重于利用其他不同任務(wù)中學(xué)習(xí)到的知識訓(xùn)練學(xué)習(xí)模型。
圖1 傳統(tǒng)機(jī)器學(xué)習(xí)過程Fig.1 Learning process of traditional machine learning
圖2 遷移學(xué)習(xí)過程Fig.2 Learning process of transfer learning
在介紹遷移學(xué)習(xí)理論前,需要先介紹遷移學(xué)習(xí)相關(guān)符號和定義。首先介紹“域”和“任務(wù)”的概念[15]。在遷移學(xué)習(xí)中,一個“域”由一個特征空間χ和一個邊際概率分布P(X)構(gòu)成,其中X={x1,x2,…,xn}∈χ,遷移學(xué)習(xí)中主要有源域和目標(biāo)域兩個“域”。然后介紹“任務(wù)”的概念。對于一個特定的“域”D={χ,P(X)},一個“任務(wù)”主要由一個標(biāo)簽空間γ和一個主觀預(yù)測函數(shù)f(·)構(gòu)成,他們的關(guān)系為T={γ,f(·)}。
表1闡述了各類遷移學(xué)習(xí)方法與傳統(tǒng)機(jī)器學(xué)習(xí)方法的聯(lián)系。在遷移學(xué)習(xí)的研究中,主要將遷移學(xué)習(xí)分為歸納式遷移學(xué)習(xí)(Inductive Transfer Learning)、推導(dǎo)式遷移學(xué)習(xí)(Transductive Transfer Learning)和無監(jiān)督遷移學(xué)習(xí)(Unsupervised Transfer Learning)三類[15]。將目標(biāo)域與源域相同而目標(biāo)任務(wù)與源任務(wù)不同但相關(guān)的遷移學(xué)習(xí)方式分為歸納式遷移學(xué)習(xí),目標(biāo)域和源域不同且目標(biāo)任務(wù)和源任務(wù)也不同的遷移學(xué)習(xí)任務(wù)分為無監(jiān)督式遷移學(xué)習(xí),源域和目標(biāo)域不同源任務(wù)和目標(biāo)任務(wù)相同的遷移學(xué)習(xí)方法稱為推導(dǎo)式遷移學(xué)習(xí)方法。
在人臉表情識別和人臉識別任務(wù)等相關(guān)任務(wù)中,模型提取的初層特征具有良好的通用性,在相關(guān)任務(wù)中都能夠取得良好的效果,且在人臉識別任務(wù)中包含大規(guī)模帶標(biāo)簽數(shù)據(jù)集。因此,本文采用歸納式遷移學(xué)習(xí)方法。本文選取人臉識別與人臉表情識別分別作為源任務(wù)與目標(biāo)任務(wù),將在大規(guī)模人臉數(shù)據(jù)集上訓(xùn)練得到的人臉識別模型遷移到人臉表情識別任務(wù)中。首先修改人臉識別網(wǎng)絡(luò)模型[16]的全連接層和分類層結(jié)構(gòu),保持特征提取層結(jié)構(gòu)不變。然后,修改原始人臉識別網(wǎng)絡(luò)中的全連接層與Softmax分類層,使修改后的網(wǎng)絡(luò)適用于人臉表情識別任務(wù)。稱修改后的網(wǎng)絡(luò)為Net EXP。在訓(xùn)練階段,使用人臉表情識別模型中的參數(shù)初始化人臉表情識別模型。為了使訓(xùn)練過程平穩(wěn),在人臉表情數(shù)據(jù)庫上以較小的學(xué)習(xí)率和權(quán)重衰減速率訓(xùn)練表情識別網(wǎng)絡(luò),得到人臉表情識別模型。為了獲得更好的識別效果,本文在遷移學(xué)習(xí)過程中采用了“早?!钡挠?xùn)練策略,即選擇訓(xùn)練過擬合前的最優(yōu)模型作為下階段遷移學(xué)習(xí)的初始模型,并逐次減小訓(xùn)練學(xué)習(xí)率,直到模型測試達(dá)到理想狀態(tài)。
卷積神經(jīng)網(wǎng)絡(luò)早在多年前就已經(jīng)被應(yīng)用于模式識別領(lǐng)域,近年來深度學(xué)習(xí)的發(fā)展使深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展更加迅速。卷積神經(jīng)網(wǎng)絡(luò)能夠在眾多模式識別任務(wù)中取得快速進(jìn)展主要得益于其特殊的兩種網(wǎng)絡(luò)結(jié)構(gòu)方式:局部感知野(LRF)和權(quán)值共享(Sharing Weights)。
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)內(nèi)部采用全連接結(jié)構(gòu),這對于小尺寸圖像來說,計(jì)算整幅圖像的特征是可行的。但是當(dāng)圖像尺寸變大時,計(jì)算圖像特征會變得非常費(fèi)時。卷積層通過采用局部感知野的方式,限制上下兩層神經(jīng)元之間的連接,使下層神經(jīng)元僅連接上層神經(jīng)元中的小塊區(qū)域,從而解決大尺寸圖像特征計(jì)算費(fèi)時的問題。
權(quán)值共享是卷積神經(jīng)網(wǎng)絡(luò)另一個節(jié)省訓(xùn)練時間開銷的方法。卷積神經(jīng)網(wǎng)絡(luò)通過連接若干卷積層(Convolutional Layer)和池化層(Pooling Layer),實(shí)現(xiàn)從輸入圖像到特征空間之間的映射。然后使用全連接層來實(shí)現(xiàn)從特征空間到類別空間之間的映射。在一個卷積層中包含若干類卷積核,每一類卷積核通過遍歷輸入特征圖的方式提取特征,每一類卷積核提取一種圖像特征,而多種卷積核組合可以提取輸入特征圖像的多種特征。
表1 遷移學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)的聯(lián)系
圖3 本文所采用原始網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Original network structure used in this paper
本文所采用的卷積神經(jīng)網(wǎng)絡(luò)模型Net EXP如圖3所示。首先輸入人臉表情圖像經(jīng)過卷積層處理,卷積核尺寸為5×5,輸出96張?zhí)卣鲌D。特征圖經(jīng)過最大特征圖層(Max-Feature-Map, MFM)處理,該層將上層卷積層輸出的特征圖平均分為兩個部分,通過比較兩部分對應(yīng)特征圖的大小,輸出其中較大的特征圖,特征圖通過MFM層之后數(shù)量減少一半。MFM層輸出的特征圖經(jīng)過最大池化處理后再經(jīng)過10個“卷積層+MFM層”結(jié)構(gòu)處理后輸出至全連接層,“卷積層+MFM層”結(jié)構(gòu)中卷積層采用3×3大小卷積核。最后全連接層接Softmax分類器輸出圖像所屬的人臉表情類別。
在將人臉識別任務(wù)知識遷移到人臉表情識別任務(wù)的時候,主要有兩個問題需要解決。第一個是通過遷移學(xué)習(xí)之后的人臉表情識別網(wǎng)絡(luò)仍然含有大量冗余信息。這是因?yàn)樵谌四槺砬閿?shù)據(jù)庫和人臉數(shù)據(jù)庫數(shù)量級之間存在巨大差異。第二個問題是經(jīng)過微調(diào)之后人臉識別網(wǎng)絡(luò)模型對于人臉表情識別任務(wù)而言過于復(fù)雜,過擬合問題依然很嚴(yán)重。為了解決以上原因造成的過擬合問題,本文提出了一種Softmax-MSE損失函數(shù)?,F(xiàn)有的Softmax損失函數(shù)只計(jì)算神經(jīng)網(wǎng)絡(luò)中Softmax層所有單個神經(jīng)元的輸出誤差之和,并不關(guān)心類間誤差。而Softmax-MSE損失函數(shù)將識別錯誤考慮進(jìn)模型總體損失之內(nèi),使得人臉表情識別模型具有更好的識別效果,是一種損失敏感型的損失函數(shù)。
假設(shè)Loss層的輸入輸出神經(jīng)元個數(shù)都為m,Loss層的輸入集X={x0,x1,...,xm-1},在人臉表情識別任務(wù)中,X表示輸入圖像的識別結(jié)果向量,向量中每個元素表示輸入圖像屬于元素代表類別的概率。則Loss層的第k個神經(jīng)元經(jīng)Softmax函數(shù)變換得到
(1)
(2)
如果CNN模型訓(xùn)練的batch size為n,則Softmax-MSE損失值L為
(3)
和原始Softmax損失函數(shù)不同,由式(1)、式(2)和式(3)可知,由于式(1)中xk-max(X)以及式(2)中kpk項(xiàng)的存在,在計(jì)算Softmax-MSE總體損失值時,輸出層每個神經(jīng)元的輸出與該層神經(jīng)元輸出的最大值之差被考慮在總體損失函數(shù)之內(nèi),從而使Softmax-MSE損失函數(shù)在計(jì)算總體損失時,將類別間誤差考慮在內(nèi)。
為了繼承Softmax損失函數(shù)的快速收斂優(yōu)勢,Softmax-MSE損失函數(shù)采用Softmax函數(shù)的梯度計(jì)算方法,即
(4)
具體地,和Softmax函數(shù)計(jì)算單個樣本的梯度類似,針對單個樣本在最后一層全連接層產(chǎn)生的輸出xi,以及該樣本產(chǎn)生的損失Lj,Softmax-MSE損失函數(shù)在計(jì)算其梯度時,對于網(wǎng)絡(luò)模型在最后一層全連接層的第i個輸出,若該神經(jīng)元序號i與樣本的真實(shí)標(biāo)簽值yi相等,則采用pi-1計(jì)入梯度值,若神經(jīng)元序號i與真實(shí)標(biāo)簽值yi不相等,則采用pi計(jì)入梯度值。
在深度學(xué)習(xí)和模式識別領(lǐng)域中,ReLU激活函數(shù)因其稀疏連接和單側(cè)激活的特點(diǎn)得到非常廣泛的應(yīng)用。ReLU激活函數(shù)能夠在神經(jīng)網(wǎng)絡(luò)訓(xùn)練時加快神經(jīng)網(wǎng)絡(luò)的收斂速度,在大量深度學(xué)習(xí)和模式識別任務(wù)中取得好的效果。然而ReLU激活函數(shù)也因其稀疏連接和右側(cè)線性激活的特點(diǎn)使其缺乏較強(qiáng)的非線性表征能力。一種新型的Maxout激活函數(shù)在文獻(xiàn)[17]首次提,其具有較強(qiáng)的非線性表征能力,能夠使網(wǎng)絡(luò)模型獲得更好的局部解。在文獻(xiàn)[17]中的實(shí)驗(yàn)結(jié)果表明,采用Maxout激活函數(shù)的模型在MNIST和CIFAR-10獲得了較為滿意的效果。
ReLU激活函數(shù)和Maxout激活函數(shù)各有其優(yōu)點(diǎn)。為了利用二者的優(yōu)點(diǎn),本文提出一種融合ReLU激活函數(shù)和Maxout激活函數(shù)的雙激活層網(wǎng)絡(luò)結(jié)構(gòu)。本文在經(jīng)過微調(diào)后的人臉識別網(wǎng)絡(luò)中全連接層的后面加入雙激活層(Double Active Layer, DAL)。雙激活層網(wǎng)絡(luò)結(jié)構(gòu)圖如圖4所示,采用“Maxout+ReLU”兩層結(jié)構(gòu),其通過應(yīng)用Maxout激活函數(shù)的非線性能力與ReLU激活函數(shù)的稀疏性使網(wǎng)絡(luò)獲得局部最優(yōu)解。在圖4所示網(wǎng)絡(luò)結(jié)構(gòu)中,兩組全連接層的輸出連接至網(wǎng)絡(luò)的最后一層卷積層。然后兩組全連接層輸出到Maxout層,該層找到兩組全連接層輸出中的較大值。最后Maxout層輸出到ReLU層。在圖4中,“IP1”和“IP2”表示全連接層。
圖4 雙激活層網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 Architecture of DAL layers
假設(shè)ReLU層的輸入集為X,則輸出集Y為
Y=max(0,X)
(5)
(6)
假設(shè)Maxout層的輸入集為X,先把X等分成X1和X2兩部分,再計(jì)算輸出集Y,即
Y=max(X1,X2)
(7)
Maxout層梯度為
(8)
在雙激活層計(jì)算過程中,式(7)用于前向傳播計(jì)算過程,式(8)用于計(jì)算反向傳播過程中的梯度。因ReLU的稀疏連接特性,網(wǎng)絡(luò)模型更容易訓(xùn)練。從雙激活層結(jié)構(gòu)可以看出,由于Maxout計(jì)算過程中的輸出集比輸入集在維度上減少了一倍,使得雙激活層結(jié)構(gòu)也具備一定的數(shù)據(jù)降維能力。另外,從式(7)可知,Maxout函數(shù)還具備一定的非線性變換能力。
本文分別在SFEW 2.0數(shù)據(jù)庫和FER2013數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn)。這兩個數(shù)據(jù)庫均包含“憤怒”、“厭惡”、“害怕”、“高興”、“悲傷”、“驚喜”和“中性”7類表情。原始SFEW 2.0數(shù)據(jù)庫包含958張訓(xùn)練圖像,這對于微調(diào)人臉識別網(wǎng)絡(luò)來說并不充足。因此本文針對SFEW 2.0數(shù)據(jù)庫,通過在原始圖像三個通道中加入隨機(jī)噪聲對數(shù)據(jù)庫訓(xùn)練集進(jìn)行了數(shù)據(jù)增強(qiáng),測試集保持不變。為了增加人臉表情識別模型識別能力,對訓(xùn)練集進(jìn)行挑選。將訓(xùn)練數(shù)據(jù)集中不包含人臉的圖像和人臉檢測器檢測不到人臉的圖像剔除出訓(xùn)練集。在下文中,稱經(jīng)過數(shù)據(jù)增強(qiáng)處理的SFEW 2.0數(shù)據(jù)庫訓(xùn)練集為SFEW 2.0 new訓(xùn)練集。原始FER2013數(shù)據(jù)庫訓(xùn)練集已包含足夠量的訓(xùn)練集圖片,本文不對FER2013數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)處理。
表2介紹了有關(guān)FER 2013訓(xùn)練集和SFEW 2.0 new訓(xùn)練集的詳細(xì)信息,并顯示了兩個數(shù)據(jù)庫訓(xùn)練集中每一類包含的圖像數(shù)量。
本文人臉圖像裁剪部分如圖5所示,首先采用Viola Jones[18]人臉檢測器檢測人臉。然后根據(jù)人臉的5個特征點(diǎn)對圖像中人臉部分進(jìn)行裁剪,并輸出裁剪后的人臉圖像的灰度圖片。裁剪后圖像大小為144×144。
表2 FER 2013訓(xùn)練集信息和SFEW 2.0 new訓(xùn)練集信息
圖5 SFEW 2.0數(shù)據(jù)庫圖像預(yù)處理Fig.5 The preprocessing on SFEW 2.0 dataset
本文在已經(jīng)訓(xùn)練好的人臉識別模型上微調(diào),這給訓(xùn)練人臉表情識別模型設(shè)定了一個好的訓(xùn)練起點(diǎn)。本文實(shí)驗(yàn)將基礎(chǔ)學(xué)習(xí)速率設(shè)置為10e-5、訓(xùn)練模式設(shè)置為“fix”、momentum參數(shù)設(shè)置為0.9、gamma參數(shù)設(shè)置為5×10e- 6、power參數(shù)設(shè)置為0.75,其他solver參數(shù)根據(jù)表情數(shù)據(jù)庫設(shè)置。在訓(xùn)練人臉表情識別模型的過程中,本文采取了“早?!钡牟呗浴<丛谟?xùn)練過程中模型開始出現(xiàn)過擬合現(xiàn)象時,停止訓(xùn)練過程,以10e-1倍率降低基礎(chǔ)學(xué)習(xí)速率并在“早?!鼻暗淖顑?yōu)模型上繼續(xù)fine tuning過程,直到模型測試準(zhǔn)確率不再提升。本文中實(shí)驗(yàn)在深度學(xué)習(xí)框架Caffe上進(jìn)行。在FER 2013數(shù)據(jù)庫上實(shí)驗(yàn)時,采用了同樣的訓(xùn)練參數(shù)和“早?!辈呗?。
本文在FER 2013和經(jīng)過數(shù)據(jù)增強(qiáng)處理的SFEW 2.0數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn)。首先本文采用了第2.2節(jié)描述的網(wǎng)絡(luò)結(jié)構(gòu)Net EXP,然后在網(wǎng)絡(luò)Net EXP第一個全連接層后添加雙激活層并稱該修改后的網(wǎng)絡(luò)為Net EXP_DAL,將Net EXP中損失函數(shù)修改為Softmax-MSE并稱該修改后的網(wǎng)絡(luò)為Net Exp_MSE,最后本文將Net EXP_DAL網(wǎng)絡(luò)中的Softmax損失函數(shù)修改為Softmax-MSE損失函數(shù)并稱該修改后的網(wǎng)絡(luò)為Net EXP_DAL_MSE。之后,分別在FER 2013數(shù)據(jù)庫和經(jīng)過數(shù)據(jù)增強(qiáng)處理的SFEW 2.0數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn)。本文方法與其他方法實(shí)驗(yàn)結(jié)果對比如表3所示。
表3 本文方法與其他方法實(shí)驗(yàn)結(jié)果對比
表4到表7分別給出了Net EXP、Net EXP_DAL、Net EXP_MSE以及Net EXP_DAL_MSE四個網(wǎng)絡(luò)模型在FER 2013數(shù)據(jù)庫上識別結(jié)果的混淆矩陣。對比表4和表5,本文所提雙激活層網(wǎng)絡(luò)結(jié)構(gòu)在大部分表情類別上模型的識別準(zhǔn)確率均獲得提升,如“憤怒”、“高興”、“中性”以及“驚喜”等表情。應(yīng)用雙激活層后,網(wǎng)絡(luò)在“厭惡”和“害怕”的表情上識別率比原始網(wǎng)絡(luò)低。應(yīng)用雙激活層后的網(wǎng)絡(luò)容易將“厭惡”表情識別為“憤怒”,因?yàn)檫@兩類表情體現(xiàn)負(fù)面情緒,在低表情強(qiáng)度時表現(xiàn)為大致相同的面部特征。應(yīng)用雙激活層后的網(wǎng)絡(luò)容易將“害怕”表情識別為“悲傷”表情,因?yàn)樵诟弑砬閺?qiáng)度時,兩類表情包含“皺眉”和“張嘴”的面部特征。對比表4和表6,應(yīng)用Softmax-MSE激活函數(shù)后,網(wǎng)絡(luò)識別率在除“悲傷”和“驚喜”表情之外的所有表情上均獲得提升。對比表4與表7,結(jié)合雙激活層結(jié)構(gòu)和Softmax-MSE激活函數(shù)后,網(wǎng)絡(luò)在除“厭惡”和“害怕”之外的所有表情上識別率都有提升。
表4 Net EXP在FER 2013數(shù)據(jù)庫上的混淆矩陣
表5 Net EXP_DAL在FER 2013數(shù)據(jù)庫上的混淆矩陣
表6 Net EXP_MSE在FER 2013數(shù)據(jù)庫上的混淆矩陣
表7 Net EXP_DAL_MSE在FER 2013數(shù)據(jù)庫上的混淆矩陣
表8到表11分別給出了Net EXP、Net EXP_DAL、Net EXP_MSE以及Net EXP_DAL_MSE四個網(wǎng)絡(luò)模型在SFEW 2.0數(shù)據(jù)庫上識別結(jié)果的混淆矩陣。對比表8與表9可知,應(yīng)用雙激活層結(jié)構(gòu)之后,網(wǎng)絡(luò)在“憤怒”、“厭惡”、“中性”和“悲傷”表情上識別率有所提升,但在“害怕”和“驚喜”表情上識別率有所下降。對比表8和表10可知,應(yīng)用Softmax-MSE損失函數(shù)之后,網(wǎng)絡(luò)在除“憤怒”和“高興”之外的表情上識別率均獲得提升。對比表8和表11可知,應(yīng)用雙激活層網(wǎng)絡(luò)結(jié)構(gòu)和Softmax-MSE激活函數(shù)之后,網(wǎng)絡(luò)除在“驚喜”和“憤怒”表情之外的表情上識別率均獲得提升。
表8 Net EXP在SFEW 2.0數(shù)據(jù)庫上的混淆矩陣
表9 Net EXP_DAL在SFEW 2.0數(shù)據(jù)庫上的混淆矩陣
表10 Net EXP_MSE在SFEW 2.0數(shù)據(jù)庫上的混淆矩陣
表11 Net EXP_DAL_MSE在SFEW 2.0數(shù)據(jù)庫上的混淆矩陣