崔子越,皮家甜,陳 勇,楊杰之,鮮 焱,吳至友,趙立軍,曾紹華,呂 佳
1.重慶師范大學(xué) 計(jì)算機(jī)與信息科學(xué)學(xué)院,重慶 401331
2.重慶市數(shù)字農(nóng)業(yè)服務(wù)工程技術(shù)研究中心(重慶師范大學(xué)),重慶 401331
3.智慧金融與大數(shù)據(jù)分析重慶市重點(diǎn)實(shí)驗(yàn)室(重慶師范大學(xué)),重慶 401331
4.重慶師范大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,重慶 401331
隨著計(jì)算機(jī)圖像處理技術(shù)日益的完善,人臉表情識(shí)別逐漸成為計(jì)算機(jī)圖像處理中重要的一部分,在人機(jī)交互、安全以及機(jī)器人制造等領(lǐng)域具有廣泛且必要的用途。通過(guò)面部表情的變化來(lái)獲取對(duì)象情感變化,是面部表情的主要交流方式。在實(shí)際采集表情數(shù)據(jù)集時(shí),通常會(huì)由于光照變化、頭部姿勢(shì)、表情強(qiáng)度以及呈現(xiàn)方式等因素,造成表情樣本類(lèi)內(nèi)表情差異大、類(lèi)間表情差異小的問(wèn)題,降低模型準(zhǔn)確性。因此,人臉表情識(shí)別依然面臨著巨大的挑戰(zhàn)。
表情識(shí)別的研究可以主要分為基于傳統(tǒng)特征提取的方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)特征提取主要依賴(lài)人工設(shè)計(jì)的提取器,需要大量的專(zhuān)業(yè)知識(shí),同時(shí)泛化性和魯棒性較深度學(xué)習(xí)方法略有不足。Gupta等人[1]使用SVM 的方法在CK+數(shù)據(jù)集上取得了93.7%的準(zhǔn)確性,相比深度學(xué)習(xí)方法準(zhǔn)確性較差。深度學(xué)習(xí)方法對(duì)特征的提取是通過(guò)反向傳播和誤差優(yōu)化算法對(duì)權(quán)重進(jìn)行更新迭代,在大量樣本學(xué)習(xí)過(guò)程中提取到更深層次、更抽象的特征。近年來(lái),眾多學(xué)者將深度學(xué)習(xí)方法應(yīng)用于人臉表情識(shí)別當(dāng)中,并且取得了較好的效果。
2014 年,Simonyan 等人[2]提出了VGGNet 模型,探索了卷積神經(jīng)網(wǎng)絡(luò)的深度與其性能之間的關(guān)系,為深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Network,DCNN)的發(fā)展奠定了基礎(chǔ)。在此基礎(chǔ)上,Duncand 等人[3]提出了VGG_S網(wǎng)絡(luò)模型用來(lái)進(jìn)行實(shí)時(shí)檢測(cè),但是準(zhǔn)確率偏低。Zhang 等人[4]將表情圖像轉(zhuǎn)化為L(zhǎng)BP 特征圖,再將LBP特征圖用作CNN的輸入進(jìn)行訓(xùn)練,取得了較好的效果,但是這會(huì)導(dǎo)致在未知環(huán)境下準(zhǔn)確率不高,魯棒性不足。Dhankhar 等人[5]利用ResNet-50 模型和VGG16 模型組合形成一個(gè)新的組合模型識(shí)別面部表情,在KDEF數(shù)據(jù)集上取得了較好的效果。為了提升表情識(shí)別的準(zhǔn)確率,增強(qiáng)訓(xùn)練模型的泛化性,本文在傳統(tǒng)VGGNet的基礎(chǔ)上對(duì)模型進(jìn)行了改進(jìn),設(shè)計(jì)新的輸出模塊替換全連接層,再利用遷移學(xué)習(xí)進(jìn)行訓(xùn)練,改進(jìn)后的模型在CK+、JAFFE、FER2013數(shù)據(jù)集上進(jìn)行測(cè)試,準(zhǔn)確率和泛化性均有提升。
除了對(duì)基礎(chǔ)模型以及網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)之外,很多研究者還對(duì)損失函數(shù)進(jìn)行了研究與改進(jìn)。Hadsell等人[6]提出了Contrastive Loss損失函數(shù),其目的是增大類(lèi)間差異并且減少類(lèi)內(nèi)差異。Schroff 等人[7]提出Triplet Loss損失函數(shù),能夠更好地對(duì)細(xì)節(jié)進(jìn)行區(qū)分,但是Triplet Loss收斂速度慢,導(dǎo)致模型性能下降。Ko等人[8]提出中心損失函數(shù)Center Loss,讓樣本繞類(lèi)內(nèi)中心均勻分布,最小化類(lèi)內(nèi)差異,但計(jì)算效率太低。目前,常用的人臉表情數(shù)據(jù)集(CK+、JAFFE、FER2013)[9-11]中存在著樣本不平衡問(wèn)題。樣本不平衡問(wèn)題容易導(dǎo)致模型的訓(xùn)練出現(xiàn)過(guò)擬合,同時(shí)也會(huì)導(dǎo)致模型在不同類(lèi)別上分類(lèi)性能出現(xiàn)較大的差異。為了解決樣本之間不平衡問(wèn)題,Lin 等人[12]提出Focal Loss 損失函數(shù),通過(guò)聚焦參數(shù)γ 使模型更多的關(guān)注難分類(lèi)樣本,提高模型分類(lèi)性能,但并不能解決誤標(biāo)注樣本問(wèn)題。本文在此基礎(chǔ)上,對(duì)Focal Loss進(jìn)行改進(jìn)并應(yīng)用于人臉表情識(shí)別中。針對(duì)Focal Loss 對(duì)于誤標(biāo)注樣本產(chǎn)生的誤分類(lèi)問(wèn)題,設(shè)置閾值對(duì)置信度進(jìn)行判別,將改進(jìn)的Focal Loss 分別在CK+、JAFFE、FER2013數(shù)據(jù)集上進(jìn)行多組實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)交叉熵?fù)p失函數(shù),改進(jìn)的Focal Loss能夠?qū)⒛P偷臏?zhǔn)確率提升1~2 個(gè)百分點(diǎn)。使用改進(jìn)的Focal Loss,模型的分類(lèi)能力更加均衡。
遷移學(xué)習(xí)從相關(guān)領(lǐng)域(源域)傳輸信息來(lái)提高一個(gè)領(lǐng)域(目標(biāo)域)的學(xué)習(xí)訓(xùn)練效率,在圖像處理領(lǐng)域被廣泛利用。源域的選擇是遷移學(xué)習(xí)的關(guān)鍵,預(yù)訓(xùn)練模型與目標(biāo)數(shù)據(jù)集關(guān)聯(lián)與相似性較高,則遷移學(xué)習(xí)效果較好。經(jīng)過(guò)實(shí)驗(yàn)分析,本文使用在ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的VGG16模型的權(quán)重文件。ImageNet數(shù)據(jù)集是一個(gè)龐大的自然圖像數(shù)據(jù)集,具有超過(guò)1 500 萬(wàn)幅圖像和2 萬(wàn)多個(gè)類(lèi)別,遷移其權(quán)重將會(huì)提升本實(shí)驗(yàn)訓(xùn)練效率和準(zhǔn)確率。
在表情識(shí)別任務(wù)中,不同的類(lèi)別間表情樣本具有很大的相似性和易混淆性,需要較多的卷積層對(duì)深層次、抽象的特征進(jìn)行提取。深層次的網(wǎng)絡(luò)模型如ResNet等人[13],在面對(duì)樣本量較少的表情數(shù)據(jù)集時(shí),由于層次過(guò)深容易導(dǎo)致參數(shù)量劇增,產(chǎn)生過(guò)擬合現(xiàn)象,并不能發(fā)揮出較好的識(shí)別效果。VGG16模型具有小卷積核和深層網(wǎng)絡(luò)兩個(gè)特點(diǎn)。模型中劃分了不同的塊,每一個(gè)塊內(nèi)包含若干卷積層和一個(gè)池化層,大量的卷積層使模型具有較好的特征提取能力。經(jīng)過(guò)實(shí)驗(yàn)對(duì)比,本文選擇經(jīng)典的VGG16 網(wǎng)絡(luò)模型并且對(duì)其進(jìn)行改進(jìn),在充分提取特征的前提下,避免過(guò)擬合現(xiàn)象的發(fā)生。改進(jìn)的VGG16 網(wǎng)絡(luò)模型如圖1所示。
圖1 改進(jìn)的VGG16模型對(duì)比圖Fig.1 Comparison chart of improved VGG16 model
為了避免過(guò)擬合現(xiàn)象,增強(qiáng)模型泛化性,本文設(shè)計(jì)新的輸出模塊替換預(yù)訓(xùn)練模型的全連接模塊。輸出模塊如圖2所示。
圖2 輸出模塊流程圖Fig.2 Flow chart of output module
輸出模塊主要由改進(jìn)的深度可分離卷積和全局平均池化組成。深度可分離卷積層[14]可以進(jìn)一步提取特征,相比于普通卷積節(jié)省了大量參數(shù),同時(shí)仍具有和普通卷積相當(dāng)?shù)奶卣魈崛∧芰?。為了防止梯度消失,減少參數(shù)之間的依存關(guān)系,緩解過(guò)擬合發(fā)生,深度可分離卷積在深度卷積和點(diǎn)卷積后都使用了ReLU 激活函數(shù),ReLU定義如下:
本文對(duì)深度可分離卷積進(jìn)行改進(jìn),將深度卷積中的ReLU 激活函數(shù)替換為Hard-Swish[15]激活函數(shù)。Hard-Swish激活函數(shù)公式為:
與ReLU 激活函數(shù)相比,Hard-Swish 激活函數(shù)具有更強(qiáng)的非線性能力。在深度可分離卷積中采用Hard-Swish激活函數(shù),使得各通道的信息更好的保存下來(lái),在訓(xùn)練過(guò)程中網(wǎng)絡(luò)模型具有更好的收斂能力。
為了進(jìn)一步緩解過(guò)擬合現(xiàn)象,本文采用全局平均池化層替換原本的全連接層,直接實(shí)現(xiàn)了降維,減少了網(wǎng)絡(luò)的參數(shù)量(CNN中占比最大的參數(shù)其實(shí)是最后的全連接層),在保證模型分類(lèi)性能的同時(shí),加快了訓(xùn)練速度。
用新設(shè)計(jì)的輸出模塊代替VGG16的全連接模塊構(gòu)成一個(gè)新的網(wǎng)絡(luò)模型,將已訓(xùn)練完成的卷積層權(quán)重與參數(shù)遷移到新的網(wǎng)絡(luò)模型中,利用表情樣本對(duì)新的網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。實(shí)驗(yàn)證明,訓(xùn)練完成的新模型具有較好的表情識(shí)別效果。具體方法流程如圖3所示。
圖3 人臉表情識(shí)別方法結(jié)構(gòu)圖Fig.3 Structure diagram of facial expression recognition method
樣本不平衡是機(jī)器學(xué)習(xí)領(lǐng)域中一個(gè)重要的問(wèn)題,該問(wèn)題會(huì)導(dǎo)致稀少樣本淹沒(méi)在較多的樣本中,降低稀少樣本的重要性。在實(shí)際分類(lèi)問(wèn)題中,多數(shù)樣本都是簡(jiǎn)單易分的,而難分的樣本只占少數(shù),簡(jiǎn)單的樣本占據(jù)主導(dǎo)權(quán)。簡(jiǎn)單樣本損失小,但數(shù)量多,對(duì)損失起了主要貢獻(xiàn),難分類(lèi)的樣本則容易被模型忽略。不平衡類(lèi)別分布問(wèn)題在真實(shí)世界的人臉表情收集過(guò)程中也很常見(jiàn),例如,快樂(lè)這一表情很容易被捕捉,而厭惡表情則由于其微妙性以及難理解性更難被收集到。這些參雜不確定性的樣本參與訓(xùn)練往往會(huì)導(dǎo)致網(wǎng)絡(luò)過(guò)擬合、損害模型學(xué)習(xí)有用信息以及網(wǎng)絡(luò)在初期不收斂等問(wèn)題。在FER2013 數(shù)據(jù)集中,數(shù)量最多的樣本與數(shù)量最少的樣本的數(shù)量比約為16∶1,如圖4 所示。對(duì)于表情識(shí)別任務(wù)來(lái)說(shuō),處理樣本不平衡問(wèn)題,具有重大意義。
圖4 FER2013數(shù)據(jù)集中各類(lèi)樣本分布圖Fig.4 Distribution map of various samples in FER2013 dataset
在表情識(shí)別任務(wù)中,交叉熵(Cross Entropy,CE)是常用的損失度量函數(shù),公式如下:
其中pi為模型預(yù)測(cè)結(jié)果對(duì)應(yīng)標(biāo)簽的概率。本文使用Softmax 分類(lèi)器將表情數(shù)據(jù)集樣本分為7 類(lèi),則pi(i=1,2,…,7)表示Softmax 層7 個(gè)節(jié)點(diǎn)的離散概率,顯然,ai(i=1,2,…,7)表示Softmax層對(duì)應(yīng)結(jié)點(diǎn)輸出。pi的計(jì)算公式為:
在表情識(shí)別任務(wù)中,交叉熵?fù)p失函數(shù)在面對(duì)多分類(lèi)任務(wù)時(shí),不同類(lèi)別間的樣本不平衡會(huì)導(dǎo)致模型分類(lèi)性能退化,困難樣本與簡(jiǎn)單樣本之間的不平衡也會(huì)造成大量簡(jiǎn)單樣本降低整體損失,使模型在訓(xùn)練中難以對(duì)困難樣本進(jìn)行過(guò)多的關(guān)注。Lin 等人[12]針對(duì)樣本不平衡問(wèn)題,在標(biāo)準(zhǔn)交叉熵的基礎(chǔ)上進(jìn)行改進(jìn),提出了聚焦損失函數(shù)(Focal Loss,F(xiàn)L),F(xiàn)ocal Loss通過(guò)減少易分類(lèi)樣本的權(quán)重,使得模型在訓(xùn)練時(shí)更加專(zhuān)注于難分類(lèi)樣本。Focal Loss公式如下:
其中,平衡參數(shù)α的作用是控制不平衡樣本對(duì)總損失的權(quán)重,平衡不同類(lèi)別樣本的數(shù)量。聚焦參數(shù)γ為一個(gè)大于等于0的超參數(shù),用來(lái)控制易分類(lèi)樣本和難分類(lèi)樣本的權(quán)重。當(dāng)一個(gè)樣本被分錯(cuò)時(shí),pi是一個(gè)很小的值,因此調(diào)制系數(shù)(1-pi)γ就趨于1,而當(dāng)pi趨于1 時(shí)(樣本分類(lèi)正確且屬于易分類(lèi)樣本),調(diào)制系數(shù)趨近于0,對(duì)總體損失貢獻(xiàn)很小。Focal loss通過(guò)控制調(diào)制系數(shù)達(dá)到專(zhuān)注于困難樣本的目的,通過(guò)平衡參數(shù)α達(dá)到平衡不同類(lèi)別樣本的數(shù)量的目的。
Focal Loss面對(duì)樣本不平衡問(wèn)題具有較好的效果,但同樣也有缺陷。由于表情之間具有很大的相似性,人眼難以對(duì)其進(jìn)行分類(lèi),實(shí)際數(shù)據(jù)集中往往有少量誤標(biāo)注樣本,如圖5所示。而在Focal Loss的計(jì)算中,若數(shù)據(jù)集樣本標(biāo)注有部分錯(cuò)誤,或是本身噪聲很大,則會(huì)因?yàn)闄?quán)重的增加使模型學(xué)習(xí)到錯(cuò)誤的信息,降低模型的性能。
圖5 FER2013數(shù)據(jù)集中易混淆樣本樣例圖Fig.5 Sample graph of confusable samples in FER2013 dataset
針對(duì)Focal Loss無(wú)法處理誤標(biāo)注樣本問(wèn)題,通過(guò)樣本的置信度與真實(shí)標(biāo)簽對(duì)其設(shè)置閾值判斷,對(duì)誤標(biāo)注樣本進(jìn)行篩選,改變其置信度,從而降低Focal Loss 對(duì)該類(lèi)樣本關(guān)注度,提高模型分類(lèi)性能。
其中,F(xiàn)L 為Focal Loss,ptop為幾類(lèi)樣本中預(yù)測(cè)為真的概率(置信度)最大值,超參數(shù)c(c<1)為概率閾值,yt為該樣本的真實(shí)標(biāo)簽,yp為該樣本的預(yù)測(cè)標(biāo)簽。
為了篩選出誤標(biāo)注樣本,本實(shí)驗(yàn)設(shè)定概率閾值c對(duì)Softmax 的輸出映射進(jìn)行判斷,關(guān)于c的取值在實(shí)驗(yàn)部分討論。若該樣本映射出的最大概率ptop大于這個(gè)閾值c,認(rèn)為該樣本置信度很高,將該樣本預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽進(jìn)行對(duì)比,若對(duì)比發(fā)現(xiàn)樣本預(yù)測(cè)標(biāo)簽等于其真實(shí)標(biāo)簽,說(shuō)明該樣本為一個(gè)置信度高的簡(jiǎn)單樣本,執(zhí)行Focal Loss;若樣本預(yù)測(cè)標(biāo)簽不等于其真實(shí)標(biāo)簽,則說(shuō)明該樣本是一個(gè)置信度高的誤標(biāo)注樣本,將其預(yù)測(cè)概率置為極小值ε,即舍棄該樣本。本文算法針對(duì)誤標(biāo)注樣本問(wèn)題,對(duì)Focal Loss 提出了改進(jìn),設(shè)置閾值參數(shù)c對(duì)Softmax 輸出結(jié)點(diǎn)的離散概率進(jìn)行判斷,篩選出誤標(biāo)注樣本并舍棄,提升了模型分類(lèi)性能。改進(jìn)的Focal Loss算法流程如圖6所示。
圖6 改進(jìn)的Focal Loss算法流程圖Fig.6 Flow chart of improved Focal Loss algorithm
本文所有實(shí)驗(yàn)均在python3.6.5上實(shí)現(xiàn),硬件平臺(tái)為Intel?Xeon Silver 4114 CPU,內(nèi)存大小為64 GB,GPU為NVIDIA TITAN V,顯存大小為12 GB。
為了說(shuō)明本文方法的有效性,采用日本女性人臉數(shù)據(jù)(JAFFE)庫(kù)、Extended Cohn-Kanada(CK+)數(shù)據(jù)集和FER2013數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)評(píng)估,實(shí)驗(yàn)采用的樣本數(shù)量分布如表1所示。
表1 FER2013、JAFFE、CK+數(shù)據(jù)集實(shí)驗(yàn)樣本選取數(shù)量分布表Table 1 Selection number distribution table of FER2013,JAFFE,CK+dataset experimental samples
其中JAFFEE 數(shù)據(jù)集包含10 位日本女性的213 張大小為256×256人臉正面圖像,共有7種標(biāo)簽,該數(shù)據(jù)集樣本較為平衡,標(biāo)簽比較標(biāo)準(zhǔn),如圖7所示。
圖7 JAFFE數(shù)據(jù)集樣例圖Fig.7 Sample diagram of JAFFE dataset
CK+數(shù)據(jù)集采集了123人共593例的動(dòng)態(tài)表情圖像序列,每個(gè)圖像序列包含從表情平靜到表情峰值的所有幀,其中僅有327例有表情標(biāo)簽。共有7種表情,該數(shù)據(jù)集樣本較為不平衡,如圖8所示。
圖8 CK+數(shù)據(jù)集樣例圖Fig.8 Sample diagram of CK+dataset
Fer2013人臉表情數(shù)據(jù)集由35 886張人臉表情圖片組成,其中,測(cè)試圖(Training)28 708 張,公共驗(yàn)證圖(Public Test)和私有驗(yàn)證圖(Private Test)各3 589張,每張圖片是由大小固定為48×48 的灰度圖像組成,共有7種表情,該數(shù)據(jù)集樣本較為不平衡,標(biāo)簽較為混亂,分類(lèi)難度略大,如圖9所示。
圖9 FER2013數(shù)據(jù)集樣例圖Fig.9 Sample diagram of FER2013 dataset
由于表情數(shù)據(jù)集中人臉尺寸、角度不一致會(huì)對(duì)識(shí)別結(jié)果造成影響,針對(duì)JAFFE 和CK+數(shù)據(jù)集中原始圖像的多余信息,采用Haar-like特征對(duì)人臉區(qū)域進(jìn)行檢測(cè)并提取。通過(guò)直方圖均衡化將圖像的直方圖分布變成近似均勻分布,增加圖像對(duì)比度,增強(qiáng)圖像細(xì)節(jié)。如圖10所示,最后對(duì)圖像進(jìn)行縮放至48×48的大小。
圖10 預(yù)處理樣例圖Fig.10 Sample image of set preprocessing
為了提升訓(xùn)練模型的泛化性,采用Image Data Generator數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)充訓(xùn)練數(shù)據(jù),將圖像隨機(jī)旋轉(zhuǎn)-10°到10°,在水平與豎直方向上對(duì)圖像進(jìn)行10%范圍內(nèi)的隨機(jī)偏移,對(duì)圖像進(jìn)行10%范圍內(nèi)的隨機(jī)縮放,對(duì)圖像進(jìn)行隨機(jī)水平翻轉(zhuǎn)。
現(xiàn)有的研究工作表明,神經(jīng)網(wǎng)絡(luò)提取的特征具有通用性,在大型通用圖像數(shù)據(jù)集上訓(xùn)練過(guò)的深度神經(jīng)網(wǎng)絡(luò),再對(duì)結(jié)構(gòu)進(jìn)行調(diào)整和訓(xùn)練,可以很好地遷移到其他問(wèn)題上,因此在此思想基礎(chǔ)上,利用遷移學(xué)習(xí),分別選用了MobileNet[14-16]、SqueezeNet[17]、ShuffleNet[18]、Xception[19]、VGGNet、InceptionV3[20]以及ResNet[13]等優(yōu)秀的網(wǎng)絡(luò)模型進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果如表2所示。本文實(shí)驗(yàn)均對(duì)數(shù)據(jù)進(jìn)行了100個(gè)epoch,每個(gè)epoch迭代200次,共計(jì)迭代2 萬(wàn)次訓(xùn)練。采用自適應(yīng)矩估計(jì)(Adam)的訓(xùn)練策略,學(xué)習(xí)率設(shè)置為1E-4,當(dāng)val_loss值不再下降時(shí),學(xué)習(xí)率乘以衰減因子0.5,α和γ兩個(gè)超參數(shù)選擇經(jīng)驗(yàn)值,α參數(shù)選擇為0.25,γ參數(shù)選擇為2,c設(shè)置為0.8。經(jīng)過(guò)實(shí)驗(yàn)分析,最終選用VGG16作為本文的網(wǎng)絡(luò)模型。
表2 不同模型準(zhǔn)確率對(duì)比表Table 2 Comparison table of accuracy of different models %
為了驗(yàn)證本文算法的有效性,在CK+數(shù)據(jù)集上分別對(duì)改進(jìn)前后的損失函數(shù)和模型進(jìn)行對(duì)比實(shí)驗(yàn),如表3所示。其中,傳統(tǒng)VGG16 記為VGG16,改進(jìn)后的VGG16記為I_VGG16;傳統(tǒng)Focal Loss 記為FL,改進(jìn)后的Focal Loss記為I_FL。經(jīng)過(guò)實(shí)驗(yàn)分析,I_FL相比交叉熵?fù)p失函數(shù)準(zhǔn)確率提升了1.73%,相比FL 準(zhǔn)確率提升了1.17%,本文算法相比VGG16網(wǎng)絡(luò)模型結(jié)合交叉熵?fù)p失函數(shù),準(zhǔn)確率提升了4.12%,證明了本文算法具有更好的分類(lèi)能力。
表3 CK+數(shù)據(jù)集中不同損失函數(shù)對(duì)比表Table 3 Comparison table of different loss functions in CK+dataset %
為了進(jìn)一步研究改進(jìn)的Focal Loss 的對(duì)實(shí)驗(yàn)結(jié)果的影響,本文對(duì)超參數(shù)c進(jìn)行多次實(shí)驗(yàn)。表4 所示為c取不同值時(shí),在CK+、JAFFE 以及FER2013 數(shù)據(jù)集上的表情識(shí)別準(zhǔn)確率,可以看出c=0.8 時(shí),準(zhǔn)確率最高。
表4 c 取不同值時(shí)在不同數(shù)據(jù)集上面部表情識(shí)別準(zhǔn)確率Table 4 Accuracy of facial expression recognition on different datasets when c takes different values %
在CK+、JAFFE以及FER2013數(shù)據(jù)集上與國(guó)內(nèi)外優(yōu)秀算法進(jìn)行了比較,目前大部分模型都取得了較好的準(zhǔn)確率。本文模型與其他模型相比,在CK+數(shù)據(jù)集上準(zhǔn)確率有3%~5%的提升,在JAFFE 數(shù)據(jù)集上準(zhǔn)確率有1%~4%的提升,如表5、表6 所示。在各類(lèi)表情的準(zhǔn)確率上也較為平均,驗(yàn)證了模型的有效性。
表5 不同方法在CK+數(shù)據(jù)集上基本表情識(shí)別準(zhǔn)確率Table 5 Accuracy of basic expression recognition on CK+dataset by different methods %
表6 不同方法在JAFFE數(shù)據(jù)集上基本表情識(shí)別準(zhǔn)確率Table 6 Accuracy of basic expression recognition on JAFFE dataset by different methods %
在FER2013 數(shù)據(jù)集上與目前國(guó)際上已有的幾種方法進(jìn)行了比較,如表7所示。FER2013數(shù)據(jù)集上人眼識(shí)別準(zhǔn)確率約為65%,可以看出絕大部分模型相比人眼具有更高的準(zhǔn)確性。與其他方法相比,本文算法準(zhǔn)確率較高。
表7 不同方法在FER2013數(shù)據(jù)集上基本表情識(shí)別準(zhǔn)確率Table 7 Accuracy of basic expression recognition on FER213 dataset by different methods %
為了進(jìn)一步驗(yàn)證本文算法,根據(jù)FER2013數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果繪制混淆矩陣。其中列代表預(yù)測(cè)類(lèi)別,行代表真實(shí)類(lèi)別,對(duì)角線數(shù)值為該類(lèi)預(yù)測(cè)準(zhǔn)確率,其余為預(yù)測(cè)錯(cuò)誤的概率,由表8 分析可知,本文算法的分類(lèi)結(jié)果分布較為均勻,各類(lèi)表情樣本更傾向于分到所屬類(lèi)別,具有較好的分類(lèi)能力。
表8 FER2013混淆矩陣Table 8 FERE2013 confusion matrix
為了測(cè)試本文算法在實(shí)際應(yīng)用中的識(shí)別能力,設(shè)計(jì)了基于真實(shí)人臉表情識(shí)別的仿真實(shí)驗(yàn)。攝像頭采用英特爾D435,使用SSD算法進(jìn)行人臉檢測(cè),對(duì)每一幀畫(huà)面基于本文方法進(jìn)行表情識(shí)別,如圖11 所示。實(shí)驗(yàn)結(jié)果表明,在真實(shí)條件下,本文算法具有較好的泛化性。
圖11 表情識(shí)別測(cè)試效果Fig.11 Test effects of expression recognition
本文對(duì)傳統(tǒng)VGG16 網(wǎng)絡(luò)模型做出改進(jìn),并進(jìn)行遷移學(xué)習(xí)。針對(duì)數(shù)據(jù)集中存在的誤標(biāo)注樣本問(wèn)題,對(duì)Focal Loss添加閾值判斷,篩選出誤標(biāo)注樣本并進(jìn)行抑制處理。本文分別在CK+、JAFFE 以及FER2013 數(shù)據(jù)集上做了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,改進(jìn)的模型識(shí)別準(zhǔn)確率較高,改進(jìn)的Focal Loss對(duì)誤標(biāo)注樣本有較好的抑制性。
雖然人臉表情識(shí)別已經(jīng)取得了較好的識(shí)別效果,并且在科研項(xiàng)目上應(yīng)用廣泛,但是光照、遮擋以及側(cè)頭等因素的影響依然較大,為了克服這些外界因素,未來(lái)的研究可以將表情識(shí)別從室內(nèi)轉(zhuǎn)向室外,在更復(fù)雜的環(huán)境下應(yīng)用。