張本文,高瑞瑋,喬少杰
(1.四川民族學(xué)院 理工學(xué)院, 四川 康定 626001; 2.成都信息工程大學(xué) 軟件工程學(xué)院, 成都 610225)
面部表情識(shí)別是情感計(jì)算領(lǐng)域的主要挑戰(zhàn)之一,在娛樂、營銷、零售、心理學(xué)和其他領(lǐng)域具有廣泛應(yīng)用。情感計(jì)算型應(yīng)用程序可能會(huì)改變?nèi)藱C(jī)交互方式[1],但構(gòu)建情感計(jì)算型系統(tǒng)仍是挑戰(zhàn)。面部表情識(shí)別是情感計(jì)算型系統(tǒng)中非常重要的研究方向,因?yàn)榇蟛糠秩说幕?dòng)都是通過非語言方式傳達(dá)。目前,許多研究人員使用FER(facial expression recognition)來分析人的情緒、行為和心理等因素,FER在人機(jī)交互、心理健康評估和智能交通系統(tǒng)領(lǐng)域獲得了廣泛關(guān)注[2-3]。此外,基于FER的多媒體交互軟件能夠?qū)崟r(shí)識(shí)別人的面部表情,進(jìn)而評估用戶的反饋情況。在視頻圖像中使用FER的一個(gè)主要問題是如何從序列圖像涉及的面部表情中捕捉有區(qū)分度的時(shí)空特征。FER不僅可用于獲取情緒信息,也可用于人際交往[4-5]。
對于面部表情識(shí)別而言,自動(dòng)分析表情類別是挑戰(zhàn),因?yàn)楸砬轭悇e通常較多且面部表情數(shù)據(jù)集較小。人們可以很容易地識(shí)別人的面部表情,但自動(dòng)化識(shí)別高分辨率圖像中的面部表情是一個(gè)復(fù)雜的問題[6]。面部表情識(shí)別方法包括:傳統(tǒng)識(shí)別方法,如基于特征提取規(guī)則的識(shí)別方法、基于深度學(xué)習(xí)的識(shí)別方法等;基于特征提取規(guī)則的識(shí)別方法,包括基于外觀的特征提取技術(shù)和基于幾何的特征提取技術(shù);基于外觀的特征提取技術(shù),突出了面部表情的紋理如皺紋,可以采用局部二進(jìn)制模式、Gabor小波濾波器[7]以及基于直方圖的梯度濾波器來提取紋理特征;基于幾何的特征提取技術(shù),能提取鼻子等面部的關(guān)鍵部位,采用主動(dòng)外觀模型來跟蹤檢測面部點(diǎn)位。然而,基于外觀的特征提取技術(shù)和基于幾何的特征提取技術(shù)均存在不足之處,如依賴人工設(shè)計(jì)規(guī)則、不能較好地處理復(fù)雜多變的大數(shù)據(jù)集、無法自動(dòng)捕捉深層語義特征、識(shí)別效率和準(zhǔn)確性較低等。
基于深度學(xué)習(xí)的識(shí)別方法能夠自動(dòng)進(jìn)行人臉檢測、特征提取和表情分類,識(shí)別性能較高,但仍然存在許多挑戰(zhàn)。例如,對于面部遮擋部分,現(xiàn)有方法無法很好地進(jìn)行處理,會(huì)導(dǎo)致識(shí)別性能下降。面部遮擋主要指人們使用如眼鏡、圍巾和口罩等面部遮蔽物體遮擋了重要面部部位。此外,FER需要大規(guī)模的面部表情數(shù)據(jù)集[8],但面部表情數(shù)據(jù)集由于隱私問題難以收集。若面部表情數(shù)據(jù)集規(guī)模較小,基于深度學(xué)習(xí)的識(shí)別模型可能陷入過擬合,導(dǎo)致識(shí)別新的圖像集中面部表情的性能較低。
針對上述問題,提出一種新型融合注意力機(jī)制的遮擋面部表情識(shí)別框架——FER-AM(facial expression recognition framework based on attention mechanism)。設(shè)計(jì)了一種局部特征網(wǎng)絡(luò),將整個(gè)面部劃分為多個(gè)局部區(qū)域,進(jìn)而提取多個(gè)局部特征;提出了一種全局特征網(wǎng)絡(luò),從整個(gè)面部區(qū)域提取全局特征,獲取面部各區(qū)域的互補(bǔ)信息。FER-AM使用注意力機(jī)制解決面部遮擋問題,既能識(shí)別人的面部表情中被遮擋的部位,也能將注意力集中在面部的無遮擋部位。
葉楊等[11]定義了7種面部表情類別:憤怒、厭惡、恐懼、快樂、悲傷、驚訝和中性。面部動(dòng)作編碼系統(tǒng)定義了跨越面部表情類別范圍的面部肌肉運(yùn)動(dòng)。研究人員試圖設(shè)計(jì)算法來識(shí)別面部表情類別[9-12]。傳統(tǒng)的面部表情識(shí)別方法分為3個(gè)步驟:人臉檢測、特征提取和表情分類。由于人臉位置和人臉大小被視為先驗(yàn)知識(shí),因此在大多數(shù)工作中人臉檢測并沒有被深入地研究。特征提取是識(shí)別面部表情的關(guān)鍵步驟,機(jī)器學(xué)習(xí)技術(shù)主要用于表情分類。特征提取技術(shù)主要分為基于外觀的特征提取方法和基于幾何的特征提取方法。外觀特征主要指從面部表情圖像中提取表示紋理的特征,研究幾何特征時(shí)需要指明面部部位的精確位置。值得注意的是,這兩類特征被證明具有互補(bǔ)作用[13]。另一個(gè)研究方向是在處理圖像序列時(shí)將時(shí)間維度整合到外觀和幾何特征中[14-15]。
在圖像序列中使用雙重隨機(jī)森林分類器進(jìn)行面部表情識(shí)別[16],主要使用AAM(active appearance model)測量面部運(yùn)動(dòng),并結(jié)合LK(Lucas-Kanade)光流跟蹤器估計(jì)面部位移。
用于識(shí)別具有遮擋區(qū)域的面部表情代表性識(shí)別算法主要使用Gabor過濾器提取人臉的部分區(qū)域[17]。Hu等[18]使用SURF(speeded up robust features)框架進(jìn)行面部表情識(shí)別,通過定位面部水平對稱區(qū)域來檢測遮擋區(qū)域。Mlakar等[19]使用HOG (histogram of oriented gradient)、GA(geneticalgorithm)和SVM(support vector machines)算法在Cohn Kanade和JAFFE表情數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),所提方法的識(shí)別準(zhǔn)確率高于其他基于視頻流的面部表情識(shí)別方法。
Ren等[20]提出了基于FCM(fuzzyc-means)聚類算法的AAM-SIFT(active appearance model- scale-invariant feature transform)表情識(shí)別框架。AAM模板提取人臉面部圖像的特征點(diǎn),基于AAM和SIFT(scale-invariant feature transform)的梯度方向直方圖來識(shí)別面部特征,進(jìn)而分為多組不同的面部特征,并使用FCM獲得自適應(yīng)權(quán)重,最后由SVM進(jìn)行面部表情分類。在BU-3DFE表情數(shù)據(jù)集上對基于FCM聚類算法的AAM-SIFT表情識(shí)別方法進(jìn)行評估,結(jié)果表明AAM-SIFT能夠提高面部表情識(shí)別準(zhǔn)確率。Sun等[21]使用BAEs(binarized auto-encoders)進(jìn)行面部表情識(shí)別。在CK+表情數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),與其他傳統(tǒng)表情識(shí)別方法相比,基于BAEs的識(shí)別方法的準(zhǔn)確率更高。Chao等[22]提出es-LBP(expression-specific local binary pattern)方法,主要使用CR-LPP(class-regularized locality preserving projection)技術(shù)實(shí)現(xiàn)面部表情分類。CR-LPP技術(shù)加強(qiáng)了面部特征和表情類別之間的關(guān)聯(lián)性。Aly等[23]提出MSPTL (multi-stageprogressive transfer learning)方法進(jìn)行面部表情識(shí)別。
面部表情識(shí)別主要包括面部圖像預(yù)處理、面部表情特征提取和面部表情分類3個(gè)步驟。其中,面部表情特征提取是最重要的步驟,關(guān)鍵的面部特征提取能夠提高識(shí)別準(zhǔn)確性。FER-AM能夠識(shí)別遮擋部分的面部表情,其架構(gòu)如圖1所示。
圖1 FER-AM架構(gòu)
FER-AM包括圖像預(yù)處理、面部特征提取、面部特征降維和表情分類,其中特征提取階段包括VGG-Net(visual geometry group network)[24]、局部特征網(wǎng)絡(luò)以及全局特征網(wǎng)絡(luò)。值得注意的是,局部特征網(wǎng)絡(luò)和全局特征網(wǎng)絡(luò)均使用注意力機(jī)制網(wǎng)絡(luò)。
將人臉圖像的像素調(diào)整為(128,128),對圖像進(jìn)行去噪處理和歸一化處理。圖像預(yù)處理是面部表情識(shí)別的重要步驟。調(diào)整圖像像素放大或縮小圖像。即使低分辨率的面部圖像也能被轉(zhuǎn)換為高分辨率的圖像。圖像可能會(huì)存在偽影或噪聲,其中圖像噪聲由圖像顏色或亮度隨機(jī)變化而產(chǎn)生。在FER-AM框架中,使用中值濾波器去除圖像中的噪聲。由于人臉圖像的眩光會(huì)影響圖像的對比度,故需要對圖像進(jìn)行歸一化處理。在FER-AM框架中,使用GCN(global contrast normalization)來解決圖像對比度較低的問題。
定義1GCN的定義見式(1)所示。
特征提取是FER-AM的主要階段,能夠?qū)γ娌空趽醪糠诌M(jìn)行有效處理。特征提取將圖像的像素信息轉(zhuǎn)變?yōu)轭伾?、形狀和紋理信息,并降低特征維度。
FER-AM的特征提取分為3個(gè)階段,流程如圖2所示。第一階段中采用卷積神經(jīng)網(wǎng)絡(luò)VGG-Net對圖像進(jìn)行處理,進(jìn)而獲得全局特征圖和不同的局部補(bǔ)丁特征圖;第二階段中局部特征網(wǎng)絡(luò)將每個(gè)局部補(bǔ)丁特征圖編碼為局部隱藏向量,全局特征網(wǎng)絡(luò)將全局特征圖編碼為全局隱藏向量,局部特征網(wǎng)絡(luò)和全局特征網(wǎng)絡(luò)均包含注意力機(jī)制網(wǎng)絡(luò);第三階段中2個(gè)全連接層和Softmax激活函數(shù)層依次對局部隱藏向量和全局隱藏向量進(jìn)行處理。Softmax函數(shù)主要用于表情分類。FER-AM在特征提取的同時(shí)考慮了局部特征和全局特征。
圖2 FER-AM的特征提取流程
定義2局部特征網(wǎng)絡(luò):處理局部補(bǔ)丁特征圖,主要包括區(qū)域分解和遮擋感知。局部特征網(wǎng)絡(luò)包含2個(gè)卷積層、1個(gè)注意力機(jī)制網(wǎng)絡(luò)和1個(gè)全連接層。
定位面部表情對應(yīng)的面部部位對于面部表情識(shí)別非常重要。將面部劃分為多個(gè)局部區(qū)域,準(zhǔn)確定位遮擋部分[24]。如圖3所示,24個(gè)面部標(biāo)志點(diǎn)覆蓋整個(gè)面部區(qū)域,以面部標(biāo)志點(diǎn)為中心,獲得24個(gè)局部區(qū)域。FER-AM中的卷積神經(jīng)網(wǎng)絡(luò)VGG-Net使用卷積核進(jìn)行卷積操作,能夠產(chǎn)生24個(gè)局部補(bǔ)丁。
圖3 局部特征網(wǎng)絡(luò)的工作機(jī)制示意圖
性質(zhì)1局部特征網(wǎng)絡(luò)能夠自動(dòng)學(xué)習(xí)如何為不同的局部補(bǔ)丁分配不同的重要程度權(quán)重,對遮擋部分分配較低權(quán)重,對無遮擋部分和關(guān)鍵面部區(qū)域分配較高權(quán)重,進(jìn)而學(xué)會(huì)對不同局部特征按不同的重要性程度進(jìn)行提取。
性質(zhì)2注意力機(jī)制網(wǎng)絡(luò)輸出的重要程度權(quán)重Ai使用AMO(animal migration optimization)算法進(jìn)行優(yōu)化,提高FER-AM的識(shí)別性能。
然而,局部特征網(wǎng)絡(luò)可能會(huì)忽略人臉圖像中的互補(bǔ)信息,因此需要全局特征網(wǎng)絡(luò)對全局特征圖進(jìn)行處理,從整個(gè)面部提取全局特征,最終提高FER-AM對遮擋部分的面部表情的識(shí)別性能。全局特征網(wǎng)絡(luò)能夠從整個(gè)面部區(qū)域集成各個(gè)面部特征,自動(dòng)學(xué)習(xí)面部特征的多樣性和差異性(圖2最下部分所示)。
定義3全局特征網(wǎng)絡(luò):全局特征圖由卷積神經(jīng)網(wǎng)絡(luò)VGG-Net處理面部圖像后生成,全局特征圖的維度為512*28*28。全局特征網(wǎng)絡(luò)包含1個(gè)卷積核維度為512×28×28的卷積層、2個(gè)卷積核維度為512×14×14的卷積層、1個(gè)平均池化層、1個(gè)注意力機(jī)制網(wǎng)絡(luò)以及1個(gè)全連接層。
性質(zhì)3全局特征網(wǎng)絡(luò)的注意力機(jī)制網(wǎng)絡(luò)能夠自動(dòng)估計(jì)整個(gè)面部區(qū)域?qū)?yīng)的全局特征圖的重要性程度。全局特征網(wǎng)絡(luò)將全局特征圖作為輸入,進(jìn)而輸出全局隱藏向量。
綜上,FER-AM特征提取階段能夠?qū)W習(xí)面部的局部關(guān)鍵特征和整個(gè)面部的綜合特征。
FER-AM的最后階段為表情分類。由于特征選擇影響表情分類的復(fù)雜性和有效性,且過多的特征會(huì)增加模型訓(xùn)練的復(fù)雜性,因此需要進(jìn)行特征降維,即選擇特征子集來提高表情分類器的性能。特征降維需要提取具有區(qū)分度的關(guān)鍵特征。FER-AM使用LDA(linear discriminant analysis)進(jìn)行特征降維,光照條件的變化并不會(huì)影響LDA的性能[25]。
FER-AM主要使用Softmax函數(shù)對7種表情類別分別輸出對應(yīng)的概率預(yù)測值,概率預(yù)測值的范圍屬于(0,1),7個(gè)概率預(yù)測值的和為1。其中,最大的概率預(yù)測值對應(yīng)的表情類別表示FER-AM識(shí)別出的表情類別。
FER-AM中各神經(jīng)網(wǎng)絡(luò)的參數(shù)需要通過面部表情訓(xùn)練集不斷優(yōu)化,最小化Softmax函數(shù)的損失值,最終獲得FER-AM中神經(jīng)網(wǎng)絡(luò)的最優(yōu)參數(shù)。
評估FER-AM的識(shí)別性能的表情數(shù)據(jù)集包括RAF-DB、AffectNet、CK+以及FED-RO表情數(shù)據(jù)集。RAF-DB表情數(shù)據(jù)集包含30 000張真實(shí)世界的人臉圖像,所有圖像由人工標(biāo)注好正確的表情類別。RAF-DB中18 000張面部圖像用于訓(xùn)練FER-AM,12 000張面部圖像用于測試FER-AM的識(shí)別性能。AffectNet表情數(shù)據(jù)集包含 400 000 張人臉表情圖像,CK+數(shù)據(jù)集包含593個(gè)關(guān)于表情的圖像序列,所有圖像序列均由123名志愿者提供,并為少量面部表情圖像增加了不同尺寸的遮擋區(qū)域,進(jìn)而合成具有遮擋部分的面部表情圖像。FED-RO表情數(shù)據(jù)集包含400張具有遮擋區(qū)域的面部圖像,遮擋面部的物體包括面包、啤酒、墻壁、頭發(fā)、手、帽子、柜子、電腦和書籍等。FED-RO表情數(shù)據(jù)集中憤怒、厭惡、恐懼、快樂、悲傷、驚訝和中性表情對應(yīng)的面部圖像數(shù)量分別為53、51、58、59、66、63和50。
實(shí)驗(yàn)軟件環(huán)境:Pytorch框架,初始學(xué)習(xí)率設(shè)置為0.001,批處理大小為128。實(shí)驗(yàn)硬件環(huán)境:GPU為NVIDIA RTX 3090,CPU為英特爾至強(qiáng)W-2245,內(nèi)存64 G。對比算法為主流算法,包括基于SVM的面部表情識(shí)別方法、基于VGG-Net16的面部表情識(shí)別方法和DLP-CNN(deep locality preserving convolutional neural network)[26]。
在RAF-DB表情數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn),結(jié)果如圖4所示。實(shí)驗(yàn)結(jié)果表明,FER-AM的識(shí)別準(zhǔn)確率高于基于SVM的面部表情識(shí)別方法、基于VGG-Net16的面部表情識(shí)別方法和DLP-CNN方法。相比其他面部表情識(shí)別方法,能更精確地判斷真實(shí)世界中人臉的表情類別。
圖4 基于RAF-DB數(shù)據(jù)集的識(shí)別準(zhǔn)確率
在AffectNet表情數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn),結(jié)果如圖5所示??梢钥闯?FER-AM的識(shí)別準(zhǔn)確率為87.7%,高于其他面部表情識(shí)別方法,相比基于SVM的面部表情識(shí)別方法、基于VGG-Net16的面部表情識(shí)別方法和DLP-CNN方法,其識(shí)別準(zhǔn)確率分別高出10.1%、7.3%和5.7%。
圖5 基于AffectNet數(shù)據(jù)集的識(shí)別準(zhǔn)確率
在CK+表情數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn),結(jié)果如圖6所示。可以看出,FER-AM的識(shí)別準(zhǔn)確率最高,但識(shí)別準(zhǔn)確率與其他面部表情識(shí)別方法的差距較小。這表明在CK+表情數(shù)據(jù)集上,其他面部表情識(shí)別方法也能獲得較好的識(shí)別性能。主要原因在于,CK+表情數(shù)據(jù)集中具有遮擋部分的人臉表情圖像數(shù)量較少,大多數(shù)人臉表情圖像易于識(shí)別。
圖6 基于CK+數(shù)據(jù)集的識(shí)別準(zhǔn)確率
如圖7所示,在FED-RO表情數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn),結(jié)果如圖5所示。可以看出,FER-AM的識(shí)別準(zhǔn)確率可以達(dá)到88.1%,高于其他表情數(shù)據(jù)集上FER-AM的識(shí)別準(zhǔn)確率。
圖7 基于FED-RO數(shù)據(jù)集的識(shí)別準(zhǔn)確率
在4種不同代表性數(shù)據(jù)集上,FER-AM均能取得最佳識(shí)別性能,主要原因在于:
1) FER-AM應(yīng)用局部特征網(wǎng)絡(luò)提取面部表情的局部關(guān)鍵特征,設(shè)計(jì)全局特征網(wǎng)絡(luò)學(xué)習(xí)整個(gè)面部中的互補(bǔ)信息,識(shí)別的特征更加完整,因此識(shí)別準(zhǔn)確率均高于其他算法;
2) 采用注意力機(jī)制能夠有效處理面部遮擋部分,如眼鏡、口罩和圍巾等,準(zhǔn)確捕捉面部未遮擋部分的特征,因此在有遮擋數(shù)據(jù)集上識(shí)別準(zhǔn)確率更好。
在RAF-DB表情數(shù)據(jù)集中具有遮擋區(qū)域的人臉表情圖像集上評估FER-AM的識(shí)別性能,實(shí)驗(yàn)結(jié)果如圖8所示。可以看出,相比其他面部表情識(shí)別方法,FER-AM的識(shí)別準(zhǔn)確率依然最高,但低于在整體RAF-DB表情數(shù)據(jù)集上的識(shí)別性能。這主要是因?yàn)?通常情況下FER-AM識(shí)別無遮擋區(qū)域的人臉表情的準(zhǔn)確率更高。
圖8 RAF-DB數(shù)據(jù)集中具有遮擋的表情圖像集識(shí)別準(zhǔn)確率
在AffectNet表情數(shù)據(jù)集中具有遮擋區(qū)域的人臉表情圖像集評估實(shí)驗(yàn)結(jié)果如圖9所示??梢钥闯?FER-AM的識(shí)別準(zhǔn)確率為67.6%,高于其他面部表情識(shí)別方法,且相比基于SVM的面部表情識(shí)別方法、基于VGG-Net16的面部表情識(shí)別方法和DLP-CNN方法,其識(shí)別準(zhǔn)確率分別高出17.3%、9.2%和4.4%。造成這種情況的主要原因是FER-AM中局部特征網(wǎng)絡(luò)能夠更加準(zhǔn)確地提取局部特征(如遮擋區(qū)域特征)。結(jié)合注意力機(jī)制網(wǎng)絡(luò)進(jìn)行權(quán)重分配,以更加準(zhǔn)確地識(shí)別有遮擋區(qū)域的面部表情類別。
圖9 基于AffectNet數(shù)據(jù)集中具有遮擋的表情圖像集識(shí)別準(zhǔn)確率
為了探究局部特征網(wǎng)絡(luò)和全局特征網(wǎng)絡(luò)對有遮擋區(qū)域的面部表情識(shí)別的影響,將無局部特征網(wǎng)絡(luò)(FER-AM-no-local feature network)和無全局特征網(wǎng)絡(luò)(FER-AM-no-global feature network)分別作為對照模型進(jìn)行實(shí)驗(yàn),評估結(jié)果如圖10、圖11所示。
圖10 不同表情數(shù)據(jù)集局部特征網(wǎng)絡(luò)有效性評估結(jié)果
圖11 不同表情數(shù)據(jù)集全局特征網(wǎng)絡(luò)有效性評估結(jié)果
如圖12、13所示,在AffectNet數(shù)據(jù)集上,FER-AM-no-Local feature network和FER-AM-no-global feature network的識(shí)別準(zhǔn)確率分別為60.7%和65.1%,均低于FER-AM的識(shí)別準(zhǔn)確率。值得注意的是,FER-AM-no-local feature network的識(shí)別準(zhǔn)確率低于圖9中DLP-CNN的識(shí)別準(zhǔn)確率,而FER-AM-no-local feature network高于圖9中DLP-CNN的識(shí)別準(zhǔn)確率,主要原因見性質(zhì)4。
圖12 基于有遮擋區(qū)域的表情數(shù)據(jù)集的局部特征網(wǎng)絡(luò)有效性評估結(jié)果
圖13 基于有遮擋區(qū)域的表情數(shù)據(jù)集的全局特征網(wǎng)絡(luò)有效性評估結(jié)果
性質(zhì)4相比全局特征網(wǎng)絡(luò),局部特征網(wǎng)絡(luò)能有效處理面部中的遮擋區(qū)域,盡可能消除遮擋區(qū)域?qū)γ娌勘砬樽R(shí)別的阻礙,提升FER-AM的識(shí)別性能。
為進(jìn)一步探究FER-AM的魯棒性,將RAF-DB數(shù)據(jù)集作為FER-AM、VGG-Net和DLP-CNN的訓(xùn)練集,使用AffectNet數(shù)據(jù)集評估FER-AM、VGG-Net和DLP-CNN的識(shí)別性能。其中,AffectNet-0表示AffectNet中無遮擋區(qū)域的面部表情數(shù)據(jù)集,AffectNet-1表示AffectNet中具有遮擋區(qū)域的面部表情數(shù)據(jù)集。
為了驗(yàn)證算法的魯棒性,將AffectNet數(shù)據(jù)集作為訓(xùn)練集,RAF-DB數(shù)據(jù)集作為測試集,再進(jìn)行1組實(shí)驗(yàn),其中RAF-DB-0表示RAF-DB中無遮擋區(qū)域的面部表情數(shù)據(jù)集,RAF-DB-1表示RAF-DB中具有遮擋區(qū)域的面部表情數(shù)據(jù)集。
在AffectNet-1數(shù)據(jù)集上,FER-AM的識(shí)別準(zhǔn)確率為63.6%,略低于圖9中FER-AM的識(shí)別準(zhǔn)確率,VGG-Net和DLP-CNN的識(shí)別準(zhǔn)確率為47.1%和52.3%,均與圖9中VGG-Net和DLP-CNN的識(shí)別準(zhǔn)確率相差較大(圖14)。實(shí)驗(yàn)結(jié)果表明:對于訓(xùn)練集和測試集不是來自同一數(shù)據(jù)集的情況,FER-AM的識(shí)別性能并不會(huì)產(chǎn)生較大波動(dòng),FER-AM能夠跨數(shù)據(jù)集進(jìn)行面部表情識(shí)別。如圖15所示,在RAF-DB-1數(shù)據(jù)集上,FER-AM的識(shí)別準(zhǔn)確率分別為82.1%,略高于圖8中FER-AM的識(shí)別準(zhǔn)確率,VGG-Net和DLP-CNN的識(shí)別準(zhǔn)確率略低于圖8中VGG-Net和DLP-CNN。相比RAF-DB作為訓(xùn)練集、AffectNet作為測試集而言,AffectNet作為訓(xùn)練集能夠略微提升FER-AM的識(shí)別性能,且不會(huì)使得VGG-Net和DLP-CNN的識(shí)別性能產(chǎn)生較大波動(dòng),主要原因在于AffectNet數(shù)據(jù)集中包含更為復(fù)雜的面部表情圖像(如面部圖像中具有較多不同類型遮擋物),進(jìn)而證明了FER-AM的魯棒性。
圖14 RAF-DB表情數(shù)據(jù)集作為訓(xùn)練集的模型魯棒性評估結(jié)果
圖15 AffectNet表情數(shù)據(jù)集作為訓(xùn)練集的模型魯棒性評估結(jié)果
FER-AM能夠更加準(zhǔn)確地識(shí)別有遮擋區(qū)域的人臉表情。在特征提取階段,FER-AM使用局部特征網(wǎng)絡(luò)和全局特征網(wǎng)絡(luò)同時(shí)提取面部的局部區(qū)域特征和全局特征,并結(jié)合注意力機(jī)制網(wǎng)絡(luò)對不同特征分配不同的權(quán)重,使得FER-AM能更關(guān)注面部的關(guān)鍵特征,最終有效解決面部遮擋問題。在多個(gè)表情數(shù)據(jù)集上的大量實(shí)驗(yàn)結(jié)果表明,FER-AM能夠更準(zhǔn)確地識(shí)別面部表情類別,對于有遮擋區(qū)域的人臉表情圖像,相比其他面部表情識(shí)別方法,FER-AM的識(shí)別性能明顯優(yōu)于當(dāng)前其他算法。下一步將繼續(xù)提高對有遮擋區(qū)域的面部表情圖像的識(shí)別準(zhǔn)確率,如考慮優(yōu)化FER-AM的局部特征網(wǎng)絡(luò)和全局特征網(wǎng)絡(luò)的結(jié)構(gòu)、使用更復(fù)雜的面部表情圖像數(shù)據(jù)集等。