楊鼎康,黃帥,王順利,翟鵬,李一丹,張立華,4,5*
(1.復(fù)旦大學(xué)工程與應(yīng)用技術(shù)研究院,上海 200433;2.上海智能機(jī)器人工程技術(shù)研究中心,上海 200433;3.智能機(jī)器人教育部工程研究中心,上海 200433;4.季華實驗室,廣東佛山 528200;5.吉林省人工智能與無人系統(tǒng)工程研究中心,長春 130000)
面部表情是人們在日常生活中最自然、最普遍的傳達(dá)情感狀態(tài)和意圖的信號[1]。Mehrabian 等[2]的研究發(fā)現(xiàn),面部表情傳遞的有效信息占比達(dá)55%,而通過單詞傳遞的有效信息占比卻僅僅只有7%,這表明面部表情是人們情感交流的重要特征,因此,面部表情識別(Facial Expression Recognition,F(xiàn)ER)有助于獲取更多有效信息[3],在人機(jī)交互[4]、智慧醫(yī)療[5]和安全駕駛[6]等領(lǐng)域有廣闊的應(yīng)用前景。
面部表情識別(FER)的傳統(tǒng)方法是通過人工標(biāo)注特征或淺層學(xué)習(xí)表征來完成表情識別任務(wù),例如局部二進(jìn)制模式(Local Binary Patterns,LBP)[7]、多平面LBP[8]、非負(fù)矩陣分解[9]和稀疏學(xué)習(xí)[10];但傳統(tǒng)方法容易受到外界干擾的影響,其模型的泛化能力和魯棒性有待提升。自2013 年以來,受FER2013[11]和野外情緒識別[12-14]等比賽的舉辦、運算能力的大幅提高等因素的影響,以及機(jī)器學(xué)習(xí)和深度學(xué)習(xí)迅速發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的方法應(yīng)用到面部表情識別任務(wù)中,這些方法[15-17]擁有較好的識別精度和魯棒性,極大超越了傳統(tǒng)方法取得的結(jié)果。
盡管FER 的現(xiàn)有研究已經(jīng)取得了一些成果[18-20],但是大多數(shù)研究者僅聚焦于探索單一的網(wǎng)絡(luò)模型結(jié)構(gòu),沒有考慮不同深度網(wǎng)絡(luò)學(xué)習(xí)到的特征表達(dá)之間的互補(bǔ)性[21],只能學(xué)習(xí)到特定層級的表情特征,限制了模型的泛化能力;同時由于大部分應(yīng)用于FER 任務(wù)的公開數(shù)據(jù)集[22-24]中存在著表情標(biāo)簽源域數(shù)據(jù)分布不均衡的問題,例如某類別標(biāo)簽數(shù)據(jù)較少,導(dǎo)致模型難以學(xué)習(xí)到對應(yīng)表情的特征,從而限制了FER 研究的發(fā)展和性能的提升。
為解決上述問題,本文提出了一種包含網(wǎng)絡(luò)集成模型Ens-Net(Ensemble Networks)的端到端深度學(xué)習(xí)框架(End to End-Generative Adversarial Network,EE-GAN),用以緩解數(shù)據(jù)集樣本中的數(shù)據(jù)分布不平衡問題。所述的Ens-Net 充分應(yīng)用了VGG13、VGG16 以及ResNet18 等網(wǎng)絡(luò)獲取的不同深度的表情特征,并將其在特征級別進(jìn)行融合。本文所提框架方法在FER2013、CK+、JAFFE 數(shù)據(jù)集上分別達(dá)到了82.1%,84.8%和91.5%的精度,驗證了提出方法的有效性。
具體來說,本文的貢獻(xiàn)包括2 個方面:
1)提出了一種集成網(wǎng)絡(luò)模型Ens-Net,通過集成異構(gòu)網(wǎng)絡(luò)的方式,獲取包含不同級別語義的融合特征,提高了分類特征向量的表征能力,以幫助模型更好地進(jìn)行決策。
2)基于生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)對抗學(xué)習(xí)的思想,提出了端到端的學(xué)習(xí)框架EE-GAN,有效緩解了面部表情數(shù)據(jù)集標(biāo)簽分布不均衡的問題,對現(xiàn)有的面部表情數(shù)據(jù)集實現(xiàn)了數(shù)據(jù)增強(qiáng)和擴(kuò)充。
通過與單一的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型和現(xiàn)有基于視圖學(xué)習(xí)的生成式表情識別方法比較,本文進(jìn)行了大量的對比實驗和消融實驗,實驗結(jié)果表明了該模型框架的有效性和優(yōu)越性。
針對基于深度學(xué)習(xí)方法的靜態(tài)FER 任務(wù),一般的步驟是圖像預(yù)處理后,通過深度神經(jīng)網(wǎng)絡(luò)自動提取特征,再利用學(xué)習(xí)到的特征完成后續(xù)的表情分類。卷積神經(jīng)網(wǎng)絡(luò)能夠準(zhǔn)確地學(xué)習(xí)圖像的特征信息[15-17],Krizhevsky 等[15]提出AlexNet,此方法可以加深網(wǎng)絡(luò)結(jié)構(gòu),學(xué)習(xí)圖像中更深層次和更高維度的特征信息,同時也引入Dropout 機(jī)制防止模型過擬合;Simonyan 等[16]使用卷積核的堆疊方式,使得具有相同感知野的情況下,網(wǎng)絡(luò)結(jié)構(gòu)更深;He 等[17]則通過殘差學(xué)習(xí)解決深度神經(jīng)網(wǎng)絡(luò)的退化問題。先前的研究表明,多個網(wǎng)絡(luò)特征融合方法的性能要優(yōu)于單一網(wǎng)絡(luò)的性能。Ciregan 等[25]受大腦皮層中神經(jīng)元的微列啟發(fā),將多個深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)列結(jié)合組成多列DNN,證明了增加網(wǎng)絡(luò)寬度可以降低圖像的分類誤差;Bargal 等[26]將從不同網(wǎng)絡(luò)學(xué)習(xí)到特征進(jìn)行級聯(lián)以獲得單個特征向量來描述輸入圖像;Hamester 等[27]將有監(jiān)督方式訓(xùn)練的CNN 和無監(jiān)督方式訓(xùn)練的卷積自動編碼器進(jìn)行網(wǎng)絡(luò)集成,以增強(qiáng)網(wǎng)絡(luò)的多樣性。與現(xiàn)有方法不同,本文的網(wǎng)絡(luò)集成策略將不同深度的語義特征進(jìn)行融合,以獲取不同尺度下潛在的重要表情特征,使得模型能夠?qū)W習(xí)到更多樣、全面的特征信息。
最近,基于生成對抗網(wǎng)絡(luò)(GAN)的方法運用到了FER 任務(wù)[27-28]中。隨著更多GAN 的變體不斷提出,基于對抗式學(xué)習(xí)的方法能進(jìn)行更好的解耦學(xué)習(xí)和表征學(xué)習(xí),實現(xiàn)針對不同場景下的FER。Yang等[28]利用從條件生成對抗網(wǎng)絡(luò)(conditional Generative Adversarial Network,cGAN)模型中提取的非中性表情的殘基成分加入分類網(wǎng)絡(luò)中,以促進(jìn)學(xué)習(xí)更精細(xì)化的表情特征。Chen 等[29]提出了一種隱私保護(hù)表示學(xué)習(xí)變體GAN,該算法結(jié)合了變分自動編碼器(Variational AutoEncoder,VAE)和GAN 來學(xué)習(xí)一種身份不變的表示形式,并且可以生成用于保留表情的面部圖像。Yang 等[30]提出了由兩個部分組成的身份自適應(yīng)生成模型:上半部分使用cGAN 生成具有不同表情的同一主題的圖像,下半部分在不涉及其他個體的情況下針對子空間進(jìn)行FER,因此可以很好地緩解身份變化。
盡管這些方法都提高了FER 的性能,但是卻沒有考慮選取的數(shù)據(jù)集內(nèi)部表情標(biāo)簽數(shù)量分布不均衡的問題。不同數(shù)據(jù)集的數(shù)據(jù)所在源域存在差異,在不受控環(huán)境下得到的數(shù)據(jù)集中,服從長尾分布的數(shù)據(jù)源域中的表情標(biāo)簽極度不平衡的問題極為突出[31],例如由于現(xiàn)實情境的限制,Contempt 和Fear 類別的樣本數(shù)量要遠(yuǎn)遠(yuǎn)小于Surprise 和Happy 類別的樣本數(shù)量,難以支撐深度神經(jīng)網(wǎng)絡(luò)捕捉少樣本的表情特征。
本文提出的基于生成對抗網(wǎng)絡(luò)與網(wǎng)絡(luò)集成的表情識別方法,通過多個異質(zhì)卷積神經(jīng)網(wǎng)絡(luò)提取包含不同深度、不同語義的特征向量,保留細(xì)微且表達(dá)能力強(qiáng)的表情特征,隨后對不同尺度特征進(jìn)行融合。此外,結(jié)合生成對抗網(wǎng)絡(luò)實現(xiàn)數(shù)據(jù)集標(biāo)簽平衡化和端到端的訓(xùn)練模式,使得模型能夠適應(yīng)不同場景下的表情識別,緩解不同面部表情數(shù)據(jù)集中標(biāo)簽數(shù)據(jù)分布不均衡的問題。
本文首先提出了一種網(wǎng)絡(luò)集成模型Ens-Net,如圖1 所示,該模型結(jié)構(gòu)由修改后的VGG13、VGG16 以及ResNet18 組成。具體而言,輸入的面部表情圖片通過3 個不同卷積核大小、神經(jīng)元數(shù)量以及網(wǎng)絡(luò)層數(shù)的網(wǎng)絡(luò)提取面部表情成分特征。Ens-Net 中使用來自VGG13 的完全連接層第5 層,完全連接層的第7 層和來自ResNet18 的全局池化層進(jìn)行特征提取后得到特征向量h1、h2、h3,隨后分別使用符號平方根(Sign Square Root,SSR)和L2 范數(shù)對每個特征實現(xiàn)歸一化后,利用經(jīng)典的特征級融合[32]方式將這些特征串聯(lián)起來,組成具有不同語義級別的全新特征向量hconcat,該方法表示為式(1):
圖1 Ens-Net網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of Ens-Net
隨后hconcat通過具有softmax 的損耗層實現(xiàn)表情的分類任務(wù)。由于網(wǎng)絡(luò)結(jié)構(gòu)的互補(bǔ)性,通過Ens-Net 所得到的特征包含不同層次深度提取到的深層和淺層表情分量特征,即利用不同網(wǎng)絡(luò)學(xué)習(xí)到的特征增強(qiáng)了面部特征的整體表征能力,尤其是在面部表情識別這樣關(guān)注細(xì)節(jié)特征的任務(wù)中顯得極為重要。
集成網(wǎng)絡(luò)模型Ens-Net 旨在解決表情分類問題,稱做分類器C。在Ens-Net 的基礎(chǔ)上,本文提出一種端到端的訓(xùn)練框架EE-GAN,如圖2 所示。EE-GAN 旨在結(jié)合GAN 的對抗學(xué)習(xí)思想[33],通過博弈訓(xùn)練生成更多特定標(biāo)簽的面部表情圖片以解決數(shù)據(jù)源域標(biāo)簽分布不均衡的問題。在穩(wěn)定生成逼真樣本的前提下,將GAN 網(wǎng)絡(luò)部分生成的逼真面部表情圖像和真實圖像同時送到分類器C進(jìn)行訓(xùn)練,從而實現(xiàn)完整的端到端的面部表情識別網(wǎng)絡(luò)。
圖2 EE-GAN網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of EE-GAN
EE-GAN 由生成器G、判別器D和分類器C組成。生成器G和判別器D采用深度卷積生成對抗網(wǎng)絡(luò)(Deep Convolutional GAN,DCGAN)[34]基本結(jié)構(gòu),G通過微步卷積將輸入的100 維噪聲向量Z擴(kuò)張到與真實樣本相同的尺寸,合成假圖像G(Z)。判別器D的輸入是真實圖像x和G合成的假圖像G(Z),其目的是將真實圖像和虛假圖像區(qū)分開。生成器D和判別器G通過極大極小游戲而形成競爭關(guān)系,具體來說,當(dāng)合成樣本的分布P(G)和訓(xùn)練樣本的分布P(D)相同時,該極大極小博弈獲得全局最優(yōu)解,此時生成器可以生成逼真的合成圖片以欺騙過判別器,從而達(dá)到了獲得新的面部表情圖像的目的。
對于Ens-Net 而言,給定一張帶有表情標(biāo)簽ye的面部圖像x,通過融合不同深度神經(jīng)網(wǎng)絡(luò)提取的表情特征向量得到hconcat,將其饋送到分類器實現(xiàn)表情分類。其中分類器使用softmax 交叉熵?fù)p失定義如下:
針對EE-GAN 的輸入,考慮到選取的數(shù)據(jù)集的域分布差異較小,將FER2013(Facial Expression Recognition 2013)[11]和CK+(Cohn-Kanade)[35]訓(xùn)練集中的不同表情標(biāo)簽進(jìn)行整合作為可靠的訓(xùn)練樣本。在實際訓(xùn)練過程中,早期階段的生成器G很差,生成的樣本很容易被判別器D識別,這使得D回傳給G的梯度極小,無法達(dá)到訓(xùn)練目的,出現(xiàn)優(yōu)化飽和現(xiàn)象。將D的Sigmod 輸出層的前一層記為o,則D(x) 可表示為D(x)=Sigmoid(o(x)),此時有:
為此,訓(xùn)練G的梯度記為:
這意味著當(dāng)D可以輕松辨別出假樣本時,正確辨別的概率幾乎為1,此時G獲得的梯度基本為0。為了保證訓(xùn)練的穩(wěn)定性,本文將G的優(yōu)化值函數(shù)定義為如下:
D的目的是盡可能將輸入的真實圖像x判別為真,將輸入的合成圖像G(Z)判別為假。訓(xùn)練的過程中G和D交替訓(xùn)練,保證每5 個batch 訓(xùn)練一次G,每1 個batch 訓(xùn)練一次D。此時D的優(yōu)化值函數(shù)定義為:
FER2013 是一個由谷歌圖像搜索API 自動收集的大型無約束數(shù)據(jù)庫。在拒絕錯誤標(biāo)記的幀并調(diào)整裁剪區(qū)域后,所有圖像都已標(biāo)注并調(diào)整為48 像素×48 像素。FER2013 包含35 887 幅表情圖像,同時以8∶1∶1 的比例劃分訓(xùn)練集、測試集和驗證集,其中包含7 種表情標(biāo)簽,即Angry、Disgust、Fear、Happy、Sadness、Surprise 和Neutral。
CK+用于評估FER 系統(tǒng)的最廣泛使用的實驗室控制數(shù)據(jù)庫。CK+包含來自123 名受試者的593 個視頻序列。這些序列的持續(xù)時間為10~60 幀不等,數(shù)據(jù)包含從中性面部表情到峰值表情的轉(zhuǎn)變。在這些視頻中,來自118 名受試者的327 個序列被標(biāo)記為面部動作編碼系統(tǒng)(Facial Action Coding System,F(xiàn)ACS)的七種基本表情標(biāo)簽,分別是Angry、Contempt、Disgust、Fear、Happy、Sadness 和Surprise。本文的數(shù)據(jù)選擇方法是提取最后1~2 個具有峰形成的幀和每個序列的第一幀(中性面),隨后以6∶2∶2 的比例劃分訓(xùn)練集、測試集和驗證集。
JAFFE(Japanese Female Facial Expressions)[36]日本女性面部表情數(shù)據(jù)庫是一個實驗室控制的圖像數(shù)據(jù)庫,包含來自10 名日本女性的213 個姿勢表情樣本。每個人有3~4 幅圖像,每幅圖像都有6 種基本的面部表情,包括Angry、Disgust、Fear、Happy、Sadness 和Surprise。
通過篩選數(shù)據(jù)集中清晰高質(zhì)量的表情圖像作為數(shù)據(jù)樣本,本文在后續(xù)的實驗中都遵循FER2013 和CK+數(shù)據(jù)集的劃分方式進(jìn)行模型訓(xùn)練和訓(xùn)練過程中的超參數(shù)優(yōu)化調(diào)整??紤]到原始的JAFFE 數(shù)據(jù)集體量小且未劃分,本文將FER2013、CK+的測試集和JAFFE 數(shù)據(jù)集作為測試數(shù)據(jù)。JAFFE 數(shù)據(jù)集只參與測試階段有利于測評模型的泛化性能。在將圖片輸入網(wǎng)絡(luò)之前,使用先進(jìn)的68個界標(biāo)的臉部檢測算法[37]實現(xiàn)面部的對齊和裁剪,將圖片尺寸規(guī)范到48×48,以減輕與表情無關(guān)變量的影響,規(guī)范由面部傳達(dá)的視覺語義信息。
為了測試Ens-Net 的性能,本文首先利用集成網(wǎng)絡(luò)的構(gòu)成組件VGG13、VGG16 以及RestNet18 單獨進(jìn)行訓(xùn)練測試在FER 任務(wù)上的性能;同時也選取了AlexNet 和ResNet34 等經(jīng)典CNN 模型進(jìn)行對比測試。為保證網(wǎng)絡(luò)的維度參數(shù)和輸入的圖片保持一致,對于AlexNet 的平均池化進(jìn)行修改,設(shè)置卷積核為1、步長為1;為了避免ResNet 的下采樣倍數(shù)過高導(dǎo)致網(wǎng)絡(luò)輸出的尺寸過小,對于ResNet,將最后的平均池化修改為維度為1 的自適應(yīng)池化,此外同樣對ResNet 作者后期對于基本殘差模塊的改進(jìn)進(jìn)行了實現(xiàn)[38]。在基本的殘差塊中將提取特征-歸一化-激活的步驟進(jìn)行微調(diào),對于跳躍連接的部分,首先進(jìn)行歸一化-激活操作,即激活函數(shù)放在了仿射變換前,這樣做可以保證梯度的順暢,以防止不平衡的網(wǎng)絡(luò)參數(shù)初始化導(dǎo)致出現(xiàn)難以訓(xùn)練的情況,優(yōu)化后的模型在本文中使用ResNet*表示。隨后根據(jù)所提方法構(gòu)建Ens-Net,在圖像輸入網(wǎng)絡(luò)之前進(jìn)行50%的水平翻轉(zhuǎn),完成基本的數(shù)據(jù)增強(qiáng),之后設(shè)置均值為0.5、方差為0.5 進(jìn)行歸一化操作。訓(xùn)練過程中使用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化器進(jìn)行優(yōu)化,設(shè)置學(xué)習(xí)率為0.001,權(quán)重衰變參數(shù)為0.95,每種網(wǎng)絡(luò)進(jìn)行300 輪訓(xùn)練。
相較于傳統(tǒng)的GAN,本文的網(wǎng)絡(luò)采用卷積-去卷積的方式代替池化層,同時在G和D中都添加了批量歸一化以及去掉了全連接層,使用全局池化層替代。G的輸出層使用Tanh激活函數(shù),其他層使用線性整流函數(shù)(Rectified Linear Unit,ReLU);D的所有層都使用LeakyReLU 激活函數(shù)。訓(xùn)練過程中都采用Adam 優(yōu)化器,betas 設(shè)置為0.999,學(xué)習(xí)率為1E-4。通過上述策略首先對GAN 部分進(jìn)行4 000 輪的訓(xùn)練,當(dāng)G可以穩(wěn)定生成足夠逼真的表情圖像后,將GAN 生成的圖像和真實的數(shù)據(jù)集圖像同時饋送到分類器C中進(jìn)行表情識別,實現(xiàn)和Ens-Net 部分結(jié)合的端到端的訓(xùn)練模式。此策略的優(yōu)點是分類損失可以通過參數(shù)優(yōu)化不斷懲罰生成損失,以迫使生成器獲取更好的生成表示,在提升圖像合成的質(zhì)量的同時提高表情識別的準(zhǔn)確率。
考慮到GAN 容易出現(xiàn)模型坍塌[39]問題,為了防止生成樣本喪失多樣性,本文中輸入的噪聲采用均勻分布采樣獲取。通過將整合后的數(shù)據(jù)集送到網(wǎng)絡(luò)進(jìn)行訓(xùn)練,經(jīng)過3 550輪左右訓(xùn)練后G的生成數(shù)據(jù)分布基本已經(jīng)逼近真實世界下的復(fù)雜混合高斯分布[40],G和D損失趨于穩(wěn)定。如圖3 所示,訓(xùn)練后的模型可以逼真地生成8 種面部表情圖像;同時,當(dāng)通過插值微調(diào)的方式控制輸入的噪聲向量Z,在不同表情圖像之間,可以實現(xiàn)對除表情外周圍面部信息的建模,例如膚色、發(fā)型以及臉型等。在同一表情圖像中,可以實現(xiàn)不同的表達(dá)模式,例如Happy 類別中,不同面部肌肉形變度下抿嘴和張嘴的圖像都可以傳達(dá)高興、愉悅的情感。
圖3 生成器生成的逼真表情圖像Fig.3 Realistic expression images generated by generator
無論是FER2013 還是CK+數(shù)據(jù)集,都存在表情標(biāo)簽分布不均勻的問題。例如通過篩選后FER2013 中的Angry 多達(dá)3 995 張圖像,然而Fear、Sadness 等標(biāo)簽有400~500 張圖像,Disgust 標(biāo)簽僅僅有56 張圖像。同樣的情況也存在于CK+數(shù)據(jù)集中,這極大地降低了部分表情的識別準(zhǔn)確率。為了解決此問題,本文將EE-GAN 生成的逼真圖像與源域的數(shù)據(jù)集圖像進(jìn)行整合,通過添加和調(diào)整不同表情標(biāo)簽數(shù)量以降低標(biāo)簽不均衡的影響。
考慮到低樣本標(biāo)簽圖像生成難度大,在盡可能保證標(biāo)簽域平衡的前提下,本文使大部分表情標(biāo)簽的數(shù)量處于600~800。如表1 所示,第2~4 行展示篩選后源數(shù)據(jù)集包含的不同表情的樣本數(shù)目;第5 行是經(jīng)過調(diào)整后混合GAN 生成圖像的最終數(shù)目。具體來說,對較少的表情標(biāo)簽圖像進(jìn)行補(bǔ)充,例如將原本的總體262 幅Disgust 圖像補(bǔ)充到653 幅;對較多的表情標(biāo)簽進(jìn)行稀釋,例如將4 130 幅Angry 圖像減少到800幅,從而達(dá)到平衡不同表情標(biāo)簽樣本的目的,減緩數(shù)據(jù)集長尾分布帶來的模型性能約束。
表1 FER2013、CK+、JAFFE數(shù)據(jù)集以及通過GAN整合后的不同表情圖像的數(shù)量Tab.1 Numbers of different expressions’s images on FER2013,CK+,JAFFE and integrated datasets
觀察表2 可知,本文將提出的EE-GAN 與現(xiàn)有相似的基于視圖學(xué)習(xí)的表情識別方法,如局部保留投影方法(Locality Preserving Projection,LPP)[41]、判別式高斯過程潛在變量方法(Discriminative Gaussian Process Latent Variable Model,DGPLVM)[42]、高斯過程潛在隨機(jī)場方法(Gaussian Process Latent Random Field,GPLRF)[43]、向量式線性判別分析方法(GensiM Linear Discriminant Analysis,GMLDA)[44]進(jìn)行對比,EE-GAN 的性能得到了最佳的結(jié)果,在3 個測試數(shù)據(jù)集上的準(zhǔn)確率分別達(dá)到了82.1%、84.8%和91.5%。同時,與傳統(tǒng)的單一網(wǎng)絡(luò)結(jié)構(gòu)的CNN模型AlexNet、VGG、ResNet以及ResNet*相比,EE-GAN 在3 個數(shù)據(jù)集上的準(zhǔn)確率分別至少提高了9、10、16 個百分點。EE-GAN 出色的表現(xiàn)一方面得益于不同尺度表情特征融合策略下Ens-Net 模塊強(qiáng)大的特征表征能力;另一方面受益于GAN 生成部分的數(shù)據(jù)增強(qiáng)和數(shù)據(jù)集標(biāo)簽平衡處理,緩解了表情標(biāo)簽不均衡對于FER 整體精度的影響。同時,通過端到端的訓(xùn)練模式,迫使生成損失和分類損失的不斷促進(jìn)優(yōu)化,使得網(wǎng)絡(luò)獲取到更加精確的表情特征。
表2 不同網(wǎng)絡(luò)模型在FER2013、CK+、JAFFE數(shù)據(jù)集的準(zhǔn)確率Tab.2 Accuracies of different network models on FER2013,CK+,and JAFFE datasets
圖4 展示了不同數(shù)據(jù)集上基于EE-GAN 的表情分類混淆矩陣,通過觀察歸一化之后的每種表情的預(yù)測結(jié)果發(fā)現(xiàn),Angry 和Sadness 的準(zhǔn)確率普遍要稍微低于其他表情,其中可能的原因是這兩種表情的面部動作單元相對較少,影響了識別精度;同時Happy 和Fear 的識別結(jié)果經(jīng)常容易混淆,很大的可能在于這兩種表情擁有相似的肌肉形變度,這與Zhang等[45]和Yang 等[28]的研究結(jié)果相吻合。
圖4 混淆矩陣可視化Fig.4 Confusion matrix visualization
為了進(jìn)一步驗證Ens-Net 模型和EE-GAN 框架的有效性,本文在數(shù)據(jù)集進(jìn)行相同劃分和數(shù)據(jù)預(yù)處理前提下,通過更換不同尺度網(wǎng)絡(luò)集成部分得到的特征向量和改變不同的組合方式進(jìn)行消融實驗。具體地,將Ens-Net分為三種組合方式,分別使用VGG13 和VGG16、VGG13 和ResNet18、VGG16 和ResNet18 進(jìn)行網(wǎng)絡(luò)集成測試,隨后在三種不同組合的基礎(chǔ)上都加入GAN 部分,設(shè)置三種不同的EE-GAN 網(wǎng)絡(luò)進(jìn)行測試,觀察到測試集的準(zhǔn)確率如表3 所示。
表3 FER2013、CK+以及JAFFE數(shù)據(jù)集上的消融實驗結(jié)果Tab.3 Ablation experiment results on FER2013,CK+,and JAFFE datasets
消融實驗結(jié)果顯示,Ens-Net 網(wǎng)絡(luò)集成方法的性能優(yōu)于任意兩組不同深度網(wǎng)絡(luò)模型集成的性能,同時兩組網(wǎng)絡(luò)集成模型準(zhǔn)確率的逐漸提高也證明了越深的網(wǎng)絡(luò)結(jié)構(gòu)將輸出表示能力越強(qiáng)的特征。因此將不同尺度的特征進(jìn)行融合,可以獲取到表征能力更強(qiáng)的特征,這也為模型帶來更強(qiáng)的分類能力。EE-GAN 框架使得準(zhǔn)確率在Ens-Net 基礎(chǔ)上均提升3%~5%,將生成對抗網(wǎng)絡(luò)模型與網(wǎng)絡(luò)集成思想相結(jié)合,既可以結(jié)合多個異質(zhì)網(wǎng)絡(luò)提取的不同深度的表情特征,又實現(xiàn)了數(shù)據(jù)增強(qiáng)以解決表情標(biāo)簽數(shù)據(jù)分布不均的問題,從而有效提高了模型的表情識別能力。
本文提出了一種包含網(wǎng)絡(luò)集成模型Ens-Net 的端到端深度學(xué)習(xí)框架EE-GAN。該模型通過結(jié)合不同深度的表情特征實現(xiàn)特征級融合,以學(xué)習(xí)到更加精確有效的情感表征。受益于端到端的訓(xùn)練模式,EE-GAN 在實現(xiàn)數(shù)據(jù)增強(qiáng)的同時生成具有特定表情標(biāo)簽的面部圖像,極大緩解了數(shù)據(jù)集表情標(biāo)簽分布不均衡的影響,提高了表情識別的準(zhǔn)確性。通過在3個標(biāo)準(zhǔn)數(shù)據(jù)集上的實驗結(jié)果表明,本文提出的EE-GAN 在表情分類性能和準(zhǔn)確度方面優(yōu)于傳統(tǒng)CNN 模型和現(xiàn)有改進(jìn)模型,證明了模型的有效性。未來,研究工作將在模型的解耦表示中考慮面部遮擋、光照和姿勢等其他因素的影響,進(jìn)一步提高表情識別的準(zhǔn)確性。