梁華剛,薄穎,雷毅雄,喻子鑫,劉麗華
長安大學(xué)電子與控制工程學(xué)院,西安 710064
表情是情感的重要載體,是人機交互過程中一種重要的信息傳遞方式。表情作為一種典型的非言語交際形式,在情感分析中起著重要作用(Ben等,2021)。研究表明,情感表達中55%的信息是通過面部表情傳遞的(Pantic和Rothkrantz, 2000)。隨著人工智能的興起與廣泛應(yīng)用,表情識別在人機交互、安全駕駛、醫(yī)療和通信等領(lǐng)域具有廣闊的應(yīng)用前景。表情識別研究得到了廣泛關(guān)注,成為學(xué)術(shù)界和工業(yè)界的熱門研究方向。
由于年齡、性別和種族等個體差異以及外界光照、姿態(tài)等環(huán)境因素的影響,表情識別一直是一項復(fù)雜的工作。傳統(tǒng)的表情識別方法大多采取手工設(shè)計特征或淺層學(xué)習(xí),如提取圖像紋理特征的Gabor小波特征方法(Xu等,2015)、提取表情幾何特征的ASM(active shape model)方法(Sun等,2016)和提取表情邊緣特征的HOG(histogram of oriented gradient)方法(任福繼 等,2018)等,再用分類器進行表情分類。卷積神經(jīng)網(wǎng)絡(luò)能夠提取到人臉表情的高維特征,增強了傳統(tǒng)的手動提取特征方法的魯棒性。由于卷積神經(jīng)網(wǎng)絡(luò)需要大量數(shù)據(jù)進行訓(xùn)練,當(dāng)訓(xùn)練數(shù)據(jù)較少時,可以采用dropout機制隨機丟棄神經(jīng)元(Yu和Zhang,2015)或數(shù)據(jù)擴充增加訓(xùn)練數(shù)據(jù)(Yang等,2018)等減少模型過擬合的風(fēng)險。隨著深度卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用與發(fā)展,深度卷積神經(jīng)網(wǎng)絡(luò)可以提取到更深更具有判別能力的圖像特征,解決了卷積神經(jīng)網(wǎng)絡(luò)不能有效提取關(guān)鍵特征的問題,可以達到更高的準(zhǔn)確率。深度置信網(wǎng)絡(luò)(deep belief net,DBN)是一種典型的深度學(xué)習(xí)方法(Hinton等,2006),能夠更好地學(xué)習(xí)復(fù)雜的數(shù)據(jù)結(jié)構(gòu)和特征分布;增強型深度信念網(wǎng)絡(luò)(boosted deep belief network, BDBN)通過在循環(huán)框架中不斷執(zhí)行特征表示、特征選擇和分類器構(gòu)造(Liu等,2014),增強了表情識別的判別能力;將改進深度自編碼器(deep autoencoder,DAE)應(yīng)用到表情識別中(Huang和Ying,2015),通過網(wǎng)絡(luò)訓(xùn)練和測試特征的最小誤差對圖像進行分類,有效地提高了表情識別的準(zhǔn)確率;生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)具有合成圖像能力,能夠修復(fù)局部遮擋圖像,進而生成高質(zhì)量目標(biāo)樣本(姚乃明 等,2018),解決了遮擋圖像表情識別的識別率低、魯棒性差的問題;在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中引入殘差學(xué)習(xí)模塊(杜進 等,2018),解決了隨著網(wǎng)絡(luò)深度的增加神經(jīng)網(wǎng)絡(luò)出現(xiàn)性能退化和梯度爆炸等問題;為進一步提升網(wǎng)絡(luò)的實時性,將輕量級網(wǎng)絡(luò)用于人臉表情的識別(呂誨 等,2020),此網(wǎng)絡(luò)僅有66 000個參數(shù);輕量級表情識別模型(lightweight expression recognition, LER) (Zhao等,2020)用于處理人機交互應(yīng)用中的延遲問題;輕量級注意力表情識別網(wǎng)絡(luò)(lightweight attention DCNN, LA-Net)引入了網(wǎng)絡(luò)瘦身策略,便于部署在資源受限的設(shè)備上(Ma等,2021)。這些國內(nèi)外研究方法雖然在網(wǎng)絡(luò)精度、抗干擾性等方面取得了一定進步,但是由于表情識別的復(fù)雜性,仍存在一些問題,如:表情識別網(wǎng)絡(luò)結(jié)構(gòu)越復(fù)雜,計算代價越大,速度難以達到實時性要求;降低網(wǎng)絡(luò)參數(shù)后,識別精度會隨之降低等。
表情識別的關(guān)鍵技術(shù)在于表情特征的提取方法,有效的表情特征提取工作將大大提高表情識別的性能。因此,本文著眼于特征提取方法,提出了一種輕量級的表情識別網(wǎng)絡(luò)模型。主要貢獻有:
1) 數(shù)據(jù)預(yù)處理部分主要使用圖像尺寸歸一化和增加噪聲隨機擾動等數(shù)據(jù)增強操作,去除與表情無關(guān)的干擾信息,提高模型的泛化性;2) 網(wǎng)絡(luò)模型采用深度可分離卷積和全局平均池化層有效地減少網(wǎng)絡(luò)參數(shù),并且合理嵌入SE(squeeze-and-excitation)模塊(Hu等,2020),在不同通道設(shè)置不同壓縮率更高效地提取人臉表情特征,提升網(wǎng)絡(luò)的識別能力;3) 本文表情識別任務(wù)包括實驗室受控環(huán)境和真實的環(huán)境多個場景,并通過大量實驗論證了本文方法的有效性和可靠性。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)(Lecun等,1998)是表情識別常用算法之一,結(jié)構(gòu)如圖1所示,主要由卷積層、池化層和全連接層組成。輸入圖像先通過卷積層卷積并產(chǎn)生特定類型的激活特征映射;再通過池化層減小特征映射的空間大小和網(wǎng)絡(luò)計算量,提升網(wǎng)絡(luò)的非線性特征提取能力;最后將提取的特征映射到全連接層,轉(zhuǎn)換為1維特征映射便于進一步的特征表示和分類。
圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 The structure of the convolutional neural network
卷積神經(jīng)網(wǎng)絡(luò)雖然具有較高的精度和較強的魯棒性等優(yōu)點,但是隨著網(wǎng)絡(luò)層數(shù)的加深,深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度也越高,實時性難以保證,這使得傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)不再適用。
表情識別網(wǎng)絡(luò)主要包括人臉圖像采集、圖像預(yù)處理、特征提取和表情分類識別4個步驟,表情識別框架如圖2所示。特征提取是網(wǎng)絡(luò)結(jié)構(gòu)的關(guān)鍵步驟,因此,本文設(shè)計了增強深度可分離卷積通道特征模塊,以此為基礎(chǔ),搭建并訓(xùn)練輕量級表情網(wǎng)絡(luò)模型,從而實現(xiàn)各類表情的準(zhǔn)確分類。
本文設(shè)計的增強深度可分離卷積通道特征模塊(basic block)由深度可分離卷積(depthwise separa-ble convolution, DSC)和SE模塊組合而成,模塊結(jié)構(gòu)如圖3所示。首先,通過一組1×1的卷積從輸入特征圖中提取特征,然后,將輸出特征圖根據(jù)通道維度平均分成6個組,每個組使用卷積核為3×3、通道數(shù)為C/6的小卷積擴大感受野范圍,再將這6個組的通道維度拼接起來送入壓縮激發(fā)模塊,每一個通道都壓縮為一個數(shù)值,最后,按照通道內(nèi)的表情特征信息的重要程度分配權(quán)重系數(shù),從而實現(xiàn)增強重要特征通道。另外,每個卷積層后都有一個批歸一化層和一個放縮指數(shù)線性單元(scaled exponential linear units,SeLU)激活函數(shù)層。其中,批歸一化層用于對數(shù)據(jù)進行歸一化,緩解深度神經(jīng)網(wǎng)絡(luò)中梯度消失的問題,避免輸入數(shù)據(jù)偏移造成的影響;激活層增加了神經(jīng)網(wǎng)絡(luò)各層之間的非線性關(guān)系,能夠更好地提取關(guān)鍵特征和擬合訓(xùn)練數(shù)據(jù)。
深度可分離卷積由深度卷積和通道卷積組成,不僅可以拓展網(wǎng)絡(luò)寬度,而且在一定程度上減少了參數(shù)量,整體卷積過程如圖4所示。假設(shè)輸入的特征尺寸為DF×DF×M,DF為每個特征圖的邊長,M為輸入通道數(shù),N為輸出通道數(shù)。先用M個卷積核為DK×DK的深度卷積各自提取特征圖的每個通道特征,輸出每個通道內(nèi)的圖像特征信息;再用N個卷積核為1×1的通道卷積將每個通道的特征信息融合為一個特征圖。在參數(shù)量方面,深度可分離卷積與標(biāo)準(zhǔn)卷積的優(yōu)化比例為
圖3 增強深度可分離卷積通道特征模塊結(jié)構(gòu)Fig.3 The structure of basic block
圖4 深度可分離卷積過程示意圖Fig.4 The structure of the depthwise separable convolution
(1)
在生成相同尺寸特征的情況下,采用了深度可分離卷積代替部分標(biāo)準(zhǔn)卷積,使得網(wǎng)絡(luò)模型的參數(shù)大大減少,可以保證網(wǎng)絡(luò)模型的實時性要求。
圖5 SE模塊結(jié)構(gòu)示意圖Fig.5 The structure of the SE module
此外還在網(wǎng)絡(luò)不同層引入不同壓縮率,根據(jù)通道數(shù)的不同選擇不同的壓縮率,使得重要的特征更加明顯,從而提高了網(wǎng)絡(luò)模型的精度。
2.2.1 網(wǎng)絡(luò)結(jié)構(gòu)
本文表情識別網(wǎng)絡(luò)模型的主干網(wǎng)絡(luò)部分包括6個階段。階段1)采用兩個3×3標(biāo)準(zhǔn)卷積學(xué)習(xí)空間信息及通道間的相關(guān)性,進而提取低維特征,然后對輸出進行非線性激活。同時在每個卷積層后增加SE模塊,用于增強網(wǎng)絡(luò)層間的特征關(guān)系。階段2)—階段5)的結(jié)構(gòu)類似,分別包括3個basic block和一個最大池化層。basic block中所有的深度可分離卷積的卷積核大小為3×3,步長為1,初始通道數(shù)為64,通道數(shù)依次遞增,最高可達1 024個通道。深度可分離卷積層后依次使用批量歸一化、SeLU和SE模塊,其中每個階段中SE模塊的壓縮率保持一致。并且分別在3、6、9、12個basic block后采用窗口大小為3、步長為2的最大池化層進行下采樣,減少特征圖的尺寸。階段6)為輸出層結(jié)構(gòu):首先,使用一個卷積核為3×3的標(biāo)準(zhǔn)卷積將1 024個特征圖映射為7個特征圖;然后,使用一個全局平均池化(global average pooling,GAP)對特征圖的空間信息進行求和(Lin等,2013),分別累加每個特征圖所有像素值并求平均得到7個數(shù)值,增強輸入的空間變化的魯棒性;最后,輸入到softmax分類器中,得到對應(yīng)表情類別的7個概率值,最大概率值即為表情分類的預(yù)測結(jié)果。網(wǎng)絡(luò)模型的整體結(jié)構(gòu)如圖6所示。
圖6 表情識別網(wǎng)絡(luò)模型結(jié)構(gòu)示意圖Fig.6 The structure of FER network model
2.2.2 激活函數(shù)
網(wǎng)絡(luò)采用SeLU激活函數(shù)處理人臉表情網(wǎng)絡(luò)輸入與輸出之間的非線性關(guān)系。SeLU自帶樣本歸一化特性,不受外界因素干擾,可以解決非正區(qū)間輸出為0的問題,當(dāng)輸入給定負數(shù)的情況下,依然可以保持神經(jīng)單元的運作性。SeLU函數(shù)如式(2)所示,更有利于訓(xùn)練多層的深度神經(jīng)網(wǎng)絡(luò),訓(xùn)練過程中梯度也不會爆炸或消失。
(2)
式中,x為輸入值,參數(shù)α和λ被證明得到了具體的數(shù)值:
λ= 1.050 700 987 355 480 493 419 334 985 294 6,
α= 1.673 263 242 354 377 284 817 042 991 671 7。
2.2.3 損失函數(shù)
本文網(wǎng)絡(luò)模型選用交叉熵損失函數(shù)衡量真實概率和預(yù)測概率之間的差別,損失函數(shù)不斷優(yōu)化網(wǎng)絡(luò)權(quán)重比例,從而進行評定網(wǎng)絡(luò)模型的好壞。交叉熵損失越小,模型預(yù)測的準(zhǔn)確率越高。交叉熵損失函數(shù)為
(3)
式中,xi為樣本數(shù)據(jù),P(xi)為輸入xi真實值的概率,Q(xi)為模型輸出預(yù)測值的概率。
通過5個廣泛使用的數(shù)據(jù)集驗證本文方法的有效性,包括FER2013(Facial Expression Recognition 2013)數(shù)據(jù)集(Goodfellow等,2013)、CK+(the extended Cohn-Kanade)數(shù)據(jù)集(Lucey等,2010)、JAFFE(Japanses female facial expression)數(shù)據(jù)庫(Lyons等,1998)和RAF-DB(real-world affective faces database)(Li和Deng等,2019)、AffectNet (Mollahosseini等,2019)這兩個in-the-wild表情數(shù)據(jù)集。其中,既有在實驗室受控環(huán)境下采集較為標(biāo)準(zhǔn)的數(shù)據(jù)集(CK+和JAFFE),也有在真實世界環(huán)境下采集的較為自然的數(shù)據(jù)集(RAF-DB和AffectNet)。每個數(shù)據(jù)集細分為7種不同的表情標(biāo)簽:憤怒、厭惡、恐懼、高興、悲傷、驚訝和自然。這些同類表情的面部姿態(tài)、年齡、表情強度和膚色有明顯差異,在光照、頭部姿態(tài)以及面部遮擋等方面多樣性,使用不同環(huán)境下采集的表情數(shù)據(jù)集更能說明算法模型的泛化性能。圖7展示了這5個數(shù)據(jù)集的各類表情的部分圖像樣本。
圖7 部分?jǐn)?shù)據(jù)集樣本Fig.7 Part of datasets samples((a)angry; (b)disgust; (c)fear; (d)happy;(e)sad; (f)surprise; (g)natural)
1) FER2013數(shù)據(jù)集。數(shù)據(jù)庫人臉完整表情數(shù)據(jù)量大,不僅包括真實人臉圖像,還包括卡通類人臉表情圖像,數(shù)據(jù)集樣本豐富。此數(shù)據(jù)集共有35 887幅關(guān)于表情的圖像數(shù)據(jù),其中包括28 708幅訓(xùn)練集圖像,公共驗證集與私有驗證集均3 589幅。
2) CK+數(shù)據(jù)集。在實驗室條件下,按照要求進行采集年齡18-30歲的亞洲、非洲人的面部動作得到此數(shù)據(jù)集序列,是表情識別中最具代表性的數(shù)據(jù)庫。這些表情圖像由123個測試人員的593個圖像序列組成,展示了從平靜狀態(tài)到峰值表情轉(zhuǎn)變的過程,其中包括327個被標(biāo)記的圖像序列。
3) JAFFE數(shù)據(jù)集。這些圖像包括了不同強度的不同情緒,有著很高的識別率,也是使用率很高的數(shù)據(jù)庫。數(shù)據(jù)庫包括了10名日本女性根據(jù)指示在實驗環(huán)境下做出各種表情,每個人做出7種表情,共計213幅圖像。
4) RAF-DB數(shù)據(jù)集。由從互聯(lián)網(wǎng)上下載的來自數(shù)千人的29 672幅圖像構(gòu)成的大規(guī)模面部表情數(shù)據(jù)庫,非在實驗室控制條件下獲得,所以表情更自然,接近人類真實表情。數(shù)據(jù)庫包括7 類基本表情、12類復(fù)合表情和30余類混合表情,本文實驗研究僅使用基本表情圖像及標(biāo)簽。在光照、頭部姿態(tài)等方面具有多樣性,注釋豐富。
5) AffectNet數(shù)據(jù)集。從互聯(lián)網(wǎng)收集面部表情圖像,是目前自然條件下最大的面部表情識別圖像數(shù)據(jù)集。本文使用該數(shù)據(jù)庫中約28萬幅圖像,含有7種基本表情標(biāo)簽的標(biāo)注。標(biāo)注類型包括表情類型和幅度等多樣化,更能反映真實場景的表情。
為提高訓(xùn)練出來的模型的泛化性能,避免數(shù)據(jù)不充足導(dǎo)致的過擬合反應(yīng),對數(shù)據(jù)集進行預(yù)處理,示例如圖8所示(以CK+部分?jǐn)?shù)據(jù)為例)。實驗訓(xùn)練之前需要對所有數(shù)據(jù)集的圖像尺寸歸一化和一些數(shù)據(jù)增強操作。圖像尺寸歸一化即對訓(xùn)練集所有圖像裁剪為48×48像素的灰度圖像,并分別在數(shù)據(jù)圖的左上角、左下角、右上角和右下角進行裁剪,去除不平衡光照;然后,進行隨機翻轉(zhuǎn)和增加隨機擾動、添加噪聲等數(shù)據(jù)增強操作。
圖8 圖像增強示例圖Fig.8 Image enhancement example image
數(shù)據(jù)增強后同一幅表情圖像會生成許多幅不一樣的圖像數(shù)據(jù),進一步擴充表情識別的數(shù)據(jù)集,有效降低了訓(xùn)練網(wǎng)絡(luò)模型過程中出現(xiàn)的過擬合風(fēng)險,提高了算法的魯棒性和模型的泛化性。具體的一些數(shù)據(jù)增強參數(shù)如表1所示。
實驗搭建了TensorFlow和Keras框架的深度學(xué)習(xí)網(wǎng)絡(luò),操作系統(tǒng)為Windows 10,使用Python3.8.10編程語言進行訓(xùn)練和測試。硬件平臺為英特爾 Core TM i7-10700CPU,內(nèi)存為64 GB,GPU為顯存11 GB的NVIDIA GeForce RTX 3070 Ti。網(wǎng)絡(luò)模型訓(xùn)練時每次訓(xùn)練數(shù)據(jù)總輪數(shù)為500次,批次大小為32,學(xué)習(xí)率初始化為0.1,隨著訓(xùn)練的進行,根據(jù)損失函數(shù)的變化逐漸降低學(xué)習(xí)率,直到學(xué)習(xí)率變?yōu)?.000 1時停止降低。訓(xùn)練得到各個數(shù)據(jù)集的識別精確度迭代結(jié)果如圖9所示,以及訓(xùn)練網(wǎng)絡(luò)模型500次的損失收斂過程如圖10所示。
可以看到,隨著訓(xùn)練次數(shù)的增加,準(zhǔn)確率逐漸提高,損失逐漸下降。間接反映出損失越小,準(zhǔn)確率就會越高。網(wǎng)絡(luò)訓(xùn)練過程中迭代的趨勢整體趨于穩(wěn)定,證明了本文網(wǎng)絡(luò)模型具有一定的穩(wěn)定性。
表1 數(shù)據(jù)增強參數(shù)表Table 1 Data enhancement parameter table
圖9 表情識別率迭代結(jié)果Fig.9 FER rate iteration results
圖10 損失過程曲線圖Fig.10 Loss process curve
本文在卷積層后引入SE模塊擴大感受野,進行通道加權(quán)增強重要的表情特征,提高表情識別率。對于本文搭建的網(wǎng)絡(luò)模型加入SE模塊和未加入SE模塊分別進行實驗,并對比識別精確度,實驗結(jié)果如圖11所示。
圖11 SE模塊對比Fig.11 Comparison result of SE module
可以看到網(wǎng)絡(luò)模型加入SE模塊后,F(xiàn)ER2013、CK+、JAFFE這3個數(shù)據(jù)集的識別精確度提高了3% -7%,而RAF-DB、AffectNet這兩個in-the-wild數(shù)據(jù)集由于存在被遮擋的人臉、錯誤的標(biāo)簽等,其識別精確度平均提高2%,說明SE模塊重新調(diào)整表情特征的權(quán)重能夠提升網(wǎng)絡(luò)模型的準(zhǔn)確率。為了更好地獲取各個通道特征的重要性關(guān)系,設(shè)置了壓縮率對比實驗。將網(wǎng)絡(luò)模型所有層分別取2、4、8、16、32壓縮率(r)和組合壓縮率的識別精確度進行對比,得到表情識別率對比結(jié)果,如圖12所示。
圖12 表情識別準(zhǔn)確率對比Fig.12 Comparison result of FER accuracy
對比不同壓縮率取值,表情識別準(zhǔn)確率不同,驗證了壓縮率的取值和網(wǎng)絡(luò)通道數(shù)之間存在一定的聯(lián)系。與各種壓縮率取值以及不加入SE模塊相比,組合壓縮率的表情識別率是最高的。因此,本文的SE模塊采用組合形式嵌入網(wǎng)絡(luò)模型中。
為了找出最佳壓縮率組合方法,本文通過實驗在不同通道選擇最合適的壓縮率r對網(wǎng)絡(luò)模型進行測試??紤]不同網(wǎng)絡(luò)通道的特征分布,在卷積初始層不選擇太大的壓縮率。網(wǎng)絡(luò)結(jié)構(gòu)中總共加入了14個SE模塊,前2層初始層的標(biāo)準(zhǔn)卷積層的壓縮率保持一致,在layer 1—layer 4中采用同一layer保持一致壓縮率的原則進行組合設(shè)計。本文選取了10種壓縮率的取值組合方式進行測試實驗,如表2所示。
表2 壓縮率取值Table 2 Compression rate value
對表2中10種壓縮率取值組合方式在各個數(shù)據(jù)集上分別進行驗證,實驗結(jié)果得到的識別精確度如圖13所示。
圖13 不同壓縮率組合方式識別準(zhǔn)確率Fig.13 FER accuracy of different compression ratio combinations
實驗對比結(jié)果表明,選取第9種壓縮率的取值組合方式(c9)可以使得表情識別準(zhǔn)確率最高,所以最終本文網(wǎng)絡(luò)模型選擇了第9種組合即采用2、4、8、16、16的壓縮率組合將SE模塊嵌入在網(wǎng)絡(luò)中,更高效提取表情特征。
實驗分別對比了目前7種識別率較高網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)量,有:
1) AlexNet網(wǎng)絡(luò)(Krizhevsky等,2017)是在圖像分類競賽ImageNet Large Scale Visual Recognition Competition (ILSVRC2012)中第1名的網(wǎng)絡(luò),掀起了深度卷積神經(jīng)網(wǎng)絡(luò)在各個領(lǐng)域的研究熱潮。
2) InceptionV4 (Szegedy等,2016)使用了統(tǒng)一的inception模塊并結(jié)合了殘差思想,使網(wǎng)絡(luò)層數(shù)更深。
3) Xception網(wǎng)絡(luò)(Chollet,2017)是在網(wǎng)絡(luò)Inceptionv3的基礎(chǔ)上引入了可分離卷積(depthwise separable convolution),在基本不增加網(wǎng)絡(luò)復(fù)雜度的前提下提高了模型效果。
4) Parallel CNN網(wǎng)絡(luò)(徐琳琳 等,2019)采用兩個并行的卷積池化結(jié)構(gòu),分成3個不同的并行路徑來提取3種不同的圖像特征。
5) Attention Net方法(Fernandez等,2019)將注意力集中在人臉上,用高斯空間表示來進行表情識別。
6) FaceNet2ExpNet網(wǎng)絡(luò)(Ding等,2017)對表情識別網(wǎng)絡(luò)的訓(xùn)練進行調(diào)整:首先提出一種新的分布函數(shù)來模擬表達網(wǎng)絡(luò)的神經(jīng)元,接著設(shè)計了兩個階段的訓(xùn)練算法。
7) GAN網(wǎng)絡(luò)(孫曉和丁小龍,2020)是一種通過訓(xùn)練使判別器和生成器達到平衡狀態(tài)的無監(jiān)督算法,將一種表情采用生成器進行下采樣生成其他不同表情。不同方法的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)量如表3所示。
表3 不同方法的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)量Table 3 The amount of network structure parameters of different methods
實驗結(jié)果顯示,本文方法相較于識別性能較好的Xception神經(jīng)網(wǎng)絡(luò)參數(shù)減少了63%,可保證實時性需求。本文提出的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)減少了參數(shù)數(shù)量和計算量,使得模型體積大大減小,屬于輕量級的模型,且對模型精確度不產(chǎn)生影響。與目前優(yōu)秀的特征提取網(wǎng)絡(luò)如MobileNetV3輕量級網(wǎng)絡(luò)(Howard等,2019)相比,在精確度相差不大的前提下,本文模塊參數(shù)量大大減少,在提升實時識別速度上有明顯優(yōu)勢。通過服務(wù)端設(shè)備對網(wǎng)絡(luò)模型的實時性進行了測試,經(jīng)測試發(fā)現(xiàn):平均識別速度可以達到128 幀/s,滿足實時性的要求。本文通過服務(wù)端設(shè)備對基于增強深度可分離卷積通道特征模塊的網(wǎng)絡(luò)模型的實時性進行了測試,如圖14所示為7種表情實時測試圖。
圖14 實時表情識別效果圖Fig.14 The effect of real-time expression recognition((a)angry; (b)disgust; (c)fear; (d)happy; (e)sad;(f)surprise;(g)natural)
在相同數(shù)據(jù)集和檢測環(huán)境下,對比7種現(xiàn)有最新的網(wǎng)絡(luò)模型的識別準(zhǔn)確率,用于驗證網(wǎng)絡(luò)模型的有效性。實驗結(jié)果如表4所示。
表4 不同方法的識別結(jié)果Table 4 Recognition results of different methods /%
本文模型的識別率在CK+、FER2013、JAFFE、RAF-DB和AffectNet共5個表情識別數(shù)據(jù)集上分別可以達到99.32%、79.73%、98.48%、86.54%、60.89%,相比于7種卷積神經(jīng)網(wǎng)絡(luò)對比模型,識別精確度分別提高了0.51%、5.72%、0.28%、2.04%和0.68%。本文方法不僅能很好地識別室內(nèi)數(shù)據(jù)集且對室外表情數(shù)據(jù)集仍然有效,均取得了較高的識別精確度。由此說明本文在簡化網(wǎng)絡(luò)的復(fù)雜程度和減少計算量的同時仍能夠準(zhǔn)確識別人臉表情,驗證了本文方法的有效性。由于FER2013和AffectNet這兩個數(shù)據(jù)集的干擾因素較多,如FER2013存在一些非正常表情圖片,生氣與悲傷、厭惡等表情易混淆等,AffectNet數(shù)據(jù)集存在頭部姿態(tài)、面部遮擋等,導(dǎo)致網(wǎng)絡(luò)模型在這兩個數(shù)據(jù)集的識別率比CK+、JAFFE、RAF-DB數(shù)據(jù)集的識別率低,進一步說明了表情識別的復(fù)雜性。
針對表情識別網(wǎng)絡(luò)模型復(fù)雜、泛化性差等問題,本文提出了一種增強深度可分離卷積通道特征的改進卷積神經(jīng)網(wǎng)絡(luò)的輕量級表情識別方法。主要工作如下:
1) 對多個場景的表情數(shù)據(jù)集進行數(shù)據(jù)增強操作,丟棄干擾性較大的背景信息。
2) 網(wǎng)絡(luò)模型采用標(biāo)準(zhǔn)卷積提取低維特征,用深度可分離卷積組合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并將全局平均池化直接輸入到softmax分類器,簡化了網(wǎng)絡(luò)的復(fù)雜度,從而有效降低了網(wǎng)絡(luò)的參數(shù)和計算量。
3) 引入SE模塊進行通道加權(quán),通過實驗選取最優(yōu)壓縮率設(shè)置方案,使得網(wǎng)絡(luò)模型提升特征表達能力,剔除無關(guān)的冗余特征,提高了網(wǎng)絡(luò)的魯棒性。
最后在FER2013、CK+、JAFFE和RAF-DB、AffectNet多個場景的數(shù)據(jù)集上進行對比實驗,均得到了較高的表情識別率,從而驗證了本文方法的有效性。但是本文也存在一定不足,為了進一步提高算法的可靠性,需進一步考慮影響人臉表情識別精確度的問題,如遮擋、人臉姿勢變換等,解決這些問題是后續(xù)工作的重點。