摘" 要:為了提高非約束環(huán)境下的人臉表情識別效果,研究并設(shè)計了一種嵌入注意力機制的兩階段特征融合表情識別深度卷積神經(jīng)網(wǎng)絡(luò)框架。該網(wǎng)絡(luò)框架設(shè)計和引入了多個注意力模塊,旨在精準提取圖像局部位置的表情特征信息。同時,通過構(gòu)建密集連接殘差塊,有效提升了特征提取的質(zhì)量并增強了網(wǎng)絡(luò)的穩(wěn)定性。在此基礎(chǔ)上,將局部特征與多尺度模塊提取的全局特征進行融合,從而獲得更具判別力的表情特征。實驗結(jié)果顯示,所提方法在RAF-DB數(shù)據(jù)集上表現(xiàn)出較好的表情識別性能。
關(guān)鍵詞:表情識別;注意力機制;局部特征;特征融合
中圖分類號:TP391.4 文獻標識碼:A 文章編號:2096-4706(2025)04-0043-05
Expression Recognition Method Based on Attention Mechanism and
Feature Fusion
JIANG Tao, LI Chuzhen
(School of Information Technology, Guangdong Technology College, Zhaoqing" 526100, China)
Abstract: In order to improve the performance of facial expression recognition in unconstrained environments, a two-stage feature fusion expression recognition deep Convolutional Neural Network framework with embedded Attention Mechanism is studied and designed. This network framework designs and introduces multiple attention modules aimed at accurately extracting expression feature information of local image positions. Meanwhile, by constructing densely connected residual blocks, the quality of feature extraction is effectively improved and the stability of the network is enhanced. On this basis, the local features are fused with the global features extracted by the multi-scale module to obtain more discriminative expression features. The experimental results show that the proposed method exhibits good expression recognition performance on the RAF-DB dataset.
Keywords: expression recognition; Attention Mechanism; local feature; feature fusion
0" 引" 言
表情是人類傳達情感最有力和最自然的信號之一,在交流中扮演著重要的角色[1]。面部表情識別(Facial Expression Recognition, FER)因其在多個領(lǐng)域的廣泛應(yīng)用,正成為計算機視覺領(lǐng)域備受關(guān)注的研究課題。無論是在人機交互[2]、駕駛員疲勞監(jiān)測[3],還是在智能教育和醫(yī)療診斷中[4],F(xiàn)ER都展現(xiàn)出重要價值,使其成為學(xué)術(shù)界和工業(yè)界共同關(guān)注的焦點。FER旨在將圖像或視頻片段分類為幾種基本情緒之一,即中性、快樂、悲傷、驚訝、恐懼、厭惡、憤怒,甚至更多[5]。這就需要去建立表情圖像與表情類別之間的映射關(guān)系,然后計算機根據(jù)這種映射關(guān)系自動確定面部表情。
近年來,深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)在計算機視覺領(lǐng)域大放異彩,其最大的優(yōu)勢之一在于能從海量的原始數(shù)據(jù)中,智能地提取出有價值的特征,擁有出色的自適應(yīng)學(xué)習(xí)特性。與傳統(tǒng)的手工特征相比,DCNN在揭示高層語義和挖掘數(shù)據(jù)本質(zhì)方面顯得更為出色[6]。然而,面部表情識別任務(wù)的復(fù)雜性高于其他圖像識別任務(wù),因為它要求對面部特征進行細致的刻畫,以實現(xiàn)更高的識別精度。在應(yīng)用DCNN進行面部表情識別時,可能會因為對面部關(guān)鍵部位如眼部和嘴部的特征關(guān)注不夠,而導(dǎo)致部分有效特征信息的丟失,這種不足可能會影響識別的準確性[7]。由此,為了提升識別性能,需要不斷探索如何更好地提取面部關(guān)鍵區(qū)域的局部特征,以確保在處理復(fù)雜表情時,能夠充分捕捉和利用這些細節(jié)特征,從而提高整體識別的精確度和可靠性。因此,本文提出了一種基于注意力機制和特征融合的人臉表情識別算法,該算法旨在融合全局特征和局部特征,提升模型的特征提取能力,并增強對不同表情的辨識能力。本文所提算法將注意力模塊、多尺度模塊、密集連接殘差塊嵌入到FER的DCNN架構(gòu)中。采用不同特征提取分支對面部局部特征、全局特征分別進行提取,并通過兩階段融合方法來提高整體性能。
1" 網(wǎng)絡(luò)結(jié)構(gòu)
1.1" 網(wǎng)絡(luò)整體結(jié)構(gòu)
本文提出的基于注意力機制局部與全局特征融合的表情識別網(wǎng)絡(luò)整體結(jié)構(gòu)如圖1所示。首先由ResNet-18的前三個卷積層模塊組成特征提取網(wǎng)絡(luò)來獲取輸入圖片的淺層表情特征圖,接著將得到的表情特征圖采用一個三分支網(wǎng)絡(luò)進行處理,分別進入通道注意力模塊,空間注意力模塊以及多尺度模塊。通道注意力模塊以及空間注意力模塊所提取的局部特征,再由注意力嵌入模塊做特征增強后進行第一階段的特征融合,再將融合后的局部特征與多尺度模塊提取的全局特征進行第二階段的特征融合,以形成全面豐富的特征表示。最后將特征融合結(jié)果送到ResNet-18的最后一個卷積模塊得到輸出特征,再通過全連接層以及Softmax函數(shù)進而得到表情辨別的結(jié)果。在本文提出表情識別網(wǎng)絡(luò)中,嵌入了數(shù)個注意力機制模塊來提升模型的聚焦能力,并嵌入密集連接殘差塊來提高特征提取的質(zhì)量和增加網(wǎng)絡(luò)的穩(wěn)定性,現(xiàn)對各個模塊的結(jié)構(gòu)設(shè)計進行說明。
1.2" 通道注意力模塊
通道注意力模塊結(jié)構(gòu)如圖2所示,通過使用全局平均池化(Global Average Pool)以及Reshape操作進行特征轉(zhuǎn)換,將特征圖大小變成C×1×1。接著引入了兩個全連接(Fully Connected, FC)層,用于學(xué)習(xí)通道間的關(guān)系,得到一個與輸入通道數(shù)相同的權(quán)重向量。這個權(quán)重向量可以被看作是每個通道的注意力權(quán)重。最后把注意力權(quán)重和特征圖相乘,生成針對通道增強后的特征圖。這種自適應(yīng)的通道權(quán)重調(diào)整可以加強有用的特征,抑制無用特征,使網(wǎng)絡(luò)更好地聚焦于重要的特征信息。
1.3" 空間注意力模塊
空間注意力模塊結(jié)構(gòu)如圖3所示,通過使用最大池化(Maxpool)以及平均池化(Average Pool)將特征圖變成H×W×1的大小。緊接著將兩特征圖進行特征融合,經(jīng)過一個大小1×1的卷積,再使用Sigmoid激活函數(shù)產(chǎn)生出注意力權(quán)重。最后,將注意力的權(quán)重與特征圖相乘,生成針對空間增強后的特征。
1.4" 多尺度模塊
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)存在卷積核單一、只能獲取某種固定尺度的特征的缺點,鑒于此,本文在表情識別模型中設(shè)計了多尺度模塊,利用多分支卷積提取多尺度特征,增強網(wǎng)絡(luò)的全局特征提取能力。本文設(shè)計的多尺度模塊如圖4所示,基于Inception結(jié)構(gòu)[8]思想,通過使用1×1的卷積層對通道數(shù)做變換,然后再通過不同大小的卷積核并行卷積和池化,提取多尺度特征,最后將得到的不同尺度特征在通道維度進行合并,形成一個具有豐富特征表示的輸出。
1.5" 注意力嵌入模塊
注意力嵌入模塊(Attention Embedding Module, AEM)結(jié)構(gòu)如圖5所示。在AEM中,通過將高階的特征與低階的特征相乘,補足模型在卷積中可能丟失的特征信息,使得模型訓(xùn)練出的信息能夠更加豐富。AEM運行的流程表達如下:
(1)
(2)
其中Fl是來自第3個卷積層的特征,X是來自密集連接殘差塊(Residual in Residual Dense Block, RRDB)的輸入特征,GAP是全局平均池層,R表示Reshape層,DReLU是具有ReLU激活函數(shù)的Dense層,DSigmoid是具有Sigmoid激發(fā)函數(shù)的Dense層。
1.6" 密集連接殘差塊
為了更有效地提取豐富的表情特征并穩(wěn)定網(wǎng)絡(luò)訓(xùn)練過程,模型中嵌入了密集連接殘差塊(Residual in Residual Dense Block, RRDB),如圖6所示,RRDB模塊由三個Dense Block構(gòu)成,每個Dense Block內(nèi)部包含四組卷積層,每組均配以Leaky ReLU激活函數(shù),并使用3×3的卷積核。每組卷積層包含32個卷積核,通過密集連接方式實現(xiàn)特征的有效復(fù)用,最后,模塊通過一個3×3的卷積層進行特征整合。為了增強模型的穩(wěn)定性,設(shè)計了一種機制,即在每個Dense Block的輸出端,都會應(yīng)用一個介于0和1之間的系數(shù)來進行殘差縮放。這種設(shè)計思想源自密集連接策略和多級殘差網(wǎng)絡(luò),RRDB模塊通過在卷積層之間建立跳躍連接,充分利用每一層卷積特征。連接的構(gòu)建不僅能夠增強特征保留的完整性,還能確保信息在最小化噪聲干擾的情況下高效流動。跳躍連接方式加強了特征間的傳播,也在模塊內(nèi)部實現(xiàn)了信息的深層交互,使每一層信息都能參與到整體學(xué)習(xí)中,進而提高網(wǎng)絡(luò)的表現(xiàn)力和泛化能力。這樣的設(shè)計策略除了能穩(wěn)定模型訓(xùn)練還能提升網(wǎng)絡(luò)整體的訓(xùn)練速度以及最大限度地保留圖像特征的同時,增進網(wǎng)絡(luò)的深度。
2" 實驗與分析
2.1" 數(shù)據(jù)集
為了驗證所提方法的有效性,本文在人臉表情數(shù)據(jù)集RAF-DB[9](Real-world Affective Faces DataBase)上進行了實驗。RAF-DB是一個大規(guī)模的真實世界非約束環(huán)境下的面部表情數(shù)據(jù)集,廣泛應(yīng)用于表情識別、情感計算、人機交互等領(lǐng)域的研究[6],同時因為圖像來自真實的場景,反映了現(xiàn)實生活中的復(fù)雜情感表達,比實驗室環(huán)境下拍攝的標準化數(shù)據(jù)更具有挑戰(zhàn)性,其中包含大約3萬張多樣的臉部圖片,基于眾包標注,每張圖片已由約40位標記者獨立標記。RAF-DB包含了七種基本表情類別,分別是憤怒(Angry)、厭惡(Disgust)、恐懼(Fear)、高興(Happy)、傷心(Sad)、驚訝(Surprise)和中性(Neutral),涵蓋了人類情感表達的主要類型[10]。本文共使用15 339張被標注為不同表情類別的面部表情圖像,其中用于訓(xùn)練的有12 271張,用于測試的有3 068張。
2.2" 實驗結(jié)果與分析
實驗使用Python語言和PyTorch深度學(xué)習(xí)框架,采用AutoDL服務(wù)器平臺進行實驗,實驗環(huán)境為Liux操作系統(tǒng),基礎(chǔ)鏡像為PyTorch 1.10.0,Python 3.8,Cuda版本為11.3,GPU RTX 4090 (24 GB),Xeon(R)Platinum 8362處理器。
在數(shù)據(jù)集上進行網(wǎng)絡(luò)訓(xùn)練時,優(yōu)化器采用隨機梯度下降SGD優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.01,將經(jīng)過數(shù)據(jù)預(yù)處理的數(shù)據(jù)注入模型,每次按照批數(shù)量(batch size)64進行訓(xùn)練,訓(xùn)練一共迭代400次,動量設(shè)為0.9,權(quán)值衰減設(shè)為0.000 1,激活函數(shù)采用ReLU函數(shù)。
圖7為模型在RAF-DB數(shù)據(jù)集上的混淆矩陣,它的每一行代表了數(shù)據(jù)的真實歸屬類別,每一列代表了分類器預(yù)測得到的類別。
由圖7可見,“高興”表情的識別準確率最高,達到了96%,其次是“悲傷”,準確率為91%,“驚訝”“中立”和“憤怒”的識別準確率也均超過了80%。相比之下,“恐懼”和“厭惡”這兩種表情,由于外觀變化不明顯,識別率分別為64%和69%,且容易混淆,這可能與它們同屬于消極表情類別,之間的表情相似性有關(guān),基礎(chǔ)網(wǎng)絡(luò)對這兩類表情的初始識別精度也較低。除此之外,其他表情類別被誤識別的情況對比基礎(chǔ)網(wǎng)絡(luò)有明顯改善,通過本方法,在充分提取局部特征的同時融合全局特征,使圖像特征能最大限度得到利用,提高了表情識別準確率。
2.3" 消融實驗
為了驗證本文方法中三分支兩階段全局-局部特征融合表情識別模型的有效性,本節(jié)在RAF-DB數(shù)據(jù)集上,對模型進行了消融研究,探索基礎(chǔ)網(wǎng)絡(luò)和模塊的不同組合,以驗證和分析各個模塊對識別結(jié)果的影響。結(jié)果如表1所示,在RAF-DB數(shù)據(jù)集上,采用ResNet-18作為基礎(chǔ)網(wǎng)絡(luò),不添加任何模塊時的準確度數(shù)據(jù)為84.71%;當僅使用第1個分支進行實驗時,可以得到86.61%的效果;當僅使用第2個分支進行實驗時可以達到86.23%;當僅執(zhí)行第3個分支時可以達到87.1%;另外,也對第1、2分支和第1、3分支以及第2、3分支組合進行實驗,分別的結(jié)果為87.27%,88.94%以及88.61%,本文所提出的完整模型(3個分支,2階段融合)的識別率達到了89.31%,表現(xiàn)最佳。
3" 結(jié)" 論
本文針對傳統(tǒng)DCNN主要關(guān)注整體圖像特征提取而忽視局部細節(jié)的問題,提出了一種創(chuàng)新的網(wǎng)絡(luò)模型,此模型將局部與全局特征分兩個階段進行融合。在全局特征提取方面,模型采用多尺度模塊,能夠捕獲不同尺度的全局信息;另一方面,引入三重注意力模塊,提取關(guān)鍵區(qū)域的局部特征,同時嵌入密集連接殘差塊,通過殘差塊的跨連傳遞不同層次的表情特征,在確保信息完整性的同時防止網(wǎng)絡(luò)退化。實驗結(jié)果表明本文所設(shè)計方法,在表情識別任務(wù)中表現(xiàn)出了較好的性能。
參考文獻:
[1] 蔣斌,鐘瑞,張秋聞,等.采用深度學(xué)習(xí)方法的非正面表情識別綜述 [J].計算機工程與應(yīng)用,2021,57(8):48-61.
[2] BARENTINE C,MCNAY A,PFAFFENBICHLER R,et al. A VR Teleoperation Suite with Manipulation Assist [C]//Companion of the 2021 ACM/IEEE International Conference on Human-robot Interaction.Boulder:ACM,2021:442-446.
[3] VERMA B,CHOUDHARY A. A Framework for Driver Emotion Recognition Using Deep Learning and Grassmann Manifolds [C]//2018 21st International Conference on Intelligent Transportation Systems(ITSC).Maui:IEEE,2018:1421-1426.
[4] LI T H,DU C F,NAREN T Y,et al. Using Feature Points and Angles between them to Recognize Facial Expression by a Neural Network Approach [J].IET Image Processing,2018,12(11):1951-1955.
[5] 蔣斌,崔曉梅,江宏彬,等.輕量級網(wǎng)絡(luò)在人臉表情識別上的新進展 [J].計算機應(yīng)用研究,2024,41 (3):663-670.
[6] JIANG M,YIN S L. Facial Expression Recognition Based on Convolutional Block Attention Module and Multi-feature Fusion [J].International Journal of Computational Vision and Robotics,2023,13(1):21-37.
[7] WANG K,PENG X J,YANG J F,et al. Region Attention Networks for Pose and Occlusion Robust Facial Expression Recognition [J].IEEE Transactions on Image Processing,2020,29:4057-4069.
[8] SZEGEDY C,LIU W,JIA Y Q,et al. Going Deeper with Convolutions [J/OL].arXiv:1409.4842 [cs.CV].(2014-09-17).https://arxiv.org/abs/1409.4842.
[9] LI S,DENG W H,DU J P. Reliable Crowdsourcing and Deep Locality-preserving Learning for Expression Recognition in the Wild [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:2584-2593.
[10] TENG J N,ZHANG D,ZOU W,et al. Typical Facial Expression Network Using a Facial Feature Decoupler and Spatial-temporal Learning [J].IEEE Transactions on Affective Computing,2023,14(2):1125-1137 :1125-1137.
作者簡介:江濤(1983.10—),男,漢族,江西安福人,副教授,碩士,研究方向:深度學(xué)習(xí)、計算機視覺;李楚貞(1989.10—),女,漢族,廣東潮州人,副教授,碩士,研究方向:深度學(xué)習(xí)。
收稿日期:2024-08-29
基金項目:廣東理工學(xué)院創(chuàng)新強校工程科研項目(2022GKJZK004);廣東理工學(xué)院人工智能重點學(xué)科項目(2024KDZK001);廣東理工學(xué)院實驗教學(xué)示范中心項目(SFZX202402)