為能更好地關(guān)注失能老人的情緒狀態(tài),采用VGG16作為表情識別的基礎(chǔ)模型,并在此基礎(chǔ)上進(jìn)行優(yōu)化改進(jìn).首先,在特征層上將激活函數(shù)改用SiLU函數(shù),并添加批歸一化層;然后,在分類層上采用自適應(yīng)平均池化處理圖像,同時利用卷積層實(shí)現(xiàn)全連接效果,避免參數(shù)過多和過擬合問題;最后,通過SENet通道注意力機(jī)制迭代式地融合相同通道數(shù)的卷積層,實(shí)現(xiàn)淺層與深層特征的交互,豐富人臉表情特征提取.實(shí)驗結(jié)果表明,在FER2013和CK+數(shù)據(jù)集上的識別準(zhǔn)確率分別達(dá)到72.50%和98.70%,與基礎(chǔ)方法對比分別提高8.20%和3.90%,實(shí)驗表明改進(jìn)的方法能夠提高表情識別率,具有一定的先進(jìn)性.
VGG16; 表情識別; 自適應(yīng)平均化; 通道注意力機(jī)制
TP391
A
0383-09
03.009
0 引言
隨著人口老齡化現(xiàn)象的日益嚴(yán)重,失能老人人口數(shù)量不斷增加,給家庭、社會和國家?guī)沓林氐慕?jīng)濟(jì)負(fù)擔(dān)和壓力.我國醫(yī)療資源相對緊缺,老年健康服務(wù)體系尚未完善,導(dǎo)致失能老人缺乏有效照護(hù)[1].在現(xiàn)實(shí)生活中,失能老人可能因為生活上的種種困難而面臨情感壓力,如生活自理的困難、與親友的疏遠(yuǎn)和社會孤立等.此外,認(rèn)知功能的下降也可能使他們難以充分表達(dá)自己的情感,進(jìn)一步加深了情感需求的復(fù)雜性.因此,了解失能老人的情感狀態(tài),提供個性化的照護(hù)、促進(jìn)其心理健康以及提高生活質(zhì)量具有重要意義[2].
近年來,人工智能和深度學(xué)習(xí)等技術(shù)的飛速發(fā)展為解決老人的情感需求帶來了新的可能.特別是在情感識別領(lǐng)域,通過利用計算機(jī)視覺和機(jī)器學(xué)習(xí),可以實(shí)現(xiàn)對失能老人表情的準(zhǔn)確識別,從而更好地理解他們的情感狀態(tài)[3].
早期的人臉表情識別研究主要采用傳統(tǒng)的圖像特征提取方法,如局部二值模式(local binary patterns, LBP)[4]、主成分分析(principal component analysis, PCA)等[5].這些方法在特征提取方面取得了一定的成果,但是由于其對光照、尺度、姿態(tài)等因素敏感,因此在實(shí)際應(yīng)用中效果較差.近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于CNN和RNN[6-7]的方法在人臉表情識別方面取得顯著進(jìn)展.Simonyan等[8]提出了VGGNet,通過堆疊多個3×3的卷積層和池化層來提高模型的深度,使得模型的表現(xiàn)在多個數(shù)據(jù)集上均得到了顯著提升.程換新等[9]針對人臉表情識別的復(fù)雜性、多樣性、遮擋、光照等方面的挑戰(zhàn),提出了一種新的端到端網(wǎng)路,并將注意力機(jī)制應(yīng)用于表情自動識別.薛志超等[10]提出了一種基于MobileNetV3多尺度特征融合的人臉表情識別,實(shí)驗表明該方法識別效果好,泛化能力強(qiáng).
由于傳統(tǒng)模型在特征提取、參數(shù)量和特征關(guān)聯(lián)性方面的限制,導(dǎo)致傳統(tǒng)模型在處理復(fù)雜數(shù)據(jù)、提取高級特征以及對大規(guī)模數(shù)據(jù)集進(jìn)行泛化時受限.對此,本文采用SiLU激活函數(shù)與批歸一化層增強(qiáng)特征表達(dá),利用自適應(yīng)平均池化與卷積層模擬全連接減少參數(shù)量,并引入SENet通道注意力機(jī)制增強(qiáng)特征關(guān)聯(lián)性.這些改進(jìn)有助于提高模型對表情特征的敏感性,降低過擬合風(fēng)險,并豐富了特征表達(dá),從而提升人臉表情識別的性能和泛化能力.改進(jìn)的方法在人臉表情數(shù)據(jù)集FER2013和CK+分別進(jìn)行實(shí)驗,實(shí)驗結(jié)果驗證了該方案的有效性.
1 傳統(tǒng)VGG16網(wǎng)絡(luò)模型
VGG16是牛津大學(xué)計算機(jī)視覺組(visual geometry group network, VGG)研發(fā)的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò),結(jié)構(gòu)優(yōu)美簡潔[11].整個網(wǎng)絡(luò)由13個卷積層和3個全連接層組成,總共16層.需要注意的是,文獻(xiàn)[11]中網(wǎng)絡(luò)結(jié)構(gòu)描述并未包括池化層,因為池化層不包含需要學(xué)習(xí)的參數(shù).即使池化層在網(wǎng)絡(luò)中具有重要作用,例如減少特征圖的維度和提取特征的位置不變性,但在網(wǎng)絡(luò)結(jié)構(gòu)中主要關(guān)注卷積層和全連接層的數(shù)量.VGG16網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.
2 VGG16模型改進(jìn)
盡管VGG16在許多方面表現(xiàn)出色,但也存在一些缺點(diǎn),例如:參數(shù)量過大、計算成本高、內(nèi)存占用較高、模型深度較深等.這會導(dǎo)致訓(xùn)練時間和過擬合風(fēng)險增加.對此,本文對VGG16模型進(jìn)行了以下改進(jìn).
2.1 特征層改進(jìn)
在特征層中,將ReLU激活函數(shù)替換成SiLU函數(shù),并且添加批歸一化(BN)層.
2.1.1SiLU激活函數(shù)
VGG16網(wǎng)絡(luò)中主要采用ReLU激活函數(shù),它通過對正數(shù)施加線性變換以及對負(fù)數(shù)輸出零的非線性變換,有助于解決梯度消失問題.但是,根據(jù)ReLU函數(shù)的性質(zhì)來看,當(dāng)輸入為負(fù)數(shù)時,ReLU的輸出為零,這樣會導(dǎo)致相應(yīng)的神經(jīng)元的梯度為零,使其喪失了學(xué)習(xí)能力.為了解決這一問題,本文引入SiLU函數(shù).
SiLU函數(shù)在一定程度上避免了梯度消失和神經(jīng)元失活等問題,可以使網(wǎng)絡(luò)更好地學(xué)習(xí)特征,提高分類性能,其數(shù)學(xué)表達(dá)式為
SiLU(x)=x1+e-x.
(1)
當(dāng)xgt;0時,SiLU函數(shù)將會逐漸放大x的值,當(dāng)xlt;0時,SiLU函數(shù)將會逐漸降低x的值,這樣可以有效抑制過擬合.
2.1.2 引入BN層
在卷積神經(jīng)網(wǎng)絡(luò)中,層與層之間的激活函數(shù)會使得數(shù)據(jù)分布發(fā)生變化,這可能導(dǎo)致某些數(shù)據(jù)落入激活函數(shù)的不敏感區(qū)間,隨著層數(shù)的增加,這些數(shù)據(jù)的有效信息逐漸丟失.為了解決這個問題,BN層被引入.這樣做有助于將數(shù)據(jù)分布在激活函數(shù)的敏感區(qū)域,提高梯度的穩(wěn)定性和神經(jīng)網(wǎng)絡(luò)的泛化能力,從而在一定程度上緩解梯度消失問題.
選取部分卷積層作為特征層,將改進(jìn)的部分添加到網(wǎng)絡(luò)結(jié)構(gòu)中,修改后的特征層結(jié)構(gòu)如圖2所示.
2.2 分類層改進(jìn)
在分類層上,采用自適應(yīng)平均池化處理圖像,同時利用卷積層實(shí)現(xiàn)全連接效果,避免了參數(shù)過多和過擬合問題.
2.2.1 自適應(yīng)平均化
在使用VGG16模型進(jìn)行圖像處理之前,必須將輸入圖像的尺寸調(diào)整為224×224×3,以滿足該模型的要求.在網(wǎng)絡(luò)的最后一層卷積層之后,為了將卷積輸出的任意尺寸轉(zhuǎn)換為固定長度的特征向量,引入自適應(yīng)平均池化.使用自適應(yīng)平均池化后的圖像變化如圖3所示.
2.2.2 卷積層實(shí)現(xiàn)全連接
在VGG16模型中,一般會包含全連接層用于將卷積層提取的特征映射轉(zhuǎn)換為分類或回歸輸出.然而,全連接層的參數(shù)量很大,容易導(dǎo)致過擬合.為了改進(jìn)模型并減少過擬合風(fēng)險,可以通過使用與特征圖大小相同的卷積核來替代全連接層.
具體實(shí)現(xiàn)方式是將全連接層替換為具有相同感受野(receptive field)的卷積層(如圖4所示).在VGG16中,第14層全連接層的輸入特征圖大小為7×7×512 ,如果將全連接層替換為7×7 的卷積核,那么它們的感受野就與全連接層相當(dāng),且每個神經(jīng)元與前一層的所有神經(jīng)元相連接.
2.3 添加SENet通道注意力機(jī)制
通過添加SENet(squeeze-and-excitation network)通道注意力機(jī)制迭代式地融合相同通道數(shù)的卷積層,實(shí)現(xiàn)淺層與深層特征的交互,豐富人臉表情特征提取.
SENet是一種卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)[12],其核心是SE模塊,旨在改善卷積神經(jīng)網(wǎng)絡(luò)中通道間信息的傳遞效率,因其在自適應(yīng)特征提取中的出色表現(xiàn)而備受關(guān)注.SENet模塊結(jié)構(gòu)如圖5所示.
由圖5可知,SENet模塊主要包含2個步驟,分別是Squeeze(壓縮)和Excitation(激勵).在壓縮操作中,SENet模塊對輸入的特征圖進(jìn)行全局信息壓縮.它通過全局平均池化操作將每個通道的特征圖降維為一個數(shù)值,其數(shù)學(xué)表達(dá)式為
Zc=Fsq(uc)=1H×W∑Hi=1∑Wj=1uc(i,j),
(2)
其中,Zc為輸出的特征圖,F(xiàn)sq為壓縮操作,uc為輸入的特征圖,H和W為特征圖的高和寬,i、j為特征圖上的位置.
在激勵操作中,首先,一個FC層(稱為壓縮層)將C維向量(全局平均池化后的結(jié)果)映射到更小的維度,通常遠(yuǎn)遠(yuǎn)小于輸入通道數(shù)的值,以進(jìn)行降維.然后,另一個FC層(稱為激勵層)將這個較小的向量映射回原始通道數(shù),生成一個與輸入通道數(shù)相同的權(quán)重向量,其數(shù)學(xué)表達(dá)式為
S=Fex(Z,W)=σ(W2δ(W1Zc)),
(3)
其中,S為通道間調(diào)整權(quán)重的參數(shù),F(xiàn)ex為激勵操作,σ為ReLU激活函數(shù),δ為Sigmoid激活函數(shù).
當(dāng)壓縮和激勵操作完成后,利用這個學(xué)習(xí)到的權(quán)重向量對原始特征圖進(jìn)行重新加權(quán),強(qiáng)化對重要特征的響應(yīng),抑制對不重要特征的響應(yīng),其數(shù)學(xué)表達(dá)式為
c=Fscale(uc,sn)=uc·sn,
(4)
其中,c為更新后輸出的特征圖,F(xiàn)scale為特征重標(biāo)操作,sn為第n個通道的權(quán)重.
將SENet模塊迭代式融合進(jìn)VGG16網(wǎng)絡(luò)中的相同通道數(shù)的卷積層,得到SE-VGG16結(jié)構(gòu),如圖6所示.圖6展示將SENet模塊嵌入到第2層卷積層之后的圖.圖6中,虛線框內(nèi)的結(jié)構(gòu)為SENet模塊,將該模塊嵌入到第2層卷積層和池化層之間,這樣就可以構(gòu)成部分SE-VGG16結(jié)構(gòu).然后以此類推,將SENet模塊分別嵌入第4、7、10、13層卷積層之后,這樣就構(gòu)成了完整的SE-VGG16結(jié)構(gòu).
2.4 改進(jìn)的VGG16模型
基于上述的改進(jìn)方法,改進(jìn)后的VGG16網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示.圖7中虛線方框內(nèi)的網(wǎng)絡(luò)結(jié)構(gòu)為第8、9、10層卷積層,由于第11、12、13層卷積層的網(wǎng)絡(luò)結(jié)構(gòu)與之相同,因此用×2表示.
3 實(shí)驗
實(shí)驗中分別使用FER2013表情數(shù)據(jù)集和CK+表情數(shù)據(jù)集進(jìn)行實(shí)驗,這2個數(shù)據(jù)集的使用較為廣泛,具有一定的參考價值.
3.1 實(shí)驗準(zhǔn)備
本文中所涉及的實(shí)驗使用的操作系統(tǒng)是Windows 11,實(shí)驗是基于深度學(xué)習(xí)框架Pytorch 2.0實(shí)現(xiàn),硬件平臺CPU是AMD R7-5800H,GPU是NVIDA GeForce GTX 3050.使用Focal Loss損失函數(shù)幫助網(wǎng)絡(luò)進(jìn)行訓(xùn)練,γ設(shè)為0.5,采用了SGD優(yōu)化器,學(xué)習(xí)效率設(shè)為0.005,實(shí)驗batch size設(shè)置為8,總共訓(xùn)練100輪.
3.2 數(shù)據(jù)集
FER2013共有35 886張人臉表情圖像,每張圖像的像素統(tǒng)一為48×48 .數(shù)據(jù)集中包含7類基本情緒(生氣、中性、驚訝、憤怒、恐懼、快樂和悲傷);圖8展示了FER2013數(shù)據(jù)集中的7中表情樣例圖像.
CK+數(shù)據(jù)集(the extended Cohn-Kanade)包含593張圖片,由123人在實(shí)驗室拍攝完成,是在Cohn-kanade數(shù)據(jù)集基礎(chǔ)上擴(kuò)展而來的.數(shù)據(jù)集里面共有7種表情(憤怒、厭惡、害怕、開心、悲傷、驚訝和中性).本文將474張圖像作為訓(xùn)練集圖像,119張圖像作為測試集圖像.圖9展示了CK+數(shù)據(jù)集中的7中表情樣例圖像.
3.3 實(shí)驗結(jié)果分析
為了驗證本文所提出的改進(jìn)的模型優(yōu)于原始的VGG16模型,本文分別對選用的FER2013和CK+數(shù)據(jù)集進(jìn)行驗證.訓(xùn)練和測試的準(zhǔn)確率曲線如圖10所示.
圖10(a)展示了原始模型在FER2013數(shù)據(jù)集上訓(xùn)練后得到的訓(xùn)練和測試的準(zhǔn)確率曲線圖,圖10(b)展示了改進(jìn)的模型在FER2013數(shù)據(jù)集上訓(xùn)練后得到的訓(xùn)練和測試的準(zhǔn)確率曲線圖.從圖10可以看出,改進(jìn)后的模型無論是訓(xùn)練集還是測試集的準(zhǔn)確率都得到了提高,其中測試集的準(zhǔn)確率由原來的64.30%提高到72.50%,準(zhǔn)確率提高8.20%.
圖11(a)展示了原始模型在CK+數(shù)據(jù)集上訓(xùn)練后得到的訓(xùn)練和測試的準(zhǔn)確率曲線圖,圖11(b)展示了改進(jìn)的模型在CK+數(shù)據(jù)集上訓(xùn)練后得到的訓(xùn)練和測試的準(zhǔn)確率曲線圖.從圖11中可以看出改進(jìn)后的模型整體準(zhǔn)確率都得到了提高,其中測試集的準(zhǔn)確率由原來的94.80%提高到了98.70%,準(zhǔn)確率提高了3.90%.
圖12(a)為原始模型在FER2013數(shù)據(jù)集上的混淆矩陣,圖12(b)為改進(jìn)后的模型在FER2013數(shù)據(jù)集上的混淆矩陣.表情識別的混淆矩陣的每一列代表了預(yù)測表情類別,每一行代表了數(shù)據(jù)的真實(shí)表情類別,矩陣中的每個數(shù)字表示這個數(shù)字橫坐標(biāo)對應(yīng)的真實(shí)表情被預(yù)測為縱坐標(biāo)對應(yīng)表情的概率.
如圖12(a)中的第1行的0.54表示真實(shí)的生氣表情在測試過程中被準(zhǔn)確識別為生氣的概率為54%,而第1行第5列的0.07表示真實(shí)的生氣這種表情有7%的概率被識別為中性.
圖12(b)中,中性的識別率92%,生氣的識別率為61%,導(dǎo)致這樣的原因是數(shù)據(jù)集中不同類別的樣本數(shù)量存在不平衡.模型傾向于對訓(xùn)練樣本數(shù)量更多的類別進(jìn)行更好的分類,而對樣本數(shù)量較少的類別表現(xiàn)欠佳.
通過圖12可以看出,改進(jìn)的模型的整體準(zhǔn)確率要高于原始模型的整體準(zhǔn)確率.
圖13(a)為原始模型在CK數(shù)據(jù)集上的混淆矩陣,圖13(b)為改進(jìn)后的模型在CK+數(shù)據(jù)集上的混淆矩陣.從圖13可以看出,改進(jìn)后的模型識別率高于原始模型的識別率.
為了進(jìn)一步驗證本文改進(jìn)的VGG16模型的性能,選取部分算法模型與改進(jìn)的方法進(jìn)行對比,對比結(jié)果如表1和表2所示.
表1將本文改進(jìn)的模型與其他算法在FER2013數(shù)據(jù)集上的測試準(zhǔn)確率進(jìn)行比較,可以看出本文改進(jìn)的算法優(yōu)于這些算法.
表2將本文改進(jìn)的算法與其他算法在CK+數(shù)據(jù)集上的測試準(zhǔn)確率進(jìn)行比較,可以看出本文改進(jìn)的算法模型優(yōu)于其他網(wǎng)絡(luò)模型,在表情識別上具有一定優(yōu)勢.
3.4 實(shí)時識別實(shí)驗結(jié)果
為了測試模型在現(xiàn)實(shí)場景中的應(yīng)用,本文在實(shí)際應(yīng)用中使用攝像頭對人臉表情進(jìn)行實(shí)時識別,并將測試數(shù)據(jù)記錄下來.
圖14和圖15是表情實(shí)時識別效果圖,本文記錄了快樂和憤怒 2種表情.圖14顯示快樂的實(shí)時識別率是99%;圖15顯示憤怒的實(shí)時識別率是82%.通過顯示的結(jié)果可得出本文改進(jìn)的算法模型在實(shí)際應(yīng)用中可以表現(xiàn)出很好的效果.
4 結(jié)論
本文針對失能老人表情識別問題提出了一種改進(jìn)的VGG16網(wǎng)絡(luò).在特征層方面,采用SiLU激活函數(shù)和引入BN層,以助于提高模型的非線性表示能力和訓(xùn)練穩(wěn)定性.在分類層方面,采用了自適應(yīng)平均化技術(shù)來提升模型的泛化能力,同時通過將卷積層實(shí)現(xiàn)全連接的方式減少參數(shù)數(shù)量和模型復(fù)雜度.此外,引入SENet通道注意力機(jī)制以更好地幫助模型學(xué)習(xí)重要特征并提升對關(guān)鍵信息的關(guān)注度.
本文將改進(jìn)的模型分別在FER2013和CK+數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試,模型的準(zhǔn)確度分別達(dá)到了72.50%和98.70%,且本文的方法與近年部分算法進(jìn)行對比分析也存在一定優(yōu)勢.同時,使用攝像頭進(jìn)行實(shí)時識別時也有較好的識別效果.
本文在進(jìn)行實(shí)時識別測試時,使用的是年輕人作為測試對象,在后續(xù)工作中,本文將會針對老年人進(jìn)行測試,以保證工作的適用性.
參考文獻(xiàn)
[1]李欽云,宋岳濤. 老年長期照護(hù)的國內(nèi)外現(xiàn)狀和展望[J]. 實(shí)用老年醫(yī)學(xué),2023,37(1):83-86.
[2] 陳微,祁鄭晴,李雪,等. 失能老人居家護(hù)理需求的研究進(jìn)展[J]. 當(dāng)代護(hù)士(中旬刊),2022,29(11):1-5.
[3] 洪惠群,沈貴萍,黃風(fēng)華. 表情識別技術(shù)綜述[J]. 計算機(jī)科學(xué)與探索,2022,16(8):1764-1778.
[4] 趙棟杰. 改進(jìn)的LBP算子和稀疏表達(dá)分類在人臉表情識別上的應(yīng)用[J]. 電子設(shè)計工程,2016,24(20):174-177.
[5] 廖延娜,馬超. 基于稀疏表示的人臉識別系統(tǒng)設(shè)計與實(shí)現(xiàn)[J]. 電子設(shè)計工程,2016,24(17):153-155.
[6] 劉錦峰,黃江峰. 基于深度學(xué)習(xí)的面部表情識別研究[J]. 現(xiàn)代信息科技,2022,6(1):86-88.
[7] 劉書朋,陳志強(qiáng),陳娜,等. 一組基于Tensorflow的CNN-RNN的融合架構(gòu)實(shí)驗[J]. 工業(yè)控制計算機(jī),2019,32(8):66-68.
[8] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2015-04-10)[2023-11-29]. https://arxiv.org/pdf/1409.1556.pdf.
[9] 程換新,成凱,蔣澤芹. 基于注意力機(jī)制的CNN人臉表情識別[J]. 電子測量技術(shù),2021,44(10):128-132.
[10]薛志超,伊力哈木·亞爾買買提,閆天星. 基于MobileNetV3多尺度特征融合的人臉表情識別[J]. 電子測量技術(shù),2023,46(8):38-44.
[11] 蔡靖,杜佳辰,王慶,等. 基于VGG16網(wǎng)絡(luò)的人臉情緒識別[J]. 電子技術(shù)應(yīng)用,2022,48(1):67-70.
[12] HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(8):2011-2023.
[13]MINAEE S, MINAEI M, ABDOLRASHIDI A. Deep-emotion: facial expression recognition using attentional convolutional network[J]. Sensors,2021,21(9):3046.
[14]PRAMERDORFER C, KAMPEL M. Facial expression recognition using convolutional neural networks: state of the art[EB/OL]. (2016-12-09)[2023-11-29]. http://arxiv.org/abs/1612.02903.pdf.
[15]VULPE-GRIGORA I A, GRIGORE O. Convolutional neural network hyperparameters optimization for facial emotion recognition[C]//2021 12th International Symposium on Advanced Topics in Electrical Engineering. Bucharest: IEEE,2021:1-5.
[16] 羅思詩,李茂軍,陳滿. 多尺度融合注意力機(jī)制的人臉表情識別網(wǎng)絡(luò)[J]. 計算機(jī)工程與應(yīng)用,2023,59(1):199-206.
[17] 郭昕剛,沈紫琪,王曉林. 改進(jìn)VGG網(wǎng)絡(luò)的人臉表情識別[J]. 長春工業(yè)大學(xué)學(xué)報,2023,44(1):52-57.
[18] POURMIRZAEI M, MONTAZER G A, ESMAILI F. Using self-supervised auxiliary tasks to improve fine-grained facial representation[EB/OL]. (2022-08-08)[2023-11-29]. https://arxiv.org/ftp/arxiv/papers/2105/2105.06421.pdf.
Research on Expression Recognition of Disabled Elderly People Based on Improved VGG16 Network
HE Wei, LI Su
(School of Physics and Electronic Engineering, Sichuan Normal University, Chengdu 610101, Sichuan)
In order to better monitor the emotional state of elderly individuals with disabilities, this article employs VGG16 as the foundational model for emotion recognition and makes improvements upon it. Firstly, the activation function is replaced with the SiLU function and batch normalization layers are added at the feature-extraction level. Secondly, adaptive average pooling is utilized in the classification layer to process images, while convolutional layers are used to achieve fully connected effects, thereby avoiding issues related to excessive parameters and overfitting. Lastly, through the attention mechanism of the SENet channel, convolutional layers with the same number of channels are iteratively fused to enable interaction between shallow and deep features, enriching the feature extraction of the facial expression. The experimental results indicate that the recognition accuracy on the FER2013 and CK+ datasets reached 72.50% and 98.70%, respectively, which represents an improvement of 8.20% and 3.90% compared to the baseline method. These findings demonstrate that the improved method can enhance emotion-recognition rates and possesses certain advancements.
VGG16 model; expression recognition; adaptive averaging; channel attention mechanism
(編輯 鄭月蓉)