摘 要:針對(duì)人臉表情識(shí)別中存在的受到光照和姿勢的影響導(dǎo)致識(shí)別精度不高和深度學(xué)習(xí)模型參數(shù)量巨大的問題,文章提出一種基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)改進(jìn)模型。通過引入注意力機(jī)制模塊,使模型選擇性地關(guān)注目標(biāo)對(duì)象的局部重要信息,降低無關(guān)信息的干擾;同時(shí),利用較少神經(jīng)元數(shù)量與大卷積核的神經(jīng)網(wǎng)絡(luò),大幅減少了網(wǎng)絡(luò)參數(shù),該方法構(gòu)建了一種層次更淺、參數(shù)量更少的輕量卷積神經(jīng)網(wǎng)絡(luò)模型。在CK+人臉表情數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明,文章提出的方法在保證人臉識(shí)別精度的情況下,還大大減少了模型參數(shù),其準(zhǔn)確率可達(dá)到96.37%。
關(guān)鍵詞:人臉表情識(shí)別;注意力機(jī)制;卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí)
中圖分類號(hào):TP391.4 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2024)08-0102-05
DOI:10.19850/j.cnki.2096-4706.2024.08.023
0 引 言
表情是人類傳遞情感和表達(dá)情緒最明顯的特征,能夠很容易被機(jī)器所捕獲,當(dāng)機(jī)器能夠理解人類的表情時(shí),就能使人機(jī)交互更加智能和擬人。從20世紀(jì)起,心理學(xué)家們?cè)谇榫w分類方面就展開了討論。目前,較為廣泛認(rèn)同的是人們共存在六種基本表情:喜悅、生氣、害怕、憂郁、厭惡和震驚。隨著AI和傳感器技術(shù)不斷成熟和發(fā)展,人臉表情識(shí)別已經(jīng)成為情感計(jì)算的重要研究方向[1]。人臉表情識(shí)別是利用計(jì)算機(jī)提取圖像特征并對(duì)其進(jìn)行分類的技術(shù)。主要分為基于傳統(tǒng)地表情識(shí)別算法和基于深度學(xué)習(xí)的表情識(shí)別算法。深度學(xué)習(xí)方法比傳統(tǒng)學(xué)習(xí)方法更容易獲取數(shù)據(jù)特征[2]。面部表情識(shí)別系統(tǒng)可分為兩大類:靜態(tài)圖像識(shí)別、動(dòng)態(tài)視頻識(shí)別。靜態(tài)圖像的表情識(shí)別就是對(duì)一張人臉表情圖片識(shí)別,而動(dòng)態(tài)視頻要對(duì)序列圖像進(jìn)行識(shí)別,需要考慮時(shí)間和空間的聯(lián)系。隨著深度學(xué)習(xí)和計(jì)算機(jī)性能的發(fā)展和提升,許多網(wǎng)絡(luò)模型被用于表情識(shí)別,其識(shí)別效率有了顯著的提高。
文獻(xiàn)[3]在深度卷積神經(jīng)網(wǎng)絡(luò)中引入了混合注意力機(jī)制,使模型能夠提取出更具辨識(shí)度的特征表示,隨著網(wǎng)絡(luò)深度的增加注意力模塊性能將持續(xù)提升。文獻(xiàn)[4]提出了一種輕量型的人臉表情識(shí)別模型,在保證性能的同時(shí)參數(shù)量更少,實(shí)驗(yàn)結(jié)果證明只要設(shè)計(jì)合理的感受野,人臉表情特征就可以通過輕量型網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)。
目前識(shí)別準(zhǔn)確率較高的人臉表情識(shí)別模型參數(shù)量巨大,不便于移植到硬件設(shè)備上,并且訓(xùn)練代價(jià)較大。在真實(shí)環(huán)境中受到光照和人臉角度等的影響,為識(shí)別帶來了挑戰(zhàn)。本文提出了一種基于注意力機(jī)制和淺層卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)方法。改進(jìn)主要包括以下兩個(gè)方面:1)在網(wǎng)絡(luò)中引入注意力機(jī)制模塊使模型關(guān)注目標(biāo)對(duì)象的局部細(xì)節(jié)信息,降低無關(guān)信息干擾。2)使用大卷積核的神經(jīng)網(wǎng)絡(luò)增大感受野,減少全連接層神經(jīng)元數(shù)量,在保障識(shí)別準(zhǔn)確率的基礎(chǔ)上大幅減少網(wǎng)絡(luò)參數(shù)量。
本文首先介紹基于注意力機(jī)制的人臉表情識(shí)別改進(jìn)方法中的注意力機(jī)制,接著介紹基本的算法結(jié)構(gòu)與詳細(xì)的方法步驟,最后詳述本文方法的實(shí)驗(yàn)過程及其分析。本文方法使用公開數(shù)據(jù)集CK+數(shù)據(jù)集進(jìn)行模型訓(xùn)練以及實(shí)驗(yàn)測試,最后對(duì)本文方法做簡要評(píng)估總結(jié)。
1 注意力機(jī)制概述
注意力機(jī)制可以理解為:計(jì)算機(jī)視覺系統(tǒng)模型人類視覺中選擇性關(guān)注重點(diǎn)區(qū)域的特性。在計(jì)算能力有限的情況下,為了合理利用視覺信息處理資源,需要集中關(guān)注視覺區(qū)域的特定部分,將計(jì)算資源分配給更重要的任務(wù)。在計(jì)算機(jī)視覺任務(wù)中,如圖像分類、目標(biāo)檢測和圖像生成等,注意力機(jī)制被廣泛應(yīng)用。圖像中的注意力機(jī)制可以分為四個(gè)部分:1)第一個(gè)部分是序列決策下的注意力RAM [5],特點(diǎn)是使用循環(huán)神經(jīng)網(wǎng)絡(luò)產(chǎn)生注意力。2)第二部分是空間變換網(wǎng)絡(luò)[6](Spatial Transformer Networks, STN),其特點(diǎn)是明確預(yù)測和計(jì)算所有數(shù)據(jù)中的重要區(qū)域,相關(guān)的工作有DCNs [7,8]。3)第三部分是以壓縮和激勵(lì)網(wǎng)絡(luò)[9](Squeeze-and-Excitation Networks, SENet),該部分以通道注意力為核心,通過權(quán)重調(diào)整聚焦某些高信息量通道,相關(guān)的工作有CBAM [10]等。4)第四個(gè)部分既為基于自注意力機(jī)制相關(guān)的注意力通道與注意力模塊,相關(guān)的工作有Non-Local [11]、ViT [12]等。注意力機(jī)制可以與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合使用,以增強(qiáng)模型的性能。在卷積神經(jīng)網(wǎng)絡(luò)中,注意力機(jī)制可以應(yīng)用于不同的層級(jí),從低級(jí)特征到高級(jí)特征,以提取更具有區(qū)分性的特征。例如,在卷積層后添加注意力機(jī)制,以幫助模型聚焦于圖像中的重要區(qū)域。注意力機(jī)制的引入可以提高模型的感知能力和泛化能力,使模型更加靈活和準(zhǔn)確。它可以幫助模型更好地理解圖像中的上下文信息,并提取與任務(wù)相關(guān)的關(guān)鍵特征。
2 本文識(shí)別方法介紹
基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)人臉表情識(shí)別方法首先識(shí)別視頻流中的人臉,將抽幀、提取為數(shù)據(jù)集,獲取基礎(chǔ)圖像后,將人臉圖像歸一化為48×48像素。獲取收據(jù)后,將圖像直方圖歸一化,以減少光照和其他變量的影響。然后使用卷積方法配合注意力通道對(duì)圖像的各個(gè)層的邊緣進(jìn)行卷積計(jì)算。為了保持紋理圖像的邊緣結(jié)構(gòu)數(shù)據(jù),將提取的邊緣信息添加到每個(gè)特征圖像中。通過利用訓(xùn)練和測試數(shù)據(jù)來減小得到的隱式特征的大小,可以加快模型訓(xùn)練和測試速度。
在基于數(shù)字圖像的計(jì)算分析與處理中,研究者們提出了眾多算法來解決空間特征提取的問題,并配合圖像自身的數(shù)學(xué)特征,例如梯度信息來識(shí)別圖像。方向梯度直方圖(Histogram of Oriented Gradient, HOG),HOG屬于一種常見的數(shù)據(jù)分布二維表現(xiàn)形式,類似于柱狀圖,其列的高度各不相同,每一列代表一組數(shù)據(jù)在一定范圍內(nèi)的數(shù)值。數(shù)字圖像的邊緣的梯度或方向密度分布可以描述局部目標(biāo)區(qū)域的特征,HOG就是在此基礎(chǔ)上對(duì)梯度信息進(jìn)行統(tǒng)計(jì),生成最終的特征描述。具體流程圖如圖1所示。
其中數(shù)字圖像梯度的計(jì)算如下:
如果二元函數(shù)是連續(xù)的,則函數(shù)z = f (x,y)在平面D上具有連續(xù)的一階偏導(dǎo)數(shù)。那么,可以為每個(gè)點(diǎn)p (x,y) ? D確定一個(gè)向量:
(1)
這向量稱為函數(shù)z = f (xy)在點(diǎn)p (x,y)的梯度,記作:gradf(x,y)。
就實(shí)驗(yàn)中的圖像數(shù)據(jù),對(duì)其二維離散函數(shù)求梯度,如下:
(2)
其中,I (x,y)是圖像在點(diǎn)(x,y)處的像素值。
HOG算法的過程主要如下:
1)首先讀取彩色圖像并將其轉(zhuǎn)化為灰度圖像,對(duì)灰度圖像矩陣歸一化,目的是為了減少光照和背景等因素的影響。
2)選擇合適的梯度算子來計(jì)算梯度圖,主要分為x和y方向上的梯度,計(jì)算出合梯度的幅值和方向。
3)劃分檢測窗口成大小相同的單位圖像單元,組合相鄰的單位圖像單元成更大的相互重疊的塊,便于充分利用重疊的邊緣信息。
4)統(tǒng)計(jì)整個(gè)塊的直方圖;再對(duì)每個(gè)塊內(nèi)的梯度直方圖進(jìn)行歸一化處理,綜合所有塊的信息,對(duì)HOG特征描述符可視化。
計(jì)算機(jī)顯示的彩色圖像其實(shí)是由三原色紅、綠、藍(lán)按照不同的比例疊加構(gòu)成的。一張彩色圖像每個(gè)通道中的每個(gè)像素值都是在0~255范圍內(nèi)的數(shù)字,計(jì)算機(jī)對(duì)圖像進(jìn)行計(jì)算時(shí),就需要對(duì)三個(gè)通道都進(jìn)行操作,顏色信息對(duì)于人臉關(guān)鍵點(diǎn)的檢測并無太大貢獻(xiàn),因此利用Gamma歸一化處理將彩色圖像變成灰度圖像可以有效提升計(jì)算效率。
卷積神經(jīng)網(wǎng)絡(luò)中,感受野的大小往往取決于卷積核的大小。大卷積核能使神經(jīng)元擁有更大的感受野,感受更大范圍的特征信息。目前應(yīng)用范圍較廣的表情識(shí)別神經(jīng)網(wǎng)絡(luò)都是使用小感受野的卷積核,再堆疊多個(gè)神經(jīng)層實(shí)現(xiàn),導(dǎo)致神經(jīng)網(wǎng)絡(luò)較為復(fù)雜,參數(shù)量較大,若要進(jìn)行嵌入式設(shè)備的移植較為不便。但減小神經(jīng)網(wǎng)絡(luò)模型的深度會(huì)導(dǎo)致模型的感知能力降低,從而導(dǎo)致準(zhǔn)確率降低。
針對(duì)以上問題,在目前的卷積網(wǎng)絡(luò)模型基礎(chǔ)上引入注意力機(jī)制模塊和增大卷積核感受野并縮小網(wǎng)絡(luò)規(guī)模不僅可以增強(qiáng)模型的感知能力和泛化能力,還能有效減少模型參數(shù)量。將一個(gè)卷積層和一個(gè)注意力塊合并表示成一個(gè)注意力卷積塊,如圖2所示。將注意力機(jī)制層設(shè)置在每個(gè)卷積層后,再將通道注意力提取到的特征與卷積提取到的特征進(jìn)行融合,幫助模型更好地理解圖像中的上下文信息,因此只需堆疊2到3層注意力卷積塊就可以實(shí)現(xiàn)人臉表情的識(shí)別。
方法核心結(jié)構(gòu)在于Dropout層接收來自全連接層的輸出,然后是注意力卷積層和下面的全連接層。這種自動(dòng)學(xué)習(xí)大型數(shù)據(jù)集的潛在規(guī)則的方法,通過給每個(gè)收集到的特征提供更詳細(xì)的數(shù)據(jù)特征,極大地改善了分類結(jié)果。在將二維輸入圖像從計(jì)算機(jī)的初始檢測像素逐層轉(zhuǎn)換為人類大腦已知的事物和物體的邊緣、部分和輪廓后,神經(jīng)網(wǎng)絡(luò)模型對(duì)輸入圖像進(jìn)行計(jì)算識(shí)別從而提供分類判定。卷積、池化和連接層構(gòu)成了本文方法的三個(gè)關(guān)鍵部分。初始化層中有許多神經(jīng)元,由特征映射模塊或二維平面化模塊組成。
卷積C和最大池化S必須在CNN的整個(gè)特征提取過程中進(jìn)行切換。CNN有三個(gè)基本部分組成:局部視點(diǎn)、權(quán)重共享和下采樣。由于這些特性,該模型能夠產(chǎn)生特定的平移、旋轉(zhuǎn)和畸變不變性
其中的激活函數(shù)使用PReLU函數(shù),PReLU就是帶參數(shù)的ReLU,其定義為:
(3)
實(shí)驗(yàn)表明,使用注意力卷積模塊堆疊成神經(jīng)網(wǎng)絡(luò)模型對(duì)于特征學(xué)習(xí)的能力更強(qiáng),在參數(shù)量較小的情況下也能達(dá)到較高的識(shí)別準(zhǔn)確度。
3 實(shí)驗(yàn)與分析
3.1 參數(shù)設(shè)置
本文實(shí)驗(yàn)輸出的圖片尺寸為48×48,初始學(xué)習(xí)率為0.01,Batch Size為64,采用余弦退火策略更新學(xué)習(xí)率,總共訓(xùn)練100個(gè)epoch,就可以達(dá)到較高的準(zhǔn)確率。
3.2 數(shù)據(jù)集處理
本文采用人臉表情識(shí)別公開數(shù)據(jù)集CK+進(jìn)行實(shí)驗(yàn)。CK+數(shù)據(jù)集包含8種基本面部表情(憤怒、厭惡、恐懼、快樂、悲傷、驚訝、蔑視、自然笑)以及16種復(fù)合表情,在此文章中將人臉表情分成生氣(angry)、厭惡(disgust)、恐懼(fear)、高興(happy)、悲傷(sad)、驚訝(surprise)、蔑視(contempt)7類。本文測試8種基本面部表情。其中一共包含800個(gè)樣本。實(shí)驗(yàn)過程中,以7:1:2的比例劃分訓(xùn)練集、驗(yàn)證集和測試集。
在訓(xùn)練前首先進(jìn)行數(shù)據(jù)預(yù)處理,使用Opencv的人臉檢測器檢測出人臉位置并進(jìn)行裁剪,得到只包含人面部的表情圖像,降低其余背景信息的干擾,再使用Keras的ImageDataGenerator實(shí)現(xiàn)批量數(shù)據(jù)增強(qiáng),從而得到更豐富的訓(xùn)練數(shù)據(jù)。
3.3 對(duì)比實(shí)驗(yàn)
為了綜合評(píng)價(jià)模型的效果,本文選取了模型參數(shù)量Params(M)、測試集準(zhǔn)確率Accuracy(%)作為評(píng)價(jià)指標(biāo)。同時(shí)將本文算法與其他經(jīng)典的表情識(shí)別算法進(jìn)行對(duì)比,本文方法加入注意力機(jī)制,并采用大卷積核的神經(jīng)網(wǎng)絡(luò)使得參數(shù)量大大降低。實(shí)驗(yàn)結(jié)果表明本文提出的模型在準(zhǔn)確率和參數(shù)量上均表現(xiàn)較好,如表1所示,從準(zhǔn)確率角度,本文為96.37%,較前三者中最優(yōu)良的94.43%高出1.94%;從參數(shù)量的角度,本文提出的方法為6.62M,較之前三者中最小的11.7M降低了5.08M。綜上所述,本文提出的方法在準(zhǔn)確率與模型參數(shù)上都保持了優(yōu)良的性能。本文方法在驗(yàn)證集上準(zhǔn)確率及損失變化曲線如圖3所示。
圖4為本文方法在CK+數(shù)據(jù)集上的混淆矩陣。模型測試中,測試集的不均衡往往會(huì)導(dǎo)致識(shí)別準(zhǔn)確率的不穩(wěn)定,導(dǎo)致模型的識(shí)別效果下降,本文模型通過注意力機(jī)制,實(shí)現(xiàn)了輕量化的表情識(shí)別框架,同時(shí)對(duì)于不均衡的測試集,也能實(shí)現(xiàn)較優(yōu)的實(shí)驗(yàn)結(jié)果。
圖5為本文方法在測試集上的表情識(shí)別結(jié)果。隨機(jī)抽取8個(gè)表情圖片進(jìn)行測試,圖片上方顯示表情的真實(shí)類別,括號(hào)內(nèi)為模型預(yù)測的表情類別??梢钥闯鲈撦啘y試較為準(zhǔn)確地對(duì)表情進(jìn)行了識(shí)別,預(yù)測結(jié)果與真實(shí)表情標(biāo)簽一致。
4 結(jié) 論
針對(duì)多角度復(fù)雜背景下的面部表情識(shí)別度低、深度學(xué)習(xí)運(yùn)算損耗大等問題,本文提出了一種基于注意力機(jī)制的改進(jìn)算法。通過引入注意力機(jī)制模塊來應(yīng)對(duì)多角度復(fù)雜背景下的其他干擾,提高對(duì)于人臉表情識(shí)別中的局部特征關(guān)注度,提出一種更加輕量化的深度學(xué)習(xí)框架,利用更少的神經(jīng)元,結(jié)合更簡化的網(wǎng)絡(luò)層次在提高檢測效果的同時(shí)降低了計(jì)算冗余。本文所提改進(jìn)算法在降低參數(shù)量的同時(shí)準(zhǔn)確率可達(dá)到94.81%,同時(shí)對(duì)比于其他網(wǎng)絡(luò)結(jié)構(gòu),本文模型在同等體量下檢測精度更高,在同等精度下體量更小、檢測速度更快,對(duì)各種場景變化具有更好的魯棒性。
參考文獻(xiàn):
[1] 潘家輝,何志鵬,李自娜,等.多模態(tài)情緒識(shí)別研究綜述 [J].智能系統(tǒng)學(xué)報(bào),2020,15(4):633-645.
[2] FURKAN A,EKIN E,ZEYNEP G. Traditional Machine Learning Algorithms for Breast Cancer Image Classification with Optimized Deep Features [J].Biomedical Signal Processing and Control,2023,81:104534.
[3] WANG F,JIANG M Q,QIAN C,et al. Residual Attention Network for Image Classification [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:6450-6458.
[4] KUO C M,LAI S H,SARKIS M. A Compact Deep Learning Model for Robust Facial Expression Recognition [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops(CVPRW).Salt Lake City:IEEE,2018:2202-22028.
[5] MNIH V,HEESS N,GRAVES A. Recurrent Models of Visual Attention [J/OL].[2023-08-09].http://www.arxiv.org/pdf/1406.6247.pdf.
[6] JADERBERG M,SIMONYAN K,ZISSERMAN A,et al. Spatial transformer networks [J/OL].arXiv:1506.02025 [cs.CV].[2023-08-06].https://arxiv.org/abs/1506.02025v1.
[7] DAI J F,QI H Z,XIONG Y W,et al. Deformable convolutional networks [C]//2017 IEEE International Conference on Computer Vision (ICCV).Venice:IEEE,2017,764-773.
[8] ZHU X Z,HU H,LIN S,et al. Deformable Convnets V2: More Deformable, Better Results [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach:IEEE,2019:9300-9308.
[9] HU J,SHEN L,ALBANIE S,et al. Squeeze-and-Excitation Networks [J].EEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(8):2011-2023.
[10] WOO S,PARK J,LEE J Y,et al. CBAM: convolutional block attention module [J/OL].arXiv:1807.06521 [cs.CV].[2023-08-06].https://arxiv.org/abs/1807.06521.
[11] WANG X L,GIRSHICK R,GUPTA A,et al. Non-local Neural Networks [J/OL].arXiv:1711.07971 [cs.CV].[2023-08-06].https://arxiv.org/abs/1711.07971v3.
[12] DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale [J/OL].arXiv:2010.11929 [cs.CV].[2023-08-06].https://arxiv.org/abs/2010.11929v1.
作者簡介:徐夢陽(2002—),女,漢族,陜西西安人,本科在讀,研究方向:人臉表情識(shí)別。
收稿日期:2023-08-29
An Improved Method for Facial Expression Recognition Based on Attention Mechanism
XU Mengyang
(Xi'an Technological University, Xi'an 710021, China)
Abstract: Targeting the problems of poor recognition accuracy and a large number of Deep Learning model parameters due to light and posture influence in facial expression recognition, this paper proposes an improved Convolutional Neural Network model based on Attention Mechanism. Through the introduction of the Attention Mechanism module, the model selectively focuses on the locally important information of the target object and reduces the interference of irrelevant information, while using a neural network with fewer neurons and a large convolutional kernel, the parameters of the network are significantly decreased, and the method builds a lightweight Convolutional Neural Network model with a shallower hierarchy and fewer parameters. Experiments are conducted on the CK+facial expression dataset, and results show that the proposed method significantly reduces model parameters while ensuring facial recognition accuracy, with an accuracy rate of 96.37%.
Keywords: facial expression recognition; Attention Mechanism; Convolutional Neural Network; Deep Learning