摘 要:表情是人與人進(jìn)行情緒交流的主要媒介,人臉表情識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)研究熱點(diǎn),在眾多領(lǐng)域中應(yīng)用廣泛。目前,主流的人臉表情識(shí)別技術(shù)主要基于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),但其網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,參數(shù)量和計(jì)算量龐大。輕量級(jí)神經(jīng)網(wǎng)絡(luò)通過引入深度可分離卷積技術(shù),在不影響或輕微降低識(shí)別準(zhǔn)確率的前提下,能夠大幅度縮減模型的參數(shù)量和計(jì)算復(fù)雜度。在輕量級(jí)神經(jīng)網(wǎng)絡(luò)的人臉表情識(shí)別研究中,通過構(gòu)建MobileNet和mini_Xception兩種輕量級(jí)神經(jīng)網(wǎng)絡(luò)模型,以傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)VGG16為比較基準(zhǔn),分別在FER2013和CK+兩個(gè)數(shù)據(jù)集上展開人臉表情識(shí)別實(shí)驗(yàn)。在FER2013數(shù)據(jù)集上,兩個(gè)輕量級(jí)模型準(zhǔn)確率下降了1.39個(gè)百分點(diǎn)和6.10個(gè)百分點(diǎn),參數(shù)量卻僅為VGG16的8.11%和0.15%。同樣,在CK+數(shù)據(jù)集上,模型準(zhǔn)確率分別下降了2.53個(gè)百分點(diǎn)和2.02個(gè)百分點(diǎn),參數(shù)量分別是VGG16的9.6%和0.17%。實(shí)驗(yàn)結(jié)果證明了輕量級(jí)神經(jīng)網(wǎng)絡(luò)模型MobileNet和mini_Xception在人臉表情識(shí)別任務(wù)中的優(yōu)越性。
關(guān)鍵詞:人臉表情識(shí)別;輕量級(jí)神經(jīng)網(wǎng)絡(luò)模型;深度可分離卷積;MobileNet;mini_Xception;VGG16
中圖分類號(hào):TP391.4 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2024)08-00-04
DOI:10.16667/j.issn.2095-1302.2024.08.011
0 引 言
近年來,隨著深度學(xué)習(xí)與人機(jī)交互技術(shù)的蓬勃發(fā)展,人臉檢測、對齊、識(shí)別技術(shù)的不斷更新,人臉表情自動(dòng)識(shí)別由于其潛在的社交媒體分析和情感計(jì)算能力而成為了計(jì)算機(jī)視覺領(lǐng)域的一個(gè)熱點(diǎn)研究話題[1],并在眾多商業(yè)領(lǐng)域中有著巨大的應(yīng)用前景。尤其是用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的人臉表情識(shí)別技術(shù),在計(jì)算機(jī)視覺領(lǐng)域展現(xiàn)出了良好的性能。
自2012年AlexNet[2]問世之后,卷積神經(jīng)網(wǎng)絡(luò)得到了迅速發(fā)展,其在目標(biāo)檢測、圖像識(shí)別、自然語言處理等領(lǐng)域被廣泛應(yīng)用。由于網(wǎng)絡(luò)模型越深,其性能往往越好,因此為了應(yīng)對更加復(fù)雜的任務(wù),研究者們在此基礎(chǔ)上又提出了一些深層網(wǎng)絡(luò)模型,例如VGGNet[3]、ResNet[4]以及DenseNet[5]。雖然這些網(wǎng)絡(luò)面對復(fù)雜的任務(wù)有著較高的準(zhǔn)確率,但其網(wǎng)絡(luò)規(guī)模從最初的幾層發(fā)展到DenseNet的上千層,隨著模型深度的增加,模型參數(shù)和計(jì)算量也在增大,訓(xùn)練時(shí)間變長,且對硬件設(shè)施的要求越來越高。一些小型設(shè)備不足以支撐龐大的服務(wù)器,且有些實(shí)時(shí)應(yīng)用場景要求響應(yīng)速度快,導(dǎo)致一些移動(dòng)設(shè)備很難運(yùn)行復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)。為此,研究者們開始對神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,提出了一些輕量級(jí)神經(jīng)網(wǎng)絡(luò)模型,例如SqueezeNet[6]、Xception[7]以及MobileNet[8]等,相比于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),采用深度可分離卷積的輕量級(jí)神經(jīng)網(wǎng)絡(luò)能在保證模型精度的前提下顯著減少模型的參數(shù)量和計(jì)算量,提高模型性能。
文中以人臉的7種表情為研究對象,搭建了MobileNet和mini_Xception[9]兩種輕量級(jí)人臉表情識(shí)別模型,并與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型VGG16進(jìn)行對比,研究輕量級(jí)神經(jīng)網(wǎng)絡(luò)模型在人臉表情自動(dòng)識(shí)別任務(wù)中的優(yōu)異性。
1 深度可分離卷積
MobileNet和mini_Xception作為輕量級(jí)神經(jīng)網(wǎng)絡(luò)模型,其主要采用了深度可分離卷積技術(shù)來減少模型的參數(shù)量和計(jì)算量,并減小模型體積。標(biāo)準(zhǔn)卷積的卷積核通道數(shù)和輸入數(shù)據(jù)通道數(shù)一致,一個(gè)卷積核作用于所有通道,將各通道的結(jié)果相加得到一個(gè)特征圖,卷積核的個(gè)數(shù)與輸出特征圖的個(gè)數(shù)相等。而深度可分離卷積將標(biāo)準(zhǔn)卷積分解成兩個(gè)操作:首先進(jìn)行深度卷積(Depthwise Convolution),每一個(gè)卷積核只在輸入的其中一個(gè)通道上進(jìn)行卷積操作,即每一個(gè)卷積核的通道數(shù)為1,得到和輸入通道同樣數(shù)目的特征圖;然后逐點(diǎn)卷積(Pointwise Convolution),也被稱為1×1卷積,逐點(diǎn)卷積是在深度卷積之后將得到的特征圖進(jìn)行拼接,然后跨通道進(jìn)行卷積,用來升維和降維。
假定輸入的特征圖大小為D×D,通道數(shù)為C,卷積核大小為F×F,輸出的特征圖大小為M×M,通道數(shù)為N。深度可分離卷積總的計(jì)算量為深度卷積所需計(jì)算量加上逐點(diǎn)卷積所需計(jì)算量[10],如式(1)所示:
(1)
深度可分離卷積與標(biāo)準(zhǔn)卷積的計(jì)算量之比如式(2)
所示:
(2)
參數(shù)量之比如式(3)所示:
(3)
從式(2)和式(3)可以看出,深度可分離卷積與標(biāo)準(zhǔn)卷積的計(jì)算量和參數(shù)量之比相同。若使用3×3的卷積核,則使用深度可分離卷積可使神經(jīng)網(wǎng)絡(luò)極大地減少計(jì)算量和參數(shù)量,正是由于深度可分離卷積在計(jì)算量和參數(shù)量上具有的優(yōu)勢,使得神經(jīng)網(wǎng)絡(luò)模型開始向小型化發(fā)展。
2 MobileNet和mini_Xception兩種輕量級(jí)神經(jīng)網(wǎng)絡(luò)架構(gòu)
2.1 MobileNet
2017年,Howard等人[8]提出了MobileNet輕量級(jí)神經(jīng)網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)采用了深度可分離卷積減少模型的參數(shù)量和計(jì)算量,具有體積小、功耗低等特點(diǎn),主要應(yīng)用在移動(dòng)端和嵌入式系統(tǒng)等小型設(shè)備。同時(shí),MobileNet還引入了兩個(gè)超參數(shù):寬度因子(Width Multiplier)α和分辨率因子(Resolution Multiplier)β。其中,寬度因子用來控制輸入和輸出的通道數(shù),分辨率因子用于控制輸入圖像的分辨率,即控制輸入圖像的大小。這兩個(gè)超參數(shù)用來約束模型的體積。表1
為MobileNet的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)。MobileNet首先是一層標(biāo)準(zhǔn)卷積層,然后連接13個(gè)深度可分離卷積層,最后使用全連接層和Softmax激活函數(shù)做表情分類。
2.2 mini_Xception
mini_Xception受到了Xception的啟發(fā),在Xception基礎(chǔ)上進(jìn)一步壓縮了模型,使模型更加輕量化。網(wǎng)絡(luò)主要采用深度可分離卷積和殘差結(jié)構(gòu),通過深度可分離卷積將模型減小到不足60 000個(gè)參數(shù),引入殘差模塊則能加快網(wǎng)絡(luò)權(quán)重更新的速度。mini_Xception網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。該網(wǎng)絡(luò)包括4個(gè)深度可分離卷積的殘差模塊,每一層卷積后都會(huì)用BatchNorm[11]進(jìn)行批量歸一化處理,以加快網(wǎng)絡(luò)訓(xùn)練的速度。最后一層使用卷積層加上全局平均池化層代替全連接層,用來減少模型參數(shù),加快模型收斂速度,然后再使用Softmax激活函數(shù)進(jìn)行分類。
3 人臉表情識(shí)別實(shí)驗(yàn)
3.1 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)環(huán)境相關(guān)信息見表2所列。
3.2 數(shù)據(jù)集
文中使用FER2013數(shù)據(jù)集和CK+數(shù)據(jù)集(The Extended Cohn-Kanade Dataset)進(jìn)行人臉表情識(shí)別實(shí)驗(yàn)。
FER2013數(shù)據(jù)集是Kaggle于2013年圖像識(shí)別比賽中使用的一個(gè)數(shù)據(jù)集,每張圖片是分辨率為48×48的灰度圖。將該數(shù)據(jù)集劃分成訓(xùn)練集、驗(yàn)證集和測試集3部分,共
35 887張圖像。其中訓(xùn)練集有28 709張圖像,驗(yàn)證集和測試集均為3 589張圖像。圖像共有7類,分別是憤怒(anger)、厭惡(disgust)、恐懼(fear)、開心(happy)、傷心(sad)、驚訝(surprised)以及中性(normal)。該數(shù)據(jù)集中的圖片存在遮擋等,比較符合日常生活。
CK+數(shù)據(jù)集是情感識(shí)別領(lǐng)域常用的另一數(shù)據(jù)集。它包含了一系列人臉照片和對應(yīng)的情緒標(biāo)簽,其中情緒標(biāo)簽包括7種
情緒:憤怒(anger)、蔑視(contempt)、厭惡(disgust)、恐懼(fear)、開心(happy)、傷心(sad)及驚訝(surprised)。構(gòu)建該數(shù)據(jù)集時(shí)邀請了123位專業(yè)演員,共記錄了593次表情表演過程,形成了593個(gè)表情圖像序列,每一個(gè)圖像序列記錄的是表演者面部表情從自然狀態(tài)到指定表情之間的多個(gè)狀態(tài)。在上述593個(gè)序列中,有327個(gè)序列是帶標(biāo)簽的。因此,選取帶標(biāo)簽的327個(gè)圖像序列,每個(gè)序列選取表情值最高的后3張圖像,共327×3=981張圖像構(gòu)成人臉表情數(shù)據(jù)集,其中訓(xùn)練集、驗(yàn)證集和測試集的圖像數(shù)量分別為585、198、198。
3.3 數(shù)據(jù)預(yù)處理
人臉表情數(shù)據(jù)集一般從網(wǎng)絡(luò)下載,可能包含非人臉圖像且圖片大小不一。此外,由于角度和光線等問題,圖像中的人臉可能會(huì)存在遮擋。人臉檢測基于OpenCV的Haar級(jí)聯(lián)人臉檢測器[12]實(shí)現(xiàn),檢測到人臉后在給定圖像中用矩形框框出人臉區(qū)域,如圖2所示。檢測到人臉區(qū)域后,在原圖像中將人臉區(qū)域裁剪出來,去除多余干擾。數(shù)據(jù)增強(qiáng)是指通過將圖片旋轉(zhuǎn)某個(gè)角度、縮放、水平或垂直翻轉(zhuǎn)等擴(kuò)充數(shù)據(jù)集并增加模型的泛化能力。圖3是原圖經(jīng)過數(shù)據(jù)增強(qiáng)后的圖像。
將FER2013訓(xùn)練集的各種表情數(shù)量增強(qiáng)一倍,為57 418張
圖片。將CK+數(shù)據(jù)集經(jīng)人臉檢測并裁剪為48×48的灰度圖像后,經(jīng)數(shù)據(jù)增強(qiáng)操作,訓(xùn)練集共有4 095張圖片。
3.4 實(shí)驗(yàn)結(jié)果與分析
為驗(yàn)證輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)相比于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)越性,實(shí)驗(yàn)搭建了MobileNet和mini_Xception兩種輕量級(jí)網(wǎng)絡(luò),以傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)VGG16為比較基準(zhǔn),在FER2013和CK+兩個(gè)數(shù)據(jù)集上分別進(jìn)行人臉表情識(shí)別實(shí)驗(yàn)。
3.4.1 實(shí)驗(yàn)一:FER2013數(shù)據(jù)集
各神經(jīng)網(wǎng)絡(luò)模型在FER2013數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果見表3
所列。從表3中可知,與VGG16相比,MobileNet的準(zhǔn)確率下降了1.39個(gè)百分點(diǎn),但MobileNet網(wǎng)絡(luò)的參數(shù)量約是VGG16網(wǎng)絡(luò)參數(shù)量的8.11%;mini_Xception的準(zhǔn)確率下降了6.10個(gè)百分點(diǎn),但mini_Xception網(wǎng)絡(luò)的參數(shù)量僅為VGG16網(wǎng)絡(luò)參數(shù)量的0.15%。本實(shí)驗(yàn)證明,輕量級(jí)神經(jīng)網(wǎng)絡(luò)能夠大幅縮減模型的參數(shù)量,但可能會(huì)帶來輕微的精度損失。
3.4.2 實(shí)驗(yàn)二:CK+數(shù)據(jù)集
各神經(jīng)網(wǎng)絡(luò)模型在CK+數(shù)據(jù)集上的結(jié)果見表4所列。從表4可知,與VGG16比,MobileNet的準(zhǔn)確率下降了2.53個(gè)
百分點(diǎn),但MobileNet網(wǎng)絡(luò)的參數(shù)量約是VGG16網(wǎng)絡(luò)參數(shù)量的9.6%;mini_Xception的準(zhǔn)確率下降了2.02個(gè)百分點(diǎn),但mini_Xception網(wǎng)絡(luò)參數(shù)量僅為VGG16網(wǎng)絡(luò)參數(shù)量的0.17%。
綜上可知,兩次實(shí)驗(yàn)的結(jié)果較一致。對比傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型VGG16,MobileNet在兩個(gè)數(shù)據(jù)集上的準(zhǔn)確率下降約1~3個(gè)百分點(diǎn),參數(shù)量減縮為約1/10;mini_Xception的準(zhǔn)確率下降2~6個(gè)百分點(diǎn),參數(shù)量縮減為約1/600。實(shí)驗(yàn)結(jié)果充分證明了這兩種輕量級(jí)神經(jīng)網(wǎng)絡(luò)模型在人臉表情識(shí)別任務(wù)中的優(yōu)越性。
4 結(jié) 語
文中搭建了MobileNet和mini_Xception兩種神經(jīng)網(wǎng)絡(luò)模型,分別在FER2013和CK+數(shù)據(jù)集上展開人臉表情識(shí)別實(shí)驗(yàn)。在FER2013和CK+兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果充分表明,輕量級(jí)神經(jīng)網(wǎng)絡(luò)模型MobileNet和mini_Xception能在保證模型精度的前提下,大幅度減少模型的參數(shù)量,證明了輕量級(jí)神經(jīng)網(wǎng)絡(luò)人臉表情識(shí)別算法的優(yōu)越性。
參考文獻(xiàn)
[1]李靖宇.基于特征融合的面部表情識(shí)別算法研究[D].哈爾濱:哈爾濱理工大學(xué),2022.
[2] KRIZHEVSKY A,SUTSKEVER I,HINTON G. Imagenet classification with deep convolutional neural networks [J]. Communications of the ACM,2017,60(6):84-90.
[3] SIMONYAN K,ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J]. Computer science,2014.
[4] HE K,ZHANG X,REN S,et al. Deep residual learning for image recognition [C]// IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Las Vegas,NV,USA: IEEE,2016:770-778.
[5] HUANG G,LIU Z,LAURENS V,et al. Densely connected convolutional networks [C]// IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Honolulu,HI,USA: IEEE,2017:2261-2269.
[6] IANDOLA F N,HAN S,MOSKEWICZ M W,et al. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters andlt;0.5MB model size [EB/OL]. (2016-02-24). http://www.arxiv.org/abs/1602.07360.
[7] CHOLLET F. Xception:Deep Learning with Depthwise Separable Convolutions [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Honolulu,HI,USA:IEEE,2017:1800-1807.
[8] HOWARD A G,ZHU M,CHEN B,et al. MobileNets: Efficient convolutional neural networks for mobile vision applications [EB/OL]. (2017-04-17). https://arxiv.org/abs/1704.04861.
[9] ARRIAGA O,VALDENEGRO-TORO M,PL?GER P. Real-time convolutional neural networks for emotion and gender classification [EB/OL]. (2017-11-20). https://arxiv.org/abs/1710.07557v1.
[10]孔英會(huì),郄天叢,張帥桐.基于深度學(xué)習(xí)的移動(dòng)端表情識(shí)別系統(tǒng)設(shè)計(jì)[J].科學(xué)技術(shù)與工程,2020,20(25):10319-10326.
[11] IOFFE S,SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift [J]. JMLR.org,2015.
[12] LI C M,QI Z L,JIA N,et al. Human face detection algorithm via haar cascade classifier combined with three additional classifiers [C]// 2017 13th IEEE International Conference on Electronic Measurement amp; Instruments(ICEMI). Yangzhou:IEEE,2017:483-487.
收稿日期:2023-07-24 修回日期:2023-08-30
基金項(xiàng)目:安徽省哲學(xué)社會(huì)科學(xué)重點(diǎn)實(shí)驗(yàn)室開放基金項(xiàng)目(SYS2023B05);合肥師范學(xué)院2023年度引進(jìn)高層次人才科研資助基金項(xiàng)目(2023rcjj13)
作者簡介:于成成(2000—),女,研究方向?yàn)槿斯ぶ悄堋?/p>
郭芝源(1985—),女,博士,高級(jí)工程師,研究方向?yàn)榍楦杏?jì)算。