王 彬,徐 楊,2*,石 進(jìn),張顯國
(1.貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽 550025;2.貴陽鋁鎂設(shè)計(jì)研究院有限公司,貴州 貴陽 550009)
人臉表情作為一種非語言的交流方式,由于它承載信息量勝過語言,因此在人類日常溝通交流中有至關(guān)重要的作用。近年來,人臉表情識(shí)別在汽車安全駕駛[1]、人類情緒認(rèn)知[2]等方面應(yīng)用廣泛,使其成為計(jì)算機(jī)視覺研究領(lǐng)域的熱點(diǎn)之一。
人臉表情識(shí)別包括三個(gè)步驟:人臉檢測(cè)、人臉特征提取、表情分類。人臉檢測(cè)作為人臉表情識(shí)別研究的基礎(chǔ),主要是從圖像和視頻中捕捉人臉。最具有代表性的檢測(cè)方法為Zhang等人[3]提出的多任務(wù)級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(Multi-Task Cascade Convolutional Network,MTCNN)人臉檢測(cè)模型。人臉特征提取作為人臉表情識(shí)別最重要的一部分,常見的特征提取方法有:局部二值模式(Local Binary Pattern,LBP)[4]、E-Gabor過濾器[5]等。對(duì)于人臉表情識(shí)別的最后一步,常采用支持向量機(jī)(Support Vector Machines,SVM)[6]、隨機(jī)森林(NFS)[7]等方法。
傳統(tǒng)的人臉表情識(shí)別方法大多數(shù)為手工提取特征,而手工特征提取器容易丟失人臉關(guān)鍵位置的特征信息,近年來逐漸被卷積神經(jīng)網(wǎng)(Convolutional Neural Networks,CNN)所替代。Kuo等人[8]將一種精簡的CNN模型用于人臉表情識(shí)別,然而隨著卷積神經(jīng)網(wǎng)絡(luò)層數(shù)不斷增加會(huì)產(chǎn)生梯度爆炸和過擬合現(xiàn)象。為了克服該問題,He等人[9]提出了殘差網(wǎng)絡(luò)(Residual Network,ResNet)。在此基礎(chǔ)上,石敏等人[10]用3×3和5×5的卷積層替換ResNet-18的7×7卷積層,并在殘差塊中加入注意力機(jī)制以改進(jìn)殘差網(wǎng)絡(luò),提升了人臉表情的識(shí)別率。高濤等人[11]將改進(jìn)后殘差網(wǎng)絡(luò)用于人臉表情識(shí)別,并在公開數(shù)據(jù)集CK+上識(shí)別率達(dá)到93.96%,但該方法未研究人臉表情細(xì)微的類間差異對(duì)模型識(shí)別率、魯棒性的影響。付小龍等人[12]以ResNet-18為基礎(chǔ)研究不同的損失函數(shù),以減少類內(nèi)差異,增大類間差異,取得了不錯(cuò)的識(shí)別效果。通過對(duì)上述文獻(xiàn)的研究發(fā)現(xiàn),提取充分的人臉特征和辨別人臉表情樣本之間細(xì)微的差異至關(guān)重要。
為此,該文在ResNet-18基礎(chǔ)上進(jìn)行改進(jìn),提出了多分支精簡雙線性池化網(wǎng)絡(luò)(Multi-branch Compact Bilinear Pooling network,MCBP)。主要改進(jìn)如下:
(1)提出了殘差空間注意力,該注意力對(duì)輸入圖像不同維度的像素賦予不同的權(quán)重,使網(wǎng)絡(luò)更好地凸顯人臉關(guān)鍵區(qū)域的特征。
(2)在ResNet-18的基礎(chǔ)上,設(shè)計(jì)了DBB-Res18網(wǎng)絡(luò)架構(gòu),使網(wǎng)絡(luò)能獲取更豐富的人臉表情。
(3)設(shè)計(jì)了一個(gè)多分支精簡雙池化結(jié)構(gòu)。該結(jié)構(gòu)通過將精簡雙線性池化引入到DBB-Res18的多個(gè)高層卷積分支中,增強(qiáng)不同尺度的表情圖像的內(nèi)聚性。最后融合不同分支高層卷積的特征信息,提升網(wǎng)絡(luò)對(duì)人臉表情類間差異的分辨能力。
該文在DBB-Res18基礎(chǔ)上提出了MCBP網(wǎng)絡(luò),架構(gòu)如圖1所示。首先,選取DBB-Res18模型中的高層卷積res4_1、res4_2、res5_1、res5_2構(gòu)成不同尺度的多分支特征支路。其次,將殘差空間注意力引入每個(gè)分支,為避免殘差空間注意力加入后模型收斂速度變慢,對(duì)殘差空間注意力機(jī)制輸出進(jìn)行批歸一化處理。經(jīng)過上述操作后形成攜帶人臉關(guān)鍵區(qū)域不同尺度的特征:F1、F2、F3、F4。最后,將精簡雙線性池化引入到多分支之路中,同時(shí)將不同分支的特征融合后送入到softmax分類器中進(jìn)行分類,softmax函數(shù)如式(1)所示。
圖1 MCBP網(wǎng)絡(luò)
(1)
常見的人臉表情之間存在著極大的相似性,而這一現(xiàn)象大部分是由人臉表情類別之間的細(xì)微的差異造成,要解決這一問題,提取豐富的表情特征成為了至關(guān)重要的工作。為了增強(qiáng)單個(gè)卷積的表征能力,Ding等[13]提出了多樣化分支塊(Diverse Branch Block,DBB)。DBB通過組合不同規(guī)模和復(fù)雜度的多樣化分支來獲得豐富的特征空間,以代替單個(gè)卷積層。如圖2所示,六種不同的DBB轉(zhuǎn)換組合等效為單個(gè)k*k的卷積層。
圖2 DBB六種轉(zhuǎn)換組合
依據(jù)六種轉(zhuǎn)換組合,該文設(shè)計(jì)了一個(gè)DBB結(jié)構(gòu),如圖3所示,以代替基礎(chǔ)的單個(gè)卷積層。從圖3可知,DBB結(jié)構(gòu)由1*1卷積-BN組合、兩個(gè)1*1卷積-BN-平均池化-BN組合以及一個(gè)k*k卷積-BN組合進(jìn)行并行多尺度融合組成。經(jīng)圖2的六種轉(zhuǎn)換組合作用后,可以將DBB等效地轉(zhuǎn)換為k*k的卷積層,如圖3右側(cè)所示。
圖3 多樣化分支塊
為進(jìn)一步豐富人臉表情圖像的特征空間,增強(qiáng)ResNet-18的特征提取能力,使用圖2中設(shè)計(jì)的DBB結(jié)構(gòu)改進(jìn)ResNet-18的所有瓶頸塊中的3*3的卷積,構(gòu)成DBB-Res18網(wǎng)絡(luò)。DBB-Res18網(wǎng)絡(luò)的瓶頸塊如圖4所示。
圖4 DBB-Res18瓶頸塊
人臉表情所包含的鼻子、嘴巴、眼睛、眉毛等部分的變化會(huì)產(chǎn)生不同類別的表情,而區(qū)分表情之間的細(xì)微差異,突出上述人臉關(guān)鍵部位的特征尤為重要。受文獻(xiàn)[14]的啟發(fā),該文提出了殘差空間注意力(Residual Spatial Attention,RSA),如圖5所示。
圖5 殘差空間注意力
(2)
最后將輸出的空間特征Ms(F)與輸入的特征映射相FA疊加得到輸出特征。從上述描述可知,輸入的圖像經(jīng)RSA作用后,可以使DBB-Res18更容易獲得人臉關(guān)鍵區(qū)域的特征。
雙線性池化[16](Bilinear Pooling,BP)通過式(3)生成全局圖像描述符:
(3)
其中,X為局部描述符,表示如式(4):
X=(x1,…,x|S|,xs∈RC)
(4)
S為空間位置集合。由式(3)可知,B(X)為一個(gè)c×c的矩陣。在圖像分類中通常使用邏輯回歸去實(shí)現(xiàn)使用雙線性描述符的圖像分類任務(wù),而邏輯回歸被看作線性核機(jī)。假設(shè)X、Y為兩組局部圖像描述符,那么線性核機(jī)將對(duì)其做下述比較:
(5)
從式(5)可知,雙線性描述符的比較算子為二階多項(xiàng)式核。設(shè)k(x,y)表示二階多項(xiàng)式核,若存在低維映射函數(shù)φ(x)∈Rd,其中d< 〈C(X),C(Y)〉 (6) 其中: (7) 為精簡雙線性池化的特征。 以輸入的人臉圖像特征F1為例,經(jīng)精簡雙線性池化后,生成式(7)所示的精簡的人臉全局特征描述符。 如圖1所示,該文選取DBB-Res18高層卷積構(gòu)成了一個(gè)多分支支路,在經(jīng)RSA后得到了人臉特征F1、F2、F3、F4。雙線性池化在“類內(nèi)差異小,類間差異大”的細(xì)粒度圖像分類任務(wù)中取得不錯(cuò)的成績,而人臉圖像中不同類別的表情之間差異小,相似度高。但雙線性池化參數(shù)量太大,不利于后續(xù)分析。為此,該文將多分支路的所攜帶的人臉特征送入精簡雙線性池化中構(gòu)成多分支精簡雙線性池化網(wǎng)絡(luò)結(jié)構(gòu)。該結(jié)構(gòu)對(duì)不同尺度人臉圖像使用精簡雙線性池化,增強(qiáng)了不同尺度的表情圖像的內(nèi)聚性,使MCBP網(wǎng)絡(luò)獲取更豐富的人臉關(guān)鍵部位的特征。經(jīng)實(shí)驗(yàn)表明,該多分支精簡雙線性池化網(wǎng)絡(luò)結(jié)構(gòu)明顯改善了基礎(chǔ)網(wǎng)絡(luò)捕捉人臉細(xì)微部分特征能力,更好地辨別了表情之間的相似性、促進(jìn)了面部表情識(shí)別精度的提升。 實(shí)驗(yàn)操作系統(tǒng)為Ubtuntu16.04.4,GPU為NVIDIA GeForce GTX 1080Ti*2,實(shí)驗(yàn)環(huán)境python 3.5,深度學(xué)習(xí)框架PyTorch1.0.0,顯存22G。 使用隨機(jī)裁剪、中心裁剪、批歸一化處理等方法對(duì)RAF-DB、CK+數(shù)據(jù)集的測(cè)試集和訓(xùn)練集表情圖像進(jìn)行了預(yù)處理。同時(shí)使用隨機(jī)梯度下降算法對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,此時(shí)網(wǎng)絡(luò)的初始學(xué)習(xí)率為0.01,權(quán)重衰減為1×10-4,動(dòng)量為0.9,總共迭代240次。由于CK+和RAF-DB數(shù)據(jù)集樣本量的差異,故CK+數(shù)據(jù)集上批量處理的大小為128,每40次學(xué)習(xí)率衰減10倍。在RAF-DB數(shù)據(jù)集上批量處理大小為32,每40次學(xué)習(xí)率衰減0.1。 該文選用的數(shù)據(jù)集為CK+、RAF-DB。CK+總共擁有981張44×44像素的人臉圖片,包含7種基本的人臉表情類別。RAF-DB是在日常環(huán)境下組成的數(shù)據(jù)集,該數(shù)據(jù)集由7種基本的表情類別和11種復(fù)合情感表情類別組成。該文使用的RAF-DB數(shù)據(jù)集是經(jīng)Face++定位后的人臉圖片。單標(biāo)簽總共15 339張圖片,其中12 271張用作訓(xùn)練樣本,3 068張用作測(cè)試樣本。上述數(shù)據(jù)集樣本分布如表1所示,包含Neutral(中性)、Happy(快樂)、Surprise(驚訝)、Sad(悲傷)、Fear(害怕)、Angry(生氣)、Disgust(厭惡)、Contempt(鄙視)等表情類別。 表1 數(shù)據(jù)集樣本分布 DBB-Res18在分類時(shí)僅使用最后一層卷積進(jìn)行分類,這顯然不足以對(duì)整個(gè)輸入圖像的各部分語義信息進(jìn)行表征,同時(shí)最后一層卷積不可避免地會(huì)丟失骨干網(wǎng)絡(luò)中間部分的卷積層所含有的可以區(qū)別人臉表情類間差異的特征信息。為了明確DBB-Res18的不同卷積層關(guān)注人臉表情圖像的位置,該文采用Grad-CAM[17]方法將DBB-Res18的部分卷積層進(jìn)行可視化,如圖6所示。 圖6 DBB-Res18部分卷積層可視化 從圖6可知,DBB-Res18的高層卷積對(duì)人臉的眼睛、嘴巴、眉毛等部分反應(yīng)較為強(qiáng)烈。而這些關(guān)鍵區(qū)域特征變化正是辨別表情之間細(xì)微區(qū)別、解決不同類別表情之間差異的關(guān)鍵因素。為此,該文選取DBB-Res18的幾組高層卷積組合構(gòu)成多分支結(jié)構(gòu)并在CK+、RAF-DB數(shù)據(jù)集上開展實(shí)驗(yàn),多分支結(jié)構(gòu)組合方式如表2所示,其中“Accuracy”為準(zhǔn)確率,表示正確分類的人臉表情樣本與總的人臉表情樣本之比。表2結(jié)果表明res4_1、res4_2、res5_1、res5_2多分支結(jié)構(gòu)組合在人臉表情數(shù)據(jù)集上展示了優(yōu)越的性能,故選其為文中的多分支結(jié)構(gòu)。 表2 多分支結(jié)構(gòu)組合方式 為了體現(xiàn)MCBP網(wǎng)絡(luò)的優(yōu)勢(shì)和競(jìng)爭力,該文將MCBP網(wǎng)絡(luò)與近年現(xiàn)有的人臉表情識(shí)別研究工作在CK+、RAF-DB數(shù)據(jù)集上進(jìn)行識(shí)別率的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3、表4所示。 表3 在CK+數(shù)據(jù)集上與現(xiàn)有方法識(shí)別率的比較 表4 在RAF-DB數(shù)據(jù)集上與現(xiàn)有方法識(shí)別率的比較 從表3實(shí)驗(yàn)結(jié)果可知,所提的MCBP網(wǎng)絡(luò)在CK+數(shù)據(jù)集上,相比于Lan[18]、Shao[19]、Gan[20]等人提出的方法,分別提升了4百分點(diǎn)、3.17百分點(diǎn)、2.75百分點(diǎn)。由于CK+數(shù)據(jù)集樣本數(shù)量不多,為了更進(jìn)一步展示MCBP網(wǎng)絡(luò)在CK+的穩(wěn)定性,將MCBP與現(xiàn)有方法分別在CK+上開展了5次實(shí)驗(yàn),然后再求取標(biāo)準(zhǔn)方差。表3的結(jié)果充分地展示了文中方法在CK+數(shù)據(jù)集上有效性、競(jìng)爭性。 從表4實(shí)驗(yàn)結(jié)果可知,MCBP網(wǎng)絡(luò)在RAF-DB數(shù)據(jù)集上相較于DLP-CNN[22]、MA[23]、DeepExp3D[24]等方法分別提升了8.79百分點(diǎn)、7.4百分點(diǎn)、0.93百分點(diǎn),相較于Gan[21]等人提出方法準(zhǔn)確率提升了6.4百分點(diǎn)。上述結(jié)果可見,所提的方法在RAF-DB相較于現(xiàn)有的方法有更高的識(shí)別率,具有一定競(jìng)爭性和優(yōu)勢(shì)。 人臉表情類別之間細(xì)微差異的存在導(dǎo)致了表情之間的相似性,而這種相似性導(dǎo)致骨干網(wǎng)絡(luò)對(duì)單個(gè)類別樣本識(shí)別精度不高,進(jìn)而影響網(wǎng)絡(luò)對(duì)整個(gè)數(shù)據(jù)集的識(shí)別率。為了探究MCBP網(wǎng)絡(luò)對(duì)上述問題的作用,分別展示了ResNet-18和MCBP在CK+、RAF-DB數(shù)據(jù)集的混淆矩陣,如圖7和圖8所示。 圖8 RAF-DB數(shù)據(jù)集上的混淆矩陣 從圖7(a)可知,ResNet-18對(duì)CK+數(shù)據(jù)集中的生氣(Angry)以及鄙視(Contempt)兩類表情識(shí)別率不太理想。其中有18%生氣表情的數(shù)據(jù)樣本被誤識(shí)別為悲傷表情,36%鄙視類表情的數(shù)據(jù)樣本被錯(cuò)誤分類為驚訝(Surprise)表情。這極大地反應(yīng)了殘差網(wǎng)絡(luò)ResNet-18對(duì)人臉表情細(xì)微差別判斷的難度。從圖7(b)可以看出,提出的MCBP網(wǎng)絡(luò)有效地減少了這種類間細(xì)微差異對(duì)表情識(shí)別工作的影響,提升了人臉表情識(shí)別率。 從圖8(a)可知,在RAF-DB數(shù)據(jù)集上ResNet-18對(duì)害怕(Fear)、厭惡(Disgust)、驚訝(Surprise)、生氣(Angry)等數(shù)據(jù)樣本分類精度不高。其中22%的厭惡表情類別被誤分類為傷心(Sad)、8%的驚訝表情被誤分類為厭惡和快樂(Happy)、23%的害怕表情被錯(cuò)誤分類為中性(Neutral)、17%的生氣表情被錯(cuò)誤分類為傷心。該數(shù)據(jù)是由日常生活環(huán)境下構(gòu)成人臉表情組合,更能反映現(xiàn)實(shí)生活中不相同的人臉表情類別之間的細(xì)微差異。由圖8(b)可知,MCBP網(wǎng)絡(luò)有效地緩減了人臉表情類別之間的細(xì)微差異對(duì)識(shí)別率的不利影響。 在自然環(huán)境下,不同視角獲取表情圖像有不同的姿態(tài),而這也往往會(huì)給人臉表情識(shí)別效果帶來影響。為此,該文從RAF-DB數(shù)據(jù)集選取了側(cè)臉、低頭、仰臉等人臉圖像,構(gòu)成帶有側(cè)臉、低頭、仰臉的RAF-DB子集以測(cè)試MCBP網(wǎng)絡(luò)對(duì)不同姿態(tài)人臉表情的魯棒性。從表5實(shí)驗(yàn)結(jié)果可知,MCBP網(wǎng)絡(luò)能夠有效解決不同姿態(tài)對(duì)人臉表情帶來的影響,有較好的魯棒性。 表5 不同姿態(tài)下MCBP網(wǎng)絡(luò)的識(shí)別率 % MCBP網(wǎng)絡(luò)包括DBB-Res18、殘差空間注意力、多分支精簡雙線性結(jié)構(gòu)。為了檢驗(yàn)上述各模塊對(duì)人臉表情識(shí)別率的影響,分別在CK+、RAF-DB數(shù)據(jù)集上開展消融實(shí)驗(yàn),實(shí)驗(yàn)的具體詳情如表6所示。 表6 在CK+、RAF-DB消融實(shí)驗(yàn)對(duì)比結(jié)果 從表6可知,DBB-Res18相較于殘差網(wǎng)絡(luò)ResNet-18在CK+、RAF-DB識(shí)別率分別提高了1.03百分點(diǎn)、0.68百分點(diǎn)。這表明利用該文設(shè)計(jì)的DBB結(jié)構(gòu)替代ResNet-18的單個(gè)卷積層,能改善ResNet-18的特征提取能力,使其獲取更豐富的人臉表情特征。在DBB-Res18的基礎(chǔ)上,添加殘差空間注意力(RSA),實(shí)驗(yàn)結(jié)果表明相較于DBB-Res18在CK+、RAF-DB識(shí)別率分別提高了3.59百分點(diǎn),0.58百分點(diǎn)。這反映了殘差空間注意力能很好地抑制非關(guān)鍵的人臉特征信息,突出人臉關(guān)鍵區(qū)域位置的特征。在DBB-Res18的基礎(chǔ)上,實(shí)驗(yàn)添加了精簡雙線性池化(CBP),實(shí)驗(yàn)結(jié)果表明相較于DBB-Res18在CK+、RAF-DB識(shí)別率分別提高了2.05百分點(diǎn)、2.34百分點(diǎn)。側(cè)面反映了CBP能夠使網(wǎng)絡(luò)提取更加全面的人臉表情特征。最后,選取DDB-Res18的高層卷積構(gòu)成多分支結(jié)構(gòu),分別驗(yàn)證融入殘差空間注意力,精簡雙線性池化網(wǎng)絡(luò),以及同時(shí)融入二者構(gòu)成所提的多分支精簡雙線性池化網(wǎng)絡(luò)。表6的結(jié)果表明,MCBP在CK+、RAF-DB數(shù)據(jù)集的識(shí)別率達(dá)到了98.46%、82.99%,相較于ResNet-18在CK+、RAF-DB數(shù)據(jù)集上提高了6.67百分點(diǎn)、4.53百分點(diǎn),表明在殘差網(wǎng)絡(luò)ResNet-18的改進(jìn)的有效性,也驗(yàn)證了MCBP網(wǎng)絡(luò)有利于獲取更全面的人臉表征,有效緩減了人臉表情細(xì)微的類間差異帶來的問題。 為了解決人臉不同類別的表情細(xì)微差異和特征提取不充分等問題,提出了多分支精簡雙線性池化網(wǎng)絡(luò)用于人臉表情識(shí)別研究工作,并在公開的數(shù)據(jù)集RAF-DB、CK+上驗(yàn)證了模型的有效性。以提升殘差網(wǎng)絡(luò)ResNet-18對(duì)人臉表情特征的提取能力角度出發(fā),分別利用所設(shè)計(jì)新的DBB結(jié)構(gòu)組成新的瓶頸塊替換殘差網(wǎng)絡(luò)原有的瓶頸塊、選取改進(jìn)后的DBB-Res18搭建多分支網(wǎng)絡(luò)以及將殘差空間注意力和精簡雙線性池化融入到多分支的每條支路中。這樣的層次化和結(jié)構(gòu)化的設(shè)計(jì),有利于獲取更加豐富的人臉表情特征,提升了網(wǎng)絡(luò)判別具有細(xì)微差異的不同類別的人臉表情圖像能力,明顯提升了人臉表情識(shí)別的準(zhǔn)確率,具有一定的應(yīng)用價(jià)值。 下一步將深入探討MCBP對(duì)不同光照、遮擋以及數(shù)據(jù)集樣本之間不均勻人臉表情數(shù)據(jù)樣本的作用,并驗(yàn)證網(wǎng)絡(luò)的有效性、泛化能力和魯棒性。2 實(shí)驗(yàn)結(jié)果和分析
2.1 實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)參數(shù)
2.2 數(shù)據(jù)集
2.3 多分支結(jié)構(gòu)性選擇分析
2.4 MCBP網(wǎng)絡(luò)與現(xiàn)有方法的對(duì)比結(jié)果與分析
2.5 不同姿態(tài)的人臉表情的魯棒性
2.6 消融實(shí)驗(yàn)
3 結(jié)束語