周睿麗,鐘福金
(1.重慶郵電大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,重慶 400065;2.重慶郵電大學(xué) 計(jì)算智能重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400065)
人臉表情是指通過(guò)面部肌肉變化產(chǎn)生的各種情感,它是表達(dá)人類情緒狀態(tài)最有力、最常見(jiàn)也是最自然的信號(hào)之一。由于人臉表情識(shí)別在心理學(xué)、醫(yī)學(xué)、公共安全和商業(yè)領(lǐng)域有著廣泛應(yīng)用,因此人們對(duì)其進(jìn)行了大量研究[1]。例如,通過(guò)觀察人臉表情來(lái)推斷患者的心理問(wèn)題[2];通過(guò)檢測(cè)駕駛員的疲勞度采取適當(dāng)措施以避免事故發(fā)生[3]。目前已有許多人臉表情識(shí)別方法在受控環(huán)境的數(shù)據(jù)集[4-5]上取得較優(yōu)的識(shí)別結(jié)果,然而當(dāng)人臉圖像處于無(wú)約束環(huán)境中時(shí),人臉表情識(shí)別仍面臨較大挑戰(zhàn),因?yàn)闊o(wú)約束人臉表情圖像具有不同光照變化、頭部姿態(tài)變化、身份偏差(種族、性別和年齡)和遮擋等不確定性因素。因此,設(shè)計(jì)一種魯棒的無(wú)約束人臉表情識(shí)別方法很有必要。
比較早的人臉表情識(shí)別方法主要通過(guò)提取預(yù)先設(shè)計(jì)好的人臉特征進(jìn)行表情分類,而人臉特征主要分為幾何特征和紋理特征?;趲缀翁卣鞯娜四槺砬樽R(shí)別方法是通過(guò)對(duì)人臉部件(眼睛、鼻子和嘴巴)的位置關(guān)系進(jìn)行編碼,從而利用得到的空間幾何信息進(jìn)行人臉表情識(shí)別。文獻(xiàn)[6]模擬人臉和表情檢測(cè)的人類視覺(jué)感知,將人臉局部信息(人臉特征的形狀存儲(chǔ)在每個(gè)節(jié)點(diǎn)的局部圖中)和全局信息(人臉的拓?fù)浣Y(jié)構(gòu))同時(shí)嵌入到模型中,然后將檢測(cè)到的人臉圖像與對(duì)應(yīng)數(shù)據(jù)庫(kù)中現(xiàn)有表情模型進(jìn)行對(duì)比,進(jìn)而識(shí)別人臉表情。該類方法可減弱光照變化和身份偏差給表情識(shí)別帶來(lái)的影響,但不足之處是在人臉表情外觀變化時(shí)很難準(zhǔn)確定位到上述的人臉部件?;诩y理特征的人臉表情識(shí)別方法[7-9]通過(guò)使用圖像濾波器對(duì)全局人臉圖像或局部人臉區(qū)域進(jìn)行濾波,檢測(cè)到面部外觀變化時(shí)人臉部件的確切位置,進(jìn)而用來(lái)提取對(duì)表情識(shí)別任務(wù)貢獻(xiàn)度較高的特征。然而,人們多變的生活環(huán)境導(dǎo)致人臉表情圖像的多樣化,使得研究者們很難設(shè)計(jì)出適用于不同環(huán)境的人臉表情特征提取方法。
近年來(lái),研究者將卷積神經(jīng)網(wǎng)絡(luò)運(yùn)用在無(wú)約束人臉表情識(shí)別任務(wù)中并獲得較好的效果。例如,在沒(méi)有大數(shù)據(jù)量的無(wú)約束人臉表情數(shù)據(jù)集的背景下,為解決無(wú)約束環(huán)境下頭部姿態(tài)給人臉表情識(shí)別帶來(lái)的問(wèn)題,文獻(xiàn)[10]提出一種同時(shí)進(jìn)行人臉表情圖像合成和識(shí)別的CycleAT網(wǎng)絡(luò)模型(cycle-consistent adversarial attention transfer model),該模型利用遷移學(xué)習(xí)將人臉表情數(shù)據(jù)集和人臉數(shù)據(jù)集合成大量不同姿態(tài)下帶有表情標(biāo)簽的數(shù)據(jù),然后利用所生成的人臉表情圖像訓(xùn)練目標(biāo)分類器。通常情況下,增加網(wǎng)絡(luò)的深度有利于人臉圖像語(yǔ)義信息的學(xué)習(xí),但僅僅增加其深度會(huì)導(dǎo)致梯度消失和網(wǎng)絡(luò)性能的退化。為解決此問(wèn)題,研究者提出殘差網(wǎng)絡(luò)(residual network, ResNet)[11]和密集連接網(wǎng)絡(luò)(dense convolutional network, DenseNet)[12],這2種新型網(wǎng)絡(luò)增強(qiáng)了層與層之間的信息交流,有利于深層特征的學(xué)習(xí)。但是上述研究方法通常只使用一幅全局圖像的特征圖來(lái)表示圖像,相關(guān)研究[13]表明,人臉表情主要集中生成在人臉的局部區(qū)域,而現(xiàn)有的傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)無(wú)法學(xué)習(xí)到有利于表情識(shí)別的局部區(qū)域特征,并且在分類時(shí)對(duì)人臉局部區(qū)域的特征不能區(qū)別對(duì)待。因此,文獻(xiàn)[14]提出一種深度注意力多路徑卷積神經(jīng)網(wǎng)絡(luò)模型(deep attentive multi-path convolutional neural network, DAM-CNN),DAM-CNN可以自適應(yīng)地為網(wǎng)絡(luò)提取的特征圖生成一個(gè)注意力掩碼,利用該掩碼給特征圖的不同區(qū)域賦予不同權(quán)重,進(jìn)而突顯出一些與表情相關(guān)的局部特征區(qū)域。DAM-CNN只提取人臉圖像的一階信息,而人臉表情識(shí)別與人臉局部區(qū)域的微小變形高度相關(guān),同時(shí),相關(guān)研究[15]證明特征圖的協(xié)方差矩陣等二階信息比一階信息更能捕捉到人臉表情的微小變化,故文獻(xiàn)[16]利用流形網(wǎng)絡(luò)和協(xié)方差池統(tǒng)計(jì)深層特征的二階信息進(jìn)行人臉表情識(shí)別,但該方法中涉及到不利于在GPU上進(jìn)行的矩陣特征值分解操作,使其訓(xùn)練過(guò)程較為不穩(wěn)定。
為充分利用注意力機(jī)制和圖像的二階信息,本文設(shè)計(jì)了一種用于無(wú)約束人臉表情識(shí)別的二階有效通道注意力網(wǎng)絡(luò)(second-order efficient channel attention network,SECA-Net)模型,該模型由輕量級(jí)的特征提取網(wǎng)絡(luò)、SECA模塊和一個(gè)全連接層組成。在SECA-Net中,首先使用輕量級(jí)的特征提取網(wǎng)絡(luò)提取輸入的人臉表情圖像的深層特征;然后將其輸入到SECA模塊中,統(tǒng)計(jì)表情圖像深層特征的二階信息并捕獲通道級(jí)特征間的相互依賴信息,使網(wǎng)絡(luò)學(xué)習(xí)與表情高度相關(guān)的特征;最后,使用由Softmax損失和中心損失構(gòu)成的聯(lián)合損失函數(shù)優(yōu)化模型進(jìn)行表情分類。
本文主要工作如下。
1)設(shè)計(jì)一種新穎的SECA機(jī)制,將通道注意力和二階信息結(jié)合,捕捉人臉表情局部區(qū)域微小變形的同時(shí),獲取不同通道級(jí)特征間的相關(guān)信息,從而使網(wǎng)絡(luò)提取到表達(dá)力更強(qiáng)的特征。
2)提出用于無(wú)約束人臉表情識(shí)別的SECA-Net,該網(wǎng)絡(luò)可以學(xué)習(xí)到與人臉局部區(qū)域變形高度相關(guān)的表情特征,同時(shí)具有較少的參數(shù)量、較低的顯存需求和計(jì)算量。SECA-Net是一個(gè)通用的框架,可以推廣到類似的分類任務(wù)上。
3)在2個(gè)無(wú)約束人臉表情數(shù)據(jù)集(RAF-DB[17]和FER-2013[18])上的實(shí)驗(yàn)結(jié)果表明,SECA-Net具有較好的性能,是有效的。
近年來(lái),研究者提出多種基于CNNs的無(wú)約束人臉表情識(shí)別方法并取得較好的識(shí)別結(jié)果。例如,文獻(xiàn)[19]設(shè)計(jì)了一種基于域轉(zhuǎn)移的級(jí)聯(lián)網(wǎng)絡(luò)模型,該模型首先采用自適應(yīng)神經(jīng)網(wǎng)絡(luò)生成與基本表情圖像相對(duì)應(yīng)的中性人臉表情圖像,然后從自適應(yīng)神經(jīng)網(wǎng)絡(luò)的中間層提取出殘差表情特征,最后利用提取出的表情特征訓(xùn)練多個(gè)分類器進(jìn)行無(wú)約束人臉表情識(shí)別。研究表明[20],較單個(gè)網(wǎng)絡(luò)而言,集成多個(gè)網(wǎng)絡(luò)可以表現(xiàn)出更好的性能,文獻(xiàn)[21]設(shè)計(jì)了一個(gè)雙分支的網(wǎng)絡(luò)模型用于表情識(shí)別,其中,一個(gè)分支以人臉圖像為輸入用來(lái)提取全局表情特征;另一個(gè)分支以LBP(local binary patterns)特征圖為輸入提取局部紋理特征。此外,在主干網(wǎng)絡(luò)中添加輔助塊可以使網(wǎng)絡(luò)學(xué)習(xí)表達(dá)力更強(qiáng)的特征。文獻(xiàn)[22]提出一種將CReLU(concatenated rectified linear unit)與改進(jìn)的殘塊相結(jié)合的網(wǎng)絡(luò)模型,該模型可以增強(qiáng)網(wǎng)絡(luò)中較淺層非線性的非飽和度;同時(shí)在不降低性能的前提下,通過(guò)增加網(wǎng)絡(luò)的深度來(lái)學(xué)習(xí)能夠捕捉面部表情變化的多尺度特征。然而上述網(wǎng)絡(luò)模型較復(fù)雜,訓(xùn)練中需使用額外的數(shù)據(jù)集且難以部署到其他簡(jiǎn)易平臺(tái),故本文將采用一種輕量級(jí)的特征提取網(wǎng)絡(luò),在不降低性能的前提下簡(jiǎn)化訓(xùn)練過(guò)程。
注意力機(jī)制使網(wǎng)絡(luò)自適應(yīng)選擇圖像聚焦位置,學(xué)習(xí)更易分辨的特征表示。由于一幅圖像中總會(huì)存在與當(dāng)前任務(wù)無(wú)關(guān)的信息,因此,注意力機(jī)制在計(jì)算機(jī)視覺(jué)領(lǐng)域中得到了廣泛的應(yīng)用。文獻(xiàn)[23]構(gòu)建了一種壓縮-激勵(lì)(squeeze-and-excitatio, SE)的結(jié)構(gòu)單元,通過(guò)學(xué)習(xí)建模特征通道之間的依賴關(guān)系,以獲取到每個(gè)通道的權(quán)重,然后利用該權(quán)重來(lái)重點(diǎn)學(xué)習(xí)對(duì)當(dāng)前任務(wù)貢獻(xiàn)度較高的特征。文獻(xiàn)[24]設(shè)計(jì)出一種用于圖像分割的雙重注意力網(wǎng)絡(luò)(dual attention network, DANet),DANet利用自注意力機(jī)制分別在空間和通道2個(gè)維度上建模特征依賴關(guān)系,然后融合上述2種特征進(jìn)一步增強(qiáng)特征表示。然而上述注意力都只利用圖像的一階信息,限制了網(wǎng)絡(luò)的學(xué)習(xí)能力;文獻(xiàn)[25]提出一種二階通道注意力(second-order channel attention, SOCA)模塊用于圖像超分辨率,SOCA使網(wǎng)絡(luò)學(xué)習(xí)高頻信息較多的特征,讓其有利于超分辨率圖像的重構(gòu)。類似地,在無(wú)約束人臉表情識(shí)別任務(wù)中,二階信息能夠捕捉人臉局部區(qū)域的微小變形,有利于網(wǎng)絡(luò)學(xué)習(xí)到與表情變化相關(guān)的特征。受到上述研究的啟發(fā),本文設(shè)計(jì)了一種用于無(wú)約束人臉表情識(shí)別的二階有效通道注意力模塊。
本文設(shè)計(jì)的SECA-Net模型如圖1所示,該模型由輕量級(jí)的特征提取網(wǎng)絡(luò)(VoVNet-27-slim)、SECA模塊和全連接層3部分組成,其中,OSA為一次性聚合(one-shot aggregation)模塊。首先將人臉表情圖像輸入到輕量級(jí)特征提取網(wǎng)絡(luò)中獲得深層特征圖;然后使用SECA模塊統(tǒng)計(jì)深層表情特征的二階信息,并捕獲跨通道特征間的相互依賴關(guān)系,進(jìn)而學(xué)習(xí)到對(duì)無(wú)約束人臉情識(shí)別任務(wù)貢獻(xiàn)度較高的特征;最后,使用一個(gè)全連接層進(jìn)行表情分類。本文采用Softmax損失和中心損失構(gòu)成的聯(lián)合損失函數(shù)優(yōu)化模型。
卷積神經(jīng)網(wǎng)絡(luò)在圖像分類、目標(biāo)檢測(cè)和圖像分割等領(lǐng)域運(yùn)用廣泛。其中,文獻(xiàn)[11]提出的ResNet通過(guò)建立前層與后層之間的“短路連接”,從而解決深度網(wǎng)絡(luò)性能退化的問(wèn)題。為減小模型參數(shù)量和降低計(jì)算成本,文獻(xiàn)[12]提出DenseNet,該網(wǎng)絡(luò)的核心是每個(gè)層都會(huì)連接前面所有層的特征,實(shí)現(xiàn)特征重用以提升網(wǎng)絡(luò)性能。但DenseNet的密集連接方式使每個(gè)層的輸入通道數(shù)呈線性增長(zhǎng),這將會(huì)導(dǎo)致較高的內(nèi)存訪問(wèn)成本,并占用較大的顯存,使其訓(xùn)練速度變慢。于是,有研究者提出由OSA模塊組成的VoVNet,OSA模塊示意圖如圖2所示,該模塊只在最后一層聚集前面所有層的輸出特征,在降低特征冗余度的同時(shí)減少了模型參數(shù)量,并降低內(nèi)存訪問(wèn)成本[26]。具體地,N1和N2分別表示卷積層(卷積→批歸一化→非線性修正激活):Conv3×3-BN-ReLU和Conv1×1-BN-ReLU,F(xiàn)con∈Rc1×w×h表示聚集前面所有層特征的特征圖映射,F(xiàn)agg∈Rc×w×h表示將聚合后的特征圖通過(guò)N2得到具有不同感受野的特征圖。c1(c),w和h分別表示特征圖的通道數(shù)、寬和高。兼顧精度和開(kāi)銷,SECA-Net采用VoVNet-27-slim獲取人臉表情深層特征圖表示,VoVNet-27-slim的具體網(wǎng)絡(luò)組成見(jiàn)文獻(xiàn)[26]中的表1。其中,每一個(gè)conv層包括的操作順序?yàn)椋壕矸e→批歸一化→非線性修正激活,即Conv-BN-ReLU,其中未特別標(biāo)注步長(zhǎng)的地方默認(rèn)步長(zhǎng)為1,concat為通道間的特征圖連接操作。將一張人臉表情圖像3×90×90輸入到VoVNet-27-slim網(wǎng)絡(luò)中,最后輸出512×5×5大小的特征圖。
圖1 基于SECA-Net的無(wú)約束人臉表情識(shí)別體系結(jié)構(gòu)Fig.1 Architecture of SECA-Net for unconstrained facial expression recognition
圖2 OSA模塊示意圖Fig.2 Diagram of OSA module
文獻(xiàn)[25]基于二階信息[19]提出一種用于圖像超分辨率的二階通道注意力(second-order channel attention,SOCA)模塊,對(duì)其研究發(fā)現(xiàn),SOCA中涉及到的降維操作使網(wǎng)絡(luò)較難捕獲到跨通道間的依賴關(guān)系,不利于通道注意力的預(yù)測(cè)?;诖耍疚脑O(shè)計(jì)一個(gè)SECA,如圖3所示。其中,iSQRT-COV為迭代矩陣平方根歸一化方法;GCP為全局協(xié)方差池化(global convariance pooling)。SECA首先利用協(xié)方差池化層(圖3中虛線框部分)統(tǒng)計(jì)深層特征的二階信息,然后使用有效通道注意力捕獲局部跨通道的信息交互,進(jìn)而獲得通道注意力向量,最后將通道注意力向量和VoVNet-21-slim輸出的深層特征圖進(jìn)行乘積操作,輸出最終的注意力特征圖。
2.2.1 協(xié)方差池化層
1)協(xié)方差矩陣的計(jì)算。VoVNet-27-slim的最后一個(gè)卷積層輸出大小為c×w×h的特征圖。將上述大小的特征圖Fagg壓縮成一個(gè)m×c(m=w×h)的特征矩陣X,然后通過(guò)(1)式計(jì)算協(xié)方差矩陣S來(lái)進(jìn)行二階信息的統(tǒng)計(jì)(second-order statistics) ,表示為
(1)
圖3 二階有效通道注意力模塊圖示Fig.3 Second-order effective channel attention module
2)協(xié)方差矩陣的歸一化。由于文獻(xiàn)[27]中指出協(xié)方差歸一化操作可以獲得判別力較強(qiáng)的特征,將對(duì)上述操作得到的協(xié)方差矩陣進(jìn)行歸一化。具體地,協(xié)方差矩陣S是一個(gè)對(duì)稱的半正定矩陣,因此,可通過(guò)(2)式進(jìn)行矩陣特征值分解來(lái)求解S的平方根,表示為
S=UΛUT
(2)
(2)式中:U是一個(gè)正交矩陣;Λ=diag(λ1,…,λc)是對(duì)角矩陣,其中任意λi(i=1,…,c)是矩陣S的特征值(按遞減順序排列)。然后,將協(xié)方差歸一化操作轉(zhuǎn)換為求解協(xié)方差矩陣S特征值的平方根,計(jì)算式為
(3)
Y2=S
(4)
然而,由于在圖形處理器(graphic processing unit,GPU)上不能快速實(shí)現(xiàn)矩陣的特征值分解操作,故采用文獻(xiàn)[24]中提出的iSQRT-COV方法加速協(xié)方差歸一化的計(jì)算。令Y0=S,Z0=I,k=1,…,N,N代表迭代次數(shù),然后按照牛頓-舒爾茨迭代公式[28]更新,表示為
(5)
通過(guò)一定次數(shù)的迭代,Yk和Zk將分別二次收斂于Y和Y-1。(5)式只涉及到矩陣的乘積操作,故該方法適合在GPU上并行實(shí)現(xiàn)。在具體實(shí)現(xiàn)過(guò)程中,可通過(guò)設(shè)置一定的迭代次數(shù)求得近似解,后續(xù)實(shí)驗(yàn)中將迭代次數(shù)N設(shè)置為5。
牛頓-舒爾茨迭代方法僅是局部收斂,可通過(guò)(6)式保證其收斂性。
(6)
(7)
(8)
(8)式中,HGCP(·)代表全局協(xié)方差池化函數(shù)。與全局平均池化相比,全局協(xié)方差池化對(duì)網(wǎng)絡(luò)學(xué)習(xí)到的深層特征進(jìn)行二階信息的統(tǒng)計(jì),使網(wǎng)絡(luò)能捕捉到人臉表情區(qū)域的微小變化。
2.2.2 有效通道注意力
為充分利用協(xié)方差池化層中聚合特征的相互依賴關(guān)系,SECA將采用一個(gè)門(mén)控機(jī)制,使用sigmoid函數(shù)實(shí)現(xiàn)一個(gè)較為簡(jiǎn)單的門(mén)控函數(shù)[29],表示為
(9)
最終,由(9)式得到的注意力權(quán)重向量M和深層特征圖Fagg可根據(jù)(10)式得出注意力特征圖Fatt,表示為
Fatt=M?Fagg
(10)
(10)式中,?表示元素級(jí)的乘積操作。
由于Softmax損失在優(yōu)化類內(nèi)距離上的效果不理想,SECA-Net將其和中心損失[30]聯(lián)合使用來(lái)優(yōu)化表情的類內(nèi)距離。中心損失是通過(guò)將樣本拉向該樣本所屬類別的類中心來(lái)減小類內(nèi)距離,表示為
(11)
(11)式中,qyi∈Rc表示類別為yi(第i個(gè)樣本所屬類別)的類中心特征向量。最終,聯(lián)合使用中心損失LC和Softmax損失LS優(yōu)化網(wǎng)絡(luò)模型,聯(lián)合損失函數(shù)表示為
L=LS+λLC
(12)
(12)式中,變量λ∈[0,1]平衡2個(gè)損失。
實(shí)驗(yàn)采用2個(gè)廣泛應(yīng)用于無(wú)約束人臉表情識(shí)別的數(shù)據(jù)集(RAF-DB[17]和FER-2013[18])來(lái)評(píng)估SECA-Net,其數(shù)據(jù)集圖像實(shí)例如圖4所示(從左到右依次為:生氣、厭惡、害怕、開(kāi)心、中性、悲傷、驚訝)。RAF-DB有29 672張從互聯(lián)網(wǎng)上采集的人臉表情圖像,其中,訓(xùn)練集和測(cè)試集分別有12 271張和3 068張人臉圖像,這些圖像經(jīng)過(guò)人工眾包標(biāo)記和評(píng)估,包括6種基本表情和中性表情;FER-2013數(shù)據(jù)集中的人臉表情圖像是利用谷歌圖像搜索引擎下載收集的,其中,訓(xùn)練集有28 709張人臉圖像,測(cè)試集和驗(yàn)證集分別有3 589張圖像,該數(shù)據(jù)集的表情類別標(biāo)簽和RAF-DB相同。
圖4 RAF-DB(第1行)和FER-2013(第2行) 數(shù)據(jù)集示例圖Fig.4 Samples in RAF-DB (first row) and FER-2013 (second row)
由于RAF-DB中的人臉圖像大小(100×100)和FER-2013中的人臉圖像大小(48×48)不同,因此,在實(shí)驗(yàn)過(guò)程中將圖像大小統(tǒng)一轉(zhuǎn)換成90×90。為避免網(wǎng)絡(luò)模型過(guò)擬合,在訓(xùn)練前使用數(shù)據(jù)增強(qiáng)進(jìn)行訓(xùn)練樣本的擴(kuò)增,具體增強(qiáng)方法包括對(duì)圖像進(jìn)行隨機(jī)裁剪、隨機(jī)水平翻轉(zhuǎn)和在(-10°,10°)內(nèi)旋轉(zhuǎn)。本實(shí)驗(yàn)采用深度學(xué)習(xí)框架Pytorch(v 1.5),服務(wù)器的配置為Ubuntu 16.04,NVIDIA 2080ti GPUs, CUDNN v 7.2, CUDA v 9.2。初始網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)置0.1,每訓(xùn)練30個(gè)epoch,學(xué)習(xí)率下降為原來(lái)的1/10,總共迭代90個(gè)epoch,每次迭代的批處理大小為64。訓(xùn)練模型時(shí)采用SGD優(yōu)化算法,其中動(dòng)量系數(shù)為0.9,權(quán)重衰減系數(shù)為1E-5。實(shí)驗(yàn)表明,參數(shù)λ取0.000 5時(shí),本文提出的方法能取得較高的準(zhǔn)確率。
VGG[31],ResNet[11]和DenseNet[12]在表情識(shí)別中應(yīng)用較多,將這3種網(wǎng)絡(luò)與VoVNet-27-slim做進(jìn)一步實(shí)驗(yàn)對(duì)比分析,如表1所示。從表1可知,這3種網(wǎng)絡(luò)的模型參數(shù)量較大,且在訓(xùn)練時(shí)對(duì)顯存的需求較高,計(jì)算量(FLOPs)較大,模型過(guò)于復(fù)雜,不太適用于訓(xùn)練樣本數(shù)較少的人臉表情識(shí)別任務(wù)。而VoVNet-27-slim的模型參數(shù)、所需顯存和計(jì)算量均遠(yuǎn)低于其他3種網(wǎng)絡(luò),且識(shí)別準(zhǔn)確率最高,達(dá)到84.88%,進(jìn)一步驗(yàn)證SECA-Net采用VoVNet-27-slim的有效性。
表1 不同特征提取網(wǎng)絡(luò)在RAF-DB測(cè)試集上的性能Tab.1 Performance of different CNN architectures on the RAF-DB
為研究SECA中卷積核k的大小對(duì)表情識(shí)別準(zhǔn)確率的影響,本實(shí)驗(yàn)將卷積核k的大小分別設(shè)置為3、5、7和9,在RAF-DB和FER-2013上分別做實(shí)驗(yàn),結(jié)果如圖5所示。從圖5觀察可得,對(duì)于RAF-DB,隨著k值的增大,準(zhǔn)確率先增高后降低;而對(duì)于FER-2013,隨著k值的增大,準(zhǔn)確率先降低后增高,然后再降低,這是因?yàn)镕ER-2013數(shù)據(jù)圖像分辨率低且為灰度圖像,一些細(xì)節(jié)信息很難被模型提取到。具體地,當(dāng)k值較小時(shí),表明參與到一個(gè)通道注意力預(yù)測(cè)的鄰居特征點(diǎn)就越少,即模型很少利用到特征間的相關(guān)信息來(lái)進(jìn)行通道注意力權(quán)重的學(xué)習(xí);而當(dāng)k值較大時(shí),則意味著參與到一個(gè)通道注意力預(yù)測(cè)的鄰居特征點(diǎn)就越多,此時(shí)干擾信息也較多,不利于模型通道注意力權(quán)重的學(xué)習(xí);當(dāng)k=7時(shí),SECA模塊的效果最好。因此,在后續(xù)試驗(yàn)中將k的大小設(shè)置為7。
圖5 k的大小對(duì)模型識(shí)別準(zhǔn)確率的影響Fig.5 Effect of the model identificated accuracy with various number of k
SECA可以捕捉面部局部區(qū)域的微小變化,同時(shí)增強(qiáng)局部跨通道的特征交互能力。為從數(shù)據(jù)層面客觀驗(yàn)證SECA對(duì)無(wú)約束人臉表情識(shí)別的有效性,在SECA-Net模型中將SECA替換為4種常用注意力模塊(SE(second-order)[23],DANet[24],ECA(efficient channel attention)[29],SOCA[25]),然后在RAF-DB上做相同設(shè)置的實(shí)驗(yàn),分別訓(xùn)練模型,對(duì)得到的識(shí)別準(zhǔn)確率進(jìn)行對(duì)比分析,如表2所示。表2中基于一階信息的注意力模塊(SE、DANet、ECA)和基于二階信息的注意力模塊(SOCA、SECA)的數(shù)據(jù)對(duì)比可知,對(duì)深層特征進(jìn)行二階信息的統(tǒng)計(jì),將會(huì)提高人臉表情識(shí)別方法的準(zhǔn)確率。此外,在基于一階信息的3種注意力模塊(SE、DANet、ECA)中,通道注意力(SE、ECA)更有利于無(wú)約束人臉表情識(shí)別,因?yàn)樵诰W(wǎng)絡(luò)較深層已學(xué)習(xí)到人臉圖像的輪廓信息,更需要統(tǒng)計(jì)通道特征間的相關(guān)性。最后,在基于二階注意力的SOCA和SECA中,SECA準(zhǔn)確率高于SOCA,進(jìn)一步驗(yàn)證SECA在無(wú)約束人臉表情識(shí)別中的優(yōu)越性。
表2 不同注意力模塊在RAF-DB測(cè)試集上的實(shí)驗(yàn)對(duì)比Tab.2 Comparison of different attention modules on the RAF-DB
為從圖像層面直觀解釋SECA的優(yōu)勢(shì),將上述實(shí)驗(yàn)訓(xùn)練的5種模型進(jìn)行可視化表示,如圖6所示。
圖6 不同注意力模塊在RAF-DB上的注意力可視化圖Fig.6 Visualization diagrams of different attention modules on the RAF-DB
圖6a是數(shù)據(jù)集RAF-DB中的原始表情圖像,圖6b—圖6d是基于一階信息的注意力可視化圖,可看出這3種注意力會(huì)聚焦一些與表情特征無(wú)關(guān)的區(qū)域,圖6e—圖6f是基于二階信息的注意力可視化圖,可見(jiàn),基于二階信息的注意力更關(guān)注人臉表情特征區(qū)域的微小變形。同時(shí),對(duì)比圖6e—圖6f可知,SOCA雖然能夠捕捉到表情區(qū)域的微小變化,但它忽略了一些與表情高度相關(guān)的人臉組件,而SECA正好彌補(bǔ)了SOCA的不足,學(xué)習(xí)到表達(dá)能力更強(qiáng)的表情特征。
為驗(yàn)證SECA-Net對(duì)無(wú)約束人臉表情識(shí)別的有效性,將其與近幾年4種典型的無(wú)約束人臉表情識(shí)別方法進(jìn)行對(duì)比分析,如表3所示。從表3可知,SECA-Net在數(shù)據(jù)集RAF-DB和FER-2013上的識(shí)別準(zhǔn)確率都高于其他4種方法。此外,由于現(xiàn)有表情數(shù)據(jù)集的數(shù)據(jù)量較小,若設(shè)計(jì)的網(wǎng)絡(luò)模型參數(shù)量較大,則會(huì)導(dǎo)致模型過(guò)擬合,故本實(shí)驗(yàn)列出模型參數(shù)量的大小。顯然,SECA-Net的模型參數(shù)量為3.6×106,遠(yuǎn)低于文獻(xiàn)[14,17,33]中的模型參數(shù)量,雖然文獻(xiàn)[32]中的模型參數(shù)量最小,但它的識(shí)別準(zhǔn)確率遠(yuǎn)低于其他幾種方法。在評(píng)估網(wǎng)絡(luò)模型時(shí),內(nèi)存占用也是一個(gè)重要的評(píng)估指標(biāo),較高的內(nèi)存需求將會(huì)限制模型的使用設(shè)備,故本實(shí)驗(yàn)中還列出每種模型訓(xùn)練時(shí)所占用的GPU顯存,可以看出,SECA-Net所占顯存為3.1 GByte,而文獻(xiàn)[33]中的GCN所需顯存最低,僅需1.8 GByte,但SECA-Net所占顯存遠(yuǎn)低于剩余的其他3種方法,且準(zhǔn)確率在5種方法中最高。
表3 不同先進(jìn)方法在RAF-DB和FER-2013測(cè)試集上的性能Tab.3 Performance of different methods on the RAF-DB and the FER-2013
為進(jìn)一步分析SECA-Net模型的性能,實(shí)驗(yàn)還繪制了SECA-Net模型在2個(gè)數(shù)據(jù)集上訓(xùn)練過(guò)程中的損失變化曲線圖,如圖7所示。train和test分別是2個(gè)數(shù)據(jù)集中的訓(xùn)練集和測(cè)試集,橫坐標(biāo)表示訓(xùn)練的迭代次數(shù)epoch,縱坐標(biāo)表示模型的損失值。從圖7可看出,SECA-Net模型在訓(xùn)練60個(gè)epoch左右時(shí)其損失值基本趨于穩(wěn)定,即達(dá)到收斂狀態(tài),收斂速度較快。此外,訓(xùn)練集和測(cè)試集的損失曲線圖始終較為接近,即模型訓(xùn)練狀態(tài)穩(wěn)定且沒(méi)有出現(xiàn)過(guò)擬合現(xiàn)象。
圖7 SECA-Net損失值變化曲線圖Fig.7 Loss change curve of SECA-Net
為研究SECA-Net在2個(gè)數(shù)據(jù)集中每類表情的分類性能,本實(shí)驗(yàn)報(bào)告了混淆矩陣,如圖8所示。從圖8a可看出,RAF-DB上的厭惡和害怕這2種表情的識(shí)別準(zhǔn)確率略低,因?yàn)樵谟?xùn)練樣本中厭惡和害怕這2種表情的樣本數(shù)較少;從圖8b可看出,F(xiàn)ER-2013數(shù)據(jù)集中除開(kāi)心和驚訝這2種表情的識(shí)別準(zhǔn)確率較高以外,其他幾種表情的識(shí)別準(zhǔn)確率較低,主要是因?yàn)樵摂?shù)據(jù)集中的圖片是灰度圖且分辨率較低,缺少一些圖像細(xì)節(jié)信息,不利于網(wǎng)絡(luò)模型的細(xì)節(jié)特征提取。此外,厭惡易被誤識(shí)別為生氣,害怕易被誤識(shí)別為驚訝,因?yàn)檫@幾種表情本身的面部表情局部區(qū)域(眼睛和嘴巴)變化極為相似,所以在表情識(shí)別過(guò)程中較難識(shí)別這幾種表情,容易混淆。數(shù)據(jù)集的數(shù)據(jù)分布圖如圖9所示。圖9a中,RAF-DB訓(xùn)練集數(shù)據(jù)中開(kāi)心表情的樣本數(shù)最多,使其識(shí)別準(zhǔn)確率最高;圖9b中,F(xiàn)ER-2013訓(xùn)練集的數(shù)據(jù)分布圖中除厭惡表情的樣本數(shù)很少之外,其他幾種表情的樣本分布較為均衡,這一點(diǎn)可在混淆矩陣圖8b中得以體現(xiàn),因?yàn)閰拹罕砬榈臉颖緮?shù)較少,所以導(dǎo)致網(wǎng)絡(luò)模型提取相關(guān)特征不充足,進(jìn)而使得該表情識(shí)別準(zhǔn)確率最低。
圖8 混淆矩陣Fig.8 Confusion matrix
圖9 數(shù)據(jù)集的數(shù)據(jù)分布圖Fig.9 Data distribution of the dataset
SECA-Net由多個(gè)子模塊組成,為驗(yàn)證每個(gè)子模塊對(duì)模型識(shí)別最終性能的有效性,本文對(duì)每個(gè)子模塊在人臉表情數(shù)據(jù)集上做了實(shí)驗(yàn)且對(duì)其進(jìn)行分析和討論,如表4所示。首先,使用輕量級(jí)網(wǎng)絡(luò)VoVNet-27-slim獲取人臉表情圖像特征的深層表示;然后,將Softmax損失替換為由Softmax和中心(Center)損失組成的聯(lián)合損失函數(shù),使用聯(lián)合損失函數(shù)來(lái)優(yōu)化表情的類間和類內(nèi)距離;最后,在VoVNet-27-slim網(wǎng)絡(luò)末端加入本文提出的SECA模塊以提取人臉表情微小變形區(qū)域的紋理特征。
表4 子模塊在RAF-DB測(cè)試集上的性能分析Tab.4 Component analysis on the RAF-DB %
本文設(shè)計(jì)了一種新穎的SECA,并聯(lián)合輕量級(jí)網(wǎng)絡(luò)VoVNet-21-slim構(gòu)造了一種用于無(wú)約束人臉表情識(shí)別的網(wǎng)絡(luò)(SECA-Net)。SECA-Net首先采用VoVNet-27-slim提取人臉表情深層特征,然后使用SECA模塊統(tǒng)計(jì)深層表情特征的二階信息并捕獲跨通道特征間的相互依賴關(guān)系。SECA-Net能夠?qū)W習(xí)人臉表情微小變化的局部區(qū)域特征,并統(tǒng)計(jì)表情特征圖通道間的相關(guān)信息,進(jìn)而學(xué)習(xí)到對(duì)無(wú)約束人臉表情識(shí)別任務(wù)貢獻(xiàn)度較高的特征。在2個(gè)著名的無(wú)約束人臉表情數(shù)據(jù)集RAF-DB和FER-2013上的實(shí)驗(yàn)表明,相較于近年幾種先進(jìn)的無(wú)約束人臉表情識(shí)別方法,SECA-Net在識(shí)別準(zhǔn)確率、模型參數(shù)量和顯存需求上是具有競(jìng)爭(zhēng)力的。此外,SECA-Net也是一個(gè)通用的框架,可以推廣到類似的分類任務(wù)上。