葉耀光,陳宗楠,陳麗群,潘永琪,潘家輝,3
(1.華南師范大學 軟件學院,廣東 佛山 528225;2.華南農業(yè)大學 數(shù)學與信息學院 軟件學院,廣東 廣州 510642;3.琶洲實驗室,廣東 廣州 510320)
在現(xiàn)實生活中,人們常常需要交流各自的情緒信息來表達對某種事物的態(tài)度。人臉表情作為一種易直接觀察、易理解的情緒交流媒介,往往是人與人之間交流和人與機器之間交互的一把利器。近年來,隨著人們對于自身情緒心理健康的關注意識逐漸覺醒,同時由于人機交互場景提出的更高級交互需求,即情感交互,情緒識別技術逐漸成為新的研究熱點。而人臉表情識別技術更是其中的重頭戲,被廣泛用于醫(yī)療診斷、人機交互、危險駕駛檢測、公共安全等領域。
人臉表情的類型往往是復雜多樣的,其中,復合表情之間所表達的情緒存在交叉,準確地判斷出復合表情是極為困難且不現(xiàn)實的。考慮到基本表情的分類理解、使用頻率和呈現(xiàn)規(guī)律對于全人類而言是基本一致的,目前人臉表情識別的相關任務一般采用的是心理學家Ekman提出的六分類基本離散表情模型[1]。該模型定義了六種基本情緒類別,即憤怒、厭惡、恐懼、愉快、悲傷和驚訝,部分數(shù)據(jù)集還會標注額外的類別,比如CK+[2]數(shù)據(jù)集還包含平靜和輕蔑這兩類標注數(shù)據(jù)。
在人臉表情識別領域中,傳統(tǒng)方法使用預先設計的手工特征來表示人臉表情信息,但手工特征的表現(xiàn)模式較為固定,其穩(wěn)定性和適用性較差,圖像中的照明、旋轉和噪聲在內的變化可能會削弱這種手工制作的特征描述符的能力,往往不能完整地表示人臉表情中的關鍵情緒信息。于是,深度學習方法逐漸成為人臉表情識別任務的主流解決方案。
事實上,將深度學習應用于人臉表情識別任務中存在一個關鍵問題,即如何對神經網絡基于人臉表情識別任務進行適應性和針對性的設計,讓神經網絡學習到更具代表性和更符合人臉表情特性的判別性特征。針對這一問題有如下三點思考:(1)考慮到人臉表情中呈現(xiàn)的特征形狀往往是不規(guī)則的,若能夠讓神經網絡根據(jù)人臉特性采樣不規(guī)則特征,能夠有效提高人臉表情識別網絡的性能;(2)考慮到不同尺度的人臉特征所包含的情緒信息不盡相同,若能夠利用多個尺度特征圖的情緒信息進行融合學習,在提高網絡尺度不變性的同時,加強網絡學習上下文情緒信息的能力;(3)考慮到人臉表情的不同特征圖往往具有不同程度的重要性,若能讓網絡自適應關注關鍵特征圖,有助于提高網絡對于判別性特征的提取能力?;谏鲜鋈c思考,該文提出了一個基于通道注意的可變形金字塔網絡,該網絡以ResNet50作為原始網絡模型,通過將一般二維卷積變換為可變形卷積結構,達到加強網絡學習不規(guī)則特征能力的目的;通過在ResNet50的基本瓶頸塊后嵌入空間金字塔池化塊對多尺寸特征圖進行采樣,有助于網絡構建互補上下文語義信息;通過在網絡中嵌入通道注意塊,進一步加強網絡對不同語義情緒信息的關注能力。該文的貢獻如下:
(1)基于人臉表情的呈現(xiàn)特性,提出了一種可變形金字塔網絡。該網絡從加強不規(guī)則特征和多尺度特征的情緒信息提取能力兩方面出發(fā),提高人臉表情特征的判別性情緒信息的含量和質量,進而提高其進行情緒識別的精確性。
(2)根據(jù)可變形金字塔網絡特性,對應設計一個通道注意塊并嵌入于金字塔塊之后,減弱多語義多尺度特征冗余信息的干擾,有效加強網絡對于判別性特征的學習能力。
(3)在5個人臉表情識別數(shù)據(jù)集上開展廣泛的對比實驗以評估網絡的性能,結果顯示該網絡存在著較強的競爭力。此外還進行了詳細的消融實驗和結果可視化,以驗證各模塊的有效性。
卷積神經網絡廣泛應用于圖像識別領域,是人臉表情識別任務的一種重要解決方案,如VGGNet和殘差神經網絡ResNet等經典網絡都曾被用于提取深層面部表征,并在人臉表情識別任務中取得不錯的結果[3-4]。然而,若要進一步提高模型用于人臉表情識別任務的性能,還需要基于人臉表情識別任務進行適應性改進。Yang等人[5]提出了DeRL方法,通過為每個表情人臉重建一個中性人臉來結合情緒對比信息,提取更豐富的表情信息。鄧楚婕[6]通過將面部動作單元數(shù)據(jù)作為第二類輸入數(shù)據(jù),使用同一個網絡完成人臉表情識別和面部動作單元識別兩個任務,進而使得網絡對于微弱表情的識別更準確。鄭豪等人[7]同時考慮了樣本的情感標簽信息和局部空間分布信息,提出了一種用于人臉表情識別的判別式多任務學習方法。王玨[8]通過超分辨率技術獲得包含更多細節(jié)的高分辨率表情圖像,再進一步進行人臉表情識別。
注意力機制也是一種行之有效的通用方法,它們廣泛應用于人臉表情識別任務中來提高網絡對于表情特征的辨別能力。Farzaneh等人[9]提出了一種深度專注的中心丟失方法,他們通過使用CNN中的中間空間特征圖作為上下文來估計與特征重要性相關的注意權重。這些基于注意力的混合模型緩解了卷積濾波器在學習遠程感應偏差方面的弱點,并擴大了感受野。
根據(jù)上述研究情況,可以發(fā)現(xiàn)目前提出的人臉表情識別方法已經針對人臉表情識別任務設計許多適應性改進,然而,卻少有研究關注不規(guī)則人臉表情特征和多尺度人臉表情特征對于人臉表情識別任務的影響。該文設計了一個基于通道注意的可變形金字塔網絡,該網絡通過可變形卷積結構學習更符合人臉表情的不規(guī)則特征;通過金字塔架構學習多尺度人臉表情特征所含情緒信息的互補性;通過通道注意塊關注不同特征圖之間的重要性,降低特征圖之間情緒信息的冗余度。此外,還在訓練階段采用Softmax損失函數(shù)和中心損失函數(shù)混合而成的損失函數(shù),以減小不同表情類別的類內變化,增大類間變化。
該文綜合考慮了人臉表情的表現(xiàn)特性,結合可變形卷積、金字塔操作和通道注意的優(yōu)點,提出了一種基于通道注意的可變形金字塔網絡,用于完成人臉表情識別任務。該網絡的架構和整體處理流程如圖1所示。首先會對原始圖像進行預處理操作,得到相應的人臉圖像,作為特征提取器的輸入。而特征提取器以ResNet50網絡作為基線方法,通過嵌入多個可變形卷積核加強網絡學習不規(guī)則特征的能力,通過多次運用金字塔架構加強網絡對不同尺度特征信息的挖掘能力。經過特征提取器進行特征學習后,得到多張人臉表情特征圖,由全連接層進行特征信息融合,由Softmax函數(shù)計算情緒分類概率,得到最終情緒識別結果。
人類的視覺認知是由物體的結構因素引導的,通過在卷積神經網絡中嵌入可變形卷積模塊,可以使卷積神經網絡自適應地生成更明確的空間特征表示??勺冃尉矸e的概念首先由代季峰等人[10]提出,他們證明這種方法在目標檢測和語義分割任務中是有效的,但是卻鮮有研究者驗證其在人臉表情識別任務中的有效性。該文通過可變形卷積模塊,分離不同表情之間的結構信息,并使網絡能夠更好地捕獲上下文依賴關系。
具體地,在傳統(tǒng)3×3卷積核中,可以將卷積操作視為如下規(guī)則采樣網格:
每個位置的卷積輸出值通過采樣點的加權和求出:
其中,p0表示當前采樣點,pn(n∈(1,N),N為采樣點個數(shù)||)是對規(guī)則采樣網格每個采樣點位置的枚舉。而可變形卷積通過給傳統(tǒng)的卷積核中的每個采樣點添加一個二維偏移量來達到變形的目的,即對于每個采樣位置,其經過可變形卷積的計算公式為:
其中,Δpn即為設置的二維偏移量,這個二維偏移量作為一個額外的參數(shù),需要通過額外的卷積層根據(jù)輸入圖像的特征圖進行自適應學習,如圖2所示。
池化操作可以聚合輸入的特征圖的上下文信息,形成特定大小的特征圖。而多尺度特征在傳統(tǒng)方法中起著重要作用,例如,尺度不變特征變換算法通常在多個尺度上提取特征[11]。該文希望結合池化和多尺度特征的優(yōu)勢,學習到多尺度的人臉表情空間上下文特征。具體地,在ResNet50的每個基本瓶頸塊后添加一個空間金字塔池化塊,其結構及處理過程如圖3上半部分所示。該塊設置3個獨立的池化層,其池化大小分別為1、2、4?;酒款i塊處理后得到的特征圖Mo∈C×H×W將分別由這3個不同大小的獨立池化層進行池化操作,對應得到3張不同大小的池化特征圖,每張?zhí)卣鲌D將分別展平成一維向量,并沿著通道維度進行拼接,由通道注意塊進行進一步的處理??臻g金字塔池化塊的公式可表示如下:
MSPP=FlaCon(PAn×n(Mo))
其中,MSPP表示空間金字塔池化塊輸出的特征圖,Mo表示基本瓶頸塊處理后得到的特征圖,F(xiàn)laCon表示展平和拼接操作,PAn×n表示池化大小為n的平均池化操作,文中n∈{1,2,4}。
考慮到空間金字塔池化塊提取到的多尺度特征之間的重要性也有所差異,為了確保網絡捕捉到更有判別性的表情信息特征,通過注意力機制[12]來探索特征通道之間的相互依賴關系。通道注意塊的結構和處理流程如圖3下半部分所示,其以空間金字塔池化塊的輸出作為全局通道注意信息,輸入至通道注意塊中。通道注意塊使用兩個分別具有ReLU和Sigmoid激活函數(shù)的全連接層來學習通道之間的線性和非線性信息,捕獲特征之間的通道依賴關系。
通道注意塊的輸出特征圖公式如下:
MC=σ(F1(E(F2(MSPP))))
其中,F(xiàn)、E和σ分別指全連接層、ReLU激活函數(shù)和Sigmoid激活函數(shù)。F1旨在壓縮輸入特征的通道信息。在被ReLU激活函數(shù)激活后,這些特征隨后通過卷積層F2增加到原始通道數(shù)。該塊的最終輸出特征通過以下方式獲得:
Mout=MC?Mo
其中,?表示按元素進行乘法操作。
該文使用CK+[2]、JAFFE[13]、Oulu-CASIA[14]、FER2013和RAF-DB[15]五個人臉表情識別數(shù)據(jù)集來驗證該方法的有效性。這些數(shù)據(jù)集的詳細信息如下所述。
CK+數(shù)據(jù)集是一個實驗室環(huán)境的人臉表情數(shù)據(jù)集,包含來自123名受試者的593個圖像序列,每個序列包含15張靜態(tài)人臉圖像。該數(shù)據(jù)集記錄了受試者6種基本表情,部分受試者還記錄了輕蔑和平靜表情。在實驗中,與大多數(shù)相關研究相同,即分別進行6種基本表情的分類實驗和7種表情(6種基本表情+輕蔑)的分類實驗。在實驗過程中均選擇最后三幀來構建訓練集和測試集。
JAFFE數(shù)據(jù)集是一個實驗室環(huán)境的人臉表情數(shù)據(jù)集,包含213張來自10名日本女性的照片。其中30張圖像被標記為中性表情,而其他183張圖片被標記為6種基本表情的其中一種??紤]到該數(shù)據(jù)集樣本數(shù)量相對較少,應用數(shù)據(jù)增強增加數(shù)據(jù)量,以避免過擬合。
Oulu-CASIA數(shù)據(jù)集是一個實驗室環(huán)境的人臉表情數(shù)據(jù)集,共有80名受試者在可見光及正常照明條件下采集到的480個圖像序列。每個序列都有6種基本表情中的一種。在實驗過程中均選擇最后三幀來構建訓練集和測試集。
FER2013數(shù)據(jù)集是一個野外環(huán)境的人臉表情數(shù)據(jù)集,其所含圖像是從互聯(lián)網上收集的,由35 887張大小為48×48的灰度人臉圖像組成,每張圖像被標記為7種表情(6種基本表情+平靜)中的一種。
RAF-DB數(shù)據(jù)集是一個野外環(huán)境的人臉表情數(shù)據(jù)集,由15 339張人臉圖像組成,這些圖像是從各種搜索引擎收集的,包含7種表情分類(6種基本表情+平靜)。
該文在訓練模型時,使用隨機梯度下降算法作為優(yōu)化方法,初始學習率設置為1e-5,批處理大小設置為32。訓練過程中使用早停法,設置一個最大平穩(wěn)次數(shù)參數(shù),其值為6,在模型訓練過程中,當模型在驗證集上的誤差比此前最好結果差時,平穩(wěn)次數(shù)自增,若超過6,則提前停止訓練。設置一個平穩(wěn)耐性參數(shù),其值為2,當平穩(wěn)次數(shù)首次超過2時,學習率降低至原學習率的1/10。
為了提高模型的魯棒性,對數(shù)據(jù)較少或類別樣本不平衡的數(shù)據(jù)集進行數(shù)據(jù)增強:(1)對于輸入的人臉圖像,在尺寸范圍200×200和256×256之間進行隨機裁剪或填充,以削弱人臉圖像中人臉的相對位置的影響;(2)以50%的概率水平翻轉圖像,減弱人臉姿態(tài)對結果的影響;(3)在一定范圍內隨機改變圖像的亮度和對比度,減弱光照對結果的影響;(4)使用高斯模糊方法對圖像進行模糊處理,減弱清晰度對結果的影響。
為了評估該文提出的基于通道注意的可變形金字塔網絡的性能,首先在三個實驗室控制的數(shù)據(jù)集(CK+、JAFFE、Oulu-CASIA)上進行實驗。表1展示了其他研究和文中方法在這三個數(shù)據(jù)集上的實驗設置及準確率。文中方法在CK+數(shù)據(jù)集上進行了6分類和7分類實驗,在JAFFE和Oulu-CASIA數(shù)據(jù)集上進行了6分類實驗。
表1 實驗室環(huán)境數(shù)據(jù)集(CK+、JAFFE和Oulu-CASIA)上相關研究方法的實驗結果對比
考慮到CK+和Oulu-CASIA兩個數(shù)據(jù)集含有數(shù)量較多的表情圖像序列樣本,這兩個數(shù)據(jù)集也被廣泛用于動態(tài)人臉表情識別任務中。而該文所提出的方法相較于一些動態(tài)表情識別方法在準確率方面仍不遑多讓,這說明了符合人臉特性的表情特征對于人臉表情識別任務而言也是極為重要的,在一定程度上彌補了缺乏動態(tài)情緒信息的不足。綜合表現(xiàn)較好的DDL方法在CK+數(shù)據(jù)集上的準確率結果與文中方法相同,其通過多個子網絡來提取表情特征和非表情特征等干擾特征,從而讓模型集中在面部表情識別任務上。相對來說,DDL方法復雜度較高,需要融合4個子網絡的信息結果;且觀察其網絡的關注區(qū)域,發(fā)現(xiàn)其對于每種表情圖像,注意力均集中于圖像中的人臉五官,難以依據(jù)不同表情的特性進行動態(tài)關注,因此該文所提出的方法在另外兩個實驗室環(huán)境的數(shù)據(jù)集上的表現(xiàn)要優(yōu)于DDL。
對于JAFFE數(shù)據(jù)集,表現(xiàn)最好的研究是DAM-CNN[22],其模型由一個用于提取特征的VGG-Face網絡、用于細化CNN特征和突出顯著表情區(qū)域的顯著表情區(qū)域描述符和用于生成對多種高級表征的多徑變異抑制網絡構成。其中的顯著表情區(qū)域描述符部分中的注意力遮罩層設置為7×7大小,再通過雙線性池化方式上采樣得到輸入圖像的關注熱度圖,相較于DDL方法而言具有更加粗的關注細粒度。該方式所產生的關注熱度圖雖然能讓網絡的關注位置集中于人臉部分,但卻并不利于關注人臉表情變化時的微小肌肉變化,產生較多冗余信息,導致該方法在CK+數(shù)據(jù)集上取得了一個較為落后的效果,而該文所提出的方法綜合考慮了人臉表情圖像中的特性,利用不規(guī)則特征和多尺度特征的情緒信息,加強網絡對于多尺度特征的表征能力。
圖4為文中方法在CK+、JAFFE和Oulu-CASIA三個實驗室環(huán)境數(shù)據(jù)集中計算得到的混淆矩陣??偟膩碚f,該方法在CK+和JAFFE兩個數(shù)據(jù)集中獲得的整體準確率較高,因此對各種表情的識別也表現(xiàn)頗佳。而從Oulu-CASIA數(shù)據(jù)集的混淆矩陣中發(fā)現(xiàn),該方法對于每種表情的分類準確率較為接近,并未對某種情緒有明顯的偏向性,這說明了該方法能較好地學習到6種基本表情的判別性特征。
為了進一步驗證該文所提出的方法的有效性,還在FER2013和RAF-DB兩個野外人臉表情數(shù)據(jù)集上開展了相關實驗,其結果分別如表2和表3所示。
表2 FER2013數(shù)據(jù)集的相關方法及其準確率
表3 RAF-DB數(shù)據(jù)集的相關方法及其準確率
由于FER2013存在圖像質量差、標注錯誤等問題,在不進行數(shù)據(jù)清洗的情況下,該數(shù)據(jù)集的準確率一般在75%以下。在FER2013的相關研究中,SDFL[25]針對L2正則化應用于人臉表情識別中的弊端,提出了一種基于特征稀疏性的正則化方法,該方法結合L2正則化和中心損失,能夠學習具有更好泛化能力的深層特征,這在一定程度上符合野外人臉表情識別數(shù)據(jù)的信息稀疏性特性,但由于其所用網絡并未相應地針對人臉圖像的相關特性作適應性改進,導致其在各個數(shù)據(jù)集上的準確率無法處于領先水平,而該文所提出的方法則較好地兼顧了這兩個問題,除了將人臉表情特性納入考慮范圍之外,也采用了Softmax損失函數(shù)和中心損失函數(shù)混合的損失函數(shù),在一定程度上提高了網絡的泛化能力。
對于RAF-DB數(shù)據(jù)集,F(xiàn)DRL[21]是所列研究中準確率最高的方法,該研究認為情緒信息是表情相似性和表情獨立性的組合,其通過特征分解網絡首先將基本特征分解為一組面部動作感知潛在特征,以建模表情相似性;通過特征重構網絡捕捉潛在特征的特征內和特征間關系,以描述特定情緒的變化,并重建表情特征。盡管FDRL所提出的方法實現(xiàn)較為復雜,但該方法的思想在一定程度上也符合表情的呈現(xiàn)特性,針對野外環(huán)境下的圖像數(shù)據(jù)有較好效果,使得模型的適用性和魯棒性有所提高。
針對所提出的基于通道注意的可變形金字塔網絡方法的各個關鍵組件進行了廣泛的消融實驗,以評估其不同組成部分的有效性,結果如表4所示。以ResNet50為基線方法,在此基礎上逐步加入文中各個模塊,并在五個數(shù)據(jù)集上進行實驗,比較最終準確率。其中,CK+數(shù)據(jù)集上進行的是6分類實驗。
表4 關于每個關鍵組件的消融實驗
從消融實驗結果上看,空間金字塔池化塊在人臉表情識別任務中起到的作用更大,可變形卷積塊次之。這在一定程度上說明人臉表情對多尺度空間上下文信息較為敏感,而可變形卷積塊也對網絡進一步學習不規(guī)則特征有所幫助。
此外,通道注意塊也能動態(tài)關注網絡所提取的特征圖,有效降低冗余情緒信息含量,優(yōu)化情緒識別性能。最終,該文所提出的方法結合了可變形卷積塊、空間金字塔池化塊和通道注意塊,從不規(guī)則和多尺度上下文信息這兩個符合人臉表情特性的角度出發(fā),挖掘出更多判別性特征,并通過通道注意塊抑制冗余特征的重要性,突出判別性特征的貢獻度,最終在5個人臉表情識別數(shù)據(jù)集上取得最佳結果。
使用t-SNE[29]分別可視化基線方法和文中方法提取的表情特征向量,如圖5所示。從基線方法提取的表情特征區(qū)分度較低,而從文中提出的方法中提取的特征類內差異較小,類間差異較大。愉快與恐懼、驚訝的類間距離較為接近,而厭惡與悲傷、恐懼的距離較為接近,這個規(guī)律在一定程度上符合現(xiàn)實中的表情呈現(xiàn)特性。
還使用Grad-CAM[30]方法計算得到不同模型在Oulu-CASIA數(shù)據(jù)集中6種表情分類的熱度圖,以展示不同模型對于不同表情的關注區(qū)域的差異,其結果如圖6所示。從圖中可以看出,基線方法相較于其他方法而言,其關注的區(qū)域面積較大片,且同等關注程度的區(qū)域形狀相對比較規(guī)則;加入了可變形卷積塊后,關注的區(qū)域會有向外蔓延的趨勢,形成不規(guī)則的形狀;而加入了空間金字塔池化塊后,關注的區(qū)域保留了上一模型的特點,并顯得更加細膩,不同區(qū)域的上下文信息存在一定交互,因此更為突出重點區(qū)域;繼續(xù)加入通道注意塊后,得到文中方法進一步突出了判別性特征的重要性,而抑制非關鍵特征的干擾。
基于人臉表情的呈現(xiàn)特性,在經典卷積神經網絡ResNet50的基礎上針對人臉表情識別任務進行合理的適應性改進,提出了一個基于通道注意的可變形金字塔網絡。在該網絡中,嵌入了多個可變形卷積塊、空間金字塔池化塊和通道注意塊,提高網絡對于不規(guī)則特征和多尺度空間上下文特征的表征能力。該方法在3個實驗室環(huán)境的人臉表情識別數(shù)據(jù)集和2個野外環(huán)境的人臉表情數(shù)據(jù)集上開展了廣泛的對比實驗和消融實驗,并均取得了領先層次的識別準確率結果,從而驗證了該方法和其中各個模塊的有效性。從可視化結果上看,該方法促使網絡進一步關注與表情強相關的人臉區(qū)域,且在一定程度上符合人們對于各種表情顯著區(qū)域的理解,進而從另一個角度論證了該方法的有效性。當然,該方法還存在著較大的改進空間,未來的研究方向有二:(1)進一步考慮人臉表情的呈現(xiàn)特性,實現(xiàn)更多針對人臉表情識別任務的網絡或模塊設計,提高判別性特征的質量;(2)結合更多種類的表情特征,比如動態(tài)特征,表情相似性與獨立性特征,提高判別性特征的含量比,進而更好地完成人臉表情識別任務。