呂 誨,童倩倩,袁志勇
武漢大學(xué) 計(jì)算機(jī)學(xué)院,武漢430072
人臉表情識(shí)別(Facial Expression Recognition,F(xiàn)ER)在社交機(jī)器人、醫(yī)療服務(wù)、駕駛員疲勞監(jiān)測等許多人機(jī)交互系統(tǒng)中具有重要的現(xiàn)實(shí)意義。無論是可控環(huán)境(無遮擋、姿勢(shì)標(biāo)準(zhǔn)和光照平衡)還是復(fù)雜環(huán)境下的FER都是計(jì)算機(jī)視覺領(lǐng)域長期以來的研究重點(diǎn)。與可控條件下的FER相比,復(fù)雜環(huán)境下的FER更具實(shí)際應(yīng)用價(jià)值。然而,由于受人臉姿勢(shì),遮擋物以及光照不平衡等因素影響,實(shí)現(xiàn)復(fù)雜環(huán)境下的實(shí)時(shí)精確的FER更具挑戰(zhàn)性,更是當(dāng)前FER領(lǐng)域的一大難題。
FER程序一般分為三個(gè)步驟:人臉圖像預(yù)處理、人臉表情特征提取以及表情判定。其中,人臉對(duì)齊作為最常見的人臉圖像預(yù)處理方式,通過提取人臉特征點(diǎn)坐標(biāo),利用仿射變換將雙眼坐標(biāo)旋轉(zhuǎn)至同一水平線的方式來矯正人臉。然而,人臉對(duì)齊處理存在兩方面弊端:首先,人臉特征點(diǎn)提取本身耗費(fèi)大量時(shí)間,而且復(fù)雜環(huán)境下由于遮擋、姿勢(shì)傾斜、光照不平衡等因素可能造成特征點(diǎn)提取失敗;再者,通過雙目坐標(biāo)來轉(zhuǎn)正人臉可能損失與表情識(shí)別相關(guān)的人臉像素。Kim等人[1]針對(duì)自然環(huán)境下人臉特征點(diǎn)提取易失敗的問題,提出對(duì)齊映射網(wǎng)絡(luò)(Alignment-Mapping Network,AMN),學(xué)習(xí)非對(duì)齊面部狀態(tài)到對(duì)齊面部狀態(tài)的映射;Yu等人[2]通過結(jié)合三種人臉特征點(diǎn)提取方法(DCNN[2]、JDA[3]、MoT[4])提高特征點(diǎn)提取的準(zhǔn)確率。然而,目前鮮有研究解決特征點(diǎn)轉(zhuǎn)正造成面部像素丟失的問題,導(dǎo)致復(fù)雜人臉表情識(shí)別的精度較低,魯棒性較差。
傳統(tǒng)表情識(shí)別方法一般采用手動(dòng)方式進(jìn)行表情特征提取,并利用傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行表情判定。文獻(xiàn)[5]采用局部二值化模式(Local Binary Pattern,LBP)提取表情特征以減少面部光照不平衡對(duì)表情識(shí)別的影響,利用支持向量機(jī)(Support Vector Machine)進(jìn)行表情判定。Zhao等人[6]進(jìn)一步通過融合三個(gè)正交平面上的LBP(LBP on three orthogonal planes)特征加強(qiáng)表情特征提取的魯棒性,減少面部姿勢(shì)及光照等因素影響,并且結(jié)合K近鄰K-Nearest Neighbors,KNN)及隱馬爾科夫模型(Hidden Markov Models,HMM)對(duì)表情進(jìn)行判定。Zhi等人[7]在非負(fù)矩陣分解(Non-negative Matrix Factorization,NMF)的理論基礎(chǔ)上提出圓形保留稀疏非負(fù)矩陣分解(Graph-preserving Sparse Non-negative Matrix Factorization,GSNMF)方式來凸顯面部特征提高表情特征識(shí)別率,最終的表情判定同樣使用KNN實(shí)現(xiàn)。傳統(tǒng)表情識(shí)別研究中,缺乏對(duì)表情識(shí)別效率的考慮,同時(shí)由于傳統(tǒng)機(jī)器學(xué)習(xí)分類方法的局限性造成表情識(shí)別的準(zhǔn)確率低下。
隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在圖像分割、圖像分類等計(jì)算機(jī)視覺領(lǐng)域展現(xiàn)出優(yōu)異的性能,越來越多的研究傾向于利用卷積神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)表情特征提取以提高表情判定的魯棒性。Kim等人[8]通過融合多個(gè)CNN的結(jié)果進(jìn)行指數(shù)加權(quán)決策融合判定靜態(tài)表情類型;Li等人[9]提出了一種新的保持深度局域的CNN方法,旨在通過保持局部緊密度的同時(shí)最大化類間差距來增強(qiáng)表情類別間的辨別力。Kample等人[10]在分析了多個(gè)文獻(xiàn)中的算法差異和性能影響之后,通過構(gòu)建級(jí)聯(lián)CNN來提高表情識(shí)別的精度。上述研究雖然在一定程度上提升了識(shí)別準(zhǔn)確率,但是復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)和連接方式使得訓(xùn)練過程相當(dāng)繁瑣,難以達(dá)到實(shí)時(shí)識(shí)別。為了提高識(shí)別效率,Arriaga等人[11]結(jié)合殘差模塊和深度可分離卷積層極大程度簡化了網(wǎng)絡(luò)結(jié)構(gòu),使得構(gòu)建的CNN能實(shí)現(xiàn)實(shí)時(shí)識(shí)別效果,但是該模型只能達(dá)到基準(zhǔn)精度。綜上所述,現(xiàn)有的表情識(shí)別研究無法兼顧識(shí)別精度和識(shí)別效率。
本文提出一種基于人臉分割的實(shí)時(shí)復(fù)雜表情識(shí)別框架,該框架包含人臉區(qū)域分割網(wǎng)絡(luò)FsNet(Face segmentation Network)以及輕量級(jí)表情分類網(wǎng)絡(luò)TcNet(Tiny classification Network)。FsNet采用全卷積的U型網(wǎng)絡(luò)結(jié)構(gòu),分割出復(fù)雜環(huán)境人臉圖像中與表情識(shí)別最相關(guān)的感興趣區(qū)域,定義為識(shí)別感興趣區(qū)域(Recognition Region of Interest,RROI)。采用深度可分離卷積、線性bottlenecks和倒置殘差結(jié)構(gòu)構(gòu)建TcNet對(duì)FsNet分割得到的人臉圖像RROI進(jìn)行表情分類。FsNet和TcNet均具備網(wǎng)絡(luò)結(jié)構(gòu)輕量化,訓(xùn)練參數(shù)量以及模型占用內(nèi)存少的優(yōu)點(diǎn),有助于提高整個(gè)表情識(shí)別框架的效率。本文創(chuàng)新點(diǎn)如下:
(1)提出基于人臉區(qū)域分割的復(fù)雜表情識(shí)別框架,該框架首先采用分割網(wǎng)絡(luò)FsNet檢測與FER最相關(guān)的RROI以減少非目標(biāo)區(qū)域的影響,分割所得RROI再通過分類網(wǎng)絡(luò)TcNet實(shí)現(xiàn)人臉表情識(shí)別。
(2)利用U型全卷積結(jié)構(gòu)構(gòu)建分割網(wǎng)絡(luò)FsNet檢測RROI,避免了復(fù)雜環(huán)境下利用特征點(diǎn)分割人臉失敗的情況,并且較大幅度提升了復(fù)雜環(huán)境下FER的精度。
(3)采用深度可分離卷積構(gòu)建分類網(wǎng)絡(luò)TcNet以減少網(wǎng)絡(luò)參數(shù),并引入線性bottlenecks和倒置殘差結(jié)構(gòu),以緩解低維特征退化并增加網(wǎng)絡(luò)容量與特征表達(dá)能力。實(shí)驗(yàn)表明本文方法既能提高識(shí)別效率又能確保表情識(shí)別精度。
本文構(gòu)建的基于人臉分割的表情識(shí)別框架如圖1所示,框架整體包含人臉區(qū)域分割和人臉表情識(shí)別,兩部分功能分別通過FsNet和TcNet實(shí)現(xiàn)。在訓(xùn)練FsNet之前,基于已有數(shù)據(jù)集構(gòu)建人臉區(qū)域分割數(shù)據(jù)集,提取現(xiàn)有的復(fù)雜人臉表情圖像中的人臉特征點(diǎn),對(duì)于能夠成功提取特征點(diǎn)的人臉圖像,根據(jù)特征點(diǎn)坐標(biāo)構(gòu)成的凸多邊形裁剪出與FER最相關(guān)的面部RROI并將其處理成Mask圖像作為FsNet的訓(xùn)練標(biāo)簽,原始人臉圖像作為網(wǎng)絡(luò)的輸入數(shù)據(jù)。最終,原始復(fù)雜人臉圖像先經(jīng)過FsNet進(jìn)行人臉區(qū)域分割預(yù)處理,再經(jīng)過TcNet判定表情類別。
圖1 基于人臉分割的表情識(shí)別框架
2.2.1 數(shù)據(jù)集構(gòu)建
本文所有實(shí)驗(yàn)基于兩個(gè)復(fù)雜環(huán)境下表情識(shí)別經(jīng)典數(shù)據(jù)集:FER-2013和RAF-DB。FER-2013[12]數(shù)據(jù)集是在ICML2013表達(dá)學(xué)習(xí)挑戰(zhàn)期間引入的,由Google圖像搜索API自動(dòng)收集的大規(guī)模且無約束的數(shù)據(jù)庫。大多數(shù)圖像是在真實(shí)條件下捕獲的。該數(shù)據(jù)集中包含一些噪聲,人類識(shí)別準(zhǔn)確度大約為65%。FER-2013包含35 887張灰度人臉,像素大小為48×48,其中28 709張訓(xùn)練圖像,3 589張驗(yàn)證圖像和3 589張測試圖像。數(shù)據(jù)集包含7種表情類別:憤怒、失望、恐懼、快樂、悲傷、驚訝和中立。
真實(shí)世界人臉情感數(shù)據(jù)集(Real-world Affective Face Database)RAF-DB[9]是一個(gè)采集于真實(shí)場景中的數(shù)據(jù)庫,包含從互聯(lián)網(wǎng)下載的29 672張高度多樣化的面部圖像。通過手動(dòng)眾包注釋和可靠估計(jì),為樣本提供了7種基本和11種復(fù)合情感標(biāo)簽。本實(shí)驗(yàn)中使用的是基本情緒集中的15 339張圖像,包含12 271張訓(xùn)練樣本和3 068張測試樣本,數(shù)據(jù)集被標(biāo)注為7種情緒類別:驚訝、恐懼、失望、快樂、悲傷、憤怒和中立。
在人臉區(qū)域分割數(shù)據(jù)集構(gòu)建階段。首先,應(yīng)用文獻(xiàn)[13]中的二維人臉關(guān)鍵點(diǎn)定位技術(shù)提取人臉圖像的68個(gè)人臉特征點(diǎn)坐標(biāo),該過程存在特征點(diǎn)提取失敗的案例,將特征點(diǎn)提取成功的案例定義為“可對(duì)齊狀態(tài)”,特征點(diǎn)提取失敗的案例定義為“非可對(duì)齊狀態(tài)”。其次,對(duì)于“可對(duì)齊狀態(tài)”的人臉圖像,根據(jù)68個(gè)特征點(diǎn)坐標(biāo)構(gòu)成的凸多邊形裁剪出與FER最相關(guān)的面部RROI。最后,將標(biāo)定好面部區(qū)域的人臉圖像處理成Mask圖像作為FsNet的訓(xùn)練標(biāo)簽,處于“可對(duì)齊狀態(tài)”的人臉原圖像作為FsNet的訓(xùn)練數(shù)據(jù)。在數(shù)據(jù)集構(gòu)建階段,F(xiàn)ER-2013數(shù)據(jù)集中成功對(duì)齊34 674張圖像,1 213張圖像處于“非可對(duì)齊狀態(tài)”。RAF-DB數(shù)據(jù)集的情況為15 092張圖像處于“可對(duì)齊狀態(tài)”,247張圖像處于“非可對(duì)齊狀態(tài)”。
2.2.2 FsNet分割網(wǎng)絡(luò)
在成功構(gòu)建人臉分割數(shù)據(jù)集之后,本文提出針對(duì)人臉區(qū)域分割網(wǎng)絡(luò)FsNet。由于數(shù)據(jù)集的構(gòu)建方式與人臉區(qū)域分割思路的獨(dú)特性,F(xiàn)sNet需滿足以下條件:
(1)在訓(xùn)練數(shù)據(jù)量較少的情況下達(dá)到精準(zhǔn)的分割效果,提取出人臉圖像中與FER最相關(guān)的面部RROI,去除非RROI面部區(qū)域。
(2)網(wǎng)絡(luò)框架精簡,模型占用空間少,保證實(shí)時(shí)分割效率。
Unet[14]是基于全卷積網(wǎng)絡(luò)[15]的一個(gè)語義分割網(wǎng)絡(luò),適用于醫(yī)學(xué)圖像分割領(lǐng)域。作為一個(gè)端到端的網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)包括捕獲上下文信息特征的收縮路徑和對(duì)稱的對(duì)像素進(jìn)行定位分割的擴(kuò)展路徑,網(wǎng)絡(luò)整體不包含全連接層,可以通過訓(xùn)練極少量的圖像獲得精確高效的分割效果。同時(shí)因?yàn)獒t(yī)學(xué)圖像具備組織像素易變性的特性,Unet網(wǎng)絡(luò)對(duì)于學(xué)習(xí)形變中的不變形具有更高的魯棒性。而自然環(huán)境下FER研究中由于物體遮擋,人臉姿勢(shì)等因素同樣存在人臉像素易變形的問題,這一點(diǎn)與醫(yī)學(xué)圖像的形變頗為類似。
綜上,Unet的網(wǎng)絡(luò)結(jié)構(gòu)特征恰巧滿足于本文中對(duì)FsNet的需求。因此,本文最終的FsNet基于Unet結(jié)構(gòu),但是整體結(jié)構(gòu)更加精簡高效。圖2展示了本文的網(wǎng)絡(luò)結(jié)構(gòu)。整體結(jié)構(gòu)由收縮路徑(左側(cè))和擴(kuò)展路徑(右側(cè))組成,收縮路徑與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)類似,包括三組兩個(gè)3×3二維卷積層(Conv2D),每個(gè)卷積后跟一個(gè)ReLU激活函數(shù)和一個(gè)步長為2的2×2極大值下采樣層(Max-Pooling2D),在每個(gè)下采樣步驟中,特征通道的數(shù)量都會(huì)加倍。擴(kuò)展路徑中的每一步都包括對(duì)特征映射進(jìn)行上采樣,然后進(jìn)行2×2二維卷積(Conv2D),將特征通道數(shù)量減半,與來自收縮路徑的相應(yīng)裁剪特征映射串聯(lián),以及兩個(gè)3×3卷積層,每個(gè)卷積層之后都接一個(gè)ReLU激活函數(shù)。在最后一層,使用1×1卷積操作將每個(gè)特征向量映射到所需數(shù)量的類。網(wǎng)絡(luò)有19個(gè)卷積層,包含約7 500個(gè)計(jì)算參數(shù)。
圖2 FsNet網(wǎng)絡(luò)結(jié)構(gòu)
一般來說,應(yīng)用于表情識(shí)別的CNN網(wǎng)絡(luò),網(wǎng)絡(luò)深度的增加會(huì)使其具備更精確的特征提取效果。這一觀點(diǎn)在Kample等人[10]的研究中得以證實(shí)。作者通過比較與分析不同深度的CNN產(chǎn)生的表情識(shí)別效果證明:更深層次的網(wǎng)絡(luò)對(duì)學(xué)習(xí)決策基礎(chǔ)的結(jié)構(gòu)施加了更強(qiáng)的先驗(yàn),有效地克服了過擬合的問題,使得識(shí)別效果更具魯棒性。另一方面,隨著現(xiàn)階段網(wǎng)絡(luò)結(jié)構(gòu)研究的深入,越來越多的研究[13-15]表明更深的網(wǎng)絡(luò)不一定具有更多的參數(shù),網(wǎng)絡(luò)的深度不僅僅取決于網(wǎng)絡(luò)的層數(shù),重點(diǎn)在于學(xué)習(xí)更深層次特征的能力。最后,Khorrami等人[16]的研究表明,應(yīng)用于FER的CNN網(wǎng)絡(luò)并不需要很深的層次,5層的網(wǎng)絡(luò)已經(jīng)足夠?qū)W習(xí)到有辨別力的高級(jí)特征。
2.3.1 深度可分離卷積
深度可分離卷積是許多高效神經(jīng)網(wǎng)絡(luò)框架[14-19]的關(guān)鍵構(gòu)建塊,基本思想是將傳統(tǒng)卷積操作分解為深度卷積和逐點(diǎn)卷積兩部分,前者通過對(duì)每個(gè)輸入通道應(yīng)用單個(gè)卷積濾波器來執(zhí)行輕量級(jí)濾波,后者預(yù)先形成1×1標(biāo)準(zhǔn)交叉通道,通過計(jì)算輸入通道的線性組合構(gòu)建新特征。假設(shè)在H×W×di的特征圖上使用卷積核大小為k×k,深度為dj的標(biāo)準(zhǔn)卷積操作,計(jì)算參數(shù)為H×W×di×dj×k×k。
深度可分卷積與傳統(tǒng)卷積操作產(chǎn)生的效果一樣,計(jì)算參數(shù)為H×W×di(k2+dj)。
由此可見,同等效果的卷積操作,常規(guī)卷積操作的計(jì)算參數(shù)量是深度可分離卷積的k2di/(k2+dj)倍,結(jié)構(gòu)差異如圖3所示。
圖3 結(jié)構(gòu)差異示意圖
2.3.2 線性bottlenecks和倒置殘差結(jié)構(gòu)
深度可分離卷積確實(shí)大大降低了網(wǎng)絡(luò)的計(jì)算量,但是Howard等人[20]的研究表明,深度可分離卷積中經(jīng)過降維所產(chǎn)生的輸入流形由于維度較低,在經(jīng)過非線性函數(shù)ReLU的激活后,極易造成有用信息的缺失??紤]到如果興趣流行經(jīng)過ReLU后參數(shù)非0,那么輸出和輸入必定是經(jīng)過了一個(gè)線性變換,那么ReLU的作用僅僅相當(dāng)于線性分類器。而研究表明,要想保持輸入流形的完整信息,必須讓輸入流形位于輸入空間的低維子空間。線性bottlenecks的思想在于在維數(shù)較低的通道后去掉ReLU激活函數(shù),減少ReLU對(duì)有利特征的破壞。
傳統(tǒng)的殘差模塊設(shè)計(jì)中,往往會(huì)將輸入通道數(shù)先用逐點(diǎn)卷積降維,執(zhí)行正常的卷積操作后再用逐點(diǎn)卷積還原,殘差操作將網(wǎng)絡(luò)輸入與輸出之間建立恒等的快捷連接加快網(wǎng)絡(luò)的收斂。而倒置殘差結(jié)構(gòu)剛好相反,先進(jìn)行1×1卷積將通道擴(kuò)張到較高的維度,在進(jìn)行深度卷積操作之后再將特征通道降維成原先的維度,使得快捷連接建立在通道數(shù)較少的特征表述層之間。
線性bottlenecks和倒置殘差的結(jié)構(gòu)的設(shè)計(jì),極大程度緩解ReLU帶來的特征退化的問題,同時(shí)將層輸入、輸出空間與層變換操作分離,增加了網(wǎng)絡(luò)容量和特征學(xué)習(xí)表達(dá)力,減少了網(wǎng)絡(luò)運(yùn)行時(shí)間及占用內(nèi)存。
2.3.3 TcNet分類網(wǎng)絡(luò)
本文最終采用深度可分離卷積操作,線性bottlenecks模塊和倒置殘差結(jié)構(gòu)構(gòu)建表情識(shí)別網(wǎng)絡(luò)TcNet,網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,分割后的人臉圖像首先經(jīng)過通道數(shù)為8的二維卷積(Conv2D),中間連接4個(gè)使用線性bottlenecks的倒置殘差層,最后使用輸出通道為7(等同于情感類別數(shù))標(biāo)準(zhǔn)二維卷積(Conv2D)產(chǎn)生情感類別,并使用二維全局平均(Global Average Pooling2D)和SoftMax激活函數(shù)產(chǎn)生每個(gè)情感類別的預(yù)測概率。網(wǎng)絡(luò)包含約66 000個(gè)計(jì)算參數(shù)。
圖4 TcNet網(wǎng)絡(luò)結(jié)構(gòu)
本文所有實(shí)驗(yàn)基于Python語言的Keras框架搭建,操作系統(tǒng)為64位Ubuntu16.04 LTS,硬件平臺(tái)為Intel-Corei5-7400,主頻3.00 GHz,內(nèi)存為8 GB,GPU 1050Ti,顯存4 GB。
表1 FsNet分割結(jié)果
FsNet人臉區(qū)域分割網(wǎng)絡(luò)實(shí)驗(yàn)中,人臉圖像與Mask標(biāo)簽均處理成64×64像素大小,訓(xùn)練結(jié)果如表1所示。在FER-2013數(shù)據(jù)集上獲得95.02%的分割準(zhǔn)確率,略低于RAF-DB數(shù)據(jù)集上的分割準(zhǔn)確率,為96.23%。利用FsNet網(wǎng)絡(luò)分割人臉區(qū)域效果與使用人臉特征點(diǎn)裁剪人臉區(qū)域的效果如圖5所示,圖中的分割結(jié)果表明,F(xiàn)sNet具備與利用特征點(diǎn)裁剪人臉基本相同的分割效果。FsNet最終保存模型的大小為188 kb。
圖5 FER-2013與RAF-DB分割效果示意圖
原始人臉圖像和利用FsNet分割處理后的人臉圖像(圖像大小統(tǒng)一處理成64×64像素)分別進(jìn)行訓(xùn)練以驗(yàn)證分割效果對(duì)于識(shí)別準(zhǔn)確度的提升,其次與文獻(xiàn)[11]中同樣具備參數(shù)量少且內(nèi)存需求小特點(diǎn)的mini-Xception以及其他不同網(wǎng)絡(luò)做對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,利用FsNet進(jìn)行人臉分割預(yù)處理后的圖像對(duì)于FER精度有顯著的提升。表2展現(xiàn)了不同文獻(xiàn)研究方法在FER-2013數(shù)據(jù)集上的性能,本文框架在保證實(shí)時(shí)識(shí)別效果的同時(shí)在人臉區(qū)域分割預(yù)處理的加持下,TcNet在FER-2013數(shù)據(jù)集上的識(shí)別率達(dá)到71%,相較于基準(zhǔn)識(shí)別率65%來說提升了6%。表3展現(xiàn)了不同網(wǎng)絡(luò)結(jié)構(gòu)在RAF-DB數(shù)據(jù)集上的性能,本文框架識(shí)別精度高至82%,相較于數(shù)據(jù)集提出者[9]的最高精度74%來說,提升了8%,識(shí)別率遠(yuǎn)高于其他網(wǎng)絡(luò)模型。同時(shí)表4顯示了Kaggle網(wǎng)站上關(guān)于FER-2013數(shù)據(jù)集人臉表情識(shí)別挑戰(zhàn)的排行榜,本文框架超越了已提交的所有網(wǎng)絡(luò)模型。最終TcNet的模型占用內(nèi)存在1.1 MB左右。
表2 FER-2013數(shù)據(jù)集上不同方法性能比較
表3 RAF-DB數(shù)據(jù)集上不同方法性能比較
表4 Kaggle挑戰(zhàn)FER-2013識(shí)別率排行榜
為了進(jìn)一步驗(yàn)證TcNet的整體性能優(yōu)于同樣具備實(shí)時(shí)識(shí)別效果的mini-Xception網(wǎng)絡(luò),本文采用導(dǎo)向反向傳播可視化[27]技術(shù),分別提取兩種網(wǎng)絡(luò)最終卷積層中的高維特征進(jìn)行顯示,結(jié)果如圖6所示。通過對(duì)比二者高維可視化特征顯示,TcNet網(wǎng)絡(luò)學(xué)習(xí)到的人臉高級(jí)特征有更清晰的輪廓和更少的顆粒感,整體效果優(yōu)于min-Xception。
圖6 FER-2013與RAF-DB導(dǎo)向反向傳播可視化示意圖
除此之外,圖7展示了兩個(gè)數(shù)據(jù)集隨機(jī)測試的各類表情的混合交叉矩陣,通過觀察可以發(fā)現(xiàn),“快樂”,“驚訝”和“生氣”這三種表情具有更高的識(shí)別度,而“悲傷”、“失望”和“恐懼”三種表情極易產(chǎn)生混淆。
圖7 TcNet的測試混合交叉矩陣FER-2013(上)和RAF-DB(下)
最后,針對(duì)整體框架的實(shí)時(shí)性進(jìn)行了測試,實(shí)驗(yàn)結(jié)果表明,組合FsNet人臉RROI分割模塊和TcNet表情識(shí)別模塊的整體FER框架處理單幀人臉圖像的時(shí)間為(0.20±0.05)ms,能夠確保實(shí)時(shí)識(shí)別效果。
本文研究了基于人臉分割的復(fù)雜環(huán)境下表情識(shí)別實(shí)時(shí)框架,提出了用于人臉區(qū)域分割的FsNet網(wǎng)絡(luò)模型和用于表情識(shí)別的TcNet網(wǎng)絡(luò)模型。成功基于已有數(shù)據(jù)集構(gòu)建分割網(wǎng)絡(luò)所需數(shù)據(jù)集,參照醫(yī)學(xué)圖像分割網(wǎng)絡(luò)Unet結(jié)構(gòu)構(gòu)建FsNet,在保證網(wǎng)絡(luò)結(jié)構(gòu)精簡的同時(shí)實(shí)現(xiàn)對(duì)人臉圖像興趣區(qū)域的精準(zhǔn)分割。結(jié)合深度可分卷積,線性bottlenecks和倒置殘差結(jié)構(gòu)的優(yōu)點(diǎn)構(gòu)建TcNet,提升網(wǎng)絡(luò)對(duì)表情識(shí)別率的同時(shí)保證模型的計(jì)算量與內(nèi)存占用均為少量水平。在FER-2013和RAF-DB復(fù)雜人臉表情數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)證實(shí)所提思路對(duì)于FER識(shí)別率的提升,并進(jìn)行實(shí)時(shí)性檢測實(shí)驗(yàn)證明整體框架符合實(shí)時(shí)要求。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有技術(shù)方法相比,所提的方法展現(xiàn)了較好的思路與識(shí)別性能。下一步工作將把整體框架移植至移動(dòng)端或嵌入式設(shè)備中,提高框架的實(shí)用性并進(jìn)一步改善識(shí)別效果。