楊魯月,張樹美,趙俊莉
青島大學(xué) 數(shù)據(jù)科學(xué)與軟件工程學(xué)院,山東 青島266071
Mehrabian[1]研究發(fā)現(xiàn)情感傳遞的總效果是55%的面部表情,38%的聲調(diào)變化加上7%的語言表達(dá),由此可以看出面部表情在日常交流中表達(dá)了重要的情感信息。表情識(shí)別在智能家居、無人駕駛系統(tǒng)、在線教育、醫(yī)療輔助、VR游戲等領(lǐng)域得到廣泛應(yīng)用,已經(jīng)成為機(jī)器學(xué)習(xí)與計(jì)算機(jī)視覺研究的重要組成部分[2]。動(dòng)態(tài)表情識(shí)別比靜態(tài)表情識(shí)別更具真實(shí)性,但是動(dòng)態(tài)表情識(shí)別在考慮相鄰幀時(shí)間關(guān)系的同時(shí)還要保證識(shí)別的實(shí)時(shí)性,并且存在光照變化、姿態(tài)變化和隨機(jī)遮擋等干擾因素,其中隨機(jī)遮擋是動(dòng)態(tài)表情識(shí)別面臨的主要問題[3]。如今表情識(shí)別走入深度學(xué)習(xí)階段[4],AlexNet[5]、GooleNet[6]、ResNet[7]在表情識(shí)別上都取得很好的成績,對(duì)于表情識(shí)別中的遮擋問題,張建明等[8]基于對(duì)稱變換對(duì)眼部遮擋進(jìn)行處理,對(duì)部分固定遮擋的識(shí)別效果較好,Zhang等[9]將Gabor面部模板轉(zhuǎn)換為模板匹配距離特征,生成的特征向量對(duì)于眼睛和嘴角這樣的輕微遮擋是魯棒的。但是這些方法都只對(duì)靜態(tài)圖片進(jìn)行了表情識(shí)別,并且忽略了遮擋位置和遮擋大小的隨機(jī)性,所以對(duì)有隨機(jī)遮擋的表情進(jìn)行補(bǔ)全再進(jìn)行動(dòng)態(tài)表情識(shí)別是一個(gè)值得深入研究的方向。
局部遮擋圖像的部分特征丟失會(huì)降低表情識(shí)別的準(zhǔn)確率和有效性,解決遮擋問題的有效方法是盡可能將丟失的特征補(bǔ)全。全變分方法[10]和塊匹配方法[11]都是傳統(tǒng)的人臉補(bǔ)全方法,但是這類方法過于依賴未遮擋部分,Zhang等[12]將多個(gè)深度回歸網(wǎng)絡(luò)和去噪自編碼器級(jí)聯(lián)得到了一個(gè)對(duì)部分遮擋具有魯棒性的深度模型,自動(dòng)恢復(fù)遮擋部分的真實(shí)外觀。除了這類使用編碼器進(jìn)行特征編碼補(bǔ)全圖像之外,依靠生成模型和判別模型的“二人博弈”,生成對(duì)抗網(wǎng)絡(luò)[13]也是修復(fù)圖像的有效方法,隨著近年來上下文(Context)應(yīng)用在了各個(gè)領(lǐng)域[14],Pathak等人在2016年開發(fā)了Context-Encode Gan[15],該網(wǎng)絡(luò)中生成模型的上下文編碼器本質(zhì)是一個(gè)AlexNet[5],Gan網(wǎng)絡(luò)將編碼器學(xué)習(xí)到的特征與原始特征對(duì)比,通過生成模型和判別模型的相互促進(jìn),使得補(bǔ)全后的圖像更具有真實(shí)性。
相比于靜態(tài)表情識(shí)別,動(dòng)態(tài)表情識(shí)別更容易遇到遮擋問題。起初卷積網(wǎng)絡(luò)在處理靜態(tài)圖片時(shí)效果顯著,但隨著GPU處理能力不斷提高以及神經(jīng)網(wǎng)絡(luò)架構(gòu)越來越精密,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)更適合于處理任意長度的動(dòng)態(tài)序列數(shù)據(jù),在2018年ACII會(huì)議上Sun等[16]的循環(huán)神經(jīng)網(wǎng)絡(luò)模型識(shí)別率比MEC2017基線高了23.81個(gè)百分點(diǎn)。CNN、RNN都是在確定的拓?fù)浣Y(jié)構(gòu)里進(jìn)行訓(xùn)練,雖然取得了較好的識(shí)別效果,但是訓(xùn)練的過程很長,而級(jí)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)不使用單一的神經(jīng)網(wǎng)絡(luò),在提高識(shí)別率基礎(chǔ)上可以自己決定網(wǎng)絡(luò)深度,所以選擇特定的級(jí)聯(lián)網(wǎng)絡(luò)進(jìn)行動(dòng)態(tài)表情識(shí)別是有效的方法。
本文針對(duì)上述自然環(huán)境下有遮擋的動(dòng)態(tài)表情識(shí)別問題,首先為局部遮擋訓(xùn)練了一個(gè)基于CC-Gan(Context-Conditional Gan)的優(yōu)化生成對(duì)抗網(wǎng)絡(luò)模型,構(gòu)建了一個(gè)并聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)P-IncepNet(Para Inception Network)來代替?zhèn)鹘y(tǒng)的生成模型,采用雙線路模式進(jìn)行圖像補(bǔ)全,在CelebA和MMI數(shù)據(jù)集上實(shí)驗(yàn)發(fā)現(xiàn)與CC-Gan相比1/4、1/9、1/16的遮擋修復(fù)效果更好,并且比CC-Gan網(wǎng)絡(luò)模型更加穩(wěn)定。其次構(gòu)建一個(gè)級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)進(jìn)行動(dòng)態(tài)表情識(shí)別,先通過并聯(lián)網(wǎng)絡(luò)P-IncepNet提取人臉表情圖像的特征表示,然后將這些特征輸入循環(huán)網(wǎng)絡(luò)LSTM(Long-Short Term Memory)來增強(qiáng)時(shí)間信息編碼,在AFEW和MMI數(shù)據(jù)集上進(jìn)行無遮擋實(shí)驗(yàn),識(shí)別率分別高出傳統(tǒng)卷積基準(zhǔn)11.65和12.13個(gè)百分點(diǎn)。最后在MMI數(shù)據(jù)集進(jìn)行有遮擋的表情識(shí)別實(shí)驗(yàn),結(jié)果顯示本文的方法對(duì)有遮擋的表情識(shí)別平均貢獻(xiàn)率達(dá)到4.45個(gè)百分點(diǎn),最高貢獻(xiàn)率達(dá)到7.6個(gè)百分點(diǎn)。
利用生成對(duì)抗網(wǎng)絡(luò)對(duì)圖像補(bǔ)全再進(jìn)行表情識(shí)別是解決遮擋的有效方法。傳統(tǒng)的生成模型一般是卷積層的串聯(lián),但是這樣疊加簡單的網(wǎng)絡(luò)層不僅會(huì)增加訓(xùn)練時(shí)間,還會(huì)在編碼特征時(shí)容易丟失空間精度,所以本章在CC-Gan基礎(chǔ)上將生成模型的編碼器構(gòu)建成并聯(lián)網(wǎng)絡(luò)P-IncepNet,增加了生成模型的寬度,新的局部遮擋補(bǔ)全網(wǎng)絡(luò)可以進(jìn)行更完善的特征學(xué)習(xí)。
卷積網(wǎng)絡(luò)依靠強(qiáng)大的表征學(xué)習(xí)能力成為生成圖像的主要手段,但對(duì)殘缺部分進(jìn)行簡單的修復(fù),生成的面部表情特征之間差異不明顯,而生成對(duì)抗網(wǎng)絡(luò)通過兩種模型之間的激勵(lì)作用,特征學(xué)習(xí)在訓(xùn)練中的能力會(huì)快速提升,修復(fù)的圖像更加接近真實(shí)圖像。上下文條件生成對(duì)抗網(wǎng)絡(luò)CC-Gan[17]的判別模型是一個(gè)VGG網(wǎng)絡(luò),生成模型是一個(gè)編碼-解碼器。該網(wǎng)絡(luò)模型與Context-Encode Gan[15]模型大致相同,主要區(qū)別為:一是學(xué)習(xí)到的圖像特征來自判別模型,而不是編碼器。二是CC-Gan的生成模型G對(duì)遮擋缺失的部分補(bǔ)全后,把完整的圖像傳遞到判別模型D,而不是將遮擋部分和周圍像素作為兩個(gè)獨(dú)立的輸入,這樣遮擋邊緣更加具有連續(xù)性。訓(xùn)練開始后編碼器將學(xué)習(xí)到的特征添加到解碼器中產(chǎn)生缺失部分圖像。在這個(gè)過程中會(huì)有一個(gè)圖像內(nèi)容損失-L2Loss,如公式(1)所示:
其中,X={x1,x2,…,xn}為n維的圖像數(shù)據(jù)集,在判別模型D中,圖像x輸入到判別函數(shù)D(x),并輸出一個(gè)標(biāo)量表示輸入圖像x是真實(shí)樣本的概率。而隨機(jī)噪聲z作為生成模型G的輸入,z服從先驗(yàn)噪聲分布Ppriore(z),通過生成函數(shù)G(z,θg)輸出的樣本盡可能服從分布Pz(z),θg代表了生成模型的參數(shù),該參數(shù)被生成模型和判別模型共享。
該網(wǎng)絡(luò)的生成模型經(jīng)過編碼器卷積操作成低維的特征圖,之后解碼器反卷積恢復(fù)補(bǔ)全圖像,在這個(gè)過程中網(wǎng)絡(luò)的寬度沒有改變。但是對(duì)于面部表情部分遮擋的圖像,在由大到小的卷積過程中會(huì)有空間精度損失,想要在有由小變大的反卷積過程中完全恢復(fù)圖像特征十分困難,所以要適當(dāng)增加網(wǎng)絡(luò)寬度,學(xué)習(xí)到足夠的圖像特征同時(shí)提高網(wǎng)絡(luò)的空間敏感度。
CC-Gan生成模型的串聯(lián)模式會(huì)損失空間精度,受Inception網(wǎng)絡(luò)結(jié)構(gòu)[18]啟發(fā),構(gòu)建并聯(lián)的P-IncepNet作為生成模型的編碼器,不同的卷積核對(duì)輸入的圖像進(jìn)行卷積和池化后得到的輸出結(jié)果可以表示不同的圖像信息,級(jí)聯(lián)所有輸出結(jié)果會(huì)得到更好的圖像特征。
為了保證填充(Padding)時(shí)圖像對(duì)稱,卷積核選用了1×1、3×3、5×5的奇數(shù)大小對(duì)圖像進(jìn)行特征提取,本文最開始對(duì)不同Inception結(jié)構(gòu)進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)發(fā)現(xiàn)將Inception內(nèi)部結(jié)構(gòu)設(shè)置為單層的1×1、3×3、5×5的卷積核時(shí)沒有得到充分的特征學(xué)習(xí),識(shí)別率不理想;將Inception內(nèi)部結(jié)構(gòu)設(shè)置為2層的1×1、3×3、5×5的卷積核時(shí),由于3×3、5×5卷積核的增加,識(shí)別率大幅提高;隨后繼續(xù)增加多層1×1、3×3、5×5卷積核,發(fā)現(xiàn)識(shí)別率沒有明顯提高,并且訓(xùn)練時(shí)間大幅增加。最后根據(jù)識(shí)別率和運(yùn)算成本的合理分配,本文選擇了2層的Inception結(jié)構(gòu),該結(jié)構(gòu)如圖1中Incep1部分所示,前三條線路用1×1、3×3、5×5的卷積核抽取不同空間尺寸的信息,由于較大的卷積核(特別是5×5卷積核)會(huì)帶來巨大的計(jì)算量,所以在3×3、5×5的卷積前先做1×1卷積減少特征圖的通道數(shù)量實(shí)現(xiàn)降維,第四條線路用3×3的池化層和1×1的卷積層進(jìn)行降維,最后將每條線路的輸出在通道上連結(jié),輸入到下一個(gè)網(wǎng)絡(luò)層。
如圖1所示,P-IncepNet共有兩部分并行的線路,第一部分(Incep1)是Inception結(jié)構(gòu)內(nèi)的并聯(lián),第二部分(Incep2和Incep3)是Inception結(jié)構(gòu)外的并聯(lián),將第一部分并聯(lián)得到的特征圖分別通過兩個(gè)池化層進(jìn)行下一步的特征學(xué)習(xí),Incep2和Incep3的輸出分別進(jìn)行stride為2卷積核為3×3的下采樣和卷積核為1×1的上采樣的重復(fù)融合(repeated fusion),最后兩個(gè)不同的特征圖在全連接層進(jìn)行連接。為了防止過擬合在全連接前加入Dropout層。不同大小卷積核提取不同的圖像特征,使得特征提取能力較強(qiáng),同時(shí)1×1的卷積核使得計(jì)算量減少,這樣的組合使得P-IncepNet的特征提取能力和計(jì)算性能較好,所以將該結(jié)構(gòu)用于了圖像補(bǔ)全和特征提取。
1.3.1 生成模型
生成模型的輸入是一個(gè)將遮擋歸零的圖像,依據(jù)上下文生成對(duì)抗網(wǎng)絡(luò)的條件,將大小為128×128的遮擋圖像輸入到編碼器中,變成(128,128,1)的三維向量,如圖1所示,在并聯(lián)網(wǎng)絡(luò)P-IncepNet中通過不同大小卷積層的下采樣將不同路徑提取的不同特征圖連接到一起,解碼器得到編譯好的特征后對(duì)遮擋部分進(jìn)行修復(fù),最后輸出的是(1,1,1 024)的三維向量。如圖2所示,解碼器每個(gè)卷積核大小是5×5,卷積核的數(shù)量分別為512、218、218、64、32和3,由于Tanh激活函數(shù)在反向傳播求導(dǎo)誤差梯度時(shí)涉及除法,計(jì)算量相對(duì)較大,因此除最后一層卷積使用Tanh激活函數(shù)外,解卷積層的上采樣均使用ReLu激活函數(shù),這樣在線性的卷積層后添加非線性的ReLu激活函數(shù)可以使網(wǎng)絡(luò)有更多的非線性表達(dá),既防止訓(xùn)練過擬合,提高網(wǎng)絡(luò)的泛化能力。又節(jié)省了訓(xùn)練時(shí)間。
圖1 P-IncepNet編碼器結(jié)構(gòu)Fig.1 P-IncepNet encoder architecture
圖2 局部遮擋補(bǔ)全網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Partial occlusion repair network architecture
解碼器通過解卷積層將1 024個(gè)特征圖作為輸入,最后輸出(128,128,1)的補(bǔ)全圖像,在這個(gè)過程中不同的特征圖進(jìn)行整合,相似的特征擇優(yōu)選擇。特征擇優(yōu)選擇可以去除無關(guān)特征和冗余特征,保留與原始圖像相關(guān)的特征,使得補(bǔ)全圖更接近于真實(shí)圖像[19],具體操作是原始的特征集合通過Fisher評(píng)價(jià)標(biāo)準(zhǔn)計(jì)算出所有特征的得分,然后所有特征降序排列,選擇前7個(gè)特征作為特征子集,最后將特征子集送入后續(xù)的網(wǎng)絡(luò)訓(xùn)練。
1.3.2 判別模型
生成模型的補(bǔ)全圖像和真實(shí)圖像同時(shí)作為判別模型的輸入,依據(jù)條件生成對(duì)抗網(wǎng)絡(luò),將真實(shí)圖像當(dāng)作條件,只有補(bǔ)全圖像與真實(shí)圖像越吻合時(shí)得到判決值才越高。大小均為(128,128,1)的兩類圖像經(jīng)過CC-Gan中的VGGNet輸出一維的結(jié)果,該判別模型由8個(gè)卷積核大小為3×3的卷積層和一個(gè)全連接層組成。
完成局部遮擋補(bǔ)全后,還要進(jìn)行表情識(shí)別來驗(yàn)證遮擋補(bǔ)全的有效性,本文將并聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(P-IncepNet)和循環(huán)神經(jīng)網(wǎng)絡(luò)LSTM進(jìn)行級(jí)聯(lián),構(gòu)建的級(jí)聯(lián)動(dòng)態(tài)表情識(shí)別網(wǎng)絡(luò)更擅長時(shí)空信息處理,可以優(yōu)化表情識(shí)別結(jié)果。
循環(huán)神經(jīng)網(wǎng)絡(luò)適合處理任意長度的序列數(shù)據(jù),利用連續(xù)數(shù)據(jù)的特征向量在語義上相互連接、相互依賴的特點(diǎn),用經(jīng)典的時(shí)間反向傳播訓(xùn)練從序列中提取信息,根據(jù)其中的依賴關(guān)系,可以按照反方向計(jì)算梯度,公式(3)是對(duì)目標(biāo)函數(shù)隱藏狀態(tài)梯度的計(jì)算公式,由公式的指數(shù)項(xiàng)可以看到當(dāng)時(shí)間步數(shù)T較大或時(shí)間t較小時(shí),梯度容易出現(xiàn)衰減和爆炸。
雖然可以裁剪梯度來應(yīng)對(duì)梯度爆炸,但是無法解決梯度衰減問題,所以RNN在實(shí)際應(yīng)用中時(shí)間步太長就會(huì)“忘記”比較遠(yuǎn)的記憶。LSTM的長短時(shí)記憶[20]能夠更好地捕捉序列中間隔較遠(yuǎn)的信息,相比于RNN的重復(fù)模塊只有一個(gè)單一的全連接層,LSTM的重復(fù)模塊包含四個(gè)交互的層,這些層通過門(gate)對(duì)信息進(jìn)行增加或刪除,從而實(shí)現(xiàn)了對(duì)長期依賴信息的記憶,這三個(gè)門控單元分別是:遺忘門Ft、輸入門It、輸出門Ot。LSTM主要用到了兩個(gè)激活函數(shù),一是更新細(xì)胞單元的激活函數(shù)定義為sigmoid函數(shù),二是計(jì)算候選記憶細(xì)胞的激活函數(shù)為tanh函數(shù)。其中計(jì)算候選記憶細(xì)胞中的tanh函數(shù)通過元素乘法集合了上一時(shí)間步和當(dāng)前時(shí)間步信息,而輸出門中的tanh函數(shù)確保隱藏狀態(tài)的信息值在-1到1之間,當(dāng)輸出門近似為1時(shí),記憶細(xì)胞將信息傳輸給輸出層,當(dāng)輸出門近似為0時(shí),信息自己保留。簡單的神經(jīng)網(wǎng)絡(luò)針對(duì)特征提取表現(xiàn)優(yōu)異,但是對(duì)于有時(shí)空信息的數(shù)據(jù)無法按照順序準(zhǔn)確傳遞特征,與卷積神經(jīng)網(wǎng)絡(luò)不同,循環(huán)神經(jīng)網(wǎng)絡(luò)就是專門為動(dòng)態(tài)序列分析而生的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),所以將卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行級(jí)聯(lián)可以充分發(fā)揮兩個(gè)網(wǎng)絡(luò)的優(yōu)點(diǎn)。
表情識(shí)別可以用來分析顧客表情對(duì)其進(jìn)行購物推薦,對(duì)學(xué)生進(jìn)行學(xué)習(xí)情況檢測,還有對(duì)駕駛?cè)藛T的情緒監(jiān)測,在這些實(shí)際應(yīng)用中表情識(shí)別難度在于表情是變化的,識(shí)別結(jié)果不僅要準(zhǔn)確,速度也有很高要求,特別是在安全駕駛里,表情監(jiān)測不及時(shí)或者不準(zhǔn)確都可能威脅生命安全。單一的神經(jīng)網(wǎng)絡(luò)想要取得高識(shí)別率就要以訓(xùn)練時(shí)間成本作為代價(jià),并且對(duì)于動(dòng)態(tài)的表情識(shí)別效果較差,而級(jí)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)中處理不同任務(wù)的各個(gè)模塊依次疊加構(gòu)成一個(gè)更深層次的網(wǎng)絡(luò),網(wǎng)絡(luò)中后一模塊的輸入就是前一模塊的輸出,這樣的網(wǎng)絡(luò)結(jié)構(gòu)自己決定網(wǎng)絡(luò)深度,提高識(shí)別率基礎(chǔ)上加快學(xué)習(xí)速度。
構(gòu)建級(jí)聯(lián)網(wǎng)絡(luò)進(jìn)行動(dòng)態(tài)表情識(shí)別,先通過1.2節(jié)構(gòu)建的P-IncepNet網(wǎng)絡(luò)模型提取人臉表情圖像的特征表示,然后將這些特征輸入循環(huán)網(wǎng)絡(luò)LSTM來增強(qiáng)時(shí)間信息編碼。具體的級(jí)聯(lián)網(wǎng)絡(luò)模型如圖3所示,對(duì)于一組人臉視頻幀,每幀經(jīng)過P-IncepNet提取特征序列,然后傳遞到LSTM層來預(yù)測視頻情感。在實(shí)驗(yàn)中,將視頻采用16幀的固定長度,以進(jìn)行計(jì)算量和模型精度之間的權(quán)衡。輸入人臉圖像的大小為224×224,LSTM的一個(gè)隱藏層(hidden-layer)有128個(gè)嵌入節(jié)點(diǎn),在LSTM隱藏層的頂部還添加了值為0.9的dropout層。該網(wǎng)絡(luò)結(jié)構(gòu)將分類結(jié)果視為子任務(wù)的級(jí)聯(lián),并為每個(gè)表情分類任務(wù)訓(xùn)練網(wǎng)絡(luò)。
圖3 級(jí)聯(lián)表情識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Cascade FER Network architecture
實(shí)驗(yàn)在64位的Microsoft Windows 10系統(tǒng)上進(jìn)行,處理器是Intel?CoreTMi7-9750H CPU@2.60 GHz。GPU為NVIDIA GeForce GTX1660Ti with Max-Q Design,顯存為6 GB。使用基于Pytorch的深度學(xué)習(xí)平臺(tái)。
本文構(gòu)建的P-IncepNet與CC-Gan進(jìn)行對(duì)比實(shí)驗(yàn),探討構(gòu)建的局部遮擋補(bǔ)全網(wǎng)絡(luò)對(duì)表情修復(fù)性能的影響。在局部遮擋補(bǔ)全網(wǎng)絡(luò)上分別對(duì)CelebA靜態(tài)表情和MMI動(dòng)態(tài)表情數(shù)據(jù)集做了實(shí)驗(yàn)分析,通過對(duì)比對(duì)抗損失,內(nèi)容損失,綜合損失驗(yàn)證補(bǔ)全網(wǎng)絡(luò)對(duì)表情修復(fù)的優(yōu)化作用。由于有遮擋的面部表情數(shù)據(jù)集有限且樣本差異不明顯,所以人工為CelebA靜態(tài)表情和MMI動(dòng)態(tài)表情數(shù)據(jù)集添加了不同程度的隨機(jī)遮擋。
3.1.1 實(shí)驗(yàn)預(yù)處理
CelebA數(shù)據(jù)集由202 599張人臉圖像組成,樣本數(shù)量多并且10 177個(gè)人的不同情緒表達(dá)足夠多樣性,數(shù)據(jù)集中圖像原始尺寸均為178×218,首先使用Adaboost級(jí)聯(lián)分類器對(duì)人臉進(jìn)行檢測,獲取到人臉部分后,使用人臉歸一化方法[21]將表情圖像歸一化到[0,1],尺寸為128×128。實(shí)驗(yàn)選取處理后的150 000張圖片作為訓(xùn)練集來訓(xùn)練網(wǎng)絡(luò),測試集52 599張。在CelebA的數(shù)據(jù)集上迭代訓(xùn)練200個(gè)周期,每一個(gè)周期迭代訓(xùn)練2 523次,每個(gè)批次大小設(shè)置為8,初始局部二值掩碼Mask設(shè)置為48,隱藏變量z的空間維數(shù)為100。訓(xùn)練中梯度衰減采用Adam算法優(yōu)化損失,初始學(xué)習(xí)速率lr為1×10-4,其中參數(shù)β1設(shè)置為0.5,β2設(shè)置0.999,ε設(shè)置為1×10-8。
MMI(MMI Facial Expression Database)數(shù)據(jù)集與CelebA數(shù)據(jù)集相比,數(shù)量不同,獲取方式不同,樣本間存在較大差異,以此數(shù)據(jù)集進(jìn)行遮擋表情的補(bǔ)全,以驗(yàn)證網(wǎng)絡(luò)在動(dòng)態(tài)數(shù)據(jù)集和在靜態(tài)數(shù)據(jù)集表現(xiàn)同樣優(yōu)異。數(shù)據(jù)集包含32名受試者的2 900段視頻,其中正面視圖有205個(gè),MMI中的表情序列在接近中間的地方達(dá)到峰值,原始數(shù)據(jù)分辨率為720×576像素大小。該實(shí)驗(yàn)與上述實(shí)驗(yàn)使用相同的預(yù)處理方法,只是將部分參數(shù)進(jìn)行改動(dòng),BatchSize改為16,學(xué)習(xí)率改為1×10-3,β1改為0.4,將數(shù)據(jù)歸一化成224×224像素大小進(jìn)行輸入。
3.1.2 實(shí)驗(yàn)結(jié)果分析
(1)遮擋修復(fù)可視化分析
首先用局部二值掩碼分別對(duì)CelebA和MMI數(shù)據(jù)集進(jìn)行遮擋區(qū)域?yàn)?/2、1/4、1/9、1/16的隨機(jī)遮擋,圖4為1/9遮擋時(shí)隨機(jī)選取的某次特征提取可視化圖像,上方為CelebA的可視化圖像,下方為MMI的可視化圖像,如圖4所示生成模型在經(jīng)過第一層卷積后,特征模糊,大部分細(xì)節(jié)丟失,在經(jīng)過第一個(gè)Inception結(jié)構(gòu)后,通過不同卷積層學(xué)習(xí)到的特征更加具體,之后兩條并行線路分別針對(duì)整體特征和局部特征學(xué)習(xí)后得到兩份有差異的特征圖,最后整合兩個(gè)特征圖得到更真實(shí)的特征圖。
圖4 面部修復(fù)可視化Fig.4 Visual image of facial repair
(2)網(wǎng)絡(luò)穩(wěn)定性對(duì)比分析
在判別模型中對(duì)抗損失用來判斷真假圖像,通過損失項(xiàng)對(duì)模型進(jìn)行微調(diào),得到逐漸精細(xì)的補(bǔ)全圖。將CelebA和MMI數(shù)據(jù)集以不同比例遮擋分別在CC-Gan和本文構(gòu)建網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),圖5為1/9遮擋時(shí)判別模型對(duì)抗損失D-Loss的變化,在CelebA和MMI數(shù)據(jù)集的訓(xùn)練中CC-Gan都出現(xiàn)了不穩(wěn)定現(xiàn)象,損失函數(shù)波動(dòng)的閾值較大,本文的方法與CC-Gan網(wǎng)絡(luò)相比,D-Loss的損失率都有所下降,CelebA平均降低了3.12個(gè)百分點(diǎn),MMI平均下降了2.35個(gè)百分點(diǎn),并且波動(dòng)的閾值明顯比CC-Gan減小。CC-GAN在150步迭代后損失率才趨于穩(wěn)定,但本文的方法在100~150步迭代時(shí)就逐漸穩(wěn)定,在整個(gè)訓(xùn)練過程中本文的方法與CC-Gan相比,在降低損失率的同時(shí)增加了網(wǎng)絡(luò)的穩(wěn)定性,使得實(shí)驗(yàn)結(jié)果得到充分收斂。
圖5 對(duì)抗損失函數(shù)變化Fig.5 Change of adversarial loss
(3)內(nèi)容損失對(duì)比分析
在生成模型中內(nèi)容損失的作用是將學(xué)習(xí)到的特征盡可能用于缺失部分,產(chǎn)生更接近真實(shí)圖像補(bǔ)全圖,為了驗(yàn)證本實(shí)驗(yàn)網(wǎng)絡(luò)在人臉修復(fù)效果的優(yōu)越性,在CelebA和MMI數(shù)據(jù)集分別做遮擋對(duì)比實(shí)驗(yàn),G-Loss損失通常先增大后減小,最后趨于穩(wěn)定,如圖6損失率對(duì)比變化過程所示,在CelebA數(shù)據(jù)集上,本文方法的內(nèi)容損失只在開始部分略高于CC-Gan,在其他時(shí)間都低于CC-Gan,最后損失率穩(wěn)定在0.982;在MMI數(shù)據(jù)集上,本文方法的內(nèi)容損失始終低于CC-Gan,最后損失率穩(wěn)定在0.873。
圖6 內(nèi)容損失函數(shù)變化Fig.6 Change of L2 loss
圖7 為1/9遮擋修復(fù)變化過程,圖中上方為本實(shí)驗(yàn)結(jié)果,中間為CC-Gan網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果,下方為沒有內(nèi)容損失的傳統(tǒng)人臉修復(fù)方法,從左往右依次是1、50、100、150、200步的修復(fù)圖像和真實(shí)圖像。從圖7可以看出隨著迭代次數(shù)增加,添加內(nèi)容損失的本文網(wǎng)絡(luò)和CC-Gan比沒有內(nèi)容損失的傳統(tǒng)方法修復(fù)效果更好,而同樣添加內(nèi)容損失的本文方法與CC-Gan相比,本文方法生成的圖像質(zhì)量更高,破損的邊緣更具有連續(xù)性,并且中期補(bǔ)全圖像就達(dá)到CC-Gan后期修復(fù)的效果。
圖7 修復(fù)過程變化對(duì)比Fig.7 Comparison of repair process change
(4)不同程度遮擋修復(fù)對(duì)比分析
在1.2節(jié)介紹了P-IncepNet并聯(lián)結(jié)構(gòu)對(duì)人臉補(bǔ)全的作用,為了驗(yàn)證本文的局部遮擋補(bǔ)全網(wǎng)絡(luò)在面部修復(fù)的魯棒性,將遮擋區(qū)域的大小設(shè)置為1/2、1/4、1/9、1/16分別對(duì)Celeb和MMI進(jìn)行實(shí)驗(yàn),圖8顯示了采用并聯(lián)結(jié)構(gòu)和未采用并聯(lián)結(jié)構(gòu)的面部補(bǔ)全網(wǎng)絡(luò)實(shí)驗(yàn)對(duì)比結(jié)果,從左往右分別是遮擋圖像,未采用并聯(lián)結(jié)構(gòu)的恢復(fù)圖,采用并聯(lián)結(jié)構(gòu)的恢復(fù)圖和原圖。
圖8 不同程度遮擋修復(fù)過程Fig.8 Different occlusion repair process
實(shí)驗(yàn)結(jié)果顯示1/16至1/4這樣中小程度的遮擋修復(fù)效果比較逼真,CelebA數(shù)據(jù)集上總體損失穩(wěn)定在0.07~0.1,在MMI數(shù)據(jù)集上總體損失穩(wěn)定在0.07~0.09。但是1/2遮擋時(shí)生成圖像的會(huì)產(chǎn)生部分扭曲并且修復(fù)部分與未遮擋部分的邊界有不連續(xù)性,圖9顯示CelebA和MMI數(shù)據(jù)集上1/2遮擋與其他程度遮擋的綜合損失相比有超過0.2差距,造成過大損失的原因是大半面部特征被遮擋,判別模型對(duì)編碼器提取的大量特征取舍不當(dāng),使得面部表情恢復(fù)的總體損失率過大。
圖9 不同程度遮擋綜合損失變化Fig.9 Different occlusion of loss change
為了驗(yàn)證本文的P-IncepNet遮擋補(bǔ)全網(wǎng)絡(luò)對(duì)最終表情識(shí)別效果的影響,分別探討本文構(gòu)建的級(jí)聯(lián)表情識(shí)別網(wǎng)絡(luò)對(duì)無遮擋表情識(shí)別和有遮擋表情識(shí)別的性能影響。首先在AFEW和MMI上做無遮擋表情的實(shí)驗(yàn),分析級(jí)聯(lián)網(wǎng)絡(luò)在不同數(shù)據(jù)集上的表現(xiàn)。然后在MMI數(shù)據(jù)集進(jìn)行有遮擋的實(shí)驗(yàn),分析遮擋補(bǔ)全對(duì)動(dòng)態(tài)表情識(shí)別的貢獻(xiàn)率。
3.2.1 無遮擋動(dòng)態(tài)表情識(shí)別實(shí)驗(yàn)
(1)實(shí)驗(yàn)預(yù)處理
AFEW選自電影和電視劇片段,數(shù)據(jù)集為憤怒、厭惡、恐懼、高興、中性、悲傷和驚訝7種情緒狀態(tài),采集AFEW數(shù)據(jù)集1 426段,數(shù)據(jù)集均為720×576像素大小,數(shù)據(jù)集中有大量中性表情幀,使用動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping)[22]算法選取表情峰值的16幀,采用多掩碼級(jí)聯(lián)卷積網(wǎng)絡(luò)(MTCNN)進(jìn)行人臉檢測和對(duì)齊,同時(shí)將其歸一化成224×224像素大小進(jìn)行輸入。為了使實(shí)驗(yàn)結(jié)果更具真實(shí)性,實(shí)驗(yàn)中將AFEW數(shù)據(jù)分為三組:773個(gè)用于訓(xùn)練、373個(gè)用于驗(yàn)證、653個(gè)用于測試。在每個(gè)卷積層均使用批量歸一化(Batch Normalization),學(xué)習(xí)率為1×10-4,權(quán)值衰減為5×10-4,為全連接層添加了值為0.6的Dropout層來防止實(shí)驗(yàn)出現(xiàn)過擬合,在SoftMax層進(jìn)行L2正則化。
MMI數(shù)據(jù)集與3.1.1小節(jié)使用相同的預(yù)處理方法,將數(shù)據(jù)歸一化成224×224像素大小進(jìn)行輸入。本實(shí)驗(yàn)使用10倍交叉驗(yàn)證,將AFEW和MMI數(shù)據(jù)集分別平均分為10組,其中的9組作為訓(xùn)練集,另外1組作為測試集,最后取10次實(shí)驗(yàn)結(jié)果的平均得分。這樣保證實(shí)驗(yàn)結(jié)果真實(shí)有效,不受樣本間誤差干擾。
(2)實(shí)驗(yàn)結(jié)果分析
①無遮擋識(shí)別率分析
圖10 和圖11為本文構(gòu)建的級(jí)聯(lián)表情識(shí)別網(wǎng)絡(luò)分別在AFEW和MMI數(shù)據(jù)集隨機(jī)挑選的一次訓(xùn)練的識(shí)別率和損失函數(shù),經(jīng)過100 000次的迭代訓(xùn)練之后,AFEW最終結(jié)果得到52.12%的識(shí)別率,MMI得到80.31%的識(shí)別率。在GPU加速運(yùn)算的情況下AFEW迭代100 000次共花費(fèi)了297 min,MMI花費(fèi)了256 min,100 000次迭代后損失函數(shù)都低于0.01并且變化已經(jīng)穩(wěn)定,識(shí)別結(jié)果也足夠收斂。
圖10 識(shí)別率變化Fig.10 Change of accuracy
圖11 損失函數(shù)變化Fig.11 Change of loss function
②與其他網(wǎng)絡(luò)的對(duì)比分析
為了比較本文所提出的級(jí)聯(lián)網(wǎng)絡(luò)的性能,與其他網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí)間和識(shí)別率的對(duì)比實(shí)驗(yàn)。對(duì)比實(shí)驗(yàn)均使用了相同的預(yù)處理和訓(xùn)練方法。AFEW數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如表1所示,雖然C3D這樣的單一網(wǎng)絡(luò)迭代一次的訓(xùn)練時(shí)間只有0.146 s,但是由于對(duì)時(shí)空信息學(xué)習(xí)不充分,在相同的數(shù)據(jù)量上識(shí)別率只有35.2%,隨著級(jí)聯(lián)網(wǎng)絡(luò)在深度上的不斷增加,C3D-LSTM、VGG-LSTM的識(shí)別率分別提高到43.2%、47.4%,但是隨之花費(fèi)的時(shí)間也越長,尤其是VGG-LSTM這樣的網(wǎng)絡(luò)深度過大,網(wǎng)絡(luò)迭代一次時(shí)間達(dá)到了0.32 s,因此為了提高識(shí)別率只進(jìn)行深度上的增加會(huì)導(dǎo)致識(shí)別速度減慢,增加計(jì)算機(jī)的運(yùn)算成本。本文的P-IncepNet不再加深網(wǎng)絡(luò)深度,而是增加網(wǎng)絡(luò)寬度,對(duì)于特征學(xué)習(xí)的能力更加優(yōu)秀,實(shí)驗(yàn)結(jié)果顯示P-IncepNet與LSTM級(jí)聯(lián)在保證訓(xùn)練時(shí)間穩(wěn)定的基礎(chǔ)上,將識(shí)別率提高到了52.12%,比基線40.47%好11.65個(gè)百分點(diǎn)。
表1 AFEW識(shí)別率和時(shí)間對(duì)比Table 1 AFEW accuracy and time comparison
同樣的,MMI數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如表2所示,在單一網(wǎng)絡(luò)LSTM上迭代一次時(shí)間為0.15 s,識(shí)別率僅為70.67%,CNN-LSTM和PHRNN-MSCNN識(shí)別率分別提高了7.33和8.63個(gè)百分點(diǎn),但時(shí)間分別增加了0.022 s和0.053 s,本文級(jí)聯(lián)網(wǎng)絡(luò)的最高識(shí)別率達(dá)到80.31%,但是時(shí)間和CNN-LSTM接近,只有0.17 s。提高識(shí)別率的方法一般是增加網(wǎng)絡(luò)深度,但是網(wǎng)絡(luò)運(yùn)算成本也會(huì)增加,本文結(jié)構(gòu)拓寬網(wǎng)絡(luò)寬度,不僅提高特征提取的能力,還保證了識(shí)別速度不會(huì)激增。
表2 MMI識(shí)別率和時(shí)間對(duì)比Table 2 MMI accuracy and time comparison
3.2.2 有遮擋動(dòng)態(tài)表情識(shí)別實(shí)驗(yàn)
(1)有遮擋識(shí)別率分析
在MMI數(shù)據(jù)集上進(jìn)行有遮擋的表情識(shí)別實(shí)驗(yàn),將3.1節(jié)局部遮擋網(wǎng)絡(luò)輸出的1/2、1/4、1/9、1/16遮擋修復(fù)圖像,分別批量輸入3.2.1小節(jié)級(jí)聯(lián)表情識(shí)別網(wǎng)絡(luò),最后得到實(shí)驗(yàn)結(jié)果對(duì)比如表3所示,隨著遮擋面積的減小識(shí)別率正逐漸提高,優(yōu)化率也呈現(xiàn)上升趨勢,并且優(yōu)化率增加趨勢逐漸平穩(wěn)。四種遮擋條件下修復(fù)圖像的識(shí)別率分別達(dá)到61.07%、70.69%、80.27%、80.13%,平均識(shí)別率為73.04%,分別比未修復(fù)的破損圖像識(shí)別率高了1.25、7.60、4.71、4.24個(gè)百分點(diǎn),平均識(shí)別率提高了4.45個(gè)百分點(diǎn),因此對(duì)破損圖像修復(fù)后再進(jìn)行表情識(shí)別是必要的步驟。
表3 不同遮擋識(shí)別率對(duì)比Table 3 Different occlusion accuracy comparison %
(2)遮擋補(bǔ)全有效性分析
由表3可以看出,1/9和1/16遮擋修復(fù)識(shí)別率比較高,都在80%以上,識(shí)別優(yōu)化率都在4%以上,不同遮擋比例的識(shí)別率和損失函數(shù)變化過程,如圖12和圖13所示,修復(fù)圖的損失函數(shù)在30 000次迭代左右時(shí)就趨于穩(wěn)定,而未修復(fù)圖的損失函數(shù)在50 000次迭代后才趨于穩(wěn)定,并且識(shí)別率始終低于修復(fù)圖識(shí)別率,所以對(duì)于圖像修復(fù)后進(jìn)行表情識(shí)別不僅提高識(shí)別率,還更好地收斂了實(shí)驗(yàn)結(jié)果。
1/4遮擋修復(fù)識(shí)別率雖然低于1/9和1/16遮擋修復(fù)識(shí)別率,但是優(yōu)化率卻是所有遮擋類型中最高的,分別高出了2.99和2.36個(gè)百分點(diǎn),同時(shí)在圖12和圖13的變化過程中可以看到,1/4遮擋相比于另外兩種遮擋更早拉開與未修復(fù)識(shí)別率的差距,損失函數(shù)的差異也是所有類型中差距最明顯的,所以在1/4遮擋修復(fù)的識(shí)別效果表現(xiàn)最為優(yōu)秀。
1/2遮擋時(shí)識(shí)別率雖有所提高,但是優(yōu)化率僅有1.25個(gè)百分點(diǎn),并且由圖12所示其修復(fù)圖識(shí)別率后期變化不夠收斂,與未修復(fù)圖識(shí)別率產(chǎn)生了交叉變化,原因在3.1.2小節(jié)的實(shí)驗(yàn)結(jié)果和圖13的損失函數(shù)變化可知,大面積遮擋修復(fù)的損失率過高,所以修復(fù)后的圖像丟失太多表情有關(guān)的特征,對(duì)其進(jìn)行表情識(shí)別的貢獻(xiàn)率不高。綜合實(shí)驗(yàn)結(jié)果,本文方法對(duì)中小程度的遮擋,通過補(bǔ)全后表情識(shí)別有效性顯著提高。
圖12 不同遮擋識(shí)別率變化Fig.12 Different occlusion accuracy change
圖13 不同遮擋損失函數(shù)變化Fig.13 Different occlusion loss change
(3)表情分類對(duì)比分析
本文方法對(duì)于1/4遮擋補(bǔ)全的貢獻(xiàn)最優(yōu)秀。為了方便觀察各類表情的識(shí)別率,如表4和表5,為1/4遮擋制作了修復(fù)圖與未修復(fù)圖的混淆矩陣,表中每一行的數(shù)據(jù)是該類表情的真實(shí)分類結(jié)果,表中對(duì)角線的數(shù)據(jù)為各個(gè)表情的識(shí)別正確率,其他交叉數(shù)據(jù)為表情之間的錯(cuò)誤分類。從表中可以看出在MMI數(shù)據(jù)集上本文方法的憤怒、高興、驚訝識(shí)別較好,分別達(dá)到了79.27%、82.26%、81.47%,未修復(fù)圖的識(shí)別率僅有70.40%、81.06、72.46%,其中平均有6.36個(gè)百分點(diǎn)的識(shí)別率提升得益于遮擋圖像的修復(fù)。對(duì)憤怒、高興、驚訝識(shí)別較好的原因是這類表情的嘴巴、眼睛和眉毛具有明顯的特征變化,并且這些特征在3.1.2小節(jié)構(gòu)建的遮擋補(bǔ)全網(wǎng)絡(luò)被很好地區(qū)分,表情修復(fù)效果較好。
表4 1/4遮擋修復(fù)圖混淆矩陣Table 4 Confusion matrix of 1/4 occlusion repair %
表5 1/4遮擋未修復(fù)圖混淆Table 5 Confusion matrix of 1/4 occlusion unrepair%
在厭惡、恐懼、悲傷和中性表情上識(shí)別率不夠理想,修復(fù)圖識(shí)別率都低于70%,分別為58.64%、67.84%、65.73%、59.62%,但是相比于未修復(fù)圖像平均識(shí)別率也有5.08個(gè)百分點(diǎn)的提升,由此可以看出圖像修復(fù)對(duì)有局部遮擋的動(dòng)態(tài)表情識(shí)別意義重大。
中性、憤怒、悲傷和厭惡容易被錯(cuò)誤識(shí)別,未修復(fù)圖的平均錯(cuò)誤率為9.4%,而修復(fù)圖的平均錯(cuò)誤率降為8.57%,其中厭惡最容易被分類為悲傷,錯(cuò)誤率最高達(dá)到11.26%,由此看出,面部表情是多個(gè)面部肌肉活動(dòng)的結(jié)果,所以在情感表達(dá)時(shí)面部變化非常復(fù)雜。中性、憤怒、悲傷和厭惡等表情特征區(qū)分不是很明顯,特別是當(dāng)多種表情的混合出現(xiàn)更容易造成錯(cuò)誤分類,這進(jìn)一步說明人臉表情識(shí)別研究的任務(wù)是復(fù)雜而艱巨的。
為了解決了現(xiàn)實(shí)生活中動(dòng)態(tài)表情識(shí)別的面部遮擋問題,在補(bǔ)全網(wǎng)絡(luò)中使用并聯(lián)的生成對(duì)抗框架,在一定程度減少了遮擋對(duì)表情的影響,并且網(wǎng)絡(luò)更快速、更加穩(wěn)定。通過實(shí)驗(yàn)可以得到如下結(jié)論:
(1)構(gòu)建的P-IncepNet是穩(wěn)定的,具有良好遮擋修復(fù)性能。
(2)本文局部遮擋補(bǔ)全網(wǎng)絡(luò)的對(duì)抗損失和內(nèi)容損失低于CC-Gan,其中1/16至1/4這樣中小程度的隨機(jī)遮擋修復(fù)效果優(yōu)于1/2大面積遮擋,對(duì)于大面積遮擋來說,生成模型和判別模型需要平衡的網(wǎng)絡(luò)層分配。
(3)構(gòu)建的級(jí)聯(lián)表情識(shí)別網(wǎng)絡(luò)在MMI數(shù)據(jù)集上進(jìn)行不同遮擋補(bǔ)全的表情識(shí)別,發(fā)現(xiàn)遮擋修復(fù)對(duì)表情識(shí)別的平均貢獻(xiàn)率達(dá)到4.45個(gè)百分點(diǎn),其中1/9和1/16遮擋修復(fù)的優(yōu)化率分別為4.71和4.24個(gè)百分點(diǎn),在1/4遮擋達(dá)到最高貢獻(xiàn)率7.6個(gè)百分點(diǎn),修復(fù)效果不理想的1/2遮擋也有1.25個(gè)百分點(diǎn)的優(yōu)化率。
(4)本文構(gòu)建的級(jí)聯(lián)表情識(shí)別網(wǎng)絡(luò)對(duì)無遮擋同樣具有較高的識(shí)別性能,識(shí)別率不僅高于C3D、LSTM這樣的單網(wǎng)絡(luò)結(jié)構(gòu),也比C3D-LSTM、ResNet-LSTM這樣的級(jí)聯(lián)網(wǎng)絡(luò)優(yōu)秀,在AFEW數(shù)據(jù)集和MMI數(shù)據(jù)集上最高識(shí)別率分別比基線高11.65和12.13個(gè)百分點(diǎn)。
(5)遮擋對(duì)憤怒、驚訝、高興表情產(chǎn)生的影響較大,6.36個(gè)百分點(diǎn)的平均識(shí)別率提升得益于本文遮擋圖像的修復(fù);對(duì)厭惡、恐懼、悲傷和中性表情的影響相對(duì)較小,與遮擋未修復(fù)圖相比,平均識(shí)別率提高了5.08個(gè)百分點(diǎn),所有本文網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行圖像修復(fù)對(duì)有遮擋的動(dòng)態(tài)表情識(shí)別意義重大。
為了進(jìn)一步提高網(wǎng)絡(luò)對(duì)任意比例遮擋的魯棒性,還需要更多的遮擋數(shù)據(jù)對(duì)其訓(xùn)練。在實(shí)際應(yīng)用中遮擋與無遮擋總是混合交叉出現(xiàn)的,為了提高效率和識(shí)別的準(zhǔn)確率,有必要對(duì)是否有遮擋進(jìn)行預(yù)判,光流法是較簡單的遮擋預(yù)判方法,但是受太多條件約束,光流法的實(shí)現(xiàn)需要滿足三種假設(shè):圖像的光照強(qiáng)度保持不變;空間一致性;時(shí)間連續(xù)性。Mean-shift跟蹤算法和圖像分割算法也可以進(jìn)行遮擋預(yù)判,但是該方法計(jì)算量很大,受圖像變形和縮放等干擾信息影響。Fast-R-CNN是現(xiàn)在比較流行的對(duì)有無遮擋進(jìn)行判斷的深度學(xué)習(xí)方法,該方法在具有挑戰(zhàn)性的野外環(huán)境中能夠保持遮擋檢測的實(shí)時(shí)性和準(zhǔn)確率,但網(wǎng)絡(luò)需要大量的遮擋數(shù)據(jù)集進(jìn)行訓(xùn)練,而現(xiàn)有的表情遮擋數(shù)據(jù)集有限。對(duì)遮擋進(jìn)行預(yù)判一般是在人臉檢測和跟蹤部分進(jìn)行,在該部分選擇一種既能提高判斷準(zhǔn)確率,又能節(jié)省計(jì)算機(jī)成本的遮擋預(yù)判方法是進(jìn)一步需要研究的內(nèi)容。