李升輝,李虹靜
基于深度卷積神經(jīng)網(wǎng)絡(luò)的面部表情自動(dòng)識(shí)別檢測(cè)
李升輝,李虹靜
(華中科技大學(xué)工程實(shí)訓(xùn)中心,湖北 武漢 430074)
在人機(jī)交互領(lǐng)域中,對(duì)人臉的表情進(jìn)行自動(dòng)識(shí)別是一項(xiàng)有趣且十分具有挑戰(zhàn)性的工作,尤其是對(duì)視頻及圖像中的人臉進(jìn)行表情識(shí)別。提出一種能夠自動(dòng)從圖像或者視頻中找到人臉,進(jìn)而對(duì)其表情進(jìn)行識(shí)別的網(wǎng)絡(luò)模型。在包含人臉圖像的數(shù)據(jù)集中訓(xùn)練模型,使其自動(dòng)檢測(cè)圖像中的人臉,并根據(jù)人臉識(shí)別其表情。最后在測(cè)試的數(shù)據(jù)集上驗(yàn)證該模型的表現(xiàn)。
表情識(shí)別;深度學(xué)習(xí);圖像處理;視頻分析
由于面部表情在人類(lèi)情緒分析中占有重要地位,因此面部表情識(shí)別在人機(jī)交互、認(rèn)知心理學(xué)、醫(yī)療保健系統(tǒng)、動(dòng)畫(huà)等領(lǐng)域有著重要的應(yīng)用。面部表情識(shí)別的目標(biāo)是根據(jù)給定的面部圖像對(duì)情緒狀態(tài)進(jìn)行分類(lèi)(由EKMAN和FRIESEN[1]所定義的基本情緒,包括平靜、憤怒、厭惡、恐懼、快樂(lè)、悲傷和驚訝)。近年來(lái),表情識(shí)別成為計(jì)算機(jī)視覺(jué)研究的熱點(diǎn)之一,全世界有大量的研究者研究出了效果不錯(cuò)的表情識(shí)別系統(tǒng)。
利用傳統(tǒng)的機(jī)器學(xué)習(xí)來(lái)進(jìn)行表情識(shí)別的研究在過(guò)去十年中取得了不錯(cuò)成果。但是,這些檢測(cè)結(jié)果抗噪聲能力較差,并且易受其他因素如光照、頭部姿態(tài)、不同膚色等影響。此外,傳統(tǒng)方法通常需要手工設(shè)計(jì)描述子,這對(duì)于表情識(shí)別的海量視頻和圖像數(shù)據(jù)來(lái)說(shuō)是極其不穩(wěn)定的。
眾所周知,深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)在計(jì)算機(jī)視覺(jué)等人工智能相關(guān)領(lǐng)域都取得了非常好的效果[2]。顧名思義,深度卷積網(wǎng)絡(luò)主要由多個(gè)卷積層疊加而成,同時(shí)卷積層之間還有池化層、激活層和全連接層等其他網(wǎng)絡(luò)單元。這些基礎(chǔ)單元組合而成的網(wǎng)絡(luò)能夠很好處理輸送進(jìn)來(lái)的圖像或者語(yǔ)言等數(shù)據(jù)。與傳統(tǒng)方法或其他淺層的網(wǎng)絡(luò)模型相比,深度卷積網(wǎng)絡(luò)在效果上遠(yuǎn)遠(yuǎn)領(lǐng)先。當(dāng)然,深度卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法通常也是使用反向傳播的方法訓(xùn)練,相比機(jī)器學(xué)習(xí)或者其他網(wǎng)絡(luò)模型而言,它處理相同數(shù)據(jù)所需要的參數(shù)更少,效果也更好,因此它逐漸成為一個(gè)熱門(mén)且廣泛使用的網(wǎng)絡(luò)結(jié)構(gòu)。
本文提出了一個(gè)融合數(shù)據(jù)集,并將該數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集兩個(gè)部分。同時(shí),設(shè)計(jì)了一個(gè)針對(duì)表情識(shí)別的網(wǎng)絡(luò)模型,它使用數(shù)據(jù)集中的訓(xùn)練部分進(jìn)行有監(jiān)督的訓(xùn)練。最后利用測(cè)試集對(duì)訓(xùn)練好的模型進(jìn)行測(cè)試,評(píng)價(jià)模型對(duì)表情識(shí)別的性能。
1872年,達(dá)爾文在論文《The Expression of the Emotions in Animals and Man》中最先提出了面部表情識(shí)別研究的概念,并解釋說(shuō)明了人類(lèi)和動(dòng)物面部表情研究的基本概念[3]。1971年,EKMAN和FRIESEN對(duì)現(xiàn)代人臉表情識(shí)別做了開(kāi)創(chuàng)性的工作,他們研究了人類(lèi)的6種基本表情(即高興、悲傷、驚訝、恐懼、憤怒、厭惡),系統(tǒng)地收集并且分類(lèi)各種表情圖像上千幅,對(duì)人的五官(眼睛、鼻子、嘴巴、眉毛、臉部)進(jìn)行詳細(xì)描述和變化分析。1978年,有學(xué)者提出在人物動(dòng)畫(huà)幀中進(jìn)行分析,對(duì)表情序列進(jìn)行首次自動(dòng)識(shí)別的嘗試[4]。后來(lái)進(jìn)入90年代,有學(xué)者通過(guò)識(shí)別面部肌肉的運(yùn)動(dòng)方向來(lái)確定表情[5]。之后,關(guān)于表示識(shí)別的研究層出不窮。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一類(lèi)包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)的代表算法之一。卷積神經(jīng)網(wǎng)絡(luò)具有表征學(xué)習(xí)能力,能夠按其階層結(jié)構(gòu)對(duì)輸入信息進(jìn)行平移不變分類(lèi),因此也被稱(chēng)為“平移不變?nèi)斯ど窠?jīng)網(wǎng)絡(luò)”。
20世紀(jì)八九十年代,卷積神經(jīng)網(wǎng)絡(luò)的研究被提出并且被證明有效。卷積神經(jīng)網(wǎng)絡(luò)中出現(xiàn)最早的是時(shí)間延遲網(wǎng)絡(luò)和LeNet-5[6];21世紀(jì)后,隨著深度學(xué)習(xí)理論的豐富和計(jì)算機(jī)運(yùn)算能力的突飛猛進(jìn),深度卷積神經(jīng)網(wǎng)絡(luò)的研究變得更加快速,在計(jì)算機(jī)視覺(jué)、語(yǔ)音文本處理等領(lǐng)域等都被大量使用。
該數(shù)據(jù)集供設(shè)計(jì)的模型進(jìn)行訓(xùn)練和測(cè)試使用。該數(shù)據(jù)集融合了學(xué)術(shù)界廣泛使用的幾個(gè)數(shù)據(jù)集和部分網(wǎng)絡(luò)圖片,其中包括被采集志愿者的照片、電影中的截圖、網(wǎng)絡(luò)上下載的圖片。數(shù)據(jù)集由高清和低清分辨率的圖片組成,所有圖片進(jìn)行統(tǒng)一的裁剪處理。數(shù)據(jù)集中每張圖片都被標(biāo)記為7種不同的表情表情類(lèi)別,在實(shí)驗(yàn)中,融合的數(shù)據(jù)集被采用7折交叉驗(yàn)證,即融合數(shù)據(jù)集被打亂順序后平均分為7份,6份作為訓(xùn)練集,一份作為驗(yàn)證集,重復(fù)實(shí)驗(yàn)7次,最終實(shí)驗(yàn)結(jié)果取這7次的平均值。數(shù)據(jù)集中部分圖片如圖1所示。
與傳統(tǒng)方法特征提取不同,之所以采用深度學(xué)習(xí)的方法,是因?yàn)樯疃葘W(xué)習(xí)中的網(wǎng)絡(luò)(尤其是CNN)對(duì)圖像具有較好的提取特征的能力,從而避免了人工提取特征的煩瑣。網(wǎng)絡(luò)的原理如圖2所示。首先將圖片中的人臉識(shí)別并裁剪出來(lái),再將這些人臉圖片作為訓(xùn)練數(shù)據(jù)輸入到設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)中,并且利用了一個(gè)傳統(tǒng)特征描述子LBP的單元進(jìn)行補(bǔ)充訓(xùn)練。網(wǎng)絡(luò)模型的訓(xùn)練也分步驟進(jìn)行。只需要對(duì)最后全連接層的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,特征提取網(wǎng)絡(luò)(前六層)中的權(quán)值是固定的。然后再對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練微調(diào),以達(dá)到整個(gè)網(wǎng)絡(luò)識(shí)別的更高精度。訓(xùn)練平臺(tái)為攜帶因特爾 Core i7 3.4GHz CPU和英偉達(dá) GeForce GTX 1080 GPU的臺(tái)式電腦,訓(xùn)練軟件為T(mén)ensorflow 1.4.0。網(wǎng)絡(luò)訓(xùn)練中使用Adam optimizer進(jìn)行訓(xùn)練(動(dòng)量項(xiàng)beta為0.5),學(xué)習(xí)率為常數(shù)0.000 2。
圖1 數(shù)據(jù)集中部分圖片
圖2 訓(xùn)練網(wǎng)絡(luò)的原理圖
設(shè)計(jì)的網(wǎng)絡(luò)模型總體結(jié)果如圖3所示,橫軸表示迭代次數(shù),縱軸表示測(cè)試的準(zhǔn)確值。這個(gè)結(jié)果可以證明本文的網(wǎng)絡(luò)模型對(duì)表情識(shí)別有非常不錯(cuò)的識(shí)別率。
圖3 測(cè)試結(jié)果曲線(xiàn)
為了更好地評(píng)價(jià)網(wǎng)絡(luò)模型,隨機(jī)抽取融合數(shù)據(jù)集中幾張圖片輸入網(wǎng)絡(luò)模型進(jìn)行測(cè)試。其表情識(shí)別的效果如圖4所示。由此可見(jiàn),本文所設(shè)計(jì)的網(wǎng)絡(luò)模型對(duì)于各種情況下人臉的表情識(shí)別都具有很好的魯棒性,并且對(duì)于不同人物的年齡、光照影響、頭部姿勢(shì)、膚色等問(wèn)題都能有效避免干擾,實(shí)現(xiàn)較高精度的識(shí)別。
本文引入了一個(gè)融合了的表情數(shù)據(jù)集,包括訓(xùn)練樣本和測(cè)試樣本,使用該數(shù)據(jù)集訓(xùn)練、測(cè)試設(shè)計(jì)模型。實(shí)驗(yàn)結(jié)果表明,在該表情數(shù)據(jù)集下,設(shè)計(jì)的深度卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)圖像中的人臉表情有很好的識(shí)別能力。
[1]EKMAN P,F(xiàn)RIESEN W V.Constants across cultures in the face and emotion[J].Journal of Personality and Social Psychology,1971,17(2):124.
[2]盧宏濤,張秦川.深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)中的應(yīng)用研究綜述[J].數(shù)據(jù)采集與處理,2016,31(1):1-17.
[3]DARWIN C,PRODGER P.The expression of the emotions in man and animals[M].USA:Oxford University Press,1998.
[4]SUWA M.A preliminary note on pattern recognition of human emotional expression[C]//Proc. of The 4th International Joint Conference on Pattern Recognition,1978.
[5]MASE K,PENTLAND A.Automatic lipreading by optical- flow analysis[J].Systems and Computers in Japan,1991,22(6):67-76.
[6]于之訓(xùn),蔣平.具有傳輸延遲的網(wǎng)絡(luò)控制系統(tǒng)中狀態(tài)觀(guān)測(cè)器的設(shè)計(jì)[J].信息與控制,2000,29(2):125-130.
TP391.41
A
10.15913/j.cnki.kjycx.2019.17.060
2095-6835(2019)17-0129-02
李升輝(1982—),男,碩士,工程師,主要研究方向?yàn)殡姽る娮印LC、光電技術(shù)和人工智能。
李虹靜(1989—),女,助理工程師,主要研究方向?yàn)殡姽る娮雍蚉LC。
〔編輯:嚴(yán)麗琴〕