• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于CNN集成的面部表情識(shí)別

      2020-05-20 15:05陸嘉慧張樹美趙俊莉
      關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)

      陸嘉慧 張樹美 趙俊莉

      摘要:針對(duì)面部表情識(shí)別在許多領(lǐng)域的重要應(yīng)用,本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)集成的面部表情識(shí)別(facial expression recognition,F(xiàn)ER)方法。采用3種網(wǎng)絡(luò)結(jié)構(gòu)不同的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,利用這些深層模型,使用基于驗(yàn)證準(zhǔn)確性的多數(shù)投票、簡(jiǎn)單平均和加權(quán)平均的集合方法,在CK+數(shù)據(jù)集和FER2013數(shù)據(jù)集上分別測(cè)試單一網(wǎng)絡(luò)模型和集合網(wǎng)絡(luò)模型。測(cè)試結(jié)果表明,單一模型的最佳識(shí)別率分別為98.99%和66.45%,集合網(wǎng)絡(luò)的最佳識(shí)別率分別達(dá)到99.33%和67.98%,說(shuō)明使用集合方法的模型比單一模型表現(xiàn)更佳,其中加權(quán)平均的集合方法優(yōu)于簡(jiǎn)單平均和多數(shù)投票,說(shuō)明本文所提出的方法能夠滿足面部表情識(shí)別的要求。該研究具有一定的實(shí)際應(yīng)用價(jià)值。

      關(guān)鍵詞:表情識(shí)別; 卷積神經(jīng)網(wǎng)絡(luò); 網(wǎng)絡(luò)集合; 表情數(shù)據(jù)集

      中圖分類號(hào): TP391.413文獻(xiàn)標(biāo)識(shí)碼: A

      面部表情是表達(dá)內(nèi)心世界最自然的方式,它在社會(huì)交往中起著至關(guān)重要的作用。20世紀(jì)70年代初期,D. Ekman等人[1]提出所有文化中都存在6種普遍的情感表達(dá),即驚訝、悲傷、憤怒、厭惡、快樂(lè)和恐懼。近年來(lái),面部表情識(shí)別的調(diào)查引起了廣泛關(guān)注[23],A.Krizhevsky等人[4]認(rèn)為基于深度學(xué)習(xí)的新方法可以改善面部表情分類任務(wù),尤其是ImageNet Challenge的最新改進(jìn)以來(lái),使CNN代表了相關(guān)的突破。CNN將特征提取和分類結(jié)合在一起,通過(guò)輸入原始數(shù)據(jù)得到最終的分類標(biāo)簽,不需要任何輔助過(guò)程。擁有數(shù)千萬(wàn)參數(shù)的CNN可以處理大量的訓(xùn)練樣本,自動(dòng)從網(wǎng)絡(luò)中學(xué)習(xí)特征,不需要手工提取。目前,這些端到端方法通過(guò)使用深度學(xué)習(xí)分類器的集合進(jìn)行改進(jìn),整體由一組CNN組成,它聚合每個(gè)分類器的部分結(jié)果,以在測(cè)試時(shí)間內(nèi)產(chǎn)生統(tǒng)一的響應(yīng)。T. Connie等人[5]將SIFT特征與從原始圖像中學(xué)習(xí)的CNN特征合并,提高FER性能;H. Jung等人[6]提出了深度網(wǎng)絡(luò)結(jié)合時(shí)間外觀特征和一組特定面部地標(biāo)的時(shí)間幾何;Ding H等人[7]先用正則化約束調(diào)整CNN權(quán)重,再添加全連接的圖層,這些圖層在初始階段的預(yù)訓(xùn)練特征之上學(xué)習(xí)分類參數(shù);Yu Z等人[8]通過(guò)可學(xué)習(xí)權(quán)重將多個(gè)CNN模型結(jié)合在一起,以最大限度地減少鉸鏈損失;B. K. Kim等人[9]提出了基于驗(yàn)證準(zhǔn)確性的指數(shù)加權(quán)平均值,以強(qiáng)調(diào)合格的個(gè)體,并通過(guò)實(shí)施多數(shù)投票或更高層次的簡(jiǎn)單平均,構(gòu)建委員會(huì)的等級(jí)架構(gòu);G. Pons等人[10]使用不同大小的濾波器和全連接層中不同數(shù)量的神經(jīng)元來(lái)構(gòu)建各種CNN;Yu Z[11]通過(guò)使用對(duì)數(shù)似然損失和鉸鏈損失來(lái)自適應(yīng)地為每個(gè)網(wǎng)絡(luò)分配不同的權(quán)重。使用CNN集合可以勝過(guò)單個(gè)CNN分類器,單一的CNN分類器在應(yīng)用中常常受到一定條件的限制,而集合CNN融合各單分類器判別信息的同時(shí),實(shí)現(xiàn)了各分類器之間優(yōu)缺點(diǎn)的互補(bǔ)。因此,尋求提高分類性能的方法構(gòu)造好的組合分類器非常重要。本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)集成的面部表情識(shí)別方法,該方法能夠滿足面部表情識(shí)別的要求。該研究可使面部表情識(shí)別應(yīng)用到眾多領(lǐng)域。

      1集成CNN的構(gòu)建方法

      使用一組CNN組成的框架可提高識(shí)別過(guò)程的準(zhǔn)確性。集成CNN的框架如圖1所示。為了獲得最佳性能,CNN的集合必須是多樣的,以在集合時(shí)提高整個(gè)框架的識(shí)別能力。為了尋求有效的網(wǎng)絡(luò)設(shè)計(jì)完成任務(wù),易于訓(xùn)練,選擇適當(dāng)?shù)募戏椒▓?zhí)行這組CNN。受VGG Net[12]提供的整潔結(jié)構(gòu)的啟發(fā),本文設(shè)計(jì)了3個(gè)不同的結(jié)構(gòu)化子網(wǎng)絡(luò),分別包含3,5,10個(gè)卷積層,將子網(wǎng)絡(luò)定義為i,i=[A,B,C]表示這3個(gè)子網(wǎng)。

      1.1預(yù)處理

      在FER2013[13]和Extended Cohn-Kanade(CK+)[14]數(shù)據(jù)集上測(cè)試該模型。FER2013是野外面部表情圖像數(shù)據(jù)集,在ICML 2013表征學(xué)習(xí)挑戰(zhàn)中,包含28 709個(gè)訓(xùn)練圖像,3 589個(gè)驗(yàn)證和3 589個(gè)測(cè)試,分為7種類型的表情,即憤怒、厭惡、恐懼、快樂(lè)、悲傷、驚喜和中立。由于標(biāo)簽噪聲,此數(shù)據(jù)的人為準(zhǔn)確度為(65±5)%。FER2013的所有類別都有比CK+更多的圖像。CK+是實(shí)驗(yàn)室控制的標(biāo)準(zhǔn)表情數(shù)據(jù)集,其樣本數(shù)量很少,由來(lái)自123個(gè)受試者的593個(gè)序列組成,其中327個(gè)序列具有基于FACS的情緒標(biāo)記。每個(gè)圖像分配:驚訝、悲傷、快樂(lè)、憤怒、蔑視、厭惡和恐懼7種表情之一。CK+和FER2013數(shù)據(jù)集的7種表情示例如圖2所示。由于每個(gè)圖像具有不同的姿勢(shì),因此FER2013數(shù)據(jù)集中的圖像更具挑戰(zhàn)性。

      在圖像預(yù)處理過(guò)程中,對(duì)CK+數(shù)據(jù)集運(yùn)行2個(gè)步驟來(lái)減少原始圖像中的干擾,即人臉檢測(cè)和直方圖均衡化。在面部檢測(cè)部分中,檢測(cè)結(jié)果基于OpenCV中的Haar-like特征,這是用于面部檢測(cè)的最經(jīng)典的特征之一,它可以減少需要處理的數(shù)據(jù)量,并有效地避免圖像中不同背景和其他對(duì)象對(duì)識(shí)別結(jié)果的干擾。在獲取圖像的正面部分之后,還應(yīng)考慮其他麻煩的問(wèn)題。由于拍照時(shí)的光照條件不同,人臉部分也會(huì)出現(xiàn)不同的亮度,這不可避免地會(huì)對(duì)識(shí)別結(jié)果造成很大的干擾。因此,在識(shí)別之前進(jìn)行直方圖均衡化(histogram equalization,HE)。HE是一種簡(jiǎn)單但有效的圖像處理算法,可以使不同圖像中的灰度值分布更均勻,減少不同光照條件下的干擾,更好地呈現(xiàn)重要特征,并且盡可能統(tǒng)一所有圖像。

      將兩個(gè)數(shù)據(jù)集所有圖像的大小標(biāo)準(zhǔn)化為100×100像素。為了使模型對(duì)噪聲和輕微變換更加魯棒,采用了數(shù)據(jù)增強(qiáng)。數(shù)據(jù)增強(qiáng)利用多種能夠生成可信圖像的隨機(jī)變換來(lái)增加樣本,即從現(xiàn)有的訓(xùn)練樣本中生成更多的訓(xùn)練數(shù)據(jù),使模型在訓(xùn)練時(shí)不會(huì)兩次查看完全相同的圖像,可觀察到數(shù)據(jù)的更多內(nèi)容,具有更好的泛化能力。變換包括水平翻轉(zhuǎn),在(-10,10)之間具有隨機(jī)角度的旋轉(zhuǎn)以及水平和豎直方向隨機(jī)移動(dòng)0.1比例,數(shù)據(jù)增強(qiáng)效果圖如圖3所示,所有圖像都被歸一化為零均值和單位方差。

      所有實(shí)驗(yàn)都是在NVIDIA GeForce MX150 GPU上使用TensorFlow開(kāi)發(fā),內(nèi)存為8 GB。TensorFlow是一個(gè)將復(fù)雜數(shù)據(jù)結(jié)構(gòu)傳輸?shù)饺斯ど窠?jīng)網(wǎng)絡(luò)進(jìn)行分析和處理的系統(tǒng),使用數(shù)據(jù)流圖進(jìn)行數(shù)值計(jì)算,它可以用在很多深度學(xué)習(xí)領(lǐng)域,如語(yǔ)音識(shí)別和圖像識(shí)別等。

      1.2子CNN結(jié)構(gòu)

      CNN結(jié)構(gòu)主要由卷積層、池化層和全連接層構(gòu)成。卷積層的作用是實(shí)現(xiàn)由一些卷積核組成的特征提取,對(duì)輸入圖像上做卷積運(yùn)算,加上偏移量,并將結(jié)果輸出到激活函數(shù)中以獲得輸出,減少了網(wǎng)絡(luò)參數(shù)的數(shù)量,降低了參數(shù)選擇的復(fù)雜性。圖像可以直接作為網(wǎng)絡(luò)輸入,避免了傳統(tǒng)方法中復(fù)雜的特征提取和數(shù)據(jù)重建表13個(gè)子網(wǎng)絡(luò)模型配置比較過(guò)程。池化層可以保持某種不變性(旋轉(zhuǎn)、平移、縮放等)。卷積層的作用是檢測(cè)上一層特征的局部連接以實(shí)現(xiàn)特征提取,而池化層的作用是結(jié)合相似的特征。池化層通常與卷積層一起使用,通過(guò)降采樣來(lái)減小尺寸,從而得到特征的不變性。常見(jiàn)的降采樣方法包括最大池、平均池等。全連接層是輸入輸出層神經(jīng)元的全部連接,由于卷積運(yùn)算是一種線性運(yùn)算,因此生成的特征也是一種線性特征。

      本文構(gòu)建了3個(gè)從頭開(kāi)始設(shè)計(jì)的自定義CNN網(wǎng)絡(luò)架構(gòu)。3個(gè)子網(wǎng)絡(luò)配置比較如表1所示,建立3種不同的網(wǎng)絡(luò)架構(gòu),保證網(wǎng)絡(luò)的多樣性,由于卷積層的數(shù)量不同,可以學(xué)習(xí)不同的特征,卷積層越多,子網(wǎng)絡(luò)學(xué)習(xí)到的特征就越細(xì)微。

      子網(wǎng)絡(luò)A由3個(gè)卷積層和3個(gè)最大池化層組成,卷積濾波器的數(shù)量分別為32,64,128,過(guò)濾器的窗口大小為11×11,5×5,3×3;子網(wǎng)絡(luò)B由10個(gè)卷積層和4個(gè)平均池化層組成,卷積濾波器的數(shù)量分別為16,32,64,128,256,7,過(guò)濾器的窗口大小為7×7,5×5,3×3,最后應(yīng)用全局平均池化,一個(gè)特征圖全局平均池化后再進(jìn)行Softmax會(huì)減少很多參數(shù)。子網(wǎng)絡(luò)C由5個(gè)卷積層和3個(gè)最大池化層組成,子網(wǎng)絡(luò)A和子網(wǎng)絡(luò)C最后都是兩個(gè)密集的全連接層。每次添加最大池化層時(shí),下一個(gè)卷積濾波器的數(shù)量都會(huì)翻倍,且最大池化層大小均為2×2。最大池化層用于總結(jié)濾波器區(qū)域,該濾波器區(qū)域被視為一種非線性下采樣,有助于提供一種平移不變性,并減少了更深層的計(jì)算。

      1.3集成方法

      在描述了前3個(gè)子網(wǎng)之后,為CNN構(gòu)建整體架構(gòu)(見(jiàn)圖1),該模型包括2個(gè)階段。第1階段將面部圖像作為輸入,并將其提供給3個(gè)CNN子網(wǎng)。3個(gè)子網(wǎng)設(shè)計(jì)緊湊,易于訓(xùn)練,是架構(gòu)的核心組件;第2階段負(fù)責(zé)根據(jù)前一階段輸出預(yù)測(cè)表情,將這些子網(wǎng)絡(luò)輸出結(jié)合起來(lái),以獲得最準(zhǔn)確的最終決策。使用不同CNN來(lái)解決諸如情感識(shí)別之類復(fù)雜問(wèn)題的主要優(yōu)點(diǎn)是它們可以相互補(bǔ)充。在訓(xùn)練多個(gè)CNN時(shí),有的在識(shí)別某些情緒時(shí)會(huì)比其他更好。

      決策級(jí)集合最常用的規(guī)則是多數(shù)投票規(guī)則、簡(jiǎn)單平均規(guī)則和加權(quán)平均規(guī)則。在多數(shù)投票規(guī)則中,每個(gè)CNN獲得的預(yù)測(cè)類別標(biāo)簽,可用于確定具有最高票數(shù)的類別,將多數(shù)分類器預(yù)測(cè)結(jié)果作為最終分類結(jié)果,即

      其中,mod e為眾數(shù);A,B,C分別是3個(gè)子網(wǎng)絡(luò)模型。簡(jiǎn)單平均規(guī)則使用從每個(gè)分類器產(chǎn)生的與類相關(guān)的分?jǐn)?shù),而不是使用標(biāo)簽。因此,從子網(wǎng)絡(luò)A、子網(wǎng)絡(luò)B和子網(wǎng)絡(luò)C中獲得平均分?jǐn)?shù)最高的類作為最終輸出,從而提高模型的準(zhǔn)確性。輸入圖像x屬于表情e的概率為

      加權(quán)平均使用每個(gè)有不同權(quán)重的分類器產(chǎn)生的與類相關(guān)的分?jǐn)?shù),獲得平均分?jǐn)?shù)最高的類作為最終輸出,輸入圖像x屬于表情e的概率為

      通常要求wi≥0,w1+w2+w3=1。每一個(gè)模型都以Softmax層作為最后一層,輸出范圍在0~1,輸出最高概率的表情為最佳匹配表情,即

      通過(guò)這種架構(gòu),將人臉圖像映射到7個(gè)基本表情標(biāo)簽之一,結(jié)合不同結(jié)構(gòu)化CNN模型結(jié)果,使它們成為整個(gè)網(wǎng)絡(luò)的一部分。使用決策以獲得更好的性能,因?yàn)槊總€(gè)CNN子網(wǎng)都會(huì)產(chǎn)生一些錯(cuò)誤,并且它們?cè)趨f(xié)同工作中互補(bǔ)。

      2訓(xùn)練過(guò)程

      考慮小數(shù)據(jù)集引起的過(guò)擬合,在卷積層和全連接層之后仍然會(huì)添加dropout,通過(guò)防止特征提取器的共同適應(yīng),即它可以創(chuàng)建不依賴于彼此的特征,產(chǎn)生有用的輸出來(lái)降低網(wǎng)絡(luò)過(guò)度擬合的風(fēng)險(xiǎn),增加網(wǎng)絡(luò)的泛化能力。為了提高網(wǎng)絡(luò)的非線性特性,本文使用線性整流函數(shù)(rectified linear unit,Relu)作為激活函數(shù)。對(duì)于任何給定的輸入值x,Relu定義為

      其中,x是神經(jīng)元的輸入。使用Relu激活函數(shù)可避免由其他一些激活函數(shù)引起的消失梯度問(wèn)題。在網(wǎng)絡(luò)最后階段,放置具有7個(gè)輸出的Softmax層,將單個(gè)節(jié)點(diǎn)的輸出變成一個(gè)概率值,神經(jīng)元的原始輸出不是一個(gè)概率值,實(shí)質(zhì)上是輸入的數(shù)值x做了復(fù)雜的加權(quán)和與非線性處理之后的一個(gè)值z(mì)i,即

      其中,wij是第i個(gè)神經(jīng)元的第j個(gè)權(quán)重;b是偏移值。給這個(gè)輸出加上一個(gè)Softmax函數(shù),即

      其中,Si是第i個(gè)神經(jīng)元的輸出概率。將與Softmax分類器相對(duì)應(yīng)的交叉熵方法用作損失函數(shù),交叉熵?fù)p失函數(shù)是用來(lái)判斷實(shí)際輸出概率與期望輸出概率的距離,即交叉熵的值越小,兩個(gè)概率分布越接近,設(shè)概率分布p為期望輸出,概率分布q為實(shí)際輸出,H(p,q)為交叉熵,則

      網(wǎng)絡(luò)使用Adam[15]進(jìn)行優(yōu)化,Adam是一種基于自適應(yīng)梯度的優(yōu)化方法。在訓(xùn)練過(guò)程中,還引入了批量歸一化層(batch normalization,BN)[16]和L2正則化,以提高訓(xùn)練速度,降低網(wǎng)絡(luò)的擬合能力。

      2.1批量歸一化

      神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程本質(zhì)上是為了學(xué)習(xí)數(shù)據(jù)的分布規(guī)律。一方面,若每批訓(xùn)練數(shù)據(jù)的分布各不相同,網(wǎng)絡(luò)則需要每次迭代去學(xué)習(xí)和適應(yīng)不同的分布,這樣會(huì)大大降低網(wǎng)絡(luò)的訓(xùn)練速度;另外,如果訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)的分布不同,則網(wǎng)絡(luò)的泛化能力會(huì)很大程度降低。除此之外,數(shù)據(jù)分布對(duì)激活函數(shù)也極為重要,數(shù)據(jù)分布范圍太大,不利于利用激活函數(shù)的非線性特性,為了緩解這些問(wèn)題,提出了BN。因此,在每層網(wǎng)絡(luò)輸入時(shí),插入一個(gè)歸一化層,即先做歸一化處理,然后再進(jìn)入網(wǎng)絡(luò)的下一層,它是一個(gè)可學(xué)習(xí)、有參數(shù)的網(wǎng)絡(luò)層。

      BN算法具有提高網(wǎng)絡(luò)泛化能力的特性,并且BN在實(shí)際應(yīng)用中收斂非??欤虼丝梢赃x擇更小的L2正則約束參數(shù),不需要使用局部響應(yīng)歸一化層,因BN本身就是一個(gè)歸一化網(wǎng)絡(luò)層。此外,它可以徹底打亂訓(xùn)練數(shù)據(jù),防止每批訓(xùn)練時(shí)某一個(gè)樣本被經(jīng)常選到。

      2.2L2正則化

      在數(shù)據(jù)集有限的情況下,另一種防止過(guò)擬合的方式就是降低模型的復(fù)雜度。在損失函數(shù)中加入L2正則化項(xiàng),L2正則化傾向于使網(wǎng)絡(luò)的權(quán)值接近0,降低了前一層神經(jīng)元對(duì)后一層神經(jīng)元的影響,使網(wǎng)絡(luò)變得簡(jiǎn)單,降低了網(wǎng)絡(luò)的有效大小,也就意味著降低了網(wǎng)絡(luò)的擬合能力。實(shí)質(zhì)上L2正則化是對(duì)權(quán)值做線性衰減。相比于初始的交叉熵?fù)p失函數(shù),訓(xùn)練過(guò)程中的損失函數(shù)多了最后的正則化項(xiàng),即

      其中,λ>0為正則化參數(shù);n為訓(xùn)練集包含的實(shí)例個(gè)數(shù)。L2正則化項(xiàng)是指w的平方項(xiàng),該項(xiàng)實(shí)質(zhì)上是神經(jīng)網(wǎng)絡(luò)中的權(quán)重之和。

      在神經(jīng)網(wǎng)絡(luò)中,正則化網(wǎng)絡(luò)更傾向于小的權(quán)重,這樣數(shù)據(jù)x隨機(jī)變化不會(huì)對(duì)神經(jīng)網(wǎng)絡(luò)模型造成太大影響,所以受數(shù)據(jù)局部噪音的可能性影響更小。而未加入正則化的神經(jīng)網(wǎng)絡(luò)權(quán)重大,易通過(guò)較大的模型改變來(lái)適應(yīng)數(shù)據(jù),更容易學(xué)習(xí)到局部的噪音。

      3實(shí)驗(yàn)結(jié)果與討論

      采集CK+數(shù)據(jù)集2 940張,F(xiàn)ER2013數(shù)據(jù)集28 709張,為測(cè)試算法的有效性,實(shí)驗(yàn)采取五折交叉驗(yàn)證方法。將數(shù)據(jù)集隨機(jī)分成5份,其中4份用作訓(xùn)練,1份用作測(cè)試,進(jìn)行5次實(shí)驗(yàn),最后取5次實(shí)驗(yàn)結(jié)果的平均值。

      基于CNN集成的表情識(shí)別由2個(gè)階段組成。在訓(xùn)練階段,構(gòu)建了所有單獨(dú)的分類器,在測(cè)試階段,實(shí)現(xiàn)融合方法得出面部圖像的最終分類。為了產(chǎn)生不同的結(jié)果,構(gòu)建最佳組合方法。首先構(gòu)建3個(gè)深度CNN,這3個(gè)子網(wǎng)絡(luò)分開(kāi)訓(xùn)練,共享一個(gè)類似的模式。通過(guò)應(yīng)用各種網(wǎng)絡(luò)體系結(jié)構(gòu)及隨機(jī)初始化訓(xùn)練深層模型。在兩個(gè)數(shù)據(jù)集上,對(duì)當(dāng)前最先進(jìn)的方法進(jìn)行比較,不同模型的分類精度比較如表2所示。

      經(jīng)過(guò)交叉驗(yàn)證,子網(wǎng)絡(luò)B的識(shí)別率最佳,在CK+數(shù)據(jù)集上達(dá)到98.99%,在FER2013數(shù)據(jù)集上達(dá)到66.45%,證明使用小濾波器不僅可以減少參數(shù)數(shù)量,還可以提高深度神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率。

      從實(shí)驗(yàn)中得出訓(xùn)練多個(gè)學(xué)習(xí)器并將其結(jié)合,使用結(jié)果明顯超過(guò)當(dāng)前的先進(jìn)方法,采用集合方法的識(shí)別率優(yōu)于單一模型的識(shí)別率,通過(guò)訓(xùn)練多個(gè)子網(wǎng)絡(luò)模型,提取不同的互補(bǔ)深度特征表示,從而提高了網(wǎng)絡(luò)模型性能。其中,加權(quán)平均的集合方法在CK+和FER2013數(shù)據(jù)集上表現(xiàn)最佳,這是由于加權(quán)平均方法考慮了個(gè)體的重要性和置信度,這里將子網(wǎng)絡(luò)B的權(quán)重設(shè)置要比其他子網(wǎng)絡(luò)大一些。模型在CK+數(shù)據(jù)集上7種表情評(píng)估結(jié)果如表3所示,模型在FER2013數(shù)據(jù)集上7種表情評(píng)估結(jié)果如表4所示。由表3和表4可以看出,表情“高興”的準(zhǔn)確率非常高,這也是人類最容易識(shí)別的表情。

      4結(jié)束語(yǔ)

      本文提出了一個(gè)基于集合CNN的面部表情識(shí)別方法,根據(jù)子網(wǎng)絡(luò)產(chǎn)生的后驗(yàn)概率訓(xùn)練CNN,允許捕獲子網(wǎng)絡(luò)成員之間的非線性依賴關(guān)系,并從數(shù)據(jù)中學(xué)習(xí)這種組合。構(gòu)建了3個(gè)結(jié)構(gòu)不同的子CNN,以保證網(wǎng)絡(luò)的互補(bǔ)性,這些子網(wǎng)在訓(xùn)練集上分別訓(xùn)練。同時(shí)為了提高網(wǎng)絡(luò)的泛化能力和識(shí)別率,在網(wǎng)絡(luò)中加入了L2正則化和批量規(guī)范化,使用多數(shù)投票、簡(jiǎn)單平均和加權(quán)平均的集成方法,通過(guò)后驗(yàn)概率找到最優(yōu)集合方式,在CK+標(biāo)準(zhǔn)數(shù)據(jù)集和FER2013野外數(shù)據(jù)集中進(jìn)行評(píng)估。該研究與單個(gè)CNN模型相比,網(wǎng)絡(luò)架構(gòu)通過(guò)組合和平均不同結(jié)構(gòu)CNN的輸出,報(bào)告了更好的性能,在實(shí)驗(yàn)的準(zhǔn)確度方面取得優(yōu)異結(jié)果。在更大的數(shù)據(jù)集中對(duì)網(wǎng)絡(luò)進(jìn)行研究,設(shè)計(jì)不同的目標(biāo)函數(shù),訓(xùn)練子CNN是下一步研究的重點(diǎn),并且對(duì)集成方法進(jìn)行深入研究,以獲得更多樣化的網(wǎng)絡(luò)集合方法,進(jìn)一步提高面部表情識(shí)別精度。

      參考文獻(xiàn):

      [1]Keltner D, Ekman P, Gonzaga G C, et al. Facial expression of emotion[J]. Encyclopedia of Human Behavior, 2012, 30(1): 173183.

      [2]Sariyanidi E, Gunes H, Cavallaro A. Automatic analysis of facial affect: a survey of registration, representation, and recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(6): 11131133.

      [3]Corneanu C A, Oliu M, Cohn J F, et al. Survey on RGB, 3D, thermal, and multimodal approaches for facial expression recognition: History, trends, and affect-related applications[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016, 38(8): 15481568.

      [4]Krizhevsky A, Sutskever I, Hinton G E. Imagenet classify cation with deep convolutional neural networks[C]∥NIPS Curran Associates Inc. Nevada: NIPS, 2012: 10971105.

      [5]Connie T, Al-Shabi M, Cheah W P, et al. Facial expression recognition using a hybrid CNN-SIFT aggregator[C]∥International Workshop on Multi-Disciplinary in Artificial Intelligence. Gadong, Brunei: MIWAI, 2017: 139149.

      [6]Jung H, Lee S, Yim J, et al. Joint fine-tuning in deep neural networks for facial expression recognition[C]∥2015 IEEE International Conference on Computer Vision. Santiago: ICCV, 2015: 29832991.

      [7]Ding H, Zhou S H K, Chellappa R. Facenet2expnet: regular izing a deep face recognition net for expression recognition[C]∥ 2017 12th IEEE Computer Society. Washington: IEEE, 2017: 118126.

      [8]Yu Z D, Zhang C. Image based static facial expression recognition with multiple deep network learning[C]∥Acm on International Conference on Multimodal Interaction. denver, USA: IEEE, 2015: 435442.

      [9]Kim B K, Lee H, Roh J, et al. Hierarchical committee of deep CNNs with exponentially-weighted decision fusion for static facial expression recognition[C]∥ Emotion Recognition in the Wild Challenge @ ACM International Conference on Multimodal Interaction. USA: ICMI, 2015: 427434.

      [10]Gerard P, David M. Supervised committee of convolutional neural networks in automated facial expression analysis[J]. IEEE Transactions on Affective Computing, 2018, 9(3): 343350.

      [11]Yu Z D, Zhang C. Image based static facial expression recognition with multiple deep network learning[C]∥Acm on International Conference on Multimodal Interaction. Seattle: ACM, 2015: 435442.

      [12]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[C]∥International Conference on Learning Representations, 2015: 114.

      [13]Goodfellow I J, Erhan D, Carrier P L, et al. Challenges in representation learning: a report on three machine learning contests[C]∥Neural Information Processing. Berlin: Springer Berlin Heidelberg, 2013: 117124.

      [14]Lucey P, Cohn J F, Kanade T, et al. The extended cohn-kanade dataset (CK+): a complete dataset for action unit and emotion-specified expression[C]∥2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops. San Francisco, CA, USA: IEEE, 2010: 94101.

      [15]Kingma D P, Ba J. Adam: A method for stochastic optimization[C]∥International Conference on Learning Representations. San Diego: LCLR, 2015.

      [16]Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]∥International Conference on Learning Representations. 2015.

      [17]Liu M, Li S, Shan S, et al. AU-inspired deep networks for facial expression feature learning[J]. Neurocomputing, 2015, 159: 126136.

      [18]Mollahosseini A, Chan D, Mahoor M H. Going deeper in facial expression recognition using deep neural networks[C]∥2016 IEEE Winter Conference on Applications of Computer Vision (WACV). Lake Placid: IEEE, 2016: 110.

      [19]Goodfellow I J, Erhan D, Carrier P L, et al. Challenges in representation learning: a report on three machine learning contests[J]. Neural Information Processing, 2013, 8228: 117124.

      [20]Arriaga O, Valdenegro-Toro M, Plger P, et al. Real-time convolutional neural networks for emotion and gender classification[C]∥Computer Vision and Pattern Recognition. Octavio Arriaga: ICAR, 2018.

      收稿日期: 2019-09-23; 修回日期: 2019-12-17

      基金項(xiàng)目:中國(guó)博士后科學(xué)基金資助(2017M622137);國(guó)家自然科學(xué)基金資助(61702293);教育部虛擬現(xiàn)實(shí)應(yīng)用工程研究中心基金資助(MEOBNUEVRA201601)

      作者簡(jiǎn)介:陸嘉慧(1995-),女,山東青島人,碩士研究生,主要研究方向?yàn)閳D像識(shí)別與處理、深度學(xué)習(xí)。

      通信作者:張樹美(1964),女,山東萊西人,博士,教授,碩士生導(dǎo)師,主要研究方向?yàn)闀r(shí)滯非線性系統(tǒng)的分析與控制、圖像識(shí)別與處理。 Email: shumeiz@163.com

      猜你喜歡
      卷積神經(jīng)網(wǎng)絡(luò)
      基于深度神經(jīng)網(wǎng)絡(luò)的微表情識(shí)別
      卷積神經(jīng)網(wǎng)絡(luò)中減少訓(xùn)練樣本時(shí)間方法研究
      卷積神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型研究
      基于卷積神經(jīng)網(wǎng)絡(luò)的車輛檢索方法研究
      基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
      深度學(xué)習(xí)技術(shù)下的中文微博情感的分析與研究
      基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識(shí)別的算法的研究
      绥宁县| 明溪县| 汕头市| 剑河县| 盐池县| 太仆寺旗| 许昌市| 辛集市| 罗甸县| 水城县| 尼玛县| 高州市| 佳木斯市| 军事| 蕲春县| 梅河口市| 威信县| 永兴县| 思南县| 鄂伦春自治旗| 东乡| 东阿县| 同心县| 富顺县| 赞皇县| 汕尾市| 交城县| 桑植县| 昌平区| 新邵县| 射阳县| 枝江市| 安西县| 浮山县| 淄博市| 钦州市| 拉萨市| 柳江县| 平果县| 郁南县| 洪雅县|