張寶薪,孟凡軒,靳展
基于深度學(xué)習(xí)的圖像人臉識(shí)別方法研究
張寶薪,孟凡軒,靳展*
(齊齊哈爾大學(xué) 通信與電子工程學(xué)院,黑龍江 齊齊哈爾 161000)
使用計(jì)算機(jī)進(jìn)行面部表情識(shí)別是當(dāng)前人臉面部表情識(shí)別的熱點(diǎn),在深度學(xué)習(xí)技術(shù)的基礎(chǔ)上,應(yīng)用級(jí)聯(lián)分類器對(duì)面部進(jìn)行整體檢測(cè)和分區(qū)定位后,提出并使用了一種基于自注意力機(jī)制的深度卷積神經(jīng)網(wǎng)絡(luò),模型采用Mini-Xception為基本網(wǎng)絡(luò)融合了注意力機(jī)制,再通過訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建表情分類模型,最后實(shí)現(xiàn)較為快速準(zhǔn)確的表情識(shí)別。文中采用幾種方法進(jìn)行實(shí)驗(yàn)對(duì)比,并對(duì)最終的實(shí)驗(yàn)結(jié)果加以分析。結(jié)果表明,在相同的參數(shù)設(shè)置下提出的方法能明顯提高分類性能、識(shí)別的精準(zhǔn)度以及面部表情變化檢測(cè)的實(shí)時(shí)速度。
深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);圖像分類;圖像識(shí)別
人類的表情復(fù)雜多變,喜怒形于色說的就是表情是人們表達(dá)內(nèi)心情緒最直接有效的方式之一,所以對(duì)于人臉表情識(shí)別技術(shù)方向的研究被一致認(rèn)為是未來人機(jī)情感交互的重要發(fā)展對(duì)象[1]。
經(jīng)過心理學(xué)專家們的不斷研究實(shí)驗(yàn)發(fā)現(xiàn),人類面部的情緒表達(dá)大體可以歸為六種,分別是:厭惡(Disgust)、生氣(Angry)、高興(Happiness)、恐懼(Fear)、悲傷(Sadness),以及驚訝(Surprise)[2], 在實(shí)際復(fù)雜的生活情況下為了和無表情有所區(qū)分,一般還增加一類:正常(Neutral),共計(jì)7種基礎(chǔ)表情,如圖1所示。在這個(gè)時(shí)代站在潮流頂端的技術(shù)無疑是人工智能,在這個(gè)領(lǐng)域中本文提出的人臉表情識(shí)別技術(shù)更是在醫(yī)療、家居、刑偵等多方面表現(xiàn)出極高的效率,這項(xiàng)技術(shù)作為目前研究的熱點(diǎn),其關(guān)鍵在于圖像預(yù)處理、人臉檢測(cè)和表情分類[3]這三部分,如圖2所示。
圖1 常見的7種人臉表情
圖2 人臉表情識(shí)別步驟
通過圖片采集捕獲大量可供實(shí)驗(yàn)的案例,圖片預(yù)處理階段,為了簡(jiǎn)化輸入圖片的處理過程,首先會(huì)調(diào)整圖片的尺寸以及色彩,然后經(jīng)由預(yù)處理,對(duì)光亮,視角,模糊色彩等一系列無關(guān)于模型處理的因素進(jìn)行一定程度的消除;然后將結(jié)果放入輸入模型進(jìn)行訓(xùn)練,強(qiáng)化模型的識(shí)別精確。為了用于提高表情識(shí)別的效果,第一步需要確定人臉在圖中的位置,圖中的人臉檢測(cè)就是利用部分人臉檢測(cè)算法,對(duì)圖片進(jìn)行多區(qū)塊,多尺度的檢測(cè),最后得到一個(gè)或者多個(gè)人臉?biāo)趯?duì)象的位置。
在研究過程中,首先需要進(jìn)行特征工程的處理,然后利用分類算法對(duì)表情進(jìn)行分類,手工提取特征的方法雖然對(duì)于單個(gè)簡(jiǎn)單的問題能夠快速解決,但是對(duì)于相對(duì)復(fù)雜的情況則有人工成本以及適應(yīng)度等因素需要考慮,而本項(xiàng)目致力于采用深度學(xué)習(xí)的方法,通過訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建表情分類模型并結(jié)合注意力機(jī)制,以用來實(shí)現(xiàn)高效率的人臉表情識(shí)別。
當(dāng)系統(tǒng)捕獲到一張圖像數(shù)據(jù)時(shí),首先使用人臉檢測(cè)判斷,該圖像是否存在面部以及多張面部的存在情況,如果存在則對(duì)一張或多張人臉的位置進(jìn)行定位,如果圖像中不存在人臉,則返回一個(gè)提示信息;而后在相機(jī)設(shè)備捕獲到人臉面部圖像后,利用Haar特征和Adabsot級(jí)聯(lián)分類器對(duì)捕獲到的圖像進(jìn)行分類檢測(cè),本文中所使用的OpenCV中的人臉檢測(cè)方法以及Haar級(jí)聯(lián)分類器,可以對(duì)于捕獲的目標(biāo)進(jìn)行區(qū)域劃分,以便于進(jìn)行不同尺度的檢測(cè)該,同時(shí)采用本文所提出基于Mini-Xcetion網(wǎng)絡(luò)結(jié)合注意力機(jī)制的模型進(jìn)一步進(jìn)行模型訓(xùn)練。
近來,注意力機(jī)制的提出減少了計(jì)算能力和優(yōu)化算法的限制,使得其在各種圖像識(shí)別及分類的任務(wù)中運(yùn)用較為廣泛。本文將注意力機(jī)制融入Mini-Xception網(wǎng)絡(luò)模型中,在特征的提取部分引入了注意力模塊,對(duì)于減少無關(guān)因素干擾起到了一定作用,適當(dāng)增加網(wǎng)絡(luò)中隱藏層數(shù)目并在特征加權(quán)階段結(jié)合注意力機(jī)制,可以提高分類精度,但同時(shí)訓(xùn)練模型的時(shí)間也隨之增加。為了有效解決這一問題,在該模型里使用梯度下降算法(Optimization)中的隨機(jī)梯度下降優(yōu)化器(SGD),來減少達(dá)到收斂狀態(tài)所需的時(shí)間。構(gòu)建網(wǎng)絡(luò)模型的過程如圖3所示。首先構(gòu)建模型,模型分為卷積層、池化層、全連接層和輸出層四部分,兩個(gè)卷積層和兩個(gè)池化層在模型中交替出現(xiàn),后將3×3大小的卷積核應(yīng)用于5×5的輸入張量得到特征圖,使用預(yù)處理后的表情數(shù)據(jù)進(jìn)行模型訓(xùn)練以最終得到網(wǎng)絡(luò)模型,最后經(jīng)過激活函數(shù)處理,可以返回一個(gè)多維度特征向量,用以分類多個(gè)表情。
圖3 構(gòu)建模型過程
Haar特征由邊緣特征、線性將征、中心特征和對(duì)角線特征組合而成,表示了圖像的灰度變化情況,圖3為特征提取使用的模板情況(圖4)。
圖4 Haar矩形特征模板
Softmax回歸模型相對(duì)于Logistic比較類似,是使用Softmax函數(shù)進(jìn)行一個(gè)映射,Mini-Xception網(wǎng)絡(luò)架構(gòu)[11]通過使用該層進(jìn)一步對(duì)于神經(jīng)網(wǎng)絡(luò)中的表情分類進(jìn)行研究[12],在Softmax中參數(shù)分類的概率為
在OpenCV中為了得到不錯(cuò)的檢測(cè)效果,采用若干個(gè)基于AdaBost算法實(shí)現(xiàn)的強(qiáng)分類器串聯(lián)起來的方法,構(gòu)成一個(gè)串聯(lián)的強(qiáng)分類器,在進(jìn)行人臉檢測(cè)時(shí),若結(jié)果全部分類器均顯示該區(qū)域有人臉存在,則判定該區(qū)域有人臉,否則標(biāo)記為不存在人臉,基于分類器的檢測(cè)流程如圖5所示。
在訓(xùn)練模型中,被應(yīng)用的特征會(huì)被相應(yīng)的算法自動(dòng)找到閾值,同時(shí)把人臉分為兩面,當(dāng)出現(xiàn)錯(cuò)誤比如分類錯(cuò)誤時(shí),算法會(huì)自動(dòng)選擇,拿到相對(duì)錯(cuò)誤率最低的特征,即對(duì)臉與非人臉的區(qū)別分開,在訓(xùn)練開始時(shí)每個(gè)圖像的權(quán)重相同,在經(jīng)過一次次的分類后,錯(cuò)誤分類的權(quán)重會(huì)一次次增加,然后繼續(xù)執(zhí)行,更新權(quán)重,直到達(dá)到所需的精準(zhǔn)度或錯(cuò)誤率。
圖5 基于級(jí)聯(lián)分類器的人臉檢測(cè)
1.3.1 批量歸一化層
當(dāng)網(wǎng)絡(luò)的層級(jí)結(jié)構(gòu)較多時(shí),會(huì)出現(xiàn)訓(xùn)練收斂速度變慢,Mini-Xception[8]模型在網(wǎng)絡(luò)的層輸入之間加入一個(gè)BN歸一化層,上層的輸入數(shù)據(jù)在通過歸一化處理后送入下層。BN層能夠控制每層的數(shù)據(jù)分布情況,在一定程度上保證了數(shù)據(jù)的穩(wěn)定性,能夠進(jìn)一步減少因輸入的變化導(dǎo)致的過擬合問題,可表示為
1.3.2 ReLU激活函數(shù)
本文應(yīng)用激活函數(shù)可以有效地強(qiáng)化網(wǎng)絡(luò)模型的表達(dá)能力,提高網(wǎng)絡(luò)的非線性建模能力[9],對(duì)于神經(jīng)網(wǎng)絡(luò)分類的精準(zhǔn)度也有所幫助。ReLu是非飽和函數(shù),當(dāng)其輸入為正時(shí),輸出與輸入為線性,不會(huì)出現(xiàn)梯度彌散[10],可以進(jìn)一步加快收斂速度。
本文引入的網(wǎng)絡(luò)模型倘若使用常見的卷積操作,則會(huì)大大增加模型的參數(shù)量和模型的訓(xùn)練時(shí)間,深度可分離卷積是把普通卷積操作[11]改分為一個(gè)逐點(diǎn)卷積和一個(gè)深度卷積,在Mini-Xception這個(gè)輕量級(jí)的網(wǎng)絡(luò)模型中,用來提取特征將會(huì)降低參數(shù)的數(shù)量以及運(yùn)算成本(圖6)。
圖6 深度可分離卷積操作
本次實(shí)驗(yàn)采用數(shù)據(jù)集為FER2013數(shù)據(jù)集,F(xiàn)ER2013數(shù)據(jù)集與實(shí)驗(yàn)數(shù)據(jù)集不同是非實(shí)驗(yàn)環(huán)境下獲取的,其數(shù)據(jù)集更大,各方面因素更和自然中人臉表情的變化相同;在該數(shù)據(jù)集中以Sad表情為例,F(xiàn)ER2013數(shù)據(jù)集一些樣本如圖7所示,可見大多數(shù)數(shù)據(jù)都不是完美的表情圖像呈現(xiàn),會(huì)有光線,角度以及肢體遮蓋等多種因素影響,所以本實(shí)驗(yàn)通過圖像增強(qiáng)技術(shù)以及圖像歸一化對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。
圖7 Fer2013的數(shù)據(jù)樣本示例
為了充分訓(xùn)練模型,實(shí)驗(yàn)設(shè)置如下:
(1)數(shù)據(jù)增強(qiáng),方法如下:①歸一化處理。②有效進(jìn)行裁剪旋轉(zhuǎn)。
(2)參數(shù)設(shè)置:水平偏轉(zhuǎn)0.3,豎直偏轉(zhuǎn)0.3,圖像隨機(jī)轉(zhuǎn)動(dòng)為[-10,1,1],水平翻動(dòng)0,縮放0.1。
在實(shí)驗(yàn)部分,將提出的結(jié)合注意力機(jī)制的模型Mini-Xcetion與其他方法在Fer2013數(shù)據(jù)集上進(jìn)行比較,平均準(zhǔn)確率和Epoch時(shí)間的比較結(jié)果見表1。
表1 Mini-Xcetion與其他方法在Fer2013公共數(shù)據(jù)集上的分類精度表現(xiàn)
由表1可以看出,所提方法的平均準(zhǔn)確率和Epoch時(shí)間達(dá)到了95.87%,1.796s,分別比原基本網(wǎng)絡(luò)分別提高了1.04%, 0.187s,同時(shí)在平均準(zhǔn)確率與Epoch時(shí)間方面也均優(yōu)于Subnet Ensemble, RestNet-50,以及Inception-V3網(wǎng)絡(luò),證明了提出方法的有效性,并在訓(xùn)練完成后得出,七種表情在測(cè)試集的準(zhǔn)確率依次為66%, 67%, 56%, 92%, 60%, 82%, 73%最終計(jì)算得出本文提出的模型在測(cè)試集上的平均準(zhǔn)確率為70.85%,在實(shí)際應(yīng)用中具有比較準(zhǔn)確的效果。
Mini-Xception訓(xùn)練過程平均精度曲線和驗(yàn)證集與訓(xùn)練集平均精度曲線如圖8所示。在每次訓(xùn)練時(shí),訓(xùn)練集占表情圖像數(shù)據(jù)集的75%,驗(yàn)證集占表情圖像數(shù)據(jù)集的25%,隨著訓(xùn)練的不斷運(yùn)行,盡管其訓(xùn)練曲線不斷波動(dòng),但訓(xùn)練集和驗(yàn)證集的準(zhǔn)確率保持不斷提升,直到兩條曲線均達(dá)到平穩(wěn)狀態(tài)。由圖8可見,訓(xùn)練和測(cè)試過程均較快收斂,說明該方法運(yùn)行速度較快,計(jì)算復(fù)雜度小。
圖8 訓(xùn)練和驗(yàn)證曲線
本文針對(duì)于表情分類識(shí)別問題,提出了一種基于Mini-Xception并引入注意力機(jī)制的表情圖像分類模型。目前越來越多的人對(duì)于人臉表情分類的研究進(jìn)一步加深,受注意力機(jī)制的影響,本文對(duì)Mini-Xception網(wǎng)絡(luò)模型的結(jié)構(gòu)進(jìn)行改進(jìn),通過加入注意力機(jī)制以及深度可分離卷積,提高了模型的平均準(zhǔn)確率同時(shí)在Epoch時(shí)間方面也有進(jìn)一步縮短,在Fer2013數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),證明了提出的網(wǎng)絡(luò)具有不錯(cuò)的分類性能。本文的實(shí)驗(yàn)相對(duì)于Subnet Ensemble, RestNet-50, Inception-V3方法而言,訓(xùn)練的網(wǎng)絡(luò)分類精度更高、且實(shí)時(shí)性更好。
[1] 邱玉,汪燕芳. 基于表情識(shí)別的人機(jī)交互系統(tǒng)研究與設(shè)計(jì)[J]. 計(jì)算機(jī)光盤軟件與應(yīng)用,2015(2): 76-276.
[2]劉哲良,朱瑋,袁梓洋. 結(jié)合全卷積網(wǎng)絡(luò)與Cycle GAN的圖像實(shí)例風(fēng)格遷移[J]. 中國(guó)圖象圖形學(xué)報(bào),2019, 24(08):1283-1291.
[3]范雪,楊鴻波,李永. 基于深度學(xué)習(xí)的人臉圖像扭正算法[J]. 信息通信,2017, 7(1): 5-9.
[4]錢勇生,邵潔,季欣欣,等. 基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的多視角人臉表情識(shí)別[J]. 計(jì)算機(jī)工程與應(yīng)用,2018, 54(24): 12-19.
[5] YANG,Y., NEWSAM,S.: Bag-of-visual-words and spatial extensions for land-useclassification[C]. In: Proceedings of Sigspatial International Conference on Advancesin Geographic Information Systems, 2010: 270-279.
[6] G. CHENG, C. YANG, X. YAO, et al. When deep learning meets metric learning: Remote sensing image scene classi?cation via learning discriminative CNNs[C]. IEEE Trans. Geosci. Remote Sens., 2018, 56(5): 2811-2821.
[7] E. Li, J. Xia, P. Du, C. Lin, and A. Samat, “Integrating multilayer features of convolutional neural networks for remote sensing scene classi?cation,” IEEE Trans. Geosci. Remote Sens., vol. 55, no. 10, pp. 5653–5665, Oct. 2017.
[8] LAZEBNIK,S., SCHMID, C.,PONCE,J. Beyond bags of features: spatial pyramidmatching for recognizing natural scene categories[C]. In: Proceedings of IEEE Con-ference on Computer Vision and Pattern Recognition, 2006, 2: 2169-2178.
[9] CHERIYADAT,A.M. Unsupervised feature learning for aerial scene classification[C]. IEEE Trans. Geosci. Remote Sens., 2014, 52(1): 439-451.
[10] 徐琳琳,張樹美,趙俊莉. 基于圖像的面部表情識(shí)別方法綜述[J]. 計(jì)算機(jī)應(yīng)用,2017, 37(12): 3509-3516, 3546.
[11]王忠民,李和娜,張榮,等. 融合卷積神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)的表情識(shí)別[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2019, 040(012): 3594-3600.
[12] BLEI, D.M.,NG, A.Y.,JORDAN,M.I. Latent dirichlet allocation[J]. J. Mach.Learn.Res., 2003, 3: 993-1022.
[13] LAZEBNIK,S., SCHMID, C.,PONCE,J. Beyond bags of features: spatial pyramidmatching for recognizing natural scene categories[C]. In: Proceedings of IEEE Con-ference on Computer Vision and Pattern Recognition, 2006, 2: 2169-2178.
[14] CHERIYADAT, A.M. Unsupervised feature learning for aerial scene classification[C]. IEEE Trans. Geosci. Remote Sens., 2014, 52(1): 439-451.
Research on image face recognition method based on deep learning
ZHANG Bao-xin,MENG Fan-xuan,JIN Zhan*
(College of Communication and Electronical Engineering, Qiqihar University, Heilongjiang Qiqihar 161000, China)
Facial expression recognition using computer is the focus of facial expression recognition. In order to put this direction into production and life more effectively.In this paper, on the basis of deep learning technology based on cascade classifier for face detection and partition the whole positioning, based on the attention mechanism is put forward and used a, the depth of the convolution neural network model of the Mini - Xception as the basic network is a blend of attention mechanism, and convolution model of neural network to construct expression classification through training, Finally, fast and accurate facial expression recognition is achieved. In this paper, a variety of methods are used for experimental comparison, and the final experimental results are analyzed. The results show that, under the same parameter setting, the proposed method can significantly improve the classification performance, recognition accuracy and real-time speed of facial expression change detection.
deep learning;convolutional neural network;image classification;image recognition.
2022-02-24
2021年省級(jí)一般大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃資助項(xiàng)目(202110232125);黑龍江省省屬高等學(xué)校基本科研業(yè)務(wù)費(fèi)科研項(xiàng)目(145109145);黑龍江省高等教育教學(xué)改革研究項(xiàng)目(SJGY20190718)
張寶薪(2000-),男,哈爾濱人,學(xué)士,主要從事圖像人臉識(shí)別方法應(yīng)用研究,2649704440@qq.com。
TN919
A
1007-984X(2022)05-0047-05