付喜梅 莊思發(fā)
摘要:隨著大數(shù)據(jù)時(shí)代的到來(lái)和深度學(xué)習(xí)的技術(shù)崛起,作為人臉識(shí)別的重要分支的表情識(shí)別是人工智能領(lǐng)域的研究熱點(diǎn),在醫(yī)療、教育、心理研究等領(lǐng)域具有非常廣泛的應(yīng)用前景。本文從傳統(tǒng)的表情識(shí)別技術(shù)和大數(shù)據(jù)時(shí)代深度學(xué)習(xí)表情識(shí)別兩個(gè)角度出發(fā),對(duì)表情識(shí)別的理論進(jìn)行了概述,針對(duì)表情識(shí)別的研究進(jìn)展,探討了表情識(shí)別未來(lái)發(fā)展的趨勢(shì)。
關(guān)鍵詞:表情識(shí)別;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò),特征提??;表情分類
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)23-0211-04
Abstract: With the advent of the era of big data and the rise of deep learning technologies, expression recognition as an important branch of face recognition is a research hotspot in the field of artificial intelligence, and has a very wide range of application prospects in fields such as medical treatment, education, and psychological research. In this paper, the theory of expression recognition is summarized from two aspects of the traditional expression recognition technology and the deep learning expression recognition in the big data age. In view of the research progress of facial expression recognition, the future development trend of facial expression recognition is discussed.
Key words: expression recognition;deep learning;convolutional neural network;feature extraction;expression classification
人的情感的產(chǎn)生是一個(gè)很復(fù)雜的心理過(guò)程,情感的表達(dá)方式也有多種,在計(jì)算機(jī)研究中分為表情、語(yǔ)音、動(dòng)作三類。在這三種情感表達(dá)方式中,心理學(xué)家拉塞爾( J. A. Russell)發(fā)現(xiàn)大約55%的日常交流信息是用面部表情傳遞的。面部表情是一個(gè)人情緒的外在表達(dá),是復(fù)雜心理過(guò)程的體現(xiàn),美國(guó)著名心理學(xué)家Ekmann與Friese把人類表情劃分為7種基本表情:自然、恐懼、悲傷、憤怒、高興、驚訝和厭惡[1],每種情感以唯一的表情來(lái)反映人的一種獨(dú)特的心理活動(dòng),通過(guò)表情可以準(zhǔn)確識(shí)別人的心理情緒。
人臉表情識(shí)別就是利用計(jì)算機(jī)獲取人臉的表情特征信息進(jìn)行解析并分類的過(guò)程,根據(jù)分類結(jié)果推斷人的心理狀態(tài)應(yīng)用實(shí)際生活中。人臉表情識(shí)別作為人臉識(shí)別的一個(gè)重要分支,是人工智能研究領(lǐng)域的熱點(diǎn)[1],具有廣闊的應(yīng)用前景,例如遠(yuǎn)程教育、安全駕駛、測(cè)謊儀、臨床醫(yī)學(xué)等領(lǐng)域。目前已取得了一些成果,在國(guó)外表情識(shí)別的研究已經(jīng)進(jìn)入商業(yè)化的階段。
在傳統(tǒng)的表情識(shí)別研究中表情特征提取和分類識(shí)別是提高識(shí)別率的關(guān)鍵點(diǎn)也是難點(diǎn),近年來(lái),國(guó)內(nèi)外的研究者嘗試?yán)貌煌奶卣魈崛》椒ê头诸惙椒ㄌ岣咦R(shí)別率。隨著大數(shù)據(jù)的到來(lái)和深度學(xué)習(xí)技術(shù)的興起,表情識(shí)別的研究側(cè)重點(diǎn)不再是單純的如何準(zhǔn)確表達(dá)提取表情特征以及分類,而是利用神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)表情特征在統(tǒng)一的框架體系中自動(dòng)提取特征進(jìn)行自動(dòng)分類。本文從傳統(tǒng)的表情識(shí)別技術(shù)和大數(shù)據(jù)時(shí)代深度學(xué)習(xí)表情識(shí)別兩個(gè)角度對(duì)表情識(shí)別的研究理論進(jìn)行了概述,根據(jù)目前研究現(xiàn)狀探討了表情識(shí)別技術(shù)未來(lái)發(fā)展的方向。
1 傳統(tǒng)的人臉表情識(shí)別技術(shù)
在傳統(tǒng)的表情識(shí)別技術(shù)中,通常包括圖像預(yù)處理、表情特征提取和表情分類三部分[1],其步驟及流程如圖1所示。首先對(duì)輸入圖片進(jìn)行人臉檢測(cè)與定位,從圖片中分割出人臉進(jìn)行預(yù)處理,從圖片的點(diǎn)陣信息中提取表達(dá)表情的特征信息,通過(guò)對(duì)提取表情的特征信息進(jìn)行解析實(shí)現(xiàn)表情分類。目前表情識(shí)別的研究方法大都基于二維圖像的面部特征,在傳統(tǒng)的表情識(shí)別算法研究都集中在特征提取和分類兩個(gè)關(guān)鍵技術(shù),很多研究者嘗試著各種不同的方法來(lái)提高識(shí)別率,盡管在特定的數(shù)據(jù)庫(kù)上已取得不錯(cuò)成果,但在實(shí)際應(yīng)用環(huán)境中卻不盡如人意。人的面部表示是柔性物體,而非剛性物體,表情特征的描述是表情識(shí)別的難點(diǎn)。
1.1 圖像輸入
目前圖像識(shí)別研究中輸入的圖像主要是二維圖像,為了開(kāi)展表情識(shí)別的研究,輸入圖像可以來(lái)自一些公開(kāi)的表情數(shù)據(jù)集,也可以是通過(guò)攝像頭、監(jiān)控等圖像捕捉工具截取的靜態(tài)圖像或動(dòng)態(tài)視頻圖像序列。隨著研究深入,為了優(yōu)化算法,建立了大量的表情數(shù)據(jù)庫(kù),不同的人臉表情數(shù)據(jù)庫(kù)會(huì)影響表情識(shí)別的結(jié)果,比較常用的表情庫(kù)有美國(guó)CMU機(jī)器人研究所和心理學(xué)系共同建立的Cohn-Kanade AU-Coded Facial Expression Image Database(簡(jiǎn)稱CKACFEID)人臉表情數(shù)據(jù)庫(kù);日本ATR建立的日本女性表情數(shù)據(jù)庫(kù)(JAFFE),除此之外還有BHU表情庫(kù)、RML數(shù)據(jù)庫(kù)等數(shù)據(jù)庫(kù)也是應(yīng)用比較廣泛。
1.2 圖像預(yù)處理
圖像預(yù)處理的好壞直接影響表情特征提取的準(zhǔn)確性和表情分類的效果,從而影響表情識(shí)別的準(zhǔn)確率。圖像預(yù)處理主要工作包括人臉檢測(cè)及定位,去噪,進(jìn)行尺度、灰度的歸一化等。輸入的圖像通常具有比較復(fù)雜的場(chǎng)景,人臉位置是未知的,表情識(shí)別的研究對(duì)象是人臉,因此對(duì)輸入的圖像首先要進(jìn)行人臉檢測(cè)及定位,并把檢測(cè)出臉部區(qū)域從圖像中分割出來(lái)。由人臉檢測(cè)技術(shù)獲取的人臉圖片大小、長(zhǎng)寬比例、光照條件、局部是否遮、頭部偏轉(zhuǎn)通常是不一樣的,為了后續(xù)提取特征的統(tǒng)一處理,就需要將它們的尺寸、光照、頭部姿態(tài)的矯正等進(jìn)行歸一化處理,改善圖像質(zhì)量,為進(jìn)一步分析和理解面部表情和行為的打好基礎(chǔ)。
1.3 特征提取
特征提取即是將點(diǎn)陣的圖片轉(zhuǎn)化為更高抽象的圖像表述—如形狀、運(yùn)動(dòng)、顏色、紋理、空間結(jié)構(gòu)等[2]。人的表情變化是由面部不同肌肉運(yùn)動(dòng)來(lái)表達(dá)每種表情,這是一個(gè)柔性變化過(guò)程,沒(méi)有統(tǒng)一的模型來(lái)描述每種表情的肌肉組合,目前面部特征提取的算法集中在特征點(diǎn)精確定位。面部表情特征提取的方法很多,根據(jù)圖片的來(lái)源是否為靜態(tài)還是動(dòng)態(tài)的分為基于運(yùn)動(dòng)和基于形變的表情特征提取?;谶\(yùn)動(dòng)的特征提取方法,主要根據(jù)序列圖像中面部特征點(diǎn)的相對(duì)位置和距離的變動(dòng)來(lái)描述表情變化,具體有光流法、運(yùn)動(dòng)模型、特征點(diǎn)跟蹤等,此類方法魯棒性好但計(jì)算量大?;谛巫兊奶卣魈崛》椒?,主要用于靜態(tài)圖片提取特征,依靠與自然表情模型的外觀或紋理對(duì)比獲取模型特征,典型的算法有基于活動(dòng)外觀模型(AAM)和點(diǎn)分布模型(PDM)、基于紋理特征Gabor變換和局部二進(jìn)制模式LBP,此類方法受外界影響較大。特征提取是整個(gè)人臉表情識(shí)別系統(tǒng)中最核心的部分,如何在保證圖片原有信息的前提下提取出人臉表情的有用信息,在很大程度上能提高人臉表情識(shí)別率。
1.4 人臉表情分類
表情分類即把前一階段提取到的表情特征送入訓(xùn)練好的分類器或回歸器,讓分類器或回歸器給出一個(gè)預(yù)測(cè)的值,判斷表情特征所對(duì)應(yīng)的表情類別。選取合適的分類器對(duì)特征進(jìn)行分類是影響表情識(shí)別率高低的另一關(guān)鍵因素。按照美國(guó)著名心理學(xué)家Ekman劃分的7種基本表情,通過(guò)研究表情分類方法,挖掘與情緒相關(guān)的面部表情信息,從而應(yīng)用到實(shí)際生活中。在人臉表情識(shí)別分為包括設(shè)計(jì)和分類決策兩個(gè)階段,目前常見(jiàn)的表情分類的算法主要有線性分類器、神經(jīng)網(wǎng)絡(luò)分類器、支持向量機(jī)SVM、隱馬爾可夫模型等分類識(shí)別方法。傳統(tǒng)方法的不足之處在于,所用的特征提取方法都是以人工設(shè)定的特征為基準(zhǔn)來(lái)提取,損失了原圖像的很多細(xì)節(jié)特征。
1.5 傳統(tǒng)特征提取和分類算法的總結(jié)
表情識(shí)別經(jīng)過(guò)十幾年的發(fā)展,已經(jīng)取得很多研究成果,涌現(xiàn)了許多性能良好的特征提取算法和識(shí)別分類方法,并在公開(kāi)的表情數(shù)據(jù)庫(kù)上取得很好的識(shí)別率,表1選取了文獻(xiàn)[1]中目前文獻(xiàn)資料中一些具有代表性特征提取算法和分類方法研究結(jié)果。
從上表可知,傳統(tǒng)的機(jī)器學(xué)習(xí)方法在靜態(tài)圖片的識(shí)別上幾乎90%及以上,動(dòng)態(tài)圖片的表情識(shí)別也在80%-90%之間,但在實(shí)際應(yīng)用中輸入的表情圖片識(shí)別率只有80%左右,甚至更低。公開(kāi)的表情庫(kù)中的表情都比較顯著而夸張,微表情不多,且樣本的數(shù)量有限。在傳統(tǒng)的識(shí)別算法中強(qiáng)調(diào)的重點(diǎn)在特征提取和特征識(shí)別,這兩步的算法直接影響表情識(shí)別的準(zhǔn)確率,由于人臉表情是一個(gè)柔性物體而非剛性物體,目前傳統(tǒng)的識(shí)別方法和表情數(shù)據(jù)庫(kù)都是具有顯著性特征的樣本,這就是傳統(tǒng)表情識(shí)別的難點(diǎn)。隨著大數(shù)據(jù)到來(lái)以及計(jì)算機(jī)硬件技術(shù)發(fā)展,基于深度學(xué)習(xí)的表情識(shí)別是現(xiàn)在主流方法。
2 大數(shù)據(jù)時(shí)代基于深度學(xué)習(xí)的人臉表情識(shí)別
2.1 深度學(xué)習(xí)
深度學(xué)習(xí)(Deep Learning,DL)起源于神經(jīng)網(wǎng)絡(luò),是機(jī)器學(xué)習(xí)的一個(gè)分支,是對(duì)具有深層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)進(jìn)行有效訓(xùn)練的方法,在人工智能領(lǐng)域使用廣泛的技術(shù)手段。深度學(xué)習(xí)一般包含多個(gè)網(wǎng)絡(luò)層,利用海量數(shù)據(jù)進(jìn)行訓(xùn)練,通過(guò)逐層非線性特征變換,組合低層特征形成更加抽象的高層特征表示,得到顯著性的特征,從而提高分類或預(yù)測(cè)的準(zhǔn)確率。深度學(xué)習(xí)之所以被稱為“深度”,相對(duì)于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等“淺層學(xué)習(xí)”方法而言,“深度學(xué)習(xí)”只是一種手段,“特征學(xué)習(xí)”才是目的。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是深度學(xué)習(xí)中應(yīng)用最為廣泛的模型。
2.2 卷積神經(jīng)網(wǎng)絡(luò)CNN
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一種前饋神經(jīng)網(wǎng)絡(luò),包含了若干卷積層和子采樣層構(gòu)成的特征抽取器,以及進(jìn)行特征匯總的全連接層分類器,在圖像識(shí)別中可以圖像的像素值作為神經(jīng)元輸入,通過(guò)輸入表情圖片的大數(shù)據(jù)作為訓(xùn)練樣本的圖像數(shù)據(jù)進(jìn)行自主學(xué)習(xí),隱式地獲得圖像更抽象的特征表達(dá)。卷積神經(jīng)網(wǎng)絡(luò)采用局部鏈接、權(quán)值共享及下采樣等技術(shù)具有平移、縮放和扭曲的不變性,使得提取的特征更具有區(qū)分性,在二維圖像的識(shí)別中具有良好的魯棒性。
2.2.1 構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)
CNN的基本拓?fù)浣Y(jié)構(gòu)由輸入層、卷積層、池化層(pooling layer,也稱為取樣層)、全連接層及輸出層構(gòu)成。在深度神經(jīng)網(wǎng)絡(luò)中,一般設(shè)置若干個(gè)卷積層和池化層,通常在卷積層后連接池化層,池化層后再連接一個(gè)卷積層,卷積層和池化層交替設(shè)置,圖2是一個(gè)6層結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)基本模型。
在圖2所示卷積神經(jīng)網(wǎng)絡(luò)中,第1、3層為卷積層,第2、4層為池化層、5層為全連接層。卷積層通常有多個(gè)特征面,每個(gè)特征面包含多個(gè)神經(jīng)元,每一個(gè)神經(jīng)元都通過(guò)一組權(quán)值即卷積核與輸入層的局部區(qū)域連接后進(jìn)行加權(quán)求和,然后通過(guò)Relu激活函數(shù)激活輸出特征圖中的一個(gè)神經(jīng)元。通過(guò)卷積操作提取輸入圖片的不同特征,淺層的卷積層提取簡(jiǎn)單具體的特征諸如邊緣、線條、角落等,深度的卷積層提取更抽象的特征,在同一個(gè)輸入或輸出特征面中,CNN的權(quán)值共享。在深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中,為了加快模型收斂速度,減少連網(wǎng)絡(luò)連接數(shù),卷積神經(jīng)網(wǎng)絡(luò)引入了下采樣機(jī)制,即是用一個(gè)像素代替一個(gè)像素塊,對(duì)圖像進(jìn)行不斷縮小,降低了特征維度又保留了圖像有效信息,加快了網(wǎng)絡(luò)訓(xùn)練速度,在某種程度上避免了過(guò)擬合現(xiàn)象。在全連接層中,每個(gè)神經(jīng)元與前一層的所有神經(jīng)元進(jìn)行全連接,即是把前面提取的特征的局部信息進(jìn)行整合匯總分類,此時(shí)一般采用激勵(lì)函數(shù)softmax進(jìn)行分類輸出。
2.2.2 卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與設(shè)計(jì)
深度學(xué)習(xí)隱層網(wǎng)絡(luò)訓(xùn)練手段通常采用是無(wú)監(jiān)督逐層訓(xùn)練,其基本思想是階梯式訓(xùn)練,即前一隱層訓(xùn)練的輸出作為后一隱層的輸入繼續(xù)訓(xùn)練,這種訓(xùn)練方式稱為“預(yù)訓(xùn)練”,這種方式本質(zhì)其實(shí)是先找到局部最優(yōu),然后逐層在基于局部最優(yōu)的結(jié)果聯(lián)合起來(lái)進(jìn)行全局尋優(yōu),不僅利用了模型的大量參數(shù)提取特征,又節(jié)省了訓(xùn)練開(kāi)銷。在訓(xùn)練過(guò)程中,誤差逆?zhèn)鞑P算法是卷積神經(jīng)網(wǎng)絡(luò)常用的訓(xùn)練算法,該算法采用由信號(hào)的正向傳播與誤差的反向傳播兩個(gè)過(guò)程組成訓(xùn)練學(xué)習(xí)過(guò)程。正向傳播時(shí),輸入樣本經(jīng)隱層逐層各種非線性變換的過(guò)程向前傳播,隨機(jī)賦值的初始權(quán)重(w)和偏置(b)在前向傳播至輸出層的實(shí)際輸出與期望輸出不符,則轉(zhuǎn)入誤差的反向傳播階段。在誤差的反向傳播中,把輸出誤差以某種形式通過(guò)隱層向輸入層逐層反傳,并將誤差分?jǐn)偨o各層的所有單元,利用收到誤差信息來(lái)修正各單元權(quán)值w、b值。這種信號(hào)正向傳播與誤差反向傳播的各層權(quán)值調(diào)整過(guò)程,循環(huán)往復(fù)地進(jìn)行,這即是網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練過(guò)程。
目前訓(xùn)練深度模型主要有兩種手段:一種是利用當(dāng)前數(shù)據(jù)樣本從零開(kāi)始訓(xùn)練深度模型再投入預(yù)測(cè)檢驗(yàn)中;另外一種加載已有的成熟模型,利用加載到模型的參數(shù)作為訓(xùn)練新模型的初始化參數(shù)。在實(shí)際應(yīng)用中依據(jù)數(shù)據(jù)樣本的特點(diǎn)來(lái)選擇訓(xùn)練方法,通常若數(shù)據(jù)樣本少或者數(shù)據(jù)與某個(gè)模型所用的數(shù)據(jù)類似,則優(yōu)先選擇第二種方法。具體實(shí)現(xiàn)步驟:
u 設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu):層數(shù)、神經(jīng)元個(gè)數(shù)、激活函數(shù);
u 設(shè)定每層節(jié)點(diǎn)數(shù);
u 算出梯度;
u 寫(xiě)代碼;
u 利用數(shù)據(jù)調(diào)參。
2.2.3 基于卷積神經(jīng)網(wǎng)絡(luò)的表情識(shí)別
隨著大數(shù)據(jù)時(shí)代到來(lái)和計(jì)算機(jī)計(jì)算速度的提高,基于深度學(xué)習(xí)的方法成為人工智能領(lǐng)域成為主流方法。相比于傳統(tǒng)的表情識(shí)別方法,基于深度學(xué)習(xí)的方法能夠從海量數(shù)據(jù)中自主學(xué)習(xí)人臉表情特征并自動(dòng)進(jìn)行分類,把特征提取和分類器兩個(gè)過(guò)程一體化,具有較強(qiáng)的泛化能力,提高了表情識(shí)別的性能。
圖3是基于卷積神經(jīng)網(wǎng)絡(luò)人臉表情識(shí)別模型,與傳統(tǒng)的表情識(shí)別流程基本類似,輸入的表情圖片首先進(jìn)行人臉檢測(cè)與定位、歸一化等預(yù)處理,把人臉從圖片中分割出來(lái),不同的是卷積神經(jīng)網(wǎng)絡(luò)的表情識(shí)別把特征提取和分類在同一個(gè)框架體系結(jié)構(gòu)中進(jìn)行,通過(guò)卷積操作對(duì)抽取圖片表情特征,采用下采樣操作對(duì)圖片進(jìn)行降維,減少計(jì)算量,通過(guò)多層的卷積和下采樣抽取圖片精準(zhǔn)局部特征后利用全連接進(jìn)行表情分類,整個(gè)過(guò)程一體化,不需要人為設(shè)置特征提取的參數(shù),而是讓機(jī)器自動(dòng)從大量輸入圖片的大數(shù)據(jù)中自主學(xué)習(xí)表情特征并自動(dòng)提取特征和分類。采用卷積神經(jīng)網(wǎng)絡(luò),不僅減少了計(jì)算量,而且無(wú)須人工設(shè)定的特征為基準(zhǔn)來(lái)提取,挖掘了原圖像的很多細(xì)節(jié)特征。
3 研究展望
人臉表情識(shí)別在國(guó)內(nèi)外進(jìn)行大量的研究,取得了非常豐碩的成果,其中MIT、CMU、Standford大學(xué)、哈爾濱工業(yè)大學(xué)、中科院、中國(guó)科技大學(xué)等研究所的貢獻(xiàn)尤為突出。在傳統(tǒng)的表情識(shí)別方法中識(shí)別率在公開(kāi)的數(shù)據(jù)庫(kù)中達(dá)到了90%以上,隨著大數(shù)據(jù)的到來(lái),深度學(xué)習(xí)方法的興起,深度學(xué)習(xí)的表情識(shí)別對(duì)7種表情的識(shí)別率達(dá)到了95%及以上,但對(duì)于實(shí)際場(chǎng)景的表情識(shí)別,識(shí)別率還不是很穩(wěn)定,大部分算法識(shí)別率在80%左右。
3.1 傳統(tǒng)學(xué)習(xí)算法的難點(diǎn)
人臉表情識(shí)別關(guān)鍵在于如何準(zhǔn)確理解和表達(dá)表情特征。人臉面部表情變化時(shí),表現(xiàn)為臉部特征點(diǎn)的運(yùn)動(dòng),目前計(jì)算機(jī)尚不能精確定位特征點(diǎn),同種表情在不同人的面部表現(xiàn)特征也不同,計(jì)算機(jī)很難精確劃分每種表情。目前的研究結(jié)果表明,對(duì)于特定數(shù)據(jù)庫(kù)下基本的6-7種表情識(shí)別準(zhǔn)確率比較高,而微表情的識(shí)別率還很低。人臉表情特征的提取與分類方法都是在特定的數(shù)據(jù)庫(kù)上進(jìn)行研究,在不同的數(shù)據(jù)庫(kù)上識(shí)別率相差很大。另外,傳統(tǒng)的學(xué)習(xí)算法的特征提取是人工設(shè)定的特征為基準(zhǔn)來(lái)提取,損失了原圖像的很多細(xì)節(jié)特征。
3.2 深度學(xué)習(xí)存在問(wèn)題
深度學(xué)習(xí)已經(jīng)成為當(dāng)前表情識(shí)別的主流技術(shù)。在人臉表情識(shí)別領(lǐng)域,深度學(xué)習(xí)避免了傳統(tǒng)表情識(shí)別算法對(duì)人臉姿態(tài)、光照、遮擋物的影響,提高了表情識(shí)別的魯棒性,在公開(kāi)的表情數(shù)據(jù)庫(kù)上取得非常優(yōu)異成績(jī),個(gè)別算法識(shí)別率高達(dá)99%以上,體現(xiàn)非常優(yōu)越的性能。在研究時(shí)發(fā)現(xiàn)深度學(xué)習(xí)存在一些問(wèn)題,在對(duì)小樣本進(jìn)行訓(xùn)練時(shí)容易發(fā)生過(guò)擬合現(xiàn)象。另外深度學(xué)習(xí)的支持理論尚不完備,因此在實(shí)際應(yīng)用中研究者都是耗費(fèi)大量的時(shí)間去設(shè)置訓(xùn)練參數(shù)和訓(xùn)練方式,通過(guò)做實(shí)驗(yàn)進(jìn)行最優(yōu)的超參數(shù)選擇;如何采用理論指導(dǎo)的快速訓(xùn)練方式和針對(duì)不同實(shí)際問(wèn)題設(shè)計(jì)出最佳的網(wǎng)絡(luò)結(jié)構(gòu)等是深度學(xué)習(xí)亟待解決。
3.3 表情識(shí)別的發(fā)展趨勢(shì)
人的表情是一個(gè)柔性物體而非剛性物體,傳統(tǒng)識(shí)別算法的關(guān)鍵是特征提取,在特定的數(shù)據(jù)庫(kù)已經(jīng)取得很好的成果,而目前的算法受光照、遮擋的影響,識(shí)別的效率很難提高。深度學(xué)習(xí)是表情識(shí)別的發(fā)展方向,目前深度學(xué)習(xí)在大樣本提取特征的優(yōu)越性能眾所周知,但在小樣本上卻容易出現(xiàn)過(guò)擬合,而傳統(tǒng)學(xué)習(xí)算法正好相反,在小樣本上體現(xiàn)了優(yōu)越性能,如何深度學(xué)習(xí)與傳統(tǒng)學(xué)習(xí)相融合或許會(huì)讓表情識(shí)別有更大的發(fā)展空間。另外,目前表情識(shí)別的研究集中在分表情庫(kù)仍以Ekman劃分7種基本表情,種類簡(jiǎn)單且面部表情顯著而夸張,很多細(xì)微表情的識(shí)別率很低,未來(lái)發(fā)展的方向集中在自發(fā)微表情的識(shí)別,建立更大更細(xì)致的表情分類數(shù)據(jù)庫(kù),供深度學(xué)習(xí)。目前的表情識(shí)別的研究系統(tǒng)都是二維圖像居多,構(gòu)建3D人臉表情識(shí)別系統(tǒng)也是未來(lái)發(fā)展的方向。同時(shí),隨著智能手機(jī)普及,開(kāi)發(fā)移動(dòng)終端的表情識(shí)別系統(tǒng)也開(kāi)始受到關(guān)注。
4 結(jié)束語(yǔ)
人臉表情識(shí)別作為人臉檢測(cè)的重要分支,是人工智能領(lǐng)域的研究熱點(diǎn),具有廣泛的應(yīng)用前景。本文對(duì)人臉表情識(shí)別的理論及研究成果進(jìn)行了全面的概述,同時(shí)針對(duì)當(dāng)前研究進(jìn)展,討論了表情識(shí)別的發(fā)展趨勢(shì)。
參考文獻(xiàn):
[1] 王信,汪友生.基于深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)的人臉表情識(shí)別綜述[J].應(yīng)用科技,2018,45(1):65-72.
[2] 張利偉,張航,張玉英.面部表情識(shí)別方法綜述[J].模式識(shí)別與仿真,2009,28(1):93-97.
[3] HE Jun,CAI Jianfeng,F(xiàn)ANG Lingzhi,et al.Facial expression recognition based on LBP /VAR and DBN model[J].Application research of computers,2016,33(8):2509-2513.
[4] SALAKANIDOU F,MALASSIOTIS S.Real-time 2D + 3D facial action and expression recognition[J].Pattern recognition,2010,43(5):1763-1775.
[5] 姜波,解侖,劉欣,等.光流模值估計(jì)的微表情捕捉[J].浙江大學(xué)學(xué)報(bào):工學(xué)版,2017,51(3): 577-583,589.
[6] TIE Yun,GUAN Ling.A deformable 3-D facial expression model for dynamic human emotional state recognition[J].IEEE transactions on circuits and systems for video technology,2013,23(1):142-157.
[7] ZHAN Yongzhao,CHENG Keyang,CHEN Yabi,et al. A new classifier for facial expression recognition: fuzzy buried Markov model[J].Journal of computer science and technology,2010,25(3): 641-650.
[8] LIEW C F,YAIRIT.Facial expression recognition and analysis:a comparison study of feature descriptors[J].IPSJ transactions oncomputer vision and applications,2015,7: 104-120.
[9] 周宇旋,吳秦,梁久禎,等.判別性完全局部二值模式人臉表情識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2017,53(4):163-169,194.
[10] 周書(shū)仁.人臉表情識(shí)別算法分析與研究[D].長(zhǎng)沙:中南大學(xué),2009.
【通聯(lián)編輯:唐一東】