作者/向花儀,重慶第八中學(xué)校
人臉識別技術(shù)是自本世紀(jì)六七十年代就興起的,計算機(jī)視覺領(lǐng)域的典型應(yīng)用,由于其涉及生理學(xué)、模式識別和認(rèn)知科學(xué)等多個領(lǐng)域,因此其發(fā)展也受到這些領(lǐng)域難點(diǎn)的限制。
人臉識別主要包括人臉檢測定位和人臉特征提取識別。前者是從背景中分割出人臉目標(biāo),經(jīng)過歸一化處理,后者要求特征提取算法具有不變性。前者面臨的技術(shù)難點(diǎn)在于人臉目標(biāo)模式的多樣性和背景的復(fù)雜性。因此,對背景情境做合理假設(shè)以簡化問題是非常必要的。在此基礎(chǔ)上,高維空間人臉模型的構(gòu)建是最復(fù)雜的部分,因?yàn)榻⒕_估計需要充足的負(fù)樣本,負(fù)樣本的產(chǎn)生和利用是研究熱點(diǎn)之一。與其他機(jī)器學(xué)習(xí)應(yīng)用類似,統(tǒng)計與知識相結(jié)合能達(dá)到更好效果。后者面臨的技術(shù)難點(diǎn)在于人臉是彈性模型,建模難度高于剛體建模。因此, 任何基于剛體特性的特征抽取方法都很難達(dá)到滿意的效果。此外,人臉的多變性與心理學(xué)和生理學(xué)特征相關(guān),因此,將彈性建模與人類視覺特點(diǎn)相結(jié)合效果更好。
本篇將分別綜述人臉檢測定位技術(shù)和特征提取識別技術(shù)。
人臉檢測定位技術(shù)使依據(jù)統(tǒng)計或知識或兩者結(jié)合的方法進(jìn)行建模, 再判斷待測區(qū)域與人臉模型的匹配度。統(tǒng)計方法是將人臉看做高維向量, 從而將問題轉(zhuǎn)化為高維信號分布檢測,主要包括分類法和子空間法、空間陪陪濾波器法等三種方法。最常用的是分類器法,將人臉檢測看做人臉與非人臉的二分類問題。知識方法是建立規(guī)則, 將問題轉(zhuǎn)化為驗(yàn)證假設(shè)問題。主要包括以下五類規(guī)則[1]:(1)分布規(guī)則:人臉器官何有差別,但其分布穩(wěn)定,所以可將人臉檢測轉(zhuǎn)化為是否存在符合分布的規(guī)則塊。包括“自上而下”和“自下而上”兩種方法。Yang等人提出Mosaic方法屬于前者,后者需先對器官分布位置做檢測,然后組合各位置點(diǎn), 再利用分布規(guī)則篩選出可能人臉。此外,人臉各器官分布具有對稱性,也可加入特征工程提高檢測精度和速度。(2)輪廓規(guī)則:人臉的輪廓近似橢圓,基于此規(guī)則,Goyind提出認(rèn)知模型,人臉建模為上下兩個弧和兩條直線, 問題轉(zhuǎn)化為對直線和弧的檢測。(3)紋理和顏色規(guī)則[2]:利用顏色信息可將人臉與背景分割開來,此處的重點(diǎn)是處理復(fù)雜背景下目標(biāo)物體的檢測。(4)運(yùn)動規(guī)則:在動態(tài)場景的人臉檢測任務(wù)中,可利用說話、眨眼等信息更方便分割人臉目標(biāo)和背景。
在人臉檢測定位后,特征檢測前,需要做歸一化處理。幾何歸一化是對大小和位置做調(diào)整,灰度歸一化是做光線變化。
人臉特征提取與識別方法主要有以下幾種[3]:(1)幾何特征法。人臉各組成部件自身的差異性和組合結(jié)構(gòu)的多樣性是兩大類特征。經(jīng)典算法有參數(shù)法和可變模板法。(2)特征臉?biāo)惴āT摲椒ɑ谔卣髯儞Q,實(shí)用且簡單,但由于其依賴于訓(xùn)練集和測試集圖像的相似性,局限性較大。(3)彈性模型法。人臉可看做畸變不變性物體,再應(yīng)用動態(tài)鏈接模型將該目標(biāo)描述為稀疏圖,以此作為彈性模型的特征從而做人臉識別。
2006年以前,超過三層的神經(jīng)網(wǎng)絡(luò)模型效率低下,其后,Geoあrey教授在Science上發(fā)表的一篇關(guān)于深度學(xué)習(xí)的論文,再次引發(fā)了神經(jīng)網(wǎng)絡(luò)的研究熱潮。該文章有兩大觀點(diǎn):一是多隱含層的神經(jīng)網(wǎng)絡(luò)特征學(xué)習(xí)效果突出,能學(xué)習(xí)到圖像的本質(zhì)特征;二是多層神經(jīng)網(wǎng)絡(luò)的優(yōu)化復(fù)雜度可以通過“逐層初始化”得到克服。正是這兩個核心觀點(diǎn)的出現(xiàn)加之研究學(xué)者的不斷努力,使得神經(jīng)網(wǎng)絡(luò)攻克難以訓(xùn)練的危機(jī),再次成為大數(shù)據(jù)和人工智能時代的主角。
在傳統(tǒng)的圖像處理技術(shù)主要包括特征提取和分類器兩部分,特征提取算法的設(shè)計復(fù)雜性與應(yīng)用局限性、穩(wěn)定性,以及特定的特征提取算法與特定的分類器相結(jié)合的多樣性限制著圖像處理技術(shù)的發(fā)展。神經(jīng)網(wǎng)絡(luò)的出現(xiàn),使端到端的圖像處理成為可能,當(dāng)網(wǎng)絡(luò)的隱藏層發(fā)展到多層時便稱之為深度學(xué)習(xí),但同時需要用逐層初始化技術(shù)解決深層次網(wǎng)絡(luò)訓(xùn)練難度大的問題,之后深度學(xué)習(xí)便成為時代的主角。而卷積神經(jīng)網(wǎng)絡(luò)(CNN)便是深度學(xué)習(xí)與圖像處理技術(shù)相結(jié)合所產(chǎn)生的經(jīng)典模型,實(shí)現(xiàn)該模型的網(wǎng)絡(luò)實(shí)例在特定的圖像問題處理上都卓有成效。
神經(jīng)網(wǎng)絡(luò)之所以能和圖像領(lǐng)域相結(jié)合,并呈現(xiàn)巨大的發(fā)展前景,是有生物學(xué)依據(jù)的。人類視覺信息處理機(jī)制的發(fā)現(xiàn),是19世紀(jì)19年代生物學(xué)界的重大發(fā)現(xiàn)之一,它證明了大腦可視皮層是分級存在的。人的視覺系統(tǒng)是一個反復(fù)抽象和迭代的過程。而卷積神經(jīng)網(wǎng)絡(luò),就模擬了這個過程。首先,每一個卷積層,便是將具體信息做抽象的過程,而多個卷積層串聯(lián)操作,便是將上一層的抽象結(jié)果再做抽象處理的過程,稱之為迭代。在這個抽象迭代的過程中,不斷抽取大腦可感知的高維度特征。如當(dāng)一幅圖像經(jīng)過視網(wǎng)膜進(jìn)入視野,首先會將光線像素等信息抽象為圖像邊緣信息,然后再抽象為目標(biāo)物體的某一部位,再抽象為物體輪廓形成對整個目標(biāo)的感知。
卷積神經(jīng)網(wǎng)絡(luò)包括卷積池化層操作和全連接層操作[4]。該網(wǎng)絡(luò)基于傳統(tǒng)神經(jīng)網(wǎng)絡(luò),主要做了參數(shù)數(shù)量和訓(xùn)練難度方面的優(yōu)化。后者各層網(wǎng)絡(luò)之間采用的是全連接,導(dǎo)致參數(shù)數(shù)量較多,由此便需要足夠多的訓(xùn)練數(shù)據(jù)才可能達(dá)到較好的訓(xùn)練效果,這限制了網(wǎng)絡(luò)的深度和大小。前者采用局部視野和參數(shù)共享機(jī)制,大大較少了參數(shù)數(shù)量。局部視野就相當(dāng)于人再觀察世界時,并不是全局觀察,而是分局部觀察,每個局部會觀察到一些特征,這些特征組合起來便是整個視野的特征。參數(shù)共享就好比是每個人觀察不同的物體時所用的都是同樣的視覺系統(tǒng),而不同人的視覺系統(tǒng)則不同。而全連接層用的便是傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)加上分類器,最后一層神經(jīng)元個數(shù)等于分類結(jié)果的個數(shù),分類器多選擇LR或SoftMax。
卷積神經(jīng)網(wǎng)絡(luò)已成功應(yīng)用到多種圖像處理應(yīng)用中,如分類、檢索、圖像語義分割、手寫識別等。深度學(xué)習(xí)算法在人臉識別上的應(yīng)用比起傳統(tǒng)方法優(yōu)勢明顯, 因?yàn)閷θ四樧R別的許多規(guī)律或規(guī)則進(jìn)行顯性的描述是相當(dāng)困難的, 而神經(jīng)網(wǎng)絡(luò)方法則可以通過學(xué)習(xí)的過程獲得對這些規(guī)律和規(guī)則的隱性表達(dá), 適應(yīng)性更強(qiáng)且更容易實(shí)現(xiàn)。
用CNN替代特征提取算法后,人臉識別技術(shù)實(shí)現(xiàn)了端到端處理[5],不再需要復(fù)雜的處理流程和巧妙的模型搭配即可完成。正是因?yàn)槎说蕉说膶傩?,使得包括CNN在內(nèi)的深度學(xué)習(xí)算法像黑盒子一樣被應(yīng)用于各個任務(wù)中。雖然深度學(xué)習(xí)用逐層處理化解決了神經(jīng)網(wǎng)絡(luò)訓(xùn)練難的問題,CNN又用局部視野和權(quán)重共享解決了神經(jīng)網(wǎng)絡(luò)參數(shù)過多的問題,但其同樣面臨著模型負(fù)責(zé),調(diào)參難度大,所需訓(xùn)練數(shù)據(jù)量大的困難。在此基礎(chǔ)上,又出現(xiàn)了殘差網(wǎng)絡(luò)、遷移學(xué)習(xí)等技術(shù)使得深度學(xué)習(xí)應(yīng)用更加廣泛。遷移學(xué)習(xí)應(yīng)用于圖像處理領(lǐng)域,便是如R–CNN算法所示,用到其他任務(wù)上所訓(xùn)練出的中間結(jié)果,如多個卷積層所得到的4096維向量,最后根據(jù)需求加上自己的全連接層即可。遷移學(xué)習(xí)大大解決了訓(xùn)練難度大所帶來的領(lǐng)域難題。
人臉識別的用途現(xiàn)在越來越廣,各行各業(yè)都在嘗試用人臉識別提升客戶體驗(yàn)、優(yōu)化服務(wù)水平,除了百度進(jìn)行的以圖搜圖應(yīng)用以外,還有如通過用戶所上傳的圖片自動識別人臉按人物進(jìn)行相冊分類,或通過人臉識別進(jìn)行物理防盜,找通緝犯,和進(jìn)行安保系統(tǒng)的設(shè)計,本文接下來將以人臉識別部分的現(xiàn)有理論為基礎(chǔ),提出部分創(chuàng)新應(yīng)用。
(1)臉盲癥應(yīng)用。這一現(xiàn)象在社交恐懼和生理疾病的人群中較為常見。例如在觀察電影中,這類人群并不能在幀快速切換中記住每個人物,基于人臉識別技術(shù),可以對影像視頻每一幀中出現(xiàn)的人物做人名標(biāo)注。
(2)特殊人物偵查系統(tǒng)。在開放空間做精確快速的人臉識別可能并不實(shí)際,但在特定數(shù)據(jù)庫中做人臉檢索卻切實(shí)可行?;诖颂匦?,可以開發(fā)一款識別特定人物的應(yīng)用。如“老板來了”,在職員瀏覽非工作屏幕時,如果攝像頭捕捉到某人出現(xiàn)在電腦后方某區(qū)域,并檢測出該人是老板,便自動報警,切換電腦屏幕至工作頁面。
(3)社交軟件的應(yīng)用。① 好友度計算??稍谟脩羯蟼髂橙苏掌瑫r,在用戶的三度好友數(shù)據(jù)庫中查找該人照片,作為好友推薦的一個特征,若該人已是用戶好友,則可作為好友親密度的一個特征。② 相親交友網(wǎng)站功能提升。我們可先向用戶展示大量不同類型的異性照片,記錄用戶在該照片上注意力停留時間,對停留時間較高的照片做聚類,作為對象推薦的一個特征。
目前已有大量的美顏、化妝、拍照等軟件可利用面部特征點(diǎn)檢測做個體年齡,性別,職業(yè),身體狀況信息分析,從而實(shí)現(xiàn)人臉圖像處理。本文提出了部分創(chuàng)新應(yīng)用。
(1)虛擬化妝和卸妝。用戶可上傳照片后,用戶可以對導(dǎo)入到軟件中的數(shù)碼照片進(jìn)行如去涂抹口紅、唇線、面部涂粉、描繪眼線和添加飾品等(如耳飾、頭飾、項鏈、眼鏡等)虛擬化妝操作,也可進(jìn)行相反的卸妝處理,可讓用戶提前看到自己選擇的發(fā)型或妝容是否符合自己。
(2)跨年齡人臉識別和跨代人臉識別。① 通過父母的照片,把父母的共同點(diǎn)融合快速的合成為未來孩子的照片。② 在一系列父母小孩照片中找出具有親緣關(guān)系的一家人。③ 用戶上傳照片并標(biāo)明年齡,然后對其進(jìn)行各個年齡段的長相預(yù)測
(3)微表情檢測。① 用戶上傳照片后,與心理學(xué),微表情學(xué)相結(jié)合,識別心情,或是否撒謊等。② 利用微表情控制程序,如疲勞駕駛時主動提醒,或通過表情控制家具,如鎖門,啟動烘干機(jī)等。
人臉識別系統(tǒng)的研究始于20世紀(jì)60年代,80年代后隨著計算機(jī)技術(shù)和光學(xué)成像技術(shù)的發(fā)展得到提高,而真正進(jìn)入初級的應(yīng)用階段則在90年后期,并且以美國、德國和日本的技術(shù)實(shí)現(xiàn)為主;人臉識別系統(tǒng)成功的關(guān)鍵在于是否擁有尖端的核心算法,并使識別結(jié)果具有實(shí)用化的識別率和識別速度;目前“人臉識別系統(tǒng)”已經(jīng)集成了模式識別、機(jī)器學(xué)習(xí)、模型理論、專家系統(tǒng)、視頻圖像處理等多種專業(yè)技術(shù)取得了長足進(jìn)步。人臉識別核心技術(shù)的實(shí)現(xiàn),展現(xiàn)了弱人工智能向
* [1]易軍. 人臉識別中的特征提取與度量學(xué)習(xí)算法研究[D].北京郵電大學(xué),2015.
* [2]胡敏,程天梅,王曉華. 融合全局和局部特征的人臉識別[J].電子測量與儀器學(xué)報 ,2013,(09)∶817—822.
* [3]湯德俊. 人臉識別中圖像特征提取與匹配技術(shù)研究[D].大連海事大學(xué),2013.
* [4]吳正文. 卷積神經(jīng)網(wǎng)絡(luò)在圖像分類中的應(yīng)用研究[D].電子科技大學(xué),2015.
* [5]汪濟(jì)民. 基于卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測和性別識別研究[D].南京理工大學(xué),2015.