蘇 楠 吳 冰 徐 偉 蘇光大
1(清華大學電子工程系 北京 100084)2(南京理工大學計算機科學與技術學院 南京 210094)(sunan@mail.tsinghua.edu.cn)
?
人臉識別綜合技術的發(fā)展
蘇 楠1吳 冰1徐 偉2蘇光大1
1(清華大學電子工程系 北京 100084)2(南京理工大學計算機科學與技術學院 南京 210094)(sunan@mail.tsinghua.edu.cn)
從算法、系統(tǒng)、標準、應用方面闡述了人臉識別綜合技術的發(fā)展.在算法方面,介紹了部件PCA人臉識別和基于深度學習的人臉識別;在人臉識別系統(tǒng)方面,介紹了辨識人臉識別的系統(tǒng)結構;在標準方面,介紹了我國公共安全領域里的相關標準的發(fā)布情況;在應用方面,主要介紹了人臉識別在公共安全中的應用.同時也梳理了人臉識別技術發(fā)展的歷程,并指出了當前人臉識別面臨的挑戰(zhàn)性問題.
人臉識別算法;人臉識別系統(tǒng);人臉識別標準;深度學習;部件PCA
利用人臉進行生物特征識別的過程稱為人臉識別.通常包含辨識型人臉識別(face identification)、確認型人臉識別(face verification)和關注名單型人臉識別(watch list face recognition).
人臉識別是生物識別技術的一種,和指紋、虹膜、聲紋等其他生物特征識別相比,人臉識別具有獨特的優(yōu)勢,包括:
1) 人臉信息的完全采集模式.
主動、被動地人臉信息采集,不受限制地人臉信息采集以及身份信息齊全.
2) 強大的社會資源支持.
二代身份證、網(wǎng)絡身份證,遍布城鄉(xiāng)的視頻監(jiān)控、攝像機成為許多智能設備的標配
3) 國家安全和公共安全的重大需求.
4) 結緣于大數(shù)據(jù)、云計算.
人臉識別經(jīng)歷了萌芽期、起步期、發(fā)展期、局部成熟期和規(guī)模應用期.萌芽期大致處于20世紀60年代,代表作是1965年Chan和Bledsoe設計的人臉識別系統(tǒng);起步期大致處于20世紀90年代,代表作是1991年美國MIT的Turk和Pentland提出的著名的特征臉人臉識別方法;發(fā)展期是從2001年開始,標志事件是美國“9·11”事件;局部成熟期從2006年開始,標志事件是FRVT2006國際測試.規(guī)模應用期從2008年開始,標志事件是人臉識別技術成功應用于2008北京奧運會.
人臉識別不僅是研究的熱點,也是應用的熱點.
時至今日,人臉識別在算法、系統(tǒng)、標準、應用等方面都有了顯著的進展.
特征臉的方法(EigenFace)[1]是早期著名的人臉識別算法,該算法將人臉圖像從像素空間變換到特征空間,然后在特征空間中做相似性計算.后來,許多學者對特征臉的方法進行了各種改進,部件PCA的方法[2]就是其中的一種.除了特征臉的方法以外,又出現(xiàn)了LDA[3]、LBP、彈性匹配、高維特征、PCANet、三維等人臉識別算法.光照、姿態(tài)、表情、年齡等因素的影響會直接影響人臉識別率.在單人單張人臉的條件下,根據(jù)最佳二維人臉的思想,產(chǎn)生了許多校正的算法,比如姿態(tài)人臉的正面化、不同表情的人臉中性化等算法,以此獲得與標準人臉更接近的人臉,以消除多種因素對人臉識別率的影響.
近年來,基于單人多張的人臉識別算法蓬勃發(fā)展,特別是基于深度學習的人臉識別方法取得了驚人的發(fā)展.
深度學習是人工智能技術的突破性進展,其應用有賴于計算能力的提高.GPU已被證明對深度學習很有效,CPU+GPU成為深度學習的主流計算方式,應用于語音識別、機器翻譯、特定圖像搜索等方面.香港中文大學[4]、Face++、百度等單位率先開展了基于深度學習的人臉識別算法研究,取得了很高的人臉識別率.
1.1 部件PCA的人臉識別
人臉部件具有顯著的人臉特征.在PCA的基礎上形成了部件PCA人臉識別方法.
首先,將人臉圖像分為如圖1所示的5部件:裸臉、眼睛+眉毛、眼睛、鼻子、嘴巴.
圖1 人臉部件示意圖
用n×N矩陣表示N個人臉矢量,n為人臉圖像點陣數(shù),N為訓練人臉的數(shù)量,則:
(1)
其中,Xk=(x1k,x2k,…,xn k)T,k=(1,2,…,N).
在計算C的特征向量和特征值中,由于計算XXT的維數(shù)很大(n2維),而采用奇異值分解,改為計算XTX,這樣可間接獲得C的特征向量和特征值,而計算XTX后則變?yōu)镹2維,XTX與XXT與特征向量的關系滿足式(2):
(2)
其中,uk為XXT的特征向量,而φk為XTX的特征向量,λk既是XXT的特征值,同時也是XTX的特征值.對于矩陣R,存在一個矩陣Φ,使得式(3)成立:
(3)
其中,Λ包含了矩陣R的特征值,Λ=diag(λ1,λ2,…,λN),式(4)表示成N個等式:
(4)
其中,特征值λk可通過式(5)求得:
(5)
把求得的λk數(shù)值按從大到小進行排序,取出前D個最大的特征值并保留與之相對應的D個特征向量φk.由式(4)算出矩陣C的特征向量uk.
矩陣C分別為從訓練集人臉中分離出來的裸臉、眼睛+眉毛、眼睛、鼻子、嘴巴,通過式(1)~(5)的運算,分別形成特征臉、特征(眼睛+眉毛)、特征眼睛、特征鼻子、特征嘴巴.
在人臉識別過程中,首先要建立一個包含已知人臉的裸臉、眼睛+眉毛、眼睛、鼻子、嘴巴投影特征值的數(shù)據(jù)庫.
已知人臉的裸臉、眼睛+眉毛、眼睛、鼻子、嘴巴的投影特征值可通過式(6)求得:
(6)
其中qi分別為已知人臉的裸臉、眼睛+眉毛、眼睛、鼻子、嘴巴圖像,uk i分別為從訓練集人臉中得到的特征臉、特征(眼睛+眉毛)、特征眼睛、特征鼻子、特征嘴巴.
計算待識別人臉與已知人臉相似度采用式(7):
(7)
其中,A為待識別人臉的投影特征值串、B為數(shù)據(jù)庫中已知人臉的歸投影特征值串.
1.2 基于深度學習的人臉識別
深度學習算法種類繁多,人臉識別方面應用較廣的方法主要是卷積神經(jīng)網(wǎng)絡.20世紀60年代,Hubel和Wiesel在研究貓腦皮層時,發(fā)現(xiàn)了一種獨特的神經(jīng)網(wǎng)絡結構,可以有效地降低反饋神經(jīng)網(wǎng)絡的復雜性,文獻[5]提出了卷積神經(jīng)網(wǎng)絡 (convolutional neural networks, CNNs).
神經(jīng)網(wǎng)絡由神經(jīng)單元組成:
(8)
當將多個神經(jīng)單元組合起來并具有分層結構時,就形成了神經(jīng)網(wǎng)絡模型.
卷積神經(jīng)網(wǎng)絡是一種非全連接的神經(jīng)網(wǎng)絡結構,包含 2種特殊的結構層:卷積層和次抽樣層(也稱特征提取層和特征映射層).卷積層由多個特征平面構成,完成抽取特征的任務.每個特征平面由神經(jīng)元構成,每個神經(jīng)元接受同一個特征平面的神經(jīng)元,并且該神經(jīng)元具有相同的大小.這一做法的理論基礎在于,一般認為人對外界的認知是從局部到全局的,圖像的空間聯(lián)系也是局部的像素聯(lián)系較為緊密,距離較遠的像素相關性則較弱.因而,每個神經(jīng)元沒有必要對全局圖像進行感知,只需要對局部進行感知,然后在更高層將局部的信息綜合起來就可以得到全局信息.同時,同一特征平面上的神經(jīng)元具有相同的權值,這其中隱含的原理則是:圖像的一部分統(tǒng)計特性與其他部分是一樣的.這也意味著我們在這一部分學習的特征也能用在另一部分上,所以對于這個圖像上的所有位置,我們都能使用同樣的學習特征.
根據(jù)離散卷積的數(shù)學定義:
(9)
設所考查層的第k個特征平面記作hk, 與前一層的連接權重矩陣為Wk, 偏差為bk, 對于非線性的雙曲正切函數(shù), 可以得到特征映射如下:
(10)
其中,i和j標注了該神經(jīng)元在特征平面上的位置.采用tanh或者sigmoid函數(shù)容易進入飽和區(qū)域,進入飽和區(qū)域時網(wǎng)絡的連接權重W就無法更新,目前,激活函數(shù)一般采用線性校正單元(Relu),該函數(shù)不僅加快了訓練速度,并且使網(wǎng)絡結構更加稀疏,可以學到更優(yōu)的圖像特征.
每個卷積層都會緊跟 1個次抽樣層.輸入數(shù)據(jù)經(jīng)過卷積后進入高維空間,即卷積層進行了升維映射.如果不斷地進行升維,顯然會導致維數(shù)災難,因此需要進行池化操作,但是池化操作會損失部分圖像信息,網(wǎng)絡中不能頻繁采取池化操作.
因為圖像具有一種“靜態(tài)性”的屬性,這也就意味著在一個圖像區(qū)域有用的特征極有可能在另一個區(qū)域同樣適用.因此,為了描述大的圖像,一個很自然的想法就是對不同位置的特征進行聚合統(tǒng)計,即池化.池化后得到的概要統(tǒng)計特征不僅具有低得多的維度,同時還可以降低過擬合的可能性.
卷積層的每一個平面都抽取了前一層某一個方面的特征.每個卷積層上的每個結點作為特征探測器,共同抽取輸入圖像的某個特征.圖像經(jīng)過一層卷積就由原始空間被影射到特征空間,在特征空間中進行圖像的重構.卷積層的輸出,為圖像在特征空間中重構的坐標,作為下一層也就是次抽樣層的輸入.圖2中C代表卷積,P代表池化,F(xiàn)代表全連接.
圖2 LeNet示意圖
在實際應用中往往使用多層卷積,然后再使用全連接層進行訓練,多層卷積的目的是一層卷積學到的特征往往是局部的,層數(shù)越高學到的特征就越抽象越全局化.
相較于其他深度學習方法,卷積神經(jīng)網(wǎng)絡具有很多優(yōu)勢:CNN允許多維向量的圖像直接輸入網(wǎng)絡,避免了特征提取和分類過程中數(shù)據(jù)重建的復雜度;卷積層與計算層相間的獨特結構減小了特征分辨率;權值共享不僅可以實現(xiàn)并行學習,同時還減少了網(wǎng)絡自由參數(shù)的個數(shù),大大降低了網(wǎng)絡的復雜性.這些特點使得卷積神經(jīng)網(wǎng)絡在圖像處理方面有很強的優(yōu)越性.
2005年,清華大學研制成功的大型人臉識別系統(tǒng)通過了公安部的科技成果鑒定,其系統(tǒng)結構如圖3所示:
圖3 大型人臉識別系統(tǒng)結構
R=RMMX×Rcluster.
(11)
應用集群計算機的基本條件是計算量要大大于網(wǎng)絡通信量.為此,我們采用了如圖4所示的集群計算機分庫的人臉特征比對的方法[6].
圖4中,輸入的人臉特征分別和從機預存的人臉特征進行比對,主機進行合并.TH2005人臉識別系統(tǒng)達到了256萬s的識別速度.
圖4 集群計算機分庫的人臉特征比對
人臉識別技術的發(fā)展促進了人臉識別相關標準的發(fā)展.在美國,2004年出臺了國家標準《人臉識別數(shù)據(jù)交換規(guī)范》.我國人臉識別相關標準的制定起步較晚,但發(fā)展較快.清華大學于2004年承接了公安部人臉識別相關標準的起草任務.2007年9月11日全國安全防范報警系統(tǒng)標準化技術委員會人體生物特征識別應用分技術委員會成立,我國安防行業(yè)的生物特征識別相關標準進入大發(fā)展階段.以清華大學為第一起草單位的行業(yè)標準《安防生物特征識別應用術語》于 2010年12月2日由公安部批準發(fā)布;以公安部第一研究所為第一起草單位的行業(yè)標準《安防人臉識別應用系統(tǒng)第2部分:人臉圖像數(shù)據(jù)》于 2011年1月13日由公安部批準發(fā)布;以中國科學院自動化研究所為第一起草單位的行業(yè)標準《出入口控制人臉識別系統(tǒng)技術要求》于2013年12月6日由公安部批準發(fā)布.現(xiàn)在,包括人臉識別軟件接口在內(nèi)的多個標準正在制定過程中.
人臉識別技術的應用是多方面的,一些成功的應用包括以下3方面:
1) 成功應用于2008年北京奧運會
2008年北京奧運會的開、閉幕式應用了人臉識別技術,如圖5所示.這是奧運史上第1次應用人臉識別技術,也是我國的國家級應用項目,被媒體譽為人臉識別技術在華發(fā)展的里程碑.2010年,人臉識別技術成功應用于上海世博會.此外,人臉識別技術還應用于深圳羅湖口岸等出入境自助通關查驗、機場安檢等領域.
2) 成功應用于我國戶籍查重
在我國戶籍管理中,由于種種原因出現(xiàn)了一個人擁有2個或2個以上戶籍的情況,這種問題將直接影響社會公共安全,如在逃人員利用多身份手段進行身份漂白、高官利用假身份外逃、不法份子利用假身份作案等.某市公安局2011年利用人臉識別技術在全市6 123 812張二代證人臉圖像
圖5 人臉識別技術成功應用于2008年北京奧運會
中進行戶籍查重,對查詢結果再進行人工核查,共查出12 314對重復戶口,從中發(fā)現(xiàn)了8名逃犯,取得了戶籍查重的重要成果,受到了各級領導表彰.近年來,各級公安機關狠抓戶籍管理,在全國范圍內(nèi)清理注銷了大量重復戶口,既促進了我國人口信息化建設,也導致了人臉識別市場的爆發(fā)式增長.
3) 成功應用于視頻圖像偵察
深化城市監(jiān)控應用是公共安全領域里的一項重要任務,圖像偵察成為新的辦案技術,得到了快速發(fā)展.
由于多種原因,監(jiān)控中的人臉圖像很小,其專業(yè)術語是人臉圖像分辨率低下,這種情況長期困擾著辦案工作.在基于監(jiān)控的辦案工作中,需要將視頻監(jiān)控中涉案人的人臉圖像清晰化,識別視頻監(jiān)控中涉案人的真實身份,并掌握其運動軌跡.應用超分辨率人臉圖像重建技術、模糊人像復原技術、人像組合技術、人臉識別技術,實現(xiàn)了超低分辨率人臉圖像的重建與識別.圖6給出了在周克華案的應用實例.
圖6 超低分辨率人臉圖像的重建與識別在周克華案的應用
時至今日,人臉識別無論是在算法上還是在應用上都取得了令人矚目的成就.但要達到普適性仍然存在一些具有挑戰(zhàn)性的問題.其中包括水平轉動角、俯仰角姿態(tài)角大于30°以及人臉分辨率小于30個像素、超過5年的大年齡跨度的人臉識別.同時,深度學習人臉識別的廣泛應用問題也是值得探討的問題.深度學習的最主要瓶頸是學習時間過長.我們希望加速持續(xù)性的深度學習的訓練過程.這種過程既包括篩選最佳參數(shù)的重復性學習,也包括樣本增量的再學習.面對深度學習的計算復雜度,業(yè)界的主流方式是采用加大計算規(guī)模的CPU+GPU架構.與加大計算規(guī)模相比,我們更期待新的計算方式的出現(xiàn).
目前,人臉識別的應用正在向金融行業(yè)發(fā)展,社保卡的人臉識別是成功的應用,而馬云刷臉更是一個推動.網(wǎng)絡身份證的實現(xiàn)有助于將人臉識別的應用推到一個新的高點.
[1]Turk M, Pentland A. Eigenfaces for Recognition[J]. Journal of Cognitive Neuroscience, 1991, 3(1): 71-86
[2]Su Guangda, Zhang Cuiping, Ding Rong, et al. MMP-PCA face recognition method[J]. Electronics Letters, 2002, 38(25): 1654-1656
[3]李小麗, 陳鍛生. 基于LLE+LDA的人臉識別方法[J]. 計算機應用, 2007, S2(27): 85-86
[4]Sun Yi, Wang Xiaogang, Tang Xiaoou. Deeply learned face representations are sparse, selective, and robust[C] //Proc of CVPR. 2015: 2892-2900
[5]LeCun Y, Bottou L, Bengio Y, et al. Gradient—Based learning applied to document recognition[J]. Proc of the IEEE,1998, 86(11): 2278-2324
[6]Meng Kai, Su Guangda, Li Congcong, et al. A high performance face recognition system based on a huge face database[C] //Proc of IEEE the Int Conf on Machine Learning and Cybernetics (ICMLC). Piscataway, NJ: IEEE, 2005: 5159-5164
蘇 楠
碩士,工程師,主要研究方向為計算機視覺、人臉識別.
sunan@mail.tsinghua.edu.cn
吳 冰
本科生,主要研究方向為人臉識別.
bingwu1995@126.com
徐 偉
博士研究生,主要研究方向為模式識別與人工智能.
18762321746@126.com
蘇光大
教授,全國安防標委會人體生物特征識別應用分技術委員會顧問、證件防偽公安部重點實驗室學術委員會委員、生物識別產(chǎn)業(yè)技術創(chuàng)新戰(zhàn)略聯(lián)盟副理事長,主要研究方向為圖像識別與高速圖像處理.
susu@tsinghua.edu.cn
The Comprehensive Technology Development of Face Recognition
Su Nan1, Wu Bing1, Xu Wei2, and Su Guangda1
1(DepartmentofElectronicEngineering,TsinghuaUniversity,Beijing100084)2(SchoolofComputerScienceandTechnology,NanjingUniversityofScienceandTechnology,Nanjing210094)
This paper elaborates the comprehensive technology development of face recognition from the aspects of algorithm, system, standard and application. In the aspect of algorithm, the MMP-PCA face recognition method and the deep learning based face recognition method are introduced. In the aspect of face recognition system, the system structure of face recognition is introduced. In the aspect of standard, the relevant standards of the public safety in our country are introduced. In the aspect of application, the paper mainly introduces the application of face recognition in public security. At the same time, this paper also combeds the development process of face recognition technology and pointes out the challenges of face recognition.
face recognition algorithm; face recognition system; face recognition criterion; deep learning; MMP-PCA
2015-12-30
TP391.14