張廣才 何繼榮 高文朋
摘 ? 要:基于深度學習的人臉識別技術是目前人工智能和圖像領域研究的熱點之一,尤其隨著近年來深度神經網絡的發(fā)展,人臉識別的準確性和有效性得到了極大的提高。文章首先簡要闡述了人臉識別技術的研究和發(fā)展歷史,接著敘述了人臉識別的技術流程,隨后詳細介紹了在人臉識別中常用到的卷積神經網絡。由于各大企業(yè)在人臉識別領域取得豐碩的研究成果,因此,也對人臉識別的產品和公司進行了簡單介紹。最后,對人臉識別技術存在的不足和發(fā)展前景進行了總結和展望。
關鍵詞:人臉識別;深度學習;卷積神經網絡
人臉識別的研究歷史較為久遠,最早可以追溯到20世紀50年代,布萊索(Bledsoe)等利用人臉的幾何結構特征提取出特征向量[1],并進行分析匹配。20世紀末期,人臉識別技術的發(fā)展出現了一次小高潮,線性子空間判別分析[2]、統(tǒng)計模式識別方法[3-4]和隱馬爾可夫模型[5]等技術不斷涌現,將人臉識別技術的發(fā)展推向了一個新的階段。
進入21世紀,人臉識別的研究不斷深入,其研究方向更加趨于真實條件和場景下的人臉,新的特征表示和數據源促進了技術的發(fā)展[6],尤其是深度學習的出現,大大提高了特征模型的精確度。同時,隨著GPU高性能計算的飛速發(fā)展以及訓練數據的不斷增加,深度學習在人臉識別領域的時間效率和準確度也不斷提高[7]。
1 ? ?人臉識別技術
1.1 ?人臉識別流程
所謂人臉識別,就是指使用攝像機或攝像頭采集包含人臉的圖像或視頻流,并自動檢測、跟蹤圖像中的人臉,進而對檢測到的人臉圖像進行一系列的相關應用操作[8]。從技術上來講,它包括圖像采集、特征定位、身份的確認和搜索等。簡而言之,人臉識別是從人臉圖像中提取面部特征,如嘴角、眉毛的高度等,并通過特征比較來輸出結果。
人臉識別技術的流程如圖1所示。輸入一張待驗證的人臉圖像,首先,提取圖像的人臉特征,包括全局特征、局部特征等;其次,與對比庫中的多個人臉圖像特征分別進行比對,從中找出最相似的特征;再次,與預算的閾值進行比較;最后,輸出特征對應的身份信息[9]。
傳統(tǒng)的人臉識別方法包括:支持向量機、線性判別分析等,但準確率不高。目前,廣泛使用深度學習的框架,運用大量圖像人臉數據來進行模型訓練,獲取到人臉特征或關鍵點。其中,關鍵點定位是核心技術,增加用于定位的關鍵點數量,識別的準確度就相應提高。比如商湯科技產品采用眼、口、鼻輪廓等人臉21,106,240 3個不同量級的定位關鍵點,可以適用于不同的應用場景,且能夠應對各種實際問題,比如大表情變化、大角度側臉、面部遮擋、模糊以及明暗變化等。
1.2 ?基于深度學習的人臉識別框架
目前,在眾多深度學習模型中,卷積神經網絡(Convolution Neural Network,CNN)模型是研究熱門,且發(fā)展較為成熟。尤其在計算機視覺領域,卷積神經網絡應用十分廣泛且效果顯著,因此,卷積神經網絡成為圖像識別和檢測等有關問題的首選技術,各大IT巨頭也競相研究。相比于傳統(tǒng)的人臉識別算法,它可以直接輸入原始圖像,不需要對圖像進行復雜的前期預處理,并能自動提取高維特征。同時,卷積神經網絡的權重共享機制簡化了神經網絡結構[10],能提取高層特征,提高特征的表達能力[11]。
一個典型的卷積神經網絡包含5個部分,分別是:原始輸入層、卷積層、池化層、全連接層和分類層[11],如圖2所示。(1)輸入層,是整個神經網絡的輸入,一般表示為一張圖片的像素矩陣。(2)卷積層,是卷積神經網絡最為核心的概念,逐個分析圖像中的每一批像素塊,提取局部特征。(3)池化層,不改變三維矩陣的深度,但可以縮小矩陣尺寸。池化操作可以被看作是降低了圖片的分辨率,該操作可以將無用信息過濾掉,減輕整個神經網絡的計算負擔,同時將有用信息篩選出來,傳遞給下一層。(4)全連接層,經過多次卷積和池化操作之后,全連接層給出最后的分類結果,可以認為此時圖像中的信息已被抽象成信息含量更高的特征。卷積層和池化層可以被視為自動圖像特征提取的過程。(5)分類層,特征提取完成后,分類任務仍然需要由全連接層來完成。Softmax層主要用于分類問題,經過Softmax層,可以獲得當前樣本中不同種類的概率分布。
2 ? ?基于深度學習的主流產品比較
近年來,計算機視覺和深度學習的發(fā)展迅猛,僅2011—2016年成立的人臉識別公司就超過30家。國內的主流公司及產品都是基于深度學習技術研究開發(fā)的,如表1所示,其中,依圖科技的算法在國內排名第一。
2018年11月16日公布的最新報告顯示,全球范圍內最高水平的人臉識別算法可在千萬分之一誤報率的前提下,實現漏報率降低至0.4%,這表示在千萬分位誤報率時,識別準確率已超99%。相比于2017年同期相同誤報率下3.3%的漏報率,其性能提升了80%。
許多全球知名的IT公司,諸如Facebook,Google,Microsoft等,爭相推出了各自的深度學習技術平臺,不僅減少了其他企業(yè)在人工智能領域的研發(fā)投入,而且激勵了人臉識別技術的創(chuàng)新和發(fā)展。
當然,現階段的技術水平仍然有限,比如基于人臉識別的智能門禁系統(tǒng)的目的是只允許授權人員進入特定區(qū)域,需要人臉識別技術提供高水平、長時間的準確性保障,且能抵抗技術手段欺騙。但就目前的實際效果而言,錯誤還不能完全避免。
所謂動態(tài)活體檢測技術,就是讓用戶根據隨機指令做出相應的動作,來大幅減小人臉“造假”的可能性。如果用乳膠或硅膠材質做成的,或者3D打印而成的立體面具來攻擊人臉識別系統(tǒng),識別失誤還是會存在的。
據報道,2018年Bose開發(fā)了基于神經網絡的約束運算對人臉探測器的對抗攻擊算法[12],通過動態(tài)方法破壞人臉識別系統(tǒng)的檢測管道,使得識別成功率降低至0.5%,將嚴重威脅人臉識別的安全。
3 ? ?人臉自動識別技術所存隱患及改進措施
科技發(fā)展日新月異,人臉自動識別技術發(fā)展勢頭迅猛,成就非凡,但在實際場景應用中仍存在困難和部分安全隱患。人臉識別主要由兩種方法構成:(1)人臉比對,即判斷待驗證的人臉是否為本人。人臉比對非常簡單,有一張本人的照片即可輕松破解。(2)活體檢測,即判斷待驗證的人臉是否真實、有效?;铙w檢測環(huán)節(jié)原本是人臉識別的一大保障,但是破除方法也非常簡單,只需一個人帶上另一個人的頭像照片制成的立體面具便能通過[13],整個人臉識別也就名不副實,一個高科技支持的智能手段,變成了一個不安全的陷阱。人臉識別商業(yè)化程度越來越高,在金融、安防、社交等領域的應用日益廣泛,各大廠商現階段仍需對人臉識別有所提防,防止人工智能發(fā)展過快帶來安全隱患。因此,在應對隱私、支付等安全性需求較高的實際場景時,注意將多種生物識別技術相融合,這樣安全系數就會大幅提升[14]。
人臉自動識別技術不僅要準確、高效地完成人臉識別,還要能持續(xù)、穩(wěn)定地工作,以滿足安全性需求,需要對以下幾個方面進行改進:
(1)進一步深入研究卷積神經網絡與基于稀疏表示的分類方法[15]等其他算法的融合,更加全面地描述人臉特征,尤其是更加復雜、不敏感的特征,最終提高人臉識別的安全性與準確性。
(2)發(fā)展多特征融合和多分類器融合方法,以改善人臉識別性能[16]。
(3)由于人臉具有非剛體性,不同人臉間存在著不同程度的相似,受各種變化因素的影響,準確識別人臉仍存在一定的困難,進一步確保信息安全是人臉識別技術的發(fā)展趨勢。多種生物識別相融合是很好的手段,比如可以考慮人臉識別與虹膜識別、指紋識別、聲紋識別等技術相融合。
(4)三維形變模型可以應對多種變化因素,具有很好的應用前景。研究表明,采用模擬或補償的方法應對各種變化因素效果良好,但如何高效提取三維人臉特征還處于探索階段,需要在深入研究傳統(tǒng)識別算法和分析大量人臉數據基礎上進行改進和創(chuàng)新。
4 ? ?結語
綜上所述,人臉識別至今仍是一個極具挑戰(zhàn)性的領域,如果僅用現有的一種辦法,識別效果實在不盡如人意。因此,如何提高人臉識別的準確率和識別速度、加強人臉識別產品的性能穩(wěn)定性、制定行業(yè)標準、進行技術創(chuàng)新或改進以及保障數據安全和用戶隱私等,都是值得研究的課題。
[參考文獻]
[1]張翠平,蘇光大.人臉識別技術綜述[J].中國圖象圖形學報,2000(11):885-894.
[2]劉青山,盧漢清,馬頌德.綜述人臉識別中的子空間方法[J].自動化學報,2003(6):900-911.
[3]YANG M H,AHUJA N,KRIEGMAN D.Face recognition using kernel eigenfaces[C].Florida :International Conference on Image Processing IEEE,2000.
[4]BARTLETT M S,MOVELLAN J R,SEJNOWSKI T J.Face recognition by independent component analysis[J].IEEE Transactions on Neural Networks,2002(6):1450-1464.
[5]SAMARIA F S.Face recognition using hidden markov models[J].Phd Thesis Univ of Cambridge,1995(6):70-81.
[6]ZHAO W,CHELLAPPA R,PHILLIPS P J,et al.Face recognition:a literature survey[J].Association for Computing Machinery Computing Surveys,2003(4):399-458.
[7]HUANG T,XIONG Z,ZHANG Z.Face recognition applications[M].London:Handbook of Face Recognition,2011.
[8]暢健.人臉識別在地鐵公安通信系統(tǒng)中的需求分析及實施建議[J].智能建筑與城市信息,2015(1):79-81.
[9]JAIN A K,ROSS A,PRABHAKAR S.An introduction to biometric recognition[J].IEEE Transactions on Circuits and Systems for Video Technology,2004(1):4-20.
[10]DONG C,LOY C C,HE K,et al.Learning a deep convolutional network for image super-resolution[J].IEEE Transactions on Circuits and Systems for Video Technology,2014(5):44-47.
[11]ZEILER M D,FERGUS R.Visualizing and understanding convolutional networks[J].IEEE Transactions on Circuits and Systems for Video Technology,2013(6):88-90.
[12]BOSE A J,AARABI P.Adversarial attacks on face detectors using neural net based constrained optimization[J].IEEE Transactions on Circuits and Systems for Video Technology,2018(22):60-66.
[13]許曉.基于深度學習的活體人臉檢測算法研究[D].北京:北京工業(yè)大學,2016.
[14]趙秀萍.生物特征識別技術發(fā)展綜述[J].刑事技術,2011(6):44-48.
[15]馬曉,張番棟,封舉富.基于深度學習特征的稀疏表示的人臉識別方法[J].智能系統(tǒng)學報,2016(3):279-286.
[16]孫勁光,孟凡宇.基于深度神經網絡的特征加權融合人臉識別方法[J].計算機應用,2016(2):437-443.
Abstract:Face recognition technology based on deep learning has been one of the focuses in the field of artificial intelligence and image research. Especially with the development of deep neural network in recent years, the accuracy and effect of face recognition have been greatly improved. In this paper, firstly, the history of face recognition is briefly introduced, and then describe the technological process of face recognition and the convolutional neural network commonly used in face recognition. Because of the fruitful research results of face recognition in major enterprises, the products and companies of face recognition are introduced briefly. Finally, the shortcomings and development prospects of face recognition are summarized.
Key words:face recognition; deep learning; convolutional neural network