崔茜 國家知識(shí)產(chǎn)權(quán)局專利局專利審查協(xié)作天津中心
計(jì)算機(jī)人臉識(shí)別的研究可以追溯到20 世紀(jì)70 年代,但是由于當(dāng)時(shí)技術(shù)條件的限制,直到90 年代才正式發(fā)展起來。在國家的大力支持下,我國的人臉識(shí)別技術(shù)取得了很大的進(jìn)展,如清華大學(xué)、中科院自動(dòng)化所等自主研究的人臉識(shí)別技術(shù)已達(dá)到了國際先進(jìn)水平。
目前,國內(nèi)外對人臉識(shí)別領(lǐng)域技術(shù)的研究已經(jīng)基本飽和,特征空間維數(shù)災(zāi)難帶來的計(jì)算量大,存儲(chǔ)需求高和冗余數(shù)據(jù)過多導(dǎo)致耗時(shí)等問題一直難以突破。因此,人臉識(shí)別技術(shù)遇到了瓶頸。
基于幾何特征的人臉識(shí)別方法其思想主要是根據(jù)人臉已有的特殊幾何構(gòu)造,即人的面部五官特征,按照一定的順序記錄面部特征點(diǎn),并建立特征點(diǎn)之間的邊界連線,根據(jù)已有的先驗(yàn)知識(shí),將提取到的人臉特征點(diǎn)與樣本特征向量進(jìn)行比對,從而得到比對結(jié)果。比較典型的算法包括AAM 和ASM。
人工神經(jīng)網(wǎng)絡(luò)是模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為的一種算法模型,其通過建立不同的隱層以及層次之間的運(yùn)算關(guān)系構(gòu)造出模擬動(dòng)物的認(rèn)知過程。將提取到的人臉圖像的特征輸入到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中,輸出匹配結(jié)果,該算法本身的難點(diǎn)和重點(diǎn)在于圖像特征的提取以及網(wǎng)絡(luò)中的層次構(gòu)建。目前比較常用的有卷積神經(jīng)網(wǎng)絡(luò)(CNN)、深度學(xué)習(xí)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。
人臉識(shí)別中還存在三大經(jīng)典算法:LDA、PCA、LBP,其中LBP考慮的是局部特征,而另兩種考慮的是全局特征。上述三種經(jīng)典的算法目前更多的是用作人臉特征提取算法,將提取到的人臉特征通過其他的識(shí)別算法進(jìn)行識(shí)別,從而達(dá)到識(shí)別的目的。
稀疏表示的概念來自于壓縮感知理論,其在人臉識(shí)別被廣泛應(yīng)用。采用稀疏表示的方法識(shí)別人臉圖像,其隨機(jī)提取出的特征會(huì)包含更多的信息。稀疏臉針對噪聲的魯棒性相當(dāng)強(qiáng),即使有80%的人臉被隨機(jī)噪聲干擾,仍然能夠得到很高的識(shí)別率。另外,針對于面部有遮擋的圖像來說,稀疏表示的識(shí)別方法也能夠保持較高的識(shí)別率,這兩點(diǎn)也是任何傳統(tǒng)人臉識(shí)別方法所達(dá)不到的。
人臉識(shí)別率受到多種因素的影響,其中采集條件至關(guān)重要。例如,當(dāng)采集到的圖像受光照影響時(shí),雨天、霧天采集到的圖像會(huì)產(chǎn)生模糊,面部遮擋或者姿勢改變等因素都會(huì)影響識(shí)別率。
針對上述問題,目前比較常見的改進(jìn)方法包括限制采集條件,增加圖像去燥等圖像預(yù)處理過程,針對未遮擋的人臉區(qū)域或特征進(jìn)行識(shí)別等。
目前已有的具有較高識(shí)別率的算法基本都是建立在數(shù)學(xué)模型的基礎(chǔ)上,通過將二維的人臉圖像轉(zhuǎn)換為計(jì)算機(jī)能夠計(jì)算的數(shù)學(xué)矩陣的形式進(jìn)行處理。但是由于算法本身的局限性和圖像轉(zhuǎn)換過程中帶來的維數(shù)災(zāi)難,導(dǎo)致人臉識(shí)別運(yùn)算過程緩慢,處理效果不佳,因此,如何兼顧計(jì)算效率和計(jì)算準(zhǔn)確性是目前仍待解決的問題。
對于一幅N*N 的人臉圖像來說,其轉(zhuǎn)換為矩陣的列向量的形式后有N*N*1 維,若訓(xùn)練圖像有M 個(gè),那么矩陣的向量維數(shù)為N*N*M,即圖像的維數(shù)與其圖像的大小和訓(xùn)練圖像數(shù)量有關(guān)。若再采用例如Gabor 小波等圖像處理方法提取不同尺度的人臉圖像特征,其維數(shù)將會(huì)成幾何倍數(shù)增長,由此產(chǎn)生大量的計(jì)算量。而目前通常采用主成分分析(PCA)的方法進(jìn)行降維,但是為了保證人臉的重要數(shù)據(jù)不丟失,其保留的維度也不能夠太少,因此對于計(jì)算量的改進(jìn)并無太大的效果。
目前的人臉面部特征多數(shù)是二維特征,即對圖像的處理。由于人臉本身是三維特征,其在二維空間內(nèi)會(huì)丟失掉一部分重要信息,帶來了識(shí)別效果不佳的問題。但是三維特征本身又會(huì)帶來一定的高維問題,因此,三維人臉是否能夠逐漸取代二維人臉也是需要持續(xù)關(guān)注的問題。
幾年來,雖然人臉識(shí)別率越來越高,但是卻面臨無芯片可用的困境。深度學(xué)習(xí)技術(shù)應(yīng)用到人臉識(shí)別之后,逐漸解決了算法層面識(shí)別不準(zhǔn)確的問題。但是經(jīng)過幾年的實(shí)踐后發(fā)現(xiàn),深度學(xué)習(xí)算法的處理芯片才是目前最主要的算力問題。由于沒有專門的深度學(xué)習(xí)芯片,只能夠從已有的CPU 、GPU、DSP、FPGA 等著手,但是不論是上述哪種芯片,都無法完全支撐先進(jìn)的算法。因此,算法如何與芯片結(jié)合,從而推出符合需求的人臉識(shí)別芯片產(chǎn)品也是行業(yè)重點(diǎn)關(guān)注的方面。
人臉識(shí)別技術(shù)經(jīng)過多年的發(fā)展已經(jīng)成為生活中的不可或缺的一部分,其被廣泛應(yīng)用在各個(gè)領(lǐng)域,但是現(xiàn)階段的人臉識(shí)別技術(shù)仍存在一定的挑戰(zhàn),相信會(huì)有越來越多的更新、更快、更準(zhǔn)確的識(shí)別算法和對應(yīng)的硬件逐漸被開發(fā),使該技術(shù)更加完善。