董勁波
易啟科技(吉林?。┯邢薰?吉林長春 130012
目前,面向視頻的動態(tài)人臉識別方法主要有3種思路。第一種思路是基于關(guān)鍵幀的傳統(tǒng)方法,它的原理比較簡單,是將動態(tài)人臉識別轉(zhuǎn)換成視頻人臉圖像關(guān)鍵幀的靜態(tài)人臉識別問題。但這種方法存在著一個問題,即關(guān)鍵幀的標準難以定義,缺少行業(yè)標準,難以被廣泛接受;第二種思路是基于圖像集方法,因為視頻數(shù)據(jù)是由圖像集組成,解決動態(tài)人臉識別可以轉(zhuǎn)換成圖像集的處理問題,主要的方法有利用超分辨技術(shù)、3D建模技術(shù)等。但此類思路的方法分別存在著對圖像集對齊較為敏感和計算負擔(dān)巨大的弊端;第三種思路是基于有序視頻序列的方法,利用視頻流中的時間信息和空間信息,但此類思路的傳統(tǒng)機器學(xué)習(xí)方法,如基于局部二值模式存在人工獲取有效的數(shù)據(jù)困難的弊端,且工作量巨大。本文的方法是基于上述第三種思路,結(jié)合深度學(xué)習(xí)的方法通過大量數(shù)據(jù)學(xué)習(xí)圖像特征的優(yōu)勢,設(shè)計出一種同時回歸和分類循環(huán)網(wǎng)絡(luò)來跟蹤和識別人臉。實驗結(jié)果表明,本文方法在保證高準確率識別率的前提下,具有較好的魯棒性和實時性,能有效滿足實際應(yīng)用需要。
在人工智能領(lǐng)域中,深度學(xué)習(xí)屬于重要的內(nèi)容,其涵蓋內(nèi)容眾多,具有跨領(lǐng)域、跨學(xué)科等特征,涉及數(shù)學(xué)、信息學(xué)、哲學(xué)、通信原理等多方面研究.深度學(xué)習(xí)可看成是利用計算機模擬人類學(xué)習(xí)的過程,從激勵響應(yīng)、函數(shù)結(jié)果中對函數(shù)模型進行優(yōu)化,在提供新變量數(shù)據(jù)的同時,按照模型對即將產(chǎn)生的激勵結(jié)果進行判斷.近年來,在互聯(lián)網(wǎng)和計算機技術(shù)飛速發(fā)展之下,深度學(xué)習(xí)也得到飛速發(fā)展,在語音識別、輔助判定等方面成果豐厚,同時在語音識別、視頻識別領(lǐng)域也獲得可喜成績[1]。
該技術(shù)屬于生物識別技術(shù)的一種,以人臉特征信息為依據(jù),通過獲取靜態(tài)或動態(tài)的臉部信息,與事先預(yù)留的信息進行對比,由此得出識別者的信息,達到身份認證、人臉辨識的目標。
針對深度學(xué)習(xí)而言,其中的一個重要的學(xué)習(xí)和應(yīng)用領(lǐng)域就算是對特定的事物的識別,這種識別技術(shù)是一種事先限定范圍的識別。例如針對人臉進行識別,就只能識別人臉這種客觀的圖像,對于其他事物則無能為力。這種識別的模式再賦予設(shè)備類似于人體的信息識別和處理功能的同時,可以不斷強化這種能力。結(jié)合特征提取技術(shù),是實現(xiàn)深度學(xué)習(xí)識別的重要途徑,針對圖形和圖像的內(nèi)容所包含的信息將其進行投射,實現(xiàn)信息的高維到低維的轉(zhuǎn)化,對于人臉的信息,可以將高維空間信息投射到低維空間中,幾何個特征的特征在低維空間子集中尋找相關(guān)性最大的特征點,這種識別的過程不涉及特征的屬性,只是進行單純的對比進行相關(guān)性的確定。結(jié)合線性判斷分析,實現(xiàn)對特定信息的類比識別。其過程為,首先借助類比內(nèi)部的同類方差,進行相應(yīng)的調(diào)整,放大類別間的方差。深度學(xué)習(xí)應(yīng)用于人臉識別中主要借助的算法有最小化、最大化不同類間的方差。這些算法的使用極大地提升了人臉識別的精確度。同時為了更加高效的提取人臉的信息,借助于Gabor小波、局部LBP算法實現(xiàn)信息的獲取,并結(jié)合具體的應(yīng)用場合,選擇多樣的算法進行圖像的識別。
該方法的核心思想是假設(shè)存在人臉圖像的區(qū)域是一個隨機變量,再采用K-L變換得到正交K-L基。其中特征值越大的基,包含的人臉信息越多。因此,PCA方法也被稱為特征臉方法。將多個包含人臉信息的特征基進行線性組合,便可完整的描述出人臉圖像特征,從而實現(xiàn)特征提取及降維處理。即PCA算法中人臉識別的過程是將人臉圖像數(shù)據(jù)映射到由特征基組成的子空間,并通過分類算法對不同特征的人臉分類,最終實現(xiàn)了人臉識別。
BP神經(jīng)網(wǎng)絡(luò)的原理是先利用前向傳播計算網(wǎng)絡(luò)輸出,計算輸出部分的誤差。然后利用反向傳播算法向前估計輸出層與前一層的誤差,一直向前進行誤差的更迭。再根據(jù)層與層之間的誤差估計來不斷調(diào)整各層的連接權(quán)值,最后利用調(diào)整好的連接權(quán)值重新計算輸出誤差,直到輸出的誤差達到要求或者迭代次數(shù)達到提前設(shè)定的較大值為止。具體的BP神經(jīng)網(wǎng)絡(luò)模型圖。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)規(guī)則就是通過不斷地反向傳播和修正權(quán)值、閾值,使誤差降低至最小。但不斷迭代的缺點是計算成本較高,若樣本數(shù)據(jù)維數(shù)過大[2],將會導(dǎo)致計算成本較大。因此,為解決維數(shù)導(dǎo)致的計算量過大問題,通常會采用降維的預(yù)處理方式,從而實現(xiàn)降低數(shù)據(jù)計算量以及去掉兀余數(shù)據(jù)的目的。
科技發(fā)展日新月異,人臉自動識別技術(shù)發(fā)展勢頭迅猛,成就非凡,但在實際場景應(yīng)用中仍存在困難和部分安全隱患。人臉識別主要由兩種方法構(gòu)成:①人臉比對,即判斷待驗證的人臉是否為本人。人臉比對非常簡單,有一張本人的照片即可輕松破解。②活體檢測,即判斷待驗證的人臉是否真實、有效?;铙w檢測環(huán)節(jié)原本是人臉識別的一大保障,但是破除方法也非常簡單,只需一個人帶上另一個人的頭像照片制成的立體面具便能通過,整個人臉識別也就名不副實,一個高科技支持的智能手段,變成了一個不安全的陷阱。人臉識別商業(yè)化程度越來越高,在金融、安防、社交等領(lǐng)域的應(yīng)用日益廣泛,各大廠商現(xiàn)階段仍需對人臉識別有所提防,防止人工智能發(fā)展過快帶來安全隱患。因此,在應(yīng)對隱私、支付等安全性需求較高的實際場景時,注意將多種生物識別技術(shù)相融合,這樣安全系數(shù)就會大幅提升[3]。
綜上所述,現(xiàn)階段,深度學(xué)習(xí)已經(jīng)在圖像識別、視頻識別、語音識別等多個領(lǐng)域中得到廣泛應(yīng)用,使以往受背景、光線等影響的弊端得到有效克服,提高人臉識別的精準度.在未來的發(fā)展中,應(yīng)加強對該項技術(shù)的研究,使其在多種復(fù)雜條件下也可獲得理想的識別效果。