周立廣 韋智勇
【關(guān)鍵詞】深度學(xué)習(xí);輕量級;人臉檢測;人臉特征
【中圖分類號】TP391.41;TP181【文獻標識碼】A【文章編號】1674-0688(2021)06-0057-03
隨著全球人工智能技術(shù)的高速發(fā)展,生物識別技術(shù)成為該領(lǐng)域的研究熱點,其主要是利用人體皮膚、人臉、指紋等特征作為技術(shù)識別的方式,其中,人臉識別為主要的識別方式,該方式具有精準性、唯一性、有效性特點,這種特點是無法進行模擬和仿制的。目前,人臉識別技術(shù)已逐步運用于各個領(lǐng)域當(dāng)中,傳統(tǒng)的識別技術(shù)也逐步被其替代。同時,這項技術(shù)的精準度在進一步提高。人臉識別算法總體上經(jīng)歷了3個發(fā)展階段,即由早期的空間幾何算法發(fā)展到人工特征算法,直到發(fā)展到今天的深度學(xué)習(xí)算法。深度學(xué)習(xí)算法應(yīng)用廣泛,并且在很多領(lǐng)域中都有深入研究,尤其是基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)的人臉識別算法,其發(fā)展迅猛,主要是通過不同的人臉特征進行向量提取,并進行深度學(xué)習(xí),即通過識別算法把人臉特征存儲在向量庫中,向量庫的數(shù)據(jù)量越大,識別的準確率也就越高。
1 關(guān)于深度學(xué)習(xí)的相關(guān)理論
1.1 深度學(xué)習(xí)技術(shù)
人工智能是目前全球IT行業(yè)研究的熱點,而深度學(xué)習(xí)技術(shù)是其中一項重要內(nèi)容,內(nèi)涵非常豐富,是一門跨領(lǐng)域的信息技術(shù),該技術(shù)通過智能設(shè)備模擬學(xué)習(xí)的方式進行,從激勵響應(yīng)和模型優(yōu)化到對激勵的結(jié)果進行數(shù)值判斷。隨著全球信息技術(shù)的高速發(fā)展,深度學(xué)習(xí)技術(shù)發(fā)展也日新月異,在視頻、語音識別方面獲得了實質(zhì)性突破。借助深度學(xué)習(xí)技術(shù)可以讓機器自動感知周圍環(huán)境,提高設(shè)備的智能化,從而提高工作效率。深度學(xué)習(xí)主要由神經(jīng)網(wǎng)絡(luò)研究發(fā)展而來,它是由多個感知器集成的深度學(xué)習(xí)系統(tǒng),系統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。深度學(xué)習(xí)的過程主要分為兩個部分,首先訓(xùn)練每層的神經(jīng)單元,然后再采用“喚醒-睡眠”算法進行優(yōu)化和調(diào)整,從而使系統(tǒng)“感知”到“確認”緊密融合,深度訓(xùn)練順序主要分為自下而上和自上而下兩種模式。
圖1 基于深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)圖
1.2 人臉檢測與識別
人臉檢測與識別技術(shù)屬于一種生物識別技術(shù),該技術(shù)先通過人臉圖像確定圖像的形狀、顏色、大小等信息,然后對圖像進行人臉區(qū)域定位,動態(tài)獲取人臉的特征信息,通過人臉目標檢測算法計算,與基礎(chǔ)庫的信息進行比較,可以得出識別者的身份及相關(guān)信息。目標檢測算法目前有多種形式,例如One-stage算法、SSD算法等都屬于目標算法。另外,在人臉識別方面,主要采用人臉匹配算法,人臉匹配主要分為“一對一”和“一對多”兩種方式,“一對一”主要是直接判斷兩張圖是否為同一個人的臉,而“一對多”則是從人臉庫中提取相關(guān)的多個數(shù)據(jù)進行再次匹配,目前“一對一”方式較為常用。人臉檢測與識別技術(shù)目前已廣泛運用于各個行業(yè),不僅提高了各行業(yè)的工作效率,而且提高了數(shù)據(jù)的安全性和可靠性。
1.3 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)技術(shù)主要通過計算機網(wǎng)絡(luò)進行模仿生物的神經(jīng)系統(tǒng),該系統(tǒng)具有非線性、非穩(wěn)定性和非平衡性特點,目前使用最多的是卷神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)由神經(jīng)傳導(dǎo)模型演變而來,該神經(jīng)系統(tǒng)包含特征提取神經(jīng)元和抗形變神經(jīng)元兩種神經(jīng)元,分別起到卷積核濾波和激活池化操作的作用,可有效提取人臉圖像信號及其時間序列。在神經(jīng)傳導(dǎo)算法中,反射傳播算法目前為最佳算法,該算法可大幅提升系統(tǒng)性能。今后,隨著計算機網(wǎng)絡(luò)技術(shù)的快速發(fā)展,以及云計算、大數(shù)據(jù)發(fā)展的推動,神經(jīng)網(wǎng)絡(luò)算法會有一個全新的突破。
2 算法模型和數(shù)據(jù)集
人臉識別算法有很多種,在深度算法中也存在多種方式,隨著近幾年的高速發(fā)展,該項技術(shù)也穩(wěn)步提升,而每種識別算法所對應(yīng)的網(wǎng)絡(luò)模型和訓(xùn)練集都存在差異,因此都各有優(yōu)缺點。為此,建立一個具有差異性的算法模型和訓(xùn)練集非常重要,這對后續(xù)研究工作進展起到?jīng)Q定性的作用 [1]。
2.1 算法模型
目前,基于深度學(xué)習(xí)的人臉檢測算法層出不窮,但許多開發(fā)者基于自身利益考慮,不公開算法的源代碼。通過對目前公開源代碼的算法進行逐一分析,VGGFace算法的精確度是最高的,該算法主要運用在模型識別和特征投影兩個方面,由于網(wǎng)絡(luò)中卷積層存在各自不同,使得網(wǎng)絡(luò)訓(xùn)練工作量較大 [2]。因為VGGFace的運行環(huán)境對硬件配置有很高的要求,所以要想在移動設(shè)備上運行是比較困難的,并且在運行過程中的訓(xùn)練和特征提取都會占用大量時間,相比之下,Caffe-face由于網(wǎng)絡(luò)規(guī)模小、特征參數(shù)少,屬于輕量級,可以在移動設(shè)備和一些小型設(shè)備中使用,而且該算法的精確度也很高。另外,在公開源代碼的算法中,有一種算法為Lightened CNN,該算法具有學(xué)習(xí)率高和迭代次數(shù)小的優(yōu)點,也是目前精確度較高的算法模型之一。
2.2 詞匯表達與分類訓(xùn)練
如果在人臉特征提取過程中出現(xiàn)滯后現(xiàn)象,可采用聚合方式進行處理,即采用視覺詞匯表達的方式進行,整個過程把人臉特征用視覺詞匯先表達出來,把詞匯集存儲在指定的庫中,并建立相應(yīng)的詞匯圖,該項流程完成后,每臺設(shè)備進行深度學(xué)習(xí)的目標可以實現(xiàn)。首先通過分類器對設(shè)備進行訓(xùn)練,然后用測試集測試設(shè)備的訓(xùn)練程度,目前大多采用多層傳感器解決分類問題,系統(tǒng)的神經(jīng)網(wǎng)絡(luò)采用梯度算法,可解決無法識別線性數(shù)據(jù)的問題,使識別范圍進一步擴大。同時,用于識別的設(shè)備還可通過反向傳播算法精準地統(tǒng)計出整個神經(jīng)系統(tǒng)中神經(jīng)元的實時數(shù)量,可進一步改進整個系統(tǒng),提升系統(tǒng)的工作效率。
2.3 并行架構(gòu)設(shè)計
如果神經(jīng)網(wǎng)絡(luò)采用并行方式進行設(shè)計,可提升整個網(wǎng)絡(luò)的詞匯表達效率,加強圖像識別能力,但由于對設(shè)備訓(xùn)練的方式多種多樣,極易出現(xiàn)梯度擴散現(xiàn)象,導(dǎo)致訓(xùn)練難度進一步加大。為了解決這一問題,目前采用無標簽數(shù)據(jù)對每個設(shè)備單獨進行分層次訓(xùn)練,先對底層網(wǎng)絡(luò)進行訓(xùn)練,把訓(xùn)練結(jié)果作為樣本,再進入下一層的網(wǎng)絡(luò)訓(xùn)練中,整個過程僅需要少部分帶標簽的數(shù)據(jù)進行細調(diào),這樣可以大幅度提升整個神經(jīng)網(wǎng)絡(luò)對人臉識別的準確度及效率。
2.4 數(shù)據(jù)集
基于深度學(xué)習(xí)的輕量級人臉檢測模型一般都要通過大數(shù)據(jù)技術(shù)的積極配合,有些數(shù)據(jù)可通過外界或其他途徑獲取,如可以通過互聯(lián)網(wǎng)、監(jiān)控視頻、個人證件、生活照片等方式獲取,由于這些數(shù)據(jù)格式千差萬別,需要分別進行數(shù)據(jù)轉(zhuǎn)換才能使用,且轉(zhuǎn)換過程必須按同一標準進行。在進行深度學(xué)習(xí)人臉檢測模型研究中,要求對人臉數(shù)據(jù)建立一個數(shù)據(jù)集,并且對這些數(shù)據(jù)進行大數(shù)據(jù)分析,本文主要應(yīng)用兩種數(shù)據(jù)集,一種是CASIA-WebFace,另一種是UMDfaces,為網(wǎng)絡(luò)訓(xùn)練做預(yù)先的準備,這樣可提高人臉檢測的準確性。
2.5 測試結(jié)果
對系統(tǒng)的數(shù)據(jù)集進行有效統(tǒng)計分析,如果采用面部圖像數(shù)據(jù)集進行測試,準確度為0.95,數(shù)據(jù)回收率為0.94,其數(shù)據(jù)精準度為0.935;如果采用面部表情數(shù)據(jù)集進行測試,準確度為0.98,數(shù)據(jù)回收率為0.978,其數(shù)據(jù)精準度為0.971。根據(jù)測試結(jié)果得出,利用面部圖像數(shù)據(jù)集測試精準度為0.935,而利用面部表情數(shù)據(jù)集測試精準度為0.978,并且,如果人臉圖像背景較暗時,精準度也降低,本項目在今后的研究中將進行持續(xù)改進,對特征算法進行改進和優(yōu)化,使該算法適用環(huán)境范圍更加廣泛。
3 人臉檢測預(yù)處理和特征參數(shù)
3.1 人臉檢測預(yù)處理
對于深度學(xué)習(xí)的人臉檢測算法,在算法模型確定的同時,用于訓(xùn)練的數(shù)據(jù)集也要確定下來,根據(jù)算法的要求,必須對人臉數(shù)據(jù)進行預(yù)處理,對特征參數(shù)進行融合分析。通常情況下,人臉圖像都含有大量的冗余數(shù)據(jù)信息,如圖像背景、光線強度等,這些信息對人臉檢測有不良影響,使得檢測的準確度下降,同時檢測的時間也會延長,而人臉信息預(yù)處理會提高整個算法模型的精度?;谏疃葘W(xué)習(xí)的人臉檢測算法可自動學(xué)習(xí)人臉的特征信息,這樣可提升人臉檢測效率,縮短檢測時間,比傳統(tǒng)的人臉檢測算法有一定提升。在目前的人臉檢測算法中,MTCNN算法在人臉預(yù)處理中效率較高,為了使人臉歸一化質(zhì)量提高,可采用仿射變化方式 [3]。之后,根據(jù)CASIA-WebFace和UMDfaces這兩個數(shù)據(jù)集,把這些數(shù)據(jù)特征進行統(tǒng)一的數(shù)據(jù)整理和分析,得出人臉的數(shù)據(jù)特征。
3.2 人臉特征參數(shù)
人臉檢測的第二個步驟是人臉特征提取和融合,在提取人臉圖像的數(shù)據(jù)后,通過算法先對圖像數(shù)據(jù)進行預(yù)處理,同時提取出人臉的特征參數(shù),這樣可作為深度算法輸入的最終圖像。目前,有一種人臉檢測算法是基于卷神經(jīng)網(wǎng)絡(luò)的,該網(wǎng)絡(luò)結(jié)構(gòu)屬于分層結(jié)構(gòu),對各種數(shù)據(jù)模型進行數(shù)據(jù)特征提取,如果在降維上有好的效果,則在特征提取上效果更佳。PCA算法是一種多角度的人臉算法,對具有維數(shù)較高的特征進行降維,以此判定下一步數(shù)據(jù) [4]。在得到人臉模型的基礎(chǔ)特征后進行比較,各個特征和維度千差萬別,這樣會導(dǎo)致特征融合的差異性,由于不同數(shù)據(jù)模型的權(quán)重各不相同,為了解決這一問題,必須先進行降維處理,降維后要重新分析模型的精度是否有變化,進而測試該模型的組合特征。
4 基于深度學(xué)習(xí)的輕量級人臉檢測模型
4.1 系統(tǒng)設(shè)計
針對人臉識別所對應(yīng)的各種外部環(huán)境,把深度學(xué)習(xí)算法融入其中,設(shè)計出基于深度學(xué)習(xí)的輕量級人臉檢測算法模型。本系統(tǒng)具有功能擴展性、穩(wěn)定性、高效性等特點,整個系統(tǒng)的功能設(shè)計內(nèi)容如下。
(1)節(jié)目管理模塊。該模塊功能主要用于節(jié)目的日常管理,如節(jié)目編輯、數(shù)據(jù)保存、輸入輸出管理等,對待檢節(jié)目進行實時監(jiān)測,并保存相關(guān)的監(jiān)測信息,對節(jié)目進行識別并做好標記與分段,有效存儲人臉識別的特征信息。
(2)數(shù)據(jù)功能模塊。在深度學(xué)習(xí)的人臉識別系統(tǒng)中,數(shù)據(jù)處理是本系統(tǒng)的核心功能,主要對視頻中的數(shù)據(jù)進行有效處理,即對與人臉信息無關(guān)的內(nèi)容予以刪除,有效信息予以保存,同時將人臉的輪廓、位移進行細微調(diào)整,把調(diào)整好的數(shù)據(jù)傳輸?shù)缴疃葘W(xué)習(xí)系統(tǒng)中,通過一系列算法,得出人臉的檢測結(jié)果。另外,數(shù)據(jù)處理還可通過反復(fù)迭代的運算形式進一步優(yōu)化系統(tǒng)功能。
(3)工作模塊。該功能主要包括信息管理、系統(tǒng)參數(shù)維護、權(quán)限管理等,日常工作管理的主要內(nèi)容包括日常任務(wù)、信息查詢、數(shù)據(jù)下載、數(shù)據(jù)審核等,在各個日常任務(wù)中數(shù)據(jù)審核是最主要的功能,一般是通過人工方式進行,按照最初的設(shè)想,識別方式為自動識別,對識別結(jié)果進行人工審核。
(4)流程管理模塊。該功能主要是先下載即將進行檢測的視頻,對錄像進行初步的視頻處理,包括視頻的格式、人臉特征信息、環(huán)境信息等,將處理完成后的數(shù)據(jù)保存到檢測系統(tǒng)的數(shù)據(jù)庫中,系統(tǒng)將該特征信息與特征庫的數(shù)據(jù)信息進行匹配,將匹配結(jié)果以人工方式輸出,同樣也經(jīng)過人工復(fù)核,這樣可確保檢測的準確性。
4.2 特征訓(xùn)練
本算法經(jīng)過上述環(huán)節(jié)后,即將進行最后的一個步驟,即特征訓(xùn)練,這是基于深度學(xué)習(xí)的輕量級人臉檢測算法的關(guān)鍵步驟,主要是在建立深度融合的神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上進行組合特征訓(xùn)練。該網(wǎng)絡(luò)結(jié)構(gòu)主要包含輸入層和全連接層,輸入層組合特征主要為FA和FB兩種,F(xiàn)B的維數(shù)是FA的3倍,維度的不同使得后續(xù)的特征參數(shù)也不相同,特征訓(xùn)練、人臉特征參數(shù)、分類層和網(wǎng)絡(luò)神經(jīng)元數(shù)量對應(yīng)3個全連接層,訓(xùn)練和測試方式都在Caffe框架內(nèi)實現(xiàn),訓(xùn)練方法主要包括模型及參數(shù)的設(shè)置和訓(xùn)練方式,測試主要采用梯度下降法 [5]。
4.3 算法測試
為了確?;谏疃葘W(xué)習(xí)的輕量級人臉檢測模型的精準性,用兩個不同人臉的數(shù)據(jù)信息進行檢測,評價指標采用ROC標準,從實驗數(shù)據(jù)來看,本文的算法與其他算法進行各項指標對比,如果訓(xùn)練較小,準確率分別為98.9%和93.42%,可以看出,本文算法的檢測效果較好,基本上達到了預(yù)期目的。另外,通過進一步的測試分析,對人臉進行最全測試集中,效果也是最好的,如果能把這兩個優(yōu)點結(jié)合,在此基礎(chǔ)上進行相應(yīng)改進,則可能效果更好,可提高權(quán)重值。
5 結(jié)語
隨著深度學(xué)習(xí)技術(shù)不斷創(chuàng)新,人臉檢測技術(shù)將往更高的方向發(fā)展,人臉檢測技術(shù)是目前各行業(yè)廣泛運用的安全技術(shù)之一,不同的學(xué)習(xí)模型則存在不同的檢測精度。本文通過人臉檢測預(yù)處理和特征參數(shù)融合兩個過程,得到了基于深度學(xué)習(xí)的輕量級人臉檢測模型,它具有高精確度、檢測時間短、安全可靠的特點。未來,隨著人臉檢測在精確度及動態(tài)識別技術(shù)的高速發(fā)展,該技術(shù)將會逐步成熟和完善。
參 考 文 獻
[1]崔慶華.基于深度學(xué)習(xí)的人臉識別技術(shù)分析[J].計算機產(chǎn)品與流通,2019,12(16):63-66.
[2]楊涵.基于深度學(xué)習(xí)的人臉識別算法研究[J].電子設(shè)計工程,2019,27(19):155-159.
[3]張卓群,曹鐘淼,王慧,等.深度學(xué)習(xí)與人臉識別算法研究[J].軟件,2019,9(12):138-141.
[4]司琴,李菲菲,陳虬.基于深度學(xué)習(xí)與特征融合的人臉識別算法[J].電子科技,2019,5(8):78-81.
[5]黃發(fā)揚.淺談基于神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)算法的人臉識別技術(shù)[J].智能建筑,2019,10(28):104-106.