陳雪婷 浙江經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院 圖書信息中心
隨著智慧城市概念的提出,智慧校園作為數(shù)字化校園的高級形態(tài)已逐漸成為高校信息化建設(shè)的熱點。近年來,隨著視頻監(jiān)控與互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展與普及,將其應(yīng)用在高校信息化建設(shè)當(dāng)中已成為普遍現(xiàn)象。相比以往人工找出人臉位置以完成人臉檢測,智能化的人臉檢測技術(shù)不僅能極大的減少時間和精力的消耗,對于校園內(nèi)敏感區(qū)域(如校長室、財務(wù)室、機(jī)房等)出現(xiàn)的異常情況也能及時報警。雖然人臉檢測已經(jīng)經(jīng)過幾十年的研究,但目前較成熟的人臉檢測技術(shù)在處理多種非理想條件下的檢測問題時仍存在挑戰(zhàn)。本文將深度學(xué)習(xí)理論引入視頻人臉檢測,通過建立類似于人腦分層次學(xué)習(xí)的機(jī)制,對輸入數(shù)據(jù)逐級提取從底層到高層的特征。同時,通過深度學(xué)習(xí)逐層構(gòu)建的多層網(wǎng)絡(luò)使其能學(xué)習(xí)隱藏在數(shù)據(jù)內(nèi)部的關(guān)系,從而使學(xué)習(xí)到的特征更具推廣性和表達(dá)力。為了避免數(shù)據(jù)維度轉(zhuǎn)換對檢測結(jié)果的影響,本文采用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)對視頻圖像進(jìn)行全局掃描,利用多層次的卷積和采樣保留下圖像中的人臉區(qū)域,最后將這些區(qū)域在視頻圖像中框出以完成人臉檢測。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一種共享權(quán)值的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),其結(jié)構(gòu)如圖1所示。
圖1 卷積神經(jīng)網(wǎng)絡(luò)
它由多個相鄰的卷積層Ci和采樣層Si組成(圖1中僅畫了兩層),每一層都是由多個二維平面組成。其中,卷積層是由多個不同的卷積核與前一層每一個二維平面卷積得到。卷積過程如下:
卷積核每次只作用于輸入平面的局部區(qū)域,稱該小區(qū)域為局部感受區(qū)域,該感受區(qū)域經(jīng)過卷積映射操作后產(chǎn)生的值賦給卷積層中對應(yīng)二維平面上對應(yīng)位置的神經(jīng)元,因此該神經(jīng)元的值保留了該感受區(qū)域的某一特征屬性,而該神經(jīng)元的位置保留了感受區(qū)域的位置信息。不同的卷積核用于提取不同的特征信息,同一卷積核在二維平面中滑動以判斷不同位置上是否具有該卷積核所表示的特征。
采樣層是對卷積層中每一個二維平面上的每一個m×m小區(qū)域進(jìn)行采樣,即
CNN這種局部權(quán)值共享的特殊性不僅降低了神經(jīng)網(wǎng)絡(luò)的復(fù)雜度,同時使其對尺度縮放、平行移動、旋轉(zhuǎn)等各種形式變化具有較高的不變性,而不同卷積核之間相互無影響使得CNN得以并行訓(xùn)練。另外,卷積層和采樣層相鄰的設(shè)計模式也更接近于真實的生物神經(jīng)結(jié)構(gòu),將其應(yīng)用于多維圖像處理中可以避免在特征提取和分類過程中由于數(shù)據(jù)重建而引起的復(fù)雜度。
本文利用caffe構(gòu)建具有5層卷積層、5層采樣層的卷積神經(jīng)網(wǎng)絡(luò),其中卷積層的映射函數(shù)采用ReLU函數(shù),采樣層的采樣函數(shù)為3×3區(qū)域內(nèi)各像素值的最大值,最后的分類函數(shù)采用sigmoid函數(shù)。
本文通過LFW人臉庫和CAS-PEAL人臉庫來完成卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。分別從LFW人臉庫中選取6000張的人臉圖,從CASPEAL人臉庫中選取5000張人臉圖,歸一化到33×33大小,構(gòu)成訓(xùn)練的人臉樣本集。同時,構(gòu)造10000張不含人臉的樣本集,同樣將大小歸一化為33×33,構(gòu)成訓(xùn)練的非人臉樣本集。
通過隨機(jī)地從LFW人臉庫中選取除訓(xùn)練樣本外的6000張人臉圖測試本文方法對單人臉的檢測性能。檢測結(jié)果表明,本文方法能實現(xiàn)98.7%的正確檢測率。利用PKU-SVD-B數(shù)據(jù)集進(jìn)行多人臉檢測,實驗結(jié)果表明本文方法對于多人臉圖,其誤檢率低于3.5%,漏檢率低于11.5%,具有較好的檢測效果。
針對智慧校園監(jiān)控系統(tǒng)所獲得的多人臉多角度的檢測特性,本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的視頻人臉檢測算法。該算法利用深度學(xué)習(xí)對人腦視覺神經(jīng)系統(tǒng)的模擬逐級提取從底層特征到高層語義,根據(jù)最后的語義特征準(zhǔn)確地實現(xiàn)非理想條件下的視頻人臉檢測。卷積神經(jīng)網(wǎng)絡(luò)相比于其他深度學(xué)習(xí)網(wǎng)絡(luò),具有權(quán)值共享特性,能避免數(shù)據(jù)維度的變化從而較好的實現(xiàn)對二維圖像的特征提取。仿真實驗表明,該算法不僅對單人臉圖像具有很好的檢測性能,同時對多人臉圖像也能實現(xiàn)較低的漏檢率和誤檢率。