谷鳳偉,陸軍,夏桂華
(1.哈爾濱工程大學(xué) 智能科學(xué)與工程學(xué)院 黑龍江 哈爾濱 150001; 2.哈爾濱工程大學(xué) 船海裝備智能化技術(shù)與應(yīng)用教育部重點(diǎn)實(shí)驗(yàn)室 黑龍江 哈爾濱 150001)
人臉識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一個(gè)頗具綜合性的研究方向,涉及圖像處理、模式識(shí)別和計(jì)算機(jī)圖形學(xué)等多種技術(shù)。人臉識(shí)別與虹膜識(shí)別、指紋識(shí)別等技術(shù)相比,具有數(shù)據(jù)采集方便快捷、成本低、無(wú)接觸等優(yōu)點(diǎn),容易使用戶(hù)接受[1],廣泛應(yīng)用于身份校驗(yàn)、金融安全和智能監(jiān)控[2]等領(lǐng)域,獲得了良好的應(yīng)用效益。但是,在非限制場(chǎng)景下人臉識(shí)別技術(shù)仍然面臨著背景復(fù)雜、光照、遮擋、人臉姿態(tài)多變等諸多干擾因素[3],因此設(shè)計(jì)出一種魯棒性和泛化能力良好的人臉識(shí)別算法實(shí)現(xiàn)對(duì)人臉的準(zhǔn)確識(shí)別仍然是一個(gè)嚴(yán)峻的挑戰(zhàn)。
傳統(tǒng)的人臉識(shí)別算法主要以人工特征和機(jī)器學(xué)習(xí)算法為基礎(chǔ),如基于稀疏表示的方法、基于子空間的方法等。主要技術(shù)有方向梯度直方圖法[4](histogram of oriented gradient, HOG)、主成分分析法[5](principal component analysis, PCA)、支持向量機(jī)[6](support vector machine, SVM)和線(xiàn)性判別分析法[7](linear discriminative analysis, LDA)等。其中,HOG通過(guò)計(jì)算和統(tǒng)計(jì)目標(biāo)圖像局部區(qū)域的梯度方向直方圖[8]來(lái)獲得特征,可與SVM分類(lèi)器一同應(yīng)用在人臉圖像識(shí)別任務(wù),獲得了不錯(cuò)的效果。但是由于梯度計(jì)算的原因,算法容易受到噪聲的干擾。PCA利用坐標(biāo)系變換去除人臉圖像的冗余信息,可以大幅度降低人臉圖像的維度[9],從而提取主要的人臉特征用于人臉識(shí)別。該法應(yīng)用簡(jiǎn)單高效,但是要想取得優(yōu)良的識(shí)別效果,需要訓(xùn)練集和測(cè)試集高度相關(guān)。SVM是一種淺層的機(jī)器學(xué)習(xí)模型,對(duì)人臉數(shù)據(jù)雖然具有一定的學(xué)習(xí)能力[10],但是無(wú)法提取人臉深層次的特征信息。LDA是一種線(xiàn)性分類(lèi)[11]的特征提取方法。在人臉識(shí)別過(guò)程中,該方法可利用較大的類(lèi)間距離區(qū)分不同的人臉,較小的類(lèi)內(nèi)距離將同類(lèi)別人臉歸為一類(lèi),但是對(duì)于非線(xiàn)性因素,該法效果不佳。
雖然傳統(tǒng)的人臉識(shí)別方法在一定程度上取得了不錯(cuò)的識(shí)別效果,但是仍然無(wú)法得到人臉圖像的深度特征。隨著計(jì)算機(jī)硬件條件的不斷提升,深度學(xué)習(xí)技術(shù)[12]被逐漸應(yīng)用到目標(biāo)檢測(cè)、自然語(yǔ)言處理和圖像生成等領(lǐng)域,因而人臉識(shí)別技術(shù)也得到了飛速的發(fā)展?;谏疃葘W(xué)習(xí)的人臉識(shí)別方法能夠獲得人臉圖像的深度特征,深度模型表現(xiàn)優(yōu)良,已成為主流方法。DeepFace模型[13]首次在人臉識(shí)別中利用深度學(xué)習(xí)技術(shù),該模型涉及了2D和3D人臉對(duì)齊操作,在非限制條件下利用卷積神經(jīng)網(wǎng)絡(luò)獲得的準(zhǔn)確度和人工接近。DeepID[14]通過(guò)將人臉圖像分割成圖像塊的方式訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),能夠更好地獲得人臉圖像的深度特征,該方法在非限制場(chǎng)景下具有優(yōu)秀的性能表現(xiàn)。VGGNet模型經(jīng)過(guò)VGGFace人臉數(shù)據(jù)集[15]的訓(xùn)練也達(dá)到了一個(gè)不錯(cuò)的準(zhǔn)確度。Wang等[16]提出了一種新的損失函數(shù),解決了傳統(tǒng)的深度卷積神經(jīng)網(wǎng)絡(luò)中softmax損失缺少辨別能力的問(wèn)題。Scherhag等[17]通過(guò)利用人臉數(shù)據(jù)庫(kù)的子集創(chuàng)建來(lái)測(cè)試和評(píng)估真實(shí)數(shù)據(jù),提高了算法的檢測(cè)性能。Prasad等[18]利用卷積神經(jīng)網(wǎng)絡(luò)改善了模型的魯棒性。上述基于深度特征的人臉識(shí)別方法在特定條件下取得了良好準(zhǔn)確度,但是在非限制場(chǎng)景下存在光照、遮擋等一系列的干擾因素,人臉識(shí)別的難度加大。為了保證人臉識(shí)別的準(zhǔn)確度,提高系統(tǒng)的魯棒性和泛化能力,本文提出了一種基于facenet皮爾森判別網(wǎng)絡(luò)的人臉識(shí)別方法facenetPDN。該方法首先建立了facenetPDN深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在facenet網(wǎng)絡(luò)前端通過(guò)多任務(wù)級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(multi-task cascaded convolutional neural network,MTCNN)[19]完成人臉檢測(cè),獲得目標(biāo)人臉圖像,然后確定facenet[20]中的深度卷積神經(jīng)網(wǎng)絡(luò)Inception-ResNet-v2[21],利用該結(jié)構(gòu)得到目標(biāo)人臉的深度特征信息,經(jīng)皮爾森相關(guān)系數(shù)判別模塊(the discriminant module of pearson correlation coefficient,PDM)[22]判定人臉深度信息的相關(guān)性,并給出量化指標(biāo),從而實(shí)現(xiàn)人臉識(shí)別。為驗(yàn)證本文方法有效性,使用CASIA-WebFace和CASIA-FaceV5[23]訓(xùn)練算法模型,并在LFW和celeA[24]人臉數(shù)據(jù)集測(cè)試和評(píng)估模型性能,將facenetPDN與facenet以及幾種常見(jiàn)的人臉識(shí)別方法進(jìn)行對(duì)比分析。
人臉識(shí)別算法是人臉識(shí)別系統(tǒng)的核心所在,本文將利用所提出的人臉識(shí)別算法構(gòu)建一套人臉識(shí)別系統(tǒng),以滿(mǎn)足在非限制場(chǎng)景下的應(yīng)用需求。人臉識(shí)別算法facenetPDM的網(wǎng)絡(luò)框架如圖1所示,人臉識(shí)別系統(tǒng)的圖像處理流程如圖2所示。人臉識(shí)別的的整體流程是:首先,在非限制場(chǎng)景下的任意人臉圖像對(duì)進(jìn)入人臉識(shí)別系統(tǒng),經(jīng)過(guò)MTCNN提取目標(biāo)人臉區(qū)域圖像塊;然后,利用facenetPDN提取對(duì)應(yīng)圖像塊中的人臉深度特征向量,并經(jīng)PDN模塊判定特征向量的相關(guān)程度;最后,人臉識(shí)別系統(tǒng)給出皮爾森相關(guān)系數(shù)和判定結(jié)果。若該流程中的一張人臉圖像來(lái)自于人臉數(shù)據(jù)庫(kù),這就完成了人臉身份的查找和確認(rèn)。
圖1 facenetPDM 的網(wǎng)絡(luò)框架Fig.1 Network framework of facenetPDM
圖2 人臉識(shí)別系統(tǒng)的圖像處理流程Fig.2 Image processing flow of face recognition system
本文以facenet網(wǎng)絡(luò)為人臉識(shí)別方法的基礎(chǔ)框架,在facenet網(wǎng)絡(luò)中插入MTCNN網(wǎng)絡(luò),將facenet中原有的歐氏距離模塊(euclidean distance module,EDM)去除,在相應(yīng)的位置處插入皮爾森相關(guān)系數(shù)判別模塊PDM,得到facenetPDM人臉識(shí)別算法。在圖1所示的facenetPDM的網(wǎng)絡(luò)框架中,A是人臉圖像,B是多任務(wù)級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò),C是人臉數(shù)據(jù),D是深度卷積神經(jīng)網(wǎng)絡(luò),E是度量模塊(EDM或PDM),F(xiàn)是歸一化過(guò)程,G是損失函數(shù)。當(dāng)度量模塊為EDM時(shí),facenetPDM退化為facenet網(wǎng)絡(luò)結(jié)構(gòu),facenet利用EDM得到的特征距離,距離越大表明人臉圖像來(lái)自于同一人的可能性越小,但是facenetPDM經(jīng)PDM得到的相似度值越大,表明人臉圖像來(lái)自于同一人的可能性就越大,兩者識(shí)別結(jié)果呈負(fù)相關(guān)趨勢(shì)。
facenetPDM把MTCNN的人臉檢測(cè)輸出作為網(wǎng)絡(luò)輸入,利用深度卷積神經(jīng)網(wǎng)絡(luò)將人臉圖像映射到高維特征空間,提取人臉深度特征向量信息,經(jīng)L2歸一化后得到128維特征向量,再利用center損失和softmax損失優(yōu)化網(wǎng)絡(luò)模型,訓(xùn)練后的模型通過(guò)PDM進(jìn)行人臉深度特征向量的皮爾森相關(guān)系數(shù)判定,這就完成了人臉識(shí)別任務(wù)。
在非限制場(chǎng)景下,人臉特征的提取過(guò)程存在光照、遮擋等多種環(huán)境因素的干擾,這就要求深度卷積神經(jīng)網(wǎng)絡(luò)具有足夠的特征提取能力。在facenetPDM的網(wǎng)絡(luò)框架中,深度卷積神經(jīng)網(wǎng)絡(luò)是其核心結(jié)構(gòu),主要作用是將人臉圖像映射到高維特征空間,得到人臉圖像的深度特征,利用該高維度的深度特征實(shí)現(xiàn)人臉識(shí)別任務(wù)。因而,本文采用Inception-ResNet-v2深度卷積神經(jīng)網(wǎng)絡(luò)作為facenetPDM的主干網(wǎng)絡(luò)。Inception-ResNet-v2的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。主要包括stem模塊、Inception-ResNet-M(i)模塊(模塊類(lèi)型M=A、B、C,對(duì)應(yīng)的模塊個(gè)數(shù)i=5、10、5)、Reduction-N模塊(模塊類(lèi)型N=A、B)等。其中,stem部分為Inception-ResNet-v2網(wǎng)絡(luò)的數(shù)據(jù)輸入結(jié)構(gòu),用于對(duì)輸入數(shù)據(jù)的初步處理,其輸入和輸出數(shù)據(jù)的形狀分別為 299×299×3 和 35×35×384,顯然其輸出特征已經(jīng)達(dá)到了一定的深度。Inception-ResNet-X(X=A、B、C)模塊在增加了網(wǎng)絡(luò)深度的同時(shí)保證了網(wǎng)絡(luò)寬度,可以提取人臉的深度特征,并且更有利于加快網(wǎng)絡(luò)的收斂速度。Reduction-Y(Y=A、B)模塊的主要作用是補(bǔ)償目標(biāo)人臉深度特征的維度,可以利用濾波器提高特征的維度。實(shí)際上,Inception-ResNet-v2將inception網(wǎng)絡(luò)和殘差思想結(jié)合,在提高網(wǎng)絡(luò)深度后可以有效提取人臉深度特征,并且保證了深度網(wǎng)絡(luò)模型訓(xùn)練的可行性。
圖3 Inception-ResNet-v2 的網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of Inception-ResNet-v2
損失函數(shù)是算法模型訓(xùn)練的關(guān)鍵因素,能夠反映出模型輸出值和真實(shí)值之間的誤差距離。在本文facenetPDM網(wǎng)絡(luò)模型的訓(xùn)練過(guò)程中,采用softmax損失[25]和center損失[26]相結(jié)合的方式來(lái)優(yōu)化網(wǎng)絡(luò)模型。其中,softmax損失強(qiáng)調(diào)類(lèi)別之間的可分性,但是對(duì)類(lèi)別之內(nèi)的分布效果不佳;center損失可以將類(lèi)內(nèi)的差異最小化,在功能上可以和softmax損失互相補(bǔ)充。因此,采用組合損失函數(shù)的方式既可以解決單一損失訓(xùn)練模型準(zhǔn)確率不佳的問(wèn)題,又可以改善整體模型的訓(xùn)練效果。facenetPDM的損失函數(shù)為
式中: λ 為比例因子;Lcenter為center損失;Lsoftmax為softmax損失。
center損失和softmax損失分別為
式中:N為訓(xùn)練數(shù)據(jù)中的人臉樣本數(shù);xi為訓(xùn)練數(shù)據(jù)中的第i個(gè)人臉樣本;g(xi)為xi人臉樣本對(duì)應(yīng)的人臉特征;ji為對(duì)應(yīng)的人臉樣本類(lèi)別;cji為人臉類(lèi)別對(duì)應(yīng)的特征中心;n為人臉樣本的類(lèi)別數(shù);wji為第i個(gè)人臉類(lèi)別樣本的權(quán)重;bji為人臉類(lèi)別樣本的權(quán)重對(duì)應(yīng)的偏置值;wk為第k個(gè)人臉類(lèi)別權(quán)重;bk為第k個(gè)人臉類(lèi)別權(quán)重對(duì)應(yīng)的偏置值。
人臉圖像數(shù)據(jù)在經(jīng)過(guò)facenetPDM時(shí)會(huì)得到對(duì)應(yīng)的人臉深度特征向量,此時(shí)需要根據(jù)特征向量給出判定結(jié)果。本文采用皮爾森相關(guān)系數(shù)判別模塊PDM完成人臉深度特征向量的識(shí)別,需要先將facenet中的EDM模塊替換為PDM模塊,從而給出向量間的相關(guān)系數(shù)值以及最終的判定結(jié)果?,F(xiàn)假設(shè)存在兩個(gè)n維的人臉深度特征向量X、Y, 其 中X=[X1X2···Xm]T,Y=[Y1Y2···Ym]T,則X、Y的皮爾森相關(guān)系數(shù)如式(4)所示:
式中:Xi、Yi分別為人臉深度特征向量X、Y的元素;分別為人臉深度特征向量X、Y的所有元素的均值。
皮爾森相關(guān)系數(shù) ρXY的取值范圍為[?1,1]。當(dāng)ρXY值在[?1,0)之間時(shí),表示X、Y之間是負(fù)相關(guān)的,可認(rèn)為人臉特征不是來(lái)自同一人;當(dāng)ρXY=0時(shí),表示X、Y之間沒(méi)有線(xiàn)性相關(guān)關(guān)系,也可認(rèn)為人臉特征不是來(lái)自同一人;當(dāng) ρXY值在(0,1]之間時(shí),表示X、Y之間是正相關(guān)的,且越接近于1人臉特征來(lái)自于同一人的可能性越大。當(dāng)然,可根據(jù)需求將 ρXY的取值范圍映射到[0,1]的范圍內(nèi),若G為映射關(guān)系,則此時(shí)的人臉深度特征向量的皮爾森相關(guān)系數(shù)如式(5)所示:
式中: S IMρ為映射結(jié)果;取值范圍 S IMρ∈[0,1]。
EDM模塊計(jì)算人臉深度特征向量間歐氏距離的過(guò)程中,對(duì)特征向量的每一個(gè)維度賦予了相同的權(quán)重大小,一旦出現(xiàn)不同維度間的取值范圍差別很大的情況,就會(huì)很容易導(dǎo)致判定結(jié)果被某些維度決定,處理的人臉深度特征向量都是高維向量,很容易發(fā)生這種情況。PDM模塊可以避免這種情況的發(fā)生,這要得益于皮爾森相關(guān)系數(shù)獲的取過(guò)程中存在數(shù)據(jù)中心化的操作。數(shù)據(jù)中心化的主要過(guò)程是對(duì)每個(gè)人臉深度特征向量的每個(gè)維度的元素值都減去向量所含元素的均值,雖然這需要提前計(jì)算均值,但是均值計(jì)算很容易實(shí)現(xiàn)。
本文實(shí)驗(yàn)采用tensorflow2.0框架搭建的網(wǎng)絡(luò)結(jié)構(gòu),在具有Nvidia GPU的Windows10系統(tǒng)中完成網(wǎng)絡(luò)模型的訓(xùn)練與測(cè)試評(píng)估,GPU的具體參數(shù)為RTX 2080Ti 11GB。在模型訓(xùn)練時(shí),學(xué)習(xí)率初始值可以設(shè)定為0.05,并且隨著訓(xùn)練輪數(shù)的增加學(xué)習(xí)率可根據(jù)實(shí)際情況動(dòng)態(tài)調(diào)整,應(yīng)用Adam優(yōu)化器不斷更新和優(yōu)化網(wǎng)絡(luò)模型參數(shù)以減小損失值。采用CASIA-WebFace和CASIA-FaceV5人臉數(shù)據(jù)集融合的方式一起訓(xùn)練模型,在CASIA-WebFace中融入CASIA-FaceV5可在一定程度上達(dá)到提高模型的魯棒性和泛化能力的目的。在模型測(cè)試評(píng)估階段,采用LFW和celeA人臉數(shù)據(jù)集。為驗(yàn)證方法的有效性,分別在LFW和celeA中選出一系列的人臉圖像組成圖像對(duì),并且對(duì)應(yīng)分組,利用本文提出的facenetPDM以及facenet方法分別對(duì)每組圖像進(jìn)行測(cè)試評(píng)估,并以L(fǎng)FW為基礎(chǔ)繪制ROC曲線(xiàn)[27]來(lái)對(duì)比分析幾種常見(jiàn)人臉識(shí)別方法的性能。
為了驗(yàn)證本文提出的人臉識(shí)別方法的有效性,在實(shí)驗(yàn)中從LFW和celeA人臉數(shù)據(jù)集中各挑選出10對(duì)處于非限制場(chǎng)景下的人臉圖像進(jìn)行測(cè)試分析,對(duì)應(yīng)的人臉圖像為A和B兩組,并把每個(gè)組別中的圖像對(duì)依次編號(hào)為N01~N10,同時(shí)以標(biāo)簽的形式給出人臉識(shí)別的度量值和判定結(jié)果,A和B兩組人臉識(shí)別的結(jié)果分別如圖4、5所示。如圖4中的第一對(duì)圖像對(duì)在第一張人臉圖像的左上角給出圖像對(duì)編號(hào)N01,在兩張人臉圖像之間位置處標(biāo)出對(duì)應(yīng)方法下的度量值標(biāo)簽,此處為0.828 5,“Y”表示人臉識(shí)別的判定結(jié)果“正確”,若標(biāo)注“N”時(shí)則表示判定結(jié)果為“錯(cuò)誤”。
圖4 A 組人臉識(shí)別對(duì)比Fig.4 Comparison of face recognition in group A
從圖4、5中A、B兩組人臉整體的識(shí)別結(jié)果上看,所選圖像對(duì)在facenetPDM方法下的人臉識(shí)別結(jié)果均正確,在facenet方法下N09、N10識(shí)別錯(cuò)誤,facenetPDM方法的識(shí)別準(zhǔn)確度較高。如圖4所示,A組人臉圖像是同一人在不同非限制場(chǎng)景下的選取結(jié)果,主要存在人臉姿態(tài)變化、光照、遮擋、表情夸張和背景變化劇烈等問(wèn)題,且某些圖像對(duì)受多種因素干擾。圖像對(duì)N01、N09、N10主要存在遮擋的問(wèn)題,圖像中人臉被眼鏡、話(huà)筒和手臂部分遮擋,很可能發(fā)生人臉特征提取不完整的情況,但在實(shí)驗(yàn)中利用facenetPDM方法時(shí)識(shí)別結(jié)果均正確,而利用facenet方法時(shí)N09、N10識(shí)別結(jié)果錯(cuò)誤。N03、N06、N07中人臉姿態(tài)變化較大,同時(shí)N03、N06較N07表情變化略大,兩種方法下的人臉識(shí)別結(jié)果均正確。N04、N05背景變化較為劇烈,且存在輕微的人臉姿態(tài)變化。N01、N02、N03、N08、N10主要存在光照影響,致使人臉圖像膚色發(fā)生嚴(yán)重改變,其中N01、N03膚色變化相對(duì)較輕,其余3個(gè)圖像對(duì)膚色變化嚴(yán)重,這在很大程度上會(huì)干擾人臉特征向量信息,導(dǎo)致識(shí)別失敗,雖然N02、N08、N10在利用facenetPDM方法下均取得了正確的識(shí)別結(jié)果,但是N10的度量值較低,僅為0.748 8,可能是眼鏡遮擋以及表情變化等因素引起的這種現(xiàn)象。然而,利用facenet方法時(shí)對(duì)N10識(shí)別錯(cuò)誤。上述實(shí)驗(yàn)結(jié)果分析表明facenetPDM具有較好的魯棒性和泛化能力。
B組人臉圖像是不同人在不同非限制場(chǎng)景下的選取結(jié)果,人臉識(shí)別對(duì)比結(jié)果如圖5所示。B組人臉圖像主要存在光照、遮擋、圖像模糊等問(wèn)題,而且部分圖像對(duì)受到多種干擾因素的嚴(yán)重影響,例如N05背景反差、人臉姿態(tài)變化,以及背景與膚色的區(qū)分。但是B組人臉圖像在facenetPDM、facenet方法下的識(shí)別結(jié)果均正確,這說(shuō)明一般情況下不同人的人臉特征間的差異較大,但是這仍然需要人臉識(shí)別方法要足夠的穩(wěn)健。N01、N04、N07、N09存在胡須遮擋干擾;N02、N03、N05存在人臉姿態(tài)和膚色對(duì)比;N06和N08存在人臉姿態(tài)變化、圖像模糊、光線(xiàn)干擾;N04、N07、N08、N09、N10存在帽子、眼鏡、手掌的遮擋。這些干擾因素會(huì)對(duì)人臉特征的提取產(chǎn)生一定的不良影響,在這種條件下獲得的人臉特征與人臉原有特征相比會(huì)有較大偏差。但從實(shí)驗(yàn)結(jié)果來(lái)看,這種偏差對(duì)人臉識(shí)別的影響多數(shù)是在可控范圍內(nèi)的,并且facenetPDM、facenet方法表現(xiàn)良好且人臉識(shí)別結(jié)果均正確,沒(méi)有嚴(yán)重地影響到人臉識(shí)別最終的判定結(jié)果,可見(jiàn)該方法較為穩(wěn)健。
圖5 B 組人臉識(shí)別對(duì)比Fig.5 Comparison of face recognition in group B
A、B兩組人臉圖像中含有多類(lèi)別人種的人臉,如A組人臉圖像中的N03和B組人臉圖像中的N02、N05等為黑色人種的人臉識(shí)別,如A組人臉圖像中的N05、N06、N07和B組人臉圖像中的N04、N07等為白色人種的人臉識(shí)別。從圖4、5人臉識(shí)別的結(jié)果可知,本文的facenetPDM可有效獲得多人種對(duì)應(yīng)的人臉深度信息完成人臉識(shí)別,且獲得了優(yōu)良的識(shí)別效果。
A、B兩組圖像對(duì)的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行量化統(tǒng)計(jì),結(jié)果如表1所示,其中的Th1、Th2代表對(duì)應(yīng)方法下的閾值。從統(tǒng)計(jì)結(jié)果可以看出,facenet的整體準(zhǔn)確度為90%,facenetPDM的整體準(zhǔn)確度為100%,facenetPDM和facenet方法均取得了良好的人臉識(shí)別效果,但facenetPDM方法的準(zhǔn)確度整體上要優(yōu)于facenet方法。在本實(shí)驗(yàn)中,N01--N08圖像對(duì)在兩種方法下的度量值與對(duì)應(yīng)閾值的偏差較大,這正是所希望的結(jié)果,一旦出現(xiàn)噪聲等干擾因素也不會(huì)對(duì)識(shí)別的結(jié)果產(chǎn)生太大的影響,即可以保證識(shí)別準(zhǔn)確度,當(dāng)然干擾是在一定范圍內(nèi)的。但是對(duì)于A組N09、N10圖像對(duì)具有多種干擾因素,導(dǎo)致facenet的識(shí)別結(jié)果錯(cuò)誤,而facenet-PDM的識(shí)別結(jié)果正確,這也表明了facenetPDM方法具有良好的魯棒性和泛化能力。
表1 A、B兩組圖像對(duì)的實(shí)驗(yàn)數(shù)據(jù)量化統(tǒng)計(jì)表Table 1 Quantitative statistics of experimental data in the two image pairs A and B
接下來(lái),本文在LFW人臉數(shù)據(jù)集上對(duì)人臉識(shí)別方法facenetPDM和facenet進(jìn)行整體測(cè)試和評(píng)估。采用CASIA-WebFace和CASIA-FaceV5人臉數(shù)據(jù)集一起訓(xùn)練本文方法的算法模型,CASIAFaceV5中具有不同的人臉姿態(tài)、光照等條件下的人臉圖像,可以進(jìn)一步豐富訓(xùn)練集人臉信息,在一定程度上也可以改善網(wǎng)絡(luò)模型的魯棒性和泛化能力。現(xiàn)在將CASIA-WebFace人臉數(shù)據(jù)集定義為 FD1,將CASIA-WebFace和CASIA-FaceV5的融合數(shù)據(jù)集定義為FD2,訓(xùn)練后的網(wǎng)絡(luò)模型在LFW上的測(cè)試準(zhǔn)確度如表2所示。從整體測(cè)試結(jié)果來(lái)看,facenetPDM的識(shí)別準(zhǔn)確度要高于facenet;從細(xì)節(jié)上看,facenetPDM的識(shí)別準(zhǔn)確度整體上較facenet提高了1.34%,facenetPDM的識(shí)別準(zhǔn)確度在FD1和FD2上較facenet分別提高了0.56%和0.22%,facenetPDM在FD2上的識(shí)別準(zhǔn)確度較FD1提高了0.78%,facenet在FD2上的識(shí)別準(zhǔn)確度較FD1提高了1.12%。因此,分析可知適當(dāng)?shù)卦黾訑?shù)據(jù)集可以在一定程度上提高模型準(zhǔn)確度,并且在數(shù)據(jù)集不變的條件下適當(dāng)?shù)馗淖兡P徒Y(jié)構(gòu)也可以提高模型的準(zhǔn)確度,本文的facenetPDM方法在識(shí)別準(zhǔn)確度上取得了不錯(cuò)的效果。
表2 模型的測(cè)試準(zhǔn)確度Table 2 Test accuracy of model
為了評(píng)估本文模型的整體性能水平,本文以L(fǎng)FW為基礎(chǔ)繪制了幾種常見(jiàn)人臉識(shí)別方法(DeepFace[28]、TL Joint Bayesian[29]、High-dim LBP[30]、Deep FR[31]、WebFace[32])的ROC曲線(xiàn)進(jìn)行對(duì)比分析。如圖6所示給出了各個(gè)人臉識(shí)別方法的ROC曲線(xiàn),可知ROC曲線(xiàn)的縱軸表示真陽(yáng)性率,橫軸表示假陽(yáng)性率。事實(shí)上,真陽(yáng)性率的值越大越好,而假陽(yáng)性率的值越小越好,但是在真陽(yáng)性率的值增大的同時(shí)假陽(yáng)性率的值也在隨著不斷地增大,因此需要找到一個(gè)平衡點(diǎn)作為模型性能的判定依據(jù)。由圖6中各個(gè)方法ROC曲線(xiàn)的變化趨勢(shì)分析可知,ROC曲線(xiàn)與直線(xiàn)y=?x+1的交點(diǎn)可以使真陽(yáng)性率和假陽(yáng)性率的值達(dá)到一個(gè)平衡狀態(tài),在此情形下如果交點(diǎn)越接近于點(diǎn)(0,1)就代表真陽(yáng)性率的值越大,假陽(yáng)性率的值越小,這也就表示ROC曲線(xiàn)下的面積越大,ROC曲線(xiàn)對(duì)應(yīng)的模型的性能越好,這正是所期望達(dá)到的效果。如圖6可知,facenetPDM方法對(duì)應(yīng)的ROC曲線(xiàn)下的面積AUCfacenetPDM=0.908 1,facenet方法對(duì)應(yīng)的ROC曲線(xiàn)下的面積AUCfacenet=0.903 7,顯然AUCfacenetPDM的值更大一些,因此改進(jìn)后的facenetPDM比f(wàn)acenet的模型性能更好。再將本文方法對(duì)應(yīng)的ROC曲線(xiàn)與其他方法對(duì)比可知,facenetPDM方法模型的ROC曲線(xiàn)最靠近點(diǎn)(0,1),且曲線(xiàn)下的面積AUC值最大為0.908 1,因而本文的facenetPDM方法可以有效提高模型性能。
圖6 ROC 曲線(xiàn)對(duì)比Fig.6 Comparison of ROC curves
針對(duì)非限制場(chǎng)景下人臉圖像存在光照、遮擋等干擾,本文提出了一種基于facenet皮爾森判別網(wǎng)絡(luò)的人臉識(shí)別方法facenetPDN,目的在于提高人臉識(shí)別模型的準(zhǔn)確度和性能。facenetPDN方法利用皮爾森相關(guān)系數(shù)判別模塊替換facenet中的歐氏距離判別模塊完成人臉深度特征判別,利用CASIA-WebFace和CASIA-FaceV5人臉數(shù)據(jù)集結(jié)合的方式一起訓(xùn)練網(wǎng)絡(luò)模型,并在LFW和celeA人臉數(shù)據(jù)集上進(jìn)行測(cè)試與評(píng)估。實(shí)驗(yàn)結(jié)果表明,在非限制場(chǎng)景下facenetPDN方法可以很好地提高目標(biāo)人臉識(shí)別的準(zhǔn)確度,實(shí)現(xiàn)多人種的人臉識(shí)別任務(wù),并具備良好的魯棒性和泛化能力,可將其應(yīng)用于線(xiàn)下的人臉識(shí)別系統(tǒng),避免線(xiàn)上系統(tǒng)的網(wǎng)絡(luò)限制,實(shí)用性更佳。
本文未來(lái)的研究?jī)?nèi)容可從以下幾個(gè)方面進(jìn)行:1)豐富數(shù)據(jù)集的多樣性,使數(shù)據(jù)更加全面;2)研究模型結(jié)構(gòu),進(jìn)一步提高目標(biāo)特征提取的能力;3)在保證模型性能和準(zhǔn)確度的前提下,進(jìn)行模型優(yōu)化。