吳曉桐 周小琳
摘 要 傳統(tǒng)的人臉識別方法容易受到人臉角度變化的影響,針對這個問題,提出了一種基于深度學(xué)習(xí)的多角度人臉識別方法。在生成對抗網(wǎng)絡(luò)作為基本結(jié)構(gòu)的基礎(chǔ)上,分別對生成器和判別器加以改進,通過提取得到一個與角度無關(guān)的身份信息特征,進而實現(xiàn)多角度的人臉識別。
關(guān)鍵詞 多角度:人臉識別;生成對抗網(wǎng)絡(luò)
總結(jié)近年來在多角度人臉識別方面的相關(guān)工作,方法大致可以分為兩類,一類是采用人臉正面化的方法合成正面人臉,然后運用傳統(tǒng)的人臉識別方法實現(xiàn)。另外一類是通過模型從非正面人臉圖像中學(xué)習(xí)一種與人臉角度無關(guān)的特征[1]?;谏疃葘W(xué)習(xí)的多角度人臉識別充分利用這兩類方法的優(yōu)點,通過一個新的網(wǎng)絡(luò)框架,將人臉進行正面化的同時,學(xué)習(xí)一種與人臉角度無關(guān)的特征,從而達到更好的多角度人臉識別效果。
1構(gòu)建網(wǎng)絡(luò)模型
1.1 選擇生成對抗網(wǎng)絡(luò)為基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)
生成對抗網(wǎng)絡(luò)是一種可以由輸入的數(shù)據(jù)生成圖像的網(wǎng)絡(luò)模型,在對人臉圖像進行正面化的時候,采用這種模型可以得到想要的結(jié)果。生成對抗網(wǎng)絡(luò)分為一個生成模型和一個判別模型,采用的是一種二人博弈的思想,其訓(xùn)練的原則是單獨交替迭代訓(xùn)練。生成模型的目的是使得自己生成圖像的能力盡可能強,強到判別器無法判斷自己生成的圖像是真的還是假的。判別模型的目的是使得自己的判別能力盡可能強,從而判別出輸入的圖像是真圖像還是假圖像[2]。對于多角度人臉圖片,將一張側(cè)面的人臉圖像作為輸入后,即可得到一個可以達到以假亂真效果的正面人臉圖像。
1.2 參考semi-supervised GAN的類標(biāo)簽概念,將傳統(tǒng)判別器的二分類改為多分類。
對于傳統(tǒng)的生成對抗網(wǎng)絡(luò)來說,判別器D是一個簡單的真假分類器,即二分類,無法滿足對多人進行人臉識別的要求。假設(shè)我們所擁有的是一個含有N個人的人臉數(shù)據(jù)庫,那么判別器就是一個N+1類的判別器。前N類表示人臉圖像的身份分類。附加一類為假類,即第N+1類表示被判別器判斷為假圖像的類別。
1.3 使用編碼器-解碼器生成結(jié)構(gòu)學(xué)習(xí)人臉圖像的身份信息特征
對于同一個人來說,他的身份信息是一直不變的,將身份信息以特征向量的形式輸出,通過比較進而即可實現(xiàn)多角度人臉識別。自動編碼器是一種特殊的神經(jīng)網(wǎng)絡(luò),主要應(yīng)用于特征的提取以及數(shù)據(jù)降維。在自動編碼器中,前半部分是卷積層和池化層,充當(dāng)編碼器,從輸入的圖像中提取特征,即人臉圖像的身份特征,后半部分是反卷積層,充當(dāng)解碼器,從提取的特征中解碼出結(jié)果圖像,即生成正面的人臉圖像。
同時,為了將人臉的角度信息從身份信息特征中分離出來,將表示人臉角度的信息,與圖像身份特征向量及噪聲一起,以one-hot向量的形式,作為解碼器的輸入。由此,經(jīng)過一定的訓(xùn)練后,即可使得編碼器提取的圖像身份特征向量盡可能多的只包含身份信息。
至此,完整網(wǎng)絡(luò)結(jié)構(gòu)完成,如下圖1所示:
2人臉識別
人臉識別是通過生成器中的編碼器部分提取到的身份特征實現(xiàn)的。在計算圖像相似度方面,比較常用的方法有歐氏距離以及余弦相似度。歐氏距離與各個點的坐標(biāo)值相關(guān)。余弦相似度與兩個向量夾角的余弦值相關(guān)。在人臉識別中,對于提取得到的身份特征向量,雖然我們已經(jīng)將角度信息摘除,但對于同一個人的不同人臉圖像,仍然會存在些許的差別,通過絕對的數(shù)值進行距離的計算,即采用歐式距離進行計算不符合實際情況。其次,對于圖像這種特征維度比較高的領(lǐng)域,歐式距離的數(shù)值會受到維度的影響而造成范圍的不固定,而余弦相似度仍然可以保持“相同時為1,正交時為0,相反時為-1”的性質(zhì)。因此,人臉識別通過余弦相似度的計算實現(xiàn)。
3結(jié)束語
基于深度學(xué)習(xí)的多角度人臉識別,在傳統(tǒng)的生成對抗網(wǎng)絡(luò)的基礎(chǔ)上做了一些改進,包括編解碼器結(jié)構(gòu)生成器、多分類判別器等。首先,訓(xùn)練后得到的身份特征既有人臉圖像的合成能力,也有人臉識別的能力。其次,訓(xùn)練后得到的身份特征將人臉角度的相關(guān)信息分離了出去,最后通過余弦相似度計算即可實現(xiàn)多角度的人臉識別。
參考文獻
[1] Ding C,Tao D. A Comprehensive Survey on Pose-Invariant Face Recognition[J]. Acm Transactions on Intelligent Systems & Technology,2016,7(3):37.
[2] I. Goodfellow,J. Pouget-Abadie,M. Mirza. Generative adversarial nets[J].Advances in Neural Information Processing Systems,2014(27):2672-2680.
作者簡介
吳曉桐(1995-),女,遼寧省海城市人;學(xué)歷:碩士,研究方向:大數(shù)據(jù)處理與分析技術(shù);
周小琳(1997-),女,山東省莒縣人;學(xué)歷:碩士,研究方向:大數(shù)據(jù)與智能信息處理技術(shù)。