杜翠鳳 溫云龍 李建中
【摘? 要】針對(duì)佩戴口罩或者墨鏡的交通違法人員難以采用常規(guī)的人臉識(shí)別方法識(shí)別的難題,采用深度卷積對(duì)抗神經(jīng)網(wǎng)絡(luò)生成外部組件的可視化特征向量的集合,結(jié)合特定人臉特征,形成多狀態(tài)自適應(yīng)的人臉特征表示。該技術(shù)實(shí)現(xiàn)從對(duì)象到場(chǎng)景的人臉特征分層表示,實(shí)現(xiàn)配搭口罩或者墨鏡等場(chǎng)景下交通違法人員的人臉識(shí)別功能,提升執(zhí)法的效率。
【關(guān)鍵詞】深度卷積對(duì)抗神經(jīng)網(wǎng)絡(luò);多狀態(tài);自適應(yīng);人臉識(shí)別
doi:10.3969/j.issn.1006-1010.2019.09.014? ? ? ? 中圖分類號(hào):TP391.41
文獻(xiàn)標(biāo)志碼:A? ? ? ? 文章編號(hào):1006-1010(2019)09-0075-04
引用格式:杜翠鳳,溫云龍,李建中. 基于深度卷積對(duì)抗神經(jīng)網(wǎng)絡(luò)的多狀態(tài)自適應(yīng)人臉識(shí)別方法[J]. 移動(dòng)通信, 2019,43(9): 75-78.
A Multi-state Adaptive Face Recognition Method Based on
Deep Convolutional Adversative Neural Network
DU Cuifeng, WEN Yunlong, LI Jianzhong
[Abstract]?Aiming at the difficulty of face recognition for traffic offenders wearing masks or sunglasses, a deep convolutional adversative neural network is used to generate a set of visual feature vectors of external components, and a multi-state adaptive face feature representation is formulated by combining specific face features. This technology realizes the hierarchical representation of facial features from objects to scenarios, and implements the face recognition function of traffic offenders in scenarios wearing masks or sunglasses, and thus improves the efficiency of law enforcement.
[Key words]deep convolutional adversative network; multi-state; adaptive; face recognition
1? ?引言
自從2014年Ian Goodfellow創(chuàng)造性提出了生成對(duì)抗網(wǎng)絡(luò)之后,生成對(duì)抗網(wǎng)絡(luò)得到大量學(xué)者的關(guān)注。這種生成對(duì)抗神經(jīng)網(wǎng)絡(luò),能夠?qū)⒋罅繜o標(biāo)注的圖片進(jìn)行學(xué)習(xí),并形成對(duì)不同維度的特征進(jìn)行分層表示,雖然這種從對(duì)象到場(chǎng)景、在生成模型和判別模型都能夠?qū)W習(xí)到不同表示的算法,已經(jīng)廣泛用于人臉補(bǔ)全的項(xiàng)目,但是還存在一定的缺陷。比如整個(gè)人臉進(jìn)行打碼后,模型通過訓(xùn)練庫(kù)的特征生成一個(gè)模型覺得“可靠”的人臉并輸出,結(jié)果發(fā)現(xiàn),該圖像的人臉跟真實(shí)的人臉還是有差別的。這是因?yàn)檫@種人臉補(bǔ)全技術(shù)是基于計(jì)算機(jī)學(xué)習(xí)得到的,因此,這種方法不能適應(yīng)于交通公路佩戴墨鏡的駕駛員識(shí)別,因?yàn)槿四樢坏┻€原了,可能在眼睛、鼻子、嘴角都發(fā)生大的變化,在不同的相似度算法下,這種做法的相似度不到80%,很難滿足實(shí)際應(yīng)用的需求。
為了適應(yīng)違法交通配搭口罩或者模型等人臉識(shí)別的應(yīng)用的需求,本文提出一種基于深度卷積對(duì)抗神經(jīng)網(wǎng)絡(luò)的多狀態(tài)自適應(yīng)特征比對(duì)技術(shù),結(jié)合深度卷積對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)人臉特征多狀態(tài)表示,實(shí)現(xiàn)從對(duì)象到場(chǎng)景的人臉特征分層表示,實(shí)現(xiàn)在佩戴帽子、墨鏡以及各種裝飾物等場(chǎng)景下的人臉識(shí)別功能。
2? ?“多狀態(tài)”人臉識(shí)別相關(guān)介紹
2.1? “多狀態(tài)”人臉識(shí)別
人臉的“多狀態(tài)”是指由于佩戴墨鏡、口罩、衣帽、耳環(huán)等外部組件后所引起的人臉狀態(tài)的變化,這些狀態(tài)的變化很可能導(dǎo)致人臉部分的特征點(diǎn)不可見或者人臉特征點(diǎn)變化尺度太大,致使模型表現(xiàn)力有限或者模型無法應(yīng)對(duì)復(fù)雜的人臉變化模式而失效。通俗一點(diǎn),就是通過配搭墨鏡、口罩、衣帽、耳環(huán)等部件,使得人臉出現(xiàn)復(fù)雜、不可預(yù)測(cè)的變化模式,從而導(dǎo)致常用的人臉識(shí)別模型失效。因此,本文針對(duì)目前人臉“多狀態(tài)”存在的問題,研究一種“多狀態(tài)”的人臉識(shí)別算法。
“多狀態(tài)”人臉識(shí)別的定義是將人臉識(shí)別的范圍離散化表示為多個(gè)狀態(tài)部件的模型,采用多個(gè)部件的模型組合來描述人臉非線性的變化。人臉圖像中除了有豐富的屬性信息,如姿態(tài)、表情、性別等,還包括由于墨鏡、口罩、衣帽、耳環(huán)等豐富的部件信息?!岸酄顟B(tài)”人臉識(shí)別思路是基于人臉屬性的信息,結(jié)合多個(gè)不同外部部件的形狀、邊緣、梯度、輪廓等因素,提取人臉細(xì)節(jié)更加豐富、更有效多樣的特征,提升非線性人臉變化的描述尺度。為了實(shí)現(xiàn)“多狀態(tài)”人臉識(shí)別,本文引用對(duì)抗神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)“多狀態(tài)”人臉識(shí)別。
2.2? GANs的原理介紹
在介紹DCGANs(Deep Convolution GANs,深度卷積對(duì)抗神經(jīng)網(wǎng)絡(luò))[1-2]的原理之前,先介紹GANs(Generative Adversarial Networks,對(duì)抗神經(jīng)網(wǎng)絡(luò))的原理:采用生成器(Generator)生成一張圖片,利用判別器(Discriminator)判斷生成器生成的模型是否是“真實(shí)”。如果“真實(shí)”,那么說明生成器生成的圖片跟真實(shí)的圖片幾乎一樣;否則,判別器將會(huì)判斷生成器生成的圖片是“不真實(shí)”。生成器和判別器存在“對(duì)抗”關(guān)系,而且對(duì)抗隨著圖片庫(kù)的增加而不斷強(qiáng)化[3-5]。
對(duì)抗神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程如圖1所示。從圖1可知,對(duì)抗神經(jīng)網(wǎng)絡(luò)同時(shí)訓(xùn)練兩個(gè)神經(jīng)網(wǎng)絡(luò),第一個(gè)神經(jīng)網(wǎng)絡(luò)是生成器,其輸入一般是隨機(jī)分布生成的數(shù)據(jù)。生成器的作用是生成假的圖像,然后通過第二個(gè)神經(jīng)網(wǎng)絡(luò)——判別器,結(jié)合真實(shí)的圖像對(duì)計(jì)算機(jī)生成的假圖像進(jìn)行判別,將假圖像的“真實(shí)”標(biāo)量采用softmax函數(shù)轉(zhuǎn)換為概率,如果概率為0,即為假圖像,概率為1,表示判別器認(rèn)為該圖像是“真實(shí)的”,順利“騙過”判別器。
對(duì)抗神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程如下:
首先,考慮一個(gè)噪音分布pz,圖1定義一個(gè)生成式神經(jīng)網(wǎng)絡(luò)模型G(z),G(z)從一個(gè)噪音分布中取樣,獲得一個(gè)pG的分布,而真實(shí)照片分布定義為pdata,最終,我們希望pG=pdata。
然后,我們考慮另外一個(gè)神經(jīng)網(wǎng)絡(luò)模型——判別器D(x),將pG的樣本作為輸入,并給出該樣本取樣自于pdata的概率p。如果概率p接近于1,那么該樣本很大可能是取自于元樣本數(shù)據(jù)分布pdata;否則,該樣本是“假樣本”。
2.3? 深度卷積對(duì)抗神經(jīng)網(wǎng)絡(luò)的原理介紹
2015年,Radford等人提出了深度卷積對(duì)抗神經(jīng)網(wǎng)絡(luò),與GANs不同的地方在于,生成模型G(z)和判別模型D(x)都采用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn),而不是一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)[6-8]。在DCGANs中,生成式模型如圖2所示。
從圖2可知,當(dāng)輸入圖片尺寸過小時(shí),生成模型GANs是通過上采樣的方式通過在像素之間進(jìn)行插值進(jìn)行擴(kuò)展,當(dāng)擴(kuò)展到設(shè)定的尺寸時(shí)再進(jìn)行卷積處理,那么輸出的尺寸就會(huì)比原來的大。
而判別模型D(x)也是一個(gè)深度卷積網(wǎng)絡(luò),判別模型輸入是生成模型的輸出,經(jīng)過一系列卷積的操作,最后得到是1×1的輸出結(jié)果,也就是概率p。如果概率p接近于1,那么生成模型生成的圖片特征相當(dāng)接近真實(shí)圖片的特征;否則,生成模型生成的圖片特征與真實(shí)圖片的特征存在一定的差異。
判別模型的判斷過程如圖3所示。
3? ?基于深度卷積對(duì)抗網(wǎng)絡(luò)的多狀態(tài)自適
應(yīng)人臉識(shí)別流程
對(duì)抗網(wǎng)絡(luò)就是通過生成器和判別器的對(duì)抗訓(xùn)練,生成器最后生成一個(gè)與真實(shí)照片的分布pdata差不多的分布pG,這些圖片特征的分布在深度卷積對(duì)抗網(wǎng)絡(luò)中,特征提取最終體現(xiàn)為64×64×3卷積特征圖。通過這種訓(xùn)練的原理,可以認(rèn)定,博弈最終的結(jié)果是:采用深度卷積對(duì)抗神經(jīng)網(wǎng)絡(luò),能夠?qū)⒋罅繜o標(biāo)注的圖片進(jìn)行學(xué)習(xí),并能夠?qū)Σ煌瑘D片中的外部組件進(jìn)行特征表示。那就意味著,深度卷積對(duì)抗神經(jīng)網(wǎng)絡(luò)能夠?qū)Υ罅俊岸酄顟B(tài)”的人臉進(jìn)行學(xué)習(xí),并形成外部組件的可視化特征向量的集合[9-10]?;谶@種思想,本文通過深度卷積對(duì)抗神經(jīng)網(wǎng)絡(luò)構(gòu)建一個(gè)多狀態(tài)自適應(yīng)的人臉特征庫(kù):通過提取外部組件的特征向量后,結(jié)合特定人臉(證件照或其他存儲(chǔ)在服務(wù)器的人臉照片),構(gòu)建有助于人臉分類的“多狀態(tài)”自適應(yīng)的人臉庫(kù)——包括人臉器官和外部組件特征點(diǎn)的特征分量,實(shí)現(xiàn)“多狀態(tài)”人臉的比對(duì)技術(shù),實(shí)現(xiàn)人臉識(shí)別的功能。具體的流程如下:
(1)“多狀態(tài)”人臉采集
不同“多狀態(tài)”人臉圖像通過攝像鏡頭采集得到,比如墨鏡、口罩、帽子、耳環(huán)等部件形狀和大小不一的人臉圖像。針對(duì)采集的圖像,結(jié)合圖像大小、圖像分辨率、模糊程度以及采集角度,采用Adaboost實(shí)現(xiàn)“多狀態(tài)”人臉的檢測(cè),實(shí)現(xiàn)人臉位置和大小的標(biāo)定,并把有用的信息篩選出來。
(2)“多狀態(tài)”人臉預(yù)處理
由于從外界的獲取的圖像收到各種噪音的干擾,往往不能直接用于人臉識(shí)別,因此需要對(duì)圖像進(jìn)行灰度校正、噪音過濾等,通常的做法就是采用灰度變換、直方圖均衡化以及濾波等方式對(duì)人臉圖像進(jìn)行處理。
(3)“多狀態(tài)”人臉特征提取
采用深度卷積對(duì)抗神經(jīng)網(wǎng)絡(luò)的方式實(shí)現(xiàn)“多狀態(tài)”人臉的特征提取。基于DCGANs的無監(jiān)督學(xué)習(xí)能力,采用深度卷積對(duì)抗神經(jīng)網(wǎng)絡(luò)在生成器實(shí)現(xiàn)人臉外部件的特征表示。雖然輸入深度對(duì)抗神經(jīng)網(wǎng)絡(luò)生成器最終生成的每一種物體的圖像表征都是64×64×3的特征圖,但是特征圖中不同的數(shù)字對(duì)應(yīng)著不同的物體,通過將物體的形狀、顏色、尺寸的大小進(jìn)行分類,便于后期構(gòu)建多狀態(tài)自適應(yīng)特征庫(kù)。
(4)構(gòu)建“多狀態(tài)”特征人臉庫(kù)
根據(jù)證件照人臉器官的形狀描述,以及深度對(duì)抗神經(jīng)網(wǎng)絡(luò)生成器所得到的人臉外部組件的特征,獲得有助于人臉分類的特征數(shù)據(jù),其特征分量通常包括人臉器官和外部組件特征點(diǎn)之間的歐氏距離、曲率、角度,形成“多狀態(tài)”人臉特征表示,以其作為多狀態(tài)自適應(yīng)特征的人臉庫(kù)。
因此,采用深度卷積對(duì)抗神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了從人臉對(duì)象到不同場(chǎng)景自適應(yīng)的人臉分層、多狀態(tài)的表示,形成一個(gè)特定的人臉在多種不同狀態(tài)下(比如佩戴黑色原形墨鏡及佩戴白色口罩)的人臉特征表示,形成特定人臉(證件照或其他存儲(chǔ)在服務(wù)器的人臉照片)在多個(gè)外部組件組合情況下的多種狀態(tài)的人臉特征表示?;谏鲜龅亩酄顟B(tài)人臉表示,構(gòu)建“多狀態(tài)”自適應(yīng)特征的人臉庫(kù)。
(5)“多狀態(tài)”人臉匹配與識(shí)別
通過提取“多狀態(tài)”人臉特征數(shù)據(jù)與數(shù)據(jù)庫(kù)中存儲(chǔ)的“多狀態(tài)”自適應(yīng)特征人臉庫(kù)進(jìn)行搜索匹配,通過設(shè)定一個(gè)閾值,將相似度與閾值進(jìn)行比較,來對(duì)“多狀態(tài)”人臉身份信息進(jìn)行判斷,形成最終的人臉比對(duì)結(jié)果。
4? ?實(shí)驗(yàn)結(jié)果
4.1? 數(shù)據(jù)預(yù)處理
訓(xùn)練深度卷積對(duì)抗神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)在AR人臉庫(kù)上公開采集,包含50名男性和50名女性的人臉圖像,每人有26張圖像,其中佩戴太陽(yáng)鏡和圍巾的有12張人臉圖像。本文隨機(jī)選取1 000張“多狀態(tài)”人臉數(shù)據(jù)進(jìn)行模型訓(xùn)練,然后再隨機(jī)選取500張“多狀態(tài)”人臉數(shù)據(jù)進(jìn)行測(cè)試,以檢測(cè)本文提出模型對(duì)多狀態(tài)人臉的比對(duì)能力。
訓(xùn)練深度卷積對(duì)抗神經(jīng)網(wǎng)絡(luò)時(shí),由于不同人臉圖片拍攝的角度不一致,因此抓拍到的人臉尺寸可能存在不一致的現(xiàn)象,因此需要先對(duì)人臉進(jìn)行檢測(cè),得出人臉檢測(cè)框后,將人臉框的圖像統(tǒng)一轉(zhuǎn)換為24×24。除此之外,并將正樣本和負(fù)樣本的比例設(shè)為1:1。
4.2? 與傳統(tǒng)算法的比較
為了更直觀體現(xiàn)本文方法的優(yōu)勢(shì),本文對(duì)比了采用深度卷積對(duì)抗神經(jīng)網(wǎng)絡(luò)將人臉補(bǔ)全方法,也就是通過深度卷積對(duì)抗神經(jīng)網(wǎng)絡(luò)將遮住人臉的位置進(jìn)行補(bǔ)全后,再進(jìn)行人臉識(shí)別。從表1的結(jié)果可知,本文提出的方法在上述測(cè)試集上的準(zhǔn)確率為75.87%,遠(yuǎn)高于傳統(tǒng)的人臉補(bǔ)全方法,本文的模型具有一定的優(yōu)勢(shì)。與此同時(shí),本文提出的方法的處理速度也有一定的提升。主要是因?yàn)閭鹘y(tǒng)的方法需要采用人臉補(bǔ)全技術(shù)對(duì)遮住部位的特征進(jìn)行補(bǔ)全,而本文提出的方法僅僅是檢測(cè)物體的特征,然后在多狀態(tài)自適應(yīng)特征庫(kù)中直接進(jìn)行比對(duì),因此大大簡(jiǎn)化了計(jì)算的復(fù)雜度。
5? ?結(jié)束語(yǔ)
本文提出了一種深度卷積對(duì)抗網(wǎng)絡(luò)的多狀態(tài)人臉檢測(cè)方法,采用深度卷積對(duì)抗神經(jīng)網(wǎng)絡(luò)的對(duì)抗訓(xùn)練實(shí)現(xiàn)從對(duì)象到場(chǎng)景的分層表示后,結(jié)合特定用戶的證件照構(gòu)建多狀態(tài)自適應(yīng)特征人臉庫(kù),最后采用特征余弦相似度實(shí)現(xiàn)多狀態(tài)特征下人臉的比對(duì)。該方法在公司的人臉識(shí)別平臺(tái)上取得了良好的檢測(cè)效果和運(yùn)行效率,從本文的實(shí)驗(yàn)效果可知,本文提出的模型能夠快速、準(zhǔn)確、自適應(yīng)識(shí)別多狀態(tài)人臉,具有一定的擴(kuò)展性。
參考文獻(xiàn):
[1] 于波,方業(yè)全,劉閩. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像重建算法[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2018,27(9): 170-175.
[2] 柯研,王希龍,鄭鈺輝. 深度卷積生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)[J]. 電子技術(shù)與軟件工程, 2018(24): 21-22.
[3] 劉彬. 基于對(duì)抗深度學(xué)習(xí)的人臉檢測(cè)研究[D]. 青島: 青島科技大學(xué), 2018.
[4] 洪洋,葛振華,王紀(jì)凱,等. 深度卷積對(duì)抗生成網(wǎng)絡(luò)綜述[C]//第18屆中國(guó)系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)年會(huì)(18th CCSSTA 2017). 中國(guó)自動(dòng)化學(xué)會(huì)系統(tǒng)仿真專業(yè)委員會(huì),中國(guó)系統(tǒng)仿真學(xué)會(huì)仿真技術(shù)應(yīng)用專業(yè)委員會(huì), 2017.
[5] 李炬. 基于生成對(duì)抗網(wǎng)絡(luò)的人臉灰度圖上色[J]. 電腦知識(shí)與技術(shù), 2018,14(11): 185-187.
[6] 馬玉琨,MA YuKun,毋立芳. 一種面向人臉活體檢測(cè)的對(duì)抗樣本生成算法[J]. 軟件學(xué)報(bào), 2019,30(2): 469-480.
[7] 桑亮,高爽,尹增山. 基于生成對(duì)抗網(wǎng)絡(luò)的運(yùn)動(dòng)模糊圖像復(fù)原[J]. 計(jì)算機(jī)工程與應(yīng)用, 2019,55(6): 179-183.
[8] 張營(yíng)營(yíng). 生成對(duì)抗網(wǎng)絡(luò)模型綜述[J]. 電子設(shè)計(jì)工程, 2018,26(5): 34-37.
[9] 唐賢倫,杜一銘,劉雨微,等. 基于條件深度卷積生成對(duì)抗網(wǎng)絡(luò)的圖像識(shí)別方法[J]. 自動(dòng)化學(xué)報(bào), 2018,44(5): 90-99.
[10] Kuadra Leal Hanna. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率[D]. 大連: 大連理工大學(xué), 2018.