孫 強(qiáng),譚曉陽
(南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京 210016)
低質(zhì)量無約束人臉圖像下的超分辨率擺正
孫 強(qiáng)*,譚曉陽
(南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京 210016)
針對(duì)人臉識(shí)別算法準(zhǔn)確率受面部姿態(tài)、遮擋、圖像分辨率等因素影響的問題,提出一種超分辨率擺正的方法,作用于低質(zhì)量無約束輸入圖像上,生成高清晰度標(biāo)準(zhǔn)正面視圖。主要通過估計(jì)輸入圖像與3D模型間的投影矩陣,產(chǎn)生標(biāo)準(zhǔn)正面視圖,通過人臉對(duì)稱性的特點(diǎn),補(bǔ)全由于姿態(tài)、遮擋等原因所產(chǎn)生的面部缺失像素。在擺正過程中,為了提高圖像分辨率以及避免面部像素信息丟失,引入一個(gè)16層的深度遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行超分辨率重構(gòu); 并提出兩個(gè)擴(kuò)展:遞歸監(jiān)督和跳躍鏈接,來降低網(wǎng)絡(luò)訓(xùn)練難度以及縮小模型體量。在經(jīng)過處理的LFW數(shù)據(jù)集上實(shí)驗(yàn)表明,該方法對(duì)人臉識(shí)別和性別檢測(cè)算法的性能具有顯著提升作用。
人臉識(shí)別;人臉擺正;3D重建;超分辨率重構(gòu);深度遞歸卷積神經(jīng)網(wǎng)絡(luò)
人臉識(shí)別在現(xiàn)實(shí)社會(huì)中的應(yīng)用,由于其潛在的巨大價(jià)值而得到廣泛關(guān)注;過去四十年間,研究人員在該領(lǐng)域開發(fā)出許多優(yōu)秀項(xiàng)目,取得巨大成就。隨著計(jì)算機(jī)硬件的不斷升級(jí),深度學(xué)習(xí)得到飛速發(fā)展,人臉識(shí)別技術(shù)的精度更是被提升到一個(gè)空前的高度。早在20世紀(jì)60年代,人臉識(shí)別系統(tǒng)的研究就已經(jīng)開始,具有代表性的是1965年Chan和Bledsoe設(shè)計(jì)的模型[1]。2012年底,Krizhevsky 等[2]采用深度學(xué)習(xí)算法,在圖片分類競(jìng)賽ImageNet 上一舉拿下冠軍,從此深度學(xué)習(xí)開始影響整個(gè)計(jì)算機(jī)視覺(Computer Vision, CV)領(lǐng)域并成功推動(dòng)人臉識(shí)別技術(shù)的飛速前進(jìn)。業(yè)內(nèi)頂尖難度的公共數(shù)據(jù)集LFW(Labeled Faces in the Wild)[3]的最新結(jié)果排名顯示,來自大華股份的人臉識(shí)別團(tuán)隊(duì)通過一個(gè)上百層深度網(wǎng)絡(luò)達(dá)到99.78%的識(shí)別準(zhǔn)確率,取得最優(yōu)排名。這個(gè)數(shù)字不僅打敗了人類 94.27% 的識(shí)別準(zhǔn)確率,甚至觸及LFW 識(shí)別成功率的天花板。而實(shí)際應(yīng)用中,人臉識(shí)別技術(shù)所表現(xiàn)得卻并沒有如同其在官方文檔數(shù)字中描述得那樣完美。如目前百度團(tuán)隊(duì)公布的最新人臉識(shí)別算法,在日常安防使用中測(cè)試成功率勉強(qiáng)只能達(dá)到80%左右,遠(yuǎn)低于其LFW上的99.7%。其主要原因是:在實(shí)際生活中,傳感器設(shè)備采集到的圖像數(shù)據(jù)對(duì)姿態(tài)、光照、遮擋以及分辨率等因素具有高度不可控性,因而使得識(shí)別準(zhǔn)確率大打折扣。
為了解決上述問題,本文擬對(duì)設(shè)備采集到的人臉數(shù)據(jù)進(jìn)行處理,使用3D重建方法建立二維側(cè)面人臉與3D標(biāo)準(zhǔn)面部模型間像素的對(duì)應(yīng)關(guān)系,以便對(duì)二維多姿態(tài)人臉進(jìn)行擺正。對(duì)于已擺正的圖像進(jìn)行像素點(diǎn)檢測(cè),同時(shí)計(jì)算由于遮擋及側(cè)面不可見等原因產(chǎn)生的像素缺失, 利用人臉全局對(duì)稱性的特點(diǎn)進(jìn)行像素補(bǔ)全,產(chǎn)生最終的標(biāo)準(zhǔn)正面視圖。在擺正過程中,嘗試引入圖像超分辨率(Super-Resolution, SR)技術(shù)提高采集圖像數(shù)據(jù)的精度,得到一張高分辨率正面人臉視圖。在SR中,使用一個(gè)深度遞歸卷積神經(jīng)網(wǎng)絡(luò)建立低分辨率(Low-Resolution, LR)圖像塊與高分辨率(High-Resolution, HR)圖像塊間的對(duì)應(yīng)關(guān)系,進(jìn)行圖像超分辨率重建。由于進(jìn)行SR時(shí)的網(wǎng)絡(luò)很深,為了降低訓(xùn)練難度避免出現(xiàn)梯度消失及梯度爆炸現(xiàn)象,引入遞歸監(jiān)督和跳躍連接兩種技術(shù)進(jìn)行改進(jìn)。
對(duì)于低質(zhì)量無約束人臉圖像的研究,由于其潛在的巨大應(yīng)用價(jià)值,一直以來都是人臉處理和識(shí)別的重點(diǎn)探索方向。針對(duì)姿態(tài)不統(tǒng)一而無法進(jìn)行有效識(shí)別的情況,已經(jīng)開發(fā)出了許多優(yōu)秀的方法?;谛巫兡P偷姆椒╗4-7]主要使用一個(gè)三維人臉樣本集的線性組合來表示每個(gè)人臉。通過使用一個(gè)對(duì)形變模型進(jìn)行迭代的方案以逼近輸入圖像。Blanz等[5-6]首先提出了基于形變模型的3D合成臉方法并成功應(yīng)用到人臉識(shí)別中,之后一些研究人員基于此算法進(jìn)行調(diào)整得到很多不同恢復(fù)正面合成人臉圖像的方法。Zhu等[8]提出了一種新的深度學(xué)習(xí)框架用以恢復(fù)人臉圖像的典型正面視圖,并取得很好的效果。不同于之前其他人的工作,他們直接從一組大規(guī)模人臉數(shù)據(jù)集中學(xué)習(xí)到將多姿態(tài)人臉圖像變化為標(biāo)準(zhǔn)正面視圖的模型。深度學(xué)習(xí)的方法,由于其可以解決大角度面部傾斜的問題,所以在日常生產(chǎn)生活應(yīng)用更廣[9]。然而,由于深度學(xué)習(xí)的特點(diǎn),這種方法需要大量數(shù)據(jù)訓(xùn)練才能得到最終模型。
本文對(duì)傳統(tǒng)3D形變模型算法進(jìn)行改進(jìn),使用一個(gè)不變的單一三維參考面去匹配所有輸入圖像,并以此產(chǎn)生標(biāo)準(zhǔn)正面視圖。在擺正過程中,對(duì)由于姿態(tài)、遮擋等原因造成人臉部分區(qū)域無法觀測(cè)的問題,基于人臉全局對(duì)稱性的特點(diǎn),進(jìn)行缺失估計(jì)與填充。相較于傳統(tǒng)3D形變模型方法,本文模型產(chǎn)生擺正視圖更加高效且準(zhǔn)確;同時(shí),避免了深度學(xué)習(xí)方法中需要大規(guī)模數(shù)據(jù)集進(jìn)行訓(xùn)練的問題。
雖然產(chǎn)生標(biāo)準(zhǔn)面部視圖有助于改進(jìn)實(shí)際應(yīng)用中由于姿態(tài)不統(tǒng)一造成的識(shí)別率低下的問題。然而,另一個(gè)主要問題仍然沒有得到有效解決:由于硬件設(shè)備等原因采集到的圖像質(zhì)量不高、分辨率不足造成識(shí)別困難。近年來,國內(nèi)外對(duì)于這個(gè)問題的處理主要集中在兩個(gè)方向進(jìn)行,分別為分辨率穩(wěn)健特征表達(dá)方法和圖像超分辨率(SR)方法[10]。分辨率穩(wěn)健特征表達(dá)方法,直接從低分辨率人臉圖像上提取有鑒別性的特征信息,代表方法有:局部頻域描述子(Local Frequency Descriptor,LFD)[11]、耦合局部保持映射(Coupled Locality Preserving Mapping, LPM)[12]、多維標(biāo)定分析(Multi-Dimensional Scaling, DS)[11]、 耦合核嵌入(Coupled Kernel Embedding,KE)[13]等。對(duì)于圖像超分辨率方法,早期使用大量快速插值,簡便但效果不佳。后來,一些方法引入圖像的簡單特征(如邊緣等),利用圖像的先驗(yàn)知識(shí)進(jìn)行統(tǒng)計(jì)[14-15],顯示出其更加強(qiáng)大的性能。近幾年,一些更加先進(jìn)的學(xué)習(xí)方法被廣泛應(yīng)用于LR-HR塊映射模型中。如稀疏編碼[16]、卷積神經(jīng)網(wǎng)絡(luò)[17]以及隨機(jī)森林[18]等。本文工作在所提出的深度遞歸卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,增加網(wǎng)絡(luò)深度并通過遞歸監(jiān)督和跳躍連接簡化訓(xùn)練難度,將其應(yīng)用到圖像超分辨率重構(gòu)中,并從Google 爬取100 000張人臉圖像進(jìn)行訓(xùn)練以使其更加適用于人臉幻構(gòu)的應(yīng)用。
本文的目標(biāo)是對(duì)于采集到的低分辨率無約束人臉圖像在姿態(tài)矯正還原為標(biāo)準(zhǔn)正面視圖的同時(shí)進(jìn)行超分辨率重構(gòu)。本文方法如圖1所示。使用現(xiàn)有的人臉檢測(cè)器檢測(cè)到人臉[19],然后裁剪并重新調(diào)整到一個(gè)標(biāo)準(zhǔn)坐標(biāo)系;用同樣的檢測(cè)器在參考正面視圖上進(jìn)行特征定位,其中參考正面視圖通過對(duì)一個(gè)三維人臉模型進(jìn)行紋理渲染得到, 二維坐標(biāo)系中的坐標(biāo)對(duì)應(yīng)輸入圖像在三維人臉模型并計(jì)算出一個(gè)投影矩陣進(jìn)行擺正以及后續(xù)的遮擋區(qū)域估計(jì),在擺正過程中引入一個(gè)深度遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行人臉的超分辨率重構(gòu)提高圖像精度質(zhì)量;最后通過人臉對(duì)稱性的特點(diǎn)對(duì)由于姿勢(shì)光照等原因產(chǎn)生的正面人臉缺損區(qū)域進(jìn)行補(bǔ)全(圖1中,像素缺失的部分顯示為綠色),得到輸出的超精度正面人臉圖像。系統(tǒng)各步驟的具體細(xì)節(jié)與實(shí)現(xiàn)會(huì)在后文中進(jìn)行描述。
圖1 人臉超分辨率擺正系統(tǒng)結(jié)構(gòu)Fig. 1 Frame work of image super-resolution and face frontalization system
這一部分主要介紹產(chǎn)生正面視圖的主要過程。給定一個(gè)單一的三維模型,它只包含紋理信息而忽略了形狀信息,同時(shí)已提供三維模型面部特征點(diǎn)的坐標(biāo)。對(duì)于查詢圖像,可以通過人臉特征點(diǎn)檢測(cè)的方法得到二維坐標(biāo),隨后通過查詢圖像與參考面,以及參考面與三維模型間特征點(diǎn)坐標(biāo)的對(duì)應(yīng)關(guān)系計(jì)算出一個(gè)3×4的投影矩陣,通過投影矩陣和3D人臉模型對(duì)查詢圖像進(jìn)行操作,初步獲取正面人臉視圖。隨后對(duì)此視圖進(jìn)行姿態(tài)估計(jì),補(bǔ)全缺失像素點(diǎn)得到標(biāo)準(zhǔn)正面視圖。
人臉特征點(diǎn)檢測(cè) 最近很多非常有效的方法被提出用于面部特征點(diǎn)的檢測(cè)[20-22]。出于速度與精度的雙重考慮,本文選用SDM(Supervised Descent Method)[20]來對(duì)查詢圖像以及參考面進(jìn)行特征點(diǎn)定位,SDM使用監(jiān)督梯度下降的方法來求解非線性最小二乘的問題,并成功地應(yīng)用于人臉對(duì)齊任務(wù)上。與以往SDM算法不同的是,本文僅采用48個(gè)面部特征點(diǎn),排除了下巴上的特征點(diǎn)檢測(cè)(如圖1綠點(diǎn)所示),這主要是因?yàn)楸疚膬H使用一個(gè)共同的三維模型進(jìn)行擺正,排除了其形狀信息的作用而僅僅采用其紋理信息,這在以往的實(shí)驗(yàn)中被證明對(duì)于最終檢測(cè)精度并無影響[23]。
姿態(tài)估計(jì) 給定一個(gè)3D人臉模型,我們的目標(biāo)是計(jì)算投影矩陣,從而揭示三維人臉模型表面點(diǎn)與查詢圖像點(diǎn)間的對(duì)應(yīng)關(guān)系,如式(1)所示:
p~CQP
(1)
其中p=(x,y)T是查詢圖像中的面部特征點(diǎn)(如圖1所示)。CQ是3×4的投影矩陣,P=(X,Y,Z)T對(duì)應(yīng)3D模型上的特征點(diǎn)。單一人臉3D模型通過指定一個(gè)參考投影矩陣CM=AM[RMtM]合成渲染一個(gè)唯一的二維正面人臉參考示意圖IR,其中AM是內(nèi)部矩陣,外部矩陣由旋轉(zhuǎn)矩陣RM和平移向量tM組成,即式(2):
p′~CMP
(2)
能見度估計(jì) 圖像可見性的估計(jì)是相當(dāng)困難的。大多數(shù)研究人員對(duì)于估計(jì)能見度,更喜歡使用兩個(gè)或多個(gè)視圖估計(jì)出3D幾何模型。本文中,使用類似于文獻(xiàn)[24-25]的方法,使用一個(gè)單一的3D幾何模型和其對(duì)應(yīng)的參考正面視圖,將所有的3D人臉模型中的點(diǎn)映射到查詢圖像中。這種情況下,查詢圖像中的大多數(shù)點(diǎn)可以有一個(gè)或多個(gè)對(duì)應(yīng)的3D模型上的點(diǎn)。計(jì)算V(q′)=1-exp(-#q),其中#q代表查詢圖像該位置對(duì)應(yīng)3D點(diǎn)的數(shù)量,V(q′)為計(jì)算得分,設(shè)置一個(gè)閾值來確定看不見的區(qū)域。對(duì)于估計(jì)出不可見區(qū)域的像素強(qiáng)度,本文基于人臉對(duì)稱性的特點(diǎn)通過加權(quán)該點(diǎn)處的平均強(qiáng)度以及另一側(cè)面部對(duì)應(yīng)位置的像素強(qiáng)度覆蓋得到。
上節(jié)提到在產(chǎn)生初步擺正視圖的過程中,引入超分辨率(SR)技術(shù)進(jìn)行正面人臉圖像的超精度重構(gòu),這么做的目的主要在于:既補(bǔ)全了由于圖像平移旋轉(zhuǎn)過程中所丟失的像素信息,又在一定程度上避免了設(shè)備落后等諸多原因造成的實(shí)際應(yīng)用中圖像分辨率不高而導(dǎo)致人臉識(shí)別算法準(zhǔn)確率下降的情況。最近幾年,基于深度學(xué)習(xí)的算法在SR方向上展示了強(qiáng)大的可操作性,在SRCNN(Super-Resolution Convolutional Neural Network)[16]中應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行端到端的學(xué)習(xí)方法在SR上得到了不錯(cuò)的效果。對(duì)于提高SRCNN效果的想法之一便是盡可能多地增加神經(jīng)網(wǎng)絡(luò)的深度來獲得更好的結(jié)果;然而這將大幅增加參數(shù)個(gè)數(shù)導(dǎo)致需要更多的數(shù)據(jù)去學(xué)習(xí)以避免出現(xiàn)過擬合的情況,并且由于層數(shù)增加在學(xué)習(xí)中存在梯度消失/爆炸的現(xiàn)象而導(dǎo)致訓(xùn)練變得艱難。因此,本文引入遞歸監(jiān)督和跳躍鏈接來簡化訓(xùn)練難度,引入遞歸來避免增加模型的容量。
本文進(jìn)行SR的基本結(jié)構(gòu)如圖2所示,包括三個(gè)子網(wǎng)絡(luò):嵌入網(wǎng)絡(luò)、推理網(wǎng)絡(luò)和重構(gòu)網(wǎng)絡(luò)。
圖2 圖像超分辨率重構(gòu)網(wǎng)絡(luò)模型Fig. 2 Image super-resolution reconstruction network model
嵌入網(wǎng)絡(luò)用于將給定的低質(zhì)量正面人臉圖像表示為特征圖送入推理網(wǎng)絡(luò),在推理網(wǎng)絡(luò)中解決任務(wù)后,將最終推理網(wǎng)絡(luò)中的特征圖送入重構(gòu)網(wǎng)絡(luò)進(jìn)行重構(gòu)產(chǎn)生高分辨率人臉正面圖像。本文的目標(biāo)是學(xué)習(xí)一個(gè)模型:
(3)
H-1=max(0,W-1*x+b-1)
(4)
H0=max(0,W0*H-1+b0)
(5)
f1(x)=H0
(6)
其中:操作符*表示一個(gè)卷積(核大小為3×3),而max(0,)則對(duì)應(yīng)一個(gè)ReLU(Rectified Linear Unit),權(quán)重和偏置矩陣對(duì)應(yīng)W和b,推理網(wǎng)絡(luò)f2使用輸入H0并且計(jì)算輸出HD。本文對(duì)所有的操作使用相同的權(quán)重和偏置矩陣W和b。g表示一個(gè)單一的遞歸層的遞歸模型函數(shù):
g(H)=max(0,W*H+b)
(7)
遞推關(guān)系如下:
Hd=g(Hd-1)=max(0,W*Hd-1+b)
(8)
對(duì)于d=1,2,…,D。推理網(wǎng)絡(luò)f2是由相同的基本函數(shù)g組合而成:
f2(H)=(g°g°…°g)g(H)=gD(H)
(9)
其中:°操作符表示函數(shù)組合,gd代表了g的d層。重構(gòu)網(wǎng)絡(luò)f3使用HD作為輸入并輸出目標(biāo)圖像。概況地說,重構(gòu)網(wǎng)絡(luò)是嵌入網(wǎng)絡(luò)的逆運(yùn)算,將重建好的高分辨率塊補(bǔ)全到相應(yīng)位置上。具體推導(dǎo)如下:
HD+1=max(0,WD+1*HD+bD+1)
(10)
(11)
(12)
雖然遞歸模型簡單強(qiáng)大且不會(huì)引入額外的卷積(新的參數(shù)),但訓(xùn)練一個(gè)深度遞歸模型確實(shí)很困難的,在以往的成功案例中,也僅僅遞歸到三層為止,這主要?dú)w結(jié)于兩個(gè)重要的原因:梯度消失和梯度爆炸。為了解決以上兩個(gè)問題,本文引入遞歸監(jiān)督和跳躍連接進(jìn)行模型的改進(jìn),使遞歸層數(shù)達(dá)到了16層之多。
遞歸監(jiān)督 所有遞歸都被監(jiān)督,每次遞歸后,特征映射被用來重構(gòu)高精度圖像,重構(gòu)方法對(duì)于每個(gè)遞歸過程都相同。如圖3所示,每次遞歸給出一個(gè)高精度圖像的預(yù)測(cè),結(jié)合遞歸的不同層次所帶來的不同預(yù)測(cè)結(jié)果來達(dá)到更加精準(zhǔn)的預(yù)測(cè)。本文的遞歸監(jiān)督很自然地降低了訓(xùn)練遞歸網(wǎng)絡(luò)的難度。此外,由于本文是通過監(jiān)督所有的中間層預(yù)測(cè)得到最終目標(biāo)圖像的,所以獲得遞歸最有層數(shù)的重要性被降低,更快地得到最優(yōu)的結(jié)果。
跳躍連接 在SR中,低分辨率圖像(輸入)和高分辨率圖像(輸出)大范圍享有共同信息,然而對(duì)于輸入的精準(zhǔn)復(fù)制在前向傳播中會(huì)進(jìn)行衰減。如圖3所示,本文添加一個(gè)跳躍連接直接將輸入鏈接到重建層,簡單且有效地保留了預(yù)測(cè)圖像中與輸入圖像的高度相關(guān)性。
圖3 引入遞歸監(jiān)督和跳躍連接的超分辨率重構(gòu)模型Fig. 3 SR reconstrution model with recursive-supervision and skip-connection
本章將在經(jīng)過分辨率處理的LFW人臉數(shù)據(jù)集上評(píng)估本文方法的有效性。人臉姿態(tài)校正模塊,本文采用了“calib”函數(shù)估計(jì)投影矩陣[23]。使用SDM進(jìn)行人臉特征點(diǎn)檢測(cè),其中SDM在作者的主頁上是開源的[4]。在超分辨率模塊,使用從Google上通過爬蟲獲取的100 000張人臉圖像進(jìn)行訓(xùn)練。需要注意的是,本文算法的主要目的在于驗(yàn)證經(jīng)過人臉擺正和超分辨率重構(gòu)對(duì)人臉識(shí)別性能的影響,因此后續(xù)實(shí)驗(yàn)并沒有使用當(dāng)前結(jié)果最優(yōu)的人臉識(shí)別算法進(jìn)行驗(yàn)證。
LFW是時(shí)下最為熱門的無約束人臉圖像數(shù)據(jù)集,其圖像采集自Yahoo!News,由5 749人組成共13 233張,其中1 680人有兩幅及以上的圖像,4 069人只有一幅圖像。所有圖像均產(chǎn)生于現(xiàn)實(shí)場(chǎng)景,具備自然的光線、表情、姿態(tài)和遮擋。然而與應(yīng)用場(chǎng)景中監(jiān)控?cái)z像頭采集到的圖像相比,LFW具有統(tǒng)一的較高分辨率的特點(diǎn),因此實(shí)驗(yàn)中將LFW數(shù)據(jù)集圖像降采樣到統(tǒng)一的50×50(在后面的實(shí)驗(yàn)中統(tǒng)一稱其為LFW1),在此基礎(chǔ)上進(jìn)行后續(xù)的擺正與超分辨率操作,以更好地貼近實(shí)際應(yīng)用中的情況。最終實(shí)驗(yàn)用數(shù)據(jù)如圖4所示,其中橫向?qū)?yīng)人臉超分辨率重構(gòu),縱向表明是否加入人臉擺正處理。
在超分辨率重構(gòu)模塊,在Google上爬取100 000張人臉圖像進(jìn)行訓(xùn)練,目的主要是為了契合其在人臉超分辨率重構(gòu)上更好的應(yīng)用。
在這個(gè)實(shí)驗(yàn)中,本文方法首先對(duì)LFW數(shù)據(jù)集降采樣至50×50,然后進(jìn)行處理并測(cè)試結(jié)果。LFW官網(wǎng)的view2測(cè)試協(xié)議提供了10個(gè)子集,其中9個(gè)用于訓(xùn)練、1個(gè)用于測(cè)試,交叉驗(yàn)證得到10個(gè)不同的分類器,對(duì)10次分類結(jié)果進(jìn)行平均得到最終識(shí)別準(zhǔn)確率[3]。由于本文的目標(biāo)是查看人臉擺正與超精度重構(gòu)對(duì)于人臉識(shí)別算法精度是否有提高,因此使用類似于文獻(xiàn)[23]的方法作為評(píng)價(jià)標(biāo)準(zhǔn),分別使用LBP(Local Binary Pattern)[26-27]、TPLBP(Three-Patch Local Binary Pattern)[28]特征用于人臉表示以及使用L2范式進(jìn)行相似性度量。
表1列出了數(shù)據(jù)集上的驗(yàn)證準(zhǔn)確率。其中LEW1表示對(duì)LFW數(shù)據(jù)集進(jìn)行降采樣后50×50的原始圖像,LFW1-3D為對(duì)LFW1 圖像進(jìn)行人臉擺正而不進(jìn)行超辨率處理的低質(zhì)量正面人臉圖像。LFW1×2和LFW1×4則分別對(duì)應(yīng)于LFW1進(jìn)行2倍倍增因子和4倍倍增因子超分辨率重構(gòu)后的人臉圖像,LFW1×2- 3D和LFW1×4- 3D則對(duì)應(yīng)二者添加人臉擺正步驟后得到的較高清正面人臉圖像,LFW則作為超分辨率算法的ground truth進(jìn)行對(duì)比,顯示本文超分辨率算法具有很好的還原效果。從表1中可以看出,隨著圖像分辨率的提升結(jié)果也在大幅度改進(jìn),同時(shí)當(dāng)圖像分辨率較高時(shí)人臉擺正的引入同樣會(huì)起到較顯著的作用,而當(dāng)圖像分辨率較低時(shí)人臉擺正的引入可能會(huì)起到反效果。
圖4 實(shí)驗(yàn)用數(shù)據(jù)示例Fig. 4 Experimental data example
在本節(jié)中,采用上面實(shí)驗(yàn)所用到數(shù)據(jù)集的一個(gè)子集進(jìn)行性別評(píng)估實(shí)驗(yàn)。通過人臉性別估計(jì),可以滿足快速區(qū)分人群并進(jìn)行分類的需求。商家針對(duì)客戶性別統(tǒng)計(jì),能夠更加快速準(zhǔn)確地制定符合市場(chǎng)的產(chǎn)品定位等。這里每個(gè)數(shù)據(jù)分類采用同樣的2 000張圖像進(jìn)行測(cè)試,這2 000張圖像由人工手動(dòng)進(jìn)行男、女標(biāo)簽的標(biāo)記。在實(shí)驗(yàn)中,其中500張圖像進(jìn)行訓(xùn)練,而剩余1 500張被用于測(cè)試。同樣LBP、TPLBP特征被用于人臉表示,支持向量機(jī)(Support Vector Machine, SVM)被用于進(jìn)行分類。表2中可以看到,與上面人臉驗(yàn)證相類似的結(jié)果,證明本文方法同樣適用于人臉性別估計(jì)的應(yīng)用上。
表1 實(shí)驗(yàn)數(shù)據(jù)上的人臉驗(yàn)證準(zhǔn)確率 %Tab. 1 Face verification accuracies on experimental data %
表2 實(shí)驗(yàn)數(shù)據(jù)上的性別估計(jì)準(zhǔn)確率 %Tab. 2 Gender estimation accuracies on experimental data %
本文針對(duì)實(shí)際應(yīng)用中的低質(zhì)量無約束人臉圖像,引入人臉擺正和圖像超分辨率重構(gòu)進(jìn)行處理,旨在生成高精度正面標(biāo)準(zhǔn)人臉圖像。在人臉擺正過程中,算法提議對(duì)所有圖像采用一個(gè)單一的3D形狀模型產(chǎn)生正面人臉圖像,并根據(jù)3D模型以及與之對(duì)應(yīng)的正面參考視圖進(jìn)行補(bǔ)全。同時(shí),通過使用一個(gè)很深的遞歸卷積神經(jīng)網(wǎng)絡(luò)引入超分辨率重構(gòu)模塊進(jìn)行重構(gòu)。由于遞歸的存在,網(wǎng)絡(luò)并未增加多余的參數(shù)且保證了較小的體量。為了降低模型訓(xùn)練的難度以及確保低分辨率圖像與高質(zhì)量圖像間的高度相關(guān)性,采取遞歸監(jiān)督和跳躍連接對(duì)網(wǎng)絡(luò)進(jìn)行改進(jìn)。
將LFW數(shù)據(jù)集進(jìn)行降采樣后得到LFW1數(shù)據(jù)集,并在其上實(shí)驗(yàn)的結(jié)果表明,本文的方法對(duì)于低質(zhì)量無約束人臉圖像在人臉驗(yàn)證以及性別估計(jì)的準(zhǔn)確率上具有明顯的提高作用,表現(xiàn)出該方法在諸如安保、人防等實(shí)際應(yīng)用中巨大的推廣價(jià)值。
References)
[1] 蘇楠,吳冰, 徐偉,等. 人臉識(shí)別綜合技術(shù)的發(fā)展[J]. 信息安全研究,2016, 2(1): 33-39.(SU N,WU B,XU W, et al. The comprehensive technology development of face recognition[J].Journal of Information Security Research, 2016,2(1):33-39.)
[2] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe: Curran Associates Inc., 2012: 1097-1105.
[3] HUANG G B, MATTAR M, BERG T, et al. Labeled faces in the wild: a database for studying face recognition in unconstrained environments[EB/OL].[2016- 11- 20]. http://cs.umass.edu/~elm/papers/lfw.pdf.
[4] DING C, XU C, TAO D. Multi-task pose-invariant face recognition[J]. IEEE Transactions on Image Processing, 2015, 24(3): 980-993.
[5] BLANZ V, VETTER T. Face recognition based on fitting a 3D morphable model[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(9): 1063-1074.
[6] BLANZ V, VETTER T. A morphable model for the synthesis of 3D faces[C]// Proceedings of the 26th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM, 1999:187-194.
[7] TAIGMAN Y, YANG M, RANZATO M, et al. DeepFace: closing the gap to human-level performance in face verification[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2014:1701-1708.
[8] ZHU Z, LUO P, WANG X, et al. Recover canonical-view faces in the wild with deep neural networks[EB/OL].[2016- 11- 20]. http://arxiv-web.arxiv.org/pdf/1404.3543v1.
[9] 賀飛翔, 趙啟軍. 基于深度學(xué)習(xí)的頭部姿態(tài)估計(jì)[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2016, 26(11):32-37.(HE F X,ZHAO Q J. Head pose estimation based on deep learning[J]. Computer Technology and Development, 2016,26(11):32-37.)
[10] 龍超. 圖像超分辨率重建算法綜述[J]. 科技視界,2015(13):88-89.(LONG C. Survey of super-resolution algorithms[J]. Science and Technology Vision, 2015(13):88-89.)
[11] BISWAS S, BOWYER K W, FLYNN P J. Multidimensional scaling for matching low-resolution face images[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(10):2019-2030.
[12] LI B, CHANG H, SHAN S, et al. Low-resolution face recognition via coupled locality preserving mappings[J]. IEEE Signal Processing Letters, 2010, 17(1):20-23.
[13] REN C X, DAI D Q, YAN H. Coupled kernel embedding for low resolution face image recognition[J]. IEEE Transactions on Image Processing, 2012, 21(8):3770-3783.
[14] SUN J, SUN J, XU Z, et al. Image super-resolution using gradient profile prior[C]// Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2008:1-8.
[15] KIM K I, KWON Y. Single-image super-resolution using sparse regression and natural image prior[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(6):1127-1133.
[16] WANG Z, LIU D, YANG J, et al. Deep networks for image super-resolution with sparse prior[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015:370-378.
[17] DONG C, LOY C C, HE K, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2):295-307.
[18] SCHULTER S, LEISTNER C, BISCHOF H. Fast and accurate image upscaling with super-resolution forests[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015:3791-3799.
[19] VIOLA P, JONES M J. Robust real-time face detection[J]. International Journal of Computer Vision, 2004, 57(2):137-154.
[20] XIONG X, TORRE F D L. Supervised descent method and its applications to face alignment[J]. Computer Vision & Pattern Recognition, 2013, 9(4):532-539.
[21] RAMANAN D, ZHU X. Face detection, pose estimation, and landmark localization in the wild[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 2879-2886.
[22] KAZEMI V, SULLIVAN J. One millisecond face alignment with an ensemble of regression trees[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2014: 1867-1874.
[23] HASSNER T, HAREL S, PAZ E, et al. Effective face frontalization in unconstrained images[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2014: 4295-4304.
[24] KUTULAKOS K N, SEITZ S M. A theory of shape by space carving[C]// Proceedings of the 7th IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 1999: 307-314.
[25] ZENG G, PARIS S, QUAN L, et al. Progressive surface reconstruction from images using a local prior[C]// Proceedings of the 10th IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2005:1230-1237.
[26] OJALA T, PIETIKINEN M, MENPT. A generalized local binary pattern operator for multiresolution gray scale and rotation invariant texture classification[C]// Proceedings of the Second International Conference on Advances in Pattern Recognition. London: Springer-Verlag, 2001:397-406.
[27] OJALA T, PIETIKINEN M, MENPT. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7):971-987.
[28] WOLF L, HASSNER T, TAIGMAN Y. Descriptor based methods in the wild[EB/OL].[2016- 11- 20]. http://www.openu.ac.il/home/hassner/projects/Patchlbp/WolfHassnerTaigman_ECCVW08.pdf.
This work is partially supported by the National Natural Science Foundation of China (61373060,61672280); Qing Lan Project.
SUNQiang, born in 1992, M. S. candidate. His research interests include computer vision, face recognition.
TANXiaoyang, born in 1971, Ph. D., professor. His research interests include computer vision, pattern recognition, machine learning.
Super-resolutionandfrontalizationinunconstrainedfaceimages
SUN Qiang*,TAN Xiaoyang
(CollegeofComputerScienceandTechnology,NanjingUniversityofAeronauticsandAstronautic,NanjingJiangsu210016,China)
Concerning the problem that face recognition is affected by the factors such as attitude, occlusion, resolution and so on, a method for image super-resolution and face frontalization in unconstrained image was proposed, which could generate high-quality and standard front images. The projection matrix between the input image and 3D model was estimated to generate the standard front image. Also, through the characteristics of face symmetry, the missing pixels by occlusion and attitude could be filled. In order to avoid the loss of pixel information during the process of generating standard front image and improve the image quality, a deeply-recursive convolutional network which had 16 layers was introduced for image super-resolution. To ease the difficulty of training, two extensions were proposed:recursive-supervision and skip-connection. The experimental results on the processed LFW datasets show that it is surprisingly effective when used for face recognition and gender estimation.
face recognition; face frontalization; 3D reconstruction; image super-resolution; deeply-recursive convolutional network
2017- 05- 11;
2017- 06- 27。
國家自然科學(xué)基金資助項(xiàng)目(61373060,61672280);青藍(lán)工程。
孫強(qiáng)(1992—),男,陜西西安人,碩士研究生,主要研究方向:計(jì)算機(jī)視覺、人臉識(shí)別; 譚曉陽(1971—),男,重慶人,教授,博士,CCF會(huì)員,主要研究方向:計(jì)算機(jī)視覺、模式識(shí)別、機(jī)器學(xué)習(xí)。
1001- 9081(2017)11- 3226- 05
10.11772/j.issn.1001- 9081.2017.11.3226
(*通信作者電子郵箱15251767790@163.com)
TP389.1
A