朱喜梅,李 蕊
基于低分辨率輸入圖像的年齡識別方法
朱喜梅1,李 蕊2,3
(1. 中原科技學院文學與傳媒學院,河南 鄭州 450046; 2. 南陽理工學院計算機與軟件學院,河南 南陽 473000; 3. 青海師范大學計算機學院,青海 西寧 810008)
針對通常獲取到的人臉圖像,由于分辨率較低會丟失人臉原本的皺紋等特征信息,從而降低年齡識別的性能的問題,提出一種基于低分辨率輸入圖像的年齡識別方法:首先使用條件生成對抗網絡(CGAN)對輸入的低分辨人臉圖像進行重構,再采用深度學習方法進行年齡識別。并進行了關于圖像重構的對比實驗,然后在不同的人臉圖像數據集上進行了關于年齡識別的結果對比。通過與其他深度學習方法關于信噪比、峰值信噪比與平均絕對誤差的實驗對比,表明了該方法在圖像重構與年齡識別2方面的有效性。此外,對該方法的時間復雜度進行了分析。
低分辨率;年齡識別;深度學習;時間復雜度
人臉圖像傳達了重要的生物學信息,其中包括身份、年齡、性別和表情等各種特征?;谌四槇D像的年齡識別方法可應用于多個領域,包括商品的需求分析和推薦、公安干警的現(xiàn)勘刑偵等。人臉隨著時間的推移而老化,且每個人都會經歷不同的衰老過程,雖然衰老過程各異,但仍可用一般且共通的特征對其進行解釋[1]。由于人臉的衰老是一個緩慢而復雜的過程,隨著時間的推移,會受到每個人內在和外在因素的影響。另外,由于不同年齡的人衰老的平穩(wěn)性差異較大,使得各年齡段的人臉特征空間又具有差異性。因此,基于人臉圖像的年齡識別不如身份或性別等其他類型的識別準確。一般的年齡識別算法包括2個步驟:特征提取和年齡函數的學習,特征提取將人臉在衰老過程中的外觀變化轉化為用于年齡識別的特征[2],可分為局部特征和全局特征[3]。前者通常來源于額頭、眼圈、臉頰等明顯顯示年齡相關特征的部位,而后者通常來源于整張人臉。年齡函數學習的目的是通過提取到的特征來進行年齡識別,通??山榉诸惸P突蚧貧w模型。在分類模型中,假設類標簽是相互獨立的。然而,由于年齡標簽是一個有序集,具有很強的順序關系,所以分類模型在近年來很少使用?;貧w模型將年齡標簽視為實數值[4]。然而,每個人臉都會因個體差異而經歷不同的衰老過程[5],因此會產生非平穩(wěn)的隨機過程。由于在回歸模型中通常會涉及到學習非平穩(wěn)核函數,因而很容易發(fā)生過擬合現(xiàn)象[6]。
近年來,能夠將特征提取和年齡識別包含在一體的端到端結構的深度學習方法被引入到年齡識別當中。文獻[7]提出了一種標簽擴展方案,從弱監(jiān)督分類標簽中增加正確標簽的數量,以用于年齡估計。文獻[8]利用基于標簽敏感的深度度量學習方法,將人臉樣本投影到一個潛在的公共空間,通過深度殘差網絡尋找一系列的非線性變換。文獻[9]結合不同類型的特征提取方法,通過特征和分值的二級融合實現(xiàn)對人臉年齡的精確識別。文獻[10]將卷積神經網絡(convolutional neural network,CNN)中的多層特征與一系列年齡相關的手工特征結合,從而進行年齡識別。文獻[11]提出了一種新的深層神經網絡結構,即有向無環(huán)CNN,利用CNN不同層的多階段特征進行年齡識別。
如上文獻進行的人臉圖像為輸入的年齡識別方法。然而,當使用低質量模組的相機采集圖像,或在距離較遠的地方獲得人臉圖像時,圖像的分辨率會降低。此時人臉的皺紋和紋理會丟失,從而無法獲得年齡識別的關鍵特征[12]。解決低分辨率輸入問題最常用的方法是圖像重構,將低分辨率圖像重構為高分辨率圖像。過去的圖像重構方法通常采用雙三次插值、最近鄰插值、基于實例的方法或基于稀疏編碼的方法。近年來,基于CNN的圖像重構技術被用于場景圖像的清晰化成像[13-14]。文獻[13]利用超分辨率CNN,擴充了基于稀疏編碼的方法。該架構由特征提取層(由低分辨率圖像生成特征圖),非線性映射層(將特征圖由低分辨率映射為高分辨率)和分辨率重構層(從高分辨率特征地圖重建高分辨率圖像)。文獻[14]通過引入生成對抗網絡(generative adversarial network,GAN)[15]解決街景圖像的分辨率問題。其使用殘差網絡[16]中的快捷連接,在分類和構造生成器(generator)方面均取得了良好的效果。并將經過預訓練的VGG網絡[17]的卷積核轉換成連續(xù)的3×3卷積核以此構造鑒別器(discriminator)。此外,利用生成器和鑒別器的交叉熵作為損失函數,提出了一種基于整流線性單元(rectified linear unit,ReLU)的損失函數,以此代替會引起高頻細節(jié)損失的像素級均方誤差損失函數(mean square error,MSE)。但是由于GAN的模態(tài)崩潰問題(mode collapsing problem)[15],其損失函數很難收斂,即使實現(xiàn)了收斂,訓練的效果也無法保證。
上述現(xiàn)有的圖像重構方法主要集中于提高一般場景圖像的分辨率,很少涉及到低分辨率圖像的年齡識別,即使有,也只考慮了圖像中出現(xiàn)的光學模糊或運動模糊問題[18-20],并未考慮到低分辨率下的年齡識別問題。為了更好地解決該問題,本文首先利用條件生成對抗網絡(conditional generative adversarial network,CGAN)將低分辨率人臉圖像重建為高分辨率人臉圖像,然后將其作為CNN的輸入得到人臉的年齡值。與以往的方法相比,本文方法在以下幾個方面具有創(chuàng)新性:
(1) 使用低分辨率人臉圖像進行年齡識別;
(2) 針對低分辨率輸入,提出了一種不需要單獨預處理的采用CGAN的圖像重構方法;
(3) 將采用CGAN的圖像重構與采用CNN進行年齡識別的過程分開進行,在降低了訓練復雜度的同時也提高了學習速度;
(4) 本文使用的CGAN和CNN以及人臉圖像數據集皆為開源可獲取的,因此便于后來的研究者對其進行發(fā)展與擴充。
本文方法總體架構如圖1所示,首先檢測人臉和眼睛的位置;其次利用檢測到的人臉和眼睛來補償在收集圖像時可能出現(xiàn)的仿射變換并對人臉的感興趣區(qū)域(region of interesting,ROI)重新定義(見1.2節(jié));然后使用CGAN[21]對預處理得到的低分辨率人臉圖像進行重構;最后利用CNN模型對重構后的人臉圖像進行年齡識別。
圖1 本文方法流程圖
通常,數據集中的原始人臉圖像不會是完全對齊,其所在區(qū)域還可能包括不具有年齡信息的部分。該不足可能會影響年齡識別的性能,因此有必要刪除該冗余背景區(qū)域,以便進行后續(xù)處理。本文進行的預處理如圖2所示。
圖2 本文方法的預處理圖示((a)原始人臉圖像;(b)人臉檢測結果;(c)人臉對齊與ROI重新定義)
首先,使用Adaboost方法在輸入圖像中檢測出人臉[22]。再進一步在該范圍內檢測出雙眼可能的位置。在預處理步驟中,原本考慮使用文獻[23]中基于空間注意力模塊(spatial attention module)的方法。但該方法有3個缺點:①為了獲得人臉和雙眼的ROI,需要對空間注意力模塊生成的類激活圖進行精確的閾值分割,增加了計算復雜度。②經過類激活圖得到的ROI較為粗略,而預處理步驟需要得到比較精確的ROI。③空間注意力模塊需要額外的訓練?;谏鲜隹紤],本文選取了較為傳統(tǒng)的Adaboost方法檢測臉部和雙眼的ROI。
圖2顯示了檢測到的人臉和眼睛的位置。根據此信息,利用雙線性插值對人臉圖像的放射變換進行校正,旋轉校正使用的角度為
其中,R和R分別為右眼的橫坐標與縱坐標;L和L分別為左眼的橫坐標與縱坐標。
最后為了去除背景區(qū)域,使用雙眼的位置并利用文獻[18-20]的方法重新確定人臉圖像的ROI,最終得到的圖像如圖2所示。
為了進行基于低分辨率輸入圖像的魯棒人臉年齡識別,本文使用CGAN進行超分辨率重構,在生成器與鑒別器之間進行對抗學習[21]。即利用生成器的編碼器提取低分辨率人臉圖像的特征,而解碼器將提取的特征與對應的高分辨率圖像塊進行匹配,從而提高分辨率?,F(xiàn)有的GAN接收隨機噪聲向量和圖像IN作為輸入,并創(chuàng)建OUT作為偽圖像,得到一個經過訓練映射到OUT的模型[24]。此時,鑒別器進行學習以區(qū)分OUT和TAEGET,其中前者為虛假的圖像而后者為真實的圖像。生成器學習如何欺騙鑒別器將OUT看作真實圖像。相應地,損失函數[24]為
其中,為生成器;為鑒別器。由于本文是通過對抗學習而進行的圖像重構,因此以低分辨率人臉圖像(LOW)和高分辨率原始人臉圖像(HIGH)分別作為輸入,從而使網絡能夠學習從RECONSTRUCTION到HIGH的映射。CGAN的此過程如圖3所示。
圖3 CGAN的處理過程
Fig.3 The internal running program of CGAN
本文中,生成器學習將對應于低分辨率人臉圖像IN(LOW)的高分辨率重構人臉圖像OUT(RECONSTRUCTION)如何映射至高分辨率原始人臉圖像TAEGET(HIGH)。鑒別器不是簡單地區(qū)分人臉圖像,而是將OUT和TAEGET與IN聯(lián)系起來。根據IN得到的映射被加強。因此,損失函數為
文獻[25]將現(xiàn)有的損失函數添加到GAN的生成器中。本文中的鑒別器作用同樣如此,但是文獻[25]中的生成器通過計算OUT和TAEGET之間的L2距離來生成清晰的圖像。然而,L2距離比L1距離更容易產生模糊的圖像。為此,文獻[21]將由式(4)中的L1添加到GAN的損失函數中,得到
因此,使用的最終損失函數為
1.3.1 生成器
基于深度學習的圖像重構是一個從低分辨率圖像中提取特征并獲得相應的高分辨率圖像的映射過程。此外,圖像重構應盡可能保留原有的外部細節(jié)和形狀。以前多使用編解碼器網絡(encoder- decoder network)來創(chuàng)建和轉換圖像[25-29],本文則通過為編解碼器網絡添加跳躍連接(skip connection)從而構建一種U-net結構[30]。并將第個編碼器層的特征與第個解碼器層的特征進行串聯(lián),以盡可能保留外部細節(jié)和形狀。因為在圖像重構中采用了原始的CGAN[21],所以在生成器中也使用了U型網絡,其中跳躍連接是網絡的重要組成部分,如圖4所示。
圖4中的生成器是由8個編碼器和8個解碼器單元組成的編解碼器結構。每個編碼器單元包括卷積(convolution),批量歸一化(batch normalization)和Leaky ReLU (其中第一個卷積層中不包括批量歸一化)。每個解碼器單元包括反卷積,并利用Dropout進行批量歸一化來獲得隨機噪聲向量。與編碼器不同,解碼器使用ReLU而不是Leaky ReLU。最后,從解碼器獲得的特征輸入至tanh函數中。
1.3.2 鑒別器
訓練鑒別器以區(qū)分真圖和偽圖。圖像IN輸入后,通過卷積提取特征,并生成圖像OUT或輸入圖像IN和目標圖像TAEGET。為了區(qū)分真?zhèn)螆D像,從最后一層提取的大小為30×30×1特征圖未針對L1和L2損失函數進行核對,而是對每個網格(grid)分別進行判斷,以此檢查每個圖像的細節(jié)和形狀(本文感受野為70×70),此外也可以最小化由L1和L2損失引起的圖像模糊問題。本文利用馬爾可夫隨機場將真實圖像與偽圖像進行區(qū)分,即patchGAN。patchGAN的patch在整張圖像中移動并判斷該局部區(qū)域是真是偽。因為每個patch都是獨立的,因此鑒別器有效地將圖像建模為馬爾可夫隨機場[21]。鑒別器的輸出是一個概率矩陣,其中每個元素都提供了使用馬爾可夫隨機場或patchGAN采樣的一對對應patches是真的概率。鑒別器的架構如圖5所示。
圖4 生成器的架構
生成器使用創(chuàng)建的圖像OUT來學習欺騙鑒別器。隨著訓練時間的增加,生成器學習的不是創(chuàng)建與真實圖像相似的圖像,而只是簡單地欺騙鑒別器。因此,鑒別器也會被錯誤地訓練。本文使得鑒別器學習目標圖像,從而保持真實圖像的特征。此外,OUT和TAEGET并不是簡單的輸入,而是與IN串聯(lián)(concatenation),以此可以訓練鑒別器更好地表達IN的細節(jié)和形狀。
本文使用重構后的人臉圖像訓練CNN以進行年齡估計?;跉埐罹W絡[16],DEX[31],帶有隨機森林的INCEPTION-V2[32]以及AGE-NET[33]4個深度網絡進行年齡判別。
圖5 鑒別器的架構
1.4.1 殘差網絡
ResNet是一個已經被證實在分類任務中表現(xiàn)優(yōu)異的CNN[16]。其由3×3和1×1大小的連續(xù)濾波器組成的瓶頸結構(bottleneck block)和一個可以將前一層的特征圖與殘差塊后的特征圖連接起來的跳躍連接(skip connection)結構組成,由此降低特征圖的維數和復雜性。此外,由于采用了批量歸一化,因此小批量數據的特征圖可以根據其均值與標準差進行標準化處理,學習速率也得到了提高。ResNet的深度主要取決于殘差塊的數量。本文使用了ResNet-50和ResNet-152網絡。在網絡最后一個全連接層后,應用softmax函數進行分類,從而得到所有類別的概率。
1.4.2 DEX
DEX[31]是一個在Chalearn年齡識別競賽中排名第一的網絡。DEX的體系結構與VGG-16[17]相同,其是通過ImageNet,IMDB[34]和WIKI[35]數據集預訓練的模型構建的。對于年齡識別而言,其未使用CNN中標準softmax函數來得到類別概率,而是在softmax函數之后輸出每個類標簽和概率的乘積和作為年齡,即
其中,c和o分別為第個類的標簽和概率值;為輸入圖像識別到的年齡值。所有的卷積層和全連接層均采用RELU作為激活函數。此外,在第1次和第2次最大池化后,還進行了局部響應歸一化(local response normalization)。在全連接層中使用dropout減小過擬合。使用均值為0,標準差為0.01的高斯分布對權重進行隨機值初始化。
1.4.3 帶有隨機森林的INCEPTION-V2
文獻[32]使用了Inception-v2[36]來估計年齡。該方法在Chalearn年齡識別競賽中表現(xiàn)良好(排名第四)。Inception-v2與先前的Inception-v1有相同的架構,即使用不同大小的濾波器構建了一個寬層次(wide)而不是深層次(deep)的網絡。Inception-v2是通過將批處理歸一化添加到Inception-v1的Inception塊中創(chuàng)建的。在文獻[32]中,首先對Inception-v2進行了訓練,然后提取來自隨機森林的特征對Inception-2進行訓練,最后進行人臉圖像的年齡識別。
1.4.4 AGE-NET
文獻[33]采用VGG[17]和AGE-NET進行年齡識別。該方法在Chaleran年齡識別競賽中同樣取得了良好的成績(排名第五)。其學習過程包括2個步驟:①首先將由ImageNet數據集預訓練后的VGG通過MORPH數據集進行微調。然后,將不同的開源數據集混合并分為2組,分別采用KL散度損失和softmax損失函數進行參數的學習。該方法創(chuàng)建了4個微調模型,并在每個模型的最后一層使用基于距離的投票式集成方法來創(chuàng)建一個串聯(lián)的特征映射。②使用不同的開源數據集和KL散度損失函數對AGE-NET進行訓練。VGG和AGE-NET具有相同的輸出維度。如果2個網絡之間的年齡識別差異<11歲時,則其平均值被確定為預測年齡;當差值≥11歲時,采用第一個網絡(VGG)的結果作為預測年齡。
本文使用PAL[37]和MORPH數據集[38]進行實驗。
PAL數據集是一個包含18~93歲的人臉圖像數據集,其中白種人和非裔美國人分別占76%和16%,剩下的8%有亞洲、南亞和西班牙裔背景,本文從中截取了580張較為中性的人臉圖像進行實驗(圖6)。這580張圖像按1.2節(jié)所述進行預處理,并重新定義人臉ROI。對圖像進行了8個方向(由左至右,由上至下)的預處理,其中平移操作分3步進行,如圖7所示。通過對高分辨率的人臉圖像進行水平方向的鏡像,總共獲得了580(8×3+1)× 2=29000張數據增強的圖像。由于本方法需要生成高分辨率和低分辨率的人臉圖像,因此通過雙線性插值將256×256大小的高分辨率圖像轉換為8×8大小的低分辨率圖像,從而降低了增強后數據的分辨率,結果共獲得高分辨率和低分辨率人臉圖像共計29 000對。
圖6 PAL示例圖像
圖7 圖像平移
MORPH數據集包含了13 617個人的55 134張人臉圖像,年齡從16~77歲。從該數據集中,隨機選擇了1 000張不同個人、不同年齡和不同性別的圖像進行實驗,如圖8所示。數據擴充的方式與圖7中相同。在PAL數據集應用了四折交叉驗證,而對MORPH數據集應用了二折交叉驗證。表1給出了實驗中使用的PAL和MORPH數據集在每個交叉驗證中的原始圖像和數據擴充后圖像的數量。擴充后的圖像僅用于訓練CGAN和年齡識別的CNN。未進行擴充的原始圖像用于測試環(huán)節(jié)。
圖8 MORPH示例圖像
表1 數據集協(xié)議下的數量情況
在實驗中,使用了一臺配備了3.50 GHz CPU (Intel ?CoreTMi7-3770K)和24 GB RAM的臺式計算機。在網絡的訓練和測試過程中使用了Ubuntu Caffe。顯卡是Nvidia GeForce GTX 1070,其有1 920個CUDA內核和8 GB RAM。使用了OpenCV庫,提取人臉ROI。
低分辨率人臉圖像和高分辨率人臉圖像分別作為IN和TAEGET來訓練CGAN,如圖9所示。
圖9 用于訓練的高分辨-低分辨圖像對
經過數據增強后的圖像被調整到286×286大小,然后被隨機裁剪成256×256,再進行訓練。Adam優(yōu)化器[39]被用于網絡參數的更新。學習率為0.000 2,1和2分別設置為0.500和0.999。學習過程包括40個epochs。圖10 (鑒別器)和11 (生成器)顯示了在使用PAL數據集時,根據epoch變化時CGAN的訓練損失。由圖中可以看出,經過一段時間,損失值趨于收斂。
圖10 鑒別器的損失值變化情況
本文首先使用CGAN重構人臉圖像,然后訓練CNN進行年齡識別。各種CNN網絡都通過擴充后的數據進行了微調,且這些網絡均訓練了100個epochs。其中DEX在利用CGAN重構的圖像進行訓練和測試的CNN中達到了最好的年齡識別性能。圖12顯示了經過PAL數據集訓練的DEX年齡識別的損失和準確率,可以看出DEX通過重構后的圖像得到了充分的訓練。
圖11 生成器的損失值變化情況
圖12 DEX的損失與準確率變化情況
本文首先對提出的圖像重構方法進行了實驗(表2),并比較了本文方法CGAN,VDSR[40],DCSCN[41],SRGAN[42]4種方法在峰值信噪比(peaksignaltonoiseratio,PSNR)和信噪比(signaltonoiseratio,SNR)方面的重構結果。
表2 不同方法的圖像重構結果
由表2可知,本文方法的PSNR和SNR均高于VDSR和SRGAN,但低于DCSCN。然而,當基于DEX比較年齡識別精度時,本文方法比其他3種方法皆顯示出更高的精確性(表3)。
表3 重構后的年齡識別MAE結果對比
表3中DCSCN方法重建的圖像數值高于本文方法,如圖13所示,DCSCN方法重建的圖像比本文方法模糊。
圖13 不同方法的圖像重構效果對比((a)原始低分辨率圖像;(b)VDSR方法;(c)DCSCN方法;(d) SRGAN方法;(e)本文方法;(f)原始高分辨率圖像)
由于DCSCN方法生成的圖像較為模糊,說明其噪聲較少(圖13(c)),其PSNR和SNR結果皆優(yōu)于本文方法。然而,生成的模糊圖像中,其人臉特征不明顯,這使得年齡識別的精度低于本文方法。
此外,圖13中PAL數據集的一些圖像重構結果表明,與VDSR和DCSCN方法相比,本文方法能產生更接近原始的高分辨率圖像。
年齡識別中的準確性評價指標為平均絕對誤差(mean absolute error,MAE),即
其中,為輸入圖像的數量;f為識別到的年齡;y為真實年齡。表4和5分別比較了PAL和MORPH數據集中使用原始圖像、低分辨率圖像和重構圖像的不同年齡識別方法的性能。其中每種方法原本由特定的數據集進行預訓練,然后通過本文使用的PAL和MORPH數據集進行微調。注意到基于MORPH數據集訓練ResNet時,未采用Adaboost方法進行人臉和雙眼檢測,而是使用Dlib人臉特征跟蹤器[43]進行人臉檢測,最終采用與DEX相同的方式得到年齡識別值。
表4 在PAL中基于不同CNN的年齡識別MAE結果對比
表4和5中,使用低分辨率圖像時所有年齡識別方法的精度都低于使用原始高分辨率數據時的精度。當采用本文的圖像重構方法再進行年齡識別時,精度高于低分辨率圖像(低于高分辨率原始圖像)。此外,將本文圖像重構方法和DEX結合時,獲得了最好的年齡識別精度。
表5 在MORPH中基于不同CNN的年齡識別MAE結果對比
圖14顯示了正確的年齡識別情況。表中的低分辨率結果是通過DEX中的方法得出的(下面的表格為其對應MAE值)。可以看出,在每種情況下,本文方法皆比低分辨率圖像識別到的年齡更接近實際年齡。圖14中,本文方法即使在低分辨率的老年人人臉圖像上也能正確地恢復紋理和皺紋,與低分辨率圖像相比,本文方法得到的人臉圖像的年齡值更接近真實年齡。
圖14 正確的年齡識別結果((a)真實圖像;(b)低分辨率圖像;(c)重構圖像)
圖15顯示了錯誤的年齡識別情況。可以看到,在有些情況下重構后的人臉圖像中錯誤生成的斑痕或皺紋會導致年齡識別的較大誤差。
圖15 錯誤的年齡識別結果((a)真實圖像;(b)低分辨率圖像;(c)重構圖像)
此外,還進行了這樣的實驗:首先對通過重構后的圖像在水平和垂直方向上進行2倍的下采樣,然后使用高斯濾波器進行隨機模糊,最后使用雙三次插值在水平和垂直方向上進行兩倍的上采樣,得到的年齡識別結果見表6。
表6 在MORPH中對數據進行擾動后基于不同CNN的年齡識別MAE結果對比
由表6可以看到,此實驗得到的年齡識別精度與表5中的結果相當,表明本文方法對這種退化并不敏感。
其實在上述中隱含著消融實驗,即比較了使用與不使用CGAN的年齡識別方法的準確性。表5和6中,明顯先進行圖像重構的年齡識別準確性更好。
本節(jié)中對所提出方法的處理時間進行了評估,其中關于實驗中使用的臺式計算機配置在2.1節(jié)中已經進行了描述,結果表明本文在圖像重構時所花費的時間為11.2 ms,進行年齡估計時花費的時間為24.8 ms,因此每幀的平均處理時間約為36 ms,即本文方法的處理速度約為27.8幀/秒。
基于人臉圖像的年齡識別在諸如商品推薦,現(xiàn)場刑偵等許多領域皆有應用。然而,若使用低分辨率的相機捕獲圖像或距受試者的距離較遠,則人臉圖像的分辨率會降低。在這種情況下,人臉中的皺紋或其他紋理等信息將會缺失,導致年齡方面重要的特征無法獲得,嚴重影響年齡識別的精度?,F(xiàn)有的年齡識別方法很少涉及低分辨率圖像而通常只使用在受限環(huán)境下捕獲的高分辨率的人臉圖像。為了克服這一局限性,本文提出了一種基于CGAN的人臉圖像重構下的年齡識別方法。首先利用CGAN將低分辨率的人臉圖像重構為高分辨率圖像,然后將得到的圖像作為輸入進行年齡識別。在2個開源數據集PAL和MORPH上的結果表明,本文方法在圖像重構和年齡識別方面皆具有優(yōu)越性,其中圖像重構結合年齡識別方法取得的準確率高于僅使用低分辨率圖像進行的年齡識別。未來的研究方向將是圖像重構與視頻下的年齡識別方法相結合。此外,還需要確定所提出的方法對低照度環(huán)境下獲取的人臉圖像是否仍然有效。
[1] ALBERT A M, RICANEK K, PATTERSON E. A review of the literature on the aging adult skull and face: implications for forensic science research and applications[J]. Forensic Science International, 2007, 172(1): 1-9.
[2] KANNALA J, RAHTU E. BSIF: binarized statistical image features[C]//The 21st International Conference on Pattern Recognition (ICPR 2012). New Yow: IEEE Press, 2012: 1363-1366.
[3] SUO J, CHEN X, SHAN S, et al. A concatenational graph evolution aging model[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(11): 2083-2096.
[4] NIU Z X, ZHOU M, WANG L, et al. Ordinal regression with multiple output CNN for age estimation[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 4920-4928.
[5] RAMANATHAN N, CHELLAPPA R, BISWAS R. Computational methods for modeling facial aging: a survey[J]. Journal of Visual Languages & Computing, 2009, 20(3): 131-144.
[6] HUERTA I, FERNáNDEZ C, PRATI A. Facial age estimation through the fusion of texture and local appearance descriptors[C]//European Conference on Computer Vision - ECCV 2014 Workshops.Heidelberg: Springer, 2015: 667-681.
[7] YOO B, KWAK Y, KIM Y, et al. Deep facial age estimation using conditional multitask learning with weak label expansion[J]. IEEE Signal Processing Letters, 2018, 25(6): 808-812.
[8] LIU H, LU J W, FENG J J, et al. Label-sensitive deep metric learning for facial age estimation[J]. IEEE Transactions on Information Forensics and Security, 2018, 13(2): 292-305.
[9] TAHERI S, TOYGAR ?. Integrating feature extractors for the estimation of human facial age[J]. Applied Artificial Intelligence, 2019, 33(5): 379-398.
[10] TAHERI S, TOYGAR ?. Multi-stage age estimation using two level fusions of handcrafted and learned features on facial images[J]. IET Biometrics, 2019, 8(2): 124-133.
[11] TAHERI S, TOYGAR ?. On the use of DAG-CNN architecture for age estimation with multi-stage features fusion[J]. Neurocomputing, 2019, 329: 300-310.
[12] ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks[C]//European Conference on Computer Vision – ECCV 2014. Heidelberg: Springer, 2014: 818-833.
[13] DONG C, LOY C C, HE K M, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2): 295-307.
[14] LEDIG C, THEIS L, HUSZáR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 105-114.
[15] MIRZA M, OSINDERO S. Conditional generative adversarial nets[EB/OL]. [2021-01-09]. https://arxiv.org/abs/1411.1784.
[16] LI X L, DING L K, WANG L, et al. FPGA accelerates deep residual learning for image recognition[C]//2017 IEEE 2nd Information Technology, Networking, Electronic and Automation Control Conference (ITNEC). New York: IEEE Press, 2017: 837-840.[LinkOut]
[17] ZHOU B, KHOSLA A, LAPEDRIZA A, et al. Object detectors emerge in Deep Scene CNNs[EB/OL]. [2021-01-27]. http:// dspace.mit.edu/handle/1721.1/96942.
[18] NGUYEN D T, CHO S R, PHAM T D, et al. Human age estimation method robust to camera sensor and/or face movement[J]. Sensors: Basel, 2015, 15(9): 21898-21930.
[19] NGUYEN D, CHO S, PARK K. Age estimation-based soft biometrics considering optical blurring based on symmetrical sub-blocks for MLBP[J]. Symmetry, 2015, 7(4): 1882-1913.
[20] KANG J, KIM C, LEE Y, et al. Age estimation robust to optical and motion blurring by deep residual CNN[J]. Symmetry, 2018, 10(4): 108.
[21] DONG H, NEEKHARA P, WU C, et al. Unsupervised image-to-image translation with generative adversarial networks[EB/OL]. [2021-01-10]. https://arxiv.org/abs/1701.02676.
[22] VIOLA P, JONES M J. Robust real-time face detection[J]. International Journal of Computer Vision, 2004, 57(2): 137-154.
[23] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]//European Conference on Computer Vision – ECCV 2018. Heidelberg: Springer, 2018: 3-19.
[24] GOODFELLOW I J,POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//The 27th International Conference on Neural Infornation Processing Systems. New York: ACM Press, 2014:1-9.
[25] PATHAK D, KR?HENBüHL P, DONAHUE J, et al. Context encoders: feature learning by inpainting[J]. 2016 IEEE Conference on Computer Vision and Pattern Recognition: CVPR, 2016: 2536-2544.
[26] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.
[27] SHAHIDI F. Breast cancer histopathology image super-resolution using wide-attention GAN with improved Wasserstein gradient penalty and perceptual loss[J]. IEEE Access, 2021, 9: 32795-32809.
[28] DUTTA J K, BANERJEE B. Learning features and their transformations from natural videos[C]//2014 IEEE Symposium on Computational Intelligence in Dynamic and Uncertain Environments (CIDUE). New York: IEEE Press, 2014: 55-61.
[29] YOO D, KIM N, PARK S, et al. Pixel-level domain transfer[M]//European Conference on Computer Vision – ECCV 2016. Heidelberg: Springer, 2016: 517-532.
[30] CHO C, LEE Y H, PARK J, et al. A self-spatial adaptive weighting based U-net for image segmentation[J]. Electronics, 2021, 10(3): 348.
[31] ROTHE R, TIMOFTE R, VAN GOOL L. DEX: deep EXpectation of apparent age from a single image[C]//2015 IEEE International Conference on Computer Vision Workshop (ICCVW). New York: IEEE Press, 2015: 252-257.
[32] ZHU Y, LI Y, MU G W, et al. A study on apparent age estimation[C]//2015 IEEE International Conference on Computer Vision Workshop (ICCVW). New York: IEEE Press, 2015: 267-273.
[33] HUO Z W, YANG X, XING C, et al. Deep age distribution learning for apparent age estimation[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). New York: IEEE Press, 2016: 722-729.[LinkOut]
[34] IMDb.com, Inc. IMDb database[EB/OL]. [2021-01-21]. https://www.imdb.com/interfaces.
[35] Wili.com. WIKI database[EB/OL]. [2021-02-03]. https://www.wikidata.org/wiki/Wikidata:Database_download.
[36] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 1-9.
[37] MINEAR M, PARK D C. A lifespan database of adult facial stimuli[J]. Behavior Research Methods, Instruments, & Computers, 2004, 36(4): 630-633.
[38] TouchNet Company. MORPH database[EB/OL]. [2021-02-11]. https://ebill.uncw.edu/C20231_ustores/web/store_main.jsp?STOREID=4.
[39] KINGMA D, BA J. Adam: amethod for stochastic optimization[EB/OL]. [2021-01-28].https://arxiv.org/abs/1412. 6980v8.
[40] HU S Y, WANG G D, WANG Y J, et al. Accurate image super-resolution using dense connections and dimension reduction network[J]. Multimedia Tools and Applications, 2020, 79(1):1427-1443.
[41] YAMANAKA J, KUWASHIMA S, KURITA T. Fast and accurate image super resolution by deep CNN with skip connection and network in network[C]//The 24th International Conference on Neural Information Processing. Heidelberg: Springer, 2017: 217-225.
[42] LEDIG C, THEIS L, HUSZáR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 105-114.
[43] KAZEMI V, SULLIVAN J. One millisecond face alignment with an ensemble of regression trees[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 1867-1874.
Age recognition method based on low resolution input image
ZHU Xi-mei1, LI Rui2,3
(1. School of Literature and Media, Zhongyuan Institute of Science and Technology, Zhengzhou Henan 450046 China; 2. School of Computer and Software, Nanyang Institute of Technology, Nanyang Henan 473000 China; 3. School of Computer Science, Qinghai Normal University, Xining Qinghai 810008, China)
If the accessed facial image is of low resolution, facial wrinkles and other characteristics of the information would often be lost, undermining the performance of age identification. In view of the existing age identification method lacking this research field and in order to solve this problem, this paper proposed an age identification method for low-resolution images by reconstructing the input low-resolution face images using conditional generative adversarial net (CGAN), and then identifying the age using the deep learning method. Firstly, a comparative experiment on image reconstruction was carried out, and then the results of age recognition were compared on different face image data sets. The experimental comparison with other deep learning methods on signal noise ratio, peak signal noise ratio, and mean absolute error shows the effectiveness of the proposed method in image reconstruction and age recognition. In addition, the time complexity of the proposed method was also analyzed.
low resolution; age recognition; deep learning; time complexity
TP 391
10.11996/JG.j.2095-302X.2021060931
A
2095-302X(2021)06-0931-10
2021-02-26;
2021-04-08
河南省教育廳人文社會科學研究項目(2019-ZDJH-189)
朱喜梅(1985-),女,河南鹿邑人,講師,碩士。主要研究方向為信息化教育與教學。E-mail:zhuxm904@126.com
26 February,2021;
8 April,2021
Humanities and Social Science Research Project of Education Department of Henan Province (2019-ZDJH-189)
ZHU Xi-mei (1985-), female, lecturer, master, Her main research interests cover information education and teaching. E-mail:zhuxm904@126.com