陳長(zhǎng)武 曹 林 郭亞男 杜康寧
(北京信息科技大學(xué)光電測(cè)試技術(shù)及儀器教育部重點(diǎn)實(shí)驗(yàn)室 北京 100101) (北京信息科技大學(xué)信息與通信工程學(xué)院 北京 100101)
隨著社會(huì)科技和民眾生活水平要求的不斷提高,人們迫切希望自己的生活環(huán)境更加智能化、更加安全化。與此同時(shí),生物特征識(shí)別技術(shù)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)得到快速的發(fā)展,高速度高性能的計(jì)算機(jī)出現(xiàn),人臉識(shí)別技術(shù)得到了前所未有的重視,其在視頻監(jiān)控、門禁系統(tǒng)、網(wǎng)絡(luò)應(yīng)用等各個(gè)方面得到了廣泛的實(shí)際應(yīng)用。隨著人們的需求和應(yīng)用場(chǎng)景的增加以及現(xiàn)實(shí)生活中人臉圖像具有多種表達(dá)形式,例如光學(xué)圖像、近紅外圖像[1]、熱紅外圖像、線條畫圖像[2]、素描圖像等,使得異質(zhì)人臉識(shí)別[3]成為了人臉識(shí)別領(lǐng)域中的研究熱點(diǎn)。異質(zhì)人臉識(shí)別旨在完成不同模態(tài)的兩幅人臉圖像之間的匹配,目前最困難的異質(zhì)人臉識(shí)別情景之一是將光學(xué)圖像與根據(jù)目標(biāo)的目擊者描述獲得的素描圖像相匹配,即素描人臉識(shí)別[4]。素描人臉識(shí)別最早提出于刑偵領(lǐng)域中,警方在處理刑偵案件時(shí),通常很難獲得犯罪嫌疑人的面部照片,唯一可用的信息是目擊者對(duì)嫌疑人面部的口頭描述,可供畫家繪制犯罪嫌疑人的面部素描,進(jìn)而搜索和匹配照片數(shù)據(jù)庫(kù)中的個(gè)體,并與證人進(jìn)行校驗(yàn),從而確定犯罪嫌疑人的身份。
目前被設(shè)計(jì)用于素描人臉識(shí)別的算法可以分為兩大類:模態(tài)內(nèi)算法和模態(tài)間算法[3]。模態(tài)內(nèi)算法通過將照片(素描)轉(zhuǎn)換成素描(照片),然后使用在該模態(tài)下設(shè)計(jì)的面部識(shí)別器將合成素描(照片)與原始素描(照片)進(jìn)行匹配,從而減少了模態(tài)差距。然而,僅當(dāng)原始素描圖像在外觀上與原始照片非常相似時(shí),這些方法才有較好的性能,此外,模態(tài)內(nèi)算法所使用的面部識(shí)別器的性能還取決于生成圖像的質(zhì)量。模態(tài)間算法通過將兩種不同模態(tài)的圖像特征劃分為公共空間,然后使用分類器進(jìn)行識(shí)別,模態(tài)間方法旨在學(xué)習(xí)能夠同時(shí)最大化類間差異和最小化類內(nèi)差異的分類器,較模態(tài)內(nèi)方法,降低了復(fù)雜度。由于素描圖像和光學(xué)圖像之間存在較大的模態(tài)差異,直接使用模態(tài)間方法取得的識(shí)別精度相對(duì)較低。并且,由于素描人臉圖像難以獲得,現(xiàn)有的素描人臉數(shù)據(jù)較少,上述兩種方法在訓(xùn)練較少數(shù)據(jù)時(shí),均存在易過擬合的問題。
為了解決上述問題,本文提出一種基于域自適應(yīng)均值網(wǎng)絡(luò)(Domain Adaptation Mean Networks,DAMN)的素描人臉識(shí)別方法。具體地,針對(duì)較少的訓(xùn)練數(shù)據(jù)易過擬合的問題,域自適應(yīng)均值網(wǎng)絡(luò)設(shè)計(jì)了一種針對(duì)素描人臉識(shí)別的元學(xué)習(xí)訓(xùn)練策略,將學(xué)習(xí)水平從數(shù)據(jù)提升到任務(wù),在訓(xùn)練過程中,每個(gè)任務(wù)針對(duì)前一個(gè)任務(wù),都存在新的類,極大地增強(qiáng)了模型的綜合泛化能力;在每個(gè)任務(wù)中,為提取判別性特征來提升識(shí)別率,域自適應(yīng)均值網(wǎng)絡(luò)引入了適合素描人臉識(shí)別的均值損失,通過將光學(xué)圖像和素描圖像映射到同一個(gè)度量空間中,均值損失模擬圖像樣本之間的距離分布,使得同類的樣本特征彼此靠近,異類的樣本特征彼此遠(yuǎn)離。最后,為了減少在訓(xùn)練過程中光學(xué)圖像和素描圖像間存在的模態(tài)間差異,域自適應(yīng)均值網(wǎng)絡(luò)引入了一個(gè)域自適應(yīng)模塊,通過不斷降低二者之間的最大平均差異來優(yōu)化網(wǎng)絡(luò)。
元學(xué)習(xí)[5-7]又稱為“學(xué)會(huì)學(xué)習(xí)(Learning to Learn)”,即利用以往的知識(shí)經(jīng)驗(yàn)來進(jìn)行新任務(wù)的學(xué)習(xí),具有學(xué)會(huì)學(xué)習(xí)的能力。元學(xué)習(xí)將學(xué)習(xí)水平從數(shù)據(jù)提升到任務(wù)[8],通過從一組標(biāo)記的任務(wù)中學(xué)習(xí),而不是傳統(tǒng)深度學(xué)習(xí)中的從一組標(biāo)記的樣本數(shù)據(jù)中學(xué)習(xí),從而實(shí)現(xiàn)在一定量的訓(xùn)練數(shù)據(jù)的情況下快速學(xué)習(xí)新類的分類器?,F(xiàn)有的元學(xué)習(xí)可分為三大類,第一類為基于優(yōu)化的元學(xué)習(xí)方法,Ravi等[9]提出基于LSTM的元學(xué)習(xí)優(yōu)化器,元學(xué)習(xí)器在考慮單個(gè)任務(wù)的短期記憶的同時(shí),也考慮了全部任務(wù)的長(zhǎng)期記憶,直接通過優(yōu)化算法來提升泛化性能;第二類為基于模型的元學(xué)習(xí)方法,Finn等[10]提出了Model-Agnostic元學(xué)習(xí)方法,該方法旨在尋找給定神經(jīng)網(wǎng)絡(luò)的權(quán)重配置,使得在幾個(gè)梯度下降更新步驟中有效地針對(duì)小樣本問題進(jìn)行微調(diào);第三類是基于度量學(xué)習(xí)的元學(xué)習(xí)方法,通過模擬樣本之間的距離分布,使同一類的樣本彼此靠近,不同類的樣本彼此遠(yuǎn)離。Vinyals等[11]提出了匹配網(wǎng)絡(luò)(Matching Networks),該網(wǎng)絡(luò)使用一種注意機(jī)制,通過學(xué)習(xí)嵌入已標(biāo)記的樣本集(支持集)來預(yù)測(cè)未標(biāo)記點(diǎn)(查詢集)的類。
國(guó)內(nèi)外研究人員對(duì)基于度量學(xué)習(xí)的元學(xué)習(xí)方法進(jìn)行了大量研究,并且提出了許多基于該方法的圖像識(shí)別方法,廣東大學(xué)的Wang等[12]提出了孿生網(wǎng)絡(luò)(Siamese Networks),通過從數(shù)據(jù)中學(xué)習(xí)一個(gè)相似性度量,用學(xué)習(xí)到的度量去比較和匹配新的未知類別的樣本;阿姆斯特丹大學(xué)的Garcia等[13]提出了圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network),該方法定義了一個(gè)圖神經(jīng)網(wǎng)絡(luò),端到端地學(xué)習(xí)信息傳遞的關(guān)系型任務(wù),將每個(gè)樣本看做圖的節(jié)點(diǎn),該方法不僅學(xué)習(xí)節(jié)點(diǎn)的嵌入,也學(xué)習(xí)邊的嵌入。雖然元學(xué)習(xí)在圖像識(shí)別領(lǐng)域取得了重大進(jìn)展,但仍未被應(yīng)用到素描人臉識(shí)別領(lǐng)域當(dāng)中。
域自適應(yīng)均值網(wǎng)絡(luò)架構(gòu)如圖1所示,由一個(gè)元網(wǎng)絡(luò)和域自適應(yīng)模塊組成。針對(duì)現(xiàn)公開的素描人臉圖像數(shù)據(jù)較少,且傳統(tǒng)的深度學(xué)習(xí)方法在少量訓(xùn)練數(shù)據(jù)情況下易過擬合,進(jìn)而導(dǎo)致識(shí)別性能受到影響的問題,本文設(shè)計(jì)元網(wǎng)絡(luò),將學(xué)習(xí)水平提升至任務(wù),避免了在現(xiàn)有數(shù)據(jù)量不多的情況下易過擬合的問題,并且實(shí)現(xiàn)了更好的識(shí)別性能。在元網(wǎng)絡(luò)中,通過特征提取器,分別得到元任務(wù)中的光學(xué)圖像和素描圖像的特征向量后,利用二者在特征空間的度量關(guān)系計(jì)算得到均值損失。針對(duì)素描圖像和光學(xué)圖像間的模態(tài)差異的問題,引入了域自適應(yīng)模塊,通過最小化特征空間中素描圖像和光學(xué)圖像之間的最大平均差異,來降低模態(tài)差異對(duì)識(shí)別性能的影響。
傳統(tǒng)的基于深度學(xué)習(xí)的素描人臉識(shí)別方法,在訓(xùn)練數(shù)據(jù)較少時(shí),存在易過擬合而導(dǎo)致性能較差的問題,因此本文借鑒經(jīng)典元學(xué)習(xí)方法原型網(wǎng)絡(luò)(Prototypical Networks,PN)[14]的思想,設(shè)計(jì)如下的訓(xùn)練策略。
元網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其中特征提取器f(·)采用18層的殘差網(wǎng)絡(luò)ResNet-18[15],主要由四種不同通道大小設(shè)置的殘差模塊作為基本結(jié)構(gòu)組合而成。殘差模塊結(jié)構(gòu)如圖2所示,每個(gè)殘差模塊堆疊了兩層卷積,兩層卷積的通道數(shù)相同,每個(gè)殘差模塊的輸入首先與第一層3×3卷積層進(jìn)行卷積,然后依次執(zhí)行批量歸一化(Batch Normalization,BN)和激活函數(shù)修正線性單元(Rectified Linear Unit,ReLU),然后輸入到第二層3×3卷積層,再次通過BN層,最后與殘差模塊的輸入相加,再通過ReLU激活層,作為殘差模塊的輸出。ResNet-18網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。
圖2 殘差模塊示意圖
表1 ResNet-18網(wǎng)絡(luò)結(jié)構(gòu)
(1)
(2)
(3)
與此同時(shí),對(duì)Ss執(zhí)行與Sp相同的操作,同樣得到一個(gè)平均度量值:
(4)
(5)
對(duì)整個(gè)查詢集Q的負(fù)對(duì)數(shù)概率進(jìn)行最小化作為目標(biāo)損失函數(shù)即均值損失:
(6)
現(xiàn)有的基于元學(xué)習(xí)的圖像識(shí)別方法均針對(duì)同域圖像間的識(shí)別,即在訓(xùn)練過程中支持集和查詢集為同種模態(tài)的圖像。在本文設(shè)計(jì)的訓(xùn)練策略中,支持集由光學(xué)圖像或者素描圖像構(gòu)成,查詢集由光學(xué)圖像和素描圖像構(gòu)成,而光學(xué)圖像通過數(shù)碼設(shè)備拍攝得到,而素描圖像是通過畫家繪制得到,二者之間存在著較大的模態(tài)差異,導(dǎo)致深度網(wǎng)絡(luò)模型學(xué)習(xí)的二者之間的特征表示存在著較大的差異。為了減少模態(tài)差異對(duì)識(shí)別性能的影響,本文設(shè)計(jì)域自適應(yīng)模塊,將素描圖像集和光學(xué)圖像集作這兩個(gè)分布,分別作為源任務(wù)和目標(biāo)任務(wù),在訓(xùn)練過程中,不斷降低二者之間的最大平均差異來提高網(wǎng)絡(luò)的性能。
最大平均差異[16]最早提出用于兩個(gè)樣本之間的檢測(cè)問題,以判斷兩個(gè)分布是否相同。通過尋找在樣本空間上的連續(xù)函數(shù)f,求兩個(gè)分布的樣本在f上的函數(shù)值的均值,通過把兩個(gè)均值作差得到兩個(gè)分布對(duì)應(yīng)于f的平均差異(Mean Discrepancy,MD)。尋找一個(gè)f使得這個(gè)平均差異有最大值,便得到了最大平均差異,若這個(gè)值小于設(shè)定的閾值,則表示兩個(gè)分布之間相同,否則,表示兩個(gè)分布不相同。在本文中,最大平均差異損失實(shí)際上是用于評(píng)估具有特征映射函數(shù)f(·)和核函數(shù)k(·,·)的再生核希爾伯特空間H(Reproducing Kernel Hilbert Space,RKHS)中兩個(gè)不同分布之間的相似性的距離度量:
(7)
式中:pp和ps分別對(duì)應(yīng)每個(gè)“episode”中光學(xué)圖像和素描圖像的分布。將均值運(yùn)算代入得:
(8)
式中:N為每個(gè)“episode”中的光學(xué)圖像的數(shù)量和素描圖像的數(shù)量。式(4)展開并將其中的點(diǎn)積進(jìn)行核函數(shù)計(jì)算得:
(9)
其中:k(x,y)為高斯核函數(shù):
(10)
在本文中,k(x,y)為五種不同的高斯核函數(shù)之和,即有五個(gè)不同的高斯核參數(shù)σi(i=1,2,…,5)。其中σ1計(jì)算公式為:
(11)
式中:m和n分別為源任務(wù)和目標(biāo)任務(wù)中的樣本數(shù)量。σi(i=2,3,…,5)分別為:
σi=σ1×2i-1i=2,3,…,5
(12)
即本文中的k(x,y)為:
(13)
為了平衡域自適應(yīng)均值網(wǎng)絡(luò)的分類性能和降低模態(tài)差異性能,本文將元嵌入模塊中的均值損失和域自適應(yīng)模塊中的最大平均差異損失集成到一個(gè)統(tǒng)一的優(yōu)化問題中:
minLtotal=Lmean+λLmmd
(14)
式中:λ為均值損失和最大平均差異損失間的權(quán)衡超參數(shù)。通過基于端到端梯度的反向傳播算法來優(yōu)化網(wǎng)絡(luò)參數(shù),達(dá)到目標(biāo)學(xué)習(xí)的目的。算法1介紹了每個(gè)episode的損失計(jì)算流程。
算法1域自適應(yīng)均值網(wǎng)絡(luò)中每個(gè)episode損失計(jì)算流程
輸入:具有K個(gè)類的訓(xùn)練集Dtrain,每個(gè)元任務(wù)中的類的數(shù)量N,平衡超參數(shù)λ。
輸出:episode總損失Ltotal=Lmean+λLmmd。
1.{1,2,…,N}←隨機(jī)采樣({1,2,…,K}),從K個(gè)訓(xùn)練類中隨機(jī)采樣N個(gè)類。
5.計(jì)算均值損失如式(2)所示。
6.計(jì)算最大均值差異損失如式(5)所示。
本文采用UoM-SGFS數(shù)據(jù)庫(kù)[17]中的素描圖像和Color FERET數(shù)據(jù)庫(kù)[18]中的相應(yīng)照片來評(píng)估本文方法,UoM-SGFS數(shù)據(jù)庫(kù)是目前最大的軟件生成的素描數(shù)據(jù)庫(kù),也是唯一一個(gè)以全彩色表示所有素描的數(shù)據(jù)庫(kù)。為了能夠更好地訓(xùn)練和測(cè)試算法,該數(shù)據(jù)庫(kù)被擴(kuò)充到原來的兩倍,因此包含600個(gè)人的1 200幅素描。UoM-SGFS數(shù)據(jù)庫(kù)存在兩組:set A包含600對(duì)素描-光學(xué)人臉圖像,其中素描圖像由EFIT-V生成;set B同樣包含600對(duì)素描-光學(xué)人臉圖像,其中素描圖像為set A中的素描圖像經(jīng)過圖像編輯程序微調(diào)后得到更加逼真的素描圖像,圖3展示了UoM-SGFS數(shù)據(jù)庫(kù)的樣本示例。
圖3 UoM-SGFS數(shù)據(jù)集樣本示例
為了進(jìn)一步評(píng)估本文方法的性能,本文還在extend-PRIP(e-PRIP)數(shù)據(jù)庫(kù)[19]上進(jìn)行了實(shí)驗(yàn),原始的e-PRIP數(shù)據(jù)庫(kù)由不同研究人員創(chuàng)建的四組數(shù)據(jù)組成,兩組由亞洲研究人員使用FACES和Identi-Kit工具繪制而成,一組由印度研究人員使用FACES軟件繪制而成,還有一組由美國(guó)畫家使用FACES繪圖工具繪制。本文僅采用了由亞洲研究人員使用Identi-Kit工具繪制的素描圖像,包含AR數(shù)據(jù)庫(kù)中的123個(gè)人的光學(xué)圖像和對(duì)應(yīng)的合成素描。圖4展示了本文采用的e-PRIP數(shù)據(jù)庫(kù)的樣本示例。
圖4 e-PRIP數(shù)據(jù)集樣本示例
本文基于上述兩個(gè)數(shù)據(jù)庫(kù)劃分了三組數(shù)據(jù)集,在第一組數(shù)據(jù)集(S1)中,UoM-SGFS set A分為訓(xùn)練集和測(cè)試集兩部分,訓(xùn)練集包含450對(duì)圖像,測(cè)試集包含150對(duì)圖像,在測(cè)試集中,素描圖像構(gòu)成probe集,照片構(gòu)成gallery集;在第二組數(shù)據(jù)集(S2)中,UoM-SGFS set B分為訓(xùn)練集和測(cè)試集兩部分,具體設(shè)置同S1一致,為了更好地模擬現(xiàn)實(shí)場(chǎng)景,S1和S2中的gallery集擴(kuò)充了1 521個(gè)人的照片,包括來自MEDS-Ⅱ數(shù)據(jù)庫(kù)的509幅照片、來自FEI數(shù)據(jù)庫(kù)的199幅照片、來自LFW數(shù)據(jù)庫(kù)中的813幅照片。在第三組數(shù)據(jù)集(S3)中,e-PRIP分為訓(xùn)練集和測(cè)試集兩部分,訓(xùn)練集包含48對(duì)圖像,測(cè)試集包含75對(duì)圖像,在測(cè)試集中,素描圖像構(gòu)成probe集,照片構(gòu)成gallery集,表2詳細(xì)列出了數(shù)據(jù)集設(shè)置。為了保證算法的泛化能力,對(duì)三組數(shù)據(jù)集均進(jìn)行了五重隨機(jī)交叉驗(yàn)證。
表2 實(shí)驗(yàn)數(shù)據(jù)集
1) 預(yù)處理:首先使用MTCNN[20]對(duì)UoM-SGFS數(shù)據(jù)集和e-PRIP數(shù)據(jù)集中的圖像進(jìn)行人臉檢測(cè)并對(duì)齊,僅保留人臉關(guān)鍵點(diǎn)信息,獲得同一尺度的人臉圖像,圖5展示了對(duì)UoM-SGFS數(shù)據(jù)集處理后的圖像示例。在訓(xùn)練和測(cè)試時(shí),在輸入模型前需要對(duì)經(jīng)過上述操作后的圖像進(jìn)行進(jìn)一步處理,包括將圖像統(tǒng)一調(diào)整為256×256大小,圖像填充,圖像隨機(jī)裁剪,圖像水平翻轉(zhuǎn),將圖像數(shù)據(jù)轉(zhuǎn)換成PyTorch可用的張量(Tensor)數(shù)據(jù)類型,以及對(duì)圖像歸一化處理。
圖5 處理后的UoM-SGFS數(shù)據(jù)集樣本示例
2) 參數(shù)設(shè)置:在訓(xùn)練過程中,總共訓(xùn)練60×100個(gè)元任務(wù),每100個(gè)元任務(wù)保存一次模型,最終保存了60個(gè)訓(xùn)練模型。根據(jù)多次實(shí)驗(yàn)結(jié)果,針對(duì)S1和S2數(shù)據(jù)集,每個(gè)元任務(wù)“episode”從訓(xùn)練集中隨機(jī)采樣32對(duì)圖像,即2.1節(jié)中的N設(shè)置為32;針對(duì)S3數(shù)據(jù)集,每個(gè)元任務(wù)“episode”從訓(xùn)練集中隨機(jī)采樣8對(duì)圖像,即2.1節(jié)中的N設(shè)置為8。特征提取器resnet-18采用初始識(shí)別率為0.000 1、動(dòng)量為0.1、步長(zhǎng)為40的Adam優(yōu)化器更新網(wǎng)絡(luò)的參數(shù)。均值損失和最大平均差異損失間的權(quán)衡超參數(shù)λ設(shè)置為0.01。
在本節(jié)中,我們?cè)赟1、S2和S3數(shù)據(jù)集上均進(jìn)行了3組消融實(shí)驗(yàn),以評(píng)估本文方法中每個(gè)部分的貢獻(xiàn)。(1) DAMN without mmd:去掉了最大均值差異損失,采用元學(xué)習(xí)訓(xùn)練策略和均值損失訓(xùn)練網(wǎng)絡(luò)。(2) DAMN without ML:去掉了元學(xué)習(xí)訓(xùn)練策略和均值損失,采用傳統(tǒng)的深度學(xué)習(xí)方法和最大均值差異損失對(duì)模型進(jìn)行訓(xùn)練,每個(gè)周期對(duì)所有訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,然后更新參數(shù)重新訓(xùn)練所有訓(xùn)練數(shù)據(jù),分類損失采用交叉熵?fù)p失,仍保留了最大均值差異損失來降低光學(xué)圖像和素描圖像之間的模態(tài)差異。在訓(xùn)練過程中,總共訓(xùn)練了50個(gè)epoch,batchsize設(shè)置為4。(3) baseline:同時(shí)去掉了元學(xué)習(xí)和最大均值差異損失,僅采用傳統(tǒng)的深度學(xué)習(xí)方法和交叉熵?fù)p失對(duì)模型進(jìn)行訓(xùn)練。baseline在訓(xùn)練過程中,參數(shù)和DAMN without ML保持一致,總共訓(xùn)練了50個(gè)epoch,batchsize設(shè)置為4。三組消融實(shí)驗(yàn)在S1、S2數(shù)據(jù)集上的Rank-1、Rank-10、Rank-50結(jié)果如表3和表4所示,在S3數(shù)據(jù)集上的Rank-10結(jié)果如表5所示,圖6、圖7和圖8分別為在S1、S2、S3數(shù)據(jù)集上的CMC曲線圖??芍?我們完整的方法優(yōu)于所有這些變化,表明每個(gè)部分都是必不可少的,并且彼此互補(bǔ)。
表3 在S1數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果(%)
表4 在S2數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果(%)
表5 在S3數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果(%)
圖6 在S1數(shù)據(jù)集上的消融實(shí)驗(yàn)
圖7 在S2數(shù)據(jù)集上的消融實(shí)驗(yàn)
圖8 在S3數(shù)據(jù)集上的消融實(shí)驗(yàn)
通過上述3組消融實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果,我們發(fā)現(xiàn)將元學(xué)習(xí)和最大均值差異損失結(jié)合在一起來訓(xùn)練模型,可以達(dá)到最佳效果;消融實(shí)驗(yàn)1和實(shí)驗(yàn)2的準(zhǔn)確性均略低于完整的方法,但仍高于baseline,說明元學(xué)習(xí)算法通過將學(xué)習(xí)水平從數(shù)據(jù)提升到了任務(wù),在相同數(shù)據(jù)量的情況下,大大提高了網(wǎng)絡(luò)模型的綜合泛化能力,從而顯著地提升了識(shí)別性能。最大均值差異損失通過降低素描圖像和光學(xué)圖像之間的分布差異,從而降低了二者之間的域轉(zhuǎn)移,對(duì)識(shí)別性能有了一定的提升。
在本節(jié)中,針對(duì)S1和S2數(shù)據(jù)集,我們將本文方法與目前最新的方法ET+PCA[21]、EP+PCA[22]、DEEPS[3]、D-RS+CBR[23]和LGMS[24]進(jìn)行了比較,其中ET+PCA和EP+PCA為模態(tài)內(nèi)方法,DEEPS、D-RS+CBR和LGMS為模態(tài)間方法。表6和表7分別展示了ET+PCA、EP+PCA、DEEPS、D-RS+CBR、LGMS和本文方法在S1和S2數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,圖9和圖10分別展示了對(duì)應(yīng)的識(shí)別率柱狀圖。顯然,在更具有挑戰(zhàn)性的S1數(shù)據(jù)集上,除了本文算法外的算法性能均較低;模態(tài)間方法無論是在較低的Rank還是較高的Rank上都優(yōu)于模態(tài)內(nèi)方法。CBR和DEEPS均為專門設(shè)計(jì)用于軟件合成素描與光學(xué)圖像之間的匹配方法,其在S1和S2數(shù)據(jù)集上的低識(shí)別性能表明UoM-SGFS數(shù)據(jù)集的挑戰(zhàn)性。
表6 在S1數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果(%)
表7 在S2數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果(%)
圖9 在S1數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)
圖10 在S2數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)
在S1和S2數(shù)據(jù)集中,本文方法均優(yōu)于其他方法。在S1數(shù)據(jù)集中,只有本文方法在Rank-10中正確檢索了90%以上的對(duì)象,平均匹配率為91.2%,對(duì)比方法中性能最好的DEEPS模態(tài)間方法,即使在Rank-50上也無法達(dá)到此性能。與DEEPS相比,本文方法在S1數(shù)據(jù)集上的Rank-1上約高出了35百分點(diǎn),并且在S2數(shù)據(jù)集上的Rank-1上約高出了22百分點(diǎn),本文方法的優(yōu)越性能表明元學(xué)習(xí)算法較傳統(tǒng)深度學(xué)習(xí)算法的優(yōu)勢(shì)。
針對(duì)S3數(shù)據(jù)集,我們將本文方法與目前最新的方法SSD[25]、Attribute[26]、和Transfer Learning[19]進(jìn)行了比較,其中:SSD和Attribute為傳統(tǒng)方法;Transfer Learning為深度學(xué)習(xí)方法。表8展示了SSD、Attribute、Transfer Learning和本文方法在S3數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,圖11為對(duì)應(yīng)的CMC曲線圖??梢钥闯?本文方法在Rank-1上的識(shí)別性能略低于Attribute方法,但從Rank-2開始,本文方法性能一直優(yōu)于其他三種方法,并且在Rank-10上,本文方法較Attribute方法高出了9百分點(diǎn),這表明了本文方法的有效性。
表8 在S3數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果(%)
圖11 在S3數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)
為了進(jìn)一步體現(xiàn)本文方法的優(yōu)越性,我們還將上述三個(gè)數(shù)據(jù)集S1、S2、S3在最新的域自適應(yīng)方法DANN[27]、CDAN[28]和BSP+CDAN[29]上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果分別如圖12、圖13、圖14和表9、表10、表11所示??梢钥闯?本文方法性能優(yōu)于其他三種域自適應(yīng)方法。
表9 在S1數(shù)據(jù)集上的域自適應(yīng)方法對(duì)比實(shí)驗(yàn)結(jié)果(%)
表10 在S2數(shù)據(jù)集上的域自適應(yīng)方法對(duì)比實(shí)驗(yàn)結(jié)果(%)
表11 在S3數(shù)據(jù)集上的域自適應(yīng)方法對(duì)比實(shí)驗(yàn)結(jié)果(%)
圖12 在S1數(shù)據(jù)集上的域自適應(yīng)方法對(duì)比實(shí)驗(yàn)
圖13 在S2數(shù)據(jù)集上的域自適應(yīng)方法對(duì)比實(shí)驗(yàn)
圖14 在S3數(shù)據(jù)集上的域自適應(yīng)方法對(duì)比實(shí)驗(yàn)
針對(duì)現(xiàn)有的素描人臉數(shù)據(jù)量較少和素描圖像與光學(xué)圖像間模態(tài)差距大的問題,本文提出基于域自適應(yīng)均值網(wǎng)絡(luò)的素描人臉識(shí)別方法。該方法通過設(shè)計(jì)基于距離度量的元學(xué)習(xí)方法訓(xùn)練網(wǎng)絡(luò),將學(xué)習(xí)水平從數(shù)據(jù)提升至任務(wù),從而提高了網(wǎng)絡(luò)的泛化能力。對(duì)每個(gè)任務(wù),通過在域自適應(yīng)均值網(wǎng)絡(luò)引入均值損失,提取了判別性特征。最后,通過降低素描圖像特征向量和光學(xué)圖像特征向量間的最大平均差異,縮小了二者間的分布差異,從而減少了特征之間的模態(tài)差距。在UoM-SGFS數(shù)據(jù)庫(kù)和e-PRIP數(shù)據(jù)庫(kù)的實(shí)驗(yàn)表明,本文方法可以有效改善素描人臉識(shí)別效果。