Hierarchical knowledge distillation decoupling network for low-resolution face recognition algorithm
Zhong Rui?, Song Yafeng, Zhou Xiaokang (SchoolofMathematicsamp;Computer Science,GannanNormal University,Ganzhou Jiangxi341ooo,China)
Abstract:Alargenumberoffacial detail features arelostinlow-resolutionface images,which makes therecognitionrateof manyclassical facerecognition models with goodperformancedecrease sharplyToaddressthisproblem,thispaperproposed ahierarchicalknowledgedistilationdecoupling(HKDD)network.Firstly,theconvolutionallayersoftheteachernetworkand thestudentnetworkperformed hierarchicalfeaturedistilltiontoenhancethestudentnetwork’sfeaturedescriptionabilityfor low-resolutionsamples.Thisdistilltionensuredthatthelow-resolutionfacefeatures extractedbytheintermediatelayersof the studentnetworkcloselyapproximatedthehigh-resolutionfacefeatures extractedbytheintermediatelayersof theteachernetwork,effectivelytransferingthepowerfulfeaturedescriptionabilityoftheteahernetwork’sintermediatelayerstothestudent network.Subsequently,the softmax layers of theteachernetwork andthe student network performed decoupling distlation, spliting thedistillaionlossattesofmaxlayerintotargetcassdistillationlossndon-targetclassdistillationlosedecoupling distilationcould playaguidingroleinthetrainingof student networksbyleveragingthesuppessdnon-targetdistillationloss,sothatthesudentnetworkcouldlearntheclasificationabilityofuniversalfacialfeaturesundertheguidanceof theteachernetwork,therebyensuringthatthestudentnetworkhasstrongclasificationabilityinunrestrictedscenes.Finally, byconducting validation experiments on several low-resolution face datasets,such as TinyFace and QMUL-SurvFace,the HKDD model demonstrates superior performance intermsof recognitionrateandreal-time performancecompared tootherrepresentativelow-resolutionfacerecognition models.Theexperimentalresultsconfirmtheefectivenessof HKDD in handling low-resolution face recognition tasks.
Keywords:low-resolutionfacerecognition;hierarchicalknowledgedistilationdecouplingnetwork;hierarchicalfeaturedis tillation;decoupling distillation;unrestricted scenes
0 引言
目前人臉識別技術(shù)已廣泛應(yīng)用于門禁、考勤、支付以及安防監(jiān)控等場景。然而在以上應(yīng)用場景中很容易因為距離遠而采集到低分辨率人臉圖像,這類人臉圖像中丟失了大量面部細節(jié)特征,同時各種干擾因素(如:姿態(tài)偏轉(zhuǎn)、表情變化、光照變化和遮擋等)的疊加,使得所采集的人臉圖像與訓(xùn)練集中的高分辨率人臉圖像間存在很大的分布差異。在這樣復(fù)雜的應(yīng)用場景中,即使是采用目前先進的人臉識別算法也很難取得令人滿意的識別精度,因此在復(fù)雜的非限制性場景中對低分辨率人臉進行準確識別是一項極具挑戰(zhàn)性的任務(wù)。目前主要的解決方案可以分為統(tǒng)一特征空間映射法[1]、超分辨率重建法[2.3]和知識蒸餾法[4.5]三類,其中超分辨率重建法是將超分辨率重建與人臉識別兩個過程進行集成,能夠在一定程度上提升低分辨率人臉識別算法的識別率。但是圖像的超分辨率重建僅僅是在視覺感官層面對像素進行了復(fù)原,而面部識別更重要的是在特征層面上對特征進行復(fù)原,該類型算法很難顯著提升算法的識別率,且還需要耗費大量的計算資源,將導(dǎo)致算法的實時性不足[。統(tǒng)一特征投影法是將不同分辨率的人臉特征投影至同一個特征空間進行面部識別,采用該方式忽略了領(lǐng)域內(nèi)部的結(jié)構(gòu)差異性,也就是說,這種全局特征投影變換方法只關(guān)注于整體的特征差異,沒有關(guān)注局部的特征差異,該類型方法只能夠在一定程度上提高低分辨率人臉的識別率。
隨著深度網(wǎng)絡(luò)模型的不斷發(fā)展,知識蒸餾法是將深度網(wǎng)絡(luò)模型的優(yōu)秀特征描述能力與知識蒸餾算法相結(jié)合,這樣一方面利用了深度網(wǎng)絡(luò)模型具有很強特征描述能力的優(yōu)勢,使模型能夠有效提取出人臉面部中具有較好判別特性的特征。另一方面該類型方法能充分利用現(xiàn)有大量的數(shù)據(jù)集和高精度識別模型學習到有用的特征知識和表達能力,同時也能顯著減少模型訓(xùn)練的工作量,使之具有較好的實時性。
受到深度知識蒸餾模型的啟發(fā),本文提出了一種基于分層蒸餾解耦(hierarchical knowledge distillationdecoupling,HKDD)網(wǎng)絡(luò)的低分辨率人臉識別算法。本文主要工作如下:
a)為了提高學生網(wǎng)絡(luò)在低分辨率樣本中的特征描述能力,本文在教師網(wǎng)絡(luò)與學生網(wǎng)絡(luò)的卷積層之間進行分層特征蒸餾,使學生網(wǎng)絡(luò)各中間層所提取的低分辨率人臉特征能夠盡可能接近教師網(wǎng)絡(luò)中間層所提取的高分辨率人臉特征,從而將教師網(wǎng)絡(luò)各中間層強大的特征描述能力蒸餾到學生網(wǎng)絡(luò),從而使學生網(wǎng)絡(luò)能夠從低分辨率人臉圖像中提取出具有較好判別特性的面部特征。
b)為了能有效提升學生網(wǎng)絡(luò)對疊加有多種干擾因素(光照變化、表情改變、姿態(tài)偏轉(zhuǎn)以及遮擋等)的人臉樣本的分類能力,在教師網(wǎng)絡(luò)與學生網(wǎng)絡(luò)的softmax層之間進行解耦蒸餾,把softmax層的蒸餾損失解耦為目標類蒸(targetclassdistil-lation,TCD)損失和非目標類蒸餾(non-targetclassdistillation,NCD)損失,使學生網(wǎng)絡(luò)在教師網(wǎng)絡(luò)指導(dǎo)下學習到通用性面部特征的分類能力,從而確保學生網(wǎng)絡(luò)能夠在各種干擾因素疊加的應(yīng)用場景中具有較好的分類能力。
c)在多個低分辨率人臉數(shù)據(jù)集中進行了大量對比實驗,所提算法在含有光照變化、表情改變、姿態(tài)偏轉(zhuǎn)、遮擋等干擾因素存在的低分辨率應(yīng)用場景中,具有領(lǐng)先的識別率和實時性。
1相關(guān)工作
基于知識蒸餾的低分辨率人臉識別方法能夠在提升算法識別率的同時,有效降低模型的復(fù)雜度,并且能夠取得較高的人臉識別率,具有很好的研究價值和實用價值。本文對現(xiàn)有基于知識蒸餾的低分辨率人臉識別方法進行了詳細分析,具體如下:
知識蒸餾是一種由教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)構(gòu)成的網(wǎng)絡(luò)框架,使用具有高識別率的教師網(wǎng)絡(luò)對學生網(wǎng)絡(luò)進行指導(dǎo)訓(xùn)練,讓學生網(wǎng)絡(luò)具備更強的跨域識別能力以及更好的實時性能。該類型方法是由Hinton等人[首次提出,其對知識蒸餾進行了系統(tǒng)的闡述,采用軟標簽和溫度系數(shù)來實現(xiàn)教師網(wǎng)絡(luò)對學生網(wǎng)絡(luò)的指導(dǎo)。文獻[8]首次將知識蒸餾應(yīng)用于低分辨率人臉識別領(lǐng)域,該方法顯著提升了低分辨率人臉圖像的識別率。此后低分辨率人臉識別領(lǐng)域出現(xiàn)了許多基于知識蒸餾模型的識別方法。文獻[9]中基于遞歸知識蒸餾和角蒸餾的VarGFaceNet模型和文獻[10]中基于橋蒸餾的低分辨率人臉識別模型,是在網(wǎng)絡(luò)輸出層進行軟標簽蒸餾來實現(xiàn)對學生網(wǎng)絡(luò)的指導(dǎo),然而僅從教師網(wǎng)絡(luò)的輸出層進行知識蒸餾,無法將教師網(wǎng)絡(luò)的特征描述能力遷移給學生網(wǎng)絡(luò),所帶來的算法識別率提升非常有限。因此,研究者開始考慮從網(wǎng)絡(luò)中間層進行特征蒸餾,以進一步提高低分辨率人臉圖像的識別率。中間層特征蒸餾是指將教師網(wǎng)絡(luò)中間層的特征描述能力傳遞給學生網(wǎng)絡(luò),使學生網(wǎng)絡(luò)具備與教師網(wǎng)絡(luò)類似的特征描述能力[\"]。首次使用中間層特征蒸餾是文獻[12]的FitNets模型,其核心思想是讓學生網(wǎng)絡(luò)的中間層特征盡可能接近教師網(wǎng)絡(luò)的中間層特征。文獻[13\~15]的模型都是在網(wǎng)絡(luò)中間層特征蒸餾的基礎(chǔ)上將教師網(wǎng)絡(luò)強大的特征描述能力遷移到學生網(wǎng)絡(luò),從而提高學生網(wǎng)絡(luò)模型在低分辨率人臉圖像上的識別率。以上文獻僅僅從單方面使用輸出層蒸餾[16]或中間層特征蒸餾來提升學生網(wǎng)絡(luò)對跨域樣本的識別能力,然而在實際應(yīng)用場景中所采集到的低分辨率人臉圖像中還存在多種干擾因素疊加,如:光照變化、表情改變、姿態(tài)偏轉(zhuǎn)以及遮擋等,將導(dǎo)致以上模型的識別率不容易取得令人滿意的識別精度。
針對以上問題,本文將從分層特征蒸餾和softmax層的解耦蒸餾兩方面來實現(xiàn)教師網(wǎng)絡(luò)對學生網(wǎng)絡(luò)的共同指導(dǎo),將具有高識別率的經(jīng)典人臉識別模型的特征描述能力與分類能力蒸餾至學生網(wǎng)絡(luò),從而使學生網(wǎng)絡(luò)在低分辨率數(shù)據(jù)集中具有更高的識別率。
2分層蒸餾解耦網(wǎng)絡(luò)
本文所提的分層蒸餾解耦(hierarchicalknowledgedistil-lationdecoupling,HKDD)網(wǎng)絡(luò)的總體模型結(jié)構(gòu)如圖1所示。該網(wǎng)絡(luò)模型分為教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)兩個網(wǎng)絡(luò)分支,其中學生網(wǎng)絡(luò)是用于識別低分辨率人臉樣本的目標網(wǎng)絡(luò),在模型訓(xùn)練時,將隸屬于同一類別的高分辨率和低分辨率的人臉圖像分別同步輸入至教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)。
為了提升學生網(wǎng)絡(luò)對于低分辨率樣本的特征描述能力,在學生網(wǎng)絡(luò)與教師網(wǎng)絡(luò)的各卷積層之間構(gòu)建多個用于特征擬合的分層蒸餾損失函數(shù),使學生網(wǎng)絡(luò)各中間層所提取的低分辨率人臉特征盡可能接近教師網(wǎng)絡(luò)相應(yīng)層次所提取的高分辨率人臉特征。隨后將教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)的softmax層之間的蒸餾損失函數(shù)進行等價變換,解耦為目標類蒸餾損失和非目標類蒸餾損失,并根據(jù)教師網(wǎng)絡(luò)的分類損失設(shè)置相應(yīng)的權(quán)重,使學生網(wǎng)絡(luò)的整體特征描述能力和分類性能得到進一步提升。
2.1 分層特征蒸餾
由于教師網(wǎng)絡(luò)是具有復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)的深層網(wǎng)絡(luò),這使得教師網(wǎng)絡(luò)具備很強的特征描述能力,能夠從樣本中準確提取出具有較好判別特性的面部特征。為了能夠?qū)⒔處熅W(wǎng)絡(luò)的強大特征描述能力遷移至學生網(wǎng)絡(luò),使學生網(wǎng)絡(luò)能夠在具備精簡網(wǎng)絡(luò)結(jié)構(gòu)的同時,還具備與教師網(wǎng)絡(luò)類似的特征描述能力,本文受到文獻[10,15]的啟發(fā)。首先,在教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)之間構(gòu)造分層特征蒸餾子網(wǎng),在該子網(wǎng)中引入具有相同神經(jīng)元數(shù)量的全連接網(wǎng)絡(luò),利用該網(wǎng)絡(luò)可實現(xiàn)對學生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)所提取的特征進行壓縮編碼,使教師網(wǎng)絡(luò)中間層所提取的特征維數(shù)與學生網(wǎng)絡(luò)所提取的特征維數(shù)保持一致,為后續(xù)的特征差異度量做好準備。隨后,為了讓學生網(wǎng)絡(luò)所提取的特征能夠與教師網(wǎng)絡(luò)所提取的特征盡可能相似,本文在分層特征蒸餾子網(wǎng)中構(gòu)造了差異度量函數(shù),利用教師網(wǎng)絡(luò)與學生網(wǎng)絡(luò)之間的特征差異作為監(jiān)督信號來進一步優(yōu)化學生網(wǎng)絡(luò),使學生網(wǎng)絡(luò)中間層所提取的特征與教師網(wǎng)絡(luò)中間層所提取特征保持較高的相似性,從而使學生網(wǎng)絡(luò)的特征描述能力得到顯著增強。最后,由于教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)都是具有多層網(wǎng)絡(luò)結(jié)構(gòu)的深度網(wǎng)絡(luò),處于不同層次的卷積層能夠提取出具有不同抽象程度的面部特征,這些特征對于目標人臉的準確識別起到了重要的作用。因此為了實現(xiàn)教師網(wǎng)絡(luò)對學生網(wǎng)絡(luò)的全面指導(dǎo),本文在教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)之間構(gòu)造了多個分層特征蒸餾子網(wǎng),通過這樣的方式,讓學生網(wǎng)絡(luò)的多個中間層所提取的特征盡可能與教師網(wǎng)絡(luò)中間層所提取的特征保持相似,最終達到顯著提升學生網(wǎng)絡(luò)特征表達 能力的目標。
具體的實現(xiàn)步驟如下:
a)使用具有高識別率的經(jīng)典人臉識別網(wǎng)絡(luò)作為教師網(wǎng)絡(luò),記為 fT(x;φ) ,其中 x 為輸入的高分辨率樣本, φ 為教師網(wǎng)絡(luò)的模型參數(shù);使用具有精簡網(wǎng)絡(luò)結(jié)構(gòu)的深度網(wǎng)絡(luò)作為學生網(wǎng)絡(luò),記為 fs(z;θ) ,其中 z 為輸入的低分辨率樣本,θ為學生網(wǎng)絡(luò)模型的參數(shù)。模型在訓(xùn)練時,將高分辨率人臉圖像輸入到教師網(wǎng)絡(luò),同時使用下采樣和仿射變換等方法對該高分辨率人臉圖像進行下采樣和擴容處理,將處理后的低分辨率人臉圖像同步輸人至學生網(wǎng)絡(luò)。
b)為確保學生網(wǎng)絡(luò)中間層所提取的低分辨率人臉特征盡可能與教師網(wǎng)絡(luò)中間層所提取的高分辨率人臉特征相似,本文在各分層特征蒸餾子網(wǎng)中引入由全連接網(wǎng)絡(luò)構(gòu)成的分層分類子網(wǎng),并在該子網(wǎng)之間構(gòu)建分層蒸餾損失函數(shù) Ri 來實現(xiàn)分層特征蒸餾,從而達到提升學生網(wǎng)絡(luò)特征描述能力的目標。分層i的分層特征蒸餾子網(wǎng)的結(jié)構(gòu)如圖2所示。
Ri 的具體定義如下所示。
其中: z′∈p(IG) 和 z∈IG 為隸屬于同一類別的低分辨率人臉圖像與高分辨率人臉圖像, IG 為高分辨率人臉數(shù)據(jù)集, p(IG) 為對IG 進行下采樣和仿射變換后的低分辨率人臉數(shù)據(jù)集; msi(???) 為學生網(wǎng)絡(luò)第 i 個分層分類子網(wǎng); mTi(?) 為教師網(wǎng)絡(luò)第 i 個分層分類子網(wǎng); φi 和 ηi 為學生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)的第 i 分層分類子網(wǎng)的模型參數(shù)。
2.2 解耦知識蒸餾
由于softmax層處于網(wǎng)絡(luò)的最末端,相比較于中間特征提取層具有更為高層的語義信息,所以在該層進行知識蒸餾應(yīng)能使學生網(wǎng)絡(luò)具有更高的性能上限,然而在許多實際實驗中發(fā)現(xiàn),傳統(tǒng)知識蒸餾方法對學生網(wǎng)絡(luò)在低分辨率場景中分類性能的提升效果并不顯著[16]。為了解決該問題,把教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)softmax層的logits輸出分成兩部分(如圖3所示,見電子版),其中黃色部分為目標類別的分類概率 pt ,綠色部分為非目標類別的分類概率 ,利用等價變換將傳統(tǒng)的知識蒸餾損失解耦為目標類蒸餾損失和非目標類蒸餾損失。具體解耦過程如下:
其中:KD為經(jīng)典的知識蒸餾損失函數(shù); c 為類別數(shù)量; piT 為教師網(wǎng)絡(luò)中類別 i 的概率值,具體的定義為
其中: zi 為類別 i 的 logit 值; pis 的具體定義方法與 piT 一致。 ptT 為教師網(wǎng)絡(luò)中目標類別的概率值,具體定義為
式(2)中 pts 的具體定義方法與式(4)中的 ptT 一致。
教師網(wǎng)絡(luò)中所有非目標類概率和的定義為
與此同時,本文將教師網(wǎng)絡(luò)中單個非目標類的分類概率定義為
由式(3)(5)和(6)可以得出:
根據(jù)式(3)和(6的定義,并結(jié)合式(7),可將式(2)改寫為
由于 和
與類別 i 是不相關(guān)的,可以得到:
最后根據(jù)式(8)和(9),可以得到:
其中 為目標類蒸餾損失(TCD),其所體現(xiàn)的是目標類與非目標類的二分類分布,作用是使學生網(wǎng)絡(luò)在教師網(wǎng)絡(luò)的指導(dǎo)下,提高具有較大分類難度(包含光照變化、表情改變、姿態(tài)偏轉(zhuǎn)以及遮擋等干擾因素)的目標人臉樣本的分類準確率,記為:
為非目標類蒸餾損失(NCD),體現(xiàn)的是非目標類內(nèi)部競爭的多分類分布,其作用是讓學生網(wǎng)絡(luò)在教師網(wǎng)絡(luò)指導(dǎo)下學習到高置信度樣本中通用性面部特征的分類能力,記為
??蓪⑹剑?)的解耦蒸餾損失函數(shù)改寫為
該式中的NCD權(quán)重與 ptT 相互耦合,當目標樣本易于分類時,將導(dǎo)致NCD權(quán)重降低,使得NCD在知識蒸餾中被弱化,為了提高NCD的權(quán)重,本文給TCD與NCD賦予獨立權(quán)重,使被抑制的NCD發(fā)揮出其在遷移通用性面部特征分類能力方面的作用。因此將式(11)進一步優(yōu)化為
其中: α 和 β 為權(quán)重系數(shù),該權(quán)重系數(shù)與數(shù)據(jù)集中樣本的分類難度緊密相關(guān),后續(xù)將通過實驗來設(shè)置以上兩個參數(shù)值。
2.3 教師網(wǎng)絡(luò)的訓(xùn)練
教師網(wǎng)絡(luò)是一個具有復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)的深度網(wǎng)絡(luò),使用高分辨率人臉數(shù)據(jù)集 IG 對其進行訓(xùn)練,由此可以得出該網(wǎng)絡(luò)的分類損失函數(shù)為
C1(φ,IG)=L(fT(z;φ),y)
其中: 為輸人樣本的真實標簽值; L(?) 為交叉熵。
隨后對教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)各中間層網(wǎng)絡(luò)間的分層特征蒸餾子網(wǎng)進行優(yōu)化訓(xùn)練,從而得到教師網(wǎng)絡(luò)的各分層特征蒸餾子網(wǎng)的損失函數(shù),具體如式(14)所示。
其中: σ 為教師網(wǎng)絡(luò)中所有分層特征蒸餾子網(wǎng)中待優(yōu)化的參
數(shù): ?L(???) 為交叉熵; n 為分層特征蒸餾子網(wǎng)的數(shù)量。
最后將教師網(wǎng)絡(luò)的分類損失函數(shù)與分層特征蒸餾子網(wǎng)損失函數(shù)進行融合,得到整個教師網(wǎng)絡(luò)的損失函數(shù),具體如下:
LT=C1(φ,IG)+HT(σ,IG)
2.4 學生網(wǎng)絡(luò)的訓(xùn)練
學生網(wǎng)絡(luò)是一個具有精簡網(wǎng)絡(luò)結(jié)構(gòu)的深度網(wǎng)絡(luò),通過教師網(wǎng)絡(luò)對學生網(wǎng)絡(luò)的指導(dǎo)訓(xùn)練,使學生網(wǎng)絡(luò)具備在復(fù)雜應(yīng)用場景(含有光照變化、表情改變、姿態(tài)偏轉(zhuǎn)以及遮擋等干擾因素)下對低分辨率樣本進行準確識別的能力,該網(wǎng)絡(luò)的損失函數(shù)由以下三部分構(gòu)成:a)分類損失函數(shù)。使用該函數(shù)并結(jié)合使用低分辨率人臉樣本對學生網(wǎng)絡(luò)的主干網(wǎng)絡(luò)和分層特征蒸餾子網(wǎng)進行優(yōu)化,使學生網(wǎng)絡(luò)的主體參數(shù)得到總體優(yōu)化。b)分層蒸餾損失函數(shù)。利用該損失函數(shù)使學生網(wǎng)絡(luò)所提取的低分辨率特征盡可能接近教師網(wǎng)絡(luò)所提取的高分辨率特征,以進一步提升學生網(wǎng)絡(luò)對低分辨率樣本的特征描述能力。c)解耦蒸餾損失函數(shù)。根據(jù)數(shù)據(jù)集的分類置信度設(shè)置相應(yīng)的解耦權(quán)重,使用該損失函數(shù)來提高學生網(wǎng)絡(luò)在識別具有較大分類難度(包含光照變化、表情改變、姿態(tài)偏轉(zhuǎn)以及遮擋等干擾因素)人臉樣本的分類準確率。具體訓(xùn)練過程主要分為以下兩個階段:
階段1:網(wǎng)絡(luò)預(yù)訓(xùn)練初步優(yōu)化階段
將低分辨率數(shù)據(jù)集 IL 輸人至學生網(wǎng)絡(luò)對其進行訓(xùn)練,由此可以得出學生網(wǎng)絡(luò)的分類損失函數(shù)為
C2(θ,IL)=L(fS(h;θ),y)
其中: ?L(???) 為交叉熵; h 為低分辨率樣本。
由于學生網(wǎng)絡(luò)各中間層網(wǎng)絡(luò)間連接了分層特征蒸餾子網(wǎng),本文使用交叉熵對該子網(wǎng)進行訓(xùn)練優(yōu)化,具體如下:
其中: σ:μ 為學生網(wǎng)絡(luò)中所有分層特征蒸餾子網(wǎng)中待優(yōu)化的參數(shù): 為交叉熵; n 為分層特征蒸餾子網(wǎng)的數(shù)量。
階段2:分層蒸餾解耦網(wǎng)絡(luò)的性能優(yōu)化提升階段
對高分辨數(shù)據(jù)集 I? 進行下采樣擴容操作,得到擴容后的低分辨率數(shù)據(jù)集 p(IG) ,將 IG 和 p(IG) 數(shù)據(jù)集中具有相同標簽的人臉樣本分別同步輸入至教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)(如圖1所示)。
首先,利用教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)之間的分層特征蒸餾子網(wǎng)進行分層特征蒸餾,根據(jù)式(1)(14)和(17)可得出學生網(wǎng)絡(luò)的分層蒸餾損失函數(shù),具體如下:
其中: n 為分層特征蒸餾子網(wǎng)的數(shù)量。
隨后在教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)的softmax層進行解耦蒸餾,以提升學生網(wǎng)絡(luò)在識別具有較大分類難度人臉樣本的分類準確率。
最后將分類損失函數(shù)、分層蒸餾損失函數(shù)以及解耦蒸餾損失函數(shù)進行融合,得到學生網(wǎng)絡(luò)的總體損失函數(shù),具體如下:
LS=C2(θ,p(IG))+LR+LDKD
3 實驗結(jié)果與分析
為了驗證所提算法的有效性,本文在多個數(shù)據(jù)集中對所提算法的識別率與實時性進行測試,并與目前具有代表性的低分辨率人臉識別算法進行綜合對比實驗分析。本文所使用的硬件平臺配置為:IntelXeonGold51182.30GHz CPU,兩塊QuadroP5000顯卡,32GB內(nèi)存;開發(fā)工具為:PyCharm、PyTorch以及Anaconda。為了能夠更好地讓教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)收斂,實驗中使用CASIA-WebFace[17]數(shù)據(jù)集對教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)進行預(yù)訓(xùn)練。該數(shù)據(jù)集中共有10575個類,合計有494414張人臉圖片,使用該數(shù)據(jù)集對模型進行預(yù)訓(xùn)練能夠更好地讓模型適應(yīng)人臉數(shù)據(jù)集中的人臉圖像。
3.1算法消融實驗
為了測試算法中各個功能模塊在識別低分辨率人臉樣本時的作用,本文使用LFW數(shù)據(jù)集[18來構(gòu)建低分辨率人臉數(shù)據(jù)集。LFW數(shù)據(jù)集中共有5749個人臉類別,合計有13233張人臉圖像,數(shù)據(jù)集中的圖像采集于非限制性應(yīng)用場景,存在光照變化、表情改變、姿態(tài)偏轉(zhuǎn)以及遮擋等干擾因素,圖像尺寸為250×250 像素。在構(gòu)建低分辨率人臉數(shù)據(jù)集時,從LFW數(shù)據(jù)集中選取具有10張以上人臉樣本的158個類,使用MTCNN算法[9對LFW數(shù)據(jù)集圖像中人臉區(qū)域進行截取,并將所截取的人臉圖像進行下采樣,圖像尺寸歸一化為 30×30、25×25,20× 20,18×18,16×16 以及 14×14 像素六種分辨率。使用以上六種不同分辨率的人臉圖像來構(gòu)造六種不同分辨率的低分辨率人臉數(shù)據(jù)集。本實驗使用以上所構(gòu)造的低分辨數(shù)據(jù)集作為實驗數(shù)據(jù)集,圖4給出了低分辨率數(shù)據(jù)集的構(gòu)建方法。本實驗使用ResNet34和 ResNet18 作為教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)的主干網(wǎng)絡(luò)。圖4第1行圖片為LFW數(shù)據(jù)集中的高分辨率人臉圖像,第2\~7行圖片為下采樣后所構(gòu)造的六個低分辨率人臉數(shù)據(jù)集。
3.1.1分層特征蒸餾對識別率的影響分析
本實驗使用上文所構(gòu)造的六種不同分辨率的低分辨率LFW數(shù)據(jù)集進行測試,將網(wǎng)絡(luò)中間層的分層特征蒸餾(hierar-chicalfeaturedistillation,HFD)與網(wǎng)絡(luò)末端的經(jīng)典知識蒸(knowledgedistillation,KD)進行對比。在本實驗中將HFD模型的中間層分層數(shù)量設(shè)置為5,分析這兩種知識蒸餾方式對于學生網(wǎng)絡(luò)在識別低分辨率人臉圖像方面所起的作用,具體實驗結(jié)果如圖5所示。
由圖5可知,隨著圖像分辨率的不斷降低,HFD和KD方法的識別率都呈現(xiàn)逐步降低的趨勢,其中HFD方法的識別率總體高于KD方法。實驗結(jié)果說明對網(wǎng)絡(luò)中間層特征進行分層蒸餾能夠有效地將教師網(wǎng)絡(luò)各中間層強大的特征描述能力遷移到學生網(wǎng)絡(luò),從而達到提高低分辨率人臉識別率的目標。
為了進一步驗證HFD網(wǎng)絡(luò)中不同層級分層特征蒸餾子網(wǎng)對低分辨率人臉識別率的影響,本文使用ResNet34和Res-Net18作為教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)的主干,并將分層特征蒸餾子網(wǎng)的數(shù)量均勻設(shè)置為3、5、7、9、11個。實驗中使用 20×20 像素的低分辨率LFW數(shù)據(jù)集對模型的識別率進行測試,具體的實驗結(jié)果如表1所示。
由表1可知,當分層特征蒸餾子網(wǎng)數(shù)量為5層的HFD網(wǎng)絡(luò)的識別率要高于其他數(shù)量的HFD,說明網(wǎng)絡(luò)中分層特征蒸餾子網(wǎng)的數(shù)量不是越多越好,其主要原因是:網(wǎng)絡(luò)的不同層次所提取的特征抽象程度不同,處于網(wǎng)絡(luò)較淺層次的特征中所包含的語義信息較少,處于網(wǎng)絡(luò)較深層次的特征中包含了更多的語義信息。若在分層特征蒸餾時引入過多的分層特征蒸餾子網(wǎng),將使模型在進行分層特征蒸餾時,過多的淺層特征蒸餾將引入大量邊緣輪廓的淺層特征,這將降低學生網(wǎng)絡(luò)中間層特征所包含的語義信息,導(dǎo)致中間層特征在蒸餾過程中出現(xiàn)無法對齊的問題,從而導(dǎo)致模型得不到很好的優(yōu)化,最終出現(xiàn)模型識別率下降的問題。
為了進一步探討HFD網(wǎng)絡(luò)中不同分層特征蒸餾子網(wǎng)數(shù)量與模型規(guī)模對學生網(wǎng)絡(luò)識別率的影響,本文將學生網(wǎng)絡(luò)固定為ResNet18,使用不同深度的ResNet作為教師網(wǎng)絡(luò)的主干。本實驗使用了ResNet34、ResNet50、ResNet56、ResNet101以及ResNet152作為教師網(wǎng)絡(luò)進行HFD算法識別率的對比實驗,具體實驗結(jié)果如圖6所示。
在圖6中,ResNet18表示的是沒有使用HFD方法對學生網(wǎng)絡(luò)進行訓(xùn)練。圖中ResNet34(5層)表示的是教師網(wǎng)絡(luò)為ResNet34,其中引入了5個分層特征蒸餾子網(wǎng)對學生網(wǎng)絡(luò)進行訓(xùn)練,其他類似??梢园l(fā)現(xiàn),使用HFD方法對學生網(wǎng)絡(luò)訓(xùn)練后所取得的識別率都比ResNet18的識別率更高,進一步證明了HFD方法的有效性。當教師網(wǎng)絡(luò)為ResNet152時,學生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)之間的規(guī)模存在較大懸殊,即使是增加了分層特征蒸餾子網(wǎng)的數(shù)量,學生網(wǎng)絡(luò)的識別率還是出現(xiàn)了一定幅度的降低,其主要原因是教師網(wǎng)絡(luò)規(guī)模越大,處于不同層次的面部特征的抽象程度差異也越大,導(dǎo)致教師網(wǎng)絡(luò)中間層特征與學生網(wǎng)絡(luò)中間層特征出現(xiàn)很大差異,使得在蒸餾過程中出現(xiàn)了特征強行擬合對齊的問題,導(dǎo)致學生網(wǎng)絡(luò)得不到很好的優(yōu)化,學生網(wǎng)絡(luò)分類準確率出現(xiàn)一定程度的降低。當教師網(wǎng)絡(luò)為ResNet34時,教師網(wǎng)絡(luò)與學生網(wǎng)絡(luò)沒有規(guī)模鴻溝,中間層特征的抽象差異程度不大,學生網(wǎng)絡(luò)通過分層蒸餾損失函數(shù)能夠很好地模仿教師網(wǎng)絡(luò)中間層所提取的特征,從而顯著增強了學生網(wǎng)絡(luò)各中間層的特征描述能力。
3.1.2解耦蒸餾對識別率的影響分析
由于所構(gòu)造的低分辨率LFW數(shù)據(jù)集中的人臉圖像存在光照變化、表情改變、姿態(tài)偏轉(zhuǎn)以及遮擋等干擾因素,為了能進一步提升所提算法的識別率,本實驗在教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)之間引入解耦蒸餾模塊(decouplingdistillation,DD),并通過對比實驗分析解耦蒸餾模塊在增強算法魯棒性和提升算法識別率方面的作用。為了測試解耦蒸餾損失函數(shù)中的權(quán)重參數(shù)對識別率的影響,本文使用 20×20 像素的低分辨率LFW數(shù)據(jù)集進行超參數(shù)的設(shè)置實驗,實驗采用控制變量法對這兩部分蒸餾損失的權(quán)重參數(shù)進行測試。首先將TCD的權(quán)重參數(shù) α 固定為1,然后依次調(diào)整NCD的權(quán)重參數(shù) β ,學生網(wǎng)絡(luò)識別率的具體實驗結(jié)果如表2所示。
由表2可知,當TCD權(quán)重參數(shù) α 固定為1時,低分辨率人臉圖像的識別率最高的NCD權(quán)重參數(shù) β 為8。這是由于NCD權(quán)重參數(shù)偏大更容易發(fā)揮出被抑制的非目標類蒸餾損失在分類層蒸餾中的作用,但如果NCD權(quán)重參數(shù)過大就會出現(xiàn)目標類損失被抑制的情況,使模型無法對低分辨率樣本進行準確識別。
當NCD權(quán)重參數(shù) β 固定為8,逐步調(diào)整TCD的權(quán)重參數(shù)α 。學生網(wǎng)絡(luò)識別率的具體實驗結(jié)果如表3所示。
表3中的NCD權(quán)重參數(shù) β 固定為8時,低分辨率人臉圖像的識別率最高的TCD權(quán)重參數(shù) α 為1。這是由于TCD權(quán)重偏小能更好地發(fā)揮出被抑制的非目標類部分,但如果過小就會出現(xiàn)目標類部分被抑制的情況。根據(jù)上述實驗結(jié)果可知,輸出層解耦蒸餾的融合權(quán)重參數(shù) α 和 β 分別為1和8時,HKDD網(wǎng)絡(luò)對低分辨率人臉圖像的識別率最高,在后續(xù)實驗中以該參數(shù)來設(shè)置解耦蒸餾模塊。
為了全面測試解耦蒸餾模塊在本文HKDD網(wǎng)絡(luò)中所起的作用,使用前面所構(gòu)造的6個不同分辨率的低分辨率LFW數(shù)據(jù)集進行測試,教師網(wǎng)絡(luò)使用的是ResNet34網(wǎng)絡(luò),學生網(wǎng)絡(luò)使用的是ResNet18網(wǎng)絡(luò),實驗中對比測試如下算法的識別率。ResNet為僅使用ResNet18網(wǎng)絡(luò)對低分辨率人臉進行識別;ResNet+KD 為對學生網(wǎng)絡(luò)使用了網(wǎng)絡(luò)末端的經(jīng)典知識蒸餾;ResNet+HFD 為對學生網(wǎng)絡(luò)使用了分層特征蒸餾;HKDD為本文所提的分層蒸餾解耦網(wǎng)絡(luò)。具體實驗結(jié)果如圖7所示。
從圖7可以看出,在六種低分辨率LFW數(shù)據(jù)集的實驗中,未使用知識蒸餾的ResNet網(wǎng)絡(luò)的識別率最低, ResNet+KD 網(wǎng)絡(luò)僅僅是在網(wǎng)絡(luò)末端對softmax層進行知識蒸餾,對網(wǎng)絡(luò)分類能力的提升非常有限;引入了分層特征蒸餾的 ResNet+HFD 網(wǎng)絡(luò),則是在網(wǎng)絡(luò)中間層使用分層蒸餾損失函數(shù)來迫使學生網(wǎng)絡(luò)所提取的特征盡可能與教師網(wǎng)絡(luò)的特征保持相似,有效提升了學生網(wǎng)絡(luò)的特征表達能力,但是該網(wǎng)絡(luò)對于含有多種干擾因素疊加的低分辨率樣本的分類能力仍有不足。本文HKDD網(wǎng)絡(luò)的識別率最高,其主要原因是:該網(wǎng)絡(luò)將中間層的分層特征蒸餾和輸出層解耦蒸餾相結(jié)合形成了一個完整的端到端的網(wǎng)絡(luò)結(jié)構(gòu),使教師網(wǎng)絡(luò)實現(xiàn)了從中間特征提取層一直到網(wǎng)絡(luò)輸出層的全面蒸餾,特別是對學生網(wǎng)絡(luò)末端的解耦蒸餾。該蒸餾方法能充分發(fā)揮出原始蒸餾損失中被抑制的非目標類蒸餾損失對學生網(wǎng)絡(luò)的指導(dǎo)作用,從而使學生網(wǎng)絡(luò)在教師網(wǎng)絡(luò)指導(dǎo)下學習到通用性面部特征的分類能力,確保了學生網(wǎng)絡(luò)能夠在非限制性應(yīng)用場景中具有較強的魯棒性和較高的分類精度。
3.2低分辨率人臉識別的綜合對比實驗
為了測試本文HKDD算法在低分辨率人臉圖像中的識別性能,首先本實驗使用3.1節(jié)中所構(gòu)建的低分辨率LFW數(shù)據(jù)集對算法訓(xùn)練與推理效率進行對比測試,并在多個不同像素的低分辨率LFW數(shù)據(jù)集中對算法的識別精度進行對比測試。隨后,本實驗還選取了TinyFace數(shù)據(jù)集[20以及QMUL-SurvFace數(shù)據(jù)集[21]來進一步測試算法的泛化能力。實驗中,將本文算法與近年來具有較好性能的低分辨率人臉識別算法進行綜合對比實驗,所對比的算法有: IKD[8] 、 BD[10] 、 FSKD[13] ) SCA[22] 、IRS[23] ,F(xiàn)T[24] 、MagFace[25] DSN[26] (204號 ,0L[27] 和 FFH[28] 。
3.2.1基于低分辨率LFW數(shù)據(jù)集的識別效率與精度對比實驗
本實驗選取了 25×25、20×20 以及 14×14 像素三個低分辨率LFW數(shù)據(jù)集作為測試數(shù)據(jù)集,使用 ResNet34 和ResNet18作為教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)的主干網(wǎng)絡(luò)。首先使用 20×20 像素的LFW低分辨率數(shù)據(jù)集對算法的訓(xùn)練時長以及單張樣本的平均識別時長進行對比實驗。具體實驗結(jié)果如表4所示。
由表4可知,本文HKDD網(wǎng)絡(luò)的訓(xùn)練與單張樣本平均識別時長都低于所對比的其他網(wǎng)絡(luò)。主要原因是在模型訓(xùn)練過程中,實驗中所對比的方法需要使用大量的樣本對模型進行多輪的迭代優(yōu)化,耗費了大量的時間。而本文網(wǎng)絡(luò)則是采用分層蒸餾方式,將教師網(wǎng)絡(luò)中各層次強大的特征描述能力遷移到學生網(wǎng)絡(luò),從而實現(xiàn)了對學生網(wǎng)絡(luò)的分層指導(dǎo)訓(xùn)練,使學生網(wǎng)絡(luò)無須使用大量樣本對模型進行訓(xùn)練,就能夠達到對學生網(wǎng)絡(luò)優(yōu)化的目標,極大地降低了本文網(wǎng)絡(luò)的訓(xùn)練時長。同時HKDD網(wǎng)絡(luò)中解耦蒸餾部分是通過恒等變換得出,并未給模型帶來新的算法開銷,也確保了所提HKDD網(wǎng)絡(luò)在訓(xùn)練過程中的高效性。在樣本識別過程中,由于HKDD框架中學生網(wǎng)絡(luò)使用的是具有精簡結(jié)構(gòu)的深度網(wǎng)絡(luò),所以HKDD在單張樣本平均識別時長實驗中具有較高的識別效率。
為了測試上述低分辨率人臉識別模型在不同分辨率下的識別率,本實驗使用 25×25、20×20 以及 14×14 像素的低分辨率LFW數(shù)據(jù)集對算法的平均識別率進行了對比實驗,具體實驗結(jié)果如表5所示。
從表5可以看出,在不同分辨率的實驗中,本文算法的識別率都要高于所對比的其他網(wǎng)絡(luò),且當分辨率下降時,本文算法的識別率下降幅度都低于其他網(wǎng)絡(luò)模型。這是因為本實驗中所對比的網(wǎng)絡(luò)模型主要是通過對大量樣本學習來提升網(wǎng)絡(luò)對低分辨率圖像的分類能力,并沒有充分考慮如何利用教師網(wǎng)絡(luò)來進行指導(dǎo)訓(xùn)練,采用這樣的方式將使得模型的收斂速度變慢,模型參數(shù)很難得到有效優(yōu)化。而本文HKDD網(wǎng)絡(luò)是將中間層進行分層,然后通過逐層級蒸餾將教師網(wǎng)絡(luò)中不同抽象程度的特征描述能力遷移到學生網(wǎng)絡(luò)對應(yīng)的層級中,使學生網(wǎng)絡(luò)各層級所提取的低分辨率人臉特征能夠更加接近教師網(wǎng)絡(luò)各層級所提取的特征。其次,HKDD網(wǎng)絡(luò)將教師網(wǎng)絡(luò)分類層的蒸餾損失解耦為目標類蒸餾損失和非目標類蒸餾損失,并為非目標類蒸餾損失設(shè)置了更高的權(quán)重,從而發(fā)揮了非目標類蒸餾損失對學生網(wǎng)絡(luò)的指導(dǎo)作用,使學生網(wǎng)絡(luò)能夠更充分地利用有限的訓(xùn)練樣本學習到教師網(wǎng)絡(luò)強大的分類能力,從而使學生網(wǎng)絡(luò)能夠在不同分辨率的實驗中都能取得較高的人臉識別率。
3.2.2基于TinyFace數(shù)據(jù)集的識別效率與精度對比實驗
為了進一步測試HKDD網(wǎng)絡(luò)在多種低分辨率人臉數(shù)據(jù)集上的泛化能力,本實驗采用TinyFace數(shù)據(jù)集進行算法識別率的對比實驗,該數(shù)據(jù)集中共有169403張低分辨率人臉樣本,其分辨率為 20×16 像素,數(shù)據(jù)集中共有5139個類,數(shù)據(jù)集中的樣本存在姿態(tài)偏轉(zhuǎn)、光照變化、表情改變以及遮擋等干擾因素。圖8給出了該數(shù)據(jù)集中的部分樣本。
實驗中,將本文算法與目前性能較好的算法進行對比實驗,具體的算法有:IKD、BD、FSKD、DSN、OL和FFH,對比實驗結(jié)果如表6所示。
由表6可知,本實驗中所有算法的人臉識別率都偏低,其主要原因是該數(shù)據(jù)集中的樣本不僅分辨率低,同時樣本中還存在多種干擾因素的共同疊加(如:光照變化、姿態(tài)偏轉(zhuǎn)、表情改變以及遮擋等),使得現(xiàn)有低分辨率算法難以從樣本中提取出具有較好判別特性的面部特征。在本實驗中,本文HKDD網(wǎng)絡(luò)取得了最高的人臉識別率,以上實驗結(jié)果進一步證明了HKDD網(wǎng)絡(luò)通過各中間層的分層特征蒸餾,能夠顯著增強學生網(wǎng)絡(luò)各中間層的特征描述能力。同時,在分類層對蒸餾損失進行解耦,也有效增強了非目標類蒸餾損失函數(shù)對學生網(wǎng)絡(luò)的指導(dǎo)作用,使學生網(wǎng)絡(luò)在教師網(wǎng)絡(luò)指導(dǎo)下學習到通用性面部特征的分類能力,確保了學生網(wǎng)絡(luò)能夠在非限制性應(yīng)用場景中具有較強的魯棒性和較高的分類精度。
為了測試本文算法在TinyFace數(shù)據(jù)集中的訓(xùn)練效率與識別效率,本實驗使用表6的主流算法進行對比實驗,具體實驗結(jié)果如表7所示。
由表7可知,本文HKDD網(wǎng)絡(luò)在TinyFace數(shù)據(jù)集中依然具有較高的訓(xùn)練與識別效率,其訓(xùn)練時長與單張樣本的平均識別時長都低于所對比的其他網(wǎng)絡(luò)。進一步證明了分層蒸餾網(wǎng)絡(luò)能夠有效地將教師網(wǎng)絡(luò)中各層次強大的特征表達能力遷移到學生網(wǎng)絡(luò),使學生網(wǎng)絡(luò)無須使用大量樣本對模型進行訓(xùn)練,實現(xiàn)了對學生網(wǎng)絡(luò)高效優(yōu)化的目標,極大地降低了學生網(wǎng)絡(luò)訓(xùn)練的復(fù)雜度。在進行樣本識別時,由于學生網(wǎng)絡(luò)具有精簡的網(wǎng)絡(luò)結(jié)構(gòu),所以在使用學生網(wǎng)絡(luò)對低分辨率樣本進行識別時,具有較高的識別效率。
3.2.3基于QMUL-SurvFace數(shù)據(jù)集的識別率對比實驗
為了驗證本文所提的低分辨率人臉識別算法在安防監(jiān)控場景下的實用性以及算法的泛化能力,使用QMUL-SurvFace數(shù)據(jù)集對算法識別率進行對比實驗。該數(shù)據(jù)集中含有15573個人,總共有463507張人臉圖像,這些圖像來源于監(jiān)控攝像頭,所采集的人臉圖像分辨率低,且圖像中還包含多種復(fù)雜干擾因素(光照變化、姿態(tài)變化、表情以及遮擋等),這使得該數(shù)據(jù)集成為極具挑戰(zhàn)性的低分辨率人臉數(shù)據(jù)集。圖9給出了該數(shù)據(jù)集中部分樣本。
本實驗中,將本文算法與目前性能較好的算法進行對比實驗,具體的算法有IKD、BD、FSKD、DSN、OL和FFH,為了能更全面對算法的識別性能進行測試,本文采用 TAR(%)(a) FAR和mean accuracy( % 作為算法識別精度的評價指標,其中TAR表示的是正確接受率(trueacceptrate);FAR表示的是錯誤接受率(1acceptrate)。在進行人臉驗證時,TAR就是真正同一人的兩張圖片被算法識別為同一人的比率;FAR就是非同一人的兩張圖片被算法識別為同一人的比率。在進行實際人臉驗證時,若降低人臉驗證的相似度閾值,則會使TAR與FAR的值都同時上升,為了使算法的識別精度更有意義,需要在固定FAR值的情況下來綜合評估算法的TAR值,TAR @ FAR=0.1 表示 FAR=0.1 時,TAR的值。mean accuracy( (%) 為人臉識別的平均準確率。本實驗的具體實驗結(jié)果如表8所示。
由表8的結(jié)果可知,本文算法HKDD的正確接受率以及平均準確率均高于現(xiàn)有主流的低分辨率人臉識別算法,實驗結(jié)果進一步證明了本文算法一方面通過分層特征蒸餾提升了學生網(wǎng)絡(luò)的特征描述能力,使學生網(wǎng)絡(luò)在教師網(wǎng)絡(luò)的指導(dǎo)下,學習到了教師網(wǎng)絡(luò)強大的特征表達能力;另一方面通過解耦蒸餾的方式,將網(wǎng)絡(luò)最末端的softmax層解耦為目標類蒸餾損失和非目標類蒸餾損失,通過為非目標類蒸餾損失設(shè)置更高的權(quán)重,從而實現(xiàn)了提升學生網(wǎng)絡(luò)分類性能的目標。本實驗進一步證明了本文算法具有較強魯棒性,能夠在包含復(fù)雜干擾因素的視頻監(jiān)控場景取得較高的準確率。
3.3算法效率分析
為了進一步分析本文算法的運行效率,從系統(tǒng)內(nèi)存占用的角度對模型的運行效率進行詳細分析。本實驗所使用的硬件平臺配置為:IntelXeonGold51182.30GHzCPU,兩塊QuadroP5000顯卡,32GB內(nèi)存。本實驗使用自主構(gòu)造的低分辨率LFW數(shù)據(jù)集進行測試,實驗中教師網(wǎng)絡(luò)使用的是ResNet152,學生網(wǎng)絡(luò)使用的是 ResNet34 。圖10中的T-250表示輸入到教師網(wǎng)絡(luò)的樣本尺寸為 250×250 像素,S-64、S-32、S-16以及S-12表示輸入到學生網(wǎng)絡(luò)的測試樣本尺寸分別為: 64×64,32×32 、16×16 以及 12×12 像素。
由圖10可知,隨著樣本分辨率的降低,模型在內(nèi)存中所占用的空間也隨之降低,相比較于教師網(wǎng)絡(luò)T-250,S-64、S-32、S-16以及S-12網(wǎng)絡(luò)的內(nèi)存占用規(guī)模分別降低了95. 36% /97.64% 98.81% 以及 99.01% ,當?shù)头直媛蕵颖镜姆直媛蕿?2×12 像素時,學生網(wǎng)絡(luò)模型在進行樣本推理識別時的內(nèi)存占用僅為 4.31MB 。學生網(wǎng)絡(luò)模型的識別率與單張樣本平均識別時長的實驗結(jié)果如表9所示。
由表9可知,當輸入的低分辨率測試樣本尺寸為 12×12 像素時,學生網(wǎng)絡(luò)的單張樣本平均時長相較于教師網(wǎng)絡(luò)降低了97.92% ,而學生網(wǎng)絡(luò)的識別率相比較于教師網(wǎng)絡(luò)僅僅降低11% ,具備了較高的識別率。實驗結(jié)果充分說明,教師網(wǎng)絡(luò)通過分層特征蒸餾子網(wǎng)和解耦蒸餾子網(wǎng),能夠有效將教師網(wǎng)絡(luò)的強大特征描述能力和分類能力遷移到學生網(wǎng)絡(luò),采用這種方式對學生網(wǎng)絡(luò)進行指導(dǎo)訓(xùn)練,沒有增加學生網(wǎng)絡(luò)的模型規(guī)模,而學生網(wǎng)絡(luò)的參數(shù)量以及內(nèi)存空間占用量得到顯著降低,使學生網(wǎng)絡(luò)具備了較強的實時性和較高的識別率。
4結(jié)束語
為了有效解決非限制性場景中低分辨率人臉識別率低的問題,本文提出了基于分層蒸餾解耦網(wǎng)絡(luò)的低分辨率人臉識別算法。該網(wǎng)絡(luò)通過中間層的分層特征蒸餾和輸出層的解耦蒸餾相結(jié)合的雙重蒸餾方式來指導(dǎo)學生網(wǎng)絡(luò)訓(xùn)練,以更好地將教師網(wǎng)絡(luò)中強大的人臉特征描述能力和分類能力遷移到學生網(wǎng)絡(luò)中,從而提高學生網(wǎng)絡(luò)對低分辨率人臉樣本的識別率與訓(xùn)練效率。通過大量的實驗結(jié)果表明,HKDD網(wǎng)絡(luò)在低分辨率人臉圖像中的識別率要優(yōu)于現(xiàn)有的主流低分辨率識別模型。在算法的實現(xiàn)過程中,本文算法在對學生網(wǎng)絡(luò)進行分層特征蒸餾時,無須設(shè)置超參數(shù),可以快速地實現(xiàn)將教師網(wǎng)絡(luò)的特征描述能力遷移至學生網(wǎng)絡(luò)。然而在網(wǎng)絡(luò)末端進行解耦蒸餾時,目標類蒸餾損失與非目標類蒸餾損失的權(quán)重設(shè)置仍然需要通過大量實驗來尋找最優(yōu)值,無法根據(jù)樣本的分類困難度來自動設(shè)置相應(yīng)的權(quán)重,這是本文后續(xù)研究所要重點解決的問題。
參考文獻:
[1]盧峰,周琳,蔡小輝.面向安防監(jiān)控場景的低分辨率人臉識別算 法研究[J].計算機應(yīng)用研究,2021,38(4):1230-1234.(Lu Feng,Zhou Lin,Cai Xiaohui.Research on low-resolution face recognitionalgorithm for security surveillance scene[J].ApplicationResearchofComputers,2021,38(4):1230-1234.)
[2]侯諭融,狄嵐,梁久禎.融合高斯金字塔特征的低分辨率人臉識 別[J].小型微型計算機系統(tǒng),2021,42(10):2107-2115. (Hou Yurong,Di Lan,Liang Jiuzhen. Fusion of Gaussian image pyramid feature for low-resolution face recognition [J].Journal of ChineseComputerSystems,2021,42(10):2107-2115.)
[3]李晶,李健,陳海豐,等.基于關(guān)鍵區(qū)域遮擋與重建的人臉表情 識別[J].計算機工程,2024,50(5):241-249.(LiJing,Li Jian,Chen Haifeng,etal.Facial expressionrecognitionbased on key region masking and reconstruction[J]. Computer Engineering, 2024,50(5):241-249.)
[4]ZhangKangkai,GeShiming,ShiRuixin,etal.Low-resolutionobject recognition with cross-resolution relational contrastive distillation [J]. IEEE Trans on Circuits and System for Video Technology, 2024,34(4):2374-2384.
[5]張凱兵,鄭冬冬,景軍鋒.低分辨率人臉識別綜述[J].計算機 工程與應(yīng)用,2019,55(22):14-24.(Zhang Kaibin,Zheng Dongdong,Jing Junfeng. Survey of low-resolution face recognition[J]. Computer Engineering and Applications,2019,55(22):14-24.)
[6]張慶輝,張媛,張夢雅.有遮擋人臉識別進展綜述[J].計算機 應(yīng)用研究,2023,40(8):2250-2257,2273.(ZhangQinghui, Zhang Yuan, Zhang Mengya. Review of progress of face recognition with occlusion[J].Application Research of Computers,2023, 40(8):2250-2257,2273.)
[7]HintonG,Vinyals O,Dean J.Distilling the knowledge in a neural network [EB/OL](2015-03-09).https://arxiv.org/abs/1503. 02531.
[8]WangMengjiao,LiuRujie,HajimeN,etal.Improved knowledge distillationfor training fastlowresolution facerecognitionmodel[C]// Proc of International Conference on Computer Vision Workshops.Piscataway,NJ:IEEE Press,2019.
[9]Yan Mengjia,Zhao Mengao,Xu Zining,et al.VargFaceNet:an efficient variablegroup convolutional neural network for lightweight face recognition [C]//Proc of International Conference on Computer Vision Workshops.Piscataway,NJ:IEEE Press,2019.
[10]Ge Shiming,Zhao Shengwei,Li Chenyu,et al.Efficient low-resolution face recognitionvia bridge distillation[J].IEEE Trans on lmage Processing,2020,29:6898-6908.
[11]LiJunnan,SelvarajuRR,GotmareAD,etal.Align before fuse:vision and language representation learning with momentum distillation [C]//Proc of the 35th International Conference on Neural Information Processing Systems. 2021: 9694-9705.
[12]Romero A,Ballas N,Kahou SE,et al.FitNets:hints for thin deep nets[C]//Proc of International Conference on Learning Representations.Cham:Springer,2015.
[13]Shin S,Yu Y,Lee K.Enhancing low-resolution face recognition with feature similarity knowledge distillation[EB/OL].(2023-03-08) [2024-06-09].https://arxiv.org/abs/2303.04681.
[14]Ge Shiming,Zhao Shengwei,Li Chengyu,et al.Low-resolution face recognition in the wild via selectiveknowledge distilation[J].IEEE Trans on Image Processing,2019,28(4): 2051-2062.
[15]Yang Chuanguang,An Zhulin, Cai Linhang,et al. Hierarchical selfsupervised augmented knowledge distillation[C]//Proc of International Joint ConferencesonArtificial Intellgence.Cham:Springer, 2021:1217-1223.
[16]Zhao Borui,Cui Quan,SongRenjie,et al.Decoupled knowledge distillation[C]//Proc of Conference on ComputerVision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:11953-11962.
[17]Yi Dong,Lei Zhen,Liao Shengcai,et al.Learning face representation from scratch[EB/OL].(2014-11-29)[2024-06-20].https://arxiv.org/pdf/1411.7923.
[18]HuangGB,Mattar M,BergT,et al.Labeled faces inthe wild:a database for studying face recognition in unconstrained environments,inria-00321923[R].Amherst:University of Massachusets,2007.
[19]Zhang Kaipeng,Zhang Zanpeng,Li Zhifeng,et al. Joint face detection and alignment using multitask cascaded convolutional networks [J].IEEE Signal Processing Letters,2016,23(10):1499- 1503.
[20] Cheng Zhiyi,Zhu Xiatian,Gong Shaogang.Low-resolution face recognition[C]//Proc of the14th Asian Conference on Computer Vision.Piscataway,NJ:IEEE Press,2018:605-621.
[21]Cheng Zhiyi, Zhu Xiatian,Gong Shaogang. Surveillance face recognition challenge[EB/OL].(2018-04-25)[2024-06-20].https:// arxiv.org/pdf/1804.09691.
[22]DengJiankang,Guo Jia,Liu Tongliang,etal.Sub-center ArcFace: boosting face recognition by large-scale noisy Web faces[C]//Proc of European Conference on Computer Vision. Cham:Springer,2020: 741-757.
[23]Knoche M,Hormann S,Rigoll G. Image resolution susceptibility of face recognition models[EB/OL].(2021)[2024-03-10]. https:// arxiv.org/abs/2107.03769.
[24]Zhong Yaoyao,Deng Weihong.Face transformer for recognition[EB/ OL].(2021-07-08)[2024-03-10].https://arxiv.or/abs/2103.14803.
[25]Meng Qiang, Zhao Shichao, Huang Zhida,et al. MagFace: a universal representation for face recognition and quality assessment [C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway, NJ:IEEE Press,2021:14225-14234.
[26]Lai SC,Lam K M.Deep siamese network for low-resolution face recognition[C]//Proc of Asia-Pacific Signal and InformationProcessing Association Annual Summit and Conference. Piscataway,NJ: IEEE Press, 2021:1444- 1449.
[27]KnocheM,Elkadeem M,Hormann S,et al.Octuplet loss:make face recognition robust to image resolution[C]//Proc of International Conference on Automatic Face and Gesture Recognition. Piscataway, NJ:IEEE Press,2023:1-8.
[28]Li Sisi,Liu Zhonghua,Wu Di,et al.Low-resolution face recognition based on feature-mapping face hallucination [J].Computers and Electrical Engineering,2022,101:1-15.