李雷達,殷楊濤,吳金建,董偉生,石光明
西安電子科技大學(xué)人工智能學(xué)院,西安 710071
人臉識別是生物特征識別領(lǐng)域的研究熱點,已經(jīng)在在線支付、安防等眾多領(lǐng)域中廣泛應(yīng)用。雖然現(xiàn)有的人臉識別方法取得了優(yōu)秀的性能,但往往需要有高質(zhì)量的輸入圖像。然而,現(xiàn)實生活中人臉識別系統(tǒng)常處于開放多變的環(huán)境,對系統(tǒng)的魯棒性要求極高。外部環(huán)境的變化,如光照強度不當(dāng)、人臉姿態(tài)不正等,會導(dǎo)致人臉圖像出現(xiàn)模糊、噪聲點較多和人臉關(guān)鍵部位不突出等問題,從而導(dǎo)致人臉識別系統(tǒng)的性能大大降低。人臉圖像質(zhì)量評價方法可以用于改善人臉識別系統(tǒng)。一方面,由于影響人臉識別系統(tǒng)性能的往往是低質(zhì)量圖像,因此可以利用人臉圖像質(zhì)量模型過濾掉低質(zhì)量人臉圖像,從而在減少無效識別的同時提升識別效率;另一方面,可以將人臉質(zhì)量特征與識別特征相結(jié)合,自適應(yīng)地調(diào)諧人臉圖像識別特征,進而提升人臉識別系統(tǒng)的性能。
目前,對于人臉圖像質(zhì)量評價的研究相對較少,已有方法可以分為基于手工特征的方法和基于深度學(xué)習(xí)的方法?;谑止ぬ卣鞯姆椒ńY(jié)合人的先驗知識,提取與人臉質(zhì)量相關(guān)的特征,并在此基礎(chǔ)上訓(xùn)練回歸模型實現(xiàn)人臉圖像質(zhì)量分?jǐn)?shù)的預(yù)測。Luo(2004)采用與傳統(tǒng)圖像質(zhì)量評價類似的方法,提取光強、模糊、噪聲等10種特征,利用人工神經(jīng)網(wǎng)絡(luò)預(yù)測質(zhì)量分?jǐn)?shù)。Abdel-Mottaleb和Mahoor(2007)結(jié)合模糊、光照、面部姿勢和表情等進行人臉圖像質(zhì)量評估;其中面部姿勢定義為人臉偏離正面的角度,面部表情通過預(yù)訓(xùn)練的高斯混合模型來完成。Beveridge等人(2008,2010)利用廣義線性混合模型提出了兩種影響人臉驗證性能的特征,分別為Sobel濾波器下由像素值平均大小組成的邊緣密度度量和對臉部不同區(qū)域進行計數(shù)的區(qū)域密度度量。Sellahewa和Jassim(2010)利用通用圖像質(zhì)量評價中的亮度失真分量(Wang和Bovik,2002),將輸入人臉圖像與訓(xùn)練集中的參考圖像進行比較,通過滑動窗口逐個計算平均亮度值,最后取所有窗口的均值作為人臉質(zhì)量分?jǐn)?shù)。Liao等人(2012)選取Gabor濾波的幅值作為特征,利用級聯(lián)支持向量機預(yù)測人臉圖像的5個質(zhì)量等級。Chen等人(2014)提出了一種兩階段人臉圖像質(zhì)量評價方法;第1階段中分別提取梯度直方圖、空間包絡(luò)特征(Oliva和Torralba,2001)、Gabor、局部二值特征(local binary pattern,LBP)和人臉關(guān)鍵點特征;第2階段中基于多項式核函數(shù)生成人臉圖像質(zhì)量分?jǐn)?shù)?;谑止ぬ卣鞯姆椒ㄖ校卣鞯脑O(shè)計主要取決于人對有限圖像樣本的觀察和經(jīng)驗,因此特征的表征能力有限,在面對真實環(huán)境下多變的場景和失真類型時,適用能力較差,難以滿足實際應(yīng)用的要求。
隨著深度學(xué)習(xí)在計算機視覺領(lǐng)域的廣泛應(yīng)用,研究者們也主要采用深度學(xué)習(xí)方法進行人臉圖像質(zhì)量評價的研究。Zhang等人(2017)首先創(chuàng)建了一個人臉圖像照度質(zhì)量數(shù)據(jù)庫(face image illumination quality dataset, FIIQD),對200種不同照度下的224 733幅圖像進行了主觀質(zhì)量評分,然后采用ResNet-50(He等,2016)網(wǎng)絡(luò)訓(xùn)練人臉圖像質(zhì)量評價模型。Hernandez-Ortega等人(2019,2020)提出了兩種人臉圖像質(zhì)量評價模型,即FaceQnet-v0(face quality net-v0)(Hernandez-Ortega等,2019)和FaceQnet-v1(face quality net-v1)(Hernandez-Ortega等,2020),采用BioLabICAO框架(Ferrara等,2012)從VGGFace2(Visual Geometry Group Face2)(Cao等,2018)數(shù)據(jù)集中選取最高質(zhì)量的人臉圖像作為基準(zhǔn),然后將待評價圖像與基準(zhǔn)圖像同時輸入人臉識別模型,得到不同向量間的距離,最后使用 ResNet-50(He等,2016)網(wǎng)絡(luò)進行回歸建模。FaceQnet-v1與FaceQnet-v0的主要不同在于人臉識別特征提取器的數(shù)量(前者使用3個,后者僅1個)。Zhang等人(2019)提出了多分支人臉圖像質(zhì)量評價網(wǎng)絡(luò),由特征提取和質(zhì)量評價兩部分組成;前者利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)提取特征,后者將特征送到4個全連接分支預(yù)測不同的質(zhì)量屬性,包括對齊、可見性(遮擋)、姿勢和清晰度。Terh?rst等人(2020)提出了基于隨機張量魯棒性的人臉質(zhì)量評價方法SER-FIQ(stochastic embedding robustness-face image quality)。通過比較人臉圖像經(jīng)過多個隨機選擇子網(wǎng)絡(luò)模型的輸出向量來計算人臉圖像質(zhì)量;這里通過所有輸出向量間歐氏距離的平均值表示質(zhì)量,因此不需要人為標(biāo)注。Ou等人(2021)提出了基于相似度分布距離的人臉質(zhì)量評價方法(similarity distribution distance-face image quality assessment,SDD-FIQA),首先計算輸入圖像在類間和類內(nèi)的相似度分布,然后對兩種分布計算Wasserstein距離作為人臉圖像的質(zhì)量特征,最后訓(xùn)練回歸網(wǎng)絡(luò)實現(xiàn)評價。盡管目前基于深度學(xué)習(xí)的人臉圖像質(zhì)量評價方法取得了重要進展,然而這些方法對于人臉圖像質(zhì)量,尤其是其可用性特性的描述仍不夠準(zhǔn)確和直觀。由于人臉圖像主要供識別算法使用,因此不同于傳統(tǒng)的圖像質(zhì)量評價(Mittal等,2012a,b;Venkatanath等,2015;富振奇 等,2018;方玉明 等,2021),人臉圖像質(zhì)量評價模型既要符合人臉識別算法的特點,又要符合人眼的感知特性。
本文提出了一種新的基于掩膜的人臉圖像質(zhì)量評價方法。從人眼識別人臉圖像的角度出發(fā),人臉圖像的質(zhì)量,即可用性的高低,主要是由臉部的關(guān)鍵區(qū)域(眼睛、鼻子和嘴等)決定,因此關(guān)鍵區(qū)域?qū)τ谌四樧R別至關(guān)重要。并且,這些區(qū)域的變化對不同質(zhì)量人臉圖像的影響程度存在不同,而這正是本文算法的主要動機。具體地,對一幅待評價的人臉圖像,首先對關(guān)鍵區(qū)域加上掩膜,進而得到由評價圖像和掩膜圖像構(gòu)成的人臉圖像對;然后,將上述圖像對輸入特征提取模塊得到人臉質(zhì)量特征對;最后,通過質(zhì)量特征對映射得到輸入人臉圖像的質(zhì)量分?jǐn)?shù)?;?個人臉圖像數(shù)據(jù)庫的實驗結(jié)果表明,本文方法能夠有效評估人臉圖像的質(zhì)量,性能優(yōu)于目前的主流方法。
本文算法的主要思想是受人識別人臉特點的啟發(fā),即人在進行人臉識別時往往主要依據(jù)眼睛、鼻子和嘴巴等關(guān)鍵區(qū)域(Liu等,2017;章堅武 等,2019;孫浩浩 等,2020)。現(xiàn)有人臉識別算法在設(shè)計時也利用了上述特點(Sun等,2014;Taigman等,2014)。因此,在設(shè)計人臉圖像的質(zhì)量評價模型時,也需要考慮關(guān)鍵區(qū)域?qū)θ四樧R別算法的影響,進而獲得與人臉識別算法更加一致的質(zhì)量評價模型。如何挖掘上述關(guān)鍵區(qū)域的特點,進而實現(xiàn)對人臉質(zhì)量的有效表示是問題的核心,下面詳細(xì)闡述。
人臉圖像的質(zhì)量評價不同于一般的圖像質(zhì)量評價問題,其本質(zhì)上是人臉圖像的可用性評價,即依附于特定識別系統(tǒng)存在的質(zhì)量度量。在人臉識別系統(tǒng)中,人臉圖像的質(zhì)量是通過輸入圖像與人臉數(shù)據(jù)庫中基準(zhǔn)圖像特征對的相似度來進行度量的(這里的基準(zhǔn)圖像一般是無失真的高質(zhì)量清晰人臉圖像),相似度越高說明輸入的人臉圖像質(zhì)量越高,相似度越低說明輸入的人臉圖像質(zhì)量越低。如圖1所示,輸入的第1幅人臉圖像比第2幅更加清晰,辨識度更高,因此經(jīng)過人臉識別模型得到的人臉特征與基準(zhǔn)圖像特征有著更高的相似度,反映出第1幅輸入人臉圖像的可用性質(zhì)量更高,即該圖像的可用性價值更高。
圖1 傳統(tǒng)人臉圖像質(zhì)量的計算Fig.1 Traditional calculation of face image quality
(1)
在實際的應(yīng)用場景中,希望能夠直接使用輸入的人臉圖像Ii,快速判斷其質(zhì)量的高低。因此,如何在僅使用輸入圖像的情況下,實現(xiàn)人臉圖像質(zhì)量的無參考評價,是問題的核心。
考慮到可用性質(zhì)量Q本質(zhì)上代表輸入圖像與高質(zhì)量基準(zhǔn)圖像之間的相似度,即輸入圖像特征越接近基準(zhǔn)圖像特征可用性質(zhì)量越高,反之越低。在不使用高質(zhì)量基準(zhǔn)人臉圖像的條件下,可以換一種對比的基準(zhǔn),即使用輸入人臉圖像所對應(yīng)的低質(zhì)量圖像作為偽參考。不同于高質(zhì)量的基準(zhǔn)人臉圖像,偽參考圖像可視為人臉圖像可用性質(zhì)量的另一個極端;輸入圖像與偽參考圖像越接近,其可用性質(zhì)量越低,反之越高。
受此啟發(fā),本文引入了人臉圖像的掩膜操作,即對臉部關(guān)鍵區(qū)域(如眼睛、鼻子和嘴等)添加黑色覆蓋。掩膜過程用M表示,添加了掩膜的圖像Im可表示為:Im=M(Ii),相比一般的人臉識別參考圖像,這里的掩膜圖像可以認(rèn)為是一種偽參考圖像,即圖像包含的人臉可用性信息幾乎可以忽略。對于任意一幅輸入人臉圖像,可以在沒有高質(zhì)量基準(zhǔn)人臉作為參考的情況下,利用偽參考掩膜圖像作為比較的基準(zhǔn);與掩膜圖像距離越近則可用性質(zhì)量越低,距離越遠(yuǎn)則可用性質(zhì)量越高。上述特點可以用圖2表示,這樣就可以在只使用輸入人臉圖像的情況下進行無參考評估,從而得到人臉圖像的可用性質(zhì)量表示。
圖2 人臉可用性質(zhì)量的度量Fig.2 Utility measurement of face image quality
圍繞核心思想,本文算法的構(gòu)建主要分為兩部分,即人臉掩膜的設(shè)計和回歸網(wǎng)絡(luò)的構(gòu)建,如圖3所示。人臉掩膜的設(shè)計主要得到人臉圖像的掩膜圖像,即偽參考圖像;回歸網(wǎng)絡(luò)構(gòu)建部分主要通過輸入的人臉和掩膜圖像去預(yù)測人臉質(zhì)量。
圖3 本文算法的框圖Fig.3 Framework of the proposed algorithm
1)人臉掩膜的設(shè)計。人眼識別人臉圖像時主要通過關(guān)鍵區(qū)域(眼睛、鼻子和嘴等)進行分析和判斷,所以關(guān)鍵區(qū)域的破壞將直接影響圖像質(zhì)量的高低;并且關(guān)鍵區(qū)域的破壞對不同質(zhì)量的人臉圖像帶來的影響也不相同。相較于低質(zhì)量的人臉圖像,增加掩膜對高質(zhì)量人臉圖像的識別性能影響更大。設(shè)計掩膜的目的是掩蓋掉關(guān)鍵區(qū)域的作用,然后通過比較增加掩膜前后識別性能的影響程度表示人臉圖像的質(zhì)量。因此,本文中設(shè)計掩膜的原則是將人臉圖像中關(guān)鍵區(qū)域的有用信息消除,從而得到所需的掩膜圖像。本文采用專門用于人臉檢測(非人臉識別)的Retinaface(Deng等,2019b)識別出人臉的關(guān)鍵區(qū)域,獲得人臉關(guān)鍵區(qū)域的坐標(biāo)。從關(guān)鍵區(qū)域中選取左右眼、鼻子及嘴巴等4個區(qū)域,并將區(qū)域中的像素值全部置0,即獲得掩膜人臉圖像Im。掩膜圖像Im符合本文所期望的偽參考圖像的特點,即可用性質(zhì)量是極低的。具體效果如圖4所示。
圖4 掩膜操作Fig.4 Mask operation
2)回歸網(wǎng)絡(luò)構(gòu)建。對于回歸網(wǎng)絡(luò)構(gòu)建,考慮到訓(xùn)練模型的計算成本不能太高,并且需要在視覺領(lǐng)域的應(yīng)用較廣,表現(xiàn)性能較好,本文選取Inception結(jié)構(gòu)(Szegedy等,2015)的網(wǎng)絡(luò)模型。綜合考慮網(wǎng)絡(luò)的性能表現(xiàn)和計算成本,最終選取InceptionResnetV1(Szegedy等,2017)作為主干結(jié)構(gòu),并且抽取最后的分類層,只采用分類層之前的512維特征,然后用兩個全連接層進行連接,最后預(yù)測的分?jǐn)?shù)值P可表示為
(2)
考慮到人臉圖像質(zhì)量表示是連續(xù)的數(shù)值,因此采用均方誤差函數(shù)作為訓(xùn)練時的損失函數(shù),即
(3)
式中,K為樣本數(shù),j代表樣本的索引。
本文提出的人臉圖像質(zhì)量評價模型總體參數(shù)量為23.52 M(million),浮點運算次數(shù)為2.85 GFLOPs (giga float-point operations per second)。將所提出的算法取名為基于掩膜的人臉圖像質(zhì)量評價方法(mask-based face image quality,MFIQ),需要說明的是,評估模型MFIQ訓(xùn)練完成之后,即可以直接用于評價任何輸入的人臉圖像,不再需要參考圖像,即無參考評價。
2.1.1 數(shù)據(jù)集
實驗中采用5個人臉圖像數(shù)據(jù)集:包括1個新構(gòu)建的人臉數(shù)據(jù)集和4個已有的人臉識別數(shù)據(jù)集。其中新構(gòu)建的數(shù)據(jù)集取一定比例的人臉數(shù)據(jù)用來進行模型訓(xùn)練,剩下的圖片數(shù)據(jù)和其余4個公開數(shù)據(jù)集用于模型測試。4個現(xiàn)有數(shù)據(jù)集分別為LFW(labeled faces in the wild)(Huang等,2008)、VGGFace2(Cao等,2018)、CASIA-WebFace(Institute of Automation, Chinese Academy of Science-Website Face)(Yi等,2014)和CelebA(CelebFaces Attribute)(Liu等,2015),詳細(xì)信息如表1所示。
表1 人臉圖像數(shù)據(jù)集信息Table 1 Information of face image datasets
盡管上述數(shù)據(jù)集中包含大量不同環(huán)境下的人臉圖像,然而其中人臉圖像的失真程度普遍較弱,主要為高質(zhì)量人臉圖像,因而無法很好地代表真實環(huán)境中復(fù)雜的人臉圖像失真。為了獲得普適性更好的模型,訓(xùn)練數(shù)據(jù)集中圖像失真的種類和失真程度應(yīng)當(dāng)有足夠的多樣性,這樣才能保證模型的泛化性。為此,本文構(gòu)建了一個新的人臉圖像質(zhì)量評價數(shù)據(jù)庫,取名為DDFace(diversified distortion face),包含更加廣泛的人臉圖像失真類別和失真強度,數(shù)據(jù)集的具體信息如表2所示。
表2 本文構(gòu)建的DDFace數(shù)據(jù)集信息Table 2 Information of the DDFace dataset
考慮到VGGFace2數(shù)據(jù)集中每個人臉對應(yīng)的圖像數(shù)量較多,有利于確定基準(zhǔn)人臉圖像,因此從中選取1 000個人臉圖像作為DDFace數(shù)據(jù)庫的基準(zhǔn)人臉圖像,每個人臉I(yè)D下有10種不同角度或環(huán)境的圖像。然后,在確定的基準(zhǔn)人臉圖像基礎(chǔ)上添加5種模擬的失真操作,包括高斯模糊、高斯噪聲、對比度失真、運動模糊和圖像壓縮(joint photographic experts group, JPEG);每種失真類型又包含6種不同的失真等級。同時,為了模擬真實環(huán)境下圖像中存在的復(fù)合失真,采用Ou等人(2019)的方法,并設(shè)置4種不同的失真等級。對基準(zhǔn)人臉圖像添加失真的效果如圖5所示。
圖5 DDFace數(shù)據(jù)庫失真圖像示例Fig.5 Samples of distorted images in DDFace dataset
2.1.2 人臉圖像質(zhì)量標(biāo)注
人臉圖像的質(zhì)量本質(zhì)上是可用性質(zhì)量,即面向人臉識別系統(tǒng),如圖6所示,用D表示距離度量,∝表示正相關(guān),則人臉圖像的質(zhì)量Q可以等效為
(4)
人臉圖像質(zhì)量的標(biāo)注主要包含3個步驟:人臉基準(zhǔn)圖像的選擇、人臉識別模型以及相似性度量方式的選擇。需要說明的是,采用基準(zhǔn)圖像進行人臉圖像的標(biāo)注僅在模型訓(xùn)練階段需要,當(dāng)模型訓(xùn)練完成之后即可以對任何輸入的人臉圖像直接進行質(zhì)量評價,不需要任何額外的信息。
圖6 人臉圖像可用性質(zhì)量的標(biāo)注Fig.6 Annotations of the face image utility quality
1)人臉基準(zhǔn)圖像It。所構(gòu)建的DDFace數(shù)據(jù)集里面每一張人臉都會有一幅高質(zhì)量圖像作為基準(zhǔn)圖像,基準(zhǔn)圖像具有高質(zhì)量、高辨識度以及臉部方向朝正的特點,用于與其他人臉圖像進行相似度的計算。
2)人臉識別模型F??紤]到訓(xùn)練數(shù)據(jù)集DDFace中人臉圖像尺寸均為160×160 像素,本文選取了輸入要求為112×112像素,即也是等寬高的Insightface(Deng等,2019a)人臉識別模型,該模型在各個數(shù)據(jù)集上的表現(xiàn)都很優(yōu)秀。
3)距離度量D。輸入人臉圖像和基準(zhǔn)人臉圖像經(jīng)過人臉識別網(wǎng)絡(luò)得到人臉特征對之后,采用余弦距離來表示輸入圖像的人臉質(zhì)量分?jǐn)?shù)。在人臉圖像質(zhì)量模型的訓(xùn)練中,采用上述分?jǐn)?shù)為訓(xùn)練標(biāo)簽。
2.1.3 模型訓(xùn)練與評估
1)訓(xùn)練。對構(gòu)建的DDFace數(shù)據(jù)集,按照8 ∶1 ∶1的比例劃分訓(xùn)練、驗證和測試集。訓(xùn)練InceptionResnetV1網(wǎng)絡(luò)時超參數(shù)的具體設(shè)置為:初始學(xué)習(xí)率0.001,學(xué)習(xí)率衰減因子0.9,衰減步長2,總訓(xùn)練輪次為40。
2)評估。為了評估人臉圖像質(zhì)量評估模型的性能,實驗采用Grother和Tabassi(2007)提出的錯誤拒絕曲線(error versus reject curve,EVRC),該曲線通過樣本拒絕比例和錯誤拒絕率(false non-match rate,F(xiàn)NMR) 來度量評價模型性能的優(yōu)劣程度。除了錯誤拒絕曲線,實驗中還利用了SDD-FIQA方法中的曲線面積(area over curve,AOC)指標(biāo)進一步量化該曲線,具體定義為
(5)
式中,g(φ)表示在拒絕比例φ下,人臉驗證的FNMR;φ=1-σ是被去除的低質(zhì)量圖像所占比例,a和b分別表示它的下界和上界,在本文實驗中分別設(shè)置為0和1。
實驗中,將本文提出的MFIQ算法與傳統(tǒng)的圖像質(zhì)量評價算法BRISQUE(blind reference image spatial quality evaluator)(Mittal等,2012a)、NIQE(natural image quality evaluator)(Mittal等,2012b)和PIQE(perception image quality evaluator)(Venkatanath等,2015)以及基于深度學(xué)習(xí)的人臉圖像質(zhì)量評價方法FaceQnet-v0、FaceQnet-v1和SER-FIQ進行對比。
2.2.1 算法性能比較
本節(jié)實驗利用Insightface模型來進行人臉驗證,在5個數(shù)據(jù)集下分別對比不同的質(zhì)量評價模型,實驗得出的EVRC曲線如圖7所示(考慮到全部數(shù)據(jù)集下的曲線圖展示占用過大篇幅,這里僅展示3種數(shù)據(jù)集下的結(jié)果,其中兩個為公開數(shù)據(jù)集里代表性較強的LFW和CASIA-WebFace數(shù)據(jù)集,另一個為本文所構(gòu)建的DDFace數(shù)據(jù)庫測試集部分),AOC的結(jié)果在表3中給出。實驗結(jié)果表明,在3種錯誤匹配率(FMR)值下(0.1, 0.01和0.001),MFIQ都獲得了最好的AOC結(jié)果,其中在LFW數(shù)據(jù)集上相比于次優(yōu)模型的AOC結(jié)果提高約4%,在CASIA-WebFace數(shù)據(jù)集上提升1.1%,在VGGFace2、DDFace和CelebA數(shù)據(jù)集上也均有不同程度的性能提升。
2.2.2 跨模型下的性能比較
在真實場景部署中所使用的人臉識別模型可能各不相同,本文訓(xùn)練MFIQ過程中人臉質(zhì)量的標(biāo)簽是基于Insightface模型生成的。為了驗證MFIQ模型在不同人臉識別模型下的擴展性能,本文采用另一種人臉識別模型Sphereface進行測試,在5個數(shù)據(jù)集下分別對比不同的質(zhì)量評價模型,實驗的EVRC曲線如圖8所示(考慮到全部數(shù)據(jù)集下的曲線圖展示占用過大篇幅,這里僅展示3種數(shù)據(jù)集下的結(jié)果,其中兩個為公開數(shù)據(jù)集里代表性較強的LFW和CASIA-WebFace數(shù)據(jù)集,另一個為本文所構(gòu)建的DDFace數(shù)據(jù)庫測試集部分),AOC結(jié)果在表4中展示。實驗結(jié)果表明,在LFW數(shù)據(jù)集上MFIQ方法相比于其他模型的AOC結(jié)果提高大約14.8%,在CASIA-WebFace上提高了2.9%,在DDFace數(shù)據(jù)集上提高了4.7%,而在CelebA和VGGFace2兩個數(shù)據(jù)集上的性能表現(xiàn)也是最好的。
圖7 錯誤拒絕曲線圖(Insightface模型下)Fig.7 Error rejection curves (Insightface model)((a) LFW (FMR=0.1);(b) CASIA-Webface (FMR=0.1);(c) DDFace (FMR=0.1);(d) LFW (FMR=0.01);(e) CASIA-Webface (FMR=0.01);(f) DDFace (FMR=0.01);(g) LFW (FMR=0.001);(h) CASIA-Webface (FMR=0.001);(i) DDFace (FMR=0.001))
兩種人臉識別模型下的實驗結(jié)果均表明,本文提出的MFIQ方法在性能上優(yōu)于其他主流的人臉質(zhì)量評估方法,相較于傳統(tǒng)的質(zhì)量評價方法性能提升更為顯著。
2.2.3 MFIQ模型下的數(shù)據(jù)分布評估
本部分用MFIQ評價模型對5個數(shù)據(jù)集里的人臉圖像進行可用性質(zhì)量的預(yù)測。5個數(shù)據(jù)集中圖像的特點分別為:
1)CASIA-WebFace、VGGFace2和CelebA中的人臉圖像大部分都是質(zhì)量較高的人臉圖像,其中CelebA數(shù)據(jù)集中高質(zhì)量清晰圖像所占的比重最大。
2)LFW數(shù)據(jù)集中人臉圖像質(zhì)量較低的圖像數(shù)量較少,大部分都是較為清晰和辨識度較高的圖像,噪聲較少。
3)本文中所構(gòu)建的DDFace數(shù)據(jù)集是從VGGFace2里選取的人臉圖像通過添加不同類型不同等級的失真得到的,很多人臉圖像里面含有各種噪聲,因此DDFace中低質(zhì)量的人臉圖像占比較大。
本部分用MFIQ方法對數(shù)據(jù)集中所有的人臉圖像進行質(zhì)量評估,得到各數(shù)據(jù)集下的質(zhì)量分?jǐn)?shù)分布圖,如圖9所示。從圖9中可以看出,5個數(shù)據(jù)集里面DDFace數(shù)據(jù)集中低質(zhì)量人臉圖像占的比重最大,而CASIA-WebFace、VGGFace2和CelebA中的人臉圖像大部分的質(zhì)量分?jǐn)?shù)在0.7以上,即高質(zhì)量圖像的占比較大;LFW數(shù)據(jù)集中大部分圖像的質(zhì)量分?jǐn)?shù)都在0.5之上,即人臉圖像的可用性也都較高,這與數(shù)據(jù)集實際分布的特點十分吻合。
表3 AOC結(jié)果(Insightface模型下)Table 3 The AOC results (Insightface model)
圖8 錯誤拒絕曲線圖(Sphereface模型下)Fig.8 Error rejection curves(Sphereface model)((a) LFW (FMR=0.1);(b) CASIA-Webface (FMR=0.1);(c) DDFace (FMR=0.1);(d) LFW (FMR=0.01);(e) CASIA-Webface (FMR=0.01);(f) DDFace (FMR=0.01);(g) LFW (FMR=0.001);(h) CASIA-Webface (FMR=0.001);(i) DDFace (FMR=0.001))
實驗結(jié)果表明了本文MFIQ方法對數(shù)據(jù)集的可用性質(zhì)量分布預(yù)測和真實的情況十分接近,模型預(yù)測的結(jié)果具有可信度。
2.2.4 MFIQ算法質(zhì)量評價效果
實驗選取相同人臉和不同人臉條件下不同失真程度的示例圖像,并用4種不同的人臉質(zhì)量評估模型進行質(zhì)量預(yù)測。相同人臉條件下預(yù)測的結(jié)果如圖10所示,每一行代表一個人,從左到右人臉圖像質(zhì)量依次升高。
實驗結(jié)果表明,MFIQ方法能夠有效地區(qū)分人臉高低質(zhì)量,預(yù)測的質(zhì)量排序與真實質(zhì)量一致,而其他3種人臉質(zhì)量評價模型都存在一定的預(yù)測偏差。例如,SER-FIQ錯誤地認(rèn)為圖10(d)所示的人臉比圖10(c)中的人臉質(zhì)量要低,且預(yù)測的質(zhì)量分?jǐn)?shù)過于集中,區(qū)分度低;FaceQnet-v0預(yù)測圖10(b)中的人臉質(zhì)量比圖10(a)低,圖10(g)的人臉質(zhì)量比圖10(f)差,圖10(a)和圖10(c)人臉的質(zhì)量相近,這與實際質(zhì)量存在較大的偏差。FaceQnet-v1則錯誤地認(rèn)為圖10(c)和圖10(d)人臉比圖10(a)人臉質(zhì)量要差,同時對圖10(e)和圖10(f)的預(yù)測出錯。
對于不同人臉條件下的人臉圖像預(yù)測也進行了對比,如圖11所示。預(yù)測結(jié)果表明,MFIQ方法能夠有效地對不同人臉下的不同質(zhì)量圖像進行區(qū)分和預(yù)測。例如,SER-FIQ錯誤地認(rèn)為圖11(a)和圖11(b)中的人臉比圖11(d)中的人臉質(zhì)量高;FaceQ-net-v0判斷圖11(c)和圖11(d)中的人臉質(zhì)量時現(xiàn)了偏差,并且錯誤地認(rèn)為圖11(f)和圖11(g)所示的人臉比圖11(h)中的人臉質(zhì)量要高;FaceQnet-v1預(yù)測結(jié)果出現(xiàn)的問題與FaceQnet-v0類似。
表4 AOC結(jié)果(Sphereface模型下)Table 4 The AOC result (Sphereface model)
圖9 數(shù)據(jù)集分布預(yù)測Fig.9 Prediction of the dataset distribution
上述實驗結(jié)果表明,SER-FIQ、FaceQnet-v0和FaceQnet-v1幾種主流的人臉質(zhì)量評價模型對低質(zhì)量人臉圖像的辨識度不強,即對于失真人臉圖像預(yù)測的魯棒性不高,導(dǎo)致在低質(zhì)量人臉圖像多的情況下容易出現(xiàn)誤判。
相比而言,本文提出的MFIQ方法能夠更加準(zhǔn)確地區(qū)分出不同等級失真人臉圖像的可用性質(zhì)量,性能更加優(yōu)秀。
圖10 相同人臉I(yè)D下不同失真強度的可用性質(zhì)量分?jǐn)?shù)預(yù)測Fig.10 Face image utility quality score prediction with wide distoration range under the same face ID((a) face 1-1;(b) face 1-2;(c) face 1-3;(d) face 1-4;(e) face 2-1;(f) face 2-2;(g) face 2-3;(h) face 2-4)
圖11 不同人臉I(yè)D下不同失真強度的可用性質(zhì)量分?jǐn)?shù)預(yù)測Fig.11 Face image utility quality score prediction with wide distoration range under different face ID((a) face 1;(b) face 2;(c) face 3;(d) face 4;(e) face 5;(f) face 6;(g) face 7;(h) face 8)
本文提出了一種基于掩膜的人臉圖像質(zhì)量評估方法,該方法從人臉識別的固有特點出發(fā),充分考慮關(guān)鍵區(qū)域在人臉識別過程中的決定性作用,通過構(gòu)建掩膜圖像作為偽參考,進而獲得待評價人臉圖像質(zhì)量的無參考表示。在不同人臉識別模型下的實驗結(jié)果表明,本文方法能夠準(zhǔn)確地預(yù)測不同失真強度下人臉圖像的可用性質(zhì)量,相比于傳統(tǒng)的質(zhì)量評價方法和主流的人臉質(zhì)量評價方法,本文方法對人臉圖像的預(yù)測更加貼近真實結(jié)果,并且在對低質(zhì)量人臉圖像的評估表現(xiàn)上,本文方法的魯棒性更高。
本文方法在人臉質(zhì)量評估任務(wù)上表現(xiàn)性能優(yōu)異,而如何將其融入到現(xiàn)有的人臉識別模型中并提高模型在低質(zhì)量圖像上的識別精度是進一步的難點,未來將著重從這方面入手,將人臉質(zhì)量評價模型和人臉識別模型相結(jié)合,輔佐人臉識別模型,改善現(xiàn)有人臉識別模型在低質(zhì)量人臉圖像上識別效果不佳的狀況。