陳麗 李志紅 李艷萍 任曉光 包長春
摘?要:多光譜面部識別系統基于不同光譜圖像開發(fā),近年來取得了快速進步。本文首先介紹了多光譜面部識別系統的組成,然后在檢索相關研究論文并分析的基礎上,介紹了用于面部分析的公共多光譜數據庫,識別系統的性能評價方法,分析了對面部識別系統的實現方法及應用,最后對多光譜面部識別系統的發(fā)展趨勢給出了相關分析。本文旨在為多光譜面部識別系統的研究提供參考。
關鍵詞:面部識別;多光譜圖像;神經網絡
中圖分類號:TN707
當今社會,面部識別系統的應用越來越廣泛,例如企業(yè)收集員工信息(如上下班打卡),或是智能手機進行用戶身份驗證。在檢測圖像時,傳統的面部識別系統僅使用可見光譜(visible spectrum,VIS),越來越多的研究發(fā)現這些系統存在一定的局限性,如面部有遮擋、姿勢發(fā)生變化、被檢人員不配合,以及光線變化時,其識別精確度會受到不同程度的影響[1]。
為了提高面部識別效率,基于多光譜圖像的面部識別系統被開發(fā)出來。紅外光譜,包括近紅外(Near Infrared,NIR)、短波長紅外(Short Wavelength Infrared,SWIR)、中波長紅外(Medium Wavelength Infrared,MWIR)和長波長紅外(Long Wavelength Infrared,LWIR)光譜,已成功地用于面部識別系統。與VIS光譜相比,紅外光譜基本不受光度差異等不利條件的影響,使得多光譜面部識別系統適應性更為廣泛。
本文首先介紹了多光譜面部識別系統的組成,然后在檢索并分析相關文獻的基礎上,介紹了圖像數據庫、性能評價和識別系統實現方法,并對其發(fā)展趨勢進行了分析,旨在為相關研究提供借鑒。
1 多光譜面部識別系統的基本組成
多光譜面部識別系統由5個部分組成(見下圖),即圖像采集、人臉檢測、人臉比對、特征提取和分類識別,具體地說,其過程為:利用相機采集多光譜圖像;對圖像進行人臉檢測,獲得人臉邊界框,并對圖片進行裁剪,去除與被檢測人員無關的背景;提取面部地標,如鼻子、眼睛、下巴和耳朵等,利用其位置信息,系統即可自主進行面部對齊,需要指出的是面部檢測和面部地標提取可在所有光譜圖像上進行,但一般優(yōu)先使用可見光圖像,再使用其他光譜圖像輔助;面部特征提取,具體提取哪些特征取決于所用的模型方法,且提取的面部特征包含或嵌入了表征被檢測人員身份的深度信息;對提取的面部特征按照一定的算法進行分類,最終確定圖像中人員的具體身份。相比于僅使用VIS光譜的面部識別系統,多光譜面部識別系統能夠更準確地識別被檢測人員,尤其在訪問高安全級別場所時,能確保只有授權人員允許進入。
2 發(fā)表論文概況
對多光譜面部識別系統的研究論文進行檢索,具體做法為:利用艾斯維爾的ScienceDirect數據庫檢索有影響因子的期刊上發(fā)表的、光譜面部識別相關的所有研究論文,并排除會議論文,時間范圍限定在2000—2020年之間。通過檢索發(fā)現,一共315篇論文發(fā)表在132種學術期刊上,且2016—2020年間多光譜人臉識別的報道呈指數增長,歸納起來有三個因素促進了其發(fā)展:(1)近紅外和長波紅外光譜波段的相機價格顯著降低,大大推動了其普及性;(2)為增強識別系統的效率,需要減少系統中的人為干預,這就要求增加新的技術手段分攤原來人的工作任務;(3)深度學習在人臉識別系統中的實現,進一步推動多光譜識別的應用,使其具有了良好的應用前景。
3 圖像數據庫分類
多光譜圖像數據庫有公共數據庫和個人數據兩種。對論文中涉及的多光譜圖像數據庫進行分析,顯示公共數據庫最為常用,因為這些數據庫允許數據庫之間的性能比較,使得研究人員更容易的選擇最適合的數據庫,以實現其最佳設計功能。個人數據庫一般由論文作者自行開發(fā)并使用,沒有功能比較模塊。大多數論文使用中國科學院的NIR-VIS 2.0、Oulu-CASIA NIR-VIS和中國科學技術大學的USTC-NVIE),且CASIA NIR-VIS 2.0數據庫使用頻率最高,原因主要包括兩點:(1)該數據庫的數據集協議已提前定義,即在訓練和測試階段已確定使用哪些圖像,易于實現方法比較;(2)數據庫由兩個子數據庫組成,其中一個子數據庫含有原始圖像,另一個子數據庫包含分辨率為128×128像素的圖像,且已進行了面部檢測和面部對齊,該子數據庫更加直觀,能幫助研究人員更容易實現其設計目的。
進一步按照名稱、創(chuàng)建年份、使用的光譜波段、人數、圖像數量等對數據庫進行分析。從下表可以看出,大多數據庫都已有若干年的歷史;數據庫中的平均人數為138人,人少遠遠小于僅含VIS圖像的數據庫,數據庫圖像少,不利于深度神經網絡的訓練和學習。對公共多數據庫中光譜圖像的光譜波段分析發(fā)現,聯合使用SWIR和MWIR光譜圖像的數據庫數量非常少,分別為11%和7%,其原因可能是與NIR或LWIR相機相比,SWIR和MWIR相機的價格仍然十分昂貴,不適于大規(guī)模普及。
4 多光譜面部識別系統性能評價方法
面部識別系統主要用于人員身份識別和驗證。身份識別是指確定一個人身份的過程,通過與數據庫中的大量身份信息進行一對多的比較來確定;身份驗證指比對被識別人員與其提供的身份信息,確認其是否允許進入或通過的過程,是一對一的比較。如果數據庫容量很大,身份識別過程將非常耗時,此時需要使用一系列標準對多光譜面部識別系統進行性能評價,其中最常用的是Rank-N分值、驗證率、誤報率(FAR)和算法計算時間[2]。
識別系統的性能可利用身份識別預測返回值在N范圍內(即Rank-N)結果的百分比來衡量。Rank-1是指預測返回值為正確(即最高分)的百分比,其計算方法為:身份識別正確的圖像數除以要識別的圖像總數。Rank-10是指在預測返回值排名前10的圖像所占的百分比。Rank-N可作為Rank-1的拓展和補充,但它不用于驗證哪張圖像最有可能正確,而是驗證正確圖像是否在這N張最可能的圖像之中。
身份識別可分為兩種類型,如果我們事先知道要識別的人存在于數據庫中,稱之為閉集識別,如果事先不知道這個人是否存在于數據庫中,稱之為開放集識別。在閉集識別過程中,經常使用累積匹配(Cumulative Match Characteristic,CMC)曲線進行性能評價,CMC曲線根據Rank-N范圍內圖像的識別正確率繪制而成,其中最常用的N值是5和10。在開放集識別中,通常使用受試者工作特征(Receiver Operating Characteristic,ROC)曲線進行性能評價,從ROC曲線可以計算得到ROC曲線下的面積(即AUC),AUC越接近1.0(即100%正確),那么應用該圖像數據庫進行身份識別的精準度越高,性能越好。
如果用TP代表系統識別為正確、實際為正確的圖像數,FN代表系統識別為錯誤、實際為正確的圖像數,那么驗證率(真陽性率)即可表示為:TP/(TP+FN)×100%。如用FP代表系統識別為正確、實際為錯誤的圖像數,TN為系統識別為正確、實際為正確的圖像數,那么FAR(誤報率,也可稱為假陰性率)即可表示為:FP/(FP+TN)×100%。在門禁系統中,FAR用于衡量識別系統(如面部識別系統)允許未經授權用戶訪問的可能性,FAR值越低,門禁系統越安全可靠。然而實際應用中,FAR值降低會伴隨驗證率降低,這就需要對算法進行微調,以在FAR和驗證率之間取得權衡,從而滿足面部識別系統的性能要求。
算法計算時間也可用于性能評價,使用多種方法獲得的Rank-N分值相差不大,或系統要求固定FAR時,可通過計算識別所需的時間,來衡量多光譜面部識別系統的性能。
5 多光譜面部識別系統的實現方法
5.1 方法分類
對現有論文中多光譜面部識別系統進行分析,按照系統訓練和測試階段的圖像通道數量,可分為三種方式:
(1)多通道到多通道;
(2)多通道到單通道;
(3)單通道到單通道,其中每個通道可以是某個確定的光譜波段或某光譜范圍內的光譜。
多通道到多通道方法是在訓練和測試階段使用相同的通道,使用這種方法,可以獲得更多的圖像信息,但缺點是設備成本較高。多通道到單通道方法是在訓練階段使用多個通道,而在測試階段只使用一個通道,使用該方法可顯著降低實現人臉識別系統的成本。最后一種方法使用頻率最低,在訓練和測試階段僅使用一個通道。
按照圖像特征提取和分類,又可將多光譜面部識別系統分為特征表征、耦合子空間學習、圖像合成、圖像融合和深度神經網絡五種方法。
5.2 特征表征方法及典型應用
特征表征方法是在圖像特征提取階段,提取出不同光譜圖像的最佳特征,通過特征提取,減少了初始圖像信息量,簡化了分類器的計算難度,也降低了不同光譜波段的圖像間隙。但特征提取方法有一個明顯的缺點,即忽略了人臉的空間結構,而空間結構是在異質人臉識別系統(包括多光譜面部識別系統)中取得良好性能的關鍵信息。
Nicolo等利用Gabor濾波器提取圖像的幅值和相位,然后分別用簡化韋伯局部描述符、LBP和廣義LBP這三種局部特征描述子進行特征提取,每個局部特征描述子生成一個包含135個bins的直方圖,然后將三個直方圖合并為單一的特征向量(或直方圖),并使用相對熵比較信息損耗,建立基于SWIR與VIS光譜通道的面部識別系統,在TINDERS數據庫上取得97.8%的Rank-1評分[3]。
Cao等使用復合多瓣描述子對NIR和VIS光譜圖像提取特征,并用相對熵比較信息損耗,建立了多光譜面部識別系統,在TINDERS數據庫上測試,1%誤報率(FAR)下的驗證率達91.54%,Rank-1評分為70.14%。對SWIRI和VIS光譜圖像,則取得1% FAR下的驗證率為99.46%,Rank-1評分為78.65%。Peng等開發(fā)了一種基于高幀率的圖像表征方法,該方法使用馬爾可夫網絡模型描述不同光譜圖像,并考慮了相鄰圖像之間的空間兼容性。在CASIA NIR-VIS 2.0和USTC-NVIE數據庫上進行識別系統測試,Rank-50評分分別為83.32%和95.38%[4]。
5.3 耦合子空間學習及典型應用
耦合子空間學習方法是指將不同光譜圖像的特征投射到一個公共子空間中,這個子空間允許在不同光譜圖像共有的冗余特征中,識別出最相關特征,該方法可減少多光譜圖像間隙。該方法也有明顯的缺點:一是當圖像間隙較大時,公共子空間的辨別能力會大大減弱;二是在向子空間上投射圖像特征不可避免地發(fā)生信息損耗,從而降低面部識別系統的性能。
Huang使用判別性譜回歸的圖像特征提取方法,將VIS和NIR的面部圖像投射到一個公共判別式子空間,以進行面部識別,在CASIA-HFB數據庫上獲得了95.33%的Rank-1評分[5]。
Hu等在預處理階段使用高斯差分濾波器,以減少VIS圖像的光度變化和LWIR圖像的位置變化的影響,并降低VIS和LWIR圖像之間的模態(tài)間隙,提取圖像特征后采用16×16像素的梯度直方圖描述,最終建立了基于偏最小二乘法模型的一對多面部識別模型。利用NVESD數據庫在1米、2米和4米進行VIS和LWIR光譜圖像的面部識別,得到的Rank-1評分分別為82.3%、70.8%和33.3%。在距離1m、2m和4m處也進行了MWIR和VIS光譜圖像的面部識別,分別獲得了92.7%、81.3%和64.6%的Rank-1評分[6]。
5.4 圖像合成方法及典型應用
圖像合成方法是將圖像從不同光譜統一轉換至VIS光譜后,再應用為VIS圖像設計的面部識別系統進行識別,該面部識別系統的性能高度依賴于合成的圖像的準確性。
Litvin等使用卷積神經網絡將LWIR光譜圖像轉換合成為VIS光譜圖像,同時修改了FusionNet架構及其訓練算法,以減少過擬合、增加橋聯、初始化有泄露的線性修正單元函數(ReLUs)和正交正則化后的Dropout。利用該方法對RGB-D-T數據庫中有姿勢、位置和光度變化的三種圖像進行了測試,分別產生了86.94%、97.52%和99.19%的Rank-1評分。
He等使用生成對抗網絡方法將NIR光譜圖像轉換為VIS光譜圖像,該方法使用了一個圖像修正組件,可將任意姿態(tài)的NIR圖像轉換為正面姿態(tài)的VIS圖像,生成兼具NIR和VIS紋理特征的圖像,然后,采用圖像扭曲程序將圖像集成到一個端到端的深度網絡中,最后使用卷積神經網絡模型LightCNN進行面部識別。在CASIA NIR-VIS 20、Oulu-CASIA NIR-VIS和 BUAA-VisNir數據庫上進行測試,Rank-1評分分別為98.6%、99.9%和99.7%,1% FAR下的驗證率分別為99.2%、98.1%和98.7%,0.1%FAR的驗證率分別為97.3%、90.7%和97.8%[7]。
5.5 圖像融合方法及典型應用
圖像融合方法包括兩種方法:特征融合和分值融合。特征融合將特征提取器獲得的多個圖像特征,例如邊緣、角度、線條和紋理等,合并為一個特征向量,用于執(zhí)行圖像切割或面部檢測。分值融合則聯合使用多個分類器和全局分類器,提高了分類器的整體性能,最常用的分值融合方法是多數投票法,即選擇所有分類器給出的最高頻率的分類,并將其分配給全局分類器;另一種分值融合方法是自適應加權法,指每個分類器按照性能高低,被分配一個動態(tài)加權值。使用圖像融合方法的面部識別系統,可聯合使用多個低成本攝像機,在降低錯誤率的同時,還可減低應用成本。
Singh使用粒度支持向量機(Granular SVM,GSVM)計算動態(tài)和局部加權值,從而將VIS和LWIR光譜圖像進行融合,采用二維Log-Polar極坐標變換提取全局面部特征,采用局部二值模式(LBP)提取局部面部特征。在UND-X1和NIST Equinox數據庫上進行系統性能測試,0.01%FAR下的驗證率分別為99.91%和99.54%。
Kanmani對融合方法進行了三種優(yōu)化,來解決異質面部識別問題。前兩種優(yōu)化方法為:將輸入圖像通過雙樹離散小波變換分別分解為高頻系數和低頻系數,采用群體優(yōu)化技術尋找最優(yōu)加權值,以進行VIS和LWIR光譜圖像的融合。第三種優(yōu)化方法采用自適應粒子群優(yōu)化算法,避免了粒子群算法的過早收斂,該算法采用曲波變換對圖像進行分解,并采用頭腦風暴優(yōu)化算法改善最優(yōu)加權值的搜索過程。對基于三種優(yōu)化方法的識別系統在IRIS數據庫上進行測試,分別獲得94.17%、94.50%和96.00%的Rank-1評分[8]。
5.6 深度學習網絡方法及典型應用
隨著人類神經網絡研究的深入,人工神經網絡方法開始應用于面部識別系統中,且逐漸超過其他方法。面部識別系統中的神經網絡的基本過程是:將圖像發(fā)送給神經網絡,提取一組圖像特征,當接收到來自同一個人的另一幅圖像時,神經網絡產生一組相似的特征信息,反之則產生不同的特征信息。目前最常用的神經網絡是深度神經網絡,它比傳統的人工神經網絡包含更多的決策層。然而,需要指出的是,訓練時間是現有的深度神經網絡的短板,很大程度上依賴于圖形處理單元的性能。基于神經網絡的識別系統在不同數據庫上進行性能評價,可使用Rank-N分值、驗證率和FAR衡量,如果這些指標結果類似,則可通過訓練和分類階段的算法計算時間進行衡量。
Sarfraz利用深度神經網絡捕捉LWIR和VIS光譜圖像之間的非線性關系,減少了異質圖像間隙。經測試,與偏最小二乘模型相比,該方法在UND-X1數據庫上提高了10%的Rank-1評分,在NVESD數據庫上提高了15%~30%的Rank-1評分[9]。
Hu等開發(fā)了具有散射損耗和分集組合的多重深度網絡,其中散射損耗可減少不同模態(tài)間隙,保留被檢人員的身份鑒別信息,而分集組合(DC)自適應調整各深度網絡的加權值。在CASIA NIR-VIS 2.0數據庫上進行測試,獲得Rank-1評分為98.9%,1%和0.1%FAR時的驗證率分別為99.6%和97.6%。在Oulu-CASIA NIR-VIS數據庫上進行測試,得到的Rank-1評分為99.8%,1%和0.1%FAR下的驗證率分別為驗證率為88.1%和65.3%。
Peng等使用深度局部描述子學習框架建立了面部識別系統,該學習框架能直接從面部圖像中學習具有鑒別性和緊湊的局部信息,并使用一種新的交叉模態(tài)枚舉損失算法來消除局部斑塊層面上的模態(tài)間隙,然后將其集成到卷積神經網絡中,利用深度局部描述子進行特征提取。在CASIA NIR-VIS 2.0數據庫上進行測試,該系統獲得9668%的Rank-1評分[10]。
He等在卷積神經網絡中使用Wasserstein distance函數計算概率分布差異,減少了VIS和NIR圖像之間的模態(tài)間隙,建立多光譜面部識別系統。在CASIA NIR-VIS 2.0、Oulu-CASIA NIR-VIS和BUAA-VisNir數據庫上測試,獲得Rank-1評分分別為98.7%、98.0%和97.4%,1%FAR下的驗證率分別為99.5%、81.5%和96.0%,0.1%FAR下的驗證率分別為98.4%,54.6%和91.9%。
Bae等引入了兩個模塊提高同質面部識別。第一個模塊包括三個子模塊:
(1)預處理鏈,可保證平移后的圖像與原圖像光度相似;
(2)CycleGAN函數,用于NIR到VIS的圖像轉換;
(3)二元神經網絡,用于在映射函數的學習過程中添加約束的同時學習隱空間。
第二個模塊則使用數據庫中的圖像及相應轉換圖像,對主干模型進行優(yōu)化,獲得512維的嵌入向量。使用CASIA NIR-VIS 2.0數據庫進行測試,沒有預處理模塊的系統,Rank-1評分為99.07%,01%FAR下的驗證率為98.67%,使用預處理模塊的系統,Rank-1評分為99.40%,0.1%FAR下的驗證率為98.74%[11]。
6 結論和展望
經過系統的分析研究,我們發(fā)現最常用的面部識別方法和取得最佳效果的方法都是基于神經網絡的。事實上,至少36%的研究論文使用神經網絡建立了多光譜面部識別方法。值得注意的是,自2019年以來,由于使用神經網絡(主要是生成對抗網絡)來進行圖像合成,圖像合成方法再次得到大量使用。
經過綜合分析研究,還發(fā)現在不同的數據庫中比較方法性能時,最常用的指標是Rank-1評分。目前多光譜人臉識別系統性能還受限于多光譜數據庫是否能夠使用。通過分析研究發(fā)現,目前應用最廣泛的公共數據庫是CASIA NIR-VIS 2.0。然而,與可見光波段的圖像數據庫相比,目前公共的多光譜數據庫容量(圖像總數)非常小,這可能導致神經網絡在訓練階段出現過擬合??傊?,多光譜數據庫有幾個局限性,如圖像數量較少,沒有公共數據庫提供同一個人在不同光譜波段的面部圖像,同一數據庫中圖像之間不存在位姿、光度和距離變化。
與僅使用可見光波段圖像的面部識別系統相比,多光譜面部識別方法可取得更好的性能。通過多光譜圖像在面部識別中的應用,可以克服某些光譜波段的圖像間隙,例如LWIR光譜圖像可不受光度差異的影響,能夠補充VIS圖像的缺點。然而,由于目前多光譜數據庫中圖像數量少,使用深度神經網絡進行多光譜面部識別系統仍受到限制,有很大的發(fā)展和改進空間。多光譜面部識別系統的主要目的仍然是安全和監(jiān)視,特別是在機場或軍事機密地區(qū)等關鍵地點,但隨著人工智能的發(fā)展和技術水平的進步,該系統將快速進入現代生活的方方面面,為人們提供更為優(yōu)質便捷的服務。
參考文獻:
[1]Zhang W,Zhao X,Morvan J M,et al.Improving Shadow Suppression for Illumination Robust Face Recognition[J].IEEE Trans Pattern Anal Mach Intell,2019,41(3):611-624.
[2]Wu F,Jing X Y,Dong X,et al.Intraspectrum Discrimination and Interspectrum Correlation Analysis Deep Network for Multispectral Face Recognition[J].IEEE Trans Cybern,2020,50(3):1009-1022.
[3]Peng C,Gao X,Wang N,et al.Graphical Representation for Heterogeneous Face Recognition[J].IEEE T Pattern Anal,2017,39(2):1-16.
[4]Huang X,Lei Z,Fan M,et al.Regularized discriminative spectral regression method for heterogeneous face matching.[J].IEEE T Image Process,2013,22(1):1-15.
[5]Zhifeng L,Dihong G,Qiang L,et al.Mutual Component Analysis for Heterogeneous Face Recognition[J].ACM T Intel Syst Tec,2016,7(3):1-18
[6]Hu S,Choi J,Chan A L,et al.Thermal-to-visible face recognition using partial least squares[J].J Opt Soc Am A,2015,32(3):431-442.
[7]Nnamdi O,Thirimachos B.Bridging the spectral gap using image synthesis:a study on matching visible to passive infrared face images[J].Mach Vision Appl,2017,28(5-6):1-15.
[8]Andre L,Kamal N,Sergio E,et al.A novel deep network architecture for reconstructing RGB facial images from thermal for face recognition[J].Multimed Tools Appl,2019,78(18):1-13.
[9]Ayan S,Debotosh B,Mita N.Human face recognition using random forest based fusion of à-trous wavelet transform coefficients from thermal and visible images[J].AEU-Int J Electron C,2016,70(8):1-9.
[10]M S S,Rainer S.Deep Perceptual Mapping for Cross-Modal Face Recognition[J].Int J Comput Vision,2017,122(3):1-13.
[11]Weipeng H,Haifeng H.Discriminant Deep Feature Learning based on joint supervision Loss and Multi-layer Feature Fusion for heterogeneous face recognition[J].Comput Vis Image Und,2019,184(1):1-18.
基金項目:河北省高等學??茖W技術研究項目(基于SOPC的人臉檢測系統的設計,項目編號:QN2019176)
通訊作者:陳麗(1987—?),女,碩士,助理研究員,研究方向:數字圖像處理。