南寧學(xué)院 廣西 南寧 530000
人臉表情識別是計算機視覺領(lǐng)域的一個研究熱點。當(dāng)前深度學(xué)習(xí)方法的研究在提升表情識別性能上取得了重大進(jìn)展。然而,訓(xùn)練數(shù)據(jù)的缺乏以及大量表情無關(guān)因素(例如身份信息、光照、頭部姿態(tài)、面部遮擋等)的影響影響了深度模型的特征學(xué)習(xí)能力,容易出現(xiàn)過擬合現(xiàn)象,限制了模型的泛化性能。為了緩解過擬合問題,有些研究使用經(jīng)過充分預(yù)訓(xùn)練的人臉識別模型,然后在目標(biāo)表情數(shù)據(jù)集上進(jìn)行微調(diào)。預(yù)訓(xùn)練的人臉識別網(wǎng)絡(luò)具有更強的特征提取能力,另外,人臉識別和表情識別兩個領(lǐng)域的相似性使得面部特征易于遷移,從而提升了表情識別性能。盡管如此,網(wǎng)絡(luò)內(nèi)部仍然保留大量身份主導(dǎo)的信息,極可能削弱其表示不同表情變化的能力。實際上,識別效果既想保留人臉識別網(wǎng)絡(luò)強大的感知面部特征的能力,又希望網(wǎng)絡(luò)盡可能地學(xué)習(xí)表情特有的信息。
直方圖均衡化的主要目的是將原始圖像的灰度級均勻地映射到整個灰度級范圍內(nèi),得到一個灰度級分布均勻的圖像。主要包括兩個步驟:計算累計直方圖和對累計直方圖進(jìn)行區(qū)間轉(zhuǎn)換。首先計算圖像有多少個灰度級,然后計算每個像素在圖像內(nèi)出現(xiàn)的概率,得到歸一化統(tǒng)計直方圖,接下來計算所有灰度級的累計概率,然后用累計概率乘以當(dāng)前范圍內(nèi)的最大灰度級得到均衡化后的像素值[1]。
LBP是一種紋理描述算子,是在1996年由Ojala等研究人員提出的,由于LBP特征計算簡單的同時能取得較好的效果,且具有旋轉(zhuǎn)不變性和灰度不變性等優(yōu)點。因此在圖像識別和圖像分類中得到了廣泛的應(yīng)用,并取得了很好的效果。原始的LBP算子定義在3*3鄰域內(nèi),以鄰域中心為閾值,中心像素值依次與其8個鄰域像素值進(jìn)行比較,若鄰域像素大于或者等于中心像素值時則編碼為1,小于中心像素值則編碼為0,最終會產(chǎn)生一個8位二進(jìn)制數(shù),這個二進(jìn)制數(shù)值就是中心像素的LBP值,它反映了鄰域內(nèi)紋理信息[2]。
考慮到人臉表情識別是一個依靠數(shù)據(jù)驅(qū)動的任務(wù),訓(xùn)練一個足夠深的網(wǎng)絡(luò)來捕捉與表情相關(guān)的細(xì)微形變需要大量的相關(guān)數(shù)據(jù)。因此,在數(shù)量和質(zhì)量上均較為匱乏的數(shù)據(jù)庫是當(dāng)今深度人臉表情識別系統(tǒng)面臨的主要挑戰(zhàn)。由于不同年齡段、不同種族和不同性別的人表達(dá)和解析面部表情的方式也不同,一個理想的表情數(shù)據(jù)集應(yīng)該包含除了表情標(biāo)簽之外,各種豐富且精確的其他面部屬性標(biāo)簽,例如年齡、性別和種族。除此之外,雖然面部遮擋和多姿態(tài)問題在深度人臉識別領(lǐng)域得到了廣泛的研究,但其在深度人臉表情識別中受到的關(guān)注仍較少。主要原因是缺乏具有遮擋類型和頭部姿態(tài)標(biāo)注的大型面部表情數(shù)據(jù)集。另外,對大量攜帶復(fù)雜自然場景變化的數(shù)據(jù)進(jìn)行精確標(biāo)注的難度很大。一個可靠的解決方式是在專家的指導(dǎo)下對數(shù)據(jù)進(jìn)行多人的眾包標(biāo)注[3]。
人臉識別和表情識別兩個任務(wù)存在很強的關(guān)聯(lián)性。持續(xù)學(xué)習(xí)希望在持續(xù)增長的任務(wù)中都能保持良好的性能,而本文研究僅希望提升后者即表情識別的性能。持續(xù)學(xué)習(xí)的方法通過限制對以往任務(wù)具有更強重要性的參數(shù)變化來保留其學(xué)習(xí)能力,這種重要性通過每個參數(shù)對總體損失值變化的貢獻(xiàn)來衡量。對于人臉識別任務(wù)來說,由于類別眾多,“重要”參數(shù),即對損失值的變化貢獻(xiàn)更大的參數(shù),傾向于與感知面部一般特征相關(guān)而不是某一具體類別。因此,通過限制重要參數(shù)的變化可以更加有效地利用網(wǎng)絡(luò)感知面部公共特征的能力,避免表情網(wǎng)絡(luò)的過擬合[4]。
在現(xiàn)實應(yīng)用中人們有著多種情感表達(dá)方式,面部表情只是其中的一種模態(tài)。盡管基于可視人臉圖像的表情識別能夠取得不錯的效果,但與其他模態(tài)結(jié)合到一個高層框架中能夠提供互補信息,從而進(jìn)一步增強模型的魯棒性。例如,可將音頻模態(tài)作為次重要的因素與圖像信息相融合來進(jìn)行多模態(tài)的情感識別。此外,紅外圖像、三維人臉模型的深度信息、人體生理信息以及手勢姿態(tài)也可以作為面部表情的互補數(shù)據(jù)來輔助情感識別。在臉部遠(yuǎn)程光電容積脈搏波(remote photo plethysmo graphy,rPPG)信號分析上的最新進(jìn)展RhythmNet,也可能為表情分析帶來新的模態(tài)[5]。
本文分析了人臉識別與表情識別之間的區(qū)別與聯(lián)系,應(yīng)用持續(xù)學(xué)習(xí)的思想進(jìn)行表情識別,避免由于缺乏足夠的訓(xùn)練數(shù)據(jù)導(dǎo)致的模型過擬合問題。主要通過參數(shù)重要性正則保留人臉識別模型強大的特征提取能力,同時通過重要性參數(shù)的變化能夠?qū)W習(xí)表情相關(guān)的信息,避免大量身份信息的保留對表情識別的不利影響。本文方法在RAF-DB數(shù)據(jù)集上達(dá)到了88.04%的測試精度,由于基本保留了提取面部特征的能力,模型對于真實世界環(huán)境下表情圖像多樣性的處理能力增強,性能提升更為明顯。但由于實驗室環(huán)境下收集的表情圖像基本為正面無遮擋的規(guī)范人臉,圖像質(zhì)量更高,特征更加易于學(xué)習(xí)和識別,因此本文方法對于這類數(shù)據(jù)集的識別性能提升不明顯。