代歡歡,譚生祥,張旺
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)
DOI:10.3969/j.issn.1007-1423.2021.07.028
人們能夠根據(jù)別人頭部的朝向和運(yùn)動(dòng)理解別人的意圖,這是一種非常重要的非語(yǔ)言形式的交流能力。頭部姿態(tài)估計(jì)研究在很多領(lǐng)域都具有廣泛的應(yīng)用場(chǎng)景,例如人臉識(shí)別、虛擬現(xiàn)實(shí)、駕駛員輔助系統(tǒng)、學(xué)生課堂注意力估計(jì),等等。頭部姿態(tài)估計(jì)的應(yīng)用領(lǐng)域詳見(jiàn)表1。
近年來(lái)越來(lái)越多的研究者投入到頭部姿態(tài)估計(jì)這一課題的研究,但頭部姿態(tài)估計(jì)的系統(tǒng)綜述文獻(xiàn)卻不多。2009 年,Murphy Chutorian 等人[1]發(fā)表了第一篇頭部姿態(tài)估計(jì)綜述論文。這篇論文對(duì)2009 年以前的頭部姿態(tài)估計(jì)方法進(jìn)行了分類(lèi)總結(jié),并且討論了每種方法的優(yōu)缺點(diǎn)。國(guó)內(nèi)學(xué)者唐云祁等人[2]在2014 年發(fā)表過(guò)一篇綜述。近幾年,隨著計(jì)算機(jī)視覺(jué)領(lǐng)域的蓬勃發(fā)展,頭部姿態(tài)估計(jì)領(lǐng)域也取得了很大的進(jìn)展,許多具有更高精度的頭部姿態(tài)估計(jì)新方法也相繼出現(xiàn)。本文將參考國(guó)內(nèi)外研究者在該領(lǐng)域的研究情況,重點(diǎn)歸納近些年出現(xiàn)的新方法,對(duì)頭部姿態(tài)估計(jì)方法進(jìn)行分類(lèi)總結(jié)和討論。
表1 頭部姿態(tài)估計(jì)應(yīng)用領(lǐng)域
在計(jì)算機(jī)視覺(jué)領(lǐng)域中,頭部姿態(tài)估計(jì)是從二維數(shù)字圖像推斷出三維空間中人的頭部朝向的過(guò)程。頭部姿態(tài)在三維空間中可以采用歐拉旋轉(zhuǎn)角來(lái)表示,該旋轉(zhuǎn)角由三個(gè)方向上的角度來(lái)確定,通常用水平方向(yaw)、垂直方向(pitch)以及圖像面內(nèi)旋轉(zhuǎn)的角度(roll)來(lái)表示。頭部姿態(tài)的三維空間表示如圖1 所示。
我們通常用歐拉旋轉(zhuǎn)角來(lái)表示頭部姿態(tài)。理論上,完整的頭部姿態(tài)范圍為圍繞X軸(pitch 方向)、Y軸(Yaw 方向)、Z軸(方向)分別旋轉(zhuǎn)-90°~90°。在實(shí)際生活中,正常成年人頭部偏轉(zhuǎn)范圍為圍繞于X軸偏轉(zhuǎn)-60.4°~69.6°,圍繞Y軸偏轉(zhuǎn)-40.9°~36.3°,圍繞Z軸偏轉(zhuǎn)-79.8°~75.37°。
圖1 頭部姿態(tài)示意圖及偏轉(zhuǎn)方向
由1.1 小節(jié)的描述可知,頭部姿態(tài)估計(jì)解決的問(wèn)題就是從二維數(shù)字圖像中估計(jì)出用戶(hù)在三維空間中的頭部姿態(tài),從而得到一個(gè)三維姿態(tài)偏轉(zhuǎn)角參數(shù),即歐拉旋轉(zhuǎn)角。從本質(zhì)上來(lái)講,頭部姿態(tài)估計(jì)就是尋找二維圖像空間到三維姿態(tài)空間的一個(gè)映射關(guān)系,或者二維圖像空間先到特征空間再到三維姿態(tài)空間的映射關(guān)系。該映射關(guān)系詳見(jiàn)圖2。
圖2 頭部姿態(tài)估計(jì)問(wèn)題映射關(guān)系圖
頭部姿態(tài)估計(jì)性能評(píng)價(jià)指標(biāo)是衡量頭部姿態(tài)估計(jì)算法優(yōu)劣的重要參考,頭部姿態(tài)估計(jì)評(píng)價(jià)指標(biāo)主要包括平均絕對(duì)誤差(Mean Absolute Error,MAE)和絕對(duì)誤差標(biāo)準(zhǔn)差(Standard Deviation of Absolute Error,SDAE)。
(1)平均絕對(duì)誤差
德國(guó)政府負(fù)責(zé)大型儀器設(shè)備的購(gòu)置,而管理單位負(fù)責(zé)日常運(yùn)營(yíng)、維護(hù)等,并向所有科研單位和高等院校的研究人員開(kāi)放。根據(jù)德國(guó)政府的規(guī)定,所有設(shè)備管理單位都需要成立協(xié)調(diào)委員會(huì)來(lái)規(guī)劃儀器設(shè)備的使用。以重離子研究所管理的重離子加速器為例。協(xié)調(diào)委員會(huì)評(píng)估所有使用申請(qǐng),包括項(xiàng)目資金來(lái)源,研究領(lǐng)域,所需的運(yùn)營(yíng)條件和具體日期。管理負(fù)責(zé)人基于評(píng)估意見(jiàn)做出決定。
平均絕對(duì)誤差是指預(yù)測(cè)出的頭部姿態(tài)偏轉(zhuǎn)角度和實(shí)際偏轉(zhuǎn)角度之間的距離的平均值。平均絕對(duì)誤差計(jì)算公式如下:
其中fi為第i 個(gè)樣本的預(yù)測(cè)角度值,yi為真實(shí)角度值。
(2)絕對(duì)誤差標(biāo)準(zhǔn)差
平均絕對(duì)誤差只能反映預(yù)測(cè)角度跟實(shí)際角度之間的差距,不能反映誤差的離散程度。反映誤差的離散程度一般選用絕對(duì)誤差標(biāo)準(zhǔn)差作為評(píng)價(jià)指標(biāo)。絕對(duì)誤差標(biāo)準(zhǔn)差的計(jì)算公式如下:
國(guó)內(nèi)外研究者對(duì)頭部姿態(tài)估計(jì)這一課題的研究從20 世紀(jì)90 年代至今已有30 年的時(shí)間了,在這期間提出了好幾十種頭部姿態(tài)估計(jì)方法。本節(jié)針對(duì)當(dāng)前國(guó)內(nèi)外頭部姿態(tài)估計(jì)領(lǐng)域的研究情況,對(duì)現(xiàn)存的頭部姿態(tài)估計(jì)主流方法進(jìn)行一個(gè)分類(lèi)綜述,不同分類(lèi)之間的方法并不是互斥的。詳細(xì)分類(lèi)情況如表2 所示。
表2 頭部姿態(tài)估計(jì)方法分類(lèi)情況
基于外觀模板方法是早期比較傳統(tǒng)的方法。該方法的流程是首先對(duì)每類(lèi)頭部姿態(tài)建立標(biāo)準(zhǔn)模板,然后將待識(shí)別的樣本圖像與具有相應(yīng)姿態(tài)標(biāo)簽的標(biāo)準(zhǔn)模板進(jìn)行匹配,與之匹配度最高的模板類(lèi)別即為該樣本所屬的類(lèi)別,圖3 為示例圖。J.Sherrah 等人[3]在實(shí)驗(yàn)中采用Gabor 小波濾波器方法來(lái)提取頭部朝向特征信息來(lái)進(jìn)行外觀模板配。外觀模板方法的優(yōu)點(diǎn)是標(biāo)準(zhǔn)模板庫(kù)可擴(kuò)展,并且不需要負(fù)樣本或者面部關(guān)鍵點(diǎn)。外觀模板的缺點(diǎn)是隨著模板庫(kù)的數(shù)量不斷增加,匹配樣本的計(jì)算成本也更高。模板庫(kù)的樣本豐富程度對(duì)估計(jì)的準(zhǔn)確率也有很大的影響。
圖3 外觀模板方法示例圖
基于回歸的方法是指通過(guò)學(xué)習(xí)從二維圖像空間到三維頭部姿態(tài)角度空間的一個(gè)映射關(guān)系,圖4 中提供了圖示。Torki 等人[4]首先從訓(xùn)練樣本中提取局部特征,學(xué)習(xí)其空間排列的嵌入表示,然后將嵌入空間特征映射到三維頭部姿態(tài)角。Drouardt 等人[5]在實(shí)驗(yàn)中提取目標(biāo)對(duì)象的HOG 高維特征,將其映射為頭部姿態(tài)角的參數(shù)和人臉邊框的平移。就目前來(lái)說(shuō),基于回歸的方法具備實(shí)時(shí)性好、準(zhǔn)確率較高的優(yōu)點(diǎn),缺點(diǎn)是對(duì)遮擋和噪聲特別敏感,在自然場(chǎng)景中頭部姿態(tài)估計(jì)的精度較低。
圖4 基于回歸方法圖示
基于流形嵌入的方法將頭部姿態(tài)假定為圖像空間中一個(gè)平滑的低維流形。在頭部姿勢(shì)估計(jì)中,對(duì)流形進(jìn)行建模,并且采用嵌入技術(shù)將新樣本投影到流形中,然后使用嵌入空間中的回歸或嵌入模板匹配之類(lèi)的技術(shù)將該低維嵌入用于頭部姿勢(shì)估計(jì),圖5 中提供了圖示。Lu.J 等人[6]在文章中提出了一種保序流形分析法對(duì)頭部姿態(tài)的估計(jì)進(jìn)行估計(jì),作者在實(shí)驗(yàn)中首先找到一個(gè)低維子空間,使該子空間中相似標(biāo)簽值的樣本相鄰,反之不相似的樣本遠(yuǎn)離,然后學(xué)習(xí)低維空間特征到樣本頭部姿態(tài)真實(shí)值的多線(xiàn)性回歸模型。流形嵌入的方法仍需在流形空間對(duì)特征進(jìn)行分類(lèi)和回歸。
圖5 基于流形嵌入方法
基于幾何的方法是指獲取頭部形狀和面部關(guān)鍵點(diǎn)的相對(duì)位置,利用空間中的幾何關(guān)系來(lái)進(jìn)行頭部姿態(tài)估計(jì),如圖6 所示。這類(lèi)方法通常先確定面部關(guān)鍵點(diǎn)的位置,然后通過(guò)這些關(guān)鍵點(diǎn)的相對(duì)位置。Nikdaidis等人[7]提出了一種結(jié)合自適應(yīng)霍夫變換和模板匹配的方法來(lái)進(jìn)行面部關(guān)鍵點(diǎn)檢測(cè),然后基于兩眼和嘴巴的關(guān)鍵點(diǎn)形成的等邊三角形的變形來(lái)計(jì)算水平方向上的頭部姿態(tài)。為了提升頭部姿態(tài)估計(jì)的準(zhǔn)確率,Narayanan 等人[8]提出了一個(gè)通用的水平頭部姿態(tài)估計(jì)的幾何模型,并且在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上驗(yàn)證了該模型的有效性。基于幾何的方法過(guò)程簡(jiǎn)單,時(shí)間復(fù)雜度較低,但是面部關(guān)鍵點(diǎn)的定位和檢測(cè)仍是目前的難點(diǎn)所在。
圖6 基于幾何方法
基于跟蹤的方法是指通過(guò)視頻前后幀中頭部的相對(duì)運(yùn)動(dòng)來(lái)進(jìn)行頭部姿態(tài)估計(jì)。Xiao 等人[9]提出了一種圓柱體模型的頭部跟蹤算法。該方法可以跟蹤視頻中的頭部運(yùn)動(dòng),恢復(fù)頭部的運(yùn)動(dòng)軌跡即三維空間中的旋轉(zhuǎn)(偏轉(zhuǎn)角)和平移。Zhao 等人[10]提出了基于SIFT 特征匹配的頭部姿態(tài)跟蹤算法。該方法對(duì)兩個(gè)連續(xù)幀進(jìn)行SIFT 特征檢測(cè),然后通過(guò)深度相機(jī)獲取特征點(diǎn)在三維空間中的位置,最后通過(guò)跟蹤到的特征點(diǎn)來(lái)進(jìn)行頭部姿態(tài)估計(jì)。基于跟蹤的方法一般精度較高,缺點(diǎn)是難以準(zhǔn)確初始化位置和頭部姿態(tài)以生成新模型或調(diào)整現(xiàn)有模型。
基于分類(lèi)和回歸融合的方法是指將頭部姿態(tài)估計(jì)既看成分類(lèi)問(wèn)題又看成回歸問(wèn)題,組合兩者的優(yōu)勢(shì)來(lái)提升估計(jì)的準(zhǔn)確率。Ho 等人[11]將頭部姿態(tài)角度劃分成固定數(shù)目區(qū)間并且分配好標(biāo)簽,然后針對(duì)不同標(biāo)簽訓(xùn)練一個(gè)多分類(lèi)SVM 進(jìn)行頭部姿態(tài)角的粗糙分類(lèi),接下來(lái)再針對(duì)每個(gè)區(qū)間訓(xùn)練一個(gè)SVR 來(lái)得到更精確的頭部姿態(tài)角度。Ruiz 等人[12]提出了一種多損失卷積神經(jīng)網(wǎng)絡(luò)(如圖7 所示)進(jìn)行頭部姿態(tài)估計(jì),該網(wǎng)絡(luò)架構(gòu)首先通過(guò)主干網(wǎng)絡(luò)提取特征,然后采用三個(gè)分支網(wǎng)絡(luò)(分別代表yaw、pitch、roll 方向)對(duì)不同角度進(jìn)行單獨(dú)估計(jì),每個(gè)分支網(wǎng)絡(luò)都采用交叉熵和均方差兩種損失函數(shù)組合進(jìn)行優(yōu)化。近幾年來(lái),基于分類(lèi)和回歸融合的方法由于其新穎的角度和極高的精度受到了大量學(xué)者的關(guān)注和研究。
近些年,深度學(xué)習(xí)在頭部姿態(tài)估計(jì)研究領(lǐng)域大放異彩,許多學(xué)者提出了基于卷積神經(jīng)網(wǎng)絡(luò)的頭部姿態(tài)估計(jì)方法。Cai 等人[13]采用了兩個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)訓(xùn)練頭部姿態(tài)估計(jì)分類(lèi)器,在訓(xùn)練過(guò)程中采用了平移和縮放來(lái)增大訓(xùn)練的數(shù)據(jù)集。Ranjan 等人[14]提出了一種多任務(wù)深度學(xué)習(xí)框架,該框架涵蓋了人臉檢測(cè),面部關(guān)鍵點(diǎn)檢測(cè),頭部姿態(tài)估計(jì)。由于多任務(wù)之間具有協(xié)同作用,單個(gè)任務(wù)的性能在原有基礎(chǔ)上都得到了一定的提升。基于深度學(xué)習(xí)的頭部姿態(tài)估計(jì)方法采用端到端的識(shí)別,在該領(lǐng)域表現(xiàn)出了優(yōu)異的性能,該方法的缺點(diǎn)是訓(xùn)練過(guò)程需要大量的數(shù)據(jù)集,數(shù)據(jù)采集過(guò)程耗時(shí)耗力。
圖7 基于分類(lèi)和回歸融合的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
總的來(lái)說(shuō),近幾年頭部姿態(tài)估計(jì)算法無(wú)論是在理論研究還是實(shí)際應(yīng)用方面都取得了很大的成果。然而,頭部姿態(tài)估計(jì)研究仍然面臨著諸多挑戰(zhàn),估計(jì)的精度受多方面的因素影響,這些因素包括透視畸變、畫(huà)面遮擋、數(shù)據(jù)集標(biāo)注困難、跨數(shù)據(jù)集,等等。除了估計(jì)的精度問(wèn)題,實(shí)時(shí)性問(wèn)題也是實(shí)際應(yīng)用中面臨的一大難點(diǎn)。如何兼顧提升精度和降低預(yù)測(cè)時(shí)間也是頭部姿態(tài)估計(jì)未來(lái)的研究趨勢(shì)。