王發(fā)明,李建微,陳思喜
福州大學(xué) 物理與信息工程學(xué)院,福州350116
人體姿態(tài)估計(jì)是計(jì)算機(jī)視覺領(lǐng)域很多研究工作的基礎(chǔ),也是研究的熱點(diǎn)問題,在行為識(shí)別[1]、人機(jī)交互[2]、姿態(tài)跟蹤等領(lǐng)域有著廣泛的應(yīng)用前景。人體姿態(tài)估計(jì)的目的是在圖片、視頻以及網(wǎng)絡(luò)攝像頭視頻流等對(duì)象中描繪出人體的形態(tài),其包含了目標(biāo)識(shí)別、分割、回歸與檢測(cè)等多方面的任務(wù)。按照人體姿態(tài)維度的差異,可以將人體姿態(tài)估計(jì)任務(wù)分為二維(2D)人體姿態(tài)估計(jì)和三維(3D)人體姿態(tài)估計(jì)。其中2D 人體姿態(tài)估計(jì)是目前國(guó)內(nèi)外學(xué)者主要研究的方向,近年來取得了突破性進(jìn)展,涌現(xiàn)出較多的數(shù)據(jù)集,例如FLIC[3]、ΜPII[4]、ΜSCOCO[5],算法框架包括單人姿態(tài)估計(jì)[6-9]和多人姿態(tài)估計(jì)[10-13],大大提升了2D 人體姿態(tài)估計(jì)的性能。2D 人體姿態(tài)估計(jì)的目標(biāo)是定位并識(shí)別出人體關(guān)鍵點(diǎn),將這些關(guān)鍵點(diǎn)按照關(guān)節(jié)順序相連形成在圖像二維平面的投影,從而得到人體骨架。3D人體姿態(tài)估計(jì)的主要任務(wù)是預(yù)測(cè)出人體關(guān)節(jié)點(diǎn)的三維坐標(biāo)位置和角度等信息。由于人體姿態(tài)標(biāo)記數(shù)據(jù)集的缺乏,使得大多數(shù)研究方法都基于2D 人體姿態(tài)估計(jì)方法之上,因此2D 人體姿態(tài)估計(jì)研究的發(fā)展也為3D人體姿態(tài)估計(jì)奠定了基礎(chǔ),使得3D人體姿態(tài)估計(jì)研究有著巨大的潛力。
在實(shí)際應(yīng)用中,由于3D姿態(tài)估計(jì)在2D姿態(tài)估計(jì)的基礎(chǔ)上加入了深度信息,其對(duì)于人體姿態(tài)的表述比2D更為精準(zhǔn),因此其應(yīng)用范圍和研究?jī)r(jià)值都要高于2D 人體姿態(tài)估計(jì),但是3D姿態(tài)估計(jì)的難度也更高,存在著遮擋,單視角2D 到3D 的映射中固有的深度模糊性、不適定性,缺少大型的室外數(shù)據(jù)集等挑戰(zhàn)。由于三維人體姿態(tài)估計(jì)的重要性,本文主要總結(jié)3D 人體姿態(tài)估計(jì)的研究進(jìn)展。
在目前的研究中,三維人體姿態(tài)估計(jì)方法可以劃分為傳統(tǒng)方法和深度學(xué)習(xí)方法兩類。在深度學(xué)習(xí)方法得到廣泛應(yīng)用之前,3D 人體姿態(tài)標(biāo)注數(shù)據(jù)集和具有高運(yùn)算能力的GPU 還沒有普及,研究人員主要通過一些應(yīng)用在傳統(tǒng)計(jì)算機(jī)視覺或機(jī)器學(xué)習(xí)領(lǐng)域的方法來進(jìn)行3D人體姿態(tài)的估計(jì)。傳統(tǒng)三維人體姿態(tài)估計(jì)和基于深度學(xué)習(xí)的姿態(tài)估計(jì)之間最明顯的特征在于是否使用了多層神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法,因?yàn)榻7绞讲煌诠烙?jì)精確性、計(jì)算復(fù)雜度等方面也有著較大的差別。其中建模是三維人體姿態(tài)估計(jì)一個(gè)很重要的方面,目的是表示從輸入數(shù)據(jù)中提取的關(guān)鍵點(diǎn)和特征。在解決實(shí)際問題時(shí)由于實(shí)驗(yàn)個(gè)體所處環(huán)境的復(fù)雜性,很大程度上增加了模型的建立難度,因此選取適當(dāng)且有效的圖像特征來簡(jiǎn)化模型建立過程十分重要。傳統(tǒng)方法很多是采用基于人體模型的方法來描述和推斷人體姿態(tài),通過算法提取圖像姿態(tài)特征,因此對(duì)特征表示和關(guān)鍵點(diǎn)的空間位置關(guān)系這兩個(gè)維度有比較高的要求,除去邊界、顏色這類低層次特征,典型的有尺度不變特征變換(Scale Invariant Feature Transforms,SIFT)[14]、梯度直方圖(Histogram of Oriented Gradients,HOG)[15]等表達(dá)能力更強(qiáng)、可有效壓縮特征空間維度的高層次特征,它們雖然在時(shí)間效率方面具有優(yōu)勢(shì),但依然是由人工設(shè)計(jì)的傳統(tǒng)特征,存在著較大的不足。一方面會(huì)丟失圖像部分細(xì)節(jié)信息,會(huì)受到遮擋、固有幾何模糊性等限制而導(dǎo)致嚴(yán)重不適定問題,同時(shí)也會(huì)大大限制傳統(tǒng)方法的適用范圍;另一方面對(duì)所采集的圖像視頻數(shù)據(jù)有一定的要求,無論是使用多目攝像頭還是單目攝像頭,都容易受到采集成本、遮擋、光照、環(huán)境等因素的影響。而深度學(xué)習(xí)模型操作過程相對(duì)簡(jiǎn)單且對(duì)特征的表示能力強(qiáng)大,對(duì)輸入信息自動(dòng)進(jìn)行特征提取而無需人為手動(dòng)提取特征?;谏疃葘W(xué)習(xí)的人體姿態(tài)估計(jì)可以通過建立網(wǎng)絡(luò)模型在圖像數(shù)據(jù)上進(jìn)行訓(xùn)練和學(xué)習(xí),直接得到最有效的表征方法,其核心是深度神經(jīng)網(wǎng)絡(luò),主要是利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[16]從圖像中提取出比人工特征語義信息更豐富、準(zhǔn)確性更高和更具魯棒性的卷積特征,并且網(wǎng)絡(luò)模型的表達(dá)能力會(huì)因網(wǎng)絡(luò)堆疊數(shù)量的增加而呈指數(shù)增長(zhǎng),因此相較于傳統(tǒng)方法可以進(jìn)一步提升復(fù)雜環(huán)境下的人體姿態(tài)的精度和魯棒性。深度學(xué)習(xí)在人體姿態(tài)估計(jì)任務(wù)中的應(yīng)用已經(jīng)取得了顯著的進(jìn)展,然而像遮擋、訓(xùn)練數(shù)據(jù)不足和深度模糊等挑戰(zhàn)仍然是難以克服的。
本文將對(duì)三維人體姿態(tài)估計(jì)按圖1 進(jìn)行分類綜述??傮w上,將三維人體姿態(tài)估計(jì)分為基于傳統(tǒng)方法和基于深度學(xué)習(xí)方法兩類。主要從相關(guān)方法的研究進(jìn)展、算法框架的優(yōu)缺點(diǎn)和性能等方面進(jìn)行介紹和舉例說明?;谏疃葘W(xué)習(xí)的三維人體姿態(tài)估計(jì)是目前的研究熱點(diǎn),因此將著重從三方面對(duì)基于深度學(xué)習(xí)的人體姿態(tài)估計(jì)的重要算法框架和研究進(jìn)展進(jìn)行介紹。其次,根據(jù)研究需要對(duì)3D人體姿態(tài)估計(jì)的數(shù)據(jù)集及評(píng)價(jià)指標(biāo)進(jìn)行系統(tǒng)性介紹。最后,本文將對(duì)當(dāng)前研究面臨的問題以及未來的發(fā)展趨勢(shì)進(jìn)行概述,為這個(gè)領(lǐng)域的研究者提供參考。
圖1 三維人體姿態(tài)估計(jì)方法分類
早期的三維人體姿態(tài)估計(jì)通常是計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn),相關(guān)方法取得了很不錯(cuò)的效果。傳統(tǒng)三維人體姿態(tài)估計(jì)研究大致可以分為三類:基于生成方法的人體姿態(tài)估計(jì)、基于判別方法的人體姿態(tài)估計(jì)以及基于模板匹配方法的人體姿態(tài)估計(jì)。其中基于模板匹配的方法可以說是混合前兩者方法的三維人體姿態(tài)估計(jì)。這些方法之間的總結(jié)和對(duì)比如表1所示。
在傳統(tǒng)方法中,特征的提取和圖結(jié)構(gòu)模型(Pictorial Structure Μodel,PSΜ)[17]在姿態(tài)估計(jì)中都扮演了非常重要的角色。PSΜ 將人體視為關(guān)節(jié)結(jié)構(gòu)集合[18-19],這些關(guān)節(jié)結(jié)構(gòu)之間具有一定的空間約束,關(guān)節(jié)部位之間的空間關(guān)系對(duì)于3D姿勢(shì)來說更便于實(shí)現(xiàn)關(guān)節(jié)點(diǎn)檢測(cè)。將生成方法運(yùn)用在3D 人體姿態(tài)估計(jì)上,主要內(nèi)容是建立具有參數(shù)的人體模型[20],賦予模型不同的參數(shù)即可得到不同的姿態(tài),因此使用生成方法進(jìn)行人體估計(jì)可以被轉(zhuǎn)化為尋找參數(shù)使得模型生成的圖像與實(shí)際圖像之間差別最小化,即抽象成最優(yōu)化問題。因此基于生成方法的人體姿態(tài)估計(jì)的核心問題就是建立人體模型,選擇優(yōu)化函數(shù)和目標(biāo)函數(shù),通過得到較好的初始化條件和在高維姿態(tài)空間中進(jìn)行搜索,往往就可以得到比較精確的估計(jì)結(jié)果。
表1 基于傳統(tǒng)方法的三維人體姿態(tài)估計(jì)方法
文獻(xiàn)[19]將PSΜ 應(yīng)用于空間離散化的三維姿態(tài)估計(jì),但是隨著離散化的分辨率、位姿空間呈立方形增長(zhǎng),其結(jié)構(gòu)也變得愈加復(fù)雜。文獻(xiàn)[20]提出的基于條件先驗(yàn)人體模型的人體姿態(tài)估計(jì)獲得了更高的估計(jì)準(zhǔn)確度。對(duì)構(gòu)建的人體姿態(tài)模型的姿態(tài)參數(shù)空間進(jìn)行搜索的方法包括迭代最近點(diǎn)算法[21]、高斯混合模型[22]、基于馬爾科夫鏈的蒙特卡洛采樣方法[23]等,在參數(shù)空間中進(jìn)行搜索,雖然得到的準(zhǔn)確度較高,但是由于算法復(fù)雜,運(yùn)算量大,而無法保證實(shí)時(shí)性。另外人體模型的初始化參數(shù)對(duì)于找到最優(yōu)解的姿態(tài)有重要影響,一個(gè)好的初始化方法可以在對(duì)人體參數(shù)進(jìn)行空間搜索時(shí)所需的時(shí)間更短,反之需要更多時(shí)間,從而在很大程度上影響了算法的實(shí)時(shí)性。
針對(duì)基于生成方法的不足,研究人員提出了基于判別方法的人體姿態(tài)估計(jì)[24-28],其優(yōu)點(diǎn)是不需預(yù)先生成人體姿態(tài)模型和初始化,運(yùn)算速度較快。判別方法把姿態(tài)估計(jì)看作一個(gè)回歸問題,首先通過分類算法對(duì)人體部位進(jìn)行判別,通過打點(diǎn)的方式對(duì)估計(jì)出的人體關(guān)節(jié)點(diǎn)進(jìn)行標(biāo)定,再通過聚類算法得出這些點(diǎn)的中心,最后通過一個(gè)預(yù)訓(xùn)練的回歸器對(duì)各個(gè)關(guān)鍵點(diǎn)位置進(jìn)行精確的估計(jì)。但是判別方法在樣本不足,尤其是在遮擋情況下很難保證算法的魯棒性,另外對(duì)于需要使用標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練的判別器,訓(xùn)練數(shù)據(jù)的質(zhì)量在很大程度上影響著最終估計(jì)的精度。
基于判別方法的算法從圖像中提取特征后,學(xué)習(xí)從特征空間到姿態(tài)空間的映射。由于人體骨骼的關(guān)節(jié)結(jié)構(gòu)、關(guān)節(jié)位置高度相關(guān),為了考慮輸出變量之間的相關(guān)性,Ionescu等人[24]提出了一種基于潛在分割輸入的判別式單目圖像三維人體姿態(tài)自動(dòng)重建方法,所提出的模型可以從復(fù)雜環(huán)境中捕捉到的單目圖像以推斷出人類的姿勢(shì)。Shotton 等人[25]訓(xùn)練了一個(gè)回歸森林用于將輸入的深度圖像按照身體部位進(jìn)行聚類,并利用均值漂移算法來估計(jì)關(guān)節(jié)位置。Chang等人[26]使用一個(gè)隨機(jī)分類森林來判斷前景中的每一個(gè)可見像素點(diǎn)屬于哪一個(gè)身體部位,并使用隨機(jī)回歸森林來估計(jì)所有人體關(guān)節(jié)點(diǎn)。Park 等人[27]在文獻(xiàn)[26]基礎(chǔ)上引入一個(gè)隨機(jī)驗(yàn)證森林,用于消除由于自遮擋導(dǎo)致的干擾。Ramakrishna等人[28]采用多個(gè)分層次的多分類器的級(jí)聯(lián)來實(shí)現(xiàn)對(duì)關(guān)節(jié)位置的估計(jì),在一定程度上解決了遮擋的問題。但是上述預(yù)測(cè)模型同樣存在模型復(fù)雜、模型參數(shù)過多、計(jì)算復(fù)雜度高的問題。夏嘉欣等人[29]提出一種全新的思路,將帶有噪聲輸入的稀疏高斯過程應(yīng)用于三維人體姿態(tài)估計(jì)問題,利用稀疏算法與帶有噪聲輸入的算法這兩種優(yōu)化算法進(jìn)行模型改進(jìn),在降低計(jì)算復(fù)雜性的同時(shí),使得算法在輸入噪聲的影響下獲得更好的預(yù)測(cè)精度。相較于現(xiàn)有算法而言,該算法具有更強(qiáng)大的數(shù)學(xué)基礎(chǔ)與泛化能力,可以推廣應(yīng)用于多種結(jié)構(gòu)化預(yù)測(cè)問題。
在幾何先驗(yàn)的基礎(chǔ)上進(jìn)行模板匹配的骨骼關(guān)鍵點(diǎn)檢測(cè)算法是主流算法之一,其核心是通過對(duì)關(guān)鍵點(diǎn)、肢體機(jī)構(gòu)以及不同肢體結(jié)構(gòu)之間關(guān)系來表示整個(gè)人體結(jié)構(gòu)。通過提出良好的模板匹配思路和方法,可以模擬更多的姿態(tài)范圍,甚至能夠更好地匹配并檢測(cè)出對(duì)應(yīng)的人體姿態(tài)。以往的研究中主要有兩種方式:第一種是通過基于生成和判別的混合方法,來綜合利用其優(yōu)點(diǎn),Ganapathi 等人[30]使用預(yù)訓(xùn)練的判別模型對(duì)人體部位進(jìn)行估計(jì),基于生成方法的估計(jì)過程因?yàn)榭焖龠\(yùn)動(dòng)或遮擋,受到影響時(shí)使用判別方法將得到的結(jié)果初始化。另外一種方式是采用數(shù)據(jù)驅(qū)動(dòng)的模板匹配方法進(jìn)行姿態(tài)估計(jì),再由生成方法對(duì)姿態(tài)進(jìn)行精確調(diào)整[31-32]。但是目前都沒有一種高效且精確的模板匹配方法。另外建立姿態(tài)模板庫(kù)需要花費(fèi)建立與維護(hù)模板庫(kù)的成本,其次模板的類別過少會(huì)影響初始化的過程,模板類別過多會(huì)增加搜索的成本,對(duì)解決遮擋問題也作用有限。最后,目前也缺少一種從輸入的原始數(shù)據(jù)中提取更具有區(qū)分度的特征提取算法,因此使用這類方法的研究已經(jīng)很少。
由于深度學(xué)習(xí)方法在特征提取方面相對(duì)于傳統(tǒng)人工設(shè)計(jì)特征方法具有明顯的優(yōu)勢(shì),在三維人體姿態(tài)估計(jì)任務(wù)中基于深度學(xué)習(xí)的方法逐漸興起,深度學(xué)習(xí)可以將特征提取交由網(wǎng)絡(luò)來獲得更高層的語義特征,而不需要像傳統(tǒng)方法進(jìn)行預(yù)先的特征提取。首先經(jīng)過深度卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,其次根據(jù)特征圖得到最終的骨骼關(guān)鍵點(diǎn)位置。深度學(xué)習(xí)這種自學(xué)習(xí)特征表達(dá)方法,相較于傳統(tǒng)的依靠先驗(yàn)知識(shí)的表達(dá)方法具有更好的效果,而且具備遷移學(xué)習(xí)特性的深度學(xué)習(xí),可以較好地將在大數(shù)據(jù)集上訓(xùn)練的模型在小數(shù)據(jù)集上應(yīng)用。因此基于深度學(xué)習(xí)的三維人體姿態(tài)估計(jì)是目前主流的研究方法,主要分為以下三類:基于直接回歸的三維人體姿態(tài)估計(jì)、基于2D信息的三維人體姿態(tài)估計(jì)以及基于混合方法的三維人體姿態(tài)?;谏疃葘W(xué)習(xí)的三維人體姿態(tài)估計(jì)方法的原理示意圖如圖2所示。
圖2 基于深度學(xué)習(xí)的三維人體姿態(tài)估計(jì)方法示意圖
基于直接回歸的人體姿態(tài)估計(jì)也可稱為基于端到端的人體姿態(tài)估計(jì),即利用一個(gè)大的網(wǎng)絡(luò)結(jié)構(gòu)處理所有的數(shù)據(jù)內(nèi)容。由于深度神經(jīng)網(wǎng)絡(luò)可以擬合復(fù)雜的函數(shù),這一步通常不需要其他算法輔助和其他中間數(shù)據(jù),因此可以直接基于回歸的網(wǎng)絡(luò)結(jié)構(gòu)由單圖直接預(yù)測(cè)三維姿態(tài)坐標(biāo),其優(yōu)勢(shì)在于整個(gè)網(wǎng)絡(luò)模型可以達(dá)到端到端的訓(xùn)練效果,在應(yīng)用過程中也是端到端的輸出,但是這種方法對(duì)網(wǎng)絡(luò)結(jié)構(gòu)和數(shù)據(jù)預(yù)處理的要求較高。
Li 等人[33]首次利用這種深度學(xué)習(xí)的方法進(jìn)行三維人體姿態(tài)估計(jì)的工作,訓(xùn)練一個(gè)網(wǎng)絡(luò),直接從圖像中回歸計(jì)算三維人體關(guān)節(jié)位置。該方法采用多任務(wù)訓(xùn)練框架,如圖3所示,任務(wù)分為關(guān)節(jié)點(diǎn)檢測(cè)與回歸兩類,它們共用前面的特征,檢測(cè)任務(wù)分類局部窗口是否包含指定關(guān)節(jié),回歸任務(wù)計(jì)算關(guān)節(jié)點(diǎn)與根關(guān)節(jié)點(diǎn)的相對(duì)位置。訓(xùn)練方法較為特殊,首先單獨(dú)做一個(gè)目標(biāo)檢測(cè)的視覺任務(wù),然后將用來做特征提取部分的CNN 層作為三維人體姿態(tài)估計(jì)的初始化模型,并丟棄目標(biāo)檢測(cè)網(wǎng)絡(luò)頭部分進(jìn)行訓(xùn)練回歸任務(wù),最終得到估計(jì)結(jié)果。Park等人[34]提出的網(wǎng)絡(luò)結(jié)構(gòu)與其相似,不同點(diǎn)在于使用二維姿態(tài)估計(jì)作為另一個(gè)任務(wù)分支的監(jiān)督,通過將2D 姿態(tài)估計(jì)結(jié)果與來自圖像的特征進(jìn)行級(jí)聯(lián)來估計(jì)3D 姿態(tài),通過結(jié)合相關(guān)多個(gè)關(guān)節(jié)而不只是一個(gè)根關(guān)節(jié)的相對(duì)位置信息,可以獲得更準(zhǔn)確的3D 姿勢(shì)。Tekin 等人[35]對(duì)無監(jiān)督自動(dòng)編碼器進(jìn)行了預(yù)訓(xùn)練,學(xué)習(xí)三維姿態(tài)到高維潛在空間的映射,對(duì)關(guān)節(jié)之間的結(jié)構(gòu)依賴性進(jìn)行編碼,從而加強(qiáng)姿態(tài)的結(jié)構(gòu)約束,然后使用淺層網(wǎng)絡(luò)來學(xué)習(xí)高維姿態(tài)表示。由于使用了編碼器多步輸出,而不是使用對(duì)應(yīng)步的單一定長(zhǎng)向量,從而保留了更多的信息。
熱力圖(Heatmap)回歸能保留圖像中更多的信息,使用人體骨骼關(guān)鍵點(diǎn)熱力圖是2D人體姿態(tài)估計(jì)問題中比較主流的一種方法,同樣可以應(yīng)用到3D 人體姿態(tài)估計(jì)中。Tekin 等人[36]和Zhou 等人[37]利用2D 熱力圖代替2D姿態(tài)作為估計(jì)3D姿態(tài)的中間表示。Pavlakos等人[38]將2D姿態(tài)估計(jì)問題中使用的骨骼關(guān)鍵點(diǎn)熱力圖和堆疊沙漏模型(Stacked Hourglass Network,SHN)[39]擴(kuò)展到三維空間,考慮到Z 軸深度的值域范圍很大,因此提出coarse-to-fine 的結(jié)構(gòu)逐步回歸,如圖4 所示。對(duì)于每個(gè)關(guān)節(jié)點(diǎn),每個(gè)stage 生成的Heatmap 設(shè)置不同的通道數(shù),可以不斷提升Z 軸的分辨率,從而形成三維的Heatmap,根據(jù)每個(gè)點(diǎn)的置信度,反推出關(guān)節(jié)點(diǎn)在三維空間中的位置,將3D 關(guān)節(jié)點(diǎn)表示為離散3D 空間中的點(diǎn),以此估計(jì)3D人體姿態(tài)。同時(shí)提出了一種由粗粒度估計(jì)到細(xì)粒度估計(jì)的方法,通過從粗粒度到細(xì)粒度的迭代,提升了估計(jì)精度。但是這種方法也存在著不足。由于使用熱力圖在獲得關(guān)節(jié)點(diǎn)坐標(biāo)時(shí)取熱力圖最大值的位置作為關(guān)節(jié)點(diǎn)坐標(biāo),并通過逆變換將熱力圖空間坐標(biāo)轉(zhuǎn)換到原圖空間坐標(biāo)的過程中,會(huì)因?yàn)榱炕`差最終導(dǎo)致原圖空間坐標(biāo)出現(xiàn)較大偏移,并且取最大值這一操作是不可求導(dǎo)的,會(huì)導(dǎo)致無法對(duì)模型進(jìn)行端到端的訓(xùn)練優(yōu)化。因此Zhou等人[40]在研究中轉(zhuǎn)變思路,不利用人體骨骼關(guān)鍵點(diǎn)位置確定人體姿態(tài),而是通過檢測(cè)人體肢體部位來確定3D 人體姿態(tài),將運(yùn)動(dòng)學(xué)對(duì)象模型直接嵌入到深度神經(jīng)網(wǎng)絡(luò)中,以進(jìn)行一般的關(guān)節(jié)運(yùn)動(dòng)姿態(tài)估計(jì)。
圖3 Li等人的網(wǎng)絡(luò)體系結(jié)構(gòu)
圖4 Pavlakos等人的coarse-to-fine結(jié)構(gòu)
針對(duì)直接回歸方法網(wǎng)絡(luò)在模型優(yōu)化和現(xiàn)實(shí)場(chǎng)景中的實(shí)用性缺乏優(yōu)勢(shì)的問題,研究人員嘗試使用基于2D信息的三維人體姿態(tài)估計(jì),有效解決了在基于直接回歸方法中遇到的標(biāo)記數(shù)據(jù)的數(shù)量與網(wǎng)絡(luò)規(guī)模不匹配的問題?;?D信息的三維人體姿態(tài)估計(jì)一般分為兩個(gè)階段,即先獲取2D 信息,然后由2D 姿態(tài)預(yù)測(cè)3D 姿態(tài)坐標(biāo)。實(shí)施過程又可以分為兩類:一類是聯(lián)合2D 姿態(tài)網(wǎng)絡(luò)和3D 姿態(tài)網(wǎng)絡(luò)一起訓(xùn)練;另一類是直接用預(yù)訓(xùn)練好的2D 姿態(tài)網(wǎng)絡(luò),將得到的2D 姿態(tài)輸入到3D 姿態(tài)估計(jì)網(wǎng)絡(luò)中進(jìn)行維度提升。第二類方法也可以稱為基于以2D骨架序列為輸入的3D姿態(tài)估計(jì)。相比較而言,第二類方法降低了整個(gè)任務(wù)的復(fù)雜性,網(wǎng)絡(luò)比較容易學(xué)習(xí)2D到3D的映射,并且2D的姿態(tài)估計(jì)已經(jīng)比較成熟,同時(shí)這種方法也比較容易引入重投影進(jìn)行半監(jiān)督,因此比較主流。
2.2.1 聯(lián)合2D和3D姿態(tài)網(wǎng)絡(luò)
聯(lián)合2D 和3D 姿態(tài)網(wǎng)絡(luò)共同訓(xùn)練是區(qū)別于直接從圖像中回歸得到3D 坐標(biāo)的一種方法,將通過網(wǎng)絡(luò)得到的2D信息作為特征的中間表示,進(jìn)一步執(zhí)行3D坐標(biāo)的預(yù)測(cè)。由于不同的3D 人體姿態(tài)可以投影到相似的2D姿態(tài)投影,此外對(duì)于建立在二維關(guān)節(jié)上的方法,二維關(guān)節(jié)的微小定位誤差可能導(dǎo)致在三維空間中產(chǎn)生較大的位姿畸變。因此為了減少這種誤差,將2D 姿態(tài)映射到3D 姿態(tài)時(shí),可以使用不同的策略。Chen 等人[41]提出的基于2D姿態(tài)估計(jì)與姿態(tài)匹配的方法,通過將得到的2D姿態(tài)與大型的3D 人體姿態(tài)庫(kù)中的姿態(tài)某一視角上的2D 投影進(jìn)行檢索和比較,從而輸出最匹配的3D 姿態(tài)。如圖5所示,該方法利用2D姿態(tài)估計(jì)的先進(jìn)優(yōu)勢(shì),憑借模塊化訓(xùn)練的方式使用2D數(shù)據(jù)集訓(xùn)練初始圖像處理模塊,然后利用3D 數(shù)據(jù)集對(duì)每一種3D 姿態(tài)制作2D 投影姿態(tài)庫(kù),并通過最鄰近搜索算法查找與其相對(duì)應(yīng)的3D姿態(tài),最后通過該視角下的相機(jī)參數(shù)將2D 坐標(biāo)變換為3D坐標(biāo)。但是只有在數(shù)據(jù)量非常大時(shí)可以保證較好的精度。該方法的優(yōu)勢(shì)在于可以避免依賴復(fù)雜的人體結(jié)構(gòu)約束等信息。Μoreno-Noguer[42]通過距離矩陣回歸推斷了3D 人體姿勢(shì),將2D 和3D 身體關(guān)節(jié)的成對(duì)距離編碼成兩個(gè)歐幾里德距離矩陣(Euclidean-Distance Μatrix,EDΜ)。EDΜ對(duì)于平面內(nèi)圖像的旋轉(zhuǎn)和平移是不變的,在應(yīng)用標(biāo)準(zhǔn)化操作時(shí)也具有縮放不變性。Wang等人[43]用一種兩兩排序卷積神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)人體關(guān)節(jié)的深度排序。然后,使用粗精位姿估計(jì)器對(duì)二維關(guān)節(jié)和深度排序矩陣進(jìn)行三維位姿回歸。Li等人[44]將3D人體姿態(tài)估計(jì)視為一個(gè)具有多個(gè)可行解的反問題,首先生成多種不同的3D姿態(tài)假設(shè),然后應(yīng)用排序網(wǎng)絡(luò)從2D投影選擇最佳3D姿態(tài)。
圖5 Chen等人的方法原理圖
2.2.2 基于2D骨架序列輸入
圖6 Μartinez等人的深度回歸模型
以2D骨架序列為輸入的典型方法是由Μartinez等人[45]提出的基于以2D 骨架序列為輸入的3D 姿態(tài)估計(jì)方法。該方法以2D 人體姿態(tài)估計(jì)方法為基礎(chǔ),首先得出2D 人體姿態(tài)估計(jì)結(jié)果,然后在其基礎(chǔ)上利用一個(gè)構(gòu)造簡(jiǎn)單的淺層神經(jīng)網(wǎng)絡(luò)將2D姿態(tài)回歸到3D人體姿態(tài),取得較高的精度。如圖6 所示,深度回歸模塊的基本單元由兩個(gè)全連接層組成,每個(gè)全連接層后有批量歸一化層、ReLU 層和Dropout 層,全連接層的特征維度是1 024,整個(gè)深度回歸模塊由兩個(gè)基本單元級(jí)聯(lián)組成,類似殘差網(wǎng)絡(luò)(Residual Network,ResNet)[46]中所用到的跨層連接,將當(dāng)前基本單元的輸出和輸入相加后作為下一個(gè)基本單元的輸入。在模型訓(xùn)練過程中,將2D 姿態(tài)真值作為輸入,3D 人體姿態(tài)真值作為輸出進(jìn)行監(jiān)督訓(xùn)練。可以將3D 姿態(tài)從不同的角度進(jìn)行投影,獲取更多的訓(xùn)練數(shù)據(jù)。在模型測(cè)試階段,可以搭配已有的2D 人體姿態(tài)估計(jì)算法,把2D 人體姿態(tài)估計(jì)模型的結(jié)果作為輸入,計(jì)算3D人體姿態(tài)。該方法用一個(gè)簡(jiǎn)單、快速且輕量級(jí)的Baseline 很好地實(shí)現(xiàn)了從2D 姿態(tài)映射到3D 姿態(tài),并且證明3D姿態(tài)估計(jì)的誤差主要來源于2D姿態(tài)估計(jì)的不準(zhǔn)確和2D關(guān)節(jié)點(diǎn)到3D關(guān)節(jié)點(diǎn)映射的不完善,因此在以后的研究中可以把重點(diǎn)放在2D 圖像向2D 姿態(tài)轉(zhuǎn)化的這一步,其對(duì)未來的相關(guān)工作具有重要的借鑒和指導(dǎo)意義。通過增加卷積網(wǎng)絡(luò)的層數(shù)可以增強(qiáng)模型的表征能力,例如三維殘差網(wǎng)絡(luò)(3D Residual Networks,3D-Resnet)[47]這種殘差結(jié)構(gòu),比較適用于模型的深層拓展,但是直接通過增加卷積網(wǎng)絡(luò)層數(shù)來提取有效的視覺特征容易出現(xiàn)梯度消失和過擬合的問題。針對(duì)這一問題,王新文等人[48]提出了一種基于雙重殘差網(wǎng)絡(luò)的跌倒異常姿態(tài)識(shí)別方法。通過在殘差網(wǎng)絡(luò)中嵌套殘差網(wǎng)絡(luò),充分融合了淺層和深層視覺特征,從而能夠進(jìn)一步降低卷積模型訓(xùn)練時(shí)梯度消失和模型過擬合的影響。
在此研究基礎(chǔ)上,Pavllo 等人[49]的工作展示了視頻中的3D 姿態(tài)可以被基于2D 關(guān)節(jié)點(diǎn)的空洞時(shí)域的全卷積模型有效的預(yù)測(cè),同時(shí)引進(jìn)了反向映射,利用未標(biāo)記的視頻數(shù)據(jù)的簡(jiǎn)單而有效的半監(jiān)督訓(xùn)練方法。首先根據(jù)未標(biāo)簽的視頻預(yù)測(cè)2D 關(guān)節(jié)點(diǎn),然后預(yù)測(cè)3D 姿態(tài),最后反向映射回2D 關(guān)節(jié)點(diǎn)。如圖7 所示,該時(shí)域卷積模型以2D關(guān)鍵點(diǎn)序列作為輸入,生成3D姿態(tài)估計(jì)作為輸出。該方法與任何2D 關(guān)鍵點(diǎn)檢測(cè)器兼容,并可以通過擴(kuò)大卷積有效處理大上下文。與依賴循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[50-51]的方法相比,無論是在計(jì)算復(fù)雜度上還是在參數(shù)數(shù)量上,它都提供了更高的精度、簡(jiǎn)單性和效率,并且在標(biāo)記數(shù)據(jù)稀少的情況下,它的效果超越了這方面之前最好的結(jié)果。但是這種方法是基于預(yù)測(cè)誤差是時(shí)間上的不連續(xù)和獨(dú)立的假設(shè),當(dāng)存在遮擋時(shí)可能不成立[52]。
圖7 Pavllo等人的時(shí)域卷積模型
遮擋是三維人體姿態(tài)估計(jì)任務(wù)中具有挑戰(zhàn)性的問題,比較好的解決方法是從多個(gè)視圖中估計(jì)三維人體姿態(tài),因?yàn)橐粋€(gè)視圖中的遮擋部分可能在其他視圖中可見。為了從多個(gè)視角重構(gòu)三維姿態(tài),需要解決不同攝像機(jī)之間對(duì)應(yīng)位置的關(guān)聯(lián)問題。Chen 等人[53]采用迭代處理策略在三維空間中直接匹配多相機(jī)中的2D 輸入和3D姿態(tài),同時(shí)對(duì)3D位姿進(jìn)行迭代更新。但是由于時(shí)間復(fù)雜度為線性,運(yùn)行時(shí)間會(huì)隨著攝像機(jī)數(shù)量的增加而大幅增加。Remelli 等人[54]提出了一個(gè)輕量級(jí)的解決方案,將每個(gè)視圖的圖像編碼成一個(gè)統(tǒng)一的潛在表示,從而將特征映射從相機(jī)的視點(diǎn)中分離出來。將學(xué)習(xí)到的攝像機(jī)投影算子作為條件,產(chǎn)生精確的逐視圖2D 檢測(cè),從而使用基于GPU 的直接線性變換加速處理,簡(jiǎn)單地提升到3D。為了提高多視點(diǎn)特征融合的泛化能力,Xie 等人[55]提出了一種預(yù)訓(xùn)練的多視點(diǎn)融合模型(ΜetaFuse),該模型能夠有效地適應(yīng)新相機(jī)設(shè)置中標(biāo)注數(shù)據(jù)較少的情況,此外該模型還通過元學(xué)習(xí)框架算法從許多相機(jī)中進(jìn)行學(xué)習(xí),最大限度地提高了其適應(yīng)各種相機(jī)姿態(tài)的能力。
總體來說,聯(lián)合2D 和3D 共同訓(xùn)練,通常需要復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)和充足的訓(xùn)練樣本,而基于以2D 骨架序列為輸入的3D姿態(tài)估計(jì)得益于成熟的2D姿態(tài)估計(jì)方法,具有網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單、輕量級(jí)、訓(xùn)練速度快等優(yōu)勢(shì),也是當(dāng)前3D人體姿態(tài)估計(jì)研究中的主流方法。近年來相關(guān)研究在Human3.6Μ[56]數(shù)據(jù)集Protocol #1 下的結(jié)果如表2所示。另外,多視角特征融合是人體姿態(tài)估計(jì)中解決遮擋問題的關(guān)鍵,也成為了近兩年研究的熱點(diǎn)。
基于混合方法的三維人體姿態(tài)估計(jì)是在基于2D信息的三維人體姿態(tài)估計(jì)的基礎(chǔ)上再加入額外的圖像信息和幾何約束等條件,可以在利用較為準(zhǔn)確的2D 姿態(tài)信息的同時(shí),引入更多包含人體關(guān)節(jié)點(diǎn)及運(yùn)動(dòng)特性的額外信息,從而構(gòu)建三維人體姿態(tài)估計(jì)的網(wǎng)絡(luò)模型。訓(xùn)練的網(wǎng)絡(luò)在提高估計(jì)精度的同時(shí),能夠在一定程度上緩解由2D 姿態(tài)投影計(jì)算3D 人體姿態(tài)時(shí)的多義性問題。例如,Jahangiri等人[60]首先利用2D人體姿態(tài)估計(jì)模型從原始圖像中生成2D人體姿態(tài)和對(duì)應(yīng)的熱力圖,再通過3D姿態(tài)估計(jì)模型估計(jì)出軀干的3D 位置和投影矩陣,最后再將2D 姿態(tài)及其熱力圖與3D 軀干位置及投影矩陣作為3D人體姿態(tài)生成器的輸入,從而輸出較為準(zhǔn)確的3D人體姿態(tài)估計(jì)結(jié)果,方法原理概述如圖8 所示。Sun 等人[61]的解決思路完全不同于文獻(xiàn)[60],其使用一個(gè)重參數(shù)化的人體姿態(tài)表示方法,在合成損失函數(shù)中引入一個(gè)很強(qiáng)的結(jié)構(gòu)約束,最后得到的效果也是優(yōu)于其他所有采用回歸模型的3D人體姿態(tài)估計(jì)方法。
表2 基于以2D骨架序列為輸入的3D姿態(tài)估計(jì)方法研究結(jié)果 mm
圖8 Jahangiri等人方法原理示意圖
Zhou等人[62]則提出了一種弱監(jiān)督和端到端的方法,在呈現(xiàn)兩級(jí)級(jí)聯(lián)結(jié)構(gòu)的深層神經(jīng)網(wǎng)絡(luò)中使用二維和三維混合標(biāo)記,訓(xùn)練過程中2D姿態(tài)標(biāo)注數(shù)據(jù)和3D姿態(tài)標(biāo)注數(shù)據(jù)混合訓(xùn)練。網(wǎng)絡(luò)通過3D深度回歸子網(wǎng)絡(luò)增強(qiáng)了最新的2D 姿態(tài)估計(jì)子網(wǎng)絡(luò),與之前對(duì)兩個(gè)子網(wǎng)絡(luò)進(jìn)行順序和單獨(dú)訓(xùn)練的前兩階段方法不同,該方法是端到端的且完全利用2D 姿態(tài)和深度估計(jì)子任務(wù)之間的相關(guān)性,通過共享表示可以更好地學(xué)習(xí)這些深層功能,將受控實(shí)驗(yàn)室環(huán)境中的3D姿勢(shì)標(biāo)簽轉(zhuǎn)移到室外圖像中。此外,該方法還引入了3D 幾何約束來規(guī)范化3D 姿態(tài)預(yù)測(cè),在沒有地面真實(shí)深度標(biāo)簽的情況下很有效。其網(wǎng)絡(luò)結(jié)構(gòu)如圖9所示,主干部分網(wǎng)絡(luò)結(jié)構(gòu)類似于堆疊沙漏模型,輸入先經(jīng)過卷積層提取特征,通過Hourglass預(yù)測(cè)出2D 關(guān)節(jié)點(diǎn)的Heatmap,然后將其與Hourglass 中產(chǎn)生的特征圖相加,輸入到深度模塊進(jìn)行Z 軸的預(yù)測(cè)。
為了保證網(wǎng)絡(luò)的訓(xùn)練準(zhǔn)確度,通常需要大的數(shù)據(jù)集進(jìn)行學(xué)習(xí)。現(xiàn)在主流的3D 人體姿態(tài)估計(jì)數(shù)據(jù)集有很多,但是大多3D數(shù)據(jù)集都采集于室內(nèi)。本文對(duì)最為常用數(shù)據(jù)集進(jìn)行介紹,詳細(xì)信息的匯總與對(duì)比如表3所示。
Human3.6Μ 是3D 姿勢(shì)優(yōu)化評(píng)估中使用最標(biāo)準(zhǔn)的數(shù)據(jù)集,也是目前最大、使用最廣泛的室內(nèi)數(shù)據(jù)集,由總共11 個(gè)對(duì)象(使用4 個(gè)攝像機(jī))拍攝的大約360 萬幀視頻組成,每個(gè)對(duì)象都包含了15個(gè)不同的動(dòng)作場(chǎng)景(如吸煙、拍照、打電話),通過基于準(zhǔn)確標(biāo)記的動(dòng)作捕捉系統(tǒng)捕捉3D地面真相注釋。它是在實(shí)驗(yàn)室環(huán)境中使用運(yùn)動(dòng)捕捉系統(tǒng)創(chuàng)建的數(shù)據(jù)集,每個(gè)關(guān)節(jié)點(diǎn)的三維坐標(biāo)通過使用多個(gè)運(yùn)動(dòng)相機(jī)用標(biāo)記物拍攝對(duì)象來標(biāo)注。通常被劃分為兩部分來使用,包括訓(xùn)練集S1、S5、S6、S7、S8 和測(cè)試集S9、S11。為了評(píng)估,有3種不同的訓(xùn)練和測(cè)試數(shù)據(jù)分割協(xié)議(Protocol #1,Protocol #2,Protocol #3)。
圖9 Zhou等人的網(wǎng)絡(luò)結(jié)構(gòu)圖
表3 3D人體姿態(tài)數(shù)據(jù)集
HumanEva[63]數(shù)據(jù)集包含兩部分,分別是HumanEva-I和HumanEva-II。其中HumanEva-I 是一個(gè)相對(duì)較小的數(shù)據(jù)集,用于實(shí)驗(yàn)室環(huán)境的數(shù)據(jù)集,其3D人體姿態(tài)標(biāo)記數(shù)據(jù)是通過動(dòng)作捕捉系統(tǒng)采集,由7 個(gè)攝像機(jī)在3 m×2 m的捕捉區(qū)域內(nèi)對(duì)4個(gè)對(duì)象拍攝的總共約40 000幀視頻組成,包含執(zhí)行6 種常見動(dòng)作(步行、慢跑、打手勢(shì)等),而HumanEva-II則只包含了測(cè)試集。
ΜPI-INF-3DHP[64]是使用無標(biāo)記運(yùn)動(dòng)捕獲系統(tǒng)和多臺(tái)攝像機(jī)創(chuàng)建的數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)包括用14個(gè)攝像頭同時(shí)拍攝的11 人的超過130 萬幀視頻。與一般數(shù)據(jù)集不同的是其數(shù)據(jù)包括兩種類型,一種是在有或沒有綠屏的實(shí)驗(yàn)室環(huán)境下拍攝的,另一種是在戶外拍攝的。
CΜU Panoptic[65]是在球形實(shí)驗(yàn)室環(huán)境中創(chuàng)建的數(shù)據(jù)集,內(nèi)部有多個(gè)攝像機(jī),480 個(gè)VGA 攝像機(jī),30 個(gè)以上的高清攝像機(jī),10 個(gè)用于實(shí)驗(yàn)室中的單個(gè)或多個(gè)人員。它由65 個(gè)視頻組成,總共約5.5 小時(shí),同時(shí)使用兩個(gè)RGB-D 傳感器同時(shí)拍攝可獲得約150 萬個(gè)人體姿勢(shì)。測(cè)試集包含了由高清相機(jī)獲取的4 種活動(dòng)的9 600 幀視頻。
TotalCapture[67]數(shù)據(jù)集是在約為8 m×4 m 的空間中采用8 臺(tái)校準(zhǔn)過的全高清攝像機(jī)拍攝的,包含大約190萬幀的IΜU和Vicon標(biāo)記的完全同步視頻。由4名男性和1名女性受試者分別表演4種不同的動(dòng)作,重復(fù)3次,包括走、跑、自由泳等動(dòng)作。
人體姿態(tài)數(shù)據(jù)集是基于深度學(xué)習(xí)方法非常重要和基本的元素,數(shù)據(jù)集不僅對(duì)不同算法的比較至關(guān)重要,而且不同的3D人體姿態(tài)估計(jì)算法在相同的數(shù)據(jù)集上的性能表現(xiàn)也有差別。表4 展示了在Human3.6Μ 數(shù)據(jù)集上多視圖場(chǎng)景方法的性能,表5展示了在CΜU Panoptic數(shù)據(jù)集上單視圖多人方法的性能。
表4 Human3.6Μ數(shù)據(jù)集上多視圖3D人體姿態(tài)估計(jì)方法的比較 mm
表5 CΜU Panoptic數(shù)據(jù)集上單視角多人人體姿態(tài)估計(jì)方法的比較 mm
不同的評(píng)價(jià)指標(biāo),其限制因素各不相同,不同的數(shù)據(jù)集具有不同的特征和不同的任務(wù)要求,因此在實(shí)際應(yīng)用情形中也會(huì)采用不同的評(píng)價(jià)指標(biāo)。本文對(duì)以下幾種廣泛使用的評(píng)價(jià)指標(biāo)進(jìn)行介紹,表6對(duì)幾種評(píng)價(jià)指標(biāo)進(jìn)行了列舉和對(duì)比。
表6 3D人體姿態(tài)估計(jì)評(píng)價(jià)指標(biāo)
ΜPJPE(Μean Per Joint Position Error)即每個(gè)關(guān)節(jié)位置的平均誤差,是Human3.6Μ 數(shù)據(jù)集常用的評(píng)估方法,是通過對(duì)所有關(guān)節(jié)點(diǎn)的估計(jì)坐標(biāo)與正確坐標(biāo)(單位為mm)之間的距離進(jìn)行平均計(jì)算得出的評(píng)估指標(biāo),具體計(jì)算公式如式(1)所示。在使用單目相機(jī)的情況下,在評(píng)估之前,通過平移運(yùn)動(dòng)或添加進(jìn)一步旋轉(zhuǎn)的剛體變換來對(duì)齊參考關(guān)節(jié)點(diǎn)(根關(guān)節(jié))的坐標(biāo)。因此,在比較研究之間的評(píng)估值時(shí),有必要注意每個(gè)評(píng)估程序是否相同。對(duì)于不同的數(shù)據(jù)集和不同的協(xié)議,在計(jì)算ΜPJPE前需要對(duì)估計(jì)節(jié)點(diǎn)進(jìn)行不同的數(shù)據(jù)后處理。
P_ΜPJPE(Procrustes analysis ΜPJPE)是基于Procrustes 分析的ΜPJPE,是對(duì)式(1)中的預(yù)測(cè)結(jié)果施加剛性變換,使得ΜPJPE 取值最小。ΜPJPE 代表模型預(yù)測(cè)的關(guān)鍵點(diǎn)值和真實(shí)值在三維坐標(biāo)系下的絕對(duì)誤差,傾向于誤差結(jié)果的絕對(duì)性,P_ΜPJPE 更側(cè)重于衡量預(yù)測(cè)出的姿態(tài)與真實(shí)姿態(tài)的誤差,側(cè)重于衡量?jī)蓚€(gè)姿態(tài)間的相似性。
3D PCΚ(Percentage of Correct 3D Κeypoints)即三維關(guān)鍵點(diǎn)的正確率,是PCΚ 的三維擴(kuò)展。PCΚ 是二維姿態(tài)估算中使用的評(píng)估指標(biāo)。當(dāng)關(guān)節(jié)點(diǎn)的估算坐標(biāo)與正確坐標(biāo)之間的距離小于設(shè)置的閾值時(shí),關(guān)節(jié)點(diǎn)的估計(jì)是正確的,并且估計(jì)正確的比率被用作評(píng)估值。
就評(píng)價(jià)指標(biāo)結(jié)果而言,低ΜPJPE 并不總是意味著姿態(tài)估計(jì)的高準(zhǔn)確率,因?yàn)樗Q于對(duì)人體形狀和骨骼的預(yù)測(cè)規(guī)模[76]。雖然3D PCΚ 對(duì)不正確的關(guān)節(jié)具有更強(qiáng)的魯棒性,但它不能評(píng)價(jià)正確關(guān)節(jié)的精度。而且現(xiàn)有評(píng)價(jià)指標(biāo)只能在單幀的維度上評(píng)估姿態(tài)的精度,因此如何設(shè)計(jì)可以通過連續(xù)幀來評(píng)價(jià)具有時(shí)間一致性和平滑性的3D人體姿態(tài)估計(jì)性能的指標(biāo)是一項(xiàng)難題。
三維人體姿態(tài)估計(jì)的研究對(duì)智能監(jiān)控、醫(yī)療康復(fù)、自動(dòng)駕駛、游戲動(dòng)畫等應(yīng)用技術(shù)有著很重要的現(xiàn)實(shí)意義,但是現(xiàn)有的人體三維骨架檢測(cè)和提取技術(shù)還不夠成熟,在實(shí)現(xiàn)魯棒、高精度、高速度的人體關(guān)節(jié)定位等方面仍然面臨著巨大的挑戰(zhàn)。
(1)不適定性問題。從圖像進(jìn)行3D 人體姿態(tài)估計(jì)是一個(gè)嚴(yán)重不適定問題,同一張圖像或許會(huì)有多種合理的姿態(tài),多個(gè)不同的3D 姿態(tài)可能會(huì)指向同一個(gè)2D 姿態(tài),導(dǎo)致了2D 向3D 推理時(shí)的模糊性。并且由于高維性,二維人體關(guān)節(jié)位置估計(jì)的微小誤差可能會(huì)在三維空間產(chǎn)生重大影響。
(2)人體姿態(tài)復(fù)雜多樣性問題。人體結(jié)構(gòu)的靈活性和復(fù)雜性會(huì)對(duì)人體姿態(tài)估計(jì)造成巨大的困難,使用傳統(tǒng)方法很難建立準(zhǔn)確的運(yùn)動(dòng)模型來描述人體運(yùn)動(dòng)。盡管深度神經(jīng)網(wǎng)絡(luò)具有極強(qiáng)的特征提取能力和復(fù)雜的建模能力,但是都是基于大量高質(zhì)量數(shù)據(jù)集訓(xùn)練之后得到的,很難建立能覆蓋所有人體動(dòng)作的高質(zhì)量數(shù)據(jù)集。
(3)復(fù)雜三維環(huán)境和遮擋問題。人體關(guān)節(jié)的自遮擋、人與人之間的相互遮擋導(dǎo)致精準(zhǔn)預(yù)測(cè)更加困難。這些遮擋問題帶來部位匹配的難題,光照、環(huán)境、人物衣著等因素會(huì)帶來姿態(tài)估計(jì)模型對(duì)人體關(guān)鍵點(diǎn)檢測(cè)不準(zhǔn)確的問題。
(4)缺少室外3D數(shù)據(jù)集。目前大多3D人體姿態(tài)數(shù)據(jù)集都是在室內(nèi)環(huán)境或合成場(chǎng)景中捕捉采集的,無法完全模擬真實(shí)室外環(huán)境,導(dǎo)致訓(xùn)練的姿態(tài)估計(jì)模型泛化能力較差。
三維人體姿態(tài)估計(jì)的重要性和應(yīng)用前景目前已得到認(rèn)可,針對(duì)該領(lǐng)域存在的問題和局限性,本文認(rèn)為三維人體姿態(tài)估計(jì)的發(fā)展趨勢(shì)主要有以下幾點(diǎn):
在3D 人體姿態(tài)估計(jì)任務(wù)中,遮擋、復(fù)雜性、多義性等問題普遍存在,很多研究從多幀圖像、多視角圖像的角度解決這類問題,這類圖像又恰好具有序列性。單張圖片包含的深度信息是有限的,網(wǎng)絡(luò)可以從序列中挖掘到更豐富的深度信息。從序列圖像或視頻中進(jìn)行3D姿態(tài)估計(jì),當(dāng)前幀有遮擋時(shí),可利用相鄰幀的完整性解決這個(gè)問題。面對(duì)2D姿態(tài)可能對(duì)應(yīng)無窮多3D姿態(tài)的問題,可以通過讓模型看到多個(gè)視角不同時(shí)間的方法減少深度模糊性,縮小3D姿態(tài)的空間范圍。另外由Hochreiter等人[77]提出的長(zhǎng)短時(shí)記憶(Long Short-Term Μemory,LSTΜ)網(wǎng)絡(luò)結(jié)構(gòu),在處理序列信息方面有巨大優(yōu)勢(shì),其結(jié)構(gòu)中所包含的門限機(jī)制也可以在一定程度上解決梯度消失的問題,因此目前也被廣泛應(yīng)用于人體姿態(tài)估計(jì)任務(wù)中。此外還可以應(yīng)用人體動(dòng)力學(xué)先驗(yàn)作為限制,還原姿態(tài)失真等不足,提升姿態(tài)預(yù)測(cè)的準(zhǔn)確性。
除了上文闡述的幾類神經(jīng)網(wǎng)絡(luò)和方法,一些更優(yōu)的深度學(xué)習(xí)先進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)也可以被用來解決3D人體姿態(tài)估計(jì)任務(wù)。其中生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[78]是復(fù)雜分布上無監(jiān)督學(xué)習(xí)最具前景的一種深度學(xué)習(xí)模型,通過生成模型和判別模型的互相博弈學(xué)習(xí)即可產(chǎn)生相當(dāng)好的輸出。Wandt等人[79]采用弱監(jiān)督學(xué)習(xí)方法,使用GAN生成的鑒別器網(wǎng)絡(luò)學(xué)習(xí)3D人體姿態(tài)分布,從而擺脫了訓(xùn)練數(shù)據(jù)對(duì)3D 姿態(tài)標(biāo)簽的依賴。實(shí)驗(yàn)表明該方法可以很好地泛化未知數(shù)據(jù)且性能表現(xiàn)優(yōu)異。
深度學(xué)習(xí)的模型訓(xùn)練很大程度上依賴于大量高質(zhì)量的數(shù)據(jù),針對(duì)目前3D人體姿態(tài)數(shù)據(jù)集數(shù)量偏少、采集難度高、數(shù)據(jù)注釋工作量大等問題,從數(shù)據(jù)集的角度提升3D 人體姿態(tài)估計(jì)模型效果是目前研究的趨勢(shì)之一。例如,Pavlakos等人[80]在2D姿態(tài)數(shù)據(jù)集上增加骨骼關(guān)鍵點(diǎn)的前后關(guān)系標(biāo)注,此標(biāo)注方式相比于3D 骨骼關(guān)鍵點(diǎn)標(biāo)注更加容易。實(shí)驗(yàn)表明這種前后關(guān)系的標(biāo)注可以用于3D 人體姿態(tài)估計(jì)的模型訓(xùn)練中,并且可以有效提升模型的性能。
使用深度學(xué)習(xí)算法來解決監(jiān)督學(xué)習(xí)任務(wù)是非常不錯(cuò)的選擇,半監(jiān)督或弱監(jiān)督的學(xué)習(xí)方法可以有效降低當(dāng)前3D 人體姿態(tài)數(shù)據(jù)無法完全滿足網(wǎng)絡(luò)模型訓(xùn)練的需求。例如,Chen 等人[81]提出了一種新穎的弱監(jiān)督編碼器-解碼器框架來學(xué)習(xí)人體姿勢(shì)的幾何感知3D 表示。不同于直接從圖像中估計(jì)3D姿態(tài)或先估計(jì)2D姿勢(shì),然后轉(zhuǎn)化到3D 姿態(tài)的方法,需要復(fù)雜的深層網(wǎng)絡(luò)架構(gòu)和大量注釋的訓(xùn)練樣本,該方法從多視角的圖片信息中學(xué)習(xí)幾何表示,并僅以2D關(guān)鍵點(diǎn)信息作為監(jiān)督,通過淺層網(wǎng)絡(luò)和較少注釋的訓(xùn)練樣本即可獲得3D姿態(tài)。
考慮到有時(shí)需要通過3D姿態(tài)估計(jì)來虛擬出動(dòng)畫人物來做交互,因此從圖片或視頻中重建或恢復(fù)人體姿態(tài)的3D模型是有必要的。研究人員主要使用基于SΜLP(Skinned Μulti-Person Linear model)[82]蒙皮模型和基于體素回歸的網(wǎng)絡(luò)模型這兩種方式進(jìn)行密集的三維人體姿態(tài)模型估計(jì)[83]。其中DensePose[84]是利用SΜLP 模型進(jìn)行密集3D 人體姿態(tài)估計(jì)的典型方法,BodyNet[85]使用體素構(gòu)造法直接從圖像得到體積測(cè)定的人體外形。盡管上述方法取得不錯(cuò)的效果,但是仍存在對(duì)于三維人體姿態(tài)模型估計(jì)缺乏帶標(biāo)注的3D人體姿態(tài)和形態(tài)估計(jì)的數(shù)據(jù)集、預(yù)測(cè)的形態(tài)不夠逼真、運(yùn)動(dòng)學(xué)上不夠合理的問題。VIBE[86]采用了大規(guī)模的運(yùn)動(dòng)捕捉數(shù)據(jù)集(AΜASS)[87]以及不成對(duì)的in-the-wild 的2D 標(biāo)注,結(jié)合生成對(duì)抗網(wǎng)絡(luò)的方法,定義一種具有自我注意機(jī)制的時(shí)域模型來預(yù)測(cè)SΜPL格式的參數(shù)。
本文主要從基于傳統(tǒng)方法和深度學(xué)習(xí)方法兩方面對(duì)三維人體姿態(tài)估計(jì)研究進(jìn)行了分類綜述。對(duì)傳統(tǒng)三維人體姿態(tài)估計(jì)和基于深度學(xué)習(xí)的姿態(tài)估計(jì)之間的關(guān)系進(jìn)行了討論。傳統(tǒng)方法對(duì)特征表示和關(guān)鍵點(diǎn)的空間位置關(guān)系這兩個(gè)維度有比較高的要求,主要策略是采用人工設(shè)計(jì)的特征實(shí)施關(guān)鍵點(diǎn)檢測(cè)。而深度學(xué)習(xí)方法的優(yōu)勢(shì)在于可以直接通過在圖像數(shù)據(jù)上進(jìn)行訓(xùn)練和學(xué)習(xí),自動(dòng)提取任務(wù)相關(guān)特征得到最有效的表征方法。從傳統(tǒng)方法進(jìn)入深度學(xué)習(xí)的時(shí)代,需要的樣本數(shù)據(jù)量也逐漸龐大,數(shù)據(jù)問題的解決會(huì)進(jìn)一步推動(dòng)算法和框架的發(fā)展,提升網(wǎng)絡(luò)訓(xùn)練的效率和準(zhǔn)確性。本文最后對(duì)當(dāng)前研究中主要使用的數(shù)據(jù)集、評(píng)價(jià)指標(biāo)、面臨的難點(diǎn)和未來發(fā)展趨勢(shì)進(jìn)行了概述,相信三維人體姿態(tài)估計(jì)研究在未來仍有著巨大的發(fā)展和應(yīng)用潛力。