王仕宸,黃 凱,陳志剛,張文東
1.新疆大學(xué)軟件學(xué)院,烏魯木齊830046
2.中南大學(xué)計算機學(xué)院,長沙410083
人體姿態(tài)估計在計算機視覺文獻(xiàn)中得到了廣泛的研究,它涉及到從傳感器獲取的輸入數(shù)據(jù)中估計人體部位的信息,生成人體姿態(tài),在運動分析[1]、虛擬現(xiàn)實[2]、醫(yī)療輔助[3]、電影制作[4]等領(lǐng)域有著廣泛的應(yīng)用前景。人體姿態(tài)估計這個任務(wù),最終面向的使用場景是對視頻流進行實時的姿態(tài)估計,而且至少要像人類一樣能夠適應(yīng)各種復(fù)雜環(huán)境。然而實現(xiàn)起來需要循序漸進,因此最簡單的樣例場景就是:從單張圖像中識別單個人體,且只需要二維的骨架。從圖像和視頻中提取二維姿態(tài)標(biāo)注的二維人體姿態(tài)估計很容易實現(xiàn),基于深度學(xué)習(xí)的單人人體姿態(tài)估計技術(shù)已經(jīng)達(dá)到很高的性能。
近年來,隨著深度學(xué)習(xí)的快速發(fā)展,在圖像分類、語義分割和目標(biāo)檢測等任務(wù)中,基于深度學(xué)習(xí)解決方案明顯優(yōu)于傳統(tǒng)方法。深度學(xué)習(xí)被引入姿態(tài)估計之后,基于深度學(xué)習(xí)的人體姿態(tài)估計方法可以通過建立網(wǎng)絡(luò)模型,在圖像數(shù)據(jù)上進行訓(xùn)練和學(xué)習(xí),直接得到最有效的表征方法,其核心是深度神經(jīng)網(wǎng)絡(luò),主要是利用神經(jīng)網(wǎng)絡(luò)從圖像中提取出比人工特征語義信息更豐富、準(zhǔn)確性更高和更具魯棒性的圖像特征,并且網(wǎng)絡(luò)模型的表達(dá)能力會因網(wǎng)絡(luò)堆疊數(shù)量的增加而呈指數(shù)增長,因此相較于傳統(tǒng)方法可以進一步提升復(fù)雜環(huán)境下的人體姿態(tài)估計的精度和魯棒性。
三維人體姿態(tài)估計的主要任務(wù)是在三維空間中預(yù)測出人體的三維結(jié)構(gòu)信息,換種方式說就是在二維姿態(tài)估計結(jié)果的基礎(chǔ)上加上深度信息。由于深度信息的引入,三維的人體姿態(tài)估計在描述人體姿態(tài)以及識別人體行為等方面,比二維姿態(tài)估計更加精準(zhǔn),擁有更高的研究價值。相比之下,對于三維人體姿態(tài)估計來說,獲得準(zhǔn)確的三維姿態(tài)標(biāo)注要比二維人體姿態(tài)估計困難得多。深度學(xué)習(xí)在人體姿態(tài)估計任務(wù)中的應(yīng)用已經(jīng)取得了顯著的進展,然而像遮擋、深度模糊和訓(xùn)練數(shù)據(jù)不足等挑戰(zhàn)仍然是難以克服的。對于基于RGB 圖像的三維人體姿態(tài)估計,單目輸入的挑戰(zhàn)在于RGB 圖像固有的深度模糊,而多目輸入的挑戰(zhàn)在于如何在多個不同的輸入視角中匹配正確的姿態(tài)。利用運動捕捉系統(tǒng)可以在受控的實驗室環(huán)境中收集到準(zhǔn)確的三維姿勢注釋,然而在野外環(huán)境中就會部分失效。其他的一些工作選擇使用RGB-D 攝像頭和慣性測量單元(inertial measurement unit,IMU)等設(shè)備作為輸入設(shè)備,然而這類設(shè)備通常成本較高,不具有商業(yè)化能力?;谌S人體姿態(tài)估計的重要性,本文主要總結(jié)三維人體姿態(tài)估計的研究進展。
本文將對三維人體姿態(tài)估計按照如圖1 進行綜述。從基于RGB 輸入的三維姿態(tài)和基于其他輸入的三維姿態(tài)兩個角度進行介紹,基于RGB 的三維姿態(tài)中,從單目和多目兩類進行論述。其次,在Human 3.6M 數(shù)據(jù)集[5]中對部分方法進行模型對比,分析不同模型間的差異對模型性能帶來的影響。最后,根據(jù)研究需要對三維人體姿態(tài)估計的數(shù)據(jù)集及評價指標(biāo)進行系統(tǒng)性介紹,并且本文將對當(dāng)前研究面臨的問題以及未來的發(fā)展趨勢進行概述,為這個領(lǐng)域的研究者提供參考。
圖1 三維人體姿態(tài)估計分類Fig.1 Classification of 3D human pose estimation
在人體姿態(tài)估計領(lǐng)域,單目RGB 攝像頭是最常用的輸入工具。在野外場景中大多使用單個單目RGB 攝像頭作為采集設(shè)備,然而從單一視圖中估計三維人體姿態(tài)是一項艱巨的任務(wù)。單張RGB 圖像存在關(guān)鍵點遮擋、深度模糊等問題,并且由于不同的三維人體姿態(tài)可以投影成相似的二維姿態(tài),這是一個嚴(yán)重的不適定問題。遮擋問題最直接的解決方法就是從不同角度采集目標(biāo)圖像,在三維姿態(tài)估計中使用多個RGB攝像機作為輸入可以相對緩解遮擋問題。然而多個攝像機的使用又引入了另一個問題——如何匹配不同視角中的姿態(tài)。因此,基于RGB 的三維人體姿態(tài)估計可以分為單目姿態(tài)估計和多目姿態(tài)估計兩類。
與二維姿態(tài)估計的發(fā)展相似,單目三維姿態(tài)估計同樣從單人姿態(tài)估計入手,最后發(fā)展到多人姿態(tài)估計。因此,單目三維人體姿態(tài)估計方法可分為單目單人三維姿態(tài)估計和單目多人姿態(tài)估計兩類。
根據(jù)是否使用二維姿態(tài)結(jié)果作為中間表示,單目單人三維姿態(tài)估計進一步可以分為直接估計法和二維提升到三維兩種方法。在二維提升到三維的過程中,由于模型的分段執(zhí)行,可以靈活地添加人體先驗知識、時間序列和參數(shù)化人體模型(skinned multiperson linear model,SMPL)[6]等模塊提升模型性能。單目多人三維姿態(tài)估計分為兩類,自頂向下的方法和自底向上的方法。自頂向下的方法首先檢測每個人的邊界框,再在每個邊界框中進行三維姿態(tài)估計。自底向上的方法首先檢測圖中所有關(guān)鍵點,生成關(guān)鍵點坐標(biāo)和深度圖,再對所有關(guān)鍵點進行聚類組合構(gòu)造人體。
1.1.1 基于直接估計法的單人三維姿態(tài)估計
直接估計法沒有使用二維姿態(tài)結(jié)果作為中間表示,而是利用一個完整的大型神經(jīng)網(wǎng)絡(luò)端到端從RGB 圖像中直接推理出三維姿態(tài)。通常來講,很多二維數(shù)據(jù)對于三維姿態(tài)是有幫助的,同時三維姿態(tài)也能對二維位置點估計提供額外的信息輔助。文獻(xiàn)[7]就把二維骨架以及三維骨架的估計問題關(guān)聯(lián)到一起來做優(yōu)化。文獻(xiàn)[8]使用關(guān)節(jié)點之間的相對深度進行訓(xùn)練,不需要知道每一個關(guān)節(jié)點的絕對物理深度,只需要知道關(guān)節(jié)點之間的深度順序。文獻(xiàn)[9]沿用二維姿態(tài)估計的方法,回歸出一個三維熱圖估計各個關(guān)鍵點。文獻(xiàn)[10]提出了一種單階段分布感知式模型(distribution-aware single-stage model,DAS),該模型將三維人體姿態(tài)表示為2.5 維人體中心點和三維人體關(guān)鍵點偏移,這一表示有效地適配了基于RGB 圖片域的深度信息預(yù)測。文獻(xiàn)[11]將輸入空間從二維像素空間轉(zhuǎn)換為規(guī)范化坐標(biāo)系中的三維光線,這種簡單的設(shè)計有效地規(guī)范化了攝像機固有參數(shù)變化以及攝像機俯仰角變化帶來的變化。然而熱圖的下采樣會產(chǎn)生量化誤差,文獻(xiàn)[12]利用積分回歸方法,將熱圖和回歸結(jié)合,避免了量化誤差的產(chǎn)生并且可以端到端訓(xùn)練。文獻(xiàn)[13]將訓(xùn)練中的誤差作為樣本,利用極大似然估計和基于流的生成模型學(xué)習(xí)潛在的誤差分布。
1.1.2 基于二維到三維的單人三維姿態(tài)估計
由于沒有二維姿態(tài)結(jié)果作為中間表示,直接估計法的性能一般低于二維提升到三維的方法,這是因為二維到三維方法利用先進的二維姿態(tài)估計器獲取人體關(guān)鍵點二維信息,然后由二維人體姿態(tài)預(yù)測三維人體姿態(tài)坐標(biāo)。文獻(xiàn)[14]首先對圖像做二維姿態(tài)估計,然后利用最近鄰匹配尋找最佳三維姿態(tài)。文獻(xiàn)[15]將二維和三維姿態(tài)公式化為距離矩陣回歸問題。文獻(xiàn)[16]直接使用二維姿態(tài)通過神經(jīng)網(wǎng)絡(luò)回歸出三維姿態(tài)。然而以上方法過于依賴二維姿態(tài)估計器檢測的二維姿態(tài)結(jié)果,可能會導(dǎo)致次優(yōu)性能。文獻(xiàn)[17]提出了一個雙分支框架預(yù)測二維熱圖,利用關(guān)鍵點熱圖作為中間表示,以獲得最終的三維關(guān)鍵點坐標(biāo)。在此基礎(chǔ)上文獻(xiàn)[18]利用積分實現(xiàn)端到端訓(xùn)練。
1.1.3 基于先驗知識的單人三維姿態(tài)估計
在三維人體姿態(tài)估計中人體結(jié)構(gòu)的先驗知識受到了越來越多的關(guān)注,利用先驗知識對生成姿態(tài)進行約束能有效提高模型性能。文獻(xiàn)[19]利用長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)在整個骨骼中傳遞各個關(guān)節(jié)點信息;文獻(xiàn)[20]引入了人體不同關(guān)節(jié)的自由度;文獻(xiàn)[21]使用順序雙向遞歸網(wǎng)絡(luò)(sequential bidirectional recursive network,SeBiReNet)來模擬人類骨骼數(shù)據(jù);文獻(xiàn)[22]將圖神經(jīng)網(wǎng)絡(luò)與人體結(jié)構(gòu)模型結(jié)合傳遞上下文信息,生成和修正人體骨骼。然而以上方法沒有考慮到二維輸入數(shù)據(jù)的精度,文獻(xiàn)[23]發(fā)現(xiàn)二維骨架精確度越高,對應(yīng)獲得的三維骨架精度也會提高,通過對二維噪聲進行優(yōu)化再結(jié)合人體結(jié)構(gòu)先驗知識對結(jié)果進行修正,獲得了不錯的結(jié)果。
1.1.4 基于時間序列的單人三維姿態(tài)估計
對于從單個RGB 圖像估計三維人體姿態(tài),連續(xù)的視頻幀可以提供時間信息來提高三維人體姿態(tài)估計的準(zhǔn)確性和魯棒性。文獻(xiàn)[24]引入了由LSTM 單元組成的序列到序列網(wǎng)絡(luò),并在訓(xùn)練期間施加時間平滑性約束,以確保序列的時間一致性。然而缺乏空間構(gòu)型約束,生成的三維人體姿態(tài)依舊可能存在物理上的結(jié)構(gòu)錯誤??臻g依賴性和時間一致性應(yīng)當(dāng)同樣受到關(guān)注,文獻(xiàn)[25]在時間網(wǎng)絡(luò)中加入了解剖學(xué)約束,文獻(xiàn)[26]在圖卷積網(wǎng)絡(luò)中添加了人體結(jié)構(gòu)先驗知識,文獻(xiàn)[27]通過骨骼方向和骨骼長度對人體結(jié)構(gòu)進行約束。然而,現(xiàn)有方法主要依靠循環(huán)或卷積運算對這些時間信息進行建模,限制了捕捉人體運動全局關(guān)系的能力。文獻(xiàn)[28]提出了一種運動姿態(tài)和形狀網(wǎng)絡(luò)(motion pose and shape network,MPS-Net),以有效地捕捉運動中的人,從視頻中估計準(zhǔn)確和時間連貫的三維人體姿態(tài)和形狀。不同關(guān)節(jié)的運動具有明顯的差異性,文獻(xiàn)[29]提出了混合時空編碼器(mixed spatio-temporal encoder),對每個關(guān)節(jié)在時序運動上進行建模,并學(xué)習(xí)關(guān)節(jié)間的空間關(guān)系,以提取到更好的時空信息。
1.1.5 基于SMPL 模型的單人三維姿態(tài)估計
SMPL 模型[6]是一種參數(shù)化的人體模型,該方法可以進行任意的人體建模和動畫驅(qū)動,模擬人的肌肉在肢體運動過程中的凸起和凹陷,可以避免人體在運動過程中的表面失真,精準(zhǔn)地刻畫人的肌肉拉伸以及收縮運動的形貌,如圖2。在三維姿態(tài)估計中SMPL 模型[6]也得到了廣泛的運用,文獻(xiàn)[30]在一個端到端的框架中引入SMPL 模型[6],預(yù)測SMPL 模型[6]的參數(shù),生成三維人體網(wǎng)格,最后投影三維網(wǎng)格;文獻(xiàn)[31]使用基于區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region-convolutional neural networks,R-CNN)[32]的網(wǎng)絡(luò)模型,并引入了SMPL 模型[6]參數(shù)估計分支作為表示;文獻(xiàn)[33]引入一個自監(jiān)督的人體恢復(fù)網(wǎng)格提升了模型的泛化性。然而直接回歸SMPL 模型[6]會丟失人體部分細(xì)節(jié)特別是一些高頻信息;文獻(xiàn)[34]改用圖卷積神經(jīng)網(wǎng)絡(luò)(graphconvolutional neural networks,G-CNN)僅回歸SMPL模型[6]的各個坐標(biāo);文獻(xiàn)[35]結(jié)合了基于回歸和基于優(yōu)化的方法來進行3D 人體的姿態(tài)和形狀估計;文獻(xiàn)[36]直接預(yù)測每個頂點對應(yīng)的一維熱力圖來代替直接回歸對應(yīng)的三維人體相關(guān)參數(shù)。然而當(dāng)分辨率降低時,以上的模型可能會失效。文獻(xiàn)[37]提出一種基于分辨率感知結(jié)構(gòu)的自我監(jiān)督網(wǎng)絡(luò)RSC-Net,能夠使用單個模型學(xué)習(xí)不同分辨率的三維體型和姿勢;文獻(xiàn)[38]利用特征金字塔從高分辨率特征中提取網(wǎng)格對齊數(shù)據(jù)反饋給參數(shù)進行修正。
圖2 SMPL 模型Fig.2 SMPL model
1.1.6 自頂向下的多人三維姿態(tài)估計
自頂向下的方法,通常依賴高性能的人體檢測方法和單人姿態(tài)估計方法,文獻(xiàn)[39]在檢測出的每個人體邊界框中對人體姿態(tài)進行定位,再使用一種姿態(tài)建議網(wǎng)絡(luò)進行優(yōu)化。然而文獻(xiàn)[39]在固定數(shù)據(jù)集中表現(xiàn)良好,對于野外數(shù)據(jù)集的泛化性較為一般,文獻(xiàn)[40]在文獻(xiàn)[39]的基礎(chǔ)上增加了數(shù)據(jù)增強模塊,提高了模型的泛化能力。隨著圖像中人體數(shù)量的增加,計算復(fù)雜度和推理時間可能會變多,特別是在擁擠的場景中。文獻(xiàn)[41]依靠圖像級別的語義信息,來進行姿態(tài)估計,然后利用身體形狀、外觀參數(shù)和使用匈牙利匹配方法解決時間分配問題。以上方法沒有考慮到檢測出的邊界框估計深度可能與實際深度的順序不一致,預(yù)測的人體可能被放置在重疊的位置。文獻(xiàn)[42]引入了一種低分辨率的基于錨的表示方法,通過去除模糊錨點來解決重疊問題,再利用每個檢測框的相對坐標(biāo)確定深度順序。此外,由于自頂向下的方法首先檢測到每個人的邊界框,場景中的全局信息可能會被忽略。文獻(xiàn)[43]引入一種分層多人序數(shù)關(guān)系的監(jiān)督形式來解決自頂向下方法缺乏全局視角的問題。
1.1.7 自底向上的多人三維姿態(tài)估計
自底向上的方法具有線性計算和時間復(fù)雜度,與自頂向下的方法相比,自底向上方法的挑戰(zhàn)主要在于如何將不同人體的關(guān)鍵點分類。文獻(xiàn)[44]提出了具有可微分階段的多任務(wù)深度神經(jīng)網(wǎng)絡(luò)(Muby-Net),它使用肢體評分模塊估計被檢測關(guān)節(jié)的候選運動學(xué)連接,再使用骨骼分組模塊將肢體組裝成骨骼。文獻(xiàn)[45]使用單級多人姿勢機對每個人體定義唯一的身份識別根關(guān)節(jié)點,利用分層結(jié)構(gòu)化姿勢表示將關(guān)節(jié)點與根關(guān)節(jié)點組合,解決不同關(guān)節(jié)點與根關(guān)節(jié)點距離不一致問題。文獻(xiàn)[46]開發(fā)了一種基于距離的啟發(fā)式算法,用于在多人環(huán)境中連接關(guān)節(jié)。具體來說,從檢測到的即置信度最高的關(guān)節(jié)開始,根據(jù)三維歐氏距離選擇最近的關(guān)節(jié)連接剩余的關(guān)節(jié)。由于不使用人體檢測,自底向上的方法會受到尺度變化的影響,文獻(xiàn)[47]將自頂向下和自底向上的方法結(jié)合,提出了一種新型雙分支框架,自頂向下分支負(fù)責(zé)檢測圖像中的所有人,自底向上分支融入自頂向下分支中的檢測信息,負(fù)責(zé)融合歸一化的圖像塊,解決了由于檢測誤差引起的尺度變化問題。在處理多人交互產(chǎn)生的遮擋問題中,文獻(xiàn)[48]對絕對根節(jié)點地圖中每個人的遠(yuǎn)近進行排序,從近到遠(yuǎn)進行計算,避免重疊。而文獻(xiàn)[49]利用遮擋魯棒姿勢圖(occlusionrobust pose-maps,ORPM),將不同人的同一關(guān)節(jié)標(biāo)定在一張定位圖上,并借助二維姿態(tài)的信息圈定每個人的位置。最后利用冗余策略生成無法在定位圖中標(biāo)定的遮擋關(guān)節(jié)點。文獻(xiàn)[50]利用二維姿態(tài)作為先驗知識結(jié)合全局背景推斷遮擋關(guān)節(jié)來重建完整的三維姿態(tài)。單目圖像進行三維人體姿勢估計時,往往需要大量帶標(biāo)記數(shù)據(jù)集。文獻(xiàn)[51]利用一些簡單的先驗知識,在不用任何標(biāo)注的情況下,通過交叉、變換等操作在三維空間中生成新的三維骨架。文獻(xiàn)[52]將單人的三維骨骼隨機放置在一個三維網(wǎng)格中,通過生物力學(xué)專家提供的關(guān)節(jié)角度,限制合理的骨骼范圍,人工合成包含未知的目標(biāo)分布的多人三維場景。
在單目環(huán)境下,遮擋是一個具有挑戰(zhàn)性的問題。在多目環(huán)境中,一個視圖中的遮擋部分可能會在其他視圖中可見,這個問題可以得到解決,如圖3。然而多目環(huán)境又產(chǎn)生了新的挑戰(zhàn)——如何匹配多個視角中的人物。文獻(xiàn)[53]使用二維姿態(tài)注釋作為監(jiān)督,提出了一種新穎的弱監(jiān)督編碼器-解碼器框架,來學(xué)習(xí)人體姿勢的幾何感知三維表示。具體地說,首先將源圖像和目標(biāo)圖像映射成二維骨架圖,然后訓(xùn)練編碼器-解碼器從源骨架合成目標(biāo)骨架。文獻(xiàn)[54]在多路匹配算法中加入了時間信息。文獻(xiàn)[55]基于體素表達(dá)方式,提出了一種方法可以直接在三維空間進行推理,無需在二維圖像上進行任何硬決策。文獻(xiàn)[56]利用動態(tài)匹配模塊生成所有二維姿態(tài)對與相應(yīng)的三維姿態(tài),再從三維姿態(tài)中篩選正確結(jié)果。文獻(xiàn)[57]提出了回環(huán)約束,確保正確地匹配二維姿態(tài)。對極幾何是多視角匹配最常用的技術(shù)之一,文獻(xiàn)[58]在每個視角中檢測出關(guān)節(jié)點熱圖,再根據(jù)相機參數(shù)使用對極幾何進行視角匹配。然而在視角發(fā)生變化時,需要重新對模型訓(xùn)練,文獻(xiàn)[59]提出了一種預(yù)訓(xùn)練的多視角融合模型,將模型分解成兩個子模型,其中較大的模型被所有攝像機共享,另外一個輕量化模型則負(fù)責(zé)在相機姿態(tài)發(fā)生變化時,使用少量訓(xùn)練圖像進行微調(diào),再通過部署元學(xué)習(xí)框架對模型進行訓(xùn)練,提高多視角融合的泛化能力。然而在擁擠環(huán)境下對極幾何仍然可能失效,文獻(xiàn)[60]提出了一種足部匹配方法。首先在多個視圖中找到腳的最佳匹配,然后利用人體運動鏈將腳對應(yīng)擴展到其他關(guān)節(jié)。文獻(xiàn)[61]在沒有三維標(biāo)注的情況下可以自動獲取人體姿態(tài)的三維標(biāo)注,并用于微調(diào)預(yù)訓(xùn)練的網(wǎng)絡(luò)。文獻(xiàn)[62]利用可見視圖中的特征來增強遮擋視圖中的特征,通過熱圖的稀疏性來解決兩個視圖之間的點對應(yīng)關(guān)系。
圖3 多視點多人三維姿態(tài)估計Fig.3 3D poses estimation of multiple people from multiple views
多目三維人體姿態(tài)估計中,模型的推理時間也是考慮的重點。在對所有視圖進行二維姿態(tài)匹配時的計算復(fù)雜度會隨著攝像機數(shù)量的增加而激增,文獻(xiàn)[63]采用迭代處理策略,按照時間順序獲取視頻幀,并迭代地逐幀輸入,使得計算代價與相機的個數(shù)成線性關(guān)系。文獻(xiàn)[64]將每個視圖的圖像編碼為一個統(tǒng)一的潛在表示,從而將特征圖從攝像機視角中分離出來。作為一個輕量級的規(guī)范融合,這些二維表示被提升到三維姿勢使用基于GPU 的直接線性變換來加速處理。
自大規(guī)模運動捕捉數(shù)據(jù)集的引入以來,在三維姿態(tài)估計方面基于學(xué)習(xí)的方法,特別是深度學(xué)習(xí)的方法發(fā)展勢頭越來越迅猛。由于其表征學(xué)習(xí)能力,深度學(xué)習(xí)模型已經(jīng)實現(xiàn)了前所未有的高精度。盡管它們?nèi)〉昧顺晒Γ疃葘W(xué)習(xí)模型需要大量的數(shù)據(jù)進行訓(xùn)練,而且數(shù)據(jù)的收集受到很大限制。文獻(xiàn)[65]利用大型動作捕捉數(shù)據(jù)集AMASS[66]來訓(xùn)練基于視頻的人體姿態(tài)和形態(tài)的生成對抗網(wǎng)絡(luò)模型,來解決訓(xùn)練數(shù)據(jù)不足的問題。為了減少對帶標(biāo)記數(shù)據(jù)集的依賴,各種帶監(jiān)督的方法被提出。文獻(xiàn)[67]利用投影多視圖一致性創(chuàng)建了一個新的半監(jiān)督學(xué)習(xí)框架(multiviewconsistent semi-supervised learning,MCSS),MCSS 使用來自未注記、未校準(zhǔn)的人體運動多視圖視頻中姿勢信息的相似性作為額外的弱監(jiān)督信號來指導(dǎo)三維人體姿勢回歸。文獻(xiàn)[68]使用多視圖一致性實現(xiàn)弱監(jiān)督訓(xùn)練。文獻(xiàn)[53]從多視角的圖片信息中學(xué)習(xí)幾何表示,僅使用二維姿態(tài)注釋作為監(jiān)督。文獻(xiàn)[69]提出了一種將多個權(quán)重共享神經(jīng)網(wǎng)絡(luò)的輸出混合的自監(jiān)督方法,利用多視圖一致性約束將觀察到的二維姿勢分解為底層三維姿勢和相機旋轉(zhuǎn),可以從未標(biāo)記的多視圖數(shù)據(jù)中學(xué)習(xí)單個圖像,進行三維估計姿態(tài)。然而,這些帶監(jiān)督的方法除了需要二維真值之外,還需要各種形式的附加監(jiān)督或多視圖設(shè)置中的相機參數(shù),相比利用數(shù)據(jù)增強復(fù)雜了許多。文獻(xiàn)[70]提出了一種利用二維姿態(tài)和對極幾何來推理出三維姿態(tài)的方法,該方法從多視角圖片估計二維姿態(tài),隨后利用對極幾何去獲取三維姿態(tài)用于訓(xùn)練三維姿態(tài)估計。然而該方法依賴于預(yù)先定義的規(guī)則,如關(guān)節(jié)角度限制和運動學(xué)約束,限制了生成數(shù)據(jù)的多樣性,使得生成的模型難以推廣到更具挑戰(zhàn)性的野外場景。為了解決這一問題,文獻(xiàn)[71]提出了一種自動數(shù)據(jù)增強框架,該框架可以在訓(xùn)練中不斷學(xué)習(xí)訓(xùn)練結(jié)果,并反饋出相應(yīng)強度的數(shù)據(jù)增強,將訓(xùn)練姿態(tài)增強到更大的多樣性,從而提高訓(xùn)練后的模型泛化能力。
單眼RGB 相機是三維人體姿態(tài)估計最常用的輸入設(shè)備,然而其無法簡單地獲取深度信息。引入慣性測量單元、RGB-D 攝像機等其他輸入設(shè)備能很好地克服這一問題。這促進了關(guān)于其他輸入設(shè)備的三維人體姿態(tài)估計的研究。
RGB-D 圖像也被稱為深度圖像,是指將從圖像采集器到場景中各點的距離作為像素值的圖像,它直接反映了物體可見表面的幾何形狀。在人體姿態(tài)估計中,RGB-D 圖像能清晰地顯示人體各個部位的深度信息。使用RGB-D 圖像作為輸入,文獻(xiàn)[72]同時重建詳細(xì)的人體幾何形狀、人體非剛性運動和人體內(nèi)部形狀。文獻(xiàn)[73]通過捕獲全局空間和局部空間的上下文信息作為關(guān)節(jié)的局部回歸量,以集成的方式預(yù)測關(guān)節(jié)位置,增強泛化能力。文獻(xiàn)[74]將基于學(xué)習(xí)的三維人體恢復(fù)與非剛性人體融合相結(jié)合,生成精確的稀疏部分掃描。文獻(xiàn)[75]利用入射光準(zhǔn)確地估計局部表面幾何形狀和反照率,使用光度學(xué)約束作為自我監(jiān)督,實現(xiàn)詳細(xì)的表面幾何和高分辨率紋理估計。
IMU 是測量物體三軸姿態(tài)角以及加速度的裝置。人體姿態(tài)估計中慣性傳感器的使用能夠正確地估計那些在所有視角下都被遮擋的節(jié)點,如圖4。文獻(xiàn)[76]將單個手持相機和一組連接到身體四肢的慣性測量單元相結(jié)合進行姿態(tài)估計。文獻(xiàn)[77]通過融合IMU 數(shù)據(jù)和多視圖圖像來估計人類在三維空間中的姿勢。然而相機位置發(fā)生變化時,該方法需要對模型重新調(diào)參。文獻(xiàn)[78]利用一種幾何方法將多視角下的攝像機和可穿戴式的IMU 進行融合,使得攝像機的位置發(fā)生變化時,不需要對模型進行調(diào)整,只需知道相機參數(shù)即可。另外,這個方法也可以應(yīng)用到?jīng)]有傳感器的場景,僅對多個攝像機的特征進行融合。
圖4 利用IMU 輔助的三維姿態(tài)估計Fig.4 3D pose estimation assisted by IMU
基于深度學(xué)習(xí)的人體姿態(tài)估計研究需要依賴大量數(shù)據(jù)來訓(xùn)練模型,數(shù)據(jù)樣本量越大,越多樣性,越有利于訓(xùn)練魯棒的人體姿態(tài)估計模型。為三維人體姿態(tài)估計數(shù)據(jù)集獲取準(zhǔn)確的三維注釋是一項具有挑戰(zhàn)性的任務(wù),需要像動作捕捉設(shè)備和可穿戴的慣性測量單元這樣的運動捕捉系統(tǒng)。由于這一需求,許多三維姿勢數(shù)據(jù)集是在受限的環(huán)境中創(chuàng)建的。表1列出了幾種廣泛使用的基于深度學(xué)習(xí)的三維姿態(tài)估計的國際標(biāo)準(zhǔn)數(shù)據(jù)集,介紹了數(shù)據(jù)集的樣本數(shù)量、數(shù)據(jù)集來源以及適用類型。
表1 三維姿態(tài)估計數(shù)據(jù)集Table 1 3D human pose estimation datasets
MPI-INF-3DHP 數(shù)據(jù)集[79]是一個三維人體姿勢估計數(shù)據(jù)集,由受約束的室內(nèi)和復(fù)雜的室外場景組成。它記錄了8 名演員在14 個攝像機視圖內(nèi)執(zhí)行的8 項活動。它由從14 個攝像頭捕獲大于130 萬幀的圖片組成。除了一個人的室內(nèi)視頻外,他們還提供MATLAB 代碼,通過混合分段的前景人類外觀來生成一個多人數(shù)據(jù)集MuCo-3DHP。通過提供的身體部分分割,研究人員還可以使用額外的紋理數(shù)據(jù)來交換衣服和背景。
GTA-IM 數(shù)據(jù)集[80]是一個GTA 室內(nèi)活動數(shù)據(jù)集。由俠盜獵車手(GTA)電子游戲虛擬引擎從俠盜獵車手(GTA)電子游戲中收集。它包含100 萬個1 920×1 080 分辨率的RGB-D 幀,具有帶標(biāo)注的98 個三維人體姿態(tài)關(guān)節(jié)點,涵蓋了各種動作,包括坐姿、走路、爬坡和開門。每個場景都包含多個設(shè)置,例如客廳、臥室和廚房,這些設(shè)置強調(diào)人與場景的交互。
NBA2K 數(shù)據(jù)集[81]包含一些NBA 運動員的人體網(wǎng)格和紋理數(shù)據(jù),每一個運動員有大約1 000 個不同的動作。對于每個人體網(wǎng)格,還提供了包含臉、手指等35 個關(guān)鍵點的三維姿態(tài)和其對應(yīng)的彩色圖片和相機參數(shù)。數(shù)據(jù)集包含27 個真實球星,但作者沒有權(quán)限公開這些包含NBA 運動員的數(shù)據(jù),因此又構(gòu)建了包含28 個虛擬運動員的合成數(shù)據(jù)集并重新訓(xùn)練了整個框架,合成的運動員有著同樣的幾何和視覺質(zhì)量。
AMASS 數(shù)據(jù)集[66]是一個大型開源三維運動捕捉數(shù)據(jù)集,包含40 h的運動數(shù)據(jù),344個主題,超過11 000個動作。這個數(shù)據(jù)集將15 個不同的基于光學(xué)標(biāo)記的人體運動捕捉數(shù)據(jù)集與SMPL 模型[6]統(tǒng)一為人體骨架和表面網(wǎng)格的標(biāo)準(zhǔn)擬合表示。在這個豐富的數(shù)據(jù)集中,每個身體關(guān)節(jié)有3 個旋轉(zhuǎn)自由度,這些自由度用指數(shù)坐標(biāo)參數(shù)化。
3DPW 數(shù)據(jù)集[82]是在自然環(huán)境中用一臺手持相機拍攝的。該方法利用附著在被試肢體上的IMU 圖像,利用視頻慣性姿態(tài)估計三維標(biāo)注。這個數(shù)據(jù)集由60 個視頻片段、超過51 000 幀組成,其中包括在城市里散步、上樓梯、喝咖啡或坐公共汽車等日?;顒印?DPW 數(shù)據(jù)集[82]包含了大量的三維注釋,包括二維/三維姿態(tài)注釋、三維身體掃描和SMPL 模型[6]參數(shù)。然而,在一些擁擠的場景中,3DPW 數(shù)據(jù)集[82]只提供目標(biāo)人的標(biāo)簽。
HumanEva數(shù)據(jù)集[83]由HumanEva-I和HumanEva-II兩個子集構(gòu)成。HumanEva-I 數(shù)據(jù)集包含與三維身體姿勢同步的7 視圖視頻序列(4 個灰度和3 個顏色)。在3 m×2 m 的捕捉區(qū)域內(nèi),有4 名受試者身上執(zhí)行步行、慢跑、手勢、投球和接球、拳擊6 種常見動作。HumanEva-II 是HumanEva-I 測試數(shù)據(jù)集的擴展,包含兩個執(zhí)行動作組合的受試者。
Human3.6M 數(shù)據(jù)集[5]是在室內(nèi)實驗室中收集的,它包含5 名女性和6 名男性穿著普通的衣服進行的17 項日?;顒?,包括討論、吸煙、拍照、通話等。它包含360 萬張三維人體姿勢圖像和來自4 個不同視角的相應(yīng)圖像。主要拍攝設(shè)備包括4 臺數(shù)碼攝像機、1臺飛行時間傳感器、10 臺同步工作的運動攝像機。拍攝區(qū)域約為4 m×3 m。提供的標(biāo)簽包括三維關(guān)節(jié)位置、關(guān)節(jié)角度、人物邊界框以及每個演員的三維激光掃描。
CMU Panoptic 數(shù)據(jù)集[84]是一個大規(guī)模的多視圖和多人三維姿態(tài)數(shù)據(jù)集。使用包含480 個VGA 攝像機視圖、31 個高清視圖、10 個RGB-D 傳感器和基于硬件的同步系統(tǒng)進行無標(biāo)記運動捕捉的。它包含65個片段(5.5 h)的社交互動和150 萬的三維關(guān)鍵點。標(biāo)注包括三維關(guān)鍵點、云點、光流等。
平均關(guān)節(jié)位置誤差(mean per joint position error,MPJPE),由預(yù)測關(guān)節(jié)點與對應(yīng)實際關(guān)節(jié)點的歐氏距離決定。MPJPE 通常被稱為Protocol#1,它還有兩個變體P-MPJPE(Protocol#2)和N-MPJPE(Protocol#3),P-MPJPE 是先進行旋轉(zhuǎn)等處理向?qū)嶋H值對齊再進行MPJPE,N-MPJPE 僅在規(guī)模上進行對齊,用于半監(jiān)督實驗。
關(guān)鍵點的正確率(percentage of correct keypoints,PCK)用來衡量身體關(guān)節(jié)定位的準(zhǔn)確性。如果目標(biāo)關(guān)節(jié)點落在實際關(guān)節(jié)點預(yù)設(shè)像素閾值范圍內(nèi),則認(rèn)為是定位正確的。PCKh@0.5 則是對PCK 的一個輕微的修改。采用測試人員頭部長度的50%作為匹配閾值。通過改變閾值百分比,可以生成AUC(area under curve),以進一步評估不同的姿態(tài)估計算法的能力。
本章展示部分模型在Human3.6M 數(shù)據(jù)集[5]、Campus 數(shù)據(jù)集[85]和Shelf[86]數(shù)據(jù)集上的結(jié)果,如表2、表3。Human3.6M 數(shù)據(jù)集共有11 個子數(shù)據(jù)集,利用第1、5、6、7、8 子集作為訓(xùn)練集,第9、11 子集作為測試集。表4 使用Campus 數(shù)據(jù)集和Shelf 數(shù)據(jù)集作為測試集。
從表2、表3 和表4 的模型對比結(jié)果可以看出,三維姿態(tài)估計方法的性能在Human3.6M 數(shù)據(jù)集[5]上提升得很快。單目三維姿態(tài)估計中,由于二維提升到三維方法使用了高性能的二維姿態(tài)估計器,導(dǎo)致使用直接估計法的模型[8-9,27]精度普遍低于使用二維提升到三維方法的模型[16,25-26,34-35,38,51]精度。其中文獻(xiàn)[25-26]利用了時間信息,使得模型性能在二維提升到三維方法中較為突出。
表2 三維姿態(tài)估計在Human3.6M 數(shù)據(jù)集上的Protocol#1 結(jié)果Table 2 Protocol#1 result of 3D human pose estimation on Human3.6M 單位:mm
表3 三維姿態(tài)估計在Human3.6M 數(shù)據(jù)集上的Protocol#2 結(jié)果Table 3 Protocol#2 result of 3D human pose estimation on Human3.6M 單位:mm
表4 三維姿態(tài)估計在Campus數(shù)據(jù)集和Shelf數(shù)據(jù)集上的結(jié)果Table 4 Result of 3D human pose estimation on Campus and Shelf 單位:mm
多目三維姿態(tài)估計由于多視角視圖輸入,遮擋和深度模糊問題可以得到有效緩解,模型[53,58-59,64]的精度一般高于單目三維姿態(tài)估計方法。隨著各類監(jiān)督學(xué)習(xí)和數(shù)據(jù)增強手段[67,69-70]的引入,數(shù)據(jù)集不足問題正在被逐漸解決,模型的跨數(shù)據(jù)集泛化性也在逐步提升。
近年來,三維人體姿態(tài)估計算法已取得顯著的成果,但仍然存在許多問題與挑戰(zhàn):
(1)從二維映射到三維產(chǎn)生的深度模糊性和不適定性問題。二維人體關(guān)鍵點估計的微小誤差可能會在三維空間中產(chǎn)生重大影響,從數(shù)據(jù)輸入的角度提升估計模型效果是一個不錯的選擇。例如文獻(xiàn)[87]從二維關(guān)鍵點優(yōu)化入手,利用可靠的二維輸入,提升了模型性能。文獻(xiàn)[76-78]可穿戴傳感器的加入,使得三維關(guān)鍵點在遮擋條件下也能被很好捕捉。
(2)缺少可供深度學(xué)習(xí)訓(xùn)練的帶標(biāo)注數(shù)據(jù)集數(shù)據(jù)。目前大多三維人體姿態(tài)數(shù)據(jù)集都是在室內(nèi)環(huán)境或合成場景中捕捉采集的,無法完全模擬真實室外環(huán)境,導(dǎo)致訓(xùn)練的姿態(tài)估計模型泛化能力較差。數(shù)據(jù)增強是解決缺少數(shù)據(jù)集最直接的手段[70-71],除了數(shù)據(jù)增強、半監(jiān)督和弱監(jiān)督等學(xué)習(xí)方法,文獻(xiàn)[53,67-69]可以有效降低網(wǎng)絡(luò)模型訓(xùn)練對三維人體姿態(tài)數(shù)據(jù)的需求。
(3)人體姿態(tài)結(jié)構(gòu)的復(fù)雜性。靈活的身體構(gòu)造、表示復(fù)雜的關(guān)節(jié)點間關(guān)系和高自由度肢體,這可能會導(dǎo)致自我閉塞或罕見、復(fù)雜的姿勢。文獻(xiàn)[68]等方法轉(zhuǎn)換角度,從人體外觀入手,解決人體復(fù)雜性的問題。
(4)實際應(yīng)用困難。速度是產(chǎn)品落地中需要重點考慮的問題。目前大部分研究都是在GPU 做到接近實時的水平,然而很多應(yīng)用場景需要在端設(shè)備上實現(xiàn)具體應(yīng)用,例如在手機上實現(xiàn)實時高效的居家運動姿態(tài)檢測。
目前三維人體姿態(tài)估計的研究大多集中在以單模態(tài)輸入為基礎(chǔ),然而單一模態(tài)的信息局限性限制了輸入數(shù)據(jù)的精度和信息多樣性。多模態(tài)輸入利用其多種類信息的獨特優(yōu)勢,結(jié)合多模態(tài)特征融合,可以使得采集到的數(shù)據(jù)更加精準(zhǔn)和多樣,為模型學(xué)習(xí)提供更多有價值的信息。從IMU 和深度攝像機的使用可以看出,多模態(tài)輸入恰好彌補了三維人體姿態(tài)估計的模型訓(xùn)練對精確輸入數(shù)據(jù)的要求。在未來的研究中,基于多模態(tài)的三維人體姿態(tài)估計是一個值得研究的部分。
三維人體姿態(tài)估計作為近年來計算機視覺的研究熱點,在運動分析[1]、虛擬現(xiàn)實[2]、醫(yī)療輔助[3]、電影制作[4]等領(lǐng)域都取得了廣泛的應(yīng)用。本文對近年來基于深度學(xué)習(xí)的三維人體姿態(tài)估計算法進行了回顧,并對相關(guān)方法進行了分析與對比;最后探討了三維人體姿態(tài)估計目前所面臨的挑戰(zhàn)以及未來發(fā)展趨勢。