馮 杰,鄭建立
(上海理工大學(xué)健康科學(xué)與工程學(xué)院,上海 200093)
fjie666@outlook.com;zhengjianli163@163.com
人體姿態(tài)估計(Human Pose Estimation,HPE)是計算機視覺中的一個重要任務(wù),也是計算機理解人類動作和行為必不可少的一步。近年來,人體姿態(tài)估計正越來越多地應(yīng)用于人們的日常生活,如在人機交互[1]和VR游戲領(lǐng)域?qū)θ梭w動作的捕捉[2],在安防領(lǐng)域?qū)θ梭w行為的分析[3](如智能監(jiān)控、肢體對抗等),在運動和康復(fù)領(lǐng)域用于指導(dǎo)人的訓(xùn)練[4]。由于人體在執(zhí)行部分動作時軀體姿態(tài)變化較大,以及動作背景環(huán)境復(fù)雜、觀察角度的不確定,使人體姿態(tài)估計面臨很多挑戰(zhàn),該領(lǐng)域正受到眾多學(xué)者的密切關(guān)注。
自2012 年AlexNet[5]網(wǎng)絡(luò)提出以來,深度學(xué)習(xí)得到蓬勃發(fā)展,給人體姿態(tài)估計領(lǐng)域帶來了新的發(fā)展驅(qū)動力。2014 年,計算機視覺領(lǐng)域首次成功引入卷積神經(jīng)網(wǎng)絡(luò)解決單人姿態(tài)估計問題,在此后的很長一段時間內(nèi),基于卷積神經(jīng)網(wǎng)絡(luò)的骨干結(jié)構(gòu)一直是該領(lǐng)域內(nèi)的主流方法。隨后,Transformer結(jié)構(gòu)[6]在時序領(lǐng)域取得巨大成功,開始有研究者將其引入計算機視覺領(lǐng)域,基于Transformer結(jié)構(gòu)的人體姿態(tài)估計算法成為新的研究熱點。本文從卷積神經(jīng)網(wǎng)絡(luò)和基于Transformer結(jié)構(gòu)的網(wǎng)絡(luò)兩個方面,對人體姿態(tài)估計算法做綜合性論述,并總結(jié)分析了兩種研究思路的優(yōu)點和缺點。
人體姿態(tài)估計是指在視頻或者圖像中,對人體的關(guān)鍵點如肘部、手腕、膝蓋等進行定位,并且能夠計算得到各個關(guān)節(jié)點之間的最優(yōu)連接關(guān)系。單人姿態(tài)估計是指給定預(yù)測圖像中只有單個人體或者固定數(shù)量的關(guān)節(jié)點。在深度學(xué)習(xí)被引入之前,傳統(tǒng)處理姿態(tài)估計的方法常常是基于圖結(jié)構(gòu)模型[7]。圖結(jié)構(gòu)模型存在人工設(shè)計特征困難、魯棒性低的問題,學(xué)者們發(fā)現(xiàn)基于深度學(xué)習(xí)不需要設(shè)計圖模型的拓?fù)浣Y(jié)構(gòu)和關(guān)節(jié)點之間的交互,具有更大的優(yōu)勢。單人姿態(tài)估計可分為基于坐標(biāo)回歸的方法、基于熱圖檢測的方法及混合模型方法?;谧鴺?biāo)回歸和基于熱圖檢測方法各有優(yōu)劣,但由于基于坐標(biāo)回歸方法在精度上具有較大的局限性,因此目前主流方法仍然是基于熱圖檢測?;诨旌夏P偷姆椒ǎ瑒t是在一個算法中同時使用了前兩者監(jiān)督模型學(xué)習(xí)。表1中列出以上三種方法的優(yōu)點和缺點對比。
表1 單人姿態(tài)估計算法的對比Tab.1 Comparison of single-person estimation algorithms
多人姿態(tài)估計任務(wù)比單人姿態(tài)估計復(fù)雜,在圖像中含有數(shù)量不等的多個人體。算法不僅需要給出所有關(guān)節(jié)點,還需要預(yù)測不同關(guān)節(jié)點分屬的不同人體,即關(guān)節(jié)點分組的過程。目前,多人姿態(tài)估計主流方法為二步法,即必須經(jīng)過兩個階段才能得到最終結(jié)果,二步法又分為自頂向下(Top-Down)和自底向上(Bottom-Up)兩種方法。自頂向下的方法需要先在圖像中檢測人體,再在單個人體局部區(qū)域內(nèi)做單人的姿態(tài)估計。自底向上的方法和自頂向下的方法相反,其過程是先將圖像中所有關(guān)節(jié)點檢測出來,然后使用分組算法將同一個人體的關(guān)節(jié)點連接起來。除二步法外,還有較為新穎的單步法。
自頂向下和自底向上方法各有優(yōu)劣,自頂向下比較直觀,但由于網(wǎng)絡(luò)中還包含目標(biāo)檢測部分,因此運算效率不高。通常,需要高精度的場景,采用自頂向下的方法;對實時性要求比較高的場景,采用自底向上的方法。表2對兩種方法的優(yōu)劣進行對比。
表2 自頂向下和自底向上方法的優(yōu)劣對比Tab.2 Comparison of advantages and disadvantages of top-down and bottom-up methods
在單人姿態(tài)估計任務(wù)中,TOSHEV等[8]于2014 年首次將深度學(xué)習(xí)應(yīng)用于人體姿態(tài)估計,并將其網(wǎng)絡(luò)結(jié)構(gòu)命名為DeepPose;其研究基于坐標(biāo)回歸的預(yù)測方法,從特征圖中直接預(yù)測關(guān)鍵點的坐標(biāo),使用平方差損失函數(shù)進行回歸計算損失值。DeepPose使用了一個級聯(lián)回歸預(yù)測,將訓(xùn)練分為多個階段,以提高坐標(biāo)回歸的準(zhǔn)確度。初始階段得到粗略的坐標(biāo)后,坐標(biāo)點周圍的局部圖像被裁剪并送到下一個階段的訓(xùn)練,學(xué)習(xí)更精細(xì)尺度的特征。這與目前流行的一些多尺度特征網(wǎng)絡(luò)的思想有共通之處。
即使DeepPose已經(jīng)使用級聯(lián)回歸進行預(yù)測,但讓算法直接預(yù)測最終坐標(biāo)值的做法對于模型來說仍然過于困難。這不僅是由于場景和人體動作的復(fù)雜多變,更是由于圖像特征和關(guān)節(jié)坐標(biāo)值之間是高度的非線性關(guān)系,是一個復(fù)雜的學(xué)習(xí)任務(wù)。之后,SZEGEDY等[9]在GoogleNet的基礎(chǔ)上提出了誤差迭代修正(Iterative Error Feedback,IEF)[10]方式改進此問題。誤差迭代修正提出了通用型的修正回歸誤差方法,但是如何提高輸出坐標(biāo)的準(zhǔn)確度,仍然沒有行之有效的方法。TOMPSON等[11]較早地使用熱圖檢測的方法進行姿態(tài)預(yù)測。研究者發(fā)現(xiàn),相比較于坐標(biāo)回歸,基于熱圖檢測的方法能夠大幅度地提高算法對關(guān)節(jié)點的預(yù)測準(zhǔn)確度。熱圖是由概率值代表的一副圖像,圖中像素點代表其為關(guān)節(jié)點的概率。此外,TOMPSON的研究貢獻(xiàn)在于討論了常規(guī)卷積神經(jīng)網(wǎng)絡(luò)中使用的池化層和Dropout會造成空間關(guān)聯(lián)信息丟失,帶來位置精度損失的問題,尤其是在姿態(tài)估計這種精細(xì)化任務(wù)中,特別需要這種特征信息。近年來,有越來越多的研究者關(guān)注和論證池化層會帶來的信息丟失問題,不利于需要精確位置信息的任務(wù)。
之后,很多研究者大都從網(wǎng)絡(luò)模型結(jié)構(gòu)上進行精巧設(shè)計,如卷積姿態(tài)機[12]使用多個全卷積結(jié)構(gòu)[13]網(wǎng)絡(luò)預(yù)測關(guān)節(jié)的熱圖。NEWELL等[14]在2016 年提出Hourglass網(wǎng)絡(luò),其中的沙漏堆疊結(jié)構(gòu)表現(xiàn)優(yōu)秀,擊敗了以往所有的模型,成為一個經(jīng)典的結(jié)構(gòu)。Hourglass使用池化層和上采樣構(gòu)造沙漏形模塊,使用殘差結(jié)構(gòu)將不同尺度特征進行融合,結(jié)合中間監(jiān)督優(yōu)化模型訓(xùn)練(圖1)。
圖1 中間監(jiān)督Fig.1 Intermediate supervision
基于Hourglass網(wǎng)絡(luò),其他研究者還提出了許多變種網(wǎng)絡(luò)[15-16],ZHANG等[17]對沙漏接口進行精簡,提出輕量級沙漏網(wǎng)絡(luò),配合知識蒸餾降低模型復(fù)雜度,將知識從大型教師網(wǎng)絡(luò)遷移到輕量級網(wǎng)絡(luò)中。以上研究都基于一個思路,即設(shè)計復(fù)雜或者精巧的結(jié)構(gòu),期望用復(fù)雜結(jié)構(gòu)進行姿態(tài)估計問題中的高度非線性擬合。XIAO等[18]提出簡單基線網(wǎng)絡(luò),認(rèn)為提高算法效果不一定要依賴復(fù)雜結(jié)構(gòu),XIAO的研究旨在提出一種簡單的網(wǎng)絡(luò)結(jié)構(gòu)降低算法復(fù)雜度。簡單基線網(wǎng)絡(luò)如圖2所示,算法通過常規(guī)順序堆疊卷積層進行特征提取,使用反卷積進行分辨率的復(fù)原。
圖2 簡單基線網(wǎng)絡(luò)Fig.2 Simple baselines network
簡單基線網(wǎng)絡(luò)雖然網(wǎng)絡(luò)結(jié)構(gòu)簡單,但是非常有效,能提示研究人員的網(wǎng)絡(luò)學(xué)習(xí)能力已經(jīng)飽和,另有影響算法表現(xiàn)的因素存在。2019 年,微軟團隊提出高分辨率網(wǎng)絡(luò)(High-Resolution Network,HRNet)[19],研究認(rèn)為不管使用池化層還是其他形式的圖像下采樣,降低分辨率的同時都會丟失特征,而高分辨率網(wǎng)絡(luò)在基線上不需要降低分辨率,而是通過并行的子網(wǎng)分支下采樣,通過不同尺度的感受野得到圖像特征后,上采樣疊加回基線分支進行交叉融合信息;其模型結(jié)構(gòu)如圖3所示,該結(jié)構(gòu)目前仍然有優(yōu)異的表現(xiàn)。
圖3 高分辨率網(wǎng)絡(luò)Fig.3 High-resolution network
在多人姿態(tài)估計任務(wù)中,自頂向下方法對人體檢測器依賴較大,需要準(zhǔn)確得到單個人體局部圖像。目前,大量的研究都集中在人體檢測器上,針對多人姿態(tài)領(lǐng)域進行優(yōu)化,希望得到高質(zhì)量的檢測框,其中對非極大值抑制的策略改進是眾多論文的研究方向。FANG等[20]提出區(qū)域多人姿態(tài)估計框架(Regional Multi-person Pose Estimation,RMPE),使用Faster R-CNN作為人體檢測器,設(shè)計對稱式變壓器網(wǎng)絡(luò)獲取高精度的人體檢測框,同時提出參數(shù)姿態(tài)非極大值抑制(P-Pose NMS)策略對冗余的檢測框進行過濾,在檢測框中配合沙漏堆疊網(wǎng)絡(luò)進行單人姿態(tài)估計。谷歌團隊將非極大值抑制與人體關(guān)節(jié)點評價指標(biāo)關(guān)鍵點相似度(Object Keypoint Similarity,OKS)相結(jié)合,提出G-RMI[21]網(wǎng)絡(luò)。不同于參數(shù)姿態(tài)非極大值抑制直接使用歐式距離進行過濾,OKP算法使用人體的尺度信息對臨近的關(guān)節(jié)點間進行歐氏距離的修正,計算其檢測框的相似度。同時,級聯(lián)金字塔網(wǎng)絡(luò)(Cascaded Pyramid Network,CPN)[22]算法也驗證了不同非極大值抑制策略對于人體檢測質(zhì)量的影響。
采用自底向上方法時,如何將所有關(guān)節(jié)點進行分組并聯(lián)接得到人體拓?fù)浣Y(jié)構(gòu)是關(guān)鍵。CAO等[23]提出OpenPose網(wǎng)絡(luò)是一種典型的自底向上的方法,OpenPose采用經(jīng)典VGG-19作為主干網(wǎng)絡(luò)提取特征,將特征輸入到一個雙分支網(wǎng)絡(luò),其中一個分支獲取所有關(guān)節(jié)點熱圖,另一個分支獲取部件親和場(Part Affinity Fields,PAFs),部件親和場能將關(guān)節(jié)點進行分組和連接。PAPANDREOU等[24]提出多任務(wù)網(wǎng)絡(luò)PersonLab,采用殘差網(wǎng)絡(luò)預(yù)測關(guān)節(jié)點熱圖,關(guān)節(jié)點偏移量及人體實例分割的掩模,利用基于樹形運動學(xué)圖的貪婪解碼算法將關(guān)鍵點分組到人體檢測實例中。
NEWELL等[25]提出關(guān)聯(lián)嵌入標(biāo)簽算法,能夠以端到端的方式對關(guān)節(jié)點進行檢測和分組;其基本思想是為每次檢測引入一個實數(shù),用作識別對象所屬組的“標(biāo)簽”,標(biāo)簽將每個檢測與同一組中的其他檢測相關(guān)聯(lián)。NEWELL使用損失函數(shù)促使相同組的標(biāo)簽具有相似的值。
C H E N G 等[26]在高分辨率網(wǎng)絡(luò)的基礎(chǔ)之上,提出HigherHRNet,結(jié)合關(guān)聯(lián)嵌入標(biāo)簽算法對關(guān)節(jié)點進行分組。NIE等[27]于2019 年提出單階段人體姿態(tài)器,它是一種新穎的單步法的多人姿態(tài)估計器,簡化了人體估計的流程。本文提出了一種新的結(jié)構(gòu)化關(guān)節(jié)的坐標(biāo)表示方法,它首先使用根節(jié)點將人體進行基礎(chǔ)的檢測和定位,然后將關(guān)節(jié)點表示距離人體根節(jié)點的偏移。
以上經(jīng)典的算法都基于卷積結(jié)構(gòu),同時有研究對熱圖損失進行分析。一般熱圖大小為原圖的多倍下采樣,從熱圖中取第一極大值并映射回原圖坐標(biāo)時,存在數(shù)學(xué)期望上的偏差。分布坐標(biāo)感知(Distribution-Aware coordinate Representation of Keypoint,DarkPose)[28]和無偏數(shù)據(jù)處理(Unbiased Data Processing,UDP)[29]等算法對數(shù)據(jù)進行無偏處理,得到更精確的預(yù)測坐標(biāo),可無縫嵌入各種姿態(tài)估計模型中使用。
Transformer是目前的熱點研究方向。2020 年,視覺自注意力模型(Vision Transformer,ViT)首次將Transformer結(jié)構(gòu)引入計算機視覺領(lǐng)域。ViT將圖像切分為N×N大小的局部圖像塊作為序列,經(jīng)過維度轉(zhuǎn)換后傳入Transformer模塊,得到最終的輸出特征。這種簡單的切分圖像作為序列輸入的方式在小數(shù)據(jù)集上與同等規(guī)模的卷積神經(jīng)網(wǎng)絡(luò)相比并未取得最優(yōu)秀的表現(xiàn),但是在大數(shù)據(jù)集上的訓(xùn)練能得到出色的結(jié)果。這種結(jié)果是可預(yù)期的,Transformer缺乏卷積結(jié)構(gòu)固有的平移不變性和局部特征性,因此當(dāng)數(shù)據(jù)量不足時不能很好地擬合。針對這種原始Transformer參數(shù)量大和效果不佳的問題,有許多研究做出了改進。其中,移動窗口自注意力模型(Shift Windows Transformer,Swin-Transformer)[30]通過劃分小窗口進行局部自注意力減少參數(shù)量,通過窗口滑動進行信息交換的方式,在各大任務(wù)中均超越卷積神經(jīng)網(wǎng)絡(luò)取得了頂尖的成績。
使用Transformer進行人體姿態(tài)估計的研究目前不多,其中姿態(tài)估計自注意力(Pose Estimation Transformer,PEFormer)與ViT結(jié)構(gòu)相似,將圖像切片后送入Transformer,但這種簡單的設(shè)計使其效果并未達(dá)到領(lǐng)先水平。還有的研究將卷積結(jié)構(gòu)與Transformer混合使用,例如直接自注意力估計算法(Transformer Pose,TFPose)[31]使用卷積神經(jīng)網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò)提取圖像特征后,將特征添加位置嵌入輸入Transformer模塊,經(jīng)過“編碼—解碼”結(jié)構(gòu)的設(shè)計,得到最終的關(guān)節(jié)點輸出。值得一提的是,TFPose并未使用常用的熱圖輸出,而是直接對關(guān)節(jié)點坐標(biāo)進行回歸預(yù)測,其結(jié)構(gòu)如圖4所示。與TFPose相同,TransPose也是卷積與Transformer結(jié)合的網(wǎng)絡(luò)設(shè)計,但是使用熱圖進行監(jiān)督學(xué)習(xí),使其效果優(yōu)于TFPose。而高分辨率自注意力模型(High-Resolution Transformer,HRFormer)則基于高分辨率網(wǎng)絡(luò)(High-Resololution Network,HRNet)骨干網(wǎng)絡(luò),將主體的卷積替換為Transformer結(jié)構(gòu),為了減少參數(shù)量,與Swin-Transformer類似,將特征圖劃分窗口進行自注意力學(xué)習(xí),取得了不錯的效果。
圖4 TFPose網(wǎng)絡(luò)Fig.4 TFPose network
LI等[32]提出的基于級聯(lián)Transformer的姿態(tài)識別(Pose Recognition with TRansformer,PRTR)研究構(gòu)建了一個端到端可訓(xùn)練的自頂向下的多人姿態(tài)估計算法。該研究在網(wǎng)絡(luò)內(nèi)構(gòu)建了人體檢測器,并基于此人體檢測器得到的檢測框進行后續(xù)的關(guān)鍵點預(yù)測,算法中的人體檢測器和關(guān)鍵點預(yù)測網(wǎng)絡(luò)都是由Transformer構(gòu)成的;而基于Transformer的自底向上的類型算法目前仍較少。
目前,人體姿態(tài)估計領(lǐng)域內(nèi)有許多公開的數(shù)據(jù)集,涵蓋了單人的估計任務(wù)和多人的估計任務(wù)。其中,MPII數(shù)據(jù)集中既含有單人樣本也包括多人樣本;而像微軟COCO競賽數(shù)據(jù)集的樣本數(shù)已經(jīng)超過了30萬張,是多人估計領(lǐng)域的一個重要數(shù)據(jù)集。表3和表4給出了常見的公開數(shù)據(jù)集。
表3 單人姿態(tài)估計數(shù)據(jù)集Tab.3 Single-person pose estimation dataset
表4 多人姿態(tài)估計數(shù)據(jù)集Tab.4 Multi-person pose estimation dataset
對于如何評估算法的表現(xiàn),常用的有4 個評估指標(biāo)。①PCK:正確關(guān)鍵點的百分比。給定某一閾值,預(yù)測關(guān)節(jié)點與真實關(guān)節(jié)點的距離在閾值內(nèi)的,視為正確。②PCP:正確部位百分比。兩個預(yù)測關(guān)節(jié)點構(gòu)成的肢體部位,與真實肢體關(guān)節(jié)距離在特定的閾值內(nèi)的,視為正確。③PDJ:檢測到的關(guān)節(jié)百分比。預(yù)測關(guān)節(jié)和真實關(guān)節(jié)之間的距離,在軀干直徑某一百分比范圍內(nèi)。④OKS:對象關(guān)節(jié)點相似度。COCO關(guān)鍵點挑戰(zhàn)競賽采用這一評估指標(biāo)。其中,OKS的計算公式見公式(1):
表5給出一些單人姿態(tài)估計算法在MPII數(shù)據(jù)集上的實驗結(jié)果對比,以0.5閾值的PCK為評估指標(biāo),計算所有類型關(guān)節(jié)點的平均精度。表6給出一些多人姿態(tài)估計算法在COCO數(shù)據(jù)集上的實驗結(jié)果對比,以O(shè)KS為評價指標(biāo),計算所有類型關(guān)節(jié)點的平均精度。
表5 單人姿態(tài)估計算法在MPII數(shù)據(jù)集上的表現(xiàn)Tab.5 Results of single-person pose estimation algorithm on dataset MPII
表6 多人姿態(tài)估計算法在COCO數(shù)據(jù)集上的表現(xiàn)Tab.6 Results of multi-person pose estimation algorithm on dataset COCO
從表5中可以看出,沙漏(Hourglass)網(wǎng)絡(luò)憑借其獨特的結(jié)構(gòu)在算法表現(xiàn)上取得了較大的突破,MPII數(shù)據(jù)集中的平均精確度突破90%。之后其他研究中的網(wǎng)絡(luò)結(jié)構(gòu)大體上保留“下采樣—上采樣”的沙漏形的設(shè)計痕跡,如簡單基線網(wǎng)絡(luò)整體上可視為一個沙漏形。這種兩頭大中間小的模型設(shè)計,在卷積神經(jīng)網(wǎng)絡(luò)的維度設(shè)計中也運用廣泛,稱之為瓶頸(Bottleneck)結(jié)構(gòu),其特點是首先通過卷積降低維度,然后進行常規(guī)的卷積,再使用卷積將維度升高還原。近年來,出現(xiàn)了逆瓶頸層的設(shè)計,通過先升高維度提取更多特征后再降低維度。逆瓶頸層的結(jié)構(gòu)在姿態(tài)估計中是否能起到效果,是一個值得探討的問題。HRNet相比其他算法,表現(xiàn)更優(yōu)異,這在很大程度歸因于其網(wǎng)絡(luò)全程保持與熱圖一致的高分辨率,也證明了特征圖的分辨率對預(yù)測結(jié)果具有較大影響。
人體姿態(tài)估計自頂向下的方法優(yōu)于自底向上方法在前文已做介紹,從表6中可以看出自底向上方法指標(biāo)與自頂向下方法的指標(biāo)相比仍有較大差距,其主要原因是自頂向下的方法經(jīng)過檢測器后得到單個人體圖像,可以視為帶有先驗知識,即局部圖像中的人體關(guān)節(jié)具有某種拓?fù)溥B接規(guī)律,如頭部之下為肩頸等。這種全體樣本都具備的特征規(guī)律能夠很好地指導(dǎo)算法學(xué)習(xí),得到準(zhǔn)確的關(guān)節(jié)點。自底向上方法由于需要先檢測圖像中所有關(guān)節(jié)點,在圖像人體數(shù)量眾多的情況下喪失了這種先驗知識,加之關(guān)節(jié)點分布凌亂,導(dǎo)致誤檢率、漏檢率較高。如何將人體拓?fù)浣Y(jié)構(gòu)這種先驗知識帶入自底向上的方法,也是一個值得研究的方向。
Transformer在姿態(tài)估計中的應(yīng)用仍然是一個新的研究方向,從表6中可以看出,基于Transformer方法的指標(biāo)表現(xiàn)與基于卷積方法的指示表現(xiàn)大致持平。HRFormer在HRNet的基礎(chǔ)上,將卷積替換成Transformer結(jié)構(gòu)后,僅帶來準(zhǔn)確率的微小提升。Transformer本身是在時序領(lǐng)域提出的,雖然目前在圖像分類領(lǐng)域成為最先進的結(jié)構(gòu),但是在特定視覺任務(wù)姿態(tài)估計中,語義分割等未取得突破性的提升。視覺任務(wù)的特征本身在空間域的相關(guān)性較高,簡單地將其空間展開后模擬成時間域并不能很好地捕捉其特征關(guān)系,梳理與處理這兩者間的轉(zhuǎn)化,或許能成為Transformer提升姿態(tài)估計表現(xiàn)的關(guān)鍵。近期,有研究開始回歸卷積神經(jīng)網(wǎng)絡(luò)本身,F(xiàn)acebook的存粹卷積模型(ConvNeXt)僅憑借卷積結(jié)構(gòu)和其他算法的設(shè)計細(xì)節(jié)結(jié)合,便在大規(guī)模視覺識別挑戰(zhàn)賽(Large Scale Visual Recognition Challenge,ILSVRC)圖像分類數(shù)據(jù)集上達(dá)到了目前最好的Top-1的準(zhǔn)確率?;诖耍矸e與Transformer,誰更有潛力,開始成為研究者討論的熱點。
綜上所述,人體姿態(tài)估計領(lǐng)域依托于深度學(xué)習(xí)的發(fā)展,展現(xiàn)出了巨大的潛力和優(yōu)異的表現(xiàn)。目前,基于卷積結(jié)構(gòu)的算法具有簡單、高效的優(yōu)點,仍是該領(lǐng)域最具競爭力的算法,基于Transformer結(jié)構(gòu)的新穎算法有著巨大的發(fā)展?jié)摿?。算法精度與執(zhí)行速度兼顧的平衡將會是該領(lǐng)域的研究重點,未來隨著深度學(xué)習(xí)基礎(chǔ)性理論的發(fā)展,將會誕生更高效的模型和研究成果。