王名赫,徐望明,2*,蔣昊坤
(1. 武漢科技大學(xué) 信息科學(xué)與工程學(xué)院,湖北 武漢 430081;2. 武漢科技大學(xué) 教育部冶金自動化與檢測技術(shù)工程研究中心,湖北 武漢 430081)
人體姿態(tài)估計(Human Pose Estimation)是計算機(jī)視覺中的重要任務(wù)之一,是計算機(jī)理解人類動作、行為必不可少的一步。人體姿態(tài)所包含的信息具有非常廣泛的應(yīng)用價值,如在醫(yī)療救助領(lǐng)域可通過人體姿態(tài)估計獲得病人骨骼狀態(tài)[1],在日常健身和體育訓(xùn)練中可通過人體姿態(tài)估計幫助運動員更科學(xué)地訓(xùn)練,在人機(jī)交互和自動駕駛領(lǐng)域[2]可通過獲取人體姿態(tài)信息實現(xiàn)對人體行為的理解并完成正確的決策判斷,在虛擬現(xiàn)實、電影和動漫等領(lǐng)域也多見其用武之地。相比于其他穿戴式傳感器[3],人體姿態(tài)估計算法從采集到的圖像中獲得人體姿態(tài)信息,是一種高效、經(jīng)濟(jì)且靈活的人體姿態(tài)獲取方式。
學(xué)術(shù)界通常將人體姿態(tài)估計問題的求解方法轉(zhuǎn)化為預(yù)測人體關(guān)鍵點位置并確定其空間關(guān)系從而得到人體骨架。近年來,使用深度學(xué)習(xí)估計人體姿態(tài)的方法被陸續(xù)提出且性能遠(yuǎn)超傳統(tǒng)方法。人體姿態(tài)估計方法可分為自頂向下和自底向上兩種[4]。自頂向下的方法分為兩階段,第一階段使用人體目標(biāo)檢測器獲得人體目標(biāo)框,第二階段利用單人體姿態(tài)估計方法在每個人體框中定位人體關(guān)鍵點。該方法在人體背景復(fù)雜時需要更復(fù)雜的模型實現(xiàn)單人關(guān)鍵點的定位,受人體目標(biāo)檢測器精度影響且計算復(fù)雜度隨檢測人數(shù)線性增加,難以滿足實時需求。自底向上的方法先檢測所有人體關(guān)鍵點,再通過不同的聚類和分組策略確定關(guān)鍵點與人體的所屬關(guān)系。OpenPose[5]算法利用預(yù)測的部位親和力場連接軀干上的關(guān)鍵點,從而實現(xiàn)人體關(guān)鍵點的分組。Associative embedding[6]和HigherHRNet[7]算 法通過為每個人體關(guān)鍵點分配不同的標(biāo)簽值,使同一人體關(guān)鍵點的所有標(biāo)簽值相互聚攏而不同人體關(guān)鍵點的標(biāo)簽值相互遠(yuǎn)離,從而實現(xiàn)同一人體關(guān)鍵點的組合。DEKR[8]算法對每類人體關(guān)鍵點采用獨立的分支回歸熱力圖(heatmap)并回歸每個關(guān)鍵點相對人體中心的二維偏移圖,利用關(guān)鍵點熱力圖和偏移圖對關(guān)鍵點進(jìn)行分組。自底向上的方法檢測速度較為恒定,不受人體數(shù)量變化影響,但其檢測到的人體關(guān)鍵點需分組處理,未實現(xiàn)端到端的人體姿態(tài)檢測,而且大多采用低分辨率概率熱力圖回歸人體關(guān)鍵點坐標(biāo),存在量化誤差。
針對以上不足,YOLO-Pose[9]算法放棄熱力圖回歸方式,采用和目標(biāo)檢測類似的方式回歸人體關(guān)鍵點坐標(biāo),并采取分而治之的策略,將不同大小的人體姿態(tài)分配到不同尺度特征圖上進(jìn)行回歸,實現(xiàn)了端到端的人體姿態(tài)估計,但人體姿態(tài)的非剛性特點和人體關(guān)鍵點分布的多樣性特點導(dǎo)致該方法仍然存在錯誤估計的問題,其所用深度網(wǎng)絡(luò)的特征提取能力還有待提升。計算機(jī)視覺中提升模型特征提取能力的方法有多種[10-11],其中注意力機(jī)制是一種簡單且有效的方法,已廣泛應(yīng)用于圖像分類、目標(biāo)檢測、語義分割、行為識別和姿態(tài)估計[12]等任務(wù)中。具有代表性的注意力機(jī)制包括RNNs[13]實現(xiàn)前景目標(biāo)選擇、SENet[14]動態(tài)調(diào)整特征通道注意力權(quán)重、CBAM[15]方法實現(xiàn)通道注意力權(quán)重和空間注意力權(quán)重的動態(tài)分配等。
針對人體姿態(tài)的非剛性特點及人體關(guān)鍵點特征在空間分布上的多樣性,本文對YOLOS-Pose算法進(jìn)一步改進(jìn),提出一種輕量級通道和空間注意力網(wǎng)絡(luò)(LCSA-Net,Light-weight Channel and Spatial Attention),使網(wǎng)絡(luò)學(xué)習(xí)到更豐富的空間信息,提升網(wǎng)絡(luò)對高自由度人體姿態(tài)的估計能力。同時,提出一種基于距離自適應(yīng)的加權(quán)(Distancebased Adaptive Weighting,DAW)策略在模型訓(xùn)練階段計算人體關(guān)鍵點的回歸損失,增強(qiáng)網(wǎng)絡(luò)對不同位置人體關(guān)鍵點的回歸能力。
YOLO-Pose 是以YOLO[16]目標(biāo)檢測網(wǎng)絡(luò)模型為基礎(chǔ)實現(xiàn)的端到端人體姿態(tài)估計算法。YOLO 是一類端到端目標(biāo)檢測模型,基本原理是通過回歸待檢測目標(biāo)的位置和分類概率實現(xiàn)對圖像目標(biāo)的定位與識別。YOLO-Pose 在YOLO目標(biāo)檢測模型的基礎(chǔ)上添加了新的人體關(guān)鍵點檢測頭用于回歸。
YOLO-Pose 的輸出層存在兩類獨立的檢測頭:一類是人體目標(biāo)檢測頭,輸出Box-Out 特征圖,實現(xiàn)人體目標(biāo)檢測與定位;另一類是人體關(guān)鍵點檢測頭,輸出Kpt-Out 特征圖,實現(xiàn)人體關(guān)鍵點坐標(biāo)回歸。輸出特征圖Kpt-Out 與Box-Out 在每個特征點處回歸的人體姿態(tài)和人體目標(biāo)框是一一對應(yīng)的,因此,損失函數(shù)包括人體目標(biāo)檢測損失和人體關(guān)鍵點回歸損失。其中,采用CIoULoss (Complete IoU Loss)計算人體目標(biāo)框回歸損失Lbox,采用關(guān)鍵點相似度損失(OKS-Loss,Object Keypoint Similarity Loss)函數(shù)計算人體關(guān)鍵點坐標(biāo)回歸的損失Lkpts,其定義如式(1)所示:
其中:dn表示第n個關(guān)鍵點預(yù)測位置與標(biāo)簽坐標(biāo)位置之間的歐式距離,s2表示人體框的面積,kn表示數(shù)據(jù)集中該類關(guān)鍵點的權(quán)重,vn>0 表示該人體關(guān)鍵點存在于圖像中。
人體目標(biāo)檢測的分類損失Lcls和人體關(guān)鍵點置信度損失Lkpts_conf則采用BCE-Loss(Binary Cross Entropy Loss)作為損失函數(shù)。
模型的總損失函數(shù)如式(2)所示:
其中,參數(shù)λbox、λcls、λkpts、λkpts_conf是平衡每類損失的權(quán)重。
YOLO-Pose 算法相比于基于熱力圖回歸的模型具有精度和速度上的雙重優(yōu)勢,但通過對該算法原理分析可知,算法優(yōu)先對人體目標(biāo)檢測結(jié)果進(jìn)行處理,只有檢測到人體目標(biāo),才會在對應(yīng)位置回歸與之匹配的人體關(guān)鍵點。人體目標(biāo)檢測精度直接影響人體姿態(tài)估計精度。誤檢的人體目標(biāo)框必然會產(chǎn)生錯誤的人體姿態(tài),漏檢的人體目標(biāo)框也同樣造成人體姿態(tài)的漏檢。如圖1 所示,在日常生活中,人體目標(biāo)出現(xiàn)時極可能呈現(xiàn)出不同的姿態(tài),人體目標(biāo)的這種非剛性特點加大了視覺算法檢測的難度,同時這些人體姿態(tài)下的人體關(guān)鍵點在空間上也具有變化多樣的分布,對關(guān)鍵點的預(yù)測定位也帶來了挑戰(zhàn)。因此,針對人體的非剛性及其關(guān)鍵點在空間分布上的多樣性等特點,進(jìn)一步提升模型對特征的空間分布的敏感性是非常必要的。
圖1 變化多樣的人體姿態(tài)Fig.1 Various human postures
本文從輕量級通道和空間注意力網(wǎng)絡(luò)設(shè)計和模型訓(xùn)練時人體關(guān)鍵點回歸損失自適應(yīng)加權(quán)策略兩個方面對YOLO-Pose 算法進(jìn)行改進(jìn),提升模型的人體目標(biāo)檢測和人體關(guān)鍵點回歸精度。
相對于剛體目標(biāo),人體目標(biāo)的外觀具有更高的變化自由度。為了提升模型對變化多樣的人體目標(biāo)及其關(guān)鍵點的檢測及回歸精度,受經(jīng)典的CBAM 注意力網(wǎng)絡(luò)的啟發(fā),本文提出一種輕量級通道和空間注意力網(wǎng)絡(luò)(LCSA-Net)。與CBAM 相比,LCSA-Net 減小了參數(shù)量和計算復(fù)雜度,同時分別提取每個通道的注意力分布,獲取更豐富的空間分布特征,其整體結(jié)構(gòu)如圖2所示。
圖2 LCSA-Net 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of LCSA-Net
LCSA-Net 由通道注意力模塊和空間注意力模塊組成,輸入特征圖F∈RC×H×W通過通道注意力模塊得到權(quán)重MC∈RC×1×1,通過空間注意力模塊得到權(quán)重MS∈RC×H×W。其處理過程可表示為:
其中,?是基于元素的乘法,通過乘法操作使一維通道注意權(quán)重MC在空間維度上實現(xiàn)廣播,加權(quán)計算后的特征圖F'通過空間注意力權(quán)重對特征圖F'的每個元素加權(quán)得到最終的特征圖F″。
通道注意力模塊通過全局最大池化(Max-Pool)和全局平均池化(AvgPool)獲得每個通道上特征的最大值與平均值,并將兩者的差異作為該通道的整體響應(yīng)程度且不使用CBAM 中的1×1 二維卷積操作,而是采用計算量和參數(shù)量更小的一維卷積操作,使用兩個核大小為3 的一維卷積來捕獲局部跨通道交互信息,最后使用Sigmoid 函數(shù)得到歸一化的通道注意力權(quán)重。這一過程可用公式表示為:
其 中:σ代 表Sigmoid 函 數(shù),ReLU 表示修正線性單元,W1和W2表示k=3 的 一維卷積 核。
空間注意力模塊將其輸入特征圖F'上的每個特征值與其所在通道的特征均值之間的差值作為各個通道中各自的特征強(qiáng)度分布,通過sigmoid 函數(shù)后,對每個通道進(jìn)行深度可分離卷積[17]進(jìn)一步提取空間特征,從而得到各個通道上不同的空間注意力權(quán)重。這一過程可用公式表示為:
Luo[18]等人的研究發(fā)現(xiàn),輸出特征圖上的每個位置在輸入圖像上存在有效感受野,有效感受野內(nèi)不同位置的像素對輸出特征圖上的響應(yīng)強(qiáng)度呈高斯分布,距離中心位置更近的像素對輸出特征有更強(qiáng)的影響。
基于以上研究,考慮到人體關(guān)鍵點具有空間分布多樣性的特點,其與特征圖上對應(yīng)像素點之間距離的不同,關(guān)鍵點坐標(biāo)的回歸難度也不同。因此,為了提升特征圖上的像素對遠(yuǎn)離它的人體關(guān)鍵點的回歸質(zhì)量,在計算人體關(guān)鍵點回歸損失時,本文提出一種基于距離自適應(yīng)的加權(quán)策略,可表示為:
其中:distsoft(n)代表第n個人體關(guān)鍵點與特征圖上對應(yīng)的a點間的歐式距離,distsoft(n)代表歸一化后的歐氏距離。
在計算人體關(guān)鍵點的回歸損失和概率損失時,對遠(yuǎn)離當(dāng)前像素點的人體關(guān)鍵點分配更高權(quán)重,提高其對輸出特征的響應(yīng)程度。模型訓(xùn)練過程中的關(guān)鍵點回歸損失函數(shù)和概率損失函數(shù)計算公式如式(11)和式(12)所示:
其中,每個待回歸人體關(guān)鍵點都對應(yīng)一個權(quán)重,其他參數(shù)含義與公式(1)相同,并且總損失的類別與公式(2)相同,分為人體目標(biāo)檢測損失和人體關(guān)鍵點回歸損失。
本文基于上述兩種策略改進(jìn)YOLO-Pose 算法,將LCSA-Net 插入到Y(jié)OLO-Pose 主干網(wǎng)絡(luò)的淺層特征提取層以及特征金字塔之間,提升主干網(wǎng)絡(luò)對人體目標(biāo)的特征提取能力,使特征提取網(wǎng)絡(luò)更加專注于人體姿態(tài)的變化,可稱之為LCSAYOLO-Pose 人體姿態(tài)估計算法,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。
圖3 LCSA-YOLO-Pose 網(wǎng)絡(luò)結(jié)構(gòu)Fig. 3 Network structure of LCSA-YOLO-Pose
LCSA-YOLO-Pose 分 為Backbone、Neck 和Head 3 個部分。Backbone 即主干網(wǎng)絡(luò)部分,使用Focus、LCSA-Net、SPP 等模塊提升主干網(wǎng)絡(luò)的特征提取性能;Neck 即特征增強(qiáng)部分,采用PAN 結(jié)構(gòu)實現(xiàn)自頂向下和自底向上雙向多尺度特征融合,通過融合較低層特征信息和較高層特征信息,獲得更豐富的語義信息;Head 即預(yù)測部分,由目標(biāo)檢測頭和人體關(guān)鍵點檢測頭組成,兩檢測頭具有相同的分辨率。在目標(biāo)檢測頭輸出的特征圖上,每個位置預(yù)測的人體目標(biāo)與人體關(guān)鍵點檢測頭每個位置預(yù)測的人體姿態(tài)一一對應(yīng)。在算法的后處理部分,先對目標(biāo)檢測頭輸出的特征圖進(jìn)行處理,采用非極大值抑制(NMS)的方式得到最終檢測到的人體目標(biāo)。獲取人體目標(biāo)在特征圖上的位置后,在人體關(guān)鍵點特征圖中的相同位置獲取對應(yīng)人體目標(biāo)的人體關(guān)鍵點。
在訓(xùn)練LCSA-YOLO-Pose 模型的過程中,采用DAW 策略對關(guān)鍵點回歸損失和概率損失函數(shù)進(jìn)行加權(quán)。
本文實驗平臺處理器為Intel(R) Xeon(R)Gold 5218 CPU @ 2.30 GHz,RAM 容量為64 GB;GPU 使用GeForce RTX 3090,顯存容量為24 GB;操作系統(tǒng)為Ubuntu20.4,Python 版本為3.8.12并使用Pytorch 1.10.0 機(jī)器學(xué)習(xí)架構(gòu)。
實驗訓(xùn)練集和驗證集都使用MS COCO2017人體姿態(tài)數(shù)據(jù)集,其中訓(xùn)練集圖像數(shù)目為56 599張,驗證集圖像數(shù)目為2 346 張。
由于本文算法中人體目標(biāo)框和人體關(guān)鍵點是分別預(yù)測的,但人體關(guān)鍵點的篩選卻是由檢測到的人體目標(biāo)框決定的,因此,只有先準(zhǔn)確檢測出人體目標(biāo)框才能通過Kpt-Out 和Box-Out 兩種特征圖的位置對應(yīng)關(guān)系確定對應(yīng)人體的關(guān)鍵點。
為了驗證LCSA-Net 對人體目標(biāo)檢測的有效性,將LCSA-Net和對比方法CBAM 分別添加于輕量級模型YOLOv3-tiny 和YOLOv5s 中的相同位置,并比較添加前后對人體目標(biāo)檢測的效果。選擇COCO2017人體姿態(tài)數(shù)據(jù)集中的人體目標(biāo)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)和驗證數(shù)據(jù)。模型使用RTX3090推理,batch size 設(shè)置為32,推理速度用每張圖像的平均推理時間表示。實驗結(jié)果如表1 所示。
表1 輕量級人體目標(biāo)檢測算法性能對比Tab.1 Performance comparison of lightweight human object detection algorithms
結(jié)果表明,LCSA-Net 和CBAM 能在幾乎保持模型參數(shù)量(Model Size)、計算量(FLOPs)和推理時間(Speed)不變的情況下,提升YOLOv3-tiny 和YOLOv5s 模型的人體目標(biāo)檢測性能。相比于CBAM,LCSA-Net 整體上實現(xiàn)了更大的性能提升,從而驗證了LCSA-Net 對人體目標(biāo)檢測的有效性。
為了驗證LCSA-Net 在基于熱力圖回歸的人體姿態(tài)估計方法中的有效性,本文選擇了自底向上方法中具有性能優(yōu)勢的HigherHRNet 高分辨率人體姿態(tài)估計網(wǎng)絡(luò)作為對比模型。Higher HRNet 模 型 的Backbone 選 用HRNet-w32,模 型輸入尺寸為512×512,通過凍結(jié)stage4 之前的網(wǎng)絡(luò)并加載該凍結(jié)部分的預(yù)訓(xùn)練權(quán)重,重新訓(xùn)練stage4 以及之后的模型權(quán)重。作為對比,使用LCSA-Net 替換stage4 的部分卷積模塊。在訓(xùn)練過程中,batch size 設(shè)為24,epoch 設(shè) 為200,實驗結(jié)果如表2 所示。
表2 LCSA-Net 用于HigherHRNet 模型的性能對比Tab.2 Performance comparison of LCSA-Net used for HigherHRNet model
可見,使用LCSA-Net改進(jìn)后的HigherHRNet模 型 的mAP 提 升0.4%,mAP50 和mAP75 也 分別提升0.1%和0.2%,中等尺度的人體姿態(tài)估計的APM提升0.7%,大尺度的人體姿態(tài)估計的APL提升0.3%。由于HigherHRNet 本身即是具有性能優(yōu)勢的人體姿態(tài)估計算法,LCSA-Net 的加入能進(jìn)一步提升其性能,進(jìn)一步驗證了該注意力網(wǎng)絡(luò)有助于增強(qiáng)對人體特征的提取能力,對人體關(guān)鍵點回歸任務(wù)具有促進(jìn)作用。
為驗證本文算法對當(dāng)前流行的YOLO-Pose算法的改進(jìn)效果,以YOLOv5s6-Pose 中最輕量的ti-lite 模型為基準(zhǔn)進(jìn)行比較。輸入圖像尺寸為640×640,非極大值抑制閾值設(shè)置為0.6,所有模型運用相同的訓(xùn)練策略和數(shù)據(jù)增強(qiáng)方法。具體設(shè)置為:采用MS COCO2017 數(shù)據(jù)集,模型訓(xùn)練過程優(yōu)化器使用SGD(Stochastic Gradient Descent)算法,初始學(xué)習(xí)率為0.01,動量為0.937。epoch設(shè)置為300,在warm-up 階段每次采用一維線性插值方法更新學(xué)習(xí)率,采用周期為600 的余弦退火算法更新學(xué)習(xí)率;batch size 設(shè)置為64,使用了Mosaic、隨機(jī)水平翻轉(zhuǎn)、HSV 色域增強(qiáng)、隨機(jī)旋轉(zhuǎn)和平移變換等數(shù)據(jù)增強(qiáng)方法。
通過在MS COCO2017 驗證集上進(jìn)行消融實驗,驗證本文提出的改進(jìn)策略的有效性。實驗結(jié)果數(shù)據(jù)如表3 所示。
表3 不同改進(jìn)策略下的YOLO-Pose 模型性能對比Tab.3 Performance comparison of YOLO-Pose models under different improved strategies
由表3 可見,本文提出的注意力網(wǎng)絡(luò)LCSANet 和基于距離的自適應(yīng)加權(quán)策略都對模型性能提升具有積極作用。相比于基準(zhǔn)模型,使用LCSA-Net 改 進(jìn)后的mAP 提升1.7%,AP50 提 升0.5%,AR 提升1.5%,進(jìn)一步驗證了這種改進(jìn)策略的有效性。在人體關(guān)鍵點回歸網(wǎng)絡(luò)的中間特征圖上,每個通道特征的分布是不同且多樣的,插入LCSA-Net 模塊加強(qiáng)了各個通道的特征分布,進(jìn)而提升了人體目標(biāo)和人體關(guān)鍵點檢測的性能。在模型訓(xùn)練階段使用DAW 策略對損失函數(shù)進(jìn)行自適應(yīng)加權(quán),相比于基準(zhǔn)模型,mAP 提升0.9%,AP50 提升0.7%,AR 提升0.8%,說明通過對遠(yuǎn)離當(dāng)前位置的關(guān)鍵點賦以更高的權(quán)重有效改善了模型對這類關(guān)鍵點的回歸質(zhì)量。最終,同時使用LCSA-Net 和DAW 兩種策略,在基準(zhǔn)模型的基礎(chǔ)上實現(xiàn)了2%的mAP 提升,1.5%的AP50提升和1.7%的AR 提升,顯著提升了人體姿態(tài)估計性能。
YOLO-Pose 算法出現(xiàn)的誤檢和漏檢結(jié)果以及改進(jìn)后的算法對應(yīng)的檢測結(jié)果如圖4 所示。
圖4 原YOLO-Pose 算法與本文算法的人體姿態(tài)估計效果對比Fig.4 Effect comparison of the original YOLO-Pose algorithm and the proposed algorithm for human pose estimation
圖4(a)中 第1 行的3 幅 圖 像 展示了原YOLO-Pose 算法存在的誤檢問題,如將馬腿或車體部位錯誤地檢測為人體;第2 行的3 幅圖像展示了原YOLO-Pose 算法存在的漏檢問題,如沒有檢測到小尺度人體目標(biāo)和被遮擋的人體目標(biāo)。
與圖4(a)中相對應(yīng),圖4(b)展示了改進(jìn)后的算法LCSA-YOLO-Pose 進(jìn)行人體姿態(tài)估計的結(jié)果。可見,改進(jìn)后的算法未將馬腿和車體部位誤判,并且在小目標(biāo)人體及出現(xiàn)相互遮擋的情況下,模型同樣得到了正確的結(jié)果,有效緩解了原模型出現(xiàn)的誤檢和漏檢問題,提升了原模型的性能。
人體姿態(tài)非剛性和人體關(guān)鍵點分布多樣性的特點給人體姿態(tài)估計算法帶來了挑戰(zhàn)。YOLOPose 算法吸收了先進(jìn)目標(biāo)檢測算法的優(yōu)點并獲得了較高的精度和速度,然而仍然存在漏檢和誤檢現(xiàn)象。其不足之處主要表現(xiàn)在:一是輕量級模型對人體目標(biāo)的檢測精度相對較低,漏檢和誤檢的人體目標(biāo)框?qū)?dǎo)致與之匹配的人體關(guān)鍵點發(fā)生漏檢與誤檢;二是模型對人體關(guān)鍵點的坐標(biāo)回歸精度較低,這可能導(dǎo)致預(yù)測錯誤的人體姿態(tài)信息。針對第一點不足,本文提出了一種輕量級通道和空間注意力網(wǎng)絡(luò)LCSA-Net 進(jìn)行改進(jìn),通過提高輕量模型對人體特征的提取能力使模型盡可能提取更多的空間特征,提升模型對人體目標(biāo)的檢測精度,降低人體目標(biāo)的誤檢和漏檢概率,并且該注意力網(wǎng)絡(luò)同樣提升了人體關(guān)鍵點的回歸質(zhì)量。針對第二點不足,在模型的訓(xùn)練過程中,考慮到不同位置的特征點存在有效的感受野,為了提升模型對遠(yuǎn)離回歸中心位置的關(guān)鍵點坐標(biāo)的回歸能力,本文又提出了一種基于距離自適應(yīng)的加權(quán)策略,用于計算人體關(guān)鍵點的坐標(biāo)回歸損失,有效增強(qiáng)了模型對關(guān)鍵點坐標(biāo)的回歸能力。結(jié)合這兩種改進(jìn)策略,改進(jìn)后的算法顯著提升了基準(zhǔn)模型的人體姿態(tài)估計性能。在計算機(jī)視覺任務(wù)中,將物理模型和深度相結(jié)合[19]是一種新的研究趨勢,下一步可考慮將人體生理結(jié)構(gòu)的相關(guān)先驗知識引入到深度學(xué)習(xí)算法中,進(jìn)一步提升人體姿態(tài)估計算法的性能。