方勇 朱志林
摘 要 針對人體姿態(tài)變化會引起特征點(diǎn)回歸不準(zhǔn)確的問題,提出一種基于深度先驗(yàn)知識的堆疊沙漏網(wǎng)絡(luò)人體姿態(tài)檢測方法。對人體區(qū)域的關(guān)鍵點(diǎn)擬合采用四階沙漏網(wǎng)絡(luò)的方式,考慮人體姿態(tài)變化引起的特征點(diǎn)損失權(quán)值不同以及人體特征點(diǎn)之間的空間深度位置關(guān)系,在熱力圖loss函數(shù)中加入深度偏移作為loss函數(shù)的權(quán)值系數(shù),提高特征點(diǎn)擬合速度與精確度。在目前的人體姿態(tài)數(shù)據(jù)集中訓(xùn)練測試,驗(yàn)證了算法的魯棒性。
關(guān)鍵詞 卷積神經(jīng)網(wǎng)絡(luò);姿態(tài)檢測;深度信息;沙漏模型;損失函數(shù)
引言
人體姿態(tài)估計(jì)任務(wù)具體而言是從單張RGB圖像或深度圖中,精確識別人體位置以及定位骨架的稀疏關(guān)鍵點(diǎn)。與傳統(tǒng)求解方法[4]不同的是,深度學(xué)習(xí)時(shí)代,姿態(tài)估計(jì)的求解方式已由特征表達(dá)和關(guān)鍵點(diǎn)空間位置求解的獨(dú)立任務(wù)轉(zhuǎn)化成端到端的求解方法,這種方法將特征提取、分類和位置關(guān)系求解直接用神經(jīng)網(wǎng)絡(luò)建模,更加方便設(shè)計(jì)與優(yōu)化。針對場景復(fù)雜程度的不同,求解任務(wù)分為單人姿態(tài)和多人姿態(tài)估計(jì),多人姿態(tài)估計(jì)的實(shí)質(zhì)是單人姿態(tài)估計(jì)和人體檢測兩階段方法的結(jié)合,按照結(jié)合順序的不同又劃分為自頂向下和自下向上的不同求解方法。
近年來,基于這些方法實(shí)現(xiàn)多人姿態(tài)檢測的文章[1-3]層出不窮,并且取得不錯的進(jìn)展與實(shí)驗(yàn)效果。為了得到更好的實(shí)驗(yàn)結(jié)果,有學(xué)者從深度圖的角度[5-6]出發(fā)對此類問題開展研究,這種方法很大程度克服光照和色彩的變化,但相較RGB圖像信息缺失嚴(yán)重,還有學(xué)者從關(guān)節(jié)部件位置關(guān)系對檢測準(zhǔn)確性做優(yōu)化[7-8],此類方法雖有效提高最終實(shí)驗(yàn)結(jié)果卻增加計(jì)算負(fù)擔(dān)。
為此本文提出一種利用深度值矯正RGB圖像姿態(tài)估計(jì)結(jié)果的一種方法,在熱力圖與特征點(diǎn)回歸loss函數(shù)中加入深度偏移作為loss函數(shù)的權(quán)值系數(shù),提高特征點(diǎn)擬合速度與精確度,保證計(jì)算效率的同時(shí)同樣有優(yōu)秀的實(shí)驗(yàn)結(jié)果。
1 網(wǎng)絡(luò)模型
1.1 總體網(wǎng)絡(luò)
如圖1所示,所使用的深度學(xué)習(xí)模型可以分為3部分,圖像初始化部分,點(diǎn)熱力圖回歸模塊,坐標(biāo)點(diǎn)預(yù)測模塊。初始化部分指對原始數(shù)據(jù)經(jīng)過卷積、殘差模塊與池化下采樣后的,初步獲得圖像特征作為沙漏模型的輸入。使用四段堆疊沙漏網(wǎng)絡(luò),在每段網(wǎng)絡(luò)輸出中通過1x1的卷積得到對應(yīng)特征點(diǎn)的熱力圖。熱力圖反映出特征點(diǎn)在圖像中位置的概率分布,通過閾值分割找出最大概率位置,與當(dāng)前沙漏網(wǎng)絡(luò)另一分支的featuremap相加,作為下一個(gè)網(wǎng)絡(luò)的輸入,下一個(gè)網(wǎng)絡(luò)可根據(jù)上一網(wǎng)絡(luò)的熱力圖得到特征點(diǎn)之間的位置分布關(guān)系。坐標(biāo)點(diǎn)預(yù)測模塊為四段沙漏網(wǎng)絡(luò)的輸出,得到最終的特征點(diǎn)的坐標(biāo)位置。添加深度監(jiān)督信息,將預(yù)測特征點(diǎn)的深度值計(jì)算與真實(shí)值的偏差程度作為特征點(diǎn)的權(quán)值系數(shù),對不同點(diǎn)的loss做權(quán)值區(qū)分,將每個(gè)特征點(diǎn)都可以擬合的更準(zhǔn)確。
1.2 熱力圖回歸
對每段的沙漏網(wǎng)絡(luò)模型輸出兩個(gè)分支,包括熱力圖與提取的特征圖,熱力圖反映出圖像中真實(shí)特征點(diǎn)的分布概率,距離特征點(diǎn)越近的位置,熱力圖中的像素值就越大。熱力圖的分布公式如下:
式中,表示HeatMap中坐標(biāo)(x,y)的像素值,()表示特征點(diǎn)坐標(biāo),越靠近特征點(diǎn),值越大。表現(xiàn)為以特征點(diǎn)x,y位置為中心點(diǎn)的高斯分布。
通過將熱力圖與featureMap結(jié)合可以加入特征點(diǎn)空間位置關(guān)系特征,更好地回歸特征點(diǎn),但遇到姿態(tài)旋轉(zhuǎn)較大或部分特征點(diǎn)遮擋的情況會導(dǎo)致特征點(diǎn)回歸的偏移,所以加入深度信息作為熱力圖中繼監(jiān)督的權(quán)值系數(shù)可以有效改善這部分問題,提高特征點(diǎn)熱力圖回歸的魯棒性。
1.3 損失函數(shù)
沙漏模型采用中間監(jiān)督的方式擬合特征點(diǎn),表現(xiàn)為在模型中輸出特征點(diǎn)的熱力圖,并對熱力圖做出閾值分割。計(jì)算熱力圖中的特征點(diǎn)的最大似然位置與真實(shí)值的均方誤差作為損失函數(shù)。
式中,,表示特征點(diǎn)的x,y預(yù)測值與真實(shí)值,為每個(gè)特征點(diǎn)的權(quán)值系數(shù),考慮每個(gè)特征點(diǎn)因?yàn)樽藨B(tài)變化,遮擋等影響,會導(dǎo)致每個(gè)點(diǎn)的權(quán)值損失不一致,考慮加入深度偏移作為權(quán)值系數(shù),使損失函數(shù)能夠更準(zhǔn)確地將偏移大的特征點(diǎn)進(jìn)行權(quán)值更新。表示第i點(diǎn)的位置深度值與深度真實(shí)值的差值,表示所有m個(gè)點(diǎn)的深度差值的和。
對于模型輸出的特征點(diǎn)位置,計(jì)算與真實(shí)值的均方誤差作為損失函數(shù)。考慮深度的偏移影響,將位置點(diǎn)坐標(biāo)為(x,y,z),將深度值加入損失函數(shù)。損失函數(shù):
式中,,表示特征點(diǎn)的x,y,z的預(yù)測值與真實(shí)值。對x,y的loss值計(jì)算使加上,加入深度偏移作為權(quán)值系數(shù),使損失函數(shù)能夠更準(zhǔn)確地將偏移大的特征點(diǎn)進(jìn)行權(quán)值更新。將公式2與公式4相加作為總的loss函數(shù),對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
2 實(shí)驗(yàn)結(jié)果與分析
選用包括RGB與深度圖的數(shù)據(jù)集作為訓(xùn)練集與驗(yàn)證集,挑選姿態(tài)變換多,或有部分遮擋的目標(biāo)作為測試集的主要情況。將RGB與深度圖作為模型的輸入,在改進(jìn)的堆疊沙漏模型中進(jìn)行訓(xùn)練,并與原始的沙漏模型進(jìn)行比較。采用頭部長度為歸一化參考,計(jì)算檢測關(guān)鍵點(diǎn)與對應(yīng)ground truth間歸一化距離小于設(shè)定閾值的比例作為準(zhǔn)確性的評估依據(jù)。在包括深度監(jiān)督信息的測試集中,將本文改進(jìn)算法與hourglass做比較,定性與定量結(jié)果分析如下。
2.1 定性分析
(a)hourglassNet
(b)本文算法
在測試集中發(fā)現(xiàn)在部分遮擋與姿態(tài)旋轉(zhuǎn)變化較大的情況下,本算法要優(yōu)于原始堆疊沙漏模型。所下圖2所示,有較大姿態(tài)變化時(shí)原有算法會有特征點(diǎn)位置檢測偏移的情況,而改進(jìn)后的算法引入深度值的權(quán)值系數(shù),可以更好地校正識別的位置,使識別的位置更準(zhǔn)確。在人體側(cè)身或彎腰的情況下,可以發(fā)現(xiàn)堆疊沙漏模型有檢測特征點(diǎn)偏差的情況,當(dāng)完全遮擋的特征點(diǎn)情況,特征點(diǎn)回歸位置偏移較大,而本文算法引入深度監(jiān)督信息,可以將這部分特征點(diǎn)檢測,比較之前有明顯改善。同時(shí),實(shí)驗(yàn)結(jié)果中發(fā)現(xiàn)在手臂與腿部與背景深度差異明顯,且會有較多遮擋情況的時(shí)候,深度信息可以更好地作為中繼監(jiān)督,保證回歸結(jié)果的準(zhǔn)確性。
2.2 定量分析
將改進(jìn)前后的兩種算法在同樣的測試集中做人體特征點(diǎn)檢測,兩種算法檢測的特征點(diǎn)的位置與真實(shí)值求距離,以頭部長度為歸一化參考,比較兩個(gè)算法PCKh值。比較的結(jié)果如下表所示。根據(jù)測試集中的PCKh的值可以證明本文比原算法在檢測準(zhǔn)確度上有提高,在人體姿態(tài)復(fù)雜或部分遮擋的情況下有改進(jìn)。
綜合以上定性與定量分析結(jié)果,表明了在原有算法的改進(jìn)提升了檢測準(zhǔn)確性。定性分析可以得出在復(fù)雜姿態(tài)中檢測位置上的誤差偏移,在部分遮擋或旋轉(zhuǎn)變化時(shí)算法效果有優(yōu)化。定量分析表明在以部分遮擋或旋轉(zhuǎn)變化等情況下的測試集中,PCKh的值比之前算法要高,說明了在測試集中算法準(zhǔn)確性的提升。
3 結(jié)束語
本文提出了一種改進(jìn)沙漏網(wǎng)絡(luò)的人體姿態(tài)識別算法,通過改進(jìn)沙漏網(wǎng)絡(luò)中的loss函數(shù),引進(jìn)深度偏移權(quán)重,將深度位置關(guān)系結(jié)合到訓(xùn)練loss函數(shù)中,在姿態(tài)旋轉(zhuǎn)或部分遮擋的情況下實(shí)現(xiàn)更好的識別準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明本文算法在改進(jìn)后對于人體姿態(tài)的識別準(zhǔn)確性更高,識別的魯棒性更好。但本文算法在以下方面存在不足:當(dāng)人體出現(xiàn)部分特征點(diǎn)出鏡或大部分遮擋情況下,識別的準(zhǔn)確性會有下降,同時(shí)在算法實(shí)時(shí)性也有不足。在之后的工作中還需要對這些情況做出優(yōu)化改進(jìn)。
參考文獻(xiàn)
[1] Wei S E,Ramakrishna V,Kanade T,et al. Convolutional pose machines[C].Proceedings of the IEEE conference on Computer Vision and Pattern Recognition,2016:4724-4732.
[2] Newell A,Yang K,Deng J. Stacked hourglass networks for human pose estimation[C].European conference on computer vision. Springer,Cham,2016:483-499.
[3] 許忠雄,張睿哲,石曉軍,等.深度學(xué)習(xí)實(shí)時(shí)多人姿態(tài)估計(jì)與跟蹤[J]. 中國電子科學(xué)研究院學(xué)報(bào),2018,13(4):491-496.
[4] Urtasun R,Darrell T. Sparse probabilistic regression for activity-independent human pose inference[C].2008 IEEE Conference on Computer Vision and Pattern Recognition. IEEE,2008:1-8.
[5] 賈文浩.基于深度圖像的人體姿態(tài)估計(jì)及相似性度量[D].北京:北京工業(yè)大學(xué),2018.
[6] 徐岳峰,周書仁,王剛,等. 基于深度圖像梯度特征的人體姿態(tài)估計(jì)[J]. 計(jì)算機(jī)工程,2015,458(12):206-211.
[7] 馮健穎.基于卷積神經(jīng)網(wǎng)絡(luò)的人體姿態(tài)估計(jì)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2018.
[8] 謝子威. 基于深度學(xué)習(xí)的3D人體姿態(tài)估計(jì)研究[D].北京:北京郵電大學(xué),2019.