侯珊珊 尹揚帆 梁聰
摘要:人體姿態(tài)估計是計算機(jī)中的一個重要而熱門的研究課題,該文使用卷積神經(jīng)網(wǎng)絡(luò)算法對RGB圖像進(jìn)行人體姿態(tài)估計的研究?;诟倪M(jìn)的殘差結(jié)構(gòu),應(yīng)用層疊沙漏網(wǎng)絡(luò)對RGB圖像進(jìn)行精確的關(guān)節(jié)位置預(yù)測,通過二維的關(guān)節(jié)點信息估計人體姿態(tài)狀況。本文重點研究了利用RGB圖像恢復(fù)二維人體姿態(tài)的挑戰(zhàn)性設(shè)置,提出了一種在多個公共數(shù)據(jù)集上從RGB圖像中進(jìn)行二維人體姿態(tài)估計的有效方法。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);人體姿態(tài)估計;RGB圖像
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)08-0135-02
從圖像測量推斷人體姿態(tài)恢復(fù)是計算機(jī)視覺中的經(jīng)典任務(wù)。這種技術(shù)在各種任務(wù)中具有直接的應(yīng)用,例如動作理解[1]、監(jiān)視、人機(jī)交互[2]和運動字幕等。然而,由于關(guān)節(jié)遮擋、背景雜亂、光照以及人體的動態(tài)變化,人體姿態(tài)估計是一項具有挑戰(zhàn)性的任務(wù)。各種膚色和衣服也使得估計困難。近年來,利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)[3-5]實現(xiàn)了人體姿態(tài)估計的最新性能?;赗GB圖像的人體姿態(tài)估計在CNN中取得了很大的成功。強大的表現(xiàn)力和解開潛在變異因素的能力是CNN的特征,這些特征使得能夠自動學(xué)習(xí)判別特征,并顯示出自動學(xué)習(xí)特征的優(yōu)越性能[6]。
1 卷積神經(jīng)網(wǎng)絡(luò)的概述
在機(jī)器學(xué)習(xí)中,卷積神經(jīng)網(wǎng)絡(luò)是一種深度前饋人工神經(jīng)網(wǎng)絡(luò),已成功地應(yīng)用于圖像識別。卷積神經(jīng)網(wǎng)絡(luò)模型由輸入層、卷積層、采樣層以及全連接層和輸出層構(gòu)成。通常狀況下會取若干交替設(shè)置的卷積層和池化層,每個卷積層連接一個池化層,每個池化層后也連接一個卷基層。卷積神經(jīng)網(wǎng)絡(luò)的輸入是局部連接的,通過局部輸入和相應(yīng)的連接權(quán)值求和加上偏置值得到該神經(jīng)元的輸入值,這是一個相當(dāng)于卷積的過程,卷積神經(jīng)網(wǎng)絡(luò)也是因此被命名的。
卷積神經(jīng)網(wǎng)絡(luò)的每一個卷積層都包含一定數(shù)量的特征面,與多重神經(jīng)網(wǎng)絡(luò)模型相比,卷積神經(jīng)網(wǎng)絡(luò)模型中通過卷積層的權(quán)值共享可以減少訓(xùn)練參數(shù),降低了多層神經(jīng)網(wǎng)絡(luò)的復(fù)雜程度,降低了出現(xiàn)過擬合的可能性,因此,能夠獲得一個擁有泛化能力的模型,同時可以通過池化操作大量減少運算中神經(jīng)元的數(shù)量,網(wǎng)絡(luò)模型的魯棒性也得到了加強,能夠處理更為復(fù)雜的分類問題。此外,由于卷積神經(jīng)網(wǎng)絡(luò)模型比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型多了局部連接、權(quán)值共享以及降低模型復(fù)雜度的池化操作,使得網(wǎng)絡(luò)模型更容易訓(xùn)練,所以卷積神經(jīng)網(wǎng)絡(luò)擁有比傳統(tǒng)多層神經(jīng)網(wǎng)絡(luò)更加出色的性能,更適合于處理復(fù)雜問題。
2 算法分析
2.1算法及過程分析
首先,利用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造坐標(biāo)預(yù)測的網(wǎng)絡(luò)框架[3]進(jìn)行特征提取,并為關(guān)節(jié)位置生成小的熱圖(heatmaps),然后從特征和小的熱圖中使用IK(反向動力學(xué))推斷出人體的姿態(tài)。
近年來,許多現(xiàn)有的2D關(guān)節(jié)點回歸技術(shù),如DeepPose[3]、CPM[5]和HG-Stacked網(wǎng)絡(luò)等都能夠從彩色圖像中獲得一定的成功。CPM[5]和HG疊加網(wǎng)絡(luò)[6]是近年來在RGB圖像上進(jìn)行2D人體姿態(tài)估計的典型網(wǎng)絡(luò)。CPM是位姿機(jī)框架的一種改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)。該結(jié)構(gòu)利用快捷結(jié)構(gòu)和級聯(lián)回歸來學(xué)習(xí)長距離空間相關(guān)性,并改進(jìn)二維聯(lián)合點預(yù)測。HG-Stacked網(wǎng)絡(luò)[6]設(shè)計的剩余模塊,并在通過每個沙漏之后生成預(yù)測,其中網(wǎng)絡(luò)有機(jī)會在本地和全局上下文中處理特征。我們使用分層、并行和多尺度殘差模塊,這種結(jié)構(gòu)類似于其他姿態(tài)估計方法,該方法在多個迭代階段和中間監(jiān)督下表現(xiàn)出了較強的性能。
2.2實驗過程及分析
我們假設(shè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一個非線性函數(shù),返回N2D個熱圖,其中N是關(guān)節(jié)的數(shù)目。在本文中,不使用大于3x3的濾波器,并且在我們的網(wǎng)絡(luò)中使用的模塊如圖1(b)所示。提出的分層并行多尺度結(jié)構(gòu)通過增加接收場大小,增強了網(wǎng)絡(luò)捕獲信息的能力,提高了地標(biāo)定位預(yù)測的精度。
圖1:(a)原始瓶頸層,(b)提出的分層并行多尺度結(jié)構(gòu):我們的塊增加了接收場大小,改進(jìn)了梯度流,在每個3x3卷積之前的BN層和Relu層。注意:一個層被描繪成一個矩形塊,包含:它的過濾器大小,輸入和輸出通道的數(shù)量;“C”表示連接和“+”一個元素式的和。
在256x256的完全輸入分辨率下操作需要大量的GPU存儲器,因此沙漏的最高分辨率(最終輸出分辨率)是64x64。整個網(wǎng)絡(luò)從7x7卷積層開始,步長為2,接著是剩余模塊和最大池循環(huán),以便將分辨率從256降低到64。剩余模塊是HG-Stacked網(wǎng)絡(luò)的主要組成部分,HG-Stacked網(wǎng)絡(luò)是最新的用于地標(biāo)定位的體系結(jié)構(gòu),它以完全卷積的方式預(yù)測一組熱圖。剩余模塊的設(shè)計是由于需要在每一個尺度上捕獲信息。我們模型的條件下的二維姿態(tài)給定的圖像作為結(jié)果。
實驗對于人體姿態(tài)估計有各種各樣的基準(zhǔn)。在本文中,為了驗證我們的方法,我們在兩個著名的公共姿態(tài)估計或動作識別基準(zhǔn)上評估所提出的方法:MPII;Human3.6M。
2.3數(shù)據(jù)集集合
MPII數(shù)據(jù)集是一個大規(guī)模的野外人體姿態(tài)數(shù)據(jù)集,由大約25k張訓(xùn)練圖像和2957張驗證圖像組成,帶有注釋,供多人使用。40K注釋樣本。這些圖像是從網(wǎng)上采集的。我們使用25k訓(xùn)練圖像訓(xùn)練基于網(wǎng)絡(luò)的二維姿態(tài)估計模型,并用2957圖像驗證精度。
Human3.6M數(shù)據(jù)集被用作二維姿態(tài)估計的測試集。這個數(shù)據(jù)集包含3.6百萬RGB圖像。為了使數(shù)據(jù)更加精確,我們對同一位置的多次測量得到的物體的高度和寬度進(jìn)行平均。從該數(shù)據(jù)集的2874幅圖像驗證我們的訓(xùn)練二維姿態(tài)回歸模型的準(zhǔn)確性。
2.4實現(xiàn)細(xì)節(jié)
在給定的輸入圖像中通常存在多個可見的人,但是沒有圖形模型或后處理步驟,圖像必須傳達(dá)網(wǎng)絡(luò)確定哪個人值得注釋的所有必要信息。我們通過訓(xùn)練網(wǎng)絡(luò)來專門對直接中心的人進(jìn)行注釋。對于每個樣本,尺度和中心注釋被用來裁剪圍繞目標(biāo)人的圖像。然后將所有輸入圖像調(diào)整為256x256像素。在測試階段,圖像在中心附近進(jìn)行裁剪,調(diào)整大小為256x256像素,作為網(wǎng)絡(luò)的輸入,并基于二維姿態(tài)估計模型預(yù)測地標(biāo)定位。然后利用預(yù)測來計算原始圖像的關(guān)節(jié)定位。
使用Trink7對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。沙漏組件是基于[6]中的公共代碼。并用提出的分層并行多尺度結(jié)構(gòu)代替原點殘差塊。為了快速訓(xùn)練,我們使用了一個淺層的堆積沙漏,即每一個沙漏有2個堆棧,2個剩余模塊[6 ]。網(wǎng)絡(luò)的最終預(yù)測是給定關(guān)節(jié)的熱映射的最大激活位置。
2.5二維姿態(tài)估計
(a)MPII結(jié)果(PCKh@ 0.5)(b)Human3.6M結(jié)果(PCKh@ 0.5)
我們使用標(biāo)準(zhǔn)度量PCKh@0.5來評估2D姿態(tài)估計的精度。其結(jié)果可以在圖2中看到,圖2顯示了隨著訓(xùn)練的進(jìn)展,驗證圖像的平均準(zhǔn)確度,圖3分別顯示了MPII和Human3.6M測試圖像的平均準(zhǔn)確度。表明我們提出的網(wǎng)絡(luò)具有很強的學(xué)習(xí)能力,能夠得到較高的估計精度。
3 結(jié)論
介紹了一種基于RGB圖像的利用卷積神經(jīng)網(wǎng)絡(luò)算法進(jìn)行人體姿態(tài)估計的方法。首先,我們提出了一種分層的并行多尺度殘差結(jié)構(gòu),以提高二維姿態(tài)預(yù)測的精度。然后,根據(jù)獲得的2D關(guān)節(jié)位置,估計人體具體姿態(tài)。在不同的人體姿態(tài)數(shù)據(jù)集下的估計實驗證明了本文的人體姿態(tài)估計方法具有很好的魯棒性,對基于RGB圖像的人體姿態(tài)估計能夠得到較好的效果
參考文獻(xiàn):
[1] 朱煜, 趙江坤, 王逸寧, 等.基于深度學(xué)習(xí)的人體行為識別算法綜述[J]. 自動化學(xué)報. 2016,42(6):848?857.
[2] ShottonJ,Girshick R, Fitzgibbon A, et al. Efficient human pose estimation from single depthimages. In Proceedings of IEEE Transactions on Pattern Analysis and Machine Intelligence[M]. IEEE Computer Society Press, 2013:2821–2840.
[3] Toshev A, Szegedy C. DeepPose: Human pose estimation via deep neural networks. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition[J]. IEEE Computer SocietyPress, 2014:1653-1660.
[4] Cao, Z., Simon, T., Wei, S. E., et al. Realtime Multi- Person 2D Pose Estimation using Part Affinity Fields. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition[M].IEEE Computer Society Press,2016:7291- 7299.
[5] Wei S E, Ramakrishna V, Kanade T, et al. Convolutional pose machines. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition[M]. IEEE Computer Society Press. 2016:4724-4732.
[6] Alejandro, Newell.,kaiyu, Yang., and Jia, Deng. Stacked Hourglass Networks for Human Pose Estimation[M].In ECCV. 2016:483-499.
【通聯(lián)編輯:代影】