任好盼,王文明,危德健,高彥彥,康智慧,王全玉
基于高分辨率網(wǎng)絡(luò)的人體姿態(tài)估計(jì)方法
任好盼,王文明,危德健,高彥彥,康智慧,王全玉
(北京理工大學(xué)計(jì)算機(jī)學(xué)院,北京 100081)
人體姿態(tài)估計(jì)在人機(jī)交互和行為識別應(yīng)用中起著至關(guān)重要的作用,但人體姿態(tài)估計(jì)方法在特征圖尺度變化中難以預(yù)測正確的人體姿態(tài)。為了提高姿態(tài)估計(jì)的準(zhǔn)確性,將并行網(wǎng)絡(luò)多尺度融合方法和生成高質(zhì)量特征圖的方法結(jié)合進(jìn)行人體姿態(tài)估計(jì)(RefinedHRNet)。在人體檢測基礎(chǔ)之上,采用并行網(wǎng)絡(luò)多尺度融合方法在階段內(nèi)采用空洞卷積模塊來擴(kuò)大感受野,以保持上下文信息;在階段之間采用反卷積模塊和上采樣模塊生成高質(zhì)量的特征圖;然后并行子網(wǎng)絡(luò)最高分辨率的特征圖(輸入圖像尺寸的1/4)用于姿態(tài)估計(jì);最后采用目標(biāo)關(guān)鍵點(diǎn)相似度OKS來評價(jià)關(guān)鍵點(diǎn)識別的準(zhǔn)確性。在COCO2017測試集上進(jìn)行實(shí)驗(yàn),該方法比HRNet網(wǎng)絡(luò)模型姿態(tài)估計(jì)的準(zhǔn)確度提高了0.4%。
姿態(tài)估計(jì);多尺度融合;高質(zhì)量特征圖;人體檢測;關(guān)鍵點(diǎn)相似度
人體姿態(tài)估計(jì)就是從圖像或視頻中,提出多個(gè)人體的位置以及骨架上的稀疏關(guān)鍵點(diǎn)位置,其作為人類行為理解的基礎(chǔ),一直是計(jì)算機(jī)視覺領(lǐng)域具有挑戰(zhàn)性的問題,因而備受關(guān)注。準(zhǔn)確的關(guān)鍵點(diǎn)估計(jì)可以用在遠(yuǎn)程控制機(jī)器人進(jìn)行危險(xiǎn)作業(yè)、安保系統(tǒng)中監(jiān)控人員行為、交通中檢測行人動作輔助駕駛、影視業(yè)中不需要專業(yè)的數(shù)據(jù)采集設(shè)備就能采集人體運(yùn)動參數(shù)等。人體姿態(tài)估計(jì)方法大致分為:自底向上(Bottom-Up)和自頂向下(Top-Down)的方法。
自底向上(Bottom-Up)的方法[1-3],首先通過人體關(guān)鍵點(diǎn)的熱圖來定位圖像中所有的人體關(guān)鍵點(diǎn),然后使用組合算法將其組合成不同個(gè)體。該方法只需提取一次有效的人體特征,速度快、實(shí)時(shí)性好,但準(zhǔn)確度偏低。OpenPose[2-4]使用2分支多階段的網(wǎng)絡(luò),分別用于熱圖估計(jì)和關(guān)鍵點(diǎn)組合。其使用關(guān)節(jié)點(diǎn)仿射場(part affinity fields,PAFs),通過計(jì)算2個(gè)關(guān)鍵點(diǎn)之間的線形積分來描述關(guān)鍵點(diǎn)之間的關(guān)聯(lián)度,并與最大的得分進(jìn)行關(guān)鍵點(diǎn)組合。文獻(xiàn)[1]使用部件強(qiáng)度場(part intensity field,PIF)來定位人體關(guān)節(jié)點(diǎn)位置;部件關(guān)聯(lián)場(part association field,PAF)將人體關(guān)節(jié)點(diǎn)連接起來形成人體姿態(tài)??傊?,自底向上的方法可一次性檢測圖像中所有的人體部件,即使人體數(shù)目增加也不會重復(fù)進(jìn)行卷積操作,一般模型小、效率高,但在不同的光照、背景、遮擋等情況下,會出現(xiàn)關(guān)鍵點(diǎn)聚類算法的匹配錯誤。
自頂向下(Top-Down)的方法[5-8]主要是使用單個(gè)人體姿態(tài)檢測器識別人體框之后,再對每個(gè)人體框進(jìn)行關(guān)鍵點(diǎn)檢測。其多次剪裁和調(diào)整邊框,并多次提取有效特征信息,在多種人體姿態(tài)估計(jì)基準(zhǔn)上通常高于自底向上的方法,但實(shí)時(shí)性偏低。文獻(xiàn)[8]中網(wǎng)絡(luò)模型Alphapose首先通過目標(biāo)檢測,得到人體框,然后輸入到STN+SPPE模塊中,自動檢測人體姿態(tài),再使用Pose-NMS得到最終的人體姿態(tài)。其中STN對稱空間變換網(wǎng)絡(luò)能在不準(zhǔn)確的人體邊框中提取人體區(qū)域。Pose-NMS參數(shù)姿態(tài)非最大化抑制能夠解決冗余的人體姿態(tài)。文獻(xiàn)[5]中網(wǎng)絡(luò)模型CPN分為GlobalNet和RefineNet 2個(gè)階段,其中GlobalNet負(fù)責(zé)檢測容易檢測和較難檢測的關(guān)鍵點(diǎn),對于較難檢測的關(guān)鍵點(diǎn),使用網(wǎng)絡(luò)深層的更高層次的語義信息來解決。RefineNet主要解決遮擋、復(fù)雜背景和尺度不適等更難或不可見關(guān)鍵點(diǎn)檢測,使用Hard Negative Mining策略界定關(guān)鍵點(diǎn)難易程度。雖然自頂向下的方法已經(jīng)取得了不錯的效果,但是姿態(tài)估計(jì)的準(zhǔn)確度和實(shí)時(shí)性仍有待提高。
以往自頂向下的方法[5-6,9]主要是使用上采樣和下采樣的方法進(jìn)行多尺度的融合,并且采用特征圖的最高分辨率來預(yù)測關(guān)鍵點(diǎn)的熱圖。文獻(xiàn)[6]中高分辨網(wǎng)絡(luò)(high-resolution net,HRNet)模型的各個(gè)階段采用多尺度的融合,生成高質(zhì)量的熱圖,僅使用最高分辨率的熱圖來進(jìn)行人體姿態(tài)的估計(jì),但是通過上采樣生成的熱圖的質(zhì)量有待提高。文獻(xiàn)[5]中網(wǎng)絡(luò)模型CPN采用上采樣的方法將低分辨率特征圖逐漸融合到高分辨率特征圖中,不斷提高用于估計(jì)人體關(guān)鍵點(diǎn)熱圖的質(zhì)量,但是忽略了并行網(wǎng)絡(luò)多尺度的融合,即不同分辨率的特征圖的融合。為了解決上述問題,本文提出了一種基于HRNet的人體姿態(tài)估計(jì)方法RefinedHRNet。
HRNet在計(jì)算機(jī)視覺領(lǐng)域取得了優(yōu)秀的成績,超越了所有的基于深度學(xué)習(xí)的人體姿態(tài)估計(jì)方法,但是仍然有提升的空間。本文首先分析了該模型,提出特征圖的問題;然后引入本文的RefinedHRNet模型以及并行多尺度融合和生成高質(zhì)量熱圖的方法。
HRNet采用的是逐步增加高分辨率到低分辨率的子網(wǎng)形成更多的階段和多分辨率子網(wǎng)并行連接的方法,并且在整個(gè)過程中保持高分辨率表征,取得較高的準(zhǔn)確度,因此RefinedHRNet采用HRNet作為主干網(wǎng)絡(luò)。
HRNet以高分辨率子網(wǎng)絡(luò)作為第一階段,在隨后的每個(gè)階段中,都會將一個(gè)與當(dāng)前分支最低分辨率的1/2的新分支并行加入到當(dāng)前分支中,逐步添加高分辨率到低分辨率的子網(wǎng),形成新的階段,且并行連接多分辨率子網(wǎng),并自始至終保留先前階段的分辨率,最后階段采用融合后的最高分辨率進(jìn)行姿態(tài)估計(jì)。
雖然HRNet具有較好的準(zhǔn)確度,但是僅僅通過最緊鄰上采樣得到的特征圖質(zhì)量有待提高,因此本文提出了RefinedHRNet模型。
本文采用與HRNet類似的方式實(shí)例化主干網(wǎng)絡(luò),網(wǎng)絡(luò)包含4個(gè)階段,主體為4個(gè)并行的子網(wǎng),其分辨率依次降低一半,相應(yīng)的通道數(shù)目增加一倍。網(wǎng)絡(luò)從主干網(wǎng)絡(luò)開始,由2個(gè)步長為2的3×3的卷積組成,將分辨率降低至輸入圖片的1/4。第1階段包含4個(gè)殘差單元,每個(gè)單元由一個(gè)寬度為64的bottleneck組成,然后是3×3卷積,將特征圖的寬度降低到。第2~4階段分辨包含1,4,3個(gè)多分辨率塊,每個(gè)塊由4個(gè)殘差單元組成,其每個(gè)分辨率中的殘差單元均有2個(gè)3×3卷積,以第4階段為例,分辨率的卷積寬度分別為,2,4,8??偣灿?個(gè)交換單元,需進(jìn)行8次多尺度的融合。圖1為本文提出的RefinedHRNet模型,黃色層疊方塊為特征圖,箭頭為卷積操作。
圖1 RefinedHRNet模型結(jié)構(gòu)圖
在多尺度融合中仍采用并行子網(wǎng)絡(luò)的交換單元,使每個(gè)子網(wǎng)重復(fù)接受來自其他并行子網(wǎng)的信息。HRNet中,不同分辨率的特征圖進(jìn)行多尺度的融合時(shí),采用步長為3×3的卷積做下采樣,步長為1×1的卷積做最近鄰上采樣。雖然可以大幅度減少參數(shù),但是會造成空間層級化信息丟失和小物體無法重建等問題。
文獻(xiàn)[10-11]提出的空洞卷積能有效解決多尺度融合中信息丟失的問題。在不丟失分辨率的前提下,使用空洞卷積,能夠有效擴(kuò)大感受野。圖2展示了并行網(wǎng)絡(luò)多尺度融合過程。通過設(shè)置dilation rate,在卷積核中填充0,感受野隨dilation rate發(fā)生變化,能夠有效捕捉上下文信息。因此,本文采用空洞卷積來解決信息缺失的問題。多尺度融合公式為
其中,為在階段s中第b塊分辨率為r的卷積單元;為相對應(yīng)的交換單元。式(1)與圖3對應(yīng),均以RefinedHRNet網(wǎng)絡(luò)第3階段為例,第3階段由3個(gè)并行的子網(wǎng)絡(luò)組成,需要進(jìn)行3次特征的融合,圖3描述的過程為一次特征融合。
圖3 從下到上特征融合
輸入特征圖的聚合輸出為
其中,為采用最近鄰上采樣,將輸入矩陣從分辨率提高到,其中dilation rate設(shè)置為4;為采用步長為2的3×3卷積進(jìn)行下采樣,將輸入矩陣分辨率降低到;=為分辨率相同,為不采取任何操作,用于相同尺寸特征圖的整合;上采樣和下采樣均可以通過連續(xù)卷積增加或降低特征圖的尺寸。
各個(gè)階段交換單元的額外輸出特征圖為
其中,{1,2,···,}為輸入特征矩陣;{1,2,···,}為輸出的特征矩陣,其分辨率和寬度與輸入相同,為并行子網(wǎng)絡(luò)數(shù)目。
使用反卷積模塊有效生成高質(zhì)量和高分辨率的特征圖[9,12]如圖3所示,在階段之間添加了反卷積模塊和上采樣模塊,使圖像從低分辨率恢復(fù)到高分辨率,進(jìn)而特征圖包含更加豐富的特征信息。
在生成高質(zhì)量的特征圖時(shí),在階段之間采用從下到上特征融合方法,從低分辨率到高分辨率逐次添加反卷積模塊和上采樣模塊。以第3階段為例,從下到上進(jìn)行特征融合時(shí),使用反卷積和最近鄰上采樣提高分辨率(上采樣)。圖3中從上至下,特征圖的通道數(shù)目為,2,4,通過連續(xù)的上采樣可以將低層特征圖寬度由4降低到,圖像的分辨率提高至原來的4倍。從下到上的特征融合計(jì)算為
與HigherHRNet不同,本文仍然采用第4階段產(chǎn)生的通道寬度為的特征圖來預(yù)測關(guān)鍵點(diǎn)的位置,并未生成更高分辨率的熱度圖,反卷積模塊和上采樣模塊的輸入是并行子網(wǎng)絡(luò)低分辨率的特征圖,輸出是高分辨率的特征圖,用于后續(xù)階段的特征融合。
訓(xùn)練和測試采用COCO2017數(shù)據(jù)集,其包含了200 000張圖片和250 000個(gè)帶有17個(gè)關(guān)鍵點(diǎn)的人體實(shí)例。該數(shù)據(jù)集的訓(xùn)練集、驗(yàn)證集、測試集分別有57 k,5 k,20 k張圖像。在訓(xùn)練集(train2017)上進(jìn)行訓(xùn)練,在驗(yàn)證集(val2017)和測試集(test-dev2017)上評估本文方法,并且與其他最新方法進(jìn)行了比較。
在訓(xùn)練和測試中,使用COCO官方提供的測試方法,按式(5)計(jì)算網(wǎng)絡(luò)模型預(yù)測出的關(guān)鍵點(diǎn)坐標(biāo)與標(biāo)簽中真實(shí)值坐標(biāo)的誤差,通過設(shè)置不同的閾值來確定關(guān)鍵點(diǎn)位置的置信度。關(guān)鍵點(diǎn)相似性為
其中,d為檢測到的關(guān)鍵點(diǎn)與其對應(yīng)的ground truth之間的歐式距離;v為ground truth的可見性標(biāo)記;為目標(biāo)尺度;k為控制衰減的每個(gè)關(guān)鍵點(diǎn)常數(shù)。
本文采用相同的設(shè)置與HRNet模型進(jìn)行對比。使用隨機(jī)旋轉(zhuǎn)(–45°,45°),隨機(jī)縮放規(guī)模(0.65,1.35),并且采用圖片的翻轉(zhuǎn)等數(shù)據(jù)的增強(qiáng)方式。使用Adam優(yōu)化器,基本學(xué)習(xí)率為1e-3,在170和200遍訓(xùn)練中分別降低到1e-4和1e-5,總計(jì)對模型進(jìn)行了210遍訓(xùn)練。并從數(shù)據(jù)集圖像中裁剪出輸入網(wǎng)絡(luò)的圖像,調(diào)整為固定比例,高﹕寬=4﹕3,輸入圖像的尺寸分別為128×96,192×128,256×192,320×224和384×288。在整個(gè)訓(xùn)練過程中,著重增強(qiáng)64×48熱圖的細(xì)節(jié)特征,用于最后階段估計(jì)人體姿勢的關(guān)鍵點(diǎn)。
本文采用與HRNet網(wǎng)絡(luò)相同的人體檢測器,檢測人體框,然后使用網(wǎng)絡(luò)估計(jì)人體關(guān)鍵點(diǎn)。檢測到的人體框按照固定的比例(高﹕寬=4﹕3)輸入到網(wǎng)絡(luò)中。根據(jù)HRNet,對原始圖像和反轉(zhuǎn)后的圖像進(jìn)行平均來計(jì)算熱度圖。同時(shí),采用可視化的工具,將估計(jì)出的人體關(guān)鍵點(diǎn)進(jìn)行連接,得到如圖4所示的人體姿態(tài)估計(jì)圖。
圖4 人體姿態(tài)估計(jì)圖
實(shí)驗(yàn)在ubuntu18.04操作系統(tǒng)、3.7 GHz的CPU、6核心12線程以及1個(gè)NVIDIA 1080Ti GPU組成的服務(wù)器上完成。采用COCO2017數(shù)據(jù)集和MPII數(shù)據(jù)集用來訓(xùn)練和測試,并在test-challenge2020 (keypoint)上與本文結(jié)果進(jìn)行對比。
實(shí)驗(yàn)過程主要分為人體檢測和關(guān)鍵點(diǎn)估計(jì)2個(gè)步驟。本文主要關(guān)注人體的關(guān)鍵點(diǎn)估計(jì)。在圖5中綠框?yàn)槿梭w檢測模塊檢測到的人體邊框,藍(lán)空心圓為姿態(tài)估計(jì)模塊定位的人體關(guān)鍵點(diǎn)。
為了更好地說明算法的精確性,表1和表2分別在COCO2017驗(yàn)證集和測試集中進(jìn)行實(shí)驗(yàn)對比,即自頂向下和自底向上2種方法對比以及網(wǎng)絡(luò)中輸入不同尺寸的圖像進(jìn)行對比。
圖5 人體檢測和姿態(tài)估計(jì)
表1為在COCO2017驗(yàn)證集下,與文獻(xiàn)[5-6]在參數(shù)量、計(jì)算量以及準(zhǔn)確度等方面的對比。其中文獻(xiàn)[5]代表從上至下使用PN和CPN+OHKM(在線數(shù)據(jù)挖掘)網(wǎng)絡(luò)模型;文獻(xiàn)[12]代表從上至下分別使用ResNet-50,ResNet-101和ResNet-152作為主干網(wǎng)絡(luò)的SimpleBaseline網(wǎng)絡(luò)模型;文獻(xiàn)[6]均采用hrnet_w32作為主干網(wǎng)絡(luò),僅輸入圖像的尺寸不同。實(shí)驗(yàn)結(jié)果表明,本文方法在中型和大型對象識別準(zhǔn)確度方面均有一定提高,具有更高的準(zhǔn)確度。
表1 COCO val2017中方法對比
表2為在COCO2017測試集下的與先進(jìn)的方法進(jìn)行對比。文獻(xiàn)[4]和文獻(xiàn)[7]為自底向上的方法,其余方法為自頂向下。從表2可看出,本文方法在準(zhǔn)確度方面遠(yuǎn)遠(yuǎn)高于自底向上的方法。在使用相同的人體檢測器和圖像尺寸的前提下,本文RefinedHRNet網(wǎng)絡(luò)超過文獻(xiàn)[12]SimpleBaseline網(wǎng)絡(luò)和文獻(xiàn)[6]HRNet網(wǎng)絡(luò),具有更高的準(zhǔn)確度。
表2 COCO test-dev2017結(jié)果對比
為了對比多尺度融合方法和具有空洞卷積的多尺度融合方法(并行多尺度融合)以及生成高質(zhì)量熱圖的方法對于網(wǎng)絡(luò)模型的準(zhǔn)確度的影響,本文進(jìn)行了4種網(wǎng)絡(luò)模型方法的實(shí)驗(yàn):①多尺度融合方法;②具有空洞卷積的多尺度融合方法;③將多尺度融合和生成高質(zhì)量熱圖方法(用上采樣模塊代替空洞卷積模塊)的結(jié)合;④將具有空洞卷積的多尺度融合方法和生成高質(zhì)量熱圖方法的結(jié)合;實(shí)驗(yàn)結(jié)果見表3。方法①與②對比,說明空洞卷積模塊能提高網(wǎng)絡(luò)模型的準(zhǔn)確度(提高了0.2);②與④對比空洞卷積和反卷積模塊能共同提高模型的準(zhǔn)確度(相對HRNet提高了0.4);②和③對比,說明空洞卷積和反卷積模塊都提高模型準(zhǔn)確度的能力相同。
表3 不同方法對網(wǎng)絡(luò)模型準(zhǔn)確度的影響
表4為不同網(wǎng)絡(luò)模型對于關(guān)鍵點(diǎn)估計(jì)的準(zhǔn)確度實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)中模型的圖像輸入尺寸均為384×288,實(shí)驗(yàn)采用COCO2017驗(yàn)證集。通過計(jì)算關(guān)鍵點(diǎn)正確估計(jì)的比例PCK(計(jì)算檢測的關(guān)鍵點(diǎn)與其對應(yīng)的groundtruth間的歸一化距離小于設(shè)定閾值的比例)來對比不同模型識別人體關(guān)鍵點(diǎn)的準(zhǔn)確度。表4中頭部、肩部、肘部、腕部、臀部、膝蓋、腳裸分別代表頭部5個(gè)關(guān)節(jié)點(diǎn)的平均值和肩部、肘部、腕部、臀部、膝蓋、腳裸各2個(gè)關(guān)節(jié)點(diǎn)平均值及所有關(guān)節(jié)點(diǎn)的平均值。由表4可知,本文模型具有更高的平均準(zhǔn)確度,在單個(gè)關(guān)節(jié)點(diǎn)識別的準(zhǔn)確度上都有一定程度的提升,但膝蓋關(guān)節(jié)點(diǎn)的識別準(zhǔn)確度略低于HRNet_48。
表4 不同網(wǎng)絡(luò)模型對不同關(guān)鍵點(diǎn)檢測PCK值比較
表1采用相同的方法進(jìn)行姿態(tài)估計(jì),當(dāng)輸入圖像的尺寸由256×192變?yōu)?84×288時(shí),HRNet網(wǎng)絡(luò)和本文方法均提升1.4%,說明圖像的輸入尺寸對于準(zhǔn)確度有一定的影響。參考文獻(xiàn)[13-14]的實(shí)驗(yàn)平臺設(shè)置,參考文獻(xiàn)[15-16]對實(shí)驗(yàn)影響因素進(jìn)行分析,考慮到基于RGB圖像的姿態(tài)估計(jì)還會受到光照、遮擋等情況的影響,因此本文分別進(jìn)行了不同圖像分辨率和不同場景的實(shí)驗(yàn)。
4.4.1 圖像分辨率對實(shí)驗(yàn)的影響
本文RefinedHRNet方法主要是依靠圖像進(jìn)行學(xué)習(xí),不同分辨率的圖像進(jìn)行訓(xùn)練得到的模型準(zhǔn)確度不同。本文推測不同尺寸的圖像包含的紋理信息和關(guān)鍵點(diǎn)之間特征信息不同,較大尺寸熱圖包含的特征信息相對較多,但是會造成模型參數(shù)較大。在圖像分辨率對于實(shí)驗(yàn)影響的研究中,均采用開始使用的COCO2017訓(xùn)練集訓(xùn)練,訓(xùn)練得到的模型在COCO2017驗(yàn)證集上進(jìn)行測試,最終得到網(wǎng)絡(luò)模型的準(zhǔn)確度。
為了證明本文的推測,在COCO2017數(shù)據(jù)集中進(jìn)行5組實(shí)驗(yàn)與HRNet網(wǎng)絡(luò)對比,圖像分辨率分別設(shè)置為128×96,192×128,256×192,320×224和384×288。
圖6為不同圖像分辨率對于識別準(zhǔn)確度和運(yùn)算量的影響。由圖6可知,在相同的網(wǎng)絡(luò)模型基礎(chǔ)下,增加輸入圖像的尺寸,一定程度上提高姿態(tài)估計(jì)的準(zhǔn)確度,但是同時(shí)運(yùn)算量也大幅度增加。表5的實(shí)驗(yàn)結(jié)果表明通過增加輸入網(wǎng)絡(luò)圖像的分辨率,對于中型人體和大型人體姿態(tài)估計(jì)的準(zhǔn)確度都有一定程度的提高。
圖6 輸入圖像分辨率與平均準(zhǔn)確度的關(guān)系
表5 精確度與分辨率的關(guān)系
4.4.2 不同場景對實(shí)驗(yàn)的影響
為了驗(yàn)證本文方法的有效性,考慮到光照條件、人體遮擋對于實(shí)驗(yàn)結(jié)果的影響,本文從COCO2017驗(yàn)證集中根據(jù)光照條件隨機(jī)選取400張具有人體標(biāo)注的圖片,進(jìn)行了下述實(shí)驗(yàn)。
首先根據(jù)圖像光照條件分為2組,每組200張,然后再根據(jù)圖像中人體有、無遮擋情況分成2組,在各個(gè)實(shí)驗(yàn)條件下進(jìn)行姿態(tài)估計(jì)。光照良好條件下,有遮擋和無遮擋圖像數(shù)目分別為120和80;光照較差條件下,有遮擋和無遮擋圖像數(shù)目各為100。并根據(jù)準(zhǔn)確姿態(tài)估計(jì)的圖像數(shù)目與該實(shí)驗(yàn)條件下圖像總數(shù)的比值作為姿態(tài)估計(jì)的準(zhǔn)確度,見表6。
表6 光照條件和人體遮擋對準(zhǔn)確度的影響
圖7(a)與圖7(b)分別為在光照良好的條件下,人體有、無遮擋對于實(shí)驗(yàn)結(jié)果的影響。圖7(c)與圖7(d)分別為在光照條件較差的情況下,人體有、無遮擋對于實(shí)驗(yàn)結(jié)果的影響。由表6可知,在相同光照條件下,人體遮擋會導(dǎo)致姿態(tài)估計(jì)準(zhǔn)確度降低;與人體遮擋相比,光照條件對姿態(tài)估計(jì)準(zhǔn)確度影響更大。
以上實(shí)驗(yàn)表明,在不同光照條件、人體遮擋的情況下,本文方法具有一定的魯棒性,能準(zhǔn)確估計(jì)人體的姿態(tài)。
本文方法雖然取得了較好的實(shí)驗(yàn)結(jié)果,但是仍具有很大的提升空間。圖7實(shí)驗(yàn)表明在人體遮擋條件下,人體檢測器很難檢測到遮擋的人體,因此無法進(jìn)行姿態(tài)估計(jì)。該方法采用人體檢測器檢測人體,使用性能更好的人體檢測器能夠進(jìn)一步提高姿態(tài)估計(jì)的準(zhǔn)確度。其次是相對于從底向上的本文方法實(shí)時(shí)性較差,未來的工作將在保證網(wǎng)絡(luò)準(zhǔn)確度的同時(shí)減少參數(shù)量和計(jì)算量,提高實(shí)時(shí)性。
本文提出了基于RGB圖像人體姿態(tài)估計(jì)方法RefinedHRNet,將并行多尺度融合的方法和生成高質(zhì)量熱圖的方法相結(jié)合,利用目標(biāo)關(guān)鍵點(diǎn)相似度OKS來評價(jià)關(guān)鍵點(diǎn)識別的準(zhǔn)確度。實(shí)驗(yàn)結(jié)果表明,該方法與其他采用深度學(xué)習(xí)的姿態(tài)估計(jì)方法相比,具有更高的準(zhǔn)確度,并且對于光照條件、人群密度、人體遮擋等具有較好的魯棒性。人體姿態(tài)估計(jì)不僅能在PC端實(shí)現(xiàn),在未來還能更多應(yīng)用在移動便攜設(shè)備中,更應(yīng)該關(guān)注模型的輕量化設(shè)計(jì),在保證模型準(zhǔn)確度的基礎(chǔ)上提高模型的實(shí)時(shí)性。
[1] KREISS S, BERTONI L, ALAHI A. PifPaf: composite fields for human pose estimation [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 11969-11978.
[2] CAO Z, SIMON T, WEI S E, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 1302-1310.
[3] WEI S E, RAMAKRISHNA V, KANADE T, et al. Convolutional pose machines[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 4724-4732.
[4] CAO Z, HIDALGO G, SIMON T, et al. OpenPose: realtime multi-person 2D pose estimation using part affinity fields [EB/OL]. (2018-12-18) [2020-04-15]. https://arxiv.org/abs/1812.08008.
[5] CHEN Y L, WANG Z C, PENG Y X, et al. Cascaded pyramid network for multi-person pose estimation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2018: 7103-7112.
[6] SUN K, XIAO B, LIU D, et al. Deep high-resolution representation learning for human pose estimation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 5686-5696.
[7] LI J F, WANG C, ZHU H, et al. CrowdPose: efficient crowded scenes pose estimation and a new benchmark[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 10855-10864.
[8] FANG H S, XIE S Q, TAI Y W, et al. RMPE: regional multi-person pose estimation[C]//2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 2353-2362.
[9] CHENG B W, XIAO B, WANG J D, et al. HigherHRNet: scale-aware representation learning for bottom-up human pose estimation [EB/OL]. (2019-8-27) [2020-04-27]. https://arxiv.org/abs/1908.10357.
[10] YU F, KOLTUN V. Multi-Scale context aggregation by dilated convolutions [EB/OL]. (2016-4-30) [2020-04-15]. https://arxiv.org/abs/1511.07122.
[11] LIU C X, CHEN L C, SCHROFF F, et al. Auto-DeepLab: hierarchical neural architecture search for semantic image segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 82-92.
[12] XIAO B, WU H P, WEI Y C. Simple baselines for human pose estimation and tracking [EB/OL]. (2018-8-21) [2020-04-11]. https://arxiv.org/abs/1804.06208.
[13] 陳國軍, 楊靜, 程琰, 等. 基于RGBD的實(shí)時(shí)頭部姿態(tài)估計(jì)[J]. 圖學(xué)學(xué)報(bào), 2019, 40(4): 681-688.
CHEN G J, YANG J, CHENG Y, et al. Real-time head pose estimation based on RGBD[J]. Journal of Graphics, 2019, 40(4): 681-688 (in Chinese).
[14] 劉瑜興, 王淑俠, 徐光耀, 等. 基于Leap Motion的三維手勢交互系統(tǒng)研究[J]. 圖學(xué)學(xué)報(bào), 2019, 40(3): 556-564.
LIU Y X, WANG S X, XU G Y, et al. Research on 3D gesture interaction system based on leap motion[J]. Journal of Graphics, 2019, 40(3): 556-564 (in Chinese).
[15] 李白萍, 韓新怡, 吳冬梅. 基于卷積神經(jīng)網(wǎng)絡(luò)的實(shí)時(shí)人群密度估計(jì)[J]. 圖學(xué)學(xué)報(bào), 2018, 39(4): 728-734.
LI B P, HAN X Y, WU D M. Real-time crowd density estimation based on convolutional neural networks[J]. Journal of Graphics, 2018, 39(4): 728-734 (in Chinese).
[16] 吳珍發(fā), 趙皇進(jìn), 鄭國磊. 人機(jī)任務(wù)仿真中虛擬人行為建模及仿真實(shí)現(xiàn)[J]. 圖學(xué)學(xué)報(bào), 2019, 40(2):200-205.
WU Z F, ZHAO H J, ZHENG G L. Modeling and simulation implementation of virtual human behavior for ergonomics simulation[J]. Journal of Graphics, 2019, 40(2):200-205 (in Chinese).
Human pose estimation based on high-resolution net
REN Hao-pan, WANG Wen-ming, WEI De-jian, GAO Yan-yan, KANG Zhi-hui, WANG Quan-yu
(School of Computer Science and Technology, Beijing Institute of Technology, Beijing 100081, China)
Human pose estimation plays a vital role in human-computer interaction and behavior recognition applications, but the changing scale of feature maps poses a challenge to the relevant methods in predicting the correct human poses. In order to heighten the accuracy of pose estimation, the method for the parallel network multi-scale fusion and that for generating high-quality feature maps were combined for human pose estimation. On the basis of human detection, RefinedHRNet adopted the method for parallel network multi-scale fusion to expand the receptive field in the stage using a dilated convolution module to maintain context information. In addition, RefinedHRNet employed a deconvolution module and an up-sampling module between stages to generate high-quality feature maps. Then, the parallel network feature maps with the highest resolution (1/4 of the input image size) were utilized for pose estimation. Finally, Object Keypoint Similarity (OKS) was used to evaluate the accuracy of keypoint recognition. Experimenting on the COCO2017 test set, the pose estimation accuracy of our proposed method RefinedHRNet is 0.4% higher than the HRNet network model.
pose estimation; multi-scale fusion; high-quality feature maps; human detection; object keypoint similarity
TP 391
10.11996/JG.j.2095-302X.2021030432
A
2095-302X(2021)03-0432-07
2020-07-09;
2020-08-23
9 July,2020;
23 August,2020
任好盼(1995-),男,河南許昌人,碩士研究生。主要研究方向?yàn)橛?jì)算機(jī)視覺、姿態(tài)估計(jì)等。E-mail:1838817927@qq.com
REN Hao-pan (1995–), male, master student. His main research interests cover computer vision, pose estimation, etc.E-mail: 1838817927@qq.com
王文明(1967-),男,北京人,副教授,碩士。主要研究方向?yàn)樾畔踩?、區(qū)塊鏈技術(shù)等。E-mail:wenmingwang2004@aliyun.com
WANG Wen-ming (1967–), male, associate professor, master. His main research interests cover information security, blockchain technology, etc. E-mail: wenmingwang2004@aliyun.com