宋玉琴,曾賀東,高師杰,熊高強(qiáng)
(西安工程大學(xué) 電子信息學(xué)院,陜西 西安 710600)
在計(jì)算機(jī)視覺中,人體姿態(tài)估計(jì)目的是確定圖像中人體的關(guān)鍵節(jié)點(diǎn)信息,并連接人體節(jié)點(diǎn)組成人體骨架[1-3]。人體姿態(tài)具有高自由度、關(guān)鍵點(diǎn)尺度變化、遮擋、背景噪聲的隨機(jī)干擾等特性,使得人體姿態(tài)估計(jì)的研究以及應(yīng)用都面臨著諸多難題,難題主要有:
(1)難以有效地利用圖像中的有限參數(shù)信息進(jìn)行建模;
(2)針對(duì)圖像背景復(fù)雜、人物數(shù)量、尺度變化等情況,關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)難以精確定位;
(3)高精度帶來的不利后果是人體姿態(tài)估計(jì)算法很難應(yīng)用于實(shí)際[4,5]。
目前,深度神經(jīng)網(wǎng)絡(luò)可以通過合理的結(jié)構(gòu)設(shè)計(jì)或者嵌入特定功能的模塊來解決現(xiàn)有算法的缺陷,尤其是在定位和分類任務(wù)中較為明顯[6]。其中,Wei等[7]提出的卷積姿態(tài)機(jī),通過順序卷積結(jié)構(gòu)來表征圖像的空間、紋理、尺度等信息。Newell等[8]提出的堆疊沙漏網(wǎng)絡(luò)則是設(shè)計(jì)一種與反卷積結(jié)合的沙漏結(jié)構(gòu)。Ning等[9]則是使用視覺特征對(duì)外部知識(shí)進(jìn)行編碼的方法。Sun等[11,12]提出了高分辨并行子網(wǎng)架構(gòu),并行的不同分辨率子網(wǎng)之間一共進(jìn)行8次特征融合??梢园l(fā)現(xiàn)人體姿態(tài)估計(jì)算法越加趨向于利用深度神經(jīng)網(wǎng)絡(luò)結(jié)合高分辨特征融合的處理方式。
為了解決關(guān)鍵點(diǎn)尺度變化導(dǎo)致的回歸熱圖和關(guān)鍵點(diǎn)定位不精確問題,本文提出了一種改進(jìn)高分辨率表征的人體姿態(tài)估計(jì)方法。該方法包含雙分支的高低分辨率特征提取網(wǎng)絡(luò)、關(guān)鍵點(diǎn)標(biāo)準(zhǔn)化結(jié)構(gòu)等功能。本文的主要工作如下:
(1)以高分辨網(wǎng)絡(luò)為模型框架,改進(jìn)高分辨率表征網(wǎng)絡(luò),初步地提取關(guān)鍵點(diǎn)位置特征信息;
(2)針對(duì)圖像中人物關(guān)鍵點(diǎn)尺度變化問題,在網(wǎng)絡(luò)末端設(shè)計(jì)了關(guān)鍵點(diǎn)標(biāo)準(zhǔn)化結(jié)構(gòu),提升檢測(cè)精度;
(3)通過實(shí)驗(yàn)驗(yàn)證,與多種算法對(duì)比,驗(yàn)證本文提出算法的有效性。
目前的經(jīng)典網(wǎng)絡(luò)大部分采用很深的卷積網(wǎng)絡(luò)來優(yōu)化特征提取,雖然效果不錯(cuò),但是都有一個(gè)共同的弊端,就是在特征提取完成后需要把特征圖恢復(fù)到較大的特征尺度。因?yàn)樵诰矸e的過程中圖像分辨率會(huì)逐步降低,得到包含更高階的特征信息,但也損失了圖像中的次要特征,這些對(duì)于精確定位關(guān)鍵點(diǎn)是無法利用的。因此,高分辨率網(wǎng)絡(luò)便是在卷積過程中增加并行子網(wǎng)絡(luò),而且不同子網(wǎng)絡(luò)之間形成特征信息的交換通道進(jìn)行特征融合,減少邊緣特征信息的損失。原始高分辨率網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。每個(gè)新子網(wǎng)絡(luò)都從上一分支的1/2建立連接,并在前向傳播中把特征信息逐步添加到高分辨子網(wǎng)中,最后輸出全程保持的高分辨子網(wǎng)并以此來進(jìn)行姿態(tài)估計(jì)。
圖1 原始高分辨網(wǎng)絡(luò)結(jié)構(gòu)
該網(wǎng)絡(luò)細(xì)節(jié)之處是利用了不同階段的特征融合,取得的效果提升不是特別明顯,因?yàn)樵季W(wǎng)絡(luò)的不同階段的特征圖信息只被利用了一次,特征融合效果不會(huì)特別明顯。原始網(wǎng)絡(luò)特征融合過程如圖2所示。
圖2 原始特征融合
本文網(wǎng)絡(luò)以高分辨率模型結(jié)構(gòu)為基礎(chǔ)框架,針對(duì)原網(wǎng)絡(luò)中的3層子網(wǎng)絡(luò)做了裁剪,并多次利用原始特征圖信息以達(dá)到減輕網(wǎng)絡(luò)計(jì)算量同時(shí)保持較高的檢測(cè)精度。改進(jìn)后的高分辨率表征網(wǎng)絡(luò)整體結(jié)構(gòu)如圖3所示。網(wǎng)絡(luò)只包含兩個(gè)并行子網(wǎng)絡(luò),共有4個(gè)不同的階段,并行子網(wǎng)絡(luò)對(duì)應(yīng)的分辨率減半,對(duì)應(yīng)的通道數(shù)增倍。第一個(gè)子網(wǎng)絡(luò)包含4個(gè)殘差塊單元,每個(gè)殘差塊單元主干是ResNet-50[13]。具體結(jié)構(gòu)是由一個(gè)寬度為64的BottleNeck塊構(gòu)成,接著是一個(gè)3×3的卷積把分辨率減小到原來的一半,每個(gè)交換塊包含4個(gè)殘差塊單元而且每個(gè)單元中包含了兩次3×3的卷積,最后是不同階段的特征融合,增加了階段間特征融合數(shù)量,減少了階段內(nèi)特征融合數(shù)量。
圖3 改進(jìn)高分辨率網(wǎng)絡(luò)結(jié)構(gòu)
若網(wǎng)絡(luò)輸入為3通道的RGB圖像時(shí),假設(shè)輸入層為x(0)=X,網(wǎng)絡(luò)共有L層,其中第l層的輸入特征和權(quán)重分別為x(l)和W(l),卷積函數(shù)為f(·),則每層網(wǎng)絡(luò)的前向傳遞函數(shù)表示為
(1)
最終的輸出特征圖可表示為
ys=U(ys-2)+U(ys-1)+f(Ss,Ws),s=4
(2)
其中,ys是第s階段的輸出特征,U(·)是插值上采樣。
相比于原始特征融合機(jī)制,多階段特征信息融讓每個(gè)子網(wǎng)絡(luò)的特征進(jìn)行了兩次特征融合,最大限度地保留了特征信息,改進(jìn)后比原網(wǎng)絡(luò)在特征信息的保留,細(xì)節(jié)信息的提取方面有較大的提升。改進(jìn)后的特征信息融合如圖4所示。
圖4 改進(jìn)后特征融合
改進(jìn)網(wǎng)絡(luò)的實(shí)現(xiàn)過程如下:
(1)網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行初步特征提取,然后如圖3與式(1)所示,分4個(gè)卷積階段建立兩個(gè)并行子網(wǎng)并輸出特征;
(2)分別取低分辨子網(wǎng)的輸出特征 {S1,S2,S3} 進(jìn)行插值上采樣并壓縮通道數(shù)為64;
(3)將壓縮后的低分辨網(wǎng)絡(luò)輸出特征分別與高分辨網(wǎng)絡(luò)的對(duì)應(yīng)階段及下階段的輸出進(jìn)行特征融合;
(4)重復(fù)步驟(3),直到高分辨網(wǎng)絡(luò)輸出最終特征;
為了得到精確的關(guān)鍵點(diǎn)的坐標(biāo),目前常用方法是以關(guān)鍵點(diǎn)為中心構(gòu)建高斯區(qū)域的監(jiān)督學(xué)習(xí)方式得到關(guān)鍵點(diǎn)的預(yù)測(cè)坐標(biāo)。為了抑制一些異常點(diǎn),要先用預(yù)先構(gòu)建好的高斯核對(duì)熱點(diǎn)圖進(jìn)行平滑操作,然后選取其中的最大值點(diǎn)作為關(guān)鍵點(diǎn)的估計(jì)值,而其對(duì)應(yīng)的坐標(biāo)即為關(guān)鍵點(diǎn)坐標(biāo)。雖然采用最大熱值的熱力圖來回歸人體關(guān)鍵點(diǎn)的坐標(biāo)可以取得不錯(cuò)的效果,可是該方法仍然存在缺陷。首先是高斯熱點(diǎn)圖的尺寸不能過小而且是輸入尺寸的1/n,本文是取1/4;再是熱值最大的關(guān)鍵點(diǎn)坐標(biāo)和真值坐標(biāo)存在誤差,熱點(diǎn)圖坐標(biāo)映射回原始位置時(shí)不能完全對(duì)應(yīng),如果回歸效果很差,則還原過程的偏差就會(huì)更大。為了解決熱點(diǎn)圖轉(zhuǎn)換后的精度問題,本文提出一種關(guān)鍵點(diǎn)尺度轉(zhuǎn)換結(jié)構(gòu)。該結(jié)構(gòu)主要分為關(guān)鍵點(diǎn)坐標(biāo)估計(jì)、變換參數(shù)計(jì)算以及空間變換3部分,轉(zhuǎn)換結(jié)構(gòu)流程如圖5所示。首先直接根據(jù)初步提取的特征進(jìn)行高斯平滑操增強(qiáng)初步熱點(diǎn)圖所提取的特征,接著對(duì)每個(gè)關(guān)鍵點(diǎn)進(jìn)行尺度變換確定熱圖精確坐標(biāo),最后通過逆空間變換輸出原圖關(guān)鍵點(diǎn)坐標(biāo)。
圖5 關(guān)鍵點(diǎn)尺度變換結(jié)構(gòu)
具體轉(zhuǎn)換過程如下,由式(3)得到關(guān)鍵點(diǎn)算術(shù)平均值c
(3)
然后由式(4)得到該關(guān)鍵點(diǎn)的旋轉(zhuǎn)角度值θ
(4)
最后計(jì)算旋轉(zhuǎn)矩陣R
(5)
其中,pc為關(guān)鍵點(diǎn)的估計(jì)結(jié)果,c為肩部和臀部關(guān)鍵點(diǎn)的算術(shù)平均值,e為相關(guān)系數(shù),pl-shoulder為肩部關(guān)鍵點(diǎn)估計(jì)值,pr-shoulder為肩部關(guān)鍵點(diǎn)實(shí)際值,pl-hip為臀部關(guān)鍵點(diǎn)估計(jì)值,pr-hip為臀部關(guān)鍵點(diǎn)實(shí)際值。
在高分辨率表征網(wǎng)絡(luò)階段,其輸出的熱圖損失函數(shù)采用均方誤差來優(yōu)化網(wǎng)絡(luò)模型,損失函數(shù)如式(6)所示
(6)
其中,n為圖像中人體總數(shù),k為單人體關(guān)鍵點(diǎn)總數(shù),Si為第i個(gè)關(guān)鍵點(diǎn)的真值,S′i為第i個(gè)關(guān)鍵點(diǎn)的預(yù)測(cè)值。
在尺度轉(zhuǎn)換階段,特征增強(qiáng)模塊的損失函數(shù)不同于初始特征提取階段的損失函數(shù)。主要原因是在高分辨率表征時(shí)將坐標(biāo)和關(guān)鍵點(diǎn)熱圖值看作概率值,形成聯(lián)合概率分布來進(jìn)行位置回歸,并且對(duì)坐標(biāo)和關(guān)鍵點(diǎn)熱圖進(jìn)行均勻化處理和歸一化處理,最后把得到的兩個(gè)矩陣進(jìn)行F范數(shù)運(yùn)算,輸出的是聯(lián)合概率的高斯分布。而均方誤差損失沒有歸一化處理關(guān)鍵點(diǎn)熱圖,直接采用會(huì)存在量化偏差。其次是KL散度常用于衡量?jī)蓚€(gè)不同量的分布相似性而非對(duì)稱性,再加上網(wǎng)絡(luò)更易于學(xué)習(xí)對(duì)稱式高斯概率分布,所以原本的KL散度不適合,其改進(jìn)表達(dá)JS散度值域?yàn)閇0,1]且具有對(duì)稱性。因此,本文選擇JS散度表達(dá),結(jié)合關(guān)鍵點(diǎn)尺度變換,損失函數(shù)如式(7)所示
L2=L′(ZRk)+L″(S′k)
(7)
其中,L′(ZRk)是關(guān)鍵點(diǎn)尺度變換的損失函數(shù),ZRk是第k個(gè)關(guān)鍵點(diǎn)的坐標(biāo)向量,L″(S′k)是尺度轉(zhuǎn)換階段的熱點(diǎn)圖損失函數(shù)且S′k是歸一化后的熱點(diǎn)圖真值。該散度的損失函數(shù)如式(8)所示
L″(S′k)=D(P‖Q)
(8)
其中,P是標(biāo)簽值的高斯分布,Q是標(biāo)簽值的預(yù)測(cè)聯(lián)合概率分布,D(·‖·)是JS離散度表達(dá)。該表達(dá)式如式(9)所示
(9)
其中,DKL(·‖·)是KL散度的相似度函數(shù),分別如式(10)和式(11)所示
log(2S′n(i,j)/(S′n(i,j)+Zn(i,j)))
(10)
log(2S′n(i,j)/(S′n(i,j)+Zn(i,j)))
(11)
其中,h是特征圖的高,w是特征圖的寬。
結(jié)合式(6)和式(7)可知,網(wǎng)絡(luò)的整體損失函數(shù)如式(12)所示
L=L1+L2
(12)
在實(shí)驗(yàn)及結(jié)果對(duì)比中,本文采取不同的數(shù)據(jù)集的組合進(jìn)行訓(xùn)練、測(cè)試。在LSP和MPII數(shù)據(jù)集上本文采用關(guān)鍵點(diǎn)正確估計(jì)比例(percentage of correct keypoints,PCK),COCO數(shù)據(jù)集采用目標(biāo)關(guān)鍵點(diǎn)相似度指標(biāo)(object keypoints similarity,OKS)。其中,PCK評(píng)價(jià)指標(biāo)是通過對(duì)圖像中檢測(cè)到的關(guān)鍵點(diǎn),計(jì)算其與相應(yīng)的精確點(diǎn)的歸一化距離,該距離小于初始閾值的比例即為當(dāng)前關(guān)鍵點(diǎn)估計(jì)準(zhǔn)確率。MPII數(shù)據(jù)集中統(tǒng)一以圖像中人體頭部尺度作為歸一化標(biāo)準(zhǔn),即PCKh。當(dāng)閾值選取為0時(shí),歸一化誤差也就為0,理論上可行但實(shí)際是網(wǎng)絡(luò)幾乎很難做到完全正確檢測(cè)每個(gè)點(diǎn);一般還是根據(jù)不同數(shù)據(jù)集、不等閾值得到不同的準(zhǔn)確率來判斷預(yù)測(cè)的關(guān)鍵點(diǎn)是否定位合理。如果檢測(cè)關(guān)鍵點(diǎn)與標(biāo)簽關(guān)鍵點(diǎn)的歐式距離在該閾值范圍內(nèi),則該檢測(cè)結(jié)果被認(rèn)為是正確的。第k個(gè)人體關(guān)鍵點(diǎn)的PCKh的計(jì)算過程如式(13)所示
(13)
對(duì)于COCO數(shù)據(jù)集,AP代表的是關(guān)鍵點(diǎn)之間的平均關(guān)鍵點(diǎn)相似度,在不同AP閾值時(shí),預(yù)測(cè)結(jié)果越接近原值則OKS越趨向于1,反之趨向0。OKS定義如式(14)所示
(14)
對(duì)于網(wǎng)絡(luò)的輸入樣本,MPII數(shù)據(jù)集訓(xùn)練樣本統(tǒng)一處理為256×256,COCO數(shù)據(jù)集訓(xùn)練樣本則為256×192的尺寸,樣本預(yù)處理均值M=[0.49,0.46,0.41]和標(biāo)準(zhǔn)差S=[0.23,0.22,0.23],關(guān)鍵點(diǎn)尺度轉(zhuǎn)換結(jié)構(gòu)部分的高斯核大小從第一層到最后一層分別為7、9、11、13、15。數(shù)據(jù)擴(kuò)展采用的方式有隨機(jī)縮放、隨機(jī)翻轉(zhuǎn)和隨機(jī)旋轉(zhuǎn)變換,通過對(duì)實(shí)驗(yàn)數(shù)據(jù)的預(yù)處理可以有效地解決因?yàn)闃颖境叽绮煌?、分布不均勻?qū)е碌念A(yù)測(cè)準(zhǔn)確率較低的問題[14]。本文實(shí)驗(yàn)系統(tǒng)是基于Ubuntu18.04.5版本,Python版本為3.6,以開源框架Pytorch為平臺(tái)。初始化階中,訓(xùn)練模型的學(xué)習(xí)率為0.001,衰減系數(shù)為0.1,分別在110、150迭代周期時(shí)衰減,且衰減為1e-4、1e-5。訓(xùn)練優(yōu)化器是Adam,mini-batch設(shè)為12,總訓(xùn)練epoch為170。
3.3.1 對(duì)比實(shí)驗(yàn)結(jié)果分析
本文在LSP、MPII、COCO 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),分別比較 PCKh 和AP評(píng)價(jià)指標(biāo)。不同方法的實(shí)驗(yàn)結(jié)果在LSP數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果見表1,其中閾值為PCKh=0.2。相比較于SHN[8]、DeeperCut[15]、LFP[16]、DenseNet[17]等方法,本文提出的高分辨特征提取網(wǎng)絡(luò)結(jié)構(gòu),在手腕、腳踝等關(guān)鍵點(diǎn)處的檢測(cè)精度要稍低于SHN和LFP模型,不過在檢測(cè)速度上要分別高出5倍、7倍。這是因?yàn)楸疚姆椒ê蚐HN、LFP等方法一樣對(duì)多尺度的特征信息進(jìn)行利用與融合,不同的是SHN和LFP都進(jìn)行了多階段精度校準(zhǔn)而本文利用子網(wǎng)間的信息融合來提升精度,在保證精度的同時(shí)也兼顧了網(wǎng)絡(luò)的速度。
表1 不同方法在LSP數(shù)據(jù)集上的精度對(duì)比(PCK@0.2)
在MPII測(cè)試集上測(cè)試模型得到的各部位檢測(cè)精度結(jié)果見表2。從表2中的結(jié)果分析可知,本文所提出的方法在肘部、手腕、臀部、膝蓋、腳踝等較難檢測(cè)部位的檢測(cè)精度達(dá)到了較高的準(zhǔn)度。相比于DenseNet[17]、OpenPose[18]、Alphapose[19]、基線模型[20]、文獻(xiàn)[7]、DeeperCut[15]和ArtTrack[21],本文方法在7類關(guān)鍵點(diǎn)部位的檢測(cè)精度以及平均精度上都明顯高于前面所提到的方法,而且在手腕、膝蓋、腳踝等小尺度節(jié)點(diǎn)的預(yù)測(cè)精度上要分別高出文獻(xiàn)[7]精度的5.5%、5.4%、8.2%。能夠取得較好的檢測(cè)結(jié)果得益于本文所提出的關(guān)鍵點(diǎn)尺度變換結(jié)構(gòu),在初級(jí)特征圖上進(jìn)行關(guān)鍵點(diǎn)尺度變換,這對(duì)于那些遮擋部位、小尺度部位的有用特征信息提取有極大提升,檢測(cè)效果有明顯進(jìn)步。
表2 不同方法在MPII數(shù)據(jù)集上的精度對(duì)比(PCK@0.5)
最后采用COCO2017驗(yàn)證集作為測(cè)試集,并對(duì)比各方法的精度見表3。當(dāng)輸入256×192小尺寸的樣本時(shí),本文方法相比輸入尺寸為320×256的Alphapose[19]和輸入尺寸為480×480的MultiPoseNet[23]的AP還提高了0.7%、3.4%,雖然提升不是特別明顯,但是由于本文的輸入尺度更小,圖像有用的特征信息就更少,這也驗(yàn)證了本文所改進(jìn)后的高分辨率表征網(wǎng)絡(luò)對(duì)于微小尺度關(guān)鍵點(diǎn)精準(zhǔn)預(yù)測(cè)的有效性。究其原因是本文提出的關(guān)鍵點(diǎn)尺度變換結(jié)構(gòu)對(duì)樣本中微小尺度的節(jié)點(diǎn)具有更高的敏感度,轉(zhuǎn)換后的識(shí)別效率很高,特別是對(duì)膝蓋、腳踝等的關(guān)鍵點(diǎn)更加有用、有效;相反對(duì)于頭部和肩部這類大尺度關(guān)鍵點(diǎn)的精度提升不大。對(duì)比其它方法,本文算法在各項(xiàng)精度上都要優(yōu)于前者,同時(shí)算法的運(yùn)算量和參數(shù)量都遠(yuǎn)小于其它算法,在滿足精度的同時(shí)也兼顧了實(shí)時(shí)性,有利于算法部署到邊緣設(shè)備中。算法模型浮點(diǎn)運(yùn)算量(FLOPs)與精度關(guān)系如圖6所示。
表3 不同方法在COCO 2017驗(yàn)證集上的精度對(duì)比
圖6 運(yùn)算量與精度關(guān)系
3.3.2 消融實(shí)驗(yàn)分析
實(shí)驗(yàn)中考慮到所提出的方法會(huì)有不同的階段、不同階段的特征融合都會(huì)對(duì)實(shí)驗(yàn)結(jié)果有影響,因此,消融實(shí)驗(yàn)中本文做了4組對(duì)比實(shí)驗(yàn)。首先除開輸入大小效果的實(shí)驗(yàn)外,實(shí)驗(yàn)所得到的所有結(jié)果均在輸入尺度為256×192大小的圖像中獲得。根據(jù)多重多尺度特征融合的特點(diǎn)以及融合效果,本文提出的4組實(shí)驗(yàn)分別是:
(a)最終的特征融合,只在最后一個(gè)交換單元內(nèi)融合,其余并行階段無特征融合。
(b)階段間特征融合,只在開辟新的子網(wǎng)絡(luò)階段時(shí)融合,子網(wǎng)絡(luò)階段內(nèi)無特征融合。
(c)階段內(nèi)特征融合,在跨階段和階段內(nèi)都有特征融合,但階段內(nèi)只有一重特征融合。
(d)多重階段內(nèi)特征融合,在跨階段和階段內(nèi)有特征融合,階段內(nèi)特征包含雙重特征融合。經(jīng)過測(cè)試4種不同的尺度融合結(jié)果見表4。
表4 不同特征融合的精度對(duì)比
3.3.3 可視化結(jié)果分析
如圖7所示是本文模型在COCO數(shù)據(jù)集下的人體后6個(gè)關(guān)鍵點(diǎn)的檢測(cè)示意圖。其中上圖為原始圖像樣本的關(guān)鍵點(diǎn)真實(shí)位置,而下圖為每個(gè)關(guān)鍵點(diǎn)的預(yù)測(cè)位置分布情況。圖中展示了不同尺度的關(guān)鍵點(diǎn)的信息,根據(jù)下圖的預(yù)測(cè)結(jié)果中可以看出,網(wǎng)絡(luò)對(duì)于較小尺度的關(guān)鍵點(diǎn)仍然有較大的感知能力,對(duì)于圖像中的各類不同關(guān)鍵點(diǎn),都可以很好地檢測(cè)并還原其原始位置信息。除了尺度優(yōu)勢(shì)外,樣本中的遮擋問題也得到了一定提升,對(duì)比預(yù)測(cè)結(jié)果可以發(fā)現(xiàn)圖中右臀部和右手腕相互遮擋,但是網(wǎng)絡(luò)預(yù)測(cè)和原始標(biāo)定卻幾乎一致。
圖7 關(guān)鍵點(diǎn)檢測(cè)實(shí)驗(yàn)
圖8展示了本文方法的部分測(cè)試效果,圖中展現(xiàn)了對(duì)單人的姿態(tài)估計(jì)及整體多人的姿態(tài)估計(jì)。在圖中,即使存在部分遮擋、背景干擾、拍攝角度不同、光線陰影影響的情況下,網(wǎng)絡(luò)也可以較好檢測(cè)到關(guān)鍵點(diǎn),達(dá)到預(yù)期的表現(xiàn)。
圖8 人體姿態(tài)測(cè)試結(jié)果
針對(duì)人體姿態(tài)估計(jì)中的小尺度關(guān)鍵點(diǎn),為了有效提高人體姿態(tài)檢測(cè)模型性能,以高分辨率檢測(cè)框架為基礎(chǔ)構(gòu)建新的高分辨率表征的網(wǎng)絡(luò)并提出了一種關(guān)鍵點(diǎn)尺度轉(zhuǎn)換結(jié)構(gòu)。改進(jìn)后的網(wǎng)絡(luò)能夠提取多階段的低級(jí)特征和高級(jí)特征并在子網(wǎng)絡(luò)內(nèi)外進(jìn)行多重融合特征信息,再結(jié)合網(wǎng)絡(luò)末端的尺度轉(zhuǎn)換結(jié)構(gòu)有效地提高了關(guān)鍵點(diǎn)檢測(cè)精度。在不同的數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果表明,本文方法的檢測(cè)精度要優(yōu)于其它方法的,網(wǎng)絡(luò)模型參數(shù)量與浮點(diǎn)運(yùn)算量較小,在小尺度級(jí)別的關(guān)鍵點(diǎn)檢測(cè)效果上有較大提升。網(wǎng)絡(luò)整體相比原網(wǎng)絡(luò)更加輕量化、增加階段內(nèi)特征融合數(shù)量,但是由于去掉了更低級(jí)別分辨率的子網(wǎng),部分特征信息會(huì)有丟失。如何保證網(wǎng)絡(luò)輕量化的同時(shí),找尋新的方法來優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),彌補(bǔ)減少子網(wǎng)帶來的不利影響,進(jìn)一步提升網(wǎng)絡(luò)的檢測(cè)性能和加速網(wǎng)絡(luò)推理速度是本文未來的工作重點(diǎn)。