畢雪超
摘要:為了提升機器視覺中特定舞蹈動作識別的性能,設計了基于全局上下文的特定舞蹈動作識別方法。該方法基于Hourglass結構,通過連接高低分辨率的特征圖,將具備全局信息的深層特征圖上采樣與淺層特征融合,使得每一個階段的高分辨率特征圖均具有低分辨率的特征圖表示,從而得到信息更豐富的高分辨率特征圖表示,最終回歸人體姿態(tài)熱力圖。在Balletto舞蹈視頻數(shù)據(jù)庫中的測試結果表明,相比基于CPN和基于Hourglass的算法,所提算法的AP值提高2.4%,AR提升了1.6%。
關鍵詞:Hourglass;殘差模塊;向上連接;全局上下文信息;多尺度特征融合
中圖分類號:TP391.9
文獻標志碼:A
ASpecificDanceActionRecognitionMethodBasedonGlobalContext
BIXuechao
(YouthLeagueCommittee,XianVocationalandTechnicalCollegeof
AeronauticsandAstronautics,Xian710089,China)
Abstract:Toimprovetheperformanceofspecificdanceactionrecognitioninmachinevision,aspecificdanceactionrecognitionmethodbasedonglobalcontextisdesigned.ThismethodisbasedonHourglassstructure.Byconnectingthehighresolutionandlowresolutionfeaturemaps,thedeepfeaturemapwithglobalinformationissampledandfusedwiththeshallowfeaturemap,sothatthehighresolutionfeaturemapofeachstagehasthelowresolutionfeaturemaprepresentation,soastoobtainthehighresolutionfeaturemaprepresentationwithmoreinformation,andfinallyreturntothehumanposturethermalmap.ThetestresultsinBallettodatasetshowthatcomparedwiththealgorithmsbasedonCPNorHourglass,theAPscoreandARscoreoftheproposedalgorithmareincreasedby2.4%and1.6%,respectively.
Keywords:Hourglass;residualmodule;upwardconnection;globalcontextinformation;multiscalefeaturefusion
0引言
特定舞蹈動作識別是人體姿態(tài)估計技術的一個重要應用領域[13],通過舞蹈動作識別技術可以幫助舞蹈演員糾正錯誤姿勢,有助于智能化舞蹈輔助訓練[4]。PfisterT等人[5]將人體姿態(tài)估計視為檢測問題,通過回歸人體姿態(tài)關鍵點的熱力圖來進行人體姿態(tài)估計。之后,采用人體各部件響應圖來表達各部件之間空間約束的人體姿態(tài)估計方法被提出[6]。NewellA等人[7]提出了基于Hourglass的人體姿態(tài)估計算法,該算法可以獲取多尺度特征同時具有更加簡潔的結構。Openpose[8]實時檢測多人2D姿態(tài)方法的主要原理是通過部分親和域去學習將身體部位和對應個體關聯(lián)。為了提升算法對于復雜關鍵點的檢測性能,文獻[9]采用一個全局網(wǎng)絡檢測簡單關鍵點,然后通過RefineNet檢測復雜關鍵點進行姿態(tài)估計,這種網(wǎng)絡結構被稱為CPN。本文基于Hourglass結構[10],設計了基于全局上下文信息的舞蹈動作識別算法,用于學習特定的復雜舞蹈動作識別。
1基于全局上下文的舞蹈動作識別
本文提出了一種結合全局上下文信息的架構,能夠在整個過程中結合全局上下文信息并維護高分辨率的表示,結構如圖1所示。
算法采用256×256的圖片輸入,首先進行下采樣和三個殘差模塊;然后,經(jīng)過若干個結合全局上下文信息的Hourglass結構;最后,通過兩個連續(xù)的1×1卷積得到舞者的骨架關鍵點圖。
1.1基于Hourglass的網(wǎng)絡結構
基于Hourglass的模型通過串聯(lián)高低分辨率的特征圖,具有更優(yōu)的對稱性,可以融合多尺度特征[1112]。因此,本文采用基于Hourglass的模型作為基本網(wǎng)絡來進行姿態(tài)估計。該模型通過將高分辨率到低分辨率的子網(wǎng)絡串聯(lián)起來,每個子網(wǎng)絡形成一個階段,由一系列卷積組成。相鄰子網(wǎng)絡之間存在一個下采樣層,將分辨率減半,如式(1)。
f11→f22→…→fs-1,r-1→fs,r(1)
Hourglass主要由殘差模塊構成,如圖2所示[13]。
殘差模塊一般由兩條分支組成:第一分支主要為了增加深度與提取特征,通過兩個1×1的卷積層和一個3×3的卷積層組成;第二分支核與常規(guī)殘差模塊不同,為了控制輸入通道數(shù)和輸出通道數(shù)。本文的殘差模塊通過輸入通道數(shù)和輸出通道數(shù)進行控制,可以對任意尺度圖像進行操作。
與其他人體姿態(tài)估計的網(wǎng)絡結構類似,Hourglass同樣是從高分辨率特征圖下采樣至低分辨率,然后再上采樣回到原來的分辨率,但Hourglass具有更加對稱的容量分布,一階結構如圖3所示。
其包含兩條支路、一條原分辨率特征圖支路和一條降采樣后的低分辨率特征圖支路。原分辨率支路包含3個殘差模塊,用于高分辨率特征提取。該支路只改變特征圖深度,不改變特征圖尺度。第二條支路則先通過一個Maxpooling進行下采樣,然后經(jīng)歷5個殘差塊,再上采樣回前一個尺度并與第一支路的特征圖進行融合。
1.2結合全局上下文的網(wǎng)絡結構
舞蹈動作通常具有復雜且大幅度的變化,識別舞蹈動作姿態(tài)需要深度學習模型在提取特征時,抓住每個尺度信息的需求[14]。人的朝向、四肢的排列、相鄰關節(jié)的關系均是需要從全局上下文信息進行推理識別,并對局部信息進行準確定位。為了使網(wǎng)絡具備更優(yōu)的全局上下文信息,本文對網(wǎng)絡進行改進,設計了結合全局上下文的Hourglass,結構如圖4所示。
基于Hourglass的網(wǎng)絡是有序地從高分辨率到低分辨率連接各子網(wǎng)絡進行構建。其中,每個Stage的每個子網(wǎng)絡均包含多個卷積序列,且在鄰近的子網(wǎng)絡間會有下采樣層,從而將特征分辨率減半。
本文將一個高分辨率的子網(wǎng)絡作為第一個Stage。每次下采樣后均將特征圖從高分辨率到低分辨率逐一添加到子網(wǎng)絡中,連接各個多分辨率特征,如式(2)。
f1,1←f1,1
fs,r+1←fs,r+fs+1,r+1,s≤r
fs,r+1←fs-1,r,s=r+1
r=1,2,3,4(2)
結合全局上下文的Hourglass通過圖5給出的連接模塊將低分辨率特征圖融合到高分辨率特征圖中,使得每一個尺度的特征圖均包含其前層特征及額外的低分辨率特征。如圖5所示。
其中,這些低分辨率特征圖具有更加寬闊的感受野,包含全局上下文信息。
1.3模型訓練
本文方法的輸出僅采用模型輸出的高分辨率特征表示來回歸Heatmaps。Loss函數(shù)采用均方差誤差,并對預測的Heatmaps和GroundTruthHeatmaps進行計算[15],而后者是通過以關鍵點GroundTruth坐標(x,y)為中心,采用1像素標準差的2DGaussian生成。
2試驗和分析
算法在Balletto舞蹈視頻數(shù)據(jù)庫上進行測試,選取7000張作為訓練集,其余圖片作為測試集。
2.1評價指標
本文采用基于ObjectKeypointSimilarity(OKS)的評價指標對各關鍵點進行評估[16]。OKS的計算,如式(3)。
OKS=∑iexp-d2p22S2pσ2iδ
(vi>0)∑iδ(vi>0)(3)
本文對于模型準確度采用了AP、AP50、AP75、APM、APL、AR等幾個指標,其中AP取值為OKS從0.50~0.95等10個位置的平均AP,AP50表示OKS為0.50時的AP;AP75表示OKS為0.75時的AP;APM表示中尺度目標的AP;APL表示大尺度目標的AP;AR表示平均召回率。此外,本文還對模型大小進行了分析,主要采用參數(shù)大小和浮點型運算量(FLOPs)進行分析。
2.2數(shù)據(jù)庫評估
算法準確度分析結果,如表1所示。
本文方法從零開始訓練,輸入圖像尺度為256×256,獲得了70.3分。相比基于CPN的算法提高了2.5%,比基于Hourglass的算法提高了2.4%。這表明本文通過全局上下文信息及特定舞蹈動作提升識別準確度的方法有效。全局上下文信息有助于模型學習識別舞者各關鍵點的特征,從AP50和AP75也可以看出,本文方法相比其他兩種算法提高了1%~2%。但對于不同尺度的舞者,該方法并未獲取更優(yōu)的準確度。在對于大尺度的舞者姿態(tài)識別時,本文方法的準確度略低于基于CPN的算法。但在中尺度的舞者圖像中,該算法仍獲得了1%的提高。大尺度的目標包含更豐富的信息,對于舞者動作識別更加簡單,這使得3種方法的準確度差別較小。此外,本文方法的AR值比其他算法提高1.3%。
對物質(zhì)姿態(tài)估計的PCK指標評估結果,如表2所示。
從表2中可知,本文方法的PCK分數(shù)達到了86.1%,優(yōu)于其他算法,對于難度較大的一些關鍵點,本算法也獲得了有效提升。
與其他算法的模型大小分析,如表3所示。
文中方法的FLOPs為6.25GB,略高于其他算法,而且參數(shù)量也略大于其他算法,說明該方法在提升準確度的同時也增加了運算代價。
本文算法對特定舞蹈動作識別的部分效果圖進行展示,如圖6所示。
該算法成功將大部分舞蹈動作的關鍵點進行識別。對于第一列第一幅圖、第三列第二幅圖中遮擋隱藏的關鍵點,本文算法可以成功檢測。在第一列第二幅圖、第三列第二幅圖中舞者兩腿出現(xiàn)交叉,但本算法能夠準確檢測出左右腿的關鍵點。另外,對于第二列第二幅圖、第二列第三幅圖和第四列第三幅圖中舞者的一些大幅度動作,算法也可以成功檢測出人體關鍵點。但對于第一列第三幅圖,算法并未成功檢測出左腳踝關節(jié)。經(jīng)分析認為,該圖中舞者動作尺度變化復雜,左腿幾乎與左手重疊,這給人體關鍵點識別帶來了困難。
3總結
為了獲得更豐富的全局上下文信息,提升模型對舞者處于遮擋、交叉和大幅度動作的關鍵點檢測性能,本文通過將低分辨率特征圖上采樣與高分辨率特征圖結合的方式設計了一種特定舞蹈動作識別算法。測試結果表明,該算法具有比基于CPN和Hourglass的算法更好的檢測精度。但該算法在對于一些劇烈的動作識別中仍存有不足,在后續(xù)的研究中將針對劇烈尺度變化的舞蹈動作識別算法進行改進。
參考文獻
[1]鄧益儂,羅健欣,金鳳林.基于深度學習的人體姿態(tài)估計方法綜述[J].計算機工程與應用,2019,55(19):2242.
[2]DangQ,YinJ,WangB,etal.Deeplearningbased2Dhumanposeestimation:Asurvey[J].TsinghuaScience&Technology,2019,24(6):663676.
[3]邢占偉.基于多特征融合的舞蹈動作識別方法研究[D].沈陽:遼寧大學,2017.
[4]任文.基于姿態(tài)估計的運動輔助訓練系統(tǒng)研究[J].電子設計工程,2019,27(18):149152.
[5]PfisterT,CharlesJ,ZissermanA,etal.FlowingConvNetsforhumanposeestimationinvideos[C].InternationalConferenceonComputerVision,Boston,2015:19131921.
[6]WeiS,RamakrishnaV,KanadeT,etal.Convolutionalposemachines[C].ComputerVisionandPatternRecognition,Chicago,2016June2730:47244732.
[7]NewellA,YangK,DengJ,etal.StackedHourglassnetworksforhumanposeestimation[C].Amsterdam:EuropeanConferenceonComputerVision,Paris,2016October1114:483499.
[8]CaoZ,SimonT,WeiS,etal.RealtimeMultiPerson2Dposeestimationusingpartaffinityfields[C].ComputerVisionandPatternRecognition,Beijing,2016June2730:32103222.
[9]ChenY,WangZ,PengY,etal.CascadedpyramidnetworkforMultiPersonposeestimation[C].ComputerVisionandPatternRecognition,Shanghai,2017July2126:356363.
[10]YangW,LiS,OuyangW,etal.Learningfeaturepyramidsforhumanposeestimation[C].InternationalConferenceonComputerVision,Guangzhou,2017October2229:12901299.
[11]許政.基于深度學習的人體骨架點檢測[D].濟南:濟南大學,2019.
[12]于景華,王慶,陳洪.基于動作評價算法的體感舞蹈交互系統(tǒng)[J].計算機與現(xiàn)代化,2018(6):6471.
[13]于華,智敏.基于卷積神經(jīng)網(wǎng)絡的人體動作識別[J].計算機工程與設計,2019,40(4):11611166.
[14]桑海峰,田秋洋.面向人機交互的快速人體動作識別系統(tǒng)[J].計算機工程與應用,2019,55(6):101107.
[15]馬悅,張玉梅.一種基于模糊綜合評價的人體動作識別方法[J].信息技術,2018(3):2733.
[16]陳甜甜,姚璜,魏艷濤,等.基于融合特征的人體動作識別[J].計算機工程與設計,2019,40(5):13941400.
(收稿日期:2020.03.11)