蔡敏敏,黃繼風,林 曉,周小平
基于人體姿態(tài)估計與聚類的特定運動幀獲取方法
蔡敏敏,黃繼風,林 曉,周小平
(上海師范大學信息與機電工程學院,上海 200234)
運動視頻中特定運動幀的獲取是運動智能化教學實現(xiàn)的重要環(huán)節(jié),為了得到視頻中的特定運動幀以便進一步地對視頻進行分析,并利用姿態(tài)估計和聚類的相關(guān)知識,提出了一種對運動視頻提取特定運動幀的方法。首先選用HRNet姿態(tài)估計模型作為基礎(chǔ),該模型精度高但模型規(guī)模過大,為了實際運用的需求,對該模型進行輕量化處理并與DARK數(shù)據(jù)編碼相結(jié)合,提出了Small-HRNet網(wǎng)絡模型,在基本保持精度不變的情況下參數(shù)量減少了82.0%。然后利用Small-HRNet模型從視頻中提取人體關(guān)節(jié)點,將每一視頻幀中的人體骨架特征作為聚類的樣本點,最終以標準運動幀的骨架特征為聚類中心,對整個視頻進行聚類得到視頻的特定運動幀,在武術(shù)運動數(shù)據(jù)集上進行實驗。該方法對武術(shù)動作幀的提取準確率為87.5%,能夠有效地提取武術(shù)動作幀。
特定運動幀;姿態(tài)估計;數(shù)據(jù)編解碼;運動特征;聚類
隨著人們生活水平的不斷提高,參與體育運動的從業(yè)者和愛好者數(shù)量不斷增加,使得體育運動發(fā)展迅猛,與此同時傳統(tǒng)運動的學習方式存在的弊端也逐漸顯現(xiàn)。對于業(yè)余愛好者只能通過教學視頻來進行模仿學習,其缺乏互動性,不能正確且詳細地了解自己的學習情況。即使是職業(yè)的運動者,如何及時并準確地知曉自己每個動作的規(guī)范程度,目前只能依賴教練的評價和指導。但這種一對一的方式,導致了教練資源的緊張和稀缺,且對教練的培養(yǎng)需要花費大量時間、人力和物力。這些問題在很大程度上的阻礙了體育運動的進一步發(fā)展,以及每個運動者在運動項目上的進步。
當前運動智能化指導主要以運動視頻的自動評價來實現(xiàn),運動視頻的自動評價主要有2種方法。一種是直接研究2個視頻之間整體的相似程度,如文獻[1-3]中將視頻數(shù)據(jù)視為一類特殊的多維時間序列,利用動態(tài)時間規(guī)整(dynamic time warping,DTW)進行整體時間序列相似度的計算從而得到評價結(jié)果,該方法只能得到總體的情況,并不關(guān)注動作本身,不僅缺失了對動作的進一步研究,也導致了在實際應用時,其作用范圍十分受限。
另一種是將視頻中得到的特定運動幀與標準幀之間進行相似度比較,能夠得到每個動作的詳細分析。該方法在一些簡單運動上已經(jīng)實現(xiàn),如文獻[4]中先獲取視頻的關(guān)鍵動作幀,做幀對比完成自動評價,但獲取運動幀的方法太過依賴于高爾夫球的運動特性。對于復雜運動不能依靠該方法獲得想要的運動幀,其難點在獲取視頻特定運動幀上,因此本文的關(guān)注點落在視頻的特定運動幀獲取上。
在獲取視頻特定運動幀的同時,也需要考慮視頻運動特征的提取。運動視頻中人體運動的位置不固定且具有多變的背景和光照條件,這些因素導致了傳統(tǒng)特征提取效果不理想。隨著人體姿態(tài)估計的不斷發(fā)展,為視頻運動特征提供了新思路,利用骨架信息作為人體的動作特征,將一系列的動作特征組合成視頻的運動特征來進行表示[5]。
目前人體姿態(tài)估計技術(shù)分為2種,一種是采用自上而下的方法,先將所有的人體部分從圖片中截取出來,再對單人圖片進行關(guān)節(jié)點檢測。WEI等[6]提出了一種卷積姿態(tài)機,運用卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN)得到人體的關(guān)鍵點;CHEN等[7]將人體的關(guān)節(jié)點按照檢測的難度進行劃分;SUN等[8]利用HRNet模型將高分辨率子網(wǎng)絡作為網(wǎng)絡的第一階段,逐步增加從高分辨率到低分辨率的子網(wǎng)形成多階段并行網(wǎng)絡,達到豐富高分辨率表征的目的。
另一種自下而上的方法是先檢測圖像中所有人的關(guān)節(jié)點部位,再利用關(guān)節(jié)點連接器進行處理,得到每個人的關(guān)節(jié)點信息。XIA等[9]提出了將人體關(guān)節(jié)點放置在分割區(qū)域的一定位置,并在部位分割和關(guān)節(jié)點之間建模;CAO等[10]在卷積姿態(tài)機的基礎(chǔ)上提出了openpose模型,使用部位親和力場來模擬人體結(jié)構(gòu),解決了使用中間點判斷連接關(guān)系所造成的錯連情況。
綜上,本文提出了一種基于姿態(tài)估計與聚類的特定運動幀獲取方法,如圖1所示。整體流程分為:①利用輕量化網(wǎng)絡對視頻流進行姿態(tài)估計,以獲得人體的姿態(tài)序列;②利用得到的姿態(tài)信息完成動作特征提取,將得到的運動特征與標準幀的運動特征進行聚類,完成視頻特定運動幀的獲取任務。
圖1 特定運動幀獲取方法流程圖
姿態(tài)估計旨對無約束圖像或視頻中的人體關(guān)節(jié)進行位置檢測。對現(xiàn)有模型通常采用熱圖定位的方式進行研究,對每一個關(guān)節(jié)點生成一張熱圖,將關(guān)節(jié)位置的概率作為熱圖的響應值,用響應值的大小來表示關(guān)節(jié)點所在的坐標,整個姿態(tài)估計的流程如圖2所示[11]。先將任意大分辨率的邊界框圖像縮小為預先規(guī)定的小分辨率圖像;然后送入人體姿態(tài)估計模型中進行熱圖預測,為了得到原始圖像中的關(guān)節(jié)位置坐標,需要對預測熱圖進行相應的分辨率恢復,將其轉(zhuǎn)換回原始坐標空間;最后將預測的位置稱為最大激活的位置。
圖2 姿態(tài)估計完整過程流程圖((a)數(shù)據(jù)處理;(b)人體姿態(tài)估計模型;(c)模型訓練;(d)模型測試)
本文在人體姿態(tài)估計模型HRNet的基礎(chǔ)上,對模型進行輕量化處理,同時使用DARK數(shù)據(jù)編解碼技術(shù)[11],完成Small-HRNet模型的構(gòu)建,在保持檢測精度基本不變的情況下,模型參數(shù)量減少了82%。
Small-HRNet網(wǎng)絡是以HRNet模型為基礎(chǔ)完成的結(jié)構(gòu)設(shè)計,如圖3所示。其改進思路是在保持精度的基礎(chǔ)上最大可能地對原有模型進行簡化。簡化模型包括:①利用可分離卷積的思想設(shè)計了Smallblock模塊,將3×3的卷積核替換為3×3的組卷積和1×1卷積的組合運算;②減少了原有模型并行子網(wǎng)數(shù),以減少參數(shù)量。
Small-HRNet網(wǎng)絡結(jié)構(gòu)主要包含3個階段,stage1,stage2和stage3,由并行連接的子網(wǎng)構(gòu)成,每一個子網(wǎng)由上而下,每一級的分辨率均為上一級的1/2,同時通道數(shù)增加2倍。stage1是由分辨率最高的一條Bottleneck模塊構(gòu)成的子網(wǎng)組成,如圖3(c)所示;stage2由2條并行的Basicblock模塊子網(wǎng)組成,如圖3(d)所示;stage3則是由3條Smallblock模塊的子網(wǎng)組成,如圖3(e)所示。圖3(b)是不同分辨率特征之間的融合方式示意圖,上述3個階段相互連接融合使得網(wǎng)絡的整體呈現(xiàn)出3條子網(wǎng)并行的結(jié)構(gòu),正是這種結(jié)構(gòu)使整個網(wǎng)絡在保持高分辨率的同時增強了多尺度的信息融合。
圖3 Small-HRNet模型示意圖((a)網(wǎng)絡結(jié)構(gòu);(b)不同分辨率特征融合方式;(c) Bottleneck模塊;(d) Basicblock模塊;(e) Smallblock模塊)
通常在訓練姿態(tài)估計網(wǎng)絡時,會從訓練代價的角度出發(fā),將圖像做降采樣處理以縮小圖像分辨率。同時為了使網(wǎng)絡能夠利用熱圖為標簽進行訓練,需將基于原圖的坐標轉(zhuǎn)換成降采樣后的坐標,再通過高斯模糊變成熱圖形式,本文將該過程稱為坐標編碼。反之為了得到關(guān)節(jié)點在原圖中的坐標,在網(wǎng)絡進行熱圖預測后,需先進行對應的分辨率恢復,再轉(zhuǎn)換成坐標表示,這種從熱圖到坐標的轉(zhuǎn)換過程稱為坐標解碼。
在人體姿態(tài)估計的研究中,大多關(guān)注網(wǎng)絡的構(gòu)建和改進,很少研究關(guān)節(jié)點的編碼和解碼過程。然而在分辨率變化時可能引入量化誤差,會對整個的預測結(jié)果產(chǎn)生比想象中更大的影響,所以本文在關(guān)節(jié)點的編碼和解碼的研究中選用了DARK的編解碼方法[11]。
1.2.1 原有的編碼和解碼方法
在對原有的坐標進行編碼之前,需要將原圖降采樣到模型輸入的大小,所以在生成熱圖之前,需要依據(jù)分辨率的變換對坐標進行相應的變換。
降采樣后的坐標為
對?進行量化處理后,得
其中,(,)為關(guān)節(jié)點在原圖中的真實坐標;為降采樣率;函數(shù)為量化函數(shù),常用的選項可以為向下、向上取整函數(shù)和四舍五入函數(shù)。
以量化坐標″為中心的熱圖,即
其中,(,)為熱圖中的像素位置;為固定的空間方差。
原有的坐標解碼方法是由文獻[12]依據(jù)其當時研究的模型性能按照經(jīng)驗設(shè)計的,由熱圖轉(zhuǎn)換而來的坐標位置為
1.2.2 DARK的編碼和解碼方法
DARK的坐標編碼和解碼方法研究了預測熱圖的分布結(jié)構(gòu),和原有的幾乎沒有設(shè)計依據(jù)的編解碼方法有很大的不同。
DARK的坐標編碼方法:用非量化之前的?代表量化中心,將式(3)中的″用?替代。
DARK的坐標解碼方法:為了獲得亞像素級的準確坐標,假設(shè)預測熱圖和真實熱圖一樣服從二維高斯分布。因此,可將預測熱圖表示為
對式(6)進行對數(shù)變換可得
本文的目標只為了估算,高斯分布的一個極值點,該點的一階導數(shù)滿足
為了探索該條件,采用了泰勒定理,選用二次項泰勒級數(shù)在預測熱圖的最大激活處進行近似化
其中,″()為在處的二階導數(shù),可定義為
由式(9)~(11)可得
運動視頻中特定運動幀的獲取是一項具有挑戰(zhàn)的任務,因視頻數(shù)據(jù)的維度高且復雜。視頻具有時間特性,因可將運動視頻看作時序數(shù)據(jù),但每個時序點并不是一維數(shù)據(jù)而是圖像,這種復雜的數(shù)據(jù)形式給處理方法的選擇造成了很大的困難。
本文選用聚類的思想對視頻數(shù)據(jù)進行處理,以解決上述問題。先基于人體骨架信息進行特征提取,在固定了聚類中心和簇數(shù)之后讓數(shù)據(jù)根據(jù)彼此的相似性進行自動分類,聚類完成后,選取與聚類中心最相似的運動幀作為該特定運動幀。在武術(shù)運動數(shù)據(jù)集上進行實驗準確率達87.5%。
將運動視頻的每一幀圖像送入Small-HRNet網(wǎng)絡中進行人體姿態(tài)估計,得到人體關(guān)節(jié)點的坐標信息,利用坐標信息對運動特征進行提取。每3個相鄰的人體關(guān)節(jié)點會形成一個夾角,利用關(guān)節(jié)點的坐標通過余弦定理可計算夾角,將一系列的夾角角度作為運動特征。但是僅僅利用角度大小作為特征信息會有信息缺失。如圖4所示,左圖中左肩、左肘和左腕3個相鄰關(guān)節(jié)點(⑤-⑦-⑨)形成的夾角角度與右圖中相同部位形成的大小相等,但是可以清楚地看出,二者顯示的并不是同一動作,因此僅用夾角大小作為特征信息并不合適。
為了解決僅用角度大小存在的信息缺失問題,在運動特征中增加了方向信息,實際增加了2個向量之間的相對位置信息,不再直接利用余弦定理完成角度計算,而是定義了關(guān)節(jié)點的旋轉(zhuǎn)角,將一系列的旋轉(zhuǎn)角作為運動特征。以左肩、左肘和左腕為例,從左肘到左肩的矢量為,從左肘到左腕的矢量為,且和均為單位矢量,矢量逆時針旋轉(zhuǎn)到矢量的角度定義為的旋轉(zhuǎn)角。
圖4 不同動作具有相同角度示意圖
根據(jù)運動時人體關(guān)節(jié)點的重要程度,選取了11個關(guān)節(jié)點的旋轉(zhuǎn)角作為運動特征,見表1。
表1 運動特征所含旋轉(zhuǎn)角信息
本文將每一幀的運動特征作為一個樣本點,對完整視頻形成的所有樣本點進行固定聚類中心和簇數(shù)的聚類操作。固定的聚類中心選用的是一系列標準動作幀的運動特征,簇數(shù)與需要獲取的特定運動幀數(shù)量相等,樣本點和聚類中心的距離可表示為對應關(guān)節(jié)點旋轉(zhuǎn)角之間的歐式距離之和加一個偏移量,即
其中,為運動特征中關(guān)節(jié)點旋轉(zhuǎn)角的個數(shù);為當前樣本點的關(guān)節(jié)點旋轉(zhuǎn)角;為和當前樣本點第個旋轉(zhuǎn)角相對應的標準幀的關(guān)節(jié)點旋轉(zhuǎn)角;為偏移量。研究中發(fā)現(xiàn),對于2個不同的動作會出現(xiàn)鏡像的情況,即所有的旋轉(zhuǎn)角都一致,但一個動作人臉是正面而另一個是反面,所以即便使用旋轉(zhuǎn)角還是會造成錯誤。為了解決該問題,本文采用了一個簡單而有效的方法,判斷左腳和右腳的相對位置。若右腳的水平坐標值比左腳的值小,則說明人臉是正面,反之是背面。所以用偏移量來表示樣本點是否與該聚類中心的動作同方向,若相同,為零,否則為無窮大。
將帶有運動特征的所有視頻幀進行聚類,完成后將距每個聚類中心最近的視頻幀作為所求的特定運動幀,并完成其獲取任務。
從實驗樣本中隨機抽取5個視頻,按式(13)計算其8個正確運動幀與每個標準幀的距離,并得到平均值繪制熱力圖,如圖5所示。從圖中可以看出,正確幀與其相對應的標準幀的距離是最小的,表明旋轉(zhuǎn)角和運動幀之間有一定的相關(guān)性,可以利用旋轉(zhuǎn)角之間的距離計算完成運動特征的聚類。
圖5 標準幀與正確幀之間距離均值的熱力圖
本文實驗所用處理器為英特爾i7-9750H,內(nèi)存為16 G,顯卡為8 G的RTX2070,系統(tǒng)使用的是Ubuntu20.04版本。實驗基于pytorch深度學習框架對人體姿態(tài)估計模型進行搭建,并使用GPU加速訓練和識別過程。
3.2.1 數(shù)據(jù)集
本文選擇在人體姿態(tài)估計最常用的MPII和COCO2個基準數(shù)據(jù)集上進行實驗。MPII數(shù)據(jù)集[13]總共包括25 000張帶有標注信息的圖片,其中單人的姿態(tài)標注有40 000多個,人體被標注為16個骨骼關(guān)節(jié)點。COCO數(shù)據(jù)集[14]總共包括200 000張帶有標注信息的圖片,其中單人標注有250 000個,人體被標注為17個關(guān)節(jié)點,并對每個關(guān)節(jié)點的坐標和可見性均進行了記錄。
實驗1.選用MPII數(shù)據(jù)集中的訓練集樣本22 246個作為訓練樣本,選用其驗證集作為測試樣本,驗證集中包含2 958個樣本MPII的骨骼關(guān)節(jié)點信息,如圖6所示。
圖6 MPII數(shù)據(jù)集的骨骼點信息圖
實驗2.選用COCO數(shù)據(jù)集中的訓練集149 813個樣本作為訓練樣本,選用其驗證集的6 352個樣本作為測試樣本。COCO的骨骼關(guān)節(jié)點信息如圖7所示。
3.2.2 評價指標
本文在實驗1即MPII數(shù)據(jù)集中使用PCKh評價指標作為模型評估的度量。PCK定義為模型檢測出的關(guān)節(jié)點與正確標注的關(guān)節(jié)點之間歸一化的距離,小于事先設(shè)定閾值的一定比例,可稱為PCK@評價方法[15]。在MPII數(shù)據(jù)集中歸一化距離以頭部長度作為歸一化參考,即為PCKh。常用的PCKh評價有PCKh@0.2和PCKh@0.5。實驗選用PCKh@0.5作為模型的準確率評價標準。即若模型檢測的關(guān)節(jié)點與正確標注關(guān)節(jié)點之間的像素坐標距離小于人體頭部長度比例的0.5時,表示該關(guān)節(jié)點檢測正確[15]。其準確率為
圖7 COCO數(shù)據(jù)集的骨骼點信息圖
其中,為檢測正確的個數(shù);為總的檢測個數(shù)。
本文在實驗2即COCO數(shù)據(jù)集中使用評價指標[14]作為模型評估的度量,即
其中,d為預測的關(guān)節(jié)點與正確標注的關(guān)節(jié)點之間的歐式距離;為關(guān)節(jié)點的個數(shù);v為該關(guān)節(jié)點是否可見,大于零為可見;為目標尺度;k為關(guān)節(jié)點的控制衰減常數(shù)。50表示為0.50時的檢測準確度,本文在實驗中選擇平均準確率來進行模型評估,為分別等于0.50,0.55,0.60,···,0.90,0.95時準確度的均值。
3.2.3 訓練策略
實驗在模型訓練時采用部分HRNet的預訓練權(quán)重對網(wǎng)絡進行初始化,因為對模型的網(wǎng)絡結(jié)構(gòu)和基礎(chǔ)塊進行了修改,所以并不能使用全部的預訓練權(quán)重,當初始化模型檢測效果不理想時,損失函數(shù)值會變大,且極易造成梯度分散并影響準確率,因此需選用部分預訓練權(quán)重進行初始化。本實驗模型的訓練參數(shù)見表2,在訓練中小于170時,學習率定為初始學習率0.100,之后的迭代則將學習率設(shè)置為最終的0.001。
表2 模型訓練參數(shù)
3.2.4 結(jié)果與分析
本文在對HRNet網(wǎng)絡進行改進和輕量化后,在MPII數(shù)據(jù)集和COCO驗證集上分別進行了對比實驗。實驗1的結(jié)果見表3,結(jié)果表明本文方法相比HRNet-32和HRNet-32+DARK方法,在保持精確度不變時參數(shù)量和GFLOPs大幅度下降,參數(shù)量減少了82.1%,GFLOPs降低了53.2%,相較于HRNet-32方法精確度僅下降了0.1%。
表3 不同方法在MPII驗證集上的對比
實驗2的結(jié)果見表4,結(jié)果表明本文方法相比HRNet-32和HRNet-32+DARK方法參數(shù)量減少了82.1%,GFLOPs降低了53.7%,相較于HRNet-32方法精確度下降了1.0%。
表4 不同方法在COCO驗證集上的對比
通過實驗結(jié)果可以看出,本文使用的Small- HRNet模型同時采用DARK數(shù)據(jù)編解碼方法,可以大幅度地縮小模型規(guī)模并保持精度基本不變。
圖8為本文實驗的測試結(jié)果可視化示意圖。圖中本文方法具有一定的魯棒性,即使在人體有遮擋的情況下,也能夠準確檢測出人體的關(guān)節(jié)點,并得到坐標信息進行后續(xù)研究。
圖8 可視化結(jié)果示意圖((a) MPII中無遮擋結(jié)果;(b) MPII中部分遮擋結(jié)果;(c) COCO中無遮擋結(jié)果;(d) COCO中部分遮擋結(jié)果)
3.3.1 數(shù)據(jù)集
本文實驗選用了2個中學關(guān)于武術(shù)運動的20個視頻作為實驗測試集,選取理由:①武術(shù)動作復雜程度高且動作幅度大,相比一般的運動研究難度更大,可以突出本文實驗方法在復雜運動中的有效性;②選用專業(yè)化程度不高的中學生的武術(shù)視頻,可以驗證在出錯率較高的實際場景下本文方法的魯棒性。本文實驗選取了8個武術(shù)典型動作作為實驗動作,分別為并步抱拳、沖拳彈踢、馬步?jīng)_拳、弓步?jīng)_拳、正馬步?jīng)_拳、弓步雙沖拳、馬步架打和回身弓步?jīng)_拳,如圖9所示。
圖10為利用Small-HRNet模型對武術(shù)數(shù)據(jù)集進行姿態(tài)估計的可視化結(jié)果圖,可以看出本文方法在武術(shù)數(shù)據(jù)集上也有良好的效果。因為運動特征中利用了旋轉(zhuǎn)角,為了方便分析,在數(shù)據(jù)集的可視化中添加了軀干可視化結(jié)果。
圖9 武術(shù)動作示意圖((a)并步抱拳;(b)沖拳彈踢;(c)馬步抱拳;(d)弓步?jīng)_拳;(e)正馬步?jīng)_拳;(f)弓步雙沖拳;(g)馬步架打;(h)回身弓步?jīng)_拳)
圖10 武術(shù)數(shù)據(jù)集可視化結(jié)果圖
3.3.2 評價指標
本文實驗選用準確率作為評價指標,用預測正確的幀數(shù)占整個實驗幀數(shù)的比例進行評價,但預測正確的定義與通常意義的并不相同,實驗中的每幀按每秒30幀進行獲取。實驗前將得到每一個武術(shù)動作幀的最優(yōu)幀,實驗后得到預測幀,若實驗的預測幀出現(xiàn)在最優(yōu)幀的前后3幀之內(nèi),將認定該動作幀預測正確,反之認為預測錯誤。
3.3.3 結(jié)果與分析
本實驗采用COCO數(shù)據(jù)集對人體關(guān)節(jié)點的標注形式完成運動特征的提取,并利用本文提出的歐式距離加偏移量的方法作為距離度量進行聚類操作,實驗結(jié)果見表5。本文提出的方法在武術(shù)數(shù)據(jù)集上的準確率達87.5%,比單純利用歐式距離做度量的方法提高了12.5%。實驗表明本文方法能夠較好地提取8種典型武術(shù)動作幀。
表5 不同距離度量在武術(shù)數(shù)據(jù)集上的對比(%)
圖11(a)為弓步?jīng)_拳的教練標準幀,圖11(b)為某一實驗樣本中該動作的預測幀,該學生的左手并未伸直,所以不在所要尋找的正確幀范圍內(nèi)。由于人體相對于攝像機的位置不同,視角產(chǎn)生差異從而導致了錯誤??梢钥闯霰疚姆椒▽σ暯鞘置舾?。
圖11 錯誤樣例示意圖((a)教練標準幀;(b)對應預測幀)
對視角敏感的根本原因是本文通過二維姿態(tài)估計為基礎(chǔ)提出特定運動幀的獲取方法,而二維關(guān)鍵點信息天然具有姿態(tài)的不確定性。在復雜情況下難以反映完整的三維姿態(tài)信息,使得本文的方法在更加復雜的數(shù)據(jù)集中擴展有一定困難。
本文提出了一種輕量化人體姿態(tài)估計模型和一種視頻特定動作幀的獲取方法。通過對網(wǎng)絡結(jié)構(gòu)和基礎(chǔ)塊的改進,完成對現(xiàn)有姿態(tài)估計模型的輕量化操作,并通過該輕量化網(wǎng)絡對視頻進行人體姿態(tài)估計,利用骨骼信息從中提取運動特征同時結(jié)合聚類的知識,完成對視頻特定運動幀的獲取。實驗結(jié)果表明,本文的輕量化網(wǎng)絡在基本保持精度不變的情況下大幅度減少了模型參數(shù)。本文的視頻特定動作幀獲取方法可以有效地提取出8種典型武術(shù)動作幀,均具有很好的實用性?,F(xiàn)階段只選取了部分的武術(shù)動作進行研究,且沒有重復動作,后續(xù)將對擁有重復動作和更多種類的視頻進行特定動作幀的獲取研究。
[1] CHAARAOUI A A, CLIMENT-PéREZ P, FLóREZ- REVUELTA F. An efficient approach for multi-view human action recognition based on bag-of-key-poses[C]//The 3rd International Conference on Human Behavior Understanding. Heidelberg: Springer, 2012: 29-40.
[2] CHAARAOUI A A, PADILLA-L PEZ J R, CLIMENT- PéREZ P, et al. Evolutionary joint selection to improve human action recognition with RGB-D devices[J]. Expert Systems With Applications, 2014, 41: 786-794.
[3] CHANDRASEKARAN B, CHITRAKALA S. Robust and adaptive approach for human action recognition based on weighted enhanced dynamic time warping[C]//The 3rd International Symposium on Women in Computing and Informatics. New York: ACM Press, 2015: 412-418.
[4] 季月鵬. 基于視頻人體姿態(tài)估計的高爾夫揮桿動作比對分析研究[D]. 南京: 南京郵電大學, 2019.
JI Y P. The research on golf swing action comparison based on video human body pose estimation[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2019 (in Chinese).
[5] 郭天曉, 胡慶銳, 李建偉, 等. 基于人體骨架特征編碼的健身動作識別方法[J]. 計算機應用, 2021, 41(5): 1458-1464.
GUO T X, HU Q R, LI J W, et al. Fitness action recognition method based on human skeleton feature encoding[J]. Journal of Computer Applications, 2021, 41(5): 1458-1464 (in Chinese).
[6] WEI S E, RAMAKRISHNA V, KANADE T, et al. Convolutional pose machines[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 4724-4732.
[7] CHEN Y L, WANG Z C, PENG Y X, et al. Cascaded pyramid network for multi-person pose estimation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7103-7112.
[8] SUN K, XIAO B, LIU D, et al. Deep high-resolution representation learning for human pose estimation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 5686-5696.
[9] XIA F T, WANG P, CHEN X J, et al. Joint multi-person pose estimation and semantic part segmentation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 6080-6089.
[10] CAO Z, SIMON T, WEI S E, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 1302-1310.
[11] ZHANG F, ZHU X T, DAI H B, et al. Distribution-aware coordinate representation for human pose estimation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 7091-7100.
[12] NEWELL A, YANG K Y, DAI J. Stacked hourglass networks for human pose estimation[C]//2016 European Conference on Computer Vision. Cham: Springer Intemational Publising, 2016: 483-499.
[13] ANDRIUKA M,PISHCHULIN L,GEHLERM A P, et al. Human pose estimation: new benchmark and state of the art analysis[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 3686-3693.
[14] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[C]//2014 European Conference on Computer Vision. Cham: Springer Intemational Publising, 2014: 740-755.
[15] 張世豪. 基于深度學習的人體骨骼關(guān)鍵點檢測方法研究[D]. 桂林: 桂林電子科技大學, 2019.
ZHANG S H. Research on key point detection method of human skeleton based on deep learning[D]. Guilin: Guilin University of Electronic Technology 2019 (in Chinese).
[16] HUANG J J, ZHU Z, GUO F, et al. The devil is in the details: delving into unbiased data processing for human pose estimation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 5699-5708.
Acquisition method of specific motion frame based on human attitude estimation and clustering
CAI Min-min, HUANG Ji-feng, LIN Xiao, ZHOU Xiao-ping
(School of Information and Electromechanical Engineering, Shanghai Normal University, Shanghai 200234, China)
The acquisition of specific motion frames in motion video was an important part of intelligent teaching. In order to obtain specific motion frames in video for further analysis, a method of extracting specific motion frames from motion video was proposed using the knowledge of pose estimation and clustering. Firstly, the HRNet attitude estimation model was adopted as the basis, which was of high precision but large scale. To meet the needs of practical application, this paper proposed a Small-HRNet network model by combining it with the data encoding of DARK. The parameters were reduced by 82.0% while the precision was kept unchanged. Then, the Small-HRNet model was employed to extract human joint points from the video. The human skeleton feature in each video frame served as the sample point of clustering, and finally the whole video was clustered by the skeleton feature of the standard motion frame as the clustering center to produce the specific motion frame of the video. The experiment was carried out on the martial arts data set, and the accuracy rate of the martial arts action frame extraction was 87.5%, which can effectively extract the martial arts action frame.
specific motion frame; attitude estimation; data encoding and decoding; movement characteristics; clustering
23 June,2021;
TP 391
10.11996/JG.j.2095-302X.2022010044
A
2095-302X(2022)01-0044-09
2021-06-23;
2021-08-15
15 August,2021
國家自然科學基金項目(61775139);上海市地方能力建設(shè)項目(19070502900)
National Natural Science Foundation of China (61775139);Shanghai Local Capacity Building Project (19070502900)
蔡敏敏(1997–),女,碩士研究生。主要研究方向為機器學習與計算機視覺。E-mail:caiminminw@163.com
CAI Min-min (1997–), master student. Her main research interests cover machine learning and computer vision. E-mail:caiminminw@163.com
黃繼風(1963–),男,教授,博士。主要研究方向為機器學習與機器視覺等。E-mail:jfhuang@shnu.edu.cn
HUANG Ji-feng (1963–), professor, Ph.D. His main research interests cover machine learning, machine vision, etc. E-mail:jfhuang@shnu.edu.cn