石念峰,侯小靜,張 平
(1.洛陽理工學(xué)院 計算機與信息工程學(xué)院,河南 洛陽 471023; 2.河南科技大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,河南 洛陽 471023)(*通信作者電子郵箱alisha@163.com)
時空特征局部保持的運動視頻關(guān)鍵幀提取
石念峰1,侯小靜1*,張 平2
(1.洛陽理工學(xué)院 計算機與信息工程學(xué)院,河南 洛陽 471023; 2.河南科技大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,河南 洛陽 471023)(*通信作者電子郵箱alisha@163.com)
為提高運動視頻關(guān)鍵幀的運動表達(dá)能力和壓縮率,提出柔性姿態(tài)估計和時空特征嵌入結(jié)合的運動視頻關(guān)鍵幀提取技術(shù)。首先,利用人體動作的時間連續(xù)性保持建立具有時間約束限制的柔性部件鉸接人體(ST-FMP)模型,通過非確定性人體部位動作連續(xù)性約束,采用N-best算法估計單幀圖像中的人體姿態(tài)參數(shù);接著,采用人體部位的相對位置和運動方向描述人體運動特征,通過拉普拉斯分值法實施數(shù)據(jù)降維,獲得局部拓?fù)浣Y(jié)構(gòu)表達(dá)能力強的判別性人體運動特征向量;最后,采用迭代自組織數(shù)據(jù)分析技術(shù)(ISODATA)算法動態(tài)地確定關(guān)鍵幀。在健美操動作視頻關(guān)鍵幀提取實驗中,ST-FMP模型將柔性混合鉸接人體模型(FMP)的非確定性人體部位的識別準(zhǔn)確率提高約15個百分點,取得了81%的關(guān)鍵幀提取準(zhǔn)確率,優(yōu)于KFE和運動塊的關(guān)鍵幀算法。所提算法對人體運動特征和人體姿態(tài)敏感,適用于運動視頻批注審閱。
關(guān)鍵幀提??;運動視頻;姿態(tài)估計;柔性混合鉸接人體模型;特征選擇
隨著混合式教學(xué)和MOOC(Massive Open Online Course)等在線學(xué)習(xí)技術(shù)在體育教學(xué)中的應(yīng)用[1],產(chǎn)生了大量的學(xué)生動作長視頻,通常采用基于視頻關(guān)鍵的視頻批閱技術(shù)提高學(xué)生動作長視頻的評價效率[2-3]。在動作視頻批閱時,教師依據(jù)人體部位的位置、形狀等信息預(yù)測學(xué)生動作的運動軌跡和運動趨勢,判斷視頻中是否存在錯誤或者不規(guī)范動作。因此,它要求關(guān)鍵幀集合幀數(shù)要盡可能少,同時人體動作局部拓?fù)浣Y(jié)構(gòu)表達(dá)要更準(zhǔn)確。
關(guān)鍵幀技術(shù)是模式識別領(lǐng)域的研究熱點,廣泛地應(yīng)用在運動捕獲、人體行為及動作識別等方面[4-5]。但由于運動視頻的高復(fù)雜性和非線性特征,至今尚未通用的關(guān)鍵幀算法。文獻(xiàn)[6]通過相鄰視頻間顏色直方圖的熵值差異比較,借助特定閾值篩選出高壓縮率的關(guān)鍵幀集合;但由于需要事先設(shè)定閾值,所以當(dāng)視頻中動作變化劇烈時容易造成關(guān)鍵幀冗余或者遺漏,自適應(yīng)性差。文獻(xiàn)[7]采用基于核與局部信息的多維度模糊C均值聚類權(quán)衡圖像的噪聲和細(xì)節(jié),自適應(yīng)性篩選關(guān)鍵幀;但是由于缺乏時空約束,篩選的關(guān)鍵幀集合的運動時序表達(dá)能力較差,不適合本文的視頻批閱。文獻(xiàn)[8]將視頻分割成運動物體和運動背景,通過分析物體運動和形狀變化,采用無監(jiān)督聚類算法確定關(guān)鍵幀;由于從語義層面分析和理解原始視頻,所以提取的關(guān)鍵幀集合緊致且運動特征表達(dá)準(zhǔn)確,能夠滿足本文的視頻批閱需要。
采用文獻(xiàn)[8]進(jìn)行關(guān)鍵提取時通常需要根據(jù)應(yīng)用背景設(shè)計物體識別及運動特征描述模型,因此如何建立運動視頻中的人體運動模型是關(guān)鍵。文獻(xiàn)[4]采用3D卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN),通過執(zhí)行3D卷積從多個連續(xù)視頻幀中提取空間和時間維度上的運動特征,借助多通道信息融合確定關(guān)鍵幀,較好地保持了人體動作的時空特征,可以準(zhǔn)確識別人體動作。然而,本文研究的運動視頻中通常存在大量錯誤或者不規(guī)范動作,導(dǎo)致動作特征變化較大,所以這種人體運動特征模型不適合運動視頻關(guān)鍵幀提取。文獻(xiàn)[9]采用梯度方向直方圖(Histogram of Gradients, HoG)人體分類器確定圖像中的人體包圍盒,利用人體模板將人體包圍盒劃分為16個不同權(quán)重的運動區(qū)域,通過比較運動區(qū)域的運動方向差異確定關(guān)鍵幀。由于受人體分類器的比例和人體模板尺寸限制,在復(fù)雜場景或者運動景深變化劇烈時下,容易造成人體動作識別錯誤,降低關(guān)鍵幀提取準(zhǔn)確率。
綜上所述,迫切需要一種自適應(yīng)、能準(zhǔn)確反映人體動作特征的運動視頻關(guān)鍵幀提取技術(shù)??紤]到剛性人體模型的姿態(tài)識別方法的良好性能[10-11],本文提出在柔性混合鉸接人體模型(articulated human model with Flexible Mixture-of-Parts, FMP)嵌入人體部位運動時空特征,提高人體及動作識別的魯棒性,利用人體姿態(tài)參數(shù)及動作特征確定運動視頻關(guān)鍵幀。
1.1 嵌入時空特征的人體姿態(tài)估計模型
在FMP模型中,每個人體部位的不同仿射變形(如旋轉(zhuǎn)或彎曲)被稱為該部位的混合類型,簡稱混合類型[10]。由于同一個人體部位對應(yīng)若干個混合類型,所以一幅圖像I中的人體姿態(tài)參數(shù)由各個部位的位置信息及其混合類型共同確定。一般用一個K關(guān)系圖G=(V,E)描述I中的某個姿態(tài),其中頂點集合V表示人體部位(如頭、上肢和軀干等),邊集合E?V×V表示不同人體位之間的一致性約束關(guān)系。
根據(jù)FMP定義,一幅圖像I中人體姿態(tài)p的參數(shù)估計問題可形式化為成本最小化問題,其成本函數(shù)C(I,p)為:
(1)
其中:φu(I,pu)是一個外觀模型,表示在圖像I的位置pu處識別出人體部位u的成本;ψu,v(pu-pv)是一個變形模型(通常假設(shè)為彈簧能量模型),表示兩個人體部位u和v之間的變形成本。
(2)
假設(shè)一段運動視頻的幀圖像集合為Ι={I1,I2,…,IT},估計的姿態(tài)參數(shù)序列為Ρ={p1,p2,…,pT},那么采用ST-FMP模型從Ι中得到Ρ的成本為:
(3)
其中:C(IT,pT)表示根據(jù)式(1)得到的從圖像IT中估計人體姿態(tài)pT的成本,T是運動視頻幀數(shù),λ1是一個規(guī)范化常量,θ(·)是式(2)表達(dá)的時空連續(xù)性誤差。
1.2 基于非確定性部位優(yōu)化的ST-FMP求解
FMP是一個剛性人體模型,可用一個馬爾可夫隨機場(Markov Random Field, MRF)表示,通過機器學(xué)習(xí)方法來確定人體部位參數(shù)[12]。在單幀圖像中采用FMP估計人體姿態(tài)參數(shù)時,MRF被看作樹狀或星形圖結(jié)構(gòu),通過置信度傳播(Belief Propagation, BP)進(jìn)行求解[10]。引入時間約束后,ST-FMP中會產(chǎn)生大量回路,需采用循環(huán)置信度傳播(Loopy Belief Propagation, LBP)等近似算法通過最小化式(3)求解。然而LBP算法是圖的最大團問題,具有指數(shù)級復(fù)雜度,在進(jìn)行長視頻姿態(tài)估計時效率很低。因此,本文設(shè)計了一種基于非確定性人體部位的兩段式ST-FMP求解算法。
(4)
圖1 非確定性部位局部動作時間連續(xù)性保持
(5)
1.3 人體部位運動特征描述
由于無法獲得關(guān)節(jié)角速度、位移速度等精確的人體部位運動參數(shù)導(dǎo)致現(xiàn)有運動捕獲和動作識別的人體運動模型無法直接使用,為此,本文設(shè)計了一個基于人體部位相對位置特征和運動方向的人體運動特征描述模型。
(6)
(7)
根據(jù)上述定義,人體姿態(tài)特征Ji是一個78維運動的向量,運動視頻的運動特征f是一個78×T的向量矩陣。實驗證明,在78×T的高維運動特征空間中進(jìn)行關(guān)鍵幀提取具有較高時間復(fù)雜度,而且大量的數(shù)據(jù)冗余和噪聲信息[14]將直接影響關(guān)鍵幀提取的準(zhǔn)確性。為提高運動向量的局部特征表達(dá)能力,本文采用拉普拉斯分值法(Laplacian Scoring, LS)[15]對運動向量實施數(shù)據(jù)降維,確定更具判別性的人體動作特征。首先構(gòu)建一個k近鄰圖Gk;然后采用熱核函數(shù)計算Gk中相連兩節(jié)點的相似度,獲得第r個運動特征的拉普拉斯分值Lr;最后將前n(1≤n≤3d)個Lr較小的運動特征確定為該運動視頻的人體姿態(tài)特征向量。
本文提出一個基于ST-FMP模型和動態(tài)聚類的運動視頻關(guān)鍵幀提取流程,簡稱ST-FMP算法。
首先,采用ST-FMP模型通過式(5)估計第r幀圖像的人體姿態(tài)參數(shù)獲得人體部位集合p={pu|u∈V},并利用式(6)和(7)得到人體運動向量,即:
fr=(fr1,fr2,…,frK)
(8)
其中:K等于3d,表示運動特征數(shù);fri表示Ir中第i個人體部位的運動特征。
然后,將運動視頻的所有運動向量進(jìn)行組合得到動作特征的組合向量,即:
fcom=(f1,f2,…,fKT)
(9)
其中:T表示運動視頻的幀數(shù)。
接著,利用LS算法計算fcom的Lr分值,獲得判別性運動特征向量,記作fsub。
本文以健美操動作視頻的關(guān)鍵幀為例進(jìn)行仿真實驗,實驗結(jié)果與人工提取以及最新的運動視頻關(guān)鍵幀算法[9,17]的提取結(jié)果進(jìn)行了對比分析。
3.1 實驗數(shù)據(jù)樣本及特征訓(xùn)練
首先邀請3位學(xué)生每人做兩遍120 s的大眾二級健美操動作,并以20幀/s的采樣頻率采用普通網(wǎng)絡(luò)攝像頭錄制成分辨率為640×480的視頻;然后從第10個韻律節(jié)拍開始從6套視頻中各選300幀圖像作為實驗數(shù)據(jù);最后在1 800幀圖像中按照圖1(a)所示人工標(biāo)記出每個健美操動作的13個關(guān)節(jié)位置。仿真實驗時,選擇第一、二遍動作的各900幀圖像作為訓(xùn)練樣本數(shù)據(jù)集和測試樣本數(shù)據(jù)集。
3.2 評價標(biāo)準(zhǔn)
人工提取出測試樣本集中的所有關(guān)鍵幀,并以常用的關(guān)鍵幀提取準(zhǔn)確率[18]作為算法性能評價標(biāo)準(zhǔn),即:
(10)
其中:n和m分別代表人工和算法提取的關(guān)鍵幀幀數(shù);fi和ri表示算法和人工提取的關(guān)鍵幀;δ(.)是fi和ri之間的相似函數(shù),當(dāng)fi和ri相同時δ(·)值為1,否則為0。
3.3 實驗結(jié)果分析
3.3.1 非確定性部位時空特征嵌入的有效性比較
為了檢驗非確定性部位時空特征嵌入的人體模型在視頻中的人體部位準(zhǔn)確率,分別采用3種不同的ST-FMP模型實現(xiàn),按照不同的誤差像素閾值進(jìn)行了肘部和膝蓋兩個人體部位的比較實驗,實驗結(jié)果如圖2所示。
從圖2可以看出,和FMP模型相比,采用ST-FMP算法進(jìn)行運動視頻中人體姿態(tài)估計時,在一定像素誤差范圍內(nèi)非確定性部位的準(zhǔn)確率顯著提高。以誤差閾值為20像素為例,ST-FMP算法得到的肘部和膝蓋兩個部位的準(zhǔn)確率分別比FMP模型大約提高了15和19個百分點。但是當(dāng)像素誤差閾值較大(例如大于40像素)或者較小(例如大于10像素)時準(zhǔn)確率差異不顯著。圖2還可以看出,當(dāng)僅保持上肢(下肢)非確定性部位的時間連續(xù)性時,肘部和手腕(膝蓋和腳踝)的識別準(zhǔn)確率比直接采用FMP模型高,但比ST-FMP算法低。實驗結(jié)果表明,通過人體部位局部時間連續(xù)性約束來優(yōu)化人體部位識別結(jié)果,ST-FMP算法顯著提高了運動視頻中非確定性部位的識別性能。
圖2 不同ST-FMP實現(xiàn)下人體部位識別準(zhǔn)確率比較
本文還對FMP模型和ST-FMP模型及其不同實現(xiàn)在運動視頻關(guān)鍵幀提取方面的性能進(jìn)行了比較。實驗結(jié)果如圖3所示。從圖3可以發(fā)現(xiàn):1)當(dāng)精度誤差小于30像素時, ST-FMP算法的準(zhǔn)確率較高且比較穩(wěn)定,比采用FMP的關(guān)鍵幀算法平均提高約11個百分點,而且僅增加上肢(下肢)非確定性部位的時間連續(xù)性約束時,F(xiàn)MP模型的關(guān)鍵幀提取準(zhǔn)確率仍提高了約3個百分點;2)當(dāng)誤差精度大于35像素時,ST-FMP算法性能仍比采用FMP模型有所提高,但準(zhǔn)確率降低大約15個百分點。
圖3 基于FMP和ST-FMP的關(guān)鍵幀提取比較實驗結(jié)果
同時,當(dāng)精度誤差為30個像素,以不同運動特征數(shù)通過ST-FMP算法提取關(guān)鍵幀時,算法準(zhǔn)確率曲線在運動特征數(shù)為15~60的區(qū)間內(nèi)波動不劇烈、性能穩(wěn)定,如圖4所示。
上述實驗結(jié)果表明,ST-FMP算法對人體姿態(tài)估計結(jié)果和人體局部拓?fù)浣Y(jié)構(gòu)敏感,非確定性部位的時空約束保持對關(guān)鍵幀提取性能作用明顯。
圖4 不同運動特征數(shù)的關(guān)鍵幀準(zhǔn)確率比較
3.3.2 關(guān)鍵幀算法性能比較
為了比較關(guān)鍵幀算法的性能,ST-FMP算法的仿真實驗結(jié)果和文獻(xiàn)[9]的基于先驗的動作視頻關(guān)鍵幀提取算法(簡稱KFE算法)及文獻(xiàn)[17]的基于運動塊關(guān)鍵幀提取算法(簡稱運動塊算法)的運行結(jié)果進(jìn)行了對比實驗,如表1所示。
表1的實驗結(jié)果顯示ST-FMP算法的準(zhǔn)確率和召回率均優(yōu)于其他兩種算法。首先,從表1中可以看出,ST-FMP算法的準(zhǔn)確率比KFE算法和運動塊算法分別高約18和26個百分點。KFE算法采用預(yù)先定義的16個區(qū)塊的運動方向表示人體運動特征,而ST-FMP算法采用每套動作視頻前15個LS人體運動姿態(tài)特征值表示人體運動。因此,ST-FMP算法采用的運動特征向量冗余小、噪聲少,人體部位局部運動表達(dá)準(zhǔn)確,利于提高關(guān)鍵幀和動作識別的準(zhǔn)確率[19]。
表1 不同關(guān)鍵幀提取算法性能比較
其次,從表1還可以看出,ST-FMP算法的召回率也明顯優(yōu)于其他兩種算法,平均分別高約23和13個百分點。KFE算法和運動塊算法均屬于基于圖像底層特征差異的關(guān)鍵幀技術(shù),它們通過比較圖像不同區(qū)域內(nèi)運動變化,采用特定閾值篩選關(guān)鍵幀。而ST-FMP算法描述的是人體部位的局部運動特征,本質(zhì)上是一個語義模型,可以從人體運動參與部位及其運動變化趨勢等更高層面來分析和理解運動視頻中的人體動作,利用人體姿態(tài)相似等語義規(guī)則來篩選關(guān)鍵幀,可以獲得符合人們認(rèn)知過程的、更準(zhǔn)確的關(guān)鍵幀結(jié)果。
上述實驗結(jié)果說明,由于不僅具有較強的人體部位動作局部拓?fù)浣Y(jié)構(gòu)表達(dá)能力,而且還具有支持基于語義規(guī)則進(jìn)行關(guān)鍵幀篩選的能力,所以ST-FMP算法更接近于人工提取結(jié)果,更適合基于關(guān)鍵幀的動作視頻批閱。同時,由于ST-FMP將人體部位拆分成不同的柔性部件,通過柔性部件的局部拓?fù)浣Y(jié)構(gòu)識別人體姿態(tài),借助時序特征邊約束降低人體姿態(tài)估計連續(xù)誤差,所以在復(fù)雜場景中具有較強的魯棒性[10-11]。
本文提出在柔性混合人體模型中嵌入人體部位運動時間約束,通過關(guān)注非確定性人體部位的時空連續(xù)性和優(yōu)化人體姿態(tài)估計參數(shù)提高運動視頻關(guān)鍵幀提取算法的準(zhǔn)確率和召回率。首先,為保持FMP模型在運動視頻中人體姿態(tài)估計的時空連續(xù)性,通過在相鄰幀圖像的人體部位頂點對間建立時間連續(xù)性約束得到具有時空連續(xù)特征的ST-FMP模型;然后,在相鄰視頻幀中的非確定性人體部位之間嵌入時空約束簡化ST-FMP模型,采用N-best優(yōu)化算法估計人體姿態(tài)參數(shù),提高運動視頻中人體姿態(tài)參數(shù)求解效率;接著,利用人體部位的相對位置特征和運動方向等特征描述人體部位運動特征,采用拉普拉斯分值算法實施特征選擇,形成具有局部判別性的人體運動特征向量;最后,通過ISODATA動態(tài)聚類算法確定運動視頻關(guān)鍵幀。對比實驗表明,非確定性人體部位的時空連續(xù)性保持和局部動作時空特征嵌入等顯著地提高了ST-FMP模型的人體部位識別準(zhǔn)確率和人體姿態(tài)估計性能,獲得的關(guān)鍵幀集合更符合人們認(rèn)知過程。
由于本文采用ST-FMP算法從單幀圖像中估計人體姿態(tài)參數(shù),所以當(dāng)運動視頻中自遮擋或者運動模糊較多時會導(dǎo)致人體部位識別誤差顯著增加,從而影響關(guān)鍵幀提取的性能。因此,下一步可以考慮采用稠密光流軌跡或CNN技術(shù)通過提高人體部位識別的魯棒性改善算法性能。
References)
[1] ZHOU M. Chinese university students’ acceptance of MOOCs: a self-determination perspective [J]. Computers & Education, 2016, 92/93: 194-203.
[2] LEHMANN R, SEITZ A, BOSSE H M, et al. Student perceptions of a video-based blended learning approach for improving pediatric physical examination skills [J]. Annals of Anatomy—Anatomischer Anzeiger, 2016, 208: 179-182.
[3] PANG Y J. Techniques for enhancing hybrid learning of physical education [C]// International Conference on Hybrid Learning, LNCS 6248. Berlin: Springer, 2010: 94-105.
[4] JI S, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221-231.
[5] 姬曉飛,左鑫孟.基于關(guān)鍵幀特征庫統(tǒng)計特征的雙人交互行為識別[J].計算機應(yīng)用,2016,36(8):2287-2291.(JI X F, ZUO X M. Human interaction recognition based on statistical features of key frame feature library [J]. Journal of Computer Applications,2016, 36(8): 2287-2291.)
[6] HANNANE R, ELBOUSHAKI A, AFDEL K, et al. An efficient method for video shot boundary detection and keyframe extraction using SIFT-point distribution histogram [J]. International Journal of Multimedia Information Retrieval, 2016, 5(2): 89-104.
[7] 王少華,狄嵐,梁久禎.基于核與局部信息的多維度模糊聚類圖像分割算法[J].計算機應(yīng)用,2015,35(11):3227-3231.(WANG S H, DI L, LIANG J Z. Multi-dimensional fuzzy clustering image segmentation algorithm based on kernel metric and local information [J]. Journal of Computer Applications, 2015, 35(11): 3227-3231.)
[8] JANWE M N J, BHOYAR K K. Video key-frame extraction using unsupervised clustering and mutual comparison [J]. International Journal of Image Processing, 2016, 10(2): 73-84.
[9] 龐亞俊.基于先驗的動作視頻關(guān)鍵幀提取[J].河南理工大學(xué)學(xué)報(自然科學(xué)版),2016,35(6):862-868.(PANG Y J. Key frames extraction of motion video based on prior knowledge [J]. Journal of Henan Polytechnic University (Natural Science), 2016, 35(6): 862-868.)
[10] YANG Y, RAMANAN D. Articulated human detection with flexible mixtures of parts [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2013, 35(12): 2878-2890.
[11] 胡瓊,秦磊,黃慶明.基于視覺的人體動作識別綜述[J].計算機學(xué)報,2013,36(12):2512-2524.(HU Q, QIN L, HUANG Q M. A survey on visual human action recognition [J]. Chinese Journal of Computers, 2013, 36(12): 2512-2524.)
[12] PARK D, RAMANAN D. N-best maximal decoders for part models [C]// Proceedings of the 2011 International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2011: 2627-2634.
[13] SUN D, ROTH S, BLACK M J. Secrets of optical flow estimation and their principles [C]// Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2010: 2432-2439.
[14] FU Y. Human Activity Recognition and Prediction [M]. Berlin: Springer, 2016: 462-471.
[15] HE X, CAI D, NIYOGI P. Laplacian score for feature selection [C]// Proceedings of the 18th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2005: 507-514.
[16] BALL G H, HALL J. ISODATA, a novel method of data analysis and pattern classification [R]. Springfield: NTIS, 1965.
[17] 應(yīng)銳,蔡瑾,馮輝,等.基于運動塊及關(guān)鍵幀的人體動作識別[J].復(fù)旦學(xué)報(自然科學(xué)版),2014,53(6):815-822.(YING R, CAI J, FENG H, et al. Human action recognition based on motion blocks and key frames [J]. Journal of Fudan University (Natural Science), 2014, 53(6): 815-822.)
[18] XIA G, SUN H, NIU X, et al. Keyframe extraction for human motion capture data based on joint kernel sparse representation [J]. IEEE Transactions on Industrial Electronics, 2017, 64(2): 1589-1599.
[19] LIU Z, ZHU J, BU J, et al. A survey of human pose estimation [J]. Journal of Visual Communication & Image Representation, 2015, 32(C): 10-19.
Keyframeextractionofmotionvideobasedonspatial-temporalfeaturelocallypreserving
SHI Nianfeng1, HOU Xiaojing1*, ZHANG Ping2
(1.SchoolofComputerandInformationEngineering,LuoyangInstituteofScienceandTechnology,LuoyangHenan471023,China;2.SchoolofMathematicsandStatistics,HenanUniversityofScienceandTechnology,LuoyangHenan471023,China)
To improve the motion expression and compression rate of the motion video key frames, a dynamic video frame extraction technique based on flexible pose estimation and spatial-temporal feature embedding was proposed. Firstly, a Spatial-Temporal feature embedded Flexible Mixture-of-Parts articulated human model (ST-FMP) was designed by preserving the spatial-temporal features of body parts, and the N-best algorithm was adopted with spatial-temporal locally preserving of uncertain body parts to estimate the body configuration in a single frame based on ST-FMP. Then, the relative position and motion direction of the human body were used to describe the characteristics of the human body motion. The Laplacian scoring algorithm was used to implement dimensionality reduction to obtain the discriminant human motion feature vector with local topological structure. Finally, the ISODATA (Iterative Self-Organizing Data Analysis Technique) algorithm was used to dynamically determine the key frames. In the key frame extraction experiment on aerobics video, compared to articulated human model with Flexible Mixture-of-Parts (FMP) and motion block, the accuracy of uncertain body parts by using ST-FMP was 15 percentage points higher than that by using FMP, achieved 81%, which was higher than that by using Key Frames Extraction based on prior knowledge (KFE) and key frame extraction based on motion blocks. The experimental results on key frame extraction for calisthenics video show that the proposed approach is sensitive to motion feature selection and human pose configuration, and it can be used for sports video annotation.
key frame extraction; motion video; pose estimation; articulated human model with Flexible Mixture-of-Parts (FMP); feature selection
2017- 04- 25;
2017- 06- 10。
河南省科技攻關(guān)項目(152102210329, 172102310635)。
石念峰(1976—),男,河南洛陽人,副教授,博士,CCF高級會員,主要研究方向:計算機協(xié)同工作、模式識別; 侯小靜(1975—),女,河南洛陽人,講師,碩士,主要研究方向:模式識別; 張平(1976—),男,黑龍江牡丹江人,副教授,博士,主要研究方向:網(wǎng)絡(luò)安全、模式識別。
1001- 9081(2017)09- 2605- 05
10.11772/j.issn.1001- 9081.2017.09.2605
TP391.4
A
This work is partially supported by the Key Science and Technology Program of Henan Province (152102210329, 172102310635).
SHINianfeng, born in 1976, Ph. D., associate professor. His research interests include computer supported cooperative work, pattern recognition.
HOUXiaojing, born in 1975, M.S., lecturer. Her research interests include pattern recognition.
ZHANGPing, born in 1976, Ph. D., associate professor. His research interests include network security, pattern recognition.