徐濛, 彭淑娟, 柳欣
(華僑大學(xué) 計算機科學(xué)與技術(shù)學(xué)院, 福建 廈門 361021)
結(jié)合金字塔模型和隨機森林的運動捕獲序列語義標(biāo)注
徐濛, 彭淑娟, 柳欣
(華僑大學(xué) 計算機科學(xué)與技術(shù)學(xué)院, 福建 廈門 361021)
針對原始運動捕獲數(shù)據(jù)結(jié)構(gòu)復(fù)雜、語義模糊的問題,提出一種結(jié)合金字塔模型和隨機森林的運動捕獲序列語義標(biāo)注方法.首先,利用概率主成分分析將運動序列劃分為具有特定語義的運動片段.然后,將運動片段的歐拉角數(shù)據(jù)轉(zhuǎn)換為人體各個關(guān)節(jié)點的三維空間位置坐標(biāo)數(shù)據(jù),統(tǒng)一骨骼長度,提取運動數(shù)據(jù)的2種互補性幾何特征,并分別歸一化.再次,運用傅里葉時間金字塔模型構(gòu)建運動片段完整的時空特征.最后,利用已訓(xùn)練的隨機森林分類器對各個運動片段進行標(biāo)注.結(jié)果表明:該方法能夠?qū)哂胁煌Z義的復(fù)雜運動序列進行有效標(biāo)注,且可用于不同表演者,具有一定的實用性和通用性.
語義標(biāo)注; 概率主成分分析; 傅里葉時間金字塔; 隨機森林
隨著數(shù)字媒體技術(shù)的發(fā)展及光學(xué)運動捕獲設(shè)備的廣泛應(yīng)用,人們可以方便地獲得大量的運動捕獲數(shù)據(jù).這些運動捕獲數(shù)據(jù)被廣泛地應(yīng)用于三維動畫、影視制作、游戲、教育等領(lǐng)域.同時,大規(guī)模的運動捕獲數(shù)據(jù)庫也應(yīng)運而生,動畫師從這些數(shù)據(jù)庫中快速、高效地獲取滿足需求的運動數(shù)據(jù)片段用于動畫創(chuàng)作.有效地對運動數(shù)據(jù)進行分類,并進行有組織的數(shù)據(jù)庫管理,首先,需要對一段未知的運動片段進行識別和標(biāo)注.近年來,關(guān)于運動識別和標(biāo)注已經(jīng)有大量的研究成果[1-7].現(xiàn)階段大多數(shù)方法僅對特定語義的運動片段進行分類識別,而在運動捕獲過程中,為了保持動作的連貫性,捕獲到的數(shù)據(jù)通常包含多個連續(xù)的動作.傳統(tǒng)的手動分割及標(biāo)注方法往往需要花費大量的人力和時間.因此,有效地對一段復(fù)雜運動序列進行自動語義標(biāo)注,對于后續(xù)的存儲、編輯和重用具有極其重要的意義.鑒于此,本文提出一種針對復(fù)雜運動捕獲序列的自動語義劃分及標(biāo)注方法.
圖1 文中方法流程圖Fig.1 Flow chart of our method
結(jié)合金字塔模型和隨機森林進行運動捕獲序列語義標(biāo)注,其流程如圖1所示.流程主要分為訓(xùn)練階段和測試階段.在訓(xùn)練階段,對訓(xùn)練集中的運動語義片段進行統(tǒng)一骨架預(yù)處理,提取2種互補性特征并分別歸一化,構(gòu)建傅里葉時間金字塔模型,對時間序列進行對齊,得到完整的時空特征向量.在測試階段,運用概率主成分分析方法(PPCA)將一段具有多個語義的運動序列進行語義劃分,得到具有特定語義的子片段集合,通過與訓(xùn)練階段相同的處理,得到各個語義片段的特征向量,根據(jù)訓(xùn)練階段得到的隨機森林模型,對語義片段進行標(biāo)注.
1.1人體運動數(shù)據(jù)表示形式
采用HDM05[8]數(shù)據(jù)庫中標(biāo)準(zhǔn)的ASF/AMC文件格式.其中,ASF文件表示人體骨架模型.該模型有31個關(guān)節(jié)點,各個關(guān)節(jié)點采用樹形層次結(jié)構(gòu)組織.人體在空間中的位置由各個關(guān)節(jié)點的自由度(DOF)決定,并記錄在AMC文件中,可用矩陣S=[s1,s2,…,sm]T表示,si∈R62,m為運動序列幀數(shù).
1.2運動序列分割
對于原始運動序列,采用PPCA[9]方法將其劃分為不同語義的運動片段.假定一段運動序列為S=[s1,s2,…,sm]T,S∈Rm×62,m為運動序列幀數(shù),具體分割過程有以下6個步驟.
步驟2奇異值分解矩陣D,即D=UΣVT.其中,U,V為單位正交矩陣;Σ為由元素σi組成的非負(fù)遞減對角矩陣.
步驟6根據(jù)跳變原則,對步驟5獲得的馬氏距離曲線進行分割,得到運動序列的子運動片段Si∈Rmi×62.其中,m=[m1,m2,…,mcut],mi為第i段運動序列的幀數(shù),cut為分段數(shù).
1.3語義片段預(yù)處理
由于AMC格式存儲的運動捕獲數(shù)據(jù)是由歐拉角表示的,首先,將其轉(zhuǎn)換為笛卡爾坐標(biāo)系下各個關(guān)節(jié)點的空間位置信息,數(shù)學(xué)描述為P=[p1,p2,…,pm]T,pi∈R3×j,j為關(guān)節(jié)點數(shù)目,m為運動序列幀數(shù).
(a,b).
1.4運動序列標(biāo)注
1.4.1 傅里葉時間金字塔 由于采樣速度或表演風(fēng)格的不同,單個運動片段在時間上往往是未對齊的.參考文獻[13]的方法,利用傅里葉時間金字塔模型,將各個運動片段進行對齊.為了獲取一段運動片段的時間信息和全局傅里葉系數(shù),遞歸地將運動片段劃分為金字塔,對所有的劃分片段使用短時傅里葉變換(STFT).序列最終可以表示為所有劃分片段的短時傅里葉變換系數(shù)的時序組合,如圖2所示.
1.4.2 隨機森林分類 隨機森林[14](RF)旨在將多個弱分類器融合為一個強分類器,能夠很好地解決多分類問題.同時,RF算法將Bagging和隨機選擇分裂特征結(jié)合,能夠有效處理高維數(shù)據(jù)且不會導(dǎo)致過擬合.因此,采用隨機森林分類器對待測運動片段進行分類.
隨機森林分類過程,如圖3所示.隨機森林是決策樹{h(X,θk)}的集合,X為輸入向量,θk是獨立同分布的隨機向量,決定單棵樹的生長.假定訓(xùn)練集為T={(xi,yi)},xi為特征向量,xi∈RN,yi為類別標(biāo)簽,yi∈R,i=1,2,…,n,待測樣本xt∈RN.具體有以下3個步驟.
圖2 傅里葉時間金字塔 圖3 隨機森林分類器 Fig.2 Fourier temporal pyramid Fig.3 Random forests classifier
步驟1采用給定權(quán)重的方法建立隨機向量模型θ.
步驟2構(gòu)建隨機森林分類器.1) 對原始訓(xùn)練集T進行Boostrap抽樣,生成訓(xùn)練集Ti.2) 使用Ti通過CART算法生成一棵不減枝的決策樹hi.a) 從N個特征中隨機選取Ntry個特征;b) 在樹的每個節(jié)點上,依據(jù)Gini指標(biāo)從Ntry個特征選取最佳分裂特征作為節(jié)點;c) 分裂直至樹生長到最大.3) 循環(huán)1),2)步,直至建立k棵決策樹,樹的集合為{hi},i=1,2,…,k.
1.5文中算法
結(jié)合金字塔模型和隨機森林對運動捕獲序列進行語義標(biāo)注.輸入:訓(xùn)練集運動片段{tr1,tr2,…,trn},測試運動序列test.輸出:加標(biāo)簽的語義片段{te1,te2,…,tel}.具體有以下6個步驟.
步驟3加標(biāo)簽.經(jīng)過步驟1~2,訓(xùn)練集數(shù)據(jù)可以表示為矩陣{xtr1,xtr2,…,xtrn},加入類別標(biāo)簽ytri為{xtri,ytri}.
步驟4訓(xùn)練模型.假設(shè)決策樹的數(shù)量為k.對{xtri,ytri}進行訓(xùn)練,可得到隨機森林模型{hi},i=1,2,…,k.
步驟5運動序列語義劃分.使用PPCA方法將測試序列test劃分為具有不同語義的子運動片段組合{te1,te2,…,tel}.
步驟6語義片段標(biāo)注.使用步驟1,2對語義片段進行處理,得到各片段時空特征向量,則語義片段可以表示為{xte1,xte2,…,xtel}.使用步驟4訓(xùn)練好的隨機森林模型對{xte1,xte2,…,xtel}進行分類,可得到各個語義片段{te1,te2,…,tel}的類別標(biāo)簽.
2.1實驗數(shù)據(jù)選取及描述
為了驗證文中方法的有效性,從HDM05數(shù)據(jù)庫中選取408段不同長度的運動片段組成運動捕獲數(shù)據(jù)語料庫,并按照不同的運動風(fēng)格分為12個基本類別,如表1所示.表1中:每類運動包含15~57段不同的運動片段,每個片段包括動作從開始到結(jié)束的完整過程,但可以多次重復(fù),如“移動”、“擊拳”、“單腳跳躍”等類型的運動片段包含了2~3次相同的動作.
表1 運動捕獲數(shù)據(jù)語料庫Tab.1 Corpus of motion capture data
2.2語義片段識別
圖4 4種方法識別率比較Fig.4 Comparison of recognition rate in four methods
為了評估文中語義片段識別方法的有效性,從語料庫中隨機抽取2/3的運動片段用于訓(xùn)練,其余用于測試.在相同實驗條件下,將文中方法與DTW[1],HMM[4],SVM[5]等3種經(jīng)典的運動識別方法進行比較.基于HMM的方法,為每類運動建立一個隱馬爾科夫模型,每個模型的隱藏狀態(tài)數(shù)設(shè)置為3,每個隱藏狀態(tài)所包含的混合高斯分布數(shù)也設(shè)置為3,通過Baum-Welch算法對訓(xùn)練集進行學(xué)習(xí)得到模型的各個參數(shù).在分段基礎(chǔ)上計算識別率,如圖4所示.測試集中每類運動中分類正確的片段數(shù)與每類運動總的片段數(shù)之比為每個類的識別率,并用條形圖表示.整個測試集中分類正確的片段數(shù)與測試集總片段數(shù)之比為總識別率(η),并用線段表示.
由圖4可知:對于各類語義片段,當(dāng)隨機森林分類過程中決策樹的數(shù)量設(shè)置為120時,文中方法均能取得較好的識別正確率,而基于SVM的方法在懲罰項c設(shè)置為100,核函數(shù)半徑g設(shè)置為0.001時,在某些類別中也能取得較好的分類結(jié)果.由于基于DTW 的相似度匹配方法,只注重運動序列的局部縮放,在全局縮放及統(tǒng)一縮放尺度下效果不佳,且計算比較耗時.基于HMM的方法由于需要提前指定隱藏狀態(tài),而對不同的運動指定相同數(shù)量的狀態(tài)對其識別結(jié)果造成了一定影響. 此外,文中方法總的識別率分
表2 復(fù)雜運動捕獲數(shù)據(jù)序列Tab.2 Complex motion capture data sequences
別為0.54,0.82,0.91,0.96,可以看出文中方法明顯優(yōu)于其他3種方法,具有更好的識別效果.
2.3運動序列語義標(biāo)注
為了驗證具有多個運動語義的運動序列的標(biāo)注效果,選取9個復(fù)雜運動序列用于測試分段識別效果,如表2所示.這9個動作序列來自3個表演者BD,BK,DG.每個運動序列均包含多個動作,最短的序列長度為2 469幀,包含16個不同的動作,最長的序列長度為8 527幀,包含18個不同的動作.9個復(fù)雜運動序列分割和識別的查準(zhǔn)率(P(D))和查全率(R(D)),如表3所示.
為了便于對比分析,手動分割和標(biāo)注相應(yīng)復(fù)雜運動序列,將查準(zhǔn)率和查全率分別定義為
上式中:M(D)為手動標(biāo)注的結(jié)果;A(D)為自動標(biāo)注的結(jié)果.
在一段連續(xù)的運動序列中,由于動作的起始和結(jié)束位置一般不能精確確定,因此,以分段層次的查準(zhǔn)率和查全率定義識別結(jié)果,只考慮自動標(biāo)注與手動標(biāo)注的結(jié)果重疊部分,當(dāng)自動標(biāo)注與手動標(biāo)注有重疊且為相同分類時,則認(rèn)為該片段正確標(biāo)注.首先,使用相同的分割算法PPCA對運動序列進行分段;之后,采用在運動片段識別中識別率較高的HMM,SVM與文中方法進行比較.
由表3可知:文中方法能夠得到較理想的查準(zhǔn)率和查全率,且更接近真實標(biāo)注結(jié)果.同時,用文中方法對最短和最長的運動序列進行標(biāo)注,耗時分別為19,56 s,與手動分割和標(biāo)注方法相比,可節(jié)省大量時間,具有一定的時間效率和可用性.
表3 查準(zhǔn)率和查全率比較Tab.3 Comparison of precision and recall
針對復(fù)雜運動捕獲序列標(biāo)注,基于分段識別的思想,首先,使用概率主成分分析方法確定動作邊界臨近的過渡幀,將運動序列自動劃分為具有特定語義的運動片段.然后,提取2種典型的幾何特征,在進行數(shù)據(jù)降維的同時,更好地保留了單幀運動姿態(tài)信息.最后,結(jié)合傅里葉時間金字塔模型和隨機森林進行自動標(biāo)注,對運動片段進行對齊,并加入時間信息,進一步提高了方法的識別率.該方法存在一些不足:1) 由于一段運動序列中相鄰運動片段間的過渡區(qū)域往往存在歧義,概率主成分分析方法不能精準(zhǔn)地分析此類區(qū)域中運動幀的具體語義歸屬,從而給后序標(biāo)注造成影響;2) 進一步提高方法的時間效率,同時,將實驗擴展到連續(xù)在線運動的實時分割及標(biāo)注.
[1] ADISTAMBHA K,RITZ C H,BURNETT I S.Motion classification using dynamic time warping[C]∥Proceedings of the Multimedia Signal Workshops.Cairns:IEEE Press,2008:622-627.
[2] LYU Fengjun,NEVATIA R.Recognition and segmentation of 3D human action using HMM and multi-class adaboost[C]∥Proceedings of the European Conference on Computer Vision.Graz:Springer Press,2006:359-372.
[3] ZHU Hongli,DU Pengying,XIANG Jian.3D Motion Recognition based on ensemble learning[C]∥Proceedings of the International Conference on Image Analysis for Multimedia Interactive Services Workshops.Santorini:IEEE Press,2007:1-4.
[4] XIA Lu, CHEN C C, AGGARWAL J K. View invariant human action recognition using histograms of 3D joints[C]∥Proceedings of the International Conference on Computer Vision and Pattern Recognition.Providence:IEEE Press,2012:20-27.DOI:10.1109/CVPRW.2012.6239233.
[5] BENGALUR M D.Human activity recognition using body pose features and support vector machine[C]∥Proceedings of the International Conference on Advances in Computing, Communications and Informatics.Mysore:IEEE Press,2013:1970-1975.DOI:10.1109/ICACCI.2013.6637484.
[6] HAN Lei,WEI Liang,WU Xinxiao,etal.Human action recognition using discriminative models in the learned hierarchical manifold space[C]∥Proceedings of the International Conference on Automatic Face and Gesture Recognition.Amsterdam:IEEE Press,2008:1-6.
[7] LI Chuanjun,ZHENG Soqing,PRABHAKARAN B.Segmentation and recognition of motion streams by similarity search[J].ACM Transactions on Multimedia Computing, Communications, and Applications,2007,3(3):79-82.DOI:10.1145/1236471.1236475·Source:DBLP.
[8] MULLER M,ROER T,CLAUSEN M,etal.Documentation: Mocap da-tabase HDM05[EB/OL].[2016-03-02].http:∥www.mpi-inf.mpg.de/resources/HDM05.
[9] BARBI V C J,SAFONOVA A,PAN J,etal.Segmenting motion capture data into distinct behaviors[C]∥Proceedings of the International Conference on Graphics Interface.London:Canadian Human-Computer Communications Society,2004:185-194.
[10] SHUM H,HO E S.Real-time physical modelling of character movements with Microsoft kinect[C]∥Proceedings of the Symposium on Virtual Reality Software and Technology.Toronto:ACM Press,2012:17-24.
[11] 楊躍東,王莉莉,郝愛民,等.基于幾何特征的人體運動捕獲數(shù)據(jù)分割方法[J].系統(tǒng)仿真學(xué)報,2007,19(10):2229-2234.DOI:10.3969/j.issn.1004-731X.2007.10.022.
[12] 彭淑娟.基于中心距離特征的人體運動序列關(guān)鍵幀提取[J].系統(tǒng)仿真學(xué)報,2012,24(3):565-569.
[13] WANG Jiang,LIU Zicheng,WU Ying,etal.Learning actionlet ensemble for 3D human action recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(5):914-927.
[14] BREIMAN L.Random forests [J].Machine Learning,2001,45(1):5-32.
(責(zé)任編輯: 錢筠英文審校: 吳逢鐵)
MotionCaptureSequenceSemanticAnnotationViaPyramidModelandRandomForests
XU Meng, PENG Shujuan, LIU Xin
(College of Computer Science and Technology, Huaqiao University, Xiamen 361021, China)
According to the complexity and semantic ambiguity within original motion capture data, we presents an effective motion capture sequence semantic approach via pyramid model and random forests. Firstly, utilize probabilistic principal component analysis to segment motion sequences into several motion clips with certain semantics. Then, the Euler angler data of each motion clip are transformed into three-dimensional space coordinates of each human joint, and the bone lengths are unified. Subsequently, two complementary features are extracted and normalized. Accordingly, the Fourier temporal pyramid model is adopted to represent the spatiotemporal characteristics of motion clips. Finally, the trained random forests classifier is employed to label each motion clip. The proposed approach is able to well annotate complex motion sequences effectively and can be applied to different performers. The experimental results show that it has certain practically and generality.
semantic annotation; probabilistic principal component analysis; fourier temporal pyramid; random forests
10.11830/ISSN.1000-5013.201601011
TP 391
A
1000-5013(2017)06-0848-06
2015-01-06
彭淑娟(1982-),女,講師,博士,主要從事計算機視覺與計算機動畫的研究.E-mail:pshujuan@hqu.edu.cn.
國家自然科學(xué)基金資助項目(61202298, 61300138); 福建省自然科學(xué)基金資助項目(2014J01239, 2015J01656); 華僑大學(xué)高層次人才科研啟動項目(14BS207); 華僑大學(xué)中青年科研提升計劃(ZQN-PY309); 華僑大學(xué)研究生科研創(chuàng)新能力培育計劃資助項目(1400414009)
華僑大學(xué)學(xué)報(自然科學(xué)版)2017年6期