戴志強(qiáng),董堅(jiān)峰
(吉首大學(xué)旅游與管理工程學(xué)院,湖南 張家界 427000)
基于混沌不變量和關(guān)聯(lián)向量機(jī)的人體行為識(shí)別*
戴志強(qiáng),董堅(jiān)峰
(吉首大學(xué)旅游與管理工程學(xué)院,湖南 張家界 427000)
提出了一種基于混沌不變量特征和關(guān)聯(lián)向量機(jī)(RVM)的人體行為識(shí)別方法.提取人體關(guān)節(jié)點(diǎn)運(yùn)動(dòng)產(chǎn)生的軌跡代表人體動(dòng)作行為的非線性系統(tǒng),利用 C ̄C方法估計(jì)時(shí)延并且得到由每條運(yùn)動(dòng)軌跡重構(gòu)的相空間維數(shù),并從重構(gòu)的相空間提取代表人體行為的混沌不變量,利用RVM算法識(shí)別人體行為.在KTH,Weizmann及ballet 數(shù)據(jù)庫中進(jìn)行測試,實(shí)驗(yàn)結(jié)果表明,使用該方法平均正確率達(dá)92.1%.
混沌系統(tǒng);行為識(shí)別;混沌不變量;RVM
人體行為識(shí)別是計(jì)算機(jī)視覺領(lǐng)域一個(gè)重要的方面,它應(yīng)用于諸如視頻監(jiān)督、娛樂、用戶接口、運(yùn)動(dòng)、視頻理解以及病人監(jiān)護(hù)系統(tǒng)等領(lǐng)域.當(dāng)前,基于靜態(tài)圖片或者視頻序列的人體行為識(shí)別已經(jīng)取得了很多研究成果:基于動(dòng)作片段的行為識(shí)別方法[1-2],基于時(shí)序動(dòng)態(tài)模型[3-4]的行為識(shí)別方法,以及基于關(guān)鍵點(diǎn)[5-7]的行為識(shí)別方法等等.文獻(xiàn)[8]中提出了一種利用混沌系統(tǒng)的理論來識(shí)別人體行為的框架,它通過交互信息和假最近鄰算法對(duì)每一條時(shí)間序列在相空間中進(jìn)行嵌入,從而獲得每條時(shí)間序列的混沌結(jié)構(gòu).但是,交互信息的方法計(jì)算十分繁瑣且需要大的數(shù)據(jù)集,并且時(shí)延和嵌入維數(shù)彼此是不相關(guān)聯(lián)的,另外最大李雅普諾夫指數(shù)是由定義計(jì)算出來的,其結(jié)果對(duì)于小數(shù)據(jù)集來說不太可靠,而且相對(duì)較難以實(shí)現(xiàn).
為了克服上述方法的缺點(diǎn),筆者提出了一種使用混沌系統(tǒng)理論的新的行為識(shí)別方法.提取人體關(guān)節(jié)點(diǎn)運(yùn)動(dòng)的軌跡來表示一個(gè)確定的人體行為的非線性動(dòng)態(tài)系統(tǒng),而這個(gè)非線性動(dòng)態(tài)系統(tǒng)可以通過混沌的理論進(jìn)行分析.利用C ̄C方法來估算重構(gòu)的相空間的時(shí)延和嵌入維數(shù),同時(shí),使用一個(gè)實(shí)用的方法從小數(shù)據(jù)集中計(jì)算出最大李雅普諾夫指數(shù).最后,使用RVM識(shí)別人體行為.新方法容易實(shí)現(xiàn),而且對(duì)小數(shù)據(jù)集很有用,計(jì)算比較簡單.
1.1人體動(dòng)作的表示
圖1 人體3D模型
人的身體可以用12個(gè)剛性部分來建模:臀部、肢體、肩膀、脖子、2條大腿、2條小腿和2只手臂以及2只前臂[9].這些部分由是個(gè)內(nèi)部結(jié)點(diǎn)連接起來,如圖1所示.
圖2 左手臂結(jié)點(diǎn)的定位
為了得到人體關(guān)鍵點(diǎn)運(yùn)動(dòng)的軌跡,選擇10個(gè)具有代表性的關(guān)鍵點(diǎn),例如頭、2只手臂、2只手、2條大腿、2只腳以及肚子部分,這些點(diǎn)可以為大部分的行為動(dòng)作提供足夠的信息.而這些被選的關(guān)鍵點(diǎn)可以通過在3D空間[10]定位所獲得,每個(gè)結(jié)點(diǎn)隨著時(shí)間的推移通過3D軌跡估計(jì)[11]的方法追溯每個(gè)結(jié)點(diǎn)的運(yùn)動(dòng)軌跡.身體關(guān)鍵點(diǎn)的運(yùn)動(dòng)軌跡組成了一個(gè)確定的、非線性的人體行為動(dòng)態(tài)系統(tǒng).圖2表示在3D空間中所定位的人的手臂結(jié)點(diǎn).圖3表示從圖2所示左手臂結(jié)點(diǎn)運(yùn)動(dòng)中提取的時(shí)間序列.
圖3 由圖2中左手臂結(jié)點(diǎn)運(yùn)動(dòng)中提取的時(shí)間序列
通常情況下,動(dòng)態(tài)系統(tǒng)可以由狀態(tài)空間模型表示,其狀態(tài)空間變量X(t)=(x1(t),x2(t),…,xn(t))∈Rn表示在確定的時(shí)間t系統(tǒng)的狀態(tài),狀態(tài)變量空間通常被稱為相空間.系統(tǒng)狀態(tài)根據(jù)一個(gè)確定的演變函數(shù)以及隨著時(shí)間的推移系統(tǒng)狀態(tài)變化生成的軌跡發(fā)生變化.圖4表示由人體10個(gè)關(guān)鍵點(diǎn)運(yùn)動(dòng)所產(chǎn)生的運(yùn)功軌跡.人體行為的相空間可以用這些運(yùn)動(dòng)軌跡重構(gòu),從而可以獲得一些表示人體動(dòng)作行為的混沌不變量.
圖4 由一些動(dòng)作所產(chǎn)生的軌跡例子集
1.2人體動(dòng)作行為的相空間重構(gòu)
為了從時(shí)間序列中提取更多有用的信息,Packard N H等[12]提出用時(shí)間序列重構(gòu)相空間的2種方法,即導(dǎo)數(shù)重構(gòu)法和坐標(biāo)延遲重構(gòu)法.
使用文獻(xiàn)[8]中介紹的利用互信息重構(gòu)相空間過程中,選擇吸引子時(shí)延τ有很多缺點(diǎn),如不一致性、計(jì)算時(shí)間較長且需要大數(shù)據(jù)等問題.所以,對(duì)于時(shí)延窗口τw=(d-1)τ,使用C ̄C方法[13]筆者選擇時(shí)延以確保xi分量的獨(dú)立,并得到嵌入的維數(shù)d.
為研究非線性依賴性以及消除虛假的時(shí)間相關(guān)性,時(shí)間序列{x(i)}(i=1,2,…,N)被分成t個(gè)不相交的時(shí)間序列,每個(gè)時(shí)間序列的長度NS=N/t,其中t表示相空間重構(gòu)的時(shí)延,x1={x1,xt+1,…,xN-t+1},x2={x2,xt+2,…,xN-t+2},…,xt={xt,x2t,…,xN}.
其中:S(d,N,r,t)=C(d,N,r)-Cd(1,N,r);C(d,N,r)表示相關(guān)積分;N表示數(shù)據(jù)集的大??;d表示嵌入的維數(shù).當(dāng)N→∞,
選擇rj的幾個(gè)代表值,定義ΔS(d,t),
ΔS(d,t)=max{S(d,rj,t)}-min{S(d,rj,t)}.
(1)
(1)式衡量了S(d,r,t)隨著r的變化而產(chǎn)生的變化量.局部最優(yōu)時(shí)間t是S(d,r,t)的過零點(diǎn)和ΔS(d,t)的最小值的時(shí)間.S(d,r,t)過零點(diǎn)對(duì)所有的維數(shù)d和r應(yīng)該大致相同,而ΔS(d,t)的最小值對(duì)所有維數(shù)d也應(yīng)該大致相同.時(shí)延τd對(duì)應(yīng)于第1個(gè)得到的局部最優(yōu)時(shí)間.
通過上述方法得到維數(shù)d和時(shí)延τd以后就可以重構(gòu)人體行為動(dòng)作的相空間了.C ̄C方法很容易實(shí)現(xiàn),更適用于小數(shù)據(jù)集,計(jì)算量較小.維數(shù)d的估計(jì)值與第1個(gè)互信息的局部最小值一致.
人體行為可以通過下文介紹的相空間重構(gòu)方法重構(gòu)相空間從而得到相空間不變量.其中,相空間不變量特征包括相關(guān)積分、最大李雅普諾夫指數(shù)和kolmogorov ̄sinai熵.
2.1相關(guān)積分
嵌入時(shí)間序列相關(guān)積分[14]定義如下:
2.2最大李雅普諾夫指數(shù)
李雅普諾夫指數(shù)是用以度量相空間中2條相鄰軌跡隨時(shí)間按指數(shù)律分離的程度,是一個(gè)統(tǒng)計(jì)平均量[15].因?yàn)橛梦墨I(xiàn)[8]中方法計(jì)算最大李雅普諾夫指數(shù)對(duì)于小數(shù)據(jù)集不太可靠,而使用文獻(xiàn)[16]中一個(gè)有效的方法可以從小數(shù)據(jù)集中計(jì)算出最大李雅普諾夫指數(shù),這種方法快速,容易實(shí)現(xiàn)并且同時(shí)對(duì)于大數(shù)據(jù)集同樣適用.其算法步驟如下:
(1)計(jì)算時(shí)延τ,嵌入維數(shù)d和平均周期p.
(2)重建相空間Xi= (xi,xi+τ,…,xi+(d-1)τ)∈Rd(i=1,2,…,M).
(5)通過對(duì)平均直線y(i)的最小二乘法可以簡單且準(zhǔn)確地計(jì)算出最大李雅普諾夫指數(shù)λ1.
2.3Kolmogorov ̄Sinai熵
與文獻(xiàn)[8]中的關(guān)聯(lián)維數(shù)相比,Kolmogorov ̄Sinai熵是動(dòng)態(tài)系統(tǒng)的一個(gè)重要特點(diǎn),發(fā)映了更多混沌系統(tǒng)的屬性特點(diǎn),所以,選用它作為分析動(dòng)態(tài)人體行為的一個(gè)特征.K ̄S熵(HKS)是在單位時(shí)間趨向∞并且盒子大小趨向0的條件限制下的平均熵,即
綜上所述,人體行為的每條軌跡可以用一個(gè)融合了上述這些不變量的3維特征向量(C,λ1,HKS)表示,每個(gè)參考關(guān)節(jié)點(diǎn)可以由一個(gè)9維的特征向量表示,每個(gè)動(dòng)作可以用一個(gè)90維的特征向量表示.
相關(guān)向量機(jī)(Relevance Vector Machine,RVM)[17]是TIPPING M E于2001年在貝葉斯框架的基礎(chǔ)上提出的,它有與支持向量機(jī)(Support Vector Machine,SVM)一樣的函數(shù)形式,與SVM一樣基于核函數(shù)映射將低維空間非線性問題轉(zhuǎn)化為高維空間的線性問題.
為了在L類分類問題中用到RVM,需要訓(xùn)練一些(L)RVMs,每個(gè)都能從一些其他人體行為中將某一類行文分離出來.給定數(shù)據(jù)樣本X,給每個(gè)(L)RVMs一個(gè)X屬于每個(gè)L類的概率,從而數(shù)據(jù)樣本被劃分到具有最大概率的某一類.
給定一個(gè)有N個(gè)輸入目標(biāo)對(duì)的訓(xùn)練數(shù)據(jù)集{Xn,ln}(1 ≤n≤N),RVM學(xué)習(xí)權(quán)值w={w1,…,wn},條件概率P(l|w,X)用于預(yù)測一個(gè)數(shù)據(jù)樣本X的標(biāo)簽l,學(xué)習(xí)的過程采用最大后驗(yàn)概率估計(jì)方法,具體過程如下:(1)條件概率P(l|w,F)相應(yīng)進(jìn)行建模;(2)先驗(yàn)概率P(w|a)確保權(quán)值向量w是稀疏的.
P(l|w,X)=f{y(X)}l(1-f{y(X)})1-l,
在2類問題的分類過程中,通過使條件概率P(l|X)最大,樣本X被分到類l∈ [0,1].為了在多類問題中使用RVM分類器,對(duì)每個(gè)類訓(xùn)練一個(gè)分類器,即L個(gè)不同的類就訓(xùn)練L個(gè)不同的分類器,于是給定的樣本X被分類到條件概率Pi(l|X)( 1 ≤i≤L)最大的某一個(gè)類為Class(X)=arg max(Pi(l|X)).
實(shí)驗(yàn)分別采用3個(gè)數(shù)據(jù)集:KTH人體行為數(shù)據(jù)集、Weizmann人體行為數(shù)據(jù)集和ballet數(shù)據(jù)集.
KTH人體行為數(shù)據(jù)集里含有6種人體動(dòng)作(走、慢跑、快跑、拳擊、揮舞手以及鼓掌),這6種動(dòng)作分別由25個(gè)主體在4種不同場景中做出相應(yīng)動(dòng)作幾次組成,其中4種場景包含室外場景、具有規(guī)模變化的室外場景、不同穿著的室外場景以及室內(nèi)場景.這些數(shù)據(jù)集的代表幀如圖5a)所示.初始化輸入是10個(gè)參考點(diǎn)軌跡的形式以及所有在文中第1部分涉及的數(shù)量級(jí)的時(shí)間序列,所以每個(gè)參考結(jié)點(diǎn)用3個(gè)時(shí)間序列(x,y,z)表示,每個(gè)動(dòng)作用30個(gè)時(shí)間序列表示.每條時(shí)間序列通過嵌入重構(gòu)相空間最后計(jì)算得出最大李雅普諾夫指數(shù)、相關(guān)積分和Kolmogorov ̄Sinai熵,從而融合這3種特征后得到一個(gè)90維的特征向量.當(dāng)使用RVM分類器,用新方法對(duì)KTH數(shù)據(jù)集的識(shí)別結(jié)果如表1所示,整個(gè)數(shù)據(jù)集的平均正確率相比文獻(xiàn)[8]中89.7%的平均正確率,此次達(dá)到91.2%.
圖5表示每個(gè)數(shù)據(jù)集的行為分別代表KTH數(shù)據(jù)集、Weizmann數(shù)據(jù)集、ballet數(shù)據(jù)集,而ballet數(shù)據(jù)集中動(dòng)作分別為從左到右打開手、從右到左打開手、站立著打開手、擺動(dòng)腿、跳躍、轉(zhuǎn)彎、單腳跳、靜立.
圖5 數(shù)據(jù)集的逐幀采樣
表1 對(duì)于KTH數(shù)據(jù)集的混合矩陣
Weizmann人體行為數(shù)據(jù)集包含9個(gè)不同的人展示9種不同的動(dòng)作組成的83個(gè)視頻序列.9種不同的動(dòng)作包括跑、走路、跳躍、兩腿向前跳、兩腿原地向上跳、側(cè)面急速前行、雙手揮舞、單手揮舞以及彎腰.文中的數(shù)據(jù)使用背景相減法對(duì)數(shù)據(jù)集追蹤和定位而得到.一些樣本幀如圖5b所示.通過新方法分類得到的結(jié)果如表2所示,相比文獻(xiàn)[8]中算法得到的平均正確率90.6%,使用新方法對(duì)整個(gè)測試數(shù)據(jù)集可以達(dá)到93.3%.
表2 對(duì)于Weizmann數(shù)據(jù)集的混合矩陣
續(xù)表
最后,對(duì)從芭蕾教學(xué)DVD視頻中收集的ballet數(shù)據(jù)集用新方法進(jìn)行測試.這個(gè)數(shù)據(jù)集在文獻(xiàn)[18]中使用.圖5c)示出一些樣本幀,表3示出使用新方法得到的分類結(jié)果.對(duì)ballet數(shù)據(jù)集每一幀比較,用文獻(xiàn)[18]的方法得到數(shù)據(jù)集準(zhǔn)確率達(dá)51%,而用新方法可以達(dá)到91.8%.由于文獻(xiàn)[18]中實(shí)驗(yàn)采用同樣的實(shí)驗(yàn)設(shè)置,因此結(jié)果相對(duì)比較公平.
表3 對(duì)于ballet數(shù)據(jù)集的混合矩陣
實(shí)驗(yàn)結(jié)果表明,新方法與文獻(xiàn)[8,18]中所用方法相比,更有明顯的優(yōu)點(diǎn),能夠得到更加滿意的平均準(zhǔn)確率.新方法能夠從小數(shù)據(jù)集準(zhǔn)確地計(jì)算出最大李雅普諾夫指數(shù),而且使用Kolmogorov ̄Sinai熵能更好地反映更多的動(dòng)態(tài)系統(tǒng)的混沌特性.
(1)提出了一種人體行為的非線性動(dòng)力學(xué)系統(tǒng)特征化的方法,動(dòng)力學(xué)系統(tǒng)的奇異吸引子的混沌不變量特征被提取出來,如最大李雅普諾夫指數(shù)、相關(guān)積分和Kolmogorov ̄Sinai熵.
(2)行為識(shí)別使用RVM算法和混沌不變量特征.文中用于行為識(shí)別的方法經(jīng)過KTH和Weizmann人體行為數(shù)據(jù)集測試,證明有明顯的可行性和潛在優(yōu)點(diǎn).
(3)實(shí)驗(yàn)結(jié)果表明,新方法比較真實(shí)有效,平均正確率在KTH、Weizmann及ballet數(shù)據(jù)集上分別達(dá)到了91.2%,93.3%和91.8%,明顯比文獻(xiàn)[8]中的89.7%,90.6%和51%更高;同時(shí),使用新方法對(duì)整個(gè)數(shù)據(jù)集的平均正確率與文獻(xiàn)[18]中方法相比可以達(dá)到92.1%.
[1] JHUANG.H,SERRE T,WOLF L,et al.Biologically Inspired System for Action Recognition[C].Proceedings of IEEE 11th International Conference.Taichung,Taiwan:ICCV,2007:342-346.
[2] SCHINDLER K,VAN G L.Action Snippets:How Many Frames Does Action Recognition Require?[C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Anchorage,Alaska,USA:CVPR,2008:1 121-1 127.
[3] IKIZLER N,FORSYTH D.Searching Video for Complex Activities with Finite State Models[C].Proceedings of IEEE Conf. Computer Vision and Pattern Recognition.Minneapolis,MN,USA:CVPR,2007:489-496.
[4] LAXTON B,LIM J,KRIEEGMAN L D.Temporal Contextual and Ordering Constraints for Recognizing Complex Activities in Video[C].Proceedings of IEEE Conf. Computer Vision and Pattern Recognition.Minneapolis,MN USA:CVPR,2007:298-306.
[5] LAPTV I,LINDEBER T.Space ̄Time Interest Points[C].Proceedings of Ninth IEEE International Conf. on Computer Vision.Nice,France:ICCV,2003:432-439.
[6] LIU Jingen,MUBARAK SHAH.Learning Human Actions via Information Maximization[C].Proceedings of IEEE Conf. on Computer Vision and Pattern Recognition.Anchorage,AK,USA:CVPR,2008:812-819.
[7] NIEBLES J C,LI Feifei.A Hierarchical Model of Shape and Appearance for Human Action Classification[C].Proceedings of IEEE Conf. on Computer Vision and Pattern Recognition Minneapolis.MN USA:CVPR,2007:65-73.
[8] ALE S,BASHARAT A,SHAH M.Chaotic Invariants for Human Action Recognition[C].Proceedings of IEEE Computer Vision and Pattern Recognition.Rio de Janeiro,Brazil:ICCV,2007:290-298.
[9] GONG Wenjuan,ANDREW D,BAGDANOV F,et al.Automatic Key Pose Selection for 3D Human Action Recognition[J].Computer Science,2010,61(6):290-299.
[10] REN Haibing,XU Guangyou.Articulated ̄Model Based Upper ̄Limb Pose Estimation[C].Proceedings of IEEE International Symposium on Computational Intelligence in Robotics and Automation.Aanff,Alberta,Canada:CIRA,2001:450-454.
[11] XU Feng,KIN M L,DAI Qinghai.Video ̄Object Segmentation and 3D ̄Trajectory Estimation for Monocular Video Sequences[J].Image and Vision Computing,2011,29(1):190-205.
[12] PACKAR N H,CRUTCHFIELD J P,FARMER J D,et al.Geometry from a Time Series[J].Phys. Rev. Lett.,1980,45(9):712-716.
[13] KIM H S,EYKHOLT R,SALAS J D.Nonlinear Dynamics,Delay Times,and Embedding Windows[J].Physica D:Nonlinear Phenomena,1999,127(1):48-60.
[14] GRASSBERGER P.Grassberger ̄Procaccia Algorithm[J].Scholarpedia,2007,2(5):3 043-3 044.
[15] LI Xibing,WANG Qisheng,YAO Jinrui,et al.Time Series Prediction for Surrounding Rock’s Deformation of Mine Lanes in Soft Rock[J].Journal of Central South University of Technology,2008,15(2):224-229.
[16] ROSENSTEIN M T,COLLINS J J,LUCA D C J.A Practical Method for Calculating Largest Lyapunov Exponents from Small Data Sets[J].Physica D,1993,65(1):117-134.
[17] TIPPING M E.Sparse Bayesian Learning and the Relevance Vector Machine[J].Journal of Machine Learning Research,2001,1(6):211-244.
[18] FATHI A,GREG MORI.Action Recognition by Learning Mid ̄Level Motion Features[C].Proceedings of IEEE CS Conf. Computer Vision and Pattern Recognition.Anchorage,AK,USA:CVPR,2008:311-317.
(責(zé)任編輯 向陽潔)
RecognitionofHumanBehaviorBasedonChaosInvariantandRelevanceVectorMachine
DAI Zhiqiang,DONG Jianfeng
(College of Tourism and Management Engineering,Jishou University,Zhangjiajie 427000,Hunan China)
An algorithm is put forward for the recognition of human behavior based on chaos invariant characteristics and relevance vector machine(RVM).First,the motion track generated by the joints of human is extracted to represent the nonlinear system of human movement behavior and C ̄C method is used to estimate the delay to obtain the dimension of phase space reconstituted by every motion track.Furthermore,the chaos invariant which represents human behavior is extracted from the phase space and RVM algorithm is used to recognize human behavior.Finally KTH,Weizmann human behavior database and ballet database are applied to test the effect of the algorithm,and the result proves that this method has the better recognition effect than others.
chaos system;behavior recognition;chaos invariant;RVM
1007-2985(2014)03-0037-07
2014-03-20
吉首大學(xué)校級(jí)科研課題(13JD031)
戴志強(qiáng)(1981-),男,湖南邵陽人,吉首大學(xué)旅游與管理工程學(xué)院講師,中南大學(xué)碩士,主要從事計(jì)算機(jī)應(yīng)用技術(shù)研究.
A
10.3969/j.issn.1007-2985.2014.03.009