莊偉源,成運,林賢明,蘇松志,曹冬林,李紹滋
(1.廈門大學 信息科學與技術(shù)學院,福建 廈門 361005; 2. 湖南人文科技學院 通信與控制工程系,湖北 婁底 417000;3. 福建省仿腦智能系統(tǒng)重點實驗室,福建 廈門361005 )
?
關(guān)鍵肢體角度直方圖的行為識別
莊偉源1,3,成運2,林賢明1,3,蘇松志1,3,曹冬林1,3,李紹滋1,3
(1.廈門大學 信息科學與技術(shù)學院,福建 廈門 361005; 2. 湖南人文科技學院 通信與控制工程系,湖北 婁底 417000;3. 福建省仿腦智能系統(tǒng)重點實驗室,福建 廈門361005 )
當前的姿態(tài)表示的行為識別方法通常對姿態(tài)的準確性做了很強的假設,而當姿態(tài)分析不精確時,這些現(xiàn)有方法的識別效果不佳。提出了一種低維的、魯棒的基于關(guān)鍵肢體角度直方圖的人體姿態(tài)特征描述子,用于將整個動作視頻映射成一個特征向量。同時,還在特征向量中引入共生模型,用以表示肢體間的關(guān)聯(lián)性。最后,設計了分層的SVM分類器,第1層主要用于選擇高判別力的肢體作為關(guān)鍵肢體,第2層則利用關(guān)鍵肢體的角度直方圖并作為特征向量,進行行為識別。實驗結(jié)果表明,基于關(guān)鍵肢體角度直方圖的動作特征具有較好的判別能力,能更好地區(qū)分相似動作,并最終取得了更好的識別效果。
角度特征;動作識別;關(guān)鍵肢體;角度直方圖;姿態(tài)表示;行為分析;動作特征
人體行為識別是計算機視覺領(lǐng)域的一個熱門的研究課題,在智能視覺監(jiān)控、視頻檢索、人機交互等領(lǐng)域有著廣泛的應用前景,也受到了越來越多研究學者的關(guān)注。在近20年的研究中,研究者們也提出了許多人體行為特征描述方法,如局部時空興趣點[2]、密集點軌跡[3]、密集3-D梯度直方圖[4]等,用于行為識別研究。雖然將這些方法用于行為識別研究也取得一定的成效,但是這些方法所采用的行為特征側(cè)重于描述人體運動的底層或中層特征,缺乏語義性和直觀性[5-14]。通過觀察肢體在時間軸上的運動軌跡不難發(fā)現(xiàn),現(xiàn)有這些方法對運動的描述與人類真實的運動是不相符合的。針對這些人體運動描述方法存在問題,研究者提出了基于姿態(tài)信息的方法。Sermetcan Baysal[6]提出的利用人體可見邊緣信息,并轉(zhuǎn)化為若干直線表示的直線姿態(tài)表示方法。L.Wang[7]提出了增強姿態(tài)估計進行動作識別。然而這2種方法存在部分局限性:Sermetcan的方法中對于模糊邊緣處理區(qū)分度欠缺,Li的方法中對于近似動作如“慢跑”、“跑步”和“走路”判別性不強。
現(xiàn)有的基于姿態(tài)表示的行為識別方法通常是在對姿態(tài)正確分析的理想條件下進行的。而人體的姿態(tài)估計仍然是一個開放的研究問題,目前尚未得到很好地解決。而當姿態(tài)估計無法得到完整準確的結(jié)果時,目前現(xiàn)有的姿態(tài)估計方法也常常因此效果不佳[8 ]。當前姿態(tài)估計算法無法精確定位所有的身體部位時,如何利用提取到的正確的姿態(tài)信息來設計一個高判別力、有效的特征成為的本研究問題的核心。
通過對人體運動進行剖析可以發(fā)現(xiàn):人體的行為動作可以分解為身體各個部位的運動,如:頭部運動、手部運動、腳部運動等。但是,正如W.Yang在文獻[1]所闡述的,各個身體部位在不同動作中所起的作用也是各不相同的。例如 “拳擊”動作是兩只手在身體同一側(cè)向前擊出,而“揮手”動作是兩只手在身體兩側(cè)左右揮動。除了這個區(qū)別外,其他身體部位的結(jié)構(gòu)位置均是相似的。因而,要有效區(qū)分這2種動作,需要重點關(guān)注手部的運動信息。本文將這些具有高判別力的肢體稱為關(guān)鍵肢體,并提出了一個基于關(guān)鍵肢體的魯棒,有效的動作特征描述子,用于行為識別研究中。
姿態(tài)信息的動作識別方法,首先估計每一幀中人的姿態(tài)信息,然后將連續(xù)幀的姿態(tài)信息轉(zhuǎn)化為沿著時間軸的姿態(tài)軌跡,再將姿態(tài)軌跡映射為動作特征,用于動作識別。隨著當前姿態(tài)估計領(lǐng)域的發(fā)展,基于姿態(tài)的動作識別的準確率也在顯而易見地提高。目前比較廣泛使用的姿態(tài)估計方法包括Poselet[9]、DPM[10]、Y.Yang[11-12]。Poselet是一個基于實例的姿態(tài)估計方法,通過大量的模板匹配,在圖像中找出與人體肢體部位姿態(tài)相一致的塊。其中Poselet的模板數(shù)超過1 000個,計算復雜度遠高于基于DPM和Y.Yang的算法。Y.Yang在DPM和標準圖案模型[15-17]的基礎(chǔ)上,提出了一個通用的、靈活的混合模型來捕捉部位間的空間關(guān)系和共生關(guān)系,取得了很好的姿態(tài)估計效果;并且這個方法只用了5個模板,計算復雜度低、效率高,是當前姿態(tài)估計領(lǐng)域中的潮流方法。本文采用該算法來估計姿態(tài)信息。
由于當前姿態(tài)估計算法無法精確估計所有的身體部位,因此,合理設計的特征描述子可以更好地利用提取到的有效的姿態(tài)信息。以往的方法[7-13]利用部位位置信息表述姿態(tài)特征。實驗證明,在對不同尺度下的動作視頻做行為識別時,利用位置信息構(gòu)建的姿態(tài)特征分類效果不佳,但是每個部位的角度信息具有尺度不變性。同時選用的姿態(tài)估計算法在部位間引入空間限制,這使得僅利用各部位角度信息表述姿態(tài)特征成為可能。因此,在設計動作特征時舍棄位置信息,僅提取角度信息。另外,在動作建模層面,文獻[6-7]利用聚類算法在訓練樣本中生成一系列標準姿態(tài),并在測試視頻中每一幀的姿態(tài)信息中找出其最相近的標準姿態(tài)。這種方法在構(gòu)建標準姿態(tài)時包含了所有部位信息,容易受到?jīng)]有準確估計的部位信息的影響,不夠魯棒??紤]了另一種策略,即對每個部位單獨構(gòu)建特征,選取關(guān)鍵部位并級聯(lián)組成動作特征向量。同時,受同一肢體的上部和下部(如大臂和小臂)的角度有相關(guān)性聯(lián)系的啟發(fā),在設計特征時引入共生關(guān)系并稱之為成對肢體特征。
圖1顯示了關(guān)鍵肢體角度直方圖的基本流程。首先,采用Y.Yang提出的姿態(tài)估計算法對輸入視頻進行姿態(tài)估計,獲取每一幀各個部位點的位置信息。然后,本文將具有生理關(guān)聯(lián)性的部位點連接,并定義為肢體,利用部位點對的位置信息來計算肢體位置和角度信息。根據(jù)各個肢體對特定動作的判別力大小,選取判別力大的手臂肢體和腿部肢體共8個部位作為候選關(guān)鍵肢體。
圖1 基于關(guān)鍵肢體角度直方圖的動作識別算法基本流程
設計一個2層的SVM分類器。第1層分類器用于從候選關(guān)鍵肢體當中選出關(guān)鍵肢體,將動作者軀干的水平位置信息分布直方圖作為特征,根據(jù)這個特征將動作劃分成兩大類:非移動類和移動類。非移動類是指除了手部運動外,其他肢體運動較少的行為,只需選用手臂作為關(guān)鍵肢體;移動類則是腿部也有運動,因此需要將腿部也作為關(guān)鍵肢體。第2層SVM分類器中,為解決如圖2顯示的不同尺度下姿態(tài)表示問題,僅選用肢體的角度信息做姿態(tài)表示,并利用角度信息定義各個肢體在每一幀中的運動類型。然后,設計獨立肢體特征和成對肢體特征2種運動類型直方圖的統(tǒng)計策略,用以統(tǒng)計各個肢體在整個視頻中的不同的運動類型的出現(xiàn)次數(shù)。最后,將級聯(lián)的關(guān)鍵肢體的角度直方圖作為動作特征,用于做動作識別。
圖2 尺度變化實例
2.1 姿態(tài)信息估計
人體姿態(tài)通常呈現(xiàn)出高形變的特點,其類內(nèi)表觀差異性大,Y.Yang提出的姿態(tài)估計[11]具有表觀變化一致性,允許姿態(tài)中人體部位發(fā)生輕微偏移,并可以利用少數(shù)的模板有效地估計姿態(tài)。該方法和圖案結(jié)構(gòu)模型一樣,都運用了多成分的混合模型,其中每個成分表示訓練數(shù)據(jù)集中某種姿態(tài)數(shù)據(jù),并在此基礎(chǔ)上引入共生模型來表示部位間的共生關(guān)系。該姿態(tài)估計模型包含3個模型:混合模型、成對彈簧模型和共生模型。混合模型是無方向圖形結(jié)構(gòu)的混合;成對彈簧模型是成對部位間的空間限制;共生模型是同一肢體上的部位在方向上的一致性限制。
姿態(tài)估計模型輸入一幀圖像lrh,輸出所有部位的位置信息L(設部位i的位置為li)。其位置信息的計算公式為
2.2 姿態(tài)表示和候選關(guān)鍵肢體
獲取到關(guān)節(jié)點位置信息矩陣之后,需要對其進行編碼,映射為姿態(tài)特征,并從中選出關(guān)鍵肢體。應用姿態(tài)估計從不同動作獲取的姿態(tài)信息如圖3線段所示,相鄰部位點間用線段連接后,在視覺上接近于骨架信息。將這些線段分別定義為小臂、大臂、軀干、小腿、大腿和頭部等肢體,如用直線將右手的部位點lrh和中下臂的部位點lrla連接并定義為右小臂,設為prla。計算其對應的線段中點位置(xrla,yrla)和相對于水平軸的角度θrla。方法如下:
prla=(xrla,yrla,θrla)=
圖3 應用姿態(tài)估計從不同動作獲取的姿態(tài)信息
2.3 肢體角度直方圖
在第1層分類器中,主要任務是將動作分為非移動類和移動類兩大類動作,本文提取了軀干的水平位置分布信息并用直方圖特征表示,用來判斷人是否發(fā)生移動。
對非移動類動作(包括拳擊、拍手和揮手),使用每個部位設置10個運動類型,并使用成對肢體特征描述手臂部位。特征向量的維度為2×10×10,為200維。對移動類動作(包括慢跑、跑步和走路),用獨立肢體特征表示手臂部位其中每個部位包含18個運動類型,而腿部部位用成對肢體特征表示,其中每個部位包含9個運動類型。對手臂應用獨立肢體特征而不是成對肢體特征的原因在于:經(jīng)觀察發(fā)現(xiàn),移動類的動作中,腳部部位的姿態(tài)估計準確率更高,而由于手臂部位接近軀干,因此無法準確估計手臂的所有部位,在這種情況對成對肢體特征的干擾較大而獨立肢體特征更具有魯棒性。整個動作向量的維度是4×18+2×9×9,為234維。特征提取后同一進行歸一化處理。
實驗部分采用KTH action dataset數(shù)據(jù)集[20]做測試。KTH數(shù)據(jù)集包含了600個灰度視頻,其中共6類動作:拳擊、拍手、揮手、慢跑、跑步和走路。這些動作分別由25個參與者在4種不同的場景(戶外、戶外以及尺度變化、戶外以及換其他服裝和室內(nèi))完成。視頻空間分辨率為160×120。
選用70%的視頻作為訓練集,并采用交叉驗證的方法用對SVM模型參數(shù)進行優(yōu)化。剩下30%視頻作為測試集,重復4次實驗取平均實驗結(jié)果。在姿態(tài)估計部分,人工對每個動作提取15幀圖片,并標注部位點位置,用以訓練姿態(tài)估計模型。在姿態(tài)估計中,嘗試加入視頻姿態(tài)估計[21]的方法以引入時間限制模型。實驗驗證部位點在某一幀的定位情況會受到其他幀定位質(zhì)量的影響,最終可能生成低判別力的特征。
3.1 肢體運動類型的數(shù)目對比試驗
為驗證運動類型的數(shù)目對分類效果的影響,在第2層分類器中,分別改變非移動類(圖4(a))和移動類運動類型的數(shù)目。由于在移動類中選取手臂部位和腿部部位作為關(guān)鍵肢體,因此分別只改變腿部運動類型數(shù)目(圖4(b)點劃線))或手臂運動類型數(shù)目(圖4(b)虛線),保持另一關(guān)鍵肢體運動類型數(shù)目不變。
(a) 非移動類動作
(b) 移動類動作
圖4中,如果類型數(shù)目低于某個值時,分類準確性隨著類型數(shù)目的增加而提升; 但如果類型數(shù)目超過某個值時,分類準確率就會下降。證明了更多的運動類型可以更好地表示動作,但當類型數(shù)目超過一定值時,魯棒性會下降,姿態(tài)估計的質(zhì)量對動作識別的影響更大。
3.2 移動類用成對肢體特征表示手臂
同時,為驗證對手臂部位的定位誤差對共生關(guān)系以及分類準確性的影響,在移動類中,用成對肢體特征表示手臂,替代原先的獨立肢體特征。并且實驗過程中,固定腿部肢體運動類型數(shù)目為9,改變手臂肢體運動類型數(shù)目。實驗結(jié)果如圖4(b)中實線所示,由于姿態(tài)估計算法尚不夠獲得完整準確的結(jié)果,成對肢體特征容易受到單個部位定位誤差的影響,因此魯棒性不如獨立肢體特征。
3.3 用聚類算法替代角度直方圖特征
除此之外,針對移動類動作,文中還對比了角度特征和相對位置特征2種姿態(tài)描述子的效果,由于相對位置特征不適合用本文的角度直方圖特征,因此應用了Sermetcan[6]和 LI Wang[7]的方法,利用K-Means聚類[22]對所有訓練集的姿態(tài)描述子進行聚類,生成的聚類中心即為標準姿態(tài)。對于測試集,對每幀的姿態(tài)描述子利用KNN算法,尋找最相似的標準姿態(tài),并用直方圖統(tǒng)計各個標準姿態(tài)的出現(xiàn)次數(shù)。
表1 2種姿態(tài)描述結(jié)合K-Means聚類與K-NN在移動類的動作的準率
Table 1 Accuracy of pose feature together with K-Means and K_NN on Moving category: (a) angle feature; (b) relative position feature
姿態(tài)描述慢跑跑步走路相對位置特征0.770.570.93角度特征0.800.690.90
實驗結(jié)果如表1所示,與相對位置特征相比,角度特征可以更好地區(qū)分不同尺度下的動作。但同時,這2種特征,與采用聚類算法生成標準姿態(tài)相比,本文方法中對每個部位獨立構(gòu)建特征并級聯(lián)成行為特征的策略可以有效降低計算復雜度,且具有更高的判別力。
3.4 本文方法與當前行為識別算法對比
實驗當中還對2種當前較為常用的分類器效果進行對比:SVM分類器和Softmax Regression分類器,實驗結(jié)果如圖5的混淆矩陣所示。其中,SVM分類器的動作識別的平均準確率達到94.9%,而Softmax Regression分類器的準確率為85.4%。
圖5 KTH數(shù)據(jù)集上識別效果的混淆矩陣
為了驗證本文方法的準確率,分別與當前的主流算法進行對比。表2是本文方法和基于姿態(tài)的行為識別方法,在KTH動作數(shù)據(jù)集上具體動作的準確率,觀察可得,本文方法在各個動作的識別中都有了較大的提升。表3是本文方法與當前經(jīng)典的低維或者中維局部特征的動作識別方法在KTH數(shù)據(jù)集上的平均準確率實驗結(jié)果對比。其中,在跑步動作中常無法準確識別,主要在于其骨架結(jié)構(gòu)與慢跑近似,甚至肉眼也無法準確分辨。
表2 基于姿態(tài)的動作識別算法在KTH動作數(shù)據(jù)集的準確率
Table 2 Recognition accuracy on KTH action dataset of pose-based method/%
方法拳擊拍手揮手慢跑跑步走路LiWang[7]0.760.880.961.0——Sermetcan[6]0.900.960.940.870.980.84本文方法0.970.970.970.970.831.0
表3 動作識別算法在KTH數(shù)據(jù)集的平均準確率Table 3 Recognition accuracy on KTH action dataset
由于姿態(tài)估計算法本身一直是一個復雜的研究問題,基于姿態(tài)的行為識別方法一直無法獲得滿意的效果。結(jié)合當前最優(yōu)的姿態(tài)估計算法,我們設計了2層的分類器,第1層分類器用于選取關(guān)鍵肢體;在第2層分類器中,為解決不同尺度下的動作分類,僅用角度信息表示姿態(tài),并提出了關(guān)鍵肢體角度直方圖的動作特征,在姿態(tài)估計尚存在一定程度的估計誤差時,依然能較為準確的識別動作。
當前對每幀獨立地進行姿態(tài)識別,并且在構(gòu)建動作特征時,僅用空間信息進行行為識別,已獲得較精確的結(jié)果。如何在動作特征中引入前后時間關(guān)系,并保證特征的魯棒性,使其可以應用于更為復雜的動作場景中,會是將來研究的重點方向。
[1]YANG Weilong, WANG Yang, MORI G. Recognizing human actions from still images with latent poses[C]//IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, USA, 2010: 2030-2037.
[2]LAPTEV I. On space-time interest points[J]. International Journal of Computer Vision, 2005, 64(2/3): 107-123.
[3]WANG H, KLASER A, SCHMID C, et al. Action recognition by dense trajectories[C]//IEEE Conference on Computer Vision and Pattern Recognition. Colorado, USA, 2011: 3169-3176.
[4]KLASER A, MARSZALEK M, SCHMID C. A spatio-temporal descriptor based on 3d-gradients[C]// British Machine Vision Conference. Leeds, UK, 2008: 275-285.
[5]SADANAND S, CORSO J. Action bank: a high-level representation of activity in video[C]//IEEE Conference on Computer Vision and Pattern Recognition. [s.l.], 2012: 1234-1241.
[6]BAYSAL S, DUYGULU P. A line based pose representation for human action recognition[J]. Signal Processing: Image Communication, 2013, 28(5): 458-471.
[7]LI Wang, LI Cheng. Human action recognition from boosted pose estimation[C]//International Conference on Digital Image Computing: Techniques and Applications. Sydney, AU, 2010: 308-313.
[8]徐光祐,曹媛媛. 動作識別和行為理解綜述[J]. 中國圖像圖形學報, 2009,14(2): 189-195. XU Guangyou, CAO Yuanyuan. Action recognition and activity understanding: a review[J]. Journal of Image and Graphics, 2009, 14(2): 189-195.
[9]BOURDEV L, MALIK J. Poselets: body part detectors training using 3-D human pose annotations[C]// IEEE International Conference on Computer Vision. [s.l.], 2009: 1365-1372.
[10]FELZENSZWALB P, MCALLESTER D, RAMANAN D. A discriminatively trained, multi scale, deformable part model[C]//IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, USA, 2008: 1-8.
[11]YANG Y, RAMANAN D. Articulated pose estimation with flexible mixtures-of-parts[C]//IEEE Conference on Computer Vision and Pattern Recognition. Colorado, USA, 2011: 1385-1392.
[12]YANG Y, RAMANAN D. Articulated human detection with flexible mixtures of parts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12): 2878-2890.
[13]WANG Jiang, LIU Zicheng, WU Ying. Ming acionlet ensemble for action recognition with depth cameras[C]//IEEE Conference on Computer Vision and Pattern Recognition. [s.l.], USA, 2012: 1290-1297.
[14]雷慶,李紹滋. 動作識別中局部時空特征的運動表示方法研究[J]. 計算機工程與應用, 2010, 46(34): 7-10. LEI Qing, LI Shaozi. Research on local spatio-temporal features for action recognition[J]. Computer Engineering and Applications, 2010, 46(34): 7-10.
[15]EPSHTEIN B, ULLMAN S. Semantic hierarchies for recognizing objects and parts[C]//IEEE Conference on Computer Vision and Pattern Recognition.[S.l.], 2007: 1-8.
[16]FELZENSZWALB P, HUTTENLOCHER D. Pictorial structures for object recognition[J]. International Journal of Computer Vision, 2005, 61(1): 55-79.
[17]FELZENSZWALB P, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part based models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.
[18]DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//IEEE Conference on Computer Vision and Pattern Recognition.[S.l.], 2005: 886-893.
[19]曲永宇,劉清,郭建明. 基于HOG和顏色特征的行人檢測[J]. 武漢理工大學學報, 2011, 33(4):134-141. QU Yongyu, LIU Qing, GUO Jianming. HOG and color based pedestrian detection[J]. Journal of Wuhan University of Technology, 2011, 33(4): 134-141.
[20]LAPTEV I, CAPUTO B, SCHULDT Christian. Local velocity-adapted motion events for spatio-temporal recognition[J]. Computer Vision and Image Understanding, 2007, 108: 207-229.
[21]BURGOS-ARTIZZU X P, HALL D, PIETRO P, et al. Merging pose estimates across space and time[C]//British Machine Vision Conference. Bristol, UK, 2013: 58-69.
[22]王千,王成,馮振元. K-means聚類算法研究綜述[J]. 電子設計工程, 2012, 20(7): 21-24. WANG Qian, WANG Cheng, FENG Zhenyuan. Review of K-means cluster algorithm[J]. Electronic Design Engineering, 2012, 20(7): 21-24.
[23]LAPTEV I, MARSZALEK M, SCHMID C, el al. Learning realistic human actions from movies[C]//IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, USA, 2008: 1-8.
[24]BREGONZIO M, GONG S, XIANG T. Recognizing action as clouds of space-time interest points[C]//IEEE Conference on Computer Vision and Pattern Recognition. Miami,
USA, 2009: 1948-1955.
[25]LIU J, SHAH M. Learning human actions via information maximization[C]//IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, USA, 2008: 1-8.
[26]WU X, XU D, DUAN L,et al. Action recognition using context and appearance distribution features[C]//IEEE Conference on Computer Vision and Pattern Recognition. Colorado, USA, 2011: 489-496.
[27]GILBERT A, ILLINGWORTH J, BOWDEN R. Fast realistic multi-action recognition using mined dense spatio-temporal features[C]//IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA, 2009: 925-931.
[28]凌志剛,趙春暉,梁彥. 基于視覺的人行為理解綜述[J]. 計算機應用研究, 2008, 25(9): 2570-2578. LING Zhigang, ZHAO Chunhui, LIANG Yan. Survey on vision-based human action understanding[J]. Application Research of Computers, 2008, 25(9): 2570-2578.
莊偉源,男,1990年生,碩士研究生,主要研究方向為人體行為識別、計算機視覺、深度學習。
林賢明,男,1980年生,助理教授,博士,主要研究方向為人體行為識別、移動視覺搜索、計算機視覺、模式識別。
李紹滋,男,1963年生,教授,博士生導師,博士,福建省人工智能學會副理事長兼秘書長,主要研究方向為運動目標檢測與識別、自然語言處理與多媒體信息檢索等。發(fā)表學術(shù)論文160余篇,其中被SCI檢索16篇、被EI檢索142篇。
Action recognition based on the angle histogram of key parts
ZHUANG Weiyuan1, 3, CHENG Yun2, LIN Xianming1, 3, SU Songzhi1, 3, CAO Donglin1, 3, LI Shaozi1, 3
(1. School of Information Science and Technology, Xiamen University, Xiamen 361005, China; 2 Department of Communication and Control Engineering, Hunan University of Humanities, Science and Technology,Loudi 417000,China; 3. Fujian Key Laboratory of the Brain-Like Intelligent Systems, Xiamen 361005, China)
The current pose-based methods usually make a strong assumption for the accuracy of pose, but when the pose analysis is not precise, these methods cannot achieve satisfying results of recognition. Therefore, this paper proposed a low-dimensional and robust descriptor on the gesture feature of the human body based on the angle histogram of key limbs, which is used to map the entire action video into an feature vector. A co-occurrence model is introduced into the feature vector for expressing the relationship among limbs. Finally, a two-layer support vector machine (SVM) classifier is designed. The first layer is used to select highly discriminative limbs as key limbs and the second layer takes angle histogram of key limbs as the feature vector for action recognition. Experiment results demonstrated that the action feature based on angle histogram of key limbs has excellent judgment ability, may properly distinguish similar actions and achieve better recognition effect.
angle feature; action recognition; key parts; angle histogram; pose representation; action analyze; action feature
2014-10-24.
日期:2015-01-13.
國家自然科學基金資助項目(61202143);福建省自然科學基金資助項目(2013J05100,2010J01345,2011J01367);廈門市科技重點項目資助項目(3502Z20123017).
林賢明. E-mail:linxm@xmu.edu.cn.
10.3969/j.issn.1673-4785.201410039
http://www.cnki.net/kcms/doi/10.3969/j.issn.1673-4785.201410039.html
TP391.4
A
1673-4785(2015)01-0020-07
莊偉源,成運,林賢明,等. 關(guān)鍵肢體角度直方圖的行為識別[J]. 智能系統(tǒng)學報, 2014, 10(1): 20-26.
英文引用格式:ZHUANG Weiyuan, CHENG Yun, LIN Xianming, et al. Action recognition based on the angle histogram of key parts[J]. CAAI Transactions on Intelligent Systems, 2014, 10(1): 20-26.