石祥濱,李 菲,劉翠微(.沈陽航空航天大學(xué) 計(jì)算機(jī)學(xué)院,沈陽 036;2.遼寧大學(xué) 信息學(xué)院,沈陽 0036)
信息與科學(xué)工程
基于多特征融合的動(dòng)作識(shí)別方法
石祥濱1,2,李 菲1,劉翠微1
(1.沈陽航空航天大學(xué) 計(jì)算機(jī)學(xué)院,沈陽 110136;2.遼寧大學(xué) 信息學(xué)院,沈陽 110036)
提出一種基于多特征融合的動(dòng)作識(shí)別方法,利用隨機(jī)森林學(xué)習(xí)框架融合RGB-D圖像序列中的深度特征和時(shí)空特征。從深度圖像序列中獲取人的關(guān)節(jié)點(diǎn)位置信息,利用關(guān)節(jié)點(diǎn)坐標(biāo)提取兩種新的深度特征——位移特征和部件中心特征,共同描述人體三維結(jié)構(gòu)信息。從RGB 圖像序列中提取稠密軌跡,保留前景內(nèi)的軌跡排除背景干擾,利用詞袋模型構(gòu)建時(shí)空特征。最后,采用魯棒高效的隨機(jī)森林學(xué)習(xí)框架融合兩種互補(bǔ)的特征。在MSR Daily Activity3D數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提出的方法和特征能夠有效地識(shí)別RGB-D圖像序列中人的動(dòng)作。
人的動(dòng)作識(shí)別;特征融合;隨機(jī)森林
人的動(dòng)作識(shí)別是計(jì)算機(jī)視覺領(lǐng)域中一個(gè)富有挑戰(zhàn)性的研究課題,涉及到模式識(shí)別、機(jī)器學(xué)習(xí)和認(rèn)知科學(xué)等多個(gè)學(xué)科領(lǐng)域,具有廣泛的應(yīng)用價(jià)值,如:智能視頻監(jiān)控、高級(jí)人機(jī)交互、虛擬現(xiàn)實(shí)等。在真實(shí)場景下采集的圖像序列往往存在復(fù)雜的背景、劇烈的光照變化和攝像機(jī)運(yùn)動(dòng),這些不確定因素對人的動(dòng)作識(shí)別造成了很大的困難。同時(shí),由于人的運(yùn)動(dòng)習(xí)慣和個(gè)體表觀的不同,同一類動(dòng)作的不同示例也存在較大的類內(nèi)差異。因此,目前基于計(jì)算機(jī)視覺的人體動(dòng)作識(shí)別依然是一個(gè)研究熱點(diǎn)問題。
傳統(tǒng)的動(dòng)作識(shí)別方法[1-3]是基于RGB圖像序列的,這類方法對光照和背景變化較為敏感。近年來,隨著低成本深度相機(jī)(如Kinect)的問世,基于深度圖像序列的動(dòng)作識(shí)別方法[4-5]逐漸成為研究熱點(diǎn)。Kinect獲取的RGB-D圖像序列由RGB三通道彩色圖像序列和Depth深度圖像序列共同組成。從RGB圖像序列中可以提取時(shí)空特征,從深度圖像序列中可以提取深度特征,兩種特征分別從兩個(gè)不同角度對圖像序列中人的動(dòng)作進(jìn)行描述,前者描述了視覺表觀信息和運(yùn)動(dòng)信息,后者描述了人的三維結(jié)構(gòu)信息。
本文提出一種基于多特征融合的動(dòng)作識(shí)別方法,利用隨機(jī)森林學(xué)習(xí)框架融合RGB-D圖像序列中的兩種互補(bǔ)特征?;趶纳疃葓D像序列中獲取的關(guān)節(jié)點(diǎn)位置信息,本文提出一種新的深度特征——位移特征,對關(guān)節(jié)點(diǎn)的運(yùn)動(dòng)信息進(jìn)行描述?;诙嗵卣魅诤系膭?dòng)作識(shí)別方法首先從深度圖像序列中獲取人的關(guān)節(jié)點(diǎn)位置坐標(biāo),從經(jīng)過篩選的15個(gè)關(guān)節(jié)點(diǎn)中任意選擇兩個(gè)關(guān)節(jié)點(diǎn)組成位移向量,將位移特征作為深度特征。然后從RGB 圖像序列中提取稠密軌跡(dense trajectory)[6],利用前景對稠密軌跡進(jìn)行篩選,保留前景內(nèi)的軌跡,排除無關(guān)背景的干擾,再利用詞袋模型(bag of words)[7]構(gòu)建RGB圖像序列的時(shí)空特征。最后,采用隨機(jī)森林學(xué)習(xí)框架融合兩種互補(bǔ)的特征,識(shí)別圖像序列中的動(dòng)作類別。算法的基本框架如圖1所示。
圖1 基于特征融合的動(dòng)作識(shí)別框架示意
傳統(tǒng)的動(dòng)作識(shí)別方法大多是基于RGB圖像序列的,從RGB圖像序列中提取的時(shí)空特征描述了人的表觀信息和二維空間運(yùn)動(dòng)信息。時(shí)空特征將圖像序列作為一個(gè)三維空間中的時(shí)空體進(jìn)行分析和理解,并且從中提取三維數(shù)據(jù):時(shí)空興趣點(diǎn)、時(shí)空立方體、時(shí)空形狀等用于描述圖像序列中目標(biāo)的動(dòng)作。時(shí)空特征具有很多優(yōu)點(diǎn):可以獲取較長時(shí)間序列的動(dòng)態(tài)特征;綜合考慮時(shí)間和空間的連續(xù)性,對于降低特征匹配的復(fù)雜度、處理有遮擋等干擾因素的序列時(shí)更加魯棒有效。Laptev等人[1]最早提出了時(shí)空興趣點(diǎn)概念,利用Harris角點(diǎn)算子[9]對時(shí)間和空間上亮度有顯著變化的局部區(qū)域進(jìn)行檢測,稱其為時(shí)空興趣點(diǎn)(spatio-temporal interest point)。Wu等人[2]用高斯混合模型對時(shí)空興趣點(diǎn)之間的相對時(shí)空位置進(jìn)行建模,并生成興趣點(diǎn)的時(shí)空分布特征,描述在不同時(shí)空尺度下,興趣點(diǎn)在圖像序列中的時(shí)空分布信息。Wang[3]跟蹤圖像序列中的稠密圖像塊,提取稠密的光流軌跡,多個(gè)公共數(shù)據(jù)集上的實(shí)驗(yàn)表明,使用稠密軌跡的實(shí)驗(yàn)結(jié)果明顯優(yōu)于使用通過KLT[10]跟蹤特征點(diǎn)得到稀疏軌跡的實(shí)驗(yàn)結(jié)果。稠密光流軌跡對不規(guī)則的運(yùn)動(dòng)較為魯棒,可以更加準(zhǔn)確地捕捉復(fù)雜的運(yùn)動(dòng)模式。Wang等人[11]通過對人體姿態(tài)時(shí)空結(jié)構(gòu)的建模,將人體的關(guān)節(jié)點(diǎn)分為5個(gè)部分,應(yīng)用數(shù)據(jù)挖掘技術(shù)獲得人體時(shí)空結(jié)構(gòu)的表示方式。
隨著低成本深度相機(jī)Kinect的問世,人們開始研究基于深度圖像的動(dòng)作識(shí)別方法。深度圖像是反映物體到鏡頭平面距離的一個(gè)圖像通道,克服了自然圖像單目識(shí)別的缺點(diǎn),可以有效避免由于光照、遮擋等環(huán)境因素的影響,圖像序列中目標(biāo)的三維結(jié)構(gòu)信息可以通過深度特征進(jìn)行準(zhǔn)確地描述。Shotton等人[4-5]提出一種對象識(shí)別方法,設(shè)計(jì)一種中間部位的表示方式,將復(fù)雜的姿態(tài)估計(jì)問題映射到簡單的逐個(gè)像素分類問題,該方法可以從一張深度圖像中快速并準(zhǔn)確地估計(jì)出人體骨架關(guān)節(jié)點(diǎn)的三維位置。Raptis等人[12]提出一種新的模型,將一個(gè)動(dòng)作模式化為一個(gè)局部稀疏序列,序列中的關(guān)鍵幀是圖像序列中人物部分關(guān)鍵姿態(tài)的集合,用該稀疏序列對動(dòng)作序列中的關(guān)鍵狀態(tài)進(jìn)行描述。Rahmani等人[13]提出一種新的描述子HOPC(Histogram of Oriented Principal Components)和一種關(guān)鍵點(diǎn)檢測方法STKPs(Spatio-Temporal Key-Points),在提升動(dòng)作識(shí)別的準(zhǔn)確率和速度的同時(shí),識(shí)別過程也更加魯棒。Vemulapalli[14]等人提出一種基于人體部件之間三維幾何關(guān)系的表示方法,這種表示方法可以明確模擬存在于人體部件之間經(jīng)過旋轉(zhuǎn)平移的三維空間幾何關(guān)系。Lu等人[15]提出一種二進(jìn)制深度特征,在加快動(dòng)作識(shí)別速度的同時(shí),避免由于測量、背景以及觀察角度的遮擋與旋轉(zhuǎn)等外界因素的變化對動(dòng)作識(shí)別準(zhǔn)確率造成的影響。Kong等人[16]提出一種BHIM雙線性異構(gòu)信息機(jī)制,該機(jī)制獲取一個(gè)共享領(lǐng)域?qū)⒁曈X特征和深度特征進(jìn)行融合并提出一種新的低秩雙線性分類器進(jìn)行動(dòng)作識(shí)別。Jiawei Li等人[17]根據(jù)關(guān)節(jié)點(diǎn)運(yùn)動(dòng)特征的相似性,將人的身體分成幾個(gè)集群,對每一個(gè)集群進(jìn)行特征提取和動(dòng)作分類,利用邏輯回歸為每一個(gè)特征計(jì)算出一個(gè)權(quán)值,將權(quán)值最大的類別作為分類結(jié)果。E.Mohammadi等人[18]首先使用多樣特征集從不同角度對支持向量機(jī)進(jìn)行訓(xùn)練,然后將各單一的SVM用于代數(shù)結(jié)合和D-S融合,綜合單一分類器的輸出結(jié)果,使得識(shí)別結(jié)果更加準(zhǔn)確,算法整體框架更加魯棒實(shí)用。Yang Wang等人提出一種反向動(dòng)作識(shí)別方法[19],利用無動(dòng)作信息的數(shù)據(jù)集對無動(dòng)作分類器進(jìn)行訓(xùn)練,使得無動(dòng)作分類器可以準(zhǔn)確篩選掉不相關(guān)的視頻片段,進(jìn)而提高動(dòng)作識(shí)別系統(tǒng)的效率。Javed Imarn等人提出一個(gè)四通道卷積神經(jīng)網(wǎng)絡(luò)[20],第一個(gè)通道用于處理運(yùn)動(dòng)歷史圖像,其余3個(gè)通道分別用于處理主視、側(cè)視和俯視3個(gè)角度的深度圖像數(shù)據(jù)。
根據(jù)上述基于RGB圖像序列和基于深度圖像序列動(dòng)作識(shí)別方法的總結(jié),提出利用隨機(jī)森林學(xué)習(xí)框架融合RGB-D圖像序列中的時(shí)空與深度兩種互補(bǔ)特征。本文提出的位移特征和部件中心特征可以全面有效地描述人在發(fā)生運(yùn)動(dòng)時(shí)的三維結(jié)構(gòu)信息,通過隨機(jī)森林與描述表觀信息的時(shí)空特征進(jìn)行融合,不僅可以提升動(dòng)作識(shí)別的準(zhǔn)確率,還可以保證識(shí)別過程的魯棒性。
本文使用2種互補(bǔ)特征分別描述人的三維結(jié)構(gòu)信息和表觀信息。將位移特征和部件中心特征共同作為新的深度特征更準(zhǔn)確地描述人的三維結(jié)構(gòu)信息。本節(jié)詳細(xì)描述了本文提出算法所需要的深度特征和時(shí)空特征以及兩種特征的提取過程。
2.1 深度特征
本文提出兩種新的深度特征:位移特征和部件中心特征。利用位移描述兩個(gè)關(guān)節(jié)點(diǎn)之間存在的相對運(yùn)動(dòng),利用部件中心特征捕獲身體部件中心點(diǎn)的時(shí)序運(yùn)動(dòng)信息。使用兩種深度特征共同描述人體發(fā)生運(yùn)動(dòng)時(shí)的三維結(jié)構(gòu)信息。
由于獲取的圖像序列數(shù)據(jù)較長,首先對圖像序列進(jìn)行分割處理,從每一個(gè)深度圖像序列中平均采樣D幅深度圖像作為關(guān)鍵幀,提取關(guān)鍵幀中人的骨架關(guān)節(jié)點(diǎn)坐標(biāo)。若一幅深度圖像中的骨架關(guān)節(jié)點(diǎn)坐標(biāo)為d維,則整個(gè)圖像序列的深度特征為D*d維。
2.1.1 位移特征
從由Kinect獲取的深度圖像序列中選取15個(gè)關(guān)節(jié)點(diǎn)位置信息用于深度特征的提取。如圖2所示。圖中關(guān)節(jié)點(diǎn)A~關(guān)節(jié)點(diǎn)O分別代表人的髖中心、肩中心、頭、左肩、左肘、左手、右肩、右肘、右手、左髖、左膝、左腳、右髖、右膝、右腳。每一幅關(guān)鍵幀圖像中人的關(guān)節(jié)點(diǎn)位置坐標(biāo)可以表示如式(1):
joints={(xA,yA,zA),(xB,yB,zB),…,(xO,yO,zO)}
(1)
圖2 人的關(guān)節(jié)點(diǎn)位置示意圖
當(dāng)人發(fā)生動(dòng)作時(shí),人的關(guān)節(jié)點(diǎn)位置以及兩個(gè)關(guān)節(jié)點(diǎn)之間的距離會(huì)發(fā)生相應(yīng)的變化。應(yīng)用位移向量既有大小又有方向的特點(diǎn),任意選擇兩個(gè)關(guān)節(jié)點(diǎn)構(gòu)成位移向量,位移向量的大小可以用于表示兩個(gè)關(guān)節(jié)點(diǎn)之間的距離,位移向量的方向可以用于表示動(dòng)作的變化方向。當(dāng)圖像序列中的目標(biāo)發(fā)生運(yùn)動(dòng)時(shí),將位移特征作為一種深度特征,可以清晰描述出關(guān)節(jié)點(diǎn)之間的相對運(yùn)動(dòng)以及人的三維結(jié)構(gòu)信息。從15個(gè)關(guān)節(jié)點(diǎn)中任意選擇兩個(gè)關(guān)節(jié)點(diǎn)坐標(biāo)表示為:
(xi,yi,zi),(xj,yj,zj)(i,j∈[A,O])
(2)
由以上兩個(gè)關(guān)節(jié)點(diǎn)組成的位移特征表示為:
(xi-xj,yi-yj,zi-zj)(i,j∈[A,O])
(3)
2.1.2 部件中心特征
本文提出另外一種深度特征:部件中心特征如圖3所示,用于捕捉身體部件中心點(diǎn)的時(shí)序運(yùn)動(dòng)信息。該特征基于由不同關(guān)節(jié)點(diǎn)組成的身體部件,按照人體的自然結(jié)構(gòu),將從深度圖像獲取的15個(gè)關(guān)節(jié)點(diǎn)分為5個(gè)部分,構(gòu)成5個(gè)身體部件:軀干、左上肢、右上肢、左下肢、右下肢。每一個(gè)身體部件包含3個(gè)關(guān)節(jié)點(diǎn),軀干包含的關(guān)節(jié)點(diǎn)為:髖中心、肩中心、頭;左上肢包含的關(guān)節(jié)點(diǎn)為:左肩、左肘、左手;右上肢包含的關(guān)節(jié)點(diǎn)為:右肩、右肘、右手;左下肢包含的關(guān)節(jié)點(diǎn)為:左髖、左膝、左腳;右下肢包含的關(guān)節(jié)點(diǎn)為:右髖、右膝、右腳。
身體部件劃分完成之后,為每一個(gè)部件建立一個(gè)部件中心點(diǎn),使得該點(diǎn)為由部件內(nèi)3個(gè)關(guān)節(jié)點(diǎn)構(gòu)成三角形的外接球球心,將該部件中心點(diǎn)到身體中心點(diǎn)(髖中心)的距離作為部件的權(quán)值,5個(gè)部件對應(yīng)的權(quán)值構(gòu)成一幅關(guān)鍵幀的部件權(quán)值索引。若一個(gè)深度圖像序列由FNum幅關(guān)鍵幀表示,則生成FNum個(gè)索引。當(dāng)人發(fā)生動(dòng)作時(shí),人的關(guān)節(jié)點(diǎn)會(huì)發(fā)生位置變化,各個(gè)部件也會(huì)發(fā)生相應(yīng)的變化。因此,部件中心點(diǎn)的位置也會(huì)隨著部件的變化而產(chǎn)生偏移,導(dǎo)致部件權(quán)值的改變。計(jì)算時(shí)序相鄰的兩幅關(guān)鍵幀中對應(yīng)部件的權(quán)值相減,生成(FNum-1)個(gè)部件權(quán)值索引,其中每一個(gè)索引包含5個(gè)身體部件的權(quán)值之差。由(FNum-1)個(gè)部件權(quán)值索引構(gòu)成部件中心特征,在動(dòng)作發(fā)生時(shí),用該深度特征捕捉人體身體部件的時(shí)序運(yùn)動(dòng)信息。
圖3 人的身體部件示意圖
2.2 時(shí)空特征
與深度特征互補(bǔ)的時(shí)空特征可以描述人的運(yùn)動(dòng)和表觀信息。提取時(shí)空特征,首先從RGB圖像序列中提取稠密軌跡并進(jìn)行篩選,再利用詞袋模型構(gòu)建時(shí)空特征。時(shí)空特征構(gòu)建流程如圖4所示。
由圖4可知,構(gòu)建時(shí)空特征分為訓(xùn)練和測試2個(gè)部分。在訓(xùn)練階段,首先對RGB圖像序列的每一幀圖像進(jìn)行稠密點(diǎn)采樣,通過密集光流域中獲得的位移信息對稠密點(diǎn)進(jìn)行追蹤,得到稠密軌跡。稠密軌跡的提取過程有3個(gè)重點(diǎn)步驟:稠密采樣,軌跡計(jì)算以及構(gòu)建軌跡描述子。每一條稠密軌跡由HOF(histograms of optical flow)、HOG(histograms of oriented gradients)、MBH(motion boundary histogram)、Trajectory descriptor 4種描述符描述。HOF描述圖像序列中運(yùn)動(dòng)物體的方向和幅度信息;HOG描述圖像序列中局部目標(biāo)的表觀和形狀信息;MBH描述圖像序列中運(yùn)動(dòng)物體的邊界信息;Trajectory descriptor 是一個(gè)軌跡特征向量,對局部動(dòng)作模式進(jìn)行編碼。綜上,通過稠密軌跡的4種描述符可以捕捉到目標(biāo)動(dòng)作的表觀變化情況,將稠密軌跡作為時(shí)空特征可以有效地進(jìn)行動(dòng)作識(shí)別。在提取稠密軌跡的過程中,復(fù)雜背景會(huì)形成干擾。因此,需要對圖像序列進(jìn)行前景選取,利用前景對稠密軌跡進(jìn)行篩選,只保留前景內(nèi)的稠密軌跡。本文采用可形變部件模型DPM(Deformable Part Model)檢測圖像序列中的前景。在稠密軌跡篩選完畢之后,使用詞袋模型(bag of words)構(gòu)建時(shí)空特征。訓(xùn)練時(shí),利用K-means方法對所有RGB圖像序列中的稠密軌跡進(jìn)行聚類得到聚類中心。從獲得的所有軌跡中隨機(jī)選擇一定數(shù)量的軌跡進(jìn)行聚類。每一個(gè)聚類中心點(diǎn)對應(yīng)一個(gè)視覺單詞,所有聚類中心形成表觀詞袋,訓(xùn)練結(jié)束。
圖4 時(shí)空特征構(gòu)建流程圖
在測試階段,每一個(gè)RGB圖像序列完成稠密軌跡的提取和篩選之后,將序列中的每一條軌跡向聚類中心映射,計(jì)算軌跡到每一個(gè)聚類中心的歐氏距離,按照距離最小原則將軌跡分配到對應(yīng)的聚類中心中,得到該圖像序列中所有軌跡在聚類中心的數(shù)量分布。最后對所得統(tǒng)計(jì)分布進(jìn)行歸一化處理,得到統(tǒng)計(jì)分布直方圖。
由于每一條稠密軌跡由4種描述符表示,因此,4種描述符均需要重復(fù)上述訓(xùn)練和測試2個(gè)過程,得到4種描述符對應(yīng)的統(tǒng)計(jì)分布直方圖,每一個(gè)RGB圖像序列的時(shí)空特征由4種統(tǒng)計(jì)分布直方圖共同構(gòu)成。若通過K-means聚類得到K個(gè)聚類中心,則軌跡對應(yīng)一種描述符的直方圖維度為K維,一個(gè)RGB圖像序列的時(shí)空特征維度為4*K維。構(gòu)建時(shí)空特征的具體算法流程見算法1。
算法1:時(shí)空特征的構(gòu)建輸入: RGB圖像序列集合V={vq}q=1:Q,Q為RGB圖像序列的數(shù)量;聚類中心個(gè)數(shù)K。輸出: 表觀詞袋W={WHOG,WHOF,WMBH,WTraj}; 時(shí)空特征ST={STHOG,STHOF,STMBH,STTraj}。步驟1:利用光流算法提取稠密軌跡得到DT={dtq}q=1:Q;步驟2:利用可行變部件模型提取RGB圖像序列中心幀的前景,得到F={fq}q=1:Q,其中fq={(x1,y1),(x2,y2)},(x1,y1)表示中心幀前景左上角的坐標(biāo),(x2,y2)表示中心幀前景右下角的坐標(biāo)。步驟3:利用步驟2中的前景對步驟1中的稠密軌跡進(jìn)行篩選。從軌跡信息中獲取每條軌跡的平均坐標(biāo)(Xmean,Ymean),若x1 從RGB圖像序列中提取的時(shí)空特征與從深度圖像序列中提取的深度特征是2種互補(bǔ)的特征,前者描述人的表觀信息和運(yùn)動(dòng)信息,后者描述人的三維結(jié)構(gòu)信息。利用隨機(jī)森林學(xué)習(xí)框架有效融合時(shí)空特征與深度特征,對圖像序列中人的動(dòng)作進(jìn)行識(shí)別。 隨機(jī)森林是由一組相互獨(dú)立的決策樹所組成的組合分類器,每棵決策樹根據(jù)2種特征對圖像序列中人的動(dòng)作類別進(jìn)行投票,得出最終的分類結(jié)果。一棵決策樹包含根節(jié)點(diǎn)、內(nèi)部節(jié)點(diǎn)和葉子節(jié)點(diǎn),樣本從根節(jié)點(diǎn)輸入到?jīng)Q策樹中,按照自上而下的順序經(jīng)過樹的內(nèi)部節(jié)點(diǎn),最終到達(dá)葉子節(jié)點(diǎn)。為了降低各個(gè)決策樹之間的關(guān)聯(lián)度,隨機(jī)森林在建立決策樹時(shí)引入了2種隨機(jī)性。第一,通過有放回的隨機(jī)采樣,從原始訓(xùn)練樣本集中隨機(jī)抽取了大約2/3的樣本組成一個(gè)決策樹的訓(xùn)練樣本集合;第二,樹的內(nèi)部節(jié)點(diǎn)分裂是一個(gè)二分類問題,隨機(jī)選擇一部分候選特征和相應(yīng)的分裂值將到達(dá)該節(jié)點(diǎn)的樣本分為2個(gè)集合,通過集合分裂的Gini值來評估候選特征的優(yōu)劣,并選擇最佳的分裂特征和分裂值對當(dāng)前節(jié)點(diǎn)進(jìn)行分裂。 本文用深度特征和時(shí)空特征來描述RGB-D圖像序列,為了更好地融合2種互補(bǔ)的特征表示,在內(nèi)部節(jié)點(diǎn)分裂時(shí)采用了一種有效的候選特征選取方法。利用一個(gè)預(yù)定義的常量θ和一個(gè)隨機(jī)生成的變量ρ∈[0,1]決定從哪種特征中選擇候選特征:若ρ≤θ,選擇時(shí)空特征,若ρ>θ,選擇深度特征,如式(4)所示。 (4) 選定特征種類之后,再從該類特征中隨機(jī)采樣一組候選特征,同時(shí),隨機(jī)生成對應(yīng)的分裂值。計(jì)算Gini值并對候選特征在節(jié)點(diǎn)分裂時(shí)的性能進(jìn)行評估,選擇最優(yōu)候選特征作為分裂節(jié)點(diǎn)的特征,直到到達(dá)葉子節(jié)點(diǎn),完成一棵決策樹的構(gòu)建。為了控制樹的生長,設(shè)置樹的最大深度depthmax以及節(jié)點(diǎn)分裂時(shí)的最小樣本數(shù)nodemin。按照上述過程,生成隨機(jī)森林中的每一棵決策樹,當(dāng)已生成決策樹的數(shù)量達(dá)到隨機(jī)森林設(shè)置的決策樹數(shù)量時(shí),停止生成決策樹,隨機(jī)森林分類器構(gòu)建完畢。構(gòu)建隨機(jī)森林分類器的具體算法流程見算法2。 算法2:隨機(jī)森林分類器的構(gòu)建輸入:訓(xùn)練樣本集合,即用多種特征進(jìn)行描述的圖像序列X0={(x時(shí)空p,x深度p,yp)}p=1:P,這里x時(shí)空p,x深度p是圖像序列的兩種特征表示,yp是圖像序列的動(dòng)作類別;預(yù)定義常量θ;選擇特征維數(shù)n=Dimfeature(Dimfeature為特征向量的總維度);隨機(jī)森林中決策樹的數(shù)量Ntree,決策樹的最大深度depthmax,節(jié)點(diǎn)分裂時(shí)的最小樣本數(shù)nodemin。輸出:隨機(jī)森林RF={Tr1,…,TrNtree}。步驟1:構(gòu)建一個(gè)決策樹的訓(xùn)練樣本集合X:隨機(jī)產(chǎn)生P個(gè)1-P之間的整數(shù),去掉重復(fù)的數(shù)字,得到一個(gè)整數(shù)集合Ω={i∈[1,P]},將Ω中的數(shù)字對應(yīng)的訓(xùn)練樣本抽取出來組成一個(gè)新的子集,作為決策樹的訓(xùn)練樣本集合X={(x時(shí)空i,x深度i,yi)};步驟2:建立樹的根節(jié)點(diǎn),到達(dá)根節(jié)點(diǎn)的樣本是訓(xùn)練樣本集合中的所有樣本,根節(jié)點(diǎn)深度為1,將根節(jié)點(diǎn)加入到待處理的節(jié)點(diǎn)集合Υ;步驟3:檢測集合Υ是否為空,如果Υ為空,進(jìn)入步驟10;否則,取出集合Υ中的第一個(gè)節(jié)點(diǎn)Nod和到達(dá)該節(jié)點(diǎn)的樣本集合,如果該節(jié)點(diǎn)滿足以下3個(gè)條件中的任何一個(gè),進(jìn)入步驟4,如果以下3個(gè)條件均不滿足,進(jìn)入步驟5;(1)該節(jié)點(diǎn)的深度等于決策樹的最大深度depthmax;(2)到達(dá)該節(jié)點(diǎn)的樣本數(shù)量小于節(jié)點(diǎn)分裂的最小樣本數(shù)nodemin;(3)到達(dá)該節(jié)點(diǎn)的所有樣本均屬于同一個(gè)類別;步驟4:將節(jié)點(diǎn)Nod標(biāo)記為葉子節(jié)點(diǎn),統(tǒng)計(jì)到達(dá)節(jié)點(diǎn)Nod的所有樣本歸屬的類別,將樣本數(shù)最多的類別標(biāo)記為該節(jié)點(diǎn)的類別。在集合Υ中刪除節(jié)點(diǎn)Nod,進(jìn)入步驟3;步驟5:將節(jié)點(diǎn)Nod標(biāo)記為內(nèi)部節(jié)點(diǎn),并對它進(jìn)行分裂;步驟6:生成節(jié)點(diǎn)Nod分裂的候選特征集合φ:生成隨機(jī)變量ρ∈[0,1],如果ρ≤θ,隨機(jī)選擇n維時(shí)空特征加入φ;否則,隨機(jī)選擇n維深度特征加入φ;步驟7:對φ中的每一維特征φc,統(tǒng)計(jì)到達(dá)節(jié)點(diǎn)Nod的所有樣本的該維特征值,隨機(jī)生成一個(gè)介于最小特征值和最大特征值之間的分裂值λc;步驟8:用φ中每一個(gè)特征φc和對應(yīng)的分裂值λc將到達(dá)節(jié)點(diǎn)Nod的所有樣本分成兩個(gè)集合,如果樣本的第φc維特征小于λc,樣本進(jìn)入集合Lc,否則,樣本進(jìn)入集合Rc;根據(jù)樣本的動(dòng)作類別計(jì)算集合Lc和集合Rc的Gini指數(shù)之和Gc;步驟9:用Gini指數(shù)最小的一組特征和分裂值(φ?,λ?)來分裂節(jié)點(diǎn)Nod,建立兩個(gè)新的節(jié)點(diǎn)LNod和RNod,將它們的深度設(shè)置為節(jié)點(diǎn)Nod的深度加1,將集合Lc中的樣本輸入到LNod,將集合Rc中的樣本輸入到RNod;在集合Υ中刪除節(jié)點(diǎn)Nod,并將節(jié)點(diǎn)LNod和RNod加入到集合Υ,進(jìn)入步驟3;步驟10:一棵決策樹構(gòu)建完畢;重復(fù)步驟1,直到生成Ntree棵決策樹,完成RF={Tr1,...,TrNtree}的構(gòu)建。 完成隨機(jī)森林分類器的構(gòu)建之后,進(jìn)入測試階段。在進(jìn)行測試時(shí),每棵決策樹的葉子節(jié)點(diǎn)存儲(chǔ)了測試樣本所屬類別的標(biāo)簽,隨機(jī)森林中所有決策樹對測試樣本進(jìn)行硬投票,票數(shù)最多的標(biāo)簽作為該圖像序列最終的分類標(biāo)簽。 利用隨機(jī)森林進(jìn)行特征融合,一方面可以通過調(diào)節(jié)參數(shù),控制某一類特征在融合中所占的權(quán)重;另一方面可以通過適當(dāng)設(shè)置決策樹的相關(guān)參數(shù)有效地融合特征。除此之外,隨機(jī)森林的隨機(jī)性使得對于高維度特征的處理或者應(yīng)對數(shù)據(jù)的丟失時(shí),可以更加魯棒,并且得到較高的識(shí)別率。相互獨(dú)立的決策樹使得隨機(jī)森林的訓(xùn)練過程更為高效。隨機(jī)森林的投票機(jī)制,使得識(shí)別結(jié)果更加準(zhǔn)確。 本文在公共數(shù)據(jù)集MSR Daily Activity 3D 數(shù)據(jù)集上測試算法的性能。 4.1 數(shù)據(jù)集及實(shí)驗(yàn)設(shè)置 MSR Daily Activity 3D 數(shù)據(jù)集由Kinect設(shè)備拍攝了16個(gè)日常動(dòng)作類型:喝水、吃東西、看書、打電話、寫字、使用筆記本電腦、使用吸塵器、歡呼、靜坐、扔紙、做游戲、躺在沙發(fā)上、走路、彈吉他、起立、坐下。數(shù)據(jù)集中包含10個(gè)不同個(gè)體,每個(gè)個(gè)體分別以端坐和站立2種方式完成以上16個(gè)動(dòng)作。當(dāng)人靠近沙發(fā)時(shí),通過骨架追蹤的三維關(guān)節(jié)點(diǎn)提取有可能會(huì)受到噪音干擾,而且大部分動(dòng)作中包含了人與相關(guān)物體的交互,因此,識(shí)別該數(shù)據(jù)集中人的動(dòng)作具有一定的挑戰(zhàn)性。該數(shù)據(jù)集中共包含320個(gè)動(dòng)作示例,每個(gè)動(dòng)作示例對應(yīng)3個(gè)文件,分別為RGB圖像序列、深度圖像序列以及骨架信息。數(shù)據(jù)集中記錄了每一個(gè)個(gè)體的32個(gè)動(dòng)作圖像序列,采用交叉驗(yàn)證法對數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)測試,即每次選擇一個(gè)個(gè)體的所有動(dòng)作數(shù)據(jù)用于測試,其余9個(gè)個(gè)體的動(dòng)作數(shù)據(jù)用于訓(xùn)練,以此類推,對所有個(gè)體依次進(jìn)行測試,取10次測試結(jié)果的平均值作為最終的實(shí)驗(yàn)結(jié)果。 MSR Daily Activity 3D數(shù)據(jù)集提供的關(guān)節(jié)點(diǎn)坐標(biāo)均是三維的,所以,一個(gè)圖像序列深度特征的維度為105*3*20+5*(20-1)=6 395維。 描述稠密軌跡周圍時(shí)空域的4種描述符維度分別為:HOF為108維、HOG為96維、MBH為192維、Trajectory descriptor為30維。利用詞袋模型為每一種描述符建立碼本時(shí),根據(jù)經(jīng)驗(yàn)值將每個(gè)碼本容量分別設(shè)置為400、600、800,碼本容量為400時(shí),識(shí)別結(jié)果最佳。因此,將碼本容量最終設(shè)置為400,即每個(gè)碼本包含400個(gè)視覺單詞。根據(jù)經(jīng)驗(yàn)值,從所有稠密軌跡中隨機(jī)選擇100 000條軌跡通過K-means聚類得到每一個(gè)描述符對應(yīng)的400聚類中心點(diǎn)。通過計(jì)算歐式距離和歸一化處理,最終得到每一個(gè)RGB圖像序列前景內(nèi)的稠密軌跡在聚類中心的分布直方圖,每種描述符對應(yīng)的特征維度為400維。因此,一個(gè)圖像序列時(shí)空特征的維度為400*4=1600維。 使用隨機(jī)森林學(xué)習(xí)框架進(jìn)行融合時(shí),設(shè)置常量控制決策樹節(jié)點(diǎn)分裂時(shí)選擇特征的種類,使得時(shí)空特征和深度特征被選擇的概率相同,對動(dòng)作識(shí)別的影響程度相同;參照經(jīng)驗(yàn)值[21]將決策樹一個(gè)節(jié)點(diǎn)的最小樣本數(shù)設(shè)置為10,將決策樹的最大深度分別設(shè)置為8、10、12、14、16、18、20;決策樹的數(shù)量分別為400、600、800、1 000進(jìn)行實(shí)驗(yàn)驗(yàn)證。 4.2 對比實(shí)驗(yàn) 由Kinect獲取的深度圖像序列提供了20個(gè)骨架關(guān)節(jié)點(diǎn)位置信息,如圖5a所示。20個(gè)關(guān)節(jié)點(diǎn)中,脊柱與髖中心、左腕與左手、右腕與右手、左踝與左腳、右踝與右腳之間的距離十分接近。當(dāng)動(dòng)作發(fā)生時(shí),髖中心、左手、右手、左腳和右腳的位置信息足以傳遞出人的動(dòng)作變化情況,與上述關(guān)節(jié)點(diǎn)距離十分接近的脊柱、左腕、右腕、左踝、右踝的位置信息會(huì)對動(dòng)作描述產(chǎn)生噪聲。為了提高動(dòng)作識(shí)別的準(zhǔn)確率,從20個(gè)關(guān)節(jié)點(diǎn)中篩選出15個(gè)對動(dòng)作識(shí)別有關(guān)鍵影響的關(guān)節(jié)點(diǎn)位置信息進(jìn)行深度特征的提取。篩選后的關(guān)節(jié)點(diǎn)示意圖如圖5b所示。 為了驗(yàn)證關(guān)節(jié)點(diǎn)篩選的合理性。使用數(shù)據(jù)集提供的20個(gè)關(guān)節(jié)點(diǎn)與經(jīng)過篩選的15個(gè)關(guān)節(jié)點(diǎn)分別進(jìn)行動(dòng)作識(shí)別,實(shí)驗(yàn)結(jié)果對比見表1。由表1可知,關(guān)節(jié)點(diǎn)經(jīng)過篩選之后可以使得識(shí)別準(zhǔn)確率得到有效的提升,說明數(shù)據(jù)集提供的20個(gè)關(guān)節(jié)點(diǎn)中對動(dòng)作識(shí)別存在一定的噪聲,手腕、腳踝以及脊柱中心5個(gè)關(guān)節(jié)點(diǎn)影響了特征對動(dòng)作描述的準(zhǔn)確性,其附近的雙手、雙腳以及髖中心關(guān)節(jié)點(diǎn)可以表示對應(yīng)部位發(fā)生的動(dòng)作。因此,使用篩選后的15個(gè)關(guān)節(jié)點(diǎn)位置信息提取深度特征可以使得識(shí)別結(jié)果更加準(zhǔn)確。 為了驗(yàn)證本文提出的2種深度特征的有效性。將 LiangYan[22]提出的三角形面積特征作為對比特征與所提2種深度特征進(jìn)行實(shí)驗(yàn)對比。LiangYan提出的三角形面積特征是從15個(gè)關(guān)節(jié)點(diǎn)中任意選擇3個(gè)關(guān)節(jié)點(diǎn)組成三角形,應(yīng)用海倫公式計(jì)算出三角形的面積。隨機(jī)森林分別單獨(dú)使用上述2種特征進(jìn)行動(dòng)作識(shí)別,實(shí)驗(yàn)結(jié)果見表2。由表2可知,相比于三角形面積特征,使用位移特征和部件中心特征進(jìn)行動(dòng)作時(shí),識(shí)別率更高。說明本文提出的2種特征可以更加有效地描述人在運(yùn)動(dòng)時(shí)的三維結(jié)構(gòu)信息。通過表2還可以得知,同時(shí)使用2種新深度特征,可以進(jìn)一步提升識(shí)別率。 圖5 骨架關(guān)節(jié)點(diǎn)示意圖 表1 MSR Daily Activity 3D數(shù)據(jù)集上不同關(guān)節(jié)點(diǎn)個(gè)數(shù)的識(shí)別率比較 表2 不同深度特征的識(shí)別率比較 為了驗(yàn)證算法的合理性和有效性,將其他方法在該數(shù)據(jù)集上的識(shí)別結(jié)果與本文提出算法的識(shí)別結(jié)果進(jìn)行比較,見表3。表3中顯示了在對數(shù)據(jù)集進(jìn)行相同條件設(shè)置下,不同的動(dòng)作識(shí)別方法與本文所提方法的實(shí)驗(yàn)結(jié)果對比。M.Muller等人[5]先利用動(dòng)態(tài)時(shí)間規(guī)劃(Dynamic temporal warping)對動(dòng)作進(jìn)行建模,再對圖像序列進(jìn)行自動(dòng)分類和檢索。Wang等人[8]利用SVM分類器,分別選用LOP(Local Occupancy Patterns)或者三維關(guān)節(jié)點(diǎn)位置作為特征,進(jìn)行動(dòng)作識(shí)別。Liu[22]等人利用K-means聚類的方法,提取圖像序列關(guān)鍵幀中的關(guān)節(jié)點(diǎn)位置以及任意關(guān)節(jié)點(diǎn)之間的角度作為深度特征識(shí)別動(dòng)作。由表3實(shí)驗(yàn)數(shù)據(jù)可知,本文提出的利用隨機(jī)森林分類器融合多特征的動(dòng)作識(shí)別方法在該數(shù)據(jù)集上的識(shí)別準(zhǔn)確率較上述方法均有所提升,說明本文提出的動(dòng)作識(shí)別方法是有效的。 表3 MSR Daily Activity 3D數(shù)據(jù)集識(shí)別方法比較 為進(jìn)一步驗(yàn)證特征融合的有效性,利用隨機(jī)森林學(xué)習(xí)框架單獨(dú)使用時(shí)空特征或深度特征對圖像序列進(jìn)行動(dòng)作識(shí)別。由表3的實(shí)驗(yàn)數(shù)據(jù)可知,同樣利用隨機(jī)森林學(xué)習(xí)框架,融合2種特征的識(shí)別準(zhǔn)確率明顯高于單獨(dú)使用時(shí)空特征或者深度特征的識(shí)別率,并且當(dāng)同時(shí)使用2種深度特征時(shí),識(shí)別率達(dá)到最佳。由此可以進(jìn)一步證明,本文提出的基于特征融合的動(dòng)作識(shí)別方法是合理有效的。 4.3 參數(shù)分析 隨機(jī)森林是本文算法使用的分類器,參照經(jīng)驗(yàn)值[21]可知,與決策樹的最大深度以及決策樹數(shù)量相比,控制節(jié)點(diǎn)分裂的最小樣本數(shù)對實(shí)驗(yàn)結(jié)果的影響較小,將其設(shè)置為固定值10。為了驗(yàn)證隨機(jī)森林相關(guān)參數(shù)對實(shí)驗(yàn)結(jié)果的影響,分別對隨機(jī)森林學(xué)習(xí)框架中決策樹數(shù)量和每棵決策樹的最大深度設(shè)置多組數(shù)據(jù)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖6所示。圖6顯示了隨機(jī)森林在不同參數(shù)下的動(dòng)作識(shí)別準(zhǔn)確率。當(dāng)隨機(jī)森林中的決策樹數(shù)量增多時(shí),動(dòng)作識(shí)別準(zhǔn)確率會(huì)有所提升,說明隨機(jī)森林中決策樹的數(shù)量是影響識(shí)別率的因素之一,決策樹數(shù)量越多,識(shí)別率越高。當(dāng)決策樹的最大深度增加時(shí),識(shí)別率會(huì)先上升,之后有所下降。一個(gè)可能的原因是,深度過大的決策樹可能會(huì)對訓(xùn)練數(shù)據(jù)產(chǎn)生過擬合,影響了模型的泛化能力。因此,為了保證動(dòng)作識(shí)別的高效,需要設(shè)置合適的參數(shù)值。 圖6 隨機(jī)森林分類器在不同參數(shù)下的識(shí)別準(zhǔn)確率 本文提出一種利用隨機(jī)森林學(xué)習(xí)框架融合多特征的動(dòng)作識(shí)別方法。該方法首先從深度圖像序列中選取關(guān)鍵幀,獲取關(guān)鍵幀中人的關(guān)節(jié)點(diǎn)位置信息,計(jì)算任意2個(gè)關(guān)節(jié)點(diǎn)組成的位移向量,將位移特征作為一種新的深度特征捕捉了關(guān)節(jié)點(diǎn)之間的相對運(yùn)動(dòng)信息,描述了人體運(yùn)動(dòng)時(shí)的三維結(jié)構(gòu)變化。根據(jù)人體的自然結(jié)構(gòu)將關(guān)節(jié)點(diǎn)劃分為5個(gè)身體部件,每個(gè)部件對應(yīng)一個(gè)中心點(diǎn),將部件中心點(diǎn)到人體中心點(diǎn)之間的距離作為該部件的權(quán)值;從深度圖像序列中提取一系列關(guān)鍵幀,將時(shí)序相鄰的2個(gè)關(guān)鍵幀中同一部件的權(quán)值之差作為部件中心特征,用于捕獲各個(gè)身體部件中心點(diǎn)的時(shí)序運(yùn)動(dòng)信息。同時(shí),從RGB圖像序列中提取稠密軌跡并用前景進(jìn)行篩選,使用詞袋模型構(gòu)建時(shí)空特征。最后,利用隨機(jī)森林分類器對上述2種特征進(jìn)行融合。MSR Daily Activity 3D數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的基于隨機(jī)森林的時(shí)空特征與深度特征融合框架可以有效提升RGB-D圖像序列的動(dòng)作識(shí)別率。 [1]LAPTEV I.On space-time interest points[J].International Journal of Computer Vision,2005,64(2-3):107-123. [2]Wu X,Xu D,Duan L,et al.Action recognition using context and appearance distribution features[C].IEEE Conference on Computer Vision and Pattern Recognition.Colorado Springs,CO,2011:489-496. [4]SHOTTON J,FITZGIBBON A,COOK M,et.al.Real-time human pose recognition in parts from a single depth image[C].CVPR,Colorado Springs,CO,2011:1297-1304. [5]M.MULLER,T.RODER.Motion templates for automatic classification and retrieval of motion capture data[C].ACM SIGGRAPH.Boston Massachusetts,2006:137-146. [6]HENG WANG,ALEXANDER KLSER,CORDELIA SCHMID,et.al.Action recognition by dense trajectories[C].Computer Vision and Pattern Recognition(CVPR).Colorado Springs,CO,2011:3169-3176. [7]NIEBLES J C,FEIFEI L.A hierarchical of shape and appearance for human action classification[C].IEEE Conference on Computer Vision and Pattern Recognition.Minneapolis,MN,2007:1-8. [8]JIANG WANG,ZICHENG LIU,WU Y,et al.Mining actionlet ensemble for action recognition with depth cameras[C].Computer Vision and Pattern Recognition(CVPR).Providence,RI,2012:1290-1297. [9]HARRIS C,STEPHENS M.A combined corner and edge detector[C].Alvey vision conference.Manchester,UK,1988:50. [10]LUCAS B D,KANADE T.An iterative image registration technique with an application to stereo vision[C].International Joint Conference on Artificial Intelligence.Vancouver,British Columbia,1981:285-289. [11]CHUNYU WANG,YIZHOU WANG,ALAN L.Yuille.An approach to pose-based action recognition[C].Computer Vision and Pattern Recognition(CVPR).Portland,OR,2013:915-922. [12]MICHALIS RAPTIS,LEONID SIGAL.Poselet Key-Framing.A model for human activity recognition[C].Computer Vision and Pattern Recognition(CVPR).Portland,OR,2013:2650-2657. [13]HOSSEIN RAHMANI,ARIF MAHMOOD,DU HUYNH,et al.Histogram of oriented principal components for cross-view action recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(12):2430-2443. [14]RAVITEJA VEMULAPALLI,FELIPE ARRATE,RAMA CHELLAPPA.Human action recognition by representing 3D Skeletons as Points in a Lie Group[C].IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,2014:588-595. [15]CEWU LU,JIAYA JIA,CHI-KEUNG TANG.Range-sample depth feature for action recognition[C].IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,2014:772-779. [16]YU KONG,YUN FU.Bilinear heterogeneous information machine for RGB-D action recognition[C].IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Boston,MA,2015:1054-1062. [17]JIAWEI LI,JIANXIN CHEN,LINHUI SUN.Joint motion similarity(JMS)-based human action recognition using kinect[C].2016 International Conference on Digital Image Computing:Techniques Applications.Gold Goast,Australia,2016:1-8. [18]E.MOHAMMADI,Q.M.JONATHAN WU,M.SAIF.Human action recognition by fusing the outputs of individual Classifiers[C].2016 13th Conference on Computer and Robot Vision.Victoria,BC,2016:335-341 [19]YANG WANG,MINH HOAI.Improving human action recognition by non-action classification[C].Proc.of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,NV.2016:2698-2707. [20]JAVED IMRAN,PRAVEEN KUMAR.Human action recognition using RGB-D sensor and deep convolutional neural networks[C].2016 International Conference on Advances in Computing,Communications and Informatics(ICACCI).Jaipur,India.2016:144-148. [21]LIU C W,PEI M T,WU X X,et al.Learning a discriminative mid-level feature for action recognition[J].Science China Information Sciences,2014,57(5):1-13. [22]LIANG Y,LU W,LIANG W,et al.Action recognition using local joints structure and histograms of 3D joints[C].Tenth International Conference on Computational Intelligence and Security.IEEE.Kunming,2014:185-188. [23]石祥濱,劉拴朋,張德園.基于關(guān)鍵幀的人體動(dòng)作識(shí)別方法[J].系統(tǒng)仿真學(xué)報(bào),2015(10):2401-2408. (責(zé)任編輯:劉劃 英文審校:趙亮) Multi-feature-fusion based human action recognition method SHI Xiang-bin1,2,LI Fei1,LIU Cui-wei1 This paper proposed a novel action recognition method based on multi-feature fusion.In this method,the spatial-temporal features and depth features were merged in a random forest framework.The human body joint coordinates obtained from depth image sequences were processed into displacement feature and part-center feature as two new depth features.We applied these two depth features to describe the three-dimension structure of human.We densely sampled the trajectories from RGB image sequences,and utilized the foreground detection approach to reduce the effect of complex background.Then spatial-temporal features were constructed by the Bag-of-Words model with trajectories from the foreground.Finally,the robust random forest framework fused both the spatial-temporal features and the depth features for recognizing human actions in RGB-D image sequences.Experimental results on MSR Daily Activity 3D dataset demonstrated the effectiveness of the proposed method. human action recognition;multi-feature fusion;random forest 2017-02-20 國家自然科學(xué)基金(項(xiàng)目編號(hào):61170185,61602320);遼寧省博士啟動(dòng)基金(項(xiàng)目編號(hào):201601172);遼寧省教育庁一般項(xiàng)目(項(xiàng)目編號(hào):L201607,L2014070);沈陽航空航天大學(xué)校博士啟動(dòng)基金項(xiàng)目(項(xiàng)目編號(hào):15YB37) 石祥濱(1963-),男,遼寧大連人,教授,主要研究方向:分布式虛擬和現(xiàn)實(shí)、圖像與視頻理解、無人機(jī)協(xié)同感知與控制,E-mail:199630824@qq.com。 2095-1248(2017)02-0055-11 TP391.9 A 10.3969/j.issn.2095-1248.2017.02.0103 融合多特征的動(dòng)作識(shí)別方法
4 實(shí)驗(yàn)
5 結(jié)論
(1.College of Computer Science,Shenyang Aerospace University,Shenyang 110136,China;2.School of Information,Liaoning University,Shenyang 110136,China)