黃 耀 雷景生
1(上海電力大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 上海 200000) 2(浙江科技學(xué)院信息與電子工程學(xué)院 浙江 杭州 310023)
計(jì)算機(jī)視覺(jué)的應(yīng)用日益多樣化,人體動(dòng)作識(shí)別已成為其最具吸引力的研究領(lǐng)域之一[1]?;趲?jí)骨架拓展類(lèi)特征的人體動(dòng)作識(shí)別是指利用圖像處理、識(shí)別、分類(lèi)技術(shù)來(lái)提取視頻中人體的關(guān)節(jié)點(diǎn)位置,再?gòu)臅r(shí)序骨架信息中提取動(dòng)作特征,從而完成人體動(dòng)作識(shí)別的技術(shù)。由于視頻動(dòng)作識(shí)別面臨照明變化、遮擋、陰影、比例變化等挑戰(zhàn)[2],人們對(duì)動(dòng)作行為識(shí)別的研究尚不成熟,且在保證準(zhǔn)確率的情況下難以達(dá)到實(shí)時(shí)性,因而應(yīng)用場(chǎng)景受限。
目前動(dòng)作識(shí)別方法可分為三種主要模型:基于模板的方法、判別模型[3]和生成模型[4]?;谀0宓姆椒词乖谧R(shí)別復(fù)雜動(dòng)作的情況下也具有很強(qiáng)的魯棒性,但計(jì)算復(fù)雜度非常高。生成模型方法在估計(jì)缺失的數(shù)據(jù)方面特別有效,然而單變量狀態(tài)表示不足以對(duì)多個(gè)交互部分建模,因此有學(xué)者提出了判別模型[5]。判別模型給定一個(gè)觀測(cè)序列X和一個(gè)特定的標(biāo)簽Y,判別分類(lèi)器對(duì)后驗(yàn)概率P(Y|X)建?;?qū)W習(xí),并將輸入X鏈接到其對(duì)應(yīng)類(lèi)標(biāo)簽的映射。判別模型取得了與生成模型相當(dāng)或更好的結(jié)果[6]。
人體動(dòng)作能夠被準(zhǔn)確識(shí)別的前提是獲取到有效的骨架信息,目前有多種主流方法可以快速準(zhǔn)確地表示出骨架特征信息,文獻(xiàn)[7]使用可佩戴式三軸加速度傳感器在人體作業(yè)過(guò)程中提取手腕處的運(yùn)動(dòng)加速度數(shù)據(jù),應(yīng)用機(jī)器學(xué)習(xí)中的分類(lèi)器進(jìn)行實(shí)驗(yàn)并獲取特征進(jìn)行動(dòng)作比對(duì),識(shí)別精度較高。文獻(xiàn)[8]提出結(jié)合離散余弦變換法,使用無(wú)載波超寬帶雷達(dá)進(jìn)行人體動(dòng)作的識(shí)別,并利用改進(jìn)的網(wǎng)格搜索算法優(yōu)化支持向量機(jī)的參數(shù)并驗(yàn)證,識(shí)別準(zhǔn)確率較高。但上述方法除了攝像機(jī)外還依賴(lài)其他特定設(shè)備,使用和維護(hù)成本較高,且使用場(chǎng)景單一。
隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的快速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)模型理論為動(dòng)作特征的表示提供了新的解決思路[9-11]。文獻(xiàn)[12]利用Kinect設(shè)備在大數(shù)據(jù)下獲取人體關(guān)節(jié)點(diǎn)信息構(gòu)建出3-D空間向量,通過(guò)計(jì)算空間向量的角度和比例來(lái)描述人類(lèi)的行為,在多個(gè)數(shù)據(jù)集上證明了該方法的有效性。文獻(xiàn)[13]提出了一種基于學(xué)習(xí)空間金字塔表示的人體動(dòng)作識(shí)別算法,基于余弦測(cè)度和交叉視圖二次判別分析來(lái)計(jì)算不同行為類(lèi)別之間的相似度,在Hollywood2數(shù)據(jù)集上獲得了92.2%的準(zhǔn)確率。
對(duì)于動(dòng)作檢測(cè),我們的目標(biāo)是預(yù)測(cè)視頻內(nèi)包含的多種連續(xù)動(dòng)作,我們把這個(gè)問(wèn)題歸結(jié)為幀級(jí)動(dòng)作分類(lèi)。在幀級(jí)動(dòng)作預(yù)測(cè)之后,我們利用基于滑動(dòng)窗口的方法來(lái)微調(diào)預(yù)測(cè)的幀級(jí)擴(kuò)展類(lèi)概率,并獲得期望的輸出。本文構(gòu)造的基于幀級(jí)骨架拓展類(lèi)特征的人體動(dòng)作實(shí)時(shí)檢測(cè)技術(shù)流程如圖1所示,主要有三個(gè)部分,分別為骨骼提取模塊、動(dòng)作特征捕捉模塊、動(dòng)作判別模塊。
骨骼提取模塊首先使用骨骼提取器從視頻幀中提取人體骨骼關(guān)節(jié)點(diǎn),在實(shí)際操作中尺寸過(guò)小的骨骼和缺少主要軀干(如大腿和頭部)的骨架會(huì)被視為噪聲骨骼并被舍去;動(dòng)作特征捕捉模塊先將上一模塊提取出的時(shí)序骨架信息進(jìn)行歸一化處理,從而實(shí)現(xiàn)尺度無(wú)關(guān)和視角無(wú)關(guān),接著將骨骼導(dǎo)入特征提取器中,提取出三種特征:軀干角度特征、骨骼關(guān)節(jié)點(diǎn)位置特征、關(guān)節(jié)運(yùn)動(dòng)速度特征,并將三種特征融合成幀級(jí)骨架拓展類(lèi)總特征F;動(dòng)作判別模塊將提取出的混合特征F導(dǎo)入隨機(jī)森林分類(lèi)器,再結(jié)合判別模型進(jìn)行多種動(dòng)作置信度比較,最后輸出預(yù)測(cè)的動(dòng)作標(biāo)簽。
OpenPose人體姿態(tài)估計(jì)算法是美國(guó)卡內(nèi)基梅隆大學(xué)(CMU)基于卷積神經(jīng)網(wǎng)絡(luò)和監(jiān)督學(xué)習(xí)并以caffe為框架開(kāi)發(fā)的開(kāi)源庫(kù),可以高效實(shí)現(xiàn)人體骨骼關(guān)節(jié)點(diǎn)位置的提取,此算法適用于單人和多人[14],具有極好的魯棒性和實(shí)時(shí)性[15]。因此選擇Openpose作為骨骼關(guān)節(jié)點(diǎn)提取器。圖2是18個(gè)人體骨骼的關(guān)節(jié)點(diǎn),在表1中分別用編號(hào)0-17來(lái)表示。
表1 骨骼關(guān)節(jié)點(diǎn)序號(hào)
在提取骨骼關(guān)節(jié)點(diǎn)位置的實(shí)驗(yàn)過(guò)程中,由于物體遮擋、室內(nèi)外陰影、攝像機(jī)角度等原因,骨骼關(guān)節(jié)點(diǎn)提取器有時(shí)未能識(shí)別出所有的骨骼關(guān)節(jié)點(diǎn)。實(shí)驗(yàn)選取的視頻尺寸為{(w,h),w=640,h=480},骨骼關(guān)節(jié)點(diǎn)坐標(biāo)正常提取后應(yīng)為:
{(X0,Y0), (X1,Y1),…,(X17,Y17)|Xn∈(0,640),Yn∈
(0,480),n∈(0,17)}
(1)
如果某個(gè)關(guān)節(jié)點(diǎn)(Xn,Yn)未被提取器成功識(shí)別,則該關(guān)節(jié)點(diǎn)坐標(biāo)顯示為(0,0),為了在接下來(lái)的特征分類(lèi)過(guò)程中保持固定大小的特征向量,本文的解決方案是根據(jù)前一幀中的鼻部坐標(biāo)進(jìn)行自動(dòng)填充。設(shè)上一幀中鼻部的坐標(biāo)為(Xi,Yj),該幀中丟失的骨骼關(guān)節(jié)點(diǎn)在上一幀中的坐標(biāo)為(Xw,Yh),則該幀中丟失的骨骼關(guān)節(jié)點(diǎn)坐標(biāo)將被填充為:
(Xn,Yn)=(Xw+Xi,Yh+Yj)
(2)
由于視頻尺寸不一,且由于人體走動(dòng),攝像機(jī)和人體的相對(duì)位置也會(huì)隨之改變,導(dǎo)致直接提取出的骨骼關(guān)節(jié)點(diǎn)尺寸和角度難以統(tǒng)一化。為方便計(jì)算,本文將提取的骨骼關(guān)節(jié)點(diǎn)坐標(biāo)進(jìn)行歸一化處理,結(jié)果如圖3所示。
首先以脖子關(guān)節(jié)點(diǎn)所處的位置(X1,Y1)作為坐標(biāo)原點(diǎn),確保視角無(wú)關(guān);再將骨骼關(guān)節(jié)點(diǎn)位置相對(duì)于圖片尺寸進(jìn)行歸一化縮放,實(shí)現(xiàn)尺度無(wú)關(guān)。具體步驟如下:
(3)
W=max{X0,X1,…,X17}-min{X0,X1,…,X17}
(4)
H=max{Y0,Y1,…,Y17}-min{Y0,Y1,…,Y17}
(5)
基于判別模型的動(dòng)作識(shí)別方法主要有兩種,利用RGB圖像進(jìn)行動(dòng)作識(shí)別可以獲得較高的性能,然而由于該方法需要處理每幅圖像中的幾百個(gè)像素來(lái)提取特征,實(shí)時(shí)處理時(shí)需要高成本的計(jì)算資源,且該方法還受到來(lái)自不同照明條件和背景的噪聲的影響。相比之下,用骨骼序列進(jìn)行動(dòng)作識(shí)別,將二維坐標(biāo)序列表示為人體關(guān)節(jié)和軌跡,比用RGB圖像進(jìn)行動(dòng)作識(shí)別所需的計(jì)算資源要低,因?yàn)樵摲椒總€(gè)骨骼只處理幾十個(gè)關(guān)節(jié),此外,骨骼對(duì)上述噪聲具有一定的魯棒性[16]。
人體動(dòng)作可以表示為由關(guān)節(jié)連接的線段組成的關(guān)節(jié)系統(tǒng),人體運(yùn)動(dòng)可以被視為這些線段的空間結(jié)構(gòu)的連續(xù)演變。在一個(gè)動(dòng)作中,當(dāng)身體軀干移動(dòng)時(shí),各骨骼關(guān)節(jié)點(diǎn)會(huì)發(fā)生不同方向程度的移動(dòng),這些骨骼關(guān)節(jié)點(diǎn)可以根據(jù)人體關(guān)節(jié)的物理結(jié)構(gòu)進(jìn)行連接。為避免單一特征導(dǎo)致動(dòng)作分類(lèi)的過(guò)擬合現(xiàn)象,本文在長(zhǎng)度為S的連續(xù)幀內(nèi)提取三種動(dòng)作特征進(jìn)行分類(lèi):軀干角度特征、骨骼關(guān)節(jié)點(diǎn)位置特征、關(guān)節(jié)點(diǎn)時(shí)序特征。
在獲取各個(gè)骨骼關(guān)節(jié)點(diǎn)二維坐標(biāo)后,軀干之間的角度信息完整且便于提取,人體的動(dòng)作可以看作是各個(gè)軀干之間相互作用的結(jié)果,提取軀干之間的角度特征可以有效表示動(dòng)作。本文計(jì)算八個(gè)軀干的角度特征,分別為左右肩膀、左右肘部、左右臀部、左右膝蓋,如圖4所示。
以左肩角度θ1為例,此關(guān)節(jié)角度關(guān)聯(lián)三個(gè)關(guān)節(jié)點(diǎn),分別為脖子P1(X1,Y1)、左肩P2(X2,Y2)、P3左肘(X3,Y3),可得夾角θ1:
(6)
(7)
在基于骨架拓展類(lèi)特征的動(dòng)作識(shí)別方法中,傳統(tǒng)的深度學(xué)習(xí)方法使用RNNs[17]將骨骼序列作為向量序列饋送,或者使用CNNs[18]從表示骨骼序列的2D偽圖像中提取特征。最近,一種基于圖卷積網(wǎng)絡(luò)(GCN)的方法被提出[19],并因其高性能而引起人們的關(guān)注。如圖5所示,GCN將關(guān)節(jié)表示為頂點(diǎn),將其在人體中的自然連接表示為邊,然后基于邊連接的頂點(diǎn)計(jì)算卷積。因此,GCN比序列向量和二維偽圖像更自然地模擬人體。
對(duì)于一段動(dòng)作的骨架序列,我們將S幀內(nèi)的骨架關(guān)節(jié)點(diǎn)點(diǎn)相連接形成:
?
(8)
第n幀幀的動(dòng)作骨架表示為:
(9)
(10)
第n幀標(biāo)準(zhǔn)化后的骨骼關(guān)節(jié)點(diǎn)位置表示為:
(11)
當(dāng)關(guān)節(jié)序列快速移動(dòng),如人體在做奔跑、拳擊、摔倒等動(dòng)作時(shí),由于前兩個(gè)特征缺少整體信息,容易出現(xiàn)誤識(shí)別的情況,比如把跑步識(shí)別成了站立,這是缺少整體特征的結(jié)果。為解決以上難點(diǎn),本文提出關(guān)節(jié)速度特征V_b:
(12)
(13)
綜上,本文在對(duì)骨骼關(guān)節(jié)點(diǎn)位置進(jìn)行歸一化處理后,提取了動(dòng)作骨骼的三種特征,分別為軀干角度特征θ、骨骼關(guān)節(jié)點(diǎn)位置特征B、關(guān)節(jié)運(yùn)動(dòng)速度特征V_b。
表2 骨架多特征尺寸
將三種幀級(jí)骨架拓展類(lèi)特征進(jìn)行特征融合,使其成為幀級(jí)拓展類(lèi)總特征F,公式如下:
(14)
隨著機(jī)器學(xué)習(xí)的快速發(fā)展和廣泛應(yīng)用,包裝法、卡方檢驗(yàn)、互信息法等特征算法可以幫助我們計(jì)算出特征與標(biāo)簽的相關(guān)性;此外隨機(jī)森林等分類(lèi)算法在圖像識(shí)別和語(yǔ)音識(shí)別等領(lǐng)域均取得了不錯(cuò)的成果[20]。實(shí)驗(yàn)結(jié)果表明,隨機(jī)森林分類(lèi)器在UTKinect Dataset數(shù)據(jù)集上取得了較好的動(dòng)作識(shí)別效果。
在得到幀級(jí)骨架拓展類(lèi)的三個(gè)特征后,為了驗(yàn)證上述特征是否可以對(duì)基于時(shí)序的人體骨架進(jìn)行有效描述,我們希望對(duì)每個(gè)特征與標(biāo)簽的相關(guān)性進(jìn)行量化處理。常用的特征相關(guān)性過(guò)濾法有卡方過(guò)濾、F檢驗(yàn)、互信息法等。在面對(duì)冗余的特征時(shí),卡方過(guò)濾可以根據(jù)選取的閾值和特征相關(guān)性大小篩選出期望數(shù)目的關(guān)聯(lián)特征,但是當(dāng)特征數(shù)較少且關(guān)聯(lián)性較高時(shí),特征的刪減會(huì)降低模型的準(zhǔn)確率;F檢驗(yàn)又稱(chēng)方差齊性檢驗(yàn),F(xiàn)檢驗(yàn)的本質(zhì)是尋找兩組數(shù)據(jù)之間的線性聯(lián)系,當(dāng)特征與標(biāo)簽具有線性聯(lián)系時(shí),它可以準(zhǔn)確篩選出與標(biāo)簽關(guān)聯(lián)性高于閾值的特征,但是在面對(duì)和標(biāo)簽不具有明顯線性特征時(shí),相關(guān)特征的缺失同樣會(huì)導(dǎo)致模型表現(xiàn)的衰退;而互信息法不同于F檢驗(yàn)法,互信息法通過(guò)計(jì)算每個(gè)特征與標(biāo)簽之間的任意關(guān)系,可以量化每個(gè)特征與目標(biāo)之間互信息量的估計(jì),從而可以判斷各個(gè)特征與標(biāo)簽相關(guān)性的強(qiáng)弱。
互信息法計(jì)算公式如下:
I(Y;X)=
(15)
式中:X為某幀骨架拓展類(lèi)的特征;Y為對(duì)應(yīng)的標(biāo)簽;xi為該特征第i個(gè)數(shù)據(jù)的數(shù)值;yi表示該數(shù)值對(duì)應(yīng)的標(biāo)簽。其中X=xi與Y=yi的聯(lián)合概率表示為:
P(X=xi,Y=yi)
(16)
xi在整個(gè)數(shù)據(jù)集中出現(xiàn)的概率表示為:
P(X=xi)
(17)
yi在整個(gè)數(shù)據(jù)集中出現(xiàn)的概率表示為:
P(Y=yi)
(18)
傳統(tǒng)的機(jī)器學(xué)習(xí)分類(lèi)器有很多種,常見(jiàn)的有支持向量機(jī)算法(Support Vector Machine)、K近鄰算法(k-NearestNeighbor)、樸素貝葉斯算法(Naive Bayesian Model)等。這些算法各有優(yōu)劣,比如K近鄰算法雖然精度較高且對(duì)異常值不敏感,但是計(jì)算和空間復(fù)雜度較高;支持向量機(jī)算法盡管計(jì)算代價(jià)不高但是容易欠擬合,分類(lèi)精度較低,而集成了多個(gè)分類(lèi)器的集成學(xué)習(xí)算法(Ensemble Learning)巧妙地解決上述問(wèn)題。集成算法會(huì)考慮多個(gè)評(píng)估器的建模結(jié)果,匯總之后得到一個(gè)綜合的結(jié)果,以此來(lái)獲取比單個(gè)模型更好的回歸或分類(lèi)表現(xiàn)。
集成算法主要有兩類(lèi):Bagging(并行)類(lèi)算法和Boosting(串行)類(lèi)算法,隨機(jī)森林是非常具有代表性的Bagging類(lèi)集成算法,如圖6所示,它的所有基評(píng)估器都是決策樹(shù),而分類(lèi)樹(shù)組成的森林就叫做隨機(jī)森林分類(lèi)器,由于隨機(jī)森林算法具有良好的性能表現(xiàn),它被廣泛應(yīng)用到諸如語(yǔ)音識(shí)別、人體動(dòng)作識(shí)別、度量學(xué)習(xí)等領(lǐng)域。
隨機(jī)森林分類(lèi)器的具體流程如下:若現(xiàn)有數(shù)據(jù)集P={Xi,Yi},其中:Xi為幀級(jí)骨架拓展類(lèi)的混合特征;Yi為動(dòng)作標(biāo)簽。隨機(jī)森林在S個(gè)基分類(lèi)器的基礎(chǔ)上通過(guò)集成學(xué)習(xí)組成一個(gè)集成分類(lèi)器。如圖7所示,當(dāng)有樣本進(jìn)入集成分類(lèi)器后,根據(jù)各個(gè)分類(lèi)器投票結(jié)果的多少,決定樣本輸出的分類(lèi)結(jié)果。
基于第3節(jié)中所提出的特征評(píng)估與分類(lèi)算法,本文選取UTKinect Dataset數(shù)據(jù)集,根據(jù)特征互信息量、準(zhǔn)確率、精確率、召回率、F1-Score、每秒平均傳輸幀數(shù)等衡量指標(biāo)對(duì)算法進(jìn)行了性能評(píng)估。此外,還將本文方法與其他現(xiàn)有的先進(jìn)算法進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)設(shè)備部分信息如表3所示。
表3 實(shí)驗(yàn)設(shè)備信息
在隨機(jī)森林分類(lèi)器中,n_stimators表示弱分類(lèi)器的個(gè)數(shù),其數(shù)值過(guò)小容易導(dǎo)致過(guò)擬合,數(shù)目過(guò)大會(huì)影響算法運(yùn)行速度,本文將數(shù)值設(shè)置為100;max_features表示決策樹(shù)分枝時(shí)考慮的特征個(gè)數(shù),我們選擇auto,默認(rèn)為總特征數(shù)的開(kāi)平方取整;max_depth表示決策樹(shù)最大深度,本文選擇為40;其余值設(shè)置為默認(rèn)。具體數(shù)值如表4所示。
表4 隨機(jī)森林模型參數(shù)
本文使用UTKinect Dataset數(shù)據(jù)集進(jìn)行測(cè)試,該數(shù)據(jù)集由得克薩斯州大學(xué)奧斯汀分校建立,由10種動(dòng)作類(lèi)型和10組動(dòng)作序列組成,每個(gè)人執(zhí)行指定動(dòng)作兩次,圖像為三通道,分別為RGB圖像、深度圖、骨骼關(guān)節(jié)點(diǎn)位置,數(shù)據(jù)集示例如圖8所示。
本文選取RGB圖像進(jìn)行算法評(píng)估,其中80%作為訓(xùn)練集,20%作為測(cè)試集。具體動(dòng)作圖像樣本數(shù)量如表5所示。
表5 數(shù)據(jù)集樣本分布
人體某個(gè)動(dòng)作的識(shí)別結(jié)果可以分為正樣本(Positive)和負(fù)樣本(Negative),我們把TP(Ture Positive)定義為正樣本的正確分類(lèi)數(shù),把TN(Ture Negative)定義為負(fù)樣本的正確分類(lèi)數(shù),把FP(False Positive)定義為正樣本的錯(cuò)誤分類(lèi)數(shù),把FN(False Negative)定義為負(fù)樣本的錯(cuò)誤分類(lèi)數(shù);隨后根據(jù)樣本的分類(lèi)情況引入幾種常見(jiàn)的分類(lèi)指標(biāo)對(duì)算法的性能進(jìn)行評(píng)估。
為了評(píng)估預(yù)測(cè)值和真實(shí)值之間的差距,我們引入準(zhǔn)確率(Accruacy),公式如下:
(19)
為了評(píng)估正確分類(lèi)為正的樣本與被分類(lèi)為正的樣本的數(shù)量關(guān)系,我們引入精確率(Precision),公式如下:
(20)
為了評(píng)估正確識(shí)別出的正樣本與正樣本總量的關(guān)系,我們引入召回率(Recall),公式如下:
(21)
為綜合評(píng)估算法的性能,我們引入F1-Score,公式如下:
(22)
為了更加清晰地衡量算法的性能,本文還給出識(shí)別結(jié)果的混淆矩陣,有助于找到各個(gè)動(dòng)作之間的關(guān)系。
4.3.1特征實(shí)驗(yàn)
為了驗(yàn)證提取出的幀級(jí)骨架拓展類(lèi)特征能否有效表示出時(shí)序動(dòng)作,本節(jié)結(jié)合互信息量等相關(guān)指標(biāo)進(jìn)行了相關(guān)的實(shí)驗(yàn)。基于骨骼序列的動(dòng)作識(shí)別是一個(gè)包含時(shí)間序列的分類(lèi)問(wèn)題,每個(gè)數(shù)據(jù)對(duì)應(yīng)著三個(gè)特征和一個(gè)標(biāo)簽,由于幀級(jí)骨架拓展類(lèi)的特征數(shù)值與拓展類(lèi)大小有關(guān),本文在實(shí)驗(yàn)過(guò)程中將拓展類(lèi)個(gè)數(shù)S分別取值為10、15、20,并對(duì)得出的實(shí)驗(yàn)結(jié)果求均值,得到的互信息量結(jié)果如表6所示。為了探究不同幀級(jí)骨架拓展類(lèi)特征組合對(duì)于動(dòng)作識(shí)別性能的影響,本節(jié)還進(jìn)行了特征的消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表7所示。
表6 特征互信息量
表7 不同特征組合的動(dòng)作識(shí)別實(shí)驗(yàn)結(jié)果(%)
4.3.2幀級(jí)拓展類(lèi)數(shù)量的影響
由于幀級(jí)骨架拓展類(lèi)特征中包含骨架時(shí)序特征,幀級(jí)拓展類(lèi)數(shù)量如果太少,混合特征中不會(huì)包含充分的有效骨架信息;相反,幀級(jí)拓展類(lèi)數(shù)量如果過(guò)多,可能會(huì)增加參數(shù)數(shù)量并產(chǎn)生冗余數(shù)據(jù)從而降低識(shí)別準(zhǔn)確率。為充分驗(yàn)證本文方法的有效性,我們采用隨機(jī)森林分類(lèi)器對(duì)數(shù)據(jù)集進(jìn)行了測(cè)試實(shí)驗(yàn),并選取了多組幀級(jí)拓展類(lèi)數(shù)量對(duì)結(jié)果的準(zhǔn)確率、精確率、召回率、F1-Score等參考指標(biāo)進(jìn)行了測(cè)試,算法識(shí)別結(jié)果如表8所示。
表8 算法識(shí)別結(jié)果(%)
4.3.3與現(xiàn)有方法的比較
為了充分驗(yàn)證本文方法的先進(jìn)性,本節(jié)引入了其他現(xiàn)有的先進(jìn)算法在UTKinect Dataset數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果如表9所示。
表9 本文方法與現(xiàn)有方法的比較(%)
文獻(xiàn)[21]把動(dòng)作序列的時(shí)空表示非線性地投影到一個(gè)不可逆的特征表示介質(zhì)中,并將序列的非線性、稀疏性和空間曲率特性集成到一個(gè)單目標(biāo)函數(shù)中,得到了高度緊湊的判別屬性表示。文獻(xiàn)[22]與文獻(xiàn)[21]不同,其使用傳輸平方根速度函數(shù)(TSRVF)來(lái)表示流形軌跡,并結(jié)合主成分分析法(mfPCA)進(jìn)行特征低緯嵌入,在動(dòng)作識(shí)別、聚類(lèi)、多序列采樣等應(yīng)用中有效地建模了流形軌跡。文獻(xiàn)[23]使用方法與本文相近,使用深度序列和相應(yīng)的骨骼關(guān)節(jié)信息進(jìn)行基于深度學(xué)習(xí)的動(dòng)作識(shí)別,其將學(xué)習(xí)的特征與SVM分類(lèi)器結(jié)合,從而進(jìn)行動(dòng)作識(shí)別。文獻(xiàn)[24]提出了兩個(gè)基于深度的特征,稱(chēng)為成對(duì)相對(duì)關(guān)節(jié)方向(PRJO)和深度貼片運(yùn)動(dòng)圖(DPMM),分別代表每對(duì)關(guān)節(jié)之間的相對(duì)運(yùn)動(dòng)和人與物體的相互作用;對(duì)稀疏關(guān)節(jié)集,提出一種基于回歸的學(xué)習(xí)方法來(lái)學(xué)習(xí)動(dòng)作預(yù)測(cè)器。文獻(xiàn)[25]提出了一種基于樹(shù)形結(jié)構(gòu)的遍歷框架,為了處理骨架數(shù)據(jù)中的噪聲,在LSTM模塊中引入了一種新的門(mén)控機(jī)制,網(wǎng)絡(luò)可以通過(guò)該機(jī)制了解網(wǎng)絡(luò)的可靠性,此外還提出了一種基于LSTM單元的多模態(tài)特征融合策略,取得了較高的準(zhǔn)確率。
在比對(duì)實(shí)驗(yàn)結(jié)果后可以發(fā)現(xiàn),相比現(xiàn)有方法,本文方法在識(shí)別準(zhǔn)確率上具有一定優(yōu)勢(shì)。在處理UTKinect Dataset數(shù)據(jù)集中的拿、扔、撿等動(dòng)作時(shí),由于遮擋和角度等原因,基于骨骼特征[21,23]和深度特征[24]的方法效果偏差,而ST-LSTM+TG[25]和本文方法的準(zhǔn)確率均優(yōu)于其他方法,這也證明在處理骨架特征時(shí),時(shí)序特征是影響動(dòng)作識(shí)別準(zhǔn)確率的重要因素。
4.3.4算法運(yùn)行速度實(shí)驗(yàn)
本文選取UTKinect Dataset數(shù)據(jù)集中的s06_e01片段進(jìn)行實(shí)時(shí)性測(cè)試,以平均每秒運(yùn)行速率(mFPS)作為參考指標(biāo),實(shí)驗(yàn)過(guò)程截圖如圖12所示,實(shí)驗(yàn)結(jié)果如表10所示,mFPS達(dá)到了21.9,這表明算法具備了實(shí)時(shí)運(yùn)行的能力。
表10 算法運(yùn)行速度實(shí)驗(yàn)結(jié)果
本文基于幀級(jí)骨骼拓展類(lèi)特征構(gòu)造了一個(gè)混合特征,并結(jié)合隨機(jī)森林分類(lèi)器實(shí)現(xiàn)了人體實(shí)時(shí)動(dòng)作檢測(cè)的功能。在根據(jù)各項(xiàng)指標(biāo)進(jìn)行實(shí)驗(yàn)評(píng)估后,驗(yàn)證了該識(shí)別方法的有效性,在UTKinect Dataset數(shù)據(jù)集上的識(shí)別準(zhǔn)確率達(dá)到了97.43%,平均處理一幀畫(huà)面的時(shí)間低于0.05 s,在保證識(shí)別準(zhǔn)確率的基礎(chǔ)上兼顧了實(shí)時(shí)性。該方法在監(jiān)控、安防、視頻交互等領(lǐng)域的應(yīng)用前景巨大。此外,本文還對(duì)比了基于時(shí)序特征算法與常見(jiàn)算法的識(shí)別準(zhǔn)確率,結(jié)果表明基于時(shí)序特征的方法在準(zhǔn)確度上均優(yōu)于其他方法,這為以后動(dòng)作識(shí)別相關(guān)的研究提供了依據(jù)。