楊文璐,于孟孟,謝 宏
(上海海事大學(xué)信息工程學(xué)院,上海201306)
近年來,高新技術(shù)產(chǎn)業(yè)的快速發(fā)展和市場對(duì)智能設(shè)備需求的逐步擴(kuò)大,極大地促進(jìn)了計(jì)算機(jī)視覺的廣泛應(yīng)用和發(fā)展。人類行為識(shí)別的研究成果被廣泛應(yīng)用于智能監(jiān)控、智能家居、視頻檢索定位、運(yùn)動(dòng)屬性分析等日常生活領(lǐng)域[1]。
目前針對(duì)人類行為的分析多集中在單人或人與物的分析,對(duì)雙人或者多人交互行為分析的研究還比較少[2]。與單人動(dòng)作相比,雙人交互行為在日常生活中更常見。同時(shí),目前一些特定場合的智能監(jiān)控系統(tǒng)對(duì)于雙人交互行為識(shí)別的需求更為迫切,如從敏感的監(jiān)控場景(機(jī)場、火車站等)大量的視頻中檢測出推搡、踢打等具有潛在危害性的行為,可以及時(shí)地反饋到相關(guān)部門,從而提高安保效率,大大提高智能視頻監(jiān)控系統(tǒng)的智能化水平。因此,雙人交互動(dòng)作的識(shí)別應(yīng)用領(lǐng)域更廣。
根據(jù)原始數(shù)據(jù)的不同,對(duì)于雙人交互行為識(shí)別的分析方法可以分為基于RGB 視頻和基于關(guān)節(jié)點(diǎn)數(shù)據(jù)兩類[3]?;赗GB 視頻的研究開始得比較早,到目前為止的研究成果也非常豐富[4-6],但是由于其缺乏維度信息,導(dǎo)致交互行為識(shí)別的效果不是很好。
隨著時(shí)代的進(jìn)步與科技的發(fā)展,以Kinect 為代表的深度攝像機(jī)開始出現(xiàn)。Kinect 可以通過簡單的采集方式獲取高精度的數(shù)據(jù),提供的三維關(guān)節(jié)點(diǎn)信息可用于人體行為識(shí)別研究,也可以解決利用傳統(tǒng)圖像或視頻時(shí)難以分割人體的困難[7]。Kinect 開啟了利用三維關(guān)節(jié)點(diǎn)信息進(jìn)行行為識(shí)別的新篇章。文獻(xiàn)[8]中將Kinect 捕獲的三維關(guān)節(jié)點(diǎn)數(shù)據(jù)轉(zhuǎn)換成關(guān)節(jié)角度特征,并使用支持向量機(jī)(Support Vector Machine,SVM)對(duì)人體姿態(tài)進(jìn)行檢測;文獻(xiàn)[9]中為了降低識(shí)別過程的計(jì)算復(fù)雜度,提出了一種基于人體關(guān)節(jié)結(jié)構(gòu)相似度的行為關(guān)鍵幀提取方法;文獻(xiàn)[10]中提出了一種基于空間關(guān)系和身體部位之間語義運(yùn)動(dòng)趨勢相似性的新特征描述符用于雙人交互識(shí)別;在文獻(xiàn)[11]中,交互式身體對(duì)之間的關(guān)系和運(yùn)動(dòng)信息被用作獨(dú)特的特征。
在雙人或多人交互行為的研究中,關(guān)鍵姿勢的提取是關(guān)鍵問題之一。文獻(xiàn)[12]中通過測量四肢之間的距離粗略地確定交互對(duì),收集交互姿勢,然后進(jìn)行對(duì)比挖掘提取典型的交互姿勢以進(jìn)行交互識(shí)別;文獻(xiàn)[13]中通過連續(xù)兩幀之間的深度變化計(jì)算出某一幀姿勢對(duì)應(yīng)的運(yùn)動(dòng)能量,定義一段時(shí)間內(nèi)運(yùn)動(dòng)能量最大的部分是運(yùn)動(dòng)部分,即關(guān)鍵姿勢。
本文擬結(jié)合骨骼點(diǎn)角度變化的方差和骨骼點(diǎn)間的空間關(guān)系來提取關(guān)鍵姿勢;然后用關(guān)節(jié)距離、角度和關(guān)節(jié)運(yùn)動(dòng)等特征表示關(guān)鍵姿勢,每一個(gè)動(dòng)作表示為一個(gè)特征矩陣;最后,利用不同的降維和分類算法組合進(jìn)行實(shí)驗(yàn),選取識(shí)別率最高的算法組合。實(shí)驗(yàn)結(jié)果表明本文提出的方法對(duì)復(fù)雜的交互行為具有較強(qiáng)的魯棒性和較好的識(shí)別率。
本文通過Kinect 獲取人體的骨骼數(shù)據(jù),對(duì)雙人交互進(jìn)行識(shí)別,具體步驟包括獲取數(shù)據(jù)、提取關(guān)鍵幀、提取特征值、降維和分類等,如圖1所示。
圖1 雙人交互行為識(shí)別過程Fig.1 Recognition process of two-person interaction behavior
在獲取數(shù)據(jù)階段,本文采用經(jīng)典數(shù)據(jù)集和自建數(shù)據(jù)集結(jié)合的方式。
經(jīng)典數(shù)據(jù)集采用SBU 數(shù)據(jù)集[14]。該數(shù)據(jù)集采用Microsoft Kinect 傳感器獲取并提取骨骼數(shù)據(jù)。該數(shù)據(jù)集中包含8 種類型的雙人互動(dòng),即靠近、遠(yuǎn)離、推人、踢人、拳打、遞書、擁抱和握手。所有數(shù)據(jù)均記錄在相同的實(shí)驗(yàn)室環(huán)境中,7 名參與者組成21 對(duì)進(jìn)行交互,每個(gè)動(dòng)作類別每一對(duì)做一次或兩次。整個(gè)數(shù)據(jù)集大約有300 個(gè)交互,除了包含640 × 480 像素的彩色圖像和深度圖之外,該數(shù)據(jù)集還包含每幀每個(gè)人15 個(gè)關(guān)節(jié)的三維坐標(biāo)。由于骨骼的快速移動(dòng)和關(guān)節(jié)點(diǎn)之間的遮擋、重疊,導(dǎo)致采取的某些數(shù)據(jù)不穩(wěn)定甚至不正確。
自建數(shù)據(jù)集則使用Kinect 2.0 獲取了7 種交互動(dòng)作的彩色視頻、深度圖像和骨骼數(shù)據(jù)。數(shù)據(jù)集包含的交互動(dòng)作類型為靠近、遠(yuǎn)離、推人、踢人、拳打、遞書和握手,是由5個(gè)人組成10對(duì),每種動(dòng)作每對(duì)做10~15次組成。此外,該數(shù)據(jù)集是在背景雜亂的室內(nèi)環(huán)境中捕獲的,彩色視頻和深度圖均具有640 ×480 像素的分辨率。利用Kinect 2.0 的骨骼跟蹤技術(shù)可以捕獲人體25個(gè)關(guān)節(jié)點(diǎn)的三維位置信息,如圖2所示。
關(guān)鍵姿勢是表示該幀及其鄰幀中人體狀態(tài)的姿態(tài),由關(guān)鍵姿態(tài)表示的狀態(tài)對(duì)于解釋人的行為最有意義[15]。為了防止交互行為識(shí)別中關(guān)鍵信息的丟失,減少數(shù)據(jù)的冗余,本文提取關(guān)鍵幀中的人體姿態(tài)信息作為關(guān)鍵姿態(tài)。
幀間差異比較是一種常用的提取關(guān)鍵幀的技術(shù),通過比較相鄰幀圖像之間的顏色直方圖或者人體關(guān)節(jié)位移等信息,將幀間差異小于特定閾值的幀圖像過濾掉,剩余的幀圖像被確定為關(guān)鍵幀[16]。本文就采用幀間差異比較,利用式(1)計(jì)算連續(xù)兩幀之間骨骼坐標(biāo)的移動(dòng)距離,設(shè)定一個(gè)閾值,篩選出大于閾值的幀組成關(guān)鍵幀,然后再進(jìn)行特征提取。
其中:m代表幀數(shù);j代表是骨骼點(diǎn)。
目前國內(nèi)外提出的動(dòng)作識(shí)別算法中有三種表示骨骼特征的方法:第一種是空間描述,通過計(jì)算一定時(shí)間內(nèi)人體骨骼所有關(guān)節(jié)或部分關(guān)鍵關(guān)節(jié)的兩兩距離,用協(xié)方差矩陣表示識(shí)別動(dòng)作的特征;第二種是幾何描述,利用運(yùn)動(dòng)骨架變換序列對(duì)骨架關(guān)節(jié)的子集或相對(duì)幾何特征進(jìn)行描述;第三種是基于關(guān)鍵姿勢的描述,使用算法選擇一組表示每個(gè)動(dòng)作的關(guān)鍵姿勢,每個(gè)骨架序列使用最接近的關(guān)鍵姿勢來表示[17]。
使用骨架關(guān)節(jié)作為特征的最大挑戰(zhàn)之一是語義上相似的運(yùn)動(dòng)不一定在數(shù)值上相似[18]。但對(duì)于同一類動(dòng)作總會(huì)有相同的關(guān)鍵姿勢,即每一個(gè)交互動(dòng)作都有自己獨(dú)有的一個(gè)或多個(gè)區(qū)別于其他動(dòng)作的特征,除了這些主要的特征之外大都是一些多余動(dòng)作,如握手,只需判斷雙方的右手或者左手是否握在一起,至于雙方的其他動(dòng)作都是干擾動(dòng)作。所以本文提出了一種新的基于關(guān)鍵姿勢的描述對(duì)雙人交互的動(dòng)作進(jìn)行識(shí)別。
1.3.1 提取關(guān)鍵骨骼點(diǎn)
提取關(guān)鍵姿勢首先要找到關(guān)鍵姿勢中的骨骼點(diǎn),關(guān)鍵骨骼點(diǎn)是完成一個(gè)動(dòng)作最主要的部位,而其他的多余行為則不是我們研究的重點(diǎn)。在概率論和統(tǒng)計(jì)學(xué)中,隨機(jī)變量的方差描述了它的離散度,即變量與期望值的距離。本文利用連續(xù)幀之間關(guān)節(jié)點(diǎn)角度變化的方差來說明骨骼點(diǎn)運(yùn)動(dòng)的幅度大小,從而找到運(yùn)動(dòng)的主要部位。
交互雙方各自建立一個(gè)以臀部為中心的直角坐標(biāo)系,坐標(biāo)系的方向和Kinect 自身的坐標(biāo)系一樣,如圖3 所示。本文以Y軸正方向(0,1,0)為標(biāo)準(zhǔn)向量,計(jì)算骨骼點(diǎn)與中心形成的方向向量與標(biāo)準(zhǔn)向量之間的角度,計(jì)算公式為:
其中:i、j是交互中肢體的任一關(guān)節(jié),關(guān)節(jié)可以來自一個(gè)人也可以是不同的人。
獲得交互雙方所有骨骼點(diǎn)的角度后用方差來說明角度變化的程度,以此找到動(dòng)作中最活躍的部位。方差表示為:
其中:i代表任何一個(gè)骨骼點(diǎn);m代表關(guān)鍵幀的幀數(shù);Angin為連續(xù)兩幀之間骨骼點(diǎn)i角度的變化是骨骼點(diǎn)i連續(xù)兩幀之間角度變化的平均值。
根據(jù)方差的大小,獲取方差最大的兩個(gè)骨骼點(diǎn)作為關(guān)鍵骨骼點(diǎn)。
圖3 Kinect2.0坐標(biāo)系圖Fig.3 Kinect2.0 coordinate system diagram
1.3.2 提取關(guān)鍵姿勢
提取關(guān)鍵骨骼點(diǎn)之后更重要的是確定關(guān)鍵姿勢,即確定互動(dòng)肢體對(duì)。每個(gè)交互動(dòng)作都有其必不可少的互動(dòng)肢體對(duì),由于交互雙方的身體部位總是按照交互順序彼此接近甚至接觸,因此本文通過測量關(guān)鍵骨骼點(diǎn)之間的距離確定交互對(duì)。關(guān)節(jié)距離最常用的是歐氏距離,Disi_j定義為:
其中:i、j 是交互中肢體的關(guān)鍵關(guān)節(jié),關(guān)節(jié)可以來自一個(gè)人也可以是不同的人。
利用歐氏距離獲取關(guān)鍵骨骼點(diǎn)與交互方所有骨骼點(diǎn)的距離,根據(jù)距離大小確定交互對(duì)。
1.3.3 計(jì)算特征向量
實(shí)驗(yàn)中Kinect 采集的骨骼數(shù)據(jù)為一組時(shí)間序列數(shù)據(jù),原始數(shù)據(jù)包括人體15 或25 個(gè)關(guān)節(jié)點(diǎn)的三維坐標(biāo)。然后轉(zhuǎn)化為每幀的多個(gè)特征維度,一個(gè)交互行為中的若干幀特征構(gòu)成一個(gè)交互動(dòng)作的樣本。根據(jù)1.3 節(jié)提取出的關(guān)鍵交互對(duì),針對(duì)每個(gè)交互動(dòng)作利用一個(gè)或兩個(gè)特征值來表示出關(guān)鍵關(guān)節(jié)的姿勢狀態(tài),具體表示如下所述(以1.1 節(jié)圖2 的25 個(gè)關(guān)節(jié)為例,用0~24 表示交互的第一個(gè)人的關(guān)節(jié),25~49 表示交互的第二個(gè)人的關(guān)節(jié)):
1)利用1.3.2 節(jié)中的式(4)計(jì)算關(guān)節(jié)1(SpineMid)和關(guān)節(jié)26(SpineMid)間的距離Dis1_26來表示交互雙方身體間的距離,若此距離小于某個(gè)閾值則輸出1,否則輸出0。
2)計(jì)算關(guān)節(jié)3(Head)和關(guān)節(jié)28(Head)在X 軸方向上的距離,記為DisX3_28,然后計(jì)算關(guān)節(jié)3和關(guān)節(jié)11(HandRight)、關(guān)節(jié)7(HandLeft)在 X 軸 上 的 距 離 以 及 關(guān) 節(jié) 28 和 關(guān) 節(jié) 36(HandRight)、關(guān)節(jié)32(HandLeft)在X 軸上的距離,分別記為:DisX3_11、DisX3_7、DisX28_36和 DisX28_32;若 DisX3_28大于后四個(gè)距離中的任意一個(gè)則輸出1,否則輸出0。
3)計(jì)算關(guān)節(jié) 15(FootLeft)和關(guān)節(jié) 19(FootRight)、關(guān)節(jié) 40(FootLeft)和關(guān)節(jié) 44(FootRight)在 Y 軸上的距離,分別記為:DisY15_19和DisY40_44,若任一距離大于某個(gè)閾值則輸出1,否則輸出0。
4)由步驟1)得到每幀交互雙方間的距離Dis1_26,接著計(jì)算前后兩幀間交互雙方距離的差值,若差值大于0 則為1,否則輸出0。
5)利用1.3.1節(jié)中的式(2)計(jì)算關(guān)節(jié)4(ShoulderLeft)和關(guān)節(jié) 7(HandLeft)、關(guān) 節(jié) 8(ShoulderRight)和 關(guān) 節(jié) 11(HandRight)、關(guān)節(jié) 29(ShoulderLeft)和關(guān)節(jié) 32(HandLeft)、關(guān)節(jié)33(ShoulderRight)和關(guān)節(jié) 36(HandRight)分別形成的向量與 Y 軸正方向形成的夾角 Ang8_11、Ang29_32、Ang33_36,來說明胳膊抬起的大致位置,判斷任一角度是否大于某個(gè)閾值,若成立輸出1,否則輸出0。
6)利用1.3.2 節(jié)中的式(4)計(jì)算關(guān)節(jié)7(HandLeft)和關(guān)節(jié)29(ShoulderLeft) 、關(guān) 節(jié) 11(HandRight) 和 關(guān) 節(jié) 33(ShoulderRight)、關(guān)節(jié) 32(HandLeft)和關(guān)節(jié) 4(ShoulderLeft)、關(guān)節(jié)36(HandRight)和關(guān)節(jié)8(ShoulderRight)間的距離,分別記為:Dis7_29、Dis11_33、Dis32_4、Dis36_8,若任一距離小于某個(gè)閾值,則輸出1,否則輸出0。
7)計(jì)算關(guān)節(jié) 1(SpineMid)和關(guān)節(jié)26(SpineMid)在 X 軸上的 距 離 DisX1_26,再 計(jì) 算 關(guān) 節(jié) 11(HandRight)、關(guān) 節(jié) 36(HandRight)在 X 軸方向上和 DisX1_262 的距離差,若差值小于某個(gè)閾值則說明右手位于交互雙方之間,輸出1,否則輸出0。
8)利用1.3.2 節(jié)中的式(4)計(jì)算關(guān)節(jié)11(HandRight)和關(guān)節(jié)36(HandRight)間的距離Dis11_36來表示交互雙方右手之間的距離,若此距離小于某個(gè)閾值則輸出1,否則輸出0;然后在Dis11_36小于前者閾值的情況下,再次判斷是否小于更小的某個(gè)閾值,若成立輸出1,否則輸出0。
綜上所述,每幀提取的特征包含9 個(gè)特征,判斷每一幀的上述特征條件是否成立,如果成立則為1,否則為0,這樣就形成一個(gè)二值矩陣作為特征矩陣。
SBU 數(shù)據(jù)集的樣本數(shù)量在平常的研究中屬于小樣本的數(shù)據(jù)。為了使實(shí)驗(yàn)結(jié)果更有說服力,本文采用“l(fā)eave-one-out”方法來進(jìn)行實(shí)驗(yàn)。“l(fā)eave-one-out”方法也可叫“留一法”,該方法中使用的訓(xùn)練集比初始數(shù)據(jù)集少一個(gè)樣本,這使得在leaveone-out方法中實(shí)際評(píng)估的模型與在大多數(shù)情況下預(yù)期要評(píng)估的數(shù)據(jù)集上訓(xùn)練出的模型非常相似。因此,留一法的評(píng)估結(jié)果往往被認(rèn)為比較準(zhǔn)確。
目前已存在多種應(yīng)用廣泛的降維算法和分類器模型,本文選取了幾種常用、較流行的降維算法和分類器模型進(jìn)行組合,并在SBU 數(shù)據(jù)集以及本文自建的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。其中降維算法有:主成分分析(Principal Component Analysis,PCA)、奇異值分解(Singular Value Decomposition,SVD);分類算法有隨機(jī)森林(Random Forest,RF)、SVM、長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)。
PCA 算法是一種線性降維方法,它的主要思想是將L 維度中的特征映射到k(k <L)維度。這k 維是一個(gè)新的正交特征,也稱為主成分,是基于尺寸特征重建的k 維特征,即找到數(shù)據(jù)中最重要的方面,并用數(shù)據(jù)中最重要的方面替換原始數(shù)據(jù)。
SVD可以很容易地獲得任何矩陣的滿秩分解并使用滿秩分解達(dá)到對(duì)數(shù)據(jù)進(jìn)行降維壓縮的目的[19]。降維處理的重要性取決于SVD 中奇異值的重要性,它是丟棄不重要特征向量的過程,而由剩余特征向量組成降維后的空間。
Bagging 算法是Bootstrap aggregating,其思想就是從總體樣本當(dāng)中隨機(jī)取一部分樣本進(jìn)行訓(xùn)練,通過多次這樣的操作,進(jìn)行投票獲取平均值作為結(jié)果輸出,這就極大可能地避免了不好的樣本數(shù)據(jù),從而提高準(zhǔn)確度[20]。而RF是基于樹模型的Bagging 的優(yōu)化版本。通過從原始訓(xùn)練樣本集中隨機(jī)選擇w個(gè)樣本,生成一個(gè)新的訓(xùn)練樣本集,并根據(jù)自助樣本集生成一個(gè)w 分類樹,形成一個(gè)RF。新數(shù)據(jù)的分類結(jié)果取決于分類樹形成的分?jǐn)?shù)數(shù)量。
SVM 是線性分類器,其主要目的是在足夠的空間中找到一個(gè)超平面以劃分所有數(shù)據(jù)樣本,并最大限度地減少數(shù)據(jù)集中所有數(shù)據(jù)與該超平面之間的距離。SVM最重要的方面是核函數(shù)的選取和參數(shù)的選擇,這些可以通過實(shí)驗(yàn)識(shí)別率來選擇。
LSTM 方法是在循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)方法的基礎(chǔ)上改進(jìn)而來,引入一個(gè)新的狀態(tài)單元Cell作為計(jì)算核心,解決了循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度消失和梯度爆炸問題[21]。LSTM 的核心是門控制機(jī)制,包括輸入門、輸出門和遺忘門,這使LSTM 可以選擇記住、忘記或更新歷史信息,并且LSTM可以解決丟失RNN梯度的問題。
本文主要是使用Matlab 2016b 中的工具箱對(duì)數(shù)據(jù)進(jìn)行降維和分類,故只簡要介紹一下上文所提到算法的實(shí)現(xiàn)原理。為了減少錄制數(shù)據(jù)時(shí)無法避免的骨骼遮擋和數(shù)據(jù)不穩(wěn)定的影響,本文在降維和分類之前加入一個(gè)判斷條件:如果二值矩陣的某個(gè)特征有間斷的一個(gè)1或兩個(gè)1存在,則把1置為0。
實(shí)驗(yàn)環(huán)境為 Inter Core i3-3217U,CPU@1.8 GHz,4 GB 內(nèi)存,Windows 8 操作系統(tǒng),Visual Studio 2015 和 Matlab 2016b。使用Kinect 采集并獲取實(shí)驗(yàn)數(shù)據(jù)集,在獲取人體骨骼的三維坐標(biāo)后在Visual Studio 上編寫程序?qū)υ紨?shù)據(jù)進(jìn)行關(guān)鍵幀和特征的提取等處理,得到特征矩陣后把特征矩陣在Matlab 中利用降維和分類工具箱進(jìn)行處理并得到識(shí)別結(jié)果。
降維算法和分類器模型的不同組合在SBU數(shù)據(jù)集以及本文自建的數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比如表1所示。
表1 不同算法組合在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比Tab. 1 Experimental results comparison of various algorithm combinations on SBU dataset and self-built dataset
由表1 可知:PCA+SVM 的組合在SBU 數(shù)據(jù)集上識(shí)別率最高并且平均耗時(shí)最少,由此可知PCA+SVM 相比其他組合更適合于SBU 數(shù)據(jù)集;PCA+RF、PCA+LSTM 兩個(gè)組合在本文自建數(shù)據(jù)集上識(shí)別率最高,但PCA+RF 平均耗時(shí)相對(duì)更少,在優(yōu)先考慮識(shí)別率的情況下PCA+RF 更適合于自建的數(shù)據(jù)集。綜述所述:對(duì)于上述兩個(gè)數(shù)據(jù)集來說,降維算法PCA 比SVD 效果更好;對(duì)于降維算法,由于SVD 的維數(shù)多于PCA,所以SVD平均耗時(shí)更多;而對(duì)于不同的分類器模型,SVM平均耗時(shí)少于RF,RF 耗時(shí)少于LSTM,所以在各種算法組合中PCA+SVM 平均耗時(shí)是最少的。
PCA+SVM 組合在SBU 數(shù)據(jù)集上的識(shí)別率結(jié)果如表2 所示。由表2 可以看出,由于交互動(dòng)作的明顯特征,踢人和擁抱以100%的正確率被識(shí)別出來,而靠近和遠(yuǎn)離動(dòng)作受擁抱和遞書前期的靠近動(dòng)作以及完成后的分離動(dòng)作的影響,使得部分動(dòng)作的識(shí)別出現(xiàn)錯(cuò)誤;而對(duì)于拳擊和推人、握手和遞書相似性很大,識(shí)別也有些困難。
將本文方法的識(shí)別率與現(xiàn)有算法的結(jié)果進(jìn)行比較,具體如表3 所示。本文方法的識(shí)別率達(dá)到92.47%,其識(shí)別率分別比文獻(xiàn)[14]、文獻(xiàn)[19]、文獻(xiàn)[12]和文獻(xiàn)[10]中的方法提高了12.17、3.07、5.57 和1.35 個(gè)百分點(diǎn)。圖4 給出了文獻(xiàn)[14]、文獻(xiàn)[19]、文獻(xiàn)[10]中的方法和本文方法中每個(gè)動(dòng)作類別詳細(xì)的識(shí)別精度比較。與文獻(xiàn)[10]中的方法相比,本文方法中擁抱、推人和拳擊動(dòng)作的識(shí)別率略高。相較于文獻(xiàn)[19]中的方法,本文方法的最大優(yōu)勢在于拳打動(dòng)作的識(shí)別。此外,除了遠(yuǎn)離和遞書動(dòng)作,其他動(dòng)作識(shí)別的準(zhǔn)確度均高于文獻(xiàn)[14]中的方法。
表2 PCA+SVM在SBU數(shù)據(jù)集上的識(shí)別率結(jié)果Tab. 2 Recognition rates of PCA+SVM on SBU dataset
表3 SBU數(shù)據(jù)集上各方法的識(shí)別率對(duì)比Tab. 3 Recognition rates comparison of vairous algorithms on SBU dataset
圖4 SBU數(shù)據(jù)集上各個(gè)動(dòng)作的識(shí)別率對(duì)比Fig. 4 Recognition rates comparison of different actions on SBU dataset
利用PCA+SVM 組合對(duì)自建的數(shù)據(jù)集進(jìn)行動(dòng)作識(shí)別,識(shí)別結(jié)果如表4 所示??梢钥闯?,交互類別中的識(shí)別率都超過了90%,并且有的達(dá)到了100%。其中拳打和推人動(dòng)作相似性極高,難以區(qū)分使得二者的識(shí)別率最低,且錯(cuò)誤中的絕大多數(shù)被識(shí)別為對(duì)方;而靠近和遠(yuǎn)離易受到其他動(dòng)作的影響使得識(shí)別率難以達(dá)到100%。
表4 PCA+SVM在自建數(shù)據(jù)集上的識(shí)別率結(jié)果Tab. 4 Recognition rates of PCA+SVM on self-built dataset
針對(duì)雙人交互行為識(shí)別應(yīng)用領(lǐng)域廣但效率低的問題,本文提出了一種基于關(guān)鍵姿勢的雙人交互行為識(shí)別方法。以往的研究多采用直方圖來表示每一幀的姿勢信息,導(dǎo)致空間信息的丟失;有些研究保留了姿勢中的空間信息,但忽略時(shí)間信息[4]。而本文提取每個(gè)交互動(dòng)作的關(guān)鍵姿勢組合成特征矩陣,既保留了在空間尺度上的信息,同時(shí)也把時(shí)間尺度的信息包含在內(nèi)。在SBU交互數(shù)據(jù)集和自建的交互數(shù)據(jù)集上評(píng)估本文的識(shí)別方法,識(shí)別率分別達(dá)到92.47%和94.14%。
本文自建了一個(gè)包含更多樣本的新的雙人交互數(shù)據(jù)集,數(shù)據(jù)集包含RGB 圖像、深度圖像和骨架關(guān)節(jié)。本文提出的基于關(guān)鍵姿勢的識(shí)別算法得到的特征矩陣能夠有效地表示不同的交互類別。SBU 交互數(shù)據(jù)集和本文收集的數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明本文方法明顯優(yōu)于大多數(shù)文獻(xiàn)中所提出的方法。
然而,雙人交互行為識(shí)別時(shí),骨架關(guān)節(jié)的遮擋問題一直存在,因此下一步工作主要集中在通過結(jié)合深度圖像的信息來提取更有效的特征,以實(shí)現(xiàn)更多交互動(dòng)作類別更準(zhǔn)確的識(shí)別。