楊天金 侯振杰, 2 李興 梁久禎 宦娟 鄭紀(jì)翔
人體行為識別是計算機(jī)視覺領(lǐng)域和模式識別領(lǐng) 域的一個重要的分支,應(yīng)用范圍十分廣泛,在智能監(jiān)控、虛擬現(xiàn)實等應(yīng)用中表現(xiàn)十分優(yōu)秀[1-5].傳統(tǒng)的人體行為識別使用的是彩色攝像機(jī)[6]生成的RGB圖像序列,而RGB 圖像受光照、背景、攝像器材的影響很大,識別穩(wěn)定性較差.
隨著技術(shù)的發(fā)展,特別是微軟Kinect 體感設(shè)備的推出,基于圖像序列的人體行為識別研究得到了進(jìn)一步的發(fā)展.相比于彩色圖像序列,深度圖序列更有優(yōu)勢.不僅可以忽略光照和背景帶來的影響,還可以提供深度信息,深度信息表示為在可視范圍內(nèi)目標(biāo)與深度攝像機(jī)的距離.深度圖序列相較于彩色圖序列,提供了豐富的人體3D 信息,胡建芳等[7]詳細(xì)描述了RGB-D 行為識別研究進(jìn)展和展望.至今已經(jīng)探索了多種基于深度圖序列的表示方法,以Bobick等[8]的運動能量圖(Motion energy images,MEI)、運動歷史圖(Motion history images,MHI)作為時空模板的人體行為識別的特征提取方法,提高了識別的穩(wěn)健性;蘇本躍等[9]采用函數(shù)型數(shù)據(jù)分析的行為識別方法;Anderson等[10]基于3 維Zernike的圖像數(shù)據(jù)嘗試行為分類,并且該分類對于具有低階矩的行為是有效的;Wu等[11]基于3 維特征和隱馬爾科夫模型對人體行為動作進(jìn)行分類并加以識別;Wang等[12]從深度視頻中提取隨機(jī)占用模式(Random occupancy pattern,ROP)特征,并用稀疏編碼技術(shù)進(jìn)行重新編碼;Zhang等[13]使用梯度信息和稀疏表達(dá)將深度和骨骼相結(jié)合,用于提高識別率;Zhang等[14]從深度序列中提取的動作運動歷史圖像(Sub-action motion history image,SMHI)和靜態(tài)歷史圖像(Static history image,SHI);Liu等[15]利用深度序列和相應(yīng)的骨架聯(lián)合信息,采用深度學(xué)習(xí)的方法進(jìn)行動作識別;Xu等[16]提出了深度圖和骨骼融合的人體行為識別;Wang等[17-19]采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行人體行為識別;Yang等[20]提出了深度運動圖(Depth motion maps,DMM),將深度幀投影到笛卡爾直角坐標(biāo)平面上,生成主視圖、俯視圖、側(cè)視圖,得到三個2 維地圖,在此基礎(chǔ)上差分堆疊整個深度序列動作能量圖生成DMM.DMM雖然展現(xiàn)出人體行為豐富的空間信息,但是無法記錄人體行為的時序信息.針對現(xiàn)有深度序列特征圖時序信息缺失的問題,本文提出了一種新的深度序列表征方式,即深度時空圖(Depth space time maps,DSTM).
DMM 側(cè)重于表征人體行為的空間信息,而DSTM 側(cè)重于表征人體行為的時序信息.通過融合空間信息與時序信息進(jìn)行人體行為識別,可以提高人體行為識別的魯棒性,其中融合算法的可靠性直接影響了識別的精確度.在一些實際應(yīng)用中,多模態(tài)數(shù)據(jù)雖然通過不同方式收集,但表達(dá)的是相同語義.通過分析多模態(tài)的數(shù)據(jù),提取與融合有效特征,解決快速增長的數(shù)據(jù)量問題.常見的融合方法有子空間學(xué)習(xí),例如Li等[21]將典型性相關(guān)分析(Canonical correlation analysis,CCA)應(yīng)用于基于非對應(yīng)區(qū)域匹配的人臉識別,使用CCA 來學(xué)習(xí)一個公共空間,測量兩個非對應(yīng)面部區(qū)域是否屬于同一面部的可能性;Haghighat等[22]改進(jìn)CCA 提出的判別相關(guān)分析(Discriminant correlation analysis,DCA);Rosipal等[23]將偏最小二乘法(Partial least squares,PLS)用于執(zhí)行多模態(tài)人臉識別;Liu等[24]的字典學(xué)習(xí)(Dictionary learning method)廣泛應(yīng)用于多視圖的人臉識別;Zhuang等[25]使用基于圖的學(xué)習(xí)方法(Graph-based learning method)進(jìn)行多模態(tài)的融合;Sharma等[26]將線性判別分析(Linear discriminant analysis,LDA)和邊際Fisher 分析(Marginal Fisher analysis,MFA)擴(kuò)展到它們的多視圖對應(yīng)物,即廣義多視圖LDA (Generalized multi-view LDA,GMLDA)和廣義多視圖MFA(Generalized multi-view MFA,GMMFA),并將它們應(yīng)用于跨媒體檢索問題;Wang等[27]對子空間學(xué)習(xí)進(jìn)行改進(jìn),同樣將它們應(yīng)用于跨媒體的檢索問題.本文提出多聚點子空間學(xué)習(xí)算法以用于融合空間信息與時序信息進(jìn)行人體行為識別.
1.1.1 運動能量圖和運動歷史圖
Bobick等[8]通過對彩色序列中相鄰幀進(jìn)行圖片差分,獲得人體行為的區(qū)域,在此基礎(chǔ)上進(jìn)行二值化后生成二值的圖像序列D(x,y,t),進(jìn)一步獲得二值特征圖MEI,計算式為
其中,Eτ(x,y,t)為視頻序列中t幀處的能量,由τ幀序列生成的MEI.
同時,Bobick等[8]在MEI的基礎(chǔ)上,為了表示出行為的時序性,提出了MHI.在MHI 中像素亮度是該點處運動的時間歷史函數(shù).MHI 通過簡單的替換和衰減運算獲得,計算式為
其中,Hσ(x,y,t)的初始像素亮度為σ,D(x,y,t)為整個圖像序列.
1.1.2 深度運動圖
Yang等[20]提出將深度序列中的深度幀投影到笛卡爾直角坐標(biāo)平面,獲取3D 結(jié)構(gòu)和形狀信息.在整個過程中提出了深度運動圖(DMM)描述行為,每個深度幀在投影后獲得主視圖、側(cè)視圖和俯視圖三個2 維投影圖,表示為mapv.假設(shè)一個有N幀的深度圖序列,DMMv特征計算式為
其中,i表示幀索引,表示第i幀深度幀在v方向上的投影,f表示主視圖,s表示側(cè)視圖,t表示俯視圖.
子空間學(xué)習(xí)的本質(zhì)是龐大的數(shù)據(jù)集樣本背后最質(zhì)樸的特征選擇與降維.子空間學(xué)習(xí)的基礎(chǔ)是Harold Hotelling 提出的典型性相關(guān)分析(CCA)[15],CCA的主要思想是在兩組隨機(jī)變量中選取若干個有代表性的綜合指標(biāo)(變量的線性組合),這些指標(biāo)的相關(guān)關(guān)系來表示原來的兩組變量的相關(guān)關(guān)系.假設(shè)有兩組數(shù)據(jù)樣本X和Y,其中X為x1×m的樣本矩陣,Y為x2×m的樣本矩陣,對X,Y做標(biāo)準(zhǔn)化后CCA的計算式為
其中,a,b分別為X,Y的投影矩陣,X′=aTX,Y ′=aTY,cov為協(xié)方差,cov(X′,Y ′)協(xié)方差和方差的計算式為
CCA的優(yōu)化目標(biāo)計算式為
以CCA 為基礎(chǔ)的子空間學(xué)習(xí)將大規(guī)模的數(shù)據(jù)樣本進(jìn)行優(yōu)化,但它的計算復(fù)雜度很高,無法消除階級間的相關(guān)性并無法限制類內(nèi)的相關(guān)性.
針對DMM 時序信息的缺失的問題,本文提出一種深度圖序列表示算法DSTM.DSTM 反映的是人體3D 時空行為在空間直角坐標(biāo)軸上的分布隨著時間變化的情況,人體所在空間直角坐標(biāo)系三個軸分別為寬度軸(w)代表寬度方向、高度軸(h)代表高度方向、深度軸(d)代表深度方向,圖1 為DSTM的流程圖.
如圖1 所示,首先將深度幀投影在三個笛卡爾正交面上,獲得主視圖、側(cè)視圖和俯視圖三個2 維投影圖,表示為mapv,v∈{f,s,t}.然后根據(jù)每個2 維投影圖得到兩個軸的行為分布情況.任選兩個2 維投影圖即可得到寬度軸、高度軸、深度軸的行為分布情況.
圖1 DSTM 流程圖Fig.1 DSTM flowchart
對a軸上的投影列表為
其中,a∈{w,h,d},W,H分別表示2 維投影圖的寬度和高度.suma表示2 維投影圖序列在a軸上投影列表.對2 維投影圖序列在a軸上的投影列表進(jìn)行二值化,即
其中,lista表示對2 維投影圖序列在a軸上的投影列表進(jìn)行二值化,a∈{w,h,d},ε表示二值化的閾值.假設(shè)有N幀投影,DSTM的計算式為
最后對DSTM進(jìn)行感興趣區(qū)域(Region of interest,ROI)處理,根據(jù)感興趣區(qū)域的主旨,對圖片進(jìn)行裁剪、大小歸一化處理.
子空間學(xué)習(xí)存在著計算復(fù)雜度高,無法消除階級間相關(guān)性的缺陷,本文提出了多聚點子空間學(xué)習(xí)的方法,在約束平衡模態(tài)間樣本關(guān)系的同時,通過構(gòu)建同類別各樣本的多個投影聚點,疏遠(yuǎn)不同類別樣本的類間距離,降低了投影目標(biāo)區(qū)域維度.多聚點子空間學(xué)習(xí)算法的思想可表示為
其中,Xp表示未經(jīng)投影各模態(tài)樣本,即原空間樣本;Up,p=1,···,M表示各模態(tài)樣本的投影矩陣;表示經(jīng)投影后各模態(tài)樣本,即子空間樣本;L表示類別總數(shù);Y為子空間內(nèi)目標(biāo)投影矩陣,由各類別樣本目標(biāo)投影聚點yi組成;Gc為多個各模態(tài)同一類別樣本新建目標(biāo)投影點矩陣;λ1,λ2,λ3為各項超參.
本文將傳統(tǒng)子空間學(xué)習(xí)稱為單聚點子空間學(xué)習(xí).多聚點子空間學(xué)習(xí)與單聚點子空間學(xué)習(xí)的主要區(qū)別是聚點個數(shù)的不同,具體定義如下:
1)單聚點子空間學(xué)習(xí).通過學(xué)習(xí)每種模態(tài)數(shù)據(jù)的投影矩陣,將不同類別數(shù)據(jù)投影到公共子空間.投影矩陣的學(xué)習(xí)通常是最小化投影后樣本與各類數(shù)據(jù)唯一主聚點的距離得到,計算式為
其中,Y為子空間內(nèi)目標(biāo)投影矩陣,由各類別樣本目標(biāo)投影聚點yi組成,可表示為Y=[y1,y2,···,yN]T,
圖2 為單聚點子空間學(xué)習(xí).通過最小化子空間樣本與各類別投影聚點之間距離來減少樣本的類內(nèi)距離.
圖2 單聚點子空間學(xué)習(xí)Fig.2 Subspace learning
2)多聚點子空間學(xué)習(xí).多聚點子空間學(xué)習(xí)是對單聚點子空間學(xué)習(xí)的優(yōu)化,都是通過學(xué)習(xí)每種模態(tài)數(shù)據(jù)的投影矩陣,將不同類別數(shù)據(jù)投影到公共子空間.不同的是,投影矩陣的學(xué)習(xí)由同時最小化投影后樣本與各類數(shù)據(jù)唯一主聚點以及與多個副聚點的總距離得到,計算式為
其中,Gc為各類別樣本的第c個副投影聚點集合矩陣.副投影聚點為其他類別投影聚點關(guān)于當(dāng)前類別目標(biāo)投影聚點的對稱聚點.Gc的構(gòu)建算法步驟如下.
算法 1.Gc的構(gòu)建算法
圖3 為多聚點子空間學(xué)習(xí).通過為各類別樣本構(gòu)建多個投影聚點并使用模態(tài)內(nèi)、模態(tài)間數(shù)據(jù)相似度關(guān)系,使得子空間樣本向多個投影目標(biāo)點附近的超平面聚攏,有效增大了子空間樣本之間的距離,降低了投影目標(biāo)區(qū)域的維度,使投影目標(biāo)區(qū)域從n維的超球體變?yōu)閚-1 維的超平面,同類別的子空間樣本更為緊湊,從而有效地提高了算法的特征優(yōu)化效果.因此結(jié)合使用數(shù)據(jù)模態(tài)內(nèi)、模態(tài)間相似度關(guān)系的多聚點子空間學(xué)習(xí)可表示為
圖3 多聚點子空間學(xué)習(xí)Fig.3 Multi-center subspace learning
本文以式(14)第1 項為基準(zhǔn)確定式中各項超參,設(shè)定子空間樣本與目標(biāo)投影聚點之間約束程度等同于同類別子空間樣本之間約束程度.第1 項中子空間樣本與目標(biāo)投影點之間約束共有F1個,F1計算式為
其中,M為模態(tài)數(shù),N為樣本數(shù).
式(14)第3 項中子空間樣本之間約束共有F2個,其中同一模態(tài)子空間樣本相似度的約束共有Fa個,不同模態(tài)同一類別的子空間樣本之間的相似度的約束共有Fb個,F2,Fa,Fb計算式為
式(14)第4 項中子空間樣本與目標(biāo)投影聚點之間約束共有F3個,F3計算式為
在子空間樣本與目標(biāo)投影聚點之間約束程度等同于同類別子空間樣本之間約束.根據(jù)F1,F2,F3比例關(guān)系,可以確定式(14)的第3 項和第4 項超參的計算式為
最后本文通過實驗,以最終識別率為依據(jù),確定λ1.
對于式(16)中的幾項可進(jìn)行優(yōu)化,式(16)中的第2 項是對各模態(tài)的數(shù)據(jù)樣本投影矩陣的約束項,防止算法過擬合.第2 項中含有l(wèi)2,1范數(shù),它是非平滑且不能得到的一個閉式解[28].對于投影矩陣,其l2,1范數(shù)定義為
式(14)中第3 項是不同模態(tài)同一類別的子空間樣本之間的約束.第3 項可以通過如下方式進(jìn)行推導(dǎo)
本節(jié)通過下述算法步驟求解線性系統(tǒng)問題來計算式(26)的最優(yōu)解.
算法 2.計算子空間學(xué)習(xí)的最優(yōu)解
通過算法2 進(jìn)行求解,先計算出拉普拉斯矩陣,然后求解出并代入式(27)進(jìn)行重復(fù)求解,直至收斂.
文獻(xiàn)[30]對數(shù)據(jù)集進(jìn)行了詳細(xì)的研究,本文采用的是由Kinect 攝像頭采集的MSR-Action3D[31]數(shù)據(jù)庫和UTD-MHAD[32]數(shù)據(jù)庫.
MSR-Action3D (MSR)數(shù)據(jù)庫由10 個人20個動作重復(fù) 2~3 次,共計557 個深度圖序列,涉及人的全身動作.詳情如表1 所示.
表1 MSR 數(shù)據(jù)庫中的人體行為Table 1 Human actions in MSR
UTD-MHAD (UTD)數(shù)據(jù)庫由8 個人(4男4 女)27 個動作重復(fù)4 次,共計861 個深度圖序列.詳情如表2 所示.
表2 UTD 數(shù)據(jù)庫中的人體行為Table 2 Human actions in UTD
為了驗證時序信息在人體行為中的重要性,本文將與原深度圖序列順序相反的行為稱為反序行為.本文中的反序行為是通過將正序行為的深度圖序列進(jìn)行反序排列操作得到新數(shù)據(jù)庫D1,D2,其中D1 為MSR 數(shù)據(jù)庫及MSR 反序數(shù)據(jù)庫,D2 為UTD 數(shù)據(jù)庫及UTD 反序數(shù)據(jù)庫.D1 正反高拋動作如圖4 所示.
圖4 正反高拋動作Fig.4 Positive and negative high throwing action
本文采用10×10 像素的圖像單元分割圖像,每2×2 個圖像單元構(gòu)成一個圖像塊,以10 像素為步長滑動圖像塊來提取圖像的方向梯度直方圖(Histogram of oriented gradient,HOG)[26]特征.采用采樣半徑為2,采樣點數(shù)為8的參數(shù)設(shè)置來提取圖像局部二值模式 (Local binary patterns,LBP)[33]特征.尺寸歸一化后DMMf大小為320×240,DMMs大小為500×240,DMMt大小為320×500,所以DMM-HOG的特征數(shù)量為120 924.DMMLBP的特征數(shù)量為276 800.同樣尺寸歸一化后DSTMw大小為320×60,DSTMh大小為240×60,DSTMd大小為500×60,所以DMM-HOG的特征數(shù)量為18 540.DMM-LBP的特征數(shù)量為63 600.
實驗中分為兩個設(shè)置.設(shè)置1 在MSR 數(shù)據(jù)庫上將20 個行為分為3 組(AS1、AS2、AS3)[33],行為分布情況如表1,其中AS1 和AS2 組內(nèi)相似度較高,AS3 組內(nèi)相似度較低.如表3 所示.
表3 MSR-Action3D 數(shù)據(jù)分組Table 3 MSR-Action3D data grouping
設(shè)置2 在MSR 數(shù)據(jù)庫和UTD 數(shù)據(jù)庫上選取全部的動作.
在設(shè)置1 和設(shè)置2 中可采用4 種測試方法.測試1:1/3 作為訓(xùn)練數(shù)據(jù),2/3 作為測試數(shù)據(jù);測試2[12]:1/2 作為訓(xùn)練數(shù)據(jù),1/2 作為測試數(shù)據(jù);測試3:2/3 作為訓(xùn)練數(shù)據(jù),1/3 作為測試數(shù)據(jù);測試4:采用5 折交叉驗證
在本文提出的人體識別的模型中,首先要確定參數(shù)λ1,λ2,λ3的值.在進(jìn)行子空間學(xué)習(xí)的時候,參數(shù)對于結(jié)果有著巨大的影響,需要優(yōu)先估計最優(yōu)的參數(shù).通過選擇不同的參數(shù),并以識別率作為評判標(biāo)準(zhǔn).識別率=預(yù)測正確測試樣本數(shù)/總測試樣本數(shù).通過采用設(shè)置1 測試1的方法和HOG 特征進(jìn)行實驗.根據(jù)式(20)和式(21)分別可以得到λ2=1/13 847,λ3=1/19.根據(jù)圖5 可知,當(dāng)λ1=20時,本文算法具有較高的人體識別性能.
圖5 參數(shù)選擇Fig.5 The parameter of selection
4.4.1 分類器選擇
對同一種特征圖而言,采用不同的分類器識別效果會有較大的差異.為了選擇對特征圖識別效果較好的分類器,本實驗通過比較DSTM 在不同的分類器的識別效果,最終以識別率作為標(biāo)準(zhǔn),采用設(shè)置1 測試3的方法,如圖6 所示.
從圖6 中可以發(fā)現(xiàn)HOG 特征采用了不同的分類器,得到的識別率差異較大,不同特征圖采用同一分類器,與同一特征圖采用不同分類器,支持向量機(jī)(Support vector machine,SVM)的識別效果較好,下面實驗均采用SVM 作為分類器.
圖6 DSTM 在不同分類器識別效果Fig.6 DSTM recognition of different classifiers
4.4.2 特征選擇
為了篩出空間信息和時序信息的特征圖,采用設(shè)置1,在MSR 數(shù)據(jù)庫上使用測試1、測試2、測試4的方法進(jìn)行實驗,并且對3 組實驗結(jié)果設(shè)置了平均值;采用設(shè)置2,在UTD 數(shù)據(jù)庫上使用測試1、測試2、測試3的方法進(jìn)行實驗.通過個體識別率和平均識別率來篩出空間信息和時序信息的特征圖.
表4 和表5 使用HOG 和LBP 兩個特征圖序列.由表4 中的單個識別率或平均識別率以及表5中所有動作的識別率可以得出結(jié)論:在同一特征圖中,HOG 特征較LBP 特征有著更高的識別率.LBP 特征反映的是像素周圍區(qū)域的紋理信息;HOG 特征能捕獲輪廓、弱化光照,對于深度圖有著更佳的表現(xiàn),有著更好的識別效果.就本文實驗而言.HOG特征更適合于本實驗.
在表4 和表5 中選擇同為HOG 特征的特征圖,從表中的識別率可以得出,DMM 和DSTM 與MEI 和MHI 相比有更高的識別率.主要原因是MEI 將深度幀二值化后進(jìn)行疊加,掩蓋了時序圖中每張圖的輪廓信息,丟失了時序圖自身的深度信息,但反映出一定的輪廓信息,保留了一定的空間信息;MHI 雖然通過圖像的亮度衰減,增加了一部分時序信息,但由于人為干預(yù)圖像的亮度,導(dǎo)致了圖像自身的深度信息的丟失.
表4 MSR 數(shù)據(jù)庫上不同特征的識別率(%)Table 4 Different of feature action recognition on MSR (%)
表5 UTD 數(shù)據(jù)庫上不同特征的識別率(%)Table 5 Different of feature action recognition on UTD (%)
使用DSTM 和DMM的優(yōu)勢主要有以下幾點:1)DMM 是將深度幀投影到笛卡爾直角坐標(biāo)平面上,生成主視圖、俯視圖、側(cè)視圖三個2 維地圖,在此基礎(chǔ)上差分堆疊整個深度序列動作能量圖.相較于MEI,DMM 充分地使用了時序圖的深度信息,豐富了特征中的空間信息,很大程度上保留了輪廓信息,并且從三個方向上可以很明顯地看出行為動作,充分展現(xiàn)了空間信息.2)DSTM 是將深度幀投影到笛卡爾直角坐標(biāo)平面上,生成主視圖、俯視圖、側(cè)視圖三個2 維地圖,提取任意兩個2 維地圖投影到3 個正交軸上獲取三軸坐標(biāo)投影,將獲得的坐標(biāo)投影二值化后按時間順序進(jìn)行拼接.DSTM 將深度幀的時序信息很好地保留了下來,相較于MHI 有了很大程度上的改善.DSTM 較好地保存了時序信息.
時序信息在行為識別中有著重要的作用.對比DMM,DSTM 蘊含著重要的時序信息.本文在D1和D2 數(shù)據(jù)庫上采用設(shè)置2,使用測試1的方法
通過對比表6的識別率和表7的時間復(fù)雜度,在D1 與D2 數(shù)據(jù)庫的實驗證明,DMM 由于未含有時序信息,與DSTM 識別率差異較大.另外DMM相較于DSTM 時間復(fù)雜度較高,DSTM的時序信息在行為識別中起著重要的作用.
表6 DMM 和DSTM 對比實驗結(jié)果(%)Table 6 Experimental results of DMM and DSTM (%)
表7 DMM 和DSTM 平均處理時間(s)Table 7 Average processing time of DMM and DSTM (s)
4.4.3 特征選擇實驗結(jié)果
本文選取的深度運動圖代表的空間信息與深度時空圖代表的特征圖使用多聚點子空間學(xué)習(xí)的算法(簡稱本文方法).為了表征本文方法對于單一特征有著更高的識別率以及本文方法對于融合方法同樣有著更高的識別率,將本文方法與當(dāng)前主流單一算法和融合算法進(jìn)行比較.在MSD-Action3D 上采用設(shè)置2 測試2、設(shè)置2 測試4的方法;在UTD-MHAD上采用設(shè)置2 測試4的方法.
表8 均采用文獻(xiàn)[12]方法中的實驗設(shè)置,其中文獻(xiàn)[34-40]方法使用了深度學(xué)習(xí)的模型框架.識別率最高為91.45.本文的識別率達(dá)到了90.32%,接近文獻(xiàn)[34]中的最優(yōu)結(jié)果,主要原因是:本文提出的DSTM 算法可以將深度幀的時序信息很好地保留下來,獲得的特征信息更加豐富和完善.多聚點子空間的方法構(gòu)建了多個投影聚點并使用了模態(tài)內(nèi)、模態(tài)間數(shù)據(jù)相似度關(guān)系,使得子空間樣本向多個投影目標(biāo)點附近的超平面聚攏,有效增大了子空間樣本之間的距離,所以在行為識別中表現(xiàn)出了較為優(yōu)越的性能.表9 和表10 在多聚點子空間學(xué)習(xí)加單個特征圖的識別率有一定的提升,但相較于融合DSTM 特征和DMM 特征圖略有不足.本文在采用不同的融合方法時,識別率也有一定提升.本文方法的識別率在MSR 數(shù)據(jù)庫達(dá)到98.21%和UTD數(shù)據(jù)庫達(dá)到98.84%.為了更深層次的了解本文方法的識別效果,本文給出了本文方法的每個動作識別效果的混淆矩陣.
表8 M SR-Action3D1 上的實驗結(jié)果Table 8 Experimental results onMSR-Action3D1
表9 M SR-Action3D2 上的實驗結(jié)果Table 9 Experimental results onMSR-Action3D2
表10 UTD-MHAD 在設(shè)置2 測試4 上的實驗結(jié)果Table 10 Experimental results on UTD-MHAD
本文通過融合DMM的空間信息和DSTM的時序信息的兩種特征圖后,得到空間時序特征.多聚點子空間學(xué)習(xí)是通過為各類別樣本構(gòu)建了多個投影聚點.圖7(a)和圖7(b)為MSR的混淆矩陣.其中,MSR-Action3D1采用設(shè)置2 測試2;MSR-Action3D2采用設(shè)置2 測試4.從中可以看出整體識別率,圖中顯示本文方法將畫叉識別成畫圈,將發(fā)網(wǎng)球識別成了畫勾.兩類動作差異性小,因此較容易出錯.圖7 (c)為UTD的混淆矩陣,圖中顯示本文方法將慢跑變成走路.出現(xiàn)錯誤原因是動作行為軌跡相似性較大.
圖7 混淆矩陣Fig.7 Confusion matrix
針對現(xiàn)有的深度圖序列特征圖冗余過多、時序和空間信息缺失等問題,本文提出一種新的深度序列表示方式DSTM 和多聚點子空間學(xué)習(xí),并在此基礎(chǔ)上進(jìn)行了人體行為識別研究.深度幀投影二值化后按時間順序進(jìn)行拼接生成DSTM,對每張DSTM 提取HOG 特征以獲得時序信息.對DMM提取HOG 特征以獲得空間信息.多聚點子空間學(xué)習(xí),在約束平衡模態(tài)間樣本關(guān)系的同時,構(gòu)建同類別各樣本的多個副投影聚點,疏遠(yuǎn)不同類別樣本的類間距離,降低了投影目標(biāo)區(qū)域維度,最后送入分類器進(jìn)行人體行為識別.本實驗表明本文提出的DSTM 和多聚點子空間學(xué)習(xí)的方法能夠減少深度序列的冗余,保留豐富的空間信息和良好的時序信息,有效地提高行為識別的準(zhǔn)確性.