成 立,梅 雪,張玉燕,馬士林,袁宇浩,施曉東
(1.南京工業(yè)大學(xué) 自動(dòng)化與電氣工程學(xué)院,江蘇 南京210000;2.哈爾濱工業(yè)大學(xué) 電氣工程學(xué)院,黑龍江 哈爾濱150001)
目前在線人體行為識(shí)別技術(shù)[1]在一些方面已經(jīng)取得了很大的進(jìn)展,如文獻(xiàn) [2]利用移動(dòng)設(shè)備的加速度計(jì)進(jìn)行在線動(dòng)作識(shí)別,文獻(xiàn) [3]通過(guò)人體的運(yùn)動(dòng)數(shù)據(jù)和相關(guān)地理位置信息特征進(jìn)行在線行為識(shí)別,文獻(xiàn) [4]利用加速度數(shù)據(jù)和SVM 進(jìn)行在線行為分類。人體行為識(shí)別研究的關(guān)鍵問(wèn)題主要包括:①人體行為特征的選擇。人們對(duì)人體運(yùn)動(dòng)特征描述提出了很多種方法,如光流法、輪廓法[5]、路徑法和形狀法[6]。②識(shí)別模型的構(gòu)建。人體行為識(shí)別模型主要分為兩類:基于產(chǎn)生式模型和基于判別式模型[7]。目前,HMM、CRF、HCRF[8]在人體行為識(shí)別中的運(yùn)用已經(jīng)很成熟。本文針對(duì)視頻監(jiān)控系統(tǒng)行為智能分析等需要,應(yīng)用具有不變的特征和潛動(dòng)態(tài)條件隨機(jī)模型 (latent-dynamic conditional random,LDCRF),探討了基于判別式模型的在線人體行為識(shí)別方法。通過(guò)星形距離來(lái)描述人體各姿態(tài)特征,利用LDCRF模型對(duì)行為數(shù)據(jù)進(jìn)行建模、識(shí)別。
視頻監(jiān)控中的人體運(yùn)動(dòng)是非剛性的運(yùn)動(dòng),人體運(yùn)動(dòng)姿態(tài)的空間尺度會(huì)隨著時(shí)間尺度的變化而變化。因此選擇合適的方法將具體的人體運(yùn)動(dòng)信息通過(guò)抽象數(shù)學(xué)參數(shù)表示出來(lái),并保留人體動(dòng)作信息,對(duì)接下來(lái)的人體行為識(shí)別十分重要。本文通過(guò)提取視頻中的人體運(yùn)動(dòng)輪廓,計(jì)算輪廓質(zhì)心到各輪廓采樣點(diǎn)的星形距離,并對(duì)特征數(shù)據(jù)進(jìn)行歸一化和小波降維處理,從而得到用于識(shí)別的有效特征序列集合。
利用背景減除法提取運(yùn)動(dòng)目標(biāo)。背景減除法是一種有效的運(yùn)動(dòng)目標(biāo)檢測(cè)算法,利用背景的參數(shù)模型來(lái)近似背景圖像的像素值,將當(dāng)前幀與背景圖像進(jìn)行差分比較,對(duì)得到的前景點(diǎn)和背景點(diǎn)進(jìn)行像素二值化,分割出運(yùn)動(dòng)目標(biāo),從而得到如圖1所示的人體運(yùn)動(dòng)輪廓。
圖1 人體運(yùn)動(dòng)輪廓
輪廓特征是人體行為特征的一個(gè)重要表現(xiàn),運(yùn)動(dòng)人體的特征提取是將視頻序列中具體的人體動(dòng)作用數(shù)學(xué)參數(shù)表示。對(duì)于運(yùn)動(dòng)特征的提取主要分為基于模型和基于非模型兩種方法。本文在得到的人體輪廓上求取輪廓質(zhì)心(xc,yc),并設(shè)置輪廓采樣點(diǎn),在人體輪廓上進(jìn)行等間隔采樣。從人體輪廓左上角的采樣點(diǎn)順時(shí)針計(jì)算輪廓采樣點(diǎn)(xi,yi)到質(zhì)心(xc,yc)的距離dci,從而得到N 維特征向量d =[dc1,dc2,…,dcN],即如圖2所示的星形距離特征。
求取輪廓質(zhì)心和輪廓質(zhì)心到輪廓采樣點(diǎn)的距離的公式如下
由于得到的N 維特征向量的空間尺度很大,為了確保其具有不變性,使用式 (3)對(duì)其進(jìn)行數(shù)據(jù)歸一化處理,以消除空間尺度對(duì)不變性的影響
其中,dmax=max{dc1,dc2,…dcN}。
圖2 質(zhì)心到輪廓采樣點(diǎn)的距離
小波變換的基本思想是用一組小波函數(shù)或者基函數(shù)表示一個(gè)函數(shù)或者信號(hào)。對(duì)于離散信號(hào)f(k),離散小波變換的定義如下
式中:m,n∈Z,Ψm,n(k)為離散小波函數(shù),滿足
式中:Ψ(k)——滿足小波變換約束條件的小波基函數(shù);a0——尺度參數(shù);b0——平移參數(shù)。小波變換通過(guò)平移變換母小波或者基小波獲得信號(hào)的時(shí)間信息,通過(guò)縮放小波的寬度或者尺度獲得信號(hào)的頻率特性。人體運(yùn)動(dòng)特征數(shù)據(jù)的維數(shù)很高,高維數(shù)據(jù)中包含了大量的冗余信息并且隱藏了特征的相關(guān)性,特征數(shù)據(jù)的維數(shù)過(guò)高也會(huì)增加計(jì)算的復(fù)雜度,并且對(duì)識(shí)別結(jié)果產(chǎn)生負(fù)面的影響,因此在進(jìn)行識(shí)別前,需要對(duì)高維特征數(shù)據(jù)進(jìn)行降維處理。數(shù)據(jù)降維的基本原理是將樣本點(diǎn)從輸入空間通過(guò)線性或非線性變換映射到一個(gè)低維空間,從而獲得一個(gè)關(guān)于原數(shù)據(jù)集緊致的低維表示。本文通過(guò)小波變換對(duì)高維特征數(shù)據(jù)進(jìn)行降維,小波變換降維的目的是盡可能多的去除數(shù)據(jù)中的噪聲和冗余,使數(shù)據(jù)盡可能地簡(jiǎn)化,使相關(guān)的變量分離開(kāi),從而得到數(shù)據(jù)中最為重要的信息。
圖3中,xj表示第j幀視頻的人體動(dòng)作觀察序列,hj是xj相對(duì)應(yīng)的隱藏狀態(tài),yj是xj的動(dòng)作類標(biāo)簽。視頻的觀察序列是給定的,目標(biāo)是預(yù)測(cè)每幀動(dòng)作的類標(biāo)簽。通過(guò)得到觀察序列X ={x1,x2,…,xm}和標(biāo)簽序列Y ={y1,y2,…,ym}之間的映射關(guān)系,從而進(jìn)行行為識(shí)別。根據(jù)上述定義,定義條件概率模型為
圖3 3種概率圖模型
式中:θ——模型的參數(shù)。
模型建立時(shí),假設(shè)每個(gè)類標(biāo)簽相關(guān)的隱藏狀態(tài)集彼此互不相交,這樣可以降低模型訓(xùn)練和推理的復(fù)雜性。每個(gè)hj是類標(biāo)簽yj的合適的隱藏狀態(tài)集Hyj中的一個(gè)成員,由于任意hjHyj,根據(jù)定義有p(y|h,x,θ)=0,則模型可以表示為
其中分布函數(shù)Z保障模型具有歸一化的概率,其定義如下
ψk定義如下
其中,fk(hj-1,hj,x,j)是特征函數(shù),表示一個(gè)是狀態(tài)函數(shù)sk(hj,x,j),或者轉(zhuǎn)移函數(shù)tk(hj-1,hj,x,j)。在 型中,狀態(tài)函數(shù)sk依賴于一個(gè)單獨(dú)的隱藏變量,而轉(zhuǎn)移函數(shù)tk則依賴一對(duì)隱藏變量。其中轉(zhuǎn)移函數(shù)表示為
從式(10)可以得出,如果與θk相關(guān)的隱狀態(tài)轉(zhuǎn)移函數(shù)作用于相同的隱藏狀態(tài)子集中,則可以表示出人體動(dòng)作的內(nèi)部動(dòng)態(tài)特征;如果與θk相關(guān)的隱狀態(tài)轉(zhuǎn)移函數(shù)作用于不同的隱藏狀態(tài)子集中,則可以表示出人體動(dòng)作的外在動(dòng)態(tài)特征,并且與θk相關(guān)的轉(zhuǎn)移函數(shù)模型的內(nèi)部和外部都是動(dòng)態(tài)的。
訓(xùn)練集由n個(gè)標(biāo)簽序列(xi,yi)組成,其中i=1……n。通過(guò)下面的目標(biāo)函數(shù)學(xué)習(xí)參數(shù)θ*
使用梯度法計(jì)算參數(shù)θ*=arg maxθL(θ)最佳值。由于通過(guò)梯度為零來(lái)求解參數(shù)θ*并不一定總是得到一個(gè)近似解,因此需要利用一些迭代計(jì)算來(lái)選擇參數(shù)。在下文的實(shí)驗(yàn)中,我們使用BFGS優(yōu)化技術(shù)來(lái)執(zhí)行梯度法,使用動(dòng)作序列的標(biāo)簽對(duì)模型進(jìn)行訓(xùn)練,從而獲得模型的參數(shù)。
在人體動(dòng)作識(shí)別過(guò)程中,給定一個(gè)測(cè)試序列x,估計(jì)最有可能的標(biāo)簽序列y* 的最大化條件模型為
其中,參數(shù)θ* 是從訓(xùn)練集中學(xué)習(xí)得到的?;贚DCRF的行為識(shí)別模型,每幀圖像的人體動(dòng)作分類概率等于邊緣概率p(yi=u|x,θ*),該概率是相關(guān)隱藏狀態(tài)子集的邊緣概率總和
實(shí)驗(yàn)中,使用上述最大邊緣概率方法估計(jì)每幀動(dòng)作序列標(biāo)簽,區(qū)分連續(xù)序列的人體動(dòng)作,進(jìn)行人體行為識(shí)別。
本實(shí)驗(yàn)所用的動(dòng)作數(shù)據(jù)來(lái)自Weizmann動(dòng)作數(shù)據(jù)庫(kù),用于識(shí)別的10 種行為動(dòng)作如圖4 所示,分別為bend,jack,jump,pjump,run,side,skip,walk,wave1,wave2。實(shí)驗(yàn)中,提取每種行為動(dòng)作的前60幀有效運(yùn)動(dòng)數(shù)據(jù),30幀用于訓(xùn)練,30幀用于測(cè)試。因此分別使用30 幀*10 種動(dòng)作=300幀圖片進(jìn)行訓(xùn)練和測(cè)試,其中每幀圖片的特征向量為32維,模型的隱狀態(tài)數(shù)為3個(gè),通過(guò)BFGS迭代方法迭代確定模型的相關(guān)系數(shù)。由于以上動(dòng)作分別由8位測(cè)試者完成,分別對(duì)10個(gè)動(dòng)作進(jìn)行了8組實(shí)驗(yàn),最后取8組實(shí)驗(yàn)數(shù)據(jù)的平均值用于最終的實(shí)驗(yàn)結(jié)果。通過(guò)與CRF,HCRF模型進(jìn)行對(duì)比實(shí)驗(yàn)來(lái)驗(yàn)證本文算法的性能。
表1為10種行為的識(shí)別結(jié)果。從表1 中看出LDCRF模型的識(shí)別率比CRF,HCRF 模型的識(shí)別率要高,體現(xiàn)了LDCRF模型對(duì)人體行為動(dòng)作的分辨能力更強(qiáng),同時(shí)LDCRF識(shí)別結(jié)果的波動(dòng)性也較小,表明LDCRF 模型具有很強(qiáng)的識(shí)別穩(wěn)定性。即使在CRF 和HCRF 對(duì)bend的平均識(shí)別率最高只有70%時(shí),LDCRF仍然有不錯(cuò)的表現(xiàn),體現(xiàn)了LDCRF模型結(jié)合行為動(dòng)作在時(shí)間和空間上的信息建模的優(yōu)勢(shì),說(shuō)明了LDCRF 模型具有一定的抗干擾能力。在對(duì)pjump,run,wave1動(dòng)作識(shí)別時(shí),識(shí)別率達(dá)到了100%,這表明了LDCRF模型不僅對(duì)外在的動(dòng)態(tài)建模,同時(shí)也能捕捉到動(dòng)作的內(nèi)在子結(jié)構(gòu),這就使得識(shí)別的結(jié)果更加準(zhǔn)確。
圖4 10種人體行為動(dòng)作
表1 10種行為識(shí)別結(jié)果/%
為了更好的測(cè)試本文算法,分別讓CRF,HCRF,LDCRF模型在不同窗口下對(duì)同一未分段動(dòng)作序列進(jìn)行識(shí)別,識(shí)別結(jié)果如圖5所示。從整體上來(lái)看LDCRF的識(shí)別正確率遠(yuǎn)比CRF 和HCRF 高,說(shuō)明了LDCRF模型要比CRF 和HCRF更加穩(wěn)定。在相同窗口大小的情況下LDCRF的識(shí)別率遠(yuǎn)比CRF和HCRF要高,這主要是由于LDCRF模型對(duì)動(dòng)作內(nèi)部和外部運(yùn)動(dòng)特征同時(shí)建模,形成了更好的模型識(shí)別能力。雖然在某些區(qū)域下,LDCRF模型的識(shí)別率波動(dòng)較大,其主要原因是由于模型中的隱狀態(tài)屬性和長(zhǎng)遠(yuǎn)相關(guān)性可能帶來(lái)了冗余信息,導(dǎo)致了模型性能下降。隨著窗口的增大,LDCRF模型的平均識(shí)別率也隨之增加,但同時(shí)模型所需的計(jì)算時(shí)間和占用的資源也隨之增大,并且呈線性增加,所以在進(jìn)行窗口尺寸選擇時(shí)要充分考慮這些問(wèn)題,不能為了提高識(shí)別率而一味的增大窗口尺寸。在窗口尺寸很小的情況下,LDCRF的識(shí)別性能也表現(xiàn)的很不錯(cuò),而且在日常的視頻監(jiān)控系統(tǒng)中我們一般都采用低于30幀/s來(lái)進(jìn)行監(jiān)控,這樣為在線行為識(shí)別提供了可能。
圖5 不同窗口下CRF,HCRF,LDCRF的識(shí)別率
本文提出一種基于星形距離的LDCRF模型的人體行為識(shí)別方法,通過(guò)對(duì)人體運(yùn)動(dòng)圖像進(jìn)行輪廓提取,使用輪廓質(zhì)心到輪廓邊緣采樣點(diǎn)的星形距離對(duì)人體運(yùn)動(dòng)特征進(jìn)行描述,對(duì)人體運(yùn)動(dòng)姿態(tài)進(jìn)行LDCRF 建模識(shí)別。通過(guò)對(duì)比CRF、HCRF和LDCRF 對(duì)未分段視頻序列的行為識(shí)別結(jié)果,得出了LDCRF 在行為建模和行為識(shí)別能力上都優(yōu)于CRF和HCRF,并且還具有一定的穩(wěn)定性和抗干擾性。
[1]Moeslund TB,Hilton A,Kruger V.A survey of advances in vision-based human motion capture and analysis[J].Computer Vision and Image Understanding,2006,104 (23):90-126.
[2]Fuentes D,Gonzalez-Abril L,Angulo C,et al.Online motion recognition using an accelerometer in a mobile device[J].Expert Systems with Applications,2012,39 (3):2461-2465.
[3]Zhu Chun,Sheng Weihua.Motion and location based online human daily activity recognition [J].Pervasive and Mobile Computing,2011,7 (2):256-269.
[4]Andrea Mannini,Angelo Maria Sabatini.On-line classification of human activity and estimation of walk-run speed from acceleration data using support vector machines[C]//Engineering in Medicine and Biology Society,Annual International Conference of the IEEE,2011:3302-3305.
[5]Morency Louis-Philippe,Ariadna Quattoni,Trevor Darrell.Latent-dynamic discriminative models for continuous gesture recognition [C]//Computer Vision and Pattern Recognition,2007:1-8.
[6]HUANG Feiyue,XU Guangyou.Viewpoint independent action recognition [J].Journal of Software,2008,19 (7):1623-1634.
[7]HUANG Tianyu,SHI Chongde,LI Fengxia,et al.Discrimi-native random fields for online behavior recognition [J].Chinese Journal of Computers,2009,32 (2):275-281 (in Chinese).[黃天羽,石崇德,李鳳霞,等.一種基于判別隨機(jī)場(chǎng)模型的聯(lián)機(jī)行為識(shí)別方法 [J].計(jì)算機(jī)學(xué)報(bào),2009,32 (2):275-281.]
[8]Zhang Xuetao,Zheng Nanning,Wang Fei,et al.Visual recognition of driver hand-h(huán)eld cell phone use based on hidden CRF[C]//Vehicular Electronics and Safety,2011:248-251.
[9]LI Zheng.Mastering Matlab digital image process and identification [M].Beijing:Posts &Telecom Press,2013 (in Chinese).[李錚.精通Matlab數(shù)字圖像處理與識(shí)別 [M].北京:北京人民郵電出版社,2013.]
[10]Zhang Shengjun,He Xiaohai,Teng Qizhi.Fuzzy-based latent-dynamic conditional random fields for continuous gesture recognition [J].Optical Engineering,2012,51 (6):067202-1-067202-8.
[11]Mahmoud Elmezain,Ayoub Al-Hamadi.LDCRFs-based hand gesture recognition [C]//Systems,Man,and Cybernetics,2012:2670-2675.