胡 斐 羅立民 劉 佳 左 欣
(1東南大學(xué)計算機(jī)科學(xué)與工程學(xué)院,南京 210096)
(2武警江西省總隊司令部,南昌 330025)
(3上海交通大學(xué)圖像處理與模式識別研究所,上海 200240)
人體動作識別在智能視頻監(jiān)控、視頻注解、虛擬現(xiàn)實(shí)、人機(jī)交互等領(lǐng)域中具有廣闊的應(yīng)用前景,已經(jīng)成為計算機(jī)視覺和模式識別領(lǐng)域的研究熱點(diǎn)[1-3].目前,基于視覺的人體行為分析可分為2個層次的任務(wù):①底層的特征提取和表示;②高層的行為識別和建模.從圖像序列中提取出能夠合理表示人體運(yùn)動的特征,對行為識別和理解至關(guān)重要.
傳統(tǒng)的動作表示方法,如基于邊緣或形狀的靜態(tài)特征、基于光流或運(yùn)動信息的動態(tài)特征以及基于時空體等方法,其準(zhǔn)確性往往受到跟蹤和姿態(tài)估計精度的影響,在運(yùn)動物體較多或背景比較復(fù)雜的場景下,該類特征的魯棒性面臨挑戰(zhàn).最近,很多研究者提出了一些新的基于時空興趣點(diǎn)(角點(diǎn))的動作表示方法.文獻(xiàn)[1]將Harris角點(diǎn)檢測思想擴(kuò)展到時空域,得到一種時空興趣點(diǎn)(space-time interest point)的檢測方法并用興趣點(diǎn)構(gòu)成的點(diǎn)集來表示動作.文獻(xiàn)[2]提出一種基于 Gabor濾波器的時空興趣點(diǎn)檢測算法.這些算法克服了跟蹤以及姿態(tài)估計精度的影響,能有效地反映出動作的運(yùn)動信息以及外觀信息.同時,概率主題模型近年來在計算機(jī)視覺領(lǐng)域得到了廣泛應(yīng)用,該模型源自文本處理領(lǐng)域,也可以應(yīng)用于圖像以及其他多維數(shù)據(jù)的識別、分類和挖掘等.文獻(xiàn)[3]提出利用時空興趣點(diǎn)以及概率主題模型LDA(latent Dirichlet allocation)進(jìn)行動作識別,文獻(xiàn)[4]則利用光流特征和改進(jìn)的LDA進(jìn)行動作識別.
本文提出了一種新的動作識別算法,在提取視頻時空興趣點(diǎn)的基礎(chǔ)上,利用3D-SIFT描述算子建立興趣點(diǎn)的樣本特征集合,采用k-means的方法生成碼本,利用概率主題模型LDA將每個興趣點(diǎn)劃分為不同的動作類別,從而實(shí)現(xiàn)了較復(fù)雜情況下的動作識別.
本文采用基于Gabor濾波器和高斯濾波器相結(jié)合的時空興趣點(diǎn)檢測方法[2].首先使用高斯濾波器在空間域上對圖像進(jìn)行濾波,然后使用一維Gabor濾波器在時間域上對圖像進(jìn)行濾波,得到響應(yīng)函數(shù):
圖1 Weizmann數(shù)據(jù)庫上興趣點(diǎn)檢測結(jié)果圖
3D-SIFT描述算子是由Scovanner等[6]提出的一種三維時空梯度方向直方圖,可以看作是經(jīng)典的尺度不變特征變換描述算子(2D-SIFT)從靜態(tài)圖像到視頻序列的擴(kuò)展,能夠更好地減少縮放、旋轉(zhuǎn)等仿射變換以及噪聲帶來的影響.本文采用3DSIFT的特征描述方式準(zhǔn)確地捕捉到視頻數(shù)據(jù)的時空特性本質(zhì).
首先,通過增加時間軸上的梯度信息將SIFT描述算子從二維擴(kuò)展到三維,每一個像素點(diǎn)的梯度定義如下:
式中,Lx,Ly和Lt分別為x方向、y方向和時間軸t方向上的一階導(dǎo)數(shù);m3D為像素點(diǎn)在(x,y,t)方向上的時空梯度.每一個像素點(diǎn)對應(yīng)一個(θ,φ),其中θ∈(0,2π),φ∈( -π/2,π/2).(θ,φ)描述了空間和時間上的梯度方向.對時空體中的所有像素,統(tǒng)計θ和φ,然后利用這些像素點(diǎn)的(θ,φ)就可描述這個興趣點(diǎn)的特征.具體方法如下:將θ分為8個等級,φ分為4個等級,每一個像素點(diǎn)對應(yīng)一個32維的直方圖向量.本文使用2×2×2時空體來描述這個時空興趣點(diǎn),因此該興趣點(diǎn)可得到一個1×256維的特征向量.
由于人體的外觀、行為方式以及視頻拍攝角度等存在各種差異,因此同一種動作在不同視頻中產(chǎn)生的興趣點(diǎn)不盡相同,但針對同一種動作,這些興趣點(diǎn)的特征具有相似性.因此從興趣點(diǎn)的特征集合中,提取更高層、能夠代表相同動作的特征模式,將有助于動作識別.
本文引入文本分類中“詞袋”(bag of words)的思想,即在得到時空興趣點(diǎn)位置的基礎(chǔ)上,采用kmeans聚類算法對訓(xùn)練數(shù)據(jù)集中提取出的特征集合進(jìn)行聚類,生成碼本.所有時空單詞組成的集合w={w1,w2,…,wN}稱為時空碼本,其中 N 為聚類中心的個數(shù).對于不同的動作視頻,視頻中的每個興趣點(diǎn)通過聚類被劃分為不同類別的單詞,這樣,一段視頻可以看成是由一些單詞(興趣點(diǎn))構(gòu)成的一篇文檔,在后續(xù)的動作識別過程中通過計算興趣點(diǎn)的特征并建立概率主題模型可實(shí)現(xiàn)對視頻的分類.
概率主題模型來源于文本處理領(lǐng)域,認(rèn)為一個文檔是由一系列的主題組成的,而每個主題又是由一系列的關(guān)鍵詞組成.區(qū)別于傳統(tǒng)的詞袋模型,主題模型強(qiáng)調(diào)文檔是由文檔-主題-關(guān)鍵詞3層關(guān)系組成.文檔不是僅由單個主題組成,而是由多個主題組成.同樣,在視頻的人體動作識別領(lǐng)域,視頻片段可以看作是由不同的動作類別(主題)構(gòu)成的文檔,每個動作類別由一系列表示這個動作類別的興趣點(diǎn)(關(guān)鍵詞)所組成.
本文采用目前被廣泛使用的概率主題模型LDA[7],其文檔被表示為隱藏主題(latent topics)的隨機(jī)混合,如圖2(a)所示.對于視頻集合D中的任意一段視頻 w={w1,w2,…,wN},LDA 模型使用如下方法生成:
圖2 LDA模型
①選擇N,這里N為視頻的長度(包含單詞的個數(shù)),且 N ~Poisson(ξ).
②選擇θ,其中θ表示當(dāng)前視頻片段真正的主題混合成分,且θ~Dir(α).
③對N個單詞中的每一個單詞wn,
a) 選擇一個主題 zn,zn~Multinomial(θ);
b)選擇一個單詞wn,其中wn來源于一個在zn,β 條件下的多項分布.其中,βij=p,假定p的Dirichlet分布和主題zn的維數(shù)都為k.
④在給定α,β的情況下,主題的混合參數(shù)θ,N個主題的變量z,以及N個單詞的一個聯(lián)合分布為
在LDA模型中,主要問題就是給定w,α,β的情況下,求解θ,z的后驗分布:
直接計算這個分布很困難,首先使用文獻(xiàn)[7]中提出的變分EM算法計算,具體過程如下:
①首先將原始的LDA模型進(jìn)行擴(kuò)展,如圖2(b)所示.
假設(shè)每一行都是獨(dú)立采樣于一個可交換的Dirichlet分布,選擇一個可以分離的分布:
最小化q和p之間的KL-divergence,可得
不斷迭代可得到變分參數(shù)(γ*,φ*),然后從Dir(γ*(w))中選取一個樣本θ,θ中的每一個維度表示該維對應(yīng)的動作在這個視頻片段中所占的比例.真正的混合比例θ*可從Dir(γ*(w))中產(chǎn)生的樣本均值得到.參數(shù)φn是的近似.由于zn服從Multinomial(θ*),可得到一段視頻所屬類別的概率分布為
當(dāng)視頻中只有一個動作時,可采用式(8)~(10)計算整個視頻片段中的動作類別.通常,一段視頻中的情況比較復(fù)雜,例如多個人做不同的動作或單個人做一系列不同的動作.在這種情況下,本文提出利用得到的φn(即為每一個興趣點(diǎn)表示的單詞都分配不同的動作類別,這樣的表示使得對整個視頻的整體分類轉(zhuǎn)化為對當(dāng)前幀上興趣點(diǎn)代表的單詞的分類.然后判斷當(dāng)前幀上不同類別興趣點(diǎn)(單詞)的個數(shù),當(dāng)某一類別的興趣點(diǎn)的數(shù)量大于預(yù)設(shè)的閾值時(本文設(shè)置該閾值為5),即表明當(dāng)前的視頻中存在該類動作.這樣的分類方法能夠?qū)Ω鼜?fù)雜的視頻進(jìn)行處理,后面的實(shí)驗驗證了這種分類方法的有效性.圖3為本文方法的實(shí)現(xiàn)流程圖.
圖3 本文方法的實(shí)現(xiàn)流程圖
對3 個行為數(shù)據(jù)庫 Weizmann[5],KTH[8]以及作者錄制的視頻數(shù)據(jù)庫分別進(jìn)行了測試.Weizmann數(shù)據(jù)庫包含10種動作(walk,run,jump,gallop sideways,bend,wave1,wave2,jump in place,jumping jack,skip),每種動作由9個人完成.背景和視角均不變,前景的輪廓信息也包含在數(shù)據(jù)庫中.KTH數(shù)據(jù)庫包含6種動作(walking,jogging,running,boxing,handwaving,handclapping),由25個不同的人構(gòu)成,每個人在4種場景(戶外、戶外鏡頭變焦、戶外穿著不同的衣服,以及室內(nèi))下進(jìn)行這6種動作.該數(shù)據(jù)庫共計600個視頻,視頻空間分辨率為160×120像素,幀速率為25 frame/s,平均視頻長度大約4 s.作者錄制的動作數(shù)據(jù)庫包含由6個人完成的11個動作,其中包括了在一個場景中有多個動作的情況.圖4為這3個數(shù)據(jù)庫的一些樣本圖像.
圖4 數(shù)據(jù)庫例圖
首先針對每段視頻中僅包含一個人的情況,對不同的數(shù)據(jù)庫分別進(jìn)行訓(xùn)練,采用留一法 (leave one out)來驗證實(shí)驗效果.訓(xùn)練過程中,KTH數(shù)據(jù)庫以σ=2,τ=2.5為參數(shù)進(jìn)行興趣點(diǎn)檢測,Weizmann數(shù)據(jù)庫以及本文的數(shù)據(jù)庫采用σ=2,τ=2為參數(shù)進(jìn)行興趣點(diǎn)檢測.從視頻中抽取出興趣點(diǎn)后,采用3D-SIFT特征描述方式建立興趣點(diǎn)樣本特征集合,運(yùn)用k-means聚類算法對樣本特征集合進(jìn)行聚類來建立樣本空間的時空碼本,然后利用LDA模型進(jìn)行學(xué)習(xí)訓(xùn)練.圖5為在這3個數(shù)據(jù)庫上的識別混淆矩陣,碼本大小均為1 000.
圖5 識別混淆矩陣
由于k-means聚類算法的初始類別隨機(jī)產(chǎn)生,且聚類維數(shù)的選取會對識別性能產(chǎn)生影響,本文給出了在碼本大小分別為100,500,1 000,1 500,2 000及2 500時對識別率的影響,如圖6所示.圖6表明,聚類中碼本的大小對本文方法的識別率影響較小.為了進(jìn)一步進(jìn)行對比,表1給出了在KTH和Weizmann數(shù)據(jù)庫上本文方法與其他方法的識別率比較結(jié)果.由表1可看出,本文算法的識別率已達(dá)到或超過這些算法.
圖6 不同碼本大小下的平均識別率比較
表1 各種方法的識別率結(jié)果對比 %
為了進(jìn)一步驗證本文的算法,在2種更加復(fù)雜的情況下進(jìn)行了測試,如圖7所示.其中,圖7(a)給出的3段視頻中,每一段視頻都有多個人執(zhí)行不同的動作.圖中的虛線框表示該類動作發(fā)生的位置.圖7(b)給出的視頻是一個人從走到彎腰,再到行走的過程,這個過程包含3個動作.從圖中可看出,由于采用了概率主題模型,對每一個時空興趣點(diǎn)通過推斷其主題(動作類別),從而實(shí)現(xiàn)了對整個視頻中復(fù)雜動作的分類.由此可見,本文提出的方法不僅能識別視頻中的單個動作,而且當(dāng)視頻中存在多個人完成不同的動作,或是同一個人完成不同的動作等較復(fù)雜情況時,也能有效地識別.實(shí)驗也同時表明抽取興趣點(diǎn)的時空特征對動作進(jìn)行表征,能夠更好地降低光照變化以及施動者的穿著和動作差異等環(huán)境因素造成的影響.
圖7 2種更加復(fù)雜情況下的測試
本文提出了一種新的動作識別算法,在提取視頻中時空興趣點(diǎn)的基礎(chǔ)上,利用3D-SIFT描述算子建立興趣點(diǎn)的樣本特征集合,然后運(yùn)用k-means方法生成碼本,并利用概率主題模型LDA對視頻進(jìn)行分類.主題模型將每個興趣點(diǎn)劃分為不同的動作類別,因此該方法不僅能夠處理一段視頻中包含一個動作的簡單情況,同時也可以處理視頻中包含多個動作的情況.實(shí)驗結(jié)果驗證了該方法的有效性.
References)
[1] Laptev I.On space-time interest points[J].International Journal of Computer Vision,2005,64(2/3):107-123.
[2] Dollar P,Rabaud V,Cottrell G,et al.Behavior recognition via sparse spatio-temporal features[C]//Proceedings of 2nd Joint IEEE International Workshop on VSPETS.Beijing,China,2005:65-72.
[3] Niebles J,Wang Hongcheng,Li Feifei.Unsupervised learning of human action categories using spatial-temporal words[J].International Journal of Computer Vision,2008,79(3):299-318.
[4] Wang Yang,Mori G.Human action recognition by semilatent topic models[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(10):1762-1774.
[5]Blank M,Gorelick L,Shechtman E,et al.Actions as space-time shapes[C]//Proceedings of the 10th IEEE International Conference on Computer Vision.Beijing,China,2005,2:1395-1402.
[6] Scovanner P,Ali S,Shah M.A 3-dimensional shift descriptor and its application to action recognition[C]//Proceedings of the 15th ACM International Conference on Multimedia.Augsburg,Bavaria,Germany,2007:357-360.
[7]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,3(4/5):993-1022.
[8] Schuldt C,Laptev I,Caputo B.Recognizing human actions:a local SVM approach[C]//Proceedings of the 17th International Conference on Pattern Recognition.Cambridge,UK,2004,3:32-36.
[9] Dhillon P S,Nowozin S,Lampert C H.Combining appearance and motion for human action classification in videos[C]//2009 IEEE Conference on Computer Vision andPattern Recognition Workshops. Miami, FL,USA,2009:22-29.
[10] Liu J Q,Ali S,Shah M.Recognizing human actions using multiple features[C]//2008 IEEE Conference on Computer Vision and Pattern Recognition.Anchorage,AK,USA,2008:4587527.