石愛(ài)輝,程 勇,曹雪虹,
(1.南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003;2.南京工程學(xué)院 通信工程學(xué)院,江蘇 南京 211167)
人體行為識(shí)別研究在智能監(jiān)控、人機(jī)交互等領(lǐng)域具有廣闊的應(yīng)用前景,因而受到越來(lái)越多的研究者關(guān)注。在實(shí)際應(yīng)用中,由于視頻中人體行為動(dòng)作的多變性、復(fù)雜的背景以及攝像機(jī)的視角變化等因素,人體行為識(shí)別仍是計(jì)算機(jī)視覺(jué)領(lǐng)域的難點(diǎn)和熱點(diǎn)問(wèn)題[1-2]。
近些年涌現(xiàn)了大量的人體行為識(shí)別算法,例如基于模板匹配的方法,其主要思路是將不同種類行為視頻序列提取的特征數(shù)據(jù)建立相應(yīng)的模板,識(shí)別時(shí)將待測(cè)視頻提取的特征數(shù)據(jù)與模板進(jìn)行比較匹配。這種方法雖然計(jì)算量小,實(shí)現(xiàn)相對(duì)簡(jiǎn)單,但需要存儲(chǔ)各種動(dòng)作視頻的特征數(shù)據(jù)作為模板,存儲(chǔ)代價(jià)較大[3]。基于光流的方法,主要利用光流這種基于視頻中幀與幀之間變化的運(yùn)動(dòng)信息。文獻(xiàn)[4]提出在基于視頻的人體行為識(shí)別過(guò)程中,可以將視頻序列中的光流信息轉(zhuǎn)化為更能明顯區(qū)分不同動(dòng)作差異的運(yùn)動(dòng)特征,利用不同層面的運(yùn)動(dòng)特征參數(shù)表示視頻序列中的光流信息?;谂d趣點(diǎn)的方法是利用histogram of oriented gradient (HOG)[5]和histograms optical flow (HOF)[5]等描述子對(duì)視頻中檢測(cè)到的時(shí)空興趣點(diǎn)局部區(qū)域進(jìn)行描述。由于時(shí)空興趣點(diǎn)是對(duì)視頻中運(yùn)動(dòng)顯著區(qū)域的描述,包含了豐富的動(dòng)作細(xì)節(jié)信息,因此具有較好的抗噪聲性能。
文獻(xiàn)[6]提出基于密集軌跡的人體行為識(shí)別方法,即通過(guò)跟蹤光流場(chǎng)密集采樣的特征點(diǎn)來(lái)獲得軌跡,并計(jì)算軌跡位移向量及其軌跡中子時(shí)空塊的梯度方向直方圖(HOG)、光流直方圖(HOF)和運(yùn)動(dòng)邊界直方圖(MBH)[7]作為視頻序列的底層局部特征描述子,然后將這些局部特征描述子作為視覺(jué)詞袋模型(BoVW)[8]的輸入獲得視頻序列的全局表達(dá),最后將這種視頻全局表達(dá)作為支持向量機(jī)的輸入進(jìn)行分類識(shí)別,取得了較好的識(shí)別效果。
在目前的行為識(shí)別算法中,基于視覺(jué)詞袋模型的方法是研究熱點(diǎn)之一。在傳統(tǒng)的視覺(jué)詞袋模型中,對(duì)所有視頻的一部分局部特征描述子進(jìn)行一次k-means聚類而形成的碼本,其視覺(jué)詞匯并不具有很好的代表性。而有效的字典學(xué)習(xí)是視覺(jué)詞袋模型的關(guān)鍵步驟,文中提出對(duì)視頻中提取的局部特征描述子根據(jù)取自不同視頻和不同種類動(dòng)作進(jìn)行兩層k-means聚類,形成更有代表性和區(qū)分度的碼本。特征融合是一種使得特征描述魯棒性更強(qiáng)的有效方法,對(duì)于視頻中提取的兩種局部特征描述子HOG和HOF,在分別形成全局視頻表達(dá)后進(jìn)行融合,融合后的全局視頻表達(dá)特征更具有區(qū)分性和魯棒性。
文中算法框架如圖1所示。首先對(duì)視頻中的時(shí)空興趣點(diǎn)進(jìn)行檢測(cè),然后利用HOG和HOF作為局部特征描述子對(duì)興趣點(diǎn)進(jìn)行描述,接著將HOG和HOF描述子分別作為詞袋模型的輸入,得到兩種不同的視頻級(jí)全局表達(dá),將這兩種視頻級(jí)全局表達(dá)進(jìn)行融合作為最終的視頻級(jí)表達(dá)特征,最后將其代入到支持向量機(jī)中對(duì)行為動(dòng)作進(jìn)行分類。
在人體行為識(shí)別的課題研究中,由于進(jìn)行實(shí)驗(yàn)仿真所使用到的數(shù)據(jù)庫(kù)中的視頻相對(duì)簡(jiǎn)單和穩(wěn)定,因而不需要對(duì)其中的人體進(jìn)行跟蹤和檢測(cè),所以對(duì)視頻提取局部特征是一種常見(jiàn)的方法。
對(duì)于視頻中的時(shí)空興趣點(diǎn),一種具有魯棒性好、適應(yīng)性強(qiáng)的時(shí)空特征被廣泛使用,其通過(guò)Harris角點(diǎn)檢測(cè)[9]擴(kuò)展到包括時(shí)間維的三維空間即Harris-3D獲得。Harris角點(diǎn)檢測(cè)的基本原理是選擇不同尺度的局部空間,計(jì)算其中每個(gè)像素二階矩陣的特征值,對(duì)于某個(gè)像素點(diǎn)的特征值為局部最大值時(shí)被視為角點(diǎn)。對(duì)于包括時(shí)間維的三維空間,其中的尺度空間包括空間尺度和時(shí)間尺度,對(duì)于被認(rèn)為是時(shí)空興趣點(diǎn)的像素點(diǎn)在空間域和時(shí)間域會(huì)同時(shí)有顯著的變化,因此在時(shí)空域上表示一個(gè)圖像序列V(·),利用其與高斯核函數(shù)作卷積獲得其尺度空間表示:
(1)
(2)
參照Harris角點(diǎn)檢測(cè)的像素二階矩陣,在時(shí)空尺度空間的二階矩陣可表示為:
(3)
(4)
(5)
(6)
假設(shè)λ1,λ2,λ3為μ矩陣的特征值,則時(shí)空興趣點(diǎn)由推廣的Harris響應(yīng)函數(shù)的局部最大值處定義:
H=det(μ)-ktrace3(μ)=λ1λ2λ3-
k(λ1+λ2+λ3)3
(7)
視頻中興趣點(diǎn)可以根據(jù)參數(shù)進(jìn)行多尺度提取,檢測(cè)到興趣點(diǎn)后,為了在興趣點(diǎn)處提取HOG/HOF特征,文獻(xiàn)[10]在特征點(diǎn)處抽取大小為(2kσi;2kσi;2kτ)的局部視頻塊(k=9),然后將其分成空時(shí)為3*3*2的網(wǎng)格。對(duì)于每個(gè)網(wǎng)格,將梯度方向量化為4,光流方向量化為5(其中包含一個(gè)靜止方向),從而一個(gè)時(shí)空興趣點(diǎn)可以通過(guò)72維的HOG和90維的HOF來(lái)加以描述。
傳統(tǒng)的BoVW中利用全局描述子對(duì)視頻進(jìn)行描述,主要分成三個(gè)步驟:首先利用k-means聚類算法對(duì)視頻中獲取的局部特征描述子進(jìn)行聚類形成字典,然后根據(jù)底層特征描述子和字典形成頻率直方圖對(duì)視頻進(jìn)行描述,最后對(duì)直方圖進(jìn)行歸一化處理后作為視頻的中層表達(dá)。在視覺(jué)詞袋模型中對(duì)視頻提取的特征描述子進(jìn)行聚類形成字典時(shí),文中提出對(duì)視頻中提取的特征描述子進(jìn)行兩層聚類優(yōu)化碼本,提高碼本的表達(dá)能力。其中兩層k-means聚類的過(guò)程如圖2所示,首先對(duì)訓(xùn)練集中的每一個(gè)視頻提取的HOG和HOF特征描述子分別進(jìn)行k-means聚類,聚類數(shù)目為視頻中,興趣點(diǎn)數(shù)目的25%,然后對(duì)同種行為動(dòng)作的視頻的聚類結(jié)果再進(jìn)行k-means聚類,聚類數(shù)目大小為K,最后將所有動(dòng)作種類的聚類結(jié)果作為視覺(jué)詞匯連接成碼本,這樣的碼本更有代表性和區(qū)分度。除此之外,兩層k-means聚類還能夠降低對(duì)實(shí)驗(yàn)仿真內(nèi)存的要求并減少聚類所花的時(shí)間。其中K的大小可以根據(jù)仿真實(shí)驗(yàn)的效果在一個(gè)范圍內(nèi)進(jìn)行選擇。
圖2 對(duì)每個(gè)視頻以及每種動(dòng)作進(jìn)行聚類的流程
圖3是分別使用傳統(tǒng)聚類方法形成的碼本和優(yōu)化碼本在KTH數(shù)據(jù)庫(kù)中鼓掌和揮手動(dòng)作的直方圖表示。利用以上構(gòu)建的字典,視覺(jué)單詞的位置與相應(yīng)的行為動(dòng)作之間有了對(duì)應(yīng)關(guān)系,從而改變了直方圖的分布情況。與傳統(tǒng)詞袋模型中使用的碼本相比,在一定程度上提高了同種動(dòng)作視頻的視覺(jué)單詞直方圖分布的相似程度,而使得不同動(dòng)作類別的視覺(jué)直方圖分布的差異明顯。
圖3 兩種不同行為直方圖的表示
HOG特征描述子包含了視頻圖像中的表觀形狀信息,而HOF特征描述子包含了視頻圖像中的運(yùn)動(dòng)信息。但文獻(xiàn)[11]的實(shí)驗(yàn)結(jié)果表明,僅僅使用HOF特征描述子比使用HOF和HOG特征描述子在描述子級(jí)融合的效果好,對(duì)于描述子級(jí)融合是將描述視頻中局部特征的多個(gè)描述子串聯(lián)在一起形成單個(gè)的描述子,然后將其送入到BoVW框架中獲取全局視頻表達(dá)。針對(duì)這種情況,文中將HOF和HOG描述子在視頻表達(dá)級(jí)層面進(jìn)行融合,其過(guò)程如圖4所示。視頻表達(dá)級(jí)的融合是將描述視頻中局部特征的HOF和HOG描述子分別送入BoVW框架中獲取到兩種不同的視頻全局表達(dá),然后對(duì)這兩種視頻全局表達(dá)進(jìn)行融合作為最終的視頻表達(dá)級(jí)特征。對(duì)于HOG和HOF這兩種不同的特征描述子,在形成視頻表達(dá)級(jí)描述子相關(guān)性較大時(shí),視頻表達(dá)級(jí)層面上的特征融合比在局部特征描述子級(jí)層面上的直接融合效果要好。
圖4 視頻級(jí)表達(dá)特征融合方法
使用支持向量機(jī)(SVM)分類器進(jìn)行分類識(shí)別。SVM的主要思想:在空間H中,如果要將訓(xùn)練數(shù)據(jù)集(x1,y1),(x2,y2),…,(xm,ym)分成兩類yi∈{-1,+1},對(duì)于所有能將數(shù)據(jù)集分成兩類的超平面wx+b=0,選擇一個(gè)最優(yōu)決策超平面使得該平面兩側(cè)距離該平面最近的兩類樣本之間的距離最大化,其中w和b的值可以通過(guò)Lagrange乘數(shù)αi求解約束條件下的極小值問(wèn)題求得[12]。
(8)
其中,對(duì)應(yīng)非零αi的xi向量稱為支持向量。引入核函數(shù)K(x,y)巧妙地解決了在高維空間中的內(nèi)積運(yùn)算,較好地解決了非線性分類問(wèn)題。文中使用的是線性核函數(shù)。
為了驗(yàn)證文中算法的有效性,選擇兩個(gè)比較經(jīng)典的數(shù)據(jù)集(KTH和Weizmann)進(jìn)行仿真實(shí)驗(yàn)。
KTH數(shù)據(jù)集包括6類行為動(dòng)作(walking、jogging、running、boxing、hand waving、hand clapping),是由25個(gè)不同的人在4種不同場(chǎng)景下(室內(nèi)、室外、尺度變化和衣著變化)采集完成。所有視頻背景相對(duì)靜止,攝像機(jī)的運(yùn)動(dòng)比較輕微,視頻的幀率為25幀/s,分辨率為160x120,整個(gè)數(shù)據(jù)集包含了599個(gè)視頻文件。將其中16人的所有動(dòng)作視頻作為訓(xùn)練集,其余9人的所有動(dòng)作視頻作為測(cè)試集。最后的識(shí)別率是由測(cè)試集中所有被正確識(shí)別出的視頻個(gè)數(shù)計(jì)算得到。
Weizmann數(shù)據(jù)集包括10種不同類型的行為視頻(bend、jump、jack、pjump、run、side、skip、walk、wave1、wave2),每種動(dòng)作由9個(gè)不同的人所展示,采用的方法是將其中1人的所有動(dòng)作視頻作為測(cè)試集,其他人的所有動(dòng)作視頻作為訓(xùn)練集,循環(huán)9次,最后將平均正確率作為識(shí)別率。
圖5分別是使用一次k-means方法和使用兩次k-means方法對(duì)局部特征描述子進(jìn)行聚類,構(gòu)建不同數(shù)量的視覺(jué)詞匯在KTH和Weizmann數(shù)據(jù)集上的識(shí)別率對(duì)比曲線。可以看出,在不同數(shù)量的視覺(jué)詞匯下,使用優(yōu)化后的碼本的識(shí)別率明顯高于使用傳統(tǒng)聚類方法形成的碼本的識(shí)別率。Weizmann數(shù)據(jù)集中的視頻序列的長(zhǎng)度較短,視頻中提取的時(shí)空興趣點(diǎn)的數(shù)目也較少,在構(gòu)建碼本時(shí)視覺(jué)詞匯的數(shù)量也相應(yīng)減少,導(dǎo)致在Weizmann數(shù)據(jù)集上的識(shí)別率明顯低于KTH數(shù)據(jù)集上的識(shí)別率。
同時(shí),識(shí)別率總體上是隨著碼本大小增加而不斷提高,當(dāng)碼本到達(dá)一定的數(shù)目后識(shí)別率基本保持不變。而當(dāng)字典過(guò)大時(shí),一些視頻中的時(shí)空興趣點(diǎn)較少對(duì)應(yīng)到碼本上,詞匯減少不能有效地描述視頻。相較于使用傳統(tǒng)的聚類方法形成的碼本,碼本優(yōu)化后在KTH和Weizmann數(shù)據(jù)集上的識(shí)別率提升了3%左右,證明了文中方法的有效性。
(a)使用一次k-means方法
(b)使用兩次k-means方法
使用單個(gè)HOF特征描述子以及優(yōu)化后的碼本形成的頻率直方圖作為視頻表達(dá)級(jí)描述子在KTH和Weizmann數(shù)據(jù)集上的識(shí)別率,分別為95.8%和93.3%。而使用HOG和HOF特征描述子以及各自優(yōu)化后的碼本形成的兩種頻率直方圖融合作為最終的視頻表達(dá)級(jí)描述子在Weizmann與KTH數(shù)據(jù)集上仿真實(shí)驗(yàn)效果最好時(shí)的識(shí)別率,分別為96.7%和94.4%。從實(shí)驗(yàn)結(jié)果可以看出,結(jié)合碼本優(yōu)化和視頻表達(dá)級(jí)特征融合的方法與傳統(tǒng)方法相比,在KTH與Weizmann數(shù)據(jù)集上的識(shí)別率均有不同程度的提升,表明了該方法的有效性。
表1列出了文中方法與近年來(lái)人體行為識(shí)別研究課題在KTH和Weizmann數(shù)據(jù)集上識(shí)別率的比較。與其他方法相比,文中方法在這兩個(gè)數(shù)據(jù)庫(kù)上均取得了較高的識(shí)別率。
表1 各算法平均識(shí)別率對(duì)比 %
為了提高視覺(jué)詞袋模型應(yīng)用在人體行為識(shí)別研究課題的識(shí)別率,引入了一種結(jié)合多層k-means聚類與視頻級(jí)表達(dá)特征融合的行為識(shí)別算法,降低了對(duì)內(nèi)存的要求并減少了聚類所用的時(shí)間,可以更有效地描述視頻。仿真結(jié)果表明,該方法在兩個(gè)經(jīng)典數(shù)據(jù)集上的識(shí)別率高于大多數(shù)算法。針對(duì)如何提高易混淆動(dòng)作的識(shí)別率以及選用其他編碼方法替代VQ編碼將是下一步的研究工作。
[1] 王 博,李 燕.視頻序列中的時(shí)空興趣點(diǎn)檢測(cè)及其自適應(yīng)分析[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014,24(4):49-52.
[2] 劉雨嬌,范 勇,高 琳,等.基于時(shí)空深度特征的人體行為識(shí)別算法[J].計(jì)算機(jī)工程,2015,41(5):259-263.
[3] 李瑞峰,王亮亮,王 珂.人體動(dòng)作行為識(shí)別研究綜述[J].模式識(shí)別與人工智能,2014,27(1):35-48.
[4] ALI S,SHAH M.Human action recognition in videos using kinematic features and multiple instance learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(2):288-303.
[5] WANG H,YI Y.Tracking salient key points for human action recognition[C]//IEEE international conference on systems,man,and cybernetics.[s.l.]:IEEE,2015:3048-3053.
[6] WANG Heng,KLASER A,SCHMID C,et al.Action recognition by dense trajectories[C]//Proceedings of IEEE international conference on computer vision and pattern recognition.Washington D C,USA:IEEE Press,2011:3169-3176.
[7] LI Q,CHENG H,ZHOU Y,et al.Human action recognition using improved salient dense trajectories[J].Computational Intelligence & Neuroscience,2016,2016:6750459.
[8] FARAKI M,PALHANG M,SANDERSON C.Log-Euclidean bag of words for human action recognition[J].IET Computer Vision,2015,9(3):331-339.
[9] HARRIS C,STEPHENS M.A combined corner and edge detector[C]//Proceedings of alvey vision conference.[s.l.]:[s.n.],1988:147-151.
[10] LAPTEV I,MARSZALEK M,SCHMID C,et al.Learning realistic human actions from movies[C]//IEEE computer society conference on computer vision and pattern recognition.[s.l.]:IEEE,2008:1-8.
[11] KLASER A,MARSZALEK M,SCHMID C.A spatio-temporal descriptor based on 3D-gradients[C]//British machine vision conference.[s.l.]:[s.n.],2008:995-1004.
[12] 邊肇祺,張學(xué)工.模式識(shí)別[M].第2版.北京:清華大學(xué)出版社,2000:296-303.
[13] LU M,ZHANG L.Action recognition by fusing spatial-temporal appearance and the local distribution of interest points[C]//International conference on future computer and communication engineering.[s.l.]:[s.n.],2014:75-78.
[14] DOLLAR P,RABAUD V,COTTRELL G,et al.Behavior recognition via sparse spatio-temporal features[C]//IEEE international workshop on visual surveillance & performance evaluation of tracking & surveillance.[s.l.]:IEEE,2005:65-72.
[15] TU H B,XIA L M,WANG Z W.The complex action recognition via the correlated topic model[J].Scientific World Journal,2014,2014:810185.