范曉杰,宣士斌,唐 鳳
(廣西民族大學(xué) 信息科學(xué)與工程學(xué)院,廣西 南寧 530006)
近年來,人體行為識別已成為計算機視覺領(lǐng)域的重要研究方向,并在視頻監(jiān)控、人機交互等眾多領(lǐng)域得到了廣泛的應(yīng)用[1]。隨著機器視覺得到越來越多的關(guān)注,作為其中的熱點之一,人體行為識別成為一個重要的研究課題。
人體行為識別中一個至關(guān)重要的問題就是人體行為的描述。人體行為描述是從人體動作中提取部分特征信息來描述人體行為。根據(jù)當(dāng)前的研究方法,人體行為識別研究可以分為兩類:基于整體運動信息的方法和基于局部特征的行為識別方法。
基于整體運動信息的方法通常采用光流和形狀、邊緣、輪廓形狀等信息對檢測出的整體感興趣的人體區(qū)域進(jìn)行描述。盡管整體運動信息對實際環(huán)境中的行為比較適合,但也面臨許多問題,如對遮擋、噪聲以及視角的變化比較敏感等。Wang等[2]利用軌跡特征模擬連續(xù)幀間的時間關(guān)系;Zhen等[3]對運動歷史圖像(MHI)和三個正交平面(TOPS)提取的時空立方體的運動和結(jié)構(gòu)信息進(jìn)行編碼,并采用二維拉普拉斯金字塔編碼描述符。
基于局部特征方法是通過在視頻中定位一個局部視頻塊,通過視頻塊描述人體運動信息。例如,Mota等[4]利用3D-HOG特征和光流特征來描述視頻行為;Tang等[5]提取了視頻序列中的3D-SIFT特征;LAPTEV等[6]結(jié)合HOG特征和HOF特征來描述視頻序列中的時空立方體;張飛燕等[7]利用HOF特征來描述時空立方體,取得了很好的識別效果。
Li Nijun等[8]結(jié)合使用HOG3D與SOM能夠有效地進(jìn)行行為識別,但沒有充分提取時空興趣點運動信息。HOG3D作為一種興趣點描述方法,能夠?qū)εd趣點周圍的形態(tài)信息進(jìn)行描述,但該方法所包含的運動信息較少。為了能更全面高效地描述興趣點信息,文中提出一種新的多向投影光流特征直方圖(multidirectional projection optical flow histogram,DPHOF)。不僅能有效地表示光流的特征,還能體現(xiàn)興趣點及其鄰域的運動情況,并通過實驗對該方法的有效性進(jìn)行驗證。
文中算法的第一步就是提取時空興趣點。為了獲得較多的不同尺度的興趣點,采用比Laptev[9]的STIP(space-time interest points)更稠密的Dollar[10]的STIP作為局部特征。局部時空特征的計算是對視頻的局部區(qū)域進(jìn)行計算,局部區(qū)域的選擇在時空興趣點的周圍,以時間和空間尺度為標(biāo)準(zhǔn)選取興趣點的鄰域塊。興趣點的表示是對其鄰域塊進(jìn)行描述形成特征向量。最終的視頻描述由一些不同位置、不同尺度特征點的特征向量來表示。
由于遵循了HOG3D[11]的提取流程,因此有必要簡單介紹一下HOG3D的基本思想。STIP的鄰域立方體塊被劃分為一系列的胞腔(cell),同樣一個胞腔被劃分成一系列的塊(block)。利用“積分視頻(integral video)”計算每個塊中的3D平均梯度向量,每個梯度方向的量化通過常規(guī)的多面體來進(jìn)行,得到每個塊的直方圖后,疊加一個胞腔所有塊的直方圖得到胞腔直方圖。最后,級聯(lián)STIP鄰域立方體中所有胞腔的直方圖得到HOG3D描述子。
假設(shè)STIP鄰域立方體中x和y方向上有M個胞腔,t方向上有N個胞腔,每個胞腔的直方圖維數(shù)是d,則級聯(lián)所有胞腔直方圖得到M2Nd維的HOG3D描述子。實驗取M=4,N=3,梯度方向量化到Klaser[11]推薦的正20面體的面法向量構(gòu)成的20×3的投影矩陣P中,即d=20,因此HOG3D描述子維數(shù)是960。
傳統(tǒng)的光流直方圖方法是首先對圖像塊計算光流,然后統(tǒng)計多個方向的光流分布情況。但傳統(tǒng)的HOF描述方法僅能體現(xiàn)光流在興趣點的特征,不能體現(xiàn)出其鄰域的運動情況。為了保證特征對行為的高描述性,提出一種新的多向投影光流特征直方圖(DPHOF),用金字塔Lucas-Kanade[12]光流算法來計算光流。光流特征計算完成后,把對光流方向分布的統(tǒng)計轉(zhuǎn)化為光流在多方向上投影分布的統(tǒng)計,這樣不僅能統(tǒng)計光流的方向分布情況,也能按照投影的大小對速度分量進(jìn)行加權(quán)。不同行為的光流特征在其速度分量上的分布是有很大區(qū)別的,用投影的方法對其進(jìn)行加權(quán)更能準(zhǔn)確高效地描述光流的特征。下面對DPHOF時空立方體描述符的構(gòu)造進(jìn)行詳細(xì)描述。
在DPHOF描述方法中,光流場的計算和HOF的計算方式一樣,選用金字塔Lucas-Kanade光流算法來計算光流特征。光流特征計算完成后,開始計算時空興趣點鄰域立方體的描述符,受HOG3D描述符生成方法的啟示,按照同樣的流程生成多方向投影光流直方圖。實驗中,在興趣點的x和y方向上取M=4個胞腔,在t方向上取N=3個胞腔,每個胞腔由2×2×2個塊構(gòu)成,計算出每個塊中的平均光流fb=[vxmeanvymean],每個塊中光流的量化是通過將其投影到5×2的投影矩陣P中,生成光流直方圖hb:
hb=P·fb
(1)
P=(cosα,sinα)T
(2)
其中,α的取值范圍為[0°,180°],并將其平分成5個扇形區(qū)域。統(tǒng)計每個塊的平均光流在各個區(qū)域的投影,得出每個塊的投影光流直方圖后,疊加一個胞腔中所有的塊直方圖得到胞腔直方圖。胞腔直方圖的維數(shù)為d=5。最后,級聯(lián)STIP鄰域立方體中所有胞腔的直方圖得到時空立方體的DPHOF描述子。因此DPHOF描述子的維數(shù)就是240,可以有效減輕“維數(shù)災(zāi)難”效應(yīng)。
由上述計算過程可以看出,利用DPHOF在構(gòu)造光流特征的時空立方體描述子時更加緊湊高效,通過投影量化使得在統(tǒng)計光流特征時,不僅體現(xiàn)了光流方向的分布情況,還更加精確地利用投影大小對光流速度分量加入權(quán)值,保證了特征對立方體信息的高描述性。而且采用的5個方向的投影矩陣,很大程度上減輕了“維數(shù)災(zāi)難”。
SOM網(wǎng)絡(luò)是由芬蘭Helsinki大學(xué)的Kohonen T教授提出的,又稱Kohonen網(wǎng)絡(luò)。Kohonen認(rèn)為,一個神經(jīng)網(wǎng)絡(luò)接受外界輸入模式時,將會分為不同的對應(yīng)區(qū)域,各區(qū)域?qū)斎肽J接胁煌捻憫?yīng)特征,而這個過程是自動完成的。SOM網(wǎng)絡(luò)正是根據(jù)這一看法提出的,其特點與人腦的自組織特性相類似。SOM是一個兩層的全連接網(wǎng)絡(luò)(見圖1),圓圈代表神經(jīng)元,線段標(biāo)記直接相連的神經(jīng)元?!案偁?competition)”、“合作(cooperation)”和“自適應(yīng)(self-adaptation)”是SOM的3個核心過程。
提取完時空特征后,就要從所有動作類中隨機選取HOG3D描述子和DPHOF描述子分別訓(xùn)練SOM網(wǎng)絡(luò)。訓(xùn)練完成后,把所有HOG3D描述子送入由HOG3D描述子訓(xùn)練的網(wǎng)絡(luò),這樣每個HOG3D描述子就會激活一個神經(jīng)元。最后統(tǒng)計測試結(jié)果就可以得到一個神經(jīng)元擊中率直方圖,將這個直方圖稱為該視頻的HOG3D擊中率直方圖。對于DPHOF描述子,以同樣的方法送入由DPHOF描述子訓(xùn)練的網(wǎng)絡(luò)進(jìn)行測試,同樣會得到一個擊中率直方圖,稱為DPHOF擊中率直方圖。最后把HOG3D擊中率直方圖和DPHOF擊中率直方圖進(jìn)行歸一化處理,并將兩種描述方法的視頻歸一化直方圖級聯(lián)在一起作為該視頻最終的全局描述符,就由局部的時空特征得到了全局的視頻描述子。
在測試過程中,最終的判決結(jié)果由最終全局描述符的最鄰近分類得到,采用χ2距離作為度量。動作識別流程如圖1所示。
圖1 基于時空特征融合和SOM的動作識別流程
基于HOG3D、DPHOF和SOM的行為識別如下所述:
算法1:基于HOG3D、DPHOF和SOM的行為識別。
輸入:有標(biāo)簽的訓(xùn)練視頻序列、測試視頻序列;
輸出:測試視頻的標(biāo)簽。
(1)從所有的訓(xùn)練和測試視頻中提取多尺度的Dollar的STIP。
(2)計算每個STIP的HOG3D描述子和DPHOF描述子。
(3)分別用從訓(xùn)練集中隨機選取的HOG3D描述子和DPHOF描述子訓(xùn)練SOM網(wǎng)絡(luò)。
①初始化具有已知結(jié)構(gòu)的SOM網(wǎng)絡(luò);
②利用在線學(xué)習(xí)機制將訓(xùn)練樣本輸入網(wǎng)絡(luò);
③找到對應(yīng)于當(dāng)前樣本的獲勝神經(jīng)元;
④更新獲勝神經(jīng)元及其鄰域神經(jīng)元的權(quán)值;
⑤重復(fù)步驟②~④,直至收斂或達(dá)到最大迭代次數(shù)。
(4)分別用訓(xùn)練好的SOM網(wǎng)絡(luò)計算所有訓(xùn)練和測試視頻的神經(jīng)元擊中率歸一化直方圖。
(5)將兩種描述方法生成的視頻歸一化直方圖進(jìn)行級聯(lián)作為視頻的最終全局描述符。
(6)用基于χ2距離的NN分類器分類神經(jīng)元擊中率直方圖得到識別結(jié)果。
在3.0 GHz CPU、32位Windows操作系統(tǒng)、Matlab 2012a的實驗環(huán)境下,在UCF-YouTube、KTH兩個數(shù)據(jù)庫上對文中方法進(jìn)行驗證。兩種數(shù)據(jù)庫均采用5-折疊交叉驗證。
對于UCF-YouTube[13]體育活動數(shù)據(jù)集,其數(shù)據(jù)具有復(fù)雜的環(huán)境和場景變化,還有視角、尺度、光照等的變化,是一個極具挑戰(zhàn)的行為識別數(shù)據(jù)庫。該數(shù)據(jù)庫包含11種行為,每種行為在25種不同的場景下完成。實驗中訓(xùn)練集的大小為11×25×100,采用5-折疊交叉驗證,采用迭代200次的12×12的SOM網(wǎng)絡(luò)進(jìn)行測試。分別用HOG3D、DPHOF以及混合兩種特征在數(shù)據(jù)庫上進(jìn)行測試,結(jié)果如圖2所示。
圖2 不同方法在UCF-YT數(shù)據(jù)集上的混淆矩陣
從圖2中可看出,提出的DPHOF特征對于復(fù)雜的UCF-YT數(shù)據(jù)集更具有辨別性,能大大地提高行為識別精度。這是因為對于UCF-YT數(shù)據(jù)庫,由于其復(fù)雜的背景,加上相機運動會造成背景中許多不感興趣的STIP,從而影響了SOM構(gòu)造的全局視頻描述符的準(zhǔn)確性,而HOG3D描述子易受相機運動的影響,會給識別過程帶來許多干擾。而DPHOF描述子作為一種優(yōu)越的運動特征描述方法,對光照、相機運動的干擾有很好的魯棒性。并且多向投影方法使得不同行為的光流特征更具辨別力。所以文中的描述方法可以更準(zhǔn)確全面地描述興趣點特征,而且使用SOM訓(xùn)練擊中率直方圖來表示視頻,不僅具有局部特征,還包含全局特征。所以文中方法取得了更好的識別效果。
KTH數(shù)據(jù)庫包含6種行為,每種行為在25種不同的場景下完成。實驗中訓(xùn)練集的大小為6×25×100,采用5-折疊交叉驗證,采用迭代100次的10×10的SOM網(wǎng)絡(luò)進(jìn)行測試,結(jié)果如圖3所示。
圖3 不同方法在KTH數(shù)據(jù)集上的混淆矩陣
圖3表明,在同一數(shù)據(jù)庫下,使用DPHOF描述方法要比單獨使用HOG3D的效果好很多,且兩種局部描述子與SOM結(jié)合構(gòu)造的全局描述符更能高效表示視頻特征。能取得較好的識別率,一方面是由于提出的DPHOF描述子能高效表示空間局部特征;另一方面是與SOM結(jié)合構(gòu)造的全局視頻描述符能更好地表示視頻特征。使用全局和局部混合特征來進(jìn)行人體行為識別可以達(dá)到更好的識別效果。
提出一種基于混合時空特征和SOM網(wǎng)絡(luò)的新的行為識別框架,該框架不需要人體檢測、跟蹤等復(fù)雜的預(yù)處理步驟。提出一種新的時空特征描述方法(DPHOF),用HOG3D和DPHOF來描述局部空間信息,并結(jié)合SOM來構(gòu)造全局的視頻描述符。實驗結(jié)果表明,提出的DPHOF描述符能高效表示時空興趣點,且由SOM構(gòu)造出的全局視頻描述子可以高效地表示視頻特征?;赟OM的識別框架在識別精確度上取得了很好的效果。
[1] 李瑞峰,王亮亮,王 珂.人體動作行為識別研究綜述[J].模式識別與人工智能,2014,27(1):35-48.
[2] WANG H,SCHMID C.Action recognition with improved trajectories[C]//IEEE international conference on computer vision.[s.l.]:IEEE,2013:3551-3558.
[3] ZHEN X T,SHAO L.A local descriptor based on Laplacian pyramid coding for action recognition[J].Pattern Recognition
Letters,2013,34(15):1899-1905.
[4] MOTA V F,PEREZ E A,MACIEL L M,et al.A tensor motion descriptor based on histograms of gradients and optical flow[J].Pattern Recognition Letters,2014,39(4):85-91.
[5] TANG X Q,XIAO G Q.Action recognition based on maximum entropy fuzzy clustering algorithm[M]//Foundations of intelligent systems.Berlin:Springer,2014:155-164.
[6] LAPTEV I,MARSZALEK M,SCHMID C,et al.Learning realistic human actions from movies[C]//26th IEEE conference on computer vision and pattern recognition.Anchorage,AK,United States:IEEE,2008:1-8.
[7] 張飛燕,李俊峰.基于光流速度分量加權(quán)的人體行為識別[J].浙江理工大學(xué)學(xué)報,2015,33(1):115-123.
[8] LI Nijun,CHENG Xu,ZHANG Suofei,et al.Realistic human action recognition by Fast HOG3D and self-organization feature map[J].Machine Vision and Applications,2014,25(7):1793-1812.
[9] LAPTEV I.On space-time interest points[J].International Journal of Computer Vision,2005,64(2-3):107-123.
[10] DALLAR P,RABAUD V,COTTRELL G,et al.Behavior recognition via sparse spatio-temporal features[C]//IEEE international workshop on performance evaluation of tracking and surveillance.Beijing,China:IEEE,2005:65-72.
[11] KLASER A,MARSZALEK M,SCHMID C.A spatio-temporal descriptor based on 3D-gradients[C]//British machine vision conference.[s.l.]:[s.n.],2008.
[12] BOUGUET J Y.Pyramidal implementation of the Lucas Kanade feature tracker:description of the algorithm[R].[s.l.]:Intel Corporation Microprocessor Research Labs,2000.
[13] LIU J,LUO J,SHAN M.Recognizing realistic actions from videos “in the wild”[C]//Proceedings of the computer vision and pattern recognition.[s.l.]:[s.n.],2009.