徐凱航,彭懷亮,章東平
(中國(guó)計(jì)量學(xué)院信息工程學(xué)院,浙江 杭州310018)
近年來,人群行為檢測(cè)已經(jīng)成為智能視頻分析中一個(gè)重要的研究熱點(diǎn)[1-3]。本文主要是對(duì)視頻場(chǎng)景中人群異常行為進(jìn)行檢測(cè)。人群異常行為的一般定義為:違反群體行為習(xí)慣和標(biāo)準(zhǔn)的“反?!毙袨椋唇o定一個(gè)訓(xùn)練樣本集其中Ni是訓(xùn)練樣本的個(gè)數(shù),i 指的是行為的種類(包括正常行為和異常行為)。aj,j=1,2,…,Ni是訓(xùn)練數(shù)據(jù)(d 是特征的維數(shù)),它可以是像素、圖像塊或運(yùn)動(dòng)塊等。假設(shè)測(cè)試樣本y∈Rd,異常行為檢測(cè)就是要設(shè)計(jì)一種分類函數(shù)來判斷y 的所屬類別,即
f:y →{正常,異常(斗毆,恐慌,…)}
為了求解上述問題,需要重點(diǎn)考慮兩個(gè)問題:行為特征的表示和異常事件的判決。
對(duì)于行為特征表示,當(dāng)前國(guó)內(nèi)外的研究主要是考慮視頻序列中人群行為的運(yùn)動(dòng)特性,如文獻(xiàn)[1]行為特征描述子—多尺度光流直方圖用來描述視頻序列中行為的空間及時(shí)間結(jié)構(gòu)。文獻(xiàn)[4]通過對(duì)局部時(shí)空立方體進(jìn)行建模,然后利用整個(gè)時(shí)空立方體統(tǒng)計(jì)特征來描述整個(gè)場(chǎng)景的異常行為。其他行為特征表示方法,還包括基于背景模型的二值化特征[5]、光流直方圖特征[6]、時(shí)空梯度特征[7]、社會(huì)力模型[8]、混沌不變特征[9]、混合動(dòng)態(tài)紋理特征[10]等。
在異常事件判決方面,最近的研究常把它看成一個(gè)分類問題來解決,大多數(shù)常用算法通過在訓(xùn)練數(shù)據(jù)上擬合一個(gè)概率模型,將概率接近某一類別的測(cè)試樣本判別為該類行為。文獻(xiàn)[11]提取視頻場(chǎng)景中的行為特征,訓(xùn)練各類行為樣本的隱馬爾可夫模型,進(jìn)而識(shí)別人群異常行為。文獻(xiàn)[8]利用社會(huì)力模型來提取代表人群的粒子所受的力,然后利用詞袋來檢測(cè)異常。其他的分類模型還有諸如混合高斯模型、混合主成分分析[12]、馬爾可夫隨機(jī)場(chǎng)[13]、潛在狄利克雷分布[14]、條件隨機(jī)場(chǎng)模型[15]等。
近年來,隨著壓縮感知的發(fā)展,基于稀疏表示的方法被廣泛應(yīng)用于各個(gè)領(lǐng)域,如超分辨率[16]、圖像去噪[17]、視覺追蹤[18]、人臉識(shí)別[19]等?;谙∈栊缘姆诸惸P图僭O(shè)屬于同一類的樣本位于同一位置子空間中,任意測(cè)試樣本能夠由一個(gè)超完備字典中的少量原子線性表示。眾所周知,如果相似的測(cè)試樣本能夠得到相似的稀疏表示系數(shù)會(huì)大大提高樣本的識(shí)別精度。但是,傳統(tǒng)的稀疏表示模型并沒有考慮測(cè)試樣本的局部流形結(jié)構(gòu),造成了稀疏分解不穩(wěn)定問題,即相似的測(cè)試樣本可能會(huì)得到完全不相似的稀疏表示系數(shù)。而這種稀疏分解的不穩(wěn)定性大大影響了分類正確率。
受啟發(fā)于稀疏表示和流形學(xué)習(xí)[20-21]方法,本文針對(duì)人群行為檢測(cè)問題提出了一種基于局部線性嵌入[22]稀疏表示的異常行為檢測(cè)方法,充分考慮了行為樣本的局部流形結(jié)構(gòu)。通過在稀疏分類模型中加入一個(gè)LLE 正則項(xiàng),來解決局部流形結(jié)構(gòu)不穩(wěn)定的問題。并且利用該模型對(duì)視頻場(chǎng)景中的人群行為進(jìn)行檢測(cè),實(shí)驗(yàn)結(jié)果表明:文中的局部線性嵌入稀疏表示算法能夠有效地提高樣本的判別能力,并在人群行為檢測(cè)中得到較好的實(shí)驗(yàn)效果。
通常視頻場(chǎng)景中的人群行為特征采用人群周圍運(yùn)動(dòng)區(qū)域的運(yùn)動(dòng)信息來描述。本文主要利用變分光流算法初步提取人群運(yùn)動(dòng)特征,對(duì)視頻序列中各幀圖像分塊,在人群運(yùn)動(dòng)前景區(qū)域中的塊內(nèi)對(duì)初步的運(yùn)動(dòng)特征進(jìn)行處理獲取維數(shù)較低的行為特征,構(gòu)建行為特征描述符。
本文中人群運(yùn)動(dòng)區(qū)域是通過下面方法獲得的,如圖1所示。
圖1 人群運(yùn)動(dòng)區(qū)域計(jì)算流程
1)Canny 邊緣計(jì)算:先對(duì)圖像做高斯卷積平滑,運(yùn)用梯度值非最大值壓抑細(xì)化邊緣,并用滯后的閾值將與強(qiáng)邊緣相連的弱邊緣加入邊緣圖像。
2)運(yùn)動(dòng)邊緣區(qū)域求取:對(duì)視頻場(chǎng)景圖像相鄰的兩幀的邊緣圖像做差,以消除靜止場(chǎng)景的影響。
3)運(yùn)動(dòng)區(qū)域獲取:在對(duì)運(yùn)動(dòng)邊緣區(qū)域求取后,可以得到一個(gè)封閉的包含運(yùn)動(dòng)目標(biāo)的邊緣線。把每一行中第一個(gè)和最后一個(gè)邊緣點(diǎn)之間的線組成的區(qū)域稱為水平候選區(qū)域,同樣豎直候選區(qū)域、±45°候選區(qū)域也可以得到。通過對(duì)這些候選區(qū)域求并,并對(duì)得到的區(qū)域做形態(tài)學(xué)處理,可以得到基于相鄰幀的視頻場(chǎng)景運(yùn)動(dòng)目標(biāo)檢測(cè)結(jié)果。如圖2 所示。
本文采用在Brox[23]變分光流基礎(chǔ)上改進(jìn)的光流算法。為了增強(qiáng)光流算法對(duì)圖像灰度變化的魯棒性,Brox 變分光流算法擴(kuò)展了梯度一致性假設(shè),并在平滑約束項(xiàng)上,采用分段平滑來代替全局平滑。同時(shí)運(yùn)用多尺度的思想來計(jì)算大位移運(yùn)動(dòng)的光流。
圖2 基于相鄰幀的視頻場(chǎng)景運(yùn)動(dòng)目標(biāo)檢測(cè)結(jié)果
變分光流算法的能量泛函由數(shù)據(jù)項(xiàng)和平滑項(xiàng)兩部分組成,表示為
式中,u(x,y,t)和v(x,y,t)為圖像中像素點(diǎn)I(x,y,t)光流速度。
在改進(jìn)變分光流算法中,數(shù)據(jù)項(xiàng)用多通道圖像I[k]取代了標(biāo)值圖像I,還通過能見度項(xiàng)r(x,y,t)來調(diào)節(jié)
式中:k 是圖像通道的總和。圖像亮度I,綠減紅顏色成分,綠減藍(lán)顏色成分,亮度梯度Ix和Iy作為5 個(gè)圖像通道來對(duì)流量的進(jìn)行估計(jì)。
為了解決小圖像梯度不連續(xù)流動(dòng)的問題,在平滑項(xiàng)添加約束項(xiàng)來測(cè)量流場(chǎng)的變化。
式中:αg是全局平滑因子;αl是一個(gè)局部平滑因子,它是被局部平滑b(x,y,z)所調(diào)控的。
根據(jù)變分計(jì)算法,通過最小化能量函數(shù)求解u 和v,總的能量函數(shù)式先采用固定點(diǎn)迭代轉(zhuǎn)化為線性方程,然后使用逐次超松弛迭代及由粗到細(xì)的分層策略可以獲取光流場(chǎng)。
通過上述改進(jìn)的變分光流方法,可以計(jì)算運(yùn)動(dòng)區(qū)域光流的變化從而得到三個(gè)特征信息:位置、速度和運(yùn)動(dòng)方向。為了量化位置信息,把分辨率為360×240 的視頻序列分為尺寸為20×20 的小塊,并把塊的運(yùn)動(dòng)方向被量化為5 個(gè)方向,當(dāng)小塊中不存在檢測(cè)到的運(yùn)動(dòng)區(qū)域時(shí),方向和速度大小都設(shè)為“0”。這樣視頻序列每一幀行為特征維數(shù)為18×12×2,整個(gè)視頻序列特征集就構(gòu)成了該種行為的特征描述符。特征的描述能力和學(xué)習(xí)模型復(fù)雜性之間的平衡決定了特征的大小。在這里的視頻序列中,這樣的塊選取也是充分考慮行為時(shí)長(zhǎng)和樣本數(shù)據(jù)量。如圖3 所示為行為特征提取過程。
圖3 行為特征提取過程
傳統(tǒng)的稀疏表示模型,沒有考慮測(cè)試樣本的局部流形結(jié)構(gòu),這會(huì)導(dǎo)致稀疏分解的不穩(wěn)定性。這種不穩(wěn)定性將會(huì)極大的降低檢測(cè)識(shí)別精度。本文提出了一種基于局部線性嵌入和稀疏表示的人群行為檢測(cè)方法,充分考慮了測(cè)試樣本集的局部流形結(jié)構(gòu),有效的提高了檢測(cè)效率。
本節(jié)將首先介紹一下傳統(tǒng)的基于l1范數(shù)的稀疏表示算法。假設(shè)有M 個(gè)明顯差別的類,其中第i 類包含Ni個(gè)訓(xùn)練樣本并用表示。同一類的特征假定近似于一個(gè)低維子空間。換句話說,就是把測(cè)試樣本y 作為一個(gè)m 維的特征。如果y 屬于第i 類,那么y 就能夠用第i 類訓(xùn)練樣本Di的 線性組合來緊湊表示:
式中,αi是y 在Di上的緊湊表示。要注意的是,在理想情況下如果y 屬于第i 類,那么就有αj=0,?j=1,…,M,j≠i。因此,y 能夠通過一個(gè)由M 類D=[D1,…,DM]=[d1,…,dN]∈Rd×N組成的超完備字典稀疏表示。y 的稀疏表示可以由式(5)求得
式中:α 是y 在字典D 下的稀疏表示系數(shù);λ 是一個(gè)強(qiáng)制稀疏系數(shù)。
局部線性嵌入(LLE)是一種流形學(xué)習(xí)算法,是一種從高維空間非線性映射到低維空間的非監(jiān)督方法。在LLE 中,基于流形假設(shè):如果樣本集是從光滑流形中采樣得到的,每一個(gè)樣本在低維空間中可以用其近鄰點(diǎn)線性表示,并保持高維中的局部線性關(guān)系不變,可以保留數(shù)據(jù)集的內(nèi)在結(jié)構(gòu)。給定數(shù)據(jù)集,根據(jù)LLE,假設(shè)yi能夠由在同一流形上的測(cè)試樣本集最近鄰線性表示,則其相應(yīng)的稀疏表示系數(shù)αi也能由相應(yīng)的鄰居使用相同的權(quán)值的線性組合表示。這種假設(shè)是成立的,因?yàn)橹灰總€(gè)測(cè)試樣本和其近鄰能夠沿著流形的局部線性變化,則這一表示就是穩(wěn)定的。
基于上述假設(shè),LLE 的二次約束可以定義為
式中:vij表示的是αj的重構(gòu)權(quán)重;N(yi)表示yi的最近鄰。yj的選擇是根據(jù)它是否在yi的k 個(gè)最近鄰樣本內(nèi)。vij可以通過式(7)得到
式(6)可以化為如下形式
其中,I 是單位矩陣,M=(I-V)(I-V)T是基于LLE 矩陣。V定義為,如果
yj處于yi的k 個(gè)最近鄰樣本內(nèi),通過把,其他式(8)并入稀疏表示式中,基于局部線性嵌入稀疏表示可以表示為
其中,λ,λ1為正則化參數(shù)。
對(duì)于式(9)中的每個(gè)αi,可以改寫為式中:hi=2λ1(∑j≠i
Mijαj);α(j)i表示αi的第j 個(gè)分量。
這里采用文獻(xiàn)[24]中提出的Feature-sign 搜索算法求解模型(11)。
算法1 求解式(11)Feature-sign 搜索算法
Input:測(cè)試樣本yi,字典D,矩陣M,參數(shù)K1,λ,λ1
Initialization:α1=0,θ =0(θj∈{-1,0,1})表 示sign(α(j)i),激活集P={}
Step1:激活
從αi中的0 元素開始,選擇
Step2:Feature-sign 搜索
令^D 為D 的子集,即僅僅包含D 中在激活集中的列,a,^hi,^θ 分別為對(duì)應(yīng)的αi,hi,θ 的子集。
通過式(11)求解:
對(duì)于解ai到anewi實(shí)施線性搜索,更新ai;
將ai中為0 的項(xiàng)從激活集中移除,并更新θ=sign(αi)。
Step3:最優(yōu)條件
其中,αi中非0 系數(shù)表示的是對(duì)應(yīng)類中的原子。y 的類別就可以通過下式中最小殘差來確定
然而,在實(shí)際中,對(duì)訓(xùn)練樣本進(jìn)行標(biāo)記是十分困難的。因?yàn)樾袨樘卣鞯木S數(shù)一般較大,而樣本的個(gè)數(shù)相對(duì)較少,則式(5)就變成了一個(gè)超定方程,即:方程的個(gè)數(shù)大于未知數(shù)的個(gè)數(shù),會(huì)出現(xiàn)無(wú)解現(xiàn)象;為了使方程轉(zhuǎn)化為常見的欠定方程,一種方法就是增加D 的維數(shù),也就是需要并入一個(gè)d×d 的單位矩陣,則方程(5)轉(zhuǎn)化為
同樣的,加入誤差矢量的目標(biāo)函數(shù)可以表示為
y 的類別就可以通過求解下式的最小殘差得到
上面介紹了基本的稀疏表示的分類方法,但這些稀疏表示分類算法不能夠很好地反映樣本的局部流形結(jié)構(gòu)。所以為了提高上述算法的分類性能,受流形學(xué)習(xí)算法的啟發(fā),筆者提出了基于局部線性插入稀疏表示方法來提高各類別的區(qū)分度。
本文提出的基于局部線性嵌入稀疏表示的人群行為檢測(cè)算法歸納如下:
算法:基于局部線性嵌入稀疏表示的人群行為檢測(cè)算法
Input:訓(xùn)練樣本矩陣D=[D1,D2,…,Dk]∈IRm×n,共有M 類;測(cè)試樣本y∈[y1,y2,…,ym];
For 1≤i≤m
Step 1:對(duì)訓(xùn)練樣本集D=[D1,D2,…,Dk]及測(cè)試樣本y∈[y1,y2,…ym]進(jìn)行歸一化;
Step 2:求解基于局部線性嵌入稀疏表示問題,即通過求解模型(9)求得稀疏表示系數(shù)αi。
Step 3:計(jì)算殘差Ri(y)end for
由于人群異常行為不像人臉識(shí)別及指紋識(shí)別有大量固定的數(shù)據(jù)集,所以本實(shí)驗(yàn)的實(shí)驗(yàn)數(shù)據(jù)由Sony HVR-V1C 攝像機(jī)在校園中拍攝的一組視頻,視頻中的每一幀圖像大小為360×240。視頻中包含大量人群交互行為,包含正常、打架、恐慌、踩踏這幾種群體行為(見圖4)。
圖4 視頻中的幾種群體行為
為了驗(yàn)證本文算法的有效性,使用在相同場(chǎng)景下的描述人群正常、跌倒、踩踏和恐慌的視頻序列來測(cè)試本文的方法。從拍攝的10 個(gè)視頻中分別各自抽取如表1 中的4 種行為樣本。利用上文中的行為特征提取算法分別獲得4 種行為特征集,利用稀疏模型訓(xùn)練得到訓(xùn)練字典。對(duì)上述的每種行為特征,選取67%用于訓(xùn)練,剩余的33%用于測(cè)試。
表1 視頻序列中的訓(xùn)練和測(cè)試樣本1
獲取稀疏表示字典及測(cè)試視頻序列的行為特征后,利用局部線性嵌入稀疏分類方法對(duì)行為進(jìn)行分類,這里分別選取200 幀視頻序列作為訓(xùn)練樣本,這樣就可以構(gòu)成了一個(gè)432×800 的稀疏字典,另外分別選取4 種行為各100 幀視頻序列用于測(cè)試。
如圖5 為4 種測(cè)試視頻序列檢測(cè)結(jié)果。從圖中可以看出測(cè)試樣本可以由稀疏字典中的原子特征重構(gòu)得到,其重構(gòu)系數(shù)(圖5 中的實(shí)心點(diǎn))主要分布在對(duì)應(yīng)該類在稀疏字典中原子所處的位置。
圖5 4 種測(cè)試視頻序列檢測(cè)結(jié)果
為了驗(yàn)證提出的基于局部線性嵌入稀疏表示算法的優(yōu)越性,實(shí)驗(yàn)中和傳統(tǒng)基于l1范數(shù)的稀疏表示算法進(jìn)行了比較,表2 是兩種算法對(duì)4 種測(cè)試視頻的正確識(shí)別率,可以看出基于局部線性嵌入稀疏表示算法(LLE-SR)的正確識(shí)別率明顯高于傳統(tǒng)基于l1范數(shù)的稀疏表示(SR)算法。
本文提出了一種基于圖像塊運(yùn)動(dòng)方向及速度的行為特征描述子,該特征能夠有效地反映人群行為的空間結(jié)構(gòu)及運(yùn)動(dòng)信息,在構(gòu)建行為特征描述子前,通過對(duì)人群運(yùn)動(dòng)區(qū)域檢測(cè),去除背景中噪聲運(yùn)動(dòng)對(duì)行為特征描述子的影響。同時(shí)提出了基于局部線性嵌入稀疏表示分類方法,在稀疏表示分類的基礎(chǔ)上通過考慮樣本的局部流形結(jié)構(gòu),來解決相似的樣本稀疏分解內(nèi)在的不穩(wěn)定性。實(shí)驗(yàn)結(jié)果表明該算法達(dá)到了較好的檢測(cè)效果。本方法的局限是僅僅使用圖像塊的方向及速度信息,不易區(qū)分一些細(xì)小的行為,在以后的工作中,將結(jié)合一些其他特征完善該算法,對(duì)更高層次的行為語(yǔ)義理解進(jìn)行研究。
表2 SR 和LLE-SR 算法識(shí)別率 %
[1]CONG Y,YUAN J,LIU J. Abnormal event detection in crowded scenes using sparse representation[J]. Pattern Recognition,2013,46(7):1851-1864.
[2]CHO S H,KANG H B.Integrated multiple behavior models for abnormal crowd behavior detection[C]//Proc.2012 IEEE Southwest Symposium on Image Analysis and Interpretation.,Santa Fe,NM:IEEE Press,2012:113-116.
[3]LI C,HAN Z,YE Q,et al.Abnormal behavior detection via sparse reconstruction analysis of trajectory[C]//Proc.2011 Sixth International Conference on Image and Graphics.Hefei Anhui:[s.n.],2011:807-810.
[4]KRATZ L,NISHINO K. Anomaly detection in extremely crowded scenes using spatio-temporal motion pattern models[C]//Proc.IEEE Computer Vision and Pattern Recognition Workshops(CVPR 2009).Miami,F(xiàn)L:IEEE Press,2009:1446-1453.
[5]BENEZETH Y,JODOIN P M,SALIGRAMA V,et al.Abnormal events detection based on spatio-temporal co-occurences[C]//Proc.IEEE Computer Vision and Pattern Recognition Workshops(CVPR 2009).Miami,F(xiàn)L:IEEE Press,2009:2458-2465.
[6]LI X. HMM based action recognition using oriented histograms of optical flow field[J]. Electronics Letters,2007,43(10):560-561.
[7]KRATZ L,NISHINO K. Tracking pedestrians using local spatiotemporal motion patterns in extremely crowded scenes[J]. IEEE Trans.Pattern Analysis and Machine Intelligence,2012,34(5):987-1002.
[8]MEHRAN R,OYAMA A,SHAH M.Abnormal crowd behavior de-
徐凱航(1991—),碩士生,主研圖像處理與視頻分析;
彭懷亮(1988—),碩士生,主研圖像處理與視頻分析;
章東平(1970—),博士,副教授,主研圖像處理與視頻分析,為
本文通訊作者。tection using social force model[C]//Proc. IEEE Computer Vision and Pattern Recognition Workshops(CVPR 2009). Miami,F(xiàn)L:IEEE Press,2009:935-942.
[9]WU S,MOORE B E,SHAH M. Chaotic invariants of lagrangian particle trajectories for anomaly detection in crowded scenes[C]//Proc. IEEE Computer Vision and Pattern Recognition(CVPR2010).San Francisco,CA:IEEE Press,2010:2054-2060.
[10]MAHADEVAN V,LI W,BHALODIA V,et al.Anomaly detection in crowded scenes[C]//Proc. IEEE Computer Vision and Pattern Recognition(CVPR2010).San Francisco,CA:IEEE Press,2010:1975-1981.
[11]ZHANG D P,LU,Y F,JIANG X H,et al.Abnormal crowd motion detection with hidden markov model[J]. International Journal of Advancements in Computing Technology,2013,5(8):889-897.
[12]KIM J,GRAUMAN K.Observe locally,infer globally:a space-time MRF for detecting abnormal activities with incremental updates[C]//Proc.IEEE Computer Vision and Pattern Recognition Workshops(CVPR 2009). Miami,F(xiàn)L:IEEE Press,2009:2921-2928.
[13]FAIGLE U,SCHONHUTH A.Efficient tests for equivalence of hidden Markov processes and quantum random walks[J].IEEE Trans.Information Theory,2011,57(3):1746-1753.
[14]WANG X,MA X,GRIMSON W E L.Unsupervised activity perception in crowded and complicated scenes using hierarchical bayesian models[J]. IEEE Trans. Pattern Analysis and Machine Intelligence,2009,31(3):539-555.
[15]PATHAN S S,AL-HAMADI A,MICHAELIS B. Crowd behavior detection by statistical modeling of motion patterns[C]//Proc.2010 International Conference of Soft Computing and Pattern Recognition.Paris:IEEE Press,2010:81-86.
[16]GAO X,ZHANG K,TAO D,et al. Image super-resolution with sparse neighbor embedding[J]. IEEE Trans. Image Processing,2012,21(7):3194-3205.
[17]LI S,YIN H,F(xiàn)ANG L.Group-sparse representation with dictionary learning for medical image denoising and fusion[J]. IEEE Trans.Biomedical Engineering,2012,59(12):3450-3459.
[18]MEI X,LING H. Robust visual tracking and vehicle classification via sparse representation[J]. IEEE Trans. Pattern Analysis and Machine Intelligence,2011,33(11):2259-2272.
[19]HE R,ZHENG W S,HU B G,et al.Two-stage nonnegative sparse representation for large-scale face recognition[J]. IEEE Trans.Neural Networks and Learning Systems,2013,24(1):35-46.
[20]LU X,YUAN Y,YAN P.Image super-resolution via double sparsity regularized manifold learning[J].Circuits and Systems for Video Technology,2013,99(1):1-12.
[21]ZHANG X,YANG Y,JIAO L C.Manifold-constrained coding and sparse representation for human action recognition[J].Pattern Recognition,2013,46(7):1819-1831.
[22]ROWEIS S T,SAUL L K.Nonlinear dimensionality reduction by locally linear embedding[J]. Science,2000,290(5500):2323-2326.
[23]SAND P,TELLER S.Particle video:Long-range motion estimation using point trajectories[C]//Proc. 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.New York:IEEE Press,2006:2195-2202.
[24]LEE H,BATTLE A,RAINA R,et al.Efficient sparse coding algorithms[EB/OL].[2015-01-01].http://www.researchgate.net/publication/221620168_Efficient_sparse_coding_algorithms._NIPS.