逯 鵬,張利亞,黃石磊,李奇航,張 微
(鄭州大學(xué) 電氣工程學(xué)院,河南 鄭州 450001)
?
基于稀疏超完備的異常行為檢測(cè)算法
逯 鵬,張利亞,黃石磊,李奇航,張 微
(鄭州大學(xué) 電氣工程學(xué)院,河南 鄭州 450001)
視頻異常行為檢測(cè)的核心問題是如何從海量數(shù)據(jù)中理解行為.提出一種新的基于視覺稀疏超完備表示機(jī)制的特定場(chǎng)景中視頻異常行為檢測(cè)算法,針對(duì)視頻中感興趣的點(diǎn)提取局部有效信息,提高數(shù)據(jù)處理效率.首先,提取訓(xùn)練樣本的時(shí)空興趣點(diǎn),計(jì)算局部時(shí)空特征;其次,將該特征輸入稀疏超完備模型,訓(xùn)練得到一組稀疏基;然后,利用上述基對(duì)待測(cè)視頻進(jìn)行重構(gòu),通過局部時(shí)空特征重構(gòu)的差異實(shí)現(xiàn)異常行為檢測(cè);最后,提出對(duì)不同視頻的稀疏基更新算法.標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)的實(shí)驗(yàn)表明,該算法能夠有效解決異常行為檢測(cè)問題,檢測(cè)準(zhǔn)確率高,錯(cuò)誤警報(bào)率低.
異常行為檢測(cè);稀疏超完備;時(shí)空興趣點(diǎn)
視頻中異常行為檢測(cè)是目前計(jì)算機(jī)視覺的研究熱點(diǎn).常用的方法是模型學(xué)習(xí),根據(jù)學(xué)習(xí)形成的數(shù)學(xué)統(tǒng)計(jì)模型或已知的先驗(yàn)?zāi)P停业揭曨l行為的最佳匹配模型[1].例如,隱馬爾可夫模型(HMMs)、動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DBNs)、條件隨機(jī)場(chǎng)模型(CRF)等經(jīng)典模型,以及一些在經(jīng)典模型基礎(chǔ)上進(jìn)行改進(jìn)的方法,如STR匹配方法[2]、主題隱馬爾科夫模型方法[3]和融合聲音與視頻信息的隱隨機(jī)場(chǎng)模型[4]等.
然而,提取高度詳細(xì)特征信息則會(huì)導(dǎo)致計(jì)算復(fù)雜度呈指數(shù)增長(zhǎng)[5].因此,如何在保證提取足夠的有效特征信息的基礎(chǔ)上減少計(jì)算量是視頻異常行為檢測(cè)要解決的關(guān)鍵問題.事實(shí)上,根據(jù)檢測(cè)任務(wù)僅提取少量關(guān)鍵特征[6],能有效提高算法的效率.而人類視覺系統(tǒng)的稀疏響應(yīng)能夠從包含大量冗余的場(chǎng)景中快速提取有效信息,解決了高維、海量數(shù)據(jù)的實(shí)時(shí)處理問題,這為目標(biāo)檢測(cè)、異常行為檢測(cè)等問題提供了減少數(shù)據(jù)存儲(chǔ)量和計(jì)算量的新思路[7].文獻(xiàn)[8]利用該思路建立了基于稀疏超完備表示的目標(biāo)檢測(cè)算法,實(shí)現(xiàn)了非結(jié)構(gòu)化二維圖像場(chǎng)景中的目標(biāo)檢測(cè).在此基礎(chǔ)上,解決運(yùn)動(dòng)目標(biāo)的異常行為檢測(cè)問題則需要增加時(shí)間維度.
基于該思路,針對(duì)特定場(chǎng)景的視頻異常行為檢測(cè)任務(wù),筆者以包含視頻高層語(yǔ)義的時(shí)空興趣點(diǎn)作為切入點(diǎn),提取視頻的局部特征信息,建立稀疏超完備計(jì)算模型,設(shè)計(jì)感受野學(xué)習(xí)和異常行為檢測(cè)等關(guān)鍵算法,通過多類型視頻異常行為檢測(cè),驗(yàn)證模型和算法的有效性.
如何表示視頻序列及行為并建立可計(jì)算數(shù)學(xué)模型,是異常行為檢測(cè)要解決的首要問題.目標(biāo)跟蹤和模型匹配是行為表示的常用方法,但都需要提取高度詳細(xì)的輪廓信息[9],這很難直接通過包含噪聲信號(hào)的真實(shí)視頻實(shí)現(xiàn).時(shí)空興趣點(diǎn)(spatial temporal interesting point,STIP)只提取視頻的局部特征而不是全局特征作為數(shù)據(jù)處理基礎(chǔ),能有效解決該問題.
時(shí)空興趣點(diǎn)即視覺關(guān)注的焦點(diǎn),針對(duì)視頻三維場(chǎng)景特點(diǎn),Laptev[10]將二維圖像中的Harris角點(diǎn)檢測(cè)算子擴(kuò)展到三維空間,提出了時(shí)空興趣點(diǎn)的概念,不僅包含人體動(dòng)作姿態(tài)的空間信息,還包含運(yùn)動(dòng)的動(dòng)態(tài)時(shí)間信息,開始了時(shí)空局部特征點(diǎn)在視頻領(lǐng)域的研究.圖1為針對(duì)皇家理工學(xué)院行為數(shù)據(jù)庫(kù)[11](KTH數(shù)據(jù)庫(kù))視頻段的時(shí)空興趣點(diǎn)提取結(jié)果.可以發(fā)現(xiàn),打拳動(dòng)作的STIP集中在手臂上,而跑步動(dòng)作的STIP則集中在腿、胳膊和頭部這些運(yùn)動(dòng)的部位.
圖1 時(shí)空特征點(diǎn)的提取結(jié)果
獲得STIP后,結(jié)合周圍時(shí)空信息構(gòu)建STIP描述符,完成異常行為語(yǔ)義描述,形成特定行為特征.為同時(shí)表示行為的靜態(tài)和動(dòng)態(tài)特征,采用梯度信息(HOG)和光流信息(HOF)的組合特征作為描述符.
將HOG/HOF描述符推廣到三維視頻的動(dòng)作識(shí)別中,具體方法如下:采用多尺度時(shí)空滑動(dòng)窗,如圖2,在每個(gè)STIP周圍取一定大小的時(shí)空塊,所取時(shí)空塊為Δt(τ)=8τ,Δx(δ)=Δy(δ)=18δ,空間維度δ=1,時(shí)間維度τ=2.5.再將每個(gè)時(shí)空塊劃分為nx×ny×nz的網(wǎng)格,網(wǎng)格是更小的胞體積.對(duì)于每個(gè)胞體積,計(jì)算 4維 HOG和5維HOF.每個(gè)時(shí)空塊中,胞體積個(gè)數(shù)是18 (3*3 pixels*2 frames),那么其HOG特征為72維,而HOF特征為90維,HOG/HOF特征共162維.
圖2 時(shí)空滑動(dòng)窗
特定場(chǎng)景下正常行為與異常行為的HOG/HOF特征存在差異,通過對(duì)特征數(shù)據(jù)的處理可以檢測(cè)出視頻中的異常行為.據(jù)此,視頻異常行為檢測(cè)可轉(zhuǎn)化為超完備稀疏編碼的問題.
視頻異常行為檢測(cè)整體基本思想是:首先,定義特定環(huán)境下何種行為為正常行為(如機(jī)場(chǎng)的進(jìn)口處定義行人進(jìn)入為正常行為,行人出去則為異常行為),提取出無(wú)異常行為的視頻序列STIP,在每個(gè)STIP周圍計(jì)算其特征描述符Xi;其次,將Xi輸入稀疏超完備模型進(jìn)行訓(xùn)練,生成包含預(yù)定義的正常行為的稀疏基W,W的列向量是用來(lái)重構(gòu)信號(hào)的特征基;然后,提取待測(cè)視頻的STIP和HOG/HOF局部特征X′,計(jì)算X′關(guān)于W最優(yōu)表示的重構(gòu)誤差,通過重構(gòu)誤差判斷視頻中的異常行為.需要指出的是,稀疏編碼模型常見的輸入是一個(gè)向量,而此處輸入?yún)s是一個(gè)事件,包含時(shí)間和空間局部信息,是一簇向量.
2.1 稀疏超完備計(jì)算模型
視覺稀疏表示的圖像可以逼近分解為:基函數(shù)集合分解系數(shù)的線性組合.
(1)
式中:I代表圖像;Ai是視皮層V1區(qū)感受野特征基向量,為n維列向量;m是基向量的個(gè)數(shù);si表示神經(jīng)元對(duì)不同基圖像的響應(yīng)系數(shù),對(duì)應(yīng)主視皮層V1區(qū)簡(jiǎn)單細(xì)胞神經(jīng)元的活動(dòng)狀態(tài);N是高斯噪聲;Ai與si均未知.
(2)
對(duì)于T個(gè)樣本數(shù)據(jù)xt(t=1,2,…,T),則樣本概率密度函數(shù)的對(duì)數(shù)似然函數(shù):
logL(w1,…,wn;x1,…,xT)=
(3)
采用得分匹配直接估計(jì)wk,感受野wk=(wk1,…,wkn)約束為單位化形式.為簡(jiǎn)化Z(W)的計(jì)算,取數(shù)據(jù)向量的對(duì)數(shù)密度函數(shù)logp(x),由此定義得分函數(shù)為:
ψ(x;W,α1,…,αm)=xlogp(x;W,α1,…,αm)=
(4)
g是G的一階導(dǎo)數(shù),g=G′.將數(shù)據(jù)得分函數(shù)和模型得分函數(shù)的平方距離作為目標(biāo)函數(shù):
(5)
(6)
式中:學(xué)習(xí)速率η(t)是負(fù)梯度方向步長(zhǎng),由此得到感受野的超完備集表示.正常行為的稀疏基W是根據(jù)公式(5)最優(yōu)化目標(biāo)函數(shù)J(w)的結(jié)果.對(duì)于超完備稀疏編碼模型S=WX,W學(xué)習(xí)算法如下所示.
輸入:樣本視頻特征數(shù)據(jù)集X;
輸出:稀疏基W.
具體步驟:
(1)去除xi的局部均值;
(2)用PCA對(duì)X白化、降維,并投影到白化空間Z=VX;
(3)初始化Ws為單位陣;開始迭代過程;
(4)計(jì)算Y=Ws×Z;
(5)計(jì)算初始點(diǎn)梯度J(w(0)),沿負(fù)梯度方向移動(dòng),對(duì)t=1,2,…,按公式(6)最小化W,并歸一化為單位向量;更新參數(shù)α;
(6)如果norm(ΔW)<ε則停止迭代;否則,返回步驟4;
(7)停止學(xué)習(xí),將Ws反投影到原視頻空間得W=WsV;
(8)算法結(jié)束.
2.2 異常行為檢測(cè)算法
對(duì)于待測(cè)事件X′,最小化目標(biāo)函數(shù)J(w),定義最優(yōu)化結(jié)果J(X′,w)為重構(gòu)誤差. 正常行為的特征能夠通過W進(jìn)行表達(dá),重構(gòu)誤差比較小.包含異常行為的視頻特征通過W進(jìn)行表達(dá)的重構(gòu)誤差相對(duì)較大,故可以通過重構(gòu)誤差判斷視頻中的異常行為.如果重構(gòu)誤差大于閾值,如式(7)所示,則判斷為異常行為;否則為正常行為.
J(X′,w,α)>ξ.
(7)
閾值ξ的大小可根據(jù)檢測(cè)異常行為的靈敏度需要設(shè)定.正常行為視頻通過稀疏基表達(dá)時(shí)也會(huì)產(chǎn)生較小的重構(gòu)誤差,閾值ξ的設(shè)定越接近正常行為的重構(gòu)誤差,檢測(cè)的靈敏度越高;閾值越偏離正常行為的重構(gòu)誤差,檢測(cè)的靈敏度越低.算法流程如圖3所示.
圖3 整體算法流程圖
2.3 稀疏基更新算法
由于視頻環(huán)境因素的動(dòng)態(tài)性,最初訓(xùn)練獲得的稀疏基,在后續(xù)視頻異常行為檢測(cè)中就可能不是最優(yōu)基.因此,采用稀疏基更新算法,將已判斷為正常的行為加入新的稀疏基.對(duì)于已檢測(cè)的視頻中τ個(gè)時(shí)空塊,為節(jié)省數(shù)據(jù)的內(nèi)存空間及優(yōu)化計(jì)算速度,稀疏基更新算法采用隨機(jī)梯度下降法,新稀疏基Wτ由Wτ-1和Xτ計(jì)算得出,如式(8):
目前對(duì)異常行為的檢測(cè),多數(shù)定位于簡(jiǎn)單的肢體運(yùn)動(dòng).而在實(shí)際應(yīng)用中通常需要結(jié)合特定場(chǎng)景判斷行為異常.為此本文結(jié)合一定場(chǎng)景設(shè)計(jì)實(shí)驗(yàn).表1為重構(gòu)誤差值和異常行為檢測(cè)結(jié)果.
實(shí)驗(yàn)視頻數(shù)據(jù)取自P. M. Jodoin和Adam數(shù)據(jù)庫(kù),分別對(duì)Canoe、Subway Exit和Subway Entrance三段視頻做出異常檢測(cè).源代碼開發(fā)工具為MatlabR2010b和STIP1.1. Matlab工具用于形成稀疏基和計(jì)算重構(gòu)誤差,STIP1.1用于提取時(shí)空興趣點(diǎn),并用高維特征表示.
表1 重構(gòu)誤差值和異常行為檢測(cè)結(jié)果
取Adam兩段視頻(地鐵進(jìn)口,96 min;地鐵出口,43 min)的前10 min進(jìn)行異常行為檢測(cè),本文算法與文獻(xiàn)[12]及[7]檢測(cè)結(jié)果如表2所示.可以看出,本文算法不但異常行為發(fā)現(xiàn)率高,而且產(chǎn)生錯(cuò)誤警報(bào)率低.
表2 地鐵進(jìn)口與出口處視頻異常行為分析結(jié)果
圖4~圖6為異常行為檢測(cè)結(jié)果.圖4中,水面上無(wú)船只經(jīng)過為正常情況,當(dāng)出現(xiàn)行駛船只檢測(cè)出異常.圖5和圖6分別為地鐵進(jìn)口和出口視頻異常行為檢測(cè)結(jié)果.圖中進(jìn)口處,出現(xiàn)行人出站時(shí)檢測(cè)出異常;而出口處則相反.
圖4 水面船只運(yùn)動(dòng)視頻異常行為檢測(cè)
圖5 地鐵進(jìn)口視頻異常行為檢測(cè)
圖6 地鐵出口視頻異常行為檢測(cè)
基于視覺稀疏超完備計(jì)算理論,提出一種新的異常行為檢測(cè)算法.由實(shí)驗(yàn)結(jié)果可知,通過時(shí)空興趣點(diǎn)、梯度和光流局部信息特征細(xì)致描述物體的運(yùn)動(dòng)屬性,進(jìn)而利用稀疏超完備方法,能夠準(zhǔn)確的檢測(cè)出視頻中的異常行為.驗(yàn)證了該算法適用于特定場(chǎng)景的異常行為檢測(cè),表明算法的可行性和有效性.群體異常行為檢測(cè)也是計(jì)算機(jī)視覺領(lǐng)域的重要前沿課題[13],后續(xù)工作是研究這種方法對(duì)于群體異常行為檢測(cè)的效果和方式.
[1] POPOOLA O P, WANG K J. Video-based abnormal human behavior recognition-a review [J].IEEE Trans Syst Man Cybern, 2012, 42(6): 865-878.
[2] RYOO M S, AGGARWAL J K. Spatio-temporal relationship match: Video structure comparison for recognition of complex human activities[C]//IEEE International Conference on Computer Vision. New York, USA: IEEE Press, 2009:1593-1600.
[3] 朱旭東,劉志鏡. 基于主題隱馬爾科夫模型的人體異常行為識(shí)別[J]. 計(jì)算機(jī)科學(xué),2012,39(3): 251-255.
[4] LIN J, SUN Y,WANG W Q. Violence detection in movies with auditory and visual cues [C]//Computational Intelligence and Security. Los Alamites, USA: IEEE Press, 2010, 561-565.
[5] UMAKANTHAN S, DENMAN S, FOOKES C,et al. Semi-binary based video features for activity representation [C]//IEEE International Conference on Digital Image Computing: Techniques and Applications. New York, USA: IEEE Press, 2013: 1-7.
[6] ZHAO B, LI F F, XING E P. Online detection of unusual events in videos via dynamic sparse coding [C]//IEEE International Conference on Computer Vision and Pattern Recognition. Piscataway,NI, USA: IEEE Press, 2011:3313-3320
[7] CONG Y, YUAN J S, LIU J. Sparse reconstruction cost for abnormal event detection [C]//IEEE International Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE Press, 2011: 3449-3456.
[8] 逯鵬,張姍姍,劉馳,等. 基于稀疏超完備表示的目標(biāo)檢測(cè)算法[J]. 儀器儀表學(xué)報(bào), 2013,34(6): 1273-1278.
[9] BREGONZIO M, XIANG T, GONG S G. Fusing appearance and distribution information of interest points for action recognition [J]. Pattern Recognition. 2011, 45(3): 1220-1234.
[10]LAPTEV I, LINDEBERG T. Space-time interest points[C]//In Proceedings of the International Conference on Computer Vision. Los Alamites, USA: IEEE Press, 2003: 432-439.
[11]SCHULDT C, LAPTEV I, CAPUTO B. Recognizing human actions: a local SVM approach [C]. ICPR, Los Alamites, USA: IEEE Press, 2004: 32-36.
[12]ADAM A, RIVLIN E, SHIMSHONI I, et al. Robust real-time unusual event detection using multiple fixed-location monitors[J].IEEE Trans on Pattern Anal Mach Intell, 2008, 30(3): 555-560.
[13]逯鵬,梁玉,陳樹偉.基于角點(diǎn)動(dòng)能的視頻群體異常行為檢測(cè)[J].鄭州大學(xué)學(xué)報(bào)(工學(xué)版),2015,36(3):20-24.
Abnormal Behavior Detection Algorithm Based on Sparse Overcomplete Representation
LU Peng, ZHANG Liya, HUANG Shilei, LI Qihang, ZHANG Wei
(School of Electrical Engineering, Zhengzhou University, Zhengzhou 450001, China)
The focus question of video abnormal behavior detection was how to illustrate the behavior correctly through analysis of huge amounts of data. A new algorithm was proposed based on visual sparse overcomplete representation mechanism to extract local effective information about the interest points in the video of specific scenario, which could improve the efficiency of data processing. Firstly, the algorithm extracted the local spatial temporal interesting points (STIP) in training samples. At the same time it calculated the local spatial temporal characteristics. Then it put the characteristics into sparse overcomplete representation model to get a set of sparse matrix after training. Finally, it reconstructed the query video using the aforementioned matrix to detect abnormal behavior through the reconstruction error of local spatial temporal characteristics. In addition, the updated algorithm of sparse matrix function for different videos was proposed. Experiment results on standard database showed that our algorithm could detect abnormal behavior effectively and with higher accuracy and lower false alarm.
abnormal behavior detection; sparse overcomplete representation; spatial temporal interesting points
2015-10-28;
2016-01-17
國(guó)家自然科學(xué)基金資助項(xiàng)目(60841004,60971110,61172152);河南省青年骨干教師資助計(jì)劃(2012GGJS-005)
逯鵬(1974—),男,河南滑縣人,鄭州大學(xué)副教授,博士,主要從事復(fù)雜視覺圖像信息處理、腦機(jī)接口、復(fù)雜網(wǎng)絡(luò)等研究,E-mail:lupeng@zzu.edu.cn.
1671-6833(2016)06-0072-05
TP2
A
10.13705/j.issn.1671-6833.2016.03.031