劉文哲 智敏
摘要摘要:如何進(jìn)行適應(yīng)不同場(chǎng)景的人群異常檢測(cè)是視頻監(jiān)控領(lǐng)域的研究難點(diǎn)。目前主流的人群行為特征表達(dá)式是基于HOF的,其中基于多尺度MHOF是主流方法,但由于多尺度MHOF特征是基于等距劃分場(chǎng)景區(qū)域的局部特征,因而不是人類觀察外界場(chǎng)景的方式。團(tuán)塊特征是基本符合人類觀察事物的方式,因此提出基于Blob團(tuán)塊的MHOF特征提取算法,并聯(lián)合Hog特征,應(yīng)用多層遞歸神經(jīng)網(wǎng)絡(luò)提出了異常行為檢測(cè)的算法框架。在3個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明,該算法優(yōu)于基于多尺度MHOF特征的異常行為檢測(cè)方法。
關(guān)鍵詞關(guān)鍵詞:視頻監(jiān)控;異常行為檢測(cè);團(tuán)塊提取
DOIDOI:10.11907/rjdk.171656
中圖分類號(hào):TP317.4
文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2017)005018903
0引言
由于人群場(chǎng)景分析的巨大應(yīng)用價(jià)值,人群異常行為檢測(cè)已經(jīng)成為近幾年視頻監(jiān)控領(lǐng)域的研究熱點(diǎn),吸引了大量研究者關(guān)注。人群異常行為檢測(cè)指對(duì)人群場(chǎng)景中不符合規(guī)則的行為進(jìn)行檢測(cè)。這里不符合規(guī)則的行為即異常的定義往往帶有主觀性,比如可以把人群恐慌當(dāng)作異常行為,也可以把在場(chǎng)景中打架斗毆當(dāng)作異常行為,或者是在人行道上騎車等,而且視頻數(shù)據(jù)量巨大,依靠人工檢測(cè)不現(xiàn)實(shí),必須依靠計(jì)算機(jī)技術(shù)實(shí)現(xiàn)人群異常的自動(dòng)檢測(cè)。另外,人群密度高、模式變化快、場(chǎng)景中存在巨大遮擋等挑戰(zhàn),令傳統(tǒng)視頻監(jiān)控技術(shù)不能直接應(yīng)用于人群場(chǎng)景,這使人群異常行為檢測(cè)仍是一個(gè)有待解決的問(wèn)題,涌現(xiàn)出了大量相關(guān)研究,但仍然沒(méi)有被普遍接受的用于人群場(chǎng)景分析的問(wèn)題解決方案?;诖?,本文提出了基于深度學(xué)習(xí)的人群異常行為檢測(cè)方法。
主要工作包括:①提出基于團(tuán)塊的BMHOF運(yùn)動(dòng)特征提取方法;②將BMHOF運(yùn)動(dòng)特征與HOG靜態(tài)特征進(jìn)行聯(lián)合表達(dá)作為異常行為的檢測(cè)模型輸入;③應(yīng)用多層遞歸神經(jīng)網(wǎng)絡(luò)構(gòu)建異常行為檢測(cè)模型。
1相關(guān)工作
異常行為檢測(cè)領(lǐng)域包括個(gè)人異常行為檢測(cè)和人群異常行為檢測(cè)。其中,人群異常行為檢測(cè)正在成為研究熱點(diǎn)[1]。異常行為樣式各異,很難有一個(gè)明確的定義和界限,通常認(rèn)為異常行為有以下特點(diǎn):①偶爾發(fā)生;②無(wú)法提前預(yù)知;③可能和某個(gè)任務(wù)有關(guān)。目前在視頻監(jiān)控領(lǐng)域的異常行為檢測(cè)主要是針對(duì)人群的異常行為檢測(cè),人群異常檢測(cè)可被建模為“正?!惓!倍诸悊?wèn)題。
目前,對(duì)異常行為檢測(cè)的方法主要是監(jiān)督學(xué)習(xí)的方法,即預(yù)先對(duì)行為模式或異常行為的模型進(jìn)行定義,然后對(duì)待識(shí)別的行為進(jìn)行學(xué)習(xí)或匹配。Yang Cong等[2]提出了一種基于MHOF特征和稀疏表達(dá)的異常行為檢測(cè)方法,該方法通過(guò)對(duì)異常行為特征進(jìn)行字典學(xué)習(xí),獲得異常行為的表達(dá)方式,但該語(yǔ)義表達(dá)只能描述一些簡(jiǎn)單的異常行為,對(duì)過(guò)于復(fù)雜的或某些未知的異常行為無(wú)法檢測(cè);Si Wu等[3]提出用貝葉斯模型對(duì)人群的逃跑異常行為進(jìn)行識(shí)別,取得了良好效果,但是針對(duì)單個(gè)人的行為特征表達(dá)仍不夠完善;在文獻(xiàn)[4]中,提出采用HOG特征融合的方法提高人體識(shí)別精度;A Adam等[5]利用多個(gè)監(jiān)視器從視頻序列中提取運(yùn)動(dòng)目標(biāo)的光流特征并定義光流量級(jí),然后在此基礎(chǔ)上進(jìn)行異常行為檢測(cè)。
近年來(lái),深度學(xué)習(xí)在圖像識(shí)別領(lǐng)域表現(xiàn)出較高的識(shí)別準(zhǔn)確率,成為圖像識(shí)別領(lǐng)域的研究熱點(diǎn),在異常行為檢測(cè)方面也具有很高的檢測(cè)準(zhǔn)確率。文獻(xiàn)[6]提出了多尺度時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)的人群異常檢測(cè)方法,通過(guò)該方法來(lái)考慮幀與幀之間的時(shí)空關(guān)系,從而提高了檢測(cè)準(zhǔn)確率。
2異常行為檢測(cè)
算法框架如圖1所示,主要分為聯(lián)合靜態(tài)特征和基于團(tuán)塊的多尺度光流方向直方圖特征提取(Blob Based Multi-scal HOF,BMHOF)、基于深度遞歸神經(jīng)網(wǎng)絡(luò)的異常行為檢測(cè)模型訓(xùn)練和異常行為檢測(cè)模型測(cè)試3部分。首先進(jìn)行團(tuán)塊檢測(cè)提取運(yùn)動(dòng)人群的團(tuán)塊,同時(shí)計(jì)算光流場(chǎng),然后提取團(tuán)塊的紋理特征和運(yùn)動(dòng)特征,其中運(yùn)動(dòng)特征包括運(yùn)動(dòng)信息熵、平均速度,再應(yīng)用VLAD將運(yùn)動(dòng)特征和靜態(tài)特征進(jìn)行聯(lián)合特征表達(dá),最后訓(xùn)練時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)作為異常行為檢測(cè)模型,完成異常檢測(cè)模型構(gòu)建。
2.1基于團(tuán)塊的BMHOF特征提取與靜態(tài)特征聯(lián)合表達(dá)
2.1.1Blob團(tuán)塊檢測(cè)
基于Blob團(tuán)塊提取的特征更符合人類觀察現(xiàn)實(shí)世界的方式[8]。Blob團(tuán)塊提取的主要過(guò)程是當(dāng)檢測(cè)出前景并進(jìn)行二值化后,計(jì)算連通區(qū)域的外圍輪廓,如果輪廓目標(biāo)內(nèi)部存在空洞則不予考慮。
但是由于目標(biāo)可能存在斷裂的情況,所以需要將距離比較近的目標(biāo)輪廓合并。通過(guò)設(shè)定閾值,判斷目標(biāo)輪廓的外接矩形是否鄰接,如果鄰接,則在合并時(shí)取這些鄰接輪廓的外接矩形。接下來(lái)計(jì)算合并后的矩形參數(shù),包括矩形的寬高以及形心的位置。然后刪除寬高過(guò)小的矩形,以進(jìn)一步去除目標(biāo)之外的噪聲干擾。如果該目標(biāo)矩形符合一定條件,則認(rèn)為該團(tuán)塊為目標(biāo)團(tuán)塊。
2.1.2BMHOF特征提取
Blob分析的核心是連通區(qū)域檢測(cè)算法,它能夠?qū)⑷巳褐械牟灰?guī)則目標(biāo)進(jìn)行分割,降低前景噪聲。本文提出采用MHOF特征作為時(shí)空運(yùn)動(dòng)信息的特征表達(dá)。首先對(duì)視頻序列進(jìn)行光流場(chǎng)計(jì)算和團(tuán)塊提取,然后對(duì)視頻劃分序列段,根據(jù)式(2)序列段中幀的光流場(chǎng)求和,得到序列段中每個(gè)像素的光流和。
2.1.3靜態(tài)特征提取
主要采用紋理作為靜態(tài)特征,其中紋理特征主要采用Hog特征[4]。Hog特征是對(duì)圖像進(jìn)行分塊,獲得每個(gè)塊的紋理直方圖,在行人檢測(cè)方面效果非常好,因此本文采用Hog特征、輪廓特征以及灰度共生矩陣作為聯(lián)合靜態(tài)特征表達(dá)。
2.1.4基于VLAD的特征編碼
應(yīng)用VLAD特征編碼方法[7]聯(lián)合動(dòng)態(tài)特征和靜態(tài)特征共同表達(dá)運(yùn)動(dòng)圖像序列的特征。動(dòng)態(tài)特征具有時(shí)空信息,靜態(tài)特征則包含局部信息和全局信息。因此將兩者進(jìn)行統(tǒng)一聯(lián)合表達(dá)能夠同時(shí)利用運(yùn)動(dòng)圖像序列的時(shí)空信息和局部信息。聯(lián)合特征表達(dá)是通過(guò)將運(yùn)動(dòng)特征和靜態(tài)特征表達(dá)為一個(gè)特征向量,以實(shí)現(xiàn)運(yùn)動(dòng)視頻的特征表達(dá)。通過(guò)聯(lián)合視覺(jué)特征表達(dá),可有效利用時(shí)空信息和紋理信息。
2.2多層遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
首先將特征向量作為輸入層,多層神經(jīng)元作為隱層,訓(xùn)練結(jié)果分為異常和正常;然后用訓(xùn)練樣本對(duì)多層遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,根據(jù)輸出結(jié)果不斷調(diào)整連接權(quán)重,獲得神經(jīng)網(wǎng)絡(luò)每層的連接權(quán)重;最后測(cè)試階段將測(cè)試運(yùn)動(dòng)圖像序列,提取相同特征,采用與訓(xùn)練特征向量同樣的方法得到融合特征向量,輸入到已訓(xùn)練好的多層遞歸神經(jīng)網(wǎng)絡(luò)中,從而實(shí)現(xiàn)異常行為檢測(cè)。本文選擇隱層為三層的遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),學(xué)習(xí)率設(shè)置為0.01。
3實(shí)驗(yàn)
3.1數(shù)據(jù)集
實(shí)驗(yàn)采用3個(gè)數(shù)據(jù)集,分別是3個(gè)場(chǎng)景和3種異常行為。這3個(gè)數(shù)據(jù)集中有一個(gè)是公開數(shù)據(jù)集,即UCSD數(shù)據(jù)集,另外兩個(gè)數(shù)據(jù)集是從網(wǎng)絡(luò)上下載的,分別是人群異常行為數(shù)據(jù)集和稀疏人群的異常行為數(shù)據(jù)集。由于采用有監(jiān)督的學(xué)習(xí)方法,因此這些視頻文件需要人工標(biāo)注。對(duì)于每個(gè)數(shù)據(jù)集采用5折交叉驗(yàn)證方法來(lái)驗(yàn)證模型的有效性。
3.2評(píng)估方式
對(duì)于本文提出的方法,使用受試者工作特征曲線(Receiver Operating Characteristic Curve, ROC)對(duì)其進(jìn)行評(píng)估。ROC曲線的橫坐標(biāo)表示本身為負(fù)類被檢測(cè)為正類的比例,即假陽(yáng)性率(False Positve Rate,F(xiàn)PR);縱坐標(biāo)表示本身為正類被檢測(cè)為正類的比例,即真陽(yáng)性率(True Positive Rate,TPR)。
在兩個(gè)數(shù)據(jù)集上作了5折交叉驗(yàn)證,并使用閾值平均方法[9]求取5 折交叉驗(yàn)證的平均ROC 曲線。該方法在給定的閾值下得到每條ROC曲線對(duì)應(yīng)的點(diǎn),然后對(duì)這些點(diǎn)求均值,得到在該閾值下的平均值。變換閾值得到不同閾值下的平均值,最終得到5 折交叉驗(yàn)證的平均ROC曲線。同時(shí)本文采用異常檢測(cè)結(jié)果ROC曲線下的面積(Area Under Curve,AUC)作為算法的整體評(píng)價(jià)指標(biāo)。
3.3實(shí)驗(yàn)結(jié)果
分別在Scufflec數(shù)據(jù)集、Ped1數(shù)據(jù)集、Ped2數(shù)據(jù)集和crowdNormal數(shù)據(jù)集上,采用blobHogMHOF特征和MHOF特征在多層遞歸神經(jīng)網(wǎng)絡(luò)下繪制ROC曲線(見圖5~圖8)。從圖5的ROC曲線中可以發(fā)現(xiàn),采用blobHogMHOF特征的分類性能明顯好于采用MHOF特征。從圖6中可以得出,在Ped1數(shù)據(jù)集上基于blobHogMHOF方法的性能優(yōu)于僅使用MHOF特征的方法。主要原因是在Ped1數(shù)據(jù)集中是人群散步,同時(shí)增加Hog特征能更好地表達(dá)人體特征,從而提高了人群異常行為的檢測(cè)精度。
方法,針對(duì)基于MHOF特征方法的不足提出了基于Blob塊和HOG特征的MHOF特征表達(dá),即HOG-BMHOF特征表達(dá)方法,并提出基于HOG-BMHOF的人群異常檢測(cè)的算法框架。實(shí)驗(yàn)結(jié)果表明,本文提出的方法針對(duì)稀疏人群或密集人群的異常行為,特別是在打架等異常行為方面具有較好的識(shí)別率。但是改進(jìn)方法的不足之處主要是不具有實(shí)時(shí)性,其次是場(chǎng)景遷移后檢測(cè)效果不夠理想。今后的研究方向是在提高檢測(cè)實(shí)時(shí)性的同時(shí)能夠?qū)崿F(xiàn)場(chǎng)景遷移的異常行為檢測(cè)。
參考文獻(xiàn)參考文獻(xiàn):
[1]TENG LI,HUAN CHANG,MENG WANG,et al.Crowded scene analysis: a survey[J].IEEE Trans.on Circuits and Systems for Video Technology,2014,25(3):367386.
[2]YANG CONG,JUNSONGYUAN,JILIU.Abnormal event detection in crowded scenes using sparse representation[J].Pattern Recognition,2013(46):18511864.
[3]SI WU,HAUSAN WONG,ZHIWEN YU.A bayesian model for crowd escape behavior detection[J].IEEE Transactions on Circuits and Systems for Video Technology,2014,24(1):8598.
[4]GUO JINXIN,CHEN WE.Face recognition based on hog multifeature fusion and random forest[J]Computer Science,2013,40(10): 279282.
[5]A ADAM,E RIVLIN.Robust realtime unusual event detection using multiple fixedlocation monitors[J].Pattern Analysis and Machine Intelligence,2008,30(3): 555560.
[6]CAI RUICHU,XIE WEIHAO,HAO ZHIFENG,et al.Abnormal crowd detection based on multiscale recurrent neural network[J].Journal of Software,2015,26(11): 28842896.
[7]HERVE JEGOU,MATTHIJS DOUZE,CORDELIA SCHMID,et al.Aggregating local descriptors into a compact image representation[C].2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2010:33043311.
[8]SHI C,XU SHENGRONG JING RENJIE,et al.Blobbased feature extraction[J].Chinese Journal of Computers,1997,20(12):11241128.
[9]FAWCETT T.ROC graphs: notes and practical considerations for researchers[J].Machine Learning,2009.
責(zé)任編輯(責(zé)任編輯:黃?。?