聶豪 熊昕 郭原東 陳小輝 張上
摘 ?要: 針對傳統(tǒng)的異常行為檢測算法僅使用RGB圖像作為網(wǎng)絡(luò)的輸入,而未考慮到視頻序列中隱藏運動信息的問題,文中提出一種基于雙流卷積神經(jīng)網(wǎng)絡(luò)的視頻異常行為檢測算法。該算法分別使用RGB圖像與視頻幀間的光流信息作為兩個網(wǎng)絡(luò)分支的輸入來學(xué)習(xí)空間維信息與時間維信息,并使用長短時神經(jīng)網(wǎng)絡(luò)來建模長時視頻幀間的依賴關(guān)系,從而得到最終的行為分類結(jié)果。仿真測試結(jié)果表明,所提出的方法在UCSD Ped1、Shanghai Tech和Pedestrian 2數(shù)據(jù)集上均能取得較好的識別效果,且使用幀間運動信息能夠顯著提升異常行為檢測性能。
關(guān)鍵詞: 視頻異常行為; 異常行為識別; 深度學(xué)習(xí); 行為分類; 網(wǎng)絡(luò)訓(xùn)練; 仿真測試
中圖分類號: TN926?34; TP391.4 ? ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)24?0110?03
Video abnormal behavior identifying algorithm based on deep learning
NIE Hao, XIONG Xin, GUO Yuandong, CHEN Xiaohui, ZHANG Shang
(School of Computer and Information, China Three Gorges University, Yichang 443000, China)
Abstract: In allusion to the problem that, in the traditional abnormal behavior detection algorithms, only the RGB image is used as the input of the network, but the motion information hidden in video sequence is not considered, a video abnormal behavior detection algorithm based on two?stream convolutional neural network is proposed. In the algorithm, the optical flow information between RGB image and video frame is used as input of the two network branches to learn spatial dimension information and time dimensional information, and the long short?term neural network is used to build a model of the dependency relationship between long?term video frames, so as to get the final result of the behavior classification. The simulation testing results show that the proposed method can achieve better recognition results on the datasets of UCSD Ped1, Shanghai Tech and Pedestrian 2, and the use of inter?frame motion information can significantly improve the detection performance of abnormal behavior.
Keywords: video abnormal behavior; abnormal behavior identification; deep learning; behavior classification; network training; simulation testing
0 ?引 ?言
近年來,為了維護社會穩(wěn)定與國家安全,各地大力推進視頻監(jiān)控系統(tǒng)的建設(shè)[1]。從海量監(jiān)控視頻中提取有用的信息,檢測視頻中的異常行為與事件需要大量工作人員長時間對監(jiān)控畫面保持高度注意力[2?4]。然而,單純依賴人工檢測的方法極易導(dǎo)致誤報、漏檢等情況[5]。因此,如何從海量監(jiān)控視頻中提取有用的信息并提高突發(fā)事件與異常行為的識別精度,在安防與社會安全領(lǐng)域具有廣泛的經(jīng)濟與應(yīng)用價值[6]。
視頻異常行為檢測即在一段視頻中出現(xiàn)異常時,能夠及時對該事件進行分類并發(fā)現(xiàn)異常行為的起始幀[7]。為了有效區(qū)分出視頻中的正常事件與異常事件,需要從視頻序列中提取出相關(guān)特征并對其進行分類。在傳統(tǒng)特征提取方法中,研究人員經(jīng)常使用時間與空間特征對視頻目標的運動模式進行建模,如方向梯度直方圖特征、光流直方圖特征、動態(tài)紋理特征和社會力模型等[8?9]。
目前,隨著深度神經(jīng)網(wǎng)絡(luò)在工業(yè)界與學(xué)術(shù)界的廣泛應(yīng)用和發(fā)展,其在語音識別、自然語言處理和計算機視覺等領(lǐng)域取得了較高的準確率與較好的效果。因此,越來越多的領(lǐng)域開始使用深度神經(jīng)網(wǎng)絡(luò)來解決視頻異常行為檢測問題。如文獻[10]提出一種AMDN網(wǎng)絡(luò)通過構(gòu)建級聯(lián)去噪自編碼網(wǎng)絡(luò)來提取運動目標的外觀及運動信息,并使用單類支持向量機對特征進行分類與判定。文獻[11]構(gòu)建一種時空堆棧自編碼網(wǎng)絡(luò)STSAE來建模視頻的時空特征,STSAE同時將多幀圖片作為網(wǎng)絡(luò)輸入,從而利用視頻幀間的時序信息。
為了驗證僅使用RGB圖像與運動信息作為輸入時,異常行為檢測的精度。本文在表1中也列出了僅使用RGB圖像作為輸入與同時使用RGB圖像和光流信息作為輸入時,網(wǎng)絡(luò)對異常行為的識別精度。從表1可以看出,加入幀間運動信息能夠明顯提升異常行為檢測網(wǎng)絡(luò)的性能,表明本文所提出的雙流網(wǎng)絡(luò)的有效性。
4 ?結(jié) ?論
本文提出一種基于雙流卷積神經(jīng)網(wǎng)絡(luò)的視頻異常行為檢測算法。該網(wǎng)絡(luò)分別使用兩個網(wǎng)絡(luò)分支來學(xué)習(xí)空間維信息與時間維信息,使用長短時神經(jīng)網(wǎng)絡(luò)來建模長時視頻幀間的依賴關(guān)系,從而得到最終的行為分類結(jié)果。通過在UCSD Ped1、Shanghai Tech 與Pedestrian 2數(shù)據(jù)集上的測試結(jié)果表明,相比其他算法,本文方法在各測試數(shù)據(jù)集中均取得了較好的識別效果,且同時證明了使用幀間運動信息能夠有效提升異常行為檢測的性能。
注:本文通訊作者為張上。
參考文獻
[1] CARREIRA J, ZISSERMAN A. Quo vadis, action recognition? A new model and the kinetics dataset [J]. IEEE computer society, 2017(11): 433?445.
[2] LU X S, YAO H X, ZHAO S C, et al. Action recognition with multi?scale trajectory?pooled 3D convolutional descriptors [J]. Multimedia tools and applications, 2017, 78(3): 1?17.
[3] 夏清.視頻監(jiān)控中的人群異常行為檢測研究[D].成都:電子科技大學(xué),2019.
[4] 謝逸,張競文,李韜,等.基于視頻監(jiān)控的地鐵施工不安全行為檢測預(yù)警[J].華中科技大學(xué)學(xué)報(自然科學(xué)版),2019,47(10):46?51.
[5] ULLAH A, AHMAD J, MUHAMMAD K, et al. Action recognition in video sequences using deep bi?directional LSTM with CNN features [J]. IEEE access, 2017, 19(9): 1?16.
[6] DAS S, KOPERSKI M, BREMOND F, et al. Deep?temporal LSTM for daily living action recognition [C]// 2018 15th IEEE International Conference on Advanced Video and Signal Based Surveillance. Annapolis: IEEE, 2018: 101?123.
[7] WANG Y B, LONG M S, WANG J M, et al. Spatiotemporal pyramid network for video action recognition [C]// IEEE Conference on Computer Vision and Pattern Recognition. Augusta: IEEE, 2017: 28?42.
[8] WURM M F, ARTEMENKO C, GIULIANI D, et al. Action at its place: contextual settings enhance action recognition in 4~8 year old children [J]. Developmental psychology, 2017, 53(4): 662?670.
[9] WANG Song, DANG Jianwu, WANG Yangping, et al. Research on real?time action recognition approach [J]. Computer engineering and applications, 2017, 53(9): 86?93.
[10] CHEN K, DING G G, HAN J G. Attribute?based supervised deep learning model for action recognition [J]. Frontiers of computer science, 2017, 11(2): 1616?1629.
[11] ZHANG G L, JIA S M, LI X Z, et al. Weighted score?level feature fusion based on Dempster?Shafer evidence theory for action recognition [J]. Journal of electronic imaging, 2018, 27(1): 19?36.
[12] 王杰,張曦煌.基于圖卷積網(wǎng)絡(luò)和自編碼器的半監(jiān)督網(wǎng)絡(luò)表示學(xué)習(xí)模型[J].模式識別與人工智能,2019,32(4):317?325.
[13] 韓雪,馮桂.三維視頻的深度圖快速編碼算法[J].通信技術(shù),2018,51(3):575?582.
[14] MAHADEVAN V, LI W X, BHALODIA V, et al. Anomaly detection in crowded scenes [C]// IEEE Conference on Computer Vision and Pattern Recognition. Bismarck: IEEE, 2010: 134?142.
[15] HUANG G, LIU Z, LAURENS V D M, et al. Densely connected convolutional networks [J]. IEEE computer society, 2016(7): 243?249.
[16] HASAN M, CHOI J, NEUMANN J, et al. Learning temporal regularity in video sequences [J]. IEEE computer society, 2016(2): 86?93.
作者簡介:聶 ?豪(1995—)男,湖北黃岡人,碩士研究生,研究方向為深度學(xué)習(xí)、圖像識別、基于視覺的人體行為分析。
張 ?上(1979—)男,湖北宜昌人,博士,副教授,研究方向為物聯(lián)網(wǎng)技術(shù)、計算機應(yīng)用技術(shù)。