• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于深度學習的異常行為識別方法

      2018-05-17 09:30:05楊銳羅兵郝葉林常津津
      五邑大學學報(自然科學版) 2018年1期
      關鍵詞:時序準確率卷積

      楊銳,羅兵,郝葉林,常津津

      ?

      一種基于深度學習的異常行為識別方法

      楊銳,羅兵,郝葉林,常津津

      (五邑大學 信息工程學院,廣東 江門 529020)

      異常行為識別與檢測在安防領域有廣泛的應用前景,但現(xiàn)有的異常行為識別方法時序信息利用率低,準確率和處理速度還難以滿足實際需要. 本文采用三維密集連接深度網(wǎng)絡結構對采集視頻的時序和空間特征進行基于深度學習的建模,對打架、徘徊、搶劫這三類異常行為以及正常行為類進行識別,采用多個可變時序深度的卷積核,并結合深度可分離卷積層重新設計了時序過渡層,更多地利用輸入信號中的時序信息. 模擬實驗結果表明,本文提出的改進方法準確率達92.5%,進一步提高了模型的準確率和泛化性能.

      異常行為;動作識別;深度學習;時序過渡

      異常行為識別是行為識別中一個具體化的子類,相對其他種類的行為識別,異常行為的研究顯得更具有現(xiàn)實意義,它關乎人們切身利益——安全,異常行為的發(fā)生通常標志著異常事件的發(fā)生. 自動柜員機(ATM)24小時工作無人值守,為日常生活帶來了方便的同時也存在安全隱患,ATM機取款后被搶劫的犯罪事件常有發(fā)生. 通過ATM的視頻監(jiān)控自動識別取款室范圍內(nèi)的異常行為顯得尤為重要. 當識別出搶劫、打架、徘徊等行為時,系統(tǒng)自動報警并主動暫?,F(xiàn)金支付、暫停退卡或鎖閉防護室門等后續(xù)動作,可以有效預防ATM機前的犯罪行為. 因此,基于視頻的異常行為識別是需要研究的關鍵技術.

      深度學習理論在靜態(tài)圖像識別和檢測上的優(yōu)越表現(xiàn)為具有時間序列的視頻行為識別研究提供了新的思路,使得行為識別和深度學習理論的緊密結合成為了智能視頻分析領域的研究熱點[1]. 與此同時,現(xiàn)有行為識別的研究表明,深度學習比傳統(tǒng)的機器學習在處理具有復雜動作的視頻行為識別中更有效. 本文利用深度學習方法對特定場景下的ATM機前異常行為進行識別,設計了具有密集連接特性的深度網(wǎng)絡,挖掘時序線索并結合深度可分離卷積(Depthwise Separable Convolution)[2],充分利用了動作間的時序信息、空間信息進行識別,使異常行為識別性能明顯改善.

      1 深度學習與異常行為識別

      1.1 異常行為的定義

      異常行為的定義取決于應用場景,并且會受到一定程度的主觀影響,從而導致同一種行為在不同場景下會有不同的定義,例如從暴恐案發(fā)生現(xiàn)場逃離的人群,是一種典型的異常行為,而參加馬拉松賽跑的人群則是一種正常行為,同樣都是人群跑動行為卻有著截然不同的定義,因此對異常行為作出明確的定義往往是不太合適的. 但一般而言,異常行為應該具備低頻性、可疑性以及非典型性. 結合具體的應用場景來說,對異常行為的定義是可行的,也是非常必要的. 正是由于異常行為定義的不確定性因素在的影響,使得同一種算法適用于通用的應用場景變得不切實際. 為了最小化這種不確定性因素的影響,需具體問題具體分析,首先需要確定應用的場景,根據(jù)應用場景來分析并定義異常行為類別.

      1.2 異常行為的分類

      單人異常行為(如徘徊、越界、跌倒等)是只需一個人參與的一類異常行為. 交互行為異常(如搶劫、打架等)通常指雙方發(fā)生肢體沖突的一類異常行為. 群體異常行為(如因騷亂造成的人群逃離)指由多人形成的一個不可分的、整體上發(fā)生的一類異常行為,需綜合考慮群體密度與運動特征. 由此可見,針對ATM機所處的場景,適合研究單人異常行為中的徘徊以及交互異常行為中的打架和搶劫這3類異常行為.

      1.3 基于深度學習的異常行為識別

      深度學習目前已廣泛應用于行為識別,但鮮有將深度學習專門用于特定場景異常行為識別的.而現(xiàn)有的大型標準數(shù)據(jù)集通常都是生活中常見的視頻行為數(shù)據(jù),也使得基于深度學習的異常行為識別研究難以推廣.

      卷積神經(jīng)網(wǎng)絡在諸如分類、檢測、分割等針對靜態(tài)圖像的計算機視覺任務中表現(xiàn)十分出色,而對于基于視頻分析的任務,靜態(tài)圖像中使用的二維卷積并不能很好地捕獲視頻序列中的運動信息,因此通常需要引入額外的輔助信息,如在二維卷積的基礎上增加時間維度擴展為三維卷積,以便同時獲得捕獲時序和空間運動信息的能力.

      在深度學習行為識別中一種常用的方法是使用雙流卷積神經(jīng)網(wǎng)絡. Simonyan等人[3]提出了一個雙路的卷積神經(jīng)網(wǎng)絡,用來分別捕獲空間和時序信息,主要特點是使用兩種模態(tài)的特征,使用RGB以及堆疊的光流幀,其中RGB用來提供外形信息,引入的光流用來捕獲行為時序上的運動特征,后續(xù)也出現(xiàn)了各種基于雙流網(wǎng)絡的變體[4-5],極大地提高了動作識別的性能,然而雙流網(wǎng)絡一般需要事先提取光流,且對于大型數(shù)據(jù)集來說,這是一個非常耗時的過程,不適宜進行端到端的學習.

      為解決雙流網(wǎng)絡中存在的上述問題,三維卷積神經(jīng)網(wǎng)絡逐漸進入了人們的視野,并在行為識別任務中取得了革命性的突破. Ji等人[6]最先提出并應用三維卷積從視頻中提取時空特征進行人體動作識別. Tran等人[7]提出了C3D(Convolutional 3D)網(wǎng)絡,C3D通過增加時間維度可同時對外觀和運動信息進行建模,并且在各種視頻分析任務上超過了二維卷積神經(jīng)網(wǎng)絡特征,后續(xù)C3D的變體[8-10]也充分證明了三維卷積神經(jīng)網(wǎng)絡相比二維卷積神經(jīng)網(wǎng)絡更適合時空特征學習. 另外,在考慮使用基于C3D進行行為識別的實際應用中,Gu[10]提出了具有密集連接特性的深度卷積神經(jīng)網(wǎng)路3D DenseNet,并對購物行為進行了識別,取得了不錯的效果,這得益于該網(wǎng)絡具有足夠的深度以及最大化了信息的流動. 深度三維卷積神經(jīng)網(wǎng)絡中常用的基于視頻的異常行為識別流程如圖1所示.

      圖1 基于視頻的異常行為識別流程

      Huang[11]等人提出了一種具有密集連接特性的深度卷集神經(jīng)網(wǎng)絡DenseNet. 在該網(wǎng)絡所有的層中,兩兩之間都存在連接,也就是說,網(wǎng)絡每一層的輸入都是由前面所有層輸出特征圖的并集組成,而該層所學習的特征圖也會作為后面所有層的輸入. DenseNet可以有效解決梯度消失問題,強化特征傳播,支持特征重用以及大幅度減少參數(shù)數(shù)量. 鑒于C3D以及密集連接特性的諸多優(yōu)點,本文同樣也采用了類似具有密集連接特性的C3D網(wǎng)絡進行異常行為識別.

      2 深層網(wǎng)絡模型的改進

      2.1 異常行為識別現(xiàn)有技術的不足

      在人體行為識別中,人體是非剛性的目標主體,其行為出現(xiàn)的形式具有非常大的靈活性,這使得識別和檢測異常行為變得非常具有挑戰(zhàn)性,因此如何有效提取可判別的行為特征是一個研究難點. 與行為的外形特征相比,由于時序上的運動特征往往不能很好地建模,容易造成部分關鍵時序運動信息發(fā)生丟失. 在以往的時序結構中,大多在整個網(wǎng)絡結構中使用一種固定時序深度的三維卷積進行特征提取,這種方式不利于融合多時間跨度的時序信息,從而導致時序信息得不到充分利用,進而阻礙了行為識別準確率的進一步提升. 為了彌補這種不足,使用可變時序深度三維卷積并結深度可分離卷積融合多時間跨度的時序信息,使用密集連接的特性最大化網(wǎng)絡的信息流動,使得時空信息被充分利用以提高行為識別準確率.

      2.2 基于3D DenseNet的改進

      為了有效地完成行為識別任務,需增加DenseNet的時間維度以擴展到三維的情形從而構成3D DenseNet. 為此,我們根據(jù)C3D網(wǎng)絡結合DenseNet實現(xiàn)了3D DenseNet的相關算法,并將包含固定時序卷積核深度的時序過渡層擴展為包含多個可變時序深度的卷積核過渡層,使其能夠對時序信息進一步提煉并建模. 在3D DenseNet基礎上通過增加深度可分離卷積的可變時序深度三維卷積進行了進一步的改進,使得改進后的網(wǎng)絡能更加充分利用動作間的時序信息進行建模.

      與DenseNet中定義類似,3D DenseNet中兩個相鄰的三維密集塊之間的層稱為時序過渡層,并通過三維卷積和池化來改變特征圖的大小. 時序過渡層由4個串聯(lián)的可變時序深度的三維卷積層組成,后面接一個1×1×1的三維卷積層和一個2×2×2的平均池化層. 由于層之間的特征圖存在大小差異,導致池化圖層執(zhí)行下采樣操作時會與執(zhí)行式(5)中特征圖的串聯(lián)操作沖突,故需將網(wǎng)絡劃分為多個密集連接的密集塊,并在它們之間添加過渡層. 如圖2所示,三維時序卷積以端到端的方式進行學習.

      圖2 三維時序卷積

      表1 整體結構設計

      2.3 模型結構改進分析

      普通卷積操作為

      深度可分離卷積在式(6)的基礎上,考慮區(qū)域和通道的方式變?yōu)橄瓤紤]區(qū)域再考慮通道的方式,實現(xiàn)了區(qū)域和通道分離. 深度可分離卷積的計算過程是在執(zhí)行逐點卷積(Pointwise Convolution)前先執(zhí)行深度卷積(Depthwise Convolution):

      從而構成

      3 實驗及結果分析

      表2 實驗數(shù)據(jù)集的組成結構

      圖3 實驗數(shù)據(jù)集中的部分訓練樣本

      為了證明本算法的有效性,本實驗實現(xiàn)了3D DenseNet的相關算法,并在其基礎上按照上述的改進細節(jié)在自建的ATM前異常行為模擬數(shù)據(jù)集上實施了本次對比實驗. 表3和表4分別為使比對算法和本算法在相同驗證集中的統(tǒng)計結果.

      表3 比對算法在驗證集中的統(tǒng)計結果

      表4 本算法在驗證集中的統(tǒng)計結果

      將表3和表4的統(tǒng)計結果匯總為表5所示.

      表5 算法比對結果

      從表5中可以看出,對打架行為的識別的準確率最高,搶劫行為的識別準確率最低,徘徊和取款行為居中并且識別準確率相近. 這可以解釋為打架行為動作幅度大,具有的運動特征比較明顯,而搶劫行為與打架行為有著較高的相似度,甚至可以看作是打架行為的特例,導致?lián)尳傩袨樽R別較為困難. 同樣,徘徊行為和取款行為也存在一定的共性,但徘徊行為相對于取款行為來說空間位置變化比較大,使得徘徊行為和取款行為可以較為容易區(qū)分并準確識別. 對表5中的行為類別準確率進行平均得到了表6中的平均準確率,并在表6中對模型參數(shù)量進行了比較.

      表6 平均準確率和模型參數(shù)量

      從表6中的實驗結果可以看出,本文算法與改進前的算法在準確率上有了進一步的提升,同時模型參數(shù)量僅有小幅度的增加. 這說明了本算法在參數(shù)效率和準確率之間得到了較好的平衡.

      圖4 測試集中測試結果部分視頻截圖

      從圖4結果來看,能較為準確地識別出對應的行為,由此證明了本實驗改進算法的有效性.

      為驗證模型的泛化能力,從網(wǎng)絡上下載了幾個與訓練類別相關的視頻片段,并對其進行測試.

      圖5 實際測試結果部分視頻截圖

      從圖5結果來看,本算法可以較好地識別實際場景中的對應行為,具有較好的模型泛化性能.

      4 總結

      將深度學習應用于ATM視頻的異常行為識別,改進深度網(wǎng)絡結構模型,在基于3D DenseNet引入具有可變時序深度的卷積核過渡層并結合深度可分離卷積層,提高了模型對時序信息的利用率,進一步提高了模型的準確率和泛化性能. 由于對送入到時序過渡層中的特征實施了適當?shù)慕稻S操作,使得參數(shù)效率和準確率獲得較為理想的折中效果. 由于實驗條件和資源有限,獲取的樣本數(shù)量還不夠大,在后續(xù)的工作中將結合實際ATM視頻,研究增加樣本數(shù)量后如何提高識別的準確性.

      [1] 朱煜,趙江坤,王逸寧,等. 基于深度學習的人體行為識別算法綜述[J]. 自動化學報,2016, 42(6): 848-857.

      [2] CHOLLET F. Xception: deep learning with depthwise separable convolutions [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, Hawaii: IEEE,2017: 1251-1258.

      [3] SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos [C]// International Conference on Neural Information Processing Systems, Montreal: MIT Press,2014:568-576.

      [4]FEICHTENHOFER C, PINZ A, WILDES R P. Spatiotemporal multiplier networks for video action recognition [C]// IEEE Conference on Computer Vision and Pattern Recognition, Hawaii: IEEE, 2017: 7445-7454.

      [5] FEICHTENHOFER C, PINZ A, WILDES R. Spatiotemporal residual networks for video action recognition [C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. New York: Curran Associates Inc, 2016: 3476-3484.

      [6] JI Shuiwang, XU W, YANG Ming, et al. 3D Convolutional Neural Networks for Human Action Recognition [J]. IEEE Transaction Pattern Analysis and Machine Intelligence, 2013, 35(1): 221-231.

      [7] TRAN D, BOURDEV L, FERGUS R, et al. Learning Spatiotemporal Features with 3D Convolutional Networks [C]//2015 IEEE International Conference on Computer Vision (ICCV), Boston:IEEE, 2015: 4489-4497.

      [8] HARA K, KATAOKA H, SATOH Y. Learning spatio-temporal features with 3D residual networks for action recognition [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Hawaii: IEEE, 2017: 3154-3160.

      [9] SHOU Zheng, CHAN J, ZAREIAN A, et al. CDC: convolutional-de-convolutional networks for precise temporal action localization in untrimmed videos[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, Hawaii: IEEE, 2017: 1417-1426.

      [10] GU Dongfeng. 3D densely connected convolutional network for the recognition of human shopping actions [D]. Ottawa: University of Ottawa, 2017.

      [11] HUANG Gao, LIU Zhuang, VAN der M L, et al. Densely connected convolutional networks[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Hawaii: IEEE, 2017: 2261-2269.

      [12] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems, California: NIPS, 2017: 6000-6010.

      [責任編輯:韋 韜]

      A Method for Abnormal Behavior Recognition Based on Deep Learning

      YANGRui, LUOBing, HAOYe-lin, CHANGJin-jin

      (School of Information Engineering, Wuyi University, Jiangmen 529020, China)

      Abnormal behavior recognition and detection have extensive application prospects in the field of security; however, the existing abnormal behavior recognition methods are low in the utilization rate of temporal information, and the accuracy and speed of processing cannot meet the actual needs. In this paper, the 3-D densely connected deep network architecture is employed to perform modeling of the temporal and spatial features of the video acquisition based on deep learning, and to recognize normal behavior and the three types of abnormal behavior: fighting, loitering, and robbery. Multiple convolution kernels with variable temporal depth combined with depthwise separable convolutional layers can be adopted to redesign the time series transition layer so as to make more use of temporal information from the input signals. Simulation results show that the accuracy of the proposed method reaches 92.5%, which further improves the accuracy and generalization performance of the model.

      abnormal behavior; action recognition; deep learning; temporal transition

      1006-7302(2018)02-0023-08

      TP216.1

      A

      2018-03-09

      楊銳(1992—),男,湖北孝感人,在讀碩士生,主要研究方向為數(shù)字圖像處理及應用;羅兵,教授,博士,碩士生導師,通信作者,主要研究方向為機器視覺、智能信息處理、數(shù)家圖像處理及應用.

      猜你喜歡
      時序準確率卷積
      時序坐標
      基于Sentinel-2時序NDVI的麥冬識別研究
      基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
      2015—2017 年寧夏各天氣預報參考產(chǎn)品質量檢驗分析
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      高速公路車牌識別標識站準確率驗證法
      基于傅里葉域卷積表示的目標跟蹤算法
      一種毫米波放大器時序直流電源的設計
      電子制作(2016年15期)2017-01-15 13:39:08
      嘉义市| 项城市| 青神县| 中西区| 漠河县| 铜鼓县| 巴楚县| 英超| 正定县| 临海市| 祁东县| 凤山市| 通道| 隆子县| 陇川县| 文山县| 晋宁县| 普安县| 措勤县| 大方县| 桦南县| 土默特右旗| 兴和县| 扎赉特旗| 专栏| 奉节县| 漳州市| 河曲县| 渭南市| 日照市| 南漳县| 沈丘县| 平度市| 彩票| 淄博市| 铜梁县| 汽车| 盖州市| 德格县| 灯塔市| 富平县|