孫 昊,黃樟燦
(武漢理工大學 理學院,湖北 武漢430070)
基于深度卷積網(wǎng)絡的高速公路事件檢測研究
孫 昊,黃樟燦
(武漢理工大學 理學院,湖北 武漢430070)
為有效地進行公共安全檢測,自動識別高速公路上的安全事件與異常事件,提出了一種基于深度卷積神經(jīng)網(wǎng)絡的事件檢測方法。首先,對監(jiān)控視頻進行預處理并提取其光流特征;其次,使用卷積神經(jīng)網(wǎng)絡分別提取視頻的表觀特征與運動特征;再次,使用one-class SVM分別進行表觀特征和運行特征的異常檢測;最后,使用無監(jiān)督的融合模型融合表觀特征和運動特征的異常值得分,得到事件檢測結(jié)果。實驗表明該算法能夠有效地識別高速公路上發(fā)生的安全事件與異常事件。
公共安全;事件檢測;卷積神經(jīng)網(wǎng)絡
改革開放以來,國民經(jīng)濟得到飛速發(fā)展,交通運輸作為基礎性、戰(zhàn)略性的服務產(chǎn)業(yè)為推動國民經(jīng)濟的發(fā)展起到了重要作用。應用現(xiàn)代化的科學技術構(gòu)建智能交通體系推動國家經(jīng)濟發(fā)展,是我國“十三五”現(xiàn)代綜合交通運輸體系發(fā)展規(guī)劃的主要目標。高速公路在交通運輸中占有重要地位,近年來隨著高速公路監(jiān)控系統(tǒng)的不斷部署完善和監(jiān)控規(guī)模的快速擴大,依靠人工檢測、分析車輛運行狀況,已逐漸難以滿足日益復雜的交通現(xiàn)狀。違規(guī)停車導致的連環(huán)交通事故示例如圖1所示,由于圖1(a)中t1時刻方框內(nèi)車輛的違規(guī)停車,導致了隨后3個時刻連環(huán)交通事故的發(fā)生,造成了嚴重的經(jīng)濟損失,甚至可能危害到生命安全。因此,運用圖像處理、機器學習等方法自動分析路況,對危害公共安全的突發(fā)事件做出報警并及時通知相關部門,最大程度地避免二次事故帶來的經(jīng)濟損失,是建設智能交通系統(tǒng)的關鍵。
圖1 違規(guī)停車導致的連環(huán)交通事故示例
近年來,檢測與分析高速公路的公共安全課題已成為智能交通領域的研究熱點。CONG等[1]使用多尺度的光流直方圖提取視頻幀的運動信息,并用稀疏表達模型對運動信息進行建模,使用稀疏表達的重構(gòu)誤差進行異常事件檢測。MEHRAN等[2]提出了基于光流特征的“社會力量”模型,提取視頻中運動目標的特征,識別出異常事件。BENEZETH等[3]將時空事件的統(tǒng)計特征與馬爾科夫條件隨機場相結(jié)合,分析了目標的運動信息。KRATZ等[4]提出了一種基于隱馬爾可夫模型的異常事件檢測方法,該方法通過分析局部時空的運動信息來檢測異常事件。KIM等[5]提出了一種基于局部光流和馬爾科夫條件隨機場的事件分析模型。MAHADEVAN等[6]使用動態(tài)紋理融合的方法,對人群場景的表觀和運動信息進行建模。上述事件檢測的方法都是基于手工特征的方法,但手工特征缺乏高層語義信息,難以高效地表達高速公路中的復雜事件。而隨著深度學習的發(fā)熱發(fā)展,卷積神經(jīng)網(wǎng)絡的高層語義特征已經(jīng)在場景識別[7]、行為識別[8]等任務中顯示出了強勁性能。為此,筆者提出了一種基于深度卷積神經(jīng)網(wǎng)絡的事件檢測模型,綜合考慮監(jiān)控視頻中的表觀特征和運動特征,識別高速公路上的安全事件和異常事件,對異常事件給出警報。
高速公路監(jiān)控系統(tǒng)中的監(jiān)控視頻大多是由固定位置的攝像頭拍攝而來,該類監(jiān)控視頻可視為靜態(tài)背景視頻。筆者采用自適應的混合高斯背景建模方法,提取視頻背景?;旌细咚贡尘敖J腔谙袼貥颖窘y(tǒng)計信息的背景表示方法,統(tǒng)計視頻在各位置處像素的模式數(shù)量、均值和標準差等信息。在混合高斯背景建模時,假設各像素間的顏色信息相互獨立,且可以用k個高斯核描述像素點的顏色分布情況,k越大對背景波動越魯棒。筆者在背景建模時,首先將彩色圖像轉(zhuǎn)為灰度圖,然后使用混合高斯模型提取視頻背景,則采樣點xt處的混合高斯分布概率密度函數(shù)為:
(1)
(2)
筆者采用混合高斯模型可得到高速公路監(jiān)控視頻背景,示例如圖2所示。
圖2 高速公路監(jiān)控視頻背景建模示例
光流特征[9]可以高效地提取監(jiān)控視頻中的運動信息,有助于進一步分析高速公路監(jiān)控視頻中目標的異常運動模式。Lucas-Kanade光流法假定在一個較小的空間鄰域內(nèi)運動矢量保持恒定,在像素點qi處的光流特征滿足如下公式:
Ix(qi)Vx+Iy(qi)Vy=-It(qi)
(3)
式中:Ix,Iy,It分別為圖像I(x,y,t)關于x,y,t的偏導;Vx,Vy為光流特征。
(4)
則由式(3)可得:
ATAv=ATb?v=(ATA)-1ATb
(5)
由式(5)可得光流特征的計算公式:
(6)
筆者采用Lucas-Kanade光流法提取得到監(jiān)控視頻不同幀間的光流可視化圖,具體如圖3所示。
圖3 監(jiān)控視頻的不同幀間光流特征可視化圖
近些年來,隨著深度學習的火熱發(fā)展,卷積神經(jīng)網(wǎng)絡在各種計算機視覺任務中取得了突破性進展。筆者提出了一種基于深度卷積神經(jīng)網(wǎng)絡的高速公路事件檢測算法,如圖4所示。算法流程主要包含兩部分:①使用多任務的深度卷積神經(jīng)網(wǎng)絡提取各視頻幀的表觀特征和運動特征;②使用無監(jiān)督的融合模型融合視頻的表觀特征和運動特征的異常值得分,得到事件檢測結(jié)果。
圖4 基于深度卷積網(wǎng)絡的高速公路事件檢測算法流程圖
自從AlexNet卷積神經(jīng)網(wǎng)絡[10]在ILSVRC 2012的圖像分類任務中取得了突破性的成功,深度卷積網(wǎng)路便迅速廣泛應用于各種計算機視覺任務中,如目標檢測、跟蹤、圖像分割、場景解析等。XU等[11]將無監(jiān)督的深度學習算法引入異常事件檢測任務中。卷積神經(jīng)網(wǎng)絡是一類由卷積操作、池化操作、非線性激活函數(shù)等算子有規(guī)則組合形成的網(wǎng)絡結(jié)構(gòu),將圖像數(shù)據(jù)輸入到卷積神經(jīng)網(wǎng)絡中可以直接得到該圖像數(shù)據(jù)的類別。目前主流的卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)有AlexNet、VGG、ResNet等。為強化卷積網(wǎng)絡的性能,ZHANG等[12]提出了一種使用無監(jiān)督的手段提升有監(jiān)督的卷積網(wǎng)絡性能的方法。筆者采用圖5所示的反卷積結(jié)構(gòu)將VGG網(wǎng)絡[13]拓展為圖6所示的多任務網(wǎng)絡結(jié)構(gòu),為高速公路事件檢測提取高層語義的卷積特征。
圖5 卷積與反卷積示意圖
圖6 多任務卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)圖
圖5左側(cè)的網(wǎng)絡結(jié)構(gòu)是VGG網(wǎng)絡結(jié)構(gòu)中典型模塊,設該模塊的輸入為卷積特征al-1,輸出為卷積特征al,則該結(jié)構(gòu)的計算過程可定義為:
al=fl(al-1,φl),l=1,2,…,L+1
(7)
式中:a0=x為輸入圖片;φl為卷積操作fl對應的權重參數(shù)。
圖5右側(cè)為反卷積模塊,用于重構(gòu)卷積特征al,該結(jié)構(gòu)的計算過程可定義為:
(8)
筆者采用的多任務卷積網(wǎng)絡結(jié)構(gòu)如圖6所示,該網(wǎng)絡同時處理分類任務和重構(gòu)任務。分類任務是指輸入一張圖片得到其相應的類別標簽,重構(gòu)任務是指經(jīng)過一系列卷積和反卷積處理后重構(gòu)出原始輸入圖片。多任務的網(wǎng)絡結(jié)構(gòu)可以有效增強傳統(tǒng)卷積神經(jīng)網(wǎng)絡的性能。多任務卷積網(wǎng)絡的最終目標函數(shù)為重構(gòu)誤差J(xi)和分類概率交叉熵S(xi,yi)的加權組合:
(9)
(10)
(11)
筆者采用圖6所示的深度卷積網(wǎng)絡,提取高速公路監(jiān)控視頻的表觀特征與運動特征。①將該多任務卷積網(wǎng)絡在ImageNet數(shù)據(jù)庫中使用隨機梯度下降法進行預訓練(細節(jié)訓練方法見文獻[12]),直至式(9)收斂。②對監(jiān)控視頻進行預處理,得到視頻背景及光流特征圖,并將RGB圖像及其光流特征圖無重疊地裁剪為60×60像素的圖像塊,然后將圖像塊的尺寸統(tǒng)一至256×256像素。③去掉網(wǎng)絡結(jié)構(gòu)的全連層及其后面所有模塊得到深度卷積特征提取器,并將該網(wǎng)絡結(jié)構(gòu)分別在監(jiān)控視的RGB數(shù)據(jù)以及光流特征中進行微調(diào)。筆者使用該深度卷積特征提取器提取監(jiān)控視頻的表觀特征和運動特征,然后使用one-class SVM(support vector machine)算法[14]分別得到表觀特征和運動特征的異常值得分。
筆者采用一種無監(jiān)督的異常值得分融合模型自動學習基于表觀異常值得分和基于運動信息的異常值得分權重α=[αA,αM]。權重α通過如下優(yōu)化問題,求解得到:
(12)
(13)
c=[cA,cM]
(14)
(15)
筆者所用深度學習工具包為Caffe[15]。實驗環(huán)境為:Intel(R) Core i7-5930K 3.50GHz、GeForce GTX Titan X GPU、內(nèi)存64G、linux操作系統(tǒng)。
采用筆者所提出的一種基于卷積神經(jīng)網(wǎng)絡的高速公路事件檢測的方法進行高速公路及隧道異常事件檢測。實驗結(jié)果如圖7所示,其中圖7(a)和圖7(d)分別為原始高速公路監(jiān)控視頻和隧道監(jiān)控視頻,圖7(b)和圖7(e)分別為相應監(jiān)控視頻的背景,圖7(c)和圖7(f)為異常事件檢測結(jié)果。由圖7可知,筆者所提出的算法可以有效地檢測出路面的拋灑物和因交通事故而停止的貨車。但由于該算法是基于圖像塊進行識別事件的,故不能精確定位異常事件的位置。另外,前景視頻可由原始視頻和背景圖像生成,在前景圖像中提取視頻的表觀特征和光流特征,可加快代碼的訓練速度。
圖7 基于多任務卷積神經(jīng)網(wǎng)絡的事件正確檢測結(jié)果圖
圖8所示為基于多任務卷積神經(jīng)網(wǎng)絡的事件錯誤檢測示例,該監(jiān)控視頻從第1幀就包含了異常停止的轎車,筆者所采用的混合高斯背景建模方法誤將該車作為監(jiān)控視頻背景,進而導致多任務卷積神經(jīng)網(wǎng)絡不能有效提取視頻幀的表觀特征和光流特征,故不能正確檢測該異常事件。
圖8 基于多任務卷積神經(jīng)網(wǎng)絡的事件錯誤檢測示例
為了進一步驗證所提算法的有效性,在公共的異常事件檢測UCSD數(shù)據(jù)庫進行了實驗,結(jié)果如表1所示,其中EER (equal error rate)是指事件誤分類比率,AUC(area under curve)是指ROC曲線下面積,frame-level是指從監(jiān)控視頻中檢測出異常事件幀。從表1可知,算法在UCSD異常事件數(shù)據(jù)庫中獲得了較好的性能,顯示出基于深度卷積神經(jīng)網(wǎng)絡的深度特征相比于經(jīng)典手工特征擁有更多的語義信息,更適用于復雜環(huán)境的事件檢測任務。
表1 UCSD異常事件數(shù)據(jù)庫下frame-level的算法性能對比
為了自動識別監(jiān)控視頻中的安全事件和異常事件,筆者提出了一種基于深度卷積網(wǎng)絡的事件檢測方法。該方法分別從視頻的表觀特征和運動特征出發(fā),利用卷積神經(jīng)網(wǎng)絡提取其高層語義特征,然后使用one-class SVM分別進行表觀特征和運行特征的異常檢測,最后使用無監(jiān)督的融合模型融合表觀特征和運動特征的異常值得分。實驗表明該算法能夠有效地識別高速公路上發(fā)生的安全事件與異常事件。
[1] CONG Y, YUAN J S, LIU J. Sparse reconstruction cost for abnormal event detection[C]∥IEEE International Conference on Computer Vision and Pattern Recognition. San Diego: IEEE, 2011:3449-3456.
[2] MEHRAN R, OYAMA A, SHAH M. Abnormal crowd behavior detection using social force model[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego: IEEE, 2009:935-942.
[3] BENEZETH Y, JODOIN P M, SALIGRAMA V, et al. Abnormal events detection based on spatio-temporal co-occurences[C]∥IEEE International Conference on Computer Vision and Pattern Recognition. San Diego: IEEE, 2009:2458-2465.
[4] KRATZ L, NISHINO K. Anomaly detection in extremely crowded scenes using spatio-temporal motion pattern models[C]∥IEEE International Conference on Computer Vision and Pattern Recognition. San Diego: IEEE, 2009:1446-1453.
[5] KIM J, GRAUMAN K. Observe locally, infer globally: a space-time MRF for detecting abnormal activities with incremental updates[C]∥IEEE International Conference on Computer Vision and Pattern Recognition. San Diego: IEEE, 2009:2921-2928.
[6] MAHADEVAN V, LI W, BHALODIA V, et al. Anomaly detection in crowded scenes[C]∥IEEE International Conference on Computer Vision and Pattern Recognition. San Diego: IEEE, 2010:1975-1981.
[7] WU R, WANG B, WANG W, et al. Harvesting discriminative meta objects with deep cnn features for scene classification[C]∥IEEE International Conference on Computer Vision. San Diego: IEEE, 2015:1287-1295.
[8] KHAN F S, XU J, WEIJER J V D, et al. Recognizing actions through action-specific person detection[J]. IEEE Transactions on Image Processing, 2015,24(11):4422-4432.
[9] YANG J S. Estimation of vehicle's lateral position via the lucas-kanade optical flow method[J]. Wseas Transaction on Systems, 2012,11(8):349-363.
[10] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]∥International Conference on Neural Information Processing Systems. New York: Curran Associates Inc., 2012:1097-1105.
[11] XU D, YAN Y, RICCI E, et al. Detecting anomalous events in videos by learning deep representations of appearance and motion[J]. Computer Vision and Image Understanding, 2016(156):117-127.
[12] ZHANG Y, LEE K, LEE H, et al. Augmenting supervised neural networks with unsupervised objectives for large-scale image classification[C]∥International Conference on Machine Learning. New York: PMLR, 2016:612-621.
[13] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. https://arxiv.org/abs/1409.1556.
[14] SCH?LKOPF B, SMOLA A J, WILLIAMSON R C, et al. New support vector algorithms[J]. Neural Computation, 2000,12(5):1207-1245.
[15] JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding[C]∥ACM International Conference on Multimedia. New York: ACM, 2014:675-678.
FreewayIncidentDetectionResearchBasedonDeepConvolutionalNetwork
SUNHao,HUANGZhangcan
In order to efficiently detect the public safety and automatically identify the security and abnormal events on the freeway, an event detection method based on deep convolutional neural network is proposed. Firstly, the surveillance video is preprocessed and its optical flow characteristics are extracted. Then, the convolutional neural network is used to extract the features of appearance and motion. And then the one-class SVM is used to detect the anomaly of the appearance and motion. Finally, the unsupervised fusion model is used to fuse the scores of the features of appearance and motion, and the results of the event detection are obtained. Experiments show that the algorithm can effectively identify the security and abnormal events on the freeway.
public safety; incident detection; convolutional neural network
2095-3852(2017)06-0683-06
A
2017-05-17.
孫昊(1992-),男,湖北武漢人,武漢理工大學理學院碩士研究生,主要研究方向為圖像處理、機器學習、深度學習.
國家973計劃資金項目(2012CB719905).
TP391.41
10.3963/j.issn.2095-3852.2017.06.008
SUNHao:Postgraduate; School of Science, WUT, Wuhan 430070,China.