陸林東 張偉偉
(上海工程技術大學 上海 201620)
隨著智能交通系統(tǒng)的發(fā)展,監(jiān)控視頻下的交通流量、違章檢測和交通事故檢測等取得了巨大的成就。由于交通事故檢測算法在智能交通系統(tǒng)中扮演重要的角色,因此也推動了研究人員對事故自動檢測的研究。
在過去的研究工作中,通常利用視頻圖像處理來開發(fā)事故自動檢測的方法。主要分析車輛活動,提取相關車輛的方向和加速度等運動特征來識別車輛運動中的安全狀態(tài)。Chen Y[1]利用OF-SIFT算法以提取運動特征并使用ELM分類器對交通事故進行分類。劉緯琪[2]提出OBB算法使車輛生成二維包圍盒投影在地面上,檢測不同車輛的包圍盒是否相交判斷碰撞狀態(tài)。劉松[3]建立了基于相干運動場的車輛相互作用模型。梁帥[4]構建了一個雙高斯模型的交通事故檢測框架。Singh D[5]提出了一種基于堆疊式自動編碼器(SAE)的深度學習體系結構模型,自動學習時空因果關系,在此基礎上建立了不均勻擴散模型,用于分析不同時段不同區(qū)域的交通異常。Hui Z[6]通過基于混合高斯模型的背景建模并使用均值漂移算法實現(xiàn)車輛的跟蹤。Yun K[7]利用運動交互場(MIF)的對稱性來檢測和定位交通事故。Mo X、Wang J、Xia L M[8~10]在視頻異常檢測中,采用了稀疏重建技術。
不同于現(xiàn)有方法,本文引入了一個深度學習框架來檢測與跟蹤車輛的外觀和運動特征。當交通事故發(fā)生時,車輛的姿態(tài)和運動狀態(tài)的突變是事故檢測的關鍵特征。因此本文在輸入的監(jiān)控視頻中通過三維物體檢測與跟蹤算法映射整個過程的三維姿態(tài)和軌跡的運動狀態(tài)。在此基礎上將生成的車輛三維包圍框和運動特征建立三維事故檢測評價函數(shù)。設定碰撞閾值,將高于此閾值的車輛運行狀態(tài)判定為發(fā)生碰撞事故。
圖1為本文提出的算法是基于單目視覺的三維物體檢測與多目標跟蹤的框架,算法主要由三個階段組成。第一階段:利用卷積神經(jīng)網(wǎng)絡訓練一個三維物體檢測器來檢測道路上的車輛;第二階段:利用擴展卡爾曼濾波對檢測到的車輛進行預測及狀態(tài)更新,生成二維-三維多目標跟蹤,從而在整個視頻序列中實現(xiàn)車輛6自由度的三維目標姿態(tài)恢復;在最后一階段中,基于運動車輛軌跡以及外觀建立了一個車輛行為函數(shù)用來判斷事故的發(fā)生。
圖1 算法框架示意圖
車輛的三維包圍框可以提供位置、尺寸與朝向等信息,即9個自由度表示車輛的運動狀態(tài)。(x,y,z)表示車輛中心點所在三維坐標系中的位置;(w,h,l)表示車輛的寬高長;(α,β,γ)則表示車輛的偏轉角、航向角及俯仰角。本文基于Darknet-53[11]網(wǎng)絡模型通過端到端的方式訓練模型,再由自由度參數(shù)和攝像機投影矩陣形成三維邊界框。在卷積層中提取了與特征金字塔網(wǎng)絡(FPN)相似的特征描述模塊,該模塊包含了更深的卷積層和反卷積層來捕獲圖像細節(jié)。如圖2所示三個不同輸出張量,高分辨率的輸出張量能夠捕獲更豐富的圖像細節(jié),諸如視野遠處的物體,而低分辨率的輸出張量能捕獲更多的圖像上下文信息。將輸入的每張圖像都歸一化尺寸為416*416,本文所設計輸出類別為車輛,輸出參數(shù)為9個自由度參數(shù)加一個置信度參數(shù),輸出3個不同尺寸的特征圖譜,則張量深度為
圖2 模型輸出張量
針對這些輸出參數(shù),設計了3D Box Proposal Networks(3DBPN)損失函數(shù),3DBPN損失函數(shù)主要包括位置Lloc、尺寸Lsize和朝向Lθ。xi,yi,zi與分別表示空間中的真實空間坐標與預測坐標;wi,li,hi與分別表示物體的真實尺寸與預測尺寸;θi與分別表示真實方向與預測方向。每個損失函數(shù)都設置了不同的權重α用于進一步提高參數(shù)的預測性能,損失函數(shù)如下所示:
通過非極大抑制算法過濾較低得分的候選生成框,以提升較高精確度的車輛三維包圍框。車輛的3D檢測算法提供了在監(jiān)控視角下的車輛位姿預測,便于執(zhí)行下一步的3D跟蹤。
在當前的檢測結果中建立幀與幀之間的關系,融合二維-三維擴展卡爾曼濾波(EKF)對道路上的車輛進行運動預測與狀態(tài)估計,從而實現(xiàn)車輛的三維姿態(tài)跟蹤。如前一節(jié)所述,在初始幀中檢測到的車輛輸出三維包圍框尺寸和角度信息后,確定初始化的車輛位姿。在連續(xù)的兩幀圖像中,利用擴展卡爾曼濾波器通過三維重投影來估計下一幀目標的跟蹤狀態(tài)。觀測結果由3D物體檢測與2D檢測相結合構成了所有的觀測模型,使用MRF模型從生成的大量假設性觀測結果中選擇合適的觀測結果作為下一幀的初始檢測框。
結合投影和反投影操作,將軌跡點應用于三維邊界框的中心位置。遞歸神經(jīng)網(wǎng)絡LSTM用于跨幀關聯(lián)和匹配道路中車輛的位置。從LSTM模型中獲取速度,并利用該速度估計三維姿態(tài)來更新三維位置。根據(jù)訓練數(shù)據(jù)的平均大小,可以隨著視野遠近定期更新三維包圍框的大小。圖3提供了一組由二維-三維擴展卡爾曼濾波觀測組成的軌跡假設,這些假設與檢測生成三維物體相關并利用軌跡假設來跟蹤物體。通過一個新的觀測結果來更新現(xiàn)有的假設,并得到最優(yōu)的評分跟蹤軌跡。
圖3 二維-三維擴展卡爾曼濾波觀測組成的軌跡假設
基于車輛的運動姿態(tài),本節(jié)建立了監(jiān)控視頻下由車輛軌跡、3D包圍框尺寸和旋轉角的變化組成的交通事故評價函數(shù)A。
車輛軌跡是交通視頻監(jiān)控中最直觀的車輛運動行為表達方式。利用軌跡數(shù)據(jù)提取不同類型的車輛軌跡進行先驗訓練,在1~n幀里對軌跡點p采用K最近鄰分類算法。給定權重參數(shù)wt,車輛的3D包圍框軌跡函數(shù)Trajobj與軌跡評價函數(shù)Dt如下:
車輛碰撞同時也會帶來相應的3D包圍框的快速變化,本文為每個車輛設置一個合適的變化范圍用于對比車輛正常行駛中的3D包圍框。先驗包圍框的長寬高平均尺寸設為sˉ,合理尺寸si變化范圍設置如下:
計算車輛3D包圍框的尺寸方差O3D(W ,H,L),設置權重參數(shù)ws,可以得到車輛的包圍盒尺寸評價函數(shù)Ds。
相應地計算出車輛包圍框三個旋轉角O3D( α,β,γ)變化方差,設置權重參數(shù)wθ,得到車輛的旋轉角評價函數(shù)Dθ。
在連續(xù)幀中被檢測到發(fā)生車輛事故由閾值參數(shù)At決定,檢測結果函數(shù)設置如下:
本實驗主要在路口監(jiān)控視角下測試車輛的檢測跟蹤以及事故檢測的性能。用于實驗測試的數(shù)據(jù)集來自于KITTI數(shù)據(jù)集[11]與國內各路口監(jiān)控數(shù)據(jù)集,涵蓋了不同天氣環(huán)境和交通流量,從中提取了100個視頻序列并進行圖像標注。用于訓練的視頻幀數(shù)占據(jù)交通視頻總幀的五分之三,其余視頻幀作為測試幀。通過隨機梯度下降法對每一批1000張圖片進行訓練,計算它們的平均損失函數(shù)值以更新參數(shù)值。前3萬次迭代中設置學習率為0.001,后1萬次迭代設置學習率為0.0001。
本文的實驗與目前最先進的幾個車輛3D姿態(tài)檢測器進行了比較。檢測車輛用KITTI數(shù)據(jù)集官方評估方法,在三個不同遮擋程度下進行檢測。為了評估三維物體檢測的準確性,根據(jù)實際情況制定了三個評估標準。首先是計算物體的三維包圍框中心點距離相機的真實距離與估測距離的誤差率,其次比較隨物體與相機真實距離增大,檢測到的三維包圍框與真實三維包圍框的交并比變化趨勢。圖4(a)、(b)所示在KITTI數(shù)據(jù)集3D檢測的前兩個評估標準下,本文方法與其他方法的實驗對比圖。最后一個評估標準為車輛方向的比較,通過檢測三種不同遮擋程度的數(shù)據(jù)集,比較平均方向相似度(AOS)、平均精度(AP)和方向得分(OS)。如表1所示,本文的方法與其他三種3D檢測方法相比,綜合準確率在其他方法之上。
在三維目標跟蹤中,尺度變化、方向變化以及遮擋都會對跟蹤性能造成影響。本文對50個交通監(jiān)控視角下的視頻序列進行跟蹤測試,并與其他跟蹤方法進行比較。分別從多目標跟蹤平均精度(MOTA),假陽性(FP)與假陰性(FN)來多指標評估模型的魯棒性。如表2、圖5所示,本文的3D目標跟蹤軌跡清晰,三維包圍框回歸的車輛姿態(tài)比較準確。
圖4 在KITTI數(shù)據(jù)集上的3D檢測實驗對比
表1 車輛方向回歸實驗對比
表2 跟蹤效果實驗對比
圖5 道路監(jiān)控下的跟蹤效果
對于交通事故檢測性能的評價方法,本文利用真陽性率(TPR)與假陽性率(FPR)兩個評價指標繪制了ROC曲線。如圖6所示,與BiSTM[9]、STM[10]相比,本文提出的算法能夠以較高的準確率識別多種環(huán)境下道路上的交通事故。
圖6 事故檢測ROC曲線
對于道路監(jiān)控下車輛事故的自動檢測,本文提出了一種融合二維圖像與三維信息的事故檢測方法。通過車輛的三維檢測與跟蹤任務生成的三維語義包圍框用來提取車輛的運動特征,其中包括車輛的軌跡、3D包圍框的尺寸與朝向,并利用三維語義包圍框建立了事故檢測評價指標。實驗結果表明,本文實現(xiàn)的算法在事故檢測上具有魯棒性、準確性、穩(wěn)定性。