杜 蕊, 蔡曉禹, 譚 靜
(1.重慶交通大學交通運輸學院, 重慶 400074; 2.重慶交通大學山地城市交通系統(tǒng)與安全重慶市重點實驗室,重慶 400074)
隨著城市的快速發(fā)展,城市交通行業(yè)也在急速發(fā)展,然而全球每年的交通事故造成125×104人死亡,交通事故的傷害位列全球第八致死原因,交通安全相關研究迫切需要。據(jù)相關統(tǒng)計,2018年上半年僅青島膠州灣隧道就發(fā)生事故近300起。傳統(tǒng)的交通安全管理方法已經(jīng)無法滿足智慧隧道運營管控需求。面向信息化、大數(shù)據(jù)的智慧隧道交通環(huán)境,主動交通安全管控對于有效預防交通事故發(fā)生,緩解事故引起偶發(fā)性擁堵,提升城市隧道交通運行效率至關重要。探索隧道交通事故的發(fā)生機理,判別事故發(fā)生的潛在可能性是主動交通安全管控所面臨的關鍵挑戰(zhàn)。
事故率預測主要針對于事故發(fā)生前紊亂的交通流現(xiàn)象進行對比分析研究,采用統(tǒng)計模型研究事故發(fā)生與交通流狀態(tài)的關聯(lián)性分析,以利用事故發(fā)生前的主要交通特征數(shù)據(jù)建模,實現(xiàn)交通事故風險的預測。近幾年,中外很多學者對道路交通事故預測進行了研究,常用于交通事故預測的模型有回歸模型法、神經(jīng)網(wǎng)絡法以及貝葉斯網(wǎng)絡等。Cheng等[1]基于觀測數(shù)據(jù)對三個道路事故頻率預測方法進行評估,并提出經(jīng)驗貝葉斯法較于時間序列法和簡單置信區(qū)間法對事故頻率的預測精確度更高的結論。陳海龍等[2]基于對BP神經(jīng)網(wǎng)絡模型的改進,對影響交通事故嚴重程度的多種影響因素進行分析,以預測事故的嚴重程度,得出道路摩擦系數(shù)、光照以及天氣與事故嚴重程度關聯(lián)較大的結論。段萌萌等[3]引入“橋隧比”參數(shù)研究了高速公路事故發(fā)生的影響因素,提出基于多元回歸的事故預測模型。
在交通事故預測研究方面,中外較多研究事故與道路影響因素以及天氣之間的關系,例如道路摩擦系數(shù)、道路線性、道路組成、雨天、大風天氣等,分析不同影響因素之間事故發(fā)生的嚴重程度以及事故率變化等[4-7]。或者僅針對高速公路上事故黑點進行研究與識別[7-9],通過收集事故資料,并統(tǒng)計分析事故在道路上的分布規(guī)律,構建交通事故灰色區(qū)域識別預測模型[10-11]。而在微觀層面上,對于城市道路隧道內交通事故率預測研究相對較少,且大多從間接因素角度分析、研究交通事故的發(fā)生原因[13]。
基于2018年5月、6月青島膠州灣隧道的交通事件數(shù)據(jù),結合交通運行、車輛行為等樣本數(shù)據(jù),將所有事件隨機的分為訓練集和驗證集?;谟柧毤瘮?shù)據(jù)采用條件Logistic概率函數(shù)方法對事故發(fā)生概率進行建模,分析事故發(fā)生的顯著性影響因素,最后利用驗證集數(shù)據(jù)對模型的預測精度進行檢驗評價。
為了探討交通運行參數(shù)與道路事故發(fā)生的可能性之間的機理關系。本研究選取比利時數(shù)學家Pjerre-Francois Verhulst提出的Logistic概率函數(shù)[14]。
(1)
式(1)中:N(t)為t時刻某研究對象的數(shù)量;k為在一定環(huán)境下的研究對象的最大極限值;r為研究對象的增長率。
此后,英國統(tǒng)計學家David Cox對Logistic函數(shù)進行了改進[15]。使得Logistic模型可以基于單個或多個預測變量參數(shù)得到二分類變量的對應概率值,同樣可以定量分析各因素變量對于二分類變量的影響關系。即設一個二分類因變量,因變量的值只能為1或者2,P為事故發(fā)生的概率,其二分類Logistic函數(shù)為
(2)
由于事故發(fā)生受到多種因素影響,即事故發(fā)生的概率模型存在多個自變量x1,x2,…,xn,將P與x1,x2,…,xn建立線性關系,可以得到某交通情況下對應的事故發(fā)生概率計算如下:
(3)
xiβ=β0+x1iβ1+...+xkiβk
(4)
式中:P(xi)為交通運行中發(fā)生事故的概率;xiβ為影響事故發(fā)生變量的線性組合;β0為常數(shù);β1,β2,…,βk為自變量的回歸系數(shù)。其中β越大,則自變量與事故之間關聯(lián)性越高。expβ為事故發(fā)生率,是自變量每增加一個單位,隨之變化的事故發(fā)生率情況。
在選用Logistic概率模型擬合交通事故發(fā)生模型時,要遵循Logistic概率模型的假設條件:①數(shù)據(jù)必須來自于隨機樣本;② Logistic概率函數(shù)無法適用于多元共線性的變量,即如果自變量直接存在共線性關系會導致標準誤差的膨脹;③ Logistic概率模型中因變量與自變量之間需非線性關系。因變量P(x)為二分變量,即變量只能取兩個相互對立的值,例如0和1,是和否。
由于Logistic概率函數(shù)模型對輸入變量有著極高的要求,預測的精度與輸入變量的選取有著極大的聯(lián)系,因此需要對模型的輸入變量進行相關性檢驗,以提出相關性較低的變量以免影響預測結果。相關性檢驗方法有很多,一般適用于Logistic概率函數(shù)的有Score檢驗法和T檢驗法等。
Score檢驗是一種初始檢驗方法,是用于在建模之前根據(jù)變量之間特定關系,判斷自變量與因變量相關程度的方法。Score檢驗值的計算公式為
(5)
T檢驗是戈斯特為了觀測釀酒質量而發(fā)明的。戈斯特在位于都柏林的健力士釀酒廠擔任統(tǒng)計學家,1908年在 Biometrika上公布T檢驗。T分布理論來推斷差異發(fā)生的概率,從而判定兩個平均數(shù)的差異是否顯著。T統(tǒng)計計算公式為
(6)
T檢驗中的p代表一種概率,是表示原假設為真的前提下,出現(xiàn)該樣本或比該樣本跟極端的結果的概率之和。一般取自由度為2,取p<0.05的參考變量為輸入模型中的自變量。
通過分析交通參數(shù)與事故間的關聯(lián)性,構建預測模型,利用接收者操作特征(receiver operating characteristic,ROC)曲線探尋的閾值預測隧道內事故的發(fā)生。事故預測方法分析技術路線見圖1。
(1)采集數(shù)據(jù),采集事故發(fā)生前后以及正常交通狀況下的交通參數(shù)。
(2)顯著性分析,對提取的與事故相關的參數(shù)進行定性、定量的顯著性分析。
(3)模型計算,利用處理后數(shù)據(jù)集對Logisitic模型自變量的回歸系數(shù)進行計算。
(4)閾值確定,標定不同交通環(huán)境下預測模型中事故發(fā)生閾值。
(5)事故預測模型分析,將實時數(shù)據(jù)代入模型計算預測交通事故發(fā)生的可能并分析。
圖1 事故預測模型構建技術路線Fig.1 Technical route for accident prediction model constructed
青島膠州灣隧道路段設計時速為80 km/h,全線長約7 800 m,主線為單向3車道,內部最大坡度為4%,最小轉彎半徑為800 m,高峰時期單向流量約為4 000 veh/h。膠州灣隧道內大約每150 m設置有高清監(jiān)控攝像機,共計172個,監(jiān)控視頻能夠記錄隧道內全天交通運行情況。
提取隧道內2018年5—6月交通監(jiān)控視頻,挑選出所有的交通碰撞事件視頻,并利用視頻處理技術采集非事故情況下及事故前10 min的交通流參數(shù)數(shù)據(jù)包含流量、速度、密度等以及車輛行為數(shù)據(jù)即不規(guī)則駕駛行為數(shù)據(jù)等。其中不規(guī)則駕駛行為包括車輛的急加速、急減速、違規(guī)換道、超速等行為。并且交通事故數(shù)據(jù)僅包含由交通狀況或駕駛員因素導致的事故,例如追尾事故等,不包括由車輛原因導致的事故,如拋錨事故等。
在綜合調研現(xiàn)有研究成果的基礎上,針對交通事故發(fā)生前的交通運行數(shù)據(jù)進行研究分析。利用膠州灣隧道內碰撞事故發(fā)生前事故車道的流量數(shù)據(jù)、速度數(shù)據(jù)以及車頭間距數(shù)據(jù)進行統(tǒng)計分析,詳見圖2~圖4。
圖2 事故發(fā)生前流量統(tǒng)計直方圖Fig.2 Flow statistics histogram before the accident
圖3 事故發(fā)生前速度統(tǒng)計直方圖Fig.3 Speed statistics histogram before the accident
圖4 事故發(fā)生前車頭間距統(tǒng)計直方圖Fig.4 Space headway statistics histogram before the accident
由圖2~圖4可見,事故前5 min流量統(tǒng)計擬合分布曲線接近正態(tài)分布,呈現(xiàn)集中分布趨向,說明流量變化與事故發(fā)生可能存在關聯(lián),同時另外處理了事故前10 min流量數(shù)據(jù)分析,結果顯示存在峰值但分布較為平緩。事故前5 min平均車輛速度分布趨向于正態(tài)分布,且事故前速度分布存在高峰,較流量數(shù)據(jù)而言,分布的峰值更大,可以看出速度與交通事故發(fā)生更可能存在關聯(lián)性。車頭間距同樣是交通運行中的重要參數(shù),合適的車頭間距是避免交通事故發(fā)生的主要條件之一。綜上,從事故前交通參數(shù)統(tǒng)計分布可以看出交通事故發(fā)生前交通狀況存在相似性,證實了事故預測的可能性。
依據(jù)大量視頻數(shù)據(jù)觀測,不規(guī)則行為與交通事故發(fā)生有著密切的聯(lián)系,大部分交通事故的發(fā)生,主要原因在于駕駛員的駕駛行為不規(guī)范。統(tǒng)計急減速、換道行為、異常慢速行為3種車輛不規(guī)則行為。為描述總體交通運行狀態(tài)中駕駛行為的安全性,提出車輛不規(guī)則行為率(ρ)的概念,詳見式(7)。
ρ=y/q
(7)
式(7)中:ρ為不規(guī)則行為率;y為不規(guī)則行為數(shù)(次/5 min);q為5 min流量值。
結合現(xiàn)有成果以及膠州灣隧道相關數(shù)據(jù)的分析,通過初步篩選,提取了交通事故前的交通運行特征參數(shù),見表1。
表1 事故前交通運行特征參數(shù)Table 1 Parameters of traffic moving charac-teristics before the accident
根據(jù)前期的調研分析發(fā)現(xiàn)事故前10 min的交通運行狀態(tài)對交通事故的發(fā)生具有一定的影響,而事故前5 min的流量數(shù)據(jù)通過上述分析,可以用于交通事故預測分析。因此提取事故前5 min事故前10 min的交通流數(shù)據(jù)。
鑒于Logistic概率函數(shù)模型的應用條件,為保證模型建立的精確性,需要針對交通特征參數(shù)變量進行相關性分析,剔除在檢驗分析中顯著水平低的變量。利用Score檢驗法以及T檢驗法對交通流特征變量與事故發(fā)生之間的密切程度進行定量計算,對初選變量進行關聯(lián)性分析,詳細見表2、表3。
表2 交通流特征變量的Score檢驗結果統(tǒng)計表Table 2 Score test results statistics table of traffic flow characteristic variables
表3 交通流特征變量的T檢驗結果統(tǒng)計表Table 3 T test results statistics table of traffic flow characteristic variables
建模計算中因變量的編碼規(guī)則有0、1,表示交通事故的發(fā)生與否,交通事故發(fā)生則其因變量值為1,沒有發(fā)生交通事故則其因變量值為0。根據(jù)因變量的編碼規(guī)則以及自變量值,很容易計算出交通流特征變量的Score值,由表2可看出事故前5 min流量(FLOW5)、事故前10 min流量(FLOW10)以及事故前5 min車輛的平均車頭時距(CTSJ5)得分較低,但是事故前5 min平均速度(SPEED5)以及事故前5 min的車輛不規(guī)則行為率(BGZXW5)Score檢驗值滿足一般的要求。表3中,Wald為卡方值,即回歸系數(shù)與標準誤差比值的平方值,由于其臨界值模糊,需要參考P值,以判斷顯著性。由表3可知,僅有事故前5 min平均速度(SPEED5)以及事故前5 min的車輛不規(guī)則行為率(BGZXW5)的P<0.05,其他變量的P≥0.05。綜上,由于SPEED5、BGZXW5的顯著性水平較高,應當在模型中保留,其他變量可以剔除。
利用視頻處理技術采集2018年5—6月期間共118組數(shù)據(jù)進行分析和處理,其中包括非交通事故數(shù)據(jù)63組以及交通事故數(shù)據(jù)55組。通過事故影響因素分析確定模型變量包含事故前5、10 min流量數(shù)據(jù)、事故前5 min速度數(shù)據(jù)、事故前5 min平均車頭時距以及不規(guī)則駕駛行為數(shù)據(jù)等,詳見表4,其中Num表示提取視頻的時間及攝像頭編號;ACCIDENT表示事故是否發(fā)生,1為發(fā)生事故,0為無事故發(fā)生。并且交通事故數(shù)據(jù)僅包含由交通狀況或駕駛員因素導致的事故,例如追尾事故等,不包括由車輛原因導致的事故,如拋錨事故等。
表4 交通事故數(shù)據(jù)樣表(訓練集)Table 4 Traffic accident data sample table (train set)
通過隨機抽取的方式將樣本分為獨立的兩個部分,即訓練集和驗證集,其中訓練集30組事故數(shù)據(jù)和40組非事故數(shù)據(jù),占總樣本的60%,驗證集由25組事故數(shù)據(jù)和23組非事故數(shù)據(jù)組成,占總樣本的40%。訓練集是用來求解模型參數(shù),構建事故預測模型;測試集是用于檢驗模型的事故預測準確性。
對交通流特征變量進行顯著性檢驗分析后,最終模型的顯著變量僅有SPEED5、BGZXW5兩個自變量和一個常數(shù)量。代入膠州灣隧道訓練集的事故前5 min的速度數(shù)據(jù)以及事故前5 min不規(guī)則行為率,利用最大似然法求解變量參數(shù),得到結果如表5所示。
其中SPEED5系數(shù)為負,顯示事故發(fā)生前5 min內事故點處速度相對于非事故情況速度低,即說明隧道內運行速度越小,事故發(fā)生的可能性越大。BGZXW5系數(shù)為正,表示事故發(fā)生前5 min內車輛的不規(guī)則行為相對比非事故情況下要大,即不規(guī)則行為越多,隧道內發(fā)生事故的可能性就越大。
依據(jù)最大似然法求解結果可以得到,以速度與不規(guī)則行為率為因子建立事故率預測Logistic概率模型:
xβ=2.101-0.103x1+0.579x2
(8)
(9)
對估計的模型進行擬合優(yōu)度評價,評價結果見表6。
在自由度取2,顯著水平為0.05,可以得到卡方臨界值為5.991。因此,最大似然對數(shù)值檢驗通過。計算的廣義決定系數(shù)也較大,說明模型的擬合優(yōu)度教好,建立的事故率預測Logistic概率模型能過較好的預測交通事故的發(fā)生。
表5 模型系數(shù)求解Table 5 Model coefficient solving
表6 模型擬合結果Table 6 Model fitting results
注:2lg likelihood為最大似然平方的對數(shù)值,Cox & Snell R Square為廣義決定系數(shù),Nagelkerke R Square為偽決定系數(shù)。Nagelkerke擬合優(yōu)度是一種校正后的Cox & Snell擬合優(yōu)度。
Logisitic模型預測結果是0-1的概率,因此在實際運用時,針對這種二分類問題選擇合適的閾值以此判斷事故情況或正常交通情況的概率輸出范圍至關重要。因為高閾值通常無法識別很多事故的潛在條件,而低閾值會錯誤的將正常交通狀況預警為高事故風險情況,給出錯誤的預測結果。利用繪制接收者操作特征(receiver operating characteristic,ROC)曲線的方法來尋找最合適的閾值。ROC曲線是以真陽性率(靈敏度,TPR)為縱坐標,假陽性率(1-特異度,FPR)為橫坐標繪制的曲線。靈敏度指把實際為真值(事故)判斷為真值(事故)的概率,特異性指把實際為假值(正常情況)判斷為假值的概率。
表7是以0.5為閾值訓練集的預測結果,其中TN為正確拒絕的非匹配數(shù)目;FP為誤報;FN為漏報;TP為正確肯定的數(shù)目。由表7便可以得出閾值為0.5的ROC曲線橫、縱軸坐標(FPR,TPR),其中FPR=FP/(FP+TN),TPR=TP/(TP+FN)。隨著閾值的逐漸減小,越來越多的實例被劃分為真值(事故),但是這些真值(事故)中同樣也摻雜著假值(正常情況),即TPR和FPR會同時增大。閾值最大時,對應坐標點為(0,0),閾值最小時,對應坐標點(1,1)。預測精度最高即準確率為100%,在ROC曲線圖中對應為理想閾值點:TPR=1,F(xiàn)PR=0,即ROC圖中(0,1)點,故ROC曲線越靠攏(0,1)點,越偏離45°對角線越好。
Logisitic模型ROC曲線,見圖5??梢婇撝翟?.36左右時,預測效果最好,這時TPR值為0.75,F(xiàn)PR值為0.26。因此本文的閾值確定為0.36,當預測值大于等于0.36時,判定為高事故風險;當預測值小于0.36,判定為正常交通狀況。
表7 訓練集預測結果Table 7 Predicted results of train set
圖5 模型預測的ROC曲線Fig.5 Model predicted ROC curve
利用青島市膠州灣隧道內2018年5—6月隨機挑選的48組交通事故的視頻數(shù)據(jù),采集相關交通參數(shù)進行預測分析,預測結果詳見表8。從表8中可知在25個事故樣本中,有22組樣本被模型準確預測,預測準確度達到88%;在23個非事故樣本中,有15組預測結果符合實際,預測準確度達到65.2%,結果表明事故預測比非事故預測有較高的準確度,Logisitic模型在城市隧道中在預測由交通狀態(tài)或駕駛員原因發(fā)生的交通事故(如追尾事故)方面有較高的預測準確度。驗證集共48組數(shù)據(jù),預測準確有37組數(shù)據(jù),可看出Logisitic預測模型的準確性為78.4%。
表8 模型預測結果Table 8 Model prediction results
基于青島膠州灣隧道相關數(shù)據(jù),選用Logistic概率模型建立隧道交通事故率預測方法。Logistic概率模型將事故發(fā)生的潛在可能性量化,給管理者以更加直觀的方式說明交通潛在的危險,為隧道內安全運營管控提供指導。
(1)通過對隧道內事故發(fā)生的相關因素研究,表明影響交通事故最主要的因素為交通運行速度以及車輛的不規(guī)則行為率,其中不規(guī)則行為率對事故發(fā)生的影響最為顯著,隧道管理者可通過及時的誘導措施,降低隧道內事故的發(fā)生的可能。
(2)通過繪制ROC曲線的方法確定模型閾值,結果顯示閾值為0.36,模型精度較高。
(3)通過膠州灣隧道交通事故數(shù)據(jù)整理的驗證集數(shù)據(jù)評價事故率預測模型的準確率約為78.4%。
可見在可接受的誤差范圍內,提出的事故率預測模型預測結果可以為隧道內事故的應急救援處理提供一定的決策信息,同樣也為隧道內管理提供有效依據(jù)。由于事故發(fā)生是多元素多方面的,不同的交通運行環(huán)境下導致事故發(fā)生的原因也是多樣的,因此下一步將基于本研究,對模型進行優(yōu)化,使得模型能夠根據(jù)不同情況下自優(yōu)化,以提高預測精度。