郭蘭英,張曉靜,程 鑫
(長安大學 信息工程學院,陜西 西安 710064)
近年來在中國機動車數(shù)量快速增長的情況下,交通事故及傷亡人數(shù)呈不斷上升趨勢,不論是造成的損失或是致死率都遠大于發(fā)達國家,交通事故已成為中國交通管理所面臨的嚴重問題。
目前國內外學者已對道路交通安全開展了廣泛研究。胡驥等[1]針對翻車事故引入Ordinal Logistic 模型,結果表明是否正確使用安全帶為主要影響因素,但變量獨立性并未得到檢驗,還需進一步完善。江欣國等[2]針對危險駕駛行為建立廣義有序Logit模型發(fā)現(xiàn)雙責事故嚴重性更高。馮忠祥等[3-5]采用Logistic和均值異質性Logit模型進行事故預測,發(fā)現(xiàn)時間和天氣對高速交通樞紐段影響顯著,且不同形態(tài)事故影響因素具有異同性。Alireza Toran Pour等[6]利用決策樹模型探究澳大利亞墨爾本地區(qū)行人交通事故影響因素,結果發(fā)現(xiàn)鄰里社會特征對于行人撞車事故有重要影響。Zijian Zheng等[7]采用梯度提升技術,全面分析公司、駕駛員信息、卡車類型以及碰撞類型等特征,結果表明卡車公司和駕駛員特征具有顯著影響。呂璞等[8]針對現(xiàn)有模型存在準確性低以及泛化性能較弱等問題,提出基于反殘差和注意力機制的預測模型,實現(xiàn)對不同事故等級的分類,但并未考慮路側交通設施的可能影響因素,且樣本數(shù)據(jù)偏少。
李英帥等[9]建立隨機森林模型探究自行車事故可能影響因素并進行特征重要性分析,發(fā)現(xiàn)道路隔離設施類型影響顯著。戢曉峰等[10-11]等針對傳統(tǒng)模型無法量化影響因素等不足,通過建立有序Logit模型篩選自變量并做出優(yōu)化,最終形成兩階段模型TSM對某一平縱組合路段(CHVA)進行致因分析,但模型僅分析單一變量影響,并未說明多因素間耦合作用對事故的影響。此外,戢曉峰又引入事故規(guī)模作為指標探究交通流特征的影響機理,但模型只考慮了二級公路,并未提及在其他等級公路是否同樣適用。
孟祥海等[12]采用Bow-Tie模型探究城市主干道上機動車間碰撞事故及其后果,發(fā)現(xiàn)駕駛員正常駕駛但無其他安全設施事故發(fā)生率最高。Tavakoli Kashani Ali[13]建立結構方程探究伊朗行人碰撞事故的有效影響因素,發(fā)現(xiàn)高速公路、重型車輛、老年和女性司機與事故規(guī)模增加有關。陳艷艷等[14-15]通過建立二分類Logistic模型研究山區(qū)連續(xù)長下坡路段以及城市道路交通事故影響因素,發(fā)現(xiàn)坡度和事故地點為山區(qū)坡路主要影響因素。
趙躍峰等[16]采用有序Logit和部分優(yōu)勢比建立公路隧道交通事故影響因素模型,大貨車數(shù)量、車輛總數(shù)、時間、天氣四個變量與事故嚴重程度顯著相關。李貴陽等[17]針對高速公路多車事故建立SVM模型,結合敏感性分析事故影響因素變量,結果表明不良駕駛行為、天氣、碰撞類型均對事故后果有顯著影響。Mohammad Jalayer等[18]針對錯誤駕駛行為(WWD)建立random-parameters ordered probit模型評估事故傷害程度,發(fā)現(xiàn)駕駛員年齡、駕駛員狀況、路面狀況和照明條件等因素顯著加劇了WWD碰撞的傷害程度。Mahdi Rezapour等[19]選擇有序Logit模型研究碰撞事故嚴重程度的影響因素。結果表明,酒精、性別、路況、車輛類型、碰撞點、車輛操縱、安全設備使用、駕駛員行為和每車道的年平均每日交通量(AADT)是影響單車事故的重要因素。安全設備的使用、照明條件、速度限制和車道寬度是影響多車事故的重要因素。盧英志等[20]針對云南山區(qū)二級公路摩托車碰撞事故,采用Logistic模型分析其影響因素,但研究數(shù)據(jù)太過受限,無法得出更為全面的結論。
根據(jù)對以上文獻的分析,得出目前存在模型準確率低、數(shù)據(jù)及特征不夠全面、過多考慮單一因素的影響而忽略多因素間的耦合機理等問題。論文將結合中國交通數(shù)據(jù),提出基于梯度提升決策樹的遞歸特征消除法(GBDT-RFE)預測模型探究道路交通事故嚴重程度的主要影響因素,通過對比分析隨機森林、極端隨機樹的模型效果,證明了GBDT-RFE特征選擇的有效性,預測精度基本穩(wěn)定在90%。針對篩選得到的特征使用決策樹方法進行多因素耦合分析,為交管部門提供決策支持。
中國交通數(shù)據(jù)信息采集均遵循統(tǒng)一標準,即公安交通管理部門制定的《道路交通事故信息采集項目表》,共包含56個單項,能夠實現(xiàn)對人-車-路-環(huán)境的整體描述。論文研究數(shù)據(jù)來源于西安市道路交通事故數(shù)據(jù)庫,每條事故記錄均包括事故編號、事故地點、日期、事故類型、事故形態(tài)、天氣在內共計115個字段。
選取2014年7月到2015年6月發(fā)生的16 457起道路交通事故作為研究對象,其中包括車輛間事故11 314起,行人-車輛事故3 527起以及單車事故1 616起,每類事故又包含若干類詳細事故形態(tài),具體事故數(shù)量與所占比例如表1所示。
表1 事故形態(tài)統(tǒng)計分布
基于GBDT-RFE的道路交通事故嚴重程度預測模型訓練流程如圖1所示。對原始數(shù)據(jù)集進行刪除、填充、異常值替換等數(shù)據(jù)清洗步驟,利用方差過濾、相關性分析初步篩選特征,對于類別不均衡問題作采樣處理,將預處理后的數(shù)據(jù)輸入模型訓練并利用網格搜索進行參數(shù)尋優(yōu),得出特征重要性排序并對其可視化,將特征選擇結果輸入決策樹模型得出IF…THEN形式的分類規(guī)則集。
圖1 GBDT-RFE訓練流程
2.1.1 數(shù)據(jù)清洗
論文使用的道路交通事故數(shù)據(jù)在采集或錄入階段可能出現(xiàn)丟失、錯誤等問題,導致原始數(shù)據(jù)存在嚴重缺失現(xiàn)象,因此需對問題數(shù)據(jù)進行清洗,如表2所示,若某列特征變量缺失超過50%,則刪除該特征,缺失率低于50%,使用眾數(shù)填補。
表2 數(shù)據(jù)清洗策略
2.1.2 方差過濾
論文采用方差分析方法衡量道路交通事故數(shù)據(jù)各列特征取值變化的波動性,進行初步特征篩選,如式(1)所示,若方差低于閾值,則進行過濾,方差為0,表明此列特征取值無變化。
(1)
其中,x為列樣本均值,n為樣本數(shù)量,xi為樣本取值。
以特征列YZWXP(是否運載危險品)、SFDXSG(是否典型事故)、JTXHFS(交通信號方式)的分布及取值情況為例,特征YZWXP取值為2(否)占比約99.9%,方差為0.25,整列特征比較平穩(wěn),相較特征JTXHFS(方差為0.58)來說波動極小,而特征SFDXSG整列取值毫無變化,方差為0,表明特征并無區(qū)分度,予以刪除。
2.1.3 相關性分析
道路交通事故數(shù)據(jù)樣本由115維特征組成,為考察特征間相關性,論文借助協(xié)方差度量,通過計算相關系數(shù)矩陣統(tǒng)計多維隨機變量間相關性,如式(2)所示。
X=[X1,X2,…,Xn]T
{xk.=[xk1,xk2,…,xkn]T|1≤k≤m}
(2)
由于隨機變量取值范圍不同,對其進行歸一化處理獲得相關系數(shù),如式(3)所示,η為1表示變量完全正相關,η為-1表示完全負相關,0則認為變量無相關。
(3)
論文通過對樣本數(shù)據(jù)各特征列作相關性檢驗可得其相關系數(shù)大小,如TQ(天氣)和LBQK(路表情況)相關性達0.65,可在建模過程中考慮剔除其中之一,相關性較小變量予以保留。
2.1.4 數(shù)據(jù)重采樣
(4)
(5)
由于SMOTE會隨機選取少數(shù)類樣本用以合成新樣本,并未考慮周邊樣本分布,容易產生噪音,致使新合成樣本與周圍多數(shù)類樣本重疊而難以分類。ENN(edited nearest neighbours)是一種欠采樣技術,通過某種規(guī)則剔除重疊樣本,達到數(shù)據(jù)清洗的目的。采樣前兩類事故比約為1∶7,而采樣后兩者比例接近1∶1,達到較為均衡狀態(tài)。
2.2.1 GBDT模型
梯度提升樹GBDT將決策樹與Boosting集成學習思想相結合,通過擬合損失函數(shù)的負梯度在當前模型的值改變數(shù)據(jù)的權值或概率分布,依次對新的學習器不斷進行迭代,逐漸減小訓練過程中產生的殘差,最終使用加法模型組合一系列弱分類器從而得到效果較好的強擬合模型。如圖2所示,x為樣本數(shù)據(jù),yi(i=1,2,…,n)為標簽值,使用CART回歸樹作為基礎模型,利用第n個CART擬合前n-1個CART的殘差,模型輸出則為各基礎模型預測值的累加。
圖2 GBDT訓練模型
GBDT模型可表示為:
(6)
其中,x為樣本數(shù)據(jù),TM(x)為第m棵決策樹,M為樹的個數(shù),F(xiàn)M(x)為模型最終預測值。
算法步驟如下:
(1)給定數(shù)據(jù)集{(x1,y1),(x2,y2),…,(xN,yN)}作為模型輸入。
(2)初始化第一個模型為F0(x),如式(7)所示,利用對數(shù)幾率初始化,∑yi是正樣本個數(shù),∑(1-yi)為負樣本個數(shù)。
(7)
(8)
其中,N為樣本數(shù)量。
(5)更新強學習器,如式(10)所示。
(10)
其中,J為葉子節(jié)點數(shù)量(j=1,2,…,J),Rmj為對應葉節(jié)點區(qū)域,I(x∈Rmj)為指示函數(shù),x∈Rmj,則I(x)=1,反之I(x)=0,η為模型訓練的學習率。
(6)得到加法模型,如式(11)所示。
(11)
2.2.2 GBDT-RFE模型
遞歸特征消除法(recursive feature elimination,RFE)是一種貪婪的優(yōu)化算法,旨在找到性能最佳的特征子集。其主要思想是在不斷調整的特征子集上反復構建模型進行訓練評估,直到找到最佳子集或達到最大迭代次數(shù)為止。論文使用GBDT作為訓練模型,迭代過程中使用窮舉法篩選子集并利用模型驗證,從而得到最優(yōu)子集。
GBDT-RFE算法步驟如下:
(1)給定數(shù)據(jù)集{(x1,y1),(x2,y2),…,(xN,yN)}作為模型輸入,N為樣本數(shù)量;
(2)初始化原始特征集合S,特征排序集R=[],whiles=[];
(3)構造訓練集X=X[:s];
(12)
(13)
其中,vt是和節(jié)點t相關聯(lián)的特征,L為葉子節(jié)點數(shù)量,S是數(shù)據(jù)切分點,R1={x|x≤s},R2={x|x>s},c1是使R1內部平方損失誤差達到最小的值,c2同理,N1、N2分別是R1、R2的樣本點數(shù)。
(5)獲取全部特征的樣本集合訓練GBDT-RFE模型,獲得各個特征重要度,特征j的特征重要度通過j在單棵樹中重要度的均值衡量,如式(14)所示;
(14)
其中,M是樹的數(shù)量。
(6)去除重要度最低特征并更新特征集合R;
(7)基于新數(shù)據(jù)集訓練模型,循環(huán)以上過程直至S=[]。
(8)計算比較各個子集獲得的模型效果,選取最優(yōu)變量集合并驗證。
論文經過一系列數(shù)據(jù)預處理過程,初步篩選出包括時間、道路、環(huán)境在內的17個候選特征。大量詳細的編碼雖可覆蓋所有類別,但其描述的多是特征異常狀態(tài)。例如,DLLX(道路類型)特征中單位小區(qū)自建路、公共停車場、公共廣場三類僅占0.06%、0.04%、0.02%,為提升數(shù)據(jù)價值,更好利用數(shù)據(jù),論文對部分編碼進行合并,結合中國對事故嚴重程度等級分類標準,將僅有財產損失的定義為輕微事故,涉及人員受傷或死亡的定義為嚴重事故。
論文以歷史道路交通事故數(shù)據(jù)為樣本,通過將篩選出的特征作為輸入,分層隨機抽取80%作為訓練集,20%作為測試集建立模型,并使用10折交叉驗證綜合評價。圖3為不同特征數(shù)量下的模型精度,橫坐標Number of Features為特征數(shù)目,縱坐標ACC為模型預測準確率,當特征數(shù)量為6時,模型精度達到80%,而當特征數(shù)量為11時,ACC值趨于平穩(wěn),表明之后增加的變量幾乎無影響。特征相對重要性排序如圖4所示,橫坐標為各列特征重要性分數(shù),縱坐標為特征列名稱,可以看出,DLLX、ZHDMWZ特征重要性較高,分別達到0.2和0.155。
圖3 不同特征數(shù)量下的預測結果
圖4 特征相對重要性排序
為驗證特征選擇有效性,分別對隨機森林(RF)、極端隨機樹(ET)和GBDT-RFE使用相同數(shù)據(jù)訓練,并在相同測試集上測試,結果如表3所示,分別列舉了特征選擇前后各個模型的準確率(Accuracy)、召回率(Recall)、精確率(Precision)、f1分數(shù)(f1)以及耗時。
GBDT模型準確率為0.901,召回率為0.923,精確率為0.902,f1分數(shù)為0.912,均優(yōu)于ET和RF模型,GBDT-RFE模型準確率為0.909,較GBDT模型有所提升,其他指標無太大差異,但耗時為1.9 s,較之前的2.3 s有所減少,表明基于GBDT-RFE的特征選擇模型能較好區(qū)分兩種事故。
表3 模型預測結果對比
選取歷史道路交通事故數(shù)據(jù)作為研究對象,依據(jù)圖4篩選出的變量DLLX、ZHDMWZ、ZMTJ、DLXX、JTXHFS、FHSSLX作為輸入建立決策樹模型,由于特征屬性多為多分類變量,為避免信息流失,論文構造多叉樹結構,并對數(shù)據(jù)進一步轉化規(guī)約,從而改進數(shù)據(jù)質量,挖掘具有實踐意義的推理規(guī)則集。為控制樹模型生長規(guī)模,設置樹深度為6,每個子分支最小記錄數(shù)至少為10,完成決策樹模型構建。論文所構建的決策樹自頂向下每一條路徑都代表著一個推理規(guī)則,為防止選取到偶然性的事故因素組合模式,從整個規(guī)則集中篩選置信度水平大于70%的部分規(guī)則摘錄如下所示。
規(guī)則1:IF 交通信號方式為有控制,照明條件為白天,道路線型為平直,道路橫斷面位置為機動車道,道路類型為一般城市道路,THEN 事故等級為財產損失事故,置信度為0.745。
規(guī)則2:IF 交通信號方式為有控制,照明條件為白天,道路線型為彎坡,道路橫斷面位置為機動車道,道路類型為一般城市道路,THEN 事故等級為傷亡事故,置信度為0.767。
規(guī)則3:IF 交通信號方式為無控制,照明條件為白天、黎明或黃昏,道路橫斷面位置為機動車道,道路類型為城市快速路,THEN 事故等級為財產損失事故,置信度為0.775。
規(guī)則4:IF 交通信號方式為無控制,照明條件為夜間無路燈,道路橫斷面位置為機動車道,道路類型為城市快速路,THEN 事故等級為傷亡事故,置信度為0.938。
(1)對比規(guī)則1、2發(fā)現(xiàn),道路線型的改變對事故嚴重程度有較大影響,彎坡路段事故率相應提高且后果較為嚴重,有關部門應在此設置警告標志,提醒駕駛人注意安全。
(2)對比規(guī)則3、4發(fā)現(xiàn),夜間無路燈照明條件下事故嚴重程度較高,更易引發(fā)傷亡事故,置信度達到0.938。若有條件,有關部門應盡可能多安裝照明設施,減輕事故后果。
通過對以上規(guī)則的對比分析,發(fā)現(xiàn)彎坡路段、夜晚無路燈照明條件下更易導致嚴重事故的發(fā)生,根據(jù)控制變量法,在多個因素固定下改變另一因素得到了不同事故結果,驗證了GBDT-RFE模型特征選擇的有效性。利用實驗得到的規(guī)則集可甄別出交通事故危害性,引起相關人員重視,有助于駕駛員提高警惕,便于交通管理人員引導交通,預防交通事件發(fā)生。
依據(jù)歷史道路交通事故數(shù)據(jù)構建事故嚴重程度影響因素預測模型。模型建立前對原始數(shù)據(jù)進行清洗,根據(jù)設定閾值刪除或填充缺失值、異常值,計算每列方差剔除波動較小的特征變量,引入?yún)f(xié)方差得出相關系數(shù)矩陣,分析各因素間的相互擾動,對數(shù)據(jù)進行采樣使得類別均衡,將預處理后的數(shù)據(jù)輸入GBDT-RFE模型對事故嚴重性分類并得出特征重要性排序。
通過對比RF、ET、GBDT、GBDT-RFE模型預測結果,驗證了GBDT-RFE在事故嚴重性預測方面具有較高的精度與良好的穩(wěn)定性,準確率達到了0.909,召回率達到了0.920。為對各因素間耦合作用進行分析,論文使用決策樹提煉具有一定樣本數(shù)量且置信度高的規(guī)則集,從微觀層面掌握道路交通事故的總體特征。有關部門可在交通設施管理和基礎建設等方面采取措施改善行車環(huán)境,通過駕駛員培訓和安全教育工作提高行車安全。