胡立偉,呂一帆,趙雪亭,薛宇,張成杰,雷國慶,劉凡
(昆明理工大學(xué),交通工程學(xué)院,昆明 650500)
近幾年,隨著我國西南地區(qū)基礎(chǔ)設(shè)施建設(shè)逐步前進,山區(qū)高速公路里程不斷增加,在便捷出行的同時,也誘發(fā)了更多的交通事故。相關(guān)數(shù)據(jù)表明,由于山區(qū)高速公路道路線形復(fù)雜,行駛貨車較多,因此發(fā)生交通事故后對車內(nèi)人員造成的事故傷害程度也更加嚴重。因此,對山區(qū)高速公路交通事故傷害程度(Traffic Accident Injury Degree of Mountainous Expressway,TAIDME)的影響因素進行提取分析,可以有效保障山區(qū)高速公路的行車安全。
國內(nèi)外學(xué)者針對交通事故嚴重程度已經(jīng)做了大量研究,但這些研究主要集中在城市道路或者一般的高速公路,對TAIDME 影響因素的研究并不多。Bucsuházy 等[1]研究發(fā)現(xiàn),男性和女性、不同年齡段之間((18,25]歲、(25,65)歲及≥65 歲)的交通事故成因存在顯著差異;Jonghak 等[2]研究發(fā)現(xiàn),較大的降雨強度、較長的排水長度和較大的道路水深對事故嚴重程度有顯著影響;戢曉峰等[3]研究發(fā)現(xiàn)了影響二級公路事故規(guī)模最為關(guān)鍵的4 個交通流參數(shù);孫軼軒等[4]研究發(fā)現(xiàn),碰撞類型、道路屬性、事故致因和駕駛?cè)祟愋偷纫蛩貙煌ㄊ鹿蕠乐爻潭确诸惖挠绊戄^大;趙瑋等[5]研究發(fā)現(xiàn),冰雪環(huán)境下本地駕駛員對自身駕駛能力的錯誤估計更易導(dǎo)致交通事故。這些研究可以為本文TAIDME 的影響因素分析提供理論依據(jù)。
如今,機器學(xué)習廣泛運用于交通事故及其嚴重程度的分析與預(yù)測,但這些機器學(xué)習方法普遍有各自的局限性。房銳等[6]證明了隨機森林(Random Forest,RF)模型對于交通沖突可能性的預(yù)測準確率較高;李英帥等[7]運用RF模型研究了電動自行車騎行者交通事故傷害程度影響因素的重要度排序;張輪等[8]通過仿真實驗表明,樸素貝葉斯(Naive Bayes,NB)分類器適用于高速公路交通事件的檢測系統(tǒng);Zong等[9]研究貝葉斯網(wǎng)絡(luò)在交通事故嚴重性預(yù)測方面的性能,將其與回歸模型預(yù)測的擬合度對比發(fā)現(xiàn),貝葉斯網(wǎng)絡(luò)優(yōu)于回歸模型;張軍等[10]通過AdaBoost分類器反映不同交通狀態(tài),從而判斷是否危險,實現(xiàn)實時交通事故預(yù)測;Athanasios[11]利用RF模型和Bayes 邏輯回歸結(jié)合雅典城市的實時交通和天氣數(shù)據(jù)進行研究,從而制定相應(yīng)的交通戰(zhàn)略以降低事故嚴重程度和發(fā)生可能性;張文鈞等[12]提出一種雙層Bayes 模型:隨機森林樸素貝葉斯(Random Forest Naive Bayes,RFNB),使用RF 模型將原始特征進行降維,從而構(gòu)建具有高分類性能的NB分類模型,實驗證明,RFNB模型明顯優(yōu)于現(xiàn)有的最先進的樸素貝葉斯分類模型和其他傳統(tǒng)分類模型。
綜上,目前國內(nèi)外對TAIDME 的研究較少,故本文以云南省山區(qū)高速公路為例,綜合事故信息、機動車駕駛?cè)诵畔?、道路信息及車輛信息等因素,運用隨機森林樸素貝葉斯-耦合度模型(Random Forest Naive Bayes-Coupling Degree Model,RFNBCDM)鑒別各影響因素對山區(qū)高速公路機動車交通事故傷害的影響程度,并對各因素的耦合關(guān)系進行研究,改進RFNB模型無法對影響因素之間的關(guān)系進行準確刻畫的缺點,本文可為相關(guān)部門在預(yù)防山區(qū)高速公路交通安全事故的決策中提供理論支持。
本文數(shù)據(jù)源自2016—2020年云南省發(fā)生的1760起山區(qū)高速公路事故數(shù)據(jù),為研究山區(qū)高速公路交通事故傷害程度影響因素,剔除不符合本文要求以及含有缺失值數(shù)據(jù)后,保留1193 條作為研究對象。原始數(shù)據(jù)統(tǒng)計了事故時間、事故形態(tài)、事故參與車數(shù)、平面線形、縱斷面線形、照明條件、道路表面狀況等23類事故相關(guān)因素。
(1)因變量設(shè)置
參考《道路交通事故信息調(diào)查》[13]對交通事故的分類與分級,根據(jù)本文對于交通事故傷害程度的研究目的,以及山區(qū)高速公路事故數(shù)據(jù),最終確定將輕微事故、一般事故、嚴重事故及特大事故共4類作為山區(qū)高速公路交通事故嚴重程度(Traffic Accident Severity of Mountainous Expressway,TASME)的劃分,具體如表1所示。
表1 TASME劃分Table 1 Classification of TASME
本文按照事故有無死亡結(jié)合受傷人數(shù)來劃分TAIDME,將輕微事故和一般事故等未造成人員死亡的事故統(tǒng)稱為非重大傷害事故,將嚴重事故和特大事故等造成人員死亡的事故統(tǒng)稱為重大傷害事故,具體如表2所示。
表2 TAIDME劃分Table 2 Classification of TAIDME
統(tǒng)計分析事故數(shù)據(jù)得到2016—2020年云南省TAIDME的分布情況,如圖1所示。
圖1 TAIDME分布情況Fig.1 Distribution of TAIDME
由圖1可知,2016—2020年云南省山區(qū)高速公路發(fā)生交通事故中造成重大傷害事故明顯高于非重大傷害事故;2016年、2017年重大傷害事故占比更高;每年2月、6月和12月發(fā)生事故時造成的傷害更為嚴重;重大傷害事故的時刻分布在2:00-3:00、6:00-7:00、10:00-11:00、13:00-14:00、16:00-17:00、19:00-20:00和22:00-23:00,呈現(xiàn)7個高峰。
(2)自變量設(shè)置
對事故發(fā)生時人、車、路、環(huán)境以及包括事故本身在內(nèi)的各方面信息進行綜合考量后,選取18 個因素作為初始自變量,并將其分類為事故信息、道路信息、肇事機動車輛信息及駕駛?cè)诵畔⑦@4 類,具體劃分如表3所示。
表3 TAIDME的影響因素劃分Table 3 Division of influencing factors of TAIDME
隨機森林樸素貝葉斯-耦合度模型(RFNBCDM)的運行過程分為3 個階段:第1 階段為構(gòu)建RF 模型對于原始特征進行特征選擇,得到各特征對于TAIDME 的重要度排序,并篩除不重要的特征,以提升模型分類性能;第2階段為在RF特征選擇的基礎(chǔ)上構(gòu)建NB 模型,分析并獲得對TAIDME影響較大的因素;第3 階段為基于RFNB 構(gòu)建耦合度模型,最終得到上述因素影響TAIDME的耦合關(guān)系。模型運行的具體流程如圖2所示。
圖2 RFNB-耦合度模型運行示意圖Fig.2 Operation diagram of RFNB Model
RF 模型[14]是一種機器學(xué)習算法,是由多顆決策樹組成的一種組合分類模型,多用于分類、回歸以及降維,且精度較好。將RF 作為第1 層模型進行特征提取,以捕獲單詞組合的高層特征,在RStudio中建立RF模型,模型訓(xùn)練目標為事故傷害程度,為盡可能降低誤差,需求出最佳分割點kw的值,即
國慶節(jié)那天,程曉去機場路中段的一家凱迪拉克專賣店看了看,立即被一輛香檳色的凱迪拉克3.6L迷住了。漂亮的售車MM極力游說道:“這輛車無論是大氣的外觀、卓越的動力、寬敞的空間,還是豪華的配置,都是為您這種年輕的極品男人特意打造的?!背虝员徽f得心花怒放,決定試駕一次——他坐進駕駛室,啟動發(fā)動機,心也不禁顫抖起來,隨后一踩油門,轉(zhuǎn)速升到了2500,車子開始飛馳起來,過高架橋時,再次提速,轉(zhuǎn)速升到3500,時速120公里,像一條鉑金色的箭魚在大海里乘風破浪……程曉渾身血脈賁張,他要不惜一切代價買下這輛車。
式中:m為數(shù)據(jù)集變量個數(shù)。
由式(1)得出kw的值為4,經(jīng)實驗篩選得到最佳ntree 值為620。將事故傷害程度設(shè)置為目標變量進行訓(xùn)練,將事故數(shù)據(jù)分為訓(xùn)練集與測試集,并將它們七三分,缺失值設(shè)置為na.pass,進行RF 模型構(gòu)建。
假設(shè)Bi為預(yù)測特征屬性Xj的類,D={(X1,B1),(X2,B2),…,(XM,BN)}為數(shù)據(jù)集合,根據(jù)貝葉斯定理,可知最高后驗概率。當后驗概率P(Bi|Xj)的值大于閾值λ時,則判定為重大傷害事故發(fā)生,定義為
本文使用NB 模型作為RFNB 模型的第2 層,NB算法是bayes算法中實用性較高的一種算法,具有較好的統(tǒng)計學(xué)習能力。1;反之為不發(fā)生,定義為0。
式中:Xj為事故特征;Bi為影響事故特征的事件;Y為重大傷害事故是否發(fā)生的判定結(jié)果。
通過歸一化加權(quán)平均方法,Bi對于TAIDME的影響程度可以定義為
式中:N為影響事故特征的事件數(shù)量;Zi為Bi對于TAIDME的影響程度。
式中:n為構(gòu)成一級指標的數(shù)量;m為構(gòu)成二級指標的數(shù)量;wk為一級指標權(quán)重;wkl為二級指標權(quán)重;Skl為二級指標重要性系數(shù)。
利用NB 得出各因素的后驗概率P(Bi|Xj),通過全概率公式確定各類二級風險指標對TAIDME的功效值Ukl,則各類指標對整個TAIDME 的有序貢獻度Uk為
可求出各指標的耦合度Cm為
其中,當Cm∈[0.0,0.3]時,為低耦合;當Cm∈(0.3,0.7]時,為中耦合;當Cm∈(0.7,1.0]時,為強耦合。耦合度越高,代表耦合作用后導(dǎo)致TAIDME越高。
將數(shù)據(jù)集輸入RF 模型,得到按模型平均基尼指數(shù)[15]降序(Mean Decrease Gini)排列的各特征變量的重要度排序;為提取重要度較高的特征變量,需對較為冗余的特征變量進行篩除,采用后向搜索方法,每次去除一個重要性最低的特征變量,最后獲得一個特征變量最少、分類精度最高的特征集作為本文最終的特征指標體系,并采用10 折交叉驗證進行驗證以保證模型穩(wěn)定性。RF特征選擇結(jié)果如圖3所示。最終提取出的事故傷害特征指標集為:{事故形態(tài),縱斷面線形,事故車輛數(shù),行駛狀態(tài),路側(cè)防護設(shè)施,車輛類型,路表面狀況,中央隔離設(shè)施,事故時間段,車輛使用性質(zhì),照明條件}。
圖3 RF特征選擇結(jié)果Fig.3 RF feature selection results
將新的特征指標集輸入NB 模型,可得各影響因素的后驗概率P(Bi|Xj),并得到其對TAIDME的影響程度Zi,如表4所示。
相比于傳統(tǒng)RF 模型(模型1)與NB 模型(模型2),本文采用的RFNB 模型(模型3)分類性能更好、準確率更高,分類性能分別提升了5.56%和14.79%,3類模型分類結(jié)果對比情況如表5所示。
表5 模型分類結(jié)果比較Table 5 Model classification results
根據(jù)表4,將18:00-次日6:00、事故車輛數(shù)2輛、追尾碰撞、下坡段、夜間無路燈照明、道路表面干燥、路側(cè)金屬防護、中央綠化帶隔離、貨運、大中型貨車和直行勻速等11類對TAIDME影響較高的因素作為事故傷害程度耦合的對象,分為事故信息、道路信息和肇事機動車輛信息這3 類,通過耦合度模型確定各因子的指標權(quán)重及功效值,如表6所示。
表4 TAIDME各影響因素的影響程度Table 4 Influence degree of TAIDME factors
表6 TAIDME的各因素風險指標權(quán)重及功效值Table 6 Weight and efficacy value of risk indicators for TAIDME
通過上述結(jié)果,可由耦合度模型得到TAIDME致因耦合的單因素耦合、雙因素耦合模型的耦合度,TAIDME 影響因子耦合拓撲分析結(jié)果如圖4所示。
圖4 TAIDME影響因素的單、雙因素耦合拓撲分析結(jié)果Fig.4 Topological analysis results of TAIDME's influence factors were coupled by single and double factors
由圖4可知,事故發(fā)生時存在追尾碰撞、18:00-次日6:00、事故車輛數(shù)2 輛、下坡段、夜間無路燈照明、貨運、大中型貨車和直行勻速這幾類因素時,TAIDME高,當直行勻速與追尾碰撞發(fā)生耦合作用時,TAIDME最高;存在路側(cè)金屬防護、中央綠化帶隔離和道路表面干燥這幾類因素時,可有效降低TAIDME,當路側(cè)金屬防護與道路表面干燥發(fā)生耦合作用時,TAIDME最低。
(1)以云南省1760起山區(qū)高速公路交通事故數(shù)據(jù)為基礎(chǔ),構(gòu)建了RFNB-CDM,對TAIDME的影響因素進行分析,模型采用RFNB模型對TAIDME進行單因素分析,并提取影響程度較大的因素,采用耦合度模型分析各因素的耦合特性,量化各因素耦合作用時對TAIDME 的影響程度。該方法可為預(yù)防山區(qū)高速公路事故、減輕事故傷害程度提供一定決策參考。
(2)RFNB分析結(jié)果表明:18:00-次日6:00、事故車輛數(shù)2輛、追尾碰撞等11類因素對TAIDME的影響較大。耦合分析結(jié)果表明:追尾碰撞、18:00-次日6:00、事故車輛數(shù)2輛、下坡段、夜間無路燈照明、貨運、大中型貨車和直行勻速等8 類因素存在時,事故造成的傷害程度更高;路側(cè)金屬防護、中央綠化帶隔離和道路表面干燥等3類因素存在時,事故造成的傷害程度更低。