王丹 胡堯 吳楠 商明菊
摘 要:隨著車輛日益增多,交通事故頻繁發(fā)生,找出影響交通事故發(fā)生的真正因素是目前交通管理部門要解決的主要問題?;谫F陽市交通管理部門開放的交通事故數(shù)據(jù),采用多項Logistic回歸模型和Apriori算法,發(fā)現(xiàn)多項Logistic回歸模型能很好地擬合數(shù)據(jù)且能找出影響城市交通安全的顯著性因素,Apriori算法通過識別或發(fā)現(xiàn)交通事故數(shù)據(jù)中所有的頻繁項集,能夠挖掘出人、車、道路、天氣因素之間的關聯(lián)對交通事故類型的影響,數(shù)據(jù)分析結果可為交通管理相關部門提供參考。
關鍵詞:交通安全;多項Logistic回歸模型;Apriori算法
中圖分類號:O212
文獻標識碼: A
道路交通安全問題是世界上所有國家面臨的難題[1]。我國的交通安全形勢與其它國家相比更為嚴重,尤其是近年來越來越多的汽車走進千家萬戶,交通事故頻繁發(fā)生,
對社會造成了嚴重危害。由于每次交通事故的發(fā)生具有諸多誘因,在較長時間內一個地區(qū)發(fā)生的交通事故又具有一定的規(guī)律性,因此找出影響道路交通事故發(fā)生的因素是解決交通安全問題的關鍵途徑。
一般認為交通事故的發(fā)生是由人、車、道路、環(huán)境等要素組成的系統(tǒng)失去平衡造成的[2]。國內外關于道路交通事故成因分析的理論主要經歷了三個階段[3]即單因素理論、多因素理論和系統(tǒng)致因理論。單因素理論顧名思義即將交通事故的發(fā)生歸結為某一因素,主要偏重于人;多因素理論主要從人、車、路三因素分析;系統(tǒng)致因理論在20世紀80年代被提出,主要對多個因素及其關系進行分析研究。近年來對交通事故成因的研究方法主要有故障樹[4]、貝葉斯網絡[5]等。關于交通事故成因的研究更多的是從管理的角度提出對事故的預防對策,而針對交通事故內在致因的相關性分析則研究較少,對影響事故發(fā)生的因素與事故類型之間的聯(lián)系也沒有得到充分挖掘。
本文根據(jù)交通事故數(shù)據(jù)中9種事故類型特征建立多項Logistic回歸模型及采用關聯(lián)規(guī)則中Apriori算法對道路交通安全影響因素進行研究。首先對數(shù)據(jù)進行預處理,對多種事故因素和交通事故類型建立Logistic回歸模型,探索交通事故內在致因相關性,找到對交通事故類型有顯著性影響的因子;其次,采用關聯(lián)規(guī)則中Apriori算法挖掘人、車、道路、環(huán)境多個因素之間的關聯(lián)對交通事故類型的影響;最后,得出分析結論可為交通相關部門提供參考。
1 數(shù)據(jù)預處理
研究數(shù)據(jù)來源于2015年貴陽市56651條交通事故數(shù)據(jù)及歷史天氣數(shù)據(jù),包含肇事類型、肇事者性別、年齡、駕齡、車輛歸屬地、違法歷史及肇事時間等多個屬性。首先對數(shù)據(jù)進行缺失值分析,如圖1所示,由左側缺失比例可知駕齡、駕校及車輛品牌缺失較多,在15%以上,其他變量缺失較少。對于缺失數(shù)據(jù)簡單采用眾數(shù)方法進行填補,可降低標準誤差,由于數(shù)據(jù)量較大,填補數(shù)據(jù)不會對分析結果造成較大影響。
對填補后的數(shù)據(jù)進行整理,其中時間段劃分標準見表1。圖2展示了貴陽市10個區(qū)域分別發(fā)生9種交通事故類型的數(shù)目,可知事故類型1(追尾)和事故類型7(未按規(guī)定讓行)發(fā)生次數(shù)較多,從上到下曲線分別表示云巖區(qū)、南明區(qū)和烏當區(qū)(接近重合)、花溪區(qū)、白云區(qū),可知這幾個區(qū)發(fā)生交通事故次數(shù)較多,其他區(qū)域如開陽縣、修文縣等發(fā)生交通事故次數(shù)較少。
2 多項Logistic回歸模型
2.1 模型介紹
多項指分類數(shù)大于等于3的分類因變量,本研究中數(shù)據(jù)交通事故類型共9類,即因變量有9個取值且無序,而一般的線性回歸分析無法準確地刻畫變量之間的因果關系,因此可對交通事故類型建立多項Logistic回歸模型[6-8]。
2.3 模型結果
在對9種事故類型建立多項Logistic回歸模型之前,首先對自變量間的多重共線性進行檢驗,本文采用方差膨脹因子(VIF)[10]和條件索引來綜合判別多重共線性,對共線性較強的一些變量只保留一個,如對天氣情況中風力風向等屬性只保留是否下雨。篩選后的變量及共線性診斷結果見表2。
一般認為,當VIF>10時,認為變量間存在較嚴重的共線性,由表2可知11個變量的方差膨脹因子均在1左右,共線性較弱。此外,條件索引在10~30之間認為具有弱共線性,在30~100之間認為具有中等共線性,大于100認為具有嚴重共線性。由表2知11個變量的條件索引均小于30。綜合來看,選取的11個解釋變量均通過多重共線性檢驗,可對其進行建模。
對肇事者事故類型建立多項Logistic回歸模型,顯著性0.001<0.05,模型通過檢驗,皮爾遜卡方檢驗的擬合優(yōu)度為0.865,接近于1,說明模型對原始數(shù)據(jù)的擬合通過檢驗且擬合效果較好。
由表3似然比檢驗顯著性知,肇事者年齡、性別、肇事地點、車輛顏色、車輛品牌、肇事者駕齡,這些變量對模型構成均有顯著性貢獻。
通過對56651起交通事故數(shù)據(jù)建立多項Logistic回歸模型,得到道路交通安全影響因素(11種)與事故類型(9種)的回歸結果如表4所示,這里僅列舉事故類型1(追尾)和事故類型2(逆行)的部分分析結果。其中B為模型變量的回歸系數(shù),正負分別表示自變量對交通事故類型有正影響與負影響,Wald值是對偏回歸系數(shù)進行Wald檢驗的結果,Exp(B)為每個自變量的優(yōu)勢比。
由事故類型1的分析結果可看出對于駕駛員因素,男性發(fā)生交通事故的優(yōu)勢比大于1,表明男性比女性更易發(fā)生追尾事故。對于道路因素,開陽的優(yōu)勢比最大為5.383,可知危險程度相對較高,與開陽地型地貌變化多樣,地型起伏大,易發(fā)生追尾事故有關。
.
由事故類型2,對于駕校因素,駕駛員所報考駕校如鑫鑫駕校等,對事故率有正影響,優(yōu)勢比為1.334。對于車輛因素車輛顏色為灰色的優(yōu)勢比較大,為3527,可能與灰色車辨識度較低有關。別克牌和長安牌汽車對事故率有較大的正影響,優(yōu)勢比分別是4.17、4.135,可知危險度相對較高,該類品牌車輛車型繁多,危險性是否與車輛品牌安全性能有關,有待進一步考證;對于道路因素,修文的優(yōu)勢比最大為15.493,可能與修文奇特的地勢及駕駛員安全意識薄弱有關。
3 關聯(lián)規(guī)則
關聯(lián)規(guī)則挖掘[11]是數(shù)據(jù)挖掘中最為活躍的研究方向之一,其本質是挖掘大量數(shù)據(jù)中項集之間的關聯(lián),由Agrawal[12]等人于1993年首次提出。關聯(lián)規(guī)則算法不需要對原始數(shù)據(jù)進行訓練,是一種無監(jiān)督的機器學習方法,可以挖掘出數(shù)據(jù)中的潛在關系。設A是一項集,事務T包含A當且僅當AT,則關聯(lián)規(guī)則是形如{A}{B}的蘊涵式,其中AI和BI分別稱為這條規(guī)則的左手邊項集(Left-hand-side, LHS)和右手邊項集(Right-hand-side, RHS)且A∩B=。理解為“在相同的事務中,當A中的事件發(fā)生時,B中的事件也發(fā)生”。如對事故類型1關聯(lián)結果中的規(guī)則:{東北風/東北風,男,起亞牌,青年,時間段2} =>{事故類型1},花括號中的Item集合即為項集,箭頭左邊為左手邊項集,箭頭右邊為右手邊項集且兩者不能有交集。
3.2 關聯(lián)結果分析
采用R語言中arules包以事故類型1和事故類型7為例進行關聯(lián),其他事故類型類似。
綜合分析人、車、道路、天氣因素對交通事故的影響,根據(jù)關聯(lián)規(guī)則挖掘數(shù)據(jù)的結果,通過提升度進行排序,在提升度最高的規(guī)則中分析可行部分。
對事故類型1挖掘出來的關聯(lián)規(guī)則以提升度lift排名前5條進行展示,見表5。如第二條規(guī)則可解讀為以72%以上的置信度可確定無違法歷史的男司機在開陽縣發(fā)生追尾事故的情況約是其他情況的2.5倍,其他規(guī)則類似可進行分析。
圖3為事故類型1的關聯(lián)規(guī)則特征組成圖,顏色越深表明提升度越高,關聯(lián)性越強,可知開陽縣、無違法歷史、長城牌、青年等特征與事故類型1關聯(lián)較強。
圖4為關聯(lián)規(guī)則的平行坐標圖展示,顏色越深代表提升度越高,由圖可知具有3個及以上因素若造成交通事故則發(fā)生事故類型1的概率較大,如倒數(shù)第二條解讀為未參與駕校培訓具有0~2年駕駛經驗的非貴A新手男司機在時間段2(7:00~9:00),若發(fā)生交通事故則發(fā)生“追尾”事故的情況概率較大。
對事故類型7挖掘出來的關聯(lián)規(guī)則以提升度lift排名前5條進行展示,見表6。如第二條規(guī)則可解讀為以75%的置信度可確定十一培駕校的男司機駕駛長安牌汽車在時間段4(12:00~14:00)有雨的天氣下發(fā)生事故類型7(未按規(guī)定讓行)約是其他情況下的2.85倍。
圖5展示了事故類型7關聯(lián)規(guī)則的分組圖,圓圈尺寸的大小表示支持度,圓圈的顏色深淺表示提升度。從圖中可清楚的看出時間、風力、長安牌汽車、非貴A等屬性與事故類型7關聯(lián)性較強。
4 結論
論文通過對貴陽市交通事故數(shù)據(jù)建立多項Logistic回歸模型,擬合效果較好,分析了單因素對交通事故類型的影響,結合關聯(lián)規(guī)則中Apriori算法挖掘了多個因素的關聯(lián)作用對事故類型的影響,全面分析了影響道路交通安全的因素,可為交通相關部門提供管理依據(jù),部分分析結論如下:
(1)男性青年駕駛員發(fā)生追尾的事故率較高;女性若發(fā)生交通事故,依法負全責的情形較多;駕齡在5年以上、無違法歷史的中年駕駛員因逆行發(fā)生的事故率較高。
(2)開陽縣由于追尾發(fā)生交通事故的概率較高,修文縣由于逆行發(fā)生的交通事故概率較高。
(3)青年男司機、無違法歷史、開陽縣、云巖區(qū)與“追尾”事故關聯(lián)度較高;十一培駕校、風力風向、時間段、長安牌汽車、中年司機與“未按規(guī)定讓行”的關聯(lián)度較高。
(4)車輛顏色對交通事故發(fā)生也有顯著性影響,如逆行事故中灰色車的事故率較高,推測和人的視覺有關,可進一步分析研究。
參考文獻:
[1]劉勇. 基于貝葉斯網的道路交通事故分析[D].長沙:長沙理工大學,2009.
[2]洪國,周立,魯光泉.中國道路交通安全現(xiàn)狀、成因及其對策[J].中國安全科學學報,2004,14(8):34-38.
[3]孫平,宋瑞,王海霞.我國道路交通事故成因分析及預防對策[J].安全與環(huán)境工程, 2007,14(2):97-100.
[4]胡藝馨,劉唐志.長大下坡傷亡事故致因故障樹分析[J].科技通報,2017,33(06):238-241.
[5]Mbakwe A C, Saka A A, Choi K, et al. Alternative method of highway traffic safety analysis for developing countries using Delphi technique and Bayesian network[J].Accident Analysis & Prevention,2016,93(1): 135-146.
[6]王世通,楊艷紅.基于多項Logistic回歸的地鐵應急疏散行為影響因素分析[J]. 城市軌道交通研究,2014,17(05):73-76+80.
[7]Geraghty D, OMahony M. Urban Noise Analysis Using Multinomial Logistic Regression[J]. Journal of Transportation Engineering,2016, 142(6): 04016020.
[8]劉亞洲.基于方差分析與Logistic回歸模型的公路交通事故率研究[J]. 公路交通技術,2016(06):144-147.
[9]孟生旺.回歸模型[M].北京:中國人民大學出版社,2015.
[10]劉鋼,宋亞倩.基于有序Logistic回歸的水庫移民住房感知實證研究[J]. 長江流域資源與環(huán)境,2017,26(04):519-529.
[11]Gupta M,Solanki V K, Singh V K. A Novel Framework to Use Association Rule Mining for classification of traffic accident severity[J]. Ingeniería solidaria, 2017, 13(21):37-44.
[12]Agrawal R,Imieliński T, Swami A. Mining association rules between sets of items in large databases[C]//Acm sigmod record. ACM, 1993, 22(2): 207-216.
[13]李淵韜,張 楠,劉 峰,等.基于信息論優(yōu)化的Apriori算法在交通事故分析中的應用[J].信息系統(tǒng)工程,2016(10):80-84.
[14]Huh J H, Kim H B, Kim J. A Method of Modeling of Basic Big Data Analysis for Korean Medical Tourism: A Machine Learning Approach Using Apriori Algorithm [C]//International Conference on Information Science and Applications. Springer Singapore, 2017:784-790.
(責任編輯:曾 晶)