朱小平 張麗英 劉靜 向健龍
摘 要:自動(dòng)駕駛汽車(chē)風(fēng)險(xiǎn)具有復(fù)雜性和隱蔽性,不易被人為地發(fā)現(xiàn)和預(yù)防。為了更好地預(yù)測(cè)這些風(fēng)險(xiǎn),利用美國(guó)加州自動(dòng)駕駛事故數(shù)據(jù)集,從時(shí)間、地點(diǎn)、人員參與、天氣等多維度提取數(shù)據(jù),數(shù)據(jù)經(jīng)過(guò)預(yù)處理從而構(gòu)建自動(dòng)駕駛事故數(shù)據(jù)庫(kù)。然后,將XGBOOST算法與數(shù)據(jù)相結(jié)合,建立自動(dòng)駕駛汽車(chē)事故風(fēng)險(xiǎn)預(yù)測(cè)分類模型。將XGBOOST算法與多種算法進(jìn)行比較分析,結(jié)果表明,XGBOOST算法為較優(yōu),其訓(xùn)練和測(cè)試預(yù)測(cè)精度分別超過(guò) 92.27%和97.06%,能夠有效地識(shí)別出高風(fēng)險(xiǎn)和低風(fēng)險(xiǎn)的自動(dòng)駕駛汽車(chē)事故情況。
關(guān)鍵詞:自動(dòng)駕駛汽車(chē) XGBoost算法 風(fēng)險(xiǎn)預(yù)測(cè)
1 引言
自動(dòng)駕駛有很多優(yōu)點(diǎn),比如可以提高交通效率、減少人為錯(cuò)誤、節(jié)省能源等。但是,自動(dòng)駕駛也存在一些風(fēng)險(xiǎn),如政策風(fēng)險(xiǎn)、事故風(fēng)險(xiǎn)、系統(tǒng)風(fēng)險(xiǎn)等等。因此,對(duì)自動(dòng)駕駛風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)分析是非常必要的。預(yù)測(cè)分析可以幫助我們了解自動(dòng)駕駛的潛在風(fēng)險(xiǎn),評(píng)估風(fēng)險(xiǎn)的可能性和嚴(yán)重程度,制定風(fēng)險(xiǎn)的應(yīng)對(duì)措施和預(yù)案。
王浩旭[1]利用Carsim仿真軟件驗(yàn)證信控交叉口自動(dòng)駕駛汽車(chē)風(fēng)險(xiǎn)控制措施的有效性及合理性。薛松[2]提出了一種基于自動(dòng)駕駛場(chǎng)景的預(yù)期功能安全危害分析評(píng)估方法。王明[3]根據(jù)周邊車(chē)輛信息,提出一種融合風(fēng)險(xiǎn)的自動(dòng)駕駛汽車(chē)規(guī)劃方法。Subasish[4]對(duì)美國(guó)加州的2014-2019年的數(shù)據(jù)應(yīng)用貝葉斯?jié)擃惸P蛠?lái)識(shí)別碰撞模式。Siying[5]通過(guò)成本敏感分類和回歸(CART)模型開(kāi)發(fā)了一個(gè)包含可能影響因素的自動(dòng)駕駛汽車(chē)碰撞嚴(yán)重程度分類樹(shù),該模型可以處理自動(dòng)駕駛汽車(chē)碰撞數(shù)據(jù)集中引發(fā)的類不平衡問(wèn)題。自動(dòng)駕駛汽車(chē)風(fēng)險(xiǎn)多數(shù)采用仿真方法,較少以定量的方法進(jìn)行研究,且定量風(fēng)險(xiǎn)評(píng)估需考慮多個(gè)維度因素。本文綜合考慮人-車(chē)-路-環(huán)境因素基于XGBoost算法對(duì)數(shù)據(jù)進(jìn)行全面綜合評(píng)估。
2 數(shù)據(jù)源介紹
2.1 數(shù)據(jù)源梗概
DMV[6]是Department of Motor Vehicles(機(jī)動(dòng)車(chē)輛管理局)的縮寫(xiě),它是負(fù)責(zé)管理公共道路上的機(jī)動(dòng)車(chē)輛和駕駛員的政府機(jī)構(gòu)。DMV的數(shù)據(jù)包括以下幾個(gè)方面:機(jī)動(dòng)車(chē)輛登記、駕駛員許可、自動(dòng)駕駛測(cè)試。
2.2 數(shù)據(jù)預(yù)處理和實(shí)驗(yàn)數(shù)據(jù)
本文采用的是自動(dòng)駕駛測(cè)試中的碰撞報(bào)告,包括事故的時(shí)間、地點(diǎn)、原因、結(jié)果、參與者、車(chē)輛、傷害、損失等。
通過(guò)在DMV官網(wǎng)上搜集2014-2023年7月的數(shù)據(jù),數(shù)據(jù)集變量是數(shù)據(jù)原始的變量定義,中文變量名稱是本文自定義解釋,變量解釋是本文對(duì)變量進(jìn)行批次分類的再定義。
3 預(yù)測(cè)方法
XGBoost[7]在處理大數(shù)據(jù)時(shí),精度高且可避免過(guò)擬合,有效處理缺失值。具體模型[8]如下:
其中,為獨(dú)立樹(shù)結(jié)構(gòu);F為樹(shù)空間。
其中,為目標(biāo)函數(shù);l為損失函數(shù);為模型懲罰項(xiàng),且:
其中,G為葉的數(shù)量;為第i片葉的分?jǐn)?shù);為節(jié)點(diǎn)切分的難度;為正則化系數(shù)。
求解式(1)~(3),得到:
4 實(shí)驗(yàn)結(jié)果
利用pycharm軟件使用XGBoost機(jī)器學(xué)習(xí)算法對(duì)DMV數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試,對(duì)自動(dòng)駕駛事故數(shù)據(jù)集進(jìn)行等級(jí)分類預(yù)測(cè),得到以下結(jié)果:
由于截止到2023年7月,DMV事故數(shù)據(jù)集只有620條數(shù)據(jù),為了保持?jǐn)?shù)據(jù)的有效性,采用數(shù)據(jù)交叉驗(yàn)證的方式,如圖1,橫坐標(biāo)為交叉驗(yàn)證的折次數(shù),縱坐標(biāo)為預(yù)測(cè)精度,由圖可知,當(dāng)交叉驗(yàn)證折數(shù)為9時(shí),訓(xùn)練預(yù)測(cè)精度為92.27%,此時(shí)測(cè)試預(yù)測(cè)精度為97.06%。
5 有效性分析
在機(jī)器學(xué)習(xí)分類模型中,Gradient Boosting和LightGBM[9]、CatBoost[10]、Stochastic Gradient Descent[11]、Passive Aggressive Classifier[12]、Perceptron Classifier[13]以及SVM[14]都是備受青睞的算法。
首先,XGBoost算法展現(xiàn)了在特定交叉驗(yàn)證折疊下的魯棒性和高度的預(yù)測(cè)精度。它在許多情況下表現(xiàn)出良好的性能,尤其是在數(shù)據(jù)模式復(fù)雜或特征維度高的情況下。然而,與其他算法相比,其表現(xiàn)可能略顯中庸。
相較之下,LightGBM以其基于梯度提升框架的高效性和低內(nèi)存占用而著稱,在處理大規(guī)模數(shù)據(jù)時(shí)表現(xiàn)出色。CatBoost則專注于處理類別型特征和自動(dòng)處理缺失值,這使得它在某些數(shù)據(jù)集上表現(xiàn)突出。Stochastic Gradient Descent和Passive Aggressive Classifier則適用于在線學(xué)習(xí)和大規(guī)模數(shù)據(jù)流,其快速的更新速度使其在這些場(chǎng)景下具備優(yōu)勢(shì)。Perceptron Classifier和SVM則在處理線性可分?jǐn)?shù)據(jù)和復(fù)雜核函數(shù)映射時(shí)表現(xiàn)出色。
綜上所述,每種算法都有其獨(dú)特的優(yōu)勢(shì)和適用領(lǐng)域。XGBoost在穩(wěn)定性和普適性上表現(xiàn)良好,而其他算法則在特定場(chǎng)景下可能更具優(yōu)勢(shì)。因此,在選擇適用于特定問(wèn)題的機(jī)器學(xué)習(xí)模型時(shí),需要根據(jù)數(shù)據(jù)特征、規(guī)模和問(wèn)題本身的要求來(lái)進(jìn)行綜合考量,并結(jié)合交叉驗(yàn)證等方法來(lái)充分評(píng)估模型的性能和適用性。它們各自具有獨(dú)特的特點(diǎn)和適用場(chǎng)景,因此在比較它們與XGBoost在預(yù)測(cè)精度上的表現(xiàn)時(shí),通過(guò)使用交叉驗(yàn)證來(lái)訓(xùn)練和測(cè)試模型,得到了如下結(jié)果:
圖2展示了訓(xùn)練結(jié)果的概貌,橫坐標(biāo)為交叉驗(yàn)證折數(shù),縱坐標(biāo)則反映了訓(xùn)練精度。盡管XGBoost算法在該圖中處于中間水平,但是從下圖3中的觀察可以發(fā)現(xiàn),在第三折到第十折之間,XGBoost算法表現(xiàn)出了相當(dāng)穩(wěn)定的趨勢(shì)。實(shí)際上,在這段時(shí)間內(nèi),絕大部分情況下XGBoost算法都展現(xiàn)出最高水平的預(yù)測(cè)精度。尤其值得注意的是,第9折所達(dá)到的精度最為顯著,其訓(xùn)練和測(cè)試的精度分別達(dá)到了92.27%和97.06%。
這種模式可能反映了XGBoost在特定數(shù)據(jù)折疊下的優(yōu)勢(shì),尤其是在這種交叉驗(yàn)證的框架下。這樣的結(jié)果可能表明XGBoost算法在特定折疊中能更好地捕捉數(shù)據(jù)的模式,并在模型的學(xué)習(xí)過(guò)程中更準(zhǔn)確地推廣到新數(shù)據(jù)上。這也突顯了算法的魯棒性和有效性,尤其是在處理這個(gè)特定數(shù)據(jù)集時(shí)。
除了圖2和圖3中呈現(xiàn)的訓(xùn)練結(jié)果外,還值得注意的是XGBoost算法在訓(xùn)練和測(cè)試階段之間的差距。這種差距可能暗示著一些潛在的過(guò)擬合或者模型在新數(shù)據(jù)上泛化能力的限制,需要進(jìn)一步的探索和分析。
總的來(lái)說(shuō),盡管XGBoost算法在圖2中的表現(xiàn)未必最為突出,但是深入研究后我們發(fā)現(xiàn)其在特定交叉驗(yàn)證折疊中的穩(wěn)定性和高精度表現(xiàn)。這種發(fā)現(xiàn)為我們對(duì)該算法的性能和優(yōu)勢(shì)提供了更深入的認(rèn)識(shí),并為未來(lái)進(jìn)一步優(yōu)化模型或探索其他算法提供了有益的參考。
6 結(jié)論
自動(dòng)駕駛風(fēng)險(xiǎn)預(yù)測(cè)是一個(gè)極具復(fù)雜性的領(lǐng)域,需要全面考慮事故發(fā)生的多種影響因素和指標(biāo)。這項(xiàng)研究利用了美國(guó)加州DMV自動(dòng)駕駛事故集中的數(shù)據(jù),并通過(guò)定義和分析對(duì)其進(jìn)行了深入研究。同時(shí),多種分類模型在該數(shù)據(jù)集上進(jìn)行了比較和分析,以確定最契合的模型和分類預(yù)測(cè)精度。最終,選擇了XGBoost算法,并通過(guò)交叉驗(yàn)證的方式對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練和預(yù)測(cè)。結(jié)果顯示,XGBoost算法表現(xiàn)出色,其預(yù)測(cè)結(jié)果優(yōu)異,訓(xùn)練和預(yù)測(cè)的分類精度分別高達(dá)92.27%和97.06%。
未來(lái),這項(xiàng)研究可能有助于改進(jìn)自動(dòng)駕駛系統(tǒng)的安全性。通過(guò)深入理解事故發(fā)生的因素,并使用高精度的預(yù)測(cè)模型,我們有望進(jìn)一步提高自動(dòng)駕駛車(chē)輛的安全性能。此外,該研究還為未來(lái)開(kāi)展更多實(shí)證研究提供了有價(jià)值的數(shù)據(jù)和方法,以持續(xù)改進(jìn)自動(dòng)駕駛技術(shù),并推動(dòng)其在道路安全方面的進(jìn)步。
項(xiàng)目基金:桂林電子科技大學(xué)研究生教育創(chuàng)新計(jì)劃項(xiàng)目(2023YCXS192)。
參考文獻(xiàn):
[1]王浩旭.基于信控路口先驗(yàn)事故的自動(dòng)駕駛汽車(chē)安全風(fēng)險(xiǎn)分析及仿真測(cè)試[D].重慶:重慶交通大學(xué),2022.DOI:10.27671/d.cnki.gcjtc.2022.000844.
[2]薛松.基于自動(dòng)駕駛場(chǎng)景的預(yù)期功能安全危害分析評(píng)估方法設(shè)計(jì)與實(shí)現(xiàn)[D].上海:華東師范大學(xué),2022.DOI:10.27149/d.cnki.ghdsu.2022.001538.
[3]王明,唐小林,楊凱,等.考慮預(yù)測(cè)風(fēng)險(xiǎn)的自動(dòng)駕駛車(chē)輛運(yùn)動(dòng)規(guī)劃方法[J].汽車(chē)工程,2023,45(08):1362-1372+1407.DOI:10.19562/j.chinasae.qcgc.2023.08.007.
[4]Das S ,Dutta A ,Tsapakis I .Automated vehicle collisions in California: Applying Bayesian latent class model[J].IATSS Research,2020,44(4):300-308.
[5]Siying Z ,Qiang M .What can we learn from autonomous vehicle collision data on crash severity? A cost-sensitive CART approach[J].Accident Analysis and Prevention,2022,174106769-106769.
[6]劉通.2021加州DMV自動(dòng)駕駛榜,中企班行秀出[J].汽車(chē)縱橫,2022,(03):80-82.
[7]張利斌,吳宗文.基于XGBoost機(jī)器學(xué)習(xí)模型的信用評(píng)分卡與基于邏輯回歸模型的對(duì)比[J].中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,42(06):846-852.DOI:10.20056/j.cnki.ZNMDZK.20230616.
[8]胡江,蘇薈.水工結(jié)構(gòu)變形預(yù)測(cè)模型構(gòu)建與解釋[J/OL].水利水運(yùn)工程學(xué)報(bào),1-12[2023-11-10]http://kns.cnki.net/kcms/detail/32.1613.TV.20231107.1706.014.html.
[9]梁曉霞,謝東海,韓宗甫,等.基于梯度提升算法的近地面臭氧濃度估算比較[J].中國(guó)環(huán)境科學(xué),2023,43(08):3886-3899.DOI:10.19674/j.cnki.issn1000-6923.2023.0128.
[10]李寧,楊鎮(zhèn)華,馬偉中,等.基于CatBoost算法的SAP混凝土抗壓強(qiáng)度預(yù)測(cè)[J].內(nèi)蒙古公路與運(yùn)輸,2023,(05):1-6.DOI:10.19332/j.cnki.1005-0574.2023.05.001.
[11]王福勝,甄娜,李曉桐.R-線性收斂的重要樣本抽樣隨機(jī)梯度下降算法[J].工程數(shù)學(xué)學(xué)報(bào),2023,40(05):833-842.
[12]周林寰.一類支持向量機(jī)在線算法及其應(yīng)用[D].大連:大連理工大學(xué),2021.DOI:10.26991/d.cnki.gdllu.2021.001233.
[13]王新偉,張漓黎,莫德科,等.基于信息量和多層感知機(jī)分類器模型耦合的平果市斜坡類地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)[J].中國(guó)巖溶,2023,42(02):370-381.
[14]林明松,楊曉梅,楊志霞.結(jié)構(gòu)化最大間隔雙支持向量機(jī)在股票預(yù)測(cè)中的應(yīng)用[J/OL].計(jì)算機(jī)工程與應(yīng)用,1-11[2023-11-10]http://kns.cnki.net/kcms/detail/11.2127.TP.20231109.1443.008.html.