單永航,張希,胡川,丁濤軍,姚遠(yuǎn)
(上海交通大學(xué)機械與動力工程學(xué)院,上海 200240)
近年來,隨著各國政府和企業(yè)的支持,車輛不斷朝著智能化方向發(fā)展。智能車輛因感知范圍廣、運算能力強、避免駕駛員操作錯誤等優(yōu)勢,在一定程度上提高了車輛的安全性[1],但由于違規(guī)駕駛、道路、車輛、自然條件等因素,交通事故不能完全避免。當(dāng)前智能車輛更多地是關(guān)注如何去主動避免碰撞,執(zhí)行一條安全且舒適的最優(yōu)軌跡,而在面對無法避免的交通事故時,卻沒有更好的解決辦法。在這種條件下,如何預(yù)測車輛在不同行駛模式下的事故嚴(yán)重程度并做出正確的決策,從而在一定程度上避免事故或者降低事故嚴(yán)重程度就顯得尤為重要。
事故嚴(yán)重程度預(yù)測是車輛安全領(lǐng)域的重要研究方向之一,近年來受到了越來越多工業(yè)界以及學(xué)術(shù)界的關(guān)注。事故嚴(yán)重程度定義為事故造成的傷害或財產(chǎn)損失程度,傷害嚴(yán)重程度是評估安全性能的一個重要方面。事故嚴(yán)重程度模型構(gòu)建主要分為3 類:統(tǒng)計模型,機器學(xué)習(xí)模型與物理模型。統(tǒng)計模型是事故嚴(yán)重程度分析常用的模型[2],可解釋性好,便于分析自變量和因變量之間的關(guān)系。有序Probit模型[3-5]是研究者普遍用于事故嚴(yán)重程度分析的統(tǒng)計模型。此 外,Logit 統(tǒng)計學(xué)模型[6]、聯(lián)合概率方法[7]、聯(lián)立方程[8]、多元泊松回歸[9]等方法也常應(yīng)用在事故嚴(yán)重程度預(yù)測任務(wù)中。但使用統(tǒng)計模型需要預(yù)先定義一個良好的函數(shù)形式來描述碰撞發(fā)生和解釋變量之間的關(guān)系,不適用于復(fù)雜問題。
與統(tǒng)計學(xué)習(xí)模型相比,機器學(xué)習(xí)模型更靈活,其重點關(guān)注如何設(shè)計模型或目標(biāo)函數(shù),對處理異常值、缺失和噪聲數(shù)據(jù)具有更好的適應(yīng)性,適用場景更廣,在復(fù)雜問題上表現(xiàn)效果更優(yōu)。例如人工神經(jīng)網(wǎng)絡(luò)(ANN)[10]、決策樹(DT)[11]、支持向量機(SVM)[12]、隨機森林(RF)[13]、K 均值聚類(KC)[14]均廣泛應(yīng)用于事故嚴(yán)重程度預(yù)測以及交通安全研究。然而,目前各機器學(xué)習(xí)算法性能不同,相互獨立,難以優(yōu)勢互補,在交通事故嚴(yán)重程度預(yù)測任務(wù)中表現(xiàn)不佳。為實現(xiàn)更高的預(yù)測精度,一些研究者利用元學(xué)習(xí)器融合不同個體學(xué)習(xí)器預(yù)測結(jié)果,構(gòu)建雙層Stacking 集成學(xué)習(xí)模型,融合各學(xué)習(xí)器優(yōu)勢,提高預(yù)測性能[15-16]。雖然機器學(xué)習(xí)模型能夠?qū)崿F(xiàn)較好的預(yù)測精度,但是其可解釋性不好,不利于調(diào)校模型參數(shù)。
相比之下,物理模型能夠揭示車輛間碰撞機理,精細(xì)分析車輛碰撞全過程,但表示相對復(fù)雜。文獻[17]提出兩種最典型的物理模型方法,即碰撞中的速度變化方法(Delta-V)和估計車輛能量變化的等效能量速度(EES)方法。文獻[18]通過進一步研究動量定理,將動量變化作為碰撞總嚴(yán)重程度的關(guān)鍵指標(biāo)。
在現(xiàn)實場景中,人、車、路系統(tǒng)高度復(fù)雜,且非線性、交通事故涉及因素眾多,難以采用統(tǒng)計學(xué)習(xí)模型與物理模型構(gòu)建高精度事故嚴(yán)重程度預(yù)測模型。為此,本文采用泛化性能更好的Stacking 雙層集成學(xué)習(xí)方法構(gòu)建事故嚴(yán)重程度預(yù)測模型。在第1 層中綜合預(yù)測表現(xiàn)與時間消耗確定最優(yōu)基學(xué)習(xí)器組合;在第2 層中考慮到模型的復(fù)雜度與魯棒性需求,采用邏輯回歸作為元學(xué)習(xí)器,整合第1 層基學(xué)習(xí)器的分類結(jié)果,糾正各基學(xué)習(xí)器分類偏差,提高Stacking 整體模型的泛化能力和準(zhǔn)確性。同時,為保證模型能夠應(yīng)用在智能車輛中,本文研究采用真實交通事故數(shù)據(jù)集NASS-CDS,提取通過攝像頭、激光雷達(dá)、毫米波雷達(dá)感知處理能夠獲取的事故嚴(yán)重程度相關(guān)特征作為輸入,事故后乘員最大損傷等級作為輸出,完成交通事故嚴(yán)重程度預(yù)測模型的構(gòu)建;同時通過特征重要程度分析,得到事故嚴(yán)重程度重要影響因素,可幫助人們更好地理解交通事故,以采取有效措施。
本文采用美國高速公路安全局(NHTSA)公布的NASS-CDS 真實交通事故數(shù)據(jù)集[19]構(gòu)建模型,解決了現(xiàn)有研究利用仿真數(shù)據(jù)構(gòu)建事故嚴(yán)重程度預(yù)測模型存在車輛類型少、事故類型少等問題,有效提高預(yù)測模型在實際應(yīng)用場景中的可靠性和有效性。該數(shù)據(jù)集包含1988—2015 年的代表性事故詳細(xì)數(shù)據(jù),每年研究約5 000 起撞車事故,樣本充足,覆蓋范圍廣,被廣泛用于交通安全研究。數(shù)據(jù)集包含信息如表1 所示。
表1 NASS-CDS 數(shù)據(jù)集描述 Table 1 NASS-CDS dataset description
為使構(gòu)建的事故嚴(yán)重程度預(yù)測模型能夠應(yīng)用于智能車輛,本文提取NASS-CDS 中車輛能夠通過車載傳感器獲取的信息作為模型特征輸入。選定特征主要包括車輛特征以及道路、環(huán)境特征。初步提取的單一特征如表2 所示。
表2 初步特征 Table 2 Preliminary features
單一特征往往不能夠得到最優(yōu)的預(yù)測結(jié)果,在實際問題中,常需面臨多種高維特征。因此,本文還提取了車輛相關(guān)組合特征,以提升模型預(yù)測準(zhǔn)確度。車輛發(fā)生交通事故后,速度變化量越大,碰撞過程中車輛受到的沖擊力越大,對車輛造成的影響也就越大??紤]到自車與目標(biāo)車輛碰撞后瞬間兩車可視為剛體固結(jié),故通過動量定理可以對速度變化量進行估計,估計模型如式(1)~式(5)所示:
其 中:m1、m2表示兩 車質(zhì)量;v1、v2表示兩 車速度;θ1、θ2表示為兩車航向角;ux、uy表示事故 后兩車速度;Δv1x、Δv1y表示事故后自車x、y方向上速度變化量;Δv1表示事故后自車速度變化量。
除絕對速度外,車輛間相對速度也是重要考慮的因素。本文僅考慮兩車之間交通事故情況,引入相對速度特征,計算公式如式(6)所示:
其中:v1x、v2x表示兩車沿x方向的速度;v1y、v2y表示兩車沿y方向的速度;vr表示相對速度。
相對航向角決定了車輛的碰撞類型,不同碰撞類型對應(yīng)的有效碰撞面積不同,碰撞過程中吸收能量也不同,在相同環(huán)境下造成的影響有較大差異。文獻[20]通過研究沃爾沃車輛事故數(shù)據(jù)得出結(jié)論:相比于全面積正碰,1/3 面積碰撞嚴(yán)重程度更大。因此,本文引入相對航向角特征,并通過標(biāo)簽編碼將相對航向角范圍分為4 個部分,如表3 所示。
表3 相對航向角特征Table 3 Relative heading angle feature 單位:(°)
不同類型車輛在交通事故中損害不同[21]。通常來講,小型車相較于大型車損害更為嚴(yán)重。依據(jù)重量以及尺寸,本文將NASS-CDS 數(shù)據(jù)集中車型分為4 類進行標(biāo)簽編碼:(1)表示小型車,如轎車;(2)表示中小型車,如小貨車;(3)表示中大型車,如輕卡;(4)表示大型車,如重型貨車。定義車輛間碰撞強度因子(TYPESWET)如表4 所示,其中,(4)(1)表示4 類別的車輛與1 類別的車輛碰撞后,4 類別車輛的損傷情況(下同),特征值從1~7 代表強度遞增??商崛〗M合特征如表5 所示。
表4 碰撞強度因子特征 Table 4 Collision intensity factor features
表5 組合特征 Table 5 Combined features
本文選用簡明損傷分級標(biāo)準(zhǔn)(AIS)評估交通事故嚴(yán)重程度。AIS 值從0~6 分別對應(yīng)未受傷害、輕微、輕度、中度、重度、嚴(yán)重和致死性損傷。NASSCDS 數(shù)據(jù)集中包含事故車內(nèi)各乘員AIS 受傷等級,本文提取受傷嚴(yán)重程度最大的乘員AIS 等級作為事故嚴(yán)重程度預(yù)測標(biāo)簽。
為簡化事故嚴(yán)重程度預(yù)測模型,將原七分類AIS 等級歸并為四分類,原0 等級對應(yīng)為0 等級,原1、2 等級對應(yīng)為1 等級,原3、4、5 等級對應(yīng)為2 等級,原6 等級對應(yīng)為3 等級。
NASS-CDS 數(shù)據(jù)集中樣本分布不均,重傷與死亡類別樣本數(shù)量占比不到10%,導(dǎo)致模型在訓(xùn)練過程中更加偏向于未受傷以及輕傷類別。而模型對于重傷、死亡等嚴(yán)重程度較高類別的預(yù)測能力才是本文研究重點,只有準(zhǔn)確預(yù)測這些類別,才能夠及時采取措施減緩事故損害。為解決數(shù)據(jù)不均衡問題,本文采用合成少數(shù)過采樣技術(shù)(SMOTE)算法[22]重點提升重傷及死亡樣本的數(shù)量,改善樣本分布均衡情況。
如圖1 所示,SMOTE 算法主要分為3 步:1)計算各少數(shù)類正方形樣本到其樣本集中所有樣本的歐氏距離,得到K 近鄰;2)合理設(shè)置采樣比例;3)對于樣本中的每一個xi與每一個近鄰,依據(jù)采樣比例進行線性插值,以生成新的樣本,如式(7)所示:
圖1 SMOTE 算法圖解Fig.1 SMOTE algorithm diagram
數(shù)據(jù)集處理前后,樣本分布如表6 所示。
表6 數(shù)據(jù)集分布Table 6 Dataset distributions 單位:個
數(shù)據(jù)集中各特征量量綱不一,因此在模型訓(xùn)練前為避免某些特征的重要程度過大,需要對數(shù)據(jù)集進行標(biāo)準(zhǔn)化處理。本文研究采用StandardScaler 方法進行轉(zhuǎn)化,如式(8)所示:
其中:μ為某特征所有樣本的均值;σ為某特征所有樣本的標(biāo)準(zhǔn)差。
Stacking 集成學(xué)習(xí)預(yù)測模型[23]在分類回歸任務(wù)中應(yīng)用廣泛,第1 層由多個基學(xué)習(xí)器構(gòu)成,基于原始數(shù)據(jù)集訓(xùn)練預(yù)測,第2 層為元學(xué)習(xí)器,基于第1 層基學(xué)習(xí)器的輸出進行第2 次訓(xùn)練。與Voting 集成學(xué)習(xí)模型[24]僅對多個基礎(chǔ)模型進行一次訓(xùn)練,采用投票策略選擇投票最多的為最終的分類結(jié)果相比,具有更高的泛化精度。
Stacking 模型對第1 層基學(xué)習(xí)器存在兩個要求:模型預(yù)測性能的優(yōu)異以及模型表現(xiàn)的多樣性。優(yōu)異指各基學(xué)習(xí)器的預(yù)測性能要好,分類預(yù)測性能應(yīng)該在同一水平;多樣性指各基學(xué)習(xí)器預(yù)測應(yīng)存在較大的差異,從不同的角度學(xué)習(xí)訓(xùn)練,充分利用各模型優(yōu)勢,以實現(xiàn)更好的性能。在第1 層中,通過實驗對不同基學(xué)習(xí)器組合進行訓(xùn)練,得到分類性能最優(yōu)的基學(xué)習(xí)器組合策略。
本文選擇多層感知機(MLP)、樸素貝葉斯(NB)、K 近鄰算法(KNN)、支持向量機(SVM)、隨機森林(RF)、自適應(yīng)提升樹(AdaBoost)、梯度提升決策樹(GBDT)、極度梯度提升樹(XGBoost)共8 種在分類任務(wù)中應(yīng)用較多的模型作為備選基學(xué)習(xí)器。將數(shù)據(jù)集按照7∶3 的比例分為訓(xùn)練集和測試集,同時為避免過擬合,采用K折交叉驗證訓(xùn)練基學(xué)習(xí)器,如圖2所示,將訓(xùn)練集K等分,每次將其中一份用作驗證集,剩下的用作訓(xùn)練集,以提高模型的準(zhǔn)確性與穩(wěn)定性。重復(fù)上述步驟K次,選出平均測試誤差最小的模型。通常來講,隨著交叉驗證次數(shù)的增大,誤差減小,但計算量隨之增大。綜合耗時以及數(shù)據(jù)量兩方面因素,最終K值取為5。
圖2 交叉驗證示意圖Fig.2 Schematic drawing of cross validation
第2 層元學(xué)習(xí)器的選擇對Stacking 模型泛化性能影響較大[25],由于第1 層各基學(xué)習(xí)器的預(yù)測存在差異,因此需要選擇合適的元學(xué)習(xí)器才能夠使最終Stacking 模型預(yù)測性能達(dá)到最優(yōu)。Stacking 模型對元學(xué)習(xí)器存在4 個要求:1)算法性能,對底層模型的輸入進行整合,需要較好的泛化性能和集成能力;2)魯棒性,可以避免在底層模型發(fā)生錯誤或過擬合的情況下產(chǎn)生過度擬合的情況;3)穩(wěn)定性,不容易受到數(shù)據(jù)隨機性的影響,以確保其穩(wěn)健性;4)計算效率,可快速訓(xùn)練以及預(yù)測。
相比于第1 層中各基學(xué)習(xí)器從不同角度學(xué)習(xí),綜合各學(xué)習(xí)器優(yōu)勢,第2 層元學(xué)習(xí)器重點考慮分類預(yù)測問題中的全面優(yōu)化,旨在糾正各基學(xué)習(xí)器分類偏差,提高Stacking 整體模型的泛化能力和準(zhǔn)確性[26]。
邏輯回歸(LR)方法[27]作為一種線性模型,其計算效率高,可解釋性強,魯棒性強,可適用于處理各種類型的數(shù)據(jù),并且易集成,泛化能力強,能夠很好地避免過擬合問題,是應(yīng)用最廣泛的元學(xué)習(xí)器。在第1 層中已經(jīng)使用了復(fù)雜的非線性變換模型,這樣往往更容易造成過擬合的風(fēng)險。為控制模型復(fù)雜度,降低計算耗時,第2 層采用邏輯回歸方法,整合第1 層基學(xué)習(xí)器的分類結(jié)果,訓(xùn)練輸出最終預(yù)測結(jié)果,同時結(jié)合正則化方法進一步降低過擬合。
本文構(gòu)建的Stacking 算法實現(xiàn)步驟如圖3 所示。使用訓(xùn)練集訓(xùn)練出Stacking 模型,并使用測試集對模型進行預(yù)測,最終將預(yù)測結(jié)果提供給后續(xù)事故嚴(yán)重程度減緩決策規(guī)劃模塊,依據(jù)不同行駛狀態(tài)下的事故嚴(yán)重程度先驗信息,幫助智能車輛做出最優(yōu)的決策,當(dāng)交通事故無法避免時,能夠有效減緩事故危害。其中決策規(guī)劃模塊將會作為后續(xù)研究內(nèi)容。
圖3 Stacking 算法實現(xiàn)步驟Fig.3 Implementation steps of Stacking algorithm
對于含有N個樣本的數(shù)據(jù)集,準(zhǔn)確率(A)為模型預(yù)測正確樣本數(shù)所占的比例,如式(9)所示:
但是準(zhǔn)確率往往只能表征模型的整體性能,在實際情況中,會更加關(guān)注特定類別預(yù)測性能。針對本文研究問題,真實的交通事故數(shù)據(jù)集中重傷以及死亡數(shù)據(jù)量遠(yuǎn)少于未受傷害以及輕微傷害的樣本數(shù)據(jù)量,即使少量樣本被分錯,模型的準(zhǔn)確率也不會有明顯變化。故本文主要選擇精確率(P)、召回率(R)和F1 值(F1)作為性能評價指標(biāo),計算公式如式(10)~式(12)所示:
其中:TTP表示預(yù)測為正類的正樣本數(shù)量;FFP表示預(yù)測為正類的負(fù)樣本數(shù)量;FFN表示預(yù)測為負(fù)類的正樣本數(shù)量。
3.2.1 個體分類器的實驗結(jié)果及分析
本文首先完成了學(xué)習(xí)器MLP、NB、KNN、SVM、RF、AdaBoost、GBDT、XGBoost 的訓(xùn)練,并采用網(wǎng)格搜索法對各學(xué)習(xí)器參數(shù)進行優(yōu)化。網(wǎng)格搜索法是一種窮舉搜索的調(diào)參方法,通過事先設(shè)定好超參數(shù)的選值范圍和調(diào)整步長進行窮舉遍歷,嘗試所有的參數(shù)組合,將表現(xiàn)最好的參數(shù)組合作為超參數(shù)調(diào)參結(jié)果。同時,為克服數(shù)據(jù)集噪聲的影響,對各學(xué)習(xí)器進行5 次訓(xùn)練及預(yù)測,計算各評價指標(biāo)平均值如表7所示。
表7 個體學(xué)習(xí)器預(yù)測結(jié)果 Table 7 Predicted results of individual learners %
分析結(jié)果發(fā)現(xiàn),集成學(xué)習(xí)器RF、AdaBoost、GBDT 與XGBoost 預(yù)測性能優(yōu)于其余個體學(xué)習(xí)器,通過集成決策樹可獲得比單一學(xué)習(xí)器更優(yōu)越的泛化性能。NB、MLP 與SVM 個體學(xué)習(xí)器預(yù)測性能最差。在本文問題中,特征數(shù)量較多且相關(guān)性較大,違背了NB 各屬性間獨立性假設(shè);而MLP 表現(xiàn)過于依賴于數(shù)據(jù)集,本文數(shù)據(jù)集樣本量偏少,不能充分利用MLP的優(yōu)勢;SVM 在處理二分類問題時具有良好表現(xiàn),而當(dāng)面臨求解多分類問題時,計算能力以及求解精確率受到限制。
3.2.2 集成模型的實驗結(jié)果分析
為提高集成模型的精確率與泛化能力,應(yīng)選擇精確率較高且存在較大差異的模型作為基學(xué)習(xí)器,個體學(xué)習(xí)器MLP、NB 和SVM 表現(xiàn)較差,不滿足基學(xué)習(xí)器組合的優(yōu)異性原則,故在本研究中不做考慮。最終從KNN、RF、AdaBoost、GBDT 和XGBoost 中挑選基分類器進行組合訓(xùn)練,考慮3~5 種基學(xué)習(xí)器組合形式,可以得到以下16 種基分類器組合策略,預(yù)測結(jié)果如圖4 所示,耗時情況如圖5 所示。
圖4 各基學(xué)習(xí)器組合預(yù)測表現(xiàn)Fig.4 Prediction performance of each base learners combination
圖5 各基學(xué)習(xí)器組合耗時情況Fig.5 Time consumption of each base learners combination
分析實驗結(jié)果可得出如下結(jié)論:
1)各基學(xué)習(xí)器組合下的Stacking 模型預(yù)測準(zhǔn)確率均在81%以上,高于表7 中所有學(xué)習(xí)器,說明對多種“優(yōu)而不同”的異質(zhì)算法進行融合可改善預(yù)測效果。以精確率、召回率、F1 值作為評價指標(biāo),6 號組合策略,即KNN+AdaBoost+XGBoost 實現(xiàn)了最優(yōu)的預(yù)測性能,其分類準(zhǔn)確率達(dá)到85.01%,各項指標(biāo)均為最優(yōu)。2 號組合次之,11、12 號組合再次之,同時6 號組合耗時僅100 s 左右,低于2、11、12 號組合。綜合預(yù)測表現(xiàn)以及耗時,將6 號組合作為最終選用的Stacking 模型基分類器組合。
2)從6 號到11 號再到16 號組合,每次增加一個基學(xué)習(xí)器,融合模型的精確率反而有所下降。說明模型的精確率與基分類器的數(shù)量并非正比例關(guān)系,還與各基分類器的性質(zhì)、關(guān)聯(lián)性存在聯(lián)系。
3)包含GBDT 學(xué)習(xí)器的組合均具有較高的耗時,在200 s 以上,說明GBDT 學(xué)習(xí)器復(fù)雜度較大。同時,對比組合1、2 和3 號性能表現(xiàn)以及耗時情況可以看出,KNN 與GBDT 為固定基分類器,將其分別與RF、AdaBoost、XGBoost 組合后,雖 然XGBoost 相對于RF 與AdaBoost 具有更優(yōu)的表現(xiàn),但3 號組合KNN、GBDT 與XGBoost卻獲得了最差的性能,說明模型的精確率與基分類器的精確率并非正比例關(guān)系。
XGBoost 是一種針對GBDT 算法的優(yōu)化算法,其在優(yōu)化過程中將損失函數(shù)二階泰勒展開,引入二階導(dǎo)數(shù)信息,同時在損失函數(shù)中添加正則化項來抑制模型復(fù)雜度。XGBoost 與GBDT 底層工作原理類似,它們的組合不滿足基分類器多樣性要求,不能夠充分融合基學(xué)習(xí)器優(yōu)勢,提升整體性能,只有選擇適合的基分類器組合才能夠獲得更好的表現(xiàn)性能。
3.2.3 最優(yōu)組合策略集成模型時效性分析
在緊急場景下,當(dāng)交通事故無法避免時,事故嚴(yán)重程度預(yù)測模型的時效性非常重要,可以提高應(yīng)急響應(yīng)速度,降低事故風(fēng)險,在事故發(fā)生前的關(guān)鍵時間內(nèi)幫助車輛做出正確的決策以及提高安全水平。在第3.2.2 節(jié)中,最終確定的Stacking 模型推理平均耗時為每次1.48 ms,其可滿足L2輔助駕駛與L4自動駕駛的實時性需求。
對于L2輔助駕駛車輛,駕駛員主導(dǎo)車輛運行,駕駛員反應(yīng)時間通常為300 ms 左右,該模型在危急場景下可為駕駛員實時提供事故嚴(yán)重程度相關(guān)信息,幫助其做出更優(yōu)的決策。
對于L4自動駕駛車輛,不需要駕駛員參與,當(dāng)事故無法避免時,車輛決策規(guī)劃模塊一般依據(jù)其最大行駛能力,生成多條離散軌跡,以最小化事故對車輛和行人的影響。
離散軌跡的數(shù)量與路徑搜索時間、軌跡精確率和計算成本有關(guān),因此需要進行權(quán)衡。一般來說,軌跡數(shù)量需要在保證足夠細(xì)化的情況下盡量少,以降低計算成本和縮短路徑規(guī)劃時間,并提高實時性。在大多數(shù)情況下,大約10 條離散軌跡即可以滿足實時性和精確率要求,并且不會帶來過多計算成本。
而自動駕駛路徑規(guī)劃模塊更新頻率通常為幾百毫秒。以生成10 條軌跡為例,本文所提模型推理耗時要遠(yuǎn)小于路徑規(guī)劃模塊更新耗時,通過并行計算可以進一步縮減時間消耗,以最大程度地保證模型推理的實時性。本文研究所提出的事故嚴(yán)重程度預(yù)測模型滿足實際工程應(yīng)用中的實時性要求。
3.2.4 最優(yōu)組合策略集成模型預(yù)測表現(xiàn)分析
該模型最優(yōu)參數(shù)組合如表8 所示。
表8 學(xué)習(xí)器最優(yōu)參數(shù)組合 Table 8 Optimal parameters combination of the learner
模型訓(xùn)練集與測試集的準(zhǔn)確率分別為95.87%與85.01%,性能指標(biāo)精確率、召回率和F1 值如表9所示。
表9 精確率、召回率和F1 值結(jié)果 Table 9 Accuracy,Recall,and F1 value results %
在訓(xùn)練集中,未受傷類別精確率大于召回率,受傷類別召回率大于精確率。這表明本文所訓(xùn)練的模型更傾向于查找出所有受傷害樣本,而對于未受傷樣本,更傾向于準(zhǔn)確區(qū)分。這對于開展交通事故減緩的研究至關(guān)重要,因為只有準(zhǔn)確預(yù)測受傷類別,才能夠及時采取措施降低事故嚴(yán)重程度,這要求在模型訓(xùn)練中提高對召回率的重視程度。
在測試集中,本文提出模型在各類別的表現(xiàn)均與訓(xùn)練集上的表現(xiàn)一致。此外,對于重傷以及死亡類別預(yù)測的精確率以及召回率遠(yuǎn)高于未受傷以及輕傷類別。受傷嚴(yán)重程度越大,模型預(yù)測越不容易出錯,這符合現(xiàn)實需求。F1 值作為一種精確率與召回率的綜合評價方式,重傷與死亡類別值也是遠(yuǎn)遠(yuǎn)高于未受傷與輕傷類別。
3.2.5 特征重要性分析
在事故嚴(yán)重程度預(yù)測模型中,不同的特征對最終的預(yù)測結(jié)果有不同的影響。為了評估不同特征在碰撞嚴(yán)重程度分析中的貢獻,本文對所選14 個特征在3 種基分類器中的重要性進行了分析,圖6~圖8 分別為3 種基分類器所對應(yīng)的特征重要程度分布,其中,KNN、AdaBoost 具有相似的特征分布,DVTOTAL 對事故嚴(yán)重程度影響最大,ALIGNMNT、SURCOND、RHEADING 與TYPESWET 對事故嚴(yán)重程度敏感度最小。而在XGBoost 特征分布圖中,除DVTOTAL、TRAVELSP、TRAVELSPOTHER 占有較大的比重外,其余特征重要程度近似。
圖6 KNN 特征重要程度分布Fig.6 Importance distribution of KNN feature
圖7 AdaBoost 特征重要程度分布Fig.7 Importance distribution of AdaBoost feature
圖8 XGBoost 特征重要程度分布Fig.8 Importance distribution of XGBoost feature
圖9 展示了特征平均重要程度分布,速度相關(guān)特征(DVTOTAL、RSPEED、TRAVELSP、TRAVELSPOTHER)、重量相關(guān)特征(CURBWGT、OTVEHWGT)、位姿相關(guān)特征(ANGTHIS、ANGOTHER)、外形相關(guān)特征(BODYTYPE、OTBDYTYP)對最終的碰撞嚴(yán)重程度影響較大。這符合現(xiàn)實情況,從動量定理和能量守恒的角度來看,行駛速度、車輛質(zhì)量和車輛姿態(tài)是事故發(fā)生后對車內(nèi)乘員影響最大的幾個因素。此外,不同車輛的耐撞性不同,因此車型也是重要因素之一。
圖9 特征平均重要程度分布Fig.9 Importance distribution of feature average
在緊急情況下,事故嚴(yán)重程度預(yù)測模型可幫助車輛實時預(yù)測行駛風(fēng)險,但在L2輔助駕駛車輛與L4自動駕駛車輛中具有不同的警示與減緩方式。在常規(guī)車輛安全模塊的基礎(chǔ)上,事故嚴(yán)重程度預(yù)測模型的應(yīng)用進一步提升了車輛與乘員的安全性。
在L2輔助駕駛車輛中,目前主要是通過碰撞預(yù)警模塊減輕緊急情況下事故損害。在車輛行駛過程中實時計算與前方車輛的距離,若小于安全距離,則首先以預(yù)警的方式提醒駕駛員即將發(fā)生碰撞風(fēng)險,當(dāng)檢測到駕駛員在一定時間內(nèi)仍未采取有效措施時,車輛自動觸發(fā)緊急制動行為,最大程度保證安全。但是,在該種緊急情況下,緊急制動往往未必是最優(yōu)的決策行為,而且駕駛員在慌張情況下可能會做出更危險的行為。本文所提預(yù)測模型可有效解決此類問題,通過預(yù)測與不同車輛碰撞風(fēng)險損傷,在緊急情況下給駕駛員提供指導(dǎo)決策信息,例如左側(cè)車道車輛風(fēng)險更低,則可提醒駕駛員采取向左變道措施。
在L4自動駕駛車輛中,若車輛具有碰撞風(fēng)險(可基于安全距離方式判定)或者車輛此時無有效決策時,此時進入到緊急狀態(tài)下事故嚴(yán)重程度減緩模塊,通過軌跡規(guī)劃方式生成一系列碰撞減緩軌跡,調(diào)用事故嚴(yán)重程度預(yù)測模型,計算不同軌跡對應(yīng)碰撞嚴(yán)重程度值,挑選最低碰撞嚴(yán)重程度軌跡作為最終執(zhí)行軌跡。
除此之外,預(yù)測結(jié)果同樣可以作為先驗信息指導(dǎo)車輛自適應(yīng)調(diào)整乘員約束系統(tǒng)(安全帶、安全氣囊),與主動碰撞減緩相結(jié)合,以更好地保證乘員安全。事故嚴(yán)重程度預(yù)測減緩系統(tǒng)如圖10 所示。在現(xiàn)有安全場景下自動駕駛決策規(guī)劃模塊基礎(chǔ)上,本文考慮了事故無法避免場景下事故嚴(yán)重程度如何減緩,通過雙層防護最大程度地保證了車輛以及乘員的安全。
圖10 事故嚴(yán)重程度預(yù)測減緩系統(tǒng)結(jié)構(gòu)Fig.10 Structure of accident severity prediction mitigation system
以圖11 車輛跟隨場景為例,a車位于后方,速度為v1,b車輛位于前方,速度為v0,車輛間距為S0,則上述描述中兩車之間的安全距離可表示為:
圖11 車輛跟隨示意圖Fig.11 Schematic diagram of vehicle following
其中:v1、a1、amax分別為a車速度、加速度、最大加速度;v0、a0分別為b車速度、加速度;Δt為數(shù)據(jù)更新周期。若Sd>S0,則說明車輛有碰撞風(fēng)險;反之,則車輛不具有碰撞風(fēng)險。
以圖12 所示場景為例說明事故嚴(yán)重程度預(yù)測模型在L4自動駕駛車輛中是如何應(yīng)用的,其中,0 號車輛為自車,行駛在右側(cè)車道,左側(cè)車道前方2 號車速度較低,后方1 號車突然采取變道行為,插入到自車前方。在這種情況下,自車處境較為危險,當(dāng)繼續(xù)在本車道行駛時極易因過小的前車間距與1 號車輛發(fā)生碰撞,變道則可能與2 號車輛發(fā)生碰撞。
圖12 交通場景Fig.12 Traffic scenario
1 號車輛變道后各車輛參數(shù)如表10 所示。經(jīng)安全距離方式判定,若不具有碰撞風(fēng)險,則智能車輛可繼續(xù)采用常規(guī)的路徑規(guī)劃算法,利用搜索、采樣等方法生成一系列軌跡,并依據(jù)安全性、舒適性等指標(biāo)挑選一條最優(yōu)的安全軌跡執(zhí)行。若車輛具有碰撞風(fēng)險,則此時進入到緊急狀態(tài)下事故嚴(yán)重程度減緩模塊,實時生成一系列碰撞減緩軌跡,對每條軌跡進行碰撞檢測,若此時仍存在無碰撞軌跡,則仍依據(jù)安全性、舒適性等因素挑選一條最優(yōu)的安全軌跡執(zhí)行。相反,若所有軌跡均發(fā)生碰撞,則將事故嚴(yán)重程度作為唯一的軌跡質(zhì)量評估標(biāo)準(zhǔn)。調(diào)用Stacking 事故嚴(yán)重程度預(yù)測模型,得到車輛執(zhí)行不同軌跡時對應(yīng)的碰撞嚴(yán)重程度,挑選最低碰撞嚴(yán)重程度軌跡作為最終執(zhí)行軌跡。由于預(yù)測模型輸出為四分類離散預(yù)測結(jié)果,因此此時會存在多條軌跡對應(yīng)同一碰撞嚴(yán)重程度的情況,不利于幫助車輛做出更細(xì)致的決策。
表10 1 號車變道后各車輛參數(shù)Table 10 The parameters of each vehicle after lane change of vehicle 1
為使模型應(yīng)用于智能車輛中,應(yīng)定義碰撞嚴(yán)重程度連續(xù)值,依據(jù)本文提出的預(yù)測模型輸出的各受傷嚴(yán)重程度等級以及對應(yīng)預(yù)測的最大概率加權(quán)得到受傷嚴(yán)重程度值(TAS),幫助做出最優(yōu)的決策,以解決危急場景下不同方案風(fēng)險的精確量化問題。TAS表達(dá)式如式(14)所示:
其中:k為事故嚴(yán)重程度類別;K為事故嚴(yán)重程度最高類別;pk為事故嚴(yán)重程度類別為k的預(yù)測概率。
當(dāng)交通事故無法避免時,該模型可為智能車輛決策規(guī)劃模塊提供先驗信息,執(zhí)行相對最安全軌跡,有效提升車輛安全性。
本文提出一種應(yīng)用于危急場景下的雙層Stacking 集成模型,通過融合“優(yōu)而不同”的基學(xué)習(xí)器實現(xiàn)高精度事故嚴(yán)重程度預(yù)測,在真實事故數(shù)據(jù)集上預(yù)測準(zhǔn)確率達(dá)到85.01%,同時具有較低的預(yù)測推理耗時,精確率、召回率、F1 值3 項評估指標(biāo)均高于其他個體以及集成模型,提高機器學(xué)習(xí)方法對事故嚴(yán)重程度的識別能力。當(dāng)交通事故無法避免時,模型預(yù)測結(jié)果可作為先驗信息指導(dǎo)決策規(guī)劃模塊選擇最佳應(yīng)急軌跡或自適應(yīng)調(diào)整乘員約束系統(tǒng)(安全帶、安全氣囊),以降低事故損害。通過特征重要程度分析,得出對事故嚴(yán)重程度影響最大的因素,符合現(xiàn)實交通情況,對于后續(xù)事故預(yù)測減緩研究具有一定的指導(dǎo)作用。本文研究雖然能夠有效應(yīng)用于車輛安全領(lǐng)域,但目前仍然存在不足,下一步將主要解決以下問題:1)機器學(xué)習(xí)預(yù)測模型表現(xiàn)依賴于數(shù)據(jù)集的大小和完備性。數(shù)據(jù)的獲取是交通事故分析重要前提,目前仍缺乏豐富的交通事故數(shù)據(jù)集,未來應(yīng)提高事故數(shù)據(jù)的利用率,采用更完善的數(shù)據(jù)集訓(xùn)練模型,同時機器學(xué)習(xí)模型可解釋性不好,難以分析出發(fā)生事故時車輛間碰撞內(nèi)在機理情況,下一步將考慮構(gòu)建車輛碰撞物理模型,與機器學(xué)習(xí)模型相融合,實現(xiàn)精確率更高、可解釋性更好的預(yù)測系統(tǒng);2)本文研究僅考慮了事故后自車乘員的損傷預(yù)測,旨在最大程度地保證自車乘員安全,但是對他車的乘員安全情況考慮欠缺,未來應(yīng)該綜合事故后雙方損傷情況,幫助車輛做出更合理的決策。