王雪松,徐曉妍
(同濟(jì)大學(xué)道路與交通工程教育部重點(diǎn)實(shí)驗(yàn)室,上海201804)
根據(jù)世界衛(wèi)生組織的最新統(tǒng)計(jì),從2000年起,全球道路交通死亡人數(shù)持續(xù)攀升,截至2016年,為135萬(wàn),常年維持著18人/10萬(wàn)人口的高死亡率形勢(shì)。道路交通事故已成為5~29歲青年兒童的首要致死原因[1]。中德合作的《道路交通運(yùn)輸安全發(fā)展報(bào)告(2017)》中指出,2016年我國(guó)共接報(bào)道路交通事故864.3萬(wàn)起,同比增加65.9萬(wàn)起,上升16.5%。其中,涉及人員傷亡的道路交通事故21萬(wàn)多起,造成約6.31萬(wàn)人死亡;道路交通事故萬(wàn)車死亡率為2.14,同比上升2.9%[2]。同年,英、美、日的萬(wàn)車死亡率分別為0.52、1.30、0.64[1],與發(fā)達(dá)國(guó)家相比,我國(guó)交通安全水平仍有待改進(jìn)。事故的特征研究和致因分析是提升交通安全的重要切入點(diǎn),可為制定交通安全改善對(duì)策提供依據(jù)。
隨著傳感器功能的提升和車載數(shù)據(jù)記錄儀的普及,事故的重現(xiàn)和致因推斷不再只依賴于監(jiān)控錄像或當(dāng)事人的自述,研究者們可以憑借自然駕駛數(shù)據(jù),從更微觀的角度(如駕駛行為)對(duì)事故進(jìn)行深度分析。自然駕駛研究(naturalistic driving study,NDS)是指在自然狀態(tài)下,利用高精度數(shù)據(jù)采集系統(tǒng),觀測(cè)、記錄駕駛員真實(shí)駕駛過(guò)程的研究[3]。多源、實(shí)時(shí)、精確的自然駕駛數(shù)據(jù)能夠?yàn)槭鹿侍卣鞣治鎏峁┯辛χС?。但事故是小概率事件,需要通過(guò)長(zhǎng)時(shí)間的觀測(cè)才能得到足夠的樣本量。尤其在自然駕駛實(shí)驗(yàn)中,事故數(shù)不足以支撐個(gè)體駕駛員層面的統(tǒng)計(jì)分析。因此考慮用危險(xiǎn)事件(safety-critical events,SCEs)作為事故替代指標(biāo)。危險(xiǎn)事件是任何需要駕駛員做出避撞反應(yīng),且存在沖突對(duì)象和碰撞風(fēng)險(xiǎn)的情況,包括接近碰撞事件(near crashes)和碰撞事件(crashes,亦即事故)[4]。由于危險(xiǎn)事件與事故的發(fā)生頻率存在強(qiáng)相關(guān)性[5],且兩者具有相似的因果機(jī)制[6],因此危險(xiǎn)事件能夠作為有效的事故替代指標(biāo),用于研究風(fēng)險(xiǎn)駕駛行為和推斷事故致因。
自美國(guó)弗吉尼亞理工大學(xué)的100-Car和SHRP 2(Second Strategic Highway Research Program)自然駕駛研究項(xiàng)目開(kāi)展以來(lái),已有不少國(guó)外學(xué)者基于自然駕駛數(shù)據(jù)對(duì)危險(xiǎn)事件進(jìn)行了深入研究,包括探究危險(xiǎn)事件的識(shí)別方法、分析危險(xiǎn)事件的影響因素、利用危險(xiǎn)事件進(jìn)行駕駛員風(fēng)險(xiǎn)評(píng)估等。在危險(xiǎn)事件識(shí)別方面,國(guó)外研究多采用傳統(tǒng)的閾值法,即對(duì)車輛動(dòng)力學(xué)參數(shù)設(shè)置閾值范圍,從原始數(shù)據(jù)中自動(dòng)識(shí)別符合條件的事件。這種方法的優(yōu)勢(shì)是保證了極少量的危險(xiǎn)事件被漏報(bào),但隨之誤報(bào)率大幅度提升,需要后期花費(fèi)大量時(shí)間進(jìn)行人工視頻校對(duì)工作。
國(guó)內(nèi)在建立危險(xiǎn)事件的識(shí)別標(biāo)準(zhǔn)方面還存在較多空白。需指出的是,由于國(guó)內(nèi)外駕駛環(huán)境不同,若直接照搬國(guó)外研究的閾值設(shè)定可能會(huì)導(dǎo)致識(shí)別效果不佳,因此亟需對(duì)國(guó)內(nèi)的相關(guān)研究進(jìn)行補(bǔ)充。上海自然駕駛研究(SH-NDS)由同濟(jì)大學(xué)、通用汽車公司、弗吉尼亞理工大學(xué)三方合作,為國(guó)內(nèi)首個(gè)自然駕駛研究項(xiàng)目。數(shù)據(jù)采集開(kāi)始于2012年12月,結(jié)束于2015年12月,歷時(shí)三年,共計(jì)19 133段出行,總行程161 055 km。該研究基于上海自然駕駛數(shù)據(jù),建立危險(xiǎn)事件的自動(dòng)識(shí)別準(zhǔn)則,從原始數(shù)據(jù)中提取可能的危險(xiǎn)事件片段,在此基礎(chǔ)上采用機(jī)器學(xué)習(xí)算法進(jìn)一步過(guò)濾,在滿足漏報(bào)率的同時(shí),大幅度降低自動(dòng)識(shí)別的誤報(bào)率,從而減少后期人工校對(duì)的工作量。
危險(xiǎn)事件是任何需要駕駛員做出避撞反應(yīng)的緊急情況,制動(dòng)是最常見(jiàn)的避撞措施。Molinero等[7]基于歐洲5個(gè)國(guó)家的事故數(shù)據(jù)庫(kù),對(duì)不同場(chǎng)景的事故進(jìn)行了深度分析。研究表明,60%的駕駛員在事故前會(huì)采取制動(dòng)措施;Dingus等[4]利用100-Car自然駕駛數(shù)據(jù),針對(duì)各種沖突類型的接近碰撞事件,統(tǒng)計(jì)了其中的避險(xiǎn)措施類型。結(jié)果發(fā)現(xiàn),超過(guò)80%的接近碰撞事件中,駕駛員通過(guò)及時(shí)踩下制動(dòng)踏板成功避免了碰撞;緊急制動(dòng)措施可用車輛縱向加速度的異常值(小于-0.5g)進(jìn)行表征。除了縱向加速度,車輛速度、橫向加速度、前向碰撞時(shí)間也常被用作識(shí)別危險(xiǎn)事件的輔助依據(jù)。
目前大部分研究采用的危險(xiǎn)事件識(shí)別過(guò)程如下:①對(duì)上述一系列車輛運(yùn)動(dòng)學(xué)參數(shù)(vehicle kinematics)設(shè)置閾值,從自然駕駛數(shù)據(jù)中自動(dòng)提取可能的危險(xiǎn)事件片段;②通過(guò)人工分析視頻的方法,對(duì)初步識(shí)別得到的危險(xiǎn)事件進(jìn)行驗(yàn)證,篩選出有效的危險(xiǎn)事件。既有研究中用于自動(dòng)提取危險(xiǎn)事件的車輛運(yùn)動(dòng)學(xué)參數(shù)如表1所示,滿足任一類車輛運(yùn)動(dòng)學(xué)參數(shù)的閾值就會(huì)被識(shí)別為可能的危險(xiǎn)事件。
表1 既有研究中危險(xiǎn)事件提取準(zhǔn)則Tab.1 Summary of safety-critical event extraction criteria used in existing literature
使用閾值法識(shí)別危險(xiǎn)事件會(huì)導(dǎo)致較高的誤報(bào)率,例如Dingus等[4]以及Perez等[10]識(shí)別危險(xiǎn)事件的整體誤報(bào)率均超過(guò)80%,需要在后期進(jìn)行大量的人工校核和篩選工作。后續(xù)研究者提出了傳統(tǒng)閾值法的改進(jìn)算法。Sudweeks[12]在 Dingus研究的基礎(chǔ)上建立了一種角速度分類器,該分類器可過(guò)濾42%由角速度閾值識(shí)別到的無(wú)效事件。Wu等[13]提出了一種將人工校核視頻工作量最小化的識(shí)別方法,使用閾值法初步篩選出可能的危險(xiǎn)事件后,利用鄒氏檢驗(yàn)過(guò)濾掉與事故發(fā)生機(jī)理不同的事件;再通過(guò)生存分析和ROC(receiver operating characteristic)曲線確定車輛動(dòng)態(tài)參數(shù)變化量的最佳閾值,進(jìn)行第二輪自動(dòng)篩選,最大幅度減少了留給人工校驗(yàn)的候選危險(xiǎn)事件數(shù)。Kluger等[14]將離散傅里葉變換與k均值聚類法結(jié)合,識(shí)別危險(xiǎn)事件發(fā)生前后車輛加速度隨時(shí)間變化的模式,運(yùn)用該算法可將誤報(bào)率降至22%。
也有研究者探索了閾值法以外識(shí)別危險(xiǎn)事件的新方法。Dozza等[15]認(rèn)為事件的危險(xiǎn)程度應(yīng)取決于駕駛員自身的感受和反應(yīng),利用多種圖像處理算法對(duì)駕駛員面部視頻進(jìn)行分類,識(shí)別有效的危險(xiǎn)事件。該方法可以覆蓋84%的有效危險(xiǎn)事件,各算法的平均誤報(bào)率約為30%。Gao等[16]通過(guò)提取前向視頻特征,生成每起事件的運(yùn)動(dòng)輪廓圖(motion profile);基于運(yùn)動(dòng)輪廓圖和車輛動(dòng)態(tài)學(xué)變量,建立多模態(tài)深度卷積神經(jīng)網(wǎng)絡(luò)用于識(shí)別危險(xiǎn)事件。該方法可覆蓋83%的有效危險(xiǎn)事件,誤報(bào)率控制在33%。
綜上所述,目前國(guó)外學(xué)者用于危險(xiǎn)事件識(shí)別的方法主要有以下三種:①傳統(tǒng)閾值法;②結(jié)合分類算法改進(jìn)傳統(tǒng)閾值法;③圖像識(shí)別算法。國(guó)內(nèi)相關(guān)研究存在較多空白,亟需進(jìn)行補(bǔ)充。既有研究都假設(shè)傳統(tǒng)閾值法結(jié)合人工判別得到的危險(xiǎn)事件是全樣本,在傳統(tǒng)方法基礎(chǔ)上所作的改進(jìn)都旨在降低誤報(bào)率,減少人工判別的工作量,同時(shí)無(wú)法覆蓋全樣本,會(huì)產(chǎn)生一定的漏報(bào)率。因此本文認(rèn)為,為了得到較為完整的危險(xiǎn)事件集,閾值法不可舍棄;在傳統(tǒng)方法基礎(chǔ)上,需要尋求一種能同時(shí)降低誤報(bào)率和控制漏報(bào)率的方法,過(guò)濾掉大部分無(wú)效事件。
支持向量機(jī)(support vector machine)模型是一種相對(duì)較新的機(jī)器學(xué)習(xí)模型,是Kecman[17]為了解決分類和回歸問(wèn)題而提出的。近年來(lái),支持向量機(jī)模型被廣泛應(yīng)用于交通研究,包括交通流預(yù)測(cè)[18]、事件檢測(cè)[19]、事故頻率預(yù)測(cè)[20]等,具有較強(qiáng)的分類能力。因此本文考慮采用支持向量機(jī)在閾值法基礎(chǔ)上對(duì)事件進(jìn)一步分類。支持向量機(jī)模型的主要局限在于該模型像一個(gè)黑匣子,不能識(shí)別有效的解釋變量。因此本文考慮利用隨機(jī)森林模型篩選出重要特征,作為支持向量機(jī)模型的輸入變量進(jìn)行模型訓(xùn)練;并同時(shí)訓(xùn)練隨機(jī)森林模型,與支持向量機(jī)模型的預(yù)測(cè)效果進(jìn)行對(duì)比。
本研究的數(shù)據(jù)來(lái)自“上海自然駕駛研究項(xiàng)目”,項(xiàng)目使用5輛配備了SHRP2 NextGen數(shù)據(jù)采集系統(tǒng)(包括4路攝影頭、可跟蹤前方8個(gè)物體的雷達(dá)系統(tǒng)、全球定位系統(tǒng)、車輛總線數(shù)據(jù)記錄器等)的乘用車輛。數(shù)據(jù)采集系統(tǒng)的不同設(shè)備設(shè)置了不同的采樣頻率,分布在10~50 Hz[21]。數(shù)據(jù)采集系統(tǒng)在車輛點(diǎn)火后自動(dòng)啟動(dòng),熄火后自動(dòng)關(guān)閉。數(shù)據(jù)采集開(kāi)始于2012年12月,結(jié)束于2015年12月,歷時(shí)3年,共計(jì)19 133段出行,總行程161 055 km。包括57位駕駛員,其中女性12位,男性45位。研究所用的駕駛員信息數(shù)據(jù)和車輛運(yùn)行數(shù)據(jù)基本完整。
本文通過(guò)對(duì)車輛動(dòng)態(tài)學(xué)參數(shù)(如橫縱向加速度、前向碰撞時(shí)間等)設(shè)定閾值,從原始數(shù)據(jù)中提取可能的危險(xiǎn)事件。初始閾值設(shè)置參考Dingus等[4]的研究。
(1)閾值類型1:橫向加速度大于等于0.7g。
(2)閾值類型2:縱向加速度的絕對(duì)值大于等于0.6g。
(3)閾值類型3:緊急事件按鈕觸發(fā)。
(4)閾值類型4:橫向加速度大于等于0.5g且前向碰撞時(shí)間小于等于4 s。
(5)閾值類型5:縱向加速度的絕對(duì)值大于等于0.5g且前向碰撞時(shí)間小于等于4 s。
只要某一時(shí)間戳的數(shù)據(jù)記錄滿足任一閾值類型,就會(huì)被自動(dòng)識(shí)別為可能的危險(xiǎn)事件,并提取該時(shí)刻前后10 s的視頻記錄用于人工校驗(yàn)。數(shù)據(jù)提取流程如圖1所示。
圖1 危險(xiǎn)事件提取流程Fig.1 Safety-critical event extraction process
值得注意的是:采用較高的誤報(bào)率(80%)是為了盡量減少遺漏的危險(xiǎn)事件,確保充足的樣本量。若滿足以下任意兩個(gè)條件,則人工判定為危險(xiǎn)事件:①通過(guò)手部視頻,發(fā)現(xiàn)駕駛員采取了緊急的避險(xiǎn)操作;②根據(jù)面部視頻,發(fā)現(xiàn)駕駛員有明顯的表情變化;③依據(jù)前向視頻,發(fā)現(xiàn)自車與其他交通參與者或物體發(fā)生沖突。初始和最終閾值的設(shè)定如表2所示。
表2 事件提取閾值設(shè)定Tab.2 Summary of extraction trigger criteria
對(duì)于閾值類型1、3和4,設(shè)定為初始值時(shí)誤報(bào)率已超過(guò)80%,因此不再進(jìn)行調(diào)整。從表2可以看出,對(duì)于閾值類型2和5,通過(guò)放寬閾值,有效危險(xiǎn)事件的樣本量得到了大幅提升。利用閾值法共自動(dòng)識(shí)別到3 623起可能的危險(xiǎn)事件;人工校驗(yàn)后,將其中的591起認(rèn)定為有效的危險(xiǎn)事件,包括8起碰撞事件和583起接近碰撞事件。
利用閾值法識(shí)別危險(xiǎn)事件僅能達(dá)到16.31%(591/3623)的準(zhǔn)確率,增加了后期人工篩選的工作量。為改進(jìn)識(shí)別方法,本文參照Wu等[13]“兩輪篩選”的研究思路,考慮用閾值法進(jìn)行初步過(guò)濾后,納入機(jī)器學(xué)習(xí)方法進(jìn)行深度篩選?;玖鞒倘鐖D2所示。首先對(duì)閾值法初步識(shí)別到的所有事件進(jìn)行標(biāo)簽化處理(危險(xiǎn)事件=1,一般事件=0),將事件標(biāo)簽作為輸入變量;再將車輛動(dòng)態(tài)參數(shù)統(tǒng)計(jì)量(如縱向加速度標(biāo)準(zhǔn)差)作為輸入變量,分別采用隨機(jī)森林模型和支持向量機(jī)模型識(shí)別危險(xiǎn)事件。
為確定有效的輸入變量,首先需分析閾值法失效的原因。視頻驗(yàn)證過(guò)程中三類常見(jiàn)的失效場(chǎng)景如下:①城市快速路或高速公路,由于路面顛簸或遠(yuǎn)處有車輛匯入主線,駕駛員在高速情況下本能地踩下制動(dòng)踏板或轉(zhuǎn)動(dòng)方向盤,造成較大的橫向或縱向加速度;②車輛接近交叉口時(shí)(無(wú)前車),本向綠燈轉(zhuǎn)為紅燈,為保證車輛不越過(guò)停車線,駕駛員采取緊急制動(dòng);③車輛經(jīng)過(guò)下坡時(shí),駕駛員為控制車速用力踩踏制動(dòng),導(dǎo)致某一時(shí)刻車輛的縱向加速度過(guò)大。
圖2 運(yùn)用機(jī)器學(xué)習(xí)的危險(xiǎn)事件識(shí)別流程Fig.2 Safety-critical event detection process using machine learning
以上三類場(chǎng)景均不存在潛在的碰撞風(fēng)險(xiǎn),但由于某一時(shí)刻的車輛運(yùn)動(dòng)學(xué)參數(shù)滿足閾值條件,被錯(cuò)誤地識(shí)別成危險(xiǎn)事件??梢?jiàn)運(yùn)動(dòng)學(xué)參數(shù)的瞬時(shí)值不足以做出精確的判別。在選擇機(jī)器學(xué)習(xí)的輸入變量時(shí),考慮納入事件觸發(fā)前后某一時(shí)域內(nèi),車輛動(dòng)態(tài)參數(shù)(包括速度、橫縱加速度、與前車的距離、與前車的速度差、前向碰撞時(shí)間)的統(tǒng)計(jì)值,包括最值、均值和標(biāo)準(zhǔn)差。輸入變量匯總及計(jì)算時(shí)域如表3和圖3所示。由于存在沒(méi)有前車的情況,因此表3中的Δx、Δv和tTTC三類變量可以為空值。圖3為某一起事件在閾值觸發(fā)前后共15 s內(nèi),各類運(yùn)動(dòng)學(xué)參數(shù)的時(shí)間序列圖。對(duì)于該事件,運(yùn)動(dòng)學(xué)參數(shù)統(tǒng)計(jì)值的計(jì)算時(shí)域?yàn)榭v向加速度最小值對(duì)應(yīng)時(shí)刻t0的前5 s和后3 s(圖中陰影部分)。若事件由橫向加速度閾值觸發(fā),則t0為橫向加速度最大值對(duì)應(yīng)的時(shí)刻。
表3 輸入變量匯總Tab.3 Summary of input variables
圖3 輸入變量的計(jì)算時(shí)域Fig.3 Time horizon of input variable calculation
3.2.1 隨機(jī)森林模型
隨機(jī)森林模型是由Breiman于2001年提出的一種機(jī)器學(xué)習(xí)算法[22]。其基本原理是:通過(guò)自助法(bootstrap)重采樣技術(shù),從大小為N的原始訓(xùn)練集中有放回地重復(fù)隨機(jī)抽取N個(gè)樣本,這N個(gè)樣本組成一個(gè)訓(xùn)練樣本集,一個(gè)訓(xùn)練樣本集生成一棵決策樹(shù)。決策樹(shù)會(huì)從M個(gè)特征變量中隨機(jī)抽取m個(gè)用于分裂節(jié)點(diǎn)。同樣的過(guò)程重復(fù)k次,一個(gè)由k棵決策樹(shù)組成的隨機(jī)森林訓(xùn)練完畢。將測(cè)試集輸入到每棵樹(shù)中進(jìn)行分類,最后由所有樹(shù)對(duì)分類結(jié)果進(jìn)行投票,投票數(shù)最多的即為最終分類結(jié)果。
由于每棵樹(shù)是從大小為N的原始訓(xùn)練集中進(jìn)行N次有放回采樣,因此每棵樹(shù)中會(huì)有重復(fù)的樣本,同時(shí)也會(huì)有一些樣本未被選中,這些未被選中的數(shù)據(jù)稱為袋外數(shù)據(jù)BOOB(out-of-bag,OOB)。若有k棵決策樹(shù),則隨之會(huì)產(chǎn)生k個(gè)袋外數(shù)據(jù)。平均而言,每棵樹(shù)進(jìn)行放回抽樣后,會(huì)有37%的數(shù)據(jù)沒(méi)有被選中。推導(dǎo)公式如下:
當(dāng)一棵樹(shù)進(jìn)行放回抽樣后,某個(gè)樣本一次也沒(méi)有被選中的概率如下:
當(dāng)N趨近于無(wú)窮大時(shí),P(BOOB)會(huì)收斂到常量。證明如下:
隨機(jī)森林模型不僅可以進(jìn)行分類或回歸,還能計(jì)算變量重要度MVIM(variable importance measure,VIM),幫助研究者篩選有效變量,降低數(shù)據(jù)維度[23]。MVIM的計(jì)算是基于袋外數(shù)據(jù)分類準(zhǔn)確率進(jìn)行的。袋外數(shù)據(jù)分類準(zhǔn)確率定義為:袋外數(shù)據(jù)自變量值發(fā)生輕微擾動(dòng)后與擾動(dòng)前的分類正確率的平均減少量。MVIM的計(jì)算方式如下:
式中:MjVIM表示第j個(gè)變量的重要度;k表示隨機(jī)森林模型中的決策樹(shù)數(shù);Mtj和MPtj分別表示對(duì)第j個(gè)變量進(jìn)行干擾前和干擾后,決策樹(shù)t的袋外數(shù)據(jù)分類準(zhǔn)確率。除了計(jì)算變量重要度,袋外數(shù)據(jù)還可用于選擇每棵決策樹(shù)分裂節(jié)點(diǎn)所需的最佳變量個(gè)數(shù)以及決策樹(shù)數(shù)。
3.2.2 支持向量機(jī)模型
支持向量機(jī)模型的核心思想是:若一組二分類的數(shù)據(jù)有m個(gè)變量,則存在一個(gè)m維空間可以對(duì)這組數(shù)據(jù)進(jìn)行表示。支持向量機(jī)模型的目標(biāo)是在這個(gè)m維空間中尋找一個(gè)最能有效區(qū)分兩類數(shù)據(jù)的m-1維超平面,即從眾多超平面中尋找一個(gè)最優(yōu)解。假設(shè)超平面服從線性方程,其表達(dá)式為
式中:X是輸入變量組成的向量;WT和b是待求的參數(shù)。根據(jù)推導(dǎo)[24],SVM模型最終需解決以下最優(yōu)化問(wèn)題:
式中:εi為樣本i的松弛變量,由于難以保證不同類型的數(shù)據(jù)點(diǎn)嚴(yán)格分布在超平面的兩側(cè),松弛變量的引入放寬了約束條件,即使被錯(cuò)誤地分在超平面的另一側(cè),只要樣本點(diǎn)i至超平面的距離不超過(guò)εi,則仍滿足約束條件;常數(shù)C為懲罰因子,由于εi越大,約束條件越弱,超平面的區(qū)分能力越弱,因此求取最優(yōu)解的同時(shí),也要使松弛變量之和盡量小,C決定了松弛變量之和的影響程度。
利用拉格朗日乘子法進(jìn)行變換,式(5)變?yōu)?/p>
式中:αi為拉格朗日乘子。
以上公式都是基于線性分類,即超平面服從線性方程。若線性分類無(wú)法解決問(wèn)題,則需要進(jìn)行非線性分類。其基本思想是:將原先的m維空間逐步映射到m+1維、m+2維、m+3維等更高維的空間,直到在某個(gè)更高維的空間中線性可分為止。所以,關(guān)鍵問(wèn)題就變成了確定從低維坐標(biāo)到高維坐標(biāo)的映射關(guān)系。從式(7)中可以看出,樣本點(diǎn)都是以兩兩內(nèi)積的形式出現(xiàn)的,將樣本點(diǎn)Xi與Xj的內(nèi)積記作k(Xi,Xj)。因此上述的映射關(guān)系可以理解為樣本點(diǎn)坐標(biāo)在更高維度下的新的內(nèi)積規(guī)則。這一規(guī)則就稱為核函數(shù)。本文采用的核函數(shù)為高斯核(徑向基函數(shù)),其形式如下所示:
式中:σ為核函數(shù)參數(shù)。綜上可知,SVM模型共有兩個(gè)待定參數(shù)(C,σ)。
利用訓(xùn)練集訓(xùn)練得到隨機(jī)森林和支持向量機(jī)模型后,對(duì)測(cè)試集進(jìn)行預(yù)測(cè),再基于分類準(zhǔn)確率(classification accuracy,Acc)、誤報(bào)率(false positive rate,RFP)、漏報(bào)率(false negative rate,RFN)以及受試者工作特征(receiver operating characteristic,ROC)曲線來(lái)對(duì)比兩個(gè)模型的預(yù)測(cè)效果。本文所需處理的是一個(gè)二分類問(wèn)題(是否為危險(xiǎn)事件),可能的分類結(jié)果如表4所示。
表4 二分類問(wèn)題預(yù)測(cè)結(jié)果Tab.4 Outcomes of a binary classification problem
依據(jù)表4,預(yù)測(cè)效果的度量指標(biāo)計(jì)算如下:
(1)分類準(zhǔn)確率Acc=(TP+TN)/(TP+FP+FN+TN)。
(2)誤報(bào)率RFP=FP/(FP+TN)。
(3)漏報(bào)率RFN=FN/(TP+FN)。
(4)ROC曲線的Auc(area under the curve)值。
ROC曲線的橫坐標(biāo)為特異度(specificity),取值為1-RFN;縱坐標(biāo)為靈敏度(sensitivity),取值為1-RFP。訓(xùn)練好的機(jī)器學(xué)習(xí)模型對(duì)每個(gè)測(cè)試樣本都能得到一個(gè)預(yù)測(cè)概率。設(shè)閾值p0∈[0,1],若某樣本的預(yù)測(cè)概率小于p0,則歸為一般事件;若大于p0,則劃分為危險(xiǎn)事件。p0取不同的值會(huì)產(chǎn)生不同的特異度和靈敏度,當(dāng)p0從0變化到1時(shí),若干對(duì)特異度和靈敏度形成了ROC曲線。模型的預(yù)測(cè)效果可以由ROC曲線與坐標(biāo)軸圍成的面積Auc進(jìn)行度量。Auc∈[0,1]越大,說(shuō)明預(yù)測(cè)效果越好。
本文按照3:1的比例,將閾值法篩選出的3 623起事件隨機(jī)劃分成訓(xùn)練集和測(cè)試集。經(jīng)過(guò)統(tǒng)計(jì),在全樣本、訓(xùn)練集和測(cè)試集中,危險(xiǎn)事件的比例分別為16.31%、16.60%以及15.45%。為了避免數(shù)據(jù)集不平衡可能導(dǎo)致的誤差,將訓(xùn)練集中的危險(xiǎn)事件復(fù)制4份,盡可能保證危險(xiǎn)事件與一般事件的比例為1:1。
利用隨機(jī)森林模型進(jìn)行變量重要度排序前,需要根據(jù)袋外數(shù)據(jù)誤差確定隨機(jī)森林模型中決策樹(shù)的分裂節(jié)點(diǎn)特征變量數(shù)。從圖4可以看出,當(dāng)特征變量數(shù)目為5時(shí),袋外數(shù)據(jù)誤差達(dá)到最小,為0.033 2,因此可將結(jié)點(diǎn)特征變量數(shù)確定為5。
其次需要確定隨機(jī)森林模型中的決策樹(shù)數(shù)目。如圖5所示,隨著決策樹(shù)數(shù)目遞增,袋外數(shù)據(jù)誤差逐漸降低,并在650棵樹(shù)后趨于穩(wěn)定,因此將隨機(jī)森林模型中決策樹(shù)數(shù)量確定為650。
圖4 分裂節(jié)點(diǎn)特征變量個(gè)數(shù)分析Fig.4 Analysis of attributes number of split node
圖5 決策樹(shù)個(gè)數(shù)分析Fig.5 Number analysis of decision tree
隨機(jī)森林模型自身提供了兩種變量選擇方法:平均精確度減少(mean decrease accuracy)和平均節(jié)點(diǎn)不純度減少(mean decrease in node impurity)。由于基于平均精確度減少的方法比基于節(jié)點(diǎn)不純度減少的方法具有更好的非偏倚性能,因此既有文獻(xiàn)中多采用前者進(jìn)行變量篩選[25-27]。隨機(jī)森林模型變量重要性排序如圖6所示。從圖6中可以看出,起到關(guān)鍵作用的變量有:縱向加速度的最小值、均值、標(biāo)準(zhǔn)差,與前車距離的最小值,車速的標(biāo)準(zhǔn)差,橫向加速度的均值以及與前車速度差的均值。由于所有變量重要度的權(quán)重均大于1%,因此考慮將所有24個(gè)變量作為輸入變量,放入機(jī)器學(xué)習(xí)模型中進(jìn)行訓(xùn)練。
圖6 變量重要度排序Fig.6 Measurement of variable importance
表5 重要變量描述性統(tǒng)計(jì)Tab.5 Descriptive statistics of important variables
對(duì)重要度排序前10的變量進(jìn)行描述性統(tǒng)計(jì)。表5匯總了訓(xùn)練集和測(cè)試集中,一般事件和危險(xiǎn)事件的重要變量統(tǒng)計(jì)值。從表5中可以看出:①相比一般事件,危險(xiǎn)事件發(fā)生期間的縱向加速度最小值(Xaccel_min)更小,且標(biāo)準(zhǔn)差(Xaccel_std)更大,以上兩個(gè)變量可以表征制動(dòng)的緊急性;②危險(xiǎn)事件發(fā)生期間,與前車距離的最小值(Δx_min)更小,速度差的均值(Δv_avg)更大。
本文分別采用R語(yǔ)言中的“randomForest”以及“e1071”包來(lái)訓(xùn)練隨機(jī)森林模型和支持向量機(jī)模型,基于測(cè)試集的分類準(zhǔn)確率、誤報(bào)率、漏報(bào)率以及Auc值來(lái)評(píng)價(jià)預(yù)測(cè)效果。其中,隨機(jī)森林模型的兩個(gè)參數(shù),即分裂節(jié)點(diǎn)特征變量個(gè)數(shù)以及決策樹(shù)數(shù)個(gè)數(shù)已經(jīng)在4.2節(jié)中明確,分別為5和650。根據(jù)3.2節(jié),支持向量機(jī)模型有兩個(gè)待定參數(shù),懲罰因子C以及徑向核函數(shù)參數(shù)σ,本研究采用R語(yǔ)言中的tune.svm函數(shù)進(jìn)行十折交叉驗(yàn)證,對(duì)比訓(xùn)練集的分類誤差,從而選取最佳的參數(shù)組合。結(jié)果表明,懲罰因子C取100,徑向核函數(shù)參數(shù)σ取0.01時(shí)誤差最小。
訓(xùn)練和預(yù)測(cè)后,兩種機(jī)器學(xué)習(xí)模型的ROC曲線如圖7所示。從圖7中可以看出,支持向量機(jī)模型和隨機(jī)森林模型的Auc值都接近1,分別為0.897和0.896,說(shuō)明兩種模型均能達(dá)到較好的預(yù)測(cè)效果。
圖7 兩種機(jī)器學(xué)習(xí)模型的ROC曲線Fig.7 ROC curves of two machine learning models
表6進(jìn)一步展示了兩種模型的預(yù)測(cè)結(jié)果。從表6中可以看出,隨機(jī)森林模型和支持向量機(jī)模型的分類準(zhǔn)確率均較高,分別為87.99%和86.09%。其中,隨機(jī)森林模型的誤報(bào)率較低,但漏報(bào)率很高,為37.14%,采用該算法容易損失較多的有效信息。支持向量機(jī)模型的誤報(bào)率比隨機(jī)森林模型高,卻能將漏報(bào)率控制在12.86%,是一個(gè)可以接受的水平;且此時(shí)14.10%的誤報(bào)率仍可以保證過(guò)濾超過(guò)85%的一般事件。因此針對(duì)本研究的目標(biāo),即盡可能降低自動(dòng)識(shí)別的誤報(bào)率,從而減少人工篩選的工作量,支持向量機(jī)模型的預(yù)測(cè)結(jié)果更優(yōu)。
表6 兩種機(jī)器學(xué)習(xí)模型的預(yù)測(cè)效果對(duì)比Tab.6 Comparison of performance of two machine learning models
對(duì)比本文的支持向量機(jī)模型與既有文獻(xiàn)中的閾值法改進(jìn)算法,結(jié)果如表7所示。需指出的是,進(jìn)行對(duì)比的3篇文獻(xiàn)采用的數(shù)據(jù)來(lái)源均為自然駕駛數(shù)據(jù),與本文的數(shù)據(jù)結(jié)構(gòu)一致;且數(shù)據(jù)采集頻率以及閾值法提取危險(xiǎn)事件采用的車輛運(yùn)動(dòng)學(xué)特征也相似,因此認(rèn)為具有一定的可比性。從表7中可以看出,本研究使用的支持向量機(jī)方法在誤報(bào)率和漏報(bào)率方面都優(yōu)于其他研究的預(yù)測(cè)結(jié)果。
表7 支持向量機(jī)模型與其他模型的預(yù)測(cè)效果對(duì)比Tab.7 Comparison of prediction performance of SVM and models in literature
基于上海自然駕駛數(shù)據(jù),依據(jù)橫縱向加速度和前向碰撞時(shí)間的瞬時(shí)值,建立危險(xiǎn)事件的自動(dòng)提取閾值標(biāo)準(zhǔn),從原始數(shù)據(jù)中識(shí)別出3 623起可能的危險(xiǎn)事件。經(jīng)人工驗(yàn)證,其中591起為有效的危險(xiǎn)事件。為降低閾值法過(guò)高的誤報(bào)率,減輕后期人工校對(duì)的工作量,采用機(jī)器學(xué)習(xí)對(duì)閾值法初步識(shí)別的事件進(jìn)行深度篩選,主要步驟如下:①按照3:1的比例,將3 623起事件隨機(jī)劃分為訓(xùn)練集和測(cè)試集。②基于訓(xùn)練集,利用隨機(jī)森林模型識(shí)別重要的車輛動(dòng)態(tài)參數(shù)特征,將其作為輸入變量訓(xùn)練隨機(jī)森林模型和支持向量機(jī)模型。③對(duì)測(cè)試集進(jìn)行預(yù)測(cè),計(jì)算誤漏報(bào)率。
結(jié)果表明:①起到關(guān)鍵作用的變量有縱向加速度的最小值和均值、與前車距離的最小值以及車速的標(biāo)準(zhǔn)差。②相比隨機(jī)森林模型,支持向量機(jī)模型的預(yù)測(cè)效果更優(yōu),在控制漏報(bào)率的同時(shí),可過(guò)濾85.9%的無(wú)效事件。研究采用的方法可大幅度提升危險(xiǎn)事件的識(shí)別效率,可為基于自然駕駛數(shù)據(jù)識(shí)別危險(xiǎn)事件的后續(xù)研究提供一定參考。
同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版)2020年1期