王 旭 馬 菲 廖小棱 蔣佩玉 張 偉 王 芳
(1.山東大學(xué)齊魯交通學(xué)院 濟(jì)南 250001;2.山東高速集團(tuán)有限公司 濟(jì)南 250001;3.山東省智慧交通重點(diǎn)實(shí)驗(yàn)室 濟(jì)南 250001;4.山東高速信息集團(tuán)有限公司 濟(jì)南 250001)
道路交通安全問題是近年來全球交通領(lǐng)域關(guān)注的熱點(diǎn)問題。據(jù)統(tǒng)計(jì),2019年我國總計(jì)發(fā)生機(jī)動車交通事故21.5萬起,事故造成死亡6.27萬人,受傷25.6萬人,直接財(cái)產(chǎn)損失13.46億元[1]。大量道路交通事故致因分析表明:超過80%的事故與駕駛員行為操作有關(guān)[2],其中駕駛風(fēng)格與事故發(fā)生率之間存在較強(qiáng)的相關(guān)性。美國國家公路交通安全管理局發(fā)現(xiàn),攻擊性駕駛行為約占所有致命交通事故的2 3[3]。駕駛員激進(jìn)程度越高,駕駛過程中越容易出現(xiàn)急變速、頻繁換道、超速行駛等不良駕駛行為[4]。這些不良駕駛行為導(dǎo)致惡性交通事故的頻繁發(fā)生,促使研究人員開始重視駕駛風(fēng)格相關(guān)研究[5-6]。
駕駛風(fēng)格是指駕駛員操縱車輛所表現(xiàn)出的相對穩(wěn)定的行為特性,是1種具有個(gè)體性、差異性的傾向性行為[7]。早期對駕駛風(fēng)格的研究集中利用問卷調(diào)查的方式[8-10],從文化、性別、地域等角度出發(fā),設(shè)計(jì)駕駛行為問卷[11]以及多維度駕駛風(fēng)格量表[12]。問卷調(diào)查方法雖簡便可行,但易受駕駛員的主觀情緒影響,調(diào)查結(jié)果的準(zhǔn)確性、可靠性難以保證。此外,事后對駕駛員進(jìn)行問卷調(diào)查,難以深入挖掘真實(shí)駕駛行為狀態(tài),調(diào)查結(jié)果可能會偏離其實(shí)際駕駛表現(xiàn),駕駛風(fēng)格分類的實(shí)時(shí)性、精確度較差。車聯(lián)網(wǎng)以及大數(shù)據(jù)技術(shù)的發(fā)展促使許多學(xué)者開始利用自然駕駛實(shí)驗(yàn)數(shù)據(jù)建立駕駛風(fēng)格分類及識別模型,并嘗試在駕駛輔助系統(tǒng)中進(jìn)行實(shí)時(shí)駕駛風(fēng)格識別,如Bellemd等[11],Castignani等[12]將加速度、速度或踏板位置等作為特征參數(shù),利用主成分分析(principal component analysis,PCA)對上述特征進(jìn)行降維處理,并結(jié)合k-means聚類劃分駕駛風(fēng)格,搭建支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)駕駛風(fēng)格識別。Karginova等[13]則利用聚類結(jié)果,在不同時(shí)間窗口下對K近鄰、神經(jīng)網(wǎng)絡(luò)、決策樹和隨機(jī)森林等方法的識別能力進(jìn)行了比較,在仿真環(huán)境中發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)識別正確率最高。相較于問卷調(diào)查方式,利用自然駕駛數(shù)據(jù)可從微觀駕駛行為特征出發(fā),有效識別駕駛風(fēng)格。識別駕駛風(fēng)格并為駕駛員提供預(yù)警可及時(shí)干預(yù)危險(xiǎn)駕駛行為,降低交通事故風(fēng)險(xiǎn),改善交通安全狀況[14]。
然而,現(xiàn)有研究駕駛風(fēng)格評價(jià)指標(biāo)種類繁多,選取過多的指標(biāo)在增加數(shù)據(jù)采集及處理難度、識別系統(tǒng)通信帶寬度要求的同時(shí),也會降低駕駛風(fēng)格識別精度,無法及時(shí)給予駕駛員正確的預(yù)警提醒。駕駛輔助系統(tǒng)識別駕駛風(fēng)格時(shí),過多數(shù)據(jù)指標(biāo)要求也會對系統(tǒng)用戶的隱私造成威脅,降低系統(tǒng)用戶信任度,因此需要經(jīng)過特征工程篩選特征子集。但以往的研究僅關(guān)注駕駛風(fēng)格與特征指標(biāo)之間的相關(guān)性,忽略考慮利用特征指標(biāo)識別駕駛風(fēng)格的有效性與精度。例如,呂能超等[15]開展實(shí)車駕駛試驗(yàn),用Near-crash事件代替真實(shí)碰撞事件研究駕駛員行為特征,通過方差分析發(fā)現(xiàn)駕駛風(fēng)格與最大、平均減速度有顯著影響關(guān)系;Ma等[16]采用網(wǎng)約車輛駕駛行為數(shù)據(jù),發(fā)現(xiàn)駕駛員在巡航、乘車請求和下車3項(xiàng)駕駛?cè)蝿?wù)時(shí),駕駛風(fēng)格在轉(zhuǎn)彎、加速和減速操作中存在顯著差異;楊曼等[17]引入行車安全事件表征駕駛風(fēng)險(xiǎn),建立Logit模型分析主要因素與風(fēng)險(xiǎn)關(guān)系,得出駕駛風(fēng)險(xiǎn)與行車安全事件類型、原因、平均減速度、天氣、年齡和駕齡等6個(gè)因素有顯著關(guān)聯(lián)性。
綜上,本文基于車聯(lián)網(wǎng)自然駕駛數(shù)據(jù),利用無監(jiān)督學(xué)習(xí)算法實(shí)現(xiàn)駕駛風(fēng)格分類,構(gòu)建特征篩選模型,分析各特征指標(biāo)對駕駛風(fēng)格的影響程度,并搭建神經(jīng)網(wǎng)絡(luò)駕駛風(fēng)格識別模型驗(yàn)證指標(biāo)的有效性。
本文選擇美國安全試驗(yàn)?zāi)P筒渴鹩?jì)劃中的主數(shù)據(jù)集——基本安全信息(BSM)觀察研究駕駛員微觀駕駛行為。BSMs數(shù)據(jù)集包含車輛運(yùn)動狀態(tài)和位置數(shù)據(jù),其主文件BsmP1是以10 Hz頻率測量得到的高分辨率微觀駕駛數(shù)據(jù)。研究按照連續(xù)行程及車輛ID分割每輛車的數(shù)據(jù),合并同一駕駛員的不同行程,并將速度、加速度、偏航率等時(shí)序數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)處理,得到242名駕駛員的駕駛風(fēng)格量化指標(biāo)集。此外,考慮到駕駛員對加速變化比加速本身更敏感[18],本研究還引入加速度沖擊度即加速度變化率作為駕駛風(fēng)格量化指標(biāo)。本文所選擇的指標(biāo)具體見表1。
表1 駕駛風(fēng)格量化指標(biāo)集Tab.1 Driving style quantitative index set
考慮到上述18個(gè)駕駛風(fēng)格指標(biāo)的相關(guān)性以及后續(xù)駕駛風(fēng)格聚類所需的工作量,本文利用PCA實(shí)現(xiàn)駕駛風(fēng)格指標(biāo)集的降維處理,結(jié)果見圖1和表2。圖1為18個(gè)主成分的貢獻(xiàn)率,貢獻(xiàn)率越大,包含的數(shù)據(jù)信息則越多。前6個(gè)主成分的累積貢獻(xiàn)率達(dá)到85%,故可用其代表原有18個(gè)評價(jià)指標(biāo)[19]。進(jìn)一步計(jì)算各駕駛員的前6個(gè)主成分得分見表3,作為后續(xù)駕駛風(fēng)格分類模型的輸入。
圖1 主成分貢獻(xiàn)率圖Fig.1 Principal Component Contribution Rate
表2 各主成分的信息貢獻(xiàn)率與累積貢獻(xiàn)率Tab.2 Information Contribution Rate and Cumulative Contribution Rate of Each Principal Component
表3 駕駛員主成分得分Tab.3 Driver principal component score
此外,為了評價(jià)各指標(biāo)在所選前6個(gè)主成分中的重要性,本文計(jì)算了各指標(biāo)的因子載荷量,其絕對值大小反映了指標(biāo)與主成分的關(guān)聯(lián)程度。由表2和表4可以看出:第1主成分包含的最大信息量為24.2%,且與最小橫向加速度、平均橫向加速度關(guān)聯(lián)性最強(qiáng),可見第1主成分極大程度上反映了駕駛員的橫向加速度信息;第2主成分包含的信息量次之,為21.9%,且與速度標(biāo)準(zhǔn)差、最大橫向加速度關(guān)聯(lián)性最強(qiáng),可見第2主成分綜合反映了車輛的運(yùn)動狀態(tài)信息;第3主成分包含的最大信息量為15%,且與縱向沖擊度平均值、垂向沖擊度平均值關(guān)聯(lián)性最強(qiáng),因而第3主成分可代表加速變化。綜上,雖然降維后的各大主成分都包含了表1中駕駛風(fēng)格指標(biāo)信息,但主成分對每個(gè)指標(biāo)的反映程度不同。
表4 各指標(biāo)的因子載荷量Tab.4 Factor load of each index
K-means算法是基于劃分的無監(jiān)督聚類學(xué)習(xí)算法,以歐式距離作為樣本相似性度量準(zhǔn)則,距離越小,樣本相似性越高。然而K-means算法聚類結(jié)果易受初始聚類中心影響,不當(dāng)?shù)某踔颠x擇可能導(dǎo)致算法收斂于局部最優(yōu)解[20]。因此,相關(guān)研究對初始聚類中心的選取進(jìn)行改進(jìn)提出K-means++算法[21],具體聚類過程如下。
步驟1。從樣本數(shù)據(jù)集中隨機(jī)選擇1個(gè)樣本作為第1個(gè)聚類中心C1。
步驟2。對于數(shù)據(jù)集中每個(gè)點(diǎn)Xi,計(jì)算與已知聚類中心的距離D(x),其被選為新的聚類中心的概率為,按照輪盤法選出新的聚類中心。
步驟3。重復(fù)步驟2,直到k個(gè)初始聚類中心全部確定。
步驟4。提取數(shù)據(jù)集中其余樣本Xi,分別計(jì)算與k個(gè)聚類中心的距離,并將其劃分到距離最小的聚類中心所對應(yīng)的簇中。
步驟5。針對每個(gè)簇,重新計(jì)算聚類中心。
步驟6。重復(fù)步驟2和步驟3,直到類內(nèi)誤差平方和達(dá)到最小,聚類中心不再改變,算法收斂。
步驟7。輸出K-means++算法聚類結(jié)果。
為了客觀評價(jià)K-means和K-means++的聚類效果,本文選取輪廓系數(shù)法作為評價(jià)指標(biāo)。輪廓系數(shù)法從內(nèi)聚度a(i)和分離度b(i)這2個(gè)角度評價(jià)了聚類結(jié)果的集中程度。輪廓系數(shù)的值介于[-1,1]之間,越趨近于1代表內(nèi)聚度和分離度越好,即聚類效果越好。對于第i個(gè)駕駛樣本而言,其輪廓系數(shù)值S i計(jì)算見式(1)。
式中:a(i)為簇內(nèi)不相似度,表示駕駛樣本i到同簇內(nèi)其他樣本不相似程度的平均值;b(i)為簇間不相似度,表示駕駛樣本i到其他簇的平均不相似程度的最小值。
本文將駕駛風(fēng)格分為3類:平靜型、一般型和激進(jìn)型[22]。K-means與K-means++的聚類效果見表5。
表5 K-means與K-means++聚類效果Tab.5 Clustering effect of K-means and K-means++
對比2種方法的聚類結(jié)果,發(fā)現(xiàn)在二者迭代次數(shù)相同的情況下,K-means++的輪廓系數(shù)值大于K-means,這說明K-means++的聚類效果更優(yōu),故本文選擇K-means++的聚類結(jié)果作為下一步遞歸特征消元算法(RFE)的輸入,完成駕駛風(fēng)格樣本標(biāo)記工作。
簡潔明了的駕駛風(fēng)格評價(jià)體系與最大程度表征駕駛風(fēng)格的特征指標(biāo),對研究駕駛行為及優(yōu)化駕駛輔助系統(tǒng)尤為重要。主成分在不同程度上反映了不同指標(biāo),但可能會削弱某些因素的重要性從而影響到后續(xù)的駕駛行為分析。因此,本文選取支持向量機(jī)(SVC)與隨機(jī)森林(RF)作為遞歸特征消元(RFE)的底層迭代模型,構(gòu)建SVC-RFE與RF-RFE模型進(jìn)行駕駛風(fēng)格指標(biāo)篩選。
RFE是1種性能良好的后向搜索特征篩選方法[23-24]。SVC是1種二分類模型,基本模型是在特征空間上的間隔最大的線性分類器,在N維樣本空間里找到分類超平面,將空間上的訓(xùn)練樣本進(jìn)行分類。RF是1種利用多棵樹訓(xùn)練樣本的分類器,可隨機(jī)選擇決策樹節(jié)點(diǎn)劃分特征,在訓(xùn)練樣本特征維度高時(shí),仍能高效地訓(xùn)練模型。SVC-RFE與RF-RFE能夠通過SVC與RF進(jìn)行指標(biāo)重要性排序,進(jìn)一步利用RFE篩選重要指標(biāo)。本文使用三折交叉驗(yàn)證確定重要指標(biāo)個(gè)數(shù),2種集成算法的最佳特征個(gè)數(shù)與交叉驗(yàn)證正確分類分值見圖2。在n=6時(shí),2種方法的分類正確率均在85%以上。計(jì)算前6個(gè)特征的重要度發(fā)現(xiàn),2種方法的篩選結(jié)果均包括最大速度、速度標(biāo)準(zhǔn)差、最小垂向加速度、最小縱向加速度,重合率66.7%。不同的是,SVC-RFE中平均縱向加速度排名最高,分值為4.979,RF-RFE最大速度排名最高,分值為0.086 7,見表6。結(jié)合圖2,本文選擇排序正確分值較高的RF-RFE排序結(jié)果作為最終結(jié)果。最大速度作為駕駛過程中速度的極限值,較加速度等瞬時(shí)指標(biāo)而言,更能反映駕駛員駕駛過程中的心理狀態(tài),利用最大速度劃分不同風(fēng)格的駕駛?cè)巳焊鼮楹侠怼?/p>
圖2 特征個(gè)數(shù)與交叉驗(yàn)證正確分類分值Fig.2 The Number of Features and The Correct Classification Score of Cross Validation
表6 SVC-RFE與RF-RFE排名前6的特征及重要性分值Tab.6 Top 6 characteristics and importance scores of SVC-RFE and RF-RFE
隨后,研究分別選取RF-RFE中排名最高的最大速度和排名最低的平均速度,進(jìn)一步驗(yàn)證不同駕駛風(fēng)格駕駛員的差異。由圖3可知,58名激進(jìn)型駕駛員的最大速度平均可達(dá)29.40 m/s,與平靜型、一般型駕駛員的平均最大速度差值可達(dá)10 m/s;由圖4可知,58名激進(jìn)駕駛員的平均速度約16.82 m/s,與平靜、一般型駕駛風(fēng)格的駕駛員相差較小。結(jié)合表6和圖3的觀察結(jié)果,本文使用最大速度作為神經(jīng)網(wǎng)絡(luò)駕駛風(fēng)格識別模型的輸入變量。同時(shí),綜合分析表2、表4與圖3、表6可知,作為駕駛樣本劃分輸入的6個(gè)主成分主要反映了加速度等指標(biāo),而忽視了最大速度,因此無監(jiān)督學(xué)習(xí)算法的駕駛樣本劃分結(jié)果會存在一定誤差。
圖3 最大速度區(qū)間Fig.3 Maximum speed interval diagram
圖4 平均速度區(qū)間Fig.4 Average speed interval diagram
基于上述結(jié)果,本文利用神經(jīng)網(wǎng)絡(luò)搭建駕駛風(fēng)格識別模型驗(yàn)證所選指標(biāo)的合理性。神經(jīng)網(wǎng)絡(luò)識別具有客觀性強(qiáng),處理大數(shù)據(jù)大樣本能力強(qiáng)、可自學(xué)習(xí)的特點(diǎn),被廣泛用于駕駛風(fēng)格識別[20]。隨機(jī)選取242個(gè)駕駛樣本中的170個(gè)樣本進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,剩余72個(gè)樣本(平靜型樣本30個(gè),一般型樣本33個(gè),激進(jìn)型樣本9個(gè))用來驗(yàn)證模型識別精度。將242個(gè)樣本的最大速度作為神經(jīng)網(wǎng)絡(luò)輸入,以242個(gè)樣本的分類結(jié)果Y(平靜型[1,0,0],一般型[0,1,0],激進(jìn)型[0,0,1])作為神經(jīng)網(wǎng)絡(luò)模型的輸出,隱含層層數(shù)設(shè)置為10,訓(xùn)練函數(shù)為trainscg。該模型的權(quán)重為W,偏移量為b,隱含層傳遞函數(shù)為sigmoid,輸出層傳遞函數(shù)為softmax。圖5為72組測試樣本的分類結(jié)果,如目標(biāo)分類為1的樣本中有25個(gè)被正確識別為1,有5個(gè)被識別為2,正確率為83.3%。整體測試結(jié)果表明,僅使用最大速度作為駕駛風(fēng)格識別模型輸入,識別精度可達(dá)86.1%。
圖5 測試樣本測試結(jié)果Fig.5 Test sample test results
本文基于車聯(lián)網(wǎng)自然駕駛實(shí)驗(yàn)數(shù)據(jù),建立駕駛行為量化指標(biāo)集,結(jié)合無監(jiān)督聚類學(xué)習(xí)算法完成駕駛風(fēng)格樣本標(biāo)定,利用特征遞歸算法得到駕駛風(fēng)格重要指標(biāo),搭建駕駛風(fēng)格識別模型驗(yàn)證指標(biāo)有效性。結(jié)論如下:①主成分分析與指標(biāo)篩選結(jié)果對比,主成分進(jìn)行駕駛風(fēng)格樣本劃分會忽略最大速度的影響;②利用輪廓系數(shù)法評價(jià)K-means與K-means++算法聚類效果,K-means++聚類效果更優(yōu);③以支持向量機(jī)與隨機(jī)森林為底層迭代模型,構(gòu)建SVC-RFE與RF-RFE模型篩選駕駛風(fēng)格指標(biāo),當(dāng)特征個(gè)數(shù)n=6時(shí),SVC-RFE與RF-RFE的排序正確率均高于85%,RF-RFE的正確率可達(dá)90%。最大速度排名最高,在3種駕駛風(fēng)格群體中差值可達(dá)10 m/s;④搭建神經(jīng)網(wǎng)絡(luò)模型進(jìn)一步驗(yàn)證最大速度作為特征指標(biāo)的有效性,結(jié)果顯示,僅使用最大速度進(jìn)行駕駛風(fēng)格識別精度可達(dá)86.1%。綜上,在本研究中最大速度更能有效反映駕駛員行駛過程中的過激行為,是區(qū)分駕駛風(fēng)格的最有效指標(biāo)。
后續(xù)研究工作將利用本研究篩選的指標(biāo),在駕駛輔助系統(tǒng)中實(shí)現(xiàn)危險(xiǎn)駕駛行為預(yù)警。并且考慮將該駕駛風(fēng)格識別方法應(yīng)用于運(yùn)輸企業(yè)車輛監(jiān)管,結(jié)合駕駛風(fēng)格與運(yùn)輸車輛相關(guān)多維數(shù)據(jù),實(shí)現(xiàn)運(yùn)輸車輛風(fēng)險(xiǎn)綜合評價(jià),進(jìn)行差異化、精準(zhǔn)和高效監(jiān)管,提高監(jiān)管效率和安全水平,降低監(jiān)管成本。此外,未來的研究將關(guān)注道路環(huán)境與駕駛風(fēng)格之間的聯(lián)系,考慮城市道路、高速公路等不同道路條件下駕駛風(fēng)格的差異性。