陳鏡任,吳業(yè)福,吳 冰
(1.武漢理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢 430063; 2.交通物聯(lián)網(wǎng)湖北省重點(diǎn)實(shí)驗(yàn)室(武漢理工大學(xué)),武漢 430063)(*通信作者電子郵箱wuyefu@whut.edu.cn)
我國(guó)交通事故連年高發(fā),絕大部分與駕駛?cè)俗陨砭o密相關(guān)。駕駛?cè)思奔铀?、高速行駛、急減速、跟車距離近以及隨意超車等不良駕駛行為是導(dǎo)致交通事故多發(fā)的主要原因[1]。要盡快地從根本上提高我國(guó)駕駛?cè)私煌ò踩庾R(shí),規(guī)范交通行為,需基于我國(guó)駕駛?cè)说男袨樘卣髡归_研究,通過技術(shù)開發(fā)與大規(guī)模集成應(yīng)用,建立一套針對(duì)駕駛?cè)巳后w的宣傳教育內(nèi)容、方式和模式,以有效預(yù)防道路交通事故的發(fā)生、減少交通事故傷亡和損失。
駕駛行為人行為譜的研究建立在對(duì)車輛行駛數(shù)據(jù)進(jìn)行分析的基礎(chǔ)上,而駕駛行為數(shù)據(jù)的多樣化和復(fù)雜性給數(shù)據(jù)采集帶來了諸多困難。在數(shù)據(jù)采集方面,Arioui等[2]使用汽車模擬器進(jìn)行駕駛?cè)私】禒顩r和車輛零配件的運(yùn)行狀態(tài)監(jiān)測(cè)研究;Zeng等[3]利用個(gè)人計(jì)算機(jī)(Personal Computer, PC)模擬器進(jìn)行駕駛?cè)笋{駛行為、自行車安全狀況以及路人的安全的數(shù)據(jù)監(jiān)測(cè);付坤[4]采用非對(duì)稱數(shù)字用戶線路(Asymmetric Digital Subscriber Line, ADSL)方法通過車輛參數(shù)的仿真進(jìn)行路面交通的安全性研究。
在駕駛?cè)笋{駛行為研究方面,Otte等[5]通過分析駕駛?cè)说牡缆否{駛行為,確立和量化歐洲的道路安全問題;Fuller[6]利用汽車模擬器,研究了駕駛?cè)诵熊嚨纳?、心理狀態(tài)因素對(duì)行車安全的影響;郭孜政等[7]運(yùn)用車載信息融合技術(shù)分析駕駛?cè)说鸟{駛行為,利用反向傳播(Back Propagation, BP)神經(jīng)網(wǎng)絡(luò)對(duì)駕駛行為進(jìn)行判斷并取得一定的成果;楊誠(chéng)[8]利用隱馬爾可夫與BP神經(jīng)網(wǎng)絡(luò)建立了預(yù)測(cè)模型,對(duì)駕駛?cè)宿D(zhuǎn)彎時(shí)的決策建議及行為辨別進(jìn)行了研究;吳付威[9]就動(dòng)態(tài)視覺的影響因素和駕駛?cè)说男熊嚊Q策機(jī)制對(duì)駕駛?cè)诵熊囘^程的動(dòng)態(tài)視覺信息進(jìn)行了分析研究;第三軍醫(yī)大學(xué)黎忠剛[10]基于多維度提取、分析駕駛行為習(xí)慣;哈爾濱工業(yè)大學(xué)盧凱旋[11]提出了基于人-車-環(huán)境三者融合的駕駛行為分析方法,綜合分析判定駕駛狀態(tài)的危險(xiǎn)或安全;長(zhǎng)安大學(xué)崔海朋[12]以駕駛?cè)说鸟{駛行為特性作為分析基礎(chǔ),將駕駛?cè)说鸟{駛行為分為感知特性類、判斷特性類和操作特性類,并通過分析采集到的數(shù)據(jù),得出不同特性類的駕駛行為與適宜性檢測(cè)指標(biāo)的相關(guān)性有大小之分的結(jié)論。
當(dāng)前對(duì)于駕駛?cè)笋{駛行為的研究耗費(fèi)巨大的人力、物力,且結(jié)果往往受駕駛?cè)说闹饔^性以及其自身狀態(tài)的影響且存在指標(biāo)獲取困難及準(zhǔn)確性難以保證的問題,無法達(dá)到預(yù)警效果?;诓糠钟绊懸蛩睾吞囟ōh(huán)境得到的駕駛行為的研究成果,缺乏一個(gè)完整的駕駛?cè)诵袨樽V系框架及表征指標(biāo)體系,因而不同的研究之間缺乏有機(jī)聯(lián)系,相關(guān)的研究成果來源于特定的框架或指標(biāo)體系,無法反映駕駛?cè)笋{駛行為的普遍特征及其內(nèi)在規(guī)律,從而使得這類研究的成果無法推廣應(yīng)用。
為了更好地分析駕駛?cè)诵袨椋貏e是“兩客一?!瘪{駛?cè)说鸟{駛行為,國(guó)家道路科技行動(dòng)計(jì)劃(二期)課題三之專題二“重點(diǎn)駕駛?cè)私煌ㄐ袨榉治黾夹g(shù)及系統(tǒng)開發(fā)”首次提出了“駕駛?cè)诵袨樽V”這個(gè)全新的概念,用于有效評(píng)價(jià)駕駛?cè)笋{駛行為特征。本文提出了針對(duì)營(yíng)運(yùn)客車的駕駛?cè)诵袨樽V的框架體系和指標(biāo)構(gòu)成要素,通過對(duì)駕駛?cè)笋{駛車輛的行駛信息的提煉分析,得出駕駛行為的內(nèi)在規(guī)律;通過深入研究駕駛行為特征指標(biāo),客觀評(píng)價(jià)駕駛?cè)笋{駛行為類型,為駕駛?cè)诵袨樽V分析提供有效的理論和工具支持。
首先,提出并詳細(xì)定義駕駛?cè)诵袨樽V的指標(biāo),包括特征指標(biāo)和評(píng)價(jià)指標(biāo)。特征指標(biāo)用于定性分析駕駛?cè)诵袨樽V的表現(xiàn)特征,評(píng)價(jià)指標(biāo)用于定量分析產(chǎn)生駕駛?cè)诵袨樽V的表現(xiàn)特征的數(shù)據(jù)對(duì)象,為駕駛?cè)诵袨樽V的構(gòu)建提供了理論依據(jù)。
其次,分析駕駛?cè)诵袨樽V的特征指標(biāo)的計(jì)算方法?;隈{駛行為特征,采用聚類算法分析駕駛?cè)笋{駛風(fēng)格類型;采用回歸分析進(jìn)行駕駛?cè)笋{駛技能評(píng)價(jià)。
然后,設(shè)計(jì)駕駛?cè)诵袨樽V的基礎(chǔ)數(shù)據(jù)采集方案,并提出基于車輛行駛數(shù)據(jù)的駕駛?cè)诵袨樽V的基礎(chǔ)數(shù)據(jù)的預(yù)處理、提煉方法。采用車載器、定制的數(shù)據(jù)交換協(xié)議和3G或4G網(wǎng)絡(luò)獲取、組織和傳輸駕駛?cè)诵袨樽V的基礎(chǔ)數(shù)據(jù),在接收端對(duì)該數(shù)據(jù)進(jìn)行解析后存儲(chǔ)到數(shù)據(jù)中心。通過車聯(lián)網(wǎng)監(jiān)控平臺(tái)采集到的自然駕駛行為車輛行駛數(shù)據(jù)受到諸多外界因素的影響,大量數(shù)據(jù)異常、無效,導(dǎo)致很多原始數(shù)據(jù)無法直接用于駕駛?cè)诵袨樽V分析并從中提煉?cǎi){駛行為評(píng)價(jià)指標(biāo),最終應(yīng)用于駕駛?cè)笋{駛行為評(píng)價(jià)算法。研究采用數(shù)據(jù)清理的方法對(duì)異常、無效的數(shù)據(jù)進(jìn)行過濾、預(yù)處理。
最后,采用Spring MVC(Model View Controller)架構(gòu)研發(fā)駕駛?cè)诵袨樽V分析工具。該分析系統(tǒng)實(shí)現(xiàn)了駕駛?cè)诵袨樽V的基礎(chǔ)數(shù)據(jù)的采集和駕駛?cè)说男袨榉治?,能給駕駛?cè)颂峁┯行я{駛建議,有利于車輛營(yíng)運(yùn)公司全面掌握車輛行駛情況,對(duì)交通管理部門的交通狀況管理和交通安全預(yù)警提供有效建議。
駕駛?cè)诵袨樽V體系結(jié)構(gòu)如圖1所示。
圖1 駕駛?cè)诵袨樽V體系結(jié)構(gòu)
本章定義了駕駛?cè)诵袨樽V的各項(xiàng)特征指標(biāo)和評(píng)價(jià)指標(biāo),特征指標(biāo)用于描述駕駛?cè)诵袨樽V的表現(xiàn)特征,評(píng)價(jià)指標(biāo)用于描述產(chǎn)生駕駛?cè)诵袨樽V的表現(xiàn)特征數(shù)據(jù)對(duì)象。
駕駛行為是導(dǎo)致交通事故的根本原因,駕駛行為由駕駛風(fēng)格和駕駛技能共同作用產(chǎn)生。上述兩個(gè)指標(biāo)可以綜合反映某駕駛?cè)说鸟{駛行為譜特征,因此采用兩者所屬類別的不同組合來定義駕駛?cè)诵袨樽V的特征的表述。
2.1.1 駕駛風(fēng)格特征指標(biāo)
基于交通安全特征,將駕駛?cè)巳后w的駕駛風(fēng)格特征指標(biāo)定義為以下3類:
1)激進(jìn)型(A)。該類駕駛?cè)嗽谛熊囘^程中,容易受到外界因素的影響,產(chǎn)生煩躁的情緒,以致作出過激的駕駛行為。行車車速往往高于管理車速、超速(<10%)多但超速比例小、車輛縱向加速度較大、油門及剎車開度較大。
2)適中型(B)。介于激進(jìn)型和保守型之間,該類駕駛?cè)藝?yán)格按管理車速行駛、車速分布處在中等水平(50%分位車速左右,或15%~85%分位車速)、無超速現(xiàn)象、車輛縱向加速度適中、油門及剎車開度適中。該類駕駛?cè)说鸟{駛行為表現(xiàn)更為妥當(dāng)安全。
3)保守型(C)。該類駕駛?cè)嗽谛熊囘^程中通常會(huì)選擇低速平穩(wěn)的行車方式來保證行車的安全。行車車速低于管理車速、車速總體偏低、無超速現(xiàn)象、車輛縱向加速度較小、油門及剎車開度較小。
2.1.2 駕駛技能特征指標(biāo)
基于駕駛?cè)说能囕v控制能力,將駕駛?cè)巳后w的駕駛技能特征指標(biāo)定義為以下2類:
1)熟練型(a)。該類駕駛?cè)嗽谛熊囘^程中面對(duì)外界復(fù)雜的交通環(huán)境時(shí),能作出快速?zèng)Q策,擁有良好的控制車輛穩(wěn)定的能力。應(yīng)變能力強(qiáng)、動(dòng)作敏捷協(xié)調(diào)、車速和加速度穩(wěn)定、駕駛平順。
2)生疏型(b)。該類駕駛?cè)嗽谛熊囘^程中面對(duì)外界復(fù)雜的交通環(huán)境時(shí),缺乏包括快速換擋以及及時(shí)避讓等在內(nèi)的對(duì)車輛的穩(wěn)定控制以及快速?zèng)Q策能力。車速、加速度和方向盤控制均不穩(wěn)定,不敢使用合適的加減速。
2.1.3 駕駛行為特征指標(biāo)
綜合考慮駕駛風(fēng)格和駕駛技能兩個(gè)方面,將駕駛?cè)巳后w定義為以下6類:激進(jìn)熟練型(Aa)、適中熟練型(Ba)、保守熟練型(Ca)、激進(jìn)生疏型(Ab)、適中生疏型(Bb)、保守生疏型(Cb)。各類駕駛行為對(duì)應(yīng)的安全等級(jí)如表1所示。
表1 駕駛安全等級(jí)
判斷駕駛?cè)说鸟{駛風(fēng)格、駕駛技能的因素多樣,這些因素同時(shí)也對(duì)交通安全有著很大的影響。一般地,駕駛?cè)说鸟{駛風(fēng)格越偏向激進(jìn)、駕駛技能越偏向熟練,則車速平均值越高。車速標(biāo)準(zhǔn)差是車速離散程度的反映,車速分布越離散,則駕駛?cè)说鸟{駛風(fēng)格越激進(jìn),駕駛行為越不穩(wěn)定。加速度反映駕駛?cè)瞬葔杭铀偬ぐ宓男袨橐?guī)律,減速度反映駕駛?cè)酸尫偶铀偬ぐ寤虿倏v制動(dòng)踏板的行為規(guī)律。此外,駕駛?cè)瞬忍び烷T踏板、剎車踏板的變化率也能大致反映駕駛?cè)说鸟{駛風(fēng)格和技能。根據(jù)以上描述,將駕駛?cè)诵袨樽V的評(píng)價(jià)指標(biāo)定義如下:
現(xiàn)有的駕駛?cè)诵袨檠芯糠椒ù蟛糠只谥饔^感受和定性分析,其分析結(jié)果會(huì)摻雜個(gè)人主觀因素。本章基于車輛行駛數(shù)據(jù),選擇合適的算法發(fā)掘駕駛?cè)笋{駛行為的特征及其內(nèi)在規(guī)律,為客觀、定量地評(píng)價(jià)駕駛?cè)私煌ㄐ袨樽V提供有效依據(jù)。駕駛?cè)诵袨樽V構(gòu)建方案如圖2所示。
3.1.1 聚類算法
之所以采用聚類算法,是因?yàn)楸疚闹皇谴_定要將數(shù)據(jù)依據(jù)其相似度聚成3類(駕駛風(fēng)格被定義為3類),并不知道具體某個(gè)駕駛?cè)说男熊嚁?shù)據(jù)屬于哪一類,且由于事先沒有任何訓(xùn)練樣本對(duì)應(yīng)的類別標(biāo)簽,而事先也無法確定駕駛?cè)说姆诸惤Y(jié)果、行車數(shù)據(jù)本身具有復(fù)雜性等因素都使本研究不便手動(dòng)標(biāo)注或是通過人為的方式來對(duì)數(shù)據(jù)進(jìn)行分類,綜上,選擇用聚類這種無監(jiān)督學(xué)習(xí)的方式來相對(duì)地判別駕駛行為類型。K-means算法具有可伸縮、收斂快、運(yùn)行時(shí)間短等特點(diǎn),運(yùn)用K-means算法進(jìn)行快速聚類,通過反復(fù)迭代來達(dá)到最終的聚類結(jié)果。
經(jīng)典K-means算法的具體思想是:χ={x1,x2,…,xN}為要聚類的N個(gè)數(shù)據(jù)樣本,其中xi為第i個(gè)數(shù)據(jù)對(duì)象,它是一個(gè)n維的數(shù)據(jù)點(diǎn),可以表示為(x11,x12,…,x1n)。相似度度量使用歐幾里得距離公式,如下所示:
d(xi,xj)=
(1)
聚類的目標(biāo)收斂函數(shù)E選擇使用誤差平方和,E的定義如式(2)所示:
(2)
其中:Ci表示第i個(gè)聚類簇,mi表示該簇中所有數(shù)據(jù)對(duì)象的平均值。
圖2 駕駛?cè)诵袨樽V構(gòu)建方案
經(jīng)典K-means算法的聚類過程是:
步驟1 隨機(jī)選擇K個(gè)初始聚類中心C={c1,c2,…,ck}。
步驟2 對(duì)每個(gè)i∈{1,2,…,k},都使得樣本χ中離ci最近的點(diǎn)加入到聚類簇Ci中。
步驟4 重復(fù)步驟2和步驟3直到初始聚類中心C不再變化,此時(shí),誤差平方和E收斂。
但經(jīng)典K-means算法的速度快、時(shí)間復(fù)雜度低是以犧牲聚類的準(zhǔn)確性為代價(jià)的,易陷入局部最優(yōu)解,經(jīng)典K-means算法的時(shí)間消耗和聚類效果在數(shù)據(jù)量非常龐大及復(fù)雜的情況下會(huì)受到較大影響。本文采用基于馬爾可夫鏈蒙特卡洛采樣和離群點(diǎn)剔除的K-means算法,在時(shí)間復(fù)雜度不高、不影響聚類速度的情況下,通過優(yōu)化初始聚類中心的選擇來盡量保證聚類的準(zhǔn)確度,獲得全局最優(yōu)解。
采用的改進(jìn)K-means算法的聚類過程如下。
步驟1 隨機(jī)選取樣本數(shù)據(jù)集χ中的一個(gè)點(diǎn)ci作為初始聚類中心點(diǎn)。
步驟2 選取某一數(shù)據(jù)點(diǎn)x計(jì)算其與初始聚類中心點(diǎn)的距離d(x,ci)。
步驟3 對(duì)于剩余的k-1次迭代,建立一個(gè)長(zhǎng)度為m的馬爾可夫鏈,并使用最后k-1個(gè)元素作為新聚類簇的中心,建立馬爾可夫鏈的提案分布為:
(3)
步驟4 對(duì)每個(gè)i∈{1,2,…,k},都使得樣本χ中離ci最近的點(diǎn)加入到聚類簇Ci中。
步驟6 重復(fù)步驟4、5,直至C不再變化。
該K-means算法和經(jīng)典K-means算法的主要區(qū)別在于初始聚類中心的確定,經(jīng)典K-means算法是隨機(jī)選擇K個(gè)初始聚類中心,而本文采用的K-means算法是先選擇一個(gè)初始聚類中心,計(jì)算樣本中的點(diǎn)到聚類中心的距離,在后續(xù)的每次迭代j∈[2,3,…,m]中依據(jù)提案分布q(x)建立馬爾可夫鏈x(1)→x(2)→ … →x(t)→ …即依據(jù)初始中心生成下一個(gè)候選點(diǎn)yj,并依據(jù)接受概率來決定是否采用新的候選點(diǎn),接受概率為:
(4)
由此可以確保該方法下建立馬爾可夫鏈的過程是平穩(wěn)的。
經(jīng)典K-means算法的初始聚類中心是隨機(jī)抽取的,在之后的迭代運(yùn)算中不斷替換產(chǎn)生新的聚類中心,在噪聲和干擾數(shù)據(jù)多時(shí)易陷入局部最優(yōu),而采用的改進(jìn)K-means算法基于馬爾可夫鏈蒙特卡洛方法選擇初始聚類中心,過程平穩(wěn)細(xì)致,不用遍歷K次已選出的初始聚類中心,在時(shí)間上和空間上盡量尋求到全局最優(yōu)解。
3.1.2 運(yùn)用改進(jìn)的K-means算法進(jìn)行駕駛風(fēng)格聚類
運(yùn)用改進(jìn)的K-means算法對(duì)不同駕駛?cè)藗€(gè)體的駕駛風(fēng)格進(jìn)行聚類的過程如下:
1)對(duì)數(shù)據(jù)庫(kù)中車輛行駛基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,得到駕駛風(fēng)格評(píng)價(jià)指標(biāo)。
根據(jù)第2章,選取車速平均值、車速標(biāo)準(zhǔn)差、超速時(shí)間占比等作為駕駛?cè)笋{駛風(fēng)格評(píng)價(jià)指標(biāo)。因?yàn)樗惴ㄖ胁捎脷W幾里得距離,各個(gè)駕駛風(fēng)格評(píng)價(jià)指標(biāo)之間存在單位不統(tǒng)一以及數(shù)量級(jí)相差較大的問題,所以在進(jìn)行聚類計(jì)算之前,需要對(duì)各個(gè)評(píng)價(jià)指標(biāo)進(jìn)行歸一化處理,使之投射到[0,1]區(qū)間,其歸一化處理如下:
(5)
其中,x為原始評(píng)價(jià)指標(biāo)的值(即歸一化前的值),y為聚類計(jì)算指標(biāo)的值(即歸一化后的值),maxValue為樣本的最大值,minValue為樣本的最小值。
將歸一化后駕駛風(fēng)格評(píng)價(jià)指標(biāo)數(shù)據(jù)作為駕駛?cè)巳后w聚類的初始樣本集,進(jìn)行聚類分析。
2)初始化聚類中心個(gè)數(shù)的選擇。
因?yàn)楸狙芯恐胁杉臄?shù)據(jù)量龐雜,為了防止初始聚類中心個(gè)數(shù)確立的隨意性對(duì)駕駛風(fēng)格分類產(chǎn)生影響,通過設(shè)置不同的初始聚類中心的個(gè)數(shù)實(shí)驗(yàn)來判斷K的初始值取多少時(shí),既時(shí)間消耗少,又能獲得相對(duì)較好的聚類效果。本文采用多次實(shí)驗(yàn)得到如下結(jié)果,如表2所示:在聚類過程中,初始K值設(shè)置越大,迭代運(yùn)算的次數(shù)越多,則駕駛風(fēng)格聚類中心越準(zhǔn)確,聚類結(jié)果越好,駕駛?cè)笋{駛風(fēng)格分類越接近真實(shí)情況;但與此同時(shí)所用時(shí)間消耗也會(huì)隨著K值和迭代次數(shù)的增加而增多,所以將K的初值置為30相對(duì)合適,能在時(shí)間消耗不是很大的情況下獲得較好的聚類效果。
表2 聚類過程對(duì)比分析
3)任選一點(diǎn)作為初始聚類中心點(diǎn),計(jì)算樣本中的點(diǎn)到該中心點(diǎn)的距離。
4)依據(jù)式(3)中的提案分布建立馬爾可夫鏈,取最后一個(gè)點(diǎn)作為新聚類中心,直至選完30個(gè)初始聚類中心。
5)依據(jù)第2章對(duì)駕駛風(fēng)格的分類設(shè)計(jì),主要包含激進(jìn)型、適中型和保守型三類,故K的最終值取3。在得到30個(gè)初始聚類中心后,計(jì)算剩下的點(diǎn)與這些初始聚類中心的距離,分別將它們分配給與其最相似的類,然后再計(jì)算每個(gè)所獲新聚類的聚類中心(該聚類中所有對(duì)象的均值),不斷重復(fù)這一過程直到誤差平方和開始收斂為止,最終形成較為明顯的不同的3個(gè)類簇。在最后結(jié)果中,之前的30個(gè)初始聚類中心所對(duì)應(yīng)的類中相對(duì)較近、較集中的類對(duì)應(yīng)一個(gè)駕駛行為類型。
基于數(shù)據(jù)散點(diǎn)距離的駕駛風(fēng)格聚類算法描述如下。
輸入:參與聚類的駕駛風(fēng)格評(píng)價(jià)指標(biāo)散點(diǎn)集合。
輸出:駕駛風(fēng)格聚類集合。
/*步驟1:將駕駛風(fēng)格評(píng)價(jià)指標(biāo)投射到[0,1]區(qū)間*/
if (maxAndMin[j][0] //最大值進(jìn)行賦值 thenmaxAndMin[j][0]=fieldValue; and if (maxAndMin[j][1]>fieldValue) //最小值進(jìn)行賦值 thenmaxAndMin[j][1]=fieldValue; /*將對(duì)象單位化*/ for eachvalue; if (maxAndMin[i][0]!=maxAndMin[i][1]) //如果最大值和最小值不等,防止分母為0 thenvalue=(fieldValue-maxAndMin[i][1])/ (maxAndMin[i][0]-maxAndMin[i][1]); elsevalue=0 //當(dāng)一個(gè)維度的最大值和最限制相等的 //時(shí)候,分母為0的時(shí)候,將單位化的數(shù)據(jù)值賦值為0 End for /*步驟2:駕駛?cè)巳后w的駕駛風(fēng)格聚類*/ /*循環(huán)計(jì)算每個(gè)點(diǎn)到初始聚類中心的歐幾里得距離,判斷數(shù)據(jù)對(duì)象的所屬類簇,納入與之距離最小的類簇*/ Data setχ,centerk,chain lengthm Point uniformly sampled fromχ→c1 //任選一個(gè)點(diǎn)作為初始聚類中心 for allx∈χdo /*主循環(huán)*/ {c1} →C1 fori=2,3,…,kdo Point sampled fromχusingq(x) →x d(x,Ci-1)2→dx forj=2,3,…,mdo Point sampled fromχusingq(y) →y d(y,Ci-1)2→dy theny→x,dy→dx Ci-1∪{x} →Ci returnCk End for 回歸學(xué)習(xí)通常用于分析兩個(gè)變量相互依賴的定量關(guān)系,運(yùn)用回歸估計(jì)來定量分析平均車速和加速度變換率累積這兩個(gè)變量之間的關(guān)系,其公式如下: J=β0+β1·va+ε (6) 其中:va為車速平均值,J是根據(jù)該車速推算出的加速度變化率累積,ε是回歸誤差。 以駕駛技能平均水平作為衡量標(biāo)準(zhǔn),得出每個(gè)駕駛?cè)笋{駛技能類別。采用最小二乘法以準(zhǔn)確地反映平均車速和加速度變化率累積之間的關(guān)系,其離差平方和如下: (7) (8) 為了使得式(7)得到的結(jié)果最小,求解偏微分方程組,計(jì)算得到參數(shù)β0和β1的值。 (9) (10) (11) 對(duì)駕駛?cè)巳后w進(jìn)行駕駛技能分類的過程如下: 步驟1 對(duì)數(shù)據(jù)庫(kù)中車輛行駛基礎(chǔ)數(shù)據(jù)(車速、時(shí)間)進(jìn)行數(shù)據(jù)預(yù)處理,得到車速平均值、加速度變化率累積兩項(xiàng)駕駛風(fēng)格評(píng)價(jià)指標(biāo)。 步驟2 根據(jù)最小二乘估計(jì)對(duì)駕駛?cè)巳后w進(jìn)行回歸分析,計(jì)算得到回歸直線的斜率β1和截距β0。 步驟3 判斷每個(gè)駕駛?cè)伺c回歸直線的位置關(guān)系,在回歸直線下方的駕駛?cè)藶轳{駛技能生疏;反之則為駕駛技能熟練。 駕駛?cè)诵袨樽V基礎(chǔ)數(shù)據(jù)采集 通過與無錫某物聯(lián)網(wǎng)公司合作,利用營(yíng)運(yùn)車聯(lián)網(wǎng)聯(lián)控平臺(tái)進(jìn)行車輛的實(shí)時(shí)跟蹤,營(yíng)運(yùn)車輛的車載終端通過無線網(wǎng)絡(luò)向車聯(lián)網(wǎng)管理平臺(tái)發(fā)送數(shù)據(jù),管理平臺(tái)通過讀取控制器局域網(wǎng)絡(luò)(Controller Area Network, CAN)總線協(xié)議以及全球定位系統(tǒng)(Global Positioning System, GPS)信號(hào),將車輛行駛數(shù)據(jù)進(jìn)行存儲(chǔ)。車聯(lián)網(wǎng)數(shù)據(jù)云平臺(tái)及其相關(guān)的應(yīng)用環(huán)境邏輯結(jié)構(gòu)如圖3所示。 圖3 車輛行駛數(shù)據(jù)采集邏輯圖 數(shù)據(jù)集描述及提煉規(guī)則 利用相關(guān)物聯(lián)網(wǎng)設(shè)備和車輛聯(lián)網(wǎng)聯(lián)控平臺(tái)采集行車數(shù)據(jù),實(shí)現(xiàn)基于大樣本的駕駛?cè)诵袨樽V分析。目前,該平臺(tái)已經(jīng)實(shí)現(xiàn)對(duì)6萬多臺(tái)車輛的實(shí)時(shí)監(jiān)控,可記錄車輛軌跡、車速以及超速駕駛、超時(shí)駕駛等報(bào)警信息。 由于遮擋物遮擋信號(hào)、車載終端設(shè)備故障等因素的影響導(dǎo)致其中出現(xiàn)一些錯(cuò)誤、無效的車輛行駛數(shù)據(jù),這些錯(cuò)誤的信息混雜其中,可能會(huì)導(dǎo)致分析結(jié)果不準(zhǔn)確甚至得出錯(cuò)誤的實(shí)驗(yàn)結(jié)果,因此,車載終端采集到的車輛行駛基礎(chǔ)數(shù)據(jù)往往不能直接用于數(shù)據(jù)分析。 在分析車輛行駛數(shù)據(jù)之前,需要將其中錯(cuò)誤的、無效的數(shù)據(jù)剔除,本研究針對(duì)車載終端采集的數(shù)據(jù)信息制定的數(shù)據(jù)過濾規(guī)則如下: 1)剔除車速為0的數(shù)據(jù)記錄。在停車狀態(tài)下,車輛行駛車速為0,駕駛?cè)笋{駛行為分析應(yīng)該是建立在行駛動(dòng)態(tài)過程中,所以剔除車速為0的數(shù)據(jù)記錄。 2)速度過大的數(shù)據(jù)記錄。車輛在路面行駛時(shí),車速都設(shè)有一定的閾值,如果出現(xiàn)車速大于120 km/h的數(shù)據(jù)記錄,則視為錯(cuò)誤的數(shù)據(jù)。 3)數(shù)據(jù)信息少的數(shù)據(jù)記錄。一般地,車輛行駛時(shí)間越長(zhǎng),所獲取到的數(shù)據(jù)信息更有說服力,進(jìn)而分析得到有效的駕駛行為特征,一輛車每天的信息記錄數(shù)少于100條視為無效信息剔除。 4)加速度異常的數(shù)據(jù)記錄。車輛在設(shè)計(jì)過程中,其性能受到技術(shù)的限制,車輛縱向加速度受限,一般為正向加速度<3 m/s2,負(fù)向加速度<9 m/s2。 本節(jié)從本文采用的基于馬爾可夫鏈蒙特卡洛采樣和離群點(diǎn)剔除的K-means算法、經(jīng)典K-means算法以及K-means++算法的聚類所消耗的時(shí)間和散點(diǎn)聚合度兩個(gè)方面來對(duì)這三種聚類算法的效果作出對(duì)比,驗(yàn)證改進(jìn)的K-means算法的良好性能。 因?yàn)楸疚乃O(shè)計(jì)的駕駛?cè)诵袨樽V分析工具是基于車輛行駛數(shù)據(jù)的,所以選用了經(jīng)過預(yù)處理后的1 000條車輛行數(shù)據(jù)進(jìn)行算法的時(shí)間消耗比較,由實(shí)驗(yàn)結(jié)果可知,選取不同的初始聚類中心數(shù)量(K值),改進(jìn)K-means算法、K-means++算法和經(jīng)典K-means算法有著不同的表現(xiàn)。根據(jù)實(shí)驗(yàn)結(jié)果可知,經(jīng)典K-means算法和K-means++算法在時(shí)間消耗上都比改進(jìn)K-means算法要多。K-means++算法在選取初始聚類中心時(shí)需要進(jìn)行K次遍歷,而改進(jìn)K-means算法則不需要,改進(jìn)K-means是依據(jù)提案分布建立馬爾可夫鏈并根據(jù)接受概率決定是否接受新的候選點(diǎn)來獲得所有的初始聚類中心,因此在要獲得近似聚類效果的情況下,改進(jìn)K-means算法的時(shí)間消耗比K-means++和經(jīng)典K-means算法都要少。3種聚類算法的時(shí)間消耗對(duì)比如圖4所示。 圖4 各種聚類算法耗時(shí)比較 圖5 各種聚類算法的聚類程度對(duì)比 3種聚類算法的樣本聚合如圖6所示。從圖6中可以看出:經(jīng)典K-means算法的散點(diǎn)聚合度不高,聚類結(jié)果中同一類別的散點(diǎn)相對(duì)分散,且各種類別間的界限不清晰,存在散點(diǎn)群相互覆蓋的現(xiàn)象;K-means++算法比經(jīng)典K-means算法的聚合效果稍好,但依舊存在散點(diǎn)群邊界不夠清晰、少量相互覆蓋的情況;改進(jìn)K-means算法的散點(diǎn)聚合度相對(duì)更高,類別間的界限也相對(duì)清晰,基本沒有散點(diǎn)群相互覆蓋的情況。 圖6 3種K-means算法的樣本聚合 選取2016年11月1日00:00:00—2016年12月16日00:00:00的車輛行駛數(shù)據(jù)作為駕駛?cè)诵袨樽V分析實(shí)驗(yàn)的成果展示。該數(shù)據(jù)集中采集到的車輛行駛數(shù)據(jù)記錄總數(shù)為1 663 021條,預(yù)處理后的車輛行駛次數(shù)為158 755。駕駛?cè)藬?shù)量為37 699人:激進(jìn)型有11 875人,占31.5%;適中型有9 199人,占24.4%;保守型有16 625人,占44.1%。從車輛行駛數(shù)據(jù)提取駕駛?cè)孙L(fēng)格多維指標(biāo)進(jìn)行駕駛風(fēng)格聚類分析,將多維屬性投射在二維上,橫軸為車速平均值,縱軸為車速標(biāo)準(zhǔn)差。圖7(a)展示了從駕駛?cè)说鸟{駛風(fēng)格分布。從圖7(a)中可以看出,激進(jìn)型駕駛?cè)说钠骄囁倨螅囁贅?biāo)準(zhǔn)差較大(即車速分布離散程度較大)。保守型駕駛?cè)似毡檐囁倨颓臆囁俜植驾^為集中。激進(jìn)型駕駛?cè)苏急纫琅f不少,交管部門可對(duì)這些駕駛?cè)说鸟{駛狀態(tài)進(jìn)行跟蹤記錄,對(duì)該類駕駛?cè)硕嗉咏逃?/p> 依據(jù)該時(shí)間段內(nèi)的車輛行駛數(shù)據(jù)對(duì)駕駛?cè)说鸟{駛技能進(jìn)行回歸分析后,得到駕駛技能回歸直線(即駕駛?cè)巳后w的平均駕駛技能水平),如圖7(b)所示。其中縱截距為-0.505,回歸直線斜率為0.417,即得到回歸直線為y=0.417x-0.505。其中:回歸直線上方的三角形(△)代表駕駛技能生疏,有10 895人,占比28.9%;回歸直線下方的圓形(○)代表駕駛技能熟練,有26 804人,占比71.1%。如圖7(b)所示:在直線下方的部分的駕駛?cè)嗽谛熊囘^程中車輛的加速與減速相對(duì)比較流暢,加、減速的幅度小,反映駕駛?cè)藢?duì)車輛的控制能力較好;而直線上方部分的駕駛?cè)思铀俣茸兓世鄯e值比較大,反映出駕駛?cè)祟l繁加、減速,駕駛技能相對(duì)生疏。 圖7 某時(shí)段的駕駛?cè)诵袨榉治鼋Y(jié)果 本研究中采集了某客運(yùn)公司駕駛員的行車數(shù)據(jù),將其作為本文研究的一個(gè)群體,并展示了駕駛行為類別結(jié)果。將駕駛風(fēng)格和駕駛技能進(jìn)行組合,可查看無錫某企業(yè)總體的駕駛行為類型分布,得知該段時(shí)間內(nèi)車輛營(yíng)運(yùn)企業(yè)總體的駕駛行為類型分布情況,查看各個(gè)類型人數(shù)所占比例。如圖7(c)所示,總?cè)藬?shù)為154人,各類駕駛?cè)税茨鏁r(shí)針順序依次是:保守熟練型70人占45.6%、激進(jìn)熟練型35人占22.8%、適中生疏型20人占12.9%、激進(jìn)生疏型16人占10.6%、保守生疏型10人占6.3%、適中熟練型3人占1.8%。公司和交管部門應(yīng)對(duì)激進(jìn)和生疏型駕駛?cè)酥攸c(diǎn)關(guān)注、多加教育。 本文根據(jù)影響車輛行駛的駕駛行為特征,提出了駕駛?cè)诵袨樽V的各項(xiàng)特征指標(biāo)和評(píng)價(jià)指標(biāo)。利用車聯(lián)網(wǎng)監(jiān)控平臺(tái)采集真實(shí)的車輛行駛數(shù)據(jù),并根據(jù)剔除規(guī)則對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。對(duì)完成提煉和預(yù)處理后的車輛行駛數(shù)據(jù)進(jìn)行分析,采用聚類算法分析駕駛?cè)说鸟{駛風(fēng)格,運(yùn)用回歸學(xué)習(xí)分析駕駛?cè)说鸟{駛技能。 本文從駕駛?cè)诵袨樽V體系架構(gòu)到實(shí)際需求分析,進(jìn)行了駕駛?cè)诵袨樽V分析工具的研發(fā);但研究仍存在以下不足之處:首先本文當(dāng)前自主建立的車輛監(jiān)控、數(shù)據(jù)采集平臺(tái)只能在局部范圍內(nèi)進(jìn)行駕駛行為分析;其次,交通系統(tǒng)主要由人、路、環(huán)境這三個(gè)要素構(gòu)成,雖然人在其中占據(jù)核心地位,但不可否認(rèn)路和環(huán)境對(duì)駕駛?cè)说鸟{駛行為也具有一定程度的影響,目前采集的數(shù)據(jù)信息有限,沒有進(jìn)行駕駛?cè)诵睦淼臋z測(cè),路段的檢測(cè)以及車外周邊環(huán)境信息的采集,綜合考慮外部環(huán)境對(duì)駕駛?cè)说挠绊懀梢愿?、更客觀分析駕駛?cè)笋{駛行為狀態(tài)。 總體而言,本文基于車輛行駛數(shù)據(jù),完善了駕駛?cè)诵袨樽V體系結(jié)構(gòu);提出了駕駛?cè)诵袨榉治鏊惴ǎ邪l(fā)出了駕駛?cè)诵袨樽V分析工具,為營(yíng)運(yùn)客車的駕駛?cè)笋{駛行為的定量分析提供了更為精確、有效的方案,對(duì)交管部門規(guī)范駕駛?cè)笋{駛行為、提高道路通行安全指數(shù)、制定合理的交通安全管理策略具有指導(dǎo)意義。3.2 駕駛技能分析
4 實(shí)驗(yàn)分析與結(jié)果
4.1 數(shù)據(jù)采集
4.2 數(shù)據(jù)提煉預(yù)處理方案及其實(shí)現(xiàn)
4.3 聚類算法效果對(duì)比
4.4 駕駛行為分析結(jié)果展示
5 結(jié)語