李 捷,李 韜,徐大林
(江蘇自動(dòng)化研究所,江蘇連云港 222061)
車(chē)輛變道是駕駛員的基本行為,當(dāng)車(chē)輛行駛在多車(chē)道道路上,車(chē)輛往往會(huì)因?yàn)椴煌瑒?dòng)機(jī)變道至其他車(chē)道。變道模型是微觀交通仿真中重要的模塊,用于描述車(chē)輛根據(jù)周?chē)煌ōh(huán)境變道至其他車(chē)道的行為。車(chē)輛變道行為會(huì)嚴(yán)重影響交通的暢通與安全,進(jìn)而影響交通流量,車(chē)輛速度等,影響交通仿真的真實(shí)性和有效性,因此如何在交通仿真中模擬出更加真實(shí)的變道行為成為研究的熱點(diǎn)。
變道行為是一個(gè)非常復(fù)雜的過(guò)程,駕駛員在變道過(guò)程需要考慮大量的因素如道路情況、周?chē)?chē)輛的相對(duì)速度與間距,然后制定變道決策。鄒智軍[1]、王崇輪[2]、陳晶[3]根據(jù)駕駛員思維對(duì)變道行為進(jìn)行了建模。
這些模型主要運(yùn)用車(chē)輛運(yùn)動(dòng)學(xué)建立運(yùn)動(dòng)方程,根據(jù)安全間距做出變道決策。然而,由于這些模型中考慮的變道因素相互作用關(guān)系十分復(fù)雜,此類(lèi)模型很難精確捕捉到駕駛員在決策過(guò)程潛在的決策模式和考慮的影響因素。
進(jìn)入21世紀(jì)以來(lái),機(jī)器學(xué)習(xí)受到了越來(lái)越多的關(guān)注并且被廣泛應(yīng)用于數(shù)據(jù)分析中。機(jī)器學(xué)習(xí)是一種數(shù)據(jù)驅(qū)動(dòng)的方法,通過(guò)從數(shù)據(jù)或以往的經(jīng)驗(yàn)中學(xué)習(xí)給定的任務(wù)。由于機(jī)器學(xué)習(xí)能夠挖掘出數(shù)據(jù)中各變量之間的相互關(guān)系,因此有人將機(jī)器學(xué)習(xí)用于變道模型中。邱小平[4]提出了基于貝葉斯網(wǎng)絡(luò)的車(chē)輛變道模型,張疊[5]針對(duì)車(chē)輛變道行為受交通環(huán)境影響較大而難以識(shí)別和預(yù)測(cè)的問(wèn)題,基于支持向量機(jī)提出了變道決策模型并使用網(wǎng)格搜索求解模型最優(yōu)參數(shù)。Yi Hou[6]通過(guò)投票規(guī)則組合決策樹(shù)和貝葉斯分類(lèi)器變道結(jié)果,減少了錯(cuò)誤變道的概率。Huikun Bi[7]使用隨機(jī)森林作為建模方法,考慮了相鄰車(chē)道中多個(gè)間距,使得提出的模型更加符合實(shí)際。李青林[8]基于駕駛員操縱特性和交通環(huán)境狀態(tài)分析,引入二元Logistic模型,提出了一種有效預(yù)測(cè)變道行為的方法,能夠排除變道過(guò)程中存在的交通安全隱患。
然而,這些模型都只考慮了車(chē)輛之間的相對(duì)距離、相對(duì)速度等因素。未考慮變道緊急程度對(duì)于變道決策的影響并且模型精度較低。但是在不同緊急程度下,駕駛員做出的變道決策往往不同。如車(chē)輛到路口的距離越近,離目標(biāo)車(chē)道越遠(yuǎn),此時(shí)變道越緊急,即使車(chē)輛間的相對(duì)距離較小,駕駛員也會(huì)選擇強(qiáng)行變道。當(dāng)變道緊急程度較低時(shí),駕駛員會(huì)選擇更加安全的距離進(jìn)行變道。因此緊急程度對(duì)變道決策過(guò)程十分重要。因此,本研究提出了考慮緊急程度的機(jī)器學(xué)習(xí)變道模型。首先,使用聚類(lèi)算法劃分變道緊急程度,然后將變道決策模型建模為分類(lèi)問(wèn)題,利用機(jī)器學(xué)習(xí)算法梯度提升決策樹(shù)訓(xùn)練出不同緊急程度下的變道模型。最后將提出的變道模型與常用的機(jī)器學(xué)習(xí)變道模型進(jìn)行對(duì)比,驗(yàn)證了提出的模型的有效性,并基于決策樹(shù)的特征重要性分析了變道決策過(guò)程中影響因素,驗(yàn)證了緊急程度在變道決策的重要性。
機(jī)器學(xué)習(xí)是一種數(shù)據(jù)驅(qū)動(dòng)的方法,根據(jù)訓(xùn)練集學(xué)習(xí)到數(shù)據(jù)之間的相互關(guān)系,因此數(shù)據(jù)集對(duì)于機(jī)器學(xué)習(xí)至關(guān)重要。本研究采用次時(shí)代仿真(Next Generation Simulation, NGSIM)數(shù)據(jù)集訓(xùn)練變道模型。NGSIM數(shù)據(jù)集由美國(guó)聯(lián)邦公路局收集,目的是為了支持微觀交通仿真建模。NGSIM數(shù)據(jù)集包含通過(guò)攝像機(jī)收集的詳細(xì)車(chē)輛軌跡數(shù)據(jù)。數(shù)據(jù)采集頻率為10 Hz,包含車(chē)輛的速度、加速度、所處車(chē)道信息、目的地和起始地等信息。從上述數(shù)據(jù)集中共提取了2040個(gè)直行樣本、990個(gè)左轉(zhuǎn)樣本、970個(gè)右轉(zhuǎn)樣本。80%的樣本用于模型訓(xùn)練,另外20%的樣本用于模型測(cè)試。所研究區(qū)域如圖1所示。
圖1 研究區(qū)域示意圖
梯度提升決策樹(shù)(Gradient boosting decision tree, GBDT[9])是一種用于回歸、分類(lèi)和排序任務(wù)的機(jī)器學(xué)習(xí)技術(shù),將多個(gè)弱學(xué)習(xí)器(分類(lèi)回歸樹(shù),CART[10])組合成強(qiáng)學(xué)習(xí)器,迭代的學(xué)習(xí)弱學(xué)習(xí)器從而減少真實(shí)值與預(yù)測(cè)值間的誤差。
一個(gè)數(shù)據(jù)集中每個(gè)樣本具有多維特征,決策樹(shù)通過(guò)構(gòu)建一個(gè)樹(shù)形結(jié)構(gòu)實(shí)現(xiàn)對(duì)數(shù)據(jù)的劃分,其每個(gè)非葉節(jié)點(diǎn)表示一個(gè)特征屬性上的測(cè)試,每個(gè)分支代表這個(gè)特征屬性上在某個(gè)值域上的數(shù)據(jù)劃分,類(lèi)似if-then的結(jié)構(gòu),而每個(gè)葉節(jié)點(diǎn)保存劃分后數(shù)據(jù)的類(lèi)別或預(yù)測(cè)值;決策樹(shù)迭代的選擇不純度最小或信息增益最高的特征屬性來(lái)構(gòu)建非葉節(jié)點(diǎn),直至不純度或信息增益為0。
分類(lèi)回歸樹(shù)(Classification and regression tree, CART)是決策樹(shù)的一種,選用Gini指數(shù)描述不純度來(lái)構(gòu)建節(jié)點(diǎn)。分類(lèi)過(guò)程中,假設(shè)有K個(gè)類(lèi)別,樣本點(diǎn)屬于第K個(gè)類(lèi)的概率為pk,則概率分布的Gini指數(shù)定義為:
(1)
根據(jù)Gini指數(shù)定義,可以得到樣本集合D的Gini指數(shù),其中Ck表示數(shù)據(jù)集D中屬于第k類(lèi)的樣本子集:
(2)
如果數(shù)據(jù)集D根據(jù)特征A上進(jìn)行分割,得到D1,D2兩部分后,那么在特征A下集合D的Gini指數(shù)如下所示:
(3)
分類(lèi)回歸樹(shù)的構(gòu)建,對(duì)于特征A循環(huán)計(jì)算不同屬性值下劃分后Gini指數(shù),選取其中的最小值,對(duì)于所有數(shù)據(jù)特征計(jì)算最小的Gini指數(shù),并選取當(dāng)前特征作為本次節(jié)點(diǎn)。循環(huán)迭代,直至樹(shù)的深度達(dá)到所設(shè)定的最大深度或Gini指數(shù)為0。
梯度提升是機(jī)器學(xué)習(xí)中提升方法的一種,將多個(gè)弱學(xué)習(xí)器的預(yù)測(cè)結(jié)果加權(quán)得到最終預(yù)測(cè)結(jié)果Fm(x),每個(gè)決策樹(shù)hm(x)是對(duì)上一階段的殘差y-Fm-1(x)的擬合,逐漸減少模型預(yù)測(cè)結(jié)果與真實(shí)值的誤差。Friedman提出使用損失函數(shù)的負(fù)梯度作為殘差的近似值,減小了決策樹(shù)優(yōu)化的難度。
梯度提升決策樹(shù)算法的步驟如下:
1)計(jì)算負(fù)梯度作為殘差:
(4)
2)使用決策樹(shù)hm(x)擬合rim;
3)計(jì)算加權(quán)系數(shù)使得損失函數(shù)極小化:
(5)
4)更新模型:
Fm=Fm-1+αm·hm
(6)
變道緊急程度定義:當(dāng)車(chē)輛所處的車(chē)道不能繼續(xù)行駛,必須變道至其他車(chē)道時(shí),留給車(chē)輛的變道時(shí)間由當(dāng)前車(chē)輛到路口的距離(D)、與目標(biāo)車(chē)道的車(chē)道數(shù)差(L)、車(chē)輛速度(V)與加速度(ACC)四個(gè)變量決定。緊急程度由變道時(shí)間決定,也由上述四個(gè)變量決定,當(dāng)車(chē)輛離路口的距離越短,與目標(biāo)車(chē)道數(shù)差越大;速度,加速度越大,變道越緊急。t時(shí)刻的變道緊急程度如下表示:
Et=(Vt,ACCt,Dt,Lt)
(7)
通常,變道越緊急時(shí),駕駛員往往會(huì)采取一些冒險(xiǎn)的措施,車(chē)輛間距不足以變道也會(huì)強(qiáng)制變道,當(dāng)變道緊急程度較低時(shí),駕駛員會(huì)選取更加安全的時(shí)機(jī)進(jìn)行變道。因此,在變道決策模型中考慮變道緊急程度是十分有必要的。
K-means[11]算法屬于無(wú)監(jiān)督學(xué)習(xí),根據(jù)輸入特征向量,將輸入數(shù)據(jù)劃分到K個(gè)類(lèi)別中。
本研究將緊急程度E作為聚類(lèi)算法的輸入特征向量,設(shè)置類(lèi)別個(gè)數(shù)K=3,分別表示一般緊急、中等緊急和特別緊急,將數(shù)據(jù)集根據(jù)緊急程度劃分三個(gè)子集。
K-means算法描述:已知觀測(cè)集(x1,x2,…,xn),k-means算法要把這n個(gè)觀測(cè)值劃分到k個(gè)集合中,使得組內(nèi)平方和最小。即:
(8)
表1為劃分結(jié)果,中等緊急程度樣本數(shù)量最多,占44%,其次是一般緊急,然后是特別緊急。
表1 基于變道緊急程度的數(shù)據(jù)集劃分
變道場(chǎng)景描述:如圖2所示,變道場(chǎng)景通??捎萌?chē)道場(chǎng)景描述,目標(biāo)車(chē)輛Target首先評(píng)估周?chē)沫h(huán)境,然后執(zhí)行變道或者保持直行。駕駛員根據(jù)與周?chē)?chē)輛的相對(duì)速度和相對(duì)距離來(lái)判斷變道條件是否滿足。
t時(shí)刻,變道場(chǎng)景特征向量St定義如下:
(9)
(10)
St=(ΔVt,Gt,Et)
(11)
其中,ΔV表示當(dāng)前車(chē)輛與周?chē)?chē)輛的速度差,G為當(dāng)前車(chē)輛與周?chē)?chē)輛的間距差,E為上節(jié)中提出的變道緊急程度。
變道決策模型可以表示為機(jī)器學(xué)習(xí)中的分類(lèi)問(wèn)題:輸入表示車(chē)輛所處交通狀態(tài)的特征向量S,分類(lèi)器輸出變道決策結(jié)果Y?(left,straight,right),變道決策結(jié)果下文簡(jiǎn)稱(chēng)l,s,r。
變道決策模型:根據(jù)已劃分的數(shù)據(jù)集,本研究分別訓(xùn)練了在不同緊急程度下的GBDT模型,試圖描述不同緊急程度下駕駛員決策過(guò)程。變道決策模型工作流程如圖3所示。首先根據(jù)變道緊急程度E特征向量,使用聚類(lèi)算法對(duì)車(chē)輛變道緊急程度進(jìn)行劃分,根據(jù)不同的緊急程度選用相應(yīng)的GBDT變道決策模型,GBDT變道決策模型根據(jù)車(chē)輛所處的交通場(chǎng)景特征向量S進(jìn)行決策推斷,預(yù)測(cè)是否變道。
圖3 考慮緊急程度的變道模型
真正例(True Positive,TP):真實(shí)類(lèi)別為正例,預(yù)測(cè)類(lèi)別為正例。
假正例(False Positive,FP):真實(shí)類(lèi)別為負(fù)例,預(yù)測(cè)類(lèi)別為正例。
假負(fù)例(False Negative,FN):真實(shí)類(lèi)別為正例,預(yù)測(cè)類(lèi)別為負(fù)例。
真負(fù)例(True Negative,TN):真實(shí)類(lèi)別為負(fù)例,預(yù)測(cè)類(lèi)別為負(fù)例。
定義精度(Precision,P)、召回率(Recall,R)、準(zhǔn)確率(Accuracy,A)如下:
(12)
(13)
(14)
精度表明預(yù)測(cè)的某類(lèi)樣本中,有多少是被正確預(yù)測(cè)的。召回率表示有多少正確的樣本被預(yù)測(cè)出來(lái)。準(zhǔn)確率表示對(duì)于給定的測(cè)試集,分類(lèi)正確的樣本數(shù)與總樣本數(shù)之比。
本研究對(duì)比了機(jī)器學(xué)習(xí)中常用的幾種分類(lèi)方法(GBDT, SVM, KNN)。如表2中所示,P、R、A分別表示精度、召回率、準(zhǔn)確率,P(s)表示類(lèi)別為直行的精度。本研究提出的考慮緊急程度的變道模型準(zhǔn)確率達(dá)到了81%,較直接使用GBDT的變道模型提升了2%。同時(shí),本研究所提模型在三個(gè)類(lèi)別的精度都是最高的,分別為83%,80%,79%,表明了緊急程度在變道決策過(guò)程中十分重要。
表2 變道決策模型性能對(duì)比
特征重要度分析常用于機(jī)器學(xué)習(xí)中的特征工程中,常被用于減少特征數(shù)量、降維,使模型泛化能力更強(qiáng),減少過(guò)擬合,增強(qiáng)對(duì)特征和特征值之間的理解。
本研究中,使用特征重要度分析變道決策中交通場(chǎng)景的影響,并分析緊急程度的重要性。
特征j的全局重要度VIMj通過(guò)特征j在單棵樹(shù)中的重要度VIMij的平均值來(lái)衡量:
(15)
特征j在決策樹(shù)i上的特征重要度使用Gini指數(shù)衡量:
(16)
L為決策樹(shù)i包含特征j的非葉節(jié)點(diǎn)個(gè)數(shù)。
變道場(chǎng)景特征變量在變道決策過(guò)程中重要性如圖4所示。影響變道決策最重要的三個(gè)因素為車(chē)輛速度、到路口的距離、以及與前車(chē)的速度差。本研究引入的變道緊急程度E四個(gè)變量的重要程度排名分別為1,2,5,7,同樣說(shuō)明了變道緊急程度在決策過(guò)程中十分重要。
圖4 變道決策特征重要度分析
變道模型在交通仿真中十分重要,對(duì)其研究具有重要的意義。隨著人工智能的發(fā)展,機(jī)器學(xué)習(xí)成為一種重要的建模工具,本研究考慮了緊急程度對(duì)變道決策模型的影響,提出了基于K-means和GBDT的變道決策模型,實(shí)驗(yàn)結(jié)果表明,本研究所提模型比GBDT、SVM和KNN算法性能好,較GBDT模型提高了2%的精度。本研究最后分析了變道決策中影響因素,結(jié)果表明緊急程度對(duì)變道決策十分重要。
考慮緊急程度的機(jī)器學(xué)習(xí)變道決策模型,擺脫了傳統(tǒng)的基于駕駛員思維建模方式的缺點(diǎn),以數(shù)據(jù)驅(qū)動(dòng)為導(dǎo)向,能夠挖掘出更符合實(shí)際的變道模式,增加變道預(yù)測(cè)的精確度,能夠使得交通仿真更加真實(shí)。在后續(xù)研究中,將駕駛員屬性與車(chē)輛屬性加入模型會(huì)進(jìn)一步提升模型精度,同時(shí),機(jī)器學(xué)習(xí)方法發(fā)展迅速,將最新的算法用于變道模型將是后續(xù)研究的重要內(nèi)容。