秦勝君,李 婷
廣西科技大學(xué) 經(jīng)濟與管理學(xué)院,廣西 柳州545006
近年來,監(jiān)控攝像機被大量應(yīng)用于交通監(jiān)控中,各個交叉路口或主要交通路段都安裝了監(jiān)控攝像機設(shè)備,設(shè)備的不間斷運行可收集海量交通圖像數(shù)據(jù)。通過使用圖像處理、分析等有關(guān)信息技術(shù),可以提取出車輛的行駛軌跡、速度、加速度等微觀層面數(shù)據(jù)。將數(shù)據(jù)用于意圖檢測[1-2]、軌跡預(yù)測[3-4]、智能駕駛[5]、駕駛行為分析[6]、安全風(fēng)險檢測等研究領(lǐng)域,可助力于智能交通系統(tǒng),從而提高交通安全性,降低交通事故發(fā)生率[7]。
軌跡預(yù)測研究主要是根據(jù)行駛車輛的當(dāng)前位置信息、歷史行駛軌跡和道路環(huán)境等信息動態(tài)預(yù)測出行駛車輛的未來軌跡。車輛軌跡預(yù)測具有廣闊的應(yīng)用前景。譬如,可以根據(jù)交通監(jiān)控系統(tǒng)提前檢測和預(yù)判車輛的行駛軌跡,過往車輛可以根據(jù)其他車輛的情況選擇最佳路線,可緩解交通壓力;有關(guān)交通部門可以預(yù)知未來的交通狀況,合理進行道路規(guī)劃或者提前交通分流。另外,如果可以提前預(yù)知其他車輛的軌跡,及時提醒車輛在過路口時注意開車路線,防止發(fā)生車輛碰撞等交通事故[8]。由此可見,軌跡預(yù)測的研究具有較高的應(yīng)用價值,是智慧交通的重要研究方向。
影響車輛行駛軌跡主要有以下三個因素:(1)駕駛員行為特征。駕駛員由于駕駛經(jīng)驗、性格等特征不同,駕駛車輛的軌跡會出現(xiàn)不同,急躁的駕駛員可能會頻繁超車,車輛軌跡較為彎曲,性格穩(wěn)定的駕駛員的行駛軌跡則相對平緩。同一個駕駛員在不同時刻的心情不同,也將會影響行駛軌跡。(2)車輛自身情況。車輛所處的位置、速度和車況等特征都有可能影響車輛將要行駛的軌跡。(3)車輛的外界環(huán)境。外界環(huán)境包括路況、周圍車輛行駛情況等。周圍車輛對當(dāng)前車輛的行駛軌跡會有一定的影響,比如超車、行駛速度等都會受到附近車輛的制約。本文主要考慮車輛自身情況和外界環(huán)境兩個影響因素,提出Q-LSTM模型預(yù)測車輛的行駛軌跡,其中Q表示強化學(xué)習(xí)中的Q-learning算法,LSTM表示深度學(xué)習(xí)中的長短記憶模型(Long Short Term Memory)。Q-LSTM模型的優(yōu)勢如下:
(1)交互車輛的動態(tài)性。區(qū)域關(guān)聯(lián)車輛會出現(xiàn)交互現(xiàn)象。例如,同一個優(yōu)勢車位可能會引起多車輛的爭奪,如果某車輛爭奪成功,其他車輛會自動避開。但是如果兩車同時爭奪,可能會發(fā)生碰撞。由此可見,道路行駛關(guān)聯(lián)車輛會發(fā)生交互行為,道路上車輛都會主動尋找速度加快的占位。本文使用Q-learning對關(guān)聯(lián)車輛之間的交互進行建模,在場景下尋找最優(yōu)路徑,符合駕駛員的行為特征,因此預(yù)測車輛行駛軌跡的擴展性更強。
(2)時空數(shù)據(jù)的融合性。行駛車輛隨著時間的不同處于不同的地理位置,因此軌跡數(shù)據(jù)具有時間和空間二維特性。本文提出的模型中LSTM可以捕獲軌跡數(shù)據(jù)的時間特性,而Q-learning則獲取空間變換特性,QLSTM模型有效地融合了軌跡數(shù)據(jù)的時空特性,從而提高模型預(yù)測精度。
(3)軌跡預(yù)測的合理性。在軌跡預(yù)測時,除了考慮車輛坐標(biāo)偏移度,還應(yīng)該考慮車輛所在坐標(biāo)的合理性,很多研究沒有考慮車輛長寬,出現(xiàn)預(yù)測坐標(biāo)落于其他車輛車身位置等不合理情況,尤其是在車輛類型混合時更容易發(fā)生,該問題如果頻繁出現(xiàn),則預(yù)測結(jié)果不合理性越高。
近年來,許多專家學(xué)者對軌跡預(yù)測進行了研究,研究的方法一般可分為兩大類:一類是基于模型驅(qū)動的方法,這類方法主要是根據(jù)專家知識建立動力學(xué)或運動學(xué)模型。第二類是基于數(shù)據(jù)驅(qū)動的預(yù)測方法,這類方法本質(zhì)是分析歷史數(shù)據(jù),使用深度學(xué)習(xí)等模型學(xué)習(xí)車輛行駛軌跡特征,從而預(yù)測車輛行駛軌跡?,F(xiàn)將兩類方法的研究現(xiàn)狀闡述如下。
模型驅(qū)動的方法可以使用車輛的移動信息包括行駛速度、時間和角度等構(gòu)造非線性運動函數(shù)預(yù)測移動對象的軌跡[9]。比如,謝楓等[10]建立車輛在坐標(biāo)系中的多項式方程,并以地圖中的車道線曲率作為約束,篩選出最佳的預(yù)測軌跡。車輛移動軌跡除了受動力學(xué)約束,也受到復(fù)雜地形的影響,可以結(jié)合車輛動力學(xué)模型和安全約束條件設(shè)計車輛軌跡跟蹤模型[11]?;谀P万?qū)動的方法適用于短時軌跡預(yù)測,但是在長時域預(yù)測時具有一定的不足。
基于數(shù)據(jù)驅(qū)動的預(yù)測方法根據(jù)使用模型不同,可以分為深度學(xué)習(xí)和非深度學(xué)習(xí)兩大類。
(1)非深度學(xué)習(xí)方法
不少研究者使用馬爾可夫模型、回歸模型、高斯過程等模型對移動軌跡進行預(yù)測。例如,毛鶯池等[12]考慮車輛在路徑選擇時的不確定性,提出了一種補全路徑的基于馬爾科夫鏈的軌跡預(yù)測方法。該方法的優(yōu)勢在于彌補了不確定性歷史數(shù)據(jù)的不完整性。預(yù)測車輛軌跡時,可以利用線性回歸預(yù)測車輛加速度[13],或者使用高斯過程分析軌跡方差[14],再修正車輛軌跡。非深度學(xué)習(xí)方法在進行短時軌跡預(yù)測時可以獲得較好的精度,但是不能捕獲時空數(shù)據(jù)特征,在進行長時軌跡預(yù)測時具有一定局限性。
(2)深度學(xué)習(xí)方法
深度學(xué)習(xí)有關(guān)算法在軌跡預(yù)測的研究領(lǐng)域受到廣泛的關(guān)注。Cheng等[15]提出一種多上下文編碼器網(wǎng)絡(luò)的方法,通過對過去和將來的場景上下文、交互上下文和運動信息進行編碼,使用一組隨機潛在變量捕獲未來模式和變化。Li等[16]將關(guān)系歸納偏差與動態(tài)圖形表示相結(jié)合,提出一種通用的生成神經(jīng)系統(tǒng),以對不同實體進行關(guān)系推理。Jeon等[17]提出SCALE-Net網(wǎng)絡(luò),將邊緣增強圖卷積神經(jīng)網(wǎng)絡(luò)(EGCN)用于車輛間交互嵌入網(wǎng)絡(luò),以解決網(wǎng)絡(luò)中不同數(shù)量車輛問題。季學(xué)武等[18]提出一種基于LSTM的車輛軌跡預(yù)測模型,該模型首先使用Softmax函數(shù)計算出駕駛意圖,再使用LSTM網(wǎng)絡(luò)預(yù)測車輛軌跡。以上研究使用深度學(xué)習(xí)相關(guān)模型對實體關(guān)系推理、隨機數(shù)量車輛軌跡等問題進行了研究,但大多只分析單車輛的行駛軌跡,沒有考慮多車輛的交互過程。
關(guān)于單目標(biāo)的軌跡預(yù)測已經(jīng)有了廣泛研究,不少方法考慮了周圍車輛的影響,但是這些方法大多只關(guān)心單向交互,忽略了雙向交互。也有一些工作使用串聯(lián)或池化操作來混合不同Agent的功能,可是無明確的關(guān)系推理,無法實現(xiàn)混合實體的交互建模。本文中使用時空圖表示車輛所處的場景以及車輛之間的關(guān)系,使用強化學(xué)習(xí)實現(xiàn)車輛之間的動態(tài)交互。
本文提出Q-LSTM模型預(yù)測車輛行駛軌跡,該模型首先應(yīng)用自動編碼器(AutoEncoder)進行數(shù)據(jù)特征壓縮,另一方面由于車輛的數(shù)量隨機,AutoEncoder可以統(tǒng)一特征維度。然后使用LSTM從時間維度預(yù)測車輛的特征,包括速度、角度等,Q-learning則從空間維度預(yù)測車輛的坐標(biāo),Q-learning可以從邏輯關(guān)系角度推理車輛關(guān)系以及空間的變化。Merge模塊可以融合Q-learning和LSTM的預(yù)測結(jié)果,并且進行解碼,從而得到預(yù)測車輛的行駛軌跡。Q-LSTM模型的框架圖見圖1所示。
圖1 LR-LSTM模型的框架圖
本文的目標(biāo)是基于歷史狀態(tài)的多個交互式車輛和上下文信息預(yù)測未來的行駛軌跡,場景中涉及的車輛數(shù)量在不同情況下可能會有所不同。假設(shè)場景中有N輛車,每輛車作為圖中的一個節(jié)點,則場景的節(jié)點特征矩陣可以表示為X,X由位置坐標(biāo)(x,y),速度v、加速度a、車身長L、車身寬W和航向角度θ組成。為了方便表示車輛運動參數(shù),文中使用固定的參數(shù)坐標(biāo),在t時刻,某車輛的y軸方向指向道路方向,x軸垂直于y軸。X矩陣表示如式(1)所示:
圖的鄰接矩陣用H表示,hij表示車輛之間距離,同一車輛的距離為0,否則為車輛之間的歐式距離。
車輛的航向角可以使用坐標(biāo)(x,y)計算出來,計算公式如式(4)所示:
其中,(xt,yt)表示節(jié)點t時刻所在的坐標(biāo)位置,d表示車輛發(fā)生角度變化的時間間隔,由于數(shù)據(jù)集中車輛的平均速度較快,因此取d=3。軌跡預(yù)測的目標(biāo)是根據(jù)歷史數(shù)據(jù)預(yù)測未來軌跡,可以描述如下所示:
式中,Ψ表示歷史軌跡到未來軌跡的映射,s表示歷史軌跡的數(shù)據(jù)是從當(dāng)前t時刻往前s段軌跡,r表示要預(yù)測的未來軌跡是r段。
強化學(xué)習(xí),又稱為增強學(xué)習(xí),主要是描述智能體(Agent)在與環(huán)境交互過程中,通過給予獎勵或懲罰的策略,不斷嘗試不同的行動,從而達到利益最大化或?qū)崿F(xiàn)特定的目標(biāo)[19]。
Q-learning算法是強化學(xué)習(xí)中具有代表性的一種算法。在Q-learning算法中,首先初始化行動價值函數(shù)Q(s,a),Agent根據(jù)策略選擇行動a,執(zhí)行行動之后獲得即時獎勵r,進入新狀態(tài)s+1,更新Q(s,a)函數(shù),重復(fù)上述過程,直到Agent達到目標(biāo)狀態(tài)。行為駕駛函數(shù)Q的更新方程如式(6)所示[20]:
其中,s和a分別表示當(dāng)前動作和狀態(tài),s+1和a+1表示下一狀態(tài)和動作,r為即時獎勵。μ是學(xué)習(xí)率,表示是否保留之前訓(xùn)練的結(jié)果。γ為折扣因子,γ越大則越重視以往經(jīng)驗,越小則重視眼前利益,0≤μ≤1,0≤γ≤1,Q表示在狀態(tài)s下采取動作a能夠獲得的期望最大收益。
在車輛行駛軌跡預(yù)測中,將行駛車輛視為一個智能Agent,則軌跡問題可以轉(zhuǎn)換為Agent如何尋找路徑問題。一般而言,在道路上行駛的車輛可以有三類動作:前進、向左、向右,如圖2所示。
圖2 車輛行動
假設(shè)車輛在采用動作a之后,速度得以提高則Q值為+2,速度不變Q值為+1,速度降低Q值為?1,不能到達的節(jié)點Q值為0,如果路段前方為目標(biāo)停車點,比如紅綠燈等,則速度降低Q值設(shè)為+1。Q表是根據(jù)車輛行駛情況和路況動態(tài)生成的。假設(shè)每個網(wǎng)格為一個節(jié)點,在t時刻車輛行駛情況,則對應(yīng)的Q表如圖3所示。
圖3 生成Q表
圖3中Q表省略了7~11節(jié)點,其中4、5、6號節(jié)點到7、8、9號節(jié)點的Q值分如圖4所示。
圖4 Q表補充
車輛駛行過程中,所有的車輛一起發(fā)生變化,因此不能只研究某車輛的軌跡,而應(yīng)該考慮道路上目標(biāo)區(qū)域所有車輛的軌跡變化,因此在進行動作選擇時,也應(yīng)分析鄰居車輛的行動選擇。另外,車輛在行駛時會主動尋找較優(yōu)的行駛路線,也就是偏向能提升速度的動作,換而言之,可以加快速度的動作具有較高的概率被選中。Q-learning算法中行動策略可以選擇ε貪婪算法,網(wǎng)絡(luò)中Agent都會選擇自己的動作,需要生成n個隨機數(shù),其中n為網(wǎng)格數(shù)。本文對ε貪婪算法進行了改進,步驟如下:
(1)假設(shè)wi為網(wǎng)格節(jié)點i的權(quán)重,權(quán)重wi初始化為1,qi為Agenti的動作策略中最大的Q值。
(2)令εi=wi/(C-qi),產(chǎn)生隨機數(shù)ri,如果ri<εi,則選擇Q值最大的動作去執(zhí)行,否則選擇動作。式中C表示大于Q表中最大值的某個實數(shù),文中取C=3。
(3)如果Agent發(fā)生碰撞,則發(fā)生碰撞的Agent重新選擇動作執(zhí)行。
改進之后ε貪婪算法仍然優(yōu)先選擇Q值較大的動作,較小的概率選擇其他動作,wi權(quán)重參數(shù)將會和LSTM一起訓(xùn)練,調(diào)整wi目的是為了和LSTM預(yù)測的結(jié)果融合。
長短時記憶模型LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種改進模型,可以解決RNN在處理較長輸入序列時梯度消失或梯度爆炸等問題。LSTM具有記憶功能,并且可以選擇記憶或放棄信息,其主要有輸入門、遺忘門和輸出門三個部件,分別用來控制輸入信息、是否遺忘當(dāng)前信息和是否輸出當(dāng)前信息。LSTM結(jié)構(gòu)圖如圖5所示。
圖5 LSTM框架
LSTM的內(nèi)部計算流程如下:
(1)計算遺忘門
ht-1表示在t-1時刻的輸出值,xt表示在t時刻的輸入值,Wf是需要訓(xùn)練參數(shù),bf為偏置項,σ是sigmoid函數(shù),其公式如式(8):
(2)計算輸入門
(3)計算狀態(tài)單元
(4)計算輸出門
以上為LSTM的前向計算流程,其訓(xùn)練目標(biāo)是找到W和b的最優(yōu)解,使其預(yù)測結(jié)果接近真實結(jié)果[21]。LSTM的訓(xùn)練算法是反向傳播,損失函數(shù)如式(14):
式中,θ表示LSTM中的參數(shù)W和b,z(t)表示t時刻的預(yù)測軌跡,y表示歷史軌跡特征向量。除此之外,軌跡預(yù)測的時空特性要融合,即要求LSTM和Q-learning的預(yù)測結(jié)果盡可能相近,因此損失函數(shù)可以定義為:
JS表示JS散度(Jensen-Shannon divergence),P和Q分別是LSTM和Q-learning的預(yù)測軌跡的概率。結(jié)合J1和J2可以將最終損失函數(shù)定義為:
β表示J2在總損失函數(shù)中所占的比重,取值在0到1之間。
本文使用德國汽車工程研究生發(fā)布的HighD數(shù)據(jù)集[22],下載網(wǎng)址為https://www.highd-dataset.com/,該數(shù)據(jù)集通過使用無人機以鳥瞰視角測量每輛車的位置和運動情況,可以獲取準(zhǔn)確的車輛縱向和橫向尺寸信息。為了應(yīng)對場景描述的復(fù)雜性,數(shù)據(jù)集從道路信息、交通路牌、道路臨時表更信息、可移動物體、環(huán)境信息等五個水平來衡量駕駛場景。HighD數(shù)據(jù)集的軌跡數(shù)據(jù)如圖6所示。
圖6 HighD數(shù)據(jù)集
HighD數(shù)據(jù)集包括來自6個地點的16.5 h測量值和110 000車輛,車輛行駛的總里程為45 000 km,包括5 600條完整的變道記錄,定位誤差通常小于10 cm,相較于以往的數(shù)據(jù)集,HighD數(shù)據(jù)集就有較高的準(zhǔn)確度。HighD數(shù)據(jù)集的相關(guān)統(tǒng)計信息如表1所示。
表1 HighD數(shù)據(jù)集
與其他數(shù)據(jù)相比,HighD數(shù)據(jù)集中貨車占據(jù)了較大的比例,比例分布如圖7所示,其中頻率是指貨車比例在選取的序列中出現(xiàn)的次數(shù)比例。
圖7 貨車比例分布
采用滑動時窗的方法提取軌跡序列,時間步長設(shè)置為1 s,從每個時間點t開始,t+1為下一個時間節(jié)點,序列長度為14。車輛如果在下一個時間點出現(xiàn)在另外一條車道,則表明該車輛進行了變道。數(shù)據(jù)集記錄了400 m的車輛行駛數(shù)據(jù),文中以50 m作為一個觀察區(qū)域,用于分析車輛的交互情況。在數(shù)據(jù)集中隨機選取180 000條序列,其中80%作為訓(xùn)練集,20%作為測試集。
本文提出的Q-LSTM模型能夠捕獲較為復(fù)雜情況下的整個交互道路狀況,有助于提高車輛行駛軌跡的預(yù)測精度。另外,Q-LSTM模型可以解釋車輛在交互過程中推理關(guān)系,彌補深度神經(jīng)網(wǎng)絡(luò)在預(yù)測時不容易解釋的缺陷。
實驗首先分析了在不同車流量的場景下車輛選擇動作的性能指標(biāo)。車輛在行駛過程中可選擇的動作包括向左轉(zhuǎn)、向右轉(zhuǎn)和直行。該實驗的性能分析使用召回率(Recall)、精準(zhǔn)率(Precious)兩個評價指標(biāo)。Recall表示正類預(yù)測為正類與所有真正的正類的比例;Precious表示將正類預(yù)測為正類與所有預(yù)測為正類的比例。假設(shè)車輛直行為一類,左轉(zhuǎn)和右轉(zhuǎn)作為另外一類,兩類分開考慮Precious和Recall。實驗1的結(jié)果如圖8所示。
圖8 車輛動作選擇性能分析
圖8中,假設(shè)車輛直行設(shè)為正類,其他為負類,則精準(zhǔn)率和召回率的曲線呈現(xiàn)凹形,道路上車輛少和較多預(yù)測精度較高,精準(zhǔn)度和召回率最高達到93%,但是在車輛數(shù)量8~12時,精準(zhǔn)度降低,最低是88.5%。主要是由于車輛少,車輛都可以選擇直行可以保持最大速度,不需要換道。車輛較多時,密度較大,車輛換道的機會較少,因此直行較多。但是在車輛數(shù)量10左右,車輛變道的可能性較大,預(yù)測精度略有下降。假設(shè)換道為正類,直行為負類,預(yù)測時精準(zhǔn)度和召回率的曲線呈直線型緩慢上升,精準(zhǔn)度最高91.3%,最低是88.3%,召回率曲線比精準(zhǔn)度稍低。路面上車輛較少時,直行或者是換道都能獲取加速度,但是在這種情況下車輛一般會優(yōu)先選擇直行,所以預(yù)測精度稍低,隨著車輛數(shù)量的不斷增加,車輛換道的可選擇性越來越小,因此預(yù)測精準(zhǔn)率逐漸提高。
為了體現(xiàn)Q-LSTM模型的優(yōu)勢,本文將模型與其他幾個類似的軌跡預(yù)測模型進行性能比較,比較的模型介紹如下:
(1)Q-LSTM模型,結(jié)合Q-learning和LSTM模型。
(2)Social-WaGDAT模型[16],將關(guān)系歸納偏差與動態(tài)圖表示相結(jié)合,用于多主體軌跡預(yù)測的通用生成神經(jīng)系統(tǒng)。
(3)SCALE-Net模型[17],SCALE-Net將邊緣增強圖卷積神經(jīng)網(wǎng)絡(luò)(EGCN)用于車輛間交互嵌入網(wǎng)絡(luò)。
(4)CNN-LSTM模型[23],在網(wǎng)格地圖的基礎(chǔ)上,基于CNN的場景嵌入實現(xiàn)完全可擴展的預(yù)測網(wǎng)絡(luò)。
本部分實驗主要使用HighD數(shù)據(jù)集,根據(jù)不同的預(yù)測期和不同的貨車比例進行模型的性能比較。性能比較指標(biāo)是使用預(yù)測軌跡和真實軌跡的均方根誤差(RMSE),RMSE計算方式如式(17)所示:
式中,n表示視線區(qū)域中某種類型車輛的數(shù)量,r表示預(yù)測時長或預(yù)測期,disti為車輛i的實際坐標(biāo)與預(yù)測坐標(biāo)的偏差,計算方式如公式(3)類似。
該部分實驗分別考慮了視線區(qū)域內(nèi)小車和卡車在不同預(yù)測時長的模型性能分析,實驗重復(fù)10次取平均值,運行結(jié)果分別如圖9和圖10所示。
圖9 不同預(yù)測期的RMSE比較(小車)
圖10 不同預(yù)測期的RMSE比較(卡車)
由圖9可知,在預(yù)測期為3之前,各種模型的RMSE相差不大,但是隨著預(yù)測期逐漸增加,CNN-LSTM模型的RMSE增長最快,高于其他模型,主要CNN-LSTM模型關(guān)注軌跡特征的提取,但是在車輛交互上考慮不足。SCALE-Net模型的RMSE比CNN-LSTM略低,但是也高于另外兩個模型,SCALE-Net模型研究重點是如何解決道路上車輛數(shù)量隨機變化所帶來擴展性問題,對于長時期軌跡預(yù)測弱于Q-LSTM和Social-WaGDAT模型。Q-LSTM和Social-WaGDAT模型都關(guān)注車輛的交互,預(yù)測期短時,Q-LSTM的RMSE值稍微高于Social-WaGDAT模型,預(yù)測期達到6 s時,Q-LSTM的RMSE值逐漸低于后者。Social-WaGDAT使用雙層注意力模型進行互動主體之間的關(guān)系推理,因此在時期短時具有一定的優(yōu)勢,但是注意力模型沒有考慮車輛長時期交互問題。而Q-LSTM使用強化學(xué)習(xí)中的Q-Learning算法分析車輛的交互,提高了模型的學(xué)習(xí)和泛化能力,在長時期的預(yù)測問題上具有優(yōu)勢。
由圖9和圖10可以看出,四種模型在預(yù)測卡車時,每個預(yù)測點的RMSE都低于小車的值,整體預(yù)測性能優(yōu)于小車,主要是由于相對于小車,卡車的行駛路徑變化較小,直行時間長,轉(zhuǎn)向動作相對較少。在預(yù)測時期6 s之前,四種模型的RMSE值相差不大,數(shù)據(jù)較接近大,但是7 s之后,性能值差距逐漸增大。本文提出的Q-LSTM模型表現(xiàn)最優(yōu),相對其他模型RMSE一直最小,主要因為該模型中考慮了車輛的長度以及是否可以轉(zhuǎn)向,隨著預(yù)測時期的增長,車輛路徑發(fā)生變化的可能性變大,因此,模型的性能優(yōu)勢也變大。
在交通軌跡預(yù)測時,除了將預(yù)測坐標(biāo)與實際坐標(biāo)之間的偏離程度,還應(yīng)考慮軌跡的合理性,由于很多模型都沒有考慮車身的長度,因此出現(xiàn)預(yù)測車輛之間的距離小于車身長度或?qū)挾鹊葐栴},此為碰撞現(xiàn)象,該現(xiàn)象出現(xiàn)越多,則軌跡預(yù)測越不合理。本文對不同貨車比例情況下撞車概率進行了實驗,從測試集中隨機抽取50條不同貨車比例的序列,軌跡預(yù)測期長為6 s。碰撞概率的計算方式如式(18)所示:
式中,ci表示在第i條序列中預(yù)測軌跡出現(xiàn)撞車的次數(shù),l和r分別是序列的數(shù)量和預(yù)測期長,本實驗中,l=50,r=6。本次實驗運行結(jié)果如圖11所示,為與相似模型做比較,將上述四個模型中SCALE-Net模型替換為Multi-Model模型[24]。
圖11 不同貨車比例的碰撞率比較
為了避免碰撞事件,在模型中應(yīng)考慮車身長度和寬度,Social-WaGDAT模型在處理車輛交互時具有一定的優(yōu)勢,但是由于沒有考慮車輛長度,因此在四個模型中表現(xiàn)最弱,CNN-LSTM模型從圖片上提取車輛信息,因此碰撞概率比Social-WaGDAT模型稍微低一些。Multi-Model模型和Q-LSTM模型在建模時都考慮了車輛的長寬,但是由于Multi-Model模型沒有處理碰撞事件的機制,而Q-LSTM模型在交互過程中不斷深入學(xué)習(xí)避免碰撞,因此Q-LSTM模型的碰撞概率較低,而且隨著貨車比例的增加,碰撞概率并沒有明顯提升。由此可見,本文提出的Q-LSTM模型在處理碰撞事件上具有較大優(yōu)勢,預(yù)測軌跡數(shù)據(jù)更符合實際道路情景。
本文提出了預(yù)測多交互車輛行駛軌跡的Q-LSTM模型,該模型結(jié)合了強化學(xué)習(xí)的Q-learning算法和深度學(xué)習(xí)的LSTM模型,同時考慮統(tǒng)計上下文信息、交互車輛軌跡和物理可行性約束。Q-LSTM模型使用LSTM從時空動態(tài)圖中捕獲時間特征,而Q-Learning算法表現(xiàn)了車輛之間交互過程,獲取了車輛軌跡的空間特性,另外算法整體是尋找最優(yōu)路徑,符合駕駛員的行為方式,從而提高了模型的擴展能力。另外模型考慮了車輛碰撞現(xiàn)象,提高預(yù)測結(jié)果的合理性。Q-LSTM模型被用于HighD數(shù)據(jù)集,并與其他類似三個模型進行比較,實驗結(jié)果表明,Q-LSTM在長時期的多交互軌跡預(yù)測中具有一定優(yōu)勢,同時預(yù)測結(jié)果的合理性也比其他模型要強。未來的工作可以集中在擴展其他方案并添加駕駛員的習(xí)慣性駕駛特征等影響因素,進一步提高模型的適應(yīng)性和可擴展性。