(沈陽理工大學(xué)信息科學(xué)與工程學(xué)院 遼寧 沈陽 110159)
科技社會的發(fā)展使城市交通擁堵日益嚴(yán)重,智能交通系統(tǒng)作為一種解決城市日益擁堵所帶來的問題的有效途徑,特別是交通誘導(dǎo)可以有效的緩解交通擁堵,提高人們的出行效率。
深度強(qiáng)化學(xué)習(xí)不僅具有深度學(xué)習(xí)的感知能力,可以有效的提取復(fù)雜的特征。還具有強(qiáng)化學(xué)習(xí)的決策能力,通過不斷與環(huán)境進(jìn)行交互反饋,對決策進(jìn)行調(diào)整改進(jìn)。因此本研究采用深度強(qiáng)化學(xué)習(xí)構(gòu)建交通路徑誘導(dǎo)系統(tǒng)。首先選擇合理有效的路徑誘導(dǎo)特征,通過構(gòu)建深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模型,建立雙網(wǎng)(DoubleDQN),采用玻爾茲曼概率行為選擇策略,誘導(dǎo)路網(wǎng)中的車輛行駛。
本研究主要使用的是DQN[1]。傳統(tǒng)的DQN通常會高估Action的Q值。如果這種高估是不均勻的,可能會導(dǎo)致本來次優(yōu)的Action總是被高估而超過了最優(yōu)的Action,造成過估計(jì)。而DoubleDQN[2]不是直接選擇targetDQN上最大的Q值,而是在主DQN上通過其最大Q值選擇Action,再去獲取這個Action在targetDQN上的Q值。主網(wǎng)絡(luò)負(fù)責(zé)選擇Action,而這個被選定的Action的Q值則由targetDQN生成。被選擇的Q值,不一定是最大的Q值,這樣就解決了過估計(jì)的問題。DoubleDQN的學(xué)習(xí)目標(biāo)可以寫成下面的公式:
Target=rt+1+γ.Qtarget(st+1,argmaxa(Qmain(st+1,a)))
路徑誘導(dǎo)的特征選擇十分關(guān)鍵,如何選擇合理有效的特征對路徑誘導(dǎo)的效果起到了至關(guān)重要的作用。路網(wǎng)中的車輛行駛過程如下圖所示:
圖1 車輛從節(jié)點(diǎn)i經(jīng)5號邊行駛到節(jié)點(diǎn)j
假設(shè)車輛從節(jié)點(diǎn)i經(jīng)過5號邊行駛到節(jié)點(diǎn)j。本研究的目的是對交通路網(wǎng)中的車輛通過算法進(jìn)行路徑誘導(dǎo)??紤]選取的特征為:當(dāng)前節(jié)點(diǎn)j的坐標(biāo)和目的節(jié)點(diǎn)的k坐標(biāo);車輛行駛在當(dāng)前節(jié)點(diǎn)的相鄰節(jié)點(diǎn)為i;車輛從節(jié)點(diǎn)i到節(jié)點(diǎn)j通過 5號邊的所花費(fèi)的真實(shí)行駛時間;以及綜合考慮整個路網(wǎng)的各個節(jié)點(diǎn)的車流量密度。
本研究采用玻爾茲曼概率選擇策略[3]。玻爾茲曼概率選擇策略是Softmax選擇策略的一種,根據(jù)不同的行為選擇策略把不同的Q值對應(yīng)不同大小的選擇概率,最優(yōu)Q值具有最大的選擇概率:
τ是溫度參數(shù),隨著溫度參數(shù)的值逐漸變大,不同的Q值對應(yīng)的行為選擇的概率大小就越近似。隨著溫度參數(shù)的值逐漸變小,玻爾茲曼概率分布策略和貪心策略就越來近似。
一部分是導(dǎo)航過程,主要負(fù)責(zé)當(dāng)車輛運(yùn)行到交叉口時,下一步應(yīng)該選擇走哪一條路線,即對車輛進(jìn)行的誘導(dǎo)。另一部分是訓(xùn)練過程。
導(dǎo)航過程,通過SUMO仿真器獲得車輛當(dāng)前路網(wǎng)的狀態(tài):當(dāng)前節(jié)點(diǎn)坐標(biāo)值,目的節(jié)點(diǎn)坐標(biāo)值,相鄰節(jié)點(diǎn)坐標(biāo)值,整個路網(wǎng)的密度車流量密度。然后通過Socket發(fā)送數(shù)據(jù)。并把接收到的state作為神經(jīng)網(wǎng)絡(luò)的輸入。根據(jù)神經(jīng)網(wǎng)絡(luò)得到四個Q值。并通過玻爾茲曼概率選擇策略得到動作,該動作即車輛到達(dá)交叉口下一步要選擇的動作。并返回該action。
訓(xùn)練過程,通過仿真器收集數(shù)據(jù)state,action,reward。把通過Socket得到的數(shù)據(jù)組合成強(qiáng)化學(xué)習(xí)的的四元組(s,a,r,s’)。把強(qiáng)化學(xué)習(xí)的的四元組(s,a,r,s’),也就是樣本存儲到經(jīng)驗(yàn)池中,當(dāng)滿足批處理的數(shù)量時,把該數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)的輸入,對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
本研究使用SUMO(SimulationofUrbanMobility)仿真器進(jìn)行仿真。SUMO仿真器由德國宇航中心研發(fā),把真實(shí)的城市作為模擬的依據(jù),實(shí)現(xiàn)對現(xiàn)實(shí)中的城市的路網(wǎng)、道路、交叉口、車輛、行人,交通設(shè)施等的仿真,并可以通過接口與java程序進(jìn)行交互。本研究課題通過搭建SUMO仿真器,設(shè)置SUMO仿真器中的路網(wǎng)結(jié)構(gòu)文件,并寫出SUMO仿真器運(yùn)行需要的相應(yīng)程序,采集實(shí)驗(yàn)數(shù)據(jù)。
通過SUMO仿真器模擬對車輛進(jìn)行誘導(dǎo),運(yùn)行交通路徑誘導(dǎo)系統(tǒng),并進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)的評價指標(biāo)為:路網(wǎng)中的實(shí)際車輛數(shù)量和車輛在路網(wǎng)的平均行駛時間。路網(wǎng)中的車輛的數(shù)量越少,車輛的平均行駛時間越短,說明路徑誘導(dǎo)的效率越高。
對已經(jīng)設(shè)置的路網(wǎng)結(jié)構(gòu),分別使用基于傳統(tǒng)的Sarsa方法和深度強(qiáng)化學(xué)習(xí)方法對交通路網(wǎng)中的車輛進(jìn)行誘導(dǎo)實(shí)驗(yàn)。根據(jù)實(shí)驗(yàn)的評價指標(biāo),通過實(shí)驗(yàn)得出實(shí)驗(yàn)結(jié)果。使用Sarsa方法誘導(dǎo)時,路網(wǎng)中的平均車輛數(shù)量為155.8788,平均行駛時間為111.9692。使用深度強(qiáng)化學(xué)習(xí)對路網(wǎng)中的車輛進(jìn)行進(jìn)行誘導(dǎo)時,路網(wǎng)中的平均車輛數(shù)量為127.5253,平均行駛時間為97.1384。通過與傳統(tǒng)強(qiáng)化學(xué)習(xí)Sarsa學(xué)習(xí)算法進(jìn)行對比實(shí)驗(yàn),深度強(qiáng)化學(xué)習(xí)的誘導(dǎo)效果優(yōu)于傳統(tǒng)的Sarsa學(xué)習(xí)誘導(dǎo)。
實(shí)驗(yàn)結(jié)果表明基于深度強(qiáng)化學(xué)習(xí)的路徑誘導(dǎo)可以有效緩解路徑中交通的擁堵,為交通路徑誘導(dǎo)提供了一種有效的解決方式。