舒凌洲 吳佳 王晨
摘 要:針對城市交通信號控制中如何有效利用相關(guān)信息優(yōu)化交通控制并保證控制算法的適應(yīng)性和魯棒性的問題,提出一種基于深度強化學(xué)習(xí)的交通信號控制算法,利用深度學(xué)習(xí)網(wǎng)絡(luò)構(gòu)造一個智能體來控制整個區(qū)域交通。首先通過連續(xù)感知交通環(huán)境的狀態(tài)來選擇當(dāng)前狀態(tài)下可能的最優(yōu)控制策略,環(huán)境的狀態(tài)由位置矩陣和速度矩陣抽象表示,矩陣表示法有效地抽象出環(huán)境中的主要信息并減少了冗余信息;然后智能體以在有限時間內(nèi)最大化車輛通行全局速度為目標(biāo),根據(jù)所選策略對交通環(huán)境的影響,利用強化學(xué)習(xí)算法不斷修正其內(nèi)部參數(shù);最后,通過多次迭代,智能體學(xué)會如何有效地控制交通。在微觀交通仿真軟件Vissim中進(jìn)行的實驗表明,對比其他基于深度強化學(xué)習(xí)的算法,所提算法在全局平均速度、平均等待隊長以及算法穩(wěn)定性方面展現(xiàn)出更好的結(jié)果。其中,與基線相比,平均速度提高9%,平均等待隊長降低約13.4%。實驗結(jié)果證明該方法能夠適應(yīng)動態(tài)變化的復(fù)雜的交通環(huán)境。
關(guān)鍵詞:深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);強化學(xué)習(xí);交通信號控制
中圖分類號:TP311.1
文獻(xiàn)標(biāo)志碼:A
Abstract: To meet the requirements for adaptivity, and robustness of the algorithm to optimize urban traffic signal control, a traffic signal control algorithm based on Deep Reinforcement Learning (DRL) was proposed to control the whole regional traffic with a control Agent contructed by a deep learning network. Firstly, the Agent predicted the best possible traffic control strategy for the current state by observing continously the state of the traffic environment with an abstract representation of a location matrix and a speed matrix, because the matrix representation method can effectively abstract vital information and reduce redundant information about the traffic environment. Then, based on the impact of the strategy selected on the traffic environment, a reinforcement learning algorithm was employed to correct the intrinsic parameters of the Agent constantly in order to maximize the global speed in a period of time. Finally, after several iterations, the Agent learned how to effectively control the traffic.The experiments in the traffic simulation software Vissim show that compared with other algorithms based on DRL, the proposed algorithm is superior in average global speed, average queue length and stability; the average global speed increases 9% and the average queue length decreases 13.4% compared to the baseline. The experimental results verify that the proposed algorithm can adapt to complex and dynamically changing traffic environment.
英文關(guān)鍵詞Key words: deep learning; Convolutional Neural Network (CNN); reinforcement learning; traffic signal control
0 引言
城市交通信號控制一直以來是一個具有挑戰(zhàn)性的研究課題。由于交通系統(tǒng)的復(fù)雜性和動態(tài)性,隨著控制范圍的擴(kuò)大,交通狀態(tài)信息數(shù)據(jù)量急劇增加,控制的復(fù)雜度呈指數(shù)級增長[1]。除此以外,交通信號控制面臨著魯棒性、適應(yīng)性等問題同樣增加了控制的難度。對此,部分研究者提出了分布式控制方案,基于多智能體的方法被廣泛用于解決城市交通分布式控制問題[2-6],如文獻(xiàn)[4]利用了遺傳算法和強化學(xué)習(xí)算法來訓(xùn)練多智能體,文獻(xiàn)[6]采用基于模糊控制的多智能體算法。然而,由于以下原因,交通網(wǎng)絡(luò)信號控制問題依舊沒有得到有效地解決:1)多智能體之間的協(xié)作通信基于預(yù)定義的規(guī)則,導(dǎo)致智能體無法快速適應(yīng)不斷變化的交通狀況, 因此,智能體性能缺乏穩(wěn)定性; 2)隨著控制區(qū)域范圍增大,交通狀態(tài)信息和交通控制方式復(fù)雜度陡增,傳統(tǒng)的交通控制方式很難發(fā)現(xiàn)交通數(shù)據(jù)中隱藏的模式,因此,優(yōu)化控制目標(biāo)難度增加。
為了解決上述問題,本文提出一種基于深度強化學(xué)習(xí)的城市交通信號控制算法。強化學(xué)習(xí)[7]是一類重要的機器學(xué)習(xí)技術(shù),它通過與環(huán)境的交互來學(xué)習(xí)最優(yōu)的控制決策。交通信號控制領(lǐng)域很早開始運用強化學(xué)習(xí)方法來解決交通控制問題。智能體以提升車輛平均速度、最小化車輛平均通行時間、減少車輛平均等待隊長為目標(biāo),通過觀察當(dāng)前交通狀態(tài),選擇最優(yōu)的交通控制策略[4,8-11]。這些方法采用人工提取的特征表示交通狀態(tài),極大地降低了交通狀態(tài)表示的復(fù)雜度。例如,文獻(xiàn)[9]選擇每個車道等待車輛隊長和信號燈時間作為交通信息狀態(tài),通過將數(shù)據(jù)離散化為不同級別,達(dá)到壓縮數(shù)據(jù)的目的。該方法雖然降低了信息的復(fù)雜度,但丟失了交通狀態(tài)潛在的重要信息。因此,單純基于強化學(xué)習(xí)的交通控制策略只能應(yīng)對低維度數(shù)據(jù),一旦交通數(shù)據(jù)量和復(fù)雜度增加,該方法無法滿足城市區(qū)域交通信號的精確控制需求。
深度學(xué)習(xí)可以很好地解決高維度數(shù)據(jù)抽象表征問題。受到人腦工作模式的啟發(fā), 深度學(xué)習(xí)將底層特征組合形成更加抽象的高層特征[12]。通過與強化學(xué)習(xí)結(jié)合, 即深度強化學(xué)習(xí) (Deep Reinforcement Learning, DRL), DRL能夠發(fā)掘交通狀態(tài)信息中隱藏模式,直接從高維數(shù)據(jù)中學(xué)習(xí)到有效的控制策略。近年來部分研究者開始在交通信號控制領(lǐng)域采用深度強化學(xué)習(xí)技術(shù)[13-15],但大多數(shù)研究僅考慮單個交叉路口的交通控制[13-14]。文獻(xiàn)[15]雖能夠?qū)崿F(xiàn)小型交通網(wǎng)絡(luò)的控制,但文中仍是單個智能體控制單個路口交通,然后利用傳統(tǒng)多智能體協(xié)調(diào)機制來控制交通網(wǎng)絡(luò)。由于 DRL 算法的訓(xùn)練非常耗時,因此每個交叉路口由單個DRL智能體控制的交通網(wǎng)絡(luò)的訓(xùn)練將消耗較長的時間;另外,作者在文中指出了其智能體在訓(xùn)練過程中穩(wěn)定性較差, 因此,對于大型路網(wǎng)來說, 此方法可行性較差。
本文旨在利用深度強化學(xué)習(xí)的優(yōu)勢高效地控制城市交通。智能體通過不斷地與交通環(huán)境進(jìn)行交互以最大限度提高交通通行效率。在此框架下智能體無需預(yù)知交通系統(tǒng)控制的內(nèi)在規(guī)則,而是通過不斷探索新的策略,根據(jù)該策略對環(huán)境的影響來學(xué)習(xí)到最優(yōu)的控制策略。本文方法主要優(yōu)點在于:
1)單個智能體對交通路網(wǎng)進(jìn)行全局控制。
2)交通網(wǎng)絡(luò)的狀態(tài)由位置矩陣和速度矩陣聯(lián)合表示,這樣能有效抽象出交通路網(wǎng)中的主要信息。與文獻(xiàn)[13-14]相比,矩陣表示法壓縮了數(shù)據(jù)的維度并且縮短了計算時間。
3)通過對智能體超參數(shù)的調(diào)整,信號控制的穩(wěn)定性顯著提高,訓(xùn)練時間顯著減少。
4)所有仿真實驗均在著名的微觀交通仿真軟件Vissim上運行,實驗結(jié)果可信度高。
3.3 性能提升
在本節(jié)中將在Agent4的基礎(chǔ)上通過改變車流量范圍進(jìn)一步提升Agent性能。經(jīng)過多次實驗發(fā)現(xiàn),Agent5在訓(xùn)練時縮小車流量范圍至550~650veh/h,其在測試階段性能優(yōu)于Agent4。實驗結(jié)果表明(表2),Agent5平均速度增長約2%。究其原因在于更大的車流量范圍增加了交通狀態(tài)的復(fù)雜度,使得Agent訓(xùn)練難度增加,最終導(dǎo)致了Agent性能不穩(wěn)定,增加神經(jīng)網(wǎng)絡(luò)的深度和每層節(jié)點數(shù)可解決該問題。在原有測試之上本文為Agent5增加了低車流量場景(300veh/h)測試任務(wù)(如圖4所示),實驗表明在高流量環(huán)境中訓(xùn)練仍能夠在低流量環(huán)境中取得良好表現(xiàn)。
4 結(jié)語
隨著城市交通狀況的復(fù)雜性增長,交通狀態(tài)中的隱藏模式難以發(fā)現(xiàn)。深度學(xué)習(xí)提供了從高維數(shù)據(jù)中挖掘隱藏模式的有效方法。通過與強化學(xué)習(xí)算法結(jié)合,為城市交通控制提供了解決方案。本文提出了一種基于深度強化學(xué)習(xí)的交通網(wǎng)絡(luò)交通控制方法,該方法通過與交通環(huán)境交互,連續(xù)地感知交通環(huán)境的狀態(tài)并挖掘其中隱藏模式,進(jìn)而找到當(dāng)前狀態(tài)下可能的最優(yōu)控制策略。實驗結(jié)果表明,該方法能有效控制城市交通,提升交通通行效率,但是此方法依然存在一定的局限性,如隨著控制范圍的擴(kuò)大、交叉口數(shù)量的增加帶來動作空間的陡增;由于深度學(xué)習(xí)與強化學(xué)習(xí)結(jié)合帶來的訓(xùn)練困難等問題。在今后研究中,將考慮從以下方面進(jìn)一步優(yōu)化算法:
1)利用文獻(xiàn)[19]提出的Wolpertinger 框架解決隨著控制范圍擴(kuò)大出現(xiàn)的動作空間指數(shù)增長的問題;
2)隨著城市交通狀況的復(fù)雜性增加,訓(xùn)練時間將大幅增加。為了減少訓(xùn)練時間,提升訓(xùn)練效果,擬考慮更先進(jìn)的深度強化學(xué)習(xí)技術(shù),如Asynchronous Advantage ActorCritic A3C[20]或DuelingDQN算法[21]。
參考文獻(xiàn) (References)
[1] 李穎宏,王力,尹怡欣. 區(qū)域交通信號系統(tǒng)節(jié)點分析及優(yōu)化策略研究[J]. 計算機應(yīng)用,2010, 30(4): 1107-1109. (LI Y H, WANG L, YIN Y X. Node analysis and optimization strategy for regional traffic network system [J]. Journal of Computer Applications, 2010, 30(4): 1107-1109.)
[2] CHIU S, CHAND S. Selforganizing traffic control via fuzzy logic[C]// Proceedings of the 32nd IEEE Conference on Decision and Control. Piscataway, NJ: IEEE, 1994:1897-1902.
[3] NAKAMITI G, GOMIDE F. Fuzzy sets in distributed traffic control[C]// Proceedings of IEEE 5th International Fuzzy Systems. Piscataway, NJ: IEEE, 1996: 1617-1623.
[4] MIKAMI S, KAKAZU Y. Genetic reinforcement learning for cooperative traffic signal control[C]// Proceedings of the 1st IEEE Conference on Evolutionary Computation. Piscataway, NJ: IEEE, 1994: 223-228.
[5] MANIKONDA V, LEVY R, SATAPATHY G, et al. Autonomous Agents for traffic simulation and control[J]. Transportation Research Record Journal of the Transportation Research Board, 2001, 1774(1):1-10.
[6] LEE J H, LEEKWANG H. Distributed and cooperative fuzzy controllers for traffic intersections group[J]. IEEE Transactions on Systems, Man & Cybernetics Part C: Applications & Reviews, 1999, 29(2):263-271.
[7] SUTTON R S, BARTO A G. Reinforcement learning: an introduction[J]. IEEE Transactions on Neural Networks, 1998, 9(5):1054-1054.
[8] MEDINA J C, HAJBABAIE A, BENEKOHAL R F. Arterial traffic control using reinforcement learning Agents and information from adjacent intersections in the state and reward structure[C]// Proceedings of the 13th International IEEE Conference on Intelligent Transportation Systems. Piscataway, NJ: IEEE, 2010: 525-530.
[9] PRASHANTH L A, BHATNAGAR S. Reinforcement learning with function approximation for traffic signal control[J]. IEEE Transactions on Intelligent Transportation Systems, 2011, 12(2): 412-421.
[10] ABDULHAI B, PRINGLE R, KARAKOULAS G J. Reinforcement learning for true adaptive traffic signal control[J]. Journal of Transportation Engineering, 2003, 129(3):278-285.
[11] BINGHAM E. Reinforcement learning in neurofuzzy traffic signal control[J]. European Journal of Operational Research, 2001, 131(2):232-241.
[12] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553):436.
[13] LI L, LYU Y S, WANG F Y. Traffic signal timing via deep reinforcement learning[J]. IEEE/CAA Journal of Automatica Sinica, 2016, 3(3):247-254.
[14] MOUSAVI S S, SCHUKAT M, HOWLEY E. Traffic light control using deep policygradient and valuefunctionbased reinforcement learning[J]. IET Intelligent Transport Systems, 2017, 11(7):417-423.
[15] van der POL E. Deep reinforcement learning for coordination in traffic light control[D]. Amsterdam: University of Amsterdam, 2016: 1-56.
[16] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing atari with deep reinforcement learning[J/OL]. arXiv Preprint, 2013, 2013: arXiv:1312.5602 [2013-12-09]. https://arxiv.org/abs/1312.5602.
[17] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Humanlevel control through deep reinforcement learning[J]. Nature, 2015, 518(7540):529.
[18] LI Y X. Deep reinforcement learning: an overview[J/OL]. arXiv Preprint, 2017, 2017: arXiv:1701.07274 [2017-01-25]. https://arxiv.org/abs/1701.07274.
[19] DULACARNOLD G, EVANS R, SUNEHAG P, et al. Reinforcement learning in large discrete action spaces[J/OL]. arXiv Preprint, 2016, 2016: arXiv:1603.06861 [2016-03-22]. https://arxiv.org/abs/1603.06861.
[20] MNIH V, BADIA A P, MIRZA M, et al. Asynchronous methods for deep reinforcement learning[J/OL]. arXiv Preprint, 2016, 2016: arXiv:1603.01783 [2016-02-04]. https://arxiv.org/abs/1602.01783.
[21] WANG Z, SCHAUL T, HESSEL M, et al. Dueling network architectures for deep reinforcement learning[C]// Proceedings of the 33rd International Conference on International Conference on Machine Learning. New York: JMLR.org, 2016: 1995-2003.
[22] DULACARNOLD G, EVANS R, HASSELT H V. Deep reinforcement learning in large discrete action spaces[J/OL]. arXiv Preprint, 2015, 2015: arXiv:1512.07679 [2015-12-24]. https://arxiv.org/abs/1512.07679.