龍瓊 ,胡列格,張謹(jǐn)帆,周昭明,彭爍
(1. 湖南城市學(xué)院 土木工程學(xué)院,湖南 益陽,413000;2. 長沙理工大學(xué) 交通運(yùn)輸工程學(xué)院,湖南 長沙,410004)
隨著城市人口數(shù)量的不斷增長和人們物質(zhì)生活水平的逐漸提高,機(jī)動(dòng)車保有量迅猛增長,進(jìn)而使道路交通需求急劇增加,交通擁堵問題日益凸顯。針對交通擁堵問題,僅僅通過加強(qiáng)交通基礎(chǔ)設(shè)施的建設(shè)是難以解決的,而根據(jù)實(shí)際交通狀況實(shí)時(shí)優(yōu)化交通信號控制方案是一種有效緩解交通擁堵的手段。交叉口作為城市交通網(wǎng)絡(luò)中的重要組成部分,是城市交通擁擠的主要發(fā)生地,所以,針對城市道路交叉口交通信號控制問題開展研究,對于改善城市道路交通擁堵狀況、提高道路通行能力、減少交通事故、減少交通環(huán)境污染等方面具有十分重要的現(xiàn)實(shí)意義。交通信號控制是調(diào)控路網(wǎng)交通流運(yùn)行的主要交通管理措施之一,應(yīng)體現(xiàn)安全、通暢、高效等多方面的控制意圖[1]。在優(yōu)化交通信號協(xié)調(diào)控制參數(shù)時(shí),需要考慮交通管理策略,權(quán)衡平均延誤時(shí)間、排隊(duì)長度、通過流量等指標(biāo)[2-3],因此,交通信號控制問題是一個(gè)考慮交通管理策略的多目標(biāo)優(yōu)化問題。近年來,采用多目標(biāo)優(yōu)化方法研究城市道路交通信號控制問題已成為研究熱點(diǎn)。早期的多目標(biāo)優(yōu)化是Akcelik[4]在F-B 法的基礎(chǔ)上引入停車補(bǔ)償系數(shù),結(jié)合車輛延誤時(shí)間參數(shù),共同評價(jià)信號配時(shí)的優(yōu)化程度。Vincent 等[5]以TRANSYT 系統(tǒng)為對象,將延誤時(shí)間和停車次數(shù)轉(zhuǎn)換為燃油消耗指標(biāo),基于爬山法和遺傳算法對模型求解。常健等[6]建立了車輛排隊(duì)延誤和路段行程時(shí)間的加權(quán)線性組合優(yōu)化模型,求解獲得控制參數(shù),并定性地探討了權(quán)重系數(shù)與優(yōu)化目標(biāo)之間的變化關(guān)系。Zeng 等[7]基于元胞傳輸模型,模擬車流在道路交叉口的運(yùn)行規(guī)律,建立了以平均延誤和通行能力為優(yōu)化目標(biāo)的多目標(biāo)優(yōu)化模型,采用MOGA 多目標(biāo)遺傳算法進(jìn)行了模型求解。曹成濤等[8]引入交通控制飽和度約束,建立了以機(jī)動(dòng)車流的平均延誤、平均停車次數(shù)和總通過流量為優(yōu)化目標(biāo)的加權(quán)組合優(yōu)化模型,基于遺傳算法對模型進(jìn)行求解。高云峰等[1]以交叉口群為對象,建立了交通信號協(xié)調(diào)控制參數(shù)的多目標(biāo)優(yōu)化模型,基于非支配排序遺傳算法設(shè)計(jì)了相應(yīng)的多目標(biāo)優(yōu)化算法求解模型。但是,由于實(shí)際交通系統(tǒng)的復(fù)雜性和多變性,交通狀況難以精確描述,多目標(biāo)優(yōu)化模型往往通過簡單加權(quán)來轉(zhuǎn)化為單目標(biāo)優(yōu)化模型進(jìn)行求解,忽略了交通管理者對交通流疏導(dǎo)的策略和意圖,因而,這類多目標(biāo)優(yōu)化模型往往難以適應(yīng)實(shí)際復(fù)雜多變的城市道路交通系統(tǒng)控制需求。為此,本文作者面向復(fù)雜多變的交通系統(tǒng)控制需求,充分考慮交通管理者對交通疏導(dǎo)的控制策略,基于模糊分析法(fuzzy analytic process,F(xiàn)AP)設(shè)計(jì)了一種城市道路交叉口信號控制多目標(biāo)優(yōu)化模型,同時(shí),考慮Q 學(xué)習(xí)算法具有快速收斂特性的同時(shí),無需過多顧及環(huán)境指標(biāo)的動(dòng)態(tài)變化,基于Q 學(xué)習(xí)算法對多目標(biāo)優(yōu)化模型進(jìn)行求解,從而實(shí)時(shí)產(chǎn)生考慮交通管理者策略的交叉口信號控制方案。
交叉口交通信號控制優(yōu)化模型的評價(jià)指標(biāo)一般為單位時(shí)間內(nèi)通過的車流量最大、車輛總延誤時(shí)間最短、車輛排隊(duì)長度最短、車輛在交叉路口的平均停車次數(shù)最少等,控制模型根據(jù)交通控制目標(biāo)構(gòu)造評價(jià)函數(shù),結(jié)合交通管理者的控制意圖,對交叉口進(jìn)行優(yōu)化控制。以典型的平面十字交叉城市道路口為例,本文選用排隊(duì)長度l、延誤時(shí)間d 和停車次數(shù)n 作為模型優(yōu)化評價(jià)指標(biāo),構(gòu)建綜合評價(jià)指標(biāo)函數(shù)為
值得說明的是:在模型(1)中,排隊(duì)長度l、延誤時(shí)間d 和停車次數(shù)n 的量綱不同,在實(shí)際操作過程中,需要經(jīng)過統(tǒng)一歸一化處理。同時(shí),在模型中,wj和 ρji體現(xiàn)了交通管理者對指標(biāo)和相位的重視程度,而交通管理者的認(rèn)識本身具有主觀性和模糊性,增加了模型求解的復(fù)雜程度。本文考慮引入模糊分析法(FAP)對這些權(quán)重系數(shù)進(jìn)行量化,從而簡化交通管理者判斷交通優(yōu)化指標(biāo)相對重要性的復(fù)雜過程,解決交通指標(biāo)優(yōu)化排序過程中的一致性問題,使優(yōu)化模型更好地反映交通管理者的控制需求。
實(shí)際問題往往具有復(fù)雜性和模糊性,用模糊數(shù)表示判斷的結(jié)果能夠更好地反映事物的客觀本質(zhì)。因此,本文在權(quán)重確定過程中引入模糊數(shù)學(xué)理論,即應(yīng)用模糊分析法對交通優(yōu)化模型進(jìn)行權(quán)重確定。與一般方法相比,模糊分析法簡化了人們判斷評價(jià)相對重要性的復(fù)雜程度,解決了權(quán)重確定過程中的一致性問題。
基于模糊分析法進(jìn)行權(quán)重確定的基本過程是[9-10]:在構(gòu)建交叉口優(yōu)化模型的基礎(chǔ)上,以矩陣形式表達(dá)各單項(xiàng)優(yōu)化指標(biāo)的相對重要性,從而建立相應(yīng)的模糊矩陣:
其矩陣元素按如下的模糊邏輯確定:
對模糊矩陣F 進(jìn)行一致化處理,構(gòu)成模糊一致矩陣:
其中,rij按照如下方式確定:
然后進(jìn)行權(quán)重確定,即根據(jù)模糊一致矩陣計(jì)算對于交通管理者而言的指標(biāo)重要性相對權(quán)重(不含自身比較):
進(jìn)行歸一化后可得
基于上述思想,對于交叉口優(yōu)化模型(1),交通管理者根據(jù)交通管理策略,僅需確定排隊(duì)長度l、延誤時(shí)間d 和停車次數(shù)n 等指標(biāo)的相對重要性,就可確定相應(yīng)的指標(biāo)權(quán)重wj(j=1, 2, 3)。同理,對于各優(yōu)化指標(biāo)在不同相位的權(quán)重系數(shù) ρji,亦可以通過類似方法確定,由此可以看出:基于模糊分析方法,交通管理者僅需兩兩比較優(yōu)化指標(biāo)的相對重要性,大大降低了交通管理者根據(jù)自身意圖來設(shè)置指標(biāo)權(quán)重的復(fù)雜程度,且該方法還能夠有效保證權(quán)重確定過程中的一致性問題。
Q 學(xué)習(xí)算法最早在1989 年由Watkins 等提出[11],是模擬動(dòng)物學(xué)習(xí)行為的一種強(qiáng)化學(xué)習(xí)算法,該算法因操作簡單且收斂性好而受到研究者的重視。Q 學(xué)習(xí)算法通過從環(huán)境中得到獎(jiǎng)懲的方法來獲得不同狀態(tài)下的最優(yōu)策略。Q 學(xué)習(xí)的積累回報(bào)函數(shù) Q (s , a)是指在狀態(tài)s 執(zhí)行完動(dòng)作a 后希望獲得的積累回報(bào),它取決于當(dāng)前的立即回報(bào)和期望的延時(shí)回報(bào)。
在Q 學(xué)習(xí)算法中,模型通過不斷反射學(xué)習(xí)優(yōu)化1個(gè)可以迭代計(jì)算的Q 函數(shù)提高學(xué)習(xí)能力,Q (s , a)函數(shù)的初始值可任意給定,其學(xué)習(xí)規(guī)則為[12]
式中:α ∈[ 0,1]為學(xué)習(xí)速率; γ ∈[ 0,1]為折扣因子;a為所有可供選擇的動(dòng)作的集合;r (s, a)為回報(bào)函數(shù)值;Qt(s ′, a′)為在下一個(gè)狀態(tài)s’時(shí)系統(tǒng)選擇任何行為a′的Q 函數(shù)值。
Q 學(xué)習(xí)算法不同于其他學(xué)習(xí)算法[13]的是不需要建立面向外部狀態(tài)環(huán)境變化的模型,適合于在線學(xué)習(xí)。近年來,Q 學(xué)習(xí)在人工智能、機(jī)器學(xué)習(xí)等領(lǐng)域取得了諸多研究成果,在此,本文采用Q 學(xué)習(xí)算法用于求解交叉口的信號控制優(yōu)化問題。
根據(jù)交叉口模型(1),控制參數(shù)集和決策參數(shù)集可以分別表達(dá)為:
同時(shí),在實(shí)際交通信號控制中,信號燈時(shí)間通常以秒(s)為單位計(jì)時(shí),因而,控制參數(shù)集U 和決策參數(shù)集ΔU 均為有限可數(shù)集合。這給Q 學(xué)習(xí)算法的應(yīng)用帶來了方便。
根據(jù)模型(1),設(shè)計(jì)收益函數(shù)如下:
在權(quán)重系數(shù)wj和 ρji確定后,下面參照文獻(xiàn)[14]并作以改進(jìn),設(shè)計(jì)獲得相應(yīng)的交通信號控制策略。
2.2.1 初始控制參數(shù)
初始控制參數(shù)的確定依據(jù)
2.2.1 過程控制策略
在第k+1 個(gè)周期個(gè)控制周期,控制策略設(shè)計(jì)如下。
(1) 若Rk(u(k))<0,則說明控制系統(tǒng)趨于收斂,交通狀況漸趨通暢,
(2) 若Rk(u(k)) >0,則說明控制系統(tǒng)趨于發(fā)散,交通狀況漸趨惡化。令
若對所有相位i=1, 2, 3, 4,均有rki>0,則說明交通流量逐漸增大而導(dǎo)致交通系統(tǒng)整體惡化,此時(shí),重新調(diào)整控制策略,依據(jù)下式
由此獲得Δu(k+1),從而可求得第k+1 個(gè)周期的控制量u(k+1)。與文獻(xiàn)[14]相比,本文在此引入了保守因子λ,避免了對交通惡化相位的過度反應(yīng),保證了漸趨通暢相位的收斂性。
(3) 若Rk(u(k))=0,則說明交通整體狀況沒有發(fā)生變化,此時(shí),對應(yīng)的交叉口交通狀況是:部分相位惡化,部分相位向好(理論上存在所有相位交通狀況均沒有變化的情況),參照情況(2)進(jìn)行研究微調(diào)。
為了驗(yàn)證本文方法的有效性,以典型的十字交叉路口為例,針對如下2 種想定情況進(jìn)行仿真實(shí)驗(yàn),并與傳統(tǒng)的定時(shí)控制方法進(jìn)行對比。
(1) 情況1:不考慮交通管理策略。
在不考慮交通控制策略的情況下,交通管理者對各優(yōu)化指標(biāo)和相位無偏好,因此,在模型(1)中,權(quán)重系數(shù)取值為 w1=w2=w3=1/3,ρji=1/4(j=1, 2, 3;i=1, 2, 3, 4)。
(2) 情況2:考慮交通管理策略。
假設(shè)交通管理者面向大區(qū)域交通系統(tǒng)需求,設(shè)置其優(yōu)化指標(biāo)的相對重要性為:排隊(duì)長度相對重要性>延誤時(shí)間相對重要性=停車次數(shù)相對重要性。
同時(shí),大區(qū)域交通環(huán)境要求優(yōu)先保障處于第1 和第2 相位的車輛通過,同時(shí)兼顧第3 和第4 相位車輛,則相位相對重要性設(shè)置為:第1 相位相對重要性=第2相位相對重要性>第3 相位相對重要性=第4 相位相對重要性。
根據(jù)前面的權(quán)重系數(shù)確定方法,求得
取控制周期C=120 s,保守因子λ=0.9,在不同交通流量下獲得的仿真結(jié)果如圖1~3 所示。
從圖1~3 可以看出:本文所提出的多目標(biāo)優(yōu)化控制算法能夠較大幅度地縮短排隊(duì)長度、延誤時(shí)間和減少停車次數(shù),與傳統(tǒng)定時(shí)控制方法相比具有明顯的優(yōu)勢,這種優(yōu)勢隨著交通流量的增大更加明顯。
表1 所示為各種控制模型的各種具體控制結(jié)果。從表1 可以看出:在不同車流量條件下,采用本文方法能夠有效減小排隊(duì)長度、延誤時(shí)間和停車次數(shù),大大提高了交通系統(tǒng)的運(yùn)行效率。特別地,根據(jù)情況2獲得的實(shí)驗(yàn)結(jié)果,與第3 和第4 相位相比,第1 和第2 相位更加通暢,尤其是在不同車流量下,第1 和第2相位的排隊(duì)長度較短,較好地體現(xiàn)了交通管理者的控制意圖。
圖1 不同車流量條件下的排隊(duì)長度對比Fig.1 Comparison of queue length at different traffic conditions
圖2 不同車流量條件下的延誤時(shí)間對比Fig.2 Comparison of delay time at different traffic conditions
圖3 不同車流量條件下的停車次數(shù)對比Fig.3 Comparison of number of parking at different traffic conditions
表1 不同車流量條件下的仿真結(jié)果比較Table 1 Comparision of simulation results at different traffic conditions
面向復(fù)雜多變的交通系統(tǒng)控制需求,基于模糊分析法設(shè)計(jì)了一種城市道路交叉口信號控制多目標(biāo)優(yōu)化模型,并基于Q 學(xué)習(xí)算法對多目標(biāo)優(yōu)化模型進(jìn)行求解,該方法具有如下特點(diǎn):
(1) 在建模過程中,充分考慮了交通管理者對交通疏導(dǎo)的控制策略,有利于保持與大區(qū)域交通環(huán)境的一致性。
(2) 引入模糊分析法確定優(yōu)化指標(biāo)權(quán)重系數(shù),簡化了人們判斷評價(jià)相對重要性的復(fù)雜程度,解決了權(quán)重確定過程中的一致性問題。
(3) 構(gòu)建了交叉口多目標(biāo)最優(yōu)模型,克服了以往優(yōu)化方法目標(biāo)單一的缺點(diǎn)。仿真結(jié)果表明該模型能夠兼顧多種優(yōu)化指標(biāo),獲得折中解。
(4) 基于Q 學(xué)習(xí)算法對多目標(biāo)優(yōu)化模型進(jìn)行求解,簡化了求解過程,保證了求解結(jié)果的收斂性。
[1] 高云峰, 胡華, 韓皓, 等. 城市道路交叉口群信號協(xié)調(diào)控制多目標(biāo)優(yōu)化與仿真[J]. 中國公路學(xué)報(bào), 2012, 25(6): 129-135.GAO Yunfeng, HU Hua, HAN Hao. Multi-objective optimization and simulation of groups of intersections’ signal coordinate control[J]. China Journal of Highway and Transport,2012, 25(6): 129-135.
[2] DAI Yujie, ZHAO Dongbin. A traffic signal control algorithm for isolated intersections based on adaptive dynamic programming[C]// Proceedings of 2010 International Conference on Networking, Sensing and Control (ICNSC 2010). Chicago,USA, 2010: 255-260.
[3] Abdulhai B. Reinforcement learning for true adaptive traffic signal control[J]. ASCE Journal of Transportation Engineering,2003, 129(3) : 278-285.
[4] Akcelik R. Traffic signals: Capacity and timing analysis, ARR No.123[R]. Vermont South, Australia: ARRB Transport Research Ltd, 1981: 26-29.
[5] Vincent R A, Mitchell A I, Robertson D I. User guide of transport, Version 8, TRRL Report LR888[R]. Crowthorne, UK:Transport and Road Research Labortory, 1980: 356-361.
[6] 常健, 吳大為. 多目標(biāo)交叉口信號控制模型[J]. 大連理工大學(xué)學(xué)報(bào), 2000, 40(6): 653-656.CHANG Jian, WU Dawei. Multi-objective model of intersection signal control[J]. Journal of Dalian University of Technology,2000, 40(6): 653-656.
[7] Zeng J Q, Wang J J, Liu K, et al. CTM-MOGA based crossroad traffic signal control[J]. Journal of University of Science and Technology of China, 2005, 35(2): 284-290.
[8] 曹成濤, 徐建閩. 單交叉口交通多目標(biāo)控制方法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2010, 46(16): 20-22.CAO Chengtao, XU Jianmin. Multi-objective control method at single intersection[J]. Computer Engineering and Applications,2010, 46(16): 20-22.
[9] XU Runing, ZHAI Xiaoyan. Extention of the analytic hierarchy process in fuzzy environment[J]. Fuzzy Sets and Systems, 1992,52: 29-32.
[10] 汪培莊. 模糊集合論及其應(yīng)用[M]. 上海: 上海科學(xué)技術(shù)出版社, 1986: 329-332.WANG Peizhuang. Fuzzy set theory and its applications[M].Shanghai: Shanghai Science and Technology Press, 1986:329-332.
[11] Watkins C, Dayan P. Technical note: Q-learning machine learning[M]. Kluwer Academic Publishers, Boston, 1992:279-292.
[12] 魏赟, 邵清. 基于Q-學(xué)習(xí)和粒子群算法的區(qū)域交通控制模型[J]. 系統(tǒng)仿真學(xué)報(bào), 2011, 23(10): 2108-2111.WEI Yun, SHAO Qing. Regional traffic control model based on Q-learning and particle swarm optimization[J]. Journal of System Simulation, 2011, 23(10): 2108-2111.
[13] 席燕輝, 葉志成, 彭輝. 一種基于自適應(yīng)粒子濾波的多層感知器學(xué)習(xí)算法[J]. 中南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013, 44(4):1397-1402.XI Yanhui, YE Zhicheng, PENG Hui. An algorithm for MLPs training based on adaptive particle filter[J]. Journal of Central South University (Science and Technology), 2013, 44(4):1397-1402.
[14] 崔吉峰, 乞建勛, 楊尚東. 基于粒子群改進(jìn)BP 神經(jīng)網(wǎng)絡(luò)的組合預(yù)測模型及其應(yīng)用[J]. 中南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2009,40(1): 190-194.CUI Jifeng, QI Jianxun, YANG Shangdong. Combined forecasting model based on BP improved by PSO and its application[J]. Journal of Central South University (Science and Technology), 2009, 40(1): 190-194.
[15] 馬躍峰, 王宜舉. 一種基于Q 學(xué)習(xí)的單路口交通控制方法[J].數(shù)學(xué)的實(shí)踐與認(rèn)識, 2011, 41(24): 102-106.
[16] MA Yuefeng, WANG Yiju. A traffic control method for single intersection based on Q-learning algorithm[J]. Mathematics in Practice and Theory, 2011, 41(24): 102-106.