徐建閩,席嘉鵬
(華南理工大學(xué) 土木與交通學(xué)院, 廣東 廣州 510000)
現(xiàn)階段交通問題頻發(fā),而信號(hào)配時(shí)作為交通管理的重要內(nèi)容,保障了交通的秩序與效率。道路上交叉口之間存在著影響,所以現(xiàn)在主流的固定配時(shí)的信號(hào)控制方法尚有改進(jìn)空間。因此,有學(xué)者利用機(jī)器學(xué)習(xí)算法來求解更好的自適應(yīng)信號(hào)配時(shí)方法,所使用的方法主要有強(qiáng)化學(xué)習(xí)以及神經(jīng)網(wǎng)絡(luò)等。
ABDULHAI等[1-2]提出了一個(gè)通過Q-強(qiáng)化學(xué)習(xí)模型計(jì)算兩相位信號(hào)交叉口的最優(yōu)配時(shí),并認(rèn)為Q-強(qiáng)化學(xué)習(xí)具有對(duì)環(huán)境優(yōu)秀的適應(yīng)能力。WIERING等[3]通過引入網(wǎng)格網(wǎng)絡(luò)系統(tǒng),開發(fā)了基于模型的RL-TSC方法,此方法主要用于高流量的交通流,和固定配時(shí)相比可以大大降低車均延誤。KUYER等[4]在前人的基礎(chǔ)上,通過協(xié)調(diào)模型法并結(jié)合分布式算法,建立了新的RL-TSC 系統(tǒng),不過該法對(duì)硬件具有一定要求,因?yàn)樯婕暗蕉鄠€(gè)Agent間的協(xié)調(diào)。BALAJI等[5]對(duì)自適應(yīng)信號(hào)配時(shí)模型展開論述,在模型中加入周邊路口的交通狀態(tài)、延誤等因子,建立了更加完善的城市道路Agent系統(tǒng)的體系框架,并使之更加具有實(shí)用性與泛用性。王新[6]設(shè)計(jì)的城市TSC系統(tǒng)可適用于單交叉口和井字路網(wǎng),利用Q強(qiáng)化學(xué)習(xí)算法[7-10]對(duì)信號(hào)配時(shí)決策法進(jìn)行優(yōu)化,可以完成相鄰路口之間的信息交互。文峰等[11]接著他人的研究成果[12-15]提出使用多個(gè)深度置信網(wǎng)絡(luò)的DQN方法,并把此方法與交叉口的信號(hào)配時(shí)相結(jié)合,提高了信號(hào)配時(shí)的有效性,但此方法強(qiáng)調(diào)單一交叉口,且每個(gè)交叉口都是獨(dú)立的。
綜上所述,現(xiàn)階段對(duì)于自適應(yīng)交通信號(hào)配時(shí)的研究開始逐漸涉及強(qiáng)化學(xué)習(xí),但是這類研究多是針對(duì)單一交叉口,也即更加強(qiáng)調(diào)獨(dú)立強(qiáng)化學(xué)習(xí)[16]??墒沁@些方法應(yīng)用于一個(gè)擁有若干交叉口的干道時(shí),每多涉及一個(gè)交叉口,狀態(tài)空間的數(shù)量就會(huì)爆炸性地增長(zhǎng),就會(huì)出現(xiàn)維數(shù)災(zāi)難。此外,單一交叉口的研究結(jié)果對(duì)整個(gè)干道甚至整個(gè)路網(wǎng)效率的提升幫助及其有限。因而,本文擬提出一個(gè)基于Q-強(qiáng)化學(xué)習(xí)的干道信號(hào)配時(shí)優(yōu)化模型, 通過引入干道相鄰交叉口的信息交互機(jī)制,消除維數(shù)災(zāi)難問題。同時(shí)將此方法應(yīng)用在中山市主城區(qū)的道路上進(jìn)行分析和仿真,證明了方法的可行性和有效性。
Q-強(qiáng)化學(xué)習(xí)是一個(gè)基于值的強(qiáng)化學(xué)習(xí)算法,利用Q函數(shù)尋找最優(yōu)的“動(dòng)作—選擇”策略[17]。其公式為
(1)
Q-強(qiáng)化學(xué)習(xí)的特點(diǎn)[18]有:
① 它根據(jù)動(dòng)作值函數(shù)評(píng)估應(yīng)該選擇哪個(gè)動(dòng)作,這個(gè)函數(shù)決定了處于某一個(gè)特定狀態(tài)以及在該狀態(tài)下采取特定動(dòng)作的獎(jiǎng)勵(lì)期望值。
② 函數(shù)Q(s,a)→返回在當(dāng)前狀態(tài)下采取該動(dòng)作的未來獎(jiǎng)勵(lì)期望。
③ 在我們探索環(huán)境之前:Q-table 給出相同的任意的設(shè)定值→ 但是隨著對(duì)環(huán)境的持續(xù)探索→Q給出越來越好的近似。
此模型的建立方法[19]可分為以下步驟:
(1) 路口的狀態(tài)空間為S,假定周期C和每個(gè)相位綠燈時(shí)間gi是狀態(tài)變量。對(duì)于四相控十字路口,那么S=(C,g1,g2,g3,g4)。
(2) 交叉口信號(hào)燈配時(shí)動(dòng)作的集合A對(duì)于交叉口的交通狀態(tài),把固定配時(shí)作為起始信號(hào)配時(shí)方案,再修改各個(gè)相位的綠燈時(shí)間,得到相應(yīng)的信號(hào)燈配時(shí)動(dòng)作的集合。對(duì)于四相控路口,設(shè)Δgi為第i相位的綠燈時(shí)間修改量,每個(gè)相位都采用3種動(dòng)作,即減少綠燈時(shí)間1 s,綠燈時(shí)間不變,增加綠燈時(shí)間1 s,即Δgi={-1 s,0 s,+1 s},則A={(g1+Δg1,g2+Δg2,g3+Δg3,g4+Δg4)},此外,A是有限且離散的。
(3) 獎(jiǎng)懲函數(shù)r(s,a)為負(fù)面回報(bào),即行為動(dòng)作a完成后,車均延誤越大,函數(shù)r(s,a)隨之增大,懲罰也越大。r(s,a)的計(jì)算方法如下:
(2)
式中,rt(s,a)是在狀態(tài)s時(shí),t時(shí)間步發(fā)生行為動(dòng)作a得到的回報(bào);dtk是t時(shí)間步所對(duì)應(yīng)的信號(hào)燈配時(shí)動(dòng)作集合A在行為動(dòng)作a發(fā)生后周期內(nèi)車均延誤;dt0是t的起始方案在周期內(nèi)的車均延誤;C0、Ck是動(dòng)作變化前后的信號(hào)配時(shí)方案周期。
(4) 通過以上分析,算法如下:
① 設(shè)學(xué)習(xí)速率αt、折減系數(shù)γ;
② 令t=0,把所有交叉口的Q0(s0,a0)設(shè)置成固定配時(shí)方案的平均延誤;
③ 按順序進(jìn)行各個(gè)時(shí)間步;
④ 選擇一個(gè)起始狀態(tài)s0;
⑤ 在狀態(tài)s0所對(duì)應(yīng)的信號(hào)燈配時(shí)動(dòng)作集合A中選一個(gè)行為動(dòng)作at+1;
⑥ 執(zhí)行行為動(dòng)作at+1,并計(jì)算此時(shí)的回報(bào)rt+1,然后進(jìn)行下一狀態(tài)st+1;
⑦ 此處的目標(biāo)是車輛平均延誤盡可能小,從而保證Q值最小,接著利用公式迭代Q-函數(shù):
⑧s←st+1,t←t+1,繼續(xù)返回③。
單交叉口交通信號(hào)配時(shí)優(yōu)化模型的基本流程如圖1所示。
圖1 單交叉口交通信號(hào)配時(shí)優(yōu)化模型的基本流程
對(duì)于單個(gè)交叉口的強(qiáng)化學(xué)習(xí)模型,若放在干道中使用,則具有其自身的局限性,即每多涉及一個(gè)交叉口,按照Q-強(qiáng)化學(xué)習(xí)的定義,狀態(tài)空間的數(shù)量就會(huì)爆炸性地增長(zhǎng),在每個(gè)時(shí)間步內(nèi),每個(gè)交叉口Agent之間均會(huì)進(jìn)行信息的交互,然后調(diào)整自身的動(dòng)作,信息量會(huì)指數(shù)形式增加,長(zhǎng)期學(xué)習(xí)過程中就會(huì)出現(xiàn)維數(shù)災(zāi)難。故而引入交互機(jī)制,具體方法是:干道上相鄰交叉口之間,可以通過它們的交通信號(hào)控制Agent實(shí)現(xiàn)直接交換信號(hào)配時(shí)動(dòng)作和交通狀態(tài),對(duì)單交叉口優(yōu)化模型進(jìn)行擴(kuò)展,以達(dá)到提高干道上相鄰交叉口間信息交互的效率并增強(qiáng)模型的適用性以及求解算法的有效性。
干道上的各交叉口在進(jìn)行本交叉口的交通信號(hào)配時(shí)決策時(shí)都會(huì)被其他交叉口尤其是其上下游的交叉口交通信號(hào)配時(shí)的變化所影響,所以在干道上相鄰交叉口間,進(jìn)行交通信號(hào)控制Agent的交通狀態(tài)和行為動(dòng)作的交互是必要的,干道Q-強(qiáng)化學(xué)習(xí)模型的交互過程如圖2所示。
圖2 干道Q-強(qiáng)化學(xué)習(xí)模型的交互過程
對(duì)于一條干道上的某個(gè)交叉口來說,其上下游相鄰交叉口對(duì)其的交通影響最大,所以盡可能考慮其上下游相鄰交叉口的狀態(tài)空間可以在降低信息交互次數(shù)的同時(shí)保證模型的可靠性。在每個(gè)時(shí)間段內(nèi),先遍歷這個(gè)交叉口動(dòng)作集中的每一個(gè)動(dòng)作,以此交叉口和相鄰2個(gè)交叉口的Q值之和為目標(biāo)函數(shù),目標(biāo)函數(shù)最小時(shí),得到一個(gè)最優(yōu)動(dòng)作,按照這種方法,當(dāng)干道上每一個(gè)交叉口Agent的動(dòng)作都被改變時(shí),跳出此時(shí)間段,等待下一個(gè)時(shí)間段重復(fù)此流程。這個(gè)方法大大降低了交叉口Agent之間的信息交互次數(shù)。
基于Q-強(qiáng)化學(xué)習(xí)的干道交叉口信號(hào)配時(shí)模型(簡(jiǎn)稱干道Q-強(qiáng)化學(xué)習(xí)模型)的模型訓(xùn)練方法如下:
(3)
重復(fù)這個(gè)過程,等到干道上所有交叉口的交通信號(hào)控制Agent都改變了它們的行為動(dòng)作為止。
圖3 干道Q-強(qiáng)化學(xué)習(xí)模型的基本結(jié)構(gòu)框架
對(duì)于干道的信號(hào)控制來說,工作做到這里已經(jīng)完成。但是,在城市道路中,車流量具有實(shí)時(shí)而且動(dòng)態(tài)的特征,可是信號(hào)配時(shí)相位、相序、周期的調(diào)整會(huì)涉及到各個(gè)路口行為動(dòng)作的選擇,這對(duì)于最小時(shí)間步t的設(shè)定具有一定的影響。
按照一般情況,交叉口信號(hào)配時(shí)周期不宜小于60 s,而模型的計(jì)算時(shí)間遠(yuǎn)遠(yuǎn)小于交叉口信號(hào)配時(shí)周期,所以,最小時(shí)間步t宜設(shè)定為干道所有交叉口信號(hào)配時(shí)周期的最大值。這樣可以保證每次優(yōu)化都處于不同的信號(hào)周期,提升優(yōu)化效率。
中山市東區(qū)南北向最為關(guān)鍵的通道—興中道,是中山市城區(qū)南北向的一條主干道,也是一條模范嚴(yán)管路,該道路限速60 km/h,從南至北共有5個(gè)重要信號(hào)燈控交叉路口,沿街出入出口也偏多。
交通流量數(shù)據(jù)是通過支隊(duì)自建的信號(hào)控制平臺(tái)中安裝在路口進(jìn)口道處的交通線圈檢測(cè)器獲取的。線圈檢測(cè)器作為一種高可靠性的全場(chǎng)景檢測(cè)手段,在實(shí)際應(yīng)用中是最為可靠的車輛檢測(cè)器,能夠用于分析存在的主要交通特性。以下數(shù)據(jù)分析時(shí)段中早高峰時(shí)段定為7:00-9:00時(shí),平峰時(shí)段定為9:00-11:00時(shí)。
經(jīng)過實(shí)際觀察以及市民反饋得到的信息,興中道也是交通問題頻發(fā)路段。以興中道為例來進(jìn)行交叉口間交通信號(hào)配時(shí)決策分析。
仿真所使用的路網(wǎng)如圖4所示:從上到下交叉口的間距分別是: 612、681、321 m。南北為主干道方向,自由車流速度45 km/h,早高峰(7:00-9:00)時(shí),南北向車流量qSN=1 488 輛/h,qNS=1 232 輛/h,東西向的流量分別為:qEW1=713 輛/h,qWE1=728 輛/h,qEW2=qWE2=903 輛/h,qEW3=1 072 輛/h,qWE3=1 153 輛/h,qEW4=830 輛/h,qWE4=635 輛/h。平峰(9:00-11:00)時(shí),南北向車流量qSN=1 161 輛/h,qNS=1 050 輛/h, 東西向車流量分別為:qEW1=580 輛/h,qWE1=451 輛/h,qEW2=502 輛/h,qWE2=435 輛/h,qEW3=850 輛/h,qWE3=909 輛/h,qEW4=207 輛/h,qWE4=271輛/h。
圖4 仿真所使用的路網(wǎng)
針對(duì)這兩種強(qiáng)化學(xué)習(xí)模型,干道上每一交叉口的Agent在做決策用到Q-學(xué)習(xí)算法時(shí),只受到該交叉口的狀態(tài)和行為動(dòng)作影響,控制中心發(fā)出指令判斷需要協(xié)調(diào)的車流方向。以興中道為例,事實(shí)上,南向北方向的車流量更大,控制中心起始選擇南向北方向作為協(xié)調(diào),仿真所使用的路網(wǎng)如圖4所示,南向北車道上的車得到行駛優(yōu)先權(quán)。
圖5和圖6所示分別為1、2、3、4路口早高峰(7:00-9:00)和平峰(9:00-11:00)的干道上各路口固定信號(hào)配時(shí)相位圖。
圖5 干道上各路口早高峰固定配時(shí)相位圖
圖6 干道上各路口平峰固定配時(shí)相位圖
圖7 興中道路網(wǎng)系統(tǒng)車均延誤
取興中道-松苑路(2號(hào)交叉口)為模型訓(xùn)練的開始,Δgi={-1 s,0 s,+1 s},從而得到該交叉口此時(shí)間段的動(dòng)作集,開始模型訓(xùn)練。
把上文所述的路網(wǎng)的平均延誤當(dāng)做性能指標(biāo),不同的兩種車流情況下,即南北向均得到較小車流量(平峰,接近自由流)以及較大車流量(早高峰,接近飽和流量)的時(shí)候,固定配時(shí)、單交叉口優(yōu)化模型、干道Q-強(qiáng)化學(xué)習(xí)模型3種方案仿真結(jié)果如圖7所示。
總的來說,兩種基于強(qiáng)化學(xué)習(xí)的配時(shí)方法的車均延誤小于固定配時(shí)的車均延誤。
經(jīng)過多次仿真實(shí)驗(yàn)可以看出,干道Q-強(qiáng)化學(xué)習(xí)模型在平峰流量的情況下具備快速收斂的作用。實(shí)驗(yàn)證明,經(jīng)過300次迭代運(yùn)行后,干道Q-強(qiáng)化學(xué)習(xí)模型已經(jīng)開始收斂,相比單交叉口優(yōu)化模型還未開始收斂具有優(yōu)勢(shì)。當(dāng)車流量接近飽和流量時(shí),干道Q-強(qiáng)化學(xué)習(xí)的效果逐漸變差但仍具備一定優(yōu)勢(shì)。
對(duì)于平峰低流量的外部環(huán)境,干道Q-強(qiáng)化學(xué)習(xí)模型的收斂速度在單交叉口獨(dú)立優(yōu)化模型的基礎(chǔ)上提升76.79%,車均延誤降低17.93%。低流量下不同模型的收斂速度和車均延誤見表1。
表1 低流量下不同模型的收斂速度和車均延誤
對(duì)于早高峰高流量的外部環(huán)境,干道Q-強(qiáng)化學(xué)習(xí)模型不能保證模型一定收斂,10次仿真實(shí)驗(yàn)結(jié)果有2次并未收斂(在模型未收斂時(shí),下一時(shí)間段的信號(hào)相位保持不變),但是在這種高流量的情況下,此模型同樣具備快速收斂的作用。在收斂情況下,干道Q-強(qiáng)化學(xué)習(xí)模型的收斂速度在單交叉口獨(dú)立優(yōu)化模型的基礎(chǔ)上提升67.77%。高流量下不同模型的收斂速度和車均延誤見表2。
表2 高流量下不同模型的收斂速度和車均延誤
該仿真運(yùn)行結(jié)果證實(shí)干道Q-強(qiáng)化學(xué)習(xí)模型通過引入相鄰交叉口的信息交互,有效地改善了Q-強(qiáng)化學(xué)習(xí)模型直接應(yīng)用在干道上多個(gè)交叉口時(shí)的局限性,此模型能夠改善相關(guān)交通問題。
本文在交叉口交通信號(hào)控制單交叉口獨(dú)立優(yōu)化模型的基礎(chǔ)上,利用干道相鄰交叉口間的交互機(jī)制對(duì)模型進(jìn)行優(yōu)化,解決了該模型在實(shí)際應(yīng)用中有可能出現(xiàn)的維數(shù)災(zāi)難問題。從仿真結(jié)果來看,當(dāng)車流量處于較小水平(平峰期,此時(shí)車流狀態(tài)接近自由流,車輛間干擾較小)時(shí),基于Q-強(qiáng)化學(xué)習(xí)的干道信號(hào)配時(shí)決策方法對(duì)比固定配時(shí)和獨(dú)立強(qiáng)化學(xué)習(xí)算法優(yōu)越性明顯,既縮短了延誤,又提升了收斂速率;當(dāng)車流量處于較高水平(高峰期,此時(shí)車流量接近飽和流量)時(shí),基于Q-強(qiáng)化學(xué)習(xí)的干道信號(hào)配時(shí)決策方法在延誤方面對(duì)比固定配時(shí)和獨(dú)立強(qiáng)化學(xué)習(xí)算法有所改善但差別不大,在收斂速率上有一定優(yōu)越性。因此,本文還存在一些后續(xù)的問題值得研究,即在較大流量時(shí),該模型是否可以具備更強(qiáng)大的環(huán)境適應(yīng)能力和動(dòng)態(tài)協(xié)調(diào)能力,比如在這種特殊情況下,是否可以改進(jìn)協(xié)調(diào)機(jī)制,添加一個(gè)新的影響因子,以達(dá)到提高交通運(yùn)行效率的目的。