章立輝,余宏鑫,熊滿初,胡文琴,王亦兵
(1. 浙江大學(xué) 建筑工程學(xué)院 智能交通研究所,浙江 杭州 310058;2. 浙江大學(xué) 建筑設(shè)計(jì)研究院有限公司,浙江 杭州 310014;3. 浙江大學(xué) 平衡建筑研究中心,浙江 杭州 310014)
為解決高速公路擁堵問題,J.A.WATTLE-WORTH[1]提出了高速公路匝道控制算法;G.GOMES等[2]研究表明匝道控制可有效緩解高速公路擁堵提高通行效率;D.P.MASHER等[3]提出基于需求-容量差的開環(huán)控制算法,以下游流量最大化為目標(biāo),通過計(jì)算匝道上下游的需求容量差來調(diào)節(jié)匝道入流;M.PAPAGEORGIOU等[4]提出了經(jīng)典的閉環(huán)控制模型ALINEA,通過反饋控制將主線下游車道占有率控制在期望值附近;WANG Yibing等[5]將比例積分微分控制中的積分項(xiàng)引入ALINEA模型中,提出的PI-ALINEA模型能夠更好地應(yīng)對(duì)由于下游瓶頸導(dǎo)致的擁堵;賀敬凱等[6]建立了基于BP神經(jīng)網(wǎng)絡(luò)的入口匝道控制器,仿真實(shí)驗(yàn)發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)可有效地應(yīng)用于入口匝道控制;趙明等[7]提出基于迭代學(xué)習(xí)的入口匝道控制方法,通過數(shù)學(xué)分析和仿真實(shí)驗(yàn),證明其在匝道受限條件下仍能保持較好的控制效果;CHEN Jiming等[8]根據(jù)收集的8.9億條匝道車輛紀(jì)錄構(gòu)建了動(dòng)態(tài)擁堵閾值,設(shè)計(jì)了自適應(yīng)匝道控制方法;CI Yusheng等[9]引進(jìn)基于小波神經(jīng)網(wǎng)絡(luò)的交通流量預(yù)測模型來預(yù)測短時(shí)交通需求,提高了匝道控制效果;C.JACOB等[10]將強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)引入匝道控制;王興舉等[11]提出了不完全信息條件下的強(qiáng)化學(xué)習(xí)型高速公路匝道控制方法,實(shí)驗(yàn)比較了不同合流交通量下的控制效果,發(fā)現(xiàn)在交通量較大的情況下控制效果非常明顯;M.DAVARYNEJAD等[12]提出了基于標(biāo)準(zhǔn)Q學(xué)習(xí)的、考慮匝道排隊(duì)長度限制的強(qiáng)化學(xué)習(xí)匝道控制模型,并證明該模型在長時(shí)間合流擁堵的交通場景下有較好的控制效果;K.RAZAEE等[13]采用kNN-TD算法,通過實(shí)際交通需求場景的驗(yàn)證,發(fā)現(xiàn)kNN-TD算法可顯著提高匝道控制模型的學(xué)習(xí)效率,能夠解決更加復(fù)雜的大規(guī)模匝道控制問題;LU Chao等[14]提出了滿足匝道排隊(duì)長度限制的強(qiáng)化學(xué)習(xí)型匝道控制一般框架,探討了固定交通需求下不同匝道排隊(duì)長度限制對(duì)匝道控制效果的影響;冉潤東[15]利用深度強(qiáng)化學(xué)習(xí)動(dòng)態(tài)調(diào)整ALINEA模型中的控制參數(shù),形成了同時(shí)考慮了合流區(qū)域通行效率和匝道排隊(duì)長度的DDPG-ALINEA模型,并在實(shí)際交通需求場景下進(jìn)行了驗(yàn)證;戴昇宏等[16]以視頻圖像為輸入,提出了基于圖像卷積神經(jīng)網(wǎng)絡(luò)的匝道控制深度強(qiáng)化學(xué)習(xí)模型,在長時(shí)間合流擁堵的場景下開展實(shí)驗(yàn),發(fā)現(xiàn)該模型提升了瓶頸疏散效率;ZHOU Yue等[17]針對(duì)匝道下游遠(yuǎn)距離處存在交通流瓶頸問題,提出了基于Q-learning的匝道控制方法,實(shí)驗(yàn)發(fā)現(xiàn)該方法可以減小合流區(qū)車流密度的波動(dòng);韓靖[18]提出了基于SARSA算法的單匝道控制模型,并將其擴(kuò)展至多匝道的協(xié)調(diào)控制,同時(shí)引入匝道負(fù)荷系數(shù)以優(yōu)化匝道排隊(duì)長度。
綜上,一方面,強(qiáng)化學(xué)習(xí)型匝道控制模型訓(xùn)練過程中交通需求輸入固定,訓(xùn)練場景單一,這樣訓(xùn)練得到的模型的魯棒性可能存在不足;另一方面,匝道控制方法對(duì)匝道排隊(duì)長度考慮不充分,在對(duì)匝道排隊(duì)長度進(jìn)行限制時(shí),或?qū)⒃训琅抨?duì)長度設(shè)置為懲罰項(xiàng),或?qū)υ训雷畲笈抨?duì)長度進(jìn)行限制,設(shè)置較簡單,不能隨交通流的變化而動(dòng)態(tài)調(diào)整。
筆者提出了一種平衡主線和匝道交通運(yùn)行的強(qiáng)化學(xué)習(xí)匝道控制(deep reinforcement learning-based adaptive ramp metering, DRLARM)模型。首先,考慮交通流的動(dòng)態(tài)變化以訓(xùn)練更為魯棒的自適應(yīng)匝道控制模型,且在獎(jiǎng)勵(lì)函數(shù)中考慮匝道排隊(duì)長度以平衡主線和匝道的交通運(yùn)行;然后,采用多種評(píng)價(jià)指標(biāo),包括車輛平均行程時(shí)間A、車道占有率o、匝道排隊(duì)長度W以及匝道損失時(shí)間比P等,對(duì)比分析了無控制及DRLARM、ALINEA和PI-ALINEA模型控制的控制效果,驗(yàn)證了DRLARM模型的有效性。
圖1為匝道控制系統(tǒng)構(gòu)成。圖中,Du為上游交通需求;Dr為匝道交通需求;qd為下游流量。在主線設(shè)置了檢測器1、檢測器2、檢測器3,以檢測交通流參數(shù),包括車道占有率o和車速v;在匝道設(shè)置了排隊(duì)檢測器,以檢測匝道排隊(duì)車輛數(shù)w??刂茊卧邮盏綑z測器的數(shù)據(jù)后,根據(jù)采用的匝道控制模型,計(jì)算出下一控制時(shí)段匝道信號(hào)燈的具體配時(shí)方案。
圖1 匝道控制系統(tǒng)構(gòu)成Fig. 1 Configurations of ramp metering system
強(qiáng)化學(xué)習(xí)作為解決序列決策問題的重要方法,賦予智能體自監(jiān)督學(xué)習(xí)能力,能夠自主與環(huán)境進(jìn)行交互,通過獲得的獎(jiǎng)勵(lì)不斷修正策略[19]。深度學(xué)習(xí)通常由多層非線性運(yùn)算單元組合而成,從大量訓(xùn)練數(shù)據(jù)中學(xué)習(xí)抽象的特征表示,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征[20]。而深度強(qiáng)化學(xué)習(xí)通過整合深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的力量,為順序決策提供了一個(gè)通用和靈活的框架,可用于解決交通控制和規(guī)劃問題[21]。筆者基于深度強(qiáng)化學(xué)習(xí)中的競爭結(jié)構(gòu)深度雙Q網(wǎng)絡(luò)(Dueling-DDQN)提出了DRLARM模型。
Dueling-DDQN是強(qiáng)化學(xué)習(xí)Q-learning算法和深度學(xué)習(xí)結(jié)合后的改進(jìn)算法。當(dāng)需要處理的問題較為復(fù)雜、狀態(tài)動(dòng)作空間維度較大時(shí),Q-learning算法往往會(huì)嚴(yán)重受限。因此,引入了DQN算法[22]來克服這一缺點(diǎn)。DQN算法利用一個(gè)深度學(xué)習(xí)網(wǎng)絡(luò),得到Q值的近似值,為強(qiáng)化學(xué)習(xí)應(yīng)用復(fù)雜工程環(huán)境提供可能[23]。但是,DQN算法也有不足,例如:過估計(jì),即如果對(duì)Q值的高估不均勻,便會(huì)導(dǎo)致采取錯(cuò)誤的最優(yōu)策略[24]。為解決這一問題,H.van HASSELT等[25]提出了深度雙Q網(wǎng)絡(luò)(DDQN)算法,其結(jié)構(gòu)如圖2。
圖2 DDQN算法框架Fig. 2 Framework of DDQN algorithm
交通控制問題可能存在許多具有相似價(jià)值的決策動(dòng)作,此時(shí)難以比較Q值大小,從而影響算法穩(wěn)定性。WANG Ziyu等[26]提出以競爭網(wǎng)絡(luò)結(jié)構(gòu)Dueling-(DQN)為主要網(wǎng)絡(luò)結(jié)構(gòu),將輸出Q值的Q值函數(shù)分解為狀態(tài)價(jià)值函數(shù)和動(dòng)作優(yōu)勢函數(shù),即
Q(st,at)=Vs(st)+Va(st,at)
(1)
式中:Q(st,at)為當(dāng)前狀態(tài)動(dòng)作下的Q值函數(shù);Vs(st)為當(dāng)前狀態(tài)下狀態(tài)價(jià)值函數(shù);Va(st,at)為當(dāng)前狀態(tài)動(dòng)作下的動(dòng)作優(yōu)勢函數(shù)。
在相同狀態(tài)下,估計(jì)智能體采取不同動(dòng)作時(shí)產(chǎn)生Q值,狀態(tài)價(jià)值函數(shù)Vs(st)不受動(dòng)作影響,而動(dòng)作優(yōu)勢函數(shù)Va(st,at)在不同動(dòng)作下會(huì)發(fā)生改變,這有助于提高模型的穩(wěn)定性?;诟偁幗Y(jié)構(gòu)的深度雙Q網(wǎng)絡(luò)便是將DDQN和Dueling-DQN兩種算法結(jié)合,同時(shí)具有兩者的優(yōu)勢。
對(duì)于匝道控制問題,在模型訓(xùn)練過程中,訓(xùn)練環(huán)境可能長時(shí)間處于相似的交通狀態(tài),導(dǎo)致采集的樣本分布不均衡,使Q值過估計(jì);同時(shí),匝道控制的效果受到交通環(huán)境和控制措施的共同影響。因此,筆者將基于競爭結(jié)構(gòu)的深度雙Q網(wǎng)絡(luò)運(yùn)用于解決匝道控制問題。
2.2.1 狀態(tài)選擇
狀態(tài)變量用于反映環(huán)境的變化。選擇車道占有率o、車速v、匝道排隊(duì)車輛數(shù)w作為基本狀態(tài)變量,即[o1,v1,o2,v2,o3,v3,w],其中,下標(biāo)1、2、3表示數(shù)據(jù)來自圖1中檢測器1、檢測器2、檢測器3。如果智能體僅根據(jù)流密速參數(shù)采用相同的動(dòng)作或者控制參數(shù),則可能產(chǎn)生截然相反的控制效果,即擁堵加劇時(shí),車道占有率將不斷增大,此時(shí)應(yīng)該延長匝道信號(hào)的紅燈時(shí)間以利于主線交通;擁堵逐漸消散時(shí),應(yīng)縮短匝道信號(hào)的紅燈時(shí)間讓更多的匝道排隊(duì)車輛通行。因此,引入車道占有率變化,即[o1-o1′,o3-o3′]來表示變化趨勢,其中o1′、o3′分別為上一控制周期檢測器1、檢測器3測得的車道占有率。如圖3中i點(diǎn),當(dāng)擁堵越發(fā)嚴(yán)重時(shí),曲線往ic方向發(fā)展;當(dāng)擁堵逐漸消散時(shí),曲線往iuc方向發(fā)展。可見,流密速參數(shù)相同,交通狀態(tài)改變趨勢卻可能不同。最終,確定狀態(tài)空間為[o1,v1,o2,v2,o3,v3,w,o1-o1′,o3-o3′]。
圖3 交通狀態(tài)示意Fig. 3 Schematic diagram of traffic state
2.2.2 動(dòng)作選擇
通過改變?cè)训佬盘?hào)配時(shí)來調(diào)節(jié)匝道交通流的入匝率。控制信號(hào)燈時(shí)長一般有3種形式:“一車一綠燈”“多車一綠燈”及“全信號(hào)周期”[27]。為了減少大車隊(duì)換道對(duì)主線交通的負(fù)面影響,筆者采用“一車一綠燈”的信號(hào)燈控制形式,即固定綠燈時(shí)長為2 s(一輛車通過所需時(shí)長),改變紅燈時(shí)長來調(diào)節(jié)進(jìn)入主線的車輛數(shù)。紅燈時(shí)長從集合{0,1,2,3,5,8,18}(單位:s)中選擇,由于綠燈時(shí)長2 s固定,由此可知,允許最大入匝流量分別為{1 800,1 350,1 000,800,600,400,200}(單位:veh/h)。
2.2.3 獎(jiǎng)勵(lì)函數(shù)設(shè)置
在自適應(yīng)匝道控制模型中,考慮動(dòng)態(tài)調(diào)整排隊(duì)長度限制以控制匝道車輛的損失時(shí)間。首先,引入匝道損失時(shí)間比P來評(píng)價(jià)匝道排隊(duì)限制措施的優(yōu)劣:
(2)
式中:tr為匝道車輛損失時(shí)間,s;tt為所有車輛總損失時(shí)間,s。
實(shí)現(xiàn)匝道排隊(duì)限制自適應(yīng)調(diào)整的目的是,在交通流條件變化時(shí)兼顧主線和匝道的損失時(shí)間,使匝道損失時(shí)間比值保持相對(duì)穩(wěn)定。
當(dāng)?shù)缆窊矶聲r(shí),總行程時(shí)間最小化的目標(biāo)可轉(zhuǎn)換為使主線的車道占有率接近期望占有率[28],即min(ob-oc)2,其中,oc為期望車道占有率,ob為主線瓶頸位置的車道占有率,即檢測器2測得的車道占有率o2(ob=o2)。所以,設(shè)第k個(gè)周期與總體通行效率相關(guān)的獎(jiǎng)勵(lì)Re(k)為
Re(k)=-(ob,k-oc)2
(3)
式中:ob,k為第k個(gè)周期主線瓶頸位置的車道占有率,%。
第k個(gè)控制周期內(nèi)所有車輛總損失時(shí)間tt,k可由式(4)得到[29]:
tt,k=T[T(Du,k+Dr,k-qd,k)+Nk-1]
(4)
式中:T為控制周期時(shí)長,T=20 s;Du, k、Dr, k分別為第k個(gè)周期內(nèi)上游、匝道的交通需求,veh/h;qd,k為第k個(gè)周期內(nèi)下游流出流量,veh/h;Nk-1為第k-1個(gè)周期系統(tǒng)內(nèi)的總車輛數(shù),veh。
因此,第k個(gè)周期內(nèi)所有車輛總損失時(shí)間可寫為
tt,k=T[T(Du, k+Dr, k) +Nk-1] -T2qd,k
(5)
根據(jù)流量守恒定律,下游流出流量即檢測器2所測主線通過流量,由Greenshields模型可得:
(6)
式中:α為比例系數(shù);vf為自由流車速,km/h;ob, k為第k個(gè)周期主線瓶頸位置的車道占有率,%。
聯(lián)立式(5)、式(6)可得:
(7)
式(7)中,除ob, k之外其他參數(shù)在第k個(gè)周期均為定值,因此tt, k可以看作關(guān)于ob, k的一元二次函數(shù)。
第k個(gè)周期內(nèi)匝道車輛損失時(shí)間tr,k可以通過第k個(gè)周期內(nèi)匝道排隊(duì)車輛數(shù)wk獲得,即
tr,k=Twk
(8)
聯(lián)立式(7)、式(8),第k個(gè)周期內(nèi)匝道車輛損失時(shí)間比Pk為
(9)
由式(9)可見,Pk與wk、1/ob,k2正相關(guān)??紤]到交通流暢通時(shí),1/ob, k2值可能會(huì)非常大,因此,在強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)中增加第k個(gè)周期的排隊(duì)?wèi)土P項(xiàng)Rc(k):
(10)
式中:β為懲罰權(quán)重系數(shù)。
在主線擁堵時(shí),懲罰項(xiàng)傾向于增加匝道排隊(duì)長度限制,優(yōu)先保障主線運(yùn)行;在主線不擁堵時(shí),保持匝道排隊(duì)長度限制不變(oc固定),從而不會(huì)導(dǎo)致匝道排隊(duì)?wèi)土P過大。在交通擁堵變化情況下,智能體會(huì)及時(shí)調(diào)整匝道排隊(duì)長度。
結(jié)合式(3)、式(10),最終第k個(gè)周期獎(jiǎng)勵(lì)函數(shù)R(k)如式(11):
R(k)=Re(k)+Rc(k)=-(ob,k-oc)2-
(11)
3.1.1 仿真設(shè)計(jì)和參數(shù)設(shè)置
采用微觀仿真來訓(xùn)練匝道控制模型,以期更真實(shí)地反應(yīng)交通流運(yùn)行。微觀仿真平臺(tái)選用SUMO。選取杭州繞城高速三墩互通段搭建仿真路網(wǎng),主線為2車道,合流區(qū)長度約200 m,道路線形如圖4。
圖4 仿真路網(wǎng)道路線形Fig. 4 Simulated road network road alignment
SUMO中車輛的跟馳模型為Krauss模型,使用默認(rèn)參數(shù);換道模型為LC2013模型,由于原參數(shù)較為保守,為表達(dá)合流區(qū)車輛的換道沖突,修改了部分換道參數(shù),修改后得到道路通行能力約為4 900 veh/h,期望車道占有率為15%。關(guān)鍵的深度強(qiáng)化學(xué)習(xí)算法參數(shù)和車輛駕駛行為參數(shù)設(shè)置見表1。
表1 強(qiáng)化學(xué)習(xí)算法參數(shù)和車輛駕駛行為參數(shù)
3.1.2 兩階段訓(xùn)練
筆者將DRLARM模型的訓(xùn)練過程分為2個(gè)階段:
第1階段為單一場景訓(xùn)練階段,在某一固定交通流場景下訓(xùn)練出一套基本的強(qiáng)化學(xué)習(xí)控制模型。場景又分為下游有瓶頸時(shí)段和下游無瓶頸時(shí)段,主要通過改變下游最高限速vd來實(shí)現(xiàn),當(dāng)vd=100 km/h時(shí),表示下游無瓶頸;當(dāng)vd=30 km/h時(shí),表示下游有瓶頸。第1階段訓(xùn)練,設(shè)置訓(xùn)練輪數(shù)E= 300輪(每一訓(xùn)練輪數(shù)即為一次完整仿真,包含300個(gè)仿真動(dòng)作步長)。圖5為第1階段訓(xùn)練輸入交通需求D及模型總獎(jiǎng)勵(lì)R值曲線??梢?單一場景訓(xùn)練收斂較快,大約在E= 50輪,經(jīng)歷約1.5萬步后基本實(shí)現(xiàn)收斂,此后總獎(jiǎng)勵(lì)一直處于震蕩狀態(tài)。
圖5 第1階段輸入交通需求及總獎(jiǎng)勵(lì)曲線Fig. 5 Traffic demand and total reward curve input during the first period
第2階段為多場景訓(xùn)練階段,設(shè)計(jì)多種不同的交通流場景,不同訓(xùn)練輪數(shù)E加載不同的交通流場景開展循環(huán)訓(xùn)練。第2階段訓(xùn)練時(shí),保持下游無瓶頸和下游有瓶頸2種情況,筆者構(gòu)造了短時(shí)輕擁堵、長時(shí)輕擁堵、短時(shí)重?fù)矶录伴L時(shí)重?fù)矶鹿?種訓(xùn)練場景。4種訓(xùn)練場景高峰擁堵時(shí)長t′peak、下游無瓶頸時(shí)高峰總需求Dpeak1、下游有瓶頸時(shí)高峰總需求Dpeak2見表2。第2階段訓(xùn)練設(shè)置訓(xùn)練輪數(shù)E=1 000輪。
表2 第2階段4種訓(xùn)練場景交通需求參數(shù)
不同交通需求對(duì)匝道控制下車輛平均行程時(shí)間影響不同,依次循環(huán)輸入4種訓(xùn)練場景,第2階段各訓(xùn)練場景下的車輛平均行程時(shí)間A的變化情況如圖6。由圖6可見:
圖6 第2階段4種訓(xùn)練場景的車輛平均行程時(shí)間曲線Fig. 6 Average travel time curves under 4 kinds of training scenarios during the second period
1)隨著訓(xùn)練輪數(shù)E的增加,4種訓(xùn)練場景車輛平均行程時(shí)間的平均值曲線震蕩逐漸減小,有明顯收斂趨勢,但收斂速度較慢,在E≈ 800輪時(shí),即24萬步后基本收斂。
2)車輛平均行程時(shí)間收斂速度,以訓(xùn)練場景2、訓(xùn)練場景4下降較為明顯,訓(xùn)練場景3下降有限,而訓(xùn)練場景1前后幾乎沒有變化,原因可能是,第2階段訓(xùn)練的訓(xùn)練場景1與第1階段訓(xùn)練的單一訓(xùn)練場景相差不大,模型在該場景下已達(dá)到最佳性能。
為了驗(yàn)證筆者提出的DRLARM模型的有效性,選擇了4種控制模型進(jìn)行對(duì)比。
第1、2種模型為經(jīng)典匝道控制模型——ALINEA模型、PI-ALINEA模型,通過閉環(huán)控制,利用反饋得到的占有率誤差來動(dòng)態(tài)調(diào)整匝道的流量。模型匝道流出量見式(12)、式(13):
ALINEA模型:
qr,k=qr,k-1+Kr(oc-ob,k)
(12)
PI-ALINEA模型:
qr,k=qr,k-1+Kr(oc-ob,k)-Kc(ob,k-1-ob,k)
(13)
式中:qr, k為第k個(gè)周期匝道流出量,veh/h;Kr和Kc為控制參數(shù),根據(jù)經(jīng)驗(yàn)設(shè)置Kr= 4 km·lane/h,Kc= 20 km·lane/h。
第3種模型——RL1模型,其框架與筆者提出的DRLARM模型相同,只是改變了獎(jiǎng)勵(lì)函數(shù),為R=-(ob-oc)2-βw,即匝道排隊(duì)限制不會(huì)隨著交通狀態(tài)的改變而改變。
第4種模型——RL2模型,其與DRLARM模型的不同在于RL2模型采用單一固定的交通流場景進(jìn)行深度強(qiáng)化學(xué)習(xí)訓(xùn)練,用以驗(yàn)證DRLARM模型的魯棒性。
表3為筆者提出的DRLARM模型,以及第3、4種模型的功能設(shè)置的區(qū)別匯總。
表3 3個(gè)強(qiáng)化學(xué)習(xí)模型區(qū)別
表4 不同測試場景下的交通需求輸入
3.3.1 車輛平均行程時(shí)間A
5種控制模型及無控方案NC在不同測試場景下獲得的車輛平均行程時(shí)間A仿真結(jié)果如圖7。由圖7可見:
圖7 不同測試場景下車輛平均行程時(shí)間變化Fig. 7 Variations of average travel time under different test scenarios
1)總體來說,測試場景19~場景36的平均行程時(shí)間A要明顯高于測試場景1~場景18的,即下游存在瓶頸造成的交通延誤比交通需求超過道路通行能力(下游無瓶頸)產(chǎn)生的交通延誤更嚴(yán)重。
2)在所有測試場景下,幾種模型控制及無控制下車輛平均行程時(shí)間A由小到大排序?yàn)?ADRLARM 3)無論何種模型控制,當(dāng)總需求D不變時(shí),上游交通需求Du占比越大,車輛平均行程時(shí)間A越小。究其原因,上游交通需求越大則匝道需求越少,匝道控制模型更傾向于減少賦予匝道的通行時(shí)間,這樣就減少了對(duì)主線車輛通行的影響。由于主線交通量明顯大于匝道交通量,受益車輛顯著大于受損車輛,因此,整體運(yùn)行效率得到提高。 表5 各模型下平均行程時(shí)間的平均值 3.3.2 主線車道占有率o 圖8分別為下游無瓶頸(選擇測試場景14)和下游有瓶頸場景(選擇測試場景32)下無控、ALINEA模型和DRLARM模型實(shí)施后,車道占有率o的時(shí)空變化。圖8中縱坐標(biāo)y=0點(diǎn)為合流點(diǎn)位置,y為“+”代表合流點(diǎn)下游,為“-”代表合流點(diǎn)上游。圖中自上而下分別為無控、ALINEA模型控制和DRLARM模型控制。 圖8 下游有/無瓶頸下車道占有率時(shí)空變化Fig. 8 Temporal and spatial variations of lane occupancy ratio with and without bottlenecks downstream 由圖8可見: 1)無控制措施時(shí),無論下游有無瓶頸,主線均出現(xiàn)了嚴(yán)重?fù)矶?擁堵發(fā)生在合流區(qū),持續(xù)時(shí)間約t≈5 000 s。比較而言,當(dāng)下游存在瓶頸時(shí),主線擁擠更嚴(yán)重。 2)ALINEA、DRLARM模型均極大地緩解了主線擁堵,控制實(shí)施后車道占有率明顯降低。 3)無論下游是否存在交通瓶頸,ALINEA模型總是將車道占有率保持在臨界占有率附近,而DRLARM模型由于額外考慮匝道排隊(duì)的限制,車道占有率可能長期保持略高于期望占有率。 4)下游無瓶頸場景,ALINEA模型控制時(shí),主線出現(xiàn)連續(xù)短時(shí)排隊(duì)的情況;下游有瓶頸場景,ALINEA模型控制時(shí),下游交通瓶頸處擁堵緩解效果不如DRLARM模型。 綜上,與ALINEA模型相比,DRLARM模型既提高了總體通行效率,又減少了主線交通流的波動(dòng)。 3.4.1 匝道排隊(duì)長度W 圖9為不同模型控制及無控制下,36種測試場景中的匝道排隊(duì)長度W(仿真時(shí)間內(nèi)匝道排隊(duì)車輛數(shù)w的平均值)。 圖9 不同測試場景下匝道排隊(duì)長度Fig. 9 Average ramp queuing lengths under different test scenarios 由圖9可見: 1)測試場景19~測試場景36的匝道排隊(duì)長度W小于測試場景1~測試場景18的,原因是前者的交通需求相對(duì)較小。 2)所有測試場景下,各種控制模型的匝道排隊(duì)長度W由大到小的排序?yàn)?WALINEA>WPI-ALINEA>WDRLARM>WRL2>WRL1>WNC,說明DRLARM模型相比于ALINEA和PI-ALINEA模型,能有效降低匝道排隊(duì)長度。 3)若降低路段車輛平均行程時(shí)間A,則路段平均行程時(shí)間的匝道控制策略伴隨著匝道排隊(duì)長度W的上升而下降,表明匝道排隊(duì)長度W和路段平均行程時(shí)間A之間呈負(fù)相關(guān)。 表6 各模型控制下匝道排隊(duì)長度平均值 圖10為下游無瓶頸場景〔圖8(a)〕下,ALINEA、DRLARM模型仿真得到的匝道排隊(duì)車輛數(shù)w的變化曲線。 圖10 下游無瓶頸下匝道排隊(duì)車輛數(shù)曲線Fig. 10 Curve of the number of vehicles queuing on the ramp without bottleneck downstream 由圖10可見:DRLARM模型的匝道排隊(duì)車輛數(shù)峰值wpeak比ALINEA模型的低。在擁堵形成階段,由于考慮了交通狀態(tài)的變化趨勢,DRLARM模型較早開始抑制入匝流量,從而減少了對(duì)主線的負(fù)面影響,所以,DRLARM模型控制下匝道排隊(duì)車輛數(shù)早期增長較快;在擁堵消散階段,DRLARM模型控制下匝道排隊(duì)車輛數(shù)較早下降,從而,匝道車輛可以較快疏散。 3.4.2 匝道損失時(shí)間比P 圖11為下游無瓶頸場景,不同需求分布下(隨機(jī)選擇測試場景1~測試場景18),DRLARM、ALINEA和RL1模型分別經(jīng)過50次仿真得到的匝道損失時(shí)間比P。 圖11 不同交通需求下匝道損失時(shí)間比Fig. 11 Ramp loss time radio under different traffic scenarios 由圖11可見: 1)3種模型的匝道損失時(shí)間比P的排序?yàn)?PALINEA>PDRLARM>PRL1,這與各模型控制下匝道車輛平均排隊(duì)長度的變化相吻合。 2)在不同交通需求分布下,ALINEA、RL1、DRLARM模型控制的匝道損失時(shí)間比P變化幅度分別為0.129、0.128、0.048,DRLARM模型的最小,表明DRLARM模型控制下匝道損失時(shí)間比相對(duì)很穩(wěn)定,魯棒性較強(qiáng)。 綜上,筆者提出的DRLARM模型能夠隨著交通狀態(tài)的變化動(dòng)態(tài)平衡匝道損失時(shí)間和主線損失時(shí)間,不會(huì)過多犧牲匝道車輛或主線車輛,確保路權(quán)公平性,也使得匝道損失波動(dòng)較小。 針對(duì)現(xiàn)有高速公路匝道控制方法存在的魯棒性不足和匝道排隊(duì)失衡問題,結(jié)合Dueling-DDQN深度強(qiáng)化學(xué)習(xí)算法,開發(fā)了一種魯棒自適應(yīng)匝道控制模型DRLARM;通過對(duì)主線和匝道交通流的分析,構(gòu)造了同時(shí)考慮主線交通和匝道排隊(duì)的獎(jiǎng)勵(lì)函數(shù),其兼顧通行效率和路權(quán)公平性;采用兩階段訓(xùn)練方法,得到了魯棒自適應(yīng)控制模型;首次提出用匝道損失時(shí)間比來衡量控制方法的路權(quán)公平性;選取平均行程時(shí)間、車道占有率、匝道平均排隊(duì)長度和匝道損失時(shí)間比作為評(píng)價(jià)指標(biāo),將DRLARM模型與無控、ALINEA模型、PI-ALINEA模型進(jìn)行仿真比較。研究得到以下主要結(jié)論: 1)DRLARM、ALINEA和PI-ALINEA模型中,DRLARM模型的車輛平均行程時(shí)間最低,表明DRLARM模型提升通行效率的效果最好。 2)DRLARM模型可有效平衡匝道車流和主線車流的損失時(shí)間,提高路權(quán)公平性。 3)采用混合多場景開展模型訓(xùn)練可有效提高DRLARM模型的魯棒性。3.4 匝道指標(biāo)分析
4 結(jié) 論