陳圣穎
(深圳市金溢科技股份有限公司,廣東 深圳 518000)
在城市交通的自動管理程序中,交通信號起著中樞神經(jīng)的作用,可以在時間上調(diào)度和分配發(fā)生沖突的交通流。但是,往往因為交通信號控制的方案缺乏合理性,經(jīng)常造成交叉路口和多條道路發(fā)生擁堵,所以交通信號控制方案的科學合理地制定,是避免交通擁擠、堵塞的關鍵措施。而基于城市道路交通流的不確定性、時變性以及非線性,具備一定的建模難度,難以通過數(shù)學模型的精確性對交通信號控制方案進行優(yōu)化,從而需要一個應對以上交通流特點的科學有效控制措施,而強化學習的智能體優(yōu)勢在與環(huán)境的交互中學習以及自適應構成優(yōu)良、有效地控制手段,本文將從以下幾個方面進行研究。
強化學習以一類算法的形式存在,借助從起始的完整的隨機操作,不間斷的探索、嘗試,從每一次的錯誤中總結經(jīng)驗,找到可以遵循的內(nèi)部規(guī)律,最后找到實現(xiàn)目標地最佳途徑。該學習方法的核心蘊涵是引導智能體在環(huán)境里不斷學習。強化學習由以下四個方面所構成:state(環(huán)境變量)、Agent(智能體)、action(策略行為)和reward(獎懲)。強化學習的基本過程是借助每個時間步(timestep)把一個行為(action)生成,然后與環(huán)境發(fā)生作用,達到最大化預期積累的目的。見圖1。
圖1 強化學習框架
強化學習各個時間步的累積獎勵用下面的公式進行表示:
(1)
式中:G表示未來T個時間步針對第t個時間步的獎勵積累值,各個時間步的獎勵值設定為R。從時間軸的角度,容易獲得的是近處的獎勵值,難以獲得的是遠處的獎勵值,由此可以確定模型的訓練目的,最大限度地在時間軸上,確保遠處的獎勵值最大化。毋庸置疑,模型設計不能只是短期利益,必須著眼積累長期利益。要想實現(xiàn)價值目的或長遠利益的目標,給每個時間步的獎勵增加人權重是模型公式的變化,以此對這個時間步獎勵難度的表示,貌似某種注意力的體系。所以新形成的累積獎勵公式為
(2)
式中:r∈(0,1)。不難看出,時間步越遠,r被乘的就越多,表示獲得該時間步獎勵的難度。
強化學習的模型分為沒有任何的先驗的外觀或者形狀的模型(model-free)和人為的外觀模型(model-based)。前者的模型類型是指特定環(huán)境中,模型會被輸入一定的變量,而模型會根據(jù)輸入的變量進行策略的動作反應;而后者的模型類型則是對環(huán)境的理解,進行有效預期環(huán)境中特定條件下將來狀態(tài)。上面的model即為借助模型表示環(huán)境以及對環(huán)境的模擬。
強化學習的更新方式分為回合更新和單步更新。例如,針對計算機里的游戲場景,也是開始和結束構成游戲的回合?;睾细碌男问绞窃谟螒蚧睾祥_始后,智能體必須等待回合結束再對模型進行更新;而單步更新則是體現(xiàn)在模型更新在游戲操作的每一步都可以進行。
該算法類屬于價值的強化學習算法,即預計采取的行為在某一時間步的獎勵值利用Q-table來記錄和表示。該算法是以確定獎勵和懲罰的具體標準,例如哪些是該獲得正獎勵的正向行為,哪些是該受到懲罰的負向行為,這些都是通過Q-learning進行決策。如表1所示,該系統(tǒng)可以設定為兩種行為,用a1和a2來表示,S1表示為狀態(tài)1,S2表示狀態(tài)2。在S1狀態(tài)時,在獲得獎勵值方面a1比a2要高,由此模型利用a1可以達到狀態(tài)S2。
表1 Q-table示例
在S2狀態(tài)時,在獎勵值獲得方面采取a2比采取al要更高,所以模型要利用a2,然后達到下一個狀態(tài)。Q-learning以這樣的行為準則對每個時間步的行為作出選擇,并對環(huán)境形成作用力。當狀態(tài)達到S2的時候,該模式便會更新,這就是該模式的學習程序,基于Q(S2,a1)小于Q(S2,a2),把狀態(tài)2(S2)能得到的最大獎勵值Q(S2,a2)與衰減系數(shù)r相乘,另外與S1到S2的獎勵值R進行相加,同時,學習效率a與作為S1到S2的真實獎勵值的差值相乘,最終的步驟是對以前的Q(S1,a1)值進行累加,就可以被視為,就被作為Q-table中的Q(S1,al)的更新值。
對交通信號控制進行描述,有不同類型的兩種方法。
2)構件信息標準化的應用,解決了不同專業(yè)之間的溝通問題,建筑、室內(nèi)、結構、城規(guī)等相關技術人員可以用同一個信息化模型進行工作,有利于專業(yè)人員相互討論交流合作。
(1)根據(jù)信號燈狀態(tài)進行描述
對城市交叉路口附近所有可能發(fā)生的狀況進行表示,該方式要求各個路口控制器Agent對一切可能發(fā)生的狀況進行學習,直至全部車輛總共等待時間實施映射?;诮煌顩r的不確定性,將造成學習空間爆炸的情況。
(2)根據(jù)車輛狀態(tài)進行描述
描述交通狀態(tài)嘗試從單個車輛的視覺去進行。在該模式中,對單個車輛的等待時間實施值函數(shù)的評估,在對交叉路口控制器Agent進行決策的時候,必須對附近范圍內(nèi)所有車輛熟知。但車輛只是以運動對象的形式被控制器Agent觀察到,并不能對值函數(shù)的值進行計算和儲存。交叉口的控制器完成值函數(shù)的計算和存儲的任務,而Agent只是局限于車輛狀態(tài)的觀察。
由于交通信號控制應用了模型的Q學習算法,所以采用了以模型為基礎的交通信號控制方案,即所謂的TCI模式。此方法的基礎是描述車輛狀態(tài)的措施。設定當前信號燈進行反應的狀態(tài)下,全部的車輛都知曉目的地的等待時間。從而各個車輛都擁有的路口信號燈轉綠的收益值。而此收益值的計算方式是該車輛紅燈等待時間減去綠燈等待的時間。可以利用對應對信號燈車道上的車輛收益值總和的計算,選擇的該交叉口的最優(yōu)動作為最大收益值的信號燈組合。
TC1模式利用采取值函數(shù)Q(s,l)顯現(xiàn)在狀態(tài)s和置身路口信號燈動作為l的背景里車輛目的地到達整體等待的時間。到達目的地的總的等待時間。狀態(tài)S=[node direction position destination]node,顯現(xiàn)為車輛置身的交叉路口,而在該交叉路口車輛的行駛方位設定為direction,而車道上車輛的具體位置設定為position,車輛的終點地設定為destination,動作l∈{red green}。定義值函數(shù)V(s)顯現(xiàn)地是處在S狀態(tài)下車輛預期到達終點的平均的時間等待。更新的Q值函數(shù)的公式如(3)所示。
Q=(s,r)=∑P(s,l,s)(R(s,l,s)+rV(s))
(3)
式中,折扣因子為r(0 更新V值函數(shù)的公式如(4)所示。 (4) 式中:p(s,ls)顯示車輛在S狀態(tài)下以及當前信號燈采取動作l的情況下進入下一狀態(tài)s的可能性。p(lls)顯示S給定狀態(tài)下信號燈的反應動作l的可能性。利用最大貌似概率模型實施計算,形成的公式分別如式(5)和式(6)顯示 (5) (6) 式中:當前信號燈采取動作l的情況下到達下一狀態(tài)以及車輛狀態(tài)S的表示為C(s,l,s),而路口信號燈動作為l的情況發(fā)生的次數(shù)以及車輛在S狀態(tài)下的表示為C(s,l),車輛置身狀態(tài)S發(fā)生的次數(shù)用c(s)表示。 R(s,l,s)顯示車輛在信號燈實施行動l以后從狀態(tài)S轉移到狀態(tài)S的實時獎賞值,其計算可以利用下面(7)的公式 (7) 當狀態(tài)S和狀態(tài)S不相等的時候,就是車輛能夠繼續(xù)前行的標志,得到的獎勵為零。當狀態(tài)S和狀態(tài)S相等時,顯示車輛因為紅燈或者在向下一個車道進入的時候因為車輛堵塞不得已在原地停留,此刻要求車輛務必等待一個時間步,能獲得1個獎勵值,但這樣的獎勵值是變相的懲罰值。 下面的公式(8)顯示TC1模式的最優(yōu)動作選擇策略: (8) 信號燈l置身的車道上的車輛等待隊列用queuei來表示。等待投票機制是TC1利用的模式。該模式只是關注車輛等待狀態(tài)下的收益值,就是說只是允許置身等待狀態(tài)下的車輛實施投票,那些還在行駛狀態(tài)下的車輛無法投票,主要因素是那些行駛中的車輛不受信號燈改變的影響,可以繼續(xù)前行。 交通研究機構將TC1方法進行仿真實驗,試驗的軟件為GLD。試驗數(shù)據(jù)表明,TCI方式比定時信號控制措施更有優(yōu)勢,比較起來整體性更佳,也更健壯。更可以有的放矢地控制交通信號,大大降低了車輛的行駛的等待時間,降低了道路擁堵的系數(shù),交通網(wǎng)絡的通行能力顯著提高。 隨著大數(shù)據(jù)技術在道路交通領域的廣泛應用,以及逐漸積累完善的城市交通數(shù)據(jù),城市交通信號控制的發(fā)展會呈現(xiàn)結構更加復雜化,主要體現(xiàn)在拓撲、智能化以及數(shù)據(jù)驅動等技術層面。而與之相適應的是強化學習和深度學習技術在道路交通領域的創(chuàng)新和融合。而針對自動駕駛技術和車聯(lián)網(wǎng)的廣泛實踐,讓傳統(tǒng)的城市道路交通檢測技術面臨一定的挑戰(zhàn),相匹配的措施就是不斷擴充交通信號控制的實時數(shù)據(jù)。在這樣的背景下,會帶動車輛智能駕駛和交通信號控制的并駕齊驅,迎來道路交通全新的智能時代。3 結束語