盧守峰,張 術,劉喜敏
隨著車輛保有量的增加,中國大中城市交通擁擠的時段和范圍逐漸增大。對于城市的中心區(qū),不僅是早晚高峰出現交通擁擠,而是多個時段出現交通擁擠。交通壓力增大的直接體現是排隊長度增加,過飽和交叉口在一個周期內不能夠將排隊清空。以長沙市SCATS控制系統(tǒng)為例,其控制原理是綠燈時間飽和度,即被車輛通行占用的綠燈時間與總綠燈時間的比值。對于過飽和交叉口,由于要通行的交通需求較大,總綠燈時間扣除車間時距幾乎均被占用。這種情況下,SCATS控制系統(tǒng)的配時方案等同于定周期配時,綠燈期間排隊車輛被放行一部分,后面的排隊車輛向前挪動一部分,工作效率較低。隨著交通檢測器技術的發(fā)展,視頻檢測技術在數據采集方面已得到發(fā)展,如:全景視頻技術[1]能夠提供整個交叉口范圍內的交通參數。排隊長度較長是過飽和交叉口的主要特征,如何平衡交叉口不同相位的排隊長度、綜合優(yōu)化整個交叉口的時間與空間資源是本研究的重點。
交通系統(tǒng)的運行效率由供、需兩個方面決定,這兩個方面都具有不確定性和動態(tài)性的特點,再加之駕駛員行為的不確定性,經過同一個交叉口的不同駕駛員具有不同的駕駛行為,即使同一個駕駛員在不同時間也會表現出不同的駕駛行為。這決定了狀態(tài)集的數量很大,難以事先枚舉出所有狀態(tài),為每種狀態(tài)都存儲一個最優(yōu)方案很困難。提高交通控制系統(tǒng)的智能性是當前研究的一個趨勢。對于交通控制系統(tǒng)而言,智能最重要的體現是具有學習能力。如果交通控制模型具有了學習能力,那么就可以記住經驗、對未經歷的狀態(tài)采取經驗復用。利用強化學習理論,建立具有學習能力的交通控制模型最具代表性。該方法能夠學習控制行為與其對環(huán)境作用效果之間的關系,近些年來被應用于交通控制系統(tǒng)研究。Oliveira[2-3]等人采用基于環(huán)境檢測的強化學習方法,對噪音環(huán)境下的配時優(yōu)化進行了研究,通過檢測環(huán)境的改變來學習動態(tài)的流量模式,自動對流量模式進行識別,執(zhí)行對應的策略,跟蹤環(huán)境轉換的預估誤差和獎勵。Chen[4]等人研究了一種基于近似動態(tài)規(guī)劃的自適應交通信號實時控制算法,利用線性近似函數代替動態(tài)規(guī)劃中的值函數,其中線性近似函數的參數由時間差分強化學習和擾動強化學習兩種方法在線學習,極大地提高了模型的計算效率,而且模型優(yōu)化的時間步長越小,其性能越優(yōu)。Wiering[5]等人研究了基于“車輛投票”的強化學習優(yōu)化模型,通過估計每個車輛的等待時間,決定配時方案,該模型優(yōu)于固定信號配時模型。Abdulhai[6]等人建立了基于Q學習模型的配時優(yōu)化模型,需要對所有連續(xù)狀態(tài)進行整合加以描述,計算時間隨著車道數量和交叉口數量指數增加,限制了該模型只能用于小型路網。隨后,Prashanth[7]等人基于函數近似的強化學習算法對信號配時優(yōu)化進行了研究,提出了基于特征的狀態(tài)描述方法,將狀態(tài)離散為低、中和高3個區(qū)間,解決了狀態(tài)—行為對的維數災難問題。Bingham[8]使用神經網絡調整模糊交通信號控制器的成員函數,使用強化學習評估神經網絡采用的行為效用,改進了模糊控制的效果。馬壽峰[9]等人將Agent與經驗知識和Q學習算法相結合,研究單個路口的動態(tài)配時問題。承向軍[10]等人采用Q學習方法以減少延誤為目標對單路口進行信號配時的優(yōu)化,并應用模糊控制規(guī)則改善信號控制,該方法優(yōu)于定時控制和感應式控制。趙曉華[11-12]等人將Q學習及BP神經元網絡應用于切換式的信號控制優(yōu)化,該模型能夠感知交通流變化,并能夠自適應控制,與定時控制相比,具有明顯的優(yōu)勢。盧守峰[13-14]等人在周期和綠信比等概念的基礎上,分別以等飽和度、延誤最小為優(yōu)化目標建立了單交叉口離線 Q學習模型。Simon[15-16]等人將具有人工干預的監(jiān)督學習和時間差分強化學習應用于信號配時優(yōu)化。
作者以總關鍵排隊長度差最小為優(yōu)化目標,擬研究交通控制的在線學習模型。傳統(tǒng)的Q學習模型在應用時強調構造狀態(tài)與行為的并重,狀態(tài)分為連續(xù)型狀態(tài)和離散型狀態(tài),因此,原有模型的狀態(tài)-行為組合龐大,遍歷時易造成維數災難。本研究擬對Q學習模型構建新的目標函數和新的離散化的獎勵函數,對Q學習公式進行簡化,弱化對狀態(tài)的構造,使得排隊長度小于某一長度時為一個狀態(tài),當它大于某一長度時為另一狀態(tài),將這個長度取無窮大則狀態(tài)不變。使狀態(tài)-行為組合簡化為行為組合,以減少重復,加快學習速度。
強化學習模型通過與動態(tài)環(huán)境交互進行決策學習,是一種試錯型的學習模型,其基本原理是學習模型在某個環(huán)境狀態(tài)下選擇并執(zhí)行某個行為,作用于環(huán)境狀態(tài)并得到相應的獎勵。該獎勵用于強化這個環(huán)境狀態(tài)與最佳行為之間的映射關系,反復執(zhí)行這個過程,學習模型即可獲得在任意環(huán)境狀態(tài)下選擇最佳行為的能力。學者們提出了多種強化學習算法[17],比較成功的算法有:蒙特卡羅算法、瞬時差分(Temporal Difference,簡稱為TD)算法、Sarsa學習算法、Q學習算法、Dyna學習算法及R學習算法等。其中,應用最為廣泛的是Q學習算法,被公認為強化學習算法發(fā)展過程中的一個里程碑,由 Watkins[2]于1989年提出。Q學習算法中,模型通過反復映射、迭代優(yōu)化Q值函數來提高學習能力,Q函數的初始值可任意給定,Q 學習的公式[17]為:
式中:α∈[0,1]為學習率;γ∈[0,1]為折扣因子;A 為行為的集合;Q(s,a)是當前狀態(tài)s、行為a對應的Q 值;Q(s′,a′)是下一狀態(tài)s′、行為a′對應的Q值;r是當前獎勵。
當狀態(tài)不改變,即s等于s′時式(1)可簡化為:
經過多次的仿真測試,對于信號配時優(yōu)化問題,當α取0.1~0.2、γ取0.7~0.9時,效果最好。參數取此范圍之外時,易出現兩種狀況:①無論學習多久,Q學習也不會收斂,即所有行為所對應的Q值都在不斷增加,沒有任何一個行為的Q值會連續(xù)下降;②當Q學習已收斂于某一行為時,由于Vissim中車流量服從泊松分布,可能某個時間突然到達較大的車流量,造成獎勵r突然增大,造成Q值劇烈增加,從而使得Q學習模型容易跳出當前收斂狀態(tài),即干擾量對模型收斂影響很大,模型不夠穩(wěn)定。通過多次測試,選擇參數合適的范圍,使得Q學習既能收斂到最優(yōu)行為又能保持足夠的穩(wěn)定性。
建立狀態(tài)、行為、獎勵的模型是決定強化學習模型性能的關鍵。以交叉口進口的流量為狀態(tài)。選取各相位綠燈時間的排列組合作為行為。定義同一相位內排隊長度最大的流向為關鍵車流。定義關鍵車流的排隊長度為關鍵排隊長度。各相位關鍵排隊長度之差的絕對值的總和為總關鍵排隊長度之差。多個周期的總關鍵排隊長度之差的平均值為平均總關鍵排隊長度之差。優(yōu)化的目標函數定義為4個相位的總關鍵排隊長度之差最小。以4個相位的總關鍵排隊長度之差最小作為目標函數是為了使4個相位的排隊長度盡量相等。根據各相位排隊長度實時動態(tài)分配綠燈時間,增加排隊長度過長的相位的綠燈時間,使其排隊不再增加或消散,減少排隊長度過短的相位的綠燈時間,保證綠燈時間得到充分利用。研究中發(fā)現:這個目標函數對于相近的配時方案的取值相差不大,即不敏感。為此,利用這個目標函數重新構造了獎勵。例如:l為總關鍵排隊長度之差的當前值,l′i為各相位關鍵排隊長度之差,l 為總關鍵排隊長度之差的歷史平均值,r為當前獎勵,k為正數。以l離散為5個部分為例,說明獎勵函數的構建,k取10。
如果0≤l≤0.5l,則r=0.5k;如果0.5l≤l≤l,則r=k;如果l≤l≤1.5l,則r=1.5k;如果1.5l≤l≤2l,則r=3k;如果l≥2l,則r=5k。
離散的目的是拉大獎勵的差距,從而強化學習模型能夠區(qū)分行為之間的優(yōu)劣。由于每個獎勵對應關鍵排隊長度差的一個區(qū)間,因此離散方法能夠減少交通流隨機性帶來的不穩(wěn)定性,提高魯棒性。行為得到的獎勵越少,說明行為越好。
對于交叉口控制,行為是各相位綠燈時間,涉及定周期和變周期兩種情況。對于定周期情況,各相位綠燈時間之和等于周期減去總損失時間,行為取值受到周期的約束。對于變周期情況,行為取值不受到周期的約束,在取值范圍內,分別選取各相位綠燈時間,各相位綠燈時間之和加上總損失時間即為周期。變周期模式的行為數量比定周期模式的行為數量大得多,定義域的增大為得到更優(yōu)的結果提供了可能。
根據Pursuit函數[17],更新行為,選擇概率。在第t+1個周期,選擇最優(yōu)行為a*t+1的概率為:
選擇其他a≠a*t+1行為的概率為:
式中:πt(a)表示在周期為t時選擇行為a的概率;a*t+1表示最優(yōu)行為,在本研究中最優(yōu)行為指當前狀態(tài)下最小Q值所對應的行為,當有多個最優(yōu)行為時隨機選擇一個;β的取值為0<β<1。
初始化行為選擇概率矩陣時,每個初始行為概率都相等且概率總和為1。通過調整β,Pursuit函數既能確保以較大的概率選擇最優(yōu)行為,又能探索沒被選中過的行為,使行為的探索與利用保持平衡。
用Excel VBA、Vissim及Matlab集成仿真平臺的方法[18]進行了研究。Excel VBA與 Matlab的集成通過Excel link擴展接口實現,Excel VBA與Vissim之間通過COM接口集成。基于這個集成仿真平臺,可以實現在線和離線兩種學習方法。對于離線學習方法,Matlab存儲已收斂的強化學習矩陣,Excel VBA基于這個矩陣和Vissim檢測到的排隊長度選擇信號配時方案。對于在線學習方法,Matlab存儲的強化學習矩陣在每個周期都被更新一次,Excel VBA基于強化學習矩陣的當前值和Vissim檢測的排隊長度選擇信號配時方案。隨著程序的運行,通過不斷地對強化學習矩陣進行更新,使得該矩陣逐漸收斂。因此離線方法和在線方法的主要區(qū)別在于強化學習矩陣。對于離線學習方法,使用收斂的強化學習矩陣,適用于波動小的交通模式;對于在線學習方法,程序邊運行邊更新強化學習矩陣,適用于波動大的交通模式。作者采用在線學習方法的流程可描述為:
1)啟動Excel VBA、Vissim及 Matlab集成仿真平臺,在VBA中,初始化行為選擇概率矩陣、Q值矩陣。
2)在Matlab中,更新行為選擇概率,并選取當前行為。
3)將當前行為對應的綠燈時間傳回Vissim,單步運行一個周期后,提取排隊長度,傳回 Matlab。
4)Matlab處理數據,得到總關鍵排隊之差及獎勵。
6)判斷是否滿足終止條件。若不滿足,則轉向2);否則,終止。
將定周期Q學習模型、不定周期Q學習模型與Transyt配時模型進行性能對比分析。算例設置:對于一個十字型交叉口,采用4相位控制,各進口方向直行2個車道、左轉1個車道,右轉不受控制。相位設置:東西直行為相位1,東西左轉為相位2,南北直行為相位3,南北左轉為相位4。流量設置:東西直行流量為1 168 892veh/h,東西左轉流量為416 344veh/h,南北直行流量為132 272veh/h,南北左轉流量為420 152veh/h。
采用Transyt 14版本進行計算,黃燈時間均為3s,全燈時間在相位2,3之間和相位4,1之間設置,設為2s,即總綠燈損失時間為16s。相位和相序如圖1所示。利用Transyt的周期優(yōu)化功能,優(yōu)化得到最佳周期為70s。然后,將此周期時間輸入Transyt中,優(yōu)化出各相位綠燈時間,按相序分別為 [15,13,13,13]。在 Vissim 中 畫 出 與Transyt同數量同寬度的車道,并輸入相對應的流量,設置相同的相位時間間隔及相序,將Transyt中的流量及信號配時輸入Vissim中進行仿真,提取數據的時間步長與周期相同,即每隔70s提取一次各流向關鍵車流的最大排隊長度,仿真總步長設為2 000步。
圖1 相位及相序Fig.1 Phase and phase sequence
作為對比,定周期Q學習配時方案周期采用Transyt最優(yōu)周期,即70s。各相位的最小綠燈時間設為10s,最大綠燈時間為24s。以2s為間隔取值,一個相位綠燈時間可選范圍為[10,12,14,16,18,20,22,24]。當4個相位選擇的綠燈時間總和等于70~16s時,為一個行為(總共有120個行為)。獎勵為總關鍵排隊長度之差l。 在線對Vissim進行仿真,仿真總步長設為2 000步,每步70s。各狀態(tài)-行為對的初始Q值均設為47,行為的初始概率均設為1/120。單步運行,每一仿真步內用排隊長度計數器采集各相位關鍵車流的排隊長度,通過Q學習得到新的配時方案,并寫入Vissim中。其仿真結果分別如圖2~4所示。
圖2 行為變化Fig.2 Behavior change
圖3 前1 000步Q值變化Fig.3 The Qvalue changes before the first 1 000steps
圖4 后1 000步Q值變化Fig.4 The Qvalue changes after the last 1 000steps
行為編號76對應各相位綠燈時間分別為[14,14,10,16]。由圖2可知,運行2 000步以后,行為選擇收斂于編號76。在Q學習過程中,一個時間步內只選擇一次行為,被選中的行為Q值得到更新,其他行為的Q值則保持不變。收斂即意味著同一行為被連續(xù)選中,該行為對應的Q值不斷地被更新,但始終比其他行為所對應的Q值小,其對應的圖像是一塊底部呈鋸齒狀的薄片,矩形薄片表示未被連續(xù)選中的其他行為。由圖3,4可知,由于Q學習具有全局探索學習的能力,即使在局部收斂于行為編號77(對應的各相位綠燈時間[14,14,12,14])后也能繼續(xù)探索新行為直至學習到最優(yōu)行為76(對應的各相位綠燈時間[14,14,10,16])。
雖然定周期Q學習配時模型具有很好的性能,但其缺陷在于:其配時方案的優(yōu)化要事先確定周期時間,即要先優(yōu)化出周期,然后才能優(yōu)化出各相位綠燈時間。與Transyt相同,對不同的流量要優(yōu)化出不同的周期時間及配時方案,對于現實生活復雜的交通流來說,顯得十分的繁瑣。而不定周期Q學習配時模型則具有同時優(yōu)化周期及綠燈時間的功能,能有效解決這些問題。不定周期仿真中Vissim的各種設置與定周期Vissim的一致,各相位的最小綠燈時間設為10s。為避免維數災難以及考慮到定周期配時和Transyt配時最大綠燈時間均不超過18s,最大綠燈時間設為18s,以2s為間隔取值,一個相位綠燈時間可選范圍為[10,12,14,16,18],4個相位共有625種組合,即625個行為。周期時間為4個相位綠燈時間之和加上16s的綠燈損失時間。在線進行仿真,各狀態(tài)-行為對的初始Q值均設為47,行為的初始概率均設為1/625。仿真總步長設為5 500步,每步步長等于當前周期時間,單步運行,每一仿真步內用排隊長度計數器從Vissim中采集各相位關鍵車流的排隊長度,通過學習,得到不定周期新的配時方案后,寫入Vissim中,繼續(xù)仿真。其仿真結果分別如圖5,6所示。
從圖5,6中可以看出,不定周期Q學習的最優(yōu)行為是編號為354(對應的相位綠燈時間[14,18,10,16])的行為,其對應的最優(yōu)周期時間是74s。
Transyt配時方案、定周期Q學習配時方案及不定周期Q學習配時方案的性能對比見表1和如圖7所示。
圖5 行為與相對應的周期變化Fig.5 Behavior and the corresponding periodic change
圖6 最后1 000步Q值變化Fig.6 The Qvalue changes in the last 1 000steps
表1 相同流量下不同的配時方案Table 1 The different timing plans under the same flow
圖7 行為收斂后總關鍵排隊長度之差的對比Fig.7 The contrast among the differences of total critical queue length after behavior convergence
從表1中可以看出,定周期Q學習配時、不定周期Q學習配時與Transyt配時結果非常接近。從開始仿真到選擇最優(yōu)行為,定周期Q學習配時所用步數1 100步遠小于不定周期Q學習配時4 500步。這說明在以周期優(yōu)化為前提的情況下,定周期Q學習有更高的學習效率。從圖7中可以看出,不定周期Q學習和定周期Q學習行為收斂后的配時所造成的總關鍵排隊長度之差在平均值及波動幅度上都要比Transyt配時的要小一些。這說明Q學習模型的配時性能是較優(yōu)的,且不定周期Q學習具有更好的效果。3種方案對比說明:①定周期Q學習模型的學習速度更快,在周期確定的情況下可優(yōu)先考慮;不定周期Q學習模型的整體性更好,周期及各相位配時都能同時優(yōu)化,且性能更好。②兩種Q學習模型都具有探索全局最優(yōu)行為的性能,不會陷入局部最優(yōu)。
由于不定周期Q學習模型具有較好的性能,因此,通過改變到達流量均值,能檢驗不定周期Q學習模型在流量變化狀況下的學習性能。本研究中的算例計算都是以Vissim軟件為平臺的,在該軟件中,到達流量服從輸入流量的泊松分布,流量設置見表2,計算結果分別如圖8~10所示。
表2 流量設置Table 2 The input flow rate
圖8 流量改變后,行為與相對應的周期變化Fig.8 Behavior and the corresponding cycle
圖9 流量改變后,前1 000步Q值變化Fig.9 The Qvalue changes for the first 1 000steps
從圖8中可以看出,流量改變后,經過短暫探索局部收斂于行為編號609(對應的相位綠燈時間[18,18,12,16]),對應周期為 80s,經過大約2 000步的探索收斂于全局最優(yōu)行為479(對應的相位綠燈時間[16,18,10,16]),對應周期為76s。第一次收斂需要4 500步,流量變化后,第二次收斂需要2 000步??梢钥闯?,第二次收斂步數明顯減少。這說明:①對于流量改變情況,不定周期Q學習模型能給出相對應的配時方案;②Q學習模型能夠利用流量改變前的學習經驗應對新環(huán)境,加快了收斂速度。
圖10 流量改變后,最后1 000步Q值變化Fig.10 The Qvalue changes for the last 1 000steps
本研究構建了新的目標函數和新的離散化的獎勵函數,對Q學習公式進行了簡化。通過Excel VBA、Vissim及Matlab集成仿真平臺進行了研究。仿真結果表明:建立的以總關鍵排隊長度之差最小為優(yōu)化目標的單交叉口多相位在線Q學習模型能夠探索全局最優(yōu)行為,不會陷入局部最優(yōu),其最優(yōu)配時方案比Transyt配時方案具有更好的效果。定周期Q學習模型的學習速度更快,在周期確定的情況下可優(yōu)先考慮。不定周期Q學習模型的整體性更好,周期及各相位配時都能同時優(yōu)化,且準確性更好。在流量改變情況下,不定周期Q學習模型能夠及時適應環(huán)境的變化,較快地尋找到相應的最優(yōu)配時,并且利用學習經驗,加快了學習速度。
本研究建立的Q學習模型能對多相位單交叉口的周期時間及各相位綠燈時間進行動態(tài)優(yōu)化,具有一定的實用價值。模型中采用的是固定的相位及相序,Q值更新公式參數是通過反復測試確定的經驗值,對參數進行敏感性分析及相位和相序的優(yōu)化是下一步的研究方向。
(
):
[1] 鄭嘉利,覃團發(fā).基于仿射運動估計的旅游景觀全景視頻系統(tǒng)[J].廣西大學學報:自然科學版,2010,35(5):817-820.(ZHENG Jia-li,QIN Tuan-fa.Panoramic video system based on affine motion estimation for tourist landscape showing[J].Journal of Guangxi University:Natural Science Edition,2010,35(5):817-820.(in Chinese))
[2] Oliveira D,Bazzan A L C,Silva B C,et al.Reinforcement learning based control of traffic lights in nonstationary environments:A case study in a microscopic simulator[A].Proceedings of the 4th European Workshop on Multi-Agent Systems[C].Lisbon,Portugal:[s.n.],2006:31-42.
[3] Ilva B C,Oliveira D,Bazzan A L C,et al.Adaptive traffic control with reinforcement learning[A].Proceedings of the 4th Workshop on Agents in Traffic and Transportation[C].Hakodate,Janpan:[s.n.],2006:80-86.
[4] Chen C,Chi K W,Benjamin G H.Adaptive traffic signal control using approximate dynamic programming[J].Transportation Research Part C,2009,17(5):456-474.
[5] Wiering M,Veenen J V,Vreeken J,et al.Intelligent traffic light control,institute of information and computing sciences[R].Dutch:Utrecht University,2004.
[6] Abdulhai B,Pringle R,Karakoulas G J.Reinforcement learning for true adaptive traffic signal control[J].Journal of Transportation Engineering,2003,129(3):278-285.
[7] Prashanth L A,Shalabh B.Reinforcement learning with function approximation for traffic signal control[J].IEEE Transactions on Intelligent Transportation Systems,2011,12(2):412-421.
[8] Bingham E.Reinforcement learning in neurofuzzy traffic signal control[J].European Journal of Operational Research,2001,131(2):232-241.
[9] 馬壽峰,李英,劉豹.一種基于Agent的單路口交通信號學習控制方法[J].系統(tǒng)工程學報,2002,17(6):526-530.(MA Shou-feng,LI Ying,LIU Bao.Agentbased learning control method for urban traffic signal of single intersection[J].Journal of Systems Engineering,2002,17(6):526-530.(in Chinese))
[10] 承向軍,常歆識,楊肇夏.基于Q學習的交通信號控制方法[J].系統(tǒng)工程理論與實踐,2006,26(8):136-140.(CHENG Xiang-jun,CHANG Xin-shi,YANG Zhao-xia.A traffic signal control method based on Q-learning[J].System Engineering Theory and Practice,2006,26(8):136-140.(in Chinese))
[11] 趙曉華,石建軍,李振龍,等.基于 Q-learning和BP神經元網絡的交叉口信號燈控制[J].公路交通科技,2007,24(7):99-102.(ZHAO Xiao-h(huán)ua,SHI Jian-jun,LI Zhen-long,et al.Traffic signal control based on Q-learning and BP neural network[J].Journal of Highway and Transportation Research and Development,2007,24(7):99-102.(in Chinese))
[12] 趙曉華,李振龍,陳陽舟,等.基于混雜系統(tǒng)Q學習最優(yōu)控制的信號燈控制方法[J].高技術通訊,2007,5(17):498-502.(ZHAO Xiao-h(huán)ua,LI Zhen-long,CHEN Yang-zhou,et al.An optimal control method for hybrid systems based on Q-learning for an intersection traffic signal control[J].High Technology Communication,2007,5(17):498-502.(in Chinese))
[13] 盧守峰,邵維,韋欽平,等.基于綠燈時間等飽和度的離線Q學習配時優(yōu)化模型[J].系統(tǒng)工程,2012,30(7):117-122.(LU Shou-feng,SHAO Wei,WEI Qin-ping,et al.Optimization model of the of f-line Q learning timing based on green time equi-saturation[J].Systems Engineering,2012,30(7):117-122.(in Chinese))
[14] 盧守峰,韋欽平,劉喜敏.單交叉口信號配時的離線Q學習模型研究[J].控制工程,2012,19(6):987-992.(LU Shou-feng,WEI Qin-ping,LIU Xi-min.The study on off-line Q-learning model for single intersection signal signal timing[J].Control Engineering of China,2012,19(6):987-992.(in Chinese))
[15] Simon B,Ben W.An automated signalized junction controller that learns strategies from a human expert[J].Engineering Applications of Artificial Intelligence,2012,25:107-118.
[16] Simon B,Ben W.An automated signalized junction controller that learns strategies by temporal difference reinforcement learning[J].Engineering Applications of Artificial Intelligence,2013,26:652-659.
[17] Sutton R S,Barto A G.Reinforcement learning:An introduction[M].Cambridge,Massachusetts:MIT Press,1998.
[18] 盧守峰,韋欽平,沈文,等.集成 Vissim、Excel VBA、Matlab的仿真平臺研究[J].交通運輸系統(tǒng)工程與信息,2012,12(4):43-48.(LU Shou-feng,WEI Qin-ping,SHEN Wen,et al.Integrated simulation platform of Vissim,Excel VBA,Matlab[J].Journal of Transportation Systems Engineering and Information Technology,2012,12(4):43-48.(in Chinese))