• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于風(fēng)險(xiǎn)避免強(qiáng)化學(xué)習(xí)的單交叉口配時(shí)優(yōu)化

    2014-05-09 12:03:40毛盈方盧守峰
    交通科學(xué)與工程 2014年1期
    關(guān)鍵詞:綠燈排隊(duì)長(zhǎng)度

    毛盈方,盧守峰

    近年來(lái),交通問(wèn)題逐漸成為了制約經(jīng)濟(jì)發(fā)展的主要問(wèn)題之一。為了解決交通問(wèn)題,智能交通逐步成為大家研究的主要課題之一。強(qiáng)化學(xué)習(xí)就是其中重要的研究方面,并且取得的了一定的成果。強(qiáng)化學(xué)習(xí)的優(yōu)化法則是馬爾可夫決策問(wèn)題的預(yù)測(cè)回報(bào),但在實(shí)際問(wèn)題中并不是最適合的法則。許多實(shí)際問(wèn)題要求魯棒性控制策略考慮回報(bào)的變動(dòng)問(wèn)題,尤其是在運(yùn)行過(guò)程中風(fēng)險(xiǎn)較大的特殊情況。

    在交通信號(hào)配時(shí)優(yōu)化方面,應(yīng)用強(qiáng)化學(xué)習(xí)的研究有了一些進(jìn)展。Ilva[1-2]等人針對(duì)噪音環(huán)境建立了基于環(huán)境檢測(cè)的強(qiáng)化學(xué)習(xí)模型對(duì)配時(shí)優(yōu)化。通過(guò)檢測(cè)周圍環(huán)境的改變來(lái)學(xué)習(xí)動(dòng)態(tài)的流量模式,自動(dòng)對(duì)流量模式進(jìn)行識(shí)別,執(zhí)行對(duì)應(yīng)的策略,跟蹤環(huán)境轉(zhuǎn)換的預(yù)估誤差和獎(jiǎng)勵(lì)。黃艷國(guó)[3]等人把Agent技術(shù)與強(qiáng)化學(xué)習(xí)算法相結(jié)合,提出了基于Agent技術(shù)的交通信號(hào)控制方法。根據(jù)交叉口的實(shí)時(shí)路況信息,利用強(qiáng)化學(xué)習(xí)來(lái)實(shí)現(xiàn)自適應(yīng)控制,減少路口排隊(duì)車輛的平均延誤時(shí)間。Wiering[4]等人研究了基于“車輛投票”的強(qiáng)化學(xué)習(xí)優(yōu)化模型,核心理論是通過(guò)估計(jì)每個(gè)車輛的等待時(shí)間,決定信號(hào)配時(shí)方案,該模型優(yōu)于固定信號(hào)配時(shí)模型。戴朝暉[5]等人采用智能體系統(tǒng)動(dòng)態(tài)分層強(qiáng)化學(xué)習(xí)算法,研究未知環(huán)境下大規(guī)模學(xué)習(xí)時(shí)的“維度災(zāi)難”問(wèn)題,采用基于模型的強(qiáng)化學(xué)習(xí)利用已有的經(jīng)驗(yàn)來(lái)學(xué)習(xí)最優(yōu)策略,大大提高系統(tǒng)的學(xué)習(xí)效率。盧守峰[6]等人對(duì)固定周期和變周期兩種模式下的單交叉口信號(hào)配時(shí)優(yōu)化進(jìn)行研究,構(gòu)造了等飽和度優(yōu)化目標(biāo)的獎(jiǎng)勵(lì)函數(shù),建立了等飽和度和延誤最小兩個(gè)優(yōu)化目標(biāo)的離線Q學(xué)習(xí)模型,有效地解決了狀態(tài)維數(shù)爆炸問(wèn)題。這些模型都利用了風(fēng)險(xiǎn)中立的強(qiáng)化學(xué)習(xí)理論,其缺點(diǎn)在于風(fēng)險(xiǎn)中立的強(qiáng)化學(xué)習(xí)模型的穩(wěn)定性與魯棒性不是很好,同時(shí)運(yùn)行過(guò)程中收斂效果不明顯,速度較慢。針對(duì)該問(wèn)題,作者擬提出風(fēng)險(xiǎn)避免強(qiáng)化學(xué)習(xí)信號(hào)配時(shí)模型,以期有效地解決風(fēng)險(xiǎn)中立強(qiáng)化學(xué)習(xí)模型的不足。

    1 風(fēng)險(xiǎn)敏感強(qiáng)化學(xué)習(xí)理論方法簡(jiǎn)介

    處理風(fēng)險(xiǎn)敏感最優(yōu)目標(biāo)問(wèn)題的方法有3種:

    1)最壞情況控制方法。該方法的核心是找出最壞情況下的回報(bào)。如果該情況下滿足要求,那么其他較優(yōu)的情況下的回報(bào)也能滿足。該方法的缺陷是所考慮的最壞情況在實(shí)際狀況中出現(xiàn)的概率很低,甚至不會(huì)出現(xiàn)。但對(duì)有的行業(yè)是非常必要的,特別是航空領(lǐng)域,其系統(tǒng)龐大,造價(jià)極貴,一旦出現(xiàn)問(wèn)題,就會(huì)造成極大的損失。Heger[7]針對(duì)這種情況發(fā)展了最壞情況強(qiáng)化學(xué)習(xí)算法,比較純粹的最壞情況控制,他在訓(xùn)練的最后階段不考慮這種在現(xiàn)實(shí)中出現(xiàn)概率極低的情況。

    2)指數(shù)效應(yīng)函數(shù)控制理論[8]。該方法是通過(guò)類似的效應(yīng)函數(shù)來(lái)改變逐步累積的回報(bào),從而尋求最優(yōu)策略。該方法較最壞情況控制方法取得了一定改進(jìn),然而,也存在著不足:它的等式結(jié)構(gòu)不適用對(duì)應(yīng)的無(wú)模型強(qiáng)化學(xué)習(xí)法則。同時(shí),經(jīng)過(guò)多次的運(yùn)算,最優(yōu)策略的不穩(wěn)定性會(huì)表現(xiàn)出來(lái),當(dāng)前的情況在下一步?jīng)]出現(xiàn)之前不能進(jìn)行判斷,存在滯后性。

    3)時(shí)間差分風(fēng)險(xiǎn)敏感強(qiáng)化學(xué)習(xí)理論框架[9]。該理論框架是在學(xué)習(xí)過(guò)程中改變時(shí)間差分。同時(shí),通過(guò)對(duì)算法的改進(jìn),成功并有效地解決了控制理論中的問(wèn)題。本研究擬運(yùn)用該框架對(duì)交叉口信號(hào)配時(shí)進(jìn)行優(yōu)化。

    時(shí)間差分風(fēng)險(xiǎn)敏感強(qiáng)化學(xué)習(xí)理論:在描述馬爾可夫決策問(wèn)題時(shí),給定狀態(tài)集S和行為集A,一系列的狀態(tài)i,j,…∈S和行為a∈A,當(dāng)整個(gè)系統(tǒng)處在狀態(tài)i時(shí),接下來(lái)向下一個(gè)狀態(tài)j轉(zhuǎn)移,有多個(gè)不同的行為選擇,根據(jù)不同的行為選取概率,在其中選取一個(gè)最優(yōu)的行為a,pij(a)為選取行為a的選擇概率。同時(shí)最后得到行為獎(jiǎng)勵(lì)gij(a)。假設(shè)行為的選取是一系列的策略(函數(shù))π∈Л,那么π(i)是行為函數(shù)。π(i)∈A,同理Jπ(i)為狀態(tài)i以后所有狀態(tài)行為采取后所得到的獎(jiǎng)勵(lì)折扣期望。于是,得到這樣的等式:

    式中:γ 為折扣因子,γ∈[0,1]。

    等式移項(xiàng)可得:

    Singh[9]提出的風(fēng)險(xiǎn)敏感控制理論是:定義k∈(-1,1)的范圍參數(shù)來(lái)描述風(fēng)險(xiǎn)的敏感,包括風(fēng)險(xiǎn)尋求和風(fēng)險(xiǎn)避免。定義變換函數(shù)為:

    把變換函數(shù)加入到式(2)中,得到:

    在式(3)中,如果k=0時(shí),式(4)與式(2)是一致的,即式(2)是式(4)的一種特殊情況,此時(shí)退化為風(fēng)險(xiǎn)中立強(qiáng)化學(xué)習(xí)模型。當(dāng)k>0時(shí),時(shí)間差分為:gij(π(i))+γJπ(j)-Jπ(i)<0。得到的獎(jiǎng)勵(lì)小于獎(jiǎng)勵(lì)平均值;當(dāng)k<0時(shí),得到的獎(jiǎng)勵(lì)大于獎(jiǎng)勵(lì)平均值。即如果k>0,函數(shù)是趨向于風(fēng)險(xiǎn)避免;如果k<0,函數(shù)是趨向于風(fēng)險(xiǎn)尋求。

    2 時(shí)間差分風(fēng)險(xiǎn)避免在線Q學(xué)習(xí)信號(hào)配時(shí)模型

    在城市道路交叉口中,車輛的到達(dá)是隨機(jī)的,波動(dòng)性較大。一旦出現(xiàn)突發(fā)情況,這就對(duì)信號(hào)配時(shí)要求較高,以便解決各種情況并保證交通順暢。保證交通的穩(wěn)定性和魯棒性至關(guān)重要。針對(duì)這種情況,構(gòu)造新的信號(hào)配時(shí)控制模型:風(fēng)險(xiǎn)避免在線Q學(xué)習(xí)信號(hào)配時(shí)控制模型。

    2.1 Q值更新函數(shù)的建立

    對(duì)于Q值函數(shù)的研究,其中最經(jīng)典的是Sutton[10]提出的,給定時(shí)刻t,觀察該時(shí)刻的環(huán)境狀態(tài)是s,同時(shí)選取的行為是a,然后執(zhí)行行為,在接下來(lái)的時(shí)刻t+1,狀態(tài)轉(zhuǎn)移到s+1,系統(tǒng)得到了一個(gè)獎(jiǎng)勵(lì)rt,從而對(duì)Q值進(jìn)行實(shí)時(shí)更新,規(guī)則為:

    式中:st為t時(shí)刻環(huán)境的狀態(tài);at為t時(shí)刻選取的行為;Qt(st,at)為t時(shí)刻下?tīng)顟B(tài)行為(st,at)的Q值;Qt+1(st,at)為t+1時(shí)刻下?tīng)顟B(tài)行為(st,at)的Q值;rt為t時(shí)刻后的回報(bào)值;α為學(xué)習(xí)速率,α∈[0,1];γ 為折扣因子,γ∈[0,1];A 為行為集合。

    又因?yàn)樵谑剑?)中α的取值范圍為[0,1],為了保證公式的一致性,故而χk的取值必須為[0,1],但觀察式(3)時(shí),χk的取值為[0,2]。故對(duì)式(6)中χk前加入1/2進(jìn)行變換:

    2.2 狀態(tài)、行為的選擇

    狀態(tài)是交叉口進(jìn)口道的排隊(duì)長(zhǎng)度,以最簡(jiǎn)單的二相位信號(hào)配時(shí)為例,它的關(guān)鍵車流有2個(gè),如果取排隊(duì)長(zhǎng)度區(qū)間[0,N],那么狀態(tài)數(shù)就有N2個(gè)。在城市道路中,N 較大,這就形成了維數(shù)災(zāi)難問(wèn)題,難以對(duì)狀態(tài)集進(jìn)行學(xué)習(xí)。因此,將排隊(duì)長(zhǎng)度區(qū)間進(jìn)行離散劃分,以劃分為4個(gè)小區(qū)間為例,狀態(tài)數(shù)減少至16個(gè)。

    行為是交叉口的信號(hào)配時(shí)方案,以最簡(jiǎn)單的二相位信號(hào)配時(shí)為例,假定交叉口的配時(shí)方案的綠燈時(shí)間區(qū)間為[20,60],以2s為間隔,那么綠燈時(shí)間集合有:G={gi|i=1,2,…,21}={20,22,…,60},其中:gi表示行為編號(hào)。劃分為21個(gè)行為,行為與綠燈時(shí)間的轉(zhuǎn)換關(guān)系式為:(行為編號(hào)+10)×2=綠燈時(shí)間。如:行為編號(hào)g3對(duì)應(yīng)的綠燈時(shí)間為26s。

    2.3 獎(jiǎng)勵(lì)函數(shù)的構(gòu)造

    選取排隊(duì)長(zhǎng)度作為交通評(píng)價(jià)指標(biāo),利用排隊(duì)長(zhǎng)度之差的絕對(duì)值來(lái)建立獎(jiǎng)勵(lì)函數(shù)。以平均排隊(duì)長(zhǎng)度差作為基本單位將獎(jiǎng)勵(lì)進(jìn)行離散,以劃分成5個(gè)部分為例,見(jiàn)表1。

    離散的目的是將不同行為對(duì)應(yīng)的Q值區(qū)分開(kāi),從而將行為的選擇概率區(qū)分開(kāi),好的行為選擇概率增大,且不易被突然增加的排隊(duì)長(zhǎng)度造成Q值劇增和選擇概率減小所影響。這樣,減小了車輛到達(dá)的隨機(jī)性,造成模型的不穩(wěn)定性,提高了模型的魯棒性。

    表1 獎(jiǎng)勵(lì)的構(gòu)造Table 1 Reward value

    2.4 行為選擇機(jī)制

    選取Pursuit函數(shù)作為行為選擇機(jī)制,根據(jù)Pursuit函數(shù),更新概率。當(dāng)運(yùn)行t個(gè)周期后,在t+1周期時(shí),選擇最優(yōu)行為a*t+1的概率為:

    選擇其他a≠a*t+1行為的概率為:

    式中:πt(a)為在周期為t時(shí)選擇行為a的概率;at*+1為最優(yōu)行為;β的取值為0<β<1。

    通過(guò)調(diào)整β,Pursuit函數(shù)既能確保以較大的概率選擇最優(yōu)行為,又能探索沒(méi)被選中過(guò)的行為,使行為的探索與利用保持平衡。

    2.5 在線學(xué)習(xí)的步驟

    在線學(xué)習(xí)模式是利用強(qiáng)化學(xué)習(xí)算法,對(duì)實(shí)際問(wèn)題進(jìn)行實(shí)時(shí)交互。在交互的過(guò)程中,系統(tǒng)獲取環(huán)境中的各種信息,得到經(jīng)驗(yàn),然后,利用Q值函數(shù),通過(guò)策略,形成優(yōu)化后的行為,再作用到環(huán)境中,不斷地學(xué)習(xí),逐步得到問(wèn)題的最佳狀態(tài)-行為對(duì)。模型中的折扣因子γ取值為0.8。

    在線風(fēng)險(xiǎn)避免Q學(xué)習(xí)信號(hào)配時(shí)優(yōu)化算法步驟為:

    1)初始化Q值為任意值。

    2)檢測(cè)當(dāng)前的排隊(duì)長(zhǎng)度,作為初始狀態(tài)s。3)利用Q值經(jīng)驗(yàn),在狀態(tài)對(duì)應(yīng)的配時(shí)方案中,依據(jù)策略,選取配時(shí)方案a。

    4)執(zhí)行方案a,獲取獎(jiǎng)勵(lì)r和新的狀態(tài)s′。

    6)更新Q 值法則:Qt+1(st,at)←Qt(st,at)+Qt+1(st+1,at+1)-Qt(st,at)]。

    7)將新的交通狀態(tài)s′賦予狀態(tài)s。

    8)重復(fù)3)~7),直到Q值收斂。

    3 實(shí)例分析

    選取長(zhǎng)沙市猴子石大橋的西端上橋路口進(jìn)行分析,猴子石大橋是連接長(zhǎng)沙河西與河?xùn)|的重要通道,它的交通作用非常關(guān)鍵,對(duì)信號(hào)配時(shí)的要求非常高。該路口是由主干道和上橋輔道構(gòu)成,主要流量來(lái)自于主干道,幾何線形如圖1所示。

    圖1 猴子石大橋西路口示意Fig.1 Geometry of Houzishi bridge

    根據(jù)實(shí)際調(diào)查取得的數(shù)據(jù),主橋的流量為3 024veh/h,上橋輔道的流量為1 502veh/h?,F(xiàn)狀采用固定周期兩相位信號(hào)配時(shí),信號(hào)周期為154s。根據(jù)實(shí)測(cè)數(shù)據(jù),主橋上的排隊(duì)長(zhǎng)度區(qū)間為[0,960]m,上橋輔道的排隊(duì)長(zhǎng)度區(qū)間為[0,400]m。設(shè)定每個(gè)相位全紅時(shí)間為2s,黃燈時(shí)間為3s,每個(gè)周期綠燈總損失時(shí)間為10s。將輔道綠燈時(shí)間的選擇設(shè)為學(xué)習(xí)的直接目標(biāo),設(shè)定輔道最小綠燈時(shí)間為22s,最大綠燈時(shí)間為62s。以2s為間隔,劃分為21個(gè)行為,行為與綠燈時(shí)間的轉(zhuǎn)換關(guān)系式為:(行為編號(hào)+10)×2=綠燈時(shí)間。在線學(xué)習(xí)的時(shí)間步長(zhǎng)為周期時(shí)間,初始Q值設(shè)為45,行為的初始概率設(shè)為1/21。針對(duì)進(jìn)口道流量較大,容易造成維數(shù)災(zāi)難,故對(duì)交通流量進(jìn)行分段的離散劃分。把主干道的排隊(duì)長(zhǎng)度區(qū)間[0,960]劃分為4個(gè)分段,把輔道的排隊(duì)長(zhǎng)度區(qū)間[0,400],同樣劃分為4段,得到:Flow1={fi|i=1,2,3,4}={[0,240),[240,480),[480,720),[720,960]};Flow2={hj|j=1,2,3,4}={[0,100),[100,200),[200,300),[300,400]}。從而得出有16個(gè)狀態(tài)的狀態(tài)集:S={s(i,j)|i=1,2,3,4;j=1,2,3,4}={(fi,hj)|1,2,3,4;j=1,2,3,4}。

    為了驗(yàn)證模型的效果,采用本課題組開(kāi)發(fā)的集成VISSIM、ExcelVBA及Matlab的仿真平臺(tái)[11]進(jìn)行研究。在仿真平臺(tái)上,在線風(fēng)險(xiǎn)避免Q學(xué)習(xí)信號(hào)配時(shí)優(yōu)化算法步驟的實(shí)例運(yùn)行為:

    1)在Excel中建立初始矩陣,取35為初始值。

    2)在VISSIM中獲取猴子石大橋的西端上橋路口主橋和輔道上的排隊(duì)長(zhǎng)度,檢測(cè)得到關(guān)鍵排隊(duì)長(zhǎng)度,并與Flow1和Flow2進(jìn)行比對(duì),得出相應(yīng)的i和j,并利用公式State=(i-1)×4+j,得到狀態(tài)。

    3)利用Q值矩陣,在該狀態(tài)對(duì)應(yīng)的21個(gè)行為中,依據(jù)行為選擇機(jī)制,選取最優(yōu)的行為,即最優(yōu)的配時(shí)方案。

    4)對(duì)選取的配時(shí)方案進(jìn)行仿真,再次得到兩個(gè)方向的關(guān)鍵排隊(duì)長(zhǎng)度和新的狀態(tài),同時(shí)根據(jù)獎(jiǎng)勵(lì)函數(shù)和排隊(duì)長(zhǎng)度,獲得對(duì)應(yīng)的獎(jiǎng)勵(lì),即排隊(duì)長(zhǎng)度差。

    5)把4)中獲得的相應(yīng)數(shù)據(jù)代入rt+γ·Qt+1(st+1,at+1)-Qt(st,at)中,得到時(shí)間差分,判斷正、負(fù),選取χk。

    6)根據(jù)式(7),對(duì)Q值進(jìn)行更新。

    7)將新的交通狀態(tài)s′賦予狀態(tài)s。

    8)若Q值矩陣不收斂,重復(fù)3)~7);否則,結(jié)束。

    根據(jù)步驟和式(7),分別選取k=0.1和k=0.9,來(lái)探索k取值的不同對(duì)應(yīng)信號(hào)交叉口配時(shí)的影響。分別在仿真平臺(tái)上運(yùn)行多次直至收斂,一次為一個(gè)信號(hào)周期。然后,選取其中一個(gè)迭代次數(shù)較多的狀態(tài)(2,2),進(jìn)行對(duì)比分析,如圖2所示。

    圖2 k=0.1和k=0.9時(shí),Q值運(yùn)行情況對(duì)比Fig.2 Qvalues for k=0.1and k=0.9

    圖2 中,不同顏色的線條表示21個(gè)不同的行為,橫線表示在運(yùn)行中系統(tǒng)許久沒(méi)有選取該行為了,線條的連續(xù)波動(dòng)表示系統(tǒng)連續(xù)選取了該行為。如果一條波動(dòng)線一直保持在21條線的最低Q值且連續(xù)跳動(dòng),則表示在該狀態(tài)下系統(tǒng)收斂于該行為。k越大,風(fēng)險(xiǎn)避免的程度越高。如:k=0.1時(shí),狀態(tài)(2,2)的收斂出現(xiàn)在系統(tǒng)運(yùn)行3 600次時(shí);而k=0.9時(shí),在系統(tǒng)運(yùn)行100次時(shí)就開(kāi)始收斂了。對(duì)于配時(shí)方案的穩(wěn)定性,二者達(dá)到收斂后都較穩(wěn)定。對(duì)于k=0.1時(shí),狀態(tài)(2,2)收斂于行為1,得到的兩相位綠燈時(shí)間為(22,122)s。收斂后的主干道平均排隊(duì)長(zhǎng)度為230.35m,輔道平均排隊(duì)長(zhǎng)度為150.01m,排隊(duì)長(zhǎng)度差為80.34m。對(duì)于k=0.9時(shí),狀態(tài)(2,2)收斂于行為9,得到的兩相位綠燈時(shí)間方案為(38,106)s。收斂后的主干道平均排隊(duì)長(zhǎng)度為274.82s,輔道平均排隊(duì)長(zhǎng)度125.01s,排隊(duì)長(zhǎng)度差為149.81m??偟膩?lái)說(shuō),k越大,收斂性越好且越快,但它探索的行為的個(gè)數(shù)較少。k分別取0.1和0.9時(shí),它們的性能差別較大。

    為了尋求既能保證收斂又能有較好性能的學(xué)習(xí)方法,采用將k小步距遞增的方式。提出在仿真過(guò)程中,可以等比例地把k從0逐步增加趨近于1,共運(yùn)行10 000次,k從0以0.1為步長(zhǎng)逐步增加至0.9。然后與風(fēng)險(xiǎn)中立的Q學(xué)習(xí)交通信號(hào)配時(shí)算法進(jìn)行對(duì)比。運(yùn)行10 000步后,取運(yùn)行次數(shù)較多的前8個(gè)狀態(tài)進(jìn)行對(duì)比分析,得出結(jié)果見(jiàn)表2。

    從表2中可以看出,風(fēng)險(xiǎn)避免的Q學(xué)習(xí)交通信號(hào)配時(shí)算法在運(yùn)行相同次數(shù)時(shí),收斂狀態(tài)的個(gè)數(shù)較多,收斂速度較快,同時(shí)配時(shí)方案效果也較好。這說(shuō)明該方法運(yùn)用在交叉口信號(hào)配時(shí)控制中較為理想。

    表2 結(jié)果分析對(duì)比Table 2 Comparative analysis

    4 結(jié)論

    本研究建立了風(fēng)險(xiǎn)避免Q學(xué)習(xí)交通信號(hào)配時(shí)在線學(xué)習(xí)模型,相對(duì)于已有文獻(xiàn)的風(fēng)險(xiǎn)中立的Q學(xué)習(xí)模型配時(shí)方案的穩(wěn)定性有較大改進(jìn),收斂速度更快。風(fēng)險(xiǎn)避免程度越大,收斂速度越快,模型越穩(wěn)定。針對(duì)風(fēng)險(xiǎn)系數(shù)k的變動(dòng)進(jìn)行了分析,并分析了它對(duì)配時(shí)方案和收斂性的影響。與風(fēng)險(xiǎn)中立Q學(xué)習(xí)模型相比,平均排隊(duì)長(zhǎng)度差相當(dāng),但是,能夠保證模型收斂,且速度較快。因此,針對(duì)交通信號(hào)配時(shí)優(yōu)化這類問(wèn)題,由于其隨機(jī)性較大、干擾因素較多,應(yīng)該采用風(fēng)險(xiǎn)敏感強(qiáng)化學(xué)習(xí)模型。又由于k的取值不同對(duì)模型的性能有較大差別,因此,采用k小步距遞增的方式,適合于交通信號(hào)配時(shí)優(yōu)化。

    ):

    [1] Oliveira D,Bazzan A L C,Silva B C,et al.Reinforcement learning based control of traffic lights in nonstationary environments:A case study in a microscopic simulator[A].Proceedings of the 4th European Workshop on Multi-Agent Systems[C].Lisbon,Portugal:[s.n.],2006:31-42.

    [2] Ilva B C,Oliveira D,Bazzan A L C,et al.Adaptive traffic control with reinforcement learning[A].Proceedings of the 4th Workshop on Agents in Traffic and Transportation[C].Hakodate,Japan:[s.n.],2006:80-86.

    [3] 黃艷國(guó),唐軍,許倫輝.基于Agent的城市道路交通信號(hào)控制方法[J].公路交通科技,2009,26(10):126-129.(HUANG Yan-guo,TANG Jun,XU Lunhui.City road traffic signal control method based on Agent[J].Highway Traffic Science and Technology,2009,26(10):126-129.(in Chinese))

    [4] Wiering M,Veenen J V,Vreeken J,et al.Intelligent traffic light control,institute of information and computing sciences[R].Dutch:Utrecht University,2004.

    [5] 戴朝暉,吳敏.基于混合抽象機(jī)制的多智能體系統(tǒng)動(dòng)態(tài)分層強(qiáng)化學(xué)習(xí)算法研究[D].長(zhǎng)沙:中南大學(xué),2011.(DAI Zhao-h(huán)ui,WU Min.Multi-agent dynamic hierarchical reinforcement learning based on hybrid abstraction[D].Changsha:Central South University,2011.(in Chinese))

    [6] 盧守峰,韋欽平.單交叉口信號(hào)配時(shí)的離線Q學(xué)習(xí)模型研究[J].控制工程,2012,19(6):987-992.(LU Shou-feng,WEI Qin-ping.Study on off-line Q-learning model for single intersection signal timing[J].Control Engineering,2012,19(6):987-992.(in Chinese))

    [7] Heger M.Consideration of risk and reinforcement learning[A].Machine earning:Proceedings of the E-leventh International Conference[C].San Francisco:Morgan Kaufmann Publishers,1994:105-111.

    [8] Howard R A,Matheson J E.Risk-sensitive markov decision processes[J].Management Science,1972,18(7):356-369.

    [9] Singh S.Risk-sensitive reinforcement learning[J].Machine Learning,2002,49(2-3):267-290.

    [10] Sutton R S,Barto A G.Reinforcement learning:An introduction[M].Cambridge,MA:MIT Press,1998.

    [11] 盧守峰,韋欽平,沈文,等.集成 VISSIM、ExcelVBA和MATLAB的仿真平臺(tái)研究[J].交通運(yùn)輸系統(tǒng)工程與信 息,2012,12(4):43-48.(LU Shou-feng,WEI Qin-ping,SHEN Wen,et al.Integrated simulation platform of VISSIM,Excel VBA and MATLAB[J].Journal of Transportation Systems Engineering and Information Technology,2012,12(4):43-48.(in Chinese))

    猜你喜歡
    綠燈排隊(duì)長(zhǎng)度
    怎樣排隊(duì)
    1米的長(zhǎng)度
    為什么紅燈停,綠燈行
    巧排隊(duì)列
    三角龍排隊(duì)
    愛(ài)的長(zhǎng)度
    怎樣比較簡(jiǎn)單的長(zhǎng)度
    紅燈停,綠燈行
    不同長(zhǎng)度
    一路綠燈 一路關(guān)愛(ài)
    欧美日本视频| 国产蜜桃级精品一区二区三区| 少妇人妻一区二区三区视频| 免费人成视频x8x8入口观看| 波野结衣二区三区在线| 在线播放国产精品三级| 国产色爽女视频免费观看| 亚洲中文日韩欧美视频| 国产探花极品一区二区| 三级男女做爰猛烈吃奶摸视频| 国内精品一区二区在线观看| 欧美日韩综合久久久久久| 国产精品久久久久久久电影| 日韩av不卡免费在线播放| 美女大奶头视频| 精品一区二区免费观看| 久久精品影院6| 亚洲av第一区精品v没综合| 一本一本综合久久| 国产中年淑女户外野战色| 国产精品伦人一区二区| 久久精品国产99精品国产亚洲性色| 午夜激情福利司机影院| 精品午夜福利视频在线观看一区| 欧美性猛交黑人性爽| 欧美激情国产日韩精品一区| 在线播放无遮挡| 国产精品亚洲一级av第二区| 精品熟女少妇av免费看| 国产探花极品一区二区| 国产精品国产高清国产av| 国产午夜精品论理片| 大香蕉久久网| 看十八女毛片水多多多| 国产在线精品亚洲第一网站| 亚洲第一电影网av| 最新在线观看一区二区三区| 亚洲aⅴ乱码一区二区在线播放| 天天躁夜夜躁狠狠久久av| 三级男女做爰猛烈吃奶摸视频| 精品人妻一区二区三区麻豆 | 一个人免费在线观看电影| 免费av不卡在线播放| 国产白丝娇喘喷水9色精品| 成年女人看的毛片在线观看| 久久久久久久久久成人| 啦啦啦观看免费观看视频高清| 亚洲av免费高清在线观看| 欧美日韩在线观看h| 亚洲国产精品成人久久小说 | 国产亚洲精品久久久久久毛片| 亚洲国产高清在线一区二区三| av在线蜜桃| 久久国产乱子免费精品| 97超视频在线观看视频| 日韩欧美免费精品| 久久久久国内视频| 秋霞在线观看毛片| 国产又黄又爽又无遮挡在线| 欧美高清成人免费视频www| 欧美区成人在线视频| 亚洲真实伦在线观看| 亚洲欧美成人综合另类久久久 | 亚洲精品色激情综合| 一级毛片我不卡| av黄色大香蕉| 日韩欧美 国产精品| 国产亚洲91精品色在线| 免费在线观看成人毛片| 亚洲成av人片在线播放无| 神马国产精品三级电影在线观看| 激情 狠狠 欧美| 国产日本99.免费观看| 亚洲成av人片在线播放无| 中文字幕av成人在线电影| av在线观看视频网站免费| 乱系列少妇在线播放| av女优亚洲男人天堂| 日韩三级伦理在线观看| 自拍偷自拍亚洲精品老妇| 久久精品国产自在天天线| 精品国产三级普通话版| 麻豆久久精品国产亚洲av| 国产男靠女视频免费网站| 日韩制服骚丝袜av| 久久久精品94久久精品| 91久久精品国产一区二区成人| 91在线精品国自产拍蜜月| 麻豆成人午夜福利视频| 男人狂女人下面高潮的视频| 精品久久久噜噜| 又黄又爽又免费观看的视频| 免费在线观看影片大全网站| 日韩中字成人| 久久久久久大精品| 久久天躁狠狠躁夜夜2o2o| 日本撒尿小便嘘嘘汇集6| 国产av一区在线观看免费| 网址你懂的国产日韩在线| 亚洲综合色惰| 热99re8久久精品国产| 亚洲欧美成人精品一区二区| 久久亚洲精品不卡| 毛片女人毛片| 日韩在线高清观看一区二区三区| 亚洲成人精品中文字幕电影| 91在线精品国自产拍蜜月| 国产久久久一区二区三区| 变态另类成人亚洲欧美熟女| 国产精品日韩av在线免费观看| 日本欧美国产在线视频| 久久久欧美国产精品| 亚洲欧美日韩无卡精品| 欧美xxxx黑人xx丫x性爽| 国产又黄又爽又无遮挡在线| av在线观看视频网站免费| 亚洲七黄色美女视频| 亚洲国产精品久久男人天堂| 熟女电影av网| 少妇的逼好多水| 午夜激情福利司机影院| 看免费成人av毛片| 99久久精品热视频| 欧美日韩乱码在线| 久久精品夜色国产| 中出人妻视频一区二区| 麻豆av噜噜一区二区三区| 国产日本99.免费观看| 久久精品国产亚洲av香蕉五月| 欧美潮喷喷水| 美女被艹到高潮喷水动态| 欧美在线一区亚洲| 欧美一区二区精品小视频在线| 精品久久久久久久久久久久久| 欧美色视频一区免费| 欧美激情在线99| 久久久久久久午夜电影| 亚洲无线在线观看| 国产成人91sexporn| 99国产极品粉嫩在线观看| 亚洲欧美成人综合另类久久久 | 日韩中字成人| 国产成年人精品一区二区| 男女视频在线观看网站免费| 免费在线观看成人毛片| 成人一区二区视频在线观看| 国产视频一区二区在线看| 黄片wwwwww| 俄罗斯特黄特色一大片| 成人av在线播放网站| av在线老鸭窝| 黄色日韩在线| 精品久久久久久久久亚洲| 俄罗斯特黄特色一大片| 午夜激情福利司机影院| 国产欧美日韩精品一区二区| 婷婷精品国产亚洲av| 亚洲av美国av| 欧美成人精品欧美一级黄| 变态另类成人亚洲欧美熟女| 久久精品综合一区二区三区| 欧美成人精品欧美一级黄| 在线天堂最新版资源| 久久久久久久午夜电影| 人妻久久中文字幕网| 亚洲电影在线观看av| 亚洲精品国产成人久久av| 亚洲av不卡在线观看| 九九在线视频观看精品| 国产一区二区三区在线臀色熟女| 亚洲美女搞黄在线观看 | 欧美xxxx性猛交bbbb| 国产精品乱码一区二三区的特点| 国产私拍福利视频在线观看| 少妇熟女欧美另类| av.在线天堂| 久久久精品欧美日韩精品| 老司机福利观看| 欧美日韩一区二区视频在线观看视频在线 | 国产毛片a区久久久久| 免费不卡的大黄色大毛片视频在线观看 | 成人午夜高清在线视频| 嫩草影院入口| 美女内射精品一级片tv| 最后的刺客免费高清国语| 69av精品久久久久久| 久久国产乱子免费精品| 国产男靠女视频免费网站| 久久欧美精品欧美久久欧美| 国产av在哪里看| 精品国产三级普通话版| 99热只有精品国产| 黄色视频,在线免费观看| 男人和女人高潮做爰伦理| 又黄又爽又刺激的免费视频.| 亚洲精品乱码久久久v下载方式| 国产亚洲精品av在线| 欧美+亚洲+日韩+国产| 国产一区二区激情短视频| 国产真实乱freesex| 精品国内亚洲2022精品成人| 国产午夜福利久久久久久| 99久久中文字幕三级久久日本| 一级毛片久久久久久久久女| 国产亚洲欧美98| 国产午夜精品论理片| 精品人妻视频免费看| 亚洲av一区综合| 国产视频内射| 看十八女毛片水多多多| 九九热线精品视视频播放| 亚洲国产精品久久男人天堂| 又粗又爽又猛毛片免费看| 少妇猛男粗大的猛烈进出视频 | 亚洲av五月六月丁香网| 男女边吃奶边做爰视频| 天堂影院成人在线观看| 欧美bdsm另类| 久99久视频精品免费| 老熟妇乱子伦视频在线观看| 久久久久久国产a免费观看| 午夜福利成人在线免费观看| av天堂在线播放| 国产成人影院久久av| 中国美白少妇内射xxxbb| 久久精品国产清高在天天线| 成年免费大片在线观看| 欧美日韩一区二区视频在线观看视频在线 | 国内揄拍国产精品人妻在线| 色视频www国产| 国产精品久久久久久久电影| 嫩草影院入口| 亚洲国产日韩欧美精品在线观看| 亚洲av.av天堂| 夜夜夜夜夜久久久久| 日韩欧美在线乱码| 12—13女人毛片做爰片一| 欧美成人精品欧美一级黄| 国内久久婷婷六月综合欲色啪| 亚洲在线自拍视频| 小说图片视频综合网站| 丰满人妻一区二区三区视频av| 18禁在线无遮挡免费观看视频 | 亚洲电影在线观看av| 麻豆精品久久久久久蜜桃| 亚洲成av人片在线播放无| 色在线成人网| 国产黄色小视频在线观看| 如何舔出高潮| 亚洲av二区三区四区| 精品乱码久久久久久99久播| 国产精品久久久久久av不卡| 中文字幕人妻熟人妻熟丝袜美| 人人妻人人澡人人爽人人夜夜 | 91在线观看av| 一进一出抽搐gif免费好疼| 日韩欧美三级三区| 国产真实乱freesex| 精品久久久久久久人妻蜜臀av| 欧美又色又爽又黄视频| 嫩草影院新地址| 亚洲美女搞黄在线观看 | 丰满乱子伦码专区| 精品人妻熟女av久视频| 日韩在线高清观看一区二区三区| 亚洲精品在线观看二区| 欧美性猛交╳xxx乱大交人| 老司机午夜福利在线观看视频| 亚洲av五月六月丁香网| 久久精品国产清高在天天线| 欧美色视频一区免费| 亚洲精华国产精华液的使用体验 | 久久精品夜夜夜夜夜久久蜜豆| 午夜亚洲福利在线播放| 色av中文字幕| 亚洲国产高清在线一区二区三| 久久人人爽人人爽人人片va| aaaaa片日本免费| 免费一级毛片在线播放高清视频| av在线亚洲专区| 亚洲av中文av极速乱| 激情 狠狠 欧美| 亚洲欧美精品综合久久99| h日本视频在线播放| 波多野结衣高清作品| 韩国av在线不卡| 亚洲国产精品合色在线| 久久久久久久久大av| 久久久国产成人免费| 国产精品亚洲美女久久久| 日本 av在线| 亚洲欧美清纯卡通| 可以在线观看毛片的网站| 色在线成人网| 久久天躁狠狠躁夜夜2o2o| 啦啦啦观看免费观看视频高清| 一区二区三区高清视频在线| 日本a在线网址| 内地一区二区视频在线| 你懂的网址亚洲精品在线观看 | 精品午夜福利在线看| 国产av一区在线观看免费| 91av网一区二区| 精品无人区乱码1区二区| 国产午夜福利久久久久久| 美女内射精品一级片tv| 亚洲最大成人中文| av视频在线观看入口| 亚洲性久久影院| 色综合站精品国产| 国产精品野战在线观看| 成年女人永久免费观看视频| 亚洲丝袜综合中文字幕| 精品久久国产蜜桃| 美女被艹到高潮喷水动态| 久久久久久久久久黄片| 十八禁国产超污无遮挡网站| 日日撸夜夜添| 国产aⅴ精品一区二区三区波| 国产真实伦视频高清在线观看| 日韩亚洲欧美综合| 国产精品亚洲一级av第二区| 在线观看午夜福利视频| 国产伦在线观看视频一区| 国产成人91sexporn| 婷婷亚洲欧美| 久久久午夜欧美精品| 美女xxoo啪啪120秒动态图| 成年女人毛片免费观看观看9| 精品久久久久久久久久久久久| 99热精品在线国产| 又粗又爽又猛毛片免费看| 俄罗斯特黄特色一大片| 蜜桃亚洲精品一区二区三区| 在线天堂最新版资源| 综合色av麻豆| 精品久久久久久成人av| 国产女主播在线喷水免费视频网站 | 日韩精品青青久久久久久| 嫩草影院新地址| 成人综合一区亚洲| 欧美日韩精品成人综合77777| 久久午夜福利片| 中文字幕av在线有码专区| 热99在线观看视频| 国产亚洲av嫩草精品影院| 特级一级黄色大片| 国产成年人精品一区二区| 精品久久久久久久久久久久久| 五月伊人婷婷丁香| 国产精品久久电影中文字幕| 99久久精品热视频| 直男gayav资源| 亚洲欧美成人综合另类久久久 | 51国产日韩欧美| 午夜福利在线观看免费完整高清在 | 丰满的人妻完整版| 蜜桃久久精品国产亚洲av| 欧美bdsm另类| 一级av片app| 日本-黄色视频高清免费观看| 综合色丁香网| 亚洲av成人精品一区久久| 成人综合一区亚洲| 国产一区二区三区在线臀色熟女| 深爱激情五月婷婷| 99热这里只有是精品在线观看| 中国美白少妇内射xxxbb| 午夜a级毛片| 日本欧美国产在线视频| 熟妇人妻久久中文字幕3abv| 深夜精品福利| 亚洲av电影不卡..在线观看| 国产精品一区二区性色av| 69av精品久久久久久| a级一级毛片免费在线观看| 一区福利在线观看| 中文字幕精品亚洲无线码一区| 精品福利观看| 97碰自拍视频| 97热精品久久久久久| 97超碰精品成人国产| 99久久中文字幕三级久久日本| 午夜激情欧美在线| 最好的美女福利视频网| 亚洲精品456在线播放app| 美女大奶头视频| 91精品国产九色| av国产免费在线观看| 成人亚洲精品av一区二区| 精品国产三级普通话版| 国产综合懂色| 少妇的逼好多水| 天堂av国产一区二区熟女人妻| 哪里可以看免费的av片| 天堂av国产一区二区熟女人妻| 国产精品一及| 国产单亲对白刺激| 欧美区成人在线视频| 国产精品久久久久久精品电影| 国模一区二区三区四区视频| 黄色欧美视频在线观看| 精品一区二区三区视频在线观看免费| 久久中文看片网| 性欧美人与动物交配| 成人av一区二区三区在线看| 嫩草影院入口| 国产成人一区二区在线| 麻豆国产97在线/欧美| 久久久久精品国产欧美久久久| 在线观看av片永久免费下载| 国产美女午夜福利| 亚洲美女黄片视频| 成熟少妇高潮喷水视频| 丰满的人妻完整版| 亚洲三级黄色毛片| 国产精品爽爽va在线观看网站| 精品久久久久久久人妻蜜臀av| 麻豆国产97在线/欧美| 午夜日韩欧美国产| 国产高清有码在线观看视频| 在线a可以看的网站| 禁无遮挡网站| 中文字幕av成人在线电影| 99热这里只有是精品在线观看| 婷婷精品国产亚洲av在线| 啦啦啦啦在线视频资源| 久久亚洲精品不卡| 国产精品永久免费网站| 97人妻精品一区二区三区麻豆| 日本一二三区视频观看| 日本熟妇午夜| 久久久久久大精品| av.在线天堂| 国产 一区精品| 性色avwww在线观看| 亚洲丝袜综合中文字幕| 搡女人真爽免费视频火全软件 | 午夜激情福利司机影院| 国产伦精品一区二区三区四那| 亚洲精品亚洲一区二区| 亚洲va在线va天堂va国产| 久久久久国产网址| 国产欧美日韩精品亚洲av| 女的被弄到高潮叫床怎么办| 精品人妻偷拍中文字幕| 18禁在线无遮挡免费观看视频 | 亚洲性久久影院| av天堂中文字幕网| 精品免费久久久久久久清纯| 国产午夜精品论理片| 成人漫画全彩无遮挡| 国产在线男女| 免费高清视频大片| 久久人妻av系列| 国产蜜桃级精品一区二区三区| 狂野欧美白嫩少妇大欣赏| 波野结衣二区三区在线| 观看美女的网站| 亚洲国产日韩欧美精品在线观看| 在线免费观看的www视频| 高清毛片免费看| 搡女人真爽免费视频火全软件 | 日日摸夜夜添夜夜添av毛片| 精品久久国产蜜桃| 真人做人爱边吃奶动态| 天堂√8在线中文| 99热这里只有是精品50| 精品午夜福利在线看| 成人综合一区亚洲| 97超视频在线观看视频| 又黄又爽又刺激的免费视频.| 色噜噜av男人的天堂激情| 晚上一个人看的免费电影| 欧美日韩在线观看h| 99热全是精品| 亚洲精品日韩在线中文字幕 | 1024手机看黄色片| 免费观看在线日韩| 色播亚洲综合网| 国产精品99久久久久久久久| 精品久久久久久久久av| 久久久久精品国产欧美久久久| 村上凉子中文字幕在线| 中文字幕精品亚洲无线码一区| 夜夜看夜夜爽夜夜摸| 18禁在线无遮挡免费观看视频 | 亚洲av第一区精品v没综合| 亚洲专区国产一区二区| 乱系列少妇在线播放| 美女大奶头视频| 观看免费一级毛片| 我要看日韩黄色一级片| 变态另类成人亚洲欧美熟女| 狂野欧美白嫩少妇大欣赏| 看非洲黑人一级黄片| 精品一区二区三区av网在线观看| 男女边吃奶边做爰视频| 少妇高潮的动态图| 国产真实乱freesex| 成人三级黄色视频| 久久久a久久爽久久v久久| a级毛片a级免费在线| 看十八女毛片水多多多| 久99久视频精品免费| 婷婷色综合大香蕉| 啦啦啦观看免费观看视频高清| 日韩强制内射视频| 变态另类成人亚洲欧美熟女| 三级毛片av免费| 色噜噜av男人的天堂激情| 黄色欧美视频在线观看| 嫩草影院新地址| 精品熟女少妇av免费看| 干丝袜人妻中文字幕| 91麻豆精品激情在线观看国产| 一级毛片aaaaaa免费看小| 色综合站精品国产| 久久久久免费精品人妻一区二区| 国产精品久久久久久av不卡| 成人毛片a级毛片在线播放| 性欧美人与动物交配| 免费电影在线观看免费观看| 97超碰精品成人国产| 国产精品久久视频播放| 午夜福利在线在线| 亚洲不卡免费看| 久久精品综合一区二区三区| 亚洲av二区三区四区| 亚洲成人久久爱视频| 国产不卡一卡二| 欧美最黄视频在线播放免费| 日日干狠狠操夜夜爽| 永久网站在线| 如何舔出高潮| 成人三级黄色视频| 精品一区二区三区av网在线观看| 我要看日韩黄色一级片| 高清午夜精品一区二区三区 | 中文字幕av在线有码专区| 嫩草影院入口| 日日啪夜夜撸| 国产综合懂色| 一个人免费在线观看电影| 亚洲欧美精品自产自拍| 精品午夜福利视频在线观看一区| 国产精品一及| 欧美日韩国产亚洲二区| 久久九九热精品免费| 91av网一区二区| 亚洲三级黄色毛片| 91久久精品国产一区二区成人| 国产一级毛片七仙女欲春2| 免费看日本二区| 国产男人的电影天堂91| 欧美激情久久久久久爽电影| 亚洲成人久久爱视频| 婷婷六月久久综合丁香| 18+在线观看网站| 一级毛片我不卡| 村上凉子中文字幕在线| 午夜精品一区二区三区免费看| 一级毛片久久久久久久久女| 亚洲中文字幕一区二区三区有码在线看| 少妇熟女欧美另类| 久久中文看片网| 欧美人与善性xxx| 1024手机看黄色片| 日韩精品有码人妻一区| 日韩欧美在线乱码| 男人的好看免费观看在线视频| 99国产极品粉嫩在线观看| 一本精品99久久精品77| 天美传媒精品一区二区| 日韩欧美 国产精品| 亚洲国产精品久久男人天堂| 听说在线观看完整版免费高清| 成人亚洲欧美一区二区av| 免费在线观看成人毛片| 亚洲精品色激情综合| 久久久久国产精品人妻aⅴ院| 精品欧美国产一区二区三| av国产免费在线观看| 免费一级毛片在线播放高清视频| av在线播放精品| 男女啪啪激烈高潮av片| 老女人水多毛片| 综合色丁香网| 一区二区三区高清视频在线| 国产精品永久免费网站| 深爱激情五月婷婷| 悠悠久久av| 直男gayav资源| 一级毛片久久久久久久久女| 12—13女人毛片做爰片一| 国产精品永久免费网站| 欧美色欧美亚洲另类二区| 国产一区二区在线观看日韩| 国产在线男女| 男插女下体视频免费在线播放| 久久人人精品亚洲av| 中文在线观看免费www的网站| 嫩草影院精品99| av.在线天堂| 一卡2卡三卡四卡精品乱码亚洲| 久久精品影院6| 黄色日韩在线| 女人被狂操c到高潮| 精品久久国产蜜桃| 亚洲人成网站在线播放欧美日韩| a级毛色黄片| 久久人人爽人人爽人人片va| av天堂中文字幕网| 久久草成人影院| 久久久精品94久久精品|