陶巧云
摘要:隨著社會(huì)的發(fā)展,城市交通變得日益復(fù)雜,交通路口信號(hào)的控制關(guān)系到城市道路擁堵狀態(tài)及行人車輛的通行是否暢通問題。就這一現(xiàn)狀,本文提出了基于多智能體Q學(xué)習(xí)算法的交通信號(hào)優(yōu)化控制的方法。通過多次實(shí)驗(yàn),交通系統(tǒng)中,上下級(jí)智能體之間及同級(jí)智能體之間通過實(shí)時(shí)學(xué)習(xí)可以達(dá)到最優(yōu)的交通信號(hào)控制。
關(guān)鍵詞:多智能體;交通信號(hào);Q學(xué)習(xí)算法;優(yōu)化
中圖分類號(hào): U491.51?文獻(xiàn)標(biāo)識(shí)碼:A?文章編號(hào):1672-9129(2020)09-0157-01
引言:因?yàn)榻煌ㄊ菍?shí)時(shí)變換的,交通流量也有著隨機(jī)性,所以提升交通信號(hào)控制的智能化水平非常關(guān)鍵。智能體是當(dāng)前交通信號(hào)智能控制的基礎(chǔ)構(gòu)件,其是由計(jì)算機(jī)系統(tǒng)控制的自主實(shí)現(xiàn)對(duì)應(yīng)功能的結(jié)構(gòu)實(shí)體,本身性能優(yōu)越,環(huán)境適應(yīng)性強(qiáng),其可以將復(fù)雜的大問題分解為多個(gè)子問題,而每個(gè)子問題由獨(dú)立的模塊負(fù)責(zé)解決,能緩解運(yùn)算量大導(dǎo)致的系統(tǒng)運(yùn)行緩慢,效率高。將其應(yīng)用于城市交通控制,需要多個(gè)智能體的共同配合。首先需要將每個(gè)智能體安裝于交叉路口,其次使用專用網(wǎng)絡(luò)將智能體連接起來,每個(gè)智能體設(shè)置不同的結(jié)構(gòu)功能,讓復(fù)雜的路口狀況被多智能體簡(jiǎn)單處理。強(qiáng)化學(xué)習(xí)利于增強(qiáng)智能體的學(xué)習(xí)能力,本文將結(jié)合多智能體技術(shù)可以感知不同條件下自適應(yīng)能力,然后作出符合交通的相應(yīng)調(diào)控策略。下面主要介紹多智能體強(qiáng)化學(xué)習(xí)的交通信號(hào)優(yōu)化設(shè)置。
1?多智能體的強(qiáng)化學(xué)習(xí)
傳統(tǒng)的多智能體控制交通系統(tǒng)采用完全分布式結(jié)構(gòu),即每個(gè)路口均安裝智能體,對(duì)路口進(jìn)行獨(dú)立的管理與控制,不同智能題之間互相協(xié)調(diào)以達(dá)到最佳效果。但如果某一智能體突然故障,路口智能體會(huì)完全癱瘓,所以本文采用分層遞階式結(jié)構(gòu)。首先整體規(guī)劃交通信號(hào)分布,并依據(jù)功能和結(jié)構(gòu)的不同進(jìn)行協(xié)調(diào)管理,最終使得上級(jí)智能體管理下級(jí),而下級(jí)負(fù)責(zé)路口信息的監(jiān)測(cè)與傳遞。
強(qiáng)化學(xué)習(xí)目前應(yīng)用非常廣泛,可以有效應(yīng)對(duì)周圍環(huán)境的變化,多智能體強(qiáng)化學(xué)習(xí)利于完成智能體與環(huán)境間的持續(xù)交互,目前最常應(yīng)用Q算法實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)。Q學(xué)習(xí)算法的基本思路是直接優(yōu)化迭代的Q函數(shù)。學(xué)者Watkins使用下列公式表示Q函數(shù):
采用Q學(xué)習(xí)算法進(jìn)行強(qiáng)化學(xué)習(xí),需要先改變對(duì)應(yīng)Q值。智能體的決策時(shí)刻為公式中的t,當(dāng)環(huán)境狀態(tài)為st時(shí),智能體就會(huì)依據(jù)一定的算法與策略執(zhí)行at,同時(shí)依據(jù)反饋信息立即獎(jiǎng)賞r并進(jìn)入st+1這一新的環(huán)境狀態(tài),繼續(xù)依據(jù)算法執(zhí)行動(dòng)作,并進(jìn)入下一環(huán)境狀態(tài)。以此過程循環(huán)往復(fù),當(dāng)Q值不再出現(xiàn)變化時(shí),Q函數(shù)收斂,對(duì)應(yīng)智能體的學(xué)習(xí)過程到此結(jié)束。
2?多智能體強(qiáng)化學(xué)習(xí)的改進(jìn)
分析標(biāo)準(zhǔn)的Q學(xué)習(xí)算法,可以發(fā)現(xiàn)智能體并未學(xué)習(xí)到足夠的知識(shí)體系,比如當(dāng)搜索范圍增大,Q學(xué)習(xí)算法的收斂速度非常緩慢,實(shí)際應(yīng)用時(shí)會(huì)直接影響整個(gè)系統(tǒng)的性能。對(duì)此應(yīng)積極改進(jìn)強(qiáng)化學(xué)習(xí)的算法。
多智能體的動(dòng)作以具體環(huán)境為支撐,而交通環(huán)境非常復(fù)雜,因此智能體的狀態(tài)轉(zhuǎn)移無法確定,這也是降低其學(xué)習(xí)速度的重要原因。為了讓智能體能在最短時(shí)間內(nèi)作出正確的行為決策,應(yīng)適當(dāng)增大學(xué)習(xí)效率a的數(shù)值,提高多智能體的學(xué)習(xí)速度。其后采用進(jìn)行Q算法強(qiáng)化學(xué)習(xí):首先,將所有的Q數(shù)初始化。其次檢測(cè)當(dāng)前的環(huán)境狀態(tài),并設(shè)置為s。接著一定的算法選擇確定動(dòng)作a,當(dāng)動(dòng)作a執(zhí)行結(jié)束,多智能體檢測(cè)新的環(huán)境狀態(tài),并將原本的s變?yōu)閟,依據(jù)經(jīng)驗(yàn)環(huán)境和獎(jiǎng)懲值r更新公式中的Q值。新的公式如下:
以此為基礎(chǔ),設(shè)置模型學(xué)習(xí)環(huán)境。隨機(jī)選擇動(dòng)作狀態(tài)(s,a),將該狀態(tài)帶入到環(huán)境模型當(dāng)中,計(jì)算下一個(gè)狀態(tài)的s與r值,更新Q值,直至最后完成強(qiáng)化學(xué)習(xí)。
以單交叉十字路口為例,假設(shè)目前各個(gè)方位均有三種類型的車流,那么如果當(dāng)前的綠燈對(duì)應(yīng)一種相位代碼,首先設(shè)置時(shí)間為t,統(tǒng)計(jì)車輛的排隊(duì)長(zhǎng)度與未來5分鐘車輛的到達(dá)率,其后形成對(duì)應(yīng)的環(huán)境狀態(tài)。其次確定智能體的動(dòng)作空間與動(dòng)作策略。這里提出兩種動(dòng)作策略的設(shè)計(jì)目標(biāo):最優(yōu)選擇函數(shù)估計(jì)中行為值最大的,提高算法的在線能力;考慮算法的收斂性,要求動(dòng)作空間與狀態(tài)的精確性。另外上下班時(shí)間交通壓力較大,容易影響Q學(xué)習(xí)算法的學(xué)習(xí)速度,導(dǎo)致智能體的控制性能降低,對(duì)此應(yīng)合理調(diào)試綠燈相位與紅燈相位。
將Q學(xué)習(xí)算法的改進(jìn)效果說明如下:某主干道單交叉路口的飽和流量為2000V eh/h,綠燈最大時(shí)長(zhǎng)為直行80s,左轉(zhuǎn)20s,最小時(shí)長(zhǎng)10s,每個(gè)方向的初始排隊(duì)車輛4s,多智能體觀測(cè)新環(huán)境的時(shí)間間隔為2s。觀測(cè)時(shí)間為140min。
仿真結(jié)果見圖1,可以發(fā)現(xiàn),在50min之前原本的Q學(xué)習(xí)算法與改進(jìn)的Q學(xué)習(xí)算法初期變化明顯,隨著觀測(cè)時(shí)間的延長(zhǎng),改進(jìn)Q學(xué)習(xí)算法的效果逐漸凸顯出來,車輛的平均速度得到提升。究其原因,多智能體學(xué)習(xí)初期屬于試錯(cuò)學(xué)習(xí)階段,改進(jìn)之后多智能體以經(jīng)驗(yàn)知識(shí)為基礎(chǔ)進(jìn)行模型學(xué)習(xí),收斂時(shí)間早,能有效加速迭代過程,算法改進(jìn)有一定效果。
結(jié)語:隨著社會(huì)經(jīng)濟(jì)的發(fā)展,交通問題主要是減少交通道路擁堵及提高交通效率,人工智能技術(shù)的發(fā)展造就了智能交通系統(tǒng),一定程度上改善了復(fù)雜的交通問題。本文主要提出了一個(gè)多智能體Q學(xué)習(xí)算法的交通信號(hào)優(yōu)化控制的方法,通過改進(jìn)的Q學(xué)習(xí)算法,實(shí)現(xiàn)了最優(yōu)的控制策略。通過實(shí)驗(yàn)仿真,驗(yàn)證了這種方法可以有效的解決交通優(yōu)化問題。
參考文獻(xiàn):
[1]高思琦. 基于深度強(qiáng)化學(xué)習(xí)的多智能體城市道路交叉口交通流優(yōu)化控制研究[D].福建工程學(xué)院,2019.
[2]成衛(wèi),唐逸超,鄭佐雄.基于感應(yīng)控制的過飽和交叉口流量轉(zhuǎn)移方法研究[J].重慶交通大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,37(11):83-90.
[3]楊文臣,張輪,Zhu Feng.多智能體強(qiáng)化學(xué)習(xí)在城市交通網(wǎng)絡(luò)信號(hào)控制方法中的應(yīng)用綜述