夏 新 海
(廣州航海學(xué)院 港口與航運(yùn)管理學(xué)院,廣東 廣州 510725)
對(duì)交叉口設(shè)置一個(gè)信號(hào)控制Agent,稱為T(mén)SCA(Traffic Signal Control Agent),其主要功能是針對(duì)本交叉口當(dāng)前交通流的狀態(tài)制定相應(yīng)的控制策略,讓執(zhí)行裝置執(zhí)行,進(jìn)而改善本交叉口交通流環(huán)境。路網(wǎng)中交叉口之間交通流是相互關(guān)聯(lián)的。由于對(duì)策論是研究理性的主體之間沖突及合作的理論,也是研究人類(lèi)社會(huì)交互的最佳數(shù)學(xué)工具,因此非常適合協(xié)調(diào)交叉口TSCA之間的關(guān)系。目前對(duì)策論主要應(yīng)用在交通誘導(dǎo)中交通管理者和出行者之間的博弈分析。劉建美,等[1]建立了誘導(dǎo)-出行信號(hào)博弈模型。有文獻(xiàn)初步探討了博弈論進(jìn)行交叉口交通信號(hào)交互研究,馬壽峰[2]、Shahaboddin[3]利用Q學(xué)習(xí)及二人非零和合作型對(duì)策來(lái)進(jìn)行交叉口間的信號(hào)協(xié)調(diào)控制,但假定交叉口TSCA的效用值為公共知識(shí);李振龍,等[4]應(yīng)用對(duì)策論的Nash平衡理論建立了交叉口之間的交互模型并給出協(xié)調(diào)算法;I.Alvarez,等[5]利用馬爾科夫決策過(guò)程為交叉口交通信號(hào)控制進(jìn)行建模,在每一迭代過(guò)程中求得Stackelberbg平衡和Nash平衡,但其研究的為孤立交叉口。由于單交互學(xué)習(xí)方法不考慮歷史上的交互,只根據(jù)交叉口TSCA本身的先驗(yàn)知識(shí)決策,在知識(shí)不完備的情形下無(wú)法達(dá)到協(xié)調(diào)。而標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)方法僅考慮最近一次的交互信息,因此筆者采用多交互學(xué)習(xí)方法進(jìn)行信號(hào)控制。
利用對(duì)策論的Nash平衡理論構(gòu)建交叉口TSCA多交互數(shù)學(xué)模型,可用如式(1)中的3元組表示:
(1)
Step 1:當(dāng)交叉口TSCA 1在預(yù)測(cè)某相位排隊(duì)車(chē)輛數(shù)超過(guò)閥值時(shí),向相鄰的交叉口TSCA 2發(fā)出交互請(qǐng)求,如用車(chē)輛排隊(duì)數(shù)表示的效用矩陣值。
Step 2:相鄰的交叉口TSCA 2收到交互請(qǐng)求并響應(yīng),并對(duì)相鄰交叉口TSCA1的類(lèi)型(即下一周期到達(dá)的車(chē)流量的大小)進(jìn)行預(yù)測(cè),按照多交互數(shù)學(xué)模型求解納什均衡策略。
Step 3:若納什均衡策略存在,TSCA 2同時(shí)將計(jì)算得到的TSCA 1應(yīng)執(zhí)行的行為發(fā)送給TSCA 1,即TSCA 1和TSCA 2按照均衡策略執(zhí)行;若納什均衡策略不存在,則交互結(jié)束,各交叉口采用自主定時(shí)信號(hào)控制策略。
在交互過(guò)程中,可以引入一些規(guī)則如綠波帶思想。如某一交叉口TSCA某一相位車(chē)輛數(shù)超過(guò)閥值,向下游交叉口TSCA發(fā)送交互請(qǐng)求時(shí),下游交叉口TSCA根據(jù)其知識(shí)模型中的路段長(zhǎng)度及路段上車(chē)輛的平均速度計(jì)算上游交叉口放行的車(chē)輛到達(dá)下游交叉口的時(shí)間,并在此時(shí)刻將對(duì)應(yīng)相位放綠燈。
開(kāi)始:
k=0,初始化交叉口TSCA水平參數(shù)[βi(交叉口i交通狀態(tài)變化的概率),pi]以及路網(wǎng)參數(shù)[γ(路網(wǎng)交通狀態(tài)變化的概率),α(交叉口TSCA學(xué)習(xí)概率),r(交叉口TSCA與相鄰交叉口TSCA交互幅度),K(最大交互次數(shù)限制),δ( 記憶因子)]。
當(dāng)沒(méi)有達(dá)到最大限制交互次數(shù)K,對(duì)于路網(wǎng)中每一交叉口TSCAi重復(fù)如下過(guò)程:
k=k+1
While路網(wǎng)交通狀況沒(méi)有發(fā)生變化
調(diào)查交叉口交通狀況
While not 交叉口TSCA狀態(tài)變化期間
While not 學(xué)習(xí)期間
結(jié)束(與上第1個(gè)while對(duì)齊)
其中,當(dāng)交叉口TSCA間進(jìn)行信號(hào)學(xué)習(xí)時(shí),可能考慮到由安全規(guī)則引起的一般的約束,如最小(大)綠燈時(shí)間要求等。
將多交互學(xué)習(xí)方法與下面兩種控制策略進(jìn)行比較:
1)隨機(jī)策略。初始策略對(duì)應(yīng)于均勻隨機(jī)策略,即采用softmax函數(shù)對(duì)所有相位分配相同的概率;
2)均勻策略。對(duì)所有相位分配相等的時(shí)長(zhǎng),其中相位遵守固定的順序。
用到的交通情景見(jiàn)圖1。設(shè)置東西和南北兩個(gè)相位,每條路的兩個(gè)末端交叉口作為車(chē)輛的起始結(jié)點(diǎn)和終止結(jié)點(diǎn),這些交叉口的TSCA的控制策略對(duì)網(wǎng)絡(luò)沒(méi)有影響,而其他3個(gè)交叉口作為控制路口。道路長(zhǎng)度設(shè)為3個(gè)時(shí)間單位,則每輛車(chē)最大行駛時(shí)間為12個(gè)時(shí)間單位。
圖1 用到的交通網(wǎng)絡(luò)Fig.1 Traffic network used in the simulation
東西方向和北南方向進(jìn)入系統(tǒng)的交通量分別是時(shí)間的正弦和余弦函數(shù),因此,中心交叉口的交通需求也隨著時(shí)間振蕩。上游交叉口釋放周期性的突發(fā)交通流后,在道路行進(jìn)過(guò)程中消散,因此此情景建立了一個(gè)具有某種形式的快速變化需求的模型,具有一定的現(xiàn)實(shí)意義。
令cn(t)為在時(shí)間步0t從北向進(jìn)入系統(tǒng)的車(chē)輛數(shù),cw(t)為從西向進(jìn)入的車(chē)輛數(shù),其計(jì)算如下:
cn(t)=[(sin(f(t))+1)/2*base_num]
cw(t)=[(cos(f(t))+1)/2*base_num]
式中:f(t)是當(dāng)前時(shí)間步的函數(shù),base_num是系統(tǒng)產(chǎn)生的平均車(chē)輛數(shù),這里設(shè)置f(t)=πt/10,base_num=3,這樣經(jīng)過(guò)20時(shí)間步后完成了一個(gè)周期。
采用平均車(chē)輛行駛時(shí)間作為性能指標(biāo),多交互學(xué)習(xí)算法到達(dá)穩(wěn)定狀態(tài)后的運(yùn)算超過(guò)100 000次,截止時(shí)間是887 150 s。多交互學(xué)習(xí)方法取得了良好的結(jié)果,行駛時(shí)間為14.3,與理論優(yōu)化值12很接近。而隨機(jī)策略及均勻策略行駛時(shí)間分別為250和102,相對(duì)于多交互學(xué)習(xí)方法其性能要差得多。
圖2給出了算法運(yùn)行K=30次的結(jié)果,其中βi=0.2,γ=0.9,α=0.8,r=2,δ=0.8,反映了多交互學(xué)習(xí)方法的行為的極值情況。從圖2可以看出,多交互學(xué)習(xí)在某一時(shí)間點(diǎn)取得了明顯改進(jìn),算法在大約7 000~8 000時(shí)間步后達(dá)到“準(zhǔn)定態(tài)”。
圖2 多交互學(xué)習(xí)算法收斂情況Fig.2 Convergence of the multi-interactive learning algorithm
構(gòu)建了交叉口TSCA多交互數(shù)學(xué)模型,在此模型中,每次交叉口TSCA間進(jìn)行交互時(shí),僅根據(jù)選擇策略獲得的效用值來(lái)更新它的混合策略,此模型克服了單交互及標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)的不足。在此基礎(chǔ)上分析了相鄰兩交叉口TSCA間博弈交互過(guò)程,并提出了交叉口TSCA間多交互學(xué)習(xí)算法。通過(guò)實(shí)例分析,基于多交互的交通信號(hào)控制優(yōu)于基于隨機(jī)策略和均勻策略的交通信號(hào)控制,并具有一定的收斂性。
[1] 劉建美,馬壽峰.交通誘導(dǎo)-出行信號(hào)博弈分析及其虛擬行動(dòng)學(xué)習(xí)模型[J].武漢大學(xué)學(xué)報(bào):工學(xué)版,2010,43(1):102-107.Liu Jianmei,Ma Shoufeng.Analysis of guidance-travel signaling game and fictitious play model [J].Journal of Wuhan University:Engineering,2010,43(1):102-107.
[2] 馬壽峰.一種基于agent協(xié)調(diào)的兩路口交通控制方法[J].系統(tǒng)工程學(xué)報(bào),2003,6(3):273-278.Ma Shoufeng.Agent-based traffic coordination control method for two adjacent intersections [J].Journal of Systems Engineering,2003,6(3):273-278.
[3] Shamshirband S.A distributed approach for coordination between traffic lights based on game theory [J].The International Arab Journal of Information Technology,2012,9(2):148-152.
[4] 李振龍,陳德望.交通信號(hào)區(qū)域協(xié)調(diào)優(yōu)化的多智能體博弈模型[J].公路交通科技,2004,21(1):85-88.Li Zhenlong,Chen Dewang.A game theoretical model of multi-agents in area coordination and optimization of traffic signals [J].Journal of Highway and Transportation,2004,21(1):85-88.
[5] Alvarez I,Poznyak A,Malo A.Urban traffic control problem a game theory approach [C]//Proceedings of the 47thIEEE Conference on Decision and Control.Cancun,Mexico:IEEE,2008:2168-2172.
[6] 夏新海,許倫輝.交叉口TSCA間的博弈學(xué)習(xí)協(xié)調(diào)方法[J].重慶交通大學(xué)學(xué)報(bào):自然科學(xué)版,2010,29(2):269-271.Xia Xinhai,Xu Lunhui.Method of intersection agent coordination based on game-learning [J].Journal of Chongqing Jiaotong University:Natural Science,2010,29(2):269-271.
[7] 石純一.基于Agent 的計(jì)算[M].北京:清華大學(xué)出版社,2007:149-161.Shi Chunyi.Computation Based on Agent [M].Beijing:Tsinghua University Press,2007:149-161.
[8] 汪賢裕,肖玉明.博弈論及其應(yīng)用[M].北京:科學(xué)出版社,2008.Wang Xianyu,Xiao Yuming.Game Theory and Its Application [M].Beijing:Science Press,2008.