孫 劍
(北京地鐵通號分公司,北京 100082)
我國城市化和汽車化進程加速,導致交通擁堵、交通事故、環(huán)境污染和能源短缺等問題日趨嚴重。在地鐵軌道交通體系中,需要對各種信號進行控制,以保障列車安全、高效地行駛[1]。地鐵軌道交通信號智能控制是利用先進的信息技術手段對地鐵列車進行精細化運行控制和調度,以提高地鐵運行效率、安全性和服務質量[2]。其目標是通過合理地調整地鐵軌道交通信號來優(yōu)化交通流量分配、緩解交通擁堵、提高交通運行效率、降低發(fā)生交通事故的概率以及提高交通安全性[3]。
為了進一步實現對地鐵軌道交通信號的智能化控制,該文結合多Agent技術對地鐵軌道交通信號智能控制方法進行研究。Agent技術可以對交通流量、路況以及車速等數據進行實時監(jiān)測和分析,快速響應交通狀況的變化。該技術還可以根據不同環(huán)境和條件進行自我調整和優(yōu)化,以適應不同的交通流量和路況,從而提高控制效率和精度。該技術具有快速響應和實時處理的特點,可以實現對地鐵軌道交通信號控制的實時監(jiān)測和控制功能,從而提高運行效率和安全性[4]。
在地鐵軌道交通信號智能控制中,需要根據列車的位置、速度和狀態(tài)等信息實時監(jiān)測路段的情況,以便控制信號機的開關。同時,還需要設置適當的信號間距和信號燈顏色等參數,以保障列車行駛的安全性和高效性。
在地鐵軌道交通中,信號控制器通常被安裝在信號機箱內(該機箱通常被安裝在路軌附近或者站臺的下方)。信號控制器的安裝位置需要考慮信號控制器與信號機之間的距離、信號控制器所需的電力和通信設施等因素。信號控制器會分布在軌道線路的各個關鍵位置,例如車站、隧道入口以及信號區(qū)間等位置(這些位置通常是列車行駛的關鍵節(jié)點)。交通信號控制器示意圖如圖1所示。
圖1 交通信號控制器示意圖
在控制器中,各個模塊的基本功能如下:1)感知模塊。感知模塊負責獲取并監(jiān)測列車的實時位置、速度和狀態(tài)等關鍵信息,并將其傳輸給控制模塊進行處理和分析。2)控制模塊。控制模塊是信號控制器的核心部分,會根據實時的列車位置和路段情況計算最優(yōu)的信號控制方案,并給信號機發(fā)送控制命令。3)通信模塊。通信模塊負責與其他設備或者控制中心進行通信,以實現信息交換和下發(fā)控制命令等功能,確保實時共享和協(xié)調數據。4)存儲模塊。存儲模塊可以存儲歷史數據和控制參數等信息,以便后續(xù)的分析和優(yōu)化[5]。該模塊會持久存儲感知模塊獲取的數據、控制模塊計算的控制方案和其他相關信息。
由于地鐵軌道交通流的動態(tài)時變性較強且具有一定的隨機性和不確定性,因此應用的控制器不僅需要具備對狀態(tài)的識別功能,而且需要具備自尋優(yōu)的控制策略和對外界環(huán)境的適應能力[6]。控制器在應用過程中需要不斷學習,其實現過程如下:假設決策時間步長為k,地鐵軌道交通環(huán)境狀態(tài)為sk。通常情況下,地鐵軌道交通狀態(tài)包括的交通信息為綠燈已經持續(xù)的時間Tr、綠燈相位的交通流量F以及各個紅燈相位當中排隊長度最大值L。根據上述假設,確定地鐵軌道交通環(huán)境的狀態(tài)集合如公式(1)所示。
式中:Trk為決策時間步長k下交通信息為綠燈已經持續(xù)的時間;Fk為決策時間步長k下綠燈相位的交通流量;Lk為決策時間步長k下各個紅燈相位當中排隊長度最大值。
再假設控制器針對狀態(tài)sk所選擇的行為為ak,ak的設定分為2 種:1)將通行權切換為下一個相位。2)保持當前的相位通行權到下一個時刻。為了防止某個階段發(fā)生意外或者某個階段的通行權限無限擴大,該文提出了一種基于經驗的方法,針對各個階段分別設定最短的綠燈時間和最長的綠燈時間。在控制器學習的過程中,懲罰函數是修改策略的基礎條件,懲罰函數的選擇如公式(2)所示。
式中:r(s,a)為控制器的懲罰函數;Pr和Pg為2 個權重因子;La為等待時間的警戒值;Lr為等待時間的最大值;Lg為等待時間。
在控制器學習的過程中,每個Agent 會根據當前的環(huán)境狀態(tài)和感知的信息選擇最優(yōu)的行為來控制信號機。控制器學習過程中的策略更新依賴于獎勵和懲罰信號,通過與環(huán)境的交互不斷調整和優(yōu)化控制策略。這樣,控制器可以逐漸學習最優(yōu)的控制策略,以縮短車輛等待時間、提高交通效率。
在完成對地鐵軌道交通信號控制器的設置工作后,結合Agent技術對地鐵軌道交通信號控制算法進行計算。在地鐵軌道交通系統(tǒng)中,信號控制算法的計算至關重要,控制算法的設計和優(yōu)化直接影響地鐵運行的安全性、效率和乘客的出行體驗。對控制算法進行計算,可以實現智能化的信號控制功能,達到提高交通系統(tǒng)運行效率、緩解交通擁堵以及優(yōu)化列車行進速度和間隔的目標。對控制算法進行計算還可以幫助確定最優(yōu)的信號控制策略。通過分析和建模地鐵軌道交通系統(tǒng)的特點和需求,結合實時的交通數據和列車狀態(tài)信息,可以利用計算方法來推導最佳的信號控制方案。這些方案可以基于多Agent技術使各個信號機之間相互協(xié)調、協(xié)同工作,以最大程度地提高交通系統(tǒng)的整體效能。
首先,需要對車輛的信號狀態(tài)進行描述,假設第k個相位的信號所顯示的狀態(tài)為ψk,針對不同狀態(tài)設置不同的ψk取值,如公式(3)所示。
當第k相位為綠燈時,ψk取值為0;當第k相位為紅燈時,ψk取值為1;當第k相位為黃燈時,ψk取值為2。
其次,將信號顯示狀態(tài)與車輛到達時的狀態(tài)組合并將其作為交通狀態(tài),如公式(4)所示。
式中:pi為地鐵軌道交通狀態(tài);si為狀態(tài)類別,i=ψ,1,2,…,m。
在該基礎上,提出了一種基于經驗的方法,并將其與實際情況相結合,具有很強的主觀性。結合實際情況,進一步提出了地鐵軌道交通交通信號控制規(guī)則體系[7]。針對不同的地鐵軌道交通狀況,應該生成n個相應的規(guī)則。綜上所述,該文提出了一種基于時間序列的地鐵軌道交通信號控制方法。為了在控制過程中實現對停車延遲的統(tǒng)計功能,假設考察的時間由Γ個長度為Δs的時間段所構成,在第i個時間段中,Δs內一直處于靜止狀態(tài)的車輛為Csi,從靜止狀態(tài)轉變?yōu)樾旭偁顟B(tài)的車輛為Cmi,從行駛狀態(tài)轉變?yōu)殪o止狀態(tài)的車輛為Cni,那么在Δs內總停車延遲Ti如公式(5)所示。
其中,Csi、Cmi和Cni的取值均為自然數。
對地鐵軌道交通信號的控制目標是通過調整信號盡可能地縮短停車延誤和等待延誤的時間,屬于延誤最小化問題,因此,確定地鐵軌道交通信號控制算法函數如公式(6)所示。
式中:minT為延誤最小化目標函數值。
在控制的過程中,每間隔Δs的時間就需要對地鐵軌道交通狀態(tài)進行1 次判定。根據狀態(tài)和相應的控制規(guī)則采取控制行為。在地鐵軌道交通信號控制算法中,引入強化學習,Agent 可以感知其環(huán)境的不同狀態(tài),并且可以執(zhí)行不同的動作。Agent 學習尋優(yōu)的過程可以通過馬爾科夫決策過程最優(yōu)策略問題描述,Agent 獲得的狀態(tài)轉換評價值即為回報值。當回報值最大時,停止Agent 學習,并將此時得到的函數作為地鐵軌道交通信號控制函數。
在確定地鐵軌道交通信號控制算法后,為了協(xié)調多個Agent,需要確保各個Agent 之間可以進行信息傳遞。在交通信號控制Agent 控制的軌道上,因某種原因(例如發(fā)生設備故障,導致軌道擁堵)需要對軌道進行協(xié)調,以實現快速疏導的目標。該協(xié)同要求是根據一個特定的鄰近的交通控制智能體提出的,是一種直接的一對一通信。當交通控制智能體控制的信號燈顏色發(fā)生變化時,需要向其附近的所有地鐵軌道交通信號智能控制器發(fā)出相應的信息,從而使其做出相應的決策[8]。由于各個Agent 感知到的狀態(tài)是有限的,因此可以采用概率統(tǒng)計的方式協(xié)調多個Agent。根據公式(7)計算某一個Agent 對另一個Agent 處于某種狀態(tài)時所采取的動作信任度。
式中:Beli(x,j,ak j)為第i個Agent 對第j個Agent 在x狀態(tài)下所采取的動作aj的信任度;Nk j為Dirichlet 分布的參數。
根據相鄰信號智能控制器控制Agent 在當前狀態(tài)下將要采取的動作信任度,從而給出最優(yōu)的反應策略。
在多個Agent 的交通信號智能協(xié)調控制中,除了確保各個Agent 之間的信息傳遞和動作協(xié)調外,還需要考慮地鐵軌道交通網的整體利益,使其穩(wěn)定地運行。為了實現這一目標,在控制過程中引入了博弈論和經驗知識相結合的方法。
博弈論是一種分析決策制約條件和結果的數學工具,可以解決多個Agent 之間的沖突和協(xié)調問題。在地鐵軌道交通信號智能控制中,當各個信號智能控制Agent 處于相鄰位置時,它們的決策會相互影響。通過博弈論的方法可以確定各個Agent 在不同狀態(tài)下采取的最佳動作,使整體的控制效果達到最佳。通過計算某一個Agent 對另一個Agent 處于某種狀態(tài)時所采取的動作的信任度,可以給出最優(yōu)的反應策略。這種基于博弈論的協(xié)調方法能夠有效平衡各個Agent 之間的利益,提高整體交通系統(tǒng)的效率和穩(wěn)定性。
除了博弈論外,經驗知識也被融入多個Agent 的交通信號智能協(xié)調控制中。經驗知識是基于歷史數據和實踐經驗總結出的規(guī)則和策略,可以調節(jié)協(xié)調過程中發(fā)生的狀況。例如在地鐵軌道交通信號智能控制過程中,當控制區(qū)域內的線路都處在交通高峰時,交通信號控制Agent 就不會再以博弈論為基礎進行協(xié)調,而是改為以管理Agent 為基礎,通過管理Agent 的人機界面進行協(xié)調控制。綜上所述,通過多個Agent 相互之間的協(xié)調控制確保最終控制效果為最理想狀態(tài)下的控制效果,同時也可以確保實現等待時間最短的控制效果。該方法可以有效提高交通系統(tǒng)的效率,緩解交通擁堵和延誤情況,為乘客提供更便捷、更舒適的出行體驗。
該文結合多Agent技術提出了一種全新的地鐵軌道交通信號智能控制方法,為了驗證該控制方法的可行性,選擇將基于有序樣本聚類的控制方法作為對照I 組,將基于電子信息技術的控制方法作為對照II 組,將該文提出的基于多Agent技術的控制方法作為試驗組。利用3 種控制方法對相同試驗對象進行地鐵軌道交通信號控制。以某城市范圍內的某一地鐵軌道交通作為試驗研究對象,為了對比3 種方法的控制效果,選擇將平均車輛等待時間作為評價指標。在試驗過程中,按照以下內容設置相同的試驗條件:將信號的轉換周期設置為120 s,將黃燈亮起的持續(xù)時間設置為5 s。在50 次控制中,記錄每種控制方法應用下的平均車輛等待時間,結果記錄見表1。
表1 3 種控制方法控制效果對比表
對表1 中的試驗數據進行分析可知,試驗組每10 次控制中平均等待時間均控制在65.00 s~70.00 s,當控制次數從0 次~10 次增至40 次~50 次時,試驗組的平均等待時間逐漸縮短(68.25 s~65.63 s)。表明試驗組的控制方法在縮短車輛等待時間方面具有一定效果。對照I 組和對照II 組在整個試驗過程中的平均等待時間都較長,并且沒有明顯縮短的趨勢。對照I 組的平均等待時間為125.26 s~131.24 s,對照II 組的平均等待時間為124.25 s~135.26 s,平均等待時間均超過120.00 s,當控制次數為30 次~40 次時,對照組II 的平均等待時間達到135.26 s,這表明對照I 組和對照II 組在縮短車輛等待時間方面效果比試驗組差。對照I 組和對照II 組控制方法不合理,延長了車輛等待時間,對地鐵軌道交通運行效率有一定負面影響,而該文提出的基于多Agent技術的控制方法能夠有效縮短等待時間,提高地鐵軌道交通運行效率,從而有效控制地鐵軌道交通信號。
綜上所述,該文將多Agent技術應用到對地鐵軌道交通信號的控制中,提出了一種全新的智能控制方法。通過對比試驗驗證了該控制方法的有效性。通過對比得出,該文提出的控制方法可以有效縮短等待時間,從而提高地鐵軌道交通的運行效率。