林俊亭,閔曉琴,王海斌,梁化典
(1.蘭州交通大學(xué)自動化與電氣工程學(xué)院,蘭州 730070;2.中航電測儀器股份有限公司,西安 710119)
現(xiàn)有的列車運行控制系統(tǒng)(簡稱列控系統(tǒng))為列車正常運行提供安全性保障,但由于列控系統(tǒng)在運行過程中受到人為、環(huán)境和技術(shù)等多種因素的影響,使得列車在運營過程中的碰撞風(fēng)險無法完全避免.對策論適用于分析對策對象在運動狀態(tài)下的矛盾與沖突問題,滿足軌道交通運營中列車與列車安全間隔控制及碰撞防護的需求,因此,可通過利用微分對策理論方法實現(xiàn)對列車運行過程中的安全性分析,但微分對策問題具有明顯的非線性特征,且對策初值影響求解結(jié)果,目前常用的思路是利用數(shù)字迭代求解[1],這在一定程度上阻礙了微分對策方法的應(yīng)用.將神經(jīng)網(wǎng)絡(luò)(neural networks,NN)引入微分對策問題對于簡化微分對策的計算過程極為有效,利用神經(jīng)網(wǎng)絡(luò)方法得出局中人各自的最優(yōu)途徑,從而合成系統(tǒng)最優(yōu)解.關(guān)于微分對策理論與自適應(yīng)神經(jīng)網(wǎng)絡(luò)的研究中,文獻[2]將運行列車視為具有自主意識的“智能體”,利用定性微分對策方法實現(xiàn)列車碰撞防護方法的分析與計算,并提出列車運行避碰策略;文獻[3]提出一種自適應(yīng)神經(jīng)網(wǎng)絡(luò)的控制方法,實現(xiàn)了對未知動力學(xué)非線性系統(tǒng)的精確和魯棒控制;文獻[4]針對多目標(biāo)對策場景,提出了一種基于信息不完全狀態(tài)下的微分對策制導(dǎo)方法;文獻[5]所設(shè)計的基于神經(jīng)網(wǎng)絡(luò)算法的微分對策狀態(tài)觀測器,可評估不確定非線性微分對策系統(tǒng)模型;文獻[6]研究了具有不對稱信息和信號顯示的二人零和微分博弈值的存在性,并根據(jù)方向?qū)?shù)和微分對策得到了支付函數(shù)的表征;文獻[7]提出一種基于多組并行深度Q網(wǎng)絡(luò)的連續(xù)空間追逃博弈算法,以解決維數(shù)災(zāi)難不足以及離散動作集自學(xué)習(xí)復(fù)雜問題.結(jié)合以上研究,本文將神經(jīng)網(wǎng)絡(luò)與微分對策理論相結(jié)合,解決應(yīng)用微分對策分析列車避碰時所面臨的雙邊極值求解難題,從而為微分對策在軌道交通領(lǐng)域中的列車避碰策略研究及應(yīng)用提供理論參考.
微分對策理論根據(jù)分類條件可以分為不同類型的對策方法,且隨著該理論的不斷成熟與發(fā)展,針對對策環(huán)境的不同,微分對策方法發(fā)展衍生出各自對應(yīng)的解析過程[8].本文考慮二人離散微分對策問題,其通用解法描述如下:
其中:x(k)表示系統(tǒng)在 k時刻的對策系統(tǒng)狀態(tài);u(k),v(k)表示二人微分對策系統(tǒng)中k時刻的對策雙方的控制量.此時對策雙方的對策函數(shù)可表示為
其中:k=0,1,…,N-1;λ為協(xié)態(tài)向量,滿足
終端條件為
此時,對策雙方最優(yōu)策略滿足:
從上述的推導(dǎo)過程可以看出:在利用微分對策理論求解有關(guān)最優(yōu)解問題時,由于局中人針對不同的對策環(huán)境均有各自的策略;因此,求解Hamiltonian函數(shù)的過程中邊值問題極為重要,且針對局中人不同的初始運行條件有不同的計算方法和過程,求解過程較為復(fù)雜且繁瑣[9],故本文采用神經(jīng)網(wǎng)絡(luò)結(jié)合微分對策計算方法,解決上述遇到的問題.
目前常用的神經(jīng)網(wǎng)絡(luò)自適應(yīng)控制方法可分為模型參考自適應(yīng)控制和自校正控制[10].對于上述所提到的兩種控制方案,針對其結(jié)構(gòu)不同又可以分為直接型和間接型,結(jié)構(gòu)分別如圖1~4所示.其中:NNI表示網(wǎng)絡(luò)辨識器(neural network identifier),而NNC表示網(wǎng)絡(luò)控制器(neural network controller).
圖1 神經(jīng)網(wǎng)絡(luò)模型參考直接自適應(yīng)控制Fig.1 Neural network model reference direct adaptive control
本文所采用的自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制器是基于微分對策理論所得到的Hamiltonian函數(shù),圖5表示為自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制器的一般性結(jié)構(gòu).由圖5可知,該控制器主要由3個神經(jīng)網(wǎng)絡(luò)以及對策系統(tǒng)方程構(gòu)成:神經(jīng)網(wǎng)絡(luò)的作用是求解微分對策計算過程中遇到的雙邊極值問題;對策系統(tǒng)表達式為微分對策理論對分析對象的初始狀態(tài)運動方程推理所得.3個神經(jīng)網(wǎng)絡(luò)模塊中,UNN(k)和 VNN(k)為系統(tǒng)控制網(wǎng)絡(luò),λNN(k+1)為系統(tǒng)協(xié)態(tài)神經(jīng)網(wǎng)絡(luò)[11].
圖2 神經(jīng)網(wǎng)絡(luò)模型參考間接自適應(yīng)控制Fig.2 Neural network model reference indirect adaptive control
圖3 神經(jīng)網(wǎng)絡(luò)直接自校正控制Fig.3 Neural network direct self-adjusting control
圖4 神經(jīng)網(wǎng)絡(luò)間接自校正控制Fig.4 Neural network indirect self-adjusting control
分析圖5所示的自適應(yīng)評判神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖可知:λNN(k+1)所代表的模塊為協(xié)態(tài)網(wǎng)絡(luò),該模塊通過完成對式(4)的學(xué)習(xí)從而求解協(xié)態(tài)向量λ;UNN(k)和VNN(k)為控制策略網(wǎng)絡(luò),求解控制變量u和v;λ(k+1)將 λNN(k+1)與UNN(k),VNN(k)互相連接起來,協(xié)態(tài)網(wǎng)絡(luò)的輸出可用于實現(xiàn)控制網(wǎng)絡(luò)的校正過程[12].
圖5 自適應(yīng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Self-adaption neural network structure
定義前行列車F和追蹤列車B分別以速度vf和vb在各自軌道運行,假設(shè)追蹤列車B和前行列車F在某一時刻的運動位置關(guān)系圖如圖6所示,選取前行列車F的速度方向為x軸正方向.
圖6 兩車的運動位置關(guān)系圖Fig.6 Relationship diagram of the movement position of the two trains
設(shè)兩車之間的相對坐標(biāo)軸分別為x軸和y軸,令af,ab分別為兩車的法向加速度,定義x=xf-xb和y=yf-yb為兩列車相對位移,θ和β分別為追蹤列車B和前行列車F速度與x坐標(biāo)軸正方向的夾角,此時β=af=0.本文各變量采用無量綱規(guī)范化形式:
則追蹤列車B和前行列車F之間的運動學(xué)方程可表示為:
將式(12)所表達的運動學(xué)方程離散化,可表示為:
其中:ts為采樣周期.雙方通過調(diào)整和選擇各自最優(yōu)
其中:γ為任意向量.此時,定義Hamiltonian函數(shù)表達式為
可得:
在Simulink模塊中構(gòu)建神經(jīng)網(wǎng)絡(luò)模型時,可以根據(jù)需求選擇具體庫中的模塊,組成神經(jīng)網(wǎng)絡(luò)模型并調(diào)整相關(guān)的參數(shù)[13].操作過程可描述為:在Simulink工具中,找到 Neural Network Blockset庫中的 netsum,tansig,purelin和dotprod等模塊,以及MathOperations庫中Sum模塊,Sinks庫中的Out1模塊,Sources庫中的In1模塊和Constant模塊,構(gòu)建一個4層神經(jīng)網(wǎng)絡(luò),如圖7所示,其中:常數(shù)1.140 0和1.520 0為網(wǎng)絡(luò)的閾值;其余常量模塊為層與層之間的連接權(quán)值[14].
本文選擇3種列車運行情形進行分析,分別為不考慮列車車身長度影響的同軌道直線追蹤、考慮列車車身長度為L=0.12 km的兩列車直線追蹤以及非直線列車追蹤運行情況.具體分析情況如下:
情形1:考慮同軌道直線追蹤問題,前行列車速度vf保持不變,追蹤列車速度為vb,兩車相距x0,按照實際情況分析.前行列車F和追蹤列車B在同一軌道直線運行,如果vb>vf,假設(shè)軌道不限長度,無論二者之間間隔多遠,此時,經(jīng)過追逐時間t,追蹤列車B總能捕獲前行列車F,使得追尾發(fā)生.假設(shè)vb初始值為0,且最高速度為180 km/h,vf=90 km/h保持不變,此時根據(jù)微分對策理論分析,由于追蹤列車B的目的是調(diào)整自身策略,盡可能的使得碰撞發(fā)生,故追蹤列車B此時唯一的策略是增加自身列車速度,即為在速度持續(xù)增加的情況下追趕前行列車F,由于普速列車加速度不能過大,此時取追蹤列車B的加速度值為0.6 m/s2,取兩車之間的距離為x0=1 km.
為驗證神經(jīng)網(wǎng)絡(luò)控制器輸出結(jié)果的正確性,對上述追尾事故進行理論分析和數(shù)據(jù)計算.根據(jù)上述可知,碰撞發(fā)生過程分為2個階段:
1)追蹤列車B勻變速直線運行,前行列車F勻速運行.當(dāng)追蹤列車B速度達到180 km/h時,所用時間t1=83.3 s,追蹤列車B和前行列車F運行的距離Lf=Lb=2.083 km,但是x0=1 km,此時,經(jīng)過時間t1后,兩車之間的距離為1 km,階段1完成;
2)追蹤列車B和前行列車F均勻速運行.此時vb=180 km/h,vf=90 km/h,此時,經(jīng)過時間 t2(t2=50 s)兩列車發(fā)生碰撞.
綜上所述,當(dāng)追蹤列車B和前行列車F保持直線追蹤時,由于前行列車F始終保持勻速直線運行,追蹤列車B通過加速逐漸縮短兩車之間的運行距離,并最終使得追尾事故發(fā)生.仿真結(jié)果如圖8(a)所示,其中:虛線表示數(shù)據(jù)分析計算結(jié)果仿真圖;實線表示自適應(yīng)控制器仿真輸出結(jié)果.由圖8(a)可知:整個過程的數(shù)學(xué)推導(dǎo)過程所得到的結(jié)果和由自適應(yīng)控制器仿真所得到的結(jié)果曲線基本重合,可進一步驗證仿真結(jié)果的正確性.
情形2:考慮更為復(fù)雜的直線列車運行狀況,對于列車避碰分析,也應(yīng)該考慮車身長度問題,因為在列車避碰分析中將列車視為一個單獨的質(zhì)點不夠全面和有效.令車身長度L=0.12 km,即當(dāng)前行列車F的車尾位置與追蹤列車B車頭位置之間的距離等于或者小于車身長度L時,視為碰撞發(fā)生.此時,設(shè)兩車速度初值為vf=vb=90 km/h,兩車初始位置距離x0=2 km,利用自適應(yīng)神經(jīng)網(wǎng)絡(luò)模型求解列車運行曲線,如圖8(b)所示.由圖8(b)可知:前行列車F和追蹤列車B將通過改變自身車速以達到微分對策理論中Hamiltonian函數(shù)中各自最優(yōu)解目的.當(dāng)列車運行時長為115.65 s時,前行列車F的車尾與追蹤列車B的車頭之間的距離縮短至L,即表示碰撞發(fā)生.
情形3:針對非直線列車追蹤運行情況,假如兩列車不在同一軌道追蹤運行.令兩列車之間的初始距離為2 km,初始速度均為270 km/h,前行列車F勻速運動,追蹤列車B自動調(diào)整速度,兩車變?yōu)橥壍乐本€追蹤問題,則經(jīng)過時間t=106.67 s后碰撞發(fā)生.列車位置變化曲線如圖8(c)所示,圖中曲線為追蹤列車B的位置曲線圖,而根據(jù)圖6所表示的列車運動位置圖可知,前行列車F的運行方向始終沿著x軸正方向,兩車的相遇點為追蹤列車B的運行曲線與x軸相交點,此時碰撞發(fā)生.
圖8 列車追蹤運行仿真結(jié)果Fig.8 Sim ulation results of train tracking operation
通過對上述3種情況的仿真分析可知:對于一般情況下的列車運行場景,利用自適應(yīng)神經(jīng)網(wǎng)絡(luò)方法所得到的運動學(xué)分析結(jié)果與理論計算相符,同時也可以在一定程度上簡化計算過程.
基于微分對策理論研究列車之間的碰撞防護問題時,由于模型各異會導(dǎo)致分析不同類型的對策問題時產(chǎn)生不同的對策函數(shù),造成直接求解對策函數(shù)的雙邊極值難度大.本文利用自適應(yīng)評判神經(jīng)網(wǎng)絡(luò)建立微分對策問題與神經(jīng)網(wǎng)絡(luò)之間的直接聯(lián)系,避免了直接求解復(fù)雜的雙邊極值問題.主要結(jié)論如下:
1)利用微分對策理論建立兩追蹤列車之間的追逃對策模型,將微分對策求解時遇到的雙邊極值問題轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)問題,自適應(yīng)神經(jīng)網(wǎng)絡(luò)能有效解決微分對策在分析列車避碰時的雙邊極值問題.
2)在Simulink中搭建了自適應(yīng)神經(jīng)網(wǎng)絡(luò)模型,對3種列車運行場景進行實驗驗證.利用自適應(yīng)神經(jīng)網(wǎng)絡(luò)方法所得到的運動學(xué)分析結(jié)果與理論計算相符,且訓(xùn)練后神經(jīng)網(wǎng)絡(luò)雙邊最優(yōu)控制器對初始條件和測量噪聲具有較強魯棒性.
因此,利用自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制器求解微分對策理論更為簡潔和有效,也為后續(xù)微分對策分析更為復(fù)雜的列車運行情況提供可借鑒的方法和思路,同時為不同情況下快速合理地分析列車碰撞防護提供了一定的理論支撐.