李龍躍,劉付顯,史向峰,梅穎穎
(1.空軍工程大學(xué)防空反導(dǎo)學(xué)院,陜西 西安 710051;2.重慶南開中學(xué),重慶 400030)
導(dǎo)彈攻防對抗中追逃對策模型與配點求解法
李龍躍1,劉付顯1,史向峰1,梅穎穎2
(1.空軍工程大學(xué)防空反導(dǎo)學(xué)院,陜西西安 710051;2.重慶南開中學(xué),重慶 400030)
未來的來襲導(dǎo)彈可能具備較強的機動性,其彈道不可預(yù)測,針對攔截彈追擊此類目標(biāo)的追逃問題,基于微分對策(differential game,DG)理論建立追逃博弈模型并給出求解方法。模型在分析兩者相對運動的基礎(chǔ)上,考慮地球重力和自轉(zhuǎn)的影響,以推力角為控制變量,離地高度、速度和經(jīng)度角為狀態(tài)變量,建立微分方程組。然后將追逃DG模型轉(zhuǎn)化為單邊最優(yōu)對策問題;并給出改進的高精度五階Gauss-Lobatto多項式配點法來近似狀態(tài)變量對時間的導(dǎo)數(shù),將微分方程組轉(zhuǎn)換為代數(shù)約束,降低非線性規(guī)劃問題復(fù)雜程度。最后給出了本文研究的仿真實例。
追逃對策;微分建模;Gauss-Lobatto配點法
網(wǎng)址:www.sys-ele.com
當(dāng)前反導(dǎo)作戰(zhàn)中的攻防雙方,均致力于在己方武器系統(tǒng)中集成最先進的探測、導(dǎo)航與控制技術(shù),攔截器對彈道導(dǎo)彈目標(biāo)進行攔截,需要極小的脫靶量,甚至是直接撞擊[1]。文獻[2]中提到:“未來部分彈道導(dǎo)彈或再入飛行器可能具備強大的機動性,其飛行軌道不可預(yù)測”。由于對對方的控制策略不可知,這樣一個具有相互獨立因素約束系統(tǒng)的問題屬于動態(tài)非協(xié)同博弈范疇[3]。從動態(tài)博弈角度看,彈頭和攔截器兩個對象,具有相反的作戰(zhàn)目的,彈頭目標(biāo)(逃逸者)為達成作戰(zhàn)目的,需要盡量躲避攔截器;攔截器(追擊者)為攔截目標(biāo),需要使目標(biāo)處于殺傷或捕獲范圍之內(nèi),雙方構(gòu)成零和“追逃”博弈[4]。追逃問題是博弈論中的經(jīng)典問題,文獻[5]最早基于微分對策(differential game,DG)理論研究了攻防雙方自由決策行動的追逃問題;文獻[6]研究了一類水平面內(nèi)轉(zhuǎn)彎平滑和推力值固定的雙機空戰(zhàn)追逃問題;文獻[7]給出了導(dǎo)彈與飛機追逃過程中不同情況下導(dǎo)彈捕獲目標(biāo)條件的計算方法,隨后文獻[8]又拓展到單個和多個空空導(dǎo)彈之間的追逃問題。對可隨意機動的目標(biāo),在很難預(yù)知或估計其運動軌道的情況下,不宜直接采用最優(yōu)控制理論,在應(yīng)用DG理論研究追逃問題過程中,文獻[9-10]推導(dǎo)并拓展了對策鞍點存在的解析必要條件,文獻[4,11]基于DG理論研究了導(dǎo)彈與強機動的多樣化目標(biāo)之間的追逃問題。
從未來反導(dǎo)作戰(zhàn)背景出發(fā),基于DG理論分析和求解攔截器與彈頭追逃過程中的最優(yōu)機動問題,研究還比較少,除了上述文獻外,近期相關(guān)資料還有文獻[12-14]。由于涉及的微分方程復(fù)雜、狀態(tài)量多,約束條件呈非線性或者耦合狀態(tài),尋求解析解十分困難,因此追逃DG模型的求解也是難點。許多研究側(cè)重于模型的建立及純粹的數(shù)學(xué)推導(dǎo),較少討論模型的數(shù)值求解過程。目前采用的方法主要有間接法和直接法,間接法基于極大極小值原理進行求解,直接法則包括只離散控制變量的打靶法和同時離散控制變量和狀態(tài)變量的配點法[15]。用打靶法進行求解時,對于初值較為敏感,初值估計不合理會導(dǎo)致無法求解,配點法在尋求其數(shù)值解是一個可行方法,文獻[16]曾具體驗證了配點法在DG問題求解中的有效性。本文主要以DG理論為基礎(chǔ),研究導(dǎo)彈攻防對抗中的追逃機動策略問題,給出改進的配點求解算法。
1.1DG方法
一般的DG問題,追逃系統(tǒng)包含追擊者和逃逸者,兩者均有相應(yīng)的控制向量,分別記為cP和cE,則追逃系統(tǒng)的狀態(tài)方程[4]可表述為
式中,xP和xE分別為追擊者和逃逸者的狀態(tài)向量;t0≤t≤te,t0和te分別為追逃的開始和結(jié)束時刻。追逃問題的邊界條件由一個包含起始和終端約束條件的向量
表示
問題的目標(biāo)函數(shù)J可表述為起始和終端狀態(tài)、時間的函數(shù)
在追逃問題中,追擊者需要最小化目標(biāo)函數(shù)J,而逃逸者需要最大化目標(biāo)函數(shù)J,令c*P,c*E分別表示追逃雙方的最優(yōu)控制策略,則有
由于雙方控制變量獨立,因此該追逃系統(tǒng)是可“分離的”,這是上式中最小化和最大化可以互換的必要條件[5],一般稱(c*P,c*E)為DG的鞍點。構(gòu)造哈密頓函數(shù)和終端時刻函數(shù)如下
式中,哈密頓乘子λP,λE,υ均為相應(yīng)的伴隨向量,也稱協(xié)態(tài)向量,滿足以下方程組
鞍點解必須滿足以下條件
即滿足一階條件
滿足二階條件
即上述兩個Hessian矩陣分別為半正定矩陣和半負定矩陣。未指定起始時刻和未指定終端時刻時DG問題的橫截條件分別為
將對策空間劃分為捕獲區(qū)和逃逸區(qū):在捕獲區(qū),如果追擊者采取最優(yōu)機動策略,不論逃逸者如何機動都會被攔截;在逃逸區(qū),如果逃逸者采取最優(yōu)機動策略,不論追擊者如何機動都能逃脫。文獻[5]給出了對策空間中某點屬于捕獲區(qū)的判斷方法
1.2追逃對策模型
本文采用點質(zhì)量模型來表示追逃中的彈頭和攔截器,雙方彼此能夠獲取對方的瞬時狀態(tài)信息,此外還做出以下假設(shè):①攔截器與目標(biāo)相對運動可分為俯仰平面和偏航平面,本文假設(shè)追逃發(fā)生在同一(軌道)平面內(nèi),三維追逃問題可類比拓展,模型考慮地球自轉(zhuǎn),忽略氣體阻力對二者運動的影響;②為了方便研究,二者的最大飛行速度和機動加速度均為常值,推力值大小不變,方向角可變;③追逃博弈的時間很短,且一旦目標(biāo)擺脫攔截器捕獲將能成功攻擊地面目標(biāo);④攔截器的推質(zhì)比(推力與質(zhì)量之比)不能小于彈頭的推質(zhì)比;⑤攔截器到目標(biāo)落點的角距離不能大于彈頭到落點的角距離。
用P表示攔截器,E表示彈頭目標(biāo)(全文所有下標(biāo)中的P和E均表示所對應(yīng)的二者的參數(shù)),二者相對運動示意圖如圖1所示,其中υPh,υPa為攔截器飛行速度υP的水平分量和垂直分量,υEh,υEa為目標(biāo)飛行速度υE的水平分量和垂直分量,hP,hE,he分別為攔截器、目標(biāo)離地高度和地球半徑,φP,φE分別經(jīng)度角。首先,追逃系統(tǒng)狀態(tài)向量記為
圖1 攔截器和彈頭相對運動示意圖
追逃系統(tǒng)控制向量可記為
式中,F(xiàn)P,F(xiàn)E為二者的推力,令θP,θE為二者推力(加速度)方向與水平面的夾角,基于假設(shè)2,二者的推質(zhì)比數(shù)值為常值,意味著二者的控制體現(xiàn)在推力方向上,則
令aP,aE為飛行加速度,mP,mE為質(zhì)量,τe為地球引力常數(shù),在二者速度的垂直方向上有
其次,追逃系統(tǒng)的狀態(tài)向量的伴隨向量記為
根據(jù)式(6),追逃雙方的伴隨狀態(tài)微分方程組為
令地球自轉(zhuǎn)的角速度為?e,根據(jù)式(6),寫出伴隨變量的邊界條件為
再次,由式(8)中一階最優(yōu)性條件可知得到
為判斷θP,θE的具體取值,可根據(jù)式(9)采用二階最優(yōu)性條件進行判斷,即需要滿足
由于追逃結(jié)束時刻不確定,根據(jù)式(10)得到橫截條件為
由圖1中的幾何關(guān)系得到
規(guī)定當(dāng)攔截器與目標(biāo)的距離等于某給定捕獲距離sc時,攔截器必能捕獲目標(biāo)
即追逃問題的邊界條件向量
為
最后,基于假設(shè)③可設(shè)定彈頭目標(biāo)與要攻擊地點距離s2的相反數(shù)為導(dǎo)彈攻防作戰(zhàn)的目標(biāo)(支付)函數(shù)J:
根據(jù)式(11),可以檢驗追逃對策空間中的某點是否屬于捕獲區(qū)
式中,φ=x4-x8,式(22)中的前兩項可以分別可寫成vTP(he+ hP)和vTE(he+hE),則式(22)可寫成
2.1雙邊最優(yōu)對策問題的轉(zhuǎn)化
在用配點法求解之前需要將第1.2節(jié)中的雙邊最優(yōu)對策問題轉(zhuǎn)化為單邊(單目標(biāo))最優(yōu)對策問題,將連續(xù)優(yōu)化問題轉(zhuǎn)變?yōu)殡x散優(yōu)化問題,這種轉(zhuǎn)化需要明確以下幾點[4]:
(1)令~x為擴展后的追逃系統(tǒng)狀態(tài)向量,記為
(2)基于逃逸者最優(yōu)機動滿足的一階和二階條件,其控制向量cE可寫成關(guān)于狀態(tài)向量xE、伴隨向量λE和時間t的函數(shù)
然后追逃博弈系統(tǒng)中只存在追擊者的控制向量cP,記控制向量~c=cP,則有
(3)擴展后的追逃系統(tǒng)狀態(tài)向量包含了逃逸者狀態(tài)向量的伴隨向量,因此邊界條件也需要擴展,即令
相對應(yīng)的擴展后的哈密頓函數(shù)為
終端時刻函數(shù)為
2.2改進配點法
為求得追逃對策問題數(shù)值解,需要采用方法將連續(xù)變量由離散變量來表示,本文采用配點法。配點法也叫多項式匹配法,其思路是將求解區(qū)間分段,用特定多項式來逼近非線性方程,并對多項式求導(dǎo)來近似狀態(tài)變量對時間的導(dǎo)數(shù),最后將微分方程組轉(zhuǎn)換為代數(shù)約束,降低非線性規(guī)劃問題復(fù)雜程度。配點法需要指定數(shù)值積分的規(guī)則,這些規(guī)則是是求解微分方程的基本方法。以微分方程f(t)=?x/?t為例,其簡單的一至三階積分規(guī)則有以下3種:
式(33)就是采用三階Simpson積分方法[13,18]對微分方程和參數(shù)進行離散化處理。在分段數(shù)較少時求解精度較低,為了提高擬合精度,一般有兩種途徑,一是增加分段數(shù),減小離散化的誤差;二是使用更高階積分方法(比如四階、五階)。本文采用改進的五階Gauss-Labatto積分函數(shù)進行擬合,以提高求解精度,可分為兩個步驟:一是時間點的選??;二是近似多項式的設(shè)置。首先將整個追逃博弈過程時間[t0,te]分成n段
令所有時間段的長度均等于Δt(等距節(jié)點)
對每個時間段[ti-1,ti](i=1,2,…,n),指定3個離散時間點ti-1,tmi,ti(i=1,2,…,n)分別為該時間段的起始、中間和結(jié)束時間點,則x(ti-1),x(tmi),x(ti)為時間點上對應(yīng)的狀態(tài)變量;f(ti-1),f(tmi),f(ti)為時間點上對應(yīng)狀態(tài)變量的時間導(dǎo)數(shù),即f=?x(t)/?t;c(ti-1),c(tmi),c(ti)為時間點上控制變量的取值。四階Gauss-Labatto積分相比三階Simpson積分在每個時間段增加了t1,t2兩個配點,如圖2所示;五階配點法本質(zhì)上是在四階Gauss-Labatto積分的基礎(chǔ)上增加了配點tmi以提高精度,如圖3所示。
圖2 三階Simpson積分和四階Gauss-Labatto積分多項式約束
圖3 改進五階 Gauss-Labatto積分多項式約束
其次,為方便表示,令每個時間段[ti-1,ti]上的配點t1,t2表示為ti1,ti2(i=1,2,…,n),則對于五階Gauss-Labatto積分,ti1,ti2和tmi分別為x(ti1)和x(ti2)是x(t)在ti1,ti2處的多項式逼近,由擬合多項式插值得到,分別為
用x(ti-1),x (tmi),x(ti),c(ti-1),c(tmi),c(ti)及f(ti-1),f(tmi),f(ti)構(gòu)造五次多項式(含6個系數(shù),這6個系數(shù)分別為在每個時間段上的起始、中間、結(jié)束時刻的狀態(tài)值和狀態(tài)對時間的導(dǎo)數(shù)值),要實現(xiàn)多項式對狀態(tài)導(dǎo)數(shù)的近似,需要令配點處的.x(t)等于f(t),因此,在每一個時間段上,構(gòu)造的多項式在ti1,ti2滿足靜態(tài)約束
追逃雙方的狀態(tài)向量c各包含4個狀態(tài)變量,因此上面兩式各包含8n個約束。c(ti1),c(ti2)可由c(ti-1),c(tmi),c(ti)對時間插值得到,x(ti1)和x(ti2)可確保構(gòu)造的多項式具有同類多項式中的最高的擬合精度。經(jīng)過第2.1節(jié)的轉(zhuǎn)化,問題已變成為非線性規(guī)劃問題,可以使用配點法進行近似數(shù)值求解,求解過程中可用求解大型非線性規(guī)劃問題的Matlab中的SNOPT軟件包[19],計算出后,再計算得最終系統(tǒng)狀態(tài)變量可由五階多項式插值得到。
如圖4所示,假設(shè)彈道導(dǎo)彈目標(biāo)開始追逃前沿橢圓彈道飛行,從發(fā)射點(launch point,LP)發(fā)射,T時刻后到達計劃落點(impact point,IP)擊中目標(biāo)。從防御方(追擊者)視角來看,目標(biāo)橢圓彈道的半長軸為a,離心率為e,α,β分別為真近點角和偏近點角,可得
式中,σ為LP和IP之間經(jīng)度之差,且有
追逃開始t0時刻,彈頭速度的兩個分量分別為
為了使用第2.2節(jié)中的求解方法,還需要對追逃雙方的一些初始值進行合理的猜測,可采用遺傳算法或粒子群算法[20]。為節(jié)省篇幅和簡要說明,表1給出實例用到的參數(shù)初始假設(shè)值,此外,配點點數(shù)為3 600個(約為終端時刻的10倍),令g=9.8×10-3km/s2。圖5和圖6分別是FP/ mP=3FE/mE和FP/mP=2FE/mE時,追 逃雙 方 隨時 間的變化情況。
圖4 目標(biāo)彈道參數(shù)圖示
表1 參數(shù)初始假設(shè)值
圖5 FP/mP=3FE/mE時追逃雙方隨時間變化
圖6 FP/mP=2FE/mE時追逃雙方隨時間變化
本文主要從未來導(dǎo)彈攻防對抗需求出發(fā),基于DG理論研究攔截器與彈頭追逃問題的建模過程和求解方法,對解決一類飛行器機動決策和軌跡優(yōu)化等問題有一定啟發(fā);采用高階配點法近似求解,精度更高,同時配點對初值不敏感,求解過程有一定實時性。需要指出的是追逃模型基于5條假設(shè),尤其是假設(shè)目標(biāo)具備連續(xù)感知攔截的能力做出規(guī)避,這些對于目前作戰(zhàn)來說研究的起點過于理想,但對于防御方,能夠考慮最壞的情況來生成機動決策,仍然具有十分積極的意義。此外,模型和實例中只考慮了與地心共面的情況,同一緯度,不同經(jīng)度模型基本一致,但參考的坐標(biāo)原點不再是地心。
對于如何將二維平面拓展到三維空間,其DG建模過程和配點求解方法是一樣的,由于參數(shù)的增加,追逃動力學(xué)模型更加復(fù)雜。以追擊者為例,三維空間內(nèi)運動示意圖如圖7所示,其追逃運動的狀態(tài)向量設(shè)置為
圖7 三維空間內(nèi)追擊者運動示意圖
控制向量可設(shè)置為cP=[θ′Pω′E]T,其中φP為緯度,后續(xù)研究可以此為起點展開。
[1]Li L Y,Liu F X,Zhao L F.Direct interceptor allocation method in antimissile firepower planning for multiple wave targets[J]. Systems Engineering and Electronics,2014,36(11):2206 2211.(李龍躍,劉付顯,趙麟鋒.對多波次目標(biāo)直接分配到彈的反導(dǎo)火力規(guī)劃方法[J].系統(tǒng)工程與電子技術(shù),2014,36(11):2206-2211.)
[2]Zarchan P.Theaterballistic missile defense[M].Reston:American Institute of Aeronautics and Astronautics(AIAA),2008.
[3]Evers L,Barros A I,Monsuur H.The cooperative ballistic missile defence game[J].Lecture Notes in Computer Science,2013,8252(1):99-118.
[4]Pontani M.Numerical solution of orbital combat games involving missiles and spacecraft[J].Dynamic Games and Applications,2011,1(4):534-557.
[5]Isaacs R.Differential games[M].New York:Wiley,1965.
[6]Hillberg C,J?rmark B.Pursuit-evasion between two realistic aircraft[C]//Proc.of the AIAA Atmospheric Flight Mechanics Conference,1983.
[7]Shima T.Capture conditions in a pursuit-evasion game between players with biproper dynamics[J].Journal of Optimization Theory and Applications,2005,126(3):503-528.
[8]Shima T.Optimal cooperative pursuit and evasion strategies against a homing missile[J].Journal of Guidance,Control and Dynamics,2011,34(2):414-425.
[9]Bryson A E,Ho Y C.Applied optimal control[M].New York:Hemisphere,1975.
[10]Friedman A.Differential games[M].Rhode Island:American Mathematical Society,1974.
[11]Mauro P,Bruce A C.Optimal interception of evasive missile warheads:numerical solution of the differential game[J].Journal of Guidance,Control,and Dynamics,2008,31(4):1112-1122.
[12]Hua WH,Chen X L.Differential game guidance law for dual control missiles[J].Systems Engineering and Electronics,2011,33(3):627-632.(花文華,陳興林.雙重控制導(dǎo)彈微分對策制導(dǎo)方法[J].系統(tǒng)工程與電子技術(shù),2011,33(3):627-632.)
[13]Zhang Q H,Sun S T,Chen Y,et al.Strategy and numerical solution of pursuit-evasion with fixed duration for two spacecraft[J].Journal of Astronautics,2014,35(5):537-544.(張秋華,孫松濤,諶穎,等.時間固定的兩航天器追逃策略及數(shù)值求解[J].宇航學(xué)報,2014,35(5):537-544.)
[14]Sergey S K,Stéphane L M,Valerii SP.Level sets of the value function in differential games with two pursuers and one evader.interval analysis interpretation[J].Mathematics in Computer Science,2014,8(3/4):443-454.
[15]Albert L H,Bruce A C.Direct optimization using collocation based on high-order gauss-lobatto quadrature rules[J].Journal of Guidance,Control,and Dynamics,1996,19(3):592-599.
[16]Johnson P A.Numerical solution methods for differential game problems[D].Boston:Massachusetts Institute of Technology,2009.
[17]Anderson G M,Grazier VW.Barrier in pursuit-evasion problems between two low-thrust orbital spacecraft[J].AIAA Journal,1976,14(2):148-163.
[18]Herman A L,Conway B A.Direct optimization using collocation based on high-order Gauss-Lobatto quadrature rules[J]. Journal of Guidance,Control,and Dynamics,1996,19(3):592-599.
[19]Philip E,Murray G W.SNOPT:an SQP algorithm for large scale constrained optimization[J].SIAM Reυiew,2005,47(1),99-131.
[20]Li L Y,Liu F X,Long G Z,et al.Modified particle swarm optimization for BMDSinterceptor resource planning[J].Applied Intelligence,2016,44(3):471-488.
Differential modeling and collocation solving method of missiles pursuit-evasion game
LI Long-yue1,LIU Fu-xian1,SHI Xiang-feng1,MEI Ying-ying2
(1.Air and Missile Defense College,Air Force Engineering Uniυersity,Xi'an 710051,China;
2.Chongqing Nankai Secondary School,Chongqing 400030,China)
Future incoming missiles may have a large maneuvering potential and can perform random maneuvers,rendering their trajectory unpredictable.For the pursuit-evasion game of an interceptor tries to intercept ballistic missile warhead,the pursuit-evasion game based differential game(DG)theory is modeled and the collocation solving method is given.The differential equations model takes the thrust angle as control variable and flight height,velocity,longitude as state variables,it also considers earth gravity and rotation effects.We transform the two-side DG problem into a single objective problem,and then give the collocation solving method.The method employs the fifth degree Gauss-Lobatto quadrature rule with improved accuracy to approximate describe the time derivative of state,after that we transform differential equations to algebraic equations.Experimental study verifies the model and the proposed method.
pursuit-evasion game;differential modeling;Gauss-Lobatto collocation method
E 917
A
10.3969/j.issn.1001-506X.2016.05.15
1001-506X(2016)05-1067-07
2015-06-03;
2015-09-23;網(wǎng)絡(luò)優(yōu)先出版日期:2015-12-23。
網(wǎng)絡(luò)優(yōu)先出版地址:http://www.cnki.net/kcms/detail/11.2422.TN.20151223.1356.042.html
全軍軍事學(xué)研究生項目資助課題
李龍躍(1988-),男,博士研究生,主要研究方向為反導(dǎo)火力運用優(yōu)化、反導(dǎo)攻防對抗對策。
E-mail:lilong_yue@126.com
劉付顯(1962-),男,教授,博士,主要研究方向為防空反導(dǎo)作戰(zhàn)決策優(yōu)化理論。
E-mail:liuxqh@126.com
史向峰(1979-),男,講師,碩士,主要研究方向為防空作戰(zhàn)輔助決策、建模與仿真。
E-mail:sxf971216@163.com
梅穎穎(1989-),女,碩士,主要研究方向為微分對策理論與方法。
E-mail:564348492@qq.com