孫松濤,祝強(qiáng)軍,宋 斌
(上海宇航系統(tǒng)工程研究所,上海 201109)
兩航天器追逃問題是一個(gè)雙方對(duì)抗的控制策略問題。因航天器的動(dòng)力學(xué)模型復(fù)雜,且雙方的對(duì)策目標(biāo)相反,故此追逃問題的求解十分困難。在航天器追逃過程中,追逐航天器期望選擇使支付函數(shù)最小的控制策略,而逃逸航天器則期望選擇使支付函數(shù)最大的控制策略,此追逃過程可由微分對(duì)策表述。微分對(duì)策最早由ISAACS[1]提出。隨著研究的深入,BERKOVITZ等[2-3]給出了微分對(duì)策鞍點(diǎn)存在定理和最優(yōu)控制策略存在的必要條件的嚴(yán)格推導(dǎo)。
雖然已知最優(yōu)策略的必要條件,但針對(duì)此必要條件進(jìn)行求解難度較大。此必要條件對(duì)應(yīng)一個(gè)兩點(diǎn)邊值問題,該問題一般沒有解析解,只能運(yùn)用數(shù)值算法,而數(shù)值算法各有優(yōu)缺點(diǎn)。目前,已有的數(shù)值方法包括配點(diǎn)法[4]和多重打靶法[5]。配點(diǎn)法將微分方程在配點(diǎn)處近似成代數(shù)方程,從而求解滿足兩點(diǎn)邊值約束和代數(shù)方程約束的變量,進(jìn)而求解兩點(diǎn)邊值問題。這種方法雖然收斂性好,但計(jì)算結(jié)果精度不高,計(jì)算過程中運(yùn)算量大,且初值需要選擇。多重打靶法通過數(shù)值積分公式在眾多子區(qū)間上將一個(gè)微分方程離散成代數(shù)方程,在任意子區(qū)間上求解一個(gè)初值問題,通過不斷優(yōu)化每個(gè)區(qū)間上的初始值,最終滿足兩點(diǎn)邊值條件。與配點(diǎn)法相比,多重打靶法計(jì)算速度快,計(jì)算精度較高,但對(duì)初值非常敏感,因此收斂性差。航天器追逃問題多對(duì)應(yīng)復(fù)雜的動(dòng)力學(xué)模型。由配點(diǎn)法和多重打靶法的表述可知,這2種方法的收斂性都與初值選擇有關(guān),配點(diǎn)法雖對(duì)邊值問題收斂性較強(qiáng),但因航天器追逃模型為較復(fù)雜的非線性模型,若隨機(jī)給出初值問題,則仍然不收斂。
本文為求解航天器追逃問題提供了一種新思路。采用半直接配點(diǎn)法求解此問題,避免了對(duì)兩點(diǎn)邊值問題的求解。研究思路來源于HORIE等[6-7]對(duì)導(dǎo)彈攔截問題的研究。該方法通過變換將微分對(duì)策問題轉(zhuǎn)化成最優(yōu)控制問題。將最優(yōu)控制問題構(gòu)造成一個(gè)非線性規(guī)劃問題后,可運(yùn)用序列二次規(guī)劃(SQP)算法進(jìn)行求解。但HORIE等提出的方法并不能說明半直接配點(diǎn)法求解微分對(duì)策問題與原問題的等價(jià)性。本文在文獻(xiàn)[8]中證明了半直接配點(diǎn)法求解微分對(duì)策問題的等價(jià)性,為半直接配點(diǎn)法求解微分對(duì)策問題提供了理論依據(jù)。在求解兩航天器追逃問題的過程中,通過半直接變化將微分對(duì)策問題轉(zhuǎn)化成最優(yōu)控制問題,采用Guass-Lobbato配點(diǎn)法對(duì)此問題進(jìn)行數(shù)值求解,可提高數(shù)值方法的收斂性和穩(wěn)定性。
本研究在地點(diǎn)為近地軌道附近,對(duì)抗雙方均為連續(xù)小推力,對(duì)策時(shí)間較短,且瞬時(shí)狀態(tài)信息完全已知的假設(shè)條件下,針對(duì)時(shí)間固定的追逃問題,以距離為支付建立對(duì)策模型,給出半直接配點(diǎn)法求解此追逃問題的數(shù)值方法。最終給出追逃雙方在對(duì)策條件下的最優(yōu)策略和仿真算例,為航天器追逃問題提供了一種有效的求解方法。
針對(duì)兩航天器軌道追逃問題,建立動(dòng)力學(xué)方程,以描述追逐航天器P與逃逸航天器E在追逃過程中的運(yùn)動(dòng)規(guī)律,即
(1)
兩航天器的位置關(guān)系如圖1所示。
圖1 兩航天器對(duì)策的坐標(biāo)示意圖Fig.1 Coordinate schematic diagram of pursuer and evader
在式(1)中,追逐航天器P和逃逸航天器E的控制量滿足約束條件
式中:‖·‖2為歐氏范數(shù)。
此航天器追逃問題的支付函數(shù)為
式中:
為說明上述航天器追逃問題的一般求解方法,下節(jié)將給出此追逃問題最優(yōu)策略存在的必要條件。
在一般的微分對(duì)策數(shù)值求解中,針對(duì)最優(yōu)策略必要條件的求解是解決微分對(duì)策問題的關(guān)鍵。
(2)
根據(jù)微分對(duì)策原理[3],將Hamilton方程H定義為
H=HP+HE
(3)
式中:
為給出此追逃問題最優(yōu)控制策略的必要條件,令
λP=[λ1Pλ2Pλ3Pλ4Pλ5Pλ6P]T
λE=[λ1Eλ2Eλ3Eλ4Eλ5Eλ6E]T
其中,λP和λE分別為協(xié)態(tài)向量,則式(3)可表示為
根據(jù)最優(yōu)策略存在的必要條件[2],協(xié)態(tài)方程為
(4)
(5)
式(4),(5)相應(yīng)的邊值條件為
(6)
(7)
(8)
顯然,最優(yōu)策略的必要條件式(2),(4),(5),(6),(7)組成了一個(gè)兩點(diǎn)邊值問題,一般的兩點(diǎn)邊值問題可由多重打靶法求解[8]。
在半直接配點(diǎn)法中,將由最優(yōu)策略必要條件得到的追逐或逃逸航天器的協(xié)態(tài)變量加入到狀態(tài)方程中,同時(shí)將對(duì)應(yīng)航天器的最優(yōu)控制量表達(dá)式代入對(duì)應(yīng)的狀態(tài)方程并加入約束條件,進(jìn)而將微分對(duì)策問題轉(zhuǎn)化為最優(yōu)控制問題。在求解時(shí),只需求解對(duì)應(yīng)的支付函數(shù)最大或最小問題即可。相應(yīng)的等價(jià)性證明參考文獻(xiàn)[8]。
半直接配點(diǎn)法將微分對(duì)策問題轉(zhuǎn)化為最優(yōu)控制問題,這里將逃逸航天器對(duì)應(yīng)的協(xié)態(tài)變量加入到微分方程中(對(duì)應(yīng)的追逐航天器的半直接轉(zhuǎn)化過程同理),變換的方法簡(jiǎn)述如下,令
(9)
由于協(xié)態(tài)變量λE加入到式(9)中,相應(yīng)的終端約束方程Ψ定義為
則變換后的支付函數(shù)為
顯然,微分對(duì)策問題已被轉(zhuǎn)化為最優(yōu)控制問題。接下來,將給出基于配點(diǎn)法求解轉(zhuǎn)化后最優(yōu)問題的方法。
這里考慮計(jì)算的準(zhǔn)確性[9],將采用五階Gauss-Lobbato配點(diǎn)法求解上述最優(yōu)問題。為說明此方法,不妨設(shè)式(9)對(duì)應(yīng)的微分方程為
(10)
根據(jù)配點(diǎn)法,在[ti,ti+1]區(qū)間上,需應(yīng)用多項(xiàng)式近似式。由Gauss-Lobbato配點(diǎn)法[9]可知,除端點(diǎn)ti,ti+1外,其余3個(gè)配點(diǎn)tc1,tcm和tc2分別為
式中:Δti=ti+1-ti。
(11)
(12)
將式(11),(12)相加可得
49fc2+9fi+1)
(13)
i=1,2,…,N
(14)
i=1,2,…,N
(15)
式中:N為區(qū)間數(shù)。
為說明半直接配點(diǎn)法求解的特點(diǎn),將給出不同的仿真實(shí)例。因空間站和大量的衛(wèi)星存在于地球低軌道,故在仿真中,將原點(diǎn)軌道高度分別設(shè)為500 km和1 000 km,并選擇仿真時(shí)間均為500 s。對(duì)于同樣的仿真實(shí)例,采用基于必要條件的數(shù)值方法(如多重打靶法)進(jìn)行求解,若迭代初值不準(zhǔn)確,則很難得到收斂的解。
2個(gè)實(shí)例中,追逐航天器與逃逸航天器的初值見表1,兩航天器的單位質(zhì)量加速度見表2,其中,g=9.8×10-3km/s2。
表1 相對(duì)坐標(biāo)系下的初值
表2 兩航天器的單位質(zhì)量加速度
為兼顧計(jì)算速度和計(jì)算準(zhǔn)確性,選取10個(gè)子區(qū)間進(jìn)行仿真。由子區(qū)間的選擇可知,需要求解的變量為293個(gè)。在數(shù)值仿真計(jì)算中,運(yùn)用Gauss-Lobatto配點(diǎn)法,將微分方程代數(shù)化后用SNOPT求解器進(jìn)行求解[10]。在仿真中,選用處理器型號(hào)為Xeon E3-1230V2,內(nèi)存為8 GB的臺(tái)式機(jī)進(jìn)行數(shù)值計(jì)算。設(shè)約束精度和優(yōu)化允許誤差均為10-9。
在實(shí)例2(原點(diǎn)軌道高度為1 000 km)中,兩航天器軌跡和最優(yōu)控制變量的變化曲線如圖3所示。
圖2 實(shí)例1:追逐和逃逸航天器的軌跡和最優(yōu)控制變量Fig.2 Test case 1: trajectories and optimal control variables of pursuer and evader
圖3 實(shí)例2:追逐和逃逸航天器的軌跡和最優(yōu)控制變量Fig.3 Test case 2: trajectories and optimal control variables of pursuer and evader
在圖3中,各子圖的表示方法同圖2。由圖3可知:追逐航天器可追上逃逸航天器。在仿真實(shí)例2中,根據(jù)數(shù)值計(jì)算結(jié)果可知:約束誤差為2.551 2×10-10,計(jì)算時(shí)間為17.58 s。
由圖2可知:在500 s的規(guī)定時(shí)間內(nèi),追逐航天器對(duì)逃逸航天器進(jìn)行了成功攔截,追逐者和逃逸者的控制變量變化規(guī)律相似,兩者采用了近似的追逃策略。由圖3可知:追逐者和逃逸者的對(duì)策時(shí)間為500 s,在500 s內(nèi),追逐航天器對(duì)逃逸航天器進(jìn)行了成功攔截。
本文采用半直接配點(diǎn)法求解了近地軌道的追逃問題,得到了收斂的解,半直接配點(diǎn)法將一個(gè)微分對(duì)策問題轉(zhuǎn)化成了一個(gè)最優(yōu)控制問題,運(yùn)用Gauss-Lobbato五階配點(diǎn)法,并結(jié)合序列二次規(guī)劃法,最終解決了一個(gè)非線性的數(shù)學(xué)規(guī)劃問題。半直接配點(diǎn)法求解微分對(duì)策問題時(shí),可避免求解困難的兩點(diǎn)邊值問題。該算法具有收斂性好、應(yīng)用簡(jiǎn)單的特點(diǎn)。數(shù)值仿真實(shí)例驗(yàn)證了這種求解方法的可行性。該方法提高了求解兩點(diǎn)邊值問題的收斂性,為求解含有雙方控制變量的微分對(duì)策問題提供了一種思路。