顧天妍,張永合,蔣 峻,李超勇
(1.浙江大學(xué) 電氣工程學(xué)院,浙江 杭州 310027;2.中科院上海微小衛(wèi)星工程中心,上海 201203)
近年來,隨著航天器控制技術(shù)和軌道規(guī)劃技術(shù)的不斷發(fā)展,航天器空間交會技術(shù)逐漸成熟,同時能兼容的目標(biāo)形式也逐漸增加[1]。當(dāng)航天器雙方都有自主機動能力時,傳統(tǒng)的單邊最優(yōu)控制策略不再適用,航天器的交會問題可視為雙邊控制問題,即航天器追逃博弈問題。相較于經(jīng)典控制策略,航天器追逃博弈控制同時考慮了雙方的控制信息,更適用于非合作機動目標(biāo),受到國內(nèi)外學(xué)者的廣泛關(guān)注。
針對航天器追逃博弈問題,目前大多數(shù)學(xué)者都采用了微分對策的方法進行研究。ISAACS[2]提出微分對策論,將控制論中的部分概念和原理與博弈論結(jié)合,并應(yīng)用于二人追逃問題中,初步形成了微分對策論。在此基礎(chǔ)上,STUPIK 等[3]利 用Clohessy-Wiltshire(CW)方程將航天器追逃博弈問題轉(zhuǎn)化為非線性兩點邊值問題,并通過克里金法求解了航天器的追逃策略。針對微分對策理論方程求解困難的問題,吳其昌等[4]分別采用了遺傳算法、差分進化算法和蟻群算法來求解牛頓迭代初值,從而避免復(fù)雜微分方程的求解,但這類方法的計算時間較長。此外,PONTANI 等[5]利用半直接配點方法求解異面情況下航天器追逃問題,并通過仿真驗證了該方法的魯棒性。
隨著人工智能和大數(shù)據(jù)處理技術(shù)的發(fā)展,利用人工智能方法進行在線決策和規(guī)劃成為可能,近年來在航天器追逃問題中的應(yīng)用也逐漸受到重視。許旭升等[6]提出了一種基于多智能體深度強化學(xué)習(xí)的集群衛(wèi)星空間軌道追逃博弈方法,通過多智能體深度決定性策略梯度法(Multi-agent Deep Deterministic Policy Gradient,MADDPG)訓(xùn)練數(shù)據(jù),最終得到各衛(wèi)星的策略。劉冰雁等[7]在傳統(tǒng)強化學(xué)習(xí)的基礎(chǔ)上,建立了模糊推理模型,利用分支深度強化學(xué)習(xí)有效解決了行為數(shù)量與映射規(guī)則的組合增長問題,縮短了仿真時間,提高了仿真效率。吳其昌等[8]將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到航天器追逃博弈中,搭建了4 層神經(jīng)網(wǎng)絡(luò),并通過Adam 優(yōu)化算法對網(wǎng)絡(luò)進行了訓(xùn)練,同時驗證了最終生成策略與真實策略相近,實現(xiàn)了在線決策。
值得注意的是,上述文獻都是針對航天器在連續(xù)時間下的連續(xù)推力模型展開,且目前大部分研究工作均在連續(xù)機動的基礎(chǔ)上進行,針對脈沖作用下的軌道追逃博弈的研究較少,同時模型的相關(guān)研究和結(jié)論并不成熟。針對這一問題,VENIGALLA 等[9-10]提出了可達(dá)集的概念,并證明了逃逸航天器在知道追蹤航天器的可達(dá)集的前提下能成功完成逃逸,給出了在共面時逃逸航天器的最優(yōu)逃逸方向。LIU 等[11]研究了三人博弈問題,僅在一次脈沖機動的前提下,利用粒子群算法和牛頓插值法解決了異面最優(yōu)軌跡求解問題。于大騰[12]基于序列二次優(yōu)化算法建立了追蹤器多脈沖最優(yōu)交會模型,采用遺傳算法進行了機動優(yōu)化,提升了飛行器的空間生存能力。
上述方法都有效解決了航天器軌道追逃問題,但其中航天器的動力學(xué)模型由簡化的CW 方程進行描述,多數(shù)沒有考慮攝動力因素的影響[13]。同時,非圓軌道和較大的相對距離也是CW 方程誤差的主要來源。然而航天器的實際軌跡會受到各種不可避免的攝動影響,特別是當(dāng)航天器在低軌道和中軌道運行時,攝動作用力會對線性模型下的博弈結(jié)果產(chǎn)生不可忽略的負(fù)面影響。因此,本文旨在解決地球高階引力模型下,基于脈沖控制的航天器軌道追逃問題,并通過計算博弈進行求解。
在計算博弈問題中,快速搜索(Action-Reaction Search,ARS)算法能夠高效求解納什均衡點。針對多組動態(tài)武器目標(biāo)分配(Multi-team Dynamic Weapon Target Assignment,MDWTA)生成矩陣規(guī)模較大的問題,GALATI[14]提出利用ARS 算法沿最優(yōu)方向搜索,有效利用內(nèi)存,提高計算可行性。剪枝算法常用于減少算法搜索時間和提高計算效率,REED[15]提出利用剪枝算法應(yīng)用于神經(jīng)網(wǎng)絡(luò)中以減少不必要的搜索路徑,至今剪枝已經(jīng)分化出多種類別,包括結(jié)構(gòu)化剪枝和非結(jié)構(gòu)化剪枝等,應(yīng)用于計算機[16]、電氣[17]、航空航天[18]等領(lǐng)域。
本文提出了一種基于計算博弈的控制策略,通過優(yōu)化航天器的速度增量大小和方向,實現(xiàn)了追逃雙方的性能指標(biāo)最優(yōu)化。本文的主要工作:1)完成了航天器軌道追逃博弈問題的數(shù)學(xué)定義,其中性能指標(biāo)函數(shù)考慮博弈雙方的距離和燃料消耗,并以速度增量大小和方向構(gòu)建容許控制集;2)創(chuàng)新性地引入ARS 算法,并將一種數(shù)據(jù)剪枝策略嵌入,從而保證了納什均衡解的準(zhǔn)確性以及求解速度。本文證明了在逃逸航天器沒有機動的情況下,該算法可以成功地將軌道追逃博弈問題轉(zhuǎn)換為最基本的航天器軌道交會問題。仿真結(jié)果驗證了本文方法的有效性和可行性。
假設(shè)在航天器軌道追逃任務(wù)場景中,追擊航天器預(yù)先通過Hohmann 轉(zhuǎn)移攔截目標(biāo)航天器,但在通過第一次機動之后,目標(biāo)航天器可通過施加一個微小偏移脈沖規(guī)避追擊航天器的攔截。此時,雙方各自有一次施加脈沖機動的機會,且在同一時刻機動。追擊航天器需要在燃料消耗盡可能小的情況下攔截逃逸航天器,而逃逸航天器則需在燃料消耗盡可能小的情況下規(guī)避攔截。
在航天器追逃博弈問題中,為了便于計算和分析,采用J2000 下的地球慣性坐標(biāo)系??紤]到攝動力等因素,航天器的動力學(xué)模型為[19]
式中:r為航天器的位置矢量;v為航天器的速度矢量;U為地球的引力勢函數(shù)。
當(dāng)?shù)厍驗樾D(zhuǎn)橢球體,且只考慮J1至J6攝動項時,令地球赤道半徑為Re,則地球引力勢函數(shù)可以簡化為
式中:μ為地球引力常數(shù);J2=1.082 6×10-3,J3=-2.536×10-6,J4=-1.618 6×10-6,J5=-0.226×10-6,J6=0.539×10-6;P2~P6為勒讓德多項式,表達(dá)式如下:
在施加脈沖作用的時刻,航天器的狀態(tài)變化為
式中:上標(biāo)“-”和“+”分別為脈沖作用前后的狀態(tài)。
在J2000 坐標(biāo)系下,式(4)可以擴展為
式中:φ為脈沖推力偏角;γ為脈沖推力仰角。
自20 世紀(jì)以來,航天器的交會對接技術(shù)在工程應(yīng)用及理論研究中具有重要意義,有許多突出成果,其中Hohmann 轉(zhuǎn)移[20]和Lambert 追擊[21]是最為經(jīng)典的方法。Hohmann 轉(zhuǎn)移方法給出了共面下軌道轉(zhuǎn)移的最小能量消耗,奠定了之后大多數(shù)理論的基礎(chǔ),但是存在調(diào)相時間過長,耗費時間巨大的問題;Lambert 追擊方法計算了固定時間下兩點之間軌道轉(zhuǎn)移所需脈沖。上述理論均要求目標(biāo)航天器被動飛行且沒有自主機動,不適用于目標(biāo)存在自主機動的航天器追逃博弈問題。在航天器追逃博弈問題中,追擊航天器和逃逸航天器通過控制自身的脈沖機動,使得雙方的性能指標(biāo)函數(shù)達(dá)到最優(yōu),即:
式中:下標(biāo)P、E 分別為追擊航天器和逃逸航天器。
航天器的追逃博弈問題包含3 個要素:博弈參與者{P,E};雙方各自的性能指標(biāo)函數(shù)J;以及參與者的行為策略(uP,uE)。
追擊航天器的行為策略uP定義為
上式中各項滿足如下約束條件:
針對上述航天器追逃博弈問題,SCHEERES等[9]基于可達(dá)集的概念推導(dǎo)了逃逸航天器的最優(yōu)逃逸方向,耿遠(yuǎn)卓等[22]利用終端誘導(dǎo)強化學(xué)習(xí)對航天器追逃博弈問題進行了求解,通過在獎勵函數(shù)中考慮終端誤差從而提高追擊成功率。然而,這些航天器通常采用二體模型或CW 方程進行求解,沒有考慮地球攝動因素影響,且對軌道形狀有所限制,所得結(jié)果精度不足。為了滿足實際情況,提升求解模型的精度,本文采用計算博弈的方法來解決航天器追逃博弈問題。
與傳統(tǒng)的以解析形式求解博弈雙方納什均衡點的方法不同,計算博弈通過對雙方的策略進行數(shù)值搜索,得到雙方各自的最優(yōu)解。此外,追逃航天器的性能指標(biāo)函數(shù)J包含兩部分,分別由追逃雙方的距離以及各自消耗的燃料定義。雙方博弈的目的是通過給出自己的脈沖控制策略,使得相應(yīng)的性能指標(biāo)函數(shù)最大化。具體來說,對于追擊方而言,其期望在盡量減少燃料消耗的情況下減少追逃雙方距離;對于逃逸方而言,則期望自己在盡量減少燃料消耗的情況下增加追逃雙方距離。因此,性能指標(biāo)JP和JE定義如下:
權(quán)重系數(shù)應(yīng)滿足以下條件:
追逃航天器雙方的距離L定義如下:
當(dāng)逃逸航天器中途沒有脈沖機動,則追逃問題就會轉(zhuǎn)化為普通的軌道交會問題。此時,雙方的性能指標(biāo)函數(shù)也相應(yīng)變化。對于追擊方而言,性能指標(biāo)如下:
對于逃逸方而言,性能指標(biāo)JE如下:
本文所定義的追逃博弈問題就是尋找追擊航天器者和逃逸航天器的納什均衡點問題,使其指標(biāo)函數(shù)大于任意其余策略的指標(biāo)函數(shù),納什均衡點的定義如下:
式中:UP、UE分別為追擊航天器和逃逸航天器的所有策略。
對于追逃航天器雙方而言,可供選擇的策略是有限的,由納什均衡的存在性定理[23]可知,每一個有限的策略式博弈至少存在一個由式(14)描述的納什均衡解。那么最終求得的納什均衡解所對應(yīng)的速度增量大小和方向就是當(dāng)前問題的一個可行解。
通過計算式(16)中的矩陣解可以求得納什均衡點。決策矩陣式(16)存在維數(shù)大、計算時間長和搜索效率低的問題,為了解決這一問題,本文采用ARS 算法來求解博弈矩陣。
為了求解追逃雙方的納什均衡點,使得雙方的性能指標(biāo)函數(shù)處于最優(yōu),本文采用ARS 算法[24]來進行快速求解,具體算法流程如下。
與窮舉法相比,ARS 算法無需對整個矩陣進行遍歷,能夠有效地減少計算維度,具有計算效率高、時間快的優(yōu)點。對于航天器追逃博弈這一問題而言,實時性和快速性尤為關(guān)鍵,也為ARS 算法的使用提供了有力依據(jù)。
博弈決策矩陣式(16)中會存在不滿足實際約束的策略對,ARS 算法同樣也對這些策略進行了搜索,增加了計算時間,使搜索效率降低。因此,本文提出了一種剪枝方法,在矩陣生成和搜索過程中,對無需計算的元素進行標(biāo)記剪枝,剪枝流程如下:
輸入:追逃博弈雙方的策略集合UP=[ΔvP,φP,γP],UE=[ΔvE,φE,γE],收益維度M、N;
輸出:無需計算的矩陣元素標(biāo)記集合Apruned;
算法2 通過對冗余不必要的數(shù)據(jù)進行剪枝,減少了不必要的搜索過程,提高了搜索速度和運算效率。
本文通過使用ARS 算法準(zhǔn)確尋找納什均衡點,ARS 算法通過對單獨的行列尋找來避免搜索整個矩陣,極大地提高了運行效率。本文采用剪枝技巧來提升尋找納什均衡點的計算速度,通過對冗余數(shù)據(jù)的剪枝達(dá)到縮小矩陣規(guī)模的目的,從而加快數(shù)值搜索進度。
為了更直接地說明基于剪枝的快速搜索方法的優(yōu)越性,將其與窮舉法、α-β剪枝[25]進行對比。在進行不同維度的矩陣計算時,雙方求解納什均衡點的時間如圖1 所示。
圖1 決策時間對比Fig.1 Comparison of decision time
由圖1 可知,相比于其他方法,本文所采用的快速求解算法能有效提高計算效率,節(jié)省計算時間。當(dāng)矩陣維度擴大時,其余方法的仿真時間以指數(shù)形式增長,而本文方法增幅不大,仍能快速尋找到納什均衡解。
當(dāng)逃逸航天器不施加機動時,追逃問題演變?yōu)檐壍澜粫栴}。本文采用硬件平臺為3.60 GHz AMD Ryzen 5 3500X 處理器,軟件平臺為 Matlab R2022b 進行仿真。為了便于比較,將追擊航天器的初始機動時間與Hohmann 轉(zhuǎn)移的時間一致。兩航天器初始軌道六根數(shù)見表1。
表1 交會場景下航天器的初始六根數(shù)Tab.1 Initial six parameters of the spacecrafts in the rendezvous scenario
兩航天器飛行軌跡如圖2 所示。
圖2 交會場景下航天器三維空間飛行軌跡Fig.2 Trajectories of the spacecraft in the rendezvous scenario
為進一步驗證本文方法的有效性,分別與Hohmann 轉(zhuǎn)移和Lambert 追擊進行對比,三者都在同一時刻進行第一次脈沖機動,且都施加兩次機動,一致采用地球高階引力模型。追擊航天器與逃逸航天器相對距離如圖3 所示。
圖3 交會場景下航天器相對距離Fig.3 Relative distance of the spacecraft in the rendezvous scenario
3 種方法的最終計算結(jié)果見表2。其中,追擊航天器均在T1=3 172.590 5 s 時施加第1 次脈沖機動,第1 次速度增量大小為Δv1,第2 次機動時刻為T2,第2 次速度增量大小為Δv2。
表2 交會場景下航天器仿真結(jié)果Tab.2 Simulation results of the spacecraft in the rendezvous scenario
由表2 可知,與Hohmann 轉(zhuǎn)移相比,本文方法的脫靶量明顯較小,但稍遜于Lambert 追擊。本文方法在保證脫靶量的情況下,使用速度增量明顯小于Lambert 追擊,有效減少了燃料消耗。此外,在進行計算時,本文方法無需選定初值,避免了采用其他2 種方法在初值選定不正確時可能存在的不收斂和脫靶量大的問題。
當(dāng)逃逸航天器施加機動時,兩者是典型的追逃問題。在追擊航天器采用Hohmann 轉(zhuǎn)移施加第一次機動后,雙方都還有一次脈沖機動機會,逃逸航天器施加脈沖推力逃離追擊航天器,雙方在這一時刻通過矩陣搜索都使彼此性能指標(biāo)函數(shù)達(dá)到最優(yōu)。
根據(jù)Hohmann 轉(zhuǎn)移計算易得,追擊航天器第一次機動時刻T1=3 172.590 5 s,施加速度增量大小Δv1=0.031 1 km/s。此后,逃逸航天器施加控制量試圖遠(yuǎn)離追擊航天器,雙方展開追逃博弈。設(shè)置追擊航天器最大可使用速度增 量=0.061 0 km/s,逃逸航天器最大可使用速度增量=0.008 0 km/s。兩航天器飛行軌跡如圖4 所示。
圖4 追逃航天器三維空間飛行軌跡Fig.4 Three-dimensional space flight trajectory of the spacecraft in the pursuit-evasion game
兩航天器使用燃料情況和脫靶量見表3。通過仿真可知,追擊航天器使用了全部速度增量ΔvP=0.061 0 km/s,偏 角φP=199.998 4°,仰 角γP=-5.998 4°。逃逸航天器也使用了全部速度增 量ΔvE=0.008 0 km/s,偏 角φE=270°,仰 角γE=-5.998 4°。兩航天器距離從最開始的364.95 km 縮短到最終脫靶量4.32 km。當(dāng)采用這種策略時,雙方的性能指標(biāo)函數(shù)都達(dá)到最優(yōu)。
表3 航天器追逃博弈的仿真結(jié)果Tab.3 Simulation results of the spacecraft in the pursuitevasion game
本文提出了一種基于計算博弈的航天器追逃博弈策略,采用了ARS 算法求解納什均衡點,同時利用剪枝策略縮小了決策矩陣維度,減少了不必要的搜索過程,提高了搜索效率。通過實驗仿真,得到如下結(jié)論:
1)針對基于脈沖的航天器追逃問題,本文提出的方法能夠較好地求得雙方最優(yōu)策略,且求解時間迅速。相對于傳統(tǒng)方法,本文模型精度較高,考慮了地球攝動等非線性因素,且對軌道形狀和初始距離沒有限制,與實際偏差較小,可行性高,具有較強的魯棒性。
2)針對基于脈沖的軌道交會問題,相對于Lambert 追擊和Hohmann 轉(zhuǎn)移,本文提出的方法在保證脫靶量精度較高的情況下,消耗燃料較少,無需考慮初值問題。