袁利,耿遠(yuǎn)卓,湯亮,黃煌
航天器軌道追逃博弈多階段強(qiáng)化學(xué)習(xí)訓(xùn)練方法
袁利1,2,耿遠(yuǎn)卓1,2,湯亮1,2,黃煌1,2
(1.北京控制工程研究所,北京 100094;2.空間智能控制技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100094)
針對(duì)航天器軌道追逃博弈問題,提出一種多階段學(xué)習(xí)訓(xùn)練賦能方法,使得追蹤星在終端時(shí)刻抵近逃逸星的特定區(qū)域,而逃逸星需要通過軌道機(jī)動(dòng)規(guī)避追蹤星。首先,構(gòu)建兩星的訓(xùn)練策略集,基于邏輯規(guī)則設(shè)計(jì)追蹤星和逃逸星的機(jī)動(dòng)策略,通過實(shí)時(shí)預(yù)測(cè)對(duì)方的終端位置,設(shè)計(jì)己方的期望位置和脈沖策略,顯式給出追逃策略的解析表達(dá)式,用于訓(xùn)練賦能;其次,為提升航天器的訓(xùn)練賦能效率及應(yīng)對(duì)未知環(huán)境的博弈能力,提出一種基于強(qiáng)化學(xué)習(xí)技術(shù)多模式、分階段的學(xué)習(xí)訓(xùn)練方法,先使追蹤星和逃逸星分別應(yīng)對(duì)上述邏輯規(guī)則引導(dǎo)下的逃逸星和追蹤星,完成預(yù)訓(xùn)練;再次,開展二次訓(xùn)練,兩星都采用鄰近策略優(yōu)化(PPO)策略進(jìn)行追逃博弈,在博弈中不斷調(diào)整網(wǎng)絡(luò)權(quán)值,提升決策能力;最后,在仿真環(huán)境中驗(yàn)證提出的訓(xùn)練方法的有效性,經(jīng)過二次訓(xùn)練后,追蹤星和逃逸星可有效應(yīng)對(duì)不同策略驅(qū)動(dòng)下的對(duì)手,提升追逃成功率。
軌道追逃;博弈決策;強(qiáng)化學(xué)習(xí);訓(xùn)練賦能;多階段學(xué)習(xí)
隨著航天技術(shù)的發(fā)展,各國航天器智能化程度不斷增加,在傳統(tǒng)制導(dǎo)、導(dǎo)航與控制(Guidance, Navigation, and Control, GNC)技術(shù)基礎(chǔ)上,逐漸朝向智能感知、類人決策、精準(zhǔn)控制的方向發(fā)展。同時(shí),太空環(huán)境日益復(fù)雜,在軌航天器數(shù)量指數(shù)增長(zhǎng)且能力大幅提升,傳統(tǒng)依靠地面指控的模式難以應(yīng)對(duì)時(shí)敏空間任務(wù)[1]。此外,目前星上GNC系統(tǒng)主要面向確定性任務(wù)場(chǎng)景,智能化水平較弱,在強(qiáng)不確定性的博弈態(tài)勢(shì)下中缺乏自主決策能力,而智能決策依賴于前期大規(guī)模地面訓(xùn)練及星上二次訓(xùn)練。因此,提升訓(xùn)練效率對(duì)于航天器智能化發(fā)展至關(guān)重要,可有效降低研制周期,節(jié)省計(jì)算資源。本文將針對(duì)軌道追逃博弈提出一種高效的訓(xùn)練賦能方法。
航天器追逃作為太空博弈的典型場(chǎng)景,充分體現(xiàn)了軌道運(yùn)動(dòng)特性,諸如交會(huì)對(duì)接、在軌操控等任務(wù)皆可抽象為軌道追逃問題,因此吸引了眾多學(xué)者研究[3]。追逃任務(wù)中,追蹤星和逃逸星的目標(biāo)相反,追蹤星旨在盡快抵近到逃逸星的特定區(qū)域,而逃逸星需要躲避追蹤星。目前,對(duì)于追逃問題的研究主要集中在飛機(jī)、導(dǎo)彈[4]、無人機(jī)[5]等近地領(lǐng)域,例如空戰(zhàn)博弈Alpha Dog Fight[6]。而對(duì)于太空中的航天器追逃問題,由于受到地球引力約束和自身燃料約束,其側(cè)重點(diǎn)及求解思路和方法有所不同,需要充分利用軌道動(dòng)力學(xué)特性,保證燃料高效完成追逃任務(wù)。
針對(duì)航天器追逃的賦能問題,主要分為3種方法:
1)賦能方法立足于軌道動(dòng)力學(xué),通過深入分析航天器軌道運(yùn)動(dòng)規(guī)律,根據(jù)航天器當(dāng)前速度,實(shí)時(shí)解算和預(yù)測(cè)航天器未來的軌跡,計(jì)算雙方的可達(dá)域,在此基礎(chǔ)上設(shè)計(jì)脈沖策略。該方法的賦能過程本質(zhì)就是基于人的知識(shí)進(jìn)行軌道設(shè)計(jì),能夠顯式給出雙方運(yùn)行軌跡表達(dá)式,邏輯清晰,可解釋性較強(qiáng)。但是目前研究中脈沖次數(shù)一般較少,對(duì)于多脈沖變軌,決策空間過大,難以準(zhǔn)確預(yù)測(cè)對(duì)方未來的可達(dá)域,軌道設(shè)計(jì)難度大[3,7-9]。同時(shí),該方法的訓(xùn)練效率和賦能效果依賴于人的知識(shí)儲(chǔ)備和經(jīng)驗(yàn),當(dāng)博弈任務(wù)變化后需要重新進(jìn)行賦能算法設(shè)計(jì),因此具有一定的局限性。
2)賦能方法是在第一種方法的基礎(chǔ)上,將追逃博弈問題轉(zhuǎn)化為雙邊最優(yōu)規(guī)劃問題,然后基于微分對(duì)策理論設(shè)計(jì)軌道機(jī)動(dòng)策略,其本質(zhì)是人通過將現(xiàn)有的知識(shí)輸入給航天器,使航天器具備最優(yōu)軌跡解算的能力。采用微分對(duì)策的目的是求解博弈雙方的鞍點(diǎn)(博弈均衡態(tài)),在鞍點(diǎn)處,追蹤星和逃逸星以各自的最優(yōu)策略機(jī)動(dòng),最大化各自的指標(biāo)函數(shù)。采用該方法賦能的航天器可應(yīng)對(duì)雙方意圖明確、動(dòng)力學(xué)參數(shù)已知情況下的追逃問題。但是,對(duì)于實(shí)際的追逃任務(wù),對(duì)方的準(zhǔn)確意圖及參數(shù)難以獲取,且對(duì)方可采取欺騙、偽裝等行為迷惑對(duì)手,其自身的指標(biāo)函數(shù)難以獲取,因此基于微分對(duì)策設(shè)計(jì)的賦能方法難以應(yīng)對(duì)強(qiáng)博弈態(tài)勢(shì)下的追逃任務(wù)[10]。此外,目前關(guān)于微分對(duì)策軌道追逃博弈的研究主要集中于連續(xù)推力航天器[11-13],對(duì)于脈沖推力,由于連續(xù)系統(tǒng)+離散控制的最優(yōu)理論不完備,因此研究成果較少[14-16]。
3)賦能方法基于利用深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)技術(shù)。其中深度學(xué)習(xí)依靠大量樣本數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),建立當(dāng)前狀態(tài)和機(jī)動(dòng)策略的映射關(guān)系。但是其面臨樣本數(shù)據(jù)難以獲取的問題,需要人為設(shè)計(jì)雙方的機(jī)動(dòng)策略并收集軌跡數(shù)據(jù),其本質(zhì)上是將多種邏輯規(guī)則融合為一套決策網(wǎng)絡(luò),決策能力取決于訓(xùn)練樣本和實(shí)際情況的匹配程度[17]。強(qiáng)化學(xué)習(xí)從統(tǒng)計(jì)學(xué)的角度出發(fā),將人的決策思維和計(jì)算機(jī)的算力融合,構(gòu)建人工神經(jīng)網(wǎng)絡(luò)作為決策載體,通過多回合訓(xùn)練,航天器與環(huán)境不斷交互,收集數(shù)據(jù)和獎(jiǎng)勵(lì),實(shí)時(shí)調(diào)整策略,最終具有一定的學(xué)習(xí)和決策能力,能夠在未知環(huán)境中應(yīng)對(duì)未知任務(wù)[18]。該賦能方法不依賴于人的經(jīng)驗(yàn)和軌道設(shè)計(jì)水平,且無需知道精確的動(dòng)力學(xué)模型、環(huán)境參數(shù)等先驗(yàn)信息,更符合人類的學(xué)習(xí)過程,在嘗試中形成記憶和經(jīng)驗(yàn)[19],與上述2種方法相比適應(yīng)性更強(qiáng),因此強(qiáng)化學(xué)習(xí)近年來在航天領(lǐng)取獲得廣泛關(guān)注,取得大量研究成果[20-23]。但是,基于強(qiáng)化學(xué)習(xí)的訓(xùn)練面臨可解釋性差、理論證明難、可靠性不高等問題,訓(xùn)練好的決策模型缺乏解析表達(dá)式,僅能通過仿真打靶驗(yàn)證其決策的正確性,且缺乏高效的訓(xùn)練賦能方法,航天器通常需要博弈上萬回合才能學(xué)習(xí)到最優(yōu)追逃策略。
針對(duì)航天器追逃博弈訓(xùn)練賦能問題,充分考慮現(xiàn)有方法的不足,將上述3種賦能方法相融合,提出多階段、逐層遞進(jìn)的訓(xùn)練賦能方法。采用強(qiáng)化學(xué)習(xí)技術(shù),對(duì)追蹤星和逃逸星的神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,預(yù)訓(xùn)練分為2步:第1步使追蹤星采用強(qiáng)化學(xué)習(xí)中的鄰近策略優(yōu)化(Proximal Policy Optimization,PPO)算法[24],逃逸星采用基于邏輯規(guī)則的策略,開展訓(xùn)練,直至追蹤星神經(jīng)網(wǎng)絡(luò)收斂;第2步,使逃逸星采用PPO算法而追蹤星采用邏輯規(guī)則開展博弈,直至逃逸星網(wǎng)絡(luò)收斂。然后,在預(yù)訓(xùn)練的基礎(chǔ)上開展二次訓(xùn)練,使兩星同時(shí)采用PPO算法,左右互搏,協(xié)同進(jìn)化,最終提升各自的追逃能力。其中,基于邏輯規(guī)則的策略充分利用了軌道動(dòng)力學(xué)等先驗(yàn)知識(shí),因此提出的訓(xùn)練方法相當(dāng)于先利用人的經(jīng)驗(yàn)知識(shí)對(duì)航天器一次賦能,再基于強(qiáng)化學(xué)習(xí)進(jìn)行二次賦能。
追蹤星需要通過軌道機(jī)動(dòng)抵近到逃逸星的 錐形安全接近走廊(捕獲區(qū)),而逃逸星旨在通過軌道機(jī)動(dòng)規(guī)避追蹤星,使追蹤星在規(guī)定時(shí)間內(nèi)無法進(jìn)入該區(qū)域。同時(shí),逃逸星為了維持原有通信、遙感等業(yè)務(wù),其姿態(tài)和軌道變化需要滿足一定約束。如圖1所示,捕獲區(qū)為圖中的錐形區(qū)域,該區(qū)域與逃逸星位置相關(guān),且在整個(gè)博弈過程始終保持對(duì)地指向。
采用CW方程描述兩者的相對(duì)軌道運(yùn)動(dòng):
對(duì)于式(1)的線性系統(tǒng),狀態(tài)方程可顯式求解,得到狀態(tài)隨時(shí)間的變化方程:
對(duì)于脈沖推力發(fā)動(dòng)機(jī),在進(jìn)行軌道遞推時(shí),可認(rèn)為速度增量是瞬間產(chǎn)生的,因此式(2)可寫為
本章將基于邏輯規(guī)則分別設(shè)計(jì)追逃星和逃逸星的追逃策略,使其作為兩星追逃的初級(jí)策略,建立策略集,用于訓(xùn)練算法。
在CW方程描述的相對(duì)軌道運(yùn)動(dòng)學(xué)框架下,采用基于軌跡預(yù)測(cè)的方法,通過設(shè)計(jì)每步的速度增量,實(shí)現(xiàn)追蹤星在f時(shí)刻抵近目標(biāo)的期望位置。追蹤策略流程如圖2所示。其中,將安全接近走廊中心線上的點(diǎn)作為f時(shí)刻追蹤星的期望位置,如圖3所示。
逃逸星需要在一定的范圍內(nèi)(如圖4中的陰影區(qū)域所示)運(yùn)動(dòng),為躲避追蹤星的抵近,設(shè)計(jì)了一種基于軌跡預(yù)測(cè)的逃逸方式,旨在實(shí)現(xiàn)在約束包絡(luò)內(nèi),以較少燃料完成逃逸。算法流程如圖5所示。
為了應(yīng)對(duì)對(duì)方?jīng)Q策周期、最大推力、機(jī)動(dòng)頻率等未知情況下的追逃博弈場(chǎng)景,在基于邏輯規(guī)則設(shè)計(jì)的追逃策略集基礎(chǔ)上,提出一種基于強(qiáng)化學(xué)習(xí)的訓(xùn)練賦能方法,采用多輪訓(xùn)練模式,由簡(jiǎn)單到復(fù)雜,使追蹤星和逃逸星逐步、高效地提升博弈能力。
首先追蹤星采用強(qiáng)化學(xué)習(xí)中的PPO算法生成追蹤策略,而逃逸星采用2.2節(jié)設(shè)計(jì)的策略進(jìn)行規(guī)避,經(jīng)過多回合博弈,追蹤星的決策網(wǎng)絡(luò)得到一組最優(yōu)的權(quán)值;其次,令逃逸星采用PPO算法,而追蹤星采用2.1節(jié)的策略,經(jīng)多輪博弈后,逃逸星得到最優(yōu)網(wǎng)絡(luò)權(quán)值,如圖6所示。
上述過程分別針對(duì)追蹤星和逃逸星進(jìn)行了預(yù)訓(xùn)練,其博弈對(duì)手的能力相對(duì)較弱,網(wǎng)絡(luò)權(quán)值較容易收斂。在此基礎(chǔ)上,兩星都采用PPO算法進(jìn)行決策,加載上述得到的網(wǎng)絡(luò)權(quán)值,繼承已習(xí)得的知識(shí)和策略,并在此基礎(chǔ)上進(jìn)行博弈,協(xié)同進(jìn)化,提升各自的追擊或逃逸能力。
訓(xùn)練過程采用了PPO算法,PPO是2017年由John Schulman提出的一種基于直接策略搜索的強(qiáng)化學(xué)習(xí)算法,由于其學(xué)習(xí)架構(gòu)清晰、應(yīng)用簡(jiǎn)單、適應(yīng)性強(qiáng),在圍棋博弈、運(yùn)動(dòng)體控制、游戲?qū)?zhàn)等眾多領(lǐng)域得到廣泛應(yīng)用,且表現(xiàn)出優(yōu)異的性能。PPO算法包含訓(xùn)練架構(gòu)設(shè)計(jì)、數(shù)據(jù)采集和網(wǎng)絡(luò)訓(xùn)練。
首先,根據(jù)任務(wù)使命設(shè)計(jì)合理的獎(jiǎng)勵(lì)函數(shù),建立任務(wù)和獎(jiǎng)勵(lì)的映射關(guān)系,引導(dǎo)航天器朝向獎(jiǎng)勵(lì)最大化的方向?qū)W習(xí)。
追蹤星獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)如下:
逃逸星獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)如下:
在此基礎(chǔ)上,設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),確定網(wǎng)絡(luò)的層數(shù)、激活函數(shù)類型、連接方式等信息,并設(shè)計(jì)網(wǎng)絡(luò)權(quán)值更新方法。在數(shù)據(jù)采集階段,航天器利用網(wǎng)絡(luò)模型進(jìn)行決策,產(chǎn)生軌道機(jī)動(dòng)指令,驅(qū)動(dòng)航天器軌道運(yùn)動(dòng),存儲(chǔ)相應(yīng)的速度、位置、獎(jiǎng)勵(lì)等數(shù)據(jù)。然后,利用這些數(shù)據(jù)對(duì)動(dòng)作網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)訓(xùn)練。其中,動(dòng)作網(wǎng)絡(luò)輸出各個(gè)動(dòng)作(推力)的概率,價(jià)值網(wǎng)絡(luò)輸出各狀態(tài)的價(jià)值函數(shù)。在訓(xùn)練過程中,先計(jì)算價(jià)值網(wǎng)絡(luò)和動(dòng)作網(wǎng)絡(luò)的殘差,基于梯度下降法更新網(wǎng)絡(luò)權(quán)值,利用新的網(wǎng)絡(luò)再進(jìn)行數(shù)據(jù)采集,以此循環(huán),直至網(wǎng)絡(luò)權(quán)值收斂。PPO算法的流程如圖7所示。
PPO算法的核心在于動(dòng)作網(wǎng)絡(luò)的殘差(優(yōu)化指標(biāo))計(jì)算,其綜合考慮了網(wǎng)絡(luò)前后兩次更新的差異度,并對(duì)該差異進(jìn)行限制,提升學(xué)習(xí)的穩(wěn)定性。PPO算法的優(yōu)化指標(biāo)為
在文獻(xiàn)[24]提出的PPO算法架構(gòu)基礎(chǔ)上,著重設(shè)計(jì)了航天器與環(huán)境交互的數(shù)據(jù)結(jié)構(gòu)和動(dòng)作空間分布,以及利用PPO算法進(jìn)行賦能的多階段訓(xùn)練方法。對(duì)于航天器軌道博弈問題,PPO算法中的交叉熵系數(shù)2應(yīng)比價(jià)值函數(shù)誤差項(xiàng)系數(shù)1小1~2個(gè)量級(jí),航天器軌道博弈狀態(tài)維數(shù)多、時(shí)間跨度廣、動(dòng)作空間大,航天器的決策網(wǎng)絡(luò)難以訓(xùn)練,若交叉熵過大,雖然能夠鼓勵(lì)航天器探索最優(yōu)解,但是會(huì)進(jìn)一步降低網(wǎng)絡(luò)收斂速度,甚至無法收斂。相反,對(duì)于規(guī)模較小的博弈問題,交叉熵可以有效避免算法陷入局部最優(yōu)解。
本章將針對(duì)追逃博弈問題,采用如圖6所示的賦能流程,基于Python搭建訓(xùn)練環(huán)境,完成對(duì)追蹤星和逃逸星的訓(xùn)練,并分階段展示神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程。仿真參數(shù)見表1。
表1 追逃任務(wù)輸贏條件相關(guān)參數(shù)
追蹤星采用PPO算法,逃逸星采用2.2節(jié)基于邏輯規(guī)則的逃逸策略(Rules-based Escape Policy,REP)進(jìn)行追逃博弈。在兩星博弈過程中,追蹤星的策略網(wǎng)絡(luò)及動(dòng)作網(wǎng)絡(luò)權(quán)值自適應(yīng)調(diào)整,逐漸增加自身的收益,如圖8(a)所示。訓(xùn)練3 000回合后,收益收斂到最大值,追蹤星在終端時(shí)刻抵近到逃逸星的捕獲區(qū),相對(duì)距離小于50 km(如圖8(b)所示),相對(duì)角度小于30°(如圖8(c)所示)。
在訓(xùn)練過程中,逃逸星采用PPO算法,追蹤星采用2.1節(jié)設(shè)計(jì)的基于邏輯規(guī)則的追蹤策略(Rules-based Pursuit Policy,RPP)。逃逸星的決策網(wǎng)絡(luò)逐漸更新,自身收益隨著訓(xùn)練局?jǐn)?shù)而不斷增加,如圖9(a)所示。逃逸星在訓(xùn)練700回合后,可成功躲避追蹤星,終端時(shí)刻逃逸星與追蹤星的相對(duì)距離和角度在捕獲區(qū)之外,如圖9(b)和圖9(c)所示。
在上述訓(xùn)練的基礎(chǔ)上,追蹤星和逃逸星分別能夠應(yīng)對(duì)邏輯規(guī)則驅(qū)動(dòng)下的對(duì)手,各自決策網(wǎng)絡(luò)收斂到最優(yōu)權(quán)值。在此基礎(chǔ)上開展二次訓(xùn)練,以預(yù)訓(xùn)練得到的網(wǎng)絡(luò)權(quán)值為各自決策網(wǎng)絡(luò)的初始值,采用PPO算法訓(xùn)練,訓(xùn)練結(jié)果如圖10所示。
由于兩星都具備智能博弈能力,且都經(jīng)過前期的訓(xùn)練,因此兩星展現(xiàn)出激烈的博弈態(tài)勢(shì),雙方的收益起伏不定。追蹤星無法抵近到逃逸星的捕獲區(qū)。需要說明的是,由于兩星博弈過程中,都是采用PPO算法,且機(jī)動(dòng)能力相同,獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)相對(duì)公平,所以追蹤星難以取勝。但是在訓(xùn)練過程中,追蹤星和逃逸星的博弈能力都得到提升。
兩星二次訓(xùn)練之后,進(jìn)行1 000局打靶驗(yàn)證,選擇其中一局進(jìn)行展示,如圖11所示。從圖11(a)可知,追蹤星最終成功抵近到逃逸星的安全接近區(qū)內(nèi),兩星終端相對(duì)距離小于50 km,相對(duì)角度小于30°。雖然在博弈過程中,兩星的燃料都耗盡,但是由于在訓(xùn)練過程中兩星也會(huì)遇到燃料耗盡的工況,且一方耗盡燃料則意味著失去博弈能力,因此兩星會(huì)盡可能耗盡對(duì)方燃料,從而最大化取勝概率。
為了說明二次訓(xùn)練后的追蹤星和逃逸星博弈能力提升,使兩星采用不同的機(jī)動(dòng)策略,進(jìn)行1 000局打靶驗(yàn)證,追蹤星的追擊成功率見表2。若追蹤星采用二次訓(xùn)練得到的決策網(wǎng)絡(luò),而逃逸星采用REP,則追蹤星的獲勝率高達(dá)98.2%;反之,若逃逸星采用二次訓(xùn)練得到的決策網(wǎng)絡(luò),而追蹤星采用RPP,則追蹤星的獲勝率僅有19.6%。從而說明采用二次訓(xùn)練可有效提升航天器的追逃博弈能力。
表2 不同追逃策略下追蹤星的追蹤成功率
針對(duì)航天器在軌追逃博弈問題,提出了一種多模復(fù)合分階段學(xué)習(xí)賦能方法。充分利用軌道動(dòng)力學(xué)信息,遞推對(duì)方的軌位,并分別針對(duì)追蹤星和逃逸星設(shè)計(jì)了基于邏輯規(guī)則的博弈策略,以此作為兩星的初級(jí)決策模式。該策略具有解析表達(dá)式,邏輯清晰、形式簡(jiǎn)單,具有較強(qiáng)的可解釋性和通用性。在此基礎(chǔ)上提出了一種高效的訓(xùn)練賦能方法,基于強(qiáng)化學(xué)習(xí)中的PPO方法,采用預(yù)訓(xùn)練與二次訓(xùn)練相結(jié)合的方式,有效提升了航天器的訓(xùn)練效率和博弈能力。通過仿真分析,驗(yàn)證了本文提出的訓(xùn)練算法的有效性,經(jīng)過二次訓(xùn)練的航天器能夠應(yīng)對(duì)多種策略驅(qū)動(dòng)下的對(duì)手,提升了博弈適應(yīng)性。
[1] 宮經(jīng)剛,寧宇,呂楠.美國高軌天基態(tài)勢(shì)感知技術(shù)發(fā)展與啟示[J].空間控制技術(shù)與應(yīng)用,2021,47(1):1-7.
[2] 袁利.面向不確定環(huán)境的航天器智能自主控制技術(shù)[J].宇航學(xué)報(bào),2021,42(7):839-849.
[3] OYLER D W, KABAMBA P T, GIRARD A R. Pursuit?evasion games in the presence of obstacles[J]. Automatica, 2016, 65: 1-11.
[4] PERELMAN A, SHIMA T, RUSNAK I. Cooperative differential games strategies for active aircraft protection from a homing missile[J]. Journal of Guidance, Control, and Dynamics, 2011, 34(3): 761-773.
[5] 祁圣君.美軍低成本可消耗無人機(jī)技術(shù)發(fā)展綜述[J].飛航導(dǎo)彈,2021(11):6-11.
[6] 孫智孝,楊晟琦,樸海音,等.未來智能空戰(zhàn)發(fā)展綜述[J].航空學(xué)報(bào),2021,42(8):35-49.
[7] PANG B, WEN C. Reachable set of spacecraft with finite thrust based on grid method[J]. IEEE Transactions on Aerospace and Electronic Systems, 2021, 2021: 3138373.
[8] LI W. A dynamics perspective of pursuit-evasion: capturing and escaping when the pursuer runs faster than the agile evader[J]. IEEE Transactions on Automatic Control, 2016, 62(1): 451-457.
[9] YAN R, SHI Z, ZHONG Y. Guarding a subspace in high-dimensional space with two defenders and one attacker[J]. IEEE Transactions on Cybernetics, 2022 ,52(5):3998-4011.
[10] YE D, TANG X, SUN Z, et al. Multiple model adaptive intercept strategy of spacecraft for an incomplete-information game[J]. Acta Astronautica, 2021, 180: 340-349.
[11] SHEN H X, CASALINO L. Revisit of the three-dimensional orbital pursuit-evasion game[J]. Journal of Guidance, Control, and Dynamics, 2018, 41(8): 1823-1831.
[12] LI Z, ZHU H, YANG Z, et al. A dimension-reduction solution of free-time differential games for spacecraft pursuit-evasion[J]. Acta Astronautica, 2019, 163: 201-210.
[13] TANG X, YE D, HUANG L, et al. Pursuit-evasion game switching strategies for spacecraft with incomplete-information[J]. Aerospace Science and Technology, 2021, 119: 107-112.
[14] YANG B, LIU P, FENG J, et al. Two-stage pursuit strategy for incomplete-information impulsive space pursuit-evasion mission using reinforcement learning[J]. Aerospace, 2021, 8(10): 299.
[15] VENIGALLA C, SCHEERES D J. Delta-V-based analysis of spacecraft pursuit-evasion games[J]. Journal of Guidance, Control, and Dynamics, 2021, 44(11): 1961-1971.
[16] 于大騰.空間飛行器安全防護(hù)規(guī)避機(jī)動(dòng)方法研究[D].長(zhǎng)沙:國防科技大學(xué),2017.
[17] CHENG L, WANG Z, JIANG F, et al. Real-time optimal control for spacecraft orbit transfer via multiscale deep neural networks[J]. IEEE Transactions on Aerospace and Electronic Systems, 2018, 55(5): 2436-2450.
[18] WANG X, SHI P, SCHWARTZ H, et al. An algorithm of pretrained fuzzy actor-critic learning applying in fixed-time space differential game[J]. Proceedings of the Institution of Mechanical Engineers, Part G: Journal of Aerospace Engineering, 2021, 235(14): 2095-2112.
[19] WANG Y, DONG L, SUN C. Cooperative control for multi-player pursuit-evasion games with reinforcement learning[J]. Neurocomputing, 2020, 412: 101-114.
[20] GAUDET B, LINARES R, FURFARO R. Adaptive guidance and integrated navigation with reinforcement meta-learning[J]. Acta Astronautica, 2020, 169: 180-190.
[21] GAUDET B, LINARES R, FURFARO R. Deep reinforcement learning for six degree-of-freedom planetary landing[J]. Advances in Space Research, 2020, 65(7): 1723-1741.
[22] HOVELL K, ULRICH S. Deep reinforcement learning for spacecraft proximity operations guidance[J]. Journal of Spacecraft and Rockets, 2021, 58(2): 254-264.
[23] ZAVOLI A, FEDERICI L. Reinforcement learning for robust trajectory design of interplanetary missions[J]. Journal of Guidance, Control, and Dynamics, 2021, 44(8): 1440-1453.
[24] SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms[EB/OL]. (2017-07-20)[2022-04-01]. https://arxiv.org/pdf/1707.06347.pdf.
Multi-stage Reinforcement Learning Method for Orbital Pursuit-Evasion Game of Spacecrafts
YUANLi1,2, GENGYuanzhuo1,2, TANGLiang1,2, HUANGHuang1,2
(1.Beijing Institute of Control Engineering, Beijing 100094, China; 2.Science and Technology on Space Intelligent Control Laboratory, Beijing 100094, China)
An enabled training method based on multi-phase reinforcement learning is proposed to solve the problem of orbital pursuit-evasion of two spacecrafts, so that the pursuer reaches a specific region adjacent to the evader at the terminal moment while the evader attempts to avoid being chased by means of orbital maneuvering. First, a training set of the pursuer and chaser is constructed. The two rules-based pursuing and evasion policies are proposed for the pursuer and evader, respectively, in which the expected position and pulse policy are analytically designed based on the prediction of the terminal position of the other spacecraft. Second, a multi-mode training method based on reinforcement learning is proposed to enhance the training efficiency and the ability to confront with uncertain adversaries. Third, the spacecraft is pre-trained by confronting with the other spacecraft endowed with the rules-based policies. Based on the pre-trained network, the network is re-trained in which both the spacecrafts are driven by the proximal policy optimization (PPO) scheme where the network weights are updated gradually. Finally, simulations are conducted to evaluate the effectiveness of the proposed training approach. The results show that the spacecraft with re-trained network could enhance the success rates of pursuit and escape.
orbital pursuit-evasion; game decision making; reinforcement learning; enabled training; multi-stage learning
2022?04?26;
2022?06?14
袁利(1974—),男,博士,研究員,主要研究方向?yàn)楹教炱鹘Ec仿真、智能控制、高精度控制和魯棒容錯(cuò)控制技術(shù)。
TN 911.73; TP 391.9
A
10.19328/j.cnki.2096?8655.2022.04.003