吳健發(fā), 魏春嶺*, 張海博, 李克行, 郝仁劍
1.北京控制工程研究所, 北京 100094 2.空間智能控制技術(shù)全國(guó)重點(diǎn)實(shí)驗(yàn)室, 北京 100094
由于非合作航天器和空間碎片的數(shù)量激增,導(dǎo)致近期軌道危險(xiǎn)交會(huì)事件頻發(fā),對(duì)我國(guó)航天器的在軌安全運(yùn)行造成嚴(yán)重威脅.例如2021年7月1日和10月21日,“星鏈”衛(wèi)星兩次接近我國(guó)空間站,迫使我空間站進(jìn)行主動(dòng)規(guī)避.面對(duì)日益擁擠的軌道空間環(huán)境,研究航天器自主規(guī)避動(dòng)作規(guī)劃技術(shù)已成為眾多學(xué)者的共識(shí)[1],近來(lái)涌現(xiàn)出大量具有啟發(fā)性的學(xué)術(shù)成果[2-12].然而根據(jù)調(diào)研,上述研究中提出的規(guī)避動(dòng)作規(guī)劃方法普遍存在無(wú)法生成更為精細(xì)的姿軌機(jī)動(dòng)動(dòng)作指令或快速反應(yīng)能力不足的問(wèn)題,難以完全適應(yīng)多約束、近距離條件下的航天器復(fù)雜規(guī)避情景,具體體現(xiàn)在以下方面:
1)所建立的決策規(guī)劃模型多基于比較簡(jiǎn)單的三自由度C-W軌道運(yùn)動(dòng)方程或二體運(yùn)動(dòng)方程,在規(guī)劃時(shí)僅考慮了航天器的位置、軌控加速度和能量等簡(jiǎn)單約束條件[2-7].這雖然可以降低規(guī)劃求解的難度,但卻無(wú)法進(jìn)一步描述規(guī)避機(jī)動(dòng)過(guò)程中面臨的多種復(fù)雜非線性的姿態(tài)指向、輸入有界和安全性約束條件[8-13].例如,星敏感器和通信天線的正常工作需要航天器滿足一定的姿態(tài)指向約束;姿控力矩和姿態(tài)角速度存在有界約束;近距離交會(huì)時(shí)還須建立航天器外形與軌道威脅間的精細(xì)化碰撞約束等.可能導(dǎo)致?lián)艘?guī)劃出的軌跡與實(shí)際飛行軌跡間存在較大偏差,或難以完全滿足航天器的穩(wěn)定運(yùn)行需求.
2)對(duì)于上述問(wèn)題,一些研究提出在建立復(fù)雜模型的基礎(chǔ)上,采用高斯偽譜[8-10]、模型預(yù)測(cè)控制[11-12]等數(shù)值優(yōu)化方法實(shí)現(xiàn)航天器多約束規(guī)避動(dòng)作在線規(guī)劃,其在航天器遠(yuǎn)距離威脅規(guī)避或近距離低速交會(huì)對(duì)接情景下具有較好的規(guī)劃效果.然而在實(shí)際中,星載探測(cè)設(shè)備存在一定的漏檢率,當(dāng)再次檢測(cè)到威脅時(shí),雙方預(yù)期交會(huì)時(shí)間可能僅有數(shù)十秒,而文獻(xiàn)[8-12]的數(shù)值優(yōu)化方法往往存在初值敏感、求解效率低、計(jì)算時(shí)間長(zhǎng)等問(wèn)題[14],難以滿足相應(yīng)的高頻率實(shí)時(shí)規(guī)劃需求.
近年來(lái),以深度強(qiáng)化學(xué)習(xí)為代表的新一代人工智能技術(shù)蓬勃發(fā)展,為上述問(wèn)題的解決帶來(lái)希望[15]:一方面,深度強(qiáng)化學(xué)習(xí)所引入的深度神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的非線性逼近能力,能在與環(huán)境的交互訓(xùn)練中通過(guò)反饋的獎(jiǎng)勵(lì)信號(hào)充分提取環(huán)境中的約束特征繼而學(xué)習(xí)到受限條件的狀態(tài)轉(zhuǎn)移規(guī)律,目前已在復(fù)雜地形下的無(wú)人機(jī)機(jī)動(dòng)控制[16]、再入飛行器姿態(tài)控制[17]、航天器碎片規(guī)避軌道控制[18]等典型多約束優(yōu)化控制問(wèn)題中得到應(yīng)用;另一方面,訓(xùn)練成型的深度神經(jīng)網(wǎng)絡(luò)在線應(yīng)用時(shí)只需進(jìn)行前向傳播,沒有復(fù)雜的數(shù)值計(jì)算過(guò)程,適用于具有高實(shí)時(shí)性需求的決策任務(wù).鑒于此,本文圍繞航天器規(guī)避機(jī)動(dòng)任務(wù)需求,提出一種基于深度強(qiáng)化學(xué)習(xí)的航天器規(guī)避動(dòng)作規(guī)劃方法,可在航天器姿態(tài)指向變化較小的前提下快速生成滿足多種復(fù)雜約束的姿軌規(guī)避動(dòng)作,并構(gòu)造與規(guī)劃方法相適配的深度強(qiáng)化學(xué)習(xí)規(guī)范化訓(xùn)練環(huán)境,確保學(xué)習(xí)訓(xùn)練過(guò)程中智能體和環(huán)境的有效交互.
以剛體航天器為研究對(duì)象,假設(shè)航天器軌道為近圓軌道,主推力器安裝在航天器質(zhì)心,指向本體系-xb軸.以航天器探測(cè)到軌道威脅時(shí)的初始狀態(tài)為參考航天器的初始狀態(tài),在VVLH坐標(biāo)系下建立航天器姿軌動(dòng)力學(xué)模型,如下所示:
(1)
(2)
COB=
(3)
(4)
其中:式(1a)和(1b-c)分別為軌道動(dòng)力學(xué)方程和姿態(tài)動(dòng)力學(xué)方程;R=[xyz]T為航天器相對(duì)參考航天器的位置;n為參考航天器的軌道角速度;q=[q0q1q2q3]T為姿態(tài)四元數(shù);ω=[ωxωyωz]T為本體系下的姿態(tài)角速度;FB=[F0 0]T和τc=[MxMyMz]T作為航天器姿軌機(jī)動(dòng)的控制輸入,分別為本體系下的推力和姿控力矩矢量;m為航天器質(zhì)量,由于規(guī)避過(guò)程時(shí)間較短,可假設(shè)質(zhì)量恒定;COB為本體系到VVLH坐標(biāo)系的轉(zhuǎn)換矩陣;J為轉(zhuǎn)動(dòng)慣量矩陣;ω×表示ω的反對(duì)稱矩陣.
1)狀態(tài)/輸入有界約束
航天器的姿態(tài)角速度和控制輸入需滿足相應(yīng)的有界約束條件,如下所示:
(5)
2)姿態(tài)指向約束
航天器裝備有多種光學(xué)敏感器,其在姿軌機(jī)動(dòng)過(guò)程中必須避免太陽(yáng)等光源進(jìn)入敏感器視場(chǎng),即光源方向矢量和敏感器的視線軸方向夾角不低于敏感器安全視場(chǎng)角,以保證敏感器的正常工作,因此需對(duì)航天器的姿態(tài)指向進(jìn)行限制,如下所示:
(6)
式(6)中,rB,i和σi分別為敏感器i在本體系下的指向和安全視場(chǎng)角,rO為光源在LLVH坐標(biāo)系下的指向.
此外,應(yīng)盡量以較小的姿態(tài)指向變化完成規(guī)避機(jī)動(dòng),以確保對(duì)地天線、相機(jī)等任務(wù)載荷的業(yè)務(wù)連續(xù)性,可建模為如下軟約束JP:
|ψ(t′)-ψ0|)dt
(7)
式(7)中:φ、θ、ψ分別為航天器的滾動(dòng)角、俯仰角和偏航角,其值可由四元數(shù)解算;φ0、θ0、ψ0為初始姿態(tài)角;機(jī)動(dòng)過(guò)程中JP越小,規(guī)避動(dòng)作質(zhì)量越高;姿態(tài)角變化|φ-φ0|、|θ-θ0|、|ψ-ψ0|在計(jì)算時(shí)需考慮俯仰角在±90°時(shí)以及滾動(dòng)角和偏航角在±180°時(shí)的不連續(xù)變化問(wèn)題.
3)考慮航天器外形的精細(xì)化碰撞約束
近距離危險(xiǎn)交會(huì)時(shí),由于航天器除主體結(jié)構(gòu)外一般還安裝有太陽(yáng)帆板或天線等附屬結(jié)構(gòu),如果簡(jiǎn)單將航天器的碰撞約束建模為規(guī)則形狀包絡(luò),例如球體、橢球體及其組合體,則會(huì)嚴(yán)重壓縮航天器的姿軌規(guī)避機(jī)動(dòng)空間,導(dǎo)致動(dòng)作規(guī)劃方法難以計(jì)算可行解,因此還需要結(jié)合航天器的實(shí)際外形,構(gòu)建精細(xì)化的碰撞約束.具體來(lái)說(shuō),首先將威脅視為球體,其位置為RT,安全半徑為L(zhǎng)T,然后以航天器的質(zhì)心為基準(zhǔn)點(diǎn),以d為間距,將其外形離散化為N個(gè)坐標(biāo)點(diǎn),各點(diǎn)在本體系下相對(duì)于基準(zhǔn)點(diǎn)的坐標(biāo)為rS,i(i=1,2,…,N),則碰撞約束定義如下:
(8)
在航天器始終滿足上述約束條件的前提下,當(dāng)航天器處于威脅后半球(航天器相對(duì)于威脅的位置矢量與威脅速度矢量的夾角大于90°時(shí)的區(qū)域),且雙方相距大于距離閾值LS時(shí),可判定航天器規(guī)避成功,該條件可建模為
?t′,
s.t.
(?t∈[0,t′],s.t.式(5-6,8))∩
(9)
式(9)中,〈·,·〉表示矢量夾角.
強(qiáng)化學(xué)習(xí)的基本要素包括智能體(由策略和訓(xùn)練算法組成)和訓(xùn)練環(huán)境,其中,訓(xùn)練環(huán)境通過(guò)獎(jiǎng)勵(lì)函數(shù)評(píng)估智能體的行為并給予相應(yīng)的激勵(lì)信號(hào),而智能體則根據(jù)環(huán)境反饋輸出動(dòng)作影響環(huán)境狀態(tài).在雙方“試錯(cuò)”的過(guò)程中,智能體通過(guò)訓(xùn)練算法不斷更新其策略,以盡可能地獲得更高的長(zhǎng)期獎(jiǎng)勵(lì).深度強(qiáng)化學(xué)習(xí)則是上述概念基礎(chǔ)上,以深度神經(jīng)網(wǎng)絡(luò)作為智能體策略的表現(xiàn)形式,并輔之以配套的訓(xùn)練算法.考慮到航天器規(guī)避動(dòng)作規(guī)劃問(wèn)題具有連續(xù)狀態(tài)/動(dòng)作屬性,并結(jié)合作者及其合作者近年來(lái)在再入飛行器姿態(tài)控制和航天器軌道機(jī)動(dòng)控制等復(fù)雜多約束動(dòng)力系統(tǒng)控制問(wèn)題[17-18]中的實(shí)踐經(jīng)驗(yàn),本文采用雙延遲深度確定性策略梯度(twin delayed deep deterministic policy gradient, TD3)算法[19]作為深度強(qiáng)化學(xué)習(xí)的訓(xùn)練算法,該算法是在深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法基礎(chǔ)上的一個(gè)改進(jìn)[20],是目前最先進(jìn)的面向連續(xù)控制的深度強(qiáng)化學(xué)習(xí)算法之一.DDPG基于“動(dòng)作-評(píng)價(jià)”機(jī)制,利用深度神經(jīng)網(wǎng)絡(luò)逼近價(jià)值函數(shù)和確定性策略.由于價(jià)值函數(shù)逼近過(guò)程中常出現(xiàn)價(jià)值過(guò)估計(jì)現(xiàn)象,惡化訓(xùn)練效果,因此FUJIMOTO等在DDPG的基礎(chǔ)上進(jìn)一步使用兩套評(píng)價(jià)網(wǎng)絡(luò)來(lái)估計(jì)值函數(shù),并且使用動(dòng)作網(wǎng)絡(luò)延遲更新和目標(biāo)動(dòng)作網(wǎng)絡(luò)平滑正則化等操作來(lái)進(jìn)一步提高算法的收斂性.
TD3中共計(jì)使用了1個(gè)動(dòng)作現(xiàn)實(shí)網(wǎng)絡(luò)、1個(gè)動(dòng)作目標(biāo)網(wǎng)絡(luò)、2個(gè)評(píng)價(jià)現(xiàn)實(shí)網(wǎng)絡(luò)以及2個(gè)評(píng)價(jià)目標(biāo)網(wǎng)絡(luò).算法和神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)分別如圖1~2所示.動(dòng)作網(wǎng)絡(luò)的輸入為環(huán)境反饋的觀測(cè)量o,由輸入層、全連接層、線性整流單元層和雙曲正切層組成.評(píng)價(jià)網(wǎng)絡(luò)的輸入則包括觀測(cè)量o和動(dòng)作量a,由輸入層、全連接層、線性整流單元層和疊加層組成.
圖1 TD3深度強(qiáng)化學(xué)習(xí)算法
結(jié)合前面所述的航天器規(guī)避機(jī)動(dòng)模型與約束條件,首先構(gòu)造o和a.
(10)
對(duì)于a,文獻(xiàn)[21-22]的思路是直接將其定義為控制輸入,如式(11)所示(進(jìn)行了相應(yīng)歸一化處理),這樣可直接對(duì)控制輸入進(jìn)行有界約束,但卻無(wú)法約束規(guī)避過(guò)程中的角速率,必須在獎(jiǎng)勵(lì)函數(shù)中額外設(shè)置復(fù)雜的狀態(tài)有界項(xiàng),進(jìn)行更加充分的訓(xùn)練.為使智能體在訓(xùn)練中盡可能生成滿足狀態(tài)有界約束的控制輸入,從而降低訓(xùn)練的難度,本文首先基于式(1c)和動(dòng)態(tài)逆方法[23]設(shè)計(jì)一個(gè)角速率控制器,如式(12)所示,以此為基礎(chǔ),將a定義歸一化推力F和指令角速率ωc=[ωx,cωy,cωz,c]T的組合,如式(13)所示,從而實(shí)現(xiàn)對(duì)角速率的直接限幅
(11)
τc=sat(J·(K(ωc-ω)+J-1ω×Jω))
(12)
(13)
在此基礎(chǔ)上,基于TD3深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練智能體,具體算法流程和相關(guān)參數(shù)解釋如文獻(xiàn)[19]所示.
圖2 動(dòng)作網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò)
如圖3所示,訓(xùn)練結(jié)束后,從智能體中提取動(dòng)作網(wǎng)絡(luò)用于實(shí)際環(huán)境下的在線重規(guī)劃,給定神經(jīng)網(wǎng)絡(luò)相應(yīng)的觀測(cè)量即可快速生成相應(yīng)規(guī)避機(jī)動(dòng)動(dòng)作.
圖3 深度強(qiáng)化學(xué)習(xí)算法的在線應(yīng)用
訓(xùn)練環(huán)境對(duì)深度強(qiáng)化學(xué)習(xí)算法的訓(xùn)練效能影響巨大,如果設(shè)置不當(dāng),可能會(huì)在訓(xùn)練中出現(xiàn)即使航天器不機(jī)動(dòng)也不會(huì)與威脅發(fā)生交會(huì)的無(wú)效交互情況,因此有必要對(duì)訓(xùn)練環(huán)境進(jìn)行合理設(shè)計(jì).本文圍繞多約束規(guī)避機(jī)動(dòng)任務(wù)需求,提出具有規(guī)范化設(shè)計(jì)步驟的訓(xùn)練環(huán)境建模方法,主要包括以下3部分內(nèi)容:初始狀態(tài)設(shè)置、訓(xùn)練環(huán)境重置條件設(shè)計(jì)以及獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì).
(1)初始狀態(tài)設(shè)置
然后,設(shè)定航天器自探測(cè)到威脅至雙方發(fā)生預(yù)期交會(huì)的時(shí)間tR.在此基礎(chǔ)上,定義并隨機(jī)初始化威脅相對(duì)航天器的速度幅值ΔV∈[ΔVmin,ΔVmax]、方位夾角α∈[-π,π]和β∈[-0.5π,0.5π],則軌道威脅的位置方程設(shè)定如下所示:
RT(t)=(tR-t)ΔV[cosαcosβsinαcosβsinβ]T
(14)
基于上述軌道威脅初始狀態(tài)設(shè)置方法,可確保在訓(xùn)練過(guò)程中如果航天器不進(jìn)行規(guī)避機(jī)動(dòng),則必然與威脅發(fā)生交會(huì).
(2)訓(xùn)練環(huán)境重置條件設(shè)計(jì)
環(huán)境重置條件設(shè)置為航天器部件與威脅發(fā)生碰撞或規(guī)避成功,即不滿足式(8)或滿足式(9).
(3)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)
獎(jiǎng)勵(lì)函數(shù)r設(shè)計(jì)如下:
(15)
rP=-|φ-φ0|-|θ-θ0|-|ψ-ψ0|
(16)
其中,rP和wP分別為基于式(7)指標(biāo)構(gòu)造的姿態(tài)指向獎(jiǎng)勵(lì)項(xiàng)及其權(quán)重,re,1<0和re,2>0分別為規(guī)避失敗和成功時(shí)的恒定懲罰和獎(jiǎng)勵(lì)值.r的目的是鼓勵(lì)以較小的姿態(tài)指向變化(即JP)完成多約束規(guī)避機(jī)動(dòng).
圖4 本文中航天器的外形
軌道威脅參數(shù)設(shè)置為: 預(yù)期交會(huì)時(shí)間為tR=20 s;相對(duì)方位和速度參數(shù)為α=-30°、β=-25°和ΔV=30 m/s;安全半徑為L(zhǎng)T=2 m.
TD3參數(shù)設(shè)置為:動(dòng)作規(guī)劃采樣步長(zhǎng)為0.1 s;訓(xùn)練回合數(shù)為100 000;回合最大迭代次數(shù)為250;評(píng)價(jià)網(wǎng)絡(luò)和動(dòng)作網(wǎng)絡(luò)的學(xué)習(xí)率均為0.000 1;批大小為S=512,折扣因子為η=0.99;漸變更新系數(shù)為τ=0.005;噪聲方差為0.05,更新周期為D=5.神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置為:動(dòng)作網(wǎng)絡(luò)中,“全連接層(FC)+線性整流單元層(ReLU)”(下面簡(jiǎn)稱“FC+ReLU”)組合共有3個(gè);評(píng)價(jià)網(wǎng)絡(luò)中,疊加層之前兩條通路各有2個(gè)“FC+ReLU”組合,疊加層之后擁有1個(gè)“FC+ReLU”組合;兩種網(wǎng)絡(luò)中,全連接層的節(jié)點(diǎn)數(shù)均為128.
仿真中共有2個(gè)對(duì)比項(xiàng):對(duì)比項(xiàng)1為僅以最大推力進(jìn)行軌道機(jī)動(dòng)的規(guī)避方式;對(duì)比項(xiàng)2為基于高斯偽譜法的規(guī)避動(dòng)作離線規(guī)劃方法,其目標(biāo)函數(shù)設(shè)置為式(7),路徑約束設(shè)置為式(6)和式(8).仿真計(jì)算機(jī)配置為CPU AMD Ryzen 7-5800 3.40 GHz, RAM 16 GB.仿真軟件環(huán)境為Matlab 2021a, 對(duì)比項(xiàng)2采用GPOPS-II高斯偽譜工具包進(jìn)行驗(yàn)證.
TD3訓(xùn)練過(guò)程中的平均獎(jiǎng)勵(lì)函數(shù)曲線如圖5所示, 其于80 000回合后能夠進(jìn)入收斂狀態(tài), 表明智能體與所構(gòu)建的規(guī)范化訓(xùn)練環(huán)境間能夠進(jìn)行有效交互.在此基礎(chǔ)上進(jìn)一步驗(yàn)證所提方法, 則臨近交會(huì)時(shí)航天器與威脅的最近距離如圖6所示, 航天器的姿態(tài)角、角速度、推力、姿控力矩和姿態(tài)指向約束情況分別如圖7~11所示, 規(guī)劃算法的運(yùn)行時(shí)間如表1所示.
圖5 TD3訓(xùn)練過(guò)程中的平均獎(jiǎng)勵(lì)函數(shù)曲線
圖6 預(yù)期交會(huì)時(shí)間附近航天器與威脅的最近距離
圖7 航天器的姿態(tài)角
表1 規(guī)劃算法的運(yùn)行時(shí)間
結(jié)果可見, 如果航天器僅以最大推力進(jìn)行軌道機(jī)動(dòng), 而并不調(diào)整姿態(tài), 則其外形結(jié)構(gòu)將與威脅發(fā)生交會(huì), 而在此基礎(chǔ)上基于本文方法和高斯偽譜法進(jìn)一步規(guī)劃相應(yīng)姿態(tài), 都能使航天器在滿足多種復(fù)雜約束條件的前提下(如圖8~11所示), 以較小的姿態(tài)變化(最大變化不超過(guò)12°, 如圖7所示)實(shí)現(xiàn)安全規(guī)避.相較于傳統(tǒng)的高斯偽譜規(guī)劃方法, 同仿真平臺(tái)下本文方法的總運(yùn)行時(shí)間僅有其0.12%, 且單步運(yùn)行時(shí)間不超過(guò)9 ms, 能夠?qū)崿F(xiàn)規(guī)避動(dòng)作的實(shí)時(shí)規(guī)劃, 可將其應(yīng)用于具有快速反應(yīng)需求的航天器應(yīng)急規(guī)避任務(wù)場(chǎng)景中.
圖8 航天器的姿態(tài)角速度
圖9 航天器的推力
圖10 航天器的姿控力矩
圖11 姿態(tài)指向約束
面向航天器多約束、短時(shí)間應(yīng)急規(guī)避任務(wù)情景,本文提出一種基于TD3深度強(qiáng)化學(xué)習(xí)算法的規(guī)避動(dòng)作快速規(guī)劃方法,并構(gòu)造了與其相適配的深度強(qiáng)化學(xué)習(xí)規(guī)范化訓(xùn)練環(huán)境.仿真結(jié)果表明,所提方法能在預(yù)期交會(huì)時(shí)間為20 s的情況下快速實(shí)時(shí)生成滿足多種復(fù)雜約束的安全規(guī)避動(dòng)作,各姿態(tài)角調(diào)整不超過(guò)12°,規(guī)劃周期小于9 ms,總運(yùn)行時(shí)間僅為高斯偽譜法的0.12%.