邱鵬鵬 張易誠 曹海濤 鄭君錚
關(guān)鍵詞:變軌控制;相對(duì)運(yùn)動(dòng);目標(biāo)軌道;深度強(qiáng)化學(xué)習(xí)
中圖分類號(hào):TP183 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-8228(2023)11-90-04
0 引言
近年來,隨著航天技術(shù)的發(fā)展,航天器相對(duì)距離控制已成為一個(gè)活躍的研究領(lǐng)域,被廣泛應(yīng)用于衛(wèi)星在軌維護(hù)、衛(wèi)星組裝[1],以及空間碎片捕獲[2]等多個(gè)場(chǎng)景,航天器相對(duì)距離控制要求衛(wèi)星能夠自主、安全地接近后者到達(dá)目標(biāo)位置。通常,相對(duì)距離控制可分為近程控制和遠(yuǎn)程控制。近程控制一般要求探索衛(wèi)星從幾十公里內(nèi)直接開始搜索目標(biāo)[3],而遠(yuǎn)程控制一般需要協(xié)調(diào)地面站,獲取目標(biāo)位置,從而引導(dǎo)探索衛(wèi)星變軌到近程軌道。解決遠(yuǎn)程相對(duì)距離控制問題需要制定合理的變軌策略,然而這往往面臨著許多困難。由于空間飛行環(huán)境多變且復(fù)雜,因此任務(wù)實(shí)現(xiàn)難度異常艱巨,代價(jià)巨大。傳統(tǒng)的基于優(yōu)化控制的方法,其有效性取決于動(dòng)態(tài)模型的準(zhǔn)確性,如果因環(huán)境不穩(wěn)定等因素導(dǎo)致的引導(dǎo)模型的精準(zhǔn)度不足,那么飛行任務(wù)則極易失敗。因此,需要使用健壯且具有較強(qiáng)自適應(yīng)能力的策略以應(yīng)對(duì)各類空間飛行問題。
深度強(qiáng)化學(xué)習(xí)(DRL)是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)熱門研究課題。智能體根據(jù)自身狀態(tài)及其他已知信息做出相應(yīng)的動(dòng)作,通過與環(huán)境的交互作用來獲取獎(jiǎng)勵(lì),不斷優(yōu)化策略指引智能體向獎(jiǎng)勵(lì)高的方向行動(dòng),直到獲得最優(yōu)策略。因此,一方面DRL 代理能夠降低計(jì)算頻率,這使得其廣泛應(yīng)用于具有有限計(jì)算能力的衛(wèi)星上;另一方面通過減少代理自主性對(duì)優(yōu)化方法的依賴從而降低行為間相關(guān)聯(lián)性。
針對(duì)以上方法及問題,提出一種基于深度強(qiáng)化學(xué)習(xí)雙延遲深度確定性策略梯度算法(Twin DelayedDeep Deterministic Policy Gradient Algorithm,TD3),從而解決在復(fù)雜多變的連續(xù)空間環(huán)境下的變軌任務(wù)。具體來說,通過引入合適的數(shù)據(jù)處理方式、設(shè)置合理的獎(jiǎng)勵(lì)函數(shù),令衛(wèi)星與環(huán)境不斷進(jìn)行交互,進(jìn)而引導(dǎo)衛(wèi)星做出點(diǎn)火決策的同時(shí)更新策略,并最終從高軌道逐步變軌到達(dá)目標(biāo)軌道附近。最后,利用可視化方法驗(yàn)證TD3 算法解決衛(wèi)星相對(duì)距離控制問題的有效性。本文的貢獻(xiàn)是:①考慮衛(wèi)星真實(shí)情況下間斷性點(diǎn)火特性,解決了在算法控制與狀態(tài)變化不同頻率狀況下的衛(wèi)星橢圓軌道變軌控制;②引入軌道動(dòng)力學(xué)模型,采用動(dòng)態(tài)Z-score 數(shù)據(jù)處理方法,提出了一種TD3 控制算法,,有效地解決了高軌道、高維度下衛(wèi)星變軌問題。
1 背景及現(xiàn)狀
隨著航天技術(shù)的快速發(fā)展,衛(wèi)星變軌控制引起越來越多的學(xué)者關(guān)注,這使得變軌飛行可行性和關(guān)鍵性技術(shù)被充分挖掘,許多方案都取得了良好的效果。
衛(wèi)星變軌到達(dá)目標(biāo)軌道的問題,本質(zhì)上是一種相對(duì)距離協(xié)調(diào)控制問題,國際上目前常見的衛(wèi)星相對(duì)距離飛行控制方法包括系繩法、庫侖力法[4]、人工勢(shì)函數(shù)法[5]、李亞普諾夫函數(shù)法等。在庫侖力衛(wèi)星控制中,采用一定的技術(shù)手段使得衛(wèi)星帶電(正電荷或負(fù)電荷),通過控制衛(wèi)星帶電量來控制衛(wèi)星受力大小及方向,進(jìn)而實(shí)現(xiàn)衛(wèi)星變軌到達(dá)目標(biāo)軌道。庫侖力法解決了衛(wèi)星近距離相對(duì)距離控制時(shí)設(shè)定衛(wèi)星同性電荷從而避免發(fā)生碰撞。然而,庫侖力法受到衛(wèi)星間的間距限制,它無法支持遠(yuǎn)程衛(wèi)星引導(dǎo)控制。
深度強(qiáng)化學(xué)習(xí)在解決復(fù)雜的非線性控制問題方面具有很大的優(yōu)勢(shì),因此常被用于處理航天領(lǐng)域的相關(guān)研究。為了實(shí)現(xiàn)衛(wèi)星的交會(huì)對(duì)接,作者引入近端策略優(yōu)化算法(Proximal Policy Optimization,PPO),設(shè)定防碰撞區(qū)域以及安全區(qū)域,結(jié)合相對(duì)軌道的動(dòng)力學(xué)方法[6]。為了解決近距離的航天器對(duì)接問題,介紹了一種能夠在真實(shí)航天器平臺(tái)上使用的基于分布式深度確定性策略梯度的算法[7] (Distributed DistributionalDeep Deterministic Policy Gradient,D4PG),用于擬合出最佳制導(dǎo)軌跡從而反饋到常規(guī)控制器上以進(jìn)行衛(wèi)星軌跡跟蹤。然而,上述基于深度強(qiáng)化學(xué)習(xí)的衛(wèi)星變軌控制策略大都基于衛(wèi)星間距僅為幾千米的范圍,目前針對(duì)衛(wèi)星遠(yuǎn)程相對(duì)控制的文章少之又少。因此,本文將采用TD3 算法來解決衛(wèi)星在橢圓軌道變軌下到達(dá)目標(biāo)軌道問題。
4 仿真實(shí)驗(yàn)及結(jié)果分析
4.1 實(shí)驗(yàn)環(huán)境及參數(shù)
實(shí)驗(yàn)中,衛(wèi)星和地球的半徑分別90km、6371km,質(zhì)量分別為4474kg、5.965E24kg。
衛(wèi)星軌道根數(shù)半長(zhǎng)軸、偏心率、軌道傾角、近地點(diǎn)幅角、升交點(diǎn)赤經(jīng)取值范圍分別為[6.371E3,3.6E7]、[0,1]、[0,π]、[0,π]、[0,2π]。初始化目標(biāo)軌道和探索衛(wèi)星的軌道六根數(shù)如表1 所示。設(shè)定衛(wèi)星初始真近點(diǎn)角為0,則可以計(jì)算出衛(wèi)星的初始位置矢量和速度矢量分別為:(3.02E7,0,1.91E7)、(0,2798.17,1615.52);同時(shí),可以計(jì)算出目標(biāo)軌道加速度和速度大小分別為:0.34m/s^2、3403.32m/s。我們?cè)O(shè)定衛(wèi)星點(diǎn)火作用時(shí)間為一秒鐘,依據(jù)網(wǎng)絡(luò)輸出的動(dòng)作,可計(jì)算出相應(yīng)的速度變化量和位置變化量。同時(shí),在下一次點(diǎn)火動(dòng)作到來之前,衛(wèi)星受萬有引力作用自由飛行五分鐘。
定義神經(jīng)網(wǎng)絡(luò)為三層全連接層,即5*128*128*3。神經(jīng)網(wǎng)絡(luò)狀態(tài)輸入為衛(wèi)星軌道根數(shù),網(wǎng)絡(luò)輸出為三軸方向的加速度,其取值范圍為[?10m/s^2,10m/s^2]。同時(shí),TD3 算法中參數(shù)具體設(shè)置如表2 其中,ε表示高斯噪聲的均方誤差,λ 表示式⑺中的目標(biāo)函數(shù)折扣因子,alr 和clr 分別表示Actor 網(wǎng)絡(luò)與Critic 網(wǎng)絡(luò)的學(xué)習(xí)率。minibacth 表示從replaybuffer 采樣的最小單元。同時(shí)將噪聲切割的上下限c 設(shè)置大小為5。
在獎(jiǎng)勵(lì)設(shè)置中,獎(jiǎng)勵(lì)系數(shù)α1,α2,α3,γ1,γ2分別為20,10,10,100,100, 而βi = 15, i = 1…5。獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)為偏差的一次反比例函數(shù)。
4.2 結(jié)果分析
在本文中,我們?cè)O(shè)定衛(wèi)星距離目標(biāo)軌道500 米以內(nèi)即判定系統(tǒng)收斂。經(jīng)過TD3 算法引導(dǎo),系統(tǒng)產(chǎn)生的獎(jiǎng)勵(lì)與軌跡圖分別如圖1 和圖2 所示。從圖1 中看出系統(tǒng)在約300 步左右就收斂,系統(tǒng)獎(jiǎng)勵(lì)值收斂在-1E-5附近。從圖2 中可以看出衛(wèi)星從開始位置逐漸變軌到終點(diǎn)位置從而到達(dá)目標(biāo)軌道(更淺色的圓)附近。
我們同樣利用TD3 算法與DDPG 算法進(jìn)行實(shí)驗(yàn),如圖3 所示。對(duì)比圖3(a)可以看出,經(jīng)過了Z-score 數(shù)據(jù)處理過的網(wǎng)絡(luò)更加穩(wěn)定,也更加適用于處理像衛(wèi)星這樣各數(shù)據(jù)量級(jí)不在同一量級(jí)上的問題;而對(duì)比圖1與圖3(b)易看出,我們所提出的基于Z-score 的TD3算法相較DDPG 算法具有更快的收斂特性。
5 總結(jié)
本文提出在深度強(qiáng)化學(xué)習(xí)下的TD3 控制算法,來處理衛(wèi)星通過遠(yuǎn)程變軌到達(dá)指定目標(biāo)軌道的問題。實(shí)驗(yàn)結(jié)果表明,該算法能夠有效解決衛(wèi)星變軌到達(dá)目標(biāo)軌道的控制問題。然而在本算法中,并未考慮多顆衛(wèi)星情況,真實(shí)空間任務(wù)多是基于多衛(wèi)星完成的,接下來考慮多個(gè)衛(wèi)星在強(qiáng)化學(xué)習(xí)作用完成到達(dá)目標(biāo)軌道任務(wù)。