馬廣富,劉昱晗,呂躍勇,郭延寧
基于高斯過程回歸的組合體航天器姿態(tài)接管學(xué)習(xí)控制
馬廣富,劉昱晗,呂躍勇,郭延寧
(哈爾濱工業(yè)大學(xué) 控制科學(xué)與工程系,黑龍江 哈爾濱 150001)
空間非合作目標(biāo)一般具有結(jié)構(gòu)復(fù)雜、質(zhì)量特性未知、姿態(tài)機動能力不明等特點,這導(dǎo)致組合體航天器姿態(tài)動力學(xué)呈現(xiàn)出高度非線性和強耦合特性,且難以對其進行在軌精確辨識。針對組合體航天器姿態(tài)接管過程中目標(biāo)信息不完全、精確辨識困難等問題,本文考慮目標(biāo)存在姿態(tài)機動能力的任務(wù)場景,提出了一種基于稀疏高斯過程回歸(GPR)的數(shù)據(jù)驅(qū)動姿態(tài)接管控制策略。首先,從系統(tǒng)運行數(shù)據(jù)中提取、凝煉模型未知部分的輸入/輸出映射關(guān)系,構(gòu)建數(shù)據(jù)驅(qū)動的概率化模型以代替無法快速準確建立的參數(shù)辨識模型,并根據(jù)該數(shù)據(jù)驅(qū)動模型設(shè)計變增益反饋控制策略,證明了系統(tǒng)狀態(tài)概率意義上的Lyapunov穩(wěn)定性和有界性;其次,考慮到在軌任務(wù)的實時性、星載計算機的計算資源有限等因素,該算法可在保證控制精度的同時顯著減輕學(xué)習(xí)算法的計算壓力;最后,數(shù)值仿真驗證了本文所提出控制方法的有效性與實用價值。
組合體航天器;姿態(tài)接管;非合作目標(biāo);高斯過程;學(xué)習(xí)控制
隨著航天技術(shù)的高速發(fā)展,在軌服務(wù)任務(wù)也日趨多樣化和復(fù)雜化。通過服務(wù)航天器對目標(biāo)進行有效姿態(tài)接管操控是后續(xù)在軌加注、在軌維修、碎片清除等任務(wù)的基礎(chǔ)[1-3]。我國國務(wù)院2016年公布的“十三五”規(guī)劃中提出,將在軌服務(wù)與維護系統(tǒng)列為“科技創(chuàng)新2030”16個重點項目之一,計劃于2030年前突破該項技術(shù),保障航天器在軌安全可靠運行,迎接“太空經(jīng)濟”時代的到來。
目前對于傳統(tǒng)的合作目標(biāo)的接管控制技術(shù)已十分成熟,并已實現(xiàn)了在軌應(yīng)用,如美國的軌道快車計劃、歐洲的ATV[4]項目、日本的ETS-VII[5]、我國的神舟系列飛船與天宮對接[6]等。而針對空間非合作目標(biāo)的接管控制,抓捕后形成的組合體航天器實際上是一個結(jié)構(gòu)復(fù)雜、參數(shù)眾多、耦合度高,且整體結(jié)構(gòu)、質(zhì)量特性均不確定的非線性系統(tǒng)。常規(guī)的接管控制方法一般分為2種:先辨識再控制、考慮模型不確定性的自適應(yīng)控制。如文獻[7-8]首先建立了組合體系統(tǒng)的動力學(xué)模型,并基于干擾觀測器估計了末端作動器與目標(biāo)之間的接觸力,最后引入阻抗控制使得抓捕后形成的組合體姿態(tài)鎮(zhèn)定。文獻[9]在考慮組合體系統(tǒng)的慣量辨識誤差以及可能存在的執(zhí)行機構(gòu)隨機誤差,在反饋控制律中引入對偏差和輸入不確定性的自適應(yīng)補償項,并形成了一套自適應(yīng)容錯姿態(tài)接管控制方案。ZHAO[10]研究了考慮外界干擾和輸入飽和情況下的組合體轉(zhuǎn)動慣量參數(shù)辨識,并設(shè)計了基于同時學(xué)習(xí)的自適應(yīng)有限時間控制器以實現(xiàn)期望軌跡跟蹤。文獻[11]基于RBF神經(jīng)網(wǎng)絡(luò),分別構(gòu)建了故障檢測觀測器和干擾補償觀測器以抵抗外界干擾、非線性不確定性以及星載傳感器故障帶來的負面影響。CHEN[12]針對航天器姿態(tài)動力學(xué)模型不確定或完全未知的情況,提出了一種自適應(yīng)模糊估計算法對模型中未知部分進行逼近,并進一步結(jié)合2/∞方法設(shè)計了姿態(tài)控制律。
然而,轉(zhuǎn)動慣量能夠精確辨識的前提是整個組合體需處于空間自由漂浮狀態(tài)且無外力矩輸入,因此不適用于目標(biāo)存在姿態(tài)機動的任務(wù)場景。另外,自適應(yīng)控制方法通常在證明過程中假設(shè)模型不確定性、外界干擾等存在上界以保證閉環(huán)系統(tǒng)的穩(wěn)定性,這對組合體航天器的姿態(tài)接管任務(wù)來說是一種過于保守的假設(shè)條件。同時,基于神經(jīng)網(wǎng)絡(luò)、模糊規(guī)則等參數(shù)化方法對模型不確定性逼近具有結(jié)構(gòu)復(fù)雜、基函數(shù)選取仍然依賴模型信息的缺陷。總的來說,針對結(jié)構(gòu)復(fù)雜、質(zhì)量特性未知、姿態(tài)機動能力不明的空間非合作目標(biāo)的接管操控任務(wù)極具挑戰(zhàn)性并亟待解決。
近年來,隨著人工智能理論的飛躍式發(fā)展,基于機器學(xué)習(xí)的控制方法以工程易實現(xiàn)且不依賴復(fù)雜系統(tǒng)模型而得到了廣泛的應(yīng)用。其中,高斯過程回歸(Gaussian Process Regression, GPR)[13]作為一種典型的貝葉斯非參數(shù)化數(shù)據(jù)驅(qū)動建模方法,具有從系統(tǒng)輸入輸出數(shù)據(jù)中提取和凝煉模型知識的能力,并已應(yīng)用于機器人控制[14]、四旋翼控制[15]、軌道預(yù)測[16]和太陽電池陣基頻分析[17]等。與其他參數(shù)化學(xué)習(xí)方法相比,高斯過程(Gaussian Process, GP)的預(yù)測輸出具有概率性意義,既可得到激勵信號對應(yīng)的模型響應(yīng)均值,也可獲取模型響應(yīng)的方差(即預(yù)測的不確定性),2種輸出均可應(yīng)用于控制算法的設(shè)計,有效提高算法的魯棒性。因此,針對目標(biāo)存在姿態(tài)機動能力的組合體航天器姿態(tài)接管控制問題,設(shè)計基于GPR的學(xué)習(xí)控制策略值得深入探討。
基于上述分析和討論,本文重點研究考慮目標(biāo)存在未知姿態(tài)機動的情況下的組合體航天器姿態(tài)接管學(xué)習(xí)控制策略。首先在服務(wù)航天器姿態(tài)先驗?zāi)P突A(chǔ)上,基于GPR理論從系統(tǒng)輸入/輸出數(shù)據(jù)構(gòu)建模型未知部分的數(shù)據(jù)驅(qū)動概率化模型。進而,考慮到學(xué)習(xí)算法的在軌運算壓力,采用變分推理方法將GPR模型稀疏化,并根據(jù)該稀疏模型設(shè)計變增益反饋控制策略。最后,給出了所提出控制策略的穩(wěn)定性和收斂性證明。
本文考慮的組合體航天器包括3個部分:服務(wù)航天器、目標(biāo)航天器和機械臂,其幾何構(gòu)型如圖1所示,其中,抓捕部位為目標(biāo)星的星箭對接環(huán)。為不失一般性,首先考慮簡化情況:1)兩星之間由輕質(zhì)桿連接;2)機械臂關(guān)節(jié)和抓捕部位在整個操控過程中鎖緊,無相對運動;3)目標(biāo)航天器無姿態(tài)機動能力。此時,組合體航天器可看作剛體,則用四元數(shù)描述的航天器姿態(tài)動力學(xué)為
然而,針對捕獲非合作目標(biāo)后形成的組合體,由于目標(biāo)質(zhì)量特性參數(shù)未知,其轉(zhuǎn)動慣量c是難以精確已知的。另一方面,考慮到目標(biāo)可能尚存姿態(tài)機動能力以及抓捕點處存在相對運動的情況,因而難以通過在軌辨識獲得組合體航天器的精確數(shù)學(xué)模型。由于組合體航天器姿態(tài)模型中服務(wù)航天器的轉(zhuǎn)動慣量已知,可將其作為先驗?zāi)P陀糜诳刂扑惴ǖ脑O(shè)計。
本論文的控制目標(biāo)為,針對模型部分未知以及目標(biāo)航天器存在姿態(tài)機動情況下的系統(tǒng)動力學(xué)(4)。利用在軌運行輸入輸出數(shù)據(jù)建立非參數(shù)化數(shù)據(jù)驅(qū)動模型,并進一步提出基于數(shù)據(jù)驅(qū)動模型的組合體航天器姿態(tài)學(xué)習(xí)控制算法,使得系統(tǒng)狀態(tài)穩(wěn)定快速收斂到平衡點,實現(xiàn)對目標(biāo)航天器的有效姿態(tài)接管。
進一步地,通過極大化對數(shù)邊緣似然函數(shù):
其均值矩陣和方差函數(shù)矩陣分別為
在進行控制算法設(shè)計之前,首先給出所需的引理和假設(shè)如下。
式中:k1、k2、k1、k2均為正常數(shù)。
則基于稀疏變分高斯過程的控制律可設(shè)計為
本節(jié)的主要結(jié)果在定理1中給出。
證 將控制律(28)代入動力學(xué)方程(3)中,得到閉環(huán)系統(tǒng):
考慮Lyapunov候選函數(shù)為
進而根據(jù)Cauchy-Schwartz不等式,可得:
進一步結(jié)合引理2,有下式成立:
其中,
式中:sup(·)為函數(shù)的上確界。
進一步可得四元數(shù)矢量部分的上界為
圖2 PD控制律激勵下GP模型響應(yīng)曲線及95%置信區(qū)間
圖3 PD控制律激勵下GP模型回歸誤差絕對值
同時,標(biāo)準GP和SVGP(粗體表示)在不同容量的數(shù)據(jù)集上的學(xué)習(xí)效果在訓(xùn)練時間和回歸誤差方面的量化對比見表1。由于訓(xùn)練階段的計算量與數(shù)據(jù)集容量之間呈立方相關(guān),隨著數(shù)據(jù)集容量從500增加到2 000,標(biāo)準GP訓(xùn)練所需時間從6.31 s顯著增長到303.78 s,而稀疏GP模型的訓(xùn)練時間僅從1.56 s增加到3.64 s,但仍保持了與標(biāo)準GP相當(dāng)水平的均方誤差。在實際應(yīng)用中,數(shù)據(jù)集容量的大小是計算量與回歸精度之間的權(quán)衡。
表1 GP訓(xùn)練時間、回歸精度與數(shù)據(jù)集容量之間關(guān)系
本小節(jié)進一步給出所提出算法在線應(yīng)用的仿真結(jié)果。假設(shè)目標(biāo)航天器在整個姿態(tài)接管任務(wù)過程中始終進行主動姿態(tài)機動:當(dāng)服務(wù)航天器對目標(biāo)航天器施加姿態(tài)控制力矩使其偏離初始姿態(tài)指向時,目標(biāo)航天器將對該力矩產(chǎn)生“對抗”控制力矩。此時,未知模型不確定性中包含2部分:1)除標(biāo)稱剛體模型外的未知姿態(tài)動力學(xué);2)因目標(biāo)航天器自身姿態(tài)指向偏移期望值,其產(chǎn)生的姿態(tài)對抗力矩對整個組合體航天器造成的附加姿態(tài)動力學(xué)。目標(biāo)航天器的主動姿態(tài)控制律選為PD形式:
圖5 服務(wù)航天器姿態(tài)角速度
圖6 服務(wù)航天器姿態(tài)控制力矩
可以看到,在目標(biāo)存在如式(42)所示PD控制形式的主動姿態(tài)機動力矩以及未知模型不確定性的作用下,2種控制算法均可實現(xiàn)姿態(tài)鎮(zhèn)定的目標(biāo)。從圖4和圖5可得,本文提出的基于稀疏GP的學(xué)習(xí)控制律無論是在動態(tài)響應(yīng)還是穩(wěn)態(tài)誤差都較于基準控制律得到了明顯的提升,最后可以使得狀態(tài)收斂至更小的集合內(nèi)。這主要取決于GP模型補償機制的引入,因而目標(biāo)姿態(tài)機動力矩和模型未知部分可以在控制律中被有效補償。
姿態(tài)重機動后標(biāo)準GP模型響應(yīng)如圖7所示。當(dāng)組合體航天器姿態(tài)機動至訓(xùn)練集之外的區(qū)域時,GP的預(yù)測方差(由陰影填充的95%置信區(qū)間表示)顯著增加,表示當(dāng)前GP的預(yù)測均值與實際未知函數(shù)值之間具有較大誤差,這也使得本文提出的基于GP的學(xué)習(xí)控制算法的反饋增益適當(dāng)增大以進一步抵抗模型誤差帶來的負面影響。
圖7 姿態(tài)重機動后標(biāo)準GPR模型響應(yīng)
本文研究了目標(biāo)存在未知姿態(tài)機動特性的空間非合作目標(biāo)捕獲后的姿態(tài)接管控制問題。針對捕獲后的姿態(tài)鎮(zhèn)定問題,同時考慮到在軌任務(wù)的實時性、星載計算機的計算資源有限等因素,提出了一種基于稀疏GP的姿態(tài)接管學(xué)習(xí)控制策略,其反饋控制增益的大小可隨GP模型的置信度而自適應(yīng)地變化,并證明了系統(tǒng)狀態(tài)可以實現(xiàn)概率意義上的最終一致有界收斂到平衡點附近的鄰域內(nèi)。相比于現(xiàn)有研究方法,本文所提出的控制策略可避免耗時的在軌模型精確辨識過程,同時對測量噪聲、外界干擾、目標(biāo)主動姿態(tài)機動具有較強的魯棒性,可有效支撐在軌任務(wù)的高效處理。
[1] 楊自鵬,胡聲超,周佑君,等.多任務(wù)在軌服務(wù)模塊化智能航天器技術(shù)研究[J].宇航總體技術(shù),2019,3(4):15-20.
[2] 龔自正,徐坤博,牟永強,等.空間碎片環(huán)境現(xiàn)狀與主動移除技術(shù)[J].航天器環(huán)境工程,2014,31(2):129-135.
[3] 肖余之,靳永強,陳歡龍,等.在軌服務(wù)若干關(guān)鍵技術(shù)研究進展[J].上海航天(中英文),2021,38(3):85-95.
[4] LEBLOND P, LE BERRE F. ATV mission operations-system testing and operability with space network system[C]// Proceedings the 24th AIAA International Communications Satellite Systems Conference. Reston, USA: AIAA Press, 2006: 2006-5407.
[5] ODA M. Experiences and lessons learned from the ETS?Ⅶ robot satellite[C]// Proceedings of the International Conference on Robotics and Automation. Washington D.C., USA: IEEE Press, 2000: 914-919.
[6] LIU H, LI Z, LIU Y, et al. Key technologies of TianGong-2 robotic hand and its on-orbit experiments[J]. Scientia Sinica Technologica, 2018, 48(12):1313-1320.
[7] FLORES-ABAD A, CRAIN A, NANDAYAPA M, et al. Disturbance observer-based impedance control for a compliance capture of an object in space[C]// Proceedings of AIAA Guidance, Navigation, and Control Conference. Reston, USA: AIAA Press, 2018: 1329.
[8] HOVELL K, ULRICH S. Postcapture dynamics and experimental validation of subtethered space debris[J]. Journal of Guidance, Control, and Dynamics, 2017, 41(2):519-525.
[9] WANG Z, YUAN J, CHE D. Adaptive attitude takeover control for space non-cooperative targets with stochastic actuator faults[J]. Optik, 2017, 137: 279-290.
[10] ZHAO Q, DUAN G. Concurrent learning adaptive finite-time control for spacecraft with inertia parameter identi?cation under external disturbance[J]. IEEE Transactions on Aerospace and Electronic Systems, 2021, 57(6): 3691-3704.
[11] GUO X, TIAN M, LI Q, et al. Multiple-fault diagnosis for spacecraft attitude control systems using RBFNN-based observers[J]. Aerospace Science and Technology, 2020, 106: 106195.
[12] CHEN B, WU C, JAN Y. Adaptive fuzzy mixed2/∞attitude control of spacecraft[J]. IEEE Transactions on Aerospace and Electronic Systems, 2000, 36(4): 1343-1359.
[13] WILLIAMS C K, RASMUSSEN C E. Gaussian processes for regression[C]// NIPS. 1995: 2877073.
[14] BECKERS T, KULI? D, HIRCHE S. Stable gaussian process based tracking control of Euler-lagrange systems[J]. Automatica, 2019, 103: 390-397.
[15] LIU Y, TóTH R. Learning based model predictive control for quadcopters with dual gaussian process[C]// 60th IEEE Conference on Decision and Control. Washington D.C., USA: IEEE Press, 2021: 1515-1522.
[16] PENG H, BAI X. Gaussian processes for improving orbit prediction accuracy[J]. Acta Astronautica, 2019, 161: 44-56.
[17] 龐夢非,朱春艷,張美艷,等.具有不確定性連接剛度的太陽電池陣基頻分析[J].上海航天(中英文), 2017,34(6):103-108.
[18] MILLER K. On the inverse of the sum of matrices[J]. Mathematics Magazine, 1981, 54(2): 67-72.
[19] THEODORIDIS S. Machine learning: a Bayesian and optimization perspective[M]. London, United Kingdom:Academic Press, 2015.
[20] BLEI D M, KUCUKELBIR A, MCAULIFFE J D. Variational inference: a review for statisticians[J]. Journal of the American statistical Association, 2017, 112(518):859-877.
[21] STEINWART I, CHRISTMANN A. Support vector machines[M]. Berlin, Germany: Springer Science & Business Media, 2008.
[22] DEISENROTH M, RASMUSSEN C E. PILCO: a model-based and data-e?cient approach to policy search[C]//Proceedings of the 28th International Conference on Machine Learning. New York, USA: ACM Press, 2011:465-472.
Gaussian Process Regression-Based Learning Control for Combined Spacecraft Attitude Takeover
MAGuangfu, LIUYuhan, LYUYueyong, GUOYanning
(Department of Control Science and Engineering, Harbin Institute of Technology, Harbin 150001, Heilongjiang, China)
Non-cooperative targets generally have the characteristics of complex structures, unknown inertia matrices, unknown attitude maneuverability, etc., which make the combined spacecraft attitude dynamics present highly nonlinear and strong coupling performances and hard to be accurately identified on orbit. In this paper, a sparse Gaussian process regression (GPR) based attitude takeover control strategy is proposed for the combined spacecraft after capturing a non-cooperative target with active maneuverability. Firstly, the costly on-orbit identification is avoided, while only the I/O data collected during the on-board operation is utilized to obtain a sparse GPR model to rapidly compensate the unknown dynamics. Then, a novel adaptive feedback gain control strategy is presented according to the learnt model, and the rigorous theoretical proof of all related closed-loop uniform ultimate bounded (UUB) stability guarantees is provided. It is shown that the proposed strategy can significantly reduce the on-board computational load while ensuring the control accuracy. Finally, numerical simulations are carried out to validate the effectiveness and practical value of the proposed strategy.
combined spacecraft; attitude takeover; non-cooperative target; Gaussian process; learning-based control
2022?04?29;
2022?06?17
國家自然科學(xué)基金(61973100,61876050,12150008);空間智能控制技術(shù)實驗室開放基金課題(HTKJ2022KL502012)
馬廣富(1963—),男,博士,教授,主要研究方向為在軌服務(wù)、航天器姿態(tài)控制和智能控制。
呂躍勇(1983—),男,博士,副研究員,主要研究方向為在軌服務(wù)、航天器姿態(tài)控制和智能控制。
TP 273
A
10.19328/j.cnki.2096?8655.2022.04.004