陳嘉文,程月華,姜 斌,陸寧云,楊天社
(1.南京航空航天大學(xué)自動(dòng)化學(xué)院,南京 211106;2. 南京航空航天大學(xué)航天學(xué)院,南京 210016;3. 約克大學(xué)機(jī)械工程系,多倫多M3J 1P3;4. 航天器故障診斷與在軌維修重點(diǎn)實(shí)驗(yàn)室,西安 710043)
面向任務(wù)約束的航天器姿控系統(tǒng)在軌重構(gòu)算法
陳嘉文1,程月華2,3,姜 斌1,陸寧云1,楊天社4
(1.南京航空航天大學(xué)自動(dòng)化學(xué)院,南京 211106;2. 南京航空航天大學(xué)航天學(xué)院,南京 210016;3. 約克大學(xué)機(jī)械工程系,多倫多M3J 1P3;4. 航天器故障診斷與在軌維修重點(diǎn)實(shí)驗(yàn)室,西安 710043)
針對(duì)任務(wù)約束下的航天器姿態(tài)控制系統(tǒng)(ACS)在軌重構(gòu)問(wèn)題,提出了一種基于自適應(yīng)動(dòng)態(tài)規(guī)劃(ADP)的在軌重構(gòu)算法。首先,綜合考慮航天器在軌任務(wù)約束條件設(shè)計(jì)效用函數(shù)和性能指標(biāo)函數(shù),獲得離散Hamilton-Jacobian-Bellman(HJB)方程形式的最優(yōu)重構(gòu)策略。其次,采用執(zhí)行依賴啟發(fā)式動(dòng)態(tài)規(guī)劃(ADHDP)方法近似求解HJB方程,避免了直接求解HJB方程的“維數(shù)災(zāi)難”問(wèn)題。通過(guò)簡(jiǎn)化設(shè)計(jì)ADHDP執(zhí)行網(wǎng)絡(luò),提高了迭代訓(xùn)練速度;同時(shí)在訓(xùn)練中引入ε-greedy因子,避免了訓(xùn)練算法過(guò)早陷入局部最優(yōu)解。仿真結(jié)果驗(yàn)證了所提方法的有效性。
姿態(tài)控制系統(tǒng)(ACS);在軌重構(gòu);任務(wù)約束;自適應(yīng)動(dòng)態(tài)規(guī)劃(ADP)
隨著航天技術(shù)的進(jìn)步以及在軌運(yùn)行航天器數(shù)量的不斷增加,及時(shí)發(fā)現(xiàn)故障,并采取合理措施,確保航天器的安全穩(wěn)定運(yùn)行,已成為航天器在軌管理的重點(diǎn)[1-3]。航天器地面可觀測(cè)弧段有限,在軌衛(wèi)星一旦發(fā)生故障,平臺(tái)失穩(wěn),即使只有幾分鐘、十幾分鐘,都可能會(huì)導(dǎo)致整個(gè)飛行任務(wù)的失敗[4]。為確保航天器在軌任務(wù)順利實(shí)施,姿態(tài)控制系統(tǒng)應(yīng)具備自主在軌重構(gòu)能力。在軌重構(gòu)控制不但可以增強(qiáng)航天器的故障應(yīng)對(duì)能力,降低地面測(cè)控人力物力成本,還可以提高其任務(wù)完成能力,最大化利用平臺(tái)資源。
目前,國(guó)內(nèi)外已有許多針對(duì)航天器姿態(tài)重構(gòu)控制技術(shù)的研究。文獻(xiàn)[5]考慮系統(tǒng)資源、性能等多約束條件,建立了基于組合賦權(quán)法的衛(wèi)星可重構(gòu)性綜合評(píng)價(jià)方法。文獻(xiàn)[6]提出了一種基于交互式多模型(IMM)的衛(wèi)星姿態(tài)控制系統(tǒng)故障檢測(cè)與診斷(FDD)方法。文獻(xiàn)[7]采用IMM算法獲得故障位置和模型,同時(shí)利用特征結(jié)構(gòu)配置進(jìn)行重構(gòu)控制,實(shí)現(xiàn)了衛(wèi)星姿控系統(tǒng)FDD與控制重構(gòu)的整合設(shè)計(jì)。文獻(xiàn)[8]針對(duì)反作用飛輪故障提出了一種故障檢測(cè)與恢復(fù)方案,先采用狀態(tài)空間法和非線性參數(shù)神經(jīng)網(wǎng)絡(luò)(NLPNN)辨識(shí)未知故障,再將故障估計(jì)結(jié)果應(yīng)用于重構(gòu)控制器。
現(xiàn)有成果大多聚焦于容錯(cuò)控制器設(shè)計(jì),利用系統(tǒng)的解析冗余關(guān)系,采用基于模型的方法重構(gòu)控制器從而達(dá)到容錯(cuò)目的[9]。而基于任務(wù)約束的航天器故障系統(tǒng)重構(gòu)控制鮮有研究。對(duì)于在軌航天器而言,故障情況下系統(tǒng)所處的工作狀態(tài)及工作模式不同,其控制系統(tǒng)的重構(gòu)決策應(yīng)區(qū)別對(duì)待[10]。在系統(tǒng)按預(yù)定計(jì)劃實(shí)施重要科學(xué)任務(wù)時(shí),發(fā)生微小故障,若系統(tǒng)不顧當(dāng)前任務(wù)約束,武斷實(shí)施系統(tǒng)重構(gòu),則會(huì)因此改變系統(tǒng)狀態(tài),也許造成資源浪費(fèi),甚至帶來(lái)負(fù)面影響。而在有些故障情形下,需要對(duì)故障進(jìn)行危害評(píng)估,若不及時(shí)有效處理故障,則可能會(huì)因?yàn)楣收显谙到y(tǒng)傳播而導(dǎo)致系統(tǒng)控制性能惡化,甚至威脅平臺(tái)的安全性。為此,系統(tǒng)在軌重構(gòu)控制需要綜合考慮任務(wù)約束和系統(tǒng)配置等因素,根據(jù)系統(tǒng)當(dāng)前狀態(tài)信息,實(shí)現(xiàn)自主最優(yōu)決策,減小航天器與地面進(jìn)行信息交互的代價(jià),提高其任務(wù)完成能力和故障應(yīng)對(duì)能力[11-12]。
本文將針對(duì)執(zhí)行機(jī)構(gòu)故障情況下的航天器姿態(tài)控制系統(tǒng),采用自適應(yīng)動(dòng)態(tài)規(guī)劃(Adaptive dynamic programming,ADP)算法,研究基于在軌任務(wù)約束下的重構(gòu)控制技術(shù),旨在為航天器在軌重構(gòu)提供有效的實(shí)施手段和理論支持。自1977年Werbos[13]首次提出ADP方法以來(lái),該方法獲得了越來(lái)越廣泛的關(guān)注,已成為計(jì)算智能領(lǐng)域的一大研究熱點(diǎn)[14]。ADP基于增強(qiáng)學(xué)習(xí)的思想,采用迭代學(xué)習(xí)算法訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)以近似求解Hamilton-Jacobian-Bellman(HJB)方程,避免了傳統(tǒng)動(dòng)態(tài)規(guī)劃方法“維數(shù)災(zāi)難”的問(wèn)題,是一種解決高維復(fù)雜系統(tǒng)最優(yōu)控制問(wèn)題的有效方法[14-17]。本文綜合考慮航天器在軌任務(wù)約束條件設(shè)計(jì)效用函數(shù)和性能指標(biāo)函數(shù),評(píng)估比較故障情形下不同重構(gòu)方案的優(yōu)劣,獲得離散 HJB方程形式的最優(yōu)重構(gòu)策略。針對(duì)HJB方程難以精確求解的問(wèn)題,采用執(zhí)行依賴啟發(fā)式動(dòng)態(tài)規(guī)劃(Action-dependent heuristic dynamic programming, ADHDP)方法獲得HJB方程的近似解,得到故障情況下基于系統(tǒng)當(dāng)前狀態(tài)和任務(wù)約束的最優(yōu)在軌重構(gòu)策略。
為了滿足高可靠性的要求,航天器姿態(tài)控制系統(tǒng)在設(shè)計(jì)時(shí)通常了采用硬件功能冗余設(shè)計(jì)。功能冗余系統(tǒng)通過(guò)不同硬件組合,形成多種配置方案,不同配置方案的實(shí)施代價(jià)各有差異。故障情況下,需要根據(jù)故障情況和實(shí)際需求,實(shí)現(xiàn)姿態(tài)控制系統(tǒng)的最優(yōu)重構(gòu)。在軌重構(gòu)系統(tǒng)結(jié)構(gòu)如圖1所示。
圖1 在軌重構(gòu)系統(tǒng)結(jié)構(gòu)Fig.1 The on-orbit reconfiguration system structure
在軌重構(gòu)模塊主要包括兩個(gè)部分:在軌重構(gòu)決策模塊和在軌重構(gòu)執(zhí)行模塊。在故障發(fā)生后,在軌重構(gòu)模塊根據(jù)故障診斷結(jié)果和任務(wù)約束條件,確定一個(gè)系統(tǒng)重構(gòu)指令序列,恢復(fù)航天器姿控系統(tǒng)的性能,從而繼續(xù)執(zhí)行既定任務(wù);在無(wú)法繼續(xù)執(zhí)行任務(wù)的情況下,終止任務(wù)的執(zhí)行并進(jìn)入安全模式,等待地面測(cè)控人員介入處理。故障情形下,姿態(tài)重構(gòu)控制與任務(wù)目標(biāo)密切相關(guān)。姿控系統(tǒng)的重構(gòu)以任務(wù)實(shí)施為設(shè)計(jì)目標(biāo),設(shè)計(jì)約束包括以下幾個(gè)方面:
1)精度約束:空間科學(xué)任務(wù)的執(zhí)行對(duì)航天器平臺(tái)指向精度有特定要求。如對(duì)地成像任務(wù),對(duì)航天器對(duì)地指向姿態(tài)、穩(wěn)定度需在限定范圍內(nèi)。
2)控制能耗約束:星載能源有限,蓄電池充放電周期受軌道光照及地影影響,推進(jìn)劑類消耗型能源星載攜帶亦十分有限??刂颇芎氖侵萍s系統(tǒng)重構(gòu)及任務(wù)實(shí)施的重要約束因素。
3)任務(wù)優(yōu)先級(jí)約束:對(duì)于優(yōu)先級(jí)高的任務(wù),需以任務(wù)的實(shí)施為最高目標(biāo),適當(dāng)放寬能耗約束;對(duì)于某些特殊任務(wù),甚至可以不顧平臺(tái)安全性堅(jiān)持執(zhí)行任務(wù)。而對(duì)于一些優(yōu)先級(jí)低的任務(wù),則應(yīng)優(yōu)先保障平臺(tái)安全性,實(shí)施系統(tǒng)重構(gòu),選擇放棄當(dāng)前任務(wù)。
在軌重構(gòu)系統(tǒng)旨在實(shí)現(xiàn)任務(wù)約束下的最優(yōu)重構(gòu)決策。當(dāng)系統(tǒng)故障發(fā)生后,在軌重構(gòu)模塊利用故障診斷模塊提供的故障信息,綜合指向精度、控制能耗、任務(wù)優(yōu)先級(jí)等約束條件做出最優(yōu)重構(gòu)決策,使系統(tǒng)恢復(fù)到可以執(zhí)行任務(wù)的控制性能,并且滿足任務(wù)約束條件;在無(wú)法繼續(xù)執(zhí)行任務(wù)的情況下,終止任務(wù)的執(zhí)行并進(jìn)入安全模式,等待地面測(cè)控人員介入處理。
本節(jié)將對(duì)系統(tǒng)狀態(tài)進(jìn)行定義,并設(shè)計(jì)在軌重構(gòu)的效用函數(shù)和性能指標(biāo)函數(shù),獲得最優(yōu)重構(gòu)策略的HJB方程;然后給出近似求解HJB方程的ADHDP方法。
2.1系統(tǒng)狀態(tài)與性能指標(biāo)函數(shù)
系統(tǒng)狀態(tài)是在軌重構(gòu)模塊進(jìn)行決策的依據(jù)。重構(gòu)模塊從故障發(fā)生時(shí)刻開(kāi)始決策,設(shè)重構(gòu)決策窗口長(zhǎng)度為W,決策周期為T,則整個(gè)決策窗口可以劃分為N=W/T個(gè)時(shí)間段。將系統(tǒng)狀態(tài)sk∈S定義為
(1)
在軌重構(gòu)決策模塊的輸出動(dòng)作ak定義為
(2)
(3)
在第k時(shí)刻,在軌重構(gòu)模塊根據(jù)系統(tǒng)狀態(tài)sk選擇并執(zhí)行最優(yōu)重構(gòu)策略ak,系統(tǒng)隨之轉(zhuǎn)移到狀態(tài)sk+1,在軌重構(gòu)模塊再執(zhí)行ak+1…重復(fù)此過(guò)程,便得到一個(gè)動(dòng)作序列{ak,ak+1,…,aN}。在軌重構(gòu)模塊的任務(wù)便是貫序決策問(wèn)題,確定一個(gè)策略π:S→A,它基于當(dāng)前觀察到的狀態(tài)sk選擇下一步動(dòng)作ak,即π(sk)=ak。最優(yōu)的重構(gòu)策略應(yīng)在任務(wù)約束下具有最優(yōu)性能指標(biāo)。性能指標(biāo)函數(shù)定義為
(4)
式中:γ折扣因子,滿足0<γ≤1;U(sk,ak)為ADP方法的效用函數(shù),表示在sk狀態(tài)下執(zhí)行動(dòng)作ak的代價(jià)。效用函數(shù)U(sk,ak)定義為
U(sk,ak)=αE(sk,ak)+βC(sk,ak)+λρG(sk,ak)
(5)
式中:E(sk,ak)為控制誤差項(xiàng);C(sk,ak)為控制能耗項(xiàng);G(sk,ak)為任務(wù)執(zhí)行項(xiàng);α,β,λ為常數(shù)權(quán)值;ρ∈{1,2,3,4,5}為任務(wù)優(yōu)先級(jí),ρ越大,任務(wù)越重要。
控制誤差項(xiàng)E(sk,ak)和控制能耗項(xiàng)C(sk,ak)分別定義為
(6)
式中:Q和R為正定矩陣;e(τ)=x(τ)-r(τ)為系統(tǒng)姿態(tài)x(τ)與期望姿態(tài)r(τ)之間的誤差;u(τ)為控制輸入。
任務(wù)執(zhí)行項(xiàng)G(sk,ak)定義為
(7)
注2. 姿態(tài)信息xk并不直接用于計(jì)算效用函數(shù)U(sk,ak)。因?yàn)樵谙到y(tǒng)狀態(tài)sk中,姿態(tài)信息xk屬于連續(xù)變量,而其它各項(xiàng)均為離散變量,它們之間不能直接混用。效用函數(shù)U(sk,ak)表示執(zhí)行重構(gòu)策略ak的代價(jià),它關(guān)心的不是系統(tǒng)絕對(duì)姿態(tài)信息,而是姿態(tài)指向誤差和能耗。通過(guò)式(6)計(jì)算一個(gè)決策周期內(nèi)的控制誤差和控制能耗,再代入式(5)計(jì)算重構(gòu)代價(jià)。
定義最優(yōu)性能指標(biāo)J*(sk)為
(8)
根據(jù)Bellman最優(yōu)性原理[18],最優(yōu)性能指標(biāo)函數(shù)J*(sk)可以通過(guò)求解如下離散HJB方程獲得
(9)
對(duì)應(yīng)的最優(yōu)重構(gòu)策略π*(sk)為
(10)
2.2自適應(yīng)動(dòng)態(tài)規(guī)劃方法
上述最優(yōu)性能指標(biāo)J*(sk)難以精確求解,本文使用ADHDP方法(也稱Q-Learning方法[19])實(shí)現(xiàn)J*(sk)的近似求解。
首先,定義Q函數(shù)
Q(sk,ak)=U(sk,ak)+γJ*(sk+1)
(11)
該Q函數(shù)的含義為:從狀態(tài)sk開(kāi)始,首先執(zhí)行動(dòng)作ak,以后每步都遵循最優(yōu)策略,得到性能指標(biāo)函數(shù)的值。結(jié)合式(10)和式(11),可以得到Q函數(shù)形式的最優(yōu)重構(gòu)策略
(12)
Q函數(shù)與最優(yōu)性能指標(biāo)J*之間存在著密切的聯(lián)系。注意到
(13)
由式(11)和式(13)可得
(14)
式(14)是迭代法逼近Q函數(shù)的基礎(chǔ)。
ADHDP結(jié)構(gòu)如所圖2所示,其主要包含三個(gè)部分:評(píng)價(jià)網(wǎng)絡(luò)、執(zhí)行網(wǎng)絡(luò)和系統(tǒng)模型。評(píng)價(jià)網(wǎng)絡(luò)用于近似Q函數(shù),執(zhí)行網(wǎng)絡(luò)用于近似最優(yōu)重構(gòu)策略π*(sk),系統(tǒng)模型用于對(duì)系統(tǒng)狀態(tài)sk+1進(jìn)行估計(jì)。
圖2 ADHDP結(jié)構(gòu)圖Fig.2 The ADHDP structure
在圖2中,執(zhí)行網(wǎng)絡(luò)的訓(xùn)練目標(biāo)為最小化評(píng)價(jià)網(wǎng)絡(luò)的輸出Q(sk,ak);評(píng)價(jià)網(wǎng)絡(luò)的訓(xùn)練目標(biāo)為最小化Q值近似誤差Ed。Ed定義為
(15)
式中:
Ec(k)=U(sk,ak)+γQ(sk+1,ak+1)-Q(sk,ak)
(16)
ADHDP的策略迭代過(guò)程為:在故障情況下,系統(tǒng)狀態(tài)為sk,通過(guò)采取重構(gòu)策略執(zhí)行動(dòng)作ak,系統(tǒng)轉(zhuǎn)移到狀態(tài)sk+1。首先迭代更新評(píng)價(jià)網(wǎng)絡(luò)的權(quán)值直至網(wǎng)絡(luò)收斂;然后迭代更新執(zhí)行網(wǎng)絡(luò)的權(quán)值,使得評(píng)價(jià)網(wǎng)絡(luò)輸出Q(sk,ak)最小。當(dāng)評(píng)價(jià)網(wǎng)絡(luò)輸出滿足Ed<ζ(ζ為足夠小的正常數(shù))后,執(zhí)行網(wǎng)絡(luò)輸出獲得近似最優(yōu)動(dòng)作。
本節(jié)首先進(jìn)行評(píng)價(jià)網(wǎng)絡(luò)設(shè)計(jì)并給出其權(quán)值更新法則;然后針對(duì)執(zhí)行網(wǎng)絡(luò)進(jìn)行簡(jiǎn)化設(shè)計(jì);最后給出ADHDP的迭代訓(xùn)練算法實(shí)現(xiàn)在軌重構(gòu)。
3.1評(píng)價(jià)網(wǎng)絡(luò)與執(zhí)行網(wǎng)絡(luò)設(shè)計(jì)
1)評(píng)價(jià)網(wǎng)絡(luò)
采用隨機(jī)梯度下降法訓(xùn)練評(píng)價(jià)網(wǎng)絡(luò)。輸出層權(quán)值Wco(k)更新法則如下
(17)
(18)
定義隱藏層神經(jīng)元j的誤差項(xiàng)δj為
(19)
式中:δl為近似誤差Ec(k)的第l項(xiàng),n為輸出層神經(jīng)元個(gè)數(shù)。
隱藏層權(quán)值更新法則如下
Δwji=ηcδjxji
(20)
wji=wji+Δwji
(21)
式中:xji和wji分別為輸入層神經(jīng)元i到隱藏層神經(jīng)元j的輸入和權(quán)值。
2)執(zhí)行網(wǎng)絡(luò)
該簡(jiǎn)化設(shè)計(jì)避免了對(duì)執(zhí)行網(wǎng)絡(luò)的訓(xùn)練,因此僅需要訓(xùn)練評(píng)價(jià)網(wǎng)絡(luò),從而有效提高ADHDP的訓(xùn)練效率。
3.2改進(jìn)的迭代學(xué)習(xí)算法
神經(jīng)網(wǎng)絡(luò)訓(xùn)練涉及大量的參數(shù)調(diào)整,容易陷入局部極值。當(dāng)圖2中的評(píng)價(jià)網(wǎng)絡(luò)陷入局部極值,則會(huì)導(dǎo)致近似誤差Ed(k)過(guò)大,決策模塊無(wú)法獲得最優(yōu)重構(gòu)策略。為此,本文參考文獻(xiàn)[20]的方法,引入ε-greedy因子對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。ε-greedy因子表示系統(tǒng)選擇一個(gè)隨機(jī)動(dòng)作的概率。將ε從1退火到0。在迭代的初期,系統(tǒng)傾向選擇隨機(jī)動(dòng)作,到了后期,系統(tǒng)傾向選用決策算法做出的決策。改進(jìn)的迭代學(xué)習(xí)算法如下:
1) 使用隨機(jī)權(quán)值初始化評(píng)價(jià)網(wǎng)絡(luò);
2) 初始化ε,d,N,V;
3) 令k=1,v=1;
4) 生成一個(gè)隨機(jī)值r∈[0,1],按照下式選擇k時(shí)刻的動(dòng)作ak
(22)
5) 按照式(5)計(jì)算效用函數(shù)U(sk,ak);
6) 按照下式選擇k+1時(shí)刻的動(dòng)作ak+1并獲得對(duì)應(yīng)的Q(sk+1,ak+1)
(23)
7)按照式(17)~(21)更新評(píng)價(jià)網(wǎng)絡(luò)權(quán)值直至網(wǎng)絡(luò)收斂;
8)若ε>0,按照下式更新ε
(24)
9)令k←k+1。若k>N,則令k=1,v=v+1。若v>V,則結(jié)束訓(xùn)練;否則,返回步驟4。
本節(jié)將采用南京航空航天大學(xué)“TX-1”微小衛(wèi)星[21]參數(shù)建立仿真模型,開(kāi)展執(zhí)行機(jī)構(gòu)故障情況下的在軌重構(gòu)算法驗(yàn)證。
4.1參數(shù)設(shè)置
衛(wèi)星姿態(tài)控制系統(tǒng)配置了四個(gè)反作用飛輪,采用四斜裝的安裝方式,安裝角ξ=45°,相對(duì)俯仰軸φ=54.74°,依次編號(hào)W1,W2,W3,W4,如圖3所示。
圖3 四斜裝飛輪示意圖Fig.3 The four wheels in a tetrahedral configuration
與之對(duì)應(yīng)的故障因子Fk
(25)
可用配置方案集合A
A={A0,A1,A2,A3,A4}
(26)
配置方案描述見(jiàn)表1。
表1 配置方案描述Table 1 The description of reconfiguration policies
折扣因子γ和評(píng)價(jià)網(wǎng)絡(luò)學(xué)習(xí)率ηc設(shè)置見(jiàn)表2。
表2 仿真參數(shù)設(shè)置Table 2 The simulation parameters
飛輪具有不同性能指標(biāo),故不同配置方案下指向精度有所差別。各配置方案指向精度見(jiàn)表3。
表3 指向精度Table 3 The control precisions
4.2結(jié)果分析
本節(jié)將通過(guò)4個(gè)案例來(lái)闡述所提出的在軌重構(gòu)算法的有效性和合理性。4個(gè)案例的任務(wù)參數(shù)見(jiàn)表4。
表4 任務(wù)參數(shù)Table 4 The mission parameters
案例1.某任務(wù)時(shí)間窗口為H=[12,20),即從t=12 min開(kāi)始,到t=20 min結(jié)束;飛輪W2在t=9 min時(shí)發(fā)生30%的增益損失故障,即
(27)
圖4和圖5分別為在軌重構(gòu)決策結(jié)果和評(píng)價(jià)網(wǎng)絡(luò)輸出曲線。在任意時(shí)刻,配置方案A0均具有更小的Q值。因此,在故障發(fā)生后,系統(tǒng)維持A0配置方案,無(wú)需進(jìn)行重構(gòu)。由于指向精度滿足任務(wù)要求,可以繼續(xù)執(zhí)行任務(wù)。
圖4 案例1在軌重構(gòu)決策結(jié)果Fig.4 The on-orbit reconfiguration decision of case 1
圖5 案例1評(píng)價(jià)網(wǎng)絡(luò)輸出曲線Fig.5 The critic network outputs of case 1
圖6和圖7的姿態(tài)曲線證實(shí)了圖4所示決策結(jié)果的合理性。從圖6可以看到,由于故障幅值較小,當(dāng)前所用控制器足以克服故障影響,在t=12 min左右,系統(tǒng)姿態(tài)xk已經(jīng)基本恢復(fù)穩(wěn)定。若在此時(shí)采取重構(gòu),則其姿態(tài)曲線如圖7所示,在t=12 min時(shí)姿態(tài)xk會(huì)出現(xiàn)明顯振蕩。此案例中故障發(fā)生時(shí)間距離任務(wù)窗口H只有3 min,重構(gòu)過(guò)程的姿態(tài)振蕩會(huì)影響任務(wù)的執(zhí)行。因此,此時(shí)不進(jìn)行重構(gòu)是一個(gè)更合理的決策。
圖6 故障后不實(shí)施重構(gòu)系統(tǒng)姿態(tài)曲線Fig.6 The attitude curves without configuration
圖7 故障后立即重構(gòu)的姿態(tài)曲線Fig.7 The attitude curves with immediate reconfiguration
案例2.某任務(wù)時(shí)間窗口為H=[19,27);飛輪W2在t=9 min時(shí)發(fā)生50%的增益損失故障,即
(28)
圖8 案例2在軌重構(gòu)決策結(jié)果Fig.8 The on-orbit reconfiguration decision of case 2
圖9 案例2評(píng)價(jià)網(wǎng)絡(luò)輸出曲線Fig.9 The critic network outputs of case 2
案例3.某任務(wù)時(shí)間窗口為H=[19,27);飛輪W2在t=9 min時(shí)發(fā)生50%的增益損失故障,故障描述如式(28)。
圖10和圖11分別為案例3的在軌重構(gòu)決策結(jié)果和評(píng)價(jià)網(wǎng)絡(luò)輸出曲線。在此案例中,系統(tǒng)可以通過(guò)重構(gòu)切換至配置方案A0,使得指向精度滿足任務(wù)要求。但是,由于任務(wù)能耗需求大,而任務(wù)優(yōu)先級(jí)低,若進(jìn)行系統(tǒng)重構(gòu),會(huì)帶來(lái)較大能耗上的代價(jià)。從圖11可以看到,在滿足任務(wù)約束時(shí),配置方案A0具有更小的Q值,不進(jìn)行系統(tǒng)重構(gòu)。故障發(fā)生后,若不進(jìn)行重構(gòu),則指向精度已不能滿足任務(wù)要求,故任務(wù)取消,系統(tǒng)進(jìn)入安全模式。
圖10 案例3在軌重構(gòu)決策結(jié)果Fig.10 The on-orbit reconfiguration decision of case 3
圖11 案例3評(píng)價(jià)網(wǎng)絡(luò)輸出曲線Fig.11 The critic network outputs of case 3
案例4.某任務(wù)時(shí)間窗口為H=[19,27);飛輪W2在t=9 min時(shí)發(fā)生50%的增益損失故障,故障描述如式(28)。
圖12和圖13分別為案例4系統(tǒng)在軌重構(gòu)決策結(jié)果和評(píng)價(jià)網(wǎng)絡(luò)輸出曲線。在提高任務(wù)優(yōu)先級(jí)約束之后,面對(duì)更加重要的任務(wù),雖然系統(tǒng)重構(gòu)仍然會(huì)帶來(lái)較大的能耗代價(jià),但配置方案A2具有更小的Q值,系統(tǒng)為完成重要任務(wù),不惜消耗較大的能量進(jìn)行系統(tǒng)重構(gòu)。
圖12 案例4在軌重構(gòu)決策結(jié)果Fig.12 The on-orbit reconfiguration decision of case 4
圖13 案例4評(píng)價(jià)網(wǎng)絡(luò)輸出曲線Fig.13 The critic network outputs of case 4
由以上仿真分析結(jié)果可知,本文提出的在軌重構(gòu)算法能夠綜合考慮任務(wù)的精度約束、能耗約束和任務(wù)優(yōu)先級(jí)約束,根據(jù)故障診斷信息,做出合理的在軌重構(gòu)決策。面對(duì)幅值較小的故障,為避免系統(tǒng)重構(gòu)導(dǎo)致的姿態(tài)振蕩影響任務(wù)執(zhí)行,系統(tǒng)不進(jìn)行重構(gòu),繼續(xù)完成任務(wù);面對(duì)幅值較大的故障,系統(tǒng)通過(guò)重構(gòu)切換至合適的配置方案,以恢復(fù)姿態(tài)指向精度,滿足任務(wù)需求。面對(duì)優(yōu)先級(jí)較低的任務(wù),系統(tǒng)為減少能源消耗,合理地取消原定任務(wù);面對(duì)優(yōu)先級(jí)較高的任務(wù),系統(tǒng)又不惜付出較大的能耗代價(jià)來(lái)完成任務(wù)。
本文針對(duì)任務(wù)約束下的航天器姿態(tài)控制系統(tǒng)在軌重構(gòu)問(wèn)題,提出了一種基于自適應(yīng)動(dòng)態(tài)規(guī)劃的在軌重構(gòu)優(yōu)化決策算法,并且基于南京航空航天大學(xué)“TX-1”微小衛(wèi)星仿真模型對(duì)所提方法進(jìn)行仿真驗(yàn)證。仿真結(jié)果表明,本文所提出的在軌重構(gòu)算法,能夠在保障航天器安全性不受威脅的前提下,盡可能滿足任務(wù)約束,完成原定任務(wù),從而最大化利用航天器平臺(tái)資源。在工程實(shí)際中,系統(tǒng)重構(gòu)除了要考慮任務(wù)約束外,還需要考慮重構(gòu)時(shí)間等約束,后續(xù)我們將針對(duì)此類課題開(kāi)展進(jìn)一步研究。
[1] Cheng Y H, Jiang B, Fu Y, et al. Robust observer based reliable control for satellite attitude control systems with sensor faults[J]. International Journal of Innovative Computing, Information and Control, 2011, 7(7): 4149-4160.
[2] 姜斌, 冒澤慧, 楊浩, 等. 控制系統(tǒng)的故障診斷與故障調(diào)節(jié)[M]. 北京: 國(guó)防工業(yè)出版社, 2009.
[3] 姜連祥, 李華旺, 楊根慶, 等. 航天器自主故障診斷技術(shù)研究進(jìn)展[J]. 宇航學(xué)報(bào), 2009, 30(4): 1320-1326. [Jiang Lian-xiang, Li Hua-wang, Yang Gen-qing, et al. A survey of spacecraft autonomous fault diagnosis research[J]. Journal of Astronautics, 2009, 30(4): 1320-1326.]
[4] 邢琰, 吳宏鑫, 王曉磊, 等. 航天器故障診斷與容錯(cuò)控制技術(shù)綜述[J]. 宇航學(xué)報(bào), 2003, 24(3): 221-226. [Xing Yan, Wu Hong-xin, Wang Xiao-lei, et al. Survey of fault diagnosis and fault-tolerance control technology for spacecraft[J]. Journal of Astronautics, 2003, 24(3): 221-226.]
[5] 胡宇桑, 王大軼, 劉成瑞. 衛(wèi)星姿控系統(tǒng)可重構(gòu)性綜合評(píng)價(jià)方法研究[J]. 宇航學(xué)報(bào), 2015, 36(5): 549-556. [Hu Yu-sang, Wang Da-yi, Liu Cheng-rui. Reconfigurability comprehensive evaluation for satellite attitude control system[J]. Journal of Astronautics, 2015, 36(5): 549-556.]
[6] Tudoroiu N, Khorasani K. Fault detection and diagnosis for satellite’s attitude control system (ACS) using an interactive multiple model (IMM) approach[C]. Proceedings of 2005 IEEE Conference on Control Applications, Toronto, Canada, August 28-31,2005.
[7] 陳雪芹, 張迎春, 耿云海, 等. 基于IMM/EA的衛(wèi)星姿態(tài)控制系統(tǒng)重構(gòu)容錯(cuò)控制[J]. 系統(tǒng)工程與電子技術(shù), 2007, 29(5): 774-777. [Chen Xue-qin, Zhang Ying-chun, Geng Yun-hai, et al. IMM/EA-based on-orbit reconfigurable fault-tolerant control for satellite attitude control system[J]. Systems Engineering and Electronics, 2007, 29(5): 774-777.]
[8] Talebi H, Patel R. An intelligent fault detection and recovery scheme for reaction wheel actuator of satellite attitude control systems[C]. IEEE International Symposium on Intelligent Control, Munich, Germany, October 4-6,2006.
[9] 樊雯, 程月華, 姜斌, 等. 衛(wèi)星姿態(tài)控制系統(tǒng)的可重構(gòu)性分析[J]. 宇航學(xué)報(bào), 2014, 35(2): 185-191. [Fan Wen, Cheng Yue-hua, Jiang Bin, et al. Reconfigurability analysis for satellite attitude control systems[J]. Journal of Astronautics, 2014, 35(2): 185-191.]
[10] Nasir A, Atkins E, Kolmanovsky I. A mission based fault reconfiguration framework for spacecraft applications[C]. Infotech @Aerospace 2012, Garden Grove, America, June 19-21,2012.
[11] 王曉暉, 李爽. 深空探測(cè)器約束簡(jiǎn)化與任務(wù)規(guī)劃方法研究[J]. 宇航學(xué)報(bào), 2016, 37(7): 768-774. [Wang Xiao-hui, Li Shuang. Research on constraint simplification and mission planning method for deep space explorer[J]. Journal of Astronautics, 2016, 37(7): 768-774.]
[12] 趙凡宇, 徐瑞, 崔平遠(yuǎn). 啟發(fā)式深空探測(cè)器任務(wù)規(guī)劃方法[J]. 宇航學(xué)報(bào), 2015, 36(5): 496-503. [Zhao Fan-yu, Xu Rui, Cui Ping-yuan. Heuristic mission planning approach for deep space explorer[J]. Journal of Astronautics, 2015, 36(5): 496-503.]
[13] Werbos P J. Advanced forecasting methods for global crisis warning and models of intelligence[J]. General Systems Yearbook, 1977, 22(12): 25-38.
[14] 劉德榮, 李宏亮, 王鼎. 基于數(shù)據(jù)的自學(xué)習(xí)優(yōu)化控制: 研究進(jìn)展與展望[J]. 自動(dòng)化學(xué)報(bào), 2013, 39(11): 1858-1870. [Liu De-rong, Li Hong-liang, Wang Ding. Data-based self-learning optimal control: research progress and prospects[J]. Acta Automatica Sinica, 2013, 39(11): 1858-1870.]
[15] 趙冬斌, 劉德榮, 易建強(qiáng). 基于自適應(yīng)動(dòng)態(tài)規(guī)劃的城市交通信號(hào)優(yōu)化控制方法綜述[J]. 自動(dòng)化學(xué)報(bào), 2009, 35(6): 676-681. [Zhao Dong-bin, Liu De-rong, Yi Jian-qiang. An overview on the adaptive dynamic programming based urban city traffic signal optimal control[J]. Acta Automatica Sinica, 2009, 35(6): 676-681.]
[16] Boaro M, Fuselli D, De Angelis F, et al. Adaptive dynamic programming algorithm for renewable energy scheduling and battery management[J]. Cognitive Computation, 2013, 5(2): 264-277.
[17] Fuselli D, De Angelis F, Boaro M, et al. Action dependent heuristic dynamic programming for home energy resource scheduling[J]. International Journal of Electrical Power & Energy Systems, 2013, 48: 148-160.
[18] Bellman R E, Dreyfus S E. Applied dynamic programming[M].Princeton: Princeton University Press, 2015.
[19] Wang F Y, Zhang H G, Liu D R. Adaptive dynamic programming: an introduction[J]. IEEE Computational Intelligence Magazine, 2009, 4(2): 39-47.
[20] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. Nature,2015,518(7540):529-533.
[21] 劉海穎. 微小衛(wèi)星姿態(tài)控制系統(tǒng)關(guān)鍵技術(shù)研究[D]. 南京: 南京航空航天大學(xué), 2008. [Liu Hai-ying. Research on attitude control system key technologies for micro-satellite[D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2008.]
Mission-ConstrainedSpacecraftAttitudeControlSystemOn-OrbitReconfigurationAlgorithm
CHEN Jia-wen1, CHENG Yue-hua2,3, JIANG Bin1, LU Ning-yun1, YANG Tian-she4
(1. College of Automation Engineering, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China;2.College of Astronautics, Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China;3. Department of Mechanical Engineering,York University, Toronto M3J 1P3, Canada;4. Key Laboratory of Spacecraft In-Orbit Fault Diagnosis and Maintenance, Xi’an 710043, China)
An on-orbit reconfiguration algorithm based on adaptive dynamic programming (ADP) is proposed to reconfigurate the controller of a spacecraft attitude control system (ACS) in case of fault with the consideration of the ongoing missions. Firstly, a utility function and a performance index function regarding the scheduled spacecraft mission are designed, and the optimal reconfiguration policy is obtained as a solution of the Hamilton-Jacobian-Bellman(HJB) equation. Secondly, the action-dependent heuristic dynamic programming (ADHDP) approach is used to approximately solve the HJB equation, avoiding the curse of the dimensionality of directly solving HJB. Finally, simplifying the design of the ADHDP action network is conducted to make the iterative training process faster, and theε-greedy factor is introduced in the training process to avoid getting in local minimum too early. Simulation results show the effectiveness of the proposed method.
Attitude control system (ACS); On-orbit reconfiguration; Mission constraints; Adaptive dynamic programming (ADP)
V448
A
1000-1328(2017)09- 0989- 09
10.3873/j.issn.1000-1328.2017.09.012
2017- 04- 21;
2017- 06- 27
國(guó)家自然科學(xué)基金(61673206,61622304);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(2016083);南京航空航天大學(xué)研究生創(chuàng)新基地(實(shí)驗(yàn)室)開(kāi)放基金(kfjj20160315)
陳嘉文(1993-),男,碩士,主要從事航天器姿態(tài)控制系統(tǒng)故障診斷與容錯(cuò)控制研究。
通信地址:江蘇省南京市將軍大道29號(hào)(211106)
電話:(025)84892305-6041
E-mail: ivancjw.xy@gmail.com
姜斌(1966-),男,博士,教授,主要從事復(fù)雜系統(tǒng)的故障診斷與容錯(cuò)控制研究。本文通信作者。
通信地址:江蘇省南京市將軍大道29號(hào)(211106)
電話:(025)84892305-6041
E-mail: binjiang@nuaa.edu.cn