李彥鈴, 羅飛舟, 葛致磊,*
(1. 西北工業(yè)大學(xué)航天學(xué)院, 陜西 西安 710072; 2. 中國運載火箭技術(shù)研究院, 北京 100076)
隨著人類對太空的不斷探索,對運載火箭技術(shù)的要求也逐步提高,迄今為止國內(nèi)運載火箭型號幾乎只能單次使用,而垂直起降技術(shù)的發(fā)展為運載火箭重復(fù)使用開辟了一條新道路[1-2]。垂直起降運載器從提出伊始就受到各國航天機(jī)構(gòu)及科研人員的高度重視,隨之多種垂直起降運載器應(yīng)運而生,如ROOST/ROBOS[3]、Apollo Lunar Module[4]、DC-X/DC-XA[5]、RVT[6]、Falcon系列[7]等。
垂直起降運載器控制系統(tǒng)的設(shè)計是其飛行控制技術(shù)的核心,而姿態(tài)穩(wěn)定是運載器平穩(wěn)飛行的前提。根據(jù)當(dāng)前的研究和工程實踐,穩(wěn)定飛行器姿態(tài)控制是一個復(fù)雜而關(guān)鍵的問題,需要選擇合適的控制策略以實現(xiàn)期望的控制效果[8-9]?;?刂啤⒛P皖A(yù)測控制和魯棒控制等算法被廣泛應(yīng)用于該領(lǐng)域,但存在對模型準(zhǔn)確性和全面性的依賴問題[10-12]。一方面,如果模型表達(dá)不夠準(zhǔn)確或參數(shù)無法精確表達(dá),則這些控制方法可能無法獲得理想的效果;另一方面,過于復(fù)雜的模型也會增加控制器設(shè)計難度。因此,應(yīng)在模型準(zhǔn)確性和復(fù)雜度之間進(jìn)行權(quán)衡并尋找最優(yōu)解。雖然比例-積分-微分(proportional-integral-derivative, PID)控制仍是目前工程上主流控制算法之一,但其抗干擾能力和處理模型不確定性的能力相對較弱[13]。近年來,許多改進(jìn)PID控制方法被提出,其中自適應(yīng)模糊PID控制結(jié)合模糊控制和PID控制的優(yōu)點,被廣泛應(yīng)用于垂直起降無人機(jī)姿態(tài)控制[14-16]。
同時,長細(xì)比的增加降低了運載火箭彎曲模態(tài)的固有頻率,低階彈性振動容易與火箭本身的振動耦合,使控制更加困難,對于高階彈性振動可以設(shè)計陷波濾波器進(jìn)行抑制,但是對于低模態(tài)的彈性振動,特別是振動頻率接近箭體的固有頻率時,彈性振動的抑制比較困難,因此目前低階彈性振動干擾下的箭體姿態(tài)穩(wěn)定問題仍然是航空航天領(lǐng)域的難題[17]。
隨著信息技術(shù)的進(jìn)一步發(fā)展,人工智能技術(shù)的飛速發(fā)展也切實影響到了傳統(tǒng)控制領(lǐng)域?;跈C(jī)器學(xué)習(xí)的智能飛行控制策略成為研究焦點[18]。即使對于不確定的非線性模型,智能控制算法也能實現(xiàn)良好的控制效果,這主要得益于深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性擬合能力[19]。但是通過神經(jīng)網(wǎng)絡(luò)的實現(xiàn)行為克隆的方法有時效果會很差,這是由于網(wǎng)絡(luò)收集的數(shù)據(jù)和正確數(shù)據(jù)不匹配[20]。因此,為了克服監(jiān)督學(xué)習(xí)方法的不足,研究人員提出了深度強(qiáng)化學(xué)習(xí)方法。在2005年,Waslander等人首次將強(qiáng)化學(xué)習(xí)算法應(yīng)用在四旋翼模型飛行控制問題[21]。近些年來,深度強(qiáng)化學(xué)習(xí)已經(jīng)被應(yīng)用于無人機(jī)控制[22]、機(jī)器人控制[23]、自動駕駛[24]以及制導(dǎo)一體化[25]等領(lǐng)域,都取得了出色的效果。然而,上述研究都僅僅停留在仿真環(huán)境中,在真實環(huán)境和仿真環(huán)境之間存在著許多差異,將從仿真環(huán)境中學(xué)習(xí)到的飛機(jī)模型直接應(yīng)用到實際的環(huán)境中會導(dǎo)致許多問題,如精度和穩(wěn)定性下降,這才是研究的難點[26]。
本文主要研究運載器驗證機(jī)在垂直起降階段的俯仰通道的姿態(tài)穩(wěn)定問題,該驗證機(jī)俯仰通道開環(huán)系統(tǒng)的截止頻率ωc=1.8 Hz,根據(jù)帶寬與截止頻率的關(guān)系可得系統(tǒng)帶寬ωb=1.6ωc=2.88 Hz,若是一階振動頻率和系統(tǒng)帶寬相差10倍以上,則完全沒有必要考慮一階振動的影響,使用頻率隔離法就能設(shè)計出滿意的控制器。然而,當(dāng)振動頻率模態(tài)頻率略大于系統(tǒng)帶寬時,彈性振動很難與工作頻率分隔開,此時頻率隔離法不適用,需要研究其他策略[27-28]。經(jīng)過辨識,本文的研究對象一階振動模態(tài)頻率為20.25 rad/s,二階振動模態(tài)頻率為180.88 rad/s,因此對一階振動模態(tài)抑制難以使用頻率隔離法。本文中,首先為了避免歐拉角奇異,以垂向地理坐標(biāo)系作為慣性坐標(biāo)系,建立動力學(xué)和運動學(xué)模型。其次,考慮垂直起降過程中的彈性振動、模型不確定性等干擾因素,設(shè)計基于魯棒觀測器的深度強(qiáng)化學(xué)習(xí)控制策略。設(shè)計魯棒觀測器對姿態(tài)變量與復(fù)雜的彈性振動進(jìn)行重構(gòu),使得彈性振動變量轉(zhuǎn)換為易于控制的具有箭體姿態(tài)特征的附加姿態(tài),并將帶有附加姿態(tài)的重構(gòu)箭體姿態(tài)作為深度強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的輸入,輸出最優(yōu)控制力矩指令,以穩(wěn)定垂直起降運載器驗證機(jī)在垂直起降過程中俯仰姿態(tài)角和彈性振動。本文從仿真和實物上驗證了面對包含彈性振動模型不確定性的復(fù)雜受控系統(tǒng),相較于工程中應(yīng)用廣泛的自適應(yīng)模糊PID控制,本文設(shè)計的控制算法能夠更好地穩(wěn)定火箭姿態(tài)。
本文以實驗室一臺自制的運載火箭驗證機(jī)作為研究對象,該驗證機(jī)是大型運載火箭的合理微型化,如圖1(a)所示,同時為了模擬真實運載火箭在飛行過程中出現(xiàn)的彈性振動干擾,在驗證機(jī)上搭載了彈性艙段,細(xì)節(jié)如圖1(b)所示。
圖1 垂直起降運載器驗證機(jī)Fig.1 Vertical takeoff and landing vehicle validation machine
由于運載器在垂直起降飛行時姿態(tài)角的定義不同于常規(guī)飛行器,為了避免運載器在垂直起降過程中出現(xiàn)的歐拉角奇異問題,本文采用垂向地理坐標(biāo)系(“天東北”,即UEN)作為火箭的慣性參考坐標(biāo)系,如圖2所示。
圖2 垂向地理坐標(biāo)系Fig.2 Vertical geographic coordinate system
(1)
為便于建立運載器垂直起降動力學(xué)模型,本文做出以下假設(shè)。
假設(shè) 1重力加速度不會隨著運載器飛行高度的變化而變化,忽略地球曲率。
假設(shè) 2運載器的構(gòu)型和質(zhì)量分布關(guān)于箭體縱軸對稱,所以慣性積Jxy=Jyz=Jxz=0[29]。
在上述假設(shè)成立的前提下,機(jī)體坐標(biāo)系下繞運載器質(zhì)心轉(zhuǎn)動的動力學(xué)方程如下所示:
(2)
式中:M=[Mx,My,MZ]T為運載器受到的合力矩,且M=Mc+Md,Mc=[Mcx,Mcy,Mcz]T是控制力矩,Md=[Mdx,Mdy,Mdz]T是總的干擾力矩,包括重力力矩、氣動力矩等干擾力矩。
本文研究俯仰通道的控制器的設(shè)計,彈性振動方程如下所示:
(3)
聯(lián)立式(1)~式(3),同時考慮到垂直起降飛行模式下的滾轉(zhuǎn)角非常小,俯仰角速度是影響θv的主要因素,故可得到運載器俯仰通道的動力學(xué)模型如下:
(4)
式中:qi為第i階彈性振動位移;ξi為第i階彈性振動的阻尼比;ωi為第i階彈性振動的振動頻率;D1i為第i階彈性振動和俯仰角的耦合系數(shù);D2i為第i階彈性振動與控制力矩的耦合系數(shù);Qiy是第i階彈性振動受到的廣義干擾力矩。dθv1可以看作俯仰通道的干擾量。
對式(4)兩邊求導(dǎo)可得
(5)
將式(2)中的第2式代入式(5)為
(6)
式中:m表示箭體彈性振動的階數(shù)。
式(6)進(jìn)一步寫為
(7)
式中:
垂直起降運載器俯仰通道姿態(tài)控制器的設(shè)計分為兩個部分:第一部分是魯棒觀測器的設(shè)計,設(shè)計魯棒觀測器使得垂直起降過程中的低階彈性振動成為剛體姿態(tài)的附加姿態(tài)角,實現(xiàn)彈性振動的被動抑制;第二部分設(shè)計深度強(qiáng)化學(xué)習(xí)控制器,將魯棒觀測器輸出的帶有附加姿態(tài)的姿態(tài)角和姿態(tài)角速度作為輸入從而決策出控制指令,作用給環(huán)境。環(huán)境反饋給近端策略優(yōu)化(proximal policy optimization, PPO)智能體下一時刻的狀態(tài)、獎勵信息以及結(jié)束信號,PPO智能體以最大化累計獎勵為目標(biāo),不斷優(yōu)化深度神經(jīng)網(wǎng)絡(luò)參數(shù),實現(xiàn)運載器姿態(tài)穩(wěn)定[30]。這里需要說明的是,此處的附加姿態(tài)角和附加姿態(tài)角速度是中間量,是魯棒觀測器重構(gòu)受彈性振動干擾的姿態(tài)角和姿態(tài)角速度過程中得到的;而帶有附加姿態(tài)的俯仰角和俯仰角速度是魯棒觀測器的輸出量,即為重構(gòu)后的姿態(tài)角和姿態(tài)角速度。
首先設(shè)計魯棒觀測器,將運載器垂直起降過程中的干擾通過魯棒觀測器轉(zhuǎn)換為箭體姿態(tài)的附加姿態(tài)角和附加姿態(tài)角速度,此時魯棒觀測器的輸出是帶有附加姿態(tài)的俯仰角和俯仰角速度,即重構(gòu)后的姿態(tài)角和姿態(tài)角速度,這樣可以使干擾對火箭姿態(tài)控制的影響大大減小。
考慮箭體控制中縱向通道姿態(tài)控制系統(tǒng)具有如下形式:
(8)
引入一個非奇異的變換T,使得
使用SPSS17.0軟件處理數(shù)據(jù)資料,計數(shù)數(shù)據(jù)對比采用x2檢驗,計量數(shù)據(jù)對比采用t檢驗,P<0.05有統(tǒng)計學(xué)意義。
(9)
則方程可轉(zhuǎn)化成
(10)
式中:z是變換后的狀態(tài)向量,由z1和輸出信號y構(gòu)成,z1=-fθv。
根據(jù)參考文獻(xiàn)[17],針對變換后的動態(tài)方程設(shè)計觀測器如下:
(11)
(12)
(13)
可以得到誤差方程:
(14)
定理 1[32]當(dāng)k1,k2,…,kn被正確選擇時,誤差運動是有限時間穩(wěn)定收斂的。
當(dāng)系統(tǒng)存在不確定性,即存在參數(shù)攝動和外干擾時,特別是當(dāng)外干擾較大或變化較劇烈時,上述設(shè)計的變結(jié)構(gòu)觀測控制量v存在較大的抖振,引入邊界層進(jìn)行連續(xù)化,即:
式中:p1∈Rp×p是李亞普諾夫方程ATp1+p1A=-Q1的解,Q1是一個對稱正定的矩陣;η的取值要滿足誤差方程李亞普諾夫穩(wěn)定性條件,Δ是邊界層。
(15)
式中:R(τ)表示每一個回合的累計獎勵;pθ(τ)為每一個回合發(fā)生的概率,θ是策略π的網(wǎng)絡(luò)參數(shù),pθ(τ)為一個行動狀態(tài)序列τ的概率,可以進(jìn)一步表示為
pθ(τ)=p(s1)pθ(a1|s1)p(s2|s1,a1)pθ(a2|s2)…
(16)
強(qiáng)化學(xué)習(xí)的目標(biāo)函數(shù)就是最大化累計獎勵,即式(15)。
目標(biāo)函數(shù)對網(wǎng)絡(luò)參數(shù)θ求偏導(dǎo)可得
(17)
(18)
深度強(qiáng)化學(xué)習(xí)是將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合,使算法同時具有深度學(xué)習(xí)強(qiáng)大的表述能力和強(qiáng)化學(xué)習(xí)卓越的自適應(yīng)能力。PPO算法基本已經(jīng)成為一種最流行的深度強(qiáng)化學(xué)習(xí)算法,在Open AI開源算法中,也將PPO作為基線算法。其采用Actor-Critic網(wǎng)絡(luò)結(jié)構(gòu),其中Actor網(wǎng)絡(luò)輸出動作,Critic網(wǎng)絡(luò)輸出狀態(tài)價值函數(shù)V(st)。
為了得到狀態(tài)的精確價值估計,PPO算法采用廣義優(yōu)勢估計優(yōu)化價值函數(shù),如下所示:
(19)
式中:δt為時序差分,具體表達(dá)式為式(19)第2式;γ和λ是兩個重要的參數(shù),γ決定了價值函數(shù)的最大值,λ用來平衡偏差和方差。同時,PPO為了提高訓(xùn)練效果,避免策略梯度算法中采樣數(shù)據(jù)利用率低的缺點,引入了重要性采樣,智能體采用舊策略πθold與環(huán)境交互獲得訓(xùn)練數(shù)據(jù)存入樣本池中更新策略πθ,則PPO算法的獎勵微分可以表示為
(20)
則似然函數(shù)可以表示為
(21)
但是要求兩個策略的分布不能差別太大,因此需要進(jìn)行一定程度的剪切,最終得到的PPO算法:
(22)
式中:θ是策略π的網(wǎng)絡(luò)參數(shù);ε是剪切比,與文獻(xiàn)[30]保持一致,本文中ε取0.2。
圖3 基于魯棒觀測器的深度強(qiáng)化學(xué)習(xí)運載器垂直起降 姿態(tài)控制框圖Fig.3 Attitude control block diagram of deep reinforcement learning vehicle vertical takeoff and landing based on robust observer
算法 1 ROB-PPO算法流程偽代碼初始化動作網(wǎng)絡(luò)和評價網(wǎng)絡(luò)的偏差和權(quán)重初始目標(biāo)網(wǎng)絡(luò)的偏差和權(quán)重For episode=1,2,…,M, do 初始化環(huán)境 魯棒觀測器重構(gòu)姿態(tài),智能體收到初始觀測狀態(tài)s1 For t=1,2,…,T, do 動作網(wǎng)絡(luò)根據(jù)s1選擇動作a1,返回給環(huán)境 環(huán)境對動作a1作出響應(yīng),魯棒觀測器重構(gòu)姿態(tài),智能體受到觀測狀態(tài)s2以及獎勵值r1 存儲(st,at,rt,st+1)至經(jīng)驗池R 采樣Batchsize大小的數(shù)據(jù)量計算目標(biāo)函數(shù) 更新θold←θ End forEnd for
獎勵函數(shù)作為指導(dǎo)智能體訓(xùn)練的關(guān)鍵,其好壞決定了智能體能否達(dá)到理想的控制效果以及訓(xùn)練速度,對于本文中對垂直起降運載器俯仰通道的控制,在不同的姿態(tài)角誤差條件下,獎勵函數(shù)設(shè)置為
在本節(jié),垂直起降運載器的仿真環(huán)境中,應(yīng)用ROB-PPO的方法訓(xùn)練一個深度強(qiáng)化學(xué)習(xí)智能體,一旦運載器在仿真環(huán)境中成功飛行,將訓(xùn)練好的控制器實現(xiàn)到實物平臺上,以測試其在垂直起降運載器姿態(tài)控制中的穩(wěn)定性。
Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)均采用全連接結(jié)構(gòu),隱藏層激活函數(shù)采用 Relu 函數(shù),Actor網(wǎng)絡(luò)均值激活函數(shù)采用tanh函數(shù),方差激活函數(shù)為softmax函數(shù)。ROB-PPO算法的網(wǎng)絡(luò)結(jié)構(gòu)和超參數(shù)如表1所示。
表1 ROB-PPO算法的網(wǎng)絡(luò)結(jié)構(gòu)和超參數(shù)Table 1 Network structure and hyperparameters of ROB-PPO algorithm
訓(xùn)練強(qiáng)化學(xué)習(xí)智能體1.2×106回合,得到的訓(xùn)練過程中的平均獎勵變化曲線如圖4所示??梢钥闯?經(jīng)過前2×104回合的探索之后,智能體學(xué)會了控制策略,之后的平均獎勵值一直收斂,說明智能體已經(jīng)訓(xùn)練完成。將訓(xùn)練好的網(wǎng)絡(luò)模型保存,用于控制效果的測試。
圖4 ROB-PPO訓(xùn)練平均獎勵Fig.4 Average reward for ROB-PPO training
圖5和圖6中初始姿態(tài)角在0 rad到1 rad之間任意取值的條件下,在上述訓(xùn)練好的智能體控制下姿態(tài)角和姿態(tài)角速度的曲線。根據(jù)李雅普諾夫理論,神經(jīng)網(wǎng)絡(luò)擬合的動力學(xué)系統(tǒng)是漸進(jìn)收斂的[34]。圖5和圖6表明即使在初始狀態(tài)變化情況下,本文訓(xùn)練的控制器均能保證姿態(tài)角和姿態(tài)角速度收斂到期望姿態(tài),具有穩(wěn)定性。
圖5 姿態(tài)角響應(yīng)曲線Fig.5 Response curve of attitude angle
圖6 姿態(tài)角速度響應(yīng)曲線Fig.6 Response curve of attitude angle regular
圖7~圖11給出了本文設(shè)計的基于魯棒觀測器的深度強(qiáng)化學(xué)習(xí)算法和文獻(xiàn)[16]提出的自適應(yīng)模糊PID控制算法的對比圖。其中,圖7展示了ROB-PPO和自適應(yīng)模糊PID控制作用下的舵偏角比較曲線,可以看出,與傳統(tǒng)自適應(yīng)模糊PID控制相比,雖然在0.2 s時ROB-PPO的幅值超過了自適應(yīng)模糊PID,但是在0.8 s就趨于收斂,而傳統(tǒng)自適應(yīng)模糊PID在3 s才穩(wěn)定,ROB-PPO相較于傳統(tǒng)自適應(yīng)模糊PID控制算法收斂時間加快了2.2 s,可以看出本文設(shè)計的控制器在快速性方面表現(xiàn)出色。
圖7 舵偏角比較曲線Fig.7 Comparison curve of rudder deflection angle
圖8 俯仰姿態(tài)角對比曲線Fig.8 Contrast curve of pitching attitude angle
圖9 俯仰角速度比較曲線Fig.9 Pitch angle regular comparison curve
圖10 彈性振動位移對比圖Fig.10 Comparison of elastic vibration
圖11 彈性振動速率對比圖Fig.11 Comparison of rates of elastic vibration
圖8和圖9分別展示了ROB-PPO和自適應(yīng)模糊PID控制作用下俯仰姿態(tài)角和角速度的對比曲線。
從圖8中可以看出,相較于自適應(yīng)模糊PID,ROB-PPO算法的控制性能明顯提升,俯仰角幅值為0.1 rad,而傳統(tǒng)自適應(yīng)模糊PID控制作用下的幅值達(dá)到了0.3 rad;同時,在本文設(shè)計的控制器作用下,俯仰角在0.8 s就收斂到平衡位置了。圖10和圖11分別展示了ROB-PPO和自適應(yīng)模糊PID控制作用下一階彈性振動位移和一階彈性振動速度的對比曲線。
與之前的結(jié)論一致,ROB-PPO對彈性振動的抑制效果優(yōu)于自適應(yīng)模糊控制,相較于自適應(yīng)模糊PID控制,彈性振動幅值相差無幾,但收斂時間縮短了1.3 s。ROB-PPO控制下的一階彈性振動位移和速度基本在1 s左右就趨于穩(wěn)定,而自適應(yīng)模糊PID控制下在2.3 s才逐漸穩(wěn)定,體現(xiàn)出ROB-PPO算法具有更好的彈性振動抑制效果。
為了驗證所訓(xùn)練的模型在實物運載器姿態(tài)控制上的有效性,將訓(xùn)練穩(wěn)定的智能體搭載在實物平臺上,自制運載器從上而下主要分為油料艙、彈性艙、飛控艙以及發(fā)動機(jī)艙,油料艙主要為運載器提供燃料,彈性艙模擬彈性振動,飛控艙為運載器傳感器及飛控板提供安裝位置。其中,由激光雷達(dá)得到高度信息,由GPS得到位置信息,由三軸陀螺儀測量運載器的姿態(tài)信息。將ROB-PPO(PID)控制器輸出的控制力矩通過力矩分配算法得到舵偏角,再映射到與4臺渦噴發(fā)動機(jī)和4個舵機(jī)相連的飛控物理輸出口,并且將與發(fā)動機(jī)相連輸出口的PWM信號頻率調(diào)制為400 Hz,與舵機(jī)相連輸出口的PWM信號頻率調(diào)制為50 Hz。飛行過程如圖12所示。
圖12 垂直起降運載器飛行過程Fig.12 Flight process of vertical takeoff and landing vehicle
在飛行過程中,對運載器施加繩子的擾動作用以模擬飛行過程中受到的橫風(fēng)亂流的干擾,并通過Pixhawk的日志記錄下運載器的角度信息和角速度信息如圖13和圖14所示。
圖14 飛行過程中俯仰角速度對比Fig.14 Comparison curve of pitch angle regular during flight
圖12展示了垂直起降運載器在現(xiàn)實環(huán)境下的飛行結(jié)果。圖13和圖14分別是飛控日志記錄的俯仰通道的姿態(tài)角和姿態(tài)角速度的對比曲線,根據(jù)飛行過程中垂直起降運載器的飛行狀態(tài)。對圖13和圖14中的曲線進(jìn)行分析,在1~10 s,運載器接收到起飛指令準(zhǔn)備起飛,剛開始飛行高度較低,運載器低速上升。在此過程中,主要是彈性振動的干擾作用,可以看出訓(xùn)練的ROB-PPO智能體的控制效果良好。在11~16 s,隨著運載器高度的增加,外部陣風(fēng)對運載器姿態(tài)的穩(wěn)定起到主要干擾作用,同時外部陣風(fēng)的干擾激起了彈性振動,在此期間擾動增大,因此圖13中的曲線呈現(xiàn)波動現(xiàn)象。但是,姿態(tài)控制作用下,運載器并沒有失穩(wěn),之后運載器逐漸下降,姿態(tài)角和姿態(tài)角速度重新恢復(fù)到穩(wěn)定狀態(tài)直至著陸。同時可以看出,相較于自適應(yīng)模糊PID控制,本文研究的ROB-PPO控制方法的效果更好,超調(diào)量較小,動態(tài)特性和穩(wěn)態(tài)特性較好,說明本設(shè)計中的ROB-PPO控制器具有較強(qiáng)的魯棒性,運載器在垂直起降過程中可以克服一般陣風(fēng)或者亂流的干擾。
本文中采用ROB-PPO算法設(shè)計垂直起降運載器俯仰通道的姿態(tài)控制器。仿真結(jié)果表明,在考慮彈性振動的條件下,本文設(shè)計的深度強(qiáng)化學(xué)習(xí)控制器的收斂速度和控制性能都優(yōu)于目前常用的自適應(yīng)模糊PID控制。設(shè)置隨機(jī)的初始條件訓(xùn)練深度強(qiáng)化學(xué)習(xí)智能體以及魯棒觀測器對受到干擾的姿態(tài)角和姿態(tài)角速度的重構(gòu)作用都是將仿真環(huán)境中訓(xùn)練完成的智能體遷移到真實環(huán)境的關(guān)鍵。
盡管仿真以及實驗結(jié)果較好,但是還有很多方面可以優(yōu)化。比如,觀測量和獎勵函數(shù),增加飛行信息可以更加準(zhǔn)確地描述環(huán)境,智能體對于不同的獎勵函數(shù)有不同的表現(xiàn)。目前已經(jīng)完成了俯仰通道姿態(tài)控制器設(shè)計的仿真以及實驗驗證工作,下一步將考慮運載器在垂直起降過程中的位置控制,其中會涉及故障檢測、容錯控制。
此外,本文提出的ROB-PPO方法是基于定常模型的,但是可以通過一些方法拓展到時變模型:① 使用遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN):RNN具有記憶功能,能夠處理序列數(shù)據(jù),并且可以將之前的信息傳遞到下一個時間步驟中。因此,使用RNN可以在一定程度上適應(yīng)時變參數(shù)模型。② 訓(xùn)練多個模型:在時變參數(shù)模型中,可以使用多個模型來表示不同的狀態(tài)。例如,可以訓(xùn)練一個模型來表示正常工作狀態(tài),另一個模型來表示故障狀態(tài)。然后,在實際控制過程中,根據(jù)當(dāng)前狀態(tài)的特征選擇合適的模型進(jìn)行控制。