何飛毅,張莫楠,倪 昊,辛 穎,黃子豪
(1. 上海航天控制技術(shù)研究所·上海·201109;2. 陸裝駐上海地區(qū)第三軍事代表室·上海 ·201109)
高超聲速飛行器采用基于乘波特性設(shè)計(jì)的升力體外形,在高超聲速條件下具有高升阻比、高操縱性的特點(diǎn),展現(xiàn)出了極強(qiáng)的長(zhǎng)航時(shí)跨域飛行、高速機(jī)動(dòng)軌跡變更等優(yōu)點(diǎn),得到了各國(guó)的廣泛研究。高超聲速飛行器在飛行過程中,飛行包線跨域大,其氣動(dòng)存在非線性強(qiáng)、不確定性大、耦合特征明顯等特點(diǎn),特別是在大動(dòng)壓飛行工況下表現(xiàn)出極強(qiáng)的靜不穩(wěn)定性,容易造成參數(shù)較大攝動(dòng)情況下的控制品質(zhì)下降。另一方面,由于采用最優(yōu)升阻比設(shè)計(jì)和輕質(zhì)結(jié)構(gòu)外形,飛行器一階、二階固有振動(dòng)頻率低,發(fā)動(dòng)機(jī)、制導(dǎo)飛控艙設(shè)備等彈上設(shè)備振動(dòng)影響顯著,隨著飛行動(dòng)壓增大,飛行器振動(dòng)模態(tài)與剛體控制耦合明顯,進(jìn)一步降低控制系統(tǒng)穩(wěn)定裕度,嚴(yán)重時(shí)甚至使飛行器失穩(wěn)。因此,如何在飛行器特性具有較大攝動(dòng)時(shí),高效實(shí)現(xiàn)大動(dòng)壓、大靜不穩(wěn)定下的剛體控制和彈性體抑制,對(duì)提高超聲速飛行器飛行控制品質(zhì)具有重要意義。
傳統(tǒng)飛行控制系統(tǒng)設(shè)計(jì)一般基于精確的被控對(duì)象模型,通過離線設(shè)計(jì)的控制參數(shù)確保實(shí)際飛行過程中具有一定的穩(wěn)定性和響應(yīng)性能,例如LQR控制[1]、魯棒控制[2]、反步法控制[3]、滑??刂芠4]等,上述方法在面對(duì)高超聲速飛行器嚴(yán)酷的飛行環(huán)境時(shí),往往難以適應(yīng)飛行器復(fù)雜多變的強(qiáng)不確定性影響。因此,需要研究一種能夠根據(jù)飛行器輸入輸出響應(yīng)信息,在線優(yōu)化飛行控制性能的方法。針對(duì)上述問題,研究人員提出了一種融合動(dòng)態(tài)規(guī)劃(Dynamic Programming,DP)、強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)和函數(shù)近似的自適應(yīng)動(dòng)態(tài)規(guī)劃(Adaptive Dynamic Programming,ADP)方法[5]。該方法利用在線獲取的輸入輸出數(shù)據(jù),采用近似函數(shù)估計(jì)來構(gòu)造系統(tǒng)性能指標(biāo)評(píng)價(jià)函數(shù),然后依據(jù)貝爾曼動(dòng)態(tài)規(guī)劃理論獲得近似最優(yōu)的控制策略,其作為一種基于數(shù)據(jù)學(xué)習(xí)和優(yōu)化的智能控制方法,在解決具有未知特性的復(fù)雜系統(tǒng)最優(yōu)控制問題中具有極大潛力,目前已經(jīng)得到國(guó)內(nèi)外學(xué)者的廣泛研究[6]。
D Vrabie等提出了一種基于強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)的連續(xù)系統(tǒng)控制的在線策略迭代方法,該方法不需要知道系統(tǒng)的動(dòng)力學(xué)模型,僅僅通過對(duì)評(píng)價(jià)網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)的順序更新,實(shí)現(xiàn)了系統(tǒng)的在線優(yōu)化[7-8]。在此基礎(chǔ)上,K Vamvoudakis等提出了評(píng)價(jià)網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)的同步更新策略,進(jìn)而提高了控制性能在線優(yōu)化的效率[9]。H Modares等為了進(jìn)一步提高基于RL的自適應(yīng)動(dòng)態(tài)規(guī)劃對(duì)執(zhí)行機(jī)構(gòu)飽和的適應(yīng)能力,并解決在線優(yōu)化過程中持續(xù)激勵(lì)條件(Persistence of Excitation,PE)難以判別的問題,提出了一種基于積分強(qiáng)化學(xué)習(xí)和經(jīng)驗(yàn)回放機(jī)制的自適應(yīng)動(dòng)態(tài)規(guī)劃方法,不僅采用了當(dāng)前的輸入輸出信息,還充分利用了歷史數(shù)據(jù)優(yōu)化控制系統(tǒng)性能,并且在穩(wěn)定系統(tǒng)上進(jìn)行了驗(yàn)證[10]。上述方法通過采集系統(tǒng)當(dāng)前和過去的控制信號(hào)、狀態(tài)反饋信號(hào)等信息,通過求解評(píng)價(jià)網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)權(quán)函數(shù)的梯度實(shí)時(shí)更新控制權(quán)重,但是優(yōu)化過程中對(duì)系統(tǒng)穩(wěn)定的要求過于嚴(yán)格,一旦更新的權(quán)重使系統(tǒng)發(fā)散,特別是對(duì)于靜不穩(wěn)定系統(tǒng),往往難以獲得收斂且可靠的結(jié)果。Jiang Y等針對(duì)不確定連續(xù)系統(tǒng)提出了一種魯棒ADP控制方法(Robust Adaptive Dynamic Programming,RADP),該方法基于最優(yōu)性原理利用當(dāng)前和過去信息,將控制權(quán)重更新問題轉(zhuǎn)化為二次規(guī)劃問題求解,使每一次控制更新都能得到使系統(tǒng)穩(wěn)定的解[11]。
在上述研究的基礎(chǔ)上,國(guó)內(nèi)外學(xué)者也針對(duì)高超聲速飛行器對(duì)象,開展了自適應(yīng)動(dòng)態(tài)規(guī)劃方法的應(yīng)用研究。郭建國(guó)等針對(duì)高超聲速飛行器的速度和高度自適應(yīng)控制問題,結(jié)合反步法與積分強(qiáng)化學(xué)習(xí)(Integral Reinforcement Learning,IRL)方法設(shè)計(jì)了最優(yōu)反饋學(xué)習(xí)控制律,并通過Lyapunov穩(wěn)定性理論嚴(yán)格證明了跟蹤誤差的一致最終有界[12]。汪雨劼等針對(duì)臨近控制飛行器最優(yōu)控制問題,將飛行器系統(tǒng)轉(zhuǎn)化為標(biāo)稱跟蹤系統(tǒng)和誤差跟蹤系統(tǒng),基于RADP方法對(duì)誤差跟蹤系統(tǒng)設(shè)計(jì)了姿態(tài)控制律,實(shí)現(xiàn)了氣動(dòng)參數(shù)攝動(dòng)情況下的近似最優(yōu)跟蹤控制[13]。李旭針對(duì)天地往返飛行器再入段姿態(tài)控制問題,基于滑??刂坪虯DP方法設(shè)計(jì)了內(nèi)外雙環(huán)控制器,并在外環(huán)引入ADP控制結(jié)構(gòu)作為輔助控制[14]。
上述方法在一定程度上能夠解決高超聲速飛行器強(qiáng)不確定因素影響下的控制性能在線優(yōu)化問題,但是,由于高超聲速飛行器過載跟蹤過程中獲取的狀態(tài)信息混雜了無法測(cè)量的振動(dòng)和噪聲干擾,將影響在線數(shù)據(jù)的利用效率,難以得到滿意的控制參數(shù)優(yōu)化結(jié)果。本文針對(duì)上述問題,首先對(duì)高超聲速飛行器剛體、彈性體耦合模型進(jìn)行了分析和建模,然后基于RADP方法設(shè)計(jì)了過載跟蹤控制策略,在此基礎(chǔ)上,通過RADP和陷波濾波方法的結(jié)合,形成適用于彈性高超聲速飛行器的數(shù)據(jù)驅(qū)動(dòng)自學(xué)習(xí)控制方法,最后通過仿真驗(yàn)證方法的有效性。
飛行器縱向動(dòng)力學(xué)模型如下
(1)
對(duì)上述縱向動(dòng)力學(xué)模型進(jìn)行小擾動(dòng)線性化,可以得到如下控制模型
(2)
式中,a1~a5為動(dòng)力系數(shù)。
飛行器彈性振動(dòng)模型可通過簡(jiǎn)化的一維梁模型表示,彈性振動(dòng)簡(jiǎn)化動(dòng)力學(xué)模型為
(3)
式中,qi為第i階振動(dòng)廣義坐標(biāo),ζi為振動(dòng)阻尼,ωi為振動(dòng)頻率,D1i,D2i,D3i為對(duì)應(yīng)狀態(tài)量的彈性振動(dòng)動(dòng)力系數(shù)。
由于傳感器安裝位置、線角耦合等因素影響,彈體振動(dòng)會(huì)通過傳感器耦合到控制器中,進(jìn)而產(chǎn)生高頻附加干擾信號(hào),彈性振動(dòng)對(duì)傳感器輸出的影響為
(4)
結(jié)合高超聲速飛行器剛體和彈性體模型,且只考慮1階彈性振動(dòng),可以得到面向控制的小擾動(dòng)線性化模型如下
(5)
式中
u=Gf(s)uc=Gf(s)KY
(6)
能夠控制系統(tǒng)跟蹤給定的期望指令。本文設(shè)計(jì)的目標(biāo)則是在上述基本控制結(jié)構(gòu)的基礎(chǔ)上,基于控制量和狀態(tài)量歷史數(shù)據(jù),在不確定參數(shù)影響下在線優(yōu)化控制增益K,并盡可能降低彈性振動(dòng)帶來的影響。本文控制方案如圖1所示。
圖1 控制方案Fig.1 Control scheme
由文獻(xiàn)[15]可知,RADP主要考慮狀態(tài)反饋形式,當(dāng)無彈性振動(dòng)影響時(shí),由于式(5)中矩陣C滿秩,因此可將其變?yōu)槿缦聽顟B(tài)空間模型
(7)
式中,A1=CAC-1,B1=CB。
通過在線求解最小化的二次型性能指標(biāo)
(8)
進(jìn)而實(shí)現(xiàn)反饋控制律u=KY的在線更新。
由于系統(tǒng)狀態(tài)矩陣A1和控制矩陣B1未知,因此無法采用傳統(tǒng)解Riccati方程的方法求解控制增益K。為了實(shí)現(xiàn)在線學(xué)習(xí),將控制量變?yōu)槿缦滦问?/p>
u=KY+e
(9)
式中,e為一個(gè)較小的探測(cè)信號(hào),保證在線學(xué)習(xí)過程中系統(tǒng)滿足持續(xù)激勵(lì)條件進(jìn)而有可行解。
此時(shí),在初始控制u0作用下,系統(tǒng)變?yōu)槿缦滦问?/p>
(10)
令每一次迭代過程中ui=u0+e-vi,則系統(tǒng)可寫為
(11)
考慮如下二次型Lyapunov函數(shù)
Vi=YTPY
(12)
當(dāng)滿足下式時(shí)
(13)
有
(14)
且要求每個(gè)樣本區(qū)間[t,t+δt]內(nèi),均滿足式(13),則可得到如下Pi、ui+1的更新策略
YT(t+δt)PiY(t+δt)-YT(t)PiY(t)-
(15)
進(jìn)一步得到
(16)
(17)
式中
因此通過最小二乘法求解式(17),可以實(shí)現(xiàn)Pi、Ki+1的在線更新。
考慮跟蹤過載指令Nyc,即令
uc=KY-KrNyc
(18)
使過載輸出誤差ΔNy=Ny-Nyc≈0。
根據(jù)閉環(huán)傳遞函數(shù)顯然可以得到
(19)
則式(11)變?yōu)?/p>
(20)
此時(shí)定義
(21)
即
(22)
即可實(shí)現(xiàn)滿足過載跟蹤需求下的Pi、ui+1在線更新。
當(dāng)系統(tǒng)中存在如式(5)所示的振動(dòng)影響時(shí),由于實(shí)際飛行過程中振動(dòng)狀態(tài)Q無法準(zhǔn)確測(cè)量,且附加矩陣Cq存在較大的不確定性,將導(dǎo)致反饋控制律中存在難以區(qū)分的高頻振動(dòng)干擾,如下所示
(23)
式中,Y=CX。使得式(21)中的u0、ui不再是純粹的剛體信號(hào),而是包含了彈性振動(dòng)干擾,且無法按照式(22)的方式轉(zhuǎn)化為探測(cè)噪聲,導(dǎo)致式(16)中等號(hào)左右兩邊均出現(xiàn)擾動(dòng),當(dāng)彈性振動(dòng)量級(jí)過大時(shí),將直接影響Pi,Ki+1的求解精度,甚至得到錯(cuò)誤的解。
因此本節(jié)通過結(jié)合陷波濾波器,在抑制彈性振動(dòng)對(duì)穩(wěn)定性影響的同時(shí),提高振動(dòng)影響下的控制參數(shù)在線更新效果。
為了便于分析,僅考慮1階彈性振動(dòng)作用,采用的陷波濾波器形式如下
(24)
式中,ξ1,ξ2,w1,w2為對(duì)應(yīng)的設(shè)計(jì)參數(shù),通過合理的設(shè)計(jì),可以在特定頻率對(duì)彈性振動(dòng)實(shí)現(xiàn)一定幅值的衰減。
將其轉(zhuǎn)化為狀態(tài)空間形式有
(25)
(26)
將其轉(zhuǎn)化為式(7)所示的狀態(tài)空間形式有
(27)
進(jìn)一步將式(27)按照式(17)策略求解,即可在振動(dòng)影響下準(zhǔn)確求解Pi,Ki+1。
下面通過對(duì)比仿真驗(yàn)證本文彈性高超聲速飛行器數(shù)據(jù)驅(qū)動(dòng)自學(xué)習(xí)過載跟蹤控制方法的有效性。
式(5)中對(duì)象模型參數(shù)如下所示
Cq=
在仿真中,設(shè)計(jì)初始控制參數(shù)為K=[1.0,1.0,0.19],Q=diag[4,0,0],R=1。設(shè)計(jì)陷波濾波器參數(shù)為
探測(cè)信號(hào)e設(shè)置為
e=0.2sin(6t)+0.2sin(12t)+0.2sin(18t)
(28)
下面分別對(duì)采用初始控制參數(shù)、無彈性振動(dòng)RADP方法、不加濾波器RADP方法、本文加濾波器后RADP方法進(jìn)行仿真,控制參數(shù)在線優(yōu)化結(jié)果如表1所示,控制參數(shù)迭代過程如圖2~圖4所示。
表1 控制參數(shù)在線優(yōu)化結(jié)果Tab.1 Online optimization results
圖2 無彈性體RADP參數(shù)迭代結(jié)果Fig.2 Parameter iteration results of RADP without elastic vibration
圖3 不加濾波器RADP參數(shù)迭代結(jié)果Fig.3 Parameter iteration results of RADP without filter
圖4 加濾波器RADP參數(shù)迭代結(jié)果Fig.4 Parameter iteration results of RADP with filter
仿真對(duì)比曲線如圖5~圖7所示。
圖5 過載跟蹤曲線Fig.5 Overload tracking curve
圖6 角速度變化曲線Fig.6 Angular velocity variation curve
圖7 舵偏變化曲線Fig.7 Rudder deviation curve
從圖中可以看出,在初始控制參數(shù)的作用下,過載響應(yīng)、角速度和舵偏出現(xiàn)較明顯的振蕩,過載跟蹤超調(diào)接近50%。仿真中在4s左右進(jìn)行控制參數(shù)在線更新,參數(shù)迭代過程如圖2~圖4所示,更新后的控制參數(shù)如表1所示,當(dāng)采用不加濾波器的RADP方法時(shí),迭代參數(shù)不收斂,且更新后控制參數(shù)與解析解差異很大,表明RADP方法解算準(zhǔn)確性明顯受到彈性振動(dòng)影響,當(dāng)采用本文加濾波器的RADP方法時(shí),迭代參數(shù)迅速收斂,且更新后控制參數(shù)與解析解基本一致,表明本方法較好地隔離了彈性振動(dòng)的影響,有效提高了控制參數(shù)在線優(yōu)化的準(zhǔn)確性。此外,本文所提方法有效提升了控制品質(zhì),并保證了過載響應(yīng)對(duì)指令的穩(wěn)定跟蹤。
針對(duì)彈性高超聲速飛行器過載跟蹤控制性能在線優(yōu)化和振動(dòng)影響下的控制參數(shù)準(zhǔn)確更新問題,提出了一種基于數(shù)據(jù)驅(qū)動(dòng)的彈性高超聲速飛行器過載跟蹤自學(xué)習(xí)控制方法。算法分析與實(shí)驗(yàn)結(jié)果表明,在不依賴于準(zhǔn)確模型參數(shù)的條件下,所提的方法能夠有效實(shí)現(xiàn)彈性振動(dòng)干擾下的控制參數(shù)在線優(yōu)化,并提高過載跟蹤控制品質(zhì)。但本文僅是通過數(shù)字仿真完成了相關(guān)驗(yàn)證工作,后續(xù)將通過半實(shí)物仿真進(jìn)一步驗(yàn)證算法的適應(yīng)性。