吉月輝 ,周海亮 ,車適行 ,高 強
(1.天津理工大學(xué)電氣電子工程學(xué)院天津市復(fù)雜系統(tǒng)控制理論及應(yīng)用重點實驗室,天津 300384;2.天津市計量監(jiān)督檢測科學(xué)研究院,天津 300192)
在航天任務(wù)中,姿態(tài)控制是再入飛行器控制系統(tǒng)的重要環(huán)節(jié)之一,實現(xiàn)精確的姿態(tài)控制可以提供足夠的氣動力,保證再入飛行器能夠穩(wěn)定地跟蹤制導(dǎo)參考指令.再入飛行器飛行速度快,在飛行過程中易受到風(fēng)擾、大氣密度和地球引力變化的影響.由于氣動參數(shù)受高度和速度變化的影響,再入飛行器的氣動參數(shù)是時變的.因此,再入飛行器的旋轉(zhuǎn)運動方程具有強非線性、耦合性和不確定性等特點[1].
已有多種控制方法用于再入飛行器的姿態(tài)控制器設(shè)計:反饋線性化[2]、滑??刂芠3-4]、自抗擾控制[5-6]、反步法等.反步法通過對再入飛行器進(jìn)行遞推系統(tǒng)化和結(jié)構(gòu)化設(shè)計,獲得良好的全局或局部穩(wěn)定性.針對存在輸入約束、模型不確定性和外界干擾的可重復(fù)使用運載火箭,基于自適應(yīng)濾波反步法,提出再入段姿態(tài)跟蹤策略[7].針對升力體再入飛行器發(fā)生執(zhí)行機構(gòu)故障情況,基于反步法設(shè)計姿態(tài)容錯控制律,無需飛行器轉(zhuǎn)動慣量信息,同時有效抑制外界干擾[8].但上述研究均未考慮系統(tǒng)的最優(yōu)控制性能.近年來,最優(yōu)控制設(shè)計的研究成果斐然,對再入飛行器的姿態(tài)跟蹤而言,最優(yōu)控制可優(yōu)化姿態(tài)跟蹤精度、控制力矩等性能指標(biāo),已成為現(xiàn)代控制的研究熱點之一.傳統(tǒng)非線性最優(yōu)系統(tǒng)的設(shè)計需要推導(dǎo)Hamilton-Jacobi-Isaacs(HJI)方程的解,但解析推導(dǎo)HJI方程較困難.為此,采用自適應(yīng)動態(tài)規(guī)劃技術(shù),逼近HJI方程的最優(yōu)解[9-11].
針對再入飛行器的不確定問題,神經(jīng)網(wǎng)絡(luò)(neural networks,NNs)、模糊邏輯系統(tǒng)(fuzzy logic systems,FLS)因其對非線性函數(shù)的近似特性,用于逼近難以精確建模的復(fù)雜非線性系統(tǒng).綜合反步法和神經(jīng)網(wǎng)絡(luò),實現(xiàn)氣動特性不確定性、外部干擾和執(zhí)行器飽和情況下高超聲速再入飛行器的姿態(tài)跟蹤控制問題.借助徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(radical basis function neural networks,RBFNN)的通用逼近能力,設(shè)計自適應(yīng)擾動觀測器在線估計外部擾動[12].針對具有氣動-伺服彈性和擾動的可重復(fù)使用運載火箭,采用模糊邏輯系統(tǒng)設(shè)計擾動觀測器,結(jié)合自適應(yīng)滑模技術(shù),設(shè)計姿態(tài)跟蹤控制器[13].與傳統(tǒng)的函數(shù)逼近器相比,遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNNs)具有優(yōu)越性能,包括動態(tài)性能和存儲信息的能力.在遞歸神經(jīng)元中引入內(nèi)部反饋回路,無需外部延遲反饋就可捕獲動態(tài)信息.通過自身操作可處理時變輸入或時變輸出.因此,RNNs是性能良好的動態(tài)映射,可采用較少神經(jīng)元以高精度逼近非線性函數(shù).
為此,針對再入飛行器,實現(xiàn)基于RNNs的自適應(yīng)最優(yōu)姿態(tài)控制,由前饋控制和反饋控制兩部分組成.本文的創(chuàng)新點在于:1)基于RNN和反步法,設(shè)計前饋控制器,將再入飛行器的姿態(tài)跟蹤問題轉(zhuǎn)化為姿態(tài)角跟蹤誤差/角速率跟蹤誤差系統(tǒng)的最優(yōu)反饋控制問題.其中,RNNs估計再入飛行器中的未知擾動和非線性函數(shù);2)基于自適應(yīng)動態(tài)規(guī)劃,設(shè)計最優(yōu)反饋控制器,保證姿態(tài)角可有界地跟蹤制導(dǎo)參考信號,閉環(huán)系統(tǒng)所有信號是有界的,同時保證代價函數(shù)最小化.
本文章節(jié)安排如下:第2部分闡述了高超聲速再入飛行器模型與遞歸網(wǎng)絡(luò)的預(yù)備知識;第3部分設(shè)計前饋控制器和最優(yōu)反饋控制器;第4部分討論閉環(huán)系統(tǒng)的穩(wěn)定性;第5部分中通過仿真研究,驗證了所提出方法的有效性;第6部分是論文的結(jié)論.
機體坐標(biāo)系下,再入飛行器旋轉(zhuǎn)運動方程為
其中:θ=[α β σ]T∈R3是姿態(tài)角向量,分別是攻角、側(cè)滑角和傾斜角;ω=[p q r]T∈R3是角速率向量,分別是滾轉(zhuǎn)角速率、俯仰角速率、偏航角速率;M=[MxMyMz]T∈R3是控制力矩輸入向量,分別是滾轉(zhuǎn)力矩、俯仰力矩和偏航力矩;
再入飛行器旋轉(zhuǎn)運動方程可轉(zhuǎn)化為嚴(yán)反饋形式
本文的控制目標(biāo)為:針對再入飛行器的旋轉(zhuǎn)動態(tài)(1),基于遞歸神經(jīng)網(wǎng)絡(luò)設(shè)計最優(yōu)控制器,使得姿態(tài)角以最優(yōu)方式跟蹤有界的參考信號,保證閉環(huán)系統(tǒng)中所有信號是一致最終有界的(uniformly ultimately bounded,UUB),同時最小化代價函數(shù).
如圖1所示,遞歸神經(jīng)網(wǎng)絡(luò)由輸入層、具有反饋單元的隱含層和輸出層組成.與傳統(tǒng)的徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)相比,遞歸神經(jīng)網(wǎng)絡(luò)在隱含層中引入內(nèi)部反饋收集內(nèi)部狀態(tài)信息,提高對未知非線性光滑函數(shù)的逼近能力.
圖1 遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 The flow chart of RNNs
1) 輸入層.
對輸入層的每個節(jié)點i,輸入和輸出為
其中:xi是第i個輸入節(jié)點,N是迭代次數(shù),χi是激活函數(shù).
2) 隱含層.
對隱含層的每個節(jié)點j,輸入和輸出為
其中:wj是遞歸權(quán)重,wji是輸入層和隱含層的權(quán)重,χj是激活函數(shù).
3) 輸出層.
對輸出層的每個節(jié)點k,輸入和輸出是
其中:wkj是隱含層和輸出層的權(quán)重,χk是激活函數(shù).
遞歸神經(jīng)網(wǎng)絡(luò)的輸出可表示為
其中:
其中ε是估計誤差.
假設(shè)1說明遞歸神經(jīng)網(wǎng)絡(luò)具有較強的學(xué)習(xí)能力和自適應(yīng)能力,可充分逼近復(fù)雜的非線性函數(shù),學(xué)習(xí)和適應(yīng)不確定系統(tǒng)的動態(tài)特性.未知函數(shù)可表示為
逼近誤差為
采用泰勒展開,將非線性函數(shù)線性化:
未知函數(shù)逼近誤差(8)可表示為
在本節(jié)中,針對再入飛行器的姿態(tài)角子系統(tǒng)、角速率子系統(tǒng)分別設(shè)計自適應(yīng)RNN最優(yōu)控制ui=ubi+uai,i=θ,ω;ubi是基于反步法和RNN的前饋跟蹤控制,將姿態(tài)跟蹤問題轉(zhuǎn)化為跟蹤誤差的鎮(zhèn)定問題;uai是基于自適應(yīng)動態(tài)規(guī)劃(adaptive dynamic programming,ADP)的最優(yōu)反饋控制,保證閉環(huán)系統(tǒng)的穩(wěn)定性和代價函數(shù)的最小化.控制系統(tǒng)框圖如圖2所示.
為設(shè)計前饋跟蹤控制,引入如下坐標(biāo)變換:
其中:zθ,zω是姿態(tài)角跟蹤誤差、角速率跟蹤誤差,uθ,uω分別是姿態(tài)角、角速率子系統(tǒng)的自適應(yīng)RNN最優(yōu)控制律:
第1步 姿態(tài)角跟蹤誤差zθ,其動態(tài)如下:
選擇Lyapunov候選函數(shù):
是待設(shè)計的控制增益矩陣.
Lyapunov候選函數(shù)的一階導(dǎo)數(shù)為
采用RNN估計未知非線性函數(shù)Dθ=dθ:
設(shè)計虛擬控制和自適應(yīng)權(quán)重更新律如下:
其中kθ是控制增益.
因此,Lyapunov函數(shù)的一階導(dǎo)數(shù)動態(tài)為
圖2 控制系統(tǒng)框圖Fig.2 Block diagram of control system
第2步zω的動態(tài)為
其中:
定義如下Lyapunov候選函數(shù):
其一階導(dǎo)數(shù)為
采用RNN估計未知函數(shù)Dω=fω(θd,uθ)+dω:
設(shè)計控制律和自適應(yīng)權(quán)值更新律為
其中kω是控制增益.
Lyapunov函數(shù)(20)的一階導(dǎo)數(shù)為
其中?ω為角速率子系統(tǒng)有界匹配誤差,滿足
設(shè)計最優(yōu)反饋控制Ua,穩(wěn)定跟蹤誤差動態(tài)=H(Z)+GUa,同最小化代價函數(shù),保證系統(tǒng)的最優(yōu)性能.
考慮如下的跟蹤誤差動態(tài):
選擇如下的代價函數(shù):
其中:?(Z)是半正定函數(shù),Ξ是正定矩陣.
定義相應(yīng)的Hamilton函數(shù):
其中?J(Z)是J(Z)相對于Z的導(dǎo)數(shù).
定義效用函數(shù)為
選擇如下的最優(yōu)代價函數(shù)J?:
若設(shè)計如下的狀態(tài)反饋最優(yōu)控制輸入:
其中?J?(Z)是J?(Z)相對于Z的導(dǎo)數(shù),則閉環(huán)系統(tǒng)是穩(wěn)定的,代價函數(shù)(27)達(dá)到最優(yōu)值J?,且Hamilton-Jacobi-Isaacs(HJI)方程成立:
采用ADP算法求解最優(yōu)控制問題中HJI方程(32)的解,引入評價網(wǎng)絡(luò)估計近似代價函數(shù).
引理1考慮跟蹤誤差系統(tǒng)(26)、代價函數(shù)(27)和最優(yōu)反饋控制(31).假設(shè)Js(Z)是一個連續(xù)可微的Lyapunov候選函數(shù),滿足
則下式成立:
采用理想的評價網(wǎng)絡(luò)逼近最優(yōu)代價函數(shù):
最優(yōu)控制器和Hamiltonian函數(shù)可設(shè)計為
其中τHJB是HJI方程殘差:
定義實際評價網(wǎng)絡(luò)為
最優(yōu)控制器可表示為
則Hamilton函數(shù)的估計值為
選擇如下的目標(biāo)函數(shù):
定義評價網(wǎng)絡(luò)權(quán)重向量的估計誤差:
則權(quán)重的估計誤差動態(tài)滿足
定理1給出本文的主要結(jié)論和閉環(huán)系統(tǒng)的穩(wěn)定性分析.
假設(shè)2評價網(wǎng)絡(luò)的理想權(quán)重Wc、梯度項?φc(Z)和?εc(Z)有界,即
定理1針對再入飛行器旋轉(zhuǎn)運動模型(1)、自適應(yīng)前饋控制輸入(23)、最優(yōu)反饋控制(38)、代價函數(shù)(27)和權(quán)重更新律(41)組成的閉環(huán)系統(tǒng),所有信號包括輸出跟蹤誤差和評價網(wǎng)絡(luò)的權(quán)重估計誤差是UUB的,并實現(xiàn)了預(yù)先定義的代價函數(shù)最小化.
證定義Lyapunov候選函數(shù):
Lyapunov函數(shù)的一階導(dǎo)數(shù)為
其中評價網(wǎng)絡(luò)的估計誤差動態(tài)滿足
注意:
其中:
其中:
選擇合適參數(shù)λ1,λ2保證矩陣T是正定的,則
因此,式(47)可表示為
其中控制器增益Kmin=min{K},且滿足
考慮式(35)和式(38),有
式(49)為
可以證明‖GΞ?1GT‖≤κ.
定義
若
或
或
在MATLAB/Simulink環(huán)境中,驗證所提出的自適應(yīng)RNN最優(yōu)控制,對再入飛行器大機動飛行時的有效性和控制性能.再入飛行器參數(shù)選取X-33的物理參數(shù),即
為了驗證控制器的魯棒性,仿真中考慮如下的外部擾動和力矩擾動:
再入飛行器的初始條件為
再入飛行時,側(cè)滑角制導(dǎo)參考信號保持在0,攻角和傾斜角的制導(dǎo)參考信號選為方波信號.仿真參數(shù)選擇如下:前饋跟蹤控制器中,控制器增益選為kθ=20,kω=10.在姿態(tài)角子系統(tǒng)、角速率子系統(tǒng)中分別引入RNN網(wǎng)絡(luò),每個RNN網(wǎng)絡(luò)由輸入層、隱含層、輸出層組成,依次選用1個節(jié)點、3個節(jié)點、1個節(jié)點(每個節(jié)點為3維向量),激活函數(shù)均選為χ(s)=RNN網(wǎng)絡(luò)權(quán)重的初始值選取如下:其中=[0.01 0.01 0]T,其他初始值選為0向量,網(wǎng)絡(luò)權(quán)重在給定初始值基礎(chǔ)上更新.其他參數(shù)選為λoθ=λRθ=λHθ=λoω=λRω=λHω=10.在最優(yōu)反饋控制器中,半正定函數(shù)?(Z)選為?(Z)=正定矩陣Ξ=I6,激活函數(shù)選為φc(Z)=[zθ zω]T,參數(shù)選為η=10,λ1=1,λ2=10.
為驗證所提出最優(yōu)姿態(tài)控制的跟蹤性能,引入傳統(tǒng)反步控制下再入飛行器的跟蹤軌跡對比,傳統(tǒng)反步控制系統(tǒng)中選取和最優(yōu)姿態(tài)控制反步部分相同的控制增益.仿真結(jié)果如圖3-11所示,圖3-5是姿態(tài)角向量軌跡,圖6-8是角速率向量跟蹤軌跡,圖9-10是前饋跟蹤控制RNNs權(quán)重更新律,圖11是最優(yōu)跟蹤控制評價網(wǎng)絡(luò)權(quán)重更新律.根據(jù)姿態(tài)角響應(yīng)過程可知,存在干擾情況下再入飛行器可快速跟蹤制導(dǎo)參考信號,跟蹤精度較高,再入飛行器可完成飛行任務(wù).與傳統(tǒng)反步控制相比,姿態(tài)角跟蹤誤差較小,角速率跟蹤軌跡的暫態(tài)性能良好.
圖3 攻角跟蹤軌跡Fig.3 The tracking trajectory of angle of attack
圖4 側(cè)滑角跟蹤軌跡Fig.4 The tracking trajectory of sideslip angle
圖6 滾轉(zhuǎn)角速率跟蹤軌跡Fig.6 The tracking trajectory of roll rate
圖7 俯仰角速率跟蹤軌跡Fig.7 The tracking trajectory of pitch rate
圖8 偏航角速率跟蹤軌跡Fig.8 The tracking trajectory of yaw rate
圖9 前饋跟蹤控制RNNs權(quán)重更新律Fig.9 RNNs weighting update law
圖10 前饋跟蹤控制RNNs權(quán)重更新律Fig.10 RNNs weighting update law
圖11 最優(yōu)跟蹤控制評價網(wǎng)絡(luò)權(quán)重更新律Fig.11 Critic neural network weighting update law
因此,所提出的自適應(yīng)RNN最優(yōu)姿態(tài)控制可提供滿意的跟蹤性能和魯棒性,保證飛行器閉環(huán)系統(tǒng)的穩(wěn)定性,同時實現(xiàn)代價函數(shù)最小化.
基于反步法和最優(yōu)控制理論,提出再入飛行器的RNNs自適應(yīng)最優(yōu)姿態(tài)控制方案,該控制包括前饋跟蹤控制器和最優(yōu)調(diào)節(jié)器兩部分.穩(wěn)定性分析證明,所提出的控制方法既保證閉環(huán)系統(tǒng)中所有信號都是有界的,實現(xiàn)代價函數(shù)最小化,同時再入飛行器姿態(tài)角可跟蹤制導(dǎo)參考信號.