馬少捷 惠俊鵬 王宇航 張 旋
1. 中國(guó)運(yùn)載火箭技術(shù)研究院研究發(fā)展部,北京 100076 2. 北京航天長(zhǎng)征飛行器研究所,北京 100076
變形飛行器可以根據(jù)飛行任務(wù)、飛行環(huán)境不同適時(shí)自主改變氣動(dòng)外形,實(shí)現(xiàn)全剖面飛行性能優(yōu)化,同時(shí)以不同氣動(dòng)布局滿足不同飛行任務(wù)需求,對(duì)飛行器跨域飛行、多任務(wù)適應(yīng)具有重要意義[1-2]。但由于其變形過程中氣動(dòng)參數(shù)、結(jié)構(gòu)參數(shù)呈現(xiàn)非線性變化的特點(diǎn),變形引起的慣性附加力、附加力矩難以忽略,同時(shí)變形結(jié)構(gòu)剛度差導(dǎo)致氣動(dòng)、結(jié)構(gòu)耦合現(xiàn)象嚴(yán)重,使得變形飛行器模型具有較大的不確定性,并且變形過程中飛行器受外界干擾因素影響較為復(fù)雜,對(duì)控制系統(tǒng)設(shè)計(jì)提出了挑戰(zhàn)。另一方面變形飛行器為了達(dá)到飛行剖面的性能最優(yōu),需要在執(zhí)行任務(wù)中實(shí)時(shí)決策變形指令,而傳統(tǒng)算法控制器參數(shù)離線設(shè)計(jì)、在線插值的方式難以達(dá)到理想控制效果。
針對(duì)該問題,有學(xué)者基于線性模型提出了反饋控制[3]、切換線性變參數(shù)(Linear Parameter Varying, LPV)魯棒控制[4]等方法,卻在一定程度上損失了變形飛行器模型的非線性特征。因此滑??刂芠5]、動(dòng)態(tài)逆控制[6]等非線性控制方法成為主流研究方向,這類方法更大程度地保留了控制系統(tǒng)模型的非線性特征,但同時(shí)也存在對(duì)模型準(zhǔn)確度依賴較高的問題。此外,宋慧心等[7]基于自抗擾控制理論開展控制器設(shè)計(jì),取得了較好的控制效果,但自抗擾控制參數(shù)整定問題增加了控制器設(shè)計(jì)的復(fù)雜度。因此迫切需要適應(yīng)性、魯棒性更強(qiáng)的控制算法來提升控制系統(tǒng)品質(zhì)。
隨著人工智能技術(shù)發(fā)展,強(qiáng)化學(xué)習(xí)作為一類數(shù)據(jù)驅(qū)動(dòng)的智能算法,通過智能體與環(huán)境的交互,從數(shù)據(jù)中訓(xùn)練得到控制策略,不依賴于精確的控制模型,突破了復(fù)雜系統(tǒng)精確建模困難的局限,為復(fù)雜控制系統(tǒng)設(shè)計(jì)提供了新的解決途徑,逐漸應(yīng)用于復(fù)雜條件下飛行器制導(dǎo)控制系統(tǒng)設(shè)計(jì)[8-11]中,其中代表性的算法是深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法。Wang等[12]針對(duì)吸氣式飛行器姿態(tài)控制問題,基于DDPG算法在線優(yōu)化反步法控制參數(shù)。Wang等[13]針對(duì)四旋翼無人機(jī)的高度控制問題,基于DDPG算法直接進(jìn)行策略訓(xùn)練,最終實(shí)現(xiàn)狀態(tài)量到執(zhí)行動(dòng)作的端到端控制。DDPG算法在無人機(jī)姿態(tài)控制中具有良好的魯棒性與強(qiáng)泛化能力,然而算法本身存在值函數(shù)過估計(jì)、算法穩(wěn)定性差等問題,F(xiàn)ujimoto等[14]提出的雙延遲深度確定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient, TD3)算法,在算法穩(wěn)定性與收斂性方面有更好的效果。
本文在上述研究的基礎(chǔ)上,基于TD3算法提出了一種變形飛行器姿態(tài)控制方法。以一類機(jī)翼可伸縮的變形飛行器為對(duì)象,考慮其多剛體結(jié)構(gòu),建立了縱向平面數(shù)學(xué)模型,然后在馬爾可夫決策過程(Markov Decision Process, MDP)的框架下設(shè)計(jì)了算法訓(xùn)練所需的狀態(tài)空間、動(dòng)作空間以及網(wǎng)絡(luò)結(jié)構(gòu),還設(shè)計(jì)了一種兼顧控制精度與能量需求的獎(jiǎng)勵(lì)函數(shù),并在狀態(tài)空間中引入姿態(tài)跟蹤誤差的歷史信息,減小了值函數(shù)估計(jì)誤差引起的穩(wěn)態(tài)誤差,將策略網(wǎng)絡(luò)與PD控制器結(jié)合形成復(fù)合控制器,提高了算法的訓(xùn)練效率,最后通過數(shù)學(xué)仿真驗(yàn)證了所得控制策略的適應(yīng)性與強(qiáng)魯棒性。
考慮一類伸縮變形飛行器,其局部外形如圖1所示,其左右機(jī)翼可以沿翼展方向水平伸縮,最大翼展可達(dá)到本體的2倍,變形量通過翼展變形率ξ=Δl/l表示,其中Δl為伸縮機(jī)翼伸出長(zhǎng)度,l為本體翼展,ξ∈[0,1]。
假設(shè)伸縮機(jī)翼對(duì)稱勻速變形,且變形翼只在水平面內(nèi)伸縮,將飛行器分為機(jī)體、左右伸縮機(jī)翼3個(gè)結(jié)構(gòu),以飛行器機(jī)體質(zhì)心為參考點(diǎn),基于Kane多體動(dòng)力學(xué)建模方法建立變形飛行器動(dòng)力學(xué)模型,如式(1)。
(1)
式中,m為飛行器總質(zhì)量,I為飛行器總轉(zhuǎn)動(dòng)慣量,Vb為質(zhì)心坐標(biāo)系下的運(yùn)動(dòng)速度,ω為飛行器旋轉(zhuǎn)角速度,F(xiàn)和M分別為飛行器所受合外力、合外力矩,F(xiàn)s和Ms分別為飛行器變形附加力和附加力矩。
假設(shè)變形飛行器無動(dòng)力飛行,地球?yàn)橐痪|(zhì)圓球,同時(shí)忽略地球自轉(zhuǎn),則合外力只包含氣動(dòng)力、重力項(xiàng),合外力矩只包含氣動(dòng)力矩項(xiàng)。同時(shí)假設(shè)不考慮飛行器橫側(cè)向運(yùn)動(dòng),將變形附加力、附加力矩簡(jiǎn)化到縱向平面內(nèi),可得到具體表達(dá)式如下:
(2)
式中,F(xiàn)sx和Fsy分別為變形附加力在彈體坐標(biāo)系xy軸的分量,Msz為變形附加力矩在彈體坐標(biāo)系z(mì)軸的分量,mη為伸縮機(jī)翼部分質(zhì)量,ωz為俯仰角速度,Vx和Vy分別為飛行器運(yùn)動(dòng)速度在質(zhì)心坐標(biāo)系xy軸的分量,Px和Py分別為機(jī)體質(zhì)心指向伸縮機(jī)翼質(zhì)心矢量在彈體質(zhì)心坐標(biāo)系xy軸的分量,隨飛行器變形而發(fā)生變化。
結(jié)合飛行器運(yùn)動(dòng)學(xué)方程,將多剛體動(dòng)力學(xué)模型轉(zhuǎn)換到速度坐標(biāo)系中,可得到變形飛行器完整數(shù)學(xué)模型,如式(3)。
(3)
式中,V和θ分別為飛行器飛行總速度、速度傾角,α為攻角,g為當(dāng)?shù)刂亓铀俣?,Iz為飛行器繞z軸轉(zhuǎn)動(dòng)慣量,φ為俯仰角,x和y分別為飛行器在發(fā)射坐標(biāo)系xy軸的位置,X,Y和Mz分別為飛行器所受氣動(dòng)力、力矩在質(zhì)心坐標(biāo)系三軸的分量,表達(dá)式如式(4)。
(4)
式中,Q=0.5ρV2為動(dòng)壓,S和L分別為飛行器參考面積、參考長(zhǎng)度,xg和yg分別為飛行器質(zhì)心到理論頂點(diǎn)的距離在xy軸的分量,隨飛行器變形而發(fā)生變化,Cx,Cy和Cmz分別為軸向力系數(shù)、法向力系數(shù)、俯仰力矩系數(shù),其大小與攻角、馬赫數(shù)以及機(jī)翼變形量有關(guān)。
本文采用的TD3算法是一種基于“動(dòng)作-評(píng)價(jià)”(Actor-Critic, AC)框架的深度強(qiáng)化學(xué)習(xí)算法,采用深度神經(jīng)網(wǎng)絡(luò)表征策略π和動(dòng)作-值函數(shù)Qπ(s,act)=Ετ~π[R(τ)|s,act]。其在DDPG的基礎(chǔ)上改進(jìn)得到,采用Double Q-Learning的方式降低Q值估計(jì)誤差,通過延遲策略更新的方式來增加算法的穩(wěn)定性,并且在目標(biāo)策略中加入噪聲來避免過擬合,進(jìn)一步提升了算法穩(wěn)定性與收斂性,是目前應(yīng)用較為廣泛的一類連續(xù)控制強(qiáng)化學(xué)習(xí)算法。
TD3一般使用6個(gè)神經(jīng)網(wǎng)絡(luò):策略網(wǎng)絡(luò)及策略目標(biāo)網(wǎng)絡(luò)、2個(gè)評(píng)價(jià)網(wǎng)絡(luò)及2個(gè)評(píng)價(jià)目標(biāo)網(wǎng)絡(luò),策略網(wǎng)絡(luò)用來表征確定性策略π(s|θπ),其中θπ為網(wǎng)絡(luò)參數(shù),2個(gè)評(píng)價(jià)網(wǎng)絡(luò)分別用來表征2套動(dòng)作-值函數(shù)Q1(s,act|θQ1)和Q2(s,act|θQ2),θQ1和θQ2分別為對(duì)應(yīng)的網(wǎng)絡(luò)參數(shù),同樣對(duì)應(yīng)2個(gè)評(píng)價(jià)目標(biāo)網(wǎng)絡(luò)Q1′(s,act|θQ1′)和Q2′(s,act|θQ2′),θQ1′和θQ2′分別為對(duì)應(yīng)的網(wǎng)絡(luò)參數(shù),網(wǎng)絡(luò)更新時(shí)選取2個(gè)目標(biāo)網(wǎng)絡(luò)中最小值,計(jì)算時(shí)間差分誤差(Time Difference error, TD-error),如式(5)。
δt=rt+1+γmini = 1,2
{Qi′[st+1,π′(st+1|θπ′)|θQi′]}-Qi(st,actt|θQi)
(5)
式中,π′(st+1|θπ′)為策略目標(biāo)網(wǎng)絡(luò)輸出,θπ′為其網(wǎng)絡(luò)參數(shù),因此可構(gòu)造評(píng)價(jià)網(wǎng)絡(luò)損失函數(shù)及更新方式如式(6)。
(6)
(7)
ν~clip[N(0,σ),-c,c]為截?cái)嗟母咚乖肼?,N為批學(xué)習(xí)的樣本數(shù)量,κQ為評(píng)價(jià)網(wǎng)絡(luò)的學(xué)習(xí)率。同樣可構(gòu)造策略網(wǎng)絡(luò)損失函數(shù)及更新方式如式(8)。
(8)
式中,actt=π(st|θπ)為st狀態(tài)下智能體輸出動(dòng)作,κπ為動(dòng)作網(wǎng)絡(luò)的學(xué)習(xí)率,TD3算法使得策略網(wǎng)絡(luò)以更低的頻率更新,在評(píng)價(jià)網(wǎng)絡(luò)更新d步后再更新策略,以獲得更高的更新質(zhì)量,增強(qiáng)算法穩(wěn)定性。同時(shí)TD3通過指數(shù)平滑而非直接替換的方式更新目標(biāo)網(wǎng)絡(luò),如式(9)所示。
(9)
式中,ε為慣性更新率,一般為小于1的正數(shù),可以使得目標(biāo)網(wǎng)絡(luò)更新更緩慢平穩(wěn),提高訓(xùn)練的穩(wěn)定性。
前期訓(xùn)練發(fā)現(xiàn)利用策略網(wǎng)絡(luò)直接輸出舵偏角指令的控制器架構(gòu)在訓(xùn)練時(shí)存在大量無法穩(wěn)定飛行,狀態(tài)發(fā)散的現(xiàn)象,導(dǎo)致訓(xùn)練效率降低,同時(shí)很難得到最優(yōu)結(jié)果。因此本文加入PD控制器進(jìn)行輔助,與策略網(wǎng)絡(luò)組成復(fù)合控制器,PD控制器參數(shù)粗整定,僅能維持穩(wěn)定控制,跟蹤精度較差,在此基礎(chǔ)上利用TD3優(yōu)化控制策略,控制策略訓(xùn)練結(jié)構(gòu)如圖2所示,其中虛線框中為控制器結(jié)構(gòu),控制指令由基礎(chǔ)控制器輸出指令以及算法策略網(wǎng)絡(luò)輸出動(dòng)作組成。
圖2 控制器結(jié)構(gòu)圖
本文將變形飛行器控制模型轉(zhuǎn)換為MDP,在此框架下設(shè)計(jì)了狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)以及神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
1)狀態(tài)空間和動(dòng)作空間
借鑒傳統(tǒng)控制器設(shè)計(jì)思路,影響控制指令的主要因素包含姿態(tài)角誤差、姿態(tài)角速率,同時(shí)考慮影響變形飛行器控制律設(shè)計(jì)的主要因素包含攻角、動(dòng)壓以及變形量。因此選擇狀態(tài)空間為6維向量,由攻角α、攻角跟蹤誤差Δα、俯仰角速率ωz、舵偏角δz、動(dòng)壓Q、變形率ξ組成,同時(shí)為彌補(bǔ)由于評(píng)價(jià)網(wǎng)絡(luò)對(duì)動(dòng)作-值函數(shù)估計(jì)不準(zhǔn)確導(dǎo)致訓(xùn)練結(jié)果存在明顯穩(wěn)態(tài)誤差的問題,借鑒PID控制引入積分項(xiàng)的思路,在狀態(tài)量中引入攻角跟蹤誤差的歷史信息,即Iα=Δα+μIα,最終設(shè)計(jì)狀態(tài)向量如下:
s=[α,Iα,ωz,δz,Q,ξ]
(10)
考慮控制系統(tǒng)執(zhí)行機(jī)構(gòu)僅有氣動(dòng)舵,縱向平面控制指令僅含俯仰舵偏,因此動(dòng)作空間設(shè)計(jì)為1維向量,如式(11)。
act=δz
(11)
2)獎(jiǎng)勵(lì)函數(shù)
為保證變形飛行器姿態(tài)跟蹤精度,為變形創(chuàng)造良好的作動(dòng)環(huán)境,同時(shí)降低姿態(tài)控制能量需求,設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)由跟蹤誤差懲罰、舵偏角大小懲罰以及跟蹤精度稀疏回報(bào)組成,如式(12)。
(12)
3)深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
本文采用的神經(jīng)網(wǎng)絡(luò)均為反向傳播(Back Propagation, BP)神經(jīng)網(wǎng)絡(luò),動(dòng)作網(wǎng)絡(luò)輸入層有6個(gè)神經(jīng)元對(duì)應(yīng)6維狀態(tài)向量st,隱藏層為3個(gè)全連接層,輸出層有1個(gè)神經(jīng)元對(duì)應(yīng)1維動(dòng)作向量actt。兩個(gè)評(píng)價(jià)網(wǎng)絡(luò)結(jié)構(gòu)相同,輸入層有7個(gè)神經(jīng)元對(duì)應(yīng)6維狀態(tài)向量st和1維動(dòng)作向量actt,隱藏層同樣為3個(gè)全連接層,輸出層有1個(gè)神經(jīng)元對(duì)應(yīng)動(dòng)作-值函數(shù)Qi(st,actt|θQi),各層神經(jīng)元數(shù)目與激活函數(shù)如表1,目標(biāo)網(wǎng)絡(luò)與對(duì)應(yīng)網(wǎng)絡(luò)結(jié)構(gòu)相同。
表1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
1)訓(xùn)練場(chǎng)景
仿真開始時(shí)伸縮機(jī)翼處于伸展?fàn)顟B(tài),其可以在1.25s內(nèi)勻速收回至本體狀態(tài),變形指令設(shè)置如圖3,7.5s開始伸縮機(jī)翼逐漸收回,12s再次展開,16.5s伸縮機(jī)翼再次收回,最終21s伸縮翼展開到初始狀態(tài)。
圖3 變形率變化曲線
TD3算法訓(xùn)練中積分周期為5ms,控制周期為10ms,網(wǎng)絡(luò)更新周期為50ms,每回合仿真總時(shí)長(zhǎng)30s,算法訓(xùn)練參數(shù)以及獎(jiǎng)勵(lì)函數(shù)權(quán)重設(shè)計(jì)如表2所示。
表2 算法訓(xùn)練參數(shù)設(shè)計(jì)
為得到魯棒性更強(qiáng)的控制策略,在訓(xùn)練中加入初始狀態(tài)偏差以及隨機(jī)干擾項(xiàng),擾動(dòng)水平如表3所示。
表3 擾動(dòng)參數(shù)及擾動(dòng)水平
并做出以下假設(shè):
假設(shè)1:飛行器無橫側(cè)向運(yùn)動(dòng),僅在縱向平面運(yùn)動(dòng);
假設(shè)2:仿真中假設(shè)傳感器無測(cè)量誤差,執(zhí)行機(jī)構(gòu)無慣性,僅考慮氣動(dòng)偏差、結(jié)構(gòu)偏差等設(shè)計(jì)誤差以及風(fēng)干擾等外界環(huán)境影響。
2)訓(xùn)練結(jié)果
基于變形飛行器縱向平面動(dòng)力學(xué)模型,分別基于TD3以及DDPG算法開展控制策略訓(xùn)練,圖4展示了訓(xùn)練過程平均獎(jiǎng)勵(lì)隨訓(xùn)練回合的變化規(guī)律,共進(jìn)行了5000回合訓(xùn)練,每10回合取平均值,其中藍(lán)色實(shí)線為TD3算法訓(xùn)練結(jié)果,黑色虛線為DDPG算法訓(xùn)練結(jié)果,在訓(xùn)練初期智能體處于探索階段,累計(jì)獎(jiǎng)勵(lì)存在降低趨勢(shì),當(dāng)進(jìn)行到100回合后,累計(jì)獎(jiǎng)勵(lì)明顯增加,直到1000回合左右逐漸趨于穩(wěn)定,對(duì)比可以發(fā)現(xiàn)TD3算法比DDPG算法具有更好的穩(wěn)定性以及更快的收斂速度,訓(xùn)練所得的控制策略累計(jì)獎(jiǎng)勵(lì)也達(dá)到了更高水平。
圖4 訓(xùn)練過程平均獎(jiǎng)勵(lì)變化曲線
為驗(yàn)證控制策略的有效性,本文共開展了3組數(shù)學(xué)仿真,分別為標(biāo)稱狀態(tài)下的仿真驗(yàn)證、偏差狀態(tài)下的仿真驗(yàn)證以及改變變形指令的仿真驗(yàn)證。
3.2.1 標(biāo)稱狀態(tài)仿真驗(yàn)證
圖5~6展示了標(biāo)稱狀態(tài)下的攻角跟蹤結(jié)果以及俯仰角速率、舵偏角響應(yīng)結(jié)果,攻角跟蹤梯形指令,在-5 °攻角進(jìn)行連續(xù)變形測(cè)試,并將仿真結(jié)果與基礎(chǔ)PD控制器以及PID控制器的控制效果進(jìn)行對(duì)比。
圖5 攻角跟蹤
圖6 俯仰角速率、舵偏角響應(yīng)
表4展示了TD3與PD基礎(chǔ)控制器、PID控制器控制效果的對(duì)比,其中積分絕對(duì)誤差I(lǐng)AE(Integral Absolute Error)為攻角跟蹤誤差隨時(shí)間的積分項(xiàng)。
(13)
表4 控制效果對(duì)比
仿真結(jié)果表明本文經(jīng)TD3算法訓(xùn)練后的控制策略可以實(shí)現(xiàn)動(dòng)態(tài)、穩(wěn)態(tài)的高精度控制,相較于基礎(chǔ)控制器具有更快的響應(yīng)速度、更小的穩(wěn)態(tài)誤差,從而為飛行器變形提供良好的初始狀態(tài)。相較于性能更優(yōu)的PID控制,本文的控制策略在變形過程中攻角跟蹤誤差無明顯變化,可以快速適應(yīng)飛行器變形引起的模型變化,對(duì)變形引起的模型內(nèi)部不確定性具有較強(qiáng)的魯棒性,可以實(shí)現(xiàn)機(jī)翼伸縮變形條件下的攻角指令精確跟蹤。
3.2.2 偏差狀態(tài)仿真驗(yàn)證
為驗(yàn)證本文控制策略對(duì)變形過程中復(fù)雜外界干擾的魯棒性,考慮初始狀態(tài)偏差以及氣動(dòng)、結(jié)構(gòu)、環(huán)境干擾偏差,擾動(dòng)項(xiàng)及擾動(dòng)水平如表2所示,取極限拉偏組合,同時(shí)加入大氣環(huán)境干擾,包含大氣密度偏差、溫度偏差、風(fēng)干擾?;陔S機(jī)組合開展1000條蒙特卡洛仿真,圖7~8展示了攻角跟蹤結(jié)果以及1000次仿真中跟蹤誤差頻率分布。
圖7 攻角蒙特卡洛仿真結(jié)果
圖8 攻角跟蹤誤差頻率分布
觀察結(jié)果發(fā)現(xiàn),1000次蒙特卡洛仿真均可以實(shí)現(xiàn)姿態(tài)穩(wěn)定控制,IAE平均值為0.4523((°)·s),分布方差為0.1492,與PID控制1000次蒙特卡洛仿真IAE平均值7.1501((°)·s),分布方差0.6199進(jìn)行對(duì)比,優(yōu)化后的控制策略精度更高,蒙特卡洛仿真分布方差更小,證明了其對(duì)初始狀態(tài)、設(shè)計(jì)偏差以及環(huán)境等外部干擾項(xiàng)的魯棒性更強(qiáng),由此驗(yàn)證了本文控制策略對(duì)變形飛行器系統(tǒng)內(nèi)部、外部不確定性均具有較強(qiáng)的魯棒性。
3.2.3 未經(jīng)訓(xùn)練的變形指令仿真驗(yàn)證
本文在訓(xùn)練中只考慮了單一變形策略,為驗(yàn)證網(wǎng)絡(luò)泛化能力,測(cè)試其對(duì)變形策略在線決策場(chǎng)景的適應(yīng)能力,考慮攻角-5 °的狀態(tài)下,在10s~20s之間隨機(jī)給定50種伸縮機(jī)翼變形指令,在標(biāo)稱狀態(tài)下開展仿真,攻角跟蹤結(jié)果以及俯仰角速率、舵偏角響應(yīng)結(jié)果如圖9~10所示。
圖9 攻角跟蹤曲線
圖10 俯仰角速率、舵偏角響應(yīng)
仿真結(jié)果表明,50次測(cè)試均能實(shí)現(xiàn)變形過程中的姿態(tài)穩(wěn)定控制,IAE平均值為0.4058((°)·s),證明本文的控制策略對(duì)未經(jīng)訓(xùn)練的變形指令具有一定的適應(yīng)性,可以實(shí)現(xiàn)在線靈活變形場(chǎng)景下的高精度姿態(tài)控制,體現(xiàn)了算法較強(qiáng)的泛化能力,同時(shí)由于本節(jié)仿真中的變形指令并未參與算法訓(xùn)練,需用舵偏量未經(jīng)過優(yōu)化,變形過程中俯仰角速率和舵偏角存在小幅度振蕩現(xiàn)象,并未影響控制系統(tǒng)穩(wěn)定性以及控制精度。
針對(duì)變形飛行器動(dòng)力學(xué)模型非線性強(qiáng),變形過程中內(nèi)外干擾因素復(fù)雜,以及靈活變形引起的模型大范圍變化的問題,以一類機(jī)翼可伸縮的變形飛行器為例,基于TD3深度強(qiáng)化學(xué)習(xí)算法開展了變形飛行器姿態(tài)控制算法設(shè)計(jì),獲得了較DDPG算法更好的訓(xùn)練效果,同時(shí)本文采用PD控制器輔助TD3算法訓(xùn)練的方式,保證算法訓(xùn)練初期的穩(wěn)定控制,提升樣本質(zhì)量,并采用攻角跟蹤誤差的累加值作為狀態(tài)輸入,進(jìn)一步提升訓(xùn)練效果,降低控制策略穩(wěn)態(tài)誤差。仿真結(jié)果表明本文的控制策略可以保證機(jī)翼伸縮變形過程中姿態(tài)控制的精度,對(duì)模型內(nèi)外不確定性均具有較強(qiáng)的魯棒性,同時(shí)對(duì)不同變形策略具有一定的適應(yīng)性。