張 遠,黃萬偉,聶 瑩,路坤鋒
(1. 北京航天自動控制研究所,北京 100854; 2. 宇航智能控制技術(shù)國家級重點實驗室,北京 100854)
以高超聲速飛行器(Hypersonic flight vehicle, HFV)為代表的一類高速飛行器結(jié)合了航空航天的特點,其具有航程遠、速度快、機動強、任務(wù)可調(diào)整等特點,是實現(xiàn)低成本、可重復(fù)天地往返優(yōu)選技術(shù)途徑之一,逐漸受到世界各航天大國的廣泛關(guān)注[1-2]。但是,此類飛行器在總體設(shè)計中,同樣存在值得進一步優(yōu)化與完善的問題,如飛行包線大與幾何構(gòu)型單一的矛盾,幾何包絡(luò)大與發(fā)射系統(tǒng)受限的矛盾,大攻角飛行/氣動熱/航程之間的矛盾。如果飛行器能夠在飛行過程中根據(jù)任務(wù)需要,在不同飛行狀態(tài)下自適應(yīng)改變自身構(gòu)型,則可在保證固有約束條件下獲得更優(yōu)的綜合性能,進一步擴展飛行器任務(wù)邊界,為實現(xiàn)全速域、跨空域飛行提供可行性[3-4]。以高速滑翔飛行器為例,在慣性爬升段合理變形減小阻力可減小速度損失;滑翔飛行段合理變形可有效提高升阻比,達到提升航程的目的[5-6]?;诖耍咚倏勺冃物w行器的概念應(yīng)運而生。具體而言,HMFV是指一類能夠根據(jù)飛行器待執(zhí)行任務(wù)和飛行環(huán)境特點實時調(diào)整外形結(jié)構(gòu),以適應(yīng)更寬空域、更大速域飛行任務(wù)的高速飛行器。
按照變形部位及對周圍氣體產(chǎn)生的不同影響,可分為內(nèi)流部件變形和外流部件變形兩類。前者主要指進氣道、發(fā)動機噴管等部位發(fā)生主動變形,以獲得更強動力或者更高的燃燒效率;后者主要指頭部、機翼、機身等三類變形,以獲得更優(yōu)的氣動特性[7]。20世紀50年代以來,變形飛行器的研究得到了諸多國家高度重視,相繼開展了不同層面的深入研究,取得了許多有價值的研究成果,如翼面可彎曲、可變后掠的任務(wù)自適應(yīng)機翼項目,機翼可扭轉(zhuǎn)的主動柔性機翼項目,以及機翼可折疊、可變后掠角的變形飛行器結(jié)構(gòu)等項目[8]。隨著材料科學(xué)的發(fā)展,高速類變形飛行器的研究開始顯得具有現(xiàn)實意義。
對于HMFV而言,翼面變形對于氣動性能有較大的影響,可帶來較大的氣動性能上的提升,且易于工程實現(xiàn)與應(yīng)用,目前也多是采用翼面剛性變形方案[9]。那么“何時變形?何種狀態(tài)變形?變形量多大?”是我們需要解決的問題之一。一種樸素的思想是飛行任務(wù)離線標定,即在飛行前在任務(wù)系統(tǒng)中設(shè)定好變形方案,飛行器在不同階段展開不同構(gòu)型,這種決策方案更為簡單且易于工程應(yīng)用。然而,這種方案無法滿足綜合性能實時最優(yōu)的效果,且難以滿足任務(wù)變更的特殊狀況。隨著智能材料的發(fā)展、滑動蒙皮的應(yīng)用,可連續(xù)變形飛行器的應(yīng)用已逐漸成為可能。因此,實時智能變形決策問題是HMFV工程應(yīng)用亟需研究的重點問題之一。針對上述問題,以強化學(xué)習(xí)為代表的智能思想被應(yīng)用于飛行器的制導(dǎo)、控制與決策的研究中[10-12]。
強化學(xué)習(xí)的核心思想是通過感知環(huán)境的變化,智能體以“試錯”的方式獲得獎勵的最大值,從而進一步改進動作策略以適應(yīng)環(huán)境[10]。典型的強化學(xué)習(xí)算法包括Q-Learning、SARSA、動態(tài)規(guī)劃等方法,其是一類動作空間離散的學(xué)習(xí)方法,擅長處理有限個狀態(tài)和動作空間的問題。Deepmind團隊進一步將強化學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合,形成了DQN網(wǎng)絡(luò),進一步強化了高維問題的解決能力,但是動作空間本質(zhì)上仍為離散形式。文獻[13]以Q-Learning算法為基礎(chǔ),設(shè)計帶有升力系數(shù)、阻力系數(shù)和前緣力矩系數(shù)在內(nèi)的獎勵函數(shù),以學(xué)習(xí)獲得不同狀態(tài)下機翼的最優(yōu)厚度及外傾角;文獻[14]用Q-Learning算法實現(xiàn)在爬升、巡航、俯沖三種典型飛行模式下對給定的幾類固定外形進行決策,以期獲得不同任務(wù)下的最優(yōu)構(gòu)型,同時設(shè)計縱向通道控制律。但決策與控制相互獨立,變形決策未考慮對控制效果的影響。文獻[15]以一種簡化的橢球變形飛行器為對象,基于給定的變形量隨變形執(zhí)行機構(gòu)驅(qū)動電壓的變化公式,利用DDPG算法獲得適應(yīng)于整個飛行任務(wù)中的決策方案;文獻[16]針對后掠角和展長同時可變的無人機進行變形決策,同時將可變形機翼作為控制面,輔助完成滾動和轉(zhuǎn)彎控制;文獻[17]基于DDPG對一類仿生飛行器進行后掠角連續(xù)變形決策,且利用風(fēng)洞試驗和實際飛行的模擬數(shù)據(jù)進行對比驗證。
綜上所述,當(dāng)前對于變外形飛行器的研究還較少,且研究對象多是低空、低速類無人機,鮮有對HMFV的變形決策問題進行討論。此外,現(xiàn)有公開文獻在變形決策方面的研究所考慮的優(yōu)化指標較為簡單,僅以升力系數(shù)、阻力系數(shù)或升阻比為單一目標。而對于HMFV而言,在某一套控制增益下,其變形不僅帶來氣動性能的優(yōu)化,且?guī)淼妮^大的參數(shù)攝動會對姿態(tài)系統(tǒng)的穩(wěn)定帶來不容忽略的影響,因此有必要研究考慮決策與控制的融合問題。本文以HMFV滑翔段飛行過程為例,開展滑翔過程中考慮包含升阻比,穩(wěn)定性及姿態(tài)跟蹤能力的綜合性能最優(yōu)下的變形決策研究。首先,基于飛行器動力學(xué)模型,對HMFV的關(guān)鍵氣動參數(shù)進行分析,得出變后掠角對飛行器的定性影響規(guī)律;其次,設(shè)計考慮綜合指標下的智能變形方案和DDPG算法訓(xùn)練框架;再者,設(shè)計基礎(chǔ)控制器,對帶有控制器的可變后掠HMFV變形決策智能體進行訓(xùn)練,獲得具備一定泛化能力的決策智能體。最后進行數(shù)學(xué)仿真,校驗方法的有效性。
如圖1所示,本文以一種可連續(xù)變后掠角的HMFV飛行器為研究對象,后掠角Λ變化范圍是30°~90°。由于在飛行過程中,為保持較優(yōu)氣動性能,后掠角會隨著不同狀態(tài)而改變,后掠角的變化將進一步導(dǎo)致關(guān)鍵氣動數(shù)據(jù)的大范圍變化,給控制系統(tǒng)帶來挑戰(zhàn)。因此,本文的研究是基于變外形飛行器受控狀態(tài)下的變形智能決策問題。為簡化建模過程,這里直接給出面向姿態(tài)控制的HMFV動力學(xué)非線性模型如下:
圖1 可變后掠高速飛行器示意圖Fig.1 Schematic diagram of the variable swept-back HMFV
(1)
表1 氣動插值表狀態(tài)范圍Table 1 The status range for aerodynamics parameters interpolation
(2)
升力Y、阻力D和側(cè)力C可表示如下:
(3)
三通道控制力矩Mx,My,Mz可表示如下:
(4)
式中:Q=ρV2/2為所處環(huán)境下的動壓;s為飛行器參考面積;ρ為飛行器實際飛行高度下的大氣密度;c和b分別是縱向特征長度和側(cè)向特征長度。
本文以一類可變后掠HMFV飛行器滑翔段為例,選取了在飛行包線內(nèi)不同工作點的氣動數(shù)據(jù),工作點的選取維度包括攻角、馬赫數(shù)、高度、后掠角。圖2~5給出了HMFV在基礎(chǔ)構(gòu)型下(Λ=90°),不同速度下的部分氣動力、氣動力矩系數(shù)以及升阻比的變化;圖6~7給出了HMFV在不同構(gòu)型下部分關(guān)鍵氣動系數(shù)在馬赫數(shù)8下的變化趨勢。
由圖2可知,零舵偏時,升力系數(shù)與攻角近似呈現(xiàn)線性關(guān)系,且Ma越大,升力系數(shù)越小,攻角越大體現(xiàn)越為明顯;類似的,如圖3所示,阻力系數(shù)在零舵偏下與攻角近似呈現(xiàn)指數(shù)關(guān)系,阻力系數(shù)隨著Ma增大而越小;圖4為固定構(gòu)型下的升阻比曲線,總體而言,升阻比在攻角為10°左右達到峰值;圖5是俯仰力矩系數(shù)隨著攻角的變化,在圖5所示的攻角范圍內(nèi),該飛行器表現(xiàn)為縱向靜不穩(wěn)特性。
圖2 基礎(chǔ)構(gòu)型下不同馬赫數(shù)下的升力系數(shù)變化Fig.2 Variation of lift coefficients at different Mach values for the basic configurations
圖3 基礎(chǔ)構(gòu)型下不同馬赫數(shù)下的阻力系數(shù)變化Fig.3 Variation of drag coefficients at different Mach values for the basic configurations
圖4 基礎(chǔ)構(gòu)型下不同馬赫數(shù)下的升阻比變化Fig.4 Variation of lift-to-drag ratio at different Mach values for the basic configurations
圖5 基礎(chǔ)構(gòu)型下不同馬赫數(shù)下的俯仰力矩系數(shù)變化Fig.5 Variation of pitching moment coefficient at different Mach values for the basic configuration
不同構(gòu)型下的氣動特性如圖6~9所示,圖中Λ表示后掠角。由圖6可知,隨著后掠角增大,飛行器的升力系數(shù)隨著攻角的增大而減小。分析其原因是后掠角增大,翼的外露面積及翼展長度均減小,進一步帶來的升力面減小。同理,由圖7可知,隨著后掠角增大,因其零升阻力系數(shù)和誘導(dǎo)阻力系數(shù)均減小,導(dǎo)致阻力系數(shù)進一步減小。
圖6 四種不同構(gòu)型下的升力系數(shù)變化(Ma 8)Fig.6 Variation of lift coefficient for four different configurations (Ma 8)
圖7 四種不同構(gòu)型下的阻力系數(shù)變化(Ma 8)Fig.7 Variation of drag coefficient for four different configurations (Ma 8)
圖8 四種不同構(gòu)型下的升阻比變化(Ma 8)Fig.8 Variation of lift-to-drag ratio for four different configurations (Ma 8)
圖9 四種不同構(gòu)型下的俯仰力矩系數(shù)變化(Ma 8)Fig.9 Variation of pitching moment coefficient for four different configurations (Ma 8)
這里僅給出對飛行器影響較大的氣動數(shù)據(jù)變化趨勢,對稱變形對于橫側(cè)向的影響較小,由于篇幅有限,這里不再贅述。由圖6~9可以得出以下幾點結(jié)論:
(1)相比于傳統(tǒng)固定構(gòu)型飛行器,變形飛行器的氣動系數(shù)不僅與馬赫數(shù)、攻角等相關(guān),變外形對于氣動的影響亦不可忽略。
(2)變形飛行器升阻比隨后掠角的增大變化規(guī)律較為復(fù)雜,在一定攻角范圍內(nèi)(α∈(5°~10°)),變構(gòu)型對升阻比的影響較大,超過某一范圍影響變小。
(4)對于滑翔段而言,不同的攻角、速度下產(chǎn)生最佳升阻比所需要的構(gòu)型也不同,理想情況下可根據(jù)飛行狀態(tài)調(diào)整后掠角,實現(xiàn)滑翔段下的全程最優(yōu)構(gòu)型,可達到增大射程的目的。
本文所研究的可連續(xù)變后掠的HMFV飛行器智能變形決策是連續(xù)的過程,而某一指標下的最優(yōu)外形又取決于飛行環(huán)境和任務(wù),因此本文將具備環(huán)境感知能力的DDPG算法引入到變外形飛行器的智能決策中。本文的研究目標包含三點:1)滑翔段全程實時獲得最優(yōu)升阻比;2)變形的過程中考慮變形對飛行器穩(wěn)定性影響,考慮在變形和基礎(chǔ)控制器作用下使得姿態(tài)跟蹤誤差盡可能小;3)通過訓(xùn)練獲得HMFV的變形決策智能體具備一定的泛化能力。
本文提出的基于強化學(xué)習(xí)的智能決策方法關(guān)鍵點在于設(shè)計強化學(xué)習(xí)要素,包括環(huán)境模型表示、動作空間表示、回報函數(shù)設(shè)計及動作選擇策略。DDPG是一種基于Actor-Critic算法框架下的確定性策略方法,Actor模塊進行動作選擇,Critic模塊進行價值函數(shù)評估[19]。為保證算法穩(wěn)定性,DDPG算法一共設(shè)置了兩套網(wǎng)絡(luò),即在線網(wǎng)絡(luò)和目標網(wǎng)絡(luò)。每套網(wǎng)絡(luò)中又分別包含兩個神經(jīng)網(wǎng)絡(luò),即策略網(wǎng)絡(luò)和值函數(shù)網(wǎng)絡(luò)。因此,DDPG算法中一共包含在線策略(Online-Actor)網(wǎng)絡(luò)、在線值函數(shù)(Online-Critic)網(wǎng)絡(luò)、目標策略(Target-Actor)網(wǎng)絡(luò)和目標值函數(shù)(Target-Critic)網(wǎng)絡(luò)四個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[20]。定義Online-Critic網(wǎng)絡(luò)參數(shù)為θQ,Online-Actor網(wǎng)絡(luò)參數(shù)為θμ,Target-Critic網(wǎng)絡(luò)參數(shù)為θQ′,Target-Actor網(wǎng)絡(luò)參數(shù)為θμ′,算法實現(xiàn)框架如圖10所示。
圖10 DDPG算法實現(xiàn)框架Fig.10 The implementation framework of DDPG algorithm
具體而言,DDPG算法執(zhí)行過程如下:
1)初始化網(wǎng)絡(luò)參數(shù)θQ和θμ,同時將值賦給目標網(wǎng)絡(luò),即θQ→θQ′,θμ→θμ′,初始化經(jīng)驗回放池,初始化觀測值;
2)根據(jù)初始狀態(tài)值生成變形策略a′,同時添加隨機噪聲vN,即a′=ai+vN,且vN~N(0,σ2);
3)執(zhí)行變形策略a′(變形量),獲得值函數(shù)(即獎勵)和下一時刻狀態(tài)向量Si+1;
4)樣本數(shù)據(jù)(Si,ai,ri,Si+1)存儲至經(jīng)驗回放池,作為網(wǎng)絡(luò)訓(xùn)練集;
(4)為了廣納人才,擴大“帶頭人”的選擇范圍,選出能真正改變一村經(jīng)濟面貌的“帶頭人”作為對農(nóng)村的人才支援,可以采取與“援藏”一樣的政策力度,讓來自農(nóng)村的外出務(wù)工人員、大學(xué)生、公務(wù)員都可回原藉參加選舉.大學(xué)生勝選者可保留學(xué)藉,任職結(jié)束后仍可選擇繼續(xù)學(xué)習(xí),任職經(jīng)歷視同社會實踐;公務(wù)員勝選者可保留原職,可連續(xù)計算工齡,任職結(jié)束后仍可回原單位工作.勝選者作為準公職人員管理,根據(jù)任職業(yè)績考核計酬.任職能力與政績表現(xiàn)突出者可直接招錄為縣、鄉(xiāng)級公務(wù)員,以拓展農(nóng)村經(jīng)濟“帶頭人”的政治前途,激勵這些人為一方村民奉獻自己的聰明才智.鼓勵退休公職人員回鄉(xiāng)參加競選,發(fā)揮余熱,勇當(dāng)發(fā)展農(nóng)村經(jīng)濟的帶頭人.
5)隨機抽取經(jīng)驗池小樣本(mini-batch)數(shù)據(jù),對Actor和Critic網(wǎng)絡(luò)進行訓(xùn)練,按如下流程更新網(wǎng)絡(luò)參數(shù);
② 策略梯度反向傳播更新給Online-Actor網(wǎng)絡(luò)參數(shù)θμ;按照如下方式梯度更新
③ 以Soft-update的方式更新Target-Actor網(wǎng)絡(luò)參數(shù)和Target-Critic網(wǎng)絡(luò)參數(shù),即
6)重復(fù)在步驟2~5,到達設(shè)定的回合數(shù)或平均獎勵值則停止訓(xùn)練。
如前所述,DDPG算法實現(xiàn)需要狀態(tài)、動作、獎勵函數(shù)、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以及訓(xùn)練過程復(fù)雜參數(shù)的設(shè)計??紤]到工程應(yīng)用,首先需要考慮智能體能獲得的環(huán)境觀測值、可執(zhí)行動作及特性以及與環(huán)境交互下的回報形式。針對HMFV的滑翔段決策問題,可觀測的狀態(tài)空間為期望升阻比、當(dāng)前升阻比與期望最優(yōu)升阻比的差、姿態(tài)角指令、指令跟蹤誤差??紤]到單個周期下的狀態(tài)空間訓(xùn)練收斂速度慢,本文充分利用歷史數(shù)據(jù),使用包含當(dāng)前狀態(tài)在內(nèi)的五個歷史周期的數(shù)據(jù),將每個狀態(tài)空間擴張到五維,可有效提升智能體訓(xùn)練過程的收斂效果,形如式(5):
(5)
式中:αc是攻角指令;λc為期望升阻比;eλ當(dāng)前升阻比與期望最優(yōu)升阻比的差;eα為指令跟蹤誤差;st是狀態(tài)空間。
1) 由動力學(xué)特性分析可知,變形對于俯仰通道的影響較為明顯,橫側(cè)向通道影響較小,因此本文的決策過程中,僅考慮變形對攻角的影響。同時由于研究的是滑翔段,因此考慮升阻比最優(yōu)的決策目標。經(jīng)分析,該飛行器在任意構(gòu)型下,給定的速度和攻角范圍內(nèi)最大升阻比都小于3,因此本文定義期望升阻比為3,將決策問題轉(zhuǎn)化為跟蹤控制。此外,由于本文的智能決策是基于控制閉環(huán)狀態(tài)下的過程,狀態(tài)空間中的觀測值攻角跟蹤誤差存在與其他觀測值數(shù)量級不一致的問題,因此在實際訓(xùn)練過程中需要對觀測值做歸一化處理。
智能體動作輸出為飛行器變形指令,即飛行器的期望后掠角:
at=Λtc
(6)
考慮到變形機構(gòu)的動力學(xué)特性,在訓(xùn)練中使用如下二階動力學(xué)特性代替:
(7)
當(dāng)前回報與智能體當(dāng)前動作策略輸出后得到的姿態(tài)偏差、期望的升阻比偏差有關(guān),同時增加單步常值獎勵,用于激勵智能體盡可能執(zhí)行完單個訓(xùn)練周期,有助于提升智能體訓(xùn)練的收斂速度。此外,選擇最優(yōu)升阻比跟蹤誤差eλ和攻角跟蹤誤差eα為稀疏獎勵的判斷項,當(dāng)大于設(shè)定值則給一個較大的懲罰。具體獎勵函數(shù)表達式如式(8)。
(8)
式中:
表2 獎勵函數(shù)參數(shù)設(shè)置Table 2 Parameters of reward function
2) 不同于其他文獻中的變形決策,本文進一步考慮變形對姿態(tài)的影響,為了使得獎勵函數(shù)設(shè)計的更為合理,將變形決策問題統(tǒng)一轉(zhuǎn)化為跟蹤問題,同時將觀測值歸一化,有利于智能體訓(xùn)練的收斂快速性。表2中的參數(shù)設(shè)置依賴于飛行器特性、決策問題本身以及智能體訓(xùn)練者的經(jīng)驗,可根據(jù)問題的側(cè)重點不同調(diào)整懲罰因子。
本文所用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)均為多隱層反向傳播前饋神經(jīng)網(wǎng)絡(luò)。對于Actor網(wǎng)絡(luò),其輸入層擁有25個神經(jīng)元對應(yīng)25維的環(huán)境輸入;中間3個全連接形式的隱含層均擁有64個神經(jīng)元,激活函數(shù)為ReLU;輸出層擁有1個神經(jīng)元對應(yīng)1維智能體的動作,即變形決策量,激活函數(shù)為tanh型,添加偏置后可保證智能體的動作量處于設(shè)定的范圍內(nèi),有助于訓(xùn)練的快速收斂。Critic網(wǎng)絡(luò)同樣擁有25維的環(huán)境輸入,即輸入層對應(yīng)25個神經(jīng)元,以及1維的動作;狀態(tài)輸入經(jīng)過2組64神經(jīng)元的全連接層后與動作輸入經(jīng)過1組64神經(jīng)元的全連接層的輸出進行同維求和,最后再經(jīng)過一個64神經(jīng)元的全連接層后輸出,輸出為1維對應(yīng)輸入狀態(tài)和動作下的狀態(tài)行為值,各層激活函數(shù)均為ReLU型。本文基于DDPG的智能變形決策算法訓(xùn)練過程中設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)如圖11所示。
圖11 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.11 Architecture diagram of the neural network
DDPG算法對于超參數(shù)較為敏感,一組合適的超參數(shù)可有助于訓(xùn)練的快速收斂。根據(jù)經(jīng)驗,本文智能體訓(xùn)練使用的超參數(shù)設(shè)置如表3所示。
表3 智能體訓(xùn)練超參數(shù)設(shè)置Table 3 Hyper-parameters for the training agent
回報曲線是反映智能體在訓(xùn)練過程中的收斂性能變化的重要體現(xiàn)。對于帶有五拍歷史數(shù)據(jù)的訓(xùn)練過程中,每5個訓(xùn)練回合的平均獎勵隨回合數(shù)變化情況如圖12中帶有*標記曲線所示。訓(xùn)練開始時,智能體探索初期會存在大偏差狀態(tài)使得累積回報較小,同時容易觸發(fā)提前終止條件,得到大的懲罰,因此初期的獎勵函數(shù)在大范圍內(nèi)變化。在訓(xùn)練40次之后,智能體決策得到的綜合指標性能顯著提升,收斂效果較好,在90次后滿足終止條件。而僅使用當(dāng)前拍狀態(tài)作為輸入時,智能體訓(xùn)練則難以有效的收斂,甚至無法收斂,其獎勵值如圖13所示。
圖12 帶有歷史數(shù)據(jù)的訓(xùn)練累積回報曲線Fig.12 Curves of cumulative reward with history dates
經(jīng)過動力學(xué)特性分析,對于升阻比而言,其主要受馬赫數(shù)和攻角影響,因此我們可以得到不同速度、攻角下較優(yōu)的構(gòu)型(后掠角)。因此可通過插值的方式獲得基礎(chǔ)決策量作為參考,在此基礎(chǔ)上進行“有專家指導(dǎo)”下的訓(xùn)練,相比于其他文獻可大大提升訓(xùn)練效率。
圖13 無歷史數(shù)據(jù)的訓(xùn)練累積回報曲線Fig.13 Curves of cumulative reward without history dates
由于本文研究是變形飛行器的綜合性能指標下的智能決策問題,決策因子包含姿態(tài)跟蹤誤差,為了體現(xiàn)決策的有效性,因此本文設(shè)計一類基于動態(tài)逆的內(nèi)外環(huán)標稱控制器。將變外形飛行器動力學(xué)模型式(1)整理為面向控制的數(shù)學(xué)模型式(9)。
(9)
式中:Ω=[α,β,μ]T,ω=[ωx,ωy,ωz]T是內(nèi)外環(huán)的狀態(tài);U=[Mx,My,Mz]T是控制力矩;F1,G1,F2,G2分別是標稱模型下關(guān)于狀態(tài)的非線性方程:
F1=
針對式(9),可基于時標分離假設(shè),分別設(shè)計姿態(tài)環(huán)和角速度環(huán)標稱控制律,如式(10)所示:
(10)
式中:Ωc是制導(dǎo)系統(tǒng)給出的姿態(tài)控制指令,ωc是角速度指令,屬于虛擬控制量,且二者微分量可由微分跟蹤器獲得;K1=diag(5,10,5)是姿態(tài)環(huán)的控制增益;Κ2=diag(15,50,15)是角速度環(huán)的控制增益。
基于標稱控制律式(10)及DDPG的框架,本文設(shè)計的智能變形決策與控制一體化方案如圖14所示。由于本文針對飛行器的滑翔段為研究階段,核心目標是通過變形提升阻比,進一步提高滑翔距離,同時考慮變形過程對姿態(tài)的影響,盡可能減小變形過程對姿態(tài)的影響,甚至是通過變形提升單一控制增益下的控制精度。需要說明的是,不同的任務(wù)需要設(shè)計不同的評價指標,如:爬升段設(shè)計升力最優(yōu),下壓段設(shè)計阻力最優(yōu)。由于實際飛行過程中需要考慮變形機構(gòu)的特性,因此在訓(xùn)練的過程中以二階動力學(xué)模擬,更具工程應(yīng)用價值。
圖14 HMFV智能決策控制一體化框架Fig.14 Intelligent decision and control integration framework for HMFV
圖15 不同決策方式下的變形指令Fig.15 Deformation instructions under different decision methods
在訓(xùn)練過程中,我們僅使用了前20 s的狀態(tài),后20 s是訓(xùn)練過程中未遇到的狀態(tài),可以看出,所訓(xùn)練的智能體具有較好的泛化性能。圖15是通過反插值獲得的基礎(chǔ)決策量、考慮單一指標和綜合指標下訓(xùn)練后得到的智能體在閉環(huán)系統(tǒng)中的決策指令輸出。從圖中可以看出,基礎(chǔ)決策量可有效“指導(dǎo)”智能體決策輸出。同時,在單一決策指標下僅考慮升阻比,因此變形量變化更加急劇,而綜合決策指標下的變形量更為緩和,更加符合工程應(yīng)用條件。從升阻比的變化看,如圖16所示,虛線為基礎(chǔ)構(gòu)型(Λ=90°)下獲得的升阻比,點畫線為智能體實時決策下的升阻比,實線是反插值方式獲得基礎(chǔ)決策量下升阻比,可以看出訓(xùn)練后的智能體在不同條件下均可實時獲得當(dāng)前狀態(tài)下的更優(yōu)的氣動性能。
圖16 不同決策方式下的升阻比隨狀態(tài)變化曲線Fig.16 The lift-to-drag ratio variations with status under different decision methods
圖17~20是在標稱控制律(10)的閉環(huán)作用下,使用單一決策指標和考慮指令跟蹤誤差的綜合決策指標兩種決策模式下的指令跟蹤情況,圖17是攻角跟蹤響應(yīng),圖19是側(cè)滑角響應(yīng),圖20是傾側(cè)角響應(yīng)。由圖18可知,在給定控制增益下,綜合指標決策下的變形過程中跟蹤誤差均有所減小,特別是對于動態(tài)跟蹤誤差表現(xiàn)的更為明顯,基于綜合決策指標得到的變形決策指令帶來的動態(tài)跟蹤誤差減小了近50%,這也表示所訓(xùn)練的智能體在決策過程中實現(xiàn)了綜合性能指標最優(yōu)的目標。
圖17 不同決策指標下的攻角響應(yīng)Fig.17 The attack angel response under different decision indicators
圖18 不同決策指標下的攻角誤差Fig.18 The tracking error of attack angle under different decision indicators
圖19 不同決策指標下的側(cè)滑角響應(yīng)Fig.19 The response of sideslip angle under different decision indicators
圖20 不同決策指標下的傾側(cè)角響應(yīng)Fig.20 The response of bank angel under different decision indicators
需要說明的是,由于升阻比主要受到攻角的影響,且考慮到實際變形時不宜做傾側(cè)轉(zhuǎn)彎,因此本文給的傾側(cè)角指令為0。同時,由動力學(xué)特性分析可知,變后掠角的變形形式對偏航通道和滾轉(zhuǎn)通道的影響較小,為了加快智能體訓(xùn)練的收斂速度,僅考慮變形對攻角誤差的影響,但是從側(cè)滑角的響應(yīng)來看,受益于更加合理的變形決策指令,側(cè)滑角的誤差也有所改善,達到了預(yù)期的效果。
對于一類可連續(xù)變形的高速飛行器智能變形決策問題,本文進一步考慮變形決策與控制融合問題,以滑翔段的變形決策為研究目標。首先,基于動力學(xué)特征選取合理的決策指標;其次,應(yīng)用強化學(xué)習(xí)方法,使HMFV在飛行過程中根據(jù)任務(wù)、狀態(tài)條件自主決策實時得到最優(yōu)構(gòu)型;再者,綜合考慮氣動性能指標與穩(wěn)定性指標設(shè)計獎勵函數(shù),將決策問題轉(zhuǎn)換為跟蹤問題;最后,通過仿真驗證本文提出的基強化學(xué)習(xí)的HMFV智能變形策略可使其有很好的氣動性能,同時可以增強變形過程中的飛行穩(wěn)定。
針對下一步的具體研究工作可以從以下兩點進一步開展:1)構(gòu)造典型任務(wù),實現(xiàn)全彈道、多任務(wù)下的實時智能變形決策;2)變形控制與姿態(tài)控制一體化研究,一方面獲得最佳構(gòu)型,一方面充分發(fā)揮智能控制的作用,生成智能補償控制律,實現(xiàn)變形過程中的更高精度控制。