邵會兵,詹韜,付京博
弱模型依賴通用智能姿態(tài)控制技術
邵會兵,詹韜,付京博
(北京控制與電子技術研究所,北京 100038)
超高速跨域飛行、敏捷機動等是新一代飛行器發(fā)展方向,而長時高速飛行產生的氣動外形變化帶來的氣動參數大范圍改變等問題,都對控制系統(tǒng)設計提出了更高的要求。為提高飛行器對模型不確定性的適應能力及控制方法對不同外形、復合執(zhí)行機構的通用性,深入研究了弱模型依賴的通用智能姿態(tài)控制技術,分層次地開展了基于深度學習(DL)的自適應姿態(tài)控制、基于深度確定性策略梯度算法(DDPG)的通用姿態(tài)控制、弱模型依賴的多維復合控制等技術研究,顯著提高了控制系統(tǒng)的魯棒性和通用性,對人工智能技術在飛行器姿態(tài)控制中的應用具有一定的指導意義。
弱模型依賴;自適應智能控制;多維復合控制;深度強化學習(DRL);擴張狀態(tài)觀測器
隨著飛行器的高速發(fā)展,其飛行環(huán)境及任務也日漸復雜。飛行器在大氣層內高速機動飛行時,其速度范圍變化大、高度范圍覆蓋廣,因此氣動參數也隨之大范圍快速變化,同時,長時間高速機動飛行導致的氣動外形變化,進一步加劇了氣動參數的不確定性,這些都要求控制系統(tǒng)具有更強的適應能力。
另一方面,飛行器氣動外形從過去單一的軸對稱外形已逐步發(fā)展到軸對稱、面對稱氣動外形共存的局面。為獲得更強的機動能力,針對敏捷機動飛行器的研究也正在如火如荼地進行,這都對姿態(tài)控制系統(tǒng)提出了巨大的挑戰(zhàn)。
此外,隨著飛行器設計的不斷進步,其執(zhí)行機構也日趨多樣。多種類執(zhí)行器為飛行器跨域飛行提供了更強大的控制能力,但也對姿態(tài)控制系統(tǒng)提出了多維復合控制要求。
在環(huán)境復雜、氣動參數大范圍不確定性變化的條件下,傳統(tǒng)控制器難以實現高精度姿態(tài)控制。為解決上述問題,許多學者使用先進控制理論來進行飛行器的姿態(tài)控制設計。文獻[1-3]使用非奇異終端滑??刂品椒▉韺崿F環(huán)境及模型強不確定性下的飛行器姿態(tài)控制,但滑模變結構控制仍然依賴高精度的飛行器模型。文獻[4-5]使用自適應動態(tài)反演控制方法來實現飛行器的姿態(tài)控制,但反演控制方法的補償精度完全依賴氣動數據準確性,當參數大范圍不確定變化時,補償效果通常會下降。文獻[6]使用L1自適應控制來應對飛行器姿態(tài)控制中面臨的諸多不確定性。姿態(tài)控制系統(tǒng)采用復合控制能夠提升控制能力,增強對外界干擾的適應能力[7]。針對姿態(tài)控制系統(tǒng)多維復合控制的需求,現有分配方法通常通過解耦分解[8]、構建分配函數[9]、最小二乘[10]、線性規(guī)劃等優(yōu)化方法進行控制分配。文獻[11]使用基于二次規(guī)劃的按需動態(tài)分配方法,實現了飛行器的氣動舵面及反作用控制系統(tǒng)的復合控制。這些基于先進控制理論的控制方法均依賴于對被控對象的高精度建模,難以應對現代高速飛行器的姿態(tài)控制需要。
若要從根本上解決現有姿態(tài)控制方法與現實需求之間的矛盾,必須降低控制方法對模型的依賴程度,以提高對模型不確定性的適應性,增強對不同氣動外形的通用性。文獻[12]使用弱模型依賴方法實現了高性能船舶穩(wěn)定控制,但其將未建模部分視為誤差,通過觀測器進行干擾補償的方法彌補,難以實現復雜未建模動態(tài)下的穩(wěn)定控制。文獻[13-14]使用深度強化學習(Deep Reinforcement Learning,DRL)實現不依賴模型的控制算法,但其直接基于深度神經網絡輸出控制量,缺乏魯棒性分析,難以用于工程實踐和滿足通用化設計需求。本文在深入研究了弱模型依賴姿態(tài)控制技術的基礎上,遵循控制系統(tǒng)發(fā)展規(guī)律,提出了“基于深度學習(Deep Learning,DL)的自適應姿態(tài)控制、基于深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)的通用姿態(tài)控制、弱模型依賴的多維復合控制技術”3個智能程度逐層遞進的姿態(tài)控制方案,力圖為飛行器姿態(tài)控制從傳統(tǒng)方法逐步走向智能化方法提供一定借鑒。
本文圍繞高速飛行器在環(huán)境及模型高不確定性變化下的弱模型依賴通用智能姿態(tài)控制技術開展研究,第1章提出了基于DL的自適應姿態(tài)控制設計,基于DL實現對氣動數據變化的預估及前饋補償;第2章深入研究基于DDPG的通用姿態(tài)控制技術,基于DRL實現了傳統(tǒng)控制器面向高不確定性環(huán)境及模型的進化;第3章研究弱模型依賴的多維復合控制技術,實現針對多維執(zhí)行機構的復合姿態(tài)控制;第4章得出結論,給出分析。
有關基于DL的自適應姿態(tài)控制技術的詳細內容參見文獻[15]。該方法基于小擾動線性化思想,采用“反饋線性化+自適應PID”控制算法框架,算法結構如圖1所示。
該方法將氣動數據作為訓練樣本,采用DL技術離線訓練獲得反饋線性化神經網絡和氣動偏導數神經網絡。并在線根據網絡輸出自適應調整控制規(guī)律,使得控制律僅與飛行狀態(tài)相關,實現控制律與飛行軌跡的解耦,可滿足寬飛行包線、寬飛行空域、寬飛行高度的多樣化飛行軌跡控制需求。然而反饋線性化算法補償精度完全依賴氣動數據準確性,一旦由于外形變化等因素導致氣動數據天地不一致,補償效果明顯變差,直接導致控制品質下降,甚至失穩(wěn)。
經飛行器仿真測試[15],采用上述方法對氣動偏差的適應能力約為30%。
基于DL的自適應姿態(tài)控制方法實現了控制律與飛行軌跡的解耦,但神經網絡是根據氣動數據離線訓練獲得,不同外形飛行器難以通用,且氣動偏差的魯棒性難以提升;此外,該方法設計仍需設計師對控制器帶寬等參數進行精細化設計,對模型和任務的依賴程度仍較高。
為進一步降低控制算法對模型的依賴程度,一方面考慮取消反饋線性化網絡,而將控制對象模型的所有非線性部分和外擾均看作系統(tǒng)的“未知擾動”,并采用擴張狀態(tài)觀測器進行觀測并實時補償;另一方面,為解決控制器帶寬和觀測器帶寬自適應最優(yōu)調節(jié)問題,提出采用強化學習離線訓練得到控制器和觀測器帶寬自主調節(jié)神經網絡,并在線應用該網絡實時計算獲得最佳帶寬,實現期望的最佳控制性能。算法的控制系統(tǒng)框圖如圖2所示。
基于DDPG的通用姿態(tài)控制算法將智能控制與傳統(tǒng)控制進行有機結合,在自抗擾控制器的基礎上保留“干擾觀測-補償”框架,增加DRL算法,實現控制器帶寬和ESO帶寬在線實時調度,進一步提高控制器的性能。自抗擾控制方法是韓京清先生于20世紀80年代末期創(chuàng)建的一種估計補償不確定因素的控制技術[16],其將作用于被控對象的所有不確定因素(建模誤差和外加干擾)都歸結為“總的未知擾動”,并利用控制對象的輸入輸出數據對它進行估計并給予補償。
自抗擾控制方法主要由以下3個部分組成:
2)反饋控制律。根據系統(tǒng)的控制誤差確定反饋控制量。
3)擴張狀態(tài)觀測器。根據控制對象的輸入輸出信號對擴張狀態(tài)(總擾動)進行估計。
將以上跟蹤微分器、反饋控制律、擴張狀態(tài)觀測器組合在一起,構成自抗擾控制器,如圖3所示。
2.2.1跟蹤微分器設計
跟蹤微分器用于對姿態(tài)角指令安排過渡過程,目的是在考慮控制系統(tǒng)實際跟蹤能力前提下,合理安排過渡過程以實現跟蹤能力范圍內的無超調最速跟蹤。
通過文獻[16]提出一種最速跟蹤微分器,其有很好的噪聲抑制能力,離散后的形式為
2.2.2非線性反饋控制律設計
采用誤差和誤差微分的適當非線性組合設計反饋控制率,形式如下:
2.2.3擴張狀態(tài)觀測器設計
對于自抗擾控制器來說,最核心是擴張狀態(tài)觀測器,通過建立擴張狀態(tài)觀測量的觀測方程,使系統(tǒng)具有擾動估計和補償的能力[17]。
以飛行器俯仰通道為例,姿態(tài)運動動力學方程為
擴張狀態(tài)觀測器方程為
2.2.4DDPG算法的設計與訓練
DDPG是在深度Q學習方法基礎上,采用了執(zhí)行器-評價器(Actor-Critic)架構的DRL。其在訓練中根據異策略(Off-Policy)數據及貝爾曼方程學習價值函數,并同時使用價值函數來作為學習策略[18-19]。策略即為執(zhí)行器-評價器架構中的執(zhí)行器,根據環(huán)境反饋的狀態(tài),輸出系統(tǒng)的連續(xù)動作;價值函數即為執(zhí)行器-評價器架構中的評價器,根據狀態(tài)及動作,輸出策略由狀態(tài)的期望回報。訓練過程即為迭代擬合價值函數及最大化價值函數的策略,直到收斂。
DDPG算法的目標即為最大化策略在當前狀態(tài)下,未來折扣累積獎勵的期望,即:
價值網絡的損失函數:
式(11)中目標函數表示為
根據上述建立的馬爾科夫決策過程,利用DDPG方法進行地面離線仿真訓練,其訓練算法框架如圖4所示。
本文針對固定速度1 200 m/s及飛行高度45 km的高速飛行器姿態(tài)控制任務進行訓練,訓練階段姿態(tài)角指令為一固定幅值的階躍信號。訓練獲得了比較理想的控制效果,其各回合累積回報的變化曲線如圖5所示。
最后一個回合中姿態(tài)角偏差及姿態(tài)角速度的變化情況如圖6所示。從圖6中可知,Agent學習到了有效的控制參數調節(jié)規(guī)律,飛行器可以快速跟蹤姿態(tài)角指令,且精度較高??梢姡∠饲梆佈a償模塊,并沒有影響姿態(tài)控制的性能,表明本文所提出的“基于DDPG的通用姿態(tài)控制方法”是有效可行的。
應用Agent學習到的控制參數調節(jié)律網絡進行氣動參數大范圍拉偏條件下仿真驗證。連續(xù)進行 5次調姿,姿態(tài)角指令除階躍信號外還包含正弦信號,氣動參數拉偏50%,速度取850 m/s(訓練階段并未針對該速度進行訓練)。在這種條件下,相應的姿態(tài)角跟蹤曲線如圖7所示。
可見該方法設計過程簡單,對氣動參數和總體結構參數變化適應能力強,算法通用性強,在不同速度下能夠適應多種形式的指令,且控制性能保持良好,即使在氣動系數大范圍拉偏的情況下,仍能夠實現姿態(tài)的高精度穩(wěn)定跟蹤,可以認為該方法實現了姿態(tài)控制系統(tǒng)通用化設計。
上述姿態(tài)控制算法將多約束、強不確定性的姿態(tài)跟蹤問題轉化為自適應動態(tài)規(guī)劃問題,并引入DRL算法離線迭代優(yōu)化,建立了較為通用的算法設計流程,顯著提升對氣動參數大范圍偏差的適應能力,但仍存在如下問題:
1)當前高速飛行器具有推力矢量、直接力以及空氣舵等多維異類執(zhí)行機構,該算法針對特定單一執(zhí)行機構設計,難以適應上述執(zhí)行機構的獨立/復合控制[20];
2)動力系數在線辨識與干擾觀測分離設計,降低對象特征感知效率和精度,極端情況下可能影響閉環(huán)系統(tǒng)穩(wěn)定性;
3)可適應的氣動參數變化范圍有限,難以適應未來飛行器敏捷機動控制需求。
針對上述問題,本文提出“弱模型依賴的多維復合控制技術”。首先,考慮連續(xù)、離散姿態(tài)控制的統(tǒng)一,構建面向通用控制的動力學特征模型;其次,在此基礎上采用“平行估計器+魯棒自適應控制器+參數調度律+智能分配律”的算法框架,并將估計器、控制器及分配律的設計參數選取抽象為優(yōu)化問題,引入強化學習算法解決,實現了多維異類復合控制;最后,降低控制算法對精確模型的依賴,發(fā)揮擾動條件下的最優(yōu)性能,同時控制動態(tài)分配也能夠實現執(zhí)行機構典型非致命故障的容錯控制。算法原理框圖如圖8所示。
3.2.1通用全局特征模型
傳統(tǒng)面向控制模型常采用平衡點附近線性化的小擾動模型,相較于飛行器本質的動力學模型,經過了軌跡域、姿態(tài)域、時間域多個維度的約束和簡化,無法滿足新一代高速飛行器寬域、大機動敏捷操縱等需求。為解決上述矛盾,構建飛行器通用全局特征模型為
3.2.2多維異類控制量映射
高速飛行器的多維異類控制分配問題可描述為
由此建立了多維異類控制量映射模型,為后續(xù)智能分配律設計奠定基礎,原理框圖如圖9所示。
3.3.1通用姿態(tài)控制框架
考慮到根據標稱預示模型設計的控制器通用性差,寬域機動和敏捷機動飛行時性能較差,本文采用“平行估計器+魯棒自適應控制器+參數調度律+智能分配律”算法框架。
1)平行估計器:根據動力學輸入和輸出數據對模型中的未知參數和干擾進行一體化估計,并根據估計結果構建導彈姿態(tài)動力學平行系統(tǒng)。
2)魯棒自適應控制器:采用快-慢雙通道滑??刂破鳂嫿ɑ究刂坡桑Y合模型估計器的估計信息,實現全局魯棒自適應控制,求得“虛擬控制量”。
3)參數調度律:負責對控制器和模型估計器的自身參數進行智能最優(yōu)調節(jié),采用評價器-執(zhí)行器框架,離線訓練網絡初值,在線增量式學習。
4)控制分配律:根據控制約束、飛行器目前狀態(tài)及各種執(zhí)行機構控制效率的分布,采用一定的分配策略,實現對不同執(zhí)行機構控制輸出的分配,以期在高精度實現“虛擬控制量”條件下,使控制消耗最低。
3.3.2魯棒自適應控制器
基于特征模型,按照被控變量對控制輸入量響應快慢的特點進行快慢時標分離,構成快回路和慢回路子系統(tǒng),并考慮統(tǒng)一連續(xù)控制和開關控制需求,分別針對快慢回路設計擬滑??刂坡蓪崿F全局魯棒控制,結構如下:
可見,上述控制律為全局非線性形式,同時利用特征參數/干擾一體化在線估計結果,能夠應對寬域飛行導致的動力學強不確定性。
3.3.3智能控制分配
由于存在多種操縱機構,且操縱機構的作用力或力矩可能存在冗余,因此如何合理分配虛擬控制量到實際執(zhí)行機構成為關鍵,將強化學習思路應用于智能分配律設計,構建控制分配的馬爾科夫決策過程,其中獎勵函數的設計至關重要。
由此將虛擬控制量的動態(tài)分配問題等效為優(yōu)化問題,采用DRL算法解決。
為更好地實現未知外界擾動及復雜動力學特性下飛行控制系統(tǒng)的控制性能,在已有的控制系統(tǒng)結構下通過構建平行系統(tǒng)實現對控制器、估計器以及控制分配參數的在線智能優(yōu)化。采用執(zhí)行-評價網絡結構(A-C框架),離線訓練好網絡初值,通過建立效用函數與策略函數描述控制性能指標,根據平行系統(tǒng)跟蹤誤差、穩(wěn)定性、控制能力(剩余執(zhí)行機構控制量、剩余執(zhí)行機構變化速率、控制效率)等進行綜合評價,結合期望最優(yōu)控制性能動態(tài)修正控制參數和估計器參數,并實現智能控制分配。算法原理框圖如圖10所示。
本文從傳統(tǒng)姿態(tài)控制律設計方法嚴重依賴精確控制對象模型問題出發(fā),提出了基于DL的自適應姿態(tài)控制、基于DDPG的通用姿態(tài)控制、弱模型依賴的多維復合控制3個智能化程度逐層遞進的控制方案。該方案可顯著提升飛行控制系統(tǒng)對氣動偏差、干擾的適應性以及對不同外形飛行器的通用控制能力,實現了控制算法對控制對象模型的弱依賴,對人工智能技術在飛行器姿態(tài)控制中的應用提供了一種切實可行的思路。
[1] ZHANG L, WEI C Z, WU R, et al. Fixed-time extended state observer based non-singular fast terminal sliding mode control for a VTVL reusable launch vehicle[J]. Aerospace Science and Technology, 2018, 82: 70-79.
[2] ZHANG R, LU D, SUN C. Adaptive nonsingular terminal sliding mode control design for near space hypersonic vehicles[J]. IEEE/CAA Journal of Automatica Sinica, 2014, 1(2): 155-161.
[3] QIAO J, LI Z, XU J, et al. Composite nonsingular terminal sliding mode attitude controller for spacecraft with actuator dynamics under matched and mismatched disturbances[J]. IEEE Transactions on Industrial Informatics, 2020, 16(2): 1153-1162.
[4] ANSARI U, BAJODAH A H. Launch vehicle ascent flight attitude control using direct adaptive generalized dynamic inversion [J]. Proceeding of the Institution of Mechanical Engineering, Part G: Journal of Aerospace Engineering, 2019, 233(11): 4141-4153.
[5] 董朝陽,路遙,王青.高超聲速飛行器指令濾波反演控制[J].宇航學報,2016,37(8):957-963.
[6] 鐘京洋,宋筆鋒.基于魯棒伺服思想的尾坐式飛行器懸停姿態(tài)控制[J].控制與決策,2020,35(2):339-348.
[7] 周如好,張衛(wèi)東,胡存明,等.運載火箭推力矢量/非線性復合控制方法研究[J].上海航天(中英文),2016,33(增刊1):81-85.
[8] YANG C, ZHONG S, LIU X, et al. Adaptive composite suboptimal control for linear singularly perturbed systems with unknown slow dynamics[J]. International Journal of Robust and Nonlinear Control, 2020, 30:2625-2643.
[9] 郭建國,吳林旭,周軍.非對稱變翼飛行器復合控制系統(tǒng)設計[J].宇航學報,2018,39(1):52-59.
[10] 劉勝,王宇超,傅薈璇.船舶航向保持變論域模糊-最小二乘支持向量機復合控制[J].控制理論與應用,2011,28(4):485-490.
[11] 董哲,劉凱,李旦偉.考慮動態(tài)分配控制的空天飛行器再入姿態(tài)復合控制設計[J].宇航學報,2021,42(6):749-756.
[12] 劉旌揚.弱模型干擾補償控制方法及其在高性能船舶姿態(tài)穩(wěn)定控制中的研究應用[D].上海:上海交通大學,2011.
[13] 裴培,何紹溟,王江,等.一種深度強化學習制導控制一體化算法[J].宇航學報,2021,42(10):1293-1304.
[14] 孔維仁,周德云,趙藝陽,等.基于深度強化學習與自學習的多無人機近距空戰(zhàn)機動策略生成算法[J].控制理論與應用,2022,39(2):352-362.
[15] 邵會兵,崔乃剛,詹韜.基于神經網絡的飛行器控制方法及仿真研究[J].計算機仿真,2018,35(10):94-98.
[16] 韓京清.自抗擾控制技術:估計補償不確定因素的控制技術[M].北京:國防工業(yè)出版社,2008.
[17] 孫明瑋,馬順健,樸敏楠.高超聲速飛行器自抗擾控制方法[M].北京:科學出版社,2018.
[18] RICHARD S S, ANDREW G. Reinforcement learning: an introduction[M]. Cambridge, USA: MIT Press, 2017.
[19] SILVER D, LEVER G, HEESS N, et al. Deterministic policy gradient algorithms[C]//Proceedings of the 31st International Conference on Machine Learning. New York:ACM Press,2014: 387-395.
[20] HE S, LIN D, WANG J. Compound control methodology for a robust missile autopilot design[J]. Journal of Aerospace Engineering, 2015, 28(6): 1-10.
Generalized Intelligent Attitude Control with Weak Model Dependence
SHAOHuibing, ZHANTao, FUJingbo
(Beijing Institute of Control and Electronic Technology, Beijing 100038, China)
Ultra-high speedcross-domain flight and agile maneuvering are the developing trends of next-generation aircrafts. However, the aerodynamic parameters variations caused by the aerodynamic shape change in long-time wide-speed-range hypersonic flight and the aerodynamic variations in deformable aerial-underwater flight pose significant challenges to the aircraft attitude control system. In this paper, a novel generalized intelligent attitude control method with weak model dependence is proposed to tackle the model uncertainty as well as the compound control problem of heterogeneous actuators in deformable aircrafts. The method is an attitude control scheme based on an adaptive control method, a generalized intelligent attitude control method, and a compound control method. The adaptive attitude control method is based on deep learning (DL), and is used to compensate the aerodynamic moment. The generalized intelligent attitude control method is based on the deep deterministic policy gradient (DDPG) algorithm, and is developed for the aerodynamic and model uncertainties. The compound control method is adopted for the heterogeneous actuators with weak model dependence. The proposed method is a practical intelligent control method, and has better robustness as well as universality compared with the existing ones.
weak model dependence; adaptive intelligent control; heterogeneous compound control; deep reinforcement learning (DRL); extended state observer
2022?04?27;
2022?06?23
邵會兵(1977—),男,博士,研究員,主要研究方向為導航、制導與控制。
詹韜(1983—),男,碩士,研究員,主要研究方向為導航、制導與控制。
TJ 765.2
A
10.19328/j.cnki.2096?8655.2022.04.007