程 林 蔣方華 李俊峰
(清華大學航天航空學院,北京100084)
中國航空航天經(jīng)過60余載的奮力發(fā)展,在幾代雙航人的努力拼搏下,通過打造長征、神州、嫦娥等系列工程,躋身于世界強國行列。然而,我國航空航天也面臨著總體布局大而不強,部分技術與歐美強國存在巨大差距的現(xiàn)狀。飛行器控制系統(tǒng)是航空航天飛行器調度各分系統(tǒng)的“大腦”,直接決定了整個飛行任務的形式和質量。提高飛行控制的自主性、魯棒性和智能化水平是飛行器動力學與控制技術研究的主題。
傳統(tǒng)上,受到機載計算機軟硬件技術限制,飛行器控制系統(tǒng)難以實現(xiàn)飛行剖面的實時規(guī)劃。工程上,多以離線標稱軌跡設計和在線標稱軌跡跟蹤相結合的跟蹤制導方式實現(xiàn)飛行任務。以經(jīng)典控制理論為基礎發(fā)展起來的PID(proportion-integralderivative)控制技術和以極點配置、滑??刂芠1]、自適應控制[2]、魯棒控制為代表的現(xiàn)代反饋技術能夠基于當前狀態(tài)解析計算控制指令,具有算法簡單易實現(xiàn)、實時性好、穩(wěn)定可靠的優(yōu)勢,至今被絕大多數(shù)飛行任務所采用。然而,此類方法基于當前狀態(tài)(非全局)生成指令,導致其對全局約束和性能指標的考量不足。當飛行任務包含復雜約束和最優(yōu)指標時,飛行控制系統(tǒng)往往需要離線設計好的標稱軌跡作為飛行參考,PID 技術和現(xiàn)代反饋控制技術用于標稱的軌跡跟蹤和姿態(tài)調整。由于標稱軌跡離線設計所得,此類標稱軌跡跟蹤制導方式的自主性和魯棒性較差,尤其是當飛行環(huán)境存在較大的不確定性時。隨著任務需求的不斷發(fā)展,未來飛行任務的控制復雜性也日益提高。例如,高超聲速飛行器再入飛行軌跡實時規(guī)劃的需求、末制導中多個終端約束的嚴格限制、以太陽帆為代表的欠驅動控制模式、小行星著陸任務中的遠程通訊限制等都對未來飛行控制系統(tǒng)全局自主決策能力和智能化水平提出更高的要求。從技術的發(fā)展趨勢來看,為滿足未來強不確定性、欠驅動、多約束、通訊限制等任務特點,需要發(fā)展新型動力學與控制技術,以實現(xiàn)控制任務自主性、魯棒性、多約束滿足和實時智能決策等性能的全面提升。
近年來,人工智能技術的飛速發(fā)展為飛行器自主智能飛行的實現(xiàn)提供了新的可能[3]。人工智能是計算機科學的一個分支領域,主要研究人類智能活動的規(guī)律,構造具有一定智能的人工系統(tǒng),也就是研究如何應用計算機的軟硬件來模擬人類某些智能行為的基本理論、方法和技術[4]。人工智能屬于應用范疇,在算法層面主要依賴機器學習算法。機器學習又可分為監(jiān)督學習、非監(jiān)督學習和強化學習[4]。其中,深度神經(jīng)網(wǎng)絡飛躍式發(fā)展促進了近年來機器學習研究的再次活躍,引領了第三次人工智能的浪潮。深度神經(jīng)網(wǎng)絡映射能力好、學習能力強、適應性廣、純數(shù)據(jù)驅動的優(yōu)點使其在圖像識別、自然語言處理、健康醫(yī)療等任務中具有超過人類的表現(xiàn)[5]。深度學習主要實現(xiàn)數(shù)據(jù)的函數(shù)映射功能,可用來解決智能中的辨識問題。不同的是,強化學習針對Markov決策問題,通過與被控對象的不斷交互和迭代學習,生成可供全局決策的最優(yōu)策略,可解決智能中的決策問題[6]。深度神經(jīng)網(wǎng)絡為強化學習的智能存儲提供了強大記憶載體。應運而生的深度強化學習技術適合于解決復雜且難以建模的應用場景問題,其有效性在圍棋AlphaZero算法中得到驗證[7]。深度強化學習技術已經(jīng)在工業(yè)自動化、數(shù)據(jù)科學、神經(jīng)網(wǎng)絡優(yōu)化、醫(yī)學等方面逐漸開展應用[8]。總而言之,人工智能基于存儲、記憶、預訓練的應用模式為傳統(tǒng)學科難題的解決提供了新途徑。近年來,人工智能技術應用于飛行器動力學與控制,用以提升飛行控制的自主性和智能化水平,尤其備受關注。
本文基于課題組前期研究成果和參閱國內外知名學者的部分研究,以提升飛行器控制自主性和智能化水平為研究主題,總結和梳理了深度學習應用于動力學、最優(yōu)控制和任務設計中的研究思路,并針對研究思路的總體實現(xiàn)方案、優(yōu)缺點和部分代表性成果進行綜述,希望對相關研究同行提供一定的參考。深度學習應用于航空航天的研究方興未艾,新的成果更是層出不窮,論文未能提及之處,敬請諒解。
為提高飛行器自主飛行控制質量,可以從以下兩方面入手。第一,提高飛行在線智能決策能力;第二,建立更加精確的飛行器動力學模型。精確的動力學模型是實現(xiàn)飛行器運動規(guī)律推演的基礎,也是控制器智能決策的重要依據(jù)。傳統(tǒng)動力學以牛頓力學和分析力學為基礎,結合一定力學經(jīng)驗和工程要求,建立飛行器飛行動力學模型。然而,受到模型不匹配、測量手段不足、精確建模成本過高、模型遷移等諸多因素影響,實際工程中難以獲得飛行器精確動力學模型。例如,小行星著陸過程中,小行星參數(shù)不確定會導致引力場計算模型的不準確;基于理論分析和風洞試驗獲取的臨近空間飛行器氣動模型也存在較大不準確,以及風干擾因素也難以建模;軟體機器人目前還沒有系統(tǒng)的動力學建模方法等。飛行器動力學模型的一般形式為
其中,模型分為確定性部分(deterministic)和不確定性(undeterministic)部分。確定性部分表示在相同的狀態(tài)下具有確定的動力學特性,具有可復現(xiàn)性,例如推力或者重力等影響因素。不確定性部分表示在相同狀態(tài)下動力學呈現(xiàn)不確定特征,例如飛行器的風干擾等。表達式Fdk(x,u)表示動力學模型中確定且已知(known)部分,F(xiàn)du(x,u)表示動力學模型中確定但未知(unknown)部分,F(xiàn)ud(x,u)則表示不確定性部分。
目前深度學習在動力學建模的應用主要包括:(1)提升計算效率;(2)構造智能動力學模型;(3)動力學反問題的學習。
在某些控制問題中,動力學部分Fdk(x,u)盡管已知,但是計算量龐大。在這種情況下,機器學習算法可用于擬合動力學Fdk(x,u) 部分,在保證精度的前提下實現(xiàn)計算效率的提升。例如,F(xiàn)urfaro等[9]采用極限學習機(extreme learning machines)學習不規(guī)則小行星的引力場,在確保一定擬合精度的同時大幅提高了引力場計算效率。Song 等[10]采用深度神經(jīng)網(wǎng)絡擬合不規(guī)則引力場,并將其應用于小行星著陸軌跡規(guī)劃中,取得了良好的效果。Cheng等[11-12]進一步將神經(jīng)網(wǎng)絡引力場模型應用于小行星著陸軌跡的快速同倫和智能著陸控制器學習中。此外,Wei等[13]采用Serendipity(偶然)插值技術來擬合小行星引力場的起伏,從而獲得高計算效率、高精度的小行星引力場模型。
為了進一步提升飛行器動力學建模的精度,深度神經(jīng)網(wǎng)絡也可用來學習動力學的未知部分Fdu(x,u)。文獻[3]中提出一種智能動力學模型
其中,深度神經(jīng)網(wǎng)絡模塊Netdu(x)用來表征動力學中的Fdu(x,u)部分,?f表示擬合誤差。為了實現(xiàn)模型的自我學習,文獻[3] 基于擴張觀測技術提出了一種模型迭代學習算法,并給出了詳細的算法穩(wěn)定性證明。值得說明的是,文獻[3]為了保證后續(xù)間接法的求解需要,只考慮動力學Fdu(x,u)與控制變量u無關的情況。式(2)也被嘗試應用于小行星繞飛過程中的引力場在線學習。小行星探測器前期繞飛中,通過一定的反演算法,推算出當前位置下的引力場修正值。觀測的引力場修正值與地面雷達或者光學估算值(例如多面體算法[14])進行數(shù)據(jù)融合,從而實現(xiàn)智能動力學模型的在線調整與學習?;谝龅膶W習效果,研究者還可以進一步對探測器繞飛軌道進行優(yōu)化。當前,針對反演算法、數(shù)據(jù)融合算法、繞飛軌道的優(yōu)化還在技術攻關中。
與此同時,相關學者也在設想更加一般性的智能動力學模型。例如,考慮Fdu(x,u)與控制變量u相關,且也可應用于間接法的動力學模型
其中,i=0,1,2;Fdu(x,u)的擬合為一元三次表達式,三個網(wǎng)絡Neti(x)分別表征一元三次表達式的三個擬合系數(shù)。考慮到動力學中可能存在不確定項,也可考慮含正態(tài)分布隨機項的動力學模型
其中,函數(shù)N(μ,σ)表示正態(tài)分布函數(shù),μ=Netμ(x,u) 表示正態(tài)分布的期望,σ=Netσ(x,u)表示正態(tài)分布的方差。
作者認為,精確動力學建模是實現(xiàn)飛行器智能飛行不可缺少的關鍵技術之一。目前,計算機領域崇尚Model-free 的學習策略,即在不需要對被控對象精確建模的前提下,通過智能體與被控對象的不斷交互和經(jīng)驗積累,最終實現(xiàn)智能體最佳控制策略的學習。近年來,深度強化學習領域出現(xiàn)的代表性算法也多為Model-free算法,例如DDPG (deterministic policy gradient algorithms)[15],A3C (actorcritic)[8],區(qū)域信賴策略優(yōu)化(trust region policy optimization, TRPO)[16],PPO (proximal policy optimization)[17]等。盡管Model-free的學習策略在實踐中簡單易執(zhí)行且具有良好的收斂性,但是Modelfree 強化學習算法也存在明顯的缺點,包括隨機動作探索引發(fā)的學習效率低下、約束無法嚴格保障、以及訓練樣本的海量需求。在不解決以上難題的情況下,作者認為Model-free 強化學習算法難以直接應用于飛行控制器的設計任務中。
另一方面,基于模型的策略學習在飛行控制任務中具有以下優(yōu)勢。第一,基于牛頓力學或分析力學可獲取動力學模型的基本形式和解析表達式,這些先驗信息的充分利用可有效降低問題的復雜性和學習樣本的需求量。例如,速度和位置的關系是明確的、解析的。第二,精確構建被控對象的動力學模型,可有效降低智能控制器與實物的交互需求,從而降低學習成本。當然,被控對象動力學模型越準確,與實物交互的需求降低效果越明顯。這也間接說明了打造具有自學習能力的智能動力學模型的必要性。在最新ANYmal 四足復雜機器人智能控制系統(tǒng)構造中,數(shù)字動力學模型就被用于訓練控制策略,并取得非常好的實際控制效果[18]。近五年,Model-based 深度強化學習的研究也備受學者關注,其中構建精確的表征模型也是其關鍵技術之一[13,19]。文獻[20]基于高斯處理技術打造貝葉斯神經(jīng)網(wǎng)絡模型(Bayesian neural network dynamics model)跟本文式(4)具有相同的研究思路。區(qū)別在于,式(4)包含傳統(tǒng)動力學模塊Fdk(x,u),是一種復合模型,具有繼承動力學理論分析結果的優(yōu)勢。
飛行器控制的主要目的是根據(jù)任務需求調整控制指令實現(xiàn)預定的控制規(guī)律。從具體實現(xiàn)途徑來看,主要有反饋控制(基于李雅普諾夫穩(wěn)定性定理)、最優(yōu)控制(基于極小值原理)和深度強化學習(基于貝爾曼最優(yōu)性原理)三種實現(xiàn)途徑。其中基于當前狀態(tài)解析生成控制指令的反饋控制具有易于實現(xiàn)、實時性好、穩(wěn)定可靠的優(yōu)點。反饋控制又可細分為Error-based 方法(誤差反饋方法,包括PID 和增益調度PID等)和Model-based方法(模型反饋方法,包括動態(tài)逆、滑模、自適應控制等)[21]。Error-based方法不依賴被控對象的精確模型,方法簡單易于實現(xiàn),是目前工程中應用最為廣泛的控制手段。與此同時,基于現(xiàn)代控制理論發(fā)展起來的Model-based控制方法能夠根據(jù)被控對象動力學特點,精確控制被控對象狀態(tài)的微分變化過程,從而能夠充分發(fā)揮被動對象的動力學特性,實現(xiàn)更快、更穩(wěn)的控制效果。圖1 給出了Model-based 反饋控制方法的示意圖。Model-based 反饋控制的實現(xiàn)可分為兩個操作:第一,算法根據(jù)反饋回來的狀態(tài)和想要的控制目標設計出想要的狀態(tài)微分變化,其中狀態(tài)微分變化的不同設計策略也是動態(tài)逆、滑模等方法的主要區(qū)別;第二,算法根據(jù)微分動力學模型和想要的狀態(tài)微分變化值反向計算需要的控制指令。然而,由于實際飛行控制中被控對象的動力學模型難以精確獲得,這極大限制了Model-based 方法在工程中的應用。為了解決此類問題,Model-based 方法主要朝著兩個方向改進,一個是提高算法的自適應性,即通過在線觀測理想模型和實際模型的偏差?F,并在反饋控制中實時補償;二是提高算法的魯棒性。
圖1 Model-based 方法示意圖
Model-based 反饋控制方法依賴精確動力學模型反向計算控制指令,而工程上又難以實現(xiàn)。深度學習有望解決這一難題。圖2給出了一套解決方案。方案主要包括三部分。第一,采用擴張觀測器對未知狀態(tài)和狀態(tài)微分在線辨識,獲取精確狀態(tài)是對狀態(tài)進行精確控制的前提;第二,基于極點配置方法配置穩(wěn)定可控的狀態(tài)微分變化規(guī)律,此部分主要繼承于傳統(tǒng)Model-based 方法;第三,神經(jīng)網(wǎng)絡根據(jù)狀態(tài)微分變化規(guī)律預測具體的控制指令??紤]到在沒有任何先驗信息的情況下,神經(jīng)網(wǎng)絡一開始的輸出是隨機的、錯誤的,因此可加入一個PI反饋控制器進行神經(jīng)網(wǎng)絡的引導學習。具體過程為:被控對象的指令u由神經(jīng)網(wǎng)絡的預測指令unet和PI 控制器的?u復合而成。初始,由于神經(jīng)網(wǎng)絡的輸出不準確,被控對象的實際狀態(tài)微分˙x和理想狀態(tài)微分˙xd存在差距。在這種情況下,PI控制器會根據(jù)差距產(chǎn)生補償指令?u,縮小神經(jīng)網(wǎng)絡指令unet的誤差。與此同時,神經(jīng)網(wǎng)絡會根據(jù)補償指令?u的大小對自身參數(shù)進行調整,使其輸出unet盡可能趨向于修正后的u。當算法穩(wěn)定后,unet→u,?u →0。在這種情況下,盡管Fdu(x,u)不知,狀態(tài)微分以及unet→L?1(Fdk(x,u)+Fdu(x,u)) (L?1表示反求u,即動力學問題的逆)。詳細的方法設計和穩(wěn)定性證明會在后續(xù)的文章中給出。
圖2 智能控制器示意圖
飛行控制的技術實現(xiàn)途徑主要包括反饋控制、最優(yōu)控制和強化學習。反饋控制基于當前狀態(tài)解析計算控制指令,具有良好的實時性和算法收斂性,但是算法沒有全局規(guī)劃能力,對過程約束、終端約束和優(yōu)化指標難以考量。飛行控制問題本質是最優(yōu)控制問題,常見的最優(yōu)控制數(shù)值求解方法包括間接法和直接法[22]。間接法利用Pontryagin 極小值原理推導出最優(yōu)控制的一階必要條件,進而得到求解最優(yōu)軌跡的兩邊邊值問題[23]。從優(yōu)點來看,間接法求解的結果精度比較高,且解滿足一階最優(yōu)性。但是,在實際中,兩邊邊值問題求解難度比較大,尤其是當控制量和狀態(tài)量均存在約束時。除此之外,它還具有推導過程繁瑣、通用性差、初始值難以估計、收斂域小等缺點。近年來,包括同倫技術[24]、協(xié)態(tài)歸一[25]、啟發(fā)式初始值搜索[25]等策略用來改進間接法的性能,并取得良好的效果。得益于計算機性能的提升和數(shù)值仿真技術發(fā)展,自20 世紀70 年代以來,最優(yōu)控制數(shù)值求解的另一重要分支——直接法得到興起并被普遍采用[26]。直接法采用剖面參數(shù)化的方法將最優(yōu)控制問題轉化為參數(shù)優(yōu)化問題,并采用非線性規(guī)劃方法進行求解。根據(jù)對控制量和狀態(tài)量是否參數(shù)化,直接法又可細分為只離散控制剖面的直接打靶法、同時離散控制剖面和狀態(tài)剖面的配點法,以及只離散狀態(tài)剖面的微分包含法[27]。直接打靶法是軌跡設計中常用的一種形式,大量方法(包括依賴梯度的最優(yōu)化算法和隨機啟發(fā)式算法)都曾結合直接打靶法用來解決最優(yōu)控制問題[28]。然而,由于直接打靶法中狀態(tài)剖面只能靠彈道積分得到,整個算法的實時性比較差。近年來,以偽譜法[29-30]和凸優(yōu)化[31-33]為代表的配點法憑借收斂速度和可靠性等優(yōu)勢而備受學者關注。然而,配點法面臨維度爆炸、收斂域小、求解時間和精度嚴重依賴于初始猜測值等難題??偠灾?,最優(yōu)控制數(shù)值求解方法是目前最優(yōu)控制問題的主流求解方法,求解穩(wěn)定性和速度上也在逐年完善。然而,由于仍然不能滿足飛行器在線控制的實時性要求,最優(yōu)控制數(shù)值求解方法目前主要應用于離線的標稱軌跡設計以及在線的標稱軌跡緊急重構。
強化學習作為當今人工智能研究的一個重要研究方向,在解決連續(xù)動作空間的最優(yōu)控制問題上優(yōu)勢不斷凸顯,并在機器人控制、自動駕駛等方面展現(xiàn)出很好的應用前景[34]。強化學習算法是機器學習算法的三大分支之一,它主要研究在交互環(huán)境下,智能體根據(jù)當前狀態(tài)不斷嘗試動作并總結得失,最終實現(xiàn)累計效益最大化的控制策略(如圖3所示)。
圖3 強化學習交互過程
強化學習基于動態(tài)規(guī)劃方法的貝爾曼最優(yōu)性原理,它與傳統(tǒng)最優(yōu)控制數(shù)值求解方法(間接法和直接法)的區(qū)別主要體現(xiàn)在:
(1) 最優(yōu)控制數(shù)值求解方法:前期不需要訓練,每次求解都試圖得到整個動作序列(離散問題)或者控制剖面(連續(xù)動作問題),由于求解維度很大,求解實時性普遍不足;
(2) 強化學習方法:強化學習基于最優(yōu)性原理將多級決策問題轉化為一系列單級決策問題,具體公式為:當前狀態(tài)的好壞=當前動作的獎勵+下一個狀態(tài)的好壞[6]。強化學習以離線反復學習為代價,根據(jù)狀態(tài)和動作對應的價值函數(shù)來優(yōu)化動作指令,經(jīng)過反復訓練得到最優(yōu)控制策略;在在線應用階段,訓練得到的最優(yōu)控制策略無需求解最優(yōu)控制問題,能夠根據(jù)狀態(tài)查詢得到最優(yōu)指令,因此具有顯著的實時性優(yōu)勢。
深度強化學習是采用深度神經(jīng)網(wǎng)絡做函數(shù)擬合的一類新興強化學習算法,特別適合解決復雜大維度應用場景問題,并已經(jīng)在圍棋AlphaZero 算法中得到技術驗證[7]。在連續(xù)動作空間最優(yōu)控制問題上,2014年,Deepmind團隊在總結DQN[35]和Actor-Critic 方法基礎上,提出了DDPG 方法[15],實驗表明,DDPG 算法在連續(xù)動作空間任務中表現(xiàn)穩(wěn)定,且計算量遠遠低于同水平DQN。Schulman等[16]于2015 年提出了TRPO方法,此方法通過強制限制同一批次數(shù)據(jù)新舊兩種策略預測分布的KL差距,避免參數(shù)更新中策略發(fā)生太大改變,從而提高了算法的收斂性能。2016年,Deepmind團隊提出了A3C異步強化學習架構,其在采用深度強化學習Actor-Critic 框架基礎上,利用多個智能體共同探索,并行計算策略梯度,維持一個總的更新量[8]。針對TRPO 標準解法計算量過大的問題,OpenAI 于2016 年提出了利用一階梯度的PPO算法,并用隨機梯度下降的方法更新參數(shù)[17]。Google 在此啟發(fā)下,基于PPO 算法提出了分布式的DPPO (distributed proximal policy optimization),并取得了優(yōu)異的結果[36]。鑒于PPO 算法依舊沿著策略梯度方向進行參數(shù)更新,2017 年8 月,多倫多大學和紐約大學聯(lián)合提出ACKTR 算法,其通過引入計算參數(shù)的自然策略梯度來加速PPO算法的收斂速度[37]。
強化學習起源于離散多級最優(yōu)決策問題,將其推廣到連續(xù)飛行控制問題中,現(xiàn)有強化學習算法主要面臨著以下三個挑戰(zhàn):(1)策略學習效率問題:現(xiàn)有強化學習動作選擇大多采用隨機探索策略,雖然一定程度上保證了算法的探索能力,但是同樣導致算法計算效率低下和復雜問題難以收斂等不足。(2)收益函數(shù)設計:現(xiàn)有強化學習的價值函數(shù)難以考量約束滿足情況,單純以懲罰函數(shù)的形式來評價策略的實現(xiàn)情況,很容易導致問題的病態(tài),此難題導致強化學習難以在約束較強的最優(yōu)控制問題上應用;(3)學習成本問題:無模型依賴引發(fā)海量樣本訓練需求。
從目前技術途徑來看,無論是最優(yōu)控制數(shù)值方法還是深度強化學習在飛行器實時自主控制中都存在著不足。作者認為傳統(tǒng)學科與新興人工智能的關系并非取代關系,而應該相輔相成。實現(xiàn)傳統(tǒng)飛行控制與人工智能技術的創(chuàng)新性結合,是實現(xiàn)智能控制發(fā)展的重要方向。目前深度學習與傳統(tǒng)控制方法相結合的研究可概括為以下三個方面:(1)深度學習擬合控制指令;(2)智能初值生成策略;(3)交互強化學習。
雖然最優(yōu)控制數(shù)值求解方法在在線飛行控制中實時性不足,但是其求解效率高、算法收斂性好。在動力學模型已知的情況下,可以通過收集最優(yōu)控制數(shù)值方法生成的飛行控制樣本,離線訓練深度神經(jīng)網(wǎng)絡,并應用于在線飛行控制中。這是人工智能應用于飛行控制中最為直接的方案之一。針對著陸控制問題,Sanchez-Sanchez 等[38-39]基于間接法生成的求解數(shù)據(jù),采用監(jiān)督學習的方式訓練深度神經(jīng)網(wǎng)絡,仿真表明,訓練得到的智能控制器能夠實時驅動被控對象完成比較精確的著陸。在月球著陸控制任務中,F(xiàn)urfaro 等[40]采用GPOPS 產(chǎn)生訓練數(shù)據(jù)訓練卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN) 和循環(huán)神經(jīng)網(wǎng)絡(recurrent neural networks,RNN),訓練得到的智能控制器能夠基于圖像數(shù)據(jù)自主決策控制指令。文獻[41-44]將類似方案應用于小行星著陸、火星著陸以及小推力多圈軌跡轉移、四旋翼無人機機動中,都取得不錯的仿真效果。Izzo等[45]討論了深度學習對控制指令、價值函數(shù)、協(xié)態(tài)(價值函數(shù)梯度)的三種擬合策略,并得出對控制指令和協(xié)態(tài)進行擬合的策略表現(xiàn)更好的結論。在文獻[46] 中,訓練好的神經(jīng)網(wǎng)絡被用來實時決策飛行器姿態(tài)脈沖發(fā)動機的開關,驗證了此方案在離散控制決策問題上的可能性。
為實現(xiàn)智能控制器任意狀態(tài)的擬合,神經(jīng)網(wǎng)絡的訓練往往需要大量數(shù)據(jù)支持。如何快速產(chǎn)生大量數(shù)據(jù)需要一定的技巧。在間接法生成訓練數(shù)據(jù)中,文獻[39]采用如下策略:首先,在上一個狀態(tài)周圍隨機產(chǎn)生下一個樣本狀態(tài);然后,以上一個狀態(tài)的協(xié)態(tài)值作為下一個狀態(tài)協(xié)態(tài)求解的初始猜測。周而復始逐步生成樣本集。在此基礎上,文獻[47]采用了一種遍歷狀態(tài)空間的樣本生成策略,在保證樣本快速生成的前提下,確保了樣本集對搜索空間的覆蓋性。同樣,同倫技術也可用來提升樣本的生成效率[41]。Izzo 等[45]基于極小值原理,提出了基于反向積分快速獲取樣本的思路。雖然該套方法在樣本覆蓋性、搜索空間邊界上還需要進一步開展研究,但是通過單次軌跡反向積分即可獲取最優(yōu)軌跡的策略在算法效率上表現(xiàn)出無與倫比的優(yōu)勢。
神經(jīng)網(wǎng)絡應用于飛行控制中最受詬病的一點是,神經(jīng)網(wǎng)絡是一個黑盒子,其控制效果難以解析分析。為了提升智能控制器的可靠性,文獻[48]在太陽帆軌跡轉移中,采用多個尺度的神經(jīng)網(wǎng)絡相互配合,從而保證神經(jīng)網(wǎng)絡能夠識別10?7量級的狀態(tài)誤差,最終實現(xiàn)飛行器高精度入軌。在月球著陸任務中,文獻[49]提出智能控制和反饋控制復合的控制策略,從而保證飛行器在大范圍機動中呈現(xiàn)最優(yōu)性而在最后著陸階段又兼具高可靠性。
總體來看,最優(yōu)控制數(shù)值方法產(chǎn)生訓練樣本,深度學習離線訓練智能控制器并應用于在線控制的方案,既利用了最優(yōu)控制方法在求解質量和效率上的優(yōu)勢,又解決了傳統(tǒng)最優(yōu)控制方法在線控制中實時性不足的難題。然而,該套方案依賴精確動力學建模,這極大限制了這一方案的通用性。動力學建模的不準確或者動力學的遷移都將導致訓練好的控制器作廢。為了解決此問題,該方案可以結合本文動力學部分中的智能動力學模型進行復合應用。
在以上深度學習擬合控制指令的策略中,傳統(tǒng)最優(yōu)控制方法產(chǎn)生訓練樣本,神經(jīng)網(wǎng)絡學習樣本并被應用于在線控制。整個策略中,最優(yōu)控制方法是“輔助”角色,而人工智能算法是“主要”角色。然而,當動力學模型存在不確定時,深度學習擬合控制指令的策略會失效。針對此問題,更加保守但可靠的思路是人工智能算法退居“輔助”角色。一種切實可行的方案是離線訓練好的神經(jīng)網(wǎng)絡為最優(yōu)控制數(shù)值方法提供求解初值,促進其求解效率和速度。在離線狀態(tài)下,當動力學模型(1)中存在未知項時,可以基于動力學模型
產(chǎn)生樣本并訓練網(wǎng)絡。在線狀態(tài)下,且未知動力學項已經(jīng)探明后,原問題(1)的解可由問題(5)的解延拓得到。文獻[47]針對小行星著陸問題給出了一套解決方案。在此論文中,通過模型簡化和線性轉換,小行星著陸問題可被簡化為一個二維空間轉移問題。間接法離線求解二維空間轉移問題,產(chǎn)生的控制樣本用來訓練神經(jīng)網(wǎng)絡。仿真表明,神經(jīng)網(wǎng)絡可為二維轉移問題提供100%收斂的初始解。在此基礎上,原小行星著陸問題可基于反向模型延拓技術而快速求解。此外,論文還設計了初值生成備用策略,進一步提升求解的可靠性。
由于未知動力學部分可以在神經(jīng)網(wǎng)絡離線訓練中臨時舍棄,等動力學探明之后再補充進來,所以算法的適應性比較好。例如文獻[47],由于忽略了小行星的自轉和引力場,因此訓練好的神經(jīng)網(wǎng)絡適用于在任何小行星任意地點的著陸任務。與此同時,由于神經(jīng)網(wǎng)絡只是為最優(yōu)控制方法提供初值,單純起輔助作用,因此整套方案的可靠性也有所保障,這一點在工程中尤為重視。
Model-free 強化學習算法不依賴被控對象的數(shù)學模型,智能體通過不斷與被控對象的交互,總結動作的收益情況最終形成最優(yōu)控制策略。Model-free強化學習算法在通用性和易用性上具有誘人的應用前景。然而,正如前文提到,Model-free 強化學習算法在飛行控制中應用,存在收斂效率、約束管理和學習成本三個難題。在不解決以上難題的情況下,作者認為Model-free 強化學習算法難以直接應用于飛行控制器的設計任務中。要想降低飛行控制中強化學習算法的學習成本,一種可行的方案是構建被控對象的數(shù)學模型(model),通過Model-free強化學習算法與數(shù)學模型的交互完成智能控制器的訓練。例如,文獻[50] 將Model-free 強化學習算法應用于火星著陸任務中。仿真試驗表明,學習的智能控制器能夠在六自由度控制中自主決策控制指令,并具有一定的控制魯棒性。然而,終端等式約束和飛行最優(yōu)性指標是以罰函數(shù)的形式添加到強化學習的Reward 函數(shù)設計中,導致訓練好的控制器只能實現(xiàn)約束和最優(yōu)性的折衷。在已知動力學模型情況下,Model-based強化學習的研究也備受關注[19]。
鑒于最優(yōu)控制數(shù)值方法相比Model-free 強化學習算法在求解效率和約束滿足情況都有顯著的優(yōu)勢,文獻[48]提出一種Actor–Indirect method 交互式策略學習架構。在此架構中,間接法(indirect method)求解飛行控制問題,提供樣本訓練神經(jīng)網(wǎng)絡Actor(神經(jīng)網(wǎng)絡既學習控制指令又學習協(xié)態(tài)),而神經(jīng)網(wǎng)絡Actor 反過來為間接法提供良好的協(xié)態(tài)初值從而促進間接法的打靶效率。在交互式策略學習架構中,隨著學習的深入,神經(jīng)網(wǎng)絡Actor 輔助間接法求解的作用不斷強化。仿真表明,在太陽帆軌跡轉移、小行星著陸任務中,神經(jīng)網(wǎng)絡Actor 后期可為間接法提供收斂率接近100%的良好初值。雖然此交互式學習策略能不能算作Model-based 強化學習算法尚待學術界商榷,但是最優(yōu)控制數(shù)值方法和神經(jīng)網(wǎng)絡之間的相互強化作用卻是明確的。
為了進一步解決動力學模型中可能存在的未知部分,文獻[3]進一步構建智能動力學Identifier 模塊。借助于算法與實物的交互,不斷提升數(shù)字模型的準確性。從而在減少與實物交互的情況下盡可能提升策略的學習效果。文獻[3]最終提出新型Identifier–Actor–Optimizer 交互式策略學習架構,如圖4所示。新型架構在模型依賴、算法學習效率、應用靈活性上都具有一定優(yōu)勢。
圖4 Identifier–Actor–Optimizer 架構
人工智能算法在飛行任務設計方面同樣具有出色的應用前景。傳統(tǒng)上,需要對整個飛行問題進行確定性的求解,才能評估任務執(zhí)行的總體性能。雖然預估精度可以保證,但是整個過程往往耗時耗力。機器學習基于歷史經(jīng)驗數(shù)據(jù),能夠近似擬合狀態(tài)和總體性能之間的非線性函數(shù)關系?;跈C器學習算法的總體性能快速預估對于整個任務優(yōu)化效率的提升具有顯著效果。機器學習算法尤其適用于對飛行性能預估精度有一定容忍、但是對預估快速性具有較高要求的任務設計場景。由于飛行任務優(yōu)化問題的各式各樣,深度學習在任務設計中的具體應用形式也呈現(xiàn)多樣性。文獻[51-53]運用深度神經(jīng)網(wǎng)絡擬合小推力軌跡轉移中的質量消耗,實現(xiàn)了良好精度的燃料消耗快速預估。Song 等[54]利用深度神經(jīng)網(wǎng)絡擬合太陽帆轉移中的最小時間,為太陽帆的小行星探測序列快速規(guī)劃提供依據(jù)。在文獻[55]中,深度學習被用來支持飛機防碰撞預警系統(tǒng)的決策?;跉v史觀測數(shù)據(jù),深度學習可用來提升衛(wèi)星軌道的預測精度[56]。此外,深度學習還被用于小推力探測器軌道轉移可達性的預測任務中[53]。深度學習在飛行器射程的預測、小行星軌道的穩(wěn)定性分析、衛(wèi)星可達域的預測、衛(wèi)星的碎片預警等任務中也呈現(xiàn)出色的應用潛力。
深度學習是目前人工智能領域最受關注的研究方向之一,也是飛行器智能飛行控制系統(tǒng)中最有可能用到的機器學習算法之一。深度學習用以解決飛行器飛行動力學與控制難題具有顯著的學術和應用前景,同時也衍生出一系列需要進一步解決的難題。基于前期研究經(jīng)歷,在此分享四點建議。
(1) 經(jīng)典動力學與控制技術、新興人工智能技術各自具有優(yōu)勢和不足,他們之間不應是取代關系,而應是通過雙方的交叉融合實現(xiàn)優(yōu)勢的互補。經(jīng)典動力學與控制技術發(fā)展到今天,存在一定的技術瓶頸。百尺竿頭更進一步,動力學與控制技術應當充分認識和吸收人工智能的優(yōu)勢,尤其是深度學習的存儲、記憶、預訓練的應用模式。與此同時,圍繞飛行控制設計任務,純人工智能算法忽視被控對象自身動力學和控制規(guī)律、信奉純數(shù)據(jù)驅動的“懶漢”策略也注定是低效的、無用的。圍繞經(jīng)典動力學、控制技術與新興人工智能技術創(chuàng)新性結合的研究將是飛行器智能控制領域重要研究方向。
(2) 深度學習為傳統(tǒng)學科難題的解決提供新的工具,但它也僅僅是工具而已。從應用上看,深度學習為傳統(tǒng)學科提供了存儲、記憶、預訓練的新應用模式,解決了傳統(tǒng)技術目前遇到的一些難題,尤其是實時性難題。然而從數(shù)學上來看,神經(jīng)網(wǎng)絡也僅僅是承擔了數(shù)據(jù)間的函數(shù)擬合功能。在飛行智能控制器的設計中,人工智能算法的實現(xiàn)往往并非最大的技術瓶頸,而真正的關鍵技術往往在于,如何通過一系列建模和簡化手段,將原飛行控制問題轉換成一個人工智能算法可以解決和善于解決的問題。實踐表明,轉換后的問題越明確、越簡單,就越有助于智能策略學習效率和收斂性的提升。
(3) 人工智能當前仍處于計算智能階段,訓練好的神經(jīng)網(wǎng)絡只是在訓練集范圍內具有可靠的表現(xiàn),目前無范圍外的推演能力??紤]到飛行控制問題大多是非線性控制問題,因此訓練好的神經(jīng)網(wǎng)絡在數(shù)據(jù)集范圍外的效果并不能保證。如何構建問題及確定訓練集的邊界,保證訓練數(shù)據(jù)的覆蓋性也是未來研究的重要議題。
(4) 智能動力學模型是未來智能飛行控制實現(xiàn)的關鍵之一。目前人工智能與飛行控制的結合更多關注的是控制本身,而對動力學部分關注比較少。以Model-free 強化學習為代表的方法甚至試圖直接忽略被控對象的動力學特征,單純靠數(shù)據(jù)驅動來實現(xiàn)最優(yōu)控制策略的學習。不可否認,此類方法在某些特殊問題上是適用的,例如沒有交互成本的虛擬游戲、難以動力學建模的互聯(lián)網(wǎng)交互活動。但是在飛行控制中,考慮到學習效率和交互成本,動力學模型依然無可替代。與此同時,比起不同控制器不同參數(shù)對控制規(guī)律的影響的復雜性,動力學模型是推演未來飛行規(guī)律的基礎,更加易于人工智能算法學習的實現(xiàn)。
本文以提升飛行器飛行控制自主性和智能化水平為研究主題,在總結動力學與控制技術當前存在難題的基礎上,梳理了深度學習應用在飛行器動力學、控制和任務設計的研究思路,并針對研究思路的總體實現(xiàn)方案、優(yōu)缺點和部分代表性成果進行了綜述。最后,論文給出了深度學習在飛行器動力學與控制中應用的四點建議。