摘 要:
針對(duì)飛行器在線航路規(guī)劃問題,提出一種基于深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)的飛行器在線自主決策方法。首先對(duì)飛行器運(yùn)動(dòng)模型、探測(cè)模型進(jìn)行了說(shuō)明,然后采用DRL深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法,對(duì)飛行器飛行控制策略模型框架進(jìn)行了構(gòu)建。在此基礎(chǔ)上,提出了一種基于課程學(xué)習(xí)(curriculum learning, CL)的CL-DDPG算法,將在線航路規(guī)劃任務(wù)進(jìn)行分解,引導(dǎo)飛行器進(jìn)行目標(biāo)靠近、威脅規(guī)避、航路尋優(yōu)策略學(xué)習(xí),并設(shè)置相應(yīng)的高斯噪聲幫助飛行器對(duì)策略進(jìn)行探索和優(yōu)化,實(shí)現(xiàn)了復(fù)雜場(chǎng)景下的飛行器自適應(yīng)學(xué)習(xí)和決策控制。仿真實(shí)驗(yàn)證明,CL-DDPG算法能夠有效提升模型的訓(xùn)練效率,算法模型任務(wù)成功率更高,具有優(yōu)秀的泛化性和魯棒性,能夠更好地應(yīng)用于復(fù)雜動(dòng)態(tài)環(huán)境下的在線航路規(guī)劃任務(wù)中。
關(guān)鍵詞:
在線航路規(guī)劃; 深度強(qiáng)化學(xué)習(xí); 自主決策; 課程學(xué)習(xí); 威脅規(guī)避
中圖分類號(hào):
TJ 765
文獻(xiàn)標(biāo)志碼: A""" DOI:10.12305/j.issn.1001-506X.2024.09.28
Online route planning decision-making method of aircraft" in
complex environment
YANG Zhipeng, CHEN Zihao, ZENG Chang, LIN Song*, MAO Jindi, ZHANG Kai
(System Design Institute of Hubei Aerospace Technology Academy, Wuhan 430040, China)
Abstract:
Aiming at the problem of online route planning for aircraft, an online autonomous decision-making method for aircraft based on deep reinforcement learning (DRL) is proposed. Firstly, the maneuvering model and detection model of the aircraft are explained, and then the deep deterministic policy gradient (DDPG) algorithm of DRL is employed to construct the frame of the aircraft policy model. On this basis, a curriculum learning (CL)-DDPG algorithm based on CL is proposed, which decomposes the online route planning task, guides the aircraft to learn the strategies of target approach, threat avoidance, and air route optimization. The corresponding Gaussian noises are set to help the aircraft explore and optimize the strategy. And, the adaptive learning and decision-making control of the aircraft in complex scenarios are realized. Simulation experiments show that the CL-DDPG algorithm can effectively improve the training efficiency of the model. The algorithm model has higher task success rate, excellent generalization and robustness, and can be better applied to online route planning tasks in complex dynamic environments.
Keywords:
online route planning; deep reinforcement learning (DRL); autonomous decision-making; curriculum learning; threat avoidance
0 引 言
飛行器航路規(guī)劃是指為飛行器規(guī)劃出滿足任務(wù)需求、飛行器自身特性、外界環(huán)境約束等因素的航路,屬于飛行器任務(wù)規(guī)劃系統(tǒng)中的關(guān)鍵一環(huán)[1-3]。考慮到在執(zhí)行射前航路規(guī)劃任務(wù)時(shí),需關(guān)注飛行器禁避飛區(qū)、殘骸落區(qū)、景象匹配等環(huán)境約束,飛行器航路計(jì)算和規(guī)劃效率面臨巨大的挑戰(zhàn)[4-5]。與此同時(shí),隨著空天防御、電子對(duì)抗等技術(shù)的發(fā)展,飛行器在復(fù)雜動(dòng)態(tài)的戰(zhàn)場(chǎng)環(huán)境中面臨各種先進(jìn)火力打擊、電磁干擾等壓制措施,其射前規(guī)劃的航跡成果可能無(wú)法滿足實(shí)時(shí)戰(zhàn)場(chǎng)環(huán)境約束,大大影響飛行任務(wù)的執(zhí)行效率[6-8]。因此,針對(duì)復(fù)雜多約束場(chǎng)景,提出一種飛行器在線自主航路規(guī)劃方法,提升飛行器臨機(jī)決策能力,具有重要意義。
近年來(lái),學(xué)者將經(jīng)典A*[9]、蟻群算法[10]、快速搜索隨機(jī)樹[11]等路徑規(guī)劃方法用于飛行器航路規(guī)劃研究中,取得了一定的成果。文獻(xiàn)[12]提出一種動(dòng)態(tài)引導(dǎo)A*算法,引入動(dòng)態(tài)變化引導(dǎo)點(diǎn)和引導(dǎo)策略,對(duì)飛行器航跡規(guī)劃效率進(jìn)行了優(yōu)化。文獻(xiàn)[13]設(shè)計(jì)一種基于改進(jìn)蟻群算法的無(wú)人飛行器路徑規(guī)劃方法,在初始信息素矩陣基礎(chǔ)上,結(jié)合視場(chǎng)機(jī)制和逃出策略對(duì)搜索策略進(jìn)行了優(yōu)化,然后利用logistic混沌模型對(duì)全局信息素更新方式進(jìn)行了改進(jìn),最終在二維柵格地圖中完成仿真驗(yàn)證了算法的有效性。這些方法在解決簡(jiǎn)單靜態(tài)環(huán)境下的航路規(guī)劃問題,具有較高效率。當(dāng)飛行場(chǎng)景復(fù)雜動(dòng)態(tài)變化時(shí),需實(shí)時(shí)對(duì)環(huán)境進(jìn)行建模解算并處理海量數(shù)據(jù),算法難以收斂,大大影響飛行器航路規(guī)劃效率。
隨著人工智能技術(shù)的發(fā)展,深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)以其出色的環(huán)境感知能力和自主決策能力在智能體自主導(dǎo)航和路徑規(guī)劃研究中備受關(guān)注[14-17]。在DRL中,智能體利用神經(jīng)網(wǎng)絡(luò)感知環(huán)境并執(zhí)行動(dòng)作。進(jìn)而獲得獎(jiǎng)勵(lì)或懲罰反饋。通過(guò)不斷與環(huán)境交互和自適應(yīng)學(xué)習(xí),最終實(shí)現(xiàn)狀態(tài)輸入到動(dòng)作輸出的有效映射。文獻(xiàn)[18]利用DRL方法對(duì)視覺感知和運(yùn)動(dòng)控制進(jìn)行端對(duì)端聯(lián)合訓(xùn)練,實(shí)現(xiàn)機(jī)器人物品運(yùn)輸任務(wù)中的自主路徑規(guī)劃。文獻(xiàn)[19]通過(guò)構(gòu)建目標(biāo)驅(qū)動(dòng)的馬爾可夫決策模型,解決DRL算法需要針對(duì)不同導(dǎo)航目標(biāo)重新學(xué)習(xí)策略的問題;同時(shí),針對(duì)性地設(shè)計(jì)非稀疏獎(jiǎng)勵(lì)函數(shù)實(shí)現(xiàn)無(wú)人飛行器的自主航路規(guī)劃和避障導(dǎo)航。文獻(xiàn)[20]構(gòu)建基于魯棒化深度確定性策略梯度(robust deep deterministic policy gradient, Robust-DDPG)算法的部分觀測(cè)馬爾可夫決策模型,用于引導(dǎo)無(wú)人飛行器在有限環(huán)境中進(jìn)行局部障礙感知和規(guī)避,并通過(guò)仿真實(shí)驗(yàn)驗(yàn)證了方法的有效性。
盡管DRL算法在航路規(guī)劃領(lǐng)域取得了一定的成果。然而,現(xiàn)有的研究存在如:模型過(guò)于簡(jiǎn)化、目標(biāo)點(diǎn)位置單一、環(huán)境威脅區(qū)域固定等問題,任務(wù)場(chǎng)景較為簡(jiǎn)單,難以滿足復(fù)雜動(dòng)態(tài)多約束戰(zhàn)場(chǎng)環(huán)境下的飛行器在線航路規(guī)劃需求[21-23]。考慮到飛行器在執(zhí)行任務(wù)時(shí),需關(guān)注航跡有效性、飛行安全性、飛行效率等多項(xiàng)飛行器很難在有限的訓(xùn)練時(shí)間內(nèi)完成系統(tǒng)性的任務(wù)學(xué)習(xí)。因此,面對(duì)復(fù)雜多約束的戰(zhàn)場(chǎng)環(huán)境,引導(dǎo)智能體進(jìn)行高效學(xué)習(xí),實(shí)現(xiàn)飛行器自主威脅感知規(guī)避和在線航路規(guī)劃決策,具有重要意義。
本文所進(jìn)行的在線航路規(guī)劃研究代表了DRL在飛行器決策控制領(lǐng)域中的潛在應(yīng)用之一。具體地,通過(guò)設(shè)計(jì)飛行器運(yùn)動(dòng)模型和探測(cè)模型,完成飛行器模型構(gòu)建;引入深度確定性策略梯度(deep deterministic policy gradient, DDPG)方法,根據(jù)飛行器飛行特性和姿態(tài)控制要求構(gòu)建部分可觀測(cè)馬爾可夫決策模型,并針對(duì)飛行任務(wù)完成獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì);在此基礎(chǔ)上,提出一種課程學(xué)習(xí)(curriculum learning CL-DDPG)方法,將飛行器飛行任務(wù)分解為目標(biāo)靠近、威脅規(guī)避、航路尋優(yōu)3個(gè)子任務(wù),用以引導(dǎo)飛行器通過(guò)CL完成復(fù)雜場(chǎng)景下的在線航路規(guī)劃預(yù)學(xué)習(xí),有效提升訓(xùn)練效率和模型泛化性能。最后,結(jié)合仿真結(jié)果,驗(yàn)證了CL-DDPG算法對(duì)飛行器在線航路規(guī)劃的有效控制。
1 飛行器模型
1.1 飛行器運(yùn)動(dòng)模型
飛行器通過(guò)配備動(dòng)態(tài)三維信息處理、航姿參考系統(tǒng)和全球定位/慣性導(dǎo)航系統(tǒng)(global positioning system-inertial navigation system, GPS-INS)慣性導(dǎo)航等設(shè)備,能夠?qū)崿F(xiàn)精確導(dǎo)航定位和定高飛行[24]。為重點(diǎn)關(guān)注本研究中航路規(guī)劃和在線決策問題,對(duì)飛行器機(jī)動(dòng)模型進(jìn)行簡(jiǎn)化,即假設(shè)飛行器保持定高巡航飛行,而不考慮飛行器起飛、著落中的俯仰姿態(tài)變化和飛行過(guò)程中的滾轉(zhuǎn)運(yùn)動(dòng)。本文在東北天坐標(biāo)系中,構(gòu)建了四自由度飛行器運(yùn)動(dòng)模型,如圖1所示。
4 仿真實(shí)驗(yàn)
4.1 仿真環(huán)境
本章節(jié)的仿真實(shí)驗(yàn)在Windows 10、Python 3.6、Tensorflow 1.14.0環(huán)境下,基于tkinter平臺(tái)對(duì)飛行器在線航路規(guī)劃模型進(jìn)行了設(shè)計(jì)和訓(xùn)練。任務(wù)場(chǎng)景為100 km×80 km的二維有限區(qū)域,如圖4所示。
其中,紅色點(diǎn)表示飛行器初始位置,藍(lán)色點(diǎn)表示目標(biāo)點(diǎn)位置,深色黑色為威脅區(qū)域,紅色扇形包絡(luò)表示飛行器探測(cè)區(qū)域。具體地,設(shè)定任務(wù)仿真步長(zhǎng)Δt為1 s。訓(xùn)練過(guò)程中,設(shè)定任務(wù)中飛行器初始位置為環(huán)境左上角隨機(jī)生成,其中x0∈[5,15],y0∈[5,15]。目標(biāo)位置在xtarget∈[85,95], ytarget∈[65,75]區(qū)域隨機(jī)生成,單位為km。設(shè)定飛行器初始航向?yàn)槟繕?biāo)朝向。
本研究分別在3個(gè)子任務(wù)場(chǎng)景中進(jìn)行預(yù)訓(xùn)練,再在威脅區(qū)數(shù)量、位置隨機(jī)的未知場(chǎng)景中進(jìn)行少量訓(xùn)練。在目標(biāo)靠近子任務(wù)中,設(shè)置障礙物數(shù)量為0;在威脅規(guī)避子任務(wù)中,設(shè)置威脅區(qū)數(shù)量為3,半徑為10 km,且兩兩威脅區(qū)邊界間距大于15 km;在航路尋優(yōu)子任務(wù)中,設(shè)置威脅區(qū)域?yàn)?組,每組兩個(gè),共6個(gè),半徑為10 km,每組內(nèi)兩個(gè)威脅區(qū)邊界間距小于5 km,其他參數(shù)如表1所示。
在基于CL-DDPG的在線航路規(guī)劃決策模型中,分別構(gòu)建17×128×64×2、19×128×64×1結(jié)構(gòu)的全連接型動(dòng)作神經(jīng)網(wǎng)絡(luò)和評(píng)價(jià)神經(jīng)網(wǎng)絡(luò)。在每一訓(xùn)練回合中,當(dāng)飛行器完成任務(wù)、發(fā)生碰撞或回合內(nèi)仿真步數(shù)達(dá)到最大步數(shù)時(shí),視為該輪訓(xùn)練結(jié)束,環(huán)境重置并進(jìn)入新一輪訓(xùn)練。當(dāng)經(jīng)驗(yàn)回放隊(duì)列充滿數(shù)據(jù)時(shí),神經(jīng)網(wǎng)絡(luò)模型將基于Adam-Optimizer算法進(jìn)行更新。初始化動(dòng)作網(wǎng)絡(luò)學(xué)習(xí)率和價(jià)值網(wǎng)絡(luò)學(xué)習(xí)率分別為0.01、0.02,設(shè)定其以每回合0.99的衰減率衰減至0.000 1時(shí)停止衰減。詳細(xì)模型參數(shù)如表2所示。
在基于傳統(tǒng)DDPG算法學(xué)習(xí)下的飛行器航路規(guī)劃模擬訓(xùn)練中,大約1 000回合后,飛行器獎(jiǎng)勵(lì)函數(shù)才開始緩慢上升并逐漸收斂至穩(wěn)定。因此,設(shè)定子課程1、2、3預(yù)訓(xùn)練回合數(shù)分別為200、300、500,通過(guò)子CL的方式,將前1 000回合進(jìn)行子課程劃分。此外,針對(duì)CL預(yù)訓(xùn)練,分別設(shè)定各子CL中的高斯噪聲方差和衰減系數(shù),如表3所示。當(dāng)完成預(yù)訓(xùn)練后,訓(xùn)練場(chǎng)景更新為威脅區(qū)數(shù)量、位置隨機(jī)的復(fù)雜未知場(chǎng)景,此時(shí)不再采用高斯噪聲對(duì)動(dòng)作進(jìn)行處理,訓(xùn)練進(jìn)行至最大訓(xùn)練回合后結(jié)束。
4.2 實(shí)驗(yàn)結(jié)果與分析
基于上述實(shí)驗(yàn)場(chǎng)景和參數(shù)設(shè)定,分別基于CL-DDPG和DDPG算法對(duì)飛行器在線航路規(guī)劃模型進(jìn)行訓(xùn)練,并收集飛行器學(xué)習(xí)獎(jiǎng)勵(lì)如圖5所示。
圖5中橫坐標(biāo)為訓(xùn)練回合數(shù),縱坐標(biāo)為每回合內(nèi)飛行器獲得的獎(jiǎng)勵(lì)值。可以看出,在開始訓(xùn)練階段,兩種算法所得到的回合獎(jiǎng)勵(lì)很少。隨著飛行器與環(huán)境交互不斷學(xué)習(xí),回合獎(jiǎng)勵(lì)曲線逐漸上升。訓(xùn)練至423回合左右時(shí),CL-DDPG曲線開始上升,雖然中間存在一定波動(dòng),但在1 054回合時(shí)上升至265左右獎(jiǎng)勵(lì)值,并收斂至穩(wěn)定。而DDPG算法下,獎(jiǎng)勵(lì)函數(shù)曲線在1 100回合左右才出現(xiàn)明顯上升狀態(tài),最終上升至1 510回合后收斂至穩(wěn)定狀態(tài)。對(duì)比可以得出,本文提出的CL-DDPG算法相較DDPG算法在總訓(xùn)練過(guò)程中收斂速度更快,并且在收斂后所獲取的獎(jiǎng)勵(lì)波動(dòng)幅度更小,這意味著CL-DDPG算法有效提升了訓(xùn)練效率,具有更穩(wěn)定的性能優(yōu)勢(shì)。
測(cè)試過(guò)程中,保持飛行器發(fā)射點(diǎn)和目標(biāo)點(diǎn)位置不變,分別統(tǒng)計(jì)100次測(cè)試回合下兩種算法在不同威脅區(qū)數(shù)量下的任務(wù)成功率,如圖6所示。
可以看出,經(jīng)自適應(yīng)學(xué)習(xí)的兩種算法模型都可以有效完成在線航路規(guī)劃任務(wù)。隨著環(huán)境的逐漸復(fù)雜化,DDPG模型成功率明顯下降,當(dāng)障礙物數(shù)量為20時(shí),顯著下降至61%,而CL-DDPG算法模型仍可以穩(wěn)定至80%,具有較高的成功率,更能滿足復(fù)雜環(huán)境下飛行器飛行任務(wù)需求。
為了滿足飛行器發(fā)射區(qū)、目標(biāo)點(diǎn)可變的任務(wù)規(guī)劃需求,本文對(duì)仿真任務(wù)場(chǎng)景進(jìn)行了改變,設(shè)定飛行器發(fā)射點(diǎn)、目標(biāo)點(diǎn)位置隨機(jī)生成,設(shè)定起始航向隨機(jī)生成,部分測(cè)試結(jié)果如圖7所示??梢钥闯?,隨著飛行器起始點(diǎn)和目標(biāo)點(diǎn)的改變,飛行器依然可以規(guī)劃出有效路徑,實(shí)現(xiàn)對(duì)目標(biāo)區(qū)域的規(guī)避,有效完成在線航路規(guī)劃任務(wù)。其中,航路沒有明顯冒險(xiǎn)、繞飛等行為,能夠滿足真實(shí)任務(wù)場(chǎng)景需求,體現(xiàn)了模型很好的通用性能。
為了驗(yàn)證模型在復(fù)雜動(dòng)態(tài)場(chǎng)景下的表現(xiàn),本文將測(cè)試環(huán)境中威脅區(qū)數(shù)量添加至20,并設(shè)定部分威脅區(qū)能隨機(jī)移動(dòng),以模擬敵方機(jī)動(dòng)攔截威脅區(qū)域,測(cè)試如圖8所示,其中淺黑色區(qū)域?yàn)橐苿?dòng)威脅區(qū)。
可以看到,隨著測(cè)試開始,飛行器持續(xù)向目標(biāo)進(jìn)行機(jī)動(dòng)規(guī)劃,并在圖8(a)所示處躲避完第一個(gè)威脅區(qū)后重新將航向調(diào)整為目標(biāo)方向。隨著飛行任務(wù)推移,飛行器持續(xù)有效進(jìn)行自主規(guī)避決策,并在196 s時(shí)完成了對(duì)移動(dòng)威脅區(qū)的規(guī)避,這體現(xiàn)了算法有效的泛化性,能夠應(yīng)用于復(fù)雜動(dòng)態(tài)任務(wù)場(chǎng)景中。在307 s時(shí),飛行器從兩個(gè)威脅區(qū)域之間尋優(yōu)穿過(guò),這體現(xiàn)了經(jīng)過(guò)課程學(xué)習(xí)和預(yù)訓(xùn)練的飛行器,能夠?qū)?yōu)到較優(yōu)航路解,以滿足任務(wù)要求。最終,在仿真進(jìn)行至389 s時(shí),飛行器有效完成了在線航路規(guī)劃任務(wù)。此外,為了分析飛行器在線航路規(guī)劃具體過(guò)程,對(duì)該次測(cè)試下的飛行速度、與目標(biāo)距離、航向偏差角進(jìn)行收集展示,如圖9所示??梢钥闯?,任務(wù)開始后,飛行器快速加速至最高速度300 m/s并持續(xù)向目標(biāo)點(diǎn)飛行,與目標(biāo)點(diǎn)距離逐漸減小。盡管在任務(wù)過(guò)程中,出現(xiàn)了一些轉(zhuǎn)彎、規(guī)避等行為,但飛行器能夠很好地保持自身姿態(tài),且飛行航向與目標(biāo)方向偏差角持續(xù)保持在±40°之間,體現(xiàn)了算法在復(fù)雜動(dòng)態(tài)環(huán)境中的良好穩(wěn)定性。復(fù)雜動(dòng)態(tài)未知場(chǎng)景下的飛行器在線路徑規(guī)劃模型泛化性測(cè)試如圖10所示。在復(fù)雜環(huán)境下,當(dāng)發(fā)射點(diǎn)、目標(biāo)點(diǎn)隨機(jī)指定時(shí),飛行器都能夠很好地完成在線航路規(guī)劃決策。在此基礎(chǔ)上,當(dāng)環(huán)境中的威脅區(qū)隨機(jī)生成、位置隨機(jī)動(dòng)態(tài)改變時(shí),飛行器都表現(xiàn)出了優(yōu)秀的臨機(jī)決策能力,能夠完成有效威脅評(píng)估和自主規(guī)避,體現(xiàn)了算法良好的泛化性能。
圖11記錄統(tǒng)計(jì)了100個(gè)復(fù)雜動(dòng)態(tài)場(chǎng)景中,飛行器在線航路規(guī)劃決策的成功率表現(xiàn)。該測(cè)試場(chǎng)景中,發(fā)射點(diǎn)、目標(biāo)點(diǎn)隨機(jī)生成,且初始距離大于50 km,環(huán)境中威脅區(qū)總數(shù)量設(shè)置為15保持不變。圖11中,橫坐標(biāo)表示為可移動(dòng)障礙物數(shù)量占比,縱坐標(biāo)表示任務(wù)成功率。
可以看出,相比于DDPG算法,CL-DDPG算法模型成功率明顯更高。當(dāng)可移動(dòng)威脅區(qū)占比提高時(shí),CL-DDPG算法模型始終表現(xiàn)出更好的任務(wù)完成率,在可移動(dòng)威脅區(qū)數(shù)量占比60%時(shí)依然保持76%成功率,明顯高于DDPG算法模型61%的成功率。這意味著經(jīng)過(guò)CL預(yù)訓(xùn)練的飛行器,在復(fù)雜動(dòng)態(tài)未知場(chǎng)景下在線航路規(guī)劃決策的成功率更高,模型魯棒性更好。
同時(shí),表4記錄了圖11測(cè)試過(guò)程中所有成功回合的仿真時(shí)間數(shù)據(jù)??梢钥闯?,簡(jiǎn)單場(chǎng)景下,兩種算法下飛行器航路規(guī)劃總時(shí)間無(wú)明顯差異,隨著環(huán)境中可移動(dòng)的威脅區(qū)數(shù)量增多,CL-DDPG算法下飛行器航路規(guī)劃模型展現(xiàn)了更好的適應(yīng)性,飛行器能夠以較短時(shí)間完成在線航路規(guī)劃任務(wù)。這體現(xiàn)了經(jīng)過(guò)目標(biāo)靠近、威脅規(guī)避、航路尋優(yōu)的課程學(xué)習(xí)后,飛行器能夠在航路規(guī)劃任務(wù)中制定更為合理的策略,使得飛行器能夠在更短時(shí)間內(nèi)到達(dá)目標(biāo)點(diǎn),提升了任務(wù)完成效率。
5 結(jié)束語(yǔ)
本文對(duì)復(fù)雜環(huán)境下的飛行器航路規(guī)劃問題展開研究,提出一種DRL在線決策方法。針對(duì)DRL算法的訓(xùn)練速率低、泛化性差等問題,提出一種CL預(yù)訓(xùn)練方法,將飛行器在線規(guī)劃任務(wù)分解為目標(biāo)靠近、威脅規(guī)避、航路尋優(yōu)3個(gè)子課程,并引導(dǎo)飛行器智能體進(jìn)行策略探索和學(xué)習(xí)。仿真結(jié)果表明,提出的一種基于CL-DDPG的飛行器在線航路規(guī)劃決策方法,訓(xùn)練速率快,在復(fù)雜動(dòng)態(tài)未知場(chǎng)景中表現(xiàn)出了更好的泛化性和魯棒性,具有一定應(yīng)用價(jià)值。未來(lái)的工作將構(gòu)建更為精確的飛控模型,以支持飛行器六自由度飛行,推動(dòng)算法模型在真實(shí)的任務(wù)場(chǎng)景中進(jìn)行優(yōu)化部署。
參考文獻(xiàn)
[1] GUI X H, ZHANG J F, PENG Z H. Trajectory clustering for arrival aircraft via new trajectory representation[J]. Journal of Systems Engineering and Electronics, 2021, 32(2): 473-486.
[2] NIKLAS G, TOBIAS B, DIRK N. Deep reinforcement learning with combinatorial actions spaces: an application to prescriptive maintenance[J]. Computers amp; Industrial Engineering, 2023, 179(1): 109165.
[3] WANG X Y, YANG Y P, WANG D, et al. Mission-oriented cooperative 3D path planning for modular solar-powered aircraft with energy optimization[J]. Chinese Journal of Aeronautics, 2022, 35(1): 98-109.
[4] LI B, YANG Z P, CHEN D Q, et al. Maneuvering target tracking of UAV based on MN-DDPG and transfer learning[J]. Defence Technology, 2021, 17(2): 457-466.
[5] LIU C S, ZHANG S J. Novel robust control framework for morphing aircraft[J]. Journal of Systems Engineering and Electronics, 2013, 24(2): 281-287.
[6] OBAJEMU O, MAHFOUF M, MAIYAR L M, et al. Real-time four-dimensional trajectory generation based on gain-sche-duling control and a high-fidelity aircraft model[J]. Engineering, 2021, 7(4): 495-506
[7] 趙巖, 吳建峰, 高育鵬. 基于多智能體導(dǎo)航的高超飛行器信息融合方法[J]. 系統(tǒng)工程與電子技術(shù), 2020, 42(2): 405-413.
ZHAO Y, WU J F, GAO Y P. Information fusion method of hypersonic vehicle based on multi-agent navigation[J]. Systems Engineering and Electronics, 2020, 42(2): 405-413.
[8] 陳宗基, 張汝麟, 張平, 等. 飛行器控制面臨的機(jī)遇與挑戰(zhàn)[J]. 自動(dòng)化學(xué)報(bào), 2013, 39(6): 703-710.
CHEN Z J, ZHANG R L, ZHANG P, et al. Flight control: challenges and opportunities[J]. Acta Automatica Sinica, 2013, 39(6): 703-710.
[9] DUCHON F, BABINEC A, KAJAN M, et al. Path planning with modified a star algorithm for a mobile robot[J]. Procedia Engineering, 2014, 96(1): 59-69.
[10] LIU J H, YANG J, LIU H P, et al. An improved ant colony algorithm for robot path planning[J]. Soft Computing, 2017, 21(1): 5829-5839.
[11] LI X Q, QIU L, AZIZ S, et al. Control method of UAV based on RRT* for target tracking in cluttered environment[C]∥Proc.of the 7th International Conference on Power Electronics Systems and Applications-Smart Mobility, Power Transfer amp; Security, 2017.
[12] 楊杰. 具有端點(diǎn)方向約束的快速航跡規(guī)劃方法研究[D]. 武漢: 華中科技大學(xué), 2013.
YANG J. Research on fast route planning method adapted to directional endpoint constraints[D]. Wuhan: Huazhong University of Science and Technology, 2013.
[13] 高科, 宋佳, 艾紹潔, 等. 高超聲速飛行器再入段LQR自抗擾控制方法設(shè)計(jì)[J]. 宇航學(xué)報(bào), 2020, 41(11): 1418-1423.
GAO K, SONG J, AI S J, et al. LQR active disturbance rejection control method design for hypersonic vehicles in reentry phase[J]. Journal of Astronautics, 2020, 41(11): 1418-1423.
[14] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533.
[15] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[EB/OL]. [2023-04-30].http:∥www.arxiv.org/abs/1509.02971.
[16] HUANG C Q, DONG K S, HUANG H Q, et al. Autonomous air combat maneuver decision using Bayesian inference and moving horizon optimization[J]. Journal of Systems Engineering and Electronics, 2018, 29(1): 86-97.
[17] WALKER O, VANEGAS F, GONZALEZ F, et al. A deep reinforcement learning framework for UAV navigation in indoor environments[C]∥Proc.of the IEEE Aerospace Confe-rence, 2019.
[18] LEVINE S, FINN C, DARRELL T, et al. End-to-end training of deep visuomotor policies[J]. The Journal of Machine Learning Research, 2016, 17(1): 1334-1373.
[19] 張運(yùn)濤. 面向無(wú)人機(jī)自主避障導(dǎo)航的深度強(qiáng)化學(xué)習(xí)算法研究[D]. 南京: 東南大學(xué), 2021.
ZHANG Y T. Research on deep reinforcement learning for autonomous obstacle avoidance and navigation of UAV[D]. Nanjing: Southeast University, 2021.
[20] WAN K F, GAO X G, HU Z J, et al. Robust motion control for UAV in dynamic uncertain environments using deep reinforcement learning[J]. Remote Sensing, 2020, 12(4): 640-660.
[21] ZHANG C M, ZHU Y W, YANG L P, et al. An optimal gui-dance method for free-time orbital pursuit-evasion game[J]. Journal of Systems Engineering and Electronics, 2022, 33(6): 1294-1308.
[22] LI Y F, SHI J P, JIANG W, et al. Autonomous maneuver decision-making for a UCAV in short-range aerial combat based on an MS-DDQN algorithm[J]. Defence Technology, 2022, 18(9): 1697-1714.
[23] ZHANG H, JIAO Z X, SHANG Y X, et al. Ground maneuver for front-wheel drive aircraft via deep reinforcement learning[J]. Chinese Journal of Aeronautics, 2021, 34(10): 166-176.
[24] LIU Q, SHI L, SUN L L, et al. Path planning for UAV-mounted mobile edge computing with deep reinforcement learning[J]. IEEE Trans.on Vehicular Technology, 2020, 69(5): 5723-5728.
[25] LI Y H, WANG H L, WU T C, et al. Attitude control for hypersonic reentry vehicles: an efficient deep reinforcement learning method[J]. Applied Soft Computing, 2023, 123(1): 108865.
[26] RUMMERY G A, NIRANJAN M. On-line Q-learning using connectionist systems[D]. Cambridge: University of Cambridge, 1994.
[27] 王冠, 茹海忠, 張大力, 等. 彈性高超聲速飛行器智能控制系統(tǒng)設(shè)計(jì)[J]. 系統(tǒng)工程與電子技術(shù), 2022, 44(7): 2276-2285.
WANG G, RU H Z, ZHANG D L, et al. Design of intelligent control system for flexible hypersonic vehicle[J]. Systems Engineering and Electronics, 2022, 44(7): 2276-2285.
[28] YANG Q M, ZHU Y, ZHANG J D, et al. UAV air combat autonomous maneuver decision based on DDPG algorithm[C]∥Proc.of the IEEE 15th International Conference on Control and Automation, 2019: 37-42.
[29] NARVEKAR S, SINAPOV J, LEONETTI M, et al. Source task creation for curriculum learning[C]∥Proc.of the ICAAMS 18th International Conference on Autonomous Agents amp; Multiagent Systems, 2016: 566-574.
[30] DU W B, GUO T, CHEN J, et al. Cooperative pursuit of unauthorized UAVs in urban airspace via multi-agent reinforcement learning[J]. Transportation Research Part C: Emerging Technologies, 2021, 128(1): 103-122.
作者簡(jiǎn)介
楊志鵬(1995—),男,工程師,碩士,主要研究方向?yàn)轱w行器任務(wù)規(guī)劃。
陳子浩(1995—),男,工程師,碩士,主要研究方向?yàn)轱w行器航路規(guī)劃。
曾 長(zhǎng)(1987—),男,高級(jí)工程師,碩士,主要研究方向?yàn)轱w行器系統(tǒng)總體設(shè)計(jì)。
林 松(1986—),男,高級(jí)工程師,碩士,主要研究方向?yàn)轱w行器任務(wù)規(guī)劃。
毛金娣(1988—),女,高級(jí)工程師,碩士,主要研究方向?yàn)轱w行器航路規(guī)劃。
張 凱(1990—),男,高級(jí)工程師,博士,主要研究方向?yàn)轱w行器系統(tǒng)總體設(shè)計(jì)。