摘 要:單一無人機無法有效處理復(fù)雜的多任務(wù)場景,而無人機編隊解決這方面問題具有顯著優(yōu)勢。為了滿足多任務(wù)場景和面向任務(wù)的編隊聚集以及運行中編隊隊形保持的需求,設(shè)計了一種基于門格海綿分形的無人機編隊模型。同時,采用多智能體近端策略優(yōu)化算法(MAPPO)、近端策略優(yōu)化算法(PPO)和注意力機制來訓練編隊控制策略,簡化無人機編隊模型的建立,根據(jù)無人機對其他無人機的關(guān)注為所有輸入分配權(quán)重,增強其在動態(tài)環(huán)境中的適應(yīng)性。針對MAPPO算法收斂速度慢和對多個智能體適應(yīng)性有限的問題,提出了一種基于門格海綿分形結(jié)構(gòu)的MIX-MAPPO算法。實驗結(jié)果表明,與DDPG、PPO、MADDPG和MAPPO等算法相比,該方法不但成功地實現(xiàn)了穩(wěn)定的編隊,而且具有明顯更快的收斂速度和更高的獎勵值,說明了MIX-MAPPO算法在編隊集群控制領(lǐng)域的優(yōu)越性。
關(guān)鍵詞:無人機編隊;門格海綿結(jié)構(gòu);注意力機制;集群控制;編隊保持
中圖分類號:TP301"" 文獻標志碼:A
文章編號:1001-3695(2025)01-031-0231-05
doi:10.19734/j.issn.1001-3695.2024.07.0207
Multiple UAVs formation control based on MIX-MAPPO
Abstract:Single unmanned aerial vehicles (UAVs) struggle to effectively handle complex multi-task scenarios,whereas UAV swarms exhibit significant advantages in addressing such challenges.This paper proposed a drone swarm model based on the Menger sponge fractal to meet the needs of multi-task scenarios and maintaining formation during swarm operation.The model employed multi-agent proximal policy optimization (MAPPO),proximal policy optimization (PPO),and attention mechanism to train the formation control strategy.The approach simplified the establishment of the drone swarm model by assigning weights to all inputs based on each drone’s attention to other drones,which enhanced adaptability in dynamic environments.To address the slow convergence and limited adaptability of the MAPPO algorithm with multiple agents,the paper introduced a Menger sponge fractal-based MIX-MAPPO algorithm.Experimental results demonstrate that this method not only achieves stable formations successfully,but also has significantly faster convergence speed and higher reward values compared to algorithms such as DDPG,PPO,MADDPG,and MAPPO.The MIX-MAPPO algorithm thus proves to be superior in the field of swarm control.
Key words:multi-unmanned aerial vehicle formation; Menger sponge structure;attention mechanism;cluster control;formation keeping
0 引言
無人機(UAVs)因其相對于傳統(tǒng)飛行器的多功能性而受到了廣泛關(guān)注[1,2]。盡管具有諸多優(yōu)勢,但由于硬件和軟件限制,單個無人機往往難以勝任復(fù)雜任務(wù),所以人們越來越多地關(guān)注多無人機編隊的研究。通過自組織,多個無人機可以實現(xiàn)自主合作,它們能夠有效地利用合作信息交換來增強整體性能[3~6],執(zhí)行搜索救援、監(jiān)視和跟蹤等任務(wù)。對多無人機協(xié)作編隊控制的研究主要集中在移動過程中編隊的聚集、建立和維持。目前,最常用的編隊方法包括領(lǐng)航者-跟隨者方法[7]、虛擬結(jié)構(gòu)方法[8]、一致性理論方法[9]、逆控制方法(BSC)[10]等。這些經(jīng)典技術(shù)在編隊的精確控制方面效果顯著,但隨著無人機數(shù)量的增加而帶來的復(fù)雜性和計算需求的增加,無人機編隊的可擴展性受到限制。
受自然生態(tài)系統(tǒng)啟發(fā),自組織的大型無人機群控制方法利用分離、聚集和速度匹配原理[11],使每架無人機都充當智能實體,自發(fā)保持距離以避免碰撞,并根據(jù)需要進行聚集[12]。該類方法實現(xiàn)了協(xié)調(diào)移動,使群體之間保持一致的速度和方向。同時,利用多智能體強化學習方法控制無人機編隊系統(tǒng)可以簡化復(fù)雜的集群系統(tǒng)建模的需求[13~16],可以訓練系統(tǒng)以提供控制輸入,然后在測試和應(yīng)用階段應(yīng)用已學習的策略。然而,將傳統(tǒng)多智能體強化學習算法擴展到更大規(guī)模的無人機群時會面臨收斂性方面的挑戰(zhàn)。
基于上述問題,本文提出了基于門格海綿分形的編隊結(jié)構(gòu),利用分形結(jié)構(gòu)的自相似特性和局部與整體的相似性,簡化隊形構(gòu)造過程。在形成一級編隊后,利用一級編隊的自相似特性可以聚集成更高層次的編隊,并依此類推到n級編隊,使編隊具有可拓展性。對于MAPPO收斂較慢以及隨著智能體數(shù)量增多導致學習效果變差的問題,本文將無人機抽象為深度強化學習中的智能體(質(zhì)點),結(jié)合門格海綿分形結(jié)構(gòu)的自相似特性,基于多智能體近端策略優(yōu)化算法(MAPPO)[17]和近端策略優(yōu)化算法(PPO)[18]開發(fā)了控制算法,并在跟隨者無人機的評論家網(wǎng)絡(luò)中集成了注意力機制,設(shè)計了一種分組的MIX-MAPPO方法,賦予無人機自主學習的能力,減少了神經(jīng)網(wǎng)絡(luò)的輸入維數(shù),簡化了控制模型的建立過程,減小了訓練時網(wǎng)絡(luò)計算的難度,加快了收斂速度,并提高聚集的成功率。在編隊訓練中加入異構(gòu)信息,使集群可以應(yīng)對更為復(fù)雜的問題。
1 門格海綿結(jié)構(gòu)編隊模型建模
本章概述了無人機的運動模型和編隊集群結(jié)構(gòu)。研究專注于多級無人機編隊結(jié)構(gòu),旨在充分利用門格海綿結(jié)構(gòu)的分形自相似特性,實現(xiàn)對大規(guī)模無人機集群的高效控制。在無人機編隊集群控制領(lǐng)域,傳統(tǒng)的深度強化學習算法在應(yīng)對龐大無人機數(shù)量和復(fù)雜任務(wù)的挑戰(zhàn)方面面臨學習效率差、收斂速度慢等問題。為解決這些問題,引入了具有自相似特性的門格海綿結(jié)構(gòu),簡化構(gòu)建隊形。將整個無人機集群抽象為一個正方形,而集群中的子編隊則對應(yīng)于該結(jié)構(gòu)中的子正方形,這種設(shè)計能夠使無人機編隊高效地執(zhí)行復(fù)雜任務(wù)。
1.1 運動模型
本文主要研究無人機編隊的控制問題,強調(diào)編隊間的協(xié)同,不考慮單個無人機的特性,因此本文可以簡化問題,將無人機抽象為質(zhì)點。首先,定義一個向量集[p1,p2,…,pn],這個向量集是指集群內(nèi)所有無人機在笛卡爾坐標系中的坐標。描述單個無人機的運動,可以使用式(1)表示。
其中:νi為無人機i的飛行速度;φi為UAVi的俯仰航向角,假設(shè)無人機在同一高度飛行,則在z軸方向的高度保持不變,即ζ。在無人機飛行過程中,通過施加控制輸入來引導無人機的飛行??刂戚斎牍饺缦拢?/p>
其中:pi和Vi分別是UAVi的位置和速度;ui=[uxi,uyi]是X和Y方向的控制輸入,可以通過ui的控制輸入來改變無人機的速度和角度等參數(shù)。
1.2 隊形設(shè)計
本文編隊隊形設(shè)計將門格海綿分形結(jié)構(gòu)與無人機集群編隊相結(jié)合。分形結(jié)構(gòu)的特點是自相似性,其中部分與整體表現(xiàn)出相似性。利用局部與整體的相似性,可以簡化隊形構(gòu)造過程。在形成一級編隊后,利用一級編隊的自相似特性可以聚集成更高層次的編隊,并依此類推,使編隊具有可拓展性。
一級編隊由5架無人機組成,包括1架處于中間位置的領(lǐng)導者無人機和4架均勻分布在其周圍的跟隨者無人機。該編隊可以更好地將領(lǐng)導者無人機保護在安全位置,防止外部惡意無人機的入侵和攻擊。一級編隊中的通信只存在于領(lǐng)導者和跟隨者之間,是一種集中控制方式。
一級編隊以領(lǐng)導者無人機為中心,半徑為跟隨者無人機與領(lǐng)導者無人機的整體距離dij,每個子編隊為最小任務(wù)執(zhí)行單元,領(lǐng)導者無人機確定編隊速度和位置,安全范圍基于跟隨者無人機的安全范圍dsafe,具體結(jié)構(gòu)如圖1所示。
一級編隊中的拉普拉斯矩陣L為
其中:D為度矩陣;A為鄰接矩陣。拉普拉斯矩陣的秩為4,代表一級編隊五架無人機之間可進行相互通信。
基于門格海綿分形結(jié)構(gòu)具有自相似特性,可以讓各級編隊都能形成門格海綿結(jié)構(gòu)分形,使無人機集群編隊擁有了極大的可擴展性。在移動過程中,領(lǐng)導者無人機根據(jù)任務(wù)規(guī)劃航跡。將一級編隊設(shè)為一個整體,表示如下:
其中:R為一級編隊形成一個質(zhì)點的半徑大?。籿為一級編隊形成一個質(zhì)點的速度;p為一級編隊形成一個質(zhì)點在空間中的位置坐標。
根據(jù)門格海綿分形結(jié)構(gòu)的自相似特性,本文可以將四個一級編隊采用相同的聚集策略構(gòu)建為二級編隊。由此產(chǎn)生的編隊結(jié)構(gòu)也遵循門格海綿分形結(jié)構(gòu),多級編隊可以迭代進行。二級編隊結(jié)構(gòu)如圖2所示。
二級編隊在保留一級編隊內(nèi)部原有通信聯(lián)系的同時,每個一級編隊內(nèi)的領(lǐng)導者之間也可以進行溝通和協(xié)作,以建立第二級編隊。領(lǐng)導者之間同級,使多級編隊可以進行小規(guī)模集中式控制和大規(guī)模分布式編隊控制。
2 門格海綿結(jié)構(gòu)編隊集群實現(xiàn)
本章基于MAPPO算法,提出MIX-MAPPO算法。該算法結(jié)合門格海綿分形結(jié)構(gòu)和注意力機制框架以及混合評論家網(wǎng)絡(luò),可以降低評論家網(wǎng)絡(luò)的輸入維數(shù),減少評論家網(wǎng)絡(luò)的復(fù)雜度,賦予無人機自主學習和獲取聚合策略的能力,使無人機群可以自主執(zhí)行任務(wù)。
2.1 MIX-MAPPO算法
MAPPO算法通過將所有智能體的狀態(tài)和動作值反饋到批評網(wǎng)絡(luò)來解決復(fù)雜多任務(wù)場景問題。然而,這也帶來了學習和收斂方面的挑戰(zhàn)。狀態(tài)空間隨著智能體數(shù)量的增加而線性增長,使得算法的收斂難以實現(xiàn)。為了解決這個問題,本文算法利用了門格海綿分形結(jié)構(gòu)的自相似特征,在聚類過程中,所有無人機被劃分成正方形的編隊,由領(lǐng)導者無人機進行這些子編隊之間的互聯(lián)。
基于圖2所示的編隊設(shè)計,每個一級編隊都被視為一個完整的實體。在這一框架下,制定了跟隨無人機的網(wǎng)絡(luò)架構(gòu)。該架構(gòu)以MAPPO算法的評論家網(wǎng)絡(luò)為基礎(chǔ),在前面集成了注意力機制,可以根據(jù)跟隨無人機對編隊內(nèi)其他無人機的不同注意力水平為所有輸入分配權(quán)重。這一優(yōu)化提高了跟隨者無人機從其他無人機收集狀態(tài)和行動信息的能力,提高了算法訓練效率。跟隨者的評論家網(wǎng)絡(luò)的輸入包括子編隊內(nèi)所有無人機t時刻的聚合函數(shù)值,并按t時刻動作值(a1,a2,…,an)和狀態(tài)觀測值(o1,o2,…,on)加權(quán)。通過這種輸入方法,每個跟隨無人機都可以學習子編隊中其他無人機的狀態(tài),并相應(yīng)地執(zhí)行下一個動作(a1,a2,…,an+1),以達到聚集到相應(yīng)位置并避免碰撞的效果。這里,n代表跟隨者的數(shù)量,而n+1表示整個一級編隊中的無人機總數(shù)。
此外,假設(shè)集群收斂于一個固定的集合點,集合過程要求領(lǐng)導者和跟隨者都迅速采取行動。領(lǐng)導者的任務(wù)是迅速前進到集合點,而跟隨者則需要接近各自的領(lǐng)導者和指定的集合點。為了加快領(lǐng)導者向集合點的移動,本文利用PPO評論家網(wǎng)絡(luò)簡化領(lǐng)導者評論家網(wǎng)絡(luò)的輸入。具體來說,領(lǐng)導者評論網(wǎng)絡(luò)的輸入僅包括其自身的動作值at和狀態(tài)值ot,而不考慮其他無人機的狀態(tài),每個隊形內(nèi)的協(xié)調(diào)方面將反映在環(huán)境獎勵成分中。該改進可以減少智能體的網(wǎng)絡(luò)輸入,降低學習難度,從而加快收斂速度,最終達到預(yù)期效果,評論家網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
損失值函數(shù)如下:
通過分組,緩解了無人機數(shù)量增加導致輸入線性增長的問題。該方法可以優(yōu)化臨界網(wǎng)絡(luò),加快收斂速度。具體過程如算法1所示。
算法1 MIX-MAPPO算法
2.2 獎勵設(shè)置
利用強化學習方法學習無人機控制策略,最重要的部分是通過設(shè)置獎勵函數(shù)來訓練無人機,實現(xiàn)集群策略學習并完成集群形成。本文中的無人機從優(yōu)先級的角度可以分為領(lǐng)導者無人機和跟隨者無人機兩類。在集群的任務(wù)場景中設(shè)置虛擬集合點,并對領(lǐng)導者和跟隨者無人機設(shè)置不同的獎勵函數(shù)。
領(lǐng)導者獎勵:由于領(lǐng)導者無人機需要盡快到達目標位置,它們通過最小化到各自目標位置的距離來獲得獎勵。獎勵設(shè)置如下:
rlea=-min‖plea-ptar‖2(9)
其中:plea為領(lǐng)導者的當前位置;ptar為領(lǐng)導者相對于目標點的預(yù)期位置。
跟隨者獎勵:跟隨者無人機在動態(tài)變化中跟隨領(lǐng)導者無人機,通過減少領(lǐng)導者無人機的相對位置來達到跟隨效果,考慮到子編隊的形狀,本文設(shè)置了一個虛擬的方形結(jié)構(gòu),讓無人機跟隨虛擬的隊形,達到保持隊形的目的。設(shè)每架無人機有一個大于無人機大小的圓形期望位置區(qū)域(Epa),且對應(yīng)的無人機在期望位置范圍內(nèi)處于穩(wěn)定狀態(tài),則認為編隊相對穩(wěn)定,如圖4所示。
如果跟隨無人機在對應(yīng)的期望位置區(qū)域內(nèi),則認為其處于穩(wěn)定狀態(tài)并獲得正獎勵,反之則根據(jù)其與對應(yīng)的領(lǐng)導者無人機的相對位置距離進行負懲罰,距離越遠,懲罰越大,獎勵函數(shù)設(shè)置如下:
rf=-min‖pf-pl‖2(10)
其中:pf為跟隨者的當前位置;pl為領(lǐng)導者的當前位置。
避撞獎勵:無人機集群過程需要避免無人機之間的碰撞,可以通過設(shè)置相應(yīng)的獎勵函數(shù)來實現(xiàn)。在無碰撞情況下,設(shè)置安全距離,當兩架無人機之間的距離大于安全距離時,無人機處于安全狀態(tài),無人機不會因避碰而受到獎勵。當兩架無人機之間的距離等于安全距離時,無人機處于危險狀態(tài)的臨界區(qū)域。當兩架無人機之間的距離小于安全距離時,無人機處于危險狀態(tài)。無人機避碰情況如圖5所示。獎勵設(shè)置如下:
其中:dsafe為安全距離;dij為兩架無人機的相對距離。
環(huán)境獎勵:在真實的無人機集群場景中,各種環(huán)境因素都會對無人機集群的控制產(chǎn)生影響。為了模擬環(huán)境因素對無人機集群的不利影響,本文引入了一種會將無人機吸引到坐標原點的獎勵機制。具體而言,本文基于每個無人機與坐標原點之間的相對距離實施獎勵,距離越小,獎勵越大。獎勵函數(shù)定義如下:
renv=-min 0.1×‖plea-p0‖2(12)
其中:plea為無人機位置;p0為原點位置。
3 實驗結(jié)果
本章的訓練平臺基于OpenAI的MPE開源庫搭建,實驗的硬件配置是Xeno E5-2620 @2.10 GHz CPU、32 GB RAM、NVIDIA 2070 super GPU。首先在模型訓練階段與深度確定性策略梯度算法(DDPG)[19]、PPO、多智能體深度確定性策略梯度算法(MADDPG)[20]和MAPPO等算法相比,MIX-MAPPO算法不但成功地實現(xiàn)了穩(wěn)定的編隊,而且具有明顯更快的收斂速度和更高的獎勵值。實驗參數(shù)設(shè)置如表1所示。
3.1 實驗獎勵對比
從圖6和7中可以看出,對比DDPG和PPO等單智能體強化學習方法,多智能體深度強化學習方法的無人機編隊控制性能更優(yōu)秀。比較MIX-MAPPO、MADDPG和MAPPO三種算法,可以清楚地看到MIX-MAPPO優(yōu)于MAPPO和MADDPG,MAPPO也表現(xiàn)出優(yōu)于MADDPG的性能。這種優(yōu)勢源于前兩個算法是on-policy類型算法,與off-policy類型算法MADDPG相比,在更新方法、樣本利用效率等方面都有優(yōu)勢。此外,MIX-MAPPO優(yōu)于MAPPO是因為其分組機制,允許無人機選擇性地只從各自編隊內(nèi)的其他無人機收集狀態(tài)。領(lǐng)導者和跟隨者使用獨立的評論網(wǎng)絡(luò),跟隨者的評論網(wǎng)絡(luò)中集成了注意力機制,根據(jù)跟隨者對其他無人機的注意力水平對輸入賦予權(quán)重,降低了評論網(wǎng)絡(luò)的輸入維度,優(yōu)化了無人機獲取其他無人機狀態(tài)和動作信息的效率。
3.2 訓練時間對比
如表2所示,這部分主要是對五種方法在同一訓練中經(jīng)過相同輪訓練的時間比較。表2列出了幾種方法的時間表,可以看出MADDP和MAPPO需要的時間更長,其次是DDPG和PPO,而MIX-MAPPO需要的時間最短。
首先, 對于DDPG和PPO算法,無人機評論家網(wǎng)絡(luò)僅從自身智能體獲取狀態(tài)信息,與MADDPG和MAPPO算法相比計算復(fù)雜度更低,從而使訓練時間快于后者。而MIX-MAPPO具有最短的訓練時間,則是因為MIX-MAPPO訓練無人機有側(cè)重地從各自編隊內(nèi)的無人機中收集信息,領(lǐng)導者和跟隨者采用獨立的批評網(wǎng)絡(luò),并將注意力機制融入到跟隨者的批評網(wǎng)絡(luò)中,這可以根據(jù)追隨者對其他無人機的關(guān)注程度為所有輸入分配權(quán)重。該方法降低了批評網(wǎng)絡(luò)的輸入維度,優(yōu)化了無人機獲取其他無人機狀態(tài)和動作信息的效率。而且由于加入了分組信息和注意力機制進行信息權(quán)重分配,G-MIXDDPG下無人機可以更快地達到預(yù)設(shè)隊形的目標點,DDPG和PPO中的無人機卻更加盲目。在單輪訓練中,MIX-MAPPO可以在一輪訓練結(jié)束時達到預(yù)設(shè)目標,比DDPG和PPO的訓練時間快,因此最終的訓練時間小于DDPG和PPO。
3.3 編隊完成率
在評估不同方法的實驗效果時,設(shè)定無人機到達其預(yù)設(shè)的期望位置即視為對應(yīng)任務(wù)的完成,當集群中的所有無人機都成功到達各自的期望位置時,則整個集群任務(wù)完成。在設(shè)定了虛擬聚集點后,無人機編隊在向該聚集點移動的過程中,每架無人機的期望位置都是相對于該聚集點的固定點。因此,可以通過確定虛擬聚集點的位置來明確所有無人機的期望位置。定義編隊的完成率(completion rate,CR)為
CR=m/n(13)
其中:m為到達預(yù)定位置的UAV數(shù)量;n為總的UAV數(shù)量。獲取100輪實驗中的完成率,并取平均值,結(jié)果如表3所示。
實驗結(jié)果表明,在涉及多個無人機協(xié)同任務(wù)的多智能體場景中,傳統(tǒng)的單智能體DDPG算法和PPO算法因僅依賴自身狀態(tài)信息,而與其他多智能體算法相比,表現(xiàn)出較差的適應(yīng)性和完成率。MIX-MAPPO優(yōu)于MADDPG和MAPPO,是因為G-MADDPG通過引入分組機制減少了評論家網(wǎng)絡(luò)的信息輸入量,以及引入注意力機制進行信息權(quán)重分配,顯著提升了任務(wù)的完成效率,驗證了分組策略在優(yōu)化多智能體協(xié)作中的必要性和有效性。
3.4 動捕實驗
動捕實驗是為了驗證算法訓練出的策略的有效性,即將策略輸出的路徑用真實場景實現(xiàn),以直觀表達算法的可行性。
從圖8可以看出,通過MIX-MAPPO的優(yōu)化和精確控制,訓練出的策略可以完美控制五架無人機進行從隨機停放到形成編到保持隊形移動到落地全過程。這充分驗證了MIX-MAPPO在實際無人機編隊控制問題中的可行性。
最初,跟隨者無人機與領(lǐng)導者無人機的位置和距離不斷變化,隨后四架跟隨者無人機與領(lǐng)導者無人機之間的距離幾乎同時穩(wěn)定在相同距離,并在后續(xù)時間一直保持穩(wěn)定,這說明經(jīng)過MIX-MAPPO訓練形成的成熟策略,可以保證一級編隊順利聚集和保持。
4 結(jié)束語
本文基于門格海綿分形結(jié)構(gòu)設(shè)計了一種無人機編隊,研究無人機的聚集和分離問題,并采用多智能體深度強化學習方法學習控制策略。這使得多個無人機能夠自主聚類并形成特定的編隊結(jié)構(gòu),以滿足快速形成編隊的要求,簡化了集群控制策略的設(shè)計,降低了數(shù)學模型的復(fù)雜性。通過結(jié)合門格海綿分形結(jié)構(gòu)的特點,在集群內(nèi)塑造無人機編隊,以簡化關(guān)鍵網(wǎng)絡(luò)并提高學習效率。最終的實驗結(jié)果表明,與DDPG、PPO、MADDPG和MAPPO相比,改進的MIX-MAPPO算法具有更快的收斂速度和更好的收斂性能。
未來將基于自相似特性探索三維空間無人機編隊的實現(xiàn)。同時在實際場景中將用更多架無人機驗證本文算法。在算法改進方面,將進一步探索更精細的分組策略和更高效的信息共享機制,以應(yīng)對更復(fù)雜多變的多智能體協(xié)同任務(wù)。
參考文獻:
[1]Zhu Xiaoning.Analysis of military application of UAV swarm tech-nology[C]//Proc of the 3rd International Conference on Unmanned Systems.Piscataway,NJ:IEEE Press,2020:1200-1204.
[2]Lu Yafei,Chen Qingyang,Jia Gaowei,et al.Development and experiment of elastic-rope launcher for small fixed-wing UAVs[C]//Proc of the 3rd World Conference on Mechanical Engineering and Intelligent Manufacturing.Piscataway,NJ:IEEE Press,2020:654-658.
[3]Ribeiro R G,Cota L P,Euzebio T A M,et al.Guimaraes unmanned-aerial vehicle routing problem with mobile charging stations for assisting search and rescue missions in post disaster scenarios[J].IEEE Trans on Systems,Man,and Cybernetics:Systems,2022,52(11):6682-6696.
[4]Dang Tung,Mascarich F,Khattak S,et al.Autonomous search for underground mine rescue using aerial robots[C]//Proc of IEEE Aerospace Conference.Piscataway,NJ:IEEE Press,2020:1-8.
[5]Meng Wei,He Zhirong,Su Rong,et al.Decentralized multi-UAV flight autonomy for moving convoys search and track[J].IEEE Trans on Control Systems Technology,2017,25(4):1480-1487.
[6]Javaid S,Saeed N,Qadi Z,et al.Communication and control in colla-borative UAVs:recent advances and future trends[J].IEEE Trans on Intelligent Transportation Systems,2023,24(6):5719-5739.
[7]Cao Lei,Liu Guoping,Zhang Dawei,et al.A leader-follower formation strategy for networked multi-agent systems based on the PI predictive control method[C]//Proc of the 40th Chinese Control Conference.Piscataway,NJ:IEEE Press,2021:4763-4768.
[8]Chen Qingyang,Wang Yujie,Lu Yafei.Formation control for UAVs based on the virtual structure idea and nonlinear guidance logic[C]//Proc of the 6th International Conference on Automation,Control and Robotics Engineering.Piscataway,NJ:IEEE Press,2021:135-139.
[9]Wang Anxu,Jing Fuqi,Huang Xiaowei,et al.Structure keeping control for heterogeneous formations based on consistency theory and graph theory[C]//Proc of the 9th International Conference on Mechatronics and Robotics Engineering.Piscataway,NJ:IEEE Press,2023:139-145.
[10]Ma Haoxiang,Chen Mou,Wu Qingxian.Disturbance observer based inverse optimal tracking control of the unmanned aerial helicopter[C]//Proc of the 8th Data Driven Control and Learning Systems Conference.Piscataway,NJ:IEEE Press,2019:448-452.
[11]Kouzeghar M,Song Y,Meghjani M,et al.Multi-target pursuit by a decentralized heterogeneous UAV swarm using deep multi-agent reinforcement learning[C]//Proc of IEEE ICRA.Piscataway,NJ:IEEE Press,2023:3289-3295.
[12]Niu Zijia,Jia Xiaohu,Yao Wang.Communication-free MPC-based neighbors trajectory prediction for distributed multi-UAV motion planning[J].IEEE Access,2022,10:13481-13489.
[13]Wang Chao,Wang Jian,Zhang Xudong.A deep reinforcement learning approach to flocking and navigation of UAVs in large-scale complex environments[C]//Proc of IEEE GlobalSIP.Piscataway,NJ:IEEE Press,2018:1228-1232.
[14]Salimi M,Pasquier P.Deep reinforcement learning for flocking control of UAVs in complex environments[C]//Proc of the 6th International Conference on Robotics and Automation Engineering.Piscataway,NJ:IEEE Press,2021:344-352.
[15]Yan Chao,Wang Chang,Xiang Xiaojia,et al.Deep reinforcement learning of collision-free flocking policies for multiple fixed-wing UAVs using local situation maps[J].IEEE Trans on Industrial Informatics,2022,18(2):1260-1270.
[16]Wu Jiehong,Yu Yuanzhe,Ma Jian,et al.Autonomous cooperative flocking for heterogeneous unmanned aerial vehicle group[J].IEEE Trans on Vehicular Technology,2021,70(4):12477-12490.
[17]Lyu Gengcheng,Li Meng.Multi-agent cooperative control in neural MMO environment based on mappo algorithm[C]//Proc of the 5th International Conference on Artificial Intelligence Circuits and Systems.Piscataway,NJ:IEEE Press,2023:1-4.
[18]Liu Shuai.Research on manipulator control strategy based on PPO algorithm[C]//Proc of GCITC.Piscataway,NJ:IEEE Press,2023:1-4.
[19]Xiang Yao,Wen Jiayan,Luo Wenguang,et al. Research on collision-free control and simulation of single-agent based on an improved DDPG algorithm[C]//Proc of the 35th Youth Academic Annual Conference of Chinese Association of Automation.Piscataway,NJ:IEEE Press,2020:552-556.
[20]Zhao Maomao,Zhang Shaojie,Jiang Bin.Multi-agent cooperative attacker-defender-target task decision based on PF-MADDPG[C]//Proc of the 6th International Symposium on Autonomous Systems.Piscataway,NJ:IEEE Press,2023:1-6.