趙琳,呂科,郭靖,宏晨,向賢財(cái),薛健,王泳
基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)集群協(xié)同作戰(zhàn)決策方法
趙琳1,呂科1,郭靖2,宏晨3,向賢財(cái)1,薛健1,王泳4*
(1.中國科學(xué)院大學(xué) 工程科學(xué)學(xué)院,北京 100049; 2.沈陽航空航天大學(xué) 電子信息工程學(xué)院,沈陽 110136; 3.北京聯(lián)合大學(xué) 機(jī)器人學(xué)院,北京 100101; 4.中國科學(xué)院大學(xué) 人工智能學(xué)院,北京 100049)( ? 通信作者電子郵箱wangyong@ucas.ac.cn)
在無人機(jī)(UAV)集群攻擊地面目標(biāo)時(shí),UAV集群將分為兩個(gè)編隊(duì):主攻目標(biāo)的打擊型UAV集群和牽制敵方的輔助型UAV集群。當(dāng)輔助型UAV集群選擇激進(jìn)進(jìn)攻或保存實(shí)力這兩種動(dòng)作策略時(shí),任務(wù)場景類似于公共物品博弈,此時(shí)合作者的收益小于背叛者?;诖?,提出一種基于深度強(qiáng)化學(xué)習(xí)的UAV集群協(xié)同作戰(zhàn)決策方法。首先,通過建立基于公共物品博弈的UAV集群作戰(zhàn)模型,模擬智能化UAV集群在合作中個(gè)體與集體間的利益沖突問題;其次,利用多智能體深度確定性策略梯度(MADDPG)算法求解輔助UAV集群最合理的作戰(zhàn)決策,從而以最小的損耗代價(jià)實(shí)現(xiàn)集群勝利。在不同數(shù)量UAV情況下進(jìn)行訓(xùn)練并展開實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,與IDQN(Independent Deep Q-Network)和ID3QN(Imitative Dueling Double Deep Q-Network)這兩種算法的訓(xùn)練效果相比,所提算法的收斂性最好,且在4架輔助型UAV情況下勝率可達(dá)100%,在其他UAV數(shù)情況下也明顯優(yōu)于對比算法。
無人機(jī);多集群;公共物品博弈;多智能體深度確定性策略梯度;協(xié)同作戰(zhàn)決策方法
智能化的無人機(jī)(Unmanned Aerial Vehicle,UAV)適合應(yīng)用在高速、復(fù)雜和多變的現(xiàn)代軍事行動(dòng)當(dāng)中,智能UAV集群具備更高的自主性,可以在復(fù)雜的對抗博弈中找到最優(yōu)的決策[1]。將UAV投入戰(zhàn)場既降低了作戰(zhàn)成本又大幅減少了人員傷亡,具有明顯的作戰(zhàn)優(yōu)勢。多集群UAV協(xié)同作戰(zhàn)的攻擊模式能夠應(yīng)對更復(fù)雜的作戰(zhàn)任務(wù),同時(shí)完成多目標(biāo)打擊。因此在任務(wù)中提高多UAV集群間的配合,以及平衡多UAV之間的利益博弈,成為提高作戰(zhàn)效率、降低損耗的關(guān)鍵研究[2]。
UAV的自主機(jī)動(dòng)決策能力直接影響了它在智能戰(zhàn)爭中的勝率。但空戰(zhàn)中的決策問題研究具有多智能體、動(dòng)作空間大、維度高、視野長等特點(diǎn),因此求解困難。通常采用智能算法求最優(yōu)解[3],或引入博弈論求均衡解[4]。近些年隨著強(qiáng)化學(xué)習(xí)的發(fā)展,強(qiáng)化學(xué)習(xí)算法在解決UAV空戰(zhàn)決策問題中起到了越來越重要的作用。
UAV及集群對抗中的決策問題研究主要分為兩類:一類是研究UAV在空戰(zhàn)中姿態(tài)、位置與速度的決策占優(yōu)問題,另一類是研究集群中UAV決策比例問題。其中,第一類研究成果相對豐富,如利用深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法[5]處理UAV連續(xù)空間動(dòng)作問題:文獻(xiàn)[6-7]中利用DDPG算法建立UAV空戰(zhàn)中的決策模型,提高了機(jī)動(dòng)決策的自主控制精度;文獻(xiàn)[8]中為提高DDPG算法效率,利用最大熵逆強(qiáng)化學(xué)習(xí)算法構(gòu)造獎(jiǎng)勵(lì)結(jié)構(gòu),解決空戰(zhàn)決策稀疏獎(jiǎng)勵(lì)問題,同時(shí)將正則化引入策略網(wǎng)絡(luò),加強(qiáng)了決策模型在不完全信息環(huán)境中的魯棒性。以上研究成果為UAV空戰(zhàn)中的一對一智能決策模型,DDPG算法在處理多智能體問題時(shí)會(huì)變得不穩(wěn)定,基于它改進(jìn)的多智能體深度確定性策略梯度(Multi-Agent DDPG, MADDPG)算法[9]則更適合解決UAV集群決策問題。文獻(xiàn)[10]中在戰(zhàn)前只掌握敵方部分火力信息的前提下,基于MADDPG算法構(gòu)造了動(dòng)態(tài)UAV集群任務(wù)決策模型,驗(yàn)證了MADDPG算法在處理多機(jī)決策問題時(shí)的穩(wěn)定性更強(qiáng)。
在實(shí)際作戰(zhàn)中,決策的優(yōu)劣也體現(xiàn)在控制己方資源及損耗上。UAV執(zhí)行的任務(wù)未必是單一的,可能是連續(xù)的多段任務(wù)。此外,由于UAV在執(zhí)行任務(wù)中很難補(bǔ)充資源,分配過多資源給其中一項(xiàng)任務(wù)將導(dǎo)致個(gè)體生存能力的降低,這也是第二類UAV空戰(zhàn)決策研究的目的及關(guān)鍵。
目前公共物品博弈在社會(huì)性研究之中比較廣泛,理性個(gè)體傾向于在單次任務(wù)中保持自身實(shí)力。為了將UAV更加智能化,將博弈思想引入U(xiǎn)AV集群執(zhí)行任務(wù),此時(shí)個(gè)體UAV對集體的貢獻(xiàn)低,自身損耗小,但是對UAV集群完成任務(wù)會(huì)產(chǎn)生消極影響。UAV個(gè)體利益與集群利益產(chǎn)生沖突,個(gè)體的獎(jiǎng)勵(lì)與損失模型可以視為公共物品博弈模型。由于UAV作戰(zhàn)場景的特殊性,目前的相關(guān)研究還較少,其中禹明剛等[11]基于多元公共品演化博弈求解UAV集群對抗中個(gè)體選擇為集體貢獻(xiàn)者的比例。受該研究的啟發(fā),為了提高UAV決策中的智能性,本文提出一種基于深度強(qiáng)化學(xué)習(xí)的UAV集群協(xié)同作戰(zhàn)決策方法。該方法設(shè)計(jì)了一種異構(gòu)UAV集群協(xié)同對地攻擊決策模型,根據(jù)集群中UAV的價(jià)值和載荷,為UAV分配不同的作戰(zhàn)攻擊任務(wù),實(shí)現(xiàn)兩編隊(duì)UAV集群協(xié)同打擊目標(biāo),分別是主攻目標(biāo)的打擊型UAV集群和牽制敵方的輔助型UAV集群;同時(shí),輔助型UAV集群制定決策時(shí)面臨著公共物品博弈,在能檢測敵方火力信息的前提下,利用MADDPG算法求解輔助型UAV集群動(dòng)態(tài)最優(yōu)的作戰(zhàn)決策。
UAV集群合作對地攻擊模型的場景如圖1所示,我方作為攻擊方為藍(lán)方,擁有由攜帶炮彈的UAV集群組成空中力量;敵方作為防御方為紅方,擁有對UAV能產(chǎn)生有效打擊的地面防空力量。藍(lán)方目標(biāo)為打擊紅方碉堡,紅方采取防御反擊。藍(lán)方由兩編隊(duì)UAV集群共同組成:一隊(duì)為執(zhí)行打擊目標(biāo)(碉堡)任務(wù)的打擊型UAV集群,另一隊(duì)為牽制紅方火力的輔助型UAV集群。假定紅方?jīng)]有特殊武器和空中攔截能力,主要的防空力量組成為坦克部隊(duì)(RT)、防空導(dǎo)彈部隊(duì)(RD)和碉堡(R)的自身防御系統(tǒng)。
圖1 UAV集群協(xié)同對地攻擊模型
藍(lán)方在完成自身任務(wù)的同時(shí),為降低自身損耗,保證任務(wù)結(jié)束之后仍有更好的戰(zhàn)斗力,會(huì)派出兩支載荷不同的UAV隊(duì)伍:負(fù)責(zé)打擊目標(biāo)的UAV集群自身價(jià)值較低,但是攜帶可以有效攻擊碉堡的彈藥;協(xié)同輔助的UAV集群自身價(jià)值較高,除攜帶彈藥外還攜帶干擾彈。文獻(xiàn)[12]中提到UAV釋放干擾彈可以誘騙敵方紅外制導(dǎo)武器脫離真目標(biāo),因此本文中假設(shè)UAV可以通過釋放干擾彈的方法避免受到敵方攻擊傷害。
傳統(tǒng)的公共物品博弈是指向公共池中投入資源,參與者可共享投資結(jié)果的博弈方式,研究成本與收益之間的關(guān)系,帶閾值的公共物品博弈設(shè)置了取得回報(bào)的門檻,符合作戰(zhàn)中為UAV集群對敵方打擊設(shè)置成功條件。智能性提高了集體中個(gè)體的自私性,在對抗中,UAV的搭便車行為雖然會(huì)帶來更高的收益,但利用合適的獎(jiǎng)懲機(jī)制,它的選擇將受到最終合作效果的約束。UAV作戰(zhàn)博弈中涉及的參與者數(shù)量多、對抗過程較長,傳統(tǒng)的博弈論求解方法很難直接在此應(yīng)用。因此本文利用MADDPG算法[9]求解此問題,構(gòu)建了合適的獎(jiǎng)勵(lì)函數(shù),既滿足UAV智能化要求,又避免集體發(fā)生“公地悲劇”。
本文利用MADDPG算法[9]訓(xùn)練UAV集群協(xié)同作戰(zhàn)決策,MADDPG算法可以視為DDPG算法[5]的多智能體版本變體。DDPG算法由DQN(Deep Q-Network)與確定性策略梯度(Deterministic Policy Gradient, DPG)組合得到。DPG是Actor-Critic算法的變體,DPG結(jié)構(gòu)上具有兩個(gè)神經(jīng)網(wǎng)絡(luò):策略網(wǎng)絡(luò)(Actor)與價(jià)值網(wǎng)絡(luò)(Critic)。DPG改進(jìn)Actor,使它輸出確定行為,在此基礎(chǔ)上引入DQN后增加了經(jīng)驗(yàn)回放與雙網(wǎng)絡(luò),使Actor與Critic分別增加了一個(gè)目標(biāo)網(wǎng)絡(luò),提高了價(jià)值網(wǎng)絡(luò)的穩(wěn)定性。在復(fù)雜的動(dòng)態(tài)多UAV場景下,多個(gè)UAV同時(shí)與環(huán)境交互,每架UAV的決策在訓(xùn)練中變化也會(huì)成為造成環(huán)境的變化從而影響其他UAV決策。不穩(wěn)定的環(huán)境會(huì)影響DDPG算法收斂,而采用集中訓(xùn)練和分散執(zhí)行框架的MADDPG算法可以使每架UAV所處的環(huán)境仍然可以被視為穩(wěn)定。MADDPG算法的主要改進(jìn)點(diǎn)是利用可觀察全局信息的Critic指導(dǎo)Actor進(jìn)行個(gè)體訓(xùn)練。
圖2 基于MADDPG算法的模型結(jié)構(gòu)
在深度強(qiáng)化學(xué)習(xí)模型中,影響UAV行為的主要因素是獎(jiǎng)勵(lì)結(jié)構(gòu)。參照文獻(xiàn)[14],如果相互合作的獎(jiǎng)勵(lì)大于個(gè)體的獎(jiǎng)勵(lì)最大化,則個(gè)體傾向于學(xué)習(xí)尋求協(xié)作解決任務(wù)的策略。本文模型的特征可以近似為公共物品博弈模型,理性UAV想要保留實(shí)力拒絕貢獻(xiàn),但集群為了完成任務(wù)需要UAV貢獻(xiàn)。為了平衡理性個(gè)體利益與集體利益間的沖突,本文設(shè)計(jì)了引導(dǎo)UAV“搭便車”行為的獎(jiǎng)勵(lì)函數(shù),UAV輸出動(dòng)作后,環(huán)境依據(jù)獎(jiǎng)勵(lì)函數(shù)返回對應(yīng)獎(jiǎng)勵(lì)。
同樣按照圖3可以對右側(cè)底板進(jìn)行分析(圖4),得出巷道左側(cè)的極限破壞深度y′1和沿滑動(dòng)面KJ的有效滑動(dòng)力T′1為
5)在每步攻擊后,判斷碉堡情況,根據(jù)表1中的條件判斷打擊碉堡任務(wù)是否完成。
表1 判斷 k 步攻擊后任務(wù)成敗的條件
本文使用TensorFlow框架構(gòu)建訓(xùn)練網(wǎng)絡(luò),訓(xùn)練時(shí)硬件環(huán)境:AMD Ryzen 9 5950X CPU,Nvidia RTX3090顯卡,內(nèi)存64 GB。
表2 作戰(zhàn)單位給對方造成的初始?xì)怕?/p>
為驗(yàn)證本文算法的有效性,另外建立了基于IDQN(Independent DQN)[15]與ID3QN(Imitative Dueling Double DQN)[16]這兩種算法的模型與本文算法進(jìn)行對比,使用的超參數(shù)與本文一致。
訓(xùn)練中得到的輔助UAV集群在每一回合累計(jì)獎(jiǎng)勵(lì)變化如圖3所示。每種算法各訓(xùn)練3次,圖3中線條代表3次實(shí)驗(yàn)均值,陰影代表3次實(shí)驗(yàn)標(biāo)準(zhǔn)差,可以看出,本文算法收斂效果穩(wěn)定。隨著訓(xùn)練次數(shù)的增加,使用本文算法訓(xùn)練輔助UAV集群在5 000回合訓(xùn)練后即可學(xué)習(xí)到最大獎(jiǎng)勵(lì),在訓(xùn)練回合數(shù)達(dá)到2萬回合后,累計(jì)獎(jiǎng)勵(lì)曲線趨于平緩,總體呈收斂趨勢,最優(yōu)決策下獲得的累計(jì)獎(jiǎng)勵(lì)為515.132;而另外兩種算法訓(xùn)練效果較差,IDQN無法在探索到的最大獎(jiǎng)勵(lì)處收斂,而ID3QN趨向收斂至負(fù)獎(jiǎng)勵(lì)。
輔助UAV集群基于三種算法訓(xùn)練得到的攻擊決策,使打擊碉堡任務(wù)成功的比率如圖4所示。利用本文算法訓(xùn)練UAV的獲勝比率為100%,在經(jīng)過6 000回合訓(xùn)練呈收斂趨勢。結(jié)合圖3可以看出,只有基于本文算法訓(xùn)練的輔助UAV集群在最大獎(jiǎng)勵(lì)處收斂得到的決策方法,可保證打擊碉堡任務(wù)得以完成。
圖3 采用3種算法得到的累計(jì)獎(jiǎng)勵(lì)收斂曲線
由于本文算法將輔助型UAV的最優(yōu)決策作為訓(xùn)練目標(biāo),因此通過修改輔助型UAV數(shù)這一參數(shù),并調(diào)整獎(jiǎng)勵(lì)函數(shù),對比三種算法下的多智能體強(qiáng)化學(xué)習(xí)模型,驗(yàn)證輔助型UAV數(shù)對模型結(jié)果的影響,實(shí)驗(yàn)結(jié)果如圖5所示。從圖5可以看出,修改UAV數(shù)對實(shí)驗(yàn)結(jié)果的影響顯著。在不改變打擊型UAV數(shù)的前提下,三種算法都無法讓3架輔助UAV完成任務(wù)。與4架輔助UAV的情況相比,增加輔助UAV數(shù)導(dǎo)致結(jié)果不穩(wěn)定,但相較于其他兩種對比算法,本文算法的優(yōu)勢更明顯。
圖4 3種算法訓(xùn)練UAV的獲勝比率
通過分析以上實(shí)驗(yàn)結(jié)果可知:一方面,在多UAV混合關(guān)系的強(qiáng)化學(xué)習(xí)環(huán)境中,輔助型UAV之間既存在合作關(guān)系也包含了競爭關(guān)系,增加UAV數(shù)的同時(shí)會(huì)增加混合關(guān)系復(fù)雜性,難以預(yù)知將給實(shí)驗(yàn)結(jié)果帶來消極或積極的影響;另一方面,本文實(shí)驗(yàn)也驗(yàn)證了在構(gòu)建的多UAV集群公共物品博弈的環(huán)境下,MADDPG算法是針對多智能體環(huán)境進(jìn)行設(shè)計(jì)的,具有針對集中訓(xùn)練、分散執(zhí)行的特點(diǎn),能適用于不穩(wěn)定的多智能體環(huán)境問題。MADDPG算法假定每個(gè)智能體都擁有自己的獎(jiǎng)勵(lì)函數(shù),使智能體在混合關(guān)系模型中能夠自適應(yīng)地調(diào)整策略,增強(qiáng)穩(wěn)定性,更適用于解決個(gè)體與集體收益沖突的實(shí)際問題。
在公共物品博弈中,理性個(gè)體在合作中會(huì)產(chǎn)生“搭便車”的行為,雖然這種行為可以幫助個(gè)體節(jié)約成本、減小損失,但是會(huì)對集體產(chǎn)生威脅。本文通過設(shè)置獎(jiǎng)勵(lì)函數(shù)構(gòu)建了公共物品博弈框架,利用MADDPG算法訓(xùn)練UAV集群學(xué)習(xí)到最好的作戰(zhàn)決策。通過實(shí)驗(yàn)驗(yàn)證,當(dāng)UAV集群在對敵時(shí)自身力量超過敵方力量時(shí),UAV可以利用MADDPG算法在個(gè)體利益與集體利益的博弈中學(xué)習(xí),選擇最優(yōu)決策,有效避免發(fā)生“公地悲劇”。
本文除了基于MADDPG算法訓(xùn)練外,同時(shí)與IDQN與ID3QN這兩種算法進(jìn)行對比實(shí)驗(yàn),從累計(jì)獎(jiǎng)勵(lì)曲線和任務(wù)成功率曲線可以驗(yàn)證本文算法在多智能體中應(yīng)用的有效性。
本文為不同價(jià)值的UAV主觀分配了作戰(zhàn)任務(wù),但為了更好地適應(yīng)實(shí)際戰(zhàn)斗時(shí)變性,在未來的研究里UAV應(yīng)根據(jù)價(jià)值與載荷不同自主分配作戰(zhàn)任務(wù)。同時(shí)在下一步研究中,將結(jié)合UAV性能及作戰(zhàn)特點(diǎn),在對抗中添加更多隨機(jī)的影響因素,構(gòu)造自主機(jī)動(dòng)生成UAV對戰(zhàn)決策方法,更廣泛適用于復(fù)雜的真實(shí)戰(zhàn)場環(huán)境。
[1] AYAMGA M, AKABA S, NYAABA A A. Multifaceted applicability of drones: a review[J]. Technological Forecasting and Social Change, 2021, 167: No.120677.
[2] 馬子玉,何明,劉祖均,等. 無人機(jī)協(xié)同控制研究綜述[J]. 計(jì)算機(jī)應(yīng)用, 2021, 41(5):1477-1483.(MA Z Y, HE M, LIU Z J, et al. Survey of unmanned aerial vehicle cooperative control[J]. Journal of Computer Applications, 2021, 41(5): 1477-1483.)
[3] 黃長強(qiáng),趙克新,韓邦杰,等. 一種近似動(dòng)態(tài)規(guī)劃的無人機(jī)機(jī)動(dòng)決策方法[J]. 電子與信息學(xué)報(bào), 2018, 40(10): 2447-2452.(HUANG C Q, ZHAO K X, HAN B J, et al. Maneuvering decision-making method of UAV based on approximate dynamic programming[J]. Journal of Electronics Information Technology, 2018, 40(10): 2447-2452.)
[4] 李世豪,丁勇,高振龍. 基于直覺模糊博弈的無人機(jī)空戰(zhàn)機(jī)動(dòng)決策[J]. 系統(tǒng)工程與電子技術(shù), 2019, 41(5): 1063-1070.(LI S H, DING Y, GAO Z L. UAV air combat maneuvering decision based on intuitionistic fuzzy game theory[J]. Systems Engineering and Electronics, 2019, 41(5): 1063-1070.)
[5] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[EB/OL]. (2019-07-05) [2023-03-27].https://arxiv.org/pdf/1509.02971.pdf.
[6] YANG Q, ZHU Y, ZHANG J, et al. UAV air combat autonomous maneuver decision based on DDPG algorithm[C]// Proceedings of the IEEE 15th International Conference on Control and Automation. Piscataway: IEEE, 2019: 37-42.
[7] LI Y, HAN W, WANG Y. Deep reinforcement learning with application to air confrontation intelligent decision-making of manned/unmanned aerial vehicle cooperative system[J]. IEEE Access, 2020, 8: 67887-67898.
[8] KONG W, ZHOU D, YANG Z, et al. UAV autonomous aerial combat maneuver strategy generation with observation error based on state-adversarial deep deterministic policy gradient and inverse reinforcement learning[J]. Electronics, 2020, 9(7): No.1211.
[9] LOWE R, WU Y, TAMAR A, et al. Multi-agent actor-critic for mixed cooperative-competitive environments[C]// Proceedings of the 31st Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6382-6393.
[10] 李波,越凱強(qiáng),甘志剛,等. 基于MADDPG的多無人機(jī)協(xié)同任務(wù)決策[J]. 宇航學(xué)報(bào), 2021, 42(6): 757-765.(LI B, YUE K Q, GAN Z G, et al. Multi-UAV cooperative autonomous navigation based on multi-agent deep deterministic policy gradient[J]. Journal of Astronautics, 2021, 42(6): 757-765.)
[11] 禹明剛,何明,張東戈,等. 基于多元公共品演化博弈的無人作戰(zhàn)集群策略占優(yōu)條件[J]. 系統(tǒng)工程與電子技術(shù), 2021, 43(9): 2553-2561.(YU M G, HE M, ZHANG D G, et al. Strategy dominance condition of unmanned combat cluster based on multi-player public goods evolutionary game[J]. Systems Engineering and Electronics, 2021, 43(9): 2553-2561.)
[12] 邢炳楠,杜忠華,杜成鑫. 采用彈道修正技術(shù)的紅外干擾彈性能優(yōu)化[J]. 國防科技大學(xué)學(xué)報(bào), 2022, 44(2): 141-149.(XING B N, DU Z H, DU C X. Performance optimization of infrared interference decoy based on trajectory correction technique[J]. Journal of National University of Defense Technology, 2022, 44(2): 141-149.)
[13] 黃捷,陳謀,姜長生. 無人機(jī)空對地多目標(biāo)攻擊的滿意分配決策技術(shù)[J]. 電光與控制, 2014, 21(7): 10-13, 30.(HUANG J, CHEN M, JIANG C S. Satisficing decision-making on task allocation for UAVs in air-to-ground attacking[J]. Electronics Optics and Control, 2014, 21(7): 10-13, 30.)
[14] GRONAUER S, DIEPOLD K. Multi-agent deep reinforcement learning: a survey[J]. Artificial Intelligence Review, 2022, 55(2): 895-943.
[15] TAMPUU A, MATIISEN T, KODELJA D, et al. Multiagent cooperation and competition with deep reinforcement learning[J]. PLoS ONE, 2020, 12(4): No.e0172395.
[16] 相曉嘉,閆超,王菖,等. 基于深度強(qiáng)化學(xué)習(xí)的固定翼無人機(jī)編隊(duì)協(xié)調(diào)控制方法[J]. 航空學(xué)報(bào), 2021, 42(4): No.524009.(XIANG X J, YAN C, WANG C, et al. Coordination control method for fixed-wing UAV formation through deep reinforcement learning[J]. Acta Aeronautica et Astronautica Sinica, 2021, 42(4): No.524009.)
UAV cluster cooperative combat decision-making method based on deep reinforcement learning
ZHAO Lin1, LYU Ke1, GUO Jing2, HONG Chen3, XIANG Xiancai1, XUE Jian1, WANG Yong4*
(1,,100049,;2,,110136,;3,,100101,;4,,100049,)
When the Unmanned Aerial Vehicle (UAV) cluster attacks ground targets, it will be divided into two formations: a strike UAV cluster that attacks the targets and a auxiliary UAV cluster that pins down the enemy. When auxiliary UAVs choose the action strategy of aggressive attack or saving strength, the mission scenario is similar to a public goods game where the benefits to the cooperator are less than those to the betrayer. Based on this, a decision method for cooperative combat of UAV clusters based on deep reinforcement learning was proposed. First, by building a public goods game based UAV cluster combat model, the interest conflict problem between individual and group in cooperation of intelligent UAV clusters was simulated. Then, Muti-Agent Deep Deterministic Policy Gradient (MADDPG) algorithm was used to solve the most reasonable combat decision of the auxiliary UAV cluster to achieve cluster victory with minimum loss cost. Training and experiments were performed under conditions of different numbers of UAV. The results show that compared to the training effects of two algorithms — IDQN (Independent Deep Q-Network) and ID3QN (Imitative Dueling Double Deep Q-Network), the proposed algorithm has the best convergence, its winning rate can reach 100% with four auxiliary UAVs, and it also significantly outperforms the comparison algorithms with other UAV numbers.
Unmanned Aerial Vehicle (UAV); multi-cluster; public goods game; Multi-Agent Deep Deterministic Policy Gradient (MADDPG); cooperative combat decision-making method
1001-9081(2023)11-3641-06
10.11772/j.issn.1001-9081.2022101511
2022?10?13;
2023?04?19;
國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2018AAA0100804)。
趙琳(1998—),女,遼寧盤錦人,博士研究生,主要研究方向:深度強(qiáng)化學(xué)習(xí)、無人機(jī)集群控制、博弈論; 呂科(1971—),男,寧夏西吉人,教授,博士,CCF會(huì)員,主要研究方向:人工智能、計(jì)算機(jī)視覺; 郭靖(1997—),男,陜西咸陽人,碩士,主要研究方向:深度強(qiáng)化學(xué)習(xí)、無人機(jī)集群控制; 宏晨(1974—),男,寧夏青銅峽人,副教授,博士,主要研究方向:無人機(jī)集群控制; 向賢財(cái)(1997—),男,湖北施恩人,碩士研究生,主要研究方向:深度強(qiáng)化學(xué)習(xí)、多智能體系統(tǒng)控制; 薛健(1979—),男,江蘇宜興人,教授,博士,CCF會(huì)員,主要研究方向:多智能體系統(tǒng)控制、圖像處理; 王泳(1975—),男,山東濟(jì)南人,研究員,博士,主要研究方向:復(fù)雜系統(tǒng)建模與優(yōu)化、模式識(shí)別、數(shù)據(jù)挖掘。
V279+.2
A
2023?04?21。
This work is partially supported by National Key Research and Development Program of China (2018AAA0100804).
ZHAO Lin, born in 1998, Ph. D. candidate. Her research interests include deep reinforcement learning, unmanned aerial vehicle cluster control, game theory.
LYU Ke, born in 1971, Ph. D., professor. His research interests include artificial intelligence, computer vision.
GUO Jing, born in 1997, M. S. His research interests include deep reinforcement learning, unmanned aerial vehicle cluster control.
HONG Chen, born in 1974, Ph. D., associate professor. His research interests include unmanned aerial vehicle cluster control.
XIANG Xiancai, born in 1997, M. S. candidate, His research interests include deep reinforcement learning, multi-agent system control.
XUE Jian, born in 1979, Ph. D., professor. His research interests include multi-agent system control, image processing.
WANG Yong, born in 1975, Ph. D., research fellow. His research interests include modeling and optimization of complex systems, pattern recognition, data mining.