熊韞文,魏才盛,許丹,周亮,薛曉鵬
(1. 中南大學(xué) 自動化學(xué)院,湖南 長沙,410083;2. 中南大學(xué) 空天智能控制研究中心,湖南 長沙,410083;3. 國防科技大學(xué) 系統(tǒng)工程學(xué)院,湖南 長沙,410073;4. 航天科工集團智能科技研究院有限公司,北京,100144)
無人機協(xié)同作戰(zhàn)表現(xiàn)出獨特的飛行性能和打擊效果,被廣泛應(yīng)用于戰(zhàn)場偵察、防空壓制、縱深扣擊等軍事任務(wù)中。同時,反無人機技術(shù)也不斷發(fā)展,越來越智能化,且具有成本低、攔截效率高、動態(tài)適應(yīng)力強等特點[1],這對多無人機協(xié)同作戰(zhàn)任務(wù)規(guī)劃技術(shù)提出了新挑戰(zhàn)。目前,國內(nèi)外學(xué)者針對多無人機任務(wù)規(guī)劃問題展開了大量研究,這些研究大多將任務(wù)規(guī)劃中的各階段問題進行分開求解,未考慮問題間的耦合關(guān)系。WANG等[2]針對異構(gòu)多無人機系統(tǒng)任務(wù)分配問題,在考慮任務(wù)時間、收益、損耗等優(yōu)化目標的基礎(chǔ)上,提出了一種多目標量子粒子群算法對問題進行求解。HU等[3]針對嚴重不確定性條件下的空對地攻擊任務(wù),提出了一種無人機魯棒決策集成框架。CHEN等[4]為解決不同狀態(tài)下無人機構(gòu)型變換過程中的實時航跡規(guī)劃問題,提出了一種融合Dubins 軌跡與粒子群優(yōu)化算法的方法。近年來,一些研究者針對任務(wù)規(guī)劃問題間的耦合關(guān)系進行了研究,針對問題間的耦合性提出了一些統(tǒng)一求解的方法,王然然等[5]基于分布式合同網(wǎng)拍賣和A*算法,在目標分配階段對航路進行初規(guī)劃,確定最佳任務(wù)執(zhí)行次序。趙明等[6]針對三維環(huán)境下無人機集群目標分配問題,對各種目標分配模型統(tǒng)一建模,設(shè)計了一致的模型處理方法,能夠有效解決三維環(huán)境下不同模型的多機多目標分配問題。這些研究將目標分配與航跡規(guī)劃進行統(tǒng)一建模,為并行解決目標分配與突防決策問題提供了思路。對于目標分配與突防決策問題,前者基于后者的結(jié)果選擇最優(yōu)的目標,后者基于前者的目標信息對突防動作進行決策,只有兩者相互耦合,將其統(tǒng)一建模并求解才能凸顯無人機作戰(zhàn)任務(wù)規(guī)劃的合理性。
目標分配和突防決策本質(zhì)上是組合優(yōu)化問題,該類問題一般是在一個有限的離散集合中找到某一組合,直觀上可用暴力窮舉的方式得到最優(yōu)解,但隨著問題復(fù)雜程度加大,計算復(fù)雜度呈指數(shù)級增加[7]。為提升規(guī)劃問題求解的時效性,一些研究者提出了其他方法進行求解。例如,王雅琳等[8]針對交通運輸領(lǐng)域中的裝卸貨任務(wù)分配問題,提出了一種用于求解該類問題的離散微粒群算法。蘇麗穎等[9]針對信息量大、數(shù)據(jù)處理復(fù)雜的多機器人任務(wù)分配問題,對該問題進行形式化描述,并提出了一種基于組合拍賣法的分布式建模方法。鄒子緣等[10]針對空間飛行器集群對抗中的多對多目標分配問題,提出了基于深度優(yōu)先搜索生成目標分配指導(dǎo)表的方法。朱建文等[11]針對導(dǎo)彈集群多目標分配問題,建立了導(dǎo)彈綜合攻擊性能評估標準,并利用Q 學(xué)習(xí)算法對導(dǎo)彈選擇以及分配形式進行智能決策。
然而,針對目標分配和突防決策問題,兩者的優(yōu)化函數(shù)、決策變量和約束各不相同,上述方法不能對該問題進行同時求解。為此,本文作者在充分厘清目標分配與突防決策優(yōu)化函數(shù)內(nèi)在聯(lián)系的基礎(chǔ)上,對無人機協(xié)同任務(wù)規(guī)劃問題進行描述和建模。為了能夠同時實現(xiàn)對目標分配和突防決策問題求解,在多種約束下分階段構(gòu)建協(xié)同任務(wù)規(guī)劃問題的狀態(tài)空間、動作空間與獎勵函數(shù),并提出一種改進的蒙特卡洛樹搜索(Monte Carlo tree search, MCTS)強化學(xué)習(xí)算法,在求解最大收益目標函數(shù)下,獲得對多無人機目標分配和突防決策問題的優(yōu)化求解。
以多無人機協(xié)同攻擊地面靜態(tài)目標群為背景,考慮地面防御部署,建立多無人機目標分配和突防機動決策統(tǒng)一目標函數(shù)。
在無人機群協(xié)同攻擊過程中,為了有效攻擊目標,無人機群通常需要考慮攻擊角度和協(xié)同攻擊時間[12],針對上述因素分別建立攻擊優(yōu)勢度評估函數(shù)。
無人機在攻擊目標時需滿足終端入射角約束。假設(shè)無人機初始航向角為γ0,攻擊目標的終端入射角為γf。在側(cè)向平面中,無人機控制的目標主要是消除航向角和終端入射角之間的誤差,所以,當(dāng)初始航向角和終端入射角之間的誤差越小時,控制也就越容易實現(xiàn),這意味著攻擊優(yōu)勢度越大。攻擊角度優(yōu)勢度AUγ為
協(xié)同攻擊時間也是影響無人機群攻擊效率的重要因素,單架無人機攻擊目標的時間與協(xié)同攻擊時間相差太大將影響打擊任務(wù)完成質(zhì)量,因此,優(yōu)勢度評估需考慮時間。假設(shè)T0為綜合考慮無人機群機動能力而確定的協(xié)同攻擊時間,t為單架無人機攻擊時間,則攻擊時間優(yōu)勢度AUt為
同時,以較直觀的目標戰(zhàn)略價值作為目標威脅評估的標準,多個目標具有不同的戰(zhàn)略價值,目標的戰(zhàn)略價值越大,則受威脅程度越大。假設(shè)共有NTar個目標,νTar,j為第j個目標的戰(zhàn)略價值,目標的威脅度ATar為
根據(jù)上述攻擊角度優(yōu)勢度、攻擊時間優(yōu)勢度和目標威脅度,可建立綜合優(yōu)勢度模型A為
式中:λγ、λt和λν分別為攻擊角度優(yōu)勢度權(quán)重因子、攻擊時間優(yōu)勢度權(quán)重因子以及目標威脅度權(quán)重因子,λγ+λt+λν=1。可針對不同目標分配任務(wù)中的不同側(cè)重點,人為地選擇這3個權(quán)重因子。
假設(shè)在無人機集群協(xié)同作戰(zhàn)過程中,共有NU架無人機和NTar個目標,基于上述優(yōu)勢度評估函數(shù),建立無人機對目標的優(yōu)勢度矩陣Aij,該矩陣中第i(i=1,2,…,NU)行、第j(j=1,2,…,NTar)列的值表示無人機i對目標j的綜合優(yōu)勢度。同樣,為了直觀地表示目標決策結(jié)果,建立無人機對目標的目標分配矩陣Xij,該矩陣中元素為1表示將無人機i分配給目標j,矩陣元素為0 則代表無人機i不分配給目標j。為了得到最優(yōu)的目標分配矩陣,建立以下目標分配優(yōu)化函數(shù):
式中:Jdis,i為無人機i的目標分配優(yōu)化函數(shù)。在目標分配過程中,每架無人機只能被分配給1 個目標,并且需要保證每個目標至少分配1 架無人機,因此,可建立以下約束模型:
在多無人機突防過程中,假想敵通常是以目標為核心,建立縱深、多道反制裝備部署[13]。根據(jù)多無人機突防戰(zhàn)術(shù)特征,按照縱深梯次部署順序主要考慮以下防空殺傷因素。
1) 偵察與監(jiān)視系統(tǒng)。該系統(tǒng)主要包括探測雷達和防空預(yù)警指揮系統(tǒng),將對無人機群進行定位,并將信息提供給隊屬防空兵器、中程地空導(dǎo)彈、遠程地空導(dǎo)彈等殺傷類防空系統(tǒng)。
2) 隊屬防空兵器系統(tǒng)。該系統(tǒng)部署在戰(zhàn)斗接觸線前,由近程低空導(dǎo)彈系統(tǒng)構(gòu)成,主要用來防御低空目標。
3) 中程地空導(dǎo)彈系統(tǒng)。該系統(tǒng)部署在隊屬防空兵器后,其攔截高度更高和攔截速度更快,能夠建立密集殺傷區(qū)。
4) 遠程地空導(dǎo)彈系統(tǒng)。該系統(tǒng)部署于中程地空導(dǎo)彈系統(tǒng),主要用于掩護目標。
目前,各國都十分重視反無人機群技術(shù)的開發(fā)和使用,設(shè)計了反無人機系統(tǒng)與指控系統(tǒng)用于探測和對抗無人機[14-15]。本文分別用探測概率和被擊毀概率表征防空系統(tǒng)對無人機的探測能力和攔截能力,如表1所示。
表1 各防空系統(tǒng)探測或擊毀概率Table 1 Detection or destruction probability of defense system
無人機突防行為主要表現(xiàn)在對上述縱深梯次防空系統(tǒng)區(qū)域的探測或攻擊作出隱身或機動動作,以降低被探測概率或被摧毀概率。假設(shè)無人機主要擁有5種突防動作,包括隱身、轉(zhuǎn)彎機動、躍升機動、俯沖機動和蛇形機動,其中,轉(zhuǎn)彎機動、躍升機動、俯沖機動和蛇形機動統(tǒng)稱為機動動作。文獻[16-21]通過建立無人戰(zhàn)斗機飛行動力學(xué)和導(dǎo)彈導(dǎo)引飛行控制模型,研究了無人戰(zhàn)斗機在導(dǎo)彈威脅情況下各種機動動作的逃逸概率?;谖墨I[16-21],建立無人機突防動作對各防空殺傷因素的突防概率表,分別如表2、表3所示。
表2 突防動作對偵查與監(jiān)視系統(tǒng)的突防概率Table 2 Probability of penetration action to investigation and monitoring system
表3 突防動作對防空殺傷系統(tǒng)的突防概率Table 3 Probability of penetration action to defense system
無人機突防動作決策是對目標優(yōu)化分配后的無人機進行下一步突防動作決策優(yōu)化。首先,假設(shè)不同目標部署的各防空區(qū)域數(shù)量不同,即第j個目標共有Nd,j個防空區(qū)域,包含Ndr,j個偵察與監(jiān)視系統(tǒng)、Ndsm,j個隊屬防空兵器系統(tǒng)、Ndmm,j個中程地空導(dǎo)彈系統(tǒng)以及Ndlm,j個遠程地空導(dǎo)彈系統(tǒng),無人機共有NA個突防動作供選擇,經(jīng)過每一個防空區(qū)域選擇一個動作進行突防。其次,以突防概率表2、表3為基礎(chǔ),建立突防概率矩陣Pmk,該矩陣表示執(zhí)行突防動作m(m=1,2,…,NA) 在第k(k=1,2,…,Nd,j)個防空系統(tǒng)區(qū)域里的突防概率。最后,通過優(yōu)化獲得無人機突防動作矩陣Mkm。若無人機在第k個防空系統(tǒng)區(qū)域里選擇突防動作m,則矩陣元素為1,否則為0。可建立如下無人機突防動作決策優(yōu)化函數(shù):
式中:Jpene,i為無人機i的突防動作決策優(yōu)化函數(shù),其含義是無人機若被對空偵查與被監(jiān)視系統(tǒng)探測到,則需要對各防空系統(tǒng)進行突防,否則可以對目標直接進行攻擊,因此,該函數(shù)由兩部分概率組成。同時,根據(jù)無人機的物理特性,在無人機突防過程中,對所有突防動作和機動動作的選擇次數(shù)進行約束,即每種動作選擇不超過b1次以及機動動作選擇不超過b2次。突防動作決策問題約束為
無人機集群目標分配問題和突防動作決策問題相互耦合,目標分配基于突防動作決策優(yōu)化得出的概率進行最優(yōu)化匹配,突防動作決策則是在目標分配的基礎(chǔ)上選擇最優(yōu)突防動作序列。兩者在任務(wù)模型上是一個問題的2個階段,前者為后者提供任務(wù)需求關(guān)系,后者實現(xiàn)前者的期望目標[6]。上述2個問題本質(zhì)上是一個組合優(yōu)化問題,即在離散決策空間對決策變量進行最優(yōu)選擇,其決策變量的選取與強化學(xué)習(xí)的動作選擇十分契合[22],因此,利用線性加權(quán)法將兩者的優(yōu)化函數(shù)轉(zhuǎn)化成一個單目標優(yōu)化問題,并利用蒙特卡洛樹搜索算法對該多階段決策問題進行統(tǒng)一求解。
首先,對于第i架無人機,基于式(5)中的目標分配優(yōu)化函數(shù)和式(7)中的突防動作優(yōu)化函數(shù),建立統(tǒng)一目標函數(shù):
式中:ζ1、ζ2為用于平衡目標分配和突防決策之間的參數(shù)?;谏鲜鰡螣o人機統(tǒng)一目標函數(shù),利用線性加權(quán)法將多目標優(yōu)化問題轉(zhuǎn)化為單目標優(yōu)化問題,得到協(xié)同任務(wù)規(guī)劃統(tǒng)一目標函數(shù):
式中:ρ1、ρ2、…、ρNU為權(quán)重因子,可人為地根據(jù)任務(wù)目標進行選擇,并且ρ1+ρ2+…+ρNU=1。最后,統(tǒng)一目標函數(shù)的約束由式(6)和式(8)組合而成:
MCTS 是強化學(xué)習(xí)算法中的一種,其性能在AlphaGo智能機器人上得到驗證[23]。MCTS在給定域中通過對決策變量進行隨機采樣來尋找最優(yōu)解,其搜索過程呈現(xiàn)出樹的特征,即樹的邊代表決策變量的選取狀態(tài),以節(jié)點的形式存在樹中[24]。
該算法使智能體不斷地試錯,并根據(jù)人為設(shè)定的獎勵函數(shù)指導(dǎo)學(xué)習(xí)出一個最優(yōu)策略。該策略的輸入為狀態(tài),輸出為動作,最終得到一個最優(yōu)的動作序列。算法主要包含選擇、擴展、模擬和反饋共4步[25]。對于當(dāng)前狀態(tài)節(jié)點,算法根據(jù)選擇策略選擇動作;執(zhí)行這個動作;獲得新狀態(tài),若這個狀態(tài)已經(jīng)在樹上則評估這個狀態(tài),否則就將新節(jié)點插到樹上,并從這個狀態(tài)出發(fā)運行隨機模擬策略,直到終止?fàn)顟B(tài);最后,通過反向回溯來更新路徑上每個狀態(tài)的回報值。
為了平衡探索和利用之間的關(guān)系,將UCB(upper confidence bound)方法與樹搜索策略相結(jié)合,形成了UCT(upper confidence bound apply to tree)算法[26]。在UCT算法中,N(v)為該節(jié)點的訪問次數(shù),Q(v)為經(jīng)過該狀態(tài)節(jié)點所獲得的回報。UCT 算法的選擇策略公式如下:
式中:vfather為節(jié)點v的父節(jié)點;Cp為常量,用于權(quán)衡探索和利用的取向關(guān)系。在搜索達到最終狀態(tài)節(jié)點時,將得到的獎勵總和通過以下公式對路徑上所有節(jié)點進行回溯更新:
式中:ΔQ為1輪模擬得到的回報。
針對多無人機目標分配和突防動作決策問題,其求解過程是從一個可數(shù)有限的0-1排列組合中尋找一組排列,這類組合優(yōu)化問題旨在找到極值點。然而,UCT 算法優(yōu)先選擇具有最高平均回報的分支,因此,式(12)使用均值選擇動作的策略不適用于組合優(yōu)化問題的求解。同時,文獻[27]指出UCT算法中的均值搜索策略需要大量迭代才能優(yōu)化出最優(yōu)動作序列。
首先,針對本文所需求解的問題用馬爾科夫決策過程(Markov decision processes, MDP)進行建模。
狀態(tài)是智能體與環(huán)境信息的表征,在迭代過程中,智能體根據(jù)狀態(tài)來選擇動作,所以,狀態(tài)的選取對訓(xùn)練結(jié)果有十分重要的影響。本文所求解的問題由目標分配和突防兩階段組成,目標分配為突防的前提階段,只有在無人機選擇完目標后才能根據(jù)目標所部署的縱深梯次防空系統(tǒng)依次進行突防。為了解決該問題,將目標分配當(dāng)作初始狀態(tài),并與后續(xù)防空系統(tǒng)狀態(tài)相結(jié)合進行統(tǒng)一狀態(tài)空間建模。對第j個目標,其狀態(tài)空間可建立為
其中:Sdis為無人機處于目標分配階段的狀態(tài)變量;Sr為無人機在突防階段經(jīng)過對空偵察與監(jiān)視系統(tǒng)的狀態(tài)變量;Ssm1,Ssm2,…為無人機在突防階段經(jīng)過隊屬防空兵器系統(tǒng)的狀態(tài)變量;Smm1,Smm2,…為無人機在突防階段經(jīng)過中程地空導(dǎo)彈系統(tǒng)的狀態(tài)變量;Slm1,Slm2,…為無人機在突防階段經(jīng)過遠程地空導(dǎo)彈系統(tǒng)的狀態(tài)變量。狀態(tài)間轉(zhuǎn)移是離散和確定的,可根據(jù)目標部署的防空系統(tǒng)態(tài)勢信息建立。綜合所有目標的狀態(tài)空間,總狀態(tài)空間可表示為
無人機在目標分配與突防過程中的狀態(tài)存在差異性,其動作也不同。在目標分配階段,動作為目標選擇,無人機只能選擇1個目標,其結(jié)果可用離散化的向量表示,即adis=[0 1 0 … 0]。若存在NTar個目標,則目標分配階段有NTar個動作可供選擇。在突防階段,動作為5種突防動作,無人機在任意一個突防階段僅選擇1個突防動作。將5種突防動作用向量表示,向量中的元素依次代表隱身、轉(zhuǎn)彎機動、躍升機動、俯沖機動和蛇形機動,如apene=[1 0 0 0 0]表示無人機選擇了隱身動作?;谏鲜龇治觯瑹o人機動作表示為
獎勵函數(shù)是強化學(xué)習(xí)中最核心的部分,它指導(dǎo)智能體進行學(xué)習(xí)。針對本問題,只有智能體到達最終狀態(tài)即決策出完整的目標分配矩陣和突防動作矩陣后,才能根據(jù)統(tǒng)一目標函數(shù)對上述決策結(jié)果進行評價,因此,針對該問題只設(shè)計終局獎勵。基于統(tǒng)一目標函數(shù)和約束,設(shè)計聯(lián)合獎勵函數(shù)如下:
式中:當(dāng)目標分配矩陣X和突防動作矩陣M1,…,MNU所表征的決策變量不滿足約束時,給予懲罰-0.2;否則給予獎勵,獎勵值為協(xié)同任務(wù)規(guī)劃統(tǒng)一目標函數(shù)值。
基于統(tǒng)一目標函數(shù)(式(11)),建立本文所需求解問題的MDP模型。MDP的動作序列構(gòu)成了統(tǒng)一目標函數(shù)中的決策變量,同時,其獎勵函數(shù)中的獎勵項由統(tǒng)一目標函數(shù)來表征。
對每一架無人機建立1棵蒙特卡洛樹,對每棵樹進行獨立搜索,將搜索結(jié)果組成聯(lián)合動作集,并代入聯(lián)合獎勵函數(shù)進行評價,最終將得到的獎勵值返回至每一棵樹,對每一棵樹的結(jié)果節(jié)點進行回溯更新。
為了避免平均模擬結(jié)果對該問題求解結(jié)果產(chǎn)生影響,對式(12)中Q(v)/N(v)項進行改進,同時,保留式(12)中探索部分來避免局部最優(yōu)解。改進的MCTS選擇策略為
式中:Q(v)為基于所有無人機分配和突防決策得到結(jié)果。當(dāng)某一無人機的突防動作矩陣不滿足約束時,聯(lián)合獎勵函數(shù)會給所有的無人機策略賦予-0.2的懲罰值,這會導(dǎo)致其他結(jié)果較好的無人機策略得到一個較小的收益值,最終造成算法收斂變慢或者無法收斂的情況。為了解決此問題,讓每棵搜索樹同時記錄該搜索樹的單無人機統(tǒng)一目標函數(shù)值Ji,并將其作為選擇策略的一部分來指導(dǎo)搜索。針對無人機i的搜索樹,其選擇策略可進一步改進為
式中:ξs和ξm分別為單無人機目標函數(shù)值權(quán)重因子和多無人機目標函數(shù)權(quán)重因子,其和為1。同時,對回溯更新公式(13)進行改進,在所提出的算法中,不再對節(jié)點信息中回報值進行累加,而是記錄迭代學(xué)習(xí)過程中的最大值,并且記錄每架無人機的單目標函數(shù)Ji的最大值。因此,改進的回溯更新公式可建立為
式中:ΔJi為第i架無人機在一輪模擬中得到的單無人機目標函數(shù)回報值。改進的MCTS 算法搜索框架如圖1所示。
改進的MCTS算法偽代碼如算法1所示。
算法1 改進的MCTS算法輸入:建立NU棵蒙特卡洛樹,輸入其根節(jié)點1:while 當(dāng)前學(xué)習(xí)步數(shù)小于預(yù)設(shè)總學(xué)習(xí)步數(shù) do 2:for i in 1 to 無人機總數(shù)NU do 3:獲得初始狀態(tài)Sdis 4:while 當(dāng)前節(jié)點狀態(tài)v 非終止并且其動作已遍歷選擇過 do 5:通過式(19)選擇下一節(jié)點v′6:v=v′7:end while 8:if v非終止 then 9:隨機選擇動作,擴展新節(jié)點v′10:使用隨機模擬到達終止?fàn)顟B(tài),獲得單無人機的動作序列和ΔJi 11:end if 12:end for 13:構(gòu)建目標分配矩陣X和突防動作矩陣M1,…,MNU,獲得ΔQ 14:for i in 1 to 無人機總數(shù)NU do 15:通過回溯更新公式(20)從葉子節(jié)點向父節(jié)點更新16:end for 17:end while 18:最優(yōu)目標分配矩陣X和突防動作矩陣M1,…,MNU
本文以50 架無人機(U1~U50)攻擊5 個目標(T1~T5)為例,驗證所提出的統(tǒng)一目標函數(shù)和改進MCTS算法的有效性??紤]目標威脅度和部署態(tài)勢信息不同,給出目標威脅度和態(tài)勢信息,如表4所示,其中,νTar代表目標的戰(zhàn)略價值,Ndr、Ndsm、Ndmm、Ndlm分別代表目標依次部署的防御系統(tǒng)的數(shù)量。同時,每架無人機其初始航向角和對每個目標的協(xié)同攻擊時間不同,不失一般性,隨機產(chǎn)生各個無人機的航向和時間誤差。部分無人機對目標的航向誤差和時間誤差如表5 所示。取λγ=1/3,λt=1/3,λv=1/3,由此可建立優(yōu)勢度矩陣A,在突防決策階段,設(shè)置每種動作選擇不超過b1=2 次以及機動動作選擇不超過b2=6 次,式(10)中權(quán)重因子ρ1、ρ2、…、ρ50均取1/50。算法中Cp=,ξs=0.4,ξm=0.6,算法運行環(huán)境為i5-9400F 處理器,2.90 GHz,仿真環(huán)境為python3.6,總迭代步數(shù)設(shè)置為30 000步。
表4 目標價值和部署態(tài)勢數(shù)量Table 4 Target value and deployment situation
表5 無人機對目標的航向和時間誤差Table 5 Heading angle and time error of UAV to target
針對上述仿真問題的搜索空間為NUNTar×(NdNA)NU,則該工況的搜索空間為505×(75)50。顯然,傳統(tǒng)窮舉法很難實現(xiàn)問題的優(yōu)化求解。為此,本文使用原UCT 算法作為對比,以驗證所提出算法的有效性。
經(jīng)過30 000 步學(xué)習(xí)訓(xùn)練,訓(xùn)練總耗時為222.834 4 s。改進的MCTS 算法訓(xùn)練結(jié)果如表6 所示。為了方便動作序列的表示,用數(shù)字1至5分別表示隱身、轉(zhuǎn)彎機動、躍升機動、俯沖機動和蛇形機動,用一維向量表示無人機依次經(jīng)過部署區(qū)域所做出的動作序列。根據(jù)聯(lián)合動作,綜合目標分配和突防決策結(jié)果,得到最優(yōu)統(tǒng)一目標函數(shù)值為J*=0.889 5。
表6 改進MCTS算法訓(xùn)練結(jié)果Table 6 Training results of improved MCTS algorithm
訓(xùn)練過程中每架無人機根據(jù)自身啟發(fā)式因子進行獨立搜索。以無人機U10、U20、U30、U40和U50 為例,得出訓(xùn)練過程中搜索深度和單無人機統(tǒng)一目標函數(shù)值Ji。圖2所示為部分無人機在訓(xùn)練過程中的樹搜索深度,在該問題中搜索深度表示無人機經(jīng)過防空系統(tǒng)的數(shù)量。從圖2 可以看出:在訓(xùn)練10 000 步后,樹搜索能達到最大深度,說明無人機策略能在前期訓(xùn)練中根據(jù)獎勵函數(shù)并基于隨機模擬得到一個最優(yōu)解的范圍,在后面的訓(xùn)練中,主要在該范圍中搜尋最優(yōu)解。
部分無人機在訓(xùn)練過程中的目標函數(shù)值Ji如圖3 所示。從圖3 可見:在前期的訓(xùn)練中搜索深度較小,此時,搜索樹靠隨機模擬來獲得回報值,但隨著搜索深度增大,樹將獲得的較優(yōu)解存儲在節(jié)點信息中,并依靠啟發(fā)式策略不斷去搜尋最優(yōu)解。在訓(xùn)練后期搜索過程出現(xiàn)了震蕩現(xiàn)象,這是因為訪問次數(shù)較少的節(jié)點的收益值大于了當(dāng)前較優(yōu)解的收益值,策略選擇了訪問次數(shù)較少的節(jié)點,以此來避免陷入局部最優(yōu)。
圖3 部分無人機搜索樹的目標函數(shù)值JiFig. 3 Objective function value Ji of partial UAV search trees
與所提出算法進行對照實驗,同樣設(shè)置總迭代步數(shù)為30 000 步,訓(xùn)練耗時為261.7256 s,UCT算法訓(xùn)練結(jié)果如表7 所示,得到統(tǒng)一目標函數(shù)值J*=0.857 2。對照實驗部分結(jié)果如表8所示。
表7 UCT算法訓(xùn)練結(jié)果Table 7 Training results of UCT algorithm
表8 訓(xùn)練結(jié)果對比Table 8 Comparison of training results
從表8 可見:與UCT 算法相比,本文所提出的方法在收斂程度以及訓(xùn)練時間上更有優(yōu)越性。其中,鑒于改進的MCTS 算法對選擇策略和回溯更新公式進行了改進,其更符合組合優(yōu)化問題的求解特點;同時,在相同迭代步驟下,相比于UCT,所提出算法的訓(xùn)練時間減少了15%左右。這是因為傳統(tǒng)UCT 算法在迭代過程中需要更多的累加和除法計算,改進算法舍棄了這些步驟,因此,所設(shè)計的統(tǒng)一目標函數(shù)能有效指導(dǎo)改進算法進行學(xué)習(xí)。
1) 探討了多無人機目標分配問題和突防決策問題之間的耦合關(guān)系。基于無人機協(xié)同突防中的優(yōu)勢度模型和突防概率,構(gòu)建了一種多無人機作戰(zhàn)任務(wù)規(guī)劃統(tǒng)一目標函數(shù)。同時,分階段建立了該問題的強化學(xué)習(xí)框架,并提出了一種改進的MCTS算法,對目標分配和突防決策2個問題進行了統(tǒng)一求解。
2) 在對比仿真實驗中,所設(shè)計的統(tǒng)一目標函數(shù)能有效指導(dǎo)改進的MCTS 算法進行學(xué)習(xí)。該算法的收斂效果好,相比于傳統(tǒng)的蒙特卡洛搜索算法,訓(xùn)練時間減少了近15%。