基于任務(wù)評估反饋的異構(gòu)無人機(jī)動態(tài)任務(wù)分配

2024-02-22 00:00:00張友安何子琦李博宸宋磊

航空兵器 2024年6期

摘要：""""" 異構(gòu)無人機(jī)在動態(tài)戰(zhàn)場環(huán)境下的任務(wù)分配是實現(xiàn)無人機(jī)快速戰(zhàn)斗力生成的關(guān)鍵技術(shù)之一。針對現(xiàn)有異構(gòu)無人機(jī)的任務(wù)分配方法難以響應(yīng)戰(zhàn)場不確定性帶來的任務(wù)需求變化和潛在的求解可行性問題，提出一種基于任務(wù)評估反饋的動態(tài)任務(wù)分配方法。通過設(shè)計任務(wù)評估反饋模塊實現(xiàn)對無人機(jī)任務(wù)執(zhí)行效能的實時監(jiān)控，并利用事件觸發(fā)機(jī)制響應(yīng)動態(tài)環(huán)境中變化的任務(wù)需求，基于深度Q網(wǎng)絡(luò)實現(xiàn)異構(gòu)無人機(jī)分配，利用任務(wù)分配和執(zhí)行解耦以及動作過濾機(jī)制緩解傳統(tǒng)強(qiáng)化學(xué)習(xí)稀疏獎勵導(dǎo)致訓(xùn)練難以收斂的問題，形成動態(tài)快速的任務(wù)實時響應(yīng)方案。仿真結(jié)果表明，提出方法可有效應(yīng)對不確定戰(zhàn)場環(huán)境帶來的任務(wù)失效，最終實現(xiàn)比現(xiàn)有方法更優(yōu)的任務(wù)完成率。

關(guān)鍵詞："""" 無人機(jī)；任務(wù)分配；戰(zhàn)場不確定性；任務(wù)評估；稀疏獎勵；深度Q網(wǎng)絡(luò)；強(qiáng)化學(xué)習(xí)

中圖分類號：""""" TJ760.1； V43

文獻(xiàn)標(biāo)識碼：""" A

文章編號："""" 1673-5048（2024）06-0078-08

DOI： 10.12132/ISSN.1673-5048.2024.0027

0 引" 言

無人機(jī)因其功能種類豐富，適用場景廣泛，控制自由度高等特性，在未來軍事領(lǐng)域的應(yīng)用中被各國政府寄予厚望^［1-3^］。當(dāng)前，搭載各類載荷、機(jī)動能力不一的多型異構(gòu)無人機(jī)已列裝或具備大規(guī)模使用條件，異構(gòu)無人機(jī)的作戰(zhàn)運用已成為亟待解決的熱點問題。以任務(wù)為牽引，組建符合任務(wù)需求的無人編組，從而快速形成戰(zhàn)斗力施用于實際戰(zhàn)場環(huán)境，是解決無人機(jī)應(yīng)用的關(guān)鍵技術(shù)之一。通過匹配無人機(jī)能力屬性與任務(wù)需求，實現(xiàn)對無人機(jī)的任務(wù)分配，是組建無人編組的可行技術(shù)路線^［4-6^］。與常規(guī)商業(yè)用途不同，戰(zhàn)場環(huán)境更加復(fù)雜多變，突發(fā)事件以及天氣等不可控因素更多，給無人編組的實際任務(wù)收益帶來了較大的不確定性^［7-8^］。因此針對戰(zhàn)場環(huán)境下的異構(gòu)無人機(jī)任務(wù)分配問題，不僅要求給出滿足任務(wù)需求的任務(wù)分配方案，同時需要能夠根據(jù)戰(zhàn)場態(tài)勢的變化以及已分配任務(wù)執(zhí)行狀態(tài)的反饋，及時對分配方案進(jìn)行調(diào)整，以保證無人編組能夠順利實現(xiàn)預(yù)定的作戰(zhàn)目標(biāo)。

針對無人編組的任務(wù)分配問題，較為傳統(tǒng)的方法大多基于優(yōu)化算法以及智能搜索算法進(jìn)行求解。文獻(xiàn)［9］針對傳統(tǒng)目標(biāo)優(yōu)化算法難以解決混合變量和多個復(fù)雜約束的問題，提出了一種基于拐點的協(xié)同多目標(biāo)粒子群優(yōu)化算法。文獻(xiàn)［10］考慮不確定性因素對任務(wù)分配結(jié)果的影響，基于模糊可信性理論提出了一種模糊機(jī)會約束規(guī)劃模型，并采用自適應(yīng)參數(shù)調(diào)整策略等多種方法對模型進(jìn)行了優(yōu)化，使得模型在不確定性環(huán)境下的表現(xiàn)有所提升。文獻(xiàn)［11］提出一種基于合同網(wǎng)的分布式多無人機(jī)任務(wù)分配方法，解決了通信約束下的異構(gòu)無人機(jī)察打任務(wù)分配問題。上述傳統(tǒng)的優(yōu)化算法，大多未考慮任務(wù)執(zhí)行過程的不確定性，或者在處理環(huán)境不確定性時引入人為的主觀因素，難以實現(xiàn)戰(zhàn)場環(huán)境下的動態(tài)任務(wù)調(diào)度。在動態(tài)戰(zhàn)場環(huán)境下，傳統(tǒng)的優(yōu)化方法在資源能力和復(fù)雜環(huán)境不確定性的雙重影響下，容易出現(xiàn)實時求解不可行的問題。

近年來，深度強(qiáng)化學(xué)習(xí)技術(shù)的不斷發(fā)展為動態(tài)不確定環(huán)境下的任務(wù)分配問題求解提供了新的解決思路。文獻(xiàn)［12］將任務(wù)分配問題建模為馬爾可夫決策過程，提出了一種基于強(qiáng)化學(xué)習(xí)的任務(wù)分配方法，能夠在考慮環(huán)境不確定性的情況下進(jìn)行任務(wù)分配，與搜索優(yōu)化算法相比取得了更優(yōu)的求解效率。文獻(xiàn)［13］針對集群在線任務(wù)分配存在的環(huán)境不確定、耗時過長等問題提出了一種基于分區(qū)間強(qiáng)化學(xué)習(xí)的快速任務(wù)分配算法。與傳統(tǒng)優(yōu)化算法相比，上述方法在解決不確定性問題方面具有一定的優(yōu)勢，然而仍局限于靜態(tài)問題，通常假設(shè)在任務(wù)分配開始前就已經(jīng)獲得所有任務(wù)的全部信息，任務(wù)執(zhí)行過程的實際狀態(tài)并未得到充分考慮。在戰(zhàn)場對抗環(huán)境中，實際任務(wù)需求往往難以獲得精確估計。如擊毀某目標(biāo)建筑物所需自殺式無人機(jī)數(shù)目通常難以預(yù)知，需要根據(jù)任務(wù)執(zhí)行過程進(jìn)行無人機(jī)動態(tài)調(diào)度和編組調(diào)整。上述靜態(tài)任務(wù)分配缺乏對于任務(wù)執(zhí)行過程中突發(fā)事件的響應(yīng)能力，而利用多智能體強(qiáng)化學(xué)習(xí)進(jìn)行任務(wù)需求到無人機(jī)動作的端到端生成往往存在稀疏獎勵的問題，導(dǎo)致訓(xùn)練難以收斂^［14^］。針對以上問題，基于分層解耦的方法可實現(xiàn)動態(tài)環(huán)境下的有效任務(wù)響應(yīng)^［15-16^］。如文獻(xiàn)［17］提出了一種根據(jù)任務(wù)執(zhí)行效能反饋對任務(wù)進(jìn)行優(yōu)化再分配的架構(gòu)，在具有較強(qiáng)外部擾動環(huán)境下，實現(xiàn)了彈性任務(wù)分配。

為了實現(xiàn)任務(wù)動態(tài)響應(yīng)，同時緩解強(qiáng)化學(xué)習(xí)訓(xùn)練過程存在的稀疏獎勵問題，本文提出了一種具有分層反饋結(jié)構(gòu)的任務(wù)分配框架，通過任務(wù)評估模塊構(gòu)建任務(wù)執(zhí)行到任務(wù)分配的反饋機(jī)制，根據(jù)實際任務(wù)效果動態(tài)調(diào)整任務(wù)分配結(jié)果，從而應(yīng)對實際戰(zhàn)場環(huán)境帶來的不確定性。基于深度Q網(wǎng)絡(luò)求解任務(wù)分配問題，利用任務(wù)評估模塊實時反饋當(dāng)前時步任務(wù)信息，以緩解僅考慮任務(wù)完成結(jié)果導(dǎo)致的稀疏獎勵，并設(shè)計動作過濾機(jī)制提升訓(xùn)練的收斂速率。當(dāng)任務(wù)執(zhí)行受阻時，該框架可根據(jù)任務(wù)執(zhí)行反饋的數(shù)據(jù)重新評估任務(wù)需求，并更新任務(wù)分配方案，直至總體目標(biāo)達(dá)成。相比于文獻(xiàn)［9-13］，本文提出方法的優(yōu)勢可總結(jié)如下：

（1）" 通過任務(wù)執(zhí)行反饋信息及時對無人編組構(gòu)成進(jìn)行調(diào)整，充分考慮了環(huán)境不確定性對任務(wù)分配結(jié)果的影響，實現(xiàn)對戰(zhàn)場態(tài)勢的快速動態(tài)響應(yīng)，同時避免了傳統(tǒng)優(yōu)化方法存在的求解可行性問題。

（2）" 采用計算解耦的思想，緩解了強(qiáng)化學(xué)習(xí)算法中稀疏獎勵導(dǎo)致訓(xùn)練難收斂的問題，在深度Q網(wǎng)絡(luò)的基礎(chǔ)上，引入了動作過濾機(jī)制，提升了模型的訓(xùn)練速度和訓(xùn)練效果。

1 無人編組動態(tài)任務(wù)分配模型

本文主要考慮戰(zhàn)場不確定性環(huán)境下的無人編組任務(wù)分配問題，即在給定異構(gòu)無人機(jī)能力情況和初始任務(wù)部分信息的條件下，生成任務(wù)分配方案從而組建無人編組執(zhí)行指定任務(wù)，同時能夠根據(jù)無人編組的任務(wù)執(zhí)行效果動態(tài)調(diào)整任務(wù)分配方案以滿足實際任務(wù)需求。其中任務(wù)分配指根據(jù)已知信息按照優(yōu)先級順序為每個任務(wù)構(gòu)建無人編組，使得任務(wù)能夠完成且執(zhí)行成本最低。由于在任務(wù)開始前，難以獲得關(guān)于任務(wù)的完整信息，且環(huán)境條件使得無人編組實際執(zhí)行效能具有不確定性，因此需要在任務(wù)執(zhí)行過程中，通過任務(wù)執(zhí)行評估模塊根據(jù)執(zhí)行狀況對前期估計的任務(wù)需求進(jìn)行調(diào)整，并適時調(diào)整分配方案以動態(tài)應(yīng)對未知或突發(fā)狀況。

1.1 任務(wù)分配

假設(shè)共有Nk種類型的無人機(jī)可供調(diào)用，設(shè)i種類型的無人機(jī)可供調(diào)用的數(shù)量為Nui。不同類型的無人機(jī)具有不同的若干種能力屬性，如隱身能力、偵察能力等。設(shè)Nk種類型的無人機(jī)共有Nc種能力，由矩陣 Fu∈瘙綆^Nk×Nc表示。其中Fuij 表示第i種類型的無人機(jī)第j種能力屬性的大小。假設(shè)無人機(jī)的能力屬性受到天氣等環(huán)境因素的影響。給定任務(wù)周邊環(huán)境條件Env（Tk）下，第j種能力屬性的實際效能服從高斯分布N（μjk， σjk），其中μjk， σjk為給定的經(jīng)驗值。

設(shè)當(dāng)前戰(zhàn)場上有Nt個需要監(jiān)視、攻擊或驅(qū)趕的目標(biāo)，因此需要對每個目標(biāo)執(zhí)行特定戰(zhàn)術(shù)任務(wù)。設(shè)任務(wù)間不存在相互依賴，每個任務(wù)Tm需要由一組具有相應(yīng)能力的無人機(jī)協(xié)作完成，如完成近距離偵察任務(wù)的一組無人機(jī)需要具備隱身、偵察和信息傳輸?shù)哪芰Α?完成任務(wù)所需的能力使用任務(wù)能力需求矩陣Ft∈瘙綆^Nt×Nc表示。當(dāng)分配的一組無人機(jī)能夠提供任務(wù)所要求的全部能力時，認(rèn)為該任務(wù)能夠順利執(zhí)行。考慮資源有限條件下，可能存在有任務(wù)無法被立即完成的情況，因此根據(jù)任務(wù)緊迫性與重要程度，對任務(wù)優(yōu)先級進(jìn)行評估，優(yōu)先確保重要任務(wù)能夠完成。設(shè)任務(wù)集合T表示當(dāng)前戰(zhàn)場中存在的所有作戰(zhàn)任務(wù)，則T={T1， T2， …， TNt}，其中下標(biāo)表示該任務(wù)的優(yōu)先級。

任務(wù)分配問題，即為每個任務(wù)Tm分配一組滿足約束的無人機(jī)，使得任務(wù)能夠完成且執(zhí)行成本最低。由此，構(gòu)建任務(wù)m的代價函數(shù)：

Rm（dm， δ+m）=－wmdm+dm∑Ncj=1δ+m， j （1）

代價函數(shù)由任務(wù)完成情況和資源冗余兩部分組成。式中： wm表示任務(wù)m的優(yōu)先級權(quán)重； dm為0， 1變量，表示任務(wù)m是否滿足其全部能力需求； δ+m， j表示任務(wù)m中能力j超出需求的程度。考慮任務(wù)需求與環(huán)境因素影響，建立任務(wù)分配的混合整數(shù)線性規(guī)劃問題模型：

mina， δ+m， j， δ－m， j， b， dJ=∑Ntm=1Rm（dm， δ+m）

s.t.

am，－fa（Fu|Env（Tm））－， j=Ftm， j+δ+m， j－δ－m， j

am，－fa（Fu|Env（Tm））－Ftm， j≥－M（1－bm， j）

bm，－C－， m≥－M（1－dm）

a－， j1≤Nui

δ+m， j≥0， δ－m， j≥0， j∈{1， …， Nk}

ami∈

i∈{1， …， Nk}，

j∈{1， …， Nc}， m∈{1， …， Nt}" （2）

式中： a∈^t×Nk表示任務(wù)分配結(jié)果矩陣， am，－表示矩陣的第m行，即任務(wù)m的分配結(jié)果； δ－m， j表示任務(wù)m的能力j不滿足需求的程度； bm， j為0， 1變量，若任務(wù)m的能力j滿足約束要求，則bm， j=1，" 未被滿足則為0。 fa（Fu|Env（Tm））表示無人機(jī)在任務(wù)地點附近環(huán)境條件Env（Tm）下實際具備的能力； M為無限大正數(shù)， 1為全1向量。 C∈^Nt為任務(wù)能力特征矩陣：

C－， m=（Ft）T·diag1vm－， m（3）

式中： vm為（Ft）T第m列的元素之和，即矩陣C的每一列元素之和為1。

在上述模型中，優(yōu)化目標(biāo)為盡可能使優(yōu)先級較高的任務(wù)需求得到滿足，并減少資源冗余。式（2）中第一條約束中松弛量δ+m， j， δ－m， j分別表示任務(wù)m所需能力j冗余和未被滿足的部分，通過在目標(biāo)函數(shù)中極小化分配成功的任務(wù)的能力冗余量實現(xiàn)資源的合理分配。式（2）中第二條約束通過引入變量bm， j對任務(wù)中單項能力是否滿足進(jìn)行標(biāo)記。約束3通過任務(wù)能力特征矩陣C判斷該任務(wù)所需能力是否得到滿足，并通過變量dm表示，通過在目標(biāo)函數(shù)中對dm進(jìn)行加權(quán)，使得優(yōu)先級較高的任務(wù)需求能夠優(yōu)先被滿足。約束4保證分配方案具有可行性。

1.2 任務(wù)評估反饋

考慮在戰(zhàn)場不確定性環(huán)境中，通常難以在任務(wù)開始前獲得關(guān)于任務(wù)的全部準(zhǔn)確信息，因此為了能夠順利完成任務(wù)，以及應(yīng)對執(zhí)行過程中的突發(fā)狀況，需要通過任務(wù)執(zhí)行狀態(tài)對預(yù)先估計的任務(wù)需求進(jìn)行不斷調(diào)整。

假設(shè)所有參與任務(wù)的無人機(jī)都能夠與指控中心通信。在任務(wù)開始前根據(jù)已知情報，評估各任務(wù)需求并給出Ft。設(shè)無人機(jī)系統(tǒng)理論狀態(tài)滿足：

x·sim=f（xsim）+g（xsim）u（4）

式中： xsim為無人機(jī)理論狀態(tài)； u為無人機(jī)控制輸入。考慮到突發(fā)的惡劣天氣以及對方陣地未知的對空防御力量等狀況可能會導(dǎo)致無人機(jī)偏離預(yù)定理論軌跡，無人機(jī)任務(wù)實際執(zhí)行狀態(tài)定義為xact，并與任務(wù)實際情況Tr有關(guān)：

xact=J（xsim， u， Tr）（5）

式中： Tr為未知常量。狀態(tài)評估反饋問題可表述為，給出無人機(jī)實際執(zhí)行狀態(tài)，通過評估函數(shù)更新任務(wù)估計需求Te：

Te←E（xsim， xact， Te）（6）

使得Te逐漸接近任務(wù)真實情況Tr。

2 基于分層反饋的任務(wù)分配問題求解

針對上述問題，本文提出了一個基于分層反饋結(jié)構(gòu)的任務(wù)規(guī)劃框架，" 如圖1所示。"" 任務(wù)分配算法基于DQN（Deep Q-Learning Network），并利用任務(wù)執(zhí)行效能形成反饋機(jī)制。任務(wù)評估模塊通過接受執(zhí)行層反饋的無人機(jī)狀態(tài)數(shù)據(jù)，對當(dāng)前任務(wù)的狀態(tài)進(jìn)行評估，當(dāng)預(yù)期執(zhí)行結(jié)果與實際執(zhí)行結(jié)果出現(xiàn)偏差時，重新估計任務(wù)實際能力需求，同時對任務(wù)分配約束進(jìn)行修正并重新分配。 2.1 任務(wù)分配算法

2.1.1 強(qiáng)化學(xué)習(xí)方法與基本要素

強(qiáng)化學(xué)習(xí)方法通過智能體與環(huán)境的不斷交互，對策略進(jìn)行不斷優(yōu)化，通常使用馬爾可夫決策過程（MDP）對其進(jìn)行描述。 MDP可由五元組{S， A， P， R， γ}進(jìn)行表示，其中S表示狀態(tài)空間， A表示動作空間， P表示狀態(tài)轉(zhuǎn)移概率， R表示智能體在狀態(tài)s下采取動作a獲得的瞬時獎勵， γ表示折扣因子，用于計算累計回報。在MDP中，智能體觀察環(huán)境狀態(tài)s并根據(jù)策略π選擇動作a，環(huán)境按照轉(zhuǎn)移概率過渡到下一狀態(tài)s′，并給出獎勵R。

在深度強(qiáng)化學(xué)習(xí)算法中， DQN是一類較為常見的算法。 DQN算法使用深度網(wǎng)絡(luò)對狀態(tài)動作價值函數(shù)Q（s， a）進(jìn)行估計，訓(xùn)練完成后利用Q（s， a）實現(xiàn)決策；通常使用經(jīng)驗回放和target網(wǎng)絡(luò)更新其網(wǎng)絡(luò)參數(shù)，其模型參數(shù)θ的更新方法如下：

θ←θ+α［R+γmaxa′Q（s′， a′; θ－）－

Q（s， a; θ）］Q（s， a; θ）（7）

式中： α為學(xué)習(xí)率；（s， a）為當(dāng)前狀態(tài)動作對；（s′， a′）為下一時刻的狀態(tài)動作對； θ－為target網(wǎng)絡(luò)的參數(shù)。

2.1.2 任務(wù)分配問題的馬爾可夫決策過程

將1.1節(jié)中所述的任務(wù)分配問題建模為MDP，其中各元素定義如下：

（1）狀態(tài)空間：狀態(tài)空間表示了當(dāng)前任務(wù)分配的狀況，針對任務(wù)分配問題，設(shè)計狀態(tài)s為

sTm=［n1， …， nNk， F^Tm1， …， F^TmNf， Env（Tm）］（8）

式中： Tm表示當(dāng)前正在進(jìn)行分配的任務(wù)； ni表示第i種無人機(jī)當(dāng)前可供分配的數(shù)量； F^Tmj表示任務(wù)Tm對于第j種能力的需求在當(dāng)前分配狀態(tài)下仍未被滿足的部分； Env（Tm）表示任務(wù)所處的環(huán)境狀態(tài)。

（2）動作空間：指控中心在一次動作中，選擇一架無人機(jī)a并分配給任務(wù)Tm：

a∈A=［1， …， Nk］（9）

（3）獎勵函數(shù)：獎勵函數(shù)是智能體進(jìn)行學(xué)習(xí)的重要引導(dǎo)。考慮式（2）中提出的任務(wù)約束，根據(jù)約束滿足的不同情況，給予該輪分配相應(yīng)的獎勵：

R=r1－k·w（αm，－， fa， FTm，－）， w≥0

r2·（Fua）Tsgn（FTm，－）， wlt;0" （10）

w（am，－， fa， FTm，－）=am，－fa（Fu|Env（Tm））－FTm，－am，－fa（Fu|Env（Tm））

式中： r1， r2， k為給定的常數(shù)，且r2lt;r1。 w（αi，－， Fa， FTi，－）表示當(dāng)前能力與任務(wù)需求之間的相對關(guān)系，當(dāng)前分配的無人編組能夠提供的能力大于任務(wù)需求時，該值為正， w表示當(dāng)前能力冗余的比例；若當(dāng)前分配的無人編組能夠提供的能力小于任務(wù)需求，該值表示能力欠缺的程度。上述獎勵函數(shù)的含義為，當(dāng)分配結(jié)果能夠滿足任務(wù)需求時，即任務(wù)分配完成時，給予一個較大的獎勵，且獎勵數(shù)值與冗余程度呈負(fù)相關(guān)；當(dāng)任務(wù)分配尚未完成時，則計算當(dāng)前動作在需求能力和冗余能力兩個方向的增量并給予較小獎勵。對于當(dāng)前分配所能提供的能力值尚未滿足任務(wù)需求的能力種類，稱其為需求能力；冗余能力則指當(dāng)前能力已經(jīng)超過任務(wù)需求的能力種類。若當(dāng)前動作對于任務(wù)的需求能力增加量大于冗余能力增加量時，給予微小獎勵，否則給予微小懲罰。

（4）狀態(tài)轉(zhuǎn)移：經(jīng)過一次分配動作后，任務(wù)Tm被分配了一架a型號的無人機(jī)，相應(yīng)的可供分配的a類型的無人機(jī)數(shù)量減少，同時任務(wù)需求相應(yīng)減少：

na←na－1

［F^Tm1， …， F^TmNf］←［F^Tm1， …， F^TmNf］－

［0， …， 1， 0， …， 0］fa（Fu|Env（Tm））（11）

當(dāng)i∈［1， Nc］， F^Tmi≤0時，本輪分配結(jié)束。

2.1.3 動作過濾機(jī)制

針對帶有約束的優(yōu)化問題，本文引入了一種動作過濾機(jī)制。通過該機(jī)制將全部動作空間中違反約束或在目標(biāo)方向上增量為0的動作剔除，生成可行動作空間，進(jìn)而加快Q網(wǎng)絡(luò)的訓(xùn)練速度，同時，保證輸出結(jié)果始終為可行解。

設(shè)計二進(jìn)制掩碼矩陣：

M=［m1， m2， …， mNk］， mi∈{0， 1}（12）

式中： mi=1表示在該輪迭代中， ai為可用動作，否則，表示動作ai違反約束或不可能獲得獎勵，為不可用動作。得到可行動作空間為

Aa={ai|mi=1}（13）

針對可用無人機(jī)數(shù)量的約束，構(gòu)造掩碼M1：

M1=kron1（［N1， …， NNk］－［n1， …， nnk］）（14）

式中： kronn為克羅內(nèi)克脈沖函數(shù)，其定義為

kronn（x）=1， x=n0， x≠n （15）

進(jìn)一步，也可以使用掩碼去除與完成該項任務(wù)無關(guān)的無人機(jī)。構(gòu)造掩碼M2：

M2=H（Ftm，－Fu）（16）

式中： H（x）為單位階躍函數(shù)。綜合M1， M2得M：

mi=m1i*m2i （17）

2.1.4 基于DQN的任務(wù)分配算法

基于DQN算法，本文采用了全連接神經(jīng)網(wǎng)絡(luò)對Q函數(shù)進(jìn)行擬合。在訓(xùn)練初期，智能體隨機(jī)選擇動作，并獲得獎勵，生成的動作記錄進(jìn)入經(jīng)驗池中用于后續(xù)的學(xué)習(xí)。為了提高網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性和收斂性， Q網(wǎng)絡(luò)的參數(shù)按照固定時間間隔進(jìn)行更新。同時為了提高經(jīng)驗池中具有較高經(jīng)驗價值數(shù)據(jù)的利用效率，采用優(yōu)先經(jīng)驗回放的方式對經(jīng)驗池中的數(shù)據(jù)進(jìn)行管理和采樣。圖2簡要描述了本文所使用的Q網(wǎng)絡(luò)的訓(xùn)練方法。

通過訓(xùn)練得到Q網(wǎng)絡(luò)的一組權(quán)值后，基于Q函數(shù)給出的狀態(tài)動作對價值，針對每一個狀態(tài)s，選擇當(dāng)前狀態(tài)

算法1： Q網(wǎng)絡(luò)訓(xùn)練

輸入：采樣數(shù)量E，目標(biāo)網(wǎng)絡(luò)更新頻率C，最大訓(xùn)練輪數(shù)M，學(xué)習(xí)率α等網(wǎng)絡(luò)參數(shù)

輸出： Q網(wǎng)絡(luò)Q（·， w）

1.初始化經(jīng)驗回放池D

2使用隨機(jī)權(quán)重初始化網(wǎng)絡(luò)Q

3.生成與Q網(wǎng)絡(luò)相同的target Q網(wǎng)絡(luò)

4.當(dāng)訓(xùn)練輪數(shù)小于M時：

5.初始化環(huán)境狀態(tài)s

6.判斷當(dāng)前任務(wù)是否分配完成，若未完成：

7.計算可行動作空間Aa

8.若訓(xùn)練步數(shù)小于K：

9.在可行動作空間中隨機(jī)選擇動作a

10.否則：

11.在可行動作空間中選擇Q值最大的動作

12.計算獎勵值R并更新環(huán)境狀態(tài)為s′

13.將動作記錄（s， a， r， s′）存放至經(jīng)驗池中，并更新經(jīng)驗池

權(quán)重

14.從經(jīng)驗池中根據(jù)權(quán)重大小抽取E條數(shù)據(jù)

15.更新Q網(wǎng)絡(luò)權(quán)值

16.每C步，將Q網(wǎng)絡(luò)的參數(shù)同步至target Q網(wǎng)絡(luò)

17.返回Q網(wǎng)絡(luò)及其權(quán)重參數(shù)

下可行動作空間中價值最高的動作a。根據(jù)任務(wù)優(yōu)先級由高至低為每個任務(wù)分配無人機(jī)，當(dāng)任務(wù)約束條件滿足，則判定該任務(wù)分配完成，開始為下一項任務(wù)分配無人機(jī)。直至所有任務(wù)約束條件滿足，或所有無人機(jī)被分配完畢。算法流程如圖3所示。

算法2：基于DQN的任務(wù)分配算法

輸入：算法1中訓(xùn)練得到的Q網(wǎng)絡(luò)

輸出：將無人機(jī)分配至任務(wù)集合T的一組分配方案a

1.根據(jù)任務(wù)T1初始化狀態(tài)s

2.當(dāng)仍有無人機(jī)未分配且仍有任務(wù)尚未滿足約束時：

3.根據(jù)當(dāng)前狀態(tài)s，計算所有動作的狀態(tài)動作價值函數(shù)Q（s， a， w）

4.根據(jù)當(dāng)前狀態(tài)s，計算掩碼M，以及可行動作空間Aa

5.從可行動作空間Aa中選擇Q值最高的動作

6.若當(dāng)前任務(wù)未分配完畢：

則根據(jù)狀態(tài)轉(zhuǎn)移規(guī)則更新當(dāng)前狀態(tài)

7.否則：

根據(jù)下一項任務(wù)初始化狀態(tài)s

8.返回當(dāng)前狀態(tài)，即任務(wù)分配結(jié)果

2.2 任務(wù)評估反饋

為了應(yīng)對未知環(huán)境，本文在框架中建立了任務(wù)評估模塊，并通過該模塊建立任務(wù)執(zhí)行與任務(wù)分配之間的反饋，通過觀測無人機(jī)在實際任務(wù)過程中的表現(xiàn)，對預(yù)先估計的任務(wù)需求進(jìn)行修正，進(jìn)而調(diào)整無人機(jī)任務(wù)分配方案，從而實現(xiàn)對戰(zhàn)場態(tài)勢的動態(tài)響應(yīng)。

設(shè)無人機(jī)在無外界干擾的情況下，始終按照給定控制量運動。基于此假設(shè)，可以通過測量無人機(jī)實際狀態(tài)與預(yù)期狀態(tài)之間的差異，來評估任務(wù)執(zhí)行的程度。

設(shè)系統(tǒng)狀態(tài)滿足：

x·=f（x）+g（x）u（18）

則給定控制量u，系統(tǒng)理論狀態(tài)為

xtsim=x^t^－1act+（f（x^t^－1act）+g（x^t^－1act）u）Δt（19）

然而，當(dāng)無人機(jī)集群的能力不足以克服外界擾動完成任務(wù)時，則無人機(jī)無法完全按照給出的控制信號行進(jìn)。如當(dāng)無人機(jī)接近任務(wù)位置時，若當(dāng)前能力無法突破對方防御，則無人機(jī)將難以按照預(yù)定計劃繼續(xù)推進(jìn)。記此時無人機(jī)實際狀態(tài)為xtact：

xtact=x^t^－1act+（f（x^t^－1act）+g（x^t^－1act）u）Δt+

D（x^t^－1act， Ftm，－， a）（20）

式中： D（x^t^－1act， Ftm，－， a）為環(huán)境擾動。記t時刻無人機(jī)的執(zhí)行性能Pu為實際狀態(tài)變化量在理論狀態(tài)變化量方向的投影，即

Pu=projx·simx·act=

（f（x^t^－1act）+g（x^t^－1act）u）Δt－x^t^－1act·xtact－x^t^－1act·cosθ （21）

在此基礎(chǔ)上，定義任務(wù)T的總體執(zhí)行效能Pt為該任務(wù)編隊中所有無人機(jī)執(zhí)行性能的均值：

Pt=1Ntm∑Ntmi=1Pu（22）

當(dāng)任務(wù)執(zhí)行效能出現(xiàn)下降時，采集任務(wù)中所有無人機(jī)的實際運行狀態(tài)xact，通過最小化誤差平方和對實際任務(wù)需求Ftm，－進(jìn)行估計并更新：

Ftm，－←argminFtm，－∑Ntmi=1（xtact－（x^t^－1act+（f（x^t^－1act）+

g（x^t^－1act）u）Δt+D（x^t^－1act， Ftm，－， a）））2（23）

當(dāng)任務(wù)需求發(fā)生變化時，觸發(fā)任務(wù)重分配機(jī)制，利用2.1.4節(jié)中所述基于DQN的任務(wù)分配算法重新生成分配方案。

3 仿真實驗

3.1 仿真設(shè)定

設(shè)定仿真任務(wù)區(qū)域為10 km×10 km的正方形區(qū)域^［18^］，仿真步長為0.1 s。該區(qū)域內(nèi)共有三個待執(zhí)行任務(wù)，各任務(wù)實際所需的能力種類以及數(shù)值如表1所示。

表1中不同能力的量綱不同，能力1表示光電感知能力，能力數(shù)值取決于無人機(jī)的光電傳感器感知范圍；能力2表示雷達(dá)感知能力，能力數(shù)值取決于無人機(jī)的雷達(dá)感知范圍；能力3表示電磁干擾能力，能力數(shù)值取決于無人機(jī)的電磁干擾的頻段和功率大??；能力4表示火力打擊能力，能力數(shù)值取決于無人機(jī)搭載的彈藥數(shù)和彈藥毀傷能力。任務(wù)1為偵察任務(wù)，任務(wù)2和任務(wù)3均為察打任務(wù)。其中，由于敵方在任務(wù)過程中突然增加防守兵力，任務(wù)3所需三種能力數(shù)值在t=4.5 s時均增加為25。假設(shè)初始時刻指控中心已知任務(wù)需要的能力種類但未知實際能力需求數(shù)值，設(shè)置任務(wù)所有能力數(shù)值初始估計為10，并在任務(wù)執(zhí)行過程中不斷對任務(wù)能力估計值進(jìn)行修正。

初始時，所有無人機(jī)位于同一初始位置區(qū)域，共有4種，每種各15架無人機(jī)可供調(diào)用。各無人機(jī)具有的能力屬性如表2所示。無人機(jī)類型主要取決于其具備的能力屬性，如類型1無人機(jī)為搭載光電傳感器和電磁干擾裝置的偵察無人機(jī)，類型2無人機(jī)為搭載雷達(dá)的偵察無人機(jī)，類型3無人機(jī)為搭載光電傳感器、電磁干擾裝置和導(dǎo)彈的察打無人機(jī)，類型4無人機(jī)為搭載雷達(dá)和導(dǎo)彈的察打無人機(jī)。

各類能力屬性，在不同天氣狀況下的實際表現(xiàn)出的能力與標(biāo)稱能力的比值近似服從均值為σwhe， j、方差為0.05的高斯分布，不同能力屬性受不同天氣情況的影響情況如表3所示。

派遣執(zhí)行任務(wù)的無人機(jī)在接到分配指令后從初始位置出發(fā)前往任務(wù)地點執(zhí)行任務(wù)。設(shè)無人機(jī)的最大速度為100 m/s，當(dāng)?shù)竭_(dá)任務(wù)點的無人機(jī)能力總和達(dá)到任務(wù)能力需求時，認(rèn)為該任務(wù)能夠順利執(zhí)行完畢。

3.2 任務(wù)分配算法訓(xùn)練結(jié)果

實驗設(shè)定的超參數(shù)如表4所示。

根據(jù)表4所示參數(shù)，對含動作過濾機(jī)制和不含動作過濾機(jī)制的算法分別進(jìn)行60 000輪訓(xùn)練，每200個回合計算一次單回合的平均獎勵，訓(xùn)練過程中平均獎勵的變化曲線如圖4所示。

由上圖可知，算法在約25 000回合后達(dá)到收斂。相比于無動作過濾機(jī)制的算法，有動作過濾機(jī)制的算法在訓(xùn)練過程中獎勵收益更為平穩(wěn)，平均值也更高。

3.3 算法性能分析

為了對本文所提出算法的性能進(jìn)行分析，利用訓(xùn)練后得到的模型驅(qū)動無人機(jī)執(zhí)行任務(wù)，測試場景設(shè)置與3.1節(jié)保持一致。所有無人機(jī)假設(shè)均從固定初始位置起飛，任務(wù)執(zhí)行過程的關(guān)鍵時間節(jié)點截圖如圖5所示。

圖5中L1、 L2、 L3和L4分別代表類型1、類型2、類型3和類型4的無人機(jī)，無人機(jī)軌跡顏色與其類型對應(yīng)，藍(lán)色圓形代表三個任務(wù)T1、 T2和T3。以無人機(jī)為圓心的圓表示其感知范圍，與任務(wù)過程對應(yīng)的三個任務(wù)的任務(wù)效能評估結(jié)果以及任務(wù)需求滿足情況如圖6～8所示。

由圖5（a）可知， t=0.6 s時，三架1型無人機(jī)、一架2型無人機(jī)和兩架4型無人機(jī)被分配給T1；一架2型無人機(jī)和兩架4型無人機(jī)被分配給T2；兩架1型無人機(jī)、" 一架3型無人機(jī)和兩架4型無人機(jī)被分配給T3。此時的分配基于估計的任務(wù)需求而非實際的任務(wù)需求，因此在圖6～8中，在初始階段三個任務(wù)的實際需求都未被分配的無人機(jī)能力滿足。圖6（a）中， t=2.1 s時，分配給T1的無人編組受到環(huán)境影響導(dǎo)致估計的任務(wù)性能發(fā)生顯著下降，此時算法對任務(wù)需求進(jìn)行重估計，并對無人機(jī)進(jìn)行重分配。由圖5（b）可知，增加三架1型無人機(jī)、一架2型無人機(jī)和一架4型無人機(jī)執(zhí)行任務(wù)T1。圖6（b）中， t=2.2 s時，新增的無人機(jī)形成的新的無人編組已經(jīng)達(dá)到任務(wù)T1的實際需求。圖5（c）中，已到達(dá)T1任務(wù)位置的無人機(jī)感知范圍無法完全覆蓋目標(biāo)區(qū)域，而在圖5（d）中，后續(xù)分配的無人機(jī)具備更大的感知范圍，整個無人機(jī)編組最終成功實現(xiàn)對目標(biāo)區(qū)域的全覆蓋。類似地，圖7（a）中， t=2.9 s時，分配給T2的無人編組任務(wù)進(jìn)程受阻，重分配后增加一架2型無人機(jī)和兩架4型無人機(jī)執(zhí)行T2。圖7（b）中，負(fù)責(zé)任務(wù)T2的編組在t=3.2 s后能力已超過實際任務(wù)需求。因此，執(zhí)行T2的無人編組滿足任務(wù)需求，在圖5（d）中，該編組發(fā)現(xiàn)目標(biāo)且對目標(biāo)形成了打擊（無人機(jī)和目標(biāo)距離小于彈藥打擊范圍）。由圖8（b）可知，除環(huán)境干擾導(dǎo)致的任務(wù)性能受阻外， t=4.5 s時，原有任務(wù)需求由10增長為25。盡管無人編組經(jīng)過重分配在t=4.5 s之前已經(jīng)滿足了原有任務(wù)需求，但是由于需求的變化，無人編組的能力已不足以完成原有任務(wù)。圖8（a）中，分配給T3的無人編組任務(wù)進(jìn)程受阻，重分配后增加一架1型無人機(jī)、一架3型無人機(jī)和一架4型無人機(jī)執(zhí)行T3，對應(yīng)可視化界面見圖5（d）。由圖8（b）可知， t=6.3 s之后，新增的任務(wù)需求再次被滿足，任務(wù)T3也可被順利完成。當(dāng)算法不具備反饋機(jī)制時，其任務(wù)執(zhí)行情況如圖9～11所示，在任務(wù)效能出現(xiàn)下降后由于未能及時調(diào)整分配做出響應(yīng)，導(dǎo)致任務(wù)效能迅速下降，最終任務(wù)未能執(zhí)行成功。

4 結(jié)" 論

針對動態(tài)戰(zhàn)場環(huán)境下異構(gòu)無人機(jī)的任務(wù)分配問題，在考慮任務(wù)執(zhí)行過程和任務(wù)需求的不確定性的基礎(chǔ)上，設(shè)計了一種基于任務(wù)評估反饋的異構(gòu)無人機(jī)動態(tài)任務(wù)分配方法，利用全連接神經(jīng)網(wǎng)絡(luò)對Q函數(shù)進(jìn)行擬合生成任務(wù)分配方案，并通過任務(wù)分配執(zhí)行解耦設(shè)計避免稀疏獎勵對訓(xùn)練過程收斂速度的影響。仿真實驗結(jié)果表明，該方法能夠較為有效地應(yīng)對外界因素導(dǎo)致無人機(jī)執(zhí)行任務(wù)效能下降的情況，通過反饋機(jī)制實現(xiàn)任務(wù)重分配，從而根據(jù)任務(wù)實際需求調(diào)整任務(wù)編成，最終實現(xiàn)較高的任務(wù)完成率。

本文的工作基于集中式任務(wù)分配與調(diào)度，對通信網(wǎng)絡(luò)的依賴程度較高。當(dāng)任務(wù)環(huán)境較為惡劣時，無人機(jī)與指控中心的通信穩(wěn)定性往往難以保證，任務(wù)評估反饋的結(jié)果可能難以實時回傳至指控中心。在這種情況下，本文提出的方法在任務(wù)響應(yīng)方面可能會存在較大的延時。未來將研究分布式、自組織的任務(wù)分配方法，利用歷史任務(wù)數(shù)據(jù)構(gòu)建典型任務(wù)場景庫，結(jié)合模仿學(xué)習(xí)等方法訓(xùn)練無人編組的動態(tài)組織與分配調(diào)整策略，并嘗試?yán)幂^少的通信次數(shù)實現(xiàn)有效任務(wù)協(xié)同。

參考文獻(xiàn)：

［1］李鵬舉，毛鵬軍，耿乾，等. 無人機(jī)集群技術(shù)研究現(xiàn)狀與趨勢［J］. 航空兵器， 2020， 27（4）： 25-32.

Li Pengju， Mao Pengjun， Geng Qian， et al. Research Status and Trend of UAV Swarm Technology［J］. Aero Weaponry， 2020， 27（4）： 25-32.（in Chinese）

［2］李博宸，牛雙誠，丁璐，等. 面向海上目標(biāo)打擊的無人編組彈性運動規(guī)劃［J/OL］. 航空學(xué)報，doi： 10.7527/S1000-6893.2023.29455.

Li Bochen， Niu Shuangcheng， Ding Lu， et al. Unmanned Group Resilient Motion Planning for Attacking Surface Targets［J/OL］. Acta Aeronautica et Astronautica Sinica， doi： 10.7527/S1000-6893.2023.29455.（in Chinese）

［3］ Notomista G， Mayya S， Hutchinson S， et al. An Optimal Task Allocation Strategy for Heterogeneous Multi-Robot Systems［C］∥18th European Control Conference （ECC）， 2019： 2071-2076.

［4］嚴(yán)飛，祝小平，周洲，等. 考慮同時攻擊約束的多異構(gòu)無人機(jī)實時任務(wù)分配［J］. 中國科學(xué)：信息科學(xué)， 2019， 49（5）： 555-569.

Yan Fei， Zhu Xiaoping， Zhou Zhou， et al. Real-Time Task Allocation for a Heterogeneous Multi-UAV Simultaneous Attack［J］. Scien-tia Sinica （Informationis）， 2019， 49（5）： 555-569.（in Chinese）

［5］鄒智偉，鄒強(qiáng)，尹肖云，等. 基于時間協(xié)同的異型反艦導(dǎo)彈集群作戰(zhàn)目標(biāo)分配策略研究［J］. 航空兵器， 2023， 30（1）： 19-24.

Zou Zhiwei， Zou Qiang， Yin Xiaoyun， et al. Research on Allocation Strategy of Special-Shaped Anti-Ship Missile Cluster Combat Target Based on Time Coordination［J］. Aero Weaponry， 2023， 30（1）： 19-24.（in Chinese）

［6］鄭習(xí)羽，徐梓毓，王京華. 基于聚類分組的異構(gòu)多機(jī)器人任務(wù)分配算法研究［J］. 航空兵器， 2022， 29（4）： 100-109.

Zheng Xiyu， Xu Ziyu， Wang Jinghua. Research on Task Allocation of Heterogeneous Multi-Robot Based on Cluster Grouping Algorithm［J］. Aero Weaponry， 2022， 29（4）： 100-109.（in Chinese）

［7］ Neville G， Chernova S， Ravichandar H. D-ITAGS： A Dynamic Interleaved Approach to Resilient Task Allocation， Scheduling， and Motion Planning［J］. IEEE Robotics and Automation Letters， 2023， 8（2）： 1037-1044.

［8］ Zhen Z Y， Chen Y， Wen L D， et al. An Intelligent Cooperative Mission Planning Scheme of UAV Swarm in Uncertain Dynamic Environment［J］. Aerospace Science and Technology， 2020， 100： 105826.

［9］王峰，黃子路，韓孟臣，等. 基于KnCMPSO算法的異構(gòu)無人機(jī)協(xié)同多任務(wù)分配［J］. 自動化學(xué)報， 2023， 49（2）： 399-414.

Wang Feng， Huang Zilu， Han Mengchen， et al. A Knee Point Based Coevolution Multi-Objective Particle Swarm Optimization Algorithm for Heterogeneous UAV Cooperative Multi-Task Allocation［J］. Acta Automatica Sinica， 2023， 49（2）： 399-414.（in Chinese）

［10］張安，楊咪，畢文豪，等. 基于多策略GWO算法的不確定環(huán)境下異構(gòu)多無人機(jī)任務(wù)分配［J］. 航空學(xué)報， 2023， 44（8）： 327115.

Zhang An， Yang Mi， Bi Wenhao， et al. Task Allocation of Hetero-geneous Multi-UAVs in Uncertain Environment Based on Multi-Strategy Integrated GWO［J］. Acta Aeronautica et Astronautica Sinica， 2023， 44（8）： 327115.（in Chinese）

［11］陳璞，嚴(yán)飛，劉釗，等. 通信約束下異構(gòu)多無人機(jī)任務(wù)分配方法［J］. 航空學(xué)報， 2021， 42（8）： 525844.

Chen Pu， Yan Fei， Liu Zhao， et al. Communication-Constrained Task Allocation of Heterogeneous UAVs［J］. Acta Aeronautica et Astronautica Sinica， 2021， 42（8）： 525844.（in Chinese）

［12］ Zhao X Y， Zong Q， Tian B L， et al. Fast Task Allocation for He-terogeneous Unmanned Aerial Vehicles through Reinforcement Learning［J］. Aerospace Science and Technology， 2019， 92： 588-594.

［13］黃卓，徐振，郭健，等. 基于分區(qū)間強(qiáng)化學(xué)習(xí)的集群導(dǎo)彈快速任務(wù)分配［J］. 控制理論與應(yīng)用， 2023， 40（6）： 1129-1139.

Huang Zhuo， Xu Zhen， Guo Jian， et al. Fast Task Allocation for Missile Swarm Based on Sectioned Reinforcement Learning［J］. Control Theory amp; Applications， 2023， 40（6）： 1129-1139.（in Chinese）

［14］ Pope A P， Ide J S， Mic′ovic′ D， et al. Hierarchical Reinforcement Learning for Air Combat at DARPA’s AlphaDogfight Trials［J］. IEEE Transactions on Artificial Intelligence， 2023， 4（6）： 1371-1385.

［15］ Pope A P， Ide J S， Mic′ovic′ D， et al. Hierarchical Reinforcement Learning for Air-to-Air Combat［C］∥International Conference on Unmanned Aircraft Systems （ICUAS）， 2021： 275-284.

［16］ Seraj E， Chen L T， Gombolay M C. A Hierarchical Coordination Framework for Joint Perception-Action Tasks in Composite Robot Teams［J］. IEEE Transactions on Robotics， 2022， 38（1）： 139-158.

［17］ Mayya S， D’antonio D S， Saldaa D， et al. Resilient Task Allocation in Heterogeneous Multi-Robot Systems［J］. IEEE Robotics and Automation Letters， 2021， 6（2）： 1327-1334.

［18］王爽宇，申慶茂，孫銘陽，等. 基于改進(jìn)NSGA-Ⅲ算法的多無人機(jī)協(xié)同目標(biāo)分配［J/OL］. 航空兵器， doi： 10.12132/ISSN.1673-5048.2023.0222.

Wang Shuangyu， Shen Qingmao， Sun Mingyang， et al. Multi-UAV Cooperative Target Assignment Based on Improved NSGA-Ⅲ Algorithm［J/OL］. Aero Weaponry， doi： 10.12132/ISSN.1673-5048.2023.0222.（in Chinese）

Dynamic Task Allocation for Heterogeneous UAVs

Based on Task Evaluation Feedback

Zhang Youan^{1， 2}， He Ziqi2， Li Bochen2， Song Lei^2*

（1. College of Intelligent Science and Engineering， Yantai Nanshan University， Yantai 265713， China；

2. School of Electronic Information and Electrical Engineering， Shanghai Jiao Tong University， Shanghai 200240， China）

Abstract： Task allocation for heterogeneous UAVs in a dynamic battlefield environment is one of the critical techniques for rapid combat capability generation of UAVs. A dynamic task allocation method based on task execution feedback is proposed to address the challenges of task demand changes and potential feasibility issues caused by battlefield uncertainty which have not been well-solved by existing studies. By designing a task evaluation feedback module， real-time monitoring of the UAVs’ task performance is achieved， and an event triggered mechanism is utilized to respond to changing task requirements in a dynamic environment. Heterogeneous UAVs allocation is implemented based on the deep Q-learning network. By the utilizing the decoupling of task allocation and execution as well as a designed action filtering mechanism， the difficulty of training convergence caused by sparse rewards in traditional reinforcement learning is overcome， which forms a dynamic and fast real-time task response scheme. The simulation results show that the proposed method can effectively deal with task failures caused by uncertain battlefield environments， and ultimately achieve a better task completion rate than existing methods.

Key words：" UAVs；" task allocation； battlefield uncertainty； task evaluation;" sparse rewards; deep Q-learning network;" reinforcement learning