• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于任務(wù)評估反饋的異構(gòu)無人機(jī)動態(tài)任務(wù)分配

    2024-02-22 00:00:00張友安何子琦李博宸宋磊
    航空兵器 2024年6期
    關(guān)鍵詞:強(qiáng)化學(xué)習(xí)無人機(jī)

    摘 要:""""" 異構(gòu)無人機(jī)在動態(tài)戰(zhàn)場環(huán)境下的任務(wù)分配是實現(xiàn)無人機(jī)快速戰(zhàn)斗力生成的關(guān)鍵技術(shù)之一。 針對現(xiàn)有異構(gòu)無人機(jī)的任務(wù)分配方法難以響應(yīng)戰(zhàn)場不確定性帶來的任務(wù)需求變化和潛在的求解可行性問題, 提出一種基于任務(wù)評估反饋的動態(tài)任務(wù)分配方法。 通過設(shè)計任務(wù)評估反饋模塊實現(xiàn)對無人機(jī)任務(wù)執(zhí)行效能的實時監(jiān)控, 并利用事件觸發(fā)機(jī)制響應(yīng)動態(tài)環(huán)境中變化的任務(wù)需求, 基于深度Q網(wǎng)絡(luò)實現(xiàn)異構(gòu)無人機(jī)分配, 利用任務(wù)分配和執(zhí)行解耦以及動作過濾機(jī)制緩解傳統(tǒng)強(qiáng)化學(xué)習(xí)稀疏獎勵導(dǎo)致訓(xùn)練難以收斂的問題, 形成動態(tài)快速的任務(wù)實時響應(yīng)方案。 仿真結(jié)果表明, 提出方法可有效應(yīng)對不確定戰(zhàn)場環(huán)境帶來的任務(wù)失效, 最終實現(xiàn)比現(xiàn)有方法更優(yōu)的任務(wù)完成率。

    關(guān)鍵詞:"""" 無人機(jī); 任務(wù)分配; 戰(zhàn)場不確定性; 任務(wù)評估; 稀疏獎勵; 深度Q網(wǎng)絡(luò); 強(qiáng)化學(xué)習(xí)

    中圖分類號:""""" TJ760.1; V43

    文獻(xiàn)標(biāo)識碼:""" A

    文章編號:"""" 1673-5048(2024)06-0078-08

    DOI: 10.12132/ISSN.1673-5048.2024.0027

    0 引" 言

    無人機(jī)因其功能種類豐富, 適用場景廣泛, 控制自由度高等特性, 在未來軍事領(lǐng)域的應(yīng)用中被各國政府寄予厚望[1-3。 當(dāng)前, 搭載各類載荷、 機(jī)動能力不一的多型異構(gòu)無人機(jī)已列裝或具備大規(guī)模使用條件, 異構(gòu)無人機(jī)的作戰(zhàn)運用已成為亟待解決的熱點問題。 以任務(wù)為牽引, 組建符合任務(wù)需求的無人編組, 從而快速形成戰(zhàn)斗力施用于實際戰(zhàn)場環(huán)境, 是解決無人機(jī)應(yīng)用的關(guān)鍵技術(shù)之一。 通過匹配無人機(jī)能力屬性與任務(wù)需求, 實現(xiàn)對無人機(jī)的任務(wù)分配, 是組建無人編組的可行技術(shù)路線[4-6。 與常規(guī)商業(yè)用途不同, 戰(zhàn)場環(huán)境更加復(fù)雜多變, 突發(fā)事件以及天氣等不可控因素更多, 給無人編組的實際任務(wù)收益帶來了較大的不確定性[7-8。 因此針對戰(zhàn)場環(huán)境下的異構(gòu)無人機(jī)任務(wù)分配問題, 不僅要求給出滿足任務(wù)需求的任務(wù)分配方案, 同時需要能夠根據(jù)戰(zhàn)場態(tài)勢的變化以及已分配任務(wù)執(zhí)行狀態(tài)的反饋, 及時對分配方案進(jìn)行調(diào)整, 以保證無人編組能夠順利實現(xiàn)預(yù)定的作戰(zhàn)目標(biāo)。

    針對無人編組的任務(wù)分配問題, 較為傳統(tǒng)的方法大多基于優(yōu)化算法以及智能搜索算法進(jìn)行求解。 文獻(xiàn)[9]針對傳統(tǒng)目標(biāo)優(yōu)化算法難以解決混合變量和多個復(fù)雜約束的問題, 提出了一種基于拐點的協(xié)同多目標(biāo)粒子群優(yōu)化算法。 文獻(xiàn)[10]考慮不確定性因素對任務(wù)分配結(jié)果的影響, 基于模糊可信性理論提出了一種模糊機(jī)會約束規(guī)劃模型, 并采用自適應(yīng)參數(shù)調(diào)整策略等多種方法對模型進(jìn)行了優(yōu)化, 使得模型在不確定性環(huán)境下的表現(xiàn)有所提升。 文獻(xiàn)[11]提出一種基于合同網(wǎng)的分布式多無人機(jī)任務(wù)分配方法, 解決了通信約束下的異構(gòu)無人機(jī)察打任務(wù)分配問題。 上述傳統(tǒng)的優(yōu)化算法, 大多未考慮任務(wù)執(zhí)行過程的不確定性, 或者在處理環(huán)境不確定性時引入人為的主觀因素, 難以實現(xiàn)戰(zhàn)場環(huán)境下的動態(tài)任務(wù)調(diào)度。 在動態(tài)戰(zhàn)場環(huán)境下, 傳統(tǒng)的優(yōu)化方法在資源能力和復(fù)雜環(huán)境不確定性的雙重影響下, 容易出現(xiàn)實時求解不可行的問題。

    近年來, 深度強(qiáng)化學(xué)習(xí)技術(shù)的不斷發(fā)展為動態(tài)不確定環(huán)境下的任務(wù)分配問題求解提供了新的解決思路。 文獻(xiàn)[12]將任務(wù)分配問題建模為馬爾可夫決策過程, 提出了一種基于強(qiáng)化學(xué)習(xí)的任務(wù)分配方法, 能夠在考慮環(huán)境不確定性的情況下進(jìn)行任務(wù)分配, 與搜索優(yōu)化算法相比取得了更優(yōu)的求解效率。 文獻(xiàn)[13]針對集群在線任務(wù)分配存在的環(huán)境不確定、 耗時過長等問題提出了一種基于分區(qū)間強(qiáng)化學(xué)習(xí)的快速任務(wù)分配算法。 與傳統(tǒng)優(yōu)化算法相比, 上述方法在解決不確定性問題方面具有一定的優(yōu)勢, 然而仍局限于靜態(tài)問題, 通常假設(shè)在任務(wù)分配開始前就已經(jīng)獲得所有任務(wù)的全部信息, 任務(wù)執(zhí)行過程的實際狀態(tài)并未得到充分考慮。 在戰(zhàn)場對抗環(huán)境中, 實際任務(wù)需求往往難以獲得精確估計。 如擊毀某目標(biāo)建筑物所需自殺式無人機(jī)數(shù)目通常難以預(yù)知, 需要根據(jù)任務(wù)執(zhí)行過程進(jìn)行無人機(jī)動態(tài)調(diào)度和編組調(diào)整。 上述靜態(tài)任務(wù)分配缺乏對于任務(wù)執(zhí)行過程中突發(fā)事件的響應(yīng)能力, 而利用多智能體強(qiáng)化學(xué)習(xí)進(jìn)行任務(wù)需求到無人機(jī)動作的端到端生成往往存在稀疏獎勵的問題, 導(dǎo)致訓(xùn)練難以收斂[14。 針對以上問題, 基于分層解耦的方法可實現(xiàn)動態(tài)環(huán)境下的有效任務(wù)響應(yīng)[15-16。 如文獻(xiàn)[17]提出了一種根據(jù)任務(wù)執(zhí)行效能反饋對任務(wù)進(jìn)行優(yōu)化再分配的架構(gòu), 在具有較強(qiáng)外部擾動環(huán)境下, 實現(xiàn)了彈性任務(wù)分配。

    為了實現(xiàn)任務(wù)動態(tài)響應(yīng), 同時緩解強(qiáng)化學(xué)習(xí)訓(xùn)練過程存在的稀疏獎勵問題, 本文提出了一種具有分層反饋結(jié)構(gòu)的任務(wù)分配框架, 通過任務(wù)評估模塊構(gòu)建任務(wù)執(zhí)行到任務(wù)分配的反饋機(jī)制, 根據(jù)實際任務(wù)效果動態(tài)調(diào)整任務(wù)分配結(jié)果, 從而應(yīng)對實際戰(zhàn)場環(huán)境帶來的不確定性。 基于深度Q網(wǎng)絡(luò)求解任務(wù)分配問題, 利用任務(wù)評估模塊實時反饋當(dāng)前時步任務(wù)信息, 以緩解僅考慮任務(wù)完成結(jié)果導(dǎo)致的稀疏獎勵, 并設(shè)計動作過濾機(jī)制提升訓(xùn)練的收斂速率。 當(dāng)任務(wù)執(zhí)行受阻時, 該框架可根據(jù)任務(wù)執(zhí)行反饋的數(shù)據(jù)重新評估任務(wù)需求, 并更新任務(wù)分配方案, 直至總體目標(biāo)達(dá)成。 相比于文獻(xiàn)[9-13], 本文提出方法的優(yōu)勢可總結(jié)如下:

    (1)" 通過任務(wù)執(zhí)行反饋信息及時對無人編組構(gòu)成進(jìn)行調(diào)整, 充分考慮了環(huán)境不確定性對任務(wù)分配結(jié)果的影響, 實現(xiàn)對戰(zhàn)場態(tài)勢的快速動態(tài)響應(yīng), 同時避免了傳統(tǒng)優(yōu)化方法存在的求解可行性問題。

    (2)" 采用計算解耦的思想, 緩解了強(qiáng)化學(xué)習(xí)算法中稀疏獎勵導(dǎo)致訓(xùn)練難收斂的問題, 在深度Q網(wǎng)絡(luò)的基礎(chǔ)上, 引入了動作過濾機(jī)制, 提升了模型的訓(xùn)練速度和訓(xùn)練效果。

    1 無人編組動態(tài)任務(wù)分配模型

    本文主要考慮戰(zhàn)場不確定性環(huán)境下的無人編組任務(wù)分配問題, 即在給定異構(gòu)無人機(jī)能力情況和初始任務(wù)部分信息的條件下, 生成任務(wù)分配方案從而組建無人編組執(zhí)行指定任務(wù), 同時能夠根據(jù)無人編組的任務(wù)執(zhí)行效果動態(tài)調(diào)整任務(wù)分配方案以滿足實際任務(wù)需求。 其中任務(wù)分配指根據(jù)已知信息按照優(yōu)先級順序為每個任務(wù)構(gòu)建無人編組, 使得任務(wù)能夠完成且執(zhí)行成本最低。 由于在任務(wù)開始前, 難以獲得關(guān)于任務(wù)的完整信息, 且環(huán)境條件使得無人編組實際執(zhí)行效能具有不確定性, 因此需要在任務(wù)執(zhí)行過程中, 通過任務(wù)執(zhí)行評估模塊根據(jù)執(zhí)行狀況對前期估計的任務(wù)需求進(jìn)行調(diào)整, 并適時調(diào)整分配方案以動態(tài)應(yīng)對未知或突發(fā)狀況。

    1.1 任務(wù)分配

    假設(shè)共有Nk種類型的無人機(jī)可供調(diào)用, 設(shè)i種類型的無人機(jī)可供調(diào)用的數(shù)量為Nui。 不同類型的無人機(jī)具有不同的若干種能力屬性, 如隱身能力、 偵察能力等。 設(shè)Nk種類型的無人機(jī)共有Nc種能力, 由矩陣 Fu∈瘙綆Nk×Nc表示。 其中Fuij 表示第i種類型的無人機(jī)第j種能力屬性的大小。 假設(shè)無人機(jī)的能力屬性受到天氣等環(huán)境因素的影響。 給定任務(wù)周邊環(huán)境條件Env(Tk)下, 第j種能力屬性的實際效能服從高斯分布N(μjk, σjk), 其中μjk, σjk為給定的經(jīng)驗值。

    設(shè)當(dāng)前戰(zhàn)場上有Nt個需要監(jiān)視、 攻擊或驅(qū)趕的目標(biāo), 因此需要對每個目標(biāo)執(zhí)行特定戰(zhàn)術(shù)任務(wù)。 設(shè)任務(wù)間不存在相互依賴, 每個任務(wù)Tm需要由一組具有相應(yīng)能力的無人機(jī)協(xié)作完成, 如完成近距離偵察任務(wù)的一組無人機(jī)需要具備隱身、 偵察和信息傳輸?shù)哪芰Α?完成任務(wù)所需的能力使用任務(wù)能力需求矩陣Ft∈瘙綆Nt×Nc表示。 當(dāng)分配的一組無人機(jī)能夠提供任務(wù)所要求的全部能力時, 認(rèn)為該任務(wù)能夠順利執(zhí)行。 考慮資源有限條件下, 可能存在有任務(wù)無法被立即完成的情況, 因此根據(jù)任務(wù)緊迫性與重要程度, 對任務(wù)優(yōu)先級進(jìn)行評估, 優(yōu)先確保重要任務(wù)能夠完成。 設(shè)任務(wù)集合T表示當(dāng)前戰(zhàn)場中存在的所有作戰(zhàn)任務(wù), 則T={T1, T2, …, TNt}, 其中下標(biāo)表示該任務(wù)的優(yōu)先級。

    任務(wù)分配問題, 即為每個任務(wù)Tm分配一組滿足約束的無人機(jī), 使得任務(wù)能夠完成且執(zhí)行成本最低。 由此, 構(gòu)建任務(wù)m的代價函數(shù):

    Rm(dm, δ+m)=-wmdm+dm∑Ncj=1δ+m, j (1)

    代價函數(shù)由任務(wù)完成情況和資源冗余兩部分組成。 式中: wm表示任務(wù)m的優(yōu)先級權(quán)重; dm為0, 1變量, 表示任務(wù)m是否滿足其全部能力需求; δ+m, j表示任務(wù)m中能力j超出需求的程度。 考慮任務(wù)需求與環(huán)境因素影響, 建立任務(wù)分配的混合整數(shù)線性規(guī)劃問題模型:

    mina, δ+m, j, δ-m, j, b, dJ=∑Ntm=1Rm(dm, δ+m)

    s.t.

    am, -fa(Fu|Env(Tm))-, j=Ftm, j+δ+m, j-δ-m, j

    am, -fa(Fu|Env(Tm))-Ftm, j≥-M(1-bm, j)

    bm, -C-, m≥-M(1-dm)

    a-, j1≤Nui

    δ+m, j≥0, δ-m, j≥0, j∈{1, …, Nk}

    ami∈

    i∈{1, …, Nk},

    j∈{1, …, Nc}, m∈{1, …, Nt}" (2)

    式中: a∈t×Nk表示任務(wù)分配結(jié)果矩陣, am, -表示矩陣的第m行, 即任務(wù)m的分配結(jié)果; δ-m, j表示任務(wù)m的能力j不滿足需求的程度; bm, j為0, 1變量, 若任務(wù)m的能力j滿足約束要求, 則bm, j=1," 未被滿足則為0。 fa(Fu|Env(Tm))表示無人機(jī)在任務(wù)地點附近環(huán)境條件Env(Tm)下實際具備的能力; M為無限大正數(shù), 1為全1向量。 C∈Nt為任務(wù)能力特征矩陣:

    C-, m=(Ft)T·diag1vm-, m(3)

    式中: vm為(Ft)T第m列的元素之和, 即矩陣C的每一列元素之和為1。

    在上述模型中, 優(yōu)化目標(biāo)為盡可能使優(yōu)先級較高的任務(wù)需求得到滿足, 并減少資源冗余。 式(2)中第一條約束中松弛量δ+m, j, δ-m, j分別表示任務(wù)m所需能力j冗余和未被滿足的部分, 通過在目標(biāo)函數(shù)中極小化分配成功的任務(wù)的能力冗余量實現(xiàn)資源的合理分配。 式(2)中第二條約束通過引入變量bm, j對任務(wù)中單項能力是否滿足進(jìn)行標(biāo)記。 約束3通過任務(wù)能力特征矩陣C判斷該任務(wù)所需能力是否得到滿足, 并通過變量dm表示, 通過在目標(biāo)函數(shù)中對dm進(jìn)行加權(quán), 使得優(yōu)先級較高的任務(wù)需求能夠優(yōu)先被滿足。 約束4保證分配方案具有可行性。

    1.2 任務(wù)評估反饋

    考慮在戰(zhàn)場不確定性環(huán)境中, 通常難以在任務(wù)開始前獲得關(guān)于任務(wù)的全部準(zhǔn)確信息, 因此為了能夠順利完成任務(wù), 以及應(yīng)對執(zhí)行過程中的突發(fā)狀況, 需要通過任務(wù)執(zhí)行狀態(tài)對預(yù)先估計的任務(wù)需求進(jìn)行不斷調(diào)整。

    假設(shè)所有參與任務(wù)的無人機(jī)都能夠與指控中心通信。 在任務(wù)開始前根據(jù)已知情報, 評估各任務(wù)需求并給出Ft。 設(shè)無人機(jī)系統(tǒng)理論狀態(tài)滿足:

    x·sim=f(xsim)+g(xsim)u(4)

    式中: xsim為無人機(jī)理論狀態(tài); u為無人機(jī)控制輸入。 考慮到突發(fā)的惡劣天氣以及對方陣地未知的對空防御力量等狀況可能會導(dǎo)致無人機(jī)偏離預(yù)定理論軌跡, 無人機(jī)任務(wù)實際執(zhí)行狀態(tài)定義為xact, 并與任務(wù)實際情況Tr有關(guān):

    xact=J(xsim, u, Tr)(5)

    式中: Tr為未知常量。 狀態(tài)評估反饋問題可表述為, 給出無人機(jī)實際執(zhí)行狀態(tài), 通過評估函數(shù)更新任務(wù)估計需求Te:

    Te←E(xsim, xact, Te) (6)

    使得Te逐漸接近任務(wù)真實情況Tr。

    2 基于分層反饋的任務(wù)分配問題求解

    針對上述問題, 本文提出了一個基于分層反饋結(jié)構(gòu)的任務(wù)規(guī)劃框架," 如圖1所示。"" 任務(wù)分配算法基于DQN(Deep Q-Learning Network), 并利用任務(wù)執(zhí)行效能形成反饋機(jī)制。 任務(wù)評估模塊通過接受執(zhí)行層反饋的無人機(jī)狀態(tài)數(shù)據(jù), 對當(dāng)前任務(wù)的狀態(tài)進(jìn)行評估, 當(dāng)預(yù)期執(zhí)行結(jié)果與實際執(zhí)行結(jié)果出現(xiàn)偏差時, 重新估計任務(wù)實際能力需求, 同時對任務(wù)分配約束進(jìn)行修正并重新分配。 2.1 任務(wù)分配算法

    2.1.1 強(qiáng)化學(xué)習(xí)方法與基本要素

    強(qiáng)化學(xué)習(xí)方法通過智能體與環(huán)境的不斷交互, 對策略進(jìn)行不斷優(yōu)化, 通常使用馬爾可夫決策過程(MDP)對其進(jìn)行描述。 MDP可由五元組{S, A, P, R, γ}進(jìn)行表示, 其中S表示狀態(tài)空間, A表示動作空間, P表示狀態(tài)轉(zhuǎn)移概率, R表示智能體在狀態(tài)s下采取動作a獲得的瞬時獎勵, γ表示折扣因子, 用于計算累計回報。 在MDP中, 智能體觀察環(huán)境狀態(tài)s并根據(jù)策略π選擇動作a, 環(huán)境按照轉(zhuǎn)移概率過渡到下一狀態(tài)s′, 并給出獎勵R。

    在深度強(qiáng)化學(xué)習(xí)算法中, DQN是一類較為常見的算法。 DQN算法使用深度網(wǎng)絡(luò)對狀態(tài)動作價值函數(shù)Q(s, a)進(jìn)行估計, 訓(xùn)練完成后利用Q(s, a)實現(xiàn)決策; 通常使用經(jīng)驗回放和target網(wǎng)絡(luò)更新其網(wǎng)絡(luò)參數(shù), 其模型參數(shù)θ的更新方法如下:

    θ←θ+α[R+γmaxa′Q(s′, a′; θ-)-

    Q(s, a; θ)]Q(s, a; θ) (7)

    式中: α為學(xué)習(xí)率; (s, a)為當(dāng)前狀態(tài)動作對; (s′, a′)為下一時刻的狀態(tài)動作對; θ-為target網(wǎng)絡(luò)的參數(shù)。

    2.1.2 任務(wù)分配問題的馬爾可夫決策過程

    將1.1節(jié)中所述的任務(wù)分配問題建模為MDP, 其中各元素定義如下:

    (1) 狀態(tài)空間: 狀態(tài)空間表示了當(dāng)前任務(wù)分配的狀況, 針對任務(wù)分配問題, 設(shè)計狀態(tài)s為

    sTm=[n1, …, nNk, FTm1, …, FTmNf, Env(Tm)](8)

    式中: Tm表示當(dāng)前正在進(jìn)行分配的任務(wù); ni表示第i種無人機(jī)當(dāng)前可供分配的數(shù)量; FTmj表示任務(wù)Tm對于第j種能力的需求在當(dāng)前分配狀態(tài)下仍未被滿足的部分; Env(Tm)表示任務(wù)所處的環(huán)境狀態(tài)。

    (2) 動作空間: 指控中心在一次動作中, 選擇一架無人機(jī)a并分配給任務(wù)Tm:

    a∈A=[1, …, Nk](9)

    (3) 獎勵函數(shù): 獎勵函數(shù)是智能體進(jìn)行學(xué)習(xí)的重要引導(dǎo)。 考慮式(2)中提出的任務(wù)約束, 根據(jù)約束滿足的不同情況, 給予該輪分配相應(yīng)的獎勵:

    R=r1-k·w(αm, -, fa, FTm, -), w≥0

    r2·(Fua)Tsgn(FTm, -), wlt;0" (10)

    w(am, -, fa, FTm, -)=am, -fa(Fu|Env(Tm))-FTm, -am, -fa(Fu|Env(Tm))

    式中: r1, r2, k為給定的常數(shù), 且r2lt;r1。 w(αi, -, Fa, FTi, -)表示當(dāng)前能力與任務(wù)需求之間的相對關(guān)系, 當(dāng)前分配的無人編組能夠提供的能力大于任務(wù)需求時, 該值為正, w表示當(dāng)前能力冗余的比例; 若當(dāng)前分配的無人編組能夠提供的能力小于任務(wù)需求, 該值表示能力欠缺的程度。 上述獎勵函數(shù)的含義為, 當(dāng)分配結(jié)果能夠滿足任務(wù)需求時, 即任務(wù)分配完成時, 給予一個較大的獎勵, 且獎勵數(shù)值與冗余程度呈負(fù)相關(guān); 當(dāng)任務(wù)分配尚未完成時, 則計算當(dāng)前動作在需求能力和冗余能力兩個方向的增量并給予較小獎勵。 對于當(dāng)前分配所能提供的能力值尚未滿足任務(wù)需求的能力種類, 稱其為需求能力; 冗余能力則指當(dāng)前能力已經(jīng)超過任務(wù)需求的能力種類。 若當(dāng)前動作對于任務(wù)的需求能力增加量大于冗余能力增加量時, 給予微小獎勵, 否則給予微小懲罰。

    (4) 狀態(tài)轉(zhuǎn)移: 經(jīng)過一次分配動作后, 任務(wù)Tm被分配了一架a型號的無人機(jī), 相應(yīng)的可供分配的a類型的無人機(jī)數(shù)量減少, 同時任務(wù)需求相應(yīng)減少:

    na←na-1

    [FTm1, …, FTmNf]←[FTm1, …, FTmNf]-

    [0, …, 1, 0, …, 0]fa(Fu|Env(Tm))(11)

    當(dāng)i∈[1, Nc], FTmi≤0時, 本輪分配結(jié)束。

    2.1.3 動作過濾機(jī)制

    針對帶有約束的優(yōu)化問題, 本文引入了一種動作過濾機(jī)制。 通過該機(jī)制將全部動作空間中違反約束或在目標(biāo)方向上增量為0的動作剔除, 生成可行動作空間, 進(jìn)而加快Q網(wǎng)絡(luò)的訓(xùn)練速度, 同時, 保證輸出結(jié)果始終為可行解。

    設(shè)計二進(jìn)制掩碼矩陣:

    M=[m1, m2, …, mNk], mi∈{0, 1}(12)

    式中: mi=1表示在該輪迭代中, ai為可用動作, 否則, 表示動作ai違反約束或不可能獲得獎勵, 為不可用動作。 得到可行動作空間為

    Aa={ai|mi=1}(13)

    針對可用無人機(jī)數(shù)量的約束, 構(gòu)造掩碼M1:

    M1=kron1([N1, …, NNk]-[n1, …, nnk])(14)

    式中: kronn為克羅內(nèi)克脈沖函數(shù), 其定義為

    kronn(x)=1, x=n0, x≠n (15)

    進(jìn)一步, 也可以使用掩碼去除與完成該項任務(wù)無關(guān)的無人機(jī)。 構(gòu)造掩碼M2:

    M2=H(Ftm, -Fu)(16)

    式中: H(x)為單位階躍函數(shù)。 綜合M1, M2得M:

    mi=m1i*m2i (17)

    2.1.4 基于DQN的任務(wù)分配算法

    基于DQN算法, 本文采用了全連接神經(jīng)網(wǎng)絡(luò)對Q函數(shù)進(jìn)行擬合。 在訓(xùn)練初期, 智能體隨機(jī)選擇動作, 并獲得獎勵, 生成的動作記錄進(jìn)入經(jīng)驗池中用于后續(xù)的學(xué)習(xí)。 為了提高網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性和收斂性, Q網(wǎng)絡(luò)的參數(shù)按照固定時間間隔進(jìn)行更新。 同時為了提高經(jīng)驗池中具有較高經(jīng)驗價值數(shù)據(jù)的利用效率, 采用優(yōu)先經(jīng)驗回放的方式對經(jīng)驗池中的數(shù)據(jù)進(jìn)行管理和采樣。 圖2簡要描述了本文所使用的Q網(wǎng)絡(luò)的訓(xùn)練方法。

    通過訓(xùn)練得到Q網(wǎng)絡(luò)的一組權(quán)值后, 基于Q函數(shù)給出的狀態(tài)動作對價值, 針對每一個狀態(tài)s, 選擇當(dāng)前狀態(tài)

    算法1: Q網(wǎng)絡(luò)訓(xùn)練

    輸入: 采樣數(shù)量E, 目標(biāo)網(wǎng)絡(luò)更新頻率C, 最大訓(xùn)練輪數(shù)M, 學(xué)習(xí)率α等網(wǎng)絡(luò)參數(shù)

    輸出: Q網(wǎng)絡(luò)Q(·, w)

    1.初始化經(jīng)驗回放池D

    2使用隨機(jī)權(quán)重初始化網(wǎng)絡(luò)Q

    3.生成與Q網(wǎng)絡(luò)相同的target Q網(wǎng)絡(luò)

    4.當(dāng)訓(xùn)練輪數(shù)小于M時:

    5.初始化環(huán)境狀態(tài)s

    6.判斷當(dāng)前任務(wù)是否分配完成, 若未完成:

    7.計算可行動作空間Aa

    8.若訓(xùn)練步數(shù)小于K:

    9.在可行動作空間中隨機(jī)選擇動作a

    10.否則:

    11.在可行動作空間中選擇Q值最大的動作

    12.計算獎勵值R并更新環(huán)境狀態(tài)為s′

    13.將動作記錄(s, a, r, s′)存放至經(jīng)驗池中, 并更新經(jīng)驗池

    權(quán)重

    14.從經(jīng)驗池中根據(jù)權(quán)重大小抽取E條數(shù)據(jù)

    15.更新Q網(wǎng)絡(luò)權(quán)值

    16.每C步, 將Q網(wǎng)絡(luò)的參數(shù)同步至target Q網(wǎng)絡(luò)

    17.返回Q網(wǎng)絡(luò)及其權(quán)重參數(shù)

    下可行動作空間中價值最高的動作a。 根據(jù)任務(wù)優(yōu)先級由高至低為每個任務(wù)分配無人機(jī), 當(dāng)任務(wù)約束條件滿足, 則判定該任務(wù)分配完成, 開始為下一項任務(wù)分配無人機(jī)。 直至所有任務(wù)約束條件滿足, 或所有無人機(jī)被分配完畢。 算法流程如圖3所示。

    算法2: 基于DQN的任務(wù)分配算法

    輸入: 算法1中訓(xùn)練得到的Q網(wǎng)絡(luò)

    輸出: 將無人機(jī)分配至任務(wù)集合T的一組分配方案a

    1.根據(jù)任務(wù)T1初始化狀態(tài)s

    2.當(dāng)仍有無人機(jī)未分配且仍有任務(wù)尚未滿足約束時:

    3.根據(jù)當(dāng)前狀態(tài)s, 計算所有動作的狀態(tài)動作價值函數(shù)Q(s, a, w)

    4.根據(jù)當(dāng)前狀態(tài)s, 計算掩碼M, 以及可行動作空間Aa

    5.從可行動作空間Aa中選擇Q值最高的動作

    6.若當(dāng)前任務(wù)未分配完畢:

    則根據(jù)狀態(tài)轉(zhuǎn)移規(guī)則更新當(dāng)前狀態(tài)

    7.否則:

    根據(jù)下一項任務(wù)初始化狀態(tài)s

    8.返回當(dāng)前狀態(tài), 即任務(wù)分配結(jié)果

    2.2 任務(wù)評估反饋

    為了應(yīng)對未知環(huán)境, 本文在框架中建立了任務(wù)評估模塊, 并通過該模塊建立任務(wù)執(zhí)行與任務(wù)分配之間的反饋, 通過觀測無人機(jī)在實際任務(wù)過程中的表現(xiàn), 對預(yù)先估計的任務(wù)需求進(jìn)行修正, 進(jìn)而調(diào)整無人機(jī)任務(wù)分配方案, 從而實現(xiàn)對戰(zhàn)場態(tài)勢的動態(tài)響應(yīng)。

    設(shè)無人機(jī)在無外界干擾的情況下, 始終按照給定控制量運動。 基于此假設(shè), 可以通過測量無人機(jī)實際狀態(tài)與預(yù)期狀態(tài)之間的差異, 來評估任務(wù)執(zhí)行的程度。

    設(shè)系統(tǒng)狀態(tài)滿足:

    x·=f(x)+g(x)u(18)

    則給定控制量u, 系統(tǒng)理論狀態(tài)為

    xtsim=xt-1act+(f(xt-1act)+g(xt-1act)u)Δt(19)

    然而, 當(dāng)無人機(jī)集群的能力不足以克服外界擾動完成任務(wù)時, 則無人機(jī)無法完全按照給出的控制信號行進(jìn)。 如當(dāng)無人機(jī)接近任務(wù)位置時, 若當(dāng)前能力無法突破對方防御, 則無人機(jī)將難以按照預(yù)定計劃繼續(xù)推進(jìn)。 記此時無人機(jī)實際狀態(tài)為xtact:

    xtact=xt-1act+(f(xt-1act)+g(xt-1act)u)Δt+

    D(xt-1act, Ftm, -, a) (20)

    式中: D(xt-1act, Ftm, -, a)為環(huán)境擾動。 記t時刻無人機(jī)的執(zhí)行性能Pu為實際狀態(tài)變化量在理論狀態(tài)變化量方向的投影, 即

    Pu=projx·simx·act=

    (f(xt-1act)+g(xt-1act)u)Δt-xt-1act·xtact-xt-1act·cosθ (21)

    在此基礎(chǔ)上, 定義任務(wù)T的總體執(zhí)行效能Pt為該任務(wù)編隊中所有無人機(jī)執(zhí)行性能的均值:

    Pt=1Ntm∑Ntmi=1Pu(22)

    當(dāng)任務(wù)執(zhí)行效能出現(xiàn)下降時, 采集任務(wù)中所有無人機(jī)的實際運行狀態(tài)xact, 通過最小化誤差平方和對實際任務(wù)需求Ftm, -進(jìn)行估計并更新:

    Ftm, -←argminFtm, -∑Ntmi=1(xtact-(xt-1act+(f(xt-1act)+

    g(xt-1act)u)Δt+D(xt-1act, Ftm, -, a)))2(23)

    當(dāng)任務(wù)需求發(fā)生變化時, 觸發(fā)任務(wù)重分配機(jī)制, 利用2.1.4節(jié)中所述基于DQN的任務(wù)分配算法重新生成分配方案。

    3 仿真實驗

    3.1 仿真設(shè)定

    設(shè)定仿真任務(wù)區(qū)域為10 km×10 km的正方形區(qū)域[18, 仿真步長為0.1 s。 該區(qū)域內(nèi)共有三個待執(zhí)行任務(wù), 各任務(wù)實際所需的能力種類以及數(shù)值如表1所示。

    表1中不同能力的量綱不同, 能力1表示光電感知能力, 能力數(shù)值取決于無人機(jī)的光電傳感器感知范圍; 能力2表示雷達(dá)感知能力, 能力數(shù)值取決于無人機(jī)的雷達(dá)感知范圍; 能力3表示電磁干擾能力, 能力數(shù)值取決于無人機(jī)的電磁干擾的頻段和功率大??; 能力4表示火力打擊能力, 能力數(shù)值取決于無人機(jī)搭載的彈藥數(shù)和彈藥毀傷能力。 任務(wù)1為偵察任務(wù), 任務(wù)2和任務(wù)3均為察打任務(wù)。 其中, 由于敵方在任務(wù)過程中突然增加防守兵力, 任務(wù)3所需三種能力數(shù)值在t=4.5 s時均增加為25。 假設(shè)初始時刻指控中心已知任務(wù)需要的能力種類但未知實際能力需求數(shù)值, 設(shè)置任務(wù)所有能力數(shù)值初始估計為10, 并在任務(wù)執(zhí)行過程中不斷對任務(wù)能力估計值進(jìn)行修正。

    初始時, 所有無人機(jī)位于同一初始位置區(qū)域, 共有4種, 每種各15架無人機(jī)可供調(diào)用。 各無人機(jī)具有的能力屬性如表2所示。 無人機(jī)類型主要取決于其具備的能力屬性, 如類型1無人機(jī)為搭載光電傳感器和電磁干擾裝置的偵察無人機(jī), 類型2無人機(jī)為搭載雷達(dá)的偵察無人機(jī), 類型3無人機(jī)為搭載光電傳感器、 電磁干擾裝置和導(dǎo)彈的察打無人機(jī), 類型4無人機(jī)為搭載雷達(dá)和導(dǎo)彈的察打無人機(jī)。

    各類能力屬性, 在不同天氣狀況下的實際表現(xiàn)出的能力與標(biāo)稱能力的比值近似服從均值為σwhe, j、 方差為0.05的高斯分布, 不同能力屬性受不同天氣情況的影響情況如表3所示。

    派遣執(zhí)行任務(wù)的無人機(jī)在接到分配指令后從初始位置出發(fā)前往任務(wù)地點執(zhí)行任務(wù)。 設(shè)無人機(jī)的最大速度為100 m/s, 當(dāng)?shù)竭_(dá)任務(wù)點的無人機(jī)能力總和達(dá)到任務(wù)能力需求時, 認(rèn)為該任務(wù)能夠順利執(zhí)行完畢。

    3.2 任務(wù)分配算法訓(xùn)練結(jié)果

    實驗設(shè)定的超參數(shù)如表4所示。

    根據(jù)表4所示參數(shù), 對含動作過濾機(jī)制和不含動作過濾機(jī)制的算法分別進(jìn)行60 000輪訓(xùn)練, 每200個回合計算一次單回合的平均獎勵, 訓(xùn)練過程中平均獎勵的變化曲線如圖4所示。

    由上圖可知, 算法在約25 000回合后達(dá)到收斂。 相比于無動作過濾機(jī)制的算法, 有動作過濾機(jī)制的算法在訓(xùn)練過程中獎勵收益更為平穩(wěn), 平均值也更高。

    3.3 算法性能分析

    為了對本文所提出算法的性能進(jìn)行分析, 利用訓(xùn)練后得到的模型驅(qū)動無人機(jī)執(zhí)行任務(wù), 測試場景設(shè)置與3.1節(jié)保持一致。 所有無人機(jī)假設(shè)均從固定初始位置起飛, 任務(wù)執(zhí)行過程的關(guān)鍵時間節(jié)點截圖如圖5所示。

    圖5中L1、 L2、 L3和L4分別代表類型1、 類型2、 類型3和類型4的無人機(jī), 無人機(jī)軌跡顏色與其類型對應(yīng), 藍(lán)色圓形代表三個任務(wù)T1、 T2和T3。 以無人機(jī)為圓心的圓表示其感知范圍, 與任務(wù)過程對應(yīng)的三個任務(wù)的任務(wù)效能評估結(jié)果以及任務(wù)需求滿足情況如圖6~8所示。

    由圖5(a)可知, t=0.6 s時, 三架1型無人機(jī)、 一架2型無人機(jī)和兩架4型無人機(jī)被分配給T1; 一架2型無人機(jī)和兩架4型無人機(jī)被分配給T2; 兩架1型無人機(jī)、" 一架3型無人機(jī)和兩架4型無人機(jī)被分配給T3。 此時的分配基于估計的任務(wù)需求而非實際的任務(wù)需求, 因此在圖6~8中, 在初始階段三個任務(wù)的實際需求都未被分配的無人機(jī)能力滿足。 圖6(a)中, t=2.1 s時, 分配給T1的無人編組受到環(huán)境影響導(dǎo)致估計的任務(wù)性能發(fā)生顯著下降, 此時算法對任務(wù)需求進(jìn)行重估計, 并對無人機(jī)進(jìn)行重分配。 由圖5(b)可知, 增加三架1型無人機(jī)、 一架2型無人機(jī)和一架4型無人機(jī)執(zhí)行任務(wù)T1。 圖6(b)中, t=2.2 s時, 新增的無人機(jī)形成的新的無人編組已經(jīng)達(dá)到任務(wù)T1的實際需求。 圖5(c)中, 已到達(dá)T1任務(wù)位置的無人機(jī)感知范圍無法完全覆蓋目標(biāo)區(qū)域, 而在圖5(d)中, 后續(xù)分配的無人機(jī)具備更大的感知范圍, 整個無人機(jī)編組最終成功實現(xiàn)對目標(biāo)區(qū)域的全覆蓋。 類似地, 圖7(a)中, t=2.9 s時, 分配給T2的無人編組任務(wù)進(jìn)程受阻, 重分配后增加一架2型無人機(jī)和兩架4型無人機(jī)執(zhí)行T2。 圖7(b)中, 負(fù)責(zé)任務(wù)T2的編組在t=3.2 s后能力已超過實際任務(wù)需求。 因此, 執(zhí)行T2的無人編組滿足任務(wù)需求, 在圖5(d)中, 該編組發(fā)現(xiàn)目標(biāo)且對目標(biāo)形成了打擊(無人機(jī)和目標(biāo)距離小于彈藥打擊范圍)。 由圖8(b)可知, 除環(huán)境干擾導(dǎo)致的任務(wù)性能受阻外, t=4.5 s時, 原有任務(wù)需求由10增長為25。 盡管無人編組經(jīng)過重分配在t=4.5 s之前已經(jīng)滿足了原有任務(wù)需求, 但是由于需求的變化, 無人編組的能力已不足以完成原有任務(wù)。 圖8(a)中, 分配給T3的無人編組任務(wù)進(jìn)程受阻, 重分配后增加一架1型無人機(jī)、 一架3型無人機(jī)和一架4型無人機(jī)執(zhí)行T3, 對應(yīng)可視化界面見圖5(d)。 由圖8(b)可知, t=6.3 s之后, 新增的任務(wù)需求再次被滿足, 任務(wù)T3也可被順利完成。 當(dāng)算法不具備反饋機(jī)制時, 其任務(wù)執(zhí)行情況如圖9~11所示, 在任務(wù)效能出現(xiàn)下降后由于未能及時調(diào)整分配做出響應(yīng), 導(dǎo)致任務(wù)效能迅速下降, 最終任務(wù)未能執(zhí)行成功。

    4 結(jié)" 論

    針對動態(tài)戰(zhàn)場環(huán)境下異構(gòu)無人機(jī)的任務(wù)分配問題, 在考慮任務(wù)執(zhí)行過程和任務(wù)需求的不確定性的基礎(chǔ)上, 設(shè)計了一種基于任務(wù)評估反饋的異構(gòu)無人機(jī)動態(tài)任務(wù)分配方法, 利用全連接神經(jīng)網(wǎng)絡(luò)對Q函數(shù)進(jìn)行擬合生成任務(wù)分配方案, 并通過任務(wù)分配執(zhí)行解耦設(shè)計避免稀疏獎勵對訓(xùn)練過程收斂速度的影響。 仿真實驗結(jié)果表明, 該方法能夠較為有效地應(yīng)對外界因素導(dǎo)致無人機(jī)執(zhí)行任務(wù)效能下降的情況, 通過反饋機(jī)制實現(xiàn)任務(wù)重分配, 從而根據(jù)任務(wù)實際需求調(diào)整任務(wù)編成, 最終實現(xiàn)較高的任務(wù)完成率。

    本文的工作基于集中式任務(wù)分配與調(diào)度, 對通信網(wǎng)絡(luò)的依賴程度較高。 當(dāng)任務(wù)環(huán)境較為惡劣時, 無人機(jī)與指控中心的通信穩(wěn)定性往往難以保證, 任務(wù)評估反饋的結(jié)果可能難以實時回傳至指控中心。 在這種情況下, 本文提出的方法在任務(wù)響應(yīng)方面可能會存在較大的延時。 未來將研究分布式、 自組織的任務(wù)分配方法, 利用歷史任務(wù)數(shù)據(jù)構(gòu)建典型任務(wù)場景庫, 結(jié)合模仿學(xué)習(xí)等方法訓(xùn)練無人編組的動態(tài)組織與分配調(diào)整策略, 并嘗試?yán)幂^少的通信次數(shù)實現(xiàn)有效任務(wù)協(xié)同。

    參考文獻(xiàn):

    [1] 李鵬舉, 毛鵬軍, 耿乾, 等. 無人機(jī)集群技術(shù)研究現(xiàn)狀與趨勢[J]. 航空兵器, 2020, 27(4): 25-32.

    Li Pengju, Mao Pengjun, Geng Qian, et al. Research Status and Trend of UAV Swarm Technology[J]. Aero Weaponry, 2020, 27(4): 25-32.(in Chinese)

    [2] 李博宸, 牛雙誠, 丁璐, 等. 面向海上目標(biāo)打擊的無人編組彈性運動規(guī)劃[J/OL]. 航空學(xué)報,doi: 10.7527/S1000-6893.2023.29455.

    Li Bochen, Niu Shuangcheng, Ding Lu, et al. Unmanned Group Resilient Motion Planning for Attacking Surface Targets[J/OL]. Acta Aeronautica et Astronautica Sinica, doi: 10.7527/S1000-6893.2023.29455.(in Chinese)

    [3] Notomista G, Mayya S, Hutchinson S, et al. An Optimal Task Allocation Strategy for Heterogeneous Multi-Robot Systems[C]∥18th European Control Conference (ECC) , 2019: 2071-2076.

    [4] 嚴(yán)飛, 祝小平, 周洲, 等. 考慮同時攻擊約束的多異構(gòu)無人機(jī)實時任務(wù)分配[J]. 中國科學(xué): 信息科學(xué), 2019, 49(5): 555-569.

    Yan Fei, Zhu Xiaoping, Zhou Zhou, et al. Real-Time Task Allocation for a Heterogeneous Multi-UAV Simultaneous Attack[J]. Scien-tia Sinica (Informationis), 2019, 49(5): 555-569.(in Chinese)

    [5] 鄒智偉, 鄒強(qiáng), 尹肖云, 等. 基于時間協(xié)同的異型反艦導(dǎo)彈集群作戰(zhàn)目標(biāo)分配策略研究[J]. 航空兵器, 2023, 30(1): 19-24.

    Zou Zhiwei, Zou Qiang, Yin Xiaoyun, et al. Research on Allocation Strategy of Special-Shaped Anti-Ship Missile Cluster Combat Target Based on Time Coordination[J]. Aero Weaponry, 2023, 30(1): 19-24.(in Chinese)

    [6] 鄭習(xí)羽, 徐梓毓, 王京華. 基于聚類分組的異構(gòu)多機(jī)器人任務(wù)分配算法研究[J]. 航空兵器, 2022, 29(4): 100-109.

    Zheng Xiyu, Xu Ziyu, Wang Jinghua. Research on Task Allocation of Heterogeneous Multi-Robot Based on Cluster Grouping Algorithm[J]. Aero Weaponry, 2022, 29(4): 100-109.(in Chinese)

    [7] Neville G, Chernova S, Ravichandar H. D-ITAGS: A Dynamic Interleaved Approach to Resilient Task Allocation, Scheduling, and Motion Planning[J]. IEEE Robotics and Automation Letters, 2023, 8(2): 1037-1044.

    [8] Zhen Z Y, Chen Y, Wen L D, et al. An Intelligent Cooperative Mission Planning Scheme of UAV Swarm in Uncertain Dynamic Environment[J]. Aerospace Science and Technology, 2020, 100: 105826.

    [9] 王峰, 黃子路, 韓孟臣, 等. 基于KnCMPSO算法的異構(gòu)無人機(jī)協(xié)同多任務(wù)分配[J]. 自動化學(xué)報, 2023, 49(2): 399-414.

    Wang Feng, Huang Zilu, Han Mengchen, et al. A Knee Point Based Coevolution Multi-Objective Particle Swarm Optimization Algorithm for Heterogeneous UAV Cooperative Multi-Task Allocation[J]. Acta Automatica Sinica, 2023, 49(2): 399-414.(in Chinese)

    [10] 張安, 楊咪, 畢文豪, 等. 基于多策略GWO算法的不確定環(huán)境下異構(gòu)多無人機(jī)任務(wù)分配[J]. 航空學(xué)報, 2023, 44(8): 327115.

    Zhang An, Yang Mi, Bi Wenhao, et al. Task Allocation of Hetero-geneous Multi-UAVs in Uncertain Environment Based on Multi-Strategy Integrated GWO[J]. Acta Aeronautica et Astronautica Sinica, 2023, 44(8): 327115.(in Chinese)

    [11] 陳璞, 嚴(yán)飛, 劉釗, 等. 通信約束下異構(gòu)多無人機(jī)任務(wù)分配方法[J]. 航空學(xué)報, 2021, 42(8): 525844.

    Chen Pu, Yan Fei, Liu Zhao, et al. Communication-Constrained Task Allocation of Heterogeneous UAVs[J]. Acta Aeronautica et Astronautica Sinica, 2021, 42(8): 525844.(in Chinese)

    [12] Zhao X Y, Zong Q, Tian B L, et al. Fast Task Allocation for He-terogeneous Unmanned Aerial Vehicles through Reinforcement Learning[J]. Aerospace Science and Technology, 2019, 92: 588-594.

    [13] 黃卓, 徐振, 郭健, 等. 基于分區(qū)間強(qiáng)化學(xué)習(xí)的集群導(dǎo)彈快速任務(wù)分配[J]. 控制理論與應(yīng)用, 2023, 40(6): 1129-1139.

    Huang Zhuo, Xu Zhen, Guo Jian, et al. Fast Task Allocation for Missile Swarm Based on Sectioned Reinforcement Learning[J]. Control Theory amp; Applications, 2023, 40(6): 1129-1139.(in Chinese)

    [14] Pope A P, Ide J S, Mic′ovic′ D, et al. Hierarchical Reinforcement Learning for Air Combat at DARPA’s AlphaDogfight Trials[J]. IEEE Transactions on Artificial Intelligence, 2023, 4(6): 1371-1385.

    [15] Pope A P, Ide J S, Mic′ovic′ D, et al. Hierarchical Reinforcement Learning for Air-to-Air Combat[C]∥International Conference on Unmanned Aircraft Systems (ICUAS), 2021: 275-284.

    [16] Seraj E, Chen L T, Gombolay M C. A Hierarchical Coordination Framework for Joint Perception-Action Tasks in Composite Robot Teams[J]. IEEE Transactions on Robotics, 2022, 38(1): 139-158.

    [17] Mayya S, D’antonio D S, Saldaa D, et al. Resilient Task Allocation in Heterogeneous Multi-Robot Systems[J]. IEEE Robotics and Automation Letters, 2021, 6(2): 1327-1334.

    [18] 王爽宇, 申慶茂, 孫銘陽, 等. 基于改進(jìn)NSGA-Ⅲ算法的多無人機(jī)協(xié)同目標(biāo)分配[J/OL]. 航空兵器, doi: 10.12132/ISSN.1673-5048.2023.0222.

    Wang Shuangyu, Shen Qingmao, Sun Mingyang, et al. Multi-UAV Cooperative Target Assignment Based on Improved NSGA-Ⅲ Algorithm[J/OL]. Aero Weaponry, doi: 10.12132/ISSN.1673-5048.2023.0222.(in Chinese)

    Dynamic Task Allocation for Heterogeneous UAVs

    Based on Task Evaluation Feedback

    Zhang Youan1, 2, He Ziqi2, Li Bochen2, Song Lei2*

    (1. College of Intelligent Science and Engineering, Yantai Nanshan University, Yantai 265713, China;

    2. School of Electronic Information and Electrical Engineering, Shanghai Jiao Tong University, Shanghai 200240, China)

    Abstract: Task allocation for heterogeneous UAVs in a dynamic battlefield environment is one of the critical techniques for rapid combat capability generation of UAVs. A dynamic task allocation method based on task execution feedback is proposed to address the challenges of task demand changes and potential feasibility issues caused by battlefield uncertainty which have not been well-solved by existing studies. By designing a task evaluation feedback module, real-time monitoring of the UAVs’ task performance is achieved, and an event triggered mechanism is utilized to respond to changing task requirements in a dynamic environment. Heterogeneous UAVs allocation is implemented based on the deep Q-learning network. By the utilizing the decoupling of task allocation and execution as well as a designed action filtering mechanism, the difficulty of training convergence caused by sparse rewards in traditional reinforcement learning is overcome, which forms a dynamic and fast real-time task response scheme. The simulation results show that the proposed method can effectively deal with task failures caused by uncertain battlefield environments, and ultimately achieve a better task completion rate than existing methods.

    Key words:" UAVs;" task allocation; battlefield uncertainty; task evaluation;" sparse rewards; deep Q-learning network;" reinforcement learning

    猜你喜歡
    強(qiáng)化學(xué)習(xí)無人機(jī)
    智能車自主避障路徑規(guī)劃研究綜述
    一種記憶可修剪型仿生機(jī)器人的速度跟蹤算法研究
    基于強(qiáng)化學(xué)習(xí)的在線訂單配送時隙運能分配
    論“以讀促寫”在初中英語寫作教學(xué)中的應(yīng)用
    智能交通車流自動導(dǎo)引系統(tǒng)
    分布式系統(tǒng)中基于非合作博弈的調(diào)度算法
    高職院校新開設(shè)無人機(jī)專業(yè)的探討
    人間(2016年26期)2016-11-03 17:52:40
    利用無人機(jī)進(jìn)行航測工作的方式方法
    一種適用于輸電線路跨線牽引無人機(jī)的飛行方案設(shè)計
    科技視界(2016年22期)2016-10-18 14:30:27
    淺析無人機(jī)技術(shù)在我國的發(fā)展前景
    日韩欧美三级三区| 国产精品久久久久成人av| 怎么达到女性高潮| 啦啦啦在线免费观看视频4| 天天躁日日躁夜夜躁夜夜| 国产高清视频在线播放一区| 99re6热这里在线精品视频| 亚洲国产精品一区二区三区在线| 国产亚洲欧美98| 黄色怎么调成土黄色| 9热在线视频观看99| 村上凉子中文字幕在线| 久久人妻熟女aⅴ| 久久久精品国产亚洲av高清涩受| 啦啦啦视频在线资源免费观看| 精品国产超薄肉色丝袜足j| 人妻 亚洲 视频| 在线看a的网站| 国产成人免费观看mmmm| 欧美国产精品va在线观看不卡| av线在线观看网站| 久久中文字幕人妻熟女| 久久性视频一级片| 久久久久久久久免费视频了| 丰满饥渴人妻一区二区三| 精品国产美女av久久久久小说| 亚洲一码二码三码区别大吗| 久久久久精品国产欧美久久久| 色婷婷久久久亚洲欧美| 两个人免费观看高清视频| 国产成人精品无人区| 亚洲成国产人片在线观看| 91在线观看av| 国产一区有黄有色的免费视频| 久久中文字幕一级| 亚洲综合色网址| 欧美乱色亚洲激情| 国产淫语在线视频| 午夜福利在线观看吧| 国产激情久久老熟女| 国产精品久久久久成人av| 久久久国产欧美日韩av| cao死你这个sao货| 国产高清videossex| 曰老女人黄片| 亚洲国产看品久久| 在线观看午夜福利视频| 国产人伦9x9x在线观看| 黑人巨大精品欧美一区二区mp4| 久久久精品免费免费高清| 天天操日日干夜夜撸| 人妻久久中文字幕网| 亚洲va日本ⅴa欧美va伊人久久| tube8黄色片| 狠狠婷婷综合久久久久久88av| 999久久久国产精品视频| 国产人伦9x9x在线观看| 欧美日韩亚洲高清精品| 一级毛片女人18水好多| 国产成人免费无遮挡视频| 久久精品亚洲熟妇少妇任你| 国产99白浆流出| 国产精品久久久av美女十八| 在线免费观看的www视频| 男女下面插进去视频免费观看| 亚洲人成电影观看| 国产成人一区二区三区免费视频网站| av网站在线播放免费| 色尼玛亚洲综合影院| 久久人妻av系列| 亚洲av成人一区二区三| 777久久人妻少妇嫩草av网站| 国产欧美日韩一区二区三区在线| 国产不卡一卡二| 90打野战视频偷拍视频| 丝袜人妻中文字幕| 99热网站在线观看| 亚洲情色 制服丝袜| av不卡在线播放| 飞空精品影院首页| 午夜福利乱码中文字幕| 国产三级黄色录像| 99国产精品一区二区蜜桃av | 国产乱人伦免费视频| 亚洲少妇的诱惑av| 天堂动漫精品| 色婷婷av一区二区三区视频| 香蕉久久夜色| 国产欧美日韩一区二区三| 免费看十八禁软件| 一级毛片精品| 精品人妻1区二区| 久久人妻熟女aⅴ| 欧美另类亚洲清纯唯美| 动漫黄色视频在线观看| 日韩熟女老妇一区二区性免费视频| 99久久国产精品久久久| 曰老女人黄片| 岛国毛片在线播放| 久久草成人影院| 激情在线观看视频在线高清 | 丁香六月欧美| 日本欧美视频一区| 国产精品偷伦视频观看了| 黄色怎么调成土黄色| 18禁观看日本| 69av精品久久久久久| 国产精品欧美亚洲77777| 久热爱精品视频在线9| 国产91精品成人一区二区三区| 亚洲五月婷婷丁香| 欧美乱码精品一区二区三区| 丰满的人妻完整版| 无人区码免费观看不卡| 97人妻天天添夜夜摸| 热99久久久久精品小说推荐| 一级片免费观看大全| 免费不卡黄色视频| 少妇猛男粗大的猛烈进出视频| 国产99白浆流出| 午夜福利,免费看| 亚洲aⅴ乱码一区二区在线播放 | 久久久国产成人免费| 中文字幕人妻熟女乱码| 麻豆国产av国片精品| 人妻久久中文字幕网| 亚洲成人手机| 亚洲成人免费电影在线观看| 丁香欧美五月| 久久久国产精品麻豆| 国产精品成人在线| av网站在线播放免费| 少妇猛男粗大的猛烈进出视频| 麻豆乱淫一区二区| 欧美在线黄色| 久久久久精品人妻al黑| 日韩大码丰满熟妇| 50天的宝宝边吃奶边哭怎么回事| 在线视频色国产色| 欧美成狂野欧美在线观看| 一区二区三区国产精品乱码| 国产精品久久久av美女十八| 欧美色视频一区免费| 成人精品一区二区免费| 亚洲片人在线观看| 国产国语露脸激情在线看| 国产成+人综合+亚洲专区| 国产主播在线观看一区二区| 久久久精品国产亚洲av高清涩受| 麻豆成人av在线观看| www.999成人在线观看| 无人区码免费观看不卡| 亚洲欧美日韩另类电影网站| 久久香蕉国产精品| 法律面前人人平等表现在哪些方面| 一二三四在线观看免费中文在| 天堂动漫精品| 高清av免费在线| 天堂俺去俺来也www色官网| 女人久久www免费人成看片| 亚洲精品乱久久久久久| 老司机影院毛片| 欧美一级毛片孕妇| 欧美 日韩 精品 国产| 少妇裸体淫交视频免费看高清 | xxxhd国产人妻xxx| 国产真人三级小视频在线观看| 免费看十八禁软件| 亚洲专区字幕在线| 久久久久精品人妻al黑| 亚洲第一欧美日韩一区二区三区| 亚洲午夜精品一区,二区,三区| 亚洲少妇的诱惑av| 亚洲熟妇中文字幕五十中出 | 女人被狂操c到高潮| 亚洲专区国产一区二区| 日韩视频一区二区在线观看| 国产精品永久免费网站| 涩涩av久久男人的天堂| 桃红色精品国产亚洲av| 色婷婷久久久亚洲欧美| www.999成人在线观看| 国产97色在线日韩免费| 亚洲精品中文字幕在线视频| 亚洲av第一区精品v没综合| 制服人妻中文乱码| 国产在线一区二区三区精| 精品福利永久在线观看| 啦啦啦视频在线资源免费观看| 巨乳人妻的诱惑在线观看| 超色免费av| 一区二区三区国产精品乱码| 亚洲第一青青草原| 久久精品国产99精品国产亚洲性色 | 99热只有精品国产| e午夜精品久久久久久久| 一边摸一边抽搐一进一出视频| 十八禁网站免费在线| 亚洲一区高清亚洲精品| 成人av一区二区三区在线看| 亚洲av第一区精品v没综合| 黑人欧美特级aaaaaa片| 国产精品久久久av美女十八| 三级毛片av免费| 老司机在亚洲福利影院| 丝袜美腿诱惑在线| 国产精品一区二区在线不卡| 免费少妇av软件| 制服诱惑二区| 欧美激情久久久久久爽电影 | 热99久久久久精品小说推荐| 亚洲第一欧美日韩一区二区三区| 久久人人97超碰香蕉20202| 99国产精品一区二区蜜桃av | 满18在线观看网站| 亚洲欧美一区二区三区久久| 亚洲熟妇中文字幕五十中出 | 手机成人av网站| 男女床上黄色一级片免费看| 色尼玛亚洲综合影院| 人人妻,人人澡人人爽秒播| 久久精品成人免费网站| 超碰成人久久| 一个人免费在线观看的高清视频| 一级毛片女人18水好多| 18禁国产床啪视频网站| 777米奇影视久久| 国产成人欧美| 色精品久久人妻99蜜桃| 757午夜福利合集在线观看| 亚洲av成人av| 国产人伦9x9x在线观看| 久久狼人影院| 十分钟在线观看高清视频www| 精品国产亚洲在线| 1024视频免费在线观看| 色综合婷婷激情| 日韩制服丝袜自拍偷拍| 91精品三级在线观看| 免费观看a级毛片全部| 一区二区三区国产精品乱码| 日韩制服丝袜自拍偷拍| 国产有黄有色有爽视频| 老司机午夜福利在线观看视频| 丝袜在线中文字幕| 国产成人影院久久av| av电影中文网址| 午夜福利,免费看| 精品午夜福利视频在线观看一区| 新久久久久国产一级毛片| 日韩大码丰满熟妇| 国产精品99久久99久久久不卡| 国产亚洲欧美在线一区二区| 久久久久久久久免费视频了| 国产欧美日韩一区二区三| 最新在线观看一区二区三区| 午夜视频精品福利| 成年人黄色毛片网站| 欧美激情久久久久久爽电影 | 亚洲成av片中文字幕在线观看| 两人在一起打扑克的视频| 一区二区三区激情视频| 亚洲黑人精品在线| av电影中文网址| 捣出白浆h1v1| 国产在线精品亚洲第一网站| 国产精品国产av在线观看| 十分钟在线观看高清视频www| 黄色 视频免费看| 亚洲精华国产精华精| 亚洲欧美一区二区三区久久| 99国产精品免费福利视频| 亚洲avbb在线观看| 天天躁狠狠躁夜夜躁狠狠躁| x7x7x7水蜜桃| 妹子高潮喷水视频| av网站免费在线观看视频| 亚洲av成人一区二区三| 亚洲精品粉嫩美女一区| 黄片播放在线免费| 欧美午夜高清在线| 熟女少妇亚洲综合色aaa.| 人人妻,人人澡人人爽秒播| 如日韩欧美国产精品一区二区三区| 老司机在亚洲福利影院| 大型av网站在线播放| 精品卡一卡二卡四卡免费| www.999成人在线观看| 国产精品永久免费网站| 久久精品aⅴ一区二区三区四区| av片东京热男人的天堂| 精品国产超薄肉色丝袜足j| 久久久久久久久久久久大奶| 成年人午夜在线观看视频| 国产精品九九99| 性少妇av在线| 国产精品99久久99久久久不卡| 亚洲av日韩精品久久久久久密| 丰满迷人的少妇在线观看| av在线播放免费不卡| 女人精品久久久久毛片| 丝瓜视频免费看黄片| 男人操女人黄网站| 国产精品免费视频内射| 51午夜福利影视在线观看| 9191精品国产免费久久| 久久久国产精品麻豆| 亚洲精品久久午夜乱码| 91精品三级在线观看| 国产片内射在线| 亚洲欧美色中文字幕在线| 国产国语露脸激情在线看| 久久婷婷成人综合色麻豆| 最新的欧美精品一区二区| 老司机在亚洲福利影院| 国产精品 国内视频| 别揉我奶头~嗯~啊~动态视频| 国产精品国产高清国产av | 亚洲精品成人av观看孕妇| 满18在线观看网站| 在线十欧美十亚洲十日本专区| 老司机影院毛片| 国产成人免费无遮挡视频| 亚洲熟妇中文字幕五十中出 | 超碰97精品在线观看| 亚洲五月天丁香| 免费在线观看视频国产中文字幕亚洲| 日韩欧美免费精品| 亚洲中文日韩欧美视频| 91成年电影在线观看| 精品国产乱子伦一区二区三区| 日韩 欧美 亚洲 中文字幕| 成人国语在线视频| 精品久久久久久,| 极品人妻少妇av视频| ponron亚洲| 制服诱惑二区| 免费在线观看影片大全网站| 中文字幕人妻熟女乱码| 91字幕亚洲| 在线观看免费午夜福利视频| 日韩免费av在线播放| 久久香蕉激情| 18禁观看日本| 精品久久久久久电影网| 久久人人97超碰香蕉20202| 久99久视频精品免费| 亚洲国产欧美日韩在线播放| 一级作爱视频免费观看| 精品电影一区二区在线| 久久这里只有精品19| 自线自在国产av| av福利片在线| 欧美+亚洲+日韩+国产| 免费在线观看黄色视频的| 女人被躁到高潮嗷嗷叫费观| 免费在线观看黄色视频的| 午夜视频精品福利| 热99re8久久精品国产| 午夜精品国产一区二区电影| 男人操女人黄网站| 999久久久国产精品视频| 亚洲人成电影免费在线| 纯流量卡能插随身wifi吗| 欧美人与性动交α欧美精品济南到| 国产99白浆流出| 欧美成狂野欧美在线观看| 热re99久久精品国产66热6| 桃红色精品国产亚洲av| 超碰97精品在线观看| 午夜精品在线福利| 日韩免费av在线播放| tocl精华| 伊人久久大香线蕉亚洲五| 女警被强在线播放| 国产男靠女视频免费网站| e午夜精品久久久久久久| 精品亚洲成a人片在线观看| 人人妻人人澡人人看| 自线自在国产av| 美女 人体艺术 gogo| www.自偷自拍.com| 欧美丝袜亚洲另类 | ponron亚洲| 日本一区二区免费在线视频| 黑人巨大精品欧美一区二区蜜桃| 极品人妻少妇av视频| 男女午夜视频在线观看| 大码成人一级视频| 两个人免费观看高清视频| www.熟女人妻精品国产| 亚洲成av片中文字幕在线观看| 人人妻人人添人人爽欧美一区卜| 99在线人妻在线中文字幕 | 在线看a的网站| 下体分泌物呈黄色| 高清毛片免费观看视频网站 | 国产亚洲精品第一综合不卡| 大码成人一级视频| 国产免费av片在线观看野外av| 成人影院久久| 欧美日本中文国产一区发布| 中文字幕高清在线视频| 日韩欧美免费精品| 国产乱人伦免费视频| 99国产精品一区二区蜜桃av | 天天添夜夜摸| 国产高清videossex| 天天躁狠狠躁夜夜躁狠狠躁| 老司机福利观看| 精品视频人人做人人爽| 丰满人妻熟妇乱又伦精品不卡| 18禁国产床啪视频网站| 99精品在免费线老司机午夜| 久久久国产精品麻豆| 精品久久久精品久久久| 精品福利永久在线观看| 丰满饥渴人妻一区二区三| 久9热在线精品视频| 91字幕亚洲| 两人在一起打扑克的视频| 国产成人系列免费观看| 高清在线国产一区| 99国产精品免费福利视频| 免费一级毛片在线播放高清视频 | 老汉色av国产亚洲站长工具| 在线国产一区二区在线| 在线看a的网站| 国产精品一区二区精品视频观看| 欧美精品一区二区免费开放| 99久久人妻综合| 首页视频小说图片口味搜索| 两个人免费观看高清视频| 久久热在线av| 久久精品人人爽人人爽视色| 国产精品乱码一区二三区的特点 | 国产亚洲精品久久久久5区| 国产精品国产高清国产av | av线在线观看网站| 老司机福利观看| 久久天堂一区二区三区四区| 啦啦啦在线免费观看视频4| 国产伦人伦偷精品视频| 9热在线视频观看99| 又大又爽又粗| 大型黄色视频在线免费观看| 精品欧美一区二区三区在线| a级片在线免费高清观看视频| 成人18禁高潮啪啪吃奶动态图| 成年动漫av网址| 少妇的丰满在线观看| 国产深夜福利视频在线观看| 99久久精品国产亚洲精品| 精品一区二区三卡| 久久久久久久久免费视频了| 国产男女超爽视频在线观看| a级毛片黄视频| 亚洲五月婷婷丁香| 老熟女久久久| 大片电影免费在线观看免费| 亚洲久久久国产精品| 99久久99久久久精品蜜桃| 亚洲av日韩在线播放| 亚洲专区国产一区二区| 在线观看免费午夜福利视频| 18禁观看日本| 欧美色视频一区免费| 午夜福利影视在线免费观看| 久热爱精品视频在线9| 精品国产乱码久久久久久男人| 中文字幕高清在线视频| 天堂动漫精品| 亚洲情色 制服丝袜| 国产又色又爽无遮挡免费看| 免费在线观看亚洲国产| 妹子高潮喷水视频| 色精品久久人妻99蜜桃| 国产免费男女视频| 午夜福利在线免费观看网站| 日日摸夜夜添夜夜添小说| 91精品三级在线观看| 人人妻人人添人人爽欧美一区卜| 国产精品免费一区二区三区在线 | 在线观看舔阴道视频| 人人妻人人澡人人爽人人夜夜| 丁香六月欧美| 国产精品.久久久| 免费一级毛片在线播放高清视频 | 精品少妇一区二区三区视频日本电影| cao死你这个sao货| 下体分泌物呈黄色| 男人操女人黄网站| 久久久久久免费高清国产稀缺| 十八禁人妻一区二区| 久久香蕉精品热| 18在线观看网站| 亚洲三区欧美一区| 成人手机av| 中文亚洲av片在线观看爽 | 手机成人av网站| 18在线观看网站| av线在线观看网站| www.熟女人妻精品国产| 人人妻人人澡人人爽人人夜夜| 手机成人av网站| 亚洲一卡2卡3卡4卡5卡精品中文| 亚洲国产毛片av蜜桃av| 亚洲情色 制服丝袜| 俄罗斯特黄特色一大片| 中文亚洲av片在线观看爽 | 国产免费av片在线观看野外av| 中文字幕av电影在线播放| 亚洲av熟女| 亚洲国产欧美日韩在线播放| 91麻豆av在线| 久久久水蜜桃国产精品网| 免费日韩欧美在线观看| 一区在线观看完整版| 亚洲国产毛片av蜜桃av| 50天的宝宝边吃奶边哭怎么回事| 男女之事视频高清在线观看| 精品国产超薄肉色丝袜足j| 在线av久久热| 欧美黑人欧美精品刺激| 无限看片的www在线观看| 在线观看免费日韩欧美大片| 久久国产乱子伦精品免费另类| 精品第一国产精品| 中文字幕人妻丝袜制服| 国产无遮挡羞羞视频在线观看| 成人国语在线视频| 亚洲久久久国产精品| 欧美性长视频在线观看| 国产熟女午夜一区二区三区| 国产一区在线观看成人免费| 久久青草综合色| 亚洲一码二码三码区别大吗| ponron亚洲| www.精华液| 国产免费现黄频在线看| 在线观看66精品国产| x7x7x7水蜜桃| 国产精品免费一区二区三区在线 | 视频区欧美日本亚洲| 国产精品1区2区在线观看. | 飞空精品影院首页| 亚洲avbb在线观看| 欧美日韩中文字幕国产精品一区二区三区 | 亚洲精品自拍成人| 亚洲少妇的诱惑av| 久久久久久久久免费视频了| 亚洲欧美一区二区三区黑人| 一进一出抽搐gif免费好疼 | 亚洲五月色婷婷综合| 免费在线观看亚洲国产| 亚洲第一青青草原| 亚洲自偷自拍图片 自拍| 亚洲熟女精品中文字幕| 巨乳人妻的诱惑在线观看| 窝窝影院91人妻| av网站免费在线观看视频| 嫩草影视91久久| 亚洲精品国产色婷婷电影| 丝袜美腿诱惑在线| 欧美亚洲日本最大视频资源| 老司机午夜福利在线观看视频| 亚洲熟妇熟女久久| 国产精品99久久99久久久不卡| 久久这里只有精品19| 国产精品免费一区二区三区在线 | 亚洲av电影在线进入| 亚洲熟女毛片儿| 亚洲一区高清亚洲精品| www.999成人在线观看| 一边摸一边抽搐一进一出视频| 99久久国产精品久久久| 国产一卡二卡三卡精品| 两性午夜刺激爽爽歪歪视频在线观看 | 很黄的视频免费| 欧美老熟妇乱子伦牲交| 日韩免费高清中文字幕av| 国产欧美日韩一区二区精品| 久久亚洲精品不卡| 在线观看舔阴道视频| 制服诱惑二区| 欧美黑人精品巨大| 天天躁日日躁夜夜躁夜夜| 男人操女人黄网站| 人妻 亚洲 视频| 一本综合久久免费| 69精品国产乱码久久久| 在线永久观看黄色视频| 国产免费男女视频| 99热国产这里只有精品6| 久久久精品免费免费高清| 美国免费a级毛片| 香蕉国产在线看| 亚洲精品久久成人aⅴ小说| 91九色精品人成在线观看| 如日韩欧美国产精品一区二区三区| 成年动漫av网址| 欧美乱码精品一区二区三区| 久9热在线精品视频| 在线永久观看黄色视频| 国产精品久久久久成人av| 国产极品粉嫩免费观看在线| 国产精品免费一区二区三区在线 | 国产精品av久久久久免费| 老司机靠b影院| 男女高潮啪啪啪动态图| 国产伦人伦偷精品视频| 好男人电影高清在线观看| 9色porny在线观看| 欧美精品人与动牲交sv欧美| 午夜福利视频在线观看免费|