金俊宇,張婷婷
(陸軍工程大學(xué)指揮控制工程學(xué)院,江蘇 南京 210007)
在日益復(fù)雜的作戰(zhàn)環(huán)境和作戰(zhàn)任務(wù)下,傳統(tǒng)無(wú)人系統(tǒng)的人機(jī)交互技術(shù)無(wú)法支持操作/指揮人員對(duì)集群進(jìn)行實(shí)時(shí)決策與控制,需要無(wú)人機(jī)具備自主、智能完成任務(wù)的能力,并展開(kāi)協(xié)同來(lái)應(yīng)對(duì)戰(zhàn)場(chǎng)的復(fù)雜性和動(dòng)態(tài)性[1]。如何實(shí)現(xiàn)在不確定作戰(zhàn)環(huán)境下對(duì)戰(zhàn)場(chǎng)態(tài)勢(shì)變化的自主響應(yīng)將是無(wú)人機(jī)集群完成復(fù)雜任務(wù)的關(guān)鍵。同時(shí),類(lèi)比指揮員或駕駛員的決策過(guò)程來(lái)研究無(wú)人機(jī)的自主性行為和決策機(jī)制,對(duì)理解、設(shè)計(jì)和實(shí)現(xiàn)無(wú)人機(jī)自主系統(tǒng)具有重要意義。
作為無(wú)人機(jī)自主系統(tǒng)最重要的功能,行為決策指綜合感知信息使無(wú)人機(jī)產(chǎn)生有利于當(dāng)前態(tài)勢(shì)的行為,進(jìn)一步指導(dǎo)運(yùn)動(dòng)控制系統(tǒng)對(duì)無(wú)人機(jī)進(jìn)行控制[2]。目前,無(wú)人機(jī)的任務(wù)主要依靠預(yù)先規(guī)劃,決策模型按照“感知—建?!?guī)劃—?jiǎng)幼鳌钡纳魉冀Y(jié)構(gòu)進(jìn)行設(shè)計(jì),缺點(diǎn)是自主行為都必須經(jīng)過(guò)上述各模塊且缺一不可,針對(duì)任務(wù)環(huán)境的建模需要依賴(lài)大量知識(shí),現(xiàn)有方法很難給出一個(gè)涵蓋所有環(huán)境狀態(tài)的模型[3]。同時(shí),戰(zhàn)場(chǎng)環(huán)境的非結(jié)構(gòu)化、動(dòng)態(tài)變化以及無(wú)法預(yù)測(cè)的特點(diǎn),使得難以對(duì)任務(wù)環(huán)境進(jìn)行有效建模,做出規(guī)劃并產(chǎn)生合理動(dòng)作,且即便能對(duì)環(huán)境建模,因計(jì)算能力的限制,無(wú)法滿(mǎn)足決策對(duì)實(shí)時(shí)性的要求[4]。
多智能體深度強(qiáng)化學(xué)習(xí)(Multi-agent Deep Reinforcement Learning,MDRL)針對(duì)無(wú)模型或者建模復(fù)雜的協(xié)同決策系統(tǒng),采用“感知—?jiǎng)幼鳌钡姆磻?yīng)式結(jié)構(gòu)實(shí)現(xiàn)多個(gè)Agent的協(xié)同決策控制,其核心思想是將目標(biāo)任務(wù)分解為Agent的多個(gè)基礎(chǔ)行為,當(dāng)傳感器感知的數(shù)據(jù)發(fā)生變化時(shí),個(gè)體依靠策略直接做出反應(yīng)并從上述行為空間集中選擇動(dòng)作,具有較強(qiáng)的應(yīng)變能力;訓(xùn)練時(shí),將任務(wù)間接表示為獎(jiǎng)勵(lì)(目標(biāo))函數(shù),以?xún)?yōu)化的方式模擬多個(gè)智能體與環(huán)境的相互作用,期望找到一個(gè)最大化累計(jì)獎(jiǎng)勵(lì)的策略,為實(shí)時(shí)協(xié)同決策提供了可行的方法[5]。
集群的狀態(tài)感知和信息共享作為無(wú)人機(jī)集群協(xié)同決策控制的基礎(chǔ)[6],要求無(wú)人機(jī)通過(guò)機(jī)間通信鏈路實(shí)現(xiàn)通信,但戰(zhàn)場(chǎng)上以帶寬為代表的通信資源尤為短缺[7]。為解決多智能體訓(xùn)練環(huán)境的非平穩(wěn)性和部分可觀察性,目前多數(shù)MDRL方法將Agent之間的通信理想化,假設(shè)Agent在每個(gè)決策控制周期中都不斷地通過(guò) 信息交互來(lái)獲取全局感知,用作策略網(wǎng)絡(luò)的輸入[8]。這種低效的通信方式并不適用于通信資源短缺的戰(zhàn)場(chǎng)環(huán)境,部分無(wú)人機(jī)頻繁占用帶寬進(jìn)行通信,將導(dǎo)致其他無(wú)人機(jī)無(wú)法及時(shí)發(fā)送消息,進(jìn)而影響集群有效協(xié)同。
本文所研究的無(wú)人機(jī)集群系統(tǒng)中,每架無(wú)人機(jī)的機(jī)載傳感器感知范圍有限,僅能準(zhǔn)確感知自身位置狀態(tài),且無(wú)人機(jī)的動(dòng)作-狀態(tài)轉(zhuǎn)移具有馬爾可夫性,因此可以用分布式部分可觀測(cè)馬爾可夫決策過(guò)程(Decentralized Partially Observable Markov Decision Processes,Dec-POMDPs)[9]來(lái)描述無(wú)人機(jī)集群的行為決策過(guò)程。在Dec-POMDPs框架中,每架無(wú)人機(jī)作為智能體,根據(jù)自身獲得的局部感知信息獨(dú)立地做出決策,全局獎(jiǎng)勵(lì)與所有無(wú)人機(jī)的聯(lián)合行為有關(guān)[10],其求解過(guò)程可以看成是聯(lián)合策略空間中的最優(yōu)規(guī)劃的問(wèn)題?;贒ec-MOMDPs的無(wú)人機(jī)集群行為決策問(wèn)題可以用多元組描述,其中各要素分別表示:
1)作戰(zhàn)編組。I={1,…,n}是執(zhí)行任務(wù)的無(wú)人機(jī)集合,n是無(wú)人機(jī)的數(shù)量。
4)狀態(tài)轉(zhuǎn)移函數(shù)。T描述系統(tǒng)的狀態(tài)轉(zhuǎn)移,由每個(gè)無(wú)人機(jī)的狀態(tài)轉(zhuǎn)移組成。已知無(wú)人機(jī)i的運(yùn)動(dòng)模型,其自身狀態(tài)完全可知,則無(wú)人機(jī)i的狀態(tài)轉(zhuǎn)移函數(shù)即為其運(yùn)動(dòng)學(xué)方程。
5)機(jī)載傳感器的感知模型。Z(s,i):S→Oi描述了無(wú)人機(jī)i通過(guò)傳感器感知自身位置狀態(tài)si獲得信息oi的過(guò)程,其中oi∈Oi,無(wú)人機(jī)i的感知信息oi即位置狀態(tài)si。
無(wú)人機(jī)i通過(guò)感知信息交互可以突破感知能力的限制,獲得整個(gè)集群的位置狀態(tài)信息[oi,m-i],為自身決策提供有力支持,其中,m-i表示無(wú)人機(jī)i從集群內(nèi)其他無(wú)人機(jī)接收到的感知信息。在此基礎(chǔ)上,無(wú)人機(jī)i基于通信的自主行為決策模型可以表示為μi(ai|oi,m-i):Oi×M-i→Ai,其中,ai包括運(yùn)動(dòng)行為和通信行為,m-i=
圖1 基于通信的無(wú)人機(jī)自主行為決策模型
無(wú)人機(jī)行為包括運(yùn)動(dòng)行為和通信行為。運(yùn)動(dòng)行為用于實(shí)現(xiàn)無(wú)人機(jī)在空間的位移,由無(wú)人機(jī)的運(yùn)動(dòng)方程描述。假設(shè)所有無(wú)人機(jī)的飛行高度恒定,無(wú)人機(jī)i的位置狀態(tài)用si=[xi,yi]描述,表示其在二維慣性坐標(biāo)系中的坐標(biāo)。無(wú)人機(jī)i從當(dāng)前時(shí)刻到下一時(shí)刻的運(yùn)動(dòng)模型如下
(1)
其中,vi、φi分別是無(wú)人機(jī)i在某個(gè)時(shí)刻的速度和航向角,二者組成無(wú)人機(jī)的運(yùn)動(dòng)行為,如圖2所示,其中i、j用于標(biāo)識(shí)對(duì)抗雙方的無(wú)人機(jī)。
圖2 無(wú)人機(jī)的運(yùn)動(dòng)模型
通信行為用于實(shí)現(xiàn)機(jī)間信息交互,即感知信息的發(fā)送,用布爾值表示,1表示發(fā)送信息,0表示靜默。
無(wú)人機(jī)之間的通信需要經(jīng)過(guò)編碼、傳輸、解碼。信源編碼的過(guò)程是從信息源的符號(hào)(序列)到碼符號(hào)集(比特流)的映射,編碼后的信息以比特為單位通過(guò)信道進(jìn)行傳輸。本文按照香農(nóng)的信源編碼定理[11],假設(shè)每個(gè)無(wú)人機(jī)的觀測(cè)信息需要L個(gè)符號(hào)來(lái)傳輸,每個(gè)符號(hào)至少需要Nb個(gè)比特進(jìn)行編碼,否則信息將丟失。某一時(shí)刻有nm個(gè)無(wú)人機(jī)選擇發(fā)送感知信息時(shí),需要傳輸?shù)姆?hào)數(shù)量為nm(n-1)L,信息量nm(n-1)LNb。
如前文所述,本文旨在研究帶寬受限作戰(zhàn)場(chǎng)景下的無(wú)人機(jī)集群協(xié)同決策問(wèn)題。因此,需要對(duì)該問(wèn)題中無(wú)人機(jī)集群的通信方式做以下假設(shè):
1)通信方式。采用Ad hoc網(wǎng)絡(luò)實(shí)現(xiàn)信息交互,如表1所示。
表1 Ad hoc網(wǎng)絡(luò)中的主要路由協(xié)議
2)鏈路連通性。機(jī)間鏈路都為單向鏈路。在移動(dòng)自組網(wǎng)環(huán)境中,因隱藏終端問(wèn)題(Hidden Terminal Problem)和無(wú)人機(jī)之間設(shè)備能量(如電池能量)差異導(dǎo)致單向鏈路普遍存在[12]。
3)通信頻率。每個(gè)時(shí)刻,無(wú)人機(jī)最多發(fā)送一次感知信息,如圖3所示。
圖3 無(wú)人機(jī)在每個(gè)時(shí)刻只發(fā)送一次感知信息
4)傳輸與轉(zhuǎn)發(fā)時(shí)延。無(wú)人機(jī)i的感知信息經(jīng)封裝后發(fā)送給無(wú)人機(jī)j,無(wú)論經(jīng)過(guò)多少次轉(zhuǎn)發(fā),總時(shí)延不超過(guò)一個(gè)時(shí)刻間隙。
5)MAC協(xié)議。采用頻分多址接入?yún)f(xié)議(Frequency Division Multiple Access,FDMA),將無(wú)線(xiàn)信道資源按照當(dāng)前時(shí)刻所需的鏈路數(shù)量平均分成若干個(gè)子信道,每條物理鏈路分得一個(gè)子信道。
6)路由協(xié)議??紤]決策的實(shí)時(shí)性和鏈路的連通性,本文研究的無(wú)人機(jī)集群采用DSDV協(xié)議作為自組網(wǎng)路由協(xié)議。每個(gè)無(wú)人機(jī)作為路由節(jié)點(diǎn)維護(hù)到其他節(jié)點(diǎn)的路由表,信息根據(jù)經(jīng)過(guò)的鏈路數(shù)(跳數(shù))來(lái)選路。同時(shí),DSDV協(xié)議通過(guò)給每個(gè)路由設(shè)定序列號(hào)避免了路由環(huán)路的產(chǎn)生[13]。如圖4所示,無(wú)人機(jī)1作為信源給組網(wǎng)內(nèi)其他無(wú)人機(jī)發(fā)送自己的感知信息,信息傳輸?shù)穆窂绞且粋€(gè)無(wú)交叉的有向樹(shù)。每條分配信道的物理鏈路只經(jīng)過(guò)一次消息。
圖4 組網(wǎng)內(nèi)信息傳輸路徑
基于上述假設(shè),本文研究的無(wú)人機(jī)集群內(nèi)部通信過(guò)程可以描述如下:在某個(gè)時(shí)刻,若干個(gè)無(wú)人機(jī)通過(guò)Ad hoc網(wǎng)絡(luò)選擇發(fā)送局部感知信息,所有友機(jī)都能及時(shí)接收信息并用于下個(gè)時(shí)刻的行為決策。當(dāng)有nm個(gè)無(wú)人機(jī)發(fā)送自身感知信息時(shí),有且只有nm(n-1)條鏈路需要信道資源。根據(jù)MAC協(xié)議,除去用于路由廣播的信道帶寬,剩余帶寬大小為B的信道用于傳輸信息,在不考慮劃分隔離帶的情況下,每條鏈路分得均等大小的帶寬用于傳輸編碼后的信息。
無(wú)人機(jī)在每個(gè)時(shí)刻根據(jù)當(dāng)前態(tài)勢(shì)做出關(guān)于運(yùn)動(dòng)行為的決策,以保證有利態(tài)勢(shì),同時(shí)通過(guò)監(jiān)聽(tīng)信道做出關(guān)于通信行為的決策,實(shí)現(xiàn)態(tài)勢(shì)共享。行為的優(yōu)劣取決于策略模型。在策略模型μi(ai|oi,m-i)已知的情況下,可以估計(jì)出策略帶來(lái)的累計(jì)獎(jiǎng)勵(lì),值越大,說(shuō)明模型越好。因此,需要選擇合適的方法來(lái)求解無(wú)人機(jī)的動(dòng)作策略模型。以多智能體深度確定性策略梯度算法(Multi-agent Deep Deterministic Policy Gradient, MADDPG)為代表的MDRL方法以無(wú)監(jiān)督學(xué)習(xí)方式在無(wú)人機(jī)訓(xùn)練過(guò)程中通過(guò)對(duì)行為試探和獎(jiǎng)勵(lì)不斷反饋,形成行為策略決策知識(shí),這種方式能夠在不確性噪聲和外部環(huán)境動(dòng)態(tài)變化情況下得到行為最優(yōu)策略解,而無(wú)須匹配系統(tǒng)狀態(tài)與行為關(guān)系知識(shí)數(shù)據(jù)[14-15],如圖5所示。
圖5 基于MDRL的無(wú)人機(jī)策略訓(xùn)練方法
信息交互能克服多智能體訓(xùn)練環(huán)境非平穩(wěn)性,使得無(wú)人機(jī)在訓(xùn)練過(guò)程中學(xué)習(xí)到更好的策略并在執(zhí)行過(guò)程中能做出更好的決策。傳統(tǒng)的MDRL方法中,Agent在每個(gè)決策控制周期中模擬信息交互來(lái)獲取全局感知用于決策。為了改進(jìn)這種低效的通信方式,適用于帶寬有限的戰(zhàn)場(chǎng)環(huán)境,需要設(shè)計(jì)一個(gè)合適的獎(jiǎng)勵(lì)機(jī)制來(lái)減少無(wú)人機(jī)的通信次數(shù),降低信道帶寬需求的同時(shí),保證帶寬資源利用率的最大化。
本文在理想的無(wú)噪聲信道中進(jìn)行研究,根據(jù)奈奎斯特定理,計(jì)算信道帶寬為B的信道容量[16],即理想低通信道下的一個(gè)時(shí)刻間隙最多可以傳輸?shù)男畔⒘繛?/p>
Rmax=2Blog2K
(2)
其中,K表示每個(gè)碼元離散電平的數(shù)目。
在相鄰時(shí)刻間隙內(nèi),機(jī)間通信的信息量大于信道容量時(shí),傳輸?shù)男畔?huì)發(fā)生差錯(cuò)或失真。因此,當(dāng)nm個(gè)無(wú)人機(jī)選擇發(fā)送感知信息時(shí),相鄰時(shí)刻間隙內(nèi)傳輸?shù)男畔⒘繎?yīng)滿(mǎn)足每條物理鏈路傳輸?shù)男畔⒘坎怀^(guò)該鏈路分得帶寬的信道容量,即LNb≤2Blog2K/nm(n-1)。在信道帶寬B、集群編組數(shù)量n和無(wú)人機(jī)感知信息編碼方式LNb確定時(shí),可知一個(gè)時(shí)刻最多允許2Blog2K/(n-1)LNb個(gè)無(wú)人機(jī)發(fā)送感知信息。
根據(jù)上述約束條件,關(guān)于無(wú)人機(jī)通信動(dòng)作的獎(jiǎng)勵(lì)值計(jì)算如下:
Rcomm,i=kcomm[nm-2Blog2K/(n-1)LNb]2
(3)
其中,kcomm<0,在上述獎(jiǎng)勵(lì)機(jī)制下,無(wú)人機(jī)i在每個(gè)時(shí)刻通過(guò)對(duì)信道監(jiān)聽(tīng),判斷當(dāng)前占用帶寬的無(wú)人機(jī)個(gè)數(shù)nm。當(dāng)nm<2Blog2K/(n-1)LNb,帶寬資源充足時(shí),鼓勵(lì)無(wú)人機(jī)i發(fā)送信息來(lái)獲得更大的獎(jiǎng)勵(lì)值;相反,帶寬資源不足時(shí),nm>2Blog2K/(n-1)LNb,無(wú)人機(jī)i發(fā)送消息會(huì)減小獎(jiǎng)勵(lì)值Rcomm,i。只有通信無(wú)人機(jī)的數(shù)量nm接近2Blog2K/(n-1)LNb時(shí),整個(gè)集群內(nèi)部信息交互獲得的獎(jiǎng)勵(lì)值最大。
受帶寬資源限制,無(wú)人機(jī)無(wú)法時(shí)刻保持通信。如果沒(méi)有接收到友機(jī)的感知信息,無(wú)人機(jī)需要使用歷史信息作為當(dāng)前決策模型的輸入信息來(lái)保證一定的有效協(xié)同。Wang等人針對(duì)多智能體部分可觀測(cè)環(huán)境提出Recurrent MADDPG(R-MADDPG),使用長(zhǎng)短期記憶模型(Long-short Term Memory,LSTM)來(lái)記憶之前時(shí)刻接收到的信息作為歷史信息,用于非連續(xù)通信場(chǎng)景下的多智能體協(xié)同決策問(wèn)題[17]。
如圖6所示,無(wú)人機(jī)的策略模型采用Recurrent Actor-Critic網(wǎng)絡(luò)進(jìn)行訓(xùn)練。R-Actor網(wǎng)絡(luò)是遞歸神經(jīng)網(wǎng)絡(luò)對(duì)行為策略函數(shù)μ的模擬,參數(shù)為θμ。R-Critic網(wǎng)絡(luò)是遞歸神經(jīng)網(wǎng)絡(luò)對(duì)狀態(tài)評(píng)價(jià)函數(shù)Q(s,a)的模擬,參數(shù)為θQ。R-Actor網(wǎng)絡(luò)和R-Critic網(wǎng)絡(luò)分別用hμ、hQ存儲(chǔ)各自網(wǎng)絡(luò)隱藏層的上一時(shí)刻歷史狀態(tài)信息。
圖6 基于LSTM的策略訓(xùn)練-執(zhí)行模型
1)在模擬戰(zhàn)場(chǎng)環(huán)境中訓(xùn)練過(guò)程。
在某一時(shí)刻,無(wú)人機(jī)i的R-Actor網(wǎng)絡(luò)以自己的感知信息oi和接收到其他無(wú)人機(jī)的感知信息m-i為輸入。受帶寬限制可能無(wú)法接收到部分無(wú)人機(jī)的感知信息,利用存儲(chǔ)的隱藏層歷史狀態(tài)hp來(lái)代替缺失的感知信息。R-Actor網(wǎng)絡(luò)將無(wú)人機(jī)i的通信行為和運(yùn)動(dòng)行為輸出到訓(xùn)練環(huán)境中,得到反饋獎(jiǎng)勵(lì)Ri。上述過(guò)程作為無(wú)人機(jī)i的狀態(tài)轉(zhuǎn)移數(shù)據(jù)
Ri=Rcomm,i+Rtask,i
(4)
其中,Rcomm,i是環(huán)境對(duì)無(wú)人機(jī)通信行為的獎(jiǎng)勵(lì),Rtask,i是環(huán)境根據(jù)作戰(zhàn)任務(wù)對(duì)無(wú)人機(jī)i運(yùn)動(dòng)行為的獎(jiǎng)勵(lì)。
無(wú)人機(jī)i的R-Critic網(wǎng)絡(luò)隨機(jī)從經(jīng)驗(yàn)池中抽取一批無(wú)人機(jī)在同一時(shí)刻的狀態(tài)轉(zhuǎn)移數(shù)據(jù),組成集群的狀態(tài)轉(zhuǎn)移數(shù)據(jù)〈s,a,s′,R〉作為學(xué)習(xí)樣本,其中,s=〈o1,…,on〉,a=〈a1,…,an〉。通過(guò)貝爾曼方程計(jì)算當(dāng)前行為帶來(lái)的累計(jì)獎(jiǎng)勵(lì),然后與R-Critic網(wǎng)絡(luò)輸出Q(s,a)的值進(jìn)行比較,利用上述偏差L(θQ)使用梯度下降的方法更新θQ,基于累計(jì)獎(jiǎng)勵(lì)期望值函數(shù)J(μi)的策略梯度更新θμ。行為策略模型訓(xùn)練流程如表2所示。
表2 無(wú)人機(jī)行為策略模型訓(xùn)練流程
2)在真實(shí)戰(zhàn)場(chǎng)環(huán)境中執(zhí)行過(guò)程。
無(wú)人機(jī)i的行為策略模型μi訓(xùn)練完成后,根據(jù)自身感知信息oi和從其他無(wú)人機(jī)接收到的感知信息m-i做出行為決策,由R-Actor網(wǎng)絡(luò)輸出當(dāng)前有利于態(tài)勢(shì)的行為,指導(dǎo)無(wú)人機(jī)運(yùn)動(dòng)控制和信息發(fā)送。
為了驗(yàn)證所提方法的有效性,本文在課題組自建的無(wú)人作戰(zhàn)Swarmflow仿真平臺(tái)中模擬了帶寬受限作戰(zhàn)場(chǎng)景下的無(wú)人機(jī)空中對(duì)抗,在OpenAI開(kāi)源的多智能體訓(xùn)練環(huán)境中完成Agent的策略訓(xùn)練[18]。
如圖7所示,該仿真環(huán)境基于大洞山衛(wèi)星地圖模擬了真實(shí)的空域作戰(zhàn)環(huán)境,選取2 000×2 000的空域作為交戰(zhàn)區(qū)域。在該空域內(nèi),敵我雙方的無(wú)人機(jī)群以2∶4兵力態(tài)勢(shì)進(jìn)行對(duì)抗,無(wú)人機(jī)以離散的時(shí)間步長(zhǎng)同時(shí)進(jìn)行決策并采取行動(dòng)。
圖7 Swarmflow仿真平臺(tái)下的訓(xùn)練環(huán)境
1)狀態(tài)空間。分為局部空間信息和全局空間信息。局部空間信息指由機(jī)載傳感器感知范圍內(nèi)的局部信息,這里設(shè)定無(wú)人機(jī)只能感知自身所在空域的坐標(biāo);全局空間信息由每個(gè)無(wú)人機(jī)所感知的坐標(biāo)組成。
2)行為空間。每架無(wú)人機(jī)的行為分為運(yùn)動(dòng)、通信兩種,其中,運(yùn)動(dòng)行為包含前向速度和航向角;通信行為包含發(fā)送信息和靜默。
3)獎(jiǎng)勵(lì)函數(shù)。獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)的目標(biāo)是讓無(wú)人機(jī)學(xué)會(huì)有效完成作戰(zhàn)任務(wù)和高效利用帶寬資源。
將空中對(duì)抗任務(wù)簡(jiǎn)化為對(duì)抗性質(zhì)的協(xié)同攻擊,雙方的作戰(zhàn)目標(biāo)是盡可能通過(guò)協(xié)同來(lái)攻擊對(duì)方獲得獎(jiǎng)勵(lì),假設(shè)無(wú)人機(jī)i可以目測(cè)敵機(jī)與自己的方位角εj。任務(wù)得分規(guī)則參照文獻(xiàn)[19]的對(duì)抗實(shí)驗(yàn)。如果一方有兩架以上的無(wú)人機(jī)和敵方一架無(wú)人機(jī)相遇,參與攻擊的無(wú)人機(jī)將獲得獎(jiǎng)勵(lì),被圍攻的敵機(jī)將得到負(fù)獎(jiǎng)勵(lì),反之亦然。同時(shí),無(wú)人機(jī)i的航向角φi大小越接近于目標(biāo)敵機(jī)j的方位角εj,得到的負(fù)獎(jiǎng)勵(lì)值越小。
表3 無(wú)人機(jī)行為獎(jiǎng)勵(lì)計(jì)算方式
對(duì)抗雙方均采用相同的訓(xùn)練方法來(lái)訓(xùn)練各自無(wú)人機(jī)的策略模型。
1)實(shí)驗(yàn)硬件環(huán)境。在聯(lián)想PowerEdge T630塔式服務(wù)器上進(jìn)行訓(xùn)練,服務(wù)器配置包括:內(nèi)存16 G,處理器Intel Xeon E5-2660,一塊集成顯卡Matrox Electronics SystemsLtd G200R2和兩塊GeForce RTX 2080 Ti獨(dú)顯。
2)實(shí)驗(yàn)軟件環(huán)境。使用Win 10操作系統(tǒng)和Python3.6解釋器。算法的環(huán)境依賴(lài)包括OpenAI Gym 0.10.5,tensorflow 1.8.0,numpy 1.14.5。Agent的行為策略模型(R-Actor網(wǎng)絡(luò))和效用評(píng)估模型(R-Critic網(wǎng)絡(luò))均為三層全連接神經(jīng)網(wǎng)絡(luò),隱藏層為64個(gè)LSTM單元。
3)訓(xùn)練參數(shù)。訓(xùn)練參數(shù)設(shè)計(jì)具體如表4所示。
表4 實(shí)驗(yàn)相關(guān)參數(shù)設(shè)定
4)實(shí)驗(yàn)方法。為驗(yàn)證設(shè)計(jì)方法可以在帶寬有限條件下保持無(wú)人機(jī)的協(xié)同能力,對(duì)訓(xùn)練中Agent在每個(gè)決策周期內(nèi)獲取其他Agent位置信息的數(shù)量進(jìn)行限制,來(lái)模擬帶寬受限環(huán)境,分別在不同帶寬條件下(改變最多支持發(fā)送消息的無(wú)人機(jī)數(shù)量)各自重復(fù)了12 000次實(shí)驗(yàn),對(duì)算法的獎(jiǎng)勵(lì)曲線(xiàn)和Agent的實(shí)際表現(xiàn)進(jìn)行對(duì)比分析。
為驗(yàn)證設(shè)計(jì)方法在有限帶寬條件下保持多Agent任務(wù)協(xié)同能力,用單位時(shí)間(每個(gè)仿真時(shí)間步長(zhǎng)內(nèi))可發(fā)送位置信息的無(wú)人機(jī)數(shù)量n來(lái)代表可用帶寬的大小,在不同帶寬大小下重復(fù)了實(shí)驗(yàn)。
圖8描述了不同帶寬條件下己方無(wú)人機(jī)平均獎(jiǎng)勵(lì)值曲線(xiàn),結(jié)果表明,帶寬越小,無(wú)人機(jī)策略學(xué)習(xí)的速度越慢,同時(shí)訓(xùn)練前期的獎(jiǎng)勵(lì)值越小。但經(jīng)過(guò)一定時(shí)間的訓(xùn)練后,都能學(xué)習(xí)到有效的行為策略,具體表現(xiàn)為整個(gè)集群能獲得正向獎(jiǎng)勵(lì)值,且可用帶寬較小(n=2)場(chǎng)景下的策略收益(獎(jiǎng)勵(lì)值)與可用帶寬較大(n=4)場(chǎng)景下的策略收益相近。
圖8 不同帶寬條件下己方無(wú)人機(jī)平均獎(jiǎng)勵(lì)值曲線(xiàn)
圖9是不同帶寬條件下己方無(wú)人機(jī)通信行為的獎(jiǎng)勵(lì)曲線(xiàn),結(jié)果表明無(wú)人機(jī)通過(guò)訓(xùn)練能自主調(diào)整通信動(dòng)作適應(yīng)帶寬條件,表現(xiàn)為因違反帶寬約束發(fā)送消息而得到的獎(jiǎng)勵(lì)值,數(shù)值隨訓(xùn)練而增加。
圖9 不同帶寬條件下無(wú)人機(jī)通信行為的獎(jiǎng)勵(lì)曲線(xiàn)
表5和圖10是在不同帶寬限制條件下隨機(jī)抽取20輪訓(xùn)練中己方無(wú)人機(jī)的任務(wù)表現(xiàn),研究人員注意到,隨著可用帶寬的減少,無(wú)人機(jī)的任務(wù)表現(xiàn)(平均協(xié)同攻擊次數(shù))會(huì)下降,但仍然會(huì)學(xué)習(xí)如何實(shí)現(xiàn)任務(wù)目標(biāo)(協(xié)同攻擊)。通信資源平均利用率的計(jì)算方式如下:
表5 己方無(wú)人機(jī)的平均協(xié)同攻擊次數(shù)、平均被攻擊次數(shù)和通信資源平均利用率
(5)
為進(jìn)一步驗(yàn)證方法的穩(wěn)定性,對(duì)隨機(jī)選取的20輪實(shí)驗(yàn)中己方無(wú)人機(jī)集群的任務(wù)表現(xiàn)進(jìn)行分析。圖10中黑線(xiàn)表示20次訓(xùn)練以均值為中心的置信區(qū)間,即20次實(shí)驗(yàn)結(jié)果的誤差,在式(3)所示的通信行為獎(jiǎng)勵(lì)機(jī)制下,Agent表現(xiàn)出的協(xié)同攻擊次數(shù)不穩(wěn)定。將代表己方4架無(wú)人機(jī)的Agent在每輪實(shí)驗(yàn)中發(fā)送消息的總次數(shù)繪制成圖11所示的散點(diǎn)圖,來(lái)觀察每個(gè)無(wú)人機(jī)的通信行為。研究發(fā)現(xiàn),盡管整個(gè)多Agent系統(tǒng)在通信行為上基本滿(mǎn)足帶寬的限制條件(見(jiàn)圖9),但單個(gè)Agent的通信行為表現(xiàn)并不可靠(存在個(gè)別無(wú)人機(jī)頻繁發(fā)送信息占用信道帶寬和長(zhǎng)時(shí)間靜默),無(wú)人機(jī)應(yīng)該在滿(mǎn)足帶寬限制條件的基礎(chǔ)上,盡可能地進(jìn)行信息的交互來(lái)保證決策的精度。
圖10 不同帶寬條件下無(wú)人機(jī)任務(wù)表現(xiàn)
圖11 20輪訓(xùn)練中的無(wú)人機(jī)通信次數(shù)
對(duì)于上述問(wèn)題的分析:式(3)給出了無(wú)人機(jī)i通信行為的獎(jiǎng)勵(lì)機(jī)制,一定程度上避免了頻繁通信的問(wèn)題。但在訓(xùn)練過(guò)程中,無(wú)人機(jī)策略網(wǎng)絡(luò)更新受全局Q(s,a)指導(dǎo),變量nm作為全局變量,獎(jiǎng)勵(lì)機(jī)制對(duì)整個(gè)集群每個(gè)時(shí)刻的通信行為有指導(dǎo)作用,對(duì)單架無(wú)人機(jī)的通信行為影響較小,每架無(wú)人機(jī)不清楚自身通信行為對(duì)全局Q(s,a)的影響,導(dǎo)致個(gè)別“惰性”無(wú)人機(jī)長(zhǎng)時(shí)間保持靜默,造成其他無(wú)人機(jī)因長(zhǎng)時(shí)間缺少“惰性”無(wú)人機(jī)的位置信息而降低決策精度。
(6)
其中,nmax表示大小為B的帶寬最多支持發(fā)送消息的無(wú)人機(jī)數(shù)量,σ為系統(tǒng)方差。無(wú)人機(jī)i可以通過(guò)信道監(jiān)聽(tīng)獲得acomm的值。圖12是改進(jìn)獎(jiǎng)勵(lì)計(jì)算方式后,不同帶寬條件下己方無(wú)人機(jī)通信行為的平均獎(jiǎng)勵(lì)值曲線(xiàn)。
圖12 改進(jìn)后己方無(wú)人機(jī)通信行為的平均獎(jiǎng)勵(lì)曲線(xiàn)
區(qū)別于式(3)的獎(jiǎng)勵(lì)計(jì)算方式,改進(jìn)后的獎(jiǎng)勵(lì)機(jī)制中既包含了對(duì)整個(gè)集群通信的全局指導(dǎo),又包含對(duì)每個(gè)無(wú)人機(jī)通信行為的指導(dǎo)。無(wú)人機(jī)i在每個(gè)時(shí)刻通過(guò)對(duì)信道監(jiān)聽(tīng),判斷當(dāng)前占用帶寬的無(wú)人機(jī)個(gè)數(shù)nm。當(dāng)帶寬資源充足時(shí),nm
表6 改進(jìn)后的平均協(xié)同攻擊次數(shù)、平均被攻擊次數(shù)和通信資源平均利用率
圖13 改進(jìn)后不同帶寬條件下無(wú)人機(jī)任務(wù)表現(xiàn)
圖14 改進(jìn)后不同帶寬條件下無(wú)人機(jī)任務(wù)表現(xiàn)
在訓(xùn)練后期,選取任意3個(gè)時(shí)刻的戰(zhàn)場(chǎng)態(tài)勢(shì)進(jìn)行可視化。圖15截取了3個(gè)時(shí)刻的空戰(zhàn)態(tài)勢(shì),可以看出藍(lán)方(己方)無(wú)人機(jī)學(xué)會(huì)了圍攻和支援等智能化行為,在訓(xùn)練收斂后的策略指導(dǎo)下,會(huì)主動(dòng)采取合作攻擊的方式,避免獨(dú)自作戰(zhàn)。
圖15 空中對(duì)抗仿真結(jié)果
在復(fù)雜多變的戰(zhàn)場(chǎng)環(huán)境下,帶寬通常無(wú)法滿(mǎn)足信息交互的需求。目前以MADDPG為代表的MDRL方法能在一定程度上實(shí)現(xiàn)無(wú)人機(jī)之間的自主協(xié)同決策,但其低效的信息獲取方式和通信資源利用方式不利于其在戰(zhàn)場(chǎng)環(huán)境下的應(yīng)用。 本文在Dec-MOMDPs基礎(chǔ)上提出基于通信的無(wú)人機(jī)自主行為決策模型。基于問(wèn)題研究假設(shè)和信息論基本知識(shí),將通信資源分配問(wèn)題作為無(wú)人機(jī)通信行為決策問(wèn)題的優(yōu)化目標(biāo),并在R-MADDPG基礎(chǔ)上完成訓(xùn)練。仿真實(shí)驗(yàn)結(jié)果表明,本文的方法能在一定程度上提高無(wú)人機(jī)在行為決策過(guò)程中的通信效率,較好地適應(yīng)不同帶寬條件下的任務(wù)場(chǎng)景,在帶寬有限條件下,為無(wú)人機(jī)集群自主作戰(zhàn)提供技術(shù)參考和方法借鑒。