• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于多智能體深度強(qiáng)化學(xué)習(xí)的體系任務(wù)分配方法

    2023-04-24 11:26:48林萌龍任棒棒張萌萌陳洪輝
    指揮與控制學(xué)報(bào) 2023年1期
    關(guān)鍵詞:集中式決策節(jié)點(diǎn)

    林萌龍 陳 濤 任棒棒 張萌萌 陳洪輝

    1.國防科技大學(xué)信息系統(tǒng)工程重點(diǎn)實(shí)驗(yàn)室 湖南 長沙 410073

    馬賽克戰(zhàn)[1]、聯(lián)合全域指揮控制[2]等新型作戰(zhàn)概念所構(gòu)想的未來作戰(zhàn)場景中,傳統(tǒng)的多任務(wù)平臺(tái)被分解為了眾多的小型作戰(zhàn)單元,這些小型作戰(zhàn)單元通常具備更高的靈活性,能夠根據(jù)戰(zhàn)場環(huán)境的變化快速對(duì)自身所承擔(dān)的任務(wù)進(jìn)行調(diào)整,以實(shí)現(xiàn)更好的整體作戰(zhàn)效果. 在未來的新型作戰(zhàn)場景中,傳統(tǒng)的集中式指揮控制模式存在著指揮鏈路過長、決策復(fù)雜度過高等問題,從而導(dǎo)致決策時(shí)效性和決策質(zhì)量難以滿足要求[3]. 近年來,邊緣指揮控制等新型指揮控制模式應(yīng)運(yùn)而生,邊緣節(jié)點(diǎn)也即各作戰(zhàn)實(shí)體將具備一定程度的自主決策能力[4]. 由于戰(zhàn)場環(huán)境的復(fù)雜多變特性,以及作戰(zhàn)實(shí)體的小型化、智能化發(fā)展趨勢,分布式?jīng)Q策的模式將在未來的戰(zhàn)場決策中發(fā)揮越來越重要的作用.

    作戰(zhàn)體系是為了完成特定的作戰(zhàn)任務(wù)由一系列具備各項(xiàng)能力的作戰(zhàn)單元?jiǎng)討B(tài)構(gòu)建而成,在以往的集中式?jīng)Q策模式下,體系設(shè)計(jì)人員會(huì)根據(jù)作戰(zhàn)任務(wù)的能力需求以及作戰(zhàn)單元所具備的各項(xiàng)能力,以最大化作戰(zhàn)效能或最小化作戰(zhàn)單元的使用成本等為目標(biāo),來統(tǒng)一地對(duì)各作戰(zhàn)任務(wù)和作戰(zhàn)單元進(jìn)行匹配. 作戰(zhàn)體系的“作戰(zhàn)任務(wù)—作戰(zhàn)單元”匹配問題可以建模為一個(gè)優(yōu)化問題,當(dāng)問題規(guī)模較小時(shí),可以采用集中式?jīng)Q策的模式運(yùn)用整數(shù)線性規(guī)劃等運(yùn)籌學(xué)方法快速得到全局最優(yōu)解[5],而當(dāng)問題規(guī)模較大時(shí)可以采用遺傳算法等啟發(fā)式算法[6]或者強(qiáng)化學(xué)習(xí)算法[7],得到問題的近似最優(yōu)解. 采用集中式?jīng)Q策的一個(gè)重要前提條件是中心決策節(jié)點(diǎn)和作戰(zhàn)單元葉節(jié)點(diǎn)之間的通信暢通,因?yàn)槿~節(jié)點(diǎn)需要將自身的狀態(tài)信息和觀測信息發(fā)送給中心決策節(jié)點(diǎn),而中心節(jié)點(diǎn)需要將決策命令發(fā)送給葉節(jié)點(diǎn). 然而在未來的作戰(zhàn)場景中,由于敵方的通信干擾等原因,中心節(jié)點(diǎn)和葉節(jié)點(diǎn)之間的通信鏈接很難保證連續(xù)暢通,同時(shí)頻繁的信息交互會(huì)造成一定的通信負(fù)載和通信延遲,因此,在未來很多的任務(wù)場景中,需要作戰(zhàn)單元根據(jù)自身的狀態(tài)信息和觀測到的信息獨(dú)立地進(jìn)行決策.

    強(qiáng)化學(xué)習(xí)是一種利用智能體與環(huán)境的交互信息不斷地對(duì)智能體的決策策略進(jìn)行改進(jìn)的方法,隨著深度強(qiáng)化學(xué)習(xí)技術(shù)的快速發(fā)展,強(qiáng)化學(xué)習(xí)算法在無人機(jī)路徑規(guī)劃[8]、無線傳感器方案調(diào)度[9]等領(lǐng)域都取得了非常成功的應(yīng)用,同時(shí)近年來多智能體強(qiáng)化學(xué)習(xí)算法在StarCraftⅡ[10]等環(huán)境中也取得了很好的效果. 在作戰(zhàn)體系任務(wù)分配場景中,可以將各作戰(zhàn)單元視為多個(gè)決策智能體,那么“作戰(zhàn)任務(wù)—作戰(zhàn)單元”的匹配任務(wù)可以視為一個(gè)多智能體強(qiáng)化學(xué)習(xí)任務(wù).而當(dāng)前尚未有將多智能體強(qiáng)化學(xué)習(xí)方法應(yīng)用到類似作戰(zhàn)體系的任務(wù)分配環(huán)境中的先例. 本文的主要工作如下: 1)建立一個(gè)通信受限情況下的作戰(zhàn)體系“作戰(zhàn)任務(wù)—作戰(zhàn)單元”匹配的任務(wù)場景;2)提出了一個(gè)基于多智能體強(qiáng)化學(xué)習(xí)技術(shù)的作戰(zhàn)體系任務(wù)分配算法;3)通過實(shí)驗(yàn)驗(yàn)證了采用上述算法訓(xùn)練的各智能體,可以在通信受限的場景下,實(shí)現(xiàn)一定程度的自主協(xié)同,在沒有中心決策節(jié)點(diǎn)的情況下依然能夠?qū)崿F(xiàn)作戰(zhàn)體系任務(wù)的有效分配.

    1 背景

    1.1 集中式?jīng)Q策VS 分布式?jīng)Q策

    集中式?jīng)Q策模式下存在一個(gè)中心決策節(jié)點(diǎn)來負(fù)責(zé)全局的任務(wù)決策,如圖1 所示,各作戰(zhàn)單元通過通信鏈接將自身的狀態(tài)信息和觀測信息發(fā)送給中心決策節(jié)點(diǎn),中心決策節(jié)點(diǎn)進(jìn)行全局的決策后,將決策命令發(fā)送給各作戰(zhàn)單元去執(zhí)行. 與集中式?jīng)Q策不同,分布式?jīng)Q策模式下將不存在一個(gè)中心決策節(jié)點(diǎn)來協(xié)調(diào)各實(shí)體間的行動(dòng),而是由各實(shí)體根據(jù)自身所擁有的信息,獨(dú)立地進(jìn)行決策. 采用分布式?jīng)Q策一般是為了應(yīng)對(duì)兩種情形,一種是采用集中式?jīng)Q策需要考慮的要素過多,決策復(fù)雜度過大難以進(jìn)行有效的決策;另一種是由于決策節(jié)點(diǎn)與葉節(jié)點(diǎn)之間的通信受限或通信成本過高難以進(jìn)行有效的通信,導(dǎo)致各葉節(jié)點(diǎn)需要獨(dú)立地進(jìn)行決策.

    圖1 集中式?jīng)Q策示意圖Fig.1 Schematic diagram of centralized decision-making

    集中式?jīng)Q策具有分析簡單、可靠性高等優(yōu)點(diǎn),然而并不是所有的決策問題都適合采用集中式?jīng)Q策,例如在有些任務(wù)場景中不具備進(jìn)行集中式?jīng)Q策的通信條件或者通信成本過高. 在分布式系統(tǒng)中,如果不存在中心節(jié)點(diǎn)進(jìn)行全局協(xié)調(diào),那么該分布式系統(tǒng)就被稱為是自組織系統(tǒng)[11],自組織系統(tǒng)是各個(gè)子模塊根據(jù)有限的自身感知和一些預(yù)定的規(guī)則,獨(dú)立地進(jìn)行思考、決策并采取相應(yīng)的動(dòng)作,共同完成分布式系統(tǒng)的任務(wù). 典型的狼群系統(tǒng)、蟻群系統(tǒng)都屬于自適應(yīng)系統(tǒng),傳統(tǒng)的自適應(yīng)系統(tǒng)大多采用基于規(guī)則的方法進(jìn)行研究,但是這些規(guī)則的制定往往需要領(lǐng)域?qū)<疫M(jìn)行深度參與,并且是一個(gè)不斷試錯(cuò)的過程.

    強(qiáng)化學(xué)習(xí)作為一種端到端(end-to-end)的學(xué)習(xí)訓(xùn)練方法不需要領(lǐng)域?qū)<业倪^多參與,而是通過智能體與環(huán)境的動(dòng)態(tài)交互來不斷改進(jìn)自身的決策策略.采用強(qiáng)化學(xué)習(xí)方法來解決分布式?jīng)Q策問題已經(jīng)在多個(gè)領(lǐng)域得到了成功應(yīng)用,在定向傳感器最大目標(biāo)覆蓋問題(maximum target coverage)中,XU 等將該問題抽象為一個(gè)兩層決策問題[12],其中,上層決策為各傳感器分配檢測目標(biāo),下層決策為各傳感器調(diào)整角度,之后每層決策問題均使用單智能體強(qiáng)化學(xué)習(xí)算法來進(jìn)行求解,實(shí)驗(yàn)結(jié)果表明,該方法能有效解決定向傳感器最大目標(biāo)覆蓋問題;SYKORA 基于圖神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制,提出了一個(gè)用來解決多車輛路徑規(guī)劃問題(multi vehicle routing problem,MVRP)的深度神經(jīng)網(wǎng)絡(luò)模型[13],并采用強(qiáng)化學(xué)習(xí)方法對(duì)模型進(jìn)行訓(xùn)練,該模型包含一個(gè)價(jià)值迭代模塊和通信模塊,各車輛根據(jù)自身觀測信息和通信信息獨(dú)立進(jìn)行決策,結(jié)果顯示該模型可以有效解決MVRP 問題.

    1.2 多智能體強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)技術(shù)已經(jīng)在多個(gè)領(lǐng)域得到了成功應(yīng)用,并取得了非常顯著的效果,包括Atari 游戲[14]、圍棋[15]等,然而上述場景多針對(duì)的是單智能體在靜態(tài)環(huán)境中的應(yīng)用,而現(xiàn)實(shí)中的很多場景都是多個(gè)智能體在動(dòng)態(tài)環(huán)境中的應(yīng)用,涉及到智能體間的復(fù)雜交互. 與單智能體強(qiáng)化學(xué)習(xí)任務(wù)相比,多智能體強(qiáng)化學(xué)習(xí)任務(wù)需要同時(shí)對(duì)多個(gè)智能體的策略進(jìn)行優(yōu)化,優(yōu)化難度顯著增強(qiáng),總結(jié)來看,多智能體強(qiáng)化學(xué)習(xí)任務(wù)主要在以下幾個(gè)方面與單智能體強(qiáng)化學(xué)習(xí)任務(wù)存在顯著區(qū)別:

    1)觀測范圍的變化.在單智能體強(qiáng)化學(xué)習(xí)所解決的馬爾可夫決策過程(Markov decision problem,MDP)中,通常假定環(huán)境完全可觀測的,智能體直接從環(huán)境那里得到全局的狀態(tài)信息;而多智能體強(qiáng)化學(xué)習(xí)任務(wù)通常被建模為部分可觀測馬爾可夫決策過程(partially observable Markov decision problem,POMDP),智能體不再擁有全局視野,而是根據(jù)一個(gè)觀測函數(shù)從全局狀態(tài)中得到自身的觀測數(shù)據(jù). 部分可觀測的假定與現(xiàn)實(shí)世界中的場景更加契合,但同時(shí)也增加了模型訓(xùn)練的難度.

    2)環(huán)境的不穩(wěn)定特性(non-stationarity). 多智能體強(qiáng)化學(xué)習(xí)的一個(gè)重要特點(diǎn)就是各智能體通常是同時(shí)進(jìn)行學(xué)習(xí)的,導(dǎo)致每個(gè)智能體所面臨的環(huán)境是非靜止的,因此,導(dǎo)致了環(huán)境的不穩(wěn)定特性. 具體地說,就是一個(gè)智能體所采取的行動(dòng)會(huì)影響其他智能體所能獲得的獎(jiǎng)勵(lì)以及狀態(tài)的變化. 因此,智能體在進(jìn)行學(xué)習(xí)時(shí)需要考慮其他智能體的行為. 環(huán)境的不穩(wěn)定特性,違背了單智能體強(qiáng)化學(xué)習(xí)算法中環(huán)境狀態(tài)的馬爾科夫特性,即個(gè)體的獎(jiǎng)勵(lì)和當(dāng)前狀態(tài)只取決于之前的狀態(tài)和所采取的行動(dòng),這也就使得在多智能體強(qiáng)化學(xué)習(xí)任務(wù)中使用傳統(tǒng)的單智能體強(qiáng)化學(xué)習(xí)算法,可能會(huì)存在算法難以收斂等問題.

    多智能體強(qiáng)化學(xué)習(xí)的相關(guān)研究已經(jīng)成為了機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)研究熱點(diǎn),其中,獨(dú)立Q 學(xué)習(xí)算法(independent Q-learning,IQL)[16]是最早應(yīng)用于多智能體強(qiáng)化學(xué)習(xí)任務(wù)的算法之一,IQL 算法為每一個(gè)智能體都設(shè)置一個(gè)Q 價(jià)值函數(shù),并進(jìn)行獨(dú)立的訓(xùn)練,由于將其他的智能體視為環(huán)境中的一部分,而其他智能體又是在不斷學(xué)習(xí)進(jìn)化的,導(dǎo)致了環(huán)境的不穩(wěn)定性,因此,當(dāng)智能體的數(shù)量超過2 個(gè)時(shí),IQL 算法的性能表現(xiàn)通常較差.

    近來有很多研究采用集中式訓(xùn)練和分散式執(zhí)行的模式來解決多智能體強(qiáng)化學(xué)習(xí)任務(wù),有很多研究采用Actor-Critic 算法來訓(xùn)練模型,其中,Critic 網(wǎng)絡(luò)在訓(xùn)練階段可以利用全局的狀態(tài)信息來輔助Actor網(wǎng)絡(luò)的訓(xùn)練,而在模型執(zhí)行階段,智能體的Actor 網(wǎng)絡(luò)再根據(jù)自身的觀測信息獨(dú)立地作出動(dòng)作選擇. 例如Lowe 提出的多智能體深度確定性策略算法(multi-agent deep deterministic policy gradient,MADDPG)算法[17],為每一個(gè)智能體都提供一個(gè)集中式的Critic 網(wǎng)絡(luò),這個(gè)Critic 網(wǎng)絡(luò)可以獲得所有智能體的狀態(tài)和動(dòng)作信息,然后采用深度確定性策略算法(deep deterministic policy gradient,DDPG)訓(xùn)練智能體的策略網(wǎng)絡(luò). FOERSTER 提出的基準(zhǔn)多智能體算法(counterfactual multi-agent,COMA)[18]也采用一個(gè)集中式的Critic 網(wǎng)絡(luò),此外還設(shè)計(jì)了一個(gè)基準(zhǔn)優(yōu)勢函數(shù)(counterfactual advantage function),來評(píng)估各智能體對(duì)總體目標(biāo)的貢獻(xiàn)程度,以此解決多智能體任務(wù)的信用分配(credit assignment)問題. SUNEHAG 提出的價(jià)值分解網(wǎng)絡(luò)算法(value-decomposition networks,VDN)[19],將集中式的狀態(tài)-動(dòng)作價(jià)值函數(shù)分解為各智能體的價(jià)值函數(shù)之和,然而該方法是假定多智能體系統(tǒng)的總體價(jià)值函數(shù)可以用各智能體的價(jià)值函數(shù)之和來進(jìn)行表示,然而在大多數(shù)的任務(wù)場景中該約束條件并不能得到滿足,因此,限制了該方法的適用范圍. 針對(duì)VDN 模型所存在的問題,RASHID 提出的Q-Mix算法[20]在此基礎(chǔ)上進(jìn)行了改進(jìn),去除了集中式critic網(wǎng)絡(luò)的價(jià)值函數(shù)相加性要求,而只是對(duì)各智能體的狀態(tài)-動(dòng)作價(jià)值函數(shù)施加了單調(diào)性約束.

    2 問題描述

    作戰(zhàn)體系是為了完成特定的使命任務(wù)而動(dòng)態(tài)建立的. 通常,作戰(zhàn)體系的使命任務(wù)可以分解為一系列的子任務(wù),而每項(xiàng)子任務(wù)的實(shí)現(xiàn)又都需要一系列能力的支持,同時(shí)不同類型的任務(wù)對(duì)能力的需求也不同,例如對(duì)敵方目標(biāo)的打擊任務(wù)所需要的火力打擊能力的支持較多,而對(duì)敵方目標(biāo)的偵察任務(wù)所需要的偵察能力支持較多. 在通常情況下,體系設(shè)計(jì)人員會(huì)根據(jù)己方的任務(wù)能力需求,以及自身所擁有的作戰(zhàn)單元所能提供的能力值,來為各作戰(zhàn)任務(wù)分配合適的作戰(zhàn)資源,這是一種集中式的決策方法. 集中式?jīng)Q策方法的優(yōu)點(diǎn)是可以獲取全局信息,能根據(jù)已有的信息對(duì)整體作出合理的決策,集中式?jīng)Q策的方法通常能得出全局最優(yōu)解. 然而隨著馬賽克戰(zhàn)等新型作戰(zhàn)概念的應(yīng)用,未來的戰(zhàn)場環(huán)境下,由于敵方的通信干擾等因素,以及決策時(shí)效性的要求等原因,傳統(tǒng)的集中式?jīng)Q策的方式可能難以實(shí)現(xiàn),因此,需要根據(jù)各作戰(zhàn)單元根據(jù)戰(zhàn)場環(huán)境和自身狀態(tài)信息獨(dú)立地進(jìn)行決策. 由集中式?jīng)Q策向分布式?jīng)Q策方式的轉(zhuǎn)變,也更加符合邊緣作戰(zhàn)等新型作戰(zhàn)場景的構(gòu)想,邊緣節(jié)點(diǎn)將具備更高的自主決策權(quán),可以更加獨(dú)立地根據(jù)戰(zhàn)場環(huán)境的狀態(tài)調(diào)整自身的動(dòng)作.

    2.1 場景描述

    在一個(gè)通信受限的聯(lián)合作戰(zhàn)場景中,如圖2 所示,幾個(gè)作戰(zhàn)單元分別位于戰(zhàn)場空間中的不同位置,每個(gè)作戰(zhàn)單元都具備一定的能力,由于通信受限,作戰(zhàn)單元不能與中心決策節(jié)點(diǎn)進(jìn)行有效通信,而各實(shí)體間只能進(jìn)行有限的通信或者不能通信,因此,在進(jìn)行決策時(shí)每個(gè)作戰(zhàn)單元都只能根據(jù)自身所能獲取到的信息獨(dú)立地進(jìn)行決策. 這種分布式的決策方式可能會(huì)帶來一系列的問題,例如由于沒有中心決策節(jié)點(diǎn)來協(xié)調(diào)任務(wù)分配,各實(shí)體在進(jìn)行獨(dú)立決策時(shí)可能會(huì)出現(xiàn)多個(gè)作戰(zhàn)單元都選擇去完成同一個(gè)任務(wù),從而造成某些任務(wù)沒有作戰(zhàn)單元來完成的現(xiàn)象. 因此,希望能夠利用多智能體強(qiáng)化學(xué)習(xí)技術(shù),來為每一個(gè)作戰(zhàn)單元都訓(xùn)練出來一個(gè)能夠進(jìn)行獨(dú)立的分布式?jīng)Q策的策略網(wǎng)絡(luò),并且根據(jù)這些策略網(wǎng)絡(luò)得到的智能體策略,能夠?qū)崿F(xiàn)一定程度上的自協(xié)同.

    圖2 分布式?jīng)Q策場景下的體系任務(wù)分配Fig.2 SoS task assignment in decentralized decision

    2.2 狀態(tài)空間、動(dòng)作空間與獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

    上述場景中的作戰(zhàn)單元決策過程,可以被建模為一個(gè)部分可觀測的馬爾可夫決策過程. 場景中的每一個(gè)作戰(zhàn)單元都可以被視為一個(gè)決策智能體,智能體的狀態(tài)空間也即觀測空間包含自身的位置信息和能力值信息、其他智能體的位置信息,以及任務(wù)節(jié)點(diǎn)的位置信息和能力需求信息. 智能體的動(dòng)作是選擇哪一個(gè)任務(wù)節(jié)點(diǎn)作為自己的目標(biāo),因此,智能體的動(dòng)作空間是離散的.

    在利用強(qiáng)化學(xué)習(xí)解決此類優(yōu)化問題時(shí),優(yōu)化目標(biāo)函數(shù)的取值,通常就可以作為強(qiáng)化學(xué)習(xí)中智能體的獎(jiǎng)勵(lì)值,確定優(yōu)化問題目標(biāo)函數(shù)的過程也就是確定強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)的過程. 在上述作戰(zhàn)體系的任務(wù)分配場景中,體系任務(wù)分配的目標(biāo)是體系中所有的任務(wù)節(jié)點(diǎn)都被分配了合適的作戰(zhàn)單元來完成,因此,該場景是一個(gè)合作型的多智能體強(qiáng)化學(xué)習(xí)任務(wù),各智能體共享一個(gè)相同的獎(jiǎng)勵(lì)值,相關(guān)獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)可以根據(jù)任務(wù)節(jié)點(diǎn)的覆蓋程度以及任務(wù)的完成效果來進(jìn)行設(shè)計(jì):

    1)如果有任意一個(gè)任務(wù)節(jié)點(diǎn)沒有被分配作戰(zhàn)單元來完成,那么獎(jiǎng)勵(lì)值-5,任務(wù)節(jié)點(diǎn)的覆蓋程度越低,則智能體所獲得的獎(jiǎng)勵(lì)值越低.

    2)任務(wù)完成的效果可以根據(jù)作戰(zhàn)單元與任務(wù)節(jié)點(diǎn)的距離,以及作戰(zhàn)單元的能力取值與任務(wù)實(shí)體的能力需求的匹配程度來確定. 作戰(zhàn)單元與任務(wù)節(jié)點(diǎn)的距離越小,任務(wù)完成的時(shí)效性越高,智能體獲得的獎(jiǎng)勵(lì)值相應(yīng)也越高,同時(shí)任務(wù)節(jié)點(diǎn)的能力需求與作戰(zhàn)單元所能提供的能力值匹配度越高,則任務(wù)完成的效果越好,相應(yīng)地智能體所能獲得的獎(jiǎng)勵(lì)值越多.

    智能體i 所包含的信息可以用一個(gè)元組進(jìn)行表示<(xi,yi,hi),ci1,ci2,…,cin>,其中,(xi,yi,hi)表示智能體i 當(dāng)前所處的位置坐標(biāo),ci1則表示智能體i 在能力1 上的取值,n 為能力類型的數(shù)量. 同時(shí)任務(wù)節(jié)點(diǎn)j包含的信息也可以用一個(gè)元組來表示<(xi,yi,hi),ci1′,ci2′,…,cin′>,(xi,yi,hi)表示任務(wù)節(jié)點(diǎn)j 的位置坐標(biāo),ci1′表示任務(wù)節(jié)點(diǎn)j 對(duì)能力1 的需求. 那么智能體i 與任務(wù)節(jié)點(diǎn)j 之間的距離可以根據(jù)兩者的坐標(biāo)計(jì)算得到,如式(1)所示,智能體與任務(wù)節(jié)點(diǎn)j 的能力匹配值effij也可以根據(jù)式(2)計(jì)算得到,其中,cij表示能力匹配系數(shù). 對(duì)于任意一項(xiàng)能力來說,智能體i 所能提供的能力值與任務(wù)節(jié)點(diǎn)j 的能力需求值之間的比值越大,說明采用智能體來完成任務(wù)在該項(xiàng)能力上取得的效果越好,將各項(xiàng)能力的效果進(jìn)行累加,可以得到完成該任務(wù)的整體效果評(píng)估結(jié)果,累加得到的取值越大,則該項(xiàng)任務(wù)的整體完成效果越好;同時(shí)考慮如果智能體所提供的所有能力值都大于該任務(wù)節(jié)點(diǎn)的需求值,那么表示該任務(wù)節(jié)點(diǎn)的所有需求都得到了較好的滿足,則將上述累加得到的匹配值乘以一個(gè)系數(shù)2,而如果有一項(xiàng)智能體所提供的能力值小于任務(wù)節(jié)點(diǎn)的需求值,則認(rèn)為任務(wù)節(jié)點(diǎn)的需求沒有得到很好的滿足,因此,將上述累加得到的匹配值乘以一個(gè)系數(shù)1/2,如式(3)所示.

    各智能體獨(dú)立地進(jìn)行決策后輸出的決策結(jié)果共同構(gòu)成一個(gè)完整的體系任務(wù)分配方案a=(a1,a2,…,aN),其中,ai表示智能體i 的決策結(jié)果,也即該智能體的目標(biāo)任務(wù)節(jié)點(diǎn)的索引,N 為智能體的數(shù)量.

    各智能體獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)如式(4)所示,其中,rewd為各智能體與任務(wù)節(jié)點(diǎn)距離的倒數(shù),rewe為各智能體與任務(wù)節(jié)點(diǎn)的能力匹配之和,n0為沒有被分配對(duì)應(yīng)的作戰(zhàn)單元任務(wù)節(jié)點(diǎn)的數(shù)量.

    在上述作戰(zhàn)體系任務(wù)分配場景中,所有的智能體共享同一個(gè)獎(jiǎng)勵(lì)值,各智能體的決策目標(biāo)就是使得該獎(jiǎng)勵(lì)值最大化.

    3 基于MADDPG 算法的作戰(zhàn)體系任務(wù)分配模型

    依據(jù)生成數(shù)據(jù)的策略和進(jìn)行評(píng)估的策略是否相同,強(qiáng)化學(xué)習(xí)算法可以分為在線(on-policy)算法和離線(off-policy)算法,on-policy 算法例如優(yōu)勢動(dòng)作評(píng)論算法(advantage actor critic,A2C)、置信域策略優(yōu)化算法(trust region policy optimization,TRPO)中,用于生成數(shù)據(jù)的策略和進(jìn)行評(píng)估的策略是相同的,每個(gè)批次用于評(píng)估的數(shù)據(jù)都是由當(dāng)前最新的策略網(wǎng)絡(luò)新生成的并且數(shù)據(jù)用完就丟棄,而off-policy 算法例如DDPG 算法、軟演員-評(píng)論家算法(soft actor-critic,SAC)算法,則是將智能體每次與環(huán)境的交互數(shù)據(jù)存放在一個(gè)名為經(jīng)驗(yàn)回放池(replay buffer)的結(jié)構(gòu)中,模型每次進(jìn)行訓(xùn)練時(shí),就從數(shù)據(jù)經(jīng)驗(yàn)回放池中取出一定數(shù)量的訓(xùn)練樣本進(jìn)行參數(shù)更新. 由于采用經(jīng)驗(yàn)回放機(jī)制在每次訓(xùn)練時(shí)是隨機(jī)抽取不同訓(xùn)練周期的數(shù)據(jù),因此,可以消除樣本之間關(guān)聯(lián)性的影響,同時(shí)在強(qiáng)化學(xué)習(xí)任務(wù)中,訓(xùn)練交互數(shù)據(jù)通常是比較寶貴的,如果每條數(shù)據(jù)只能被利用一次則是對(duì)訓(xùn)練數(shù)據(jù)的嚴(yán)重浪費(fèi),采用經(jīng)驗(yàn)回放機(jī)制還能夠提高樣本的利用效率,加快模型的訓(xùn)練速度,尤其是在多智能體的強(qiáng)化學(xué)習(xí)訓(xùn)練任務(wù)中,各智能體與環(huán)境的交互數(shù)據(jù)更顯寶貴. 因此,在多智能體強(qiáng)化學(xué)習(xí)中多采用offpolicy 算法進(jìn)行模型訓(xùn)練,例如著名的MADDPG 算法及其諸多變種,都屬于多智能體領(lǐng)域的off-policy強(qiáng)化學(xué)習(xí)算法.

    但是經(jīng)典的MADDPG 算法并不能直接應(yīng)用到體系的“作戰(zhàn)任務(wù)—作戰(zhàn)單元”匹配任務(wù)中來,主要是兩個(gè)原因,一個(gè)是MADDPG 算法,它是專門為連續(xù)動(dòng)作空間任務(wù)所設(shè)計(jì)的,而體系的任務(wù)分配場景中各智能體都是離散型的動(dòng)作空間,因此,需要對(duì)算法進(jìn)行一定的修改,使得修改后的算法可以應(yīng)用于離散型動(dòng)作空間的問題;另一個(gè)原因是當(dāng)前MADDPG算法所解決的問題都是多步?jīng)Q策問題,也即每個(gè)智能體最后輸出的是一個(gè)動(dòng)作序列ai=(ai1,ai2,…,ait),這樣在進(jìn)行網(wǎng)絡(luò)參數(shù)訓(xùn)練時(shí)智能體i 就可以利用數(shù)據(jù)組(si,ai,ri,si′)進(jìn)行梯度計(jì)算,而體系“作戰(zhàn)任務(wù)—作戰(zhàn)單元”匹配任務(wù),是屬于單步?jīng)Q策問題每個(gè)智能體最終輸出的動(dòng)作只有一個(gè)而非一個(gè)序列,智能體所生成的訓(xùn)練數(shù)據(jù)組為(si,ai,ri)缺少了智能體的下一步狀態(tài)si′,因此,需要對(duì)智能體的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的損失函數(shù)計(jì)算方法進(jìn)行一定的修改,使得該方法可以應(yīng)用到單步?jīng)Q策問題中來.

    MADDPG 算法是用來解決連續(xù)動(dòng)作空間的強(qiáng)化學(xué)習(xí)任務(wù)的,當(dāng)智能體的動(dòng)作空間是離散時(shí),通常采用的是利用argmax 函數(shù)將具備最大輸出概率的動(dòng)作節(jié)點(diǎn)作為神經(jīng)網(wǎng)絡(luò)的輸出,但是由于argmax 函數(shù)不滿足多元函數(shù)連續(xù)且具有偏導(dǎo)數(shù)的條件,因此,argmax 函數(shù)是不可導(dǎo)的,這樣神經(jīng)網(wǎng)絡(luò)就無法計(jì)算梯度并采用反向傳播的機(jī)制進(jìn)行參數(shù)學(xué)習(xí),此外argmax 函數(shù)的輸出不具備隨機(jī)性,函數(shù)的輸出每次都是將最大值的節(jié)點(diǎn)輸出,忽略了該數(shù)據(jù)作為概率的屬性. 采用Gumbel-softmax 方法可以根據(jù)輸入向量生成一組離散的概率分布向量[21],以此來解決上述問題.

    采用Gumbel-softmax 方法生成離散的概率分布向量的算法流程如下所示.

    1)給定的神經(jīng)網(wǎng)絡(luò)輸出為一個(gè)n 維的向量v,首先生成n 個(gè)服從均勻分布U(0,1)的獨(dú)立樣本ε1,ε2,…,εn.

    2)之后通過Gi=-log(-log(εi))計(jì)算得到Gi.

    3)將向量v 中的元素與對(duì)應(yīng)的隨機(jī)向量Gi相加后得到新的值向量v′=[v1+G1,v2+G2,…,vn+Gn].

    4)通過softmax 函數(shù)計(jì)算得到各類別的選擇概率,如式(7)所示,其中,為溫度參數(shù),該參數(shù)控制著softmax 函數(shù)的soft 程度,溫度越高所生成的分布越平滑(探索性越強(qiáng)),溫度越低則生成的分布越接近離散的one-hot 分布,因此,在訓(xùn)練過程中,可以逐步降低該溫度的大小,以逐步逼近真實(shí)的離散分布.

    MADDPG 算法在解決多步?jīng)Q策的強(qiáng)化學(xué)習(xí)任務(wù)時(shí),利用一個(gè)價(jià)值網(wǎng)絡(luò)來計(jì)算智能體i 在當(dāng)前狀態(tài)的Q 值Qsi和下一步狀態(tài)的Q 值Qsi′,并利用ri+Qsi與Qsi′進(jìn)行對(duì)比來計(jì)算策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的損失值,在單步?jīng)Q策中,由于沒有下步狀態(tài)si′的存在,將價(jià)值網(wǎng)絡(luò)的評(píng)估值從Q 值估計(jì)值轉(zhuǎn)變?yōu)楠?jiǎng)勵(lì)值ri的估計(jì)值,那么可以用ri與Qsi進(jìn)行對(duì)比來計(jì)算策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的損失值,以此來對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行更新.

    3.1 基于MADDPG 體系任務(wù)分配算法框架

    采用修改后的MADDPG 算法來解決體系的“任務(wù)—作戰(zhàn)單元”匹配任務(wù)時(shí),每個(gè)智能體都有一個(gè)策略(actor)網(wǎng)絡(luò)和一個(gè)價(jià)值(critic)網(wǎng)絡(luò),其中,策略網(wǎng)絡(luò)可以根據(jù)智能體的觀測信息,快速輸出一個(gè)能夠使得智能體獲得最大預(yù)期收益的動(dòng)作,而智能體的價(jià)值網(wǎng)絡(luò)則只在模型訓(xùn)練階段出現(xiàn),用來對(duì)智能體策略網(wǎng)絡(luò)輸出的動(dòng)作進(jìn)行評(píng)價(jià),并以此來輔助智能體策略網(wǎng)絡(luò)參數(shù)的訓(xùn)練. 模型訓(xùn)練階段的總體框架如圖3 所示,圖中實(shí)線表示產(chǎn)生訓(xùn)練數(shù)據(jù)的過程,虛線表示模型訓(xùn)練的過程,在產(chǎn)生訓(xùn)練數(shù)據(jù)階段,智能體i 從環(huán)境中獲得自身的觀測數(shù)據(jù)oi并輸入給策略網(wǎng)絡(luò)πi,策略網(wǎng)絡(luò)根據(jù)輸入的信息生成一個(gè)動(dòng)作ai作為智能體i 的輸出,之后所有的智能體都將自身的動(dòng)作輸入到環(huán)境中,環(huán)境反饋給各智能體一個(gè)獎(jiǎng)勵(lì)值r=(r1,r2,…,rN),然后各智能體將生成的數(shù)據(jù)組(si,ai,ri)存儲(chǔ)到經(jīng)驗(yàn)回放池中供下一步的模型訓(xùn)練,其中,si表示智能體i 的狀態(tài),包含智能體i 自身的信息以及從環(huán)境中觀測到的信息;在進(jìn)行模型訓(xùn)練時(shí),從經(jīng)驗(yàn)回放池中抽取一定數(shù)量的數(shù)據(jù),并利用抽取的數(shù)據(jù)計(jì)算各智能體價(jià)值網(wǎng)絡(luò)Qi的梯度,并根據(jù)采樣數(shù)據(jù)和價(jià)值網(wǎng)絡(luò)的取值計(jì)算各智能體策略網(wǎng)絡(luò)的梯度,之后根據(jù)所計(jì)算得到的網(wǎng)絡(luò)梯度對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行更新.

    圖3 基于MADDPG 的體系任務(wù)分配算法框架Fig.3 SoS task assignment algorithm based on MADDPG

    值得注意的是,采用集中式訓(xùn)練的方法,在訓(xùn)練階段的價(jià)值網(wǎng)絡(luò),能夠獲取全局的狀態(tài)信息和動(dòng)作信息作為網(wǎng)絡(luò)的輸入,在體系任務(wù)分配的場景中就是將所有智能體的觀測信息和動(dòng)作信息一并作為各價(jià)值網(wǎng)絡(luò)的輸入信息,如圖4 所示,智能體1 的價(jià)值網(wǎng)絡(luò)1 就是將智能體1~N 的觀測信息和動(dòng)作信息作為輸入信息,并輸出智能體1 在觀測數(shù)據(jù)為o1時(shí)采取動(dòng)作a1的Q 值Q1.

    當(dāng)模型訓(xùn)練完之后,智能體的價(jià)值網(wǎng)絡(luò)就被丟棄了,在模型應(yīng)用階段,智能體可以利用自身的策略網(wǎng)絡(luò)根據(jù)從環(huán)境中觀測到的信息,快速得到一個(gè)能夠使自身獲得最大預(yù)期收益的動(dòng)作,各智能體的動(dòng)作構(gòu)成了體系“任務(wù)—作戰(zhàn)單元”匹配任務(wù)的聯(lián)合動(dòng)作a=(a1,a2,…,aN),如圖5 所示,將該聯(lián)合動(dòng)作輸入到環(huán)境中后,各智能體可以得到一個(gè)獎(jiǎng)勵(lì)值來對(duì)自身所采取的動(dòng)作進(jìn)行評(píng)價(jià).

    3.2 actor 網(wǎng)絡(luò)結(jié)構(gòu)

    智能體的策略網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示,智能體i 的策略網(wǎng)絡(luò)的輸入是該智能體的觀測信息oi,包含智能體i 自身的位置信息、狀態(tài)信息、其他智能體相對(duì)于智能體i 的位置距離,以及任務(wù)節(jié)點(diǎn)的位置信息和能力需求信息,輸入信息經(jīng)過多層神經(jīng)網(wǎng)絡(luò)處理后輸出一個(gè)維度為任務(wù)節(jié)點(diǎn)個(gè)數(shù)的向量,之后經(jīng)過Gumbel-softmax 方法處理后得到各任務(wù)節(jié)點(diǎn)的選擇概率,最后選擇概率最大的節(jié)點(diǎn)作為智能體i 在觀測信息為oi時(shí)的動(dòng)作選擇結(jié)果.

    圖6 actor 網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Actor network structure

    3.3 critic 網(wǎng)絡(luò)結(jié)構(gòu)

    智能體的價(jià)值網(wǎng)絡(luò)結(jié)構(gòu)如圖7 所示,智能體i 的價(jià)值網(wǎng)絡(luò)的輸入包含所有智能體的觀測信息o=(o1,o2,…,oN)和動(dòng)作選擇信息a=(a1,a2,…,aN),同樣的,策略網(wǎng)絡(luò)的輸入信息經(jīng)過多層神經(jīng)網(wǎng)絡(luò)處理后輸出一個(gè)維度為1 的向量,該向量的取值就是各個(gè)智能體在觀測信息為o 且動(dòng)作選擇結(jié)果為a 時(shí)的獎(jiǎng)勵(lì)估計(jì)值.

    圖7 critic 網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 Critic network structure

    基于MADDPG 的體系任務(wù)分配算法如算法1 所示. 當(dāng)模型訓(xùn)練完成后,各智能體就可以獨(dú)立地根據(jù)自身的觀測信息對(duì)體系任務(wù)進(jìn)行高效的分配.

    4 實(shí)驗(yàn)

    4.1 對(duì)比算法設(shè)置

    算法1 基于MADDPG 的體系“任務(wù)-作戰(zhàn)單元”匹配任務(wù)強(qiáng)化學(xué)習(xí)訓(xùn)練算法輸入: 初始化各智能體策略網(wǎng)絡(luò)的參數(shù)θ=(θ1,…,θN)和價(jià)值網(wǎng)絡(luò)參數(shù)?=(?1,…,?N)輸出: 訓(xùn)練后的最優(yōu)參數(shù)θ*,?*1: for iep←1,2,…maxeposide do 2: 重置環(huán)境,得到每個(gè)智能體的觀測向量o=(o1,o2,…,oN)3: 根據(jù)各智能體的策略網(wǎng)絡(luò)得到各智能體的動(dòng)作ai~πi(·|oi)4: 將聯(lián)合動(dòng)作a=(a1,a2,…,aN)輸入到環(huán)境中,得到反饋的獎(jiǎng)勵(lì)值r=(r1,r2,…,rN)5: 將各智能體的數(shù)據(jù)元組(si,ai,ri)存儲(chǔ)到數(shù)據(jù)池D 中6: if iep >最小參數(shù)更新間隔:7:從D 中采樣出一個(gè)批次的數(shù)據(jù)樣本B 8:for agent i=1 to N:9:計(jì)算各智能體的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的梯度值:10:dθi←1 aiQiπ(ok,a)11:d?i←1 k=1E o~D,a~πΔ n ∑n θiπi(oik)Δ n ∑n k=1E(o,a,r)~D(rik-Qi?(o,a))2 12:for agent i=1 to N:13:更新各智能體的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的參數(shù):14:θi←(1-η)θi+η*Adam(dθi)15:?i←(1-η)?i+η*Adam(d?i)16: end for

    為了驗(yàn)證集中式訓(xùn)練模式下的多智能體強(qiáng)化學(xué)習(xí)算法在分布式?jīng)Q策環(huán)境下,面對(duì)體系“作戰(zhàn)任務(wù)—作戰(zhàn)單元”匹配任務(wù)時(shí)的有效性,選擇分布式訓(xùn)練的多智能體強(qiáng)化學(xué)習(xí)算法作為對(duì)比算法. 集中式訓(xùn)練的多智能體強(qiáng)化學(xué)習(xí)算法與分布式訓(xùn)練的智能體強(qiáng)化學(xué)習(xí)算法最大的不同就是,集中式訓(xùn)練的多智能體強(qiáng)化學(xué)習(xí)算法是采用集中式訓(xùn)練分布式執(zhí)行的模式,智能體的價(jià)值網(wǎng)絡(luò)在訓(xùn)練階段可以獲取全局狀態(tài)信息來輔助智能體策略網(wǎng)絡(luò)的訓(xùn)練;而分布式訓(xùn)練的多智能體強(qiáng)化學(xué)習(xí)算法則是采用分布式訓(xùn)練分布式執(zhí)行的模式,各智能體都將其他智能體視為環(huán)境的一部分,無論是在模型訓(xùn)練階段還是模型執(zhí)行階段,都是獨(dú)立地根據(jù)自身的觀測信息進(jìn)行獨(dú)立決策.

    4.2 實(shí)驗(yàn)環(huán)境

    本文設(shè)計(jì)了一個(gè)通信受限條件下的體系“任務(wù)—作戰(zhàn)單元”匹配的任務(wù)場景,在該任務(wù)場景中,設(shè)計(jì)體系中擁有相同數(shù)量的作戰(zhàn)單元節(jié)點(diǎn)和作戰(zhàn)任務(wù)節(jié)點(diǎn),各作戰(zhàn)單元和作戰(zhàn)任務(wù)節(jié)點(diǎn)分別位于場景中一個(gè)隨機(jī)生成的位置上,該位置的坐標(biāo)在[-1,+1]×[-1,+1]×[-1,+1]范圍內(nèi)隨機(jī)生成,此外每個(gè)作戰(zhàn)單元都擁有3 種類型能力,各能力的取值采用均勻分布的形式在一定的數(shù)據(jù)范圍內(nèi)隨機(jī)生成,同樣的每個(gè)任務(wù)目標(biāo)也有一定的能力需求對(duì)應(yīng)于作戰(zhàn)單元所能提供的3 種能力,任務(wù)目標(biāo)的能力需求也采用均勻分布的形式在一定的數(shù)據(jù)范圍內(nèi)隨機(jī)生成. 由于敵方通信干擾等因素的影響,各作戰(zhàn)單元間不能進(jìn)行通信,同時(shí)場景中也不存在一個(gè)中心決策節(jié)點(diǎn)來協(xié)調(diào)各作戰(zhàn)單元的決策,因此,各作戰(zhàn)單元需要根據(jù)自身的狀態(tài)信息和觀測信息獨(dú)立地進(jìn)行決策,決策內(nèi)容是選擇哪一個(gè)任務(wù)目標(biāo)作為自己的目標(biāo)節(jié)點(diǎn). 由于所設(shè)計(jì)的體系任務(wù)分配場景屬于是合作型的任務(wù),各作戰(zhàn)單元希望通過合作達(dá)到體系總體決策效果最優(yōu),因此,將各作戰(zhàn)單元的任務(wù)分配整體效果作為各智能體的獎(jiǎng)勵(lì)值.

    所有算法都采用Python 進(jìn)行實(shí)現(xiàn),并在同一臺(tái)配置了Geforce RTX3090 顯卡、Intel 16-Core i9-11900K CPU 的計(jì)算機(jī)上運(yùn)行. 基于MADDPG 算法的體系任務(wù)分配模型網(wǎng)絡(luò)主要超參數(shù)如表1 所示,為了保證一致,對(duì)比算法DDPG 采用相同的網(wǎng)絡(luò)參數(shù).

    表1 模型網(wǎng)絡(luò)超參數(shù)Table 1 Hyperparameters of model network

    4.3 實(shí)驗(yàn)結(jié)果分析

    集中式訓(xùn)練的多智能體強(qiáng)化學(xué)習(xí)算法和分布式訓(xùn)練的多智能體強(qiáng)化學(xué)習(xí)算法,在解決體系的“任務(wù)—作戰(zhàn)單元”匹配任務(wù)時(shí)的模型訓(xùn)練曲線如圖8 和圖9 所示,橫坐標(biāo)表示訓(xùn)練的回合數(shù),縱坐標(biāo)表示智能體得到的平均獎(jiǎng)勵(lì)值. 可以看到,隨著訓(xùn)練進(jìn)程的推進(jìn),采用集中式訓(xùn)練的多智能體強(qiáng)化學(xué)習(xí)算法進(jìn)行訓(xùn)練的智能體所得到的獎(jiǎng)勵(lì)值不斷增大,最終穩(wěn)定在0.6 左右的水平,曲線收斂. 在模型訓(xùn)練剛開始的時(shí)候,智能體所得到的獎(jiǎng)勵(lì)值是小于0 的,也就是智能體還沒有學(xué)會(huì)與其他智能體進(jìn)行任務(wù)協(xié)同分配,導(dǎo)致體系的任務(wù)分配出現(xiàn)有的任務(wù)被多個(gè)智能體選擇,而有的任務(wù)沒有被選擇的現(xiàn)象,而隨著訓(xùn)練進(jìn)程的推進(jìn),由于環(huán)境反饋?zhàn)饔玫挠绊?智能體逐漸學(xué)會(huì)了與其他智能體進(jìn)行任務(wù)協(xié)同分配,即使在沒有中心決策節(jié)點(diǎn)進(jìn)行協(xié)調(diào)的情況下,各智能體依然能夠根據(jù)自身的狀態(tài)信息和觀測到的信息,采用分布式?jīng)Q策的方式獨(dú)立地作出使得體系的效能最大的任務(wù)分配方案. 相對(duì)應(yīng)地,采用分布式訓(xùn)練的多智能體強(qiáng)化學(xué)習(xí)算法得到的獎(jiǎng)勵(lì)值始終為負(fù)數(shù),表示智能體沒有學(xué)會(huì)上述任務(wù)協(xié)同分配策略,隨著訓(xùn)練進(jìn)程的推進(jìn),各智能體沒有學(xué)會(huì)如何與其他智能體合作任務(wù)分配,主要原因是分布式訓(xùn)練模式下的多智能體強(qiáng)化學(xué)習(xí)算法中,智能體是將其他智能體視為環(huán)境的一部分,由于智能體的決策策略是在不斷改進(jìn)變化的,從而導(dǎo)致了環(huán)境的不穩(wěn)定性,而采用集中式訓(xùn)練分布式執(zhí)行模式的多智能體強(qiáng)化學(xué)習(xí)算法,在一定程度上緩解了環(huán)境不穩(wěn)定性所帶來的影響. 從上述實(shí)驗(yàn)結(jié)果來看,采用集中式訓(xùn)練分布式執(zhí)行模式的多智能體強(qiáng)化學(xué)習(xí)算法,來訓(xùn)練智能體在通信受限的場景下進(jìn)行分布式?jīng)Q策是有效的.

    圖8 集中式訓(xùn)練的多智能體強(qiáng)化學(xué)習(xí)算法訓(xùn)練的智能體平均獎(jiǎng)勵(lì)曲線Fig.8 Mean reward curve of agent trained by centralized training multi-agent reinforcement learning algorithm

    圖9 分布式訓(xùn)練的多智能體強(qiáng)化學(xué)習(xí)算法訓(xùn)練的智能體平均獎(jiǎng)勵(lì)曲線Fig.9 Mean reward curve of agent trained by decentralized training multi-agent reinforcement learning algorithm

    5 結(jié)論

    隨著軍事裝備的快速發(fā)展,以及戰(zhàn)場環(huán)境的復(fù)雜多變,傳統(tǒng)的集中式?jīng)Q策模式越來越難以適應(yīng)未來戰(zhàn)爭的需求,邊緣作戰(zhàn)單元根據(jù)自身的狀態(tài)信息和觀測信息獨(dú)立地進(jìn)行決策將更加常見.

    本文設(shè)計(jì)了一個(gè)在通信受限的場景下,作戰(zhàn)體系的“任務(wù)—作戰(zhàn)單元”匹配體系設(shè)計(jì)任務(wù),并基于多智能體強(qiáng)化學(xué)習(xí)技術(shù),提出了一個(gè)基于MADDPG算法的體系任務(wù)分配模型,該模型針對(duì)體系設(shè)計(jì)場景中的離散動(dòng)作空間,以及單步?jīng)Q策等問題進(jìn)行了相應(yīng)改進(jìn),并采用集中式訓(xùn)練和分布式執(zhí)行的模式,在模型訓(xùn)練階段各智能體的價(jià)值網(wǎng)絡(luò)將能夠獲取全局狀態(tài)信息來輔助策略網(wǎng)絡(luò)的訓(xùn)練,而在模型運(yùn)行階段,各智能體只需要根據(jù)自身的觀測信息就能快速獨(dú)立地進(jìn)行決策. 實(shí)驗(yàn)結(jié)果顯示,與分布式訓(xùn)練的多智能體強(qiáng)化學(xué)習(xí)算法相比,采用集中式訓(xùn)練的多智能體強(qiáng)化學(xué)習(xí)算法訓(xùn)練出來的各智能體,在進(jìn)行分布式?jīng)Q策時(shí)具備更高的協(xié)同能力,所作出的體系任務(wù)分配方案效率更高.

    猜你喜歡
    集中式決策節(jié)點(diǎn)
    CM節(jié)點(diǎn)控制在船舶上的應(yīng)用
    為可持續(xù)決策提供依據(jù)
    Analysis of the characteristics of electronic equipment usage distance for common users
    基于AutoCAD的門窗節(jié)點(diǎn)圖快速構(gòu)建
    決策為什么失誤了
    光伏:分布式新增裝機(jī)規(guī)模首次超越集中式
    能源(2018年8期)2018-09-21 07:57:16
    組串式、集中式逆變器的評(píng)估選定淺析
    電子測試(2017年23期)2017-04-04 05:07:46
    接觸網(wǎng)隔離開關(guān)集中式控制方案研究
    電氣化鐵道(2016年5期)2016-04-16 05:59:55
    光伏集中式逆變器與組串式逆變器
    抓住人才培養(yǎng)的關(guān)鍵節(jié)點(diǎn)
    欧美激情久久久久久爽电影| 午夜福利在线在线| 亚洲人成网站在线观看播放| 午夜久久久久精精品| 久久久a久久爽久久v久久| 国产色爽女视频免费观看| 精品久久久久久久久久久久久| 午夜久久久久精精品| 国产伦精品一区二区三区四那| 麻豆成人av视频| 亚洲经典国产精华液单| 久久精品91蜜桃| 男女啪啪激烈高潮av片| 免费观看a级毛片全部| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 亚洲精品aⅴ在线观看| 精品久久久久久久久亚洲| 国产精品精品国产色婷婷| 一本一本综合久久| 啦啦啦观看免费观看视频高清| 人人妻人人澡人人爽人人夜夜 | 在线免费观看的www视频| 日日摸夜夜添夜夜爱| 女人被狂操c到高潮| 97超碰精品成人国产| 精品人妻偷拍中文字幕| 噜噜噜噜噜久久久久久91| 能在线免费观看的黄片| 国产成人午夜福利电影在线观看| 午夜福利在线在线| 一夜夜www| 成年免费大片在线观看| 不卡视频在线观看欧美| 久久久久精品久久久久真实原创| 日韩高清综合在线| 欧美一级a爱片免费观看看| 插逼视频在线观看| 五月玫瑰六月丁香| 国产亚洲av嫩草精品影院| 成年av动漫网址| 九草在线视频观看| 久久久久久伊人网av| 国产精品久久视频播放| 国产精品麻豆人妻色哟哟久久 | 国产成年人精品一区二区| 一边摸一边抽搐一进一小说| 亚洲在线自拍视频| 国产爱豆传媒在线观看| 久久久精品欧美日韩精品| 51国产日韩欧美| av专区在线播放| 22中文网久久字幕| 国产精品精品国产色婷婷| 桃色一区二区三区在线观看| 成人高潮视频无遮挡免费网站| 成人三级黄色视频| 国模一区二区三区四区视频| 乱码一卡2卡4卡精品| 精品国产一区二区三区久久久樱花 | www日本黄色视频网| 亚洲av电影在线观看一区二区三区 | 在线免费观看的www视频| 男人的好看免费观看在线视频| 日韩欧美国产在线观看| 男的添女的下面高潮视频| 久久人人爽人人爽人人片va| 非洲黑人性xxxx精品又粗又长| 国产午夜精品一二区理论片| 国产精品无大码| 免费大片18禁| 91av网一区二区| a级毛片免费高清观看在线播放| 亚洲国产精品成人久久小说| 久久亚洲国产成人精品v| 久久久午夜欧美精品| 欧美性猛交黑人性爽| 三级毛片av免费| 久久久久久久久中文| 男女啪啪激烈高潮av片| 欧美精品国产亚洲| 嫩草影院精品99| 高清日韩中文字幕在线| 2021天堂中文幕一二区在线观| 久久久久精品久久久久真实原创| 国产亚洲午夜精品一区二区久久 | 久久久午夜欧美精品| 九九久久精品国产亚洲av麻豆| 精品久久国产蜜桃| 天天躁日日操中文字幕| 秋霞在线观看毛片| 久久人妻av系列| 久久精品国产亚洲av涩爱| 午夜福利网站1000一区二区三区| 成人国产麻豆网| 最近视频中文字幕2019在线8| 午夜精品在线福利| 99热全是精品| 国语自产精品视频在线第100页| 亚洲美女视频黄频| 亚洲欧美日韩高清专用| 赤兔流量卡办理| 汤姆久久久久久久影院中文字幕 | av国产久精品久网站免费入址| av黄色大香蕉| 成人毛片60女人毛片免费| 床上黄色一级片| 在线免费观看不下载黄p国产| 91精品一卡2卡3卡4卡| 久久99蜜桃精品久久| 日本免费a在线| 99热这里只有精品一区| 国内精品美女久久久久久| 有码 亚洲区| 最近的中文字幕免费完整| 国产伦理片在线播放av一区| 精品久久久久久久久亚洲| av在线播放精品| 简卡轻食公司| 婷婷色综合大香蕉| 在线观看一区二区三区| 中文精品一卡2卡3卡4更新| 色播亚洲综合网| 亚洲一区高清亚洲精品| 亚洲在线观看片| 黄色一级大片看看| 日本五十路高清| 99在线人妻在线中文字幕| 毛片一级片免费看久久久久| 建设人人有责人人尽责人人享有的 | 国产亚洲精品久久久com| av专区在线播放| 2021天堂中文幕一二区在线观| 91在线精品国自产拍蜜月| 国产久久久一区二区三区| 看十八女毛片水多多多| a级毛片免费高清观看在线播放| 免费看av在线观看网站| 国产熟女欧美一区二区| 国产亚洲午夜精品一区二区久久 | 在线免费十八禁| 国产精品人妻久久久久久| 五月伊人婷婷丁香| 久久久色成人| 两性午夜刺激爽爽歪歪视频在线观看| 免费不卡的大黄色大毛片视频在线观看 | av女优亚洲男人天堂| 波多野结衣巨乳人妻| 亚洲乱码一区二区免费版| 日韩av在线大香蕉| 国产午夜精品一二区理论片| www.色视频.com| 在线免费十八禁| 高清视频免费观看一区二区 | 亚洲精品影视一区二区三区av| 日本一本二区三区精品| 村上凉子中文字幕在线| 在现免费观看毛片| 免费看光身美女| 男人舔女人下体高潮全视频| 久久久精品94久久精品| 国内精品一区二区在线观看| 白带黄色成豆腐渣| 内射极品少妇av片p| 亚洲乱码一区二区免费版| 日本wwww免费看| 日韩欧美三级三区| 欧美激情在线99| 一级av片app| 人人妻人人看人人澡| 国产熟女欧美一区二区| 菩萨蛮人人尽说江南好唐韦庄 | 一级黄片播放器| 成人午夜精彩视频在线观看| 成人毛片60女人毛片免费| 97超视频在线观看视频| 欧美成人a在线观看| 18禁动态无遮挡网站| 精品酒店卫生间| 亚洲乱码一区二区免费版| 日韩强制内射视频| 日韩亚洲欧美综合| 韩国高清视频一区二区三区| 国产久久久一区二区三区| 国产伦一二天堂av在线观看| 一个人看视频在线观看www免费| 成人毛片60女人毛片免费| 欧美bdsm另类| 亚洲精品一区蜜桃| 小蜜桃在线观看免费完整版高清| 中文字幕久久专区| 亚洲最大成人中文| 插逼视频在线观看| 97人妻精品一区二区三区麻豆| 色吧在线观看| 精品一区二区免费观看| 亚洲精品影视一区二区三区av| 九九爱精品视频在线观看| 久久这里有精品视频免费| 国产一级毛片七仙女欲春2| 长腿黑丝高跟| 最近的中文字幕免费完整| 日韩欧美在线乱码| 国产精品乱码一区二三区的特点| 日韩,欧美,国产一区二区三区 | 欧美zozozo另类| 国产精品久久电影中文字幕| 三级男女做爰猛烈吃奶摸视频| 精华霜和精华液先用哪个| 国产精品久久久久久av不卡| 午夜久久久久精精品| 插逼视频在线观看| 久久这里只有精品中国| 观看美女的网站| 国产久久久一区二区三区| 人体艺术视频欧美日本| 免费播放大片免费观看视频在线观看 | 免费一级毛片在线播放高清视频| 国产精品一区二区在线观看99 | 国产高潮美女av| 亚洲欧洲日产国产| 如何舔出高潮| 午夜福利高清视频| 好男人视频免费观看在线| 免费一级毛片在线播放高清视频| 亚洲精品乱久久久久久| 久久精品夜色国产| 永久网站在线| 免费观看性生交大片5| 夜夜爽夜夜爽视频| 免费播放大片免费观看视频在线观看 | 久久久a久久爽久久v久久| 在线播放国产精品三级| 九草在线视频观看| 蜜臀久久99精品久久宅男| 麻豆国产97在线/欧美| 国产精品久久视频播放| 国产乱来视频区| 亚洲人成网站高清观看| av福利片在线观看| 亚洲成人中文字幕在线播放| 久久久精品94久久精品| 日韩一区二区三区影片| 内射极品少妇av片p| 黄片无遮挡物在线观看| 男女视频在线观看网站免费| 国产精品久久电影中文字幕| 久久久久久久久中文| 永久网站在线| 日韩精品有码人妻一区| 18禁在线播放成人免费| 麻豆精品久久久久久蜜桃| 亚洲无线观看免费| 黄片无遮挡物在线观看| av卡一久久| 国产高清三级在线| 亚洲国产精品专区欧美| 老司机福利观看| 男女啪啪激烈高潮av片| 久久久久网色| 国产一级毛片七仙女欲春2| 欧美激情在线99| 国产成人午夜福利电影在线观看| 日本猛色少妇xxxxx猛交久久| 久久精品国产鲁丝片午夜精品| 日本与韩国留学比较| 日本爱情动作片www.在线观看| 亚洲久久久久久中文字幕| 亚洲三级黄色毛片| 欧美最新免费一区二区三区| 日韩制服骚丝袜av| 午夜福利视频1000在线观看| 国产又黄又爽又无遮挡在线| 插逼视频在线观看| 亚洲熟妇中文字幕五十中出| 久久久国产成人免费| 成人一区二区视频在线观看| 日本五十路高清| 六月丁香七月| 国产一区有黄有色的免费视频 | 久久精品夜色国产| 精品久久久久久久久久久久久| 色综合色国产| 一夜夜www| 国产激情偷乱视频一区二区| 国产真实伦视频高清在线观看| 91久久精品国产一区二区成人| 桃色一区二区三区在线观看| 3wmmmm亚洲av在线观看| 自拍偷自拍亚洲精品老妇| 我要搜黄色片| 亚洲精品乱码久久久v下载方式| 国产精品.久久久| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 精品久久久久久久久av| 美女cb高潮喷水在线观看| 亚洲久久久久久中文字幕| 欧美激情国产日韩精品一区| 国产极品天堂在线| 国产精品爽爽va在线观看网站| 女人十人毛片免费观看3o分钟| 欧美3d第一页| 亚洲人成网站在线观看播放| 婷婷色麻豆天堂久久 | 色尼玛亚洲综合影院| 尾随美女入室| 亚洲真实伦在线观看| 国产私拍福利视频在线观看| 麻豆成人午夜福利视频| 亚洲,欧美,日韩| 国产精品av视频在线免费观看| 亚洲国产色片| 大又大粗又爽又黄少妇毛片口| 汤姆久久久久久久影院中文字幕 | 人人妻人人澡欧美一区二区| 午夜亚洲福利在线播放| 在线免费观看不下载黄p国产| 久久久久国产网址| 免费av毛片视频| 美女内射精品一级片tv| 中文字幕精品亚洲无线码一区| 一级爰片在线观看| 天天一区二区日本电影三级| 日本黄大片高清| 亚洲中文字幕一区二区三区有码在线看| 久久人人爽人人爽人人片va| 联通29元200g的流量卡| 亚洲av福利一区| 丝袜喷水一区| 亚洲精品乱久久久久久| 亚洲在线自拍视频| 欧美精品国产亚洲| 成人一区二区视频在线观看| 国产亚洲午夜精品一区二区久久 | 免费黄网站久久成人精品| 免费观看a级毛片全部| 韩国av在线不卡| 又粗又爽又猛毛片免费看| 老司机影院成人| 日本免费在线观看一区| 午夜免费激情av| 国产精品1区2区在线观看.| av在线播放精品| 精品少妇黑人巨大在线播放 | 精品不卡国产一区二区三区| 久久久久九九精品影院| 国产精品久久久久久久电影| 大香蕉97超碰在线| 1000部很黄的大片| 精品人妻熟女av久视频| 久久欧美精品欧美久久欧美| 国产视频内射| 哪个播放器可以免费观看大片| 99热这里只有是精品在线观看| 午夜福利在线在线| 欧美3d第一页| eeuss影院久久| 亚洲欧美精品综合久久99| av播播在线观看一区| 人妻系列 视频| 日本免费一区二区三区高清不卡| 在线免费观看不下载黄p国产| 亚洲激情五月婷婷啪啪| 99热6这里只有精品| 日韩一本色道免费dvd| 日韩 亚洲 欧美在线| 日韩人妻高清精品专区| 久久人人爽人人片av| 久久久午夜欧美精品| 少妇熟女欧美另类| 久久99蜜桃精品久久| 啦啦啦啦在线视频资源| av国产免费在线观看| 如何舔出高潮| 久久99热这里只有精品18| 色尼玛亚洲综合影院| 久久久成人免费电影| 中文字幕免费在线视频6| 久久久久精品久久久久真实原创| 高清在线视频一区二区三区 | 亚洲av电影不卡..在线观看| 久久久成人免费电影| 精品久久久久久久久久久久久| 免费av毛片视频| 级片在线观看| 中文精品一卡2卡3卡4更新| 青春草视频在线免费观看| 床上黄色一级片| 成人午夜精彩视频在线观看| 欧美性感艳星| 日韩一区二区视频免费看| 亚洲av男天堂| 成人无遮挡网站| 久久亚洲国产成人精品v| 日本wwww免费看| 一级av片app| 成人毛片a级毛片在线播放| 激情 狠狠 欧美| 亚洲不卡免费看| 亚洲第一区二区三区不卡| 一边亲一边摸免费视频| 亚洲综合精品二区| kizo精华| 国国产精品蜜臀av免费| 免费av观看视频| 中国国产av一级| 日韩成人伦理影院| 99国产精品一区二区蜜桃av| 欧美区成人在线视频| 一本久久精品| 久久热精品热| 婷婷色av中文字幕| 国内揄拍国产精品人妻在线| 天堂影院成人在线观看| 高清av免费在线| 精品国内亚洲2022精品成人| 男女国产视频网站| 国产探花极品一区二区| 精品久久久久久久末码| 亚洲国产高清在线一区二区三| 好男人在线观看高清免费视频| 中文天堂在线官网| 麻豆av噜噜一区二区三区| 村上凉子中文字幕在线| 亚洲不卡免费看| 最近最新中文字幕免费大全7| 国产色婷婷99| 听说在线观看完整版免费高清| 日韩国内少妇激情av| 91久久精品国产一区二区成人| 老司机影院毛片| 久久国内精品自在自线图片| 亚洲精品亚洲一区二区| 女的被弄到高潮叫床怎么办| 七月丁香在线播放| 天堂av国产一区二区熟女人妻| 听说在线观看完整版免费高清| 亚洲欧美日韩东京热| 卡戴珊不雅视频在线播放| 中文亚洲av片在线观看爽| 日韩亚洲欧美综合| 国产av在哪里看| 18禁动态无遮挡网站| 美女国产视频在线观看| 韩国av在线不卡| 久久热精品热| 国产一级毛片在线| 日韩制服骚丝袜av| 黄色欧美视频在线观看| or卡值多少钱| 国产白丝娇喘喷水9色精品| 午夜老司机福利剧场| 国产免费福利视频在线观看| 国产精品国产三级国产专区5o | 国产又黄又爽又无遮挡在线| 一级毛片电影观看 | 淫秽高清视频在线观看| 国产毛片a区久久久久| 欧美zozozo另类| 精品国产露脸久久av麻豆 | 青青草视频在线视频观看| 久久久久久久亚洲中文字幕| 国产av在哪里看| 国产精品久久久久久精品电影小说 | 国产精品久久视频播放| 天堂网av新在线| 亚洲精品成人久久久久久| 桃色一区二区三区在线观看| 小说图片视频综合网站| 69人妻影院| 小蜜桃在线观看免费完整版高清| 亚洲怡红院男人天堂| 婷婷色av中文字幕| 久久久亚洲精品成人影院| 性色avwww在线观看| 一个人看视频在线观看www免费| 97在线视频观看| 国产欧美日韩精品一区二区| 亚洲av福利一区| 国产色婷婷99| 长腿黑丝高跟| 亚洲三级黄色毛片| 国产亚洲91精品色在线| 成人美女网站在线观看视频| 久久99热这里只有精品18| 国产中年淑女户外野战色| 两个人的视频大全免费| 老司机影院成人| 美女脱内裤让男人舔精品视频| 18禁在线无遮挡免费观看视频| 看十八女毛片水多多多| 精品久久久久久久末码| 全区人妻精品视频| 国语对白做爰xxxⅹ性视频网站| 夫妻性生交免费视频一级片| 女人十人毛片免费观看3o分钟| 两性午夜刺激爽爽歪歪视频在线观看| 超碰av人人做人人爽久久| 国产伦理片在线播放av一区| or卡值多少钱| 亚洲成av人片在线播放无| 欧美性猛交黑人性爽| 看黄色毛片网站| 青青草视频在线视频观看| 小说图片视频综合网站| 久久精品国产亚洲网站| 免费av毛片视频| 麻豆一二三区av精品| 69av精品久久久久久| 成年女人看的毛片在线观看| 干丝袜人妻中文字幕| www.色视频.com| 小蜜桃在线观看免费完整版高清| 国产精品久久久久久av不卡| 天天躁夜夜躁狠狠久久av| 亚洲av不卡在线观看| 五月玫瑰六月丁香| 不卡视频在线观看欧美| 国产精品嫩草影院av在线观看| 欧美日韩在线观看h| 天堂影院成人在线观看| 国产精品精品国产色婷婷| 国产精品1区2区在线观看.| 国产美女午夜福利| 男人舔女人下体高潮全视频| 亚洲丝袜综合中文字幕| 99久久无色码亚洲精品果冻| 欧美精品一区二区大全| 午夜精品国产一区二区电影 | 天堂中文最新版在线下载 | 少妇猛男粗大的猛烈进出视频 | 国产一级毛片七仙女欲春2| 国产69精品久久久久777片| 最近最新中文字幕免费大全7| 中文资源天堂在线| 午夜老司机福利剧场| 国产亚洲5aaaaa淫片| 乱码一卡2卡4卡精品| 欧美性猛交╳xxx乱大交人| 人体艺术视频欧美日本| 欧美丝袜亚洲另类| 国产成人91sexporn| 久久久欧美国产精品| 欧美xxxx黑人xx丫x性爽| 久久久午夜欧美精品| 精品人妻一区二区三区麻豆| 激情 狠狠 欧美| 熟女电影av网| 久久精品国产99精品国产亚洲性色| 美女黄网站色视频| 两性午夜刺激爽爽歪歪视频在线观看| 亚洲欧美日韩高清专用| 男女下面进入的视频免费午夜| 免费一级毛片在线播放高清视频| 性插视频无遮挡在线免费观看| 亚洲精品乱码久久久久久按摩| 久久久久久久久久久丰满| a级毛片免费高清观看在线播放| av福利片在线观看| a级毛色黄片| 亚州av有码| 久久久久久久久久成人| 99久国产av精品国产电影| 深夜a级毛片| 国产探花在线观看一区二区| 一个人观看的视频www高清免费观看| 又粗又爽又猛毛片免费看| 精品久久久久久久久久久久久| av在线天堂中文字幕| 亚洲欧美精品自产自拍| 91精品国产九色| 亚洲欧洲日产国产| 色网站视频免费| 国产69精品久久久久777片| 亚洲熟妇中文字幕五十中出| 免费无遮挡裸体视频| 三级毛片av免费| 色吧在线观看| 国产精品乱码一区二三区的特点| 一级毛片我不卡| 久久热精品热| 国产一级毛片在线| 精华霜和精华液先用哪个| 亚洲国产成人一精品久久久| 免费看a级黄色片| 亚洲欧美精品综合久久99| 亚洲综合色惰| 黄色欧美视频在线观看| 亚洲国产欧美在线一区| 免费人成在线观看视频色| 91久久精品国产一区二区三区| 国产成人午夜福利电影在线观看| 国产一区二区亚洲精品在线观看| 美女被艹到高潮喷水动态| 国产一区二区在线av高清观看| 秋霞伦理黄片| 一个人免费在线观看电影| 精品少妇黑人巨大在线播放 | 亚洲国产日韩欧美精品在线观看| 嫩草影院精品99| 国产伦一二天堂av在线观看| 最近中文字幕高清免费大全6| 欧美不卡视频在线免费观看| 久久99热这里只频精品6学生 | 久久精品国产自在天天线| 国产 一区 欧美 日韩| 狂野欧美激情性xxxx在线观看| 不卡视频在线观看欧美| 18禁裸乳无遮挡免费网站照片| 久久热精品热| 中文字幕亚洲精品专区| 国产成年人精品一区二区| 赤兔流量卡办理| 观看美女的网站| 国产精品一区二区三区四区免费观看| 美女内射精品一级片tv|