摘 要:典型基于深度強化學(xué)習(xí)的多智能體對抗策略生成方法采用“分總” 框架,各智能體基于部分可觀測信息生成策略并進行決策,缺乏從整體角度生成對抗策略的能力,大大限制了決策能力。為了解決該問題,基于分層強化學(xué)習(xí)提出改進的多智能體博弈策略生成方法?;诜謱訌娀瘜W(xué)習(xí)構(gòu)建觀測信息到整體價值的決策映射,以最大化整體價值作為目標(biāo)構(gòu)建優(yōu)化問題,并推導(dǎo)了策略優(yōu)化過程,為后續(xù)框架結(jié)構(gòu)和方法實現(xiàn)的設(shè)計提供了理論依據(jù);基于決策映射與優(yōu)化問題構(gòu)建,采用神經(jīng)網(wǎng)絡(luò)設(shè)計了模型框架,詳細(xì)闡述了頂層策略控制模型和個體策略執(zhí)行模型;基于策略優(yōu)化方法,給出詳細(xì)訓(xùn)練流程和算法流程;采用星際爭霸多智能體對抗(StarCraft Multi-Agent Challenge,SMAC)環(huán)境,與典型多智能體方法進行性能對比。實驗結(jié)果表明,該方法能夠有效生成對抗策略,控制異構(gòu)多智能體戰(zhàn)勝預(yù)設(shè)對手策略,相比典型多智能體強化學(xué)習(xí)方法性能提升明顯。
關(guān)鍵詞:分層強化學(xué)習(xí);多智能體博弈;深度神經(jīng)網(wǎng)絡(luò)
中圖分類號:TN929. 5 文獻標(biāo)志碼:A 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
文章編號:1003-3106(2024)06-1361-07
0 引言
策略生成技術(shù)是指通過計算或?qū)W習(xí),生成用于指導(dǎo)決策策略的方法和技術(shù)。隨著人工智能技術(shù)的不斷發(fā)展,策略生成技術(shù)被廣泛應(yīng)用于解決各種復(fù)雜的問題。策略通常是一個映射,將環(huán)境的狀態(tài)映射到可能的行動或決策,以最大化某種目標(biāo)函數(shù)(如累積獎勵、成功率等)。相比于利用并且依靠專家經(jīng)驗和領(lǐng)域知識的策略生成方法,基于海量數(shù)據(jù)的智能決策降低了知識門檻,并且過程更加客觀,避免主觀因素影響[1],特別是在零和對抗場景中[2-3]。因此,當(dāng)前智能博弈策略生成技術(shù)已經(jīng)廣泛應(yīng)用于無人機協(xié)同對抗[4]、通信智能抗干擾[5]和智能協(xié)同欺騙[6]等電磁頻譜作戰(zhàn)任務(wù)中。
當(dāng)前,主流策略生成技術(shù)采用深度強化學(xué)習(xí)方法[7],根據(jù)方法結(jié)構(gòu)和應(yīng)對受控體數(shù)量,可以分為集中式方法和分布式方法。集中式方法統(tǒng)一匯集觀測信息并完成所有受控實體的動作映射。特別是基于Deep QNetwork (DQN)方法的集中式方法在電磁頻譜規(guī)劃等場景中獲得良好表現(xiàn)[8-10],得益于結(jié)構(gòu)良好的可擴展和改進性,能夠適應(yīng)多種狀態(tài)形式的觀測數(shù)據(jù),如圖形化的頻譜瀑布圖[11]、長短時高維數(shù)據(jù)[12]等。但是,隨著受控數(shù)量的增加,集中式方法神經(jīng)網(wǎng)絡(luò)的神經(jīng)元數(shù)量將成指數(shù)上升,使得參數(shù)優(yōu)化效率變慢,策略生成性能變差,并且資源需求量大幅增加。
針對該缺點,“集中式訓(xùn)練,分布式執(zhí)行”成為解決當(dāng)前問題的主流理念。分布式方法分別構(gòu)建對應(yīng)受控個體的觀測到動作的映射網(wǎng)絡(luò),再構(gòu)建擬合網(wǎng)絡(luò)用于擬合個體動作價值到整體價值的映射。將整體“大網(wǎng)絡(luò)”拆分成多個“小網(wǎng)絡(luò)”,避免了維度爆炸。但是,該方法的難點在于由個體動作價值擬合整體價值。作為經(jīng)典方法Value-Decomposition Net-works(VDN)直接將個體動作價值相加得到對整體價值。但是,并非所有個體都具有相同權(quán)重的動作價值。特別是在異構(gòu)博弈對抗環(huán)境中,由于受控個體能力不同,權(quán)重必然不同。文獻[13]中,“QMIX”多智能體強化學(xué)習(xí)方法采用超神經(jīng)網(wǎng)絡(luò)的方法對于整體價值進行了估計,使得個體動作價值到整體價值的映射具有非線性特性,有利于對整體價值的估計。文獻[14]中,“Qtran”方法在此改進思路上進一步延伸,通過構(gòu)建等價函數(shù)、改進值分解等方法,提高了方法的適應(yīng)性,獲得更優(yōu)的效果。但是,該思路在全局信息的利用上存在缺點。個體只采用部分可觀察信息決策,協(xié)同能力是在訓(xùn)練過程中由整體價值分解得到的,以損失反饋的形式對各個體策略施加影響。在執(zhí)行過程中,難以實時利用全局信息或者由各實體觀測信息整合得到融合信息,影響決策性能。
針對該缺點,以分層強化學(xué)習(xí)為核心的博弈策略生成方法成為研究重點[15]。該思路通過構(gòu)建頂層控制單元和個體執(zhí)行單元形成層級支配控制。頂層控制單元匯總個體信息并產(chǎn)生控制信息,控制個體基于部分可觀測信息決策。相比于典型多智能體深度強化學(xué)習(xí)方法,分層強化學(xué)習(xí)通過任務(wù)分配和組合形成整體策略。智能體在訓(xùn)練過程中能夠避免智能體策略同時更新,使得單一個體對于體系內(nèi)其他個體的策略擬合效率更高。文獻[16]在通信抗干擾領(lǐng)域中采用了該思想。首先,頂層控制模塊識別出當(dāng)前通信干擾樣式,再針對性調(diào)用抗干擾樣式。但是個體策略的抗干擾樣式需要提前人為設(shè)計。文獻[17]頂層控制單元和個體執(zhí)行單元均采用神經(jīng)網(wǎng)絡(luò),個體策略也由數(shù)據(jù)訓(xùn)練得到。上述2 種方法主要解決單一受控個體面對多任務(wù)情況下的策略生成問題,針對異構(gòu)多智能體問題需要對策略生成框架改造。
基于分層強化學(xué)習(xí),本文提出改進的多智能體博弈策略生成方法。首先,基于深度神經(jīng)網(wǎng)絡(luò),構(gòu)造融合觀測信息的頂層策略控制模型,完成控制信息的生成。在結(jié)構(gòu)上,具有根據(jù)全局信息產(chǎn)生控制信息的能力。在訓(xùn)練過程中,能夠引導(dǎo)個體決策模型的生成。然后,將個體的部分觀察信息和控制信息映射為個體動作價值。最后,融合個體動作價值形成全局價值,并利用獎賞函數(shù)對整個神經(jīng)網(wǎng)絡(luò)參數(shù)進行優(yōu)化,達到博弈策略優(yōu)化的目的。
后續(xù)研究思路如下。首先,基于分層強化學(xué)習(xí)構(gòu)建觀測信息到整體價值的決策映射,以最大化整體價值作為目標(biāo)構(gòu)建優(yōu)化問題,并推導(dǎo)了策略優(yōu)化過程,為后續(xù)框架結(jié)構(gòu)和方法實現(xiàn)的設(shè)計提供了理論依據(jù);然后,基于決策映射與優(yōu)化問題構(gòu)建,采用神經(jīng)網(wǎng)絡(luò)設(shè)計了模型框架,詳細(xì)闡述了頂層策略控制模型和個體策略執(zhí)行模型;再次,基于策略優(yōu)化方法,給出詳細(xì)訓(xùn)練流程和算法流程;最后,采用典型星際爭霸多智能體對抗(StarCraft Multi-Agent Chal-lenge,SMAC)環(huán)境,與典型多智能體方法進行性能對比,驗證方法性能,并總結(jié)全文。
1 策略生成原理
博弈對抗策略的實質(zhì)是完成觀測信息到動作空間的影射,影射過程即為策略,而利用該過程得到動作即為決策?;谏疃壬窠?jīng)網(wǎng)絡(luò)的策略生成方法中的策略具象化是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)參數(shù)。本文網(wǎng)絡(luò)結(jié)構(gòu)具體分為策略控制網(wǎng)絡(luò)和策略執(zhí)行網(wǎng)絡(luò)。在網(wǎng)絡(luò)結(jié)構(gòu)確定的情況下,對網(wǎng)絡(luò)參數(shù)進行優(yōu)化即對策略優(yōu)化?;诖死砟?,本節(jié)詳細(xì)推導(dǎo)策略映射、優(yōu)化問題構(gòu)建和策略優(yōu)化方法。
1. 1 決策映射與優(yōu)化問題構(gòu)建
通過全局信息生成控制信息,并以控制信息對各智能體的策略形成過程施加影響,提高各智能體之間的協(xié)同能力。對于策略控制網(wǎng)絡(luò)模型f0 用于完成融合信息o0 到控制信息I 的映射:
I = f0,θ0(o0 ), (1)
式中:I = {In},n∈[1,N]表示擬合得到的控制信息,In 表示對應(yīng)N 個受控智能體;o0 表示各個智能體整合得到的全局信息,是多維矩陣形式[o1 ,…,on,…,oN],on 表示各智能體的觀測空間,即部分可觀測空間,n∈[1,N];θ0 表示深度神經(jīng)策略控制網(wǎng)絡(luò)參數(shù)。
在控制信息的影響下,能夠降低智能體對其他智能體策略估計的難度,降低了個體策略生成的難度。對于策略執(zhí)行網(wǎng)絡(luò)fn 用于實現(xiàn)控制信息I 和部分可觀測空間on 到離散動作價值Qn 的影射。為了協(xié)同能力的提升,各個智能體均均等的拿到所有控制信息。
Qn = fn,θn(I,on ), (2)
式中:Qn 表示第n 個智能體離散動作價值的集合{qa1 ,qa2 ,…,qam },θn 表示深度神經(jīng)策略執(zhí)行網(wǎng)絡(luò)參數(shù)。θ0 和θn 構(gòu)成整個模型的網(wǎng)絡(luò)參數(shù)θ。
從Qn 中選擇最大值所對應(yīng)的離散動作am′[18]:
am′ = argmax m Qn , (3)
式中:m∈[1,M],M 為離散動作數(shù)量。
1. 2 策略優(yōu)化方法
面對多智能體策略生成問題,整體價值最大化是策略生成與優(yōu)化的目標(biāo)。多智能體整體價值Qtotal 表示各個智能體價值的累加[19]:
Qtotal = ΣNn = 1Qn,am′ , (4)
式中:Qn,am′ 為第n 個智能體對應(yīng)的最大離散動作價值。
在各智能體動作在博弈環(huán)境中與對手策略交互之后,獲得的全局獎賞值為r。采用時序差分方法對離散動作價值進行更新:
Qtotal(O,a)← Qtotal(O,a)+ α[r + max a′∈A Qtotal(O′,a′)- Qtotal(O,a)],(5)
式中:α 表示折扣系數(shù),Qtotal(O,a)表示在當(dāng)前t 時刻觀測空間O 和各智能體所選動作對應(yīng)的整體價值,max a′∈A Qtotal(O′,a′)表示在后續(xù)t+1 時刻觀測空間O′下各智能體對應(yīng)的離散動作價值中的最大值求和得到整體價值。
用于網(wǎng)絡(luò)參數(shù)θ 更新的目標(biāo)損失函數(shù)L 定義為:
進行K 次決策后,將每次差值求取平均值得到目標(biāo)損失函數(shù)。通過最小化目標(biāo)損失函數(shù)更新網(wǎng)絡(luò)參數(shù)θ。
2 框架結(jié)構(gòu)
本節(jié)給出基于分層強化學(xué)習(xí)的模型框架,并逐層詳細(xì)闡述控制模型。
2. 1 基于分層強化學(xué)習(xí)的模型框架
基于策略生成原理,基于分層強化學(xué)習(xí)的模型框架如圖1 所示。
根據(jù)模型框架的結(jié)構(gòu),其計算過程可以闡述如下:
首先,頂層控制模型產(chǎn)生控制信息。全局信息由個體部分可觀察信息組成,頂層策略控制模型基于全局信息產(chǎn)生控制信息,對應(yīng)式(1)。
然后,個體策略執(zhí)行模型產(chǎn)生個體動作價值。執(zhí)行模型依據(jù)個體信息給出對應(yīng)離散動作的動作價值,使得框架可以根據(jù)動作價值的最大值選擇需要執(zhí)行的動作,對應(yīng)式(2)和式(3)。
最后,根據(jù)個體動作價值形成整體價值。對執(zhí)行模型產(chǎn)生的所有個體的最大動作價值進行累加,形成整體價值,對應(yīng)式(4)。通過對整體價值的迭代優(yōu)化實現(xiàn)策略優(yōu)化,對應(yīng)式(5)和式(6)。
2. 2 頂層策略控制模型
頂層策略控制模型采用深度神經(jīng)網(wǎng)絡(luò),包含輸入層、隱藏層和輸出層三部分。為了不失一般性并且突出本框架能力,觀測信息和離散動作空間結(jié)構(gòu)采用一維矩陣,頂層策略控制模型中各層均采用全連接神經(jīng)網(wǎng)絡(luò),并采用ReLU 作為激活函數(shù)。特別需要說明,本文核心在于闡述并驗證改進方法的優(yōu)秀性能,弱化了特征工程,如觀測信息為高維數(shù)據(jù)矩陣等形式,可針對實際工程需求的特異性采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、長短期記憶(Long Short Term Memory,LSTM )網(wǎng)絡(luò)和Transform 等神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),對本框架進一步改造。頂層策略控制模型如圖2 所示。
全局信息由個體觀測信息拼接組成,形成一維矩陣。全局信息矩陣維度為N×odim,其中odim 為個體觀測信息維度。輸入層的維度與全局信息維度一致。隱藏層用于將全局信息映射為原始控制信息。輸出層用于將原始控制信息按照控制信息維度要求進行特征提取,用于控制個體策略執(zhí)行模型??刂菩畔橐痪S矩陣,維度為N×Idim,其中Idim 為對應(yīng)各個體的控制信息維度。
2. 3 個體策略執(zhí)行模型
個體策略執(zhí)行模型的構(gòu)建邏輯與頂層策略控制模型一致,均采用全連接神經(jīng)網(wǎng)絡(luò),并采用ReLU 作為激活函數(shù),同樣包含輸入層、隱藏層和輸出層三部分。個體策略執(zhí)行模型如圖3 所示。
該模型輸入分為兩部分,分別是控制信息和融合標(biāo)志位的個體信息。融合標(biāo)志位的個體信息由個體標(biāo)志位n 和部分可觀測信息on 構(gòu)成。加入個體標(biāo)志位目的是明確區(qū)分當(dāng)前單體,有助于從控制信息中明確自己對應(yīng)的信息特征??刂菩畔⒑蛡€體信息經(jīng)過輸入層后,隱藏層提取輸入信息中包含的特征,用于支撐輸出層生成對應(yīng)離散動作的動作價值,維度為M。
3 方法實現(xiàn)
本節(jié)基于訓(xùn)練流程和算法流程詳細(xì)描述了方法實現(xiàn)。
3. 1 訓(xùn)練流程
訓(xùn)練流程采用環(huán)形結(jié)構(gòu),不斷迭代優(yōu)化博弈策略。除了優(yōu)化過程,還不斷對策略性能進行評估,并保存最優(yōu)參數(shù)作為最優(yōu)博弈策略。具體而言,環(huán)形訓(xùn)練流程包括5 個階段,分別為決策、交互、訓(xùn)練、評估和更新,如圖4 所示。
在決策階段,基于分層強化學(xué)習(xí)的模型,輸入觀測信息,得到動作價值,并選擇最大動作價值對應(yīng)的離散動作。
在交互階段,在博弈環(huán)境中,利用得到的離散動作與對手策略進行交互。通過交互獲得下一步觀測信息和當(dāng)前獎賞,構(gòu)建包含當(dāng)前觀測數(shù)據(jù)、執(zhí)行動作、當(dāng)前獎賞和動作執(zhí)行后得到的下一步觀測信息,將上述4 個元素保存為經(jīng)驗,并存儲在內(nèi)存空間中,命名為經(jīng)驗池R。
在訓(xùn)練階段,隨機從經(jīng)驗池中抽取多條經(jīng)驗數(shù)據(jù),采用目標(biāo)損失函數(shù)計算損失誤差,并且采用累加求和的方法估計誤差,使得參數(shù)尋優(yōu)的過程相對穩(wěn)定。
在評估階段,將對當(dāng)前得到的策略參數(shù)進行蒙特卡洛測試驗證。通過與對手策略進行多輪對抗,得到平均總獎賞。除此之外,如果當(dāng)前訓(xùn)練得到的策略參數(shù)所對應(yīng)的平均總獎賞優(yōu)于歷史最優(yōu)參數(shù),可以將當(dāng)前參數(shù)保留,作為最優(yōu)策略。
在更新階段,將訓(xùn)練階段得到的策略參數(shù)裝載于基于分層強化學(xué)習(xí)的模型框架,用于在下一次迭代過程中進行決策并與環(huán)境進行交互。
3. 2 算法流程
基于訓(xùn)練流程,本文提出了如算法1 所示的基于分層強化學(xué)習(xí)的多智能體博弈策略生成訓(xùn)練算法。
4 實驗結(jié)果與分析
實驗結(jié)果與分析由實驗場景、實驗過程、參數(shù)設(shè)置和結(jié)果分析四部分組成。
4. 1 實驗場景
本文采用OpenAI 和暴雪公司基于“星際爭霸2”構(gòu)造的SMAC 環(huán)境中名為“3Z2S”的場景開展實驗[20]。SMAC 是一個用于研究多智能體強化學(xué)習(xí)的環(huán)境。這個環(huán)境基于即時戰(zhàn)略游戲“星際爭霸2”提供了一個多智能體競技場,可以用來評估和比較不同的多智能體強化學(xué)習(xí)算法。SMAC 環(huán)境提供了豐富的地圖和任務(wù),涵蓋了多種不同的游戲場景和挑戰(zhàn),旨在推動多智能體強化學(xué)習(xí)技術(shù)的發(fā)展,并且為研究人員提供一個標(biāo)準(zhǔn)化的評測平臺。在“3Z2S”場景中,本文方法與基線策略方法分別控制5 個異構(gòu)Agent 對抗,在對抗中SMAC 環(huán)境將給出對應(yīng)獎賞值并自動評判是否獲勝。
除此之外,本實驗在Windows 10 操作系統(tǒng)開展,采用的主要設(shè)備為處理器、內(nèi)存和圖像處理器。處理器規(guī)格為Intel(R)Core(TM)i710700K,機帶內(nèi)存容量為80 GB,圖像處理器為RTX 2070 SUPER。
4. 2 實驗過程
本文實驗過程與經(jīng)典多智能體強化學(xué)習(xí)方法驗證實驗的過程保持一致[13-14]。
在實驗中,共設(shè)置了106 步的訓(xùn)練周期,每5 000 步為一個周期,分為訓(xùn)練階段和評估階段。在訓(xùn)練階段,共進行了5 000 步訓(xùn)練,期間進行了神經(jīng)網(wǎng)絡(luò)參數(shù)的優(yōu)化更新。每當(dāng)完成了5 000 步的訓(xùn)練,即進行一次性能評估。在性能評估階段,與基線策略進行了24 回合的對抗。
在評估指標(biāo)方面,使用了勝率和平均獎賞。對于勝率,統(tǒng)計了與“3Z2S”場景的基線策略進行對抗獲勝的次數(shù),然后除以總回合數(shù)24,得到了勝率。而對于平均獎賞,則是累加了24 回合對抗中SMAC給出的獎賞,再除以總回合數(shù)24,得到了平均獎賞。
除此之外,在實驗過程中,將QMIX 和VDN 方法作為對照組,在“3Z2S”場景中分別計算了它們的勝率和平均獎賞。以驗證本方法在性能方面的表現(xiàn),并與已有的方法進行比較。
4. 3 參數(shù)設(shè)置
方法參數(shù)分為2 類:一類為在策略優(yōu)化過程的學(xué)習(xí)參數(shù);另一類為構(gòu)成模型的深度神經(jīng)網(wǎng)絡(luò)參數(shù)。學(xué)習(xí)參數(shù)包括獎賞折扣參數(shù)、學(xué)習(xí)率和批量大小,分別設(shè)置為0. 99、5×10-4 和32。模型的深度神經(jīng)網(wǎng)絡(luò)參數(shù)如表1 所示。
4. 4 結(jié)果分析
勝率曲線如圖5 所示。通過圖中對比可以直觀發(fā)現(xiàn),在初始階段,本方法可獲得高于QMIX 和VDN 的勝率。二者較慢的原因是由于全局信息間接反饋,并且初始階段數(shù)據(jù)量較少,個體策略無法穩(wěn)定生成,從而其他個體也無法有效通過估計其他個體的策略生成協(xié)同策略。除此之外,本文方法相比于2 種典型方法能夠更快達到勝率穩(wěn)態(tài),更高效地形成博弈對抗策略。
平均獎賞曲線如圖6 所示。通過圖中曲線對比可以看出,平均獎賞曲線圖與勝率曲線圖的趨勢近似,本文方法在效率上明顯超過典型方法。
為了客觀評估本方法,給出與2 種典型方法的指標(biāo)評估,指標(biāo)包括勝率均值、勝率方差、勝率最大值、平均獎賞均值、平均獎賞方差和平均獎賞最大值。評估結(jié)果如表2 所示。
對于勝率,本文方法能夠獲得最大勝率均值。雖然勝率方差低于VDN 方法,但是能夠獲得最大勝率。對于平均獎賞,對比均值和方差,本文方法的均值最高并且方差最低,充分說明了本文方法的穩(wěn)定性。除此之外,在勝率和平均獎賞上,本文方法的最大值均為三者之中最高,有效地說明了本文方法的高效性。
5 結(jié)束語
針對典型多智能體深度強化學(xué)習(xí)方法對于全局信息利用不重復(fù)導(dǎo)致個體策略生成慢的問題,本文提出了一種基于分層強化學(xué)習(xí)的多智能體博弈策略生成方法,通過構(gòu)建頂層策略控制模型,完成全局信息的提取和控制信息的映射,從而實現(xiàn)層次化分解策略。個體策略執(zhí)行模型在控制信息的引導(dǎo)下,完成部分可觀測信息到動作價值函數(shù)映射。將典型方法被動優(yōu)化群體值函數(shù)的擬合參數(shù)轉(zhuǎn)化為主動將群體策略分解為個體策略,便于快速生成協(xié)同策略的目標(biāo)。實驗驗證表明,本文所提方法在于基線策略對抗勝率達到100% ,相較典型方法VDN 和QMIX,本文方法勝率最高且方差較低。本文所提方法結(jié)構(gòu)簡潔、可解釋性強,能夠針多受控體有效、高效地生成并優(yōu)化博弈策略。本方法采用個體離散動作價值相累加的方法估計整體價值。雖然結(jié)構(gòu)簡單且計算復(fù)雜度低,但是對于各智能體的特性能力缺少較多關(guān)注,限制了整體能力。然而,利用超神經(jīng)網(wǎng)絡(luò)估計整體價值的計算復(fù)雜度高,并且給策略生成效率帶來了挑戰(zhàn)。在后續(xù)研究中,重點應(yīng)放在從個體價值相整體價值的估計上,給出能夠平衡計算復(fù)雜度和策略效果的估計方法。
參考文獻
[1] FENG S,SUN H W,YAN X T,et al. Dense ReinforcementLearning for Safety Validation of Autonomous Vehicles[J]. Nature,2023,615:620-627.
[2] MNIH V,KAVUKCUOGLU K,SILVER D,et al. Humanlevel Control Through Deep Reinforcement Learning[J].Nature,2015,518:529-533.
[3] VINYALS O,BABUSCHKIN I,CZARNECKI W M,et al.Grandmaster Level in StarCraft II Using Multiagent Reinforcement Learning[J]. Nature,2019,575:350-354.
[4] 暢鑫,李艷斌,趙研,等. 基于MA2IDDPG 算法的異構(gòu)多無人機協(xié)同突防方法[J]. 河北工業(yè)科技,2022,39(4):328-334.
[5] CHANG X,LI Y B,ZHAO Y,et al. An Improved Antijamming Method Based on Deep Reinforcement Learningand Feature Engineering [J]. IEEE Access,2022,10:69992-70000.
[6] CHANG X,LI Y B,ZHAO Y,et al. A MultiplejammerDeceptive Jamming Method Based on Particle Swarm Optimization Against Threechannel SAR GMTI [J]. IEEEAccess,2021,9:138385-138393.
[7] MNIH V,KAVUKCUOGLU K,SILVER D,et al. PlayingAtari with Deep Reinforcement Learning [EB / OL ].(2013-12-19)[2024-01-06]. https:∥arxiv. org / abs /1312. 5602.
[8] HASSELT H V,GUEZ A,SILVER D. Deep ReinforcementLearning with Double Qlearning[C]∥Proceedings of theThirtieth AAAI Conference on Artificial Intelligence. Phoenix:AAAI,2016:2094-2100.
[9] SCHAUL T,QUAN J,ANTONOGLOU I,et al. PrioritizedExperience Replay[EB / OL]. (2015 - 11 - 18 )[2024 -01-06]. https:∥arxiv. org / abs / 1511. 05952.
[10] WANG Z Y,SCHAUL T,HESSEL M,et al. DuelingNetwork Architectures for Deep Reinforcement Learning[C]∥ Proceedings of the 33rd International Conferenceon International Conference on Machine Learning. NewYork:JMLR,2016:1995-2003.
[11] LIU X,XU Y H,JIA L L,et al. Antijamming Communications Using Spectrum Waterfall:A Deep ReinforcementLearning Approach [J]. IEEE Communications Letters,2018,22(5):998-1001.
[12] NAPARSTEK O,COHEN K. Deep Multiuser Reinforcement Learning for Distributed Dynamic Spectrum Access[J]. IEEE Transactions on Wireless Communications,2019,18(1):310-323.
[13] RASHID T,SAMVELYAN M,WITT C S D,et al. Monotonic Value Function Factorisation for Deep MultiagentReinforcement Learning[J]. Journal of Machine LearningResearch,2020,21(1):7234-7284.
[14] SON K,KIM D,KANG W J,et al. Learning to Factorizewith Transformation for Cooperative Multiagent Reinforcement Learning [EB / OL]. (2019 - 05 - 14)[2024 -01-06]. http:∥arxiv. org / abs / 1905. 05408.
[15] SHI W S,LI J L,WU H Q,et al. Dronecell TrajectoryPlanning and Resource Allocation for Highly Mobile Networks:A Hierarchical DRL Approach[J]. IEEE Internetof Things Journal,2020,8(12):9800-9813.
[16] LIU S Y,XU Y F,CHEN X Q,et al. Patternaware Intelligent Antijamming Communication:A Sequential DeepReinforcement Learning Approach [J ]. IEEE Access,2019,7:169204-169216.
[17] KULKARNI T D,NARASIMHAN K R,SAEEDI A,et al.Hierarchical Deep Reinforcement Learning:IntegratingTemporal Abstraction and Intrinsic Motivation[C]∥Proceedings of the 30th International Conference on NeuralInformation Processing Systems. Barcelona:Curran Associates Inc. ,2016:3682-3690.
[18] NOCEDAL J,WRIGHT S J. Numerical Optimization[M].New York:Springer,2006.
[19] SUTTON R S,BARTO A G. Reinforcement Learning:AnIntroduction[M]. Cambridge:MIT Press,1998.
[20] SAMVELYAN M,RASHID T,WITT C S D,et al. TheStarCraft Multiagent Challenge. [EB / OL]. (2019 - 02 -11)[2024-01-06]. http:∥arxiv. org / abs / 1902. 04043.
作者簡介
暢 鑫 男,(1990—),博士,高級工程師。
劉東輝 女,(1990—),博士,講師。主要研究方向:復(fù)雜系統(tǒng)管理、策略優(yōu)化等。
基金項目:中國博士后科學(xué)基金(2021M693002);國家自然科學(xué)基金(71991485,71991481,71991480)