饒寧, 許華, 齊子森, 宋佰霖, 史蘊(yùn)豪
(空軍工程大學(xué) 信息與導(dǎo)航學(xué)院, 陜西 西安 710077)
隨著各種電子信息技術(shù)在軍事領(lǐng)域的廣泛應(yīng)用,電子對抗在現(xiàn)代戰(zhàn)爭中發(fā)揮的作用顯得愈加重要。為了確保信息的安全傳輸,涌現(xiàn)出了如跳頻、智能組網(wǎng)、猝發(fā)通信等各種抗干擾通信技術(shù)[1-3]。在通信組網(wǎng)對抗背景下,干擾方的對抗目標(biāo)已由單一鏈路變?yōu)橥ㄐ啪W(wǎng)絡(luò),如何利用有限干擾資源對抗整個通信網(wǎng)絡(luò)獲得最優(yōu)干擾效果,需要制定合理的資源分配方案來實現(xiàn)干擾資源利用效益最大化。而對抗通信網(wǎng)的干擾資源分配問題決策復(fù)雜度高,僅靠人工調(diào)度效率較低。當(dāng)前,遺傳算法、離散布谷鳥算法、模擬退火算法、人工蜂群算法等智能算法已被廣泛用于解決這類如雷達(dá)輻射源干擾資源分配、認(rèn)知無線電頻譜資源利用等決策問題[4-6]。對于非線性組合優(yōu)化問題,上述算法都需要較完備的先驗信息且需對數(shù)據(jù)分布作出假設(shè),這些假設(shè)隨著無線網(wǎng)絡(luò)的復(fù)雜度提升與實際情況的差異會逐漸變大,并且在組網(wǎng)對抗中干擾方難以獲得通信方的先驗信息,此類算法實用性受限,不能很好地解決通信干擾資源分配問題。
強(qiáng)化學(xué)習(xí)作為人工智能領(lǐng)域的重要研究方向,可在無先驗信息條件下求解決策問題。深度強(qiáng)化學(xué)習(xí)融合了深度學(xué)習(xí)的特征提取能力[7],在強(qiáng)化學(xué)習(xí)框架中利用神經(jīng)網(wǎng)絡(luò)擬合目標(biāo)函數(shù)來決策復(fù)雜高維空間的資源分配問題已成為研究熱點,相關(guān)成果可分為以下2類:①基于單智能體深度強(qiáng)化學(xué)習(xí)的資源分配方法[8-12],如文獻(xiàn)[8-10]針對無線網(wǎng)絡(luò)中的信道接入問題、功率分配等問題均采用基于深度Q網(wǎng)絡(luò)(deepQnetwork,DQN)算法的分配方法來達(dá)到最大化頻譜利用效率、最小化功耗等目的。但是DQN算法只適用于離散動作空間的場景,不適合動作空間過大的聯(lián)合優(yōu)化問題。為解決連續(xù)空間的決策問題,文獻(xiàn)[11]提出基于深度確定性策略梯度(deep deterministic policy gradient,DDPG)的多用戶無線蜂窩網(wǎng)絡(luò)功率控制方法,并通過理論分析證明了DDPG算法可以應(yīng)用于多種通信網(wǎng)絡(luò)的用戶調(diào)度、信道管理和功率分配等問題。此外,文獻(xiàn)[12]提出在深度強(qiáng)化學(xué)習(xí)框架下構(gòu)建資源分配模型,利用圖卷積網(wǎng)絡(luò)抽取底層關(guān)鍵的拓?fù)涮卣鱽韺W(xué)習(xí)最佳資源分配策略;②基于多智能體強(qiáng)化學(xué)習(xí)的資源分配方法[13-16],如針對認(rèn)知無線電網(wǎng)絡(luò)中主基站和認(rèn)知基站共存導(dǎo)致的聚集干擾問題,文獻(xiàn)[13]提出了多智能體Q學(xué)習(xí)的信道和功率分配方法,將多個認(rèn)知基站建模為多個智能體,以集中訓(xùn)練、分散執(zhí)行的方式獲得節(jié)能資源分配策略。文獻(xiàn)[14]提出基于分布式近端策略優(yōu)化的功率控制方法,設(shè)置多個智能體在多線程中與環(huán)境交互以提升學(xué)習(xí)速率。多智能體強(qiáng)化學(xué)習(xí)方法多用于智能體之間存在非合作博弈的場景,如文獻(xiàn)[15]將車聯(lián)網(wǎng)中的每條車輛與車輛(vehicle to vehicle,V2V)鏈路分別視為單智能體,各智能體在不具備全局網(wǎng)絡(luò)信息情況下均利用DDPG算法來獲得各自最優(yōu)分配策略。文獻(xiàn)[16]提出分布式多智能體的深度競爭雙Q網(wǎng)絡(luò)算法,各用戶在隨機(jī)博弈模型中達(dá)到納什均衡,在滿足各用戶質(zhì)量服務(wù)要求的同時最大化長期的整體網(wǎng)絡(luò)效用。
現(xiàn)有研究大都面向認(rèn)知無線電、雷達(dá)對抗等領(lǐng)域且多為非合作博弈場景,很少考慮通信對抗的協(xié)同干擾場景。本文針對對抗組網(wǎng)通信場景下的通信干擾資源分配問題,提出一種基于最大策略熵深度強(qiáng)化學(xué)習(xí)的干擾資源分配方法,通過將策略熵引入神經(jīng)網(wǎng)絡(luò)的策略梯度中,使得算法在期望最大化干擾策略效能的同時兼顧最大化策略熵,提升策略的探索性以更快地收斂至全局最優(yōu)。通過仿真對比,本文所提算法相比于其他算法收斂速度更快,可更高效地完成資源分配。
在無線通信環(huán)境中,假設(shè)干擾方 有N臺干擾機(jī),n={1,2,…,N}表示干擾機(jī)的集合,干擾機(jī)采用瞄準(zhǔn)式干擾模式。通信方采用TCP/IP協(xié)議通信,并使用M條通信鏈路進(jìn)行組網(wǎng)通信,m={1,2,…,M}表示通信鏈路的集合,這些通信鏈路使用互不干擾且正交的等帶寬信道,且各通信鏈路相對重要性指數(shù)可表示為
W=[ω1,ω2,…,ωM]
(1)
假設(shè)干擾方通過通信偵察并經(jīng)過情報分析綜合,掌握了敵方各通信鏈路所使用的中心頻率,并確定了各通信鏈路的接收機(jī)所處位置,本文假設(shè)各接收機(jī)均為固定站。對于干擾方而言,通信方所使用的各通信鏈路相對重要性指數(shù)未知。干擾方期望在資源受限條件下,合理分配干擾資源,獲得最大干擾效能,對抗場景如圖1所示。
每臺干擾機(jī)至多同時干擾U條通信鏈路,t時刻設(shè)通信鏈路i的發(fā)射機(jī)信號功率為Pi,鏈路信道增益為Hi,Pj和Hj分別表示干擾機(jī)信號發(fā)射功率和干擾鏈路信道增益。由于一條鏈路可能受到多個干擾機(jī)的干擾,故通信鏈路i接收機(jī)處的信干比為
(2)
式中:k表示同時對鏈路i施加干擾的干擾機(jī)數(shù)量;σ2表示環(huán)境噪聲方差;Li和Lj分別表示通信信號和干擾信號的路徑損耗,由自由空間傳播損耗得
L=32.5+20lg(f)+20lg(r)
(3)
式中:f為信號中心頻率;r為信號傳播距離。
戰(zhàn)場環(huán)境下無法準(zhǔn)確獲得通信方接收機(jī)處的信干比,難以直接對分配方案的干擾效果進(jìn)行評估。而根據(jù)通信TCP/IP協(xié)議,干擾方在釋放干擾信號后可通過對環(huán)境偵察獲取確認(rèn)幀/非確認(rèn)幀信息(ACK/NACK),統(tǒng)計偵收到的NACK數(shù)據(jù)包可得到通信方傳輸信息的誤包率(packet error rate,RPE),進(jìn)而根據(jù)下式計算出符號錯誤率(symbol error rate,RSE)[17]
RSE=1-(1-RPE)1/H
(4)
式中:H是校驗比特數(shù)。
可將組網(wǎng)通信中所有鏈路在t時刻的總符號錯誤率表示為
(5)
結(jié)合每條通信鏈路的相對重要性,干擾資源受限條件下的干擾資源分配問題就可轉(zhuǎn)化為優(yōu)化問題,如(6)式所示
(6)
RSEi(t)≥τ0,?i∈M
(7)
式中,τ0表示干擾方設(shè)定的最小閾值。(6)~(7)式表示干擾方案需在使得每條通信鏈路誤符號率都至少達(dá)到設(shè)置閾值τ0的基礎(chǔ)上最大化加權(quán)的總符號錯誤率。
約束條件如(8)式所示
(8)
強(qiáng)化學(xué)習(xí)方法通過建立馬爾科夫決策過程(Markov decision process,MDP)求解問題,本場景中在干擾機(jī)執(zhí)行當(dāng)前狀態(tài)的干擾方案后,環(huán)境會轉(zhuǎn)移到新的狀態(tài),而新的狀態(tài)只取決于當(dāng)前狀態(tài)和干擾方案,與過去狀態(tài)和干擾方案無關(guān)。因此本文研究的干擾資源分配問題滿足馬爾科夫時間無后效性,可建模為馬爾科夫決策過程,馬爾科夫決策過程包含智能體Agent、狀態(tài)空間S、動作空間A、獎勵函數(shù)R和折現(xiàn)因子γ等元素。本文中MDP定義如下:
智能體Agent:干擾方通過智能引擎制定干擾方案,而智能引擎可指引偵察機(jī)進(jìn)行偵察并引導(dǎo)各干擾機(jī)進(jìn)行協(xié)同干擾,故智能引擎可視為MDP中的智能體。
狀態(tài)空間S:環(huán)境狀態(tài)S(t)表示當(dāng)前時刻干擾資源的分配分案和干擾方案的干擾效果,S(t)是由干擾資源分配矩陣X(t)和干擾效果評估矩陣E(t)構(gòu)成的(N+1)行M列矩陣,即
(9)
其中干擾資源分配矩陣表示為
X(t)=[x1(t),x2(t),…,xN(t)]T
(10)
式中:xi(t)=[ci1(t)ci2(t)…ciM(t)],1≤i≤N表示單個干擾機(jī)的干擾目標(biāo);元素cij(t)∈{0,1},當(dāng)cij(t)=1表示第i個干擾機(jī)對第j條通信鏈路進(jìn)行干擾,反之cij(t)=0則表示未干擾。
干擾效果評估矩陣表示為
E(t)=[τ1(t)τ2(t)…τM(t)]
(11)
式中,τj(t)∈{0,1},1≤j≤M。τj(t)=1表示干擾方評估得出的第j條通信鏈路誤符號率達(dá)到預(yù)設(shè)值即RSEj(t)≥τ0,反之τj(t)=0表示RSEj(t)<τ0。
動作空間A:每個干擾機(jī)在時刻t可至多選擇干擾U條通信鏈路,并在對應(yīng)信道上分別施加總功率不超過Pmax的干擾信號,故令干擾方的干擾策略即干擾動作為
A(t)=[a1(t)a2(t)…aN(t)]T
(12)
式中,ai(t)=[pi1(t)pi2(t)…piM(t)],1≤i≤N表示第i個干擾機(jī)的干擾資源分配情況,其中0≤pij(t)≤Pmax,1≤j≤M。pij(t)=0表示第i個干擾機(jī)未干擾第j條鏈路,否則表示第i個干擾機(jī)干擾第j條鏈路且干擾信號功率為pij(t),且滿足
(13)
(14)
式中,sign為符號函數(shù)。
獎勵函數(shù)R:強(qiáng)化學(xué)習(xí)中獎勵函數(shù)機(jī)制的作用是告訴智能體當(dāng)前行為相對而言的優(yōu)劣程度,故獎勵函數(shù)可引導(dǎo)算法的優(yōu)化方向。在通信對抗的干擾資源分配問題中,干擾方的目的是在達(dá)到期望符號錯誤率的前提下使得干擾功率盡可能小,避免功率過大而暴露干擾機(jī)位置,因此將獎賞函數(shù)定義為
[(1+sign(RSEi(t)-τ0))/Pi(t)]
(15)
式中:wi為第i條通信鏈路的相對重要性系數(shù);sign為符號函數(shù);RSEi(t)為第i條鏈路的符號錯誤率;τ0為設(shè)置的符號錯誤率門限值;Pi(t)為對第i條鏈路的總干擾功率。
干擾資源分配優(yōu)化問題的目標(biāo)是要最大化分配方案的干擾效能,在強(qiáng)化學(xué)習(xí)模型中即最大化干擾方一段時間內(nèi)獲得的累積獎勵
(16)
式中,γ∈[0,1]為折現(xiàn)因子。
本文在分配干擾機(jī)干擾鏈路的同時還涉及對不同通信鏈路干擾功率的分配,此時資源分配問題是非凸的NP-hard問題[18]。NP-hard問題的主流解決思路是求其次優(yōu)解,運(yùn)算復(fù)雜度高,特別是當(dāng)待決策變量處于連續(xù)區(qū)間時求解困難,本文采用最大熵深度強(qiáng)化學(xué)習(xí)思想解決該問題。
深度強(qiáng)化學(xué)習(xí)作為不需要先驗信息的機(jī)器學(xué)習(xí)方法,采用試錯方式進(jìn)行學(xué)習(xí),即控制智能體不斷與環(huán)境交互,在所處環(huán)境狀態(tài)下根據(jù)當(dāng)前學(xué)到的策略采取動作,采取的動作會改變環(huán)境狀態(tài),并根據(jù)環(huán)境給出的反饋修正策略。在感知-決策-反饋-修正的過程中,智能體不斷學(xué)習(xí)并優(yōu)化行動策略,最終可獲得當(dāng)前環(huán)境下較好的執(zhí)行策略。
傳統(tǒng)深度強(qiáng)化學(xué)習(xí)模型的訓(xùn)練目標(biāo)為尋找最優(yōu)策略π*使得累積獎勵期望最大,即
(17)
式中:ρπ為策略π形成的狀態(tài)-動作軌跡分布;st,at和r分別是第t步時的狀態(tài)、動作和即時獎勵;E表示數(shù)學(xué)期望運(yùn)算。
在遞歸求解最佳策略π*時采用的Q函數(shù)貝爾曼迭代公式為
Q(st,at)=rt+γEst+1Q(st+1,at+1)
(18)
式中,st+1,at+1是環(huán)境狀態(tài)轉(zhuǎn)移之后的狀態(tài)和動作,γ是折現(xiàn)因子。
文獻(xiàn)[19]首次提出策略熵的概念,策略熵即策略分布熵,當(dāng)策略熵較大時意味著策略的隨機(jī)性較強(qiáng),在未知環(huán)境中的探索能力較強(qiáng),而足夠的探索可實現(xiàn)對環(huán)境模型的充分學(xué)習(xí)避免陷入局部最優(yōu)。
在深度強(qiáng)化學(xué)習(xí)模型中加入策略熵后,目標(biāo)函數(shù)變?yōu)?/p>
(19)
H(π(·|st))=-log(πφ(at+1|st+1))
(20)
(9)式表示學(xué)習(xí)最佳策略過程中不僅要最大化累積獎勵期望,還要最大化策略熵。
故可將(18)式寫為
(21)
式中,πφ為從分布Φ采樣出的策略。
文獻(xiàn)[20]證明了策略分布與玻爾茲曼能量分布有相同的形式即正比于Q函數(shù)的指數(shù)形式,可通過Kullback-Leibler(KL)散度約束來更新策略
πnew=argminDKL·
(22)
式中,DKL(·)表示KL散度約束;Qπold(si,·)表示原策略下的Q函數(shù);Zπold(si)表示原策略的對數(shù)配分函數(shù)。
為提升模型在高維決策空間的泛化能力,采用深度神經(jīng)網(wǎng)絡(luò)表示Q函數(shù)和策略函數(shù)即評估網(wǎng)絡(luò)和策略網(wǎng)絡(luò),核心思想是利用策略網(wǎng)絡(luò)輸出干擾方案,利用評估網(wǎng)絡(luò)對干擾方案優(yōu)劣程度進(jìn)行評判,并在價值誤差函數(shù)中加入策略熵項,通過梯度下降方法優(yōu)化策略網(wǎng)絡(luò)和評估網(wǎng)絡(luò),當(dāng)誤差函數(shù)收斂后策略網(wǎng)絡(luò)輸出的干擾方案即為最終資源分配方案?;谧畲蟛呗造厣疃葟?qiáng)化學(xué)習(xí)的資源分配算法基本框架如圖2所示。
圖2 基于最大熵深度強(qiáng)化學(xué)習(xí)的資源分配方法基本框架
借鑒DQN算法中設(shè)置目標(biāo)網(wǎng)絡(luò)提升網(wǎng)絡(luò)訓(xùn)練穩(wěn)定性,本文算法亦采用了與評估網(wǎng)絡(luò)結(jié)構(gòu)完全相同的目標(biāo)網(wǎng)絡(luò)[21],用目標(biāo)網(wǎng)絡(luò)的輸出與即時獎勵r之和作為評估網(wǎng)絡(luò)訓(xùn)練的標(biāo)簽。
此外,為了解決Q函數(shù)對Q值過高估計會使學(xué)到的策略偏差較大,本文算法中評估網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)均采用剪枝孿生網(wǎng)絡(luò)結(jié)構(gòu)[22]即設(shè)置2個相同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)分別表示Q函數(shù),2個網(wǎng)絡(luò)輸入完全相同,每次將孿生網(wǎng)絡(luò)中輸出較小的Q值輸入至價值誤差函數(shù)中,如(23)式所示
(23)
定義Q函數(shù)的價值誤差為
(24)
使用梯度下降更新評估網(wǎng)絡(luò)參數(shù)θm
(25)
Jπ(φ)=Est~D,at~πφ[αlog(πφ(at|st))-Qθ(st,at)]
(26)
由于從策略分布采樣得出動作的過程無法進(jìn)行鏈?zhǔn)角髮?dǎo),為計算策略梯度使用自編碼器中重參數(shù)化技巧[24],如圖3所示。
圖3 策略網(wǎng)絡(luò)重參數(shù)化
圖3中,不直接從均值和協(xié)方差構(gòu)成的高斯分布中采樣,而是先從標(biāo)準(zhǔn)正態(tài)分布里采樣出噪聲,然后把噪聲值乘以策略網(wǎng)絡(luò)輸出的協(xié)方差再加上均值即可反向求導(dǎo)。動作at可表示為
(27)
重參數(shù)之后,便可對策略網(wǎng)絡(luò)進(jìn)行反向傳播和梯度下降更新
(28)
為了有效平衡在未知環(huán)境中的探索和利用,本文中熵系數(shù)α在學(xué)習(xí)過程可自適應(yīng)更新,在初始階段由于對環(huán)境模型不夠了解,可調(diào)小熵系數(shù)增加策略的探索性以避免陷入局部最優(yōu);在經(jīng)驗積累到一定階段,對學(xué)到的策略有足夠信心時,可調(diào)大熵系數(shù),增加對當(dāng)前所學(xué)知識的利用程度。本文通過計算(29)式梯度并反向傳播,可在不同策略熵狀態(tài)時自適應(yīng)更新熵系數(shù)
J(α)=Eat~πφ[-αlogπφ(at|st)-αH″]
(29)
式中,H″設(shè)置為動作的維度大小。
結(jié)合建立的馬爾科夫決策過程模型,提出基于最大策略熵深度強(qiáng)化學(xué)習(xí)的干擾資源分配方法如下。
算法 基于最大策略熵深度強(qiáng)化學(xué)習(xí)的干擾資源分配方法
步驟1 建立干擾策略網(wǎng)絡(luò)π,網(wǎng)絡(luò)參數(shù)為φ;建立干擾方案效果評估孿生網(wǎng)絡(luò)Q1和Q2,網(wǎng)絡(luò)參數(shù)分別為θ1和θ2,隨機(jī)初始化上述網(wǎng)絡(luò)參數(shù);
步驟3 設(shè)置經(jīng)驗回放池D;
步驟4 While連續(xù)x輪訓(xùn)練的獎勵平均值變化幅度小于δ,執(zhí)行:
for每一時隙t:根據(jù)環(huán)境狀態(tài)st,對干擾策略網(wǎng)絡(luò)輸出的策略分布進(jìn)行采樣,得到干擾方案at~πφ(at|st);
在環(huán)境中執(zhí)行干擾方案at,得到下一時隙的環(huán)境狀態(tài)st+1,并計算得到環(huán)境獎勵值r(at,st);
將狀態(tài)轉(zhuǎn)移,干擾方案及獎勵值存入經(jīng)驗回放池D中:
D←D∪{(st,at,r(st,at),st+1)}
end for
for 每一次訓(xùn)練:
從經(jīng)驗回放池中采樣小批次樣本:
B={…,(si,ai,r(si,ai),si+1),…}Length=batch-size
計算干擾方案目標(biāo)價值:
y(r(ai,si),si+1)=r(ai,si)+
利用梯度下降更新干擾方案價值評估網(wǎng)絡(luò)參數(shù)θ1和θ2:
θj←θj-θjJQ(θj),forj=1,2
利用梯度下降更新干擾策略網(wǎng)絡(luò)參數(shù)φ:
φ←φ-φJ(rèn)π(φ)
利用梯度下降更新溫度熵系數(shù)α:
α←α-αJ(α)
end for
end while
算法流程圖如圖4所示。
圖4 基于最大熵深度強(qiáng)化學(xué)習(xí)的干擾資源分配方法框圖
為使輸出動作連續(xù)且限制在規(guī)定范圍內(nèi),神經(jīng)網(wǎng)絡(luò)的激活函數(shù)采用tanh函數(shù),輸出動作可表示為
(30)
為抵消tanh函數(shù)對原高斯分布的影響,需對原策略分布進(jìn)行修正
(31)
式中:π′(a′|s)為修正后的策略分布;ai為經(jīng)驗回放池D中存放的第i個動作。
tanh函數(shù)輸出范圍為[-1,1],將輸出的動作值進(jìn)行線性映射之后即可投影至真實的干擾功率范圍。
假設(shè)通信方使用8條通信鏈路進(jìn)行組網(wǎng)通信,各通信鏈路的相對重要性指數(shù)為W=[0.522 8,0.295 2,0.419 9,0.673 4,0.526 7,0.697 0,0.570 6,0.517 4]。干擾方有5臺干擾機(jī),每臺干擾機(jī)可至多同時干擾2條通信鏈路,干擾機(jī)部署位置距離通信方300 km,其他實驗及模型參數(shù)如表1所示。
表1 實驗及模型參數(shù)
續(xù)表1
本文算法在資源分配過程中構(gòu)建了策略網(wǎng)絡(luò)、評估網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò),各個網(wǎng)絡(luò)輸入輸出相互關(guān)聯(lián),神經(jīng)網(wǎng)絡(luò)的性能優(yōu)劣直接影響算法實用性,而網(wǎng)絡(luò)性能取決于網(wǎng)絡(luò)的超參數(shù),如隱藏層結(jié)構(gòu)、優(yōu)化器等,不同問題的最佳超參數(shù)配置一般不同且無法事先獲得,加之通過理論方法分析不同參數(shù)深度強(qiáng)化學(xué)習(xí)算法的收斂性較為困難。本文參考文獻(xiàn)[16]采用的仿真分析調(diào)參方式,此處給出精調(diào)后的參數(shù)及神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)配置:本文算法選定2層隱藏層,神經(jīng)元數(shù)為(256,64)的全連接網(wǎng)絡(luò),在上述網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上采用Adam優(yōu)化器,并選擇折現(xiàn)因子為0.1。
首先分析熵系數(shù)對本文算法尋優(yōu)性能的影響,之后在相同實驗環(huán)境中將本文算法與基于DQN[8]和基于DDPG[11]的資源分配方法進(jìn)行比較。每次實驗采用蒙特卡洛方法重復(fù)執(zhí)行5 000次,對實驗結(jié)果取平均值。
圖5a)中,熵系數(shù)可隨策略優(yōu)化而自適應(yīng)變化時,熵系數(shù)最終下降至0表明已不考慮策略熵的影響,轉(zhuǎn)為充分利用已學(xué)到的環(huán)境信息。從圖5b)可知此時算法收斂速度更快,干擾效能在530回合左右即可收斂至穩(wěn)定值。而當(dāng)熵系數(shù)固定不變時,由于熵的存在使算法始終保持一定的隨機(jī)性,干擾效能在訓(xùn)練1 000個回合仍不能完全收斂,熵系數(shù)自適應(yīng)變化時獲得的總效能提高了7%。
圖5 熵系數(shù)對算法性能影響
在相同實驗條件下利用MPEDRL、DDPG、DQN等算法解決干擾資源分配問題,分別從每回合壓制干擾成功率、價值誤差函數(shù)收斂速度以及獲得的干擾總效能等方面進(jìn)行對比。本文將壓制干擾定義如下:當(dāng)通信網(wǎng)絡(luò)中所有通信鏈路的誤符號率均高于誤符號率門限值時,認(rèn)為實現(xiàn)了對組網(wǎng)通信的壓制干擾。
DQN算法無法解決連續(xù)變化動作的控制問題,在本實驗中需要將連續(xù)變量如干擾功率進(jìn)行離散化,此處將干擾功率等間隔劃分成|A|個等級。
圖6a)是|A|=30時每回合壓制干擾成功率對比??梢钥闯鯠QN、DDPG算法在500個訓(xùn)練回合內(nèi)最高壓制干擾成功率不超過85%,而MPEDRL算法最終可實現(xiàn)單回合近95%的壓制干擾成功率。
圖6 壓制干擾成功率對比
圖6b)是不同功率劃分等級下壓制干擾成功率對比。當(dāng)功率劃分等級從5增加至30時,DQN算法干擾成功率也在提升。然而進(jìn)一步增加輸出維度并不能改善該算法性能,當(dāng)功率劃分等級超過30時DQN算法的成功率慢慢下降至40%,這說明巨大的動作空間會導(dǎo)致實際訓(xùn)練比較困難。通過簡單地擴(kuò)大動作空間,也無法完全消除量化誤差。而DDPG和MPEDRL算法無需離散化動作空間,性能優(yōu)于DQN算法。DDPG算法雖適用于連續(xù)的動作空間,但采用確定性策略,對未知環(huán)境的探索不足,壓制干擾成功率低于MPEDRL算法。
圖7是訓(xùn)練過程中的各算法價值誤差對比,對比曲線變化,DDPG算法價值誤差下降最快,在50個訓(xùn)練回合之后誤差即可降至0.1,但仍存在一定波動性。MPEDRL算法開始時由于輸出的策略隨機(jī)性較強(qiáng),波動性也較大,但能迅速收斂,在350回合之后價值誤差已下降接近于0。
圖7 價值誤差曲線對比
圖8是各資源分配算法的歸一化干擾總效能對比??梢钥吹剑贒QN和基于DDPG的資源分配方法初始學(xué)習(xí)速度較快,但訓(xùn)練過程波動性相對較大,而基于MPEDRL的資源分配方法在初始訓(xùn)練階段對環(huán)境的探索性較強(qiáng),收斂速度較慢,但通過充分利用所學(xué)知識,收斂速度迅速提升。圖8中,MPEDRL算法在280回合之后總干擾效能逐漸超過其他算法,最后趨于穩(wěn)定,最終干擾效能高出DDPG算法15%。
圖8 歸一化干擾效能曲線對比
針對通信組網(wǎng)對抗中的干擾資源分配問題,本文基于最大策略熵深度強(qiáng)化學(xué)習(xí)提出了一種新的干擾資源分配方法。該方法不需要過多有關(guān)通信方的先驗信息,在深度強(qiáng)化學(xué)習(xí)框架中將干擾方作為智能體,通過在目標(biāo)函數(shù)中加入策略熵使得智能體在追求獲得最大干擾效能的同時期望最大化干擾策略熵,可獲得在未知環(huán)境中獲得探索和利用的較好平衡,避免陷入局部最優(yōu)解。仿真結(jié)果表明,本文算法能夠在與外部環(huán)境不斷交互的過程中學(xué)習(xí)到高效的干擾資源分配策略,相較于已有方法收斂速度更快,學(xué)習(xí)過程波動性小。