吳官翰 賈維敏 趙建偉* 高飛飛 姚敏立
①(火箭軍工程大學(xué) 西安 710038)
②(中國酒泉衛(wèi)星發(fā)射中心 酒泉 735000)
③(清華大學(xué) 北京 100084)
在當(dāng)前5G移動(dòng)通信中,隨著各種新興產(chǎn)業(yè)迅猛發(fā)展地面骨干網(wǎng)承受著巨大的數(shù)據(jù)傳輸壓力。同時(shí)受限于地理?xiàng)l件的影響,許多偏遠(yuǎn)地區(qū)仍處于無線覆蓋欠缺的狀態(tài)[1]。這些前所未有的對(duì)高質(zhì)量無線通信服務(wù)的需求,對(duì)當(dāng)前傳統(tǒng)地面通信網(wǎng)絡(luò)提出了嚴(yán)峻挑戰(zhàn)。為此,在未來6G及以后的無線通信中,無人機(jī)(Unmanned Aerial Vehicle, UAV)作為空中接入節(jié)點(diǎn)輔助地面通信成為一種有前途的解決方案[2–8]。
然而在多無人機(jī)輔助地面通信的系統(tǒng)設(shè)計(jì)中,由于UAV與地面用戶(Ground Users, GU)位置的動(dòng)態(tài)性,網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)動(dòng)態(tài)變化。同時(shí)在有限通信資源條件下,如何合理分配資源能在保證小區(qū)內(nèi)用戶公平通信情況下最大化系統(tǒng)吞吐量,是一個(gè)典型的NP-hard (Non-deterministic Polynomial hard)問題,該問題的非凸性導(dǎo)致傳統(tǒng)優(yōu)化方法難以應(yīng)用。在現(xiàn)有的一些工作中,將與這類似的具有非凸性的優(yōu)化問題簡(jiǎn)化為多個(gè)凸的子問題進(jìn)行求解,并且通過迭代收斂到次優(yōu)解[9–11]。這些方法能夠在較短時(shí)間內(nèi)收斂,但卻是以損失精度為代價(jià)。同時(shí),在一些基于啟發(fā)式算法求解的研究中[12,13],利用多次迭代在解空間中搜尋近似最優(yōu)解,但這些方法在動(dòng)態(tài)環(huán)境中的效率卻大為降低。
現(xiàn)有的大部分工作主要針對(duì)無人機(jī)在固定的資源分配方案,或?qū)我煌ㄐ刨Y源調(diào)度的前提下對(duì)無人機(jī)進(jìn)行軌跡優(yōu)化[14–16]。優(yōu)化目標(biāo)僅局限于無人機(jī)或地面接入控制[17],并未從整個(gè)通信系統(tǒng)博弈層面去進(jìn)行分析設(shè)計(jì)[8–17]。本文針對(duì)多無人機(jī)輔助地面通信系統(tǒng)在混合博弈模式下進(jìn)行研究,將近端策略優(yōu)化(Proximal Policy Optimization, PPO)算法擴(kuò)展到多智能體強(qiáng)化學(xué)習(xí)(Multi-Agent Reinforcement Learning, MARL)領(lǐng)域,提出一種結(jié)合Beta策略的混合動(dòng)作空間多智能體近端策略優(yōu)化(Multi-Agent PPO, MAPPO)算法,用以聯(lián)合優(yōu)化GU接入策略,UAV飛行軌跡,功率及帶寬分配方案,在高維決策動(dòng)作下最大化系統(tǒng)吞吐量并滿足資源分配的公平性。
圖1 多無人機(jī)協(xié)作輔助地面通信場(chǎng)景
PPO作為信任域策略優(yōu)化(Trust Region Policy Optimization, TRPO)算法的改良版本,在其基礎(chǔ)上將共軛梯度法的方式簡(jiǎn)化,計(jì)算復(fù)雜度下降的同時(shí)性能并未減少,其中Actor的目標(biāo)函數(shù)定義為
(1) GU狀態(tài)及動(dòng)作設(shè)置。由于現(xiàn)實(shí)約束,GU通常無法直接獲取其他GU的位置及狀態(tài)信息,因此它們無法判斷彼此的分布情況,但UAV基站的位置及關(guān)聯(lián)負(fù)載情況對(duì)GU可以開放訪問。當(dāng)UAV部署高度h固定時(shí)dm,n越小路徑損耗越小,因此GU會(huì)傾向于選擇距離近的UAV接入。但UAV的負(fù)載情況也同樣制約著GU可以得到的通信資源,于是GU為獲取更高的通信速率,應(yīng)該綜合考慮UAV的位置與負(fù)載。本文對(duì)t時(shí)刻GU n的觀測(cè)狀態(tài)定義為
其中,第1項(xiàng)為GU n自己的坐標(biāo),后兩項(xiàng)分別為所有可接入U(xiǎn)AV的坐標(biāo)與近期每架UAV服務(wù)的用戶數(shù)目。在集合{sm(t-j)}中,j=1,2,...,w代表GU會(huì)考慮前w個(gè)時(shí)刻UAV的負(fù)載以此預(yù)測(cè)近期基站過載的概率。
在每個(gè)時(shí)隙t的開始,每個(gè)GU需要根據(jù)觀測(cè)狀態(tài)選擇一架UAV接入。GU n的動(dòng)作空間等于無人機(jī)的集合M且為離散動(dòng)作,An=M, n ∈N。本文用One-Hot向量來表示t時(shí)刻GU n的動(dòng)作
假設(shè)動(dòng)作的邊界約束為[–k, k],當(dāng)aclip被裁剪到–k或者k時(shí),Δp ?=0,即此時(shí)產(chǎn)生了策略梯度的偏差。如果用裁剪后的動(dòng)作計(jì)算其對(duì)數(shù)概率,此時(shí)?φlnπφ(a|s)Qπφ(s,a)變成了?φlnπφ(aclip|s)Qπφ(s,aclip)同樣帶有偏差。
使用高斯策略的另外一個(gè)弊端,則是在多峰獎(jiǎng)勵(lì)環(huán)境下,由于次優(yōu)峰可能占據(jù)更大的概率密度,繼而容易導(dǎo)致次優(yōu)收斂。這與策略網(wǎng)絡(luò)的參數(shù)初始化密不可分,但在訓(xùn)練前期通常不具備對(duì)于最優(yōu)策略的先驗(yàn)信息,因此無法設(shè)置一個(gè)最佳的參數(shù)初始化。
其中,Γ(·)為伽馬函數(shù)。用參數(shù)化的αφ和βφ表示Beta策略,πφ(a|s)=Be(αφ,βφ),此時(shí)at~Be(αφ,βφ)。在Beta分布下,策略由一個(gè)有限區(qū)間的概率密度分布進(jìn)行描述,避免了上述梯度估計(jì)偏差問題。在策略網(wǎng)絡(luò)參數(shù)初始化時(shí),通過讓?duì)力?≈βφ ≈1近似為均勻分布,可以讓智能體在初始階段更加隨機(jī)地探索環(huán)境,從而緩解高斯分布因不良初始化而造成的局部最優(yōu)收斂。
由于所有GU具有同質(zhì)性,并且在達(dá)到納什均衡時(shí)所有GU應(yīng)保持同樣的接入策略,因此可以設(shè)置一個(gè)GU共享的策略網(wǎng)絡(luò)可以加快收斂速度,其參數(shù)記為θ。同理所有UAV可以共享同一策略網(wǎng)絡(luò),其參數(shù)記為φ,GU與UAV的全局Critic網(wǎng)絡(luò)參數(shù)分別記為ω1與ω2。
在本文中,區(qū)域D設(shè)置為2×2 km的正方形。并以此構(gòu)建直角坐標(biāo)系,因此區(qū)域邊界坐標(biāo)umax=2000,umin=0。所有UAV均部署在高度h = 500 m的空中,每個(gè)回合開始所有UAV統(tǒng)一從坐標(biāo)原點(diǎn)起飛,速度為15 m/s。每個(gè)GU以[0 m/s, 5 m/s]區(qū)間的速度,以隨機(jī)的軌跡運(yùn)動(dòng)。所有實(shí)驗(yàn)中每架UAV額定發(fā)射功率Ptotal=10 dBm,共享總帶寬Btotal=30 MHz,通信載頻fc=2 GHz,噪聲功率譜密度n0=-170 dBm/Hz,最小可分帶寬bmin=0.1 MHz。
假定每回合的服務(wù)持續(xù)時(shí)間為Tmax=1000 s,每個(gè)決策時(shí)間間隔為1 s。根據(jù)研究表明,使用更多數(shù)據(jù)估計(jì)策略梯度可以更容易獲得策略提升,并且使用較低的數(shù)據(jù)復(fù)用次數(shù)能夠避免性能損失及過擬合[18,20,21]。為此,權(quán)衡收斂速度與算法性能,使用4096作為經(jīng)驗(yàn)緩存區(qū)B的大小,分4個(gè)Mini_batch復(fù)用5次更新網(wǎng)絡(luò)參數(shù)。在實(shí)現(xiàn)Beta策略參數(shù)輸出時(shí)采用Softplus函數(shù)激活后與1相加的方式,來近似初始的均勻分布策略以促進(jìn)探索。此外根據(jù)文獻(xiàn)[20]的部分建議,對(duì)于高斯策略MAPPO的實(shí)現(xiàn)采用了正交初始化作為層權(quán)值的初始方案。其余算法相關(guān)參數(shù)設(shè)置如表2所示。
表2 算法相關(guān)參數(shù)
為驗(yàn)證所提混合博弈模式下多無人機(jī)輔助地面通信的Beta-MAPPO算法性能及所提改進(jìn)的有效性,本文將以下3種算法作為基線進(jìn)行對(duì)照:
(1) Ga-MAPPO:采用高斯策略的MAPPO算法,但是遵循實(shí)現(xiàn)Beta-MAPPO時(shí)所采用的其他所有技巧。
(2) NM-MAPPO:同樣采用Beta策略實(shí)現(xiàn),但不使用文中所提動(dòng)作掩碼的方案,即在計(jì)算概率與策略熵時(shí)不屏蔽無關(guān)用戶維度信息。
(3) IPPO:采用Beta策略的普通分布式PPO算法實(shí)現(xiàn),每個(gè)智能體僅依靠本地觀測(cè)得到其狀態(tài)值,并且相互獨(dú)立學(xué)習(xí)。
此外,在實(shí)現(xiàn)上述算法時(shí)均采用了相同的網(wǎng)絡(luò)結(jié)構(gòu)及超參數(shù)配置。
表1 多無人機(jī)輔助通信的Beta-MAPPO算法
圖2–圖4繪制了以上所提算法訓(xùn)練過程中每回合累計(jì)獎(jiǎng)勵(lì)與平均公平指數(shù)變化情況,其中M=3,N=20,每個(gè)數(shù)據(jù)點(diǎn)為20個(gè)回合的最大值。根據(jù)結(jié)果顯示,Beta-MAPPO表現(xiàn)出優(yōu)于其他幾種基線的性能,能夠較為穩(wěn)定收斂到較高得分。在訓(xùn)練初始階段,Beta策略通過初始化能夠近似為均勻分布,使得探索更加隨機(jī)以獲取更多樣性的經(jīng)驗(yàn)樣本,從而避免次優(yōu)收斂。而高斯分布雖然能以較大方差的形式近似初始化為隨機(jī)策略,但是在動(dòng)作有界條件下高斯分布的截?cái)嘈?yīng)會(huì)更加嚴(yán)重,更多的概率密度分布將會(huì)處于動(dòng)作邊界之外,因此本文采用了正交初始化方案[20]。而在高斯策略下,由于動(dòng)作邊界效應(yīng)的影響,截?cái)喔咚狗植妓a(chǎn)生的策略梯度誤差導(dǎo)致算法性能損失從而效率降低。在同等訓(xùn)練回合下高斯策略的表現(xiàn)不如Beta策略。而NMMAPPO算法由于不采用所提動(dòng)作掩碼方案,在計(jì)算動(dòng)作概率及策略熵時(shí)包含了無關(guān)維度用戶信息。而這些無關(guān)信息與獎(jiǎng)勵(lì)的獲取不直接相關(guān)甚至?xí)蓴_最優(yōu)策略的學(xué)習(xí),雖然在較大batch_size設(shè)置下能夠減輕這一影響,但是依舊效率不如Beta-MAPPO。在IPPO算法的實(shí)現(xiàn)中,每個(gè)智能體僅依靠自身觀測(cè)狀態(tài)獨(dú)立學(xué)習(xí),是PPO算法到多智能體領(lǐng)域的簡(jiǎn)單擴(kuò)展。雖然訓(xùn)練前期IPPO可以快速提升策略,但是獨(dú)立學(xué)習(xí)帶來的非平穩(wěn)性直接導(dǎo)致了算法性能損失及學(xué)習(xí)曲線震蕩。
圖2 GU累計(jì)獎(jiǎng)勵(lì)變化對(duì)比
從圖2結(jié)果來看,Beta-MAPPO最終能夠使多無人機(jī)輔助的通信系統(tǒng)在服務(wù)時(shí)段內(nèi)每個(gè)GU平均吞吐量收斂在6100 Mbit左右,均高于其他基線算法。雖然GU的策略學(xué)習(xí)方式在上述算法中均未改變,但是在混合博弈模式下由于UAV與GU策略互相影響,UAV不同的飛行策略與資源分配方式直接影響了每個(gè)GU可獲取的通信速率。如圖3所示,每架UAV的累計(jì)獎(jiǎng)勵(lì)收斂在8300左右,同時(shí)平均每架UAV資源分配的公平指數(shù)收斂約為0.93。而Ga-MAPPO在訓(xùn)練后期各項(xiàng)得分呈現(xiàn)出了上升趨勢(shì),但是效率相對(duì)較低,為解決無先驗(yàn)知識(shí)情況下不良初始化與動(dòng)作截?cái)嘈?yīng)的影響,它需要更多的數(shù)據(jù)去訓(xùn)練策略。同時(shí),公平指數(shù)由于越靠近1提升越困難,而且在通信雙方均是動(dòng)態(tài)移動(dòng)的情況下,導(dǎo)致了圖4中訓(xùn)練后期公平指數(shù)提升愈發(fā)緩慢的現(xiàn)象。
圖3 UAV累計(jì)獎(jiǎng)勵(lì)變化對(duì)比
圖4 平均公平指數(shù)變化對(duì)比
圖5展示了其中3種隨機(jī)測(cè)試場(chǎng)景下3架UAV在適應(yīng)20個(gè)GU動(dòng)態(tài)拓?fù)錀l件下的飛行策略,其中藍(lán)色為GU運(yùn)動(dòng)軌跡,紅色為UAV飛行軌跡,五角星為出發(fā)點(diǎn)。可以發(fā)現(xiàn)在服務(wù)初始階段,UAV可以分布式快速飛向GU區(qū)域。訓(xùn)練完善后的每架UAV不光會(huì)考慮選擇接入自己的GU位置,同時(shí)還會(huì)考慮其它UAV的飛行策略合作完成部署,其飛行軌跡能夠盡量覆蓋大部分的GU,并且能夠在GU集中的區(qū)域盤旋服務(wù)。除此之外,UAV的飛行策略還與GU的分布特性有關(guān)。在圖5(c)所示情況下,某些極少數(shù)GU位置偏遠(yuǎn),如果UAV飛向它們則會(huì)帶來更多路徑損耗,因此UAV會(huì)選擇盤旋在絕大多數(shù)GU的區(qū)域,并通過資源調(diào)度來保證偏遠(yuǎn)地區(qū)GU的通信公平性。
圖5 UAV與GU運(yùn)動(dòng)軌跡
為驗(yàn)證Beta-MAPPO在不同GU場(chǎng)景下的性能,圖6繪制了在一個(gè)測(cè)試回合中,各時(shí)刻GU平均速率的變化情況。隨著GU數(shù)量增加,在總資源一定條件下每個(gè)GU的平均通信速率勢(shì)必會(huì)減少。在該服務(wù)周期內(nèi),一開始由于UAV從出發(fā)點(diǎn)起飛,而GU隨機(jī)散布在區(qū)域D,此時(shí)GU的平均通信速率較小。在前約100 s內(nèi)UAV迅速部署到區(qū)域中,在適應(yīng)GU選擇的同時(shí)快速減小系統(tǒng)總體路徑損耗,并通過合理調(diào)度資源使得GU平均速率快速穩(wěn)定在一個(gè)較高水平。但由于該通信系統(tǒng)的動(dòng)態(tài)性,GU的平均通信速率不可避免會(huì)產(chǎn)生波動(dòng),這是因?yàn)閁AV需要實(shí)時(shí)調(diào)整自己的飛行策略以適應(yīng)GU的選擇和移動(dòng)。此外,GU的平均速率與它們的實(shí)際分布情況有較大關(guān)系,當(dāng)GU分布較為密集時(shí),UAV傳輸信號(hào)的能量損失更少可以帶來更高的通信速率;而當(dāng)GU分布較為稀疏時(shí),UAV無法照顧到每一個(gè)選擇自己的GU,只能均勻減少到每個(gè)GU的距離。
圖6 在不同GU場(chǎng)景下服務(wù)時(shí)段內(nèi)GU平均速率變化情況
圖7將所提算法與基線算法所得策略在不同GU場(chǎng)景下進(jìn)行了對(duì)照,所有實(shí)驗(yàn)均采用了3架UAV。如圖所示,在不同GU場(chǎng)景下,Beta-MAPPO表現(xiàn)出優(yōu)于其它基線算法的性能。隨著GU數(shù)量增加總吞吐量由于總路徑損耗的增加而略微減少,因?yàn)閁AV無法同時(shí)靠近每一個(gè)選擇自己的GU,但Beta-MAPPO的減少趨勢(shì)相較其它方法更為平緩,證明了其更加魯棒。除此之外,Ga-MAPPO和IPPO方法得到的總吞吐量較低,因?yàn)樗鼈冊(cè)谟邢抻?xùn)練回合下只收斂到了次優(yōu)飛行策略,無法很好應(yīng)對(duì)GU的隨機(jī)動(dòng)態(tài)拓?fù)溥M(jìn)行部署,因此總吞吐量方面會(huì)存在一定波動(dòng)性和隨機(jī)性。而在反映資源分配公平性的平均公平指數(shù)方面,Beta-MAPPO方法更接近于全局最優(yōu)解。但隨著GU數(shù)量增加,需要決策的動(dòng)作維度進(jìn)一步增長(zhǎng),資源分配的難度增加導(dǎo)致了平均公平指數(shù)略微下降,但依舊高于其它方法。而Ga-MAPPO和IPPO在資源分配方面表現(xiàn)出了相似的性能,一方面是因?yàn)樗鼈兌继幱诖蝺?yōu)策略導(dǎo)致結(jié)果的隨機(jī)性較大,另一方面是由于在UAV的資源分配策略中與其它UAV合作的成分較少,UAV只需關(guān)注選擇接入自己的GU信息即可獲得該部分獎(jiǎng)勵(lì),CTDE方法對(duì)于該部分策略的學(xué)習(xí)優(yōu)勢(shì)不明顯。而NM-MAPPO由于在計(jì)算動(dòng)作概率和策略熵時(shí)包含了所有GU的信息,隨著GU數(shù)量增加無用信息的干擾更加明顯,因此在優(yōu)化吞吐量方面下降較快。
圖7 不同數(shù)量GU場(chǎng)景下系統(tǒng)總吞吐量及平均公平指數(shù)對(duì)比
針對(duì)多無人機(jī)輔助地面通信場(chǎng)景,本文從多智能體混合博弈層面提出了一種采用Beta策略的MAPPO算法解決GU與UAV動(dòng)態(tài)博弈條件下優(yōu)化通信系統(tǒng)吞吐量及公平通信問題。通過同時(shí)優(yōu)化GU接入策略、UAV多維資源分配以及飛行軌跡設(shè)計(jì),將PPO算法在信任區(qū)域內(nèi)穩(wěn)定提升策略的優(yōu)勢(shì)擴(kuò)展到混合博弈模式下的MARL領(lǐng)域,使得GU與UAV策略在互相適應(yīng)調(diào)整的同時(shí)逼近納什均衡,分布式?jīng)Q策的方式將高維的聯(lián)合動(dòng)作空間在不同智能體層面解耦,相比SARL集中決策解決多智能體問題的方式,大為減少了決策的動(dòng)作維度。最后通過仿真實(shí)驗(yàn)驗(yàn)證了所提算法的有效性。未來的工作將研究在異構(gòu)多智能體環(huán)境下,解決更復(fù)雜通信系統(tǒng)的聯(lián)合博弈優(yōu)化問題。