吳官翰 趙建偉 高飛飛
摘要:空天地一體化網(wǎng)絡是未來6G的關(guān)鍵內(nèi)容。結(jié)合高精度波束賦形,無人機(UAV)的視距鏈路(LoS)可很好地作為空天地一體化網(wǎng)絡的補充,但地面用戶與基站間的相對運動極易造成信道容量失衡。提出一種噪聲深度確定性策略梯度(Noisy-DDPG)方法。該方法以最大化通信公平性和系統(tǒng)容量為目標,利用DDPG優(yōu)化分配方案,通過調(diào)整獎勵函數(shù)策略參數(shù)來實現(xiàn)公平性和信道容量的平衡;通過在策略網(wǎng)絡中利用可學習參數(shù)噪聲進行擾動,得到更合理的分配方案。仿真實驗驗證了該算法的有效性。
關(guān)鍵詞:無人機基站;資源調(diào)度;DDPG;公平通信;參數(shù)噪聲
Abstract: The space-air-ground integrated network is an important part of the future 6G, which can be well complemented by the unmanned aerial vehicles (UAV) line-of-sight(LoS) link combined with high-precision beamforming. However, the random channel characteristics of mobile users can easily cause channel capacity imbalance. In this paper, the Noisy-Deep Deterministic Policy Gradient (Noisy-DDPG) is proposed. To maximize communication fairness and system capacity, the Deep Deterministic Policy Gradient(DDPG) is used to optimize the allocation strategy. Besides, fairness and channel capacity are differently emphasized by adjusting the reward function policy parameters. Moreover, the learnable parameter noise is used to disturb the policy network to obtain a more reasonable allocation plan. Finally, various simulation results to verify the effectiveness of the algorithm are proposed.
Keywords: UAV base station; resource allocation; DDPG; fair communication; parameter noise
研究表明,預計到2030年,以固定基站為主的5G移動通信將無法滿足日益增長的數(shù)據(jù)業(yè)務需求,大量新生業(yè)務將產(chǎn)生海量數(shù)據(jù)資源,物理世界與數(shù)字世界之間的界限將更為模糊[1]。在此背景下,集中式的數(shù)據(jù)處理中心將承受更為巨大的壓力,遙遠的云端服務器也不利于滿足遠端用戶低時延的數(shù)據(jù)處理需求。
無人機作為移動載體,可搭載5G/超5G(B5G)通信基站或邊緣服務器,并結(jié)合高精度的波束賦形形成指向性強、增益高的窄波束,以減少鄰居干擾,有效克服毫米波及以上頻段射頻信號衰減巨大這一現(xiàn)實問題[2-3]。將無人機基站作為未來空天地一體化網(wǎng)絡的中間節(jié)點,卸載部分用戶通信與計算任務,成為一種具有潛力的組網(wǎng)方式[4]。在一個無人機小區(qū)中,用戶的隨機移動將帶來不可預知的動態(tài)拓撲結(jié)構(gòu),基站單一的帶寬、功率分配策略往往會造成小區(qū)內(nèi)信道容量失衡。一種合理的通信資源分配機制能夠有效提升用戶通信的公平性,并最大化系統(tǒng)平均信道容量。
近年來,人工智能在自動控制、目標識別、語義識別等領(lǐng)域大放異彩,極大地推動了各行業(yè)的進步與發(fā)展。將人工智能與通信技術(shù)有機結(jié)合,是未來5G和6G的一個發(fā)展方向。深度強化學習(DRL)[5-7]具有強大的特征提取和多維決策能力,能夠針對通信資源多維度的特點,做出最明智的動作決策,為無人機基站資源調(diào)度決策提供了可能[8-10]。現(xiàn)有研究大多集中于無人機路徑規(guī)劃、系統(tǒng)信道容量優(yōu)化等方面,以滿足用戶最低服務質(zhì)量(QoS)需求,但未考慮用戶通信的公平性需求[8]和移動通信本身巨大的能量消耗[9]。
為解決信道容量失衡的問題,本文提出了一種基于公平性的噪聲深度確定性策略梯度(Noisy-DDPG)無人機基站功率、帶寬調(diào)度方法,在傳統(tǒng)DDPG基礎上結(jié)合可學習參數(shù)噪聲擾動方式進行前期探索,使噪聲方差依據(jù)梯度下降自適應調(diào)整;通過將訓練好的策略模型用于無人機基站通信的實時部署,為任意分布的地面用戶提供合理的通信資源分配方案。和傳統(tǒng)DDPG訓練方式相比,NoisyDDPG表現(xiàn)出更優(yōu)秀的性能:在達到相同公平指數(shù)條件下可以獲得更高的系統(tǒng)平均信道容量。
1系統(tǒng)模型與問題建模
如圖1所示,在邊長為D的正方形區(qū)域內(nèi),我們將單無人機基站懸停在目標區(qū)域上空,從功率和帶寬兩個維度,對N個運動的地面用戶進行動態(tài)資源調(diào)度,在滿足用戶公平通信的同時最大化平均信道容量。我們定義Ptotal和Btotal分別為無人機基站總發(fā)射功率和可用帶寬,以頻分復用方式對用戶進行帶寬分配,在保證公平性的同時最大化平均信道容量。
1.1空地信道模型
公式(10)、(11)為總資源的約束,公式(12)為每個用戶的最小帶寬需求。值得注意的是,由于基站到每個用戶的路徑損耗不同,無人機在保證公平通信時勢必會在資源分配上略微向邊緣用戶傾斜,從而提升其信道容量;但是從整個通信系統(tǒng)來看,這可能會影響平均信道容量的提升。因此,公平指數(shù)f (t)和平均信道容量Cmean無法同時達到最大化,在不同場景下便需要考慮不同的側(cè)重。
2基于Noisy-DDPG的資源調(diào)度算法
傳統(tǒng)方法可采用遺傳算法、粒子群算法、模擬退火算法等啟發(fā)式算法解決以上的問題,但這一類算法一般用于通信資源實時調(diào)度,在每個時隙間隔均需要針對不同拓撲進行迭代。這不僅需要較多的計算開銷,還需要大量的時間成本,不利于有實時性需求的優(yōu)化。DRL是利用訓練有素的神經(jīng)網(wǎng)絡模型,完成當前狀態(tài)到最佳決策動作的直接映射,在實時控制決策方面具有優(yōu)良特性。利用DRL的泛化能力能夠處理未訓練過的類似狀態(tài)。
2.1資源調(diào)度的MDP模型
強化學習是建立在馬爾可夫決策過程(MDP)基礎之上,通過優(yōu)化(st,at,rt,st)軌跡、最大化Bellman方程得到的累積獎勵。其中,st為t時刻狀態(tài),at為決策動作,rt為采取動作后的單步獎勵,st為采取動作后轉(zhuǎn)移到的下一個狀態(tài)。MDP通常由(S,A,P,R,γ)進行定義,S 為狀態(tài)空間,A 為動作空間,P 為狀態(tài)轉(zhuǎn)移矩陣,R 為獎勵空間,γ為折扣因子(代表智能體對未來獎勵的重視程度)。
2.2 DDPG算法
深度Q網(wǎng)絡(DQN)算法開創(chuàng)了DRL先例,即用神經(jīng)網(wǎng)絡解決無限維的狀態(tài)映射問題。傳統(tǒng)DQN這類基于價值的強化學習算法只能處理離散有限的動作空間,而DDPG算法利用Actor-Critic模式和確定性策略梯度的方式解決了連續(xù)動作空間輸出的問題。
DDPG算法中定義了4個神經(jīng)網(wǎng)絡結(jié)構(gòu),Actor現(xiàn)實網(wǎng)絡和Actor目標網(wǎng)絡的結(jié)構(gòu)相同,Critic現(xiàn)實網(wǎng)絡和Critic目標網(wǎng)絡的結(jié)構(gòu)相同。作為策略網(wǎng)絡,Actor網(wǎng)絡用來為當前狀態(tài)輸出決策動作;作為評估網(wǎng)絡,Critic網(wǎng)絡用來評價Actor輸出的策略,擬合Q(st,at)函數(shù),并用θμ、θμ分別表示Ac? tor現(xiàn)實網(wǎng)絡參數(shù)和目標網(wǎng)絡參數(shù),θQ和θQ分別表示Critic現(xiàn)實網(wǎng)絡參數(shù)和目標網(wǎng)絡參數(shù)。對于Critic網(wǎng)絡的更新,我們定義其損失函數(shù)為:
2.3 Noisy-DDPG算法
在DRL的訓練過程當中,通常需要在訓練前期添加一定的不確定性來豐富經(jīng)驗,探索更充分的樣本空間,以使智能體學習更加全面。當前,DDPG通常采用給輸出的動作施加衰減的高斯噪聲來進行探索。相比于在策略網(wǎng)絡的輸出中添加噪聲的方式,在神經(jīng)網(wǎng)絡權(quán)重中添加參數(shù)化噪聲能夠?qū)崿F(xiàn)更加全面的探索[5]。
3仿真實驗及對比分析
本次實驗中,動作噪聲是在輸出的動作上直接加入不斷衰減的高斯噪聲,并使其滿足公式(15)、(16)的約束,以形成合法決策。我們通過在訓練前期引入動作的不確定性來獲取更加多樣性的經(jīng)驗樣本。參數(shù)噪聲是直接擾動神經(jīng)網(wǎng)絡參數(shù),使網(wǎng)絡通過學習自適應調(diào)整噪聲參數(shù)。
3.1實驗參數(shù)設置
3.2實驗結(jié)果及對比分析
為滿足不同場景對公平指數(shù)的要求,可在訓練前設置不同的參數(shù)λ。λ越大,通信的公平性越能得到重視,用戶之間的理論信道容量差異則越小。但過大的λ則會導致無人機基站減少對通信系統(tǒng)信道容量的考慮,在追求高公平指數(shù)的同時在一定程度上忽略了系統(tǒng)內(nèi)部資源合理調(diào)度對平均信道容量的影響。因此,在設置λ時需要調(diào)整好對信道容量公平性與系統(tǒng)平均信道容量的側(cè)重關(guān)系。
圖2為訓練累積獎勵變化情況,圖3與圖4分別為在不同λ時收斂到的平均公平指數(shù)的變化情況和平均信道容量的變化情況。圖2—4都反映了在λ=1、5、10時,無人機基站對通信系統(tǒng)公平性和平均信道容量的不同側(cè)重。從圖2可以發(fā)現(xiàn),在所有λ下,參數(shù)噪聲訓練方式相對于傳統(tǒng)動作噪聲方式能收斂到更高的累積獎勵,從而驗證了所提方法的優(yōu)越性。
在圖3和圖4中,λ= 1時參數(shù)噪聲方式的公平指數(shù)最終收斂到0.79,平均信道容量收斂到0.65 Mbit/s,動作噪聲DDPG方式的公平指數(shù)收斂到0.68,平均信道容量收斂到0.64 Mbit/s。分析實驗后我們發(fā)現(xiàn):在訓練后期,動作噪聲方式的公平指數(shù)有所下降,而平均信道容量有所回升。這是因為在訓練后期,該方式放松了對公平指數(shù)的追求,將通信資源傾向于距離較近的用戶,以公平性的下降換取平均信道容量的提升。反觀參數(shù)噪聲DDPG方式,各項指標提升均較為穩(wěn)定。λ= 5時參數(shù)噪聲DDPG方式的公平指數(shù)最終收斂到0.84,平均信道容量收斂到0.62 Mbit/s,而動作噪聲DDPG方式的公平指數(shù)最終收斂到0.87,平均信道容量收斂到0.43 Mbit/s??梢园l(fā)現(xiàn),此時動作噪聲的方式更傾向于追求公平指數(shù)帶來的獎勵,而忽略了系統(tǒng)內(nèi)部資源合理調(diào)度對平均信道容量的影響。這導致動作噪聲方式所收斂的累積獎勵低于參數(shù)噪聲方式,而參數(shù)噪聲方式卻能在保持公平指數(shù)的同時保證了平均信道容量的大小,很好地平衡了兩者的關(guān)系。在λ=10時,兩種方式均傾向于公平指數(shù)帶來的高回報:參數(shù)噪聲方式公平指數(shù)最終收斂到0.94,平均信道容量收斂到0.55 Mbit/s;動作噪聲方式公平指數(shù)收斂到0.90,平均信道容量收斂到0.21 Mbit/s。因為追求高公平指數(shù),兩種方式在平均信道容量上均會有所降低。但是參數(shù)噪聲方式顯然在分配方面更加合理,在達到相同公平指數(shù)的前提下能夠保證更好的平均信道容量,從而可以帶來更高的收益。
4結(jié)束語
針對未來空天地一體化網(wǎng)絡中無人機輔助通信的多維資源調(diào)度公平性問題,本文提出了一種名為Noisy-DDPG的資源分配策略模型訓練方法。這種方法適用于無人機搭載5G大規(guī)模天線陣列輔助地面移動通信的場景。在不同公平性需求下,通過調(diào)節(jié)獎勵函數(shù)參數(shù)λ來實現(xiàn)公平指數(shù)與平均信道容量不同程度側(cè)重,以使多維通信資源分配得更加合理高效。在模型訓練時,采用一種可學習的自適應分解高斯噪聲對輸出策略進行擾動,使DDPG算法能夠在訓練中進行更深層次的探索。相比于傳統(tǒng)動作噪聲的探索方式,本文所提的方法能夠獲得更好的效果,仿真實驗也進一步驗證了方法的有效性。
致謝
本文的部分研究成果和撰寫指導得到火箭軍工程大學賈維敏教授的幫助與鼓勵,在此謹致謝意!
參考文獻
[1] YOU X H, WANG C X, HUANG J, et al. Towards 6G wireless communication networks: vision, enabling technologies, and new paradigm shifts [J]. Science China information sciences, 2021, 64(1): 110301. DOI: 10.1007/ s11432-020-2955-6
[2] MOZAFFARI M, SAAD W, BENNIS M, et al. Drone small cells in the clouds: design, deployment and performance analysis [C]//2015 IEEE Global Communications Conference (GLOBECOM). San Diego, CA, USA: IEEE, 2015: 1-6. DOI: 10.1109/GLOCOM.2015.7417609
[3] LI B, FEI Z S, ZHANG Y. UAV communications for 5G and beyond: recent advances and future trends [EB/OL]. (2019-06-11) [2021-01-22]. https: //arxiv.org/abs/1901.06637
[4] MISHRA D, NATALIZIO E. A survey on cellularconnected UAVs: design challenges, enabling 5G/B5G innovations, and experimental advancements [EB/OL]. (2020-03-14)[2021-01-23]. https: //arxiv.org/abs/2005.00781
[5] PLAPPERT M, HOUTHOOFT R, DHARIWAL P, et al. Parameter space noise for exploration [C]//Proceedings of International Conference on Learning Representations (ICLR). Vancouver, BC, Canada: ICLR, 2018
[6] FORTUNATO M, AZAR M G, PIOT B, et al. Noisy networks for exploration [C]//Proceedings of International Conference on Learning Representations (ICLR). Vancouver, BC, Canada: ICLR, 2018
[7] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing Atari with deep reinforcement learning [C]//27st Conference on Neural Informa- tion Processing Systems (NIPS). Lake Tahoe, Nevada, USA: NIPS, 2013: 1-9
[8] GHANAVI R, KALANTARI E, SABBAGHIAN M, et al. Efficient 3D aerial base station placement considering users mobility by reinforcement learning [C]//2018 IEEE Wireless Communications and Networking Conference(WCNC). Barcelona, Spain: IEEE, 2018: 1-6. DOI: 10.1109/WCNC.2018.8377340
[9] LIU C H, CHEN Z, TANG J, et al. Energy-efficient UAV control for effective and fair communication coverage: a deep reinforcement learning approach [J]. IEEE journal on selected areas in communications, 2018, 36(9): 2059-2070. DOI: 10.1109/jsac.2018.2864373
[10] ZHANG Y, MOU Z Y, GAO F F, et al. UAV-enabled secure communications by multi-agent deep reinforcement learning [J]. IEEE transactions on vehicular technology, 2020, 69(10): 11599-11611. DOI: 10.1109/TVT.2020.3014788
作者簡介
吳官翰,火箭軍工程大學在讀碩士研究生、酒泉衛(wèi)星發(fā)射中心助理工程師;主要研究方向為深度強化學習、無人機通信組網(wǎng)等。
趙建偉,火箭軍工程大學講師;主要研究方向為5G/B5G、無人機通信組網(wǎng)、深度強化學習等。
高飛飛,清華大學自動化系副教授、IEEE Fellow、國家自然科學基金委優(yōu)秀青年項目獲得者,擔任多本知名刊物的編委;主要從事通信原理和智能信號處理技術(shù)在無線通信中的應用研究;獲2018年中國通信學會青年科技獎、2017年中國通信學會自然科學獎二等獎(排名第1);發(fā)表論文160余篇。