唐 倫 李子煜 管令進(jìn) 陳前斌
(重慶郵電大學(xué)通信與信息工程學(xué)院 重慶 400065)
(重慶郵電大學(xué)移動(dòng)通信技術(shù)重點(diǎn)實(shí)驗(yàn)室 重慶 400065)
隨著智能設(shè)備的爆炸性增長(zhǎng),諸如增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)等新興高速率服務(wù)以及構(gòu)建物聯(lián)網(wǎng)(Internet of Things, IoT)的海量設(shè)備,使得設(shè)計(jì)高效的能效通信系統(tǒng)迫在眉睫,進(jìn)而實(shí)現(xiàn)綠色經(jīng)濟(jì)和可持續(xù)發(fā)展的運(yùn)營(yíng)。與4G系統(tǒng)相比,5G系統(tǒng)需要達(dá)到1 ms的時(shí)延、10倍的頻譜效率、100倍的能效以及1000倍的系統(tǒng)容量。作為有前景的新技術(shù)和網(wǎng)絡(luò)體系結(jié)構(gòu),異構(gòu)云無線接入網(wǎng)(Heterogeneous Cloud Radio Access Networks, H-CRAN)引起了業(yè)界和學(xué)術(shù)界的極大關(guān)注。可以預(yù)見,在H-CRAN中將采用各式的多址接入技術(shù),以減輕小區(qū)間和小區(qū)內(nèi)的干擾,并改善網(wǎng)絡(luò)頻譜效率和能效。作為一種新的多址方案,非正交多址接入(Non-Orthogonal Multiple Access, NOMA)被認(rèn)為是有望顯著地改善5G移動(dòng)通信網(wǎng)絡(luò)的頻譜效率和能效的候選方案。文獻(xiàn)[1]采用混合多址接入技術(shù)提高頻譜效率,NOMA技術(shù)中的非正交性具有高頻效、能效以及低傳輸時(shí)延的潛在優(yōu)勢(shì)。因此,本文在H-CRAN的下行傳輸場(chǎng)景下利用NOMA技術(shù)來最大化網(wǎng)絡(luò)能效。
文獻(xiàn)[2]在H-CRAN下行傳輸場(chǎng)景下研究網(wǎng)絡(luò)能效性能,聯(lián)合優(yōu)化基站選擇、子載波分配和功率分配,構(gòu)建網(wǎng)絡(luò)能效最大化的目標(biāo)函數(shù),利用連續(xù)凸近似理論進(jìn)行求解,進(jìn)而提高H-CRAN的能效性能。文獻(xiàn)[3]在異構(gòu)云無線接入網(wǎng)絡(luò)的場(chǎng)景下提出一種能效優(yōu)化算法,利用李雅普諾夫優(yōu)化理論和拉格朗日對(duì)偶分解方法對(duì)優(yōu)化問題進(jìn)行求解。文獻(xiàn)[4]在H-CRAN下行鏈路場(chǎng)景下,建立了網(wǎng)絡(luò)總吞吐量最大化的隨機(jī)優(yōu)化模型,通過深度強(qiáng)化學(xué)習(xí)和遷移學(xué)習(xí)算法,智能化分配無線資源,提高網(wǎng)絡(luò)的穩(wěn)定性。
盡管上述的文獻(xiàn)在無線資源分配上都取得了較好的研究成果,但仍然需要進(jìn)一步的改進(jìn),主要存在3方面的問題:(1)多數(shù)工作忽略了NOMA技術(shù)帶來的頻譜效率和能效優(yōu)勢(shì),同時(shí)沒有考慮前傳容量受限給接入網(wǎng)帶來的吞吐量瓶頸,進(jìn)而與實(shí)際的網(wǎng)絡(luò)場(chǎng)景相脫離,無法取得合適的資源分配方案;(2)大多數(shù)研究仍采用傳統(tǒng)非線性優(yōu)化算法,當(dāng)優(yōu)化問題出現(xiàn)高維狀態(tài)空間或動(dòng)作空間時(shí),可能會(huì)導(dǎo)致維度災(zāi)問題,使得優(yōu)化算法陷入局部最優(yōu)解;(3)盡管深度Q學(xué)習(xí)對(duì)無線資源的自優(yōu)化具有一定的幫助,但其需要對(duì)動(dòng)作空間進(jìn)行離散化處理,導(dǎo)致求解的資源分配策略非常不穩(wěn)定。此外,基于連續(xù)域的置信域策略優(yōu)化(Trust Region Policy Optimization, TRPO)算法產(chǎn)生的計(jì)算量較為龐大,導(dǎo)致算法性能得不到有效的提升。
針對(duì)上述提出的問題,本文在H-CRAN下提出一種基于功率域-非正交多址接入(Power Domain Non-Orthogonal Multiple Access, PD-NOMA)的能效優(yōu)化算法。所提算法的主要?jiǎng)?chuàng)新點(diǎn)如下:(1)為提高網(wǎng)絡(luò)的頻譜效率和能效,聯(lián)合優(yōu)化用戶關(guān)聯(lián)、功率分配和資源塊(Resource Block, RB)分配,構(gòu)建用戶公平性和網(wǎng)絡(luò)能效的優(yōu)化模型;(2)針對(duì)無線網(wǎng)絡(luò)資源分配的復(fù)雜性和動(dòng)態(tài)性難題,引入基于自學(xué)習(xí)的置信域策略優(yōu)化算法,大大降低了動(dòng)作空間的維度,進(jìn)而避免維度災(zāi)問題;(3)針對(duì)TRPO算法的標(biāo)準(zhǔn)解法產(chǎn)生的計(jì)算量較為龐大,采用近端策略優(yōu)化(Proximal Policy Optimization, PPO)算法進(jìn)行優(yōu)化求解,進(jìn)一步提高算法效率。
考慮H-CRAN下行傳輸場(chǎng)景,如圖1所示,建立了一個(gè)基于NOMA的H-CRAN架構(gòu),遠(yuǎn)端無線射頻單元(Remote Radio Head, RRH)具有天線模塊,只需執(zhí)行射頻處理以及簡(jiǎn)單的基帶處理,主要的基帶信號(hào)處理以及上層協(xié)議功能均在集中式基帶單元(Base Band Unite, BBU)池中執(zhí)行,RRH通常部署在熱點(diǎn)區(qū)域負(fù)責(zé)海量數(shù)據(jù)業(yè)務(wù)的高速傳輸[5]。高功率節(jié)點(diǎn)(High Power Node, HPN)用于全網(wǎng)的控制信息分發(fā),突發(fā)業(yè)務(wù)以及即時(shí)信息等低速率數(shù)據(jù)信息也由HPN承載,確保業(yè)務(wù)的無縫覆蓋[6]。以此同時(shí),采用基于PD-NOMA來提升頻譜效率和網(wǎng)絡(luò)能效,PD-NOMA允許不同用戶占用相同的頻譜、時(shí)間和空間等資源,通過主動(dòng)引入干擾進(jìn)一步地提升單用戶速率和系統(tǒng)的和速率,尤其是保障了小區(qū)邊緣用戶速率。
圖1 基于PD-NOMA的異構(gòu)云無線接入網(wǎng)架構(gòu)
隨著移動(dòng)設(shè)備的大量普及,移動(dòng)流量也急劇增加,需要一種大容量、高可靠和低時(shí)延的傳輸網(wǎng)絡(luò)作為前傳網(wǎng)絡(luò),以此來滿足移動(dòng)用戶越來越多的業(yè)務(wù)需求。在目前的前傳網(wǎng)絡(luò)選擇中,無源光網(wǎng)絡(luò)(Passive Optical Network, PON)具備低成本、大容量的特性,是一種高效可行的前傳網(wǎng)絡(luò)解決方案[7]。PON作為云無線接入網(wǎng)絡(luò)(Cloud-Radio Access Network, C-RAN)的前傳網(wǎng)絡(luò),不僅能夠滿足C-RAN架構(gòu)對(duì)前傳鏈路的傳輸要求,同時(shí)還能應(yīng)對(duì)5G網(wǎng)絡(luò)帶來的高可靠、低時(shí)延和低損耗的無線網(wǎng)絡(luò)需求。
如圖2所示,PON是典型的一對(duì)多傳輸網(wǎng)絡(luò),其固有無源特性能夠?yàn)榍皞麈溌诽峁O大的帶寬容量和較長(zhǎng)距離覆蓋等優(yōu)勢(shì),PON稱為H-CRAN中光前傳網(wǎng)絡(luò)的最佳選擇。因此,前傳容量限制的模型為
圖2 前傳鏈路框圖
其中,?m表示第m 個(gè)RRH的有效前傳容量。
由于H-CRAN和傳統(tǒng)移動(dòng)網(wǎng)絡(luò)的架構(gòu)不一樣,傳統(tǒng)網(wǎng)絡(luò)的能耗模型不一定適用于H-CRAN。因此,本文在H-CRAN中建立了完善的網(wǎng)絡(luò)能耗模型來描述RRHs, HPN, BBU池和前傳鏈路的能耗
在建模前傳鏈路的能耗時(shí),本文考慮的是基于時(shí)分復(fù)用的無源光傳輸網(wǎng)絡(luò),PON包括一個(gè)光線路終端(Optical Line Terminal, OLT),該終端通過單個(gè)光纖連接一組相關(guān)光網(wǎng)絡(luò)單元(Optical Network Unit, ONU)。根據(jù)文獻(xiàn)[8]的分析,前傳鏈路的總功耗為
根據(jù)文獻(xiàn)[9]的分析,本文使用兩級(jí)隊(duì)列模型來描述從核心網(wǎng)傳輸數(shù)據(jù)給用戶。如圖3所示,核心網(wǎng)傳輸給用戶的業(yè)務(wù)數(shù)據(jù)首先進(jìn)入基帶資源池,首先分配給BBUs內(nèi)的每個(gè)虛擬機(jī)。在VM的隊(duì)列長(zhǎng)度中處理后,數(shù)據(jù)將被傳輸?shù)椒?wù)于用戶的RRHs,再通過無線通道傳輸?shù)接脩簟?/p>
圖3 兩級(jí)隊(duì)列架構(gòu)
本文將能效ηEE定義為整個(gè)網(wǎng)絡(luò)長(zhǎng)期時(shí)間下的和速率與長(zhǎng)期的能量消耗的比值。在業(yè)務(wù)隊(duì)列穩(wěn)定的前提下,基于PD-NOMA技術(shù)的H-CRAN中能效問題被建模為如下隨機(jī)優(yōu)化問題
本文除了考慮約束條件外,還綜合考慮網(wǎng)絡(luò)功耗,于是資源分配問題變成了NP-hard問題,難以求出最優(yōu)解。根據(jù)文獻(xiàn)[12]的分析,深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning, DRL)可以通過與動(dòng)態(tài)環(huán)境進(jìn)行交互獲取最優(yōu)解,從而提升系統(tǒng)的總能效,但它只能處理低維和離散的動(dòng)作空間,不能直接應(yīng)用于連續(xù)域。因此,本節(jié)將引入基于連續(xù)性DRL的能效優(yōu)化算法,利用RL與無線網(wǎng)絡(luò)進(jìn)行交互,并通過DL的非線性函數(shù)近似特征,使得基站做出滿足優(yōu)化目標(biāo)的最佳決策。
策略梯度算法的缺陷在于更新步長(zhǎng)難以確定,當(dāng)步長(zhǎng)不合適時(shí),更新的參數(shù)所對(duì)應(yīng)的資源分配策略是一個(gè)更不好的策略。因此,合適的步長(zhǎng)對(duì)于整個(gè)H-CRAN系統(tǒng)是非常關(guān)鍵。本文的TRPO算法通過尋找使得回報(bào)獎(jiǎng)勵(lì)函數(shù)單調(diào)遞增的步長(zhǎng),進(jìn)而逐步完善網(wǎng)絡(luò)的資源分配策略,將新策略所對(duì)應(yīng)的回報(bào)函數(shù)分解成舊的策略所對(duì)應(yīng)的回報(bào)函數(shù)加上優(yōu)勢(shì)函數(shù)項(xiàng),如式(18)所示
對(duì)于上述的目標(biāo)函數(shù),為了求解出最佳的資源分配策略。首先,需要將目標(biāo)函數(shù)進(jìn)行1階近似;其次,利用泰勒級(jí)數(shù)對(duì)約束條件進(jìn)行2次展開;最后利用共軛梯度的方法求解更新的參數(shù)。當(dāng)選用深度神經(jīng)網(wǎng)絡(luò)表示策略參數(shù)時(shí),TRPO的標(biāo)準(zhǔn)解法產(chǎn)生的計(jì)算量較為龐大[13],較難應(yīng)用到H-CRAN網(wǎng)絡(luò)的策略更新中。根據(jù)2017年OpenAI提出的PPO算法,其策略參數(shù)通過梯度估算進(jìn)行迭代優(yōu)化。PPO不需要估算狀態(tài)轉(zhuǎn)移函數(shù),可以應(yīng)用于大規(guī)模的連續(xù)域控制問題,因此,本文將使用PPO算法對(duì)式(21)的目標(biāo)函數(shù)進(jìn)行優(yōu)化,獲得最優(yōu)的基站關(guān)聯(lián)策略、RB分配策略以及用戶功率分配策略。PPO是基于參考策略πθ0ld的η1階近似值來對(duì)πθ的參數(shù)進(jìn)行局部?jī)?yōu)化,兩者間的概率比表示為
為了提高網(wǎng)絡(luò)的能效性能,Actor和Critic中神經(jīng)網(wǎng)絡(luò)的權(quán)重值都需要通過反復(fù)的學(xué)習(xí)來擬合復(fù)雜的環(huán)境特征,具體的訓(xùn)練模型如圖4所示。該過程通過最小化Critic神經(jīng)網(wǎng)絡(luò)的損失函數(shù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)參數(shù):
圖4 PPO算法框圖
為了使Actor神經(jīng)網(wǎng)絡(luò)獲得最佳的策略,通過最大化Actor的神經(jīng)網(wǎng)絡(luò)損失函數(shù)來訓(xùn)練其權(quán)重參數(shù)
其中,σ 為超參數(shù),取值為0.2,即:縮減該變化率在0.8~1.2之間,以保證策略更新不會(huì)過大。在Actor-old網(wǎng)絡(luò)中,其權(quán)重參數(shù)通過Actor-new網(wǎng)絡(luò)定期地進(jìn)行賦值更新,具體的學(xué)習(xí)流程如表1所示。
表1 近端策略優(yōu)化PPO訓(xùn)練Actor網(wǎng)絡(luò)參數(shù)算法
通過算法1將PPO模型訓(xùn)練好后,可以獲取Actor神經(jīng)網(wǎng)絡(luò)的最優(yōu)權(quán)重參數(shù)。利用上述參數(shù),基站可以獲得最優(yōu)的策略來進(jìn)行用戶關(guān)聯(lián)、RB分配以及功率分配,并且取得最大的能效性能。
在這一節(jié)中,通過與深度Q 學(xué)習(xí)算法[14]和TRPO算法[13]的對(duì)比研究,詳細(xì)地分析所提算法的性能。
本文設(shè)置的網(wǎng)絡(luò)拓?fù)浯笮?00×800 m2, 1個(gè)HPN放置在網(wǎng)絡(luò)中心位置,10個(gè)RRH均勻分布在網(wǎng)絡(luò)中,HUE用戶數(shù)為4, RUE用戶數(shù)為35,且均勻地分布在HPN和RRH上。在仿真中,系統(tǒng)的時(shí)隙長(zhǎng)度 τ為10 ms,總帶寬為10 MHz,子載波數(shù)目設(shè)置為32,無線信道被建模為瑞利信道,噪聲功率密度為—174 dBm/Hz, HPN的路徑損耗模型為31.5+40.0 lg(d)、R R H 的路徑損失模型為31.5+35.0 lg(d)。HPN的最大發(fā)射功率為43 dBm,RRH的最大發(fā)射功率為29 dBm, RRH和HPN的靜態(tài)功率消耗分別為3.5 W和84 W。由于本文采用基于連續(xù)性的深度強(qiáng)化學(xué)習(xí)的算法來解決H-CRAN資源分配問題,還需要對(duì)神經(jīng)網(wǎng)絡(luò)中的參數(shù)進(jìn)行訓(xùn)練,經(jīng)驗(yàn)回放池的大小設(shè)置為5000,batch的大小為32。
本節(jié)通過PPO算法的訓(xùn)練討論了batch大小和損失函數(shù)對(duì)無線網(wǎng)絡(luò)性能的影響。如圖5所示,不同batch大小會(huì)使得系統(tǒng)的能效性能表現(xiàn)出巨大的差異,在batch較小的情況下,網(wǎng)絡(luò)有可能會(huì)陷入局部最優(yōu)解,并且算法的收斂速度較為緩慢。因此,合適的batch大小是DL的訓(xùn)練非常重要,本文將batch大小選為32。
圖6展示了不同到達(dá)率對(duì)用戶的平均隊(duì)列長(zhǎng)度的影響,隨著仿真時(shí)隙的增加,平均隊(duì)列長(zhǎng)度起始迅速增加,隨后趨于穩(wěn)定。這也說明了所提的PPO算法可以有效地保證系統(tǒng)隊(duì)列穩(wěn)定性。以外,在不同到達(dá)率的條件下,平均隊(duì)列長(zhǎng)度會(huì)有所不同,隨著到達(dá)率的增加,平均隊(duì)列長(zhǎng)度會(huì)越來越大。
如圖7展示了不同算法下用戶數(shù)對(duì)網(wǎng)絡(luò)能效的影響,隨著用戶的增加,網(wǎng)絡(luò)的吞吐量將占主導(dǎo)地位,網(wǎng)絡(luò)能效越來越好。此外,由于PPO算法既解決了DQN算法無法應(yīng)用于連續(xù)性以及高維動(dòng)作空間的問題,又大大降低了TRPO算法的計(jì)算復(fù)雜度,因此,PPO算法對(duì)無線網(wǎng)絡(luò)產(chǎn)生能效優(yōu)勢(shì)遠(yuǎn)遠(yuǎn)好于TRPO和DQN算法。如圖8所示,PPO算法較TRPO算法而言,計(jì)算復(fù)雜度更低,從而可以更加快速、合理地獲得最優(yōu)的資源分配策略,避免不必要的能耗浪費(fèi)。PPO算法較DQN算法而言,完美地解決了DQN在連續(xù)型環(huán)境下需要離散化的問題,使得神經(jīng)網(wǎng)絡(luò)的訓(xùn)練可以獲得更加完善的狀態(tài)信息,進(jìn)而更合理地分配無線資源。
圖5 PPO算法下不同batch的網(wǎng)絡(luò)能效
圖6 不同到達(dá)率的平均隊(duì)列長(zhǎng)度
圖7 不同算法下的網(wǎng)絡(luò)能效
圖8 不同算法下的網(wǎng)絡(luò)能耗
本文在H-CRAN下行傳輸場(chǎng)景下,以隊(duì)列穩(wěn)定和前傳鏈路為約束,聯(lián)合優(yōu)化用戶關(guān)聯(lián)、RB分配和功率分配,構(gòu)建用戶公平和網(wǎng)絡(luò)能效的隨機(jī)優(yōu)化問題。將隨機(jī)優(yōu)化問題轉(zhuǎn)化為置信域策略優(yōu)化問題,通過自學(xué)習(xí)的方法求解最佳策略。此外,針對(duì)TRPO算法的標(biāo)準(zhǔn)解法產(chǎn)生的計(jì)算量較為龐大,采用PPO算法進(jìn)行優(yōu)化求解。仿真結(jié)果表明,本文所提算法在保證隊(duì)列穩(wěn)定約束下,進(jìn)一步提高了網(wǎng)絡(luò)的能效性能。