鄭冰原,孫彥贊,吳雅婷,王 濤,方 勇
(1.上海大學(xué)上海先進(jìn)通信與數(shù)據(jù)科學(xué)研究院,上海 200444;2.上海大學(xué)特種光纖與光接入網(wǎng)重點(diǎn)實(shí)驗(yàn)室,上海 200444;3.上海大學(xué)特種光纖與先進(jìn)通信國際合作聯(lián)合實(shí)驗(yàn)室,上海 200444)
隨著智能終端數(shù)量的急劇增加和網(wǎng)絡(luò)流量的指數(shù)級(jí)增長,目前蜂窩網(wǎng)絡(luò)對(duì)網(wǎng)絡(luò)容量和用戶速率的需求面臨著巨大挑戰(zhàn)。超密集異構(gòu)網(wǎng)絡(luò)[1]作為5G移動(dòng)通信的關(guān)鍵技術(shù)之一,可有效提高網(wǎng)絡(luò)覆蓋率和網(wǎng)絡(luò)容量。由于基站的密集部署將會(huì)產(chǎn)生嚴(yán)重的干擾和能耗問題,從而導(dǎo)致網(wǎng)絡(luò)性能下降[2],致使用戶網(wǎng)絡(luò)服務(wù)質(zhì)量(Quality of Service,QoS)無法得到有效保障。
超密集網(wǎng)絡(luò)中的資源分配策略會(huì)影響網(wǎng)絡(luò)性能和用戶體驗(yàn),針對(duì)異構(gòu)網(wǎng)絡(luò)和超密集網(wǎng)絡(luò)中的資源分配問題已有廣泛研究。文獻(xiàn)[3-4]利用隨機(jī)幾何分析系統(tǒng)能效(Energy Efficient,EE)與基站(Base Stations,BSs)密度之間的關(guān)系。文獻(xiàn)[5]提出利用聯(lián)合功率控制和用戶調(diào)度的策略對(duì)網(wǎng)絡(luò)能效進(jìn)行優(yōu)化。文獻(xiàn)[6]提出了基于分簇的高能效資源管理方案,并闡述了資源分配和功率分配分階段優(yōu)化方法可實(shí)現(xiàn)能效優(yōu)化。文獻(xiàn)[7]通過聯(lián)合考慮功率分配及負(fù)載感知來優(yōu)化網(wǎng)絡(luò)能效。文獻(xiàn)[8]考慮了用戶QoS 需求并對(duì)網(wǎng)絡(luò)能效進(jìn)行分析。上述研究主要是通過傳統(tǒng)的優(yōu)化算法對(duì)網(wǎng)絡(luò)能效進(jìn)行優(yōu)化。而在超密集網(wǎng)絡(luò)中,基站數(shù)量的增加使得上述算法的復(fù)雜度將會(huì)急劇增大。為降低算法的計(jì)算復(fù)雜度,基于強(qiáng)化學(xué)習(xí)的無線資源分配策略受到了廣泛關(guān)注。
文獻(xiàn)[9-11]表明,無模型強(qiáng)化學(xué)習(xí)框架可用來解決無線網(wǎng)絡(luò)中的動(dòng)態(tài)資源分配問題。文獻(xiàn)[12]利用強(qiáng)化學(xué)習(xí)框架對(duì)網(wǎng)絡(luò)的功率分配進(jìn)行優(yōu)化,在提升網(wǎng)絡(luò)容量的同時(shí)保障了用戶QoS。然而在超密集網(wǎng)絡(luò)中,網(wǎng)絡(luò)規(guī)模龐大且結(jié)構(gòu)復(fù)雜,基于Q-學(xué)習(xí)的資源分配算法存在動(dòng)作狀態(tài)空間的爆炸問題,使得基于Q-學(xué)習(xí)的資源分配算法收斂緩慢且難以找到最優(yōu)解。而深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)作為一種新興工具可有效克服上述問題。利用DRL 進(jìn)行資源分配具有允許網(wǎng)絡(luò)實(shí)體學(xué)習(xí)和構(gòu)建關(guān)于通信和網(wǎng)絡(luò)環(huán)境的知識(shí)、提供自主決策以及學(xué)習(xí)速度快等優(yōu)點(diǎn)。因此,DRL 適合解決超密集網(wǎng)絡(luò)中具有較大狀態(tài)和動(dòng)作空間的復(fù)雜資源管理優(yōu)化分配問題。在目前基于DRL 的無線通信網(wǎng)絡(luò)資源管理研究中,多數(shù)采用的是深度Q-學(xué)習(xí)網(wǎng)絡(luò)(Deep Q-learning Network,DQN)。DQN 是一種新的DRL算法[13],其通過將RL 與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合[14]來解決Q-學(xué)習(xí)的局限性。文獻(xiàn)[15]在多小區(qū)網(wǎng)絡(luò)中利用深度強(qiáng)化學(xué)習(xí)框架對(duì)基站功率進(jìn)行控制,實(shí)現(xiàn)了網(wǎng)絡(luò)容量的優(yōu)化。文獻(xiàn)[16]采用DQN 優(yōu)化小型基站的ON/OFF 策略,以有效提高能源效率。文獻(xiàn)[17]闡述了基于DQN 的頻譜資源分配,以實(shí)現(xiàn)網(wǎng)絡(luò)能效和頻譜效率的平衡。在超密集網(wǎng)絡(luò)中,基于DRL 框架對(duì)網(wǎng)絡(luò)能效進(jìn)行優(yōu)化時(shí)多數(shù)是通過對(duì)單一資源控制而實(shí)現(xiàn)的,且很少考慮滿足用戶的QoS 需求。因此,本文研究基于DRL 的資源分配和功率控制聯(lián)合優(yōu)化問題,并考慮用戶的QoS 需求,以實(shí)現(xiàn)網(wǎng)絡(luò)能效的進(jìn)一步提升。
本文考慮由一個(gè)宏基站和N個(gè)毫微基站(Femto Base Station,F(xiàn)BS)組成的超密集異構(gòu)網(wǎng)絡(luò)下行鏈路場(chǎng)景,如圖1 所示。宏基站作為整個(gè)網(wǎng)絡(luò)的信息中心可收集整個(gè)網(wǎng)絡(luò)的信息,并決定整個(gè)網(wǎng)絡(luò)的資源塊分配和功率控制策略。宏基站和各個(gè)毫微基站之間共享整個(gè)頻率資源。同一時(shí)刻,每個(gè)用戶設(shè)備(User Equipment,UE)只能與一個(gè)基站相關(guān)聯(lián),而宏用戶之間及各個(gè)毫微基站內(nèi)用戶之間使用正交頻譜資源。宏用戶設(shè)備(Macro User Equipment,MUE)與毫微用戶設(shè)備(Femto User Equipment,F(xiàn)UE)之間及不同毫微基站下的毫微用戶之間均可使用相同的頻譜資源。
圖1 超密集網(wǎng)絡(luò)場(chǎng)景示意圖Fig.1 Schematic diagram of ultra-dense network scenario
在超密集異構(gòu)網(wǎng)絡(luò)中,F(xiàn)BS 的集合可表示為A={1,2,…,N}。在每個(gè)時(shí)隙t,用戶設(shè)備隨機(jī)出現(xiàn),并基于信號(hào)強(qiáng)度與相應(yīng)的基站進(jìn)行關(guān)聯(lián)。為方便表示,將字母m 和s 作為下標(biāo),分別表示對(duì)應(yīng)的宏基站和毫微基站。網(wǎng)絡(luò)的總用戶集合可表示為,其中分別表示宏基站用戶集合和總的毫微基站用戶集合。整個(gè)頻譜資源被分為L個(gè)資源塊(Resource Block,RB),而總資源塊可表示為B={1,2,…,L}。兩層網(wǎng)絡(luò)及毫微基站之間共享所有資源塊,同時(shí)每個(gè)資源塊只能分配給一個(gè)用戶。宏基站和各毫微基站的最大發(fā)射功率可分別表示為Ptm和。由于宏基站和毫微基站共享頻譜資源,宏用戶(MUE)會(huì)受到毫微基站的干擾,因此在時(shí)隙t內(nèi),MUEk在資源塊l上的信干噪比(Signal to Interference plus Noise Ratio,SINR)可表示為:
同理,毫微用戶會(huì)受到宏基站和毫微基站的干擾。在時(shí)隙t內(nèi),與毫微基站i關(guān)聯(lián)的毫微用戶k在資源塊l上的SINR 可表示為:
因此通過香農(nóng)公式可得到在資源塊l上MUE 和FUE 的速率為:
其中,W表示用戶帶寬。二進(jìn)制指示變量表示資源塊l是否通過宏基站分配給UEk,如果為1 表示分配,否則不分配。同理,表示資源塊l是否通過毫微基站i分配給UEk。本文分別定義為宏用戶和毫微用戶的RB 分配集合。因此,與宏基站和毫微基站i關(guān)聯(lián)的用戶速率可分別表示為:
總的系統(tǒng)容量可表示為:
每個(gè)基站的功率包括發(fā)射功率和電路固定運(yùn)行功率兩個(gè)部分。本文定義毫微基站的發(fā)射功率集合為,在下行鏈路傳輸中,總功耗可定義為:
其中,Pm,c和Pf,c表示宏基站和毫微基站的電路固定運(yùn)行功率。
在時(shí)隙t內(nèi),能效可表示為[18]:
根據(jù)文獻(xiàn)[19],用戶k的流量延遲可定義為傳輸用戶數(shù)據(jù)所需時(shí)間。基站的延遲可定義為服務(wù)用戶的流量延遲之和。如果UE 的數(shù)據(jù)要求為Mbit,則毫微基站i在時(shí)隙t內(nèi)的總流量延遲為:
在時(shí)隙t內(nèi),總的時(shí)間延遲可定義為:
為聯(lián)合優(yōu)化網(wǎng)絡(luò)能源效率及用戶服務(wù)質(zhì)量,效用函數(shù)可定義為:
同時(shí)考慮能源效率和QoS,其中,ε是為了平衡能效和時(shí)延的參數(shù)。本文的優(yōu)化目標(biāo)是在保證用戶QoS 需求的前提下,實(shí)現(xiàn)能源效率最大化,則聯(lián)合優(yōu)化問題可表示為:
其中,C1,C2,C6 約束表示一個(gè)RB 只能分配給一個(gè)用戶,C3,C4 表示基站的發(fā)射功率為正值,C5 表示基站總的發(fā)射功率約束。該問題是一個(gè)非凸的多目標(biāo)優(yōu)化問題,且為NP-Hard 問題,利用傳統(tǒng)的求解方法存在算法復(fù)雜度較高的問題。
上述UDN 場(chǎng)景下的聯(lián)合資源分配問題可表示為馬爾科夫決策過程(Markov Decision Processes,MDP)。采用強(qiáng)化學(xué)習(xí)技術(shù)可有效解決MDP 問題,然而超密集網(wǎng)絡(luò)規(guī)模龐大且拓?fù)浣Y(jié)構(gòu)復(fù)雜,使得算法的計(jì)算復(fù)雜度難以控制。DRL 作為強(qiáng)化學(xué)習(xí)的升級(jí),網(wǎng)絡(luò)實(shí)體經(jīng)過不斷交互可學(xué)習(xí)和構(gòu)建關(guān)于網(wǎng)絡(luò)環(huán)境的知識(shí),并進(jìn)行自主決策,同時(shí)DNN 的引入可大幅提高學(xué)習(xí)速度,在具有較大狀態(tài)和動(dòng)作空間的優(yōu)化問題求解上有顯著優(yōu)勢(shì)。因此,本文提出基于DRL 的聯(lián)合資源分配框架以優(yōu)化網(wǎng)絡(luò)能效。本節(jié)首先給出了強(qiáng)化學(xué)習(xí)的基本要素,并分別定義了聯(lián)合資源分配和功率控制的狀態(tài)、動(dòng)作空間以及回報(bào)函數(shù)。其次提出了集中式的DRL 算法以解決上述聯(lián)合資源分配和功率控制的優(yōu)化問題。
在強(qiáng)化學(xué)習(xí)問題中,智能體(代理)基于策略選擇動(dòng)作與環(huán)境進(jìn)行交互。強(qiáng)化學(xué)習(xí)框架中有狀態(tài)空間、動(dòng)作和回報(bào)3 個(gè)要素。針對(duì)本文考慮的超密集異構(gòu)網(wǎng)絡(luò)以宏基站作為智能體,定義了基于強(qiáng)化學(xué)習(xí)框架的狀態(tài)空間、動(dòng)作和回報(bào)。具體描述如下:
1)狀態(tài)空間:動(dòng)作的選擇由智能體決定,因此智能體需要整個(gè)網(wǎng)絡(luò)信息。為了保證用戶的QoS,同時(shí)優(yōu)化網(wǎng)絡(luò)能效,智能體需要獲取網(wǎng)絡(luò)中用戶的QoS 需求、時(shí)延、占用RB 及各個(gè)基站功率等信息。則在時(shí)隙t內(nèi),智能體的狀態(tài)可表示為:
2)動(dòng)作空間:為聯(lián)合優(yōu)化資源分配和功率控制,智能體需要決定每個(gè)用戶的RB 分配情況和毫微基站的發(fā)射功率。同時(shí)為了減少動(dòng)作空間的大小,對(duì)基站的發(fā)射功率進(jìn)行離散化并分為S個(gè)等級(jí)。因此,在時(shí)隙t內(nèi),智能體的動(dòng)作可表示為:
動(dòng)作空間隨基站的增加呈指數(shù)級(jí)增長,動(dòng)作空間的爆炸將是一個(gè)重要且困難的問題。每個(gè)動(dòng)作都影響一個(gè)狀態(tài),這意味著狀態(tài)空間的數(shù)量也很大。
3)回報(bào)函數(shù):回報(bào)獎(jiǎng)勵(lì)代表框架的目標(biāo)。為優(yōu)化網(wǎng)絡(luò)能效并同時(shí)保證用戶的QoS,本文將優(yōu)化問題式(13)作為最終優(yōu)化目標(biāo)。因此,回報(bào)函數(shù)可定義為:
智能體的目標(biāo)是學(xué)習(xí)一個(gè)選擇策略π,基于當(dāng)前的狀態(tài)st選擇下一個(gè)動(dòng)作at=π(st),并得到即時(shí)回報(bào)rt,然后得到下一個(gè)狀態(tài)st+1,持續(xù)該過程以得到最大預(yù)期累積回報(bào)。本文定義累積折扣獎(jiǎng)勵(lì)Vπ(st,at)為:
其中,λ為折扣因子,η(t|s=st,a=at)為在狀態(tài)st執(zhí)行相應(yīng)動(dòng)作at的即時(shí)回報(bào)。
強(qiáng)化學(xué)習(xí)的目標(biāo)是通過在線訓(xùn)練找到最優(yōu)選擇策略π*,對(duì)于任意的選擇策略π都滿足>Vπ(st,at)。在強(qiáng)化學(xué)習(xí)中,最典型的算法是Q-學(xué)習(xí)。Q-學(xué)習(xí)是解決馬爾科夫過程的經(jīng)典方法[20]。在Q-學(xué)習(xí)中,內(nèi)部維護(hù)一個(gè)值函數(shù)可表示為Q(st,at),其代表在狀態(tài)st執(zhí)行動(dòng)作at的累積折扣獎(jiǎng)勵(lì)。智能體通過與環(huán)境相交互,利用反饋信息不斷在線訓(xùn)練更新值函數(shù),最終得到最優(yōu)策略。根據(jù)貝爾曼方程,Q值的更新過程可表示為:
其中,α為學(xué)習(xí)率。
在超密集異構(gòu)網(wǎng)絡(luò)中,由于基站密集部署且網(wǎng)絡(luò)環(huán)境更加復(fù)雜,使得狀態(tài)、動(dòng)作空間大小隨基站數(shù)量呈指數(shù)級(jí)增加,很難通過查找Q值表的方式找到最優(yōu)策略。為解決在復(fù)雜環(huán)境下Q-學(xué)習(xí)狀態(tài)空間較大的問題,將深度神經(jīng)網(wǎng)絡(luò)引入到RL 框架中以形成深度強(qiáng)化學(xué)習(xí)。DQN 是DRL 中較為經(jīng)典的方法。通過RL 在線學(xué)習(xí)和DNN 網(wǎng)絡(luò)的線下訓(xùn)練,可有效解決狀態(tài)空間爆炸問題。在DQN 中,通過強(qiáng)化學(xué)習(xí)技術(shù)產(chǎn)生訓(xùn)練數(shù)據(jù),再利用DNN 線下訓(xùn)練擬合出最佳值函數(shù)Q(st,at)。對(duì)于主深度神經(jīng)網(wǎng)絡(luò)輸出Q值可表示為Q(st,at|θ),其中,θ為主神經(jīng)網(wǎng)絡(luò)參數(shù)。智能體基于神經(jīng)網(wǎng)絡(luò)輸出的Q值選擇相應(yīng)的動(dòng)作,最優(yōu)選擇策略可表示為:
其中,Q*(st,at|θ)是通過DNN 逼近的最佳Q值。為使Q(st,at|θ)更為穩(wěn)定,需要對(duì)目標(biāo)Q值進(jìn)行誤差計(jì)算。逼近的目標(biāo)Q值可定義為:
在線學(xué)習(xí)階段中為了防止目標(biāo)策略陷入局部最優(yōu),本文在該階段引入ε-貪婪策略進(jìn)行動(dòng)作的選擇。這將存在1-ξ的概率可根據(jù)式(19)選擇動(dòng)作at和有ξ的概率隨機(jī)選擇動(dòng)作。在初始階段,智能體通過收集網(wǎng)絡(luò)環(huán)境信息,得到當(dāng)前網(wǎng)絡(luò)的狀態(tài)st。根據(jù)ε-貪婪策略選擇動(dòng)作at,該動(dòng)作決定了網(wǎng)絡(luò)中用戶的RB分配及功率分配情況,執(zhí)行動(dòng)作即實(shí)施具體的資源和功率分配,并得到即時(shí)獎(jiǎng)勵(lì)rt,同時(shí)網(wǎng)絡(luò)轉(zhuǎn)變?yōu)橄乱粋€(gè)狀態(tài)st+1。接下來將經(jīng)驗(yàn)向量(st,at,rt,st+1)存儲(chǔ)到經(jīng)驗(yàn)池中,并通過不斷交互產(chǎn)生線下訓(xùn)練數(shù)據(jù)。
在線下訓(xùn)練階段,利用DNN 對(duì)在線學(xué)習(xí)產(chǎn)生的數(shù)據(jù)進(jìn)行訓(xùn)練,并擬合出最佳值函數(shù)。當(dāng)使用非線性函數(shù)逼近器時(shí),強(qiáng)化學(xué)習(xí)算法得到的平均報(bào)酬可能不穩(wěn)定甚至是發(fā)散的。這是因?yàn)橐粋€(gè)小的Q值變化可能會(huì)顯著影響政策。因此,數(shù)據(jù)分布和Q值與目標(biāo)值之間的相關(guān)性是多種多樣的。為解決該問題,本文引入了經(jīng)驗(yàn)重放和目標(biāo)Q網(wǎng)絡(luò)這2 種機(jī)制。
1)固定目標(biāo)Q網(wǎng)絡(luò)。在訓(xùn)練過程中Q值會(huì)發(fā)生偏移。因此,如果使用一組不斷變化的值來更新主深度神經(jīng)網(wǎng)絡(luò),那么值估計(jì)可能會(huì)失控,這將導(dǎo)致算法不穩(wěn)定。為解決該問題,本文使用目標(biāo)Q網(wǎng)絡(luò)頻繁而緩慢地更新主深度神經(jīng)網(wǎng)絡(luò)的值。即在訓(xùn)練時(shí)只訓(xùn)練主深度神經(jīng)網(wǎng)絡(luò),經(jīng)過多次在線訓(xùn)練后將主深度神經(jīng)網(wǎng)絡(luò)的參數(shù)更新到目標(biāo)Q網(wǎng)絡(luò)中。該做法會(huì)使得目標(biāo)與估計(jì)Q值間的相關(guān)性顯著降低,有效提高算法的穩(wěn)定性。
2)經(jīng)驗(yàn)重放策略。在線下訓(xùn)練階段中,為使學(xué)習(xí)更加穩(wěn)定,本文引入了經(jīng)驗(yàn)重放策略。該算法首先初始化回放經(jīng)驗(yàn)D,即經(jīng)驗(yàn)池。智能體通過與環(huán)境交互產(chǎn)生經(jīng)驗(yàn)向量(st,at,rt,st+1)并存入經(jīng)驗(yàn)池。其次,算法隨機(jī)選取樣本,即從經(jīng)驗(yàn)池中隨機(jī)抽取小批量的樣本到DNN 中進(jìn)行訓(xùn)練。經(jīng)過訓(xùn)練的DNN獲得的Q值將用于獲得新的經(jīng)驗(yàn),即這種機(jī)制允許DNN 通過使用新舊經(jīng)驗(yàn)更有效地訓(xùn)練網(wǎng)絡(luò)。此外,通過使用經(jīng)驗(yàn)重放可有效轉(zhuǎn)換獨(dú)立和恒等分布,從而消除觀測(cè)之間的相關(guān)性。當(dāng)經(jīng)驗(yàn)池中有足夠多的數(shù)據(jù)時(shí),從經(jīng)驗(yàn)池中隨機(jī)抽取批量數(shù)據(jù)進(jìn)行DNN 網(wǎng)絡(luò)訓(xùn)練,并定時(shí)更新神經(jīng)網(wǎng)絡(luò)參數(shù)θ。
本文所提基于DQN 的聯(lián)合資源和功率分配算法流程如算法1 所示。
算法1基于DQN 的聯(lián)合資源和功率分配算法
本節(jié)對(duì)所提算法進(jìn)行仿真分析,以驗(yàn)證本文算法在保證用戶QoS 的前提下,在降低網(wǎng)絡(luò)干擾和優(yōu)化UDHN 能源效率方面的有效性。在實(shí)驗(yàn)選擇的場(chǎng)景中,毫微基站和宏用戶都均勻地部署在覆蓋區(qū)域。為了簡化分析,本文設(shè)置一個(gè)毫微基站關(guān)聯(lián)一個(gè)用戶,同時(shí)將毫微基站的發(fā)射功率進(jìn)行離散化處理,并分為3 個(gè)等級(jí),可取值為p={20,25,30}。深度神經(jīng)網(wǎng)絡(luò)使用包含3 個(gè)隱藏層的反饋神經(jīng)網(wǎng)絡(luò),第1 層包含400 個(gè)神經(jīng)元,第2 層包含800 個(gè)神經(jīng)元,第3 層包含300 個(gè)神經(jīng)元。本文利用瑞利衰落來模擬基站和用戶之間的信道以及路徑損失模型,其他仿真參數(shù)如表1 所示。
表1 仿真參數(shù)設(shè)置Table 1 Simulation parameters setting
為更好地分析本文所提DQN 算法的性能,實(shí)驗(yàn)將DQN 算法與最優(yōu)能效枚舉算法、基于Q-學(xué)習(xí)算法及兩階段算法[6]這3 種算法進(jìn)行對(duì)比。圖2 給出了當(dāng)用戶速率需求M分別為0.1、0.5、1.0 時(shí),本文所提DQN 算法的網(wǎng)絡(luò)能效隨基站密度的變化情況。從圖2 可以看出,當(dāng)用戶速率需求一定時(shí),隨著基站密度的增大,網(wǎng)絡(luò)能效逐漸減小。當(dāng)基站密度一定時(shí),隨著用戶速率需求的增大,網(wǎng)絡(luò)需要更高的發(fā)射功率滿足用戶需求,網(wǎng)絡(luò)能效呈下降趨勢(shì)。因此,本文所提DQN 算法可以根據(jù)用戶QoS 動(dòng)態(tài)調(diào)整網(wǎng)絡(luò)狀態(tài),優(yōu)化網(wǎng)絡(luò)能效。
圖2 不同用戶速率需求下網(wǎng)絡(luò)的總能效Fig.2 Total energy efficiency of the network under different user rate requirements
網(wǎng)絡(luò)的總能效隨基站密度變化如圖3 所示,此時(shí)用戶的速率需求為0.5M。從圖中可知,隨著網(wǎng)絡(luò)中毫微基站的密度增大,所有算法的網(wǎng)絡(luò)整體能效都呈下降趨勢(shì)。這是由于隨著毫微基站數(shù)量的增加,網(wǎng)絡(luò)干擾和能耗更加嚴(yán)重,導(dǎo)致網(wǎng)絡(luò)性能下降。與典型的Q-學(xué)習(xí)算法及兩階段算法相比,所提DQN算法具有更好的能效,與最優(yōu)的能效遍歷算法比較接近。這是由于在兩階段算法中,將RB 分配和功率控制分為兩步分別優(yōu)化,然而RB 分配階段雖然避免了一部分網(wǎng)絡(luò)干擾,但進(jìn)行功率控制時(shí),RB 分配策略已經(jīng)確定,制約著整體性能的提升。隨著基站密度的增大,對(duì)網(wǎng)絡(luò)性能影響越大。在DQN 中,智能體不斷與環(huán)境交互,將RB 的分配策略以及相應(yīng)的功率分配策略同時(shí)作為網(wǎng)絡(luò)動(dòng)作優(yōu)化網(wǎng)絡(luò)性能,綜合考慮了RB 分配和功率分配的相互影響。智能體通過不斷嘗試與探索,逐步找到最佳的選擇策略。同時(shí),智能體經(jīng)過DNN 的訓(xùn)練后可根據(jù)網(wǎng)絡(luò)環(huán)境變化自適應(yīng)調(diào)整網(wǎng)絡(luò)的資源分配策略。因此,相較于Q-學(xué)習(xí)和兩階段算法,本文算法具有更好的網(wǎng)絡(luò)性能。由于DQN 算法中加入用戶QoS 約束,且隨著基站密度的增加網(wǎng)絡(luò)中干擾加劇,并且需要更高的發(fā)射功率以保證用戶速率,因此隨著基站密度減小,本文所提DQN 算法與枚舉算法的差距逐漸減小。
圖3 4 種算法在不同基站密度下的總能效Fig.3 Total energy efficiency of four algorithms under different base station densities
當(dāng)用戶速率需求為0.5M 時(shí),網(wǎng)絡(luò)中用戶總時(shí)延隨基站密度變化如圖4 所示。從圖4 可以看出,本文所提DQN 算法相比其他算法具有更好的總用戶時(shí)延性能。隨著基站密度的增加,網(wǎng)絡(luò)中用戶基數(shù)增大,網(wǎng)絡(luò)干擾加劇,且總的用戶時(shí)延逐漸增大。由于枚舉算法以最優(yōu)能效為優(yōu)化目標(biāo),基站密度增加會(huì)導(dǎo)致個(gè)別用戶速率下降,導(dǎo)致整個(gè)網(wǎng)絡(luò)總時(shí)延增大,因此枚舉算法的時(shí)延會(huì)更大。而本文所提DQN 算法將用戶總時(shí)延作為回報(bào)函數(shù)的一部分,通過將RB分配和功率分配策略作為執(zhí)行動(dòng)作對(duì)RB 和功率進(jìn)行聯(lián)合優(yōu)化,可有效降低網(wǎng)絡(luò)干擾,保證用戶速率。結(jié)合圖3 和圖4 可知,DQN 算法在提升網(wǎng)絡(luò)能效的同時(shí),可有效保證用戶的QoS。
圖4 4 種算法在不同基站密度下的用戶總時(shí)延Fig.4 Total user delay of four algorithms under different base station density
本文所提DQN 和Q-學(xué)習(xí)算法的迭代收斂曲線如圖5 所示。從圖5 可以看出,算法在經(jīng)過近100 次迭代后逐漸收斂,且在前50 次迭代中,DQN 算法的表現(xiàn)比Q-學(xué)習(xí)算法差。這是因?yàn)樵谇?0 次迭代中,Q-學(xué)習(xí)算法可從開始的反饋中學(xué)習(xí),而DQN 算法只是隨機(jī)選擇動(dòng)作并將反饋信息存儲(chǔ)在回放經(jīng)驗(yàn)池中。而在100 次迭代后,DQN 和Q-學(xué)習(xí)算法都趨于穩(wěn)定,且DQN 算法的性能比Q-學(xué)習(xí)算法好。與典型的Q-學(xué)習(xí)算法相比,本文所提DQN 算法不僅收斂更快,而且具有更好的性能指標(biāo)。
圖5 2 種算法的迭代收斂曲線Fig.5 Iterative convergence curves of two algorithms
為降低超密集異構(gòu)網(wǎng)絡(luò)的同層和跨層干擾,并提高網(wǎng)絡(luò)的能效,本文聯(lián)合考慮用戶QoS,提出聯(lián)合RB 分配和功率控制的優(yōu)化問題。針對(duì)傳統(tǒng)算法復(fù)雜度較高的問題,引入DQN 框架并定義了優(yōu)化網(wǎng)絡(luò)能效和確保用戶QoS 的獎(jiǎng)勵(lì)函數(shù)。仿真結(jié)果表明,與典型Q-學(xué)習(xí)算法、兩階段算法及枚舉算法相比,本文所提DQN 算法可有效保證用戶的QoS,且性能更優(yōu)。下一步將研究基于多智能體的分布式資源管理問題,利用多智能協(xié)作減小網(wǎng)絡(luò)干擾,進(jìn)一步提升網(wǎng)絡(luò)能效。