秦爽/QIN Shuang,董星辰/DONG Xingchen,馮鋼/FENG Gang
(1.電子科技大學(xué),中國(guó)成都611731;2.南京船舶雷達(dá)研究所,中國(guó)南京211153)
(1.University of Electronic Science and Technology of China,Chengdu 611731,China;2.Nanjing Marine Radar Institute,Nanjing 211153,China)
近年來(lái),隨著智能移動(dòng)終端的快速發(fā)展和普及,移動(dòng)通信業(yè)務(wù)呈現(xiàn)出了爆炸式增長(zhǎng)。有研究發(fā)現(xiàn)[1],在移動(dòng)通信網(wǎng)中,存在大量的業(yè)務(wù)熱點(diǎn)區(qū)域,特別是以住宅、商場(chǎng)、辦公樓等為代表的室內(nèi)熱點(diǎn)區(qū)域,集中了超過(guò)70%的數(shù)據(jù)業(yè)務(wù)和50%的語(yǔ)音業(yè)務(wù)。因此,為了提升熱點(diǎn)區(qū)域的網(wǎng)絡(luò)覆蓋并增加網(wǎng)絡(luò)容量,研究者提出了在已有宏基站(MBS)的覆蓋范圍內(nèi),通過(guò)部署大量低功耗、低成本的小基站(SBS),形成重疊異構(gòu)覆蓋的超密集蜂窩網(wǎng)絡(luò)(UDN),來(lái)解決移動(dòng)網(wǎng)絡(luò)中熱點(diǎn)區(qū)域弱覆蓋的相關(guān)問(wèn)題[2]。
在UDN中,SBS部署密集,站點(diǎn)之間距離很近,一個(gè)小基站會(huì)同時(shí)受到來(lái)自MBS和周?chē)渌鸖BS的干擾。網(wǎng)絡(luò)中干擾問(wèn)題十分嚴(yán)重,且干擾環(huán)境也很復(fù)雜,嚴(yán)重影響了網(wǎng)絡(luò)用戶(hù)獲得的傳輸服務(wù)質(zhì)量。因此,如何通過(guò)有效的干擾協(xié)調(diào),降低網(wǎng)絡(luò)中不同接入站點(diǎn)之間的干擾,提升網(wǎng)絡(luò)傳輸性能是UDN網(wǎng)絡(luò)需要解決的一個(gè)重要問(wèn)題[3]。
近年來(lái),集中化無(wú)線(xiàn)接入網(wǎng)(CRAN)技術(shù)作為一種移動(dòng)接入網(wǎng)的新型組網(wǎng)和部署方式,引起了研究者的廣泛關(guān)注[4]。在C-RAN網(wǎng)絡(luò)架構(gòu)下,移動(dòng)接入網(wǎng)絡(luò)由1個(gè)中心控制的基帶處理單元(BBU)與多個(gè)分布式的射頻單元(RRH)組成,每個(gè)RRH相當(dāng)于1個(gè)SBS。利用C-RAN技術(shù)可以方便部署即插即用的SBS,構(gòu)建UDN,實(shí)現(xiàn)對(duì)熱點(diǎn)區(qū)域的密集覆蓋[5]。因此,如何在基于C-RAN網(wǎng)絡(luò)架構(gòu)的UDN中進(jìn)行高效的干擾協(xié)調(diào),是一個(gè)值得深入研究的問(wèn)題。
干擾協(xié)調(diào)一直是移動(dòng)通信網(wǎng)絡(luò)領(lǐng)域的熱點(diǎn)研究問(wèn)題,而功率控制是實(shí)現(xiàn)干擾協(xié)調(diào)的有效手段。已有很多研究[6-7]關(guān)注了如何在UDN中,通過(guò)優(yōu)化的功率控制,來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)中高效的干擾協(xié)調(diào)。但在移動(dòng)網(wǎng)絡(luò)場(chǎng)景下,用戶(hù)移動(dòng)會(huì)使網(wǎng)絡(luò)中的干擾情況不斷變化。在以室內(nèi)熱點(diǎn)覆蓋為典型應(yīng)用場(chǎng)景的UDN中,復(fù)雜的室內(nèi)結(jié)構(gòu)和密集部署的SBS也使得網(wǎng)絡(luò)中的干擾環(huán)境十分復(fù)雜。傳統(tǒng)的靜態(tài)優(yōu)化算法和博弈論等啟發(fā)式算法難以適應(yīng)UDN中復(fù)雜多變的干擾情況,因此,在動(dòng)態(tài)網(wǎng)絡(luò)環(huán)境下,基站需要根據(jù)網(wǎng)絡(luò)狀態(tài)和干擾環(huán)境的變化,動(dòng)態(tài)調(diào)整自己的發(fā)送功率,從而降低網(wǎng)絡(luò)中的干擾,提升傳輸性能。近來(lái),基于機(jī)器學(xué)習(xí),特別是強(qiáng)化學(xué)習(xí)的人工智能算法在移動(dòng)通信網(wǎng)絡(luò)中的應(yīng)用引起了研究者的廣泛關(guān)注[8-9]。在基于強(qiáng)化學(xué)習(xí)的智能算法中,網(wǎng)絡(luò)中的智能決策者可以通過(guò)對(duì)網(wǎng)絡(luò)環(huán)境的觀察和交互,不斷改進(jìn)和優(yōu)化自身的策略。這為在UDN中,通過(guò)動(dòng)態(tài)的功率控制策略實(shí)現(xiàn)優(yōu)化的干擾協(xié)調(diào)和管理,提供了一種有效的解決手段。
本文主要研究在超密集覆蓋蜂窩網(wǎng)中,通過(guò)智能高效的動(dòng)態(tài)功率控制,實(shí)現(xiàn)優(yōu)化的網(wǎng)絡(luò)干擾協(xié)調(diào)。首先,從網(wǎng)絡(luò)動(dòng)態(tài)決策的角度出發(fā),將UDN網(wǎng)絡(luò)中的動(dòng)態(tài)干擾環(huán)境下,基站發(fā)送功率的動(dòng)態(tài)控制決策問(wèn)題建模為一個(gè)馬爾科夫決策過(guò)程(MDP)[8-9]。進(jìn)一步地,基于強(qiáng)化學(xué)習(xí)的思想,采用 Actor-Critic(AC)算法[8]對(duì) MDP 模型進(jìn)行求解,并在此基礎(chǔ)上,設(shè)計(jì)了基于AC方法的智能功率控制算法。最后,通過(guò)仿真實(shí)驗(yàn)驗(yàn)證了提出算法的性能。數(shù)值結(jié)果顯示:與傳統(tǒng)的干擾協(xié)調(diào)算法相比,本文提出的智能功率控制算法能有效降低UDN網(wǎng)絡(luò)中基站間的干擾,提升網(wǎng)絡(luò)傳輸性能。
本研究考慮的是如圖1所示的CRAN架構(gòu)下的超密集蜂窩網(wǎng)絡(luò)。如圖1所示,網(wǎng)絡(luò)由1個(gè)宏基站(MBS)和M個(gè)小站(SBS)組成,網(wǎng)絡(luò)中有N個(gè)SBS用戶(hù)。在室內(nèi)覆蓋等典型的超密集蜂窩網(wǎng)應(yīng)用場(chǎng)景下,可以方便地采用C-RAN架構(gòu)來(lái)實(shí)現(xiàn)M個(gè)SBS的部署,網(wǎng)絡(luò)由1個(gè)中心控制的基帶處理單元(BBU)與M個(gè)射頻單元(RRH)組成。網(wǎng)絡(luò)中的用戶(hù)接入到RRH,實(shí)現(xiàn)無(wú)線(xiàn)射頻信號(hào)的接入,每個(gè)RRH可以看作一個(gè)接入小站。BBU為與其相連的RRH提供基帶處理資源,實(shí)現(xiàn)中心控制的基帶信號(hào)處理與無(wú)線(xiàn)網(wǎng)絡(luò)資源的分配與優(yōu)化。為了提高頻譜效率,考慮所有的接入站點(diǎn)采用同頻部署,每個(gè)基站的可用下行傳輸帶寬為B,劃分為K條相同帶寬的正交子信道,那么每條子信道的帶寬可以表示為b=B/K。同一時(shí)刻,任一子信道只能分配給一個(gè)用戶(hù)。
為了便于分析,考慮用戶(hù)在某一時(shí)刻只能通過(guò)一個(gè)接入站點(diǎn)的一條子信道接入網(wǎng)絡(luò),設(shè)用戶(hù)n通過(guò)基站m的子信道k接入網(wǎng)絡(luò),則在t時(shí)刻用戶(hù)獲得的服務(wù)速率為:
▲圖1 基于集中化無(wú)線(xiàn)接入網(wǎng)架構(gòu)的超密集蜂窩網(wǎng)絡(luò)
從式(2)可以看出,在密集覆蓋的蜂窩網(wǎng)中,用戶(hù)獲得的下行傳輸速率受其接入站點(diǎn)的發(fā)送功率、信道增益,以及其他站點(diǎn)產(chǎn)生的干擾的影響;而其他站點(diǎn)對(duì)用戶(hù)的干擾,又由站點(diǎn)的發(fā)送功率和用戶(hù)到該站點(diǎn)的信道增益決定。在動(dòng)態(tài)場(chǎng)景下,用戶(hù)移動(dòng)帶來(lái)信道增益的變化。因此,為了滿(mǎn)足用戶(hù)服務(wù)需求,在本研究中,考慮通過(guò)動(dòng)態(tài)地調(diào)整基站的發(fā)送功率,來(lái)降低網(wǎng)絡(luò)中的干擾,提升網(wǎng)絡(luò)的整體傳輸性能。
在傳統(tǒng)網(wǎng)絡(luò)中,常常以最大化系統(tǒng)吞吐量作為網(wǎng)絡(luò)的優(yōu)化設(shè)計(jì)目標(biāo)。但在本文考慮的UDN場(chǎng)景下,不同站點(diǎn)間干擾情況復(fù)雜。如果單純地以最大化系統(tǒng)吞吐量為優(yōu)化設(shè)計(jì)目標(biāo),可能由于小區(qū)邊緣用戶(hù)的信道衰落大,且距離干擾源更近,造成網(wǎng)絡(luò)為了提升系統(tǒng)整體吞吐量,犧牲邊緣用戶(hù)的傳輸性能,從而為邊緣用戶(hù)分配較少的發(fā)送功率,使得網(wǎng)絡(luò)中資源分配不公平。在本研究中,我們希望在提升系統(tǒng)整體吞吐量的同時(shí)能夠兼顧網(wǎng)絡(luò)的公平性。因此,考慮采用與文獻(xiàn)[9]類(lèi)似的方法,以α公平作為公平性度量,設(shè)計(jì)一個(gè)兼顧網(wǎng)絡(luò)性能和公平性的效用函數(shù):
在動(dòng)態(tài)網(wǎng)絡(luò)場(chǎng)景下,需要通過(guò)不斷地調(diào)整基站發(fā)送功率來(lái)降低網(wǎng)絡(luò)中的干擾,提升網(wǎng)絡(luò)傳輸性能。因此,不能簡(jiǎn)單地以某個(gè)時(shí)刻系統(tǒng)的最大化效用函數(shù)來(lái)優(yōu)化設(shè)計(jì)網(wǎng)絡(luò)中的功率分配,而應(yīng)該以最大化系統(tǒng)的長(zhǎng)期效用為目標(biāo),設(shè)計(jì)網(wǎng)絡(luò)中的功率動(dòng)態(tài)優(yōu)化控制策略。由此,根據(jù)式(4)可以將一段較長(zhǎng)時(shí)間T內(nèi),網(wǎng)絡(luò)中的功率優(yōu)化分配問(wèn)題建模為:
其中,約束條件(6)表示,任一時(shí)刻,某一基站m在所有子信道上的發(fā)送功率總和不能超過(guò)該基站的最大可用功率。而約束條件(7)表示,用戶(hù)獲得的信干噪比不能低于最小接入門(mén)限SINRmin。
我們注意到,在問(wèn)題(5)中,由于信號(hào)與干擾加噪聲比(SINR)的表達(dá)式中包含了其他站點(diǎn)的干擾信號(hào),目標(biāo)效用函數(shù)是非凸函數(shù),并且優(yōu)化目標(biāo)為效用函數(shù)在時(shí)間維度上的累積值,難以采用傳統(tǒng)優(yōu)化方法對(duì)該問(wèn)題進(jìn)行求解。因此,考慮將問(wèn)題(5)對(duì)應(yīng)的密集覆蓋蜂窩網(wǎng)中的功率動(dòng)態(tài)優(yōu)化分配問(wèn)題建模一個(gè)馬爾可夫決策過(guò)程,系統(tǒng)根據(jù)網(wǎng)絡(luò)狀態(tài)的動(dòng)態(tài)變化來(lái)周期性地調(diào)整網(wǎng)絡(luò)中的功率分配策略。在此基礎(chǔ)上,采用強(qiáng)化學(xué)習(xí)的方法對(duì)MDP進(jìn)行求解。
在C-RAN網(wǎng)絡(luò)架構(gòu)下,BBU可以方便地獲得各個(gè)分布式RRH的資源使用情況以及接入用戶(hù)的狀態(tài)信息,因此,考慮將所有SBS組成的網(wǎng)絡(luò)系統(tǒng)看作一個(gè)智能決策主體,將網(wǎng)絡(luò)中的基站發(fā)送功率的動(dòng)態(tài)優(yōu)化控制決策建模為一個(gè)MDP問(wèn)題,并用元組(S,A,P,R)表示。其中,S為系統(tǒng)狀態(tài)空間,A為采取的動(dòng)作空間,P為狀態(tài)轉(zhuǎn)移概率,R為回報(bào)函數(shù)。MDP的各個(gè)組成元素具體可以表示為:
(1)系統(tǒng)狀態(tài)。s∈S表示在當(dāng)前智能體觀察到的系統(tǒng)狀態(tài),定義s=表示用戶(hù)n通過(guò)基站mn的子信道kn接入網(wǎng)絡(luò)所獲得的信干噪比,可以由式(2)得到。而則為用戶(hù)在接入信道上的信道增益。其中,kn∈{1,2,...,K},mn∈{1,2,...,M}。我們注意到,根據(jù)式(2)可知,由基站的發(fā)送功率、用戶(hù)信道增益和用戶(hù)受到的干擾等因素共同決定。在每個(gè)決策周期,用戶(hù)將自己當(dāng)前的信干噪比反饋給接入的RRH,再由RRH上報(bào)給BBU。而用戶(hù)在接入信道上獲得的信道增益,與用戶(hù)和基站的距離以及之間是否存在阻擋物等條件相關(guān)。在動(dòng)態(tài)網(wǎng)絡(luò)環(huán)境下,這些條件主要受用戶(hù)行為特征的影響。雖然用戶(hù)信干噪比受用戶(hù)信道增益的影響,能夠在一定程度上反映信道增益對(duì)用戶(hù)獲得的服務(wù)性能的影響,但在系統(tǒng)狀態(tài)中增加信道增益,能夠更加直接地反映用戶(hù)移動(dòng)帶來(lái)的網(wǎng)絡(luò)動(dòng)態(tài)特性對(duì)資源分配策略和網(wǎng)絡(luò)傳輸性能的影響。由此,系統(tǒng)狀態(tài)s將隨網(wǎng)絡(luò)中的基站資源使用情況、用戶(hù)行為以及網(wǎng)絡(luò)干擾條件的變化而變化。
(2)動(dòng)作。用a∈A表示智能體采取的動(dòng)作。定義在每個(gè)決策周期,智能體采取的動(dòng)作為決定每個(gè)SBS的發(fā)送功率,即其中,為基站m在子信道k上的發(fā)送功率,有k∈{1,2,...,K},m∈{1,2,...,M}。是連續(xù)可調(diào)的,且如果當(dāng)前時(shí)刻基站m的子信道k上沒(méi)有接入用戶(hù),則對(duì)應(yīng)的
(3)狀態(tài)轉(zhuǎn)移概率。用P=表示狀態(tài)轉(zhuǎn)移概率集合。其中,為當(dāng)系統(tǒng)處于狀態(tài)s時(shí),執(zhí)行動(dòng)作a后,轉(zhuǎn)移到的狀態(tài)s'的概率。
(4)回報(bào)函數(shù)。考慮到優(yōu)化目標(biāo)為最大化系統(tǒng)的長(zhǎng)期效用函數(shù),因此將智能體在每個(gè)決策時(shí)刻,根據(jù)當(dāng)前狀態(tài)s采取動(dòng)作a后取得的即時(shí)回報(bào)表示為:
其中,U(v)可從式(4)得到。v={v1,v2,...,vN}為采取動(dòng)作a后,系統(tǒng)中所有用戶(hù)獲得的傳輸速率構(gòu)成的向量,可由式(1)得到。式(8)中后兩項(xiàng)為懲罰項(xiàng),對(duì)應(yīng)(6)和(7)的限制條件。當(dāng)前決策時(shí)刻采取動(dòng)作a時(shí),如果有用戶(hù)獲得的接入信干噪比低于最低門(mén)限SINRmin,或某個(gè)基站分配給所有子信道的功率之和超過(guò)基站的最大可用功率Pmax,則獲得的即時(shí)回報(bào)為懲罰值-1。
由此,將UDN中的功率動(dòng)態(tài)優(yōu)化控制問(wèn)題建模為了一個(gè)MDP,所有SBS構(gòu)成的網(wǎng)絡(luò)系統(tǒng)作為一個(gè)智能決策主體,周期性地根據(jù)觀察到的網(wǎng)絡(luò)狀態(tài),進(jìn)行基站發(fā)送功率分配的智能決策,以最大化網(wǎng)絡(luò)的長(zhǎng)期累積效用。
在MDP框架下,定義狀態(tài)值函數(shù)來(lái)反映當(dāng)前狀態(tài)下,智能體采取策略π獲得的長(zhǎng)期回報(bào),表示為:
其中,γ為折扣因子,表明未來(lái)的回報(bào)相對(duì)于長(zhǎng)期回報(bào)的重要程度。相應(yīng)地,定義動(dòng)作值函數(shù)來(lái)表示某一狀態(tài)下采取某一動(dòng)作的長(zhǎng)期回報(bào),可以表示為:
其中,Eπ[x]表示在策略π下變量x的均值。對(duì)于給定的策略π,觀察式(9)和(10)可以得到:
其中,π(a|s)為采用策略π的情況下,系統(tǒng)處于狀態(tài)s時(shí)采取動(dòng)作a的概率。在MDP模型下,系統(tǒng)決策的目標(biāo)就是找到一個(gè)最優(yōu)的策略π*,使得對(duì)應(yīng)的Vπ(s)和Qπ(s,a)最優(yōu)。
在我們定義的MDP模型中,系統(tǒng)狀態(tài)空間和動(dòng)作空間都是連續(xù)的,且狀態(tài)轉(zhuǎn)移概率難以獲取,因此考慮采用Model-free的AC算法[8]來(lái)對(duì)MDP模型求解。AC算法是一種將值函數(shù)迭代和策略迭代相結(jié)合的強(qiáng)化學(xué)習(xí)算法,其基本框架如圖2所示。AC算法主要包括兩個(gè)執(zhí)行部分:一個(gè)是Actor,用于改進(jìn)并生成當(dāng)前執(zhí)行策略;一個(gè)是Critic,用于評(píng)估策略執(zhí)行結(jié)果,指導(dǎo)Actor進(jìn)行策略改進(jìn)。
(1)Actor。
在AC算法中,Actor通過(guò)不斷調(diào)整策略以改進(jìn)決策的回報(bào)。本文考慮采用高斯正態(tài)分布來(lái)近似策略分布,則有Actor的參數(shù)化策略可以表示為:
其中,μθ(s)和σθ(s)分別為正態(tài)分布的均值和方差??紤]采用輸入為系統(tǒng)狀態(tài)s,輸出為μθ(s)和σθ(s)的神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)均值和方差進(jìn)行近似擬合,參數(shù)θ對(duì)應(yīng)神經(jīng)網(wǎng)絡(luò)全連接層的權(quán)重參數(shù)。由此,策略的調(diào)整就轉(zhuǎn)化為參數(shù)的更新,我們期望參數(shù)朝著最大化MDP長(zhǎng)期累積效用的方向更新。在強(qiáng)化學(xué)習(xí)框架下,常常使用梯度下降的方法來(lái)進(jìn)行參數(shù)更新,可以得到:
其中,αa為Actor的學(xué)習(xí)速率,Aπ(s,a)為優(yōu)勢(shì)函數(shù)。
(2)Critic。
在AC算法中,Critic的作用是通過(guò)估計(jì)狀態(tài)值函數(shù)來(lái)對(duì)Actor策略的改進(jìn)提供指導(dǎo)。在考慮的MDP模型中,由于系統(tǒng)狀態(tài)空間是連續(xù)的,因此同樣采用輸入為系統(tǒng)狀態(tài)s、輸出為Vξ(s)的神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行狀態(tài)值函數(shù)的近似擬合,ξ為神經(jīng)網(wǎng)絡(luò)全連接層的權(quán)重參數(shù)。通過(guò)參數(shù)化的近似后,值函數(shù)的更新也可以通過(guò)參數(shù)的迭代更新來(lái)實(shí)現(xiàn)。
為了對(duì)參數(shù)ξ進(jìn)行更新,時(shí)序差分(TD)算法誤差被引入:
其中,st為決策周期t的系統(tǒng)狀態(tài),且有V(st)=Rt+1+γVξ(st+1)。Critic 的目標(biāo)是盡可能準(zhǔn)確地估計(jì)值函數(shù),因此其優(yōu)化目標(biāo)應(yīng)該是最小化TD誤差,可以表示為:
同樣使用梯度下降法更新參數(shù)ξ,得到:
其中,αc為Critic的學(xué)習(xí)速率。
(3)基于AC算法的基站功率分配機(jī)制。
在AC算法中,往往采用公式(13)中的TD誤差作為Actor參數(shù)更新過(guò)程中的優(yōu)勢(shì)函數(shù),即令A(yù)π(st,a)=δt,那么公式(12)可以改寫(xiě)為:
由此,在UDN中,可以利用式(17)和(18),通過(guò)參數(shù)的迭代更新來(lái)優(yōu)化系統(tǒng)中所有SBS基站的功率分配策略,具體的功率控制算法流程如算法1所示。
αa:Actor的學(xué)習(xí)速率
αc:Critic的學(xué)習(xí)速率
αt:智能體在時(shí)刻t采取的動(dòng)作
γ:折扣因子
ACP:基于AC的基站功率控制
K:子信道數(shù)量
M:SBS數(shù)量
N:SBS用戶(hù)數(shù)
T:周期
TD:時(shí)序差分
V:值函數(shù)
在本節(jié)中,將通過(guò)仿真實(shí)驗(yàn)驗(yàn)證提出的智能功率控制算法ACP的性能。
考慮采用如圖1所示的密集覆蓋蜂窩網(wǎng)絡(luò)覆蓋場(chǎng)景,網(wǎng)絡(luò)中包含1個(gè)MBS和20個(gè)SBS。在仿真中,考慮模擬室內(nèi)覆蓋的典型應(yīng)用場(chǎng)景,所有的SBS位于一棟建筑物內(nèi)。為了模擬樓層天花板和墻體對(duì)無(wú)線(xiàn)信號(hào)的阻擋,仿真中采用二層住宅樓的建筑結(jié)構(gòu),而在每一層采用圖3中的雙線(xiàn)建筑模型[10]。如圖3所示,每層包含兩排房間,每排5個(gè)套房,中間走廊寬度5 m,每個(gè)套房的尺寸為10m×5m×5m。每個(gè)套房?jī)?nèi)部結(jié)構(gòu)如圖4所示,分為多個(gè)房間,用墻體隔開(kāi)。
▲圖2 AC算法框架
▲圖3 雙線(xiàn)建筑模型
▲圖4 房間室內(nèi)結(jié)構(gòu)
考慮到網(wǎng)絡(luò)中存在一定數(shù)量的MBS用戶(hù)和SBS用戶(hù),所有SBS用戶(hù)位于建筑物內(nèi),以平均1 m/s的速度隨機(jī)移動(dòng);而MBS用戶(hù)以平均速度5 m/s在建筑物外,MBS的覆蓋范圍內(nèi)隨機(jī)移動(dòng)。移動(dòng)過(guò)程中,用戶(hù)隨機(jī)選定移動(dòng)方向,當(dāng)遇到阻礙或到達(dá)邊界時(shí)重新選定移動(dòng)方向。仿真中具體參數(shù)設(shè)置如表1所示,同時(shí)參考文獻(xiàn)[11],無(wú)線(xiàn)信道路損模型如表2所示。在表2中,d為用戶(hù)到基站的直線(xiàn)距離,din為基站到用戶(hù)的水平距離。設(shè)Low=20dB為建筑外墻穿透損耗,Liw=5dB為室內(nèi)穿墻損耗。nw為用戶(hù)和基站之間間隔的樓層數(shù)。同時(shí),設(shè)置AC算法中學(xué)習(xí)速率αa=αc=0.01,折扣因子γ=0.2。本節(jié)所有的數(shù)值結(jié)果都是50次獨(dú)立隨機(jī)仿真結(jié)果的平均值。
在仿真中,選取平均功率分配和軟頻率復(fù)用兩種典型的算法作為對(duì)比,驗(yàn)證提出的基于AC的基站功率控制(ACP)的性能。兩種對(duì)比算法的基本思路如下:
(1)平均功率分配(EDP):每個(gè)基站將可用功率平均分配給所有接入用戶(hù)。
(2)軟頻率復(fù)用(SFR):將基站的可用頻帶分為主載波和副載波兩部分。主載波服務(wù)于邊緣用戶(hù),副載波服務(wù)于非邊緣接入用戶(hù),根據(jù)接入邊緣用戶(hù)的數(shù)量確定主副載波所占比例。主副載波具有不同的最大發(fā)送功率門(mén)限,仿真中限制副載波的最大發(fā)送功率門(mén)限為主載波一半。
圖5給出了ACP算法的收斂情況。如圖5所示,智能算法具有明顯的收斂特性。在仿真初期,智能算法處于探索階段。由于經(jīng)驗(yàn)不足,智能體獲得的收益較低,系統(tǒng)性能較差。隨著訓(xùn)練次數(shù)的增加,算法通過(guò)對(duì)用戶(hù)行為與傳輸環(huán)境的探索,逐漸學(xué)習(xí)到更好的功率分配策略,智能體獲得的收益增加,系統(tǒng)性能提升,并最終收斂。從圖中可以看到,算法大概在迭代訓(xùn)練5 000次后達(dá)到收斂。
▼表1 仿真參數(shù)列表
▼表2 路損模型
圖6比較了3種不同算法下,網(wǎng)絡(luò)中所有SBS用戶(hù)獲得的服務(wù)速率的概率分布函數(shù)。從圖中可以看出,與另外兩種算法相比,運(yùn)行ACP算法的SBS用戶(hù)能夠獲得更高的服務(wù)速率,系統(tǒng)的整體吞吐量也會(huì)更高。這是因?yàn)樵贏CP算法中,系統(tǒng)能夠通過(guò)感知到的網(wǎng)絡(luò)狀態(tài)和用戶(hù)信道條件的動(dòng)態(tài)變化特征,智能地調(diào)整基站的發(fā)送功率,從而降低網(wǎng)絡(luò)中干擾,提升用戶(hù)獲得的服務(wù)速率。而SFR算法中,采用設(shè)置門(mén)限的方式,降低了非邊緣用戶(hù)的發(fā)送功率,從而降低了網(wǎng)絡(luò)中的干擾,特別是網(wǎng)絡(luò)邊緣用戶(hù)受到的干擾;因此,用戶(hù)能夠獲得比EDP算法更高的服務(wù)速率。
在本文考慮的仿真場(chǎng)景中,采用智能算法的SBS和傳統(tǒng)的MBS共存,且相互干擾。圖7比較了不同算法下,網(wǎng)絡(luò)中不同類(lèi)型用戶(hù)獲得的平均服務(wù)速率。如圖7所示,采用ACP智能功率分配算法的所有SBS用戶(hù)的平均傳輸速率明顯優(yōu)于EDP和SFR算法。同時(shí),雖然MBS沒(méi)有采用智能功率分配算法,但運(yùn)行ACP算法的SBS可以根據(jù)網(wǎng)絡(luò)中干擾條件的動(dòng)態(tài)變化,調(diào)整自身的發(fā)送功率,從而降低對(duì)MBS用戶(hù)的干擾。所以ACP算法下,MBS用戶(hù)獲得傳輸速率依然高于其他兩種算法。由此,在ACP算法下,網(wǎng)絡(luò)中所有用戶(hù)的平均傳輸速率同樣優(yōu)于EDP和SFR算法。
▲圖5 基于AC的基站功率控制算法收斂情況
▲圖6 用戶(hù)服務(wù)速率累積分布函數(shù)
▲圖7 用戶(hù)平均服務(wù)速率
▲圖8 用戶(hù)平均服務(wù)速率vs.基站數(shù)量
圖8為所有SBS用戶(hù)平均服務(wù)速率隨網(wǎng)絡(luò)中基站數(shù)量的變化情況??紤]到實(shí)際系統(tǒng)中,由于管理權(quán)限、部署先后順序等,在有些情況下可能無(wú)法在所有的SBS上采用統(tǒng)一的智能功率控制算法,網(wǎng)絡(luò)中智能SBS和傳統(tǒng)SBS共存。在仿真中,為了驗(yàn)證智能基站和傳統(tǒng)基站混合部署情況下網(wǎng)絡(luò)中的傳輸性能,增加了一種稱(chēng)為Mix算法的混合功率控制方案。在Mix算法下,一半的SBS采用智能的ACP算法,一半的SBS采用EDP算法。從圖8可以看到,當(dāng)基站數(shù)量較少時(shí),隨著SBS數(shù)量的增加,4種算法下用戶(hù)獲得的平均服務(wù)速率增大;但隨著基站數(shù)量增加,網(wǎng)絡(luò)中干擾逐漸增大,導(dǎo)致在基站數(shù)量較多時(shí),用戶(hù)獲得的平均服務(wù)速率反而下降。不論是在哪種情況下,ACP算法獲得的用戶(hù)平均服務(wù)速率總是優(yōu)于其他3種算法。而Mix算法的性能優(yōu)于EDP和SFR算法,說(shuō)明智能和非智能SBS混合部署情況下,網(wǎng)絡(luò)中的傳輸性能依然優(yōu)于完全不使用智能功率分配算法的情況。值得注意的是,SFR算法和EDP算法的性能曲線(xiàn)隨著基站數(shù)量的增加發(fā)生了交叉。這是因?yàn)椋诨緮?shù)量較少時(shí),小區(qū)間干擾較低,而SFR限制了非邊緣用戶(hù)發(fā)送功率,這會(huì)導(dǎo)致用戶(hù)獲得的服務(wù)速率較低。隨著基站數(shù)量的增加,小區(qū)間干擾變得嚴(yán)重,EDP算法沒(méi)有任何干擾協(xié)調(diào)機(jī)制,這導(dǎo)致用戶(hù)的服務(wù)速率受到較大影響;而SFR算法限制了非邊緣用戶(hù)的發(fā)送功率,降低了網(wǎng)絡(luò)中的干擾。
本文研究了超密集蜂窩網(wǎng)中的智能干擾協(xié)調(diào)問(wèn)題??紤]到移動(dòng)網(wǎng)絡(luò)的動(dòng)態(tài)特征,將基站的動(dòng)態(tài)功率控制建模為一個(gè)馬爾科夫決策過(guò)程,并采用強(qiáng)化學(xué)習(xí)的方法,利用AC算法對(duì)其進(jìn)行求解。在此基礎(chǔ)上,設(shè)計(jì)了一個(gè)基于AC的基站功率動(dòng)態(tài)智能控制算法。仿真實(shí)驗(yàn)結(jié)果證明,該算法能夠有效降低超密集蜂窩網(wǎng)絡(luò)中基站間的相互干擾,提升網(wǎng)絡(luò)傳輸性能。