呂亞平,賈向東,2,路 藝,葉佩文
(1.西北師范大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,蘭州 730070; 2.南京郵電大學(xué) 江蘇省無(wú)線通信重點(diǎn)實(shí)驗(yàn)室,南京 210003)
據(jù)調(diào)查顯示,在歐洲20%~40%的移動(dòng)通話發(fā)生于室內(nèi),在美國(guó)為40%~50%,在中國(guó)則高達(dá)60%,同時(shí),超過(guò)50%的語(yǔ)音服務(wù)和70%的數(shù)據(jù)流量服務(wù)發(fā)生于室內(nèi)[1]。近年來(lái)出現(xiàn)的家庭基站技術(shù),在增加無(wú)線網(wǎng)絡(luò)容量、解決室內(nèi)覆蓋問(wèn)題以及從宏基站上卸載流量等方面具有較大優(yōu)勢(shì)[2]。隨著5G時(shí)代的到來(lái)以及智能終端設(shè)備的爆炸式增長(zhǎng),現(xiàn)有的室內(nèi)無(wú)線通信網(wǎng)絡(luò)已經(jīng)很難滿足移動(dòng)用戶對(duì)各種數(shù)據(jù)服務(wù)的需求。因此,如何提高室內(nèi)無(wú)線網(wǎng)絡(luò)的容量,為室內(nèi)移動(dòng)用戶提供更好的數(shù)據(jù)服務(wù)變得十分重要。
室內(nèi)無(wú)線通信是無(wú)線通信中不可或缺的一部分,目前室內(nèi)無(wú)線通信的主要實(shí)現(xiàn)方式有家庭基站和WiFi 2種。在國(guó)外,室內(nèi)通信使用家庭基站比較多,而在國(guó)內(nèi),室內(nèi)通信大多使用WiFi,家庭基站更多用于商用。商用區(qū)域內(nèi)家庭基站是處理室內(nèi)無(wú)線網(wǎng)絡(luò)容量和覆蓋的重要技術(shù),與WiFi相比,家庭基站在授權(quán)的頻段內(nèi)能提供較好的語(yǔ)音服務(wù)質(zhì)量,并且更簡(jiǎn)單實(shí)用,有較好的安全性能。此外,其還具有功耗少、電池壽命長(zhǎng)、不需要WiFi雙模手機(jī)或其他設(shè)備等優(yōu)點(diǎn),同時(shí)還具有服務(wù)等同性,即支持多種服務(wù)在家庭基站上無(wú)縫工作。
為解決室內(nèi)無(wú)線網(wǎng)絡(luò)的容量問(wèn)題,眾多研究人員從不同角度對(duì)家庭基站進(jìn)行了研究與分析。文獻(xiàn)[3]提出一種功率控制和覆蓋(Power Control and Coverage,PCC)算法,以增加網(wǎng)絡(luò)效用和降低能量消耗,并建立了PPC算法對(duì)最優(yōu)解的收斂性,但該算法在移動(dòng)用戶密集區(qū)域不一定適用。文獻(xiàn)[4]提出帶寬-功率模型來(lái)減少移動(dòng)用戶使用的帶寬總和,并最大限度地降低噪聲對(duì)傳輸速率的影響,但該算法并未考慮家庭基站密集部署的情況。文獻(xiàn)[5-6]研究了雙層毫微微蜂窩網(wǎng)絡(luò)中的全雙工通信,通過(guò)博弈理論共同考慮上下行優(yōu)化問(wèn)題,但沒(méi)有考慮用戶的移動(dòng)性和用戶密集聚集的情況。文獻(xiàn)[7]使用Q學(xué)習(xí)算法來(lái)最大化宏小區(qū)和毫微微小區(qū)的網(wǎng)絡(luò)容量。文獻(xiàn)[8]通過(guò)減少干擾和平衡數(shù)據(jù)下載這兩方面來(lái)最大化網(wǎng)絡(luò)容量。文獻(xiàn)[9]根據(jù)干擾和服務(wù)因素,調(diào)整主要家庭基站的傳輸功率,執(zhí)行基于概率的資源分配算法,以安排每個(gè)家庭基站的傳輸時(shí)間和頻率,進(jìn)一步增強(qiáng)整體頻譜重用。這樣可以有效地避免相鄰家庭基站之間的干擾,從而更好地滿足服務(wù)質(zhì)量連接,以提高網(wǎng)絡(luò)的吞吐量。
盡管目前深度學(xué)習(xí)在無(wú)線通信領(lǐng)域尚處于初步探索階段,但是已有眾多學(xué)者對(duì)其進(jìn)行研究并取得一些成果,文獻(xiàn)[10]使用深度學(xué)習(xí)算法解決了狀態(tài)空間連續(xù)與動(dòng)作空間連續(xù)的問(wèn)題,文獻(xiàn)[11]使用深度學(xué)習(xí)算法達(dá)到了能效優(yōu)化的目的,文獻(xiàn)[12]使用深度強(qiáng)化學(xué)習(xí)有效地降低了用戶的任務(wù)執(zhí)行總時(shí)延,文獻(xiàn)[13]使用強(qiáng)化學(xué)習(xí)算法解決了窄帶物聯(lián)網(wǎng)實(shí)時(shí)優(yōu)化的問(wèn)題。
受文獻(xiàn)[7]和深度學(xué)習(xí)算法的啟發(fā),本文建立一個(gè)在辦公區(qū)域密集部署家庭基站的系統(tǒng)模型,基于深度Q學(xué)習(xí)(Deep Q Learning,DQL)算法對(duì)家庭基站的下行鏈路功率分配方法進(jìn)行設(shè)計(jì),使其能夠自適應(yīng)網(wǎng)絡(luò)變化,從而提高室內(nèi)無(wú)線通信網(wǎng)絡(luò)的吞吐量。
圖1為在辦公區(qū)域密集部署家庭基站的一個(gè)系統(tǒng)模型。該系統(tǒng)模型借用文獻(xiàn)[14]的路徑損耗模型。在該系統(tǒng)模型中,考慮家庭基站的下行傳輸。假設(shè)有N個(gè)家庭基站,M個(gè)移動(dòng)用戶;家庭基站的空間物理位置遵循空間位置強(qiáng)度為λ(λ=3/4×30/1003π)的泊松點(diǎn)過(guò)程;用戶隨機(jī)分布在該辦公區(qū)域內(nèi);所有的家庭基站共享頻譜帶寬;一個(gè)移動(dòng)用戶只能與一個(gè)基站進(jìn)行連接??紤]到實(shí)際情況,該網(wǎng)絡(luò)模型中移動(dòng)用戶受到的干擾來(lái)自所有的家庭基站,如圖1中實(shí)線箭頭所示。
圖1 辦公區(qū)域家庭基站密集部署的網(wǎng)絡(luò)模型Fig.1 Network model of intensive deployment of home base stations in office area
假設(shè)n={1,2,…,i,…,N}表示家庭基站的集合,m={1,2,…,j,…,M}表示辦公區(qū)域內(nèi)用戶的集合?;緄與移動(dòng)用戶m通信時(shí),受到的干擾信號(hào)為:
(1)
其中:Di,m表示移動(dòng)用戶m是否接入基站i,如果Di,m=0,則表示移動(dòng)用戶m成功接入基站i,反之則沒(méi)有;Pi,m表示移動(dòng)用戶m與基站i通信時(shí),基站i的發(fā)射功率;G表示移動(dòng)用戶與基站通信時(shí)的鏈路增益。G由下式所得:
(2)
其中,hn,m、Zn,m、φ分別是基站n與移動(dòng)用戶m通信時(shí)的多徑衰落、陰影衰落以及路徑損耗因子,而γn,m則代表基站n和移動(dòng)用戶m兩者之間的距離。
假設(shè)移動(dòng)用戶與基站通信時(shí)接收的高斯白噪聲的方差δ2是固定值,且信道狀況已知,則系統(tǒng)的信號(hào)與干擾加噪聲比(SINR)可表示為:
(3)
由香農(nóng)公式可得系統(tǒng)的總吞吐量C為:
(4)
其中,B是家庭基站的帶寬。
根據(jù)最大化網(wǎng)絡(luò)吞吐量這一優(yōu)化目標(biāo),家庭基站的發(fā)射功率必須不大于其最大發(fā)射功率,則目標(biāo)優(yōu)化問(wèn)題可表述如下:
(5)
約束條件為:
Pn,m≤Pmax
?n∈{1,2,…,i,…,N}, ?m∈{1,2,…,j,…,M}
(6)
其中,Pmax是家庭基站的最大發(fā)射功率。
深度學(xué)習(xí)具有較強(qiáng)的感知能力,但是缺乏一定的決策能力;而強(qiáng)化學(xué)習(xí)具有決策能力,但是難以解決感知問(wèn)題[15]。深度強(qiáng)化學(xué)習(xí)可以把深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力結(jié)合起來(lái)[16],優(yōu)勢(shì)互補(bǔ),通過(guò)不斷地試錯(cuò),與環(huán)境進(jìn)行交互,最大化累積獎(jiǎng)賞從而獲得最優(yōu)策略[17]。因此,本文使用同時(shí)具備感知能力和決策能力的深度Q學(xué)習(xí)算法來(lái)解決家庭基站的下行鏈路功率分配問(wèn)題 。
DQL算法是Q學(xué)習(xí)算法的一種變體,其利用深度卷積神經(jīng)網(wǎng)絡(luò)估計(jì)值函數(shù)、經(jīng)驗(yàn)回放進(jìn)行學(xué)習(xí),并且設(shè)置了目標(biāo)網(wǎng)絡(luò)來(lái)獨(dú)立處理時(shí)間差分算法中的時(shí)間差(Time Difference,TD)。圖2展示了本文基于深度Q學(xué)習(xí)的功率分配算法框架。
圖2 基于深度Q學(xué)習(xí)的功率分配算法框架Fig.2 Framework of power allocation algorithm based on deep Q learning
如圖2所示,該框架包含回放記憶單元、當(dāng)前值網(wǎng)絡(luò)、目標(biāo)值網(wǎng)絡(luò)、環(huán)境和DQL誤差函數(shù)五大模塊?;胤庞洃泦卧娣沤?jīng)驗(yàn)回放,經(jīng)驗(yàn)回放是指在代理與環(huán)境交互過(guò)程中,經(jīng)驗(yàn)會(huì)以(s,a,r,s′)的形式存放在回放記憶單元中,每次訓(xùn)練會(huì)從回放記憶單元中隨機(jī)抽取一批數(shù)據(jù)進(jìn)行訓(xùn)練,可以在一定程度上消除樣本之間的相關(guān)性。DQL中使用兩個(gè)值網(wǎng)絡(luò):一個(gè)網(wǎng)絡(luò)是當(dāng)前值網(wǎng)絡(luò),與環(huán)境交互,并且不斷更新;另一個(gè)網(wǎng)絡(luò)是目標(biāo)值網(wǎng)絡(luò),它既不與環(huán)境交互,也不在每個(gè)時(shí)間步進(jìn)行更新,而是每隔一定時(shí)間步才會(huì)更新,每次更新都把當(dāng)前值網(wǎng)絡(luò)參數(shù)直接賦值給它。s是算法的觀測(cè),a表示在觀測(cè)s下執(zhí)行的動(dòng)作,r表示動(dòng)作a執(zhí)行后得到的獎(jiǎng)罰[18],s′為執(zhí)行動(dòng)作a后的觀測(cè)值,a′為在觀測(cè)值s′下執(zhí)行的動(dòng)作,θ表示網(wǎng)絡(luò)的權(quán)重和偏置,θ-為θ的賦值。
本文所采用的深度Q學(xué)習(xí)算法是基于與環(huán)境不斷實(shí)時(shí)交互的多代理(代理、狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì))算法。對(duì)多代理功能定義如下:
代理人:基站n,1≤n≤N。
狀態(tài):sn={Mn,Pn},Mn表示連接到基站n的移動(dòng)用戶數(shù)量,Pn表示基站n的發(fā)射功率。
動(dòng)作:an={n,ΔPn},n表示基站,ΔPn表示基站n的發(fā)射功率調(diào)整值。
獎(jiǎng)勵(lì)函數(shù):
(7)
當(dāng)用戶m與基站n連接時(shí),rn,m表示對(duì)基站n的獎(jiǎng)勵(lì),Cn,m表示基站n的吞吐量。每個(gè)代理經(jīng)過(guò)不斷的迭代學(xué)習(xí)來(lái)更新行為狀態(tài)值函數(shù),迭代式如下:
θt+1=θt+α[r+βa′maxQ(s′,a′;θ-)-
Q(s,a;θ)]Q(s,a;θ)
(8)
其中,α∈[0,1]是學(xué)習(xí)率,β∈(0,1)是折扣因子,Q(s,a;θ)是誤差函數(shù)梯度。
深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)是一種深度學(xué)習(xí)模型,擁有較高的準(zhǔn)確度[19]。如圖3所示,本文設(shè)計(jì)的DNN由輸入層、2層隱藏層、輸出層構(gòu)成,并將DQN作為動(dòng)作狀態(tài)值函數(shù)Q(s,a;q)。
圖3 DNN網(wǎng)絡(luò)的基本架構(gòu)Fig.3 Basic architecture of DNN network
在該深度神經(jīng)網(wǎng)絡(luò)中,輸入層數(shù)據(jù)為[M1,M2,…,Mi,…MN,P1,1,P1,2,…Pi,j,…,Pn,m],隱藏層是為了優(yōu)化網(wǎng)絡(luò)的非線性,提高網(wǎng)絡(luò)的擬合能力,輸出層數(shù)據(jù)為基站n發(fā)射功率的調(diào)整值。為防止過(guò)擬合,隱藏層隨機(jī)丟棄一些節(jié)點(diǎn)。深度神經(jīng)網(wǎng)絡(luò)的損失函數(shù)如下:
L=r+βa′maxQ(s′,a′;θ-)-Q(s,a;θ)
(9)
對(duì)家庭基站的下行鏈路功率控制算法進(jìn)行仿真與數(shù)值分析[20]。仿真參數(shù)設(shè)置如表1所示,其中的多徑衰落和陰影衰落使用文獻(xiàn)[14]所采用的參數(shù)值,分別服從指數(shù)分布和對(duì)數(shù)正態(tài)分布。
表1 仿真參數(shù)Table 1 Simulation parameters
分別使用貪婪算法、Q學(xué)習(xí)算法和DQL算法得到辦公區(qū)域網(wǎng)絡(luò)的總吞吐量C與迭代更新次數(shù)之間的關(guān)系,如圖4所示??梢钥闯?Q學(xué)習(xí)算法和DQL算法的網(wǎng)絡(luò)總吞吐量遠(yuǎn)大于貪婪算法,并且DQL算法的網(wǎng)絡(luò)總吞吐量?jī)?yōu)于Q學(xué)習(xí)算法。
圖4 3種算法的網(wǎng)絡(luò)吞吐量的比較Fig.4 Comparison of network throughput of three algorithms
圖5對(duì)比了Q學(xué)習(xí)算法和DQL算法的收斂速度??梢钥闯?隨著更新迭代次數(shù)的增加,DQL算法的收斂速度逐漸加快,且始終優(yōu)于Q學(xué)習(xí)算法。這是因?yàn)閷?duì)于每次迭代以及用戶的移動(dòng),Q學(xué)習(xí)算法需要重新計(jì)算網(wǎng)絡(luò)總吞吐量和收斂。雖然DQL算法也存在波動(dòng),但相較于Q學(xué)習(xí)算法是更穩(wěn)定的。此外,隨著深度神經(jīng)網(wǎng)絡(luò)的不斷強(qiáng)化,深度Q學(xué)習(xí)算法顯著地提高了網(wǎng)絡(luò)總吞吐量。
圖5 Q學(xué)習(xí)算法和DQL算法的收斂速度對(duì)比Fig.5 Comparison of convergence rates between Q learning algorithm and Deep Q learning algorithm
為提高在辦公區(qū)域密集部署的家庭基站網(wǎng)絡(luò)的無(wú)線通信質(zhì)量,本文提出基于深度Q學(xué)習(xí)算法的網(wǎng)絡(luò)模型,用以對(duì)家庭基站的下行鏈路進(jìn)行功率分配,最大化系統(tǒng)吞吐量。仿真實(shí)驗(yàn)表明,與貪婪算法和Q學(xué)習(xí)算法相比,DQL算法具有更高的網(wǎng)絡(luò)吞吐量和更快的收斂速度,驗(yàn)證了本文模型的有效性。下一步將在不影響用戶服務(wù)質(zhì)量的前提下,基于深度Q學(xué)習(xí)算法研究宏基站覆蓋下家庭基站的下行鏈路發(fā)射功率問(wèn)題。