廖曉閩,嚴(yán)少虎,石嘉,譚震宇,趙鐘靈,李贊
(1. 西安電子科技大學(xué)綜合業(yè)務(wù)網(wǎng)理論及關(guān)鍵技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710071;2. 國(guó)防科技大學(xué)信息通信學(xué)院,陜西 西安 710106;3. 中國(guó)電子科技集團(tuán)公司第二十九研究所,四川 成都 610036)
隨著無(wú)線網(wǎng)絡(luò)中通信設(shè)備數(shù)量的急劇增加和業(yè)務(wù)需求的多樣化,有限的頻譜資源與人們?nèi)找嬖鲩L(zhǎng)的無(wú)線頻譜需求之間的矛盾日漸突出和加劇。當(dāng)前無(wú)線通信領(lǐng)域面臨著智能化、寬帶化、多元化、綜合化等諸多技術(shù)挑戰(zhàn),無(wú)線網(wǎng)絡(luò)環(huán)境變得日益復(fù)雜多樣和動(dòng)態(tài)多變,此外,綠色網(wǎng)絡(luò)和智慧網(wǎng)絡(luò)等新概念的提出,使頻譜資源管理的優(yōu)化目標(biāo)日趨多樣化,因此,如何優(yōu)化頻譜利用,最大限度地實(shí)現(xiàn)頻譜資源的高效管理是當(dāng)前急需解決的重點(diǎn)問(wèn)題。
傳統(tǒng)蜂窩網(wǎng)資源分配方法主要有博弈理論、拍賣機(jī)制、圖論著色理論、遺傳算法等。Huang等[1]將博弈理論應(yīng)用于小區(qū)間蜂窩網(wǎng)的頻譜分配,假設(shè)基站預(yù)先獲得且共享信道狀態(tài)信息(CSI,channel state information),將2個(gè)通信設(shè)備放置于相鄰小區(qū)的重疊區(qū)域,采用靜態(tài)重復(fù)的古諾博弈模型來(lái)求解納什均衡解,獲得最優(yōu)的頻譜效率,仿真模擬3種典型場(chǎng)景,通過(guò)求解一系列優(yōu)化方程式來(lái)獲得最優(yōu)分配策略。Wang等[2]提出了一種安全的頻譜拍賣機(jī)制,該機(jī)制綜合考慮頻譜屬性和拍賣特性,采用自適應(yīng)競(jìng)價(jià)、信息加密和拍賣協(xié)議等方式,在提高頻譜利用率的同時(shí),極大地提升頻譜拍賣機(jī)制的安全性。Yang等[3]采用圖論著色理論對(duì)全雙工設(shè)備到設(shè)備(D2D,device-to-device)蜂窩網(wǎng)進(jìn)行頻譜和功率分配,構(gòu)造干擾感知圖,提出了一種基于圖論著色理論的資源共享方案,該方案以網(wǎng)絡(luò)吞吐量為優(yōu)化目標(biāo),算法收斂速度快,時(shí)間復(fù)雜度低。Takshi等[4]基于遺傳算法實(shí)現(xiàn) D2D蜂窩網(wǎng)中的頻譜和功率分配,通過(guò)同時(shí)搜索不同區(qū)間,獲得全局最優(yōu)的頻譜效率和干擾性能,而且蜂窩網(wǎng)用戶的信干噪比保持最低,對(duì) D2D用戶數(shù)量沒(méi)有限制,并且采用信道預(yù)測(cè)方法來(lái)減少CSI信息的過(guò)載,算法具有較強(qiáng)的搜索性能。然而,隨著未來(lái)無(wú)線網(wǎng)絡(luò)向高密集、大數(shù)據(jù)、動(dòng)態(tài)化、多目標(biāo)優(yōu)化等方向發(fā)展,傳統(tǒng)的蜂窩網(wǎng)資源分配方法不再適用,例如,傳統(tǒng)方法主要進(jìn)行靜態(tài)優(yōu)化,很難適應(yīng)動(dòng)態(tài)變化的環(huán)境;當(dāng)多目標(biāo)優(yōu)化問(wèn)題為NP-hard問(wèn)題時(shí),求解困難;沒(méi)有發(fā)揮出大數(shù)據(jù)優(yōu)勢(shì),無(wú)法充分挖掘隱藏在數(shù)據(jù)中的信息等。
當(dāng)前,以機(jī)器學(xué)習(xí)、深度學(xué)習(xí)為代表的新一代人工智能技術(shù)已廣泛應(yīng)用于醫(yī)療、教育、交通、安防、智能家居等領(lǐng)域,從最初的算法驅(qū)動(dòng)逐漸向數(shù)據(jù)、算法和算力的復(fù)合驅(qū)動(dòng)轉(zhuǎn)變,有效地解決了各類問(wèn)題,取得了顯著成效。目前,機(jī)器學(xué)習(xí)在無(wú)線資源分配的研究還處于早期探索階段。例如,文獻(xiàn)[5]提出采用深度學(xué)習(xí)方法對(duì) LTE中未授權(quán)頻譜進(jìn)行預(yù)分配,利用長(zhǎng)短期記憶(LSTM,long short-term memory)神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)歷史經(jīng)驗(yàn)信息,并利用學(xué)習(xí)訓(xùn)練好的LSTM網(wǎng)絡(luò)對(duì)未來(lái)某一窗口的頻譜狀態(tài)進(jìn)行預(yù)測(cè);文獻(xiàn)[6]采用深度神經(jīng)網(wǎng)絡(luò)(DNN,deep neural network)對(duì)認(rèn)知無(wú)線電中次用戶使用的頻譜資源和傳輸功率進(jìn)行分配,最大化次用戶頻譜效率的同時(shí),盡可能地減少對(duì)主用戶造成的干擾;文獻(xiàn)[7]將衛(wèi)星系統(tǒng)中的動(dòng)態(tài)信道分配問(wèn)題建模成馬爾可夫決策過(guò)程,采用深度卷積神經(jīng)網(wǎng)絡(luò)提取有用特征,對(duì)信道進(jìn)行動(dòng)態(tài)分配,有效地減少阻塞率,提高了頻譜效率。目前,機(jī)器學(xué)習(xí)方法可以充分利用大數(shù)據(jù)的優(yōu)勢(shì),模擬人類的學(xué)習(xí)行為,挖掘數(shù)據(jù)隱藏信息,以獲取新的知識(shí),然后對(duì)已有的知識(shí)結(jié)構(gòu)進(jìn)行重組,不斷地改善自身的性能。此外,機(jī)器學(xué)習(xí)還可以實(shí)現(xiàn)動(dòng)態(tài)實(shí)時(shí)交互,具有很強(qiáng)的泛化能力,在無(wú)線資源分配應(yīng)用中凸顯優(yōu)勢(shì)。
本文考慮優(yōu)化蜂窩網(wǎng)的傳輸速率和系統(tǒng)能耗,基于深度強(qiáng)化學(xué)習(xí)提出了一種全新的蜂窩網(wǎng)資源分配算法,該算法分為兩部分,即前向傳輸過(guò)程和反向訓(xùn)練過(guò)程。在前向傳輸過(guò)程中,考慮優(yōu)化蜂窩網(wǎng)傳輸速率,采用增廣拉格朗日乘子法,構(gòu)建頻率分配、功率分配和拉格朗日乘子的迭代更新數(shù)據(jù)流,在此基礎(chǔ)上,構(gòu)造DNN。在反向訓(xùn)練過(guò)程中,將能量效率作為獎(jiǎng)懲值,構(gòu)建誤差函數(shù)來(lái)反向訓(xùn)練DNN的權(quán)值。前向傳輸過(guò)程和反向訓(xùn)練過(guò)程反復(fù)迭代,直到滿足收斂條件時(shí),輸出最優(yōu)資源分配方案。本文所提算法可以通過(guò)調(diào)整誤差函數(shù)中的折扣因子來(lái)自主設(shè)置頻譜分配策略的偏重程度,收斂速度快,在傳輸速率和系統(tǒng)能耗的優(yōu)化方面明顯優(yōu)于其他算法,能夠有效地解決多目標(biāo)優(yōu)化問(wèn)題。
考慮蜂窩網(wǎng)的下行鏈路,假設(shè)蜂窩移動(dòng)通信系統(tǒng)中有M個(gè)微基站和N個(gè)授權(quán)移動(dòng)用戶,用戶隨機(jī)分布在小區(qū)內(nèi),所有基站和用戶都為單天線系統(tǒng)。在每個(gè)小區(qū)內(nèi)采用正交頻分復(fù)用(OFDM,orthogonal frequency division multiplexing),每個(gè)頻率只分配給一個(gè)用戶使用,其他小區(qū)可以重復(fù)使用頻率,即采用完全頻率重用方案,因此從實(shí)際出發(fā),綜合考慮蜂窩網(wǎng)中所有基站對(duì)移動(dòng)用戶造成的干擾情況。系統(tǒng)采用集中式控制,信道增益、噪聲功率等精確信道狀態(tài)信息未知,每個(gè)授權(quán)移動(dòng)用戶僅將位置信息、干擾和傳輸速率通過(guò)導(dǎo)頻信號(hào)傳輸給中心控制節(jié)點(diǎn),由中心控制節(jié)點(diǎn)制定頻譜分配方案。為了建設(shè)綠色網(wǎng)絡(luò),系統(tǒng)在最大化傳輸速率的過(guò)程中,還需要考慮能耗問(wèn)題,具體的系統(tǒng)模型如圖1所示。
假設(shè)m={1,2,…,M}表示微基站的集合,n={1,2,…,N}表示移動(dòng)用戶的集合,k={1,2,…,K}表示可用頻率的集合?;緈中的移動(dòng)用戶n使用頻率k通信時(shí),干擾信號(hào)為
圖1 系統(tǒng)模型
其中,Li,j表示移動(dòng)用戶j與基站i的接入關(guān)系,若移動(dòng)用戶j接入基站i,則Li,j=1 ,反之表示基站i內(nèi)頻率k的分配情況,若基站i把頻率k分給移動(dòng)用戶j,則=1,反之=0;表 示基站i使用頻率k與用戶j通信時(shí)的功率;表示基站i使用頻率k與用戶n通信時(shí)的信道增益。
系統(tǒng)總體的傳輸速率可以表示為
采用文獻(xiàn)[8]提出的能量效率來(lái)衡量系統(tǒng)能耗,即將每焦耳的能量最多能攜帶多少比特(單位為bit/J)作為衡量標(biāo)準(zhǔn),則系統(tǒng)總體的能量效率可以表示為
根據(jù)系統(tǒng)優(yōu)化目標(biāo),在基站子載波發(fā)射功率之和滿足最大發(fā)射功率約束的條件下,要解決的多目標(biāo)優(yōu)化問(wèn)題描述如式(4)~式(6)所示。
本文除了考慮傳輸速率外,還綜合考慮能耗,于是資源分配問(wèn)題變成了NP-hard問(wèn)題,難以求得最優(yōu)解。目前研究熱點(diǎn)是將該問(wèn)題轉(zhuǎn)化為求解其次優(yōu)解,但是求解復(fù)雜度高,影響系統(tǒng)運(yùn)行效率[9],本文采用深度強(qiáng)化學(xué)習(xí)方法來(lái)求解該問(wèn)題。
深度強(qiáng)化學(xué)習(xí)將深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,不斷以試錯(cuò)的方式與環(huán)境進(jìn)行交互,通過(guò)最大化累積獎(jiǎng)賞的方式來(lái)獲得最優(yōu)策略[10]。本文采用深度Q網(wǎng)絡(luò)(DQN,deep Q-network)來(lái)具體求解資源分配問(wèn)題,核心思想是將值網(wǎng)絡(luò)作為評(píng)判模塊,基于值網(wǎng)絡(luò)來(lái)遍歷當(dāng)前觀測(cè)狀態(tài)下的各種動(dòng)作,與環(huán)境進(jìn)行實(shí)時(shí)交互,將狀態(tài)、動(dòng)作和獎(jiǎng)懲值存儲(chǔ)在記憶單元中,采用Q-learning算法來(lái)反復(fù)訓(xùn)練值網(wǎng)絡(luò),最后選擇能獲得最大價(jià)值的動(dòng)作作為輸出。基于深度強(qiáng)化學(xué)習(xí)的資源分配算法的基本框架如圖2所示。
圖2 基于深度強(qiáng)化學(xué)習(xí)的資源分配算法的基本框架
在圖2中,st為算法進(jìn)行到第t(t=1,2,...,T)步時(shí)所對(duì)應(yīng)的觀測(cè),at為觀測(cè)st下所執(zhí)行的動(dòng)作,rt為觀測(cè)st下執(zhí)行動(dòng)作at后,所獲取的獎(jiǎng)賞/懲罰,值網(wǎng)絡(luò)采用DNN來(lái)描述,即將DNN作為動(dòng)作狀態(tài)值函數(shù)
算法采用Q-learning學(xué)習(xí)機(jī)制[11],主要根據(jù)如式(7)所示的迭代式來(lái)實(shí)現(xiàn)動(dòng)作狀態(tài)值函數(shù)的優(yōu)化學(xué)習(xí)。
其中,αk是學(xué)習(xí)速率,γ∈(0,1)為折扣因子,s'為執(zhí)行動(dòng)作at后獲得的觀測(cè)值,a′為動(dòng)作集合∧中使得第k次迭代下的動(dòng)作狀態(tài)值函數(shù)在觀測(cè)值s'下可執(zhí)行的動(dòng)作。從式(7)可以看出,要實(shí)現(xiàn)動(dòng)作狀態(tài)值函數(shù)的逼近,即
因此,本文將式(9)作為誤差函數(shù),通過(guò)求解誤差梯度,即采用梯度下降法來(lái)更新DNN中的參數(shù),求得動(dòng)作狀態(tài)值函數(shù)的最優(yōu)解。
對(duì)于系統(tǒng)模型中給出的多目標(biāo)優(yōu)化問(wèn)題,基于深度強(qiáng)化學(xué)習(xí)的資源分配算法主要分成 2個(gè)過(guò)程來(lái)求解,分別是前向傳輸過(guò)程和反向訓(xùn)練過(guò)程。在前向傳輸過(guò)程中,本文以傳輸速率最大化為優(yōu)化目標(biāo),利用式(4)和式(6)構(gòu)造 DNN;在反向訓(xùn)練過(guò)程中,將能量效率作為獎(jiǎng)懲值,利用式(9)來(lái)反向訓(xùn)練DNN。
3.2.1 前向傳輸過(guò)程
構(gòu)造DNN是前向傳輸過(guò)程的核心,主要分成以下7個(gè)步驟。
1)考慮到每個(gè)微基站在所有信道上的發(fā)射功率之和不能超過(guò)其最大發(fā)射功率,依據(jù)式(4)和式(6),系統(tǒng)傳輸速率最優(yōu)化問(wèn)題表示為
約束條件為
2)采用增廣拉格朗日乘子法將約束優(yōu)化問(wèn)題轉(zhuǎn)化為無(wú)約束優(yōu)化問(wèn)題,構(gòu)造的增廣拉格朗日函數(shù)表示為
其中,μ={μm,?m∈{ 1,2,… ,M}}為拉格朗日乘子,η為懲罰因子,從而把求解約束優(yōu)化問(wèn)題轉(zhuǎn)化為求解無(wú)約束優(yōu)化問(wèn)題,即
此外,拉格朗日乘子迭代方程式為
4)將移動(dòng)用戶與基站的接入關(guān)系Lm,n和移動(dòng)用戶干擾信息作為輸入,各基站內(nèi)頻率分配、功率分配和拉格朗日乘子μ根據(jù)式(15)m和式(16),依次迭代,形成如下數(shù)據(jù)流。
5)根據(jù)迭代更新數(shù)據(jù)流來(lái)構(gòu)造DNN,如圖3所示。DNN包括輸入層、頻率分配層、功率分配層、乘子層和輸出層,深度取決于頻率分配、功率分配和拉格朗日乘子μ的迭代更新次數(shù)。DNN中m頻率分配層和功率分配層的權(quán)值參數(shù)為信道增益和噪聲;非線性轉(zhuǎn)換函數(shù)分別為頻率分配、 功率分配和拉格朗日乘子μ的迭代更新方程式。m
6)初始化 DNN 的權(quán)值參數(shù),即將信道增益初始化為瑞利分布,將噪聲初始化為高斯 白噪聲。
7)在時(shí)刻t,將觀測(cè)到的蜂窩網(wǎng)用戶接入信息和干擾信息作為DNN的輸入,設(shè)定閾值θ 、D和最大迭代更新次數(shù)Q1,經(jīng)過(guò)DNN的前向傳輸后,當(dāng)或迭代更新次數(shù)達(dá)到最大迭代更新次數(shù)Q1時(shí),在輸出層輸出一組數(shù)值,每一個(gè)數(shù)值對(duì)應(yīng)一種頻譜分配方案和功率分配方案,從輸出的數(shù)值中尋找出最大數(shù)值,并將最大數(shù)值所對(duì)應(yīng)的頻率分配方案和功率分配方案作為時(shí)刻t的資源分配策略。
3.2.2 反向訓(xùn)練過(guò)程
構(gòu)造誤差函數(shù)來(lái)訓(xùn)練DNN是反向訓(xùn)練過(guò)程的核心,主要分成以下5個(gè)步驟。
1)在執(zhí)行頻率分配方案和功率分配方案后,觀測(cè)系統(tǒng)能量效率,將能量效率作為獎(jiǎng)懲值,即
3)依據(jù)式(9),構(gòu)建如式(18)所示的誤差函數(shù)。
其中,折扣因子 γ ∈ [ 0,1]決定了資源分配策略偏重程度,若采用反向傳播算法使用損失函數(shù)E趨于最小化,當(dāng)γ→0,神經(jīng)網(wǎng)絡(luò)當(dāng)前時(shí)刻輸出的動(dòng)作狀態(tài)值函數(shù))趨近于獎(jiǎng)懲值rt,即資源分配策略偏重于優(yōu)化系統(tǒng)能量效率;當(dāng)γ→ 1 ,獎(jiǎng)懲值rt和神經(jīng)網(wǎng)絡(luò)下一時(shí)刻輸出的動(dòng)作狀態(tài)值函數(shù)占有同樣的比重,此時(shí)資源分配策略綜合優(yōu)化系統(tǒng)能量效率和傳輸速率。
4)設(shè)定閾值θE,將損失函數(shù)值E與閾值θE進(jìn)行比較。若損失函數(shù)值E≥θE,則執(zhí)行5),否則,將選定的頻譜分配方案和功率分配方案作為最優(yōu)資源管理策略,完成蜂窩網(wǎng)資源分配。
5)采用反向傳播算法,使損失函數(shù)值E趨于最小化,沿著損失函數(shù)梯度下降方向逐層修正信道增益和噪聲,若DNN的權(quán)值參數(shù)更新次數(shù)達(dá) 到限定的最大次數(shù)Q2,則將獲得的頻譜分配方案和功率分配方案作為最優(yōu)資源分配策略,完成蜂窩網(wǎng)資源分配,否則,修正好DNN的權(quán)值后,繼續(xù)執(zhí)行DNN的前向傳輸操作。
圖3 DNN的基本架構(gòu)
求得誤差函數(shù)關(guān)于權(quán)值修正的梯度后,利用式(21)更新DNN的權(quán)值
其中,λ為學(xué)習(xí)速率。
本文分別仿真分析了折扣因子對(duì)蜂窩網(wǎng)資源分配策略、基于深度強(qiáng)化學(xué)習(xí)的資源分配算法的收斂性和性能的影響,采用蒙特卡洛方法重復(fù)執(zhí)行1 000次,然后對(duì)結(jié)果取平均值。在每一次算法執(zhí)行過(guò)程中,蜂窩用戶均隨機(jī)分布在系統(tǒng)中,仿真參數(shù)如表1所示。
表1 仿真參數(shù)
首先,分析折扣因子對(duì)資源分配策略的影響。將可用子載波數(shù)設(shè)為4,圖4仿真了折扣因子在[0,1]內(nèi)的取值情況,顯示了折扣因子對(duì)蜂窩網(wǎng)資源分配策略的影響情況,當(dāng)折扣因子取值為0時(shí),資源分配策略偏重于獎(jiǎng)懲值,即偏重優(yōu)化能量效率,此時(shí)獲得的能量效率最高,傳輸速率最低。隨著折扣因子增大,誤差函數(shù)E中,動(dòng)作狀態(tài)值函數(shù)占有比重越來(lái)越大,資源分配策略所獲得的傳輸速率越來(lái)越高,能量效率越來(lái)越低。當(dāng)折扣因子取值為1時(shí),系統(tǒng)獲得的傳輸速率最高,能量效率最低。因此,在仿真過(guò)程中,可以根據(jù)資源分配策略的偏重程度來(lái)合理設(shè)置折扣因子。
圖4 折扣因子對(duì)資源分配策略的影響
其次,分析算法收斂性。將可用子載波數(shù)設(shè)為 4,算法運(yùn)算速度取決于 DNN深度和反向訓(xùn)練DNN的次數(shù)。設(shè)定閾值 θD=θp= 0 .01,圖5顯示了DNN的深度。當(dāng)DNN的深度為6時(shí),差值DNN輸出頻率分配方案和功率分配方案。設(shè)定閾值θE=0.001,圖6顯示了反向訓(xùn)練DNN的次數(shù)。當(dāng)反向訓(xùn)練次數(shù)達(dá)5次時(shí),E< 0 .001,反向訓(xùn)練過(guò)程結(jié)束,輸出最優(yōu)的頻率分配方案和功率分配方案。
圖5 DNN的深度
圖6 DNN的反向訓(xùn)練次數(shù)
最后,分析算法性能。通過(guò)改變子信道數(shù),將本文提出的算法分別從傳輸速率和能量效率兩方面與隨機(jī)分配算法、貪婪算法進(jìn)行比較。圖7和圖8分別給出了傳輸速率和能量效率比較結(jié)果。可以看出,當(dāng)折扣因子為1時(shí),本文提出算法得到的資源分配策略偏重于優(yōu)化傳輸速率,系統(tǒng)獲得的傳輸速率接近于貪婪算法,但是獲得的能量效率高于貪婪算法;雖然獲得的能量效率低于隨機(jī)分配算法,但是傳輸速率高于隨機(jī)分配算法。當(dāng)折扣因子為 0時(shí),本文提出算法得到的資源分配策略偏重于優(yōu)化能量效率,即獎(jiǎng)懲值,雖然系統(tǒng)獲得的傳輸速率相對(duì)較低,但是系統(tǒng)獲得的能量效率高于貪婪算法和隨機(jī)分配算法。
圖7 傳輸速率
圖8 能量效率
為了提高蜂窩網(wǎng)傳輸速率的同時(shí),盡可能地增大能量效率,本文討論了蜂窩網(wǎng)中的資源分配問(wèn)題,提出了一種基于深度強(qiáng)化學(xué)習(xí)的蜂窩網(wǎng)資源分配算法,該算法包括前向傳輸和反向訓(xùn)練2個(gè)過(guò)程。在前向傳輸過(guò)程中,主要構(gòu)建DNN,以最優(yōu)化傳輸速率;在反向訓(xùn)練過(guò)程中,將能量效率作為獎(jiǎng)懲值,采用Q-learning機(jī)制來(lái)構(gòu)建誤差函數(shù),反向訓(xùn)練DNN中的權(quán)值參數(shù)。仿真結(jié)果顯示,本文提出的算法可以通過(guò)設(shè)置折扣因子,自主選擇資源分配策略的偏重程度,收斂速度快,在傳輸速率和系統(tǒng)能耗優(yōu)化方面都明顯優(yōu)于其他算法,有效地解決了蜂窩網(wǎng)資源分配多目標(biāo)優(yōu)化問(wèn)題。